JP7424501B2

JP7424501B2 - 結合テーブル特定システム、結合テーブル探索装置、方法およびプログラム

Info

Publication number: JP7424501B2
Application number: JP2022546785A
Authority: JP
Inventors: 于洋董; 昌史小山田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2024-01-30
Anticipated expiration: 2040-09-02
Also published as: JPWO2022049680A1; US20230394016A1; WO2022049680A1

Description

本発明は、対象とするカラムに結合可能なテーブルを特定する結合テーブル特定システムおよび結合テーブル特定方法、並びに、結合テーブル探索装置、結合テーブル探索方法および結合テーブル探索プログラムに関する。

近年、自身が保有するデータだけでなく、外部データやオープンデータ、データレークなど（以下、外部テーブル群と記す。）を利用したデータ分析が行われている。例えば、ある店舗の商品の売上を予測する場合に、店舗の情報だけでなく、例えば、気象条件や顧客の移動履歴、他社商品に関する動向など、要因となり得るデータを統合することで、予測精度を向上させることが可能になる。そのため、ベースとなる情報に結合可能なテーブルを発見する方法が各種提案されている。

例えば、特許文献１には、二つのテーブルを結合する方法が記載されている。特許文献１に記載された方法では、二つのテーブル間の結合可能な行ペアを決定し、決定された結合可能な行ペアから変換モデルを生成する。そして、生成された変換モデルに基づいて第一のテーブルの列を変換し、変換された第一のテーブルを第二のテーブルと結合する。

また、非特許文献１には、同じエンティティを参照するレコードを発見するエンティティマッチングについて記載されている。非特許文献１に記載された方法では、レコードの類似度を定量化する類似度関数と閾値に冗長性があるという観察結果に基づき、複数存在する類似度関数の中から、最適な類似度関数を選択する。

なお、特許文献２には、テーブルの意味を推定するテーブル意味推定システムが記載されている。

米国特許出願公開第２０１８／０１５７７０６号明細書国際公開第２０１８／０２５７０６号

J.Wang, et al., "Entity Matching: How Similar Is Similar", Proceedings of the VLDB Endowment, pp.622-633, July 2011.

一方、外部テーブル群の各テーブルには、必ずしも統一の表記ルールやスキーマが存在するとは限らない。例えば、ある飲料について、ある店舗が保有するテーブルでは、「商品名」というカラムで管理され、ある分析会社が保有するテーブルでは、「ドリンク名」というカラムで管理されている場合が考えられる。また、飲料の名称についても、飲料の名称単体を保持するレコードもあれば、容量まで含めた飲料の名称を保持しているレコードもあると考えられる。

非特許文献１に記載された方法では、類似度関数を用いて結合するレコード間の類似度を算出する。そして、ある類似度関数により算出された値が閾値Ｔ_ｒより大きい場合に、二つのレコードを結合可能と判定する。また、非特許文献１に記載された方法では、結合を試みる二つのカラムで結合可能と判定されるレコードのペアの数が閾値Ｔ_ｃ以上の場合に、二つのカラムを結合可能と判定する。

ここで、結合元のテーブル（以下、ベーステーブルと記すこともある。）に対し、外部テーブル群から結合可能なテーブルを検索する場合を考える。上述する類似度関数を用いた単純な方法では、ベーステーブルの各カラムの各レコードに対し、外部テーブル群に含まれるすべてのテーブルのカラムにおけるすべてのレコードの類似度を類似度関数で算出することになる。外部テーブル群に含まれるすべてのレコード数をＮ，ベーステーブルの全てのレコード数をＭとすると、計算量はＯ（ＮＭ）である。さらに、複数の類似度関数を用いて類似度を計算する場合、類似度関数の数をＦとすると、計算量はＯ（ＮＭＦ）である。

例えば、非特許文献１に記載された方法を単純に用いた場合、外部テーブル群のレコード数Ｎが巨大なため、結合可能なテーブルを特定するための計算量が膨大になってしまうという問題がある。

そこで、本発明は、対象とするカラムに結合可能なテーブルを特定するためのコストを低減できる結合テーブル特定システムおよび結合テーブル特定方法、並びに、結合テーブル探索装置、結合テーブル探索方法および結合テーブル探索プログラムを提供することを目的とする。

本発明による結合テーブル特定システムは、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を構築する結合索引構築装置と、結合索引を類似度関数ごとに記憶する結合索引記憶部と、結合索引を利用して対象カラムに結合可能なテーブルを外部テーブルの中から探索する結合テーブル探索装置とを備え、結合索引構築装置が、類似度関数ごとに結合索引を生成し、生成された結合索引を結合索引記憶部に記憶させる結合索引生成手段を含み、結合テーブル探索装置が、結合索引記憶部から結合索引の入力を受け付ける入力手段と、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数をその結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定するレコード検索手段とを含み、レコード検索手段は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行うことを特徴とする。

本発明による結合テーブル探索装置は、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を類似度関数ごとに記憶する記憶装置から、その結合索引の入力を受け付ける入力手段と、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定するレコード検索手段とを備え、レコード検索手段が、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行うことを特徴とする。

本発明による結合テーブル特定方法は、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を、類似度関数ごとに生成し、生成された結合索引を結合索引記憶部に記憶させ、結合索引記憶部から結合索引の入力を受け付け、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成し、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定し、レコードの検索において、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行うことを特徴とする。

本発明による結合テーブル探索方法は、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を類似度関数ごとに記憶する記憶装置から、結合索引の入力を受け付け、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成し、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定し、レコードの検索において、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行うことを特徴とする。

本発明による結合テーブル探索プログラムは、コンピュータに、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を類似度関数ごとに記憶する記憶装置から、結合索引の入力を受け付ける入力処理、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する検索プラン生成処理、および、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定するレコード検索処理を実行させ、レコード検索処理で、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行わせることを特徴とする。

本発明によれば、対象とするカラムに結合可能なテーブルを特定するためのコストを低減できる。

本発明による結合テーブル特定システムの一実施形態の構成例を示すブロック図である。結合可能なテーブルを判定する処理の例を示す説明図である。カラムの型を推定する処理の例を示す説明図である。対象カラムの結合テーブルを特定する処理の例を示す説明図である。結合索引構築装置の動作例を示すフローチャートである。結合テーブル探索装置の動作例を示すフローチャートである。本発明による相関テーブル特定システムの一実施形態の構成例を示すブロック図である。相関のあるカラムを抽出する処理の例を示す説明図である。特徴ベクトルを除外するか否か判断する処理の例を示す説明図である。相関テーブルを特定する処理の例を示す説明図である。相関索引構築装置の動作例を示すフローチャートである。相関テーブル探索装置の動作例を示すフローチャートである。本発明によるテーブル統合システムの一実施形態の構成例を示すブロック図である。テーブルを結合する処理の例を示す説明図である。統合テーブル生成装置の動作例を示すフローチャートである。本発明による外部データ活用システムの一実施形態の構成例を示すブロック図である。本発明による結合テーブル特定システムの概要を示すブロック図である。本発明による結合テーブル探索装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
まず、本発明の第一の実施形態を説明する。第一の実施形態では、対象とするカラムに結合可能なテーブルを特定するためのコストを低減させることを目標とする。図１は、本発明による結合テーブル特定システムの一実施形態の構成例を示すブロック図である。本実施形態の結合テーブル特定システム１００は、結合元のテーブル（すなわち、ベーステーブル）に結合可能な外部テーブル（以下、結合テーブルと記す。）を特定するシステムである。より具体的には、結合テーブルは、ベーステーブルに含まれるいずれかのカラムと結合可能なカラムを含むテーブルである。

また、本実施形態の結合テーブル特定システム１００は、レコード間の類似度を算出する関数（以下、類似度関数と記す。）を用いて、レコードが結合可能か否か判断する。類似度関数として、例えば、Ｊａｃｃａｒｄ類似度や編集距離、Ｗｏｒｄ２ｖｅｃに基づいて変換された文字列のユークリッド距離、などが挙げられる。なお、本実施形態で用いられる類似度関数は、これらの３種類の類似度関数に限定されない。

上記に例示するような類似度関数は、それぞれ観点が異なることから、最適な類似度関数を一意に決定できるわけではない。例えば、「ラムネ」と「ラムネ２５０ｍｌ」との類似度は、編集距離の場合０．３７５と算出され、Ｊａｃｃａｒｄ類似度の場合０．５と算出される。一方、「チャンプオレンジ」と「チヤンプオレンジ」との類似度は、編集距離の場合０．８７５と算出され、Ｊａｃｃａｒｄ類似度の場合０．５と算出される。このように、比較するレコードの内容に応じて類似度の値が変わってしまう。

例えば、非特許文献１に記載された方法では、各類似度関数によって算出された類似度のうち、一番大きい類似度が閾値Ｔ_ｒより大きい場合、二つのレコードが結合可能と定義される。図２は、結合可能なテーブルを判定する処理の例を示す説明図である。図２に示では、外部テーブルＦＴ１をベーステーブルＢＴ１に結合可能か判定する例を示す。ここでは、レコードを結合可能か否かの判定に用いられる類似度の閾値Ｔ_ｒ＝０．５とし、カラムを結合可能か否かの判定に用いられるレコードペアの閾値Ｔ_ｃ＝２とする。

例えば、図２に例示する「ラムネ」と「ラムネ２５０ｍｌ」について、Ｊａｃｃａｒｄ類似度が０．５、編集距離が０．３７、Ｗｏｒｄ２ｖｅｃ変換後の類似度が０．８と算出されたとする。この場合、一番大きい類似度が０．８と算出されており、これは、閾値Ｔ_ｒよりも大きいため、二つのレコードが結合可能と判定される。

また、図２に示す例において、「商品名」と「ドリンク名」の二つのカラムが結合可能か否か判定される。ここで、「ラムネ」と「ラムネ２５０ｍｌ」、および、「チャンプオレンジ」と「ＣＨＡＭＰオレンジ」がそれぞれ結合可能と判定され、「マイ・コーラ」がどのレコードとも結合不可と判定されたとする。この場合、結合可能なレコードペアの数が２であることから、閾値Ｔ_ｒ以上であるため、二つのカラムが結合可能と判定される。

しかし、このような判定処理をすべてのレコードに対して単純に行った場合、上述するように、Ｏ（ＮＭＦ）の計算量が必要になってしまう。そこで、本実施形態では、事前に外部テーブル群の索引を構築することで、検索時の計算量（コスト）を低減させる。

図１に例示する結合テーブル特定システム１００は、外部テーブル記憶装置１０と、結合索引構築装置１１０と、結合索引記憶部１２０と、結合テーブル探索装置１３０と、結合テーブル記憶部１４０とを備えている。

外部テーブル記憶装置１０は、ベーステーブルに結合させる候補となる複数の外部テーブル（すなわち、外部テーブル群）を記憶する。外部テーブルの一例が、図２に例示する外部テーブルＦＴ１である。外部テーブル記憶装置１０は、例えば、ストレージサーバ、磁気ディスク等により実現される。

なお、本実施形態では、結合テーブル特定システム１００が外部テーブル記憶装置１０を備えている場合について説明する。ただし、結合索引構築装置１１０は、通信回線を通じて接続されるストレージ（図示せず）等から外部テーブル群を取得してもよい。この場合、結合テーブル特定システム１００は、外部テーブル記憶装置１０を備えていなくてもよい。

結合索引構築装置１１０は、ベーステーブルとの結合に用いられる外部テーブル群の索引（以下、結合索引と記す。）を構築する装置である。結合索引構築装置１１０は、結合カラム候補抽出部１１２と、結合索引生成部１１４とを含む。

結合カラム候補抽出部１１２は、外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムを、結合カラム候補として抽出する。結合カラム候補抽出部１１２は、例えば、外部テーブル群の全てのカラムの型を推定し、推定された型のカラムが他のテーブルのカラムと結合可能か否か判定する。なお、ここでのカラムの型とは、文字の属性を示す「文字列型」や「数値型」のような型であってもよく、カラムが表わしている概念を示すものであってもよい。

カラムの型を推定する方法は任意であり、既知の方法が用いられれば良い。結合カラム候補抽出部１１２は、例えば、特許文献２に記載された方法を用いて、各カラムの型（カラムの意味）を推定してもよい。そして、結合カラム候補抽出部１１２は、例えば、推定されたカラムの型が、予め定めた意味を示す場合や所定の文字の属性（例えば、文字列型）である場合に、そのカラムを結合カラム候補として抽出してもよい。

図３は、カラムの型を推定する処理の例を示す説明図である。例えば、図３に例示するレコードに基づいて、文字列を含むカラム１が「名前」を意味するカラム、数字を含むカラム２が「年齢」を意味するカラム、英数字を含むカラム３が「グレード」を意味するカラムと推定されたとする。

この場合、結合カラム候補抽出部１１２は、「名前」を意味するカラムのデータが結合キーになる可能性が高いと判断し、カラム１を結合カラム候補として抽出してもよい。また、例えば、数値型のカラムやユニークの値が少ないカラムは結合キーになりにくく、文字列型のカラムが結合キーになる可能性が高いことから、結合カラム候補抽出部１１２は、ユニークの値が多くなり得る文字列型のカラム１を結合カラム候補として抽出してもよい。

結合索引生成部１１４は、外部テーブル群の結合索引を生成する。具体的には、結合索引生成部１１４は、抽出された結合カラム候補の結合索引を生成する。このように、索引の対象を結合カラム候補に限定することで、結合索引の生成に要するコストや、生成される結合索引のサイズを低減できる。

本実施形態では、結合索引生成部１１４は、結合索引として、類似度関数により算出される類似度が予め定めた閾値より大きいレコードを検索可能な索引を、類似度関数ごとに作成する。結合索引生成部１１４は、類似度関数に応じた任意の方法により結合索引を生成すればよい。

なお、類似度関数に応じた索引の生成方法は、各種知られている。例えば、Ｊａｃｃａｒｄ類似度を算出する類似度関数に応じた索引として、ｍｉｎＨａｓｈ－ＬＳＨ（Locality-sensitive Hashing）が知られている。また、ユークリッド類似度を算出する類似度関数に応じた索引として、メモリ上にベクトルの集合（行列）を生成しておく方法や、ライブラリ（ＦＡＩＳＳ）が知られている。他にも、完全一致か否か算出する類似度関数に応じた索引として、転置インデックスが知られている。これらの索引の生成法は広く知られているため、ここでは、詳細な説明は省略する。

このように生成された結合索引を探索に用いることで、理論上、計算量をＯ（ＭＦｌｏｇ（Ｎ））に低減でき、高速に検索を行うことが可能になる。結合索引生成部１１４は、生成した結合索引を、結合索引記憶部１２０に記憶させる。

結合カラム候補抽出部１１２と、結合索引生成部１１４とは、プログラム（結合索引生成プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、結合索引構築装置１１０が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、結合カラム候補抽出部１１２および結合索引生成部１１４として動作してもよい。また、結合索引構築装置１１０の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

また、結合カラム候補抽出部１１２と、結合索引生成部１１４とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、結合索引構築装置１１０の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

結合索引記憶部１２０は、類似度関数に応じた結合索引を記憶する。本実施形態では、結合索引記憶部１２０が結合索引構築装置１１０により生成された結合索引を記憶する場合について説明しているが、結合索引記憶部１２０は、他の装置（図示せず）により生成された結合索引を記憶していてもよい。

結合テーブル探索装置１３０は、結合索引を利用して、ベーステーブルで対象とするカラム（以下、対象カラムと記す。）に結合可能なテーブルを、外部テーブル群から探索する。結合テーブル探索装置１３０は、入力部１３２と、検索プラン生成部１３４と、レコード検索部１３６と、結合テーブル出力部１３８とを含む。

入力部１３２は、ベーステーブルに含まれるカラムのうち、外部テーブルとの結合を試みる対象カラムの入力を受け付ける。また、入力部１３２は、結合索引記憶部１２０に記憶された結合索引を読み取る。なお、入力部１３２は、結合索引記憶部１２０以外の他の記憶装置（図示せず）から、結合索引を読み取ってもよい。

検索プラン生成部１３４は、各類似度関数の結合索引を用いた検索の実行前に、対象とするカラムのレコードを分析して、検索時の結合索引の利用順を規定した検索プランを生成する。

まず、検索プラン生成部１３４は、各類似度関数の結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数（以下、結果数と記す。）を、結合索引ごとに算出する。類似度関数の結合索引を用いた結果数の推定方法として、例えば、カーネル密度推定（Kernel Density Estimation ）や、カーディナリティ推定（Cardinality Estimation）などが挙げられる。検索プラン生成部１３４は、これら既知の推定方法を利用して、結合索引ごとに結果数を推定すればよい。

次に、検索プラン生成部１３４は、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する。このように利用順を規定する理由は、以下の通りである。結果数が多いと推定された結合索引を利用して検索を行うことで、結合可能な多くのレコードペアを発見できる可能性が高い。そして、すでに結合可能と判定された外部テーブル群のレコードについては、後続の結合索引で検索対象から除外できるため、検索処理を省略できる。その結果、検索によるコストをさらに低減できる。

例えば、二種類の類似度関数の結合索引Ａ，Ｂが存在するとする。すなわち、類似度関数の数Ｆ＝２である。ここで、外部テーブル群に含まれるすべてのレコード数Ｎ＝１０とし、ベーステーブルの全てのレコード数Ｍ＝１とする。そして、ある対象カラムのレコードに対する結合索引Ａを用いた場合の結果数が２であり、結合索引Ｂを用いた場合の結果数が５であったとする。

結合索引Ａ、結合索引Ｂの順に検索を行った場合、計算量はｌｏｇ（１０）＋ｌｏｇ（８）である。一方、結合索引Ｂ、結合索引Ａの順に検索を行った場合、計算量はｌｏｇ（１０）＋ｌｏｇ（５）である。このように、結果数の結果数の多い順に結合索引の利用順を規定することで、計算量を削減できる。

レコード検索部１３６は、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行う。その際、レコード検索部１３６は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う。そして、レコード検索部１３６は、すべての結合索引を用いて対象カラムのレコードの検索を行った結果、予め定めた閾値Ｔ_ｃ以上のレコードが検索された外部テーブルを結合テーブルと特定する。

図４は、対象カラムの結合テーブルを特定する処理の例を示す説明図である。まず、入力部１３２が対象カラムのレコードＲ１を入力すると、検索プラン生成部１３４は、検索プランを生成する。図４に示す例では、検索プランが「順番１：完全一致結合索引、順番２：Ｊａｃｃａｒｄ類似度結合索引、順番３：ユークリッド距離結合索引」と生成されたとする。

次に、レコード検索部１３６は、検索プランで規定された順に結合索引を用いて、対象カラムのレコードＲ１の検索を行う。ここでは、レコード検索部１３６は、まず、完全一致結合索引を用いて、対象カラムのレコードＲ１の検索を行う。これにより、外部テーブル群で一致するレコード群（以下、第一のレコード群）が検索される。次に、レコード検索部１３６は、Ｊａｃｃａｒｄ類似度結合索引を用いて、第一のレコード群を対象外にして、対象カラムのレコードＲ１の検索を行う。これにより、外部テーブル群で一致するレコード群（以下、第二のレコード群）がさらに検索される。そして、レコード検索部１３６は、ユークリッド距離結合索引を用いて、第一のレコード群および第二のレコード群を対象外にして、対象カラムのレコードＲ１の検索を行う。これにより、外部テーブル群で一致するレコード群（以下、第三のレコード群）がさらに検索される。

この検索により、例えば、図４に例示するように、“ラムネ２５０ｍｌ”というレコードがテーブルＡのカラム１から検索され、“ＨＡＴＡラムネ”というレコードがテーブルＣのカラム３から検索されたとする。レコード検索部１３６は、“ラムネ２５０ｍｌ”というレコードを含むテーブルＡがカラム１で結合可能なテーブル（結合テーブル）と特定し、“ＨＡＴＡラムネ”というレコードを含むテーブルＣがカラム３で結合可能なテーブル（結合テーブル）と特定する。

結合テーブル出力部１３８は、探索された結合テーブルを出力する。結合テーブル出力部１３８は、探索された結合テーブルを結合テーブル記憶部１４０に記憶させてもよい。

結合テーブル記憶部１４０は、ベーステーブルで対象とするカラムに結合可能なテーブルを記憶する。結合テーブル記憶部１４０は、例えば、結合可能なベーステーブルを結合テーブルに対応付けて記憶してもよい。なお、結合テーブル記憶部１４０は、結合テーブル探索装置１３０が探索した結合テーブルを記憶してもよく、他の装置（図示せず）により生成された結合テーブルを記憶してもよい。

結合索引記憶部１２０および結合テーブル記憶部１４０は、例えば、磁気ディスク等により実現される。

入力部１３２と、検索プラン生成部１３４と、レコード検索部１３６と、結合テーブル出力部１３８とは、プログラム（結合テーブル探索プログラム）に従って動作するコンピュータのプロセッサによって実現される。

例えば、プログラムは、結合テーブル探索装置１３０が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部１３２、検索プラン生成部１３４、レコード検索部１３６および結合テーブル出力部１３８として動作してもよい。また、結合テーブル探索装置１３０の機能がＳａａＳ形式で提供されてもよい。

次に、本実施形態の結合テーブル特定システム１００の動作を説明する。図５は、本実施形態の結合索引構築装置１１０の動作例を示すフローチャートである。結合カラム候補抽出部１１２は、外部テーブル群に含まれる各テーブルから結合カラム候補を抽出する（ステップＳ１１）。結合索引生成部１１４は、抽出された結合カラム候補の結合索引を類似度関数ごとに生成する（ステップＳ１２）。そして、結合索引生成部１１４は、生成した結合索引を、結合索引記憶部１２０に記憶させる（ステップＳ１３）。

図６は、本実施形態の結合テーブル探索装置１３０の動作例を示すフローチャートである。入力部１３２は、結合索引記憶部１２０から結合索引の入力を受け付ける（ステップＳ２１）。また、入力部１３２は、ベーステーブルに含まれるカラムのうち、対象カラムの入力を受け付ける（ステップＳ２２）。

検索プラン生成部１３４は、対象カラムのレコードに対して推定される結合索引ごとの結果数を算出する（ステップＳ２３）。そして、検索プラン生成部１３４は、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する（ステップＳ２４）。

レコード検索部１３６は、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行う（ステップＳ２５）。その際、レコード検索部１３６は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う。そして、レコード検索部１３６は、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定する（ステップＳ２６）。

以上のように、本実施形態では、入力部１３２が結合索引の入力を受け付け、検索プラン生成部１３４が結合索引ごとに結果数を算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する。また、レコード検索部１３６が、検索プランで規定された順に結合索引を用いて対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された外部テーブルを結合テーブルと特定する。その際、レコード検索部１３６は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う。よって、対象とするカラムに結合可能なテーブルを特定するためのコストを低減できる。

すなわち、本実施形態の結合テーブル特定システム１００では、異なる類似度関数の結合索引を用いることで探索空間を枝刈りできるため、外部テーブル群から、ベースデータと結合可能なデータを高速かつ高精度で抽出することが可能になる。

実施形態２．
次に、本発明の第二の実施形態を説明する。第二の実施形態では、対象カラムのデータに相関のあるデータから成るカラムを含むテーブルを高速に特定することを目標とする。図７は、本発明による相関テーブル特定システムの一実施形態の構成例を示すブロック図である。本実施形態の相関テーブル特定システム２００は、対象カラムと相関のあるカラムを含む外部テーブル（以下、相関テーブルと記す。）を特定するシステムである。

本実施形態で、対象カラムと相関のあるカラムとは、対象カラムに含まれるデータと何らかの相関関係を有すると想定される外部テーブル群のカラムを意味し、より具体的には、対象カラムに含まれるデータ群の特徴または分布が類似するデータ群を含む外部テーブル群のカラムを意味する。また、この相関には、正の相関および負の相関の何れも含む。

例えば、「売上を予測する」というタスクが存在するとする。このとき、対象カラムはベーステーブルに含まれる売上データを含むカラムになる。そして、売上を目的変数とするような予測モデルが存在する場合、相関のあるカラムとは、その目的変数に影響を与え得る特徴量として用いられる説明変数を含むカラムに対応する。そのため、相関テーブルを特定することで、「売上を予測する」というタスクを実現するための予測モデルに、より効果的な説明変数（特徴量）を加えることができるため、結果としてタスクの性能を向上させることが可能になる。

図８は、相関のあるカラムを抽出する処理の例を示す説明図である。相関のあるカラムを抽出する理由として、外部テーブル群の中で、どのテーブルがタスクの性能向上に役立つか判断することが挙げられる。例えば、仮に、図８に例示するベーステーブルＢＴ２の「商品名」カラムと外部テーブルＦＴ２の「ドリンク名」カラムとを介して各テーブルを結合させたとする。この場合に、外部テーブルＦＴ２の結合カラム以外のカラム（「属性１」カラム、「属性２」カラム）が、ベーステーブルに含まれるカラム「売上」を予測する、というタスクの性能向上に役立つか判断できることが望ましい。

また、本実施形態では、タスクの性能向上に寄与するテーブルを以下のように定義する。すなわち、ある一つの外部テーブルがベーステーブルと閾値Ｔ_ｃ以上の数のレコードを介して結合でき、かつ、その結合によって対応付けられたカラムの中に、目的変数に対応するベーステーブルのカラムとの相関の度合いを示す値（以下、相関値と記す。）が、閾値Ｔ_ｐ以上のカラムが存在するとき、その外部テーブルをタスクの性能向上に寄与するテーブルとする。なお、本実施形態では、主として対象カラムと相関のあるカラムを特定することを目的とし、必ずしも、ベーステーブルとの結合の可否は問わない。また、以下の説明では、この相関値の閾値Ｔ_ｐを相関値閾値と記すこともある。

図７に例示する相関テーブル特定システム２００は、外部テーブル記憶装置１０と、相関索引構築装置２１０と、相関索引記憶部２２０と、相関テーブル探索装置２３０と、相関テーブル記憶部２４０とを備えている。

外部テーブル記憶装置１０は、第一の実施形態と同様、複数の外部テーブル（すなわち、外部テーブル群）を記憶する。外部テーブル記憶装置１０は、例えば、ストレージサーバ、磁気ディスク等により実現される。

なお、本実施形態においても、相関テーブル特定システム２００が外部テーブル記憶装置１０を備えている場合について説明する。ただし、相関索引構築装置２１０は、通信回線を通じて接続されるストレージ（図示せず）等から外部テーブル群を取得してもよい。この場合、相関テーブル特定システム２００は、外部テーブル記憶装置１０を備えていなくてもよい。

相関索引構築装置２１０は、対象カラムと相関のあるカラムの検索に用いられる外部テーブル群の索引（以下、相関索引と記す。）を構築する装置である。相関索引構築装置２１０は、非結合カラム候補抽出部２１２と、相関索引生成部２１４とを含む。

非結合カラム候補抽出部２１２は、外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーにはならないと想定されるレコードを含むカラムを、非結合カラム候補として抽出する。言い換えると、非結合カラム候補抽出部２１２は、第一の実施形態の結合カラム候補抽出部１１２が抽出する結合カラム候補以外のカラムを、非結合カラム候補として抽出する。

第一の実施形態の結合カラム候補抽出部１１２の処理と同様、非結合カラム候補抽出部２１２は、例えば、外部テーブル群の全てのカラムの型を推定し、推定された型のカラムが他のテーブルのカラムと結合可能か否か判定し、結合可能ではないと判定されたときに、そのカラムを非結合カラム候補として抽出してもよい。このとき、非結合カラム候補抽出部２１２は、第一の実施形態の結合カラム候補抽出部１１２と同様、例えば、推定されたカラムの型が、予め定めた意味を示す場合や所定の文字の属性（例えば、数値型）である場合に、そのカラムを非結合カラム候補として抽出してもよい。

例えば、図３に示す例において、非結合カラム候補抽出部２１２は、「年齢」や「グレード」を意味するカラムのデータが結合キーになる可能性が低いと判断し、カラム２およびカラム３を非結合カラム候補として抽出してもよい。また、例えば、数値型のカラムやユニークの値が少ないカラムは結合キーになりにくいことから、結合カラム候補抽出部１１２は、ユニークの値が少ないと想定される数値型のカラム２や文英数字型のカラム３を非結合カラム候補として抽出してもよい。

相関索引生成部２１４は、外部テーブル群の相関索引を生成する。具体的には、相関索引生成部２１４は、抽出された非結合カラム候補の結合索引を生成する。このように、索引の対象を非結合カラム候補に限定することで、相関索引の生成に要するコストや、生成される相関索引のサイズを低減できる。

本実施形態では、相関索引生成部２１４は、相関索引として、外部テーブルの各カラムから、相関値が予め定めた相関値閾値以上のカラムを検索可能な索引を生成する。上述するように、本実施形態では、相関のあるデータから成るカラムを含むテーブルを特定するため、ベーステーブルのカラムとの相関値が閾値Ｔ_ｐ以上のカラムを含むテーブルを高速に特定することを目標とする。しかし、相関値の計算を行うような索引を構築することは難しい。

そこで、相関索引生成部２１４は、まず、各カラムの特徴を示す特徴ベクトルを生成する。ここでは、二つのカラムの特徴ベクトルを、Ｘ，Ｙとする。さらに、相関索引生成部２１４は、生成された特徴ベクトルを標準化したベクトル（以下、標準化ベクトルと記す。）（Ｘ´，Ｙ´）を算出する。また、相関索引生成部２１４は、相関値の計算を行う関数を、標準化したベクトル間の距離に基づいて定義する。すなわち、この処理は、相関値の計算を距離に基づく計算に変換していると言える。

ここで、相関値の計算の行う関数をｃｏｒｒ（Ｘ´，Ｙ´）とし、距離の計算を行う関数をｄ（Ｘ´，Ｙ´）とする。このとき、ｄ（Ｘ´，Ｙ´）を、ユークリッド距離を算出する関数とした場合、相関索引生成部２１４は、例えば、非特許文献１に記載されているように、相関値を以下に例示する式１のように算出してもよい。

このように、相関索引生成部２１４は、距離を用いて相関値を算出する関数を定義し、定義された関数を用いて、対象カラムの特徴ベクトルとの距離により算出される相関値が相関値閾値以上のカラムを検索する相関索引を生成する。また、この定義に合わせ、相関索引生成部２１４は、相関値閾値Ｔ_ｐを変換し、以下に例示する式２のように閾値Ｔ_ｄを定義してもよい。すなわち、

である。なお、以下の説明では、相関値閾値Ｔ_ｐに基づいて定められる閾値Ｔ_ｄのことを、距離閾値と記すこともある。

したがって、相関索引生成部２１４は、閾値距離Ｔ_ｄ以下と算出されるカラム同士を相関のあるカラムとすればよい。このように、ユークリッド距離に基づいて相関値を計算できるようにすることで、例えば、第一の実施形態で説明したような既知の方法（類似度関数に応じた索引の生成方法）を利用して、予め定めた閾値以上の相関値のレコードを検索できるような索引を生成することが可能になる。

なお、ここでは、相関値をユークリッド距離に基づいて算出する方法を説明した。ただし、相関値の算出方法は、ユークリッド距離に基づく方法に限定されない。予め定めた閾値以上の相関値のレコードを検索可能な索引を生成できる方法であれば、相関値の算出方法は任意である。

そして、相関索引生成部２１４は、標準化ベクトル（Ｘ´，Ｙ´）に基づいて相関索引を生成する。このような相関索引を生成することで、外部テーブル群から、対象カラムとの距離が閾値Ｔ_ｄより小さいカラムを高速に検索することが可能になる。

なお、このような相関索引を用いる場合、単純には、対象カラムに対し外部テーブル群の全てのカラムとの距離を算出し、算出した距離を閾値Ｔ_ｄと比較する必要がある。外部テーブル群すべてのカラム数をＣとすると、計算量はＯ（Ｃ）である。

さらに検索速度を向上させるため、距離の索引を生成することも考えられる。しかし、外部テーブル群と結合するカラムは、事前には不明であるため、距離の索引を使用することでは、この問題を解決できない。そこで、本実施形態では、比較するカラム内のデータ量を削減して検索に必要な計算コストを低減できるような相関索引を作成する。

まず、相関索引生成部２１４は、標準化ベクトル（Ｘ´，Ｙ´）の要素の小さい順に所定の要素を抽出し、抽出した要素に基づいて相関索引を構築する。相関索引の構築方法は、第一の実施形態で結合索引を生成する方法と同様である。相関索引生成部２１４は、例えば、抽出した要素に基づいて、上記に示すユークリッド距離検索の相関索引を生成してもよい。

以下の説明では、抽出される要素の数をサイズと記し、特徴ベクトル（標準化ベクトル）から所定のサイズの要素が小さい順に抽出されたベクトルをサイズ別ベクトルと記す。また、サイズ別ベクトルに基づいて生成される相関索引のことをサイズ別相関索引と記す。すなわち、相関索引生成部２１４は、標準化ベクトルの要素から所定のサイズの要素を小さい順に抽出したサイズ別ベクトルを生成し、生成されたサイズ別ベクトルからサイズ別相関索引を生成する。なお、サイズ別ベクトルからサイズ別相関索引を生成する方法は、距離が予め定めた閾値以上のカラムを検索可能な索引を作成する方法と同様である。

このように生成されるサイズ別相関索引は、カラム間の相関の度合いを示す相関値が相関値閾値Ｔ_ｐ以上のカラムを外部テーブルから検索可能な索引であり、各カラムの特徴ベクトルの要素のうち予め定めたサイズの要素を小さい順に抽出したサイズ別ベクトルからサイズごとに生成される索引である。また、サイズ別相関索引は、サイズ別ベクトルとの距離が相関値閾値Ｔ_ｐに基づいて定められる距離閾値Ｔ_ｄ以内のカラムを抽出する索引である。

相関索引生成部２１４は、予め定めた数の要素を標準化ベクトルから抽出してもよく、各カラムの要素数の分布に基づいて抽出する要素の数（サイズ）を決定してもよい。相関索引生成部２１４は、例えば、要素の数の最大値、要素の数の最小値、要素の数の平均値を、それぞれサイズと決定してもよい。また、相関索引生成部２１４は、サイズ別相関索引を１つ生成してもよく、複数生成してもよい。

例えば、４つのカラムＰ１～Ｐ４が存在するものとし、Ｐ１の要素の数が６、Ｐ２の要素の数が５、Ｐ３の要素の数が４、Ｐ４の要素の数が２であったとする。このとき、相関索引生成部２１４は、要素の数の最大値６のサイズの相関索引、要素の数の最小値２のサイズの相関索引、および、平均値４のサイズの相関索引を、それぞれ生成してもよい。

以下、相関索引を生成する方法を、具体例を挙げて説明する。いま、Ａ＝［５，１，２，３，４，７］と、Ｂ＝［０，７，５，３，４，９］の二つのカラム（特徴ベクトル）が存在するものとし、サイズ２、サイズ４およびサイズ６の相関索引を生成するものとする。この時、相関索引生成部２１４は、以下に例示する３種類のサイズの相関索引を生成してもよい。
－サイズ２の相関索引：Ａ［１，２］、Ｂ［０，３］
－サイズ４の相関索引：Ａ［１，２，３，４］、Ｂ［０，３，４，５］
－サイズ６の相関索引：Ａ［１，２，３，４，５，７］、Ｂ［０，３，４，５，７，９］

また、相関索引生成部２１４は、対応するサイズの要素が存在する相関索引のみ生成してもよい。例えば、上述する４つのカラムＰ１～Ｐ４について、それぞれ、Ｐ１＝［０，１，２，３，４，５］、Ｐ２＝［３，４，５，６，７］、Ｐ３＝［１，２，３，３］、Ｐ４＝［０，１］であったとする。このとき、相関索引生成部２１４は、以下に例示する相関索引を生成してもよい。
－サイズ２の相関索引：Ｐ１［０，１］、Ｐ２［３，４］、Ｐ３［１，２］、Ｐ４［０，１］
－サイズ４の相関索引：Ｐ１［０，１，２，３］、Ｐ２［３，４，５，６］、Ｐ３［１，２，３，３］
－サイズ６の相関索引：Ｐ１［０，１，２，３，４，５］

相関索引生成部２１４は、生成した相関索引を相関索引記憶部２２０に記憶させる。また、相関索引生成部２１４は、生成したサイズ別相関索引を相関索引記憶部２２０に記憶させる。

非結合カラム候補抽出部２１２と、相関索引生成部２１４とは、プログラム（相関索引生成プログラム）に従って動作するコンピュータのプロセッサによって実現される。例えば、プログラムは、相関索引構築装置２１０が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、非結合カラム候補抽出部２１２および相関索引生成部２１４として動作してもよい。また、相関索引構築装置２１０の機能がＳａａＳ形式で提供されてもよい。

相関索引記憶部２２０は、相関索引、および、サイズ別相関索引を記憶する。本実施形態では、相関索引記憶部２２０が相関索引構築装置２１０により生成された相関索引およびサイズ別相関索引を記憶する場合について説明しているが、相関索引記憶部２２０は、他の装置（図示せず）により生成された相関索引およびサイズ別相関索引を記憶していてもよい。

相関テーブル探索装置２３０は、相関索引を利用して、ベーステーブルで対象とするカラム（すなわち、対象カラムと記す。）と相関のあるカラムを含むテーブルを、外部テーブル群から探索する。相関テーブル探索装置２３０は、入力部２３２と、索引特定部２３４と、候補カラム検索部２３６と、相関テーブル出力部２３８とを含む。

入力部２３２は、ベーステーブルに含まれるカラムのうち、相関がある外部テーブル群のカラムを探索する対象カラムの入力を受け付ける。また、入力部２３２は、相関索引記憶部２２０に記憶された相関索引を読み取る。なお、入力部２３２は、相関索引記憶部２２０以外の他の記憶装置（図示せず）から、相関索引を読み取ってもよい。

索引特定部２３４は、検索に用いる相関索引を特定する。具体的には、索引特定部２３４は、ベーステーブルと外部テーブルとを結合する際に結合可能と判定されるレコードのペア数の閾値Ｔ_ｃに基づいて、検索に用いる相関索引を特定する。なお、閾値Ｔ_ｃの値は、ユーザ等により予め定められる。

索引特定部２３４は、閾値Ｔ_ｃの値と同じサイズの結合索引を検索に用いると決定してもよい。なお、閾値Ｔ_ｃの値と同じサイズの結合索引が存在しない場合、索引特定部２３４は、閾値Ｔ_ｃの値よりも小さいサイズの結合索引の中で、最も大きなサイズの結合索引を検索に用いると決定してもよい。閾値Ｔ_ｃの値よりも小さいサイズの結合索引を用いることで、候補とするカラムの全てのデータを検索できることが保証されるからである。

例えば、上述するサイズ２の相関索引、サイズ４の相関索引およびサイズ６の相関索引が存在する状況で、Ｔ_ｃ＝３と定められているとする。このとき、索引特定部２３４は、サイズが３以下のサイズ２の相関索引を検索に用いると決定する。

このように決定するのは、以下の理由による。閾値Ｔ_ｃが与えられた場合、外部テーブルと結合するカラムのサイズは、必ずＴ_ｃ以上になる。そのため、目的変数を含むカラムの要素と、特徴ベクトルの要素とを、小さい順に列挙することで、距離の下限を計算することができる。そして、距離の下限を閾値Ｔ_ｄと比較することで、特徴ベクトル（すなわち、外部テーブルの各カラム）を除外するか否か判断できる。

図９は、特徴ベクトルを除外するか否か判断する処理の例を示す説明図である。図９に例示するベーステーブルＢＴ３の「売上」カラムのデータ、および、外部テーブルＦＴ３の「属性１」カラムおよび「属性２」カラムのデータは、それぞれ標準化されたデータであるとする。すなわち、図９に例示する破線で囲まれたそれぞれが、特徴ベクトルに対応する。

図９に例示するように、目的変数として用いられる「売上」カラムの特徴ベクトルが［１，３，５］であり、「属性１」カラムの特徴ベクトルが［２，１，５］、「属性２」カラムの特徴ベクトルが［９，７，４］であるとする。また、閾値Ｔ_ｃ＝２、閾値Ｔ_ｄ＝２と定められているとする。

初期状態では、ベーステーブルＢＴ３の「商品名」カラムと外部テーブルＦＴ３の「ドリンク名」カラムとが結合可能か否かは不明である。言い換えると、ベーステーブルＢＴ３のレコードと、外部テーブルＦＴ３のどのレコードとが結合するか不明である。

このような状態であっても、「売上」カラムと「属性１」カラムの距離の下限は、値の小さい要素同士で比較することにより、ｄ（［１，３］，［１，２］）＝１と算出できる。この値は、閾値Ｔ_ｄ＝２より小さいため、相関のあるカラムである可能性がある。よって、「属性１」カラムは、後続の処理を行うべき対象であると判断される。

一方、「売上」カラムと「属性２」カラムの距離の下限は、値の小さい要素同士で比較することにより、ｄ（［１，３］，［４，７］）＝３と算出できる。この値は、閾値Ｔ_ｄ＝２より大きいため、他のどの要素で距離を算出しても、その距離はＴ_ｄより小さくなることはない。よって、「属性２」カラムは、相関のないカラムと判断され、後続の処理から除外することが可能になる。

候補カラム検索部２３６は、外部テーブル群に対し、対象カラムについて決定された相関索引を用いた検索を行い、相関があると想定される候補のカラムを検索する。具体的には、候補カラム検索部２３６は、相関索引を用いて予め定めた閾値（ここでは、距離閾値Ｔ_ｄ）以上のカラムを外部テーブル群から検索する。なお、相関索引（例えば、ユークリッド距離検索の相関索引）を用いて予め定めた閾値（ここでは、距離閾値Ｔ_ｄ）以上のカラムを検索する方法は広く知られているため、ここでは詳細な説明は省略する。

そして、候補カラム検索部２３６は、対象カラムと、検索されたカラムとの相関値を計算し、予め定めた閾値（ここでは、相関値の閾値Ｔ_ｐ）以上のカラムを候補カラムとして特定する。このように、候補カラム検索部２３６が相関索引によりカラムを検索し、検索されたカラムについて相関値を計算することで、より相関があると想定されるカラムに限定して相関値を算出できるため、計算コストを削減することが可能になる。

相関テーブル出力部２３８は、候補カラムを含む外部テーブルを相関テーブルとして出力する。相関テーブル出力部２３８は、相関テーブルを相関テーブル記憶部２４０に記憶させてもよい。

図１０は、相関テーブルを特定する処理の例を示す説明図である。図１０に示す例では、ベーステーブルの対象カラムＲ２が目的変数である「売上」を示すカラムであり、閾値Ｔ_ｃ＝３であるとする。この場合、索引特定部２３４は、閾値以下のサイズ２の相関索引を検索に用いると決定する。

候補カラム検索部２３６は、サイズ２の相関索引を用いて、高相関の特徴量を含むカラムを検索する。図１０に示す例では、テーブルＡのカラム２が特徴量ａを含むカラムとして検索され、テーブルＣのカラム５が特徴量ｂを含むカラムとして検索されたことを示す。そして、候補カラム検索部２３６は、対象カラムと候補カラムとの間で改めて相関値を計算し、相関テーブル出力部２３８は、候補カラムを含むテーブルＡおよびテーブルＣを出力する。

相関テーブル記憶部２４０は、候補カラムを含む相関テーブルを記憶する。相関テーブル記憶部２４０は、相関があるカラム（すなわち、候補カラム）を、ベーステーブルの対象カラムと対応付けて記憶してもよい。相関テーブル記憶部２４０は、例えば、上記に示す例では、タスクの目的変数になり得る対象カラムである「売上」カラムと、相関テーブル内の候補カラムとを対応付けて記憶してもよい。なお、相関テーブル記憶部２４０は、相関テーブル探索装置２３０が出力した相関テーブルを記憶してもよく、他の装置（図示せず）により生成された相関テーブルを記憶してもよい。

相関索引記憶部２２０および相関テーブル記憶部２４０は、例えば、磁気ディスク等により実現される。

入力部２３２と、索引特定部２３４と、候補カラム検索部２３６と、相関テーブル出力部２３８とは、プログラム（相関テーブル探索プログラム）に従って動作するコンピュータのプロセッサによって実現される。

例えば、プログラムは、相関テーブル探索装置２３０が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２３２、索引特定部２３４、候補カラム検索部２３６および相関テーブル出力部２３８として動作してもよい。

次に、本実施形態の相関テーブル特定システム２００の動作を説明する。図１１は、本実施形態の相関索引構築装置２１０の動作例を示すフローチャートである。非結合カラム候補抽出部２１２は、外部テーブルから非結合カラム候補を抽出する（ステップＳ３１）。相関索引生成部２１４は、非結合カラム候補の特徴を示す特徴ベクトルを生成し（ステップＳ３２）、生成された特徴ベクトルを標準化した標準化ベクトルを生成する（ステップＳ３３）。

また、相関索引生成部２１４は、生成された標準化ベクトルの要素から所定のサイズの要素を小さい順に抽出したサイズ別ベクトルを生成し（ステップＳ３４）、生成されたサイズ別ベクトルからサイズごとにサイズ別相関索引を生成する（ステップＳ３５）。そして、相関索引生成部２１４は、生成したサイズ別相関索引を相関索引記憶部２２０に記憶させる（ステップＳ３６）。

図１２は、本実施形態の相関テーブル探索装置２３０の動作例を示すフローチャートである。入力部２３２は、ベーステーブルに含まれるカラムのうち、対象カラムの入力を受け付ける（ステップＳ４１）。索引特定部２３４は、相関索引記憶部２２０に記憶されたサイズ別相関索引の中から、レコードのペア数の閾値Ｔ_ｃに基づいて、検索に用いるサイズ別相関索引を特定する（ステップＳ４２）。入力部２３２は、特定されたサイズ別相関索引の入力を受け付ける（ステップＳ４３）。

候補カラム検索部２３６は、特定されたサイズ別相関索引を用いて、対象カラムに対して距離閾値以下のカラムを外部テーブルから検索する（ステップＳ４４）。候補カラム検索部２３６は、検索されたカラムと対象カラムとの相関値を計算し（ステップＳ４５）、その相関値が相関値閾値以上のカラムを候補カラムとして検索する（ステップＳ４６）。そして、相関テーブル出力部２３８は、候補カラムを含む外部テーブルを相関テーブルとして出力する（ステップＳ４７）。

以上のように、本実施形態では、入力部２３２がサイズ別相関索引の入力を受け付け、索引特定部２３４が、サイズ別相関索引の中から、レコードのペア数の閾値Ｔ_ｃに基づいて、検索に用いるサイズ別相関索引を特定する。また、候補カラム検索部２３６が、特定されたサイズ別相関索引を用いて、対象カラムとの距離が距離閾値Ｔ_ｄ以下のカラムを外部テーブルから検索し、検索されたカラムと対象カラムとの相関の度合いを示す相関値を計算し、その相関値が相関値閾値Ｔ_ｐ以上のカラムを候補カラムとして検索する。そして、相関テーブル出力部２３８が、候補カラムを含む外部テーブルを出力する。よって、対象とするカラムのデータに相関のあるデータを含むテーブルを高速に特定できる。

また、本実施形態では、相関索引生成部２１４が相関索引を生成する。その際、相関索引生成部２１４は、外部テーブルの各カラムの特徴を示す特徴ベクトルを生成し、生成された特徴ベクトルを標準化した標準化ベクトルを生成し、生成された標準化ベクトルの要素から所定のサイズの要素を小さい順に抽出したサイズ別ベクトルを生成し、生成されたサイズ別ベクトルからサイズ別相関索引を生成する。また、相関索引生成部２１４、相関値を算出する関数をサイズ別ベクトルとの距離を用いて定義し、定義された関数を用いて、対象カラムの特徴ベクトルとサイズ別ベクトルとの距離により算出される相関値が相関値閾値以上である外部テーブルのカラムを検索する相関索引を生成する。このような相関索引（サイズ別相関索引）を予め生成しておくことで、相関テーブル探索装置２３０が、対象とするカラムのデータに相関のあるデータを含むテーブルを高速に特定することを可能にする。

実施形態３．
次に、本発明の第三の実施形態を説明する。第三の実施形態では、対象とするカラムを含むテーブルに対し、相関のあるデータを効率的に統合することを目標とする。図１３は、本発明によるテーブル統合システムの一実施形態の構成例を示すブロック図である。本実施形態のテーブル統合システム３００は、ベーステーブルに含まれる対象カラムと相関のあるカラムを統合するシステムである。

本実施形態において、ベーステーブルに外部テーブルを統合するとは、第一の実施形態で示すように、ベーステーブルに対して結合可能な外部テーブル（すなわち、結合テーブル）を結合させて、新たなテーブルを生成する処理を示す。

また、本実施形態において、対象カラムとは、想定するタスクで対象とするデータからなるカラムであり、例えば、予測モデルの目的変数を含むカラムである。また、タスクとは、選択された特徴量を用いて行われる回帰や分類などの予測（推定）処理を意味し、具体的には、予測モデルを示す関数などで与えられる。

また、本実施形態において、対象カラムと相関のあるカラムとは、第二の実施形態と同様、対象カラムに含まれるデータと何らかの相関関係を有すると想定される外部テーブル群のカラムを意味し、より具体的には、対象カラムに含まれるデータ群の特徴または分布が類似するデータ群を含む外部テーブル群のカラムを意味する。また、この相関には、正の相関および負の相関の何れも含む。

また、相関のあるカラムとは、第二の実施形態と同様、その目的変数に影響を与え得る特徴量として用いられる説明変数を含むカラムに対応することから、このようなカラムをベーステーブルに統合することで、結果としてタスクの性能を向上させることが可能になる。

図１３に例示するテーブル統合システム３００は、テーブル記憶装置２０と、統合テーブル生成装置３１０と、統合テーブル記憶部３３０とを備えている。

テーブル記憶装置２０は、複数の外部テーブル（すなわち、外部テーブル群）を記憶する。なお、本実施形態のテーブル記憶装置２０は、第一の実施形態および第二の実施形態の外部テーブル記憶装置１０とは異なり、所定の観点から抽出された外部テーブル群を記憶する。テーブル記憶装置２０は、結合テーブル記憶部２１と、相関テーブル記憶部２２とを含む。

結合テーブル記憶部２１は、第一の実施形態で示す結合テーブル（すなわち、ベーステーブルに結合可能な外部テーブル）を記憶する。なお、結合テーブル記憶部２１は、結合可能なベーステーブルを結合テーブルに対応付けて記憶しているものとする。結合テーブル記憶部２１は、第一の実施形態の結合テーブル特定システム１００により特定された結合テーブルを記憶していてもよく、他のシステム（図示せず）等により生成された結合テーブルを記憶していてもよい。

相関テーブル記憶部２２は、第二の実施形態で示す相関テーブル（すなわち、対象カラムと相関のあるカラムを含む外部テーブル）を記憶する。相関テーブル記憶部２２は、第二の実施形態の相関テーブル特定システム２００により特定された相関テーブルを記憶していてもよく、他のシステム（図示せず）等により生成された相関テーブルを記憶していてもよい。

本実施形態では、相関テーブル記憶部２２は、第二の実施形態に示すように、対象カラムのデータと相関があるデータを含むカラム（すなわち、候補カラム）を、ベーステーブルの対象カラムと対応付けて記憶しているとする。また、本実施形態の相関テーブル記憶部２２は、対象カラムと相関のあるテーブルのカラムが特定できる情報を記憶していればよく、必ずしも各カラムのデータを記憶していなくてもよい。すなわち、相関テーブル記憶部２２は、第二の実施形態で示す候補カラム（すなわち、対象カラムとの相関値が、予め定めた閾値Ｔ_ｐ以上のカラム）を記憶していればよい。

本実施形態では、結合テーブルは、例えば、第一の実施形態で示す方法により予め生成され、結合テーブル記憶部２１に記憶されているものとする。また、候補カラムも、例えば、第二の実施形態で示す方法により予め生成され、相関テーブル記憶部２２に記憶されているものとする。

統合テーブル生成装置３１０は、ベーステーブルと候補カラムとを結合した統合テーブルを生成する装置である。統合テーブル生成装置３１０は、入力部３１２と、テーブル結合部３１４と、特徴量加工部３１６と、特徴量選択部３１８と、統合テーブル出力部３２０とを含む。

入力部３１２は、ベーステーブルの入力および対象カラムの指定を受け付ける。また、入力部３１２は、結合テーブルおよび候補カラムの入力を受け付ける。なお、入力部３１２は、タスクの目的変数の指定を受け付けてもよい。この場合、入力部３１２は、指定された目的変数から対応するベーステーブルの対象カラムを特定してもよい。

また、入力部３１２は、ベーステーブルの入力および対象カラムの指定を受け付けた場合、入力されたベーステーブルの結合テーブルを結合テーブル記憶部２１から取得し、対象カラムの候補カラムを相関テーブル記憶部２２から取得してもよい。

テーブル結合部３１４は、結合テーブルのうち候補カラムに対応するカラムをベーステーブルに結合する。具体的には、テーブル結合部３１４は、結合テーブルから候補カラムを抽出し、抽出された結合テーブルの候補カラムをベーステーブルに結合する。

なお、テーブルの結合方法は任意である。テーブル結合部３１４は、例えば、Ｌｅｆｔ－ｊｏｉｎや、ｏｕｔ－ｊｏｉｎなど、任意の方法で結合テーブルをベーステーブルに結合すればよい。なお、結合後のテーブルを統合テーブルと記すこともある。

図１４は、テーブルを結合する処理の例を示す説明図である。図１４に示す例では、目的変数として用いられるデータからなる「売上」カラムを対象カラムとして含むベーステーブルＢＴ４と、結合可能な外部テーブル（結合テーブル）ＦＴ４が存在するものとする。また、外部テーブルＦＴ４は、対象カラムと相関があるとされたカラム（相関カラム）である「属性１」カラムと「属性２」カラムを含む相関テーブルであるとする。なお、外部テーブルＦＴ４において、「ドリンク名」カラムが結合カラム候補であり、「属性１～ｎ」カラムが、非結合カラム候補に対応する。

テーブル結合部３１４は、外部テーブルＦＴ４から、「属性１」カラムと「属性２」カラムを抽出する。言い換えると、テーブル結合部３１４は、外部テーブルＦＴ４から、「ドリンク名」カラム、「属性１」カラムおよび「属性２」カラム以外のカラム（非結合カラム候補）を削除する。そして、テーブル結合部３１４は、ベーステーブルＢＴ４の「商品名」カラムと「ドリンク名」カラムとを結合し、「属性１」カラムおよび「属性２」カラムを結合して、統合テーブルＩＴを生成する。

特徴量加工部３１６は、統合テーブルに含まれるカラムのデータから、対象カラムのデータに対する特徴量を生成する。特徴量加工部３１６は、特徴量の生成に様々な方法を用いることが可能である。例えば、結合方式（例えば、ｌｅｄｔ－ｊｏｉｎ）や元々のテーブルの状態により、統合テーブルに欠損値が存在しているとする。この場合、特徴量加工部３１６は、既知の方法によりデータ分布を推定したり、外部のナレッジ情報などを利用したりして、欠損値を補ってもよい。

また、特徴量加工部３１６は、各カラム内のデータの分布に基づいて、選択された各カラムをクラスタリングすることにより、１以上のカラム集合（クラスタ）を生成してもよい。なお、カラムをクラスタリングする方法も任意であり、特徴量加工部３１６は、例えば、非特許文献２に記載された方法を用いて、カラムをクラスタリングしてもよい。

そして、特徴量加工部３１６は、クラスタ化されたカラム集合（クラスタ）ごとに特徴量を生成してもよい。なお、特徴量の生成方法も任意であり、予め定めた方法に基づいて特徴量が生成されればよい。特徴量加工部３１６は、例えば、一つのクラスタに含まれるすべてのカラムを結合して特徴量を生成してもよい。他にも、特徴量加工部３１６は、一つのクラスタの中から予め定めた方法（例えば、ユニークになる値の数が一番多いカラムを選択する、など）により、一つのカラムを選んで特徴量を生成してもよい。

特徴量選択部３１８は、結合された候補カラムに含まれるデータ、または、候補カラムから生成された特徴量に基づいて、予め定めたタスクの性能を向上させる特徴量を選択する。ここで、タスクの性能を向上させるとは、タスクに関する何らかの評価指標を向上させることを意味し、より具体的には、予測精度の向上などが挙げられる。選択の際に用いられる評価指標は、任意であり、予め定められる。

以下、特徴量を選択する具体的方法を説明する。ここでは、学習により商品の売上を予測する学習モデルをタスクとして用いるものとする。この場合、特徴量選択部３１８は、対象カラムのデータの予測を行うタスクの性能を向上させる特徴量を選択する。

売上予測を行うタスクの場合、対象カラムに含まれる「売上」のデータが目的変数として用いられ、結合されたテーブルに含まれる各カラムのデータが特徴量（説明変数）として用いられる。すなわち、統合テーブルの各レコードが学習データに対応する。なお、学習モデルの態様は任意であり、例えば、線形モデルやランダムフォレスト、などがあげられる。

まず、特徴量選択部３１８は、生成された特徴量の中から、予め定めた方法で１以上の特徴量を選択する。なお、特徴量を選択する方法は限定されず、特徴量選択部３１８は、任意の特徴量選択（Feature Selection ）の技術を用いて特徴量を選択すればよい。そして、特徴量選択部３１８は、選択された特徴量を用いてモデルを学習する。

そして、特徴量選択部３１８は、予め定めた評価方法に基づいて学習モデルを評価し、算出される評価指標を向上させる特徴量を選択する。なお、評価方法も特に限定されず、特徴量選択部３１８は、例えば、交差検証のｆ１スコアに基づいて学習モデルを評価してもよい。

また、特徴量選択部３１８は、同一態様の学習モデルを複数生成し、複数それぞれの学習モデルの評価結果を集約（平均、重み付け平均等）してもよく、異なる態様（例えば、線形モデル、ランダムフォレスト）の学習モデルを複数生成し、複数それぞれの学習モデルの評価結果を集約してもよい。

そして、特徴量選択部３１８は、評価結果のより高い１以上の特徴量を選択する。例えば、特徴量をフォワード方式（Step Forward）により選択して学習した場合、特徴量選択部３１８は、最も評価指標が高くなった特徴量の組み合わせを選択してもよい。ただし、特徴量の選択方法は、この方法に限定されず、任意の方法が用いられてもよい。

統合テーブル出力部３２０は、選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する。言い換えると、統合テーブル出力部３２０は、選択された特徴量を生成する元になったカラムを残した統合テーブルを出力する。統合テーブル出力部３２０は、統合テーブルを統合テーブル記憶部３３０に記憶させてもよい。

統合テーブル記憶部３３０は、ベーステーブルに外部テーブルのカラムを結合させたテーブル（すなわち、統合テーブル）を記憶する。

結合テーブル記憶部２１、相関テーブル記憶部２２および統合テーブル記憶部３３０は、例えば、磁気ディスク等により実現される。

入力部３１２と、テーブル結合部３１４と、特徴量加工部３１６と、特徴量選択部３１８と、統合テーブル出力部３２０とは、プログラム（統合テーブル生成プログラム）に従って動作するコンピュータのプロセッサによって実現される。

例えば、プログラムは、統合テーブル生成装置３１０が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部３１２、テーブル結合部３１４、特徴量加工部３１６、特徴量選択部３１８および統合テーブル出力部３２０として動作してもよい。また、統合テーブル生成装置３１０の機能がＳａａＳ形式で提供されてもよい。

次に、本実施形態のテーブル統合システム３００の動作を説明する。図１５は、本実施形態の統合テーブル生成装置３１０の動作例を示すフローチャートである。入力部３１２は、結合テーブル、候補カラム、および、ベーステーブルの入力を受け付ける（ステップＳ５１）。テーブル結合部３１４は、結合テーブルのうち候補カラムに対応するカラムをベーステーブルに結合する（ステップＳ５２）。なお、特徴量加工部３１６が、結合したカラムに含まれるデータから特徴量を生成してもよい。

特徴量選択部３１８は、結合された候補カラムに含まれるデータに基づいて、タスクの性能を向上させる特徴量を選択する（ステップＳ５３）。そして、統合テーブル出力部３２０は、選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する（ステップＳ５４）。

以上のように、本実施形態では、入力部３１２が、結合テーブル、候補カラム、および、ベーステーブルの入力を受け付け、テーブル結合部３１４が、結合テーブルのうち候補カラムに対応するカラムをベーステーブルに結合する。そして、特徴量選択部３１８が、結合された候補カラムに含まれるデータに基づいて、タスクの性能を向上させる特徴量を選択し、統合テーブル出力部３２０が、選択された特徴量を含むカラムとベーステーブルとを結合した統合テーブルを出力する。よって、対象とするカラムを含むテーブルに対し、相関のあるデータを効率的に統合することができる。

実施形態４．
次に、本発明の第四の実施形態を説明する。第四の実施形態では、第一の実施形態から第三の実施形態までのシステムを組み合わせて、対象とするカラムを含むテーブルに対し、相関のあるデータを効率的に統合する方法を説明する。

図１６は、本発明による外部データ活用システムの一実施形態の構成例を示すブロック図である。図１６に例示する外部データ活用システム４００は、第一の実施形態における結合テーブル特定システム１００と、第二の実施形態のおける相関テーブル特定システム２００と、第三の実施形態におけるテーブル統合システム３００とを備えている。

結合テーブル特定システム１００は、第一の実施形態で示す処理に基づいて生成したベーステーブルに対する結合テーブルを結合テーブル記憶部１４０に記憶させる。また、相関テーブル特定システム２００は、第二の実施形態で示す処理に基づいて生成した相関テーブルおよび候補カラムを相関テーブル記憶部２４０に記憶させる。そして、テーブル統合システム３００は、第三の実施形態で示す処理に基づいて、結合テーブル記憶部１４０からベーステーブルに対する結合テーブルを取得し、相関テーブル記憶部２４０から対象カラムに対する相関テーブル（候補カラム）を取得して、統合テーブルを生成し、統合テーブル記憶部３３０に記憶させる。

結合テーブル特定システム１００による結合テーブルの生成処理と、相関テーブル特定システム２００による相関テーブルの生成処理は、別個独立に任意のタイミングで行うことが可能である。そのため、必要なタイミングで、ベーステーブルに対して相関のあるデータを効率的に統合することが可能になる。

次に、本発明の概要を説明する。図１７は、本発明による結合テーブル特定システムの概要を示すブロック図である。本発明の結合テーブル特定システム５００（例えば、結合テーブル特定システム１００）は、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値（例えば、閾値Ｔ_ｒ）より大きい外部テーブルのレコードを検索可能な索引である結合索引を構築する結合索引構築装置５１０（例えば、結合索引構築装置１１０）と、結合索引を類似度関数ごとに記憶する結合索引記憶部５２０（例えば、結合索引記憶部１２０）と、結合索引を利用して対象カラムに結合可能なテーブルを外部テーブルの中から探索する結合テーブル探索装置５３０（例えば、結合テーブル探索装置１３０）とを備えている。

結合索引構築装置５１０は、類似度関数ごとに結合索引を生成し、生成された結合索引を結合索引記憶部５２０に記憶させる結合索引生成手段５１１（例えば、結合索引生成部１１４）を含む。

また、結合テーブル探索装置５３０は、結合索引記憶部５２０から結合索引の入力を受け付ける入力手段５３１（例えば、入力部１３２）と、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する検索プラン生成手段５３２（例えば、検索プラン生成部１３４）と、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値（例えば、閾値Ｔ_ｃ）以上のレコードが検索された外部テーブルを結合テーブルと特定するレコード検索手段５３３（例えば、レコード検索部１３６）とを含む。

そして、レコード検索手段５３３は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う。

そのような構成により、対象とするカラムに結合可能なテーブルを特定するためのコストを低減できる。

また、結合索引構築装置５１０は、外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムである結合カラム候補を、各外部テーブルから抽出する結合カラム候補抽出手段（例えば、結合カラム候補抽出部１１２）を含んでいてもよい。そして、結合索引生成手段５１１は、抽出された結合カラム候補の結合索引を類似度関数ごとに生成し、生成された結合索引を結合索引記憶部５２０に記憶させてもよい。そのような構成によれば、結合索引の生成コストを低減できる。

また、結合カラム候補抽出手段は、各外部テーブルに含まれる各カラムの型を推定し、推定された型のカラムが他のテーブルのカラムと結合可能な否かを判定して結合カラム候補を抽出してもよい。

具体的には、結合カラム候補抽出手段は、推定されたカラムの型が、予め定めた意味を示す場合または所定の文字の属性である場合に、そのカラムを結合カラム候補として抽出してもよい。

図１８は、本発明による結合テーブル探索装置の概要を示すブロック図である。本発明の結合テーブル探索装置５６０（例えば、結合テーブル探索装置１３０）は、レコード間の類似度を算出する関数である類似度関数により算出される類似度が予め定めた閾値（例えば、閾値Ｔ_ｒ）より大きい外部テーブルのレコードを検索可能な索引である結合索引を類似度関数ごとに記憶する記憶装置（例えば、結合索引記憶部１２０）から、その結合索引の入力を受け付ける入力手段５６１（例えば、入力部１３２）と、類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を結合索引ごとに算出し、算出された結果数の多い順に結合索引の利用順を規定した検索プランを生成する検索プラン生成手段５６２（例えば、検索プラン生成部１３４）と、検索プランで規定された順に結合索引を用いて、対象カラムのレコードの検索を行い、予め定めた閾値（例えば、閾値Ｔ_ｃ）以上のレコードが検索された外部テーブルを結合テーブルと特定するレコード検索手段５６３（例えば、レコード検索部１３６）とを備えている。

レコード検索手段５６３は、すでに用いた結合索引により検索された外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う。

そのような構成によっても、対象とするカラムに結合可能なテーブルを特定するためのコストを低減できる。

図１９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の結合テーブル探索装置５６０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（結合テーブル探索プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を構築する結合索引構築装置と、
前記結合索引を前記類似度関数ごとに記憶する結合索引記憶部と、
前記結合索引を利用して対象カラムに結合可能なテーブルを前記外部テーブルの中から探索する結合テーブル探索装置とを備え、
前記結合索引構築装置は、
前記類似度関数ごとに前記結合索引を生成し、生成された前記結合索引を前記結合索引記憶部に記憶させる結合索引生成手段を含み、
前記結合テーブル探索装置は、
前記結合索引記憶部から前記結合索引の入力を受け付ける入力手段と、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索手段とを含み、
前記レコード検索手段は、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル特定システム。

（付記２）結合索引構築装置は、外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムである結合カラム候補を、当該各外部テーブルから抽出する結合カラム候補抽出手段を含み、
結合索引生成手段は、抽出された前記結合カラム候補の結合索引を類似度関数ごとに生成し、生成された結合索引を結合索引記憶部に記憶させる
付記１記載の結合テーブル特定システム。

（付記３）結合カラム候補抽出手段は、各外部テーブルに含まれる各カラムの型を推定し、推定された型のカラムが他のテーブルのカラムと結合可能な否かを判定して結合カラム候補を抽出する
付記２記載の結合テーブル特定システム。

（付記４）結合カラム候補抽出手段は、推定されたカラムの型が、予め定めた意味を示す場合または所定の文字の属性である場合に、当該カラムを結合カラム候補として抽出する
付記３記載の結合テーブル特定システム。

（付記５）レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付ける入力手段と、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索手段とを備え、
前記レコード検索手段は、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル探索装置。

（付記６）レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を、当該類似度関数ごとに生成し、
生成された前記結合索引を結合索引記憶部に記憶させ、
前記結合索引記憶部から前記結合索引の入力を受け付け、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、
算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成し、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定し、
前記レコードの検索において、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル特定方法。

（付記７）外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムである結合カラム候補を、当該各外部テーブルから抽出し、
抽出された前記結合カラム候補の結合索引を類似度関数ごとに生成し、生成された結合索引を結合索引記憶部に記憶させる
付記６記載の結合テーブル特定方法。

（付記８）レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付け、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、
算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成し、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定し、
前記レコードの検索において、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル探索方法。

（付記９）コンピュータに、
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付ける入力処理、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成処理、および、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索処理を実行させ、
前記レコード検索処理で、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行わせる
ための結合テーブル探索プログラムを記憶するプログラム記憶媒体。

（付記１０）コンピュータに、
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付ける入力処理、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成処理、および、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索処理を実行させ、
前記レコード検索処理で、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行わせる
ための結合テーブル探索プログラム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０外部テーブル記憶装置
２０テーブル記憶装置
２１結合テーブル記憶部
２２相関テーブル記憶部
１００結合テーブル特定システム
１１０結合索引構築装置
１１２結合カラム候補抽出部
１１４結合索引生成部
１２０結合索引記憶部
１３０結合テーブル探索装置
１３２入力部
１３４検索プラン生成部
１３６レコード検索部
１３８結合テーブル出力部
１４０結合テーブル記憶部
２００相関テーブル特定システム
２１０相関索引構築装置
２１２非結合カラム候補抽出部
２１４相関索引生成部
２２０相関索引記憶部
２３０相関テーブル探索装置
２３２入力部
２３４索引特定部
２３６候補カラム検索部
２３８相関テーブル出力部
２４０相関テーブル記憶部
３００テーブル統合システム
３１０統合テーブル生成装置
３１２入力部
３１４テーブル結合部
３１６特徴量加工部
３１８特徴量選択部
３２０統合テーブル出力部
３３０統合テーブル記憶部
４００外部データ活用システム

Claims

レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を構築する結合索引構築装置と、
前記結合索引を前記類似度関数ごとに記憶する結合索引記憶部と、
前記結合索引を利用して対象カラムに結合可能なテーブルを前記外部テーブルの中から探索する結合テーブル探索装置とを備え、
前記結合索引構築装置は、
前記類似度関数ごとに前記結合索引を生成し、生成された前記結合索引を前記結合索引記憶部に記憶させる結合索引生成手段を含み、
前記結合テーブル探索装置は、
前記結合索引記憶部から前記結合索引の入力を受け付ける入力手段と、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索手段とを含み、
前記レコード検索手段は、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル特定システム。
結合索引構築装置は、外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムである結合カラム候補を、当該各外部テーブルから抽出する結合カラム候補抽出手段を含み、
結合索引生成手段は、抽出された前記結合カラム候補の結合索引を類似度関数ごとに生成し、生成された結合索引を結合索引記憶部に記憶させる
請求項１記載の結合テーブル特定システム。
結合カラム候補抽出手段は、各外部テーブルに含まれる各カラムの型を推定し、推定された型のカラムが他のテーブルのカラムと結合可能な否かを判定して結合カラム候補を抽出する
請求項２記載の結合テーブル特定システム。
結合カラム候補抽出手段は、推定されたカラムの型が、予め定めた意味を示す場合または所定の文字の属性である場合に、当該カラムを結合カラム候補として抽出する
請求項３記載の結合テーブル特定システム。
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付ける入力手段と、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成手段と、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索手段とを備え、
前記レコード検索手段は、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル探索装置。
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を、当該類似度関数ごとに生成し、
生成された前記結合索引を結合索引記憶部に記憶させ、
前記結合索引記憶部から前記結合索引の入力を受け付け、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、
算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成し、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定し、
前記レコードの検索において、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル特定方法。
外部テーブル群に含まれる各外部テーブルのうち、他のテーブルとの結合キーになり得るレコードを含むカラムである結合カラム候補を、当該各外部テーブルから抽出し、
抽出された前記結合カラム候補の結合索引を類似度関数ごとに生成し、生成された結合索引を結合索引記憶部に記憶させる
請求項６記載の結合テーブル特定方法。
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付け、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、
算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成し、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定し、
前記レコードの検索において、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行う
ことを特徴とする結合テーブル探索方法。
コンピュータに、
レコード間の類似度を算出する関数である類似度関数により算出される当該類似度が予め定めた閾値より大きい外部テーブルのレコードを検索可能な索引である結合索引を当該類似度関数ごとに記憶する記憶装置から、当該結合索引の入力を受け付ける入力処理、
前記類似度関数ごとの結合索引を用いて対象カラムのレコードを検索した場合に推定される結合可能なレコードペアの数である結果数を当該結合索引ごとに算出し、算出された前記結果数の多い順に前記結合索引の利用順を規定した検索プランを生成する検索プラン生成処理、および、
前記検索プランで規定された順に結合索引を用いて、前記対象カラムのレコードの検索を行い、予め定めた閾値以上のレコードが検索された前記外部テーブルを結合テーブルと特定するレコード検索処理を実行させ、
前記レコード検索処理で、すでに用いた結合索引により検索された前記外部テーブルのレコードを検索対象から除外して、後続の結合索引を用いた検索を行わせる
ための結合テーブル探索プログラム。