JP5398663B2

JP5398663B2 - データ処理装置及びデータ処理方法及びプログラム

Info

Publication number: JP5398663B2
Application number: JP2010177296A
Authority: JP
Inventors: 聖人細田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-08-06
Filing date: 2010-08-06
Publication date: 2014-01-29
Anticipated expiration: 2030-08-06
Also published as: JP2012038066A

Description

本発明は、例えばデータを統合する際にカラム間の対応関係を解析する技術に関する。

システム統合などに伴うデータ統合では、異なるデータベースのテーブル間にてカラム対応関係を取り、データの内容を両者に反映させることが必要である。
ここで、データ統合とは、移行元データベースと移行先データベースにおける、カラム名やデータの配置といった設計情報の差異を解消し、データの移行を実現することである。
このとき、システム間の類似したテーブルや、カラムの対応関係を判別する技術は、スキーママッチング技術と呼ばれる。
スキーママッチング技術の基本的な手法としては、スキーマ情報（カラム名称、型など）・インスタンス情報（単語や値の出現パターンなど）を利用した分析方法がある。
さらに応用的な手法として、複数カラム組間の対応関係を判別することが挙げられる。
ここで、複数カラム組間の対応関係とは、あるカラムの組と、別のカラムの組に対する対応関係を意味する。
上記複数カラム組間の対応関係の１つとして、システム統合の移行元におけるカラム内容（データ）を、ある特定の位置で分割した後、移行先の複数カラムに対応を取る場合が挙げられる。
具体例としては、移行元で電話番号を１つのカラムで取り扱っていたものを、移行先では局番で分割し３つのカラムで扱うといった例、移行元で氏名として１つのカラムで扱っていたものを、移行先で姓と名に分割し２カラムで扱うといった例、等が挙げられる。

特許文献１の技術では、相関ルール（支持度・確信度）を算出することによって、複数カラム組間の対応関係を判定する。
相関ルールとは、ある対象Ａと対象Ｂの間の相関関係を示す次の２つの値である。
確信度とは、Ａ選択者がＢを選ぶ確率である。
支持度とは、関係の全体においてＡとＢが同時に出現する確率である。
換言すると、確信度は、対象Ａが含まれるレコード数に対して、対象Ａと対象Ｂが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Ａと対象Ｂが共に含まれるレコード数の割合である。
特許文献１による、複数カラム組間の対応判定方法を説明する。
同一テーブル内の２つのカラムに注目したとき、あるカラムを指定した際に、同一テーブル内に存在する別カラムとの間で、相関ルール計算を実施することで、両者の対応関係を判定する。
特許文献１の技術では、例えば、市場調査の目的等のために、相互に別個のカラムであるワインの購入に関するカラムとチーズの購入に関するカラムの支持度及び確信度を計算し、ワインを購入する人がチーズを購入する確率が高い等の相関を抽出している。

特開２０００−３５３１６３号公報

特許文献１の技術によれば、同一データを二つに割った関係（例：姓と名）の間では、支持度・確信度共に高い値を算出すると考えられる。
しかし、データ統合の場合は、移行元と移行先が存在し、通常対応をとるべきカラム組が別々のテーブルに配置される。
このとき、レコード数は同一であると仮定しても、従来手法では移行元と移行先で、レコードの並び順に関連が無く、独立しているため、相関関係の発見はできない。
例えば、移行元にて「姓」に対応するカラムと、移行先の「名」に対応するカラムを結合して、相関ルール計算を実施したとしても、この結合されたデータは、別々のテーブルに存在していたデータを結合した内容であり、同一レコードに存在するデータではないので特定の関連が必ずしもあるわけではなく、相関ルール計算にて高い値は算出できない可能性が高く、判断は不可能である。
また、特許文献１を用いれば、移行元データの姓：「佐藤」に対しては移行先データの名「一郎」が出現する可能性が高いとの結論が得られるのみであり、移行元データのカラムに対応する移行先データのカラムを抽出することはできない。

本発明は、上記の課題を解決することを主な目的としており、２つのデータの間で対応関係にあるカラムを抽出する作業の効率を向上することを主な目的とする。

本発明に係るデータ処理装置は、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第１のデータに対して、解析の対象となるカラム対を第１の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
第１の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第１の出現傾向解析処理を実行する第１の出現傾向解析処理実行部と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第２のデータに対して、解析の対象となるカラム対を第２の解析対象カラム対として１対以上選択し、第２の解析対象カラム対ごとに、第２の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第２の出現傾向解析処理を実行する第２の出現傾向解析処理実行部と、
第１の解析対象カラム対に対する解析結果と第２の解析対象カラム対ごとの解析結果とを解析して、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とする。

本発明によれば、第１のデータの第１の解析対象カラム対の連結フィールド値の出現傾向と、第２のデータの第２の解析対象カラム対ごとの連結フィールド値の出現傾向とを解析し、それぞれの解析結果を解析して、第２の解析対象カラム対ごとに第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出するため、第１の解析対象カラム対と対応関係にある第２のデータ内のカラム対を抽出する作業の効率を向上させることができる。

実施の形態１に係るテーブル統合装置の構成例を示す図。実施の形態１に係るテーブル統合装置とデータベースとの関係を示す図。実施の形態１に係るテーブル統合装置の処理概要を示すフローチャート図。実施の形態１に係るカラムの分割例を示す図。実施の形態１に係る相関ルールを説明する図。実施の形態１に係る相関ルール計算処理を示すフローチャート図。実施の形態１に係る相関差分値計算処理及び比較計算処理を示すフローチャート図。実施の形態１に係る支持度の計算結果の例を示す図。実施の形態２に係るテーブル統合装置の構成例を示す図。実施の形態３に係るカラム選択の例を示す図。実施の形態４に係るテーブル統合装置の構成例を示す図。実施の形態４に係るカラム選択の例を示す図。実施の形態５に係るテーブル統合装置の構成例を示す図。実施の形態１に係る移行元データ及び移行先データの例を示す図。実施の形態１〜５に係るテーブル統合装置のハードウェア構成例を示す図。

実施の形態１．
図１は、本実施の形態に係るテーブル統合装置の構成例を示す。
図１に示すように、テーブル統合装置１は移行元システム５０１の移行元データベース５０２と移行先システム６０１の移行先データベース６０２に接続される。
本実施の形態では、移行元データベース５０２と移行先データベース６０２はリレーショナルデータベースである。
本実施の形態に係るテーブル統合装置１は、移行元データベース５０２内の２次元データ（以下、移行元データという）の特定のカラムが、移行先データベース６０２内の２次元データ（以下、移行先データという）の複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。
より具体的には、本実施の形態に係るテーブル統合装置１は、移行元データの特定のカラムが保持するデータを分割した内容が、移行先データの複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。

詳細は後述するが、本実施の形態では、例えば図１４に示す移行元データ及び移行先データを対象とする。
図１４（ａ）は移行元データを示し、図１４（ｂ）は移行先データを示す。
移行元データ、移行先データともに、複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元のデータである。
本実施の形態では、移行元データのシステム管理者のカラムが解析対象となる。
また、移行先データでは、利用者、利用申請者、利用許諾者の各カラムにおいて個人名が示されている。
このため、移行元のシステム管理者のカラムと対応関係にあるカラムが利用者、利用申請者、利用許諾者のいずれであるかを特定する必要がある。
なお、移行先データにおいて、利用者とは、利用申請を行って利用申請が許諾された場合にのみ利用が認められる所定のシステムを実際に利用する者を表す。
利用申請者とは、利用者のために当該システムの利用申請を行った者を表す。利用者本人であってもよい。
利用許諾者とは、当該システムの利用申請に対して利用を許諾した者を表す。
なお、移行元データではシステム管理者の「姓」と「名」が１つのカラムに収容されているが、移行先データでは個人名が「姓」と「名」の異なるカラムに収容されている。
このため、移行先データとの照合のために、移行元データのシステム管理者のカラムは、「姓」を表すカラムと「名」を表すカラムに分割する必要がある。
ここで、カラムとカラムのフィールド値を行単位で連結したものを連結フィールド値という。
例えば、移行元データにおいて分割された後の「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの（例えば、「佐藤」＋「一郎」）を連結フィールド値という。
同様に、移行先データの「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの（例えば、「山本」＋「一郎」）も連結フィールド値という。
本実施の形態では、移行元データは第１のデータの例であり、移行先データは第２のデータの例である。

図１に示すように、テーブル統合装置１において、データベース接続部２０は、移行元データベース５０２に接続し、また、移行先データベース６０２に接続する。
データベース接続部２０は、図２に示すように、記憶領域１６内の接続情報保持部２１から接続情報をロードし、移行元システム５０１における移行元データベース５０２に接続し、移行先システム６０１における移行先データベース６０２に接続する。
そして、データベース定義情報１０１、インスタンスデータ１０２、区切り情報１０３を取得し、取得したデータベース定義情報１０１を定義情報取得部１７に出力し、インスタンスデータ１０２をデータ取得部１８に出力し、区切り情報１０３を区切り情報取得部１９に出力する。

定義情報取得部１７は、データベース接続部２０からデータベース定義情報１０１を取得し、取得したデータベース定義情報１０１を記憶領域１６内の定義情報保持部１６１に格納する。
データベース定義情報１０１は、移行元データ及び移行先データの各々について、例えばカラムの個数、各カラムの属性、各カラムのデータ型等が示されている。
定義情報取得部１７がデータベース定義情報１０１を取得する対象のシステムは、単一システムが複数のデータベースを備える構成であってもよい。

データ取得部１８は、データベース接続部２０からインスタンスデータ１０２を取得し、取得したインスタンスデータ１０２を記憶領域１６内の取得データ保持部１６２に格納する。
インスタンスデータ１０２は、移行元データのテーブルに格納されるフィールド値、移行先データのテーブルに格納されるフィールド値である。
なお、データベース接続部２０が移行元データベース５０２、移行先データベース６０２とネットワークを介して接続していないなどの場合は、インスタンスデータを記録媒体を介してオフラインにて取得してもよい。

区切り情報取得部１９は、データベース接続部２０から区切り情報１０３を取得し、取得した区切り情報１０３を記憶領域１６内の区切り文字情報保持部１６３に格納する。
本実施の形態では、移行元データのカラムのデータ値を２つに分割する例を説明するので、区切り情報１０３には、移行元データのカラムのデータ値を２つに分割する際に目印となる区切り文字が示されている。

区切り分割部１１は、区切り情報取得部１９が取得した区切り情報１０３に基づき、移行元データの特定のカラムの内容を分割し、２種類の仮想カラムデータとして分割データ保持部１６４に保持する。
分割対象のカラムは、例えば、ユーザＩ／Ｆ２２を通じてユーザから指定される。
区切り分割部１１により分割データ保持部１６４に格納されるカラム対（２つの仮想カラム）は、移行元データにおいて解析の対象となるカラム対であり、第１の解析対象カラム対の例である。なお、カラム対はカラム組ともいう。
そして、区切り分割部１１は、第１の解析対象カラム対を選択する処理を行っており、カラム対選択処理実行部の例である。

相関ルール計算部１２は、分割データ保持部１６４よりデータを入手し、相関ルール計算を実施し、結果を相関ルール計算結果保持部１６５に保持する。
より具体的には、相関ルール計算部１２は、移行元データの解析対象のカラム対（第１の解析対象カラム対）のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
支持度及び確信度は、連結フィールド値ごとの出現傾向を表す。
支持度及び確信度をまとめて相関ルールともいう。
また、相関ルール計算部１２は、移行先データにおいて解析の対象となるカラム対を１対以上選択する。
本実施の形態では、移行先データに含まれるカラムにおける全種類のカラムの組合せを解析の対象とする。
移行先データにおいて解析の対象となるカラム対は、第２の解析対象カラム対の例である。
そして、相関ルール計算部１２は、移行先データの解析対象のカラム対（第２の解析対象カラム対）のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
移行先データにおける支持度と確信度の算出は、カラム対ごとに行う。
相関ルール計算部１２は、第１の出現傾向解析処理実行部と第２の出現傾向解析処理実行部の例である。

相関差分値計算部１３は、相関ルール計算部１２の相関ルール計算によって取得された支持度間の差分値と確信度間の差分値を、移行元データ及び移行先データの各々で計算し、移行元データにおける支持度の差分値と確信度の差分値、移行先データにおける支持度の差分値と確信度の差分値を相関差分計算結果保持部１６６に保持する。
より具体的には、相関差分値計算部１３は、移行元データのカラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行元データのカラム対における支持度の差分は、第１の支持度１次差分値に相当する。
また、相関差分値計算部１３は、移行元データのカラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行元データのカラム対における確信度の差分は、第１の確信度１次差分値に相当する。
相関差分値計算部１３は、移行先データについても同様の計算を行う。
つまり、相関差分値計算部１３は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行先データのカラム対における支持度の差分は、第２の支持度１次差分値に相当する。
また、相関差分値計算部１３は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行先データのカラム対における確信度の差分は、第２の確信度１次差分値に相当する。
そして、相関差分値計算部１３は、このようにして得られた移行元データにおける支持度の差分値（第１の支持度１次差分値）と確信度の差分値（第１の確信度１次差分値）、移行先データにおける支持度の差分値（第２の支持度１次差分値）と確信度の差分値（第２の確信度１次差分値）を相関差分計算結果保持部１６６に格納する。
相関差分値計算部１３は、後述の比較計算部１４とともに、近似度算出処理実行部の例である。

比較計算部１４では、移行元・移行先の相関差分計算結果を比較し、結果、カラム組間の対応候補であるものを比較計算結果保持部１６７に書き込む。
より具体的には、比較計算部１４は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの支持度の差分値（第１の支持度１次差分値）と移行先データの支持度の差分値（第２の支持度１次差分値）との差分を算出する。なお、この移行元データの支持度の差分値と移行先データの支持度の差分値との差分値は、支持度２次差分値に相当する。
比較計算部１４は、確信度についても同様の計算を行う。
つまり、比較計算部１４は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの確信度の差分値（第１の確信度１次差分値）と移行先データの確信度の差分値（第２の確信度１次差分値）との差分を算出する。なお、この移行元データの確信度の差分値と移行先データの確信度の差分値との差分値は、確信度２次差分値に相当する。
その後、比較計算部１４は、算出した支持度の差分値に対する合算及び商計算、算出した確信度の差分値に対する合算及び商計算を行った後、商計算後の支持度の差分値と商計算後の確信度の差分値を統合する計算を行い、統合結果を比較計算結果保持部１６７に格納する。
統合結果は、移行先データのカラム対ごとに、移行元データのカラム対における連結フィールド値の出現傾向との近似度を表す。
比較計算部１４は、前述の相関差分値計算部１３とともに、近似度算出処理実行部の例である。

判定部１５は、比較計算部１４により算出された移行先データのカラム対ごとの統合結果（近似度）に基づき、移行元データのカラム対と対応する関係にある移行先データのカラム対の候補を対応候補カラム対として抽出する。
判定部１５は、対応候補抽出処理実行部の例である。

なお、区切り分割部１１、相関ルール計算部１２、相関差分値計算部１３、比較計算部１４、判定部１５、定義情報取得部１７、データ取得部１８、区切り情報取得部１９、データベース接続部２０は、それぞれ上述した処理を実現するプログラムとすることができる。
各要素をプログラムとした場合は、図示していないＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が各要素のプログラムを実行して、上述の処理が実施される。

記憶領域１６は、メモリあるいはハードディスクにより実現されるデータ格納領域である。

次に動作について説明する。
図３は、図１に示したテーブル統合装置１の処理概要を示すフローチャートである。
最初に、図３に示すフローチャートに沿ってテーブル統合装置１の処理概要を説明する。

まず、ステップＳ１において、定義情報取得部１７は、データベース接続部２０を介して、対象となる表のカラム名・カラム順番を取得し、定義情報保持部１６１に保存する。
また、データ取得部１８は、データベース接続部２０を介して、移行元データベース５０２及び移行先データベース６０２のデータを取得し、取得データ保持部１６２に記憶する。
また、区切り情報取得部１９は、ユーザＩ／Ｆ２２を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部２０を介して区切り文字の情報を取得し、区切り文字情報保持部１６３に記憶する。
続いて、区切り分割部１１は、取得データ保持部１６２から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列（フィールド値）に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部１６４に保存する（カラム対選択処理）。
前述したように、区切り分割部１１により分割された後の２つのカラムが第１の解析対象カラム対に相当する。

次に、ステップＳ２において、相関ルール計算部１２は、移行元データと移行先データの双方において、相関ルール計算を実施する（第１の出現傾向解析処理）（第２の出現傾向解析処理）。

次に、ステップＳ３において、相関差分値計算部１３は、前記の相関ルール計算の結果を利用し、相関差分値計算を実施する（近似度算出処理）。
次に、ステップＳ４において、比較計算部１４は前記の相関差分値計算結果を利用し、移行元と移行先の比較計算を実施する（近似度算出処理）。

最後に、ステップＳ５において、判定部１５により移行元のカラムと移行先のカラム組に対する対応判定がなされ、結果が出力される。
出力の方法としては、ファイル出力、モジュールの出力、インタフェース等が想定される。

以下、ステップＳ１〜Ｓ４までの詳細に関して説明する。

まず、ステップＳ１に関して説明する。
定義情報取得部１７は、データベース接続部２０を介して、対象となる表のカラム名・カラム順番を取得し、定義情報保持部１６１に保存する。
また、データ取得部１８は、データベース接続部２０を介して、移行元データベース５０２から移行元データを取得し、また、移行先データベース６０２から移行先データを取得し、取得データ保持部１６２に記憶する。
また、区切り情報取得部１９は、ユーザＩ／Ｆ２２を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部２０を介して区切り文字の情報を取得する。
続いて、区切り分割部１１は、取得データ保持部１６２から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列（フィールド値）に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部１６４に保存する。
区切り分割の具体例として、図４に示すように、“ ”（全角スペース）が区切り文字として与えられた場合を考える。
このとき、移行元データ中の「氏名」カラム内に関して、最初に一致する全角スペースを区切りとして、一致した部分の前後部分が、それぞれ別の仮想的なカラムとして保持される。

次に、ステップＳ２において、相関ルール計算部１２は、相関ルールである支持度と確信度の計算を実施する。
ここで、相関ルールとは、ある対象Ａと対象Ｂの間の相関関係を次の２つの値にて示す。
確信度：Ａ選択者がＢを選ぶ確率
支持度：関係の全体に占める割合（ＡとＢが同時に出現する割合）
前述したように、確信度は、対象Ａが含まれるレコード数に対して、対象Ａと対象Ｂが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Ａと対象Ｂが共に含まれるレコード数の割合である。

相関ルールの計算例に関して、図５を元に説明する。
図中の「佐藤→一郎」という連結フィールド値に対し、カラム全体数５に対し、「佐藤一郎」の組が２つ存在するため、支持度２／５＝０．４と算出される。
また、「佐藤→一郎」という連結フィールド値について、「佐藤」の全数４に対し、「一郎」は２つ存在するため、確信度は２／４＝０．５と算出される。
相関ルール計算部１２は、移行元データについては、解析対象のカラムについてのみ支持度と確信度を計算する。
例えば、図１４（ａ）の移行元データの場合は、システム管理者の氏名を分割した後の２つのカラムにおいて同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
図１４（ａ）の例では、「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」、「鈴木→一郎」の各々について支持度と確信度を計算する。
一方、移行先データについては、相関ルール計算部１２は、全ての種類のカラムの組合せについて、同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
例えば、図１４（ｂ）の移行元データの場合は、利用者の「姓」のカラムと「名」のカラムの組合せ（「山本→一郎」、「渡辺→三郎」等）、利用申請者の「姓」のカラムと「名」のカラムの組合せ（「太田→実」、「鈴木→順子」等）、利用許諾者の「姓」のカラムと「名」のカラムの組合せ（「佐藤→一郎」、「鈴木→四朗」等）の他、利用者の「姓」のカラムと利用申請者の「名」のカラムの組合せ（「山本→実」、「渡辺→順子」等）、利用者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ（「山本→一郎」、「渡辺→一郎」等）、利用申請者の「姓」のカラムと利用者の「名」のカラムの組合せ（「太田→一郎」、「鈴木→三郎」等）、利用申請者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ（「太田→一郎」、「鈴木→一郎」等）、利用許諾者の「姓」のカラムと利用者の「名」のカラムの組合せ（「佐藤→一郎」、「佐藤→三郎」等）、利用許諾者の「姓」のカラムと利用申請者の「名」のカラムの組合せ（「佐藤→実」、「佐藤→順子」等）についても支持度と確信度を計算する。
図１４（ｂ）の移行先データに、例えば、利用日時等のカラムがあれば、利用者の姓と利用日時の値の組合せ（例えば、「山本→２０１０年７月１０日」等）についても支持度と確信度を計算する。
なお、このような組合せは、移行元データの解析対象のカラム（「姓」と「名」の組合せ）と対応関係にないことが明らかなので、移行先データにおいて「姓」と「名」の組合せのみを支持度と確信度の計算の対象とする設定を行ってもよい。

このように、相関ルール計算部１２では、移行元データについては解析対象のカラム対に関して支持度・確信度の組を計算し、移行先データについてはカラム対の全データ組合せに関して、支持度・確信度の組を計算し、計算結果を相関ルール計算結果保持部１６５に格納する。

次に、図６のフローチャートにて、ステップＳ２での相関ルール計算を詳細説明する。

まず、ステップＳ２０１において、カラム内容の読込みが開始される。
続いて、ステップＳ２０２において、分割された前方部分に対応するインスタンスが読み込まれる。
これは、図５（図１４（ａ））の例では「姓」カラムのデータに相当する。
続いてステップＳ２０３において、記憶領域との比較が開始され、記憶領域に現時点で読み込んだデータが存在するか確認する。
ステップＳ２０５において、読み込んだデータが存在する場合、内部の管理変数を１カウントアップする。
読み込んだデータが存在しない場合、ステップＳ２０６において、データを内部記憶領域に登録する。
ここで、データ登録とは、内部記憶領域にデータを登録すると共に、索引となる数を対応させることで、移行のステップにおける検索性能向上につなげるものである。
続いてステップＳ２０７〜Ｓ２１１において、後方部分のインスタンスが読み込まれ、前方部分と同様の処理が実施される。
続いて、ステップＳ２１２において、全てのインスタンスを読み込んだか判定が成される。全て読み込んでいない場合は、図５（図１４（ａ））での次のレコードにおける読込みが実施される。
具体的には、ステップＳ２０２〜Ｓ２１１に対応する、前部分の読み込み、後部分の読み込みが実施される。
分割されたデータの、分割データ保持部１６４への読込みが完了した場合は、ステップＳ２１３〜ステップＳ２１７において、読み込んだデータに対する支持度計算・ソートが実施され、続いて相関表形式（図８）にて、相関ルール計算結果保持部１６５への書出しが実施される。
移行先データについての相関ルール計算は、移行先データに含まれるカラムの組合せごとに、図６に示すフローが実施される。

図８は、図１４（ａ）の移行元データ及び図１４（ｂ）の移行先データについて算出した支持度の例を示す。
移行先データについては、作図上の理由から、利用者の「姓」のカラムと「名」のカラムの組合せ（図８の（Ａ））、利用申請者の「姓」のカラムと「名」のカラムの組合せ（図８の（Ｂ））、利用許諾者の「姓」のカラムと「名」のカラムの組合せ（図８の（Ｃ））のみを表記しているが、実際には、すべてのカラムの組合せについての支持度が含まれる。
また、確信度も図８と同様の形式で管理される。

続いて、ステップＳ３における相関差分値計算部１３の計算と、ステップＳ４における比較計算部１４の計算の詳細を説明する。
ステップＳ３とステップＳ４では、上記ステップ２において求めた相関ルール計算結果に対し以下の式（１）の演算を実施し、相関比較中間結果を算出する。
なお、以下の式（１）にて、ａｉは移行元データの相関表のｉ番目の数値（例：「姓→名」の支持度を降順に並べた際のｉ番目の支持度の数値）である。
ｂｉは、移行先データにおいて、ａｉに対応する文字列（姓と名の組合せ）と同じ文字列に対する数値である。
例えば、図８の場合は、ｉ＝１の場合は、ａｉは「佐藤→一郎」についての値であり、０．２であり、移行先データについては、１つ目の「姓→名」のカラム対には「佐藤→一郎」は存在せず、ｂｉは０であり、２つ目の「姓→名」のカラム対にも「佐藤→一郎」は存在せず、ｂｉは０であり、３つ目の「姓→名」のカラム対には「佐藤→一郎」は存在し、ｂｉは０．２である。

なお、相関比較中間結果は、支持度と確信度の双方に関して算出される。

以下、図７のフローチャートを元に、ステップＳ３とステップＳ４の詳細を説明する。
図７のフローを実行すると、上記の式（１）の演算が行われたことになる。

相関差分値計算部１３では、上記支持度・確信度に対し、移行元データ・移行先データ双方にて、２つのカラム組をレコード単位で捉えた場合の相関値差分を計算する。
ステップＳ３０１において、相関差分値計算部１３は、移行元データの相関計算結果の全体を相関ルール計算結果保持部１６５より計算可能な形で準備する。
続いて、相関差分値計算部１３は、ステップＳ３０２において、相関値の組合せに対し、移行元データにおいて差分計算を実施する。
差分計算は、移行元データの行ごとに、他の行との差分値を得る。
例えば、移行元データの相関表が図８の「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」の３行で構成されていると仮定すると、１行目（「佐藤→一郎」）の支持度と２行目（「佐藤→二郎」）の支持度との差分値、２行目（「佐藤→二郎」）の支持度と３行目（「佐藤→三郎」）の支持度との差分値、１行目（「佐藤→一郎」）の支持度と３行目（「佐藤→三郎」）の支持度との差分値が計算される。
また、１行目（「佐藤→一郎」）の確信度と２行目（「佐藤→二郎」）の確信度との差分値、２行目（「佐藤→二郎」）の確信度と３行目（「佐藤→三郎」）の確信度との差分値、１行目（「佐藤→一郎」）の確信度と３行目（「佐藤→三郎」）の確信度との差分値が計算される。

続いて、相関差分値計算部１３は、ステップＳ３０３において、移行先データの相関表のうちの１つのカラム組（例えば、図８の（Ａ）：「山本→一郎」で開始しているカラムと「０．２」で開始しているカラムの組）の各行を上記相関ルール計算結果保持部１６５より読み込み、ステップＳ３０４において、移行元データの相関表から相関差分値の計算に用いられた行の組合せのうちの１つ（例えば、図８の「佐藤→一郎」と「佐藤→二郎」の組合せ）を読み込む。
次に、相関差分値計算部１３は、ステップＳ３０５、Ｓ３０６において、Ｓ３０３で読み出した移行先データの相関表のカラム組の各行において、ステップＳ３０４で読み込まれた行の組合せ（例えば、図８の「佐藤→一郎」と「佐藤→二郎」の組合せ）と同じ組合せがあるかどうかを探索し、同じ行の組合せがある場合は、移行先データ側で移行元データと同一の組合せに対し、相関差分値同士の減算を実施する（ステップＳ３０７）。
このとき、移行元データについて差分値計算に用いられた行（例えば、図８の「佐藤→一郎」）がＳ３０３で読み出された移行先データの相関表には登場しない場合は、当該行については支持度・確信度ともに０を割り当てて差分値計算を行う。

ステップＳ３０８において、相関差分値計算部１３は、移行元データ側の相関表から最終組（例えば、図８の「佐藤→一郎」と「佐藤→三郎」の組合せ）まで読み込んだかどうか判定し、読み込んでない場合はステップＳ３０４において続きの組を読み込み、読み込みが完了している場合はステップＳ３０９において比較計算部１４が比較計算を実施する。
Ｓ３０９の比較計算の詳細は後述する。
ステップＳ３１０では、移行先データ側の相関表中のカラム組の全パターンに対し、Ｓ３０３〜Ｓ３０９の読み込み・計算が完了したか判定し、そうでない場合は、別の候補カラム組（例えば、図８の（Ｂ）：「太田→実」で開始しているカラムと「０．２」で開始しているカラムの組）の各行を読み込む。
全て読み終わった場合は、処理を完了する。

次に、相関差分値計算を実現するステップＳ３と、比較計算を実現するステップＳ４における、計算の具体例に関して、図８を利用して示す。
ここでは、図８の相関表が３行で構成されていると仮定して説明を行う。
また、以下では、支持度について説明を行うが、確信度についても同様である。

（１）相関差分値計算部１３は、移行元データに対して、以下の距離の組を求め、順番関係を示す指標とする。
１番目と２番目の差（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝０．１
２番目と３番目の差（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝０．０５
１番目と３番目の差（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝０．１５

（２）また、相関差分値計算部１３は、移行先データのカラム対ごとに、上記（１）にて求めた組に対して同様に距離を求める。
（Ａ）図８の移行先データにおける（Ａ）のカラム
（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝０
（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝０
（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝０
（Ｂ）図８の移行先データにおける（Ｂ）のカラム
（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝０
（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝０
（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝０
（Ｃ）図８の移行先データにおける（Ｃ）のカラム
（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝０．１５
（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝０．０５
（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝０．２
なお、移行先側計算の（Ａ）及び（Ｂ）において、各カラムには「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」のいずれも存在しないので、各々の支持度を０とみなして差分計算を行う。
また、移行先側計算の（Ｃ）において、カラムには「佐藤→三郎」は存在しないので、「佐藤→三郎」の支持度を０とみなして差分計算を行う。
すなわち、移行元に存在し移行先に存在しない文字列の値は、０とみなし計算する。

比較計算部１４は、同じ行の組合せに対して（２）（Ａ）〜（Ｃ）の差分値から（１）の差分値を減算し、各行の減算値を合計し、合計値の絶対値を取り、一致した組合せ個数で割ることで、相関に関する距離値（相関比較中間結果）とする。
上記の例の具体的な計算結果を示すと以下のようになる。

［（２）（Ａ）の差分値］−［（１）の差分値］及び［（２）（Ｂ）の差分値］−［（１）の差分値］
（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝−０．１
（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝−０．０５
（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝−０．１５
合計値の絶対値＝０．３
商計算値＝０．１

［（２）（Ｃ）の差分値］−［（１）の差分値］
（「佐藤→一郎」の支持度−「佐藤→二郎」の支持度）＝０．０５
（「佐藤→二郎」の支持度−「佐藤→三郎」の支持度）＝０
（「佐藤→一郎」の支持度−「佐藤→三郎」の支持度）＝０．０５
合計値の絶対値＝０．１
商計算値≒０．０３

前述したように、上記計算は支持度、確信度の双方に対して実施される。
さらに支持度、確信度の相関比較中間結果は、比較計算部１４により、指定可能な変数αを利用して以下の式により統合される。
統合結果
＝α×（支持度の相関比較中間結果）＋（１−α）×（確信度の相関比較中間結果）
ただし、統合結果を求める式は別の形式でも良い。
統合結果は、比較計算結果保持部１６７に保存される。

最後に、ステップＳ５において、判定部１５は、統合結果に基づき、移行元のカラムと対応関係にある移行先のカラム組を判定し、判定結果を出力する。
判定の方法は、例えば、統合結果の算出結果が最も小さい値となった移行先のカラム組を抽出する等がある。
このとき、出力の形態は限定されるものではなく、記憶領域への出力、ファイル出力、画面出力等を想定する。

以上のように、本実施の形態では、２次元の表に対し、複数カラム組にて移行元・移行先ごとに計算を実施することにより、双方の結果が比較できるので、複数データベース間もしくは単一データベース内での１対多対応の関係を容易に把握することができる。

以上、本実施の形態では、
複数存在する２次元の表集合における、ある一つの注目する第１の表中の１カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割手段と、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算手段と、
前記相関値集合の、２つの組合せ間で差分値計算を実施する相関差分値計算手段と、
別の注目する第２の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の２つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第１の表における結果と比較する比較計算手段と、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定手段と
を備える、テーブル統合装置を説明した。

また、本実施の形態では、
前記の表内差分値計算は、前記表１に存在するデータ組と同じ組合せを持つ、前記表２に存在するデータ組合せを比較対象とし、
かつ、表２に存在しないデータは相関値０として差分値計算を実現する相関差分値計算手段
を備えるテーブル統合装置を説明した。

また、本実施の形態では、
表１と表２の間での表内相関差分値計算の結果を比較する方法として、一方の相関差分値集合から、データ組が同一であるもう一方の相関差分値の差を取り、相関差分値間の差の合計の絶対値を取り、
表１の持つデータ組と表２の持つデータ組の一致した個数で割った値（相関比較中間結果）を比較に利用する比較計算手段
を備えるテーブル統合装置を説明した。

また、本実施の形態では、
表１と表２の間での相関比較中間結果を利用し、相関値として与えられる支持度と確信度に対し、指定可能な変数αを利用した次の式によって与えられる、
α×（支持度の相関比較中間結果）＋（１−α）×（確信度の相関比較中間結果）
を、複数カラム組間対応判定に利用する比較計算手段
を備えるテーブル統合装置を説明した。

また、本実施の形態では、
上記表２中のカラム組を入力とし、表１中に存在する複数カラムデータを分割した内容と対応するか否かを判定する区切り分割手段と、相関ルール計算手段と、相関差分値計算手段と、比較計算手段と、判定手段を持つテーブル統合装置を説明した。

また、本実施の形態では、
複数存在する２次元の表集合における、ある一つの注目する第１の表中の１カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割ステップと、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算ステップと、
前記相関値集合の、２つの組合せ間で差分値計算を実施する相関差分値計算ステップと、
別の注目する第２の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の２つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第１の表における結果と比較する比較計算ステップと、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定ステップと
を備える、テーブル統合方法を説明した。

なお、本実施の形態では、移行元データの解析対象のカラムを２つに分割する場合を説明した。
しかし、移行元データの解析対象のカラムが移行先のカラムと同じ構成である場合、例えば、移行元データ、移行先データのいずれにおいても、「姓」カラムと「名」カラムという構成になっている場合は、移行元データのカラムを分割する必要はない。

実施の形態２．
図９は、本実施の形態に係るテーブル統合装置１の構成例を示す。
本実施の形態に係るテーブル統合装置１は、図１に示す構成に加え、図９に示すように、閾値取得部３１、計算対象指定変数取得部３２、閾値保持部１６８、相関差分計算対象指定変数保持部１６９を持つ。
図９において、図１と同じ符号が用いられている要素は実施の形態１で説明したものと同様であり、説明を省略する。
なお、図９では、図１に示した移行元システム５０１、移行元データベース５０２、移行先システム６０１、移行先データベース６０２の図示は省略している。

本実施の形態では、比較計算部１４の結果にて現れる比較計算結果に対して、閾値取得部３１にて取得する変数ｍによって複数カラム組が対応するか否かの判定を実現する。
実施の形態１では、判定部１５は、統合結果が最も小さい数値となったカラム対が、移行元データのカラムに対応するカラム対の候補として抽出している。
これに対して、本実施の形態では、閾値ｍの値を可変とし、閾値取得部３１がユーザやアプリケーションプログラム等から閾値ｍの値を取得する。
そして、判定部１５は、統合結果の値が取得されたｍの値以下の対応候補のカラム対を最小値の統合結果から順に抽出する。

また、本実施の形態では、計算対象指定変数取得部３２にて取得された相関計算対象指定変数ｋ（ｋ＞１）は、相関差分値計算にて、相関表の上位ｋ位までの内容を対象とし、相関差分値計算を実施する。
実施の形態１では、移行元データ、移行先データのそれぞれにおいて、全ての行の組合せについて支持度及び確信度の差分値の計算が行われる。
例えば、移行元データ、移行先データともに相関表（図８）に１００行あれば、各行について他の９９行の各々と支持度及び確信度の差分値の計算が行われる。
これに対して、本実施の形態では、計算対象指定変数取得部３２がユーザやアプリケーションプログラム等から変数ｋの値を取得し、相関差分値計算部１３は、取得されたｋの値に対応する行数において差分計算を行う。
例えば、ｋ＝１０であれば、移行元データ、移行先データともに、相関表の１行目については、２〜１１行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して１０個の差分値が得られる。
同様に、相関表の２行目については、３〜１２行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して１０個の差分値が得られる。

なお、閾値ｍの指定、相関計算対象指定変数ｋの指定は、ユーザによる指定のほか、ファイル、別モジュールからの引数による渡しなどを想定する。

以上のように本実施の形態では、閾値ｍを設定することによる判定の基準設定が可能になることで、また、変数ｋにより計算対象の数が絞り込まれるため、計算量を削減することができる。

本実施の形態では、
支持度に対する相関比較中間結果と確信度に対する相関比較中間結果とに対して変数αを用いた計算結果に対し、指定可能な閾値ｍにより、候補を絞り込む比較計算手段を備えるテーブル統合装置を説明した。

また、本実施の形態では、
指定可能な変数ｋを用い、相関値の上位ｋ位までの集合から２つを選ぶ組合せを対象とし、表内相関差分値計算を実施する相関差分値計算手段を備えるテーブル統合装置を説明した。

実施の形態３．
図１１は、本実施の形態に係るテーブル統合装置１の構成例を示す。
本実施の形態に係るテーブル統合装置１は、図１に示す構成に加え、図１１に示すように、スキーマ情報分析部４１とスキーマ情報分析結果保持部１７０を持つ。
スキーマ情報分析部４１では、実施の形態１におけるステップＳ４の結果に対し、スキーマ情報を用い、カラム名の順序を考慮することで、判定を絞り込む。
つまり、移行先データにおけるカラム対ごとの統合結果の値とともに、移行先データにおけるカラムの配列順序を参照して、対応候補のカラム対を抽出する。
なお、本実施の形態では、判定部１５とともに、スキーマ情報分析部４１も対応候補抽出処理実行部の例となる。
また、図１１において、図１と同じ符号が用いられている要素は実施の形態１で説明したものと同様であり、説明を省略する。
なお、図１１では、図１に示した移行元システム５０１、移行元データベース５０２、移行先システム６０１、移行先データベース６０２の図示は省略している。

本実施の形態では、ステップＳ１で区切り分割する際に、その前後部分の順番関係が定義情報保持部１６１にて保持される。
つまり、前半部分は「姓」であり、後半部分が「名」であることが定義情報保持部１６１にて保持される。
図１０に、実施の形態３の具体例を示す。
移行元データの「管理者」カラムを分割した「姓」部分と「名」部分のそれぞれにつき、移行先データのカラムＡ・カラムＢ・カラムＣの中から対応するカラムを決定する必要がある。
ステップＳ４までの結果から、「管理者」カラムの「姓」部分はカラムＢに対応することが判明しているが、「管理者」カラムの「名」部分への対応は判明しなかったとする。
このとき、スキーマ情報分析部４１では、「管理者」カラムの分割部分の順番関係を定義情報保持部１６１から取得し、「姓」「名」の順番関係を把握する。
また、移行先データの順番情報を定義情報保持部１６１より取得し、比較することで、対応関係を把握する。
図１０に示す例では、「姓」が１番目に登場し、「名」が２番目に登場するという情報に基づき、「姓」−「名」の対応は「カラムＢ」−「カラムＣ」の対応関係に決定する。
本スキーマ情報分析部４１による結果はスキーマ情報分析結果保持部１７０に格納されると共に、判定部１５の入力となる。

以上のように本実施の形態では、カラムの定義情報を利用することにより、類似カラムの中でも対象を絞り込み、複数カラム組対応判定が可能である。

以上、本実施の形態では、
判定手段より出力された、複数カラム組間の対応候補の集合を入力とし、
データベース定義情報からカラムの順番情報を取得する定義情報取得手段と、
同カラムの順番情報を利用して、前記複数カラム組間の対応候補集合から、対応候補を一つに決定する、もしくは対応する候補は存在しないことを分析するスキーマ情報分析手段と
を備えるテーブル統合装置を説明した。

実施の形態４．
図１１は、本実施の形態に係るテーブル統合装置１の構成例を示す。
本実施の形態に係るテーブル統合装置１は、図１１に示すように、単独カラムデータ分析部４２と単独カラムデータ分析結果保持部１７１を持つ。
また、図１１において、図１と同じ符号が用いられている要素は実施の形態１で説明したものと同様であり、説明を省略する。
なお、図１１では、図１に示した移行元システム５０１、移行元データベース５０２、移行先システム６０１、移行先データベース６０２の図示は省略している。

単独カラムデータ分析部４２は、既存のインスタンス分析手法を用いて、移行元テーブルの内容と移行先テーブルの内容の対応関係を絞り込み、単独カラムデータ分析結果保持部１７１に格納する。
本実施の形態では、相関ルール計算部１２ととともに、単独カラムデータ分析部４２が、第２の出現傾向解析処理実行部の例となる。

単独カラムデータ分析は、区切り分割部１１にて分割された２つのデータに関して既知のインスタンス分析手法により値を算出し、さらに、移行先テーブルに関してカラム単位で既知のインスタンス分析手法で値を算出し、両者を比較する。
図１２を元に、具体例を説明する。
単独カラムデータ分析部４２は、移行元データのカラムに対し、区切り文字で分割された「姓」カラムに注目する。
そして、単独カラムデータ分析部４２は、「姓」カラムに出現するフィールド値のインスタンスごとに出現回数をカウントし、佐藤というインスタンスが１０回、田中というインスタンスが９回、というように、出現回数の降順に整理（ソート）する。
続いて、移行先の全カラムに対しても同様に出現回数のカウントとソートが実施される。
最後に、相関ルール計算部１２が、上位Ｎ個に対し、移行元データと移行先データの登場インスタンス数が一定数以上一致していたら、該当する移行先データのカラムを解析対象として選択する。
図１２の例では、移行先データのカラムＡとカラムＢは解析対象とする一方で、カラムＣは解析対象としない。
この後、相関ルール計算部１２は、移行先データについて、「姓」のカラムであるカラムＡに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算し、また、「姓」のカラムであるカラムＢに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算する。
以降の処理手順は、実施の形態１に示した通りであり、説明を省略する。

以上のように本実施の形態では、カラム単位でのインスタンス比較により、候補が絞り込まれるため、相関ルール計算・相関差分値計算での計算量削減に効果がある。

本実施の形態では、
注目テーブルのカラムに対して、別テーブルのカラムとの対応を、データ内容を比較することによって推測する単独カラムデータ分析手段と、
上記結果を、相関ルール計算にて、相関値計算の対象として利用する相関ルール計算手段と
を備えるテーブル統合装置を説明した。

実施の形態５．
図１３は、本実施の形態に係るテーブル統合装置１の構成例を示す。
本実施の形態に係るテーブル統合装置１は、移行先の注目データとして１つのカラム組を入力とし、移行元のデータとして複数のカラムを判定対象とし、移行元のカラム組のデータ内容を結合したものが移行先に存在するか判断するために、図１３に示すように、区切り分割部１１ｂ、相関ルール計算部１２ｂ、相関差分値計算部１３ｂ、比較計算部１４ｂ、判定部１５ｂを持ち、それぞれの部分にて、移行先の情報１つに対し移行元の複数カラム組を読み込むような機能を備えた機構である。
つまり、実施の形態１では、移行元データには「氏名」のカラムが存在し、移行先データには「姓」カラムと「名」カラムが複数存在している場合に、移行元データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行先データから抽出することを内容としている。
これに対して、実施の形態５では、移行先データには「氏名」のカラムが存在し、移行元データには「姓」カラムと「名」カラムが複数存在している場合に、移行先データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行元データから抽出することを内容としている。

また、本実施の形態に係るテーブル統合装置１においてにも、スキーマ情報分析部４１、単独カラムデータ分析部４２とを同時に使用しても良い。

以上、本実施の形態では、移行元の複数カラムと、移行先のカラムの対応関係を判断する構成を持つことによって、移行元の複数カラムに対して、そのデータが結合した内容を保持する移行先を判断することが可能になる。

最後に、実施の形態１〜５に示したテーブル統合装置１のハードウェア構成例について説明する。
図１５は、実施の形態１〜５に示すテーブル統合装置１のハードウェア資源の一例を示す図である。
なお、図１５の構成は、あくまでもテーブル統合装置１のハードウェア構成の一例を示すものであり、テーブル統合装置１のハードウェア構成は図１５に記載の構成に限らず、他の構成であってもよい。

図１５において、テーブル統合装置１は、プログラムを実行するＣＰＵ９１１（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。
ＣＰＵ９１１は、バス９１２を介して、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９１３、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１４、通信ボード９１５、表示装置９０１、キーボード９０２、マウス９０３、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。
更に、ＣＰＵ９１１は、ＦＤＤ９０４（ＦｌｅｘｉｂｌｅＤｉｓｋＤｒｉｖｅ）、コンパクトディスク装置９０５（ＣＤＤ）、プリンタ装置９０６、スキャナ装置９０７と接続していてもよい。また、磁気ディスク装置９２０の代わりに、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク装置、メモリカード（登録商標）読み書き装置などの記憶装置でもよい。
ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
実施の形態１〜５で説明した「記憶領域１６」は、ＲＡＭ９１４、磁気ディスク装置９２０等により実現される。
通信ボード９１５、キーボード９０２、マウス９０３、スキャナ装置９０７、ＦＤＤ９０４などは、入力装置の一例である。
また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力装置の一例である。

通信ボード９１５は、例えば、ＬＡＮ（ローカルエリアネットワーク）、インターネット、ＷＡＮ（ワイドエリアネットワーク）、ＳＡＮ（ストレージエリアネットワーク）などに接続されている。

磁気ディスク装置９２０には、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。
プログラム群９２３のプログラムは、ＣＰＵ９１１がオペレーティングシステム９２１、ウィンドウシステム９２２を利用しながら実行する。

また、ＲＡＭ９１４には、ＣＰＵ９１１に実行させるオペレーティングシステム９２１のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、ＲＡＭ９１４には、ＣＰＵ９１１による処理に必要な各種データが格納される。

また、ＲＯＭ９１３には、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）プログラムが格納され、磁気ディスク装置９２０にはブートプログラムが格納されている。
テーブル統合装置１の起動時には、ＲＯＭ９１３のＢＩＯＳプログラム及び磁気ディスク装置９２０のブートプログラムが実行され、ＢＩＯＳプログラム及びブートプログラムによりオペレーティングシステム９２１が起動される。

上記プログラム群９２３には、実施の形態１〜５の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。

ファイル群９２４には、実施の形態１〜５の説明において、「〜の読み込み」、「〜の判断」、「〜の判定」、「〜の計算」、「〜の演算」、「〜の比較」、「〜の評価」、「〜の解析」、「〜の更新」、「〜の設定」、「〜の登録」、「〜の選択」、「〜の抽出」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。
ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出される。
そして、読み出された情報やデータや信号値や変数値やパラメータは、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのＣＰＵの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態１〜５で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示す。
データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ等の記録媒体に記録される。
また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、実施の形態１〜５の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。
すなわち、実施の形態１〜５で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
また、「〜部」、「〜手段」として説明しているものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。
或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。
プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。
すなわち、プログラムは、実施の形態１〜５の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、実施の形態１〜５の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。

このように、実施の形態１〜５に示すテーブル統合装置１は、処理装置たるＣＰＵ、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータである。
そして、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。

１テーブル統合装置、１１区切り分割部、１２相関ルール計算部、１３相関差分値計算部、１４比較計算部、１５判定部、１６記憶領域、１７定義情報取得部、１８データ取得部、１９区切り情報取得部、２０データベース接続部、２１接続情報保持部、２２ユーザＩ／Ｆ、３１閾値取得部、３２計算対象指定変数取得部、４１スキーマ情報分析部、４２単独カラムデータ分析部、１０１データベース定義情報、１０２インスタンスデータ、１０３区切り情報、１６１定義情報保持部、１６２取得データ保持部、１６３区切り文字情報保持部、１６４分割データ保持部、１６５相関ルール計算結果保持部、１６６相関差分計算結果保持部、１６７比較計算結果保持部、１６８閾値保持部、１６９相関差分計算対象指定変数保持部、１７０スキーマ情報分析結果保持部、１７１単独カラムデータ分析結果保持部、５０１移行元システム、５０２移行元データベース、６０１移行先システム、６０２移行先データベース。

Claims

複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第１のデータに対して、解析の対象となるカラム対を第１の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
第１の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第１の出現傾向解析処理を実行する第１の出現傾向解析処理実行部と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第２のデータに対して、解析の対象となるカラム対を第２の解析対象カラム対として１対以上選択し、第２の解析対象カラム対ごとに、第２の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第２の出現傾向解析処理を実行する第２の出現傾向解析処理実行部と、
第１の解析対象カラム対に対する解析結果と第２の解析対象カラム対ごとの解析結果とを解析して、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とするデータ処理装置。
前記第１の出現傾向解析処理実行部は、
第１の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
前記第２の出現傾向解析処理実行部は、
第２の解析対象カラム対の各々に対して、第２の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
前記近似度算出処理実行部は、
第１の解析対象カラム対における連結フィールド値ごとの出現頻度の算出値と、第２の解析対象カラム対の各々における連結フィールド値ごとの出現頻度の算出値とを解析して、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項１に記載のデータ処理装置。
前記第１の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第１の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出し、
前記第２の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第２の解析対象カラム対の各々に対して、第２の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出することを特徴とする請求項２に記載のデータ処理装置。
前記近似度算出処理実行部は、
第１の解析対象カラム対における連結フィールド値間の算出値の差分を第１の１次差分値として算出し、第１の解析対象カラム対において複数の第１の１次差分値を取得し、
第２の解析対象カラム対ごとに、第２の解析対象カラム対における連結フィールド値間の算出値の差分を第２の１次差分値として算出し、第２の解析対象カラム対ごとに複数の第２の１次差分値を取得し、
第２の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第１の１次差分値と第２の１次差分値との差分を２次差分値として算出し、第２の解析対象カラム対ごとに２次差分値を取得し、
第２の解析対象カラム対ごとに、２次差分値を用いて、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項２又は３に記載のデータ処理装置。
前記近似度算出処理実行部は、
第１の解析対象カラム対に存在する連結フィールド値が第２の解析対象カラム対に存在しない場合に、第２の解析対象カラム対における当該連結フィールド値の算出値を０として第２の１次差分値を算出することを特徴とする請求項４に記載のデータ処理装置。
前記第１の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第１の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
前記第２の出現傾向解析処理実行部は、
連結フィールド値の出現頻度として、第２の解析対象カラム対の各々に対して、第２の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
前記近似度算出処理実行部は、
第１の解析対象カラム対における連結フィールド値間の支持度の差分を第１の支持度１次差分値として算出し、第１の解析対象カラム対において複数の第１の支持度１次差分値を取得し、
第２の解析対象カラム対ごとに、第２の解析対象カラム対における連結フィールド値間の支持度の差分を第２の支持度１次差分値として算出し、第２の解析対象カラム対ごとに複数の第２の支持度１次差分値を取得し、
第２の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第１の支持度１次差分値と第２の支持度１次差分値との差分を支持度２次差分値として算出し、
第１の解析対象カラム対における連結フィールド値間の確信度の差分を第１の確信度１次差分値として算出し、第１の解析対象カラム対において複数の第１の確信度１次差分値を取得し、
第２の解析対象カラム対ごとに、第２の解析対象カラム対における連結フィールド値間の確信度の差分を第２の確信度１次差分値として算出し、第２の解析対象カラム対ごとに複数の第２の確信度１次差分値を取得し、
第２の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第１の確信度１次差分値と第２の確信度１次差分値との差分を確信度２次差分値として算出し、
支持度２次差分値と確信度２次差分値とを用いて、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項４又は５に記載のデータ処理装置。
前記近似度算出処理実行部は、
第１の解析対象カラム対において、連結フィールド値ごとに、ｋ（ｋ＞１）個の他の連結フィールド値との間でｋ個の第１の１次差分値を算出し、
第２の解析対象カラム対において、連結フィールド値ごとに、ｋ個の他の連結フィールド値との間でのｋ個の第２の１次差分値を算出することを特徴とする請求項４〜６のいずれかに記載のデータ処理装置。
前記第２の出現傾向解析処理実行部は、
第２のデータに含まれる複数のカラム対における全ての組合せのカラム対を第２の解析対象カラム対として選択することを特徴とする請求項１〜７のいずれかに記載のデータ処理装置。
前記第２の出現傾向解析処理実行部は、
第２のデータに含まれる各カラムにおけるフィールド値を解析し、解析結果に基づいて特定数のカラム対を第２の解析対象カラム対として選択することを特徴とする請求項１〜８のいずれかに記載のデータ処理装置。
前記カラム対選択処理実行部は、
第１のデータに含まれる特定のカラムを２つに分割し、分割後の２つのカラムを第１の解析対象カラム対として選択することを特徴とする請求項１〜９のいずれかに記載のデータ処理装置。
前記データ処理装置は、更に、
前記近似度算出処理実行部により算出された第２の解析対象カラム対ごとの近似度に基づき、第１の解析対象カラム対と対応する関係にある第２の解析対象カラム対の候補の中から指定可能な変数ｍ以下の近似度を持つものを対応候補カラム対として抽出する対応候補抽出処理を実行する対応候補抽出処理実行部を有することを特徴とする請求項１〜１０に記載のデータ処理装置。
前記対応候補抽出処理実行部は、
第２の解析対象カラム対ごとの近似度とともに、第２のデータにおけるカラムの配列順序を参照して、対応候補カラム対を抽出することを特徴とする請求項１１に記載のデータ処理装置。
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第１のデータに対して、コンピュータが、解析の対象となるカラム対を第１の解析対象カラム対として選択するカラム対選択処理と、
前記コンピュータが、第１の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第１の出現傾向解析処理と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第２のデータに対して、前記コンピュータが、解析の対象となるカラム対を第２の解析対象カラム対として１対以上選択し、第２の解析対象カラム対ごとに、第２の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第２の出現傾向解析処理と、
前記コンピュータが、第１の解析対象カラム対に対する解析結果と第２の解析対象カラム対ごとの解析結果とを解析して、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とを有することを特徴とするデータ処理方法。
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第１のデータに対して、解析の対象となるカラム対を第１の解析対象カラム対として選択するカラム対選択処理と、
第１の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第１の出現傾向解析処理と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される２次元の第２のデータに対して、解析の対象となるカラム対を第２の解析対象カラム対として１対以上選択し、第２の解析対象カラム対ごとに、第２の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第２の出現傾向解析処理と、
第１の解析対象カラム対に対する解析結果と第２の解析対象カラム対ごとの解析結果とを解析して、第２の解析対象カラム対ごとに、第１の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とをコンピュータに実行させることを特徴とするプログラム。