JP5398663B2 - データ処理装置及びデータ処理方法及びプログラム - Google Patents

データ処理装置及びデータ処理方法及びプログラム Download PDF

Info

Publication number
JP5398663B2
JP5398663B2 JP2010177296A JP2010177296A JP5398663B2 JP 5398663 B2 JP5398663 B2 JP 5398663B2 JP 2010177296 A JP2010177296 A JP 2010177296A JP 2010177296 A JP2010177296 A JP 2010177296A JP 5398663 B2 JP5398663 B2 JP 5398663B2
Authority
JP
Japan
Prior art keywords
column pair
analysis target
target column
analysis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010177296A
Other languages
English (en)
Other versions
JP2012038066A (ja
Inventor
聖人 細田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010177296A priority Critical patent/JP5398663B2/ja
Publication of JP2012038066A publication Critical patent/JP2012038066A/ja
Application granted granted Critical
Publication of JP5398663B2 publication Critical patent/JP5398663B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、例えばデータを統合する際にカラム間の対応関係を解析する技術に関する。
システム統合などに伴うデータ統合では、異なるデータベースのテーブル間にてカラム対応関係を取り、データの内容を両者に反映させることが必要である。
ここで、データ統合とは、移行元データベースと移行先データベースにおける、カラム名やデータの配置といった設計情報の差異を解消し、データの移行を実現することである。
このとき、システム間の類似したテーブルや、カラムの対応関係を判別する技術は、スキーママッチング技術と呼ばれる。
スキーママッチング技術の基本的な手法としては、スキーマ情報(カラム名称、型など)・インスタンス情報(単語や値の出現パターンなど)を利用した分析方法がある。
さらに応用的な手法として、複数カラム組間の対応関係を判別することが挙げられる。
ここで、複数カラム組間の対応関係とは、あるカラムの組と、別のカラムの組に対する対応関係を意味する。
上記複数カラム組間の対応関係の1つとして、システム統合の移行元におけるカラム内容(データ)を、ある特定の位置で分割した後、移行先の複数カラムに対応を取る場合が挙げられる。
具体例としては、移行元で電話番号を1つのカラムで取り扱っていたものを、移行先では局番で分割し3つのカラムで扱うといった例、移行元で氏名として1つのカラムで扱っていたものを、移行先で姓と名に分割し2カラムで扱うといった例、等が挙げられる。
特許文献1の技術では、相関ルール(支持度・確信度)を算出することによって、複数カラム組間の対応関係を判定する。
相関ルールとは、ある対象Aと対象Bの間の相関関係を示す次の2つの値である。
確信度とは、A選択者がBを選ぶ確率である。
支持度とは、関係の全体においてAとBが同時に出現する確率である。
換言すると、確信度は、対象Aが含まれるレコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
特許文献1による、複数カラム組間の対応判定方法を説明する。
同一テーブル内の2つのカラムに注目したとき、あるカラムを指定した際に、同一テーブル内に存在する別カラムとの間で、相関ルール計算を実施することで、両者の対応関係を判定する。
特許文献1の技術では、例えば、市場調査の目的等のために、相互に別個のカラムであるワインの購入に関するカラムとチーズの購入に関するカラムの支持度及び確信度を計算し、ワインを購入する人がチーズを購入する確率が高い等の相関を抽出している。
特開2000−353163号公報
特許文献1の技術によれば、同一データを二つに割った関係(例:姓と名)の間では、支持度・確信度共に高い値を算出すると考えられる。
しかし、データ統合の場合は、移行元と移行先が存在し、通常対応をとるべきカラム組が別々のテーブルに配置される。
このとき、レコード数は同一であると仮定しても、従来手法では移行元と移行先で、レコードの並び順に関連が無く、独立しているため、相関関係の発見はできない。
例えば、移行元にて「姓」に対応するカラムと、移行先の「名」に対応するカラムを結合して、相関ルール計算を実施したとしても、この結合されたデータは、別々のテーブルに存在していたデータを結合した内容であり、同一レコードに存在するデータではないので特定の関連が必ずしもあるわけではなく、相関ルール計算にて高い値は算出できない可能性が高く、判断は不可能である。
また、特許文献1を用いれば、移行元データの姓:「佐藤」に対しては移行先データの名「一郎」が出現する可能性が高いとの結論が得られるのみであり、移行元データのカラムに対応する移行先データのカラムを抽出することはできない。
本発明は、上記の課題を解決することを主な目的としており、2つのデータの間で対応関係にあるカラムを抽出する作業の効率を向上することを主な目的とする。
本発明に係るデータ処理装置は、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理を実行する第1の出現傾向解析処理実行部と、
複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理を実行する第2の出現傾向解析処理実行部と、
第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とする。
本発明によれば、第1のデータの第1の解析対象カラム対の連結フィールド値の出現傾向と、第2のデータの第2の解析対象カラム対ごとの連結フィールド値の出現傾向とを解析し、それぞれの解析結果を解析して、第2の解析対象カラム対ごとに第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出するため、第1の解析対象カラム対と対応関係にある第2のデータ内のカラム対を抽出する作業の効率を向上させることができる。
実施の形態1に係るテーブル統合装置の構成例を示す図。 実施の形態1に係るテーブル統合装置とデータベースとの関係を示す図。 実施の形態1に係るテーブル統合装置の処理概要を示すフローチャート図。 実施の形態1に係るカラムの分割例を示す図。 実施の形態1に係る相関ルールを説明する図。 実施の形態1に係る相関ルール計算処理を示すフローチャート図。 実施の形態1に係る相関差分値計算処理及び比較計算処理を示すフローチャート図。 実施の形態1に係る支持度の計算結果の例を示す図。 実施の形態2に係るテーブル統合装置の構成例を示す図。 実施の形態3に係るカラム選択の例を示す図。 実施の形態4に係るテーブル統合装置の構成例を示す図。 実施の形態4に係るカラム選択の例を示す図。 実施の形態5に係るテーブル統合装置の構成例を示す図。 実施の形態1に係る移行元データ及び移行先データの例を示す図。 実施の形態1〜5に係るテーブル統合装置のハードウェア構成例を示す図。
実施の形態1.
図1は、本実施の形態に係るテーブル統合装置の構成例を示す。
図1に示すように、テーブル統合装置1は移行元システム501の移行元データベース502と移行先システム601の移行先データベース602に接続される。
本実施の形態では、移行元データベース502と移行先データベース602はリレーショナルデータベースである。
本実施の形態に係るテーブル統合装置1は、移行元データベース502内の2次元データ(以下、移行元データという)の特定のカラムが、移行先データベース602内の2次元データ(以下、移行先データという)の複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。
より具体的には、本実施の形態に係るテーブル統合装置1は、移行元データの特定のカラムが保持するデータを分割した内容が、移行先データの複数カラムのうちのいずれのカラムと対応関係にあるのかを判定する。
詳細は後述するが、本実施の形態では、例えば図14に示す移行元データ及び移行先データを対象とする。
図14(a)は移行元データを示し、図14(b)は移行先データを示す。
移行元データ、移行先データともに、複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元のデータである。
本実施の形態では、移行元データのシステム管理者のカラムが解析対象となる。
また、移行先データでは、利用者、利用申請者、利用許諾者の各カラムにおいて個人名が示されている。
このため、移行元のシステム管理者のカラムと対応関係にあるカラムが利用者、利用申請者、利用許諾者のいずれであるかを特定する必要がある。
なお、移行先データにおいて、利用者とは、利用申請を行って利用申請が許諾された場合にのみ利用が認められる所定のシステムを実際に利用する者を表す。
利用申請者とは、利用者のために当該システムの利用申請を行った者を表す。利用者本人であってもよい。
利用許諾者とは、当該システムの利用申請に対して利用を許諾した者を表す。
なお、移行元データではシステム管理者の「姓」と「名」が1つのカラムに収容されているが、移行先データでは個人名が「姓」と「名」の異なるカラムに収容されている。
このため、移行先データとの照合のために、移行元データのシステム管理者のカラムは、「姓」を表すカラムと「名」を表すカラムに分割する必要がある。
ここで、カラムとカラムのフィールド値を行単位で連結したものを連結フィールド値という。
例えば、移行元データにおいて分割された後の「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの(例えば、「佐藤」+「一郎」)を連結フィールド値という。
同様に、移行先データの「姓」を表すカラムと「名」を表すカラムのフィールド値を行単位で連結したもの(例えば、「山本」+「一郎」)も連結フィールド値という。
本実施の形態では、移行元データは第1のデータの例であり、移行先データは第2のデータの例である。
図1に示すように、テーブル統合装置1において、データベース接続部20は、移行元データベース502に接続し、また、移行先データベース602に接続する。
データベース接続部20は、図2に示すように、記憶領域16内の接続情報保持部21から接続情報をロードし、移行元システム501における移行元データベース502に接続し、移行先システム601における移行先データベース602に接続する。
そして、データベース定義情報101、インスタンスデータ102、区切り情報103を取得し、取得したデータベース定義情報101を定義情報取得部17に出力し、インスタンスデータ102をデータ取得部18に出力し、区切り情報103を区切り情報取得部19に出力する。
定義情報取得部17は、データベース接続部20からデータベース定義情報101を取得し、取得したデータベース定義情報101を記憶領域16内の定義情報保持部161に格納する。
データベース定義情報101は、移行元データ及び移行先データの各々について、例えばカラムの個数、各カラムの属性、各カラムのデータ型等が示されている。
定義情報取得部17がデータベース定義情報101を取得する対象のシステムは、単一システムが複数のデータベースを備える構成であってもよい。
データ取得部18は、データベース接続部20からインスタンスデータ102を取得し、取得したインスタンスデータ102を記憶領域16内の取得データ保持部162に格納する。
インスタンスデータ102は、移行元データのテーブルに格納されるフィールド値、移行先データのテーブルに格納されるフィールド値である。
なお、データベース接続部20が移行元データベース502、移行先データベース602とネットワークを介して接続していないなどの場合は、インスタンスデータを記録媒体を介してオフラインにて取得してもよい。
区切り情報取得部19は、データベース接続部20から区切り情報103を取得し、取得した区切り情報103を記憶領域16内の区切り文字情報保持部163に格納する。
本実施の形態では、移行元データのカラムのデータ値を2つに分割する例を説明するので、区切り情報103には、移行元データのカラムのデータ値を2つに分割する際に目印となる区切り文字が示されている。
区切り分割部11は、区切り情報取得部19が取得した区切り情報103に基づき、移行元データの特定のカラムの内容を分割し、2種類の仮想カラムデータとして分割データ保持部164に保持する。
分割対象のカラムは、例えば、ユーザI/F22を通じてユーザから指定される。
区切り分割部11により分割データ保持部164に格納されるカラム対(2つの仮想カラム)は、移行元データにおいて解析の対象となるカラム対であり、第1の解析対象カラム対の例である。なお、カラム対はカラム組ともいう。
そして、区切り分割部11は、第1の解析対象カラム対を選択する処理を行っており、カラム対選択処理実行部の例である。
相関ルール計算部12は、分割データ保持部164よりデータを入手し、相関ルール計算を実施し、結果を相関ルール計算結果保持部165に保持する。
より具体的には、相関ルール計算部12は、移行元データの解析対象のカラム対(第1の解析対象カラム対)のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
支持度及び確信度は、連結フィールド値ごとの出現傾向を表す。
支持度及び確信度をまとめて相関ルールともいう。
また、相関ルール計算部12は、移行先データにおいて解析の対象となるカラム対を1対以上選択する。
本実施の形態では、移行先データに含まれるカラムにおける全種類のカラムの組合せを解析の対象とする。
移行先データにおいて解析の対象となるカラム対は、第2の解析対象カラム対の例である。
そして、相関ルール計算部12は、移行先データの解析対象のカラム対(第2の解析対象カラム対)のインスタンス、すなわち、解析対象のカラム対の各カラムのフィールド値を行単位で連結した連結フィールド値ごとに支持度と確信度を算出する。
移行先データにおける支持度と確信度の算出は、カラム対ごとに行う。
相関ルール計算部12は、第1の出現傾向解析処理実行部と第2の出現傾向解析処理実行部の例である。
相関差分値計算部13は、相関ルール計算部12の相関ルール計算によって取得された支持度間の差分値と確信度間の差分値を、移行元データ及び移行先データの各々で計算し、移行元データにおける支持度の差分値と確信度の差分値、移行先データにおける支持度の差分値と確信度の差分値を相関差分計算結果保持部166に保持する。
より具体的には、相関差分値計算部13は、移行元データのカラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行元データのカラム対における支持度の差分は、第1の支持度1次差分値に相当する。
また、相関差分値計算部13は、移行元データのカラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行元データのカラム対における確信度の差分は、第1の確信度1次差分値に相当する。
相関差分値計算部13は、移行先データについても同様の計算を行う。
つまり、相関差分値計算部13は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の支持度の差分を算出する。なお、この移行先データのカラム対における支持度の差分は、第2の支持度1次差分値に相当する。
また、相関差分値計算部13は、移行先データのカラム対ごとに、カラム対における連結フィールド値間の確信度の差分を算出する。なお、この移行先データのカラム対における確信度の差分は、第2の確信度1次差分値に相当する。
そして、相関差分値計算部13は、このようにして得られた移行元データにおける支持度の差分値(第1の支持度1次差分値)と確信度の差分値(第1の確信度1次差分値)、移行先データにおける支持度の差分値(第2の支持度1次差分値)と確信度の差分値(第2の確信度1次差分値)を相関差分計算結果保持部166に格納する。
相関差分値計算部13は、後述の比較計算部14とともに、近似度算出処理実行部の例である。
比較計算部14では、移行元・移行先の相関差分計算結果を比較し、結果、カラム組間の対応候補であるものを比較計算結果保持部167に書き込む。
より具体的には、比較計算部14は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの支持度の差分値(第1の支持度1次差分値)と移行先データの支持度の差分値(第2の支持度1次差分値)との差分を算出する。なお、この移行元データの支持度の差分値と移行先データの支持度の差分値との差分値は、支持度2次差分値に相当する。
比較計算部14は、確信度についても同様の計算を行う。
つまり、比較計算部14は、移行先データのカラム対ごとに、同じ連結フィールド値の組合せから算出された移行元データの確信度の差分値(第1の確信度1次差分値)と移行先データの確信度の差分値(第2の確信度1次差分値)との差分を算出する。なお、この移行元データの確信度の差分値と移行先データの確信度の差分値との差分値は、確信度2次差分値に相当する。
その後、比較計算部14は、算出した支持度の差分値に対する合算及び商計算、算出した確信度の差分値に対する合算及び商計算を行った後、商計算後の支持度の差分値と商計算後の確信度の差分値を統合する計算を行い、統合結果を比較計算結果保持部167に格納する。
統合結果は、移行先データのカラム対ごとに、移行元データのカラム対における連結フィールド値の出現傾向との近似度を表す。
比較計算部14は、前述の相関差分値計算部13とともに、近似度算出処理実行部の例である。
判定部15は、比較計算部14により算出された移行先データのカラム対ごとの統合結果(近似度)に基づき、移行元データのカラム対と対応する関係にある移行先データのカラム対の候補を対応候補カラム対として抽出する。
判定部15は、対応候補抽出処理実行部の例である。
なお、区切り分割部11、相関ルール計算部12、相関差分値計算部13、比較計算部14、判定部15、定義情報取得部17、データ取得部18、区切り情報取得部19、データベース接続部20は、それぞれ上述した処理を実現するプログラムとすることができる。
各要素をプログラムとした場合は、図示していないCPU(Central Processing Unit)が各要素のプログラムを実行して、上述の処理が実施される。
記憶領域16は、メモリあるいはハードディスクにより実現されるデータ格納領域である。
次に動作について説明する。
図3は、図1に示したテーブル統合装置1の処理概要を示すフローチャートである。
最初に、図3に示すフローチャートに沿ってテーブル統合装置1の処理概要を説明する。
まず、ステップS1において、定義情報取得部17は、データベース接続部20を介して、対象となる表のカラム名・カラム順番を取得し、定義情報保持部161に保存する。
また、データ取得部18は、データベース接続部20を介して、移行元データベース502及び移行先データベース602のデータを取得し、取得データ保持部162に記憶する。
また、区切り情報取得部19は、ユーザI/F22を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部20を介して区切り文字の情報を取得し、区切り文字情報保持部163に記憶する。
続いて、区切り分割部11は、取得データ保持部162から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列(フィールド値)に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部164に保存する(カラム対選択処理)。
前述したように、区切り分割部11により分割された後の2つのカラムが第1の解析対象カラム対に相当する。
次に、ステップS2において、相関ルール計算部12は、移行元データと移行先データの双方において、相関ルール計算を実施する(第1の出現傾向解析処理)(第2の出現傾向解析処理)。
次に、ステップS3において、相関差分値計算部13は、前記の相関ルール計算の結果を利用し、相関差分値計算を実施する(近似度算出処理)。
次に、ステップS4において、比較計算部14は前記の相関差分値計算結果を利用し、移行元と移行先の比較計算を実施する(近似度算出処理)。
最後に、ステップS5において、判定部15により移行元のカラムと移行先のカラム組に対する対応判定がなされ、結果が出力される。
出力の方法としては、ファイル出力、モジュールの出力、インタフェース等が想定される。
以下、ステップS1〜S4までの詳細に関して説明する。
まず、ステップS1に関して説明する。
定義情報取得部17は、データベース接続部20を介して、対象となる表のカラム名・カラム順番を取得し、定義情報保持部161に保存する。
また、データ取得部18は、データベース接続部20を介して、移行元データベース502から移行元データを取得し、また、移行先データベース602から移行先データを取得し、取得データ保持部162に記憶する。
また、区切り情報取得部19は、ユーザI/F22を介してユーザより解析の対象となるカラムの指定を受け、また、データベース接続部20を介して区切り文字の情報を取得する。
続いて、区切り分割部11は、取得データ保持部162から移行元データを取得し、ユーザから指定された解析対象のカラム内の文字列(フィールド値)に関して、取得した区切り文字情報の部分で分割し、分割部分を含まない前方部分と後方部分を別々に分割データ保持部164に保存する。
区切り分割の具体例として、図4に示すように、“ ”(全角スペース)が区切り文字として与えられた場合を考える。
このとき、移行元データ中の「氏名」カラム内に関して、最初に一致する全角スペースを区切りとして、一致した部分の前後部分が、それぞれ別の仮想的なカラムとして保持される。
次に、ステップS2において、相関ルール計算部12は、相関ルールである支持度と確信度の計算を実施する。
ここで、相関ルールとは、ある対象Aと対象Bの間の相関関係を次の2つの値にて示す。
確信度:A選択者がBを選ぶ確率
支持度:関係の全体に占める割合(AとBが同時に出現する割合)
前述したように、確信度は、対象Aが含まれるレコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
また、支持度は、全レコード数に対して、対象Aと対象Bが共に含まれるレコード数の割合である。
相関ルールの計算例に関して、図5を元に説明する。
図中の「佐藤→一郎」という連結フィールド値に対し、カラム全体数5に対し、「佐藤一郎」の組が2つ存在するため、支持度2/5=0.4と算出される。
また、「佐藤→一郎」という連結フィールド値について、「佐藤」の全数4に対し、「一郎」は2つ存在するため、確信度は2/4=0.5と算出される。
相関ルール計算部12は、移行元データについては、解析対象のカラムについてのみ支持度と確信度を計算する。
例えば、図14(a)の移行元データの場合は、システム管理者の氏名を分割した後の2つのカラムにおいて同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
図14(a)の例では、「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」、「鈴木→一郎」の各々について支持度と確信度を計算する。
一方、移行先データについては、相関ルール計算部12は、全ての種類のカラムの組合せについて、同じ行にあるフィールド値の連結の各々について、支持度と確信度を計算する。
例えば、図14(b)の移行元データの場合は、利用者の「姓」のカラムと「名」のカラムの組合せ(「山本→一郎」、「渡辺→三郎」等)、利用申請者の「姓」のカラムと「名」のカラムの組合せ(「太田→実」、「鈴木→順子」等)、利用許諾者の「姓」のカラムと「名」のカラムの組合せ(「佐藤→一郎」、「鈴木→四朗」等)の他、利用者の「姓」のカラムと利用申請者の「名」のカラムの組合せ(「山本→実」、「渡辺→順子」等)、利用者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ(「山本→一郎」、「渡辺→一郎」等)、利用申請者の「姓」のカラムと利用者の「名」のカラムの組合せ(「太田→一郎」、「鈴木→三郎」等)、利用申請者の「姓」のカラムと利用許諾者の「名」のカラムの組合せ(「太田→一郎」、「鈴木→一郎」等)、利用許諾者の「姓」のカラムと利用者の「名」のカラムの組合せ(「佐藤→一郎」、「佐藤→三郎」等)、利用許諾者の「姓」のカラムと利用申請者の「名」のカラムの組合せ(「佐藤→実」、「佐藤→順子」等)についても支持度と確信度を計算する。
図14(b)の移行先データに、例えば、利用日時等のカラムがあれば、利用者の姓と利用日時の値の組合せ(例えば、「山本→2010年7月10日」等)についても支持度と確信度を計算する。
なお、このような組合せは、移行元データの解析対象のカラム(「姓」と「名」の組合せ)と対応関係にないことが明らかなので、移行先データにおいて「姓」と「名」の組合せのみを支持度と確信度の計算の対象とする設定を行ってもよい。
このように、相関ルール計算部12では、移行元データについては解析対象のカラム対に関して支持度・確信度の組を計算し、移行先データについてはカラム対の全データ組合せに関して、支持度・確信度の組を計算し、計算結果を相関ルール計算結果保持部165に格納する。
次に、図6のフローチャートにて、ステップS2での相関ルール計算を詳細説明する。
まず、ステップS201において、カラム内容の読込みが開始される。
続いて、ステップS202において、分割された前方部分に対応するインスタンスが読み込まれる。
これは、図5(図14(a))の例では「姓」カラムのデータに相当する。
続いてステップS203において、記憶領域との比較が開始され、記憶領域に現時点で読み込んだデータが存在するか確認する。
ステップS205において、読み込んだデータが存在する場合、内部の管理変数を1カウントアップする。
読み込んだデータが存在しない場合、ステップS206において、データを内部記憶領域に登録する。
ここで、データ登録とは、内部記憶領域にデータを登録すると共に、索引となる数を対応させることで、移行のステップにおける検索性能向上につなげるものである。
続いてステップS207〜S211において、後方部分のインスタンスが読み込まれ、前方部分と同様の処理が実施される。
続いて、ステップS212において、全てのインスタンスを読み込んだか判定が成される。全て読み込んでいない場合は、図5(図14(a))での次のレコードにおける読込みが実施される。
具体的には、ステップS202〜S211に対応する、前部分の読み込み、後部分の読み込みが実施される。
分割されたデータの、分割データ保持部164への読込みが完了した場合は、ステップS213〜ステップS217において、読み込んだデータに対する支持度計算・ソートが実施され、続いて相関表形式(図8)にて、相関ルール計算結果保持部165への書出しが実施される。
移行先データについての相関ルール計算は、移行先データに含まれるカラムの組合せごとに、図6に示すフローが実施される。
図8は、図14(a)の移行元データ及び図14(b)の移行先データについて算出した支持度の例を示す。
移行先データについては、作図上の理由から、利用者の「姓」のカラムと「名」のカラムの組合せ(図8の(A))、利用申請者の「姓」のカラムと「名」のカラムの組合せ(図8の(B))、利用許諾者の「姓」のカラムと「名」のカラムの組合せ(図8の(C))のみを表記しているが、実際には、すべてのカラムの組合せについての支持度が含まれる。
また、確信度も図8と同様の形式で管理される。
続いて、ステップS3における相関差分値計算部13の計算と、ステップS4における比較計算部14の計算の詳細を説明する。
ステップS3とステップS4では、上記ステップ2において求めた相関ルール計算結果に対し以下の式(1)の演算を実施し、相関比較中間結果を算出する。
なお、以下の式(1)にて、aiは移行元データの相関表のi番目の数値(例:「姓→名」の支持度を降順に並べた際のi番目の支持度の数値)である。
biは、移行先データにおいて、aiに対応する文字列(姓と名の組合せ)と同じ文字列に対する数値である。
例えば、図8の場合は、i=1の場合は、aiは「佐藤→一郎」についての値であり、0.2であり、移行先データについては、1つ目の「姓→名」のカラム対には「佐藤→一郎」は存在せず、biは0であり、2つ目の「姓→名」のカラム対にも「佐藤→一郎」は存在せず、biは0であり、3つ目の「姓→名」のカラム対には「佐藤→一郎」は存在し、biは0.2である。
Figure 0005398663
なお、相関比較中間結果は、支持度と確信度の双方に関して算出される。
以下、図7のフローチャートを元に、ステップS3とステップS4の詳細を説明する。
図7のフローを実行すると、上記の式(1)の演算が行われたことになる。
相関差分値計算部13では、上記支持度・確信度に対し、移行元データ・移行先データ双方にて、2つのカラム組をレコード単位で捉えた場合の相関値差分を計算する。
ステップS301において、相関差分値計算部13は、移行元データの相関計算結果の全体を相関ルール計算結果保持部165より計算可能な形で準備する。
続いて、相関差分値計算部13は、ステップS302において、相関値の組合せに対し、移行元データにおいて差分計算を実施する。
差分計算は、移行元データの行ごとに、他の行との差分値を得る。
例えば、移行元データの相関表が図8の「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」の3行で構成されていると仮定すると、1行目(「佐藤→一郎」)の支持度と2行目(「佐藤→二郎」)の支持度との差分値、2行目(「佐藤→二郎」)の支持度と3行目(「佐藤→三郎」)の支持度との差分値、1行目(「佐藤→一郎」)の支持度と3行目(「佐藤→三郎」)の支持度との差分値が計算される。
また、1行目(「佐藤→一郎」)の確信度と2行目(「佐藤→二郎」)の確信度との差分値、2行目(「佐藤→二郎」)の確信度と3行目(「佐藤→三郎」)の確信度との差分値、1行目(「佐藤→一郎」)の確信度と3行目(「佐藤→三郎」)の確信度との差分値が計算される。
続いて、相関差分値計算部13は、ステップS303において、移行先データの相関表のうちの1つのカラム組(例えば、図8の(A):「山本→一郎」で開始しているカラムと「0.2」で開始しているカラムの組)の各行を上記相関ルール計算結果保持部165より読み込み、ステップS304において、移行元データの相関表から相関差分値の計算に用いられた行の組合せのうちの1つ(例えば、図8の「佐藤→一郎」と「佐藤→二郎」の組合せ)を読み込む。
次に、相関差分値計算部13は、ステップS305、S306において、S303で読み出した移行先データの相関表のカラム組の各行において、ステップS304で読み込まれた行の組合せ(例えば、図8の「佐藤→一郎」と「佐藤→二郎」の組合せ)と同じ組合せがあるかどうかを探索し、同じ行の組合せがある場合は、移行先データ側で移行元データと同一の組合せに対し、相関差分値同士の減算を実施する(ステップS307)。
このとき、移行元データについて差分値計算に用いられた行(例えば、図8の「佐藤→一郎」)がS303で読み出された移行先データの相関表には登場しない場合は、当該行については支持度・確信度ともに0を割り当てて差分値計算を行う。
ステップS308において、相関差分値計算部13は、移行元データ側の相関表から最終組(例えば、図8の「佐藤→一郎」と「佐藤→三郎」の組合せ)まで読み込んだかどうか判定し、読み込んでない場合はステップS304において続きの組を読み込み、読み込みが完了している場合はステップS309において比較計算部14が比較計算を実施する。
S309の比較計算の詳細は後述する。
ステップS310では、移行先データ側の相関表中のカラム組の全パターンに対し、S303〜S309の読み込み・計算が完了したか判定し、そうでない場合は、別の候補カラム組(例えば、図8の(B):「太田→実」で開始しているカラムと「0.2」で開始しているカラムの組)の各行を読み込む。
全て読み終わった場合は、処理を完了する。
次に、相関差分値計算を実現するステップS3と、比較計算を実現するステップS4における、計算の具体例に関して、図8を利用して示す。
ここでは、図8の相関表が3行で構成されていると仮定して説明を行う。
また、以下では、支持度について説明を行うが、確信度についても同様である。
(1)相関差分値計算部13は、移行元データに対して、以下の距離の組を求め、順番関係を示す指標とする。
1番目と2番目の差(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.1
2番目と3番目の差(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0.05
1番目と3番目の差(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.15
(2)また、相関差分値計算部13は、移行先データのカラム対ごとに、上記(1)にて求めた組に対して同様に距離を求める。
(A)図8の移行先データにおける(A)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0
(B)図8の移行先データにおける(B)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0
(C)図8の移行先データにおける(C)のカラム
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.15
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0.05
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.2
なお、移行先側計算の(A)及び(B)において、各カラムには「佐藤→一郎」、「佐藤→二郎」、「佐藤→三郎」のいずれも存在しないので、各々の支持度を0とみなして差分計算を行う。
また、移行先側計算の(C)において、カラムには「佐藤→三郎」は存在しないので、「佐藤→三郎」の支持度を0とみなして差分計算を行う。
すなわち、移行元に存在し移行先に存在しない文字列の値は、0とみなし計算する。
比較計算部14は、同じ行の組合せに対して(2)(A)〜(C)の差分値から(1)の差分値を減算し、各行の減算値を合計し、合計値の絶対値を取り、一致した組合せ個数で割ることで、相関に関する距離値(相関比較中間結果)とする。
上記の例の具体的な計算結果を示すと以下のようになる。
[(2)(A)の差分値]−[(1)の差分値]及び[(2)(B)の差分値]−[(1)の差分値]
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=−0.1
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=−0.05
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=−0.15
合計値の絶対値=0.3
商計算値=0.1
[(2)(C)の差分値]−[(1)の差分値]
(「佐藤→一郎」の支持度−「佐藤→二郎」の支持度)=0.05
(「佐藤→二郎」の支持度−「佐藤→三郎」の支持度)=0
(「佐藤→一郎」の支持度−「佐藤→三郎」の支持度)=0.05
合計値の絶対値=0.1
商計算値≒0.03
前述したように、上記計算は支持度、確信度の双方に対して実施される。
さらに支持度、確信度の相関比較中間結果は、比較計算部14により、指定可能な変数αを利用して以下の式により統合される。
統合結果
=α×(支持度の相関比較中間結果)+(1−α)×(確信度の相関比較中間結果)
ただし、統合結果を求める式は別の形式でも良い。
統合結果は、比較計算結果保持部167に保存される。
最後に、ステップS5において、判定部15は、統合結果に基づき、移行元のカラムと対応関係にある移行先のカラム組を判定し、判定結果を出力する。
判定の方法は、例えば、統合結果の算出結果が最も小さい値となった移行先のカラム組を抽出する等がある。
このとき、出力の形態は限定されるものではなく、記憶領域への出力、ファイル出力、画面出力等を想定する。
以上のように、本実施の形態では、2次元の表に対し、複数カラム組にて移行元・移行先ごとに計算を実施することにより、双方の結果が比較できるので、複数データベース間もしくは単一データベース内での1対多対応の関係を容易に把握することができる。
以上、本実施の形態では、
複数存在する2次元の表集合における、ある一つの注目する第1の表中の1カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割手段と、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算手段と、
前記相関値集合の、2つの組合せ間で差分値計算を実施する相関差分値計算手段と、
別の注目する第2の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の2つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第1の表における結果と比較する比較計算手段と、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定手段と
を備える、テーブル統合装置を説明した。
また、本実施の形態では、
前記の表内差分値計算は、前記表1に存在するデータ組と同じ組合せを持つ、前記表2に存在するデータ組合せを比較対象とし、
かつ、表2に存在しないデータは相関値0として差分値計算を実現する相関差分値計算手段
を備えるテーブル統合装置を説明した。
また、本実施の形態では、
表1と表2の間での表内相関差分値計算の結果を比較する方法として、一方の相関差分値集合から、データ組が同一であるもう一方の相関差分値の差を取り、相関差分値間の差の合計の絶対値を取り、
表1の持つデータ組と表2の持つデータ組の一致した個数で割った値(相関比較中間結果)を比較に利用する比較計算手段
を備えるテーブル統合装置を説明した。
また、本実施の形態では、
表1と表2の間での相関比較中間結果を利用し、相関値として与えられる支持度と確信度に対し、指定可能な変数αを利用した次の式によって与えられる、
α×(支持度の相関比較中間結果)+(1−α)×(確信度の相関比較中間結果)
を、複数カラム組間対応判定に利用する比較計算手段
を備えるテーブル統合装置を説明した。
また、本実施の形態では、
上記表2中のカラム組を入力とし、表1中に存在する複数カラムデータを分割した内容と対応するか否かを判定する区切り分割手段と、相関ルール計算手段と、相関差分値計算手段と、比較計算手段と、判定手段を持つテーブル統合装置を説明した。
また、本実施の形態では、
複数存在する2次元の表集合における、ある一つの注目する第1の表中の1カラムに対して、
指定可能な箇所でカラム内データを分割する区切り分割ステップと、
前記分割データ間の相関値として相関ルールを計算する相関ルール計算ステップと、
前記相関値集合の、2つの組合せ間で差分値計算を実施する相関差分値計算ステップと、
別の注目する第2の表におけるカラム組に対し、カラムが保持するデータ間の相関ルール計算を実施し、さらに相関値集合の2つの組合せ間で相関差分値計算を実施し、上記の相関差分値計算結果を第1の表における結果と比較する比較計算ステップと、
上記比較結果を持って、注目カラムが複数カラムに対応するか否かを判定する、複数カラム間の対応判定ステップと
を備える、テーブル統合方法を説明した。
なお、本実施の形態では、移行元データの解析対象のカラムを2つに分割する場合を説明した。
しかし、移行元データの解析対象のカラムが移行先のカラムと同じ構成である場合、例えば、移行元データ、移行先データのいずれにおいても、「姓」カラムと「名」カラムという構成になっている場合は、移行元データのカラムを分割する必要はない。
実施の形態2.
図9は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図1に示す構成に加え、図9に示すように、閾値取得部31、計算対象指定変数取得部32、閾値保持部168、相関差分計算対象指定変数保持部169を持つ。
図9において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図9では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
本実施の形態では、比較計算部14の結果にて現れる比較計算結果に対して、閾値取得部31にて取得する変数mによって複数カラム組が対応するか否かの判定を実現する。
実施の形態1では、判定部15は、統合結果が最も小さい数値となったカラム対が、移行元データのカラムに対応するカラム対の候補として抽出している。
これに対して、本実施の形態では、閾値mの値を可変とし、閾値取得部31がユーザやアプリケーションプログラム等から閾値mの値を取得する。
そして、判定部15は、統合結果の値が取得されたmの値以下の対応候補のカラム対を最小値の統合結果から順に抽出する。
また、本実施の形態では、計算対象指定変数取得部32にて取得された相関計算対象指定変数k(k>1)は、相関差分値計算にて、相関表の上位k位までの内容を対象とし、相関差分値計算を実施する。
実施の形態1では、移行元データ、移行先データのそれぞれにおいて、全ての行の組合せについて支持度及び確信度の差分値の計算が行われる。
例えば、移行元データ、移行先データともに相関表(図8)に100行あれば、各行について他の99行の各々と支持度及び確信度の差分値の計算が行われる。
これに対して、本実施の形態では、計算対象指定変数取得部32がユーザやアプリケーションプログラム等から変数kの値を取得し、相関差分値計算部13は、取得されたkの値に対応する行数において差分計算を行う。
例えば、k=10であれば、移行元データ、移行先データともに、相関表の1行目については、2〜11行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して10個の差分値が得られる。
同様に、相関表の2行目については、3〜12行目の各行との間で支持度及び確信度の差分計算が行われ、支持度、確信度のそれぞれに対して10個の差分値が得られる。
なお、閾値mの指定、相関計算対象指定変数kの指定は、ユーザによる指定のほか、ファイル、別モジュールからの引数による渡しなどを想定する。
以上のように本実施の形態では、閾値mを設定することによる判定の基準設定が可能になることで、また、変数kにより計算対象の数が絞り込まれるため、計算量を削減することができる。
本実施の形態では、
支持度に対する相関比較中間結果と確信度に対する相関比較中間結果とに対して変数αを用いた計算結果に対し、指定可能な閾値mにより、候補を絞り込む比較計算手段を備えるテーブル統合装置を説明した。
また、本実施の形態では、
指定可能な変数kを用い、相関値の上位k位までの集合から2つを選ぶ組合せを対象とし、表内相関差分値計算を実施する相関差分値計算手段を備えるテーブル統合装置を説明した。
実施の形態3.
図11は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図1に示す構成に加え、図11に示すように、スキーマ情報分析部41とスキーマ情報分析結果保持部170を持つ。
スキーマ情報分析部41では、実施の形態1におけるステップS4の結果に対し、スキーマ情報を用い、カラム名の順序を考慮することで、判定を絞り込む。
つまり、移行先データにおけるカラム対ごとの統合結果の値とともに、移行先データにおけるカラムの配列順序を参照して、対応候補のカラム対を抽出する。
なお、本実施の形態では、判定部15とともに、スキーマ情報分析部41も対応候補抽出処理実行部の例となる。
また、図11において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図11では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
本実施の形態では、ステップS1で区切り分割する際に、その前後部分の順番関係が定義情報保持部161にて保持される。
つまり、前半部分は「姓」であり、後半部分が「名」であることが定義情報保持部161にて保持される。
図10に、実施の形態3の具体例を示す。
移行元データの「管理者」カラムを分割した「姓」部分と「名」部分のそれぞれにつき、移行先データのカラムA・カラムB・カラムCの中から対応するカラムを決定する必要がある。
ステップS4までの結果から、「管理者」カラムの「姓」部分はカラムBに対応することが判明しているが、「管理者」カラムの「名」部分への対応は判明しなかったとする。
このとき、スキーマ情報分析部41では、「管理者」カラムの分割部分の順番関係を定義情報保持部161から取得し、「姓」「名」の順番関係を把握する。
また、移行先データの順番情報を定義情報保持部161より取得し、比較することで、対応関係を把握する。
図10に示す例では、「姓」が1番目に登場し、「名」が2番目に登場するという情報に基づき、「姓」−「名」の対応は「カラムB」−「カラムC」の対応関係に決定する。
本スキーマ情報分析部41による結果はスキーマ情報分析結果保持部170に格納されると共に、判定部15の入力となる。
以上のように本実施の形態では、カラムの定義情報を利用することにより、類似カラムの中でも対象を絞り込み、複数カラム組対応判定が可能である。
以上、本実施の形態では、
判定手段より出力された、複数カラム組間の対応候補の集合を入力とし、
データベース定義情報からカラムの順番情報を取得する定義情報取得手段と、
同カラムの順番情報を利用して、前記複数カラム組間の対応候補集合から、対応候補を一つに決定する、もしくは対応する候補は存在しないことを分析するスキーマ情報分析手段と
を備えるテーブル統合装置を説明した。
実施の形態4.
図11は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、図11に示すように、単独カラムデータ分析部42と単独カラムデータ分析結果保持部171を持つ。
また、図11において、図1と同じ符号が用いられている要素は実施の形態1で説明したものと同様であり、説明を省略する。
なお、図11では、図1に示した移行元システム501、移行元データベース502、移行先システム601、移行先データベース602の図示は省略している。
単独カラムデータ分析部42は、既存のインスタンス分析手法を用いて、移行元テーブルの内容と移行先テーブルの内容の対応関係を絞り込み、単独カラムデータ分析結果保持部171に格納する。
本実施の形態では、相関ルール計算部12ととともに、単独カラムデータ分析部42が、第2の出現傾向解析処理実行部の例となる。
単独カラムデータ分析は、区切り分割部11にて分割された2つのデータに関して既知のインスタンス分析手法により値を算出し、さらに、移行先テーブルに関してカラム単位で既知のインスタンス分析手法で値を算出し、両者を比較する。
図12を元に、具体例を説明する。
単独カラムデータ分析部42は、移行元データのカラムに対し、区切り文字で分割された「姓」カラムに注目する。
そして、単独カラムデータ分析部42は、「姓」カラムに出現するフィールド値のインスタンスごとに出現回数をカウントし、佐藤というインスタンスが10回、田中というインスタンスが9回、というように、出現回数の降順に整理(ソート)する。
続いて、移行先の全カラムに対しても同様に出現回数のカウントとソートが実施される。
最後に、相関ルール計算部12が、上位N個に対し、移行元データと移行先データの登場インスタンス数が一定数以上一致していたら、該当する移行先データのカラムを解析対象として選択する。
図12の例では、移行先データのカラムAとカラムBは解析対象とする一方で、カラムCは解析対象としない。
この後、相関ルール計算部12は、移行先データについて、「姓」のカラムであるカラムAに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算し、また、「姓」のカラムであるカラムBに不図示の「名」のカラムを組み合わせて支持度及び確信度を計算する。
以降の処理手順は、実施の形態1に示した通りであり、説明を省略する。
以上のように本実施の形態では、カラム単位でのインスタンス比較により、候補が絞り込まれるため、相関ルール計算・相関差分値計算での計算量削減に効果がある。
本実施の形態では、
注目テーブルのカラムに対して、別テーブルのカラムとの対応を、データ内容を比較することによって推測する単独カラムデータ分析手段と、
上記結果を、相関ルール計算にて、相関値計算の対象として利用する相関ルール計算手段と
を備えるテーブル統合装置を説明した。
実施の形態5.
図13は、本実施の形態に係るテーブル統合装置1の構成例を示す。
本実施の形態に係るテーブル統合装置1は、移行先の注目データとして1つのカラム組を入力とし、移行元のデータとして複数のカラムを判定対象とし、移行元のカラム組のデータ内容を結合したものが移行先に存在するか判断するために、図13に示すように、区切り分割部11b、相関ルール計算部12b、相関差分値計算部13b、比較計算部14b、判定部15bを持ち、それぞれの部分にて、移行先の情報1つに対し移行元の複数カラム組を読み込むような機能を備えた機構である。
つまり、実施の形態1では、移行元データには「氏名」のカラムが存在し、移行先データには「姓」カラムと「名」カラムが複数存在している場合に、移行元データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行先データから抽出することを内容としている。
これに対して、実施の形態5では、移行先データには「氏名」のカラムが存在し、移行元データには「姓」カラムと「名」カラムが複数存在している場合に、移行先データの「氏名」カラムを「姓」カラムと「名」カラムに分割し、分割した「姓」カラムと「名」カラムの対に対応する「姓」カラムと「名」カラムの対の候補を移行元データから抽出することを内容としている。
また、本実施の形態に係るテーブル統合装置1においてにも、スキーマ情報分析部41、単独カラムデータ分析部42とを同時に使用しても良い。
以上、本実施の形態では、移行元の複数カラムと、移行先のカラムの対応関係を判断する構成を持つことによって、移行元の複数カラムに対して、そのデータが結合した内容を保持する移行先を判断することが可能になる。
最後に、実施の形態1〜5に示したテーブル統合装置1のハードウェア構成例について説明する。
図15は、実施の形態1〜5に示すテーブル統合装置1のハードウェア資源の一例を示す図である。
なお、図15の構成は、あくまでもテーブル統合装置1のハードウェア構成の一例を示すものであり、テーブル統合装置1のハードウェア構成は図15に記載の構成に限らず、他の構成であってもよい。
図15において、テーブル統合装置1は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。
CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、SSD(Solid State Drive)、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
実施の形態1〜5で説明した「記憶領域16」は、RAM914、磁気ディスク装置920等により実現される。
通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)、SAN(ストレージエリアネットワーク)などに接続されている。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。
プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。
また、RAM914には、CPU911に実行させるオペレーティングシステム921のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、RAM914には、CPU911による処理に必要な各種データが格納される。
また、ROM913には、BIOS(Basic Input Output System)プログラムが格納され、磁気ディスク装置920にはブートプログラムが格納されている。
テーブル統合装置1の起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。
上記プログラム群923には、実施の形態1〜5の説明において「〜部」、「〜手段」として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態1〜5の説明において、「〜の読み込み」、「〜の判断」、「〜の判定」、「〜の計算」、「〜の演算」、「〜の比較」、「〜の評価」、「〜の解析」、「〜の更新」、「〜の設定」、「〜の登録」、「〜の選択」、「〜の抽出」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。
ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出される。
そして、読み出された情報やデータや信号値や変数値やパラメータは、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1〜5で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示す。
データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。
また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、実施の形態1〜5の説明において「〜部」、「〜手段」として説明しているものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。
すなわち、実施の形態1〜5で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
また、「〜部」、「〜手段」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。
或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。
プログラムはCPU911により読み出され、CPU911により実行される。
すなわち、プログラムは、実施の形態1〜5の「〜部」、「〜手段」としてコンピュータを機能させるものである。あるいは、実施の形態1〜5の「〜部」、「〜手段」の手順や方法をコンピュータに実行させるものである。
このように、実施の形態1〜5に示すテーブル統合装置1は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータである。
そして、上記したように「〜部」、「〜手段」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
1 テーブル統合装置、11 区切り分割部、12 相関ルール計算部、13 相関差分値計算部、14 比較計算部、15 判定部、16 記憶領域、17 定義情報取得部、18 データ取得部、19 区切り情報取得部、20 データベース接続部、21 接続情報保持部、22 ユーザI/F、31 閾値取得部、32 計算対象指定変数取得部、41 スキーマ情報分析部、42 単独カラムデータ分析部、101 データベース定義情報、102 インスタンスデータ、103 区切り情報、161 定義情報保持部、162 取得データ保持部、163 区切り文字情報保持部、164 分割データ保持部、165 相関ルール計算結果保持部、166 相関差分計算結果保持部、167 比較計算結果保持部、168 閾値保持部、169 相関差分計算対象指定変数保持部、170 スキーマ情報分析結果保持部、171 単独カラムデータ分析結果保持部、501 移行元システム、502 移行元データベース、601 移行先システム、602 移行先データベース。

Claims (14)

  1. 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理を実行するカラム対選択処理実行部と、
    第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理を実行する第1の出現傾向解析処理実行部と、
    複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理を実行する第2の出現傾向解析処理実行部と、
    第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理を実行する近似度算出処理実行部とを有することを特徴とするデータ処理装置。
  2. 前記第1の出現傾向解析処理実行部は、
    第1の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
    前記第2の出現傾向解析処理実行部は、
    第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに、出現頻度を算出し、
    前記近似度算出処理実行部は、
    第1の解析対象カラム対における連結フィールド値ごとの出現頻度の算出値と、第2の解析対象カラム対の各々における連結フィールド値ごとの出現頻度の算出値とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項1に記載のデータ処理装置。
  3. 前記第1の出現傾向解析処理実行部は、
    連結フィールド値の出現頻度として、第1の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出し、
    前記第2の出現傾向解析処理実行部は、
    連結フィールド値の出現頻度として、第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに、支持度及び確信度の少なくともいずれかを算出することを特徴とする請求項2に記載のデータ処理装置。
  4. 前記近似度算出処理実行部は、
    第1の解析対象カラム対における連結フィールド値間の算出値の差分を第1の1次差分値として算出し、第1の解析対象カラム対において複数の第1の1次差分値を取得し、
    第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の算出値の差分を第2の1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の1次差分値を取得し、
    第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の1次差分値と第2の1次差分値との差分を2次差分値として算出し、第2の解析対象カラム対ごとに2次差分値を取得し、
    第2の解析対象カラム対ごとに、2次差分値を用いて、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項2又は3に記載のデータ処理装置。
  5. 前記近似度算出処理実行部は、
    第1の解析対象カラム対に存在する連結フィールド値が第2の解析対象カラム対に存在しない場合に、第2の解析対象カラム対における当該連結フィールド値の算出値を0として第2の1次差分値を算出することを特徴とする請求項4に記載のデータ処理装置。
  6. 前記第1の出現傾向解析処理実行部は、
    連結フィールド値の出現頻度として、第1の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
    前記第2の出現傾向解析処理実行部は、
    連結フィールド値の出現頻度として、第2の解析対象カラム対の各々に対して、第2の解析対象カラム対における連結フィールド値ごとに支持度及び確信度を算出し、
    前記近似度算出処理実行部は、
    第1の解析対象カラム対における連結フィールド値間の支持度の差分を第1の支持度1次差分値として算出し、第1の解析対象カラム対において複数の第1の支持度1次差分値を取得し、
    第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の支持度の差分を第2の支持度1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の支持度1次差分値を取得し、
    第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の支持度1次差分値と第2の支持度1次差分値との差分を支持度2次差分値として算出し、
    第1の解析対象カラム対における連結フィールド値間の確信度の差分を第1の確信度1次差分値として算出し、第1の解析対象カラム対において複数の第1の確信度1次差分値を取得し、
    第2の解析対象カラム対ごとに、第2の解析対象カラム対における連結フィールド値間の確信度の差分を第2の確信度1次差分値として算出し、第2の解析対象カラム対ごとに複数の第2の確信度1次差分値を取得し、
    第2の解析対象カラム対ごとに、同じ連結フィールド値の組合せから算出された第1の確信度1次差分値と第2の確信度1次差分値との差分を確信度2次差分値として算出し、
    支持度2次差分値と確信度2次差分値とを用いて、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出することを特徴とする請求項4又は5に記載のデータ処理装置。
  7. 前記近似度算出処理実行部は、
    第1の解析対象カラム対において、連結フィールド値ごとに、k(k>1)個の他の連結フィールド値との間でk個の第1の1次差分値を算出し、
    第2の解析対象カラム対において、連結フィールド値ごとに、k個の他の連結フィールド値との間でのk個の第2の1次差分値を算出することを特徴とする請求項4〜6のいずれかに記載のデータ処理装置。
  8. 前記第2の出現傾向解析処理実行部は、
    第2のデータに含まれる複数のカラム対における全ての組合せのカラム対を第2の解析対象カラム対として選択することを特徴とする請求項1〜7のいずれかに記載のデータ処理装置。
  9. 前記第2の出現傾向解析処理実行部は、
    第2のデータに含まれる各カラムにおけるフィールド値を解析し、解析結果に基づいて特定数のカラム対を第2の解析対象カラム対として選択することを特徴とする請求項1〜8のいずれかに記載のデータ処理装置。
  10. 前記カラム対選択処理実行部は、
    第1のデータに含まれる特定のカラムを2つに分割し、分割後の2つのカラムを第1の解析対象カラム対として選択することを特徴とする請求項1〜9のいずれかに記載のデータ処理装置。
  11. 前記データ処理装置は、更に、
    前記近似度算出処理実行部により算出された第2の解析対象カラム対ごとの近似度に基づき、第1の解析対象カラム対と対応する関係にある第2の解析対象カラム対の候補の中から指定可能な変数m以下の近似度を持つものを対応候補カラム対として抽出する対応候補抽出処理を実行する対応候補抽出処理実行部を有することを特徴とする請求項1〜10に記載のデータ処理装置。
  12. 前記対応候補抽出処理実行部は、
    第2の解析対象カラム対ごとの近似度とともに、第2のデータにおけるカラムの配列順序を参照して、対応候補カラム対を抽出することを特徴とする請求項11に記載のデータ処理装置。
  13. 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、コンピュータが、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理と、
    前記コンピュータが、第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理と、
    複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、前記コンピュータが、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理と、
    前記コンピュータが、第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とを有することを特徴とするデータ処理方法。
  14. 複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第1のデータに対して、解析の対象となるカラム対を第1の解析対象カラム対として選択するカラム対選択処理と、
    第1の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第1の出現傾向解析処理と、
    複数のフィールドが含まれ、各フィールドが複数のカラムのうちのいずれかに区分される2次元の第2のデータに対して、解析の対象となるカラム対を第2の解析対象カラム対として1対以上選択し、第2の解析対象カラム対ごとに、第2の解析対象カラム対の各カラムのフィールド値を行単位で連結した連結フィールド値の出現傾向を解析する第2の出現傾向解析処理と、
    第1の解析対象カラム対に対する解析結果と第2の解析対象カラム対ごとの解析結果とを解析して、第2の解析対象カラム対ごとに、第1の解析対象カラム対における連結フィールド値の出現傾向との近似度を算出する近似度算出処理とをコンピュータに実行させることを特徴とするプログラム。
JP2010177296A 2010-08-06 2010-08-06 データ処理装置及びデータ処理方法及びプログラム Expired - Fee Related JP5398663B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010177296A JP5398663B2 (ja) 2010-08-06 2010-08-06 データ処理装置及びデータ処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010177296A JP5398663B2 (ja) 2010-08-06 2010-08-06 データ処理装置及びデータ処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012038066A JP2012038066A (ja) 2012-02-23
JP5398663B2 true JP5398663B2 (ja) 2014-01-29

Family

ID=45850013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010177296A Expired - Fee Related JP5398663B2 (ja) 2010-08-06 2010-08-06 データ処理装置及びデータ処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5398663B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128611A1 (ja) * 2012-03-01 2013-09-06 株式会社日立製作所 データ管理システム、データ管理方法、及び計算機読み取り可能な記憶媒体
CA2887670C (en) * 2012-10-22 2021-05-25 Ab Initio Technology Llc Profiling data with location information
AU2015225694B2 (en) 2014-03-07 2019-06-27 Ab Initio Technology Llc Managing data profiling operations related to data type
JP6572795B2 (ja) 2016-02-16 2019-09-11 富士通株式会社 解析装置及び解析プログラム
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
WO2022157970A1 (ja) * 2021-01-25 2022-07-28 日本電気株式会社 情報処理装置、制御方法及び記憶媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353163A (ja) * 1999-06-11 2000-12-19 Just Syst Corp データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体
JP2002099561A (ja) * 2000-09-21 2002-04-05 Toshiba Corp データ変換方法およびデータ変換システム並びに記憶媒体
CA2438997A1 (en) * 2003-08-28 2005-02-28 Ibm Canada Limited - Ibm Canada Limitee System and method for carrying out legacy application transitions
JP2006099236A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム
JP2006227896A (ja) * 2005-02-17 2006-08-31 Fuji Xerox Co Ltd 情報分析装置、情報分析方法およびプログラム
US8122045B2 (en) * 2007-02-27 2012-02-21 International Business Machines Corporation Method for mapping a data source to a data target
EP1990740A1 (en) * 2007-05-08 2008-11-12 Sap Ag Schema matching for data migration
JP5241370B2 (ja) * 2008-08-01 2013-07-17 三菱電機株式会社 テーブル分類装置、テーブル分類方法及びテーブル分類プログラム

Also Published As

Publication number Publication date
JP2012038066A (ja) 2012-02-23

Similar Documents

Publication Publication Date Title
JP5398663B2 (ja) データ処理装置及びデータ処理方法及びプログラム
JP4930153B2 (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP6042974B2 (ja) データ管理装置、データ管理方法及び非一時的な記録媒体
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
TW200424882A (en) Database system, terminal device, search database server, search key input support method, and program product
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
KR20220060699A (ko) 논문의 요약과 본문 매칭에 기반한 학술 정보 제공 방법 및 장치
JP6242540B1 (ja) データ変換システム及びデータ変換方法
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
KR101624420B1 (ko) 검색 대상의 관련 키워드를 이용한 검색 방법 및 시스템
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
US10216792B2 (en) Automated join detection
JP2010507857A (ja) 高速データベースマッチング
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
JP5647509B2 (ja) 重複画像除去時の代表画像の選択方法及びシステム
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP6646699B2 (ja) 検索装置及び検索方法
WO2020039730A1 (ja) 検索装置、検索方法及び検索プログラム
JP2012043258A (ja) 検索システム、検索装置、検索プログラム、記録媒体及び検索方法
JP2009146013A (ja) コンテンツ検索方法及び装置並びにプログラム
JP6677624B2 (ja) 分析装置、分析方法、および分析プログラム
JP5108642B2 (ja) ユースケースシナリオ作成支援システム、ユースケースシナリオ作成支援方法、およびユースケースシナリオ作成支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees