JP2017123062A - 関係情報生成方法、装置、及びプログラム - Google Patents

関係情報生成方法、装置、及びプログラム Download PDF

Info

Publication number
JP2017123062A
JP2017123062A JP2016001859A JP2016001859A JP2017123062A JP 2017123062 A JP2017123062 A JP 2017123062A JP 2016001859 A JP2016001859 A JP 2016001859A JP 2016001859 A JP2016001859 A JP 2016001859A JP 2017123062 A JP2017123062 A JP 2017123062A
Authority
JP
Japan
Prior art keywords
item
character string
database
items
partial character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016001859A
Other languages
English (en)
Other versions
JP6604207B2 (ja
Inventor
稲越 宏弥
Hiroya Inakoshi
宏弥 稲越
啓介 後藤
Keisuke Goto
啓介 後藤
太田 唯子
Yuiko Ota
唯子 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016001859A priority Critical patent/JP6604207B2/ja
Publication of JP2017123062A publication Critical patent/JP2017123062A/ja
Application granted granted Critical
Publication of JP6604207B2 publication Critical patent/JP6604207B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データベースの属性に関わらず、データベース間で対応する項目対を少ない計算量で特定する。【解決手段】関係情報生成装置10は、複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、第1のデータベースについての複数の項目のうち、抽出された部分文字列に対応する項目を特定し、複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、算出した出現数に基づいて、第1のデータベースに含まれる項目と、第2のデータベースに含まれる項目との対応関係に関する情報を生成する。【選択図】図1

Description

本発明は、関係情報生成方法、関係情報生成装置、及び関係情報生成プログラムに関する。
マスターデータ管理のための名寄せ処理や、複数の基幹系業務システムを統合して情報系システム(データウェアハウス)を構築する際などに、複数のデータベースを統合することが行われている。
データベースの統合に関する技術として、文字コード範囲に着目して、名寄せの対象とする項目対の比較候補を絞り込む方法が提案されている。この方法では、ユーザ等によって指定された文字コード群と類似する文字コード群を複数の文字コード群の中から検索する。この際、指定された文字コード群に含まれる各文字コードが、所定の数値範囲内である場合に、複数の文字コード群から、所定の数値範囲内に属さない文字コードを含む文字コード群を除いた文字コード群を抽出する。
また、一方のマスタのコードを他方のマスタのコードに変換する方法が提案されている。この方法では、統合マスタのレコードの項目とローカルマスタのレコードの項目とを照合することによって、両マスタから同一の事項に関する項目を判別する。そして、同一の事項に関すると判別された項目の内容同士を照合することによって、統合マスタ及びローカルマスタの中から同一の対象に関するレコードを判別する。また、同一の対象に関すると判別された統合マスタのレコードに示される所定の項目のコードとローカルマスタのレコードに示される所定の項目のコードとを対応付けて示すコード変換テーブルを記憶しておく。そして、入力されたデータをコード変換テーブルに基づいて変換する。
また、2つの2次元データの間で対応関係にあるカラムを抽出する方法が提案されている。この方法では、移行元データにおいて解析対象となるカラム対を選択し、移行先データにおいて解析の対象となるカラム対を選択する。また、移行元データのカラム対において行ごとに支持度及び確信度を計算し、移行先データの各カラム対について、行ごとに支持度及び確信度を計算する。そして、移行元データ内で行間の支持度及び確信度の差分計算を行い、移行先データ内で、カラム対ごとに、行間の支持度及び確信度の差分計算を行う。さらに、移行元データでの差分値と移行先データでの差分値との差分計算を行い、差分計算の結果に基づき、移行元のカラム対に対応する移行先のカラム対を判定する。
特開2012−234343号公報 特開2008−250861号公報 特開2012−38066号公報
上述の文字コードに着目した従来技術では、文字コード範囲、文字列長、特徴文字列の出現頻度、部分文字列の数などのデータ項目毎のプロファイルを作成し、このプロファイルに基づいて、データ項目の類似度を比較している。しかしながら、どのような項目がどのような形式で記録されているかが未知のデータベース同士の統合においては、項目間の類似度を比較するために、データ項目を適切にプロファイルすることは困難である。また、データベースにおいて、1つの事項に関するデータが複数の項目に分割されている場合、適切なプロファイルの作成は、より困難になり、また、類似度を比較するデータ項目の組み合わせ数も増大し、計算コストが高くなる。なお、1つの事項に関するデータが複数の項目に分割されている場合とは、例えば、「住所」という事項についてのデータが、「住所1」及び「住所2」という2つの項目に分割されて記録されているような場合である。
また、予め記憶したコード変換テーブルを用いて、一方のマスタのコードを他方のマスタのコードに変換する従来技術では、適切なコード変換テーブルが定義されている必要がある。しかしながら、この従来技術では、コード変換表を生成するための項目の対応付けの具体的開示がなく、例えば、人手により項目の対応付けを行う必要がある。また、1つの事項に関するデータが複数の項目に分割されている場合、多数あり得る分割のバリエーションの全てに対応したコード変換表を生成しておくことは困難である。
さらに、2つの2次元データの間で対応関係にあるカラムを抽出する従来技術では、データが複数カラムに分割されている場合が考慮されている。しかし、2つの2次元データ間で対応させる事項(氏名、住所、TELなど)が予め判明していることが前提である。そのため、マスタとトランザクション等、種類の異なるデータベースを統合する場合や、データベースに記録されているデータの内容が混在(顧客名簿、企業リスト、製品データベース、論文等)していたり、未知であったりする場合には適用することができない。
すなわち、従来技術では、データベースの属性(種類、項目、データの内容等)によっては、データベース間で対応する項目対を適切に特定することができないか、又は、項目対の特定に要する計算量が多くなってしまう、という問題がある。
本発明は、一つの側面として、データベースの属性に関わらず、データベース間で対応する項目対を少ない計算量で特定することを目的とする。
本発明は、一つの側面として、複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出する。そして、前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定する。また、複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を算出する。出現数は、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出する。そして、算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する。
一つの側面として、データベースの属性に関わらず、データベース間で対応する項目対を少ない計算量で特定することができる、という効果を有する。
関係情報生成装置の機能ブロック図である。 共通辞書データベースの一例を示す図である。 名寄せ元表の一例を示す図である。 部分文字列の抽出を説明するための図である。 部分文字列の抽出を説明するための図である。 抽出位置リストの一例を示す図である。 パターンリストの一例を示す図である。 パターンの照合を説明するための図である。 出現位置リストの一例を示す図である。 項目群対リストの一例を示す図である。 項目群対の一例を表すグラフである。 集計表の一例を示す図である。 項目の分割及び写像を説明するための図である。 関係情報生成装置として機能するコンピュータの概略構成を示すブロック図である。 関係情報生成処理の一例を示すフローチャートである。 文字列抽出処理の一例を示すフローチャートである。 パターン生成処理の一例を示すフローチャートである。 パターン照合処理の一例を示すフローチャートである。 対応関係抽出処理の一例を示すフローチャートである。 名寄せ先表の項目群と名寄せ元表の項目群との項目群対の抽出を説明するための図である。 項目群対の他の例を表すグラフである。 ツリー構造のデータベースの一例を示す図である。
以下、図面を参照して本発明に係る実施形態の一例を詳細に説明する。
図1に示すように、本実施形態に係る関係情報生成装置10は、共通辞書データベース(DB)20及び名寄せ元DB30を入力とし、共通辞書DB20の項目と名寄せ元DB30の項目との対応関係を示す対応関係情報を生成して出力する。
共通辞書DB20は、データバンクなどから提供される汎用的なデータベースである。共通辞書DB20は、例えば図2に示すように、個人名辞書21、住所辞書22、企業名辞書23等を含むことができる。各辞書において、各列がそれぞれ各項目に相当し、各行が1つのレコードに相当する。各レコードは、項目の各々に対応した値(文字列)を有する。
名寄せ元DB30は、企業や組織等のユーザにより作成及び管理されているデータベースである。図1の例では、名寄せ元DB30には、名寄せ元表A31、名寄せ元表B32、及び名寄せ元表C33が含まれる。図3に、名寄せ元表A31の一例を示す。名寄せ元表A31において、各列がそれぞれ各項目に相当し、各行が1つのレコードに相当する。各レコードは、項目の各々に対応した値(文字列)を有する。名寄せ元表B32及び名寄せ元表C33も、名寄せ元表A31と同様に、表形式のデータベースであるが、各名寄せ元表に含まれる項目、データ(レコード)の内容はそれぞれ異なる。
共通辞書DB20及び名寄せ元DB30は、関係情報生成装置10の所定の記憶領域、関係情報生成装置10と接続される外部装置、又はCD−ROMやUSBメモリ等の記憶媒体に記憶される。
本実施形態では、名寄せ元表A31、名寄せ元表B32、及び名寄せ元表C33を1つの名寄せ先表に統合する際に、名寄せ先表の項目として、共通辞書DB20内の各辞書に含まれる項目を利用する。そこで、関係情報生成装置10は、共通辞書DB20内の各辞書に含まれる項目と、名寄せ元DB30内の各名寄せ元表に含まれる項目との対応付けを特定する。以下では、各辞書の項目と、名寄せ元表A31の項目との対応付けについて説明するが、名寄せ元表B32及び名寄せ元表C33の各々の項目についても同様に、各辞書の項目と対応付ける。これにより、各辞書の項目を介して、複数の名寄せ元表を、1つの名寄せ先表に統合することができる。
関係情報生成装置10は、機能的には、図1に示すように、文字列抽出部11と、パターン生成部12と、パターン照合部13と、対応関係抽出部14とを含む。なお、文字列抽出部11は本発明の抽出部の一例であり、パターン生成部12は本発明の特定部の一例であり、パターン照合部13及び対応関係抽出部14は、本発明の算出部及び生成部の一例である。
文字列抽出部11は、共通辞書DB20内の各辞書に記録されたレコードから、所定の文字数の部分文字列を複数抽出する。この際、文字列抽出部11は、抽出する複数の部分文字列の中に、項目間をまたがって抽出される部分文字列が含まれるようにする。
具体的には、文字列抽出部11は、図4に示すように、各辞書のいずれかのレコード(図4では、住所辞書22の1レコードを図示)を取り出し、各項目に対応した文字列の各々を連結して、連結文字列41を生成する。文字列抽出部11は、連結文字列41から、ランダムに選択したn−gramを部分文字列42として抽出する。図4の例では、n=3とし、“211”、“88神”、“川県川”、“中原区”、及び“田中4”という部分文字列42が抽出されている。
連結文字列41から部分文字列42を抽出することで、項目間をまたがった部分文字列42も抽出される。上記の例では、“88神”という部分文字列42は、項目「〒」と項目「都道府県」とをまたがって抽出されており、“川県川”という部分文字列42は、項目「都道府県」と項目「市区」とをまたがって抽出されている。
このように、項目間をまたがった部分文字列42を抽出する理由について説明する。
各データベースにおいて、ある事項に対応する項目の表記の仕方は共通ではなく、多様な書き方をされる場合がある。例えば、各データベースには、氏名、住所、電話番号などの共通事項に関するデータが含まれているとする。これらの共通事項に関して、一方のデータベースに含まれる項目は、「氏名」、「カナ」、「都道府県」、「市区」、「町丁目」、「番地」、及び「TEL」であるとする。また、他方のデータベースに含まれる項目は、「姓」、「名」、「住所1」、「住所2」、及び「電話」であるとする。この場合、氏名という事項について、一方のデータベースでは、「氏名」の項目が相当するが、他方のデータベースでは、「姓」及び「名」という項目が相当する。また、住所という事項について、一方のデータベースでは、「都道府県」、「市区」、「町丁目」、及び「番地」の項目が相当するが、他方のデータベースでは、「住所1」及び「住所2」という項目が相当する。また、電話番号という事項について、一方のデータベースでは、「TEL」の項目が相当するが、他方のデータベースでは、「電話」という項目が相当する。
上記の2つのデータベースを名寄せする場合には、氏名=姓+名、都道府県+市区+町丁目+番地=住所1+住所2、TEL=電話のように、各事項に対応する項目群同士を対応付ける必要がある。そこで、項目1つ1つの場合だけでなく、項目群同士も対応付けの対象に含まれるようにするために、項目間をまたがった部分文字列42を抽出するものである。
なお、部分文字列42の長さは一定でなくてもよい。例えば、図5に示すように、文字列抽出部11は、3−gram、4−gram、5−gram、6−gram等を混在させて、部分文字列42を抽出してもよい。また、図5のAの部分に示すように、文字列抽出部11は、異なる部分文字列42同士の一部が重複するように部分文字列42を抽出してもよい。
また、部分文字列42をランダムに抽出する場合には、乱数を用いることができるが、ある項目、及び連続する項目が他に比べて選ばれ易く又は選ばれ難くなるようにしてもよい。例えば、3項目以上にまたがる部分文字列42を抽出する、といったルールを定義しておき、図5のBの部分に示すように、文字列抽出部11は、このルールに従った部分文字列42を抽出してもよい。逆に、3項目以上にまたがる部分文字列42は抽出しない、といったルールを定めておいてもよい。また、特定の項目については、項目間をまたがって部分文字列42を抽出することを禁止するルールを定めてもよい。例えば、項目「〒」と項目「都道府県」とをまたがる部分文字列42は抽出しない、というルールを定めておくことができる。この場合、上記の例における“88神”は抽出されない。
なお、図4では、各レコード又はサンプリングしたレコードからランダムに部分文字列42を抽出する例を示しているが、図5のCに示すように、全レコードから全ての部分文字列42を抽出するようにしてもよい。
文字列抽出部11は、抽出した部分文字列42と、その部分文字列42の抽出位置との組を抽出位置情報として、例えば図6に示すような抽出位置リスト43に記録する。部分文字列42の抽出位置は、どの辞書のどのレコードのどの位置から抽出された部分文字列42であるかを示す情報である。例えば、抽出位置は、辞書の識別情報、レコード番号、レコードの先頭から何文字目か、部分文字列42の文字数などの情報により特定される。図6の例では、1行目の抽出位置情報に含まれる部分文字列“211”の抽出位置(22,1,1,3)は、識別情報が22の辞書(住所辞書22)の1行目のレコードの1文字目から3文字分で示される位置を表している。なお、文字数に代えて、部分文字列42の末尾の文字がレコードの先頭から何文字目かの情報を用いるなど、抽出位置を特定する情報は、上記の例に限定されない。
パターン生成部12は、文字列抽出部11により抽出された部分文字列42の各々に対応する項目群を特定する。なお、部分文字列42が項目をまたがって抽出されていない場合には、項目群に含まれる項目は1つである。具体的には、パターン生成部12は、抽出位置リスト43に含まれる抽出位置情報に基づいて、抽出された部分文字列42の位置を特定し、その位置にある部分文字列42を含む値に対応する項目群を特定する。
また、パターン生成部12は、抽出位置リスト43に含まれる各部分文字列42と、特定したその部分文字列42に対応する項目群とを組み合わせたパターンを生成する。例えば、パターン生成部12は、部分文字列“88神”から、項目「〒」及び「都道府県」を含む項目群を特定し、<“88神”→(〒,都道府県)>のようなパターンを生成することができる。この例では、矢印(→)の左側が部分文字列42、右側が対応する項目群を表している。パターン生成部12は、生成したパターンを、例えば図7に示すようなパターンリスト44に記録する。なお、図7の例では、項目群に含まれる項目が最大で2つの例であり、項目群に1つの項目しか含まれない場合には、2つ目の項目がないことを「−」で表している。
さらに、パターン生成部12は、郵便番号やTELのように、書き方が一通りではない項目を考慮して、部分文字列42の一部をワイルドカード(?)で置き換えたパターンや、部分文字列42の一部を削除したパターンをパターンリスト44に追加してもよい。例えば、パターン生成部12は、<“211−8588”→(〒,−)>というパターンを生成した場合に、<“211?8588”→(〒,−)>や、<“2118588”→(〒,−)>というパターンを追加することができる。
パターン照合部13は、パターン生成部12により生成されたパターンと、名寄せ元表A31のレコードとを照合する。具体的には、パターン照合部13は、パターン生成部12により生成された各パターンに含まれる部分文字列42と一致する文字列を、名寄せ元表31Aに含まれるレコードから検索する。図7に示すパターンリスト44に含まれるパターンを用いて、名寄せ元表A31から検索された部分文字列45の一例を、図8に示す。なお、図8では、名寄せ元表A31を表形式のまま図示しているが、パターン照合部13は、各辞書からの部分文字列42の抽出と同様に、名寄せ元表A31の各レコードを連結文字列に変換してから照合する。
また、パターン照合部13は、照合に用いたパターンと、そのパターンに含まれる部分文字列42に一致する部分文字列45の出現位置との組を出現位置情報として、例えば図9に示すような出現位置リスト46に記録する。部分文字列45の出現位置は、どの名寄せ元表のどのレコードのどの位置に出現した部分文字列45であるかを示す情報である。出現位置は、抽出位置リスト43に記録される抽出位置と同様の情報により特定することができる。図9の例では、1行目の出現位置情報に含まれる出現位置(31,2,18,3)は、識別情報が31の名寄せ元表(名寄せ元表A31)の2行目のレコードの18文字目から3文字分で示される位置を表している。
パターン照合部13は、出現位置リスト46に含まれる各出現位置が示す部分文字列45を含む値に対応する項目群を名寄せ元表A31から特定する。項目群の特定方法は、パターン生成部12が、各辞書から抽出された部分文字列42に対応する項目群を特定する方法と同様である。パターン照合部13は、照合に用いたパターンに含まれる項目群と、そのパターンに基づいて名寄せ元表A31から検索された部分文字列45に対して特定した項目群とを項目群対として、例えば図10に示すような項目群対リスト47に記録する。照合に用いたパターンに含まれる項目群とは、すなわち、各辞書から抽出された部分文字列42に対してパターン生成部12により特定された項目群であり、以下、「辞書項目群」ともいう。また、そのパターンに基づいて名寄せ元表A31から検索された部分文字列45に対して特定した項目群を、以下、「名寄せ元表項目群」ともいう。
例えば、名寄せ元表A31において、パターン<“211”→(〒,−)>の部分文字列“211”と一致した部分文字列45に対応する項目が「郵便」と特定されたとする。この場合、パターン照合部13は、辞書項目群(〒,−)と、名寄せ元表項目群(郵便,−)とを項目群対として、項目群対リスト47に記録する。
図11に、項目群対リスト47に記録された項目群対の情報をグラフで表した一例を示す。図11に示すグラフでは、辞書項目群及び名寄せ元表項目群の各々について、項目群対リスト47に記録されている項目群対を線で結んで表している。また、項目群間を結ぶ線に併記した回数は、その項目群対が項目群対リスト47に出現する回数である。
対応関係抽出部14は、辞書項目群と名寄せ元表項目群との項目群対の出現回数に基づいて、各辞書に含まれる各項目と、名寄せ元表A31に含まれる各項目との対応関係を抽出し、対応関係情報を生成して出力する。
具体的には、対応関係抽出部14は、各辞書に含まれる各項目(以下、「辞書項目」ともいう)と、各名寄せ元表A31に含まれる各項目(以下、「名寄せ元表項目」ともいう)とが同一の項目群対に含まれて出現した回数を集計する。そして、対応関係抽出部14は、例えば図12に示すような集計表48を作成する。集計の方法としては、対応関係抽出部14は、例えば、項目群対の出現1回につき、その項目群対に含まれる辞書項目群の各辞書項目と名寄せ元表項目群の各名寄せ元表項目との全ての組み合わせについて、カウンタを1インクリメントする。より具体的には、辞書項目群(A,B)と名寄せ元表項目群(C,D)との項目群対の出現回数1回につき、集計表48において、AとCとの組、AとDとの組、BとCとの組、BとDとの組の各々に対応する行のカウンタを1インクリメントする。
また、対応関係抽出部14は、共通辞書DB20内の各辞書に含まれる項目全体を各項目の順番を保持したままM個に分割する。同様に、名寄せ元表A31に含まれる項目全体を各項目の順番を保持したままN個に分割する。なお、項目の順番を保持するのは、連続する項目同士が1つの事項に対応していることを考慮したものであるため、辞書の並び順については任意でよい。図13に、辞書項目の全体を6個に分割し、名寄せ元表項目の全体を5個に分割した例(M=6、N=5)を示す。以下では、分割された1単位を「分割項目」といい、辞書項目の各分割項目を「分割項目m(m=1,・・・,M)」、名寄せ元表項目の各分割項目を「分割項目n(n=1,・・・,N)」という。また、1≦M≦辞書項目の総数、1≦N≦名寄せ元表項目の総数である。
対応関係抽出部14は、あるM及びNでの分割について、例えば図13に示すように、分割項目mを分割項目nへ対応付ける写像f:m→nを与える。そして、対応関係抽出部14は、M及びNが異なる分割毎、かつ対応付けが異なる写像f毎に、信頼度Sを算出する。信頼度Sは、分割及び写像fの確からしさを示す指標であり、例えば、下記(1)式で定義することができる。なお、f(m)は、写像fにより、分割項目mに対応付けられる分割項目nである。
S=H(f(m))−H(f(m)|m) ・・・(1)
なお、H(f(m))は、f(m)に相当する分割項目nのエントロピーであり、下記(2)式により定義される。また、H(f(m)|m)は、分割項目mで条件付けられるf(m)に相当する分割項目nのエントロピーであり、下記(3)式により定義される。
H(f(m))=−Σf(m)P(f(m))logP(f(m)) ・・・(2)
H(f(m)|m)=−Σf(m),mP(f(m),m)logP(f(m)|m)
・・・(3)
なお、P(f(m))は、f(m)に相当する分割項目nの出現確率である。具体的には、P(f(m))は、集計表48におけるカウンタの総合計に対する、f(m)に相当する分割項目nに含まれる各名寄せ元表項目を含む行のカウンタの合計の割合として得られる。また、P(f(m),m)は、f(m)に相当する分割項目nと分割項目mとの同時出現確率である。具体的には、P(f(m),m)は、集計表48におけるカウンタの総合計に対する、分割項目mに含まれる各辞書項目とf(m)に相当する分割項目nに含まれる各名寄せ元表項目との組に対応する行のカウンタの合計の割合として得られる。また、P(f(m)|m)は、f(m)に相当する分割項目nが分割項目mに対応付けられる条件付き確率である。具体的には、P(f(m)|m)は、分割項目mに含まれる各辞書項目を含む行のカウンタの合計に対する、分割項目mに含まれる各辞書項目とf(m)に相当する分割項目nに含まれる各名寄せ元表項目との組に対応する行のカウンタの合計の割合として得られる。また、Σf(m)は、写像fにより分割項目mから対応付けられている分割項目nの各々についての和、Σf(m),mは、写像fにより対応付けられている分割項目mとf(m)に相当する分割項目nとの組の各々についての和を表す。
対応関係抽出部14は、従来既知の最適化アルゴリズム等を用いて、信頼度Sが最大となる分割及び写像fを特定し、この分割及び写像fにより得られる分割項目mと分割項目nとの対応付けを、対応関係情報として生成して出力する。
関係情報生成装置10は、例えば図14に示すコンピュータ50で実現することができる。コンピュータ50は、CPU51と、一時記憶領域としてのメモリ52と、不揮発性の記憶部53とを備える。また、コンピュータ50は、入出力装置54と、記録媒体59に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55と、通信インターフェース(I/F)56とを備える。CPU51、メモリ52、記憶部53、入出力装置54、R/W部55、及び通信I/F56は、バス57を介して互いに接続される。
記憶部53は、HDD(Hard Disk Drive)、SSD(solid state drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を関係情報生成装置10として機能させるための関係情報生成プログラム60が記憶される。関係情報生成プログラム60は、文字列抽出プロセス61と、パターン生成プロセス62と、パターン照合プロセス63と、対応関係抽出プロセス64とを有する。
CPU51は、関係情報生成プログラム60を記憶部53から読み出してメモリ52に展開し、関係情報生成プログラム60が有するプロセスを順次実行する。CPU51は、文字列抽出プロセス61を実行することで、図1に示す文字列抽出部11として動作する。また、CPU51は、パターン生成プロセス62を実行することで、図1に示すパターン生成部12として動作する。また、CPU51は、パターン照合プロセス63を実行することで、図1に示すパターン照合部13として動作する。また、CPU51は、対応関係抽出プロセス64を実行することで、図1に示す対応関係抽出部14として動作する。これにより、関係情報生成プログラム60を実行したコンピュータ50が、関係情報生成装置10として機能することになる。
なお、関係情報生成プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る関係情報生成装置10の作用について説明する。関係情報生成装置10が、共通辞書DB20及び名寄せ元DB30を読み込み、図15に示す関係情報生成処理を実行する。
まず、ステップS10で、図16に詳細を示す文字列抽出処理が実行される。
ステップS11で、文字列抽出部11が、共通辞書DB20内の各辞書からのレコードの取り出しが終了したか否かを判定する。レコードの取り出しが終了していない場合には、処理はステップS12へ移行し、文字列抽出部11が、いずれかの辞書から、ランダムに、又は先頭から順にレコードを1つ取り出す。
次に、ステップS13で、文字列抽出部11が、取り出したレコードの各項目に対応した文字列の各々を連結して、連結文字列41を生成する。
次に、ステップS14で、文字列抽出部11が、連結文字列41から、ランダムに選択したn−gramを部分文字列42として抽出する。
次に、ステップS15で、文字列抽出部11が、抽出した部分文字列42と、その部分文字列42の抽出位置との組を抽出位置情報として、例えば図6に示すような抽出位置リスト43に記録し、処理はステップS11に戻る。
ステップS11で、文字列抽出部11が、所定数のレコードの取り出しが終了していると判定した場合や、全ての最終行のレコードまで取り出しが終了していると判定した場合には、処理は図15に示す関係情報生成処理に戻る。
次に、ステップS20で、図17に詳細を示すパターン生成処理が実行される。
ステップS21で、パターン生成部12が、抽出位置リスト43に含まれる全ての抽出位置情報の取り出しが終了したか否かを判定する。抽出位置情報の取り出しが終了していない場合には、処理はステップS22へ移行し、パターン生成部12が、抽出位置リスト43からまだ取り出されていない抽出位置情報を1つ取り出す。
次に、ステップS23で、パターン生成部12が、取り出した抽出位置情報に基づいて、該当の辞書から該当のレコードを取得する。そして、パターン生成部12が、取り出した抽出位置情報に基づいて、取得したレコードから、文字列抽出部11により抽出された部分文字列42を特定し、その部分文字列42を含む値に対応する項目群を特定する。
次に、ステップS24で、パターン生成部12は、上記ステップS22で取り出した抽出位置情報に含まれる部分文字列42と、上記ステップS23で特定したその部分文字列42に対応する項目群とを組み合わせたパターンを生成する。そして、パターン生成部12は、生成したパターンを、例えば図7に示すようなパターンリスト44に記録する。
次に、ステップS25で、パターン生成部12が、上記ステップS25で生成したパターンの部分文字列42の一部をワイルドカード(?)で置き換えたパターンや、部分文字列42の一部を削除したパターンを生成し、パターンリスト44に追加する。なお、部分文字列42に、ワイルドカードへの置き換え可能な部分、又は削除可能な部分が含まれない場合には、本ステップの処理は省略する。そして、処理はステップS21に戻る。
ステップS21で、パターン生成部12が、全ての抽出位置情報の取り出しが終了していると判定した場合には、処理は図15に示す関係情報生成処理に戻る。
なお、上記では、部分文字列の抽出は部分文字列抽出処理で実行し、その部分文字列に対応する項目の特定はパターン生成処理で実行する場合について説明したが、部分文字列を抽出する際に、あわせてその部分文字列に対応する項目を特定するようにしてもよい。
次に、ステップS30で、図18に詳細を示すパターン照合処理が実行される。
ステップS31で、パターン照合部13が、パターンリスト44に含まれる各パターンと、名寄せ元表A31の各レコードとを照合するパターン照合器を構築する。通常のパターン照合では、i個のパターンと、j個のレコードを照合する場合、i×j回の照合を行うが、ここでは、1つのレコードに対してi個のパターンを1度に照合可能なパターン照合器を構築する(参考文献:Navarro & Raffinot, "Flexible Pattern Matching in String", pp.41-74, Cambridge Press, 2002.)。このようなパターン照合器を用いることで、より計算量を軽減することができる。
次に、ステップS32で、パターン照合部13が、名寄せ元表A31に含まれる全てのレコードの取り出しが終了したか否かを判定する。レコードの取り出しが終了していない場合には、処理はステップS33へ移行し、パターン照合部13が、名寄せ元表A31からまだ取り出されていないレコードを1つ取り出す。
次に、ステップS34で、パターン照合部13が、取り出したレコードから連結文字列を生成して、上記ステップS31で構築したパターン照合器に入力する。
次に、ステップS35で、パターン照合部13は、パターン照合器の出力として、照合に用いたパターンと、上記ステップS33で取り出したレコードにおいて、そのパターンに含まれる部分文字列42に一致する部分文字列45の出現位置との組を取得する。パターン照合部13は、パターンと出現位置との組を出現位置情報として、例えば図9に示すような出現位置リスト46に記録し、処理はステップS32に戻る。
ステップS32で、パターン照合部13が、名寄せ元表A31の全てのレコードの取り出しが終了していると判定した場合には、処理はステップS36へ移行する。
ステップS36では、パターン照合部13が、出現位置リスト46に含まれる全ての出現位置情報の取り出しが終了したか否かを判定する。出現位置情報の取り出しが終了していない場合には、処理はステップS37へ移行し、パターン照合部13が、出現位置リスト46からまだ取り出されていない出現位置情報を1つ取り出す。
次に、ステップS38で、パターン照合部13が、取り出した出現位置情報に基づいて、名寄せ元表A31から該当のレコードを取得する。そして、パターン照合部13は、取得したレコードから、出現位置情報が示す位置の部分文字列45を特定し、その部分文字列45を含む値に対応する項目群を特定する。
次に、ステップS39で、パターン照合部13が、辞書項目群と名寄せ元表項目群とを項目群対として、例えば図10に示すような項目群対リスト47に記録し、処理はステップS36に戻る。
ステップS36で、パターン照合部13が、全ての出現位置情報の取り出しが終了していると判定した場合には、処理は図15に示す関係情報生成処理に戻る。
次に、ステップS40で、図19に詳細を示す対応関係抽出処理が実行される。
ステップS41で、対応関係抽出部14が、項目群対リスト47に含まれる全ての項目群対の取り出しが終了したか否かを判定する。項目群対の取り出しが終了していない場合には、処理はステップS42へ移行し、対応関係抽出部14が、項目群対リスト47からまだ取り出されていない項目群対を1つ取り出す。
次に、ステップS43で、対応関係抽出部14が、取り出した項目群対に含まれる辞書項目群の各辞書項目と名寄せ元表項目群の各名寄せ元表項目との全ての組み合わせについて、集計表48のカウンタを1インクリメントし、処理はステップS41に戻る。
ステップS41で、対応関係抽出部14が、全ての項目群対の取り出しが終了していると判定した場合には、処理はステップS44へ移行する。
ステップS44では、対応関係抽出部14が、共通辞書DB20内の各辞書に含まれる項目全体を各項目の順番を保持したままM個に分割し、名寄せ元表A31に含まれる項目全体を各項目の順番を保持したままN個に分割する。そして、対応関係抽出部14が、分割項目mを分割項目nへ対応付ける写像f:m→nを定義する。
次に、ステップS45で、対応関係抽出部14が、M及びNでの分割における写像fについての信頼度Sを、例えば(1)式により算出する。
次に、ステップS46で、対応関係抽出部14が、信頼度Sの算出の終了条件を満たすか否かを判定する。終了条件は最適化アルゴリズムによる。例えば、全てのM及びNでの分割における全ての写像fについて信頼度Sを算出した場合、ステップS44及びS45を所定回数繰り返した場合、今回と前回とで算出された信頼度Sの差が所定値以下となった場合などに、終了条件を満たすと判定することができる。信頼度Sの算出の終了条件を満たさない場合には、処理はステップS44に戻り、対応関係抽出部14が、写像f、又はM及びNと写像fとを変更して、信頼度Sの算出を繰り返す。信頼度Sの算出の終了条件を満たす場合には、処理はステップS47へ移行する。
ステップS47では、対応関係抽出部14が、信頼度Sが最大となる分割及び写像fにより得られる分割項目mと分割項目nとの対応付けを、対応関係情報として生成して出力する。そして、処理は図15に示す関係情報生成処理に戻り、関係情報生成処理は終了する。
以上説明したように、本実施形態に係る関係情報生成装置10によれば、共通辞書DBに含まれるレコードから部分文字列を抽出し、その部分文字列に対応する辞書項目群を特定する。また、名寄せ元表において、共通辞書から抽出した部分文字列と一致する部分文字列に対応する名寄せ元表項目群を特定する。そして、辞書項目群と名寄せ元表項目群対の出現回数に基づいて、辞書項目の全体をM個に分割した分割項目mと、名寄せ元表項目の全体をN個に分割した分割項目nとを対応付ける。これにより、データベースの種類、項目やデータの内容等のデータベースの属性に関わらず、データベース間で対応する項目対を特定することができる。また、項目毎のプロファイルを作成したり、項目間の対応付けを人手で行ったりする場合に比べ、データベース間で対応する項目対を、少ない計算量で特定することができる。
また、各データベースから部分文字列を抽出する際、項目間をまたがる部分文字列が含まれるようにする。これにより、1つの事項が複数の項目に分割されている場合も考慮して、データベース間で対応する項目対を特定することができる。
なお、上記実施形態では、共通辞書の項目を利用して、複数の名寄せ元表を1つの名寄せ先表に統合することを想定して、共通辞書の項目と名寄せ元表の項目との対応関係を抽出する場合について説明したが、これに限定されない。名寄せ先表の項目が既知の場合には、名寄せ先表の項目と、名寄せ元表の項目とを直接対応付けてもよい。この場合、上記実施形態における共通辞書DB20を名寄せ先表と読み替えればよい。
例えば図20に示すように、名寄せ先表25から抽出した部分文字列42と一致する部分文字列45を名寄せ元表A31から検索し、名寄せ先表25の項目群と名寄せ元表31の項目群との項目群対を抽出する。このように抽出された項目群対の情報をグラフで表した一例を、図21に示す。図21では、項目群対の出現回数が多いほど、名寄せ先表項目群と名寄せ元表項目群とを結ぶ線を太い線で表している。図21の情報を用いて、対応関係抽出部14における信頼度Sを算出するとする。この場合、例えば、名寄せ先表項目「名称」→名寄せ元表項目「取引先名略」の対応付けを含む写像の方が、名寄せ先表項目「カナ」→名寄せ元表項目「取引先名略」の対応付けを含む写像より、出現回数が多いため、信頼度が高くなる。
また、名寄せ先表項目「郵便1」及び「郵便2」が1つの分割項目mとなる場合もある。この場合、名寄せ先表項目「郵便1」+「郵便2」→名寄せ元表項目「郵便」の対応付けを含む写像の信頼度Sには、名寄せ先表項目「郵便1」及び「郵便2」の各々と名寄せ元表項目「郵便」との組のそれぞれの出現回数が反映される。そのため、例えば、名寄せ先表項目「郵便1」→名寄せ元表項目「郵便」という1対1の対応付けを含む写像に比べ、信頼度が高くなることが予想され、適切な対応付けが行える。また、名寄せ先表項目「住所」→名寄せ元表項目「住所1」+「住所2」の対応付けも、名寄せ先表項目「住所」→名寄せ元表項目「住所1」の対応付けに比べ、写像の信頼度は高くなることが予想され、適切な対応付けが行える。
さらに、例えば、名寄せ先表項目「取引銀行」→名寄せ元表項目「取引先名略」という誤った対応付けを含む写像が与えられる場合もある。しかし、この場合、名寄せ先表項目「取引銀行」と名寄せ元表項目「取引先名略」との組の出現回数は極度に少ないと見込まれるため、この対応付けは除外される可能性が高い。
また、上記実施形態では、項目の対応付けを行うデータベースが表形式の場合について説明したが、これに限定されない。例えばXML(Extensible Markup Language)のようなツリー構造を持つデータベースについても本発明を適用可能である。図22に、ツリー構造のデータベースの一例を示す。図22の例では、名寄せ元表に記録されている各事項を表すノード(取引先、所在地、電話番号)から繋がる葉ノードが、その事項に対応する項目を示しており、項目を示すノードは、その項目についての各レコードの値を保持する。この場合、各部分ツリーに含まれる葉ノードを項目群とみなすことができる。対応関係抽出部14は、ノード間の切断により、各項目を分割項目に分割することができる。例えば、図22に示すように、破線の箇所で切断した場合には、「名称」、「カナ」、「〒」、「住所」、及び「郵便」の5つの分割項目に分割される。また、一点破線の箇所で切断した場合には、「名称」、「カナ」、「〒」、「住所1」、「住所2」、及び「郵便」の6つの分割項目に分割される。
なお、上記実施形態では、関係情報生成プログラム60が記憶部53に予め記憶(インストール)されている態様を説明したが、これに限定されない。本発明に係る関係情報生成プログラムは、CD−ROM、DVD−ROM、USBメモリ等の記録媒体に記録された形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成方法。
(付記2)
前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記1記載の関係情報生成方法。
(付記3)
前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記2記載の関係情報生成方法。
(付記4)
前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記1〜付記3のいずれか1項記載の関係情報生成方法。
(付記5)
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列抽出する抽出部と、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定する特定部と、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出する算出部と、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する生成部と、
を含む関係情報生成装置。
(付記6)
前記抽出部は、前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記5記載の関係情報生成装置。
(付記7)
前記抽出部は、前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記6記載の関係情報生成装置。
(付記8)
前記生成部は、前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記5〜付記7のいずれか1項記載の関係情報生成装置。
(付記9)
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成プログラム。
(付記10)
前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する付記9記載の関係情報生成プログラム。
(付記11)
前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する付記10記載の関係情報生成プログラム。
(付記12)
前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する付記9〜付記11のいずれか1項記載の関係情報生成プログラム。
(付記13)
コンピュータに、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
ことを含む処理を実行させる関係情報生成プログラムを記憶した記憶媒体。
10 関係情報生成装置
11 文字列抽出部
12 パターン生成部
13 パターン照合部
14 対応関係抽出部
20 共通辞書データベース
25 名寄せ先表
30 名寄せ元データベース
31A、31B、31C 名寄せ元表
41 連結文字列
42 部分文字列
45 部分文字列
50 コンピュータ
51 CPU
52 メモリ
53 記憶部
59 記録媒体
60 関係情報生成プログラム

Claims (6)

  1. コンピュータに、
    複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
    前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
    複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
    算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
    ことを含む処理を実行させる関係情報生成方法。
  2. 前記第1のデータベースに含まれるレコードから部分文字列を抽出する際に、前記複数の項目の各々に対応付けられた文字列を連結した連結文字列から前記部分文字列を抽出する請求項1記載の関係情報生成方法。
  3. 前記連結文字列から前記部分文字列を抽出する際に、抽出される部分文字列に対応する項目が、複数の項目に跨るように抽出する請求項2記載の関係情報生成方法。
  4. 前記第1のデータベースに含まれる複数の項目の全体をM個の分割項目に分割した場合のm番目の分割項目と、前記第2のデータベースに含まれる複数の項目全体をN個の分割項目に分割した場合のn番目の分割項目とが対応関係にあることの信頼度を、n番目の分割項目に含まれる前記第2のデータベースの項目であって、かつm番目の分割項目に含まれる前記第1のデータベースの項目に対応付けられた項目の前記出現数に基づいて算出し、算出した信頼度が最も高くなる前記m番目の分割項目と前記n番目の分割項目との組み合わせを、前記対応関係に関する情報として生成する請求項1〜請求項3のいずれか1項記載の関係情報生成方法。
  5. 複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出する抽出部と、
    前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定する特定部と、
    複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出する算出部と、
    算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する生成部と、
    を含む関係情報生成装置。
  6. コンピュータに、
    複数の項目の各々に文字列が対応付けられた複数のレコードを含む第1のデータベースに含まれるレコードから部分文字列を抽出し、
    前記第1のデータベースについての前記複数の項目のうち、前記第1のデータベースから抽出された部分文字列に対応する項目を特定し、
    複数の項目の各々に文字列が対応付けられた複数のレコードを含む第2のデータベースにおいて、前記第1のデータベースから抽出された部分文字列と一致する部分文字列に対応する項目の出現数を、前記第1のデータベースから抽出された部分文字列に対応する項目と対応付けて算出し、
    算出した前記出現数に基づいて、前記第1のデータベースに含まれる項目と、前記第2のデータベースに含まれる項目との対応関係に関する情報を生成する
    ことを含む処理を実行させる関係情報生成プログラム。
JP2016001859A 2016-01-07 2016-01-07 関係情報生成方法、装置、及びプログラム Active JP6604207B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016001859A JP6604207B2 (ja) 2016-01-07 2016-01-07 関係情報生成方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016001859A JP6604207B2 (ja) 2016-01-07 2016-01-07 関係情報生成方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017123062A true JP2017123062A (ja) 2017-07-13
JP6604207B2 JP6604207B2 (ja) 2019-11-13

Family

ID=59306554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016001859A Active JP6604207B2 (ja) 2016-01-07 2016-01-07 関係情報生成方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6604207B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159837A (ja) * 2018-03-13 2019-09-19 日本電気株式会社 データベース結合装置、データベース結合方法及びデータベース結合プログラム
WO2022259303A1 (ja) * 2021-06-07 2022-12-15 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011049A (ja) * 2003-06-19 2005-01-13 Nec Soft Ltd データベース統合装置
WO2007083371A1 (ja) * 2006-01-18 2007-07-26 Fujitsu Limited データ統合装置、方法、プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011049A (ja) * 2003-06-19 2005-01-13 Nec Soft Ltd データベース統合装置
WO2007083371A1 (ja) * 2006-01-18 2007-07-26 Fujitsu Limited データ統合装置、方法、プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159837A (ja) * 2018-03-13 2019-09-19 日本電気株式会社 データベース結合装置、データベース結合方法及びデータベース結合プログラム
WO2022259303A1 (ja) * 2021-06-07 2022-12-15 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム

Also Published As

Publication number Publication date
JP6604207B2 (ja) 2019-11-13

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US7305404B2 (en) Data structure and management system for a superset of relational databases
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
WO2015045155A1 (ja) コーパス生成装置、コーパス生成方法、及びコーパス生成プログラム
WO2007139039A1 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
JPWO2008032780A1 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
US11520835B2 (en) Learning system, learning method, and program
JP6604207B2 (ja) 関係情報生成方法、装置、及びプログラム
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP2008027431A (ja) 情報解析装置、情報解析方法、及び情報解析プログラム
JP5894273B2 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
CN107145947A (zh) 一种信息处理方法、装置及电子设备
JP7157245B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
US20090319505A1 (en) Techniques for extracting authorship dates of documents
JP4272690B1 (ja) 個人情報ファイル判定システム
JP2017033434A (ja) 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP4844737B2 (ja) 代表情報選択方法、代表情報選択システム及びプログラム
JP6361472B2 (ja) 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
JP2018181121A (ja) 分析装置、分析プログラム及び分析方法
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
JP6664306B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6604207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150