JP2010231253A

JP2010231253A - データ名寄せ処理装置及び方法

Info

Publication number: JP2010231253A
Application number: JP2009074817A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本; Kosuke Yanai; 孝介柳井; Shoji Ikeda; 尚司池田; Hiroko Suketa; 浩子助田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-03-25
Filing date: 2009-03-25
Publication date: 2010-10-14

Abstract

【課題】オブジェクトの文字列の表記揺れがある場合に、オブジェクトの同一性を正しく判定する。
【解決手段】データ中から表記が類似するオブジェクトの組を抽出し、それぞれのオブジェクトをクエリとして検索を行う。これによりそれぞれのオブジェクトに関連する文書からなる文書集合を取得する。そして、文書集合から地名、住所、人名などの固有名を根拠情報として抽出し、根拠情報同士の比較を行うことによりオブジェクトの同一性を判定する。
【選択図】図１

Description

本発明は、データ名寄せ処理装置及び方法に関し、例えば、データ中の同一オブジェクトの表記揺れを検出し、同一であるかどうかを判定するデータ名寄せ処理装置及び方法に関するものである。

情報爆発時代と言われるように、ユーザがアクセス可能な電子化文書の量が膨大なものとなっている。多くの電子化データは、定型データ、すなわち表形式、ＸＭＬ形式等の計算機での扱いが容易であるように、データ形式が予め定められた形式で表現されている。

ところが、様々な要因により、データの表記に揺れが発生することが多い。そのため、データの表記を手がかりにデータの同一性を判定することに困難が生じる。本明細書では、データ内の各要素をオブジェクトと呼び、具体的なオブジェクトとして企業名を扱う場合を説明する。

ここで、取引先との取引額を表す表ゲータが存在し、表内に「ケンコー食品化学」という企業名のオブジェクトが存在した場合を想定する。このとき、データ入力者が「ケンコウ食品化学」のように入力を誤ることによって表記揺れが発生する。あるいは、元々の企業名が「健康食品化学」であったが、「ケンコー食品化学」に名称変更が行われた場合にも、表記揺れが発生する。このようなデータを使って様々な処理を行う場合、例えば、各企業との取引額の総和を計算するためには、このような表記揺れを吸収し、同一の企業であるかどうかを判定することが必要である。このような処理は、データの名寄せと呼ばれている。例えば特許文献１には、このような名寄せ処理における表記揺れを吸収するための技術が開示されている。特許文献１によれば、既知の異表記語のペアから、表記揺れを生成し易い文字列ペアを学習し、学習された文字列ペアを用いることによって異表記語を生成するようにしている。

また、例えば特許文献２には、関連技術としてＤＢ内のオブジェクトの識別を行う技術が開示されている。特許文献２によれば、テキスト内の同じ文字列を持つオブジェクトが異なる場合を既存データベースと照合することにより識別し、自動的に構造化するようにしている。

特開２００６−１０７０７０号公報特開２００６−１９５５３５号公報

Rechard Bellman著,"Dynamic Programming", Princeton University Press, Princeton, New Jersey,1957. Kevin Knight, Jonathan Graehl著,"Machine transliteration", Computational Lingustics, Volume 24,Issue 4,pp.599-162,1998. 北研二, 津田和彦, 獅々堀正幹著，"情報検索アルゴリズム"，共立出版，2002．浅原正幸，松本裕治著，"日本語固有表現抽出における分かち書き問題の解決"，情報処理学会論文誌，Vol.45,No.5,pp.1442-1450,2004. 関根，井佐原：IREX：「情報検索，情報抽出コンテスト」，情処自然言語処理，No.127，pp.109-116，1998．阿辺川武, 奥村学著，"大規模統計情報を用いた日本語係り受け解析の精度向上" 言語処理学会第１１回年次大会, 2005．

しかしながら、特許文献１及び２で代表される従来技術を用いたとしても、オブジェクトの同一性を正しく判定することはできない。これは、従来技術では似ているが別のオブジェクト、例えば似た名前の別の店なのか、入力間違いなどの理由により同一のオブジェクトの表記に揺れが発生しているのかを区別することが困難なためである。そのため、結局人手による確認が必要となり、コストが高くなってしまう。

本発明はこのような状況に鑑みてなされたものであり、表記揺れが複数のオブジェクト間にあったとしても、同一のオブジェクトは同一のものとして取り扱えるようにすることを可能にする技術を提供するものである。

上記課題を解決するために、本発明によるデータ名寄せ処理装置は、文字列類似度計算処理部と、文字列同一性判断部と、を備えている。文字列類似度計算処理部は、それぞれ名称を構成する少なくとも２つの文字列について、当該文字列の類似度を計算する。また、文字列同一性判断部は、文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する少なくとも２つの文字列について文書中における使用形態に基づいて、前記少なくとも２つの文字列の同一性を判断する。

また、文字列同一性判断部は、検索部を用いて、少なくとも２つの文字列の１つを含む文書を検索し、この検索結果から固有表現情報を抽出し、それぞれの文字列に対応する固有表現を比較して前記少なくとも２つの文字列の同一性を判断する。

固有表現情報は、固有表現の種類を示す属性名と、前記固有表現の内容を示す属性値で構成される。この場合、文字列同一性判断部は、属性名及び属性値を用いて、少なくとも２つの文字列の同一性を判断する。より具体的には、属性値すなわち、固有表現の文字列が同一であるだけでは元データにおける同一性が保証されない場合がある（例えば、元データが企業名であり関連する固有表現情報が「山田Ａ夫」のような人名である場合に、元データが異なる企業であっても社員に同姓同名の人物が存在する可能性がある）ことを勘案し、属性名（「山田Ａ夫」が「社長」である）を併用することで少なくとも２つの文字列の同一性を判断する。

さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。

本発明によれば、表記が類似したデータ中のオブジェクトが同一であるかどうかを正確に自動判定することができるため，名寄せの効率が飛躍的に向上する。

本発明の実施形態の計算機システムの構成のブロック図である。本発明の実施形態のデータ名寄せ装置に記憶される入力データの説明図である。本発明の実施形態のデータ名寄せ装置に記憶される読み辞書の説明図である。本発明の実施形態のデータ名寄せ装置に記憶される文字対応辞書の説明図である。本発明の実施形態のデータ名寄せ装置によって実行されるデータ名寄せ処理のフローチャートである。本発明の実施形態のデータ名寄せ装置によって実行されるオブジェクト同一性判定処理のフローチャートである。本発明の実施形態のデータ名寄せ装置に記憶される文書検索結果の説明図である。本発明の実施形態のデータ名寄せ装置に記憶される根拠情報テーブルの説明図である。

本発明は、オブジェクト（エンティティ）におけるデータの文字列表記の揺れ以外の情報を用いて当該データの同一性を判定するデータ名寄せ処理に関するものである。

以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。

＜データ名寄せ装置の構成＞
図１は、本発明の実施形態によるデータ名寄せ装置の概略構成を示すブロック図である。なお、ここでは計算機システム（コンピュータ）として実現されているが、別の方法で実現しても良い。

データ名寄せ装置１００は、ＣＰＵ１０１と、主メモリ１０２と、入出力装置１０３と、ディスク装置１１０と、を備えている。

ＣＰＵ１０１は、主メモリ１０２に一時的に記憶されるプログラムを実行することによって各種処理を行う。具体的には、ＣＰＵ１０１は、ディスク装置１１０に記憶されるプログラムを、主メモリ１０２上に呼び出して実行する。

主メモリ１０２は、ＣＰＵ１０１によって実行されるプログラム及びＣＰＵ１０１によって必要とされる情報等を一時的に記憶する。

入出力装置１０３は、ユーザから入力される情報を受けつけ、ＣＰＵ１０１の指示に応じて情報を出力する。例えば、入出力装置１０３における入力機能は、キーボード、マウスやマイク等によって構成され、出力機能はディスプレイ、プリンタ、スピーカ等によって構成される。

ディスク装置１１０は、各種情報を記憶し、例えばＨＤＤ（ハードディスクドライブ）によって構成される。具体的には、ディスク装置１１０は、ＯＳ１１１と、データ名寄せプログラム１１２と、検索プログラム１１３と、入力データ１１４と、読み辞書１１５と、文字対応辞書１１６と、文書検索結果１１７と、根拠情報テーブル１１８と、を格納している。なお、データ名寄せプログラム１１２及び検索プログラム１１３はＣＰＵ１０１と協働して、データ名寄せ処理部及び検索処理部として動作する。

ＯＳ１１１は、データ名寄せ装置１００の処理の全体を制御する。データ名寄せプログラム１１２は、入力データ１１４中の同一オブジェクト（オブジェクト）の判定処理を実行するものである。検索プログラム１１３は、同一性判定の処理対象となる単語をクエリとし検索を行い、文書を取得するためのものである。

入力データ１１４は、データ名寄せプログラムへの入力となるデータである（図２参照）。また、読み辞書１１５は、オブジェクトの文字列類似計算に使用される辞書である（図３参照）。さらに、文字対応辞書１１６は、オブジェクトの文字列類似計算に使用される辞書である（図４参照）。

文書検索結果１１７は、名寄せしたいデータについて、検索プログラム１１３によって文書検索を行った結果が格納される（図７参照）。根拠情報テーブル１１８は、文書検索結果１１７から抽出したオブジェクト同一性判定のための根拠情報が格納される（図８参照）。

＜入力データ及び各辞書の構成例＞
図２は、入力データの例を示す図である。図２に示される入力データは、企業名とその企業に対する取引額から構成されている。本実施形態では、このような入力データに対して、例えば同一企業毎の取引額の合計を求めたい場合を例として名寄せ処理を説明する（図５及び６）。

図３は、読み辞書の例を示す図である。読み辞書は、漢字などの単語文字列とそのカタカナの読みから構成される。ひらがなの読みについては、読み辞書に格納しても良いが、カタカナの読みから一意に生成することが可能であるため、本実施例ではカタカナの読みのみが格納されているものとする。

図４は、文字対応辞書の例を示す図である。文字対応辞書は、後述するＤＰマッチングによる表記揺れ判定処理に用いられるデータであり、「コンピュウタ」と「コンピュータ」のような表記揺れを判定する際に、「ウ」と「ー」が可換であることを示している。

＜名寄せ処理の内容＞
図５は、本発明による実施形態のデータ名寄せ装置１００によって実行される名寄せ処理を説明するためのフローチャートである。図６は、図５におけるオブジェクト同一性判定処理（ステップＳ１６）の更なる詳細を説明するためのフローチャートである。

図５を参照すると、まず、データ名寄せ処理部１１２は、対象データの行を全て処理したかどうか調べる（ステップＳ１１）。全て処理済みであれば、全体の処理を終了する。未処理のデータがあれば、処理はステップＳ１２に進む。

データ名寄せ処理部１１２は、データから２個のオブジェクトを取得する（ステップＳ１２）。例えば、全データ数がＮ行の場合には、表のＩ番目（Ｉ＝１，２，３，・・・，Ｎ−１）の行のオブジェクトとＪ（＝Ｉ＋１，Ｉ＋２，・・・，Ｎ）番目のオブジェクトを取得することとすれば良い。図２の例の場合、オブジェクトは名寄せ対象となる企業名であるので、Ｉ番目の行の企業名とＪ番目の行の企業名を取得する。なお、処理するオブジェクトの数を２個ずつとしたのは説明を簡単にするための単なる例であり、より多くのオブジェクトを一遍に処理するようにしてもよい。

次に、データ名寄せ処理部１１２は、取得した２個のオブジェクトの文字列としての類似度を計算する（ステップＳ１３）。なお、文字列としての類似度は、様々な方法によって計算することができる。例えば、「コンピュータ」と「コンピューター」のようなカナの表記揺れの場合には、ＤＰマッチングのような手法により計算する。ＤＰマッチングは、例えば、非特許文献１に開示されている手法を用いることができるので説明は省略する。「健康」と「ケンコウ」のような漢字と読み、「Ｈｅａｌｔｈ」と「ヘルス」のような英単語と外来語の対訳関係の場合には、予め図３のような読み辞書を用いて漢字や英語の文言をカタカナ標記に変更し、変更後の文言に従ってＤＰマッチング（例）で類似度を計算するようにすれば良い。一方、「Ｈｅａｌｔｈ」のような一般の英語でない「Ｋｏｋｕｓａｉ」のような語の場合には、予め辞書を準備しておくことは困難である。このような場合は、翻字（ｔｒａｎｓｌｉｔｅｒａｔｉｏｎ，字訳）と呼ばれる技術を用いる。これは、「ｒａ」を「ラ」に変換できるといった規則を組み合わせることによって全体の読みを生成する技術である。音訳については、非特許文献２に開示されている。

続いて、データ名寄せ処理部１１２は、２個のオブジェクトの文字列が完全に一致しているかどうかを調べ、一致している場合は処理をステップＳ１１に移行させ、一致していない場合は処理をＳ１５に移行させる（ステップＳ１４）。

そして、データ名寄せ処理部１１２は、文字列類似度が予め定めた閾値より大きい、すなわち類似しているかどうかを調べ、閾値より大きい場合は処理をステップＳ１６に進ませ、閾値以下の場合は同一のオブジェクトではないと判定して、処理をステップＳ１１に戻す（ステップＳ１５）。

さらに、データ名寄せ処理部１１２（一部の処理で検索処理部１１３が用いられる）は、２個のオブジェクト同一性判定処理を行う（ステップＳ１６）。この処理については、図６で詳細に説明する。

オブジェクトが同一であると判断された場合処、理はステップＳ１８に進み、同一でない場合処理はステップＳ１１に戻る（ステップＳ１７）。

データ名寄せ処理部１１２は、２個のオブジェクトが同一のオブジェクトであると判断したものについては、同一オブジェクト記録リストにそれらの文言を登録する（ステップＳ１８）。

以上の処理によって、表記が完全には一致していないオブジェクトについて、同一であるものを自動判定することができる。判定結果は、同一オブジェクト記録リストに記録されており、取引額の自動集計等の処理を行う際には、同一オブジェクト記録リストを参照することで名寄せを行うことができる。

図６は、オブジェクト同一性判定処理（図５のステップＳ１６）の詳細を説明するためのフローチャートである。

検索処理部１１３は、２個のオブジェクトのそれぞれについて検索を行い、それぞれのオブジェクトの文字列を含む文書の集合を取得する（ステップＳ１６１）。この処理は、インターネットを介して、Ｗｅｂ検索エンジンに対して実行しても良いし、予め収集した文書を格納したローカルな検索エンジンに対して実行しても良い。文書を検索する技術については、例えば、非特許文献３に開示されているので詳細な説明は省略する。２個のオブジェクトがそれぞれ「ケンコー食品化学」及び「健康食品化学」である場合に、検索結果として得られた文書の例が図７に示されている。文書検索は、同一であるかどうか判定した２個のオブジェクトをそれぞれクエリにして２回実行される。図７では、２個のオブジェクトとしてそれぞれ「ケンコー食品化学」、「健康食品化学」である場合に、「ケンコー食品化学」をクエリに検索した結果が検索結果１で示され、「健康食品化学」をクエリに検索した結果が検索結果２で示されている。

データ名寄せ処理部１１２は、文書検索結果として得られた全ての文書の処理を行ったか調べる（ステップＳ１６２）。全ての文書について処理が完了していれば、処理はステップＳ１６７に進む。未処理の文書があれば処理はステップＳ１６３に進む。

次に、データ名寄せ処理部１１２は、未処理の文書の中から文書を１つ取得し、固有表現を抽出して根拠情報テーブル１１８の属性値欄に格納する（Ｓ１６３）。固有表現抽出技術については、非特許文献４に開示されているので詳細な説明は省略する。

ここで、根拠情報の抽出例（根拠情報テーブル１１８の例）について説明する（図８参照）。図８に示されるように、根拠情報は、クエリ番号、属性名、属性値、属性名使用フラグによって構成される。クエリ番号は、同一性を判定したい２個のオブジェクトの１番目をクエリにした際の検索結果から得られた情報であるか、２番目のオブジェクトをクエリにした際の検索結果から得られた情報であるかどうかを示しており、１あるいは２の値を持つ。属性名は、固有表現の属性を示している表現であり、文書から抽出される。属性値は、固有表現文書から抽出された固有表現である。固有表現種別は、「地名」、「人名」など固有表現の一般的な種類を示しており、IREX等における定義を用いる。IREXの定義は、例えば、非特許文献５に開示されている。本発明では、IREXの定義に従い、組織名(ORGANIZATION)、人名(PERSON)、地名(LOCATION)、日付表現(DATE)、時間表現(TIME)、金額表現(MONEY)、割合表現(PERCENT)、人工物名(ARTIFACT)を用いる。また、文書中から抽出した「本社」、「社長」のような情報のいずれかを用いることもできる。「本社」のような属性名は、係り受け解析技術を用いて抽出することができる。あるいは、属性値として抽出した固有表現の近傍、例えば、直前・直後に出現した単語（抽出固有表現の前後の単語）を抽出することによって代用することも可能である。

属性名使用フラグは、オブジェクトの同一性判定処理において、属性名と属性値の組を根拠として使用するか、属性値のみを根拠として使用するかを判定するためのフラグである。

図６に戻り同一性判定処理の説明を続ける。データ名寄せ処理部１１２は、抽出された固有表現のクエリ番号欄に現在処理中の文書が１番目あるいは２番目のオブジェクトのいずれをクエリとして得られたかに応じて１あるいは２を格納する（ステップＳ１６４）。

続いて、データ名寄せ処理部１１２は、検索結果から、固有表現の属性名を抽出して根拠情報テーブルの属性名欄に格納する（ステップＳ１６５）。固有表現の属性名は、現在処理中の文書を係り受け解析して得られる結果上で、固有表現と直接係り受け関係にある単語（あるいは文節）を抽出することによって得られる。係り受け解析技術に関しては、例えば、非特許文献６に開示されているため説明は省略する。また、より簡便な方法として、属性値として抽出した固有表現の近傍、例えば、直前・直後のＫ単語以内に出現した単語を抽出することによって代用することも可能である。属性名は、一意に定めることができない可能性があるため、この場合は２個以上の属性名を格納しておく。

次に、データ名寄せ処理部１１２は、属性名使用フラグを設定する（ステップＳ１６６）。属性名使用フラグの設定は、例えば以下のように行われる。まず、固有表現種別を確認し、予め定められたタイプであれば、属性名使用フラグに１を設定する。それ以外のタイプの場合は次の処理に進む。例えば、固有表現種別が人名の場合は、企業内に同姓同名の人物がいる可能性があるため、属性名を併用することが望ましく、属性名使用フラグには１を設定する。本実施例では、組織名、人名、時間表現、金額表現、割合表現、人工物名については、属性名使用フラグを使用するものとする。次の処理として、属性値として格納されている固有表現の文字列長を取得し、予め定められた閾値、例えば１０文字以上であれば０を設定する。閾値未満の場合は、固有表現中の数字の文字数を取得し、予め定められた閾値、例えば４文字以上であれば０を設定する。閾値未満の場合は１を設定する。

さらに、データ名寄せ処理部１１２は、根拠情報テーブルを全て処理したかどうかを調べる（ステップＳ１６７）。具体的には、クエリ番号が１である行とクエリ番号が２である行の全ての組み合わせを処理したかどうかを調べる。全て処理していれば、同一である根拠が見つからなかったため同一ではないと判定して処理は終了する。

ステップＳ１６７で処理していない組み合わせがあると判断された場合、データ名寄せ処理部１１２は、クエリ番号欄が１の根拠情報、クエリ番号が２の根拠情報の組で未処理の組を１つ取得し、根拠情報の比較処理を実行する（ステップＳ１６８）。具体的には、データ名寄せ処理部１１２は、２個のオブジェクトからステップＳ１６２で抽出された根拠情報同士を比較し、一致する根拠情報が存在するどうかを調べる。根拠情報テーブル中のクエリ番号欄を参照し、クエリ番号欄が１の根拠情報、クエリ番号が２の根拠情報を１個ずつ取り出す。そして、まず属性値が一致するかどうか調べる。属性値が一致しない場合は、根拠情報が一致しないものと判定する。属性値が一致しており、属性値使用フラグが両方０の場合は、根拠情報が一致するものと判定する。属性値が一致しており、属性値使用フラグの少なくとも一方が１の場合は、属性名が一致するかどうか調べる。属性名が一致する場合は、根拠情報が一致するものと判定し、属性名が一致しない場合は、根拠情報が一致しないものと判定する。なお、属性名が２個以上格納されている場合も存在するため、ここで属性名が一致するとは、少なくとも１個の共通する属性名が存在することを言う。なお、属性名、属性値の比較の際、アラビア数字と漢数字を同一だとみなす、「社長」と「代表取締役」が同一だとみなす、などの同義語、表記揺れに関する従来技術を適用しても良い。より具体的には、異なる属性名について同一であるか否かを示す同義語辞書を用意し、属性名をキーとして当該同義語辞書に異なる属性名が同義であるかを判断する。また、偶然に単語が一致することを回避するため、ｔｆ−ｉｄｆ法などにより、単語のフィルタリングを行い、重要な単語のみを処理対象とすることが望ましい。ｔｆ−ｉｄｆ法については、非特許文献３に開示されているので説明は省略する。

そして、データ名寄せ処理部１１２は、根拠情報の比較処理結果を調べ、一致していると判断されれば、同一だと判定して処理を終了させ、一致していないと判断すれば、処理をステップＳ１６７に移行させる（ステップＳ１６９）。

以上のような処理により、同一のオブジェクト（エンティティ）の情報を集めることができるようになる。よって、例えば、取引額を集計する場合でも、同一オブジェクトについての取引額を正確に求めることができるようになる。

＜まとめ＞
本発明は、プロセッサ、メモリ及びインタフェースを備え、データ中から表記が類似するオブジェクトの組を抽出し、それぞれのオブジェクトをクエリとして検索を行うことによりそれぞれのオブジェクトに関連する文書からなる文書集合を取得し、文書集合から地名、住所、人名、証券コード、設立年月日などの固有表現を根拠情報として抽出し、根拠情報同士の比較を行うことによりオブジェクトの同一性を判定する。ここで、固有表現とは、地名、人名、組織名、製品名等の固有名詞的な表現、あるいは価格、割合、日時などの数量表現のことである。固有名詞は、唯一的に存在する事物を表す名詞のことである。固有表現は、オブジェクトの同一性を判断する際に、通常の名詞と比較してより正確な根拠となり得る。これにより、表記が類似したデータの中のオブジェクトが同一であるか否かについて正確な判定を自動で実行することができる。よって、名寄せの効率が飛躍的に向上し、また、集計処理等、オブジェクトの同一性の判断が前提となる処理を迅速かつ正確に行うことができるようになる。

なお、本実施形態では、辞書はシステムの中に組込まれているが、これに限られたものではなく、ネットワーク上に点在していてもよい。

また、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ-ＲＷ、ＣＤ-Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はＣＰＵやＭＰＵ)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

１００・・・データ名寄せ装置
１０１・・・ＣＰＵ
１０２・・・主メモリ
１０３・・・入出力装置
１１０・・・ディスク装置
１１１・・・ＯＳ
１１２・・・データ名寄せプログラム（データ名寄せ処理部）
１１３・・・検索プログラム（検索処理部）
１１４・・・入力データ（入力データ格納部）
１１５・・・読み辞書
１１６・・・文字対応辞書
１１７・・・文書検索結果
１１８・・・根拠情報テーブル

Claims

それぞれ名称を構成する少なくとも２つの文字列について、当該文字列の類似度を計算する文字列類似度計算処理部と、
前記文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する前記少なくとも２つの文字列について文書中における使用形態に基づいて、前記少なくとも２つの文字列の同一性を判断する文字列同一性判断部と、
を備えることを特徴とするデータ名寄せ処理装置。
前記文字列同一性判断部は、前記少なくとも２つの文字列の１つを含む文書を検索し、この検索結果から固有表現情報を抽出し、それぞれの前記文字列に対応する固有表現を比較して前記少なくとも２つの文字列の同一性を判断することを特徴とする請求項１に記載のデータ名寄せ処理装置。
前記固有表現情報は、固有表現の種類を示す属性名と、前記固有表現の内容を示す属性値を含み、
前記文字列同一性判断部は、前記属性名及び前記属性値を用いて、前記少なくとも２つの文字列の同一性を判断することを特徴とする請求項２に記載のデータ名寄せ処理装置。
前記文字列同一性判断部は、前記属性値が同一で、前記属性名が異なっている場合、前記少なくとも２つの文字列に対応する前記属性名の同義性を、同義語辞書を用いて判断することを特徴とする請求項３に記載のデータ名寄せ処理装置。
文字列同一性計算処理部と文字列同一性判断部とを含むデータ名寄せ処理装置におけるデータ名寄せ処理方法であって、
文字列類似度計算処理部が、それぞれ名称を構成する少なくとも２つの文字列について、当該文字列の類似度を計算し、
文字列同一性判断部が、前記文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する前記少なくとも２つの文字列について文書中における使用形態に基づいて、前記少なくとも２つの文字列の同一性を判断する、
ことを特徴とするデータ名寄せ処理方法。
コンピュータを請求項１に記載のデータ名寄せ装置として機能させるためのプログラム。