JP2010231253A - データ名寄せ処理装置及び方法 - Google Patents

データ名寄せ処理装置及び方法 Download PDF

Info

Publication number
JP2010231253A
JP2010231253A JP2009074817A JP2009074817A JP2010231253A JP 2010231253 A JP2010231253 A JP 2010231253A JP 2009074817 A JP2009074817 A JP 2009074817A JP 2009074817 A JP2009074817 A JP 2009074817A JP 2010231253 A JP2010231253 A JP 2010231253A
Authority
JP
Japan
Prior art keywords
character strings
data name
attribute
name identification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009074817A
Other languages
English (en)
Inventor
Yasutsugu Morimoto
康嗣 森本
Kosuke Yanai
孝介 柳井
Shoji Ikeda
尚司 池田
Hiroko Suketa
浩子 助田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009074817A priority Critical patent/JP2010231253A/ja
Publication of JP2010231253A publication Critical patent/JP2010231253A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】オブジェクトの文字列の表記揺れがある場合に、オブジェクトの同一性を正しく判定する。
【解決手段】データ中から表記が類似するオブジェクトの組を抽出し、それぞれのオブジェクトをクエリとして検索を行う。これによりそれぞれのオブジェクトに関連する文書からなる文書集合を取得する。そして、文書集合から地名、住所、人名などの固有名を根拠情報として抽出し、根拠情報同士の比較を行うことによりオブジェクトの同一性を判定する。
【選択図】図1

Description

本発明は、データ名寄せ処理装置及び方法に関し、例えば、データ中の同一オブジェクトの表記揺れを検出し、同一であるかどうかを判定するデータ名寄せ処理装置及び方法に関するものである。
情報爆発時代と言われるように、ユーザがアクセス可能な電子化文書の量が膨大なものとなっている。多くの電子化データは、定型データ、すなわち表形式、XML形式等の計算機での扱いが容易であるように、データ形式が予め定められた形式で表現されている。
ところが、様々な要因により、データの表記に揺れが発生することが多い。そのため、データの表記を手がかりにデータの同一性を判定することに困難が生じる。本明細書では、データ内の各要素をオブジェクトと呼び、具体的なオブジェクトとして企業名を扱う場合を説明する。
ここで、取引先との取引額を表す表ゲータが存在し、表内に「ケンコー食品化学」という企業名のオブジェクトが存在した場合を想定する。このとき、データ入力者が「ケンコウ食品化学」のように入力を誤ることによって表記揺れが発生する。あるいは、元々の企業名が「健康食品化学」であったが、「ケンコー食品化学」に名称変更が行われた場合にも、表記揺れが発生する。このようなデータを使って様々な処理を行う場合、例えば、各企業との取引額の総和を計算するためには、このような表記揺れを吸収し、同一の企業であるかどうかを判定することが必要である。このような処理は、データの名寄せと呼ばれている。例えば特許文献1には、このような名寄せ処理における表記揺れを吸収するための技術が開示されている。特許文献1によれば、既知の異表記語のペアから、表記揺れを生成し易い文字列ペアを学習し、学習された文字列ペアを用いることによって異表記語を生成するようにしている。
また、例えば特許文献2には、関連技術としてDB内のオブジェクトの識別を行う技術が開示されている。特許文献2によれば、テキスト内の同じ文字列を持つオブジェクトが異なる場合を既存データベースと照合することにより識別し、自動的に構造化するようにしている。
特開2006−107070号公報 特開2006−195535号公報
Rechard Bellman著,"Dynamic Programming", Princeton University Press, Princeton, New Jersey,1957. Kevin Knight, Jonathan Graehl著,"Machine transliteration", Computational Lingustics, Volume 24,Issue 4,pp.599-162,1998. 北研二, 津田和彦, 獅々堀正幹 著,"情報検索アルゴリズム",共立出版,2002. 浅原正幸,松本裕治 著,"日本語固有表現抽出における分かち書き問題の解決",情報処理学会論文誌,Vol.45,No.5,pp.1442-1450,2004. 関根,井佐原:IREX:「情報検索,情報抽出コンテスト」,情処自然言語処理,No.127,pp.109-116,1998. 阿辺川武, 奥村学 著,"大規模統計情報を用いた日本語係り受け解析の精度向上" 言語処理学会第11回年次大会, 2005.
しかしながら、特許文献1及び2で代表される従来技術を用いたとしても、オブジェクトの同一性を正しく判定することはできない。これは、従来技術では似ているが別のオブジェクト、例えば似た名前の別の店なのか、入力間違いなどの理由により同一のオブジェクトの表記に揺れが発生しているのかを区別することが困難なためである。そのため、結局人手による確認が必要となり、コストが高くなってしまう。
本発明はこのような状況に鑑みてなされたものであり、表記揺れが複数のオブジェクト間にあったとしても、同一のオブジェクトは同一のものとして取り扱えるようにすることを可能にする技術を提供するものである。
上記課題を解決するために、本発明によるデータ名寄せ処理装置は、文字列類似度計算処理部と、文字列同一性判断部と、を備えている。文字列類似度計算処理部は、それぞれ名称を構成する少なくとも2つの文字列について、当該文字列の類似度を計算する。また、文字列同一性判断部は、文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する少なくとも2つの文字列について文書中における使用形態に基づいて、前記少なくとも2つの文字列の同一性を判断する。
また、文字列同一性判断部は、検索部を用いて、少なくとも2つの文字列の1つを含む文書を検索し、この検索結果から固有表現情報を抽出し、それぞれの文字列に対応する固有表現を比較して前記少なくとも2つの文字列の同一性を判断する。
固有表現情報は、固有表現の種類を示す属性名と、前記固有表現の内容を示す属性値で構成される。この場合、文字列同一性判断部は、属性名及び属性値を用いて、少なくとも2つの文字列の同一性を判断する。より具体的には、属性値すなわち、固有表現の文字列が同一であるだけでは元データにおける同一性が保証されない場合がある(例えば、元データが企業名であり関連する固有表現情報が「山田A夫」のような人名である場合に、元データが異なる企業であっても社員に同姓同名の人物が存在する可能性がある)ことを勘案し、属性名(「山田A夫」が「社長」である)を併用することで少なくとも2つの文字列の同一性を判断する。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明によれば、表記が類似したデータ中のオブジェクトが同一であるかどうかを正確に自動判定することができるため,名寄せの効率が飛躍的に向上する。
本発明の実施形態の計算機システムの構成のブロック図である。 本発明の実施形態のデータ名寄せ装置に記憶される入力データの説明図である。 本発明の実施形態のデータ名寄せ装置に記憶される読み辞書の説明図である。 本発明の実施形態のデータ名寄せ装置に記憶される文字対応辞書の説明図である。 本発明の実施形態のデータ名寄せ装置によって実行されるデータ名寄せ処理のフローチャートである。 本発明の実施形態のデータ名寄せ装置によって実行されるオブジェクト同一性判定処理のフローチャートである。 本発明の実施形態のデータ名寄せ装置に記憶される文書検索結果の説明図である。 本発明の実施形態のデータ名寄せ装置に記憶される根拠情報テーブルの説明図である。
本発明は、オブジェクト(エンティティ)におけるデータの文字列表記の揺れ以外の情報を用いて当該データの同一性を判定するデータ名寄せ処理に関するものである。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<データ名寄せ装置の構成>
図1は、本発明の実施形態によるデータ名寄せ装置の概略構成を示すブロック図である。なお、ここでは計算機システム(コンピュータ)として実現されているが、別の方法で実現しても良い。
データ名寄せ装置100は、CPU101と、主メモリ102と、入出力装置103と、ディスク装置110と、を備えている。
CPU101は、主メモリ102に一時的に記憶されるプログラムを実行することによって各種処理を行う。具体的には、CPU101は、ディスク装置110に記憶されるプログラムを、主メモリ102上に呼び出して実行する。
主メモリ102は、CPU101によって実行されるプログラム及びCPU101によって必要とされる情報等を一時的に記憶する。
入出力装置103は、ユーザから入力される情報を受けつけ、CPU101の指示に応じて情報を出力する。例えば、入出力装置103における入力機能は、キーボード、マウスやマイク等によって構成され、出力機能はディスプレイ、プリンタ、スピーカ等によって構成される。
ディスク装置110は、各種情報を記憶し、例えばHDD(ハードディスクドライブ)によって構成される。具体的には、ディスク装置110は、OS111と、データ名寄せプログラム112と、検索プログラム113と、入力データ114と、読み辞書115と、文字対応辞書116と、文書検索結果117と、根拠情報テーブル118と、を格納している。なお、データ名寄せプログラム112及び検索プログラム113はCPU101と協働して、データ名寄せ処理部及び検索処理部として動作する。
OS111は、データ名寄せ装置100の処理の全体を制御する。データ名寄せプログラム112は、入力データ114中の同一オブジェクト(オブジェクト)の判定処理を実行するものである。検索プログラム113は、同一性判定の処理対象となる単語をクエリとし検索を行い、文書を取得するためのものである。
入力データ114は、データ名寄せプログラムへの入力となるデータである(図2参照)。また、読み辞書115は、オブジェクトの文字列類似計算に使用される辞書である(図3参照)。さらに、文字対応辞書116は、オブジェクトの文字列類似計算に使用される辞書である(図4参照)。
文書検索結果117は、名寄せしたいデータについて、検索プログラム113によって文書検索を行った結果が格納される(図7参照)。根拠情報テーブル118は、文書検索結果117から抽出したオブジェクト同一性判定のための根拠情報が格納される(図8参照)。
<入力データ及び各辞書の構成例>
図2は、入力データの例を示す図である。図2に示される入力データは、企業名とその企業に対する取引額から構成されている。本実施形態では、このような入力データに対して、例えば同一企業毎の取引額の合計を求めたい場合を例として名寄せ処理を説明する(図5及び6)。
図3は、読み辞書の例を示す図である。読み辞書は、漢字などの単語文字列とそのカタカナの読みから構成される。ひらがなの読みについては、読み辞書に格納しても良いが、カタカナの読みから一意に生成することが可能であるため、本実施例ではカタカナの読みのみが格納されているものとする。
図4は、文字対応辞書の例を示す図である。文字対応辞書は、後述するDPマッチングによる表記揺れ判定処理に用いられるデータであり、「コンピュウタ」と「コンピュータ」のような表記揺れを判定する際に、「ウ」と「ー」が可換であることを示している。
<名寄せ処理の内容>
図5は、本発明による実施形態のデータ名寄せ装置100によって実行される名寄せ処理を説明するためのフローチャートである。図6は、図5におけるオブジェクト同一性判定処理(ステップS16)の更なる詳細を説明するためのフローチャートである。
図5を参照すると、まず、データ名寄せ処理部112は、対象データの行を全て処理したかどうか調べる(ステップS11)。全て処理済みであれば、全体の処理を終了する。未処理のデータがあれば、処理はステップS12に進む。
データ名寄せ処理部112は、データから2個のオブジェクトを取得する(ステップS12)。例えば、全データ数がN行の場合には、表のI番目(I=1,2,3,・・・,N−1)の行のオブジェクトとJ(=I+1,I+2,・・・,N)番目のオブジェクトを取得することとすれば良い。図2の例の場合、オブジェクトは名寄せ対象となる企業名であるので、I番目の行の企業名とJ番目の行の企業名を取得する。なお、処理するオブジェクトの数を2個ずつとしたのは説明を簡単にするための単なる例であり、より多くのオブジェクトを一遍に処理するようにしてもよい。
次に、データ名寄せ処理部112は、取得した2個のオブジェクトの文字列としての類似度を計算する(ステップS13)。なお、文字列としての類似度は、様々な方法によって計算することができる。例えば、「コンピュータ」と「コンピューター」のようなカナの表記揺れの場合には、DPマッチングのような手法により計算する。DPマッチングは、例えば、非特許文献1に開示されている手法を用いることができるので説明は省略する。「健康」と「ケンコウ」のような漢字と読み、「Health」と「ヘルス」のような英単語と外来語の対訳関係の場合には、予め図3のような読み辞書を用いて漢字や英語の文言をカタカナ標記に変更し、変更後の文言に従ってDPマッチング(例)で類似度を計算するようにすれば良い。一方、「Health」のような一般の英語でない「Kokusai」のような語の場合には、予め辞書を準備しておくことは困難である。このような場合は、翻字(transliteration,字訳)と呼ばれる技術を用いる。これは、「ra」を「ラ」に変換できるといった規則を組み合わせることによって全体の読みを生成する技術である。音訳については、非特許文献2に開示されている。
続いて、データ名寄せ処理部112は、2個のオブジェクトの文字列が完全に一致しているかどうかを調べ、一致している場合は処理をステップS11に移行させ、一致していない場合は処理をS15に移行させる(ステップS14)。
そして、データ名寄せ処理部112は、文字列類似度が予め定めた閾値より大きい、すなわち類似しているかどうかを調べ、閾値より大きい場合は処理をステップS16に進ませ、閾値以下の場合は同一のオブジェクトではないと判定して、処理をステップS11に戻す(ステップS15)。
さらに、データ名寄せ処理部112(一部の処理で検索処理部113が用いられる)は、2個のオブジェクト同一性判定処理を行う(ステップS16)。この処理については、図6で詳細に説明する。
オブジェクトが同一であると判断された場合処、理はステップS18に進み、同一でない場合処理はステップS11に戻る(ステップS17)。
データ名寄せ処理部112は、2個のオブジェクトが同一のオブジェクトであると判断したものについては、同一オブジェクト記録リストにそれらの文言を登録する(ステップS18)。
以上の処理によって、表記が完全には一致していないオブジェクトについて、同一であるものを自動判定することができる。判定結果は、同一オブジェクト記録リストに記録されており、取引額の自動集計等の処理を行う際には、同一オブジェクト記録リストを参照することで名寄せを行うことができる。
図6は、オブジェクト同一性判定処理(図5のステップS16)の詳細を説明するためのフローチャートである。
検索処理部113は、2個のオブジェクトのそれぞれについて検索を行い、それぞれのオブジェクトの文字列を含む文書の集合を取得する(ステップS161)。この処理は、インターネットを介して、Web検索エンジンに対して実行しても良いし、予め収集した文書を格納したローカルな検索エンジンに対して実行しても良い。文書を検索する技術については、例えば、非特許文献3に開示されているので詳細な説明は省略する。2個のオブジェクトがそれぞれ「ケンコー食品化学」及び「健康食品化学」である場合に、検索結果として得られた文書の例が図7に示されている。文書検索は、同一であるかどうか判定した2個のオブジェクトをそれぞれクエリにして2回実行される。図7では、2個のオブジェクトとしてそれぞれ「ケンコー食品化学」、「健康食品化学」である場合に、「ケンコー食品化学」をクエリに検索した結果が検索結果1で示され、「健康食品化学」をクエリに検索した結果が検索結果2で示されている。
データ名寄せ処理部112は、文書検索結果として得られた全ての文書の処理を行ったか調べる(ステップS162)。全ての文書について処理が完了していれば、処理はステップS167に進む。未処理の文書があれば処理はステップS163に進む。
次に、データ名寄せ処理部112は、未処理の文書の中から文書を1つ取得し、固有表現を抽出して根拠情報テーブル118の属性値欄に格納する(S163)。固有表現抽出技術については、非特許文献4に開示されているので詳細な説明は省略する。
ここで、根拠情報の抽出例(根拠情報テーブル118の例)について説明する(図8参照)。図8に示されるように、根拠情報は、クエリ番号、属性名、属性値、属性名使用フラグによって構成される。クエリ番号は、同一性を判定したい2個のオブジェクトの1番目をクエリにした際の検索結果から得られた情報であるか、2番目のオブジェクトをクエリにした際の検索結果から得られた情報であるかどうかを示しており、1あるいは2の値を持つ。属性名は、固有表現の属性を示している表現であり、文書から抽出される。属性値は、固有表現文書から抽出された固有表現である。固有表現種別は、「地名」、「人名」など固有表現の一般的な種類を示しており、IREX等における定義を用いる。IREXの定義は、例えば、非特許文献5に開示されている。本発明では、IREXの定義に従い、組織名(ORGANIZATION)、人名(PERSON)、地名(LOCATION)、日付表現(DATE)、時間表現(TIME)、金額表現(MONEY)、割合表現(PERCENT)、人工物名(ARTIFACT)を用いる。また、文書中から抽出した「本社」、「社長」のような情報のいずれかを用いることもできる。「本社」のような属性名は、係り受け解析技術を用いて抽出することができる。あるいは、属性値として抽出した固有表現の近傍、例えば、直前・直後に出現した単語(抽出固有表現の前後の単語)を抽出することによって代用することも可能である。
属性名使用フラグは、オブジェクトの同一性判定処理において、属性名と属性値の組を根拠として使用するか、属性値のみを根拠として使用するかを判定するためのフラグである。
図6に戻り同一性判定処理の説明を続ける。データ名寄せ処理部112は、抽出された固有表現のクエリ番号欄に現在処理中の文書が1番目あるいは2番目のオブジェクトのいずれをクエリとして得られたかに応じて1あるいは2を格納する(ステップS164)。
続いて、データ名寄せ処理部112は、検索結果から、固有表現の属性名を抽出して根拠情報テーブルの属性名欄に格納する(ステップS165)。固有表現の属性名は、現在処理中の文書を係り受け解析して得られる結果上で、固有表現と直接係り受け関係にある単語(あるいは文節)を抽出することによって得られる。係り受け解析技術に関しては、例えば、非特許文献6に開示されているため説明は省略する。また、より簡便な方法として、属性値として抽出した固有表現の近傍、例えば、直前・直後のK単語以内に出現した単語を抽出することによって代用することも可能である。属性名は、一意に定めることができない可能性があるため、この場合は2個以上の属性名を格納しておく。
次に、データ名寄せ処理部112は、属性名使用フラグを設定する(ステップS166)。属性名使用フラグの設定は、例えば以下のように行われる。まず、固有表現種別を確認し、予め定められたタイプであれば、属性名使用フラグに1を設定する。それ以外のタイプの場合は次の処理に進む。例えば、固有表現種別が人名の場合は、企業内に同姓同名の人物がいる可能性があるため、属性名を併用することが望ましく、属性名使用フラグには1を設定する。本実施例では、組織名、人名、時間表現、金額表現、割合表現、人工物名については、属性名使用フラグを使用するものとする。次の処理として、属性値として格納されている固有表現の文字列長を取得し、予め定められた閾値、例えば10文字以上であれば0を設定する。閾値未満の場合は、固有表現中の数字の文字数を取得し、予め定められた閾値、例えば4文字以上であれば0を設定する。閾値未満の場合は1を設定する。
さらに、データ名寄せ処理部112は、根拠情報テーブルを全て処理したかどうかを調べる(ステップS167)。具体的には、クエリ番号が1である行とクエリ番号が2である行の全ての組み合わせを処理したかどうかを調べる。全て処理していれば、同一である根拠が見つからなかったため同一ではないと判定して処理は終了する。
ステップS167で処理していない組み合わせがあると判断された場合、データ名寄せ処理部112は、クエリ番号欄が1の根拠情報、クエリ番号が2の根拠情報の組で未処理の組を1つ取得し、根拠情報の比較処理を実行する(ステップS168)。具体的には、データ名寄せ処理部112は、2個のオブジェクトからステップS162で抽出された根拠情報同士を比較し、一致する根拠情報が存在するどうかを調べる。根拠情報テーブル中のクエリ番号欄を参照し、クエリ番号欄が1の根拠情報、クエリ番号が2の根拠情報を1個ずつ取り出す。そして、まず属性値が一致するかどうか調べる。属性値が一致しない場合は、根拠情報が一致しないものと判定する。属性値が一致しており、属性値使用フラグが両方0の場合は、根拠情報が一致するものと判定する。属性値が一致しており、属性値使用フラグの少なくとも一方が1の場合は、属性名が一致するかどうか調べる。属性名が一致する場合は、根拠情報が一致するものと判定し、属性名が一致しない場合は、根拠情報が一致しないものと判定する。なお、属性名が2個以上格納されている場合も存在するため、ここで属性名が一致するとは、少なくとも1個の共通する属性名が存在することを言う。なお、属性名、属性値の比較の際、アラビア数字と漢数字を同一だとみなす、「社長」と「代表取締役」が同一だとみなす、などの同義語、表記揺れに関する従来技術を適用しても良い。より具体的には、異なる属性名について同一であるか否かを示す同義語辞書を用意し、属性名をキーとして当該同義語辞書に異なる属性名が同義であるかを判断する。また、偶然に単語が一致することを回避するため、tf−idf法などにより、単語のフィルタリングを行い、重要な単語のみを処理対象とすることが望ましい。tf−idf法については、非特許文献3に開示されているので説明は省略する。
そして、データ名寄せ処理部112は、根拠情報の比較処理結果を調べ、一致していると判断されれば、同一だと判定して処理を終了させ、一致していないと判断すれば、処理をステップS167に移行させる(ステップS169)。
以上のような処理により、同一のオブジェクト(エンティティ)の情報を集めることができるようになる。よって、例えば、取引額を集計する場合でも、同一オブジェクトについての取引額を正確に求めることができるようになる。
<まとめ>
本発明は、プロセッサ、メモリ及びインタフェースを備え、データ中から表記が類似するオブジェクトの組を抽出し、それぞれのオブジェクトをクエリとして検索を行うことによりそれぞれのオブジェクトに関連する文書からなる文書集合を取得し、文書集合から地名、住所、人名、証券コード、設立年月日などの固有表現を根拠情報として抽出し、根拠情報同士の比較を行うことによりオブジェクトの同一性を判定する。ここで、固有表現とは、地名、人名、組織名、製品名等の固有名詞的な表現、あるいは価格、割合、日時などの数量表現のことである。固有名詞は、唯一的に存在する事物を表す名詞のことである。固有表現は、オブジェクトの同一性を判断する際に、通常の名詞と比較してより正確な根拠となり得る。これにより、表記が類似したデータの中のオブジェクトが同一であるか否かについて正確な判定を自動で実行することができる。よって、名寄せの効率が飛躍的に向上し、また、集計処理等、オブジェクトの同一性の判断が前提となる処理を迅速かつ正確に行うことができるようになる。
なお、本実施形態では、辞書はシステムの中に組込まれているが、これに限られたものではなく、ネットワーク上に点在していてもよい。
また、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
100・・・データ名寄せ装置
101・・・CPU
102・・・主メモリ
103・・・入出力装置
110・・・ディスク装置
111・・・OS
112・・・データ名寄せプログラム(データ名寄せ処理部)
113・・・検索プログラム(検索処理部)
114・・・入力データ(入力データ格納部)
115・・・読み辞書
116・・・文字対応辞書
117・・・文書検索結果
118・・・根拠情報テーブル

Claims (6)

  1. それぞれ名称を構成する少なくとも2つの文字列について、当該文字列の類似度を計算する文字列類似度計算処理部と、
    前記文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する前記少なくとも2つの文字列について文書中における使用形態に基づいて、前記少なくとも2つの文字列の同一性を判断する文字列同一性判断部と、
    を備えることを特徴とするデータ名寄せ処理装置。
  2. 前記文字列同一性判断部は、前記少なくとも2つの文字列の1つを含む文書を検索し、この検索結果から固有表現情報を抽出し、それぞれの前記文字列に対応する固有表現を比較して前記少なくとも2つの文字列の同一性を判断することを特徴とする請求項1に記載のデータ名寄せ処理装置。
  3. 前記固有表現情報は、固有表現の種類を示す属性名と、前記固有表現の内容を示す属性値を含み、
    前記文字列同一性判断部は、前記属性名及び前記属性値を用いて、前記少なくとも2つの文字列の同一性を判断することを特徴とする請求項2に記載のデータ名寄せ処理装置。
  4. 前記文字列同一性判断部は、前記属性値が同一で、前記属性名が異なっている場合、前記少なくとも2つの文字列に対応する前記属性名の同義性を、同義語辞書を用いて判断することを特徴とする請求項3に記載のデータ名寄せ処理装置。
  5. 文字列同一性計算処理部と文字列同一性判断部とを含むデータ名寄せ処理装置におけるデータ名寄せ処理方法であって、
    文字列類似度計算処理部が、それぞれ名称を構成する少なくとも2つの文字列について、当該文字列の類似度を計算し、
    文字列同一性判断部が、前記文字列の類似度の計算の結果、完全一致はしていないが所定の類似度以上を有する前記少なくとも2つの文字列について文書中における使用形態に基づいて、前記少なくとも2つの文字列の同一性を判断する、
    ことを特徴とするデータ名寄せ処理方法。
  6. コンピュータを請求項1に記載のデータ名寄せ装置として機能させるためのプログラム。
JP2009074817A 2009-03-25 2009-03-25 データ名寄せ処理装置及び方法 Pending JP2010231253A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009074817A JP2010231253A (ja) 2009-03-25 2009-03-25 データ名寄せ処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009074817A JP2010231253A (ja) 2009-03-25 2009-03-25 データ名寄せ処理装置及び方法

Publications (1)

Publication Number Publication Date
JP2010231253A true JP2010231253A (ja) 2010-10-14

Family

ID=43047045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009074817A Pending JP2010231253A (ja) 2009-03-25 2009-03-25 データ名寄せ処理装置及び方法

Country Status (1)

Country Link
JP (1) JP2010231253A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4869448B1 (ja) * 2011-07-08 2012-02-08 株式会社ぐるなび 名寄せ管理システム
JP2012123541A (ja) * 2010-12-07 2012-06-28 Rakuten Inc サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2017004260A (ja) * 2015-06-10 2017-01-05 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
JP2020009430A (ja) * 2018-06-26 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited モデル駆動型ドメイン固有検索を実行する方法及びシステム
JP2020086996A (ja) * 2018-11-27 2020-06-04 株式会社クリエイト 掲載情報検索システム
WO2022029848A1 (ja) * 2020-08-03 2022-02-10 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123541A (ja) * 2010-12-07 2012-06-28 Rakuten Inc サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
US9501563B2 (en) 2010-12-07 2016-11-22 Rakuten, Inc. Server, information-management method, information-management program, and computer-readable recording medium with said program recorded thereon
JP4869448B1 (ja) * 2011-07-08 2012-02-08 株式会社ぐるなび 名寄せ管理システム
JP2017004260A (ja) * 2015-06-10 2017-01-05 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN107632968B (zh) * 2017-05-22 2021-01-05 南京大学 一种面向裁判文书的证据链关系模型的构建方法
JP2020009430A (ja) * 2018-06-26 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited モデル駆動型ドメイン固有検索を実行する方法及びシステム
JP2020086996A (ja) * 2018-11-27 2020-06-04 株式会社クリエイト 掲載情報検索システム
JP7018202B2 (ja) 2018-11-27 2022-02-10 株式会社クリエイト 掲載情報検索システム
WO2022029848A1 (ja) * 2020-08-03 2022-02-10 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Similar Documents

Publication Publication Date Title
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
US7707023B2 (en) Method of finding answers to questions
JP5936698B2 (ja) 単語意味関係抽出装置
JP5356197B2 (ja) 単語意味関係抽出装置
JP2010231253A (ja) データ名寄せ処理装置及び方法
US9098487B2 (en) Categorization based on word distance
Falk et al. From non word to new word: Automatically identifying neologisms in French newspapers
KR102373146B1 (ko) 군집 기반 중복문서 제거 장치 및 제거 방법
US8204736B2 (en) Access to multilingual textual resources
JP2010519655A (ja) 名前照合システムの名前インデックス付け
JP2008282366A (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Drouin et al. Automatic term extraction from newspaper corpora: Making the most of specificity and common features
Bossard et al. An evolutionary algorithm for automatic summarization
Weng et al. A study on searching for similar documents based on multiple concepts and distribution of concepts
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Sariki et al. A book recommendation system based on named entities
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method
Stern et al. Resources for named entity recognition and resolution in news wires
JP7312841B2 (ja) 法律分析装置、及び法律分析方法