JP4915499B2

JP4915499B2 - 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Info

Publication number: JP4915499B2
Application number: JP2005369518A
Authority: JP
Inventors: 悠齊藤; 健二立石; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-12-22
Filing date: 2005-12-22
Publication date: 2012-04-11
Anticipated expiration: 2025-12-22
Also published as: JP2007172315A

Description

本発明は同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成用プログラムに関し、特に、複数の同義語に共通する文字列パターンを同義語ルールとして抽出することで自動的に同義語辞書を生成できるシステム、同義語辞書生成方法、および同義語辞書生成プログラムに関する。

同義語辞書とは表記は異なるが意味が同じである単語の組を集めて登録した辞書である。例えば「ＮＥＣ情報システムズ」と「ＮＩＳ」は、表記は異なるが同じ企業を表している。このような単語を収集し、登録した辞書である。

同義語辞書は、システムに組み込まれることで文字列の意味的な関連性を与え、システムの性能を上げることができる。同義語辞書を組み込む効果が期待できるシステムの一つとして重複レコード照合システムが挙げられる。重複レコード照合システムとは、データベースに登録されているレコードの中から重複可能性のあるレコードを「重複候補グループ」としてユーザに提示するシステムである。

重複レコード照合作業は、ユーザがシステムから提示された重複候補レコードの重複性を判断していくことで進んでいく。したがって、優れたシステムとは、ユーザがなるべく少ない確認数でなるべく多くの重複レコードが検出できるシステム、ということになる。例えば、「001／ＮＥＣ情報システムズ／東京都港区芝ＮＥＣビル6Ｆ」「002／ＮＩＳ／東京都港区芝ＮＥＣビル6Ｆ」の二つのレコードがデータベースにあったとき、同義語辞書に「ＮＥＣ情報システムズ＝ＮＩＳ」という情報があれば、システムは上記二つのレコードが重複候補であることを検出しユーザに提示できる。同義語辞書を使わずに住所の一致性を手がかりに重複候補として検出しユーザ提示することもできるが、その場合、同じビル内の別会社など住所が一致しているだけで重複ではないレコードが多数候補として検出され、システムの性能を下げてしまう。したがって、同義語辞書はシステムの性能を向上させるのに有効な手段の一つである。

重複レコード照合システムにおいて有効な同義語辞書とは、照合に必要な単語のすべての同義関係が登録されているような辞書である。しかし、完全な同義語辞書を人手で整備するのは多大な労力を要する。特に企業名などの固有表現は新語が多く語彙数も多いため人手によるメンテナンスは困難である。そこで同義語抽出ルールを用意して、データベースから自動的に同義語を抽出する技術の研究がなされている。

従来、この種の同義語抽出システムは、特許文献１に示されるように、人手で同義語を抽出するためのルールを用意してデータベースから同義語を自動的に抽出していた。従来の同義語抽出システムの一例が、特許文献１に記載されている。

この特許文献１に記載された同義語抽出システムは、入力文書内の各文に対して構文解析を行う構文解析手段と、かかる構文解析手段により得られる構文パターンから同義語候補を抽出する同義語候補抽出手段と、この同義語候補抽出手段により得られる同義語候補を格納する同義語候補記憶手段と、この同義語候補記憶手段に格納する前記同義語候補に対し修正／確認／追加を行う修正手段を有する。

同義語候補抽出手段では、構文パターンと同義語関係の対を抽出規則としてあらかじめ格納しておき、その抽出規則と照合することにより同義語候補抽出を行う。同義語候補格納手段では、同義語候補抽出手段によって抽出された同義語候補の中で、同義語辞書と重複しないでかつ、あらかじめ人手で用意しておいた不要語辞書に当てはまらない同義語候補だけを同義語候補記憶手段に格納する。修正手段では、同義語候補記憶手段に格納されている同義語候補を人が修正／確認／追加を行いながら同義語辞書に格納する。
特開平６−２６６７６９号公報

かかる背景技術の第１の問題点は、同義語を抽出するためのルールの作成に多大な労力と高度な専門知識を必要とすることである。その理由は、抽出ルールを人手で作成しているためである。抽出ルールには構文解析に基づく構文パターンと同義語関係の対をいくつも用意しなければならない。また、作成した抽出ルールに応じて不要語辞書も人手で作成しなければならない。

かかる背景技術の第２の問題点は、既存の同義語辞書をそのまま重複レコード照合システムに用いると、十分な効果が期待できないことである。その理由は、既存の同義語辞書が照合対象のデータベースに必ずしも適合するわけではないためである。同義語辞書に登録されている語が、データベース内にほとんど出現しない場合は、重複レコード照合システムにおける同義語辞書の効果はあまり期待できない。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、事前に人手で抽出規則を用意することなく、自動的に同義語を抽出できるシステム／方法／プログラムを提供することにある。

本発明の他の目的は、重複レコード照合システムに効果的な同義語辞書を自動的に構築できるシステム／方法／プログラムを提供することにある。

本発明の第１の同義語抽出システムは、既存の複数の同義語に共通する文字列パターンを同義語ルールとして抽出し、そのルールとデータベース内の文字列情報を用いて同義語を自動生成する共通パターンルール化手段（図１の２）を有する。このような構成を採用し、抽出した共通パターンから同義語辞書を自動生成することにより、本発明の上記目的を達成することができる。

本発明の第２の同義語抽出システムは、第１の共通パターンルール化手段（図１の２）の構成に加え、重複レコード照合手段（図３の４）を有する。このような構成を採用し、同義語ルールから生成された同義語辞書を、重複レコード照合システムに適用することにより、本発明の第２の目的を達成することができる。

第１の効果は、既存の辞書にない同義語を自動的に追加した同義語辞書を生成できることである。この結果、人手による登録が大変である同義語辞書の登録語彙数を自動的に増やしていくことができる。

その理由は、既存の同義語から共通して現れるパターンを抽出し、このパターンを同義語抽出ルールとして用いて同義語辞書を生成するためである。

第２の効果は、重複レコード照合システムに有効な同義語辞書を自動的に生成できることである。その理由は、同義語に出現する共通パターンを同義語ルールとして抽出し、同義語ルールと重複レコード照合対象データベースとから同義語を生成して重複レコード照合システムに適用するためである。

（第１の実施の形態）
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１を参照すると、本発明の第１の実施の形態は、情報を記憶する同義語格納部１と、プログラム制御により動作する共通パターンルール化手段２と、データベース３とを含む。

同義語格納部１は、表記が異なるが意味が同じである複数の単語を一つのグループとして記憶してある同義語辞書である。図５は、同義語格納部１において記憶している同義語辞書の一例を示している。図５中、各“Word”には“GroupId”が付与されており、“Word”は単語を表し、“GroupId”はグループ情報を表す。この図５の例では、同じ“GroupId”に属する“Word”が同義語であることを示している。

共通パターンルール化手段２は、同義語格納部１から複数の同義語グループに共通する文字列パターンとその出現頻度を同義語ルールとして抽出する。そして、ある閾値出現頻度以上の同義語ルールをデータベース中の単語に適用して同義語を生成し、生成した同義語が同義語格納部１になければ同義語格納部１へ追加格納することで同義語辞書を作成する。

図５の例で、閾値出現頻度を３とすると、「ＮＥＣ情報システムズ＝ＮＩＳ」「日達情報システムズ＝ＨＩＳ」と「松上情報システムズ＝ＭＩＳ」という同義語グループが３つ存在する。この場合、共通パターンルール化手段は、この３つの同義語グループに共通に出現する文字列対「情報システムズ」「ＩＳ」とその頻度３を（情報システムズ，ＩＳ，出現頻度：３）のように同義語ルールとして抽出する。

同義語ルールを抽出した後、閾値出現頻度以上の同義語ルールを用いて、データベース３を検索する。この例では、「情報システムズ」と「ＩＳ」の文字列は閾値出現頻度以上であるので、同義語ルールとして抽出する。ここで、データベース３に「東下情報システムズ」という文字列が見つかった場合、上記の同義語ルールを適用し、「情報システムズ」と「ＩＳ」が同義語であるから、「東下情報システムズ＝東下ＩＳ」という同義語を生成する。この結果を同義語格納部１に格納することで同義語辞書がアップデート（生成）される。この例では、「東下情報システムズ＝東下ＩＳ」という同義語を生成したが、自然言語解析を行うことで「東下」の読みを解析し、そのアルファベット表記の先頭文字を抽出することで、「東下情報システムズ＝ＴＩＳ」という同義語を作成してもよい。この例では、自然言語解析で「東下」が「とうした」と読みができ、そのアルファベット表記「ＴＯＵＳＨＩＴＡ」の先頭文字「Ｔ」を抽出することで「東下情報システムズ＝ＴＩＳ」という新たな同義語が作成できる。

データベース３は同義語抽出の対象となるデータベースである。テキスト情報が格納されたデータベースであれば何でもよく、例えばインターネットなどのネットワークを介して接続されるデータベースであってもよい。この場合、共通パターンルール化手段２には、ネットワーク上に構築されたデータベースにアクセスするための通信手段が必要であることは言うまでもない。

また、上記説明では閾値出現頻度を用い、一定の閾値出現頻度以上出現した文字列を同義語ルールとしているが、閾値出現頻度を用いなくてもよい。この場合、２回以上出現した文字列が同義語ルールとなる。

（動作の説明）
次に、図１、図２及び図６を参照して本実施の形態の全体の動作について詳細に説明する。
同義語格納部１に格納されているすべての単語とそのグループ情報が共通パターンルール化手段２に供給される。共通パターンルール化手段２は、供給された単語の文字列について、複数グループの単語に共通して現れる部分文字列対のパターンを同義語ルールとして抽出する（図２のステップＳ１０１）。

図６では、図２のステップＳ１０１において共通パターンを抽出する際のアルゴリズムの詳細を示している。グループ分割された単語に対し、あるグループＡ内の単語の（Ｓ２１１〜Ｓ２１４）最長部分文字列ａがＡ以外のグループＢ内の単語の部分文字列になっているかを調べる（Ｓ２１５）。

部分文字列になっていれば、さらに、Ａ内他の単語の部分文字列ｂがＢ内の他の単語の部分文字列になっているかどうかを調べ（Ｓ２１６）部分文字列であれば（ａ，ｂ）を共通パターンとして抽出しその出現頻度を数える（Ｓ２１７）。

次に、共通パターンルール化手段２は、抽出した同義語ルールとデータベース３に出現する文字列とのマッチングをとり（Ｓ１０２）、同義語を生成する（Ｓ１０３）。生成した同義語が同義語格納部１に未登録であれば、同義語格納部１に新規同義語として登録する（Ｓ１０４）。例えば、Ｓ１０１で（情報システムズ，ＩＳ）という同義語ルールが抽出され、その出現頻度が閾値出現頻度以上であった場合、データベース３に「東下情報システムズ」という文字列があった場合、「東下情報システムズ＝東下ＩＳ」を同義語として生成する。同義語格納部１に前記同義語が格納されていない場合に、この「東下情報システムズ＝東下ＩＳ」を追加格納する。追加格納した例を図７に示す。図７では”Word”列に「東下情報システムズ」と「東下ＩＳ」が追加され、それぞれ同じ”GroupID”が付与されており、「東下情報システムズ」と「東下ＩＳ」が同義語であることを示している。

共通パターンルール化手段２では、文字列パターンとその頻度を同義語ルールとして抽出するので、ある閾値出現頻度以上の頻度のルールのみを使用して同義語を生成すれば、同義語格納部１に追加格納する同義語の精度を上げることができるが、もちろん閾値出現頻度は用いない形態も考えられる。

次に、本実施の形態の効果について説明する。

本実施の形態では、共通パターンルール化手段２で同義語格納部１内の同義語に共通して現れる文字列対を同義語ルールとして抽出し、ルールとデータベースのマッチングを行うことで同義語を新たに生成、格納する。このため同義語抽出ルールをあらかじめ人手で用意しなくても同義語格納部１へ自動的に同義語を追加していくことができ、よって同義語辞書の作成が容易になる。

（第２の実施の形態）
次に、本発明の第２の発明を実施するための最良の形態について図面を参照して詳細に説明する。

図３を参照すると、本発明の第２の発明を実施するための最良の形態は、図１に示された第１の発明を実施するための最良の形態の構成に加え、重複レコード照合手段４を含む点で異なる。

重複レコード照合手段４は、同義語格納部１に格納されている同義語を用いて、データベース３内の文字列の表記を統一したのち、データベース３に含まれるレコード同士の類似度を計算し、ある閾値以上の類似度を持つレコードのグループを重複レコード候補としてユーザに提示する。一般的な重複レコード照合システムは通常、類似度は文字列の距離を基に計算する。図８（ａ）にデータベース３の一例を示す。図８の例は、名称とその名称に対応した住所が記載されたデータベースの一例である。例えば、図８（ａ）のデータベース３に含まれる「東下情報システムズ／東京都港区芝浦１−１」「東下ＩＳ／東京都港区芝浦１−１」の二つのレコードの類似度は合計33文字中24文字同じなので、24／33＝約0.72（約72％）になる。一方、本発明の重複レコード照合手段４では、データベース３内の文字列の表記を同義語格納部１で格納された同義語を用いて表記を統一するので、この例の場合は、「東下情報システムズ」と「東下ＩＳ」は同義語と見なすことができるので、図８（ｂ）の様に表記が統一され、二つのレコードの類似度は合計33文字中33文字同じ、つまり100％類似している（データベースのレコード重複している）と判断することができる。本実施の形態の動作を、図面を参照して詳細に説明する。

図４のステップＳ１０１〜Ｓ１０４で示される本実施の形態における同義語格納部１、共通パターンルール化手段２、データベース３の動作は、第１の実施の形態の各手段１、２および３の動作と同一のため、説明は省略する。また、本実施の形態では、上記説明した様に、Ｓ１０１〜Ｓ１０４のステップを実行することで、図５に示す同義語格納部１が、図７に示す新しい同義語が格納された同義語格納部１になっているものとする。

重複レコード照合手段４では、同義語格納部１の情報を用いてデータベース３の表記を統一する（Ｔ１０５）。前述の例で言えば、「東下情報システムズ／東京都港区芝浦１−１」「東下ＩＳ／東京都港区芝浦１−１」の２つのレコードは、同義語ルールから生成され、同義語格納部１へ追加格納された同義語「東下情報システムズ＝東芝ＩＳ」を用いて「東下情報システムズ／東京都港区芝浦１−１」「東下情報システムズ／東京都港区芝浦１−１」と表記が統一される。ここで表記が統一されたデータベース３の例を図８（ｂ）に示す。図８（ｂ）は、図８（ａ）に示すデータベースのレコードが、重複レコード照合手段４によってデータベース３の各レコードの表記を統一した例を示している。

重複レコード照合手段４では、次に表記統一されたデータベース３に含まれる重複レコード候補を検出する（Ｔ１０６）。

これにより、図８（ｂ）のレコード番号００２とレコード番号１０２の２つのレコード文字列が33文字中33文字同じになるので、類似度は33／33＝1.0（100％）となる。

その後、重複レコード照合手段４は、類似度が閾値以上のレコードを図示しない表示手段に表示させユーザに提示する。ユーザは該当レコードを確認し、図示しない入力手段などを用いて該当レコードを削除するなどの操作を行う。また、重複レコード照合手段４が、ある閾値以上の類似度を持つレコードを自動的に削除する構成でもかまわない。

また、本実施の形態では、共通パターンルール化手段２と重複レコード照合手段４が参照するデータベースが同一のものと説明したが、それぞれ別のデータベースを参照する構成でもかまわない。

次に、本発明を実施するための最良の形態の効果について説明する。

本発明を実施するための最良の形態では、同義語辞書から抽出した共通パターンと重複レコード照合対象のデータベースを用いて同義語を生成し、同義語辞書に追加する。重複レコード照合は、新たな同義語を追加した後の同義語辞書を用いて行う。これにより、同義語の新規追加がない同義語辞書を用いる場合より多くの重複可能性が高いレコードの類似度を上げることができ、重複レコード候補としてユーザに提示することができる。

以上、本発明の第１の実施の形態と第２の実施の形態を説明したが、本発明はコンピュータソフトウェアとしても実現可能である。

図９は、本発明による同義語抽出システムをインプリメントした情報処理システムの一般的ブロック構成図である。

図９に示す情報処理システムは、プロセッサ１００、プログラムメモリ１０１、記憶媒体１０２及び１０３からなる。記憶媒体１０２,１０３は、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体としては、ＲＡＭや、ハードディスク等の磁気記憶媒体を用いることができる。

プログラムメモリ１０１には、上述した共通パターンルール化手段２や、重複レコード照合手段４が行う処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ１００は動作する。

記憶媒体１０２,１０３は、同義語格納部１及びデータベース３として用いられる。

本発明は、同義語辞書の自動構築や自動メンテナンスといった用途に適用できる。また、データベース内から重複なレコードを検出する重複レコード照合システムといった用途にも適用できる。特に、データベース内に存在する表記の異なる語に、一致性があるかどうかを判定するような場合に有効である。

図１は本発明を実施するための最良の一形態の構成を示すブロック図である。図２は本発明を実施するための最良の一形態の動作を示す流れ図である。図３は本発明を実施するための最良の一形態の構成を示すブロック図である。図４は本発明を実施するための最良の一形態の動作を示す流れ図である。図５は同義語格納部に格納されたデータの一例を示す図である。図６は共通パターンルール化手段により、共通パターンを抽出するための一動作例を示す流れ図である。図７は同義語格納部に新規同義語が追加されたデータの一例を示す図である。図８はデータベースに格納されたデータを重複レコード照合手段によって表記を統一する一例を示す図である。図９は本発明による同義語抽出システムをインプリメントした情報処理システムの一般的ブロック構成図である。

符号の説明

１同義語格納部
２共通パターンルール化手段
３データベース
４重複レコード照合手段

Claims

表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶した同義語辞書が格納された同義語格納部と、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する共通パターンルール化手段と、
少なくともテキスト情報が格納されたデータベースと、を備え、
前記共通パターンルール化手段は、前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する
ことを特徴とする同義語辞書生成システム。
表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶した同義語辞書が格納された同義語格納部と、
少なくともテキスト情報が格納された第１のデータベースと、
複数のレコードを持つ第２のデータベースと、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、前記第２のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する共通パターンルール化手段と、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第２のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第２のデータベースのレコード間の類似度を求める重複レコード照合手段と
を備えることを特徴とする重複レコード照合システム。
表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納されたデータベースとを備える情報処理システムにおいて、
前記情報処理システムは、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、
前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する
ことを特徴とする同義語辞書生成方法。
表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納された第１のデータベースと、複数のレコードを持つ第２のデータベースとを備える情報処理システムにおいて、
前記情報処理システムは、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、
前記第１のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加し、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第２のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第２のデータベースのレコード間の類似度を求める
ことを特徴とする重複レコード照合方法。
表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納されたデータベースとを備える情報処理システムにおけるコンピュータのプログラムであって、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する処理と、
前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する処理と
をコンピュータに実行させることを特徴とするプログラム。
表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納された第１のデータベースと、複数のレコードを持つ第２のデータベースとを備える情報処理システムにおけるコンピュータのプログラムであって、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する処理と、
前記第１のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する処理と、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第２のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第２のデータベースのレコード間の類似度を求める処理と
をコンピュータに実行させることを特徴とするプログラム。