JP4155970B2 - 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム - Google Patents

情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム Download PDF

Info

Publication number
JP4155970B2
JP4155970B2 JP2004358533A JP2004358533A JP4155970B2 JP 4155970 B2 JP4155970 B2 JP 4155970B2 JP 2004358533 A JP2004358533 A JP 2004358533A JP 2004358533 A JP2004358533 A JP 2004358533A JP 4155970 B2 JP4155970 B2 JP 4155970B2
Authority
JP
Japan
Prior art keywords
synonym
character string
pair
database
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004358533A
Other languages
English (en)
Other versions
JP2006164170A (ja
Inventor
栄治 剣持
敦夫 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004358533A priority Critical patent/JP4155970B2/ja
Publication of JP2006164170A publication Critical patent/JP2006164170A/ja
Application granted granted Critical
Publication of JP4155970B2 publication Critical patent/JP4155970B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、同義語データベースを生成する情報処理装置、同義語データベース生成方法、同義語データベース生成プログラムに関する。
近年、WWW(World Wide Web)になどのインターネット技術の発達に伴い、容易に大量の文書データにアクセスすることが可能になり、大量の文書データの中から興味のある文書データのみを探し出す技術として様々な文書検索技術が提案されてきている。
このような検索システムの代表的なものとして、google(http://www.google.com)があり、googleの検索性能は非常に評価高いものとなっている。しかしながら、検索システムには、如何にシステム自体の性能が高くともユーザが入力する問合わせ語が適切でないかぎり、適切な検索結果を返すことができないという本質的な問題がある。
このような問題に対応するための技術として、ユーザの入力する問合わせ語の関連語を抽出し、求めた関連語も問合わせ語に含めることで検索精度を高めるための関連語展開技術があり、CepceptBase search(株式会社ジャストシステム)のような商用の検索システム等に実装されている。
この関連語展開技術には、関連語辞書などのいわゆるシソーラス辞書が用いられる。シソーラスとは、単語を意味によって整理し、体系化したものであり、前記の関連語展開に用いられるほか、連想支援、用語統制に利用されたり、機械翻訳システムにおいて表層表現の多義解消に利用されるなど、自然言語で書かれたテキストの高度な処理に有用な辞書である。
既存の汎用シソーラスとしては「分類語彙表」「日本語語彙大系」が代表に挙げられるが、汎用シソーラスの構築には、専門知識と人手による単語への意味コード付与に非常な労力を要するため、新規の構築は困難である。
そのため、シソーラスを用いる文書処理システムにおいて、シソーラスは既存のものとして扱われ、シソーラスそのものの構築方法に関する提案は数少ない。杉村らによる「意味コード体系の自動生成」は、意味コード体系の自動生成の試みであるが、人手によって収集された用例からの自動生成であり、用例収集者の観点の偏りや、網羅性に課題が残る。
また、専門性の高い文書や資料を扱う場合、汎用シソーラスではその専用性が反映できず、有効な処理結果が得にくい場合が考えられる。しかしながら、専門用語シソーラスを専門分野毎に用意するのは困難である。
そこで、人手を介さないテキストからのシソーラス自動作成の試みとして、特許文献1の「シソーラス作成装置」、および特許文献2の「単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品」などが提案されている。
前記手法は、抽出した単語データにかける文法的な制約に差異はあるものの、基本的には単語データ間の共起情報という統計的性質に基礎をおくものであり、統計的な共起性と意味的関連性に相関を仮定することには問題があるものと考えられる。
例えば、係り受け関係を持つ可能性の高い“文書”と“検索”という単語対と、“文書”と“処理”という単語対が共起性が高いとしても、“検索”と“処理”に意味的な関連性があると仮定することは危険である。
一方、特許文献3の「同義語対抽出装置および方法ならびに記憶媒体」においては、文中の丸括弧対に着目し、丸括弧対のなかの文字列(文字列2)は開き丸括弧の直前の文字列(文字列2)の同義語となることがあるとして、同義語対を抽出するものである。
特開平09−120401号公報 特開2001−331515号公報 特開平11−328205号公報
しかしながら、前述の関係を有する文字列1と文字列2が常に同義語関係を有するとは限らないため、文字列1と文字列2に関するヒューリスティックな規則をもとにそれらが同義語関係か否かの判定をしている。このヒューリスティックな規則は、限定した分野であれば有効性は認められるものの、汎用性にはとぼしいため、言語のように常に新たな表現が創出される分野においては、常に既存の規則の修正や新たな規則を生成が必要となる。
本発明は、このような問題点に鑑み、簡便かつ高精度な同義語データベースを生成する情報処理装置、同義語データベース生成方法、同義語データベース生成プログラムを提供することを目的とする。
上記課題を解決するために、本発明は、順序のある文字列対が格納される同義語候補データベースと、第一記号と第二記号とからなる所定の記号対を含む文に対し形態素解析を施す形態素解析手段と、形態素解析結果を用いて、前記第一記号の直前の所定の連続する形態素列を第一文字列とし、記号対内の所定の連続する形態素列を第二文字列として、順序のある文字列対を抽出する文字列対抽出手段と、抽出した文字列対と前記同義語候補データベースに格納された文字列対である同義語候補文字列対が所定の条件を満たすか否かを判定する同義語対判定手段と、同義語対判定手段で前記所定の条件を満たすと判定された場合、前記第一文字列と、前記第二文字列と、前記同義語候補対とに含まれる各文字列から、互いに異なる文字列を要素とする同義語集合を生成するとともに、前記同義語候補文字列対を同義語候補データベースから削除する同義語集合生成手段とを有することを特徴とする。
また、上記課題を解決するために、本発明は、前記同義語対判定手段で前記所定の条件を満たさないと判定された場合、前記文字列対抽出手段で抽出された文字列対を新たな同義語候補として、前記同義語候補データベースに追加する同義語候補追加手段を有することを特徴とする。
また、上記課題を解決するために、本発明は、前記文字列対抽出手段にて抽出される各文字列は、名詞、記号、助詞のいずれかの品詞をもつ連続する形態素で構成されることを特徴とする。
また、上記課題を解決するために、本発明は、前記同義語対判定手段にて用いられる判定条件は、前記文字列対抽出手段で抽出された前記第一文字列と同義語候補対の第二文字列が等しく、かつ前記文字列対抽出手段で抽出された前記第二文字列と同義語候補対の第一文字列と等しい場合を真とすることを特徴とする。
また、上記課題を解決するために、本発明は、前記同義語集合生成手段で生成された同義語集合と前記同義語データベースの同義語集合の積集合が空集合でない場合を真と判定する同義語集合判定手段を有し、前記同義語集合判定手段が真と判定した場合、前記生成された同義語集合を、前記同義語データベースの同義語集合に追加する同義語集合追加手段を有することを特徴とする。
以上説明したように、本発明によれば、簡便かつ高精度な同義語データベースを生成する情報処理装置、同義語データベース生成方法、同義語データベース生成プログラムを提供することができる。
以下、図面を参照し、本発明の実施形態について説明する。
図1は本発明の一実施形態である情報処理装置を実現するコンピュータの構成例である。図1には、キーボード12と、通信I/O13と、ディスプレイ14と、プリンター15と、メモリ16と、CPU(Central Processing Unit)17と、ハードディスク18と、それらを接続するバス10と、ネットワーク11とが示されている。
キーボード12は、文書を登録する入力手段である。通信I/O13は、外部からの信号を受信したり、本装置から信号を送信する通信手段である。CPU17は、メモリ16に記録された手順に従ってプログラムを実行する。メモリ16は、記憶手段である。通常は、揮発性または不揮発性のものがある。ハードディスクは不揮発性の記憶手段である。
ディスプレイ14とプリンター15は、出力手段である。通信I/O13は、モデムやターミナルアダプタなどが想定でき、通信回線を介してイントラネット、またはインターネットに接続されているサーバなどからデータを受信できる。
次に、図2を用いて情報処理装置に搭載されるモジュールとデータベースについて説明する。モジュールには、形態素解析処理部51と、文字列抽出処理部52と、同義語対判定処理部53と、同義語対追加処理部54と、同義語集合生成処理部55と、同義語集合判定処理部56と、同義語集合合成処理部57と、同義語集合追加処理部58と、不要同義語候補削除処理部59とがある。
これらのモジュールは、上記ハードディスクに記憶されているか、あるいは図示しなかったリムーバルディスクに記憶され、情報処理装置は、それらを読み込むことにより動作するようになっている。
また、データベースには、同義語候補データベース71と、同義語データベース72がある。
まず、上記モジュールについて説明する。
形態素解析処理部51は、特定の記号対を含む文に形態素解析を適用する。文字列抽出処理部52は、形態素解析結果をもとに特定記号対の直前および内部の所定の文字列を抽出する。同義語対判定処理部53は、抽出した文字列対を同義語候補データベースの文字列対が所定の条件を満たすか否かを判定する。
同義語対追加処理部54は、抽出した文字列が、同義語対判定処理で判定条件を満たさない場合、その文字列対を同義語候補として追加する。同義語集合生成処理部55は、同義語対判定手段で判定条件を満たす、抽出した文字列対と該当同義語候補をもとに同義語集合を生成する。同義語集合判定処理部56は、生成した同義語集合と同義語データベースの同義語集合が所定の条件を満たすか否かを判定する。
同義語集合合成処理部57は、同義語集合生成処理で生成された同義語集合が、同義語集合判定処理で判定条件を満たす場合、その同義語集合と同義語データベースの該当同義語集合を合成し、該当同義語集合を更新する。同義語集合追加処理部58は、同義語集合生成処理で生成された同義語集合が、同義語集合判定処理で判定条件を満さない場合、その同義語集合を同義語データベースの新規同義語集合として追加する。
不要同義語候補削除処理部59では、同義語対追加処理で追加された同義語候補について、追加されてから一定時間経過したものは、同義語を構成しないものとみなし、同義語候補データベースから削除する。
次に、各データベースについて説明する。
同義語データベース72は、同義語集合を管理する。同義語集合とは、互いに同義表現をもつ文字列からなる集合をいう。また、同義語候補データベース71は、順序をもつ文字列対である同義語候補を管理する。
なお、順序をもつ文字列対とは、2つの文字列対A、Bにおいて、「A(B)」と表現されるが、「B(A)」と表現されるかどうかが判定されていない文字列対をいう。例えば、東京タワー、港区という文字列対において「東京タワー(港区)」と表現されるが、フレーズを入れ替えた「港区(東京タワー)」という表現は普通はされない。すなわち、順序をもつ文字列対は、同義語の文字列からなる文字列対である可能性がある文字列対である。
本実施の形態では、同義語データベース72および同義語候補データベース71ともに特殊な仕様を必要としないため、既存のデータベースを利用すればよい。
図3に同義語データベースの、図4に同義語候補データベースのデータ構造の一例を示す。
図3に示される同義語データベースは、各行が各同義語集合であり、各セルが同義語を構成する文字列であり、3つの同義語集合を管理しているデータベースである。また、各行を識別するために識別番号が付与されている。例えば、識別番号1の同義語集合は、“北大西洋条約機構”、“NATO”、“North Atlantic Treaty Organization”はそれぞれがそれぞれの同義語である。
図4に示される同義語候補データベースは、各行が各同義語候補の情報であり、第一列が第一文字列、第二列が第二文字列、および第三列が同義語候補を追加した日付であるデータベースである。また、各行を識別するために識別番号が付与されている。例えば、識別番号3の同義語候補対は“○○二郎外野手”と“29”であり、これは2004年2月29日に追加されたものである。
以上がモジュールとデータベースに関する説明である。次に、全体の処理の流れを、図5のフローチャートを用いて説明する。このフローチャートの説明の後、各ステップの詳細な説明を行う。
ステップS101で、文の形態素解析が行われる。次のステップS102で、文字列対抽出処理が行われる。次にステップS103で、同義語対の判定処理が行われる。判定結果が偽であれば、ステップS105で同義語対追加処理が行われ、処理が終了する。
判定結果が真であれば、ステップS104で、同義語集合生成処理が行われる。次のステップS106で、同義語集合判定処理が行われる。ここでの判定結果が真のとき、ステップS107で、同義語集合合成処理が行われ、処理が終了する。判定結果が偽のとき、ステップS108で、同義語集合追加処理が行われ、処理が終了する。
では、各ステップの詳細な説明を行う。まず、ステップS101の形態素解析処理について説明する。
形態素解析処理では、上述したように特定の記号対を含む文に形態素解析を適用する。本実施の形態では、形態素解析系は、表記と品詞の情報を適切に出力できるものであればよいので、既存の形態素解析系を利用すればよい。
また、本実施の形態では、特定の記号対を含む文の検出については明示しないが、特許文献3において開示されている方法を利用してもよいし、もしくは例えば、丸括弧対であれば、正規表現”\([^\)]+\)“などを文に適用することで簡単に検出することができる。
なお、\はバックスラッシュ、[]はクラス、+は1つ以上の出現をそれぞれ示す。
形態素解析処理結果の例を、図6と図7を用いて説明する。図7は、図6の3つの例文を日本語形態素解析システム:JUMAN(http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman.html)を用いて解析した結果である。
なお、図7の各行は、抽出された形態素であり、識別第一列は文内の出現位置、第二列は表記、第三列は品詞を示す。なお、品詞については、JUMANが出力する品詞を簡略化したものを用いている。
次に、ステップS102の文字列対抽出処理について説明する。
文字列対抽出処理では、上述したように形態素解析結果をもとに特定記号対の直前および内部の所定の文字列を抽出する。
本実施の形態では、図7に示す形態素解析結果から、特定記号対を丸括弧とし、先頭と終端の形態素が名詞か未登録語の品詞をもち、それ以外の形態素は、名詞、未登録語、記号、もしくは助詞の品詞をもつ連続する形態素を文字列として取得する処理例を図8のフローチャートを用いて説明する。なお、本実施の形態では簡単のため、記号対の入れ子は存在しないとする。
ステップS201で、文字列対抽出処理部は、記号(の出現位置を検出し、変数P1に代入する。次に文字列対抽出処理部は、ステップS202で、P1+1の位置から最初に出現する記号)の位置を検出し、変数P2に代入する。次のステップS203で、文字列対抽出処理部は、P1+1からP2−1の範囲の形態素列に対し、式に示す品詞の正規表現を満たす形態素列を抽出し、第二文字列とする。なお、この式において、(|)は選択を、?は高々1つ存在を、それぞれ示す。
ステップS204で、文字列対抽出処理部は、P1−1から先頭への形態素列に対し、式に示す品詞の正規表現を満たす形態素列を抽出し、第一文字列とし、処理を終了する。
例えば、図7の文3では、まず記号(の位置として3を、記号)の位置として7を得る。次に、位置4から位置6の形態素列で式1の品詞の正規表現を満たす列を検出すると、名未登録語・記号・未登録語を得るので、第二文字列は“○○プロバイダABC”となる。次に、位置2から先頭へ式1の正規表現を満たす列を検出すると、未登録語・名詞となるため、第一文字列は○○ソフトABCとなり、文字列対:(○○ソフトABC, ○○プロバイダABC)を抽出する。同様に、文1と文2から、(コンピュータソフトウェア著作権協会, ACCS)、(ACCS, コンピュータソフトウェア著作権協会)、(ASKACCS, 著作権・プライバシー相談室)の文字列対が抽出される。
次にステップS103の同義語対判定処理について説明する。
同義語対判定処理では、上述したように抽出した文字列対を同義語候補データベースの文字列対が所定の条件を満たすか否かを判定する。
本実施の形態では、判定条件を“抽出した第一文字列と同義語候補対の第二文字列が等しくかつ抽出した第二文字列を同義語候補対の第一文字列が等しい場合が真”とする。
まず、処理フローの一例を図9に示す。このフローでは、文字列対が判定条件を満たす場合は該当同義語候補の識別番号を返し、満たさない場合は非識別番号数、例えば、−1を返す。
ステップS301で、同義語対判定処理部は、同義語候補データベースに同義語候補があるかどうか判断する。なければステップS305で、−1を返し、処理を終了する。
ステップS302で、同義語対判定処理部は、同義語候補データベースから同義語候補を1つ抽出する。ステップS303で、文字列対の第一文字列と同義語候補の第二文字列が等しく、かつ文字列対の第二文字列を同義語候補対の第一文字列が等しいかどうか判断する。
等しい場合、ステップS304で、同義語対判定処理部は、同義語候補の識別番号を返し、処理を終了する。等しくない場合、同義語対判定処理部は、ステップS301の処理に戻る。
上記処理の例として、図4に示す同義語候補データベースと同義語対生成処理の例示で抽出した文字列対(○○ソフトABC,○○プロバイダABC)を用いた処理例を示す。
文字列対:(○○ソフトABC,○○プロバイダABC)は、まず、識別番号1の同義語候補:(××一郎,△△党)と比較され、これは判定条件を満たさないことがわかる。次に、同義語候補:(○○プロバイダABC,○○ソフトABC)と比較され、これは判定条件を満たすことがわかるので、同義語候補の識別番号2が返され、処理が終了する。
同様に、(コンピュータソフトウェア著作権協会, ACCS)は、判定条件を満たさないため、−1が返り、処理は終了する。また、後述の同義語追加処理により同義語候補データベースに追加されるため、図4に示す同義語候補データベースは図10のように更新される。
また、(ASKACCS, 著作権・プライバシー相談室)は、判定条件を満たさないため、−1が返り、処理は終了し、図10に示す同義語候補データベースは図11のように更新される。
次に、ステップS105の同義語対追加処理について説明する。
同義語対追加処理では、上述したように、抽出した文字列が、同義語対判定処理で判定条件を満たさない場合、その文字列対を同義語候補として追加する。
ここでは、前述の同義語判定処理までの動作例を継承し、また実行した日付を2004年3月3日とすると、判定条件を満たさなかった(コンピュータソフトウェア著作権協会, ACCS)は図4に示す同義語候補データベースに追加され、同義語候補データベースは図10になる。さらに、(ASKACCS, 著作権・プライバシー相談室)も判定条件を満たさないため、図10に示す同義語候補データベースに追加され、同義語候補データベースは図11になる。
なお、図12では、後述の同義語集合生成処理において、(○○プロバイダABC,○○ソフトABC)がすでに削除されているので識別番号2のエントリは削除されている。
次に、ステップS104の同義語集合生成処理について説明する。
同義語集合生成処理では、上述したように、同義語対判定処理で判定条件を満たした文字列対と該当同義語候補をもとに同義語集合を生成する。
この処理フローの一例を図13に示す。ステップS401で、同義語集合生成処理部は、抽出した文字列対と該当する同義語候補の要素で、互いに表記の異なる文字列を要素とする同義語集合を生成する。ステップS402で、同義語集合生成処理部は、該当同義語候補を同義語候補データベースから削除する。
ここでは、前述の同義語対判定処理までの動作例を継承することにすると、抽出した文字列対と該当同義語候補は順序を入れ替えると同一のものであるから、同義語集合は抽出した文字列対が要素となる、すなわち、{○○プロバイダABC,○○ソフトABC}と{コンピュータソフトウェア著作権協会, ACCS}が同義語集合である。それにより、上述したように、図4の同義語候補データベースから識別番号2のエントリが削除され、図12になる。
次に、ステップS106の同義語集合判定処理について説明する。
同義語集合判定処理では、上述したように、生成した同義語集合と同義語データベースの同義語集合が所定の条件を満たすか否かを判定する。
処理フローの一例を図14に示す。このフローでは、生成した同義語集合が判定条件を満たす場合は該当同義語集合の識別番号を返し、満たさない場合は非識別番号数、例えば、−1を返す。
ステップS501で、同義語集合判定処理部は、同義語データベースに同義語集合があるかどうか判断する。なければステップS505で、−1を返し、処理を終了する。次のステップS502で、同義語集合判定処理部は、同義語集合データベースから同義語集合を1つ抽出する。
次に、同義語集合判定処理部は、ステップS503で、生成した同義語集合と該当同義語集合の積集合が空集合かどうか判断する。空集合でないならば、同義語集合判定処理部は、ステップS504で、該当同義語集合の識別番号を返し、処理を終了する。空集合の場合、同義語集合判定処理部は、ステップS501の処理に戻る。
この処理例として、前述の同義語集合生成処理までの動作例を継承し、判定条件を“2つの集合の積集合が空集合でない場合を真”として、図3に示す同義語集合データベースと同義語集合生成処理の例示で生成した同義語集合を用いた処理を示す。
例えば、{○○プロバイダABC,○○ソフトABC}は、まず、{北大西洋条約機構,NATO, North Atlantic Treaty Organization}との積集合が空集合である。次に、{後天性免疫不全症候群, エイズ, AIDS, Acquired Immune Deficiency Syndrome}との積集合も空集合である。
次に、{○○ソフトABC株式会社,○○ソフトABC}との積集合は空集合ではないため、識別番号3が返され、処理が終了する。また、後述の同義語集合合成処理により図3の同義語集合データベースは図13になる。
同様に、{コンピュータソフトウェア著作権協会, ACCS}は、図15の同義語データベースに対し、判定条件を満たさないため、−1が返され、処理が終了する。
次に、ステップS107の同義語集合合成処理について説明する。
同義語集合合成処理では、上述したように、同義語集合生成処理で生成された同義語集合が、同義語集合判定処理で判定条件を満たす場合、その同義語集合と同義語データベースの該当同義語集合を合成し、該当同義語集合を更新する。
処理フローの一例を図16に示す。ステップS601で、同義語集合合成処理部は、生成された同義語集合の、同義語データベースにおける該当同義語集合との差集合を生成する。次のステップS602で、同義語集合合成処理部は、生成した差集合の全要素を当該同義語集合に加える。
次に、前述の同義語集合判定処理までの動作例を継承し、判定条件をみたす同義語集合と同義語データベースにおける該当同義語集合を合成し、該当同義語集合を更新する処理例を示す。
例えば、{○○プロバイダABC,○○ソフトABC}と{○○ソフトABC株式会社,○○ソフトABC}との差集合は、{○○プロバイダABC}となる。次に、この{○○プロバイダABC}を{○○ソフトABC株式会社,○○ソフトABC}に追加して、同義語集合データベースを更新する。従って、図3の同義語データベースの更新後は図15に示される同義語データベースとなる。
次に、ステップS108の同義語集合追加処理について説明する。
同義語集合合成処理では、上述したように、同義語集合生成処理で生成された同義語集合が、同義語集合判定処理で判定条件を満さない場合、その同義語集合を同義語データベースの新規同義語集合として追加する。
ここでは、前述の同義語集合判定処理までの動作例を継承し、判定条件を満たさない同義語集合と同義語データベースに追加し、該当同義語データベースを更新する処理として、例えば、{コンピュータソフトウェア著作権協会, ACCS}を、図15に示す同義語データベースに追加すると、図17に示される同義語データベースとなる。
以上説明した実施の形態のように、複数文書に対して上述した処理を繰り返し、実行することにより簡便に高精度な同義語データベースを生成できる。
なお、上記処理例において、同義語データベース、同義語候補データベースともに識別番号が不連続になる場合が生じているが、ひとつの抽出された文字列対単位で識別番号の整合性が取れていればよいので、任意の抽出された文字列対における処理が終了した後に、識別番号を連続値に修正してもよい。
次に、不要同義語候補削除処理について説明する。この不要同義語候補削除処理では、同義語対追加処理で追加された同義語候補について、追加されてから一定時間経過したものは、同義語を構成しないものとみなし、同義語候補データベースから削除する。
なお、任意の文に対し、同義語対抽出処理から同義語候補追加処理までの処理が行われている場合は、同義語候補データベースの整合性が崩れるため、処理を実行することはできないが、それ以外であれば定期的に実行してよい。
処理フローの一例を図18に示す。ステップS701で、不要同義語候補削除処理部は、最大経過日数と現在の日付を取得する。ステップS702で、不要同義語候補削除処理は、同義語候補データベースがあるかどうか判断する。なければ処理を終了する。不要同義語候補削除処理部は、ステップS703で、同義語候補データベースから同義語候補を1つ取得し、該当同義語候補の追加日付と現在の日付から経過日数を算出する。
次に、不要同義語候補削除処理部は、ステップS704で、経過日数が最大経過日数を超えるかどうか判断する。超えるならば、不要同義語候補削除処理部は、ステップS705で、該当同義語候補のエントリを同義語候補データベースから削除する。超えない場合、不要同義語候補削除処理部は、ステップS701の処理に戻る。
この処理例として、指定される最大経過日数を超える同義語候補は削除する処理例を、図11を用いて示す。
例えば、現在日時を2004年3月3日、最大経過日数を30日とすると、図11の同義語候補データベースで、識別番号1の同義語候補は追加日付が3004年1月8日であるから、経過日数は49日となり、30日を越えているため、削除される。同様にして、識別番号3、4、5の同義語候補は経過日数がすべて30日以内のため、削除されない。
次に、自動ページ収集処理と文抽出処理について説明する。
自動ページ収集処理と文抽出処理では、インターネット上のテキストデータを自動的に収集し、収集した文書から特定の記号対を含む文を抽出する。そして、抽出した複数の文を、前述の文字列対抽出処理からの一連の処理に繰り返し適用する。また、定期的に不要同義語削除処理も合わせて実行することで、簡便に高精度かつ鮮度の高い同義語データベースを生成できる。
なお、テキストの収集処理は、既存の検索ロボットなどの自動文書収集エージェントを用いればよいし、特定記号対を含む文の抽出に関しては前述しているので、ここでは動作例は明示しない。
コンピュータの構成例を示す図である。 モジュールとデータベースを示す図である。 同義語データベースのデータ構造例を示す図である。 同義語候補データベースのデータ構造例を示す図である。 全体の処理の流れを示すフローチャートである。 例文を示す図である。 形態素解析処理結果の例を示す図である。 文字列対抽出処理を示すフローチャートである。 同義語対判定処理を示すフローチャートである。 同義語候補データベースを示す図(その1)である。 同義語候補データベースを示す図(その2)である。 同義語候補データベースを示す図(その3)である。 同義語集合生成処理を示すフローチャートである。 同義語集合判定処理を示すフローチャートである。 同義語データベースを示す図(その1)である。 同義語集合合成処理部を示すフローチャートである。 同義語データベースを示す図(その2)である。 不要同義語候補削除処理を示すフローチャートである。
符号の説明
10 バス
11 ネットワーク
12 キーボード
13 通信I/O
14 ディスプレイ
15 プリンター
16 メモリ
17 CPU
18 ハードディスク
51 形態素解析処理部
52 文字列抽出処理部
53 同義語対判定処理部
54 同義語対追加処理部
55 同義語集合生成処理部
56 同義語集合判定処理部
57 同義語集合合成処理部
58 同義語集合追加処理部
59 不要同義語候補削除処理部
71 同義語候補データベース
72 同義語データベース

Claims (4)

  1. 順序のある文字列対が格納される同義語候補データベースと、
    第一記号と第二記号とからなる所定の記号対を含む文に対し形態素解析を施す形態素解析手段と、
    形態素解析結果を用いて、前記第一記号の直前の所定の連続する形態素列を第一文字列とし、記号対内の所定の連続する形態素列を第二文字列として、順序のある文字列対を抽出する文字列対抽出手段と、
    抽出した文字列対と前記同義語候補データベースに格納された文字列対である同義語候補文字列対が、抽出した前記第一文字列と同義語候補対の前記第二文字列が等しく、かつ抽出した前記第二文字列を同義語候補対の前記第一文字列が等しい場合を真とする条件を満たすか否かを判定する同義語対判定手段と、
    同義語対判定手段で前記条件を満たすと判定された場合、前記第一文字列と、前記第二文字列と、前記同義語候補対とに含まれる各文字列から、互いに異なる文字列を要素とする同義語集合を生成するとともに、前記同義語候補文字列対を同義語候補データベースから削除する同義語集合生成手段と、
    を有することを特徴とする情報処理装置。
  2. 前記同義語対判定手段で前記条件を満たさないと判定された場合、
    前記文字列対抽出手段で抽出された文字列対を新たな同義語候補として、前記同義語候補データベースに追加する同義語候補追加手段を有することを特徴とする請求項1に記載の情報処理装置。
  3. 前記文字列対抽出手段にて抽出される各文字列は、名詞、記号、助詞のいずれかの品詞をもつ連続する形態素で構成されることを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記同義語集合生成手段で生成された同義語集合と前記同義語データベースの同義語集合の積集合が空集合でない場合を真と判定する同義語集合判定手段を有し、
    前記同義語集合判定手段が真と判定した場合、前記生成された同義語集合を、前記同義語データベースの同義語集合に追加する同義語集合追加手段を有することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
JP2004358533A 2004-12-10 2004-12-10 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム Expired - Fee Related JP4155970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004358533A JP4155970B2 (ja) 2004-12-10 2004-12-10 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004358533A JP4155970B2 (ja) 2004-12-10 2004-12-10 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム

Publications (2)

Publication Number Publication Date
JP2006164170A JP2006164170A (ja) 2006-06-22
JP4155970B2 true JP4155970B2 (ja) 2008-09-24

Family

ID=36666089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004358533A Expired - Fee Related JP4155970B2 (ja) 2004-12-10 2004-12-10 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム

Country Status (1)

Country Link
JP (1) JP4155970B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190044A (ja) * 2005-01-05 2006-07-20 Ricoh Co Ltd 関連文字列生成装置、プログラム、及び記憶媒体
JP5145288B2 (ja) * 2009-05-14 2013-02-13 株式会社エヌ・ティ・ティ・データ 類義語辞書構築装置及び方法、コンピュータプログラム
JP2011103038A (ja) * 2009-11-10 2011-05-26 Nomura Research Institute Ltd 用語間の対応関係抽出システム及び対応関係抽出プログラム
JP2013114633A (ja) * 2011-11-30 2013-06-10 Toshiba Corp 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム

Also Published As

Publication number Publication date
JP2006164170A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
EP1367501B1 (en) Lexicon with sectionalized data and method of using the same
CA2484410C (en) System for identifying paraphrases using machine translation techniques
US20070011132A1 (en) Named entity translation
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2005276183A (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
JP2007122509A (ja) 語句配列の自然度判定装置、方法及びプログラム
Saloot et al. An architecture for Malay Tweet normalization
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
Taghi-Zadeh et al. A new hybrid stemming method for Persian language
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2009086979A (ja) 組織名抽出装置、方法及びプログラム
JP2006139708A (ja) テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
JP4933741B2 (ja) 情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
Melero et al. Selection of correction candidates for the normalization of Spanish user-generated content
Park et al. Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees