JP2012108570A

JP2012108570A - 単語意味関係抽出装置及び単語意味関係抽出方法

Info

Publication number: JP2012108570A
Application number: JP2010254625A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本; Makoto Iwayama; 真岩山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2010-11-15
Filing date: 2010-11-15
Publication date: 2012-06-07
Anticipated expiration: 2030-11-15
Also published as: JP5544602B2

Abstract

【課題】表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出する単語意味関係抽出装置を提供することを目的とする。
【解決手段】データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出した単語ペアの単語意味関係を判定する単語意味関係抽出装置において、単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出し、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、意味素間の類似度に基づいてデータから抽出された単語ペアの類似度を算出し、単語ペアの類似度に基づいて単語ペアの単語意味関係を判定することを特徴とする。
【選択図】図３

Description

本発明は、単語ペアの単語意味関係を抽出する単語意味関係抽出装置に関し、特に、表記ベースの類似度に基づいて単語意味関係を抽出する単語意味関係抽出装置に関する。

パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書が大規模化している。大規模な文書情報を扱うための技術として自然言語処理技術が重要となっている。

日本語及び英語のような自然言語を処理する場合の大きな問題の一つとして同義語の問題がある。自然言語では同じ意味を表現する単語が複数存在するため、同じ意味を異なる単語で表現できる。このため、例えば電子化文書を検索する場合、及び電子化文書を分類する場合等において、同じ内容の文書を発見するためには、単語の意味、つまり同義語関係を考慮した処理が実行されなくてはならない。

このような同義語の問題に対処するために、同義語となる単語ペアが登録された同義語辞書を保持する自然言語処理システムが知られている。

また、同義語辞書を人手によって作成するには大きなコストがかかるため、同義語辞書をテキストデータから自動で作成することが従来から試みられている。

同義語辞書を自動的に作成するためには、同義語となる単語ペアを自動で抽出する必要がある。

以下に、同義語となる単語ペアを抽出する方法を説明する。

単語の出現文脈、すなわち処理対象となる単語の近傍に出現する単語及び文字列に着目して、同義語となる単語ペアを抽出する方法（文脈ベース同義語抽出方法）が知られている（例えば、非特許文献１参照）。

また、発音を表記した文字の表記揺れに着目して同義語となる単語ペアを抽出する方法（表記ベース同義語抽出方法）が知られている（例えば、非特許文献２参照）。非特許文献２では、特にカタカナ表記の表記揺れを検出する方法が開示されている。

また、漢字のような表意文字に対して文字の類似度を用いて同義語となる単語ペアを抽出する方法が知られている（例えば、非特許文献３参照）。さらに、非特許文献３には、上述した文脈ベース同義語抽出方法と表記ベース同義語抽出方法とを教師あり学習の枠組みを用いて統合する技術が開示されている。

同義語以外の同じ単語意味関係を有する単語ペアを抽出する方法として、同じ対訳関係の単語ペアを抽出する方法が知られている（非特許文献４参照）。特に、非特許文献４には、単語の出現文脈に着目して同じ対訳関係の単語ペアを抽出することが気味されている。

相澤：「大規模テキストコーパスを用いた語の類似度計算に関する考察」情報処理学会論文誌，2008年 vol. 49-3, pp. 1426-1436. 久保田他：カタカナ表記の統一方式予備分類とグラフ比較によるカタカナ表記のゆらぎ検出法，情報処理学会自然言語処理研究会報告，１９９３年 NL97-16,pp.111-117, 森本他：文脈類似度と表記類似度を用いた教師あり同義語抽出，言語処理学会第16回年次大会講演論文集，2010. Hiroyuki Kaji, Toshiko Aizono: Extracting Word Correspondences from Bilingual Corpora Based on Word Co-occurrence Information. 1996, COLING 1996, pp.23-28.

上述した非特許文献２及び３に開示された同義語抽出方法は、文字の表記に基づく同義語抽出方法であるが、以下の問題がある。

非特許文献２に開示された同義語抽出方法は、外来語の発音をカタカナで表記した場合の表記揺れを検出し、表記が多少異なる単語を同じ意味の単語として抽出するものである。換言すれば、非特許文献２に開示された同義語抽出方法は、発音を表記した単語で、表記の揺れを吸収するものであるため、非特許文献２に開示された同義語抽出方法には、発音を表記した単語以外に適用できないという問題点がある。

また、非特許文献３に開示された同義語抽出方法は、漢字のような表意文字で表記した単語を構成する各文字の類似度を算出することによって、表意文字で表記した単語間で同義語を抽出するものである。しかし、非特許文献３に開示された同義語抽出方法には、例えば、表意文字（例えば、アルファベット）で表記した単語間で同義語を抽出できないという問題点がある。

本発明は、表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出する単語意味関係抽出装置を提供することを目的とする。

本発明の代表的な一例を示せば、プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置において、前記単語意味関係抽出装置に備わるメモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出部と、前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出部と、前記メモリに記憶された前記意味素類似度情報の意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出部と、前記メモリに記憶された前記単語ペア類似度情報の単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定部と、を備えることを特徴とする。

本発明によれば、表音文字からなる言語の単語間で文字の表記に基づいて単語意味関係を正確に抽出できる。

本発明の第１の実施形態の単語意味関係抽出装置の構成を示すブロック図である。本発明の第１の実施形態の単語意味関係抽出プログラムの概略の説明図である。本発明の第１の実施形態の単語意味関係抽出装置によって実行される単語意味関係抽出処理の概略の説明図である。本発明の第１の実施形態の単語意味関係抽出プログラムによる単語意味関係抽出処理のフローチャートである。本発明の第１の実施形態の類似度行列の説明図である。本発明の第１の実施形態の同義語辞書の説明図である。本発明の第１の実施形態の文脈行列の説明図である。本発明の第１の実施形態の文字重複類似度計算処理のフローチャートである。本発明の第１の実施形態の類似意味素類似度計算処理のフローチャートである。本発明の第１の実施形態の意味素類似度テーブルの説明図である。本発明の第１の実施形態による同義語抽出と従来技術による同義語抽出との比較結果の説明図である。本発明の第２の実施形態の対訳辞書の説明図である。本発明の第２の実施形態の類似度行列の説明図である。

（第１の実施形態）
以下、本発明の第１の実施形態を図１〜図１１を用いて説明する。

本実施形態では、表音文字を含むデータから単語意味関係として同義語関係にある単語ペアを抽出する単語意味関係抽出装置について説明する。

図１は、本発明の第１の実施形態の単語意味関係抽出装置１００の構成を示すブロック図である。図１に示す単語意味関係抽出装置１００は、第２の実施形態にも共通して用いられる。このため、図１に示す単語意味関係抽出装置１００は、第１の実施形態では用いられず、第２の実施形態でのみ用いられる構成も含む。

単語意味関係抽出装置１００は、ＣＰＵ１０１、主メモリ１０２、入出力装置１０３、及び、ディスク装置１１０を備える。

ＣＰＵ１０１は、主メモリ１０２に記憶されたプログラムを実行することによって各種処理を実行する。具体的には、ＣＰＵ１０１は、ディスク装置１１０に記憶されたプログラムを主メモリ１０２にロードし、主メモリ１０２にロードされたプログラムを実行する。

主メモリ１０２は、ＣＰＵ１０１によって実行されるプログラム及びＣＰＵ１０１によって必要とされる情報等を記憶する。

入出力装置１０３は、ユーザからの情報の入力を受け付けるとともに、ＣＰＵ１０１の指示に応じて情報を出力する。例えば、入出力装置１０３は、キーボード及びマウス等の入力装置、並びに、ディスプレイ等の出力装置である。

ディスク装置１１０は各種プログラム及び各種情報を記憶する。具体的には、ディスク装置１１０は、ＯＳ１１１、単語意味関係抽出プログラム１１２、テキスト１１３、人手作成辞書１１４、類似度行列１１５、文脈行列１１６、識別モデル１１７、及び意味素類似度テーブル１１８を記憶する。

ＯＳ１１１は、単語意味関係抽出装置１００が実行する処理全体を制御するオペレーティングシステムである。

人手作成辞書１１４には、同じ単語意味関係にある単語と単語との単語ペアが人手によって登録される。人手作成辞書１１４は、同義語辞書１１４１、及び対訳辞書１１４２を含む。

同義語辞書１１４１には、同義語関係にある単語ペアが人手によって登録される。同義語辞書１１４１は、図６で詳細を説明する。対訳辞書１１４２には、対訳関係にある単語ペアが人手によって登録される。対訳辞書１１４２は、本実施形態で用いず、第２の実施形態で用いる。したがって、対訳辞書１１４２は、図１２で詳細を説明する。

単語意味関係抽出プログラム１１２は、入力されたテキスト１１３に含まれる単語から同じ単語意味関係（本実施形態では同義語）となる単語ペアを抽出する。単語意味関係抽出プログラム１１２は、素性ベクトル抽出サブプログラム１１２１、正解ラベル設定サブプログラム１１２２、識別モデル学習サブプログラム１１２３、及び識別モデル適用サブプログラム１１２４を含む。なお、これらのサブプログラムは図２で詳細を説明する。

テキスト１１３は、単語意味関係抽出プログラム１１２へ入力されるデータである。テキスト１１３は、単語を含むデータであれば特別な形式である必要はない。

テキスト１１３がＨＴＭＬ文書及びＸＭＬ文書等のようなタグを含む文書である場合、当該テキスト１１３が単語意味関係抽出プログラム１１２に入力される前に、当該テキスト１１３に対してタグを除去する処理が実行されることが望ましい。なお、単語意味関係抽出プログラム１１２は、タグを含むテキスト１１３が入力されても、タグを含むテキスト１１３も処理可能である。

類似度行列１１５は、単語意味関係抽出プログラム１１２によって生成される行列である。類似度行列１１５は、テキスト１１３に含まれる単語から抽出された各単語ペアの単語間の類似度、当該単語ペアが同義語辞書１１４１に登録された同義語であるか否かを示す正解ラベル、及び当該単語ペアが同義語であるか否かを示す判定結果を含む。なお、類似度行列１１５は、図５で詳細を説明する。

文脈行列１１６は、単語意味関係抽出プログラム１１２の素性ベクトル抽出サブプログラム１１２１によって生成される行列であり、文脈行列１１６には、テキスト１１３に含まれる各単語の近傍に含まれる単語の出現頻度が登録される。

識別モデル１１７は、単語意味関係抽出プログラム１１２の識別モデル学習サブプログラム１１２３によって生成されるものであり、同義語であるか否かを判定するルールである。具体的には、識別モデル１１７は、類似度行列１１５の正解ラベルに基づいて、類似度を同義語と判定される類似度と同義語でないと判定される類似度とに分別したものである。

意味素類似度テーブル１１８は、単語意味関係抽出プログラム１１２の素性ベクトル抽出サブプログラム１１２１によって生成されるテーブルであり、意味素類似度テーブル１１８には、同義語関係にある単語の意味素の類似度が登録される。なお、意味素類似度テーブル１１８は、図１０で詳細を説明する。また、意味素については、図３及び図９で詳細を説明する。

図２は、本発明の第１の実施形態の単語意味関係抽出プログラム１１２の概略の説明図である。

まず、素性ベクトル抽出サブプログラム１１２１は、テキスト１１３を読み込み、テキスト１１３に含まれる単語を抽出し、抽出した単語からすべての組み合わせの単語ペアを抽出する。ここで、本実施形態では、テキスト１１３は、同一の言語の文書、例えば、英語の文書であることを想定する。ただし、テキスト１１３の一部に日本語の単語が含まれていてもよい。

次に、素性ベクトル抽出サブプログラム１１２１は、各単語ペアに対して、各単語ペアに含まれる単語間の類似度（素性）を計算する。ここで、素性ベクトル抽出サブプログラム１１２１は、一つの単語ペアに対して異なる計算方法によって複数（Ｎ個）の単語ペア類似度を計算する。本実施形態では、素性ベクトル抽出サブプログラム１１２１は、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算する。

文脈ベース類似度は、素性ベクトル抽出サブプログラム１１２１によって生成された文脈行列１１６に基づいて計算され、計算方法については図７で詳細を説明する。文字重複類似度の計算方法については図８で詳細を説明し、類似意味素類似度は、素性ベクトル抽出サブプログラム１１２１によって生成された意味素類似度テーブル１１８に基づいて計算され、計算方法については図９及び図１０で詳細を説明する。

そして、素性ベクトル抽出サブプログラム１１２１は、計算した単語ペア類似度を類似度行列１１５の素性Ａ５０２Ａ〜素性Ｎ５０３Ｎ（図５参照）に登録する。

正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１を参照し、単語ペアが同義語の関係であるか否かを判定し、判定結果を類似度行列１１５のラベル５０３に登録する。

具体的には、正解ラベル設定サブプログラム１１２２は、単語ペアを構成する二つの単語が同義語辞書１１４１に同義語として登録されている場合、当該単語ペアを同義語として判定し、単語ペアを構成する二つの単語が同義語辞書１１４１に同義語として登録されていない場合、当該単語ペアを同義語でないと判定し、単語ペアを構成する少なくとも一つの単語が同義語辞書１１４１に登録されていない場合、当該単語ペアを同義語関係が不明であると判定する。なお、正解ラベル設定サブプログラム１１２２の詳細な判定方法については、図４で詳細を説明する。

なお、本実施形態では、正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１を参照し、単語ペアの同義語関係を判定したが、第２の実施形態では、正解ラベル設定サブプログラム１１２２は、対訳辞書１１４２を参照し、単語ペアの対訳関係を判定する。

識別モデル学習サブプログラム１１２３は、素性ベクトル抽出サブプログラム１１２１及び正解ラベル設定サブプログラム１１２２によって生成された類似度行列１１５に基づいて、単語ペアの同義語関係を判定するためのルールである識別モデル１１７を学習する。

識別モデル適用サブプログラム１１２４は、識別モデル１１７を参照し、単語ペアが同義語であるか否かを判定し、類似度行列１１５の判定結果５０４に判定結果を登録する。

ここで、類似度行列１１５を図５を用いて説明する。

図５は、本発明の第１の実施形態の類似度行列１１５の説明図である。

類似度行列１１５は、単語ペア５０１、素性Ａ５０２〜素性Ｎ５０２Ｎ（以下、総称して素性５０２）、ラベル５０３、及び判定結果５０４を含む。

単語ペア５０１には、テキスト１１３に含まれる単語の二つの単語の組み合わせである単語ペアが格納される。

素性Ａ５０２Ａ〜素性Ｎ５０２Ｎには、素性ベクトル抽出サブプログラム１１２１によって異なる計算方法によって計算された単語ペア類似度が格納される。

ラベル５０３には、正解ラベル設定サブプログラム１１２２による判定結果が格納される。ラベル５０３に「１」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム１１２２によって同義語である（正解）と判定されたことを示し、ラベル５０３に「−１」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム１１２２によって同義語でない（不正解）と判定されたことを示し、ラベル５０３に「０」が格納された場合、当該単語ペアは正解ラベル設定サブプログラム１１２２によって同義語関係が不明である（不明）と判定されたことを示す。

判定結果５０４には、識別モデル適用サブプログラム１１２４による判定結果が格納される。判定結果５０４に「１」が格納された場合、当該単語ペアは識別モデル適用サブプログラム１１２４によって同義語であると判定されたことを示し、判定結果５０４に「１」が格納された場合、当該単語ペアは識別モデル適用サブプログラム１１２４によって同義語であると判定されたことを示し、判定結果５０４に「−１」が格納された場合、当該単語ペアは識別モデル適用サブプログラム１１２４によって同義語でないと判定されたことを示す。

図３は、本発明の第１の実施形態の単語意味関係抽出装置によって実行される単語意味関係抽出処理の概略の説明図である。

単語の表記に基づく単語意味関係の抽出方法では、非特許文献２に記載されるように、「コンピュータ」と「コンピューター」とを同じ単語とみなし、「２０ホン」と「２０フォン」とを同じ単語とみなすように、表記揺れによって同じ単語を抽出することを対象としている。この方法は、ある発音に対する表記に複数のバリエーションがあることに着目するアプローチである。

また、”computer”と「コンピュータ」とが対訳関係であることを抽出する方法も、ある発音に対する表記に複数のバリエーションがあることに着目するアプローチである点で、表記揺れによる単語意味関係の抽出方法と同様である。

しかしながら、上述のアプローチでは、漢字のような表意文字の単語意味関係を抽出できず、主にカタカナのような表音文字の単語意味関係を抽出することが対象となる。

一方、表意文字では各文字が意味を有するため、各文字同士の意味の類似性に基づいて、表意文字からなる単語の単語意味関係を抽出することができる。例えば、「知」と「智」及び「恵」と「慧」は、それぞれ類似した意味を有するため、「知恵」と「智慧」とは表記上一致しないが、「知」と「智」及び「恵」と「慧」の意味の類似性に基づいて、これらの単語は意味がほぼ一致しているとみなすことができる。

しかしながら、表音文字では、各文字が意味を有さないため、上述した各文字の意味の類似性に基づくアプローチを適用することは困難である。本実施形態の単語意味関係抽出処理は、この課題を解決し、表音文字からなる単語の単語意味関係を正確に抽出する処理である。

本実施形態の単語意味関係抽出処理では、表音文字からなる単語から複数の文字からなる意味を有する部分文字列を抽出し、この抽出した部分文字列を表意文字の各文字と同様に扱う。以下、意味を有する部分文字列のことを意味素という。本来、意味を有する部分文字列は形態素というべきであるが、形態素は単語の意味で使われることが多いため、意味を有する部分文字列を意味素ということにした。

表意文字の場合、意味素は一つの文字であり、「農業」は「農」と意味素と「業」という意味素とからなる。

一方、表音文字の場合、意味素は複数の文字からなる。例えば、"agriculture"及び"farming"は、「農業」という意味の同義語である。ここで、"agriculture"は、"agri"という意味素と、"culture"という意味素とに分解できる。ここで、"agri"は「畑」という意味を有し、"culture"は「耕作する」という意味を有する。また、"farming"は、"farm"という意味素と"ing"という意味素とに分解できる。"farm"は「農地」という意味を有し、"ing"は動作を意味する。

以上によって、"agriculture"及び"farming"は非常に近い意味を有することが把握できる。ここで、単語意味関係抽出装置が、表音文字からなる単語からどのように意味素を抽出するか、また、意味素同士の類似度をどのように算出するかが問題となる。本実施形態の単語意味関係抽出処理では、単語からＮ−ｇｒａｍを取得し、Ｎ−ｇｒａｍを意味素の候補として用いる。

図３では、単語意味関係抽出装置１００は、まず単語リストから単語を取得する。単語リストは、十分な数の単語を含むものであればよく、例えば、テキスト１１３及び同義語辞書１１４１の少なくとも一方から抽出された単語のリストである。

次に、単語意味関係抽出装置１００は、取得した単語からＮ−ｇｒａｍを抽出する。Ｎ−ｇｒａｍは、隣接したＮ個の文字からなる部分文字列である。

図３では、単語意味関係抽出装置１００は、"farming"から、２−ｇｒａｍ（例えば、"fa"、"ar"等）、３−ｇｒａｍ（例えば、"far"、"arm"等）、及び４−ｇｒａｍ（例えば、"farm"、"armi")を抽出する。

そして、単語意味関係抽出装置１００は、単語リストからすべての単語を抽出し、抽出したすべての単語のN-gramを抽出し、抽出したＮ−ｇｒａｍの出現頻度を集計し、出現頻度が高いＮ−ｇｒａｍから意味素リストを生成する。なお、出現頻度ではなく、ＮＣ−例えば、Ｖａｌｕｅのような尺度を用いてもよい。

次に、単語意味関係抽出装置１００は、同義語辞書１１４１に同義語として登録された単語ペアを取り出し、意味素リストを用いて各単語を意味素に分割する。

例えば、意味素リストに"agri"、"cult"、"farm"、及び"ing"が登録されている場合、単語意味関係抽出装置１００は、"agriculture"を、意味素リストに登録された"agri"及び"cult"、並びにそれ以外"ure"に分割し、"farming"を、意味素リストに登録された"farm"及び"ing"に分割する。

そして、単語意味関係抽出装置１００は、分割結果同士の任意の組み合わせを意味素ペアの候補として抽出する。単語意味関係抽出装置１００は、例えば、"agri"と"farm"、"agri"と"ing"のような組み合わせを意味素ペアの候補として抽出する。

単語意味関係抽出装置１００は、以上の処理を同義語辞書１１４１に同義語として登録されたすべての同義語ペアについて繰り返し、生成された意味素ペアの候補を構成する意味素の出現頻度を集計することで、意味素類似度を計算する。

意味素類似度としては、例えば、Ｄｉｃｅ測度として、意味素ペアの候補を構成する二つの意味素が同義語辞書１１４１に同義語として登録されている単語に含まれる頻度を、当該候補を構成する各意味素の同義語辞書１１４１内での出現頻度を乗じた値で除算した値を用いてもよい。他にも、意味素類似度として自己相互情報量等を用いてもよい。

そして、単語意味関係抽出装置１００は、所定の条件に適合する意味素ペアの候補を意味素類似度テーブルに登録する。所定の条件は、例えば、計算された意味素類似度が所定値より大きい意味素ペアの候補であってもよいし、意味素類似度テーブルに登録される意味素ペアの個数を所定数以下にする等の条件である。

単語意味関係抽出装置１００は、類似意味素テーブルを用いて、表音文字からなる単語の類似度を算出することによって、表意文字からなる単語と同じく、意味に基づいて単語意味関係を抽出できる。

図４は、本発明の第１の実施形態の単語意味関係抽出プログラム１１２による単語意味関係抽出処理のフローチャートである。

まず、単語意味関係抽出プログラム１１２は、テキスト１１３及び同義語辞書１１４１の少なくとも一方から抽出されたすべての単語ペアに対してＳ１２〜Ｓ１６が実行されたか否かを判定する（Ｓ１１）。

Ｓ１１で、テキスト１１３から抽出されたすべての単語ペアに対してＳ１２〜Ｓ１６が実行されたと判定された場合、単語意味関係抽出プログラム１１２はＳ１６に処理を移行する。

一方、Ｓ１１で、テキスト１１３から抽出されたすべての単語ペアに対してＳ１２〜Ｓ１６が実行されていないと判定された場合、単語意味関係抽出プログラム１１２は、Ｓ１２〜Ｓ１６が未だ実行されていないｉ番目の単語ペアを処理対象として取得する（Ｓ１２）。

なお、単語意味関係抽出プログラム１１２は、入力されたテキスト１１３及び同義語辞書１１４１の少なくとも一方を形態素解析し、単語リストを作成し、作成された単語リストに含まれる単語から二つの単語のすべての組み合わせを全単語ペアとして作成しておく。

そして、単語意味関係抽出プログラム１１２は、処理対象の単語ペアのすべての単語ペア類似度（素性）が計算されたか否かを判定する（Ｓ１３）。

Ｓ１３で、処理対象の単語ペアのすべての単語ペア類似度が計算されていないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、処理対象の単語ペアの未だ計算されていないｊ番目の単語ペア類似度を計算する（Ｓ１４）。Ｓ１４の詳細は、図７〜図１０で詳細を説明する。

次に、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４の計算結果である単語ペア類似度を、類似度行列１１５の素性Ａ５０２Ａ〜素性Ｎ５０２Ｎ（図５参照）のうち計算結果に対応する素性に格納し（Ｓ１５）、Ｓ１３に処理を移行する。

一方、Ｓ１３で、処理対象の単語ペアのすべての単語ペア類似度（素性）が計算されたと判定された場合、正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１を参照し、処理対象の単語ペアが同義語であるか否かを判定し、類似度行列１１５の行のうち処理対象の単語ペアの行のラベル５０３に判定結果を格納する（Ｓ１６）。

ここで、Ｓ１６の詳細を説明する前に、同義語辞書１１４１について、図６を用いて説明する。

図６は、本発明の第１の実施形態の同義語辞書１１４１の説明図である。

同義語辞書１１４１は、見出し６０１及び同義語６０２を含む。

見出し６０１には、同義語となる単語ペアの一方の単語が格納される。同義語６０２には、同義語となる単語ペアの他方の単語が格納される。

同義語辞書１１４１は、辞書引きを可能とするために、冗長にデータを保持する。同義語辞書１１４１は、具体的には、＜agriculture, farming＞の同義語となる単語ペアに対して、"agriculture"が見出し６０１に格納されたエントリと、"farming"が見出し６０１に格納されたエントリとを保持する。

これによって、正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１の見出し６０１に登録された単語のみを参照するだけですべての同義語となる単語ペアを取得できる。

図４に戻り、Ｓ１６の詳細を説明する。

Ｓ１６では、正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１の見出し６０１に登録された単語と処理対象の単語ペアの一方の単語とが一致するエントリの同義語６０２に登録された単語と処理対象の単語ペアの他方の単語とが一致する場合、当該単語ペアを同義語であると判定し、正解のラベルとして「１」を類似度行列１１５のラベル５０３に格納する。

また、正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１の見出し６０１に登録された単語と処理対象の単語ペアの一方の単語とが一致するエントリの同義語６０２に登録された単語と処理対象の単語ペアの他方の単語とが一致しない場合、当該単語ペアを同義語でないと判定し、不正解のラベルとして「−１」を類似度行列１１５のラベル５０３に格納する。

また、正解ラベル設定サブプログラム１１２２は、処理対象の単語ペアの少なくとも一方の単語が同義語辞書１１４１に登録されていない場合、不明のラベルとして「０」を類似度行列１１５のラベル５０３に格納する。

図５を用いてＳ１６を具体的に説明する。

図５に示す類似度行列１１５の＜agriculture, farming＞では、図６に示す同義語辞書１１４１に同義語として登録されているため、正解ラベル設定サブプログラム１１２２はラベル５０３に「１」を格納する。

また、図５に示す類似度行列１１５の＜agriculture, telephone＞では、図６に示す同義語辞書１１４１に同義語として登録されていないため、正解ラベル設定サブプログラム１１２２はラベル５０３に「−１」を格納する。

また、図５に示す類似度行列１１５の＜agriculture, computer＞では、"computer"は図６に示す同義語辞書１１４１に登録されていないため、正解ラベル設定サブプログラム１１２２はラベル５０３に「０」を格納する。

図４に戻り、Ｓ１７の詳細を説明する。

Ｓ１７では、識別モデル学習サブプログラム１１２３は、図５に示す類似度行列１１５の正解及び不正解を示すラベルが登録されたエントリの素性５０２を２値の識別モデルとして学習する。

識別モデルとしては、任意のモデルを使用できるが、例えば、C.J.C.Burges, “A Tutorial on Support Vector Machines for Pattern Recognition” Data Mining and Knowledge Discovery, vol.2, pp.121-168 (1998).に開示されているサポートベクターマシンを使用できる。

アルゴリズムが最も単純な識別器であるｋ近傍法を用いる場合、Ｓ１７では、ラベルが「正解」である単語ペアとラベルが「不正解」である単語ペアを同数準備し、これらの単語ペアの素性５−２に登録された値を教師データとして学習する。

Ｓ１８では、識別モデル適用サブプログラム１１２４は、Ｓ１７で学習されたモデル及び類似度行列１１５に登録された値に基づいて単語意味関係を抽出する。

具体的には、識別モデル適用サブプログラム１１２４は、図５に示す類似度行列１１５のすべての単語ペアについて、これらの単語ペアの素性５０２に登録された値を学習済みの識別器に入力し、同義語であるかどうかを識別する。

識別器として上述したk近傍法を用いる場合について説明する
当該識別器に未知の単語ペアの素性が入力された場合、識別モデル適用サブプログラム１１２４は、未知の単語ペアの素性とＳ１７で学習した教師データに含まれる素性との距離を計算し、計算した距離が小さい順の素性に対応する単語ペアをｋ個抽出する。

そして、識別モデル適用サブプログラム１１２４は、抽出されたｋ個の単語ペアに正解を示すラベルが登録された単語ペア（つまり、同義語辞書１１４１に同義語として登録された単語ペア）が、不正解を示すラベルが登録された単語ペアよりも多ければ、未知の単語ペアを同義語と仮判定する。

一方、識別モデル適用サブプログラム１１２４は、抽出されたｋ個の単語ペアに不正解を示すラベルが登録された単語ペアが、正解を示すラベルが登録された単語ペアよりも多ければ、未知の単語ペアを同義語でないと仮判定する。

なお、識別モデル適用サブプログラム１１２４は、上述の同義語仮判定を類似度行列１１５のすべての素性５０２に実行し、同義語と判定された素性が同義語でない判定された素性よりも多い場合には、未知の単語を同義語として判定し、同義語でないと判定された素性が同義語と判定された素性よりも多い場合には、未知の単語を同義語でない判定する。

そして、識別モデル適用サブプログラム１１２４は、判定結果を類似度行列１１５の判定結果５０４に格納する。

これによって、単語意味関係抽出装置１００は、類似度行列１１５のラベル５０３に「不明」を示すラベル「０」が登録された単語ペアに対し、同義語であるか否かを判定でき、同義語であると判定された単語ペアを同義語辞書１１４１に登録する。

また、識別モデル適用サブプログラム１１２４による同義語の判定結果は、人手による同義語辞書１１４１の誤りチェックに使用できる。

具体的には、類似度行列１１５のラベル５０３に「不明」以外のラベルが登録されている単語ペアの判定結果５０４がラベルと異なる判定結果が登録された単語ペアを人手によって同義語か否かを判定する。これによって、同義語辞書１１４１に同義語として登録された単語ペアを効率よくチェックできる。

以下に、Ｓ１４の詳細を説明する。

Ｓ１４では、素性ベクトル抽出サブプログラム１１２１は、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算する。

まず、文脈ベース類似度についての計算方法について説明する。

素性ベクトル抽出サブプログラム１１２１は、ある単語の近傍に存在する単語列（文脈）に含まれる各単語（文脈単語）を取得し、取得した文脈単語の出現頻度を集計した文脈行列１１６を生成する。そして、素性ベクトル抽出サブプログラム１１２１は、生成した文脈行列１１６に基づいて、単語ペアの二つの単語の近傍にある単語の出現頻度から文脈ベース類似度を計算する。

ここで、近傍の定義によって、取得される文脈単語も異なるものであるが、本実施形態では、近傍をある単語の前後所定語数以内として定義し、素性ベクトル抽出サブプログラム１１２１は、ある単語の前後所定語数以内にある単語の内容後（名詞、動詞、及び形容詞等）を文脈単語として取得する。

なお、近傍は種々の定義が可能であり、例えば、素性ベクトル抽出サブプログラム１１２１は、ある単語を含む文と構文的に関連する文に含まれる単語を文脈単語として取得してもよい。

また、素性ベクトル抽出サブプログラム１１２１は、上述した定義による近傍に基づいて取得された文脈単語の出現頻度をそれぞれ合計して使用してもよい。

文脈行列１１６について図７を用いて説明する。

図７は、本発明の第１の実施形態の文脈行列１１６の説明図である。

文脈行列１１６は、見出し７０１及び文脈情報７０２を含む。

見出し７０１には、入力されたテキスト１１３を形態素解析し、作成した単語リストに含まれる単語が格納される。

文脈情報７０２には、文脈単語と当該文脈単語の出現頻度とが格納される。

図７では、例えば、"agriculture"の近傍には、”food”が１５回、”crop”が４回、”vegetable”が８回出現していることを示す。

素性ベクトル抽出サブプログラム１１２１は、図７に示す文脈行列１１６から、任意の２個の単語に相当するエントリの文脈情報７０２を取得し、取得した文脈情報７０２に含まれる文脈単語列に基づいて文脈ベース類似度を計算する。

文脈ベース類似度の計算方法には、タームベクトルモデルによる文書検索方法が使用できる。このタームベクトルモデルによる文書検索方法は、例えば、G. Salton and M. Lesk; "The SMART Automatic Document Retrieval System \- An Illustration" Comm. ACM, (6), 8, pp. 391-398, June 1965.に開示されている。

タームベクトルモデルによる文書検索方法を使用した文脈ベース類似度の計算方法の基本的な考え方について説明する。

図７において、"agriculture"及び"farming"からなる単語ペアの文脈情報７０２の文脈単語列には、"food"及び"vegetable"が共通して登録されている。一方、"agriculture"及び"telegraph"からなる単語ペアの文脈情報７０２の文脈単語列には共通して登録されている単語がない。

文脈行列１１６に登録された任意の単語ペアの文脈情報７０２の文脈単語列に共通して登録された単語の数（共通単語数）に基づいて、文脈ベース類似度が計算される。

ただし、共通単語数に基づいて文脈ベース類似度を計算する場合には、以下の点に注意する必要がある。

図７に文脈行列１１６には、各文脈単語列の頻度が登録される。文脈単語列の頻度が大きいほど、当該文脈単語列は見出し７０１に登録された単語の性質を表現する重要な単語であると考えられるため、文脈ベース類似度を計算する場合には、文脈単語列の頻度も考慮する必要がある。

一方で、一般的な単語は見出し７０１に登録されたいずれの単語の文脈にも出現しやすく、頻度も大きくなりがちである。したがって、文脈ベース類似度を計算する場合には、一般的な単語については頻度の影響を少なくし、特殊な単語については頻度の影響を多くすることが必要である。

そこで、各見出し７０１に対する文脈単語列の頻度及び文脈単語列の他の見出し７０１における頻度両方に基づいて、文脈単語列の重要度を算出する。この方法をｔｆ−ｉｄｆ法という。

次に、文字重複類似度及び類似意味素類似度について説明する。

これらの類似度は単語の文字情報に基づいて計算されるため、文脈ベース類似度に対して表記ベース類似度という。

まず、これらの類似度の計算方法の概略を説明した後、図８〜図１０を用いてこれらの類似度の計算方法を詳細に説明する。

文字重複類似度の概略について説明する。

日本語では、例えば、「コンピュータ」及び「コンピューター」のように表記が多少異なっていても同じ意味を示す単語（異表記語）がある。また、異表記語はカタカナで表記される単語に多いが、漢字で表記される単語にも、「分析」及び「解析」、並びに「信頼」及び「信用」のように異表記語が存在する。また、英語でも、”telephone”及び”phone”のように、異表記語は存在する。

このような単語では、非特許文献２に開示されているように、多くの文字が重複することから、二つの単語間で文字が重複する割合を類似度として使用できる。

そこで、素性ベクトル抽出サブプログラム１１２１は、単語ペアの単語間で重複する文字数に基づいて、類似度（文字重複類似度）を計算する。

次に、類似意味素類似度の概略について説明する。

漢字では、例えば、「慕（う）」及び「憧（れる）」のように、異なる文字であっても意味が類似する文字が存在する。また、英語では、上述した”agri”と”farm”のように、単語を構成する文字列の意味が類似する。

素性ベクトル抽出サブプログラム１１２１は、単語を構成する文字又は文字列（意味素）の類似度（意味素類似度）に基づいて、単語ペアの単語間の類似度（類似意味素類似度）を計算する。

文字重複類似度の計算方法の詳細について図８を用いて説明する。

文字重複類似度は種々の方法で計算できるが、本実施形態では、一例として、二つの単語間で共通に含まれる文字をカウントし、二つの単語のうち短い方の単語の文字列長で正規化することによって文字重複度を計算する方法について説明する。

なお、同じ文字が複数含まれている場合には、一方にｍ個、他方の単語にｎ個含まれている場合には、ｍ対ｎの対応関係となる。このような場合は、ｍ又はｎの小さい方の個数の文字が重複したものとする。

図８は、本発明の第１の実施形態の文字重複類似度計算処理のフローチャートである。

図８では、単語ｉ及び単語ｊの文字重複度を計算するものとする。

まず、素性ベクトル抽出サブプログラム１１２１は、単語ｉのすべての文字に対して、Ｓ１４１２〜１４１４を実行したか否かを判定する（Ｓ１４１１）。

Ｓ１４１１で、単語ｉのすべての文字に対してＳ１４１２〜Ｓ１４１４を実行していないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、単語ｊのすべての文字に対してＳ１４１３及びＳ１４１４を実行したか否かを判定する（Ｓ１４１２）。

Ｓ１４１２で、単語ｊのすべての文字に対してＳ１４１３及びＳ１４１４を実行したと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４１１に処理を移行する。

一方、Ｓ１４１２で、単語ｊのすべての文字に対してＳ１４１３及びＳ１４１４を実行してないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４１３及びＳ１４１４を未だ実行していない単語ｉのｍ番目の文字と、Ｓ１４１３及びＳ１４１４を未だ実行していない単語ｊのｎ番目の文字とが一致するか否かを判定する（Ｓ１４１３）。

Ｓ１４１３で単語ｉのｍ番目の文字と単語ｊのｎ番目の文字とが一致すると判定された場合、素性ベクトル抽出サブプログラム１１２１は、単語ｉのｍ番目の文字及び単語ｊのｎ番目の文字に一致したことを示すフラグを設定し（Ｓ１４１４）、Ｓ１４１２に処理を移行する。

一方、Ｓ１４１３で単語ｉのｍ番目の文字と単語ｊのｎ番目の文字とが一致しないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４１２に処理を移行する。

Ｓ１４１１で、単語ｉのすべての文字に対してＳ１４１２〜Ｓ１４１４を実行したと判定された場合、素性ベクトル抽出サブプログラム１１２１は、単語ｉ及び単語ｊのフラグが設定された文字数をカウントし、小さい文字数方の文字数を一致文字数とする（Ｓ１４１５）。

例えば、「ウインドウ」及び「ウィンドー」が処理対象である場合、「ウインドウ」では、一番目の「ウ」、「ン」、「ド」、及び四番目の「ウ」の４文字フラグが設定され、「ウィンドー」では、「ウ」、「ン」、及び「ド」の３文字にフラグが設定されるため、この場合、一致文字数は３となる。

そして、素性ベクトルサブプログラム１１２１は、Ｓ１４１５で算出された一致文字数に基づいて、文字重複類似度を算出する。文字重複類似度は一致文字数が大きいほど大きくなる。

上記した方法以外の文字重複類似度の計算方法を説明する。

二つの単語の語頭から連続して共通する文字数を一致文字数としてもよいし、二つの単語の語末から連続して共通する文字数を一致文字数としてもよい。

また、図８に示すＳ１４１５では、一致した文字数が小さい方の文字数を一致文字数としたが、一致した文字数が大きい方の一致文字数としてもよいし、一致した文字数が大きい方の文字数及び小さい方の文字数の平均を一致文字数としてもよい。

また、素性ベクトル抽出サブプログラム１１２１は、動的計画法（ＤＰマッチング）を用いて二つの単語を照合して一致文字数を求めてもよい。また、素性ベクトル抽出サブプログラム１１２１は、単語に含まれる文字のテキスト１１３内での出現頻度に基づいて、二つの単語間で文字が一致した場合の重み付けを変更してもよい。この場合、文書検索において単語の重みを計算する方法としてＩＤＦ（Inversed Document Frequency）が知られているが、同様の考え方で、出現頻度の高い文字の重要度は低いものとし、出現頻度の高い文字ほど重み付けを小さくする。

次に、類似意味素類似度の計算方法の詳細について図９を用いて説明する。

図９は、本発明の第１の実施形態の類似意味素類似度計算処理のフローチャートである。

類似意味素類似度計算処理は、テキスト１１３に含まれる単語から出現頻度の高い意味素を取得し意味素辞書を生成し、生成した意味素辞書に基づいて同義語辞書に登録された単語ペアの各単語を意味素に分割し、分割した意味素間の類似度を計算する処理である。

まず、素性ベクトル抽出サブプログラム１１２１は、テキスト１１３に含まれるすべての単語に対してＳ１４２２及びＳ１４２３を実行したか否かを判定する（Ｓ１４２１）。

Ｓ１４２１で、テキスト１１３に含まれるすべての単語に対してＳ１４２２及びＳ１４２３を実行していないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２２及びＳ１４２３が未だ実行されていない単語を処理対象の単語として取得し、取得した処理対象の単語からＮ−ｇｒａｍを取得する（Ｓ１４２２）。

Ｎ−ｇｒａｍは、処理対象の単語を文字数（２〜Ｎ（Ｎは予め設定された上限値））の連続した文字列に分割した文字をいう。

例えば、素性ベクトル抽出サブプログラム１１２１が”agriculture”からＮ−ｇｒａｍ（例えば、上限値Ｎが４）を取得する場合について説明する。

まず、素性ベクトル抽出サブプログラム１１２１は、２−ｇｒａｍとして、”ag”、”gr”、”ri”、”ic”、”cu”、及び”ul”等を取得する。次に、素性ベクトル抽出サブプログラム１１２１は、３−ｇｒａｍとして、”agr”、”gri”、”ric”、”icu”、”cul”、及び”ult”等を取得する。さらに、素性ベクトル抽出サブプログラム１１２１は、４−ｇｒａｍとして、”agri”、”gric”、及び”ricu”等を取得する。

Ｓ１４２２で取得されたＮ−Ｇｒａｍは、意味素の候補となる。

次に、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２２で取得したすべてのＮ−ｇｒａｍの出現回数をカウントし（Ｓ１４２３）、Ｓ１４２１に処理を移行する。

Ｓ１４２１で、テキスト１１３に含まれるすべての単語に対してＳ１４２２及びＳ１４２３を実行したと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２３で集計された出現頻度が所定値以上のＮ−ｇｒａｍを意味素として抽出して（Ｓ１４２４）、意味素辞書を生成する。

次に、素性ベクトル抽出サブプログラム１１２１は、同義語辞書１１４１に登録されたすべての単語ペア（同義語単語ペア）に対してＳ１４２６〜Ｓ１４２８を実行したか否かを判定する（Ｓ１４２５）。

Ｓ１４２５で、同義語辞書１１４１に登録されたすべての単語ペアに対してＳ１４２６〜Ｓ１４２８を実行していないと判定された場合、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２６〜Ｓ１４２８を未だ実行していない同義語単語ペアを処理対象として取得し、Ｓ１４２４で生成された意味素辞書を参照し、取得した同義語単語ペアに含まれる単語（単語Ａ及び単語Ｂとする）を意味素に分割する（Ｓ１４２６）。

例えば、同義語単語ペアに含まれる単語が”agriculture”である場合を例にＳ１４２６を説明する。

まず、素性ベクトル抽出サブプログラム１１２１は、”agriculture”の先頭から意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”agri”が登録されているので、”agriculture”は”agri”の直後で分割される。

次に、素性ベクトル抽出サブプログラム１１２１は、”agriculture”の分割された直後の文字から再度、意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”cult”が登録されているので、”agriculture”は”cult”の直後で単語が分割される。

次に、素性ベクトル抽出サブプログラム１１２１は、”agriculture”の”cult”の直後の文字から、意味素辞書に登録される意味素と連続して一致する文字列のうち、最も長い文字列を取り出す。ここでは、意味素辞書に”ure”が登録されていることので、”agriculture”は、”agri”、”cult”、及び”ure”に分割される。

素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２６で分割された単語Ａの意味素と単語Ｂの意味素との組み合わせである意味素ペアを生成する（Ｓ１４２７）。

例えば、単語Ａが”agriculture”で、単語Ｂが”farming”であり、単語Ａは意味素”agri”と意味素”culture”とに分割され、単語Ｂは意味素”farm”と意味素”ing”とに分割された場合、Ｓ１４２７では、<”agri”，”farm”>、<”agri”，”ing”>、<”culture”，”farm”>、及び<”culture”，”ing”>という四つの意味素ペアが生成される。

次に、素性ベクトル抽出サブプログラム１１２１は、Ｓ１４２７で生成された意味素ペアの同義語辞書１１４１内での出現頻度を集計し（Ｓ１４２８）、Ｓ１４２５に処理を移行する。

具体的には、素性ベクトル抽出サブプログラム１１２１は、同義語辞書１１４１に登録された単語における意味素ペアに含まれる各意味素の出現頻度、及び同義語辞書１１４１に同義語として登録された単語ペアに単語ペアにおける意味素ペアの出現頻度を集計する。

例えば、上述した意味素ペア<”agri”，”farm”>であれば、”agri”及び”farm”の同義語辞書１１４１内での出現頻度、及び、同義語辞書１１４１で同義語として登録されている単語ペアにおける<”agri”，”farm”>の出現頻度が集計される。

Ｓ１４２５で、同義語辞書１１４１に登録されたすべての単語ペアに対してＳ１４２６〜Ｓ１４２８を実行したと判定された場合、素性ベクトル抽出サブベクトル１１２１は、Ｓ１４２７で集計された出現頻度に基づいて、各意味素ペアの意味素類似度を計算し（Ｓ１４２９）、図１０に示す意味素類似度テーブル１１８を生成し、類似意味素類似度計算処理を終了する。

Ｓ１４２９で意味素類似度を計算する場合、素性ベクトル抽出サブプログラム１１２１は、種々の統計量を類似度として使用できるが、本実施形態では一例としてＤｉｃｅ測度を使用する。

例えば、意味素ペア<”agri”，”farm”>の意味素類似度を計算する場合、Ｓ１４２７で”agri”が１０回集計され、”farm”が１５回集計され、<”agri”，”farm”>が５回集計されていれば、素性ベクトル抽出サブプログラム１１２１は、意味素類似度を５÷（１０×１５）によって計算する。

意味素類似度テーブル１１８について図１０を用いて説明する。図１０は、本発明の第１の実施形態の意味素類似度テーブル１１８の説明図である。

意味素類似度テーブル１１８は、見出し１００１、類似意味素１００２、及び意味素類似度１００３を含む。

見出し１００１には、同義語単語ペアから抽出された意味素ペアの一方の意味素が登録される。類似意味素１００２には、同義語単語ペアから抽出された意味素ペアの他方の意味素が登録される。意味素類似度１００３には、同義語単語ペアから抽出された意味素ペアの類似度が登録される。

意味素類似度に基づく単語ペアの類似度計算は、未知の単語ペアに対し、個々の単語を上記と同様に意味素に分割し、類似意味素が含まれているかどうかを探索し、含まれている場合には意味素似度を加算する、といった方法で行うことができる。

以上のように、本実施形態では、同義語辞書１１４１に登録された同義語ペアに含まれる単語を意味素に分割し、分割した意味素間の意味素類似度を計算し、意味素類似度を用いてテキスト１１３に含まれる単語の類似文字重複度を計算し、類似文字重複度に基づいて同義語を抽出する。

ここで、文脈ベース類似度及び文字重複度のみを使用する従来の同義語抽出結果と、文脈ベース類似度、文字重複度、及び類似度文字重複度を使用する同義語抽出結果とを比較する。この比較結果を図１１に示す。

図１１は、本発明の第１の実施形態による同義語抽出と従来技術による同義語抽出との比較結果の説明図である。

図１１の比較結果の処理対象となるテキスト１１３として、約５００ＭＢ程度の英語のテキストからなる特許文書を使用した。

また、図１１では、比較結果の評価指標として平均適合率を使用した。平均適合率は、文書検索の精度を評価する場合において通常使用される尺度であり、適合率(ノイズの少なさを示す尺度)及び再現率(漏れの少なさを示す尺度)を総合的に判断するための尺度である。

ここで、適合率と再現率は、通常トレードオフの関係にあり、ある同義語抽出方法においてパラメータを変化させると、適合率及び再現率の一方が向上し、他方が低下する。例えば、ある同義語抽出方法において、抽出する同義語候補数が増加するようにパラメータを変化させると、再現率は向上するが、適合率は悪化する。

二つの同義語抽出方法を比較する場合において、両者の適合率の値は再現率の値次第で変動するため、両者の適合率のみを比較しても無意味である。このため、図１１では、再現率が１０％、２０％、及び３０％のように変化させ、各再現率における両者の適合率を取得し、取得した適合率の平均値を算出している。これによって両者の同義語抽出結果を正確に比較できる。

図１１の＃１は、非特許文献１に開示された文脈ベース類似度及び非特許文献４に開示された文字重複度を非特許文献３に開示された方法によって統合した同義語抽出方法による平均適合率を示す。また、図１１の＃２は、＃１の類似度に類似意味素類似度を統合した同義語抽出方法による平均適合率を示す。

図１１では、＃１の平均適合率は６６．７６％であり、＃２の平均適合率は７５．８３％であるため、本実施形態が、従来の同義語抽出方法よりも正確に同義語を抽出できることが把握できる。

以上のように、本実施形態によれば、同義語辞書１１４１に登録されていない同義語を正確に抽出できる。

また、本実施形態では、単語意味関係抽出装置１００に同義語辞書１１４１が保持され、同義語辞書１１４１に同義語として登録された単語から意味素を抽出し、当該意味素の類似度を計算したが、同じ言語の単語意味関係が登録されている辞書であれば、同義語辞書１１４１以外にも適用可能である。例えば、同じ言語の単語意味関係が登録されている辞書としては、類義語が登録されるシソーラス辞書がある。

また、本実施形態では、文脈ベース類似度と表記ベース類似度とを統合して使用する例を示したが、次のような使い方をすることもできる。

教師データ(本実施形態では同義語辞書)のサイズが小さい場合、教師なしデータを用いてブートストラップ的に学習を行う方法としてco-trainingと呼ばれる半教師あり学習技術が知られている。co-trainingについては、Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training, COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.に開示されているため詳細は省略するが、半教師あり学習において、各事例を表現する素性の集合を、全く独立な2種類の素性の集合に分割できる場合に、高い精度が達成できる技術である。半教師あり学習は、教師データを用いた学習によって得られたモデルを未知データに適用し、得られたラベルの中から特に信頼度が高いものを正解であると仮定し、教師データに追加することで教師データ数を増やす、というサイクルを繰り返すブートストラップ型の学習方式である。co-trainingは、2種類の素性集合を交互に使用することで、安定的にブートストラップ学習が進むことが知られているが、全く独立な2種類の素性集合を得ることが難しく、素性集合間の独立性が低くなるにつれ、精度向上の効果が低下するという問題があった。本実施形態では、文脈ベース類似度と表記ベース類似度という全く独立な素性集合を得ることができるため、両者を統合して使用するのではなく、co-trainingを用いて交互に使用することで教師データが小さい場合にも高い精度を得ることが可能となる効果を得ることができる。

（第２の実施形態）
以下、本発明の第２の実施形態を図１２及び図１３を用いて説明する。

第２の実施形態の単語関係抽出装置は、異なる言語間の対訳関係を単語関係として抽出する。対訳関係は、同義語関係を異なる言語の単語間に拡張したものであるため、第１の実施形態と同様の方法によって対訳関係を抽出できる。

本実施形態では、第１の実施形態と同じく、図１に示す単語意味関係抽出装置１００を用いる。

第１の実施形態の単語意味関係抽出装置１００は、対訳辞書１１４２を使用せずに同義語辞書１１４１を使用するが、本実施形態の単語意味関係抽出装置１００は、同義語辞書１１４１を使用せずに対訳辞書１１４２を使用する。

図１２は、本発明の第２の実施形態の対訳辞書１１４２の説明図である。

対訳辞書１１４２は、同義語辞書１１４１と同じデータ形式であり、図６に示す同義語辞書１１４１の同義語６０２の代わりに訳語１２０２を含む。

対訳辞書１１４２は、見出し１２０１及び訳語１２０２を含む。見出し１２０１には、対訳関係となる単語ペアの第１の言語からなる単語が登録される。訳語１２０２には、対訳関係となる単語ペアの第２の言語からなる単語が登録される。

図１３は、本発明の第２の実施形態の類似度行列１１５の説明図である。

類似度行列１１５は、単語ペア１３０１、素性Ａ５０２Ａ〜素性Ｎ５０２Ｎ、ラベル５０３、及び判定結果５０４を含む。

素性Ａ５０２Ａ〜素性Ｎ５０２Ｎ、ラベル５０３、及び判定結果５０４は、第１の実施形態の図５に示す類似度行列１１５と同じであるので、説明を省略する。

第１の実施形態の図５に示す類似度行列１１５の単語ペア５０１には、同一の言語からなる単語ペアが登録されていたが、単語ペア１３０１には、第１の言語からなる単語と第２の言語からなる単語とを含む単語ペアが登録される。

次に、本実施形態の単語意味関係抽出処理について説明する。本実施形態の単語意味関係抽出処理は、単語ペアの抽出処理、及び図４に示すＳ１４の詳細以外は同じである。

本実施形態の単語ペアの抽出処理について説明する。

本実施形態では、処理対象のテキスト１１３として、第１言語のテキスト１１３及び第２言語のテキスト１１３が単語意味関係抽出プログラム１１２に入力される。

単語意味関係抽出プログラム１１２は、第１言語のテキスト１１３に含まれる単語と第２言語のテキスト１１３に含まれる単語との組み合わせである単語ペアを抽出する。具体的には、単語意味関係抽出プログラム１１２は、第１言語のテキスト１１３を形態素解析して単語リストを生成し、第２言語のテキスト１１３を形態素解析して単語リストを生成する。

そして、単語意味関係抽出プログラム１１２は、第１言語のテキスト１１３の単語リストに含まれる単語と第２言語のテキスト１１３に含まれる単語とのすべての組み合わせを単語ペアとして抽出する。

次に、Ｓ１４について説明する。

本実施形態のＳ１４では、第１の実施形態と同じく、文脈ベース類似度、文字重複類似度、及び類似意味素類似度を計算するが、本実施形態では対訳関係にある単語ペアを抽出するため、各種類似度の計算方法が第１実施形態と異なる。

まず、文脈ベース類似度の計算方法について説明する。

本実施形態の場合、単語ペアを構成する二つの単語は異なる言語である。以下では、一方の単語が日本語、他方の単語が英語である場合を想定して説明する。

単語ペアを構成する二つの単語が異なる言語であるので、単語の文脈も異なる言語となり、作成される文脈行列１１６の文脈単語列に登録される単語も異なる言語となる。

このため、素性ベクトル抽出サブプログラム１１２１は、単語ペアの文脈ベース類似度を計算する場合に、単語ペアの文脈単語列にどの単語が共通して登録されているかを特定できない。

そこで、素性ベクトル抽出サブプログラム１１２１は、対訳辞書１１４２を参照し、単語ペアの一方の単語の文脈単語列に登録されている単語と、単語ペアの他方の単語の文脈単語列に登録されている単語とが対訳関係であれば、当該単語は共通して文脈単語列に登録されているものとする。

これによって、素性ベクトル抽出サブプログラム１１２１は、第１実施形態と同じく、共通単語数に基づいて文脈ベース類似度を計算できる。

次に、文字重複類似度の計算方法について説明する。

カタカナで表記される外来語は、発音に基づいて当該外来語の対訳関係にある単語を推定する技術が知られている。この技術は、Transliterationといい、例えば、K. Knight and J. Graehl: Machine Transliteration, Computational Linguistics, 24(4), pp. 599-612, 1998.等に開示されている。

単純な例を挙げて文字重複類似度の計算方法を説明する。

まず、“ｃｏ”は「コ」と、“ｍ”は「ン」又は「ム」、“ｐｕ”は「プ」又は「ピュ」と表記されることを示す表記情報が単語意味関係抽出装置１００に予め登録される。素性ベクトル抽出サブプログラム１１２１は、表記情報を参照し、“computer”から「コムプタ」、「コンプタ」、「コンピュタ」のような表記候補を生成する。そして、素性ベクトル抽出サブプログラム１１２１は、生成された表記候補と日本語単語の文字列とを第１の実施形態の図８に示す方法で比較することによって文字重複類似度を計算できる。

このため、上述した文字重複類似度の計算方法は、第１の実施形態の文字重複度の計算方法を多言語に拡張したものであるといえる。

次に、類似意味素類似度の計算方法について説明する。

第１実施形態では、素性ベクトル抽出サブプログラム１１２１は、所定のデータに含まれる単語からＮ−ｇｒａｍを抽出し、抽出したＮ−ｇｒａｍの出現頻度に基づいて意味素辞書を生成する。そして、素性ベクトル抽出サブプログラム１１２１は、同義語辞書１１４１に同義語として登録された単語ペアを意味素辞書に基づいて意味素に分割し、分割した意味素の組み合わせである意味素ペアの類似度を意味素類似度として計算する。

本実施形態では、素性ベクトル抽出サブプログラム１１２１は、同じ言語のデータに含まれる単語から、第１実施形態と同じ方法で意味素辞書を生成する。そして、素性ベクトル抽出サブプログラム１１２１は、対訳辞書１１４２に対訳として登録された単語ペアを意味素辞書に基づいて意味素に分割し、分割した意味素の組み合わせである意味素ペアの類似度を意味素類似度として計算する。

なお、一方の言語が表意文字を使用する言語であれば、一文字が意味素であるので、当該言語のデータから意味素辞書を作成する必要はない。

１００単語意味関係抽出装置
１０１ＣＰＵ
１０２主メモリ
１０３入出力装置
１１０ディスク装置
１１１ＯＳ
１１２単語意味関係抽出プログラム
１１２１素性ベクトル抽出サブプログラム
１１２２正解ラベル設定サブプログラム
１１２３識別モデル学習サブプログラム
１１２４識別モデル適用サブプログラム
１１３テキスト
１１４１同義語辞書
１１４２対訳辞書
１１５類似度行列
１１６文脈行列
１１７識別モデル
１１８意味素類似度テーブル

Claims

プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置において、
前記単語意味関係抽出装置に備わるメモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出部と、
前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出部と、
前記メモリに記憶された前記意味素類似度情報の意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出部と、
前記メモリに記憶された前記単語ペア類似度情報の単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定部と、を備えることを特徴とする単語意味関係抽出装置。
前記意味素抽出部は、
前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得部と、
前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計部と、
前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出部と、
前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶部と、を備え、
前記メモリに記憶された意味素辞書を参照して、前記メモリに記憶された単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項１に記載の単語意味関係抽出装置。
前記単語ペア類似度算出部は、
前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計部と、
前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出部と、
前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出部と、を備えることを特徴とする請求項１に記載の単語意味関係抽出装置。
前記単語意味関係判定部は、
前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定部と、
前記ラベル設定部によって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習部と、を備え、
前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項１に記載の単語意味関係抽出装置。
前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項１に記載の単語意味関係抽出装置。
前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項１に記載の単語意味関係抽出装置。
プロセッサと、前記プロセッサに接続されるメモリと、を備え、前記プロセッサが所定のプログラムを実行することよって、データに含まれる単語から、二つの単語によって構成される単語ペアを抽出し、抽出された単語ペアの単語意味関係を判定する単語意味関係抽出装置による単語意味関係抽出方法において、
前記メモリには、同じ単語意味関係にある単語ペアを示す単語意味関係単語ペアが予め登録された単語意味関係辞書が記憶され、
前記方法は、
前記単語意味関係辞書に登録された単語意味関係単語ペアの単語から複数の文字からなる意味素を抽出する意味素抽出ステップと、
前記単語意味関係単語ペアの単語の意味素間の類似度を算出し、前記算出した意味素間の類似度を意味素類似度情報として前記メモリに記憶する意味素類似度算出ステップと、
前記メモリに記憶された前記意味素類似度情報意味素間の類似度に基づいて、前記データから抽出された単語ペアの類似度を算出し、前記算出した単語ペアの類似度を単語ペア類似度情報として前記メモリに記憶する単語ペア類似度算出ステップと、
前記単語ペア類似度算出ステップによって算出された単語ペアの類似度に基づいて、当該単語ペアの単語意味関係を判定する単語意味関係判定ステップと、を含むことを特徴とする単語意味関係抽出方法。
前記意味素抽出ステップは、
前記データに含まれる単語から所定の文字数分の文字列を取得する文字列取得ステップと、
前記文字列取得部によって取得された文字列の前記データにおける出現頻度を集計する出現頻度集計ステップと、
前記出現頻度集計部によって出現頻度が所定値以上である文字列を意味素として抽出する単語ペア意味素抽出ステップと、
前記単語ペア意味素抽出部によって抽出された意味素を意味素辞書として、前記メモリに記憶する意味素辞書記憶ステップと、を含み、
前記メモリに記憶された意味素辞書を参照して、前記単語意味関係辞書に登録された単語意味関係単語ペアを構成する単語から前記意味素を抽出することを特徴とする請求項７に記載の単語意味関係抽出方法。
前記単語ペア類似度算出ステップは、
前記データに含まれる単語の前後所定の文字数以内に出現する単語である文脈単語の出現頻度を集計する文脈単語出現頻度集計ステップと、
前記データから抽出された単語ペアの単語で集計された前記文脈単語の出現頻度に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する文脈類似度算出ステップと、
前記データから抽出された単語ペアの二つの単語間で重複する文字数に基づいて、当該単語ペアの類似度を算出し、前記算出した単語ペアの類似度を前記単語ペア類似度情報として前記メモリに記憶する重複類似度算出ステップと、を備えることを特徴とする請求項７に記載の単語意味関係抽出方法。
前記単語意味関係判定ステップは、
前記データから抽出された単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されている場合、当該単語ペアが同じ単語意味関係にある旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定し、当該単語ペアが前記単語意味関係辞書に同じ単語意味関係として登録されていない場合、当該単語ペアが同じ単語意味関係にない旨のラベルを、当該単語ペアに対応する前記単語ペア類似度情報に設定するラベル設定ステップと、
前記ラベル設定ステップによって単語ペアの前記単語ペア類似度情報に設定されたラベル、及び前記ラベルが設定された単語ペアの類似度に基づいて、前記単語意味関係を判定するための単語意味関係判定ルールを学習し、前記学習した単語意味関係判定ルールを前記メモリに記憶する単語意味関係判定ルール学習ステップと、を含み、
前記メモリに記憶された単語意味関係判定ルールに基づいて、前記単語ペアの単語意味関係を判定することを特徴とする請求項７に記載の単語意味関係抽出方法。
前記単語意味関係は、前記単語ペアが同義語であるか否かの関係であることを特徴とする請求項７に記載の単語意味関係抽出方法。
前記単語意味関係は、前記単語ペアが対訳関係にあるか否かの関係であることを特徴とする請求項７に記載の単語意味関係抽出方法。