JP2011118526A

JP2011118526A - 単語意味関係抽出装置

Info

Publication number: JP2011118526A
Application number: JP2009273560A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本; Makoto Iwayama; 真岩山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-12-01
Filing date: 2009-12-01
Publication date: 2011-06-16
Anticipated expiration: 2029-12-01
Also published as: JP5356197B2

Abstract

【課題】同義語辞書等の既存の辞書を用いて、テキストデータからの単語意味関係抽出を高精度に行う。
【解決手段】テキスト中の任意の単語ペアについて、複数種類の類似度を計算し、各類似度を要素とする素性ベクトルを生成する。各単語ペアに同義語辞書に基づいて同義語であるかどうかのラベルを付与し、素性ベクトルとラベルから分類器を学習し、学習した分類器によって２つの単語が同義語かどうかの識別を行う。
【選択図】図２Ａ

Description

本発明は、テキスト中から、単語間の意味的な関係を抽出する技術に関し、特に同義語、上位・下位語、兄弟語、対訳語などの単語意味関係を抽出する技術に関する。

パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書の量が増大している。このような大規模な文書情報の中から、所望の文書を効率的に発見するための技術の一つに文書検索技術がある。文書検索技術によれば、入力されたキーワードを含む文書を発見することで、ユーザが所望の文書を効率的に入手することができる。しかしながら、単純な文字列の検索だけでは不十分な場合も多い。未解決の問題の一つに同義語の問題がある。すなわち、同じ意味を表現する複数の単語が存在するために、同じ意味を表す文書が単純な文字列検索では発見できず、検索漏れが発生する場合がある。このような同義語の問題に対処するために、同義語辞書を検索システムに持たせることが従来から行われている。

同義語辞書の人手作成には大きなコストが必要であるため、同義語辞書をテキストデータから自動で作成することが従来から試みられている。同義語辞書を作成するための方法の一つとして、単語の出現文脈、すなわち着目している単語の近傍に現れる単語や文字列に着目する方法がある。非特許文献１に、出現文脈に基づく文脈ベース同義語抽出技術が開示されている。また、同義語の中で特に表記揺れを扱うための方法がある。非特許文献２に、発音に関する規則に基づいて、カタカナ表記の表記揺れを検出する表記ベース同義語抽出技術が開示されている。また、近年のＷｅｂ及びＷｅｂ文書のサーチエンジンの普及にともなって、サーチエンジンを利用した単語意味関係抽出技術が提案されている。サーチエンジンを利用するアプローチでは、事前に単語の出現文脈を計算することができない。そのため、検索式においてクエリをアンドで投入することで共起頻度を取得し、共起頻度に基づく統計量によって同義語を抽出する方式が提案されている。非特許文献３に、サーチエンジンに基づく共起ベース同義語抽出技術が開示されている。また、「ＡやＢなどのＣ」のような同義語、あるいは上位・下位語であることを明示的に示す同義語パターンを用いる同義語抽出技術も存在する。非特許文献４には、単語のパターンを用いることによるパターンベース同義語抽出技術が開示されている。また、単語間の意味関係の一つとして対訳関係がある。対訳関係は、同義語関係を多言語に拡張したものとみなすことができる。非特許文献５に、対訳関係を自動的に抽出する技術が開示されている。本技術は、文脈ベース同義語抽出技術を多言語に拡張したものである。

以上の同義語抽出技術は、教師なし学習、すなわち人手によって付与された正解を用いないタイプの学習技術によっている。教師なし学習では正解を作成する必要がないため、人手のコストが低いことが利点である。しかしながら、以下のような課題が存在する。

現在では人手で作成された大規模な辞書が広く利用可能となっている。既存の同義語辞書、シソーラス辞書、対訳辞書は、高いコストを掛けて整備してきた価値のある資源であり、可能な限り有効に活用する必要がある。教師なし学習による単語意味関係抽出技術では、このような人手作成辞書の存在を想定しておらず、また人手作成辞書が存在してもこれを利用して精度を向上することができない。

以上のような課題を解決する方法として、教師あり学習による同義語抽出方法が非特許文献６に開示されている。非特許文献６では、人手によって作成された同義語辞書を正解として、教師あり学習によって同義語抽出を行う。具体的には、後述する単語の文脈に基づいて単語の意味を表現し、正解である同義語辞書を用いることによって学習を行い、同義語を抽出する。

相澤：「大規模テキストコーパスを用いた語の類似度計算に関する考察」情報処理学会論文誌，vol. 49-3, pp. 1426-1436 (2008). 久保田他：カタカナ表記の統一方式予備分類とグラフ比較によるカタカナ表記のゆらぎ検出法，情報処理学会自然言語処理研究会報告，NL97-16,pp.111-117,1993. P. Turney. 2001. Mining the web for synonyms: PMI-IR versus LSA on TOEFL. ECML 2001, 491-502. M. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the 14th International Conference on Computational Linguistics (COLING-92), pp. 539-545, 1992. Hiroyuki Kaji and Toshiko Aizono, "Extracting word correspondences from bilingual corpora based on word co-occurrence information," Proceedings of the 16th International Conference on Computational Linguistics, pp.23-28, 1996. Masato Hagiwara: A Supervised Learning Approach to Automatic Synonym Identification based on Distributional Features, Proc. of ACL 2008 Student Research Workshop, pp. 1-6, 2008.

本発明の目的は、従来技術より高精度な単語意味関係抽出技術を実現することである。教師あり学習のアプローチでは、上記の課題が解決されている一方で、教師あり学習独自の課題が存在する。最大の課題は、教師なし学習の先行研究において蓄積されている知見が活用されていない点である。例えば、非特許文献６では、単語ペアと共起する任意の単語全てを素性として用いており、文脈の分布全体に関する類似度そのものを教師データから学習しようとしている。しかしながら、文脈の分布の類似度に関しては、非特許文献１に開示されているような様々な提案・改良が行われている。このような知見を取り込みつつ、教師あり学習を適用することが必要である。

また、非特許文献６では、構文解析結果を利用した文脈ベース類似度に基づく同義語抽出技術が開示されているが、教師なし学習による同義語抽出技術で数多く検討されてきた、様々なアプローチについては検討がなされていない。教師なし学習における過去のアプローチは、それぞれ長所・短所を備えている。例えば、非特許文献３に開示されている表記ベース方式は、カタカナの異表記語のような特定の種類の同義語しか抽出できない。非特許文献４に開示されているパターン方式は、任意のタイプの同義語を比較的高精度に抽出可能であるが、カバレジが低く、必要な同義語を全て抽出することが難しい。文脈ベース類似度は、抽出できる同義語のタイプに関してはオールマイティであり、広い範囲の同義語をカバーすることができるが、表記ベース、パターンベース方式に比べると適合率は低い。これらの方式を統合することが、精度向上には不可欠である。

本発明は、以上の課題を解決するためになされたものであり、既存の同義語辞書、シソーラス辞書を活用すると同時に、複数のアプローチを統合し、かつ適切な閾値を設定可能である単語意味関係抽出方式を提供することを目的とする。

本発明の単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、を備える。

単語意味関係の一例は、単語の組の２つの単語が同義語か否かの関係であり、このとき既知の辞書としては、見出し語とその同義語とを格納した同義語辞書を用いる。

単語意味関係の他の例は、単語の組の２つの単語が同義語であるか、上位・下位関係にあるか、兄弟語関係にあるか、あるいはそのいずれでもないかであり、このとき既知の辞書には、見出し語とその同義語、上位・下位語、あるいは兄弟語を格納したシソーラス辞書を用いる。

単語意味関係の別の例は、単語の組の２つの単語の対訳関係であり、このときには既知の辞書として、見出し語とその訳語とを格納した対訳辞書を用いる。

本発明の単語意味関係抽出装置は、プロセッサ、メモリ及びインタフェースを備える計算機システムによって実現可能である。

素性ベクトルの要素となる単語の組の類似度は、種々の方法で求めることができる。一例としては、テキストから単語（処理対象単語）とその文脈となる単語（文脈単語）の組を抽出し、抽出した結果を集約して得られる文脈行列を用いて文脈ベース類似度を計算する方法である。他の例は、テキスト中の任意の単語の組の文字の重複度合いに基づいて文字重複度を計算し、それを基に単語の組の類似度を計算する方法である。あるいは、テキスト中の任意の単語の組の文字の類似度合いに基づいて単語の組の類似度を計算してもよい。更に別の例は、テキスト中の任意の単語の組について、同時に出現した頻度を示す共起頻度を抽出し、抽出した結果に基づいて共起類似度を計算する方法である。

本発明の代表的な形態によれば、人手作成による同義語辞書・シソーラス辞書・対訳辞書などの付加的な情報源を教師データとして用いると同時に、複数アプローチによって得られる異なるタイプの類似度を統合することにより、従来と比較して高精度な単語意味関係抽出を行うことが可能となる。

本発明による計算機システムの構成例を示すブロック図である。単語意味関係抽出プログラム、辞書、各種テーブルやファイルの間の関係を示した図である。本発明の計算機システムにおける処理の流れを示したシーケンス図である。類似度行列の説明図である。単語意味関係抽出処理のフローチャートである。同義語辞書の説明図である。シソーラス辞書の説明図である。同義語識別の概念的な説明図である。ユーザに提示される画面の説明図である。文脈行列の説明図である。文脈行列の説明図である。文脈抽出処理のフローチャートである。形態素解析結果の説明図である。文脈パターンの説明図である。文字重複度計算処理のフローチャートである。文字類似度計算処理のフローチャートである。文字類似度テーブルの説明図である。共起頻度テーブルの説明図である。単語頻度テーブルの説明図である。共起類似度テーブルの説明図である。本発明の単語意味関係抽出装置の効果を示す実験結果の説明図である。類似度行列の説明図である。ユーザに提示される画面の説明図である。対訳辞書の説明図である。類似度行列の説明図である。文脈行列の説明図である。文脈行列の説明図である。

以下、図面を参照して本発明の実施の形態を説明する。
［第１の実施の形態］
第１の実施の形態として、単語意味関係として同義語関係にある単語ペアを抽出するための同義語抽出装置について説明する。図１は、本発明を実現する計算機システムの構成例を示すブロック図である。図１に示した計算機システムは、本発明の第１の実施の形態に用いられると共に、本発明の第２及び第３の実施の形態にも共通して用いられる。なお、実施の形態によっては使用されない機能も含んでいる。

単語意味関係抽出装置１００は、ＣＰＵ１０１、主メモリ１０２、入出力装置１０３及びディスク装置１１０を備える。ＣＰＵ１０１は、主メモリ１０２に記憶されるプログラムを実行することによって各種処理を行う。具体的には、ＣＰＵ１０１は、ディスク装置１１０に記憶されるプログラムを、主メモリ１０２上に呼び出して実行する。主メモリ１０２は、ＣＰＵ１０１によって実行されるプログラム及びＣＰＵ１０１によって必要とされる情報等を記憶する。入出力装置１０３には、ユーザから情報が入力される。また、入出力装置１０３は、ＣＰＵ１０１の指示に応じて、情報を出力する。例えば、入出力装置１０３は、キーボード、マウス及びディスプレイのうち少なくとも一つを含む。

ディスク装置１１０は、各種情報を記憶する。具体的には、ディスク装置１１０は、ＯＳ１１１、単語意味関係抽出プログラム１１２、テキスト１１３、人手作成辞書１１４、類似度行列１１５、文脈行列１１６、品詞パターン１１７、共起類似度テーブル１１８、識別モデル１１９、文字類似度テーブル１２０を記憶する。

ＯＳ１１１は、単語意味関係抽出装置１００の処理の全体を制御する。人手作成辞書１１４は、人手によって作成された各種辞書であり、同義語辞書１１４１、シソーラス辞書１１４２、対訳辞書１１４３を含む。同義語辞書１１４は、人手によって作成された同義語が格納された辞書である。シソーラス辞書１１５は、人手によって作成された同義語及び上位・下位語が格納された辞書である。

単語意味関係抽出プログラム１１２は、テキスト１１３及び同義語辞書１１４１あるいはシソーラス辞書１１４２から単語意味関係を抽出するプログラムであり、素性ベクトル抽出サブプログラム１１２１、正解ラベル設定サブプログラム１１２２、識別モデル学習サブプログラム１１２３、識別モデル適用サブプログラム１１２４からなる。

テキスト１１３は、単語意味関係抽出プログラム１１２への入力となるテキストであり、特別な形式である必要はない。ＨＴＭＬ文書、ＸＭＬ文書等のタグを含む文書の場合は、タグを除去する前処理を施すことが望ましいが、タグが含まれた状態でも処理は可能である。

類似度行列１１５は、テキスト及び同義語辞書から抽出された単語ペアに関する素性ベクトル、同義語かどうかを示すラベル等を格納した行列である。文脈行列１１６は、文脈ベース類似度を計算するために必要な単語の文脈情報を格納した行列である。品詞パターン１１７は、文脈ベース類似度を計算するために必要な単語の文脈情報をテキストから抽出するために用いられるデータである。共起類似度テーブル１１８は、単語の共起に基づいて計算された共起ベース類似度を格納したテーブルである。識別モデル１１９は、類似度行列から学習された、単語ペアが同義語であるかどうかを識別するためのモデルである。文字類似度テーブル１２０は、意味が類似した文字間の関係を格納するテーブルである。

図２Ａは、図１に示した単語意味関係抽出プログラム、辞書、各種テーブルやファイルの間の関係を示した図である。素性ベクトル抽出サブプログラム１１２１は、テキスト１１３を読み込んでテキスト中の全ての単語を抽出し、任意の単語の組に対して各種の類似度を計算し、類似度行列１１５として出力する。その際に必要な情報である文脈行列１１６、共起類似度テーブル１１８等の情報を事前に作成しておく。なお、第１の実施の形態では、テキストは同一の言語の文書、例えば日本語の文書からなることを想定している。ただし、一部に英語の文書が含まれていたとしても、無駄な処理が発生する以外の問題はない。品詞パターン１１７は、文脈行列１１６の作成に用いられる。正解ラベル設定サブプログラム１１２２は、同義語辞書１１４１やシソーラス辞書１１４２、対訳辞書１１４３を正解データとして読み込み、類似度行列１１５中の各単語ペアに正解、すなわち同義語であるかどうかを示すラベルを設定する。識別モデル学習サブプログラム１１２３は、類似度行列１１５を読み込み、単語ペアが同義語かどうかを識別するための識別モデル１１９を学習する。識別モデル適用サブプログラム１１２４は、識別モデル１１９を読み込み、類似度行列１１５中の単語ペアに対し、同義語かどうかの判定結果を付与する。

図２Ｂは、本発明の計算機システムにおける処理の流れを示したシーケンス図である。まずＯＳがディスク装置から主メモリにロードされ、ユーザの入力等を待つ状態になる。ユーザによる単語意味関係抽出プログラムの実行の指示によって処理が開始される。まず、素性ベクトル抽出サブプログラムが主メモリにロードされ、素性ベクトル抽出サブプログラムは、テキストを読み込んでテキスト中の全ての単語を抽出し、品詞パターンを用いて、文脈行列作成を作成する。次に、形態素解析結果から得られる単語と人手作成辞書によって文字類似度テーブルを作成する。次に、形態素解析結果から共起類似度テーブルを作成する。そして、各種類似度からなる類似度行列を作成する。なお、第１の実施例では、テキストは同一の言語の文書、例えば日本語の文書からなることを想定している。ただし、一部に英語の文書が含まれていたとしても、無駄な処理が発生する以外の問題はない。

正解ラベル設定サブプログラムは、人手作成辞書を正解データとして読み込み、類似度行列中の各単語ペアに正解、すなわち同義語であるかどうかを示すラベルを設定する。識別モデル学習サブプログラムは、類似度行列を読み込み、単語ペアかどうかを識別するための識別モデルを学習する。識別モデル適用サブプログラムは、識別モデルを読み込み、類似度行列中の単語ペアに対し、同義語かどうかの判定結果を付与する。

以下では、図３に示す類似度行列の例を用いて本発明の基本的な考え方を説明する。
テキストデータ中に含まれる、任意の単語のペアを考える。例えば、単語のペアを＜計算機，コンピュータ＞とする。このとき、単語ペアが同義語であるかどうかを判定するための様々な尺度を想定することができる。

例えば、非特許文献１に開示されているような、単語の出現文脈間の類似度（以下、文脈ベース類似度と呼ぶ）を用いる方法がある。また、非特許文献２に開示されているような、重複する文字数に着目するなど表記に基づいた類似度（以下、表記ベース類似度と呼ぶ）が考えられる。さらに、非特許文献３に開示されているような、単語ペアが共起する頻度に基づく類似度（以下、共起ベース類似度と呼ぶ）用いることも可能である。さらに、各手法において、様々なバリエーションが存在する。例えば、文脈ベース類似度において、単語の出現文脈をどのように定義するか、あるいは距離の計算方法をどのように定義するかによってバリエーションが存在する。また、共起ベース類似度においても、共起頻度から計算される類似度として、相互情報量、Dice係数などの異なる統計量を用いることが可能である。本発明では、このような様々な類似度を、単語ペアの素性であると考え、単語ペアを素性毎の値からなる素性ベクトルで表現する。図３の例では、例えば、＜コンピュータ，コンピューター＞という単語ペアは、素性１の次元の値が０．３、素性２の次元の値が０．２、素性Ｎの次元の値が０．８であるベクトルで表現されている。

さらに、この単語ペアが同義語であるかどうかを、同義語辞書やシソーラス辞書等の人手作成辞書を用いて判断し、ラベル付けを行う。すなわち、＜計算機、コンピュータ＞が同義語辞書に含まれていれば、＜計算機、コンピュータ＞は正解であるというラベルを付与する。正解を表す行、すなわち単語ペアを正例と呼ぶ。図３の例では、＜計算機、コンピュータ＞、＜コンピュータ，コンピューター＞が同義語であるため、ラベルとして正解を表す「１」が付与されている。もし、単語ペアが同義語辞書に含まれていない場合には、不正解であるというラベルを付与する。不正解を表す行を負例と呼ぶ。図３の例では、＜プログラム、コンピュータ＞が同義語でないため、ラベルとして不正解を表す「−１」が付与されている。このように、単語ペアを素性の値のベクトルで表現し、さらに正解データを付与することにより、サポートベクターマシンのような教師あり学習による分類器を適用することが可能となる。以上が本発明の基本的な考え方である。

ここで、ラベルを付与する際に、単語ペアが人手作成辞書に含まれていない場合には、注意が必要である。人手による辞書は完全ではないため、同義語辞書に含まれていない場合でも、同義語である場合が存在する。この問題への対応方法については後述する。

図４は、本発明の第１の実施の形態の同義語抽出装置によって実行される単語意味関係抽出処理のフローチャートである。

ステップ１１において、全ての単語ペアの処理を終了したかどうか判定する。終了していたら、ステップ１７に進む。処理していない単語ペアが存在すれば、ステップ１２に進む。ステップ１２では、全ての種類の素性について処理を終了したかどうかを判定する。終了していたらステップ１６に進む。処理していない素性が存在すれば、ステップ１３に進む。

ステップ１３では、ｉ番目の単語ペアを取得する。単語ペアの取得は、例えば、テキストを形態素解析して全単語リストを予め作成しておき、その中から任意の２個の単語の組み合わせを取得すれば良い。ステップ１４では、取得したｉ番目の単語ペアについて、ｊ番目の素性の計算を行う。ステップ１４の処理の詳細は後述する。次に、ステップ１５に進み、素性の計算結果を類似度行列に格納する。類似度行列の例は、図３で説明した通りである。

ステップ１６では、類似度行列にラベルを設定する。ラベルは同義語辞書、あるいはシソーラス辞書を参照することによって設定する。第１の実施の形態では、同一言語の文書を想定しているため、通常では対訳辞書を用いないが、技術文書の場合には、日本語文書の中に英単語が含まれる場合も存在する。このような場合に対応するため、対訳辞書を使用しても良い。

同義語辞書の例を図５に、シソーラス辞書の例を図６に示す。同義語辞書は、同義語である単語ペアに対し、一方を見出し語欄、他方を同義語欄に格納したデータである。辞書引きの都合上、冗長にデータを保持しているものとする。すなわち、＜コンピュータ、コンピューター＞という同義ペアに対し、「コンピュータ」を見出し語とした行と「コンピューター」を見出し語とした行の両方を保持しているものとする。これにより、見出し語欄のみを確認することで全ての同義語ペアを取得することができる。

シソーラス辞書は、同義語である単語ペア、及び上位・下位語関係にある単語ペアに対し、一方を見出し語欄、他方を関連語欄に格納し、タイプ欄に見出し語に対する関連語のタイプを格納したデータである。例えば、図６の例の場合、＜コンピュータ、機器＞のような上位・下位語関係にある単語ペアに対し、「コンピュータ」が見出し、「機器」が関連語であり、「機器」が「コンピュータ」の「上位語」（より抽象的な語）であることが格納されている。シソーラス辞書についても辞書引きの都合上、冗長にデータを保持しているものとする。すなわち、＜コンピューター、機器＞という単語ペアに対し、「コンピューター」を見出し語とした行と、「機器」を見出し語とした行の両方を保持しているものとする。ここで、特に単語ペアが上位・下位語関係にある場合には、順序を逆にしたペアのタイプは同様に逆になることに注意が必要である。例えば、「コンピュータ」は「機器」の下位語となる。

類似度行列へのラベルの設定において、単語ペアが同義語辞書のある行と一致している、すなわち同義語である場合には、正解のラベルとして「１」を付与する。それ以外の場合は、以下のように処理する。単語ペアが同義語ではない、すなわち同義語辞書中でこの単語ペアを含む行はないが、単語それぞれは同義語辞書の別の行に含まれている場合には、不正解のラベルとして「−１」を付与する。単語の組の少なくとも一方の単語が同義語辞書に含まれていない場合には、不明のラベルとして「０」を付与する。

図３の例の場合、＜コンピュータ，コンピューター＞及び＜計算機，コンピュータ＞は同義語であることから、ラベルとして「１」が付与される。また、＜プログラム，コンピュータ＞は同義語ではない、すなわち「プログラム」と「コンピュータ」それぞれは、同義語辞書中に含まれるが、両方を含む行が存在しないという想定のもと、ラベルとして「−１」が付与される。また、＜計算機，仮想化技術＞については、「仮想化技術」が同義語辞書に含まれなかったという想定のもと、ラベルとして「０」が付与される。シソーラス辞書を参照する場合には、タイプ欄を参照し、タイプが同義語である行のみを対象に同様の処理を行う。

図４に戻り、ステップ１７では識別モデルを学習する。類似度行列中から、ラベルが「正解」あるいは「不正解」である行のみを対象に、２値の識別モデルを学習する。識別モデルとしては、任意のモデルを使用することができるが、例えば、C.J.C.Burges, “A Tutorial on Support Vector Machines for Pattern Recognition” Data Mining and Knowledge Discovery, vol.2, pp.121-168 (1998).に開示されているサポートベクターマシンを用いることができる。

図７に、同義語識別の概念図を示す。各単語ペアの素性ベクトルは、素性１〜Ｎで表現されるＮ次元空間上のある点に相当し、図７では黒塗りの四角で表現されている。このとき、同義語である単語ペアが配置されている領域と同義語ではない単語ペアが配置されている領域の境界を発見することが識別モデルの学習である。未知の点、すなわち同義語であるかどうかが不明である単語ペアが与えられたとき、いずれの領域に所属するかによって同義語であるかどうかを判定することが識別モデルの適用である。サポートベクターマシンは、非線形の識別モデル、すなわち境界として、直線、平面、超平面（４次元以上の空間での平面）以外を使用できる点が特徴である。

ステップ１８では、モデルに従って、類似度行列の値から単語意味関係抽出を行う。行列中の全ての単語ペアについて、素性ベクトルを学習済みの識別器に入力し、同義語であるかどうかを識別する。識別器の判定結果は、類似度行列の判定結果欄に格納する。これにより、ラベルが「不明」すなわち「０」であった単語ペアに対し、同義語であるかどうかの判定が行われる。また、人手による同義語辞書の誤りチェックに使用することもできる。既に「不明」以外のラベルが付与されている単語ペアに対し、ラベルと判定結果が異なるもののみを抽出し、人手によって確認することにより同義語辞書を効率的にチェックすることができる。

図８に、同義語辞書エディタの画面例を示す。ラベルが同義語であるが、判定結果は同義語ではない単語ペアが画面上部に表示されており、人手のチェック結果によってラベルが変更される。同様に、ラベルは同義語ではないが、判定結果では同義語である単語ペアが画面下部に表示されており、人手のチェック結果によってラベルが変更される。このようなエディタにより、同義語辞書のチェックを行うことができる。もちろん、同義語辞書中のデータは正解であることを前提に、「不明」の単語ペアのみを対象とすることもできる。

以下では、図４のステップ１４の処理を詳細に説明する。ステップ１４では、単語ペアを表現するための素性として、各種の類似度を計算する。以下、類似度のタイプ毎に説明を行う。

（１）文脈ベース類似度
以下では、文脈ベース類似度を計算する方法について説明する。ある単語の文脈とは、その単語がテキスト中に出現している箇所の「近傍」の単語、あるいは単語列等を示す。何をもって「近傍」と定義するかによって、様々な文脈が定義できる。以下では、文脈として、後続する動詞及び直前に出現する形容詞・形容動詞を出現文脈として用いる例を説明するが、これ以外の出現文脈を代替して使用する、あるいは追加・組み合わせて使用することも可能である。また、文脈同士の類似度計算式にも様々な方法が存在する。

文脈ベース類似度は、文脈行列に基づいて計算される。図９に文脈行列の一例を示す。文脈行列は、見出し欄と文脈情報欄からなり、見出し欄中の単語に対し、文脈単語列とその頻度の組の繰り返しからなる文脈情報が格納されている。図９の例は、着目した単語に後続する助詞＋述語を文脈とした場合を示す。例えば、「コンピュータ」には、「が起動する」が１５回、「を接続する」が４回出現していることを示している。このような文脈行列に対し、任意の２個の単語に相当する行の文脈情報を取得し、文脈単語列の頻度ベクトルに基づいて類似度を計算する。文脈ベース類似度としては、タームベクトルモデルによる文書検索に用いられている方法を用いることができ、例えば、北、津田、獅々掘「情報検索アルゴリズム」共立出版（２００２年）に開示されている方法を用いることができる。本実施の形態では、一例として下式の類似度計算方法によって類似度ｓを計算する。

また、式中のパラメータの説明は、文書検索に適用する場合の説明であり、同義語抽出の場合には、入力文書を同義語抽出の対象入力単語、ターゲット文書を同義語候補単語、入力文書中の単語を入力単語の文脈単語にそれぞれ読み替える。

どのような単語を文脈として抽出するかについては、様々なバリエーションが存在する。例えば、「コンピュータ」の文脈として、「高速なコンピュータ」のような表現から「高速な」を抽出することもできるし、「計算（する）」の文脈として、「平均値を計算（する）」のような表現から、「平均値を」を抽出することもできる。このような様々なバリエーションの文脈をまとめて扱っても良いし、各文脈をそれぞれ別素性として扱っても良い。本実施の形態では、２種類の異なるタイプの文脈を、別素性として扱う例について説明する。図９とは異なるタイプの文脈として、着目する単語の前に出現する形容詞、形容動詞を抽出した結果の例を図１０に示す。

以下では、素性ベクトル抽出サブプログラム１１２１で実行される、文脈行列の作成方法について図１１のフローチャートを用いて説明する。

まず、ステップ１４０１においてテキストを読み込み、形態素解析処理を行う。形態素解析結果の例を図１２に示す。形態素解析結果は、テキストを単語に分割した結果に品詞が付与されたものである。形態素解析結果は、メモリ上に一時的に保持されることを想定しているが、一旦ファイルなどに格納しておいても良い。なお、文単位、あるいはパラグラフ、ファイルなどを単位として形態素解析を行いながら、ステップ１４０２以降の処理を行っても良い。

ステップ１４０２では、形態素解析結果中の全ての単語について処理を行ったかどうか判定する。全て処理済みであれば、全体の処理を終了する。未処理の単語があれば、ステップ１４０３に進む。判定は、全単語の中から１番目の単語、２番目の単語というように順次処理をしていけば良い。

ステップ１４０３では、ｉ番目の単語に着目し、近傍の単語の品詞列を所定の品詞パターンと照合する。品詞パターンの例を図１３に示す。パターン１は、注目している単語に対し、後続する動詞を文脈として抽出するためのパターンであり、名詞の後に助詞が続き、さらに動詞が続くという品詞の並びを抽出することを表している。パターン２は、注目している単語に対し、直前に出現する形容詞・形容動詞を文脈として抽出するためのパターンであり、形容詞あるいは形容動詞の後に名詞が続くという品詞の並びを抽出することを示している。図中、品詞の後の（Ｔ）は注目単語であることを示し、（Ｃ）は文脈単語（列）であることを示している。

パターンが形態素解析結果とマッチしたら、ステップ１４０４に進み、マッチング結果に基づいて、パターンの注目単語にマッチした形態素解析結果と文脈単語（列）とマッチした形態素解析結果を抽出し、文脈行列に格納する。文脈行列は、パターン毎に作成する。

図１２の形態素解析結果に対しては、ｉが１の場合に、「コンピュータ」、「を」、「起動する」という単語列、ｉが６の場合に、「ウインドウ」、「が」、「現れる」という単語列がパターン１によって抽出される。また、「新しい」、「ウインドウ」という単語列がパターン２によって抽出される。またパターン中の注目単語、文脈単語の区別により、それぞれの抽出結果から、「コンピュータ」という注目単語に対し、「を起動する」が文脈として抽出される。また、「ウインドウ」という注目単語に対し、「が現れる」が文脈として抽出される。同様に、「ウインドウ」という注目単語に対し、「新しい」が文脈として抽出される。

以上の処理によって文脈行列を作成することができる。文脈行列はパターン毎に作成するため、各文脈行列から得られる類似度は異なる素性となる。また、式（１）には文書長正規化のための定数が含まれているが、この定数は自動的には決定できない。そのため、この値を０から１の間の適当な値に変動させ、類似度を計算する。例えば、定数を０．１、０．３、０．５、０．７の４種類の値で計算し、文脈行列としては、図１３に示した２種類のパターンに対応する２個の文脈行列を用いて類似度を計算したとする。その場合には、４×２＝８種類の素性が得られることになる。

（２）表記ベース類似度
以下では、表記ベース類似度を計算する方法について説明する。表記ベース類似度は、単語の組に対し、文字の情報に基づいて類似度を計算する。同義語が特に、「コンピュータ」と「コンピューター」のような異表記語の場合、非特許文献２に開示されているように、多くの文字が重複していることから文字の重複している割合は類似度として用いることができる。異表記語はカタカナ語の場合が多いが、漢字からなる異表記語以外でも、「分析」と「解析」、「信頼」と「信用」のように同じ文字が含まれることがある。そこで、カタカナ語に限定せず、文字の重複度によって、類似度を計算する。以下では、文字の重複割合に基づく類似度を文字重複度と呼ぶ。漢字からなる単語の場合、特に２文字単語のような文字数が短い単語の場合は、「分析」と「透析」のように同じ文字を含んでいても意味が異なる単語が多く存在する。本発明では、文脈ベース類似度のような異なる種類の類似度と組み合わせることによって、文字重複度が有効に作用する。

さらに、漢字の場合には、異なる文字であっても意味が類似している文字が存在する。例えば、「慕（う）」、「憧（れる）」のような文字は類似した意味を持っている。このような文字の類似性を教師データから学習することができれば、文字が完全に一致していない場合でも、単語間の表記ベース類似度を計算することが出来る。文字の類似性に基づく単語の類似度を類似文字重複度と呼ぶ。

（ａ）文字重複度
文字の重複度は、様々な方法で計算することができるが、ここでは一例として２個の単語間で共通に含まれている文字をカウントし、２個の単語のうち短い方の単語の文字列長で正規化することで計算する方法を説明する。同じ文字が複数含まれている場合には、一方にｍ個、他方の単語にｎ個含まれている場合には、ｍ対ｎの対応関係となる。このような場合は、ｍ又はｎの小さい方の個数の文字が重複したものとする。

以下では、２個の単語ｉと単語ｊの表記ベース類似度の計算方法について図１４を用いて説明する。

ステップ１４１１において、単語ｉの全ての文字を処理したかどうか調べる。処理していれば、ステップ１４１５に進む。未処理の文字があれば、ステップ１４１２に進む。ステップ１４１２では、単語ｊの全ての文字を処理したかどうか調べる。処理していれば、ステップ１４１１に進む。未処理の文字があれば、ステップ１４１３に進む。

ステップ１４１３では、単語ｉのｍ番目の文字と単語ｊのｎ番目の文字を比較し、一致するかどうか調べる。一致していれば、ステップ１４１４に進む。一致していなければ、ステップ１４１２に進む。ステップ１４１４では、単語ｉのｍ番目の文字と単語ｊのｎ番目の文字にそれぞれフラグを立てる。その後、ステップ１４１２に進む。

ステップ１４１５では、単語ｉ、単語ｊのフラグが立った文字数をそれぞれカウントし、小さい方を一致文字数とする。例えば、「ウインドウ」と「ウィンドー」が処理対象であると仮定すると、「ウ」、「ン」、「ド」の３文字が一致する。「ウ」については、「ウインドウ」に２文字含まれているため、「ウインドウ」中でフラグが立った文字は４文字、「ウィンドー」中でフラグが立った文字は３文字となる。よって、３文字が一致したものとする。

以上の方法以外にも、２個の単語の語頭からの共通部分文字列長を重複度とする、２個の単語の語末からの共通部分文字列長を重複度とする、正規化する文字列長を両者の平均とする、長い方とするなどのバリエーションが考えられる。また、より精緻な方法として、例えば、ＤＰマッチングなどによって２個の単語を照合し、マッチした文字数に基づいて表記ベース類似度を計算することも可能であり、利用可能な計算リソースに応じて、より多数の表記ベース類似度を計算することもできる。また、文字の頻度に基づいて、文字が一致した際の重みを変更することもできる。文書の検索において、単語の重みを計算する方法としてＩＤＦ（Inversed Document Frequency）が知られているが、同様の考え方で多くの単語に共通して含まれている文字の重要性は小さいと考えることで文字の重みを計算することができる。

（ｂ）類似文字重複度
同義語辞書から文字の類似度を学習し、類似文字も含めて文字の重複度を計算する。文字の類似度の計算方法について、図１５に示すフローチャートを用いて説明する。

ステップ１４２１において、同義語辞書から同義語である単語ペアを取得する。次に、ステップ１４２２において、単語ペアの一方の単語から取り出した文字と他方の単語から取り出した文字からなる文字ペアを全ての組み合わせについて取得する。例えば、「敬慕」、「憧憬」が同義語である単語ペアの場合、「敬」／「憧」、「敬」／「憬」、「慕」／「憧」、「慕」／「憬」という４種類の文字ペアを取得する。

次に、ステップ１４２３に進み、同義語辞書中の全ての単語に含まれる文字の頻度を計算する。次に、ステップ１４２４に進み、全ての文字ペアについて文字類似度を計算する。文字類似度は、文字ペアの頻度を、文字ペアを構成する２個の文字の頻度で割ったもの（Dice係数）を用いる。自己相互情報量等を類似度として用いても良い。

ステップ１４２５では、ステップ１４２４で計算した類似度について、同じ文字についての類似度と異なる文字についての類似度を正規化する。具体的には、同じ文字についての類似度の平均ＡＳと異なる文字についての類似度の平均ＡＤをそれぞれ計算する。同じ文字については、計算した類似度に関わらず、１．０を設定する。異なる文字については、ステップ１４２４で計算した値にＡＤ／ＡＳを掛け算した値を最終的な類似度とする。文字類似度テーブルの例を図１６に示す。

文字類似度テーブルを利用して類似文字重複度を計算することが可能である。類似文字重複度の計算は、文字重複度の計算と同様に行えば良い。異なる部分は、文字重複度では文字が一文字一致した場合に、文字数１を加算していたのに対し、類似文字重複度の場合は、類似文字テーブルを参照し、類似文字である場合には、文字類似度を加算する点である。文字が一致する場合には、類似文字テーブルには１．０が格納されているため、文字重複度と同じである。

（３）共起ベース類似度
共起ベース類似度は、テキスト中で同時に出現する可能性の高さを示している。通常、同義語は同時に出現しにくいと言われている。例えば、「コンピュータ」と「コンピューター」のような異表記は、いずれか一方を使うことが推奨されており、同じ文書内で両方の表記が同時に出現することは稀である。しかしながら、「欧州連合」と「ＥＵ」のような略語などは、同じテキスト中に同時に使われることも多い。そのため、共起頻度は同義語を抽出するための手掛かりとなり得る。

形態素解析結果中で、ｉ番目の単語に着目し、注目単語から予め定められたＮ単語以内の位置に出現した単語と注目単語との共起を全て抽出し、共起頻度テーブルに格納する。共起頻度テーブルの例を図１７に示す。また、出現した個々の単語の出現頻度を同時に計算し、単語頻度テーブルに格納する。単語頻度テーブルの例を図１８に示す。単語頻度テーブルと共起頻度テーブルの値から、共起ベース類似度として、例えばDice係数を計算する。Dice係数は、単語Ａ，Ｂの頻度をそれぞれｆ(Ａ)、ｆ(Ｂ)、共起頻度をＦ(Ａ，Ｂ)とするとき、Ｆ(Ａ，Ｂ)／（ｆ(Ａ)＋ｆ(Ｂ)）で計算できる。他にも、自己相互情報量など他の尺度を使うことも出来るし、複数種類を用いても構わない。図１９に共起類似度テーブル１１８の例を示す。

以上の処理によって、同義語を従来技術と比較して高精度に抽出することが可能になる。結果の例を図２０に示す。図２０は、従来方式（文脈ベース類似度による教師なし学習、文脈単語を用いた教師あり学習）と本発明の方式の比較結果を示している。Ｗｅｂから収集した約１０ＧＢ程度の日本語テキストを利用した。また、評価指標である平均適合率は、文書検索精度の評価において通常用いられる尺度であり、適合率（ノイズの少なさを示す尺度）、再現率（漏れの少なさを示す尺度）を総合的に判断するための尺度である。適合率と再現率は、通常トレードオフの関係にあり、同じ方式においてパラメータを変化させると一方が良くなり、他方が悪くなる。例えば、ある同義語抽出方式において、抽出する同義語候補数を増加させると再現率は向上する（漏れが少なくなる）が、適合率は悪化する（ノイズが増加する）。そのため、方式同士の比較においては、単純に適合率のみを比較しても意味がない。平均適合率では、再現率を１０％、２０％、３０％のように変化させながら、各再現率における適合率を取得し、平均を取ることで方式同士の比較を正確に行うことができる。

＃１は非特許文献１に開示されている方式にあたり、＃２は非特許文献６に開示されている方法にあたる。教師なし方式である＃１と比較して、従来方式である＃２も含め教師あり方式の方が優れていることが分かる。また、教師あり方式同士の比較についても、文脈単語を素性として用いる従来方式＃２と比較して、類似度を素性として用いる提案方式＃３の方が、精度が良いことが分かる。また、＃３で用いている文脈ベース類似度に加えて、文字重複度（＃４）、類似文字重複度（＃５）のような異なる素性を組み合わせて用いる方が、精度が向上することも分かる。

なお、以上の説明では、図４のステップ１６の処理において、同義語辞書に含まれない単語ペアを負例として使用する方法を説明した。この方法は、同義語辞書に含まれていない単語ペアだからといって、必ずしも同義語ではないとは言えない、という問題を回避するための方法である。もう一つの方法として、識別器として１−クラスＳＶＭを用いることで、この問題を回避することが可能である。１−クラスＳＶＭは、正例のみから識別器を学習することができる技術であり、麻生英樹、津田宏治、村田昇「パターン認識と学習の統計学新しい概念と手法、統計科学のフロンティア」岩波書店（２００３年）に開示されているので説明を省略する。１−クラスＳＶＭを用いる場合には、図４のステップ１６の処理において、ラベルとして「正解」が付与された行のみを教師データとして使用し、識別器として１−クラスＳＶＭを用いて学習を行う。これにより、正例、すなわち同義語辞書に含まれている単語ペアに関する情報のみから、識別器を構成することが可能となる。

こうして本発明の第１の実施の形態の同義語抽出装置によると、既存の同義語辞書に含まれていない同義語を含む同義語辞書が出力される。

［第２の実施の形態］
以下、本発明の第２の実施の形態であるシソーラス抽出装置を、図面を参照して説明する。第１の実施の形態では、単語意味関係抽出の問題を同義語であるか、同義語でないかを識別する問題として解決する。しかしながら、実際の単語意味関係抽出では、より曖昧な状況が存在する。例えば、上位・下位語は、厳密な意味での同義語ではないが、意味は類似している。例えば、「企業」と「メーカ」が相当する。また、兄弟語、すなわち共通の語を上位語として持つ語の場合も同様である。例えば、「証券会社」と「銀行」が相当する。

第２の実施の形態では、このような状況を適切に扱うことができる単語意味関係抽出装置を実現できる。第２の実施の形態では、単語意味関係抽出の問題を、２値の識別問題ではなく、ランキング問題として扱うことで課題を解決する。すなわち、同義語の場合は非常に類似性が高いということでランクとして１を付与し、上位・下位語や兄弟語の場合は同義語ほどではないが、ある程度類似性が高いということでランクとして２を付与し、そのいずれでもない場合には、類似性が低いということでランクとして３を付与する問題だと考える。そして、第１の実施の形態と同様に、人手作成された辞書によってランクを正解として付与した教師データから、ランキングを行う関数を学習することによって単語意味関係抽出を行う。

第２の実施の形態では、第１の実施の形態の図４におけるステップ１６、ステップ１７、ステップ１８を以下のように変更する。

まず、ステップ１６の変更について説明する。第１の実施の形態では、同義語辞書を参照し、正例である場合には「＋１」、負例である場合には「−１」という２値のラベルを設定した。ただし、ここでは不明の単語ペアは対象外とする。第２の実施の形態では、語の上位・下位関係を含むシソーラス辞書を参照することによってラベルを設定する。シソーラス辞書を参照し、単語の組が同義語であれば、ラベルとして「１」を付与する。単語の組が上位・下位語、あるいは兄弟語であればラベルとして「２」を付与する。それ以外の場合の処理の考え方は、第１の実施の形態と同様である。すなわち、単語の組はシソーラス辞書に含まれないが、単語それぞれはシソーラス辞書に含まれている場合には、不正解のラベルとして「３」を付与する。単語の組のいずれか一方の単語が同義語辞書に含まれていない場合には、不明（−１とする）のラベルを付与する。

図２１に、第２の実施の形態における類似度行列の例を示す。ラベル欄に、＜コンピュータ，コンピューター＞のような同義語については１、＜マシン，コンピュータ＞のような上位・下位語については２、＜計算機，仮想化技術＞のような上記のいずれでもない語については３というランクが付与されている点が第１の実施の形態と異なる。

ステップ１７については、２値の識別モデルの学習ではなくランキング学習を行うように変更する。ランキング学習を行う分類器としては、例えば、T. Joachims, Training Linear SVMs in Linear Time, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), 2006.に開示されているので説明を省略する。

ステップ１８では、設定される値が２値ではなく、学習されたモデルにしたがって判定されたランクを示す値である点が異なる。また、設定される値が２値ではないため、辞書エディタでも画面が異なる。例えば、図２２のような表示を行うことで修正を行うことができる。図２２の例では、ラベルとして付与されたランクと、判定結果のランキングが一定の閾値以上に大きい単語ペアを表示し、さらに初期値としてラベルとして付与されたランクに対応する項目（図２２の場合、「同義語」、「上位・下位語」、「それ以外」のいずれか）にチェックを付与する。ユーザが誤っていると判断した場合には、チェックを付け直し、チェックが変更された箇所のみを辞書に反映することで辞書を修正する。

こうして本発明の第２の実施の形態のシソーラス抽出装置によると、既存のシソーラス辞書に含まれていない同義語、上位・下位語、兄弟語を含むシソーラス辞書が出力される。

［第３の実施の形態］
以下、本発明の第３の実施の形態である対訳関係抽出装置を、図面を参照して説明する。第３の実施の形態では、単語関係として異なる言語間の対訳関係を抽出する。対訳関係は、同義語関係を異なる言語の単語間に拡張したものだと見ることができる。よって、第１の実施の形態と同様の考え方によって対訳関係抽出を行うことが可能である。第３の実施の形態では、第１の実施の形態と同様のシステム構成を用いる。ただし、第１の実施の形態と構成が異なるのは、同義語辞書の替わりに対訳辞書を用いる点である。対訳辞書１１４３の例を図２３に示す。対訳辞書は同義語辞書と全く同じ形式であり、同義語の替わりに訳語が格納されている。

図２４に対訳抽出の場合の、類似度行列の例を示す。図３の例では、単語ペアが同一言語の単語のペアからなっていたのに対し、図２４の例では第１の言語の単語と第２の言語の単語からなる単語ペアが格納されている。

全体の処理の流れは、図４のフローチャートと同様である。ただし、ステップ１３、ステップ１４における処理の詳細が若干異なる。

ステップ１３では、単語ペアを取得する際の実現方法が異なる。第１の実施の形態では、同じ言語の全ての単語の中から任意の異なる単語の組を抽出して単語ペアとするのに対し、本実施の形態では、第１言語の単語と第２言語の単語の組み合わせによって単語ペアを取得する。具体的には、第１言語のテキストを形態素解析して得られた単語のリストと第２言語のテキストを形態素解析して得られた単語のリストからそれぞれ任意の単語を取得し、単語ペアとする。

ステップ１４では、単語ペアに対する類似度計算方法が異なる。以下、対訳抽出における類似度計算方法について詳細に説明する。

（１）多言語文脈ベース類似度
対訳抽出の場合、単語ペアを構成する２個の単語は異なる言語である。以下では、一方が日本語、他方が英語の場合を想定して説明する。よって、それぞれの単語の文脈も異なる言語となる。そのため、文脈単語列の一致によって類似度を計算することができない。このとき、対訳辞書を用いることで、文脈中の単語同士を対応付けることで同義語抽出の場合と同様に文脈ベースの類似度を計算することができる。

図２５、図２６に対訳抽出における文脈行列の例を示す。図２５は、日本語テキストから抽出された文脈行列の例であり、図２６は、英語テキストから抽出された文脈行列の例である。同義語抽出の場合と異なるのは、図２５において、助詞を含めず動詞のみが文脈として抽出されている点である。これは、英語では助詞が存在しないこと、対訳辞書で対応付けを行うため、助詞を含めた文字列は通常辞書に含まれないことが理由である。ただし、助詞が存在しない点は、構文解析等の技術により、主格、目的格などの格解析を行い、助詞の代わりに使用することもできる。

各言語の文脈行列を準備し、対訳辞書を用いて文脈情報間の対応付けを行うことで第１の実施の形態と同様に文脈に基づいた類似度を計算することができる。例えば、対訳辞書により、「起動する」と“boot”、「停止する」と“shutdown”等が対応していることが分かるため、「コンピュータ」と“computer”の文脈情報から類似度を計算することができる。

（２）多言語表記ベース類似度
カタカナ語の外来語については、発音に基づいて、対訳関係を推定する技術が知られている。この種の技術は、Transliterationと呼ばれ、例えば、K. Knight and J. Graehl: Machine Transliteration, Computational Linguistics, 24(4), pp. 599-612, 1998.などに開示されている。単純な方法としては、“ｃｏ”は「コ」と、“ｍ”は「ン」又は「ム」、“ｐｕ”は「プ」又は「ピュ」と読むことができるという情報を準備しておき、“computer”から「コムプタ」、「コンプタ」、「コンピュタ」のような読みの候補を生成し、読みの候補と日本語単語の文字列を第１の実施の形態に述べたような方法で比較することによって類似度を計算することができる。

（３）多言語共起ベース類似度
対訳抽出の場合、文脈ベース類似度の場合と同様に、日本語の単語と英語の単語が共起するかどうかをテキストのみから得ることはできない。そのため、対訳辞書を用いて共起ベース類似度を計算する。具体的には、日本語のテキスト、英語のテキストからそれぞれ共起ベース類似度を計算し、共起類似度テーブルを作成しておく。対訳の単語ペアが与えられたら、単語ペアの一方を対訳辞書によって変換することで共起類似度テーブルと照合する。具体的には、単語ペアの日本語単語を対訳辞書によって英語に変換し、英語の共起類似度テーブルと照合し、類似度を取得する。複数の候補が存在する場合には、全てを取得する。同様に、単語ペアの英語単語を対訳辞書によって日本語に変換し、日本語の共起類似度テーブルと照合し、類似度を取得する。以上の処理によって、多言語の共起ベース類似度を計算することができる。

なお、以上の処理によって複数の類似度が得られるが、全ての類似度を計算する、日本語単語の英語変換によって得られた類似度の平均、英語単語の日本語変換によって得られた類似度の平均の２種類を用いる等、バリエーションが考えられる。対訳辞書の規模、テキストの規模によってどの方式が適しているかは変化するため、適用したいデータによって適切な方法を採用すれば良い。

こうして本発明の第３の実施の形態の対訳関係抽出装置によると、既存の対訳辞書に含まれていない対訳関係にある単語を含む対訳辞書が出力される。

１００単語意味関係抽出装置
１０１ＣＰＵ
１０２主メモリ
１０３入出力装置
１１０ディスク装置
１１１ＯＳ
１１２単語意味関係抽出プログラム
１１２１素性ベクトル抽出サブプログラム
１１２２正解ラベル設定サブプログラム
１１２３識別モデル学習サブプログラム
１１２４識別モデル適用サブプログラム
１１３テキスト
１１４人手作成辞書
１１４１同義語辞書
１１４２シソーラス辞書
１１４３対訳辞書
１１５類似度行列
１１６文脈行列
１１７品詞パターン
１１８共起類似度テーブル
１１９識別モデル
１２０文字類似度テーブル

Claims

テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、
既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、
前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、
前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、
を備えることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
注目する単語の前記テキスト中における出現箇所の近傍の単語を当該注目する単語の文脈情報として抽出する手段と、
前記単語の組の類似度として当該単語の組の２つの単語の文脈情報同士の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記単語の組の２つの単語に含まれる文字同士の対応関係を同一の文字であるかどうかに基づいて計算する手段と、
前記文字同士の対応関係に基づいて前記単語の組の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記単語の組の２つの単語に含まれる文字の類似性を判定する手段と、
前記文字の類似性に基づいて前記単語の組の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記テキストから一定の距離内に出現する２つの単語を共起する単語の組として抽出する手段と、
前記単語の組の類似度として、前記共起する単語の組の頻度を用いて単語の共起し易さを示す統計量を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の２つの単語が同義語か否かの関係であり、
前記既知の辞書は見出し語とその同義語とを格納した同義語辞書であることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の２つの単語が同義語であるか、上位・下位関係にあるか、兄弟語関係にあるか、あるいはそのいずれでもないかであり、
前記既知の辞書は見出し語とその同義語、上位・下位語、あるいは兄弟語を格納したシソーラス辞書であることを特徴とする単語意味関係抽出装置。
請求項１に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の２つの単語の対訳関係であり、
前記既知の辞書は見出し語とその訳語とを格納した対訳辞書であることを特徴とする単語意味関係抽出装置。
請求項１〜８のいずれか１項に記載の単語意味関係抽出装置において、
前記付与されたラベルと前記判定された単語意味関係の情報に基づいて、誤っている可能性が高いラベルを判定する手段、
前記誤っている可能性が高いラベルに関する情報を表示する手段と、
ユーザの入力を受け付けて、前記誤っているラベルに修正を施す手段と、
を備えることを特徴とする単語意味関係抽出装置。