JP3166646B2

JP3166646B2 - 語義曖昧性解消装置

Info

Publication number: JP3166646B2
Application number: JP35263396A
Authority: JP
Inventors: 航李; 純一竹内
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-12-13
Filing date: 1996-12-13
Publication date: 2001-05-14
Anticipated expiration: 2016-12-13
Also published as: JPH10171806A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、語義曖昧性解消装
置に関し、特に、音声合成システム、ＯＣＲ（Optical
Charactor Reader；光学的文字読み取り）システム、
仮名漢字変換システム、機械翻訳システム、テキスト分
類システム等の情報処理システムに用いて好適な知識獲
得、知識利用技術に関する。

【０００２】

【従来の技術】語義の曖昧性解消とは、異なる語義（意
味）をもつ単語の、ある文脈における語義を特定するこ
とである。

【０００３】自然言語には、異なる語義をもつ単語が数
多く存在する。例えば、英単語「ｂａｎｋ」には、「銀
行」の意味もあるし、これとは別に「河岸」の意味もあ
る。

【０００４】このため、英語を日本語に自動翻訳する機
械翻訳システムにおいては、例えば単語「ｂａｎｋ」
の、ある文脈における語義を特定し、日本語に翻訳する
必要がある。この問題が、語義曖昧性解消の問題であ
る。

【０００５】また、Yarowsky（ヤロウスキ）が指摘した
ように、自然言語処理の数多くの問題は語義曖昧性解消
の問題に帰着することができる。例えば文献⁽¹⁾（David
Yarowsky, One Sense per Collocation, in Pr
oceedings of ARPA HumanLanguage Technology Wo
rkshop, Princeton, 1993）参照。

【０００６】また、例えば、テキストを入力し、そのテ
キストを読み上げる音声合成システムでは、異なる読み
をもつ日本語（単語）の同形異音語について、該単語の
テキストの各文における読みを決めなければならない。
同じ表記の「市場」は、文脈によっては、「いちば」と
読むべきであるし、あるいは「しじょう」と読むべきで
ある。この場合、読みを語義と見なせば、この問題は、
語義曖昧性解消の問題に帰着する。

【０００７】さらに、文章を含む画像データを取り込
み、文章（文字情報）を記号データ（コード）に変換す
るＯＣＲ（光学的文字読み取り）システムでは、読み込
んだ単語の画像から形の類似した単語を検索し、類似し
た単語の候補から、もっともらしい単語を一つ選択して
出力する必要がある。

【０００８】例えば、日本語では、漢字単語の「入口」
と、「人口」は極めて類似した形をもつ。ある日本語の
テキストに「入口」が挿入されており、ＯＣＲシステム
がそのテキストを読み込む時、単語の形から、候補とし
て、「入口」と「人口」を選んだとする。この時、ＯＣ
Ｒシステムは、さらにその周りの文脈をみて、この単語
が「入口」であると「認識」する必要がある。この問題
も語義曖昧性解消の問題に帰着する。

【０００９】そして、仮名漢字変換システムにおいて
は、ユーザが入力した平仮名を漢字に変換する必要があ
る。日本語には、仮名表記が共通で漢字表記が異なる単
語が数多く存在する。例えば、仮名の「かてい」は、
「仮定」、「過程」、「家庭」と「課程」等の漢字単語
に変換できる。

【００１０】ユーザが入力した「かてい」から、その意
図する漢字単語を候補として先に提示することができれ
ば、ユーザの作業の負担が軽減することになる。入力さ
れた仮名からその漢字を推定することも、上記した語義
曖昧性解消問題に帰着する。

【００１１】さらに、テキストに現れるキーワードをみ
てそのテキストにラベルをつけ、分類する問題（技術）
がある、例えば、キーワード「ベース」、「ヒット」と
「ピッチャー」の現れるテキストに、「野球」のラベル
を付ける。あるラベル、例えば「野球」を付けることを
一つの語義とみなし、付けないことをもう一つの語義と
みなすことができる。さらに、テキストに現れるキーワ
ードの集合をラベルの「周り」の文脈とみなすこともで
きる。このように、テキストに現れるキーワードをみ
て、ラベルをつけるかどうかを判断する問題も、語義曖
昧性解消問題に帰着する。

【００１２】従来では、例えば、Yarowskyは、決定リス
トを使った語義曖昧性解消法を提案した。例えば文献
⁽²⁾（David Yarowsky, Decision Lists for Lexic
al Ambiguity Resolution:Application to Accent
Restoration in Spanish and French, Proceedin
gs of the 32nd Annual Meeting of the Assoc
iation for Computational Linguistics, 1994, p
age 88-95）参照。

【００１３】また、Yarowskyは、確率的なアプローチに
よる語義曖昧性解消方法を提案している。例えば文献
⁽³⁾（David Yarowsky, Word-Sense Disambiguation
UsingStatistical Models of Roget's Categories
Trained on Large Corpora, in Proceedings o
f 14th International Conference on Computatio
nal Linguistics, France, 1992）参照。

【００１４】具体的には、ベイズの定理（Bayesian th
eorem）を使って、周りの文脈の証拠の下での各語義出
現の条件つき確率を計算し、確率の最も高い語義を採用
する。

【００１５】Yarowskyは、さらに周りの文脈の証拠は互
いに独立であると仮定している。例えば、「ｂａｎｋ」
の語義曖昧性を解消する時、周りの文脈に現れる「ｍｏ
ｎｅｙ」と「ｌｏａｎ」が互いに独立な証拠であると
し、ベーズの定理を使ってそれらの証拠の下での各語義
出現の条件つき確率を計算し、「ｂａｎｋ」の語義を決
める。

【００１６】

【発明が解決しようとする課題】しかしながら、この従
来の方法の問題点は、独立という仮定が強すぎることで
ある。

【００１７】すなわち、周りの文脈における証拠は、普
通、互いに独立ではなく、依存関係にある。例えば、証
拠としての「ｍｏｎｅｙ」と「ｌｏａｎ」は共起しやす
い。その両者が共に現れたら、「ｂａｎｋ」のこの文脈
における語義が「銀行」である確率がさらに高くなる。

【００１８】このため、証拠が互いに独立であるとする
のではなく、それらの間の依存関係をも考慮し、語義曖
昧性解消を行う必要がある。

【００１９】一方、機械学習の分野では、鈴木らは確率
依存森（あるいは、Ｄｅｎｄｒｏｉｄ分布ともいう）の
学習アルゴリズムを開発されている。例えば文献
⁽⁴⁾（鈴木譲、大嶽康隆、平沢茂一、「記述長最小基準
と状態分割の立場からみた確率モデルの選択方法につい
て」、情報処理学会論文誌、Vol.33, No.11, 1992）
参照。

【００２０】この鈴木らのアルゴリズムは、効率的で、
理論的な基礎がしっかりしたものである。鈴木らは、こ
のアルゴリズムをアンケート調査結果の分析に適用して
いるが、しかし、このアルゴリズムを、他の応用問題に
対してどのように適用すればよいかは明確ではなかっ
た。

【００２１】上記したように、周りの文脈における証拠
が互いに独立であるとするのではなく、証拠の間に依存
関係があるとし、依存関係にある証拠の下での語義の曖
昧性を解消する必要がある。

【００２２】したがって、本発明は、上記事情に鑑みて
なされたものであって、その目的は、上記問題点を解消
すべく確率的アプローチにより語義曖昧性を解消する装
置及び方法を提供することにある。

【００２３】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、各語義ごとに、周りの文脈に現れる証拠
を確率依存森として学習し、証拠間の依存関係を確率依
存森における依存関係として学習し、さらに、ベーズの
定理を使って依存関係にある周りの文脈の証拠の下での
各語義の出現の条件付き確率を計算し、条件付きの確率
の最も大きい語義を採用することによって語義曖昧性解
消を行うようにしたものである。

【００２４】本発明の語義曖昧性解消装置は、注目単語
の語義が記されたテキストを記憶するテキスト記憶部
と、統計情報を記憶する統計情報記憶部と、前記テキス
ト記憶部から注目単語の語義が記されたテキストを入力
し、入力されたテキストにおける、注目単語の各語義の
出現確率、注目単語の語義ごとの周りの文脈に現れる証
拠の出現確率、注目単語の語義ごとの周りの文脈に現れ
る二つの証拠の間の共起確率、注目単語の語義ごとの周
りの文脈に現れる二つの証拠の間の相互情報量という４
種類の統計情報を計算し、計算できた４種類の統計情報
を前記統計情報記憶部に記憶する統計処理部と、注目単
語の語義が曖昧なテキストを入力する入力部と、注目単
語の語義を出力する出力部と、前記入力部から、注目単
語の語義が曖昧なテキストを入力し、入力されたテキス
トにおける、注目単語の周りの文脈に現れる証拠を特定
し、特定できた注目単語の語義ごとの周りの文脈に現れ
る証拠に関する４種類の統計情報を前記統計情報記憶部
から読み込み、読み込んだ４種類の統計情報を基に、注
目単語の語義ごとの周りの文脈に現れる証拠からなる確
率依存森を学習し、学習できた注目単語の語義ごとの周
りの分脈に現れる証拠からなる確率依存森を基に、注目
単語の各語義の周りの文脈の条件の下での条件つき確率
を計算し、計算できた条件つき確率のもっとも高い注目
単語の語義を前記出力部に出力する語義曖昧性解消部
と、を備えることを特徴とする。

【００２５】

【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい実施の形態におい
て、注目単語の語義が記されたテキストを記憶するテキ
スト記憶部（図１の１）と、統計情報を記憶する統計情
報記憶部（図１の３）と、統計処理部（図１の２）と、
注目単語の語義が曖昧なテキストを入力する入力部（図
１の６）と、注目単語の語義を出力する出力部（図１の
６）と、語義曖昧性解消部（図１の５）と、を備えて構
成されている。

【００２６】統計処理部（図１の２）は、テキスト記憶
部（図１の１）から注目単語の語義が記されたテキスト
を入力し、入力されたテキストにおける、（ａ）注目単
語の各語義の出現確率、（ｂ）注目単語の語義ごとの周
りの文脈に現れる証拠の出現確率、（ｃ）注目単語の語
義ごとの周りの文脈に現れる二つの証拠の間の共起確
率、及び、（ｄ）注目単語の語義ごとの周りの文脈に現
れる二つの証拠の間の相互情報量、の４種類の統計情報
を計算し、計算された前記４種類の統計情報を統計情報
記憶部（図１の３）に記憶する。

【００２７】語義曖昧性解消部（図１の５）は、入力部
（図１の４）から、注目単語の語義が曖昧なテキストを
入力し、入力されたテキストにおける、注目単語の周り
の文脈に現れる証拠を特定し、特定できた注目単語の語
義ごとの周りの文脈に現れる証拠に関する４種類の統計
情報を統計情報記憶部（図１の３）から読み込み、読み
込んだ４種類の統計情報を基に、注目単語の語義ごとの
周りの文脈に現れる証拠からなる確率依存を学習し、学
習できた注目単語の語義ごとの周りの分脈に現れる証拠
からなる確率依存森を基に、注目単語の各語義の周りの
文脈の条件の下での条件つき確率を計算し、計算できた
条件つき確率のもっとも高い注目単語の語義を出力部
（図１の６）に出力する。

【００２８】上記した本発明の実施の形態について更に
詳細に説明すべく、本発明の実施例について図面を参照
して以下に説明する。

【００２９】

【実施例】本発明の一実施例について説明する。本発明
の実施例に係る語義曖昧性解消装置は、日本語音声合成
システムにおける同形異音語を読み分けるものである。
ここでは、注目する同形異音語が注目単語で、同形異音
語の異なる読みが語義である。

【００３０】図１は本発明の一実施例の語義曖昧性解消
装置の構成の一例を示す図である。図１を参照すると、
本発明の一実施例の語義曖昧性解消装置は、テキスト記
憶部１、統計処理部２、統計情報記憶部３、入力部４、
語義曖昧性解消部５、出力部６を備える。

【００３１】統計処理部２は、テキスト記憶部１から注
目する同形異音語の読みの記されたテキストを入力す
る。

【００３２】図２は、本発明の一実施例として、注目す
る同形異音語の読みの記されたテキストの一例を示す図
である。図２には、「米」が注目する同形異音語で、そ
の各文における読み（べい、こめ）が記されている。

【００３３】統計処理部２は、まず、注目する同形異音
語に対応する確率変数を設ける。その確率変数は注目す
る同形異音語の各読みを値とする。図２に示す例では、
「米」が注目する同形異音語であるので、確率変数「Ｘ
米」を設ける。この確率変数Ｘ米のとる値は、「こめ」
と「べい」である。

【００３４】統計処理部２は、次に、周りの文脈に現れ
る一つの証拠に対して、一つの確率変数を設ける。この
確率変数は、「１」と「０」を値とする。この場合、値
「１」は、対応する証拠が現れることを意味し、値
「０」は、対応する証拠が現れないことを意味する。

【００３５】本実施例の語義曖昧性解消装置では、注目
する同形異音語の周りの文脈に現れる単語を証拠として
いる。ある単語が現れれば、その証拠が現れるとし、そ
の単語が現れなければ、その証拠が現れないとする。

【００３６】図２に示す例では、「米」の周りの文脈
に、「生産」、「流通」、「市場」、「政府」、「国」
という５つの単語が現れたので、証拠は５つある。

【００３７】さらに、５つの証拠に対応する５つの確率
変数を設ける。この場合、確率変数は、「Ｘ生産」、
「Ｘ流通」、「Ｘ市場」、「Ｘ政府」、「Ｘ国」であ
る。

【００３８】統計処理部２は、次に、以下の４種類の統
計情報を計算し、計算できた統計情報を統計情報記憶部
３に記憶する。

【００３９】第１種の統計情報は、注目する同形異音語
の各読みの出現確率である。各読みの出現確率は各読み
の出現度数を基に計算する（次式（１）参照）。

【００４０】Ｐ（Ｘ＝ｉ）＝ｆ（Ｘ＝ｉ）／ｆ …(1)

【００４１】ここで、Ｐ（Ｘ＝ｉ）は、読みがｉである
時の出力確率である。またｆ（Ｘ＝ｉ）は読みがｉであ
る時の出力度数で、ｆは全データの数である。

【００４２】図２に示す例では、Ｐ（Ｘ米＝こめ）＝０．６Ｐ（Ｘ米＝べい）＝０．４となる。

【００４３】第２種の統計情報は、注目する同形異音語
の読みごとの、周りの文脈に現れる各証拠の出現確率で
ある。すなわち、同形異音語の読みごとの、周りの文脈
に現れる証拠に対応する確率変数が「１」と「０」であ
る確率である。

【００４４】例えば、図２に示す例で、読みが「こ
め」、あるいは「べい」である時の確率変数「Ｘ生産」
が「１」、あるいは「０」である確率である。

【００４５】Ｐ(Ｘ＝ｉ)＝(ｆ(Ｘ＝ｉ)＋０．５)／(ｆ＋１)…(2)

【００４６】Ｐ（Ｘ＝ｉ）は証拠に対応する確率変数が
ｉである確率である。ｆ（Ｘ＝ｉ）は証拠に対応する確
率変数がｉである度数である。ｆはその読みの全データ
の数である。

【００４７】読みが「こめ」、あるいは「べい」である
時の、図２に示す例における確率変数が「１」、あるい
は「０」である度数は、図３に示すようなものとなるの
で、それぞれの確率変数が「１」、あるいは「０」であ
る確率の推定値は、図４に示すようなものとなる。

【００４８】第３種の統計情報は、注目する同形異音語
の読みごとの、周りの文脈に現れる二つの証拠間の共起
確率である。すなわち、同形異音語の読みごとの、周り
の文脈に現れる二つの証拠に対応する二つの確率変数が
それぞれ「１」あるいは「０」である確率である。例え
ば、読みが「こめ」、あるいは「べい」である時の確率
変数「Ｘ生産」が「１」で、「Ｘ流通」が「０」である
確率等である。

【００４９】

【００５０】ここで、Ｐ（Ｘ＝ｉ、Ｙ＝ｊ）は、二つの
証拠に対応する確率変数Ｘがｉで、確率変数Ｙがｊであ
る共起確率である。またｆ（Ｘ＝ｉ、Ｙ＝ｊ）は、二つ
の証拠に対応する確率変数Ｘがｉで、確率変数Ｙがｊで
ある度数である。ｆはその読みの全データの数である。

【００５１】読みが「こめ」、あるいは「べい」である
時の、図２に示した例における二つの確率変数の共起度
数は、図５に示したようなものとなり、したがって二つ
の確率変数の共起確率の推定値は、図６に示すようなも
のとなる。

【００５２】次に第４種の統計情報は、注目する同形異
音語の読みごとの、周りの文脈に現れる二つの証拠の間
の相互情報量である。すなわち、注目する同形異音語の
読みごとの、周りの文脈に現れる二つの証拠に対応する
二つの確率変数の間の相互情報量である。例えば、読み
が「こめ」、あるいは「べい」である時の、（Ｘ生産、
Ｘ流通）と（Ｘ生産、Ｘ国）等の間の相互情報量であ
る。これは、第２種の統計情報と第３種の統計情報を基
に計算する。具体的には、確率変数ＸとＹの間の相互情
報量ＭＩ（Ｘ、Ｙ）は、次式（４）に従って計算する。

【００５３】

【数１】

【００５４】図２に示した例における、読みが「こ
め」、あるいは「べい」である時の確率変数の間の相互
情報量は、図７に示すようなものとなる。

【００５５】統計処理部２は、上記４種類の統計情報を
計算した後、これらを統計情報記憶部３に記憶する。

【００５６】語義曖昧性解消部５の処理では、入力部４
が注目する同形異音語の読みが曖昧なテキストを入力す
る。図８に示すのは、その一例である。

【００５７】語義曖昧性解消部５は、入力部４からのテ
キスト入力を受け取り、注目する同形異音語の読みを判
断する。例えば、注目する同形異音語が「米」である場
合、その読みが「こめ」か「べい」かを判断する。以下
では語義曖昧性解消部５の処理について説明する。

【００５８】まず、語義曖昧性解消部５は注目する同形
異音語の周りの文脈に現れる証拠を特定する。例えば、
「米」が「こめ」、あるいは「米」である時の周りの文
脈に現れる証拠を特定する。

【００５９】次に、それらの証拠に対応する確率変数を
用意する。さらに、統計情報記憶部３から、読みごとの
周りの文脈に現れる証拠に関する第２、３、４種類の統
計情報を読み込む。すなわち、読みごとの周りの文脈に
現れる証拠に対応する確率変数に関する第２、３、４種
類の統計情報を読み込む。これと同時に、統計情報記憶
部３から、各読みの出現確率も読み込む。

【００６０】語義曖昧性解消部５は、次に、注目する同
形異音語の読みごとの、周りの文脈に現れる証拠からな
る確率依存森を学習する。すなわち、注目する同形異音
語の読みごとの周りの文脈に現れる証拠に対応する確率
変数からなる確率依存森を学習する。以下ではそのアル
ゴリズムを示す。

【００６１】すべての確率変数ペアに対してその相互情
報量を降順にソートする。さらに、各確率変数をグラフ
の節点と対応させる。相互情報量の大きい順に節点と節
点を結んでいく。その際、相互情報量がある値以上でな
いと辺を結ばない、また、ループを形成するような辺を
結ばない。最終的には、グラフが完成する。図９は、こ
の処理フローを説明するための流れ図である。詳しい学
習アルゴリズムは以下の通りである。

【００６２】１．Ｔ＝｛｝

【００６３】２．すべての確率変数ペアに対してその相
互情報量を検索し、降順でそれをソートし、キューＱに
格納する（ステップ１０１）。

【００６４】３．確率変数の集合｛Ｘ１｝、…、｛Ｘ
ｋ｝の集合をＶＳとおく（ステップ１０２）。

【００６５】

【数２】

【００６６】図１０に、確率依存森を学習する過程を模
式的に示す。注意すべき点は、注目する同形異音語の読
みごとに、このような確率依存森を学習することであ
る。

【００６７】図１１は、図２に示した例に対して、学習
できた確率依存森を示す図である。図１１を参照する
と、確率依存森では、ノードが確率変数を表し、リンク
が確率的依存関係を表す。すなわち、二つのノードがつ
ながっていれば、それらの表す確率変数が依存関係にあ
る。例えば、図１１において、確率変数Ｘ流通とＸ市場
とは依存関係にある。また、二つのノードがつながって
いなければ、これらのノードの表す確率変数は互いに独
立関係にある。

【００６８】語義曖昧性解消部５は、次に統計情報記憶
部３から参照した、注目同形異音語の読みごとの周りの
文脈に現れる証拠に対応する確率変数に関する第２種、
第３種の統計情報を基に、読みごとの確率依存森のノー
ドとリンクにおける確率の値を計算する。

【００６９】まず、確率依存森の中の各確率依存木のル
ートノードを決め、そのルートからその確率依存木の他
のノードへのリンクの方向をつける。それから、ルート
ノードにその確率変数の出現確率の値を付与する。

【００７０】図１１に示す例の場合、ノードＸ流通とＸ
生産がルートであるので、ノードＸ流通に、Ｐ（Ｘ流通
＝１）とＰ（Ｘ流通＝０）の値を付与し、ノードＸ生産
にＰ（Ｘ生産＝１）とＰ（Ｘ生産＝０）の値を付与す
る。

【００７１】次に、有向リンクに条件つき確率の値を付
与する。例えば、Ｘ流通からＸ市場へのリンクにＰ（Ｘ
市場＝１｜Ｘ流通＝０）、Ｐ（Ｘ市場＝１｜Ｘ流通＝
１）等の条件つき確率の値を付与する。

【００７２】これは、Ｐ(Ｘ市場＝１｜Ｘ流通＝１)＝Ｐ(Ｘ市場＝１、Ｘ流通
＝１)／Ｐ(Ｘ流通＝１) のように計算する。

【００７３】語義曖昧性解消部５は、次に、注目する同
形異音語の語義ごとの確率依存森における確率を参照
し、ベーズの定理を使って、各読みの周りの文脈の条件
下で条件つき確率を計算する。具体的には、以下のよう
に計算する。

【００７４】

【数３】

【００７５】語義曖昧性解消部５は、次に、条件つき確
率Ｐ（Ｘ米＝こめ｜Ｘ生産＝１、Ｘ流通＝１、Ｘ市場＝
１）と、Ｐ（Ｘ米＝べい｜Ｘ生産＝１、Ｘ流通＝１、Ｘ
市場＝１）の比較を行う。前者が大きければ、読みが
「こめ」だとし、後者が大きければ、読みが「べい」だ
とする。

【００７６】語義曖昧性解消部５は、次に、注目する同
形異音語の読みを出力部６に出力する。

【００７７】

【発明の効果】以上説明したように、本発明の語義曖昧
性解消装置によれば、注目単語の周りの文脈に現れる証
拠の間の依存関係を考慮して曖昧性解消を行うように構
成したことにより、高精度且つ高性能の曖昧性解消を実
現することができる。

【図面の簡単な説明】

【図１】本発明の一実施例の語義曖昧性解消装置の構成
を示す図である。

【図２】本発明の一実施例を説明するための図であり、
読みの記されたテキストの例を示す図である。

【図３】本発明の一実施例を説明するための図であり、
読みごとの証拠の出現度数の例を示す図である。

【図４】本発明の一実施例を説明するための図であり、
読みごとの証拠の出現確率の例を示す図である。

【図５】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の共起度数の例を示す図である。

【図６】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の共起確率の例を示す図である。

【図７】本発明の一実施例を説明するための図であり、
読みごとの二つの証拠の相互情報量の例を示す図であ
る。

【図８】本発明の一実施例を説明するための図であり、
入力テキストの一例を示す図である。

【図９】本発明の一実施例における、確率依存森の学習
アルゴリズムを説明するための流れ図である。

【図１０】本発明の一実施例を説明するための図であ
り、確率つき依存森の学習過程を示す図である。

【図１１】本発明の一実施例を説明するための図であ
り、学習できた確率依存森の例を示す図である。

【符号の説明】

１テキスト記憶部２統計処理部３統計情報記憶部４入力部５語義曖昧性解消部６出力部

フロントページの続き (56)参考文献福本文代、辻井潤一、「コーパスに基づく動詞の多義解消」、電子情報通信学会技術研究報告、Ｖｏｌ．94、Ｎｏ. 292（ＮＬＣ94 22−25・27−31）、ｐ. 15−ｐ．22（1994) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/20 - 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】注目単語の語義が記されたテキストを記憶
するテキスト記憶部と、統計情報を記憶する統計情報記憶部と、前記テキスト記憶部から注目単語の語義が記されたテキ
ストを入力し、入力されたテキストにおける、（ａ）注目単語の各語義の出現確率、（ｂ）注目単語の語義ごとの周りの文脈に現れる証拠の
出現確率、（ｃ）注目単語の語義ごとの周りの文脈に現れる二つの
証拠の間の共起確率、及び、（ｄ）注目単語の語義ごとの周りの文脈に現れる二つの
証拠の間の相互情報量、の４種類の統計情報を計算し、計算された前記４種類の
統計情報を前記統計情報記憶部に記憶する統計処理部
と、注目単語の語義が曖昧なテキストを入力する入力部と、注目単語の語義を出力する出力部と、前記入力部から、注目単語の語義が曖昧なテキストを入
力し、入力されたテキストにおける、注目単語の周りの文脈に
現れる証拠を特定し、特定できた注目単語の語義ごとの周りの文脈に現れる証
拠に関する前記４種類の統計情報を前記統計情報記憶部
から読み込み、読み込んだ前記４種類の統計情報を基に、注目単語の語
義ごとの周りの文脈に現れる証拠からなる確率依存森を
学習し、学習できた注目単語の語義ごとの周りの分脈に現れる証
拠からなる確率依存森を基に、注目単語の各語義の周り
の文脈の条件の下での条件付き確率を計算し、計算でき
た条件付き確率のもっとも高い注目単語の語義を前記出
力部に出力する語義曖昧性解消部と、を備えることを特徴とする語義曖昧性解消装置。