JPH05242138A

JPH05242138A - 単語ディスアンビギュエーション装置及び方法

Info

Publication number: JPH05242138A
Application number: JP4343914A
Authority: JP
Inventors: Kenneth W Church; ワードチャーチケネス; William A Gale; アーサーゲールウィリアム; David E Yarowsky; エリックワロウスキーディヴィッド
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1991-12-30
Filing date: 1992-12-24
Publication date: 1993-09-21
Also published as: CA2083733A1; KR930014120A; EP0550160A2; EP0550160A3; US5541836A

Abstract

(57)【要約】【目的】単語と意味の対が分脈に対して適当かどうか
を判断するための方法及び装置を提供することを目的と
する。【構成】本件発明においては、当該機械のトレーニン
グ及び検査の双方のために長い文章（１００語）が用い
られ、その検査は当該文章から語彙の重みを加えること
で行われる。その重みは、トレーニング文章の条件付例
文内の語彙の発生確率とトレーニング文章全体のその発
生確率との間の補間によるBayesian技法によって決定さ
れる。更に、本願においては、文章の二か国本体のトレ
ーニングとRoget語彙索引からのカテゴリを用いるトレ
ーニングを含む自動的なトレーニング技術を開示してい
る。

Description

【発明の詳細な説明】

【０００１】

【本件発明の分野】本発明は、一般的には、コンピュー
タ化されたテキスト分析、より詳細には、ある与えられ
た単語／意味ペアがある与えられた背景に対して適当で
あるか否かを決定するための問題に関する。

【０００２】

【従来技術】自然言語テキストの機械翻訳はコンピュー
タ科学及び言語学における研究者の目標である。高品質
機械翻訳における主要な障壁は単語を明確化（ディスア
ンビギュエート）することの困難さである。単語ディス
アンビギュエーション（worddisambiguation ）は任意
の自然言語内の多くの単語が一つ以上の意味を持つため
に必要となる。例えば、英語の名詞「sentence」は一般
的な使用において二つの意味を持つ。一つは文法と関連
し、ここでは、「sentence」はテキスト或はスピーチの
一部である。もう一つは刑罰と関連し、ここでは、「se
ntence」は犯罪者に課せられる刑罰である。人はどの意
味に使われているかを決定するためにその単語が現われ
る背景（context ）及び彼等の世の中についての常識を
使用し、このため以下のようなテキストでも通常問題を
起こさない。「The teacher gave the student the sentence of wri
ting the sentence”I will not throw spit wads”100
times.」

【０００３】しかし、コンピュータは世の中についての
常識を持たず、従って、上のような文をフランス語など
の言語に翻訳するのに多くの問題を持つ。ここでフラン
ス語では、「sentence」を翻訳するのに用いられる単語
は、これが文法上の意味で採用された場合は「phrase
（仏語）」となり、また同じ「sentence」が刑罰の意味
に用いられたときは「peine （仏語）」となる。

【０００４】単語がその中で使用される背景から単語の
可能な意味を決定する能力は、テキスト分析の他の分野
においても重要である。例えば、光学文字認識システム
及び音声認識システムは、通常、書かれた或は話された
単語を小さなセットの可能性に分解するのみであり；こ
の小さなセット内の単語間の選択を行なう一つの方法は
どの単語がその背景に最も合った意味を持つかを決定す
ることから成る。この分野での他の例としては、アクセ
ント或はウムラウトなどのような文字がある単語上に置
かれるべきか否か、或はその単語が大文字にされるべき
か否かを決定する問題である。加えて、スペリングチェ
ッカなどのようなテキスト編集ツール、或はユーザにあ
る単語に対するセットの示唆される代替を提供する対話
型類語辞典がある。これらツールもまたセットの代替が
その意味が背景に合う単語に制限されることによって向
上される。

【０００５】単語の可能な意味をその背景から決定する
ための優れた技法から利益を受けるテキスト分析のもう
一つの領域は、データベース検索である。データベース
語の探索は単に探索用語をデータベース内でその用語が
使用される意味と無関係にそのデータベース内での発生
と比較することによって機能する。探索をある用語の与
えられた意味のみに制限する唯一の方法は、探索者が第
一の探索用語と共に発見することを期待する他の探索用
語を提供する方法である。但し、探索戦略は、第一の用
語が正しい意味を持つが、ただしこれらの他の探索用語
と共に発見されない場合、第一の用語の発生を見逃す。
ある語のどの意味がある背景内に最も合うかを決定する
ための有効な方法が与えられれば、その探索用語のみで
なく、それが使用されている意味をも指定して探索をす
ることが可能になる。

【０００６】過去の研究者らは上に概略された単語ディ
スアンビギュエーション問題に対する３つの異なる一般
的アプローチを使用する。

【０００７】これらは、例えば、Hirst （１９８７）に
よる定性的方法（Qualitative Methods ）；例えば、Le
sk（１９８６）による辞典に基づく方法（Dictionary-b
asedMethods）；及び例えば、Kelly 及びStone （１９
７５）による編集資料に基づく方法（Corpus-based Met
hods）である。

【０００８】各々のケースにおいて、作業が知識取得ボ
トルネックによって制限を受ける。例えば、ＡＩコミュ
ニティの部分には大きなエキスパートを手作業によって
構築する伝統がある。これに関しては、例えば、Grange
r （１９７７）、Rieger（１９７７）、Small 及びRieg
er（１９８７）を参照すること。残念ながら、このアプ
ローチはスケールアップがそれほど容易でなく、多くの
研究者は、以下のように指摘している。”THROW に対す
るエクスパートは現在６ページ長である．．．ただし、
これはこのサイズの１０倍あるべきである（Small 及び
Reiger、１９８Ｘ）

【０００９】この方法はスケールアップが困難であり、
このため多くの作業は”toy ”領域（例えば、Winograd
のBlocks World）或はサブ言語（例えば、Isabelle
（１９８４）、Hirschman （１９８６））に焦点を置か
なければならなかった。今日においては、無制約のテキ
ストに対して要求されるような広範囲をカバーする意味
論的ネットワークを見つけることは不可能である。

【００１０】他の研究者、例えば、Lesk（１９８６）、
Walker（１９８７）、Ide （１９９０、ウォータルー会
議）らは、それらが知識取得ボトルネックを解決できる
かもしれないという希望の下で機械によって読むことが
できる辞書（machine-readable dictionarys、ＭＲ
Ｄ）、例えば、Oxford's Advanced Learner's Dictiona
lyof Current English （ＯＡＬＤＣＥ）に目を向け
た。これら研究者は任意のテキストを読み、このテキス
ト内の各単語に特定の辞書内の特定の意味番号へのポイ
ンタをつけるプログラムの開発を目指す。こうして、例
えば、Leskのプログラムに語句「pine cone 」が与えら
れると、これは、「pine」にＯＡＬＤＣＥ内の「pine」
の第一の意味（一種の常緑樹）へのポインタを付け、そ
して「cone」にＯＡＬＤＣＥ内の第三の意味（ある種の
常緑樹の果実）へのポインタを付ける。Leskのプログラ
ムはこの仕事をその定義内の単語とその多義語（ambigu
ous word）の”近くの”テキスト内の単語間の重複を見
つけることによって達成する。

【００１１】残念ながら、このアプローチは皆が期待す
るほどうまくは行かないように見える。Lesk（１９８
６）はPride and Prejudice の短いサンプルでの５０−
７０％の精度を報告する。問題の一部は辞書の定義はコ
レクション（多義語の特定の意味の背景内において頻繁
に見られる単語）の全てを言及するには短過ぎる。これ
に加えて、辞書は我々が考えるほどの収録範囲（covera
ge）が大きくない。Walker（１９８７）はおそらく新し
いテキスト内に出て来る単語の半分が辞書項目と関連付
けることができないと報告している。

【００１２】このように、ＡＩアプローチと同様に、辞
書に基づくアプローチも知識取得ボトルネックによって
制約される。つまり、辞書は関連する情報を十分に収録
しておらず、また辞書内に収録された情報の多くは、少
なくとも今日においては、コンピュータが簡単に整理で
きるような形式にはなっていない。

【００１３】研究の第三のラインは手作業によって注釈
を付けられた集成資料を使用する。これら研究の殆どは
手作業によって注釈を付けられたテキストがどれだけ入
手できるかによって制約される。このようなテキストが
その語彙内の多義語の殆どに対して大きな量にて入手で
きることは期待しにくいため、このようなアプローチが
無制約のテキストを扱うためにどのようにスケールアッ
プできるかについての重大な疑問がある。Kelly 及びSt
one （１９７５）は５０万単語の集成資料内に少なくと
も２０回出現する単語を選択し、手作業によって１８１
５個のディスアンビギュエーションモデル（disambigua
tion model）を構築している。彼等は各単語に対する背
景（ＫＷＩＣ）用語索引（concordances）内のキー単語
から開始し、これらを背景分析においてそれらがが有効
であると認識されるような意味を確立するために使用す
る。このモデルは規則の順序セットから成り、各々のセ
ットは一つの分類に決定するため、或は同一モデル内の
別の規則にジャンプするため、或はそのモデル内の別の
単語に対する規則にジャンプするための充分な条件を与
える。ある与えられた規則のこれら条件は目標とされる
単語の４単語以内の背景に対する参照を持つ。これらは
目標単語の形態、背景単語そのもの、或は任意の背景単
語の音声或は意味クラスの一部をテストすることができ
る。１６の意味論クラスが手作業によって指定された。

【００１４】最も最近の研究はこれら規則を手作業によ
って構築するには非常に人手がかかるためオートマテッ
クな方法を求めている。Weiss （１９７３）は最初５つ
の単語に対して手作業にて規則セットを構築し、次に、
類似する規則セットを構築するための自動手順を開発
し、これを彼は追加の３つの単語に適用した。残念なこ
とに、このシステムは訓練セットに対してテストされて
おり、このためこれが実際にはどの程度良く機能したか
知ることはできない。

【００１５】Black （１９８７、１９８８）は各単語に
対して約２０００の手作業にてタグを与えた用語索引ラ
インを使用して５つの４−義単語の研究を行なった。各
単語に対して１５００訓練例を使用し、彼のプログラム
はその多義語の背景内の８１の”背景カテゴリ（contex
tual categories ）”の存在或は不在に基づいて判定ツ
リーを構築する。彼は次の３つの異なるタイプの背景カ
テゴリを使用した。つまり、（１）ＬＤＯＣＥ、つま
り、Longman Dictionary of Contemporary English（Lo
ngman 、１９８７）、（２）その多義語の二単語内に最
も頻繁に発生する４１語彙項目、及び（３）その用語索
引ライン内に最も頻繁に発生するファンクション単語を
除く４０の語彙項目が背景カテゴリとして使用された。
Black は辞書カテゴリが最も弱い性能（４７％の精度）
を示し、他の二つは、それぞれ、７２及び７５％の精度
でかなり接近していることを発見した。

【００１６】

【発明が解決しようとする課題】今日では、手作業によ
って注釈を付けられた集成資料に基づくアプローチに熱
心な関心が寄せられている。Hearst（１９９１）の研究
は、この点において、Black （１９８７、１９８８）、
Weiss （１９７３）並びにKelly 及びStone （１９７
５）らと、彼女は他の人が行なったよりもかなり多くの
文脈情報を使用するが、どこか類似するアプローチの非
常に最近の例である。彼女の性能も、これらシステム間
の性能を比較することは困難であるが、他の人のものの
性能よりも幾分良いように思われる。

【００１７】上の議論から分かるように、どの単語／意
味ペアがある与えられた背景に最も良く適するかを決定
するための適当な技法の不在がテキスト分析の多くの領
域において深刻な障壁であった。ここに開示される装置
及び方法の一つの目的は、このような技法を提供するこ
とにある。

【００１８】

【本件発明の要約】一面において、本発明は、ある単語
／意味ペアがあるテキスト内のある与えられた位置に適
当な意味を持つことを自動的に決定するための方法に関
する。この方法は、テキスト内の与えられた位置を含む
そのテキストの１ラインよりもかなり長い単語のシーケ
ンスを決定する段階；及びその単語／意味ペアがそのシ
ーケンスを自動的に分析することによって適当な意味を
持つか否かを決定する段階を含む。

【００１９】もう一面において、本発明は、ある単語／
意味ペアがあるテキスト内のある与えられた位置に適す
る確率を自動的に決定する方法に関する。この方法は、
テキスト内のその与えられた位置を含む単語のシーケン
スを決定する段階；及び「Bayesian弁別技法」を自動的
に採用する段階を含み、このBayesian技法において、シ
ーケンス内の単語及びその単語／意味ペアの意味がその
単語／意味ペアがその与えられた位置に適する意味を持
つ確率を決定するために使用される。

【００２０】さらにもう一面において、本発明は、ある
テキスト内のある単語のある与えられた発生がある与え
られた意味を持つか否かを自動的に決定するための方法
に関する。この方法は、その単語のその与えられた発生
の意味の第一の決定を行なう段階；及びこの第一の決定
をその単語の付近の発生の意味の決定と比較することに
よってその単語のその与えられた発生の意味の最終決定
を行なう段階を含む。

【００２１】本発明の上記及びその他の目的、特徴及び
長所は当業者においては以下の図面及び詳細な説明から
明白となるものである。

【００２２】

【詳細な記述】以下の詳細な説明においては、最初に、
一つの好ましい実施例においてのディスアンビギュエー
ション問題（disambiguation problem）に対する論理的
アプローチの概要が示され、次に、ディスアンビギュエ
ーション問題を解決するための装置について説明され、
そして、最後に、ディスアンビギュエーション問題を解
決するための装置をいかにして訓練するかについて議論
される。

【００２３】Bayesianディスアンビギュエーション技法単語／意味ディスアンビギュエーション（word-sense d
isambiguation ）の問題は、弁別（discrimination）の
問題であり、著者識別（author identification ）や情
報検索と大きく異なる問題ではない。著者識別及び情報
検索においては、問題をテストフェーズ（testing phas
e ）と訓練フェーズ（training phase）に分割するのが
慣習である。訓練フェーズにおいて、我々は、二つ（或
はそれ以上）のセットの資料を与えられ、これら二つ
（或はそれ以上）のクラスの資料を判別することができ
る弁別子（discriminator ）を構築することを要求され
る。これら弁別子が次にテストフェーズにおいて新たな
資料に対して適用される。例えば、著者識別タスクにお
いては、訓練用セットは二人（或はそれ以上の）著者の
各々によって書かれた複数の資料から構成される。この
結果としての弁別子が次にその著者がだれであるかが問
題となっている資料に関してテストされる。情報検索ア
プリケーションにおいては、訓練用セットはセットの一
つ或は複数の関連する資料及びセットのゼロ或は複数の
無関係の資料から構成される。結果としての弁別子が次
により関連するものとあまり関連しないものを分離する
ためにこれらライブラリ内の全ての資料に適用される。
意味ディスアンビギュエーションのケースにおいては、
ある多義単語（polysemous word ）（例えば、duty）の
実例を取り巻く１００単語背景が一つの資料と殆ど同一
の方法にて処理される。

【００２４】これら弁別問題に対してBayesian方法を用
いるのはごく自然である。Mosteller 及びWallace （１
９６４年、セクション３．１）は、連邦主義者論文（Fe
deralist Papers ）の彼らの古典的な著者研究（author
ship study）において、新たな証拠（例えば、資料マト
リックス別の用語）を従来の証拠（例えば、歴史的記
録）と組合わせるために以下の方程式を使用した。

【数３】二つのグループの資料に対して、この方程式は、以下の
ようになる。

【数４】ここで、Ｐは最終確率（probability)を表わし、ｐは初
期確率を表わし、そしてＬは可能性（likelihood）を表
わす。類似の方程式が情報検索に関する参考書内にも見
られる（例えば、Salton（１９８９）、方程式１０．１
７）。

【００２５】初期確率（initial odds）はその問題に依
存する。例えば、著者識別の問題においては、様々な衝
突する歴史的記録から初期確率がこれら資料について知
る所のものをモデル化するために使用される。情報検索
アプリケーションにおいては、ユーザがライブラリの一
部を彼或は彼女が関連ありと期待する推測を持つことが
あり、このような推測が前の確率（prior probabilit
y）として使用される。前の確率はしばしば推測が困難
あるが、これは、結果にあまり重大な影響を与えないこ
とが通常であり、幸いなことである。

【００２６】多くの可能性（likelihoods ）を以下の方
程式のように（適当な独立想定の下で）その資料内のト
ークン（単語の発生）を通じての可能性（likelihoods
）の積に分解するのが通常である。

【数５】

【００２７】この計算に対する重要な成分（ingredient
s ）はその資料がある与えられたクラスからのものであ
るという条件下でのその語彙（vocabulary）内の各用語
の確率である。これら条件付き確率（conditional pro
bability）はそのアプリケーション及び研究に依存して
様々な異なる方法にて計算されている。

【００２８】二つの意味に対しては、上に述べたBayesi
an方程式は以下のようになる。

【数６】ここで、ｐ、Ｐ及びＬは上と同様にそれぞれ初期確率、
最終確率及び可能性である。これら初期確率は資料の総
体内のこれら二つの意味の総確率から決定される。他の
より大きな次元の弁別問題と同様に、可能性は以下のよ
うにトークンを通じての積に分解される。

【数７】

【００２９】単語／意味ディスアンビギュエーションに
おいて使用するための装置：図１図１はある単語／意味ペアがある与えられた背景によっ
て要求される意味を持つ可能性を決定するための装置１
０１を示す。一つの好ましい実施例においては、装置１
０１は可能性の対数である。単語／意味ペア確率の対数
（log word/sense pair likelihood、ＷＳＰＬ）１１７
は意味確率計算機１０３によって計算される。意味確率
計算機１０３への入力はテキスト１１１、単語／意味ペ
ア確率テーブル１０７、及び単語／意味ペア１０５から
来る。単語／意味ペア確率テーブル１０７は興味の対象
となる各単語／意味ペアに対するサブテーブル１０８を
含むテーブルである。各サブテーブル１０８は少なくと
もテキスト１１１内のそれにサブテーブル１０８が対応
する単語／意味ペア１０５が位置１１６に対して適当な
意味を持つか否かの有効な指標を与える全ての単語に対
するエントリ（ＷＳＰＰＴＥ）１２３を含む。あるテキ
スト単語２１に対する各エントリは単語／意味ペア１０
５が適当な意味を持つか否か決定するためのその単語の
重み（weight）１１９の指標を含む。

【００３０】意味確率計算機１０３が任意の単語／意味
ペア１０５がテキスト１１１内の位置Ｐに対して適当で
ある確率を計算しているときに、意味確率計算機１０３
はテキスト１１１から位置１１６より５０単語前より単
語を読むことを開始し、続けて、位置１１６に続く５０
単語を読む。位置１１６を含むこれら１００単語は位置
１１６の背景１１５である。この好ましい実施例の一つ
の重要な面は、背景１１５内に、テキスト１１１の１ラ
イン内に存在するよりもかなり多くの単語を含まれるこ
とであるが、これは約１０単語を含むものと想定され
る。背景１１５から読まれた各現単語（current word、
ＣＷ）１１３に対して、計算機１１３はその単語がテー
ブル１０７内のエントリ１２３を持つか否か決定し、持
つ場合は、そのエントリ内に指定される重みをそれまで
読まれた単語から累積された重みに加える。累積された
重み１１９の値がこうして単語／意味ペア１０５が位置
１１６に対して適当である確率１１７となる。

【００３１】勿論、装置１０１の殆どのアプリケーショ
ンにおいては、問題は、二つ或はそれ以上の単語／意味
ペアのどれが背景１１５に最も良く合うかということで
ある。これを見つけるため、単に、上に説明された装置
１０を各単語／意味ペアに対して順番に使用する方法が
ある。最も高い累積重みを持つペアが位置１１６に最も
合った単語／意味ペアである。例えば、装置１０１が単
語ディスアンビギュエーション用途に使用されている場
合、ディスアンビギュエートされるべき単語の各々の意
味に対して別個の単語／意味ペアが存在し、その単語を
翻訳するために使用される意味として最高の累積重みを
持つ単語／意味ペアの意味が使用される。

【００３２】単語がディスアンビギュエートされると
き、最高の累積重みと次に高い累積重みとの間の差が明
確なディスアンビギュエーションを行なうのに十分でな
いという状況がしばしば発生する。このようなケースに
おいては、ＳＬＣ１０３は他のアプローチをとるこもで
きる。一つのこのようなアプローチはテキスト１１１と
関連する論議主題（discourse ）を分析する方法であ
る。この説明の目的に対しては、論議主題は単一の主題
或はセットの関連する主題に係わる一つ或は複数のテキ
ストである。ある与えられた論議内において、多義語は
一つの意味に使用される傾向がある。例えば、その論議
が文法に係わる場合、懲罰上の意味で使用される「sent
ence」は殆どないと考えて良く、またその議論が犯罪訴
訟に係る場合、文法上の意味で使用される「sentence」
はめったに考えられない。

【００３３】装置１０１を使用して論議主題を分析する
一つの単純な方法は以下の通りである。つまり、その論
議に属するテキストがそのようにマークされ、計算機１
０３が問題の単語に対して明確なディスアンビギュエー
ションが存在する各位置に対して最も適当な意味及び重
みを格納する。通常、複数の可能な意味の一つに非常に
大きな優勢（preponderance ）が存在し、この優勢の意
味が背景１１５の分析のみでは明確にディスアンビギュ
エートできないような状況において使用される。さらに
単純な方法においては、厳密さは欠けるが、ある単語の
隣接する使用は同一の論議主題に属する傾向を持つとい
う事実が利用される。この技法においては、背景１１５
の分析のみでは明確にディスアンビギュエートできない
場合、装置１０１は問題の単語を含む隣りの背景１１５
の調査の結果を適用し、その隣りの背景内の意味から問
題の単語の意味を決定する。

【００３４】一つの好ましい実施例においては、装置１
０１はデジタルコンピュータシステム内に実現される。
テキスト１１１、テーブル１０７、及び単語／意味ペア
１０５はこのコンピュータシステムのデータメモリシス
テム内に格納され、意味確率計算機１０３はそのデジタ
ルコンピュータシステムのプロセッサによって実行され
るプログラム手段として実現される。幾つかの実施例に
おいては、テーブル１０７は読出し専用メモリであり、
意味確率計算機はテーブルの迅速参照ができるようにの
設計された専用プロセッサであり得る。このような実施
例は、例えば、ポケット翻訳デバイス、或は電子タイプ
ライタに有効である。

【００３５】単語／意味ペア確率テーブル１０７の計算概念上、単語／意味ペア確率テーブル１０７はサブテー
ブル１０８の全セットである。少なくとも我々の関心が
置かれるタスクに対して重要である各単語／意味ペアに
対するサブテーブル１０８が存在し、この単語／意味ペ
アに対するサブテーブル１０８は少なくともテキスト１
１１内の各単語に対するエントリを持つ。さらに、本当
に要求されるのは、任意の言語にて書かれた事実上全て
のテキストに対して機能する単語／意味ペア確率テーブ
ル１０７である。ディスアンビギュエーション背景にお
いては、このようなテーブルは概念上は任意の言語内の
各多義語の各単語／意味ペアに対するサブテーブル１０
８を含み、各サブテーブル１０８はその任意の言語内の
全ての単語に対するエントリを含む。勿論、最適化が可
能である。例えば、殆どの単語は、ディスアンビギュエ
ーションにあまり或は全く寄与せず、このような単語は
このテーブルから除外され、単に、省略時の重みが与え
られる。

【００３６】大きな単語／意味ペア確率テーブル１０７
は機械によってのみ計算できることは明白である。当分
野において使用される表現を使用すると、装置１０１の
訓練は自動化されなければならない。訓練は、多くの点
において、上に説明されたテストの逆である。ディスア
ンビギュエーションの背景においては、サブテーブル１
０８がテーブル１０７内に任意の多義語に対してそれら
多義語の既知の意味を含む背景１１５を調べ、その多義
語の可能な意味を推定するためにテストにおいて使用さ
れる可能性のあるその背景内の他の単語を発見すること
によって生成される。例えば、サブテーブル１０８が
「sentence」の懲罰の意味である場合、これら背景は、
通常の英語テキスト内に見られるよりも多くの”judge
（判決）”或は”trial （裁判）”といった単語を含む
可能性があり、これらの単語がテーブル１０７内におい
てこれに応じて重みを与えられる。

【００３７】自動訓練における最も大きな問題は、勿
論、訓練をされている単語が任意の背景１１５内におい
てどの意味を持つかを決定することである。大きなテー
ブル１０７の場合、手作業によって訓練されている単語
を訓練のために使用されている背景１１５内において一
つの意味或は別の意味を持つとして標識を与えることは
明らかに現実的でない。装置１０１の開発に際して、あ
る与えられた背景１１５内において訓練されている単語
の意味を自動的に決定するための二つの技術が発見され
た。これら技術の片方は二か国語で書かれたテキストの
本文を使用し、他方の技術は類語辞典などによって提供
されるような主題カテゴリを使用する。

【００３８】二か国語テキストでの訓練二か国語テキストの本文での訓練は二つの事実を利用す
る。つまり、第一に、第一の言語内の多義の単語の第二
の言語の訳語は通常その多義語の意味を示す。こうし
て、英語の単語「sentence」が「peine （仏語）」に翻
訳された場合、我々は、その英語の単語が懲罰の意味に
使用されていることが分かる。そして「phrase（仏
語）」に翻訳された場合は、我々は、それが文法的な意
味に使用されたことを知る。第二に、現在それらのバー
ジョンが二つの言語にて入手できる機械によって読むこ
とができる多量のテキストが存在する。このような二か
国語テキストの一例として「Canadian Hansards （カナ
ダ国会議事録）」であるが、これは、カナダ議会での討
議を英語及びフランス語の両方にて記録した雑誌であ
る。以下においては、英語バージョンは英語議事録と呼
ばれ、フランス語バージョンはフランス語議事録と呼ば
れる。

【００３９】この好ましい実施例は、カナダ国会議事録
を使用し、ある与えられた多義英単語の一つの意味を以
下のように訓練する。つまり、第一に、英語議事録の本
文全体を対象として統計が集められる。この統計は、英
語版カナダ国会議事録内のトークン（単語及び単語とし
て扱われるフレーズ）の数、及び英語議事録内での各単
語の発生回数を含む。これら統計から、任意の単語が英
語議事録の１００語背景内に発生する確率が計算され
る。

【００４０】次に、英語議事録の条件付きサンプルが与
えられた多義語の要求される意味に対して作成される。
これは、英語議事録内の与えられた多義語の各々の発生
を見つけることによって行なわれる。次に、この発生に
対応するフランス語の単語（或はフレーズ）がフランス
語版カナダ国会議事録内で検出される。多義の英語の発
生に対応するフランス語単語は、Gale、Ｗ．及びＫ．Ch
urchによって”計算言語学学会の第２９回年次会議の議
事録（Proceedings: 29th Annual Meeting ofthe Assoc
iation for Computational Linguistics ）”、１９９
１年、ページ１７７−１８４に発表の論文『二か国語集
成資料内の文を整合するためのプログラム（A Program
for Aligning Sentences in Bilingual Corpora ）』に
おいて説明されるように英語テキストの文章を対応する
フランス語テキストの文章と整合することによって発見
される。発見されると、このフランス語の単語或はフレ
ーズはその任意の単語の発生が要求される意味を持つか
否かを決定する。持つ場合は、この発生のいずれかの側
の５０単語が条件付きサンプルに出力される。訓練にお
ける１００単語背景の使用は装置１０１の動作と同じよ
うに重要であることに注意する。

【００４１】条件付きサンプルがいったん作成される
と、後に詳細に説明されるBayesian技法を用いてこの条
件付きサンプル内の各単語の重みがその与えられた多義
語がその条件付きサンプルを作るのに使用した意味を持
つ確率との関連で決定される。この分析の結果として、
この与えられた多義語及び要求される意味に対して単語
／意味ペア確率テーブル１０７内のサブテーブル１０８
が得られる。図２はこの分析の結果として得られたデー
タの例を示す。テーブル２０１は英単語「duty」の二つ
の意味に対するデータを含む。これら二つの意味は、
「tax （税金）」の意味及び「obligation（義務）」の
意味である。テーブル２０２は税金の意味に対する幾ら
かのデータを示し、テーブル２０３は義務の意味に対す
る幾らかのデータを示す。各テーブルは４つのカラムを
持つ。単語（Word）カラム２０９は条件付きサンプル内
に発見される各単語に対するエントリを持ち；頻度（Fr
equency ）カラム２０７はその条件付きサンプル内でそ
の単語が発生する回数であり；重み（Weight）カラム２
０５は要求される意味を決定するための目的としてその
単語に指定される重みであり；重み＊頻度（Weight*fre
quency）カラム２０４は各単語に対する重みと頻度の積
である。

【００４２】カラム２０４内の値は単語／意味ペアに対
するサブテーブル１０８内にどの単語が含まれるべきか
を決定するために使用される。最も高い積を持つペアは
最も良い指標となる。サブテーブル１０８のサイズはカ
ラム２０４内のそれらの積が所定の値以下である全ての
単語に対して省略時の値を使用することによって縮小す
ることができる。サブテーブル１０８はテーブル２０２
から省略時の値を与えられなかった各単語に対してエン
トリを作ることによって構築される。このエントリはそ
の単語に対して計算された重みを含む。上のことから明
かのように、カナダ国会議事録からの単語意味ペア確率
テーブル１０７の生成は完全に自動化できる。カナダ国
会議事録は機械によって読むことができる形式にて存在
し、カナダ国会議事録内の英語の単語の任意の発生に相
当するフランス単語を検出するための機械技術が存在
し、条件付きサンプルの抽出及び重みの計算もコンピュ
ータによって完全に遂行できる。

【００４３】重みの計算好ましい実施例においては、任意の単語／意味ペアの意
味の決定における任意の語彙単語の重み、ｗｔは以下の
方程式にて定義される。

【数８】ここで、πは任意の語彙単語の条件付き確率であり、ａ
は条件付きサンプル内のこの任意の語彙単語の頻度であ
り、そしてＥはａを与えられたときのπの期待値であ
る。

【００４４】上に定義されたような重みの計算の利点
は、これが条件付きサンプルの１００単語背景内で計算
された単語確率と編成資料全体を通じて計算された単語
確率との間の内挿を与えることである。１００単語背景
内に度々現われる単語に対しては、我々は、局所推定を
重視する傾向にあり、挿間において全体的な背景にはあ
まり大きな重みを置かない。逆に、局所背景内にあまり
頻繁に現われない単語に対しては、我々は、局所推定に
はあまり自信がなく、全体的な推定により大きな重みを
与える傾向にある。この方法の背景にある鍵となる観察
事項は、編成資料全体は要求される条件付き確率とは未
知の関連を持つセットの良く測定された確率を提供し、
一方、条件付きセットは、確かな関連を持つ確率の劣る
推測値を与えるということである。編成資料全体からの
確率の使用は、こうして、バスアスを導入し、一方、条
件付きセットからの確率の使用はランダムエラーを導入
する。我々は、バイアスとランダムエラーとの間のトレ
ードオフを行なうために、大きな編成資料と条件付きサ
ンプルとの間の関連性を決定する。

【００４５】一つの好ましい実施例においては、Ｅ（π
ａ）がテキスト本文全体を任意の単語／意味ペアに対
してサイズｎの条件付きサンプル、及びサイズＮ＞＞ｎ
の残留資料（編成資料全体から条件付きサンプルを差し
引いたもの）に分割することによって計算される。ａを
条件付きサンプル内の任意の語彙単語の頻度であり、Ａ
を残留資料内のその頻度であると想定する。これら頻度
のいずれかはゼロであり得るが、両方がゼロであること
はない。πはその語彙単語の条件付き確率を表わすもの
とする。いずれかのサンプル内のその単語の頻度を知る
前に、我々は、πの値についての我々の無知を以下のよ
うなアンインフォーマティブ分散（uninformative dist
ribution）によって表わすことができる。

【数９】ここで、Ｂ（ｘ、ｙ）はベータ関数（Beta function ）
である。この方法の幾つかのバリエーションはこのアン
インフォーマティブ分散のバリエーションに基づく。π
の決定に関連のあるＮ回の中のＡ回の追加の観察がなさ
れた場合、我々の知識を表わす分散は、以下のようにな
る。

【数１０】

【００４６】残留資料内の対象となる単語のＮ回の観察
の中のＡ回の観察を行ったが、我々は、それらの関連性
（relevance ）については知らない。従って、我々は、
条件付きサンプルを観察する前の我々の知識として以下
の分散を設定する。

【数１１】ここで、０≦ｒ≦１は残留資料の条件付きサンプルに対
する関連性である。ｒ＝０の場合、これは、アンインフ
ォーマティブ分散を与え、一方、ｒ＝１の場合、これは
残留資料を観察した後の分散を与える。これを解釈する
もう一つのやりかたは、確率ｒを持つ場合、我々は、残
留資料と同一線上に立った観察を期待しており、一方、
確率１−ｒのときは、我々はどのような値でも驚かない
ということである。

【００４７】条件サンプル内で問題の単語をｎ個のケー
スの中からａ回観察することと、条件付き確率がπであ
ることの結合確率（joint probability ）は、従って、
以下のように表わすことができる。

【数１２】我々は、こうして、以下のような方程式を得ることがで
きる。

【数１３】及び

【数１４】

【００４８】次にこれを積分することによって以下が与
えられる。

【数１５】

【００４９】これは様々な方法にて近似できるが、但
し、これを直接に以下の関係を使用して計算することが
実際的である。

【数１６】

【００５０】残留資料の条件付きサンプルに対する関連
性を示すパラメータｒは様々な方法によって推定するこ
とができる。基本的な解釈は、条件付き確率を持つ単語
の割合は、（残留サンプルから推定されたときの）それ
らの全体確率（global probabilities）に接近するとい
うことである。こうして、条件付き確率のセットの推定
値が与えられれば、我々は、ｒを対応する全体確率の数
標準偏差内に横たわるそれら単語の割合であると推定す
ることができる。この推定は、条件付きサンプル内に観
察される単語を使用して遂行される。別の見方として、
ｒをこの方法の自由パラメータと見なし、特定のタスク
に関して最適の結果を生成するように調節することもで
きる。各単語に対して変動することもできるが、我々
は、意味弁別用途においては全ての単語に対してｒ＝
０．８を使用し、著者識別用途においてはｒ＝０．９８
を使用している。さらに、上の技法によって計算された
重みは対数値であるという事実は、サンプル内の語彙単
語の発生の確率を掛けるプロセスは、与えられた単語／
意味ペアが以下のように操作できることを意味する。つ
まり、その背景内の語彙単語の各発生に対して、その与
えられた単語／意味ペアに対するサブテーブル１０８内
のその単語の重みが調べられ、語彙単語の前の発生の重
みの総和にこの重みが加えられる。

【００５１】意味のカテゴリを使用しての単語／意味ペ
アの妥当性の決定上に述べたような二か国語テキストの使用は訓練の自動
化を可能にし、結果として重要な進歩といえる。但し、
このような二か国語テキストでの訓練は、欠点を持つ。
第一に、二か国語テキスト内に現れない単語にはいかな
る助けも与えない。このような二か国語テキストは、今
日においては、通常、法律或は政治のテキストであり、
従って、かなり専門化された語彙を持つ。第二に、特
に、かなり類似した語彙を持つ英語とフランス語のよう
な言語に関しては、多義語の翻語自体が多義性をもつ。
ここでの例は英語の単語「interest」である。フランス
語の訳語「interet 」は実質的に英語の相当語の全ての
意味を持つ。後者の問題は、複数言語のテキストを使用
した場合は問題が少なくなる。複数言語のテキストの中
の言語の一つがインド−ヨーロッパ系でないときは、デ
ィスアンビギュエーションは特に楽になる。

【００５２】これら問題は、ある背景に対する単語／意
味ペアの妥当性を決定するためにそれに語彙単語が属す
る意味のカテゴリを使用することによって克服すること
ができる。百科全書及び辞書は通常それらが同意義を与
える単語を分類し、或はカテゴリを定義する。例えば、
Chapman 、Robertは、Roget's International Thesauru
s （第四版）、Harper and Row、New York、１９７７年
出版において、同意義を与える単語を１０４２個の主題
カテゴリに分類する。これらカテゴリは英語テキストの
任意の文にて自動訓練を行なうために使用でき、テキス
ト内の語彙単語間の関係及び主題カテゴリはテストフェ
ーズにおいて二か国語テキストとの関連で上に説明され
たようにある背景に対して適当な単語／意味ペアを決定
するために使用することができる。

【００５３】意味のカテゴリを使用する方法は以下の一
般的な観察に基づく。つまり、１）異なるクラスの単
語、例えば、「ANIMALS （動物）」或は「MACHINES（機
械）」ははっきりと認識できるような背景内に現れる傾
向を持つ。２）異なる単語の意味は異なる概念上のクラ
スに属する傾向を持つ（「crane 」はANIMALでもMACHIN
E でもあり得る）。３）概念上のクラスに対して背景弁
別子を構築できれば、それらクラスのメンバである単語
意味に対する背景弁別子を効果的に構築することができ
る。さらに、Roget カテゴリに対する背景インジケータ
（例えば、TOOLS/MACHINERY カテゴリのgear、piston及
びengine）はまたそのカテゴリのメンバに対する背景イ
ンジケータとなる（例えば、crane の機械的意味を示
す）傾向がある。

【００５４】我々は、これら示唆的単語（indicative w
ords）を以下のようにして識別し、重みを与え、使用す
ることを試みる。つまり、１０４２個のRoget カテゴリ
の各々に対して、Roget カテゴリを表わす背景を集め
（Collect ）、これら集合的な背景内の顕著な単語を識
別し（Identify）、これら単語に適当な重みを与え（We
ight）、そして結果としての重みをテストフェーズにお
いて使用する（Use ）。

【００５５】ステップ１：Roget カテゴリを表わす背景
を集めるこの段階の目的はそれによって訓練が行なわれるテキス
トの本文のセットの語彙単語を集めることであり、これ
らは、典型的には、与えられたRoget カテゴリ内にリス
トされる単語の少なくとも一つを含む背景内に発見され
る。これを行なうため、我々は、そのカテゴリに対する
条件付きサンプルを作る。この条件付きサンプルはその
編成資料内のある与えられたカテゴリの各メンバの各発
生に対する１００個のこれを取り巻く単語から構成され
る。図３はTOOLS/MACHINERY カテゴリ（３４８）内の単
語に対する条件付きサンプルの部分のサンプルセット
（３０１）を示す。完全な条件付きサンプルはこの好ま
しい実施例において訓練のために使用されるテキスト、
つまり、１０ミリオン単語を持つグロリア百科事典（Gr
olier's Encyclopedia）、電子バージョン、１９９１年
６月版、の特定の本文から選択された３０，９２４行を
含む。

【００５６】理想的には、条件サンプルは与えられたカ
テゴリに対する参照のみを含む。但し、実際において
は、これは、（図３の３０３における「drill 」及び３
０５における「crane 」などのように）これら単語の多
くが多義であるために誤った例を含むことが避けられな
い。多義性はこの好ましい実施例においては、この影響
を最小にするために条件付きサンプル内の語彙単語に重
みを与えることによって対処される。この重み付けは、
より一般的なものだけではなく、全ての工具及び機械類
を表わすサンプルを作る役割を果す。重み付けは以下の
ようによって行なわれる。つまり、Roget のカテゴリ内
にリストされる単語、例えば、「drill 」がこの編成資
料内でｋ回発生する場合、「drill 」の背景内の全ての
語彙単語は条件サンプル内のこれら語彙単語に対する頻
度値に重さ１／ｋだけ寄与する。

【００５７】多義性のために導入されるノイズのレベル
はかなり大きいが、あるRoget カテゴリ内の単語のその
カテゴリに属さない意味は１０４１個の他のカテゴリを
通じて分布し、従って、このカテゴリに属さない単語の
意味と関連する語彙単語と任意の一つのカテゴリ間には
強い関連が存在しないが、一方、このカテゴリに属する
これら単語の意味と関連する全ての語彙単語はそのカテ
ゴリと関連するために対処が可能である。あるRoget カ
テゴリ内にリストされる幾つかの単語が単一の異なるRo
get カテゴリ内に二次的意味を持つ場合にのみ、この他
のカテゴリに対して典型的な背景がこの背景内において
有意となる。

【００５８】この欠陥にもかからわず、この条件付きサ
ンプルは、ノイズはあるが、グロリア百科全書内のTOOL
S/MACHINERY の典型的な背景のサンプルの代表として機
能する。

【００５９】ステップ２：条件付きサンプル内の顕著な
単語を識別し、適当な重みを与える。直感的に、顕著な単語は、条件付きサンプル内にテキス
トの他のポイントの所よりも頻繁に現われる単語であ
り、従って、そのカテゴリに対する平均的インジケータ
よりも良い。我々は、これを推定値：Pr(w RCat） Pr
（w ）のような相互情報にて公式化するが、これは、あ
るRoget カテゴリに対する条件付きサンプル内に現れる
語彙単語ｗの確率をテキストの本文内で現われるその語
彙単語の総確率で割った値である。

【００６０】Pr（w RCat）は二か国語テキストのケー
スにおいて語彙単語の重みを計算したときに使用された
のと同一技法を使用して計算することができる。実質的
な差異は上に説明の１／ｋが条件付きサンプル内の語彙
単語の頻度を計算するのに使用されることのみである。
図４はRoget カテゴリ３４８及び４１４、つまり、それ
ぞれ、TOOLS/MACHINERY 及びANIMAL、INSECTに対する最
も重要な顕著な単語を示す。括弧内の数は、与えられた
カテゴリに対する語彙単語の各々の顕著さの対数、つま
り、重み１１９である。カテゴリ４０３及び４０５内に
現われるこれら語彙単語は、単語／意味ペアがある背景
に属するか否かを決定するために最も重要な単語であ
る。上と同様に、重要性は、その語彙単語の重みに条件
付きサンプル内でのその頻度を掛けることによって決定
される。

【００６１】Roget カテゴリに対する顕著な語彙単語は
そのカテゴリ内にリストされない多くの単語を含むこと
に注意する。顕著な語彙単語とは、与えられたカテゴリ
内にリストされた単語と同時に起こる傾向を持つ語彙単
語である。あるカテゴリに対する顕著な語彙単語のリス
トは典型的には３０００語以上を含み、辞書定義から誘
導されるあらゆるリストよりはるかに富んでいる。

【００６２】ステップ３：テストフェーズにおける結果
としての重みの使用テストフェーズにおいては、あるテキスト内のある位置
を取り巻く語彙単語によって示されるRoget カテゴリは
ある単語／意味ペアがその位置に対して適当であるか否
かを決定するために使用される。その単語／意味ペアが
それらの顕著な語彙単語の一つによって示されるのと同
一のRoget カテゴリに属する場合、その単語／意味ペア
がその位置に対して正しいと言う根拠となる。複数の顕
著な語彙単語が現われる場合は、根拠は追加される。以
下に示されるように、テストフェーズは図１との関連で
説明されたように働く。つまり、単語／意味ペアの全て
に対して単語／意味ペア確率テーブル１０７の構築を終
えると、我々は、上に説明した技法を使用してこれら様
々な単語／意味を示すための語彙単語の重みを決定し、
その位置を包囲する１００単語背景内のある位置に対す
る与えられた単語／意味ペアの確率がその背景内の単語
の全ての重みを加えることによって決定される。この装
置がディスアンビギュエーションのために使用されてい
るときは、使用される単語／意味ペアはある単語及びそ
の様々な意味に対するペアである。合計して最も大きな
重みを持つ単語／意味ペアがその背景に最も適したペア
である。

【００６３】例えば、単語「crane 」はグロリア百科全
集内に７４回現われ、３６回の出現は動物上の意味を表
わし、３８回は重機の意味と関連する。このシステム
は、一つの機械的な意味を除いて全てを正しく分類し、
全体として９９％の精度を与える。一つの分類を誤った
ケースは全てのモデルにおいて低いスコアを持ち、全て
の分類において信頼性の欠如を示した。この好ましい実
施例においては、ある単語の意味はその単語が属するRo
get カテゴリ上の意味であると定義される。検索をこの
ように制限することはしばしば有益であるが、この制限
は、場合によっては問題を起こし、類語辞典内にギャッ
プがある場合は特にそうである。例えば、カテゴリAMUS
EMENT （＃８７６）は複数のカードゲーム用語をリスト
するが、単語「suit」は、何らかの理由によってこのリ
スト内に含まれない。このようにグロリア百科全書は、
「suit」のカードゲームでの意味を５４例含むが、これ
らの全ては、検索がRoget 内にリストされる「suit」の
これらカテゴリだけに制限された場合、全て誤ってラベ
ル付けされる。但し、我々が検索を全ての１０４２カテ
ゴリを考慮するように開放すれば、我々は、「suit」の
カードゲーム上の意味の全ての５４例がAMUSEMENT と正
しくラベル付けされることを発見し、さらに、全ての５
４例においてそのスコアは大きく、この指定の大きな信
頼性を示す。無制限検索モードは類語辞典内の脱落を満
たすための良い方法であるように思える。いずれにして
も、「suit」がAMUSEMENT カテゴリに加えられた場合
は、総精度は、６８％から９２％へと向上する。

【００６４】結論上の詳細な説明はテキスト分析技術の専門家にいかにし
て単一ラインよりも大きな背景がある単語／意味ペアが
その背景内のある位置に対して正しいか否かを決定する
ために効果的に使用されるかを開示する。これはまたBa
yesian技法がいかにしてある背景の語彙単語にある与え
られた単語／意味ペアとの関連で重みを与えるために使
用され、またいかにしてこれら重みがその単語／意味ペ
アがその位置に対して適当であるか否かを決定するため
に使用されるかを開示する。これはさらに論議主題内の
多義語の特性がそれら単語をディスアンビギュエートす
るために使用できるかを開示する。詳細な説明はさら
に、ある単語／意味ペアがある位置に対して適当である
か否かを決定するための装置を訓練するための大きな背
景及びBayesian技法の重要性を示し、またいかにして訓
練が二か国語テキストの本文或は単語の意味カテゴリを
使用して自動化できるかを開示する。詳細な説明におい
て示されたように、上のこれら技法は別個に或は特定の
利点が得られるように組合わせて使用される。さらに、
一つの訓練技法は別の技法の短所を直すことができる。
例えば、前に述べたように、フランス国会議事録は単語
「interst 」の様々な意味に関して訓練するのに使用す
ることはできないが、二か国語テキストにて訓練する方
法はこのケースにおいてはRoget のカテゴリを使用する
ことによって補強することができる。ここに開示された
技法の様々なバリエーションがテキスト分析技術の専門
家には明らかである。例えば、ここでは条件付きサンプ
ルを生成するための二つの方法のみが説明されたが、こ
こに開示されるBayesian分析の技法はどのような様式に
よって生成される条件付きサンプルにも適用できる。同
様に、ここに開示される背景は１００単語の長さを持つ
が、単一ラインより十分に長い任意の長さの背景は１０
０単語の背景の長所の幾らかを持つ。最後に、ここに開
示された以外のある論議主題が多義語を一つの意味にの
み使用するという傾向を持つという事実を活用する多く
の技法が採用できる。加えて、当業者においては、単語
／意味ペア確率テーブル１０７及び意味確率計算機１０
３を実現するための多くの方法を知るものである。この
ため、上の詳細な説明は、全ての点において解説及び例
として見なされるべきものであり、限定を意味するもの
ではなく、ここに開示される本発明の範囲は、明細書の
背景及びこれらと等価のものの教義に従って解釈された
ときの特許請求の範囲によってのみ決定されるものであ
る。

【図面の簡単な説明】

【図１】ある単語／意味ペアがある背景に対して適当で
ある確率を決定するための装置のブロック図である。

【図２】図１のテーブル１０７がこれから構築されるデ
ータのテーブルである。

【図３】条件付きサンプルの一部の一例である。

【図４】Roget のカテゴリを使用して計算された重みの
一例である。図面及び詳細の説明において使用される参
照番号は３桁或はそれ以上の桁を持つ。二つの最下位数
字はある図面内の番号であり、残りの桁は図面の番号で
ある。つまり、参照番号”３０５”を持つ要素は、図３
に最初に示される。

【符号の説明】

１０１装置１０３意味確率計算機１０５単語／意味ペア１０７単語／意味ペア確率テーブル１１１テキスト

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウィリアムアーサーゲールアメリカ合衆国 07040 ニュージャーシィ，メイプルウッド，エセックスアヴェニュー 17 (72)発明者ディヴィッドエリックワロウスキーアメリカ合衆国 07901 ニュージャーシィ，サミット，シャディサイドアヴェニュー 20

Claims

【特許請求の範囲】

【請求項１】単語／意味ペアがテキスト内の与えられ
た位置に適する意味を持つことを自動的に決定する方法
において、この方法が：テキスト内の前記与えられた位
置を含み、またテキストの１ラインよりもかなり長い単
語シーケンスを決定し、そして前記シーケンスを自動的
に分析することによって単語／意味ペアが適当な意味を
持つか否かを決定する段階を含むことを特徴とする方
法。
【請求項２】請求項１に記載の方法において、単語シ
ーケンスを決定する段階がその長さが１００単語付近で
あるシーケンスを決定することを特徴とする方法。
【請求項３】請求項１に記載の方法において、前記の
決定が単語／意味ペアが適当な意味を持つか否かを十分
に強く示すか否かを決定する段階、及び前記決定がその
ように示さない場合、前記適当な意味の決定をその付近
における適当な意味のもう一つの決定と比較することに
よって前記適当な意味の最終決定を行なう段階を含むこ
とを特徴とする方法。
【請求項４】請求項１に記載の方法において、前記決
定を行なう段階において、前記シーケンスがBayesian弁
別技法を使用することによって自動的に決定され、この
技法において、前記シーケンス内の単語及び単語／意味
ペアの意味がその単語／意味ペアが与えられた位置に適
する意味を持つ確率を決定するために使用されることを
特徴とする方法。
【請求項５】請求項１に記載の方法において、複数の
単語／意味ペアが存在し、前記決定を行なう段階がこれら単語／意味ペアの各々に
対して遂行され、そしてこの方法が与えられた位置に最
も適する単語／意味ペアを選択する段階を更に含むこと
を特徴とする方法。
【請求項６】請求項５に記載の方法において、前記単
語／意味ペアを選択する段階が前記決定をその付近の位
置における最も適当な意味のもう一つの決定と比較する
段階を含むことを特徴とする方法。
【請求項７】請求項１に記載の方法において、前記決
定を行なう段階が、前記シーケンス内の単語に対して、単語／意味ペアが適
当な意味を持つか否かを決定するために幾つかの単語の
重みを示すテーブル内から重みを得る段階、及び単語／
意味ペアが与えられた位置に適する可能性を決定するた
めにこれら重みを総和する段階を含むことを特徴とする
方法。
【請求項８】請求項７に記載の方法において、複数の
単語／意味ペアが存在し、前記重みを得る段階及び重みを総和する段階が各単語／
意味ペアに対して遂行され、そしてこの方法がさらに単
語／意味ペアが与えられた位置に対して適する最高の可
能性を示す総和重みを持つ単語／意味ペアを選択する段
階を含むことを特徴とする方法。
【請求項９】請求項８に記載の方法において、前記単
語／意味ペアを選択する段階が、選択された単語／意味ペアをその付近における最も適当
な意味のもう一つの決定と比較する段階を含むことを特
徴とする方法。
【請求項１０】請求項１乃至９に記載の方法におい
て、意味／単語ペア内の単語の一回の発生が与えられた
位置にあることを特徴とする方法。
【請求項１１】単語／意味ペア（１０５）がテキスト
（１１１）内の与えられた位置に適する意味を持つか決
定するための装置において、この装置が、前記テキスト内の与えられた位置（１１６）を含み、ま
たテキストの１ラインよりも十分に長い単語シーケンス
（１１５）を得るための手段（１０３）、及び単語／意
味ペアが適当な意味を持つか否かを決定するために前記
シーケンスを分析するための手段（１０３、１０７）を
含むことを特徴とする装置。
【請求項１２】請求項１１に記載の装置において、前
記シーケンスを分析するための手段がさらに、単語／意味ペアが適当な意味を持つか否かを決定するた
めのテキスト内の幾つかの単語の重みを示すテーブル
（１０７）、及び前記シーケンスを前記テーブルからシ
ーケンス内の単語の重みを得て、これら単語の重みを総
和することによってその単語／意味ペアが与えられた位
置に対して適当である可能性を決定することにより分析
する前記シーケンスを分析するための手段を更に含むこ
とを特徴とする装置。
【請求項１３】ある単語／意味ペアがあるテキスト内
のある与えられた位置に対して適当な意味を持つことを
決定するための装置内で使用するための確率テーブルを
作る方法において、このテーブルを作る方法が、単語／意味ペアの意味に意味論的に関連する背景を含む
テキスト総体の条件付きサンプルを作る段階、 Bayesian技法を使用して前記条件付きサンプル内に発生
する各単語に対して、条件付きサンプル内の各単語の重
みを単語／意味ペアのその単語がその単語／意味ペアの
意味を持つ確率との関連で決定する段階、及び与えられ
た重みより大きな重みを持つ発生単語の各々に対してそ
の単語の重みを含むテーブルエントリを作る段階を含む
ことを特徴とする方法。
【請求項１４】請求項１３に記載の方法において、Ba
yesian技法を採用する段階において、条件付きサンプル
内に発生する各単語に対する重みｗｔが方程式【数１】によって決定され、ここで、πはその単語の条件付き確
率を表わし、ａは条件付きサンプル内のその単語の頻度
であり、そしてＥは与えられたａに対するπの期待値で
あることを特徴とする方法。
【請求項１５】請求項１３に記載の方法において、そ
れから条件付きサンプルが作られたテキスト総体の別の
言語への翻訳が存在し、条件付きサンプルを作る段階において、単語／意味ペア
の単語がその単語／意味ペアの意味にて使用されている
かの決定が翻訳文内の対応する単語との参照で行なわれ
ることを特徴とする方法。
【請求項１６】請求項１３に記載の方法において、そ
の単語／意味ペアと同一の意味カテゴリに属するカテゴ
リ化された単語のリストが存在し、条件付きサンプルを作る段階において、背景がこのリス
トからの単語を含むことを特徴とする方法。
【請求項１７】請求項１３に記載の方法において、Ba
yesian技法を使用する段階において、条件付きサンプル
内に起こる各単語に対する重みｗｔが方程式【数２】によって決定され、ここで、πはその単語の条件付き確
率を表わし、ａは条件付きサンプル内のその単語の頻度
であり、そしてＥは与えられたａに対するπの期待値で
あることを特徴とする方法。
【請求項１８】請求項１７に記載の方法において、Ba
yesian技法を採用する段階において、ａがリストからの
ある背景内に含まれる各単語に対して、リストからのそ
の単語がテキストの総体内に現れる回数ｋを決定し、つ
ぎにある単語のそのような背景内の全ての単語に１／ｋ
の重さをａに寄与させることによって派生されることを
特徴とする方法。