JPH05242138A - 単語ディスアンビギュエーション装置及び方法 - Google Patents
単語ディスアンビギュエーション装置及び方法Info
- Publication number
- JPH05242138A JPH05242138A JP4343914A JP34391492A JPH05242138A JP H05242138 A JPH05242138 A JP H05242138A JP 4343914 A JP4343914 A JP 4343914A JP 34391492 A JP34391492 A JP 34391492A JP H05242138 A JPH05242138 A JP H05242138A
- Authority
- JP
- Japan
- Prior art keywords
- word
- meaning
- words
- semantic
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Abstract
(57)【要約】
【目的】 単語と意味の対が分脈に対して適当かどうか
を判断するための方法及び装置を提供することを目的と
する。 【構成】 本件発明においては、当該機械のトレーニン
グ及び検査の双方のために長い文章(100語)が用い
られ、その検査は当該文章から語彙の重みを加えること
で行われる。その重みは、トレーニング文章の条件付例
文内の語彙の発生確率とトレーニング文章全体のその発
生確率との間の補間によるBayesian技法によって決定さ
れる。更に、本願においては、文章の二か国本体のトレ
ーニングとRoget語彙索引からのカテゴリを用いるトレ
ーニングを含む自動的なトレーニング技術を開示してい
る。
を判断するための方法及び装置を提供することを目的と
する。 【構成】 本件発明においては、当該機械のトレーニン
グ及び検査の双方のために長い文章(100語)が用い
られ、その検査は当該文章から語彙の重みを加えること
で行われる。その重みは、トレーニング文章の条件付例
文内の語彙の発生確率とトレーニング文章全体のその発
生確率との間の補間によるBayesian技法によって決定さ
れる。更に、本願においては、文章の二か国本体のトレ
ーニングとRoget語彙索引からのカテゴリを用いるトレ
ーニングを含む自動的なトレーニング技術を開示してい
る。
Description
【0001】
【本件発明の分野】本発明は、一般的には、コンピュー
タ化されたテキスト分析、より詳細には、ある与えられ
た単語/意味ペアがある与えられた背景に対して適当で
あるか否かを決定するための問題に関する。
タ化されたテキスト分析、より詳細には、ある与えられ
た単語/意味ペアがある与えられた背景に対して適当で
あるか否かを決定するための問題に関する。
【0002】
【従来技術】自然言語テキストの機械翻訳はコンピュー
タ科学及び言語学における研究者の目標である。高品質
機械翻訳における主要な障壁は単語を明確化(ディスア
ンビギュエート)することの困難さである。単語ディス
アンビギュエーション(worddisambiguation )は任意
の自然言語内の多くの単語が一つ以上の意味を持つため
に必要となる。例えば、英語の名詞「sentence」は一般
的な使用において二つの意味を持つ。一つは文法と関連
し、ここでは、「sentence」はテキスト或はスピーチの
一部である。もう一つは刑罰と関連し、ここでは、「se
ntence」は犯罪者に課せられる刑罰である。人はどの意
味に使われているかを決定するためにその単語が現われ
る背景(context )及び彼等の世の中についての常識を
使用し、このため以下のようなテキストでも通常問題を
起こさない。 「The teacher gave the student the sentence of wri
ting the sentence”I will not throw spit wads”100
times.」
タ科学及び言語学における研究者の目標である。高品質
機械翻訳における主要な障壁は単語を明確化(ディスア
ンビギュエート)することの困難さである。単語ディス
アンビギュエーション(worddisambiguation )は任意
の自然言語内の多くの単語が一つ以上の意味を持つため
に必要となる。例えば、英語の名詞「sentence」は一般
的な使用において二つの意味を持つ。一つは文法と関連
し、ここでは、「sentence」はテキスト或はスピーチの
一部である。もう一つは刑罰と関連し、ここでは、「se
ntence」は犯罪者に課せられる刑罰である。人はどの意
味に使われているかを決定するためにその単語が現われ
る背景(context )及び彼等の世の中についての常識を
使用し、このため以下のようなテキストでも通常問題を
起こさない。 「The teacher gave the student the sentence of wri
ting the sentence”I will not throw spit wads”100
times.」
【0003】しかし、コンピュータは世の中についての
常識を持たず、従って、上のような文をフランス語など
の言語に翻訳するのに多くの問題を持つ。ここでフラン
ス語では、「sentence」を翻訳するのに用いられる単語
は、これが文法上の意味で採用された場合は「phrase
(仏語)」となり、また同じ「sentence」が刑罰の意味
に用いられたときは「peine (仏語)」となる。
常識を持たず、従って、上のような文をフランス語など
の言語に翻訳するのに多くの問題を持つ。ここでフラン
ス語では、「sentence」を翻訳するのに用いられる単語
は、これが文法上の意味で採用された場合は「phrase
(仏語)」となり、また同じ「sentence」が刑罰の意味
に用いられたときは「peine (仏語)」となる。
【0004】単語がその中で使用される背景から単語の
可能な意味を決定する能力は、テキスト分析の他の分野
においても重要である。例えば、光学文字認識システム
及び音声認識システムは、通常、書かれた或は話された
単語を小さなセットの可能性に分解するのみであり;こ
の小さなセット内の単語間の選択を行なう一つの方法は
どの単語がその背景に最も合った意味を持つかを決定す
ることから成る。この分野での他の例としては、アクセ
ント或はウムラウトなどのような文字がある単語上に置
かれるべきか否か、或はその単語が大文字にされるべき
か否かを決定する問題である。加えて、スペリングチェ
ッカなどのようなテキスト編集ツール、或はユーザにあ
る単語に対するセットの示唆される代替を提供する対話
型類語辞典がある。これらツールもまたセットの代替が
その意味が背景に合う単語に制限されることによって向
上される。
可能な意味を決定する能力は、テキスト分析の他の分野
においても重要である。例えば、光学文字認識システム
及び音声認識システムは、通常、書かれた或は話された
単語を小さなセットの可能性に分解するのみであり;こ
の小さなセット内の単語間の選択を行なう一つの方法は
どの単語がその背景に最も合った意味を持つかを決定す
ることから成る。この分野での他の例としては、アクセ
ント或はウムラウトなどのような文字がある単語上に置
かれるべきか否か、或はその単語が大文字にされるべき
か否かを決定する問題である。加えて、スペリングチェ
ッカなどのようなテキスト編集ツール、或はユーザにあ
る単語に対するセットの示唆される代替を提供する対話
型類語辞典がある。これらツールもまたセットの代替が
その意味が背景に合う単語に制限されることによって向
上される。
【0005】単語の可能な意味をその背景から決定する
ための優れた技法から利益を受けるテキスト分析のもう
一つの領域は、データベース検索である。データベース
語の探索は単に探索用語をデータベース内でその用語が
使用される意味と無関係にそのデータベース内での発生
と比較することによって機能する。探索をある用語の与
えられた意味のみに制限する唯一の方法は、探索者が第
一の探索用語と共に発見することを期待する他の探索用
語を提供する方法である。但し、探索戦略は、第一の用
語が正しい意味を持つが、ただしこれらの他の探索用語
と共に発見されない場合、第一の用語の発生を見逃す。
ある語のどの意味がある背景内に最も合うかを決定する
ための有効な方法が与えられれば、その探索用語のみで
なく、それが使用されている意味をも指定して探索をす
ることが可能になる。
ための優れた技法から利益を受けるテキスト分析のもう
一つの領域は、データベース検索である。データベース
語の探索は単に探索用語をデータベース内でその用語が
使用される意味と無関係にそのデータベース内での発生
と比較することによって機能する。探索をある用語の与
えられた意味のみに制限する唯一の方法は、探索者が第
一の探索用語と共に発見することを期待する他の探索用
語を提供する方法である。但し、探索戦略は、第一の用
語が正しい意味を持つが、ただしこれらの他の探索用語
と共に発見されない場合、第一の用語の発生を見逃す。
ある語のどの意味がある背景内に最も合うかを決定する
ための有効な方法が与えられれば、その探索用語のみで
なく、それが使用されている意味をも指定して探索をす
ることが可能になる。
【0006】過去の研究者らは上に概略された単語ディ
スアンビギュエーション問題に対する3つの異なる一般
的アプローチを使用する。
スアンビギュエーション問題に対する3つの異なる一般
的アプローチを使用する。
【0007】これらは、例えば、Hirst (1987)に
よる定性的方法(Qualitative Methods );例えば、Le
sk(1986)による辞典に基づく方法(Dictionary-b
asedMethods);及び例えば、Kelly 及びStone (19
75)による編集資料に基づく方法(Corpus-based Met
hods)である。
よる定性的方法(Qualitative Methods );例えば、Le
sk(1986)による辞典に基づく方法(Dictionary-b
asedMethods);及び例えば、Kelly 及びStone (19
75)による編集資料に基づく方法(Corpus-based Met
hods)である。
【0008】各々のケースにおいて、作業が知識取得ボ
トルネックによって制限を受ける。例えば、AIコミュ
ニティの部分には大きなエキスパートを手作業によって
構築する伝統がある。これに関しては、例えば、Grange
r (1977)、Rieger(1977)、Small 及びRieg
er(1987)を参照すること。残念ながら、このアプ
ローチはスケールアップがそれほど容易でなく、多くの
研究者は、以下のように指摘している。”THROW に対す
るエクスパートは現在6ページ長である...ただし、
これはこのサイズの10倍あるべきである(Small 及び
Reiger、198X)
トルネックによって制限を受ける。例えば、AIコミュ
ニティの部分には大きなエキスパートを手作業によって
構築する伝統がある。これに関しては、例えば、Grange
r (1977)、Rieger(1977)、Small 及びRieg
er(1987)を参照すること。残念ながら、このアプ
ローチはスケールアップがそれほど容易でなく、多くの
研究者は、以下のように指摘している。”THROW に対す
るエクスパートは現在6ページ長である...ただし、
これはこのサイズの10倍あるべきである(Small 及び
Reiger、198X)
【0009】この方法はスケールアップが困難であり、
このため多くの作業は”toy ”領域(例えば、Winograd
のBlocks World)或はサブ言語(例えば、Isabelle
(1984)、Hirschman (1986))に焦点を置か
なければならなかった。今日においては、無制約のテキ
ストに対して要求されるような広範囲をカバーする意味
論的ネットワークを見つけることは不可能である。
このため多くの作業は”toy ”領域(例えば、Winograd
のBlocks World)或はサブ言語(例えば、Isabelle
(1984)、Hirschman (1986))に焦点を置か
なければならなかった。今日においては、無制約のテキ
ストに対して要求されるような広範囲をカバーする意味
論的ネットワークを見つけることは不可能である。
【0010】他の研究者、例えば、Lesk(1986)、
Walker(1987)、Ide (1990、ウォータルー会
議)らは、それらが知識取得ボトルネックを解決できる
かもしれないという希望の下で機械によって読むことが
できる辞書(machine-readable dictionarys、MR
D)、例えば、Oxford's Advanced Learner's Dictiona
lyof Current English (OALDCE)に目を向け
た。これら研究者は任意のテキストを読み、このテキス
ト内の各単語に特定の辞書内の特定の意味番号へのポイ
ンタをつけるプログラムの開発を目指す。こうして、例
えば、Leskのプログラムに語句「pine cone 」が与えら
れると、これは、「pine」にOALDCE内の「pine」
の第一の意味(一種の常緑樹)へのポインタを付け、そ
して「cone」にOALDCE内の第三の意味(ある種の
常緑樹の果実)へのポインタを付ける。Leskのプログラ
ムはこの仕事をその定義内の単語とその多義語(ambigu
ous word)の”近くの”テキスト内の単語間の重複を見
つけることによって達成する。
Walker(1987)、Ide (1990、ウォータルー会
議)らは、それらが知識取得ボトルネックを解決できる
かもしれないという希望の下で機械によって読むことが
できる辞書(machine-readable dictionarys、MR
D)、例えば、Oxford's Advanced Learner's Dictiona
lyof Current English (OALDCE)に目を向け
た。これら研究者は任意のテキストを読み、このテキス
ト内の各単語に特定の辞書内の特定の意味番号へのポイ
ンタをつけるプログラムの開発を目指す。こうして、例
えば、Leskのプログラムに語句「pine cone 」が与えら
れると、これは、「pine」にOALDCE内の「pine」
の第一の意味(一種の常緑樹)へのポインタを付け、そ
して「cone」にOALDCE内の第三の意味(ある種の
常緑樹の果実)へのポインタを付ける。Leskのプログラ
ムはこの仕事をその定義内の単語とその多義語(ambigu
ous word)の”近くの”テキスト内の単語間の重複を見
つけることによって達成する。
【0011】残念ながら、このアプローチは皆が期待す
るほどうまくは行かないように見える。Lesk(198
6)はPride and Prejudice の短いサンプルでの50−
70%の精度を報告する。問題の一部は辞書の定義はコ
レクション(多義語の特定の意味の背景内において頻繁
に見られる単語)の全てを言及するには短過ぎる。これ
に加えて、辞書は我々が考えるほどの収録範囲(covera
ge)が大きくない。Walker(1987)はおそらく新し
いテキスト内に出て来る単語の半分が辞書項目と関連付
けることができないと報告している。
るほどうまくは行かないように見える。Lesk(198
6)はPride and Prejudice の短いサンプルでの50−
70%の精度を報告する。問題の一部は辞書の定義はコ
レクション(多義語の特定の意味の背景内において頻繁
に見られる単語)の全てを言及するには短過ぎる。これ
に加えて、辞書は我々が考えるほどの収録範囲(covera
ge)が大きくない。Walker(1987)はおそらく新し
いテキスト内に出て来る単語の半分が辞書項目と関連付
けることができないと報告している。
【0012】このように、AIアプローチと同様に、辞
書に基づくアプローチも知識取得ボトルネックによって
制約される。つまり、辞書は関連する情報を十分に収録
しておらず、また辞書内に収録された情報の多くは、少
なくとも今日においては、コンピュータが簡単に整理で
きるような形式にはなっていない。
書に基づくアプローチも知識取得ボトルネックによって
制約される。つまり、辞書は関連する情報を十分に収録
しておらず、また辞書内に収録された情報の多くは、少
なくとも今日においては、コンピュータが簡単に整理で
きるような形式にはなっていない。
【0013】研究の第三のラインは手作業によって注釈
を付けられた集成資料を使用する。これら研究の殆どは
手作業によって注釈を付けられたテキストがどれだけ入
手できるかによって制約される。このようなテキストが
その語彙内の多義語の殆どに対して大きな量にて入手で
きることは期待しにくいため、このようなアプローチが
無制約のテキストを扱うためにどのようにスケールアッ
プできるかについての重大な疑問がある。Kelly 及びSt
one (1975)は50万単語の集成資料内に少なくと
も20回出現する単語を選択し、手作業によって181
5個のディスアンビギュエーションモデル(disambigua
tion model)を構築している。彼等は各単語に対する背
景(KWIC)用語索引(concordances)内のキー単語
から開始し、これらを背景分析においてそれらがが有効
であると認識されるような意味を確立するために使用す
る。このモデルは規則の順序セットから成り、各々のセ
ットは一つの分類に決定するため、或は同一モデル内の
別の規則にジャンプするため、或はそのモデル内の別の
単語に対する規則にジャンプするための充分な条件を与
える。ある与えられた規則のこれら条件は目標とされる
単語の4単語以内の背景に対する参照を持つ。これらは
目標単語の形態、背景単語そのもの、或は任意の背景単
語の音声或は意味クラスの一部をテストすることができ
る。16の意味論クラスが手作業によって指定された。
を付けられた集成資料を使用する。これら研究の殆どは
手作業によって注釈を付けられたテキストがどれだけ入
手できるかによって制約される。このようなテキストが
その語彙内の多義語の殆どに対して大きな量にて入手で
きることは期待しにくいため、このようなアプローチが
無制約のテキストを扱うためにどのようにスケールアッ
プできるかについての重大な疑問がある。Kelly 及びSt
one (1975)は50万単語の集成資料内に少なくと
も20回出現する単語を選択し、手作業によって181
5個のディスアンビギュエーションモデル(disambigua
tion model)を構築している。彼等は各単語に対する背
景(KWIC)用語索引(concordances)内のキー単語
から開始し、これらを背景分析においてそれらがが有効
であると認識されるような意味を確立するために使用す
る。このモデルは規則の順序セットから成り、各々のセ
ットは一つの分類に決定するため、或は同一モデル内の
別の規則にジャンプするため、或はそのモデル内の別の
単語に対する規則にジャンプするための充分な条件を与
える。ある与えられた規則のこれら条件は目標とされる
単語の4単語以内の背景に対する参照を持つ。これらは
目標単語の形態、背景単語そのもの、或は任意の背景単
語の音声或は意味クラスの一部をテストすることができ
る。16の意味論クラスが手作業によって指定された。
【0014】最も最近の研究はこれら規則を手作業によ
って構築するには非常に人手がかかるためオートマテッ
クな方法を求めている。Weiss (1973)は最初5つ
の単語に対して手作業にて規則セットを構築し、次に、
類似する規則セットを構築するための自動手順を開発
し、これを彼は追加の3つの単語に適用した。残念なこ
とに、このシステムは訓練セットに対してテストされて
おり、このためこれが実際にはどの程度良く機能したか
知ることはできない。
って構築するには非常に人手がかかるためオートマテッ
クな方法を求めている。Weiss (1973)は最初5つ
の単語に対して手作業にて規則セットを構築し、次に、
類似する規則セットを構築するための自動手順を開発
し、これを彼は追加の3つの単語に適用した。残念なこ
とに、このシステムは訓練セットに対してテストされて
おり、このためこれが実際にはどの程度良く機能したか
知ることはできない。
【0015】Black (1987、1988)は各単語に
対して約2000の手作業にてタグを与えた用語索引ラ
インを使用して5つの4−義単語の研究を行なった。各
単語に対して1500訓練例を使用し、彼のプログラム
はその多義語の背景内の81の”背景カテゴリ(contex
tual categories )”の存在或は不在に基づいて判定ツ
リーを構築する。彼は次の3つの異なるタイプの背景カ
テゴリを使用した。つまり、(1)LDOCE、つま
り、Longman Dictionary of Contemporary English(Lo
ngman 、1987)、(2)その多義語の二単語内に最
も頻繁に発生する41語彙項目、及び(3)その用語索
引ライン内に最も頻繁に発生するファンクション単語を
除く40の語彙項目が背景カテゴリとして使用された。
Black は辞書カテゴリが最も弱い性能(47%の精度)
を示し、他の二つは、それぞれ、72及び75%の精度
でかなり接近していることを発見した。
対して約2000の手作業にてタグを与えた用語索引ラ
インを使用して5つの4−義単語の研究を行なった。各
単語に対して1500訓練例を使用し、彼のプログラム
はその多義語の背景内の81の”背景カテゴリ(contex
tual categories )”の存在或は不在に基づいて判定ツ
リーを構築する。彼は次の3つの異なるタイプの背景カ
テゴリを使用した。つまり、(1)LDOCE、つま
り、Longman Dictionary of Contemporary English(Lo
ngman 、1987)、(2)その多義語の二単語内に最
も頻繁に発生する41語彙項目、及び(3)その用語索
引ライン内に最も頻繁に発生するファンクション単語を
除く40の語彙項目が背景カテゴリとして使用された。
Black は辞書カテゴリが最も弱い性能(47%の精度)
を示し、他の二つは、それぞれ、72及び75%の精度
でかなり接近していることを発見した。
【0016】
【発明が解決しようとする課題】今日では、手作業によ
って注釈を付けられた集成資料に基づくアプローチに熱
心な関心が寄せられている。Hearst(1991)の研究
は、この点において、Black (1987、1988)、
Weiss (1973)並びにKelly 及びStone (197
5)らと、彼女は他の人が行なったよりもかなり多くの
文脈情報を使用するが、どこか類似するアプローチの非
常に最近の例である。彼女の性能も、これらシステム間
の性能を比較することは困難であるが、他の人のものの
性能よりも幾分良いように思われる。
って注釈を付けられた集成資料に基づくアプローチに熱
心な関心が寄せられている。Hearst(1991)の研究
は、この点において、Black (1987、1988)、
Weiss (1973)並びにKelly 及びStone (197
5)らと、彼女は他の人が行なったよりもかなり多くの
文脈情報を使用するが、どこか類似するアプローチの非
常に最近の例である。彼女の性能も、これらシステム間
の性能を比較することは困難であるが、他の人のものの
性能よりも幾分良いように思われる。
【0017】上の議論から分かるように、どの単語/意
味ペアがある与えられた背景に最も良く適するかを決定
するための適当な技法の不在がテキスト分析の多くの領
域において深刻な障壁であった。ここに開示される装置
及び方法の一つの目的は、このような技法を提供するこ
とにある。
味ペアがある与えられた背景に最も良く適するかを決定
するための適当な技法の不在がテキスト分析の多くの領
域において深刻な障壁であった。ここに開示される装置
及び方法の一つの目的は、このような技法を提供するこ
とにある。
【0018】
【本件発明の要約】一面において、本発明は、ある単語
/意味ペアがあるテキスト内のある与えられた位置に適
当な意味を持つことを自動的に決定するための方法に関
する。この方法は、テキスト内の与えられた位置を含む
そのテキストの1ラインよりもかなり長い単語のシーケ
ンスを決定する段階;及びその単語/意味ペアがそのシ
ーケンスを自動的に分析することによって適当な意味を
持つか否かを決定する段階を含む。
/意味ペアがあるテキスト内のある与えられた位置に適
当な意味を持つことを自動的に決定するための方法に関
する。この方法は、テキスト内の与えられた位置を含む
そのテキストの1ラインよりもかなり長い単語のシーケ
ンスを決定する段階;及びその単語/意味ペアがそのシ
ーケンスを自動的に分析することによって適当な意味を
持つか否かを決定する段階を含む。
【0019】もう一面において、本発明は、ある単語/
意味ペアがあるテキスト内のある与えられた位置に適す
る確率を自動的に決定する方法に関する。この方法は、
テキスト内のその与えられた位置を含む単語のシーケン
スを決定する段階;及び「Bayesian弁別技法」を自動的
に採用する段階を含み、このBayesian技法において、シ
ーケンス内の単語及びその単語/意味ペアの意味がその
単語/意味ペアがその与えられた位置に適する意味を持
つ確率を決定するために使用される。
意味ペアがあるテキスト内のある与えられた位置に適す
る確率を自動的に決定する方法に関する。この方法は、
テキスト内のその与えられた位置を含む単語のシーケン
スを決定する段階;及び「Bayesian弁別技法」を自動的
に採用する段階を含み、このBayesian技法において、シ
ーケンス内の単語及びその単語/意味ペアの意味がその
単語/意味ペアがその与えられた位置に適する意味を持
つ確率を決定するために使用される。
【0020】さらにもう一面において、本発明は、ある
テキスト内のある単語のある与えられた発生がある与え
られた意味を持つか否かを自動的に決定するための方法
に関する。この方法は、その単語のその与えられた発生
の意味の第一の決定を行なう段階;及びこの第一の決定
をその単語の付近の発生の意味の決定と比較することに
よってその単語のその与えられた発生の意味の最終決定
を行なう段階を含む。
テキスト内のある単語のある与えられた発生がある与え
られた意味を持つか否かを自動的に決定するための方法
に関する。この方法は、その単語のその与えられた発生
の意味の第一の決定を行なう段階;及びこの第一の決定
をその単語の付近の発生の意味の決定と比較することに
よってその単語のその与えられた発生の意味の最終決定
を行なう段階を含む。
【0021】本発明の上記及びその他の目的、特徴及び
長所は当業者においては以下の図面及び詳細な説明から
明白となるものである。
長所は当業者においては以下の図面及び詳細な説明から
明白となるものである。
【0022】
【詳細な記述】以下の詳細な説明においては、最初に、
一つの好ましい実施例においてのディスアンビギュエー
ション問題(disambiguation problem)に対する論理的
アプローチの概要が示され、次に、ディスアンビギュエ
ーション問題を解決するための装置について説明され、
そして、最後に、ディスアンビギュエーション問題を解
決するための装置をいかにして訓練するかについて議論
される。
一つの好ましい実施例においてのディスアンビギュエー
ション問題(disambiguation problem)に対する論理的
アプローチの概要が示され、次に、ディスアンビギュエ
ーション問題を解決するための装置について説明され、
そして、最後に、ディスアンビギュエーション問題を解
決するための装置をいかにして訓練するかについて議論
される。
【0023】Bayesianディスアンビギュエーション技法 単語/意味ディスアンビギュエーション(word-sense d
isambiguation )の問題は、弁別(discrimination)の
問題であり、著者識別(author identification )や情
報検索と大きく異なる問題ではない。著者識別及び情報
検索においては、問題をテストフェーズ(testing phas
e )と訓練フェーズ(training phase)に分割するのが
慣習である。訓練フェーズにおいて、我々は、二つ(或
はそれ以上)のセットの資料を与えられ、これら二つ
(或はそれ以上)のクラスの資料を判別することができ
る弁別子(discriminator )を構築することを要求され
る。これら弁別子が次にテストフェーズにおいて新たな
資料に対して適用される。例えば、著者識別タスクにお
いては、訓練用セットは二人(或はそれ以上の)著者の
各々によって書かれた複数の資料から構成される。この
結果としての弁別子が次にその著者がだれであるかが問
題となっている資料に関してテストされる。情報検索ア
プリケーションにおいては、訓練用セットはセットの一
つ或は複数の関連する資料及びセットのゼロ或は複数の
無関係の資料から構成される。結果としての弁別子が次
により関連するものとあまり関連しないものを分離する
ためにこれらライブラリ内の全ての資料に適用される。
意味ディスアンビギュエーションのケースにおいては、
ある多義単語(polysemous word )(例えば、duty)の
実例を取り巻く100単語背景が一つの資料と殆ど同一
の方法にて処理される。
isambiguation )の問題は、弁別(discrimination)の
問題であり、著者識別(author identification )や情
報検索と大きく異なる問題ではない。著者識別及び情報
検索においては、問題をテストフェーズ(testing phas
e )と訓練フェーズ(training phase)に分割するのが
慣習である。訓練フェーズにおいて、我々は、二つ(或
はそれ以上)のセットの資料を与えられ、これら二つ
(或はそれ以上)のクラスの資料を判別することができ
る弁別子(discriminator )を構築することを要求され
る。これら弁別子が次にテストフェーズにおいて新たな
資料に対して適用される。例えば、著者識別タスクにお
いては、訓練用セットは二人(或はそれ以上の)著者の
各々によって書かれた複数の資料から構成される。この
結果としての弁別子が次にその著者がだれであるかが問
題となっている資料に関してテストされる。情報検索ア
プリケーションにおいては、訓練用セットはセットの一
つ或は複数の関連する資料及びセットのゼロ或は複数の
無関係の資料から構成される。結果としての弁別子が次
により関連するものとあまり関連しないものを分離する
ためにこれらライブラリ内の全ての資料に適用される。
意味ディスアンビギュエーションのケースにおいては、
ある多義単語(polysemous word )(例えば、duty)の
実例を取り巻く100単語背景が一つの資料と殆ど同一
の方法にて処理される。
【0024】これら弁別問題に対してBayesian方法を用
いるのはごく自然である。Mosteller 及びWallace (1
964年、セクション3.1)は、連邦主義者論文(Fe
deralist Papers )の彼らの古典的な著者研究(author
ship study)において、新たな証拠(例えば、資料マト
リックス別の用語)を従来の証拠(例えば、歴史的記
録)と組合わせるために以下の方程式を使用した。
いるのはごく自然である。Mosteller 及びWallace (1
964年、セクション3.1)は、連邦主義者論文(Fe
deralist Papers )の彼らの古典的な著者研究(author
ship study)において、新たな証拠(例えば、資料マト
リックス別の用語)を従来の証拠(例えば、歴史的記
録)と組合わせるために以下の方程式を使用した。
【数3】 二つのグループの資料に対して、この方程式は、以下の
ようになる。
ようになる。
【数4】 ここで、Pは最終確率(probability)を表わし、pは初
期確率を表わし、そしてLは可能性(likelihood)を表
わす。類似の方程式が情報検索に関する参考書内にも見
られる(例えば、Salton(1989)、方程式10.1
7)。
期確率を表わし、そしてLは可能性(likelihood)を表
わす。類似の方程式が情報検索に関する参考書内にも見
られる(例えば、Salton(1989)、方程式10.1
7)。
【0025】初期確率(initial odds)はその問題に依
存する。例えば、著者識別の問題においては、様々な衝
突する歴史的記録から初期確率がこれら資料について知
る所のものをモデル化するために使用される。情報検索
アプリケーションにおいては、ユーザがライブラリの一
部を彼或は彼女が関連ありと期待する推測を持つことが
あり、このような推測が前の確率(prior probabilit
y) として使用される。前の確率はしばしば推測が困難
あるが、これは、結果にあまり重大な影響を与えないこ
とが通常であり、幸いなことである。
存する。例えば、著者識別の問題においては、様々な衝
突する歴史的記録から初期確率がこれら資料について知
る所のものをモデル化するために使用される。情報検索
アプリケーションにおいては、ユーザがライブラリの一
部を彼或は彼女が関連ありと期待する推測を持つことが
あり、このような推測が前の確率(prior probabilit
y) として使用される。前の確率はしばしば推測が困難
あるが、これは、結果にあまり重大な影響を与えないこ
とが通常であり、幸いなことである。
【0026】多くの可能性(likelihoods )を以下の方
程式のように(適当な独立想定の下で)その資料内のト
ークン(単語の発生)を通じての可能性(likelihoods
)の積に分解するのが通常である。
程式のように(適当な独立想定の下で)その資料内のト
ークン(単語の発生)を通じての可能性(likelihoods
)の積に分解するのが通常である。
【数5】
【0027】この計算に対する重要な成分(ingredient
s )はその資料がある与えられたクラスからのものであ
るという条件下でのその語彙(vocabulary)内の各用語
の確率である。これら条件付き確率(conditional pro
bability)はそのアプリケーション及び研究に依存して
様々な異なる方法にて計算されている。
s )はその資料がある与えられたクラスからのものであ
るという条件下でのその語彙(vocabulary)内の各用語
の確率である。これら条件付き確率(conditional pro
bability)はそのアプリケーション及び研究に依存して
様々な異なる方法にて計算されている。
【0028】二つの意味に対しては、上に述べたBayesi
an方程式は以下のようになる。
an方程式は以下のようになる。
【数6】 ここで、p、P及びLは上と同様にそれぞれ初期確率、
最終確率及び可能性である。これら初期確率は資料の総
体内のこれら二つの意味の総確率から決定される。他の
より大きな次元の弁別問題と同様に、可能性は以下のよ
うにトークンを通じての積に分解される。
最終確率及び可能性である。これら初期確率は資料の総
体内のこれら二つの意味の総確率から決定される。他の
より大きな次元の弁別問題と同様に、可能性は以下のよ
うにトークンを通じての積に分解される。
【数7】
【0029】単語/意味ディスアンビギュエーションに
おいて使用するための装置:図1 図1はある単語/意味ペアがある与えられた背景によっ
て要求される意味を持つ可能性を決定するための装置1
01を示す。一つの好ましい実施例においては、装置1
01は可能性の対数である。単語/意味ペア確率の対数
(log word/sense pair likelihood、WSPL)117
は意味確率計算機103によって計算される。意味確率
計算機103への入力はテキスト111、単語/意味ペ
ア確率テーブル107、及び単語/意味ペア105から
来る。単語/意味ペア確率テーブル107は興味の対象
となる各単語/意味ペアに対するサブテーブル108を
含むテーブルである。各サブテーブル108は少なくと
もテキスト111内のそれにサブテーブル108が対応
する単語/意味ペア105が位置116に対して適当な
意味を持つか否かの有効な指標を与える全ての単語に対
するエントリ(WSPPTE)123を含む。あるテキ
スト単語21に対する各エントリは単語/意味ペア10
5が適当な意味を持つか否か決定するためのその単語の
重み(weight)119の指標を含む。
おいて使用するための装置:図1 図1はある単語/意味ペアがある与えられた背景によっ
て要求される意味を持つ可能性を決定するための装置1
01を示す。一つの好ましい実施例においては、装置1
01は可能性の対数である。単語/意味ペア確率の対数
(log word/sense pair likelihood、WSPL)117
は意味確率計算機103によって計算される。意味確率
計算機103への入力はテキスト111、単語/意味ペ
ア確率テーブル107、及び単語/意味ペア105から
来る。単語/意味ペア確率テーブル107は興味の対象
となる各単語/意味ペアに対するサブテーブル108を
含むテーブルである。各サブテーブル108は少なくと
もテキスト111内のそれにサブテーブル108が対応
する単語/意味ペア105が位置116に対して適当な
意味を持つか否かの有効な指標を与える全ての単語に対
するエントリ(WSPPTE)123を含む。あるテキ
スト単語21に対する各エントリは単語/意味ペア10
5が適当な意味を持つか否か決定するためのその単語の
重み(weight)119の指標を含む。
【0030】意味確率計算機103が任意の単語/意味
ペア105がテキスト111内の位置Pに対して適当で
ある確率を計算しているときに、意味確率計算機103
はテキスト111から位置116より50単語前より単
語を読むことを開始し、続けて、位置116に続く50
単語を読む。位置116を含むこれら100単語は位置
116の背景115である。この好ましい実施例の一つ
の重要な面は、背景115内に、テキスト111の1ラ
イン内に存在するよりもかなり多くの単語を含まれるこ
とであるが、これは約10単語を含むものと想定され
る。背景115から読まれた各現単語(current word、
CW)113に対して、計算機113はその単語がテー
ブル107内のエントリ123を持つか否か決定し、持
つ場合は、そのエントリ内に指定される重みをそれまで
読まれた単語から累積された重みに加える。累積された
重み119の値がこうして単語/意味ペア105が位置
116に対して適当である確率117となる。
ペア105がテキスト111内の位置Pに対して適当で
ある確率を計算しているときに、意味確率計算機103
はテキスト111から位置116より50単語前より単
語を読むことを開始し、続けて、位置116に続く50
単語を読む。位置116を含むこれら100単語は位置
116の背景115である。この好ましい実施例の一つ
の重要な面は、背景115内に、テキスト111の1ラ
イン内に存在するよりもかなり多くの単語を含まれるこ
とであるが、これは約10単語を含むものと想定され
る。背景115から読まれた各現単語(current word、
CW)113に対して、計算機113はその単語がテー
ブル107内のエントリ123を持つか否か決定し、持
つ場合は、そのエントリ内に指定される重みをそれまで
読まれた単語から累積された重みに加える。累積された
重み119の値がこうして単語/意味ペア105が位置
116に対して適当である確率117となる。
【0031】勿論、装置101の殆どのアプリケーショ
ンにおいては、問題は、二つ或はそれ以上の単語/意味
ペアのどれが背景115に最も良く合うかということで
ある。これを見つけるため、単に、上に説明された装置
10を各単語/意味ペアに対して順番に使用する方法が
ある。最も高い累積重みを持つペアが位置116に最も
合った単語/意味ペアである。例えば、装置101が単
語ディスアンビギュエーション用途に使用されている場
合、ディスアンビギュエートされるべき単語の各々の意
味に対して別個の単語/意味ペアが存在し、その単語を
翻訳するために使用される意味として最高の累積重みを
持つ単語/意味ペアの意味が使用される。
ンにおいては、問題は、二つ或はそれ以上の単語/意味
ペアのどれが背景115に最も良く合うかということで
ある。これを見つけるため、単に、上に説明された装置
10を各単語/意味ペアに対して順番に使用する方法が
ある。最も高い累積重みを持つペアが位置116に最も
合った単語/意味ペアである。例えば、装置101が単
語ディスアンビギュエーション用途に使用されている場
合、ディスアンビギュエートされるべき単語の各々の意
味に対して別個の単語/意味ペアが存在し、その単語を
翻訳するために使用される意味として最高の累積重みを
持つ単語/意味ペアの意味が使用される。
【0032】単語がディスアンビギュエートされると
き、最高の累積重みと次に高い累積重みとの間の差が明
確なディスアンビギュエーションを行なうのに十分でな
いという状況がしばしば発生する。このようなケースに
おいては、SLC103は他のアプローチをとるこもで
きる。一つのこのようなアプローチはテキスト111と
関連する論議主題(discourse )を分析する方法であ
る。この説明の目的に対しては、論議主題は単一の主題
或はセットの関連する主題に係わる一つ或は複数のテキ
ストである。ある与えられた論議内において、多義語は
一つの意味に使用される傾向がある。例えば、その論議
が文法に係わる場合、懲罰上の意味で使用される「sent
ence」は殆どないと考えて良く、またその議論が犯罪訴
訟に係る場合、文法上の意味で使用される「sentence」
はめったに考えられない。
き、最高の累積重みと次に高い累積重みとの間の差が明
確なディスアンビギュエーションを行なうのに十分でな
いという状況がしばしば発生する。このようなケースに
おいては、SLC103は他のアプローチをとるこもで
きる。一つのこのようなアプローチはテキスト111と
関連する論議主題(discourse )を分析する方法であ
る。この説明の目的に対しては、論議主題は単一の主題
或はセットの関連する主題に係わる一つ或は複数のテキ
ストである。ある与えられた論議内において、多義語は
一つの意味に使用される傾向がある。例えば、その論議
が文法に係わる場合、懲罰上の意味で使用される「sent
ence」は殆どないと考えて良く、またその議論が犯罪訴
訟に係る場合、文法上の意味で使用される「sentence」
はめったに考えられない。
【0033】装置101を使用して論議主題を分析する
一つの単純な方法は以下の通りである。つまり、その論
議に属するテキストがそのようにマークされ、計算機1
03が問題の単語に対して明確なディスアンビギュエー
ションが存在する各位置に対して最も適当な意味及び重
みを格納する。通常、複数の可能な意味の一つに非常に
大きな優勢(preponderance )が存在し、この優勢の意
味が背景115の分析のみでは明確にディスアンビギュ
エートできないような状況において使用される。さらに
単純な方法においては、厳密さは欠けるが、ある単語の
隣接する使用は同一の論議主題に属する傾向を持つとい
う事実が利用される。この技法においては、背景115
の分析のみでは明確にディスアンビギュエートできない
場合、装置101は問題の単語を含む隣りの背景115
の調査の結果を適用し、その隣りの背景内の意味から問
題の単語の意味を決定する。
一つの単純な方法は以下の通りである。つまり、その論
議に属するテキストがそのようにマークされ、計算機1
03が問題の単語に対して明確なディスアンビギュエー
ションが存在する各位置に対して最も適当な意味及び重
みを格納する。通常、複数の可能な意味の一つに非常に
大きな優勢(preponderance )が存在し、この優勢の意
味が背景115の分析のみでは明確にディスアンビギュ
エートできないような状況において使用される。さらに
単純な方法においては、厳密さは欠けるが、ある単語の
隣接する使用は同一の論議主題に属する傾向を持つとい
う事実が利用される。この技法においては、背景115
の分析のみでは明確にディスアンビギュエートできない
場合、装置101は問題の単語を含む隣りの背景115
の調査の結果を適用し、その隣りの背景内の意味から問
題の単語の意味を決定する。
【0034】一つの好ましい実施例においては、装置1
01はデジタルコンピュータシステム内に実現される。
テキスト111、テーブル107、及び単語/意味ペア
105はこのコンピュータシステムのデータメモリシス
テム内に格納され、意味確率計算機103はそのデジタ
ルコンピュータシステムのプロセッサによって実行され
るプログラム手段として実現される。幾つかの実施例に
おいては、テーブル107は読出し専用メモリであり、
意味確率計算機はテーブルの迅速参照ができるようにの
設計された専用プロセッサであり得る。このような実施
例は、例えば、ポケット翻訳デバイス、或は電子タイプ
ライタに有効である。
01はデジタルコンピュータシステム内に実現される。
テキスト111、テーブル107、及び単語/意味ペア
105はこのコンピュータシステムのデータメモリシス
テム内に格納され、意味確率計算機103はそのデジタ
ルコンピュータシステムのプロセッサによって実行され
るプログラム手段として実現される。幾つかの実施例に
おいては、テーブル107は読出し専用メモリであり、
意味確率計算機はテーブルの迅速参照ができるようにの
設計された専用プロセッサであり得る。このような実施
例は、例えば、ポケット翻訳デバイス、或は電子タイプ
ライタに有効である。
【0035】単語/意味ペア確率テーブル107の計算 概念上、単語/意味ペア確率テーブル107はサブテー
ブル108の全セットである。少なくとも我々の関心が
置かれるタスクに対して重要である各単語/意味ペアに
対するサブテーブル108が存在し、この単語/意味ペ
アに対するサブテーブル108は少なくともテキスト1
11内の各単語に対するエントリを持つ。さらに、本当
に要求されるのは、任意の言語にて書かれた事実上全て
のテキストに対して機能する単語/意味ペア確率テーブ
ル107である。ディスアンビギュエーション背景にお
いては、このようなテーブルは概念上は任意の言語内の
各多義語の各単語/意味ペアに対するサブテーブル10
8を含み、各サブテーブル108はその任意の言語内の
全ての単語に対するエントリを含む。勿論、最適化が可
能である。例えば、殆どの単語は、ディスアンビギュエ
ーションにあまり或は全く寄与せず、このような単語は
このテーブルから除外され、単に、省略時の重みが与え
られる。
ブル108の全セットである。少なくとも我々の関心が
置かれるタスクに対して重要である各単語/意味ペアに
対するサブテーブル108が存在し、この単語/意味ペ
アに対するサブテーブル108は少なくともテキスト1
11内の各単語に対するエントリを持つ。さらに、本当
に要求されるのは、任意の言語にて書かれた事実上全て
のテキストに対して機能する単語/意味ペア確率テーブ
ル107である。ディスアンビギュエーション背景にお
いては、このようなテーブルは概念上は任意の言語内の
各多義語の各単語/意味ペアに対するサブテーブル10
8を含み、各サブテーブル108はその任意の言語内の
全ての単語に対するエントリを含む。勿論、最適化が可
能である。例えば、殆どの単語は、ディスアンビギュエ
ーションにあまり或は全く寄与せず、このような単語は
このテーブルから除外され、単に、省略時の重みが与え
られる。
【0036】大きな単語/意味ペア確率テーブル107
は機械によってのみ計算できることは明白である。当分
野において使用される表現を使用すると、装置101の
訓練は自動化されなければならない。訓練は、多くの点
において、上に説明されたテストの逆である。ディスア
ンビギュエーションの背景においては、サブテーブル1
08がテーブル107内に任意の多義語に対してそれら
多義語の既知の意味を含む背景115を調べ、その多義
語の可能な意味を推定するためにテストにおいて使用さ
れる可能性のあるその背景内の他の単語を発見すること
によって生成される。例えば、サブテーブル108が
「sentence」の懲罰の意味である場合、これら背景は、
通常の英語テキスト内に見られるよりも多くの”judge
(判決)”或は”trial (裁判)”といった単語を含む
可能性があり、これらの単語がテーブル107内におい
てこれに応じて重みを与えられる。
は機械によってのみ計算できることは明白である。当分
野において使用される表現を使用すると、装置101の
訓練は自動化されなければならない。訓練は、多くの点
において、上に説明されたテストの逆である。ディスア
ンビギュエーションの背景においては、サブテーブル1
08がテーブル107内に任意の多義語に対してそれら
多義語の既知の意味を含む背景115を調べ、その多義
語の可能な意味を推定するためにテストにおいて使用さ
れる可能性のあるその背景内の他の単語を発見すること
によって生成される。例えば、サブテーブル108が
「sentence」の懲罰の意味である場合、これら背景は、
通常の英語テキスト内に見られるよりも多くの”judge
(判決)”或は”trial (裁判)”といった単語を含む
可能性があり、これらの単語がテーブル107内におい
てこれに応じて重みを与えられる。
【0037】自動訓練における最も大きな問題は、勿
論、訓練をされている単語が任意の背景115内におい
てどの意味を持つかを決定することである。大きなテー
ブル107の場合、手作業によって訓練されている単語
を訓練のために使用されている背景115内において一
つの意味或は別の意味を持つとして標識を与えることは
明らかに現実的でない。装置101の開発に際して、あ
る与えられた背景115内において訓練されている単語
の意味を自動的に決定するための二つの技術が発見され
た。これら技術の片方は二か国語で書かれたテキストの
本文を使用し、他方の技術は類語辞典などによって提供
されるような主題カテゴリを使用する。
論、訓練をされている単語が任意の背景115内におい
てどの意味を持つかを決定することである。大きなテー
ブル107の場合、手作業によって訓練されている単語
を訓練のために使用されている背景115内において一
つの意味或は別の意味を持つとして標識を与えることは
明らかに現実的でない。装置101の開発に際して、あ
る与えられた背景115内において訓練されている単語
の意味を自動的に決定するための二つの技術が発見され
た。これら技術の片方は二か国語で書かれたテキストの
本文を使用し、他方の技術は類語辞典などによって提供
されるような主題カテゴリを使用する。
【0038】二か国語テキストでの訓練 二か国語テキストの本文での訓練は二つの事実を利用す
る。つまり、第一に、第一の言語内の多義の単語の第二
の言語の訳語は通常その多義語の意味を示す。こうし
て、英語の単語「sentence」が「peine (仏語)」に翻
訳された場合、我々は、その英語の単語が懲罰の意味に
使用されていることが分かる。そして「phrase(仏
語)」に翻訳された場合は、我々は、それが文法的な意
味に使用されたことを知る。第二に、現在それらのバー
ジョンが二つの言語にて入手できる機械によって読むこ
とができる多量のテキストが存在する。このような二か
国語テキストの一例として「Canadian Hansards (カナ
ダ国会議事録)」であるが、これは、カナダ議会での討
議を英語及びフランス語の両方にて記録した雑誌であ
る。以下においては、英語バージョンは英語議事録と呼
ばれ、フランス語バージョンはフランス語議事録と呼ば
れる。
る。つまり、第一に、第一の言語内の多義の単語の第二
の言語の訳語は通常その多義語の意味を示す。こうし
て、英語の単語「sentence」が「peine (仏語)」に翻
訳された場合、我々は、その英語の単語が懲罰の意味に
使用されていることが分かる。そして「phrase(仏
語)」に翻訳された場合は、我々は、それが文法的な意
味に使用されたことを知る。第二に、現在それらのバー
ジョンが二つの言語にて入手できる機械によって読むこ
とができる多量のテキストが存在する。このような二か
国語テキストの一例として「Canadian Hansards (カナ
ダ国会議事録)」であるが、これは、カナダ議会での討
議を英語及びフランス語の両方にて記録した雑誌であ
る。以下においては、英語バージョンは英語議事録と呼
ばれ、フランス語バージョンはフランス語議事録と呼ば
れる。
【0039】この好ましい実施例は、カナダ国会議事録
を使用し、ある与えられた多義英単語の一つの意味を以
下のように訓練する。つまり、第一に、英語議事録の本
文全体を対象として統計が集められる。この統計は、英
語版カナダ国会議事録内のトークン(単語及び単語とし
て扱われるフレーズ)の数、及び英語議事録内での各単
語の発生回数を含む。これら統計から、任意の単語が英
語議事録の100語背景内に発生する確率が計算され
る。
を使用し、ある与えられた多義英単語の一つの意味を以
下のように訓練する。つまり、第一に、英語議事録の本
文全体を対象として統計が集められる。この統計は、英
語版カナダ国会議事録内のトークン(単語及び単語とし
て扱われるフレーズ)の数、及び英語議事録内での各単
語の発生回数を含む。これら統計から、任意の単語が英
語議事録の100語背景内に発生する確率が計算され
る。
【0040】次に、英語議事録の条件付きサンプルが与
えられた多義語の要求される意味に対して作成される。
これは、英語議事録内の与えられた多義語の各々の発生
を見つけることによって行なわれる。次に、この発生に
対応するフランス語の単語(或はフレーズ)がフランス
語版カナダ国会議事録内で検出される。多義の英語の発
生に対応するフランス語単語は、Gale、W.及びK.Ch
urchによって”計算言語学学会の第29回年次会議の議
事録(Proceedings: 29th Annual Meeting ofthe Assoc
iation for Computational Linguistics )”、199
1年、ページ177−184に発表の論文『二か国語集
成資料内の文を整合するためのプログラム(A Program
for Aligning Sentences in Bilingual Corpora )』に
おいて説明されるように英語テキストの文章を対応する
フランス語テキストの文章と整合することによって発見
される。発見されると、このフランス語の単語或はフレ
ーズはその任意の単語の発生が要求される意味を持つか
否かを決定する。持つ場合は、この発生のいずれかの側
の50単語が条件付きサンプルに出力される。訓練にお
ける100単語背景の使用は装置101の動作と同じよ
うに重要であることに注意する。
えられた多義語の要求される意味に対して作成される。
これは、英語議事録内の与えられた多義語の各々の発生
を見つけることによって行なわれる。次に、この発生に
対応するフランス語の単語(或はフレーズ)がフランス
語版カナダ国会議事録内で検出される。多義の英語の発
生に対応するフランス語単語は、Gale、W.及びK.Ch
urchによって”計算言語学学会の第29回年次会議の議
事録(Proceedings: 29th Annual Meeting ofthe Assoc
iation for Computational Linguistics )”、199
1年、ページ177−184に発表の論文『二か国語集
成資料内の文を整合するためのプログラム(A Program
for Aligning Sentences in Bilingual Corpora )』に
おいて説明されるように英語テキストの文章を対応する
フランス語テキストの文章と整合することによって発見
される。発見されると、このフランス語の単語或はフレ
ーズはその任意の単語の発生が要求される意味を持つか
否かを決定する。持つ場合は、この発生のいずれかの側
の50単語が条件付きサンプルに出力される。訓練にお
ける100単語背景の使用は装置101の動作と同じよ
うに重要であることに注意する。
【0041】条件付きサンプルがいったん作成される
と、後に詳細に説明されるBayesian技法を用いてこの条
件付きサンプル内の各単語の重みがその与えられた多義
語がその条件付きサンプルを作るのに使用した意味を持
つ確率との関連で決定される。この分析の結果として、
この与えられた多義語及び要求される意味に対して単語
/意味ペア確率テーブル107内のサブテーブル108
が得られる。図2はこの分析の結果として得られたデー
タの例を示す。テーブル201は英単語「duty」の二つ
の意味に対するデータを含む。これら二つの意味は、
「tax (税金)」の意味及び「obligation(義務)」の
意味である。テーブル202は税金の意味に対する幾ら
かのデータを示し、テーブル203は義務の意味に対す
る幾らかのデータを示す。各テーブルは4つのカラムを
持つ。単語(Word)カラム209は条件付きサンプル内
に発見される各単語に対するエントリを持ち;頻度(Fr
equency )カラム207はその条件付きサンプル内でそ
の単語が発生する回数であり;重み(Weight)カラム2
05は要求される意味を決定するための目的としてその
単語に指定される重みであり;重み*頻度(Weight*fre
quency)カラム204は各単語に対する重みと頻度の積
である。
と、後に詳細に説明されるBayesian技法を用いてこの条
件付きサンプル内の各単語の重みがその与えられた多義
語がその条件付きサンプルを作るのに使用した意味を持
つ確率との関連で決定される。この分析の結果として、
この与えられた多義語及び要求される意味に対して単語
/意味ペア確率テーブル107内のサブテーブル108
が得られる。図2はこの分析の結果として得られたデー
タの例を示す。テーブル201は英単語「duty」の二つ
の意味に対するデータを含む。これら二つの意味は、
「tax (税金)」の意味及び「obligation(義務)」の
意味である。テーブル202は税金の意味に対する幾ら
かのデータを示し、テーブル203は義務の意味に対す
る幾らかのデータを示す。各テーブルは4つのカラムを
持つ。単語(Word)カラム209は条件付きサンプル内
に発見される各単語に対するエントリを持ち;頻度(Fr
equency )カラム207はその条件付きサンプル内でそ
の単語が発生する回数であり;重み(Weight)カラム2
05は要求される意味を決定するための目的としてその
単語に指定される重みであり;重み*頻度(Weight*fre
quency)カラム204は各単語に対する重みと頻度の積
である。
【0042】カラム204内の値は単語/意味ペアに対
するサブテーブル108内にどの単語が含まれるべきか
を決定するために使用される。最も高い積を持つペアは
最も良い指標となる。サブテーブル108のサイズはカ
ラム204内のそれらの積が所定の値以下である全ての
単語に対して省略時の値を使用することによって縮小す
ることができる。サブテーブル108はテーブル202
から省略時の値を与えられなかった各単語に対してエン
トリを作ることによって構築される。このエントリはそ
の単語に対して計算された重みを含む。上のことから明
かのように、カナダ国会議事録からの単語意味ペア確率
テーブル107の生成は完全に自動化できる。カナダ国
会議事録は機械によって読むことができる形式にて存在
し、カナダ国会議事録内の英語の単語の任意の発生に相
当するフランス単語を検出するための機械技術が存在
し、条件付きサンプルの抽出及び重みの計算もコンピュ
ータによって完全に遂行できる。
するサブテーブル108内にどの単語が含まれるべきか
を決定するために使用される。最も高い積を持つペアは
最も良い指標となる。サブテーブル108のサイズはカ
ラム204内のそれらの積が所定の値以下である全ての
単語に対して省略時の値を使用することによって縮小す
ることができる。サブテーブル108はテーブル202
から省略時の値を与えられなかった各単語に対してエン
トリを作ることによって構築される。このエントリはそ
の単語に対して計算された重みを含む。上のことから明
かのように、カナダ国会議事録からの単語意味ペア確率
テーブル107の生成は完全に自動化できる。カナダ国
会議事録は機械によって読むことができる形式にて存在
し、カナダ国会議事録内の英語の単語の任意の発生に相
当するフランス単語を検出するための機械技術が存在
し、条件付きサンプルの抽出及び重みの計算もコンピュ
ータによって完全に遂行できる。
【0043】重みの計算 好ましい実施例においては、任意の単語/意味ペアの意
味の決定における任意の語彙単語の重み、wtは以下の
方程式にて定義される。
味の決定における任意の語彙単語の重み、wtは以下の
方程式にて定義される。
【数8】 ここで、πは任意の語彙単語の条件付き確率であり、a
は条件付きサンプル内のこの任意の語彙単語の頻度であ
り、そしてEはaを与えられたときのπの期待値であ
る。
は条件付きサンプル内のこの任意の語彙単語の頻度であ
り、そしてEはaを与えられたときのπの期待値であ
る。
【0044】上に定義されたような重みの計算の利点
は、これが条件付きサンプルの100単語背景内で計算
された単語確率と編成資料全体を通じて計算された単語
確率との間の内挿を与えることである。100単語背景
内に度々現われる単語に対しては、我々は、局所推定を
重視する傾向にあり、挿間において全体的な背景にはあ
まり大きな重みを置かない。逆に、局所背景内にあまり
頻繁に現われない単語に対しては、我々は、局所推定に
はあまり自信がなく、全体的な推定により大きな重みを
与える傾向にある。この方法の背景にある鍵となる観察
事項は、編成資料全体は要求される条件付き確率とは未
知の関連を持つセットの良く測定された確率を提供し、
一方、条件付きセットは、確かな関連を持つ確率の劣る
推測値を与えるということである。編成資料全体からの
確率の使用は、こうして、バスアスを導入し、一方、条
件付きセットからの確率の使用はランダムエラーを導入
する。我々は、バイアスとランダムエラーとの間のトレ
ードオフを行なうために、大きな編成資料と条件付きサ
ンプルとの間の関連性を決定する。
は、これが条件付きサンプルの100単語背景内で計算
された単語確率と編成資料全体を通じて計算された単語
確率との間の内挿を与えることである。100単語背景
内に度々現われる単語に対しては、我々は、局所推定を
重視する傾向にあり、挿間において全体的な背景にはあ
まり大きな重みを置かない。逆に、局所背景内にあまり
頻繁に現われない単語に対しては、我々は、局所推定に
はあまり自信がなく、全体的な推定により大きな重みを
与える傾向にある。この方法の背景にある鍵となる観察
事項は、編成資料全体は要求される条件付き確率とは未
知の関連を持つセットの良く測定された確率を提供し、
一方、条件付きセットは、確かな関連を持つ確率の劣る
推測値を与えるということである。編成資料全体からの
確率の使用は、こうして、バスアスを導入し、一方、条
件付きセットからの確率の使用はランダムエラーを導入
する。我々は、バイアスとランダムエラーとの間のトレ
ードオフを行なうために、大きな編成資料と条件付きサ
ンプルとの間の関連性を決定する。
【0045】一つの好ましい実施例においては、E(π
a)がテキスト本文全体を任意の単語/意味ペアに対
してサイズnの条件付きサンプル、及びサイズN>>n
の残留資料(編成資料全体から条件付きサンプルを差し
引いたもの)に分割することによって計算される。aを
条件付きサンプル内の任意の語彙単語の頻度であり、A
を残留資料内のその頻度であると想定する。これら頻度
のいずれかはゼロであり得るが、両方がゼロであること
はない。πはその語彙単語の条件付き確率を表わすもの
とする。いずれかのサンプル内のその単語の頻度を知る
前に、我々は、πの値についての我々の無知を以下のよ
うなアンインフォーマティブ分散(uninformative dist
ribution)によって表わすことができる。
a)がテキスト本文全体を任意の単語/意味ペアに対
してサイズnの条件付きサンプル、及びサイズN>>n
の残留資料(編成資料全体から条件付きサンプルを差し
引いたもの)に分割することによって計算される。aを
条件付きサンプル内の任意の語彙単語の頻度であり、A
を残留資料内のその頻度であると想定する。これら頻度
のいずれかはゼロであり得るが、両方がゼロであること
はない。πはその語彙単語の条件付き確率を表わすもの
とする。いずれかのサンプル内のその単語の頻度を知る
前に、我々は、πの値についての我々の無知を以下のよ
うなアンインフォーマティブ分散(uninformative dist
ribution)によって表わすことができる。
【数9】 ここで、B(x、y)はベータ関数(Beta function )
である。この方法の幾つかのバリエーションはこのアン
インフォーマティブ分散のバリエーションに基づく。π
の決定に関連のあるN回の中のA回の追加の観察がなさ
れた場合、我々の知識を表わす分散は、以下のようにな
る。
である。この方法の幾つかのバリエーションはこのアン
インフォーマティブ分散のバリエーションに基づく。π
の決定に関連のあるN回の中のA回の追加の観察がなさ
れた場合、我々の知識を表わす分散は、以下のようにな
る。
【数10】
【0046】残留資料内の対象となる単語のN回の観察
の中のA回の観察を行ったが、我々は、それらの関連性
(relevance )については知らない。従って、我々は、
条件付きサンプルを観察する前の我々の知識として以下
の分散を設定する。
の中のA回の観察を行ったが、我々は、それらの関連性
(relevance )については知らない。従って、我々は、
条件付きサンプルを観察する前の我々の知識として以下
の分散を設定する。
【数11】 ここで、0≦r≦1は残留資料の条件付きサンプルに対
する関連性である。r=0の場合、これは、アンインフ
ォーマティブ分散を与え、一方、r=1の場合、これは
残留資料を観察した後の分散を与える。これを解釈する
もう一つのやりかたは、確率rを持つ場合、我々は、残
留資料と同一線上に立った観察を期待しており、一方、
確率1−rのときは、我々はどのような値でも驚かない
ということである。
する関連性である。r=0の場合、これは、アンインフ
ォーマティブ分散を与え、一方、r=1の場合、これは
残留資料を観察した後の分散を与える。これを解釈する
もう一つのやりかたは、確率rを持つ場合、我々は、残
留資料と同一線上に立った観察を期待しており、一方、
確率1−rのときは、我々はどのような値でも驚かない
ということである。
【0047】条件サンプル内で問題の単語をn個のケー
スの中からa回観察することと、条件付き確率がπであ
ることの結合確率(joint probability )は、従って、
以下のように表わすことができる。
スの中からa回観察することと、条件付き確率がπであ
ることの結合確率(joint probability )は、従って、
以下のように表わすことができる。
【数12】 我々は、こうして、以下のような方程式を得ることがで
きる。
きる。
【数13】 及び
【数14】
【0048】次にこれを積分することによって以下が与
えられる。
えられる。
【数15】
【0049】これは様々な方法にて近似できるが、但
し、これを直接に以下の関係を使用して計算することが
実際的である。
し、これを直接に以下の関係を使用して計算することが
実際的である。
【数16】
【0050】残留資料の条件付きサンプルに対する関連
性を示すパラメータrは様々な方法によって推定するこ
とができる。基本的な解釈は、条件付き確率を持つ単語
の割合は、(残留サンプルから推定されたときの)それ
らの全体確率(global probabilities)に接近するとい
うことである。こうして、条件付き確率のセットの推定
値が与えられれば、我々は、rを対応する全体確率の数
標準偏差内に横たわるそれら単語の割合であると推定す
ることができる。この推定は、条件付きサンプル内に観
察される単語を使用して遂行される。別の見方として、
rをこの方法の自由パラメータと見なし、特定のタスク
に関して最適の結果を生成するように調節することもで
きる。各単語に対して変動することもできるが、我々
は、意味弁別用途においては全ての単語に対してr=
0.8を使用し、著者識別用途においてはr=0.98
を使用している。さらに、上の技法によって計算された
重みは対数値であるという事実は、サンプル内の語彙単
語の発生の確率を掛けるプロセスは、与えられた単語/
意味ペアが以下のように操作できることを意味する。つ
まり、その背景内の語彙単語の各発生に対して、その与
えられた単語/意味ペアに対するサブテーブル108内
のその単語の重みが調べられ、語彙単語の前の発生の重
みの総和にこの重みが加えられる。
性を示すパラメータrは様々な方法によって推定するこ
とができる。基本的な解釈は、条件付き確率を持つ単語
の割合は、(残留サンプルから推定されたときの)それ
らの全体確率(global probabilities)に接近するとい
うことである。こうして、条件付き確率のセットの推定
値が与えられれば、我々は、rを対応する全体確率の数
標準偏差内に横たわるそれら単語の割合であると推定す
ることができる。この推定は、条件付きサンプル内に観
察される単語を使用して遂行される。別の見方として、
rをこの方法の自由パラメータと見なし、特定のタスク
に関して最適の結果を生成するように調節することもで
きる。各単語に対して変動することもできるが、我々
は、意味弁別用途においては全ての単語に対してr=
0.8を使用し、著者識別用途においてはr=0.98
を使用している。さらに、上の技法によって計算された
重みは対数値であるという事実は、サンプル内の語彙単
語の発生の確率を掛けるプロセスは、与えられた単語/
意味ペアが以下のように操作できることを意味する。つ
まり、その背景内の語彙単語の各発生に対して、その与
えられた単語/意味ペアに対するサブテーブル108内
のその単語の重みが調べられ、語彙単語の前の発生の重
みの総和にこの重みが加えられる。
【0051】意味のカテゴリを使用しての単語/意味ペ
アの妥当性の決定 上に述べたような二か国語テキストの使用は訓練の自動
化を可能にし、結果として重要な進歩といえる。但し、
このような二か国語テキストでの訓練は、欠点を持つ。
第一に、二か国語テキスト内に現れない単語にはいかな
る助けも与えない。このような二か国語テキストは、今
日においては、通常、法律或は政治のテキストであり、
従って、かなり専門化された語彙を持つ。第二に、特
に、かなり類似した語彙を持つ英語とフランス語のよう
な言語に関しては、多義語の翻語自体が多義性をもつ。
ここでの例は英語の単語「interest」である。フランス
語の訳語「interet 」は実質的に英語の相当語の全ての
意味を持つ。後者の問題は、複数言語のテキストを使用
した場合は問題が少なくなる。複数言語のテキストの中
の言語の一つがインド−ヨーロッパ系でないときは、デ
ィスアンビギュエーションは特に楽になる。
アの妥当性の決定 上に述べたような二か国語テキストの使用は訓練の自動
化を可能にし、結果として重要な進歩といえる。但し、
このような二か国語テキストでの訓練は、欠点を持つ。
第一に、二か国語テキスト内に現れない単語にはいかな
る助けも与えない。このような二か国語テキストは、今
日においては、通常、法律或は政治のテキストであり、
従って、かなり専門化された語彙を持つ。第二に、特
に、かなり類似した語彙を持つ英語とフランス語のよう
な言語に関しては、多義語の翻語自体が多義性をもつ。
ここでの例は英語の単語「interest」である。フランス
語の訳語「interet 」は実質的に英語の相当語の全ての
意味を持つ。後者の問題は、複数言語のテキストを使用
した場合は問題が少なくなる。複数言語のテキストの中
の言語の一つがインド−ヨーロッパ系でないときは、デ
ィスアンビギュエーションは特に楽になる。
【0052】これら問題は、ある背景に対する単語/意
味ペアの妥当性を決定するためにそれに語彙単語が属す
る意味のカテゴリを使用することによって克服すること
ができる。百科全書及び辞書は通常それらが同意義を与
える単語を分類し、或はカテゴリを定義する。例えば、
Chapman 、Robertは、Roget's International Thesauru
s (第四版)、Harper and Row、New York、1977年
出版において、同意義を与える単語を1042個の主題
カテゴリに分類する。これらカテゴリは英語テキストの
任意の文にて自動訓練を行なうために使用でき、テキス
ト内の語彙単語間の関係及び主題カテゴリはテストフェ
ーズにおいて二か国語テキストとの関連で上に説明され
たようにある背景に対して適当な単語/意味ペアを決定
するために使用することができる。
味ペアの妥当性を決定するためにそれに語彙単語が属す
る意味のカテゴリを使用することによって克服すること
ができる。百科全書及び辞書は通常それらが同意義を与
える単語を分類し、或はカテゴリを定義する。例えば、
Chapman 、Robertは、Roget's International Thesauru
s (第四版)、Harper and Row、New York、1977年
出版において、同意義を与える単語を1042個の主題
カテゴリに分類する。これらカテゴリは英語テキストの
任意の文にて自動訓練を行なうために使用でき、テキス
ト内の語彙単語間の関係及び主題カテゴリはテストフェ
ーズにおいて二か国語テキストとの関連で上に説明され
たようにある背景に対して適当な単語/意味ペアを決定
するために使用することができる。
【0053】意味のカテゴリを使用する方法は以下の一
般的な観察に基づく。つまり、1)異なるクラスの単
語、例えば、「ANIMALS (動物)」或は「MACHINES(機
械)」ははっきりと認識できるような背景内に現れる傾
向を持つ。2)異なる単語の意味は異なる概念上のクラ
スに属する傾向を持つ(「crane 」はANIMALでもMACHIN
E でもあり得る)。3)概念上のクラスに対して背景弁
別子を構築できれば、それらクラスのメンバである単語
意味に対する背景弁別子を効果的に構築することができ
る。さらに、Roget カテゴリに対する背景インジケータ
(例えば、TOOLS/MACHINERY カテゴリのgear、piston及
びengine)はまたそのカテゴリのメンバに対する背景イ
ンジケータとなる(例えば、crane の機械的意味を示
す)傾向がある。
般的な観察に基づく。つまり、1)異なるクラスの単
語、例えば、「ANIMALS (動物)」或は「MACHINES(機
械)」ははっきりと認識できるような背景内に現れる傾
向を持つ。2)異なる単語の意味は異なる概念上のクラ
スに属する傾向を持つ(「crane 」はANIMALでもMACHIN
E でもあり得る)。3)概念上のクラスに対して背景弁
別子を構築できれば、それらクラスのメンバである単語
意味に対する背景弁別子を効果的に構築することができ
る。さらに、Roget カテゴリに対する背景インジケータ
(例えば、TOOLS/MACHINERY カテゴリのgear、piston及
びengine)はまたそのカテゴリのメンバに対する背景イ
ンジケータとなる(例えば、crane の機械的意味を示
す)傾向がある。
【0054】我々は、これら示唆的単語(indicative w
ords)を以下のようにして識別し、重みを与え、使用す
ることを試みる。つまり、1042個のRoget カテゴリ
の各々に対して、Roget カテゴリを表わす背景を集め
(Collect )、これら集合的な背景内の顕著な単語を識
別し(Identify)、これら単語に適当な重みを与え(We
ight)、そして結果としての重みをテストフェーズにお
いて使用する(Use )。
ords)を以下のようにして識別し、重みを与え、使用す
ることを試みる。つまり、1042個のRoget カテゴリ
の各々に対して、Roget カテゴリを表わす背景を集め
(Collect )、これら集合的な背景内の顕著な単語を識
別し(Identify)、これら単語に適当な重みを与え(We
ight)、そして結果としての重みをテストフェーズにお
いて使用する(Use )。
【0055】ステップ1:Roget カテゴリを表わす背景
を集める この段階の目的はそれによって訓練が行なわれるテキス
トの本文のセットの語彙単語を集めることであり、これ
らは、典型的には、与えられたRoget カテゴリ内にリス
トされる単語の少なくとも一つを含む背景内に発見され
る。これを行なうため、我々は、そのカテゴリに対する
条件付きサンプルを作る。この条件付きサンプルはその
編成資料内のある与えられたカテゴリの各メンバの各発
生に対する100個のこれを取り巻く単語から構成され
る。図3はTOOLS/MACHINERY カテゴリ(348)内の単
語に対する条件付きサンプルの部分のサンプルセット
(301)を示す。完全な条件付きサンプルはこの好ま
しい実施例において訓練のために使用されるテキスト、
つまり、10ミリオン単語を持つグロリア百科事典(Gr
olier's Encyclopedia)、電子バージョン、1991年
6月版、の特定の本文から選択された30,924行を
含む。
を集める この段階の目的はそれによって訓練が行なわれるテキス
トの本文のセットの語彙単語を集めることであり、これ
らは、典型的には、与えられたRoget カテゴリ内にリス
トされる単語の少なくとも一つを含む背景内に発見され
る。これを行なうため、我々は、そのカテゴリに対する
条件付きサンプルを作る。この条件付きサンプルはその
編成資料内のある与えられたカテゴリの各メンバの各発
生に対する100個のこれを取り巻く単語から構成され
る。図3はTOOLS/MACHINERY カテゴリ(348)内の単
語に対する条件付きサンプルの部分のサンプルセット
(301)を示す。完全な条件付きサンプルはこの好ま
しい実施例において訓練のために使用されるテキスト、
つまり、10ミリオン単語を持つグロリア百科事典(Gr
olier's Encyclopedia)、電子バージョン、1991年
6月版、の特定の本文から選択された30,924行を
含む。
【0056】理想的には、条件サンプルは与えられたカ
テゴリに対する参照のみを含む。但し、実際において
は、これは、(図3の303における「drill 」及び3
05における「crane 」などのように)これら単語の多
くが多義であるために誤った例を含むことが避けられな
い。多義性はこの好ましい実施例においては、この影響
を最小にするために条件付きサンプル内の語彙単語に重
みを与えることによって対処される。この重み付けは、
より一般的なものだけではなく、全ての工具及び機械類
を表わすサンプルを作る役割を果す。重み付けは以下の
ようによって行なわれる。つまり、Roget のカテゴリ内
にリストされる単語、例えば、「drill 」がこの編成資
料内でk回発生する場合、「drill 」の背景内の全ての
語彙単語は条件サンプル内のこれら語彙単語に対する頻
度値に重さ1/kだけ寄与する。
テゴリに対する参照のみを含む。但し、実際において
は、これは、(図3の303における「drill 」及び3
05における「crane 」などのように)これら単語の多
くが多義であるために誤った例を含むことが避けられな
い。多義性はこの好ましい実施例においては、この影響
を最小にするために条件付きサンプル内の語彙単語に重
みを与えることによって対処される。この重み付けは、
より一般的なものだけではなく、全ての工具及び機械類
を表わすサンプルを作る役割を果す。重み付けは以下の
ようによって行なわれる。つまり、Roget のカテゴリ内
にリストされる単語、例えば、「drill 」がこの編成資
料内でk回発生する場合、「drill 」の背景内の全ての
語彙単語は条件サンプル内のこれら語彙単語に対する頻
度値に重さ1/kだけ寄与する。
【0057】多義性のために導入されるノイズのレベル
はかなり大きいが、あるRoget カテゴリ内の単語のその
カテゴリに属さない意味は1041個の他のカテゴリを
通じて分布し、従って、このカテゴリに属さない単語の
意味と関連する語彙単語と任意の一つのカテゴリ間には
強い関連が存在しないが、一方、このカテゴリに属する
これら単語の意味と関連する全ての語彙単語はそのカテ
ゴリと関連するために対処が可能である。あるRoget カ
テゴリ内にリストされる幾つかの単語が単一の異なるRo
get カテゴリ内に二次的意味を持つ場合にのみ、この他
のカテゴリに対して典型的な背景がこの背景内において
有意となる。
はかなり大きいが、あるRoget カテゴリ内の単語のその
カテゴリに属さない意味は1041個の他のカテゴリを
通じて分布し、従って、このカテゴリに属さない単語の
意味と関連する語彙単語と任意の一つのカテゴリ間には
強い関連が存在しないが、一方、このカテゴリに属する
これら単語の意味と関連する全ての語彙単語はそのカテ
ゴリと関連するために対処が可能である。あるRoget カ
テゴリ内にリストされる幾つかの単語が単一の異なるRo
get カテゴリ内に二次的意味を持つ場合にのみ、この他
のカテゴリに対して典型的な背景がこの背景内において
有意となる。
【0058】この欠陥にもかからわず、この条件付きサ
ンプルは、ノイズはあるが、グロリア百科全書内のTOOL
S/MACHINERY の典型的な背景のサンプルの代表として機
能する。
ンプルは、ノイズはあるが、グロリア百科全書内のTOOL
S/MACHINERY の典型的な背景のサンプルの代表として機
能する。
【0059】ステップ2:条件付きサンプル内の顕著な
単語を識別し、適当な重みを与える。 直感的に、顕著な単語は、条件付きサンプル内にテキス
トの他のポイントの所よりも頻繁に現われる単語であ
り、従って、そのカテゴリに対する平均的インジケータ
よりも良い。我々は、これを推定値:Pr(w RCat) Pr
(w )のような相互情報にて公式化するが、これは、あ
るRoget カテゴリに対する条件付きサンプル内に現れる
語彙単語wの確率をテキストの本文内で現われるその語
彙単語の総確率で割った値である。
単語を識別し、適当な重みを与える。 直感的に、顕著な単語は、条件付きサンプル内にテキス
トの他のポイントの所よりも頻繁に現われる単語であ
り、従って、そのカテゴリに対する平均的インジケータ
よりも良い。我々は、これを推定値:Pr(w RCat) Pr
(w )のような相互情報にて公式化するが、これは、あ
るRoget カテゴリに対する条件付きサンプル内に現れる
語彙単語wの確率をテキストの本文内で現われるその語
彙単語の総確率で割った値である。
【0060】Pr(w RCat)は二か国語テキストのケー
スにおいて語彙単語の重みを計算したときに使用された
のと同一技法を使用して計算することができる。実質的
な差異は上に説明の1/kが条件付きサンプル内の語彙
単語の頻度を計算するのに使用されることのみである。
図4はRoget カテゴリ348及び414、つまり、それ
ぞれ、TOOLS/MACHINERY 及びANIMAL、INSECTに対する最
も重要な顕著な単語を示す。括弧内の数は、与えられた
カテゴリに対する語彙単語の各々の顕著さの対数、つま
り、重み119である。カテゴリ403及び405内に
現われるこれら語彙単語は、単語/意味ペアがある背景
に属するか否かを決定するために最も重要な単語であ
る。上と同様に、重要性は、その語彙単語の重みに条件
付きサンプル内でのその頻度を掛けることによって決定
される。
スにおいて語彙単語の重みを計算したときに使用された
のと同一技法を使用して計算することができる。実質的
な差異は上に説明の1/kが条件付きサンプル内の語彙
単語の頻度を計算するのに使用されることのみである。
図4はRoget カテゴリ348及び414、つまり、それ
ぞれ、TOOLS/MACHINERY 及びANIMAL、INSECTに対する最
も重要な顕著な単語を示す。括弧内の数は、与えられた
カテゴリに対する語彙単語の各々の顕著さの対数、つま
り、重み119である。カテゴリ403及び405内に
現われるこれら語彙単語は、単語/意味ペアがある背景
に属するか否かを決定するために最も重要な単語であ
る。上と同様に、重要性は、その語彙単語の重みに条件
付きサンプル内でのその頻度を掛けることによって決定
される。
【0061】Roget カテゴリに対する顕著な語彙単語は
そのカテゴリ内にリストされない多くの単語を含むこと
に注意する。顕著な語彙単語とは、与えられたカテゴリ
内にリストされた単語と同時に起こる傾向を持つ語彙単
語である。あるカテゴリに対する顕著な語彙単語のリス
トは典型的には3000語以上を含み、辞書定義から誘
導されるあらゆるリストよりはるかに富んでいる。
そのカテゴリ内にリストされない多くの単語を含むこと
に注意する。顕著な語彙単語とは、与えられたカテゴリ
内にリストされた単語と同時に起こる傾向を持つ語彙単
語である。あるカテゴリに対する顕著な語彙単語のリス
トは典型的には3000語以上を含み、辞書定義から誘
導されるあらゆるリストよりはるかに富んでいる。
【0062】ステップ3:テストフェーズにおける結果
としての重みの使用 テストフェーズにおいては、あるテキスト内のある位置
を取り巻く語彙単語によって示されるRoget カテゴリは
ある単語/意味ペアがその位置に対して適当であるか否
かを決定するために使用される。その単語/意味ペアが
それらの顕著な語彙単語の一つによって示されるのと同
一のRoget カテゴリに属する場合、その単語/意味ペア
がその位置に対して正しいと言う根拠となる。複数の顕
著な語彙単語が現われる場合は、根拠は追加される。以
下に示されるように、テストフェーズは図1との関連で
説明されたように働く。つまり、単語/意味ペアの全て
に対して単語/意味ペア確率テーブル107の構築を終
えると、我々は、上に説明した技法を使用してこれら様
々な単語/意味を示すための語彙単語の重みを決定し、
その位置を包囲する100単語背景内のある位置に対す
る与えられた単語/意味ペアの確率がその背景内の単語
の全ての重みを加えることによって決定される。この装
置がディスアンビギュエーションのために使用されてい
るときは、使用される単語/意味ペアはある単語及びそ
の様々な意味に対するペアである。合計して最も大きな
重みを持つ単語/意味ペアがその背景に最も適したペア
である。
としての重みの使用 テストフェーズにおいては、あるテキスト内のある位置
を取り巻く語彙単語によって示されるRoget カテゴリは
ある単語/意味ペアがその位置に対して適当であるか否
かを決定するために使用される。その単語/意味ペアが
それらの顕著な語彙単語の一つによって示されるのと同
一のRoget カテゴリに属する場合、その単語/意味ペア
がその位置に対して正しいと言う根拠となる。複数の顕
著な語彙単語が現われる場合は、根拠は追加される。以
下に示されるように、テストフェーズは図1との関連で
説明されたように働く。つまり、単語/意味ペアの全て
に対して単語/意味ペア確率テーブル107の構築を終
えると、我々は、上に説明した技法を使用してこれら様
々な単語/意味を示すための語彙単語の重みを決定し、
その位置を包囲する100単語背景内のある位置に対す
る与えられた単語/意味ペアの確率がその背景内の単語
の全ての重みを加えることによって決定される。この装
置がディスアンビギュエーションのために使用されてい
るときは、使用される単語/意味ペアはある単語及びそ
の様々な意味に対するペアである。合計して最も大きな
重みを持つ単語/意味ペアがその背景に最も適したペア
である。
【0063】例えば、単語「crane 」はグロリア百科全
集内に74回現われ、36回の出現は動物上の意味を表
わし、38回は重機の意味と関連する。このシステム
は、一つの機械的な意味を除いて全てを正しく分類し、
全体として99%の精度を与える。一つの分類を誤った
ケースは全てのモデルにおいて低いスコアを持ち、全て
の分類において信頼性の欠如を示した。この好ましい実
施例においては、ある単語の意味はその単語が属するRo
get カテゴリ上の意味であると定義される。検索をこの
ように制限することはしばしば有益であるが、この制限
は、場合によっては問題を起こし、類語辞典内にギャッ
プがある場合は特にそうである。例えば、カテゴリAMUS
EMENT (#876)は複数のカードゲーム用語をリスト
するが、単語「suit」は、何らかの理由によってこのリ
スト内に含まれない。このようにグロリア百科全書は、
「suit」のカードゲームでの意味を54例含むが、これ
らの全ては、検索がRoget 内にリストされる「suit」の
これらカテゴリだけに制限された場合、全て誤ってラベ
ル付けされる。但し、我々が検索を全ての1042カテ
ゴリを考慮するように開放すれば、我々は、「suit」の
カードゲーム上の意味の全ての54例がAMUSEMENT と正
しくラベル付けされることを発見し、さらに、全ての5
4例においてそのスコアは大きく、この指定の大きな信
頼性を示す。無制限検索モードは類語辞典内の脱落を満
たすための良い方法であるように思える。いずれにして
も、「suit」がAMUSEMENT カテゴリに加えられた場合
は、総精度は、68%から92%へと向上する。
集内に74回現われ、36回の出現は動物上の意味を表
わし、38回は重機の意味と関連する。このシステム
は、一つの機械的な意味を除いて全てを正しく分類し、
全体として99%の精度を与える。一つの分類を誤った
ケースは全てのモデルにおいて低いスコアを持ち、全て
の分類において信頼性の欠如を示した。この好ましい実
施例においては、ある単語の意味はその単語が属するRo
get カテゴリ上の意味であると定義される。検索をこの
ように制限することはしばしば有益であるが、この制限
は、場合によっては問題を起こし、類語辞典内にギャッ
プがある場合は特にそうである。例えば、カテゴリAMUS
EMENT (#876)は複数のカードゲーム用語をリスト
するが、単語「suit」は、何らかの理由によってこのリ
スト内に含まれない。このようにグロリア百科全書は、
「suit」のカードゲームでの意味を54例含むが、これ
らの全ては、検索がRoget 内にリストされる「suit」の
これらカテゴリだけに制限された場合、全て誤ってラベ
ル付けされる。但し、我々が検索を全ての1042カテ
ゴリを考慮するように開放すれば、我々は、「suit」の
カードゲーム上の意味の全ての54例がAMUSEMENT と正
しくラベル付けされることを発見し、さらに、全ての5
4例においてそのスコアは大きく、この指定の大きな信
頼性を示す。無制限検索モードは類語辞典内の脱落を満
たすための良い方法であるように思える。いずれにして
も、「suit」がAMUSEMENT カテゴリに加えられた場合
は、総精度は、68%から92%へと向上する。
【0064】結論 上の詳細な説明はテキスト分析技術の専門家にいかにし
て単一ラインよりも大きな背景がある単語/意味ペアが
その背景内のある位置に対して正しいか否かを決定する
ために効果的に使用されるかを開示する。これはまたBa
yesian技法がいかにしてある背景の語彙単語にある与え
られた単語/意味ペアとの関連で重みを与えるために使
用され、またいかにしてこれら重みがその単語/意味ペ
アがその位置に対して適当であるか否かを決定するため
に使用されるかを開示する。これはさらに論議主題内の
多義語の特性がそれら単語をディスアンビギュエートす
るために使用できるかを開示する。詳細な説明はさら
に、ある単語/意味ペアがある位置に対して適当である
か否かを決定するための装置を訓練するための大きな背
景及びBayesian技法の重要性を示し、またいかにして訓
練が二か国語テキストの本文或は単語の意味カテゴリを
使用して自動化できるかを開示する。詳細な説明におい
て示されたように、上のこれら技法は別個に或は特定の
利点が得られるように組合わせて使用される。さらに、
一つの訓練技法は別の技法の短所を直すことができる。
例えば、前に述べたように、フランス国会議事録は単語
「interst 」の様々な意味に関して訓練するのに使用す
ることはできないが、二か国語テキストにて訓練する方
法はこのケースにおいてはRoget のカテゴリを使用する
ことによって補強することができる。ここに開示された
技法の様々なバリエーションがテキスト分析技術の専門
家には明らかである。例えば、ここでは条件付きサンプ
ルを生成するための二つの方法のみが説明されたが、こ
こに開示されるBayesian分析の技法はどのような様式に
よって生成される条件付きサンプルにも適用できる。同
様に、ここに開示される背景は100単語の長さを持つ
が、単一ラインより十分に長い任意の長さの背景は10
0単語の背景の長所の幾らかを持つ。最後に、ここに開
示された以外のある論議主題が多義語を一つの意味にの
み使用するという傾向を持つという事実を活用する多く
の技法が採用できる。加えて、当業者においては、単語
/意味ペア確率テーブル107及び意味確率計算機10
3を実現するための多くの方法を知るものである。この
ため、上の詳細な説明は、全ての点において解説及び例
として見なされるべきものであり、限定を意味するもの
ではなく、ここに開示される本発明の範囲は、明細書の
背景及びこれらと等価のものの教義に従って解釈された
ときの特許請求の範囲によってのみ決定されるものであ
る。
て単一ラインよりも大きな背景がある単語/意味ペアが
その背景内のある位置に対して正しいか否かを決定する
ために効果的に使用されるかを開示する。これはまたBa
yesian技法がいかにしてある背景の語彙単語にある与え
られた単語/意味ペアとの関連で重みを与えるために使
用され、またいかにしてこれら重みがその単語/意味ペ
アがその位置に対して適当であるか否かを決定するため
に使用されるかを開示する。これはさらに論議主題内の
多義語の特性がそれら単語をディスアンビギュエートす
るために使用できるかを開示する。詳細な説明はさら
に、ある単語/意味ペアがある位置に対して適当である
か否かを決定するための装置を訓練するための大きな背
景及びBayesian技法の重要性を示し、またいかにして訓
練が二か国語テキストの本文或は単語の意味カテゴリを
使用して自動化できるかを開示する。詳細な説明におい
て示されたように、上のこれら技法は別個に或は特定の
利点が得られるように組合わせて使用される。さらに、
一つの訓練技法は別の技法の短所を直すことができる。
例えば、前に述べたように、フランス国会議事録は単語
「interst 」の様々な意味に関して訓練するのに使用す
ることはできないが、二か国語テキストにて訓練する方
法はこのケースにおいてはRoget のカテゴリを使用する
ことによって補強することができる。ここに開示された
技法の様々なバリエーションがテキスト分析技術の専門
家には明らかである。例えば、ここでは条件付きサンプ
ルを生成するための二つの方法のみが説明されたが、こ
こに開示されるBayesian分析の技法はどのような様式に
よって生成される条件付きサンプルにも適用できる。同
様に、ここに開示される背景は100単語の長さを持つ
が、単一ラインより十分に長い任意の長さの背景は10
0単語の背景の長所の幾らかを持つ。最後に、ここに開
示された以外のある論議主題が多義語を一つの意味にの
み使用するという傾向を持つという事実を活用する多く
の技法が採用できる。加えて、当業者においては、単語
/意味ペア確率テーブル107及び意味確率計算機10
3を実現するための多くの方法を知るものである。この
ため、上の詳細な説明は、全ての点において解説及び例
として見なされるべきものであり、限定を意味するもの
ではなく、ここに開示される本発明の範囲は、明細書の
背景及びこれらと等価のものの教義に従って解釈された
ときの特許請求の範囲によってのみ決定されるものであ
る。
【図1】ある単語/意味ペアがある背景に対して適当で
ある確率を決定するための装置のブロック図である。
ある確率を決定するための装置のブロック図である。
【図2】図1のテーブル107がこれから構築されるデ
ータのテーブルである。
ータのテーブルである。
【図3】条件付きサンプルの一部の一例である。
【図4】Roget のカテゴリを使用して計算された重みの
一例である。図面及び詳細の説明において使用される参
照番号は3桁或はそれ以上の桁を持つ。二つの最下位数
字はある図面内の番号であり、残りの桁は図面の番号で
ある。つまり、参照番号”305”を持つ要素は、図3
に最初に示される。
一例である。図面及び詳細の説明において使用される参
照番号は3桁或はそれ以上の桁を持つ。二つの最下位数
字はある図面内の番号であり、残りの桁は図面の番号で
ある。つまり、参照番号”305”を持つ要素は、図3
に最初に示される。
101 装置 103 意味確率計算機 105 単語/意味ペア 107 単語/意味ペア確率テーブル 111 テキスト
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウィリアム アーサー ゲール アメリカ合衆国 07040 ニュージャーシ ィ,メイプルウッド,エセックス アヴェ ニュー 17 (72)発明者 ディヴィッド エリック ワロウスキー アメリカ合衆国 07901 ニュージャーシ ィ,サミット,シャディサイド アヴェニ ュー 20
Claims (18)
- 【請求項1】 単語/意味ペアがテキスト内の与えられ
た位置に適する意味を持つことを自動的に決定する方法
において、この方法が:テキスト内の前記与えられた位
置を含み、またテキストの1ラインよりもかなり長い単
語シーケンスを決定し、そして前記シーケンスを自動的
に分析することによって単語/意味ペアが適当な意味を
持つか否かを決定する段階を含むことを特徴とする方
法。 - 【請求項2】 請求項1に記載の方法において、単語シ
ーケンスを決定する段階がその長さが100単語付近で
あるシーケンスを決定することを特徴とする方法。 - 【請求項3】 請求項1に記載の方法において、前記の
決定が単語/意味ペアが適当な意味を持つか否かを十分
に強く示すか否かを決定する段階、及び前記決定がその
ように示さない場合、前記適当な意味の決定をその付近
における適当な意味のもう一つの決定と比較することに
よって前記適当な意味の最終決定を行なう段階を含むこ
とを特徴とする方法。 - 【請求項4】 請求項1に記載の方法において、前記決
定を行なう段階において、前記シーケンスがBayesian弁
別技法を使用することによって自動的に決定され、この
技法において、前記シーケンス内の単語及び単語/意味
ペアの意味がその単語/意味ペアが与えられた位置に適
する意味を持つ確率を決定するために使用されることを
特徴とする方法。 - 【請求項5】 請求項1に記載の方法において、複数の
単語/意味ペアが存在し、 前記決定を行なう段階がこれら単語/意味ペアの各々に
対して遂行され、そしてこの方法が与えられた位置に最
も適する単語/意味ペアを選択する段階を更に含むこと
を特徴とする方法。 - 【請求項6】 請求項5に記載の方法において、前記単
語/意味ペアを選択する段階が前記決定をその付近の位
置における最も適当な意味のもう一つの決定と比較する
段階を含むことを特徴とする方法。 - 【請求項7】 請求項1に記載の方法において、前記決
定を行なう段階が、 前記シーケンス内の単語に対して、単語/意味ペアが適
当な意味を持つか否かを決定するために幾つかの単語の
重みを示すテーブル内から重みを得る段階、及び単語/
意味ペアが与えられた位置に適する可能性を決定するた
めにこれら重みを総和する段階を含むことを特徴とする
方法。 - 【請求項8】 請求項7に記載の方法において、複数の
単語/意味ペアが存在し、 前記重みを得る段階及び重みを総和する段階が各単語/
意味ペアに対して遂行され、そしてこの方法がさらに単
語/意味ペアが与えられた位置に対して適する最高の可
能性を示す総和重みを持つ単語/意味ペアを選択する段
階を含むことを特徴とする方法。 - 【請求項9】 請求項8に記載の方法において、前記単
語/意味ペアを選択する段階が、 選択された単語/意味ペアをその付近における最も適当
な意味のもう一つの決定と比較する段階を含むことを特
徴とする方法。 - 【請求項10】 請求項1乃至9に記載の方法におい
て、意味/単語ペア内の単語の一回の発生が与えられた
位置にあることを特徴とする方法。 - 【請求項11】 単語/意味ペア(105)がテキスト
(111)内の与えられた位置に適する意味を持つか決
定するための装置において、この装置が、 前記テキスト内の与えられた位置(116)を含み、ま
たテキストの1ラインよりも十分に長い単語シーケンス
(115)を得るための手段(103)、及び単語/意
味ペアが適当な意味を持つか否かを決定するために前記
シーケンスを分析するための手段(103、107)を
含むことを特徴とする装置。 - 【請求項12】 請求項11に記載の装置において、前
記シーケンスを分析するための手段がさらに、 単語/意味ペアが適当な意味を持つか否かを決定するた
めのテキスト内の幾つかの単語の重みを示すテーブル
(107)、及び前記シーケンスを前記テーブルからシ
ーケンス内の単語の重みを得て、これら単語の重みを総
和することによってその単語/意味ペアが与えられた位
置に対して適当である可能性を決定することにより分析
する前記シーケンスを分析するための手段を更に含むこ
とを特徴とする装置。 - 【請求項13】 ある単語/意味ペアがあるテキスト内
のある与えられた位置に対して適当な意味を持つことを
決定するための装置内で使用するための確率テーブルを
作る方法において、このテーブルを作る方法が、 単語/意味ペアの意味に意味論的に関連する背景を含む
テキスト総体の条件付きサンプルを作る段階、 Bayesian技法を使用して前記条件付きサンプル内に発生
する各単語に対して、条件付きサンプル内の各単語の重
みを単語/意味ペアのその単語がその単語/意味ペアの
意味を持つ確率との関連で決定する段階、及び与えられ
た重みより大きな重みを持つ発生単語の各々に対してそ
の単語の重みを含むテーブルエントリを作る段階を含む
ことを特徴とする方法。 - 【請求項14】 請求項13に記載の方法において、Ba
yesian技法を採用する段階において、条件付きサンプル
内に発生する各単語に対する重みwtが方程式 【数1】 によって決定され、ここで、πはその単語の条件付き確
率を表わし、aは条件付きサンプル内のその単語の頻度
であり、そしてEは与えられたaに対するπの期待値で
あることを特徴とする方法。 - 【請求項15】 請求項13に記載の方法において、そ
れから条件付きサンプルが作られたテキスト総体の別の
言語への翻訳が存在し、 条件付きサンプルを作る段階において、単語/意味ペア
の単語がその単語/意味ペアの意味にて使用されている
かの決定が翻訳文内の対応する単語との参照で行なわれ
ることを特徴とする方法。 - 【請求項16】 請求項13に記載の方法において、そ
の単語/意味ペアと同一の意味カテゴリに属するカテゴ
リ化された単語のリストが存在し、 条件付きサンプルを作る段階において、背景がこのリス
トからの単語を含むことを特徴とする方法。 - 【請求項17】 請求項13に記載の方法において、Ba
yesian技法を使用する段階において、条件付きサンプル
内に起こる各単語に対する重みwtが方程式 【数2】 によって決定され、ここで、πはその単語の条件付き確
率を表わし、aは条件付きサンプル内のその単語の頻度
であり、そしてEは与えられたaに対するπの期待値で
あることを特徴とする方法。 - 【請求項18】 請求項17に記載の方法において、Ba
yesian技法を採用する段階において、aがリストからの
ある背景内に含まれる各単語に対して、リストからのそ
の単語がテキストの総体内に現れる回数kを決定し、つ
ぎにある単語のそのような背景内の全ての単語に1/k
の重さをaに寄与させることによって派生されることを
特徴とする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US814850 | 1985-12-30 | ||
US07/814,850 US5541836A (en) | 1991-12-30 | 1991-12-30 | Word disambiguation apparatus and methods |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05242138A true JPH05242138A (ja) | 1993-09-21 |
Family
ID=25216159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4343914A Withdrawn JPH05242138A (ja) | 1991-12-30 | 1992-12-24 | 単語ディスアンビギュエーション装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5541836A (ja) |
EP (1) | EP0550160A2 (ja) |
JP (1) | JPH05242138A (ja) |
KR (1) | KR930014120A (ja) |
CA (1) | CA2083733A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096838A (ja) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 |
Families Citing this family (165)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5822720A (en) | 1994-02-16 | 1998-10-13 | Sentius Corporation | System amd method for linking streams of multimedia data for reference material for display |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
US5680511A (en) * | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
JPH10198680A (ja) * | 1997-01-07 | 1998-07-31 | Hitachi Ltd | 分散辞書管理方法及びそれを用いた機械翻訳方法 |
GB2321117A (en) * | 1997-01-09 | 1998-07-15 | Sharp Kk | Disambiguating syntactic word multiples |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
US5970483A (en) | 1997-07-25 | 1999-10-19 | Claritech Corporation | Apparatus and methodology for submitting search queries |
JPH11110480A (ja) * | 1997-07-25 | 1999-04-23 | Kuraritec Corp | テキストの表示方法およびその装置 |
US5987448A (en) * | 1997-07-25 | 1999-11-16 | Claritech Corporation | Methodology for displaying search results using character recognition |
JPH11102414A (ja) | 1997-07-25 | 1999-04-13 | Kuraritec Corp | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 |
US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
WO1999017223A1 (en) * | 1997-09-30 | 1999-04-08 | Ihc Health Services, Inc. | Aprobabilistic system for natural language processing |
US6260008B1 (en) * | 1998-01-08 | 2001-07-10 | Sharp Kabushiki Kaisha | Method of and system for disambiguating syntactic word multiples |
US6782510B1 (en) * | 1998-01-27 | 2004-08-24 | John N. Gross | Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields |
US6154783A (en) | 1998-09-18 | 2000-11-28 | Tacit Knowledge Systems | Method and apparatus for addressing an electronic document for transmission over a network |
WO2000017727A2 (en) | 1998-09-18 | 2000-03-30 | Tacit Knowledge Systems | Method and apparatus for querying a user knowledge profile |
US8380875B1 (en) | 1998-09-18 | 2013-02-19 | Oracle International Corporation | Method and system for addressing a communication document for transmission over a network based on the content thereof |
US6115709A (en) | 1998-09-18 | 2000-09-05 | Tacit Knowledge Systems, Inc. | Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions |
US6253202B1 (en) | 1998-09-18 | 2001-06-26 | Tacit Knowledge Systems, Inc. | Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user |
US6377949B1 (en) | 1998-09-18 | 2002-04-23 | Tacit Knowledge Systems, Inc. | Method and apparatus for assigning a confidence level to a term within a user knowledge profile |
AU5910699A (en) * | 1998-09-18 | 2000-04-10 | Tacit Knowledge Systems | Method of constructing and displaying an entity profile constructed utilizing input from entities other than the owner |
US6256629B1 (en) * | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
DE19855137A1 (de) * | 1998-11-30 | 2000-05-31 | Honeywell Ag | Verfahren zur Konvertierung von Daten |
CA2367320A1 (en) | 1999-03-19 | 2000-09-28 | Trados Gmbh | Workflow management system |
US6490548B1 (en) | 1999-05-14 | 2002-12-03 | Paterra, Inc. | Multilingual electronic transfer dictionary containing topical codes and method of use |
KR20010004404A (ko) * | 1999-06-28 | 2001-01-15 | 정선종 | 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법 |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US6405162B1 (en) * | 1999-09-23 | 2002-06-11 | Xerox Corporation | Type-based selection of rules for semantically disambiguating words |
US6256605B1 (en) * | 1999-11-08 | 2001-07-03 | Macmillan Alan S. | System for and method of summarizing etymological information |
US7315891B2 (en) * | 2000-01-12 | 2008-01-01 | Vericept Corporation | Employee internet management device |
US7788602B2 (en) | 2000-06-06 | 2010-08-31 | Microsoft Corporation | Method and system for providing restricted actions for recognized semantic categories |
US7712024B2 (en) | 2000-06-06 | 2010-05-04 | Microsoft Corporation | Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings |
US7421645B2 (en) | 2000-06-06 | 2008-09-02 | Microsoft Corporation | Method and system for providing electronic commerce actions based on semantically labeled strings |
US7716163B2 (en) | 2000-06-06 | 2010-05-11 | Microsoft Corporation | Method and system for defining semantic categories and actions |
US7770102B1 (en) * | 2000-06-06 | 2010-08-03 | Microsoft Corporation | Method and system for semantically labeling strings and providing actions based on semantically labeled strings |
US6668251B1 (en) | 2000-11-01 | 2003-12-23 | Tacit Knowledge Systems, Inc. | Rendering discriminator members from an initial set of result data |
US20040111386A1 (en) * | 2001-01-08 | 2004-06-10 | Goldberg Jonathan M. | Knowledge neighborhoods |
WO2002073451A2 (en) * | 2001-03-13 | 2002-09-19 | Intelligate Ltd. | Dynamic natural language understanding |
US7032174B2 (en) * | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
US7778816B2 (en) | 2001-04-24 | 2010-08-17 | Microsoft Corporation | Method and system for applying input mode bias |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US7130861B2 (en) | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
JP2003157376A (ja) * | 2001-11-21 | 2003-05-30 | Ricoh Co Ltd | ネットワークシステム、識別情報管理方法、サーバ装置、プログラム、および記録媒体 |
AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7325194B2 (en) | 2002-05-07 | 2008-01-29 | Microsoft Corporation | Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings |
US7707496B1 (en) | 2002-05-09 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings |
US7742048B1 (en) | 2002-05-23 | 2010-06-22 | Microsoft Corporation | Method, system, and apparatus for converting numbers based upon semantically labeled strings |
US7707024B2 (en) | 2002-05-23 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for converting currency values based upon semantically labeled strings |
US7827546B1 (en) | 2002-06-05 | 2010-11-02 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7281245B2 (en) | 2002-06-05 | 2007-10-09 | Microsoft Corporation | Mechanism for downloading software components from a remote source for use by a local software application |
US7356537B2 (en) | 2002-06-06 | 2008-04-08 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
US7716676B2 (en) | 2002-06-25 | 2010-05-11 | Microsoft Corporation | System and method for issuing a message to a program |
US7392479B2 (en) | 2002-06-27 | 2008-06-24 | Microsoft Corporation | System and method for providing namespace related information |
US7353165B2 (en) * | 2002-06-28 | 2008-04-01 | Microsoft Corporation | Example based machine translation system |
US7209915B1 (en) | 2002-06-28 | 2007-04-24 | Microsoft Corporation | Method, system and apparatus for routing a query to one or more providers |
US7158983B2 (en) | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
US9805373B1 (en) | 2002-11-19 | 2017-10-31 | Oracle International Corporation | Expertise services platform |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US7783614B2 (en) | 2003-02-13 | 2010-08-24 | Microsoft Corporation | Linking elements of a document to corresponding fields, queries and/or procedures in a database |
US7356457B2 (en) * | 2003-02-28 | 2008-04-08 | Microsoft Corporation | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words |
US7711550B1 (en) | 2003-04-29 | 2010-05-04 | Microsoft Corporation | Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names |
US8640234B2 (en) * | 2003-05-07 | 2014-01-28 | Trustwave Holdings, Inc. | Method and apparatus for predictive and actual intrusion detection on a network |
US7558841B2 (en) | 2003-05-14 | 2009-07-07 | Microsoft Corporation | Method, system, and computer-readable medium for communicating results to a data query in a computer network |
US7739588B2 (en) | 2003-06-27 | 2010-06-15 | Microsoft Corporation | Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
WO2005020091A1 (en) * | 2003-08-21 | 2005-03-03 | Idilia Inc. | System and method for processing text utilizing a suite of disambiguation techniques |
US7774333B2 (en) | 2003-08-21 | 2010-08-10 | Idia Inc. | System and method for associating queries and documents with contextual advertisements |
US20070136251A1 (en) * | 2003-08-21 | 2007-06-14 | Idilia Inc. | System and Method for Processing a Query |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
JP3856778B2 (ja) * | 2003-09-29 | 2006-12-13 | 株式会社日立製作所 | 複数言語を対象とした文書分類装置及び文書分類方法 |
US7434157B2 (en) | 2003-12-09 | 2008-10-07 | Microsoft Corporation | Programmable object model for namespace or schema library support in a software application |
US7487515B1 (en) | 2003-12-09 | 2009-02-03 | Microsoft Corporation | Programmable object model for extensible markup language schema validation |
US7404195B1 (en) | 2003-12-09 | 2008-07-22 | Microsoft Corporation | Programmable object model for extensible markup language markup in an application |
US7178102B1 (en) | 2003-12-09 | 2007-02-13 | Microsoft Corporation | Representing latent data in an extensible markup language document |
US7509573B1 (en) | 2004-02-17 | 2009-03-24 | Microsoft Corporation | Anti-virus security information in an extensible markup language document |
US20100262621A1 (en) * | 2004-03-05 | 2010-10-14 | Russ Ross | In-context exact (ice) matching |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
US9195766B2 (en) | 2004-12-14 | 2015-11-24 | Google Inc. | Providing useful information associated with an item in a document |
EP1846815A2 (en) * | 2005-01-31 | 2007-10-24 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
US20070073678A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
US7599828B2 (en) * | 2005-03-01 | 2009-10-06 | Microsoft Corporation | Grammatically correct contraction spelling suggestions for french |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US9400838B2 (en) * | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
US20080195601A1 (en) * | 2005-04-14 | 2008-08-14 | The Regents Of The University Of California | Method For Information Retrieval |
US9606634B2 (en) * | 2005-05-18 | 2017-03-28 | Nokia Technologies Oy | Device incorporating improved text input mechanism |
US20090193334A1 (en) * | 2005-05-18 | 2009-07-30 | Exb Asset Management Gmbh | Predictive text input system and method involving two concurrent ranking means |
US8099281B2 (en) * | 2005-06-06 | 2012-01-17 | Nunance Communications, Inc. | System and method for word-sense disambiguation by recursive partitioning |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7574348B2 (en) * | 2005-07-08 | 2009-08-11 | Microsoft Corporation | Processing collocation mistakes in documents |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US7788590B2 (en) | 2005-09-26 | 2010-08-31 | Microsoft Corporation | Lightweight reference user interface |
US7992085B2 (en) | 2005-09-26 | 2011-08-02 | Microsoft Corporation | Lightweight reference user interface |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
WO2007081681A2 (en) | 2006-01-03 | 2007-07-19 | Textdigger, Inc. | Search system with query refinement and search method |
WO2007114932A2 (en) | 2006-04-04 | 2007-10-11 | Textdigger, Inc. | Search system and method with text function tagging |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
KR100785928B1 (ko) * | 2006-07-04 | 2007-12-17 | 삼성전자주식회사 | 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템 |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
US8521506B2 (en) * | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8112402B2 (en) * | 2007-02-26 | 2012-02-07 | Microsoft Corporation | Automatic disambiguation based on a reference resource |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8280721B2 (en) * | 2007-08-31 | 2012-10-02 | Microsoft Corporation | Efficiently representing word sense probabilities |
US20090254540A1 (en) * | 2007-11-01 | 2009-10-08 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US8209164B2 (en) * | 2007-11-21 | 2012-06-26 | University Of Washington | Use of lexical translations for facilitating searches |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
WO2010061507A1 (ja) * | 2008-11-28 | 2010-06-03 | 日本電気株式会社 | 言語モデル作成装置 |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
CN101901210A (zh) * | 2009-05-25 | 2010-12-01 | 日电(中国)有限公司 | 词义消歧系统和方法 |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8738375B2 (en) * | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US9396725B2 (en) | 2011-05-09 | 2016-07-19 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8738364B2 (en) | 2011-12-14 | 2014-05-27 | International Business Machines Corporation | Adaptation of vocabulary levels for enhanced collaboration |
US20130198268A1 (en) * | 2012-01-30 | 2013-08-01 | David Hyman | Generation of a music playlist based on text content accessed by a user |
CN103294661A (zh) * | 2012-03-01 | 2013-09-11 | 富泰华工业(深圳)有限公司 | 语言歧义消除系统及方法 |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9208442B2 (en) | 2013-04-26 | 2015-12-08 | Wal-Mart Stores, Inc. | Ontology-based attribute extraction from product descriptions |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US9779087B2 (en) * | 2013-12-13 | 2017-10-03 | Google Inc. | Cross-lingual discriminative learning of sequence models with posterior regularization |
US9436676B1 (en) | 2014-11-25 | 2016-09-06 | Truthful Speaking, Inc. | Written word refinement system and method |
CN105005553B (zh) * | 2015-06-19 | 2017-11-21 | 四川大学 | 基于情感词典的短文本情感倾向分析方法 |
CN105022805B (zh) * | 2015-07-02 | 2018-05-04 | 四川大学 | 一种基于so-pmi商品评价信息的情感分析方法 |
US10515152B2 (en) | 2015-08-28 | 2019-12-24 | Freedom Solutions Group, Llc | Mitigation of conflicts between content matchers in automated document analysis |
CN106021224B (zh) * | 2016-05-13 | 2019-03-15 | 中国科学院自动化研究所 | 一种双语篇章标注方法 |
CN109726386B (zh) * | 2017-10-30 | 2023-05-09 | 中国移动通信有限公司研究院 | 一种词向量模型生成方法、装置和计算机可读存储介质 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10430447B2 (en) | 2018-01-31 | 2019-10-01 | International Business Machines Corporation | Predicting intent of a user from anomalous profile data |
US10741176B2 (en) | 2018-01-31 | 2020-08-11 | International Business Machines Corporation | Customizing responses to users in automated dialogue systems |
US10943075B2 (en) * | 2018-02-22 | 2021-03-09 | Entigenlogic Llc | Translating a first language phrase into a second language phrase |
US11087098B2 (en) * | 2018-09-18 | 2021-08-10 | Sap Se | Computer systems for classifying multilingual text |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11651156B2 (en) * | 2020-05-07 | 2023-05-16 | Optum Technology, Inc. | Contextual document summarization with semantic intelligence |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
JPS61105671A (ja) * | 1984-10-29 | 1986-05-23 | Hitachi Ltd | 自然言語処理装置 |
JPH083815B2 (ja) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
US4930077A (en) * | 1987-04-06 | 1990-05-29 | Fan David P | Information processing expert system for text analysis and predicting public opinion based information available to the public |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US4914590A (en) * | 1988-05-18 | 1990-04-03 | Emhart Industries, Inc. | Natural language understanding system |
NL8900587A (nl) * | 1989-03-10 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
US5170349A (en) * | 1989-03-14 | 1992-12-08 | Canon Kabushiki Kaisha | Text processing apparatus using modification relation analysis |
JPH02242372A (ja) * | 1989-03-15 | 1990-09-26 | Toshiba Corp | 文生成装置 |
JPH02308370A (ja) * | 1989-05-24 | 1990-12-21 | Toshiba Corp | 機械翻訳システム |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
US5243520A (en) * | 1990-08-21 | 1993-09-07 | General Electric Company | Sense discrimination system and method |
EP0494573A1 (en) * | 1991-01-08 | 1992-07-15 | International Business Machines Corporation | Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system |
-
1991
- 1991-12-30 US US07/814,850 patent/US5541836A/en not_active Expired - Lifetime
-
1992
- 1992-11-25 CA CA002083733A patent/CA2083733A1/en not_active Abandoned
- 1992-12-04 EP EP92311094A patent/EP0550160A2/en not_active Withdrawn
- 1992-12-24 JP JP4343914A patent/JPH05242138A/ja not_active Withdrawn
- 1992-12-30 KR KR1019920027574A patent/KR930014120A/ko not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021096838A (ja) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 |
US11275904B2 (en) | 2019-12-18 | 2022-03-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for translating polysemy, and medium |
Also Published As
Publication number | Publication date |
---|---|
CA2083733A1 (en) | 1993-07-01 |
KR930014120A (ko) | 1993-07-22 |
EP0550160A2 (en) | 1993-07-07 |
EP0550160A3 (ja) | 1994-01-12 |
US5541836A (en) | 1996-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
US5680511A (en) | Systems and methods for word recognition | |
Mangu et al. | Automatic rule acquisition for spelling correction | |
Stamatatos et al. | Automatic authorship attribution | |
KR101031970B1 (ko) | 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 | |
EP1217533A2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
JP2000194696A (ja) | サンプルテキスト基調言語自動識別方法 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
EP1471440A2 (en) | System and method for word analysis | |
Cherry et al. | An expectation maximization approach to pronoun resolution | |
Smadja et al. | Translating collocations for use in bilingual lexicons | |
Rayson et al. | Automatic error tagging of spelling mistakes in learner corpora | |
Hakkani-Tur et al. | Statistical sentence extraction for information distillation | |
Verkerk et al. | LASLA and Collatinus: a convergence in lexica | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
Alsina et al. | CATCG: a general purpose parsing tool applied. | |
Pinzhakova et al. | Feature Similarity-based Regression Models for Authorship Verification. | |
Al-Taani et al. | Searching concepts and keywords in the Holy Quran | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
Yesuf et al. | Amharic Word Sense Disambiguation Using Wordnet | |
Bessou et al. | An accuracy-enhanced stemming algorithm for Arabic information retrieval | |
Selvaramalakshmi et al. | A novel PSS stemmer for string similarity joins | |
Nasukawa | Discourse constraint in computer manuals | |
JP2004280316A (ja) | 分野判定装置及び言語処理装置 | |
Tufiş et al. | Automatic construction of translation lexicons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20000307 |