JPH05242138A - 単語ディスアンビギュエーション装置及び方法 - Google Patents

単語ディスアンビギュエーション装置及び方法

Info

Publication number
JPH05242138A
JPH05242138A JP4343914A JP34391492A JPH05242138A JP H05242138 A JPH05242138 A JP H05242138A JP 4343914 A JP4343914 A JP 4343914A JP 34391492 A JP34391492 A JP 34391492A JP H05242138 A JPH05242138 A JP H05242138A
Authority
JP
Japan
Prior art keywords
word
meaning
words
semantic
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4343914A
Other languages
English (en)
Inventor
Kenneth W Church
ワード チャーチ ケネス
William A Gale
アーサー ゲール ウィリアム
David E Yarowsky
エリック ワロウスキー ディヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH05242138A publication Critical patent/JPH05242138A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

(57)【要約】 【目的】 単語と意味の対が分脈に対して適当かどうか
を判断するための方法及び装置を提供することを目的と
する。 【構成】 本件発明においては、当該機械のトレーニン
グ及び検査の双方のために長い文章(100語)が用い
られ、その検査は当該文章から語彙の重みを加えること
で行われる。その重みは、トレーニング文章の条件付例
文内の語彙の発生確率とトレーニング文章全体のその発
生確率との間の補間によるBayesian技法によって決定さ
れる。更に、本願においては、文章の二か国本体のトレ
ーニングとRoget語彙索引からのカテゴリを用いるトレ
ーニングを含む自動的なトレーニング技術を開示してい
る。

Description

【発明の詳細な説明】
【0001】
【本件発明の分野】本発明は、一般的には、コンピュー
タ化されたテキスト分析、より詳細には、ある与えられ
た単語/意味ペアがある与えられた背景に対して適当で
あるか否かを決定するための問題に関する。
【0002】
【従来技術】自然言語テキストの機械翻訳はコンピュー
タ科学及び言語学における研究者の目標である。高品質
機械翻訳における主要な障壁は単語を明確化(ディスア
ンビギュエート)することの困難さである。単語ディス
アンビギュエーション(worddisambiguation )は任意
の自然言語内の多くの単語が一つ以上の意味を持つため
に必要となる。例えば、英語の名詞「sentence」は一般
的な使用において二つの意味を持つ。一つは文法と関連
し、ここでは、「sentence」はテキスト或はスピーチの
一部である。もう一つは刑罰と関連し、ここでは、「se
ntence」は犯罪者に課せられる刑罰である。人はどの意
味に使われているかを決定するためにその単語が現われ
る背景(context )及び彼等の世の中についての常識を
使用し、このため以下のようなテキストでも通常問題を
起こさない。 「The teacher gave the student the sentence of wri
ting the sentence”I will not throw spit wads”100
times.」
【0003】しかし、コンピュータは世の中についての
常識を持たず、従って、上のような文をフランス語など
の言語に翻訳するのに多くの問題を持つ。ここでフラン
ス語では、「sentence」を翻訳するのに用いられる単語
は、これが文法上の意味で採用された場合は「phrase
(仏語)」となり、また同じ「sentence」が刑罰の意味
に用いられたときは「peine (仏語)」となる。
【0004】単語がその中で使用される背景から単語の
可能な意味を決定する能力は、テキスト分析の他の分野
においても重要である。例えば、光学文字認識システム
及び音声認識システムは、通常、書かれた或は話された
単語を小さなセットの可能性に分解するのみであり;こ
の小さなセット内の単語間の選択を行なう一つの方法は
どの単語がその背景に最も合った意味を持つかを決定す
ることから成る。この分野での他の例としては、アクセ
ント或はウムラウトなどのような文字がある単語上に置
かれるべきか否か、或はその単語が大文字にされるべき
か否かを決定する問題である。加えて、スペリングチェ
ッカなどのようなテキスト編集ツール、或はユーザにあ
る単語に対するセットの示唆される代替を提供する対話
型類語辞典がある。これらツールもまたセットの代替が
その意味が背景に合う単語に制限されることによって向
上される。
【0005】単語の可能な意味をその背景から決定する
ための優れた技法から利益を受けるテキスト分析のもう
一つの領域は、データベース検索である。データベース
語の探索は単に探索用語をデータベース内でその用語が
使用される意味と無関係にそのデータベース内での発生
と比較することによって機能する。探索をある用語の与
えられた意味のみに制限する唯一の方法は、探索者が第
一の探索用語と共に発見することを期待する他の探索用
語を提供する方法である。但し、探索戦略は、第一の用
語が正しい意味を持つが、ただしこれらの他の探索用語
と共に発見されない場合、第一の用語の発生を見逃す。
ある語のどの意味がある背景内に最も合うかを決定する
ための有効な方法が与えられれば、その探索用語のみで
なく、それが使用されている意味をも指定して探索をす
ることが可能になる。
【0006】過去の研究者らは上に概略された単語ディ
スアンビギュエーション問題に対する3つの異なる一般
的アプローチを使用する。
【0007】これらは、例えば、Hirst (1987)に
よる定性的方法(Qualitative Methods );例えば、Le
sk(1986)による辞典に基づく方法(Dictionary-b
asedMethods);及び例えば、Kelly 及びStone (19
75)による編集資料に基づく方法(Corpus-based Met
hods)である。
【0008】各々のケースにおいて、作業が知識取得ボ
トルネックによって制限を受ける。例えば、AIコミュ
ニティの部分には大きなエキスパートを手作業によって
構築する伝統がある。これに関しては、例えば、Grange
r (1977)、Rieger(1977)、Small 及びRieg
er(1987)を参照すること。残念ながら、このアプ
ローチはスケールアップがそれほど容易でなく、多くの
研究者は、以下のように指摘している。”THROW に対す
るエクスパートは現在6ページ長である...ただし、
これはこのサイズの10倍あるべきである(Small 及び
Reiger、198X)
【0009】この方法はスケールアップが困難であり、
このため多くの作業は”toy ”領域(例えば、Winograd
のBlocks World)或はサブ言語(例えば、Isabelle
(1984)、Hirschman (1986))に焦点を置か
なければならなかった。今日においては、無制約のテキ
ストに対して要求されるような広範囲をカバーする意味
論的ネットワークを見つけることは不可能である。
【0010】他の研究者、例えば、Lesk(1986)、
Walker(1987)、Ide (1990、ウォータルー会
議)らは、それらが知識取得ボトルネックを解決できる
かもしれないという希望の下で機械によって読むことが
できる辞書(machine-readable dictionarys、MR
D)、例えば、Oxford's Advanced Learner's Dictiona
lyof Current English (OALDCE)に目を向け
た。これら研究者は任意のテキストを読み、このテキス
ト内の各単語に特定の辞書内の特定の意味番号へのポイ
ンタをつけるプログラムの開発を目指す。こうして、例
えば、Leskのプログラムに語句「pine cone 」が与えら
れると、これは、「pine」にOALDCE内の「pine」
の第一の意味(一種の常緑樹)へのポインタを付け、そ
して「cone」にOALDCE内の第三の意味(ある種の
常緑樹の果実)へのポインタを付ける。Leskのプログラ
ムはこの仕事をその定義内の単語とその多義語(ambigu
ous word)の”近くの”テキスト内の単語間の重複を見
つけることによって達成する。
【0011】残念ながら、このアプローチは皆が期待す
るほどうまくは行かないように見える。Lesk(198
6)はPride and Prejudice の短いサンプルでの50−
70%の精度を報告する。問題の一部は辞書の定義はコ
レクション(多義語の特定の意味の背景内において頻繁
に見られる単語)の全てを言及するには短過ぎる。これ
に加えて、辞書は我々が考えるほどの収録範囲(covera
ge)が大きくない。Walker(1987)はおそらく新し
いテキスト内に出て来る単語の半分が辞書項目と関連付
けることができないと報告している。
【0012】このように、AIアプローチと同様に、辞
書に基づくアプローチも知識取得ボトルネックによって
制約される。つまり、辞書は関連する情報を十分に収録
しておらず、また辞書内に収録された情報の多くは、少
なくとも今日においては、コンピュータが簡単に整理で
きるような形式にはなっていない。
【0013】研究の第三のラインは手作業によって注釈
を付けられた集成資料を使用する。これら研究の殆どは
手作業によって注釈を付けられたテキストがどれだけ入
手できるかによって制約される。このようなテキストが
その語彙内の多義語の殆どに対して大きな量にて入手で
きることは期待しにくいため、このようなアプローチが
無制約のテキストを扱うためにどのようにスケールアッ
プできるかについての重大な疑問がある。Kelly 及びSt
one (1975)は50万単語の集成資料内に少なくと
も20回出現する単語を選択し、手作業によって181
5個のディスアンビギュエーションモデル(disambigua
tion model)を構築している。彼等は各単語に対する背
景(KWIC)用語索引(concordances)内のキー単語
から開始し、これらを背景分析においてそれらがが有効
であると認識されるような意味を確立するために使用す
る。このモデルは規則の順序セットから成り、各々のセ
ットは一つの分類に決定するため、或は同一モデル内の
別の規則にジャンプするため、或はそのモデル内の別の
単語に対する規則にジャンプするための充分な条件を与
える。ある与えられた規則のこれら条件は目標とされる
単語の4単語以内の背景に対する参照を持つ。これらは
目標単語の形態、背景単語そのもの、或は任意の背景単
語の音声或は意味クラスの一部をテストすることができ
る。16の意味論クラスが手作業によって指定された。
【0014】最も最近の研究はこれら規則を手作業によ
って構築するには非常に人手がかかるためオートマテッ
クな方法を求めている。Weiss (1973)は最初5つ
の単語に対して手作業にて規則セットを構築し、次に、
類似する規則セットを構築するための自動手順を開発
し、これを彼は追加の3つの単語に適用した。残念なこ
とに、このシステムは訓練セットに対してテストされて
おり、このためこれが実際にはどの程度良く機能したか
知ることはできない。
【0015】Black (1987、1988)は各単語に
対して約2000の手作業にてタグを与えた用語索引ラ
インを使用して5つの4−義単語の研究を行なった。各
単語に対して1500訓練例を使用し、彼のプログラム
はその多義語の背景内の81の”背景カテゴリ(contex
tual categories )”の存在或は不在に基づいて判定ツ
リーを構築する。彼は次の3つの異なるタイプの背景カ
テゴリを使用した。つまり、(1)LDOCE、つま
り、Longman Dictionary of Contemporary English(Lo
ngman 、1987)、(2)その多義語の二単語内に最
も頻繁に発生する41語彙項目、及び(3)その用語索
引ライン内に最も頻繁に発生するファンクション単語を
除く40の語彙項目が背景カテゴリとして使用された。
Black は辞書カテゴリが最も弱い性能(47%の精度)
を示し、他の二つは、それぞれ、72及び75%の精度
でかなり接近していることを発見した。
【0016】
【発明が解決しようとする課題】今日では、手作業によ
って注釈を付けられた集成資料に基づくアプローチに熱
心な関心が寄せられている。Hearst(1991)の研究
は、この点において、Black (1987、1988)、
Weiss (1973)並びにKelly 及びStone (197
5)らと、彼女は他の人が行なったよりもかなり多くの
文脈情報を使用するが、どこか類似するアプローチの非
常に最近の例である。彼女の性能も、これらシステム間
の性能を比較することは困難であるが、他の人のものの
性能よりも幾分良いように思われる。
【0017】上の議論から分かるように、どの単語/意
味ペアがある与えられた背景に最も良く適するかを決定
するための適当な技法の不在がテキスト分析の多くの領
域において深刻な障壁であった。ここに開示される装置
及び方法の一つの目的は、このような技法を提供するこ
とにある。
【0018】
【本件発明の要約】一面において、本発明は、ある単語
/意味ペアがあるテキスト内のある与えられた位置に適
当な意味を持つことを自動的に決定するための方法に関
する。この方法は、テキスト内の与えられた位置を含む
そのテキストの1ラインよりもかなり長い単語のシーケ
ンスを決定する段階;及びその単語/意味ペアがそのシ
ーケンスを自動的に分析することによって適当な意味を
持つか否かを決定する段階を含む。
【0019】もう一面において、本発明は、ある単語/
意味ペアがあるテキスト内のある与えられた位置に適す
る確率を自動的に決定する方法に関する。この方法は、
テキスト内のその与えられた位置を含む単語のシーケン
スを決定する段階;及び「Bayesian弁別技法」を自動的
に採用する段階を含み、このBayesian技法において、シ
ーケンス内の単語及びその単語/意味ペアの意味がその
単語/意味ペアがその与えられた位置に適する意味を持
つ確率を決定するために使用される。
【0020】さらにもう一面において、本発明は、ある
テキスト内のある単語のある与えられた発生がある与え
られた意味を持つか否かを自動的に決定するための方法
に関する。この方法は、その単語のその与えられた発生
の意味の第一の決定を行なう段階;及びこの第一の決定
をその単語の付近の発生の意味の決定と比較することに
よってその単語のその与えられた発生の意味の最終決定
を行なう段階を含む。
【0021】本発明の上記及びその他の目的、特徴及び
長所は当業者においては以下の図面及び詳細な説明から
明白となるものである。
【0022】
【詳細な記述】以下の詳細な説明においては、最初に、
一つの好ましい実施例においてのディスアンビギュエー
ション問題(disambiguation problem)に対する論理的
アプローチの概要が示され、次に、ディスアンビギュエ
ーション問題を解決するための装置について説明され、
そして、最後に、ディスアンビギュエーション問題を解
決するための装置をいかにして訓練するかについて議論
される。
【0023】Bayesianディスアンビギュエーション技法 単語/意味ディスアンビギュエーション(word-sense d
isambiguation )の問題は、弁別(discrimination)の
問題であり、著者識別(author identification )や情
報検索と大きく異なる問題ではない。著者識別及び情報
検索においては、問題をテストフェーズ(testing phas
e )と訓練フェーズ(training phase)に分割するのが
慣習である。訓練フェーズにおいて、我々は、二つ(或
はそれ以上)のセットの資料を与えられ、これら二つ
(或はそれ以上)のクラスの資料を判別することができ
る弁別子(discriminator )を構築することを要求され
る。これら弁別子が次にテストフェーズにおいて新たな
資料に対して適用される。例えば、著者識別タスクにお
いては、訓練用セットは二人(或はそれ以上の)著者の
各々によって書かれた複数の資料から構成される。この
結果としての弁別子が次にその著者がだれであるかが問
題となっている資料に関してテストされる。情報検索ア
プリケーションにおいては、訓練用セットはセットの一
つ或は複数の関連する資料及びセットのゼロ或は複数の
無関係の資料から構成される。結果としての弁別子が次
により関連するものとあまり関連しないものを分離する
ためにこれらライブラリ内の全ての資料に適用される。
意味ディスアンビギュエーションのケースにおいては、
ある多義単語(polysemous word )(例えば、duty)の
実例を取り巻く100単語背景が一つの資料と殆ど同一
の方法にて処理される。
【0024】これら弁別問題に対してBayesian方法を用
いるのはごく自然である。Mosteller 及びWallace (1
964年、セクション3.1)は、連邦主義者論文(Fe
deralist Papers )の彼らの古典的な著者研究(author
ship study)において、新たな証拠(例えば、資料マト
リックス別の用語)を従来の証拠(例えば、歴史的記
録)と組合わせるために以下の方程式を使用した。
【数3】 二つのグループの資料に対して、この方程式は、以下の
ようになる。
【数4】 ここで、Pは最終確率(probability)を表わし、pは初
期確率を表わし、そしてLは可能性(likelihood)を表
わす。類似の方程式が情報検索に関する参考書内にも見
られる(例えば、Salton(1989)、方程式10.1
7)。
【0025】初期確率(initial odds)はその問題に依
存する。例えば、著者識別の問題においては、様々な衝
突する歴史的記録から初期確率がこれら資料について知
る所のものをモデル化するために使用される。情報検索
アプリケーションにおいては、ユーザがライブラリの一
部を彼或は彼女が関連ありと期待する推測を持つことが
あり、このような推測が前の確率(prior probabilit
y) として使用される。前の確率はしばしば推測が困難
あるが、これは、結果にあまり重大な影響を与えないこ
とが通常であり、幸いなことである。
【0026】多くの可能性(likelihoods )を以下の方
程式のように(適当な独立想定の下で)その資料内のト
ークン(単語の発生)を通じての可能性(likelihoods
)の積に分解するのが通常である。
【数5】
【0027】この計算に対する重要な成分(ingredient
s )はその資料がある与えられたクラスからのものであ
るという条件下でのその語彙(vocabulary)内の各用語
の確率である。これら条件付き確率(conditional pro
bability)はそのアプリケーション及び研究に依存して
様々な異なる方法にて計算されている。
【0028】二つの意味に対しては、上に述べたBayesi
an方程式は以下のようになる。
【数6】 ここで、p、P及びLは上と同様にそれぞれ初期確率、
最終確率及び可能性である。これら初期確率は資料の総
体内のこれら二つの意味の総確率から決定される。他の
より大きな次元の弁別問題と同様に、可能性は以下のよ
うにトークンを通じての積に分解される。
【数7】
【0029】単語/意味ディスアンビギュエーションに
おいて使用するための装置:図1 図1はある単語/意味ペアがある与えられた背景によっ
て要求される意味を持つ可能性を決定するための装置1
01を示す。一つの好ましい実施例においては、装置1
01は可能性の対数である。単語/意味ペア確率の対数
(log word/sense pair likelihood、WSPL)117
は意味確率計算機103によって計算される。意味確率
計算機103への入力はテキスト111、単語/意味ペ
ア確率テーブル107、及び単語/意味ペア105から
来る。単語/意味ペア確率テーブル107は興味の対象
となる各単語/意味ペアに対するサブテーブル108を
含むテーブルである。各サブテーブル108は少なくと
もテキスト111内のそれにサブテーブル108が対応
する単語/意味ペア105が位置116に対して適当な
意味を持つか否かの有効な指標を与える全ての単語に対
するエントリ(WSPPTE)123を含む。あるテキ
スト単語21に対する各エントリは単語/意味ペア10
5が適当な意味を持つか否か決定するためのその単語の
重み(weight)119の指標を含む。
【0030】意味確率計算機103が任意の単語/意味
ペア105がテキスト111内の位置Pに対して適当で
ある確率を計算しているときに、意味確率計算機103
はテキスト111から位置116より50単語前より単
語を読むことを開始し、続けて、位置116に続く50
単語を読む。位置116を含むこれら100単語は位置
116の背景115である。この好ましい実施例の一つ
の重要な面は、背景115内に、テキスト111の1ラ
イン内に存在するよりもかなり多くの単語を含まれるこ
とであるが、これは約10単語を含むものと想定され
る。背景115から読まれた各現単語(current word、
CW)113に対して、計算機113はその単語がテー
ブル107内のエントリ123を持つか否か決定し、持
つ場合は、そのエントリ内に指定される重みをそれまで
読まれた単語から累積された重みに加える。累積された
重み119の値がこうして単語/意味ペア105が位置
116に対して適当である確率117となる。
【0031】勿論、装置101の殆どのアプリケーショ
ンにおいては、問題は、二つ或はそれ以上の単語/意味
ペアのどれが背景115に最も良く合うかということで
ある。これを見つけるため、単に、上に説明された装置
10を各単語/意味ペアに対して順番に使用する方法が
ある。最も高い累積重みを持つペアが位置116に最も
合った単語/意味ペアである。例えば、装置101が単
語ディスアンビギュエーション用途に使用されている場
合、ディスアンビギュエートされるべき単語の各々の意
味に対して別個の単語/意味ペアが存在し、その単語を
翻訳するために使用される意味として最高の累積重みを
持つ単語/意味ペアの意味が使用される。
【0032】単語がディスアンビギュエートされると
き、最高の累積重みと次に高い累積重みとの間の差が明
確なディスアンビギュエーションを行なうのに十分でな
いという状況がしばしば発生する。このようなケースに
おいては、SLC103は他のアプローチをとるこもで
きる。一つのこのようなアプローチはテキスト111と
関連する論議主題(discourse )を分析する方法であ
る。この説明の目的に対しては、論議主題は単一の主題
或はセットの関連する主題に係わる一つ或は複数のテキ
ストである。ある与えられた論議内において、多義語は
一つの意味に使用される傾向がある。例えば、その論議
が文法に係わる場合、懲罰上の意味で使用される「sent
ence」は殆どないと考えて良く、またその議論が犯罪訴
訟に係る場合、文法上の意味で使用される「sentence」
はめったに考えられない。
【0033】装置101を使用して論議主題を分析する
一つの単純な方法は以下の通りである。つまり、その論
議に属するテキストがそのようにマークされ、計算機1
03が問題の単語に対して明確なディスアンビギュエー
ションが存在する各位置に対して最も適当な意味及び重
みを格納する。通常、複数の可能な意味の一つに非常に
大きな優勢(preponderance )が存在し、この優勢の意
味が背景115の分析のみでは明確にディスアンビギュ
エートできないような状況において使用される。さらに
単純な方法においては、厳密さは欠けるが、ある単語の
隣接する使用は同一の論議主題に属する傾向を持つとい
う事実が利用される。この技法においては、背景115
の分析のみでは明確にディスアンビギュエートできない
場合、装置101は問題の単語を含む隣りの背景115
の調査の結果を適用し、その隣りの背景内の意味から問
題の単語の意味を決定する。
【0034】一つの好ましい実施例においては、装置1
01はデジタルコンピュータシステム内に実現される。
テキスト111、テーブル107、及び単語/意味ペア
105はこのコンピュータシステムのデータメモリシス
テム内に格納され、意味確率計算機103はそのデジタ
ルコンピュータシステムのプロセッサによって実行され
るプログラム手段として実現される。幾つかの実施例に
おいては、テーブル107は読出し専用メモリであり、
意味確率計算機はテーブルの迅速参照ができるようにの
設計された専用プロセッサであり得る。このような実施
例は、例えば、ポケット翻訳デバイス、或は電子タイプ
ライタに有効である。
【0035】単語/意味ペア確率テーブル107の計算 概念上、単語/意味ペア確率テーブル107はサブテー
ブル108の全セットである。少なくとも我々の関心が
置かれるタスクに対して重要である各単語/意味ペアに
対するサブテーブル108が存在し、この単語/意味ペ
アに対するサブテーブル108は少なくともテキスト1
11内の各単語に対するエントリを持つ。さらに、本当
に要求されるのは、任意の言語にて書かれた事実上全て
のテキストに対して機能する単語/意味ペア確率テーブ
ル107である。ディスアンビギュエーション背景にお
いては、このようなテーブルは概念上は任意の言語内の
各多義語の各単語/意味ペアに対するサブテーブル10
8を含み、各サブテーブル108はその任意の言語内の
全ての単語に対するエントリを含む。勿論、最適化が可
能である。例えば、殆どの単語は、ディスアンビギュエ
ーションにあまり或は全く寄与せず、このような単語は
このテーブルから除外され、単に、省略時の重みが与え
られる。
【0036】大きな単語/意味ペア確率テーブル107
は機械によってのみ計算できることは明白である。当分
野において使用される表現を使用すると、装置101の
訓練は自動化されなければならない。訓練は、多くの点
において、上に説明されたテストの逆である。ディスア
ンビギュエーションの背景においては、サブテーブル1
08がテーブル107内に任意の多義語に対してそれら
多義語の既知の意味を含む背景115を調べ、その多義
語の可能な意味を推定するためにテストにおいて使用さ
れる可能性のあるその背景内の他の単語を発見すること
によって生成される。例えば、サブテーブル108が
「sentence」の懲罰の意味である場合、これら背景は、
通常の英語テキスト内に見られるよりも多くの”judge
(判決)”或は”trial (裁判)”といった単語を含む
可能性があり、これらの単語がテーブル107内におい
てこれに応じて重みを与えられる。
【0037】自動訓練における最も大きな問題は、勿
論、訓練をされている単語が任意の背景115内におい
てどの意味を持つかを決定することである。大きなテー
ブル107の場合、手作業によって訓練されている単語
を訓練のために使用されている背景115内において一
つの意味或は別の意味を持つとして標識を与えることは
明らかに現実的でない。装置101の開発に際して、あ
る与えられた背景115内において訓練されている単語
の意味を自動的に決定するための二つの技術が発見され
た。これら技術の片方は二か国語で書かれたテキストの
本文を使用し、他方の技術は類語辞典などによって提供
されるような主題カテゴリを使用する。
【0038】二か国語テキストでの訓練 二か国語テキストの本文での訓練は二つの事実を利用す
る。つまり、第一に、第一の言語内の多義の単語の第二
の言語の訳語は通常その多義語の意味を示す。こうし
て、英語の単語「sentence」が「peine (仏語)」に翻
訳された場合、我々は、その英語の単語が懲罰の意味に
使用されていることが分かる。そして「phrase(仏
語)」に翻訳された場合は、我々は、それが文法的な意
味に使用されたことを知る。第二に、現在それらのバー
ジョンが二つの言語にて入手できる機械によって読むこ
とができる多量のテキストが存在する。このような二か
国語テキストの一例として「Canadian Hansards (カナ
ダ国会議事録)」であるが、これは、カナダ議会での討
議を英語及びフランス語の両方にて記録した雑誌であ
る。以下においては、英語バージョンは英語議事録と呼
ばれ、フランス語バージョンはフランス語議事録と呼ば
れる。
【0039】この好ましい実施例は、カナダ国会議事録
を使用し、ある与えられた多義英単語の一つの意味を以
下のように訓練する。つまり、第一に、英語議事録の本
文全体を対象として統計が集められる。この統計は、英
語版カナダ国会議事録内のトークン(単語及び単語とし
て扱われるフレーズ)の数、及び英語議事録内での各単
語の発生回数を含む。これら統計から、任意の単語が英
語議事録の100語背景内に発生する確率が計算され
る。
【0040】次に、英語議事録の条件付きサンプルが与
えられた多義語の要求される意味に対して作成される。
これは、英語議事録内の与えられた多義語の各々の発生
を見つけることによって行なわれる。次に、この発生に
対応するフランス語の単語(或はフレーズ)がフランス
語版カナダ国会議事録内で検出される。多義の英語の発
生に対応するフランス語単語は、Gale、W.及びK.Ch
urchによって”計算言語学学会の第29回年次会議の議
事録(Proceedings: 29th Annual Meeting ofthe Assoc
iation for Computational Linguistics )”、199
1年、ページ177−184に発表の論文『二か国語集
成資料内の文を整合するためのプログラム(A Program
for Aligning Sentences in Bilingual Corpora )』に
おいて説明されるように英語テキストの文章を対応する
フランス語テキストの文章と整合することによって発見
される。発見されると、このフランス語の単語或はフレ
ーズはその任意の単語の発生が要求される意味を持つか
否かを決定する。持つ場合は、この発生のいずれかの側
の50単語が条件付きサンプルに出力される。訓練にお
ける100単語背景の使用は装置101の動作と同じよ
うに重要であることに注意する。
【0041】条件付きサンプルがいったん作成される
と、後に詳細に説明されるBayesian技法を用いてこの条
件付きサンプル内の各単語の重みがその与えられた多義
語がその条件付きサンプルを作るのに使用した意味を持
つ確率との関連で決定される。この分析の結果として、
この与えられた多義語及び要求される意味に対して単語
/意味ペア確率テーブル107内のサブテーブル108
が得られる。図2はこの分析の結果として得られたデー
タの例を示す。テーブル201は英単語「duty」の二つ
の意味に対するデータを含む。これら二つの意味は、
「tax (税金)」の意味及び「obligation(義務)」の
意味である。テーブル202は税金の意味に対する幾ら
かのデータを示し、テーブル203は義務の意味に対す
る幾らかのデータを示す。各テーブルは4つのカラムを
持つ。単語(Word)カラム209は条件付きサンプル内
に発見される各単語に対するエントリを持ち;頻度(Fr
equency )カラム207はその条件付きサンプル内でそ
の単語が発生する回数であり;重み(Weight)カラム2
05は要求される意味を決定するための目的としてその
単語に指定される重みであり;重み*頻度(Weight*fre
quency)カラム204は各単語に対する重みと頻度の積
である。
【0042】カラム204内の値は単語/意味ペアに対
するサブテーブル108内にどの単語が含まれるべきか
を決定するために使用される。最も高い積を持つペアは
最も良い指標となる。サブテーブル108のサイズはカ
ラム204内のそれらの積が所定の値以下である全ての
単語に対して省略時の値を使用することによって縮小す
ることができる。サブテーブル108はテーブル202
から省略時の値を与えられなかった各単語に対してエン
トリを作ることによって構築される。このエントリはそ
の単語に対して計算された重みを含む。上のことから明
かのように、カナダ国会議事録からの単語意味ペア確率
テーブル107の生成は完全に自動化できる。カナダ国
会議事録は機械によって読むことができる形式にて存在
し、カナダ国会議事録内の英語の単語の任意の発生に相
当するフランス単語を検出するための機械技術が存在
し、条件付きサンプルの抽出及び重みの計算もコンピュ
ータによって完全に遂行できる。
【0043】重みの計算 好ましい実施例においては、任意の単語/意味ペアの意
味の決定における任意の語彙単語の重み、wtは以下の
方程式にて定義される。
【数8】 ここで、πは任意の語彙単語の条件付き確率であり、a
は条件付きサンプル内のこの任意の語彙単語の頻度であ
り、そしてEはaを与えられたときのπの期待値であ
る。
【0044】上に定義されたような重みの計算の利点
は、これが条件付きサンプルの100単語背景内で計算
された単語確率と編成資料全体を通じて計算された単語
確率との間の内挿を与えることである。100単語背景
内に度々現われる単語に対しては、我々は、局所推定を
重視する傾向にあり、挿間において全体的な背景にはあ
まり大きな重みを置かない。逆に、局所背景内にあまり
頻繁に現われない単語に対しては、我々は、局所推定に
はあまり自信がなく、全体的な推定により大きな重みを
与える傾向にある。この方法の背景にある鍵となる観察
事項は、編成資料全体は要求される条件付き確率とは未
知の関連を持つセットの良く測定された確率を提供し、
一方、条件付きセットは、確かな関連を持つ確率の劣る
推測値を与えるということである。編成資料全体からの
確率の使用は、こうして、バスアスを導入し、一方、条
件付きセットからの確率の使用はランダムエラーを導入
する。我々は、バイアスとランダムエラーとの間のトレ
ードオフを行なうために、大きな編成資料と条件付きサ
ンプルとの間の関連性を決定する。
【0045】一つの好ましい実施例においては、E(π
a)がテキスト本文全体を任意の単語/意味ペアに対
してサイズnの条件付きサンプル、及びサイズN>>n
の残留資料(編成資料全体から条件付きサンプルを差し
引いたもの)に分割することによって計算される。aを
条件付きサンプル内の任意の語彙単語の頻度であり、A
を残留資料内のその頻度であると想定する。これら頻度
のいずれかはゼロであり得るが、両方がゼロであること
はない。πはその語彙単語の条件付き確率を表わすもの
とする。いずれかのサンプル内のその単語の頻度を知る
前に、我々は、πの値についての我々の無知を以下のよ
うなアンインフォーマティブ分散(uninformative dist
ribution)によって表わすことができる。
【数9】 ここで、B(x、y)はベータ関数(Beta function )
である。この方法の幾つかのバリエーションはこのアン
インフォーマティブ分散のバリエーションに基づく。π
の決定に関連のあるN回の中のA回の追加の観察がなさ
れた場合、我々の知識を表わす分散は、以下のようにな
る。
【数10】
【0046】残留資料内の対象となる単語のN回の観察
の中のA回の観察を行ったが、我々は、それらの関連性
(relevance )については知らない。従って、我々は、
条件付きサンプルを観察する前の我々の知識として以下
の分散を設定する。
【数11】 ここで、0≦r≦1は残留資料の条件付きサンプルに対
する関連性である。r=0の場合、これは、アンインフ
ォーマティブ分散を与え、一方、r=1の場合、これは
残留資料を観察した後の分散を与える。これを解釈する
もう一つのやりかたは、確率rを持つ場合、我々は、残
留資料と同一線上に立った観察を期待しており、一方、
確率1−rのときは、我々はどのような値でも驚かない
ということである。
【0047】条件サンプル内で問題の単語をn個のケー
スの中からa回観察することと、条件付き確率がπであ
ることの結合確率(joint probability )は、従って、
以下のように表わすことができる。
【数12】 我々は、こうして、以下のような方程式を得ることがで
きる。
【数13】 及び
【数14】
【0048】次にこれを積分することによって以下が与
えられる。
【数15】
【0049】これは様々な方法にて近似できるが、但
し、これを直接に以下の関係を使用して計算することが
実際的である。
【数16】
【0050】残留資料の条件付きサンプルに対する関連
性を示すパラメータrは様々な方法によって推定するこ
とができる。基本的な解釈は、条件付き確率を持つ単語
の割合は、(残留サンプルから推定されたときの)それ
らの全体確率(global probabilities)に接近するとい
うことである。こうして、条件付き確率のセットの推定
値が与えられれば、我々は、rを対応する全体確率の数
標準偏差内に横たわるそれら単語の割合であると推定す
ることができる。この推定は、条件付きサンプル内に観
察される単語を使用して遂行される。別の見方として、
rをこの方法の自由パラメータと見なし、特定のタスク
に関して最適の結果を生成するように調節することもで
きる。各単語に対して変動することもできるが、我々
は、意味弁別用途においては全ての単語に対してr=
0.8を使用し、著者識別用途においてはr=0.98
を使用している。さらに、上の技法によって計算された
重みは対数値であるという事実は、サンプル内の語彙単
語の発生の確率を掛けるプロセスは、与えられた単語/
意味ペアが以下のように操作できることを意味する。つ
まり、その背景内の語彙単語の各発生に対して、その与
えられた単語/意味ペアに対するサブテーブル108内
のその単語の重みが調べられ、語彙単語の前の発生の重
みの総和にこの重みが加えられる。
【0051】意味のカテゴリを使用しての単語/意味ペ
アの妥当性の決定 上に述べたような二か国語テキストの使用は訓練の自動
化を可能にし、結果として重要な進歩といえる。但し、
このような二か国語テキストでの訓練は、欠点を持つ。
第一に、二か国語テキスト内に現れない単語にはいかな
る助けも与えない。このような二か国語テキストは、今
日においては、通常、法律或は政治のテキストであり、
従って、かなり専門化された語彙を持つ。第二に、特
に、かなり類似した語彙を持つ英語とフランス語のよう
な言語に関しては、多義語の翻語自体が多義性をもつ。
ここでの例は英語の単語「interest」である。フランス
語の訳語「interet 」は実質的に英語の相当語の全ての
意味を持つ。後者の問題は、複数言語のテキストを使用
した場合は問題が少なくなる。複数言語のテキストの中
の言語の一つがインド−ヨーロッパ系でないときは、デ
ィスアンビギュエーションは特に楽になる。
【0052】これら問題は、ある背景に対する単語/意
味ペアの妥当性を決定するためにそれに語彙単語が属す
る意味のカテゴリを使用することによって克服すること
ができる。百科全書及び辞書は通常それらが同意義を与
える単語を分類し、或はカテゴリを定義する。例えば、
Chapman 、Robertは、Roget's International Thesauru
s (第四版)、Harper and Row、New York、1977年
出版において、同意義を与える単語を1042個の主題
カテゴリに分類する。これらカテゴリは英語テキストの
任意の文にて自動訓練を行なうために使用でき、テキス
ト内の語彙単語間の関係及び主題カテゴリはテストフェ
ーズにおいて二か国語テキストとの関連で上に説明され
たようにある背景に対して適当な単語/意味ペアを決定
するために使用することができる。
【0053】意味のカテゴリを使用する方法は以下の一
般的な観察に基づく。つまり、1)異なるクラスの単
語、例えば、「ANIMALS (動物)」或は「MACHINES(機
械)」ははっきりと認識できるような背景内に現れる傾
向を持つ。2)異なる単語の意味は異なる概念上のクラ
スに属する傾向を持つ(「crane 」はANIMALでもMACHIN
E でもあり得る)。3)概念上のクラスに対して背景弁
別子を構築できれば、それらクラスのメンバである単語
意味に対する背景弁別子を効果的に構築することができ
る。さらに、Roget カテゴリに対する背景インジケータ
(例えば、TOOLS/MACHINERY カテゴリのgear、piston及
びengine)はまたそのカテゴリのメンバに対する背景イ
ンジケータとなる(例えば、crane の機械的意味を示
す)傾向がある。
【0054】我々は、これら示唆的単語(indicative w
ords)を以下のようにして識別し、重みを与え、使用す
ることを試みる。つまり、1042個のRoget カテゴリ
の各々に対して、Roget カテゴリを表わす背景を集め
(Collect )、これら集合的な背景内の顕著な単語を識
別し(Identify)、これら単語に適当な重みを与え(We
ight)、そして結果としての重みをテストフェーズにお
いて使用する(Use )。
【0055】ステップ1:Roget カテゴリを表わす背景
を集める この段階の目的はそれによって訓練が行なわれるテキス
トの本文のセットの語彙単語を集めることであり、これ
らは、典型的には、与えられたRoget カテゴリ内にリス
トされる単語の少なくとも一つを含む背景内に発見され
る。これを行なうため、我々は、そのカテゴリに対する
条件付きサンプルを作る。この条件付きサンプルはその
編成資料内のある与えられたカテゴリの各メンバの各発
生に対する100個のこれを取り巻く単語から構成され
る。図3はTOOLS/MACHINERY カテゴリ(348)内の単
語に対する条件付きサンプルの部分のサンプルセット
(301)を示す。完全な条件付きサンプルはこの好ま
しい実施例において訓練のために使用されるテキスト、
つまり、10ミリオン単語を持つグロリア百科事典(Gr
olier's Encyclopedia)、電子バージョン、1991年
6月版、の特定の本文から選択された30,924行を
含む。
【0056】理想的には、条件サンプルは与えられたカ
テゴリに対する参照のみを含む。但し、実際において
は、これは、(図3の303における「drill 」及び3
05における「crane 」などのように)これら単語の多
くが多義であるために誤った例を含むことが避けられな
い。多義性はこの好ましい実施例においては、この影響
を最小にするために条件付きサンプル内の語彙単語に重
みを与えることによって対処される。この重み付けは、
より一般的なものだけではなく、全ての工具及び機械類
を表わすサンプルを作る役割を果す。重み付けは以下の
ようによって行なわれる。つまり、Roget のカテゴリ内
にリストされる単語、例えば、「drill 」がこの編成資
料内でk回発生する場合、「drill 」の背景内の全ての
語彙単語は条件サンプル内のこれら語彙単語に対する頻
度値に重さ1/kだけ寄与する。
【0057】多義性のために導入されるノイズのレベル
はかなり大きいが、あるRoget カテゴリ内の単語のその
カテゴリに属さない意味は1041個の他のカテゴリを
通じて分布し、従って、このカテゴリに属さない単語の
意味と関連する語彙単語と任意の一つのカテゴリ間には
強い関連が存在しないが、一方、このカテゴリに属する
これら単語の意味と関連する全ての語彙単語はそのカテ
ゴリと関連するために対処が可能である。あるRoget カ
テゴリ内にリストされる幾つかの単語が単一の異なるRo
get カテゴリ内に二次的意味を持つ場合にのみ、この他
のカテゴリに対して典型的な背景がこの背景内において
有意となる。
【0058】この欠陥にもかからわず、この条件付きサ
ンプルは、ノイズはあるが、グロリア百科全書内のTOOL
S/MACHINERY の典型的な背景のサンプルの代表として機
能する。
【0059】ステップ2:条件付きサンプル内の顕著な
単語を識別し、適当な重みを与える。 直感的に、顕著な単語は、条件付きサンプル内にテキス
トの他のポイントの所よりも頻繁に現われる単語であ
り、従って、そのカテゴリに対する平均的インジケータ
よりも良い。我々は、これを推定値:Pr(w RCat) Pr
(w )のような相互情報にて公式化するが、これは、あ
るRoget カテゴリに対する条件付きサンプル内に現れる
語彙単語wの確率をテキストの本文内で現われるその語
彙単語の総確率で割った値である。
【0060】Pr(w RCat)は二か国語テキストのケー
スにおいて語彙単語の重みを計算したときに使用された
のと同一技法を使用して計算することができる。実質的
な差異は上に説明の1/kが条件付きサンプル内の語彙
単語の頻度を計算するのに使用されることのみである。
図4はRoget カテゴリ348及び414、つまり、それ
ぞれ、TOOLS/MACHINERY 及びANIMAL、INSECTに対する最
も重要な顕著な単語を示す。括弧内の数は、与えられた
カテゴリに対する語彙単語の各々の顕著さの対数、つま
り、重み119である。カテゴリ403及び405内に
現われるこれら語彙単語は、単語/意味ペアがある背景
に属するか否かを決定するために最も重要な単語であ
る。上と同様に、重要性は、その語彙単語の重みに条件
付きサンプル内でのその頻度を掛けることによって決定
される。
【0061】Roget カテゴリに対する顕著な語彙単語は
そのカテゴリ内にリストされない多くの単語を含むこと
に注意する。顕著な語彙単語とは、与えられたカテゴリ
内にリストされた単語と同時に起こる傾向を持つ語彙単
語である。あるカテゴリに対する顕著な語彙単語のリス
トは典型的には3000語以上を含み、辞書定義から誘
導されるあらゆるリストよりはるかに富んでいる。
【0062】ステップ3:テストフェーズにおける結果
としての重みの使用 テストフェーズにおいては、あるテキスト内のある位置
を取り巻く語彙単語によって示されるRoget カテゴリは
ある単語/意味ペアがその位置に対して適当であるか否
かを決定するために使用される。その単語/意味ペアが
それらの顕著な語彙単語の一つによって示されるのと同
一のRoget カテゴリに属する場合、その単語/意味ペア
がその位置に対して正しいと言う根拠となる。複数の顕
著な語彙単語が現われる場合は、根拠は追加される。以
下に示されるように、テストフェーズは図1との関連で
説明されたように働く。つまり、単語/意味ペアの全て
に対して単語/意味ペア確率テーブル107の構築を終
えると、我々は、上に説明した技法を使用してこれら様
々な単語/意味を示すための語彙単語の重みを決定し、
その位置を包囲する100単語背景内のある位置に対す
る与えられた単語/意味ペアの確率がその背景内の単語
の全ての重みを加えることによって決定される。この装
置がディスアンビギュエーションのために使用されてい
るときは、使用される単語/意味ペアはある単語及びそ
の様々な意味に対するペアである。合計して最も大きな
重みを持つ単語/意味ペアがその背景に最も適したペア
である。
【0063】例えば、単語「crane 」はグロリア百科全
集内に74回現われ、36回の出現は動物上の意味を表
わし、38回は重機の意味と関連する。このシステム
は、一つの機械的な意味を除いて全てを正しく分類し、
全体として99%の精度を与える。一つの分類を誤った
ケースは全てのモデルにおいて低いスコアを持ち、全て
の分類において信頼性の欠如を示した。この好ましい実
施例においては、ある単語の意味はその単語が属するRo
get カテゴリ上の意味であると定義される。検索をこの
ように制限することはしばしば有益であるが、この制限
は、場合によっては問題を起こし、類語辞典内にギャッ
プがある場合は特にそうである。例えば、カテゴリAMUS
EMENT (#876)は複数のカードゲーム用語をリスト
するが、単語「suit」は、何らかの理由によってこのリ
スト内に含まれない。このようにグロリア百科全書は、
「suit」のカードゲームでの意味を54例含むが、これ
らの全ては、検索がRoget 内にリストされる「suit」の
これらカテゴリだけに制限された場合、全て誤ってラベ
ル付けされる。但し、我々が検索を全ての1042カテ
ゴリを考慮するように開放すれば、我々は、「suit」の
カードゲーム上の意味の全ての54例がAMUSEMENT と正
しくラベル付けされることを発見し、さらに、全ての5
4例においてそのスコアは大きく、この指定の大きな信
頼性を示す。無制限検索モードは類語辞典内の脱落を満
たすための良い方法であるように思える。いずれにして
も、「suit」がAMUSEMENT カテゴリに加えられた場合
は、総精度は、68%から92%へと向上する。
【0064】結論 上の詳細な説明はテキスト分析技術の専門家にいかにし
て単一ラインよりも大きな背景がある単語/意味ペアが
その背景内のある位置に対して正しいか否かを決定する
ために効果的に使用されるかを開示する。これはまたBa
yesian技法がいかにしてある背景の語彙単語にある与え
られた単語/意味ペアとの関連で重みを与えるために使
用され、またいかにしてこれら重みがその単語/意味ペ
アがその位置に対して適当であるか否かを決定するため
に使用されるかを開示する。これはさらに論議主題内の
多義語の特性がそれら単語をディスアンビギュエートす
るために使用できるかを開示する。詳細な説明はさら
に、ある単語/意味ペアがある位置に対して適当である
か否かを決定するための装置を訓練するための大きな背
景及びBayesian技法の重要性を示し、またいかにして訓
練が二か国語テキストの本文或は単語の意味カテゴリを
使用して自動化できるかを開示する。詳細な説明におい
て示されたように、上のこれら技法は別個に或は特定の
利点が得られるように組合わせて使用される。さらに、
一つの訓練技法は別の技法の短所を直すことができる。
例えば、前に述べたように、フランス国会議事録は単語
「interst 」の様々な意味に関して訓練するのに使用す
ることはできないが、二か国語テキストにて訓練する方
法はこのケースにおいてはRoget のカテゴリを使用する
ことによって補強することができる。ここに開示された
技法の様々なバリエーションがテキスト分析技術の専門
家には明らかである。例えば、ここでは条件付きサンプ
ルを生成するための二つの方法のみが説明されたが、こ
こに開示されるBayesian分析の技法はどのような様式に
よって生成される条件付きサンプルにも適用できる。同
様に、ここに開示される背景は100単語の長さを持つ
が、単一ラインより十分に長い任意の長さの背景は10
0単語の背景の長所の幾らかを持つ。最後に、ここに開
示された以外のある論議主題が多義語を一つの意味にの
み使用するという傾向を持つという事実を活用する多く
の技法が採用できる。加えて、当業者においては、単語
/意味ペア確率テーブル107及び意味確率計算機10
3を実現するための多くの方法を知るものである。この
ため、上の詳細な説明は、全ての点において解説及び例
として見なされるべきものであり、限定を意味するもの
ではなく、ここに開示される本発明の範囲は、明細書の
背景及びこれらと等価のものの教義に従って解釈された
ときの特許請求の範囲によってのみ決定されるものであ
る。
【図面の簡単な説明】
【図1】ある単語/意味ペアがある背景に対して適当で
ある確率を決定するための装置のブロック図である。
【図2】図1のテーブル107がこれから構築されるデ
ータのテーブルである。
【図3】条件付きサンプルの一部の一例である。
【図4】Roget のカテゴリを使用して計算された重みの
一例である。図面及び詳細の説明において使用される参
照番号は3桁或はそれ以上の桁を持つ。二つの最下位数
字はある図面内の番号であり、残りの桁は図面の番号で
ある。つまり、参照番号”305”を持つ要素は、図3
に最初に示される。
【符号の説明】
101 装置 103 意味確率計算機 105 単語/意味ペア 107 単語/意味ペア確率テーブル 111 テキスト
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウィリアム アーサー ゲール アメリカ合衆国 07040 ニュージャーシ ィ,メイプルウッド,エセックス アヴェ ニュー 17 (72)発明者 ディヴィッド エリック ワロウスキー アメリカ合衆国 07901 ニュージャーシ ィ,サミット,シャディサイド アヴェニ ュー 20

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 単語/意味ペアがテキスト内の与えられ
    た位置に適する意味を持つことを自動的に決定する方法
    において、この方法が:テキスト内の前記与えられた位
    置を含み、またテキストの1ラインよりもかなり長い単
    語シーケンスを決定し、そして前記シーケンスを自動的
    に分析することによって単語/意味ペアが適当な意味を
    持つか否かを決定する段階を含むことを特徴とする方
    法。
  2. 【請求項2】 請求項1に記載の方法において、単語シ
    ーケンスを決定する段階がその長さが100単語付近で
    あるシーケンスを決定することを特徴とする方法。
  3. 【請求項3】 請求項1に記載の方法において、前記の
    決定が単語/意味ペアが適当な意味を持つか否かを十分
    に強く示すか否かを決定する段階、及び前記決定がその
    ように示さない場合、前記適当な意味の決定をその付近
    における適当な意味のもう一つの決定と比較することに
    よって前記適当な意味の最終決定を行なう段階を含むこ
    とを特徴とする方法。
  4. 【請求項4】 請求項1に記載の方法において、前記決
    定を行なう段階において、前記シーケンスがBayesian弁
    別技法を使用することによって自動的に決定され、この
    技法において、前記シーケンス内の単語及び単語/意味
    ペアの意味がその単語/意味ペアが与えられた位置に適
    する意味を持つ確率を決定するために使用されることを
    特徴とする方法。
  5. 【請求項5】 請求項1に記載の方法において、複数の
    単語/意味ペアが存在し、 前記決定を行なう段階がこれら単語/意味ペアの各々に
    対して遂行され、そしてこの方法が与えられた位置に最
    も適する単語/意味ペアを選択する段階を更に含むこと
    を特徴とする方法。
  6. 【請求項6】 請求項5に記載の方法において、前記単
    語/意味ペアを選択する段階が前記決定をその付近の位
    置における最も適当な意味のもう一つの決定と比較する
    段階を含むことを特徴とする方法。
  7. 【請求項7】 請求項1に記載の方法において、前記決
    定を行なう段階が、 前記シーケンス内の単語に対して、単語/意味ペアが適
    当な意味を持つか否かを決定するために幾つかの単語の
    重みを示すテーブル内から重みを得る段階、及び単語/
    意味ペアが与えられた位置に適する可能性を決定するた
    めにこれら重みを総和する段階を含むことを特徴とする
    方法。
  8. 【請求項8】 請求項7に記載の方法において、複数の
    単語/意味ペアが存在し、 前記重みを得る段階及び重みを総和する段階が各単語/
    意味ペアに対して遂行され、そしてこの方法がさらに単
    語/意味ペアが与えられた位置に対して適する最高の可
    能性を示す総和重みを持つ単語/意味ペアを選択する段
    階を含むことを特徴とする方法。
  9. 【請求項9】 請求項8に記載の方法において、前記単
    語/意味ペアを選択する段階が、 選択された単語/意味ペアをその付近における最も適当
    な意味のもう一つの決定と比較する段階を含むことを特
    徴とする方法。
  10. 【請求項10】 請求項1乃至9に記載の方法におい
    て、意味/単語ペア内の単語の一回の発生が与えられた
    位置にあることを特徴とする方法。
  11. 【請求項11】 単語/意味ペア(105)がテキスト
    (111)内の与えられた位置に適する意味を持つか決
    定するための装置において、この装置が、 前記テキスト内の与えられた位置(116)を含み、ま
    たテキストの1ラインよりも十分に長い単語シーケンス
    (115)を得るための手段(103)、及び単語/意
    味ペアが適当な意味を持つか否かを決定するために前記
    シーケンスを分析するための手段(103、107)を
    含むことを特徴とする装置。
  12. 【請求項12】 請求項11に記載の装置において、前
    記シーケンスを分析するための手段がさらに、 単語/意味ペアが適当な意味を持つか否かを決定するた
    めのテキスト内の幾つかの単語の重みを示すテーブル
    (107)、及び前記シーケンスを前記テーブルからシ
    ーケンス内の単語の重みを得て、これら単語の重みを総
    和することによってその単語/意味ペアが与えられた位
    置に対して適当である可能性を決定することにより分析
    する前記シーケンスを分析するための手段を更に含むこ
    とを特徴とする装置。
  13. 【請求項13】 ある単語/意味ペアがあるテキスト内
    のある与えられた位置に対して適当な意味を持つことを
    決定するための装置内で使用するための確率テーブルを
    作る方法において、このテーブルを作る方法が、 単語/意味ペアの意味に意味論的に関連する背景を含む
    テキスト総体の条件付きサンプルを作る段階、 Bayesian技法を使用して前記条件付きサンプル内に発生
    する各単語に対して、条件付きサンプル内の各単語の重
    みを単語/意味ペアのその単語がその単語/意味ペアの
    意味を持つ確率との関連で決定する段階、及び与えられ
    た重みより大きな重みを持つ発生単語の各々に対してそ
    の単語の重みを含むテーブルエントリを作る段階を含む
    ことを特徴とする方法。
  14. 【請求項14】 請求項13に記載の方法において、Ba
    yesian技法を採用する段階において、条件付きサンプル
    内に発生する各単語に対する重みwtが方程式 【数1】 によって決定され、ここで、πはその単語の条件付き確
    率を表わし、aは条件付きサンプル内のその単語の頻度
    であり、そしてEは与えられたaに対するπの期待値で
    あることを特徴とする方法。
  15. 【請求項15】 請求項13に記載の方法において、そ
    れから条件付きサンプルが作られたテキスト総体の別の
    言語への翻訳が存在し、 条件付きサンプルを作る段階において、単語/意味ペア
    の単語がその単語/意味ペアの意味にて使用されている
    かの決定が翻訳文内の対応する単語との参照で行なわれ
    ることを特徴とする方法。
  16. 【請求項16】 請求項13に記載の方法において、そ
    の単語/意味ペアと同一の意味カテゴリに属するカテゴ
    リ化された単語のリストが存在し、 条件付きサンプルを作る段階において、背景がこのリス
    トからの単語を含むことを特徴とする方法。
  17. 【請求項17】 請求項13に記載の方法において、Ba
    yesian技法を使用する段階において、条件付きサンプル
    内に起こる各単語に対する重みwtが方程式 【数2】 によって決定され、ここで、πはその単語の条件付き確
    率を表わし、aは条件付きサンプル内のその単語の頻度
    であり、そしてEは与えられたaに対するπの期待値で
    あることを特徴とする方法。
  18. 【請求項18】 請求項17に記載の方法において、Ba
    yesian技法を採用する段階において、aがリストからの
    ある背景内に含まれる各単語に対して、リストからのそ
    の単語がテキストの総体内に現れる回数kを決定し、つ
    ぎにある単語のそのような背景内の全ての単語に1/k
    の重さをaに寄与させることによって派生されることを
    特徴とする方法。
JP4343914A 1991-12-30 1992-12-24 単語ディスアンビギュエーション装置及び方法 Withdrawn JPH05242138A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US814850 1985-12-30
US07/814,850 US5541836A (en) 1991-12-30 1991-12-30 Word disambiguation apparatus and methods

Publications (1)

Publication Number Publication Date
JPH05242138A true JPH05242138A (ja) 1993-09-21

Family

ID=25216159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4343914A Withdrawn JPH05242138A (ja) 1991-12-30 1992-12-24 単語ディスアンビギュエーション装置及び方法

Country Status (5)

Country Link
US (1) US5541836A (ja)
EP (1) EP0550160A2 (ja)
JP (1) JPH05242138A (ja)
KR (1) KR930014120A (ja)
CA (1) CA2083733A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096838A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体

Families Citing this family (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
GB2321117A (en) * 1997-01-09 1998-07-15 Sharp Kk Disambiguating syntactic word multiples
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US5970483A (en) 1997-07-25 1999-10-19 Claritech Corporation Apparatus and methodology for submitting search queries
JPH11110480A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp テキストの表示方法およびその装置
US5987448A (en) * 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
JPH11102414A (ja) 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
US6078878A (en) * 1997-07-31 2000-06-20 Microsoft Corporation Bootstrapping sense characterizations of occurrences of polysemous words
WO1999017223A1 (en) * 1997-09-30 1999-04-08 Ihc Health Services, Inc. Aprobabilistic system for natural language processing
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6154783A (en) 1998-09-18 2000-11-28 Tacit Knowledge Systems Method and apparatus for addressing an electronic document for transmission over a network
WO2000017727A2 (en) 1998-09-18 2000-03-30 Tacit Knowledge Systems Method and apparatus for querying a user knowledge profile
US8380875B1 (en) 1998-09-18 2013-02-19 Oracle International Corporation Method and system for addressing a communication document for transmission over a network based on the content thereof
US6115709A (en) 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6253202B1 (en) 1998-09-18 2001-06-26 Tacit Knowledge Systems, Inc. Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user
US6377949B1 (en) 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
AU5910699A (en) * 1998-09-18 2000-04-10 Tacit Knowledge Systems Method of constructing and displaying an entity profile constructed utilizing input from entities other than the owner
US6256629B1 (en) * 1998-11-25 2001-07-03 Lucent Technologies Inc. Method and apparatus for measuring the degree of polysemy in polysemous words
DE19855137A1 (de) * 1998-11-30 2000-05-31 Honeywell Ag Verfahren zur Konvertierung von Daten
CA2367320A1 (en) 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
US6490548B1 (en) 1999-05-14 2002-12-03 Paterra, Inc. Multilingual electronic transfer dictionary containing topical codes and method of use
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6405162B1 (en) * 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
US6256605B1 (en) * 1999-11-08 2001-07-03 Macmillan Alan S. System for and method of summarizing etymological information
US7315891B2 (en) * 2000-01-12 2008-01-01 Vericept Corporation Employee internet management device
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7421645B2 (en) 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7770102B1 (en) * 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US6668251B1 (en) 2000-11-01 2003-12-23 Tacit Knowledge Systems, Inc. Rendering discriminator members from an initial set of result data
US20040111386A1 (en) * 2001-01-08 2004-06-10 Goldberg Jonathan M. Knowledge neighborhoods
WO2002073451A2 (en) * 2001-03-13 2002-09-19 Intelligate Ltd. Dynamic natural language understanding
US7032174B2 (en) * 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US7130861B2 (en) 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
JP2003157376A (ja) * 2001-11-21 2003-05-30 Ricoh Co Ltd ネットワークシステム、識別情報管理方法、サーバ装置、プログラム、および記録媒体
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7325194B2 (en) 2002-05-07 2008-01-29 Microsoft Corporation Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7281245B2 (en) 2002-06-05 2007-10-09 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7392479B2 (en) 2002-06-27 2008-06-24 Microsoft Corporation System and method for providing namespace related information
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US9805373B1 (en) 2002-11-19 2017-10-31 Oracle International Corporation Expertise services platform
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US8640234B2 (en) * 2003-05-07 2014-01-28 Trustwave Holdings, Inc. Method and apparatus for predictive and actual intrusion detection on a network
US7558841B2 (en) 2003-05-14 2009-07-07 Microsoft Corporation Method, system, and computer-readable medium for communicating results to a data query in a computer network
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005020091A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing text utilizing a suite of disambiguation techniques
US7774333B2 (en) 2003-08-21 2010-08-10 Idia Inc. System and method for associating queries and documents with contextual advertisements
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
JP3856778B2 (ja) * 2003-09-29 2006-12-13 株式会社日立製作所 複数言語を対象とした文書分類装置及び文書分類方法
US7434157B2 (en) 2003-12-09 2008-10-07 Microsoft Corporation Programmable object model for namespace or schema library support in a software application
US7487515B1 (en) 2003-12-09 2009-02-03 Microsoft Corporation Programmable object model for extensible markup language schema validation
US7404195B1 (en) 2003-12-09 2008-07-22 Microsoft Corporation Programmable object model for extensible markup language markup in an application
US7178102B1 (en) 2003-12-09 2007-02-13 Microsoft Corporation Representing latent data in an extensible markup language document
US7509573B1 (en) 2004-02-17 2009-03-24 Microsoft Corporation Anti-virus security information in an extensible markup language document
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
DE112005002534T5 (de) 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
US9195766B2 (en) 2004-12-14 2015-11-24 Google Inc. Providing useful information associated with an item in a document
EP1846815A2 (en) * 2005-01-31 2007-10-24 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US20070073678A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US9400838B2 (en) * 2005-04-11 2016-07-26 Textdigger, Inc. System and method for searching for a query
US20080195601A1 (en) * 2005-04-14 2008-08-14 The Regents Of The University Of California Method For Information Retrieval
US9606634B2 (en) * 2005-05-18 2017-03-28 Nokia Technologies Oy Device incorporating improved text input mechanism
US20090193334A1 (en) * 2005-05-18 2009-07-30 Exb Asset Management Gmbh Predictive text input system and method involving two concurrent ranking means
US8099281B2 (en) * 2005-06-06 2012-01-17 Nunance Communications, Inc. System and method for word-sense disambiguation by recursive partitioning
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
WO2007081681A2 (en) 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
WO2007114932A2 (en) 2006-04-04 2007-10-11 Textdigger, Inc. Search system and method with text function tagging
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8521506B2 (en) * 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US20090254540A1 (en) * 2007-11-01 2009-10-08 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
US8190423B2 (en) * 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
WO2010061507A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 言語モデル作成装置
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8738375B2 (en) * 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8738364B2 (en) 2011-12-14 2014-05-27 International Business Machines Corporation Adaptation of vocabulary levels for enhanced collaboration
US20130198268A1 (en) * 2012-01-30 2013-08-01 David Hyman Generation of a music playlist based on text content accessed by a user
CN103294661A (zh) * 2012-03-01 2013-09-11 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9208442B2 (en) 2013-04-26 2015-12-08 Wal-Mart Stores, Inc. Ontology-based attribute extraction from product descriptions
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
CN105005553B (zh) * 2015-06-19 2017-11-21 四川大学 基于情感词典的短文本情感倾向分析方法
CN105022805B (zh) * 2015-07-02 2018-05-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
US10515152B2 (en) 2015-08-28 2019-12-24 Freedom Solutions Group, Llc Mitigation of conflicts between content matchers in automated document analysis
CN106021224B (zh) * 2016-05-13 2019-03-15 中国科学院自动化研究所 一种双语篇章标注方法
CN109726386B (zh) * 2017-10-30 2023-05-09 中国移动通信有限公司研究院 一种词向量模型生成方法、装置和计算机可读存储介质
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10430447B2 (en) 2018-01-31 2019-10-01 International Business Machines Corporation Predicting intent of a user from anomalous profile data
US10741176B2 (en) 2018-01-31 2020-08-11 International Business Machines Corporation Customizing responses to users in automated dialogue systems
US10943075B2 (en) * 2018-02-22 2021-03-09 Entigenlogic Llc Translating a first language phrase into a second language phrase
US11087098B2 (en) * 2018-09-18 2021-08-10 Sap Se Computer systems for classifying multilingual text
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11651156B2 (en) * 2020-05-07 2023-05-16 Optum Technology, Inc. Contextual document summarization with semantic intelligence

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US5170349A (en) * 1989-03-14 1992-12-08 Canon Kabushiki Kaisha Text processing apparatus using modification relation analysis
JPH02242372A (ja) * 1989-03-15 1990-09-26 Toshiba Corp 文生成装置
JPH02308370A (ja) * 1989-05-24 1990-12-21 Toshiba Corp 機械翻訳システム
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
US5243520A (en) * 1990-08-21 1993-09-07 General Electric Company Sense discrimination system and method
EP0494573A1 (en) * 1991-01-08 1992-07-15 International Business Machines Corporation Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021096838A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体
US11275904B2 (en) 2019-12-18 2022-03-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for translating polysemy, and medium

Also Published As

Publication number Publication date
CA2083733A1 (en) 1993-07-01
KR930014120A (ko) 1993-07-22
EP0550160A2 (en) 1993-07-07
EP0550160A3 (ja) 1994-01-12
US5541836A (en) 1996-07-30

Similar Documents

Publication Publication Date Title
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
US5680511A (en) Systems and methods for word recognition
Mangu et al. Automatic rule acquisition for spelling correction
Stamatatos et al. Automatic authorship attribution
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP2000194696A (ja) サンプルテキスト基調言語自動識別方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP1471440A2 (en) System and method for word analysis
Cherry et al. An expectation maximization approach to pronoun resolution
Smadja et al. Translating collocations for use in bilingual lexicons
Rayson et al. Automatic error tagging of spelling mistakes in learner corpora
Hakkani-Tur et al. Statistical sentence extraction for information distillation
Verkerk et al. LASLA and Collatinus: a convergence in lexica
Klang et al. Linking, searching, and visualizing entities in wikipedia
Alsina et al. CATCG: a general purpose parsing tool applied.
Pinzhakova et al. Feature Similarity-based Regression Models for Authorship Verification.
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Yesuf et al. Amharic Word Sense Disambiguation Using Wordnet
Bessou et al. An accuracy-enhanced stemming algorithm for Arabic information retrieval
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
Nasukawa Discourse constraint in computer manuals
JP2004280316A (ja) 分野判定装置及び言語処理装置
Tufiş et al. Automatic construction of translation lexicons

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000307