JP3680865B2 - Automatic natural language translation - Google Patents
Automatic natural language translation Download PDFInfo
- Publication number
- JP3680865B2 JP3680865B2 JP53802197A JP53802197A JP3680865B2 JP 3680865 B2 JP3680865 B2 JP 3680865B2 JP 53802197 A JP53802197 A JP 53802197A JP 53802197 A JP53802197 A JP 53802197A JP 3680865 B2 JP3680865 B2 JP 3680865B2
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- sentence
- translation
- kana
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013519 translation Methods 0.000 title claims description 83
- 238000000034 method Methods 0.000 claims description 43
- 240000000220 Panda oleosa Species 0.000 claims description 29
- 235000016496 Panda oleosa Nutrition 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 6
- 230000014616 translation Effects 0.000 description 77
- 238000004458 analytical method Methods 0.000 description 56
- 238000006243 chemical reaction Methods 0.000 description 29
- 230000000877 morphologic effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 238000012916 structural analysis Methods 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 241001494479 Pecora Species 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010561 standard procedure Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 244000007853 Sarothamnus scoparius Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 235000011962 puddings Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
関連出願への相互参照
本出願は、1992年8月31日に米国特許商標庁に出願された米国特許出願第07/938,413号の一部継続出願である。本出願はまた、1996年4月23日に特許協力条約(PCT)を通して米国受理官庁に出願された、対象国を米国と日本とする国際特許出願PCT/US96/05567号の一部継続出願である。PCT/US96/05567号自体も米国特許出願第07/938,413号の一部継続出願である。
技術分野
本発明は、ある自然言語から他の自然言語への、好適には日本語から英語に翻訳するための自動自然言語翻訳に関する。
背景情報
自然言語の機械翻訳については種々の方式が提案されてきた。通常、翻訳に使用されるシステムは、ある言語での入力を受信し、その受信した入力を処理し、他の言語で出力するコンピュータを含む。このタイプの翻訳は従来正確なものではなく、そのために、熟練したオペレータが出力結果にかなり手を加えなければならない。従来のシステムによる翻訳作業は、一般に構造変換操作を含む。この構造変換の目的は、ソース言語の文の解析ツリー(すなわち、構文構造ツリー)を目的言語に対応するツリーに変換することである。現在まで二つのタイプの構造変換方式が試みられてきた。すなわち、文法に基づく変換と、テンプレート間の変換である。
文法に基づく変換の場合には、構造変換の領域は、ソース言語の解析ツリー(すなわち、与えられたノードの直接のこどもであるサブノードの集合)を得るために使用される文法規則の領域に限定される。例えば、次の式があるとき
VP=VT01+NP (動詞句は、目的語が一つの他動詞と、名詞句がこの順序で並んでいる。)
そして、日本語は、1+2=>2+1 (VT01とNPの順序が逆になっている。)
規則の適用を含むソース言語の解析ツリーは、構造的には動詞と目的語の順序が反対になるように変換される。日本語では動詞は目的語のあとに来るからである。この方法は、ソース言語の解析ツリーを得るために規則が使用された場所で正確に適用され、特定の変換が行われた場所をすぐ見つけることができるという点で非常に効率的である。一方、上に述べたように、その領域が大幅に制限されているという点、また自然言語は、こどもではないノードにまたがるような変換規則を必要とする場合があるという点で、変換機構としては弱いものである。
テンプレート間の変換では、構造変換は、入出力(I/O)テンプレートまたはサブツリーの形で指定される。ある入力テンプレートがある構造ツリーと一致した場合には、そのテンプレートと一致する構造ツリー部分が、対応する出力テンプレートで指定された通りに変換される。これは非常に強力な変換機構であるが、与えられた入力テンプレートが、存在する構造ツリーのどの部分と一致するかを見つけるのにかなりの時間がかかり、処理コストが高くなることがある。
発明の概要
本発明の自動自然言語翻訳システムは、従来の機械翻訳装置と比較すると多くの利点を持つ。システムが、自動的に入力テキスト情報の可能で最も適切な翻訳を提供しユーザにその出力(好適には、英語の入力テキストの日本語訳)を供給した後で、ユーザは、表示された翻訳結果に手を入れるために、または自動的に他の翻訳を入手するために、このシステムと対話することができる。本発明の自動自然言語翻訳システムを操作する人は、これでいいと判断した翻訳の結果の部分はそのまま保持しながら、残りの部分を自動的に再翻訳させることができる。この選択的な再翻訳を行うことにより、再翻訳を必要とする部分に対してのみ翻訳が行われるので、操作する人は時間を節約することができ、潜在的に多くの不正確な部分はあるとしても、翻訳としては非常に質の高い部分を検討するという退屈な仕事を手短かに済ますことができる。さらに、このシステムでは、種々の翻訳調整を行うことができるので、通常は、翻訳の最終構造の多くがシステムによって作成される。したがって、このシステムを使用することにより、人間(オペレータ)による潜在的なミスを少なくし、文の構造、人称や時制の一致の変更などの手直しに要する時間が節約できる。このシステムはオペレータに広範囲で正確な文法とスペルに関する知識を提供できるようになっている。
本発明の自動自然言語翻訳システムは、ソース言語に含まれる文章の区切りのさまざまな曖昧性処理と、強力な意味伝達機能により、翻訳文はさらに正確なものになり、オペレータの翻訳の手直しに要する時間が短くてすむようになる。特定のユーザの好みに合わせてシステムが記憶していく学習統計情報によっても、翻訳の質はさらに改善される。本システムの熟語処理方法は、熟語を構成する語句を含んでいる文があるとき、熟語そのものの意味を考えることなく、正確に訳すことができるという利点を持つ。本システムは効率的であるばかりでなく、関連の低い特性を一致させるという多様な機能を持つ。本システムの構造バランスエキスパートおよび同格構造エキスパートは、目的とする解析と目的としない解析とを効率的に見分ける。大文字エキスパートは、効率的に文中の大文字の単語を正確に解釈し、大文字列手順は、普通名詞としての解釈を完全には無視しないで、複合語の固有名詞を効率的に処理する。
ある観点から見た場合、本発明は、自動自然言語翻訳システムの改良に関するものであり、この場合、この改良は、入力テキスト情報に含まれる少なくともいくつかの「かな」を目的自然言語(好適には英語)のアルファベット文字に変換することによって、語句やフレーズの境界が「かな」のあいだに認識されるように、ソース自然言語(好適には日本語)の入力テキスト情報の解析に関する。入力テキスト情報には、「漢字」と「かな」が含まれる。「漢字」は意味をもつ表意文字であり、「かな」は固有の意味は有しない単なる音を表わす表音文字である。ソース自然言語は表意文字と表音文字の両方を使う言語であるが、日本語に見られるように、単語やフレーズの区切りは付加されていない。
他の観点から見ると、本発明は、自動自然言語翻訳システムのもう一つの改良に関する。その改良というのは、入力テキスト情報に、形態素解析と統語解析を同時に行うことにより、ソース自然言語(好適には日本語、韓国語、中国語)に含まれる入力テキスト情報を解析することに関する。ソース自然言語は、日本語、韓国語、中国語のように、単語やフレーズに区切りが記されていない言語である。
本発明の上記および他の目的、特色、特徴および利点は、以下の説明と請求の範囲を読めば明らかになる。
【図面の簡単な説明】
各図中、同じ参照番号は、一般的に、別の図面であっても同じ部品を示す。また図面は必ずしも同一の縮尺ではなく、一般的に本発明の原理を説明することに重点を置いている。
図1は、自然言語の自動翻訳を行うシステムのブロック図である。
図2は、図1のシステムの全体的な機能を示すデータのフローチャートである。
図3は、図1のシステムの動作を示すフローチャートである。
図4は、図1のシステムのプリパーサーの文末認定機能の動作を示すフローチャートである。
図5は、図1のシステムのパーサーの動作を示すフローチャートである。
図6は、図1のシステムの意味伝達の動作を示すフローチャートである。
図7は、図1のシステムの構造変換の動作を示すフローチャートである。
図8は、図1のシステムのエキスパート評価子のフローチャートである。
図9は、例示としてのフレーズ「by the bank」に対して、図1のシステムが使用するサンプル・グラフである。
図10は、本発明の一つの局面による、入力テキストの「かな」を、語句やフレーズの境界の存在が「かな」のあいだに認識されるようにアルファベット文字に変換するシステムの図である。
図11は、本発明のもうひとつの局面による、入力テキストに形態素解析と統語解析を同時に行うシステムの図である。
発明の説明
最初に、図面を参照しないで、本発明の自動自然言語翻訳システムの概要を説明する。この概要説明の後で、図面を参照して説明する。
自動自然言語翻訳システムは、ソース自然言語を目的自然言語に翻訳することができる。ひとつの好適な具体例として、上記システムは英語を日本語に翻訳する。もうひとつの好適な具体例として、上記システムは、日本語を英語に翻訳する。上記システムは、ソース自然言語を受信し記憶する手段と;目的自然言語への翻訳を作成する翻訳エンジンと;ユーザに翻訳結果を表示するための手段と;ユーザに対して別の翻訳結果を提供し表示するための手段とを含む。このシステムの具体例としては、翻訳エンジンは、プリパーサー、パーサー、グラフ作成装置、評価子、グラフ・スコアラ、文法構造抽出装置および構造変換装置を含む。プリパーサーは、入力テキストを検査し、入力文の文末認定の曖昧な箇所を解析する。その後、プリパーサーは、辞書の見出し語を含む解析チャートで、入力テキストを作成し表示する。パーサーは、入力テキストに対する可能な構文の分類を入手するために、上記チャートの解析を行う。グラフ作成装置は、解析チャートに基づいて、入力テキストの可能な構文解釈のグラフを作る。このグラフには、入力テキストの可能な解釈に関連するノードとサブノードが含まれる。一連のエキスパートを含む評価子は、解釈の可能なグラフを評価し、グラフのノードとサブノードにエキスパートの重みを加える。グラフ・スコアラは、サブノードを評価するためにエキスパートの重みを使用し、その後でN個の上位のスコアと各ノードとを関連づける。文法構造抽出装置は、解析ツリー構造をグラフ・スコアラが決定した好適な解釈に割り当てる。構造変換装置は、目的言語での翻訳を入手するために、解析ツリー構造に関する構造変換を行う。
以下の三つの段落では、(a)各サブノードに対する最終加重スコアを計算するために、グラフ・スコアラがどのようにエキスパートの重みを組み合わせるか;(b)最終ノード・スコアに到達するために、グラフ・スコアラがどのようにサブノード・スコアを組み合わせるか;(c)言語情報がノードとサブノードのツリーをどのように伝達するか、について説明する。
各サブノードに対する最終加重スコアを計算するために、グラフ・スコアラは、各サブノードに定数値を関連づける。各サブノードに関連する言語情報の分析により、サブノードのスコアの決定が行われる。例えば、一連のエキスパート評価子が、各ノードとサブノードに記憶された言語情報を検査する図8を参照されたい。グラフ・スコアラは、特定のノードまたはサブノードに対する最終加重平均を入手するために、各エキスパートに対する個々の加重スコアの合計を計算する。複数の加重スコアを一つの加重平均スコアにまとめることは、コンピュータサイエンスにおける標準的な問題である。使用できる一つの方法としては、各エキスパートの結果に、そのエキスパートに割り当てられた定数(重み)を掛け合わせる方法がある。各エキスパートに割り当てられる重みは、設計時に決定しておく問題である。設計者は各エキスパートに割り当てる優先権(重み)を決定する。加重平均は、各数字に定数を掛け、一連の数字を合計したものである。例えば、以下の式になる。
加重平均=(w1)(x1)+(w2)(x2)+...+(wn)(xn)
但し、重みw1,w2,...,wnは、いずれも負でない数で、合計は1になる。例えば、統計の期待値に関する加重平均の使用について述べているスピーゲル著「確率および統計の理論と問題76」(1975年、マグローヒル社)を参照されたい。
最終ノード・スコアを入手しようとサブノード・スコアを結び付けるために、グラフ・スコアラは、グラフの底辺の部分から一番上の部分にサブノード・スコアを伝達することができる。各ノードがNスコアの集合を持つグラフの場合には、一つまたは複数の伝達方法を決定することができる。サブノード・スコアを伝達するのに使用することができる一つの技術としては、最適化問題を解くために使用されるある種の動的プログラミングである記憶方法がある。最適化問題の解法には、多くの可能な数値(結果)を含むことができる。目的は最適な数値を発見することである。最適化に使用するアルゴリズムは、各サブサブ問題を一回だけ解き、結果を記憶するので、サブサブ問題に遭遇するごとに答を再度計算する必要がなくなる。最適化問題に適用されるもっと詳細な説明については、例えば、コーメン他の「アルゴリズムへの招待」(1990年マグローヒル社)の301−314ページを参照されたい。この「アルゴリズムへの招待」の301,302および312ページには、グラフ内をサブノード・スコア情報を伝達させるのに使用できる一つの方法が記載されている。
言語情報をツリー内で伝達する場合には、システムの意味を伝える部分は、意味情報を内部のより小さい構成要素からより大きい構成要素へと伝えるように動作する。意味の伝達は、解析オペレーションで使用される統語分類の四つのクラス(SEMNP、SEMVP、SEMADJおよびVERB)に適用される。意味の伝達が行われる前に、ノードに記憶されている言語情報を分析しなければならない。ノードに記憶されている意味情報の分析は、文法規則の名詞らしい要素と動詞らしい要素を点検することにより、どの名詞らしい目的語に、文法規則の動詞らしい要素のどの選択的制限スロットを適用するかを言い当てる規則の集合によって導かれる。ジェラルド・ガズダは、その著書「プロローグの自然言語処理」(1989年アディソン・ウエズリ出版社)で、本明細書で開示しているグラフに類似した方向を持った、リング状でないグラフのノードに記憶されている意味情報を分析するのに使用することができる規則の集合について説明している。ガズダは、隣接するノードに関する情報と一致させる特性マッチングの使用について説明している。ガズダは、特性マッチングは、以下に述べる式を含むと述べている。
「あるノード上に現れるいくつかの特性は、もう一つのノード上に現れる特性と同じものであるに違いない。最新の研究は、親の分類とそれらの特性に関連する形態素を示すことも上に現れるあるクラスの特性の詳細を等しくするという原則を仮定している。このこどもは、そのフレーズの「頭」と呼ばれる。大部分のフレーズは頭を一つだけ持つ。それ故、例えば、動詞句は、その動詞の時制を受け継ぐ。何故なら、動詞は動詞句の「頭」であるからである。これまで使用してきた表記法の資源を使用しても、文法全体に適用できるこの原則を指定する簡単な方法はない。しかし、もし関連する特性がDAGの一本の枝上にすべて発見することができると仮定するならば、規則ごとに非常に簡単にこの原理の効果を述べることができる。そこで、我々は通常のVP規則を以下のように書き表すことができる。
VP−−>V NP PP
<Vの頭>=<VPの頭>
この場合、Vの「頭」の特性値と、親であるVP上の「頭」の特性値は同じものでなければならない。」
ガズダで議論されている規則は、本明細書に開示する構文の各分類に容易に適用することができる。ガズダの規則を使用して各ノードに割り当てられた言語情報は、記憶方法の技術により、ツリーの中を伝達することができる。
ここで、上の三つの段落の内容を要約すると、加重平均は、サブノード・スコアを決定する一つの方法であり、各サブノード・スコアは、最適化問題に適用した周知の記憶方法技術を使用してグラフ7中を伝達することができ、ガズダの著書に述べられている方法は、各ノードに記憶されている言語情報を分析するのに使用することができ、この言語情報は、記憶方法技術を使用して文法構造解析チャート内を伝達することができるということになる。
自動自然言語翻訳システムでは、最初の自動翻訳終了後に、自動的に再翻訳を行うことができる。すなわち、システムが自動的に入力テキスト情報の可能で最も適切な翻訳を提供し、ユーザに出力(好適には、入力英語テキストの日本語の翻訳または日本語から英語への翻訳)を提供した後、ユーザは表示されている翻訳を手直しするために、または自動的に別の翻訳を入手するためにシステムと対話することができる。
自動自然言語翻訳システムは、一つの文をサブストリングに分解する言語モデルを使用する。サブストリングは、その文の一部として指定された順序で出現する一つまたは複数の語句である。例えば、サブストリング「The man is happy」は、「The」、「The man」、「man is happy.」、「is」および「The man is happy」それ自身を含んでいるが、「is man」、「man man」、「The is」は含んでいない。
異なる言語モデルは、種々の方法で、また種々の詳細レベルでサブストリングを定義する。例えば、「They would like an arrow」という文においては、「an arrow」は通常、名詞句(NP)に分類される。別のモデルでは、「an arrow」を構文上の特性(例えば、単数の名詞句)および文意上の特性(武器)で分類する。この句の意味が曖昧である場合には、それを分類する複数の方法がある。例えば、「an arrow」は、矢の形をした記号を意味することもできる。言語モデルは、曖昧さを解決する方法を提供するとき、通常、より小さな単位をより大きな単位に結合することによって曖昧さを解決する。より大きい単位を評価する場合、これらのモデルはより大きい単位に含まれている情報だけを考慮の対象とする。
このシステムの具体的な例示として、「an arrow」(記号または武器)の意味上の特性が、「They would like an arrow」という文の「like an arrow」という動詞句を評価する際に使用される。一方、「an arrow」という句の構文が「He shot it with an arrow」という文中にあった場合には、「an arrow」の意味上の特性は、「shot it with an arrow」という動詞句を評価する際には使用されない。
特定の言語モデル(解釈したサブストリング)を一つの方法で解釈した文の任意のサブストリングに対して、エキスポートされた属性が存在する。エキスポートされた属性は、解釈したサブストリングと、もっと大きいサブストリングを形成する他の単位との組み合わせを評価するために使用したすべての属性である。エキスポートはエキスポートされた特性と一緒に解釈した、解釈済みのサブストリングである。解釈済みのサブストリングに含まれているが、エキスポートされていない属性は、サブ構造体と呼ばれる。
システムのパーサーは、文法データベースを含む。パーサーは、文法規則を使用して文のすべての可能な解釈を見い出す。文法データベースは、X=A1A2...Anの形の、一連の文脈自由句構造規則からなる。Xは、A1A2...,Anからなっているか、形成されていて、レベルの高いノード(サブノード)A1からよりレベルの低いノード(サブノード)Anと呼ばれる。
システムのグラフ作成装置は、一つの文に関して可能な多くの解釈を図形で表す。グラフの各ノードは、あるサブストリングのエキスポートに対応する。システムの具体例として、一つのエキスポートは一つのノードで表される。グラフは、一つのエキスポートに関連するノードから出ている円弧を含む。円弧は、文法規則の適用に基づくエキスポートのサブ構造体を表す。グラフは少なくとも二つのタイプの円弧、すなわち、(1)同じサブストリングの一つの異なるエキスポートを指している単一の円弧、(2)二つのエキスポートを指している一組のポインタを含む二つの円弧、すなわち、連結されたときは、そのサブストリングは、もとのエキスポートのサブストリングを形成する。(2)の定式は、チョムスキーの正規形文法を仮定していることに留意されたい。修正した請求項35は、タイプ(2)を言い替えることによって、チョムスキの正規形文法ではなく、N個のエキスポートを指しているN重ポインタを持つ円弧を反映する文法に適用される。
グラフは、一つの出発エキスポート点Sを含み、そこから一連の円弧を辿ることによりグラフのすべての部分に行き着くことができる。出発エキスポートは、文全体に対応する。
同じエキスポートを複数のエキスポートから形成できる場合に限り、一つのノードから複数の円弧がスタートする。(二つの円弧からなる円弧内の一組のポインタは、この意味では複数の円弧とは考えない。)そのエキスポートが複数のエキスポートの一つの要素である場合に限って、複数の円弧が一つのノードを指すことになる。円弧が出ていないノードは、サブストリングに割り当てられた辞書の見出し語に対応する。
複数の言語エキスパートが、エキスポートの集合に数字のスコアを割り当てる。この言語エキスパートは、グラフの各ノードに上記スコアを適用する。システムの具体例として、スコア行列(行列の各要素は、特定のエキスパートのスコアに掛け算を行うための重みである)は、任意の文に対する浮動小数点数の固定の長さ「N」である。
上記スコアは、グラフ作成エンジンおよび/またはパーサーに組み込まれるスコアリング・モジュールにより評価される。スコアは、より高いエキスポートを形成しているすべてのエキスポートに対して計算される。より高いエキスポートに対するスコアは、よりレベルの高いエキスポートを形成しているエキスポートと構造調整エキスパートによって割り当てられたスコアの組み合わせに適用される任意のエキスパートのスコアの合計として計算される。
ノードに到着し、スコアを調べる順序は、標準の深さ第一グラフ移動アルゴリズムである。このアルゴリズムでは、スコア付けされたノードにはマークが付けられ、再びスコアを付けられることはない。スコアが付けられるプロセス中、スコアリング・モジュールは、もっと高い単位の任意のノードの評価を行う前に、辞書の見出し語ノードを評価する。辞書の各見出し語は一つのスコアをもつ。
一つのエキスポートを行うのに複数の方法がある場合には、複数のスコアになる。すなわち、エキスポートを行うのにk通りの方法がある場合には、可能なk個のスコアになる。複数のスコアは以下のように処理される。
(1)単一の要素からなる規則では、もっと低いエキスポートのk個の各スコアは、単一の要素からなる規則に適用されるエキスパートの数値に加算され、その結果得られたk個のスコアのベクトルは親のエキスポートに関連している。
(2)二つの要素からなる規則では、左のこどもがgスコアを持ち、右のこどもがhスコアを持つものと見なされる。その後gスコアにhスコアを掛けた数値が、左のこどもの各スコアに右のこどもの各スコアを加算し、さらに、二つの要素からなる規則に適用されるエキスパートの数値を加算することによって計算される。gスコアにhスコアを掛けた数値がNを越えた場合には、最も高いNのスコアだけが親のノードと一緒に保持される。
(3)一つのエキスポートが複数の方法で作ることができる場合には、たかだかN個のスコアがそのノードのスコア・リストに加算され、最も高いスコアだけが保持される。
スコア計算が完了すると、上記方法は、各エキスポートがそのノードと、エキスポートに表示されていないすべてのサブ構造体の属性を含む、エキスポートを行うためのg個の最も可能性の高い方法(言語モデルに関する)を表すg個のスコア(1からNまでの範囲内のg)の集合と関連づけていることを確認する。ルート・ノードSのような特別な場合では、このスコア計算方法は文全体を形成するg個の最も可能性の高い方法を与える。
上記のスコア・リストの各スコアは関連するポインタを持つ。ポインタは、より低いエキスポートのスコア・リストのどのスコアが、もっと高いレベルのスコアを作るために組み合されたのかを示す情報を提供する。各ポインタを追跡することにより、その文のg個の最も可能性の高い解釈を、曖昧でない解析ツリーとして抽出することができる。
図1−図9を参照しながら、自動自然言語翻訳システムをさらに詳細に説明する。その後で、図10と図11を参照しながら、本発明の種々の改良点について説明する。
図1および図2について説明すると、本発明の自動自然言語翻訳システム10は、入力インターフェース12、翻訳エンジン16、記憶装置18、ユーザ入力装置22、ディスプレイ20やよび出力インターフェース14を含む。入力インターフェースは、英語や日本語などのソース言語で書かれた一連のテキストを受信することができるようになっている。入力インターフェースとしては、キーボード、音声インターフェースまたはモデムまたは直列入力のようなデジタル電子インターフェースを含むことができる。翻訳エンジンは、記憶装置のデータを使って、ソース言語の翻訳を行う。翻訳エンジンは、全体をハード配線の論理回路で作ることもできるし、一つまたは複数の処理ユニットや関連する記憶命令を含むこともできる。翻訳エンジンは、以下に述べる要素やその部分を含むことができる。すなわち、プリパーサー24、パーサー26、グラフ作成装置28、文法構造解析/翻訳評価子30、文法構造解析抽出装置32、構造変換装置34、および別の文法構造システム37を含むユーザ・インターフェース42である。構造変換装置は、文法規則制御による構造変換装置36、辞書制御による構造変換装置38および生成規則制御による構造変換装置40を含むことができる。記憶装置18は、一つまたは複数のディスク(例えば、ハードディスク;フロッピーディスクおよび/または光学的ディスク)および/またはメモリ記憶装置(例えば、RAM)などを含むことができる。これら記憶装置は、次に述べる要素の全部または一部を記憶することができる。すなわち、基本辞書44、技術用語辞書46、ユーザが作成した辞書、文法規則48、生成規則50、意味特性ツリー52、構造特性ツリー54およびグラフ56である。記憶装置18は、ソース自然言語で書かれた入力テキスト情報、目的言語で書かれた出力テキスト情報、および一つまたは複数の辞書、領域キーワードと文法規則を含む翻訳を行うために使用したり役立つすべての種類の情報を記憶するのに使用される。ユーザ入力インターフェース22は、キーボード、マウス、タッチスリーン、ライトペンまたは他のユーザ入力装置を含み、システムのオペレータが使用できる。ディスプレイとしては、コンピュータ・ディスプレイ、プリンタまたは他のタイプのディスプレイを使用することもできるし、オペレータに情報を知らせるための他の装置であることもできる。出力インターフェース14は、ソース・テキストの最終翻訳を、日本語などの目的言語でやりとりする。上記インターフェースは、プリンタ、ディスプレイ、音声インターフェース、モデムまたは直列ラインのような電子インターフェースを含むこともできるし、最終ユーザにテキストを送るための他の装置を含むこともできる。
本発明の翻訳システムの具体例の操作として、図1、図2および図3に示すように、プリパーサー24は、まずソース・テキスト23に対して予備的な解析作業(ステップ102)を行う。この作業には、ソース・テキストの文末認定の曖昧性の解析が含まれ、辞書の見出し語25を含む構造解析チャートを作成する。その後、パーサー26は、構文の可能性27が記載されている構造解析チャートを入手するために、プリパーサーが作成した(ステップ104)上記チャートの構造解析を行う。グラフ作成装置28は、構造解析ステップで得られた構造解析チャートに基づいて、可能な解釈29のグラフを作成する(ステップ106)。一連のエキスパート43にアクセスする評価子30は、記憶された解釈のグラフを評価し(ステップ108)、グラフ31にエキスパートの重みを追加する。グラフ・スコアラ33は、ノードのスコアをつけ、N個の(例えば、20個の)最も高いスコア35をそれぞれに関連づける。文法構造抽出装置32は、この好適な解釈に構造解析ツリー構造39を割り当てる(ステップ110)。その後、変換テーブル58にアクセスする構造変換装置34は、目的言語になった翻訳41を入手するために、上記ツリー上で構造変換処理(ステップ112)を行う。ユーザは、他の翻訳を入手するために他の構造解析システム37とやりとりすることができる。
図4について説明すると、本発明のシステムは、入力単語列を個々の句読点および語を形成する文字グループを含むトークン(ステップ114)に分割することによって、予備構造解析を行う。スペースの出現は、このレベルでの文字の解釈に影響を与える。例えば、「x−y」の「−」はダッシュであるが、「x-y」の「-」はハイフンである。
その後、プリパーサーは上記のトークンを語句に組み合わせる(ステップ116)。このレベルで、プリパーサーは、特殊な構造(例えば、インターネット・アドレス、電話番号および社会保険番号のような)を一つの単位として認識する。プリパーサーは、またグループを区切るために辞書参照を行う。例えば、「re-enact」が辞書に「reenact」として載っている場合は、一語となるが、載っていない場合は、別々の三つの語となる。
次の予備構造解析段階では、文が何処で終わるかの文末認定が行われる(ステップ118)。この処理中、プリパーサーは、各文の可能な文末箇所(すなわち、ソーステキストの各単語の後)を認定するための一連のステップを行う際に、基本辞書、技術用語辞書および搭載されているユーザ作成の辞書にアクセスする。プリパーサーは、特定の順序が指定された場合には、このステップを行う必要はなく、これらステップは一連の順序を持つ規則として実行することもできるし、ハードウェアに組み込んでコード化することもできる。
図5について説明すると、プリパーサーは、ダッシュ記号の連続「----」のような解析できない記号のシーケンスがあるとき、ひとつひとつは翻訳せず、全体として一つの「文」として解釈し記録する(ステップ120)。プリパーサーは、文の末尾として、二つのキャリッジ・リターンを要求する(ステップ122)。次の語句の最初の文字が小文字である場合には、プリパーサーは一つの文の終わりと見なさない(ステップ124)。文がニューラインで始まりしかも短い場合(例えば、タイトル)には、プリパーサーは、それを一つの文と見なす。
プリパーサーは、閉じ括弧および閉じ引用符を含んでいるような場合を除いて、終止符(.)、疑問符(?)、または感嘆符(!)を文の終わりと見なす(ステップ128)。「."」や「?"」等で終わっている文の場合には、プリパーサーは、引用符の前の句読点のほかに、引用符の後に仮想の句読点を加えて使用する。「?"」に対して仮想で追加する句読点に対する方法を、以下の例に示す。
The question was “What do you want?”
Did he ask the question “What do you want?”?
Are you concerned about “the other people”?
英語の場合、上記各文は「?"」で終わっている可能性が高い。プリパーサーが追加した仮想の句読点があるということは、引用符の前に疑問符のような何かが存在するのか、または全然何もないかを示している。引用符の後ろには、終止符または疑問符のような何かが存在している。この文の残りの文法的構造によって、このあとの処理段階で最も適切な選択を行うことができる。
プリパーサーは、また終止符の解析で、さらにいくつかの方法を使用する(ステップ130、132、134、136および138)。辞書に含まれる短縮形には、文頭には決して使用できないというマークが付いているものや、文末には決して使用できないというマークが付いているものがある(ステップ130)。これらの規則は常に尊重される。例えば、「Ltd.」は文頭には使用されないし、「Mr.」は文の終わりには使用されない。プリパーサーは、また次の語句が「the」、「in」のような頻出する単語でないかぎり(ステップ132)、一字の大文字に終止符があるとき、文が終わりであるとは考えない。終止符の前の単語が、いずれかの辞書に載っている場合には、終止符のところで文は終わる(ステップ134)。終止符の前の語句が辞書に載っておらず、その語句がその内部に終止符を持っていて(例えば、I.B.M.)、次の語句が小文字としては辞書に載っていないか、または次の語句そのものが大文字である場合には、文はその終止符のところで終わっていないと見なす(ステップ136)。それ以外の場合には、終止符は文の終わりを示す(ステップ138)。
再び図2および図3について説明すると、文の切れ目がプリパーサーにより指定されると、パーサーはその文の語句を構文分類に入れ、その文の可能な構文の解釈25を計算するために、それらの語句に文法データベースの文法規則を適用する(ステップ104)。文法規則48を、その言語の文法的な制限を表すコンピュータ処理ができる一連の規則として実行することができる。英語の場合、このような規則は何百とあり、これら規則は何百という構文分類に適用される。この作業の計算に要する余分な時間を減らすために、一つの語句の異なる可能な意味は無視して処理される。
次のステップ(ステップ106)において、グラフ作成装置は、語句の異なる意味を取り込み、その文のすべての意味解釈を表す方向を持ったリング状でないグラフを作成するために、辞書を使用しパーサーの結果を拡張する。このグラフは、後で説明する一連の意味伝達の手順の助けを借りて作成される。これらの手順は、一連の作成された文法規則に基づいて行われ、ある場合には、意味情報を求めて意味特性ツリーにアクセスする。意味特性ツリーは、意味分類を含むツリー構造である。このツリーは、おおざっぱに抽象物から具体物へと組織されており、ツリーの中でどのくらい離れているのか、ツリーのなかでのそれぞれのレベルは何かの両方から、二つの用語が意味の上でどのように関連しているかを決定することができる。例えば、「cat」と「dog」は、「cat」と「pudding」より関連性が高い。したがって、「cat」と「dog」の二つは、「animal」のツリーの中での距離は短く、「animal」、「cat」はツリーの異なるレベルに記憶されている例である。何故なら「animal」は「cat」に比べてより抽象的な言葉であるからである。
図9について説明すると、この図のグラフは、ノード80を含み、そのサブノード82、84、86は種々のタイプの関連を示す方法でポインタ88、89、90、91でリンクしている。グラフの第一の関連のタイプは、句を表すノードが、それを構成している語句のノードやサブフレーズのノードを指すポインタを持っているものである。例えば、「the bank」を表すノード84は、ポインタ92、93により、それを構成している語句「the」94および「bank」95にリンクしている。グラフの第二の関連のタイプは、句の解釈が、より低いレベルのものから、同じより高いレベルの成分を作るもう一つの方法を指すポインタを持っている場合である。例えば、句「by the bank」を表すノード80は、それぞれを構成する各語句にリンクしているポインタ88と89、および90と91を含む二つのソース解釈位置81、83を持つことができる。この例の場合、異なる個々の構成語は、それぞれが「the bank」に対して異なる意味を表す異なるサブノード84、86を含む。グラフの構造は、解析作業の結果により規定され、ソース文の構文により制限を受ける。このグラフのノードは、意味伝達のプロセス中に記入される意味情報に対する記憶位置と関連づけられる。
システムの意味を伝達する部分は、それらを含むより小さな成分からより大きな成分へと意味情報を伝達する働きをする。意味情報は、初めの段階の解析作業で使用される構文分類の四つのクラスに適用される。四つのクラスは、SEMNP(名詞型の目的語や前置詞句を含む)、SEMVP(通常主語を取る、目的語のような動詞句)、SEMADJ(形容詞)、およびVERB(多くの場合目的語を取る辞書の動詞型の動詞)である。その他の構文分類はある規則では無視される。文法規則の設定者は、規則に特定のマークを付けることによって、表面上に出ない行動を上書きすることができる。これらの特別命令は最初にくる。
システム内を意味特性が伝達する方法は二つの面を持つ。第一の面は、文法規則の名詞型および動詞型の構成部分を検査することによって、名詞型の目的語に、動詞型の構成要素のどの選択的な制限スロットを適用するかを知ることができる規則の集合である。例えば、「I persuaded him to go」という文の動詞句に対する規則は、おおまかにいうと、VP=VT11+NP+VP(ここで、VPは動詞句、VT11は他動詞の分類、NPは名詞句)である。例示としてのデフォルト規則は、動詞が目的語を取る場合には、動詞の右側にある最初のNPに、選択制限を適用しなければならないというものである。別の規則では、その主語に対するVPの制限は、VPの左側の最初のNPに適用しなければならないと定めている。これらの規則を合わせると、「persuade him」および「him go」の両方の意味がよく通るように評価するようにしている。すでに説明したように、これらの規則は英語の複雑な規則を反映していて、そのためにその数は非常に限定されている。
図6について説明すると、意味伝達作業は選択制限をSEMVPから命令文にコピーする作業を含む(ステップ140)。SEMNPが位置の表現として使用されている場合には、良い位置を指定する意味定数に対してその妥当性が評価される(ステップ142)。ある規則が二つのSEMNPの結合(構文上の特徴を論理積することによって検出された)を含んでいる場合には、グラフ作成装置は、意味特性を論理積して、意味上の距離エキスパートに適用する(ステップ144)。
意味特性の伝達に対して指定された規則を検査している中で、グラフ作成装置が、もっと高いレベル(例えば、それがもっと多くの語句を含むSEMNPの一部となる)へ伝達するSEMNPの「頭」の位置を見つけた場合には、グラフ作成装置は、意味特性をも伝達する(ステップ146)。しかし、「頭」が、区分用の語句(例えば、「portion」、「part」)である場合には、「頭」はSEMNPから左または右に伝達する。SEMVPおよびSEMADJも、区分用の位置を持っていない(ステップ148)ことを除いて、同じ方法で伝達される。形容詞はこの意味ではSEMVPの一部である。
SEMVPがVERBを含む規則から作られた場合は、グラフ作成装置は、VPが受動態である場合を除いて、VERBの主語制限を上の方向に伝達させる。受動態の場合、VERBの最初の目的語制限が伝達される(ステップ150)。SEMVPを含む規則の場合には、グラフ作成装置は、SEMVPの選択制限をSEMVPから左に移動するときに遭遇するNPに適用しようとする(ステップ152)。SEMADJを含む規則の場合には、グラフ作成装置は、SEMADJの選択制限を、最初にSEMADJから右に移動するときに遭遇する任意のSEMNPに適用しようとし、それがうまくいかない場合には、左の方向に移動しようとする(ステップ154)。
VERBの任意の残りの未使用の目的語選択制限(受動態であるために上の方向にそれまで伝達していない)に対して、グラフ作成装置は、VERBの右側で遭遇するSEMNPに、上記の制限を順番に適用する(ステップ156)。これらすべての規則で、動詞選択制限は、それが何かに適用されるとすぐに使い尽くしてしまう。これまでのすべての規則の場合、SEMNPは、それらSEMNPに何かが適用された場合には、使い果たされない。この規則からスタートすると、SEMNPは使い尽くされる。最終的に、ある規則がSEMVPを作った場合に、グラフ作成装置は、それまで使用されていないSEMVPまたはSEMADJが含まれているかどうかを決定し、含まれている場合には、それを上の方向に向かって伝達する(ステップ158)。
システムは、また言語の特性マッチングを行う。言語特性は語句および他の構成要素の特性である、構文の特性マッチングはパーサーが使用し、意味特性マッチングは、グラフ作成装置が使用する。しかし、同一の方式が両者に対して使用される。例えば、「they」は複数という構文特性を持ち、一方「he」は単数という構文特性を持つ。特性マッチングは、語句の特徴がそれらが適用される語句の特徴がある条件を満たした場合にだけ適用されるように、文法規則にマーク付けを行う。例えば、下記のような規則があるとする。
S=NP{@}+VP{@}
ここで、記号@はNPおよびVPの数の特性が一致しなければならないことを意味する。したがって、この規則は「they are」や「he is」は正しいとするが、「they is」や「he are」は認めない。
特性マッチ制限は、「局所的」と「広範囲」とに分けられる。広範囲の動作は、実際に文が処理されるときにではなく、文法が作成されるときに計算される。そして、実行しなければならない広範囲の動作のシーケンスは、命令バイトとしてコード化される。
「広範囲」特性動作の計算は、n個の要素からなる規則(すなわち、その右側に二つ以上の要素を持っている)でスタートしなければならない。その後、システムは、特性の集合が正しい形で規則間を伝達して終わるように種々の二つの要素からなる規則にコードを割り当てる。n個の要素からなる規則を二つの要素からなる規則に分割することによって、解析作業は非常に単純化される。しかしシステムは、二つの要素からなる規則にまたがって特性の集合を追跡しているので、システムは「広範囲」処理のパワーを保持する。
本発明のシステムでは、辞書は構成している個々の語句としての取り扱いも行うが、複数の語句で構成する「熟語」も含んでいる。これら二つの形は、最終的には最も適切な翻訳を行うために相互に競い合うことになる。例えば、辞書では「black sheep」の意味は、「持て余し者」として登録されている。しかし、ある場合には、「black sheep」という語句は、「黒い羊」を意味することもある。これらの形は両方とも保持されているので、この熟語としてではない翻訳も、正しい翻訳として選択される。
この熟語は、また別の分類にも属する。例えば、システムは次の三つのタイプの分類を使用することができる。
オールマイティ:United States of America
優先:long ago
普通:black sheep
オールマイティ熟語は、そのシーケンスを構成しているどの語句の可能な解釈よりも優先する。優先熟語は、そのシーケンスを構成している語句が同じ一般的な使われ方をしているときは、いずれの可能な解釈よりも優先する。普通熟語は、同じレベルで他の見出し語と競合する。
その結果得られるグラフは、エキスパート(ステップ108、図3)によって評価され、上記エキスパートはグラフの解釈の正確さの可能性を表すスコアを供給する。本発明のシステムは、文全体のみではなく、文の任意の長さのすべての部分に適用される採点方法を含む。グラフを使用するに当たっての重要な要素は、それが非常に多くの文に使用されていたとしても、サブツリーがたった一回だけ完全に採点され、分析されるということである。例えば、「Near the bank there is a bank.」という句においては、「Near the bank」という句は、少なくとも二通りの意味を持つが、この句の最も適切な解釈はどれかという判断は一回しか行われない。「there is a bank」という句も、同様に二通りの解釈をすることができるが、これら二通りの解釈のどれが最も適切であるかという判断は一回だけしか行われない。したがって、この文は異なる四つの意味に解釈できるが、サブ句のスコア付けは一回しか行われない。このグラフのもう一つの特徴は、各ノードが、文のその部分の長さに関して容易にアクセスできる情報を持っていることである。この特徴により、英文を再度分析しなくても、その英文の任意のサブストリングのN個の最も適切な解釈を行うことができる。
一回の実行においては、その文の最も適切なN個の分析が、その度ごとに得られるが(Nは20程度のある数)、グラフを使用することにより、システムは、もっと小さな構成部分についてのユーザの選択の結果を取り入れることができ、ユーザの選択を尊重したN個の最も適切な分析を行う。これらすべての分析は、文の解析を再度行わず、または任意のサブストリングの採点を再度行わないで行われるので、迅速に行うことができる。
図8について説明すると、エキスパート評価子30の動作は、各翻訳を特徴づけ、種々のエキスパートにより処理される、種々の要因に基づいて行われる。確率規則エキスパート170は、最初のソース言語解析ツリーを入手するのに使用される文法規則の平均相対頻度を評価する。選択制限エキスパート178は、得られた翻訳の意味上の一致の度合を評価する。辞書見出し語確率エキスパート172は、最初のソース言語解析ツリーを入手するのに使用された文のいくつかの語句の特定の「品詞」の平均相対頻度を評価する。統計エキスパートは、ある翻訳のために選択した特定のパラフレーズの平均相対頻度を評価する。
システムは、個別の英語の単語、句、および単語グループに対する英語の「品詞」(POS)を自動的に決定する。システムは、文を翻訳するとき、品詞を自動的に決定し通常は正しい決定を行う。しかし、ときには、翻訳する文それ自身が曖昧であることもある。異なる品詞として解釈することができる語句が含まれているときは、複数の異なるしかもどれも「正しい」解釈が得られることになる。システムのオペレータは、システムが自動的に決定する品詞を無視し、代わりに単語や語句または単語グループに対して手動で任意の品詞を設定することもできる。例えば、「John saw a boy with a telescope」という英文で、システムのオペレータは、「a body with a telescope」を名詞句と見なすと、その文を「その少年は望遠鏡を持っていた」という意味に解釈し、「ジョンはその少年を見るために望遠鏡を使用した」という意味には解釈しないことになる。オペレータは、複数の可能な品詞設定を行ったり、より制限のゆるやかな品詞設定を手動で行うことにより、システムが決定する品詞規則を上書きした場合、翻訳結果が悪化したり、少なくとも改善されないという状況が起こることがあります。名詞句は名詞よりも制限がゆるやかであり、グループはもっとも制限が緩やかな品詞設定である。下の表に種々の可能な品詞設定を示す。
品詞(POS)
名詞
名詞句
動詞(他動詞、自動詞)
動詞句
形容詞
形容詞句
副詞
副詞句
前置詞
前置詞句
接続詞
グループ
英語
「形容詞句」や「副詞句」の品詞設定は、ある英文が、システムが特定の前置詞句をどのように解釈するかによって意味が異なるような場合に有効である。例えば、「We need a book on the fourth of July」という文は、「on the fourth of July」が形容詞としての意味を持つと解釈した場合には、「我々は米国の7月4日の独立記念日に関する本がほしい。」という意味になるが、「on the fourth of July」を副詞句と解釈した場合には、「7月の4日に、我々は本がほしい。」という意味になる。システムが自動的に「on the fourth of July」に正しくない品詞を割り当てたとオペレータが考えた場合には、オペレータは、「We need a book on the fourth of July」という文の「on the fourth of July」に別の品詞を手動で設定することができる。オペレータが、システムに特定の単語、句または単語グループを英語から日本語に翻訳させたくないときは、このような単語、句または単語グループに「英語」という品詞を設定することができる。オペレータは、設定がシステムにより自動的に行われた場合でも、オペレータにより手動で行われた場合でも、一つまたは複数の品詞設定を除去することができる。
システムは、ユーザごとに複数のレベルで訳語の使われ方の統計情報を追跡する。例えば、システムは、語句の表面形式のレベル(「leaving」)が他動詞として、または自動詞として使用された頻度)で統計値を保持し、また意味レベル(「あとに残る」という意味か、または「〜から出発した」という意味か)でも保持し、後者のタイプは「leave」、「leaves」、「left」、「leaving」の異なる変化形ごとに出現回数が積み上げられる。システムは、また最後のいくつかの文で使用された使用統計値とユーザの任意の時間での使用統計値とは区別して保持することができる。さらに、システムは、ユーザが語句の特定の意味を使用するように介入して指示したケースと、システムがユーザの介入を受けずに語句の特定の意味を使用したケースとを区別することができる。
構造調整エキスパート182は、ある文の構成部分の長さに関連する特徴で、英語や多くの他のヨーロッパ言語に共通する特徴に基づいている。いくつかの(全てではないが)構造で、これらの言語では、軽い(短い)要素の左側に重い(長い)要素がくるような文は歓迎されない。例えば、
Mary hit Bill with a broom.(左が軽く、右が重い)(適合)
Mary hit with a broom Bill.(左が重く、右が軽い)(不適合)
Mary hit with a broom a dog that tried to bite her.
(左が重く、右がもっと重い)(適合)
ある文の二つの解析があるとき、一方がそのようなシーケンスを避けようとする構造を含む「左が重く、右が軽い」シーケンスを含み、他の解析がそうでない場合には、前者はその文の意図する解釈を表していないと見なされる。このエキスパートは、意図する解析と意図しない解析を区別するための有効な方法である。
「A of B and C」というパターンの同格構造においては、意図する解釈が「A of {B and C}」であるのか、または「A {of B}and C」であるのかを判断するのが難しい場合がある。同格構造エキスパート180は、どの同格モードが意味のより近い二つの要素を結合することになるかを決定するために、BC間の意味上の距離、およびAC間の意味上の距離を測定する。このエキスパートは処理中に意味特性ツリーにアクセスする。このエキスパートは、ある文の意図する解析と意図しない解析を区別するための効果的な方法でもある。
英語の多くの語句は、普通名詞としての解釈と固有名詞としての解釈とに潜在的な曖昧さを含んでいる。大文字エキスパート176は、大文字表記が意味を持っているかどうかを決定するために、文中での大文字の位置を使用する。例えば、下記の文では、
Brown is my first choice.
My first choice is Brown.
第一の文は本来的に意味が曖昧であるが、第二の文は、「Brown」は色の名称ではなく、人名である可能性がはるかに高い。このエキスパートは、大文字で始まる語句が文頭にあるのか、または文頭でない場所にあるのか(上の例)、辞書でも大文字で表示されている語句が辞書に含まれるのかどうか、小文字で始まる語句が辞書に登録されているのかどうか、などの要因を考慮に入れる。このエキスパートは、文中の大文字で書かれた語句を正しく解釈するのに有効な方法である。
文中に最初が大文字の語句の連続を含んでいるとき、その連続は固有名詞または普通名詞として処理される。本発明のシステムは、大文字表記シーケンス手順を使用しており、前者の解釈を優先する。上記シーケンスが、それ自身通常の文法規則により解析できないときは、そのシーケンスは解析していないひとまとまりの名詞句として翻訳しないで処理される。この手順は、出現レベルの低い普通名詞の解釈を完全には無視しないで、複合の固有名詞を処理する非常に有効な手段であることが証明されている。
図7について説明すると、本発明の機械翻訳システムは、簡単な文法規則に基づく構造変換方法の効率を持っているが、テンプレート間構造変換方法の能力にも近い文法規則制御構造変換機構162を使用する。この方法は、平らでない複合構造を指定することができる文法規則160を使用する。他の翻訳システムで使用されている規則のフォーマットを以下に示す。
本発明のシステムは以下の文法規則のフォーマットを使用する。
Y=>#Z1(i)#Z2(2)X1+X2....+Xi+X(i+1)+....X(n)
この構文で、「#」が前に付いている記号は、文の構造解析の目的では見えない記号であるが、いったん解析が入手できればサブ構造を構築するのに使用される仮想の記号である。
このタイプの文法が与えられたとき、サブ構造のこども関係にあるノードの任意のシーケンスの間で、複数の構造変換を指定することができるようになる。これにより、文法規則に基く構造変換機構はテンプレート間構造変換機構のいくつかの能力を持つ機構に変換される。本発明のシステムは、上記の二番目のタイプの文法規則に基づいているけれども、一番目の形式で対応する文法規則を自動的に作成する。したがって、文を解析するのに、第一の形式の文法規則を使用し、文法解析構造を形成するために第二の形式の文法規則を使用することができる。
構造変換は、また文法規則制御構造変換作業による操作をうけた後で、解析ツリー上で動作するために、辞書161にアクセスする辞書制御構造変換作業166を含む。その後、生成規則構造変換作業が、目的言語テキスト41を供給するために、結果として得られた解析ツリーに、生成規則を適用する。
再び、図1および図2について説明すると、システムが上記プロセスにより、最も望ましいとした翻訳を作った後、その翻訳がディスプレイ20を通してユーザに提供される。その後、ユーザは、その翻訳を採用するか、ユーザ入力装置22を通して別の解析システム37を操作することにより手直しができる。手直し作業中、ユーザは、正確に翻訳された翻訳結果の部分はそのままに保持しながら、その他の部分の再翻訳を要求することができる。この作業は、迅速に行える。というのは、システムはエキスパートの重み31を含むグラフを保持しているからである。
今まで図1−図9を参照しながら、自動自然言語翻訳システムをある程度詳細に説明してきた。以後は、本発明の種々の改良点について、図10と図11を参照しながらそれぞれ説明する。
図10について説明すると、本発明のひとつの観点にしたがって、自動自然言語翻訳システムの翻訳エンジン16の翻訳エンジン10は、ソーステキスト23を受信し、それを目的自然言語テキスト41に自動的に翻訳する。この翻訳は、ソーステキスト23の一部またはすべての「かな」を目的自然言語のアルファベット文字に変換する解析による影響を受ける。これは、入力文の「かな」の途中に、形態素(意味をもつ最小の言語的なまとまり)の区切りの存在を仮定することを可能とすることが目的である。好適な具体例では、ソース言語は日本語であり、目的言語は英語である。通常、表意文字や表音文字を使っており、語句やフレーズの区切りが明確でないようなソース自然言語も、本発明のこの観点により処理し翻訳できる。このように、本発明のこの観点の記述における日本語の参照は制限されたものであると解釈するべきではない。日本語の正字法(書き方の決まり)には漢字とかなの使い方が含まれている。「漢字」は意味をもつ表意文字である。「かな」は記号であり、固有の意味をもたない表音文字である。日本語では、アルファベット文字はローマ字と呼ばれる。
日本語(あるいは、前節で述べたような言語)を英語に翻訳するとき、入力文の「かな」の途中に、形態素の区切りの出現を仮定できることが何故望ましいかということは、以下に述べる図を使った説明で明らかになる。
"She didn't write letters."を意味する日本語は次の通りである。ここで、「漢字」にはかぎかっこ(<>)、「かな」には弓かっこ({})がついている。
文法規則と辞書構成は、(1)の文字列が次の形態素で構成されるということが認識されると、非常に節約される(以下に説明するように)。ここで、形態素の区切りはハイフンで定義され、辞書200の構成は表1で与えられる。
しかしながら、表1で見られるように、形態素の区切りが「かな」の途中に現われることがある。そして「かな」{ka}がアルファベットの(k)と(a)を表していない限り、上記の形態素の確認はむずかしい。
本発明にしたがって、(1)で示した日本語入力列は、翻訳エンジン16でパーサーにより次のように変換される。ここで、アルファベットとして認識される文字は丸かっこで示している。
(3)に見られるように、形態素の境界は初めの子音と母音のあいだで認識される必要があるので、オリジナルの日本語の正記法の「かな」の、{ka}、{na}、{ta}はローマ字の(k)(a)、(n)(a)、(t)(a)にそれぞれ変換される。一方、「かな」の{ha}、{wo}、{TU}は、日本語ではこれらの3つの特別な「かな」のあいだには形態素境界が存在する可能性がないので、「かな」のままで残しておく。
通常、かな−漢字日本語テキスト23をかな−漢字−ローマ字テキスト202に変換することの有用性は機械翻訳に限定されない。これは、形態素の識別を含むいかなる日本語自動処理システムにも拡げることができる。そのようなシステムは、たとえば"to write(書く)"の全ての存在を検索する情報検索システムを含むこともできる。
すでに述べたように、日本語文の、かな−漢字−ローマ字表記は日本語から英語への翻訳を行うシステムが必要とする文法規則と辞書構造の負荷が軽減される。どのように、軽減されるかを以下の例で説明する。表2に「かく」、「けす」、「たつ」、「しぬ」を例にとって、日本語の動詞の活用形の仕組みの一部を示す。
表2には、11個ある活用形のうち4つを示している。また、例えば、連用形(gerund)は、"(he began)writng..."や"(he began)extinguishing..."であり、意志形(cohortative)は、"Let's write..."や"Let's extingush..."である。「かな」はそれ以上は分割できない正字法の要素である日本語の記述法では、表2に掲載した多くの活用形を処理するよく知られた2つの手法がある。
手法1は表3に示すものである。ここで取り上げている動詞については、辞書にはそれぞれ5つの語幹がある。
手法1では、
未然形の接尾字 ={na}
連用形の接尾字 =zero
仮定形の接尾字 ={ba}
可能形の接尾字 =zero
意志形の接尾字 =zero
手法2については、表4と表5に示す。
手法2では、それぞれの動詞に一つだけの語幹を登録すればよい。一方、11個の活用語尾(例えば、K型の集合、S型の集合)が認識されなければならず、文法規則はこれらの集合のどれがどの語幹に接続するのかをひとつひとつ記述する必要がある、日本語の動詞は数百のかたちに活用するから、どの語幹がその接尾字と結び付くかに関する文法規則は非常に複雑なものになる。
表2で説明した複雑な語尾活用を扱うよく知られた3つの手法に対して、本発明による、日本語文の、かな−漢字−ローマ字表記は、活用のパターンを一意的にかつ単純でしかも使いやすい方法で記述でれる。本発明によると、辞書項目は次のようになる。
そして、接尾字は
未然形 (a)(n)(a)
連用形 (i)
終止形 (u)
仮定形 (e)(b)(a)
可能形 (e)
意志形 (o)(u)
上に示したように、本発明では、辞書には動詞ごとに一つだけの語幹が必要であり、接尾字は一種類あれば充分である、以上、本発明と関連して、文法規則と辞書構造の簡素化が述べてきた。
図11について説明すると、本発明の他の観点から、自動自然言語翻訳システム10の翻訳エンジン16はソーステキスト23を受信し自動的にそれを目的自然言語テキスト41に翻訳する。このとき、翻訳はソーステキスト23に対して形態素解析と統語解析を自動的に同時に行うパーサーの影響を受ける。好適な具体例では、ソース言語は日本語で、目的言語は英語である。通常、正字法が語句やフレーズの区切りマークがないいかなるソース自然言語(例えば、日本語、韓国語、中国語)も本発明の他の観点にしたがって処理され翻訳される。語句のあいだに空白なしに綴られる日本語、韓国語、中国語のような言語の文の解析作業は、英文の解析と比較して考えてみることができる。ここでこの対比を行うことは本発明の他の観点に関する理解を深めることに役に立つ。
本発明の他の観点を述べる前に、連続するテキストを解析する標準的な方法を述べておく。問題は、以下のような(a)と(b)があるとき、如何にして(a)から(b)を導き出すかということである。
(a)shedidnotwritethatletter.
(b)she did not write that letter.
(a)を解析して(b)を導き出す標準的な方準は「最長マッチ」というやり方に基づいている。(a)が与えられたとき、先頭が一致している最長の辞書の見出し語を見つけることが目的である。"shed"が辞書にあると仮定すれば、そのストリング("shed")が入力ストリングから取り除かれ、残りのストリングに対して同様の最長マッチが繰り返される。
ここで、辞書には「残りのストリング」と任意の長さで先頭マッチする見出し語が含まれていないとする。ここで、最初の入力ストリングが、"shed"を含んでいると仮定したことが間違いであったということになる。もとの文、"shedidnotwritethatletter."でやり直す。2番目に長いマッチが次に行われ、次のような判定が行われる。
残りのストリングに対して次に最長マッチが行われた結果は以下のようになる。
その次の最長マッチの結果は以下のようになる。
もとの連続した入力ストリング(a)の形態素分析(または分割)は、残りのストリングが空(null)になると終りになり、以下のようになる。
she did not write that letter.
これまで、連続したテキストを分析する標準的な方法の基本を一般論として述べてきたが、次に標準的な方法がどのように文法情報を必要とするかを述べる。次の入力ストリングがあるとする。
shewritesletters.
"she"と"write"が最初の二つの最長マッチストリングと判断されると、次の状況が発生する。(この場合は、"write"は辞書にあるが、"writes"はないと仮定する)
最初の文字"s"は明らかに三人称単数現在形の"s"であり、次の単語の初めの文字ではない。すでに確認された"write"が動詞であり、動詞の辞書の形態として、うしろに"s"を付けることができるということが認識されて初めて、このことは確認できる。この文法情報をもって、サブストリングは以下のようになる。
次に”letter"が最長マッチストリングと判断されて、以下のようになる。
ここで、再び、残りのストリングの"s"は明らかに次の単語の初めの文字ではなく、すでに名詞と判断した"letter"の複数形の"s"である。形態素解析要素に含まれるこの種の文法情報を使って、最終的にこの入力文を次のように分割することができる。
入力ストリングの形態素解析に必要であることを説明したこのような文法情報はストリングの解析にも使われることに注目していただきたい。従って、形態素解析コンポーネントと統語解析コンポーネントについて、同じ規則を二度説明する必要がある。
もう一度図11に戻って、翻訳エンジン16のパーサーが、ソース入力テキスト23に対して、同時に形態素解析と統語解析を行う本発明の二番目の観点と関連させて、次の入力ストリングがあるとする。
shedidnotwritethatletter.
パーサーの仕事は入力ストリング(実際は日本語あるいは同種の言語のストリング)を受け取り、形態素/語句の境界を調べ、解析ツリーを作成することである。解析ツリーは次のようになる。
ここで、NPは名詞句、AUXは助動詞、VPは動詞句、PRNは代名詞、Vは動詞、DETは冠詞、Nは名詞である。
上に述べたように、この仕事の標準の方式は、学習的な形態素/語句の境界認識パスを最初に行い、次に認識された形態素/語句をひとつの単位として統語パスを実行することである、すなわち、既存のシステムでは入力ストリングは、最初に、形態素/語句境界を認識する形態素解析要素を通過する。その結果は以下のようになる。
she did not write that letter.
そして、この分割された文は、次に統語解析コンポーネントへの入力として使われる。この既知の方法における問題は、形態素解析コンポーネントは文法情報に依存せざるを得ないということであり、したがって、形態素解析に使われる規則と統語解析で使われる規則に多くの重複があるということである。さらに、この二つのコンポーネントの整合性を常に保持していくことはそう簡単ではないという面もある。
翻訳エンジン16のパーサーが、ソース入力テキスト23で、形態素解析と統語解析を同時に実行するという本発明の二番目の観点にしたがって、正字法のそれぞれの単位(例えば、"s"、"h"、"e"、など)はそれがあたかも単語であるかのように、すなわち、"s"も単語、"h"も単語、"e"も単語、"d"も単語として扱われる。英単語、"she"に対する辞書204に含まれる見出し語は"s h e"の複合語と考える。入力ストリングの"s h e"は同様に扱われ、辞書見出し語の複合語とマッチする。これは、通常の英文人力テキスト"in front of"が辞書の複合語の見出し語"in front of"とマッチするのと同様の方法である。このように、未分割の人力ストリングを解析する辞書204はすべてのイディオム辞書(英語の"a"に相当する一文字のエントリを除く)である。
未分割の入力文の解析は、文に対する解析の集合が獲得できたときに完了する。それぞれの解析で、マッチした辞書エントリ(すなわち複合語のイディオム)は形態素を表わしている。このように、入力ストリングの形態素解析は文法規則を使ったストリングの解析が終わるのと同時に完了する。
本発明の第二の観点を説明するために、次を考えてみる。日本語は正字法が語句やフレーズの区切りをマークしない言語の典型的な例であり、次の例に取り上げている。オリジナル入力ストリングは次の通りである。
前述したように、これは英語で考えれば、"shedidnotwritethatletter"と同じことである。標準的な2段階方式(上述した)は最初にこのストリングの形態素解析を行う。その結果、次の形態素のシーケンスが得られる。
すでに述べたように、本発明にしたがって、ストリングが次の形態素を含むことがわかれば、文法規則と辞書構造は、非常に経済的になる。
表6に見られるように、形態素の境界は「かな」の真ん中にもありえるし、「かな」{ka}がアルファベットで(k)(a)と表現されない限り、形態素の上記の確認はできない。日本語入力ストリングは翻訳エンジン16のパーサーにより、次のように変換される。ここで、アルファベットと認識される文字は丸かっこで表わされている。
このように、オリジナル日本語正字法に含まれる「かな」の{ka}、{na}、{ta}は、形態素の境界が初めの子音と母音の間に認識されなければならないことから、ローマ字の(k)(a)、(n)(a)と(t)(a)にそれぞれ変換される。一方、「かな」の{ha}、{wo}、{TU}については、これら3つの特殊な「かな」の間には形態素の境界が出現する可能性がないことから、かなのままで保持される。
本発明による次の文法規則206があるとする。
規則1 S=NP.ha+VPtensed
規則2 NP.ha=NP+Particle.ha
規則3 NP=Pronoun
規則4 NP=Noun
規則5 NP.wo=NP+Accusative
規則6 VP=NP.wo+Vt.k.Stem
規則7 VPtensed=VP+NEG.Adj.Past+Past
規則8 NEG.Adj.Past=(a)(n)(a)(k)
本発明では、次の入力ストリング
が、翻訳エンジン16のパーサーの入力として使われる、表6で説明されている辞書は本発明による「複合語」イディオムである。そのあとパーサーは以下の解析ツリー208を作る。
本発明にしたがうと、このような形態素解析は入力ストリングの統語解析の完了と同時に完了する。すなわち、単一の統語分類で支配されている解析ツリーの一番下の文字のシーケンスが形態素を構成している。
上記のすべての機能と処理は、汎用コンピュータに組み込まれた種々のハード配線論理設計および/またはプログラミング技術により実装することができる。フローチャートに示したステップは、通常、順序どおりに適用する必要はなく、いくつかのステップを組み合わせることができる。また、このシステムの機能は、種々の形でプログラムとデータに振り分けることができる。さらに、文法や他の操作規則を、コンパイルしたフォーマットでユーザに提供する一方で、一つまたは複数のハイレベル言語で開発しておけば有利である。
本明細書に開示したすべての機能を含めて、上記の自動自然言語翻訳システムの具体例のいずれも、汎用コンピュータ(例えば、アップル・マッキントッシュ、IBMPCと互換機、SUNワークステーション等)で実行できるディスクや光学的コンパクト・ディスク(CD)のようなコンピュータが読み取れる媒体のコンピュータ・ソフトウェアとして提供することができる。
通常の当業者であれば、請求の範囲に記載した本発明の精神および意図から逸脱することなく、本明細書に記載した発明を様々に改変したり、修正したり別に実装することができるだろう。従って、本発明は上記の例示としての説明によってではなく、下記の請求の範囲の精神と意図によって定義される。Cross-reference to related applications
This application is a continuation-in-part of US patent application Ser. No. 07 / 938,413 filed with the US Patent and Trademark Office on August 31, 1992. This application is also a continuation-in-part of International Patent Application No. PCT / US96 / 05567 filed with the United States Receiving Office through the Patent Cooperation Treaty (PCT) on April 23, 1996, with the subject countries being the United States and Japan. is there. PCT / US96 / 05567 itself is a continuation-in-part of US Patent Application No. 07 / 938,413.
Technical field
The present invention relates to automatic natural language translation for translating from one natural language to another, preferably from Japanese to English.
Background information
Various methods have been proposed for natural language machine translation. Typically, a system used for translation includes a computer that receives input in one language, processes the received input, and outputs in another language. This type of translation has traditionally been inaccurate and requires a skilled operator to significantly modify the output. Translation work by a conventional system generally includes a structure conversion operation. The purpose of this structure conversion is to convert the parse tree (ie, the syntax structure tree) of the source language sentence into a tree corresponding to the target language. To date, two types of structural transformation schemes have been attempted. That is, conversion based on grammar and conversion between templates.
In the case of grammar-based transformations, the structure transformation domain is limited to the domain of grammar rules used to obtain the source language parse tree (ie, the set of subnodes that are direct children of a given node). Is done. For example, when there is
VP = VT01 + NP (in the verb phrase, the other verb with one object and the noun phrase are arranged in this order.)
And for Japanese, 1 + 2 => 2 + 1 (the order of VT01 and NP is reversed)
The source language parse tree, including the application of rules, is structurally transformed so that the order of verbs and objects is reversed. This is because in Japanese the verb comes after the object. This method is very efficient in that it can be applied exactly where the rules were used to obtain the parse tree of the source language, and the location where a particular transformation was made can be found immediately. On the other hand, as described above, the conversion mechanism is that the area is greatly limited, and that natural languages may require conversion rules that span nodes that are not children. Is weak.
In the conversion between templates, the structural conversion is specified in the form of an input / output (I / O) template or a subtree. When a certain input template matches a certain structure tree, the structure tree portion that matches the template is converted as specified by the corresponding output template. This is a very powerful transformation mechanism, but it can take a considerable amount of time to find out which part of a given input template matches an existing structure tree, which can increase processing costs.
Summary of the Invention
The automatic natural language translation system of the present invention has many advantages compared to conventional machine translation devices. After the system automatically provides the most appropriate possible translation of the input text information and provides the user with its output (preferably a Japanese translation of the English input text), the user You can interact with this system to get results or to get other translations automatically. The person who operates the automatic natural language translation system of the present invention can automatically re-translate the remaining part while retaining the part of the translation result judged to be sufficient. By doing this selective retranslation, only those parts that need to be retranslated will be translated, saving the operator time and potentially potentially inaccurate parts If so, you can easily do the tedious work of examining the very high quality part of translation. In addition, since this system allows various translation adjustments, many of the final translation structures are usually created by the system. Therefore, by using this system, potential mistakes by humans (operators) can be reduced, and the time required for reworking sentence structures, changing personality and tense match, etc. can be saved. The system can provide operators with extensive and accurate knowledge of grammar and spelling.
The automatic natural language translation system of the present invention makes the translated sentence more accurate by various ambiguity processing of sentence breaks included in the source language and a powerful semantic transmission function, and is required for reworking the translation of the operator It takes less time. The quality of translation is further improved by learning statistics that the system stores according to the preferences of a particular user. The idiom processing method of the present system has an advantage that when there is a sentence including words constituting the idiom, it can be accurately translated without considering the meaning of the idiom itself. This system is not only efficient, but also has various functions to match the less relevant characteristics. The structural balance expert and equivalent structural expert of this system efficiently distinguish between intended analysis and unintended analysis. The uppercase expert efficiently interprets uppercase words in a sentence efficiently, and the uppercase procedure efficiently handles proper nouns of compound words without completely ignoring the interpretation as common nouns.
Viewed from a certain point of view, the present invention relates to an improvement of an automatic natural language translation system, in which case the improvement aims at at least some “kana” included in input text information as a target natural language (preferably This is related to the analysis of input text information in a source natural language (preferably Japanese) so that the boundaries of words and phrases are recognized between “kana” by converting them into English characters. The input text information includes “kanji” and “kana”. “Kanji” is an ideographic character having a meaning, and “Kana” is a phonogram representing a mere sound having no inherent meaning. The source natural language is a language that uses both ideograms and phonograms, but no word or phrase breaks are added, as seen in Japanese.
Viewed from another perspective, the present invention relates to another improvement of an automatic natural language translation system. The improvement relates to analyzing input text information included in a source natural language (preferably Japanese, Korean, Chinese) by simultaneously performing morphological analysis and syntactic analysis on the input text information. The source natural language is a language in which no delimiters are written in words or phrases, such as Japanese, Korean, and Chinese.
These and other objects, features, features and advantages of the present invention will become apparent upon reading the following description and claims.
[Brief description of the drawings]
In the figures, like reference numerals generally indicate identical parts throughout the different views. Also, the drawings are not necessarily to scale, emphasizing generally the principles of the invention.
FIG. 1 is a block diagram of a system for automatic natural language translation.
FIG. 2 is a data flow chart showing the overall functionality of the system of FIG.
FIG. 3 is a flowchart showing the operation of the system of FIG.
FIG. 4 is a flowchart showing the operation of the sentence end recognition function of the preparser in the system of FIG.
FIG. 5 is a flowchart showing the operation of the parser of the system of FIG.
FIG. 6 is a flowchart showing the semantic transmission operation of the system of FIG.
FIG. 7 is a flowchart showing the structure conversion operation of the system of FIG.
FIG. 8 is a flowchart of the expert evaluator of the system of FIG.
FIG. 9 is a sample graph used by the system of FIG. 1 for the exemplary phrase “by the bank”.
FIG. 10 is a diagram of a system for converting an input text “kana” into alphabetic characters so that the presence of a phrase or phrase boundary is recognized between “kana” according to one aspect of the present invention.
FIG. 11 is a diagram of a system for simultaneously performing morphological analysis and syntactic analysis on input text according to another aspect of the present invention.
Description of the invention
First, the outline of the automatic natural language translation system of the present invention will be described without referring to the drawings. After this outline description, it demonstrates with reference to drawings.
The automatic natural language translation system can translate the source natural language into the target natural language. As one preferred embodiment, the system translates English into Japanese. As another preferred embodiment, the system translates Japanese into English. The system includes means for receiving and storing the source natural language; a translation engine for creating a translation into the target natural language; means for displaying the translation result to the user; providing another translation result to the user And means for displaying. As specific examples of this system, the translation engine includes a preparser, a parser, a graph creation device, an evaluator, a graph scorer, a grammar structure extraction device, and a structure conversion device. The preparser inspects the input text and analyzes the ambiguous part of the end sentence recognition of the input sentence. The preparser then creates and displays the input text on an analysis chart that includes the dictionary headwords. The parser analyzes the chart to obtain a possible syntax classification for the input text. The graph generator creates a graph of possible syntax interpretations of the input text based on the analysis chart. This graph includes nodes and sub-nodes that are relevant to possible interpretations of the input text. An evaluator containing a series of experts evaluates a graph that can be interpreted and adds expert weights to the nodes and subnodes of the graph. The graph scorer uses expert weights to evaluate the sub-nodes and then associates the N top scores with each node. The grammatical structure extraction device assigns the parse tree structure to the preferred interpretation determined by the graph scorer. The structure conversion apparatus performs structure conversion on the analysis tree structure in order to obtain translation in the target language.
In the following three paragraphs, (a) how the graph scorer combines expert weights to calculate the final weight score for each sub-node; (b) the graph to reach the final node score Describe how the scorer combines subnode scores; (c) how language information conveys a tree of nodes and subnodes.
To calculate the final weighted score for each subnode, the graph scorer associates a constant value with each subnode. Analysis of the linguistic information associated with each subnode determines the subnode score. For example, see FIG. 8 where a series of expert evaluators examines language information stored at each node and subnode. The graph scorer calculates the sum of the individual weighted scores for each expert to obtain the final weighted average for a particular node or subnode. Combining multiple weighted scores into one weighted average score is a standard problem in computer science. One method that can be used is to multiply the results of each expert by a constant (weight) assigned to that expert. The weight assigned to each expert is a problem that is determined at the time of design. The designer determines the priority (weight) assigned to each expert. A weighted average is the sum of a series of numbers by multiplying each number by a constant. For example, the following equation is obtained.
Weighted average = (w1) (X1) + (W2) (X2) +. . . + (Wn) (Xn)
However, weight w1, W2,. . . , WnAre non-negative numbers and the sum is 1. See, for example, "Probability and Statistics Theory and
In order to tie the subnode score to obtain the final node score, the graph scorer can communicate the subnode score from the bottom part of the graph to the top part. In the case of a graph in which each node has a set of N scores, one or a plurality of transmission methods can be determined. One technique that can be used to communicate subnode scores is a storage method that is a kind of dynamic programming used to solve optimization problems. The solution to the optimization problem can include many possible values (results). The purpose is to find the optimal value. The algorithm used for optimization solves each sub-subproblem only once and stores the result, eliminating the need to recalculate the answer each time a sub-subproblem is encountered. For a more detailed explanation that applies to optimization problems, see, for example, pages 301-314 of Komen et al., “Invitation to Algorithms” (McGraw Hill, 1990). Pages 301, 302 and 312 of this “Invitation to Algorithm” describe one method that can be used to communicate subnode score information within the graph.
When linguistic information is communicated in the tree, the part that conveys the meaning of the system operates to convey the semantic information from smaller internal components to larger components. Meaning transfer applies to the four classes of syntactic classification (SEMNP, SEMVP, SEMADJ and VERB) used in parsing operations. Before semantic transmission takes place, the linguistic information stored in the node must be analyzed. Analysis of semantic information stored in the node applies which selective restriction slot of the verb-like element of the grammar rule to any noun-like object by checking the noun-like and verb-like elements of the grammar rule It is guided by a set of rules that guess. Gerard Gazda, in his book Prologue Natural Language Processing (1989, Addison Wesley Publisher), stored in a non-ring-shaped graph node with a direction similar to the graph disclosed herein. It describes a set of rules that can be used to analyze the semantic information that is being used. Gazda describes the use of characteristic matching to match information about neighboring nodes. Gazda states that the characteristic matching includes the following equations.
“Some properties appearing on one node must be the same as those appearing on another node. Recent research has also shown that parental classifications and the morphemes associated with those properties. We assume the principle of equalizing the details of a class that appears in this child, which is called the “head” of the phrase. Most phrases have only one head. Thus, for example, a verb phrase inherits the tense of that verb. This is because the verb is the “head” of the verb phrase. Using the notation resources we have used so far, there is no easy way to specify this principle that can be applied to the entire grammar. However, if we assume that all relevant properties can be found on one branch of the DAG, we can very simply describe the effect of this principle for each rule. So we can write a normal VP rule as follows:
VP-> V NP PP
<V head> = <VP head>
In this case, the “head” characteristic value of V and the “head” characteristic value on the parent VP must be the same. "
The rules discussed in Gazda can be easily applied to each class of syntax disclosed herein. The linguistic information assigned to each node using the Gazda rule can be transmitted through the tree by the storage method technique.
Here, to summarize the contents of the above three paragraphs, the weighted average is one method for determining the subnode score, and each subnode score uses a well-known storage method technique applied to the optimization problem. The method described in the book of Gazda can be used to analyze the linguistic information stored in each node, and this linguistic information is stored in the storage method technology. Can be used to communicate within the grammar structure analysis chart.
The automatic natural language translation system can automatically perform retranslation after the first automatic translation. That is, after the system automatically provides the most appropriate possible translation of input text information and provides the user with output (preferably Japanese translation of the input English text or Japanese to English translation) The user can interact with the system to revisit the displayed translation or to automatically obtain another translation.
Automatic natural language translation systems use a language model that breaks a sentence into substrings. A substring is one or more phrases that appear in the order specified as part of the sentence. For example, the substring “The man is happy” includes “The”, “The man”, “man is happy.”, “Is” and “The man is happy” itself, but “is man” , "Man man" and "The is" are not included.
Different language models define substrings in different ways and with different levels of detail. For example, in the sentence “They would like an arrow”, “an arrow” is usually classified as a noun phrase (NP). Another model classifies “an arrow” by syntactic characteristics (eg, a single noun phrase) and narrative characteristics (weapons). If the meaning of this phrase is ambiguous, there are several ways to classify it. For example, “an arrow” may mean an arrow-shaped symbol. When language models provide a way to resolve ambiguities, they typically resolve ambiguities by combining smaller units into larger units. When evaluating larger units, these models consider only the information contained in the larger units.
As a specific example of this system, the semantic properties of “an arrow” (symbol or weapon) are used in evaluating the verb phrase “like an arrow” in the sentence “They would like an arrow”. The On the other hand, if the phrase “an arrow” is in the sentence “He shot it with an arrow”, the semantic characteristic of “an arrow” is the verb phrase “shot it with an arrow”. Not used when evaluating.
There is an exported attribute for any substring of a sentence that interprets a particular language model (interpreted substring) in one way. The exported attributes are all the attributes used to evaluate the combination of the interpreted substring and other units that form a larger substring. An export is an interpreted substring that is interpreted along with the exported properties. Attributes that are included in the interpreted substring but not exported are called substructures.
The system parser includes a grammar database. The parser uses grammar rules to find all possible interpretations of the sentence. The grammar database is X = A1A2. . . Consists of a series of context-free phrase structure rules in the form of An. X is A1A2. . . , An, or formed from a higher level node (subnode) A1 to a lower level node (subnode) An.
The system's graphing device graphically represents many possible interpretations of a sentence. Each node in the graph corresponds to an export of a substring. As an example of the system, one export is represented by one node. The graph includes arcs emanating from nodes associated with one export. Arcs represent export substructures based on the application of grammatical rules. The graph contains two at least two types of arcs: (1) a single arc pointing to one different export of the same substring, and (2) a set of pointers pointing to two exports. When connected, the arcs are substrings of the original export. Note that the formula in (2) assumes Chomsky's normal form grammar. The modified claim 35 applies to the grammar reflecting an arc with N double pointers pointing to N exports, instead of Chomski's normal form grammar, by rephrasing type (2).
The graph contains one starting export point S from which all parts of the graph can be reached by following a series of arcs. The departure export corresponds to the entire sentence.
Multiple arcs start from one node only if the same export can be formed from multiple exports. (A set of pointers in an arc consisting of two arcs is not considered a plurality of arcs in this sense.) Only if the export is an element of a plurality of exports, It will point to one node. A node without an arc corresponds to a dictionary entry word assigned to the substring.
Multiple language experts assign a numerical score to the set of exports. The language expert applies the score to each node of the graph. As a specific example of the system, the score matrix (where each element of the matrix is a weight for multiplying a particular expert's score) is a fixed length “N” of floating point numbers for any sentence.
The score is evaluated by a scoring module that is incorporated into the graphing engine and / or the parser. A score is calculated for all exports forming a higher export. The score for the higher export is calculated as the sum of the scores of any expert applied to the combination of the exports forming the higher level export and the score assigned by the structural adjustment expert.
The order in which the nodes arrive and the scores are examined is the standard depth first graph movement algorithm. In this algorithm, scored nodes are marked and not scored again. During the process of being scored, the scoring module evaluates dictionary headword nodes before evaluating any higher unit arbitrary nodes. Each dictionary entry has a score.
If there are multiple ways to perform one export, multiple scores will result. That is, if there are k ways to export, there are k possible scores. Multiple scores are processed as follows.
(1) In a single-element rule, each of the lower export k scores is added to the expert number applied to the single-element rule, and the resulting k The score vector is related to the parent's export.
(2) In the rule consisting of two elements, the left child is considered to have a g score and the right child has an h score. After that, the numerical value obtained by multiplying the g score by the h score is calculated by adding each score of the right child to each score of the left child, and further adding the numerical value of the expert applied to the rule consisting of two elements. Is done. If the g score multiplied by the h score exceeds N, only the highest N score is kept with the parent node.
(3) If an export can be created in multiple ways, at most N scores are added to the score list for that node and only the highest score is retained.
When the score calculation is complete, the above method is the g most likely method to export, with each export including its node and attributes of all substructures not shown in the export Confirm that it is associated with a set of g scores (g in the range from 1 to N) representing (for the language model). In special cases, such as the root node S, this score calculation method gives the g most probable ways of forming the whole sentence.
Each score in the above score list has an associated pointer. The pointer provides information indicating which scores in the lower export score list have been combined to create a higher level score. By tracking each pointer, the g most likely interpretations of the sentence can be extracted as an unambiguous parse tree.
The automatic natural language translation system will be described in more detail with reference to FIGS. Thereafter, various improvements of the present invention will be described with reference to FIGS.
1 and 2, the automatic natural
As an operation of a specific example of the translation system of the present invention, as shown in FIGS. 1, 2 and 3, the
Referring to FIG. 4, the system of the present invention performs a preliminary structural analysis by dividing the input word string into tokens (step 114) that contain individual punctuation marks and character groups that form the word. The appearance of spaces affects the interpretation of characters at this level. For example, “-” in “xy” is a dash, but “-” in “xy” is a hyphen.
The preparser then combines the above tokens into phrases (step 116). At this level, the preparser recognizes special structures (such as Internet addresses, telephone numbers, and social security numbers) as a unit. The preparser also performs a dictionary lookup to separate groups. For example, when “re-enact” is listed as “reenact” in the dictionary, it is one word, but when it is not listed, it is three separate words.
In the next preliminary structure analysis stage, sentence end recognition of where the sentence ends is performed (step 118). During this process, the preparser performs a series of steps to determine the possible end of each sentence (ie after each word of the source text), the basic dictionary, the technical term dictionary and the onboard user. Access the created dictionary. The preparser does not need to perform this step if a specific order is specified, and these steps can be executed as a rule with a sequence of orders, or they can be embedded in hardware and coded. .
Referring to FIG. 5, when there is a sequence of symbols that cannot be analyzed, such as a series of dashes “----”, the preparser interprets and records as one “sentence” as a whole without translating each one ( Step 120). The preparser requests two carriage returns as the end of the sentence (step 122). If the first letter of the next phrase is a lowercase letter, the preparser does not consider the end of a sentence (step 124). If a sentence begins with a newline and is short (eg, a title), the preparser considers it a single sentence.
The preparser considers a period (.), Question mark (?), Or exclamation mark (!) As the end of a sentence (step 128) unless it contains a closing parenthesis and a closing quote. In the case of a sentence ending with “.”, “?”, Etc., the preparser uses a virtual punctuation mark after the quotation mark in addition to the punctuation mark before the quotation mark. The following example shows a method for punctuation that is virtually added to “?”.
The question was “What do you want?”
Did he ask the question “What do you want?”?
Are you concerned about “the other people”?
In English, each sentence above is likely to end with "?". The virtual punctuation added by the preparser indicates whether there is something like a question mark before the quotes or nothing at all. There is something like a period or a question mark after the quotes. The remaining grammatical structure of this sentence allows the most appropriate choice to be made at a later processing stage.
The preparser also uses several methods in the analysis of the terminator (
Referring again to FIG. 2 and FIG. 3, once a sentence break is specified by the preparser, the parser puts the phrase of the sentence into a syntactical classification, and calculates those possible syntactic interpretations 25 of those sentences. The grammar rules of the grammar database are applied to the words (step 104). Grammar rules 48 can be implemented as a series of rules that allow computer processing to represent the grammatical restrictions of the language. In English, there are hundreds of such rules, and these rules apply to hundreds of syntactic classifications. To reduce the extra time required to calculate this task, the different possible meanings of a single phrase are ignored and processed.
In the next step (step 106), the graph generator uses the dictionary to capture the different meanings of the phrase and create a non-ring graph with directions that represent all the semantic interpretations of the sentence. Extend the result. This graph is created with the help of a series of semantic transmission procedures described later. These procedures are performed based on a series of created grammar rules, and in some cases access semantic property trees for semantic information. The semantic property tree is a tree structure including semantic classification. The tree is roughly organized from abstract to concrete, and the two terms are meaningful, both from how far away they are in the tree and what each level is in the tree. You can determine how they are related. For example, “cat” and “dog” are more relevant than “cat” and “pudding”. Accordingly, “cat” and “dog” are examples in which the distance in the tree of “animal” is short, and “animal” and “cat” are stored at different levels of the tree. This is because “animal” is a more abstract word than “cat”.
Referring to FIG. 9, the graph of this figure includes a
The part that conveys the meaning of the system serves to convey semantic information from the smaller component containing them to the larger component. Semantic information is applied to the four classes of syntax classification used in the initial parsing work. The four classes are SEMNP (including noun-type objects and prepositional phrases), SEMVP (usually the subject, verb-like verb phrases), SEMADJ (adjectives), and VERB (often takes objects) Dictionary verb-type verb). Other syntax classifications are ignored by certain rules. Grammar rule setters can override actions that do not appear on the surface by placing specific marks on the rules. These special orders come first.
There are two aspects to the way semantic properties are transmitted in the system. The first aspect is that by examining the noun and verb components of the grammar rules, it knows which optional restriction slots of the verb component apply to the noun object. A set of possible rules. For example, the rule for the verb phrase of the sentence “I persuaded him to go” is roughly VP = VT11 + NP + VP (where VP is a verb phrase, VT11 is a transitive verb classification, and NP is a noun phrase). An exemplary default rule is that if a verb takes an object, a selection restriction must be applied to the first NP to the right of the verb. Another rule stipulates that the VP restriction for that subject must apply to the first NP on the left side of the VP. When these rules are combined, evaluation is made so that both “persuade him” and “him go” are well understood. As already explained, these rules reflect the complex rules of English, and so the number is very limited.
Referring to FIG. 6, the semantic transmission operation includes the operation of copying the selection restriction from the SEMVP to the command (step 140). If SEMNP is used as a representation of a position, its validity is evaluated against a semantic constant that specifies a good position (step 142). If a rule contains a combination of two SEMNPs (detected by ANDing syntactic features), the graph generator will AND the semantic properties into a semantic distance expert. Apply (step 144).
In examining the rules specified for the transmission of semantic properties, the graphing device communicates to a higher level (eg, it becomes part of a SEMNP containing more words) If the position of the “head” is found, the graph creating apparatus also transmits the semantic characteristics (step 146). However, if the “head” is a word for classification (eg, “portion”, “part”), the “head” is transmitted from the SEMNP to the left or right. SEMVP and SEMADJ are also transmitted in the same way, except that they do not have a location for partitioning (step 148). Adjectives are part of SEMVP in this sense.
If the SEMVP is created from a rule containing VERB, the graphing device will propagate the VERB subject restriction in the upward direction unless the VP is passive. In the case of passive, the first object limit of VERB is communicated (step 150). For rules involving SEMVP, the graphing device attempts to apply the SEMVP selection restriction to the NP encountered when moving left from SEMVP (step 152). For rules that include SEMADJ, the graphing device will try to apply the SEMADJ selection limit to any SEMNP that it encounters when it first moves from SEMADJ to the right, and if that does not work, the left direction (Step 154).
For any remaining unused object selection restrictions in VERB (which has not been communicated so far in the upward direction to be passive), the graphing device will add the above to the SEMNP encountered on the right side of VERB. The restrictions are applied in order (step 156). With all these rules, the verb selection limit is exhausted as soon as it applies to something. For all previous rules, SEMNPs are not exhausted if something is applied to them. Starting with this rule, SEMNP is exhausted. Eventually, if a rule creates a SEMVP, the graphing device will determine if it contains an SEMVP or SEMADJ that has not been used before, and if so, Transmit in the direction (step 158).
The system also performs language feature matching. Linguistic characteristics are the characteristics of phrases and other components, syntactic characteristic matching is used by the parser, and semantic characteristic matching is used by the graph generator. However, the same scheme is used for both. For example, “they” has a syntax property of plural, while “he” has a syntax property of singular. Characteristic matching marks grammatical rules so that phrase features are applied only if the phrase features to which they apply meet certain conditions. For example, assume the following rules.
S = NP {@} + VP {@}
Here, the symbol @ means that the characteristics of the numbers of NP and VP must match. Therefore, this rule assumes that “they are” and “he is” are correct, but does not allow “they is” and “he are”.
Property match restrictions are divided into "local" and "broad". A wide range of actions are calculated when the grammar is created, not when the sentence is actually processed. The wide sequence of operations that must be performed is then encoded as instruction bytes.
The calculation of the “wide range” characteristic behavior must start with a rule consisting of n elements (ie, having two or more elements to the right of it). The system then assigns a code to the various two-element rules so that the property set ends in a correct manner between the rules. By dividing an n-element rule into two-element rules, the analysis task is greatly simplified. However, since the system tracks a set of properties across a two-element rule, the system retains the power of “broad” processing.
In the system of the present invention, the dictionary also handles individual words constituting the dictionary, but also includes “idioms” composed of a plurality of words. These two forms will eventually compete with each other to produce the most appropriate translation. For example, in the dictionary, the meaning of “black sheep” is registered as “remaining person”. However, in some cases, the phrase “black sheep” may mean “black sheep”. Because both of these forms are retained, this non-idiom translation is also selected as the correct translation.
This idiom also belongs to another category. For example, the system can use three types of classifications:
Almighty: United States of America
Priority: long ago
Normal: black sheep
Almighty idioms take precedence over possible interpretations of any words that make up the sequence. Preferential idioms take precedence over any possible interpretation when the phrases that make up the sequence use the same general usage. Ordinary idioms compete with other headwords at the same level.
The resulting graph is evaluated by an expert (
In a single run, the most appropriate N analyzes of the sentence are obtained each time (N is some number on the order of 20), but by using the graph, the system is made up of smaller components. The results of the user's selection for can be incorporated, and the N most appropriate analyzes that respect the user's selection are performed. All of these analyzes can be done quickly, since the sentence is not analyzed again or any substring is not scored again.
Referring to FIG. 8, the operation of the
The system automatically determines an English “part of speech” (POS) for individual English words, phrases, and word groups. When the system translates a sentence, it automatically determines the part of speech and usually makes the right decision. However, sometimes the translated sentence itself is ambiguous. When words that can be interpreted as different parts of speech are included, multiple different and all “correct” interpretations are obtained. The system operator can ignore the part of speech automatically determined by the system and instead manually set any part of speech for a word, phrase or word group. For example, in the English sentence `` John saw a boy with a telescope '', the operator of the system regards `` a body with a telescope '' as a noun phrase, meaning that the sentence `` the boy had a telescope '' Interpret, not John John used a telescope to see the boy. If the operator overrides the part-of-speech rule determined by the system by setting multiple possible part-of-speech settings or manually setting more restrictive part-of-speech settings, the translation results will deteriorate or at least not improve May happen. Noun phrases are less restrictive than nouns, and groups are part-of-speech settings with the least restrictions. The table below shows the various possible part-of-speech settings.
Part of speech (POS)
noun
Noun phrase
Verbs (transitive verbs, intransitive verbs)
Verb phrase
adjective
Adjective phrase
adverb
Adverbial phrase
preposition
Prepositional phrase
conjunction
group
English
Part-of-speech settings for "adjective phrases" and "adverbial phrases" are useful when the meaning of an English sentence varies depending on how the system interprets a particular prepositional phrase. For example, the sentence “We need a book on the fourth of July” would be interpreted as “on the fourth of July” with the meaning of an adjective. "I want a book about the day", but when I interpret "on the fourth of July" as an adverb phrase, it means "I want a book on the 4th of July." If the operator thinks that the system has automatically assigned an incorrect part of speech to `` on the fourth of July, '' the operator will read `` on the fourth of July '' in the sentence `` We need a book on the fourth of July. '' Can be manually set to another part of speech. If the operator does not want the system to translate a particular word, phrase or word group from English to Japanese, the part of speech “English” can be set for such word, phrase or word group. The operator can remove one or more part-of-speech settings whether the setting is done automatically by the system or manually by the operator.
The system tracks translation usage statistics at multiple levels for each user. For example, the system maintains statistics at the level of the surface form of the phrase (`` leaving '') as a transitive verb or as an intransitive verb) and also has a semantic level (meaning `` remaining after '' or `` The latter type is accumulated for each different variation of “leave”, “leaves”, “left”, and “leaving”. The system can also keep the usage statistics used in the last few sentences distinct from the usage statistics at any time of the user. In addition, the system can distinguish between cases where the user has intervened and instructed to use a specific meaning of a phrase, and cases where the system used a specific meaning of the phrase without user intervention. .
The
Mary hit Bill with a broom.
Mary hit with a broom Bill. (Heavy on the left, light on the right) (nonconforming)
Mary hit with a broom a dog that tried to bite her.
(Left is heavier, right is heavier)
When there are two parsings of a sentence, one contains a "left heavy and right light" sequence that contains a structure that tries to avoid such a sequence, and if the other parsing is not, the former It is considered not to represent the intended interpretation of the sentence. This expert is an effective way to distinguish between intended and unintended analysis.
In the synonymous structure of the pattern “A of B and C”, it is determined whether the intended interpretation is “A of {B and C}” or “A {of B} and C”. It can be difficult. The
Many English phrases contain potential ambiguities in their interpretation as common nouns and proper nouns. The
Brown is my first choice.
My first choice is Brown.
The first sentence is inherently ambiguous in meaning, but in the second sentence, “Brown” is much more likely to be a person's name than a color name. This expert will tell you whether a word that begins with a capital letter is at the beginning of the sentence or is not at the beginning of the sentence (above example), whether the dictionary contains a word that also appears in capital letters in the dictionary, Take into account factors such as whether or not you are registered for. This expert is an effective way to correctly interpret capitalized phrases in sentences.
When a sentence contains a series of words that are initially capitalized, the series is treated as a proper or common noun. The system of the present invention uses a capital letter sequence procedure and prefers the former interpretation. If the sequence itself cannot be parsed by normal grammar rules, the sequence is processed without translation as a group of unparsed noun phrases. This procedure has proven to be a very effective means of handling complex proper nouns without completely ignoring the interpretation of common nouns with low appearance levels.
Referring to FIG. 7, the machine translation system of the present invention uses the grammar rule control
The system of the present invention uses the following grammar rule format:
Y => # Z1 (i) # Z2 (2) X1 + X2 .... + Xi + X (i + 1) + .... X (n)
In this syntax, symbols preceded by "#" are symbols that are invisible for the purpose of sentence structure analysis, but are virtual symbols used to build substructures once the analysis is available .
Given this type of grammar, it is possible to specify multiple structural transformations between any sequence of nodes that are related to children of substructures. As a result, the structure conversion mechanism based on the grammar rules is converted into a mechanism having several capabilities of the inter-template structure conversion mechanism. Although the system of the present invention is based on the second type of grammar rules described above, it automatically creates corresponding grammar rules in the first form. Thus, the first form of grammar rules can be used to parse a sentence, and the second form of grammar rules can be used to form a grammar analysis structure.
The structure conversion also includes a dictionary control
Referring again to FIGS. 1 and 2, after the system has created the most desirable translation according to the above process, the translation is provided to the user through the display 20. Thereafter, the user can modify it by adopting the translation or by operating another analysis system 37 through the
So far, the automatic natural language translation system has been described in some detail with reference to FIGS. Hereinafter, various improvements of the present invention will be described with reference to FIGS.
Referring to FIG. 10, according to one aspect of the present invention, the
The reason why it is desirable to be able to assume the appearance of a morpheme break in the middle of the input sentence “Kana” when translating Japanese (or the language as described in the previous section) into English is as follows. It becomes clear by explanation using.
The Japanese meaning "She didn't write letters" is as follows. Here, “Kanji” has angle brackets (<>) and “Kana” has bow brackets ({}).
Grammar rules and dictionary construction can be greatly saved (as explained below) once it is recognized that the string in (1) is composed of the following morphemes. Here, the morpheme breaks are defined by hyphens, and the structure of the
However, as seen in Table 1, morpheme breaks may appear in the middle of “Kana”. And unless “kana” {ka} represents the alphabets (k) and (a), the confirmation of the above morphemes is difficult.
In accordance with the present invention, the Japanese input sequence shown in (1) is converted by the parser in the
As seen in (3), the morpheme boundaries need to be recognized between the first consonant and the vowel, so the {ka}, {na}, {ta} is converted to Roman letters (k) (a), (n) (a), and (t) (a), respectively. On the other hand, {ha}, {wo}, and {TU} of “Kana” are “Kana” because there is no possibility that a morphological boundary exists between these three special “Kana” in Japanese. Leave it alone.
Usually, the usefulness of converting Kana-Kanji
As already mentioned, Kana-Kanji-Romaji notation of Japanese sentences reduces the load of grammar rules and dictionary structure required by a system that translates from Japanese to English. The following example illustrates how this can be mitigated. Table 2 shows a part of the mechanism for using Japanese verbs by taking "Kaku", "Kesu", "Tatsu", and "Shinu" as examples.
Table 2 shows four of the eleven usage types. Also, for example, the continuous form (gerund) is "(he began) writng ..." or "(he began) extinguishing ...", and the cohortative is "Let's write ..." or " Let's extingush ... " “Kana” is a Japanese description method that is an element of the orthographic method that cannot be divided any more, and there are two well-known methods for processing many usage forms listed in Table 2.
Method 1 is shown in Table 3. For the verbs covered here, each dictionary has five stems.
In Method 1,
Unfixed suffix = {na}
Consecutive suffix = zero
Assumed suffix = {ba}
Possible suffix = zero
Will-shaped suffix = zero
In
In contrast to the three well-known techniques for handling complex endings described in Table 2, the Kana-Kanji-Romaji notation of Japanese sentences according to the present invention uses the patterns of utilization uniquely and simply. Can be described in an easy way. According to the present invention, the dictionary items are as follows:
And the suffix is
Green (a) (n) (a)
Continuous use (i)
Closed form (u)
Assumed form (e) (b) (a)
Possible shape (e)
Will shape (o) (u)
As indicated above, in the present invention, the dictionary requires only one stem for each verb, and only one type of suffix is sufficient. Simplification of dictionary structure has been mentioned.
Referring to FIG. 11, from another aspect of the present invention, the
Before describing other aspects of the invention, a standard method for parsing continuous text will be described. The problem is how to derive (b) from (a) when there are the following (a) and (b).
(a) shedidnotwritethatletter.
(b) she did not write that letter.
The standard criterion for analyzing (a) and deriving (b) is based on the “longest match” approach. Given (a), the goal is to find the longest dictionary entry that matches the beginning. Assuming that "shed" is in the dictionary, that string ("shed") is removed from the input string and a similar longest match is repeated for the remaining strings.
Here, it is assumed that the dictionary does not include the headword that matches the “remaining string” at the head with an arbitrary length. Here, it is wrong to assume that the first input string contains "shed". Redo with the original sentence, "shedidnotwritethatletter." The second longest match is made next, and the following determination is made.
The result of the next longest match performed on the remaining strings is as follows:
The result of the next longest match is:
The morphological analysis (or splitting) of the original continuous input string (a) ends when the remaining strings are null, as follows:
she did not write that letter.
So far, we have described the basics of the standard method for analyzing continuous texts as a general theory. Next, we will describe how the standard method requires grammatical information. Given the following input string:
shewritesletters.
If "she" and "write" are determined to be the first two longest match strings, the following situation occurs: (In this case, assume "write" is in the dictionary, but not "writes")
The first letter "s" is clearly the third person singular present tense "s", not the first letter of the next word. This can only be confirmed by recognizing that the already confirmed "write" is a verb and that the verb dictionary can be followed by an "s". With this grammatical information, the substring is as follows:
Next, “letter” is determined to be the longest match string, and is as follows.
Here again, the "s" in the remaining string is clearly not the first letter of the next word, but the "s" in the plural of "letter" that we have already determined to be a noun. Using this kind of grammatical information included in the morphological analysis element, this input sentence can be finally divided as follows.
It should be noted that such grammatical information that explains what is necessary for morphological analysis of input strings is also used for string analysis. Therefore, the same rule needs to be explained twice for the morphological analysis component and the syntactic analysis component.
Returning again to FIG. 11, assume that the parser of the
shedidnotwritethatletter.
The parser's job is to take an input string (actually a Japanese or similar language string), examine morpheme / phrase boundaries, and create a parse tree. The parse tree looks like this:
Here, NP is a noun phrase, AUX is an auxiliary verb, VP is a verb phrase, PRN is a pronoun, V is a verb, DET is an article, and N is a noun.
As stated above, the standard method for this task is to first perform a learning morpheme / phrase boundary recognition pass and then execute a syntactic pass with the recognized morpheme / phrase as a unit. In some existing systems, the input string first passes through a morphological analysis element that recognizes morpheme / phrase boundaries. The result is as follows.
she did not write that letter.
This divided sentence is then used as input to the syntactic analysis component. The problem with this known method is that the morphological analysis component has to rely on grammatical information, so there is a lot of overlap between the rules used for morphological analysis and the rules used for syntactic analysis. is there. Furthermore, it is not always easy to maintain the consistency of these two components.
In accordance with the second aspect of the present invention that the parser of the
The analysis of the undivided input sentence is completed when an analysis set for the sentence is acquired. In each analysis, the matched dictionary entry (ie compound word idiom) represents a morpheme. In this way, the morphological analysis of the input string is completed at the same time as the analysis of the string using the grammar rules is completed.
To illustrate the second aspect of the present invention, consider the following. Japanese is a typical example of a language in which orthography does not mark word or phrase breaks, and is taken up in the following example. The original input string is:
As mentioned above, this is the same as "shedidnotwritethatletter" in English. The standard two-stage method (described above) first performs a morphological analysis of this string. As a result, the following morpheme sequence is obtained.
As already mentioned, grammatical rules and dictionary structures become very economical if it is found according to the present invention that the string contains the following morphemes.
As seen in Table 6, the morpheme boundary can be in the middle of “kana”, and the above confirmation of morpheme cannot be made unless “kana” {ka} is expressed as (k) (a) in the alphabet. The Japanese input string is converted by the
In this way, {ka}, {na}, {ta} of “kana” included in the original Japanese orthographic system is romanized because the morpheme boundary must be recognized between the first consonant and the vowel. Are converted into (k) (a), (n) (a) and (t) (a), respectively. On the other hand, {ha}, {wo}, and {TU} of "Kana" are retained as they are because there is no possibility of morpheme boundaries appearing between these three special "Kana" Is done.
Assume that there is the following
Rule 1 S = NP.ha + VPtensed
Rule 3 NP = Pronoun
Rule 4 NP = Noun
Rule 5 NP.wo = NP + Accusative
Rule 6 VP = NP.wo + Vt.k.Stem
Rule 7 VPtensed = VP + NEG.Adj.Past + Past
Rule 8 NEG.Adj.Past = (a) (n) (a) (k)
In the present invention, the following input string
However, the dictionary described in Table 6 that is used as input to the parser of
According to the present invention, such morphological analysis is completed upon completion of syntactic analysis of the input string. That is, the sequence of characters at the bottom of the parse tree governed by a single syntactic classification constitutes a morpheme.
All the functions and processes described above can be implemented by various hardwired logic designs and / or programming techniques built into a general purpose computer. The steps shown in the flowcharts usually do not have to be applied in order, and several steps can be combined. In addition, the functions of this system can be assigned to programs and data in various forms. In addition, it is advantageous to develop grammar and other operational rules in one or more high-level languages while providing the user with compiled formats.
A disk that can be executed on a general-purpose computer (e.g., Apple Macintosh, IBM PC compatible machine, SUN workstation, etc.), including all the functions disclosed in this specification Or computer software on a computer-readable medium such as an optical compact disc (CD).
Those skilled in the art will be able to variously modify, modify and implement the invention described herein without departing from the spirit and intent of the invention as described in the claims. Let's go. Accordingly, the invention is to be defined not by the preceding illustrative description but instead by the spirit and intention of the following claims.
Claims (2)
ソース自然言語での入力テキスト情報を受け取り、前記入力テキスト情報を前記コンピュータ格納手段に格納する手段であって、前記入力テキスト情報は「漢字」と「かな」とを含み、「漢字」は何らかの意味をもつ表意文字であり、「かな」は固有の意味をもつことなく音を表す表音文字であり、前記ソース自然言語の正字法は単語あるいは句の境界を示す識別子を欠いている、手段と、
前記コンピュータ格納手段にアクセスし、前記ソース自然言語での前記入力テキスト情報を目的自然言語での出力テキスト情報に翻訳する翻訳エンジンと
を備え、
前記翻訳エンジンは、翻訳プロセスの1ステップとして前記入力テキスト情報を解析するパーサーを含み、前記パーサーは、前記入力テキスト情報の少なくとも一部において特定の「かな」を前記目的自然言語のアルファベット文字列に変換することにより、前記特定の「かな」から変換された前記アルファベット文字列の途中に単語あるいは形態素の境界が出現することを認識可能にし、
ここで、前記特定の「かな」は、「かな」をアルファベット文字列に変換した場合に、その「かな」から変換されたアルファベット文字列の途中に単語あるいは形態素の境界が出現する可能性のある「かな」である、自動自然言語翻訳システム。Computer storage means;
Means for receiving input text information in a source natural language and storing the input text information in the computer storage means, wherein the input text information includes “kanji” and “kana”, where “kanji” has some meaning The kana is a phonetic character that represents a sound without having a specific meaning, and the orthography of the source natural language lacks an identifier that indicates the boundary of a word or phrase; ,
A translation engine that accesses the computer storage means and translates the input text information in the source natural language into output text information in a target natural language;
The translation engine includes a parser that analyzes the input text information as one step of a translation process, and the parser converts a specific “kana” into an alphabet string of the target natural language in at least a part of the input text information. more converting, word boundaries or morpheme is recognizable that appearing in the middle of the transformed the alphabetic character string from the "kana" the specific,
Here, in the case where the specific “kana” is converted into an alphabet character string, there is a possibility that a boundary between words or morphemes may appear in the middle of the alphabet character string converted from the “kana”. An automatic natural language translation system that is Kana .
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US1996/005567 WO1997040452A1 (en) | 1996-04-23 | 1996-04-23 | Automated natural language translation |
WO96/05567 | 1996-04-23 | ||
PCT/US1996/010283 WO1997040453A1 (en) | 1996-04-23 | 1996-06-14 | Automated natural language processing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002136340A Division JP2003016061A (en) | 1996-04-23 | 2002-05-10 | Automatic natural-language translation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001515616A JP2001515616A (en) | 2001-09-18 |
JP3680865B2 true JP3680865B2 (en) | 2005-08-10 |
Family
ID=22254991
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53801197A Expired - Fee Related JP3743678B2 (en) | 1996-04-23 | 1996-04-23 | Automatic natural language translation |
JP53802197A Expired - Fee Related JP3680865B2 (en) | 1996-04-23 | 1996-06-14 | Automatic natural language translation |
JP2002136340A Withdrawn JP2003016061A (en) | 1996-04-23 | 2002-05-10 | Automatic natural-language translation |
JP2005364072A Withdrawn JP2006164293A (en) | 1996-04-23 | 2005-12-16 | Automatic natural language translation |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53801197A Expired - Fee Related JP3743678B2 (en) | 1996-04-23 | 1996-04-23 | Automatic natural language translation |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002136340A Withdrawn JP2003016061A (en) | 1996-04-23 | 2002-05-10 | Automatic natural-language translation |
JP2005364072A Withdrawn JP2006164293A (en) | 1996-04-23 | 2005-12-16 | Automatic natural language translation |
Country Status (2)
Country | Link |
---|---|
JP (4) | JP3743678B2 (en) |
WO (2) | WO1997040452A1 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
CN1193779A (en) * | 1997-03-13 | 1998-09-23 | 国际商业机器公司 | Method for dividing sentences in Chinese language into words and its use in error checking system for texts in Chinese language |
US6496844B1 (en) | 1998-12-15 | 2002-12-17 | International Business Machines Corporation | Method, system and computer program product for providing a user interface with alternative display language choices |
US6269189B1 (en) * | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
US6311152B1 (en) | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
US6901360B1 (en) * | 1999-12-16 | 2005-05-31 | Xerox Corporation | System and method for transferring packed linguistic structures |
US8706477B1 (en) | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
US8762131B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
US9600566B2 (en) | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
US10032131B2 (en) | 2012-06-20 | 2018-07-24 | Microsoft Technology Licensing, Llc | Data services for enterprises leveraging search system data assets |
US9594831B2 (en) | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
US9229924B2 (en) * | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
US10445423B2 (en) * | 2017-08-17 | 2019-10-15 | International Business Machines Corporation | Domain-specific lexically-driven pre-parser |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2732563B2 (en) * | 1986-05-20 | 1998-03-30 | 株式会社東芝 | Machine translation method and apparatus |
US4805100A (en) * | 1986-07-14 | 1989-02-14 | Nippon Hoso Kyokai | Language processing method and apparatus |
JPS63223962A (en) * | 1987-03-13 | 1988-09-19 | Hitachi Ltd | Translating device |
JPS63305463A (en) * | 1987-06-05 | 1988-12-13 | Hitachi Ltd | Natural language processing system |
JPH0261763A (en) * | 1988-08-29 | 1990-03-01 | Sharp Corp | Mechanical translation equipment |
US5448474A (en) * | 1993-03-03 | 1995-09-05 | International Business Machines Corporation | Method for isolation of Chinese words from connected Chinese text |
-
1996
- 1996-04-23 JP JP53801197A patent/JP3743678B2/en not_active Expired - Fee Related
- 1996-04-23 WO PCT/US1996/005567 patent/WO1997040452A1/en active Application Filing
- 1996-06-14 JP JP53802197A patent/JP3680865B2/en not_active Expired - Fee Related
- 1996-06-14 WO PCT/US1996/010283 patent/WO1997040453A1/en active Application Filing
-
2002
- 2002-05-10 JP JP2002136340A patent/JP2003016061A/en not_active Withdrawn
-
2005
- 2005-12-16 JP JP2005364072A patent/JP2006164293A/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
JP2006164293A (en) | 2006-06-22 |
JP2000514214A (en) | 2000-10-24 |
JP2003016061A (en) | 2003-01-17 |
WO1997040452A1 (en) | 1997-10-30 |
WO1997040453A1 (en) | 1997-10-30 |
JP3743678B2 (en) | 2006-02-08 |
JP2001515616A (en) | 2001-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6760695B1 (en) | Automated natural language processing | |
US6278967B1 (en) | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis | |
Trujillo | Translation engines: techniques for machine translation | |
JP2006164293A (en) | Automatic natural language translation | |
US5528491A (en) | Apparatus and method for automated natural language translation | |
US6470306B1 (en) | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens | |
JP3839069B2 (en) | Method and apparatus for summarizing documents | |
JP4714400B2 (en) | Scalable machine translation system | |
JP2003030185A (en) | Automatic extraction of transfer mapping from bilingual corpora | |
JP2005507524A (en) | Machine translation | |
JP2004513458A (en) | User-changeable translation weights | |
Keenan | Large vocabulary syntactic analysis for text recognition | |
Ehsan et al. | Statistical Parser for Urdu | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
JP2001503540A (en) | Automatic translation of annotated text | |
JP3743711B2 (en) | Automatic natural language translation system | |
WO1997048058A9 (en) | Automated translation of annotated text | |
KR950013129B1 (en) | Method and apparatus for machine translation | |
Samir et al. | Training and evaluation of TreeTagger on Amazigh corpus | |
Zhou | Super-Function Based Machine Translation System for Business User | |
JP2006134349A (en) | Automatic natural language translation system | |
Noji | Left-corner methods for syntactic modeling with universal structural constraints | |
JP3680489B2 (en) | Machine translation apparatus and computer-readable recording medium recording machine translation processing program | |
JP2003203071A (en) | Automated natural language translating system | |
Kozerenko | Semantic Representations for Multilingual Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20031106 |
|
A72 | Notification of change in name of applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A721 Effective date: 20031106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031201 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20040610 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050510 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |