JP3743711B2

JP3743711B2 - 自動自然言語翻訳システム

Info

Publication number: JP3743711B2
Application number: JP2001358588A
Authority: JP
Inventors: グレンエイ．エイカーズ，; ▲すすむ▼ 久野
Original assignee: Logovista Corp
Current assignee: Logovista Corp
Priority date: 2001-11-22
Filing date: 2001-11-22
Publication date: 2006-02-08
Anticipated expiration: 2016-04-23
Also published as: JP2002197084A

Description

【０００１】
【発明の属する技術分野】
本発明は、ある自然言語から他の自然言語への、好適には英語から日本語への自動翻訳に関する。
【０００２】
【従来の技術】
自然言語の機械翻訳については種々の方式が提案されてきた。通常、翻訳に使用されるシステムは、ある言語での入力を受信し、その受信した入力を処理し、他の言語で出力するコンピュータを含む。このタイプの翻訳は従来正確なものではなく、そのために、熟練したオペレータが出力結果にかなり手を加えなければならない。従来のシステムによる翻訳作業は、一般に構造変換操作を含む。この構造変換の目的は、ソース言語の文の解析ツリー（すなわち、構文構造ツリー）を目的言語に対応するツリーに変換することである。現在まで二つのタイプの構造変換方式が試みられてきた。すなわち、文法に基づく変換と、テンプレート間の変換である。
【０００３】
文法に基づく変換の場合には、構造変換の領域は、ソース言語の解析ツリー（すなわち、与えられたノードの直接のこどもであるサブノードの集合）を得るために使用される文法規則の領域に限定される。例えば、次の式があるとき
ＶＰ＝ＶＴ０１＋ＮＰ（動詞句は、目的語が一つの他動詞と、名詞句がこの順序で並んでいる。）
そして、日本語は、１＋２＝＞２＋１（ＶＴ０１とＮＰの順序が逆になっている。）
【０００４】
【発明が解決しようとする課題】
規則の適用を含むソース言語の解析ツリーは、構造的には動詞と目的語の順序が反対になるように変換される。日本語では動詞は目的語のあとに来るからである。この方法は、ソース言語の解析ツリーを得るために規則が使用された場所で正確に適用され、特定の変換が行われた場所をすぐ見つけることができるという点で非常に効率的である。一方、上に述べたように、その領域が大幅に制限されているという点、また自然言語は、こどもではないノードにまたがるような変換規則を必要とする場合があるという点で、変換機構としては弱いものである。
【０００５】
テンプレート間の変換では、構造変換は、入出力（Ｉ／Ｏ）テンプレートまたはサブツリーの形で指定される。ある入力テンプレートがある構造ツリーと一致した場合には、そのテンプレートと一致する構造ツリー部分が、対応する出力テンプレートで指定されたとおりに変換される。これは非常に強力な変換機構であるが、与えられた入力テンプレートが、存在する構造ツリーのどの部分と一致するかを見つけるのにかなりの時間がかかり、処理コストが高くなることがある。
【０００６】
【課題を解決するための手段】
本発明の自動自然言語翻訳システムは、従来の機械翻訳装置と比較すると多くの利点を持つ。システムが、自動的に入力テキスト情報の可能で最も適切な翻訳を提供し、ユーザにその出力（好適には、英語の入力テキストの日本語訳）を供給した後で、ユーザは、表示された翻訳結果に手を入れるために、または自動的に他の翻訳を入手するために、このシステムと対話することができる。本発明の自動自然言語翻訳システムを操作する人は、これでいいと判断した翻訳の結果の部分はそのまま保持しながら、残りの部分を自動的に再翻訳させることができる。この選択的な再翻訳を行うことにより、再翻訳を必要とする部分に対してのみ翻訳が行われるので、操作する人は時間を節約することができ、潜在的に多くの不正確な部分はあるとしても、翻訳としては非常に質の高い部分を検討するという退屈な仕事を手短かに済ますことができる。さらに、このシステムでは、種々の翻訳調整を行うことができるので、通常は、翻訳の最終構造の多くがシステムによって作成される。したがって、このシステムを使用することにより、人間（オペレータ）による潜在的なミスを少なくし、文の構造、人称や時制の一致の変更などの手直しに要する時間が節約できる。このシステムはオペレータに広範囲で正確な文法とスペルに関する知識を提供できるようになっている。
【０００７】
本発明の自動自然言語翻訳システムは、ソース言語に含まれる文章の区切りのさまざまな曖昧性処理と、強力な意味伝達機能により、翻訳文はさらに正確なものになり、オペレータの翻訳の手直しに要する時間が短くてすむようになる。特定のユーザの好みに合わせてシステムが記憶していく学習統計情報によっても、翻訳の質はさらに改善される。本システムの熟語処理方法は、熟語を構成する語句を含んでいる文があるとき、熟語そのものの意味を考えることなく、正確に訳すことができるという利点を持つ。本システムは効率的であるばかりでなく、関連の低い特性を一致させるという多様な機能を持つ。本システムの構造バランスエキスパートおよび同格構造エキスパートは、目的とする解析と目的としない解析とを効率的に見分ける。大文字化エキスパートは、効率的に文中の大文字の単語を正確に解釈し、大文字列手順は、普通名詞としての解釈を完全には無視しないで、複合語の固有名詞を効率的に処理する。
【０００８】
ある観点から見た場合、本発明は、自動自然言語翻訳システムの改良に関するものであり、この場合、この改良は翻訳を助けるための「自動領域識別子」の使用に関する。領域には、ある特定の用法やある特定の人たちに帰属する用語や用法パターンの集合を含む。例えば、領域としては、ビジネス通信文、マーケティング文書、コンピュータ関連の文書、物理学などの技術分野の文書などが考えられる。辞書に含まれる言葉に中には、ある特定の領域で使われたときは、目的自然言語（例えば、日本語）のある訳語になるが、他の領域で使用されたり、または分野に関係なく使用された場合は、意味が異なってくる場合がある。領域キーワードのリストも使用される。キーワードは、各領域と関連する領域特有の単語や用語であり、ソース自然言語（またはソース文書）の特定の文が、いずれの領域に属するかどうかを決定するために使用される。「自動領域識別子」機能は、その文（または文書）が特定の領域の文章であると判断するのに十分なキーワードが、その文（または、その文書または文書の一部）に、含まれているかどうかを判断する。もし領域が特定できれば、辞書にも載っていて、翻訳中の文（または文書）にも含まれている単語は確率の値を引き上げて使用し、その文章（または文書）の翻訳が行われる。「自動領域識別子」による決定は、ソース自然言語およびキーワードのみに基づいて行われる。本発明の「自動領域識別子」機能は、結果のツリー構造内に、領域不適合分析（特定の領域には適合しないという分析）は含まず、そのためシステムの翻訳時間は速くなる。
【０００９】
他の観点から見ると、本発明は、自動自然言語翻訳システムのもう一つの改良に関する。その改良というのは、「オールマイティ」や「品詞優先」とマーク付けするか、または「マークなし」という文法規則を使用した、ソース自然言語の文の解析に関する。「オールマイティ」文法規則は、それによりその文の同じ部分を解析するようなすべての他の規則を排除する規則である。「品詞優先」文法規則は、それによりその文の同じ部分を解析するようなすべての他の規則を排除する規則であるが、これは、他の規則が同じ品詞を持っている場合に限って行われる。「マークなし」文法規則は他のいずれの規則に対しても優先権は持たない。「オールマイティ」や「品詞優先」のマーク付け文法規則は、この規則がない場合にはシステムの翻訳エンジンによって作られるツリー構造のうちから、関係のない文法解釈ツリーを除去するのに有効な方法である。このようなマーク付け文法規則は、時間およびメモリ容量の点で、より効果的に解析を行うことができる。つまり、システムの翻訳時間を短縮することができる。何故なら、翻訳エンジンは、マーク付けしなければ作られるかもしれない大きなツリー構造を作らなくてすむからである。また、翻訳エンジンは、マーク付けしなければ記憶しなければならない大きなツリー構造を記憶しないですむことから、メモリ（例えば、ＲＡＭ）領域を解放することができる。
【００１０】
さらに他の観点から見ると、本発明は、自動自然言語翻訳システムのさらに他の改良に関する。これは、最終ツリー構造の構成要素になる可能性が非常に低いか、絶対にないというマークが付けられた見出し語を持つ辞書を使用する解析に関連した改良である。辞書に複合語の見出し語が含まれていて、その中の少なくとも一つの複合語が非常に低い確率の値を持っているとき、この低い確率の値は、その見出し語がソース自然言語の任意の文の正しい解析ツリーでも特定の品詞として機能する可能性がありそうもないことを示す。ある入力文の解析ツリー構造の中に、マークが付けられている見出し語が含まれる場合には、マークが付いている見出し語に関連する確率の値が低いから、その解析ツリーがその文に対して正確である確率は非常に小さくなる。この確率の値を使用することにより、システムの翻訳エンジンが作ったツリー構造の不要な部分を排除することができる。
【００１１】
本発明の上記および他の目的、特色、特徴および利点は、以下の説明と請求の範囲を読めば明らかになる。
【００１２】
【発明の実施の形態】
最初に、図面を参照しないで、本発明の自動自然言語翻訳システムの概要を説明する。この概要を説明した後で、図面を参照して説明する。
【００１３】
自動自然言語翻訳システムは、ソース自然言語を目的自然言語に翻訳することができる。好適な具体例として、上記システムは英語を日本語に翻訳する。上記システムは、ソース自然言語と、目的自然言語への翻訳を作る翻訳エンジンとを受付け、記憶する装置と；ユーザに翻訳結果を表示するための装置と；ユーザに対して別の翻訳結果を提供し表示するための装置とを含む。このシステムの具体例としては、翻訳エンジンは、プリパーサー、パーサー、グラフ作成装置、評価子、グラフ・スコアラ、文法構造抽出装置および構造変換装置を含む。プリパーサーは、入力テキストを検査し、入力文の文末認定の曖昧な箇所を解析する。その後、プリパーサーは、辞書の見出し語を含む解析チャートで、入力テキストを作成し表示する。パーサーは、入力テキストに対する可能な構文の分類を入手するために、上記チャートの解析を行う。グラフ作成装置は、解析チャートに基づいて、入力テキストの可能な構文解釈のグラフを作る。このグラフには、入力テキストの可能な解釈に関連するノードとサブノードが含まれる。一連のエキスパートを含む評価子は、解釈の可能なグラフを評価し、グラフのノードとサブノードにエキスパートの重みを加える。グラフ・スコアラは、サブノードを評価するためにエキスパートの重みを使用し、その後でＮ個の上位のスコアと各ノードとを関連づける。文法構造抽出装置は、解析ツリー構造をグラフ・スコアラが決定した好適な解釈に割り当てる。構造変換装置は、目的言語での翻訳を入手するために、解析ツリー構造に関する構造変換を行う。
【００１４】
以下の三つの段落では、（ａ）各サブノードに対する最終加重スコアを計算するために、グラフ・スコアラがどのようにエキスパートの重みを組み合わせるか；（ｂ）最終ノード・スコアに到達するために、グラフ・スコアラがどのようにサブノード・スコアを組み合わせるか；（Ｃ）言語情報がノードとサブノードのツリーをどのように伝達するか、について説明する。
【００１５】
各サブノードに対する最終加重スコアを計算するために、グラフ・スコアラは、各サブノードに定数値を関連づける。各サブノードに関連する言語情報の分析により、サブノードのスコアの決定が行われる。例えば、一連のエキスパート評価子が、各ノードとサブノードに記憶された言語情報を検査する図８を参照されたい。グラフ・スコアラは、特定のノードまたはサブノードに対する最終加重平均を入手するために、各エキスパートに対する個々の加重スコアの合計を計算する。複数の加重スコアを一つの加重平均スコアにまとめることは、コンピュータサイエンスにおける標準的な問題である。使用できる一つの方法としては、各エキスパートの結果に、そのエキスパートに割り当てられた定数（重み）を掛け合わせる方法がある。各エキスパートに割り当てられる重みは、設計時に決定しておく問題である。設計者は各エキスパートに割り当てる優先権（重み）を決定する。加重平均は、各数字に定数を掛け、一連の数字を合計したものである。例えば、以下の式になる。
加重平均＝（ｗ₁）＊（ｘ₁）＋（ｗ₂）＊（ｘ₂）＋．．．＋（ｗ_n）＊（ｘ_n）
但し、重みｗ₁，ｗ₂，．．．，ｗ_nは、いずれも負でない数で、合計は１になる。例えば、統計の期待値に関する加重平均の使用について述べているスピーゲル著「確率および統計の理論と問題７６」（１９７５年、マグローヒル社）を参照されたい。
【００１６】
最終ノード・スコアを入手しようとサブノード・スコアを結び付けるために、グラフ・スコアラは、グラフの底辺の部分から一番上の部分にサブノード・スコアを伝達することができる。各ノードがＮスコアの集合を持つグラフの場合には、一つまたは複数の伝達方法を決定することができる。サブノード・スコアを伝達するのに使用することができる一つの技術としては、最適化問題を解くために使用されるある種の動的プログラミングである記憶方法がある。最適化問題の解法には、多くの可能な数値（結果）を含むことができる。目的は最適な数値を発見することである。最適化に使用するアルゴリズムは、各サブサブ問題を一回だけ解き、結果を記憶するので、サブサブ問題に遭遇するごとに答を再度計算する必要がなくなる。最適化問題に適用されるもっと詳細な説明については、例えば、コーメン他の「アルゴリズムヘの招待」（１９９０年マグローヒル社）の３０１−３１４ぺージを参照されたい。この「アルゴリズムヘの招待」の３０１、３０２および３１２ぺージには、グラフ内をサブノード・スコア情報を伝達させるのに使用できる一つの方法が記載されている。
【００１７】
言語情報をツリー内で伝達する場合には、システムの意味を伝える部分は、意味情報を内部のより小さい構成要素からより大きい構成要素へと伝えるように動作する。意味の伝達は、解析オペレーションで使用される統語分類の四つのクラス（ＳＥＭＮＰ、ＳＥＭＶＰ、ＳＥＭＡＤＪおよびＶＥＲＢ）に適用される。意味の伝達が行われる前に、ノードに記憶されている言語情報を分析しなければならない。ノードに記憶されている意味情報の分析は、文法規則の名詞らしい要素と動詞らしい要素を点検することにより、どの名詞らしい目的語に、文法規則の動詞らしい要素のどの選択的制限スロットを適用するかを言い当てる規則の集合によって導かれる。ジェラルド・ガズダは、その著書「プロローグの自然言語処理」（１９８９年アディソン・ウエズリ出版社）で、本明細書で開示しているグラフに類似した方向を持った、リング状でないグラフのノードに記憶されている意味情報を分析するのに使用することができる規則の集合について説明している。ガズダは、隣接するノードに関する情報と一致させる特性マッチングの使用について説明している。ガズダは、特性マッチングは、以下に述べる式を含むと述べている。
【００１８】
「あるノード上に現れるいくつかの特性は、もう一つのノード上に現れる特性と同じものであるに違いない。最新の研究は、親の分類とそれらの特性に関連する形態素を示すことも上に現れるあるクラスの特性の詳細を等しくするという原則を仮定している。このこどもは、そのフレーズの「頭」と呼ばれる。大部分のフレーズは頭を一つだけ持つ。それ故、例えば、動詞句は、その動詞の時制を受け継ぐ。何故なら、動詞は動詞句の「頭」であるからである。これまで使用してきた表記法の資源を使用しても、文法全体に適用できるこの原則を指定する簡単な方法はない。しかし、もし関連する特性がＤＡＧの一本の枝上にすべて発見することができると仮定するならば、規則ごとに非常に簡単にこの原理の効果を述べることができる。そこで、我々は通常のＶＰ規則を以下のように書き表すことができる。
【００１９】
ＶＰ−−＞ＶＮＰＰＰ
＜Ｖの頭＞＝＜ＶＰの頭＞
この場合、Ｖの「頭」の特性値と、親であるＶＰ上の「頭」の特性値は同じものでなければならない。」
ガズダで議論されている規則は、本明細書に開示する構文の各分類に容易に適用することができる。ガズダの規則を使用して各ノードに割り当てられた言語情報は、記憶方法の技術により、ツリーの中を伝達することができる。
【００２０】
ここで、上の三つの段落の内容を要約すると、加重平均は、サブノード・スコアを決定する一つの方法であり、各サブノード・スコアは、最適化問題に適用した周知の記憶方法技術を使用してグラフ中を伝達することができ、ガズダの著書に述べられている方法は、各ノードに記憶されている言語情報を分析するのに使用することができ、この言語情報は、記憶方法技術を使用して文法構造解析チャート内を伝達することができるということになる。
【００２１】
自動自然言語翻訳システムでは、最初の自動翻訳終了後に、自動的に再翻訳を行うことができる。すなわち、システムが自動的に入力テキスト情報の可能で最も適切な翻訳を提供し、ユーザに出力（好適には、入力英語テキストの日本語の翻訳）を提供した後、ユーザは表示されている翻訳を手直しするために、または自動的に別の翻訳を入手するためにシステムと対話することができる。
【００２２】
自動自然言語翻訳システムは、一つの文をサブストリングに分解する言語モデルを使用する。サブストリングは、その文の一部として指定された順序で出現する一つまたは複数の語句である。例えば、サブストリング「The man is happy」は、「The」、「The man」、「man is happy.」、「is」および「The man is happy」それ白身を含んでいるが、「is man」、「man man」、「The is」は含んでいない。
【００２３】
異なる言語モデルは、種々の方法で、また種々の詳細レベルでサブストリングを定義する。例えば、「They wou1d 1ike an arrow.」という文においては、「an arrow」は通常、名詞句（ＮＰ）に分類される。別のモデルでは、「an arrow」を構文上の特性（例えば、単数の名詞句）および文意の上の特性（武器）で分類する。この句の意味が曖昧である場合には、それを分類する複数の方法がある、例えば、「an arrow」は、矢の形をした記号を意味することもできる。言語モデルが、曖昧さを解決する方法を提供するとき、通常、より小さな単位をより大きな単位に結合することによって曖昧さを解決する。より大きい単位を評価する場合、これらのモデルはより大きい単位に含まれている情報だけを考慮の対象とする。
【００２４】
このシステムの具体的な例示として、「an arrow」（記号または武器）の意味上の特性が、「They wou1d 1ike an arrow.」という文の「1ike an arrow」という動詞句を評価する際に使用される。一方、「an arrow」という句の構文が「He shot it with an arrow.」という文中にあった場合には、「an arrow」の意味上の特性は、「shot it with an arrow」という動詞句を評価する際には使用されない。
【００２５】
特定の言語モデル（解釈したサブストリング）を一つの方法で解釈した文の任意のサブストリングに対して、エキスポートされた属性が存在する、エキスポートされた属性は、解釈したサブストリングと、もっと大きいサブストリングを形成する他の単位との組み合わせを評価するために使用したすべての属性である。エキスポートはエキスポートされた特性と一緒に解釈した、解釈済みのサブストリングである。解釈済みのサブストリングに含まれているが、エキスポートされていない属性は、サブ構造体と呼ばれる。
【００２６】
システムのパーサーは、文法データベースを含む。パーサーは、文法規則を使用して文のすべての可能な解釈を見い出す。文法データベースは、Ｘ＝Ａ１Ａ２．．．Ａｎの形の、一連の文脈自由句構造規則からなる。Ｘは、Ａ１，Ａ２，．．．，Ａｎからなっているか、形成されていて、レベルの高いノード（サブノード）Ａ１からよりレベルの低いノード（サブノード）Ａｎと呼ばれる。
【００２７】
システムのグラフ作成装置は、一つの文に関して可能な多くの解釈を図形で表す。グラフの各ノードは、あるサブストリングのエキスポートに対応する。システムの具体例として、一つのエキスポートは一つのノードで表される。グラフは、一つのエキスポートに関連するノードから出ている円弧を含み、円弧は、文法規則の適用に基づくエキスポートのサブ構造体を表す。グラフは少なくとも二つのタイプの円弧、すなわち、エキスポートのサブ構造体を表す。グラフは少なくとも二つのタイプの円弧、すなわち、（１）同じサブストリングの一つの異なるエキスポートを指している単一の円弧、（２）二つのエキスポートを指している一組のポインタを含む二つの円弧、すなわち、連結されたときは、そのサブストリングは、もとのエキスポートのサブストリングを形成する。（２）の定式は、チョムスキーの正規形文法を仮定していることに留意されたい。修正した請求項３５は、タイプ（２）を言い替えることによって、チョムスキーの正規形文法ではなく、Ｎ個のエキスポートを指しているＮ重ポインタを持つ円弧を反映する文法に適用される。
【００２８】
グラフは、一つの出発エキスポート点Ｓを含み、そこから一連の円弧を迫ることによりグラフのすべての部分に行き着くことができる。出発エキスポートは、文全体に対応する。
【００２９】
同じエキスポートを複数のエキスポートから形成できる場合に限り、一つのノードから複数の円弧がスタートする。（二つの円弧からなる円弧内の一組のポインタは、この意味では複数の円弧とは考えない。）そのエキスポートが複数のエキスポートの一つの要素である場合に限って、複数の円弧が一つのノードを指すことになる。円弧が出ていないノードは、サブストリングに割り当てられた辞書の見出し語に対応する。
【００３０】
複数の言語エキスパートが、エキスポートの集合に数字のスコアを割り当てる。この言語エキスパートは、グラフの各ノードに上記スコアを適用する。システムの具体例として、スコア行列（行列の各要素は、特定のエキスパートのスコアに掛け算を行うための重みである）は、任意の文に対する浮動小数点数の固定の長さ「Ｎ」である。
【００３１】
上記スコアは、グラフ作成エンジンおよび／またはパーサーに組み込まれるスコアリング・モジュールにより評価される。スコアは、より高いエキスポートを形成しているすべてのエキスポートに対して計算される。より高いエキスポートに対するスコアは、よりレベルの高いエキスポートを形成しているエキスポートと構造調整エキスパートによって割り当てられたスコアの組み合わせに適用される任意のエキスパートのスコアの合計として計算される。
【００３２】
ノードに到着し、スコアを調べる順序は、標準の深さ第一グラフ移動アルゴリズムである。このアルゴリズムでは、スコア付けされたノードにはマークが付けられ、再びスコアを付けられることはない。スコアが付けられるプロセス中、スコアリング・モジュールは、もっと高い単位の任意のノードの評価を行う前に、辞書の見出し語ノードを評価する。辞書の各見出し語は一つのスコアをもつ。
【００３３】
一つのエキスポートを行うのに複数の方法がある場合には、複数のスコアになる。すなわち、エキスポートを行うのにｋ通りの方法がある場合には、可能なｋ個のスコアになる。複数のスコアは以下のように処理される。
【００３４】
（１）単一の要素からなる規則では、もっと低いエキスポートのｋ個の各スコアは、単一の要素からなる規則に適用されるエキスパートの数値に加算され、その結果得られたｋ個のスコアのベクトルは親のエキスポートに関連している。
【００３５】
（２）二つの要素からなる規則では、左のこどもがｇスコアを持ち、右のこどもがｈスコアを持つものと見なされる。その後ｇスコアにｈスコアを掛けた数値が、左のこどもの各スコアに右のこどもの各スコアを加算し、さらに、二つの要素からなる規則に適用されるエキスパートの数値を加算することによって計算される。ｇスコアにｈスコアを掛けた数値がＮを越えた場合には、最も高いＮのスコアだけが親のノードと一緒に保持される。
【００３６】
（３）一つのエキスポートが複数の方法で作ることができる場合には、たかだかＮ個のスコアがそのノードのスコア・リストに加算され、最も高いスコアだけが保持される。
【００３７】
スコア計算が完了すると、上記方法は、各エキスポートがそのノードと、エキスポートに表示されていないすべてのサブ構造体の属性を含む、エキスポートを行うためのｇ個の最も可能性の高い方法（言語モデルに関する）を表すｇ個のスコア（１からＮまでの範囲内のｇ）の集合と関連づけていることを確認する。ルート・ノードＳのような特別な場合では、このスコア計算方法は文全体を形成するｇ個の最も可能性の高い方法を与える。
【００３８】
上記のスコア・リストの各スコアは、関連ポインタを持つ。ポインタ、より低いエキスポートのスコア・リストのどのスコアが、もっと高いレベルのスコアを作るために組み合されたのかを示す情報を提供する。各ポインタを追跡することにより、その文のｇ個の最も可能性の高い解釈を、曖味でない解析ツリーとして抽出することができる。
【００３９】
図１〜図９を参照しながら、自動自然言語翻訳システムをさらに詳細に説明する。その後で、図１０、図１１および図１２を参照しながら、本発明の種々の改良点について説明する。
【００４０】
図１および図２を参照すると、本発明の自動自然言語翻訳システム１０は、入力インターフェース１２、翻訳エンジン１６、記憶装置１８、ユーザ入力装置２２、ディスプレイ２０および出カインターフェース１４を含む。入力インターフェースは、英語などのソース言語で書かれた一連のテキストを受信することができるようになっている。入力インターフェースとしては、キーボード、音声インターフェースまたはモデムまたは直列入力のようなデジタル電子インターフェースを含むことができる。翻訳エンジンは、記憶装置のデータを使って、ソース言語の翻訳を行う。翻訳エンジンは、全体をハード配線の論理回路で作ることもできるし、一つまたは複数の処理ユニットや関連する記憶命令を含むこともできる。翻訳エンジンは、以下に述べる要素やその部分を含むことができる、すなわち、プリパーサー２４、パーサー２６、グラフ作成装置２８、文法構造解析／翻訳評価子３０、文法構造解析抽出装置３２、構造変換装置３４、および別の文法構造システム３７を含むユーザ・インターフェース４２である。構造変換装置は、文法規則制御による構造変換装置３６、辞書制御による構造変換装置３８および生成規則制御による構造変換装置４０を含むことができる。記憶装置１８は、一つまたは複数のディスク（例えば、ハードディスク、フロッピー（登録商標）ディスクおよび／または光学的ディスク）および／またはメモリ記憶装置（例えば、ＲＡＭ）などを含むことができる。これら記憶装置は、次に述べる要素の全部または一部を記憶することができる。すなわち、基本辞書４４、技術用語辞書４６、ユーザが作成した辞書、文法規則４８、生成規則５０、意味特性ツリー５２、構造特性ツリー５４およびグラフ５６である。記憶装置１８は、ソース自然言語で書かれた入力テキスト情報、目的言語で書かれた出力テキスト情報、および一つまたは複数の辞書、領域キーワードと文法規則を含む翻訳を行うために使用したり役立つすべての種類の情報を記憶するのに使用される。ユーザ入力インターフェース２２は、キーボード、マウス、タッチスクリーン、ライトペンまたは他のユーザ入力装置を含み、システムのオペレータが使用できる。ディスプレイとしては、コンピュータ・ディスプレイ、プリンタまたは他のタイプのディスプレイを使用することもできるし、オペレータに情報を知らせるための他の装置であることもできる。出カインターフェース１４は、ソース・テキストの最終翻訳を、日本語などの目的言語でやりとりする。上記インターフェースは、プリンタ、ディスプレイ、音声インターフェース、モデムまたは直列ラインのような電子インターフェースを含むこともできるし、最終ユーザにテキストを送るための他の装置を含むこともできる。
【００４１】
本発明の翻訳システムの具体例の動作として、図１、図２および図３に示すように、プリパーサー２４は、まずソース・テキスト２３に対して予備的な解析作業（ステップ１０２）を行う。この作業には、ソース・テキストの文末認定の曖昧性の解析が含まれ、辞書の見出し語２５を含む構造解析チャートを作成する。その後、パーサー２６は、構文の可能性２７が記載されている構造解析チャートを入手するために、プリパーサーが作成した（ステップ１０４）上記チャートの構造解析を行う。グラフ作成装置２８は、構造解析ステップで得られた構造解析チャートに基づいて、可能な解釈２９のグラフを作成する（ステップ１０６）。一連のエキスパート４３にアクセスする評価子３０は、記憶された解釈のグラフを評価し（ステップ１０８）、グラフ３１にエキスパートの重みを追加する。グラフ・スコアラ３３は、ノードのスコアをつけ、Ｎ個の（例えば、２０個の）最も高いスコア３５をそれぞれに関連づける。文法構造抽出装置３２は、この好適な解釈に構造解析ツリー構造３９を割り当てる（ステップ１１０）。その後、変換テーブル５８にアクセスする構造変換装置３４は、目的言語になった翻訳４１を入手するために、上記ツリー上で構造変換処理（ステップ１１２）を行う。ユーザは、他の翻訳を入手するために他の構造解析システム３７とやりとりすることができる。
【００４２】
図４を参照すると、本発明のシステムは、入力単語列を個々の句読点および語を形成する文字グループを含むトークン（ステップ１１４）に分割することによって、予備構造解析を行う。スペースの出現は、このレベルでの文字の解釈に影響を与える。例えば、「ｘ−ｙ」の「−」はダッシュであるが、「ｘ-ｙ」の「-」はハイフンである。
【００４３】
その後、プリパーサーは上記のトークンを語句に組み合わせる（ステップ１１６）。このレベルで、プリパーサーは、特殊な構造（例えば、インターネット・アドレス、電話番号および社会保険番号のような）を一つの単位として認識する。プリパーサーは、またグループを区切るために辞書参照を行う。例えば、「re-enact」が辞書に「reenact」として載っている場合は、一語となるが、載っていない場合は、別々の三つの語となる。
【００４４】
次の予備構造解析段階では、文が何処で終わるかの文末認定が行われる（ステップ１１８）。この処理中、プリパーサーは、各文の可能な文末箇所（すなわち、ソ−ステキストの各単語の後）を認定するための一連のステップを行う際に、基本辞書、技術用語辞書および搭載されているユーザ作成の辞書にアクセスする。プリパーサーは、特定の順序が指定された場合には、このステップを行う必要はなく、これらステップは一連の順序を持つ規則として実行することもできるし、ハードウエアに組み込んでコード化することもできる。
【００４５】
図5を参照すると、プリパーサーは、ダッシュ記号の連続「-----」のような解析できない記号のシーケンスがあるとき、ひとつひとつは翻訳せず、全体として一つの「文」として解釈し記録する（ステップ１２０）。プリパーサーは、文の末尾として、二つのキャリッジ・リターンを要求する（ステップ１２２）。次の語句の最初の文字が小文字である場合には、プリパーサーは一つの文の終わりと見なさない（ステップ１２４）。文がニューラインで始まりしかも短い場合（例えば、タイトル）には、プリパーサーは、それを一つの文と見なす。
【００４６】
プリパーサーは、閉じ括弧および閉じ引用符を含んでいるような場合を除いて、終止符（．）、疑問符（？）、または感嘆符（！）を文の終わりと見なす（ステップ１２８）。「．”」や「？”」等で終わっている文の場合には、プリパーサーは、引用符の前の句読点のほかに、引用符の後に仮想の句読点を加えて使用する。「？”」に対して仮想で追加する句読点に対する方法を、以下の例に示す。
【００４７】
The question was "What do you want?".
Did he ask the question "What do you want?"?
Are you concerned about "the other peop1e"?
英語の場合、上記各文は「?"」で終わっている可能性が高い。プリパーサーが追加した仮想の句読点があるということは、引用符の前に疑問符のような何かが存在するのか、または全然何もないかを示している。引用符の後ろには、終止符または疑問符のような何かが存在している。この文の残りの文法的構造によって、このあとの処理段階で最も適切な選択を行うことができる。
【００４８】
プリパーサーは、また終止符の解析で、さらにいくつかの方法を使用する（ステップ１３０、１３２、１３４、１３６および１３８）。辞書に含まれる短縮形には、文頭には決して使用できないというマークが付いているものや、文末には決して使用できないというマークが付いているものがある（ステップ１３０）。これらの規則は常に尊重される。例えば、「Ltd.」は文頭には使用されないし、「Mr.」は文の終わりには使用されない。プリパーサーは、また次の語句が「the」、「in」のような頻出する単語でないかぎり（ステップ１３２）、一字の大文字に終止符があるとき、文が終わりであるとは考えない。終止符の前の単語が、いずれかの辞書に載っている場合には、終止符のところで文は終わる（ステップ１３４）。終止符の前の語句が辞書に載っておらず、その語句がその内部に終止符を持っていて（例えば、Ｉ.Ｂ.Ｍ.）、次の語句が小文字としては辞書に載っていないか、または次の語句そのものが大文字である場合には、文はその終止符のところで終わっていないと見なす（ステップ１３６）。それ以外の場合には、終止符は文の終わりを示す（ステップ１３８）。
【００４９】
再び図２および図３を参照すると、文の切れ目がプリパーサーにより指定されると、パーサーはその文の語句を構文分類に入れ、その文の可能な構文の解釈２５を計算するために、それらの語句に文法データベースの文法規則を適用する（ステップ１０４）。文法規則４８を、その言語の文法的な制限を表すコンピュータ処理ができる一連の規則として実行することができる、英語の場合、このような規則は何百とあり、これら規則は何百という構文分類に適用され得る。この作業の計算に要する余分な時間を減らすために、一つの語句の異なる可能な意味は無視して処理される。
【００５０】
次のステップ（ステップ１０６）において、グラフ作成装置は、語句の異なる意味を取り込み、その文のすべての意味解釈を表す方向を持ったリング状でないグラフを作成するために、辞書を使用しパーサーの結果を拡張する。このグラフは、後で説明する一連の意味伝達の手順の助けを借りて作成される。これらの手順は、一連の作成された文法規則に基づいて行われ、ある場合には、意味情報を求めて意味特性ツリーにアクセスする。意味特性ツリーは、意味分類を含むツリー構造である。このツリーは、おおざっぱに抽象物から具体物へと組織されており、ツリーの中でどのくらい離れているのか、ツリーのなかでのそれぞれのレベルは何かの両方から、二つの用語が意味の上でどのように関連しているかを決定することができる。例えば、「cat」と「dog」は、「cat」と「pudding」より関連性が高い、したがって、「cat」と「dog」の二つは、「animal」のツリーの中での距離は短く、「animal」、「cat」はツリーの異なるレベルに記憶されている例である。何故なら「animal」は「cat」に比べてより抽象的な言葉であるからである。
【００５１】
図９を参照すると、この図のグラフは、ノード８０を含み、そのサブノード８２、８４，８６は種々のタイプの関連を示す方法でポインタ８８，８９，９０，９１でリンクしている。グラフの第一の関連のタイプは、句を表すノードが、それを構成している語句のノードやサブフレーズのノードを指すポインタを持っているものである。例えば、「the bank」を表すノード８４は、ポインタ９２，９３により、それを構成している語句「the」９４および「bank」９５にリンクしている。グラフの第二の関連のタイプは、句の解釈が、より低いレベルのものから、同じより高いレベルの成分を作るもう一つの方法を指すポインタを持っている場合である。例えば、句「by the bank」を表すノード８０は、それぞれを構成する各語句にリンクしているポインタ８８と８９、および９０と９１を含む二つのソース解釈位置８１，８３を持つことができる。この例の場合、異なる個々の構成語は、それぞれが句「the bank」に対して異なる意味を表す異なるサブノード８４，８６を含む。グラフの構造は、解析作業の結果により規定され、ソース文の構文により制限を受ける。このグラフのノードは、意味伝達のプロセス中に記入される意味情報に対する記憶位置と関連づけられる。
【００５２】
システムの意味を伝達する部分は、それらを含むより小さな成分からより大きな成分へと意味情報を伝達する働きをする。意味情報は、初めの段階の解析作業で使用される構文分類の四つのクラスに適用される。四つのクラスは、ＳＥＭＮＰ（名詞型の目的語や前置詞句を含む）、ＳＥＭＶＰ（通常主語を取る、目的語のような動詞句）、ＳＥＭＡＤＪ（形容詞）、およびＶＥＲＢ（多くの場合目的語を取る辞書の動詞型の動詞）である。その他の構文分類はある規則では無視される。文法規則の設定者は、規則に特定のマークを付けることによって、表面上に出ない行動を上書きすることができる。これらの特別命令は最初にくる。
【００５３】
システム内を意味特性が伝達する方法は二つの面を持つ。第一の面は、文法規則の名詞型および動詞型の構成部分を検査することによって、名詞型の目的語に、動詞型の構成要素のどの選択的な制限スロットを適用するかを知ることができる規則の集合である。例えば、「I persuaded him to go.」という文の動詞句に対する規則は、おおまかにいうと、ＶＰ＝ＶＴ１１＋ＮＰ＋ＶＰ（ここで、ＶＰは動詞句、ＶＴ１１は他動詞の分類、ＮＰは名詞句）である。例示としてのデフォルト規則は、動詞が目的語を取る場合には、動詞の右側にある最初のＮＰに、選択制限を適用しなければならないというものである。別の規則では、その主語に対するＶＰの制限は、ＶＰの左側の最初のＮＰに適用しなければならないと定めている。これらの規則を合わせると、「persuade him」および「him go」の両方の意味がよく通るように評価するようにしている。すでに説明したように、これらの規則は英語の複雑な規則を反映していて、そのためにその数は非常に限定されている。
【００５４】
図６を参照すると、意味伝達作業は選択制限をＳＥＭＶＰから命令文にコピーする作業を含む（ステップ１４０）。ＳＥＭＮＰが位置の表現として使用されている場合には、良い位置を指定する意味定数に対してその妥当性が評価される（ステップ１４２）。ある規則が二つのＳＥＭＮＰの結合（構文上の特徴を論理積することによって検出された）を含んでいる場合には、グラフ作成装置は、意味特性を諭理積して、意味上の距離エキスパートに適用する（ステップ１４４）。
【００５５】
意味特性の伝達に対して指定された規則を検査している中で、グラフ作成装置が、もっと高いレベル（例えば、それがもっと多くの語句を含むＳＥＭＮＰの一部となる）へ伝達するＳＥＭＮＰの「頭」の位置を見つけた場合には、グラフ作成装置は、意味特性をも伝達する（ステップ１４６）。しかし、「頭」が、区分用の語句（例えば、「Portion」、「Part」）である場合には、「頭」はＳＥＭＮＰから左または右に伝達する。ＳＥＭＶＰおよびＳＥＭＡＤＪも、区分用の位置を持っていない（ステップ１４８）ことを除いて、同じ方法で伝達される。形容詞はこの意味ではＳＥＭＶＰの一部である。
【００５６】
ＳＥＭＶＰがＶＥＲＢを含む規則から作られた場合は、グラフ作成装置は、ＶＰが受動態である場合を除いて、ＶＥＲＢの主語制限を上の方向に伝達させる。受動態の場合、ＶＥＲＢの最初の目的語制限が伝達される（ステップ１５０）。ＳＥＭＶＰを含む規則の場合には、グラフ作成装置は、ＳＥＭＶＰの選択制限をＳＥＭＶＰから左に移動するときに遭遇するＮＰに適用しようとする（ステップ１５２）。ＳＥＭＡＤＪを含む規則の場合には、グラフ作成装置は、ＳＥＭＡＤＪの選択制限を、最初にＳＥＭＡＤＪから右に移動するときに遭遇する任意のＳＥＭＮＰに適用しようとし、それがうまくいかない場合には、左の方向に移動しようとする（ステップ１５４）。
【００５７】
ＶＥＲＢの任意の残りの未使用の目的語選択制限（受動態であるために上の方向にそれまで伝達していない）に対して、グラフ作成装置は、ＶＥＲＢの右側で遭遇するＳＥＭＮＰに、上記の制限を順番に適用する（ステップ１５６）。これらすべての規則で、動詞選択制限は、それが何かに適用されるとすぐに使い尽くしてしまう。これまでのすべての規則の場合、ＳＥＭＮＰは、それらＳＥＭＮＰに何かが適用された場合には、使い果たされない。この規則からスタートすると、ＳＥＭＮＰは使い尽くされる。最終的に、ある規則がＳＥＭＶＰを作った場合に、グラフ作成装置は、それまで使用されていないＳＥＭＶＰまたはＳＥＭＡＤＪが含まれているかどうかを決定し、含まれている場合には、それを上の方向に向かって伝達する（ステップ１５８）。
【００５８】
システムは、また言語の特性マッチングを行う。言語特性は語句および他の構成要素の特性である。構文の特性マッチングはパーサーが使用し、意味特性マッチングは、グラフ作成装置が使用する。しかし、同一の方式が両者に対して使用される。例えば、「they」は複数という構文特性を持ち、一方「h e」は単数という構文特性を持つ。特性マッチングは、語句の特徴がそれらが適用される語句の特徴がある条件を満たした場合にだけ適用されるように、文法規則にマーク付けを行う。例えば、下記のような規則があるとする。
【００５９】
Ｓ＝ＮＰ｛＠｝+ＶＰ｛＠｝
ここで、記号＠はＮＰおよびＶＰの数の特性が一致しなければならないことを意味する。したがって、この規則は「they are」や「he is」は正しいとするが、「they is」や「he are」は認めない。
【００６０】
特性マッチ制限は、「局所的」と「広範囲」とに分けられる。広範囲の動作は、実際に文が処理されるときにではなく、文法が作成されるときに計算される。そして、実行しなければならない広範囲の動作のシーケンスは、命令バイトとしてコード化される。
【００６１】
「広範囲」特性動作の計算は、ｎ個の要素からなる規則（すなわち、その右側に二つ以上の要素を持っている）でスタートしなければならない。その後、システムは、特性の集合が正しい形で規則間を伝達して終わるように種々の二つの要素からなる規則にコードを割り当てる。ｎ個の要素からなる規則を二つの要素からなる規則に分割することによって、解析作業は非常に単純化される。しかしシステムは、二つの要素からなる規則にまたがって特性の集合を追跡しているので、システムは「広範囲」処理のパワーを保持する。
【００６２】
本発明のシステムでは、辞書は構成している偶々の語句としての取り扱いも行うが、複数の語句で構成する「熟語」も含んでいる。これら二つの形は、最終的には最も適切な翻訳を行うために相互に競い合うことになる。例えば、辞書では「b1ack sheep」の意味は、「持て余し者」として登録されている。しかし、ある場合には、「b1ack sheep」という語句は、「黒い羊」を意味することもある。これらの形は両方とも保持されているので、この熟語としてではない翻訳も、正しい翻訳として選択される。
【００６３】
この熟語は、また別の分類にも属する。例えば、システムは次の三つのタイプの分類を使用することができる。
【００６４】
オールマイティ:United States of America
優先:long ago
普通:b1ack sheep
オールマイティ熟語は、そのシーケンスを構成しているどの語句の可能な解釈よりも優先する。優先熟語は、そのシーケンスを構成している語句が同じ一般的な使われ方をしているときは、いずれの可能な解釈よりも優先する。普通熟語は、同じレベルで他の見出し語と競合する。
【００６５】
その結果得られるグラフは、エキスパート（ステップ１０８、図３）によって評価され、上記エキスパートはグラフの解釈の正確さの可能性を表すスコアを供給する。本発明のシステムは、文全体のみではなく、文の任意の長さのすべての部分に適用される採点方法を含む。グラフを使用するに当たっての重要な要素は、それが非常に多くの文に使用されていたとしても、サブツリーがたった一回だけ完全に採点され、分析されるということである。例えば、「Near the bank there is a bank.」という句においては、「Near the bank」という句は、少なくとも二とおりの意味を持つが、この句の最も適切な解釈はどれかという判断は一回しか行われない。「there is a bank」という句も、同様に二とおりの解釈をすることができるが、これら二とおりの解釈のどれが最も適切であるかという判断は一回だけしか行われない。したがって、この文は異なる四つの意味に解釈できるが、サブ句のスコア付けは一回しか行われない。このグラフのもう一つの特徴は、各ノードが、文のその部分の長さに関して容易にアクセスできる情報を持っていることである。この特徴により、英文を再度分析しなくても、その英文の任意のサブストリングのＮ個の最も適切な解釈を行うことができる。
【００６６】
一回の実行においては、その文の最も適切なＮ個の分析が、その度ごとに得られるが（Ｎは２０程度のある数）、グラフを使用することにより、システムは、もっと小さな構成部分についてのユーザの選択の結果を取り入れることができ、ユーザの選択を尊重したＮ個の最も適切な分析を行う。これらすべての分析は、文の解析を再度行わず、または任意のサブストリングの採点を再度行わないで行われるので、迅速に行うことができる。
【００６７】
図８を参照すると、エキスパート評価子３０の動作は、各翻訳を特徴づけ、種々のエキスパートにより処理される、種々の要因に基づいて行われる。確率規則エキスパート１７０は、最初のソース言語解析ツリーを入手するのに使用される文法規則の平均相対頻度を評価する。選択制限エキスパート１７８は、得られた翻訳の意味上の一致の度合を評価する。辞書見出し語確率エキスパート１７２は、最初のソース言語解析ツリーを入手するめに使用された文のいくつかの語句の特定の「品詞」の平均相対頻度を評価する。統計エキスパートは、ある翻訳のために選択した特定のパラフレーズの平均相対頻度を評価する。
【００６８】
システムは、個別の英語の単語、句、および単語グループに対する英語の「品詞」（ＰＯＳ）を自動的に決定する。システムは、文を翻訳するとき、品詞を自動的に決定し通常は正しい決定を行う。しかし、ときには、翻訳する文それ白身が曖昧であることもある。異なる品詞として解釈することができる語句が含まれているときは、複数の異なるしかもどれも「正しい」解釈が得られることになる。システムのオペレータは、システムが自動的に決定する品詞を無視し、代わりに単語や語句または単語グループに対して手動で任意の品詞を設定することもできる。例えば、「John saw a boy with a telescope.」という英文で、システムのオペレータは、「a boy with a telescope」を名詞句と見なすと、その文を「その少年は望遠鏡を持っていた」という意味に解釈し、「ジョンはその少年を見るために望遠鏡を使用した」という意味には解釈しないことになる。オペレータは、複数の可能な品詞設定を行ったり、より制限のゆるやかな品詞設定を手動で行うことにより、システムが決定する品詞規則を上書きした場合、翻訳結果が悪化したり、少なくとも改善されないという状況が起こることがあります。名詞句は名詞よりも制限がゆるやかであり、グループはもっとも制限が緩やかな品詞設定である。下の表に種々の可能な品詞設定を示す。
【００６９】
品詞（ＰＯＳ）
名詞
名詞句
動詞（他動詞または自動詞）
動詞句
形容詞
形容詞句
副詞
副詞句
前置詞
前置詞句
接続詞
グループ
英語
「形容詞句」や「副詞句」の品詞設定は、ある英文が、システムが特定の前置詞句をどのように解釈するかによって意味が異なるような場合に有効である。例えば、「We need a book on the fourth of July」という文は、「on the fourth of July」が形容詞としての意味を持つと解釈した場合には、「我々は米国の７月４日の独文記念日に関する本がほしい。」という意味になるが、「on the fourth of July」を副詞句と解釈した場合には、「７月４日に、我々は本がほしい。」という意味になる。システムが自動的に「on the fourth of July」に正しくない品詞を割り当てたとオペレータが考えた場合には、オペレータは、「We need a book on the fourth of July」という文の「on the fourth of July」に別の品詞を手動で設定することができる。オペレータが、システムに特定の単語、句または単語グループを英語から日本語に翻訳させたくないときは、このような単語、句または単語グループに『英語』という品詞を設定することができる。オペレータは、設定がシステムにより自動的に行われた場合でも、オペレータにより手動で行われた場合でも、一つまたは複数の品詞設定を除去することができる。
【００７０】
システムは、ユーザごとに複数のレベルで訳語の使われ方の統計情報を追跡する。例えば、システムは、語句の表面形式のレベル（「leaving」が他動詞として、または自動詞として使用された頻度）で統計値を保持し、また意味レベル（「あとに残る」という意味か、または「〜から出発した」という意味か）でも保持し、後者のタイプは「leave」、「leaves」、「left」、「leaving」の異なる変化形ごとに出現回数が積み上げられる。システムは、また最後のいくつかの文で使用された使用統計値とユーザの任意の時間での使用統計値とは区別して保持することができる。さらに、システムは、ユーザが語句の特定の意味を使用するように介入して指示したケースと、システムがユーザの介入を受けずに語句の特定の意味を使用したケースとを区別することができる。
【００７１】
構造調整エキスパート１８２は、ある文の構成部分の長さに関連する特徴で、英語や多くの他のヨーロッパ言語に共通する特徴に基づいている。いくつかの（全てではないが）構造で、これらの言語では、軽い（短い）要素の左側に重い（長い）要素がくるような文は歓迎されない。例えば、
Mary hit Bill with a broom。（左が軽く、右が重い）（適合）
Mary hit with a broom Bill。（左が重く、右が軽い）（不適合）
Mary hit with a broom a dog that tried to bite her.
（左が重く、右がもっと重い）（適合）
ある文の二つの解析があるとき、一方がそのようなシーケンスを避けようとする構造を含む「左が重く、右が軽い」シーケンスを含み、他の解析がそうでない場合には、前者はその文の意図する解釈を表していないと見なされる。このエキスパートは、意図する解析と意図しない解析を区別するための有効な方法である。
【００７２】
「A of B and C」というパターンの同格構造においては、意図する解釈が「A of {B and C}」であるのか、または「A {of B} and C」であるのかを判断するのが難しい場合がある。同格構造エキスパート１８０は、どの同格モードが意味のより近い二つの要素を結合することになるかを決定するために、BC間の意味上の距離、およびAC間の意味上の距離を測定する。このエキスパートは処理中に意味特性ツリーにアクセスする。このエキスパートは、ある文の意図する解析と意図しない解析を区別するための効果的な方法でもある。
【００７３】
英語の多くの語は、普通名詞としての解釈と固有名詞としての解釈とに潜在的な曖昧さを含んでいる。大文字エキスパート１７６は、大文字表記が意味を持っているかどうかを決定するために、文中での大文字の位置を使用する。例えば、下記の文は、
Brown is my first choice.
My first choice is Brown.
第一の文は本来的に意味が曖昧であるが、第二の文は、「Brown」は色の名称ではなく、人名である可能性がはるかに高い点で異なる。このエキスパートは、大文字で始まる語句が文頭にあるのか、または文頭でない場所にあるのか（上の例）、大文字で表示されている語句が辞書に含まれるのかどうか、小文字で始まる語句が辞書に登録されているのかどうか、などの要因を考慮に入れる。このエキスパートは、文中の大文字で書かれた語句を正しく解釈するのに有効な方法である。
【００７４】
文中に最初が大文字の語句の連続を含んでいるとき、その連続は固有名詞または普通名詞として処理される。本発明のシステムは、大文字表記シーケンス手順を使用しており、前者の解釈を優先する。上記シーケンスが、それ自身通常の文法規則により解析できないときは、そのシーケンスは解析していないひとまとまりの名詞句として翻訳しないで処理される。この手順は、出現レベルの低い普通名詞の解釈を完全には無視しないで、複合の固有名詞を処理する非常に有効な手段であることが証明されている。
【００７５】
図７を参照すると、本発明の機械翻訳システムは、簡単な文法規則に基づく構造変換方法の効率を持っているが、テンプレート間構造変換方法の能力にも近い文法規則制御構造変換機構１６２を使用する。この方法は、平らでない複合構造を指定することができる文法規則１６０を使用する。他の翻訳システムで使用されている規則のフォーマットを以下に示す。
【００７６】

本発明のシステムは以下の文法規則のフォーマットを使用する。
【００７７】
【数１】

この構文で、「＃」が前に付いている記号は、文の構造解析の目的では見えない記号であるが、いったん解析が入手できればサブ構造を構築するのに使用される仮想の記号である。
【００７８】
このタイプの文法が与えられたとき、サブ構造のこども関係にあるノードの任意のシーケンスの間で、複数の構造変換を指定することができるようになる。これにより、文法規則に基く構造変換機構はテンプレート間構造変換機構のいくつかの能力を持つ機構に変換される。本発明のシステムは、上記の二番目のタイプの文法規則に基づいているけれども、一番目の形式で対応する文法規則を自動的に作成する。したがって、文を解析するのに、第一の形式の文法規則を使用し、文法解析構造を形成するために第二の形式の文法規則を使用することができる。
【００７９】
構造変換は、また文法規則制御構造変換作業による操作をうけた後で、解析ツリー上で動作するために、辞書１６１にアクセスする辞書制御構造変換作業１６６を含む。その後、生成規則構造変換作業が、目的言語テキスト４１を供給するために、結果として得られた解析ツリーに、生成規則を適用する。
【００８０】
再び、図１および図２を参照すると、システムが上記プロセスにより、最も望ましいとした翻訳を作った後、その翻訳がディスプレイ２０を通してユーザに提供される。その後、ユーザは、その翻訳を採用するか、ユーザ入力装置２２を通して別の解析システム３７を操作することにより手直しができる。手直し作業中、ユーザは、正確に翻訳された翻訳結果の部分はそのままに保持しながら、その他の部分の再翻訳を要求することができる。この作業は、迅速に行える。というのは、システムはエキスパートの重み３１を含むグラフを保持しているからである。
【００８１】
今まで図１〜図９を参照しながら、自動自然言語翻訳システムをある程度詳細に説明してきた。以後は、本発明の種々の改良点について、図１０、図１１および図１２を参照しながら説明する。
【００８２】
図１０を参照すると、自動自然言語翻訳システムの翻訳エンジン１６は、ソース・テキスト２３を受信し、それを目的自然言語テキスト４１に自動的に翻訳する。この翻訳は、本発明の他の観点による「自動領域識別子」機能により影響をうける。この機能により、翻訳エンジン１６は、翻訳を行う際に、領域キーワード２００の一つまたは複数のリスト（図示したのはＮ個）および辞書２０２にアクセスする。辞書２０２は、見出し語が使用される領域により、異なる翻訳を受けとる見出し語を含む。辞書２０２の各見出し語は、ソース自然言語で書かれた一つまたは複数の語句であってもよい。一般的に言って、別々の各領域は領域キーワードのリストを持ち、図１０にはＮ個の領域を示されている。キーワードのリストの各見出し語としては、ソース自然言語で書かれた一つまたは複数の語句も使用することができる。キーワード２００のリストは、図に示すように、辞書２０２から分離することができるし、または矢印２０４で示すように、上記辞書に内蔵させることもできる。
【００８３】
一つの領域は、ある分野の用法または特定の人々に属する用語や用法のパターンのセットを含むことができる。例えば、一つの領域としては、ビジネス通信、マーケティング文書、コンピュータ関連文書、物理学などの技術分野の文書を含むことができる。
【００８４】
辞書２０２は、ある領域関連で使用されたとき、その語句が他の領域で使用されたとき、どの特定の領域でも使用されなかったときにはそれぞれ異なる目的自然言語（例えば、日本語）の訳語を持つ語句が含まれる。キーワード２００は、各領域に関連して、ソース自然言語２３で書かれた特定の文（または、入力文書）が可能な領域の一つに属するかどうかを判断するのに使われる領域指定の語句または用語である。領域キーワード２００の各リストにおいては、各キーワードは、それに関連し、特定の領域に対するキーワードとしての強さを示す数値を持つ。例えば、「コンピュータ」領域リストには、１００%の値を持つ「open-architecture computer」というキーワードを含んでいて、この1００%という値はこのキーワードを含む文が、必ず「コンピュータ」領域の文であることを意味し、「コンピュータ」領域内のキーワード「computer」は、２５%の値を持っており、この２５%という値は、このキーワードを持っ文が「コンピュータ」領域内に存在する可能性がもっと低いことを意味する。
【００８５】
「自動領域識別子」機能で、翻訳エンジン１６は、好適には、その文または文書が特定の領域に属することを確定できるように、文、文書または文書の一部のキーワードの強さの値の合計（あるいは、十分なキーワードが存在するかどうか）を決定する。キーワードがある領域に存在する場合に、辞書２０２においては領域指定語句としてリストされ、しかも翻訳しようとする文や文書に含まれる語句の確率が引き上げられて、文または文書の翻訳が行われる。翻訳エンジン１６が行う上記の決定は、ソース自然言語とキーワードだけに基づく。
【００８６】
翻訳エンジン１６は、例えば、下記の二つのどちらかの方法で、入力テキスト情報２３の少なくともその一部が属する少なくとも一つの領域を決定する。第一の方法は、入力テキスト情報２３の各文に一度に一つずつアドレスし、各領域のキーワードの出現数をカウントすることである。所定の個数と同等以上の数のキーワードを持つ各領域に対しては、翻訳エンジン１６は、その領域に特有の訳語を使用して、目的自然言語４１に翻訳される文に含まれるいくつかの語句の確率を高くする。所定の上記の数は、入力テキスト情報２３のすべての文に同一の値を固定することもできるし、また文ごとに、文の長さ（語句の数）によって変化させることもできる。上記の所定の数は、システム１０によって設定することもできるし、システム１０のユーザが設定することもできる。第二の方法は、最初のＮ単語というように、入力テキスト情報２３の所定の単語数に出現する各領域のキーワード出現数をカウントする方法である。所定の数以上の個数のキーワードを持つ各領域に対しては、翻訳エンジン１６は、その領域に特有の訳語を使用して、目的自然言語４１に翻訳される文に含まれるいくつかの語句の確率を高くする。同様に、所定の数は、システム１０によって設定することもできるし、システム１０のユーザが設定することもできる。
【００８７】
本発明の好適な具体例では、翻訳エンジン１６は、前段落で説明したように、キーワードをカウントすることによってではなく、各領域に対する強さの値の合計を得るために、それぞれのキーワードに関連する強さの値を使用することによって、入力テキスト情報２３の少なくともその一部が属する少なくとも一つの領域を決定する。この好適な具体例の場合には、翻訳エンジン１６は、そうでない場合には、前の段落で説明したように動作する。すなわち、第一の好適な方法では、入力テキスト情報２３の各文は、一度に一つずつアドレスされ、キーワードの強さの合計が所定の数値以上の大きさをもつ各領域に対しては、翻訳エンジン１６は、その領域に特有の訳語を使用して、目的自然言語４１に翻訳される文に含まれるいくつかの語句の確率を高くする。所定の上記の数は、入力テキスト情報２３のすべての文に同一の値を固定することもできるし、また文ごとに、文の長さ（語句の数）によって変化させることもできる。上記所定の数は、システム１０によって設定することもできるし、システム１０のユーザが指定することもできる。第二の好適な方法においては、各領域のキーワードの強さの値の合計は、ソーステキスト２３の最初のＮ単語のように、入力テキスト情報２３の所定の単語数に出現するキーワードによって決定される。キーワードの強さの合計が所定の値以上の値を持つ各領域に対しては、翻訳エンジン１６は、その領域に特有の訳語を使用して、目的自然言語４１に翻訳される文に含まれるいくつかの語句の確率を高くする。すでに説明したように、所定の数は、システム１０によって設定することもできるし、システム１０のユーザが設定することもできる。
【００８８】
「自動領域識別子」機能の一例として、「markup language」および「help desk」が「コンピュータ」領域の領域キーワードのリストに含まれていて、「end users」は、「end users」が「コンピュータ」領域で使用されるかどうかによって二つの別の訳語を持つとする。次の文がソーステキスト２３の一部であるとき、
Markup language should be easily used by end users without being supported by help desk.
「自動領域識別子」機能に従って、翻訳エンジン１６は、「コンピュータ」領域の二つのキーワード、「markup language」および「help desk」を発見する。「コンピュータ」領域のこれら二つのキーワードを見つけることにより、翻訳エンジン１６は、しきい値を基に、その文が「コンピュータ」領域の文であることを決定することができる。その文が「コンピュータ」領域に属するものであると決定されると、翻訳エンジン１６は、そのあと、ユーザに提供される目的自然言語テキスト４１に翻訳する「コンピュータ」領域に特有の「end users」の訳語が使われる機会を増大するように、「コンピュータ」領域に特有の「end users」の訳語の確率を引き上げる。文ごとにこの機能が働くモードのほかに、「自動領域識別子」機能は、入力テキスト全体に働くこともできる。例えば、翻訳エンジン１６は、特定の領域に対応するキーワードの定められた個数が、ソーステキスト２３の最初のｎ単語（ｎはある整数）内に存在すれば、ソーステキスト２３全体が「コンピュータ」領域に属するかどうかを決定することができる。この全テキストモードの場合には、辞書２０２に含まれる領域特有の訳語を持つソーステキスト２３のすべての語句は、その領域特有の訳語を使用して翻訳される。
【００８９】
図１１を参照すると、自動自然言語翻訳システム１０の翻訳エンジン１６は、ソーステキスト２３を受信し、それを自動的に目的自然言語テキスト４１に翻訳するが、この翻訳は本発明の他の特色による文法規則２０６の種々の規則に適用されるいくつかの設定やマーク付けにより影響を受ける。これらの設定は、「オールマイティ」や「品詞優先」である。システム１０の翻訳エンジン１６は、「オールマイティ」または「品詞優先」とマーク付けすることができる文法規則２０６を使用して、ソース自然言語２３の文を解析するパーサー２６を持つ。パーサー２６は、オールマイティ規則が適用されるソース自然言語２３のどの部分に対しても、すべての他の規則の適用を阻止する規則として、「オールマイティ」とマーク付けが行われている文法規則を使用する。パーサー２６は、特定の品詞と同じ品詞に関連する他の規則だけを阻止する規則として、「品詞優先」とマーク付けが行われている文法規則を使用する。マークが付けられていない文法規則は、他の規則に対して優先権を持たない。文法規則に「オールマイティ」または「品詞優先」のマークを付けることは、そうでない場合には、システムの翻訳エンジン１６によって作られるツリー構造から、不要な解析枝を削りとる非常に有効な方法である。文法規則へのこのマーク付けは、また翻訳エンジン１６か、上記マーク付けをしない場合には作らなければならない大きなツリー構造を作る必要がなくなり、また上記マーク付けをしない場合には大きくなるツリー構造を記憶する必要がなくなるので、時間の点でも記憶容量の点でも、さらに解析を効率的に行うことができる。
【００９０】
この文法規則のマーク付け機能の例として、文法規則が次の三つの規則を含むとする。
【００９１】
（１）名詞＝数＋ハイフン（−）＋序数の百（例えば、three-hundredth）
（２）名詞＝名詞＋ハイフン（−）＋名詞（例えば、school-building）
（３）名詞句＝数＋名詞（例えば、one book）
また、システム１０は次の三つの見出し語を含む辞書を使用するとする。
【００９２】

これらの文法規則と辞書の見出し語があるとき、ソーステキストに含まれる単語列「one eighteen-hundredth」は以下の二つの方法により解析できる。
【００９３】
【数２】

文法規則（１）に「オールマイティ」というマーク付けがされていると、「one eighteen-hundredth」という単語列の他のすべての解析（上記の第二の解析のように）は除外されてしまうので、これら二つの解析では一番目が使用される。他のすべての規則を支配するオールマイティ規則（１）が使用される。文法規則（１）が「品詞優先」のマーク付けをされているときは、同様に二番目よりも一番目の解析が選択されるが、この場合は、規則（１）と規則（２）が同じ品詞をアドレスしており、制御（すなわち、品詞優先）マークが付加された規則（１）により、文法規則（１）が単語列の解析に使用される。次の例が示しているように、「オールマイティ」と「品詞優先」は別のものであり、「オールマイティ」マークが付けられている規則で翻訳したときは、「品詞優先」マークが付けられている場合と、必ずしも同じ結果を生じない。
【００９４】
次の四つの文法規則で、第三の規則には、「品詞優先」のマークが付けられているとする。
【００９５】
（１）名詞＝名詞＋名詞
（２）名詞句＝名詞
（３）名詞句＝数＋名詞｛品詞優先｝（例えば、in FOUR DAYS）
（４）副詞句＝数+副詞的名詞（例えば、I work FOUR DAYS a week）
また、システム１０は、次の見出し語を含む辞書を使用する。
【００９６】

このような文法規則と辞書の見出し語があるとき、ソーステキストに含まれる単語列「I work four days」は、下記の三つの方法と句レベルで解析できる。
【００９７】
【数３】

「品詞優先」とマークされている文法規則（３）の場合には、文法規則（３）は同じ単語列（「four days」）を、同じ品詞である名詞句として解析するような他のすべての文法規則の適用を排除し、文法規則（２）は「fou days」を名詞句として解析しているから、上記三つの解析の一番目が第二の解析よりも優先して使用される。しかし、品詞として名詞句とは別の副詞句を持っているから上記の第三の解析が排除されるというわけではない。このように、文法規則（３）を「オールマイティ」とマークすると、ほかのどの文法規則（３）も適用されないようになるが、文法規則（３）を「品詞優先」とマークすると、文法規則（３）と同じ品詞をアドレスする他の規則だけが除外される。
【００９８】
図１２を参照すると、自動自然言語翻訳システム１０の翻訳エンジン１６は、ソーステキスト２３を受信し、それを自動的に目的自然言語テキスト４１に翻訳するが、この翻訳は本発明の他の特色による辞書の見出し語と関連づけられた確率値により影響を受ける。この確率値特性に従って、翻訳エンジン１６のパーサー２６は、最終のツリー構造の構成要素になる確率が非常に低いか、絶対的に構成要素にはならないとマークされている見出し語を含む辞書２０８を使用する。辞書２０８は、複合語の見出し語を含み、それら見出し語の少なくとも一つには、非常に低い確率の値がマークされていて、ソース自然言語２３のどの文の正しい解析ツリーにおいても指定の品詞として機能する確率がほとんどないことを示す。マークが付いている見出し語が、ある入力文の解析ツリー構造に含まれている場合には、そのマークが付いている見出し語に関連する確率の値が低いために、その解析ツリーがその文に対して正しいものである確率は非常に低くなる。確率の値をこのように使用することによって、システム１０の翻訳エンジン１６によって作られたツリー構造の除去効果をもつことができる。
【００９９】
確率の値の使用例として、次の複合語の見出し語を含む辞書があるとする。
【０１００】

この場合、Ｐ（ｎ）は、与えられたソーステキスト文で見出し語「in today」が実際に前置詞句であるという想定した確率値を奏す。Ｐ（ｎ）は、その辞書の通常の複合語の見出し語と比較すると無限に小さな数値に設定してあるとする。入力文は次の文である。
【０１０１】
He didn't come in today.
この文は構文的に曖昧で、次の二つの文のように解釈できる
He didn't {come in} today.
と
He didn't come {in today}.
（in today）は、一致する辞書の見出し語の関連する確率が非常に無限に小さい値、Ｐ（ｎ）を持っているから、この文が第二の文として解析される確率は非常に少なくなる。「in today」には品詞優先のマークが付いているので、通常の確率の値を与えることができる前置詞句として解析する以外の解析がない。このように、この文の不適切な解析は低く評価される。「in today」に対するＰ（ｎ）がゼロに設定されている場合には、パーサーは、上記文の解析を行うのに「in today−前置詞句」を全く使用しない。しかし、この特定の例でいえば、次のような文で使われることがあるので、Ｐ（ｎ）をゼロに設定するのは望ましくない。
【０１０２】
I am interested in today, and not in tomorrow.
この場合、「in today」を前置詞句として解析するのが妥当である。ゼロの代わりに低いＰ（ｎ）値を使用すれば、好ましくない文法構造解析である。
【０１０３】
He didn't come {in day}.
を除外することができ、一方で、
I am interested in today, and not in tommorow.
を、「in today」を前置詞句として解析するように、正しく解析することができる。
【０１０４】
上記のすべての機能と処理は、汎用コンピュータに組み込まれた種々のハード配線論理設計および／またはプログラミング技術により実装することができる。フローチャートに示したステップは、通常、順序どおりに適用する必要はなく、いくつかのステップを組み合わせることができる。また、このシステムの機能は、種々の形でプログラムとデータに振り分けることができる。さらに、文法や他の操作規則を、コンパイルしたフォーマットでユーザに提供する一方で、一つまたは複数のハイレベル言語で開発しておけば有利である。
【０１０５】
本明細書に開示したすべての機能を含めて、上記の自動自然言語翻訳システムの具体例のいずれも、汎用コンピュータ（例えば、アップル・マッキントッシュ、ＩＢＭＰＣと互換機、ＳＵＮワークステーション等）で実行できるディスクや光学的コンパクト・ディスク（ＣＤ）のようなコンピュータが読み取れる媒体のコンピュータ・ソフトウェアとして提供することができる。
【０１０６】
通常の当業者であれば、請求の範囲に記載した本発明の精神および範囲から逸脱することなく、本明細書に記載した発明を様々に変更したり、修正したり別に実装することができるだろう。従って、本発明は上記の例示としての説明によってではなく、下記の請求の精神と範囲によって定義される。
【図面の簡単な説明】
各図中、同じ参照番号は、一般的に、別の図面であっても同じ部品を示す。また図面は必ずしも同一の縮尺ではなく、一般的に本発明の原理を説明することに重点を置いている。
【図１】本発明の自然言語の自動翻訳を行うシステムのブロック図
【図２】図１のシステムの全体的な機能を示すデータのフローチャート
【図３】図１のシステムの動作を示すフローチャート
【図４】図１のシステムのプリパーサーの文末認定機能の動作を示すフローチャート
【図５】図１のシステムのパーサーの動作を示すフローチャート
【図６】図１のシステムの意味伝達の動作を示すフローチャート
【図７】図１のシステムの構造変換の動作を示すフローチャート
【図８】図１のシステムのエキスパート評価子のフローチャート
【図９】例示としての句「by the bank」に対して、図１のシステムが使用するサンプル・グラフを示す図
【図１０】自動自然言語翻訳システムが実行する、本発明の一つの局面による「自動領域識別子」機能の図
【図１１】自動自然言語翻訳システムが実行する、本発明の別の局面によるひとつの特徴であり、ソーステキストを目的自然言語に翻訳するのにどの文法規則を適用するかに影響を与える特性の図
【図１２】自動自然言語翻訳システムが実行する、本発明のさらに別の局面のよるひとつの特徴であり、不適切な翻訳を除去するために辞書の見出し語に付けられた確率の値を含む機能の図

Claims

複数の文法規則が記憶された記憶装置と、
前記複数の文法規則を用いて、ソース自然言語で書かれた入力テキスト情報を目的自然言語で書かれた出力テキスト情報に翻訳する翻訳エンジンと
を備え、
前記複数の文法規則のうちの少なくとも１つは、文法制御規則として指定されており、
前記翻訳エンジンは、
前記複数の文法規則のうち、前記入力テキスト情報の少なくとも一部に適用され得る複数の文法規則からなる文法規則のグループを決定する決定手段と、
前記文法規則のグループの前記複数の文法規則のうちの１つが前記文法制御規則として指定されている場合には、前記入力テキスト情報の少なくとも一部に前記文法制御規則を適用するとともに、前記文法規則のグループの前記複数の文法規則のうち前記文法制御規則以外の文法規則を無視するように、前記入力テキスト情報の翻訳を制御する制御手段と
を含む、自動自然言語翻訳システム。
前記複数の文法規則のそれぞれは、少なくとも１つの品詞のうちの１つに関連しており、
前記複数の文法規則のうちの少なくとも１つは、前記少なくとも１つの品詞のうち特定の品詞に関連する文法制御規則として指定されており、
前記決定手段は、前記入力テキスト情報の少なくとも一部に適用され得る複数の文法規則からなる文法規則のグループを決定し、
前記制御手段は、前記文法規則のグループの前記複数の文法規則のうちの１つが前記特定の品詞に関連する文法制御規則として指定されている場合には、前記入力テキスト情報の少なくとも一部に前記文法制御規則を適用するとともに、前記文法規則のグループの前記複数の文法規則のうち、前記特定の品詞に関連し、かつ、前記文法制御規則以外の文法規則を無視するように、前記入力テキスト情報の翻訳を制御する、請求項１に記載の自動自然言語翻訳システム。