JP2001503540A

JP2001503540A - アノテートされたテキストの自動翻訳

Info

Publication number: JP2001503540A
Application number: JP50176398A
Authority: JP
Inventors: ジー．プリングル，ルイズ; ダブリュー．スワードロウ，ロバート; ウィソカー，アレク
Original assignee: Logovista Corp
Current assignee: Logovista Corp
Priority date: 1996-06-14
Filing date: 1997-06-09
Publication date: 2001-03-13
Also published as: WO1997048058A1

Abstract

(57)【要約】アノテートされた第１自然言語でのソース文書を、対応しているアノテーションを有する第２の自然言語でのターゲット文書に翻訳するためのシステムおよび方法であって、コンピュータ・メモリと、第１言語での入力テキスト情報を受け取るため、およびコンピュータのメモリに入力テキスト情報を格納するためのコンピュータの受取りモジュールと、アノテーションを含んでいる入力テキスト情報と、第１言語のトークン、その第１言語のトークンに適用されるアノテーション・トークン、およびエンディング・トークンを含んでいる第１トークン・ストリングを生成するための翻訳エンジンとを含む。翻訳に先立って、アノテーション・トークンが第１トークン・ストリングから取り除かれ、そして複数のアノテーション・レコードが第１言語のトークンに対して生成され、各アノテーション・レコードは第１言語トークンの一つを、その第１言語トークンに対して適用される各アノテーション・トークンに対してリンクしている。第１言語のトークンが第２言語のトークンに翻訳された後、アノテーション・トークンが第２トークン・ストリングの中の適切な場所に挿入される。これらの場所は文末トークンおよびアノテーション・レコードを使って決定され、そして第２トークン・ストリングおよびアノテーションを使って、ターゲット文書が第２言語で作り出され、したがって、ターゲット文書の中にソース文書のアノテーションが再生成されている。

Description

【発明の詳細な説明】アノテートされたテキストの自動翻訳関連出願および関連特許への相互参照本出願は、日本および米国を指定している、特許協力条約（ＰＣＴ）を経由して１９９６年４月２３日に米国の受理官庁で受け付けられた国際特許出願、ＰＣＴ／ＵＳ９６，０５５６７号および日本および米国を指定して１９９６年６月14 日に米国の受理官庁で受け付けられた国際特許出願ＰＣＴ／ＵＳ９６／１０２８３号の一部継続出願である。また米国特許第５，５２８，４９１号も関連の特許であり、その内容全体を引用によって本明細書の記載に援用する。技術分野本発明は、自然言語の自動翻訳に関し、その中で、アノテーションを有しているソース文書が、翻訳においてそのアノテーションを保存しながら、別の言語に自動的に翻訳される。たとえば、英語でのＨＴＭＬ文書を、等価な日本語のＨＴＭＬ文書に自動的に翻訳し、ワールド・ワイド・ウェブのページが、そのページの元の英語バージョンにおけるフォーマッティングおよび存在しているハイパーリンクを保存しながら、日本語で見ることができる。背景情報自然言語の機械翻訳のために各種の方式が提案されてきている。代表的には、その翻訳に使われるシステムはある言語での入力を受け取り、その受け取られた入力について操作を実行して別の言語での出力を供給するコンピュータを含む。このタイプの翻訳は不正確なものであり、その結果の出力は熟練者による大幅な編集を必要とし得るものだった。これまでのシステムによって行われる翻訳の操作は一般に構造変換の操作を含む。構造変換の目的は、ソース言語の文章の与えられたパースツリー（すなわち、構文構造ツリー）を、目的言語における対応するツリーに変換することである。２つのタイプの構造変換、すなわち、文法規則ベースの変換およびテンプレートからテンプレートへの変換が試みられてきた。文法規則ベースの構造変換においては、その構造変換の範囲はソース言語のパース・ツリーを得るために使われた文法規則の範囲（すなわち、与えられたノードのすぐ下の階層である一組のサブノード）に制限される。たとえば、ＶＰ＝ＶＴ０１＋ＮＰ（一つの動詞句が目的語を一つとる他動詞および名詞句から、その順序で構成されている）、そして、日本語：１＋２＝＞２＋１（ＶＴ０１とＮＰの順序を逆にする）、が与えられた場合、その規則の適用に関与するソース言語の各パース・ツリーは、その動詞と目的語の順序が逆にされるような方法で構造的に変換される。というのは、日本語においては動詞がその目的語の右側に現れるからである。この方法は指定された変換が適用される場所を決定するのが容易であること、その規則がソース言語のパース・ツリーを得るために使われた場所において正確に適用されることにおいて、非常に効率的である。他方、その範囲が上記のように、極端に制限される可能性があること、そして子供ではないノードにまたがる変換規則を自然言語が要求する可能性があることにおいて、弱い変換機構であり得る。テンプレートからテンプレートへの構造変換においては、構造変換が入力／出力（Ｉ／Ｏ）テンプレートまたはサブツリーの形で指定される。与えられた入力テンプレートが与えられた構造ツリーにマッチした場合、そのテンプレートによってマッチされた構造ツリーの部分が、対応している出力テンプレートによって特定されているように変更される。これは非常に強力な変換機構であるが、与えられた入力テンプレートが与えられた構造ツリーのどの部分にマッチするかを見つけるために長い時間がかかる可能性があることにおいて、費用がかかる可能性がある。従来のシステムは品詞の設定などのテキストの中のアノテーション、すなわち、＜ＶＥＲＢ＞、＜ＮＯＵＮ＞、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）および標準の一般化されたマークアップ言語（ＳＧＭＬ）を翻訳する。しかし、そのようなシステムは元の文書の中のテキスト、元の内容、意味、およびアノテーションの型の翻訳されたバージョンを保存する機能が貧弱であることが多い。そのようなシステムの一つにおいては、ＨＴＭＬおよびＳＧＭＬのマークアップが隣にあった元のテキストの中のワードに対応する翻訳されたワードに隣接して、翻訳されたバージョンのテキストの中に置かれる。この挿入の方法は、マークアップが隣接している翻訳されたテキストの中のワードに対して正しく適用されないため、あるいはマークアップが翻訳されたバージョンのテキストを通じて実行されるべきではなかったために、翻訳されたバージョンのテキストが不正確になることが多い。したがって、本発明の目的は、ソース文書の中に存在しているアノテーションを保存し、そのアノテーションをターゲット文書の中の適切な場所に挿入しながら、第１の言語でのソース文書を第２の言語でのターゲット文書に翻訳するためのシステムおよび方法を提供することである。発明の概要本発明による自動自然言語翻訳システムは既知のマシン・ベースの翻訳機に比べて多くの利点を有している。本発明のシステムが入力テキスト情報のもっともよい翻訳を自動的に選択し、出力（好適には英語の入力テキストの日本語またはスペイン語への翻訳）をユーザに提供した後、次にユーザはシステムとインターフェースをとり、その表示された翻訳を編集するか、あるいは代わりの翻訳を自動的に得ることができる。システムによってオペレータは自分が受け入れ可能であると考える翻訳の部分だけを保持し、残りの部分を自動的に再翻訳させることができので、本発明の自動自然言語翻訳システムのオペレータはさらに生産性を上げることができる。この選択的再翻訳操作は再翻訳を必要とする部分に正確に向けられるので、オペレータは時間が節約でき、また、誤りを多く含む可能性はあるが、高い格式の翻訳について考える退屈な時間を節約することができる。さらに、このシステムは任意の粒度で翻訳できるので、その翻訳の最終構造より多くのものが普通はシステムによって発生される。したがって、このシステムは人間（オペレータ）の誤りに対する可能性を減らし、そして構造、一致、および時制の変更を伴う可能性のある編集における時間を節約することができる。このシステムは文法とスペルについての広範な、そして信頼できる知識の全面的な恩恵をオペレータに効率的に提供する。この自動自然言語翻訳システムの、ソース言語におけるあいまいな文章境界の多彩な取扱い、その強力な意味論的伝播によってさらに高い精度が提供され、そして翻訳のオペレータによる編集の労力が減らされる。また、記憶されている統計的情報も、個別のユーザサイトに対して好ましい翻訳を仕立て上げることによって翻訳の精度を改善する。このシステムの熟語を処理する方法は、その熟語の意味を意図することなしに、その熟語を構成しているワードのシーケンスをたまたま含む文章が、正しく翻訳することができるということにおいて有利である。このシステムは効率的であり、しかも長距離フィーチャー・マッチングなどの多様な機能を備えている。このシステムの構造的調整エキスパートおよび同格構造エキスパートは、意図されたパースと意図されていないパースとを効果的に区別する。大文字化エキスパートは文章の中の大文字で書かれたワードの正しい解釈を効果的に獲得し、そして大文字化されたシーケンスの手順は普通名詞の解釈を完全には無視せずに、複合語の固有名詞を効果的に処理する。本発明は、自動自然言語翻訳システムの改善に関する。その改善は英語などのソース言語、すなわち、第１自然言語で書かれたアノテーションを有する入力のテキスト情報を、日本語またはスペイン語などの目的言語、すなわち、第２自然言語で保存されたアノテーションを伴う出力のテキスト情報に翻訳することに関する。ソース文書の中のアノテーションは品詞の設定、ハイパーテキスト・マークアップ言語（「ＨＴＭＬ］）のマークアップ、標準の一般化されたマークアップ言語（「ＳＧＭＬ」）のマークアップ、リッチ・テキスト・フォーマット（「ＲＴＦ」）のマークアップおよびノンタイプセッティング・ランオフ（「ＮＲＯＦＦ」）のマークアップを表すことができる。本発明においては、アノテーションを翻訳に先立って取り除くこと、アノテーション・データベースの中に格納すること、およびソース・テキストの翻訳バージョンの中の適切な場所にシステムによって挿入することができる。本発明のシステムはテキストを表しているワード・トークン、アノテーションを表しているアノテーション・トークンおよび、文章の区切りを表しているエンディング・トークンおよびソース文書の文章の終りを表しているエンディング・トークンを含むトークン・ストリングを生成することを含む新しいプロセスを採用する。翻訳の間にワード．トークンが変換され、そしてアノテーション・トークンが処理されるか、さもなければ取り除かれるとき、そのトークン・ストリングが翻訳機を通過する際にトークン・ストリング中に手が付けられずにそのまま残っているトークンはエンディング・トークンだけである。したがって、第１言語でのソース文書の中に現われたときに、元のワード・トークンおよびアノテーション・トークンに関連している情報を提供するために、エンディング・トークンがシステムによって使われる。アノテーション・トークンは文書状態データベースの中に格納され、その文書の中の他のすべてのトークンとリンクされ、その文書の中の任意のワード・トークンに対するアノテーションを決定することができるようにされる。この方法で、アノテーションは翻訳されたターゲット文書の中の適切な場所に挿入される。一つの態様においては、このシステムはテキストおよびアノテーションを有している複数の文章を含んでいる第１言語で書かれたソース文書を受け取り、複数の第１言語トークンおよびソース文書の中での出現順に配置された複数のアノテーション・トークンを含んでいる第１トークン・ストリングを生成する。さらに、ソース文書の中の文章の終りを表すために複数の文末トークンが、そのトークン・ストリングの中に挿入される。本発明の一つの態様においては、翻訳に先立って複数のアノテーション・トークンがトークン・ストリングから取り除かれ、記憶モジュールの中に格納され、そしてその記憶モジュールの中の文末トークンに対してリンクされる。第１言語のトークンが翻訳されて、第２の言語のトークンがターゲットの自然言語で生成される。次に、文末トークンがアノテーション・トークンおよび、第１言語のトークンと第２言語のトークンとの間のリンクをメモリから呼び出すために使われ、元のソース文書を再生し、そのアノテーション・トークンがどこに挿入されるべきかを決定する。複数の各アノテーション・トークンを挿入するための場所を決定すると、アノテーション・トークンがソース文書の中に挿入され、その後、それらそのターゲツト文書またはソース文書の追加の処理が必要であれば、参照ツールとして格納しておいて使うことができる。さらに、翻訳の間に、未定義の第１言語トークンを記憶モジュールの中に格納しておき、そして翻訳の後に未定義の第１言語トークンのリストをそのシステムのユーザに対して提供することができるように、文末トークンに対してリンクしておくことができる。本発明のもう一つの態様においては、このシステムはコンピュータ手段を含み、そのコンピュータ手段はコンピュータの入力装置によってコンピュータ手段に対して送信される第１言語の入力のテキスト情報を受け取るための受取りモジュールと、処理モジュールと、翻訳エンジンと、記憶モジュールとを備えている。受取りモジュールはテキストおよびアノテーションを含んでいる第１言語でのソース文書を受け取る。処理モジュールはソース文書を使って第１トークン・ストリングを生成する。そのトークン・ストリングは複数の第１言語トークン、複数のアノテーション・トークン、および複数の文末トークンを含む。各文末トークンはテキストの中の不連続点に対応している場所において第１トークン・ストリングの中に挿入される。翻訳エンジンは複数のアノテーション・トークンを第１トークン・ストリングから取り除き、複数の第１言語トークンを複数の第２言語トークンに翻訳して第２トークン・ストリングに入れ、そしてターゲット文書を生成する。この具体例においては、次に複数の文末トークンを使って再生されたソース文書の中にアノテーションを挿入することができる。代わりの具体例においては、アノテーションはターゲット文書の中に挿入される。記憶モジュールはアノテーション・トークンを格納するためのアノテーション・データベースを含む。その中でアノテーション・トークンは文末トークン、第１言語のトークンを格納するための辞書ソース・データベースおよび第２言語のトークンにリンクされ、その中で、文末トークンはデータベースの中での第１言語のトークンと第２言語のトークンとの間のリンクを提供し、未定義の第１言語トークンを格納するための未定義トークン・データベースの中では、文末トークンはその未定義トークン・データベースの中の未定義の第１言語トークンに対するリンクを提供する。本発明のもう一つの態様においては、システムはソース・テキストの中のＨＴＭＬマークアップ、ＳＧＭＬマークアップ、ＲＴＦマークアップおよびＮＲＯＦＦマークアップなどのアノテーションを保存する。本発明の一つの態様においては、処理モジュールがソース文書の中のＨＴＭＬマークアップを表すＨＴＭＬトークンを生成する。記憶モジュールは、ＨＴＭＬのマークアップが適用される第１トークン・ストリングの中に、各第１言語トークンとＨＴＭＬマークアップをリンクするためのマークアップ・データベースをさらに含む。さらに、翻訳エンジンはそのマークアップ・データベースにアクセスし、第２のトークン・ストリングを第１言語のトークンにリンクされているＨＴＭＬマークアップと比較し、第２のトークン・ストリングの中でそのＨＴＭＬマークアップが挿入されるべき場所を決定することができる。本発明のさらにもう一つの態様においては、第１言語でのアノテートされたソース文書を、対応しているアノテーションを備えた第２言語でのターゲット文書に翻訳するための方法は、テキストおよびアノテーションを有している複数の文章を含んでいる第１言語でのソース文書を受け取り、そのソース文書を使って第一トークン・ストリングを生成し、その第１トークン・ストリングは複数の第１言語トークンおよびその第１言語トークンに対して適用される複数のアノテーション・トークンを含み、第１トークン・ストリングからアノテーション・トークンを取り除き、第１言語トークンに対する複数のアノテーション・レコードを生成し、各アノテーション・レコードは第１言語のトークンに対して適用される各アノテーション・トークンに対する第１言語トークンのうちの一つにリンクしており、アノテーション・レコードを文書状態データベースの中に格納し、複数の第１言語トークンを翻訳し、複数の第２言語トークンを含んでいる第２トークン・ストリングを生成し、そのアノテーション・レコードを使って、そのアノテーション・トークンが第２のトークン・ストリングの中のどの場所に挿入されるべきかを決定し、そしてその第２トークン・ストリングを使って第２言語でのターゲット文書を生成する。本発明のさらにもう一つの態様においては、アノテーション、特にＨＴＭＬマークアップのアノテーションを翻訳の間に保存する方法は、アノテーション・トークンのどれかがＨＴＭＬ文字を含むかどうかを判定するステップと、そのＨＴＭＬ文字が文字エンティティの参照を含むかどうかを判定するステップと、その文字エンティティ参照に対して文字を置き換えるステップと、ＨＴＭＬ文字を含んでいるアノテーション・トークンのうち第２トークン・ストリングの中に保存する必要がないものを判定するステップと、保存される必要のないアノテーション・トークンを削除するステップと、第１トークン・ストリングの中のトークンのうち翻訳される必要がないものを判定するステップと、翻訳される必要のないトークンを第１トークン・ストリングから取り除くステップと、その取り除かれたトークンを格納するステップと、そしてそのトークンが取り除かれた場所においてマーカ・トークンを第１トークン・ストリングの中に挿入するステップとを含む。本発明のさらにもうひとつの態様においては、翻訳時にアノテーションを保存するための方法は、アノテーション・トークンがソース・テキストの中のセクションの段落箇所、または文章の終りなどの不連続点を表すかどうかを判定するステップと、その不連続点を表すエンディング・トークンを第１トークン・ストリングの中に挿入するステップと、そのエンディング・トークンによってインデックスされるデータベースの中に、その不連続点まで第１トークン・ストリングの中のトークンを格納するステップとを含む。本発明のさらにもう一つの態様においては、アノテーションを保存するためのシステムはソース文書を編集するなどのユーザ入力を受け取るための手段と、代わりのワード・トークンを作り出すための別のテキスト・プロデューサと、ユーザからの入力を処理してユーザに対して翻訳のオプションを提供するための代わりのトランスレータとを含む。本発明のこれらの特徴および他の特徴は、付属の図面と一緒に読まれるべき以下の詳細説明を参照することによって、より完全に理解される。図面の簡単な説明図面の中では、同様な参照文字は一般に異なるビュー全体を通して同じ部分を参照する。また、図面は必ずしも寸法が分かるようになってはおらず、代わりに、本発明の原理を示すことに一般的に重点が置かれている。図１は自然言語の自動翻訳を実行するためのシステムを示すブロック図である。図２は図１のシステムの総合的な機能を示すデータ流れ図である。図３は図１のシステムの動作を示す流れ図である。図４は図１のシステムのプリパーサーの文章の終りの機能の動作を示す流れ図である。図５は図１のシステムのパーサーの動作を示す流れ図である。図６は図１のシステムの意味的伝播動作を示す流れ図である。図７は図１のシステムの構造変換操作を示す流れ図である。図８は図１のシステムのエキスパート評価子を示す流れ図である。図９は「ｂｙｔｈｅｂａｎｋ」というフレーズの例に対する図１のシステムによって使われる例のグラフの図である。図１０は本発明の一つの実施例に従って、自然言語の自動翻訳およびテキストの中のアノテーションの保存を実行するためのシステムを示すブロツク図である。図１１は図１０の実施例に従って、自然言語の自動翻訳およびテキストの中のアノテーションの保存を実行するための、システム全体を通じてのトークン・ストリングの流れを示すブロック図である。図１２は図１１のシステムのアノテーションの保存動作を示す流れ図である。図１３は本発明の別の実施例に従って、自然言語の自動翻訳およびテキストの中のアノテーション、特にＨＴＭＬマークアップの保存を実行するためのシステムを示すブロック図である。図１４は自動翻訳およびテキストの中のアノテーションの保存を実行するための、図１３のシステム全体を通じてのトークン・ストリングの流れを、別の具体例の中で示すブロック図である。図１５は図１３のシステムのアノテーションの保存動作を示す流れ図である。図１６はメモリの中に格納されているアノテーション・レコードの一例を示す図である。図１７は翻訳されたトークン・ストリングの中の適切な位置にアノテーションを挿入する方法を示す流れ図である。図１８は自然言語の自動翻訳およびテキストの中のアノテーションの保存を実行し、その中でユーザが変換の代替方法から選択することができるようになっているシステム全体を通じてのトークン・ストリングの流れを、別の実施例において示すブロック図である。説明本発明による自然言語の自動翻訳システムの一般的な説明が、先ず最初にどの図面も参照せずに以下に提供される。そのシステムの一般的な説明の後、各種の図面に対する参照が行われる。自然言語の自動翻訳システムはソースの自然言語からターゲットの自然言語へ翻訳することができる。一つの実施例においては、そのシステムは英語から日本語へ翻訳する。別の実施例においては、そのシステムは日本語から英語へ翻訳する。そのシステムはソースの自然言語を受け取って格納するための手段と、ターゲットの自然言語への翻訳を生成するための翻訳エンジンと、その翻訳をユーザに対して表示するための手段と、ユーザに対してユーザの別翻訳を得て、それをユーザに対して表示するための手段とを含む。このシステムの別の実施例においては、翻訳エンジンはプリパーサー、パーサー、グラフ・メーカー、評価子、グラフ・スコアラー、パース・エキストラクタ、および構造コンバータを含む。プリパーサーは入力のテキストを調べ、入力シーケンスの境界におけるあいまい性を解消する。次にプリパーサーは辞書エントリーがシードされたパース・チャートで入力テキストを生成し、表示する。パーサーはそのチャートをパースして、入力テキストに対する可能な構文的カテゴリを得る。グラフ・メーカーはパース・チャートに基づいて入力テキストの可能な構文的解釈のグラフを作成する。そのグラフは入力テキストの可能な解釈に関連付けられているノードおよびサブノードを含む。一連のエキスパートを含む評価子は可能な解釈のグラフを評価し、そしてそのグラフのノードおよびサブノードに対してエキスパートの重みを追加する。グラフ・スコアラーはそのエキスパートの重みを使ってサブノードのスコアを決め、そして次にＮ個の最善のスコアを各ノードに関連付ける。パース・エキストラクタはグラフ・スコアラーによって決定された好ましい解釈に対してパース・ツリー構造を割り当てる。構造コンバータはそのパース・ツリー構造について構造変換操作を実行して目的言語での翻訳を得る。次の３つのパラグラフにおいては、（ａ）グラフ・スコアラーがエキスパートの重みを組み合わせて、各サブノードに対する最終の加重スコアを計算する方法；（ｂ）グラフ・スコアラーがそのサブノードのスコアを組み合わせて、最終のノード・スコアに到達する方法；および（ｃ）言語情報がノードおよびサブノードのツリーを通じて伝播される方法についての説明が提供される。各サブノードに対して最終の加重スコアを計算するために、グラフ・スコアラーは一定の値を各サブノードと関連付ける。各サブノードに関連付けられた言語情報の解析によって、サブノードのスコアが決定される。たとえば、図８を参照されたい。この図の中では、一連のエキスパート評価子が各ノードおよびサブノードにおいて格納されている言語情報を調べる。グラフ・スコアラーは各エキスパートに対して個々に加重スコアを合算して、特定のノードまたはサブノードに対する最終の加重平均を得る。複数の加重スコアを組み合わせて単独の加重平均スコアにすることは、コンピュータ科学における標準問題である。使用することができる一つの方法は、各エキスパートの結果をそのエキスパートに対して割り当てられている一定の数値（重み）で乗算することである。各エキスパートに対して関連付けられているその重みは、設計の選択の問題である。設計者は各エキスパートに割り当てるための優先度（重み）を選定することができる。その加重平均は各数が定数で乗算される一連の数値の合計である。たとえば、次のように表される。加重平均＝（ｗ₁）（ｘ₁）＋（ｗ₂）（ｘ₂）＋．．．＋（ｗ_n）（ｘ_n）ここで、重み、ｗ₁、ｗ₂、．．．ｗ_nはすべて、マイナスではない値であり、その合計が１になる。たとえば、統計学的な期待値におけるコンテキストにおける、加重平均の使用を説明しているシュピーゲル（Ｓｐｉｅｇｅｌ）による「確率および統計学の理論および問題」（ＴｈｅｏｒｙａｎｄＰｒｏｂｌｅｍｓｏｆＰｒｏｂａｂｉｌｉｔｙａｎｄＳｔａｔｉｓｔｉｃｓ）７６（マグローヒル社、１９７５）を参照されたい。サブノードのスコアを組み合わせて最終のノードスコアを得るために、グラフ・スコアラーはサブノードのスコアをグラフのボトムからグラフのトップへ向けて伝播させることができる。各ノードは一組のＮ個のスコアを持っているグラフがあるとして、一つまたはそれ以上の伝播方法を決定することができる。サブノードのスコアを伝播させるために使うことができる一つの技法は、最適化問題を解くために使われる一種のダイナミック・プログラミングであるメモライゼーションである。最適化問題に対する解は多くの可能な値（結果）を含み得る。そのタスクは最適な値を見つけることである。最適化において使われるアルゴリズムがすべてのサブプログラムを一度だけ解き、その結果をセーブし、したがって、そのサブプログラムが出てくるたびにその答えを再計算する必要を回避している。最適化問題に適用されるメモライゼーションのより詳しい説明は、たとえば、コールメン（Ｃｏｒｍｅｎ）他による「アルゴリズムへの誘い」（ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＡｌｇｏｒｉｔｈｍｓ）の３０１〜３１４ページ（マグローヒル出版社、１９９０）を参照されたい。「アルゴリズムへの誘い」の３０１、３０２、および３１２のページに記述されている方法は、グラフを通してサブノードのスコア情報を伝播させるために使うことができる一つの方法である。ツリーを通して言語情報を伝播させる際、そのシステムの意味の伝播の部分は、それらが含むより小さい構成要素から、より大きい構成要素へ意味情報を伝播させるように動作する。意味の伝播はパース操作において使われる４つのクラスの構文カテゴリ（ＳＥＭＮＰ、ＳＥＭＶＰ、ＳＥＭＡＤＪおよびＶＥＲＢ）に対して適用される。意味の伝播を発生させる前に、そのノードにおいて格納されている言語情報が解析されなければならない。ノードにおいて格納されている意味情報の解析は、動詞的な構成要素のどの選択上の制限スロットがどの名詞的な目的語に対して適用されるかの文法規則において、名詞的な構成要素と動詞的な構成要素とを調べることから分かる一組の規則によってガイドされる。ジェラルド・ガジャール（ＧｅｒａｌｄＧａｚｄａｒ）は、彼の本「Ｐｒｏｌｏｇにおける自然言語処理」（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇＩｎＰｒｏｌｏｇ）（Ａｄｄｉｓｏｎ‐ＷｅｓｌｅｙＰｕｂｌｉｓｈｉｎｇＣｏ．，１９８９）の中で、一組の規則を説明している。その規則はこの明細書の中で開示されているのと同様な非循環有向グラフの中のノードにおいて格納されている意味情報を解析するために使うことができる。ガジャールは隣接するノードについて情報をマッチさせるためのフィーチャー・マッチングの使用法を説明している。ガジャールはフィーチャー・マッチングが、一つのノードにおいて現われている或るフィーチャーは別のノードにおいて現われているフィーチャーと同一でなければならないことを述べている式を必要とすることを述べている。最近の研究は、親のカテゴリ上に現れるフィーチャー仕様の一つのクラスとそれらのフィーチャーに関連付けられた語形を表す子供を等置することに関係がある一つの原理を仮定する。この子供はそのフレーズの「ヘッド」として知られている。ほとんどのフレーズは単独のヘッドを有するだけである。したがって、たとえば、動詞句はその動詞の時制を継承する。というのは、後者が動詞句のヘッドだからである。これまで使ってきた表記上のリソースによって文法の範囲のベースでこの原理を規定する直接的な方法はないが、関連のフィーチャーがすべてＤＡＧの単独のブランチの上に見出だされることを仮定する場合、その原理の効果を規則ごとのベースでかなり単純に規定することができる。この枝におけるラベルをヘッドと呼ぼう。そのとき、代表的なＶＰ規則を次のように書くことができる。ＶＰ‐‐‐‐＞ＶＮＰＰＰ＜Ｖｈｅａｄ＞＝＜ＶＰｈｅａｄ＞これはＶ上のヘッドのフィーチャーの値が、親のＶＰ上のヘッドのフィーチャーの値と同一であることを要求する。ガジャールが説明しているこの規則を、ここで論じられている各構文カテゴリに対して簡単に適応させることができる。ガジャールの規則を使っている各ノードに対して割り当てられている言語情報を、メモライゼーション技法を使ってツリー全体に伝播させることができる。したがって、前の３つのパラグラフをまとめて、その加重平均はサブノードのスコアを決定する一つの方法であり、最適化問題に対して適用される際に既知のメモライゼーション技法を使ってそのグラフ全体を通じて各サブノードのスコアを伝播させることができ、ガジャールのテキストの中で説明されている戦略を使って各ノードに格納されている言語情報を解析することができ、そしてメモライゼーション技法を使ってパース・ツリーチャートを通じてその言語情報を伝播させることができる。自然言語の自動翻訳システムは最初の自動翻訳の後、自動化された再翻訳機能を実行することができる。すなわち、システムは入力テキスト情報のもっとも良い翻訳を自動的に選択し、そしてユーザに一つの出力（適切なのは、英語の入力テキストの日本語への変換、あるいは日本語から英語への変換）を提供し、次にユーザはシステムとインターフェースしてその表示された翻訳を編集するか、あるいは自動的に代わりの翻訳を得ることができる。自然言語の自動翻訳システムは文章をサブストリングに分解する言語学的モデルを使用する。サブストリングは文章の部分として規定された順序で発生する一つまたはそれ以上の語句である。たとえば、「Ｔｈｅｍａｎｉｓｈａｐｐｙ」のサブストリングは「Ｔｈｅ」、「Ｔｈｅｍａｎ」、「ｍａｎｉｓｈａｐｐｙ」、「ｉｓ」および「Ｔｈｅｍａｎｉｓｈａｐｐｙ」自身を含むが、「ｉｓｍａｎ」、「ｍａｎｍａｎ」、および「Ｔｈｅｉｓ」は含まない。異なる言語学的モデルは各種の方法で、そして異なる詳細レベルでサブストリングを分類する。たとえば、「Ｔｈｅｙｗｏｕｌｄｌｉｋｅａｎａｒｒｏｗ」において、「ａｎａｒｒｏｗ」は普通は名詞句（ＮＰ）として分類される。また、いくつかのモデルは典型的には「ａｎａｒｒｏｗ」を構文的フィーチャー（たとえば、それは単数名詞句である）、および意味的フィーチャー（それは武器を指す）で分類する。そのフレーズがあいまいである場合、それを分類するのに２つまたそれ以上の方法があり得る。たとえば、「ａｎａｒｒｏｗ」は矢印のような形状を持つシンボルを指すこともできる。言語学的モデルがあいまい性を解決するための一つの方法を提供するとき、それらは小さいユニットを大きいユニットに組み合わせることによってそれを行うのが普通である。大きいユニットを評価するとき、これらのモデルはその大きい方のユニットに含まれている情報の一部だけしか考慮しない。本システムの例示的な実施例において「ａｎａｒｒｏｗ」の意味的性質（シンボルか、武器か）が、「Ｔｈｅｙｗｏｕｌｄｌｉｋｅａｎａｒｒｏｗ」という文章の中で動詞句「ｌｉｋｅａｎａｒｒｏｗ」を評価するのに使われる。対照的に、そのフレーズ「ａｎａｒｒｏｗ」の構文が「Ｈｅｓｈｏｔｉｔｗｉｔｈａｎａｒｒｏｗ」の中のように変更された場合、「ａｎａｒｒｏｗ」の意味的性質は動詞句「ｓｈｏｔｉｔｗｉｔｈａｎａｒｒｏｗ」を評価するのには使われない。特定の言語学的モデルに関して単独の方法で解釈される文章の任意のサブストリング(解釈済みのサブストリング)に対して、エクスポートされた特性が存在する。エクスポートされた特性は、他のユニットと解釈済みのサプストリングとの組合せを評価して、より大きなサブストリングを形成するために使われる。エクスポートはエクスポートされた特性と一緒に解釈される解釈済みのサプストリングである。解釈済みのサプストリングの中に含まれているが、エクスポートされない特性はサブストラクチャと呼ばれる。このシステムのパーサーは文法データベースを含む。そのパーサーは文法的規則を使って文章の可能なすべての解釈を見つける。文法データベースはＸ＝Ａ１Ａ２．．．Ａｎの形式の一連のコンテキスト・フリーのフレーズ構造規則から構成されている。ＸはＡ１Ａ２．．．Ａｎから構成、または作成され、下位ノード（サブノード）Ａ１〜Ａｎの上位ノードと呼ばれる。このシステムのグラフ・メーカーは文章の可能な多くの解釈をグラフィックに表現する。そのグラフの各ノードはいくつかのサプストリングのエクスポートに対応する。このシステムの一つの実苑例においては、単独のエクスポートは単独のノードによって表される。そのグラフは一つのエクスポートに関連付けられているそのノードから発するアークを含む。そのアークは文法規則の適用に基づいてエクスポートのサブストラクチャを表す。そのグラフは少なくとも２つのタイプのアークを描き得る。（１）同じサブストリングの単独の異なるエクスポートをポイントする単項弧；（２）２つのエクスポートをポイントする一対のポインタを含む二項アーク、元のエクスポートのサブストリングを形成するサブストリング。上記の（２）に記述された定式化はチヨムスキー（Ｃｈｏｍｓｋｙ）の正規形式での文法を仮定する。修正された請求項３５がＮ個のエクスポートをポイントしているＮ個の要素から成るポインタを有する一つのアークを反映するために、タイプ（２）を言い換えることによって、チョムスキーの正規形式でない文法に対して適用される。また、このグラフは一連のアークに従うことによってグラフのすべての部分に到達することができる単独の開始エクスポートＳをも含む。開始のエクスポートは文章全体に対応する。同じエクスポートが一つまたはそれ以上のエクスポートから構成することができる場合、そしてその場合に限り、複数のアークが一つのノードから発生する（二項アークにおけるポインタ対は、この目的のための複数のアークとはみなされない）。複数のアークはそのエクスポートが複数のエクスポートのコンポーネントである場合、そしてその場合に限り、一つのノードをポイントする。アークが出ていないノードはそのサブストリングに割り当てられている辞書エントリーに対応する。複数の言語学的エキスパートが、一つの数値スコアを一組のエクスポートに対して割り当てる。言語学的エキスパートはグラフの各ノードに対してそのスコアを適用する。このシステムの一つの実絶例において、スコアリング・アレイ（そのアレイの各要素は特定のエキスパートのスコアによって乗算するための重みである）は任意の与えられた文章に対する固定長「Ｎ」の浮動小数点数である。そのスコアはグラフ作成エンジンおよび／またはパーサーと一緒に統合化することができるスコアリング・モジュールによって評価される。スコアは上位のエクスポートを構成するすべてのエクスポートに対して計算される。上位のエクスポートに対するスコアは、その上位レベルのエクスポートを作り上げるエクスポートと、構造調整エキスパートによって割り当てられるスコアなどの、その組合せに対して適用される任意のエキスパートのスコアの合計として計算される。ノードが調べられてスコアが計算される順序は、標準の深さ優先グラフ探索アルゴリズムである。このアルゴリズムにおいては、スコアが計算されたノードにはマークが付けられ、そして再びスコアが計算されることはない。そのスコアリング・プロセスの間に、スコアリング・モジュールは任意の上位ユニットのノードを評価する前に、辞書エントリー・ノードを評価する。各辞書エントリーは単独のスコアを生じさせる。一つのエクスポートを作成する方法が複数ある場合、複数のスコアが結果として生じる。すなわち、エクスポートを作成する方法がｋ通りある場合、ｋ個の可能なスコアが結果として生じる。複数のスコアは次のように扱われる。（１）単項規則の場合、下位のエクスポートのｋ個の各スコアがその単項規則に対して適用されるエキスパートの値に対して加算され、そしてその結果のｋ個のスコアのベクトルが親のエクスポートに関連付けられる。（２）二項規則の場合、左側の子供のスコアがｇ個であって、右側の子供のスコアがｈ個であると仮定する。そのとき、左側の子供の各スコアを右側の各スコアに対して加算することによって、そしてさらに、二項規則が適用されるエキスパート値を加算することによって合計でｇ×ｈ個のスコアが計算される。ｇ×ｈがＮを超えるとき、Ｎ個の最善のスコアだけが親のノードについて保存される。（３）一つのノードのエクスポートを複数の方法で生成することができるとき、多くともＮ個のスコアがそのノードのスコア・リストに追加され、最善のスコアが保存されている。スコアリングが完了すると、上記の方法は、各エクスポートが自分のノードに、そのエクスポートの中では表されないすべてのサプストラクチャの特性を含めて、そのエクスポートを作成するｇ個の最も尤もらしい方法（その言語学的モデルに関して）を表すｇ個のスコア（ｇは１〜Ｎの範囲にある）の組を関連付けていると仮定する。ルート・ノードＳの特殊ケースにおいては、そのスコアリングの方法はその文章を作成するｇ個の最も尤もらしい方法を生じさせる。上記の各スコア・リストの中の各スコアにはポインタが関連付けられている。そのポインタは下位のエクスポートのスコア・リストのどのスコアが、上位のレベルのスコアを作り出すために組み合わされたかを示すための情報を提供する。それぞれのポインタを追跡することによって、その文章のｇ個の最も尤もらしい解釈を、あいまい性のないパース・ツリーとして抽出することができる。自動自然言語翻訳システムの詳細が図１〜図９を参照しながら以下にさらに開示される。その後、本発明による各種の改善が図１０、図１１、および図１２を参照しながら記述される。図１および図２を参照すると、本発明による自動自然言語翻訳システム１０は入力インターフェース１２と、翻訳エンジン１６と、記憶装置１８と、ユーザ入力装置２２と、ディスプレイ２０と、出力インターフェース１４とを含む。入力インターフェースは英語または日本語などのソース言語でのテキストのシーケンスを受け取るために作られている。入力インターフェースはキーボード、音声インターフェース、あるいはモデムまたはシリアル入力などのディジタル電子インターフェースを含むことができる。翻訳エンジンは記憶装置の中のデータと組み合わせて、ソース・テキストについて翻訳操作を実行する。翻訳エンジンは完全に固定配線の論理回路から構成されるか、あるいは一つまたはそれ以上の処理ユニットおよび関連付けられた記憶されている命令を含み得る。そのエンジンは次の要素、またはそれらの部分を含み得る。それらはプリパーサー２４、パーサー２６、グラフ・メーカー２８、パース／翻訳評価子３０、パース・エキストラクタ３２、構造コンバータ３４、およびユーザ・インターフェース４２（代わりのパース・システム３７を含む）である。構造コンバータは文法規則制御型の構造コンバータ３６、辞書制御型の構造コンバータ３８、および合成規則制御型の構造コンバータ４０を含み得る。記憶装置１８はディスク記憶装置（たとえば、ハード・ディスク、フロッピー・ディスク、および／または光ディスク）および／またはメモリ記憶装置（たとえば、ＲＡＭ）などの、一つまたはそれ以上の領域を含み得る。それは次の要素を全体的または部分的に格納し得る。それらは基本辞書４４、技術的辞書４６、ユーザ作成の辞書、文法規則４８、合成規則５０、意味的フイーチャー・ツリー５２、構造ツリー５４、およびグラフ５６である。また、記憶装置１８はソースの自然言語での入力テキスト情報、ターゲットの自然言語での出力テキスト情報、および一つまたはそれ以上の辞書、領域キーワード、文法規則、および他のデータベースなど、翻訳を実行する際に使われるか、あるいは有用なすべての種類の情報を格納するためにも使われる。ユーザ入力インターフェース２２はキーボード、マウス、タッチスクリーン、ライトペン、または他のユーザ入力装置を含むことができ、そしてシステムのオペレータによって使われる。ディスプレイはコンピュータのディスプレイ、プリンタまたは他のタイプのディスプレイであってよく、あるいは、それはオペレータに対して情報を通信する他の手段を含んでいてもよい。出力インターフェース１４はソース・テキストの目的言語、たとえば日本語の最終翻訳を通信する。そのインターフェースはプリンタ、ディスプレイ、音声インターフェース、モデムまたはシリアル回線などの電子的インターフェースを含むことができ、あるいはそのテキストを最終ユーザに対して受け渡すための他の手段を含むことができる。本発明の翻訳システムのある実施例の動作において、図１、図２および図３を参照すると、プリパーサー２４が先ず最初にソース・テキスト２３についてプリパーシング操作（ステップ１０２）を実行する。この操作はソース・テキストの中の文章の境界におけるあいまい性の解消を含み、そして辞書エントリー２５がシードされたパース・チャートを結果として出力する。次に、パーサー２６がプリパーサーによって作り出されたチャートをパースし、（ステップ１０４）、構文的な可能性で埋められたパース・チャート２７を得る。グラフ・メーカー２８はパーシングのステップの結果として得られるパース・チャートに基づいて、可能な解釈のグラフ２９を作り出す（ステップ１０６）。一連のエキスパート４３にアクセスする評価子３０は、格納された解釈のグラフ３１を評価し（ステップ１０８）、そしてエキスパートの重みをグラフ３１に対して追加する。グラフ・スコアラー３３はノードにスコアを付け、そしてＮ（たとえば、２０）個の最も良いスコアを各ノード３５に関連付ける。パース・エキストラクタ３２はこの好ましい解釈に対してパース・ツリー構造３９を割り当てる（ステップ１１０）。変換テーブル５８にアクセスする構造コンバータ３４が、次にそのツリーについて構造変換操作(ステップ１１２)を実行し、目的言語での翻訳４１を得る。ユーザは代替パース・システム３７と対話して別翻訳を得ることをし得る。図４を参照すると、システムは入力ストリームをトークンに分割することによって(ステップ１１４)、プリパーシング操作を開始する。トークンは個々の句読点、語句を形成する文字のグループ、およびアノテーションを形成する文字のグループ、文字またはシンボルを含む。ホワイトスペースの発生はこのレベルにおける文字の解釈に影響する。たとえば、「ｘ‐ｙ」の中で、「‐」はダッシュであるが、「ｘ‐ｙ」の中ではそれはハイフンである。次にプリパーサーはトークンを組み合わせて語句にする（ステップ１１６）。このレベルにおいて、プリパーサーは特殊な構造（たとえば、インターネット・アドレス、電話番号および社会保障番号）を単独のユニットとして認識する。また、プリパーサーは辞書の参照を使ってグルーピングを見つける。たとえば、「ｒｅ‐ｅｎａｃｔ」が辞書の中では「ｒｅｅｎａｃｔ」として入っている場合、それはその文章の中では一つの語となるが、そうでない場合は、それは３つの別々の「語句」として残る。次のプリパーシングのフェーズは文章がどこで終っているかを決定することに関与する（ステップ１１８）。この操作の間に、プリパーサーは文章の終りの点である可能性がある各点（すなわち、ソース・テキストの各ワードの後）に対するステップのシーケンスを追跡する際、基本辞書および技術的辞書、そしてユーザ作成の辞書にアクセスする。プリパーサーはこれらのステップを特定の示された順序で実行する必要はなく、これらは一連の順序付けられた規則として実施する、あるいは固定的にコード化し得る。図５を参照すると、プリパーサーはパースできない文字のシーケンス、たとえば、一連のダッシュ「‐‐‐‐‐‐］などを、それ自身一つの「文章」として解釈して記録する。ただし、翻訳されるものを除く（ステップ１２０）。また、プリパーサーは一つの行の中の２つのキャリッジ・リターンのシーケンスは文章の終りであることを要求する（ステツプ１２２）。次のワードの最初の文字が小文字であった場合、プリパーサーは文章の終りを示さない（ステップ１２４）。文章が新しい行で始まっていて、短い場合、プリパーサーはそれをそれ自身の「文章」（たとえば、表題）とみなす。プリパーサーはピリオド、疑問符または感嘆符を文章の終りとして解釈する。ただし、閉じ側の丸括弧および閉じ側の引用符を含んでいる或る種の状況を除く（ステップ１２８）。「．”」または「？”」などで終っている文章の場合、プリパーサーはその引用符の前の句読点に追加してその引用符の後に仮想の句読点を使用する。「？”」に対して必要な潜在している句読点に対する代替例が次に示されている。Ｔｈｅｑｕｅｓｔｉｏｎｗａｓ“Ｗｈａｔｄｏｙｏｕｗａｎｔ？” 。Ｄｉｄｈｅａｓｋｔｈｅｑｕｅｓｔｉｏｎ“Ｗｈａｔｄｏｙｏｕｗａｎｔ？”？Ａｒｅｙｏｕｃｏｎｃｅｒｎｅｄａｂｏｕｔ “ｔｈｅｏｔｈｅｒｐｅｏｐｌｅ”？英語では、これらはそれぞれ「？”」で終わる可能性がある。プリパーサーによって追加される仮想句読点は、その引用符の前に、何かがあって、それは一つの引用符または全く何もないかのいずれかである可能性があることを示す。その引用符の後に、一つのピリオドまたは一つの疑問符のいずれかである可能性がある何かが存在している。その文章の残りの部分の文法的構造によって、後の処理ステージで最善の選択をすることができる。また、プリパーサーはピリオドをプリパースする際に、さらにいくつかの方法を使うこともできる（ステップ１３０、１３２、１３４、１３６、および１３８）。辞書の中のいくつかの略号は文章の始めでは決して使われないこと、そして他のものは文章の終りでは決して使われないとしてマークされている（ステップ１３０）。これらの規則は常に尊重される。たとえば「Ｌｔｄ」は文章を開始することは決してなく、「Ｍｒ」は文章を終らせることは決してない。また、プリパーサーは次のワードが「ｔｈｅ」、「ｉｎ」などの普通の文法的な語でない限り、ピリオドが後に続く単独の大文字で文章を終らせることはない（ステップ１３２）。ピリオドの前のワードがどれかの辞書の中に見つかった場合、そのピリオドはその文章を終らせる（ステップ１３４）。そのピリオドの前のワードがこの辞書の中になかった場合、そしてそれが内部のピリオドを持っている場合（たとえば、Ｉ．Ｂ．Ｍ．）、そしてその次のワードが小文字の形式で辞書の中にはないか、あるいはその後のワードがそれ自身大文字であった場合、これは文章の終りではない（ステップ１３６）。残りのケースにおいては、そのピリオドは文章の終りをマークする（ステップ１３８）。ふたたび図２および図３に戻って、文章の境界がプリパーサーによって定義されると、パーサーはその文章の語句を構文カテゴリの中に置き、そしてそれらに対して文法データベースからの文法規則を適用し、その文章の可能な構文解釈２５を推定する（ステップ１０４）。これらの文法規則４８を、その言語の文法的制約を表す、コンピュータが読める一連の規則として実装することができる。英語の場合、そのような規則が多数あり、多くの構造的カテゴリに対して適用することができる。この操作の計算のオーバヘッドを減らすために、ワードの異なる可能性のある意味は無視される。次のステップ（ステップ１０６）において、グラフ・メーカーはその辞書を採用してパーサーの結果を拡張し、語句の異なる意味を含め、そしてその文章のすべての構造的な解釈を表している非循環的有向グラフを生成する。このグラフは以下に説明される一連の意味伝播手順の援けを借りて発生される。これらの手順は一連の創作された文法規則の上で動作し、そして或る場合においては、意味的情報を求めて意味的フィーチャー・ツリーにアクセスする。その意味的フィーチャー・ツリーは意味的カテゴリを含んでいるツリー構造である。それは大雑把には抽象的なものから特定のものへと編成され、そして一対の熟語がそのツリーの中でのそれぞれの分離、およびそのツリーの中でのそれぞれのレベルの両方において意味論的にどのように関連付けられているかを、手順が判定できるようにする。たとえば、「ｃａｔ」および「ｄｏｇ」は「ｃａｔ」と「ｐｕｄｄｉｎｇ」よりはずっと関連が深く、したがって、前者のペアはツリーの内部で隔てられている距離がより小さくなる。「ａｎｉｍａｌ」および「ｃａｔ」はツリーの中での異なるレベルに格納される語句の例である。というのは「ａｎｉｍａｌ」は「ｃａｔ」より抽象的な語句だからである。図９を参照すると、グラフはノード８０およびそれぞれのサブノード８２、８４、８６を含んでおり、それらは各種のタイプの関係を示すようにポインタ８８、８９、９０、９１によってリンクされている。このグラフの中の第１のタイプの関係は、フレーズを表しているノードが、構成しているワード・ノードまたはサブ・フレーズ・ノードに対するポインタを所有しているものである。たとえば、フレーズ「ｔｈｅｂａｎｋ」を表しているノード８４は、構成語句「ｔｈｅ」９４、および「ｂａｎｋ」９５に対してポインタ９２、９３によってリンクされる。グラフの中の第２のタイプの中の関係は、フレーズの解釈が下位レベルの構成要素から同じ上位レベルの構成要素を作る代わりの方法に対するポインタを所有しているものである。たとえば、フレーズ「ｂｙｔｈｅｂａｎｋ」を表しているノード８０は２つのソース解釈ロケーション８１、８３を持つことができ、それらのそれぞれの構成要素に対するポインタ８８および８９、９０および９１を各々含んでいる。この例において、異なる構成要素が、フレーズ「ｔｈｅｂａｎｋ」に対する異なる意味をそれぞれ表す異なるサブノード８４、８６を含むことになる。グラフの構造はパーシング操作の結果によって定義され、そしてソースの文章の構文によって制約される。グラフのノードには意味的情報に対する記憶場所が関連付けられており、ここには意味的伝播のプロセスの間に記入することができる。このシステムの意味的伝播部分は、より小さな構成要素から、それらによって構成される大きな構成要素へ意味的情報を伝播させるように動作する。それは初期のパーシング操作によって使われる４つのクラスの構文的カテゴリ、すなわち、ＳＥＭＮＰ（名詞的な目的語および前置詞的なフレーズを含む）、ＳＥＭＶＰ（動詞句的な目的語、普通は主語を取る）、ＳＥＭＡＤＪ（形容詞）およびＶＥＲＢ（目的語を取ることが多い、辞書的動詞のような動詞）に対して適用される。他の構文的カテゴリは規則の内部では無視される。文法規則の創作者は規則に特定のマークを付けることによって、以下の暗黙の挙動を無効にすることもできる。これらの特定の命令が先ず追跡される。システム全体を通じて意味的フィーチャーが伝播される方法に対して２つの態様がある。第１の態様は、名詞的な構成要素および動詞的な構成要素を文法規則において調べることによって、その動詞的な構成要素のどの選択可能な制限が、どの名詞的な目的語に対して適用されるかを知らせる一組の規則である。たとえば、「Ｉｐｅｒｓｕａｄｅｄｈｉｍｔｏｇｏ」という文章の動詞句に対する規則は、大雑把にはＶＰ＝ＶＴ１１＋ＮＰ＋ＶＰ（ここでＶＰは動詞句、ＶＴ１１は或るタイプの他動詞、そしてＮＰは名詞句である）である。デフォルトの規則の一例は、動詞が目的語を取るとき、その動詞の右側に現れる第１のＮＰに対して選択上の制限条件が適用されることを示す。もう一つの規則は、ＶＰの主語についての制限条件が、ＶＰの左側にある第１のＮＰに対して適用される必要があることを示す。これらの規則を一緒にして、「ｐｅｒｓｕａｄｅｈｉｍ」と「ｈｉｍｇｏ」が両方ともそれぞれの意味的な尤もらしさに対して評価されることを確認されたい。上述したように、これらの規則は英語の複雑な文法を反映し、したがって、それらはかなり少数であり得る。図６を参照すると、意味的伝播操作はＳＥＭＶＰから命令文への選択上の制限条件のコピーを含む（ステップ１４０）。ＳＥＭＮＰが所格（位置を示す）表現として使われている場合、その適性が場所の適性を定義している意味的定数に対して評価される（ステツプ１４２）。一つの規則が２つのＳＥＭＮＰの連結（構文的フィーチャーをＡＮＤしているという理由で検出された）を必要とする場合、グラフ・メーカーはその意味的フィーチャーをＡＮＤ動作して意味的距離のエキスパートを適用する（ステップ１４４）。意味的フィーチャーの伝播に対して規定されている規則を調べるコースにおいて、グラフ・メーカーは上位レベルに対して伝播される（たとえば、より多くの語句を含んでいるＳＥＭＮＰの一部となる）「ヘッド」のＳＥＭＮＰを見つけ、それは意味的フィーチャーも伝播させる（ステップ１４６）。しかし、「ヘッド」が部分詞（たとえば、「ｐｏｒｔｉｏｎ」、「ｐａｒｔ」）であった場合、それはＳＥＭＮＰから左側へ、あるいは代わりに右側へ伝播する。ＳＥＭＶＰおよびＳＥＭＡＤＪは同じ方法で伝播される。ただし、唯一の例外はＳＥＭＶＰおよびＳＥＭＡＤＪが部分詞の関係を持っていない場合である（ステップ１４８）。この目的に対しては形容詞はＳＥＭＶＰクラスの一部である。ＳＥＭＶＰがＶＥＲＢを含んでいる規則から作られているとき、グラフ・メーカーはそのＶＥＲＢの主語の制限を、そのＶＰが受動構造でない限り、上方向に伝播させる。ＶＰが受動構造であった場合、ＶＥＲＢの第１目的語の制限が代わりに伝播される（ステップ１５０）。ＳＥＭＶＰを含んでいる任意の規則において、それはＳＥＭＶＰについての選択上の制限条件を、ＳＥＭＶＰから左側へ移動しながら遭遇するＮＰに対して適用しようと試みる（ステップ１５２）。ＳＥＭＡＤＪを含んでいる任意の規則において、グラフ・メーカーはＳＥＭＡＤＪの選択上の制限条件を、先ず最初にＳＥＭＡＤＪから右側へ移動しながら現れる任意のＳＥＭＮＰに対して適用しようとし、そしてそれが失敗した場合、左側へ移動しながらそれを試みる（ステップ１５４）。ＶＥＲＢの残っている未使用の目的語の選択条件（受動の理由で上方向には伝播されてなかったもの）に対してグラフ・メーカーはそれらをＶＥＲＢの右側への順序で現れるＳＥＭＮＰに対して順番に適用する（ステップ１５６）。これらの規則のすべてにおいて、動詞の選択上の制限条件が、それが何かに対して適用されるとすぐに使われる。この規則までのすべての規則において、ＳＥＭＮＰは何かがそれに対して適用されるとき、使い果たされない。この規則から出発して、ＳＥＭＮＰは「使い果たされる」。最後に、一つの規則がＳＥＭＶＰを作る場合、グラフ・メーカーはまだ使用されていなかったＳＥＭＶＰまたはＳＥＭＡＤＪがその中にあるかどうかを判定し、あった場合、それらを上方向に伝播させる（ステップ１５８）。また、このシステムは言語学的フィーチャーのフィーチャー・マッチングも実行する。言語学的フィーチャーは語句および他の構成要素の特性である。構文的フィーチャー・マッチングがパーサーによって使われ、意味的フィーチャー・マッチングがグラフ・メーカーによって使われる。しかし、同じ技法が両方に対して使われる。たとえば、「ｔｈｅｙ」は複数（ｐｌｕｒａｌ）という構文的フィーチャーを有しており、一方、「ｈｅ」は単数（ｓｉｎｇｕｌａｒ）のフィーチャーを有している。フィーチャー・マッチングはマークつけ文法規則を使い、それらの規則が適用される語句のフイーチャーが或る条件を満足する場合にのみ適用されるようにする。たとえば、一つの規則は次のようになる。Ｓ＝ＮＰ｛＠｝＋ＶＰ｛＠｝ここで＠の記号はそのＮＰとＶＰの数のフィーチャーがマッチしなければならないことを意味する。したがって、この規則は「ｔｈｅｙａｒｅ」および「ｈｅｉｓ」を許すが、それは「ｔｈｅｙｉｓ」および「ｈｅａｒｅ」は許さない。フィーチャー・マッチの制限条件は「ローカル」と「長距離」に分けられる。長距離のアクションはその文法が実際に文章を処理するときではなく、その文法がコンパイルされるときに計算され得る。次に、実行されなければならない長距離操作のシーケンスが一連の命令バイトに符号化される。長距離のフィーチャーの操作の計算はｎ項の規則（すなわち、その右辺に３つ以上の入力があり得るもの）から開始されなければならない。次に、システムは各種の二項規則に対してコードを分配し、フィーチャーのセットが正しい方法で規則間で伝播されて使い果たされるようにする。ｎ項の規則を二項規則に分解することによって、そのパーシングの操作は大幅に単純化されるが、システムがフィーチャーの集合を二項規則の全域で追跡管理するので、それは長距離操作のパワーを維持する。また、本発明のシステムによって辞書の部分として複数語の「熟語」が許され、一方、それらの熟語が構成されている個々の語句の表現が維持される。これらの２つの形式は最終的には最善の表現であるべく互いに競合し得る。たとえば、「ｂｌａｃｋｓｈｅｅｐ」は辞書の中で「嫌われ者」という意味が記載されている。しかし、或る場合においては「ｂｌａｃｋｓｈｅｅｐ」という語句は「黒い色の羊」を指し得る。両方の形式が維持されるので、この非熟語的な使用法も正しい翻訳として選定され得る。熟語はさらに別の分類に属する可能性がある。たとえば、このシステムは次の３つのタイプを使うことができる。オールマイティ（Ａｌｍｉｇｈｔｙ）：ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａプリファレンシャル（Ｐｒｅｆｅｒｅｎｔｉａｌ）：ｌｏｎｇａｇｏノーマル（Ｎｏｒｍａｌ）：ｂｌａｃｋｓｈｅｅｐオールマイティの熟語はそのシーケンスを構成する任意の語句の他の可能な解釈を抑圧する。プリファレンシャルの熟語は同じ一般的な、その全く同じ語句を使う他の構成要素を抑圧する。ノーマルの熟語は他のエントリーと平等な立場で競合する。結果のグラフはエキスパートによって評価され（図３のステップ１０８）、それはグラフの中で解釈の正しさの確率を表すスコアを提供する。本発明のシステムは文章全体だけではなく、任意の長さのすべての部分的な文章に対して適用されるスコアリングの方法を含む。グラフの使用における重要な要素は、サブツリーが完全にスコアリングされ、そしてそれが非常に多くの文章の中に現れる可能性があっても一度だけしか解析されないことである。たとえば、「Ｎｅａｒｔｈｅｂａｎｋｔｈｅｒｅｉｓａｂａｎｋ」というフレーズにおいて、フレーズ「Ｎｅａｒｔｈｅｂａｎｋ」には少なくとも２つの意味があるが、そのフレーズの最善の解釈は一度だけ決定される。同様にフレーズ「ｔｈｅｒｅｉｓａｂａｎｋ」にも２つの解釈があるが、それらの２つのうちの最善のものが一度だけ決定される。したがって、４つの文章解釈があるが、サブフレーズは一度だけスコアリングされる。このグラフのもう一つの特徴は、文章の小片の長さに関して容易にアクセスできる情報で各ノードがラベル付けされることである。これによって、英語の文章の任意のサプストリングの最善のＮ個の解釈が、その文章を解析し直さずに見つけられる。一つの実施においては、その文章のＮ個（Ｎは２０の程度の数）の総合的な最善の解析だけが任意の一つの時点で利用可能であるが、グラフを使うことによって、システムが比較的小さな構成要素に関するユーザの選定の結果を統合し、そのユーザの選定を尊重するＮ個の異なる最善の解析を与えるようにすることができる。これらはすべてその文章をパーシングし直さず、あるいは任意のサブストリングをスコアリングし直さずに行うので、迅速に行われる。図８を参照すると、エキスパート評価子３０の動作は、各種のエキスパートによって処理される、各翻訳を特徴付ける各種の要因に基づいている。規則の確率エキスパート１７０は、最初のソース言語のパース・ツリーを得るために使われる文法規則の相対頻度の平均値を評価する。選択上の制限条件のエキスパート１７８は与えられた翻訳の意味的な一致の程度を評価する。辞書エントリーの確率エキスパート１７２は最初のソース言語のパース・ツリーを得るために使われた文章の中の語旬の特定の「品詞」の相対頻度の平均値を評価する。統計情報のエキスパートは与えられた翻訳に対して選定された特定のパラフレーズの相対的頻度の平均値を評価する。このシステムは各種の個々の英語の語句、英語のフレーズおよび英語の語句のグループに対して、英語の「品詞」（ＰＯＳ）を自動的に決定する。このシステムは文章を翻訳しているときにＰＯＳの自動決定を行い、そしてシステムは普通は正しい選定を行う。しかし、変換中の文章そのものがあいまいであることが時々ある。２つ以上のＰＯＳとして解釈できるワードまたはフレーズは、そのワードまたはフレーズが現れる文章に対する「正しい」意味以外の異なるいくつかの意味に導く。システムのオペレータはシステムの自動ＰＯＳ判定を無効にすることができ、代わりに手動で任意の語句、フレーズ、または語句のグループに対してＰＯＳを設定することができる。たとえば、ソースの英文「Ｊｏｈｎｓａｗａｂｏｙｗｉｔｈａｔｅｌｅｓｃｏｐｅ」の中で、システムのオペレータは「ａｂｏｙｗｉｔｈａｔｅｌｅｓｃｏｐｅ」を名詞句として設定し、システムにその文章を、「その少年が望遠鏡を携帯していた」という意味に強制的に解釈させ、「ジョンが望遠鏡を使ってその少年を見た」という解釈をリジェクトさせることができる。オペレータはシステムのＰＯＳ規則を無効化することによって翻訳の結果が悪くなる場合、あるいは良くならない場合に対して、手動でのＰＯＳ設定を必要に応じて適用することによって、あるいは制限の比較的緩い手動ＰＯＳ設定を適用することによって、その状況に対処することができる。名詞句は名詞より制限が緩く、グループは制限の最も少ないＰＯＳ設定である。次のリストは各種の可能なＰＯＳ設定を示している。品詞（ＰＯＳ）名詞名詞句動詞（他動詞または自動詞）動詞句形容詞形容詞句副詞副詞的フレーズ前置詞前置詞句接続詞グループ英語「形容詞句」および「副詞句」という品詞は、特定の前置詞句をシステムがどのように解釈するかによって意味が変わる可能性のある英語の文章の場合に有用である。たとえば、「ＷｅｎｅｅｄａｂｏｏｋｏｎｔｈｅｆｏｕｒｔｈｏｆＪｕｌｙ」という文章は、「ｏｎｔｈｅｆｏｕｒｔｈｏｆＪｕｌｙ」が形容詞的に解釈される場合は「ＷｅｎｅｅｄａｂｏｏｋａｂｏｕｔｔｈｅＡｍｅｒｉｃａｎｆｏｕｒｔｈｏｆＪｕｌｙｈｏｌｉｄａｙ」を意味するが、「ｏｎｔｈｅｆｏｕｒｔｈｄａｙｏｆＪｕｌｙ」というフレーズが副詞的に解釈された場合、その文章は「ｏｎｆｏｕｒｔｈｏｆＪｕｌｙ，ｗｅｎｅｅｄａｂｏｏｋ」を意味する。システムが「ｏｎｆｏｕｒｔｈｏｆＪｕｌｙ」に対して間違ったＰＯＳを自動的に割り当てたとオペレータが信じた場合、オペレータは「ＷｅｎｅｅｄａｂｏｏｋｏｎｔｈｅｆｏｕｒｔｈｏｆＪｕｌｙ」という文章の中の「ｏｎｔｈｅｆｏｕｒｔｈｏｆＪｕｌｙ」に対して異なるＰＯＳを手動で設定することができる。特定の語句、フレーズ、または語句のグループを英語から日本語へシステムに翻訳させたくない場合、オペレータは「Ｅｎｇｌｉｓｈ」のＰＯＳを所望の語句、フレーズ、および／または語句のグループに対して割り当てることができる。また、その設定がシステムによって自動的に割り当てられたか、あるいはオペレータによって手動で割り当てられたかには無関係に、オペレータは一つまたはそれ以上のＰＯＳ設定を取り除くこともできる。システムは２つ以上のレベルにおいて各顧客サイトにおける翻訳の使用から統計的情報を追跡管理する。たとえば、システムは表面的形式レベルで統計的なカウント値、(たとえば、「ｌｅａｖｉｎｇ」が他動詞として、自動詞に対してどのような頻度で使われたかを維持し得、そしてまたその意味のレベルにおいて（それが「ｌｅａｖｅｂｅｈｉｎｄ」(他動詞)を意味したか、あるいは「ｄｅｐａｒｔ」(自動詞)を意味したか)、そしてこの第２のタイプが「ｌｅａｖｅ」、「ｌｅａｖｅｓ」、「ｌｅｆｔ」および「ｌｅａｖｉｎｇ」の発生全体にわたって集計される。また、このシステムは最近の数個の文章の内部で発生した使用に対して、およびその顧客のサイトにおいて任意の時点で発生した使用に対して別々に統計カウント値を保持することもできる。さらに、システムは、ユーザが特定の語句の意味が使われるべきであることを示すために介入した場合と、システムがユーザからの確認なしに特定の語句の意味を使用した場合とを区別し得る。構造調整エキスパート１８２は与えられた文章の中の構成要素の長さに関する英語および多くの他のヨーロッパの言語の特性に基づいている。いくつかの構造（すべてではないが）においては、軽い要素の左側に重い（長い）要素がある文章は、これらの言語の中では好まれない。たとえば、 Mary hit Bill with a broom．軽い重い｛受け入れられる｝ Mary hit with a broom Bill．重い軽い｛受け入れられない｝ Mary hit with a broom a dog that tried to bite her．重いより重い｛受け入れられる｝ある文章の２つのパースが与えられて、一つが「重い-軽い」のシーケンスを、そのようなシーケンスを回避する傾向のある構造に関係して含んでいた場合、そして他のパースがそうでなかった場合、前者はその文章の意図されている解釈を表さないことを仮定することができる。このエキスパートは意図されているパースと意図されていないパースとの問の区別をする有効な方法である。「ＡｏｆＢａｎｄＣ」のパターンの同格構造において、その意図されている解釈が「Ａｏｆ｛ＢａｎｄＣ｝」であるか、あるいは「Ａ｛ｏｆＢ｝ａｎｄＣ」であるかどうかを決定することは難しい場合がある。同格構造エキスパート１８０はＢとＣとの間の意味的距離およびＡとＣとの間の意味的距離を測定して、どのモードの同格性が意味においてより近い２つの要素を組み合わせるかを判定する。このエキスパートはその操作の間に意味的フィーチャーのツリーにアクセスする。また、このエキスパートは、与えられた文章の意図されているパースと意図されていないパースとの間の区別を行うための一つの有効な方法でもある。英語においては普通名詞と固有名詞の解釈の間に潜在的なあいまい性を含んでいる語句が多い。大文字化エキスパート１７６は文章の中の大文字化されている場所を使って、その大文字化に意味があり得るかどうかを判定する。たとえば、次の２つの文章は、前者が真にあいまいであるが、「Ｂｒｏｗｎ」が色の名前でなくて人の名前である可能性が、後者において遥かに大きいという点で異なっている。Ｂｒｏｗｎｉｓｍｙｆｉｒｓｔｃｈｏｉｃｅ．ＭｙｆｉｒｓｔｃｈｏｉｃｅｉｓＢｒｏｗｎ．このエキスパートは与えられた大文字化されている語が文章の最初に現れるか、あるいは文章の最初でない位置に現れるかどうか（上で示されているような）、その大文字化されているスペルが辞書の中にあるかどうか、あるいはその先頭が小文字であるバージョンが辞書の中にあるかどうか、などのファクタを考慮に入れる。このエキスパートは文章の中の大文字化された語句の正しい解釈を得るための一つの有効な方法である。文章の先頭に大文字の語句のシーケンスが含まれている場合、それは固有名として、あるいは普通名詞のシーケンスとして扱うことができる。本発明のシステムは前者の解釈を好む大文字化されたシーケンスの手順を採用する。また、普通の文法規則によってはそれ自身をパースすることができないシーケンスの場合、それは翻訳されずに通される単独の解析されない名詞句として扱うことができる。この手順は下位の普通名詞の解釈を完全には無視しないで、複合語の固有名を処理する非常に有効な方法であることが分かっている。図７を参照すると、本発明の機械翻訳システムは文法規則制御型の構造変換機構１６２を使用し、それは直接的な文法規則にもとづく構造変換の方法の効率性を有しているが、テンプレートからテンプレートへの構造変換の方法に近いパワーを発揮する。この方法はフラットでない複雑なサブストラクチャを指定することができる文法規則１６０の使用に頼っている。次のものは他の翻訳システムにおいて使われている規則のフォーマットであるが、Ｙ＝＞Ｘ１＋Ｘ２＋..．Ｘｎ指定されたサブストラクチャＹＸ１Ｘ２．．．Ｘｎ本発明のシステムは次のフォーマットの文法規則を使用する。Ｙ＝＞＃Ｚ１（ｉ）＃Ｚ２（２）Ｘ１＋Ｘ２．．．＋Ｘｉ＋Ｘ（ｉ＋１）＋．．．Ｘ（ｎ）指定されたサブストラクチャこの構文の中で、「＃」が前に付いているシンボルは、文章構造のパーシングの目的に対しては見えないが、与えられたパースが一度得られるとサブストラクチャを構築するために使われる仮想シンボルである。このタイプの文法が与えられて、そのサブストラクチャの中で子供であるノードの任意のシーケンスの間で複数構造の変換を指定することが可能となる。これは文法規則に基づく構造変換の機構を、テンプレートからテンプレートへの構造変換機構の或る程度のパワーを持つものに変換する。本発明のシステムは上記の第２のタイプの文法規則に基づいているが、それは第１の形式の対応している文法規則を自動的にコンパイルする。したがって、それは文章をパースするために第１の形式の文法規則を使うことができ、そしてパース構造を構築するために第２の形式の文法規則を使うことができる。この構造変換は辞書制御型の構造変換操作１６６も含む。それは辞書１６１にアクセスして、文法規則制御型の構造変換操作によって操作された後の、パース・ツリーについて操作するために、辞書１６１にアクセスする。次に、合成規則制御型の構造変換操作が、結果のパース・ツリーに対して合成規則を適用して目的言語のテキスト４１を提供する。ふたたび図１および図２を参照して、システムが上記のプロセスにおいて最高得点の翻訳を導き出した後、それはディスプレイ２０を経由してユーザに対して提示される。そのとき、ユーザはユーザ入力装置２２を経由して、その翻訳を承認するか、あるいは代わりのパース・システム３７と対話することによってその翻訳を編集するかどうかのオプションを有する。編集操作においては、ユーザは正しく翻訳されている翻訳文章の部分を束縛し、一方その文章の残りの部分を再翻訳を要求することができる。この操作は迅速に行うことができる。というのは、システムがエキスパートの重み付きのグラフ３１を維持しているからである。図１〜図９を参照しながら自然言語の自動翻訳システムの一つの具体例の或る種の詳細を説明してきたが、本発明による改善が図１０〜図１８を参照しながら以下に説明される。これらの改善は品詞の説明、ＨＴＭＬのマークアップ、ＳＧＭＬのマークアップ、ＲＴＦのマークアップおよびＮＲＯＦＦのマークアップなどのアノテーションを有しているテキストの改善された翻訳を提供する。たとえば、これらの改善によって、インターネットのワールド・ワイド・ウェブの部分における英語の１ページを表しているＨＴＭＬ文書を、ワールド・ワイド・ウェブ上での日本語またはスペイン語での１ページを表している等価なＨＴＭＬ文書に変換することができる。ここで「マークアップ」および「タグ」という用語はこれ以降では上記のアノテーションを参照するために、互換的に使われることが理解されるべきである。図１０を参照すると、テキストの中のアノテーションを保存しながら、テキストを翻訳するための自動自然言語翻訳システム２００の一つの具体例が示されている。この具体例において、システムは英語のテキストを有しているソース文書を翻訳するために使うことができる。ここでそのソース文書は品詞の設定、ＨＴＭＬ、ＳＧＭＬのマークアップ、ＲＴＦのマークアップおよびＮＲＯＦＦなどのアノテーションを含む。同様に図１に示されているように、システム２１０は入力インターフェース１２、翻訳エンジン２０２、記憶モジュール２０４、ユーザ入力装置２２、および出力インターフェース１４を含む。ソース言語でのテキストの翻訳を実行するための、図１に記述されているような要素のコンポーネントおよび機能は、翻訳エンジン２０２によって実行される。しかし冗長性をなくすために、そのような要素および機能はここでは繰り返しては示されない。この図の中に示されているように、翻訳エンジン２０２はテキスト・プロデューサ２０６を含み、それは入力インターフェース１２を通して、ソース・テキストを含んでいる入力データ・ストリングを受け取る。テキスト・プロデューサ２０６は入力データ・ストリングを、バイト・トークンおよびアノテーション・トークンを含むトークン・ストリングに分割する。テキスト・プロデューサ２０６は識別子割り当て装置２０８をさらに含む。それは各トークンに、トークン間の関係を定義するため以外に、記憶モジュール２０４の中の各トークンを追跡するためにシステム２００によって使われる、たとえば数値または文字などのユニークなトークン識別子を与える。各バイト・トークンはトークンのタイプ（すなわち、アノテーション・トークン、バイト・トークン）およびトークン識別子を提供する特定のフィールドを備えている。このフィールドはトークン・ストリングの中のトークンを追跡するため、およびそのトークンを他のトークンに対してリンクするために使われる。翻訳エンジン２０２はさらにトークナイザを含む。トークナイザはバイト・トークンを消費して第１言語でのソース・テキストの中の語句に対応するワード・トークンを生成する。たとえば、英語のアノテートされたテキストから日本語のアノテートされたテキストへの翻訳において、ワード・トークンは英語のワード・トークンに変換されたバイト・トークンを表すトークンである。この具体例においては、バイト・トークンだけが変換され、アノテーション・トークンは不変のままになっていることに注意されたい。翻訳エンジン２０２はセンテンス・エンダー２１２をさらに含む。センテンス・エンダー２１２はソース文書の中の文章の終りがどこに存在するかを判定し、文末トークンをトークン・ストリングおよびセンテンス・リトリーバ２１４の中に挿入する。センテンス・リトリーバ２１４は各文章の中のトークンの記憶を起動し、これらのトークンを記憶モジュール２０４からそれ以降で呼び出すことによって、ソース・テキストの文章の再生成を支援する。翻訳エンジン２０２はトランスレータ２１６をさらに含む。トランスレータ２１６はアノテーション・トークンの除去、アノテーション・トークンに対して割り当てられている識別子の記憶の起動、未定義のトークンに対して割り当てられている識別子の記憶の起動、第１言語から第２言語へのワード・トークンの変換、辞書ソース・データベース２２６の中の第１言語から第２言語へのワード・トークンの相互参照、および第２言語の中のワード・トークンに対する新しい識別子の割り当てを実行する。翻訳エンジン２０２はターミナル・コンシューマ２１８をさらに含む。ターミナル・コンシューマ２１８はアノテーション・トークンおよび未定義トークンなどの他のトークンを、第２言語でのターゲット文書の中の適切な位置に挿入する。図に示されているように、記憶モジュール２０４はトークン・ストリングのデータベース２２０、文章トークンのデータベース２２２、未定義トークンのデータベース２２４、辞書ソース・データベース２２６およびアノテーション・トークンのデータベース２２８を含むことができる。この具体例においては、未定義トークンデータベース224は未定義トークンまたは未定義トークンに関連しているデータ、たとえば、記憶モジュール２０４の中で未定義トークンの場所を識別するためのポインタとして働くことができる、割り当てられたトークン識別子を格納するために使われる。同様に、辞書ソース・データベース２２６は第１言語でのワード・トークンと第２言語に翻訳されたワード・トークンとの相互参照を格納するために使われる。この具体例においては、辞書ソース・データベース２２６の中に異なる言語でのワード・トークンを相互参照するための識別子も格納することができる。アノテーション・データベース２２８はアノテーション・トークンを格納するために使われる。あるいは、他のデータベース２２４、２２６に関して説明されたように、アノテーション・トークンに対して割り当てられた識別子を、記憶モジュール２０４の中のアノテーション・トークンの位置、およびそれらの間の関係を識別するために、格納することができる。この具体例はトランスレータ２１８によって使われないもの以外に、トランスレータ２１８によって使われるアノテーションについて有用であるが、翻訳後のテキストのそれ以降の処理に対して有用である。たとえば、品詞の設定を表すトークンは翻訳の間にトランスレータ２１８によって吸収される。そのようなアノテーション・トークンまたはワード・トークンに関連付けられているトークン識別子はさらにテキストを処理し、あるいはリファインするためのそれ以降のアノテーション・トークンの呼出しを支援するために、データベース２２０、２２２、２２４、２２６、２２８、２２９の中にセーブされる。データベース、２２０、２２２、２２４、２２６、２２８、２２９は厳密なデータベース標準には従わず、トークン識別子または他のロケータによってアクセスすることができるトークンに関する情報を単純にセーブすることに注意する必要がある。図１１を参照すると、一つの具体例において、図１０に従ってテキストの自動翻訳およびテキストの中のアノテーションの保存を実行するためのシステム２００を通しての、一つのトークン・ストリングの流れを示しているブロック図が示されている。この図に示されているように、ソース文書２３０はデータ・ストリングに変換され、テキスト・プロデューサ２０からトークナイザ２１０へ送られ、この時点でトークン・ストリングが形成され、トークン・ストリングのデータベース２２０の中に格納される。その後、トークン・ストリングはセンテンス・エンダー２１２へ送られ、センテンス・エンダー２１２は文章またはセクションの終りを表している適切なトークンをトークン・ストリングの中に挿入する。これらのトークンはこれ以降では文末トークンと呼ばれる。次に、トークン・ストリングはセンテンス・リトリーバ２１４へ送られ、センテンス・リトリーバ２１４は各文章またはセクションの中のすべてのトークンが、文章ごとのベースで文章トークンのデータベース２２２の中でリンクされることを確保する。次にトークン・ストリングはトランスレータ２１６へ送られ、そこで翻訳が実行されて、第１言語のワード・トークンが第２言語のワード・トークンに変換される。トランスレータ２１６によって理解されないトークンは翻訳されず、あるいは変更されずに通される。そのようなトークンは未定義のワード・トークンと考えられ、その後、そのトークンまたはそれらの識別子をオプションの未定義トークンのデータベース２２４の中に格納することができる。さらに、第１言語および第２言語のワード・トークンまたはそれらの識別子が相互参照されて辞書ソース・データベース２２６の中に格納され、アノテーション・トークンまたはそれらの識別子がアノテーション・トークンのデータベース２２８の中に格納される。次に・トークン・ストリングはターミナル・コンシューマ２１８へ渡され、ターミナル・コンシューマ２１８は第２言語のワード・トークンを受け取り、トークン・ストリングのデータベース２２０の中に格納されているトークン識別子を使って、第２言語のワード・トークンがそのストリングの中の適切な位置に置かれるようにする。次に、ターミナル・コンシューマは第２言語のワード・トークンをバイト・トークンに変換し、ターゲット文書２３２を形成する。この具体例においては、ターゲット文書２３２はソース文書２３０のアノテートされていない翻訳を含むことができる。次に、ターゲット文書２３２が元のソース文書２３０と一緒に文書データベース２２９の中に格納される。トークン・ストリングのデータベースは、ソース文書の中の文章が翻訳されるたびに、あるいは代わりに、ソース文書全体が翻訳されたときなど、各翻訳が実行されるたびに普通はクリアされ、ソース文書２３２はターミナル・コンシューマ２１８によって再生成され、翻訳エンジン２０２によって後で使われるために文書データベース２２９の中に格納される。ターミナル・コンシューマ２１８は未定義トークンデータベース224 をさらに使って、対話的環境において、翻訳が与えられなかったソース文書２３０の中にあった語句のリストをユーザに提供する。図１１のシステムを通してのトークン・ストリングの流れが、ターミナル・コンシューマ２１８を繰返し呼び出すことによって、ファイルの終りを表すトークンが受け取られるまでドライブされる。ファイル末トークンはソース・テキスト２３０の終りに達したこと、あるいは翻訳中のソース・テキスト２３０の選択されたセクションの終りに達したことを示すことができる。上記のように、ターミナル・コンシューマは辞書ソース・データベース２２６、未定義トークンのデータベース２２４およびアノテーションのデータベース２２８の中のデータを使って、元のソース文書２３０をさらに再生成し、ターゲット文書２３２またはソース文書２３０のそれ以降の処理を支援することができる。このようにしてソース文書２３０およびターゲット文書を文書データベース２２９の中に格納することができる。ソース文書２３０を再構築し、元のアノテーションがその中の適切な位置に保存されているようにすることによって、翻訳エンジン２０２はターゲット文書２３２の以降の翻訳の中またはソース文書２３０のそれ以降の翻訳の中の各ワードに対して、適切な品詞をより簡単に決定することができる。図１８の中でさらに説明されるように、それ以降の処理はソース文書２３０のテキストの修正、たとえば、同義語または共通語句を使うことによって高レベルの翻訳が望まれるときなどにさらに修正が必要となる可能性がある。そのような処理はターゲット文書２３２が生成された後で発生する可能性があり、したがって、元のソース文書２３０の中のアノテーションの配置についての知識が有用なッツールとなる。図１３およびそれに続いている図の中でさらに説明される具体例において、アノーテーション・トークンのデータベース２２８は、アノテータと協調してアノテーション・トークンをターゲット文書２２４の中の適切な位置に挿入することができる。そのような具体例においては、ターゲット文書２３２はソース文書２３０の翻訳されたバージョンであり、ソース文書２３０の元のテキストの中に存在しているアノテーションを適切な位置に含む。図１２を参照すると、図１１のシステムのアノテーション保存の操作を示している流れ図を示されている。ステップ２３４を参照すると、ソース文書のデータ・ストリングがバイト・トークンとアノテーション・トークンとに分割されている。たとえば、「Ｔｈｅｂｏｙｒａｎｔｏｔｈｅｓｔｏｒｅ．」という文章を含んでいるソース文書を考える。品詞のアノテーションによって、この文章は次のように現れる。「Ｔｈｅ＜ｎｏｕｎ＞ｂｏｙ＜ｅｎｄ‐ｎｏｕｎ＞＜ｖｅｒｂ＞ｒａｎ＜ｅｎｄ‐ｖｅｒｂ＞＜ｐｒｅｐｏｓｉｔｉｏｎａｌｐｈｒａｓｅ＞ｔｏｔｈｅｓｔｏｒｅ＜ｅｎｄ‐ｐｒｅｐｏｓｉｔｉｎａｌ‐ｐｈｒａｓｅ＞．」テキスト・プロデューサ２０６は語句がバイト・トークンの形式を取り、そして品詞の設定がアノテーション・トークンの形式を取るように、語句から、＜ｎｏｕｎ＞＜ｅｎｄ‐ｎｏｕｎ＞＜ｖｅｒｂ＞などの品詞の設定を分離するか、あるいはパースする。次に、そのバイト・トークンおよびアノテーション・トークンは上記のプリパーサーに似ているトークナイザ２１０へ渡され、トークナイザ２１０はステップ２３６において、バイト・トークンを第１言語のワード・トークンに変換する。上記のプリパーサーのように、それは特殊制約条件（たとえば、インターネットのアドレス、電話番号および社会保証番号）を単独のユニットとして認識し、そして記憶モジュール２０４の中の辞書のルックアップを使ってグルーピングを見つけることもできる。このようにしてトークナイザ２１０はワード・トークンおよびアノテーション・トークンを含んでいるトークン・ストリングを生成する。そのトークン・ストリングは次にステップ２３８においてトークン・ストリングのデータベース２２０の中に格納され、そしてセンテンス・エンダー２１２へ渡され、センテンス・エンダー２１２はステップ２４０において、文末トークンがトークン・ストリングの中のどの場所に挿入されるべきかを判定し、そのようなトークンをトークン・ストリングの中に挿入する。文末トークンが挿入される場所は図５のフローチャートに従って決定することができる。次に、ステップ２４２において、センテンス・リトリーバ２１４は各文章の中のすべてのトークンの識別子のリストを文章トークンのデータベース２２２の中に格納する。このデータベース２２２は後でターミナル・コンシューマ２３２によって使われ、元の文章を、翻訳された第２言語の形で再生成し、第１言語において存在していたその文章に関する情報を得て、第２言語での文章の生成時に翻訳された語句の正確な配置を改善することができる。次に、トークン・ストリングがトランスレータ２１６へ渡され、トランスレータ２１６はステップ２４４において、第１言語およびアノテーションのトークンを消費し、アノテーション・トークンをトークン・ストリングから分離し、そして第１言語でのワード・トークンを第２言語でのワード・トークンに翻訳する。第２言語でのワード・トークンは第２トークン・ストリングを形成し、そして第２言語のトークンには新しい識別子が割り当てられる。元のトークン・ストリングの中でトランスレータ２１６によって処理されないトークンは文末トークンだけである。したがって、文末トークンは翻訳後に維持され、記憶モジュール２０４の中のデータベース２２４、２２８の中に格納されているアノテーション・トークン識別子および未定義ワード識別子に対するポインタとして働く。ステップ２４６において、アノテーション・トークンの識別子がアノテーション・データベース２２８の中に格納され、そして文末トークンに対して割り当てられている識別子についてインデックスされるか、あるいは相互参照される。ターゲット文書２３２のそれ以降の処理が必要な場合、文末トークンは対応しているアノテーション、特に品詞の設定に対するリンクとして働き、ターゲット文書の中の語句がそれ以降の翻訳の中で正しい位置に置かれ続けることを確保することができる。さらに、上記のように、辞書ソース・データベース２２６およびアノテーション・トークンのデータベース２２８の中に格納されている第１言語のワード・トークンおよびアノテーション・トークンに対するリンクを提供している文末トークンの援けを借りて、ソース文書２３０をターミナル・コンシューマ２１８によって再生成することができる。ステップ２４８を参照すると、翻訳の実行中に、或る種のワード・トークンはトランスレータ２１６によって知られておらず、そして結果として、そのようなワード・トークンの翻訳は発生しない。たとえば、「ｌａｚｅｒｉｚｅ」などの語はトランスレータ２１６によっては翻訳することはできず、したがって、未定義ワードのトークンとみなされる。この具体例において、トランスレータ２１６は未定義ワード・トークンの中に未定義ワードを含んでいる第２言語のワード・トークンを生成し、そしてその未定義ワード・トークンまたはそれに関連付けられている識別子を、未定義トークンのデータベース２２４の中に格納する。未定義トークンのデータベース２２４はターミナル・コンシューマによってそれ以降でアクセスし、トランスレータが翻訳しなかった語句のリストをユーザに提供することができる。上記の例を使って、「ｌａｚｅｒｉｚｅ」という語を未定義とみなされた他の語句と一緒にユーザの端末に対して送ることができる。同様に上記のように、未定義ワード・トークンまたはそれに関連付けられた識別子を、文末トークンに関連付けられた識別子についてインデックスするか、あるいは相互参照することができる。翻訳中に、第１言語でのワード・トークンは第２言語でのワード・トークンに変換され、そして新しい識別子がそのような新しいワード・トークンに対して割り当てられる。ステップ２５０において、トランスレータ２１６は、辞書ソース・データベース２２６の中で、第１言語のワード・トークンに対して割り当てられた識別子を、第２言語のワード・トークンに対して割り当てられた識別子とリンク、インデックス、あるいは相互参照する。そのようなリンクまたは相互参照は第１および第２のワード・トークンに関連付けられている識別子を文末トークンに関連付けられている識別子とリンクすることによって実行することができる。次に、第２言語のトークンを含んでいる第２トークン・ストリングがターミナル・コンシューマ２１８に対して渡され、そこでソース文書の第２言語への翻訳を含んでいるターゲット文書が生成される。ステップ２５２において、文章トークンのデータベース２２２、アノテーション・トークンのデータベース２２８、辞書ソース・データベース２２６および、或る場合には、未定義トークンのデータベース２２４からトークン識別子を呼び出すために、第２トークン・ストリングの中の文末トークンが使われる。ステップ２５４において、第２言語のトークンがターミナル・コンシューマによって処理され、ターゲット文書２３２が生成される。文章トークンのデータベース２２２はソース文書２３０の各文章の中に存在しているワード・トークンおよびアノテーション・トークンに関連している情報を、ターミナル・コンシューマ２１８に対してさらに提供し、上記のようにソース文書２３０を再生成して格納することができるようにする。同様に、辞書ソース・データベース２２６は第２言語のワード・トークンを第１言語のワード・トークンとリンクして、第２トークン・ストリングの中のアノテーション・トークンによる第２言語のワード・トークンの配置がターゲット文書２３２の中で意味をなすようにすることができる。図１３を参照すると、自然言語の自動翻訳およびアノテーション、特にＨＴＭＬマークアップの保存のためのシステム２６０の代わりの具体例が示されている。ここでの説明は限定するものではなく、例を示しているものとみなされ、そしてこの説明は品詞のアノテーション、ＳＧＭＬのマークアップ、ＲＴＦのマークアップおよびＮＲＯＦＦのマークアップを含むテキストに対して適用されることは理解されるべきである。図１および図１０に関連して示され、説明されてきたこの具体例のシステムの中の要素がここに組み込まれており、そして冗長性をなくすために、そのような要素についての説明は繰り返されない。上記のように、ＨＴＭＬのマークアップは、たとえば、セクションのヘディング、リストおよびテーブルを指定するための情報として或る種のテキストの中に存在する。図に示されているように、翻訳エンジン２６２は参照サブスティテュータ２６６を含み、それはトークン・ストリングの中のアノテーション・トークンを調べてそれらがＨＴＭＬのマークアップを含むかどうか、およびそのマークアップがＨＴＭＬの文字参照を含むかどうかを判定する。ＨＴＭＬの文字参照は、特殊文字を他の文字のシーケンスで符号化するＨＴＭＬの一つの特徴である。参照サブスティテュータ２６６が文字エンティティの参照を検出した場合、それはその文字エンティティの参照を適切な文字で置き換える。たとえば、ＨＴＭＬ文書が次のＨＴＭＬ文字を含んでいる場合、４＆ＬＴ；５これは「４は５より小さい」ことを表すが、参照サブスティテュータはこの文字エンティティの参照を次のようなＨＴＭＬタグで置き換える。４＜５これは翻訳エンジン２６２が理解できる文字である。さらに示されるように、翻訳エンジン２６２は翻訳時に保存される必要のない或る種のＨＴＭＬトークンを削除する、マークアップ削除フィルタ２６８を含む。たとえば、或る種のＨＴＭＬマークアップは第２言語での或る種の語句に対して適用されるとき、第２言語のターゲット文書を不明瞭にする可能性がある。そのようなマークアップはフォントの選択、太字、斜体文字、または下線などがあり得る。一般に、より重要なＨＴＭＬマークアップ、たとえば、字下げ、およびヘッダなどは保持される。マークアップが保存される必要がないと翻訳エンジン２６２が判定すると、そのマークアップをマークアップ削除フィルタ２６８の中でトークン・ストリングから削除することができる。そのような、マークアップが削除された後、システムはその回りのトークンが併合されるべきであるかどうかをさらに判定する。たとえば、或る種のＨＴＭＬマークアップはホワイトスペースを意味し、すなわち、そのＨＴＭＬのマークアップは、そのマークアップの両側に存在しているテキストの間に一つのスペースが存在することを示唆する。ＨＴＭＬマークアップがライン・ブレーク・タグ＜ＢＲ＞などのホワイト・スペースの存在を示唆しているとき、そのマークアップを表しているトークンを削除することによって翻訳は影響されない。というのは、隣接しているテキストは別々に配置されたままになるからである。たとえば、「Ｃｏｍｅｓｅｅｏｕｒ＜ＢＲ＞ｎｅｗｐｒｏｄｕｃｔｓ」という文章がテキストの中に現われた場合、結果の翻訳は「ｏｕｒ」および「ｎｅｗ」が別々のトークンとして現れるように維持し、それらを「ｏｕｒｎｅｗ」として一つに結合することはない。しかし、削除されるＨＴＭＬタグがそのテキストの中の一つのワードの中に埋め込まれているとき、そのワードは断片化されることになる可能性がある。翻訳における不正確性をなくすために、マークアップ削除フィルタは削除されるべきＨＴＭＬタグがテキストの中のワードの内部に現れるときをさらに判定する。ＨＴＭＬタグが削除された後、マークアップ削除フィルタはその回りのテキストを併合する。翻訳エンジン２６２は「翻訳なし」フィルタ２７０をさらに含む。このフィルタはトークン・ストリングの中で翻訳される必要のないすべてのトークンを取り除き、そしてトークン・ストリングから取り除かれたトークンがあった場所においてプレース・ホルダーとして働く翻訳なしトークンを発生する。たとえば、タグ＜ＰＲＥ＞はそれに続くトークンが翻訳される必要がないことを示す。そのようなトークンはコンピュータ・コード、表形式のデータ、あるいは翻訳が必要でない他のテキストを含むことが多い。翻訳エンジン２６２は文章中断タグ・フィルタ２７２をさらに含み、上記と同様に、ＨＴＭＬのマークアップが暗黙に文章またはセクションを終了させるテキスト内の場所を決定する。トップ・レベル・ヘッディングの終り、たとえば、＜／Ｈ１＞などのセクションの終りを意味するＨＴＭＬマークアップの場合、文末トークンが挿入される。翻訳エンジン２６２はＨＴＭＬのボディ・トークンの開始、すなわち、＜ＢＯＤＹ＞を決定するためのボディの開始フィルタ２８６をさらに含むことができる。このタグはテキストのボディをテキストのヘッダから区別するためにテキストの中に置かれる。ソース・テキストの中の適切な位置にそのようなトークンが見つからなかった場合、ボディの開始フィルタ２８６はＨＴＭＬのボディ・トークンを挿入することができる。このフィルタ２８６は文章中断タグ・フィルタ２７２と協調して、ボディの上部のセクションを「閉じて」そのような場所にＨＴＭＬのボディ・トークンの開始、すなわち、ボディの開始タグを挿入する文末タグを識別することができる。同様に、翻訳エンジン２６２はＨＴＭＬのボディ・トークンの開始がいつ現れるかを決定し、そしてインターネットのページが翻訳されているときにページ・ベースのボタンを挿入するページ・ベース・フィルタ２８８を含むことができる。ボディの開始フィルタ２８６およびページ・ベースのフィルタ２８８は、ターゲット文書に対してユーザ・フレンドリなフィーチャーの追加をさらに支援することができる。そのような機能は、たとえば、ウェブ・ページの読者によって見られる文書が英語から翻訳されたものであることを示すためのテキストの追加、あるいはビューワが元のホーム・ページまたはセクションへ戻ることができるようにする「ボタン」またはアイコンの追加を含むことができる。そのような機能が読む人に対して見えるようにするために、それらはその文書のＢＯＤＹセクションに置かれなければならず、したがって、ＢＯＤＹの開始の判定は翻訳エンジン２６２にとって有用なツールとなり得る。同様に、代替画像ＨＴＭＬタグ、＜ＩＭＧ＞の存在を判定するために、一つのフィルタを使うことができる。このタグは普通は画像を含んでいるウェブ・サイトにおいて現れる。その画像が表示されないとき、その画像が何でなければならないかをビューワに知らせるテキストの前にこのタグが付く。本発明のシステムにおいては、ソース文書の中のこのタグの存在を判定し、そのテキストを翻訳するためのワード・トークンを生成し、そして上記のようにＨＴＭＬのマークアップを処理するために、一つのオプションの代替画像フィルタ（図示せず）を使うことができる。このように、たとえば、スペイン語に翻訳されるウェブ・サイトのビューワは、画像がソース文書の中に存在しないときにどんな画像が表されるかを知ることができる。文書状態レコーダ２７４はトークン・ストリングの中のどのトークンがＨＴＭＬマークアップであるかを判定し、そしてさらに各ＨＴＭＬマークアップが適用される第１言語のトークンを判定する。文書状態レコーダ２７４はトークン・ストリングの中の各トークンに対するアノテーション・レコードを生成する。アノテーション・レコードはそのＨＴＭＬマークアップを第１言語のトークンとリンクし、各第１言語のトークンに対して、それに対して適用されるＨＴＭＬのマークアップについて決定することができるようにする。さらに説明されるように、アノテーション・レコードはソース文書の翻訳バージョンの中で対応しているマークアップがどこに置かれるべきかを決定するのに有用である。翻訳エンジン２６２は上記のように、第１言語のトークンを第２言語のトークンに変換するためのトランスレータ２１６をさらに含む。翻訳語、文字セット・フィルタ２７６が翻訳トークンを走査し、「＜」または「＆」などのＨＴＭＬでは違法となる文字が、ＨＴＭＬの中で合法と見なされるそれに対応する文字エンティティ参照で置き換えられる。アノテータ２７８はここで図１７においてより詳細に記述されているように、ＨＴＭＬトークンがトークン・ストリングの中のどの場所に挿入されるべきかを決定し、そしてそのようなトークンをトークン・ストリングの中の適切な場所に挿入する。「翻訳なし」エキスパンダ２８０はどのトークンが「翻訳なし」のラベルが付けられたかを判定し、そのトークン・ストリングから最初に取り除かれた対応しているトークンを呼び出し、そしてそのようなトークンをそのトークン・ストリングの中の「翻訳なし」トークンの場所に再導入する。ターミナル・コンシューマ２１８は上記のように、第２言語のトークン、ＨＴＭＬトークンおよび品詞トークンなどの他のアノテーション・トークンを含んでいるトークン・ストリングを受け取り、そして第２言語でのターゲット文書２３２を発生する。上記と同様に、記憶モジュール２６４はトークン・ストリングのデータベース２２０、文章トークンのデータベース２２２、未定義のデータベース２２４、辞書ソース・データベース２２６、および非ＨＴＭＬアノテーション・トークン、またはそれらの識別子が格納されている補助のアノテーション・トークンのデータベース２２８を含む。さらに示されているように、記憶モジュール２６４は翻訳されないトークンまたはそれに関連付けられている識別子が格納される翻訳なしデータベース２８２を含む。さらに、記憶モジュール２６４はアノテーション・レコードが格納される文書状態データベース２８４を含む。図１４を参照すると、ＨＴＭＬ、ＳＧＭＬ、ＲＴＦまたはＮＲＯＦＦのマークアップを有しているソース文書において、自動翻訳およびアノテーションの保存を実行するためのシステム２６０の具体例を示しているブロック図が示されている。説明の目的だけのために、ここではＨＴＭＬのマークアップを有しているソース文書が説明される。図に示されているように、ＨＴＭＬのマークアップを有しているソース文書２９０は、データ・ストリングに変換されてテキスト・プロデューサ２０６、リファレンス・サブスティテュータ２６６およびトークナイザ２１０へ送られ、そこでトークン・ストリングが生成されてトークン・ストリングのデータベース２２０の中に格納される。そのトークン・ストリングはマークアップ削除フィルタ２６８へ送られ、そのフィルタは翻訳の中で保存される必要のない或る種のマークアップを削除する。翻訳なしフィルタ２７０はトークン・ストリングの中の翻訳される必要のないすべてのトークンを取り除き、その取り除かれたトークンを翻訳なしデータベース２８２の中に格納し、そして取り除かれたトークンが元々現われていた場所に「翻訳禁止」トークンをトークン・ストリングの中に挿入する。次にトークン・ストリングが文書中断タグ・フィルタ２７２およびセンテンス・エンダー２１２へ送られ、その両方がそのトークン・ストリングの中に文末トークンを挿入する。次に、そのトークン・ストリングは文書状態レコーダ２７４へ送信され、文書状態レコーダ２７４は後で説明されるように、どのトークンがＨＴＭＬマークアップであるかを判定し、そしてこれらのトークンを文書状態データベース２８４の中に記録する。文書状態データベース２８４は、第１のトークン・ストリングの中の第１言語のトークンに対するマークアップの状態を表しているアノテーション・レコード、すなわち、元のソース文書２３０の中の第１言語の語句に対して適用されるアノテーションを記録する。後でさらに説明されるように、文書状態データベース２８４は、翻訳された、あるいは第２言語のワード・トークンを含んでいる第２トークン・ストリングに対するマッチしているマークアップ状態を作る際に使われる、第１トークン・ストリングのマークアップ状態を再生成するために後で使われる。次に、そのトークン・ストリングはセンテンス・リトリーバ２１４へ渡され、センテンス・リトリーバ２１４はそれ以降での呼出しおよび文章の再構築を容易にするために、各文章の中のトークンのリストが文章トークンのデータベース２２２の中に一緒に格納されるようにする。次に、そのトークン・ストリングはトランスレータ２１６へ渡され、そこでＨＴＭＬのトークンが取り除かれ、トークン・ストリングの中の残りのトークンについて翻訳が実行されて、第２のトークン・ストリングが作られる。翻訳の後、文字セット・フィルタ２７６が「＆」および「＜」などのＨＴＭＬにおいては違法であるとみなされる文字を求めて各トークンを検査し、それらを適切なＨＴＭＬ文字エンティティ参照で置き換える。アノテータ２７８は文書状態データベース２８４から情報を呼び出し、そしてＨＴＭＬトークンを、後で説明されるように、第２トークン・ストリングの中の翻訳されたトークンに関して適切な位置に挿入する。次に、第２トークン・ストリングが翻訳なしエクスパンダ２８０へ送られ、翻訳なしエクスパンダ２８０は翻訳なしトークンを受け取ってそのようなドークンを「翻訳なし」データベース２８２から呼び出されたようにそれらが表すワード・トークンと置き換える。次に、そのトークン・ストリングはターミナル・コンシューマ２１８へ渡され、ターミナル・コンシューマ２１８はターゲット文書２９２を生成し、品詞トークンなどの補助のアノテーション・トークンをターゲット文書２９２の中の適切な場所に挿入する。ターゲット文書２９２はソース文書２９０の翻訳されたバージョンであり、翻訳、ＨＴＭＬマークアップおよび元のソース文書２９０の中に存在していた他のアノテーションを含んでいる。図１５を参照すると、図１３のシステムのアノテーション保存操作を示している流れ図が示されている。ステップ３００を参照すると、ソース文書のデータ・ストリングがバイト・トークンおよびアノテーション・トークンに分割され、それらのいくつかはＨＴＭＬトークンである。たとえば、ソース文書の中の次の文章、「Ｃｈａｎｇｉｎｇｔｈｅｏｉｌｅｖｅｒｙ１０００ｍｉｌｅｓｉｓｎｅｃｅｓｓａｒｙ．」は次のように現れる。＜ＢＯＬＤ＞Ｃ＜ＦＯＮＴｓｉｚｅ＝−１＞ｈａｎｇｉｎｇｔｈｅｏｉｌｅｖｅｒｙ１０００ｍｉｌｅｓｉｓｎｅｃｅｓｓａｒｙ．＜ＢＯＬＤ＞したがって、この文章のためのトークンはＨＴＭＬトークン、バイト・トークン、ＨＴＭＬトークン、バイト・トークン、バイト・トークン、．．．ＨＴＭＬトークンとしてストリングの中に表すことができる。上記と同様に、品詞の設定を表しているアノテーションもバイト・トークンからテキスト・プロデューサによって分離され、上記の図１２の中のようにアノテーション・トークンとして現れる。冗長性をなくすために、品詞のアノテーションに関連した上記の説明はここでは繰り返されないが、組み込まれている。ステップ３０２において、トランスレータによって処理することができないＨＴＭＬトークンの中に現れる成る種のＨＴＭＬ文字エンティティの参照は文字で置き換えられる。リファレンス・サブスティテュータがその文字エンティティ参照を文字で置き換えた後、そのバイト・トークンが上記のように第１言語のトークンに変換され、そして第１トークン・ストリングがステップ３０４において生成される。第１トークン・ストリングは第１言語のトークン、ＨＴＭＬトークンおよび任意のその他の非ＨＴＭＬアノテーション・トークンを含む。次にステップ３０６において、そのトークン・ストリングは上記と同様にトークン・ストリングのデータベースの中に格納される。ステップ３０８において、トークン・ストリングは、翻訳されたターゲット文書２３２に入れられるべきでないＨＴＭＬトークンを探してさらに調べられ、さらにそのようなトークンはマークアップ削除フィルタ２６８によってトークン・ストリングから取り除かれる。次に、トークン・ストリングは「翻訳なし」フィルタをステップ３１０において通過し、そこで翻訳されない第１言語のトークンがシステムによって吸収され、そして「翻訳なし」によって置き換えられる。たとえば、ユーザが複数のインターネット・ページをブラウズしていて、そのページのヘッダまたはフッダだけを翻訳したい場合、翻訳エンジン２６２はそのような指示を入力装置から受け取り、ヘッグとフッダとの間のテキストに対応しているワード・トークンが複数の翻訳なしトークンで置き換えられるようにする。このようにしてトークン・ストリングの中の「翻訳なし」トークンは、トークン・ストリングがトランスレータ２１６によって受け取られるときに不変のままになっている。次に、翻訳されない第１言語のトークンが翻訳なしデータベース２８２の中にセーブされ、そのトークン・ストリングの中の第１言語のトークンを置き換える「翻訳なし」トークンに対して割り当てられた識別子によってインデックスされる。次に、トークン・ストリングがステップ３１２において調べられ、ＨＴＭＬトークンが文章を終了させるか、あるいはセクションに対する終りを形成する場所を決定する。上記のように、文章の終りは図５のフローチャートに従ってソース・テキストの中で判定することができる。そのような場所において、文末トークンがトークン・ストリングの中に挿入されてステップ３１４に示されているように、それに先行するトークンが文章トークンのデータベース２２２の中で一緒にインデックスされるようにする。さらにステップ３１６において、ボディの開始ＨＴＭＬタグが存在すべきであることを翻訳エンジン２６２の中のボディの開始フィルタ２８６が決定した場所に、ボディの開始トークンを挿入することができる。上記のように、そのようなボディの開始タグはヘッダとテキストのボディとの間に欠けていることが多く、したがって、そのような場所に挿入される。ステップ３１８において、ＨＴＭＬトークンが文書状態レコーダ２７４によってトークン・ストリングから取り除かれる。ＨＴＭＬトークンを変換することはできないので、それらは翻訳エンジン２６２がワード・トークンをトークン・ストリングの中に翻訳することができるように、トークン・ストリングから取り除かれなければならない。トークン・ストリングからのＨＴＭＬトークンの除去時に、各ＨＴＭＬトークンは文書状態データベース２８４の中に格納され、それが適用されるワード・トークンに対してリンクされる。ＨＴＭＬのマークアップはソース・テキストの中の複数の文章またはパラグラフに対して適用されることが多いので、文書状態レコーダ２７４は文書全体にわたってＨＴＭＬトークンをセーブする。すなわち、ＨＴＭＬトークンは図１６においてさらに説明されるように、他のアノテーション・トークンおよび非アノテーション・トークンがリンクされる複数のベクターの中にセーブれる。そのベクターの長さは文章構造には依存せず、ソース・テキストの中のＨＴＭＬのマークアップの回りの語句に対する適用可能性に依存する。そのベクターはアノテーション・レコードとして文書状態データベース２８４の中に格納される。アノテーション・レコードはソース文書２９０の中のワード・トークンおよびＨＴＭＬトークンの順序を表し、そして各ワード・トークンに対して、各ワード・トークンに適用されるＨＴＭＬトークンを指定する。このようにして、文書状態データベース２８４の中に配置して、特定のワード・トークンに対するアノテーション・レコードもそのワード・トークンに対して適用されるＨＴＭＬマークアップをロケートする。各トークンに対するアノテーション・レコードはトークン・識別子およびトークン・タイプを含んでいるトークン・フィールド、および親のアノテーション・レコードに対するオフセットを含む。親のアノテーション・レコードはワード・トークンに対して適用されるＨＴＭＬトークンを識別する。親のトークンに対するオフセットはＨＴＭＬマークアップとワード・トークンとの間の空間的な関係を識別する。たとえば、アノテーション・レコードは次のように現れ得る。ＡｎｎｏｔａｔｉｏｎＲｅｃｏｒｄ（ＴｏｋｅｎｔｈｅＴｏｋｅｎ，ｓｉｚｅ＿ｔｐａｒｅｎｔＯｆｆｓｅｔ）：ｔ（ｔｈｅＴｏｋｅｎ），ｐａｒｅｎｔ（ｐａｒｅｎｔＯｆｆｓｅｔ），ｗｈｅｒｅＴｏｋｅｎｔ：／／ソース・トークンＡｎｎｏｔａｔｉｏｎＲｅｃｏｒｄ＊ｐａｒｅｎｔ／／囲んでいるアノテーションに対するポインタ示されているように、アノテーション・レコードは問題のトークンおよび親のトークン、すなわち、問題のトークンを「囲み込んでいる」トークンを含む。親のトークンは問題に最も近いマークアップであり、問題のトークンと他のトークンとの間の関係を調べているときに最初に遭遇するマークアップである。親のトークンまたは最も近いマークアップはそれ自身他のマークアップによって囲い込まれている可能性があること、すなわち、親のトークン自身の中に親のトークンが入っている場合があることに注意することが重要である。したがって、アノテーション・レコードは問題のトークンとそのトークンに対して適用されるすべてのマークアップとの間のリンクを含む。したがって、親のオフセットは別のアノテーションに対するポインタとして働く。というのは、親のオフセットは親のトークンに対して生成されたアノテーション・レコードをポイントするからである。上記のステップ３１８でのように、ＨＴＭＬトークンは第１トークン・リングの中で取り除かれ、第１言語のワード・トークンに対するアノテーション・レコードが生成され、文書状態データベースの中に格納される。ステップ３２０において、各文章の中のすべてのトークンのリストが文章トークンのデータベース２２２の中に格納される。ステップ３２２において、その翻訳が実行され、そして第１言語のワード・トークンおよび残りのアノテーション・トークンが消費されて第２言語のワード・トークンが生成され、第２トークン・ストリングが形成される。ステップ３２４において、アノテーション・トークンの識別子が補助アノテーション・トークン・データベース２２８の中に格納され、そしてステップ３２６において、第１言語のワード・トークンが第２言語のトークンと相互参照され、そして辞書ソース・データベース２２６の中に格納される。ステップ３２８において、未定義の第１言語のトークン識別子が未定義トークンのデータベース２２４の中に格納される。ステップ３３０において、元のＨＴＭＬ文字がＨＴＭＬトークンの中の文字エンティティ参照を置き換える。ステップ３３２において、ＨＴＭＬトークンが文書状態データベースから呼び出され、そして第２トークン・ストリングの中の適切な場所に挿入される。このステップが実行されるプロセスが、図１６および図１７の中でさらに示されている。上記のように、翻訳の間に、第１言語のワード・トークンが消費され、そして手が付けられずに残っているトークンは文末トークンだけである。したがって、文末トークンに割り当てられている識別子が辞書ソース・データベース２２６の中で、第１言語のトークンを第２言語のトークンとリンクまたは相互参照するために使われ、どの第１言語ワードがどの第２言語ワードに対応するかをシステムが判定できるようにする。翻訳が発生し、ワード・トークンが第２言語のワード・トークンとなった後、テキストの中でＨＴＭＬのマークアップの場所を決定するために使われるベクターを、先ず最初に辞書ソース・データベース２２６から、第２言語のワード・トークンと第１言語のワード・トークンとの間のリンクを呼び出すことによって発生することができる。第２言語のワード・トークンと第１言語のワード・トークンとの間の対応が決定されると、第１言語のワード・トークンのための識別子は分かっていて、文書状態データベース２８４の中で問題のトークンに対するアノテーション・レコードを見つけるために使うことができる。たとえば、第２言語のワードに対応する第１言語のワードが見つかると、第１言語のワードを囲んでいるマークアップを決定して第２言語のワードに対して同様に適用することができる。一度アノテーション・レコードが得られると、図１６に示されて説明されているようなベクターを生成することができ、そして第２言語のワード・トークンをともなう第２トークン・ストリングの中のアノテーションを配置する際にアノテータ２７８を支援するために使うことができる。図１６を参照すると、ソース・テキストの中の一つの文章に対してアノテーション・トークンと非アノテーション・トークンとをリンクしているベクターの一例が示されている。その文章は次の語句を含む。「Ｔｈｉｓｉｓａｎｅｘａｍｐｌｅ．」これは次のＨＴＭＬマークアップを含んでいる：＜ＨＴＭＬ＞＜ＢＯＤＹ＞＜Ｈ１＞Ｔｈｉｓｉｓａｎ＜ＡＨＲＥＦ＝“ ａ．ｈｔｍｌ”＞ｅｘａｍｐｌｅ＜／Ａ＞．＜／Ｈ１＞＜／ＢＯＤＹ＞＜／ＨＴＭＬ＞この図に示されているように、トークナイザによって作り出されるトークンは、文章の要素をアノテーション・トークン、特にＨＴＭＬトークンおよびワード・トークンに分割し、それによってトークン・ストリングを形成する。そのトークン・ストリングが文書状態レコーダ２７４に到達すると、最も左のトークン３５０（この例の中ではＨＴＭＬトークンである）が最初に受け取られる。そのＨＴＭＬトークンがベクターの中の第１トークンとなり、それ以降のトークンはそれがアノテーション・トークンであるか、あるいは非アノテーション・トークンであるかどうかには関係なく、文書状態データベース２８４の中のアノテーション・レコードのリストに対してリンクされる。次のトークンはＨＴＭＬトークン＜ＢＯＤＹ＞３５２であり「ボディの開始」を指定しており、そしてＨＴＭＬトークンにリンクされる。同様に、次のトークン３５４はＨＴＭＬトークン「Ｈ１」であり、これも開始アノテーション・トークンであり、それは先行している「ボディの開始」トークンに対してリンクされる。このトークンに続くトークン３５５は語句およびスペースを表し、そしてベクターの中で最後のＨＴＭＬアノテーション・トークン３５４（それは「Ｈ１」トークンである）に対してリンクされる。次のＨＴＭＬトークン「Ａ」３５６を受け取ると、これはＨＴＭＬのマークアップ＜ＡＨＲＥＦ＝“ａｈｔｍｌ”＞を表しており、文書状態レコーダはこのトークンを最後のＨＴＭＬトークン３５４に対してリンクする。このＨＴＭＬトークン３５６も開始トークンであるので、次に受け取られるトークンである、ワード・トークンがＨＴＭＬトークン「Ａ」に対してリンクされる。次に受け取られるトークン３５８はＨＴＭＬのマークアップ＜／Ａ＞を表すエンディング・トークンであり、前の「Ａ」のＨＴＭＬトークンを閉じる。エンディング・トークンとして、このトークン３５８は「Ａ」のトークンにリンクされる。次のトークン３６０もエンディング・トークンであり、ＨＴＭＬのマークアップ＜／Ｈ１＞を表す。このトークンは前に受け取られている「Ｈ１」トークン３５４を終了させ、したがって、それに対してリンクされる。同様に、ＨＴＭＬのマークアップ＜／ＢＯＤＹ＞および＜／ＨＴＭＬ＞はエンディング・トークン３６２、３６４であり、これらはそれぞれ「ｂｏｄｙ」および「ｈｔｍｌ」を表している開始トークン３５０、３５２に対してリンクされる。このように、各トークンが受信されるたびに、ベクターが増加され、トークン間のリンクが生成される。さらに、ベクターの中に一つのワード・トークンを見つけることは、取り囲んでいるマークアップおよび他のワード・トークンをポイントする。ふたたび図１５を参照すると、ステップ３３２において、アノテータは問題の各トークンのアノテーション・レコードを参照し、そしてアノテーション・レコード間で与えられているリンクに基づいて適用され得ると考えられる対応している位置において、第２トークン・ストリングの中にアノテーション・トークンを挿入する。ふたたび図１６の中の例を参照すると、英語から日本語への翻訳において、「Ｔｈｉｓｉｓａｎｅｘａｍｐｌｅ．」に対応している英語のトークンの翻訳は日本語のワード・トークンとして第２トークン・ストリングの中に現れる。アノテータは英語のワード・トークンに関連付けられているベクターを参照し、そして次のタグ、すなわち、ＨＴＭＬ、ＢＯＤＹ、Ｈ１、Ａ、／ＨＴＭＬ、／ＢＯＤＹ、／Ｈ１および／Ａが第１言語のワード・トークンに適用され、したがって、対応している日本語の語句に適用されることを決定する。次に、これらのトークンが第２トークン・ストリングの中に挿入され、このストリングは更新されて記憶モジュールの中に格納される。図１７においてさらに説明されるように、第２トークン・ストリングの中の新しく挿入されたＨＴＭＬトークンを反映しているトークンが、次にそのベクターに対応する第１トークン・ストリングの中のトークンから差し引かれ、第１トークン・ストリングの中に存在していたが、第２トークン・ストリングの中にまだ挿入されていないＨＴＭＬトークンが決定される。図１７を参照すると、第２言語のトークンに対する現在のマークアップ状態が第１言語のワード・トークンのマークアップ状態とマッチするように、アノテーションが翻訳されたトークン・ストリングの中の適切な位置に挿入されることを示している流れ図が示されている。ステップ４００を参照すると、第１言語のワード・トークンが第２言語のワード・トークンに翻訳される。第１言語のワード・トークンは文末トークンによって辞書ソース・データベースの中の第２言語のワード・トークンにさらにリンクされる。ステップ４０２において、アノテータは第１トークン・ストリングの中のどのトークンが、マークアップ状態がマッチしている必要がある第２言語のトークンに対応するかを判定する。この判定を行う際に、アノテータは文書状態データベースから、そのトークンが存在する文章に対する文末トークンに対して割り当てられている識別子を得る。次に、文末トークンの識別子が、辞書ソース・データベースの中で、第１言語のワード・トークンに対応するトークン識別子を見つけるために使われる。第１言語のトークンに対応しているトークン識別子が見つかると、上記のようにそのトークンに対する文書状態データベースの中のアノテーション・レコードを決定することができる。次に、アノテータはステップ４０４において、文書状態データベースからアノテーション・レコードを呼び出し、図１６において説明されたように、第１言語のトークンを包含するアノテーションのリストを発生する。上記のように、問題のトークンに対するマークアップ状態は、ベクターの中のそのトークンの位置において開いているアノテーションを表すトークンのリストである。ふたたび文章「Ｔｈｉｓｉｓａｎｅｘａｍｐｌｅ．」を参照すると、ＨＴＭＬのマークアップが付いて次のように示されている。＜ＨＴＭＬ＞＜ＢＯＤＹ＞＜Ｈ１＞Ｔｈｉｓｉｓａｎ＜ＡＨＲＥＦ＝“ ａ．ｈｔｍｌ”＞ｅｘａｍｐｌｅ＜／Ａ＞．＜／Ｈ１＞＜／ＢＯＤＹ＞＜／ＨＴＭＬ＞「Ｔｈｉｓ」を表しているトークンに対するマークアップ状態は［＜ＨＴＭＬ＞＜ＢＯＤＹ＞＜Ｈ１＞］である。このマークアップ状態はさらに「ｉｓａｎ」および「．」に対して適用される。しかし、「ｅｘａｍｐｌｅ」という語はマークアップ状態が異なっており、それは［＜ＨＴＭＬ＞＜ＢＯＤＹ＞＜Ｈ１＞＜ＡＨＲＥＦ＝“ａ．ｈｔｍｌ”＞］である。そのベクターは第１言語のトークンに対する現在のマークアップ状態をアノテータに提供するので、アノテータは、ステップ４０６において、第２言語のトークンのマークアップ状態を第１言語のトークンのマークアップ状態から差し引く。次に、制御はステップ４０８へ移り、そして第２言語のワード・トークンの現在のマークアップ状態からどのアノテーション・トークンが欠けているかについての判定が行われる。このプロセスが第２トークン・ストリングの中の次々のトークンに対して繰り返される。したがって、文章「Ｔｈｉｓｉｓａｎｅｘａｍｐｌｅ．」が翻訳されて第２のトークン・ストリングによって表された後、その第２言語のトークン・ストリングに対して追加されるアノテーション・トークンが上記のアノテーションから差し引かれ、ストリングの中に挿入するために必要な追加のアノテーション・トークンが決定される。アノテーション・レコードを呼び出すことによって、アノテータは一つのワード・トークンに対して、適用されるマークアップを決定することができ、そしてターゲット文書の中の適切な位置にそのマークアップを挿入する。これはソース文書の中で隣合っていた可能性のあるワード・トークン間の配置の転位にかまわずに行われる。或る場合には、第２言語のストリングのマークアップが正しいことを確保するために、アノテーションが翻訳の中に二度以上挿入される。第２言語のワード・トークンに対する現在のマークアップ状態は、第２言語のストリングの中に以前に挿入されたマークアップだけに依存し、第１言語のワード・トークンに対するマークアップのすべてを含む可能性がないことに注意することが重要である。したがって、第２言語のトークンのマークアップ状態を第１言語のワード・トークンのマークアップ状態から差し引くことによって、第２言語のマークアップ状態を第１言語のマークアップ状態にマッチさせるのに必要なトークンのリストが得られる。それらのトークンはマッチしているマークアップ状態を作るために、特定の第２言語のトークンの回りに第２トークン・ストリングの中に挿入されなければならない「欠落しているアノテーション・トークン」である。ステップ４１０および４１２を参照すると、次に、そのようなアノテーション・トークンを、第２言語トークンを囲んでいる第２トークン・ストリングの中に挿入することができ、そして第２トークン・ストリングの現在のマークアップ状態を更新して記憶モジュールの中にセーブすることができる。次に、制御がステップ４１４へ移り、アノテータは第２トークン・ストリングの中に第２言語のワード・トークンが残っているかどうかを判定する。追加の第２言語のワード・トークンがまだ残っていた場合、制御はステップ４００へ戻り、その第２言語のワード・トークンの対応している第１言語のトークンが決定され、以前に挿入されたアノテーション・トークンを反映している現在のマークアップ状態でステップ４０２〜４１４が再び実行される。しかし、ファイル末トークンが以前に受け取られた第２言語のワード・トークンの直後に続く場合、アノテータはすべての適用可能なアノテーションが第２言語トークン・ストリングの中に挿入されたと判定し、そして制御はターミナル・コンシューマへ渡される。上記のように、第２トークン・ストリングがターミナル・コンシューマへ到着すると、それは処理されて第２言語でのターゲット文書に変換される。本発明は、文書全体または単に文書の一部分を翻訳するために使うことができる。文書の一部分だけが翻訳される場合、アノテーション・レコードがその文書の中の各トークンに対して生成される。しかし、第１言語のトークンは翻訳のために必要な部分を開始するトークンに達するまでは翻訳されない。このようにして、文書全体に対するマークアップ状態がその時点での状態であり、したがって、翻訳のために必要な部分を開始するトークンに対するマークアップ状態も同様に最新の状態であることが確保される。ふたたび図１５を参照すると、ステップ３３２においてアノテーションが第２トークン・ストリングの中に挿入されると、制御はステップ３３４へ移り、そこでターミナル・コンシューマによって「翻訳なし」トークンのリストが受け取られ、その「翻訳なし」トークンのリストがユーザに対して提供される。ステップ３３６において、第１言語のトークンと第２言語のトークンとの間のリンクが呼び出される。ステップ３３８において、第２トークン・ストリングの中の第２言語のトークンおよびＨＴＭＬトークンが消費され、ターゲット文書が第２言語で生成される。ステップ３４０において、品詞の設定などのアノテーションが、辞書ソース・データベース２２６によって提供されるリンクを使ってターゲット文書の中に挿入される。図１８を参照すると、自然言語の自動翻訳および編集されるテキストの中のアノテーションの保存を実行するためのシステム全体でのトークン・ストリングのフローを示しているブロック図が示されている。本発明のこの具体例は図１１に関して上で示されて説明された具体例と同様であり、冗長性をなくすために、上で以前に示されて説明された要素のいくつかは、組み込まれてはいるが、ここでは繰り返されない。この具体例においては、ソース文書２３０はデータ・ストリームとして代替テキスト・プロデューサ４２０へ送信される。代替テキスト・プロデューサ４２０は入力装置２２を通じてユーザによって入力されたコマンドを受け取って解釈することができ、そしてそれに従って翻訳のプロセスを変更することができる。たとえば、代替テキスト・プロデューサ４２０は、ユーザが翻訳されるべき文書の中のテキストを変更したこと、あるいは修正したことを示している入力を受け取ることができる。次に、ソース文書の内部のテキストに対するそのような編集は記憶モジュール２０４の中に格納される。したがって、代替テキスト・プロデューサ４２０は記憶モジュール２０４にアクセスし、変更された、あるいは修正されたテキストに対応するトークンを生成し、そのようなトークンをトークナイザ２１０に対して送信することができる。代替テキスト・プロデューサ４２０は編集されるテキストに対応するトークンを生成するので、その編集に先立って元のテキストに対して以前に生成されたトークンは削除することができる。次に、アノテーション・レコードが編集されるテキストを表している各トークンに対して生成され、これらのアノテーション・レコードが既存のアノテーション・レコードに対して、図１６において上で説明されたようにリンクされる。したがって、その文書の編集されたテキストに対する現在のマークアップ状態を得ることができ、結果のターゲット文書がソース文書の中の周りのテキストと一緒に、それに対して適用されるマークアップを含みながら、その編集されたテキストの翻訳を含むことができるようにする。次に、トークン・ストリングはセンテンス・エンダー２１２へ送られ、そこで文の終りを表す適切なトークンが挿入され、そして次に、センテンス・リトリーバ２１４へ送られ、各文章の中のトークンが文章トークンのデータベース２２２の中に一緒に格納されることが確実にされる。同様に上記のように、元のテキストの中の文章の終りを表している文末トークンが、文章トークンのデータベース２２２の中の編集されたテキストの中の終りを表している文末トークンによって置き換えられる。このようにして、文章トークンのデータベース２２２の中に格納されたトークンは編集されたすべての文章を含む、ソース文書の中の文章を表す。次に、トークン・ストリングは代替トランスレータ４２２へ渡され、そこで翻訳が行われる。上記のように、アノテーション・トークンが取り除かれ、そしてそのようなトークンまたはそれらの識別子が、未定義トークンのデータベース２２４、辞書ソース・データベース２２６、およびアノテーション・トークンのデータベース２２８などの適切なデータベースに対して送られる。この具体例においては、代替トランスレータ４２２は複数の翻訳オプションを提供し、その中からユーザが選択することができる。たとえば、ユーザはソース文書の中の或るフレーズまたはテキストを選択することができ、そしてそのフレーズまたはテキストが翻訳の間に繰返しリファインされる必要があることを、トランスレータ４２２に対して指示する。この例においては、複数の翻訳をユーザに対して提供することができ、そしてユーザはそのフレーズまたはテキストに最も適している翻訳を選択することができる。同様に、ユーザは自分がさらにリファインして欲しいと思うワードまたはフレーズをターゲット文書から選択することができる。次に、トークン・ストリングはターミナル・コンシューマ２１８へ渡され、ターゲット文書２３２の中の適切な位置にアノテーション・トークンが挿入される。ターゲット文書２３２は翻訳されたテキストに対してなされた改良以外に、そのソース・テキストに対してなされた任意の変更または修正と一緒に、元のソース・テキストの中に存在しているアノテーションおよび翻訳を含んでいる、ソース文書の翻訳されたバージョンである。したがって、この具体例のシステムはソース文書の改善された翻訳を含んでいるターゲット文書を提供することができる。代替テキスト・プロデューサ４２０および代替トランスレータ４２２は図１４の中で説明されたシステムの中でさらに使うことができ、そしてここで示されて説明されたテキスト・プロデューサおよびトランスレータを置き換えることができる。したがって、ＨＴＭＬのマークアップを保存するための図１４のシステムによって、ユーザは翻訳の間にテキストを編集または変更することができ、そして上記のように、いくつかの翻訳のオプションをユーザに提供することができる。ここに説明された自然言語の自動翻訳システムの任意の具体例を、ここに機能的に説明されたもののすべてを含めて、汎用のコンピュータ（たとえば、ＡｐｐｌｅＭａｃｉｎｔｏｓｈ、ＩＢＭＰＣまたはその互換機、Ｓｕｎのワークステーションなど）の上で実行するためにディスケットまたは光コンパクト・デイスク（ＣＤ）などの、コンピュータが読める媒体上のコンピュータ・ソフトウエアとして提供することができる。ここで説明されていることの変形、修正、および他の実装が、請求されている本発明の精神および範囲から逸脱することなしに、この分野において普通の技術を有する人によって行われる。したがって、本発明は前記の説明的な記述によって定義されるのではなく、以下の請求の範囲の精神および適用範囲によって定義されるべきである。請求の範囲は次の通りである。

───────────────────────────────────────────────────── 【要約の続き】の中の適切な場所に挿入される。これらの場所は文末トークンおよびアノテーション・レコードを使って決定され、そして第２トークン・ストリングおよびアノテーションを使って、ターゲット文書が第２言語で作り出され、したがって、ターゲット文書の中にソース文書のアノテーションが再生成されている。

Claims

【特許請求の範囲】１．第１言語でのアノテートされたソース文書を第２言語でのアノテートされたソース文書に翻訳する方法であって、テキストおよびアノテーションを有している複数の文章を含んでいる第１言語でのソース文書を受け取るステップと、複数の第１言語のトークンおよび複数のアノテーション・トークンを含んでいる第１トークン・ストリングを、ソース文書を使って生成するステップと、ソース文書の中の文章の終りに対応している場所において、トークン・ストリングの中に複数の文末トークンを挿入するステップと、前記トークン・ストリングから複数のアノテーション・トークンを取り除くステップと、取り除かれたアノテーション・トークンを記憶モジュールの中に格納し、前記記憶モジュールの中で前記アノテーション・トークンを前記文末トークンに対してリンクするステップと、複数の第１言語のトークンを翻訳し、そして複数の第２言語のトークンおよび文末トークンを含んでいる第２トークン・ストリングを生成するステップと、前記文末トークンを使って、前記第２トークン・ストリングの中に複数の各アノテーション・トークンを挿入するための場所を決定するステップと、前記複数のアノテーション・トークンを前記場所において前記第２トークン・ストリングの中に挿入するステップと、前記第２トークン・ストリングの中の前記複数の第２言語のトークンおよび前記アノテーション・トークンを使って、第２言語での前記ソース文書の翻訳されたバージョンを作り出すステップとを含む方法。２．請求項１に記載の方法において、前記アノテーション・トークンが品詞の設定、ＨＴＭＬのマークアップ、ＳＧＭＬのマークアップ、ＲＴＦのマークアップ、およびＮＲＯＦＦのマークアップのうちの一つまたはそれ以上を表すようになっている方法。３．請求項１に記載の方法において、前記第１言語のトークンは英語のテキストを表し、そして前記第２言語のトークンは日本語のテキストを表している方法。４．請求項１に記載の方法において、前記第１言語のトークンは英語のテキストを表し、そして前記第２言語のトークンはスペイン語のテキストを表している方法。５．請求項１に記載の方法において、前記ソース文書の中の文章に現れる順序に対応して、前記複数の第１言語トークン、前記アノテーション・トークンおよび前記文末トークンを文章データベースの中に格納するステップと、前記文章データベースの中に格納されている前記トークンを使って、前記第２トークン・ストリングの中に前記アノテーション・トークンを挿入するための場所を決定するステップとをさらに含む方法。６．請求項１に記載の方法において、前記第１言語のトークン・ストリングの中で前記第１言語のトークンのうちのどれが未定義の第１言語トークンであるかを判定するステップと、前記未定義の第１言語トークンを記憶モジュールの中に格納するステップと、ソース文書の翻訳されたバージョンのビューワに対して、未定義の第１言語のトークンのリストを提供するステップとをさらに含む方法。７．請求項１に記載の方法において、前記第１言語のトークンを前記記憶モジュールの中に格納するステップと、前記第２言語のトークンを前記記憶モジュールの中に格納するステップと、前記文末トークンを使って、前記格納されている第１言語のトークンを前記格納されている第２言語のトークンにリンクさせるステップとをさらに含む方法。８．請求項１に記載の方法において、ソース文書の終りを判定し、ファイル末トークンを生成し、そして前記ファイル末トークンを前記第１トークン・ストリングの中に挿入するステップとをさらに含む方法。９．請求項１に記載の方法において、前記アノテーション・トークンは、ＨＴＭＬの文字エンティティ参照を表しているＨＴＭＬトークンを含む方法。１０．請求項９に記載の方法において、第１トークン・ストリングを生成するステップが、少なくとも一つのＨＴＭＬトークンにおいて文字エンティティ参照に対する置き換え文字を決定するステップと、前記文字エンティティ参照を前記置き換え文字で置き換えるステップとをさらに含む方法。１１．請求項９に記載の方法において、ＨＴＭＬトークンのうちのどれが翻訳できないＨＴＭＬマークアップ文字を含んでいるかを判定するステップと、前記第１トークン・ストリングから翻訳できないＨＴＭＬマークアップ文字を含んでいる前記ＨＴＭＬトークンを取り除くステップとをさらに含む方法。１２．請求項９に記載の方法において、複数のＨＴＭＬトークンを文書状態データベースの中に格納するステップと、前記複数の各ＨＴＭＬトークンを前記複数の第１言語トークンとリンクさせるベクターを生成するステップとをさらに含む方法。１３．請求項１２に記載の方法において、前記ベクターを使って前記第２トークン・ストリングの中に前記ＨＴＭＬトークンを挿入するステップをさらに含む方法。１４．請求項１に記載の方法において、前記ソース文書の先頭と前記ソース文書の終りとの間の前記ソース文書の中の一つの場所を決定するステップと、前記場所から前記第１トークン・ストリングを翻訳するステップと、前記ソース文書の部分的に翻訳されたバージョンを作り出すステップとをさらに含む方法。１５．請求項９に記載の方法において、前記テキストは前記ソース文書における画像を代りに置き換えるテキストをさらに含む方法。１６．ソース文書からターゲット文書ヘアノテーションを保存しながら、第１言語でのアノテートされたソース文書を第２言語でのアノテートされたターゲット文書へ翻訳するためのシステムであって、テキストおよびアノテーションを含んでいる第１言語でのソース文書を受け取るための受取りモジュールと、複数の第１言語トークン、複数のアノテーション・トークン、および前記ソース文書のテキストの中の不連続点に対応している複数のエンディング・トークンを含んでいる第１トークン・ストリングを生成するための処理モジュールと、前記複数のアノテーション・トークンを前記第１トークン・ストリングから取り除き、前記複数の第１言語トークンを第２トークン・ストリングの中の複数の第２言語トークンへ翻訳し、複数のエンディング・トークンを使って前記アノテーション・トークンを前記第２トークン・ストリングの中に挿入し、そして前記第２トークン・ストリングを使って、前記ソース文書の翻訳されたバージョンを含んでいるターゲット文書を生成するための翻訳エンジンと、前記アノテーション・トークンを格納するためのアノテーション・データベースを含んでいる記憶モジュールとを含み、前記アノテーション・トークンは前記エンディング・トークンに対してリンクされているシステム。１７．請求項１６に記載のシステムにおいて、前記記憶モジュールが、前記第１言語トークンおよび前記第２言語トークンを格納し、前記エンディング・トークンが前記第１言語と前記第２言語トークンとの間のリンクを提供している辞書ソース・データベースと、未定義の第１言語トークンを格納し、その中で前記エンディング・トークンが前記未定義の第１言語トークンに対するリンクを提供するようになっている、未定義語句のデータベースとをさらに含むシステム。１８．請求項１６に記載のシステムにおいて、前記処理モジュールが、前記ソース文書の中のＨＴＭＬマークアップを表しているＨＴＭＬトークンを生成するようになっているシステム。１９．請求項１８に記載のシステムにおいて、前記アノテーション・データベースは前記第１トークン・ストリングの中の各第１言語トークンを、それらに対して適用される前記ＨＴＭＬトークンに対してリンクするためのマークアップ・データベースを含むシステム。２０．請求項１７に記載のシステムにおいて、前記翻訳エンジンが、前記マークアップ・データベースにアクセスし、前記第２トークン・ストリングを、前記マークアップ・データベースの中の前記第１言語トークンに対してリンクされているＨＴＭＬマークアップと比較して、前記ＨＴＭＬトークンが挿入されるべき第２トークン・ストリングの中の場所を決定するようになっているシステム。２１．ＨＴＭＬでアノテートされた第１言語でのソース文書を、対応しているＨＴＭＬマークアップを備えている第２言語でのターゲット文書へ翻訳するための方法であって、テキストおよびＨＴＭＬマークアップを含んでいる複数の文章を含んでいる、第１言語でのソース文書を受け取るステップと、複数の第１言語トークン、および前記第１言語トークンに対して適用される複数のＨＴＭＬトークンを含んでいる第１トークン・ストリングを、前記ソース文書を使って生成するステップと、前記ＨＴＭＬトークンを第１トークン・ストリングから取り除くステップと、前記第１言語トークンに対して適用される前記各ＨＴＭＬトークンに対して前記第１言語トークンの一つをリンクしている、前記第１言語トークンに対する複数のアノテーション・レコードを生成するステップと、前記アノテーション・レコードを文書状態データベースの中に格納するステップと、前記複数の第１言語トークンを翻訳し、複数の第２言語トークンを含んでいる第２トークン・ストリングを生成するステップと、前記アノテーション・レコードを使って、前記ＨＴＭＬトークンが前記第２トークン・ストリングの中に挿入されるべき場所を決定するステップと、前記第２トークン・ストリングを使って、前記第２言語でのターゲット文書を作り出すステップとを含む方法。２２．請求項２１に記載の方法において、前記第１トークン・ストリングの中の前記ＨＴＭＬトークンのどれかが文字エンティティ参照を含んでいるかどうかを判定するステップと、前記文字エンティティ参照を文字に置き換えるステップをさらに含む方法。２３．請求項２１に記載の方法において、前記ＨＴＭＬトークンのどれかが前記第２トークン・ストリングの中に保存される必要がないかどうかを決定するステップと、前記第１トークン・ストリングから、保存される必要のないＨＴＭＬトークンを削除するステップとをさらに含む方法。２４．請求項２１に記載の方法において、前記第１トークン・ストリングの中の前記トークンのどれかが翻訳される必要がないかどうかを判定するステップと、前記第１トークン・ストリングから翻訳される必要のないトークンを取り除くステップと、前記取り除かれたトークンを格納するステップと、前記第１トークン・ストリングの中で前記トークンが取り除かれた場所にマーカ・トークンを挿入するステップとをさらに含む方法。２５．請求項２１に記載の方法において、前記ＨＴＭＬトークンが前記ソース・テキストの中の不連続点を表しているかどうかを判定するステップと、前記第１トークン・ストリングの中に、前記不連続点を表しているエンディング・トークンを挿入するステップと、前記エンデイング・トークンによってインデックスされるデータベースの中に、前記不連続性の場所まで前記第１トークン・ストリングの中のトークンを格納するステップとをさらに含む方法。２６．請求項２１に記載のシステムにおいて、前記第１言語トークンは英語のテキストを表し、そして前記第２言語のトークンは日本語のテキストを表しているシステム。２７．請求項２１に記載のシステムにおいて、前記第１言語のトークンは英語のテキストを表し、そして前記第２言語のトークンはスペイン語のテキストを表しているシステム。２８．自然言語の自動翻訳システムであって、コンピュータの記憶手段と、アノテーションを含んでいる第１言語での入力テキスト情報を受け取るため、および前記入力のテキスト情報を前記コンピュータ記憶手段の中に格納するための手段と、前記コンピュータ記憶手段にアクセスするため、および前記第１言語での入力テキスト情報を第２言語での出力テキスト情報に翻訳するための翻訳エンジンとを含み、前記翻訳エンジンは、（ｉ）ソース文書を使って、複数の第１言語トークンと前記第１言語トークンに対して適用される複数のアノテーション・トークンとを含んでいる第１トークン・ストリングを生成するためのトークナイザと、（ｉｉ）前記アノテーション・トークンのサブセットを前記第１トークン・ストリングから取り除くためのフィルタと、（ｉｉｉ）前記第１言語のトークンの一つを前記第１言語トークンに対して適用される各アノテーション・トークンに対してリンクしている、前記第１言語に対する複数のアノテーション・レコードを生成するための文書状態レコーダと、（ｉｖ）前記複数の第１言語トークンを翻訳して、複数の第２言語トークンを含んでいる第２トークン・ストリングを生成するためのトランスレータと、（ｖ）前記アノテーション・レコードを使って、前記アノテーション・トークンが挿入されるべき前記第２トークン・ストリングの中の場所を決定するためのアノテータと、（ｖｉ）前記第２トークン・ストリングを使って、前記第２言語でのターゲット文書を作り出すためのターミナル・コンシューマとを含んでいるシステム。２９．請求項２８に記載のシステムにおいて、前記アノテーションはＨＴＭＬのマークアツプ、ＳＧＭＬのマークアップ、ＲＴＦのマークアップまたはＮＲＯＦＦのマークアップを含んでいるシステム。３０．請求項２８に記載のシステムにおいて、前記第１言語のトークンは英語のテキストを表し、そして第２言語トークンは日本語のテキストを表しているシステム。３１．請求項２８に記載のシステムにおいて、前記第１言語トークンは英語のテキストを表し、そして前記第２言語トークンはスペイン語のテキストを表しているシステム。３２．請求項２８に記載のシステムにおいて、前記翻訳エンジンは、ユーザ入力を受け取るための手段と、ユーザからの入力を処理し、翻訳のオプションを前記ユーザに対して提供するための代わりのトランスレータとをさらに含むシステム。３３．請求項３２に記載のシステムにおいて、ソース文書およびユーザからの入力を受け取って、前記ソース文書と前記入力をトークナイザへ送るための代替テキスト・プロデューサをさらに含んでいるシステム。３４．請求項３３に記載のシステムにおいて、ユーザからの前記入力は前記ソース文書に対する編集を含んでいるシステム。３５．請求項３４に記載のシステムにおいて、前記トークナイザによって生成される前記複数の第１言語トークンが、前記ソース文書の前記編集を表している第１言語トークンを含んでいるシステム。