JP2002512717A - Automatic translation and retranslation system - Google Patents

Automatic translation and retranslation system

Info

Publication number
JP2002512717A
JP2002512717A JP50236899A JP50236899A JP2002512717A JP 2002512717 A JP2002512717 A JP 2002512717A JP 50236899 A JP50236899 A JP 50236899A JP 50236899 A JP50236899 A JP 50236899A JP 2002512717 A JP2002512717 A JP 2002512717A
Authority
JP
Japan
Prior art keywords
translation
language
text
input
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP50236899A
Other languages
Japanese (ja)
Inventor
ジー. プリングル,ルイス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Logovista Corp
Original Assignee
Logovista Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US1997/010005 external-priority patent/WO1997048058A1/en
Application filed by Logovista Corp filed Critical Logovista Corp
Publication of JP2002512717A publication Critical patent/JP2002512717A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 英語などのソース自然言語での入力テキストを、日本語などの標的自然言語での出力テキストへ、その入力テキストが発生されているときに翻訳するための自動自然言語翻訳システムは、文書またはファイルの中のソース言語の入力テキストの作成において一時休止が発生する場合を判定し、そしてその一時休止に応答してその一時休止が検知された点まで、目的言語での入力テキストの翻訳を実行させる翻訳起動部を含む。この翻訳システムは、さらに、テキストが発生されている間に、特定のテキスト構造を検知したことに応答して、あるいは入力機能に応答して、翻訳を実行させ得る。自動翻訳が実行されるたびに、翻訳はそのテキストが入力された単語処理文書の先頭、即時受信された入力テキストの先頭、あるいはページまたはパラグラフの先頭などの開始点において翻訳を開始することができ、したがって、文章構造における任意の変化または入力テキストに対する最新の編集が、出力のテキスト翻訳に反映されることを可能にする。 (57) [Summary] Automatic natural language translation system for translating input text in source natural language such as English to output text in target natural language such as Japanese when the input text is generated Determines when a pause occurs in the creation of source language input text in a document or file, and in response to the pause, the input text in the target language up to the point at which the pause was detected. And a translation initiating unit for executing the translation. The translation system may further cause the translation to be performed in response to detecting a particular text structure while the text is being generated, or in response to an input function. Each time an automatic translation is performed, the translation can begin at the beginning of the word processing document where the text was entered, at the beginning of the input text received immediately, or at the beginning of a page or paragraph. Thus, any changes in the sentence structure or the latest edits to the input text can be reflected in the text translation of the output.

Description

【発明の詳細な説明】 自動翻訳および再翻訳システム 関連出願および特許への相互参照 本願は、1996年4月23日、1996年6月14日、そして1997年6 月9田こそれぞれ特許協カ条約(PCT)を通して米国受理官庁に出願された、 対象国を日本と米国とする国際特許出願PCT/US第96/05567号、P CT/US第96/10283号、およびPCT/US第97/10005号の 一部継続出願であり、これらはすべて参考として本明細書において援用する。米 国特許第5,528,491号もまた、関連特許であり、その内容全体を参考と して本明細書において援用する。 技術分野 本発明は、自動自然言語翻訳に関し、特に、文書が、作者、ユーザまたはシス テムによって生成されている時に、文書が自動的に翻訳される自然言語翻訳シス テムに関する。 背景情報 自然言語の機械ベースの翻訳については、種々の方式が提案されてきた。代表 的には、翻訳に使用されるシステムは、ある自然言語での入力を受信し、そして 操作を行って、別の自然言語での出力を供給するコンピュータを含む。このタイ プの翻訳は不正確で長々しいものであり、そして得られた出力は熟練したオペレ ータによる大幅な編集を必要とすることが多い。 公知のシステムにより実施される翻訳操作は、一般に構造変換操作を含む。こ の構造変換の目的は、ソース言語の文の解析ツリー(すなわち、構文構造ツリー )を標的言語における、対応するツリーに変換することである。二つのタイプの 構造変換方式(文法規則に基づく変換およびテンプレート間の変換)が試みられ てきた。 文法規則に基づく構造変換において、構造変換の領域は、ソース言語の解析ツ リー(すなわち、与えられたノードの直接の子であるサブノードの集合)を得る ために使用されている文法規則の領域に限定される。例えば、以下の式: VP=VT01+NP (動詞句(VerbPhrase)は、この順序で目的語が 一つの他動詞(SingleObjectTransitive Verb)お よび名詞句(NounPhrase)からなる。) および 日本語:1+2=>2+1 (VT01とNPとの順序を逆転させる。) を仮定する。 規則の適用を含む各ソース言語の解析ツリーは、構造的には動詞と目的語との 順序が反対になるように変換される。なぜなら、日本語では動詞はその目的語の あとに来るからである。この方法は、特定の変換が適用される場所を見つけるこ とが容易であるという点で非常に効率的であり;ソース言語の解析ツリーを得る ために規則が使用された場所で正確に適用される。他方、上に述べたように、そ の領域が大幅に制限され得るという点、および自然言語が、同胞ではないノード にまたがるような変換規則を必要とし得る場合があるという点で、弱い変換機構 であり得る。 テンプレート間の構造変換では、構造変換は、入力/出力(I/O)テンプレ ートまたはサブツリーの形で指定される。ある所定の入力テンプレートがある所 定の構造ツリーと一致する場合には、そのテンプレートと一致する構造ツリー部 分が、対応する出力テンプレートによって指定されたとおりに変換される。これ は非常に強力な変換機構であるが、所定の入力テンプレートが、所定の構造ツリ ーのいずれかの部分と一致するか否かを見つけるのに長時間かかり得るという点 で、高価であり得る。 それにもかかわらず、そのタイプの変換が従来の翻訳システムによって実行さ れ、そのようなシステムはユーザまたはオペレータがシステムへの文書のタイピ ングを完了した後、ユーザまたはオペレータからの直接の翻訳コマンドが存在す る場合に、テキストの翻訳を容易にするだけである。結果として、これらのシス テムは言語の学習を行わず、あるいはユーザまたはオペレータが単語ごと、また は文ごとのベースでその翻訳を調べることができず、したがって、異なる文脈に おける単語の翻訳のバリエーションをユーザまたはオペレータが検出することは 、より難しい。 発明の要旨 本発明に従う自動自然言語翻訳システムは、公知の機械ベースの翻訳装置に対 して多くの利点を有する。本発明のシステムが、自動的に入力テキスト情報の最 良の可能な翻訳を選択し、そしてユーザに出力(例えば、英語の入力テキストの 日本語訳)を提供した後で、ユーザは、表示された翻訳を編集するか、または自 動的に他の翻訳を入手するために、このシステムと対話し得る。本発明の自動自 然言語翻訳システムをオペレータは、より生産的であり得る。なぜなら、本シス テムによって、オペレータは、残りの部分を自動的に再翻訳させながら、これで いいと判断した翻訳の部分だけを保持することが可能になるからである。この選 択的な再翻訳操作は、再翻訳を必要とする部分に対して正確に指向されるので、 オペレータは、潜在的に多くの不正確ではあるが、非常に質の高い翻訳を検討す る時間および退屈な仕事から解放される。さらに、このシステムは、翻訳調整に おいて任意の精度を可能にするので、通常は、翻訳の最終構造の多くがシステム によって生成される。したがって、このシステムは、人間(オペレータ)のミス についての可能性を少なくし、構造、人称および時制の変更を含む編集における 時間が節約する。このシステムはオペレータに広範囲でかつ信頼性のある文法お よび正字法の知識の利益を充分に与える。 本発明の自動自然言語翻訳システムの、ソース言語における曖昧な文区切りの 、融通のきく処理、および強力な意味伝達は、さらなる精度およびオペレータの 翻訳の編集の減少を提供する。保存された統計学的情報はまた、特定のユーザサ イトに対する好ましい翻訳を修正することにより、翻訳の精度は改善される。本 システムの熟語処理方法は、熟語を構成する単語の列を偶発的に含んでいる文を 、熟語の意味を解釈することなく、正確に訳すことを可能にする点で有利である 。本システムは効率的であるが、なお長距離特性適合のような融通のきく機能を 有する。本システムの構造バランスエキスパートおよび同格構造エキスパートは 、目的とする解析と目的としない解析とを効率的に識別する。大文字エキスパー トは、文中の大文字の単語の正確な解釈を効率的に入手し、そして大文字列手順 は、 普通名詞としての解釈を完全には無視しないで、複合語の固有名詞を効率的に処 理する。 1つの局面において、本発明は、自動自然言語翻訳システムの改良に関する。 ここで、この改良は、入力テキストが発生されているときに、文書またはファイ ルにおけるソース自然言語、例えば、英語を、標的自然言語、例えば、日本語、 スペイン語、あるいは他の自然言語での出力テキストへと自動的に翻訳すること に関する。1つの局面において、この自然言語翻訳システムは、例えば、入力文 字のストリーム中の一時休止のような、入力テキストの入力時に一時休止が検知 された時に翻訳が生成する。別の局面において、自然言語翻訳システムは、以前 に翻訳された入力テキストに沿って、最近受信した入力文字ストリームを自動的 に翻訳し得、それによってその入力テキストの特定部の再翻訳を生成し得る。別 の局面において、この自然言語翻訳システムは、以前に受信した入力テキストに 対する修正または変更を生じた入力テキストを自動的に翻訳し得る。 本発明の別の局面において、自動翻訳は、入力テキストにおける開始点(たと えば、文書、パラグラフ、単語の先頭または他の位置)において、開始し得、し たがって、文構造における任意の変更、または編集を最終の翻訳の中に吸収させ かつ反映させ得る。 本発明の別の局面において、自動翻訳は、以前に受信した入力テキストに対す る修正が行われたその入力テキストの一点(たとえば、以前に受信されているが 、最近編集されたパラグラフの途中)において、開始し得る。 別の局面において、本発明はグローバルな自然言語の自動翻訳システムの改善 に関し、ここで、その改善はソース自然言語(たとえば、英語)での入力テキス トを、たとえば、文の断片などのある種のテキスト構造が発生した後、標的自然 言語(たとえば、日本語、スペイン語または他の自然言語)での出力テキストに 自動的に翻訳および再翻訳することに関する。 別の局面において、本発明は、自然言語自動翻訳システムの改善に関し、ここ で、この改善は、ユーザ、オペレータ、またはシステムが、タッチスクリーンま たはキーボード上のエンター・キーの押下げ、アイコン上でのマウスのクリック 、あるいは他の入力信号(たとえば、文字ストリームを発生しない機能信号)を 伝 達する信号を送信する場合に、ソース自然言語(たとえば、英語)での入力テキ ストを、標的自然言語(たとえば、日本語、スペイン語または他の自然言語)で の出力テキストに自動的に翻訳および再翻訳することに関する。 さらに別の局面においては、本発明の自動自然言語翻訳システムは、一時休止 が検知される場合にカウントを開始するカウンタを使うことによって、入力の文 字ストリームにおける一時休止に応答して、自動的に翻訳を実行し得る。本発明 の別の実施態様において、本発明の自然言語の自動翻訳システムは、ある種のテ キスト構造、またはシステム機能に関連している入力信号が検知される場合に、 自動的に翻訳を実行し得る。 本発明の別の局面において、本発明の自動翻訳システムは、入力テキストが生 成されているときに直ちにその入力テキストを翻訳すること、およびその翻訳が 生成している時にその入力テキストと並べて、翻訳された出力テキストを表示す ることによって、言語学習ツールとして使用され得る。 本発明の上記および他の目的、局面、特徴および利点は、以下の説明と請求の 範囲から、より明らかになる。 図面の簡単な説明 図面中、同じ参照文字は、全体にわたり、別の図面であっても同じ部分を示す 。また、図面は必ずしも同一の縮尺ではなく、その代わり一般的に本発明の原理 を例示する際に強調が施される。 図1は、自然言語の自動翻訳を行うためのシステムを示すブロック図である。 図2は、図1のシステムの全体的な機能を示すデータフローチャートである。 図3は、図1のシステムの操作を示すフローチャートである。 図4は、図1のシステムのプリパーサの文末認定機能の操作を示すフローチャ ートである。 図5は、図1のシステムのパーサの操作を示すフローチャートである。 図6は、図1のシステムの意味伝達の操作を示すフローチャートである。 図7は、図1のシステムの構造変換の操作を示すフローチャートである。 図8は、図1のシステムのエキスパート評価部のフローチャートである。 図9は、例示としての句「by the bank」について、図1のシステムが使用す るサンプル・グラフの図である。 図10Aは、本発明の1つの実施態様に従って、入力テキストを自動的に翻訳 するためのシステムを示す機能的ブロック図である。 図10Bは、本発明の別の実施態様に従って、入力テキストを自動的に翻訳す るためのシステムを示す機能的ブロック図である。 図11は、本発明による翻訳起動部の1つの実施態様を示すブロック図である 。 図12Aは、本発明の1つの実施態様による翻訳起動部の操作を示すフローチ ャートである。 図12Bは、本発明の他の実施態様による翻訳起動部の操作を示すフローチャ ートである。 図13A、図13B、および図13Cは、本発明のシステムを使用して、ソー ス言語から標的言語への翻訳を示す画面表示の一例を示す。 図14は、本発明の別の実施態様による翻訳起動部の操作を示すフローチャー トである。 図15は、本発明の別の実施態様による翻訳起動部の操作を示すフローチャー トである。 図16は、本発明の別の実施態様による翻訳起動部の操作を示すフローチャー トである。 詳細な説明 最初に、図面を何ら参照しないで、本発明による自動自然言語翻訳システムの 一般的記載を提供する。本発明のシステムの一般的記載の後で、種々の図面を参 照する。 本発明の自動自然言語翻訳システムは、ソース自然言語を標的自然言語に翻訳 し得る。1つの実施態様において、本発明のシステムは英語を日本語に翻訳し得 る。別の実施態様において、本発明のシステムは、日本語を英語に翻訳し得る。 さらに他の実施態様において、本発明のシステムは英語からスペイン語へ、およ びスペイン語から英語へ翻訳し得る。さらに他の実施態様において、本発明のシ ステムは、英語から複数の異なる言語へ、あるいは英語でない言語から英語でな い別の言語へ翻訳し得る。 本発明のシステムは、ソース自然言語を受信および記憶するための手段;標的 自然言語への翻訳を生成する翻訳エンジン;ユーザに翻訳を表示するための手段 ;およびユーザのために別の翻訳を得、そしてユーザーに対して表示するための 手段を含む。本発明のシステムの実施態様において、翻訳エンジンは、翻訳起動 部、プリパーサ、パーサ、グラフ作成部、評価部、グラフ・スコアラ、解析抽出 部および構造変換部を含む。翻訳起動部は、いつおよび/またはどんな状態にお いて翻訳が実行されるべきかを決定する。プリパーサは、入力テキストを検査し 、そして入力文の境界における任意の曖昧さを解消する。その後、プリパーサは 、辞書の見出し語を用いて選択された(seed)解析チャートにおいて入力テキスト を生成させ、および表示する。パーサは、上記チャートを解析して、入力テキス トに対する可能な構文の分類を入手する。グラフ作成部は、解析チャートに基づ いて、入力テキストの可能な構文解釈のグラフを作成する。このグラフには、入 カテキストの可能な解釈に関連するノードおよびサブノードが含まれる。一連の エキスパートを含む評価部は、可能な解釈のグラフを評価し、そしてグラフのノ ードおよびサブノードにエキスパートの重みを加える。グラフ・スコアラは、サ ブノードをスコア付けするためにエキスパートの重みを使用し、その後でこのグ ラス・スコアラは、N個の上位のスコアと各ノードとを関連づける。解析抽出部 は、グラフ・スコアラによって決定された好ましい解釈に対して、1つの解析ツ リー構造を割り当てる。構造変換部は、標的言語での翻訳を入手するために、解 析ツリー構造に関する構造変換操作を行う。 以下の三つの段落では、(a)各サブノードに対する最終重み付けスコアを計 算するために、グラフ・スコアラがどのようにエキスパートの重みを組み合わせ るか;(b)グラフ・スコアラがどのようにサブノード・スコアを組み合わせて 最終ノード・スコアに到達させるか;(c)言語学的情報がノードおよびサブノ ードのツリーを介してどのように伝達されるか、についての説明を提供する。 各サブノードに対する最終重み付けスコアを計算するために、グラフ・スコア ラは、各サブノードに定数値を関連づける。各サブノードに関連する言語学的情 報の分析により、サブノードのスコアが決定される。例えば、一連のエキスパー ト評価部が、各ノードおよびサブノードに記憶された言語学的情報を検査する図 8を参照されたい。グラフ・スコアラは、特定のノードまたはサブノードに対す る最終加重平均を入手するために、各エキスパートに対する個々の重み付けスコ アを合計する。複数の重み付けスコアを一つの加重平均スコアに合わせることは 、コンピュータ科学における標準的な課題である。使用され得る一つの方法とし ては、各エキスパートの結果に、そのエキスパートに割り当てられた定数(重み )を掛け合わせる方法がある。各エキスパートに割り当てられる重みは、設計で の選択事項である。設計者は各エキスパートに割り当てる優先度(重み)を選択 し得る。加重平均は、各数字に定数を掛け、一連の数字を台計したものである。 例えば、以下の式: 加重平均=(w1)(x1)+(w2)(x2)+...+(wn)(xn) ここで、重みw1,w2,...,wnは、いずれも負でない数で、かつ合計は 1である。例えば、統計の期待値に関する加重平均の使用について記載されるSp iegel、Theory and Problems of Probability and Statistics 76(Mcgraw-Hil l,Inc.1975)を参照されたい。 サブノード・スコアを合わせて最終ノード・スコアを入手するために、グラフ ・スコアラは、グラフの底辺の部分から一番上の部分にサブノード・スコアを伝 達し得る。各ノードがN個のスコアの集合を有するグラフの場合には、一つまた は複数の伝達方法を決定することが可能である。サブノード・スコアを伝達する のに使用され得る一つの技術としては、最適化問題を解くために使用されるある 型の動的プログラミングである記憶方法がある。最適化問題の解法は、多くの可 能な数値(結果)を含み得る。課題は最適値を発見することである。最適化に使 用するアルゴリズムは、各サブサブ問題を一回だけ解き、そして結果を記憶する ので、サブサブ問題に遭遇するごとに答を再度計算する必要がなくなる。最適化 問題に適用されるより詳細な説明については、例えば、Cormenら、Introduction to Algorithms 301−314(Mcgraw-Hill Book Co,1990)を参照されたい 。Introduction to Algorithmsの301、302および312ページに記載され る方法は、グラフを介してサブノード・スコア情報を伝達するために使用さ れ得る一つの方法である。 言語学的情報をツリーを介して伝達する場合には、システムの意味伝達部分は 、構成要素が含む意味情報をより小さな構成要素からより大きな構成要素へと伝 達するように操作する。意味伝達は、解析操作で使用される統語分類の四つのク ラス(SEMNP、SEMVP、SEMADJおよびVERB)に適用される。意味伝達が行われ得る 前に、ノードに記憶されている言語学的情報を分析しなければならない。ノード に記憶されている意味情報の分析は、文法規則において、名詞様構成要素と動詞 様構成要素を点検することにより、どの名詞様目的語に、動詞様構成要素のどの 選択的制限スロットを適用するかを識別する規則の集合によって導かれる。Gera ld Gazdarは、その著書Natural Language Processing In Prolog(Addison-Wesl eyPubliShing Co.;1989)で、本明細書において開示されるグラフに類似する、 配向性非環状グラフにおけるノードに記憶されている意味情報を分析するのに使 用され得る規則の集合について説明している。Gazdarは、隣接するノードに関す る情報と一致させる特性マッチングの使用について説明している。Gazdarは、特 性マッチングは、以下のことを記述する式を含むと述べている。 あるノード上に現れる特定の特性は、別のノード上に現れる特性と同じもので あるに違いない。最新の研究は、親の分類とそれらの特性に関連する形態素を示 す子上に現れるあるクラスの特性の詳細を等しくすることを担う原則を仮定して いる。この子は、その句の「頭」と呼ばれる。大部分の句は頭を一つだけ有する 。従って、例えば、動詞句は、その動詞の時制を受け継ぐ。何故なら、その動詞 は動詞句の「頭」であるからである。これまで本発明者らが使用してきた表記法 の資源を使用しても、文法全体を基礎とするこの原則を特定する簡単な方法はな い。しかし、本研究者らが、関連する特性がDAGの一本の枝上にすべて発見す ると仮定する場合、規則ごとに非常に簡単にこの原理の効果を規定し得る。次い で、本研究者らは、代表的なVP規則を以下のように書き表し得る。 VP−−−−>V NP PP <Vの頭>=<VPの頭>。 これは、Vの「頭」の特性値と、親であるVP上の「頭」の特性値とが同じも のであることを要求する。」 Gazdarで議論されている規則は、本明細書に記載する構文の各分類に容易に適 用され得る。Gazdarの規則を使用して各ノードに割り当てられた言語学的情報は 、記憶方法の技術を用いて、ツリーを介して伝達され得る。 従って、これまでの三つの段落の内容を要約すると、加重平均は、サブノード ・スコアを決定する一つの方法であり、各サブノード・スコアは、最適化問題に 適用した公知の記憶方法技術を使用してグラフを介して伝達され得、そしてGazd arの著書に述べられている戦略は、各ノードに記憶されている言語学的情報を分 析するのに使用され得、そしてこの言語学的情報は、記憶方法技術を使用して解 析ツリーチャートを介して伝達され得る。 自動自然言語翻訳システムは、最初の自動翻訳の後に、自動的再翻訳を実行し 得る。すなわち、システムが自動的に入力テキスト情報の可能で最も適切な翻訳 を選択し、そしてユーザに出力(好適には、英語の入力テキストの日本語の翻訳 、または日本語から英語への翻訳)を提供した後、次いで、ユーザは表示されて いる翻訳を編集するために、または自動的に別の翻訳を入手するために、システ ムと対話し得る。 自動自然言語翻訳システムは、一つの文をサブストリングに分解する言語学的 モデルを使用する。サブストリングは、その文の一部として、特定された順序で 出現する一つまたは複数の単語である。例えば、サブストリング「The man is h appy」は、「The」、「The man」、「man is happy」、「is」および「The mani s happy」それ自身を含むが、「is man」、「man man」、「The is」は含まない 。 異なる言語学的モデルは、種々の方法および種々の詳細レベルでサブストリン グを分類する。例えば、「They would like an arrow」においては、「an arrow 」は、代表的に名詞句(NP)と分類される。いくつかのモデルはまた、「anar row」を構文上の特性(例えば、これが単数の名詞句であること)および意味特 性(これが武器に言及する)を用いて分類する。句が曖昧である場合、この句を 分類する2つ以上の方法がある。例えば、「an arrow」はまた、矢の形をした 記号にお言及し得る。言語学的モデルが、曖昧さを解消するための方法を提供す る場合、これらのモデルは通常、より小さな単位をより大きな単位に結合するこ とによって曖昧さを解消する。より大きな単位を評価する場合、これらのモデル は、より大きい単位に含まれている情報の部分だけを考慮する。 本発明のシステムの例示の実施態様において、「an arrow」(記号対武器)の 意味上の特性が、「They would like an arrow.」という文の「like an arrow」 という動詞句を評価する際に使用される。対照的に、「an arrow」という句の構 文が「He shot it with an arrow.」におけるように存在した場合には、「an ar row」の意味特性は、「shot it with an arrow.」という動詞句を評価する際に は使用されない。 特定の言語学的モデルを単一の方法で解釈した文の任意のサブストリング(解 釈したサブストリング)について、エキスポートされた属性が存在する。エキス ポートされた属性は、解釈したサブストリングと、より大きなサブストリングを 形成する他の単位との組み合わせを評価するために使用されるすべての属性であ る。エキスポートは、エキスポートされた属性と一緒に解釈される、解釈したサ ブストリングである。解釈したサブストリングに含まれているが、エキスポート されていない属性は、サブ構造と呼ばれる。 本発明のシステムのパーサは、文法データベースを含む。パーサは、文法規則 を使用して文のすべての可能な解釈を見い出す。文法データベースは、X=A1 A2...Anの形の、一連の文脈自由句構造規則からなる。Xは、A1,A2 ,..,Anから構成または形成されていて、そしてより低いノード(サブノー ド)A1からAnのより高いノードと呼ばれる。 本発明のシステムのグラフ作成部は、一つの文に関して可能な多くの解釈を図 形で表す。グラフの各ノードは、いくつかのサブストリングのエキスポートに対 応する。本発明のシステムの実施様態において、一つのエキスポートは一つのノ ードで表される。グラフは、一つのエキスポートに関連するノードから出ている 円弧を含む。円弧は、文法規則の適用に基づくエキスポートのサブ構造を表す。 グラフは少なくとも二つのタイプの円弧を示す:(1)同じサブストリングの一 つの異なるエキスポートを指す単一の円弧、(2)二つのエキスポートを指す一 組のポインタを含む二成分の円弧、ここで、連結されるときは、そのサブストリ ングは、もとのエキスポートのサブストリングを形成する。(2)に記載される 公式は、チョムスキーの正規形態における文法を仮定していることに留意された い。 グラフはまた、一つの出発エキスポートSを含み、そこから一連の円弧を辿る ことによりグラフのすべての部分に到達し得る。出発エキスポートは、文全体に 対応する。 同じエキスポートが1以上のエキスポートから構成され得る場合に限り、一つ のノードから複数の円弧が出る(二成分の円弧における一対のポインタは、この 目的では複数の円弧とは考えない。)。そのエキスポートが複数のエキスポート の一つの成分である場合に限って、複数の円弧が一つのノードを指す。円弧が出 ていないノードは、サブストリングに割り当てられた辞書の見出しに対応する。 複数の言語学的エキスパートが、エキスポートの集合に数値スコアを割り当て る。この言語学的エキスパートは、グラフの各ノードに上記スコアを適用する。 本発明のシステムの実施様態において、スコア付けアレイ(ここで、アレイの各 要素は、特定のエキスパートのスコアに掛け算を行うための重みである)は、任 意の所定の文に対する浮動小数点数の固定の長さ「」である。 上記スコアは、グラフ作成エンジンおよび/またはパーサに組み込まれるスコ ア付けモジュールにより評価される。スコアは、より高いエキスポートを形成し ているすべてのエキスポートに対して計算される。より高いエキスポートに対す るスコアは、よりレベルの高いエキスポートを形成しているエキスポートと構造 バランスエキスパートによって割り当てられるスコアのような、組み台わせに適 用される任意のエキスパートのスコアとの合計として計算される。 ノードが訪問されそしてスコア付けされる順序は、標準的な深さ優先グラフ移 動アルゴリズムである。このアルゴリズムでは、スコア付けされたノードにはマ ークが付けられ、そして再びスコア付けられることはない。スコア付けのプロセ ス中、スコア付けモジュールは、より高い任意の単位ノードの評価を行う前に、 辞書の見出し語ノードを評価する。辞書の各見出しはーつのスコアを生じる。 一つのエキスボートを作成するのに複数の方法がある場合には、複数のスコア が生じる。すなわち、エキスポートを作成するのにkとおりの方法は、k個の可 能なスコアを生じる。複数のスコアは以下のように処理される。 (1)一成分規則では、より低いエキスポートのk個の各スコアが、一成分規則 に適用されるエキスパートの数値に加算され、そして得られたk個のスコアのベ クトルは親のエキスポートに関連付けられる。 (2)二成分規則では、左の子はgスコアを有し、そして、右の子はhスコアを 有するものと仮定する。次いで、hスコアのg倍の合計が、左の子の各スコアに 右の子の各スコアを加算し、さらに、二成分規則に適用されるエキスパートの数 値を加算することによって計算される。hのg倍がNを超える場合には、N個の 最良のスコアだけが親のノードと一緒に保持される。 (3)ノードのエキスポートが複数の方法で作成され得る場合には、たかだかN 個のスコアがそのノードのスコア・リストに加算され、最良のスコアが保持され る。 スコア付けが完了すると、上記方法は、各エキスポート、そのノードと、その エキスポートに表示されていないすべてのサブ構造属性を含む、エキスポートを 作成するためのg個の最も可能性の高い方法(言語学的モデルに関する)を表す g個のスコア(1からNまでの範囲内のg)の集合とを関連づけたことを確認す る。ルート・ノードSの特定の場合では、このスコア付け方法は文を形成するg 個の最も可能性の高い方法を生じる。 上記に記載される各スコア・リストの各スコアは関連するポインタを有する。 ポインタは、より低いエキスポートのスコア・リストのどのスコアが、より高い レベルのスコアを作るために組み合されたのかを示す情報を提供する。各ポイン タを追跡することにより、その文のg個の最も可能性の高い解釈を、曖昧でない 解析ツリーとして抽出し得る。 今度は図1−図9を参照しながら、自動自然言語翻訳システムをさらに詳細に 開示する。その後、図10〜図16を参照しながら、本発明従う種々の改良点に ついて記載する。 図1および図2を参照すると、本発明に従う自動自然言語翻訳システム10は 、入力インターフェース12、翻訳エンジン16、記憶部18、ユーザ入力デバ イ ス22、ディスプレイ20および出力インターフェース14を含む。入力インタ ーフェース12は、例えば英語または日本語のようなソース言語でのテキストの 列を受信するように構築される。入力インターフェース12は、キーボード、音 声インターフェースまたはモデムもしくはシリアル入力のようなデジタル電子イ ンターフェースを含み得る。翻訳エンジン16は、記憶部のデータとともに、ソ ーステキストに対して翻訳操作を行う。翻訳エンジン16は、全体がハード配線 の論理回路から構成され得、あるいは一つまたは複数の処理ユニットおよび関連 する記憶命令を含み得る。 翻訳エンジン16は、以下の要素またはその部分を含み得る。すなわち、翻訳 起動部21、プリパーサ24、パーサ26、グラフ作成部28、解析/翻訳評価 部30、解析抽出部32、構造変換部34、および別の解析システム37を含む ユーザ・インターフェース42である。構造変換部は、文法規則制御による構造 変換部36、辞書制御による構造変換部38および生成規則制御による構造変換 部40を含み得る。記憶部18は、ディスク(例えば、ハードディスク、フロッ ピーディスクおよび/または光学的ディスク)および/またはメモリ(例えば、 RAM)などの記憶部の一つまたは複数の領域を含み得る。記憶部は、以下の要 素の全部または一部を記憶し得る。基本辞書44、技術用語辞書46、ユーザが 作成した辞書、文法規則48、生成規則50、意味特性ツリー52、構造ツリー 54およびグラフ56。記憶部18は、またソース自然言語での入力テキスト情 報、標的自然言語での出力テキスト情報、および一つまたは複数の辞書、領域キ ーワードおよび文法規則を含む、翻訳を行うために使用されるかまたは有用であ るすべての種類の情報を記憶するのに使用される。ユーザ入力インターフェース 22は、キーボード、マウス、タッチスリーン、ライトペンまたは他のユーザ入 力デバイスを含み、本発明のシステムのオペレータにより使用される。ディスプ レイは、コンピュータ・ディスプレイ、プリンタまたは他のタイプのディスプレ イであり得、または、これは、オペレータに情報を伝達する他の手段を含み得る 。出力インターフェース14は、日本語のような標的言語でのソース・テキスト の最終翻訳を、伝達する。上記出力インターフェース14は、プリンタ、ディス プレイ、音声インターフェース、モデムまたはシリアルラインのような電子イン タ ーフェースを含み得、あるいは、末端ユーザにそのテキストを伝達するための他 の手段を含み得る。 本発明の翻訳システムの1つの実施態様の操作において、図1を参照して、翻 訳エンジン16は翻訳起動部21を含み得る。翻訳起動部は翻訳エンジン16の 内部でこの図の中に示されている残りの要素と一緒に構成され得る。あるいは、 図11に示されているように、翻訳エンジン16の他の要素と定期的にインター フェースし得る別のコンポーネントとして構成され得る。翻訳起動部21は入力 テキストの翻訳をいつ開始すべきかを決定するためのコンピュータ処理ユニット を含み得る。翻訳起動部21は、代表的にこの決定を支配するパラメータを設定 し、テキストが発生されている間に、そのようなパラメータに関係する状態が存 在しているかどうかを判定し、そしてそのような状態が存在しているときに自動 翻訳を起動する。本明細書における例示的な実施態様においてさらに説明される ように、翻訳起動部21は入力テキストの発生における時間経過がいつ存在する かを判定するために使用され得る期間または値を発生してそして格納し得る。翻 訳起動部は、そのような期間に実質的に等しい時間経過または一時休止を認識す る際に、本明細書で記載されている翻訳エンジン16において実行され得る自動 翻訳および/または再翻訳を起動する。同様に、翻訳起動部は、入力キストを処 理し、そして単語、文または文の断片、およびパラグラフの形成を、上記の各構 造を表すように設定された所定のパラメータを使って、検知し、そしてそのよう な構造が存在するときに翻訳を実行する。翻訳起動部およびその操作は、本明細 書において図10−図16においてさらに説明される。 プリパーサ24は、まずソース・テキスト23に対して予備解析操作(ステッ プ102)を行う。これは、図10−図16にさらに示すように、プリパーサ2 4は、コンピュータ・ファイルまたは文書において作成、編集、受信またはそう でなければコンパイルされるときにソーステキストと含み得る。この操作には、 ソース・テキストにおける文境界の曖昧性の解析が含まれ、そして辞書の見出し 25を用いて選択された解析チャートを作成する。次いでパーサ26は、構文の 可能性27で満たされた構造解析チャートを入手するために、プリパーサが作成 した上記チャートの解析を行う(ステップ104)。グラフ作成部28は、解析 ステップから得られた解析チャートに基づいて、可能な解釈29のグラフを作成 する(ステップ106)。一連のエキスパート43にアクセスする評価部30は 、記憶された解釈のグラフを評価し(ステップ108)、そしてグラフ31にエ キスパートの重みを加える。グラフ・スコアラ33は、ノードのスコアをつけ、 N個の(例えば、20個の)最良のスコアをそれぞれに関連づける35。解析抽 出部32は、この好適な解釈に解析ツリー構造39を割り当てる(ステップ11 0)。次いで、変換テーブル58にアクセスする構造変換部34は、標的言語で の翻訳41を入手するために、上記ツリー上で構造変換操作を行う(ステップ1 12)。ユーザは、別の翻訳を入手するために別の解析システム37と通信し得 る。 図4を参照すると、本発明のシステムは、入力ストリームを個々の句読点およ び語を形成する文字グループを含むトークンに分割することによって、予備解析 操作を行う(ステップ114)。スペースの出現は、このレベルでの文字の解釈 に影響を与える。例えば、「x-y」の「-」はダッシュであるが、「x-y」の「-」 はハイフンである。 次いで、プリパーサは上記のトークンを単語に組み合わせる(ステップ116 )。このレベルで、プリパーサは、特殊な構造(例えば、インターネット・アド レス、電話番号および社会保険番号)を一つの単位として認識する。プリパーサ はまた、グループ分けのために辞書参照を使用する。例えば、「re-enact」が辞 書に「reenact」として存在する場合は、文中で一単語となるが、存在しない場 合は、別々の三つの「単語」のままである。 次の予備解析段階は、文が何処で終わるかを決定することが含む(ステップ1 18)。この操作の間、プリパーサは、各文の可能な文末箇所(すなわち、ソー ステキストの各単語の後)について一連のステップに従って、基本辞書および技 術用語辞書ならびに任意のユーザ作成の辞書にアクセスする。プリパーサは、示 された特定の順にこれらのステップを行う必要はなく、そしてこれらステップは 一連の順序付けられた規則として実行され得、またはハードウェアに組み込んで コード化され得る。 図5について参照すると、プリパーサは、ダッシュ記号の連続「-----」のよ うな解析できない任意の文字列をそれ自体を「文」として解釈し、そして記録す るが、翻訳される文としては解釈も記録もされない(ステップ120)。プリパ ーサはまた、文の末尾であるためには1つの行において任意の列の二つのキャリ ッジ・リターンを要求する(ステップ122)。次の単語の最初の文字が小文字 である場合には、プリパーサは一つの文の終わりと見なさない(ステップ124 )。文が新たな行で始まりかつ短い場合には、プリパーサは、それをそれ自体で 一つの文と見なす(例えば、タイトル)。 プリパーサは、閉じ括弧および閉じ引用符を含む特定の場合を除いて、終止符 、疑問符、または感嘆符を文の終わりと見なす(ステップ128)。「.”」ま たは 「?”」等で終わっている文の場合には、プリパーサは、引用符の前の句読点 に加えて、引用符の後に仮想の句読点を使用する。「?”」を必要とする基本的 な句読点についての別の例を、以下の例に示す。 The question was "What do you want?". Did he ask the question "What do you want?"? Are you concerned about "the other people"? 英語では、これらの各文は「?”」で終わっている可能性が高い。プリパーサ が追加した仮想の句読点は、引用符の前に疑問符であり得る何かが存在するのか 、または全然何もないかのいずれかを示している。引用符の後ろには、終止符ま たは疑問符であり得る何かが存在している。文の残りの文法的構造によって、そ の後の処理段階で最も適切な選択を行うことが可能となる。 プリパーサはまた、終止符の予備解析で、さらにいくつかのアプローチを使用 する(ステップ130、132、134、136および138)。辞書に含まれ るいくつかの短縮形には、文頭には決してこないというマークが付けられ、そし てその他には文末には決してこないというマークが付けられる(ステップ130 )。これらの規則は常に尊重される。例えば、「Ltd.」は決して文頭にはこない し、「Mr」は決して文の終わりにはこない。プリパーサはまた、次の単語が「th e」、「in」などのような頻出する文法的単語でないかぎり(ステップ13 2)、一字の大文宇に続いて終止符を伴う文は終結させない。終止符の前の単語 が、いずれかの辞書に載っている場合には、終止符のところで文は終わる(ステ ップ134)。終止符の前の単語がこの辞書に載っておらず、そしてその単語が その内部に終止符を有し(例えば、I.B.M.)、かつ次の単語が小文字形態では辞 書に載っていないか、または次の単語そのものが大文字である場合には、これは 文末ではない(ステップ136)。残りの場合には、終止符は文末のマークを付 ける(ステップ138)。 再び図2および図3を参照すると、一旦、文の境界がプリパーサにより規定さ れると、パーサはその文の単語を構文分類に分け、そして、その文の可能な構文 の解釈25を計算するために、それらの単語に文法データベースからの文法規則 を適用する(ステップ104)。これらの文法規則48は、その言語の文法的な 制限を表すコンピュータ読み出し可能な一連の規則として実行され得る。英語に ついて、このような規則は何百存在し得、これら規則は何百の構文分類に適用さ れ得る。この操作の計算に要する処理量を減らすために、一つの単語の異なる可 能な意味は無視される。 次のステップ(ステップ106)において、グラフ作成部は、パーサの結果を 拡張するために辞書を使用して単語の異なる意味を含ませ、そしてその文のすべ ての意味解釈を表す配向性非環状グラフを作成する。このグラフは、以下に説明 する一連の意味伝達の手順の助けを借りて作成される。これらの手順は、一連の 作成された文法規則に基づいて行われ、いくつかの場合には、意味情報について の意味特性ツリーにアクセスする。意味特性ツリーは、意味分類を含むツリー構 造である。このツリーは、おおざっぱに抽象物から具体物へと組織されており、 そしてツリーの中でのそれらの分離およびツリーのなかでのそれのレベルの両方 に関して、一対の用語が意味の上でどのように関連しているかをその手順が決定 することを可能にする。例えば、「cat」および「dog」は、「cat」と「pudding 」より関連性が高い。したがって、「cat」および「dog」の対は、ツリーの中で はより短い距離で分離している。「animal」および「cat」は、ツリーの異なる レベルに記憶されている単語の例である。何故なら「animal」は「cat」に比べ て、より抽象的な用語であるからである。 図9について説明すると、このグラフは、ノード80および種々のタイプの関 連を示す方法でポインタ88、89、90、91でリンクされたそのサブノード 82、84、86を含む。グラフの第一の関連のタイプは、句を表すノードが、 それを構成している単語のノードやサブフレーズのノードを指すポインタを有す るものである。例えば、句「the bank」を表すノード84は、ポインタ92、9 3により、それを構成している単語「the」94および「bank」95にリンクさ れている。グラフの第二の関連のタイプは、句の解釈が、より低いレベルのもの から、より高いレベルの同じ成分を作るもう一つの方法を指すポインタを有して いる場合である。例えば、句「by the bank」を表すノード80は、それぞれを 構成する各単語にリンクしているポインタ88と89、および90と91を各々 含む二つのソース解釈位置81、83を有し得る。この例の場合、異なる個々の 構成語は、それぞれが句「the bank」に対して異なる意味を表す異なるサブノー ド84、86を含む。グラフの構造は、解析操作の結果により規定され、ソース 文の構文により制限を受ける。このグラフのノードは、意味伝達のプロセス中に 記入され得る意味情報に対する記憶位置と関連づけられる。 システムの意味を伝達する部分は、それらが含むより小さな成分からより大き な成分へと意味情報を伝達する働きをする。意味情報は、初めの段階の解析操作 で使用される構文分類の四つのクラスに適用される。四つのクラスは、SEMNP( 名詞型の目的語や前置詞句を含む)、SEMVP(通常主語を取る、目的語のような 動詞句)、SEMADJ(形容詞)、およびVERB(多くの場合目的語を取る辞書の動詞 型の動詞)である。その他の構文分類はある規則の中では無視される。文法規則 の設定者は、規則に特定のマークを付けることによって、表面上に出ない行動も 無効にすることもできる。これらの特別命令は最初にくる。 システム内を意味特性が伝達する様式には二つの局面がある。第一の局面は、 文法規則の名詞型および動詞型の構成部分を検査することによって、どの名詞型 の目的語に、動詞型の構成要素のどの選択的な制限スロットを適用するかを決め る規則の集合である。例えば、「I persuaded him to go.」という文の動詞句に 対する規則は、おおまかにいうと、VP=VT11+NP+VP(ここで、VP は動詞句、VT11は他動詞の分類、NPは名詞句)である。例示としてのデフ ォルト規則は、動詞が目的語を取る場合には、動詞の右側にある最初のNPに、 選択制限を適用すべきであることを示す。別の規則では、その主語に対するVP の制限は、VPの左側に見出される最初のNPに適用されるべきであると定めて いる。これらの規則は合わせて、「persuade him」および「him go」の両方の意 味がよく通るように評価されることを確実にしている。すでに説明したように、 これらの規則は英語の複雑な文法を反映していて、そのためにその数は非常に限 定されている。 図6について説明すると、意味伝達操作は、選択制限をSEMVPから命令文にコ ピーする操作を含む(ステップ140)。SEMNPが位置の表現として使用されて いる場合には、良い位置を規定する意味定数に対してその妥当性が評価される( ステップ142)。ある規則が二つのSEMNPの結合(構文上の特徴を論理積する ことによって検出された)を含んでいる場合には、グラフ作成部は、意味特性を 論理積して、意味上の距離エキスパートに適用する(ステップ144)。 意味特性の伝達に対して特定された規則を検査している中で、グラフ作成部が 、もっと高いレベル(例えば、それがもっと多くの単語を含むSEMNPの一部とな る)へ伝達するSEMNPの「頭」の位置を見つけた場合には、グラフ作成部は、意 味特性をも伝達する(ステップ146)。しかし、「頭」が、区分用の単語(例 えば、「Portion」、「part」である場合には、「頭」はかわりにSEMNPから左ま たは右に伝達する。SEMVPおよびSEMADJが、区分用の位置を持っていない(ステ ップ148)場合だけを除いて、同じ方法で伝達される。形容詞は、この目的の ためには、SEMVPのクラスの一部である。 SEMVPがVERBを含む規則から作られた場合は、グラフ作成部は、もしVPが受 動態でなければ、VERBの主語制限を上の方向に伝達させる。受動態の場合、VERB の最初の目的語制限がかわりに伝達される(ステップ150)。SEMVPを含む規 則の場合には、グラフ作成部は、SEMVPの選択制限をSEMVPから左に移動するとき に遭遇するNPに適用しようとする(ステップ152)。SEMADJを含む規則の場 合には、グラフ作成部は、SEMADJの選択制限を、最初にSEMADJから右に移動する ときに遭遇する任意のSEMNPに適用しようとし、それがうまくいかない場合には 、左の方向に移動しようとする(ステップ154)。 VERBの任意の残りの未使用の目的語選択制限(受動態であるために上の方向に それまで伝達していない)に対して、グラフ作成部は、VERBの右側で遭遇するSE MNPに、上記の制限を順番に適用する(ステップ156)。これらすべての規則 で、動詞選択制限は、それが何かに適用されるとすぐに使い尽くされてしまう。 これまでのすべての規則の場合、SEMNPは、それらSEMNPに何かが適用された場合 には、使い果たされない。この規則からスタートすると、SEMNPは使い尽くされ る。最終的に、ある規則がSEMVPを作った場合に、グラフ作成部は、それまで使 用されていないSEMVPまたはSEMADJが含まれているかどうかを決定し、含まれて いる場合には、それを上の方向に向かって伝達する(ステップ158)。 システムはまた、言語特性の特性マッチングを行う。言語特性は単語および他 の構成要素の特性である。構文の特性マッチングはパーサが使用し、意味特性マ ッチングは、グラフ作成部が使用する。しかし、同一の技術が両者に対して使用 される。例えば、「they」は複数という構文特性を有し、一方「he」は単数とい う構文特性を持つ。特性マッチングは、単語の特徴がそれらが適用される単語の 特徴がある条件を満たした場合にだけ適用されるように、文法規則にマーク付け を行う。例えば、下記のような規則があり得る: S=NP{@}+VP{@} ここで、記号@はNPおよびVPの数の特性は一致しなければならないことを意 味する。したがって、この規則は「they are」や「he is」は許容するが、「the y is」や「he are」は認めない。 特性マッチ制限は、「局所的」と「広範囲」とに分けられる。広範囲の動作は 、実際に文が処理されるときにではなく、文法が作成されるときに計算され得る 。次いで、実行しなければならない広範囲の一連の動作は、一連の命令バイトと してコード化される。 広範囲特性動作の計算は、n成分の規則(すなわち、その右側に二つより多い 入力を有し得る)でスタートしなければならない。その後、システムは、特性の 集合が正しい様式で規則間を伝達して終わるように、種々の2成分の規則にコー ドを割り当てる。n成分の規則を二つの要素からなる規則に分割することによっ て、解析操作は非常に単純化される。しかしシステムは、2成分の規則にまたが って特性の集合を追跡しているので、システムは広範囲操作のパワーを保持する 。 本発明のシステムでは、複数の単語で構成する「熟語」も辞書の一部として許 容し、一方、それらを構成している個々の(単語の)表示も保持する。これら二 つの形態は、最終的には最も適切な表示であるために相互に競合し得る。例えば 、「black sheep」の意味は、「持て余し者」の意味で辞書に見出される。しか し、ある場合には、「black sheep」という単語は、「黒い羊」を意味すること もある。これらの形態は両方とも保持されているので、この熟語としてではない 使用法も、なお正しい翻訳として選択され得る。 この熟語は、別の分類にも属し得る。例えば、システムは次の三つのタイプを 使用し得る: オールマイティ:United States of America 優先:long ago 普通:black sheep オールマイティ熟語は、その列を構成している任意の単語の任意の他の可能な解 釈よりも優先する。優先熟語は、同じ一般的なタイプの他の構成語であって、全 く同じ単語を使用するものよりも優先する。普通熟語は、同じレベルで他の見出 し語と競合する。 その結果得られるグラフは、エキスパート(ステップ108、図3)によって 評価され、上記エキスパートはグラフの解釈の正確さの可能性を表すスコアを提 供する。本発明のシステムは、文全体のみではなく、文の任意の長さのすべての 部分に適用される採点方法を含む。グラフを使用するに当たっての重要な要素は 、それが非常に多くの文に使用されていたとしても、サブツリーがたった一回だ け完全に採点され、分析されるということである。例えば、「Near the bank th ere is a bank」という句においては、「Near the bank」という句は、少なく とも二とおりの意味を有するが、この句の最も適切な解釈はどれかという判断は 一回 しか行われない。「there is a bank」という句も、同様に二とおりの解釈を有 するが、これら二とおりの解釈のどれが最も適切であるかという判断は一回だけ しか行われない。したがって、この文は異なる四つの意味に解釈できるが、サブ 句のスコア付けは一回しか行われない。このグラフのもう一つの特徴は、各ノー ドが、文のその部分の長さに関して容易にアクセスできる情報で標識されている ことである。この特徴により、英文を再度分析しなくても、その英文の任意のサ ブストリングのN個の最も適切な解釈を行うことができる。 しかし、一回の実行においては、その文の最も適切なN個の分析のみが、一回 ごとに得られるが(Nは20程度のある数)、グラフを使用することにより、シ ステムは、もっと小さな構成部分についてのユーザの選択の結果を取り入れるこ とができ、ユーザの選択を尊重したN個の異なる最も適切な分析を行う。これら すべての分析は、文の解析を再度行わず、または任意のサブストリングの採点を 再度行わないで行われるので、迅速に行うことができる。 図8について説明すると、エキスパート評価部30の操作は、各翻訳を特徴づ ける種々の因子に基づいて行われ、これは種々のエキスパートにより処理される 。確率規則エキスパート170は、最初のソース言語解析ツリーを入手するのに 使用される文法規則の平均相対頻度を評価する。選択制限エキスパート178は 、得られた翻訳の意味上の一致の度合を評価する。辞書見出し語確率エキスパー ト172は、最初のソース言語解析ツリーを入手するのに使用された文のいくつ かの単語の特定の「品詞」の平均相対頻度を評価する。統計エキスパートは、あ る翻訳のために選択した特定のパラフレーズの平均相対頻度を評価する。 システムは、種々の個別の英語の単語、句、および単語グループに対する英語 の「品詞」(POS)を自動的に決定する。システムは、文を翻訳するとき、品詞 を自動的に決定し、そしてシステムは通常は正しい決定を行う。しかし、ときに は、翻訳する文それ自身が曖昧であることもある。1つより多い品詞として解釈 し得る単語または句が含まれているときは、その単語又は句が出てくるその文に ついて、複数の異なるが、しかしどれも「正しい」意味が得られることになる。 システムのオペレータは、システムが自動的に決定する品詞を無視し、代わりに 任意の単語や句または単語グループに対して手動で品詞を設定することも可能で ある。例えば、「John saw a boy with a telescope.」というソース英文で、シ ステムのオペレータが、「a body with a telescope」を名詞句と見なすと、シ ステムは、その文を「その少年は望遠鏡を持っていた」という意味に解釈し、従 って「ジョンはその少年を見るために望遠鏡を使用した」という意味には解釈し ないことになる。オペレータは、いくつかの可能な品詞設定を手動で行ったり、 またはより制限のゆるやかな品詞設定を手動で行うことにより、システムが決定 する品詞規則を上書きした場合、翻訳結果が悪化したり、少なくとも改善されな いという状況を扱うこともあり得る。名詞句は名詞よりも制限がゆるやかであり 、グループは最も制限が緩やかな品詞設定である。以下に種々の可能な品詞設定 のリストを示す。 品詞(POS) 名詞 名詞句 動詞(他動詞、自動詞) 動詞句 形容詞 形容詞句 副詞 副詞句 前置詞 前置詞句 接続詞 グループ 英語 「形容詞句」や「副詞句」の品詞設定は、ある英文が、システムが特定の前置 詞句をどのように解釈するかによって意味が異なるような場合に有効である。例 えば、「We need a book on the fourth of July」という文は、「on the fourt h of July」が形容詞としての意味を持つと解釈した場合には、「我々は米国の 7月4日の独立記念日に関する本がほしい。」という意味になるが、「on the f ourth of July」を副詞句と解釈した場合には、「7月の4日に、我々は本がほ しい。」という意味になる。システムが自動的に「on the fourth of July」に 正しくない品詞を割り当てたとオペレータが考えた場合には、オペレータは、「 We need a book on the fourth of July」という文の「on the fourth of July 」に別の品詞を手動で設定し得る。オペレータが、システムに特定の単語、句ま たは単語グループを英語から日本語に翻訳させたくないときは、オペレータは、 所望の単語、句および/または単語グループに「英語」という品詞を設定し得る 。オペレータは、設定がシステムにより自動的に行われた場合でも、オペレータ により手動で行われた場合でも、一つまたは複数の品詞設定を除去することもま た可能である。 システムは、ユーザごとに複数のレベルで訳語の使われ方の統計情報を追跡す る。例えば、システムは、単語の表面形式のレベル(「leaving」)が、自動詞 としての使用に対して他動詞としてどの程度の頻度で使用されたか)で統計値を 保持し、また意味レベル(「あとに残る」という意味か、または「〜から出発し た」という意味か)でも保持し、そして後者のタイプは「leave」、「leaves」 、「left」、「leaving」の異なる変化形ごとに出現回数が積み上げられる。シ ステムはまた、最後のいくつかの文で生じた使用についての統計値と、ユーザの サイトで任意の時間に生じた使用についての統計値とは区別して保持し得る。さ らに、システムは、ユーザが単語の特定の意味を使用するように介入して指示し た場台と、システムがユーザの確認なしに単語の特定の意味を使用した場合とを 区別し得る。 構造バランスエキスパート182は、所定の文の構成部分の長さに関連する特 徴で、英語や多くの他のヨーロッパ言語の特徴に基づいている。いくつかの(全 てではないが)構造で、これらの言語では、軽い(短い)要素の左側に重い(長 い)要素がくるような文は歓迎されない。例えば、 Mary hit Bill with a broom.(左が軽く、右が重い){適合} Mary hit with a broom Bill. (左が重く、右が軽い){不適合} Mary hit with a broom a dog that tried to bite her. (左が重く、右がもっと重い){適合} 所定の文の二つの解析がある場合、一方が「左が重く、右が軽い」列を避けよう とする構造を含む「左が重く、右が軽い」列を含み、他の解析がそうでない場合 には、前者はその文の意図する解釈を表していないと見なされ得る。このエキス パートは、意図する解析と意図しない解析を区別するための有効な方法である。 「A of B and C」というパターンの同格構造においては、意図する解釈が「Ao f{B and C}」であるのか、または「A {of B} and C」であるのかを判断するのが 難しい場合がある。同格構造エキスパート180は、どの同格モードが意味のよ り近い二つの要素を結合することになるかを決定するために、BC間の意味上の 距離、およびAC間の意味上の距離を測定する。このエキスパートは処理中に意 味特性ツリーにアクセスする。このエキスパートは、所定の文の意図する解析と 意図しない解析を区別するための効果的な方法でもある。 英語の多くの単語は、普通名詞としての解釈と固有名詞としての解釈とに潜在 的な曖昧さを含んでいる。大文字エキスパート176は、大文字表記が意味を有 する可能性がどの程度あるのかを決定するために、文中での大文字の位置を使用 する。例えば、下記の文では、 Brown is my first choice. My first choice is Brown. 第一の文は本来的に意味が曖昧であるが、第二の文は、「Brown」は色の名称で はなく、人名である可能性がはるかに高い。このエキスパートは、大文字で始ま る単語が文頭にあるのか、または文頭でない場所にあるのか(上の例)、その大 文字で表示されている単語が辞書に含まれているかどうか、その小文字で始まる 単語が辞書にあるかどうか、などの要因を考慮に入れる。このエキスパートは、 文中の大文字で書かれた単語の正しい解釈を得るのに有効な方法である。 文が、最初が大文字の単語の連続を含んでいるとき、その文は、固有名詞また は普通名詞の列として処理される。本発明のシステムは、大文字表記列手順を使 用しており、前者の解釈を優先する。上記列が、それ自身通常の文法規則により 解析できないときは、その列は単一の解析していない名詞句として翻訳しないで 処理される。この手順は、出現レベルの低い普通名詞の解釈を完全には無視しな いで、複合の固有名詞を処理する非常に有効な手段であることが証明されている 。 図7について説明すると、本発明の機械翻訳システムは、簡単な文法規則に基 づく構造変換方法の効率を有しているが、テンプレート間構造変換方法の能力に も近い文法規則制御構造変換機構162を使用する。この方法は、平らでない複 合構造を指定し得る文法規則160を使用する。以下は、他の翻訳システムで使 用されている規則のフォーマットである; Y=>X1+X2+...Xn 指定のサブ構造 Y X1 X2...Xn 一方、本発明のシステムは以下のフォーマットの文法規則を使用する: Y=>#Z1(i)#Z2(2)X1+X2....+Xi+X(i+1)+....X(n) 指定のサブ構造 この構文で、「#」が前に付いている記号は、文の構造解析の目的では見えない 仮想的な記号であるが、いったん所定の解析が入手できればサブ構造を構築する のに使用される仮想の記号である。 このタイプの文法が与えられたとき、サブ構造において同胞であるノードの任 意の列の間で、複数の構造変換を特定することができるようになる。これにより 、文法規則に基く構造変換機構はテンプレート間構造変換機構のいくつかの能力 を持つ機構に変換される。本発明のシステムは、上記の二番目のタイプの文法規 則に基づいているけれども、一番目の形態の対応する文法規則を自動的にコンパ イルする。したがって、文を解析するのに、第一の形態の文法規則を使用し、解 析構造を形成するために第二の形態の文法規則を使用し得る。 構造変換は、また文法規則制御構造変換操作による操作をうけた後で、解析ツ リー上で操作するために、辞書161にアクセスする辞書制御構造変換操作16 6を含む。次いで、生成規則制御構造変換操作が、標的言語テキスト41を供給 するために、得られた解析ツリーに、生成規則を適用する。 再び、図1および図2について説明すると、システムが上記プロセスにより、 最も望ましいとランク付けした翻訳を作成した後、その翻訳がディスプレイ20 を通してユーザに提供される。次いで、ユーザは、その翻訳を採用するか、ユー ザ入力装置22を通して別の解析システム37と相互作用させることによりその 翻訳を編集するかを選択する。編集操作中、ユーザは、正確に翻訳された翻訳文 の部分は束縛しながら、その文の残りの部分の再翻訳を要求し得る。この操作は 、迅速に行い得る。なぜなら、システムはエキスパートの重み31を含むグラフ を保持しているからである。 図1−図9を参照して自然言語の自動翻訳システムの特定の詳細を説明してき たが、ここで、図10A−図16を参照して本発明による改善が記載される。こ れらの改善は、テキストがユーザ、オペレータまたはシステムによって発生され ている間、たとえば、ユーザがワード処理のソフトウェアを使って文書を作成し ている間、その入力テキストを自動的に翻訳する。本発明のシステムの1つの利 点は、入力テキストが発生されている間に、あるいはそのテキストが発生された 直後に入力テキストを翻訳するためのシステムの能力にあり、この能力は言語学 習、および迅速且つ効率的に翻訳されなければならない一時的なテキストを発生 するシステムにおいて有用であり得る。 本発明に従って、ユーザ、オペレータまたはシステムは、図lに示されている ように、ユーザ入力インターフェース22、または入力インターフェース12に よって、コンピュータ化されたシステムまたはファイルに、文字、記号およびテ キスト(本明細書中以下で、文字、文字ストリーム、テキスト入力または入力テ キスト・ストリームと交換可能に呼ばれる)を入力または追加することによって 、テキスト・ファイルまたは文書を入力し、発生し、作成し、編集し、受信し、 あるいはコンパイルする(本明細書中以下で、「テキスト・ファイルを発生する 」または「文書を発生する」と交換可能に呼ばれる)ことができる。文書または テキスト・ファイルは、所望の適用に依存して、任意の数の文字、フォーマット 、テキストまたはファイルを含み得る。上記のように、ユーザ・インターフェー ス22および入力インターフェース12は、たとえば、キーボード、マウス、タ ッチスクリーン、ライトペン、音声活性化送信機または他の入力デバイス、なら びにモデムまたはシリアル・ポートなどのディジタル・インターフェースを含み 得る。本発明のシステムは、ユーザのワークステーション(20、22)上にイ ンワード処理ソフトウェアを組み込むか、あるいはそれとインターフェースし得る ことは理解されるべきである。したがって、ユーザがソース言語で文書を発生し ている時、標的言語へのその文書の自然言語翻訳が、たとえば、翻訳のアイコン 上でクリックすることによってその入力テキストの翻訳を積極的にユーザが要求 することなしに、自動的に実行される。しかし、本発明の翻訳システムは、積極 的な翻訳要求を扱うこともできる。本発明のシステムは、翻訳されるべき文書が コンピュータ化されたシステムによって発生される場合に他のシステムとさらに インターフェースすることができる。文書は、ユーザの入力インターフェース2 2および入力インターフェース12を、独立に、あるいは組み合わせて使って発 生させ得ることは理解されるべきである。 図1に関連して図10Aを参照すると、本発明の1つの実施態様による自動化 された翻訳および再翻訳のためのシステムを示している機能的ブロック図が示さ れている。示されているように、ユーザ入力インターフェース22および/また は入力インターフェース12を通じてシステムの中に発生されたか、あるいは入 力された入力テキスト183は、実質的にリアルタイムで翻訳エンジン16へ送 られ、そこで184において、作成中のテキスト・ファイルまたは文書の中の入 カテキストの始めから翻訳される。たとえば、さらに説明されるように、この翻 訳は入力された文字のストリームの中の最初の文字、入力された単語および文字 のストリームの中の最初の単語、または他の開始点から開始し得る。入力テキス ト183はまた、それが発生されている時、あるいは入力されている時、その後 の再翻訳184および表示185のために、記憶部18の中にテキスト・ファイ ルとして186の中にも記憶される。記憶された入力テキスト186をそのテキ スト・ファイルの翻訳および再翻訳184において使用し得、その結果、即時受 信された入力テキストおよび、既存のテキスト・ファイルの中に以前に入力され た他の入力テキストが翻訳される。次いで、その翻訳および入力テキストが18 5において表示され、既存のテキストが新しく受信された入力テキストによって 変化するたびに、絶えずリフレッシュされる。 入力テキストを翻訳および再翻訳するプロセス184が、ループとして示され 、そのループは、受信されるたびに入力テキスト183を定常的に翻訳し、出力 としてその翻訳されたテキストをディスプレイ185に対して送信し、そしてル ープ・バックして184において記憶部186から以前に受信された任意の入力 された入力テキストと一緒に、新しく受信された入力テキストがあればそれを翻 訳する。新しい入力テキストが受信されていない場合、翻訳プロセスは入力テキ ストがふたたび受信されるまで一時保留される。したがって、実質的にリアルタ イムで、入力テキストが既存のテキスト・ファイルの中の入力テキストと一緒に 翻訳され、ソース言語での入力テキストと、標的言語での出力テキストの両方を 表示し得る。しかし、他の実施態様においては、翻訳されたテキストだけを表示 する必要があり、ソース言語での入力テキストはその文書の中の翻訳された単語 の上でクリックすることによって、あるいはシステムのクリップボードから得る ことができることが理解される。 図10Bを参照すると、本発明の別の実施態様による自動翻訳および再翻訳の ためのシステムを示している機能的ブロック図が示されている。上記と同様に、 ユーザ入力インターフェース22および/または入力インターフェース12を通 じてシステムの中に発生された、あるいは入力された入力テキスト183が翻訳 エンジン16へ送られ、実質的にリアルタイムで記憶部18の中のテキスト・フ ァイルとして186において記憶される。次いで、その入力テキストが187に おいてその入力テキストが受信された時点までのテキスト・ファイルに対して比 較され、その入力テキストのどの部分が以前に翻訳されていない新しく受信され たテキストであるかどうかを判定する。入力テキストが新しく受信された入力テ キスト、たとえば、1つの文の継続、または前の文の修正を含んでいる単語の入 力がどの部分であるかの判定が行われた後、その新しく受信された入力テキスト についての翻訳188が実行される。新しく受信された入力テキストが現われる 場所に依存して、たとえば、上記の例のような、新しく受信された入力テキスト が以前に入力された文を修正している場合など、以前に受信された入力テキスト の再翻訳188を実行し得る。このように、記憶されている入力テキスト186 を、テキスト・ファイルの翻訳および再翻訳184において使用して、即時受信 された入力テキスト、および以前に入力された他の入力テキストが翻訳されるよ うにし得る。次いで、翻訳されたテキストおよび入力テキストの両方を185に おいて表示し得る。入力テキストを翻訳および再翻訳するプロセス188がルー プとして示されており、このループは実質的にリアルタイムで新しく受信された 入力テキストを翻訳し、その翻訳されたテキストを出力としてディスプレイに対 して送信し、そして次に、ループ・バックして、その新しく受信された入力テキ ストを187においてテキスト・ファイルと比較し、新しく受信された入力テキ ストがあればそれを翻訳する。新しい入力テキストが受信されていなかった場合 、翻訳プロセスを上記のように一時的に保留し得る。 ふたたび図1を参照すると、翻訳エンジン16の中に含まれている翻訳起動部 21が、その文書の翻訳がいつ開始されるべきか、すなわち、翻訳エンジン14 がソース言語から標的言語へのその文書の翻訳をいつ実行するかを決定する。図 11を参照すると、本発明の1つの実施態様による翻訳起動部21がさらに詳細 に示されている。示されているように、翻訳起動部21は処理モジュール200 を含み得、処理モジュール200は発振器と、タイマまたはカウンタ202(本 明細書中以下で、「カウンタ202」と呼ばれる)とを含んでいて、カウンタ2 02はユーザ入力装置22または入力インターフェース12からの入力204に おいて信号が存在していない時を検知する。たとえば、ユーザがタッチスクリー ン190、キーボード192、またはマウス194を経由してタイプしている時 、カウンタ202に対する入力204の1つまたはそれ以上がアクティブであり 、カウンタ202はオフになっている。すなわち、カウンタ202はカウントし ていない。入力204がアクティブでない時、あるいは入力204の特定のもの だけがアクティブである時、カウンタ202は開始値、たとえば、0からカウン トを開始する。カウンタ202はそのカウント値を表している出力を比較部20 6に対して提供し、比較部206はそのカウント値を所定の値208に対して比 較する。その所定の値は時間に関係しており、記憶部18の中に格納されている 値であることが好ましい。例示の目的だけのために、本発明の翻訳システムが、 ユーザがそのテキストをワード処理文書の中にタイプしている時に翻訳するため に使われている時、値208は約0.1秒から約45秒までの時間の期間を表し 得、その期間は、たとえば、ユーザがどんなことを次にタイプしたいかに関して 考えるため、あるいはその文書の中をスクロールするために一時休止する時間の 長さにほぼ等しい。さらに、本発明の翻訳システムが、コンピュータが発生した ソースからの自然言語のテキストを翻訳するために使われる、本発明の別の実施 態様においては、値208は上記より短いか、あるいはそれより長い時間の期間 を表し得る。値208は、本発明のシステムの所望の使用に適している任意の時 間に対応し得ることは理解されるべきである。 カウンタ202からのカウント値が、値208に実質的に等しいか、あるいは さもなければその値に対応している場合、比較部206は翻訳エンジン16に対 して信号を提供し、翻訳プロセスを開始させる。そのカウント値が所定の値20 8に等しくないか、あるいはそれに対応しない場合、比較部206は加算部21 0に対して信号を提供し、カウンタ202をインクリメントさせる。従って、ユ ーザ入力装置22または入力インターフェース12からのテキスト入力の受信に おける遅延が存在した場合、カウンタ202はそのカウントが所定の値208に 実質的に等しくなるまでカウントし、その時点で翻訳が発生する。しかし、タッ チスクリーン190、キーパッド192およびマウス194から翻訳エンジン1 6への入力196によって示されているように、エンター・キーの押下げ、ある いは翻訳アイコン上でのクリックなどのある種の動作によってもなお翻訳を発生 させ得ることに注意することが重要である。 図12Aを参照すると、本発明の1つの実施態様に従って、文書が発生されて いる時にテキスト入力を翻訳するためのプロセスを示しているフローチャートが 示されている。ステップ220に示されているように、翻訳起動部21はユーザ 入力装置22または入力インターフエース12からの入力文字ストリームの受信 における時間の経過を待つ。ある時間経過を検知すると、カウンタ202はステ ップ222に示されているように、初期値208からカウントを開始する。次に 、ステップ224が実行され、次いで、翻訳起動部21は能動的に、あるいは受 動的に、キーボード・ストロークの存在を検知する。本明細書において、キーボ ード・ストロークはキーボード入力だけを指すことに限定されず、むしろ上記の コンポーネント(すなわち、キーボード、マウス、タッチスクリーン、ライトペ ン、音声活性化送信機)、および入力装置またはシグナリング装置として使われ る他の装置のうちの1つまたはそれ以上を使っている、ユーザ装置22または入 力インターフェース12からの任意の入力を含み得る。ステップ224からの出 力が肯定的であった場合、ステップ220が実行され、そして翻訳起動部21は 、ふたたび入力文字ストリームにおける時間経過を検知するために待つ。キーボ ード・ストロークが検知されない場合、ステップ226が実行され、翻訳起動部 21はそのカウント値が所定の値208に達したかどうかを判定する。カウント 値が所定の値208より小さかった場合、ステップ228が実行され、カウンタ 202がインクリメントされ、そしてステップ224および226がふたたび繰 り返される。 カウンタ202が所定の値208に達した場合、文書またはファイルにおける 所定の場所、あるいは開始の場所、たとえば、文書またはファイルの先頭からソ ース文書の翻訳を開始し得る。本発明の実施態様においては、文書の先頭は、そ の文書を発生させる場合に、ユーザによって、あるいはコンピュータ・システム によって入力または追加された最初の文字によって指定し得る。他の実施態様に おいては、所望の目的に依存して、最近入力された文、パラグラフまたはページ の中に入力または追加された第1の文字または単語から翻訳を開始し得る。たと えば、ユーザが文書またはファイルの中に2ページのメモをタイプした場合、そ のメモの1ページ目の最初の文字から翻訳を開始し得る。 図12Bを参照すると、本発明の別の実施態様に従って、文書が発生されてい る時にテキスト入力を翻訳するためのプロセスを示しているフローチャートが示 されている。上記と同様に、翻訳起動部21は入力文字ストリームの受信におけ る時間経過220を待ち、ある経過時間を検知すると、キーボード・ストローク 224によって中断されない限り、カウント222を開始する。カウントが所定 の値に達した時、以前に受信した入力テキストを含んでいる既存のテキスト・フ ァイルが、即時受信された入力テキストを含んでいる更新されたテキスト・ファ イルに対して227において比較され、即時受信したテキストを含んでいるテキ ストファイルについて判定が行われる。図10Bにおいて上で説明されたように 、入力テキストはテキスト・ファイルとして記憶され、それが受信された時に翻 訳される。入力テキストがその後に受信された時、以前に記憶されている既存の テキスト・ファイルを調べ、それを即時受信された入力テキストと比較すること によって判定が行われる。この方法で、その即時受信されたテキストだけ、ある いはその即時受信されたテキスト、および任意の他の必要なテキストが、次にス テップ229において翻訳される。 図13Aおよび図13Bを参照すると、本発明の自然翻訳システムを使って、 メモが発生される際に翻訳される例が示されている。図13Aに示されているよ うに、ユーザがユーザ・インターフェースを通じて文字ストリーム250の中に 、「The revised building permit」という単語を タイプンした時、「permit」の後に一時休止が検知されている。その休止 時間の間にユーザは文字を何も入力していない。これは普通はユーザが次に何を タイプしたいかについて考えている時に取る一時休止、あるいはコンピュータが 発生した一時休止のためである。この時点で、翻訳起動部21は一時休止が所定 の時間に等しいことを判定し、たとえば、3秒経過したことを判定し、英語の単 語 の日本語への翻訳が、翻訳エンジンを使ってその文書の先頭から実行される。次 に、その翻訳がディスプレイ20を経由してユーザに提示される。その翻訳が、 プリンタを介して、ハード・コピーとして、あるいは音声シミュレーション送信 機から発生される単語などの音声信号として、さらに提示され得ることは理解さ れるべきである。示されているように、このシステムは入力テキストが翻訳され たテキストと並べて提示され、ユーザが入力テキストを作成している間に出力の テキスト翻訳を見ることができるので、言語の学習のために非常に有用であり得 る。 ここで図13Bを参照すると、ユーザがタイピングを再開した時、文字ストリ ーム252が各キーボード・ストロークによって検知され、したがって、翻訳起 動部21が待機モードへ戻る。次に、翻訳エンジンはユーザが「will be 」をタイプした後の一時休止を検知し、最初に入力された文字、すなわち、「F rom:Richard Stevens...」から翻訳を開始させる。他の 実施態様において、上記のように、文書の先頭ではなく、文の先頭から翻訳を開 始し得ることは理解されるべきである。したがって、その翻訳は単語「The revised...」から開始されることになり、そして単語「permit .」まで継続する。 文書の先頭から翻訳を開始することによって、すなわち、その文書を再翻訳す ることによって、中間の翻訳および最終の翻訳の精度を高め得ることに注目する ことは重要である。なぜなら、この翻訳エンジンは、その文の中の以前の単語の 翻訳に影響を与える現在の文の構造におけるすべての変化、たとえば、その動詞 に影響し得るそれ以降の変化を捕捉し得るからである。さらに、先行している単 語、文またはパラグラフに対する変更、たとえば、切貼り機能を含む編集が行わ れている場合には、翻訳エンジンは標的の文書への翻訳がそのような編集を含む ことを保証し得る。文の中のそれ以降の単語に対する変更が以前の単語の翻訳に 影響する翻訳を例示するために、文の断片の翻訳と、その文の断片に対して単語 が追加された後の文全体の翻訳とを比較しているフランス語の翻訳の以下の例を 考える。 入力I: 英語: I am フランス語: Je suis 入力II: 英語: I am not フランス語: Je ne suis pas したがって、翻訳が最初の文の終わった場所から開始された場合、すなわち、第 2の入力の翻訳が「not」の後から開始された場合、フランス語の翻訳は正確 でないことになる。なぜなら、それはフランス語における文の動詞の構造におい て行われるべき変化を反映しないことになるからである。 図14を参照すると、テキスト入力を自動的に翻訳するためのプロセスの別の 実施態様が示されている。上記と同様に、ステップ320および322に示され ているように、翻訳起動部21は時間経過を検知し、初期値208からのカウン トを開始する。この実施態様においては、ステップ324において、キーボード ・ストロークが検知された時、ステップ325が実行され、そしてそのキーボー ド・ストロークが、入力機能、マウスのクリック、タッチスクリーンの押下げ、 または一時休止を表す他の入力信号または入力文字ストリームの入力に関係のな い機能を表すかどうかについての判定が行われる。この実施態様においては、エ ンター・キーの押下げは、入力文字ストリームの発生における一時休止、たとえ ば、ユーザがパラグラフの終りに来て、最後のパラグラフと新しいパラグラフと の間にスペースを追加したい時の一時休止を表し得る。同様に、マウスのクリッ は、たとえば、ユーザが次に続くテキストにアンダーラインを引くためにアイコ ン上でクリックした時、あるいはドラッグ・アンド・ドロップの機能を実行する ためにテキスト上でクリックした時、入力文字ストリームの発生における一時休 止を表し得る。そのような動作は入力テキストの翻訳が実行されるのに十分な時 間を許すものとして翻訳起動部によって解釈され得る。すなわち、そのような例 においては、翻訳起動部21は、そのキーボード・ストロークおよびマウス・ク リックを一時休止と同様なものとみなし、ステップ330に示されているように 、その文書の先頭からユーザが停止した場所の点まで、たとえば、その文書の中 にタイプされた最後の単語または文字までの翻訳を実行させる。あるいは、上 記のように、即時受信されたテキストだけを翻訳し得る。 本発明の別の実施態様においては、翻訳起動部21は、図14のフローチャー トが翻訳についての肯定的な要求を検知するように構成し得ることに注意するこ とが重要である。すなわち、ステップ325において、システムは、ユーザ、オ ペレータまたはシステムが、エンター・キーの押下げ、アイコン上でのクリック 、タッチスクリーンの押下げまたは翻訳の要求を示す入力信号の発生によって文 書の翻訳を要求しているかどうかを判定し得る。そのような実施態様において、 キーボード・ストロークまたは翻訳アイコン上でのクリックの結果、その文書の 中のテキストの自動翻訳および再翻訳が行われる。 ふたたびステップ324を参照すると、そこでは検知されたキーボード・スト ロークが、エンター、マウス・クリックまたは上記のような他の入力以外のもの であり、ステップ326が実行され、カウンタ202が所定の値208に達した かどうかに関する判定が行われ得、達していた場合、ステップ330が実行され 、その文書の翻訳が開始点から発生される。カウンタ202が所定の値に達して いなかった場合、ステップ328が実行され、カウンタがインクリメントされて 、ステップ324および326がふたたび繰り返される。 図15を参照すると、本発明の別の実施態様が示されており、その中で翻訳起 動部21が入力文字ストリームの翻訳を開始する前に、文の形態を検知する。上 記と同様にステップ420において、翻訳エンジン16が入力文字ストリームを 受信していて、翻訳起動部21が一時休止を検知する。ステップ422において 、翻訳起動部21は、その文字ストリームを調べて、文または文の断片(たとえ ば、1つの文字、文字の列、単語、または単語の列を含み得る)が、その入力文 字ストリームによって形成されているかどうかを判定する。この実施態様におい ては、文または文の断片がまだ形成されていなかった場合、ステップ423にお いて入力文字ストリームが待たれる。ふたたび入力文字ストリームが検知される と、ステップ420が実行され、そこで翻訳起動部21が、入力文字ストリーム におけるそれ以降の時間経過を待つ。文または文の断片が形成されたことが、ス テップ422において判定された場合、ステップ424が実行され、その中で能 動的に、あるいは受動的に、キーボード・ストロークが検知されたかどうかにつ いての判 定が行われる。キーボード・ストロークが検知されなかった場合、ステップ43 0が実行され、その文書が開始点から翻訳される。キーボード・ストロークがス テップ424において検知された場合、ステップ420が実行され、そこで翻訳 起動部21がふたたび入力文字ストリームにおける時間経過を待つ。点線で示さ れているように、翻訳起動部21は、上記の図14で説明されたように、一時休 止または入力文字ストリームの入力に関連しない機能を表しているエンターまた はマウス・クリックなどの入力が受信されたかどうかを、ステップ425におい て必要に応じて判定し得る。上記と同様に、そのような入力を検知することによ って、ステップ430が実行され、そこで文書の先頭、あるいは即時受信された テキストの先頭の文字からなどの、その文書の中の開始点から翻訳が実行される 。 他の実施態様においては、本発明の翻訳起動部21は、ステップ422におい て、ソース言語での認識可能な単語が発生されたかどうかを判定し得る。この実 施態様においては、認識可能な単語、たとえば、英語の単語「av」ではない「 an」が肯定的な判定を得る結果となり、ステップ424へ移る。「av」など の認識不可能な単語の場合、翻訳起動部21はステップ423において追加の文 字を待ち、たとえば、ユーザがタイプし続けて「avenue」などの単語が発 生された場合のように、発生されたかどうかを判定し得る。あるいは、翻訳起動 部はステップ422において、たとえば、正しく入力された文字または単語がそ の後に続くタイプ誤りの場合のように、認識不可能な文字または単語の後に発生 された文字または単語が認識可能であるかどうかを判定し得る。別の実施態様に おいて、翻訳起動部21はステップ424において、1つのパラグラフが入力文 字ストリームによって形成されたかどうかを判定し得る。そのような実施態様に おいては、翻訳エンジン14は、入力文字ストリームがパラグラフを発生した後 でのみ翻訳動作を実行する。 図13Cを参照すると、本発明の翻訳システムの一例が示されており、その中 で翻訳起動部21がタイピングにおける時間経過の間に、完全な文がタイプされ たかどうかを検知し、完全な文だけを翻訳するように構成されている。この実施 態様の中で示されているように、パラグラフ254を含んでいる文は完全な文で あり、そして翻訳されている。しかし、文の断片256「This shoul d not delay the...」は、まだ翻訳されていない。なぜなら 、これらの単語は単に文の断片を含むにすぎないことが翻訳エンジン16によっ て判定されているからである。 ここで図16を参照すると、本発明の1つの実施態様が示されており、それは 、所定のカウント値280が到達されたかどうかを判定する概念、および文が入 力文字ストリームによって形成されているかどうかを判定する概念を組み合わせ ている。上記の説明と同様に、翻訳起動部21は、ステップ520において、入 力文字ストリームにおける時間経過を待ち、そしてステップ522において初期 値280からのカウントを開始する。次に、翻訳起動部21はステップ524に おいてキーボード・ストロークが受動的に、あるいは能動的に検知されたかどう かを判定し、検知された場合、ステップ520がふたたび実行され、そして翻訳 起動部21は入力文字ストリームにおける時間経過を待つ。キーボード・ストロ ークが検知されない場合、ステップ526において、カウンタ202が所定の値 208に達したかどうかについての判定が行われる。カウンタ202が、そのよ うな値280をまだカウントしていない場合、ステップ528がふたたび実行さ れ、ステップ524および526がふたたび繰り返される。カウンタ202が所 定の値208に達していたと判定された時、ステップ529が実行され、そこで 翻訳起動部21は入力文字ストリームが少なくとも1つの文を形成するかどうか を判定する。入力文字ストリームが文を形成しない時、ステップ532が実行さ れ、そこで入力テキスト・データの追加のストリームが待たれる。一旦、追加の 入力文字ストリームが検知されると、制御がふたたびステップ522へ移り、そ こで翻訳起動部21が入力文字ストリームにおけるそれ以降の時間経過を待ち、 ステップ522から529までがふたたび実行される。ステップ529において 、文字ストリームが文を形成するという判定がなされた場合、ステップ530が 実行され、そしてその文書が開始点から翻訳される。本発明の他の実施態様にお いては、ステップ529は単語、文の断片、またはパラグラフをその入力テキス トの形成を翻訳する前に検知し得ることは理解されるべきである。 本発明の自動翻訳および再翻訳システムは、標的言語を学習するためのソース 言語において人を流暢にし得るための、言語学習ツールとして使用し得る。たと えば、図13A〜図13Cに示されているように、英語に堪能な人は、本発明の 翻訳システムを容易に使用して日本語を学習し得る。上記で示されたように、デ ィスプレイ・モニタを備えているコンピュータ・ワークステーションにいるユー ザは、1つの単語または複数語の文をタイプして、ディスプレイ画面上でそのタ イプされた単語の自動翻訳を見ることができる。さらに、ユーザがタイプし続け ると、そのユーザは文法的および他の構造的な影響のために先行している単語の 翻訳において発生し得る変化を見ることができる。 本発明のシステムは、ユーザが一緒に見るために、1つのソース言語から複数 の標的言語への翻訳、たとえば、英語から日本語へ、そして英語から韓国語へ、 あるいは英語から日本語へ、そして日本語から韓国語への翻訳を扱うように構成 できることに注意することがさらに重要である。 さらに、本発明のシステムは、例えば、多数の異なる国にいる多数のネットワ ーク・ユーザに対して知らせる必要がある重要な、あるいは緊急のメッセージを 、その関連、適用性、またはフォーマットにおいて一時的であるコンピュータ発 生の自然言語テキストを翻訳するために使用し得る。そのような例において、本 発明のシステムは、そのメッセージが発生されている時に1つまたはそれ以上の 言語にそのメッセージを翻訳し、そのメッセージが関連のユーザに対して迅速に 到達し、理解されるようにするために使うことができる。 本発明は、さらにインターネット関連のアプリケーション、たとえば、例示の 目的のためにいくつか例を挙げれば、インスタント・メッセージ、電子メール、 ウェブ・ページ、掲示板およびインターネットのチャット・ルームなどの適切な アプリケーションにおいて有効に使うことができる。しかし、その他の多数のア プリケーションが本発明の適用範囲内にあることが理解されるべきである。 上記の機能および操作のすべてを、各種の固定配線の回路設計によって、およ び/または汎用のコンピュータで使うためのプログラミング技法によって実装し 得る。フローチャートに示されているようなステップは、そこに示されている順 序で一般的に適用される必要はなく、ステップの組合せを組み合わせ得る。同様 に、このシステムの機能を、プログラムおよびデータ中に各種の方法で分配し得 る。さらに、文法および他の動作規則を1つまたはそれ以上の高級言語で開発し 、 一方、それらをコンパイルされたフォーマットでエンド・ユーザに対して供給す るのが有利な場合がある。 本明細書中に記載された機能のすべてを含んでいる、本明細書中に記載された 自動自然言語翻訳システムの任意の実施態様を、汎用のコンピュータ(たとえば 、AppleのMacintosh、IBM PCまたはその互換機、Sunの ワークステーションなど)で実行させるためのディスケットまたは光コンパクト ・ディスク(CD)などの、コンピュータ読み取り可能媒体上のコンピュータ・ ソフトウェアとして提供し得る。 この分野の当業者であれば、請求の範囲に記載されている本発明の精神および 範囲から逸脱することなしに、本明細書中に記載されることの変更、修正、およ びその他の実施を思い付くことができる。したがって、本発明は、前記説明的な 記述によってではなく、以下の請求項の精神および範囲によって規定されるべき である。DETAILED DESCRIPTION OF THE INVENTION Cross-References to Applications and Patents Related to Automatic Translation and Retranslation Systems. The present application is a co-operation of April 23, 1996, June 14, 1996, and June 9, 1997. International Patent Applications PCT / US96 / 05567, PCT / US96 / 10283, and PCT / US97 /, filed with the United States Receiving Office through the Treaty (PCT), targeting Japan and the United States. No. 10005 is a continuation-in-part application, all of which are incorporated herein by reference. U.S. Pat. No. 5,528,491 is also a related patent, and is hereby incorporated by reference in its entirety. TECHNICAL FIELD The present invention relates to automatic natural language translation, and more particularly, to a natural language translation system in which a document is automatically translated when the document is being generated by an author, user, or system. Background Information Various schemes have been proposed for machine-based translation of natural languages. Typically, the system used for translation includes a computer that receives input in one natural language and performs operations to provide output in another natural language. This type of translation is inaccurate and lengthy, and the resulting output often requires extensive editing by a skilled operator. Translation operations performed by known systems generally include structure conversion operations. The purpose of this structure conversion is to convert the parse tree of the source language sentence (ie, the syntax structure tree) into the corresponding tree in the target language. Two types of structure conversion schemes have been attempted: conversion based on grammar rules and conversion between templates. In a grammatical rule-based transformation, the domain of the transformation is limited to the grammar rules used to obtain the source language parse tree (ie, the set of subnodes that are direct children of a given node). Is done. For example, the following formula: VP = VT01 + NP (The verb phrase (VerbPhrase) has an object in this order consisting of one transitive verb (SingleObjectTransitive Verb) and a noun phrase (NounPhrase)) and Japanese: 1 + 2 => 2 + 1 ( Reverse the order of VT01 and NP.) The parse tree of each source language, including the application of rules, is structurally transformed so that the order of verbs and objects is reversed. This is because in Japanese, a verb comes after its object. This method is very efficient in that it is easy to find where a particular transformation is applied; it is applied exactly where the rules were used to obtain the source language parse tree . On the other hand, as noted above, the weak translation mechanism has the disadvantage that its territory can be severely restricted, and that natural languages may require translation rules that span non-brother nodes. possible. In a structural transformation between templates, the structural transformation is specified in the form of an input / output (I / O) template or subtree. If a given input template matches a given structure tree, the portion of the structure tree that matches that template is converted as specified by the corresponding output template. This is a very powerful transformation mechanism, but can be expensive in that a given input template can take a long time to find out if it matches any part of a given structure tree. Nevertheless, that type of conversion is performed by conventional translation systems, and such systems have direct translation commands from the user or operator after the user or operator has finished typing the document into the system. In some cases, it only facilitates translation of the text. As a result, these systems do not learn the language or allow the user or operator to look up its translations on a word-by-word or sentence-by-sentence basis, thus distributing variations of the translation of words in different contexts to the user or It is more difficult for an operator to detect. SUMMARY OF THE INVENTION An automatic natural language translation system according to the present invention has many advantages over known machine-based translation devices. After the system of the present invention has automatically selected the best possible translation of the input text information and provided the user with an output (eg, a Japanese translation of the input text in English), the user is displayed You may interact with this system to edit translations or automatically obtain other translations. Operators of the automatic natural language translation system of the present invention can be more productive. This is because the system allows the operator to automatically re-translate the remaining part while retaining only those parts of the translation that are determined to be good. Since this selective retranslation operation is precisely directed to the parts that need retranslation, the operator has the time to consider many potentially inaccurate but very high quality translations. And free from boring work. Further, since this system allows for arbitrary precision in translation coordination, typically much of the final structure of the translation is generated by the system. Thus, the system reduces the potential for human (operator) mistakes and saves time in editing involving changes in structure, person and tense. This system provides the operator with the full benefit of extensive and reliable grammar and orthography knowledge. The flexible processing and robust semantic handling of ambiguous sentence breaks in the source language of the automated natural language translation system of the present invention provides further accuracy and reduced operator translation editing. The stored statistical information also improves the accuracy of the translation by modifying the preferred translation for a particular user site. The idiom processing method of the present system is advantageous in that a sentence that accidentally includes a sequence of words constituting the idiom can be accurately translated without interpreting the meaning of the idiom. The system is efficient, but still has flexible features such as long-range property adaptation. The structural balance expert and peer structural expert of the present system efficiently distinguish between intended and unintended analyzes. Uppercase experts efficiently obtain the correct interpretation of uppercase words in a sentence, and the uppercase procedure efficiently handles compound proper nouns without completely ignoring their interpretation as common nouns. . In one aspect, the invention relates to an improvement in an automatic natural language translation system. Here, the improvement is to convert the source natural language in the document or file, eg, English, into the target natural language, eg, Japanese, Spanish, or other natural language, when the input text is being generated. Related to automatically translating into text. In one aspect, the natural language translation system generates a translation when a pause is detected upon input of input text, such as a pause in a stream of input characters. In another aspect, a natural language translation system may automatically translate a recently received input character stream along with previously translated input text, thereby generating a retranslation of a particular portion of the input text. obtain. In another aspect, the natural language translation system may automatically translate input text that results in a modification or change to previously received input text. In another aspect of the invention, automatic translation may begin at a starting point in the input text (eg, at the beginning of a document, paragraph, word, or other position), thus making any changes or editing in the sentence structure It can be absorbed and reflected in the final translation. In another aspect of the present invention, the automatic translation is performed at a point in the input text where a modification to the previously received input text has been made (eg, in the middle of a previously received but recently edited paragraph). May start. In another aspect, the present invention relates to an improvement in a global natural language automatic translation system, wherein the improvement converts input text in a source natural language (eg, English) into some type of text, eg, a sentence fragment. Related to automatically translating and retranslating textual structures into output text in a target natural language (eg, Japanese, Spanish or other natural languages) after the text structure has occurred. In another aspect, the present invention relates to an improvement of a natural language automatic translation system, wherein the improvement is performed by a user, an operator, or a system, by pressing an enter key on a touch screen or a keyboard, on an icon. When transmitting a signal that carries a mouse click or other input signal (e.g., a functional signal that does not generate a character stream), the input text in the source natural language (e.g., English) is transmitted to the target natural language (e.g., Automatic translation and retranslation into output text in Japanese, Spanish or other natural languages). In yet another aspect, the automated natural language translation system of the present invention automatically responds to pauses in the input character stream by using a counter that starts counting when a pause is detected. Perform translations. In another embodiment of the present invention, the automatic natural language translation system of the present invention performs translation automatically when an input signal associated with certain text structures or system functions is detected. obtain. In another aspect of the present invention, the automated translation system of the present invention translates the input text immediately when the input text is being generated, and translates the input text along with the input text as the translation is being generated. By displaying the resulting output text, it can be used as a language learning tool. The above and other objects, aspects, features and advantages of the present invention will become more apparent from the following description and appended claims. BRIEF DESCRIPTION OF THE DRAWINGS In the drawings, like reference characters refer to the same parts throughout the different views. The drawings are not necessarily to scale, emphasis instead being placed upon generally illustrating the principles of the present invention. FIG. 1 is a block diagram showing a system for performing automatic translation of a natural language. FIG. 2 is a data flowchart showing the overall function of the system of FIG. FIG. 3 is a flowchart showing the operation of the system of FIG. FIG. 4 is a flowchart showing the operation of the sentence end recognition function of the preparser of the system of FIG. FIG. 5 is a flowchart showing the operation of the parser of the system of FIG. FIG. 6 is a flowchart showing the operation of meaning transmission of the system of FIG. FIG. 7 is a flowchart showing the structure conversion operation of the system of FIG. FIG. 8 is a flowchart of the expert evaluation unit of the system of FIG. FIG. 9 is a diagram of a sample graph used by the system of FIG. 1 for the example phrase "by the bank". FIG. 10A is a functional block diagram illustrating a system for automatically translating input text, according to one embodiment of the present invention. FIG. 10B is a functional block diagram illustrating a system for automatically translating input text, according to another embodiment of the present invention. FIG. 11 is a block diagram showing one embodiment of the translation starting unit according to the present invention. FIG. 12A is a flowchart showing the operation of the translation activation unit according to one embodiment of the present invention. FIG. 12B is a flowchart showing the operation of the translation starting unit according to another embodiment of the present invention. 13A, 13B, and 13C show an example of a screen display showing a translation from a source language to a target language using the system of the present invention. FIG. 14 is a flowchart showing the operation of the translation starting unit according to another embodiment of the present invention. FIG. 15 is a flowchart showing the operation of the translation starting unit according to another embodiment of the present invention. FIG. 16 is a flowchart showing the operation of the translation starting unit according to another embodiment of the present invention. DETAILED DESCRIPTION First, a general description of an automatic natural language translation system according to the present invention will be provided without any reference to the drawings. After a general description of the system of the present invention, reference is made to various figures. The automatic natural language translation system of the present invention can translate a source natural language into a target natural language. In one embodiment, the system of the present invention can translate English into Japanese. In another embodiment, the system of the present invention may translate Japanese into English. In yet another embodiment, the system of the present invention may translate from English to Spanish and from Spanish to English. In yet other embodiments, the system of the present invention may translate from English to a plurality of different languages, or from a non-English language to another non-English language. The system of the present invention includes means for receiving and storing the source natural language; a translation engine for generating a translation into the target natural language; means for displaying the translation to a user; and obtaining another translation for the user. And means for displaying to the user. In an embodiment of the system of the present invention, the translation engine includes a translation activation unit, a preparser, a parser, a graph creation unit, an evaluation unit, a graph scorer, an analysis extraction unit, and a structure conversion unit. The translation initiator determines when and / or under what conditions the translation should be performed. The preparser examines the input text and resolves any ambiguities at the boundaries of the input sentence. The preparser then generates and displays the input text in the parsed chart using the dictionary headword. The parser parses the chart to obtain a classification of possible syntax for the input text. The graph creator creates a graph of a possible syntax interpretation of the input text based on the analysis chart. The graph includes nodes and sub-nodes that are relevant to the possible interpretation of the incoming text. An evaluator, comprising a series of experts, evaluates the graph of possible interpretations and adds expert weights to the nodes and subnodes of the graph. The graph scorer uses expert weights to score the subnodes, after which the glass scorer associates each node with the N top scores. The analytic extractor assigns one analytic tree structure to the preferred interpretation determined by the graph scorer. The structure conversion unit performs a structure conversion operation on the parse tree structure in order to obtain a translation in the target language. In the following three paragraphs, (a) how the graph scorer combines expert weights to calculate the final weighted score for each subnode; (b) how the graph scorer computes the subnode score Combine to reach the final node score; (c) provide an explanation of how linguistic information is communicated through the tree of nodes and subnodes. To calculate the final weighted score for each subnode, the graph scorer associates a constant value with each subnode. Analysis of the linguistic information associated with each subnode determines the score of the subnode. For example, see FIG. 8 where a series of expert evaluators examine the linguistic information stored at each node and subnode. The graph scorer sums the individual weighted scores for each expert to obtain a final weighted average for a particular node or subnode. Matching multiple weighted scores to one weighted average score is a standard task in computer science. One method that can be used is to multiply the result of each expert by a constant (weight) assigned to that expert. The weight assigned to each expert is a matter of design choice. The designer can select the priority (weight) to be assigned to each expert. A weighted average is the sum of a series of numbers multiplied by a constant for each number. For example, the following formula: weighted average = (w1) (x1) + (w2) (x2) +. . . + (Wn) (xn) where weights w1, w2,. . . , Wn are non-negative numbers, and the sum is one. See, for example, Spiegel, Theory and Problems of Probability and Statistics 76 (Mcgraw-Hill, Inc.), which describes the use of weighted averages for expected values of statistics. 1975). To match the subnode scores to obtain a final node score, the graph scorer may communicate the subnode scores from the bottom to the top of the graph. In the case of a graph in which each node has a set of N scores, one or more transmission methods can be determined. One technique that can be used to communicate subnode scores is a storage method, which is a type of dynamic programming used to solve optimization problems. Solving the optimization problem can involve many possible numbers (results). The challenge is to find the optimal value. The algorithm used for optimization solves each sub-sub-problem only once, and stores the result, so that it is not necessary to recalculate the answer each time a sub-sub-problem is encountered. For a more detailed description applied to optimization problems, see, for example, Cormen et al., Introduction to Algorithms 301-314 (Mcgraw-Hill Book Co, 1990). The methods described on pages 301, 302 and 312 of the Introduction to Algorithms are one method that can be used to convey sub-node score information via graphs. When transmitting linguistic information via a tree, the semantic transmission portion of the system operates to transmit the semantic information contained by the components from smaller components to larger components. Semantic transfer applies to the four classes of syntactic classification used in parsing operations (SEMNP, SEMVP, SEMADJ and VERB). Before semantic communication can take place, the linguistic information stored at the node must be analyzed. The analysis of the semantic information stored in the node is performed by checking the noun-like component and the verb-like component in the grammatical rules, and applying which selective restriction slot of the verb-like component to which noun-like object It is guided by a set of rules that identify what to do. Gera ld Gazdar wrote the book Natural Language Processing In Prolog (Addison-Wesleyey PubliShing Co. ; 1989) describes a set of rules that can be used to analyze semantic information stored at nodes in an oriented acyclic graph, similar to the graphs disclosed herein. Gazdar describes the use of property matching to match information about neighboring nodes. Gazdar states that property matching involves expressions that describe: Certain properties that appear on one node must be the same as properties that appear on another node. Recent studies postulate the principle responsible for equalizing the details of certain classes of properties that appear on the offspring that indicate the parent's classification and the morphemes associated with those properties. This child is called the "head" of the phrase. Most phrases have only one head. Thus, for example, a verb phrase inherits the tense of that verb. Because the verb is the "head" of the verb phrase. Even with the notational resources we have used so far, there is no simple way to specify this principle based on the entire grammar. However, if we assume that the relevant properties are all found on one branch of the DAG, it can be very simple to define the effect of this principle on a rule-by-rule basis. We can then write a representative VP rule as follows: VP-> VNPPP <head of V> = <head of VP>. This requires that the characteristic value of the “head” of V is the same as the characteristic value of the “head” on the parent VP. The rules discussed in Gazdar can be easily applied to each class of syntax described herein. Linguistic information assigned to each node using Gazdar rules can be communicated through the tree using techniques of storage methods. Thus, to summarize the contents of the previous three paragraphs, weighted averaging is one way of determining subnode scores, and each subnode score uses known storage method techniques applied to the optimization problem. The strategy described in Gazd ar's book can be used to analyze the linguistic information stored at each node, and this linguistic information can be It can be communicated via the parse tree chart using storage method techniques. Automatic natural language translation systems may perform automatic retranslation after the initial automatic translation. That is, the system automatically selects the possible and most appropriate translation of the input text information and outputs it to the user (preferably, a Japanese translation of the English input text or a Japanese to English translation). After providing, the user may then interact with the system to edit the displayed translation or automatically obtain another translation. Automatic natural language translation systems use a linguistic model that decomposes one sentence into substrings. A substring is one or more words that occur in a specified order as part of the sentence. For example, the substring "The man is happy" includes "The", "The man", "man is happy", "is" and "The manis happy" itself, but "is man", " excluding "man man" and "The is". Different linguistic models classify substrings in different ways and at different levels of detail. For example, in "They would like an arrow", "an arrow" is typically classified as a noun phrase (NP). Some models also classify "anar row" using syntactic properties (eg, this is a singular noun phrase) and semantic properties (which refer to weapons). If a phrase is ambiguous, there are more than one way to classify the phrase. For example, “an arrow” may also refer to an arrow-shaped symbol. Where linguistic models provide a method for disambiguating, these models typically disambiguate by combining smaller units into larger units. When evaluating larger units, these models consider only the portion of the information contained in the larger unit. In an exemplary embodiment of the system of the present invention, the semantic property of "an arrow" (symbol versus weapon) is "They would like an arrow. Is used to evaluate the verb phrase "like an arrow" in the sentence ". In contrast, the syntax of the phrase "an arrow" is "He shot it with an arrow. ), The semantic property of "an ar row" is "shot it with an arrow." Is not used in evaluating the verb phrase "." Exported attributes exist for any substring (interpreted substring) of a sentence that interprets a particular linguistic model in a single way. Exported attributes are all attributes used to evaluate the combination of the interpreted substring with other units that form a larger substring. Exports are interpreted substrings that are interpreted along with the exported attributes. Attributes included in the interpreted substring but not exported are called substructures. The parser of the system of the present invention includes a grammar database. The parser uses grammar rules to find all possible interpretations of the sentence. The grammar database is X = A1 A2. . . It consists of a series of context-free phrase structure rules in the form An. X is A1, A2,. . , An and are referred to as lower nodes (sub-nodes) A1 to higher nodes of An. The graph creator of the system of the present invention graphically represents many possible interpretations of a sentence. Each node of the graph corresponds to the export of several substrings. In an embodiment of the system of the present invention, one export is represented by one node. The graph includes arcs emanating from the nodes associated with one export. The arc represents the sub-structure of the export based on the application of the grammar rules. The graph shows at least two types of arcs: (1) a single arc pointing to one different export of the same substring, (2) a binary arc containing a set of pointers to the two exports, Here, when concatenated, the substring forms a substring of the original export. Note that the formula described in (2) assumes a grammar in Chomsky's normal form. The graph also contains a single starting export S from which all parts of the graph can be reached by following a series of arcs. The departure export corresponds to the entire sentence. Multiple arcs emerge from a node only if the same export can consist of more than one export (a pair of pointers in a binary arc is not considered multiple arcs for this purpose). Arcs point to a node only if the export is a component of the exports. Nodes without arcs correspond to dictionary headings assigned to substrings. Multiple linguistic experts assign a numerical score to the set of exports. The linguistic expert applies the score to each node of the graph. In an embodiment of the system of the present invention, the scoring array (where each element of the array is a weight to multiply the score of a particular expert) is a floating-point fixed number for any given statement. Length " N ". The score is evaluated by a scoring module built into the graphing engine and / or parser. A score is calculated for all exports forming a higher export. The score for a higher export is calculated as the sum of the export forming the higher level export and the score of any expert applied to the combination, such as the score assigned by the structural balance expert. Is done. The order in which nodes are visited and scored is the standard depth-first graph movement algorithm. In this algorithm, the scored nodes are marked and are not scored again. During the scoring process, the scoring module evaluates the dictionary headword nodes before evaluating any higher unit nodes. Each entry in the dictionary yields one score. If there are multiple ways to create a single export, multiple scores will result. That is, k different ways to create an export yield k possible scores. The multiple scores are processed as follows. (1) In the one-component rule, each of the k lower export scores is added to the expert value applied to the one-component rule, and the resulting vector of k scores is added to the parent export. Be associated. (2) In the binary rule, assume that the left child has a g score and the right child has an h score. The sum of g times the h score is then calculated by adding each score of the right child to each score of the left child, and then adding the expert numbers that apply to the binary rule. If g times h exceeds N, only the N best scores are kept with the parent node. (3) If the export of a node can be created in multiple ways, at most N scores are added to the score list for that node, and the best score is kept. Once scoring is complete, the above method will include the g most likely ways to create an export, including each export, its nodes, and any substructure attributes not shown in the export. Confirm that we have associated a set of g scores (g in the range from 1 to N) representing (for the linguistic model). In the particular case of the root node S, this scoring method yields the g most likely ways to form a sentence. Each score in each score list described above has an associated pointer. The pointers provide information indicating which scores in the lower export score list have been combined to create a higher level score. By tracking each pointer, the g most likely interpretations of the sentence can be extracted as an unambiguous parse tree. The automatic natural language translation system will now be disclosed in further detail with reference to FIGS. Thereafter, various improvements according to the present invention will be described with reference to FIGS. 1 and 2, an automatic natural language translation system 10 according to the present invention includes an input interface 12, a translation engine 16, a storage unit 18, a user input device 22, a display 20, and an output interface 14. Input interface 12 is configured to receive a sequence of text in a source language such as, for example, English or Japanese. Input interface 12 may include a keyboard, a voice interface or a digital electronic interface such as a modem or serial input. The translation engine 16 performs a translation operation on the source text together with the data in the storage unit. Translation engine 16 may be comprised entirely of hard-wired logic, or may include one or more processing units and associated storage instructions. Translation engine 16 may include the following elements or portions thereof. That is, the user interface 42 includes the translation starting unit 21, the preparser 24, the parser 26, the graph creating unit 28, the analysis / translation evaluation unit 30, the analysis extraction unit 32, the structure conversion unit 34, and another analysis system 37. The structure conversion unit may include a structure conversion unit 36 based on grammar rule control, a structure conversion unit 38 based on dictionary control, and a structure conversion unit 40 based on generation rule control. The storage unit 18 may include one or more areas of a storage unit such as a disk (eg, a hard disk, a floppy disk, and / or an optical disk) and / or a memory (eg, a RAM). The storage unit may store all or some of the following elements. A basic dictionary 44, a technical term dictionary 46, a dictionary created by a user, a grammar rule 48, a generation rule 50, a semantic characteristic tree 52, a structure tree 54, and a graph 56. The storage unit 18 may also be used to perform translations, including input text information in the source natural language, output text information in the target natural language, and one or more dictionaries, domain keywords and grammar rules. Used to store all kinds of information that is useful. User input interface 22 includes a keyboard, mouse, touch screen, light pen or other user input device and is used by the operator of the system of the present invention. The display may be a computer display, a printer or other type of display, or it may include other means of communicating information to an operator. Output interface 14 communicates the final translation of the source text in a target language, such as Japanese. The output interface 14 may include an electronic interface such as a printer, display, audio interface, modem or serial line, or may include other means for communicating the text to an end user. In operation of one embodiment of the translation system of the present invention, referring to FIG. The translation activator can be configured inside the translation engine 16 with the remaining elements shown in this figure. Alternatively, as shown in FIG. 11, it can be configured as another component that can periodically interface with other elements of the translation engine 16. Translation initiator 21 may include a computer processing unit for determining when to start translating the input text. The translation launcher 21 typically sets the parameters that govern this decision, determines if any conditions related to such parameters exist while the text is being generated, and Invokes automatic translation when a state exists. As further described in the exemplary embodiments herein, translation trigger 21 generates a time period or value that can be used to determine when there is a time lapse in the occurrence of the input text and Can be stored. The translation activation unit, upon recognizing the passage of time or a pause substantially equal to such a period, activates an automatic translation and / or retranslation that may be performed in the translation engine 16 described herein. . Similarly, the translation activator processes the input quist and detects the formation of words, sentences or sentence fragments, and paragraphs, using predetermined parameters set to represent each of the above structures, The translation is performed when such a structure exists. The translation launcher and its operation are further described herein in FIGS. 10-16. The preparser 24 first performs a preliminary analysis operation (step 102) on the source text 23. This, as further shown in FIGS. 10-16, preparser 24 may include source text when created, edited, received, or otherwise compiled in a computer file or document. This operation includes analyzing sentence boundary ambiguity in the source text, and using the dictionary headings 25 to create a selected analysis chart. The parser 26 then analyzes the chart created by the preparser to obtain a structural analysis chart filled with syntax possibilities 27 (step 104). The graph creation unit 28 creates a graph of the possible interpretation 29 based on the analysis chart obtained from the analysis step (step 106). The evaluator 30 accessing the series of experts 43 evaluates the stored interpretation graph (step 108) and adds expert weights to the graph 31. A graph scorer 33 scores the nodes and associates 35 with each of the N (eg, 20) best scores. The analysis and extraction unit 32 assigns the analysis tree structure 39 to the preferred interpretation (step 110). Next, the structure conversion unit 34 accessing the conversion table 58 performs a structure conversion operation on the tree in order to obtain the translation 41 in the target language (step 112). The user may communicate with another analysis system 37 to obtain another translation. Referring to FIG. 4, the system of the present invention performs a pre-parsing operation by dividing the input stream into tokens that include individual punctuation marks and groups of characters that form words (step 114). The appearance of spaces affects the interpretation of characters at this level. For example, "-" in "xy" is a dash, while "-" in "xy" is a hyphen. The preparser then combines the tokens into words (step 116). At this level, the preparser recognizes special structures (eg, Internet addresses, telephone numbers and social security numbers) as a unit. The preparser also uses dictionary references for grouping. For example, if "re-enact" exists in the dictionary as "reenact", it becomes one word in the sentence, but if it does not exist, it remains as three separate "words". The next preparatory step involves determining where the sentence ends (step 118). During this operation, the preparser accesses the base and technical terminology dictionaries and any user-created dictionaries according to a series of steps for each possible sentence end of each sentence (ie, after each word of the source text). The preparser need not perform these steps in the particular order shown, and the steps may be performed as a series of ordered rules or may be coded into hardware. Referring to FIG. 5, the preparser interprets and records any string that cannot be parsed, such as a series of dashes "-----", as a "sentence", but records it as a translated sentence. Is not interpreted or recorded (step 120). The preparser also requires two carriage returns in any row and any column to be at the end of the sentence (step 122). If the first letter of the next word is lowercase, the preparser does not consider the end of a sentence (step 124). If the sentence starts on a new line and is short, the preparser considers it a sentence by itself (eg, title). The preparser considers a terminator, question mark, or exclamation point to be the end of a sentence, except in certain cases, including closing parentheses and closing quotes (step 128). ``. For sentences ending with "" or "?", Etc., the preparser uses virtual punctuation after the quotes in addition to the punctuation before the quotes. Another example of a basic punctuation that requires "?" Is shown in the following example. The question was "What do you want?". Did he ask the question "What do you want?"? Are you concerned about "the other people"? In English, each of these sentences is likely to end with a "?". The virtual punctuation added by the preparser indicates that there is something before the quotation mark that could be a question mark, or nothing at all. Behind the quotation mark is something that can be a terminator or question mark. The remaining grammatical structure of the sentence allows the most appropriate choice to be made at a later processing stage. The preparser also uses several more approaches in the preparatory analysis of the terminator (steps 130, 132, 134, 136 and 138). Some abbreviations contained in the dictionary are marked as never at the beginning of the sentence, and others are marked as never at the end of the sentence (step 130). These rules are always respected. For example, "Ltd. Is never at the beginning of a sentence, and "Mr" is never at the end of a sentence. The preparser also does not terminate sentences with a single letter followed by a stop, unless the next word is a frequent grammatical word such as “the”, “in”, etc. (step 132). If the word before the stop is in one of the dictionaries, the sentence ends at the stop (step 134). The word before the terminator is not listed in this dictionary, and the word has a terminator within it (for example, I. B. M. ) And if the next word is not in the dictionary in lowercase form, or if the next word itself is uppercase, this is not the end of the sentence (step 136). In the remaining cases, the terminator marks the end of the sentence (step 138). Referring again to FIGS. 2 and 3, once the sentence boundaries are defined by the preparser, the parser divides the words of the sentence into syntactic categories and computes a possible syntactic interpretation 25 of the sentence. Next, grammar rules from the grammar database are applied to those words (step 104). These grammar rules 48 may be implemented as a series of computer-readable rules representing the grammatical restrictions of the language. For English, there can be hundreds of such rules, and these rules can apply to hundreds of syntactic classes. In order to reduce the amount of processing required to calculate this operation, the different possible meanings of a word are ignored. In the next step (step 106), the graph creator uses a dictionary to extend the parser's results to include different meanings of the words, and an oriented acyclic graph representing all the semantic interpretations of the sentence Create This graph is created with the help of a series of semantic communication procedures described below. These procedures are based on a set of created grammar rules, and in some cases access a semantic property tree for semantic information. The semantic property tree is a tree structure including the semantic classification. This tree is roughly organized from abstract to concrete, and how both pairs of terms mean in terms of both their separation within the tree and its level within the tree. Allows the procedure to determine if it is relevant to the For example, "cat" and "dog" are more relevant than "cat" and "pudding". Thus, the "cat" and "dog" pairs are separated by a shorter distance in the tree. "Animal" and "cat" are examples of words stored at different levels of the tree. Because "animal" is a more abstract term than "cat". Referring to FIG. 9, the graph includes a node 80 and its subnodes 82, 84, 86 linked by pointers 88, 89, 90, 91 in a manner that indicates various types of associations. The first type of association in the graph is that the node representing the phrase has pointers to the nodes of the words and subphrases that make it up. For example, node 84 representing the phrase "the bank" is linked by pointers 92, 93 to the words "the" 94 and "bank" 95 that make up it. The second type of association in the graph is when the phrase interpretation has a pointer to another way to make the same component at a higher level from a lower level. For example, a node 80 representing the phrase "by the bank" may have two source interpretation locations 81, 83 containing pointers 88 and 89, and 90 and 91, respectively, linking to the words that make up each. In this example, the different individual constituent words include different subnodes 84, 86, each representing a different meaning for the phrase "the bank". The structure of the graph is defined by the result of the parsing operation and is limited by the syntax of the source sentence. The nodes of this graph are associated with storage locations for semantic information that can be entered during the process of semantic communication. The parts that convey the semantics of the system serve to convey semantic information from the smaller components they contain to the larger components. The semantic information applies to the four classes of syntactic classification used in the first-stage parsing operations. The four classes include SEMNP (including noun-type objects and prepositional phrases), SEMVP (usually taking the subject, verb-like objects), SEMADJ (adjective), and VERB (often taking the object) Verb type of dictionary). Other syntactic classifications are ignored in certain rules. The grammar rule setter can also override non-visible behavior by marking the rule with a specific mark. These special orders come first. There are two aspects to the manner in which semantic properties are transmitted in a system. The first aspect is a rule that determines which noun-type object and which optional restriction slot of the verb-type component applies to which noun-type object by examining the noun-type and verb-type components of the grammar rules. Is a set of For example, `` I persuaded him to go. The rule for the verb phrase of the sentence "is roughly VP = VT11 + NP + VP (where VP is a verb phrase, VT11 is a transitive verb classification, and NP is a noun phrase). The illustrative default rule indicates that if the verb takes an object, the first NP to the right of the verb should apply the selection restriction. Another rule stipulates that VP restrictions on the subject should be applied to the first NP found to the left of the VP. Together, these rules ensure that both the meanings of "persuade him" and "him go" are appreciated. As already explained, these rules reflect the complex grammar of English, which makes their numbers very limited. Referring to FIG. 6, the semantic transfer operation includes an operation of copying the selection restriction from the SEMVP to a statement (step 140). If SEMNP is used as a representation of the position, its validity is evaluated for a semantic constant that defines a good position (step 142). If a rule includes the union of two SEMNPs (detected by ANDing syntactic features), the graph creator ANDs the semantic properties and gives the semantic distance expert Apply (step 144). In examining the rules specified for the transfer of semantic properties, the graphing unit may determine that the SEMNP of the SEMNP to transmit to a higher level (eg, it will be part of a SEMNP containing more words) If the position of the “head” is found, the graph creating unit also transmits the semantic characteristic (step 146). However, if the "head" is a word for a division (eg, "Portion", "part"), the "head" is transmitted from SEMNP to the left or right instead. SEMVP and SEMADJ Adjectives are part of the class of SEMVP for this purpose, except that they do not have a position (step 148), adjectives are made from rules containing VERB for this purpose. If the VP is not passive, then the graph creator propagates the subject restriction of VERB upwards, in which case the first object restriction of VERB is transmitted instead (step 150). In the case of a rule that includes SEMVP, the graph creator attempts to apply the selection restrictions of SEMVP to NPs that are encountered when moving left from SEMVP (step 152). The graph creation section first sets the SEMADJ selection restrictions Attempts to apply to any SEMNP encountered when moving right from SEMADJ, and if that doesn't work, try moving left (step 154) Any remaining unused object selection in VERB For the constraints (which have not been communicated in the upward direction because they are passive), the graph builder applies the above constraints in order to the SE MNPs encountered on the right side of VERB (step 156). In all of these rules, the verb selection restriction is exhausted as soon as it applies to something: For all the rules so far, SEMNP means that if something applies to those SEMNPs Is not exhausted. Starting from this rule, SEMNP will be exhausted. Eventually, if a rule creates a SEMVP, the graphing unit will include a previously unused SEMVP or SEMADJ. Be The system also performs trait matching of linguistic features, which include words and other constructs, if so, and if so, communicates them upwards (step 158). Element properties: syntax property matching is used by the parser, semantic property matching is used by the graph creator, but the same technique is used for both. Has a syntactic property, while “he” has a singular syntactic property.Characteristic matching is such that grammars are only applied if the word features to which they apply apply meet certain conditions. Mark the rules. For example, there could be the following rule: S = NP {+ VP} where the symbol @ means that the properties of the numbers of NP and VP must match. Thus, this rule allows "they are" and "he is", but not "the y is" or "he are". Property match restrictions are divided into "local" and "wide". A wide range of actions can be calculated when the grammar is created, not when the sentence is actually processed. The broad sequence of operations that must be performed is then coded as a sequence of instruction bytes. The computation of the global characteristic operation must start with the rule of n components (ie, it may have more than two inputs to its right). The system then assigns codes to the various binary rules so that the set of properties ends up propagating between the rules in the correct manner. By dividing the n-component rule into two-element rules, the analysis operation is greatly simplified. However, because the system is tracking a set of properties across a two-component rule, the system retains the power of extensive operation. The system of the present invention also allows "idioms" consisting of multiple words as part of the dictionary, while retaining the individual (word) representations that make up them. These two forms may compete with each other for ultimately the most appropriate display. For example, the meaning of “black sheep” is found in the dictionary as the meaning of “surplus”. However, in some cases, the word "black sheep" may mean "black sheep." Since both of these forms are retained, this non-idiom usage can still be selected as the correct translation. This idiom may belong to another category. For example, the system may use three types: Almighty: United States of America Preferred: long ago Normal: black sheep Almighty idiom is any other possible of any word that makes up its sequence Takes precedence over arbitrary interpretation. Preferred idioms take precedence over other constituents of the same general type that use the exact same word. Ordinary idioms compete with other headwords at the same level. The resulting graph is evaluated by an expert (step 108, FIG. 3), which provides a score that indicates the likely accuracy of the interpretation of the graph. The system of the present invention includes a scoring method that applies to all parts of an arbitrary length of a sentence, not just the entire sentence. An important factor in using a graph is that the subtree is scored and analyzed only once, even if it is used in so many sentences. For example, in the phrase "Near the bank there is a bank", the phrase "Near the bank" has at least two meanings, but it is only once to determine which is the most appropriate interpretation of this phrase. Only done. The phrase "there is a bank" also has two interpretations, but the determination of which of these two interpretations is most appropriate is made only once. Thus, this sentence can be interpreted in four different meanings, but the subphrase is scored only once. Another feature of the graph is that each node is labeled with easily accessible information about the length of that portion of the sentence. This feature allows the N most appropriate interpretations of any substring of the English sentence without having to re-analyze the English sentence. However, in a single run, only the most appropriate N analyzes of the statement are obtained each time (N is some number of the order of 20), but by using a graph, the system allows more The results of the user's choices for the small components can be incorporated and perform N different most appropriate analyzes that respect the user's choices. All of these analyzes can be done quickly without re-analyzing the sentence or re-scoring any substrings. Referring to FIG. 8, the operation of the expert evaluator 30 is based on various factors that characterize each translation, which is processed by various experts. The probability rule expert 170 evaluates the average relative frequency of the grammar rules used to obtain the initial source language parse tree. Selection restriction expert 178 evaluates the degree of semantic matching of the resulting translation. The dictionary headword probability expert 172 evaluates the average relative frequency of certain "part-of-speech" words of some of the sentences used to obtain the initial source language parse tree. The statistical expert evaluates the average relative frequency of a particular paraphrase selected for a translation. The system automatically determines the English "speech of speech" (POS) for various individual English words, phrases, and word groups. When the system translates a sentence, it automatically determines the part of speech, and the system usually makes the right decision. However, sometimes the sentence itself is ambiguous. When a word or phrase that can be interpreted as more than one part of speech is included, the sentence in which the word or phrase appears may have several different, but all "correct" meanings. . The system operator can ignore the part of speech automatically determined by the system and instead manually set the part of speech for any word or phrase or group of words. For example, `` John saw a boy with a telescope. In the source English sentence, if the system operator considers "a body with a telescope" to be a noun phrase, the system interprets the sentence to mean "the boy had a telescope," Used a telescope to see the boy. " If the operator manually overrides the system-determined part-of-speech rules by manually setting some possible part-of-speech settings, or manually setting more restrictive part-of-speech settings, It is also possible to deal with situations where there is no improvement. Noun phrases are less restrictive than nouns, and groups have the least restrictive part of speech settings. The following is a list of various possible part of speech settings. Part of speech (POS) Noun noun phrase verb (transitive verb, intransitive verb) verb phrase adjective adjective phrase adverb adverb phrase preposition preposition phrase conjunctive group English This is effective when the meaning differs depending on the interpretation. For example, the sentence "We need a book on the fourth of July" would be interpreted as meaning "on the fourth of July" as an adjective. If you interpret "on the fourth of July" as an adverb phrase, it means "We want a book on July 4th." Become. If the operator thinks that the system has automatically assigned the incorrect part of speech to "on the fourth of July", the operator will use the statement "on the fourth of July" in the sentence "We need a book on the fourth of July". Can be manually set to another part of speech. If the operator does not want the system to translate a particular word, phrase or group of words from English to Japanese, the operator may set the part of speech "English" for the desired word, phrase and / or word group. The operator can also remove one or more part-of-speech settings, whether the settings were made automatically by the system or manually by the operator. The system tracks translation usage statistics at multiple levels for each user. For example, the system keeps statistics at the level of the word's surface form ("leaving"), how often it was used as a transitive versus its use as an intransitive verb, and at a semantic level (""Remains" or "started from"), and the latter type has a different number of occurrences for different variants of "leave", "leaves", "left", and "leaving" Stacked up. The system may also keep statistics on usage that occurred in the last few sentences from statistics that occurred at any time at the user's site. Further, the system may distinguish between a situation where the user has intervened and instructed to use a particular meaning of the word and a case where the system has used the particular meaning of the word without confirmation of the user. The structural balance expert 182 is a feature related to the length of a given sentence component, and is based on features of English and many other European languages. In some (but not all) constructs, these languages do not welcome sentences where heavy (long) elements are to the left of light (short) elements. For example, Mary hit Bill with a broom. (Light on the left and heavy on the right) {Suitable} Mary hit with a broom Bill. (Heavy on the left, light on the right) {non-conforming} Mary hit with a broom a dog that tried to bite her. (Heavier on the left and heavier on the right) {conforming 場合Contains a "heavy left, light right" column that contains structures that try to avoid "heavy left and light right" columns, and where the other parsing is not, the former is the intended interpretation of the sentence. May not be considered. This expert is an effective way to distinguish between intended and unintended analyses. In the equivalence structure of the pattern "A of B and C", it is necessary to determine whether the intended interpretation is "Aof {B and C}" or "A {of B} and C". It can be difficult. The synonym structure expert 180 measures the semantic distance between BCs and the semantic distance between ACs to determine which equivalence mode will combine the two elements that are closer in meaning. This expert accesses the semantic property tree during processing. The expert is also an effective way to distinguish between intended and unintended analysis of a given sentence. Many words in English contain potential ambiguity in their interpretation as common nouns and proper nouns. The capitalization expert 176 uses the position of the capitalization in the sentence to determine how likely the capitalization is to be significant. For example, in the following statement, Brown is my first choice. My first choice is Brown. While the first sentence is inherently ambiguous, the second sentence is more likely that "Brown" is not a color name, but a personal name. The expert will determine whether words starting with uppercase letters are at the beginning of a sentence or not at the beginning of the sentence (as in the example above), whether the dictionary contains words that start with uppercase letters, Take into account factors such as whether they are in the dictionary. This expert is a great way to get the right interpretation of capitalized words in a sentence. When a sentence contains a sequence of words initially capitalized, the sentence is treated as a sequence of proper or common nouns. The system of the present invention uses a capitalized string procedure and favors the former interpretation. If the sequence cannot itself be parsed according to normal grammar rules, the sequence is processed without translation as a single unparsed noun phrase. This procedure has proven to be a very effective means of processing compound proper nouns without completely ignoring the interpretation of low-common-level common nouns. Referring to FIG. 7, the machine translation system of the present invention has the efficiency of a structure conversion method based on a simple grammar rule, but uses a grammar rule control structure conversion mechanism 162 that is close to the capability of the inter-template structure conversion method. use. This method uses grammar rules 160 that can specify an uneven composite structure. The following is the format of the rules used in other translation systems: Y => X1 + X2 +. . . Xn Designated substructure Y X1 X2. . . Xn On the other hand, the system of the present invention uses a grammar rule of the following format: Y =># Z1 (i) # Z2 (2) X1 + X2 .... + Xi + X (i + 1) + .... X (n ) Specified substructure In this syntax, a symbol preceded by a "#" is a virtual symbol that is not visible for the purpose of structural analysis of a sentence, but is used to construct a substructure once a predetermined analysis is available. This is a virtual symbol. Given this type of grammar, it will be possible to specify multiple structural transformations between any sequence of sibling nodes in the substructure. As a result, the structure conversion mechanism based on the grammar rules is converted into a mechanism having some capabilities of the inter-template structure conversion mechanism. Although the system of the present invention is based on the second type of grammar rules described above, it automatically compiles the corresponding grammar rules in the first form. Thus, a first form of grammatical rule may be used to parse a sentence and a second form of grammatical rule may be used to form a parsing structure. The structure conversion also includes a dictionary control structure conversion operation 166 that accesses the dictionary 161 to operate on the parse tree after being operated by the grammar rule control structure conversion operation. The production rule control structure conversion operation then applies the production rules to the resulting parse tree to provide the target language text 41. Referring again to FIGS. 1 and 2, after the system has created a translation ranked as most desirable by the above process, the translation is provided to the user through the display 20. The user then selects whether to adopt the translation or edit the translation by interacting with another analysis system 37 through the user input device 22. During the editing operation, the user may request retranslation of the rest of the sentence while binding the correctly translated portion of the sentence. This operation can be performed quickly. This is because the system keeps a graph containing the expert weights 31. Having described certain details of the automatic translation system for natural languages with reference to FIGS. 1-9, the improvements according to the present invention will now be described with reference to FIGS. 10A-16. These improvements automatically translate the input text while the text is being generated by a user, operator or system, for example, while the user is creating a document using word processing software. One advantage of the system of the present invention resides in the ability of the system to translate the input text while the input text is being generated or immediately after the text has been generated, which includes language learning, and rapid translation. It can be useful in systems that generate temporary text that must be translated efficiently. In accordance with the present invention, a user, operator, or system allows a user input interface 22, or input interface 12, to enter characters, symbols, and text (herein) into a computerized system or file, as shown in FIG. Enter, generate, create, edit, and receive text files or documents by typing or adding characters, character streams, text streams, or input text streams, interchangeably below. Or compiled (hereinafter interchangeably referred to as "generate text file" or "generate document"). A document or text file may include any number of characters, formats, texts or files, depending on the desired application. As described above, the user interface 22 and the input interface 12 may include, for example, a keyboard, a mouse, a touch screen, a light pen, a voice activated transmitter or other input device, and a digital interface such as a modem or a serial port. May be included. The system of the present invention is installed on the user's workstation (20, 22). It should be understood that word processing software may be incorporated or interfaced with it. Thus, when a user is generating a document in the source language, the natural language translation of that document into the target language requires the user to actively translate the input text, for example, by clicking on the translation icon. It runs automatically without having to do it. However, the translation system of the present invention can also handle aggressive translation requests. The system of the present invention can further interface with other systems when the document to be translated is generated by a computerized system. It should be understood that the document may be generated using the user's input interface 22 and input interface 12 independently or in combination. Referring to FIG. 10A in connection with FIG. 1, a functional block diagram illustrating a system for automated translation and retranslation according to one embodiment of the present invention is shown. As shown, input text 183 generated or entered into the system through the user input interface 22 and / or the input interface 12 is sent to the translation engine 16 in substantially real time, where it is transmitted to the translation engine 16 at 184. Translated from the beginning of the input text in the text file or document being created. For example, as described further, the translation may begin with the first character in the stream of input characters, the first word in the stream of input words and characters, or other starting points. The input text 183 is also stored in the storage unit 18 as a text file in 186 as it is being generated or entered, for subsequent retranslation 184 and display 185. You. The stored input text 186 may be used in translating and retranslating 184 the text file, such that the input text received immediately and other input text previously entered in the existing text file. Is translated. The translation and input text are then displayed at 185 and are continually refreshed as existing text changes with newly received input text. The process 184 of translating and retranslating input text is shown as a loop, which routinely translates the input text 183 each time it is received and sends the translated text as output to the display 185. Then, loop back and translate any newly received input text, if any, along with any previously input text previously received from storage 186 at 184. If no new input text has been received, the translation process is suspended until the input text is received again. Thus, in substantially real time, the input text may be translated along with the input text in an existing text file, displaying both the input text in the source language and the output text in the target language. However, in other embodiments, only the translated text needs to be displayed, and the input text in the source language can be clicked on the translated word in the document or from the system clipboard. It is understood that it can be obtained. Referring to FIG. 10B, a functional block diagram illustrating a system for automatic translation and retranslation according to another embodiment of the present invention is shown. As before, input text 183 generated or entered into the system through the user input interface 22 and / or the input interface 12 is sent to the translation engine 16 and stored in the storage unit 18 in substantially real time. It is stored at 186 as a text file. The input text is then compared against the text file up to the point at which the input text was received at 187 to determine which portion of the input text was newly received text that was not previously translated. judge. The input text is the newly received input text, for example, the continuation of one sentence, or the newly received input text is determined after determining which part of the input of the word contains a modification of the previous sentence. A translation 188 of the input text is performed. Previously received input, depending on where the newly received input text appears, for example, if the newly received input text modifies a previously entered sentence, as in the example above A text retranslation 188 may be performed. Thus, the stored input text 186 is used in the translation and retranslation 184 of the text file so that the immediately received input text, as well as other previously entered input text, is translated. obtain. Then, both the translated text and the input text may be displayed at 185. The process 188 of translating and retranslating the input text is shown as a loop, which translates the newly received input text in substantially real time and sends the translated text as output to a display. And then loop back, comparing the newly received input text to a text file at 187 and translating any newly received input text. If no new input text has been received, the translation process may be temporarily suspended as described above. Referring again to FIG. 1, the translation launcher 21 included in the translation engine 16 determines when translation of the document should begin, ie, when the translation engine 14 determines that the document is to be translated from the source language to the target language. Decide when to perform the translation. Referring to FIG. 11, the translation activation unit 21 according to one embodiment of the present invention is shown in further detail. As shown, translation trigger 21 may include a processing module 200, which includes an oscillator and a timer or counter 202 (hereinafter referred to as “counter 202”). , Counter 202 detects when no signal is present at input 204 from user input device 22 or input interface 12. For example, when the user is typing via the touch screen 190, keyboard 192, or mouse 194, one or more of the inputs 204 to the counter 202 are active and the counter 202 is off. That is, the counter 202 does not count. When the input 204 is inactive, or when only a particular one of the inputs 204 is active, the counter 202 starts counting from a starting value, eg, zero. The counter 202 provides an output representing the count value to the comparison unit 206, and the comparison unit 206 compares the count value with a predetermined value 208. The predetermined value is related to time and is preferably a value stored in the storage unit 18. For illustrative purposes only, when the translation system of the present invention is being used to translate the text as the user types the text into a word processing document, the value 208 may be from about 0.1 seconds. It may represent a period of time up to about 45 seconds, for example, the length of time to pause to think about what the user wants to type next, or to scroll through the document. Almost equal. Further, in another embodiment of the present invention, wherein the translation system of the present invention is used to translate natural language text from computer-generated sources, the value 208 may be shorter or longer than the above. It may represent a period of time. It should be understood that value 208 may correspond to any time suitable for the desired use of the system of the present invention. If the count value from counter 202 is substantially equal to or otherwise corresponds to value 208, comparator 206 provides a signal to translation engine 16 to initiate the translation process. . If the count value is not equal to or does not correspond to the predetermined value 208, the comparison unit 206 provides a signal to the addition unit 210 to cause the counter 202 to increment. Thus, if there is a delay in receiving text input from the user input device 22 or the input interface 12, the counter 202 counts until its count is substantially equal to the predetermined value 208, at which point translation occurs. . However, as indicated by input 196 to the translation engine 16 from the touch screen 190, keypad 192 and mouse 194, certain actions, such as depressing the enter key or clicking on the translation icon, may occur. It is important to note that translations can still occur. Referring to FIG. 12A, a flowchart is shown illustrating a process for translating a text input when a document is being generated, according to one embodiment of the present invention. As shown in step 220, the translation activation unit 21 waits for the passage of time in receiving the input character stream from the user input device 22 or the input interface 12. When a certain time has elapsed, the counter 202 starts counting from the initial value 208 as shown in step 222. Next, step 224 is executed, and then the translation activation unit 21 actively or passively detects the presence of a keyboard stroke. As used herein, keyboard strokes are not limited to refering only to keyboard input, but rather to the components described above (ie, keyboard, mouse, touch screen, light pen, voice activated transmitter), and input or signaling devices. May include any input from the user device 22 or the input interface 12 using one or more of the other devices used as the device. If the output from step 224 is affirmative, step 220 is executed and translation activation unit 21 waits again to detect the passage of time in the input character stream. If a keyboard stroke is not detected, step 226 is executed, and the translation activation unit 21 determines whether the count value has reached a predetermined value 208. If the count value is less than the predetermined value 208, step 228 is performed, the counter 202 is incremented, and steps 224 and 226 are repeated. When the counter 202 reaches a predetermined value 208, translation of the source document may begin at a predetermined location in the document or file or at a starting location, for example, at the beginning of the document or file. In an embodiment of the invention, the beginning of the document may be specified by the first character entered or added by the user or by the computer system when generating the document. In other embodiments, depending on the desired purpose, translation may begin with the first letter or word entered or added in the most recently entered sentence, paragraph or page. For example, if a user types a two page note in a document or file, the translation may begin with the first letter on the first page of the note. Referring to FIG. 12B, a flowchart is shown illustrating a process for translating a text input as a document is being generated, according to another embodiment of the present invention. As described above, the translation activation unit 21 waits for the passage of time 220 in receiving the input character stream, and upon detecting a certain elapsed time, starts the count 222 unless interrupted by the keyboard stroke 224. When the count reaches a predetermined value, an existing text file containing previously received input text is compared at 227 to an updated text file containing immediately received input text. A determination is made for the text file containing the text that was immediately received. As described above in FIG. 10B, the input text is stored as a text file and is translated when it is received. When the input text is subsequently received, a determination is made by consulting a previously stored existing text file and comparing it to the immediately received input text. In this way, only the immediate received text, or the immediate received text, and any other necessary text is then translated in step 229. Referring to FIGS. 13A and 13B, there is shown an example in which a memo is translated as it is generated using the natural translation system of the present invention. As shown in FIG. 13A, a pause has been detected after “permit” when the user types in the character stream 250 through the user interface in the character stream 250. The user has not entered any characters during the pause. This is usually due to a pause the user takes when thinking about what they want to type next, or a computer generated pause. At this point, the translation activation unit 21 determines that the pause is equal to the predetermined time, for example, determines that three seconds have elapsed, and translates the English word into Japanese using the translation engine. Executed from the beginning of the document. Next, the translation is presented to the user via the display 20. It should be understood that the translation may be further presented via a printer, as a hard copy, or as an audio signal such as a word generated from an audio simulation transmitter. As shown, the system is designed for language learning because the input text is presented alongside the translated text and the user can see the text translation of the output while creating the input text. Can be very useful. Referring now to FIG. 13B, when the user resumes typing, the character stream 252 is detected by each keyboard stroke, and thus the translation activation unit 21 returns to the standby mode. Next, the translation engine detects a pause after the user types "will be" and causes the translation to begin with the first input character, namely "From: Richard Stevens ...". It should be understood that in other embodiments, as described above, translation may begin at the beginning of a sentence, rather than at the beginning of a document. Therefore, the translation will start with the word "The revised ..." and continue until the word "permit ...". It is important to note that by starting the translation from the beginning of the document, ie, retranslating the document, the accuracy of the intermediate and final translations can be increased. Because the translation engine may capture all changes in the structure of the current sentence that affect the translation of previous words in the sentence, for example, subsequent changes that may affect the verb . In addition, if changes have been made to the preceding word, sentence or paragraph, for example, edits that include a cut-and-paste function, the translation engine will ensure that the translation into the target document includes such edits I can do it. To illustrate a translation in which changes to subsequent words in a sentence affect the translation of the previous word, translate the sentence fragment and the entire sentence after the word is added to the sentence fragment. Consider the following example of a French translation comparing to a translation. Input I: English: I am French: Je suis Input II: English: I am not French: Jene suis pas Therefore, if the translation was started from where the first sentence ended, ie, if the translation of the second input was started after "not", the French The translation will not be accurate. Because it would not reflect changes to be made in the structure of the verb of a sentence in French. Referring to FIG. 14, another embodiment of a process for automatically translating text input is shown. Similarly to the above, as shown in steps 320 and 322, the translation activation unit 21 detects the passage of time and starts counting from the initial value 208. In this embodiment, when a keyboard stroke is detected in step 324, step 325 is performed and the keyboard stroke represents an input function, a mouse click, a touch screen depress, or a pause. A determination is made as to whether it represents a function unrelated to the input of another input signal or input character stream. In this embodiment, depressing the enter key causes a pause in the occurrence of the input character stream, for example, when the user comes to the end of a paragraph and wants to add space between the last paragraph and a new paragraph. It may represent a pause. Similarly, a mouse click can occur, for example, when the user clicks on an icon to underline the following text, or clicks on text to perform a drag and drop function. It may represent a pause in the generation of the input character stream. Such actions may be interpreted by the translation trigger as allowing sufficient time for the translation of the input text to be performed. That is, in such an example, the translation activation unit 21 considers the keyboard stroke and the mouse click to be similar to a pause, and as shown in step 330, the user starts from the beginning of the document. Causes translation to be performed up to the point where it stopped, for example, up to the last word or letter typed in the document. Alternatively, as described above, only the text received immediately may be translated. It is important to note that in another embodiment of the present invention, translation initiator 21 may be configured such that the flowchart of FIG. 14 detects a positive request for translation. That is, in step 325, the system requests that the user, operator or system translate the document by pressing an enter key, clicking on an icon, depressing a touch screen or generating an input signal indicating a request for translation. Can be determined. In such an embodiment, a keyboard stroke or click on the translation icon results in automatic translation and retranslation of the text in the document. Referring again to step 324, where the detected keyboard stroke is other than an enter, mouse click, or other input as described above, step 326 is performed and the counter 202 is reset to the predetermined value 208. A determination may be made as to whether or not, if so, step 330 is performed and translation of the document is generated from the starting point. If the counter 202 has not reached the predetermined value, step 328 is performed, the counter is incremented, and steps 324 and 326 are repeated. Referring to FIG. 15, another embodiment of the present invention is shown, in which the translation initiating unit 21 detects the form of a sentence before starting to translate the input character stream. As described above, in step 420, the translation engine 16 has received the input character stream, and the translation activation unit 21 detects a pause. In step 422, translation activation unit 21 examines the character stream and determines that a sentence or sentence fragment (which may include, for example, a single character, a sequence of characters, a word, or a sequence of words) is output by the input character stream. It is determined whether it is formed. In this embodiment, if the sentence or sentence fragment has not yet been formed, the input character stream is awaited at step 423. When the input character stream is detected again, step 420 is executed, in which the translation activation unit 21 waits for a later time in the input character stream. If it is determined in step 422 that a sentence or sentence fragment has been formed, step 424 is performed in which a determination is made, whether actively or passively, that a keyboard stroke was detected. Done. If no keyboard stroke is detected, step 430 is executed and the document is translated from the beginning. If a keyboard stroke is detected in step 424, step 420 is executed where the translation activation unit 21 again waits for the passage of time in the input character stream. As indicated by the dashed line, the translation activating unit 21 performs an input such as an enter or mouse click indicating a function not related to the pause or the input of the input character stream, as described in FIG. May be determined in step 425 as needed. As above, by detecting such input, step 430 is performed where the translation is started from the beginning of the document, or from the beginning of the document, such as from the first character of the immediately received text. Be executed. In another embodiment, the translation activation unit 21 of the present invention may determine in step 422 whether a recognizable word in the source language has been generated. In this embodiment, a recognizable word, eg, “an”, which is not the English word “av”, results in a positive determination and proceeds to step 424. In the case of an unrecognizable word such as "av", the translation activation unit 21 waits for an additional character in step 423, for example, when the user continues to type and a word such as "avenue" is generated. It may be determined whether an occurrence has occurred. Alternatively, the translation trigger may recognize in step 422 a character or word that occurs after the unrecognizable character or word, such as when a correctly entered character or word is followed by a typo. It can be determined whether there is. In another embodiment, translation initiator 21 may determine in step 424 whether a paragraph was formed by the input character stream. In such an embodiment, translation engine 14 performs the translation operation only after the input character stream has generated paragraphs. Referring to FIG. 13C, there is shown an example of the translation system of the present invention, in which the translation initiating unit 21 detects whether a complete sentence has been typed during the elapse of typing, and It is only configured to translate. As shown in this embodiment, the sentence containing paragraph 254 is a complete sentence and has been translated. However, the sentence fragment 256 "This should not be delay the ..." has not been translated yet. This is because these words have been determined by the translation engine 16 to include only sentence fragments. Referring now to FIG. 16, one embodiment of the present invention is shown, which includes the concept of determining whether a predetermined count value 280 has been reached, and whether a sentence is formed by the input character stream. Are combined. Similarly to the above description, the translation activation unit 21 waits for the passage of time in the input character stream in step 520, and starts counting from the initial value 280 in step 522. Next, the translation activation unit 21 determines whether the keyboard stroke has been passively or actively detected in step 524, and if so, step 520 is executed again, and Wait for time in the character stream. If no keyboard stroke is detected, a determination is made at step 526 as to whether counter 202 has reached predetermined value 208. If counter 202 has not yet counted such a value 280, step 528 is performed again and steps 524 and 526 are repeated. When it is determined that the counter 202 has reached the predetermined value 208, step 529 is executed, where the translation activation unit 21 determines whether the input character stream forms at least one sentence. When the input character stream does not form a sentence, step 532 is performed where an additional stream of input text data is awaited. Once an additional input character stream is detected, control returns to step 522 where the translation activation unit 21 waits for a later time in the input character stream, and steps 522 through 529 are executed again. If it is determined in step 529 that the character stream forms a sentence, step 530 is performed and the document is translated from the starting point. It should be understood that in other embodiments of the invention, step 529 may detect a word, sentence fragment, or paragraph before translating the formation of the input text. The automatic translation and retranslation system of the present invention can be used as a language learning tool to help people become fluent in the source language for learning the target language. For example, as shown in FIGS. 13A-13C, a person fluent in English can easily use the translation system of the present invention to learn Japanese. As indicated above, a user at a computer workstation equipped with a display monitor may type a single word or multi-word sentence to provide automatic translation of the typed word on a display screen. You can see. In addition, as the user continues to type, he can see possible changes in translation of preceding words due to grammatical and other structural effects. The system of the present invention provides a translation from one source language to multiple target languages, eg, English to Japanese and English to Korean, or English to Japanese, for the user to watch together. It is even more important to note that a translation from Japanese to Korean can be configured. Further, the system of the present invention is temporary in its relevance, applicability, or format for important or urgent messages that need to be communicated to, for example, many network users in many different countries. It can be used to translate computer-generated natural language text. In such an example, the system of the present invention translates the message into one or more languages as the message is being generated so that the message can be quickly reached and understood by the relevant user. Can be used to make The invention also finds application in Internet-related applications, such as instant messaging, e-mail, web pages, bulletin boards, and Internet chat rooms, to name a few, for illustrative purposes. Can be used for However, it should be understood that many other applications are within the scope of the present invention. All of the above functions and operations may be implemented by various hard-wired circuit designs and / or by programming techniques for use on general-purpose computers. The steps as shown in the flowchart need not generally be applied in the order shown, but may be combined in any combination of steps. Similarly, the functionality of the system can be distributed among programs and data in various ways. Further, it may be advantageous to develop grammar and other rules of operation in one or more high-level languages, while providing them to the end user in a compiled format. Any embodiment of the automated natural language translation system described herein, including all of the features described herein, may be implemented on a general-purpose computer (e.g., Apple Macintosh, IBM PC or the like). (Computer, Sun workstation, etc.) may be provided as computer software on a computer readable medium, such as a diskette or optical compact disc (CD). Those skilled in the art can devise alterations, modifications, and other implementations of what is described herein without departing from the spirit and scope of the invention, which is set forth in the following claims. be able to. Accordingly, the invention is to be defined not by the preceding illustrative description but by the spirit and scope of the following claims.

【手続補正書】 【提出日】平成12年2月21日(2000.2.21) 【補正内容】 請求の範囲 1.自動自然言語翻訳システムであって、以下: メモリ・モジュール、 該メモリ・モジュールと通信する受信モジュールであって、ソース自然言語で の入力テキスト情報を受信し、そして該入力テキスト情報を該メモリ・モジュー ルの中に格納する、受信モジュール、 該受信モジュールと通信する翻訳エンジンであって、該メモリ・モジュールに アクセスし、そして該ソース自然言語での該入力テキスト情報を標的自然言語で の出力テキスト情報に翻訳する、翻訳エンジン、ならびに、 該受信モジュールと通信する処理モジュールであって、該受信モジュールが入 力テキスト情報を受信していないことを該処理モジュールが決定するときに、該 格納されている入力テキスト情報を翻訳するように該翻訳エンジンに対して命令 信号を自動的に送信する、処理モジュール、 を含むシステム。 2.請求項1に記載のシステムであって、前記ソース自然言語が英語であり、そ して該標的自然言語が日本語である、システム。 3.請求項1に記載のシステムであって、前記受信モジュールと通信し、前記ソ ース言語での入力テキスト情報を提供するユーザデバイスをさらに含む、システ ム。 4.請求項3に記載のシステムであって、ユーザが前記ユーザデバイスを使って 前記ソース言語での文書を作成しているときに、前記受信モジュールが該ユーザ デバイスから入力テキスト情報を受信するシステム。 5.請求項3に記載のシステムであって、前記ユーザデバイスが、コンピュータ ・キーボード、マウス、タッチスクリーン、または音声活性化送信機のうちの 少なくとも1つを含む、システム。 6.請求項に記載のシステムであって、該受信モジュールが文字でない入力を 表す信号を受信したことを判定することによって、 前記処モジュールが前記受 信モジュールが入力テキスト情報を受信していないことを判定 する、システム。 7.請求項に記載のシステムであって、該受信モジュールがマウスのクリック を表す信号を受信したことを判定することによって、 前記処モジュールが前記 受信モジュールが入力テキスト情報を受信していないことを判定 する、システム 。 8.請求項1に記載のシステムであって、該受信モジュールが所定の期間入力テ キスト情報を受信していないことを判定することによって、 前記処モジュール が前記受信モジュールが入力テキスト情報を受信していないことを判定する、シ ステム。 9.請求項1に記載のシステムであって、前記翻訳エンジンと通信して、前記ソ ース言語での前記入力テキスト情報および前記標的言語での前記出力テキスト情 報を表示するディスプレイをさらに含む、システム。 10.請求項に記載のシステムであって、前記処理モジュールが、カウント値 が前記所定の期間に等しくなるまで、該カウント値を増加するためのカウンタを 、さらに含む、システム。 11.請求項10に記載のシステムであって、前記受信モジュールが入力テキス ト情報を受信するときに、前記カウンタがリセットされる、システム。 12.請求項1に記載のシステムであって、前記翻訳エンジンが、前記指示信号 の送信時に先立って、前記受信モジュールによって受信された入力テキスト情報を翻 訳する、システム。 13.請求項1に記載のシステムであって、前記入力テキスト情報が入力デバイ スから送信される文字のストリームを含む、システム。 14.請求項に記載のシステムであって、前記翻訳エンジンに対して前記指示 信号を送信する前に、前記所定の期間に等しい、前記入力テキスト情報における 時間経過の存在を判定することによって、前記処理モジュールが前記受信モジュ ールがテキスト情報を受信していない場合を判定する、システム。 15.文字ストリームの自然言語翻訳を自動的に実行する方法であって、以下の ステップ: 複数の文字を含んでいるソース言語での第一の文字ストリームをユーザデバイ スから受信するステップ、 該第一の文字ストリームの受信において時間経過が存在するか否かを判定する ステップであって、該時間経過の間に文字は全く受信されない、ステップ、およ 時間経過が存在する場合、ソース言語から標的言語へ該第一の文字ストリ ームの部分を翻訳するステップ、 を包含する、方法。 16.請求項15に記載の方法であって、以下のステップ: 前記時間経過が所定の期間に等しいかどうかを判定するステップ、および 時間経過が所定の期間に等しい場合、前記第一の文字ストリームの中の最 初の文字から始めて、前記ソース言語から前記標的言語へ該第一の文字ストリー ムを翻訳するステップ、 をさらに包含する、方法。 17.請求項16に記載の方法であって、前記所定の期間が約0.3秒〜2秒の 範囲内にある、方法。 18.請求項15に記載の方法であって、前記第一の文字ストリームが前記ソー ス言語での少なくとも1つの単語を含む、方法。 19.請求項15に記載の方法であって、前記第一の文字ストリームが前記ソー ス言語での少なくとも1つの文を含む、方法。 20.請求項15に記載の方法であって、以下のステップ: コンピュータ・キーボードを使って前記第一の文字ストリームを発生するステ ップ、および 前記ソース言語での該第一の文字ストリームおよび前記標的言語での前記翻 訳された文字ストリームをコンピュータ・モニタ上で表示するステップ、 をさらに包含する、方法。 21.自動自然言語翻訳システムであって、以下: 受信モジュールであって、ユーザワークステーションとインターフェースし、 かつ該ユーザワークステーションにおいてユーザによって発生されたソース言語 での文字ストリームを受信する受信モジュール、 該受信モジュールと通信する処理モジュールであって、該文字ストリームにお ける文字の受信において時間経過が存在するかどうかを判定する処理モジュー ル、および 該処理モジュールと通信する翻訳モジュールであって該時間経過が存在する ときに 該ソース言語での該文字ストリームを該標的言語での文字ストリームへ 動的に 翻訳し、そして該翻訳された文字ストリームを該ユーザに送信する、翻訳 モジュール 含むシステム。22.請求項1に記載のシステムであって、前記受信モジュールが、以前に前記 標的自然言語に翻訳された入力テキストを受信する、システム。 23.請求項1に記載のシステムであって、前記受信モジュールが以前に受信し た入力テキストに対して修正を生じさせる入力テキストを受信する、システム。 24.請求項15に記載の方法であって、以下のステップ: メモリ・デバイス上に前記ソース言語における前記第一の文字ストリームを格 納するステップ、 前記ユーザーデバイスから、該ソース言語における複数の文字を含む第二の文 字ストリームを受信するステップ、および 該第二の文字ストリームが、該第一の文字ストリームの少なくとも一部を改変 する場合に、該第一の文字ストリームの少なくと一部を再翻訳するステップ、 をさらに包含する、方法。 25.請求項24に記載の方法であって,以下のステップ: 前記第一の文字ストリームと、前記第二の文字ストリームとを比較して、該第 二の文字ストリームの少なくとも一部が新たに受信したテキストを含むかどうか を判定するステップ、および 新たに受信したテキストを含む該第二の文字ストリームの部分を前記標的言語 に翻訳するステップ、 をさらに包含する、方法。 26.請求項24に記載の方法であって、前記第二の文字ストリームを、前記標 的自然言語に翻訳するステップをさらに包含する、方法。 27.請求項20に記載の方法であって、前記文字ストリームを表示するステッ プが、前記標的言語における文字の各々が生成されるときに前記翻訳された文字 ストリームを表示することを包含する、方法。 28.請求項8に記載の方法であって、前記所定の期間が、0.3秒〜1秒の範 囲内である、方法。 [Procedure for Amendment] [Date of Submission] February 21, 2000 (2000.2.21) [Content of Amendment] Claims 1. An automatic natural language translation system, comprising: a memory module, a receiving module communicating with the memory module, receiving input text information in a source natural language, and transmitting the input text information to the memory module. A receiving module for storing therein, a translation engine communicating with the receiving module, accessing the memory module and converting the input text information in the source natural language into output text information in a target natural language. translation, translation engine, as well as a process module in communication with the receiving module, when the processing module determines that the reception module is not Tei receives input text information input that is the stored automatically send a command signal to the translation engine to translate the text information To include the processing module, the system. 2. The system of claim 1, wherein the source natural language is English and the target natural language is Japanese. 3. The system of claim 1, further comprising a user device in communication with the receiving module and providing input text information in the source language. 4. A system according to claim 3, when the User chromatography THE is creating a document in the source language with the user device, wherein the reception module receives the input text information from the user device, system. 5. The system of claim 3, wherein the user device comprises at least one of a computer keyboard, mouse, touch screen, or voice activated transmitter. 6. A system according to claim 1, by determining that it has received a signal representative of the input said receiving module is not a character, that the processing module is not receiving the input text information is the reception module The system that determines 7. A system according to claim 1, by determining that the receiving module receives a signal representative of a mouse click, in that the processing module is not receiving the input text information is the receiving module The system to judge . 8. A system according to claim 1, by determining that the receiving module does not receive the predetermined period input text information, the processing module has not received the reception module input text information to determine that there is no system. 9. The system of claim 1, further comprising a display in communication with the translation engine to display the input text information in the source language and the output text information in the target language. 10. The system of claim 8 , wherein the processing module further comprises a counter for increasing the count value until the count value equals the predetermined time period. 11. The system of claim 10, wherein the counter is reset when the receiving module receives input text information. 12. A system according to claim 1, wherein the translation engine, prior to the time of transmission of the instruction signal, transliteration for translation of input text information received by the receiving module, system. 13. The system of claim 1, wherein the input text information comprises a stream of characters transmitted from an input device. 14. The system of claim 8, prior to transmitting the pre-Symbol the instruction signal to the translation engine, equal to said predetermined time period, by determining the presence of a time in the input text information, wherein The system wherein the processing module determines if the receiving module has not received text information. 15. The natural language translation of a character stream to a method of automatically executing the following steps: a first step of receiving a character stream from a user device in the source language including a plurality of characters, said first character a determining whether time elapsed present in the receiving stream, characters are not at all received during the course said time, step, if and the time is present, whether the source language including the step, the translating portion of Luo into target language of the first character stream, the method. 16. The method of claim 15, comprising the steps of: if the time lapse determining whether equal to a predetermined time period, and the time elapsed is equal to the predetermined time period, said first character stream the first beginning character, further comprising the step of translating the first text stream into the target language from the source language, the method in the. 17. 17. The method of claim 16, wherein the predetermined time period is in a range between about 0.3 seconds and 2 seconds. 18. The method of claim 15, wherein the first stream of characters comprises at least one word in the source language. 19. The method of claim 15, wherein the first character stream comprises at least one sentence in the source language. 20. The method of claim 15, the following steps: in step with the computer keyboard to generate the first character stream, and the first character stream in the source language, and said target language further comprising, a method of the step of displaying the translated text stream on a computer monitor, a. 21 . A automatic natural language translation system, comprising: a receiving module, and the user workstation and the interface, and receives the character stream in the source language which is generated by the user in the user workstation, the receiving module, the A processing module communicating with a receiving module, the processing module determining whether there is a time lapse in receiving a character in the character stream, and a translation module communicating with the processing module, wherein the time lapse is determined. the character stream in the source language when present to a character stream with said target language automatically translated and transmits the character stream that was the translation to the user, including the translation module, the system. 22. The system of claim 1, wherein the receiving module receives input text previously translated into the target natural language. 23. The system of claim 1, wherein the receiving module receives input text that causes a modification to previously received input text. 24. The method of claim 15, the following steps: step of the first character stream in said source language on a memory device to store, from the user device, including a plurality of characters in the source language receiving a second character stream, and said second character stream, retranslation when modifying at least a portion of said first character stream, the least part of said first character stream further comprising the method steps, a to. 25. 25. The method according to claim 24, comprising : comparing the first character stream with the second character stream, wherein at least a portion of the second character stream is newly received. the step of translating determining whether to include text, and the portion of the second character stream containing newly received text to the target language further includes a method. 26. The method of claim 24, further comprising the step of the second character stream, translating the target specific natural language, method. 27. The method of claim 20, steps of displaying the character stream, said involves displaying the translated text stream, the method when each character in the target language is generated. 28. The method of claim 8, wherein the predetermined period is within the limits of 0.3 to 1 second method.

Claims (1)

【特許請求の範囲】 1.自動自然言語翻訳システムであって、以下: メモリ・モジュール、 該メモリ・モジュールと通信して、ソース自然言語での入力テキスト情報を受 信し、そして該入力テキスト情報を該メモリ・モジュールの中に格納する、受信 モジュール、 該受信モジュールと通信し、該メモリ・モジュールにアクセスし、そして該ソ ース自然言語での該入力テキスト情報を標的自然言語での出力テキスト情報に翻 訳する、翻訳エンジン、ならびに、 該受信モジュールと通信し、該受信モジュールが所定の期間の間に入力テキス ト情報を受信しなかった場合を判定し、そして該格納されている入力テキスト情 報を翻訳するように該翻訳エンジンに対して命令信号を送信する、処理モジュー ル、 を含むシステム。 2.請求項1に記載のシステムであって、前記ソース自然言語が英語であり、そ して該標的自然言語が日本語である、システム。 3.請求項1に記載のシステムであって、前記受信モジュールと通信し、前記ソ ース言語での入力テキスト情報を提供するユーザデバイスをさらに含む、システ ム。 4.請求項3に記載のシステムであって、前記受信モジュールがユーザが前記ユ ーザデバイスを使って前記ソース言語での文書を作成しているときに、該ユーザ デバイスから入力テキスト情報を受信するシステム。 5.請求項3に記載のシステムであって、前記ユーザデバイスが、コンピュータ ・キーボード、マウス、タッチスクリーン、または音声活性化送信機のうちの 少なくとも1つを含む、システム。 6.請求項5に記載のシステムであって、前記コンピュータ・キーボード上でエ ンター・キーの押下げを表す信号を前記受信モジュールが受信したことの判定が 行われる場合に、前記処理モジュールが前記指示信号を送信する、システム。 7.請求項6に記載のシステムであって、前記受信モジュールが前記マウスのク リックを表す信号を受信したことの判定が行われる場合に、前記指示信号を前記 処理モジュールが送信する、システム。 8.請求項1に記載のシステムであって、前記所定の期間が0.3秒〜1秒の範 囲内にある、システム。 9.請求項1に記載のシステムであって、前記翻訳エンジンと通信して、前記ソ ース言語での前記入力テキスト情報および前記標的言語での前記出力テキスト情 報を表示するディスプレイをさらに含む、システム。 10.請求項1に記載のシステムであって、前記処理モジュールが、カウント値 が前記所定の期間に等しくなるまで、該カウント値を増加するためのカウンタを 、さらに含む、システム。 11.請求項10に記載のシステムであって、前記受信モジュールが入力テキス ト情報を受信する場合に、前記カウンタがリセットされる、システム。 12.請求項1に記載のシステムであって、前記翻訳エンジンが、前記指示信号 の送信時に先立って、前記受信モジュールによって受信された入力テキスト情報 を、翻訳する、システム。 13.請求項1に記載のシステムであって、前記入力テキスト情報が入力デバイ スから送信される文字のストリームを含む、システム。 14.請求項1に記載のシステムであって、前記処理ユニットが、前記翻訳エン ジンに対して前記指示信号を送信する前に、前記所定の期間に等しい、前記入力 テキスト情報における時間経過の存在を判定することによって、前記受信モジュ ールがテキスト情報を受信していない場合を判定する、システム。 15.文字ストリームの自然言語翻訳を自動的に実行する方法であって、 複数の文字を含んでいるソース言語での文字ストリームをユーザデバイスから 受信するステップ、 前記文字ストリームの受信において時間経過が存在するか否かを判定するステ ップであって、該時間経過の間に前記文字ストリームは受信されない、ステップ 、 前記時間経過が存在する場合、前記ソース言語から前記標的言語へ前記文字ス トリームを翻訳するステップ、 を含む方法。 16.請求項15に記載の方法であって、以下の工程: 前記時間経過が所定の期間に等しいかどうかを判定するステップ、および 前記時間経過が前記所定の期間に等しい場合、前記文字ストリームの中の最初 の文字から始めて、前記ソース言語から前記標的言語へ該文字ストリームを翻訳 するステップ、 をさらに含む方法。 17.請求項16に記載の方法であって、前記所定の期間が約0.3秒〜2秒の 範囲内にある、方法。 18.請求項15に記載の方法であって、前記文字ストリームが前記ソース言語 での少なくとも1つの単語を含む、方法。 19.請求項15に記載の方法であって、前記文字ストリームが前記ソース言語 での少なくとも1つの文を含む、方法。 20.請求項15に記載の方法であって、以下の工程: コンピュータ・キーボードを使って前記文字ストリームを発生するステップ、 前記ソース言語での該文字ストリームおよび前記標的言語での前記翻訳された 文字ストリームをコンピュータ・モニタ上で表示するステップ、 をさらに含む方法。 21.言語学習システムにおける自動自然言語翻訳システムであって、 ユーザワークステーションとインターフェースし、かつ該ユーザワークステー ションにおいてユーザによって発生されたソース言語での文字ストリームを受信 する受信モジュール、 該受信モジュールと通信し、該文字ストリームにおける文字の受信から、ある 時間が経過したかどうかを判定する処理モジュール、 該処理モジュールと通信し、該ソース言語での該文字ストリームを該標的言語 での文字ストリームへ翻訳する翻訳モジュール、ならびに 該翻訳された文字ストリームを該ユーザワークステーションへ送信する送信モ ジュール、 を含むシステム。[Claims] 1. An automatic natural language translation system, comprising:   Memory modules,   Communicates with the memory module to receive input text information in a source natural language. Receiving and storing the input text information in the memory module module,   Communicate with the receiving module, access the memory module, and Translates the input text information in source natural language into output text information in target natural language. A translation engine, and   Communicate with the receiving module so that the receiving module inputs text during a predetermined time period; The received input text information is determined. A processing module for sending a command signal to the translation engine to translate the information. Le Including the system. 2. 2. The system of claim 1, wherein the source natural language is English, and the source natural language is English. The target natural language is Japanese. 3. The system of claim 1, wherein the system communicates with the receiving module, and System further comprising a user device providing input text information in a source language. M 4. 4. The system according to claim 3, wherein the receiving module allows a user to access the user. When creating a document in the source language using a user device, A system that receives input text information from a device. 5. The system of claim 3, wherein the user device is a computer. ・ Keyboard, mouse, touch screen, or voice activated transmitter A system comprising at least one. 6. 6. The system of claim 5, wherein the computer keyboard has Determination that the receiving module has received a signal indicating that the The system, wherein when performed, the processing module sends the indication signal. 7. 7. The system according to claim 6, wherein the receiving module is a mouse click. When it is determined that a signal indicating a click has been received, the instruction signal is A system sent by a processing module. 8. 2. The system according to claim 1, wherein the predetermined period is in a range of 0.3 second to 1 second. The system in the enclosure. 9. The system of claim 1, wherein the system communicates with the translation engine to communicate with the translation engine. The input text information in the source language and the output text information in the target language. The system further comprising a display for displaying information. 10. 2. The system according to claim 1, wherein the processing module comprises a count value. Until is equal to the predetermined period, a counter for increasing the count value , And further, the system. 11. 11. The system according to claim 10, wherein the receiving module has an input text. The system resets the counter when receiving network information. 12. 2. The system according to claim 1, wherein the translation engine generates the instruction signal. Input text information received by the receiving module prior to sending To translate the system. 13. 2. The system according to claim 1, wherein the input text information is an input device. System that contains a stream of characters sent from the source. 14. 2. The system according to claim 1, wherein the processing unit comprises the translation engine. Before transmitting the instruction signal to the gin, the input is equal to the predetermined period. By determining the presence of a time lapse in text information, the receiving module System that determines when the text information has not been received by the tool. 15. A method for automatically performing a natural language translation of a character stream,   A character stream in the source language containing multiple characters from the user device Receiving,   A step of determining whether a lapse of time exists in receiving the character stream. Step, wherein the character stream is not received during the time lapse. ,   If the time lapse is present, the character language is converted from the source language to the target language. Translating the trim, A method that includes 16. 16. The method according to claim 15, comprising the following steps:   Determining whether the time lapse is equal to a predetermined period; and   If the time lapse is equal to the predetermined time period, the first in the character stream Translating the character stream from the source language to the target language, starting with Step to do, A method further comprising: 17. 17. The method of claim 16, wherein the predetermined time period is between about 0.3 seconds and 2 seconds. A method that is in range. 18. The method of claim 15, wherein the character stream is the source language. At least one word in the method. 19. The method of claim 15, wherein the character stream is the source language. At least one sentence in the method. 20. 16. The method according to claim 15, comprising the following steps:   Generating said character stream using a computer keyboard;   The character stream in the source language and the translated in the target language Displaying the character stream on a computer monitor; A method further comprising: 21. An automatic natural language translation system in a language learning system,   Interface with a user workstation and the user workstation Receives a character stream in the source language generated by the user in the application Receiving module,   Communicating with the receiving module, receiving from a character in the character stream, A processing module for determining whether time has elapsed,   Communicating with the processing module to convert the character stream in the source language to the target language Translation module for translating into a character stream in   A transmission module for transmitting the translated character stream to the user workstation. Jules, Including the system.
JP50236899A 1997-06-09 1998-01-14 Automatic translation and retranslation system Pending JP2002512717A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/US1997/010005 WO1997048058A1 (en) 1996-06-14 1997-06-09 Automated translation of annotated text
WO97/10005 1997-06-09
PCT/US1998/000729 WO1998057271A1 (en) 1997-06-09 1998-01-14 Automatic translation and retranslation system

Publications (1)

Publication Number Publication Date
JP2002512717A true JP2002512717A (en) 2002-04-23

Family

ID=22261056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50236899A Pending JP2002512717A (en) 1997-06-09 1998-01-14 Automatic translation and retranslation system

Country Status (2)

Country Link
JP (1) JP2002512717A (en)
WO (1) WO1998057271A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069160A1 (en) * 2004-01-19 2005-07-28 Kabushiki Kaisha Toshiba Translation device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882681A (en) * 1987-09-02 1989-11-21 Brotz Gregory R Remote language translating device
DE4422545A1 (en) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start / end point detection for word recognition
US5987402A (en) * 1995-01-31 1999-11-16 Oki Electric Industry Co., Ltd. System and method for efficiently retrieving and translating source documents in different languages, and other displaying the translated documents at a client device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069160A1 (en) * 2004-01-19 2005-07-28 Kabushiki Kaisha Toshiba Translation device

Also Published As

Publication number Publication date
WO1998057271A1 (en) 1998-12-17

Similar Documents

Publication Publication Date Title
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6760695B1 (en) Automated natural language processing
US5528491A (en) Apparatus and method for automated natural language translation
Bates Models of natural language understanding.
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
Trujillo Translation engines: techniques for machine translation
AU2004201089B2 (en) Syntax tree ordering for generating a sentence
JP2006164293A (en) Automatic natural language translation
JP2003050797A (en) Scaleable machine translation system
WO2002039318A1 (en) User alterable weighting of translations
Carbonell et al. The kant perspective: a critique of pure transfer (and pure interlingua, pure statistics,..)
WO2003079224A1 (en) Text generation method and text generation device
Jain et al. Codeswitched sentence creation using dependency parsing
Zaenen et al. Language analysis and understanding
JP2001503540A (en) Automatic translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
Keenan Large vocabulary syntactic analysis for text recognition
JP2002512717A (en) Automatic translation and retranslation system
Jusoh et al. Automated translation machines: Challenges and a proposed solution
JP3743711B2 (en) Automatic natural language translation system
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Adams Dependency parsing and dialogue systems: an investigation of dependency parsing for commercial application
Badawi The Effectiveness of Natural Language Processing (Nlp) as a Processing Solution and Semantic Improvement
Narayan et al. Pre-Neural Approaches
Tajalli et al. Developing an Informal-Formal Persian Corpus