JP2001515616A - Automatic natural language translation - Google Patents

Automatic natural language translation

Info

Publication number
JP2001515616A
JP2001515616A JP53802197A JP53802197A JP2001515616A JP 2001515616 A JP2001515616 A JP 2001515616A JP 53802197 A JP53802197 A JP 53802197A JP 53802197 A JP53802197 A JP 53802197A JP 2001515616 A JP2001515616 A JP 2001515616A
Authority
JP
Japan
Prior art keywords
natural language
translation
text information
input text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP53802197A
Other languages
Japanese (ja)
Other versions
JP3680865B2 (en
Inventor
エイ. エイカーズ,グレン
▲あきら▼ 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Logovista Corp
Original Assignee
Logovista Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Logovista Corp filed Critical Logovista Corp
Publication of JP2001515616A publication Critical patent/JP2001515616A/en
Application granted granted Critical
Publication of JP3680865B2 publication Critical patent/JP3680865B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 ソース自然言語のテキスト文(好適には日本語)を受信し、目的自然言語(好適には英語)に翻訳する自動自然言語翻訳システム。また、このシステムを使用することにより、オペレータはソーステキストの選択した部分を自動的に再度翻訳することができる。本システムは、ソーステキストに含まれる「かな」を目的言語のアルファベット文字に変換し、語句やフレーズの区切りの存在を「かな」のあいだに認識させることを目的とする改良を含む。さらに、本システムは、ソーステキストに形態素解析と統語解析を同時に実行することを含むいくつかの改良を含む。 (57) [Summary] An automatic natural language translation system that receives a text sentence (preferably Japanese) of a source natural language and translates it into a target natural language (preferably English). The system also allows the operator to automatically re-translate selected portions of the source text. The system includes an improvement that converts "kana" included in the source text into alphabetic characters of the target language and recognizes the presence of a phrase or phrase delimiter between "kana". In addition, the system includes several improvements, including performing morphological and syntactic analysis simultaneously on the source text.

Description

【発明の詳細な説明】 自動自然言語翻訳 関連出願への相互参照 本出願は、1992年8月31日に米国特許商標庁に出願された米国特許出願第 07/938,413号の一部継続出願である。本出願はまた、1996年4月 23日に特許協カ条約(PCT)を通して米国受理官庁に出願された、対象国を米 国と日本とする国際特許出願PCT/US96/05567号の一部継続出願で ある。PCT/US96/05567号自体も米国特許出願第07/938,4 13号の一部継続出願である。 技術分野 本発明は、ある自然言語から他の自然言語への、好適には日本語から英語に翻 訳するための自動自然言語翻訳に関する。 背景情報 自然言語の機械翻訳については種々の方式が提案されてきた。通常、翻訳に使 用されるシステムは、ある言語での入力を受信し、その受信した入力を処理し、 他の言語で出力するコンピュータを含む。このタイプの翻訳は従来正確なもので はなく、そのために、熟練したオペレータが出力結果にかなり手を加えなければ ならない。従来のシステムによる翻訳作業は、一般に構造変換操作を含む。この 構造変換の目的は、ソース言語の文の解析ツリー(すなわち、構文構造ツリー) を目的言語に対応するツリーに変換することである。現在まで二つのタイプの構 造変換方式が試みられてきた。すなわち、文法に基づく変換と、テンプレート間 の変換である。 文法に基づく変換の場合には、構造変換の領域は、ソース言語の解析ツリー( すなわち、与えられたノードの直接のこどもであるサブノードの集合)を得るた めに使用される文法規則の領域に限定される。例えば、次の式があるとき VP=VT01+NP (動詞句は、目的語が一つの他動詞と、名詞句 がこの順序で並んでいる。) そして、日本語は、1+2=>2+1 (VT01とNPの順序が逆になって いる。) 規則の適用を含むソース言語の解析ツリーは、構造的には動詞と目的語の順序 が反対になるように変換される。日本語では動詞は目的語のあとに来るからであ る。この方法は、ソース言語の解析ツリーを得るために規則が使用された場所で 正確に適用され、特定の変換が行われた場所をすぐ見つけることができるという 点で非常に効率的である。一方、上に述べたように、その領域が大幅に制限され ているという点、また自然言語は、こどもではないノードにまたがるような変換 規則を必要とする場合があるという点で、変換機構としては弱いものである。 テンプレート間の変換では、構造変換は、入出力(I/O)テンプレートまた はサブツリーの形で指定される。ある入力テンプレートがある構造ツリーと一致 した場合には、そのテンプレートと一致する構造ツリー部分が、対応する出力テ ンプレートで指定された通りに変換される。これは非常に強力な変換機構である が、与えられた入力テンプレートが、存在する構造ツリーのどの部分と一致する かを見つけるのにかなりの時間がかかり、処理コストが高くなることがある。 発明の概要 本発明の自動自然言語翻訳システムは、従来の機械翻訳装置と比較すると多く の利点を持つ。システムが、自動的に入力テキスト情報の可能で最も適切な翻訳 を提供しユーザにその出力(好適には、英語の入力テキストの日本語訳)を供給 した後で、ユーザは、表示された翻訳結果に手を入れるために、または自動的に 他の翻訳を入手するために、このシステムと対話することができる。本発明の自 動自然言語翻訳システムを操作する人は、これでいいと判断した翻訳の結果の部 分はそのまま保持しながら、残りの部分を自動的に再翻訳させることができる。 この選択的な再翻訳を行うことにより、再翻訳を必要とする部分に対してのみ翻 訳が行われるので、操作する人は時間を節約することができ、潜在的に多くの不 正確な部分はあるとしても、翻訳としては非常に質の高い部分を検討するという 退屈な仕事を手短かに済ますことができる。さらに、このシステムでは、種々の 翻訳調整を行うことができるので、通常は、翻訳の最終構造の多くがシステムに よって作成される。したがって、このシステムを使用することにより、人間(オ ペレータ)による潜在的なミスを少なくし、文の構造、人称や時制の一致の変更 などの手直しに要する時間が節約できる。このシステムはオペレータに広範囲で 正確な文法とスペルに関する知識を提供できるようになっている。 本発明の自動自然言語翻訳システムは、ソース言語に含まれる文章の区切りの さまざまな曖昧性処理と、強力な意味伝達機能により、翻訳文はさらに正確なも のになり、オペレータの翻訳の手直しに要する時間が短くてすむようになる。特 定のユーザの好みに合わせてシステムが記憶していく学習統計情報によっても、 翻訳の質はさらに改善される。本システムの熟語処理方法は、熟語を構成する語 句を含んでいる文があるとき、熟語そのものの意味を考えることなく、正確に訳 すことができるという利点を持つ。本システムは効率的であるばかりでなく、関 連の低い特性を一致させるという多様な機能を持つ。本システムの構造バランス エキスパートおよび同格構造エキスパートは、目的とする解析と目的としない解 析とを効率的に見分ける。大文字エキスパートは、効率的に文中の大文字の単語 を正確に解釈し、大文宇列手順は、普通名詞としての解釈を完全には無視しない で、複合語の固有名詞を効率的に処理する。 ある観点から見た場合、本発明は、自動自然言語翻訳システムの改良に関する ものであり、この場合、この改良は、入力テキスト情報に含まれる少なくともい くつかの「かな」を目的自然言語(好適には英語)のアルファベット文字に変換 することによって、語句やフレーズの境界が「かな」のあいだに認識されるよう に、ソース自然言語(好適には日本語)の入力テキスト情報の解析に関する。入 力テキスト情報には、「漢字」と「かな」が含まれる。「漢字」は意味をもつ表 意文字であり、「かな」は固有の意味は有しない単なる音を表わす表音文字であ る。ソース自然言語は表意文字と表音文字の両方を使う言語であるが、日本語に 見られるように、単語やフレーズの区切りは付加されていない。 他の観点から見ると、本発明は、自動自然言語翻訳システムのもう一つの改良 に関する。その改良というのは、入力テキスト情報に、形態素解析と統語解析を 同時に行うことにより、ソース自然言語(好適には日本語、韓国語、中国語)に 含まれる入力テキスト情報を解析することに関する。ソース自然言語は、日本語 、韓国語、中国語のように、単語やフレーズに区切りが記されていない言語であ る。 本発明の上記および他の目的、特色、特徴および利点は、以下の説明と請求の 範囲を読めば明らかになる。 図面の簡単な説明 各図中、同じ参照番号は、一般的に、別の図面であっても同じ部品を示す。ま た図面は必ずしも同一の縮尺ではなく、一般的に本発明の原理を説明することに 重点を置いている。 図1は、自然言語の自動翻訳を行うシステムのブロック図である。 図2は、図1のシステムの全体的な機能を示すデータのフローチャートである 。 図3は、図1のシステムの動作を示すフローチャートである。 図4は、図1のシステムのプリパーサーの文末認定機能の動作を示すフローチ ャートである。 図5は、図1のシステムのパーサーの動作を示すフローチャートである。 図6は、図1のシステムの意味伝達の動作を示すフローチャートである。 図7は、図1のシステムの構造変換の動作を示すフローチャートである。 図8は、図1のシステムのエキスパート評価子のフローチャートである。 図9は、例示としてのフレーズ「by the bank」に対して、図1のシステムが 使用するサンプル・グラフである。 図10は、本発明の一つの局面による、入力テキストの「かな」を、語句やフ レーズの境界の存在が「かな」のあいだに認識されるようにアルファベット文字 に変換するシステムの図である。 図11は、本発明のもうひとつの局面による、入力テキストに形態素解析と統 語解析を同時に行うシステムの図である。 発明の説明 最初に、図面を参照しないで、本発明の自動自然言語翻訳システムの概要を説 明する。この概要説明の後で、図面を参照して説明する。 自動自然言語翻訳システムは、ソース自然言語を目的自然言語に翻訳すること ができる。ひとつの好適な具体例として、上記システムは英語を日本語に翻訳す る。もうひとつの好適な具体例として、上記システムは、日本語を英語に翻訳す る。上記システムは、ソース自然言語を受信し記憶する手段と;目的自然言語へ の翻訳を作成する翻訳エンジンと;ユーザに翻訳結果を表示するための手段と; ユーザに対して別の翻訳結果を提供し表示するための手段とを含む。このシステ ムの具体例としては、翻訳エンジンは、プリパーサー、パーサー、グラフ作成装 置、評価子、グラフ・スコアラ、文法構造抽出装置および構造変換装置を含む。 プリパーサーは、入力テキストを検査し、入力文の文末認定の曖昧な箇所を解析 する。その後、プリパーサーは、辞書の見出し語を含む解析チャートで、入力テ キストを作成し表示する。パーサーは、入力テキストに対する可能な構文の分類 を入手するために、上記チャートの解析を行う。グラフ作成装置は、解析チャー トに基づいて、入力テキストの可能な構文解釈のグラフを作る。このグラフには 、入力テキストの可能な解釈に関連するノードとサブノードが含まれる。一連の エキスパートを含む評価子は、解釈の可能なグラフを評価し、グラフのノードと サブノードにエキスパートの重みを加える。グラフ・スコアラは、サブノードを 評価するためにエキスパートの重みを使用し、その後でN個の上位のスコアと各 ノードとを関連づける。文法構造抽出装置は、解析ツリー構造をグラフ・スコア ラが決定した好適な解釈に割り当てる。構造変換装置は、目的言語での翻訳を入 手するために、解析ツリー構造に関する構造変換を行う。 以下の三つの段落では、(a)各サブノードに対する最終加重スコアを計算す るために、グラフ・スコアラがどのようにエキスパートの重みを組み合わせるか ;(b)最終ノード・スコアに到達するために、グラフ・スコアラがどのように サブノード・スコアを組み合わせるか;(c)言語情報がノードとサブノードの ツリーをどのように伝達するか、について説明する。 各サブノードに対する最終加重スコアを計算するために、グラフ・スコアラは 、各サブノードに定数値を関連づける。各サブノードに関連する言語情報の分析 に より、サブノードのスコアの決定が行われる。例えば、一連のエキスパート評価 子が、各ノードとサブノードに記憶された言語情報を検査する図8を参照された い。グラフ・スコアラは、特定のノードまたはサブノードに対する最終加重平均 を入手するために、各エキスパートに対する個々の加重スコアの合計を計算する 。複数の加重スコアを一つの加重平均スコアにまとめることは、コンピュータサ イエンスにおける標準的な問題である。使用できる一つの方法としては、各エキ スパートの結果に、そのエキスパートに割り当てられた定数(重み)を掛け合わ せる方法がある。各エキスパートに割り当てられる重みは、設計時に決定してお く問題である。設計者は各エキスパートに割り当てる優先権(重み)を決定する 。加重平均は、各数字に定数を掛け、一連の数字を合計したものである。例えば 、以下の式になる。 加重平均=(w1)(x1)+(w2)(x2)+...+(wn)(xn) 但し、重みw1,w2,...,wnは、いずれも負でない数で、合計は1になる 。例えば、統計の期待値に関する加重平均の使用について述べているスピーゲル 著「確率および統計の理論と問題76」(1975年、マグローヒル社)を参照 されたい。 最終ノード・スコアを入手しようとサブノード・スコアを結び付けるために、 グラフ・スコアラは、グラフの底辺の部分から一番上の部分にサブノード・スコ アを伝達することができる。各ノードがNスコアの集合を持つグラフの場合には 、一つまたは複数の伝達方法を決定することができる。サブノード・スコアを伝 達するのに使用することができる一つの技術としては、最適化問題を解くために 使用されるある種の動的プログラミングである記憶方法がある。最適化問題の解 法には、多くの可能な数値(結果)を含むことができる。目的は最適な数値を発 見することである。最適化に使用するアルゴリズムは、各サブサブ問題を一回だ け解き、結果を記憶するので、サブサブ問題に遭遇するごとに答を再度計算する 必要がなくなる。最適化問題に適用されるもっと詳細な説明については、例えば 、コーメン他の「アルゴリズムへの招待」(1990年マグローヒル社)の30 1 −314ページを参照されたい。この「アルゴリズムへの招待」の301,30 2および312ページには、グラフ内をサブノード・スコア情報を伝達させるの に使用できる一つの方法が記載されている。 言語情報をツリー内で伝達する場合には、システムの意味を伝える部分は、意 味情報を内部のより小さい構成要素からより大きい構成要素へと伝えるように動 作する。意味の伝達は、解析オペレーションで使用される統語分類の四つのクラ ス(SEMNP、SEMVP、SEMADJおよびNERB)に適用される。意味の伝達が行われる前 に、ノードに記憶されている言語情報を分析しなければならない。ノードに記憶 されている意味情報の分析は、文法規則の名詞らしい要素と動詞らしい要素を点 検することにより、どの名詞らしい目的語に、文法規則の動詞らしい要素のどの 選択的制限スロットを適用するかを言い当てる規則の集合によって導かれる。ジ ェラルド・ガズダは、その著書「プロローグの自然言語処理」(1989年アデ ィソン・ウエズリ出版社)で、本明細書で開示しているグラフに類似した方向を 持った、リング状でないグラフのノードに記憶されている意味情報を分析するの に使用することができる規則の集合について説明している。ガズダは、隣接する ノードに関する情報と一致させる特性マッチングの使用について説明している。 ガズダは、特性マッチングは、以下に述べる式を含むと述べている。 「あるノード上に現れるいくつかの特性は、もう一つのノード上に現れる特性 と同じものであるに違いない。最新の研究は、親の分類とそれらの特性に関連す る形態素を示すことも上に現れるあるクラスの特性の詳細を等しくするという原 則を仮定している。このこどもは、そのフレーズの「頭」と呼ばれる。大部分の フレーズは頭を一つだけ持つ。それ故、例えば、動詞句は、その動詞の時制を受 け継ぐ。何故なら、動詞は動詞句の「頭」であるからである。これまで使用して きた表記法の資源を使用しても、文法全体に適用できるこの原則を指定する簡単 な方法はない。しかし、もし関連する特性がDAGの一本の枝上にすべて発見す ることができると仮定するならば、規則ごとに非常に簡単にこの原理の効果を述 べることができる。そこで、我々は通常のVP規則を以下のように書き表すこと ができる。 VP−−>V NP PP <Vの頭>=<VPの頭> この場合、Vの「頭」の特性値と、親であるVP上の「頭」の特性値は同じも のでなければならない。」 ガズダで議論されている規則は、本明細書に開示する構文の各分類に容易に適 用することができる。ガズダの規則を使用して各ノードに割り当てられた言語情 報は、記憶方法の技術により、ツリーの中を伝達することができる。 ここで、上の三つの段落の内容を要約すると、加重平均は、サブノード・スコ アを決定する一つの方法であり、各サブノード・スコアは、最適化問題に適用し た周知の記憶方法技術を使用してグラフ7中を伝達することができ、ガズダの著 書に述べられている方法は、各ノードに記憶されている言語情報を分析するのに 使用することができ、この言語情報は、記憶方法技術を使用して文法構造解析チ ャート内を伝達することができるということになる。 自動自然言語翻訳システムでは、最初の自動翻訳終了後に、自動的に再翻訳を 行うことができる。すなわち、システムが自動的に入力テキスト情報の可能で最 も適切な翻訳を提供し、ユーザに出力(好適には、入力英語テキストの日本語の 翻訳または日本語から英語への翻訳)を提供した後、ユーザは表示されている翻 訳を手直しするために、または自動的に別の翻訳を入手するためにシステムと対 話することができる。 自動自然言語翻訳システムは、一つの文をサブストリングに分解する言語モデ ルを使用する。サブストリングは、その文の一部として指定された順序で出現す る一つまたは複数の語句である。例えば、サブストリング「The man is happy」 は、「The」、「Theman」、「man is happy.」、「is」および「The man is hap py」それ自身を含んでいるが、「is man」、「man man」、「The is」は含んで いない。 異なる言語モデルは、種々の方法で、また種々の詳細レベルでサブストリング を定義する。例えば、「They would like an arrow」という文においては、「an arrow」は通常、名詞句(NP)に分類される。別のモデルでは、「an arrow」 を構文上の特性(例えば、単数の名詞句)および文意上の特性(武器)で分類す る。この句の意味が曖昧である場合には、それを分類する複数の方法がある。例 えば、「an arrow」は、矢の形をした記号を意味することもできる。言語モデル は、曖昧さを解決する方法を提供するとき、通常、より小さな単位をより大きな 単位に結合することによって曖昧さを解決する。より大きい単位を評価する場合 、これらのモデルはより大きい単位に含まれている情報だけを考慮の対象とする 。 このシステムの具体的な例示として、「an arrow」(記号または武器)の意味 上の特性が、「They would like an arrow」という文の「like an arrow」とい う動詞句を評価する際に使用される。一方、「an arrow」という句の構文が「He shot it with an arrow」という文中にあった場合には、「an arrow」の意味上 の特性は、「shot it with an arrow」という動詞句を評価する際には使用され ない。 特定の言語モデル(解釈したサブストリング)を一つの方法で解釈した文の任 意のサブストリングに対して、エキスポートされた属性が存在する。エキスポー トされた属性は、解釈したサブストリングと、もっと大きいサブストリングを形 成する他の単位との組み合わせを評価するために使用したすべての属性である。 エキスポートはエキスポートされた特性と一緒に解釈した、解釈済みのサブスト リングである。解釈済みのサブストリングに含まれているが、エキスポートされ ていない属性は、サブ構造体と呼ばれる。 システムのパーサーは、文法データベースを含む。パーサーは、文法規則を使 用して文のすべての可能な解釈を見い出す。文法データベースは、X=A1A2 ...Anの形の、一連の文脈自由句構造規則からなる。Xは、A1A2... ,Anからなっているか、形成されていて、レベルの高いノード(サブノード) A1からよりレベルの低いノード(サブノード)Anと呼ばれる。 システムのグラフ作成装置は、一つの文に関して可能な多くの解釈を図形で表 す。グラフの各ノードは、あるサブストリングのエキスポートに対応する。シス テムの具体例として、一つのエキスポートは一つのノードで表される。グラフは 、一つのエキスポートに関連するノードから出ている円弧を含む。円弧は、文法 規則の適用に基づくエキスポートのサブ構造体を表す。グラフは少なくとも二つ の タイプの円弧、すなわち、(1)同じサブストリングの一つの異なるエキスポー トを指している単一の円弧、(2)二つのエキスポートを指している一組のポイ ンタを含む二つの円弧、すなわち、連結されたときは、そのサブストリングは、 もとのエキスポートのサブストリングを形成する。(2)の定式は、チョムスキ ーの正規形文法を仮定していることに留意されたい。修正した請求項35は、タ イプ(2)を言い替えることによって、チョムスキの正規形文法ではなく、N個 のエキスポートを指しているN重ポインタを持つ円弧を反映する文法に適用され る。 グラフは、一つの出発エキスポート点Sを含み、そこから一連の円弧を辿るこ とによりグラフのすべての部分に行き着くことができる。出発エキスポートは、 文全体に対応する。 同じエキスポートを複数のエキスポートから形成できる場台に限り、一つのノ ードから複数の円弧がスタートする。(二つの円弧からなる円弧内の一組のポイ ンタは、この意味では複数の円弧とは考えない。)そのエキスポートが複数のエ キスポートの一つの要素である場合に限って、複数の円弧が一つのノードを指す ことになる。円弧が出ていないノードは、サブストリングに割り当てられた辞書 の見出し語に対応する。 複数の言語エキスパートが、エキスポートの集合に数字のスコアを割り当てる 。この言語エキスパートは、グラフの各ノードに上記スコアを適用する。システ ムの具体例として、スコア行列(行列の各要素は、特定のエキスパートのスコア に掛け算を行うための重みである)は、任意の文に対する浮動小数点数の固定の 長さ「N」である。 上記スコアは、グラフ作成エンジンおよび/またはパーサーに組み込まれるス コアリング・モジュールにより評価される。スコアは、より高いエキスポートを 形成しているすべてのエキスポートに対して計算される。より高いエキスポート に対するスコアは、よりレベルの高いエキスポートを形成しているエキスポート と構造調整エキスパートによって割り当てられたスコアの組み合わせに適用され る任意のエキスパートのスコアの合計として計算される。 ノードに到着し、スコアを調べる順序は、標準の深さ第一グラフ移動アルゴリ ズムである。このアルゴリズムでは、スコア付けされたノードにはマークが付け られ、再びスコアを付けられることはない。スコアが付けられるプロセス中、ス コアリング・モジュールは、もっと高い単位の任意のノードの評価を行う前に、 辞書の見出し語ノードを評価する。辞書の各見出し語は一つのスコアをもつ。 一つのエキスポートを行うのに複数の方法がある場合には、複数のスコアにな る。すなわち、エキスポートを行うのにk通りの方法がある場合には、可能なk 個のスコアになる。複数のスコアは以下のように処理される。 (1)単一の要素からなる規則では、もっと低いエキスポートのk個の各スコ アは、単一の要素からなる規則に適用されるエキスパートの数値に加算され、そ の結果得られたk個のスコアのベクトルは親のエキスポートに関連している。 (2)二つの要素からなる規則では、左のこどもがgスコアを持ち、右のこど もがhスコアを持つものと見なされる。その後gスコアにhスコアを掛けた数値 が、左のこどもの各スコアに右のこどもの各スコアを加算し、さらに、二つの要 素からなる規則に適用されるエキスパートの数値を加算することによって計算さ れる。gスコアにhスコアを掛けた数値がNを越えた場合には、最も高いNのス コアだけが親のノードと一緒に保持される。 (3)一つのエキスポートが複数の方法で作ることができる場合には、たかだ かN個のスコアがそのノードのスコア・リストに加算され、最も高いスコアだけ が保持される。 スコア計算が完了すると、上記方法は、各エキスポートがそのノードと、エキ スポートに表示されていないすべてのサブ構造体の属性を含む、エキスポートを 行うためのg個の最も可能性の高い方法(言語モデルに関する)を表すg個のス コア(1からNまでの範囲内のg)の集合と関連づけていることを確認する。ル ート・ノードSのような特別な場合では、このスコア計算方法は文全体を形成す るg個の最も可能性の高い方法を与える。 上記のスコア・リストの各スコアは関連するポインタを持つ。ポインタは、よ り低いエキスポートのスコア・リストのどのスコアが、もっと高いレベルのスコ アを作るために組み合されたのかを示す情報を提供する。各ポインタを追跡する ことにより、その文のg個の最も可能性の高い解釈を、曖味でない解析ツリーと して抽出することができる。 図1−図9を参照しながら、自動自然言語翻訳システムをさらに詳細に説明す る。その後で、図10と図11を参照しながら、本発明の種々の改良点について 説明する。 図1および図2について説明すると、本発明の自動自然言語翻訳システム10 は、入力インターフェース12、翻訳エンジン16、記憶装置18、ユーザ入力 装置22、ディスプレイ20やよび出力インターフェース14を含む。入力インタ ーフェースは、英語や日本語などのソース言語で書かれた一連のテキストを受信 することができるようになっている。入力インターフェースとしては、キーボー ド、音声インターフェースまたはモデムまたは直列入力のようなデジタル電子イ ンターフェースを含むことができる。翻訳エンジンは、記憶装置のデータを使っ て、ソース言語の翻訳を行う。翻訳エンジンは、全体をハード配線の論理回路で 作ることもできるし、一つまたは複数の処理ユニットや関連する記憶命令を含む こともできる。翻訳エンジンは、以下に述べる要素やその部分を含むことができ る。すなわち、プリパーサー24、パーサー26、グラフ作成装置28、文法構 造解析/翻訳評価予30、文法構造解析抽出装置32、構造変換装置34、および 別の文法構造システム37を含むユーザ・インターフェース42である。構造変 換装置は、文法規則制御による構造変換装置36、辞書制御による構造変換装置 38および生成規則制御による構造変換装置40を含むことができる。記憶装置 18は、一つまたは複数のディスク(例えば、ハードディスク;フロッピーディ スクおよび/または光学的ディスク)および/またはメモリ記憶装置(例えば、 RAM)などを含むことができる。これら記憶装置は、次に述べる要素の全部ま たは一部を記憶することができる。すなわち、基本辞書44、技術用語辞書46 、ユーザが作成した辞書、文法規則48、生成規則50、意味特性ツリー52、 構造特性ツリー54およびグラフ56である。記憶装置18は、ソース自然言語 で書かれた入力テキスト情報、目的言語で書かれた出力テキスト情報、および一 つまたは複数の辞書、領域キーワードと文法規則を含む翻訳を行うために使用し たり役立つすべての種類の情報を記憶するのに使用される。ユーザ入力インター フェース22は、キーボード、マウス、タッチスリーン、ライトペンまたは 他のユーザ入力装置を含み、システムのオペレータが使用できる。ディスプレイ としては、コンピュータ・ディスプレイ、プリンタまたは他のタイプのディスプ レイを使用することもできるし、オペレータに情報を知らせるための他の装置で あることもできる。出力インターフェース14は、ソース・テキストの最終翻訳 を、日本語などの目的言語でやりとりする。上記インターフェースは、プリンタ 、ディスプレイ、音声インターフェース、モデムまたは直列ラインのような電子 インターフェースを含むこともできるし、最終ユーザにテキストを送るための他 の装置を含むこともできる。 本発明の翻訳システムの具体例の操作として、図1、図2および図3に示すよ うに、プリパーサー24は、まずソース・テキスト23に対して予備的な解析作 業(ステップ102)を行う。この作業には、ソース・テキストの文末認定の曖 昧性の解析が含まれ、辞書の見出し語25を含む構造解析チャートを作成する。 その後、パーサー26は、構文の可能性27が記載されている構造解析チャート を入手するために、プリパーサーが作成した(ステップ104)上記チャートの 構造解析を行う。グラフ作成装置28は、構造解析ステップで得られた構造解析 チャートに基づいて、可能な解釈29のグラフを作成する(ステップ106)。 一連のエキスパート43にアクセスする評価子30は、記憶された解釈のグラフ を評価し(ステップ108)、グラフ31にエキスパートの重みを追加する。グ ラフ・スコアラ33は、ノードのスコアをつけ、N個の(例えば、20個の)最 も高いスコア35をそれぞれに関連づける。文法構造抽出装置32は、この好適 な解釈に構造解析ツリー構造39を割り当てる(ステップ110)。その後、変 換テーブル58にアクセスする構造変換装置34は、目的言語になった翻訳41 を入手するために、上記ツリー上で構造変換処理(ステップ112)を行う。ユ ーザは、他の翻訳を入手するために他の構造解析システム37とやりとりするこ とができる。 図4について説明すると、本発明のシステムは、入力単語列を個々の句読点お よび語を形成する文字グループを含むトークン(ステップ114)に分割するこ とによって、予備構造解析を行う。スペースの出現は、このレベルでの文字の解 釈に影響を与える。例えば、「x−y」の「−」はダッシュであるが、「x− y」の「-」はハイフンである。 その後、プリパーサーは上記のトークンを語句に組み合わせる(ステップ11 6)。このレベルで、プリパーサーは、特殊な構造(例えば、インターネット・ アドレス、電話番号および社会保険番号のような)を一つの単位として認識する 。プリパーサーは、またグループを区切るために辞書参照を行う。例えば、「re -enact」が辞書に「reenact」として載っている場合は、一語となるが、載って いない場合は、別々の三つの語となる。 次の予備構造解析段階では、文が何処で終わるかの文末認定が行われる(ステ ップ118)。この処理中、プリパーサーは、各文の可能な文末箇所(すなわち 、ソーステキストの各単語の後)を認定するための一連のステップを行う際に、 基本辞書、技術用語辞書および搭載されているユーザ作成の辞書にアクセスする 。プリパーサーは、特定の順序が指定された場合には、このステップを行う必要 はなく、これらステップは一連の順序を持つ規則として実行することもできるし 、ハードウェアに組み込んでコード化することもできる。 図5について説明すると、プリパーサーは、ダッシュ記号の連続「----」のよ うな解析できない記号のシーケンスがあるとき、ひとつひとつは翻訳せず、全体 として一つの「文」として解釈し記録する(ステップ120)。プリパーサーは 、文の末尾として、二つのキャリッジ・リターンを要求する(ステップ122) 。次の語句の最初の文字が小文字である場合には、プリパーサーは一つの文の終 わりと見なさない(ステップ124)。文がニューラインで始まりしかも短い場 合(例えば、タイトル)には、プリパーサーは、それを一つの文と見なす。 プリパーサーは、閉じ括弧および閉じ引用符を含んでいるような場合を除いて 、終止符(.)、疑問符(?)、または感嘆符(!)を文の終わりと見なす(ステ ップ128)。「."」や「?"」等で終わっている文の場合には、プリパーサーは 、引用符の前の句読点のほかに、引用符の後に仮想の句読点を加えて使用する。 「?"」に対して仮想で追加する句読点に対する方法を、以下の例に示す。 The question was“What do you want?” Did he ask the question“What do you want?”? Are you concerned about“the other people”? 英語の場合、上記各文は「?"」で終わっている可能性が高い。プリパーサーが 追加した仮想の句読点があるということは、引用符の前に疑問符のような何かが 存在するのか、または全然何もないかを示している。引用符の後ろには、終止符 または疑問符のような何かが存在している。この文の残りの文法的構造によって 、このあとの処理段階で最も適切な選択を行うことができる。 プリパーサーは、また終止符の解析で、さらにいくつかの方法を使用する(ス テップ130、132、134、136および138)。辞書に含まれる短縮形 には、文頭には決して使用できないというマークが付いているものや、文末には 決して使用できないというマークが付いているものがある(ステップ130)。 これらの規則は常に尊重される。例えば、「Ltd.」は文頭には使用されないし、 「Mr.」は文の終わりには使用されない。プリパーサーは、また次の語句が「the 」、「in」のような頻出する単語でないかぎり(ステップ132)、一字の大文 字に終止符があるとき、文が終わりであるとは考えない。終止符の前の単語が、 いずれかの辞書に載っている場合には、終止符のところで文は終わる(ステップ 134)。終止符の前の語句が辞書に載っておらず、その語句がその内部に終止 符を持っていて(例えば、I.B.M.)、次の語句が小文字としては辞書に載っていな いか、または次の語句そのものが大文字である場合には、文はその終止符のとこ ろで終わっていないと見なす(ステップ136)。それ以外の場合には、終止符は 文の終わりを示す(ステップ138)。 再び図2および図3について説明すると、文の切れ目がプリパーサーにより指 定されると、パーサーはその文の語句を構文分類に入れ、その文の可能な構文の 解釈25を計算するために、それらの語句に文法データベースの文法規則を適用す る(ステップ104)。文法規則48を、その言語の文法的な制限を表すコンピュ ータ処理ができる一連の規則として実行することができる。英語の場合、このよ うな規則は何百とあり、これら規則は何百という構文分類に適用される。この作 業の計算に要する余分な時間を減らすために、一つの語句の異なる可能な意味は 無視して処理される。 次のステップ(ステップ106)において、グラフ作成装置は、語句の異なる意 味を取り込み、その文のすべての意味解釈を表す方向を持ったリング状でないグ ラフを作成するために、辞書を使用しパーサーの結果を拡張する。このグラフは 、後で説明する一連の意味伝達の手順の助けを借りて作成される。これらの手順 は、一連の作成された文法規則に基づいて行われ、ある場合には、意味情報を求 めて意味特性ツリーにアクセスする。意味特性ツリーは、意味分類を含むツリー 構造である。このツリーは、おおざっぱに抽象物から具体物へと組織されており 、ツリーの中でどのくらい離れているのか、ツリーのなかでのそれぞれのレベル は何かの両方から、二つの用語が意味の上でどのように関連しているかを決定す ることができる。例えば、「cat」と「dog」は、「cat」と「pudding」より関連 性が高い。したがって、「cat」と「dog」の二つは、「animat」のツリーの中で の距離は短く、「animat」、「cat」はツリーの異なるレベルに記憶されている 例である。何故なら「animal」は「cat」に比べてより抽象的な言葉であるから である。 図9について説明すると、この図のグラフは、ノード80を含み、そのサブノ ード82、84、86は種々のタイプの関連を示す方法でポインタ88、89、 90、91でリンクしている。グラフの第一の関連のタイプは、句を表すノード が、それを構成している語句のノードやサブフレーズのノードを指すポインタを 持っているものである。例えば、「the bank」を表すノード84は、ポインタ9 2、93により、それを構成している語句「the」94および「bank」95にリ ンクしている。グラフの第二の関連のタイプは、句の解釈が、より低いレベルの ものから、同じより高いレベルの成分を作るもう一つの方法を指すポインタを持 っている場合である。例えば、句「by the bank」を表すノード80は、それぞ れを構成する各語句にリンクしているポインタ88と89、および90と91を 含む二つのソース解釈位置81、83を持つことができる。この例の場合、異な る個々の構成語は、それぞれが「the bank」に対して異なる意味を表す異なるサ ブノード84、86を含む。グラフの構造は、解析作業の結果により規定され、 ソース文の構文により制限を受ける。このグラフのノードは、意味伝達のプロセ ス中に記入される意味情報に対する記憶位置と関連づけられる。 システムの意味を伝達する部分は、それらを含むより小さな成分からより大き な成分へと意味情報を伝達する働きをする。意味情報は、初めの段階の解析作業 で使用される構文分類の四つのクラスに適用される。四つのクラスは、SEMNP(名 詞型の目的語や前置詞句を含む)、SEMVP(通常主語を取る、目的語のような動詞 句)、SEMADJ(形容詞)、およびVERB(多くの場合目的語を取る辞書の動詞型の動詞 )である。その他の構文分類はある規則では無視される。文法規則の設定者は、 規則に特定のマークを付けることによって、表面上に出ない行動を上書きするこ とができる。これらの特別命令は最初にくる。 システム内を意味特性が伝達する方法は二つの面を持つ。第一の面は、文法規 則の名詞型および動詞型の構成部分を検査することによって、名詞型の目的語に 、動詞型の構成要素のどの選択的な制限スロットを適用するかを知ることができ る規則の集合である。例えば、「I persuaded him to go」という文の動詞句に 対する規則は、おおまかにいうと、VP=VT11+NP+VP(ここで、VP は動詞句、VT11は他動詞の分類、NPは名詞句)である。例示としてのデフ ォルト規則は、動詞が目的語を取る場合には、動詞の右側にある最初のNPに、 選択制限を適用しなければならないというものである。別の規則では、その主語 に対するVPの制限は、VPの左側の最初のNPに適用しなければならないと定 めている。これらの規則を合わせると、「persuade him」および「him go」の両 方の意味がよく通るように評価するようにしている。すでに説明したように、こ れらの規則は英語の複雑な規則を反映していて、そのためにその数は非常に限定 されている。 図6について説明すると、意味伝達作業は選択制限をSEMVPから命令文にコピ ーする作業を含む(ステップ140)。SEMNPが位置の表現として使用されている 場合には、良い位置を指定する意味定数に対してその妥当性が評価される(ステ ップ142)。ある規則が二つのSEMNPの結合(構文上の特徴を論理積すること によって検出された)を含んでいる場合には、グラフ作成装置は、意味特性を論 理積して、意味上の距離エキスパートに適用する(ステップ144)。 意味特性の伝達に対して指定された規則を検査している中で、グラフ作成装置 が、もっと高いレベル(例えば、それがもっと多くの語句を含むSEMNPの一部とな る)へ伝達するSEMNPの「頭」の位置を見つけた場合には、グラフ作成装置は、意 味特性をも伝達する(ステップ146)。しかし、「頭」が、区分用の語句(例 えば、「portion」、「part」)である場合には、「頭」はSEMNPから左または右 に伝達する。SEMVPおよびSEMADJも、区分用の位置を持っていない(ステップ1 48)ことを除いて、同じ方法で伝達される。形容詞はこの意味ではSEMVPの一 部である。 SEMVPがVERBを含む規則から作られた場合は、グラフ作成装置は、VPが受動態 である場合を除いて、VERBの主語制限を上の方向に伝達させる。受動態の場合、 VERBの最初の目的語制限が伝達される(ステップ150)。SEMVPを含む規則の 場合には、グラフ作成装置は、SEMVPの選択制限をSEMVPから左に移動するときに 遭遇するNPに適用しようとする(ステップ152)。SEMADJを含む規則の場合に は、グラフ作成装置は、SEMADJの選択制限を、最初にSEMADJから右に移動すると きに遭遇する任意のSEMNPに適用しようとし、それがうまくいかない場合には、 左の方向に移動しようとする(ステップ154)。 VERBの任意の残りの未使用の目的語選択制限(受動態であるために上の方向に それまで伝達していない)に対して、グラフ作成装置は、VERBの右側で遭遇する SEMNPに、上記の制限を順番に適用する(ステップ156)。これらすべての規 則で、動詞選択制限は、それが何かに適用されるとすぐに使い尽くしてしまう。 これまでのすべての規則の場合、SEMNPは、それらSEMNPに何かが適用された場合 には、使い果たされない。この規則からスタートすると、SEMNPは使い尽くされ る。最終的に、ある規則がSEMVPを作った場合に、グラフ作成装置は、それまで 使用されていないSEMVPまたはSEMADJが含まれているかどうかを決定し、含まれ ている場合には、それを上の方向に向かって伝達する(ステップ158)。 システムは、また言語の特性マッチングを行う。言語特性は語句および他の構 成要素の特性である、構文の特性マッチングはパーサーが使用し、意味特性マッ チングは、グラフ作成装置が使用する。しかし、同一の方式が両者に対して使用 される。例えば、「they」は複数という構文特性を持ち、一方「he」は単数とい う構文特性を持つ。特性マッチングは、語句の特徴がそれらが適用される語句の 特徴がある条件を満たした場合にだけ適用されるように、文法規則にマーク付け を行う。例えば、下記のような規則があるとする。 S=NP{@}+VP{@} ここで、記号@はNPおよびVPの数の特性が一致しなければならないことを意 味する。したがって、この規則は「they are」や「he is」は正しいとするが、 「they is」や「he are」は認めない。 特性マッチ制限は、「局所的」と「広範囲」とに分けられる。広範囲の動作は 、実際に文が処理されるときにではなく、文法が作成されるときに計算される。 そして、実行しなければならない広範囲の動作のシーケンスは、命令バイトとし てコード化される。 「広範囲」特性動作の計算は、n個の要素からなる規則(すなわち、その右側 に二つ以上の要素を持っている)でスタートしなければならない。その後、シス テムは、特性の集合が正しい形で規則間を伝達して終わるように種々の二つの要 素からなる規則にコードを割り当てる。n個の要素からなる規則を二つの要素か らなる規則に分割することによって、解析作業は非常に単純化される。しかしシ ステムは、二つの要素からなる規則にまたがって特性の集合を追跡しているので 、システムは「広範囲」処理のパワーを保持する。 本発明のシステムでは、辞書は構成している個々の語句としての取り扱いも行 うが、複数の語句で構成する「熟語」も含んでいる。これら二つの形は、最終的 には最も適切な翻訳を行うために相互に競い合うことになる。例えば、辞書では 「black sheep」の意味は、「持て余し者」として登録されている。しかし、あ る場合には、「black sheep」という語句は、「黒い羊」を意味することもある 。これらの形は両方とも保持されているので、この熟語としてではない翻訳も、 正しい翻訳として選択される。 この熟語は、また別の分類にも属する。例えば、システムは次の三つのタイプ の分類を使用することができる。 オールマイティ:United States of America 優先:long ago 普通:black sheep オールマイティ熟語は、そのシーケンスを構成しているどの語句の可能な解釈よ りも優先する。優先熟語は、そのシーケンスを構成している語句が同じ一般的な 使われ方をしているときは、いずれの可能な解釈よりも優先する。普通熟語は、 同じレベルで他の見出し語と競合する。 その結果得られるグラフは、エキスパート(ステップ108、図3)によって評 価され、上記エキスパートはグラフの解釈の正確さの可能性を表すスコアを供給 する。本発明のシステムは、文全体のみではなく、文の任意の長さのすべての部 分に適用される採点方法を含む。グラフを使用するに当たっての重要な要素は、 それが非常に多くの文に使用されていたとしても、サブツリーがたった一回だけ 完全に採点され、分析されるということである。例えば、「Near the bank ther e is a bank.」という句においては、「Near the bank」という句は、少なくと も二通りの意味を持つが、この句の最も適切な解釈はどれかという判断は一回し か行われない。「there is a bank」という句も、同様に二通りの解釈をするこ とができるが、これら二通りの解釈のどれが最も適切であるかという判断は一回 だけしか行われない。したがって、この文は異なる四つの意味に解釈できるが、 サブ句のスコア付けは一回しか行われない。このグラフのもう一つの特徴は、各 ノードが、文のその部分の長さに関して容易にアクセスできる情報を持っている ことである。この特徴により、英文を再度分析しなくても、その英文の任意のサ ブストリングのN個の最も適切な解釈を行うことができる。 一回の実行においては、その文の最も適切なN個の分析が、その度ごとに得ら れるが(Nは20程度のある数)、グラフを使用することにより、システムは、も っと小さな構成部分についてのユーザの選択の結果を取り入れることができ、ユ ーザの選択を尊重したN個の最も適切な分析を行う。これらすべての分析は、文 の解析を再度行わず、または任意のサブストリングの採点を再度行わないで行わ れるので、迅速に行うことができる。 図8について説明すると、エキスパート評価子30の動作は、各翻訳を特徴づ け、種々のエキスパートにより処理される、種々の要因に基づいて行われる。確 率規則エキスパート170は、最初のソース言語解析ツリーを入手するのに使用 される文法規則の平均相対頻度を評価する。選択制限エキスパート178は、得 られた翻訳の意味上の一致の度合を評価する。辞書見出し語確率エキスパート1 72は、最初のソース言語解析ツリーを入手するのに使用された文のいくつかの 語句の特定の「品詞」の平均相対頻度を評価する。統計エキスパートは、ある翻 訳のために選択した特定のパラフレーズの平均相対頻度を評価する。 システムは、個別の英語の単語、句、および単語グループに対する英語の「品 詞」(POS)を自動的に決定する。システムは、文を翻訳するとき、品詞を自 動的に決定し通常は正しい決定を行う。しかし、ときには、翻訳する文それ自身 が曖昧であることもある。異なる品詞として解釈することができる語句が含まれ ているときは、複数の異なるしかもどれも「正しい」解釈が得られることになる 。システムのオペレータは、システムが自動的に決定する品詞を無視し、代わり に単語や語句または単語グループに対して手動で任意の品詞を設定することもで きる。例えば、「John saw a boy with a telescope」という英文で、システム のオペレータは、「a body with a telescope」を名詞句と見なすと、その文を 「その少年は望遠鏡を持っていた」という意味に解釈し、「ジョンはその少年を 見るために望遠鏡を使用した」という意味には解釈しないことになる。オペレー タは、複数の可能な品詞設定を行ったり、より制限のゆるやかな品詞設定を手動 で行うことにより、システムが決定する品詞規則を上書きした場合、翻訳結果が 悪化したり、少なくとも改善されないという状況が起こることがあります。名詞 句は名詞よりも制限がゆるやかであり、グループはもっとも制限が緩やかな品詞 設定である。下の表に種々の可能な品詞設定を示す。 品詞(POS) 名詞 名詞句 動詞(他動詞、自動詞) 動詞句 形容詞 形容詞句 副詞 副詞句 前置詞 前置詞句 接続詞 グループ 英語 「形容詞句」や「副詞句」の品詞設定は、ある英文が、システムが特定の前置 詞句をどのように解釈するかによって意味が異なるような場合に有効である。例 えば、「We need a book on the fourth of July」という文は、「on the fourt h of July」が形容詞としての意味を持つと解釈した場合には、「我々は米国の7 月4日の独立記念日に関する本がほしい。」という意味になるが、「on the four th of July」を副詞句と解釈した場合には、「7月の4日に、我々は本がほしい。 」という意味になる。システムが自動的に「on the fourth of July」に正しく ない品詞を割り当てたとオペレータが考えた場合には、オペレータは、「We nee d a book on the fourth of July」という文の「on the fourth of July」に別 の品詞を手動で設定することができる。オペレータが、システムに特定の単語、 句または単語グループを英語から日本語に翻訳させたくないときは、このような 単語、句または単語グループに「英語」という品詞を設定することができる。オ ペレータは、設定がシステムにより自動的に行われた場合でも、オペレータによ り手動で行われた場合でも、一つまたは複数の品詞設定を除去することができる 。 システムは、ユーザごとに複数のレベルで訳語の使われ方の統計情報を追跡す る。例えば、システムは、語句の表面形式のレベル(「leaving」)が他動詞とし て、または自動詞として使用された頻度)で統計値を保持し、また意味レベル(「 あとに残る」という意味か、または「〜から出発した」という意味か)でも保持 し、後者のタイプは「leave」、「leaves」、「left」、「leaving」の異なる変 化形ごとに出現回数が積み上げられる。システムは、また最後のいくつかの文で 使用された使用統計値とユーザの任意の時間での使用統計値とは区別して保持 することができる。さらに、システムは、ユーザが語句の特定の意味を使用する ように介入して指示したケースと、システムがユーザの介入を受けずに語句の特 定の意味を使用したケースとを区別することができる。 構造調整エキスパート182は、ある文の構成部分の長さに関連する特徴で、 英語や多くの他のヨーロッパ言語に共通する特徴に基づいている。いくつかの( 全てではないが)構造で、これらの言語では、軽い(短い)要素の左側に重い(長い )要素がくるような文は歓迎されない。例えば、 Mary hit Bill with a broom.(左が軽く、右が重い)(適合) Mary hit with a broom Bill.(左が重く、右が軽い)(不適合) Mary hit with a broom a dog that tried to bite her. (左が重く、右がもっと重い)(適合) ある文の二つの解析があるとき、一方がそのようなシーケンスを避けようとする 構造を含む「左が重く、右が軽い」シーケンスを含み、他の解析がそうでない場 合には、前者はその文の意図する解釈を表していないと見なされる。このエキス パートは、意図する解析と意図しない解析を区別するための有効な方法である。 「A of B and C」というパターンの同格構造においては、意図する解釈が「A of{B and C}」であるのか、または「A{of B}and C」であるのかを判断するのが 難しい場合がある。同格構造エキスパート180は、どの同格モードが意味のよ り近い二つの要素を結合することになるかを決定するために、BC間の意味上の 距離、およびAC間の意味上の距離を測定する。このエキスパートは処理中に意 味特性ツリーにアクセスする。このエキスパートは、ある文の意図する解析と意 図しない解析を区別するための効果的な方法でもある。 英語の多くの語句は、普通名詞としての解釈と固有名詞としての解釈とに潜在 的な曖昧さを含んでいる。大文字エキスパート176は、大文字表記が意味を持 っているかどうかを決定するために、文中での大文字の位置を使用する。例えば 、下記の文では、 Brown is my first choice. My first choice is Brown. 第一の文は本来的に意味が曖昧であるが、第二の文は、「Brown」は色の名称で はなく、人名である可能性がはるかに高い。このエキスパートは、大文字で始ま る語句が文頭にあるのか、または文頭でない場所にあるのか(上の例)、辞書で も大文字で表示されている語句が辞書に含まれるのかどうか、小文字で始まる語 句が辞書に登録されているのかどうか、などの要因を考慮に入れる。このエキス パートは、文中の大文字で書かれた語句を正しく解釈するのに有効な方法である 。 文中に最初が大文字の語句の連続を含んでいるとき、その連続は固有名詞また は普通名詞として処理される。本発明のシステムは、大文字表記シーケンス手順 を使用しており、前者の解釈を優先する。上記シーケンスが、それ自身通常の文 法規則により解析できないときは、そのシーケンスは解析していないひとまとま りの名詞句として翻訳しないで処理される。この手順は、出現レベルの低い普通 名詞の解釈を完全には無視しないで、複合の固有名詞を処理する非常に有効な手 段であることが証明されている。 図7について説明すると、本発明の機械翻訳システムは、簡単な文法規則に基 づく構造変換方法の効率を持っているが、テンプレート間構造変換方法の能力に も近い文法規則制御構造変換機構162を使用する。この方法は、平らでない複 合構造を指定することができる文法規則160を使用する。他の翻訳システムで 使用されている規則のフォーマットを以下に示す。 Y=>X1+X2+...Xn 指定のサブ構造 Y X1 X2 ...Xn 本発明のシステムは以下の文法規則のフォーマットを使用する。 Y=>#Z1(i)#Z2(2)X1+X2....+Xi+X(i+1)+....X(n ) 指定のサブ構造 この構文で、「#」が前に付いている記号は、文の構造解析の目的では見えない 記号であるが、いったん解析が入手できればサブ構造を構築するのに使用される 仮想の記号である。 このタイプの文法が与えられたとき、サブ構造のこども関係にあるノードの任 意のシーケンスの間で、複数の構造変換を指定することができるようになる。こ れにより、文法規則に基く構造変換機構はテンプレート間構造変換機構のいくつ かの能力を持つ機構に変換される。本発明のシステムは、上記の二番目のタイプ の文法規則に基づいているけれども、一番目の形式で対応する文法規則を自動的 に作成する。したがって、文を解析するのに、第一の形式の文法規則を使用し、 文法解析構造を形成するために第二の形式の文法規則を使用することができる。 構造変換は、また文法規則制御構造変換作業による操作をうけた後で、解析ツ リー上で動作するために、辞書161にアクセスする辞書制御構造変換作業16 6を含む。その後、生成規則構造変換作業が、目的言語テキスト41を供給する ために、結果として得られた解析ツリーに、生成規則を適用する。 再び、図1および図2について説明すると、システムが上記プロセスにより、 最も望ましいとした翻訳を作った後、その翻訳がディスプレイ20を通してユー ザに提供される。その後、ユーザは、その翻訳を採用するか、ユーザ入力装置2 2を通して別の解析システム37を操作することにより手直しができる。手直し 作業中、ユーザは、正確に翻訳された翻訳結果の部分はそのままに保持しながら 、その他の部分の再翻訳を要求することができる。この作業は、迅速に行える。 というのは、システムはエキスパートの重み31を含むグラフを保持しているか ら である。 今まで図1−図9を参照しながら、自動自然言語翻訳システムをある程度詳細 に説明してきた。以後は、本発明の種々の改良点について、図10と図11を参 照しながらそれぞれ説明する。 図10について説明すると、本発明のひとつの観点にしたがって、自動自然言 語翻訳システムの翻訳エンジン16の翻訳エンジン10は、ソーステキスト23 を受信し、それを目的自然言語テキスト41に自動的に翻訳する。この翻訳は、 ソーステキスト23の一部またはすべての「かな」を目的自然言語のアルファベ ット文字に変換する解析による影響を受ける。これは、入力文の「かな」の途中 に、形態素(意味をもつ最小の言語的なまとまり)の区切りの存在を仮定するこ とを可能とすることが目的である。好適な具体例では、ソース言語は日本語であ り、目的言語は英語である。通常、表意文字や表音文字を使っており、語句やフ レーズの区切りが明確でないようなソース自然言語も、本発明のこの観点により 処理し翻訳できる。このように、本発明のこの観点の記述における日本語の参照 は制限されたものであると解釈するべきではない。日本語の正字法(書き方の決 まり)には漢字とかなの使い方が含まれている。「漢宇」は意味をもつ表意文字 である。「かな」は記号であり、固有の意味をもたない表音文字である。日本語 では、アルファベット文字はローマ字と呼ばれる。 日本語(あるいは、前節で述べたような言語)を英語に翻訳するとき、入力文 の「かな」の途中に、形態素の区切りの出現を仮定できることが何故望ましいか ということは、以下に述べる図を使った説明で明らかになる。 "She didn't write letters."を意味する日本語は次の通りである。ここで、 「漢字」にはかぎかっこ(<>)、「かな」には弓かっこ({})がついている。 (1) <kano><zyo>{ha}<te><gami>{wo}<ka>{ka}{na}{ka}{TU}{ta}. <彼><女>{は}<手><紙>{を}<書>{か}{な}{か}{っ}{た}. 文法規則と辞書構成は、(1)の文字列が次の形態素で構成されるということが 認識されると、非常に節約される(以下に説明するように)。ここで、形態素の 区切りはハイフンで定義され、辞書200の構成は表1で与えられる。 (2) <kano>-<zyo>-{ha}-<te><gami>-{wo}-<ka>{k-a}{na}{k-a}{TU}{ta}. 表1 辞書見出し語の例 しかしながら、表1で見られるように、形態素の区切りが「かな」の途中に現わ れることがある。そして「かな」{ka}がアルファベットの(k)と(a)を表していな い限り、上記の形態素の確認はむずかしい。 本発明にしたがって、(1)で示した日本語入力列は、翻訳エンジン16でパ ーサーにより次のように変換される。ここで、アルファベットとして認識される 文字は丸かっこで示している。 (3) <kano><zyo>{ha}〈te><gami>{wo}<ka>(k)(a)(n)(a)(k)(a){TU}(t)(a) (3)に見られるように、形態素の境界は初めの子音と母音のあいだで認識され る必要があるので、オリジナルの日本語の正記法の「かな」の、{ka},{na}、{t a}はローマ字の(k)(a)、(n)(a)、(t)(a)にそれぞれ変換される。一方、「かな」 の{ha}、{wo}、{TU}は、日本語ではこれらの3つの特別な「かな」のあいだには 形態素境界が存在する可能性がないので、「かな」のままで残しておく。 通常、かな一漢字日本語テキスト23をかな−漢字−ローマ字テキスト202 に変換することの有用性は機械翻訳に限定されない。これは、形態素の識別を含 むいかなる日本語自動処理システムにも拡げることができる。そのようなシステ ムは、たとえば"to wrlte(書く)"の全ての存在を検索する情報検索システムを 含むこともできる。 すでに述べたように、日本語文の、かな−漢字−ローマ字表記は日本語から英 語への翻訳を行うシステムが必要とする文法規則と辞書構造の負荷が軽減される 。どのように、軽減されるかを以下の例で説明する。表2に「かく」、「けす」 、「たつ」、「しぬ」を例にとって、日本語の動詞の活用形の仕組みの一部を示 す。 表2 動詞の活用の例 表2には、11個ある活用形のうち4つを示している。また、例えば、連用形( gerund)は、"(he began)writng..."や"(he began)extinguishing..."であり、 意志形(cohortative)は、"Let's write..."や"Let's extingush..."である。 「かな」はそれ以上は分割できない正字法の要素である日本語の記述法では、表 2に掲載した多くの活用形を処理するよく知られた2つの手法がある。 手法1は表3に示すものである。ここで取り上げている動詞については、辞書 にはそれぞれ5つの語幹がある。 表3 手法1の辞書項目 手法1では、 未然形の接尾宇 ={na} 連用形の接尾字 =zero 仮定形の接尾字 ={ba} 可能形の接尾字 =zero 意志形の接尾字 =zero 手法2については、表4と表5に示す。 表4 手法2の辞書項目 表5 手法2の接尾字 手法2では、それぞれの動詞に一つだけの語幹を登録すればよい。一方、11個 の活用語尾(例えば、K型の集合、S型の集合)が認識されなければならず、文 法規則はこれらの集合のどれがどの語幹に接続するのかをひとつひとつ記述する 必要がある、日本語の動詞は数百のかたちに活用するから、どの語幹がその接尾 字と結び付くかに関する文法規則は非常に複雑なものになる。 表2で説明した複雑な語尾活用を扱うよく知られた3つの手法に対して、本発 明による、日本語文の、かな−漢字−ローマ宇表記は、活用のパターンを一意的 にかつ単純でしかも使いやすい方法で記述でれる。本発明によると、辞書項目は 次のようになる。 「かく(write)」「けす(extinguish)」「たつ(stand)」「しぬ(die)」 語幹 <ka>(k) <ke>(s) <ta>(t) <si>(n) そして、接尾字は 未然形 (a)(n)(a) 連用形 (i) 終止形 (u) 仮定形 (e)(b)(a) 可能形 (e) 意志形 (o)(u) 上に示したように、本発明では、辞書には動詞ごとに一つだけの語幹が必要であ り、接尾字は一種類あれば充分である、以上、本発明と関連して、文法規則と辞 書構造の簡素化が述べてきた。 図11について説明すると、本発明の他の観点から、自動自然言語翻訳システ ム10の翻訳エンジン16はソーステキスト23を受信し自動的にそれを目的自 然言語テキスト41に翻訳する。このとき、翻訳はソーステキスト23に対して 形態素解析と統語解析を自動的に同時に行うパーサーの影響を受ける。好適な具 体例では、ソース言語は日本語で、目的言語は英語である。通常、正字法が語句 やフレーズの区切りマークがないいかなるソース自然言語(例えば、日本語、韓 国語、中国語)も本発明の他の観点にしたがって処理され翻訳される。語句のあ いだに空白なしに綴られる日本語、韓国語、中国語のような言語の文の解析作業 は、英文の解析と比較して考えてみることができる。ここでこの対比を行うこと は本発明の他の観点に関する理解を深めることに役に立つ。 本発明の他の観点を述べる前に、連続するテキストを解析する標準的な方法を 述べておく。問題は、以下のような(a)と(b)があるとき、如何にして(a)から(b) を導き出すかということである。 (a)shedidnotwritethatletter. (b)she did not write that letter. (a)を解析して(b)を導き出す標準的な方準は「最長マッチ」というやり方に基づ いている。(a)が与えられたとき、先頭が一致している最長の辞書の見出し語を 見つけることが目的である。"shed"が辞書にあると仮定すれば、そのストリング ("shed")が入力ストリングから取り除かれ、残りのストリングに対して同様の最 長マッチが繰り返される。マッチしたストリング 残りのストリング shed idnotwritethatletter. ここで、辞書には「残りのストリング」と任意の長さで先頭マッチする見出し語 が含まれていないとする。ここで、最初の入力ストリングが、"shed"を含んでい ると仮定したことが間違いであったということになる。もとの文、"shedidnotwr itethatletter."でやり直す。2番目に長いマッチが次に行われ、次のような判 定が行われる。マッチしたストリング 残りのストリング she didnotwritethatletter. 残りのストリングに対して次に最長マッチが行われた結果は以下のようになる。マッチしたストリング 残りのストリング she did notwritethatletter. その次の最長マッチの結果は以下のようになる。マッチしたストリング 残りのストリング she did not writethatletter. もとの連続した入力ストリング(a)の形態素分析(または分割)は、残りのストリ ングが空(null)になると終りになり、以下のようになる。 she did not write that letter. これまで、連続したテキストを分析する標準的な方法の基本を一般論として述べ てきたが、次に標準的な方法がどのように文法情報を必要とするかを述べる。次 の入力ストリングがあるとする。 shewritesletters. "she"と"write"が最初の二つの最長マッチストリングと判断されると、次の状況 が発生する。(この場合は、"write"は辞書にあるが、"writes"はないと仮定す る)マッチしたストリング 残りのストリング she write sletters. 最初の文字"s"は明らかに三人称単数現在形の"s"であり、次の単語の初めの文字 ではない。すでに確認された"write"が動詞であり、動詞の辞書の形態として、 うしろに"s"を付けることができるということが認識されて初めて、このことは 確認できる。この文法情報をもって、サブストリングは以下のようになる。マッチしたストリング 残りのストリング she write-s letters. 次に"letter"が最長マッチストリングと判断されて、以下のようになる。マッチしたストリング 残りのストリング she write-sletter s. ここで、再び、残りのストリングの"s"は明らかに次の単語の初めの文字ではな く、すでに名詞と判断した"letter"の複数形の"s"である。形態素解析要素に含 まれるこの種の文法情報を使って、最終的にこの入力文を次のように分割するこ とができる。マッチしたストリング 残りのストリング she wrlte-sletter-s. 入力ストリングの形態素解析に必要であることを説明したこのような文法情報は ストリングの解析にも使われることに注目していただきたい。従って、形態素解 析コンポーネントと統語解析コンポーネントについて、同じ規則を二度説明する 必要がある。 もう一度図11に戻って、翻訳エンジン16のパーサーが、ソース入力テキス ト23に対して、同時に形態素解析と統語解析を行う本発明の二番目の観点と関 連させて、次の入力ストリングがあるとする。 shedidnotwritethatletter. パーサーの仕事は入力ストリング(実際は日本語あるいは同種の言語のストリン グ)を受け取り、形態素/語句の境界を調べ、解析ツリーを作成することである 。解析ツリーは次のようになる。 ここで、NPは名詞句、AUXは助動詞、VPは動詞句、PRNは代名詞、Vは動詞、DETは 冠詞、Nは名詞である。 上に述べたように、この仕事の標準の方式は、学習的な形態素/語句の境界認 識パスを最初に行い、次に認識された形態素/語句をひとつの単位として統語パ スを実行することである、すなわち、既存のシステムでは入力ストリングは、最 初に、形態素/語句境界を認識する形態素解析要素を通過する。その結果は以下 のようになる。 she did not write that letter. そして、この分割された文は、次に統語解析コンポーネントへの入力として使わ れる。この既知の方法における問題は、形態素解析コンポーネントは文法情報に 依存せざるを得ないということであり、したがって、形態素解析に使われる規則 と統語解析で使われる規則に多くの重複があるということである。さらに、この 二つのコンポーネントの整合性を常に保持していくことはそう簡単ではないとい う面もある。 翻訳エンジン16のパーサーが、ソース入力テキスト23で、形態素解析と統 語解析を同時に実行するという本発明の二番目の観点にしたがって、正字法のそ れぞれの単位(例えば、"s"、"h"、"e"、など)はそれがあたかも単語であるかの ように、すなわち、"s"も単語、"h"も単語、"e"も単語、"d"も単語として扱われ る。英単語、"she"に対する辞書204に含まれる見出し語は"she"の複合語と 考える。入力ストリングの"she"は同様に扱われ、辞書見出し語の複合語とマッ チする。これは、通常の英文人力テキスト"in front of"が辞書の複合語の見出 し語"in front of"とマッチするのと同様の方法である。このように、未分割の 人力ストリングを解析する辞書204はすべてのイディオム辞書(英語の"a"に相 当する一文字のエントリを除く)である。 未分割の入力文の解析は、文に対する解析の集合が獲得できたときに完了する 。それぞれの解析で、マッチした辞書エントリ(すなわち複合語のイディオム)は 形態素を表わしている。このように、入力ストリングの形態素解析は文法規則を 使ったストリングの解析が終わるのと同時に完了する。 本発明の第二の観点を説明するために、次を考えてみる。日本語は正字法が語 句やフレーズの区切りをマークしない言語の典型的な例であり、次の例に取り上 げている。オリジナル入力ストリングは次の通りである。 <kano><zyo>{ha}<texgami>{wo}<ka>{ka}{na}{ka}{TU}{ta}. 前述したように、これは英語で考えれば、"shedidnotwritethatletter"と同じこ とである。標準的な2段階方式(上述した)は最初にこのストリングの形態素解析 を行う。その結果、次の形態素のシーケンスが得られる。 <kano><zyo>-{ha}-<te><gami>-{wo}-<ka>{ka}-{na}{ka}{TU}-{ta} 「彼女」主語マーク「手紙」目的語マーク「書く」否定 過去形 すでに述べたように、本発明にしたがって、ストリングが次の形態素を含むこと がわかれば、文法規則と辞書構造は、非常に経済的になる。 <kano><zyo>-{ha}-<te><gami>-{wo}-<ka>{ka}-{na}{ka}{TU}-{ta} 表6 辞書エントリの例 表6に見られるように、形態素の境界は「かな」の真ん中にもありえるし、「か な」{ka}がアルファベットで(k)(a)と表現されない限り、形態素の上記の確認は できない。日本語入力ストリングは翻訳エンジン16のパーサーにより、次のよ うに変換される。ここで、アルファベットと認識される文字は丸かっこで表わさ れている。 <kano><zyo>{ha}<te><gami>{wo}<ka>(k)(a)(n)(a)(k)(a){TU}(t)(a) このように、オリジナル日本語正字法に含まれる「かな」の{ka}、{na}、{ta}は 、形態素の境界が初めの子音と母音の間に認識されなければならないことから、 ローマ字の(k)(a)、(n)(a)と(t)(a)にそれぞれ変換される。一方、「かな」の{h a}、{wo}、{TU}については、これら3つの特殊な「かな」の間には形態素の境界 が出現する可能性がないことから、かなのままで保持される。 本発明による次の文法規則206があるとする。 規則1 S=NP.ha+VPtensed 規則2 NP.ha=NP+Particle.ha 規則3 NP=Pronoun 規則4 NP=Noun 規則5 NP.wo=NP+Accusative 規則6 VP=NP.wo+Vt.k.Stem 規則7 VPtensed=VP+NEG.Adj.Past+Past 規則8 NEG.Adj.Past=(a)(n)(a)(k) 本発明では、次の入力ストリング 〈kano><zyo>{haKte><gami>{wo}<ka>(k)(a)(n)(a)(k)(a){TU}(t)(a) が、翻訳エンジン16のパーサーの入力として使われる、表6で説明されている 辞書は本発明による「複合語」イディオムである。そのあとパーサーは以下の解 析ツリー208を作る。 本発明にしたがうと、このような形態素解析は入力ストリングの統語解析の完了 と同時に完了する。すなわち、単一の統語分類で支配されている解析ツリーの一 番下の文字のシーケンスが形態素を構成している。 上記のすべての機能と処理は、汎用コンピュータに組み込まれた種々のハード 配線論理設計および/またはプログラミング技術により実装することができる。 フローチャートに示したステップは、通常、順序どおりに適用する必要はなく、 いくつかのステップを組み合わせることができる。また、このシステムの機能は 、 種々の形でプログラムとデータに振り分けることができる。さらに、文法や他の 操作規則を、コンパイルしたフォーマットでユーザに提供する一方で、一つまた は複数のハイレベル言語で開発しておけば有利である。 本明細書に開示したすべての機能を含めて、上記の自動自然言語翻訳システム の具体例のいずれも、汎用コンピュータ(例えば、アップル・マッキントッシュ 、IBMPCと互換機、SUNワークステーション等)で実行できるデイスクや光学的コ ンパクト・ディスク(CD)のようなコンピュータが読み取れる媒体のコンピュータ ・ソフトウェアとして提供することができる。 通常の当業者であれば、請求の範囲に記載した本発明の精神および意図から逸 脱することなく、本明細書に記載した発明を様々に改変したり、修正したり別に 実装することができるだろう。従って、本発明は上記の例示としての説明によっ てではなく、下記の請求の範囲の精神と意図によって定義される。DETAILED DESCRIPTION OF THE INVENTION                             Automatic natural language translation Cross-reference to related application   This application is related to U.S. Patent Application No. No. 07 / 938,413 is a continuation-in-part application. This application was also filed in April 1996 The target country filed with the US Receiving Office through the Patent Cooperation Treaty (PCT) on the 23rd With the continuation of the international patent application PCT / US96 / 05567, which is the national and Japanese patent application is there. PCT / US96 / 05567 itself is also disclosed in US patent application Ser. No. 07 / 938,4. This is a continuation-in-part application of No. 13. Technical field   The invention relates to translating from one natural language to another, preferably from Japanese to English. Related to automatic natural language translation for translation. Background information   Various methods have been proposed for machine translation of natural languages. Usually used for translation The system used receives input in a language, processes the received input, Includes computers that output in other languages. This type of translation has traditionally been accurate Without the skilled operator having to modify the output No. Translation work by conventional systems generally involves a structure conversion operation. this The purpose of the structure transformation is to parse the source language sentence tree (ie, the syntax structure tree) Is converted to a tree corresponding to the target language. Up to now two types of structures Fabrication conversion methods have been attempted. In other words, conversion between grammar and template Is the conversion of   In the case of a grammar-based transformation, the domain of the structural transformation is the source language parse tree ( That is, a set of subnodes that are direct children of a given node). Is limited to the area of grammar rules used for For example, if you have the following formula         VP = VT01 + NP (The verb phrase is a transitive verb with one object and a noun phrase                                 Are arranged in this order. ) And for Japanese, 1 + 2 => 2 + 1 (the order of VT01 and NP is reversed                                       I have. )   The source language parse tree, including the application of rules, is structurally ordered by verbs and objects. Is converted to be the opposite. Because in Japanese the verb comes after the object You. This method is used where rules are used to obtain a source language parse tree. It is applied exactly and you can quickly find where a particular conversion has taken place Very efficient in point. On the other hand, as mentioned above, the area is greatly restricted And that natural language spans non-child nodes It is a weak conversion mechanism in that it may require rules.   For conversion between templates, the structural conversion is an input / output (I / O) template or Is specified in the form of a subtree. An input template matches the structure tree In this case, the part of the structure tree that matches the template Is converted as specified in the template. This is a very powerful conversion mechanism Matches any part of the existing structure tree with the given input template This can take a considerable amount of time to find and can increase processing costs. Summary of the Invention   The automatic natural language translation system of the present invention has many advantages when compared with conventional machine translation devices. With the advantages of The system automatically translates the entered text information for the best possible translation And provide the user with the output (preferably a Japanese translation of the English input text) After doing so, the user can manipulate the displayed translation result or automatically You can interact with this system to get other translations. The present invention The person who operates the dynamic natural language translation system can use the translation result Automatically re-translate the rest while keeping the minutes intact. By performing this selective retranslation, only the parts that need retranslation are translated. The translations save the operator time and potentially increase the number of errors. They consider very high quality translations, even if they are accurate You can do tedious tasks quickly. In addition, this system provides various Because translation coordination can be done, much of the final structure of the translation is usually Is created. Therefore, by using this system, Perpetrator) to reduce potential mistakes and alter sentence structure, personality and tense alignment The time required for reworking such as can be saved. This system offers a wide range of Can provide accurate grammar and spelling knowledge.   The automatic natural language translation system of the present invention is capable of separating sentences contained in a source language. A variety of ambiguity treatments and powerful semantic communication make translations more accurate. In other words, the time required for the operator to perform translation correction can be shortened. Special Depending on the learning statistics that the system remembers according to the preferences of certain users, Translation quality is further improved. The idiom processing method of this system When there is a sentence containing a phrase, it can be translated accurately without considering the meaning of the idiom itself. It has the advantage of being able to. The system is not only efficient, It has various functions to match the characteristics of low reams. Structure balance of this system Experts and peer-structured experts are responsible for the intended analysis and the unintended solution. Efficiently distinguish between The capitalization expert can efficiently use uppercase words in sentences Is interpreted correctly, and the Obun Ugen procedure does not completely ignore the interpretation as a common noun To efficiently process proper nouns of compound words.   Viewed from an aspect, the present invention relates to an improvement of an automatic natural language translation system. In this case, the improvement is at least Convert some kana to alphabetic characters in natural language (preferably English) By doing so, the boundaries of words and phrases can be recognized between "kana" The present invention also relates to analysis of input text information of a source natural language (preferably Japanese). Entering The power text information includes “kanji” and “kana”. "Kanji" is a meaningful table Kana is a phonetic character that represents a mere sound that has no inherent meaning. You. Source natural language is a language that uses both ideographs and phonograms. As can be seen, no word or phrase breaks have been added.   In another respect, the present invention provides another improvement of an automatic natural language translation system. About. The improvement is based on morphological analysis and syntactic analysis of input text information. At the same time, the source natural language (preferably Japanese, Korean, Chinese) It relates to parsing the input text information contained. Source natural language is Japanese , Korean, Chinese, and other languages that do not have words or phrases separated. You.   The above and other objects, features, features and advantages of the present invention are set forth in the following description and claims. Reading the range will reveal it. BRIEF DESCRIPTION OF THE FIGURES   The same reference numbers in different drawings generally identify the same parts, even in different drawings. Ma The drawings are not necessarily to scale, and generally illustrate the principles of the invention. Emphasis.   FIG. 1 is a block diagram of a system for automatically translating a natural language.   FIG. 2 is a data flow chart showing the overall function of the system of FIG. .   FIG. 3 is a flowchart showing the operation of the system of FIG.   FIG. 4 is a flowchart showing the operation of the sentence end recognition function of the preparser of the system of FIG. It is a chart.   FIG. 5 is a flowchart showing the operation of the parser of the system of FIG.   FIG. 6 is a flowchart showing the operation of meaning transmission of the system of FIG.   FIG. 7 is a flowchart showing the structure conversion operation of the system of FIG.   FIG. 8 is a flowchart of the expert evaluator of the system of FIG.   FIG. 9 shows that for the example phrase “by the bank”, the system of FIG. Here is a sample graph to use.   FIG. 10 illustrates the input text “kana” according to one aspect of the present invention. Alphabet letters so that the presence of the laze boundary is recognized between "kana" FIG. 2 is a diagram of a system for converting to.   FIG. 11 shows a morphological analysis and integration of input text according to another aspect of the present invention. It is a figure of a system which performs word analysis simultaneously. Description of the invention   First, an overview of the automatic natural language translation system of the present invention will be given without referring to the drawings. I will tell. After this summary description, a description will be given with reference to the drawings.   Automatic natural language translation system translates source natural language into target natural language Can be. In one preferred embodiment, the above system translates English into Japanese. You. In another preferred embodiment, the above system translates Japanese into English. You. The system includes means for receiving and storing a source natural language; A translation engine for creating translations of the user; means for displaying translation results to a user; Means for providing and displaying another translation result to the user. This system For example, the translation engine may be a pre-parser, parser, It includes a placement, an evaluator, a graph scorer, a grammatical structure extraction device and a structure conversion device. Preparser inspects input text and analyzes ambiguous parts of sentence end recognition I do. After that, the preparser analyzes the input chart with the analysis chart including the dictionary entry words. Create and display text. The parser classifies possible syntax for input text Analysis of the above chart is performed to obtain. Graph creation device Make a graph of the possible parsing of the input text based on the In this graph , Nodes and sub-nodes associated with possible interpretations of the input text. Series of The evaluator, including the expert, evaluates the interpretable graph, and Add expert weights to subnodes. The graph scorer uses subnodes Use expert weights to evaluate, then N top scores and each Associate with a node. The grammar structure extractor converts the parse tree structure into graphs and scores. Assigned to the preferred interpretation determined by La. The structure conversion device inputs the translation in the target language. For the sake of convenience, a structural transformation is performed on the parse tree structure.   In the following three paragraphs, (a) calculate the final weighted score for each subnode How the graph scorer combines expert weights to (B) how to get the graph scorer to reach the final node score Whether to combine subnode scores; (c) the linguistic information Explain how to convey the tree.   To calculate the final weighted score for each subnode, the graph scorer is , Associate a constant value with each subnode. Analysis of linguistic information related to each subnode To Thus, the score of the subnode is determined. For example, a series of expert evaluations Child examines linguistic information stored in each node and sub-node See FIG. No. Graph scorer is the final weighted average for a particular node or subnode Calculate the sum of the individual weighted scores for each expert to get . Combining multiple weighted scores into one weighted average score is This is a standard issue in Jens. One method that can be used is Multiply the result of the expert by the constant (weight) assigned to that expert There is a way to make it happen. The weight assigned to each expert is determined at design time. It is a problem. Designer decides priority (weight) to be assigned to each expert . The weighted average is the sum of each number multiplied by a constant and a series of numbers. For example And the following equation. Weighted average = (w1) (X1) + (WTwo) (XTwo) +. . . + (Wn) (Xn) Where weight w1, WTwo,. . . , WnAre non-negative numbers and sum to 1 . For example, Spiegel mentions the use of weighted averages for expected statistical values See "Probability and Statistics Theory and Problems 76" (1975, McGraw-Hill) I want to be.   To connect the subnode scores to get the final node score, The graph scorer runs the subnode score from the bottom to the top of the graph. Can be transmitted. For a graph where each node has a set of N scores, , One or more transmission methods can be determined. Propagate subnode scores One technique that can be used to reach is to solve optimization problems There is a storage method that is some kind of dynamic programming used. Solution of optimization problem The modulus can include many possible numbers (results). The purpose is to emit the optimal value It is to see. The algorithm used for optimization is once for each sub-sub-problem Solving and remembering results, so recalculate the answer each time a sub-sub-problem is encountered Eliminates the need. For a more detailed explanation that applies to optimization problems, for example , Komen et al., "Invitation to Algorithms" (1990, McGraw-Hill), 30 1 See page 314. 301, 30 of this "Invitation to Algorithm" Pages 2 and 312 are used to convey subnode score information in the graph. One method that can be used is described.   When communicating linguistic information in a tree, the part that conveys the meaning of the system is Act to convey taste information from smaller internal components to larger components. Make. The transmission of meaning is based on the four classes of syntactic classification used in parsing operations. Applicable to SEMNP, SEMVP, SEMADJ and NERB. Before meaning is communicated First, the linguistic information stored in the node must be analyzed. Remember in node The analysis of the semantic information that has been performed points out the noun-like elements and verb-like elements of the grammar rules. By examining which noun-like object, which verb-like element of the grammar rules Guided by a set of rules that dictate whether to apply selective restriction slots. The Herald Gazda's book, Natural Language Processing in Prologue (Ade Isson Wesley Publishing Co., Ltd.) in a direction similar to the graphs disclosed herein. To analyze the semantic information stored in the nodes of the non-ring shaped graph Describes a set of rules that can be used for Gazda is adjacent Describes the use of property matching to match information about nodes. Gazda states that property matching involves the equations described below.   "Some properties that appear on one node are properties that appear on another node. Must be the same as The latest research relates to the classification of parents and their characteristics. A morpheme is also an element of equalizing the details of certain classes of properties that appear above. Rules are assumed. This child is called the "head" of the phrase. Most The phrase has only one head. So, for example, a verb phrase receives the tense of that verb. Inherit. Because the verb is the "head" of the verb phrase. Ever used Using this notational resource, you can easily specify this principle that applies to the whole grammar There is no way. However, if the relevant properties are all found on one branch of the DAG It is very easy to state the effect of this principle on a rule-by-rule basis, assuming that You can read. So we write the normal VP rule as Can be.       VP ---> V NP PP       <Head of V> = <Head of VP>   In this case, the characteristic value of “head” of V is the same as the characteristic value of “head” on the parent VP. It must be the. "   The rules discussed in Gazda are readily applicable to each classification of the syntax disclosed herein. Can be used. Linguistic information assigned to each node using Gazda rules The information can be propagated through the tree by the technique of storage methods.   Here, to summarize the contents of the above three paragraphs, the weighted average is Is one way to determine the Can be propagated through the graph 7 using well-known storage method techniques, as described by Gazda. The method described in this book is used to analyze the linguistic information stored at each node. This linguistic information can be used by grammar structure analysis That is, it is possible to communicate within the chart.   The automatic natural language translation system automatically re-translates after the first automatic translation is completed. It can be carried out. In other words, the system will automatically input text information as much as possible. Also provide the appropriate translation and output to the user (preferably the input English text in Japanese After providing the translation or the translation from Japanese to English), the user Interact with the system to correct the translation or automatically get another translation I can talk.   An automatic natural language translation system is a language model that decomposes one sentence into substrings. To use Substrings occur in the order specified as part of the statement. One or more words. For example, the substring "The man is happy" Means `` The '', `` Theman '', `` man is happy. ”,“ Is ”and“ The man is hap ” includes "py" itself, but includes "is man", "man man", "The is" Not in.   Different language models can be substringed in different ways and at different levels of detail. Is defined. For example, in the sentence "They would like an arrow"  The "arrow" is usually classified as a noun phrase (NP). In another model, "an arrow" Categorize by syntactic properties (eg, singular noun phrases) and literary properties (weapons) You. If the meaning of this phrase is ambiguous, there are several ways to classify it. An example For example, "an arrow" could mean an arrow-shaped symbol. Language model When providing a way to resolve ambiguities, Resolve ambiguity by linking to units. When evaluating larger units , These models only consider information contained in larger units .   As a specific example of this system, the meaning of "an arrow" (sign or weapon) The above characteristic is called "like an arrow" in the sentence "They would like an arrow" Used when evaluating a verb phrase. On the other hand, the syntax of the phrase "an arrow" is "He If it is in the sentence "shot it with an arrow", it means "an arrow" Property is used when evaluating the verb phrase "shot it with an arrow". Absent.   Assignment of sentences that interprets a specific language model (interpreted substring) in one way Exported attributes exist for any substring. Expo Attributes are interpreted to form the interpreted substring and a larger substring. All attributes used to evaluate the combination with other units to be formed. The export is the interpreted sub-list that was interpreted with the exported properties. It is a ring. Contained in the interpreted substring but not exported Missing attributes are called substructures.   The system parser includes a grammar database. The parser uses grammar rules. To find all possible interpretations of the sentence. The grammar database is X = A1A2 . . . It consists of a series of context-free phrase structure rules in the form An. X represents A1A2. . . , An, or high level nodes (subnodes) It is called a lower-level node (subnode) An from A1.   The system's graphing device graphically represents many possible interpretations of a sentence. You. Each node in the graph corresponds to the export of a substring. Cis As an example of a system, one export is represented by one node. The graph is , Including the arcs emanating from the node associated with one export. Arc is a grammar Represents an export substructure based on the application of a rule. At least two graphs of Type of arc, ie (1) one different export of the same substring A single arc pointing to a point, (2) a set of points pointing to two exports Two sub-strings, ie, when connected, their substrings are: Form a substring of the original export. The formula of (2) is Chomski Note that we assume the normal form grammar of The modified claim 35 By paraphrasing Ip (2), instead of Chomski's normal form grammar, N Applied to a grammar reflecting an arc with an N-fold pointer pointing to the export of You.   The graph contains a single starting export point S, from which a series of arcs can be traced. With this, all parts of the graph can be reached. The departure export is Corresponds to the entire sentence.   Only one platform that can form the same export from multiple exports Several arcs start from the code. (A set of poi in an arc consisting of two arcs In this sense are not considered multiple arcs. ) If the export is Multiple arcs point to one node only if it is one element of the kissport Will be. Nodes without arcs are the dictionaries assigned to substrings Corresponding to the headword.   Multiple language experts assign numerical scores to a collection of exports . The language expert applies the score to each node of the graph. System An example of a system is a score matrix (each element of the matrix is the score of a particular expert). Is the weight for multiplying by) is a fixed floating-point number Length "N".   The score is a score built into the graphing engine and / or parser. Evaluated by the coring module. The higher the score, the higher the export Calculated for all forming exports. Higher export The score for is the export that forms the higher level export And the combination of scores assigned by the structural adjustment expert Calculated as the sum of the scores of any expert.   The order of arriving at the node and examining the score is the standard depth first graph movement algorithm Is a rhythm. In this algorithm, the scored nodes are marked And will not be scored again. During the scoring process, Before the coring module evaluates any higher unit of any node, Evaluate the headword node of the dictionary. Each entry in the dictionary has one score.   If there are multiple ways to perform a single export, multiple scores You. That is, if there are k ways to export, Scores. The multiple scores are processed as follows.   (1) In a rule with a single element, each of the k exports with a lower export Is added to the expert value that applies to the single-element rule, and The resulting vector of k scores is associated with the parent export.   (2) In the rule consisting of two elements, the left child has a g-score and the right child Are considered to have h scores. Then g score multiplied by h score Adds each score for the right child to each score for the left child, and Calculated by adding the expert numbers applied to the disjoint rules It is. If the value obtained by multiplying the g score by the h score exceeds N, the highest N Only the core is kept with the parent node.   (3) If one export can be made in multiple ways, Or N scores are added to the node's score list, and only the highest score Is held.   Once the score calculation is complete, the above method will allow each export to Export, including attributes of all substructures not displayed in the export G styles representing the g most likely ways (for the language model) to do Confirm that it is associated with the set of cores (g in the range from 1 to N). Le In special cases, such as alert nodes S, this score calculation method forms the entire sentence. Gives the g most likely methods.   Each score in the above score list has an associated pointer. Pointer, yo Which score in the lower export score list is higher Provide information indicating whether they were combined to create Track each pointer This translates the g most likely interpretations of the sentence into an unambiguous parse tree Can be extracted.   The automatic natural language translation system will be described in more detail with reference to FIGS. You. Thereafter, various improvements of the present invention will be described with reference to FIGS. explain.   1 and 2, an automatic natural language translation system 10 according to the present invention will be described. Input interface 12, translation engine 16, storage device 18, user input The device 22 includes a display 20 and an output interface 14. Input interface Interface receives a series of texts written in a source language such as English or Japanese You can do it. Keyboard as input interface Digital interface such as a voice, audio interface or modem or serial input. An interface may be included. The translation engine uses data from the storage device And translate the source language. The translation engine is composed entirely of hard-wired logic circuits. Can be made and contains one or more processing units and associated storage instructions You can also. A translation engine can include the elements and parts described below. You. That is, the preparser 24, the parser 26, the graph creation device 28, the grammar Construction analysis / translation evaluation preliminary 30, grammar structure analysis extraction device 32, structure conversion device 34, and A user interface 42 including another grammar structure system 37. Structural change The conversion device includes a structure conversion device 36 based on grammar rule control and a structure conversion device based on dictionary control. 38 and a structure conversion device 40 based on generation rule control. Storage device Reference numeral 18 denotes one or more disks (for example, a hard disk; a floppy disk). Disk and / or optical disk) and / or memory storage (eg, RAM) and the like. These storage devices contain all of the elements described below. Or a part can be stored. That is, the basic dictionary 44, the technical term dictionary 46 User-created dictionary, grammar rules 48, generation rules 50, semantic property tree 52, It is a structural property tree 54 and a graph 56. The storage device 18 stores the source natural language. Input text information written in, output text information written in the target language, and One or more dictionaries, used to perform translations containing domain keywords and grammar rules Used to store all types of information that are useful or useful. User input interface The face 22 is a keyboard, a mouse, a touch screen, a light pen or It includes other user input devices and can be used by the system operator. display Computer display, printer or other type of display. Rays can be used, or with other devices to inform operators There can be. Output interface 14 provides the final translation of the source text In a target language such as Japanese. The above interface is a printer Electronic such as, display, audio interface, modem or serial line It can include an interface, other to send text to the end user May be included.   The operation of the specific example of the translation system of the present invention is shown in FIG. 1, FIG. 2 and FIG. As described above, the preparser 24 first performs a preliminary analysis on the source text 23. (Step 102). This includes ambiguity in end-of-send certification of source text. A structure analysis chart including an analysis of ambiguity and including a dictionary headword 25 is created. Thereafter, the parser 26 generates a structural analysis chart in which the syntax possibility 27 is described. (Step 104) created by the preparser to obtain Perform a structural analysis. The graph creating device 28 performs the structural analysis obtained in the structural analysis step. Based on the chart, a graph of possible interpretations 29 is created (step 106). The evaluator 30, which accesses a series of experts 43, generates a graph of the stored interpretation. Is evaluated (step 108), and expert weights are added to the graph 31. The The rough scorer 33 scores nodes and assigns N (for example, 20) Are associated with each other. The grammatical structure extraction device 32 The structural analysis tree structure 39 is assigned to the appropriate interpretation (step 110). After that, The structure conversion device 34 accessing the conversion table 58 converts the translation 41 into the target language. Is performed on the tree (step 112). You The user interacts with other structural analysis systems 37 to obtain other translations. Can be.   Referring to FIG. 4, the system of the present invention converts an input word string into individual punctuation marks and And tokens (step 114) containing character groups forming the words , A preliminary structural analysis is performed. The appearance of spaces is the solution of letters at this level. Affect the pardon. For example, "-" in "xy" is a dash, but "- The "-" in "y" is a hyphen.   The preparser then combines the above tokens into phrases (step 11 6). At this level, the preparser uses special structures (for example, Internet Addresses (such as addresses, phone numbers and social security numbers) as a unit . The preparser also performs a dictionary lookup to separate groups. For example, "re If "-enact" is listed as "reenact" in the dictionary, it will be one word, but it will be listed If not, there are three separate words.   In the next preliminary structural analysis stage, end-of-sentence recognition of where the sentence ends is performed (step 118). During this process, the preparser uses the possible end of each sentence (ie, , After each word in the source text), Access basic dictionaries, technical term dictionaries and on-board user-created dictionaries . The preparser needs to perform this step if a particular order is specified And these steps can be performed as a sequence of rules. Alternatively, it can be coded by being incorporated in hardware.   Referring to FIG. 5, the preparser uses a series of dashes "----". When there is a sequence of symbols that cannot be analyzed, Is interpreted and recorded as one "sentence" (step 120). The preparser is , Request two carriage returns as the end of the sentence (step 122) . If the first letter of the next word is lowercase, the preparser ends the sentence. This is not considered (step 124). If the sentence starts on a new line and is short If so (eg, a title), the preparser considers it a single sentence.   The preparser does not include the closing parenthesis and closing quote ,end(. ), Question mark (?), Or exclamation point (!) As the end of a sentence (step 128). ``. For sentences ending with "" or "?", Etc., the preparser , Plus punctuation before the quotes, plus virtual punctuation after the quotes. The following example shows how to virtually add punctuation to "?".       The question was “What do you want?”       Did he ask the question “What do you want?”       Are you concerned about “the other people”?   In the case of English, the above sentences are likely to end with "?" ". Preparser The added punctuation means that something like a question mark before the quotes It indicates whether it is present or not at all. End of quote after quote Or something like a question mark exists. By the grammatical structure of the rest of this sentence The most appropriate choice can be made in subsequent processing stages.   The preparser also uses several additional methods for terminating Steps 130, 132, 134, 136 and 138). Abbreviations included in dictionaries Has a mark at the beginning of the sentence that it can never be used, Some are marked as never usable (step 130). These rules are always respected. For example, "Ltd. Is not used at the beginning of the sentence, `` Mr. Is not used at the end of a sentence. The preparser also states that the next phrase is "the ”,“ In ”(step 132), one letter large sentence When a letter has an end, it does not consider the sentence to end. The word before the stop is If it is in one of the dictionaries, the sentence ends at the end (step 134). The word before the terminator is not in the dictionary, and the word ends in it Have a mark (for example, I. B. M. ), The following words are not listed in the dictionary as lowercase If the word or the next phrase is in uppercase, the sentence is at the end of the sentence. It is assumed that the process is not finished (step 136). Otherwise, the end is Indicates the end of the sentence (step 138).   Referring again to FIG. 2 and FIG. 3, sentence breaks are indicated by the preparser. If specified, the parser puts the words of the sentence into a syntactic classification and describes the possible syntax of the sentence. Apply grammar rules in the grammar database to those phrases to calculate Interpretation 25 (Step 104). The grammar rule 48 is a computer expression that describes the grammatical restrictions of the language. It can be implemented as a series of rules that allow data processing. For English, this is There are hundreds of such rules, and these rules apply to hundreds of syntactic classifications. This work To reduce the extra time required to calculate the work, the different possible meanings of a phrase are Ignored and processed.   In the next step (step 106), the graphing device determines whether the words have different meanings. A non-ringed shape with a direction that captures the taste and represents all the semantic interpretations of the sentence Use a dictionary to extend the parser results to create a rough. This graph is , Created with the help of a series of semantic communication procedures described below. These steps Is based on a set of prepared grammar rules, and in some cases, seeks semantic information. Access the semantic property tree. A semantic property tree is a tree containing semantic classifications Structure. This tree is roughly organized from abstract to concrete. , How far apart in the tree, each level in the tree Determines from both things how two terms are semantically related Can be For example, "cat" and "dog" are more related than "cat" and "pudding" High in nature. Therefore, "cat" and "dog" are two in the tree of "animat" Distance is short, "animat" and "cat" are remembered at different levels of the tree It is an example. Because "animal" is a more abstract word than "cat" It is.   Referring to FIG. 9, the graph of this figure includes a node 80 and its subnodes. Modes 82, 84, 86 are pointers 88, 89, 90 and 91 are linked. The first type of association in a graph is a node representing a phrase Pointers to the nodes of the words and subphrases Is what you have. For example, the node 84 representing “the bank” is the pointer 9 2, 93, the words "the" 94 and "bank" 95 Link. The second type of association in the graph is that the interpretation of the phrase Have a pointer to another way to make the same higher level component from Is the case. For example, a node 80 representing the phrase "by the bank" Pointers 88 and 89 and 90 and 91 linking to It can have two source interpretation positions 81, 83 including: In this case, Each component word has a different meaning, each representing a different meaning to the bank. Nodes 84 and 86. The structure of the graph is defined by the results of the analysis work, Limited by source statement syntax. The nodes in this graph represent the process of semantic communication. Associated with the storage location for the semantic information entered in the   The parts that convey the meaning of the system are from the smaller components that contain them to the larger It acts to transmit semantic information to various components. Semantic information can be analyzed at an early stage Applies to the four classes of syntactic classification used in. The four classes are SEMNP (name (Including verb-type objects and prepositional phrases), SEMVP (verb like object, usually taking the subject) Phrase), SEMADJ (adjective), and VERB (verb-type verb in a dictionary that often takes an object) ). Other syntax classifications are ignored by certain rules. Who sets the grammar rules? By marking rules specifically, it is possible to override actions that do not appear on the surface. Can be. These special orders come first.   The manner in which semantic properties are transmitted in the system has two aspects. The first aspect is grammar rules By examining the noun and verb components of the rule, , You can know which optional restriction slot of the verb type component to apply Is a set of rules. For example, in the verb phrase "I persuaded him to go" The rule for this is, roughly speaking, VP = VT11 + NP + VP (here, VP Is a verb phrase, VT11 is a transitive classification, and NP is a noun phrase. Diff as an example The fault rule states that if a verb takes an object, the first NP to the right of the verb The choice restriction must be applied. Another rule states that the subject Specifies that the VP restriction for must be applied to the first NP to the left of the VP. I'm worried. When these rules are combined, both "persuade him" and "him go" The evaluation is made so that the meaning of the person is well understood. As already explained, These rules reflect the complex rules of English, so their number is very limited Have been.   Referring to FIG. 6, the semantic communication task copies selection restrictions from SEMVP to statements. (Step 140). SEMNP is used as a location expression In that case, the validity of the semantic constant that specifies a good position is evaluated (step 142). A rule is the union of two SEMNPs (logical AND of syntactic features The graphing device discusses the semantic properties. Logically, apply to the semantic distance expert (step 144).   While examining the specified rules for the transmission of semantic properties, the graphing device But at a higher level (for example, if it is part of a SEMNP that contains more words) When the position of the `` head '' of the SEMNP to be transmitted to the The taste characteristics are also transmitted (step 146). However, if the "head" is (For example, "portion", "part"), the "head" is left or right from SEMNP To communicate. Neither SEMVP nor SEMADJ has a location for the division (step 1) 48) Except that it is transmitted in the same way. Adjectives are a part of SEMVP in this sense Department.   If the SEMVP is made from rules containing VERB, the graphing device will Causes the verb subject restriction to be propagated upwards, except where In the case of passive voice, The first object restriction of VERB is communicated (step 150). Of rules including SEMVP In case, the graph creator moves the selection limit of SEMVP to the left from SEMVP Attempt to apply to the encountered NP (step 152). For rules that include SEMADJ When the graphing device moves the SEMADJ selection limit to the right from SEMADJ first, Try to apply to any SEMNP you encounter and if that doesn't work, An attempt is made to move to the left (step 154).   VERB any remaining unused object selection restrictions (upward to be passive (Not communicated until then), the grapher encounters on the right side of VERB The above restrictions are applied to the SEMNP in order (step 156). All these rules By convention, verb selection restrictions run out as soon as they apply to something. In the case of all previous rules, SEMNP will apply if something applies to those SEMNPs Is not exhausted. Starting from this rule, SEMNP is exhausted You. Eventually, if a rule creates a SEMVP, the graphing device will Determine if any unused SEMVPs or SEMADJs are included and include If so, it is transmitted upward (step 158).   The system also performs language feature matching. Linguistic characteristics are words and other constructs. The parsing property matching, a property of the component, is used by the parser and The ching is used by a graph creation device. But the same method is used for both Is done. For example, "they" has the syntactic property of plural, while "he" is singular. Have syntactic properties. Characteristic matching is the ability of a phrase to Mark grammar rules so that they only apply if certain features are met I do. For example, assume that there are the following rules.   S = NP {@} + VP {@} Here, the symbol @ means that the characteristics of the numbers of NP and VP must match. To taste. Therefore, this rule states that "they are" and "he is" are correct, "They is" and "he are" are not allowed.   Characteristic match restrictions are divided into "local" and "wide". Extensive behavior , Not when the sentence is actually processed, but when the grammar is created. And the broad sequence of operations that must be performed is an instruction byte. Is coded.   The calculation of the "wide-range" characteristic operation is based on a rule consisting of n elements (ie Have more than one element). Then the cis The system uses various two elements to ensure that the set of properties ends up communicating properly between rules. Assign codes to disjoint rules. a rule consisting of n elements with two elements By breaking it down into a set of rules, the parsing task is greatly simplified. But Since the stem tracks a set of properties across a two-element rule, , The system retains the power of "widespread" processing.   In the system of the present invention, the dictionary is also treated as individual words constituting the dictionary. However, it also includes "idioms" composed of a plurality of words. These two forms are ultimately Will compete with each other for the most appropriate translation. For example, in a dictionary The meaning of "black sheep" is registered as "surplus". But oh In some cases, the phrase "black sheep" may mean "black sheep" . Both of these forms are preserved, so translations that are not this idiom, Selected as correct translation.   This idiom also belongs to another category. For example, the system has three types: Can be used.   Almighty: United States of America   Preferred: long ago   Normal: black sheep An almighty idiom is a possible interpretation of any of the words that make up the sequence. Priority. Preferred idioms are words that make up the sequence When used, it takes precedence over any possible interpretation. An ordinary idiom is Compete with other headwords at the same level.   The resulting graph is evaluated by an expert (step 108, FIG. 3). Valued, the expert provides a score that indicates the likelihood of correct interpretation of the graph I do. The system of the present invention allows all parts of an arbitrary length of a sentence, not just the entire sentence. Includes scoring method applied to minutes. An important factor in using charts is: The subtree is only once, even if it is used in so many statements It is fully scored and analyzed. For example, "Near the bank ther e is a bank. In the phrase "Near the bank." Has two meanings, but the decision to determine the most appropriate interpretation of the phrase is Or not done. The phrase "there is a bank" is similarly interpreted in two ways. However, the decision of which of these two interpretations is most appropriate is made once. Only done. So this sentence can be interpreted in four different meanings, Subphrases are scored only once. Another feature of this graph is that The node has easily accessible information about the length of that part of the sentence That is. This feature allows any sentence in an English sentence to be analyzed without re-analyzing it. The N most appropriate interpretations of the busstring can be made.   In one run, the most appropriate N analyzes of the statement are obtained each time. (N is some number on the order of 20), but by using the graph, the system It can incorporate the results of user selections for smaller components and Perform the N most appropriate analyzes that respect user choice. All these analyzes are sentence Without re-analyzing or re-scoring any substrings Can be done quickly.   Referring to FIG. 8, the operation of the expert evaluator 30 characterizes each translation. It is based on various factors, which are processed by various experts. Sure Rate Rule Expert 170 is used to get the initial source language parse tree Evaluate the average relative frequency of the grammar rules to be performed. Selection Restriction Expert 178 Evaluate the degree of semantic matching of the given translation. Dictionary Headword Probability Expert 1 72 shows some of the statements used to obtain the initial source language parse tree. Evaluate the average relative frequency of a particular "speech" of a phrase. A statistic expert Evaluate the average relative frequency of a particular paraphrase selected for translation.   The system provides English "products" for individual English words, phrases, and word groups. The words (POS) are automatically determined. When translating a sentence, the system automatically recognizes the part of speech Decide dynamically and usually make the right decision. But sometimes, the translated sentence itself May be ambiguous. Contains words that can be interpreted as different parts of speech , You will get several different and all "correct" interpretations . The system operator ignores the part of speech that the system automatically determines and substitutes You can also manually set any part of speech for a word, phrase, or group of words. Wear. For example, the English sentence "John saw a boy with a telescope" Considers "a body with a telescope" to be a noun phrase, "The boy had a telescope." I used a telescope to see it. " Operating The user can make several possible part-of-speech settings, or manually If you override the part-of-speech rules determined by the system, the translation result Sometimes things get worse or at least not get better. noun Phrases are less restrictive than nouns; groups are the least restrictive parts of speech Settings. The table below shows the various possible parts of speech settings.Part of speech (POS)   noun   Noun phrase   Verbs (transitive, intransitive)   Verb phrase   adjective   Adjective phrase   adverb   Adverb phrase   preposition   Prepositional phrase   conjunction   group   English   The part-of-speech settings for "adjective phrases" and "adverb phrases" are based on the fact that an English sentence This is effective when the meaning differs depending on how the phrase is interpreted. An example For example, the sentence "We need a book on the fourth of July" becomes "on the fourt h of July "is interpreted as having an adjective meaning, I want a book about Independence Day on April 4. Means "on the four If we interpret th of July as an adverb phrase, "We want a book on July 4th. ]. System automatically corrects "on the fourth of July" If the operator considers that a part of speech has not been assigned, the operator d a book on the fourth of July '' Can be manually set. The operator can tell the system specific words, If you do not want to translate a phrase or word group from English to Japanese, The part of speech "English" can be set for a word, phrase, or word group. Oh The operator will be notified by the operator even if the settings have been made automatically by the system. One or more part-of-speech settings can be removed even if done manually .   The system tracks translation usage statistics at multiple levels for each user. You. For example, the system states that the level of the surface form of a phrase ("leaving") is a transitive verb. , Or at the frequency used as an intransitive verb), and at the semantic level (" `` Remains after '' or `` starts from '') The latter type has different variants of "leave", "leaves", "left" and "leaving". The number of appearances is accumulated for each form. The system is also in the last few statements Used statistics are kept separate from usage statistics at any time of the user can do. In addition, the system allows the user to use certain meanings of the phrase The system instructs the user to intervene, and the system can identify the words and phrases without user intervention. It can be distinguished from the case using a fixed meaning.   The structure adjustment expert 182 is a feature related to the length of a part of a sentence. It is based on features common to English and many other European languages. Several( Structure (but not all), in these languages, the heavy (long) ) Sentences with elements are not welcome. For example,   Mary hit Bill with a broom. (Light left, heavy right) (fit)   Mary hit with a broom Bill. (Heavy on the left and light on the right)   Mary hit with a broom a dog that tried to bite her.                               (Heavier on the left and heavier on the right) When there are two parsings of a sentence, one tries to avoid such a sequence If the sequence contains a "heavy left and light right" sequence that includes the structure, and no other analysis In that case, the former is deemed not to represent the intended interpretation of the sentence. This extract Parts are an effective way to distinguish between intended and unintended analyses.   In the equivalence structure of the pattern “A of B and C”, the intended interpretation is “A of {B and C} "or" A {of B} and C " It can be difficult. The peer structure expert 180 will tell you which To determine if the two elements that are closer will be joined, Measure the distance and the semantic distance between the ACs. This expert is Access the taste characteristic tree. This expert is responsible for the intended parsing and It is also an effective way to distinguish unanalyzed analyzes.   Many words in English are implicit in their interpretation as common nouns and as proper nouns. Ambiguity. The capitalization expert 176 indicates that capitalization is significant. Use uppercase positions in sentences to determine if For example , In the sentence below,       Brown is my first choice.       My first choice is Brown. The first sentence is inherently ambiguous, while the second sentence is “Brown” with a color name. But rather much more likely to be a person's name. This expert starts with a capital letter. Whether the phrase is at the beginning of the sentence or not at the beginning of the sentence (example above) Whether the dictionary contains words that appear in uppercase, words that start with lowercase Take into account factors such as whether the phrase is registered in the dictionary. This extract Parts are an effective way to correctly interpret capitalized words in sentences .   When a sentence initially contains a sequence of uppercase words, the sequence is a proper noun or Is treated as a common noun. The system of the present invention uses a capitalized sequence procedure. , And the former interpretation is given priority. The above sequence is itself a normal statement When analysis is not possible due to legal rules, the sequence is not analyzed. It is processed without being translated as a noun phrase. This procedure is usually low A very effective way to handle compound proper nouns without completely ignoring the noun interpretation It has proven to be a step.   Referring to FIG. 7, the machine translation system of the present invention is based on simple grammar rules. Although the efficiency of the structure conversion method based on Uses the grammar rule control structure conversion mechanism 162 which is close. This method is not A grammar rule 160 that can specify a combined structure is used. With other translation systems The format of the rules used is shown below.       Y => X1 + X2 +. . . Xn           The specified substructure                   Y             X1 X2. . . Xn   The system of the present invention uses the following grammar rule format.       Y => # Z1 (i) # Z2 (2) X1 + X2. + Xi + X (i + 1) + ... X (n )             The specified substructure In this syntax, symbols preceded by a "#" are not visible for sentence structure analysis purposes Symbolic, but used to build substructures once the analysis is available It is a virtual symbol.   Given this type of grammar, the substructure of the child node Multiple structure transformations can be specified between arbitrary sequences. This As a result, the structure conversion mechanism based on grammar rules is It is converted into a mechanism with the ability. The system of the present invention is the second type described above. Grammar rules, but the corresponding grammar rules in the first form are automatically To create. Therefore, use the first form of grammar rules to parse the sentence, A second form of grammar rule can be used to form the grammar parsing structure.   Structural transformations are also performed by grammar rule control structure transformation operations, and then analyzed. Dictionary control structure conversion operation 16 that accesses the dictionary 161 to operate on the 6 inclusive. Thereafter, the production rule structure conversion operation supplies the target language text 41. To do so, apply a production rule to the resulting parse tree.   Referring again to FIGS. 1 and 2, the system performs After creating the most desirable translation, the translation is Offered to the. Thereafter, the user can either adopt the translation or use the user input device 2 By operating another analysis system 37 through 2, the adjustment can be made. Rework During the work, the user keeps the part of the translation result that was correctly translated , Retranslation of other parts can be requested. This can be done quickly. Because the system keeps a graph containing expert weights 31 La It is.   The automatic natural language translation system has been described in some detail with reference to FIGS. Has been described. Hereinafter, various improvements of the present invention will be described with reference to FIGS. Each will be described with reference to FIG.   Referring to FIG. 10, according to one aspect of the present invention, automatic natural language The translation engine 10 of the translation engine 16 of the word translation system And automatically translates it into the target natural language text 41. This translation A part or all of kana in source text 23 Affected by parsing that converts it to a cut character. This is in the middle of the kana in the input sentence Suppose the existence of a morpheme (the smallest linguistic unit with meaning) The purpose is to make it possible. In a preferred embodiment, the source language is Japanese. The target language is English. They usually use ideographs and phonograms and use words and phrases. Source natural languages where the delimitation of the lases is not clear are also considered according to this aspect of the invention. Can process and translate. Thus, reference to the Japanese language in the description of this aspect of the invention Should not be construed as limited. Japanese orthography (decision of writing Mari) includes how to use kanji and kana. "Hanyu" is a meaningful ideographic character It is. “Kana” is a symbol and is a phonetic character having no inherent meaning. Japanese In, the alphabetic characters are called Roman characters.   When translating Japanese (or the language described in the previous section) into English, It is desirable to be able to assume the appearance of a morpheme break in the middle of the kana This will be apparent from the description using the figures described below.   Japanese meaning "She didn't write letters." here, "Kanji" has brackets (<>), and "Kana" has bow brackets ({}). (1) <kano> <zyo> {ha} <te> <gami> {wo} <ka> {ka} {na} {ka} {TU} {ta}.       <He> <woman> {is} <hand> <paper> {to} <book> {or} {no} {or} {tsu} {was}. The grammatical rules and the dictionary structure indicate that the character string in (1) is composed of the following morphemes Once recognized, there are significant savings (as described below). Where the morpheme The delimiter is defined by a hyphen, and the configuration of the dictionary 200 is given in Table 1. (2) <kano>-<zyo>-{ha}-<te> <gami>-{wo}-<ka> {k-a} {na} {k-a} {TU} {ta}.                     Table 1 Examples of dictionary entry words However, as can be seen in Table 1, the morpheme breaks appear in the middle of the kana. May be And the kana {ka} does not represent the alphabet (k) and (a) Unless it is difficult to confirm the above morphemes.   According to the present invention, the Japanese input string shown in (1) is Is converted as follows: Where it is recognized as an alphabet Characters are shown in parentheses. (3) <kano> <zyo> {ha} <te> <gami> {wo} <ka> (k) (a) (n) (a) (k) (a) {TU} (t) (a ) As seen in (3), morphological boundaries are recognized between the initial consonant and vowel. {Ka}, {na}, {t} of the original Japanese orthography "kana" a} is converted to Roman letters (k) (a), (n) (a), and (t) (a). On the other hand, "Kana" {Ha}, {wo}, and {TU} are between these three special "kana" in Japanese Since there is no possibility that a morpheme boundary exists, it is left as “Kana”.   Normally, Kana-Kanji Japanese text 23 is converted to Kana-Kanji-Romaji text 202 The usefulness of converting to is not limited to machine translation. This includes morpheme identification. It can be extended to any Japanese automatic processing system. Such a system For example, an information retrieval system that searches for all occurrences of "to wrlte" Can also be included.   As already mentioned, the Kana-Kanji-Romaji notation in Japanese sentences is translated from Japanese to English. Reduces the load on grammar rules and dictionary structures required by word translation systems . How this is alleviated is explained in the following example. Table 2 shows "Kaku" and "Kesu" , "Tatsu", "Shinu" as an example, showing some of the mechanisms of the conjugation of Japanese verbs You.                       Table 2 Examples of verb conjugation Table 2 shows four of the eleven usage forms. In addition, for example, continuous use type ( gerund) is "(he began) writng ..." or "(he began) extinguishing ..." The cohortative is "Let's write ..." or "Let's extingush ...". "Kana" is an orthographic element that cannot be further divided. There are two well-known approaches to processing the many conjugations listed in Section 2.   Method 1 is shown in Table 3. For the verbs mentioned here, see Dictionary Has five stems each.                       Table 3 Dictionary items for Method 1 In Method 1,         Pretending suffix = {na}         Continuous suffix = zero         Assumed suffix = {ba}         Possible suffix = zero         Will suffix = zero The method 2 is shown in Tables 4 and 5.                         Table 4 Method 2 dictionary items                           Table 5 Suffix of Method 2 In Method 2, only one stem needs to be registered for each verb. On the other hand, 11 Endings (eg, K-type set, S-type set) must be recognized, and the sentence Legal rules describe which of these sets connects to which stems one by one It is necessary to use Japanese verbs in hundreds of forms, so which stem has its suffix Grammar rules on whether to associate with a character can be very complex.   For the three well-known methods of dealing with complex inflections described in Table 2, Akira's Kana-Kanji-Roma-U notation in Japanese sentences is a unique usage pattern. In a simple and easy-to-use way. According to the invention, the dictionary entry is It looks like this:         “Write”, “extinguish”, “stand”, “die” Stem <ka> (k) <ke> (s) <ta> (t) <si> (n) And the suffix is (A) (n) (a) Continuous use type (i) Terminal type (u) Hypothetical form (e) (b) (a) Possible form (e) Will form (o) (u) As indicated above, in the present invention, the dictionary requires only one stem per verb. Therefore, only one type of suffix is sufficient. The simplification of the book structure has been mentioned.   Referring to FIG. 11, an automatic natural language translation system is described according to another aspect of the present invention. The translation engine 16 of the system 10 receives the source text 23 and automatically Translated into natural language text 41. At this time, the translation is performed on the source text 23 Affected by parsers that automatically perform morphological and syntactic analysis simultaneously. Suitable tool In the example, the source language is Japanese and the target language is English. Orthography is usually a word Or any source natural language without phrase separators (eg Japanese, Korean Japanese, Chinese) are also processed and translated according to other aspects of the invention. Phrase Parsing sentences in languages like Japanese, Korean, and Chinese that are spelled without spaces Can be compared with the analysis of English sentences. To make this comparison here Helps to understand the other aspects of the invention.   Before discussing other aspects of the invention, a standard method for analyzing continuous text will be described. Please note. The problem is, when there are the following (a) and (b), how (a) to (b) Is to derive. (a) shedidnotwritethatletter. (b) she did not write that letter. The standard criterion for analyzing (a) and deriving (b) is based on the `` longest match '' approach. Have been. When (a) is given, the longest dictionary entry word whose beginning matches The purpose is to find out. Assuming "shed" is in the dictionary, the string ("shed") is removed from the input string and a similar The long match is repeated.The matched string The rest of the string shed idnotwritethatletter. Here, in the dictionary, a headword that matches the "remaining string" at the beginning with an arbitrary length Is not included. Where the first input string contains "shed" This means that the assumption was wrong. Original sentence, "shedidnotwr itethatletter. ". The second longest match is made next, and Is set.The matched string The rest of the string she didnotwritethatletter. The result of the next longest match on the remaining strings is:The matched string The rest of the string she did notwritethatletter. The result of the next longest match is:The matched string The rest of the string she did not writethatletter. Morphological analysis (or splitting) of the original contiguous input string (a) It ends when the ring is empty (null) and it looks like this: she did not write that letter. So far, the basics of standard methods for analyzing continuous text have been described in general terms. Next, we describe how the standard methods require grammar information. Next Suppose there is an input string of shewritesletters. If "she" and "write" are determined to be the first two longest match strings, then Occurs. (In this case, assume that "write" is in the dictionary, but not "writes" )The matched string The rest of the string she write sletters. The first letter "s" is clearly the third person singular present tense "s" and the first letter of the next word is not. The verb "write" that has already been confirmed is a verb dictionary. Only when it is recognized that the "s" can be appended to the back You can check. With this grammar information, the substring is as follows:The matched string The rest of the string she write-s letters. Next, "letter" is determined to be the longest match string, and is as follows.The matched string The rest of the string she write-sletter s. Here again, the "s" in the remaining string is obviously not the first letter of the next word. In addition, it is the plural form of "letter" which has already been judged as a noun, "s". Included in morphological analysis element Using this type of grammar information, this input sentence is finally divided as follows: Can be.The matched string The rest of the string she wrlte-sletter-s. Such grammatical information explaining that it is necessary for morphological analysis of the input string is Note that it is also used for parsing strings. Therefore, the morphological solution Describe the same rule twice for the parse and syntactic components There is a need.   Returning to FIG. 11 again, the parser of the translation engine 16 The second aspect of the present invention, which performs morphological analysis and syntactic analysis simultaneously on Assume that there is the next input string. shedidnotwritethatletter. The parser's job is to work with input strings (actually strings of Japanese or similar languages). ), Examine morpheme / phrase boundaries, and create a parse tree . The parse tree looks like this: Where NP is a noun phrase, AUX is an auxiliary verb, VP is a verb phrase, PRN is a pronoun, V is a verb, and DET is The article, N, is a noun.   As mentioned above, the standard way of doing this work is learning morpheme / phrase boundary recognition. First perform a knowledge pass and then use the recognized morpheme / phrase as a unit That is, in existing systems, the input string is First, it passes through a morphological analysis element that recognizes morpheme / phrase boundaries. The result is become that way. she did not write that letter. This split sentence is then used as input to the syntactic analysis component. It is. The problem with this known method is that the morphological analysis component Dependencies and therefore the rules used for morphological analysis And the rules used in syntactic analysis have many duplications. Furthermore, this It's not always easy to keep the two components consistent There is also a face.   The parser of the translation engine 16 uses the source input text 23 to perform morphological analysis and synthesis. According to the second aspect of the present invention, in which word analysis is performed simultaneously, the orthographic Each unit (eg, "s", "h", "e", etc.) determines whether it is a word So, "s" is also a word, "h" is also a word, "e" is also a word, and "d" is also a word You. The headword included in the dictionary 204 for the English word "she" is a compound word of "she". Think. The input string "she" is treated in the same way, and it is Touch. This is because the normal English text "in front of" is This is the same method as matching the word "in front of". Thus, undivided The dictionary 204 that analyzes human strings is all idiom dictionaries (English "a"). (Except for single-letter entries).   Parsing of unsplit input sentence is completed when a set of parses for the sentence can be obtained . For each analysis, the matched dictionary entry (i.e., compound idiom) Represents a morpheme. Thus, the morphological analysis of the input string It is completed at the same time as the analysis of the used string is completed.   To illustrate the second aspect of the present invention, consider the following. Japanese orthography is a word This is a typical example of a language that does not mark phrases or phrase delimiters. I have The original input string is as follows: <kano> <zyo> {ha} <texgami> {wo} <ka> {ka} {na} {ka} {TU} {ta}. As mentioned earlier, this is the same as "shedidnotwritethatletter" in English. And The standard two-stage method (described above) first starts a morphological analysis of this string I do. The result is the following sequence of morphemes: <kano> <zyo>-{ha}-<te> <gami>-{wo}-<ka> {ka}-{na} {ka} {TU}-{ta} "She" subject mark "Letter" Object mark "Write" negation Past tense As already mentioned, according to the invention the string contains the following morphemes: If you know, the grammar rules and dictionary structure will be very economical. <kano> <zyo>-{ha}-<te> <gami>-{wo}-<ka> {ka}-{na} {ka} {TU}-{ta}               Table 6 Example dictionary entries As can be seen in Table 6, morpheme boundaries can be in the middle of kana, Unless {ka} is represented in the alphabet as (k) (a), the above confirmation of the morpheme Can not. The Japanese input string is translated by the translation engine 16 parser as follows: Is converted to Here, letters that are recognized as alphabets are represented by parentheses. Have been. <kano> <zyo> {ha} <te> <gami> {wo} <ka> (k) (a) (n) (a) (k) (a) {TU} (t) (a) Thus, {ka}, {na} and {ta} of “kana” included in the original Japanese orthography are , Since morphological boundaries must be recognized between the initial consonant and the vowel, They are converted to Roman letters (k) (a), (n) (a) and (t) (a), respectively. On the other hand, {h For a}, {wo}, and {TU}, the morpheme boundary between these three special kana Are kept as kana because there is no possibility of appearing.   Suppose we have the following grammar rule 206 according to the invention. Rule 1 S = NP.ha + VPtensed Rule 2 NP.ha = NP + Particle.ha Rule 3 NP = Pronoun Rule 4 NP = Noun Rule 5 NP.wo = NP + Accusative Rule 6 VP = NP.wo + Vt.k.Stem Rule 7 VPtensed = VP + NEG.Adj.Past + Past Rule 8 NEG.Adj.Past = (a) (n) (a) (k) In the present invention, the following input string <Kano> <zyo> {haKte> <gami> {wo} <ka> (k) (a) (n) (a) (k) (a) {TU} (t) (a) Is used as input to the parser of the translation engine 16, as described in Table 6. The dictionary is a "compound" idiom according to the present invention. Then the parser solves the following An analysis tree 208 is created. According to the present invention, such a morphological analysis completes the syntactic analysis of the input string. Complete at the same time. That is, one of the parse trees governed by a single syntactic classification The sequence of characters at the bottom constitutes a morpheme.   All of the above functions and processes are performed by various hardware built into a general-purpose computer. It can be implemented by wiring logic design and / or programming techniques. The steps shown in the flowchart generally do not need to be applied in order, Several steps can be combined. Also, the function of this system is , It can be divided into programs and data in various ways. In addition, grammar and other While providing operating rules to users in a compiled format, one or more It is advantageous to develop in multiple high-level languages.   The automatic natural language translation system described above, including all features disclosed herein. Any of the examples are general-purpose computers (e.g., Apple Macintosh). , IBM PC and compatibles, SUN workstation, etc.) Computer-readable media such as compact discs (CDs) ・ Can be provided as software.   A person of ordinary skill in the art would depart from the spirit and intention of the claimed invention. Without departing from the invention described in this specification, various modifications, Could be implemented. Accordingly, the present invention is not limited to the foregoing illustrative description. Rather, it is defined by the spirit and intent of the following claims.

【手続補正書】 【提出日】平成12年2月14日(2000.2.14) 【補正内容】 請求の範囲 1.コンピュータ記憶装置と、 ソース自然言語での、それぞれの文字が意味をもつ表意文字である漢字と、そ れぞれは固有の意味をもたない音を表わす表音文字である「かな」を含み、ソ ース自然言語は正字法が語句やフレーズの区切り記号を付けない言語である入力 テキスト情報を受信し、コンピュータ記憶装置に入力テキスト情報を記憶す るための手段と、 該コンピュータ記憶装置にアクセスし、ソース自然言語での入力テキスト 情報を目的自然言語での出力テキスト情報に翻訳し、翻訳プロセスのひとつのス テップとして入力テキスト情報を解析し、入力テキスト情報の少なくともあ る部分の、少なくともいくつかの「かな」を、目的自然言語のアルファベット 文字に変換し、「かな」の真ん中に語句の区切りが認識できるようにするパーサ ーを含む翻訳エンジン翻訳と、 を含む自動自然言語翻訳システム。 2.前記ソース自然言語が日本語で、前記目的自然言語が英語である請求項1に 記載のシステム。 3.コンピュータ記憶装置と、 正字法によると、語句やフレーズの境界をマークするしるしがないソース自然 言語での入力テキスト情報を受信し、コンピュータ記憶装置に入力テキスト 情報を記憶するための手段と、 コンピュータ記憶装置にアクセスし、ソース自然言語での入力テキスト 情報を目的自然言語での出力テキスト情報に翻訳し、翻訳プロセスのひとつのス テップとして入力テキスト情報を解析し、入力テキスト情報の少なくともあ る部分に、同時に形態素解析と統語解析を行うパーサーを含む翻訳エンジンと、 を含む自動自然言語翻訳システム。 4.前記コンピュータ記憶装置に記憶されている複数の文法規則と、 前記コンピュータ記憶装置に蓄積された複数の見出し語を含む辞書と、 を含み前記パーサーが前記文法規則を前記入力テキスト情報の少なくともある部分に 適用し、前記形態素解析と前記統語解析を同時に行う、 請求項3に記載のシステ ム。 5.前記ソース自然言語が日本語であり、前記目的自然言語が英語である請求項 4に記載のシステム。 6.前記ソース自然言語が韓国語であり、前記目的自然言語が英語である請求項 4に記載のシステム。 7.前記ソース自然言語が中国語であり、前記目的自然言語が英語である請求項 4に記載のシステム。[Procedure amendment] [Submission date] February 14, 2000 (2000.2.14) [Content of amendment] Claims 1. Includes a computer storage device, in the source natural language, Kanji ideographs that each character has a meaning, and each is a phonogram representing sound having no specific meaning of "kana", the source natural language receives input text information, the language orthography is without a separator of words and phrases, and means for storing the input text information to the computer storage device, to access the computer storage device, the input text information in said source natural language and translated into output text information purposes natural language, analyzes the input text information as one of the steps of the translation process, at least some portion of the input text information, at least some the Kano "kana", converted to letters of the alphabet of the purpose natural language, in the words of the separator is recognized in the middle of the "kana" Automatic natural language translation system that includes translation engine translation and, the, including a parser to so that. 2. The system of claim 1 wherein the source natural language is Japanese, the object natural language is English. 3. A computer storage device, according to the orthography, means for receiving the input text information in the source natural language is not a sign that marks the boundaries of words or phrases, and stores the input text information to the computer storage device, access to the computer storage device, the input text information in said source natural language and translated into output text information purposes natural language, analyzes the input text information as one of the steps of the translation process, the input text information A translation engine including a parser for simultaneously performing morphological analysis and syntactic analysis on at least a part of the automatic translation system. 4. A plurality of grammar rules stored in said computer storage device, anda dictionary containing a plurality of entry words stored in the computer storage device, at least some portion of the parser the grammar rules the input text information It applied to, performing the syntactic analysis and the morphological analysis at the same time, the system of claim 3. 5. It said source natural language is Japanese, system of claim 4 wherein the object natural language is English. 6. The source natural language is Korean, system according to claim 4, wherein the purpose natural language is English. 7. It said source natural language is Chinese, system of claim 4 wherein the object natural language is English.

Claims (1)

【特許請求の範囲】 1.コンピュータ記憶装置と、 ソース自然言語での、それぞれの文字が意味をもつ表意文字である漢字と、そ れぞれは固有の意味をもたない音を表わす表音文字である「かな」を含み、ソー ス自然言語は正字法が語句やフレーズの区切り記号を付けない言語である入力テ キスト情報を受信し、上記コンピュータ記憶装置に上記入力テキスト情報を記憶 するための手段と、 コンピュータ記憶装置にアクセスし、ソース自然言語での入力テキスト情報を 目的自然言語での出力テキスト情報に翻訳し、翻訳プロセスのひとつのステップ として入力テキスト情報を解析し、入力テキスト情報の少なくともある部分の、 少なくともいくつかの「かな」を、目的自然言語のアルファベット文字に変換し 、「かな」の真ん中に語句の区切りが認識できるようにするパーサーを含む翻訳 エンジン翻訳と、 を含む自動自然言語翻訳システム。 2.ソース自然言語が日本語で、目的自然言語が英語である請求項1に記載のシ ステム。 3.コンピュータ記憶装置と、 正字法によると、語句やフレーズの境界をマークするしるしがないソース自然 言語での入力テキスト情報を受信し、上記コンピュータ記憶装置に上記入力テキ スト情報を記憶するための手段と、 コンピュータ記憶装置にアクセスし、ソース自然言語での入力テキスト情報を 目的自然言語での出力テキスト情報に翻訳し、翻訳プロセスのひとつのステップ として入力テキスト情報を解析し、入力テキスト情報の少なくともある部分に、 同時に形態素解析と統語解析を行うパーサーを含む翻訳エンジンと、 を含む自動自然言語翻訳システム。 4.パーサーが文法規則を入力テキスト情報の少なくともある部分に適用し、形 態素解析と統語解析を同時に行うような、 コンピュータ記憶装置に記憶されている複数の文法規則と、 コンピュータ記憶装置に蓄積された複数の見出し語を含む辞書と、 を含む請求項3に記載のシステム。 5.ソース自然言語が日本語であり、目的自然言語が英語である請求項4に記載 のシステム。 6.ソース自然言語が韓国語であり、目的自然言語が英語である請求項4に記載 のシステム。 7.ソース自然言語が中国語であり、目的自然言語が英語である請求項4に記載 のシステム。[Claims] 1. A computer storage device;   Kanji, which is an ideographic character in which each character has a meaning in the source natural language, and Each contains a phonetic character “kana” that represents a sound that has no inherent meaning. Natural language is a text input system whose orthography does not use words or phrases as separators. Receiving text information and storing the input text information in the computer storage device Means for   Access computer storage and input text information in source natural language Translate into natural language output text information, one step of the translation process Parse the input text information as at least a portion of the input text information, Convert at least some of the kana to alphabet letters in the target natural language , A translation that includes a parser in the middle of "kana" that allows word separators to be recognized Engine translation,   An automatic natural language translation system including. 2. 2. The system according to claim 1, wherein the source natural language is Japanese and the target natural language is English. Stem. 3. A computer storage device;   According to the orthography, there are no signs that mark the boundaries of words and phrases. Receiving input text information in a language and storing the input text information in the computer storage device. Means for storing the strike information;   Access computer storage and input text information in source natural language Translate into natural language output text information, one step of the translation process Parse the input text information as at least a part of the input text information, A translation engine including a parser that simultaneously performs morphological and syntactic analysis,   An automatic natural language translation system including. 4. The parser applies grammar rules to at least some part of the input text information, Such as performing morpheme analysis and syntactic analysis simultaneously,   A plurality of grammar rules stored in a computer storage device;   A dictionary including a plurality of headwords stored in a computer storage device;   The system of claim 3, comprising: 5. 5. The method according to claim 4, wherein the source natural language is Japanese and the target natural language is English. System. 6. The source natural language is Korean and the target natural language is English. System. 7. The source natural language is Chinese and the target natural language is English. System.
JP53802197A 1996-04-23 1996-06-14 Automatic natural language translation Expired - Fee Related JP3680865B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/US1996/005567 WO1997040452A1 (en) 1996-04-23 1996-04-23 Automated natural language translation
WO96/05567 1996-04-23
PCT/US1996/010283 WO1997040453A1 (en) 1996-04-23 1996-06-14 Automated natural language processing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2002136340A Division JP2003016061A (en) 1996-04-23 2002-05-10 Automatic natural-language translation

Publications (2)

Publication Number Publication Date
JP2001515616A true JP2001515616A (en) 2001-09-18
JP3680865B2 JP3680865B2 (en) 2005-08-10

Family

ID=22254991

Family Applications (4)

Application Number Title Priority Date Filing Date
JP53801197A Expired - Fee Related JP3743678B2 (en) 1996-04-23 1996-04-23 Automatic natural language translation
JP53802197A Expired - Fee Related JP3680865B2 (en) 1996-04-23 1996-06-14 Automatic natural language translation
JP2002136340A Withdrawn JP2003016061A (en) 1996-04-23 2002-05-10 Automatic natural-language translation
JP2005364072A Withdrawn JP2006164293A (en) 1996-04-23 2005-12-16 Automatic natural language translation

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP53801197A Expired - Fee Related JP3743678B2 (en) 1996-04-23 1996-04-23 Automatic natural language translation

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2002136340A Withdrawn JP2003016061A (en) 1996-04-23 2002-05-10 Automatic natural-language translation
JP2005364072A Withdrawn JP2006164293A (en) 1996-04-23 2005-12-16 Automatic natural language translation

Country Status (2)

Country Link
JP (4) JP3743678B2 (en)
WO (2) WO1997040452A1 (en)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
CN1193779A (en) * 1997-03-13 1998-09-23 国际商业机器公司 Method for dividing sentences in Chinese language into words and its use in error checking system for texts in Chinese language
US6496844B1 (en) 1998-12-15 2002-12-17 International Business Machines Corporation Method, system and computer program product for providing a user interface with alternative display language choices
US6269189B1 (en) * 1998-12-29 2001-07-31 Xerox Corporation Finding selected character strings in text and providing information relating to the selected character strings
CN1159661C (en) 1999-04-08 2004-07-28 肯特里奇数字实验公司 System for Chinese tokenization and named entity recognition
US6901360B1 (en) * 1999-12-16 2005-05-31 Xerox Corporation System and method for transferring packed linguistic structures
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US10445423B2 (en) * 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732563B2 (en) * 1986-05-20 1998-03-30 株式会社東芝 Machine translation method and apparatus
US4805100A (en) * 1986-07-14 1989-02-14 Nippon Hoso Kyokai Language processing method and apparatus
JPS63223962A (en) * 1987-03-13 1988-09-19 Hitachi Ltd Translating device
JPS63305463A (en) * 1987-06-05 1988-12-13 Hitachi Ltd Natural language processing system
JPH0261763A (en) * 1988-08-29 1990-03-01 Sharp Corp Mechanical translation equipment
US5448474A (en) * 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text

Also Published As

Publication number Publication date
JP2006164293A (en) 2006-06-22
WO1997040453A1 (en) 1997-10-30
WO1997040452A1 (en) 1997-10-30
JP2000514214A (en) 2000-10-24
JP3743678B2 (en) 2006-02-08
JP3680865B2 (en) 2005-08-10
JP2003016061A (en) 2003-01-17

Similar Documents

Publication Publication Date Title
US6760695B1 (en) Automated natural language processing
Trujillo Translation engines: techniques for machine translation
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US5528491A (en) Apparatus and method for automated natural language translation
JP4714400B2 (en) Scalable machine translation system
JP2006164293A (en) Automatic natural language translation
JPH0447364A (en) Natural language analying device and method and method of constituting knowledge base for natural language analysis
JP2003030185A (en) Automatic extraction of transfer mapping from bilingual corpora
JP2004513458A (en) User-changeable translation weights
JPH0981568A (en) Chinese language generation device for machine translation
JP2001503540A (en) Automatic translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
Keenan Large vocabulary syntactic analysis for text recognition
JP3743711B2 (en) Automatic natural language translation system
Bojar Towards Automatic Extraction of Verb Frames.
Gamon et al. Amalgam: A machine-learned generation module
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Fraj et al. Parsing Arabic Texts Using Real Patterns of Syntactic Trees
JP3892227B2 (en) Machine translation system
Narayan et al. Pre-Neural Approaches
JP2003203071A (en) Automated natural language translating system
JP2003196282A (en) Automatic natural language translating system
Souter A corpus-trained parser for systemic-functional syntax
Enikuomehin et al. A Structural Algorithm for Complex Natural Languages Parse Generation

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20031106

A72 Notification of change in name of applicant

Free format text: JAPANESE INTERMEDIATE CODE: A721

Effective date: 20031106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031201

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050510

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees