JP2003196282A - Automatic natural language translating system - Google Patents

Automatic natural language translating system

Info

Publication number
JP2003196282A
JP2003196282A JP2002332946A JP2002332946A JP2003196282A JP 2003196282 A JP2003196282 A JP 2003196282A JP 2002332946 A JP2002332946 A JP 2002332946A JP 2002332946 A JP2002332946 A JP 2002332946A JP 2003196282 A JP2003196282 A JP 2003196282A
Authority
JP
Japan
Prior art keywords
translation
sentence
natural language
rules
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002332946A
Other languages
Japanese (ja)
Inventor
Glenn A Akers
グレン エイ. エイカーズ,
Susumu Kuno
▲すすむ▼ 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LOGO VISTA CORP
Original Assignee
LOGO VISTA CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LOGO VISTA CORP filed Critical LOGO VISTA CORP
Priority to JP2002332946A priority Critical patent/JP2003196282A/en
Publication of JP2003196282A publication Critical patent/JP2003196282A/en
Withdrawn legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide an automatic natural language translating system. <P>SOLUTION: This automatic natural language translating system for receiving a text sentence in source natural language (preferentially, English), and for translating it into target natural language (preferentially, Japanese) allows an operator to automatically re-translate the selected part of the source text. This system is improved to make more accurate the first translation of a document including words and phrases having a different translation in a different field, to designate several grammatical rules as a control means to remove any improper translation, and to use the value of probability associated with the entry word of a dictionary to remove any improper translation. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、ある自然言語から
他の自然言語への、好適には英語から日本語への自動翻
訳に関する。 【0002】 【従来の技術】自然言語の機械翻訳については種々の方
式が提案されてきた。通常、翻訳に使用されるシステム
は、ある言語での入力を受信し、その受信した入力を処
理し、他の言語で出力するコンピュータを含む。このタ
イプの翻訳は従来正確なものではなく、そのために、熟
練したオペレータが出力結果にかなり手を加えなければ
ならない。従来のシステムによる翻訳作業は、一般に構
造変換操作を含む。この構造変換の目的は、ソース言語
の文の解析ツリー(すなわち、構文構造ツリー)を目的
言語に対応するツリーに変換することである。現在まで
二つのタイプの構造変換方式が試みられてきた。すなわ
ち、文法に基づく変換と、テンプレート間の変換であ
る。 【0003】文法に基づく変換の場合には、構造変換の
領域は、ソース言語の解析ツリー(すなわち、与えられ
たノードの直接のこどもであるサブノードの集合)を得
るために使用される文法規則の領域に限定される。例え
ば、次の式があるとき VP=VT01+NP(動詞句は、目的語が一つの他動
詞と、名詞句がこの順序で並んでいる。) そして、日本語は、1+2=>2+1 (VT01とN
Pの順序が逆になっている。) 【0004】 【発明が解決しようとする課題】規則の適用を含むソー
ス言語の解析ツリーは、構造的には動詞と目的語の順序
が反対になるように変換される。日本語では動詞は目的
語のあとに来るからである。この方法は、ソース言語の
解析ツリーを得るために規則が使用された場所で正確に
適用され、特定の変換が行われた場所をすぐ見つけるこ
とができるという点で非常に効率的である。一方、上に
述べたように、その領域が大幅に制限されているという
点、また自然言語は、こどもではないノードにまたがる
ような変換規則を必要とする場合があるという点で、変
換機構としては弱いものである。 【0005】テンプレート間の変換では、構造変換は、
入出力(I/O)テンプレートまたはサブツリーの形で
指定される。ある入力テンプレートがある構造ツリーと
一致した場合には、そのテンプレートと一致する構造ツ
リー部分が、対応する出力テンプレートで指定されたと
おりに変換される。これは非常に強力な変換機構である
が、与えられた入力テンプレートが、存在する構造ツリ
ーのどの部分と一致するかを見つけるのにかなりの時間
がかかり、処理コストが高くなることがある。 【0006】 【課題を解決するための手段】本発明の自動自然言語翻
訳システムは、従来の機械翻訳装置と比較すると多くの
利点を持つ。システムが、自動的に入力テキスト情報の
可能で最も適切な翻訳を提供し、ユーザにその出力(好
適には、英語の入力テキストの日本語訳)を供給した後
で、ユーザは、表示された翻訳結果に手を入れるため
に、または自動的に他の翻訳を入手するために、このシ
ステムと対話することができる。本発明の自動自然言語
翻訳システムを操作する人は、これでいいと判断した翻
訳の結果の部分はそのまま保持しながら、残りの部分を
自動的に再翻訳させることができる。この選択的な再翻
訳を行うことにより、再翻訳を必要とする部分に対して
のみ翻訳が行われるので、操作する人は時間を節約する
ことができ、潜在的に多くの不正確な部分はあるとして
も、翻訳としては非常に質の高い部分を検討するという
退屈な仕事を手短かに済ますことができる。さらに、こ
のシステムでは、種々の翻訳調整を行うことができるの
で、通常は、翻訳の最終構造の多くがシステムによって
作成される。したがって、このシステムを使用すること
により、人間(オペレータ)による潜在的なミスを少な
くし、文の構造、人称や時制の一致の変更などの手直し
に要する時間が節約できる。このシステムはオペレータ
に広範囲で正確な文法とスペルに関する知識を提供でき
るようになっている。 【0007】本発明の自動自然言語翻訳システムは、ソ
ース言語に含まれる文章の区切りのさまざまな曖昧性処
理と、強力な意味伝達機能により、翻訳文はさらに正確
なものになり、オペレータの翻訳の手直しに要する時間
が短くてすむようになる。特定のユーザの好みに合わせ
てシステムが記憶していく学習統計情報によっても、翻
訳の質はさらに改善される。本システムの熟語処理方法
は、熟語を構成する語句を含んでいる文があるとき、熟
語そのものの意味を考えることなく、正確に訳すことが
できるという利点を持つ。本システムは効率的であるば
かりでなく、関連の低い特性を一致させるという多様な
機能を持つ。本システムの構造バランスエキスパートお
よび同格構造エキスパートは、目的とする解析と目的と
しない解析とを効率的に見分ける。大文字化エキスパー
トは、効率的に文中の大文字の単語を正確に解釈し、大
文字列手順は、普通名詞としての解釈を完全には無視し
ないで、複合語の固有名詞を効率的に処理する。 【0008】ある観点から見た場合、本発明は、自動自
然言語翻訳システムの改良に関するものであり、この場
合、この改良は翻訳を助けるための「自動領域識別子」
の使用に関する。領域には、ある特定の用法やある特定
の人たちに帰属する用語や用法パターンの集合を含む。
例えば、領域としては、ビジネス通信文、マーケティン
グ文書、コンピュータ関連の文書、物理学などの技術分
野の文書などが考えられる。辞書に含まれる言葉に中に
は、ある特定の領域で使われたときは、目的自然言語
(例えば、日本語)のある訳語になるが、他の領域で使
用されたり、または分野に関係なく使用された場合は、
意味が異なってくる場合がある。領域キーワードのリス
トも使用される。キーワードは、各領域と関連する領域
特有の単語や用語であり、ソース自然言語(またはソー
ス文書)の特定の文が、いずれの領域に属するかどうか
を決定するために使用される。「自動領域識別子」機能
は、その文(または文書)が特定の領域の文章であると
判断するのに十分なキーワードが、その文(または、そ
の文書または文書の一部)に、含まれているかどうかを
判断する。もし領域が特定できれば、辞書にも載ってい
て、翻訳中の文(または文書)にも含まれている単語は
確率の値を引き上げて使用し、その文章(または文書)
の翻訳が行われる。「自動領域識別子」による決定は、
ソース自然言語およびキーワードのみに基づいて行われ
る。本発明の「自動領域識別子」機能は、結果のツリー
構造内に、領域不適合分析(特定の領域には適合しない
という分析)は含まず、そのためシステムの翻訳時間は
速くなる。 【0009】他の観点から見ると、本発明は、自動自然
言語翻訳システムのもう一つの改良に関する。その改良
というのは、「オールマイティ」や「品詞優先」とマー
ク付けするか、または「マークなし」という文法規則を
使用した、ソース自然言語の文の解析に関する。「オー
ルマイティ」文法規則は、それによりその文の同じ部分
を解析するようなすべての他の規則を排除する規則であ
る。「品詞優先」文法規則は、それによりその文の同じ
部分を解析するようなすべての他の規則を排除する規則
であるが、これは、他の規則が同じ品詞を持っている場
合に限って行われる。「マークなし」文法規則は他のい
ずれの規則に対しても優先権は持たない。「オールマイ
ティ」や「品詞優先」のマーク付け文法規則は、この規
則がない場合にはシステムの翻訳エンジンによって作ら
れるツリー構造のうちから、関係のない文法解釈ツリー
を除去するのに有効な方法である。このようなマーク付
け文法規則は、時間およびメモリ容量の点で、より効果
的に解析を行うことができる。つまり、システムの翻訳
時間を短縮することができる。何故なら、翻訳エンジン
は、マーク付けしなければ作られるかもしれない大きな
ツリー構造を作らなくてすむからである。また、翻訳エ
ンジンは、マーク付けしなければ記憶しなければならな
い大きなツリー構造を記憶しないですむことから、メモ
リ(例えば、RAM)領域を解放することができる。 【0010】さらに他の観点から見ると、本発明は、自
動自然言語翻訳システムのさらに他の改良に関する。こ
れは、最終ツリー構造の構成要素になる可能性が非常に
低いか、絶対にないというマークが付けられた見出し語
を持つ辞書を使用する解析に関連した改良である。辞書
に複合語の見出し語が含まれていて、その中の少なくと
も一つの複合語が非常に低い確率の値を持っていると
き、この低い確率の値は、その見出し語がソース自然言
語の任意の文の正しい解析ツリーでも特定の品詞として
機能する可能性がありそうもないことを示す。ある入力
文の解析ツリー構造の中に、マークが付けられている見
出し語が含まれる場合には、マークが付いている見出し
語に関連する確率の値が低いから、その解析ツリーがそ
の文に対して正確である確率は非常に小さくなる。この
確率の値を使用することにより、システムの翻訳エンジ
ンが作ったツリー構造の不要な部分を排除することがで
きる。 【0011】本発明の上記および他の目的、特色、特徴
および利点は、以下の説明と請求の範囲を読めば明らか
になる。 【0012】 【発明の実施の形態】最初に、図面を参照しないで、本
発明の自動自然言語翻訳システムの概要を説明する。こ
の概要を説明した後で、図面を参照して説明する。 【0013】自動自然言語翻訳システムは、ソース自然
言語を目的自然言語に翻訳することができる。好適な具
体例として、上記システムは英語を日本語に翻訳する。
上記システムは、ソース自然言語と、目的自然言語への
翻訳を作る翻訳エンジンとを受付け、記憶する装置と;
ユーザに翻訳結果を表示するための装置と;ユーザに対
して別の翻訳結果を提供し表示するための装置とを含
む。このシステムの具体例としては、翻訳エンジンは、
プリパーサー、パーサー、グラフ作成装置、評価子、グ
ラフ・スコアラ、文法構造抽出装置および構造変換装置
を含む。プリパーサーは、入力テキストを検査し、入力
文の文末認定の曖昧な箇所を解析する。その後、プリパ
ーサーは、辞書の見出し語を含む解析チャートで、入力
テキストを作成し表示する。パーサーは、入力テキスト
に対する可能な構文の分類を入手するために、上記チャ
ートの解析を行う。グラフ作成装置は、解析チャートに
基づいて、入力テキストの可能な構文解釈のグラフを作
る。このグラフには、入力テキストの可能な解釈に関連
するノードとサブノードが含まれる。一連のエキスパー
トを含む評価子は、解釈の可能なグラフを評価し、グラ
フのノードとサブノードにエキスパートの重みを加え
る。グラフ・スコアラは、サブノードを評価するために
エキスパートの重みを使用し、その後でN個の上位のス
コアと各ノードとを関連づける。文法構造抽出装置は、
解析ツリー構造をグラフ・スコアラが決定した好適な解
釈に割り当てる。構造変換装置は、目的言語での翻訳を
入手するために、解析ツリー構造に関する構造変換を行
う。 【0014】以下の三つの段落では、(a)各サブノー
ドに対する最終加重スコアを計算するために、グラフ・
スコアラがどのようにエキスパートの重みを組み合わせ
るか;(b)最終ノード・スコアに到達するために、グ
ラフ・スコアラがどのようにサブノード・スコアを組み
合わせるか;(C)言語情報がノードとサブノードのツ
リーをどのように伝達するか、について説明する。 【0015】各サブノードに対する最終加重スコアを計
算するために、グラフ・スコアラは、各サブノードに定
数値を関連づける。各サブノードに関連する言語情報の
分析により、サブノードのスコアの決定が行われる。例
えば、一連のエキスパート評価子が、各ノードとサブノ
ードに記憶された言語情報を検査する図8を参照された
い。グラフ・スコアラは、特定のノードまたはサブノー
ドに対する最終加重平均を入手するために、各エキスパ
ートに対する個々の加重スコアの合計を計算する。複数
の加重スコアを一つの加重平均スコアにまとめること
は、コンピュータサイエンスにおける標準的な問題であ
る。使用できる一つの方法としては、各エキスパートの
結果に、そのエキスパートに割り当てられた定数(重
み)を掛け合わせる方法がある。各エキスパートに割り
当てられる重みは、設計時に決定しておく問題である。
設計者は各エキスパートに割り当てる優先権(重み)を
決定する。加重平均は、各数字に定数を掛け、一連の数
字を合計したものである。例えば、以下の式になる。 加重平均=(w1)*(x1)+(w2)*(x2
+...+(wn)*(xn) 但し、重みw1,w2,...,wnは、いずれも負でな
い数で、合計は1になる。例えば、統計の期待値に関す
る加重平均の使用について述べているスピーゲル著「確
率および統計の理論と問題76」(1975年、マグロ
ーヒル社)を参照されたい。 【0016】最終ノード・スコアを入手しようとサブノ
ード・スコアを結び付けるために、グラフ・スコアラ
は、グラフの底辺の部分から一番上の部分にサブノード
・スコアを伝達することができる。各ノードがNスコア
の集合を持つグラフの場合には、一つまたは複数の伝達
方法を決定することができる。サブノード・スコアを伝
達するのに使用することができる一つの技術としては、
最適化問題を解くために使用されるある種の動的プログ
ラミングである記憶方法がある。最適化問題の解法に
は、多くの可能な数値(結果)を含むことができる。目
的は最適な数値を発見することである。最適化に使用す
るアルゴリズムは、各サブサブ問題を一回だけ解き、結
果を記憶するので、サブサブ問題に遭遇するごとに答を
再度計算する必要がなくなる。最適化問題に適用される
もっと詳細な説明については、例えば、コーメン他の
「アルゴリズムヘの招待」(1990年マグローヒル
社)の301−314ぺージを参照されたい。この「ア
ルゴリズムヘの招待」の301、302および312ぺ
ージには、グラフ内をサブノード・スコア情報を伝達さ
せるのに使用できる一つの方法が記載されている。 【0017】言語情報をツリー内で伝達する場合には、
システムの意味を伝える部分は、意味情報を内部のより
小さい構成要素からより大きい構成要素へと伝えるよう
に動作する。意味の伝達は、解析オペレーションで使用
される統語分類の四つのクラス(SEMNP、SEMV
P、SEMADJおよびVERB)に適用される。意味
の伝達が行われる前に、ノードに記憶されている言語情
報を分析しなければならない。ノードに記憶されている
意味情報の分析は、文法規則の名詞らしい要素と動詞ら
しい要素を点検することにより、どの名詞らしい目的語
に、文法規則の動詞らしい要素のどの選択的制限スロッ
トを適用するかを言い当てる規則の集合によって導かれ
る。ジェラルド・ガズダは、その著書「プロローグの自
然言語処理」(1989年アディソン・ウエズリ出版
社)で、本明細書で開示しているグラフに類似した方向
を持った、リング状でないグラフのノードに記憶されて
いる意味情報を分析するのに使用することができる規則
の集合について説明している。ガズダは、隣接するノー
ドに関する情報と一致させる特性マッチングの使用につ
いて説明している。ガズダは、特性マッチングは、以下
に述べる式を含むと述べている。 【0018】「あるノード上に現れるいくつかの特性
は、もう一つのノード上に現れる特性と同じものである
に違いない。最新の研究は、親の分類とそれらの特性に
関連する形態素を示すことも上に現れるあるクラスの特
性の詳細を等しくするという原則を仮定している。この
こどもは、そのフレーズの「頭」と呼ばれる。大部分の
フレーズは頭を一つだけ持つ。それ故、例えば、動詞句
は、その動詞の時制を受け継ぐ。何故なら、動詞は動詞
句の「頭」であるからである。これまで使用してきた表
記法の資源を使用しても、文法全体に適用できるこの原
則を指定する簡単な方法はない。しかし、もし関連する
特性がDAGの一本の枝上にすべて発見することができ
ると仮定するならば、規則ごとに非常に簡単にこの原理
の効果を述べることができる。そこで、我々は通常のV
P規則を以下のように書き表すことができる。 【0019】VP−−>V NP PP <Vの頭>=<VPの頭> この場合、Vの「頭」の特性値と、親であるVP上の
「頭」の特性値は同じものでなければならない。」 ガズダで議論されている規則は、本明細書に開示する構
文の各分類に容易に適用することができる。ガズダの規
則を使用して各ノードに割り当てられた言語情報は、記
憶方法の技術により、ツリーの中を伝達することができ
る。 【0020】ここで、上の三つの段落の内容を要約する
と、加重平均は、サブノード・スコアを決定する一つの
方法であり、各サブノード・スコアは、最適化問題に適
用した周知の記憶方法技術を使用してグラフ中を伝達す
ることができ、ガズダの著書に述べられている方法は、
各ノードに記憶されている言語情報を分析するのに使用
することができ、この言語情報は、記憶方法技術を使用
して文法構造解析チャート内を伝達することができると
いうことになる。 【0021】自動自然言語翻訳システムでは、最初の自
動翻訳終了後に、自動的に再翻訳を行うことができる。
すなわち、システムが自動的に入力テキスト情報の可能
で最も適切な翻訳を提供し、ユーザに出力(好適には、
入力英語テキストの日本語の翻訳)を提供した後、ユー
ザは表示されている翻訳を手直しするために、または自
動的に別の翻訳を入手するためにシステムと対話するこ
とができる。 【0022】自動自然言語翻訳システムは、一つの文を
サブストリングに分解する言語モデルを使用する。サブ
ストリングは、その文の一部として指定された順序で出
現する一つまたは複数の語句である。例えば、サブスト
リング「The man is happy」は、「The」、「The ma
n」、「man is happy.」、「is」および「The man is
happy」それ白身を含んでいるが、「is man」、「man m
an」、「The is」は含んでいない。 【0023】異なる言語モデルは、種々の方法で、また
種々の詳細レベルでサブストリングを定義する。例え
ば、「They wou1d 1ike an arrow.」という文において
は、「an arrow」は通常、名詞句(NP)に分類され
る。別のモデルでは、「an arrow」を構文上の特性(例
えば、単数の名詞句)および文意の上の特性(武器)で
分類する。この句の意味が曖昧である場合には、それを
分類する複数の方法がある、例えば、「an arrow」は、
矢の形をした記号を意味することもできる。言語モデル
が、曖昧さを解決する方法を提供するとき、通常、より
小さな単位をより大きな単位に結合することによって曖
昧さを解決する。より大きい単位を評価する場合、これ
らのモデルはより大きい単位に含まれている情報だけを
考慮の対象とする。 【0024】このシステムの具体的な例示として、「an
arrow」(記号または武器)の意味上の特性が、「They
wou1d 1ike an arrow.」という文の「1ike an arrow」
という動詞句を評価する際に使用される。一方、「an a
rrow」という句の構文が「Heshot it with an arrow.」
という文中にあった場合には、「an arrow」の意味上の
特性は、「shot it with an arrow」という動詞句を評
価する際には使用されない。 【0025】特定の言語モデル(解釈したサブストリン
グ)を一つの方法で解釈した文の任意のサブストリング
に対して、エキスポートされた属性が存在する、エキス
ポートされた属性は、解釈したサブストリングと、もっ
と大きいサブストリングを形成する他の単位との組み合
わせを評価するために使用したすべての属性である。エ
キスポートはエキスポートされた特性と一緒に解釈し
た、解釈済みのサブストリングである。解釈済みのサブ
ストリングに含まれているが、エキスポートされていな
い属性は、サブ構造体と呼ばれる。 【0026】システムのパーサーは、文法データベース
を含む。パーサーは、文法規則を使用して文のすべての
可能な解釈を見い出す。文法データベースは、X=A1
A2...Anの形の、一連の文脈自由句構造規則から
なる。Xは、A1,A2,...,Anからなっている
か、形成されていて、レベルの高いノード(サブノー
ド)A1からよりレベルの低いノード(サブノード)A
nと呼ばれる。 【0027】システムのグラフ作成装置は、一つの文に
関して可能な多くの解釈を図形で表す。グラフの各ノー
ドは、あるサブストリングのエキスポートに対応する。
システムの具体例として、一つのエキスポートは一つの
ノードで表される。グラフは、一つのエキスポートに関
連するノードから出ている円弧を含み、円弧は、文法規
則の適用に基づくエキスポートのサブ構造体を表す。グ
ラフは少なくとも二つのタイプの円弧、すなわち、エキ
スポートのサブ構造体を表す。グラフは少なくとも二つ
のタイプの円弧、すなわち、(1)同じサブストリング
の一つの異なるエキスポートを指している単一の円弧、
(2)二つのエキスポートを指している一組のポインタ
を含む二つの円弧、すなわち、連結されたときは、その
サブストリングは、もとのエキスポートのサブストリン
グを形成する。(2)の定式は、チョムスキーの正規形
文法を仮定していることに留意されたい。修正した請求
項35は、タイプ(2)を言い替えることによって、チ
ョムスキーの正規形文法ではなく、N個のエキスポート
を指しているN重ポインタを持つ円弧を反映する文法に
適用される。 【0028】グラフは、一つの出発エキスポート点Sを
含み、そこから一連の円弧を迫ることによりグラフのす
べての部分に行き着くことができる。出発エキスポート
は、文全体に対応する。 【0029】同じエキスポートを複数のエキスポートか
ら形成できる場合に限り、一つのノードから複数の円弧
がスタートする。(二つの円弧からなる円弧内の一組の
ポインタは、この意味では複数の円弧とは考えない。)
そのエキスポートが複数のエキスポートの一つの要素で
ある場合に限って、複数の円弧が一つのノードを指すこ
とになる。円弧が出ていないノードは、サブストリング
に割り当てられた辞書の見出し語に対応する。 【0030】複数の言語エキスパートが、エキスポート
の集合に数字のスコアを割り当てる。この言語エキスパ
ートは、グラフの各ノードに上記スコアを適用する。シ
ステムの具体例として、スコア行列(行列の各要素は、
特定のエキスパートのスコアに掛け算を行うための重み
である)は、任意の文に対する浮動小数点数の固定の長
さ「N」である。 【0031】上記スコアは、グラフ作成エンジンおよび
/またはパーサーに組み込まれるスコアリング・モジュ
ールにより評価される。スコアは、より高いエキスポー
トを形成しているすべてのエキスポートに対して計算さ
れる。より高いエキスポートに対するスコアは、よりレ
ベルの高いエキスポートを形成しているエキスポートと
構造調整エキスパートによって割り当てられたスコアの
組み合わせに適用される任意のエキスパートのスコアの
合計として計算される。 【0032】ノードに到着し、スコアを調べる順序は、
標準の深さ第一グラフ移動アルゴリズムである。このア
ルゴリズムでは、スコア付けされたノードにはマークが
付けられ、再びスコアを付けられることはない。スコア
が付けられるプロセス中、スコアリング・モジュール
は、もっと高い単位の任意のノードの評価を行う前に、
辞書の見出し語ノードを評価する。辞書の各見出し語は
一つのスコアをもつ。 【0033】一つのエキスポートを行うのに複数の方法
がある場合には、複数のスコアになる。すなわち、エキ
スポートを行うのにk通りの方法がある場合には、可能
なk個のスコアになる。複数のスコアは以下のように処
理される。 【0034】(1)単一の要素からなる規則では、もっ
と低いエキスポートのk個の各スコアは、単一の要素か
らなる規則に適用されるエキスパートの数値に加算さ
れ、その結果得られたk個のスコアのベクトルは親のエ
キスポートに関連している。 【0035】(2)二つの要素からなる規則では、左の
こどもがgスコアを持ち、右のこどもがhスコアを持つ
ものと見なされる。その後gスコアにhスコアを掛けた
数値が、左のこどもの各スコアに右のこどもの各スコア
を加算し、さらに、二つの要素からなる規則に適用され
るエキスパートの数値を加算することによって計算され
る。gスコアにhスコアを掛けた数値がNを越えた場合
には、最も高いNのスコアだけが親のノードと一緒に保
持される。 【0036】(3)一つのエキスポートが複数の方法で
作ることができる場合には、たかだかN個のスコアがそ
のノードのスコア・リストに加算され、最も高いスコア
だけが保持される。 【0037】スコア計算が完了すると、上記方法は、各
エキスポートがそのノードと、エキスポートに表示され
ていないすべてのサブ構造体の属性を含む、エキスポー
トを行うためのg個の最も可能性の高い方法(言語モデ
ルに関する)を表すg個のスコア(1からNまでの範囲
内のg)の集合と関連づけていることを確認する。ルー
ト・ノードSのような特別な場合では、このスコア計算
方法は文全体を形成するg個の最も可能性の高い方法を
与える。 【0038】上記のスコア・リストの各スコアは、関連
ポインタを持つ。ポインタ、より低いエキスポートのス
コア・リストのどのスコアが、もっと高いレベルのスコ
アを作るために組み合されたのかを示す情報を提供す
る。各ポインタを追跡することにより、その文のg個の
最も可能性の高い解釈を、曖味でない解析ツリーとして
抽出することができる。 【0039】図1〜図9を参照しながら、自動自然言語
翻訳システムをさらに詳細に説明する。その後で、図1
0、図11および図12を参照しながら、本発明の種々
の改良点について説明する。 【0040】図1および図2を参照すると、本発明の自
動自然言語翻訳システム10は、入力インターフェース
12、翻訳エンジン16、記憶装置18、ユーザ入力装
置22、ディスプレイ20および出カインターフェース
14を含む。入力インターフェースは、英語などのソー
ス言語で書かれた一連のテキストを受信することができ
るようになっている。入力インターフェースとしては、
キーボード、音声インターフェースまたはモデムまたは
直列入力のようなデジタル電子インターフェースを含む
ことができる。翻訳エンジンは、記憶装置のデータを使
って、ソース言語の翻訳を行う。翻訳エンジンは、全体
をハード配線の論理回路で作ることもできるし、一つま
たは複数の処理ユニットや関連する記憶命令を含むこと
もできる。翻訳エンジンは、以下に述べる要素やその部
分を含むことができる、すなわち、プリパーサー24、
パーサー26、グラフ作成装置28、文法構造解析/翻
訳評価子30、文法構造解析抽出装置32、構造変換装
置34、および別の文法構造システム37を含むユーザ
・インターフェース42である。構造変換装置は、文法
規則制御による構造変換装置36、辞書制御による構造
変換装置38および生成規則制御による構造変換装置4
0を含むことができる。記憶装置18は、一つまたは複
数のディスク(例えば、ハードディスク、フロッピー
(登録商標)ディスクおよび/または光学的ディスク)
および/またはメモリ記憶装置(例えば、RAM)など
を含むことができる。これら記憶装置は、次に述べる要
素の全部または一部を記憶することができる。すなわ
ち、基本辞書44、技術用語辞書46、ユーザが作成し
た辞書、文法規則48、生成規則50、意味特性ツリー
52、構造特性ツリー54およびグラフ56である。記
憶装置18は、ソース自然言語で書かれた入力テキスト
情報、目的言語で書かれた出力テキスト情報、および一
つまたは複数の辞書、領域キーワードと文法規則を含む
翻訳を行うために使用したり役立つすべての種類の情報
を記憶するのに使用される。ユーザ入力インターフェー
ス22は、キーボード、マウス、タッチスクリーン、ラ
イトペンまたは他のユーザ入力装置を含み、システムの
オペレータが使用できる。ディスプレイとしては、コン
ピュータ・ディスプレイ、プリンタまたは他のタイプの
ディスプレイを使用することもできるし、オペレータに
情報を知らせるための他の装置であることもできる。出
カインターフェース14は、ソース・テキストの最終翻
訳を、日本語などの目的言語でやりとりする。上記イン
ターフェースは、プリンタ、ディスプレイ、音声インタ
ーフェース、モデムまたは直列ラインのような電子イン
ターフェースを含むこともできるし、最終ユーザにテキ
ストを送るための他の装置を含むこともできる。 【0041】本発明の翻訳システムの具体例の動作とし
て、図1、図2および図3に示すように、プリパーサー
24は、まずソース・テキスト23に対して予備的な解
析作業(ステップ102)を行う。この作業には、ソー
ス・テキストの文末認定の曖昧性の解析が含まれ、辞書
の見出し語25を含む構造解析チャートを作成する。そ
の後、パーサー26は、構文の可能性27が記載されて
いる構造解析チャートを入手するために、プリパーサー
が作成した(ステップ104)上記チャートの構造解析
を行う。グラフ作成装置28は、構造解析ステップで得
られた構造解析チャートに基づいて、可能な解釈29の
グラフを作成する(ステップ106)。一連のエキスパ
ート43にアクセスする評価子30は、記憶された解釈
のグラフを評価し(ステップ108)、グラフ31にエ
キスパートの重みを追加する。グラフ・スコアラ33
は、ノードのスコアをつけ、N個の(例えば、20個
の)最も高いスコア35をそれぞれに関連づける。文法
構造抽出装置32は、この好適な解釈に構造解析ツリー
構造39を割り当てる(ステップ110)。その後、変
換テーブル58にアクセスする構造変換装置34は、目
的言語になった翻訳41を入手するために、上記ツリー
上で構造変換処理(ステップ112)を行う。ユーザ
は、他の翻訳を入手するために他の構造解析システム3
7とやりとりすることができる。 【0042】図4を参照すると、本発明のシステムは、
入力単語列を個々の句読点および語を形成する文字グル
ープを含むトークン(ステップ114)に分割すること
によって、予備構造解析を行う。スペースの出現は、こ
のレベルでの文字の解釈に影響を与える。例えば、「x
−y」の「−」はダッシュであるが、「x-y」の「-」
はハイフンである。 【0043】その後、プリパーサーは上記のトークンを
語句に組み合わせる(ステップ116)。このレベル
で、プリパーサーは、特殊な構造(例えば、インターネ
ット・アドレス、電話番号および社会保険番号のよう
な)を一つの単位として認識する。プリパーサーは、ま
たグループを区切るために辞書参照を行う。例えば、
「re-enact」が辞書に「reenact」として載っている場合
は、一語となるが、載っていない場合は、別々の三つの語
となる。 【0044】次の予備構造解析段階では、文が何処で終
わるかの文末認定が行われる(ステップ118)。この
処理中、プリパーサーは、各文の可能な文末箇所(すな
わち、ソ−ステキストの各単語の後)を認定するための
一連のステップを行う際に、基本辞書、技術用語辞書お
よび搭載されているユーザ作成の辞書にアクセスする。
プリパーサーは、特定の順序が指定された場合には、こ
のステップを行う必要はなく、これらステップは一連の
順序を持つ規則として実行することもできるし、ハード
ウエアに組み込んでコード化することもできる。 【0045】図5を参照すると、プリパーサーは、ダッ
シュ記号の連続「-----」のような解析できない記号の
シーケンスがあるとき、ひとつひとつは翻訳せず、全体
として一つの「文」として解釈し記録する(ステップ1
20)。プリパーサーは、文の末尾として、二つのキャ
リッジ・リターンを要求する(ステップ122)。次の
語句の最初の文字が小文字である場合には、プリパーサ
ーは一つの文の終わりと見なさない(ステップ12
4)。文がニューラインで始まりしかも短い場合(例え
ば、タイトル)には、プリパーサーは、それを一つの文
と見なす。 【0046】プリパーサーは、閉じ括弧および閉じ引用
符を含んでいるような場合を除いて、終止符(.)、疑
問符(?)、または感嘆符(!)を文の終わりと見なす
(ステップ128)。「.”」や「?”」等で終わって
いる文の場合には、プリパーサーは、引用符の前の句読
点のほかに、引用符の後に仮想の句読点を加えて使用す
る。「?”」に対して仮想で追加する句読点に対する方
法を、以下の例に示す。 【0047】 The question was "What do you want?". Did he ask the question "What do you want?"? Are you concerned about "the other peop1e"? 英語の場合、上記各文は「?"」で終わっている可能性が
高い。プリパーサーが追加した仮想の句読点があるとい
うことは、引用符の前に疑問符のような何かが存在する
のか、または全然何もないかを示している。引用符の後
ろには、終止符または疑問符のような何かが存在してい
る。この文の残りの文法的構造によって、このあとの処
理段階で最も適切な選択を行うことができる。 【0048】プリパーサーは、また終止符の解析で、さ
らにいくつかの方法を使用する(ステップ130、13
2、134、136および138)。辞書に含まれる短
縮形には、文頭には決して使用できないというマークが
付いているものや、文末には決して使用できないという
マークが付いているものがある(ステップ130)。こ
れらの規則は常に尊重される。例えば、「Ltd.」は文頭
には使用されないし、「Mr.」は文の終わりには使用さ
れない。プリパーサーは、また次の語句が「the」、「i
n」のような頻出する単語でないかぎり(ステップ13
2)、一字の大文字に終止符があるとき、文が終わりで
あるとは考えない。終止符の前の単語が、いずれかの辞
書に載っている場合には、終止符のところで文は終わる
(ステップ134)。終止符の前の語句が辞書に載って
おらず、その語句がその内部に終止符を持っていて(例
えば、I.B.M.)、次の語句が小文字としては辞書に
載っていないか、または次の語句そのものが大文字であ
る場合には、文はその終止符のところで終わっていない
と見なす(ステップ136)。それ以外の場合には、終
止符は文の終わりを示す(ステップ138)。 【0049】再び図2および図3を参照すると、文の切
れ目がプリパーサーにより指定されると、パーサーはそ
の文の語句を構文分類に入れ、その文の可能な構文の解
釈25を計算するために、それらの語句に文法データベ
ースの文法規則を適用する(ステップ104)。文法規
則48を、その言語の文法的な制限を表すコンピュータ
処理ができる一連の規則として実行することができる、
英語の場合、このような規則は何百とあり、これら規則
は何百という構文分類に適用され得る。この作業の計算
に要する余分な時間を減らすために、一つの語句の異な
る可能な意味は無視して処理される。 【0050】次のステップ(ステップ106)におい
て、グラフ作成装置は、語句の異なる意味を取り込み、
その文のすべての意味解釈を表す方向を持ったリング状
でないグラフを作成するために、辞書を使用しパーサー
の結果を拡張する。このグラフは、後で説明する一連の
意味伝達の手順の助けを借りて作成される。これらの手
順は、一連の作成された文法規則に基づいて行われ、あ
る場合には、意味情報を求めて意味特性ツリーにアクセ
スする。意味特性ツリーは、意味分類を含むツリー構造
である。このツリーは、おおざっぱに抽象物から具体物
へと組織されており、ツリーの中でどのくらい離れてい
るのか、ツリーのなかでのそれぞれのレベルは何かの両
方から、二つの用語が意味の上でどのように関連してい
るかを決定することができる。例えば、「cat」と「do
g」は、「cat」と「pudding」より関連性が高い、した
がって、「cat」と「dog」の二つは、「animal」のツリ
ーの中での距離は短く、「animal」、「cat」はツリー
の異なるレベルに記憶されている例である。何故なら
「animal」は「cat」に比べてより抽象的な言葉である
からである。 【0051】図9を参照すると、この図のグラフは、ノ
ード80を含み、そのサブノード82、84,86は種
々のタイプの関連を示す方法でポインタ88,89,9
0,91でリンクしている。グラフの第一の関連のタイ
プは、句を表すノードが、それを構成している語句のノ
ードやサブフレーズのノードを指すポインタを持ってい
るものである。例えば、「the bank」を表すノード84
は、ポインタ92,93により、それを構成している語
句「the」94および「bank」95にリンクしている。
グラフの第二の関連のタイプは、句の解釈が、より低い
レベルのものから、同じより高いレベルの成分を作るも
う一つの方法を指すポインタを持っている場合である。
例えば、句「by the bank」を表すノード80は、それ
ぞれを構成する各語句にリンクしているポインタ88と
89、および90と91を含む二つのソース解釈位置8
1,83を持つことができる。この例の場合、異なる個
々の構成語は、それぞれが句「the bank」に対して異な
る意味を表す異なるサブノード84,86を含む。グラ
フの構造は、解析作業の結果により規定され、ソース文
の構文により制限を受ける。このグラフのノードは、意
味伝達のプロセス中に記入される意味情報に対する記憶
位置と関連づけられる。 【0052】システムの意味を伝達する部分は、それら
を含むより小さな成分からより大きな成分へと意味情報
を伝達する働きをする。意味情報は、初めの段階の解析
作業で使用される構文分類の四つのクラスに適用され
る。四つのクラスは、SEMNP(名詞型の目的語や前
置詞句を含む)、SEMVP(通常主語を取る、目的語
のような動詞句)、SEMADJ(形容詞)、およびV
ERB(多くの場合目的語を取る辞書の動詞型の動詞)
である。その他の構文分類はある規則では無視される。
文法規則の設定者は、規則に特定のマークを付けること
によって、表面上に出ない行動を上書きすることができ
る。これらの特別命令は最初にくる。 【0053】システム内を意味特性が伝達する方法は二
つの面を持つ。第一の面は、文法規則の名詞型および動
詞型の構成部分を検査することによって、名詞型の目的
語に、動詞型の構成要素のどの選択的な制限スロットを
適用するかを知ることができる規則の集合である。例え
ば、「I persuaded him to go.」という文の動詞句に対
する規則は、おおまかにいうと、VP=VT11+NP
+VP(ここで、VPは動詞句、VT11は他動詞の分
類、NPは名詞句)である。例示としてのデフォルト規
則は、動詞が目的語を取る場合には、動詞の右側にある
最初のNPに、選択制限を適用しなければならないとい
うものである。別の規則では、その主語に対するVPの
制限は、VPの左側の最初のNPに適用しなければなら
ないと定めている。これらの規則を合わせると、「pers
uade him」および「him go」の両方の意味がよく通るよ
うに評価するようにしている。すでに説明したように、
これらの規則は英語の複雑な規則を反映していて、その
ためにその数は非常に限定されている。 【0054】図6を参照すると、意味伝達作業は選択制
限をSEMVPから命令文にコピーする作業を含む(ス
テップ140)。SEMNPが位置の表現として使用さ
れている場合には、良い位置を指定する意味定数に対し
てその妥当性が評価される(ステップ142)。ある規
則が二つのSEMNPの結合(構文上の特徴を論理積す
ることによって検出された)を含んでいる場合には、グ
ラフ作成装置は、意味特性を諭理積して、意味上の距離
エキスパートに適用する(ステップ144)。 【0055】意味特性の伝達に対して指定された規則を
検査している中で、グラフ作成装置が、もっと高いレベ
ル(例えば、それがもっと多くの語句を含むSEMNP
の一部となる)へ伝達するSEMNPの「頭」の位置を
見つけた場合には、グラフ作成装置は、意味特性をも伝
達する(ステップ146)。しかし、「頭」が、区分用
の語句(例えば、「Portion」、「Part」)である場合
には、「頭」はSEMNPから左または右に伝達する。
SEMVPおよびSEMADJも、区分用の位置を持っ
ていない(ステップ148)ことを除いて、同じ方法で
伝達される。形容詞はこの意味ではSEMVPの一部で
ある。 【0056】SEMVPがVERBを含む規則から作ら
れた場合は、グラフ作成装置は、VPが受動態である場
合を除いて、VERBの主語制限を上の方向に伝達させ
る。受動態の場合、VERBの最初の目的語制限が伝達
される(ステップ150)。SEMVPを含む規則の場
合には、グラフ作成装置は、SEMVPの選択制限をS
EMVPから左に移動するときに遭遇するNPに適用し
ようとする(ステップ152)。SEMADJを含む規
則の場合には、グラフ作成装置は、SEMADJの選択
制限を、最初にSEMADJから右に移動するときに遭
遇する任意のSEMNPに適用しようとし、それがうま
くいかない場合には、左の方向に移動しようとする(ス
テップ154)。 【0057】VERBの任意の残りの未使用の目的語選
択制限(受動態であるために上の方向にそれまで伝達し
ていない)に対して、グラフ作成装置は、VERBの右
側で遭遇するSEMNPに、上記の制限を順番に適用す
る(ステップ156)。これらすべての規則で、動詞選
択制限は、それが何かに適用されるとすぐに使い尽くし
てしまう。これまでのすべての規則の場合、SEMNP
は、それらSEMNPに何かが適用された場合には、使
い果たされない。この規則からスタートすると、SEM
NPは使い尽くされる。最終的に、ある規則がSEMV
Pを作った場合に、グラフ作成装置は、それまで使用さ
れていないSEMVPまたはSEMADJが含まれてい
るかどうかを決定し、含まれている場合には、それを上
の方向に向かって伝達する(ステップ158)。 【0058】システムは、また言語の特性マッチングを
行う。言語特性は語句および他の構成要素の特性であ
る。構文の特性マッチングはパーサーが使用し、意味特
性マッチングは、グラフ作成装置が使用する。しかし、
同一の方式が両者に対して使用される。例えば、「the
y」は複数という構文特性を持ち、一方「he」は単数と
いう構文特性を持つ。特性マッチングは、語句の特徴が
それらが適用される語句の特徴がある条件を満たした場
合にだけ適用されるように、文法規則にマーク付けを行
う。例えば、下記のような規則があるとする。 【0059】S=NP{@}+VP{@} ここで、記号@はNPおよびVPの数の特性が一致しな
ければならないことを意味する。したがって、この規則
は「they are」や「he is」は正しいとするが、「they
is」や「he are」は認めない。 【0060】特性マッチ制限は、「局所的」と「広範
囲」とに分けられる。広範囲の動作は、実際に文が処理
されるときにではなく、文法が作成されるときに計算さ
れる。そして、実行しなければならない広範囲の動作の
シーケンスは、命令バイトとしてコード化される。 【0061】「広範囲」特性動作の計算は、n個の要素
からなる規則(すなわち、その右側に二つ以上の要素を
持っている)でスタートしなければならない。その後、
システムは、特性の集合が正しい形で規則間を伝達して
終わるように種々の二つの要素からなる規則にコードを
割り当てる。n個の要素からなる規則を二つの要素から
なる規則に分割することによって、解析作業は非常に単
純化される。しかしシステムは、二つの要素からなる規
則にまたがって特性の集合を追跡しているので、システ
ムは「広範囲」処理のパワーを保持する。 【0062】本発明のシステムでは、辞書は構成してい
る偶々の語句としての取り扱いも行うが、複数の語句で
構成する「熟語」も含んでいる。これら二つの形は、最
終的には最も適切な翻訳を行うために相互に競い合うこ
とになる。例えば、辞書では「b1ack sheep」の意味
は、「持て余し者」として登録されている。しかし、あ
る場合には、「b1ack sheep」という語句は、「黒い
羊」を意味することもある。これらの形は両方とも保持
されているので、この熟語としてではない翻訳も、正し
い翻訳として選択される。 【0063】この熟語は、また別の分類にも属する。例
えば、システムは次の三つのタイプの分類を使用するこ
とができる。 【0064】 オールマイティ:United States of America 優先:long ago 普通:b1ack sheep オールマイティ熟語は、そのシーケンスを構成している
どの語句の可能な解釈よりも優先する。優先熟語は、そ
のシーケンスを構成している語句が同じ一般的な使われ
方をしているときは、いずれの可能な解釈よりも優先す
る。普通熟語は、同じレベルで他の見出し語と競合す
る。 【0065】その結果得られるグラフは、エキスパート
(ステップ108、図3)によって評価され、上記エキ
スパートはグラフの解釈の正確さの可能性を表すスコア
を供給する。本発明のシステムは、文全体のみではな
く、文の任意の長さのすべての部分に適用される採点方
法を含む。グラフを使用するに当たっての重要な要素
は、それが非常に多くの文に使用されていたとしても、
サブツリーがたった一回だけ完全に採点され、分析され
るということである。例えば、「Near the bank there
is a bank.」という句においては、「Near the bank」
という句は、少なくとも二とおりの意味を持つが、この
句の最も適切な解釈はどれかという判断は一回しか行わ
れない。「there is a bank」という句も、同様に二と
おりの解釈をすることができるが、これら二とおりの解
釈のどれが最も適切であるかという判断は一回だけしか
行われない。したがって、この文は異なる四つの意味に
解釈できるが、サブ句のスコア付けは一回しか行われな
い。このグラフのもう一つの特徴は、各ノードが、文の
その部分の長さに関して容易にアクセスできる情報を持
っていることである。この特徴により、英文を再度分析
しなくても、その英文の任意のサブストリングのN個の
最も適切な解釈を行うことができる。 【0066】一回の実行においては、その文の最も適切
なN個の分析が、その度ごとに得られるが(Nは20程
度のある数)、グラフを使用することにより、システム
は、もっと小さな構成部分についてのユーザの選択の結
果を取り入れることができ、ユーザの選択を尊重したN
個の最も適切な分析を行う。これらすべての分析は、文
の解析を再度行わず、または任意のサブストリングの採
点を再度行わないで行われるので、迅速に行うことがで
きる。 【0067】図8を参照すると、エキスパート評価子3
0の動作は、各翻訳を特徴づけ、種々のエキスパートに
より処理される、種々の要因に基づいて行われる。確率
規則エキスパート170は、最初のソース言語解析ツリ
ーを入手するのに使用される文法規則の平均相対頻度を
評価する。選択制限エキスパート178は、得られた翻
訳の意味上の一致の度合を評価する。辞書見出し語確率
エキスパート172は、最初のソース言語解析ツリーを
入手するめに使用された文のいくつかの語句の特定の
「品詞」の平均相対頻度を評価する。統計エキスパート
は、ある翻訳のために選択した特定のパラフレーズの平
均相対頻度を評価する。 【0068】システムは、個別の英語の単語、句、およ
び単語グループに対する英語の「品詞」(POS)を自
動的に決定する。システムは、文を翻訳するとき、品詞
を自動的に決定し通常は正しい決定を行う。しかし、と
きには、翻訳する文それ白身が曖昧であることもある。
異なる品詞として解釈することができる語句が含まれて
いるときは、複数の異なるしかもどれも「正しい」解釈
が得られることになる。システムのオペレータは、シス
テムが自動的に決定する品詞を無視し、代わりに単語や
語句または単語グループに対して手動で任意の品詞を設
定することもできる。例えば、「John saw a boy with
a telescope.」という英文で、システムのオペレータ
は、「a boy with a telescope」を名詞句と見なすと、
その文を「その少年は望遠鏡を持っていた」という意味
に解釈し、「ジョンはその少年を見るために望遠鏡を使
用した」という意味には解釈しないことになる。オペレ
ータは、複数の可能な品詞設定を行ったり、より制限の
ゆるやかな品詞設定を手動で行うことにより、システム
が決定する品詞規則を上書きした場合、翻訳結果が悪化
したり、少なくとも改善されないという状況が起こるこ
とがあります。名詞句は名詞よりも制限がゆるやかであ
り、グループはもっとも制限が緩やかな品詞設定であ
る。下の表に種々の可能な品詞設定を示す。 【0069】品詞(POS) 名詞 名詞句 動詞(他動詞または自動詞) 動詞句 形容詞 形容詞句 副詞 副詞句 前置詞 前置詞句 接続詞 グループ 英語 「形容詞句」や「副詞句」の品詞設定は、ある英文が、
システムが特定の前置詞句をどのように解釈するかによ
って意味が異なるような場合に有効である。例えば、
「We need a book on the fourth of July」という文
は、「on the fourth of July」が形容詞としての意味
を持つと解釈した場合には、「我々は米国の7月4日の
独文記念日に関する本がほしい。」という意味になる
が、「on the fourth of July」を副詞句と解釈した場
合には、「7月4日に、我々は本がほしい。」という意
味になる。システムが自動的に「on the fourth of Jul
y」に正しくない品詞を割り当てたとオペレータが考え
た場合には、オペレータは、「Weneed a book on the f
ourth of July」という文の「on the fourth of July」
に別の品詞を手動で設定することができる。オペレータ
が、システムに特定の単語、句または単語グループを英
語から日本語に翻訳させたくないときは、このような単
語、句または単語グループに『英語』という品詞を設定
することができる。オペレータは、設定がシステムによ
り自動的に行われた場合でも、オペレータにより手動で
行われた場合でも、一つまたは複数の品詞設定を除去す
ることができる。 【0070】システムは、ユーザごとに複数のレベルで
訳語の使われ方の統計情報を追跡する。例えば、システ
ムは、語句の表面形式のレベル(「leaving」が他動詞
として、または自動詞として使用された頻度)で統計値
を保持し、また意味レベル(「あとに残る」という意味
か、または「〜から出発した」という意味か)でも保持
し、後者のタイプは「leave」、「leaves」、「lef
t」、「leaving」の異なる変化形ごとに出現回数が積み
上げられる。システムは、また最後のいくつかの文で使
用された使用統計値とユーザの任意の時間での使用統計
値とは区別して保持することができる。さらに、システ
ムは、ユーザが語句の特定の意味を使用するように介入
して指示したケースと、システムがユーザの介入を受け
ずに語句の特定の意味を使用したケースとを区別するこ
とができる。 【0071】構造調整エキスパート182は、ある文の
構成部分の長さに関連する特徴で、英語や多くの他のヨ
ーロッパ言語に共通する特徴に基づいている。いくつか
の(全てではないが)構造で、これらの言語では、軽い
(短い)要素の左側に重い(長い)要素がくるような文
は歓迎されない。例えば、 Mary hit Bill with a broom。(左が軽く、右が重い)(適合) Mary hit with a broom Bill。(左が重く、右が軽い)(不適合) Mary hit with a broom a dog that tried to bite her. (左が重く、右がもっと重い)(適合) ある文の二つの解析があるとき、一方がそのようなシー
ケンスを避けようとする構造を含む「左が重く、右が軽
い」シーケンスを含み、他の解析がそうでない場合に
は、前者はその文の意図する解釈を表していないと見な
される。このエキスパートは、意図する解析と意図しな
い解析を区別するための有効な方法である。 【0072】「A of B and C」というパターンの同格構
造においては、意図する解釈が「Aof {B and C}」であ
るのか、または「A {of B} and C」であるのかを判断す
るのが難しい場合がある。同格構造エキスパート180
は、どの同格モードが意味のより近い二つの要素を結合
することになるかを決定するために、BC間の意味上の距
離、およびAC間の意味上の距離を測定する。このエキス
パートは処理中に意味特性ツリーにアクセスする。この
エキスパートは、ある文の意図する解析と意図しない解
析を区別するための効果的な方法でもある。 【0073】英語の多くの語は、普通名詞としての解釈
と固有名詞としての解釈とに潜在的な曖昧さを含んでい
る。大文字エキスパート176は、大文字表記が意味を
持っているかどうかを決定するために、文中での大文字
の位置を使用する。例えば、下記の文は、Brown is my
first choice. My first choice is Brown. 第一の文は本来的に意味が曖昧であるが、第二の文は、
「Brown」は色の名称ではなく、人名である可能性がは
るかに高い点で異なる。このエキスパートは、大文字で
始まる語句が文頭にあるのか、または文頭でない場所に
あるのか(上の例)、大文字で表示されている語句が辞
書に含まれるのかどうか、小文字で始まる語句が辞書に
登録されているのかどうか、などの要因を考慮に入れ
る。このエキスパートは、文中の大文字で書かれた語句
を正しく解釈するのに有効な方法である。 【0074】文中に最初が大文字の語句の連続を含んで
いるとき、その連続は固有名詞または普通名詞として処
理される。本発明のシステムは、大文字表記シーケンス
手順を使用しており、前者の解釈を優先する。上記シー
ケンスが、それ自身通常の文法規則により解析できない
ときは、そのシーケンスは解析していないひとまとまり
の名詞句として翻訳しないで処理される。この手順は、
出現レベルの低い普通名詞の解釈を完全には無視しない
で、複合の固有名詞を処理する非常に有効な手段である
ことが証明されている。 【0075】図7を参照すると、本発明の機械翻訳シス
テムは、簡単な文法規則に基づく構造変換方法の効率を
持っているが、テンプレート間構造変換方法の能力にも
近い文法規則制御構造変換機構162を使用する。この
方法は、平らでない複合構造を指定することができる文
法規則160を使用する。他の翻訳システムで使用され
ている規則のフォーマットを以下に示す。 【0076】 本発明のシステムは以下の文法規則のフォーマットを使
用する。 【0077】 【数1】この構文で、「#」が前に付いている記号は、文の構造
解析の目的では見えない記号であるが、いったん解析が
入手できればサブ構造を構築するのに使用される仮想の
記号である。 【0078】このタイプの文法が与えられたとき、サブ
構造のこども関係にあるノードの任意のシーケンスの間
で、複数の構造変換を指定することができるようにな
る。これにより、文法規則に基く構造変換機構はテンプ
レート間構造変換機構のいくつかの能力を持つ機構に変
換される。本発明のシステムは、上記の二番目のタイプ
の文法規則に基づいているけれども、一番目の形式で対
応する文法規則を自動的に作成する。したがって、文を
解析するのに、第一の形式の文法規則を使用し、文法解
析構造を形成するために第二の形式の文法規則を使用す
ることができる。 【0079】構造変換は、また文法規則制御構造変換作
業による操作をうけた後で、解析ツリー上で動作するた
めに、辞書161にアクセスする辞書制御構造変換作業
166を含む。その後、生成規則構造変換作業が、目的
言語テキスト41を供給するために、結果として得られ
た解析ツリーに、生成規則を適用する。 【0080】再び、図1および図2を参照すると、シス
テムが上記プロセスにより、最も望ましいとした翻訳を
作った後、その翻訳がディスプレイ20を通してユーザ
に提供される。その後、ユーザは、その翻訳を採用する
か、ユーザ入力装置22を通して別の解析システム37
を操作することにより手直しができる。手直し作業中、
ユーザは、正確に翻訳された翻訳結果の部分はそのまま
に保持しながら、その他の部分の再翻訳を要求すること
ができる。この作業は、迅速に行える。というのは、シ
ステムはエキスパートの重み31を含むグラフを保持し
ているからである。 【0081】今まで図1〜図9を参照しながら、自動自
然言語翻訳システムをある程度詳細に説明してきた。以
後は、本発明の種々の改良点について、図10、図11
および図12を参照しながら説明する。 【0082】図10を参照すると、自動自然言語翻訳シ
ステムの翻訳エンジン16は、ソース・テキスト23を
受信し、それを目的自然言語テキスト41に自動的に翻
訳する。この翻訳は、本発明の他の観点による「自動領
域識別子」機能により影響をうける。この機能により、
翻訳エンジン16は、翻訳を行う際に、領域キーワード
200の一つまたは複数のリスト(図示したのはN個)
および辞書202にアクセスする。辞書202は、見出
し語が使用される領域により、異なる翻訳を受けとる見
出し語を含む。辞書202の各見出し語は、ソース自然
言語で書かれた一つまたは複数の語句であってもよい。
一般的に言って、別々の各領域は領域キーワードのリス
トを持ち、図10にはN個の領域を示されている。キー
ワードのリストの各見出し語としては、ソース自然言語
で書かれた一つまたは複数の語句も使用することができ
る。キーワード200のリストは、図に示すように、辞
書202から分離することができるし、または矢印20
4で示すように、上記辞書に内蔵させることもできる。 【0083】一つの領域は、ある分野の用法または特定
の人々に属する用語や用法のパターンのセットを含むこ
とができる。例えば、一つの領域としては、ビジネス通
信、マーケティング文書、コンピュータ関連文書、物理
学などの技術分野の文書を含むことができる。 【0084】辞書202は、ある領域関連で使用された
とき、その語句が他の領域で使用されたとき、どの特定
の領域でも使用されなかったときにはそれぞれ異なる目
的自然言語(例えば、日本語)の訳語を持つ語句が含ま
れる。キーワード200は、各領域に関連して、ソース
自然言語23で書かれた特定の文(または、入力文書)
が可能な領域の一つに属するかどうかを判断するのに使
われる領域指定の語句または用語である。領域キーワー
ド200の各リストにおいては、各キーワードは、それ
に関連し、特定の領域に対するキーワードとしての強さ
を示す数値を持つ。例えば、「コンピュータ」領域リス
トには、100%の値を持つ「open-architecture compu
ter」というキーワードを含んでいて、この100%とい
う値はこのキーワードを含む文が、必ず「コンピュー
タ」領域の文であることを意味し、「コンピュータ」領
域内のキーワード「computer」は、25%の値を持って
おり、この25%という値は、このキーワードを持っ文
が「コンピュータ」領域内に存在する可能性がもっと低
いことを意味する。 【0085】「自動領域識別子」機能で、翻訳エンジン
16は、好適には、その文または文書が特定の領域に属
することを確定できるように、文、文書または文書の一
部のキーワードの強さの値の合計(あるいは、十分なキ
ーワードが存在するかどうか)を決定する。キーワード
がある領域に存在する場合に、辞書202においては領
域指定語句としてリストされ、しかも翻訳しようとする
文や文書に含まれる語句の確率が引き上げられて、文ま
たは文書の翻訳が行われる。翻訳エンジン16が行う上
記の決定は、ソース自然言語とキーワードだけに基づ
く。 【0086】翻訳エンジン16は、例えば、下記の二つ
のどちらかの方法で、入力テキスト情報23の少なくと
もその一部が属する少なくとも一つの領域を決定する。
第一の方法は、入力テキスト情報23の各文に一度に一
つずつアドレスし、各領域のキーワードの出現数をカウ
ントすることである。所定の個数と同等以上の数のキー
ワードを持つ各領域に対しては、翻訳エンジン16は、
その領域に特有の訳語を使用して、目的自然言語41に
翻訳される文に含まれるいくつかの語句の確率を高くす
る。所定の上記の数は、入力テキスト情報23のすべて
の文に同一の値を固定することもできるし、また文ごと
に、文の長さ(語句の数)によって変化させることもで
きる。上記の所定の数は、システム10によって設定す
ることもできるし、システム10のユーザが設定するこ
ともできる。第二の方法は、最初のN単語というよう
に、入力テキスト情報23の所定の単語数に出現する各
領域のキーワード出現数をカウントする方法である。所
定の数以上の個数のキーワードを持つ各領域に対して
は、翻訳エンジン16は、その領域に特有の訳語を使用
して、目的自然言語41に翻訳される文に含まれるいく
つかの語句の確率を高くする。同様に、所定の数は、シ
ステム10によって設定することもできるし、システム
10のユーザが設定することもできる。 【0087】本発明の好適な具体例では、翻訳エンジン
16は、前段落で説明したように、キーワードをカウン
トすることによってではなく、各領域に対する強さの値
の合計を得るために、それぞれのキーワードに関連する
強さの値を使用することによって、入力テキスト情報2
3の少なくともその一部が属する少なくとも一つの領域
を決定する。この好適な具体例の場合には、翻訳エンジ
ン16は、そうでない場合には、前の段落で説明したよ
うに動作する。すなわち、第一の好適な方法では、入力
テキスト情報23の各文は、一度に一つずつアドレスさ
れ、キーワードの強さの合計が所定の数値以上の大きさ
をもつ各領域に対しては、翻訳エンジン16は、その領
域に特有の訳語を使用して、目的自然言語41に翻訳さ
れる文に含まれるいくつかの語句の確率を高くする。所
定の上記の数は、入力テキスト情報23のすべての文に
同一の値を固定することもできるし、また文ごとに、文
の長さ(語句の数)によって変化させることもできる。
上記所定の数は、システム10によって設定することも
できるし、システム10のユーザが指定することもでき
る。第二の好適な方法においては、各領域のキーワード
の強さの値の合計は、ソーステキスト23の最初のN単
語のように、入力テキスト情報23の所定の単語数に出
現するキーワードによって決定される。キーワードの強
さの合計が所定の値以上の値を持つ各領域に対しては、
翻訳エンジン16は、その領域に特有の訳語を使用し
て、目的自然言語41に翻訳される文に含まれるいくつ
かの語句の確率を高くする。すでに説明したように、所
定の数は、システム10によって設定することもできる
し、システム10のユーザが設定することもできる。 【0088】「自動領域識別子」機能の一例として、
「markup language」および「help desk」が「コンピュ
ータ」領域の領域キーワードのリストに含まれていて、
「endusers」は、「end users」が「コンピュータ」領
域で使用されるかどうかによって二つの別の訳語を持つ
とする。次の文がソーステキスト23の一部であると
き、 Markup language should be easily used by end users
without being supported by help desk. 「自動領域識別子」機能に従って、翻訳エンジン16
は、「コンピュータ」領域の二つのキーワード、「mark
up language」および「help desk」を発見する。「コン
ピュータ」領域のこれら二つのキーワードを見つけるこ
とにより、翻訳エンジン16は、しきい値を基に、その
文が「コンピュータ」領域の文であることを決定するこ
とができる。その文が「コンピュータ」領域に属するも
のであると決定されると、翻訳エンジン16は、そのあ
と、ユーザに提供される目的自然言語テキスト41に翻
訳する「コンピュータ」領域に特有の「end users」の
訳語が使われる機会を増大するように、「コンピュー
タ」領域に特有の「end users」の訳語の確率を引き上
げる。文ごとにこの機能が働くモードのほかに、「自動
領域識別子」機能は、入力テキスト全体に働くこともで
きる。例えば、翻訳エンジン16は、特定の領域に対応
するキーワードの定められた個数が、ソーステキスト2
3の最初のn単語(nはある整数)内に存在すれば、ソ
ーステキスト23全体が「コンピュータ」領域に属する
かどうかを決定することができる。この全テキストモー
ドの場合には、辞書202に含まれる領域特有の訳語を
持つソーステキスト23のすべての語句は、その領域特
有の訳語を使用して翻訳される。 【0089】図11を参照すると、自動自然言語翻訳シ
ステム10の翻訳エンジン16は、ソーステキスト23
を受信し、それを自動的に目的自然言語テキスト41に
翻訳するが、この翻訳は本発明の他の特色による文法規
則206の種々の規則に適用されるいくつかの設定やマ
ーク付けにより影響を受ける。これらの設定は、「オー
ルマイティ」や「品詞優先」である。システム10の翻
訳エンジン16は、「オールマイティ」または「品詞優
先」とマーク付けすることができる文法規則206を使
用して、ソース自然言語23の文を解析するパーサー2
6を持つ。パーサー26は、オールマイティ規則が適用
されるソース自然言語23のどの部分に対しても、すべ
ての他の規則の適用を阻止する規則として、「オールマ
イティ」とマーク付けが行われている文法規則を使用す
る。パーサー26は、特定の品詞と同じ品詞に関連する
他の規則だけを阻止する規則として、「品詞優先」とマ
ーク付けが行われている文法規則を使用する。マークが
付けられていない文法規則は、他の規則に対して優先権
を持たない。文法規則に「オールマイティ」または「品
詞優先」のマークを付けることは、そうでない場合に
は、システムの翻訳エンジン16によって作られるツリ
ー構造から、不要な解析枝を削りとる非常に有効な方法
である。文法規則へのこのマーク付けは、また翻訳エン
ジン16か、上記マーク付けをしない場合には作らなけ
ればならない大きなツリー構造を作る必要がなくなり、
また上記マーク付けをしない場合には大きくなるツリー
構造を記憶する必要がなくなるので、時間の点でも記憶
容量の点でも、さらに解析を効率的に行うことができ
る。 【0090】この文法規則のマーク付け機能の例とし
て、文法規則が次の三つの規則を含むとする。 【0091】 (1)名詞=数+ハイフン(−)+序数の百(例えば、
three-hundredth) (2)名詞=名詞+ハイフン(−)+名詞(例えば、sc
hool-building) (3)名詞句=数+名詞(例えば、one book) また、システム10は次の三つの見出し語を含む辞書を
使用するとする。 【0092】 これらの文法規則と辞書の見出し語があるとき、ソース
テキストに含まれる単語列「one eighteen-hundredth」
は以下の二つの方法により解析できる。 【0093】 【数2】 文法規則(1)に「オールマイティ」というマーク付け
がされていると、「one eighteen-hundredth」という単
語列の他のすべての解析(上記の第二の解析のように)
は除外されてしまうので、これら二つの解析では一番目
が使用される。他のすべての規則を支配するオールマイ
ティ規則(1)が使用される。文法規則(1)が「品詞
優先」のマーク付けをされているときは、同様に二番目
よりも一番目の解析が選択されるが、この場合は、規則
(1)と規則(2)が同じ品詞をアドレスしており、制
御(すなわち、品詞優先)マークが付加された規則
(1)により、文法規則(1)が単語列の解析に使用さ
れる。次の例が示しているように、「オールマイティ」
と「品詞優先」は別のものであり、「オールマイティ」
マークが付けられている規則で翻訳したときは、「品詞
優先」マークが付けられている場合と、必ずしも同じ結
果を生じない。 【0094】次の四つの文法規則で、第三の規則には、
「品詞優先」のマークが付けられているとする。 【0095】 (1)名詞=名詞+名詞 (2)名詞句=名詞 (3)名詞句=数+名詞{品詞優先} (例えば、in F
OUR DAYS) (4)副詞句=数+副詞的名詞 (例えば、I work FOUR
DAYS a week) また、システム10は、次の見出し語を含む辞書を使用
する。 【0096】 このような文法規則と辞書の見出し語があるとき、ソー
ステキストに含まれる単語列「I work four days」は、
下記の三つの方法と句レベルで解析できる。 【0097】 【数3】 「品詞優先」とマークされている文法規則(3)の場合
には、文法規則(3)は同じ単語列(「four days」)
を、同じ品詞である名詞句として解析するような他のす
べての文法規則の適用を排除し、文法規則(2)は「fo
u days」を名詞句として解析しているから、上記三つの
解析の一番目が第二の解析よりも優先して使用される。
しかし、品詞として名詞句とは別の副詞句を持っている
から上記の第三の解析が排除されるというわけではな
い。このように、文法規則(3)を「オールマイティ」
とマークすると、ほかのどの文法規則(3)も適用され
ないようになるが、文法規則(3)を「品詞優先」とマ
ークすると、文法規則(3)と同じ品詞をアドレスする
他の規則だけが除外される。 【0098】図12を参照すると、自動自然言語翻訳シ
ステム10の翻訳エンジン16は、ソーステキスト23
を受信し、それを自動的に目的自然言語テキスト41に
翻訳するが、この翻訳は本発明の他の特色による辞書の
見出し語と関連づけられた確率値により影響を受ける。
この確率値特性に従って、翻訳エンジン16のパーサー
26は、最終のツリー構造の構成要素になる確率が非常
に低いか、絶対的に構成要素にはならないとマークされ
ている見出し語を含む辞書208を使用する。辞書20
8は、複合語の見出し語を含み、それら見出し語の少な
くとも一つには、非常に低い確率の値がマークされてい
て、ソース自然言語23のどの文の正しい解析ツリーに
おいても指定の品詞として機能する確率がほとんどない
ことを示す。マークが付いている見出し語が、ある入力
文の解析ツリー構造に含まれている場合には、そのマー
クが付いている見出し語に関連する確率の値が低いため
に、その解析ツリーがその文に対して正しいものである
確率は非常に低くなる。確率の値をこのように使用する
ことによって、システム10の翻訳エンジン16によっ
て作られたツリー構造の除去効果をもつことができる。 【0099】確率の値の使用例として、次の複合語の見
出し語を含む辞書があるとする。 【0100】見出し語 品詞 文法規則 確率 in today 前置詞句 品詞優先 P(n) この場合、P(n)は、与えられたソーステキスト文で
見出し語「in today」が実際に前置詞句であるという想
定した確率値を奏す。P(n)は、その辞書の通常の複
合語の見出し語と比較すると無限に小さな数値に設定し
てあるとする。入力文は次の文である。 【0101】He didn't come in today. この文は構文的に曖昧で、次の二つの文のように解釈で
きる He didn't {come in} today. と He didn't come {in today}. (in today)は、一致する辞書の見出し語の関連する確
率が非常に無限に小さい値、P(n)を持っているか
ら、この文が第二の文として解析される確率は非常に少
なくなる。「in today」には品詞優先のマークが付いて
いるので、通常の確率の値を与えることができる前置詞
句として解析する以外の解析がない。このように、この
文の不適切な解析は低く評価される。「in today」に対
するP(n)がゼロに設定されている場合には、パーサ
ーは、上記文の解析を行うのに「intoday−前置詞句」
を全く使用しない。しかし、この特定の例でいえば、次
のような文で使われることがあるので、P(n)をゼロ
に設定するのは望ましくない。 【0102】I am interested in today, and not in t
omorrow. この場合、「in today」を前置詞句として解析するのが
妥当である。ゼロの代わりに低いP(n)値を使用すれ
ば、好ましくない文法構造解析である。 【0103】He didn't come {in day}. を除外することができ、一方で、 I am interested in today, and not in tommorow. を、「in today」を前置詞句として解析するように、正
しく解析することができる。 【0104】上記のすべての機能と処理は、汎用コンピ
ュータに組み込まれた種々のハード配線論理設計および
/またはプログラミング技術により実装することができ
る。フローチャートに示したステップは、通常、順序ど
おりに適用する必要はなく、いくつかのステップを組み
合わせることができる。また、このシステムの機能は、
種々の形でプログラムとデータに振り分けることができ
る。さらに、文法や他の操作規則を、コンパイルしたフ
ォーマットでユーザに提供する一方で、一つまたは複数
のハイレベル言語で開発しておけば有利である。 【0105】本明細書に開示したすべての機能を含め
て、上記の自動自然言語翻訳システムの具体例のいずれ
も、汎用コンピュータ(例えば、アップル・マッキント
ッシュ、IBM PCと互換機、SUNワークステーシ
ョン等)で実行できるディスクや光学的コンパクト・デ
ィスク(CD)のようなコンピュータが読み取れる媒体
のコンピュータ・ソフトウェアとして提供することがで
きる。 【0106】通常の当業者であれば、請求の範囲に記載
した本発明の精神および範囲から逸脱することなく、本
明細書に記載した発明を様々に変更したり、修正したり
別に実装することができるだろう。従って、本発明は上
記の例示としての説明によってではなく、下記の請求の
精神と範囲によって定義される。
DETAILED DESCRIPTION OF THE INVENTION [0001] BACKGROUND OF THE INVENTION The present invention relates to a natural language
Automatic translation from other natural languages, preferably from English to Japanese
About translation. [0002] 2. Description of the Related Art Various types of machines are available for machine translation of natural languages.
Formulas have been proposed. The system usually used for translation
Receives input in a language and processes the received input.
Including computers that output in other languages. This
Traditionally, translations of Ip have been inaccurate, and
If the trained operator does not significantly modify the output
No. Translation work using conventional systems is generally
Includes the conversion operation. The purpose of this structural transformation is the source language
A parse tree for the sentence (ie, a syntax tree)
It is to convert to a tree corresponding to the language. to date
Two types of structural transformation schemes have been tried. Sand
That is, conversion based on grammar and conversion between templates
You. In the case of conversion based on grammar, the structure conversion
The domain is given in the source language parse tree (ie, given
Set of subnodes that are direct children of
Is limited to the area of grammar rules used for example
If we have VP = VT01 + NP
Lyrics and noun phrases are arranged in this order. ) And for Japanese, 1 + 2 => 2 + 1 (VT01 and N
The order of P is reversed. ) [0004] A saw including the application of rules
The linguistic tree of language is structurally the order of verbs and objects.
Is converted to be the opposite. Verbs are purpose in Japanese
Because it comes after the word. This method uses the source language
Exactly where the rules were used to get the parse tree
Applies and allows you to quickly find where certain transformations have taken place.
It is very efficient in that Meanwhile, on
As mentioned, the territory is said to be severely restricted
Points, and natural language spans non-child nodes
In that it may require such conversion rules.
The exchange mechanism is weak. In the conversion between templates, the structural conversion is
In the form of input / output (I / O) templates or subtrees
It is specified. A structure tree with an input template
If they match, the structure tool that matches the template
Directory part is specified in the corresponding output template.
Converted to cages. This is a very powerful conversion mechanism
Is the structure tree where the given input template exists.
Time to find which part of the match
And the processing cost may increase. [0006] SUMMARY OF THE INVENTION The automatic natural language translation of the present invention
Translation systems have many advantages over traditional machine translation devices.
With benefits. The system automatically enters the text information
Provide the most appropriate translation possible and provide the user with the output (good
Suitably after supplying a Japanese translation of the English input text)
In order for the user to modify the displayed translation result
To obtain other translations automatically or automatically.
Can interact with the stem. Automatic natural language of the present invention
The person who operates the translation system decides that this is good.
Keep the rest of the translation and keep the rest
It can be re-translated automatically. This selective retranslation
By performing the translation, the parts that need retranslation
Only the translation takes place, so the operator saves time
As there are potentially many inaccuracies
Also considers very high quality translations
You can do tedious tasks quickly. In addition,
The system can make various translation adjustments.
And usually the final structure of the translation is often
Created. Therefore, using this system
Reduces potential errors by humans (operators)
Modification of combs, sentence structure, personality and tense matching, etc.
Saves time. This system is an operator
Can provide extensive and accurate grammar and spelling knowledge
It has become so. The automatic natural language translation system of the present invention
Various ambiguities in sentence breaks in source languages
Translations are more accurate thanks to the power of meaning and powerful semantic communication
And the time required for operator translation rework
Will be shorter. Tailored to specific user preferences
The learning statistics that the system remembers
Translation quality is further improved. Idiom processing method of this system
Is used when there is a sentence that contains a phrase
It is possible to translate correctly without considering the meaning of the word itself
It has the advantage of being able to. If the system is efficient
Diversified to match less relevant characteristics
Has functions. The structural balance expert of this system
And the peer structure expert,
Efficiently distinguish between no analysis. Capitalized Expert
Efficiently interprets uppercase words in sentences accurately and
String procedures completely ignore interpretations as common nouns.
Instead, it processes compound proper nouns efficiently. [0008] From a certain point of view, the present invention provides an automatic
This is related to the improvement of a natural language translation system.
In this case, the improvement is "automatic region identifier" to help translation
About the use of Areas may contain certain uses or certain
Includes a collection of terms and usage patterns belonging to people.
For example, business domains, marketing
Technical documents such as computer documents, computer documents, and physics.
Documents in the field can be considered. In words included in the dictionary
Is the target natural language when used in a specific area
(E.g. Japanese), but used in other areas
If used or used regardless of discipline,
The meaning may be different. Squirrel of domain keywords
Is also used. Keywords are the areas associated with each area
A unique word or term that is a source natural language (or source
To which area a particular sentence belongs to
Used to determine "Automatic area identifier" function
Means that the sentence (or document) is a sentence in a specific area
Sufficient keywords are used in the sentence (or its
Document or part of a document)
to decide. If the area can be identified, it is listed in the dictionary
The words that are also included in the sentence (or document) being translated
Use a higher probability value and use the sentence (or document)
Is translated. The determination by "automatic area identifier"
Based solely on source natural language and keywords
You. The "automatic region identifier" function of the present invention
Area mismatch analysis (not fit to specific area)
Analysis), so the translation time of the system
Be faster. In another aspect, the present invention is directed to an automatic nature
Another improvement of the language translation system. Its improvement
This is because "almighty" or "part of speech priority"
Or use the grammar rule "unmarked".
Parsing of source natural language sentences used. "Oh
The "Lumighty" grammar rule allows the same part of the sentence
Rule that excludes all other rules that parse
You. The "part of speech priority" grammar rule is
Rules that exclude all other rules such as parsing parts
But this is the case when other rules have the same part of speech.
It is done only in case. No other grammar rule
It does not have priority over the discrepancy rules. "All my
Grammar rules such as
If there is no rule, it is created by the system's translation engine
Irrelevant grammar interpretation tree from the tree structure
This is an effective way to remove. With such a mark
Grammar rules are more effective in terms of time and memory
Analysis can be performed In other words, the translation of the system
Time can be reduced. Because the translation engine
Is a big thing that could be made without marking
This is because there is no need to create a tree structure. In addition, translation
The engine must remember if not marked
Note that you do not have to remember large tree structures
(For example, RAM) area can be released. From a further point of view, the present invention provides
Still another improvement of the dynamic natural language translation system. This
Very likely to be a component of the final tree structure
Headwords marked low or absolutely absent
An improvement related to parsing using dictionaries with. dictionary
Contains compound entry words, and at least
Even if one compound has a very low probability value
This low probability value indicates that the headword is
Even a correct parse tree for any sentence in a word as a particular part of speech
Indicates that it is unlikely that it will work. An input
In the parse tree structure of the statement,
If the term is included, the heading marked
Because the probability value associated with a word is low, its parse tree is
Is very small for a sentence of this
By using the probability values, the system's translation engine
Unnecessary parts of the tree structure created by
Wear. The above and other objects, features and characteristics of the present invention.
And advantages will be apparent upon reading the following description and claims.
become. [0012] BRIEF DESCRIPTION OF THE DRAWINGS FIG.
The outline of the automatic natural language translation system of the invention will be described. This
Will be described with reference to the drawings. [0013] The automatic natural language translation system uses
The language can be translated into the target natural language. Suitable tool
As an example, the above system translates English into Japanese.
The above system is designed to convert source natural language to target natural language.
A device for receiving and storing a translation engine for producing translations;
A device for displaying translation results to a user;
And a device for providing and displaying another translation result.
No. As a specific example of this system, the translation engine
Pre-parser, parser, graph creation device, evaluator, group
Rough scorer, grammar structure extraction device and structure conversion device
including. The preparser examines the input text and
Analyze ambiguous parts of sentence end recognition. After that,
Is an analysis chart that includes dictionary headwords.
Create and display text. Parser input text
To obtain a possible syntactic classification for
Analyze the report. The graph creation device converts the analysis chart
Create a graph of the possible parsing of the input text based on
You. This chart shows the possible interpretations of the input text
Nodes and sub-nodes. A series of experts
The evaluator containing the list evaluates the interpretable graph and
Add expert weights to nodes and subnodes
You. Graph scorer is used to evaluate subnodes
Use the expert weights and then the N top
Associate the core with each node. The grammar structure extraction device
A suitable solution whose parse tree structure is determined by the graph scorer
Assign to The structure conversion device translates in the target language.
Perform a structural transformation on the parse tree structure to obtain
U. In the following three paragraphs, (a) each sub node
Graph to calculate the final weighted score for the
How Scorer Combines Expert Weights
(B) To reach the final node score,
How Rough Scorer builds subnode scores
(C) the language information is the number of nodes and subnodes
Describe how to communicate Lee. Calculate the final weight score for each subnode
For calculation, a graph scorer is defined for each subnode.
Associate numerical values. Language information related to each subnode
The analysis determines the score of the subnode. An example
For example, a set of expert evaluators is
Checking the linguistic information stored in the code See FIG.
No. A graph scorer can be used for a particular node or subnode.
To obtain the final weighted average for
Calculate the sum of the individual weighted scores for the report. Multiple
The weighted scores of the two into one weighted average score
Is a standard problem in computer science
You. One method that can be used is
The result contains the constants assigned to the expert
There is a method of multiplying them. Assign to each expert
The weight to be assigned is a matter to be determined at the time of design.
The designer assigns priority (weight) to each expert
decide. A weighted average is a series of numbers multiplied by a constant
It is the sum of the characters. For example, the following equation is obtained. Weighted average = (w1) * (X1) + (WTwo) * (XTwo)
+. . . + (Wn) * (Xn) Where weight w1, WTwo,. . . , WnAre not negative
The total number is 1. For example, regarding the expected value of statistics
Spiegel discusses the use of
Rate and Statistics Theory and Problems 76 ”(1975, Tuna
-Hill Inc.). In order to obtain the final node score,
Graph scorer to connect
Is a subnode from the bottom to the top of the graph
・ Score can be transmitted. Each node has N score
In the case of a graph with a set of
A method can be determined. Propagate subnode scores
One technique that can be used to reach
Certain dynamic programs used to solve optimization problems
There is a storage method that is ramming. For solving optimization problems
Can include many possible numbers (results). Eye
The goal is to find the optimal number. Used for optimization
Algorithm solves each sub-sub problem only once,
The result is memorized, so every time you encounter a sub-sub-problem,
There is no need to calculate again. Applied to optimization problems
For a more detailed description, see, for example,
"Invitation to Algorithms" (McGraw Hill, 1990
Pp. 301-314. This "A
301, 302 and 312 of "Invitation to Lugo Rhythm"
The page conveys subnode score information in the graph.
One method that can be used to accomplish this is described. When transmitting linguistic information in a tree,
The part that conveys the meaning of the system is
Communicate from smaller components to larger ones
Works. Semantic communication is used in parsing operations
Four classes of syntactic classification (SEMNP, SEMV
P, SEMADJ and VERB). meaning
Before the communication is performed, the linguistic information stored in the node is
Information must be analyzed. Stored in the node
Analysis of semantic information is based on the noun-like elements and verbs
By checking new elements, you can determine which noun-like object
The optional restriction slot of the verb-like element of the grammar rule
Is guided by a set of rules that guess
You. Gerald Gazda writes in his book, The Prologue
Natural Language Processing ”(Addison Wesley, 1989)
Company), a direction similar to the graph disclosed in this specification
Is stored in the nodes of the non-ring shaped graph with
Rules that can be used to analyze semantic information
Is explained. Gazda has an adjacent
Use of property matching to match information about
Is explained. Gazda has the following characteristics matching
It includes the expression described in. "Some properties appearing on a node
Is the same property that appears on another node
Must be. Recent research on parental classification and their characteristics
The features of certain classes that also show related morphemes
The principle of equality of gender is assumed. this
The child is called the "head" of the phrase. Most
The phrase has only one head. So, for example, a verb phrase
Inherits the verb's tense. Because verbs are verbs
Because it is the "head" of the phrase. Table used so far
This source, which uses notational resources but is applicable to the entire grammar,
There is no easy way to specify rules. But if relevant
The properties can all be found on one branch of the DAG
If we assume that this principle is very simple for each rule
Can be described. So we have the usual V
The P rule can be written as: VP-> V NP PP <Head of V> = <Head of VP> In this case, the characteristic value of the “head” of V and the value on the parent VP
The characteristic values of "head" must be the same. " The rules discussed in Gazda have the structure disclosed herein.
It can be easily applied to each sentence classification. Gazda's rule
The linguistic information assigned to each node using the rules
With the technique of storage, you can propagate through the tree
You. Here, the contents of the above three paragraphs are summarized.
And the weighted average is one of the sub-node scores
Method, where each subnode score is appropriate for the optimization problem.
Using a well-known storage technique
The method described in Gazda's book
Used to analyze linguistic information stored in each node
This linguistic information can use storage method technology
Can be transmitted in the grammar structure analysis chart
It will be said. In an automatic natural language translation system, the first
After the dynamic translation, the translation can be automatically re-translated.
That is, the system can automatically input text information
To provide the most appropriate translation and output it to the user (preferably,
After providing the Japanese translation of the input English text),
The user can modify the displayed translation or
Interact with the system to obtain another translation dynamically
Can be. An automatic natural language translation system converts one sentence
Use a language model that breaks down into substrings. sub
The strings appear in the order specified as part of the statement.
One or more phrases that appear. For example, Subst
The rings “The man is happy” are “The”, “The ma”
n "," man is happy. "," is "and" The man is
happy "it contains white but" is man "," man m
"an" and "The is" are not included. Different language models can be implemented in various ways and
Define substrings at various levels of detail. example
For example, in the sentence "They wou1d 1ike an arrow."
Means that "an arrow" is usually categorized as a noun phrase (NP)
You. In another model, "an arrow" is a syntactic property (eg,
For example, singular noun phrases) and literary characteristics (weapons)
Classify. If the meaning of this phrase is ambiguous,
There are several ways to categorize, for example, "an arrow"
It can also mean an arrow-shaped symbol. Language model
Provide a way to resolve ambiguities,
By combining small units with larger units,
Resolve ambiguity. When evaluating larger units, this
These models only use information contained in larger units.
Be considered. As a specific example of this system, "an
 The meaning of the arrow (sign or weapon) is changed to "They
 "1ike an arrow" in the sentence wou1d 1ike an arrow.
Used to evaluate the verb phrase On the other hand, "an a
The syntax of the phrase "rrow" is "Heshot it with an arrow."
In the sentence, the meaning of "an arrow"
The characteristic is to comment on the verb phrase "shot it with an arrow".
Not used for value. A specific language model (interpreted substring)
Any substring of a sentence that is interpreted in one way
For which the exported attribute exists,
The ported attributes are the interpreted substring and the
And other units that form large substrings
All attributes used to evaluate the match. D
Kissport interprets along with the exported properties
It is an interpreted substring. Interpreted sub
Included in the string but not exported
Attributes are called substructures. The system parser is a grammar database
including. The parser uses grammar rules to
Find possible interpretations. The grammar database is X = A1
A2. . . From a series of context-free phrase construction rules in the form An
Become. X is A1, A2,. . . , An
Or formed, high-level nodes (subnodes
D) A node (subnode) A whose level is lower than A1
Called n. [0027] The graph creation device of the system is a single sentence.
Many possible interpretations of this are represented graphically. Each no in the graph
The code corresponds to the export of a substring.
As an example of a system, one export is one
Represented by a node. The graph is related to one export.
Includes arcs from connected nodes, where the arcs are
Represents an export substructure based on the application of a rule. The
Roughs have at least two types of arcs:
Represents the Sport substructure. At least two graphs
Type of arc, ie, (1) the same substring
A single arc, pointing to one different export of
(2) A set of pointers pointing to two exports
Two arcs, that is, when connected,
Substring is the substring of the original export
Form a tag. The formula of (2) is the normal form of Chomsky
Note that grammar is assumed. Amended billing
Item 35 is, by paraphrasing type (2),
N exports, not Jomsky normal form grammar
Syntax that reflects an arc with an N-fold pointer pointing to
Applied. The graph shows one starting export point S
Include, and from there, a series of arcs
You can reach all parts. Departure export
Corresponds to the entire sentence. Is the same export a plurality of exports?
Multiple arcs from one node only if they can be formed from
Starts. (A set of two arcs
Pointers are not considered multiple arcs in this sense. )
The export is one element of multiple exports
Only in some cases can multiple arcs point to a node.
And Nodes without arcs are substrings
Corresponds to the headword of the dictionary assigned to. Multiple language experts can export
Assign a numerical score to the set of. This language expert
The score applies the score to each node of the graph. Shi
As a specific example of the stem, a score matrix (each element of the matrix is
Weight to multiply the score of a particular expert
Is a fixed-length floating-point number for any statement
It is "N". The score is calculated by a graph creation engine and
Scoring module built into parser
Is evaluated by The higher the score, the higher the
Calculated for all exports forming
It is. The score for a higher export is
With the export forming a high bell export
Of the score assigned by the structural adjustment expert
Of any expert score applied to the combination
Calculated as the sum. The order of arriving at the node and examining the score is:
This is the standard depth first graph movement algorithm. This
In the algorithm, the scored nodes are marked
They will be scored and will not be scored again. Score
Scoring module during the process of being marked
Before evaluating any higher-order node,
Evaluate the headword node of the dictionary. Each entry in the dictionary is
Has one score. Multiple ways to perform one export
If there is, there will be multiple scores. That is,
Yes, if there are k ways to do the sport
K scores. Multiple scores are processed as follows:
Is managed. (1) In the rule consisting of a single element,
And each of the k low export scores are single components
Is added to the expert value applied to the rule
And the resulting vector of k scores is the parent's
Related to Kissport. (2) In the rule composed of two elements, the left
The child has a g score and the right child has an h score
Will be considered. Then g score multiplied by h score
The numerical value is the score of the left child and the score of the right child
And apply to the two-element rule
Calculated by adding the expert values
You. When g score multiplied by h score exceeds N
Only the highest N scores are kept with the parent node.
Be held. (3) One export can be performed by a plurality of methods
If you can make it, at most N scores
Is added to the score list of the node with the highest score
Only be preserved. When the score calculation is completed, the above method
The export is displayed in that node and in the export
Export, including attributes of all substructures not
G most likely ways to do
G scores (ranging from 1 to N)
Confirm that it is related to the set of g). Roux
In special cases such as node S
The method determines the g most likely ways to form the whole sentence
give. Each score in the above score list is associated with
Has a pointer. Pointer, lower export
Which score in the core list indicates a higher level score
Provide information indicating whether they were combined to create
You. By tracking each pointer, g
The most likely interpretation as an unambiguous parse tree
Can be extracted. Referring to FIGS. 1 to 9, an automatic natural language
The translation system will be described in further detail. After that, FIG.
0, FIG. 11 and FIG.
The improvement of will be described. Referring to FIG. 1 and FIG.
The dynamic natural language translation system 10 has an input interface
12, translation engine 16, storage device 18, user input device
22, display 20 and output interface
14 inclusive. The input interface is
Can receive a series of texts written in English language
It has become so. As the input interface,
Keyboard, voice interface or modem or
Including digital electronic interface such as serial input
be able to. The translation engine uses data from the storage device.
To translate the source language. Translation engine, the whole
Can be made with hard-wired logic circuits.
Or contain multiple processing units and associated storage instructions
You can also. The translation engine is responsible for the elements and parts
Minutes, ie, the preparser 24,
Parser 26, graph creation device 28, grammatical structure analysis / translation
Translation evaluator 30, grammar structure analysis and extraction device 32, structure conversion device
User, including user 34 and another grammar structure system 37
An interface 42; Grammar
Structure conversion device 36 by rule control, structure by dictionary control
Conversion device 38 and structure conversion device 4 based on generation rule control
0 may be included. The storage device 18 has one or more storage devices.
Number of disks (eg hard disk, floppy
(Registered trademark) disc and / or optical disc)
And / or memory storage (eg, RAM), etc.
Can be included. These storage devices are required for
All or part of the element can be stored. Sand
Basic dictionary 44, technical term dictionary 46, created by the user
Dictionary, grammar rules 48, generation rules 50, semantic property tree
52, a structural property tree 54 and a graph 56. Record
The storage device 18 receives input text written in the source natural language.
Information, output text information written in the target language, and
Contains one or more dictionaries, domain keywords and grammar rules
All types of information used or useful for performing translations
Used to store User input interface
Keyboard 22, mouse, touch screen,
System, including a stylus or other user input device.
Can be used by operators. As a display,
Computer display, printer or other type of
The display can be used, and the operator can
Other devices for communicating information can also be used. Out
Interface 14 provides the final translation of the source text.
Exchange the translation in a target language such as Japanese. Above Inn
Interfaces include printers, displays, and audio interfaces.
Interface, modem or electronic interface such as a serial line.
Interface and can be used by end users
Other devices for sending strikes can also be included. The operation of a specific example of the translation system of the present invention will be described.
As shown in FIG. 1, FIG. 2 and FIG.
24 is a preliminary solution to the source text 23
An analysis operation (step 102) is performed. This involves a saw
Includes analysis of ambiguity in end-of-sentence recognition of texts and dictionaries
A structural analysis chart including the headword 25 is created. So
After the parser 26, the syntax possibility 27 is described.
Preparser to obtain the structural analysis chart
(Step 104) Structural analysis of the above chart
I do. The graph creation device 28 obtains the data in the structural analysis step.
29 possible interpretations based on the structural analysis chart
A graph is created (step 106). A series of experts
The evaluator 30, which accesses the port 43, uses the stored interpretation
Is evaluated (step 108), and
Add the weight of the kiss part. Graph scorer 33
Gives the scores of the nodes and N (eg, 20
The highest score 35). grammar
The structure extraction unit 32 uses the structure analysis tree for this preferred interpretation.
The structure 39 is allocated (step 110). Then change
The structure conversion device 34 accessing the conversion table 58
Tree to obtain the translation 41 that has become the target language
Above, the structure conversion processing (step 112) is performed. A user
Is another structural analysis system 3 to obtain other translations
7 can be exchanged. Referring to FIG. 4, the system of the present invention comprises:
Character strings that form the input word string into individual punctuation marks and words
Into tokens containing loops (step 114)
Performs a preliminary structural analysis. The appearance of the space
Affects the interpretation of characters at the level of. For example, "x
"-" In "-y" is a dash, but "-" in "xy"
Is a hyphen. After that, the preparser replaces the above token with
Combine with a phrase (step 116). This level
The preparser uses a special structure (for example, Internet
Such as credit addresses, telephone numbers and social security numbers
Is recognized as one unit. The preparser is
Dictionary to separate groups. For example,
"Re-enact" is listed as "reenact" in the dictionary
Is one word, but if not listed, three separate words
It becomes. In the next preliminary structural analysis stage, where the sentence ends
The end-of-sentence recognition is performed (step 118). this
During processing, the preparser sends the possible end of each sentence
That is, after each word in the source text)
When performing a series of steps, the basic dictionary, technical term dictionary and
And access the built-in user-created dictionary.
The preparser will use this if a particular order is specified.
Need not be performed, these steps are a series of
It can be run as an ordered rule, or it can be hard
It can also be coded by incorporating it into software. Referring to FIG. 5, the preparser
For symbols that cannot be analyzed, such as
When there is a sequence, do not translate each one,
Is interpreted and recorded as one "sentence" (step 1
20). The preparser uses two characters at the end of the sentence.
Request a ridge return (step 122). next
If the first letter of the phrase is lowercase, the preparser
Is not considered the end of a sentence (step 12
4). If the sentence starts on a new line and is short (for example,
If, for example, the title), the preparser puts it in one sentence
Is considered. The preparser uses closing parentheses and closing quotes.
Terminator (.), Suspect
Consider a question mark (?) Or exclamation point (!) As the end of a sentence
(Step 128). Ends with "." Or "?"
In the case of a sentence, the preparser
Use virtual punctuation after the quotes in addition to the point.
You. For punctuation added virtually to "?"
The method is illustrated in the following example. [0047] The question was "What do you want?". Did he ask the question "What do you want?"? Are you concerned about "the other peop1e"? In English, each sentence may end with a "?"
high. There is virtual punctuation added by the preparser
The thing is that there is something like a question mark before the quotes
Or nothing at all. After the quotes
There is something like a stop or question mark
You. The remaining grammatical structure of this sentence will
The most appropriate choice can be made at the management stage. The preparser is also capable of analyzing the
Use several methods (steps 130, 13)
2, 134, 136 and 138). Short in dictionary
Marks that can never be used at the beginning of contracted forms
It cannot be used at the end of a sentence
Some are marked (step 130). This
These rules are always respected. For example, "Ltd."
Is not used in the text, and "Mr."
Not. The preparser also states that the following words are "the", "i
n "unless it is a frequent word (step 13
2) When there is a terminator in one capital letter, the sentence ends
I don't think there is. The word before the end of the word
If in the book, the sentence ends at the end
(Step 134). The word before the stop is in the dictionary
The phrase has a terminator inside it (e.g.,
For example, IBM), the following words are in the dictionary as lowercase
If it is not listed, or if the next phrase is in uppercase
Sentence does not end at its end
(Step 136). Otherwise, end
A stop indicates the end of the sentence (step 138). Referring again to FIG. 2 and FIG.
When a break is specified by the preparser, the parser
Put the words of the sentence into the syntactic classification and solve the possible syntax of the sentence
A grammar database must be added to those phrases to calculate
The source grammar rules are applied (step 104). Grammar rules
Rule 48 is a computer that represents the grammatical restrictions of the language.
Can be executed as a series of rules that can be processed,
There are hundreds of such rules in English, and these rules
Can be applied to hundreds of syntactic categories. Calculation of this work
In order to reduce the extra time required for
Are ignored and ignored. In the next step (step 106)
Thus, the graphing device captures different meanings of the words and phrases,
A ring with a direction that represents all the semantic interpretations of the sentence
Use a dictionary to create non-graphs
Extend the result of This graph is a series of
Created with the help of semantic communication procedures. These hands
The order is based on a set of established grammar rules.
Access the semantic property tree for semantic information.
To A semantic property tree is a tree structure that contains semantic classifications
It is. This tree is roughly from abstract to concrete
And how far apart in the tree
Each level in the tree
From the side, how are the two terms related in meaning?
Can be determined. For example, "cat" and "do
g "is more relevant than" cat "and" pudding "
Therefore, "cat" and "dog" are two "animal" trees.
The distance in the tree is short, "animal" and "cat" are trees
Are stored at different levels. Because
"Animal" is a more abstract word than "cat"
Because. Referring to FIG. 9, the graph of FIG.
Node 80, whose subnodes 82, 84, 86 are seeds.
Pointers 88, 89, 9 in a way to indicate various types of associations
It is linked at 0,91. Graph first related ties
The node that represents a phrase is the node of the phrase that composes it.
Has a pointer to the node of the node or subphrase.
Things. For example, node 84 representing "the bank"
Is the word that composes it by pointers 92 and 93
It links to the phrases "the" 94 and "bank" 95.
The second type of association in the graph is that the phrase interpretation is lower
From the level one, make the same higher level component
You have a pointer to another method.
For example, node 80 representing the phrase "by the bank"
A pointer 88 linked to each of the words constituting each
89, and two source interpretation positions 8 including 90 and 91
1,83. In this case, different
Each constituent word is different for the phrase "the bank"
Sub-nodes 84 and 86 representing different meanings. Gra
The structure of the file is defined by the results of
Is restricted by the syntax The nodes in this graph are
Memory for semantic information entered during the taste transmission process
Associated with location. The parts that convey the meaning of the system are
From smaller components to larger components containing
It acts to convey information. Semantic information is analyzed at an early stage
Applied to the four classes of syntactic classification used in the work
You. The four classes are SEMNP (noun type object and
SEMVP (including subject, object)
Verb phrases such as), SEMADJ (adjective), and V
ERB (Verb-type verb of a dictionary that often takes an object)
It is. Other syntax classifications are ignored by certain rules.
The grammar rule setter should mark the rules with a specific mark
Can override actions that do not appear on the surface
You. These special orders come first. There are two methods of transmitting semantic characteristics in the system.
With two sides. The first aspect is the noun forms and actions of grammar rules.
By examining the components of the noun type, the purpose of the noun type
Which optional restriction slots of verb-type components
This is a set of rules that can be applied. example
For example, the verb phrase "I persuaded him to go."
The rule to do is, roughly speaking, VP = VT11 + NP
+ VP (where VP is the verb phrase and VT11 is the transitive verb
NP is a noun phrase). Default rules as examples
The rule is to the right of the verb if it takes the object
The first NP must apply selection restrictions
Is Umono. Another rule states that the VP for that subject
Restrictions must apply to the first NP to the left of the VP
There is no provision. When these rules are put together, "pers
"Uade him" and "him go" are both meaningful
I try to evaluate it. As already explained,
These rules reflect the complex rules of English,
Because of that the number is very limited. Referring to FIG. 6, the semantic transmission work is optional.
Including copying the limit from SEMVP to the statement
Step 140). SEMNP is used as a representation of location
If the semantic constant specifies a good position,
The validity is evaluated (step 142). A rule
The rule is the union of two SEMNPs (logical AND of syntactic features
If it is detected by
The rough creation device calculates the semantic characteristics and calculates the semantic distance.
Apply to expert (step 144). The rules specified for the transmission of semantic characteristics are as follows:
During the inspection, the graphing device
(For example, SEMNP it contains more words
The position of the “head” of the SEMNP to be transmitted to
If found, the graphing device also conveys semantic properties.
Is reached (step 146). However, "head" is for classification
(Eg "Portion", "Part")
The "head" propagates left or right from the SEMNP.
SEMVP and SEMADJ also have positions for sorting
In the same way, except that it is not
Is transmitted. Adjectives are part of SEMVP in this sense
is there. SEMVP made from rules containing VERB
If the VP is the passive voice,
Except for the case, the verb subject restriction is transmitted in the upward direction.
You. In case of passive voice, VERB's first object restriction is communicated
(Step 150). Rule space including SEMVP
In this case, the graph creation device sets the SEMVP selection restriction to S
Apply to NPs encountered when moving left from EMVP
(Step 152). Regulations including SEMADJ
In the case of the rule, the graph creation device selects SEMADJ
Restrictions encountered when first moving right from SEMADJ
Try to apply to any SEMNP that
If not, try to move to the left
Step 154). Any remaining unused object selection in VERB
Option restriction (to be transmitted in the upward direction to be passive
Not shown), the graph creation device is on the right of VERB.
Apply the above restrictions in order to the SEMNP encountered by the
(Step 156). In all these rules, the verb selection
Choice limits run out as soon as they apply to something
Would. For all previous rules, SEMNP
Is used if anything applies to those SEMNPs.
It is not done. Starting from this rule, SEM
NP is exhausted. Eventually, one rule is SEMV
When P is created, the graph creation device is not used until then.
SEMVP or SEMADJ not included
Decide whether or not it is included
(Step 158). The system also provides language feature matching.
Do. Linguistic characteristics are the characteristics of words and other components.
You. Syntax parsing is used by parsers,
Gender matching is used by the graph creation device. But,
The same scheme is used for both. For example, "the
"y" has the syntactic property of plural, while "he" is singular.
Has the syntactical characteristics Characteristic matching means that the characteristics of a phrase
If the characteristics of the words to which they apply meet certain conditions
Mark grammar rules so that they apply only when
U. For example, assume that there are the following rules. S = NP {+ VP} Here, the symbol @ indicates that the characteristics of the numbers of NP and VP do not match.
Means you have to. So this rule
Says "they are" and "he is" are correct, but "they
"is" and "he are" are not allowed. The characteristic match restrictions are “local” and “broad
Enclosure ". Extensive behavior is actually handled by the statement
Calculated when the grammar is created, not when
It is. And a wide range of actions that must be performed
The sequence is coded as instruction bytes. The calculation of the "wide-range" characteristic operation consists of n elements
Rule (ie, two or more elements to its right
Have). afterwards,
The system communicates between rules in the correct set of properties.
Code into various two-element rules to end
assign. a rule consisting of n elements from two elements
By dividing the rules into different rules, the analysis work is very simple.
Purified. However, the system is a two-part rule.
Tracking the set of properties across rules,
System retains the power of "widespread" processing. In the system of the present invention, a dictionary is not configured.
Although it is treated as an even phrase,
It also includes the constituent "idioms". These two shapes are
Ultimately, compete with each other for the most appropriate translation.
And For example, in a dictionary, it means "b1ack sheep"
Are registered as "surplus". However,
The phrase "b1ack sheep"
Sometimes it means "sheep." Both of these shapes are retained
Translations that are not idioms
Selected as a translation. This idiom also belongs to another classification. An example
For example, the system may use three types of classification:
Can be. [0064] Almighty: United States of America Preferred: long ago Normal: b1ack sheep Almighty idioms make up that sequence
Takes precedence over possible interpretation of any phrase. The preferred idiom is
Words that make up the sequence
Precedence over any possible interpretation
You. Normal idioms compete with other headwords at the same level.
You. The resulting graph is
(Step 108, FIG. 3)
The spurt is a score that indicates the likelihood of the graph being interpreted correctly.
Supply. The system of the present invention is not limited to whole sentences.
Scoring applied to all parts of the sentence of any length
Including the law. Important factors for using graphs
Says that even if it is used in so many statements,
The subtree is fully scored and analyzed only once
That is. For example, "Near the bank there
In the phrase "is a bank.", "Near the bank"
Has at least two meanings,
The best interpretation of a phrase is determined only once
Not. The phrase "there is a bank" is likewise
Can be interpreted, but these two solutions
You only need to determine which one is the most appropriate
Not done. So this sentence has four different meanings
Can be interpreted, but subclauses are scored only once
No. Another feature of this graph is that each node
Have easily accessible information about the length of the part
That is. Due to this feature, English text is analyzed again
The N sub-strings of any of the English sentences
The most appropriate interpretation can be made. In one execution, the most appropriate
N analyzes are obtained each time (N is about 20
System by using a graph with a number of degrees)
Is the result of the user's choice for smaller components.
N that respects user choices
Make the most appropriate analysis. All these analyzes are sentence
Without re-analyzing the
It is done without having to repeat the points, so it can be done quickly
Wear. Referring to FIG. 8, expert evaluator 3
A behavior of 0 characterizes each translation and gives various experts
This is done based on various factors that will be further processed. probability
The rules expert 170 provides the first source language parsing tree.
Average relative frequency of the grammar rules used to obtain
evaluate. Selection Restriction Expert 178 reports the resulting translation.
Evaluate the degree of semantic matching of the translation. Dictionary headword probability
Expert 172 creates an initial source language parse tree.
The specifics of some phrases in the sentence used to obtain
Evaluate the average relative frequency of "part of speech". Statistical expert
Is the flatness of the particular paraphrase selected for a translation.
Evaluate the average relative frequency. [0068] The system uses individual English words, phrases and
POS for English word group
Determine dynamically. When the system translates a sentence,
Automatically determine and usually make the right decision. But with
Sometimes, the sentence to be translated and the whiteness are ambiguous.
Contains words that can be interpreted as different parts of speech
When you have multiple different interpretations, all of which are "correct"
Is obtained. The system operator
Ignore the part of speech that Tem automatically determines, instead of words or
Manually add any part of speech for a phrase or group of words
Can also be set. For example, "John saw a boy with
a telescope. "
Considers "a boy with a telescope" a noun phrase,
The sentence means that the boy had a telescope
"John used a telescope to see the boy.
Used ". Operet
Data may have multiple possible part-of-speech settings or may be more restrictive.
The system can be set up manually by setting the
Translation result deteriorates when the part of speech rule determined by
Or at least not improve
There is. Noun phrases are more restrictive than nouns
Group is the least restrictive part of speech setting
You. The table below shows the various possible parts of speech settings. Part of speech (POS) noun Noun phrase Verb (transitive or intransitive) Verb phrase adjective Adjective phrase adverb Adverb phrase preposition Prepositional phrase conjunction group English The part-of-speech settings for "adjective phrases" and "adverb phrases"
Depends on how the system interprets certain prepositional phrases.
This is effective when the meaning is different. For example,
The sentence "We need a book on the fourth of July"
Means "on the fourth of July" as an adjective
If we interpret that we have
I want a book about German Day. Means
Interprets "on the fourth of July" as an adverb phrase
In this case, "We want a book on July 4th."
To taste. The system automatically displays "on the fourth of Jul
The operator thinks that an incorrect part of speech has been assigned to "y".
Operator, "Weneed a book on the f
`` on the fourth of July '' in the sentence `` ourth of July ''
Can be manually set to another part of speech. operator
The system will enter a specific word, phrase or group of words.
If you do not want to translate words into Japanese,
Set the part of speech "English" for a word, phrase, or word group
can do. The operator must make settings in the system
Manual, even if performed automatically by the operator.
Remove one or more part of speech settings, even if done
Can be The system has multiple levels for each user.
Keep track of translation usage statistics. For example, the system
Is the level of the surface form of the phrase ("leaving" is a transitive
Or as a frequency used as an intransitive verb)
And the semantic level (meaning "remains")
Or "meaning" started from) "
And the latter types are "leave", "leaves", "lef
t "," leaving "
Can be raised. The system is also used in the last few statements.
Usage statistics used and user usage statistics at any time
It can be stored separately from the value. In addition, the system
System intervenes so that the user uses certain meanings of the phrase
And the system is subject to user intervention.
Without using the specific meaning of the phrase
Can be. The structure adjustment expert 182 is able to
Features related to the length of the component, such as English and many other
-It is based on features common to European languages. A few
(But not all) structures, in these languages,
Sentences with heavy (long) elements on the left side of (short) elements
Is not welcome. For example,       Mary hit Bill with a broom. (Light on left, heavy on right) (Applicable)       Mary hit with a broom Bill. (Heavy on the left and light on the right) (nonconforming)       Mary hit with a broom a dog that tried to bite her.                         (Heavy on the left, heavier on the right) When there are two parses of a sentence, one is
Includes a structure that tries to avoid cans.
'' Sequence, and other analysis is not
Considers that the former does not represent the intended interpretation of the sentence.
Is done. This expert is not
This is an effective way to distinguish between different analyzes. An equivalent structure of the pattern "A of B and C"
In construction, the intended interpretation is “Aof {B and C}”.
Or "A {of B} and C"
Can be difficult. Equivalent structure expert 180
Which combines two elements with which the peer mode is closer
To determine the semantic distance between BCs.
Measure the separation and the semantic distance between ACs. This extract
The part accesses the semantic property tree during processing. this
Experts should be able to analyze a sentence
It is also an effective way to distinguish between analyzes. Many English words are interpreted as common nouns
And potential interpretations as proper nouns
You. Capital expert 176 states that capitalization is significant.
Capital letters in the sentence to determine if they have
Use the position. For example, the statement below is Brown is my
first choice. My first choice is Brown. The first sentence is inherently ambiguous, while the second is
"Brown" may not be a color name, but a person name
It differs in a very high point. This expert is in uppercase
The beginning of the phrase is at the beginning or not
Is there (as in the example above),
Words that start with lowercase letters in the dictionary
Factors such as whether they are registered
You. This expert uses words in capital letters
Is an effective way to interpret correctly. If the sentence contains a sequence of uppercase words and phrases,
, The sequence is treated as a proper noun or common noun.
Is managed. The system of the present invention uses a capitalized sequence
Procedures are used and the interpretation of the former takes precedence. The above sea
Kens can't parse itself according to normal grammar rules
Sometimes the sequence is not analyzed
Is processed without being translated as a noun phrase. This step is
Don't completely ignore interpretations of low-level common nouns
Is a very effective means of handling compound proper nouns
It has been proven. Referring to FIG. 7, the machine translation system of the present invention is shown.
System can improve the efficiency of structural transformation methods based on simple grammar rules.
Yes, but also the ability of the structure conversion method between templates
A close grammar rule control structure conversion mechanism 162 is used. this
The method is a statement that allows you to specify an uneven composite structure
The legal rule 160 is used. Used by other translation systems
The format of the rule is shown below. [0076] The system of the present invention uses the following grammar rule format:
Use. [0077] (Equation 1)In this syntax, the symbol preceded by "#" is the sentence structure
A symbol that is invisible for analysis purposes, but once analyzed
Virtual, used to build substructures if available
Symbol. Given this type of grammar,
Between any sequence of nodes in the child structure
Allows you to specify multiple structural transformations.
You. As a result, the structure conversion mechanism based on the grammar rules is a template.
Converts the rate conversion mechanism into a mechanism with some capabilities.
Is replaced. The system of the present invention is the second type described above.
Grammar rules, but the first form
Automatically create corresponding grammar rules. Therefore, the statement
Use grammar rules of the first form to parse
Use second form of grammar rules to form parsing structures
Can be The structure conversion is also performed by a grammar rule control structure conversion operation.
Work on the parse tree after receiving operations
To convert the dictionary control structure to access the dictionary 161
166. After that, the production rule structure conversion work
To provide the language text 41, the resulting
Apply the production rules to the parse tree. Referring again to FIG. 1 and FIG.
System uses the above process to determine which translation is most desirable.
After making it, the translation is sent to the user through the display 20.
Provided to Then the user adopts the translation
Or another analysis system 37 through the user input device 22.
The operation can be done by operating. During rework,
Users can leave the translated part as it is
Request retranslation of other parts while keeping
Can be. This can be done quickly. Because,
The stem holds a graph containing the expert weights 31
Because it is. Up to now, referring to FIGS.
Natural language translation systems have been described in some detail. Less than
Then, various improvements of the present invention will be described with reference to FIGS.
This will be described with reference to FIG. Referring to FIG. 10, an automatic natural language translation system is provided.
Stem's translation engine 16 translates source text 23
Automatically translates it into the target natural language text 41
translate. This translation is referred to as an "automatic
Affected by the "area identifier" function. With this feature,
When performing translation, the translation engine 16 uses the area keyword
One or more lists of 200 (N shown)
And access to the dictionary 202. The dictionary 202
Depending on the area in which the word is used,
Including words. Each headword in the dictionary 202 is a source natural
It may be one or more phrases written in a language.
Generally speaking, each separate area is a list of area keywords.
FIG. 10 shows N areas. Key
Each headword in the list of words is the source natural language
One or more words written in can also be used
You. The list of keywords 200, as shown in the figure,
Letter 202 or arrow 20
As shown in FIG. 4, it can be built in the dictionary. One area is the usage or identification of a certain field.
Include a set of patterns of terms and usage belonging to
Can be. For example, one area is business communication
Letter, marketing document, computer document, physics
It can include documents in technical fields such as science. The dictionary 202 is used for a certain area.
When the phrase is used in other areas, which particular
Different eyes when not used in the area
Include words that have a translation in a natural language (for example, Japanese)
It is. Keywords 200 are associated with each area
Specific sentence (or input document) written in natural language 23
Is used to determine if an item belongs to one of the possible areas.
Is a word or term specifying the area to be Area keyword
In each list of C200, each keyword is
And the strength as a keyword for a specific area
Has a numerical value indicating For example, the "computer" area squirrel
The open-architecture compu with 100% value
ter "and this 100%
The sentence containing this keyword is always
Data in the "computer" area.
The keyword "computer" in the region has a value of 25%
And the value of 25% is a sentence with this keyword
Are more likely to be in the "computer" area
Means that A translation engine is provided by the "automatic area identifier" function.
16 preferably the sentence or document belongs to a specific area.
Of a sentence, document or document.
Sum of the keyword's strength values (or
The word exists). keyword
If there is a certain area, the dictionary 202
Listed as area-specific words and trying to translate
The probability of words contained in a sentence or document is increased,
Or translation of the document. On the translation engine 16
The decision is based solely on the source natural language and keywords.
Good. The translation engine 16 has, for example, the following two
Either of the two methods, at least the input text information 23
Also determines at least one area to which a part thereof belongs.
In the first method, one sentence is input to each sentence of the input text information 23 at a time.
Address, and count the number of occurrences of keywords in each area.
It is to do. At least as many keys as the given number
For each region with words, the translation engine 16
Using a translation specific to the area, the target natural language 41
Increase the probability of some words in the translated sentence
You. The above-mentioned predetermined number is all of the input text information 23.
The same value can be fixed to the statement of
In addition, it can be changed according to the length of the sentence (number of phrases)
Wear. The predetermined number is set by the system 10.
Can be set by the user of the system 10.
You can also. The second way is to say the first N words
In each of the input text information 23,
This is a method of counting the number of appearances of keywords in an area. Place
For each region with more than a certain number of keywords
Will use the translation engine 16
To be included in the sentence translated into the target natural language 41
Increase the probability of some phrases. Similarly, the predetermined number is
It can be set by the system 10,
It can be set by 10 users. In a preferred embodiment of the present invention, a translation engine
16 counts keywords as described in the previous paragraph.
Strength values for each area, not by
Related to each keyword to get the sum of
Input text information 2 by using the strength value
At least one area to which at least a part of 3 belongs
To determine. In this preferred embodiment, the translation engine
If not, we've explained in the previous paragraph
Works like that. That is, in the first preferred method, the input
Each sentence in text information 23 is addressed one at a time.
And the sum of the keyword strengths is greater than
For each region with
Translated into the target natural language 41 using translations specific to the domain
To increase the probability of some words in the sentence. Place
The above-mentioned number is used for all sentences in the input text information 23.
The same value can be fixed, and for each statement,
Can be changed according to the length (the number of phrases).
The predetermined number may be set by the system 10.
Yes, or it can be specified by the user of the system 10.
You. In a second preferred method, the keywords in each area
Is the sum of the first N units of source text 23.
Like a word, it appears in a predetermined number of words in the input text information 23.
Determined by the keywords that appear. Keyword strength
For each region whose sum is greater than or equal to a given value,
The translation engine 16 uses translations specific to the area.
The number of sentences included in the sentence translated into the target natural language 41
Increase the probability of that phrase. As already explained,
The fixed number can also be set by the system 10.
However, it can also be set by the user of the system 10. As an example of the “automatic area identifier” function,
"Markup language" and "help desk"
Data area is included in the list of area keywords,
"Endusers" means that "end users"
Has two different translations depending on whether it is used in the domain
And The following sentence is part of source text 23
Come Markup language should be easily used by end users
 without being supported by help desk. According to the "automatic region identifier" function, the translation engine 16
Are two keywords in the "computer" area, "mark
"up language" and "help desk". "Con
Find these two keywords in the "Pewter" area
Thus, the translation engine 16 uses the threshold to
Determine that a sentence is a "computer" domain sentence
Can be. If the sentence belongs to the "computer" area
If the translation engine 16 determines that the
To the target natural language text 41 provided to the user.
"End users" specific to the "computer" area to translate
To increase the chances that the translation will be used,
The probability of translation of "end users" specific to the "data" area
I'm sorry. In addition to the mode in which this function works for each sentence,
The "area identifier" function can work on the entire input text.
Wear. For example, the translation engine 16 responds to a specific area
Source text 2
3 if it is in the first n words (n is an integer)
The entire source text 23 belongs to the “computer” area
You can decide whether or not. This all text mode
In the case of C, the translation specific to the area included in the dictionary 202 is
All words in source text 23 that have
It is translated using the original translation. Referring to FIG. 11, an automatic natural language translation system is provided.
The translation engine 16 of the stem 10
And automatically convert it to the target natural language text 41
Translated, this translation is a grammar rule according to other features of the present invention
Some settings and rules that apply to the various rules in Rule 206
Affected by marking. These settings are
"Lumighty" and "part of speech priority". Translation of system 10
The translation engine 16 outputs “almighty” or “speech
Use grammar rule 206, which can be marked
Parser 2 that parses sentences in source natural language 23 using
Have 6. Parser 26 is subject to the almighty rules
Every part of the source natural language 23
Rules that prevent the application of all other rules
Use grammatical rules marked "
You. Parser 26 relates to the same part of speech as a particular part of speech
The rule that blocks only the other rules is “part of speech priority”.
Use the grammar rules for which the markings are made. Mark
Unattended grammar rules take precedence over other rules.
Do not have. "Almighty" or "Good"
Marking "lyrics first"
Is a tree created by the translation engine 16 of the system.
-A very effective way to remove unnecessary analysis branches from the structure
It is. This marking of the grammar rules will also
Gin 16 or must be made if not marked above
You no longer need to create a large tree structure
Also, if the above mark is not made, the tree will grow
No need to memorize the structure
Analysis can also be performed more efficiently in terms of capacity.
You. As an example of the marking function of this grammar rule,
And the grammar rules include the following three rules. [0091] (1) Noun = number + hyphen (-) + ordinal hundred (for example,
three-hundredth) (2) Noun = noun + hyphen (-) + noun (for example, sc
hool-building) (3) Noun phrase = number + noun (for example, one book) The system 10 also creates a dictionary containing the following three headwords.
Suppose you use it. [0092] When you have these grammar rules and dictionary entries, the source
The word string "one eighteen-hundredth" contained in the text
Can be analyzed by the following two methods. [0093] (Equation 2) Marking grammar rule (1) as "almighty"
Has been done, a simple phrase "one eighteen-hundredth"
All other parsing of the word sequence (as in the second parsing above)
Is excluded, so the first of these two analyses is
Is used. All My Dominating All Other Rules
Tee rule (1) is used. If the grammar rule (1) is "
If it is marked Priority,
First analysis is selected, but in this case the rule
(1) and rule (2) address the same part of speech,
Rules with a Go (ie, part of speech) mark
According to (1), grammar rule (1) is used to analyze word strings.
It is. As the following example shows, "almighty"
And "part of speech priority" are different, and "almighty"
If you translate with the marked rules,
The result is not necessarily the same as if the
Produces no fruit. In the following four grammatical rules, the third rule includes:
It is assumed that the mark of “part of speech priority” is attached. [0095] (1) Noun = noun + noun (2) Noun phrase = noun (3) Noun phrase = number + noun {part of speech priority} (for example, in F
OUR DAYS) (4) Adverb phrase = number + adverbial noun (for example, I work FOUR
 DAYS a week) The system 10 also uses a dictionary containing the following headwords:
I do. [0096] When there are such grammar rules and dictionary entry words,
The word string "I work four days" contained in the text is
It can be analyzed at the following three methods and phrase levels. [0097] [Equation 3] For grammar rule (3) marked as "part of speech priority"
Has the same grammar rule (3) as the same word string ("four days")
Other parsing the same part of speech as a noun phrase
All grammatical rules have been excluded, and grammar rule (2) has been changed to "fo
u days ”as a noun phrase,
The first analysis is used in preference to the second analysis.
However, it has another adverb phrase as a part of speech
Does not exclude the third analysis above.
No. Thus, grammar rule (3) is changed to "almighty".
Mark any other grammar rule (3) applies
However, the grammar rule (3) is changed to "part of speech priority".
Address the same part of speech as in grammar rule (3)
Only other rules are excluded. Referring to FIG. 12, an automatic natural language translation system is provided.
The translation engine 16 of the stem 10
And automatically convert it to the target natural language text 41
Translate, this translation is a dictionary of other features of the present invention.
Affected by the probability value associated with the headword.
According to the probability value characteristic, the parser of the translation engine 16
26 is very likely to be a component of the final tree structure
Marked low or absolutely non-constituent
The dictionary 208 containing the headword is used. Dictionary 20
8 includes headwords of compound words,
At least one is marked with a very low probability value.
To the correct parse tree of any sentence in source natural language 23
Has little probability of functioning as a specified part of speech
It indicates that. An entry with a headword marked
If it is included in the statement's parse tree structure,
Low probability associated with headwords with
The parse tree is correct for the statement
The probability is very low. Use probability values in this way
This allows the translation engine 16 of the system 10 to
It can have the effect of removing the tree structure created by. As an example of the use of the probability value, look at the following compound word:
Suppose there is a dictionary that contains the words. [0100]Headword Part of speech Grammar rules probability       in today preposition phrase part of speech P (n) In this case, P (n) is a given source text sentence
The idea that the headword "in today" is actually a prepositional phrase
The specified probability value is played. P (n) is an ordinary copy of the dictionary.
Set to an infinitely small number compared to the headword of the ligature
Suppose you have The input sentence is: He didn't come in today. This sentence is syntactically ambiguous and can be interpreted like the following two sentences:
Wear He didn't {come in} today. When He didn't come {in today}. (In today) is the associated confirmation of the matching dictionary entry.
Whether the rate has a very infinitely small value, P (n)
The probability that this sentence will be parsed as a second sentence is very low.
Gone. "In today" has a part of speech priority mark
Prepositions that can give ordinary probability values
There is no parsing other than parsing as a phrase. Thus, this
Improper parsing of a sentence is undervalued. Against "in today"
If P (n) is set to zero, the parser
ー is “intoday-preposition phrase” to analyze the above sentence.
Is not used at all. However, in this particular example,
, So P (n) is set to zero
Is not desirable. [0102] I am interested in today, and not in t
omorrow. In this case, analyzing "in today" as a prepositional phrase is
Reasonable. Use low P (n) values instead of zero
If not, this is an unfavorable grammar structure analysis. [0103] He didn't come {in day}. Can be excluded, while I am interested in today, and not in tommorow. Parses "in today" as a prepositional phrase.
It can be analyzed properly. All of the above functions and processes are performed by a general-purpose computer.
Various hard wiring logic designs and
And / or can be implemented by programming technology
You. The steps shown in the flowchart are usually performed in order.
Do not need to be applied to the
Can be matched. Also, the function of this system is
Can be divided into programs and data in various forms
You. In addition, grammar and other rules of operation are
One or more while providing it to the user in a format
It is advantageous to develop in a high-level language. Including all functions disclosed in this specification
Any of the above examples of automatic natural language translation systems
Also, general-purpose computers (for example, Apple Macintosh
, IBM PC and compatible, SUN Workstation
Disk or optical compact disk
Computer readable media such as disk (CD)
Computer software.
Wear. A person skilled in the art will be described in the claims.
Without departing from the spirit and scope of the claimed invention.
Various changes or modifications to the invention described in the specification
Could be implemented separately. Therefore, the present invention
Rather than by way of illustrative example,
Defined by spirit and scope.

【図面の簡単な説明】 各図中、同じ参照番号は、一般的に、別の図面であって
も同じ部品を示す。また図面は必ずしも同一の縮尺では
なく、一般的に本発明の原理を説明することに重点を置
いている。 【図1】本発明の自然言語の自動翻訳を行うシステムの
ブロック図 【図2】図1のシステムの全体的な機能を示すデータの
フローチャート 【図3】図1のシステムの動作を示すフローチャート 【図4】図1のシステムのプリパーサーの文末認定機能
の動作を示すフローチャート 【図5】図1のシステムのパーサーの動作を示すフロー
チャート 【図6】図1のシステムの意味伝達の動作を示すフロー
チャート 【図7】図1のシステムの構造変換の動作を示すフロー
チャート 【図8】図1のシステムのエキスパート評価子のフロー
チャート 【図9】例示としての句「by the bank」に対して、図
1のシステムが使用するサンプル・グラフを示す図 【図10】自動自然言語翻訳システムが実行する、本発
明の一つの局面による「自動領域識別子」機能の図 【図11】自動自然言語翻訳システムが実行する、本発
明の別の局面によるひとつの特徴であり、ソーステキス
トを目的自然言語に翻訳するのにどの文法規則を適用す
るかに影響を与える特性の図 【図12】自動自然言語翻訳システムが実行する、本発
明のさらに別の局面のよるひとつの特徴であり、不適切
な翻訳を除去するために辞書の見出し語に付けられた確
率の値を含む機能の図
BRIEF DESCRIPTION OF THE DRAWINGS In the drawings, like reference numbers generally refer to the same parts, even in different drawings. The drawings are not necessarily to scale, emphasis instead generally being placed upon illustrating the principles of the invention. FIG. 1 is a block diagram of a system for automatically translating a natural language according to the present invention; FIG. 2 is a flowchart of data showing overall functions of the system of FIG. 1; FIG. 3 is a flowchart showing operations of the system of FIG. 1; 4 is a flowchart showing the operation of the sentence end recognition function of the pre-parser of the system of FIG. 1. FIG. 5 is a flowchart showing the operation of the parser of the system of FIG. 1. FIG. 6 is a flowchart showing the operation of meaning transmission of the system of FIG. FIG. 7 is a flow chart showing the operation of the structure conversion of the system of FIG. 1; FIG. 8 is a flow chart of an expert evaluator of the system of FIG. 1; FIG. 9 is a flow chart of the system of FIG. FIG. 10 shows a sample graph used by the automatic natural language translation system according to one aspect of the present invention. FIG. 11 is a feature performed by an automatic natural language translation system according to another aspect of the present invention, which is a characteristic that affects which grammatical rule is applied to translate a source text into a target natural language. FIG. 12 is a feature according to yet another aspect of the present invention, which is executed by the automatic natural language translation system, in which the value of the probability assigned to the headword of the dictionary in order to remove inappropriate translation is calculated. Diagram of features included

フロントページの続き (72)発明者 久野 ▲すすむ▼ アメリカ合衆国 マサチューセッツ 02178, ベルモント, グレンデール ロード 47 Fターム(参考) 5B091 CA22 CC12 DA14 Continuation of front page    (72) Inventor Kuno ▲ Success ▼             United States Massachusetts             02178, Belmont, Glendale             Road 47 F-term (reference) 5B091 CA22 CC12 DA14

Claims (1)

【特許請求の範囲】 【請求項1】 辞書が記憶された記憶装置と、 前記辞書を用いて、ソース自然言語で書かれた入力テキ
スト情報を目的自然言語で書かれた出力テキスト情報に
翻訳する翻訳エンジンとを備え、 前記辞書は、前記ソース自然言語で書かれた複合語の見
出し語を含み、前記見出し語のうちの少なくとも1つに
は、前記入力テキスト情報のどの正しい解析ツリーにお
いても指定の品詞として機能する確率がほとんどないこ
とを示すマークが付けられており、 前記翻訳エンジンは、 前記マークによって示される確率に従って、前記マーク
が付いている見出し語を前記指定の品詞として解析する
解析手段を含む、自動自然言語翻訳システム。
Claims: 1. A storage device storing a dictionary, and using the dictionary, input text information written in a source natural language is translated into output text information written in a target natural language. A translation engine, wherein the dictionary includes headwords of compound words written in the source natural language, and at least one of the headwords is specified in any correct parse tree of the input text information. A mark indicating that there is almost no probability of functioning as a part of speech, the translation engine is configured to analyze the headword with the mark as the designated part of speech according to the probability indicated by the mark. An automatic natural language translation system, including
JP2002332946A 2002-11-15 2002-11-15 Automatic natural language translating system Withdrawn JP2003196282A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002332946A JP2003196282A (en) 2002-11-15 2002-11-15 Automatic natural language translating system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002332946A JP2003196282A (en) 2002-11-15 2002-11-15 Automatic natural language translating system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001358589A Division JP2002197085A (en) 2001-11-22 2001-11-22 Automatic natural language translation system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005358058A Division JP2006134349A (en) 2005-12-12 2005-12-12 Automatic natural language translation system

Publications (1)

Publication Number Publication Date
JP2003196282A true JP2003196282A (en) 2003-07-11

Family

ID=27606790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002332946A Withdrawn JP2003196282A (en) 2002-11-15 2002-11-15 Automatic natural language translating system

Country Status (1)

Country Link
JP (1) JP2003196282A (en)

Similar Documents

Publication Publication Date Title
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
Daud et al. Urdu language processing: a survey
Trujillo Translation engines: techniques for machine translation
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US6760695B1 (en) Automated natural language processing
US7251781B2 (en) Computer based summarization of natural language documents
US5528491A (en) Apparatus and method for automated natural language translation
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
JP2006164293A (en) Automatic natural language translation
JP2003030185A (en) Automatic extraction of transfer mapping from bilingual corpora
JP2004513458A (en) User-changeable translation weights
Galvez et al. Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches
Kangavari et al. Information retrieval: Improving question answering systems by query reformulation and answer validation
JP3743711B2 (en) Automatic natural language translation system
JP2001503540A (en) Automatic translation of annotated text
WO1997048058A9 (en) Automated translation of annotated text
Keenan Large vocabulary syntactic analysis for text recognition
JP2003203071A (en) Automated natural language translating system
Kimº et al. FromTo-CLIR94*: web-based natural language interface for cross-language information retrieval
Batarfi et al. Building an Arabic semantic lexicon for Hajj
JP2003196282A (en) Automatic natural language translating system
JP2003196281A (en) Automatic natural language translating system
Wong et al. iSentenizer: An incremental sentence boundary classifier
Chai Learning and generalization in the creation of information extraction systems
Narayan et al. Pre-Neural Approaches

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040610

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051212

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051215

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060106

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071220