JP4531325B2 - Machine translation apparatus and machine translation method - Google Patents

Machine translation apparatus and machine translation method Download PDF

Info

Publication number
JP4531325B2
JP4531325B2 JP2002316339A JP2002316339A JP4531325B2 JP 4531325 B2 JP4531325 B2 JP 4531325B2 JP 2002316339 A JP2002316339 A JP 2002316339A JP 2002316339 A JP2002316339 A JP 2002316339A JP 4531325 B2 JP4531325 B2 JP 4531325B2
Authority
JP
Japan
Prior art keywords
translation
phrase
word
clause
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002316339A
Other languages
Japanese (ja)
Other versions
JP2003178064A (en
Inventor
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002316339A priority Critical patent/JP4531325B2/en
Publication of JP2003178064A publication Critical patent/JP2003178064A/en
Application granted granted Critical
Publication of JP4531325B2 publication Critical patent/JP4531325B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、機械翻訳装置および機械翻訳方法に関し、詳しくは、ソース言語の文を句や節に分割し、この句や節毎に翻訳して得られたターゲット言語の句や節を出力することが可能な機械翻訳装置および機械翻訳方法に関する。
【0002】
【従来の技術】
現存する多くの機械翻訳装置においては、1文単位で翻訳処理を実行するようにしている。したがって、1文の長さが長くなる程構文を誤って解析する可能性が高まり、長い文を1文単位で翻訳すると意味を無さない翻訳文を出力する可能性が高くなる。また、構文を正しく解析できても、論理的には正しいが非常に読みにくい翻訳文が出力される場合も多い。そこで、現在の機械翻訳装置は、その出力結果を利用者が後編集をして利用に供するという使用方法が主流となっている。
【0003】
また、構文解析が誤っている可能性が大きい状態で1文単位での翻訳結果を得るよりも、解析誤りが少ない状態で1文よりも小さな単位での翻訳結果が得られる方が良いとして、翻訳結果を1文単位で出力せずに、単語,句あるいは節等の1文よりも小さな単位で翻訳結果を出力する機械翻訳装置が提案されている。このような機械翻訳装置として、例えば次のようなものがある。
【0004】
すなわち、通常の1文単位での翻訳装置と同様の辞書引き,形態素解析,訳語選択を行って、原文の構文構造と原文の各単語に対する訳語とを得る。そうした後に、翻訳文生成の際には、構文構造に基づいて原文を句や節に分割し、分割された原文の句や節を構成する原語での単語(以下、原語単語と言う)に対応する訳語を原文の句や節毎にまとめ、夫々の句や節の中で訳語を適切な順序(1文単位で翻訳する場合の訳語の順序から当該句や節に属する訳語だけが抜き出されて得られる順序)に並べ替えて、訳文フレーズを組み立てるものである。
【0005】
ここで、上記訳文フレーズの「フレーズ」とは、英文法で言うところの「phrase」を意味するものではなく、上記「句」及び「節」を統括する際に用いる文言である。尚、以下において使用される文言「フレーズ」についても同様である。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来の1文よりも小さな単位で翻訳結果を出力する機械翻訳装置には、例1,例2および例3に示すような問題がある。
[例1]
原文
「It would push them to the end of the creditors' line
and make it unlikely.」
原文のフレーズへの分割結果
(1)It would push them to the end of the creditors' line
(2)and
(3)make it unlikely.
フレーズ翻訳の結果
(a)それがそれらを債権者のラインのエンドに入れ
(b)そして
(c)それをありそうもない状態にするであろう
【0007】
この例では、原文と翻訳結果とをフレーズ単位で比較すると、(1)の原文フレーズにおいては原文に助動詞「would」が存在するが、このことが(a)の訳文フレーズに反映されてはいない。助動詞「would」の効果は、(c)の訳語フレーズのみに「〜であろう」という形で現れている。この原因は、原文に対して1文単位での通常の翻訳処理を行った結果は、
「それがそれらを債権者のラインのエンドに入れ、そして、それをありそうもない状態 にするであろう。」
であり、助動詞の効果が文末にのみ現れていることと、原文のフレーズ分割位置を忠実に翻訳文に反映させたためである。
【0008】
ところが、(1)の原文フレーズと(a)の訳語フレーズとを比較してみると、原文フレーズには助動詞「would」が存在するのに訳語フレーズにはその効果が現れていないのは不自然である。意味的にも、原文フレーズの助動詞「would」は、主語を共有して並列になっている原文の2つの節の両方に対して効いているのであるから、通常の1文単位での翻訳の場合には実際に訳の形を変えるのは文末のみで良いとしても、夫々の節が分離しているフレーズ翻訳の場合には夫々の節に対して明示的に訳の形を変えなければ正確な翻訳とは言えないのである。
【0009】
[例2]
通常、機械翻訳装置によってソース言語の原文からターゲット言語の翻訳文を生成する際には、ソース言語の単語の訳語に加えて、ソース言語による何れの単語にも対応しない訳語が幾つか生成されて用いられるのであるが、このようなソース言語の単語に対応しない訳語の生成位置は非常に単純な規則によって決定される。例えば、ターゲット言語が日本語である場合には、1文単位で翻訳した場合の訳語生成順序を基準として、ターゲット言語の単語に対応しない訳語はその1つ前の訳語と同一のフレーズに生成されるとしている。
【0010】
このような規則に従って、英語から日本語への翻訳処理を行った場合には、次のような結果となる。
原文
「keating and other Lincoln exectives are the subject of
a class-action lawsuit alleging they misled investors about
the safety of junk bonds issued by American Continental.」
原文のフレーズへの分割結果
(1)keating and other Lincoln exectives are the subject of
a class-action lawsuit
(2)alleging they misled investors about the safety of junk bonds
issued by American Continental
フレーズ翻訳の結果
(a)キーティング及び他のリンカーン幹部は主張する集団訴訟の主体である
(b)それらがアメリカン・コンチネンタルによって出されたジャック・ボンドの安全性 について投資家を誤らせたと
【0011】
この場合は、(a)の訳文フレーズ中の「主張する」が目的語を取り、その目的語が(b)の訳文フレーズ全体であると言うことが分かりにくい。このことを改善するためには、(b)の訳文フレーズの末尾にあって(b)の訳文フレーズ全体を受けている格助詞「と」を、(a)の訳文フレーズの「主張する」の直前に生成すれば分かりやすくなる。ところが、上述したように、この格助詞「と」は原文フレーズの単語とは対応しない単語であるから、1文単位で翻訳した場合に「と」の直前に生成される訳語「誤らせた」と同一フレーズに生成するようになっているために、(b)の訳文フレーズに生成されてしまうのである。
【0012】
[例3]
原文
「The plan was opposed by Keating and some of his former top
executives, who invested in the company's securities.」
原文のフレーズへの分割結果
(1)The plan was opposed by Keating and some of his former top executives
(2)who invested in the company's securities
フレーズ翻訳の結果
(a)計画はキーティング及びいくらかの彼の前のトップ幹部によって反対された
(b)会社の有価証券に投資した
【0013】
この例では、(2)の原文フレーズは関係節であるが、(a)の訳文フレーズだけを見た場合には格(この場合には動作主格)が欠けた節となっているので、これだけではフレーズとして意味がとりにくい。
【0014】
そこで、この発明の目的は、原文と翻訳結果とをフレーズ単位で比較したり訳文フレーズのみを読み進めて行ったりする場合に妨げとなる上述の諸問題を無くし、利用者にとって訳文の内容把握をより容易ならしめる機械翻訳装置および機械翻訳方法を提供することにある。
【0015】
【課題を解決するための手段】
上記目的を達成するため、請求項1に係る発明の機械翻訳装置は、
原語単語から構成される入力原文の訳語単語列を生成する言語生成手段と、
上記入力原文を句または節に分割する位置を決定する分割位置決定手段と、
上記分割位置決定手段によって決定された位置で分割された節を構成する各単語の訳語を、上記言語生成手段による生成結果から取得し、節毎に且つ単語単位で格納する節訳語格納手段と、
上記分割位置決定手段によって決定された位置で分割された節であって、格要素が欠落した関係節を、分割規則に従って検出する関係節検出手段と、
上記関係節検出手段によって検出された関係節における関係詞の先行詞を、入力原文の原語単語から取得する先行詞取得手段と、
上記先行詞取得手段によって得られた上記先行詞の訳語を、上記節訳語格納手段から取得し、上記節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に、当該関係詞の訳語として生成する関係詞訳生成手段と
を備えていることを特徴としている。
【0016】
上記構成において、分割位置決定手段によって決定された位置で分離されて格要素が欠落した関係節が関係節検出手段によって検出されると、先行詞取得手段によって当該関係節の先行詞が得られ、関係詞訳生成手段によって、上記先行詞の訳語を取得して、節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に当該関係詞の訳語として生成される。
こうして、上記分割位置決定手段によって分離されて格要素が欠落した関係節の訳語列中に当該関係詞の訳語として先行詞の訳語が挿入されて各節毎の翻訳が行われる。
【0017】
また、請求項2に係る発明は、請求項1に記載の機械翻訳装置において、
上記関係詞訳生成手段によって上記節訳語格納手段における当該関係節を構成する複数の単語の訳語中に生成された当該関係詞の訳語と、上記節訳語格納手段に格納されている当該関係詞の先行詞を含む節における当該先行詞の訳語とは、同じであることを特徴としている。
【0018】
また、請求項3に係る発明は、請求項1あるいは請求項2に記載の機械翻訳装置において、
上記関係詞訳生成手段によって生成された当該関係詞の訳語の直後に、当該関係詞の訳語の格を表す後置語を生成する後置語生成手段を備えたことを特徴としている。
【0019】
また、請求項4に係る発明は、請求項1乃至請求項3の何れか一つに係る発明の機械翻訳装置において、
上記関係詞訳生成手段によって生成された当該関係詞の訳語に係る修飾語を生成して、当該関係詞の訳語が生成された節の可読性を向上させる補助修飾語生成手段を備えたことを特徴としている。
【0020】
また、請求項5に係る発明の機械翻訳方法は、
言語生成手段で、原語単語から構成される入力原文の訳語単語列を生成する言語生成ステップと、
分割位置決定手段で、上記入力原文を句または節に分割する位置を決定する分割位置決定ステップと、
上記分割位置決定手段によって決定された位置で分割された節を構成する各単語の訳語を、上記言語生成手段による生成結果から取得し、節毎に且つ単語単位で節訳語格納手段に格納する節訳語格納ステップと、
関係節検出手段で、上記分割位置決定手段によって決定された位置で分割された節であって格要素が欠落した関係節を、分割規則に従って検出する関係節検出ステップと、
先行詞取得手段で、上記関係節検出手段によって検出された関係節における関係詞の先行詞を、入力原文の原語単語から取得する先行詞取得ステップと、
関係詞訳生成手段で、上記先行詞取得手段によって得られた上記先行詞の訳語を、上記節訳語格納手段から取得し、上記節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に、当該関係詞の訳語として生成する関係詞訳生成ステップ
を備えたことを特徴としている。
【0021】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
図1は本実施の形態の機械翻訳装置における一実施の形態を示すブロック図である。尚、本実施の形態においては、ソース言語が英語であり、ターゲット言語が日本語である場合を例に、本機械翻訳装置を説明する。
【0022】
図1において、本機械翻訳装置は、入力部1,翻訳制御部2,メインメモリ3,記憶部4,出力部5および制御部6をバスライン7を介して接続して構成されている。
上記入力部1は、キーボード,マウス,電子ペン,タブレット,スキャナ,文字認識装置等の入力装置や通信回線と接続された通信装置によって構成されて、各種命令やソース言語による翻訳対象の文字列が入力される。
上記翻訳制御部2は、翻訳モジュール2A及び出力形式整形部2Bから成り、入力部1から入力されたソース言語による原文に対してフレーズ単位での翻訳処理を行ってターゲット言語による翻訳文を生成する。
上記メインメモリ3には、翻訳制御部2が翻訳文を生成する過程において生じたデータを保持する各種のバッファが設定されている。
上記記憶部4には、翻訳制御部2が翻訳文を生成する際に使用する翻訳用の辞書,文法規則,その他翻訳に必要な規則等のデータが格納されている。
上記出力部5は、CRT(陰極線管),LCD(液晶表示装置)等の表示装置やプリンタ等の印字装置あるいは通信回線と接続されている通信装置によって構成されて、生成された翻訳文等を出力する。
上記制御部6は、主としてCPU(中央演算処理装置)によって構成されて、上記入力部1,翻訳制御部2および出力部5を制御して翻訳処理等の各種処理を実行する。
【0023】
一般に、機械翻訳には、図6に示すような解析レベルがある。図中左上においてソース言語による原文が入力されると、レベルL1の辞書引き、レベルL2の形態素解析、レベルL3の構文解析、…と解析が進められる。機械翻訳は、どの解析レベルまで解析を行うかによって大きく次の2つに分けられる。
1つは、レベルL6のソース言語およびターゲット言語の何れにも依存しない概念である中間言語まで解析し、そこから、レベルL7のターゲット言語による文脈生成、レベルL8の意味生成、レベルL9の構文生成、レベルL10の形態素生成と生成を進めて、ターゲット言語による翻訳文を生成していくピボット方式である。
もう1つは、上記レベルL2の形態素解析,レベルL3の構文解析,レベルL4の意味解析およびレベルL5の文脈解析の何れかのレベルまで解析を行ってソース言語の内部構造を得、次に、この得られたソース言語の内部構造と同レベルのターゲット言語の内部構造に変換した後、ターゲット言語の翻訳文を生成するトランスファー方式である。
【0024】
以下、上記各解析について順次説明する。
(A)辞書引き・形態素解析
上記記憶部4の辞書メモリ4aに格納された辞書を引いて、入力された文章を各形態 素列(単語列)に分割する。そして、分割された各単語の品詞等の文法情報および訳語を 得、さらに、時制・人称・数等を解析する。
(B)構文解析
上記形態素解析の結果得られた各単語間の係り受け等の入力文の構造(構造解析木)を 決定する。
(C)意味解析
上記構文解析の結果得られた複数の構文候補の中から意味的に正しいものとそうでな いものとを判別する。
(D)文脈解析
話題を理解し、省略や曖昧さを取り去る。
本実施例における翻訳モジュール2Aは、図6における少なくともレベルL3の構文解析までの解析を行うトランスファー方式によって翻訳処理を実行するものとする。
【0025】
上述のトランスファー方式による翻訳処理を実行するために、翻訳モジュール2Aは、図1に示すように、辞書引き・形態素解析部2a,構文解析部2b,構文変換部2c,ターゲット言語生成部2dを有している。さらに、翻訳中のデータを参照して文をフレーズに分割する際の分割位置を決定する分割位置決定部2eと、ターゲット言語生成部2dによって生成されたターゲット言語の単語から各訳文フレーズを構築する訳文フレーズ構築部2fを有している。
【0026】
また、上記メインメモリ3には、原文バッファ3a,辞書引きバッファ3b,変換前の構文バッファ3c,変換後の構文バッファ3d,訳語バッファ3e,原語・訳語対応情報バッファ3f,分割位置バッファ3g,フレーズ毎の訳語単語位置バッファ3h,訳フレーズバッファ3i,出力形式バッファ3j,助動詞バッファ3k,フレーズ訳フラグバッファ3l,木構造ポインタバッファ3mが設定されている。また、上記記憶部4には、辞書メモリ4aの他に、構文解析部2bが構文解析時に使用する文法規則が格納される文法規則メモリ4bや後置語テーブルメモリ4c,補助訳語テーブルメモリ4d,その他の翻訳規則メモリ4e,フレーズ分割規則メモリ4f,助動詞コード表メモリ4gが設定されている。
【0027】
さらに、本実施の形態における翻訳モジュール2Aは、フレーズ単位で翻訳するに際して内容が正確で分かり易い訳文フレーズを生成するために、図2に示すように、ターゲット言語生成部2dには、木構造トレース手段11,節点情報取得手段12,助動詞文訳出法決定手段13,助動詞検出手段14,並列節検出手段15,辞書記述訳語生成手段16,付属語生成手段17および助動詞訳生成手段18を有している。
また、図3に示すように、上記訳文フレーズ構築部2fには、中抜けフレーズ検出手段21,関係節検出手段22,生成位置修正手段23,補助記号生成手段24,補助修飾語生成手段25,先行詞取得手段26および後置語生成手段27を有している。
【0028】
図4は、上記制御部6の制御の下に、入力部1,翻訳制御部2および出力部3によって実行されるフレーズ単位翻訳処理動作のフローチャートである。
以下、図4に従って、本実施の形態におけるフレーズ単位翻訳処理動作について説明する。
【0029】
ステップS1で、上記入力部1から原文が入力される。そうすると、入力部1によって当該原文を構成する文字列が認識され、空白文字(スペース)に基づいて入力文字列が部分文字列に分割される。そして、分割された各部分文字列(形態素候補)は、図7に示すように、位置情報が付加されて原文バッファ3aに格納される。
さらに、上記入力部1からフレーズ単位による翻訳処理(以下、フレーズ訳と言う)が指令されて入力部1によって認識される。そうすると、上記認識結果「フレーズ訳」に従って、メインメモリ3のフレーズ訳フラグバッファ3lにフレーズ訳フラグがセットされる。
ステップS2で、上記翻訳モジュール2Aの辞書引き・形態素解析部2aによって、上述のようにして原文バッファ3aに格納された原文に対して、上記辞書引き・形態素解析処理が実行され、得られた解析結果がメインメモリ3の辞書引きバッファ3bに格納される。
ステップS3で、上記翻訳モジュール2Aの構文解析部2bによって、上記構文解析処理が実行されて原文の構造解析木が決定される。そして、得られた構造解析木がメインメモリ3における変換前の構文バッファ3cに格納される。
ステップS4で、上記翻訳モジュール2Aの構文変換部2cによって、変換前の構文バッファ3cに格納されている原文の構造解析木が日本語の構造解析木に変換されて、メインメモリ3における変換後の構文バッファ3dに格納される。
【0030】
ステップS5で、上記翻訳モジュール2Aにおけるターゲット言語生成部2dによって、後に詳述するようなターゲット言語生成サブルーチンが実行されて当該原文の各単語の訳語が決定される。そして、決定された各訳語がメインメモリ3の訳語バッファ3eに格納される。また、メインメモリ3の原語・訳語対応情報バッファ3fに原語・訳語対応情報が格納される。
ステップS6で、上記翻訳モジュール2Aの分割位置決定部2eによって、当該原文のフレーズへの分割位置が決定されて、メインメモリ3の分割位置バッファ3gに格納される。
尚、このフレーズへの分割位置の決定は、変換前の構文バッファ3cに格納されている構造解析木に対して、記憶部4に格納されている図8に示すようなフレーズ分割規則を適用することによって行われる。その際における分割位置決定の実際の動作は、上記構造解析木の節点を所定の順序で探索し、各節点で夫々のフレーズ分割規則が適用可能か否かを調べ、適用可能であればその節点をフレーズの分割位置であると決定することによって行われる。
【0031】
ステップS7で、上記翻訳モジュール2Aの訳文フレーズ構築部2fによって、上記ステップS5において作成された原語・訳語対応情報(図15参照)と上記ステップS6において作成された分割位置情報(図16参照)に基づいて、各フレーズを構成する訳語の単語(以下、訳語単語と言う)を得る。そして、上記訳語バッファ3eを参照して各訳語単語の訳文上での単語位置(訳語単語位置)を求めて、メインメモリ3のフレーズ毎の訳語単語位置バッファ3hにセットする。尚、このフレーズ毎の訳語単語位置バッファ3hの形式を図17に示す。
ステップS8で、上記訳文フレーズ構築部2fによって、上記ステップS5におけるターゲット言語生成サブルーチンの実行の結果決定された訳語単語のうち訳語単語位置がフレーズ毎の訳語単語位置バッファ3hに未だセットされていない(すなわち、属するフレーズが決定していない)訳語単語に関して、後に詳述するようにして、当該訳語単語が属するフレーズが定められてフレーズ毎の訳語単語位置バッファ3hにおける該当するフレーズに当該訳語単語の訳語単語位置がセットされる。
【0032】
ステップS9で、上記訳文フレーズ構築部2fによって、フレーズ毎の訳語単語位置バッファ3hにセットされた各訳語単語位置に対して修正が必要であるか否かが判定され、修正が必要な訳語単語位置が存在すれば修正操作が行われる。
尚、上記修正操作は、記憶部4のその他の翻訳規則メモリ4eに記憶されている修正規則に従って、後に詳述するようにして行われる。
【0033】
ステップS10で、上記訳文フレーズ構築部2fによって、上記ステップS7〜ステップS9において作成されたフレーズ毎の訳語単語位置バッファ3hに格納された各フレーズ毎の訳語単語位置に基づいて、訳語バッファ3eを参照してフレーズ毎の訳語列を求め、得られたフレーズ毎の訳語列を訳フレーズバッファ3iに格納する。
ステップS11で、上記出力形式整形部5Bによって、訳フレーズバッファ3iに格納されている各フレーズ毎の訳語列の形式が出力する際の形式に整えられて出力形式バッファ3jに格納される。
尚、上記出力する際の形式とは、例えば図19に示すように、夫々のフレーズの原文と訳文との先頭位置が揃えられて、原文フレーズとその訳文である訳文フレーズとの対応関係が明確にされた形式である。
ステップS12で、上記出力部5によって、図19に示すように、出力形式バッファ3jに格納されている原文フレーズと訳文フレーズとが出力される。
【0034】
図5は、図4に示すフレーズ単位翻訳処理動作のフローチャートにおける上記ステップS5においてターゲット言語生成部2dによって実行されるターゲット言語生成サブルーチンのフローチャートである。以下、図5に従って、ターゲット言語生成サブルーチンについて説明する。
【0035】
図4に示すフレーズ単位翻訳処理動作のフローチャートにおける上記ステップS4において原文の構造解析木が日本語の構造解析木に変換されると、ターゲット言語生成サブルーチンがスタートする。
ステップS21で、上記ターゲット言語生成部2dの並列節検出手段15によって、上記構文変換部2cで得られた日本語の構造解析木の中に並列の句や節が存在するか否かが判別される。その結果、存在する場合には当該構造解析木における並列句や並列節に相当する節点がポイントされてステップS23に進む。一方、存在しない場合にはステップS22に進む。
尚、上述の「節点をポイントする」とは、上記メインメモリ3の木構造ポインタバッファ3mに構造解析木における節点の番号を格納することである。このようにして、現在着目すべき節点の情報を保持しておくのである。
ステップS22で、上記辞書記述訳語生成手段16および付属語生成手段17によって、当該原文の各単語の訳語が辞書引きバッファ3bに格納された訳語に基づいて決定されて訳語バッファ3eに格納される。また、原語・訳語対応情報バッファ3fに原語・訳語対応情報が格納される。
そうした後、図4に示すフレーズ単位翻訳処理動作のフローチャートにおける上記ステップS6にリターンする。
【0036】
ステップS23で、上記メインメモリ3の助動詞バッファ3kの内容がクリアされる。
ステップS24で、上記木構造トレース手段11によって、節点情報取得手段12で取得された下位に在る各節点の品詞や文法要素等を参照して上記各下位節点間の位置関係が判定されることによって、現在ポイントされている節点の長子に相当する節点がポイントされる。
【0037】
ステップS25で、上記助動詞検出手段14によって、現在ポイントされている節点に助動詞が在るか否かが判別される。その結果、助動詞が在ればステップS26に進み、なければステップS27に進む。
尚、上記助動詞の検出は次のようにして行われる。すなわち、ここでいう助動詞とは英語の構造解析木上における助動詞のことであるから、変換後(日本語)の構造解析木上には存在しない。そこで、木構造トレース手段11と節点情報取得手段12とが制御されて、変換後(日本語)の構造解析木上におけるポイントされている節点に対応する変換前(英語)の構造解析木上における節点をトレースすることによって行われるのである。
ステップS26で、上記助動詞検出手段14によって、上述の如く検出された助動詞の助動詞コードが、図11に示すような形式で記憶部4の助動詞コード表メモリ4gに格納されている助動詞コード表を参照して得られる。そして、得られた助動詞コードが助動詞バッファ3kに格納される。
【0038】
ステップS27で、上記助動詞文訳出法決定手段13によって、フレーズ訳フラグバッファ3lの内容が参照されてフレーズ訳が指令されているか否かが判別される。その結果、フレーズ訳が指令されている場合にはステップS28に進み、指令されていない場合にはステップS34に進む。
ステップS28で、上記辞書記述訳語生成手段16および付属語生成手段17によって、辞書引きバッファ3bに格納されている訳語に基づいて、現在ポイントされている節点に属する原語単語列に相応しい訳語単語列が決定されて訳語バッファ3eに格納される。その際に、助動詞訳生成手段18によって、末尾が助動詞バッファ3kに格納された助動詞コードに応じた終止形に変形される。但し、助動詞バッファ3kに助動詞コードが格納されていない場合には、単に終止形に変形される。
【0039】
ここで、上記付属語生成手段17は、原語単語に対応しない訳語単語を生成する。その生成方法の一例として、格構造に関する情報を利用する方法がある。この方法は、原語単語に対応する訳語単語を生成する際に、辞書メモリ4aに格納されている当該原語単語の格情報が参照されて、ターゲット言語(日本語)で言うところの格助詞等の付属語を決定するものである。
【0040】
ステップS29で、上記木構造トレース手段11によって、節点情報取得手段12で取得された品詞や文法要素等を参照して、現在ポイントされている節点に弟節点が在るか否かが判別される。その結果、弟節点が在る場合にはステップS31に進み、ない場合にはステップS30に進む。
ステップS30で、上記メインメモリ3の助動詞バッファ3kの内容がクリアされる。
そうした後、図4に示すフレーズ単位翻訳処理動作のフローチャートにおける上記ステップS6にリターンする。
【0041】
ステップS31で、上記木構造トレース手段11によって、上記ステップS29において在ると判別された弟節点がポイントされる。
ステップS32で、上記辞書記述訳語生成手段16によって、当該弟節点に在る接続詞の訳語が生成されて訳語バッファ3eに格納される。
ステップS33で、上記木構造トレース手段11によって、次の弟節点(すなわち、上記接続詞で上記長子節点に並列されている節点)がポイントされる。
そうした後、上記ステップS25に戻って当該弟節点に対する処理に移行する。
【0042】
ステップS34で、上記ステップS27においてフレーズ訳が指令されていないと判別された場合には、木構造トレース手段11および節点情報取得手段12によって、現在ポイントされている節点に弟節点があるか否かが判別される。その結果、弟節点が在る場合にはステップS35に進み、ない場合には上記ステップS28に戻って現在の節点の訳が生成される。
ステップS35で、上記辞書記述訳語生成手段16および付属語生成手段17によって、現在ポイントされている節点に属する原語単語列に相応しい訳語単語列が決定されて訳語バッファ3eに格納される。但し、この場合は、助動詞バッファ3kに助動詞コードが存在していても存在していなくても、節の末尾は助動詞の効力が及んでいないような連用中止形に変形される。
そうした後、上記ステップS31に戻って、上記ステップS34において存在すると判別された弟節点にポイントがセットされて、当該弟節点に対する処理に移行する。そして、上記ステップS29において最早弟節点がないと判別されるとステップS30を経由して、図4に示すフレーズ単位翻訳処理動作のフローチャートにおける上記ステップS6にリターンする。
【0043】
以下、上記入力部1に、助動詞を含む並列節が存在する原文
「It would push them to the end of the creditors' line
and make it unlikely.」
が入力された場合を例に、図4および図5に示すフレーズ単位翻訳処理動作について具体的に説明する。
【0044】
先ず、入力部1から読み込まれた原文は、図7に示すように原文バッファ3aに格納される。そして、辞書引き・形態素解析処理および構文解析処理が行われて図9に示すような原文の構造解析木が得られ、変換前の構文バッファ3cに格納される。さらに、構文変換処理が行われて図10に示すような日本語の構造解析木が得られ、変換後の構文バッファ3dに格納される。
…ステップS1〜ステップS4
【0045】
さらに、当該日本語の構造解析木中に並列節が存在するので、「並列節」の節点番号“1"(図10参照)が木構造ポインタバッファ3mに格納される。そして、節点「並列節」に属する節点「主節(節点番号=2)」と節点「接続詞(節点番号=18)」と節点「主語欠け主節(節点番号=19)」との3個の子節点のうちの節点「主節」が長子であると判定されて、節点「主節」の節点番号“2"が木構造ポインタバッファ3mに格納される。
…ステップS21,S23,S24
【0046】
ここで、上記長子である節点「主節(節点番号=2)」に対応する変換前の構造解析木(図9)における節点は節点「主節(節点番号=2)」であり、その下位には節点「助動詞(節点番号=6)」が存在する。そこで、その節点「助動詞(6)」に該当する助動詞「would」の助動詞コード「9」が図11に示す助動詞コード表を参照して得られて、図12に示すように助動詞バッファ3kにセットされる。
…ステップS25,S26
【0047】
そして、「フレーズ訳」が指令されているから、図10に示す変換後の構造解析木における現在ポイントされている節点「主節(2)」に属する原語単語列
「It them creditors' line of end to push」
から、辞書引きバッファ3bに格納された訳語に基づいて当該節点「主節(2)」の訳語単語列が決定される。そして、この場合には、当該節の末尾は、当該助動詞コード「9」に従って終止形「〜だろう」に変形される。その結果、当該原文における節点「主節(2)」に属する各原語単語に対する訳語は
「それ」
「それら」
「債権者」
「の」
「ライン」
「の」
「エンド」
「入れるだろう」
と決定される。加えて、原語単語に対応しない訳語
「、」
「は」
「を」
が生成されて、図13のように訳語バッファ3eにセットされる。
ここで、上述のように、上記原語単語に対応しない訳語は、付属語生成手段17によって記憶部4の辞書メモリ4aに格納された格情報が参照されて生成されるのであるが、具体的には、図34に示すように辞書メモリ4aに格納されている「格名」の内容に着目し、「格名」の内容に対応する付属語を図35に示すような記憶部4の後置語テーブル4cから生成するのである。
…ステップS27,S28
【0048】
尚、上記「フレーズ訳」が指令されていない場合には、現在ポイントされている節点「主節(2)」には節点「接続詞(18)」と節点「主語欠け主節(19)」の弟節点が存在するので、助動詞「would」の効力が及んでいないような連用中止形に末尾が変形された節点「主節(2)」に属する原語単語列の訳語が決定されて訳語バッファ3eに格納されることになる。したがって、図14に示すように、当該原文中における原語単語「push」の訳語は「入れ」となる。
…ステップS27,S34,S35
【0049】
そうした後、現在ポイントされている節点「主節(2)」には、弟節点「接続詞(18)」が存在する。そこで、弟節点「接続詞(18)」がポイントされて、当該接続詞「and」の訳語「そして」が決定されて、図13に示すように訳語バッファ3eにセットされる。そして更に、節点「主節(2)」に関する次の弟節点である節点「主語欠け主節(19)」がポイントされる。
…ステップS29,S31〜S33
【0050】
以下、節点「主語欠け主節(19)」に対応する変換前の構造解析木における節点は節点「主語欠け主節(23)」であり、その下位には節点「助動詞」は存在しない。したがって、節点「主語欠け主節(19)」に属する原語単語列
「it unlikely make」
から当該節点「主語欠け主節(19)」の訳語単語列が決定される。但し、この場合には、下位節点に節点「助動詞」が存在しないので助動詞バッファ3kの内容は更新されてはいない。したがって、当該節の末尾は、「主節(2)」の末尾と同様に、助動詞バッファ3kに格納されている助動詞コード「9」に従って終止形「〜であろう」に変形される。その結果、当該原文における節点「主語欠け主節(19)」に属する各原語単語に対する訳語は
「それ」
「ありそうもない」
「するであろう」
「。」
と決定される。加えて、原語単語に対応しない訳語
「を」
「状態に」
が生成されて、図13に示すように訳語バッファ3eにセットされる。
ここで、当該節点「主語欠け主節(19)」には弟節点が存在しないので、ターゲット言語生成サブルーチンを終了する。
…ステップS25,S27〜S30
【0051】
尚、上述のように、各節毎に得られた訳語単語列が訳語バッファ3eにセットされるのであるが、その際には、各訳語単語に、訳文上での単語位置情報が付加される。この場合の単語位置情報は、フレーズ単位ではなく1つの原文全体を単位とする単語位置情報である。こうする理由は、従来の、1文単位で翻訳文を出力するような機械翻訳装置と構成の多くを共通化することを可能ならしめるためである。
また、同時に、原文上における各原語単語の位置と対応する訳語単語の訳文上における位置との対応を示す原語・訳語対応情報が、図15に示すように原語・訳語対応情報バッファ3fにセットされる。その際に必要な原語単語位置情報は、図7に示すような形式で原文バッファ3aに格納されている。
【0052】
次に、上記変換前の構文バッファ3cに格納されている図9に示すような英語の構造解析木に対して、図8に示すフレーズ分割規則が次のように適用されてフレーズ分割位置が決定される。
先ず、節点番号“2"の節点「主節」に、
・フレーズ分割規則2の
「主節」の節点でまとめられている部分は分離する
が適用される。ここで、節点番号“2"の節点「主節」でまとめられている部分とは
「It would push them to the end of the creditors' line」
であるから、当該原文が単語「line」と単語「and」との間で分割される。
次に、節点番号“23"の節点「主語欠け主節」に、
・フレーズ分割規則2の
「格要素が欠けた主節」の節点でまとめられている部分は分離する
が適用される。ここで、節点番号“23"の節点「主語欠け主節」でまとめられている部分とは
「make it nulikely」
であるから、単語「and」と単語「make」との間で分割される。
【0053】
以上の如くフレーズ分割規則の適用を受けた結果、当該原文は最終的に、単語「line」と単語「and」との間、および、単語「and」と単語「the」との間との2箇所で
「It would push them to the end of the creators' line」
「and」
「make it unlikely」
の3個のフレーズに分割されるのである。
こうして分割された各フレーズの先頭単語「It」,「and」および「make」の当該原文上における単語位置“1",“12"および“13"が、図7の原文バッファ3aを参照して得られる。そして、得られた各単語位置が、図16に示すようにメインメモリ3の分割位置バッファ3gに格納される。
…ステップS6
【0054】
そうすると、得られた各フレーズを構成する訳語単語の単語位置が、次のようにして求められる。
例えば、1番目のフレーズ
「It would push them to the end of the creditors' line」
の場合は、図16に示すような分割位置バッファ3gにおける「連番1」の「単語位置」の欄を参照することによって、当該原文における1番目のフレーズの開始単語位置“1"が得られる。また、「連番2」の「単語位置」の欄を参照することによって、2番目のフレーズの開始単語位置“12"と、1番目のフレーズの終了単語位置“11"が得られる。以上のことから、当該原文の1番目のフレーズは、各原語単語位置が「1,2,3,4,5,6,7,8,9,10,11」である各原語単語から構成されていることがわかる。
次に、図15に示すような原語・訳語対応情報バッファ3fを参照して、1番目のフレーズを構成する上記原語単語に対応する訳語単語の訳語単語位置「1,12,4,11,10,7,6,8」が得られる。さらに、重複しているものを除いて昇順に並び替えると、当該原文における1番目のフレーズの訳を構成する訳語の訳語単語位置「1,4,6,7,8,10,11,12」が得られる。こうして得られた1番目のフレーズの訳を構成する訳語の訳語単語位置が、フレーズ毎の訳語単語位置バッファ3hにおけるフレーズ番号1の「訳語単語位置」の欄に格納される。
【0055】
同様にして、当該原文の2番目のフレーズの訳を構成する訳語の訳語単語位置「14」と3番目のフレーズの訳を構成する訳語の訳語単語位置「16,18,20」とが得られ、該当するフレーズ番号の「訳語単語位置」の欄に格納される。
…ステップS7
【0056】
次に、上記訳語単語のうち、訳語単語位置がフレーズ毎の訳語単語位置バッファ3hに格納されていない訳語単語、すなわち、原語単語に対応しない訳語単語「は」,「を」,「を」および「状態に」が属するフレーズが定められて夫々の訳語単語位置「2」,「5」,「17」および「19」が得られ、フレーズ毎の訳語単語位置バッファ3hにおける該当するフレーズの「訳語単語位置」の欄に格納される。
…ステップS8
この結果、各フレーズ毎の訳語単語位置は、図17に示すように、
1番目のフレーズ
1,2,4,5,6,7,8,9,10,11,12
2番目のフレーズ
14
3番目のフレーズ
16,17,18,19,20
となる。
【0057】
こうして得られた各フレーズ毎の訳語単語に修正が必要な訳語単語位置を呈する訳語単語は存在しないので、以下のようにして、各フレーズ毎の訳が構築される。
先ず、1番目のフレーズを構成する訳語の訳語単語位置は、図17に示すフレーズ毎の訳語単語位置バッファ3hにおけるフレーズ番号1の「訳語単語位置」の欄によって、
1,2,4,5,6,7,8,9,10,11,12
と得られる。次に、図13に示す訳語バッファ3eから、訳語単語位置1の訳語単語「それ」が得られ、訳語単語位置2の訳語単語「は」が得られる。以下、順に訳語単語「それら」,「を」,「債権者」,「の」,「ライン」,「の」,「エンド」,「に」および「入れるだろう」が得られる。そして、こうして得られた各訳語単語を訳語単語位置の昇順に繋げて得られた文字列
「それはそれらを債権者のラインのエンドに入れるだろう」
を、図18に示すように、訳フレーズバッファ3iのフレーズ番号1の「訳フレーズ」の欄に格納する。
同様にして、2番目のフレーズを構成する訳語単語「そして」と、3番目のフレーズを構成する訳語単語「それ」,「を」,「ありそうもない」,「状態に」および「するであろう」とが得られ、得られた訳語単語を訳語単語位置の昇順に繋げて得られた文字列を訳フレーズバッファ3iにおける該等するフレーズ番号の「訳フレーズ」の欄に格納する。その結果、図18に示すように、各フレーズ毎の訳が構築される。
…ステップS9,S10
【0058】
以上のようにして、当該原文の各フレーズに対する訳フレーズが得られると、出力形式整形部2Bによって、図19に示すように、原文フレーズと訳文フレーズの頭の位置が揃えられて出力部5に表示される。
…ステップS11,S12
【0059】
このように、本実施の形態においては、上記翻訳モジュール2Aのターゲット言語生成部2dに、助動詞文訳出法決定手段13,助動詞検出手段14,並列節検出手段15および助動詞訳生成手段18を設け、さらに、メインメモリ3に、助動詞検出手段14によって各節毎に検出された助動詞の助動詞コードを格納する助動詞バッファ3kを設けている。そして、入力部1に助動詞を含む並列節が存在する原文が入力された場合には、ターゲット言語生成部2dによって、並列節を成す夫々の節の訳の末尾が上記助動詞に応じた終止形に変形されたターゲット言語生成を行うようにしている。
したがって、助動詞を含む並列節が存在する原文
「It would push them to the end of the creditors' line
and make it unlikely.」
に対するフレーズ訳の結果が
It would push them to the end of the creditors' line
それがそれらを債権者のラインのエンドに入れるだろう
and
そして
make it unlikely.
それをありそうもない状態にするであろう
の如く得られ、1番目のフレーズの訳に対しても助動詞「would」の効果が「入れるだろう」と現れて、1番目のフレーズの訳文として助動詞「would」の効果が入らないことによる不自然さが解消されるのである。
【0060】
次に、ある節が他の節から丸ごと抜けたように分離した構造を有する原文
「Keating is the subject of a class-action lawsuit alleging
they misled investors about the safety of junk bonds.」
が、入力部1から入力された場合を例に、図4および図5に示すフレーズ単位翻訳処理動作について具体的に説明する。
【0061】
上述の原文の場合と同様にして、辞書引き・形態素解析処理,構文解析処理および構文変換処理が行われる。その結果、英語による構造解析木が図20に示すように得られる。
…ステップS1〜S4
次に、当該原文に並列節は存在しないので、変換後の日本語による構造解析木における原語単語の配列順に訳語単語が配列されて、当該原文の各単語の訳語が決定される。そして、この決定された訳語が、図21に示すように訳語バッファ3eに格納される。また、原語・訳語対応情報バッファ3fに原語・訳語対応情報が図22に示すように格納される。
…ステップS5
【0062】
次に、図20に示すような変換前の構造解析木における節点「主節(16)」に対して、図8に示すフレーズ分割規則のうち
・フレーズ分割規則2の
「主節」の節点でまとめられている部分は分離する
が適用される。ここで、節点番号“16"の節点「主節」でまとめられている部分とは
「they misled investors about the safety of junk bonds」
であるから、当該原文が単語「alleging」と単語「they」との間で分割される。
そして、こうして分割された各フレーズの先頭単語の当該原文上における単語位置“1"および“10"が、フレーズ分割箇所決定の際に適用されたフレーズ分割規則の番号と共に、図23に示すように分割位置バッファ3gに格納される。
…ステップS6
【0063】
次に、図23に示すような分割位置バッファ3gにおける「単語位置」の欄および図22に示すような原語・訳語対応情報バッファ3fが参照されて、当該原文における各フレーズを構成する訳語単語の訳語単語位置が得られる。また、訳語単語位置がフレーズ毎の訳語単語位置バッファ3hに格納されていない訳語単語の訳語単語位置が決定される。こうして、各フレーズ毎の訳語単語位置が図24に示すように決定されて、フレーズ毎の訳語単語位置バッファ3hに格納される。
…ステップS7,S8
【0064】
次に、上記訳文フレーズ構築部2fにおける中抜けフレーズ検出手段21,生成位置修正手段23および補助記号生成手段24によって、記憶部4のその他の翻訳規則メモリ4eに記憶されている修正規則に従って、各訳語単語位置に対して修正が必要かの判定と修正操作が以下のようにして行われる。
その際における上記修正規則は、
(I)下記の判定規則(1),(2),(3)を総て満たす場合には、記号「〜」とフレーズb の末尾の訳語単語とをフレーズaの不連続箇所に生成する。
(1)あるフレーズaを形成する訳語単語の訳語単語位置に不連続な箇所があり、且 つ、他のフレーズbを形成する訳語単語の訳語単語位置の総てが、フレーズa 内における1つの不連続な箇所に入る。
(2)フレーズbの分割時に適用されたフレーズ分割規則は、規則番号2である。
(3)フレーズbの末尾の訳語単語に対応する原語単語は存在しない。
である。
【0065】
先ず、上記中抜けフレーズ検出手段21によって、図24に示すフレーズ毎の訳語対応情報バッファ3hに格納された1番目のフレーズにおいて、各訳語単語位置はソート後の訳語単語位置であるにも拘わらず訳語単語位置「2」の次に訳語単語位置「15」が位置しているので、この箇所が不連続な箇所であると検出される。且つ、この不連続箇所に、2番目のフレーズに属する総ての訳語単語(訳語単語位置4〜14)が入ることが検知される。したがって、判定規則(1)
「あるフレーズaを形成する訳語単語の訳語単語位置に不連続な箇所があり、且つ、別 のフレーズbを形成する訳語単語の訳語単語位置の総てが、フレーズa内における1 つの不連続な箇所内に入る」
が満たされると判定される。
また、図23に示す分割位置バッファ3gの内容が参照されて、2番目のフレーズに関するフレーズ分割の際の適用ルール番号は“2"である。したがって、判定規則(2)
「フレーズbの分割時に適用されたフレーズ分割規則は規則番号2である」
が満たされると判定される。
また、2番目のフレーズの末尾に在る訳語単語の訳語単語位置は“14"であるが、図22に示す原語・訳語対応情報バッファ3fを参照すると、訳語単語位置14の訳語に対応している原語単語は存在しないことが分かる。したがって、判定規則(3)
「フレーズbの末尾の訳語単語に対応する原語単語は存在しない」
が満たされると判定される。
すなわち、当該原文は、判定規則(1),(2)および(3)の総てを満たすのでフレーズ毎の訳語単語位置バッファ3hの内容に対して修正が必要であると判定されるのである。
【0066】
そうすると、上記生成位置修正手段23によって、修正規則(I)に従って、2番目のフレーズの末尾に位置する訳語単語位置14の訳語単語「と」が、1番目のフレーズにおける不連続箇所である訳語単語位置15の訳語単語「主張する」の前に移動される。つまり、本実施の形態においては、請求項4における付属語生成手段をターゲット言語生成部2dの付属語生成手段17と訳文フレーズ構築部2fの生成位置修正手段23で実現するのである。さらに、訳文フレーズ構築部2fの補助記号生成手段24によって、1番目のフレーズの不連続箇所における訳語単語「と」の前に記号「〜」が生成される。
この結果、上記フレーズ毎の訳語単語位置バッファ3hの内容は、図25に示すように変化する。ここで、訳語単語位置“−100"とは訳語単語「〜」の訳語単語位置であることを意味する。また、訳語単語位置の値が負の数である場合には、訳語バッファ3eに格納されている訳語単語を使用するのではなく、記憶部4の補助訳語テーブルメモリ4dに格納されている訳語を使用することを意味している。本例の場合は、図26に示すような補助訳語テーブルメモリ4dの補助訳語テーブルを参照して、コードが“−100"である訳語(記号)「〜」を得るのである。
…ステップS9
【0067】
そして、上記フレーズ毎の訳語単語位置バッファ3hの内容に基づいて、訳語バッファ3eと補助訳語テーブルを参照して、各フレーズ毎の訳が構築されて、図27に示すように訳フレーズバッファ3iに格納される。そして、原文フレーズと訳文フレーズの頭の位置が揃えられて、図28に示すように表示される。
…ステップS10〜S12
【0068】
このように、本実施の形態においては、上記記憶部4のその他の翻訳規則メモリ4eに訳語単語位置の修正規則(I)を記憶しておく。そして、訳文フレーズ構築部2fにおける中抜けフレーズ検出手段21によって、判定規則(1),(2)および(3)の総てを満たすのでフレーズ毎の訳語単語位置バッファ3hの内容に対して修正が必要であると判定されると、訳文フレーズ構築部2fの生成位置修正手段23および補助記号生成手段24によって、修正規則(I)に従って、2番目のフレーズの末尾に位置する訳語単語である訳語単語位置14の訳語単語「と」の前に記号「〜」が付加されて、1番目のフレーズにおける不連続箇所である訳語単語位置15の訳語単語「主張する」の前に移動される。
【0069】
したがって、本実施の形態によれば、ある節が他の節から丸ごと抜けたように分離した構造を有する原文
「Keating is the subject of a class-action lawsuit alleging
they misled investors about the safety of junk bonds.」
のフレーズ訳の結果が
Keating is the subject of a class-action lawsuit alleging
キーティングは〜と主張する集団訴訟の主体である
they misled investors about the safety of junk bonds.
それらがジャンク・ボンドの安全性について投資家を誤らせた
の如く得られ、1番目のフレーズにおける「〜と」の箇所から、その文の格要素である2番目のフレーズが丸ごと抜けるように分離した文の構造を有していることが分かり易く、且つ、夫々の訳文フレーズが読み易くなる。
【0070】
次に、分離すると格要素が欠落してしまう関係節を有する原文
「The plan was opposed by some of top executives
who invested in the company's securities.」
が、入力部1から入力された場合を例に、図4および図5に示すフレーズ単位翻訳処理動作について具体的に説明する。
【0071】
上述の場合と同様にして、辞書引き・形態素解析処理,構文解析処理および構文変換処理が行われる。その結果、英語による構造解析木が図29に示すように得られる。
…ステップS1〜S4
次に、当該原文に並列節は存在しないので、変換後の日本語による構造解析木における原語単語の配列順に訳語単語が配列されて、当該原文の各単語の訳語が決定される。そして、決定された訳語が、図30に示すように訳語バッファ3eに格納される。また、原語・訳語対応情報バッファ3fに原語・訳語対応情報が図31に示すように格納される。
…ステップS5
【0072】
次に、図29に示す変換前の構造解析木における節点「関係代名詞(15)」および節点「主語欠け主節(16)」に対して、図8に示すフレーズ分割規則のうち
・フレーズ分割規則5の
「格要素が欠けた主節」の節点のすぐ左隣に「関係詞」の接点がある場合には、 その「関係詞」の接点と「格要素が欠けた主節」の接点とをまとめて一つのフレ ーズとして分離する
が適用される。ここで、節点番号“15"の節点「関係代名詞」と節点番号“16"の節点「主語欠け主節」とをまとめた部分とは、
「who invested in the company'securities」
であるから、当該原文が単語「executives」と単語「who」との間で分割される。
そして、このようにして分割された各フレーズの先頭単語の当該原文上における単語位置“1"および“10"が、フレーズ分割箇所決定の際に適用されたフレーズ分割規則の番号と共に、図32に示すように、分割位置バッファ3gに格納される。
…ステップS6
【0073】
次に、図32に示すような分割位置バッファ3gにおける「単語位置」の欄および図31に示すような原語・訳語対応情報バッファ3fが参照されて、当該原文における各フレーズを構成する訳語単語の訳語単語位置が得られる。また、訳語単語位置がフレーズ毎の訳語単語位置バッファ3hに格納されていない訳語単語の訳語単語位置が決定される。こうして、各フレーズ毎の訳語単語位置が図33に示すように決定されて、フレーズ毎の訳語単語位置バッファ3hに格納される。
…ステップS7,S8
【0074】
次に、上記訳文フレーズ構築部2fにおける関係節検出手段22,生成位置修正手段23,補助修飾語生成手段25,先行詞取得手段26および後置語生成手段27によって、記憶部4のその他の翻訳規則メモリ4eに記憶されている修正規則に従って、各訳語単語位置に対して修正が必要かの判定と修正操作が以下のようにして行われる。
その際における上記修正規則は
(II)下記の判定規則(4),(5)を総て満たす場合には、フレーズa内の関係詞の先行 詞にあたる語を直前のフレーズ内から取得し、その語に適切な修飾語を付けて、 フレーズaの欠落格の位置に生成する。
(4)あるフレーズaの分割時に適用されたルール分割規則は規則番号5である。
(5)フレーズa内に格要素が欠落した「主節」が存在する。
である。
【0075】
先ず、上記関係節検出手段22によって、図32に示す分割位置バッファ3gの内容が参照されて、2番目のフレーズに関するフレーズ分割の際の適用ルール番号は“5"であるから、判定規則(4)
「あるフレーズaの分割時に適用されたルール分割規則は規則番号5である」
が満たされると判定される。
また、図29に示す変換前の構造解析木を参照して、2番目のフレーズには格要素が欠落した主節である節点「主語欠け主節(16)」が存在することが分かる。したがって、判定規則(5)
「フレーズa内に格要素が欠落した「主節」が存在する」
が満たされると判定される。
すなわち、当該原文は、判定規則(4)および(5)の総てを満たすのでフレーズ毎の訳語単語位置バッファ3hの内容に対して修正が必要であると判定されるのである。
【0076】
そうすると、上記先行詞取得手段26によって、上記修正規則(II)に従って、2番目のフレーズ内にある関係代名詞「who」の先行詞が1番目のフレーズ内から探されて、名詞「executives」が目的の先行詞であると決定される。また、この名詞「executives」は当該原文において原語単語位置が“9"の単語であるから、図31に示す原語・訳語対応情報バッファ3fおよび図30に示す訳語バッファ3eを参照して、先行詞である単語「executives」に対応する訳語単語として訳語単語位置が“11"である「幹部」が得られる。そして、上記訳文フレーズ構築部2fの生成位置修正手段23によって、図33に示すフレーズ毎の訳語単語位置バッファ3hにおけるフレーズ番号2に属する訳語単語の中に、訳語単語番号11の訳語単語「幹部」が加えられるのである。
【0077】
その際に、2番目のフレーズ内における訳語単語「幹部」の生成位置を決定する必要があるが、これは格文法的な観点に基づいて、通常の訳語生成の場合と同様にターゲット言語生成部2dによって決定される。
ここで、本実施の形態においては、文の格要素の生成位置は動詞の辞書に記述されているものとする。そして、当該原文の場合は、2番目のフレーズを形成する節の中心となる動詞は「invested」であり、当該節の構文は
主語+動詞+前置動詞
という形が変形(主語が欠落)したものである。このことは、図29に示すように構文解析部2bによって既に決定されている。また、単語「invest」の訳語も、この構文解析処理結果に基づいて決定されている。
【0078】
図34は、上記記憶部4における辞書データメモリ4aに格納されている原語単語「invest」における当該原文において選択された訳語「投資する」に関するデータの概念図である。図34における「第1格」は当該原文における格のうちの「主語」であり、図34における「第2格」は当該原文における格のうちの「前置詞句」である。そして、日本語生成時における第1格の標準生成位置は、「1番目」と指定されているものとする。
そうすると、上記先行詞取得手段26によって取得された訳語単語「幹部」は、原語単語「invested」に対して「主語」であるから、生成位置修正手段23は訳語単語「幹部」を2番目のフレーズ内の最初の位置に関係代名詞「who」の訳語として生成するのである。
つまり、本実施の形態においては、請求項1における関係詞訳生成部を生成位置修正手段23で実現するのである。
【0079】
また、日本語の格要素には格助詞などの後置語がある。この後置語を生成するための情報も辞書データメモリ4aには格納されている。したがって、後置語生成手段27によって、図34に示す辞書データメモリ4aから動詞「invest」の第1格の格名「動作主体」を得、図35に示すように記憶部4の後置語テーブルメモリ4cに格納されている後置語生成情報を参照して、格名が「動作主体」であってその格を含む節(2番目のフレーズを形成する節)が主節であるので、訳語単語「幹部」の後置語として「は」が生成される。
さらに、上記訳文フレーズ構築部2fの補助修飾語生成手段25によって、次のようにして訳語単語「幹部」の修飾語が決定される。
すなわち、訳語単語「幹部」は名詞であるから体言である。したがって、記憶部4の補助訳語テーブルメモリ4dに図26に示すように格納されている情報を参照することによって体言の修飾語として定められている「その」が選ばれ、その生成位置が訳語単語「幹部」の直前と設定される。
【0080】
その結果、上記フレーズ毎の訳語単語位置バッファ3hの内容は、図36に示すようになる。尚、訳語単語位置の値が負の数である場合は、訳語バッファ3eに格納されている訳語単語を使用するのでなく、記憶部4の後置語テーブルメモリ4c(図35)と補助訳語テーブルメモリ4d(図26)を参照して、コード“−101"は訳語単語「その」を生成し、コード“−1"は訳語単語「は」を生成すべきことを意味している。
…ステップS9
【0081】
そして、上記フレーズ毎の訳語単語位置バッファ3hの内容に基づいて、訳語バッファ3e(図30)と後置語テーブルメモリ4c(図35)と補助訳語テーブルメモリ4d(図26)を参照して、各フレーズ毎の訳が構築され、図37に示すように訳フレーズバッファ3iに格納される。そして、原文フレーズと訳文フレーズの頭の位置が揃えられて、図38に示すように表示される。
…ステップS10〜S12
【0082】
このように、本実施の形態においては、上記記憶部4のその他の翻訳規則メモリ4eに訳語単語位置の修正規則(II)を記憶しておく。そして、訳文フレーズ構築部2fにおける関係節検出手段22によって、判定規則(4)及び(5)の総てを満たすのでフレーズ毎の訳語単語位置バッファ3hの内容に対して修正が必要であると判定されると、訳文フレーズ構築部2fの先行詞取得手段26によって、修正規則(II)に従って、2番目のフレーズ内にある関係代名詞「who」の先行詞である単語「executives」とその訳語単語「幹部」を得る。そして、上記訳文フレーズ構築部2fの生成位置修正手段23によってフレーズ番号2に属する訳語単語の中に訳語単語「幹部」を生成し、さらに、補助修飾語生成手段25および後置語生成手段27によって体言の修飾語「その」と後置語「は」とを生成して関係詞訳語である訳語単語「幹部」に付加するようにしている。
【0083】
したがって、本実施の形態によれば、分離すると格要素が欠落してしまう関係節を有する原文
「The plan was opposed by some of top executives
who invested in the company's securities.」
のフレーズ訳の結果が
The plan was opposed by some of top executives
計画はいくらかのトップ幹部によって反対された
who invested in the company's securities.
その幹部は会社の有価証券に投資した
の如く得られ、2番目のフレーズに対して欠落した格要素「その幹部は」が補われて、関係節である2番目のフレーズを単独で読んでも非常に分かり易くなっている。
【0084】
尚、本実施の形態におけるフレーズ単位翻訳処理動作のアルゴリズムは、図4および図5に示すフローチャートに限定されるものではない。
【0085】
【発明の効果】
以上より明らかなように、請求項1に係る発明の機械翻訳装置および請求項5に係る発明の機械翻訳方法は、分離されて各要素が欠落した関係節を関係節検出手段で検出し、当該関係節における関係詞の先行詞を先行詞取得手段で取得し、関係詞訳生成手段で、当該先行詞の訳語を得る共に、節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に当該関係詞の訳語として生成するので、分割位置決定手段によって決定された位置で分離されて格要素が欠落した関係節の訳語列中に関係詞の訳語として先行詞の訳語を挿入した翻訳結果を得ることができる。
【0086】
したがって、分離すると格要素が欠落してしまう関係節を有する原文
「The plan was opposed by some of top executives
who invested in the company's securities.」
に対するフレーズ訳の結果が
「The plan was opposed by some of top executives
計画はいくらかのトップ幹部によって反対された
who invested in the company's securities.
その幹部は会社の有価証券に投資した」
の如く得られる。
すなわち、この発明によれば、関係節における欠落した格要素が補われて、単独で読んでも非常に分かり易い翻訳結果が得られる。
【0087】
また、請求項3に係る発明の機械翻訳装置は、上記関係詞訳生成手段によって生成された当該関係詞の訳語の直後に後置語を生成する後置語生成手段を有しているので、単独で読んでも非常に分かり易い関係節の翻訳結果が得られる。
【0088】
また、請求項4に係る発明の機械翻訳装置は、上記関係詞訳生成手段によって生成された当該関係詞の訳語に係る修飾語を生成する補助修飾語生成手段を有しているので、当該関係詞の訳語が生成された関係節の可読性を更に向上させることができる。
【図面の簡単な説明】
【図1】 この発明の機械翻訳装置におけるブロック図である。
【図2】 図1におけるターゲット言語生成部の詳細な構成図である。
【図3】 図1における訳文フレーズ構築部の詳細な構成図である。
【図4】 図1における制御部による制御の下に実行されるフレーズ単位翻訳処理動作のフローチャートである。
【図5】 図4に示すフレーズ単位翻訳処理動作において実行されるターゲット言語生成サブルーチンのフローチャートである。
【図6】 機械翻訳による解析レベルの説明図である。
【図7】 図1における原文バッファの内容の一例を示す概念図である。
【図8】 フレーズ分割規則の一例を示す図である。
【図9】 変換前の構文解析木の一例を示す概念図である。
【図10】 変換後の構文解析木の一例を示す概念図である。
【図11】 図1における助動詞コード表メモリの内容の一例を示す概念図である。
【図12】 図1における助動詞バッファの内容の一例を示す概念図である。
【図13】 図1における訳語バッファの内容の一例を示す概念図である。
【図14】 フレーズ訳が指令されない場合における図13に対応する訳語バッファの内容を示す概念図である。
【図15】 図1における原語・訳語対応情報バッファの内容の一例を示す概念図である。
【図16】 図1における分割位置バッファの内容の一例を示す概念図である。
【図17】 図1におけるフレーズ毎の訳語単語位置バッファの内容の一例を示す概念図である。
【図18】 図1における訳フレーズバッファの内容の一例を示す概念図である。
【図19】 フレーズ訳結果の表示例を示す図である。
【図20】 図9とは異なる変換前の構文解析木の概念図である。
【図21】 図13とは異なる訳語バッファの内容を示す概念図である。
【図22】 図15とは異なる原語・訳語対応情報バッファの内容を示す概念図である。
【図23】 図16と異なる分割位置バッファの内容を示す概念図である。
【図24】 図17とは異なるフレーズ毎の訳語単語位置バッファの内容を示す概念図である。
【図25】 図24に対して修正が行われた後のフレーズ毎の訳語単語位置バッファの内容を示す概念図である。
【図26】 図1における補助訳語テーブルメモリの内容の一例を示す概念図である。
【図27】 図18とは異なる訳フレーズバッファの内容を示す概念図である。
【図28】 図19とは異なるフレーズ訳結果の表示例を示す図である。
【図29】 図9および図20とは異なる変換前の構文解析木の概念図である。
【図30】 図13および図21とは異なる訳語バッファの内容を示す概念図である。
【図31】 図15および図22とは異なる原語・訳語対応情報バッファの内容を示す概念図である。
【図32】 図16および図23とは異なる分割位置バッファの内容を示す概念図である。
【図33】 図17および図24とは異なるフレーズ毎の訳語単語位置バッファの内容を示す概念図である。
【図34】 図1における辞書メモリの一部を示す概念図である。
【図35】 図1における後置語テーブルメモリの内容の一例を示す概念図である。
【図36】 図17および図24とは異なるフレーズ毎の訳語単語位置バッファの内容を示す概念図である。
【図37】 図18及び図27とは異なる訳フレーズバッファの内容を示す概念図である。
【図38】 図19及び図28とは異なるフレーズ訳結果の表示例を示す図である。
【符号の説明】
1…入力部、 2…翻訳制御部、
2A…翻訳モジュール、 2a…辞書引き・形態素解析部、
2b…構文解析部、 2c…構文変換部、
2d…ターゲット言語生成部、 2e…分割位置決定部、
2f…訳文フレーズ構築部、 3…メインメモリ、
3c…変換前の構文バッファ、 3d…変換後の構文バッファ、
3e…訳語バッファ、 3f…原語・訳語対応情報バッファ、
3g…分割位置バッファ、
3h…フレーズ毎の訳語単語位置バッファ、
3i…訳フレーズバッファ、 3k…助動詞バッファ、
4…記憶部、 4a…辞書メモリ、
4c…後置語テーブルメモリ、 4d…補助訳語テーブルメモリ、
4g…助動詞コード表メモリ、 5…出力部、
6…制御部、 11…木構造トレース手段、
13…助動詞文訳出法決定手段、 14…助動詞検出手段、
15…並列節検出手段、 18…助動詞訳生成手段、
21…中抜けフレーズ検出手段、 22…関係節検出手段、
23…生成位置修正手段、 24…補助記号生成手段、
25…補助修飾語生成手段、 26…先行詞取得手段、
27…後置語生成手段。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a machine translation apparatus and a machine translation method, and more particularly, to divide a sentence in a source language into phrases and clauses and output a phrase or clause in a target language obtained by translating each phrase or clause. The present invention relates to a machine translation apparatus and a machine translation method capable of performing the above.
[0002]
[Prior art]
In many existing machine translation apparatuses, translation processing is executed in units of one sentence. Therefore, the longer the length of one sentence, the higher the possibility that the syntax will be erroneously analyzed. If a long sentence is translated in units of one sentence, the possibility of outputting a meaningless translated sentence increases. Even if the syntax can be parsed correctly, a translated sentence that is logically correct but very difficult to read is often output. Therefore, the current machine translation apparatus is mainly used in such a way that a user edits the output result for use.
[0003]
In addition, it is better to obtain a translation result in a unit smaller than one sentence in a state where there are few parse errors, rather than obtaining a translation result in one sentence unit when there is a high possibility that the syntax analysis is incorrect. There has been proposed a machine translation apparatus that outputs a translation result in a unit smaller than one sentence such as a word, a phrase or a clause without outputting the translation result in one sentence unit. Examples of such machine translation devices include the following.
[0004]
That is, the dictionary lookup, morpheme analysis, and translation selection similar to those of a translation unit in a normal sentence unit are performed, and the syntax structure of the original sentence and the translation word for each word of the original sentence are obtained. After that, when generating a translation, the source text is divided into phrases and sections based on the syntactic structure, and the words in the source language that make up the divided source phrases and sections (hereinafter referred to as source words) are supported. The translations to be translated are grouped into phrases and sections of the original text, and the translations within each phrase and section in the appropriate order (only the translations belonging to the phrase or section are extracted from the order of translations when translating one sentence at a time) The translated phrases are assembled in the order obtained).
[0005]
Here, the phrase “phrase” of the translated phrase does not mean “phrase” in English grammar, but is a phrase used to control the above “phrase” and “section”. The same applies to the phrase “phrase” used below.
[0006]
[Problems to be solved by the invention]
However, the machine translation apparatus that outputs the translation result in a unit smaller than the conventional one sentence has problems as shown in Examples 1, 2, and 3.
[Example 1]
Original
"It would push them to the end of the creditors' line
and make it unlikely. ''
Results of dividing the original text into phrases
(1) It would push them to the end of the creditors' line
(2) and
(3) make it unlikely.
Phrase translation results
(A) It puts them at the end of the creditor's line
(B) and
(C) will make it unlikely
[0007]
In this example, when the original text and the translation result are compared in phrase units, the auxiliary verb “would” exists in the original text in (1), but this is not reflected in the translated text in (a). . The effect of the auxiliary verb “would” appears in the form of “to be” only in the translated phrase of (c). The reason for this is that the result of normal translation processing per sentence is
“It will put them at the end of the creditor's line and make it unlikely.”
This is because the effect of the auxiliary verb appears only at the end of the sentence, and the phrase division position of the original sentence is faithfully reflected in the translated sentence.
[0008]
However, comparing the original phrase in (1) with the translated phrase in (a), it is not natural that the effect is not shown in the translated phrase even though the original phrase has the auxiliary verb “would”. It is. Semantically, the auxiliary phrase “would” of the original phrase is effective for both of the two clauses of the original sentence that share the subject and are in parallel. In some cases, it is only necessary to change the form of the translation at the end of the sentence, but in the case of phrase translations where each section is separated, it is not necessary to change the translation form explicitly for each section. It's not a good translation.
[0009]
[Example 2]
Usually, when a machine language translation device generates a target language translation from a source language source, several translations that do not correspond to any word in the source language are generated in addition to the source language translation. Although used, the generation position of a translation that does not correspond to such a source language word is determined by a very simple rule. For example, if the target language is Japanese, a translation that does not correspond to a word in the target language is generated in the same phrase as the previous translation, based on the translation generation order when translated in single sentences. It is supposed to.
[0010]
When the translation process from English to Japanese is performed according to such rules, the following results are obtained.
Original
`` Keating and other Lincoln exectives are the subject of
a class-action lawsuit alleging they misled investors about
the safety of junk bonds issued by American Continental. ''
Results of dividing the original text into phrases
(1) keating and other Lincoln exectives are the subject of
a class-action lawsuit
(2) alleging they misled investors about the safety of junk bonds
issued by American Continental
Phrase translation results
(A) Keating and other Lincoln executives are the subject of the class action that he claims
(B) they misled investors about the safety of Jack Bond issued by American Continental
[0011]
In this case, it is difficult to understand that “assert” in the translated phrase of (a) takes the object, and that the object is the entire translated phrase of (b). In order to improve this, the case particle “to” at the end of the translated phrase in (b) and receiving the entire translated phrase in (b) is replaced with the “assertion” of the translated phrase in (a). It becomes easier to understand if it is generated immediately before. However, as described above, the case particle “to” is a word that does not correspond to the word of the original phrase, and therefore, when translated in units of one sentence, the translated word “mistake” generated immediately before “to”. Are generated in the same phrase as (b).
[0012]
[Example 3]
Original
`` The plan was opposed by Keating and some of his former top
executives, who invested in the company's securities. ''
Results of dividing the original text into phrases
(1) The plan was opposed by Keating and some of his former top executives
(2) who invested in the company's securities
Phrase translation results
(A) The plan was opposed by Keating and some of his former top executives
(B) Invested in company securities
[0013]
In this example, the original phrase in (2) is a related clause, but if you look at only the translated phrase in (a), it is a clause that lacks the case (in this case, the action main case), so this is all Then it is difficult to take a meaning as a phrase.
[0014]
Therefore, the object of the present invention is to eliminate the above-mentioned problems that hinder the comparison between the original text and the translation result in units of phrases or to read only the translated phrase, and for the user to grasp the contents of the translated sentence. An object of the present invention is to provide a machine translation apparatus and a machine translation method that can be made easier.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, a machine translation apparatus according to the first aspect of the present invention provides:
Language generation means for generating a translated word string of the input source text composed of source language words;
Division position determining means for determining a position at which the input original is divided into phrases or clauses;
A translated word storage means for acquiring the translation of each word constituting the clause divided at the position determined by the divided position determining means from the generation result by the language generating means, and storing the translated word for each clause and in units of words;
A clause that is divided at the position determined by the division position determination means and that has a case element missing. According to the division rules A relative clause detection means to detect;
An antecedent acquisition unit for acquiring an antecedent of a relative in a relative clause detected by the relative clause detection unit;
The translation of the antecedent obtained by the antecedent acquisition means is acquired from the noun translation storage means, and the missing words in the translations of a plurality of words constituting the relevant clause stored in the nodal translation storage means A relative translation generation means for generating a translation of the relative at the position of the case element;
It is characterized by having.
[0016]
In the above configuration, when the relative clause that is separated at the position determined by the division position determination unit and lacks the case element is detected by the relative clause detection unit, the antecedent of the relative clause is obtained by the antecedent acquisition unit, A translation of the antecedent is acquired by a relative translation generation means, and the relative word of the relative is placed at the position of the missing case element in the translation of a plurality of words constituting the relative clause stored in the clause storage. Generated as a translation.
In this way, the translation of the antecedent is inserted as the translation of the relative clause into the translation of the relative clause separated by the division position determining means and lacking the case element, and translation is performed for each clause.
[0017]
The invention according to claim 2 is the machine translation device according to claim 1,
A translation of the relative verb generated in the translation of a plurality of words constituting the relative clause in the relative translation storage unit by the relative translation generation unit, and the relative verb stored in the clause translation storage unit It is characterized in that the translation of the antecedent in the clause containing the antecedent is the same.
[0018]
The invention according to claim 3 is the machine translation device according to claim 1 or 2,
Immediately after the translation of the relative term generated by the relative term translation generation unit, postfix generation means for generating a postfix representing the case of the translation of the relative term is provided.
[0019]
The invention according to claim 4 is the machine translation device according to any one of claims 1 to 3,
The apparatus further comprises auxiliary modifier generation means for generating a modifier related to the translation of the relative verb generated by the relative translation generation means and improving the readability of the clause in which the translation of the relative is generated. It is said.
[0020]
The machine translation method of the invention according to claim 5 is:
A language generation step of generating a translated word string of an input original composed of source language words by a language generation means;
A division position determination step for determining a position at which the input original text is divided into phrases or clauses by a division position determination means;
The translation of each word constituting the clause divided at the position determined by the division position determination means is obtained from the generation result by the language generation means, and is stored in the phrase translation storage means for each clause and in units of words. A translation storage step;
The related clause detection means is a clause that is divided at the position determined by the division position determination means and lacks a case element. According to the division rules A relative clause detection step to detect;
An antecedent acquisition means for acquiring an antecedent of a relative in the relative clause detected by the relative clause detection means by an antecedent acquisition means;
A plurality of words constituting the related clause stored in the noun translation word storage means obtained by the noun translation generation means, obtained from the noun translation word storage means, obtained by the antecedent acquisition means. Step of generating a relative translation at the position of the missing case element in the translation of
It is characterized by having.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the illustrated embodiments.
FIG. 1 is a block diagram showing an embodiment of the machine translation apparatus of the present embodiment. In this embodiment, the machine translation apparatus will be described by taking as an example the case where the source language is English and the target language is Japanese.
[0022]
In FIG. 1, the machine translation apparatus is configured by connecting an input unit 1, a translation control unit 2, a main memory 3, a storage unit 4, an output unit 5 and a control unit 6 via a bus line 7.
The input unit 1 is composed of an input device such as a keyboard, mouse, electronic pen, tablet, scanner, character recognition device, or a communication device connected to a communication line. Entered.
The translation control unit 2 includes a translation module 2A and an output format shaping unit 2B. The translation control unit 2 performs translation processing in units of phrases on the original text in the source language input from the input unit 1 to generate a translation in the target language. .
In the main memory 3, various buffers for holding data generated in the process in which the translation control unit 2 generates a translation sentence are set.
The storage unit 4 stores data such as a dictionary for translation, grammar rules, and other rules necessary for translation, which are used when the translation control unit 2 generates a translation.
The output unit 5 is composed of a display device such as a CRT (cathode ray tube) or LCD (liquid crystal display device), a printing device such as a printer, or a communication device connected to a communication line, and generates a generated translation or the like. Output.
The control unit 6 is mainly configured by a CPU (Central Processing Unit), and controls the input unit 1, the translation control unit 2 and the output unit 5 to execute various processes such as a translation process.
[0023]
In general, machine translation has an analysis level as shown in FIG. When an original text in the source language is input at the upper left in the figure, level L1 dictionary lookup, level L2 morphological analysis, level L3 syntax analysis, and so on are advanced. Machine translation is roughly divided into the following two types depending on the level of analysis to be performed.
The first analyzes the intermediate language, which is a concept that does not depend on either the source language or the target language of level L6, and generates context from the target language of level L7, semantic generation of level L8, syntax generation of level L9 This is a pivot method in which the generation and generation of level L10 morpheme is advanced to generate a translation in the target language.
The other is to analyze the level L2 morphological analysis, level L3 syntax analysis, level L4 semantic analysis and level L5 context analysis to obtain the internal structure of the source language, This is a transfer method for generating a translated sentence of the target language after converting into the internal structure of the target language at the same level as the obtained internal structure of the source language.
[0024]
Hereinafter, each analysis will be described in order.
(A) Dictionary lookup and morphological analysis
The dictionary stored in the dictionary memory 4a of the storage unit 4 is subtracted to divide the input sentence into morpheme strings (word strings). Then, grammatical information such as parts of speech of each divided word and translations are obtained, and the tense, person, number, etc. are analyzed.
(B) Parsing
The structure (structure analysis tree) of the input sentence such as dependency between words obtained as a result of the morphological analysis is determined.
(C) Semantic analysis
From the plurality of syntax candidates obtained as a result of the above parsing, the semantically correct one is discriminated from the one that is not.
(D) Context analysis
Understand the topic and remove omissions and ambiguities.
It is assumed that the translation module 2A in this embodiment executes the translation process by a transfer method for performing analysis up to at least level L3 syntax analysis in FIG.
[0025]
As shown in FIG. 1, the translation module 2A has a dictionary lookup / morpheme analysis unit 2a, a syntax analysis unit 2b, a syntax conversion unit 2c, and a target language generation unit 2d in order to execute the above-described translation processing. is doing. Furthermore, each translation phrase is constructed from a division position determination unit 2e that determines a division position for dividing a sentence into phrases by referring to data being translated, and a target language word generated by the target language generation unit 2d. It has a translated phrase construction unit 2f.
[0026]
The main memory 3 includes a source buffer 3a, a dictionary buffer 3b, a pre-conversion syntax buffer 3c, a post-conversion syntax buffer 3d, a translation buffer 3e, a source / translation correspondence information buffer 3f, a division position buffer 3g, and a phrase. For each word, a translated word position buffer 3h, a translated phrase buffer 3i, an output format buffer 3j, an auxiliary verb buffer 3k, a phrase translated flag buffer 3l, and a tree structure pointer buffer 3m are set. In addition to the dictionary memory 4a, the storage unit 4 stores a grammar rule memory 4b in which grammar rules used by the syntax analysis unit 2b during parsing, a postfix table memory 4c, an auxiliary translation table memory 4d, Other translation rule memory 4e, phrase division rule memory 4f, and auxiliary verb code table memory 4g are set.
[0027]
Furthermore, as shown in FIG. 2, the translation module 2A in the present embodiment generates a tree structure trace in order to generate a translated phrase whose contents are accurate and easy to understand when translating in phrase units. Means 11, node information acquisition means 12, auxiliary verb sentence translation method determination means 13, auxiliary verb detection means 14, parallel clause detection means 15, dictionary description translation generation means 16, auxiliary word generation means 17, and auxiliary verb translation generation means 18. Yes.
Further, as shown in FIG. 3, the translated phrase constructing unit 2f includes a missing phrase detecting means 21, a related clause detecting means 22, a generating position correcting means 23, an auxiliary symbol generating means 24, an auxiliary modifier generating means 25, An antecedent acquisition unit 26 and a postfix generation unit 27 are provided.
[0028]
FIG. 4 is a flowchart of the phrase unit translation processing operation executed by the input unit 1, translation control unit 2, and output unit 3 under the control of the control unit 6.
The phrase unit translation processing operation in the present embodiment will be described below with reference to FIG.
[0029]
In step S1, the original text is input from the input unit 1. If it does so, the character string which comprises the said original text will be recognized by the input part 1, and an input character string will be divided | segmented into a partial character string based on a blank character (space). Then, each divided partial character string (morpheme candidate) is stored in the original sentence buffer 3a with position information added as shown in FIG.
Further, a translation process (hereinafter referred to as phrase translation) in units of phrases is commanded from the input unit 1 and recognized by the input unit 1. Then, the phrase translation flag is set in the phrase translation flag buffer 3l of the main memory 3 in accordance with the recognition result “phrase translation”.
In step S2, the dictionary lookup / morpheme analysis unit 2a of the translation module 2A executes the dictionary lookup / morpheme analysis process on the original sentence stored in the original sentence buffer 3a as described above, and obtains the obtained analysis. The result is stored in the dictionary lookup buffer 3b of the main memory 3.
In step S3, the syntax analysis unit 2b of the translation module 2A executes the syntax analysis process to determine the structure analysis tree of the original sentence. Then, the obtained structural analysis tree is stored in the syntax buffer 3 c before conversion in the main memory 3.
At step S4, the syntax conversion unit 2c of the translation module 2A converts the structure parse tree of the original sentence stored in the syntax buffer 3c before conversion into a Japanese structure parse tree, Stored in the syntax buffer 3d.
[0030]
In step S5, the target language generation unit 2d in the translation module 2A executes a target language generation subroutine, which will be described in detail later, to determine the translation of each word of the original sentence. Each determined translation is stored in the translation buffer 3e of the main memory 3. In addition, source / translation correspondence information is stored in the source / translation correspondence information buffer 3 f of the main memory 3.
In step S6, the division position determination unit 2e of the translation module 2A determines the division position of the original sentence into phrases and stores it in the division position buffer 3g of the main memory 3.
In this determination of the division position into phrases, a phrase division rule as shown in FIG. 8 stored in the storage unit 4 is applied to the structural analysis tree stored in the syntax buffer 3c before conversion. Is done by. In this case, the actual operation of determining the division position is to search the nodes of the structural analysis tree in a predetermined order, check whether each phrase division rule is applicable at each node, and if applicable, that node. Is determined as a phrase division position.
[0031]
In step S7, the translated phrase construction unit 2f of the translation module 2A converts the source / translation word correspondence information created in step S5 (see FIG. 15) and the division position information created in step S6 (see FIG. 16). Based on this, the translated words constituting each phrase (hereinafter referred to as translated words) are obtained. Then, referring to the translated word buffer 3e, a word position (translated word position) on each translated word is obtained and set in the translated word position buffer 3h for each phrase in the main memory 3. The format of the translated word position buffer 3h for each phrase is shown in FIG.
In step S8, the translated word position of the translated words determined as a result of the execution of the target language generation subroutine in step S5 by the translated phrase constructing unit 2f has not yet been set in the translated word position buffer 3h for each phrase ( In other words, with respect to the translated word (for which the phrase to which it belongs is not determined), as described in detail later, the phrase to which the translated word belongs is determined, and the translated word of the translated word is assigned to the corresponding phrase in the translated word position buffer 3h for each phrase. The word position is set.
[0032]
In step S9, the translated phrase construction unit 2f determines whether or not each translated word position set in the translated word position buffer 3h for each phrase needs to be corrected, and the translated word position that needs to be corrected. If exists, the corrective action is performed.
The correction operation is performed as described in detail later according to the correction rules stored in the other translation rule memory 4e of the storage unit 4.
[0033]
In step S10, the translated phrase constructing unit 2f refers to the translated word buffer 3e based on the translated word position for each phrase stored in the translated word position buffer 3h for each phrase created in steps S7 to S9. Then, the translated word string for each phrase is obtained, and the obtained translated word string for each phrase is stored in the translated phrase buffer 3i.
In step S11, the output format shaping section 5B prepares the format of the translated word string for each phrase stored in the translated phrase buffer 3i and stores it in the output format buffer 3j.
For example, as shown in FIG. 19, the output format is such that the starting positions of the original sentence and the translated sentence of each phrase are aligned, and the correspondence between the original phrase and the translated phrase that is the translated sentence is clear. Format.
In step S12, the output unit 5 outputs the original phrase and the translated phrase stored in the output format buffer 3j as shown in FIG.
[0034]
FIG. 5 is a flowchart of a target language generation subroutine executed by the target language generation unit 2d in step S5 in the flowchart of the phrase unit translation processing operation shown in FIG. Hereinafter, the target language generation subroutine will be described with reference to FIG.
[0035]
When the original structural analysis tree is converted into the Japanese structural analysis tree in step S4 in the flowchart of the phrase unit translation processing operation shown in FIG. 4, the target language generation subroutine starts.
In step S21, the parallel clause detection means 15 of the target language generator 2d determines whether or not there are parallel phrases or clauses in the Japanese structural parse tree obtained by the syntax converter 2c. The As a result, if it exists, a node corresponding to the parallel phrase or parallel node in the structural analysis tree is pointed and the process proceeds to step S23. On the other hand, if it does not exist, the process proceeds to step S22.
The above-mentioned “pointing to a node” means storing the node number in the structural analysis tree in the tree pointer buffer 3m of the main memory 3. In this way, information on nodes that are currently focused on is retained.
In step S22, the dictionary description translation generation means 16 and the attached word generation means 17 determine the translation of each word of the original sentence based on the translation stored in the dictionary lookup buffer 3b and store it in the translation buffer 3e. Also, the original / translated word correspondence information buffer 3f stores the original / translated word correspondence information.
After that, the process returns to step S6 in the flowchart of the phrase unit translation processing operation shown in FIG.
[0036]
In step S23, the contents of the auxiliary verb buffer 3k in the main memory 3 are cleared.
In step S24, the tree structure tracing means 11 determines the positional relationship between the lower nodes by referring to the parts of speech and grammatical elements of the lower nodes acquired by the node information acquisition means 12. Will point to the node corresponding to the first child of the currently pointed node.
[0037]
In step S25, the auxiliary verb detection means 14 determines whether there is an auxiliary verb at the currently pointed node. As a result, if there is an auxiliary verb, the process proceeds to step S26, and if not, the process proceeds to step S27.
The auxiliary verb is detected as follows. That is, the auxiliary verb here is an auxiliary verb on the English structural analysis tree, and therefore does not exist on the structural analysis tree after conversion (Japanese). Therefore, the tree structure tracing means 11 and the node information obtaining means 12 are controlled, and on the structure analysis tree before conversion (English) corresponding to the pointed node on the structure analysis tree after conversion (Japanese). This is done by tracing the nodes.
In step S26, the auxiliary verb code of the auxiliary verb detected as described above by the auxiliary verb detecting means 14 is referred to the auxiliary verb code table stored in the auxiliary verb code table memory 4g of the storage unit 4 in the format shown in FIG. Is obtained. The obtained auxiliary verb code is stored in the auxiliary verb buffer 3k.
[0038]
In step S27, the auxiliary verb sentence translation method determining means 13 refers to the contents of the phrase translation flag buffer 3l to determine whether or not a phrase translation is commanded. As a result, if a phrase translation is commanded, the process proceeds to step S28, and if not, the process proceeds to step S34.
In step S28, the dictionary description translated word generating means 16 and the attached word generating means 17 generate a translated word string suitable for the original word string belonging to the currently pointed node based on the translated word stored in the dictionary lookup buffer 3b. It is determined and stored in the translated word buffer 3e. At that time, the auxiliary verb translation generating means 18 transforms the end into an end form corresponding to the auxiliary verb code stored in the auxiliary verb buffer 3k. However, if the auxiliary verb code is not stored in the auxiliary verb buffer 3k, it is simply transformed into a final form.
[0039]
Here, the attached word generation means 17 generates a translated word that does not correspond to the original word. As an example of the generation method, there is a method of using information on the case structure. In this method, when generating a translated word corresponding to a source word, the case information of the target language (Japanese) is referred to by referring to the case information of the source word stored in the dictionary memory 4a. This is to determine the ancillary words.
[0040]
In step S29, the tree structure tracing unit 11 refers to the part of speech or grammatical element acquired by the node information acquiring unit 12 to determine whether or not the currently pointed node has a brother node. . As a result, if there is a younger brother node, the process proceeds to step S31, and if not, the process proceeds to step S30.
In step S30, the contents of the auxiliary verb buffer 3k in the main memory 3 are cleared.
After that, the process returns to step S6 in the flowchart of the phrase unit translation processing operation shown in FIG.
[0041]
In step S31, the tree structure tracing means 11 points to the brother node determined to be present in step S29.
In step S32, the dictionary description translation generation means 16 generates a translation of the conjunction at the brother node and stores it in the translation buffer 3e.
In step S33, the tree structure tracing means 11 points to the next brother node (that is, the node connected in parallel to the first child node by the connective).
After that, the process returns to step S25 to shift to the process for the brother node.
[0042]
If it is determined in step S34 that the phrase translation is not instructed in step S27, the tree structure tracing means 11 and the node information obtaining means 12 determine whether there is a brother node at the currently pointed node. Is determined. As a result, if there is a younger brother node, the process proceeds to step S35, and if not, the process returns to step S28 to generate a translation of the current node.
In step S35, the dictionary description translated word generating means 16 and the attached word generating means 17 determine a translated word string suitable for the original word string belonging to the currently pointed node and store it in the translated word buffer 3e. However, in this case, the end of the clause is transformed into a continuous stop type that does not reach the effect of the auxiliary verb, regardless of whether or not the auxiliary verb code exists in the auxiliary verb buffer 3k.
After that, the process returns to step S31, a point is set at the brother node determined to exist at step S34, and the process proceeds to the process for the brother node. If it is determined in step S29 that there is no longer a brother node, the process returns to step S6 in the flowchart of the phrase unit translation processing operation shown in FIG. 4 via step S30.
[0043]
In the following, the input section 1 includes a parallel clause including an auxiliary verb.
"It would push them to the end of the creditors' line
and make it unlikely. ''
The phrase unit translation processing operation shown in FIG. 4 and FIG.
[0044]
First, the original text read from the input unit 1 is stored in the original text buffer 3a as shown in FIG. Then, dictionary lookup / morpheme analysis processing and syntax analysis processing are performed to obtain a structure analysis tree of the original text as shown in FIG. 9 and stored in the syntax buffer 3c before conversion. Further, a syntax conversion process is performed to obtain a Japanese structural analysis tree as shown in FIG. 10, and the result is stored in the converted syntax buffer 3d.
... Steps S1 to S4
[0045]
Furthermore, since there is a parallel node in the Japanese structural analysis tree, the node number “1” (see FIG. 10) of the “parallel node” is stored in the tree structure pointer buffer 3m. The node “main node (node number = 2)”, the node “connective (node number = 18)” and the node “main subject missing main node (node number = 19)” belonging to the node “parallel node” Of the child nodes, the node “main node” is determined to be the first child, and the node number “2” of the node “main node” is stored in the tree structure pointer buffer 3m.
... Steps S21, S23, S24
[0046]
Here, the node in the structural analysis tree (FIG. 9) before conversion corresponding to the node “main node (node number = 2)”, which is the first child, is the node “main node (node number = 2)”, and its lower level Has a node “auxiliary verb (node number = 6)”. Therefore, the auxiliary verb code “9” of the auxiliary verb “would” corresponding to the node “auxiliary verb (6)” is obtained by referring to the auxiliary verb code table shown in FIG. 11, and set in the auxiliary verb buffer 3k as shown in FIG. Is done.
... Steps S25 and S26
[0047]
Since “phrase translation” is commanded, the source word string belonging to the currently pointed node “main clause (2)” in the converted structural analysis tree shown in FIG.
"It them creditors' line of end to push"
Thus, the translated word string of the node “main clause (2)” is determined based on the translated word stored in the dictionary lookup buffer 3b. In this case, the end of the clause is transformed into a final form “~” according to the auxiliary verb code “9”. As a result, the translation for each source word belonging to the node “main clause (2)” in the source sentence is
"That"
"They"
"a creditor"
"of"
"line"
"of"
"End"
"I will put it"
Is determined. In addition, translations that do not correspond to the original words
","
"Ha"
"O"
Is generated and set in the translated word buffer 3e as shown in FIG.
Here, as described above, the translated word that does not correspond to the original word is generated by referring to the case information stored in the dictionary memory 4a of the storage unit 4 by the attached word generating means 17, specifically, 34 pays attention to the contents of the “case name” stored in the dictionary memory 4a as shown in FIG. 34, and the attached words corresponding to the contents of the “case name” are placed after the storage unit 4 as shown in FIG. It is generated from the word table 4c.
... Steps S27, S28
[0048]
If the above phrase translation is not specified, the node “main clause (2)” currently pointed to includes the node “connective (18)” and the node “subject missing main clause (19)”. Since there is a younger brother node, the translation of the source word string belonging to the node "main clause (2)" whose end has been transformed into a continuous discontinuation form that does not reach the effect of the auxiliary verb "would" is determined and the translation buffer 3e Will be stored. Therefore, as shown in FIG. 14, the translation of the original word “push” in the original sentence is “insert”.
... Steps S27, S34, S35
[0049]
After that, the brother node “connective (18)” exists at the node “main clause (2)” currently pointed to. Therefore, the younger brother node “connective (18)” is pointed, and the translated word “and” of the conjunction “and” is determined and set in the translated word buffer 3e as shown in FIG. Further, the node “main subject lacking main clause (19)” which is the next brother node relating to the node “main clause (2)” is pointed.
... Steps S29, S31 to S33
[0050]
Hereinafter, the node in the structural analysis tree before the conversion corresponding to the node “subject missing main clause (19)” is the node “subject missing main clause (23)”, and the node “auxiliary verb” does not exist below the node. Therefore, the source word string belonging to the node “subject missing main clause (19)”
"It unlikely make"
From this, the translated word string of the node “subject missing main clause (19)” is determined. However, in this case, since the node “auxiliary verb” does not exist in the lower node, the content of the auxiliary verb buffer 3k is not updated. Therefore, the end of the section is transformed into the final form “~” according to the auxiliary verb code “9” stored in the auxiliary verb buffer 3k, similarly to the end of the “main section (2)”. As a result, the translation for each source word belonging to the node “subject missing main clause (19)” in the source sentence is
"That"
"I don't think so"
"I will do"
"."
Is determined. In addition, translations that do not correspond to the original words
"O"
"To state"
Is generated and set in the translated word buffer 3e as shown in FIG.
Here, since there is no younger brother node in the node “subject missing main clause (19)”, the target language generation subroutine is terminated.
... Steps S25, S27 to S30
[0051]
As described above, the translated word string obtained for each section is set in the translated word buffer 3e. At this time, word position information on the translated sentence is added to each translated word. . In this case, the word position information is word position information not in units of phrases but in units of one whole original. The reason for this is to make it possible to share many of the configurations with a conventional machine translation apparatus that outputs a translation sentence by sentence.
At the same time, source / translation correspondence information indicating the correspondence between the position of each source word on the source sentence and the position of the corresponding translation word on the target sentence is set in the source / translation word correspondence information buffer 3f as shown in FIG. The The original word position information necessary at this time is stored in the original sentence buffer 3a in the format shown in FIG.
[0052]
Next, the phrase division rule shown in FIG. 8 is applied to the English structural analysis tree as shown in FIG. 9 stored in the syntax buffer 3c before conversion to determine the phrase division position. Is done.
First, to the node “main node” of node number “2”,
Phrase division rule 2
Separate the parts that are grouped at the nodes of the "main section"
Applies. Here, the part grouped by node “main node” with node number “2”
"It would push them to the end of the creditors'line"
Therefore, the original sentence is divided between the word “line” and the word “and”.
Next, to the node “subject missing main clause” of node number “23”,
Phrase division rule 2
Separate the parts that are grouped together at the nodes of the “main section lacking case elements”
Applies. Here, the part grouped by the node “subject missing main node” of node number “23” is
"Make it nulikely"
Therefore, it is divided between the word “and” and the word “make”.
[0053]
As a result of the application of the phrase division rule as described above, the original text is finally divided between the word “line” and the word “and” and between the word “and” and the word “the”. In place
"It would push them to the end of the creators'line"
"And"
"Make it unlikely"
It is divided into three phrases.
The word positions “1”, “12”, and “13” of the first words “It”, “and”, and “make” of each phrase divided in this way are referred to the original buffer 3a in FIG. can get. Each obtained word position is stored in the divided position buffer 3g of the main memory 3 as shown in FIG.
... Step S6
[0054]
If it does so, the word position of the translation word which comprises each obtained phrase will be calculated | required as follows.
For example, the first phrase
"It would push them to the end of the creditors'line"
In the case of FIG. 16, the start word position “1” of the first phrase in the original sentence is obtained by referring to the “word position” column of “serial number 1” in the division position buffer 3g as shown in FIG. . Further, by referring to the “word position” column of “serial number 2”, the start word position “12” of the second phrase and the end word position “11” of the first phrase are obtained. From the above, the first phrase of the original text is composed of each original word whose position is “1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11”. You can see that
Next, referring to the original word / translation word correspondence information buffer 3f as shown in FIG. 15, the translated word position "1, 12, 4, 11, 10" of the translated word corresponding to the original word constituting the first phrase. , 7, 6, 8 ". Furthermore, when the items are rearranged in ascending order, except for overlapping ones, the translated word position “1, 4, 6, 7, 8, 10, 11, 12” of the translated word constituting the translation of the first phrase in the original sentence. Is obtained. The translation word position of the translation constituting the translation of the first phrase obtained in this way is stored in the “translation word position” column of phrase number 1 in the translation word position buffer 3h for each phrase.
[0055]
Similarly, the translation word position “14” of the translation constituting the translation of the second phrase of the original text and the translation word position “16, 18, 20” of the translation constituting the translation of the third phrase are obtained. Are stored in the “translated word position” column of the corresponding phrase number.
... Step S7
[0056]
Next, among the above-mentioned translated words, translated words whose translated word positions are not stored in the translated word position buffer 3h for each phrase, that is, translated words “ha”, “ha”, “ha” The phrase to which “in state” belongs is determined and the respective translated word positions “2”, “5”, “17” and “19” are obtained, and the “translated word” of the corresponding phrase in the translated word position buffer 3h for each phrase. It is stored in the “word position” column.
... Step S8
As a result, the translated word position for each phrase is as shown in FIG.
1st phrase
1,2,4,5,6,7,8,9,10,11,12
Second phrase
14
3rd phrase
16, 17, 18, 19, 20
It becomes.
[0057]
Since there is no translated word presenting the translated word position that needs to be corrected in the translated word for each phrase thus obtained, a translation for each phrase is constructed as follows.
First, the translation word position of the translation constituting the first phrase is determined by the column “translation word position” of phrase number 1 in the translation word position buffer 3h for each phrase shown in FIG.
1,2,4,5,6,7,8,9,10,11,12
And obtained. Next, from the translated word buffer 3e shown in FIG. 13, the translated word “it” at the translated word position 1 is obtained, and the translated word “ha” at the translated word position 2 is obtained. In the following, the translated words “them”, “o”, “creditor”, “no”, “line”, “no”, “end”, “ni” and “will be put” are obtained. And the character string obtained by connecting each translated word thus obtained in ascending order of translated word position
"It will put them at the end of the creditor's line"
Is stored in the "translation phrase" column of phrase number 1 in the translation phrase buffer 3i, as shown in FIG.
Similarly, the translated word “and” that makes up the second phrase and the translated words “it”, “to”, “probably”, “to state” and “do” that make up the third phrase The character string obtained by connecting the obtained translated words in ascending order of the translated word positions is stored in the “translated phrase” column of the corresponding phrase number in the translated phrase buffer 3i. As a result, as shown in FIG. 18, a translation for each phrase is constructed.
... Steps S9, S10
[0058]
When the translated phrases for each phrase of the original sentence are obtained as described above, the output format shaping unit 2B aligns the positions of the original phrase and the translated phrase head as shown in FIG. Is displayed.
... Steps S11 and S12
[0059]
Thus, in the present embodiment, the target language generation unit 2d of the translation module 2A is provided with the auxiliary verb sentence translation method determining means 13, the auxiliary verb detection means 14, the parallel clause detection means 15, and the auxiliary verb translation generation means 18. Further, the main memory 3 is provided with an auxiliary verb buffer 3k for storing auxiliary verb codes of auxiliary verbs detected for each clause by the auxiliary verb detecting means 14. Then, when the original text in which the parallel clause including the auxiliary verb exists is input to the input unit 1, the target language generation unit 2d sets the end of the translation of each clause constituting the parallel clause to the final form corresponding to the auxiliary verb. A modified target language is generated.
Therefore, the original text with parallel clauses containing auxiliary verbs
"It would push them to the end of the creditors' line
and make it unlikely. ''
The phrase translation result for
It would push them to the end of the creditors' line
It will put them at the end of the creditor line
and
And
make it unlikely.
Will make it unlikely
The effect of the auxiliary verb “would” will appear as “put in” for the translation of the first phrase, and the effect of the auxiliary verb “would” does not enter as the translation of the first phrase. Nature is eliminated.
[0060]
Next, the source text that has a structure that separates one section from another
"Keating is the subject of a class-action lawsuit alleging
they misled investors about the safety of junk bonds. ''
However, the phrase unit translation processing operation shown in FIG. 4 and FIG.
[0061]
Similar to the above-described original sentence, dictionary lookup / morpheme analysis processing, syntax analysis processing, and syntax conversion processing are performed. As a result, a structural analysis tree in English is obtained as shown in FIG.
... Steps S1-S4
Next, since there are no parallel clauses in the original sentence, the translated words are arranged in the order of the original words in the converted Japanese structure analysis tree, and the translated words of the original sentences are determined. The determined translated word is stored in the translated word buffer 3e as shown in FIG. Further, the original / translated word correspondence information buffer 3f stores the original / translated word correspondence information as shown in FIG.
... Step S5
[0062]
Next, for the node “main clause (16)” in the structure analysis tree before conversion as shown in FIG.
Phrase division rule 2
Separate the parts that are grouped at the nodes of the "main section"
Applies. Here, the part grouped by node “main node” with node number “16”
"They misled investors about the safety of junk bonds"
Therefore, the original text is divided between the word “alleging” and the word “they”.
Then, the word positions “1” and “10” in the original sentence of the first word of each phrase divided in this way are shown in FIG. 23 together with the number of the phrase division rule applied at the time of phrase division determination. It is stored in the division position buffer 3g.
... Step S6
[0063]
Next, referring to the column of “word position” in the division position buffer 3g as shown in FIG. 23 and the original word / translation word correspondence information buffer 3f as shown in FIG. 22, the translated word constituting each phrase in the original sentence is referred to. The translated word position is obtained. Further, the translated word position of the translated word whose translated word position is not stored in the translated word position buffer 3h for each phrase is determined. Thus, the translated word position for each phrase is determined as shown in FIG. 24 and stored in the translated word position buffer 3h for each phrase.
... Steps S7, S8
[0064]
Next, according to the correction rule memorize | stored in the other translation rule memory 4e of the memory | storage part 4 by the missing phrase detection means 21, the production | generation position correction means 23, and the auxiliary symbol production | generation means 24 in the said translation phrase construction part 2f, A determination as to whether correction is required for the translated word position and a correction operation are performed as follows.
The above amendment rule at that time is
(I) When all of the following determination rules (1), (2), and (3) are satisfied, the symbol “˜” and the translated word at the end of phrase b are generated at a discontinuous portion of phrase a.
(1) There are discontinuous parts in the translated word positions of the translated words that form a phrase a, and all the translated word positions of the translated words that form the other phrases b are one in the phrase a. Enter a discontinuous spot.
(2) The phrase division rule applied when dividing the phrase b is rule number 2.
(3) There is no original word corresponding to the translated word at the end of phrase b.
It is.
[0065]
First, in the first phrase stored in the translated word correspondence information buffer 3h for each phrase shown in FIG. 24 by the above-described missing phrase detecting means 21, each translated word position is a translated word position after sorting. Since the translated word position “15” is located next to the translated word position “2”, it is detected that this location is a discontinuous location. In addition, it is detected that all the translation words (translation word positions 4 to 14) belonging to the second phrase enter this discontinuous portion. Therefore, judgment rule (1)
“There is a discontinuous part in the translated word position of the translated word that forms a phrase a, and all the translated word positions of the translated word that forms another phrase b are one discrete in the phrase a. Enter in place "
Is determined to be satisfied.
Further, the content of the division position buffer 3g shown in FIG. 23 is referred to, and the application rule number at the time of phrase division relating to the second phrase is “2”. Therefore, decision rule (2)
“The phrase division rule applied when dividing phrase b is rule number 2.”
Is determined to be satisfied.
Also, the translated word position of the translated word at the end of the second phrase is “14”, but referring to the original / translated word correspondence information buffer 3 f shown in FIG. 22, the translated word position corresponds to the translated word at the translated word position 14. It can be seen that there are no source language words. Therefore, decision rule (3)
“There is no source word corresponding to the translated word at the end of phrase b”
Is determined to be satisfied.
That is, since the original text satisfies all the determination rules (1), (2), and (3), it is determined that the content of the translated word position buffer 3h for each phrase needs to be corrected.
[0066]
Then, according to the correction rule (I), the translated word “to” at the translated word position 14 located at the end of the second phrase is a translated word that is a discontinuous part in the first phrase. It is moved before the translated word “assert” at position 15. That is, in the present embodiment, the attached word generating means in claim 4 is realized by the attached word generating means 17 of the target language generating section 2d and the generation position correcting means 23 of the translated phrase constructing section 2f. Furthermore, the symbol “˜” is generated before the translated word “to” at the discontinuous portion of the first phrase by the auxiliary symbol generating means 24 of the translated phrase constructing unit 2 f.
As a result, the contents of the translated word position buffer 3h for each phrase change as shown in FIG. Here, the translated word position “−100” means the translated word position of the translated word “˜”. Further, when the value of the translated word position is a negative number, the translated word stored in the auxiliary translated word table memory 4d of the storage unit 4 is used instead of using the translated word stored in the translated word buffer 3e. It is meant to be used. In the case of this example, referring to the auxiliary translation word table in the auxiliary translation word table memory 4d as shown in FIG. 26, the translation (symbol) “˜” whose code is “−100” is obtained.
... Step S9
[0067]
Then, based on the contents of the translated word position buffer 3h for each phrase, the translated word buffer 3e and the auxiliary translated word table are referred to, and a translation for each phrase is constructed. As shown in FIG. Stored. Then, the head positions of the original sentence phrase and the translated sentence phrase are aligned and displayed as shown in FIG.
... Steps S10-S12
[0068]
Thus, in the present embodiment, the translation word position correction rule (I) is stored in the other translation rule memory 4e of the storage unit 4. Then, the blank phrase detection means 21 in the translated phrase construction unit 2f satisfies all of the determination rules (1), (2) and (3), so that the contents of the translated word position buffer 3h for each phrase are corrected. If it is determined that it is necessary, the translated word that is the translated word located at the end of the second phrase according to the modified rule (I) by the generated position correcting means 23 and the auxiliary symbol generating means 24 of the translated phrase building unit 2f. The symbol “˜” is added in front of the translated word “to” at the position 14, and the translated word “insist” at the translated word position 15, which is a discontinuous portion in the first phrase, is moved.
[0069]
Therefore, according to the present embodiment, the original text having a structure in which one section is separated from another section so that it is completely removed.
"Keating is the subject of a class-action lawsuit alleging
they misled investors about the safety of junk bonds. ''
The phrase translation result of
Keating is the subject of a class-action lawsuit alleging
Keating is the subject of a class action claiming that
they misled investors about the safety of junk bonds.
They misled investors about the safety of junk bonds
It is easy to understand that it has a sentence structure that is separated from the place of “~” in the first phrase so that the second phrase that is the case element of the sentence is completely removed, and Each translated phrase is easy to read.
[0070]
Next, the original with a relative clause that would cause the case element to be missing when separated
"The plan was opposed by some of top executives
who invested in the company's securities. ''
However, the phrase unit translation processing operation shown in FIG. 4 and FIG.
[0071]
In the same manner as described above, dictionary lookup / morpheme analysis processing, syntax analysis processing, and syntax conversion processing are performed. As a result, a structural analysis tree in English is obtained as shown in FIG.
... Steps S1-S4
Next, since there are no parallel clauses in the original sentence, the translated words are arranged in the order of the original words in the converted Japanese structure analysis tree, and the translated words of the original sentences are determined. Then, the determined translation is stored in the translation buffer 3e as shown in FIG. Further, the original / translated word correspondence information buffer 3f stores the original / translated word correspondence information as shown in FIG.
... Step S5
[0072]
Next, for the node “relative pronoun (15)” and the node “subject missing main clause (16)” in the structure analysis tree before conversion shown in FIG.
Phrase division rule 5
If there is a contact point of “relative” right next to the node of “main clause lacking case element”, put together the contact point of “relative” and the contact point of “main clause lacking case element” Separate as a single phrase
Applies. Here, the part where the node “relative pronoun” of the node number “15” and the node “subject missing main node” of the node number “16” are combined is
"Who invested in the company'securities"
Therefore, the original text is divided between the word “executives” and the word “who”.
Then, the word positions “1” and “10” in the original sentence of the first word of each phrase divided in this way are shown in FIG. 32 together with the number of the phrase division rule applied at the time of phrase division determination. As shown, it is stored in the division position buffer 3g.
... Step S6
[0073]
Next, referring to the “word position” column in the division position buffer 3g as shown in FIG. 32 and the original word / translation word correspondence information buffer 3f as shown in FIG. 31, the translated words constituting each phrase in the original sentence are referred to. The translated word position is obtained. Further, the translated word position of the translated word whose translated word position is not stored in the translated word position buffer 3h for each phrase is determined. Thus, the translated word position for each phrase is determined as shown in FIG. 33 and stored in the translated word position buffer 3h for each phrase.
... Steps S7, S8
[0074]
Next, other translations in the storage unit 4 are performed by the relative clause detection unit 22, the generation position correction unit 23, the auxiliary modifier generation unit 25, the antecedent acquisition unit 26, and the postfix generation unit 27 in the translated phrase construction unit 2f. In accordance with the correction rules stored in the rule memory 4e, whether or not each translated word position needs to be corrected is determined and corrected as follows.
The above amendment rule at that time is
(II) If all the following judgment rules (4) and (5) are satisfied, the word corresponding to the antecedent of the relative in phrase a is obtained from the immediately preceding phrase, and an appropriate modifier for that word is obtained. At the same time, it is generated at the missing position of phrase a.
(4) The rule division rule applied when dividing a certain phrase a is rule number 5.
(5) There is a “main clause” in which the case element is missing in phrase a.
It is.
[0075]
First, the content of the division position buffer 3g shown in FIG. 32 is referred to by the relative clause detection means 22, and the application rule number at the time of phrase division relating to the second phrase is “5”. )
“The rule division rule applied when dividing a phrase a is rule number 5.”
Is determined to be satisfied.
In addition, referring to the structural analysis tree before conversion shown in FIG. 29, it can be seen that the second phrase has a node “subject missing main clause (16)” which is a main clause with a missing case element. Therefore, judgment rule (5)
“There is a“ main clause ”with missing case elements in phrase a”
Is determined to be satisfied.
That is, since the original text satisfies all the determination rules (4) and (5), it is determined that the content of the translated word position buffer 3h for each phrase needs to be corrected.
[0076]
Then, the antecedent acquisition means 26 searches for the antecedent of the relative pronoun “who” in the second phrase in the first phrase according to the correction rule (II), and the noun “executives” is the target. Is determined to be an antecedent of Further, since the noun “executives” is the word whose original word position is “9” in the original text, the antecedent is referred to by referring to the original word / translation word correspondence information buffer 3f shown in FIG. 31 and the translated word buffer 3e shown in FIG. As a translated word corresponding to the word “executives”, “executive” whose translated word position is “11” is obtained. Then, by the generation position correcting means 23 of the translated phrase building unit 2f, the translated word “stem” of the translated word number 11 among the translated words belonging to the phrase number 2 in the translated word position buffer 3h for each phrase shown in FIG. Is added.
[0077]
At that time, it is necessary to determine the generation position of the translated word “executive” in the second phrase. This is based on the case grammatical viewpoint, as in the case of normal translated word generation. Determined by 2d.
Here, in the present embodiment, it is assumed that the generation position of the case element of the sentence is described in the verb dictionary. And in the case of the original text, the central verb of the clause forming the second phrase is “invested”, and the syntax of the clause is
Subject + verb + preposition verb
Is a deformed form (the subject is missing). This has already been determined by the syntax analysis unit 2b as shown in FIG. The translation of the word “invest” is also determined based on the result of this parsing process.
[0078]
FIG. 34 is a conceptual diagram of data relating to the translated word “invest” selected in the original sentence in the original word “invest” stored in the dictionary data memory 4 a in the storage unit 4. “First case” in FIG. 34 is the “subject” of the case in the original sentence, and “second case” in FIG. 34 is the “preposition phrase” in the case in the original sentence. It is assumed that the standard generation position of the first case at the time of Japanese generation is designated as “first”.
Then, since the translated word “stem” acquired by the antecedent acquiring unit 26 is a “subject” with respect to the original word “invested”, the generation position correcting unit 23 converts the translated word “stem” into the second phrase. It is generated as a translation of the relative pronoun “who” at the first position.
That is, in the present embodiment, the relative term translation generation unit in claim 1 is realized by the generation position correction means 23.
[0079]
Japanese case elements include postfix words such as case particles. Information for generating the postfix is also stored in the dictionary data memory 4a. Therefore, the postfix word generating means 27 obtains the first case name “acting subject” of the verb “invest” from the dictionary data memory 4a shown in FIG. 34, and the postfix word of the storage unit 4 as shown in FIG. Referring to the postfix word generation information stored in the table memory 4c, the case name is “acting subject” and the clause including the case (the clause forming the second phrase) is the main clause. “Ha” is generated as a postscript of the translated word “executive”.
Further, the modifier of the translated word “senior” is determined by the auxiliary modifier generation means 25 of the translated phrase construction unit 2 f as follows.
That is, the translated word “executive” is a noun because it is a noun. Therefore, by referring to the information stored in the auxiliary translation table memory 4d of the storage unit 4 as shown in FIG. 26, “that” defined as the modifier of the body is selected, and the generation position is the translation word Set immediately before “Executive”.
[0080]
As a result, the contents of the translated word position buffer 3h for each phrase are as shown in FIG. If the value of the translated word position is a negative number, the translated word stored in the translated word buffer 3e is not used, but the postfix table memory 4c (FIG. 35) and the auxiliary translated word table stored in the storage unit 4. Referring to the memory 4d (FIG. 26), the code “−101” generates the translated word “that”, and the code “−1” means that the translated word “ha” should be generated.
... Step S9
[0081]
Based on the contents of the translated word position buffer 3h for each phrase, the translated word buffer 3e (FIG. 30), the postfix word table memory 4c (FIG. 35), and the auxiliary translated word table memory 4d (FIG. 26) are referred to. A translation for each phrase is constructed and stored in the translated phrase buffer 3i as shown in FIG. Then, the head positions of the original sentence phrase and the translated sentence phrase are aligned and displayed as shown in FIG.
... Steps S10-S12
[0082]
Thus, in the present embodiment, the translation word position correction rule (II) is stored in the other translation rule memory 4e of the storage unit 4. Then, the related clause detection means 22 in the translated phrase construction unit 2f satisfies all of the determination rules (4) and (5), so that it is determined that the content of the translated word position buffer 3h for each phrase needs to be corrected. Then, the antecedent acquisition means 26 of the translated phrase construction unit 2f follows the correction rule (II) and the word “executives” that is the antecedent of the relative pronoun “who” in the second phrase and the translated word “ "Executive" get. Then, a translation word “stem” is generated among the translation words belonging to phrase number 2 by the generation position correction means 23 of the translated phrase construction section 2 f, and further, the auxiliary modifier generation means 25 and the postfix word generation means 27 The modifier “that” and the postfix “ha” are generated and added to the translated word “executive” which is a relative translation.
[0083]
Therefore, according to the present embodiment, the original text having a relative clause that causes the case element to be lost when separated.
"The plan was opposed by some of top executives
who invested in the company's securities. ''
The phrase translation result of
The plan was opposed by some of top executives
The plan was opposed by some top executives
who invested in the company's securities.
The executive invested in company securities
The case element “is its executive” missing from the second phrase is supplemented so that the second phrase, which is a related clause, can be read easily.
[0084]
Note that the algorithm of the phrase unit translation processing operation in the present embodiment is not limited to the flowcharts shown in FIGS.
[0085]
【The invention's effect】
As is clear from the above, the machine translation device of the invention according to claim 1 and the machine translation method of the invention according to claim 5 detect the related clauses that are separated and lack each element by the related clause detection means, A predecessor of a relative clause in a relative clause is acquired by an antecedent acquisition unit, a translation of the antecedent is obtained by a relative term translation generation unit, and a plurality of words constituting the relative clause stored in the nodal translation storage unit Is generated at the position of the missing case element in the translated word, as a translated word of the relative word, so that the relative word is separated in the translated word string of the relative clause that is separated at the position determined by the division position determining means and missing the case element. It is possible to obtain a translation result in which the translation of the antecedent is inserted as a translation.
[0086]
Therefore, the original text with a relative clause that would lose the case element when separated
"The plan was opposed by some of top executives
who invested in the company's securities. ''
The phrase translation result for
"The plan was opposed by some of top executives
The plan was opposed by some top executives
who invested in the company's securities.
The executive invested in company securities. ''
It is obtained as follows.
That is, according to the present invention, the missing case element in the relative clause is compensated, and a translation result that is very easy to understand even when read alone is obtained.
[0087]
Moreover, since the machine translation apparatus of the invention according to claim 3 has a postfix generating unit that generates a postfix immediately after the translation of the relative term generated by the relative term translation generating unit, You can get translation results of relative clauses that are very easy to understand by reading alone.
[0088]
In addition, the invention according to claim 4 Mysterious Since the machine translation device has auxiliary modifier generation means for generating a modifier relating to the translation of the relative phrase generated by the relative translation generation means, the relative clause in which the translation of the relative phrase is generated Can be further improved.
[Brief description of the drawings]
FIG. 1 is a block diagram of a machine translation apparatus according to the present invention.
FIG. 2 is a detailed configuration diagram of a target language generation unit in FIG. 1;
FIG. 3 is a detailed configuration diagram of a translated phrase construction unit in FIG. 1;
4 is a flowchart of phrase unit translation processing operation executed under the control of the control unit in FIG. 1;
FIG. 5 is a flowchart of a target language generation subroutine executed in the phrase unit translation processing operation shown in FIG. 4;
FIG. 6 is an explanatory diagram of an analysis level by machine translation.
FIG. 7 is a conceptual diagram showing an example of the contents of an original text buffer in FIG.
FIG. 8 is a diagram illustrating an example of a phrase division rule.
FIG. 9 is a conceptual diagram illustrating an example of a parse tree before conversion.
FIG. 10 is a conceptual diagram illustrating an example of a parse tree after conversion.
11 is a conceptual diagram showing an example of the contents of an auxiliary verb code table memory in FIG. 1. FIG.
12 is a conceptual diagram showing an example of the contents of an auxiliary verb buffer in FIG. 1. FIG.
13 is a conceptual diagram showing an example of the contents of a translated word buffer in FIG. 1. FIG.
FIG. 14 is a conceptual diagram showing the contents of a translated word buffer corresponding to FIG. 13 when a phrase translation is not commanded.
15 is a conceptual diagram showing an example of the contents of an original word / translation word correspondence information buffer in FIG. 1; FIG.
16 is a conceptual diagram illustrating an example of contents of a division position buffer in FIG. 1. FIG.
FIG. 17 is a conceptual diagram illustrating an example of the contents of a translated word position buffer for each phrase in FIG. 1;
18 is a conceptual diagram showing an example of the contents of a translated phrase buffer in FIG. 1. FIG.
FIG. 19 is a diagram illustrating a display example of a phrase translation result.
FIG. 20 is a conceptual diagram of a parse tree before conversion different from FIG. 9;
FIG. 21 is a conceptual diagram showing the contents of a translated word buffer different from FIG. 13;
FIG. 22 is a conceptual diagram showing the contents of an original / translation word correspondence information buffer different from FIG. 15;
FIG. 23 is a conceptual diagram showing the contents of a division position buffer different from FIG.
FIG. 24 is a conceptual diagram showing the contents of a translated word position buffer for each phrase different from FIG. 17;
25 is a conceptual diagram showing the contents of a translated word position buffer for each phrase after correction is made to FIG. 24. FIG.
FIG. 26 is a conceptual diagram showing an example of the contents of an auxiliary translation word table memory in FIG. 1;
FIG. 27 is a conceptual diagram showing the contents of a translation phrase buffer different from FIG.
FIG. 28 is a diagram showing a display example of phrase translation results different from FIG.
29 is a conceptual diagram of a parse tree before conversion different from FIGS. 9 and 20. FIG.
30 is a conceptual diagram showing the contents of a translated word buffer different from those in FIGS. 13 and 21. FIG.
31 is a conceptual diagram showing the contents of an original / translation word correspondence information buffer different from those in FIGS. 15 and 22. FIG.
32 is a conceptual diagram showing the contents of a division position buffer different from those shown in FIGS. 16 and 23. FIG.
33 is a conceptual diagram showing the contents of a translated word position buffer for each phrase different from those in FIGS. 17 and 24. FIG.
34 is a conceptual diagram showing a part of the dictionary memory in FIG. 1;
FIG. 35 is a conceptual diagram showing an example of the contents of a postfix word table memory in FIG. 1;
36 is a conceptual diagram showing the contents of a translated word position buffer for each phrase different from those in FIGS. 17 and 24. FIG.
FIG. 37 is a conceptual diagram showing the contents of a translation phrase buffer different from those shown in FIGS. 18 and 27.
38 is a diagram showing a display example of phrase translation results different from those in FIGS. 19 and 28. FIG.
[Explanation of symbols]
1 ... input unit, 2 ... translation control unit,
2A ... Translation module, 2a ... Dictionary lookup / morpheme analysis unit,
2b ... syntax analysis part, 2c ... syntax conversion part,
2d: target language generation unit, 2e: division position determination unit,
2f ... Translated phrase construction part, 3 ... Main memory,
3c: syntax buffer before conversion, 3d: syntax buffer after conversion,
3e ... translated word buffer, 3f ... original / translated word correspondence information buffer,
3g: Split position buffer,
3h ... translated word position buffer for each phrase,
3i ... translation phrase buffer, 3k ... auxiliary verb buffer,
4 ... storage unit, 4a ... dictionary memory,
4c: Postfix table memory, 4d: Auxiliary translation table memory,
4g ... auxiliary verb code table memory, 5 ... output section,
6 ... control unit, 11 ... tree structure tracing means,
13 ... Auxiliary verb translation method determining means, 14 ... Auxiliary verb detecting means,
15 ... Parallel clause detection means, 18 ... Auxiliary verb translation generation means,
21 ... A missing phrase detecting means, 22 ... A related clause detecting means,
23 ... Generation position correcting means, 24 ... Auxiliary symbol generating means,
25 ... auxiliary modifier generation means, 26 ... antecedent acquisition means,
27: Postfix word generation means.

Claims (5)

原語単語から構成される入力原文の訳語単語列を生成する言語生成手段と、
上記入力原文を句または節に分割する位置を決定する分割位置決定手段と、
上記分割位置決定手段によって決定された位置で分割された節を構成する各単語の訳語を、上記言語生成手段による生成結果から取得し、節毎に且つ単語単位で格納する節訳語格納手段と、
上記分割位置決定手段によって決定された位置で分割された節であって、格要素が欠落した関係節を、分割規則に従って検出する関係節検出手段と、
上記関係節検出手段によって検出された関係節における関係詞の先行詞を、入力原文の原語単語から取得する先行詞取得手段と、
上記先行詞取得手段によって得られた上記先行詞の訳語を、上記節訳語格納手段から取得し、上記節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に、当該関係詞の訳語として生成する関係詞訳生成手段と
を備えたことを特徴とする機械翻訳装置。
Language generation means for generating a translated word string of the input source text composed of source language words;
Division position determining means for determining a position at which the input original is divided into phrases or clauses;
A translated word storage means for acquiring the translation of each word constituting the clause divided at the position determined by the divided position determining means from the generation result by the language generating means, and storing the translated word for each clause and in units of words;
Related clause detection means for detecting a clause that has been divided at the position determined by the division position determination means and is missing a case element according to a division rule ;
An antecedent acquisition unit for acquiring an antecedent of a relative in a relative clause detected by the relative clause detection unit;
The translation of the antecedent obtained by the antecedent acquisition means is acquired from the noun translation storage means, and the missing words in the translations of a plurality of words constituting the relevant clause stored in the nodal translation storage means A machine translation device comprising: a relative translation generation means for generating a translation of the relative verb at the position of the case element.
請求項1に記載の機械翻訳装置において、
上記関係詞訳生成手段によって上記節訳語格納手段における当該関係節を構成する複数の単語の訳語中に生成された当該関係詞の訳語と、上記節訳語格納手段に格納されている当該関係詞の先行詞を含む節における当該先行詞の訳語とは、同じであることを特徴とする機械翻訳装置。
The machine translation device according to claim 1,
A translation of the relative verb generated in the translation of a plurality of words constituting the relative clause in the relative translation storage unit by the relative translation generation unit, and the relative verb stored in the clause translation storage unit A machine translation device characterized in that the translated word of the antecedent in a clause including the antecedent is the same.
請求項1あるいは請求項2に記載の機械翻訳装置において、
上記関係詞訳生成手段によって生成された当該関係詞の訳語の直後に、当該関係詞の訳語の格を表す後置語を生成する後置語生成手段を備えたことを特徴とする機械翻訳装置。
In the machine translation device according to claim 1 or 2,
A machine translation apparatus comprising postfix word generating means for generating a postfix representing the case of the relative word translation immediately after the relative word translation generated by the relative translation generation means .
請求項1乃至請求項3の何れか一つに記載の機械翻訳装置において、
上記関係詞訳生成手段によって生成された当該関係詞の訳語に係る修飾語を生成して、当該関係詞の訳語が生成された節の可読性を向上させる補助修飾語生成手段を備えたことを特徴とする機械翻訳装置。
The machine translation device according to any one of claims 1 to 3,
The apparatus further comprises auxiliary modifier generation means for generating a modifier related to the translation of the relative verb generated by the relative translation generation means and improving the readability of the clause in which the translation of the relative is generated. A machine translation device.
言語生成手段で、原語単語から構成される入力原文の訳語単語列を生成する言語生成ステップと、
分割位置決定手段で、上記入力原文を句または節に分割する位置を決定する分割位置決定ステップと、
上記分割位置決定手段によって決定された位置で分割された節を構成する各単語の訳語を、上記言語生成手段による生成結果から取得し、節毎に且つ単語単位で節訳語格納手段に格納する節訳語格納ステップと、
関係節検出手段で、上記分割位置決定手段によって決定された位置で分割された節であって格要素が欠落した関係節を、分割規則に従って検出する関係節検出ステップと、
先行詞取得手段で、上記関係節検出手段によって検出された関係節における関係詞の先行詞を、入力原文の原語単語から取得する先行詞取得ステップと、
関係詞訳生成手段で、上記先行詞取得手段によって得られた上記先行詞の訳語を、上記節訳語格納手段から取得し、上記節訳語格納手段に格納された当該関係節を構成する複数の単語の訳語中における上記欠落した格要素の位置に、当該関係詞の訳語として生成する関係詞訳生成ステップ
を備えたことを特徴とする機械翻訳方法。
A language generation step of generating a translated word string of an input original composed of source language words by a language generation means;
A division position determination step for determining a position at which the input original text is divided into phrases or clauses by a division position determination means;
The translation of each word constituting the clause divided at the position determined by the division position determination means is obtained from the generation result by the language generation means, and is stored in the phrase translation storage means for each clause and in units of words. A translation storage step;
A relative clause detection step of detecting a relative clause, which is a clause divided by the division position determination means and lacking a case element , according to a division rule, by a relative clause detection means;
An antecedent acquisition means for acquiring an antecedent of a relative in the relative clause detected by the relative clause detection means by an antecedent acquisition means;
A plurality of words constituting the related clause stored in the noun translation word storage means obtained by the noun translation generation means, obtained from the noun translation word storage means, obtained by the antecedent acquisition means. A machine translation method, comprising: a relative translation generation step for generating a translated word of the relative verb at the position of the missing case element in the translated word.
JP2002316339A 2002-10-30 2002-10-30 Machine translation apparatus and machine translation method Expired - Fee Related JP4531325B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002316339A JP4531325B2 (en) 2002-10-30 2002-10-30 Machine translation apparatus and machine translation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002316339A JP4531325B2 (en) 2002-10-30 2002-10-30 Machine translation apparatus and machine translation method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP7353550A Division JPH09185626A (en) 1995-12-29 1995-12-29 Machine translation device

Publications (2)

Publication Number Publication Date
JP2003178064A JP2003178064A (en) 2003-06-27
JP4531325B2 true JP4531325B2 (en) 2010-08-25

Family

ID=19197531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002316339A Expired - Fee Related JP4531325B2 (en) 2002-10-30 2002-10-30 Machine translation apparatus and machine translation method

Country Status (1)

Country Link
JP (1) JP4531325B2 (en)

Also Published As

Publication number Publication date
JP2003178064A (en) 2003-06-27

Similar Documents

Publication Publication Date Title
US5099425A (en) Method and apparatus for analyzing the semantics and syntax of a sentence or a phrase
US5005127A (en) System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
JP3220560B2 (en) Machine translation equipment
JPS62163173A (en) Mechanical translating device
JPH077419B2 (en) Abbreviated proper noun processing method in machine translation device
JPH04235672A (en) Translation machine
JP3680865B2 (en) Automatic natural language translation
JPH04235673A (en) Translation machine
JPH0344764A (en) Mechanical translation device
JP4531325B2 (en) Machine translation apparatus and machine translation method
Kempen et al. Author environments: Fifth generation text processors
JP4371080B2 (en) Natural language learning support apparatus and method
JP2632806B2 (en) Language analyzer
JPH09185626A (en) Machine translation device
JP6045948B2 (en) Machine translation apparatus and machine translation program
JP2719453B2 (en) Machine translation equipment
JP5331964B2 (en) Translation support device, translation support method, and translation support program
JP3233800B2 (en) Machine translation equipment
JP3253311B2 (en) Language processing apparatus and language processing method
JPH10269221A (en) Unregistered word processing system
JPH07129577A (en) Document proofreading supporting device
JPH05290083A (en) Document generation support device
JPH04235671A (en) Machine translation device
JPH06318226A (en) Machine translation device
JPH06332938A (en) Natural language analyzing device and machine translation device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060317

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060323

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060331

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100609

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees