JP4869281B2

JP4869281B2 - 機械翻訳装置、プログラム及び方法

Info

Publication number: JP4869281B2
Application number: JP2008102395A
Authority: JP
Inventors: 晶佐々木
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2008-04-10
Filing date: 2008-04-10
Publication date: 2012-02-08
Anticipated expiration: 2028-04-10
Also published as: JP2009252143A

Description

本発明は、第１言語の原文を第２言語の訳文に翻訳を行う機械翻訳装置、プログラム及び方法に関する。

コンピュータを利用して、第１言語（原言語）の文章を第２言語（目的言語）の文章に翻訳する機械翻訳装置においては、翻訳対象文書である原文文書の意図を的確に反映した訳文を生成することが非常に重要である。このような目的に対して、従来、以下の３つの方法が提案されてきた。

第１の方法は、原文文書の分野を自動推定し、その分野に適した訳語を翻訳時に使用するというものである。複数の分野にまたがる文書に関しても分野情報を利用して言語解析を行うようにしたものとして、原文文書から使用頻度の高い語及び関連性の高い語(共起関係にある語)を統計的手法を用いて抽出し、語と分野とをあらかじめ関連付けた対応表を使用して、原文文書の分野を推定するようにしたものがある（例えば、特許文献１参照）。これによって、原文文書中の特定の語に対して複数の訳語が存在する場合でも、原文文書の分野に適した訳語が選択され、原文の意味が訳文に正確に反映される。

第２の方法は、原文文書の丁寧度などの雰囲気を解析し、その雰囲気にあった表現方法を用いて訳文を作成するというものである。このようなものとしては、入力文の内容を分析して得られる対話の親密度に応じて、訳語や敬語を調整・変更するようにしたものがある（例えば、特許文献２参照）。例えば、原文文書で用いられる表現を解析して、解析結果から丁寧さよりも親密さを重視した表現の頻度が高いことが判明した場合は、訳文で使用する表現にも親密さを重視した、より口語的な表現を用いる。これによって、メール・チャットなどでは口語表現を採用し、論文・レポートなどでは硬い表現を使用するなど、原文の雰囲気を反映した訳文を作成することができる。

第３の方法は、翻訳を行った結果である訳文において、目的言語として不自然な構文が用いられている場合、より自然な訳文が生成できるように原文の構文を変換するというものである。このようなものとして、英日翻訳を対象とし、訳文である日本語文で無生物が主語になっている場合、変換のための翻訳規則に基づいて、原文である英文の構文を無生物を主語にしない構文に変換するようにしたものがある（例えば、特許文献３参照）。例えば、"A five-minute walk will take me to the station.”という英文は、英文の構文に忠実に翻訳すると「５分歩行は駅へ私を連れていく」という、無生物が主語となった不自然な日本語になってしまう。この英文を"If I have a five-minute walk, I will get to the station."と変換してから日本語に翻訳すると、「５分歩けば私は駅に着く」という日本語として自然な文が得られる。このような変換のための翻訳規則は、辞書に登録された動詞に事前に登録されているとしている。このようにして変換した原文を翻訳することで、目的言語としてより自然な構文の訳文を作成することができる。

このように、翻訳対象文書である原文文書の意図を的確に反映した訳文を生成するという目的に対して、従来の技術では、正確で文脈に即した用語の使用、文章の雰囲気にあった用語の選択、特に英日翻訳の訳文での無生物主語の回避が試みられてきた。
特開平０５−１３５０９４号公報特開２００３−２８８３３８号公報特開平５−４０７８２号公報

しかしながら、従来の技術が対象としていたのは、単語及び１文単位での文にとどまっているので、原文文書を構成する各文の関連性や段落及び文書全体レベルでの論理の流れなどを訳文に反映することはできない。すなわち、前述した従来の第１の方法によって原文の分野に適した訳語を使用し、従来の第２の方法によって原文の雰囲気を反映した言い回しを採用したとしても、これらの方法はあくまでも１文単位での表現形態に注目したものであるので、各文をつなぐ論理展開には注目していない。その結果、１文単位では正しい訳文になっていながら、全体として何を言いたいのかが非常に分かりにくい訳文文書が生成されてしまうという問題が発生することがある。

この問題は、原文文書が日本語である場合に特に顕著である。この理由について、日英翻訳の場合を例にして説明する。日本語として自然な表現を忠実に英文に翻訳すると、英文で多用される論理展開形式に則った英文にはならない場合がある。英文として分かりやすい論理展開は、多くの場合、段落のトピックワードとなるキーワードを主語としたトピックセンテンスを段落の最初に述べ、次の文において、トピックセンテンスの中で導入された概念を表す語、あるいはその関連語を主語として詳述していくスタイルをとる。副詞及び接続詞が文頭に来る場合や、発言を引用する場合などを除いて、主語は多くの場合文頭に位置する。従って、１つの段落内での各文の文頭の語を辿っていけば、文章の論理展開上重要な語であるキーワードのつながりが分かり、論理の展開が分かるようになっている。

一方、日本語として自然な表現を従来の方法で英文に翻訳した翻訳結果においては、上述した英文の自然な論理展開になっているとは限らない。これについて、以下説明する。いま、段落のトピックワードを「キーワード１」とし、次の文でキーワード１が原因となってある結果(キーワード２)が生じるという内容を記述する場合を例に挙げて説明する。この内容を英文で記述する場合は、”KEYWORD1 causes KEYWORD2.”というように、多くの場合、段落のトピックワードであるKEYWORD1を主語とする構文を採用し、その結果、KEYWORD 1は文頭に位置する。一方、この内容を日本語で表した文では、「キーワード１によってキーワード２が発生した」、「キーワード１を行ったので、キーワード２が発生した」というようになる。これらの文では、キーワード１が文頭に位置するのは英語の場合と同じだが、因果関係が副詞句、条件節などを用いて表されている。このような傾向を持つ日本語文を、日本語の構文をそのまま活かして英文に翻訳すると、翻訳結果の英文では”KEYWORD2 is caused by KEYWORD1.”、”KEYWORD2 occurred because KEYWORD1 was carried out.”というように、キーワード２の「結果」が主語となって文頭に位置し、キーワード１の「原因」は、副詞句、条件節の中に埋もれてしまう。その結果、KEYWORD1がトピックワードであることが分かりにくくなり、論理展開がわかりにくい英文となってしまう。

このような問題に対して、従来の技術による第３の方法を翻訳方向を変えて単純に適用したとしても、問題を解決することはできない。従来の技術による第３の方法は英日翻訳を対象としており、訳文である日本語文で無生物が主語とならないように、原文の構文を変換している。そこで、この考え方を日英翻訳に応用すると、無生物が主語である英文が生成できるように日本語原文を変換することになる。しかし、何を主語にすべきかを機械的に決めることはできない。

前述の例で言うと、英文として分かりやすい論理展開の文を作成するために、キーワード１とキーワード２とのどちらを主語、すなわち文書のトピックワードとすべきかに関して、翻訳対象の１文のみからは明確な判断基準が得られない。この判断を行うには、段落あるいは文書全体に関わる情報が別途必要となるからである。従って、論理展開がわかりやすい英文を得るという目的のために、従来の技術による第３の方法を翻訳方向を変えて単純に適用することはできない。

本発明の目的は、第１言語の原文の論理展開が第２言語の訳文として自然なスタイルで明確に表現された訳文を作成することができる機械翻訳装置、プログラム及び方法を提供することである。

本発明は、翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置を備えた機械翻訳装置において、前記機械翻訳装置は、入力装置から入力された第１言語の原文に対してユーザから指定された第１言語の語句を受け付ける主要キーワード指定部と、入力された原文全体に対して、前記主要キーワード指定部で指定された第１言語の語句またはその語句を含むフレーズの訳語が、翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行う翻訳部と、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を出力装置に出力処理する出力処理部とを備える。

本発明によれば、入力された第１言語の原文につき入力装置から論理展開上重要な語を指定すると、翻訳部は、指定された語またはその語を含むフレーズが文頭に最も近い位置に存在するように第２言語の訳文を生成するので、原文の論理展開上重要な語句が訳文においても論理展開上重要な位置に置かれる。このため、訳文の論理の展開が明確な訳文を作成することができ、原文の論理の展開が訳文言語として自然なスタイルで明確に表現された訳文となる。

以下、図面を参照しながら本発明の実施の形態を説明する。図１は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。機械翻訳装置１１は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置１２のプロセッサ１３において実行されることにより実現される。

演算制御装置１２は機械翻訳に関する各種演算を行うものであり、演算制御装置１２はプロセッサ１３とメモリ１４とを有し、メモリ１４には翻訳に関する機械翻訳プログラム１５が記憶され、プロセッサ１３により処理が実行される際には作業エリア１６が用いられる。演算制御装置１２の演算結果等は出力装置１７である表示装置１８に表示出力され、また、通信制御装置１９を介して通信ネットワークに出力される。

入力装置２０は演算制御装置１２に情報を入力するものであり、例えば、マウス２１、キーボード２２、ディスクドライブ２３、通信制御装置１９から構成され、例えば、マウス２１やキーボード２２は表示装置１８を介して演算制御装置１２に各種指令を入力し、キーボード２２、ディスクドライブ２３、通信制御装置１９は翻訳対象の文書を入力する。

すなわち、ディスクドライブ２３は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置１９は機械翻訳装置１１をインターネットやＬＡＮなどの通信ネットワークに接続するものである。通信制御装置１９はＬＡＮカードやモデムなどの装置であり、通信制御装置１９を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置１２に送受信される。さらに、演算制御装置１２の演算結果や翻訳に必要な知識情報・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ（ＨＤＤ）２４が設けられている。

図２は本発明の実施の形態に係わる機械翻訳装置１１の機能ブロック図である。図２に示す演算制御装置１２内の各機能ブロックは、上述の機械翻訳プログラム１５を構成する各プログラムに対応する。すなわち、プロセッサ１３が機械翻訳プログラム１５を構成する各プログラムを実行することで、演算制御装置１２は、各機能ブロックとして機能することとなる。

図２において、入力処理部２５は、入力装置２０から翻訳対象となる文書（以下、「原文文書」という）のデータ入力を受け付けるものである。例えば、原文文書は、ユーザ自身によりキーボード２２等から直接入力されたり、記憶媒体を介してディスクドライブ２３から入力される。なお、原文文書の入力方式については、これらに限定されるものではなく、任意の入力方式が選択可能である。

文分割部２６は、入力処理部２５で入力処理された原文文書を文単位に分割し作業エリア１６に格納するものである。１文単位で分割された文（以下、「原文」という）は、後述する制御部２７に受け渡され、同じく後述する翻訳部２８に送られて翻訳処理を受ける。

制御部２７は、後述する翻訳部２８、キーワード推定部２９、主要キーワード指定部３０を制御するものである。これらを制御することで、入力された翻訳対象文の翻訳を行うと共に、翻訳対象文のキーワード推定、ユーザが指定したキーワードの条件に基づく翻訳文生成の制御を行う。キーワード推定部２９は、原文文書のキーワードの自動推定を行うものであり、文書構造解析部２９ａ、キーワード推定処理部２９ｂから構成されている。ここでいうキーワードは、原文の論理展開に重要な役割を果たす語のことである。

翻訳部２８は、入力処理部２５で入力処理され文分割部２６によって１文単位に分割された原文の翻訳を、記憶装置３１に記憶された翻訳辞書部３２の基本辞書部３３や用例辞書部３４を参照しながら行うものである。翻訳辞書部３２の基本辞書部３３には、入力原文を第２言語の文に翻訳する際に必要な知識情報が格納されている。用例辞書部３４には原文と訳文の対訳をペアで登録した用例が格納されている。これらの知識情報は、翻訳部２８において翻訳時に参照される。

翻訳辞書部３２は、翻訳部２８の翻訳処理に必要な知識情報・規則を記憶しており、例えば、翻訳部２８が日英・英日双方向の翻訳処理を行うものとすると、翻訳辞書部３２は夫々の翻訳方向毎に、基本辞書部３３、用例辞書部３４を有している。基本辞書部３３は、語彙部３３ａ、形態素解析規則３３ｂ、構文・意味解析規則３３ｃ、変換規則３３ｄ、構文生成規則３３ｅ、形態素生成規則３３ｆからなる。基本辞書部３３の構成は以下の通りである。

（１）基本辞書部
（ａ）語彙部
少なくとも第１言語の語彙の各々についての活用情報、意味情報、分野情報、訳語情報、訳語毎の分野情報。
（ｂ）形態素解析規則
第１言語の入力文を形態素解析するための知識。
（ｃ）構文・意味解析規則
第１言語の入力文を形態素解析した後、構文的・意味的な解析を行うための知識。
（ｄ）変換規則
構文・意味解析された結果の第１言語の意味構造を第２言語の意味構造へ変換するための知識。
（ｅ）構文生成規則
第２言語の意味構造から第２言語の単語列を生成するための知識。
（ｆ）形態素生成規則
第２言語の語の活用を反映し、最終的な訳文を出力するための知識。

主要キーワード指定部３０は、ユーザが原文において入力装置２０から入力処理部２５を介して「主要キーワード」を指定する際に、その指定を受け付けるものである。ここでいう「主要キーワード」とは、原文の論理展開に重要な役割を果たし、かつ翻訳結果である訳文において、接続詞、修飾語、”He said that” などの発言を表す文字列などを除いて文頭に位置するべき語（原文及び訳文の双方）を指す。「主要キーワード」は、例えば入力装置２０のマウス２１等によるドラッグ操作によって指定される。

出力処理部３５は、翻訳部２８によって生成された翻訳の結果を出力装置１７に出力処理するものである。例えば、出力装置１７の表示装置１８に表示することで翻訳結果を出力処理する。しかし、これに限定されるものではなく、表示装置１８による出力に代え、あるいは、表示装置１８による出力に加えて音声により翻訳結果を出力処理するようにしても良い。

次に、本発明の実施の形態に係わる機械翻訳装置１１における翻訳処理について説明する。図３は、本発明の実施の形態に係わる機械翻訳装置１１の翻訳処理のフロー図である。本発明の実施の形態に係わる機械翻訳装置１１を用いて翻訳処理を行う場合、まず、ユーザから入力装置２０により入力された原文文書は、入力処理部２５から入力され受け付けられる（ステップＳ１１）。入力された原文文書は文分割部２６により、原文文書が１文単位に分割される（ステップＳ１２）。分割された各原文は、１文ごとに翻訳部２８に送られて一旦翻訳処理を受ける（ステップＳ１３）。

翻訳部２８では、翻訳辞書部３２の各種辞書を参照し翻訳処理を行う。翻訳処理の詳細については、原文の形態素解析処理、原文の構文・意味解析、原文言語から訳文言語への言語変換処理、原文の構文から訳文の構文への構文生成処理、訳文としての形態素生成処理を受けて、最終的な翻訳結果である英文が生成される、というステップを踏む。

すなわち、翻訳部２８は語彙部３３ａ及び形態素解析規則３３ｂを参照して、原文を言語で意味を持つ最小単位である形態素の単位に分割する。次に、構文・意味解析規則３３ｃを参照して、形態素に分割された原文の語の見出し語、訳語それぞれを構成する各語の構文・意味的な関係を解析する。構文・意味的な関係とは、例えば動詞とその目的語、前置詞とその目的語、意味上の主語と述語、修飾語と非修飾語などの関係を意味する。最後に、変換規則３３ｄ、構文生成規則３３ｅ及び形態素生成規則部３３ｆを参照して対応する英文を生成する。翻訳部２８での翻訳処理は、入力されたすべての原文について処理が終了するまで繰り返し実行される（ステップＳ１４）。

なお、以上の説明では、翻訳処理の一形態であるルール（翻訳規則）ベースの翻訳処理の内容について説明したが、本発明による翻訳形態は、ルールベースの翻訳処理に限定されるものではなく、例えば用例ベースの翻訳処理を採用することも可能である。なお、用例ベースの翻訳においては、原文と訳文の対訳をペアで登録した用例辞書部３４を用いて、翻訳対象の文と類似度の高い原文とを用例辞書部３４の中から検出し、その原文とペアになっている訳文を翻訳結果として出力する、という翻訳処理を行う。

入力されたすべての原文に対して翻訳処理が終了すると、制御部２７は翻訳結果を出力処理部３５を介して表示装置１８に表示する（Ｓ１５）。ユーザは表示装置１８に表示された翻訳結果である訳文を検討し、翻訳結果が満足であるかどうかを判断する（Ｓ１６）。翻訳結果に満足ならば処理は終了となり、満足でないならば、キーワード推定部２９での処理に進む。

キーワード推定部２９では、原文文書のキーワード推定が行われる（ステップＳ１７）。キーワード推定の方法には、例えば特開平８−４４７６３号公報で開示されているような既存の技術を利用することができる。キーワード推定に際しては、単語の出現頻度、共起情報などの統計情報、タグ付き文書においてはタグ情報、及び書式付文書においては書式情報などの文書構造情報、文章・段落中にて最初や最後に位置するなどの位置情報、接続詞などの文どうしの論理関係をあらわす文間情報、翻訳部２８での処理結果から得られる各文の構文・意味情報などの情報を用いる。これらの情報から、原文において論理展開上重要な語であるキーワードを推定する。なお、ここで説明したキーワード推定の手段はあくまでも一例であり、原文文書のキーワード推定をできるものであればいずれの手法を用いてもよい。

続いて、主要キーワード指定部３０において、キーワード推定部２９で推定されたキーワードをユーザは参考にして、ユーザが入力装置２０より「主要キーワード」の指定を行う（ステップＳ１８）。ここで指定する「主要キーワード」とは、前述したように、原文の論理展開に重要な役割を果たし、かつ翻訳結果である訳文において、接続詞、修飾語、”He said that” などの発言を表す文字列などを除いて文頭に位置するべき、原文及び訳文の双方の語である。続いて翻訳部２８において、前述した「主要キーワード」の条件を満たす英文の生成が試みられる（ステップＳ１９）。

すなわち、翻訳部２８での翻訳辞書部３２における基本辞書部３３の語彙部３３ａおよび変換規則３３ｄを用いた言語変換処理及び構文生成規則３３ｅを用いた構文生成処理において、言語変換及び英文構文生成の方法が複数種類ある場合には、翻訳部２８は、指定された「主要キーワード」が、できるだけ文頭に近い位置に存在するような方法を選択する。これら複数種類の処理方法は、基本辞書部３３に格納された各知識情報および種翻訳規則の組み合わせによって発生する。これらの規則としては、語彙ごとに特有な知識情報および変換規則が語彙部３３ａに、語彙には依存しない一般的な変換規則が変換規則３３ｄに、英文として正しい構文を生成するための規則が構文生成規則３３ｅに格納されている。これらの規則の中から、翻訳部２８によって主要キーワードが可能な限り文頭に近い位置に存在する条件に合った訳文を生成する翻訳規則が選択され、翻訳時にこれらの規則が優先的に用いられる。

一方、翻訳処理において用例ベースの翻訳処理を用いる場合には、翻訳部２８は、用例辞書部３４を参照し、訳文候補として挙がった英文用例の中から、主要キーワードが可能な限り文頭に近い位置に存在する条件に最も合致する英文用例の選択を行う。

制御部２７は主要キーワードが可能な限り文頭に近い位置に存在する条件に合った翻訳結果を出力処理部３５を介して表示装置１８に表示する（Ｓ２０）。ユーザは表示装置１８に表示された翻訳結果である英文を検討し、翻訳結果が満足であるかどうかを判断する（Ｓ２１）。翻訳結果に満足ならば処理は終了となり、満足でないならば主要キーワードを代えるかどうかを判断し（Ｓ２２）、主要キーワードを代える場合はステップＳ１８に戻り新たな主要キーワードを指定する。一方、主要キーワードを代えない場合は、規格翻訳による翻訳をあきらめ処理を終了する。

以下、図３に示す翻訳処理内容について具体例を参照して詳述する。いま、以下に示す３つの原文Ｓ１、Ｓ２、Ｓ３に対して、翻訳部２８において翻訳処理を行うものとする。なお、以下の説明では日英翻訳を一例にして説明するが、原文及び訳文言語はこれに限らず、言語特性の違いによって、原文の構文を活かした翻訳を行うと、訳文文書にて原文の論理展開が分かりにくくなるすべての言語に対して、本発明を適用することができる。

(原文)
Ｓ１：磁気ベアリングは航空宇宙産業向けの用途に開発されてきたが、ごく最近、エネルギー貯蔵システムの心臓部としての実現性が実証された。
Ｓ２：このようなブレイクスルーが見られた原因は、より強力な永久磁石が最近開発されたことにある。
Ｓ３：そのような磁石が１０ポンドあれば、２トンのローターを支持できる。

これらの原文の論理展開について説明する。これらの原文に対して、従来の方法で翻訳を行うと、翻訳結果はＴ１−ａ、Ｔ２−ａ、Ｔ３−ａとなる。

(従来の方法による翻訳結果)
T1-a. Although the magnetic bearing had been developed for aerospace and aircraft works, the implementability as a core of an energy storage system was proved very much recently.
T2-a. There is a cause by which such a breakthrough was seen in the more powerful permanent magnet having been developed recently.
T3-a. If there are 10 pounds of such magnets, a 2t rotor can be supported.
原文中の下線を引いた語は、論理展開上重要な語であり、かつ文頭に位置する語である。これらの語を辿ってみると、原文の論理展開を辿ることができる。一方、原文にて下線を引いた語の翻訳結果における文中の位置を見てみると、原文では各文の文頭にあった語が、訳文Ｔ２、Ｔ３では文中に埋もれてしまっている。その結果、訳文の英文は、１文単位で意味は通じるが、全体の論理の流れが英文として不明確になってしまっている。

従来の方法を用いると、翻訳結果にこのような問題があった、これに対し本発明では、以下で説明する処理を行って、論理展開が明確な英文を作成する。以下に、キーワード推定部２９により推定されたキーワードが表示された状態の原文を示す。推定されたキーワードを「」付の下線で示している。ここでいうキーワードとは、名詞、動詞などの自立語から構成される、一般的な意味でのキーワードである。

(原文：推定キーワードが表示された状態)
Ｓ１：「磁気ベアリング」は「航空宇宙産業」向けの用途に「開発」されてきたが、ごく最近、「エネルギー貯蔵システム」の「心臓部」としての「実現性」が実証された。
Ｓ２：このような「ブレイクスルー」が見られた原因は、より強力な「永久磁石」が最近「開発」されたことにある。
Ｓ３：そのような「磁石」が１０ポンドあれば、２トンの「ローター」を「支持」できる。

次に、「」付の下線の推定されたキーワードを参考にして、ユーザは原文の論理展開に重要な役割を果たし、かつ翻訳結果である訳文において、接続詞、修飾語、”He said that” などの発言を表す文字列などを除いて文頭に位置すべき語である「主要キーワード」を指定する。この一例では「ブレイクスルー」と「磁石」を指定したとする。以下に、原文Ｓ２、Ｓ３で「主要キーワード」が指定された状態を示す。指定された「主要キーワード」を［］付の下線で示す。

(原文：「主要キーワード」を指定した状態)
Ｓ２：このような［ブレイクスルー］が見られた原因は、より強力な永久磁石が最近開発されたことにある。
Ｓ３：そのような［磁石］が１０ポンドあれば、２トンのローターを支持できる。

この一例では、「このような」「そのような」というような修飾句は除いて指定したが、このような修飾句を一緒に指定してもかまわない。

このように「主要キーワード」を指定した原文に対して、指定した「主要キーワード」が最も文頭に近い位置に位置するような翻訳規則を翻訳辞書部３２の変換規則３３ｄ及び構文生成規則３３ｅから選択して、優先的に使用して翻訳を行った結果を以下に示す。具体的には、以下のT2-bでは、「（がみられた）原因は」という日本語を”The reason for 〜“ という英語ではなく、”〜 is due to” という英語に変換する規則が変換規則３３ｄから選択され、T3-bでは、「〜があれば」という日本語を”If there are〜”という英語ではなく、”〜 could” という英語構文を生成する規則を構文生成規則３３ｅから選択している。これによって以下の各文では、指定した主要キーワードは文頭に近い位置に存在し、英文として理解しやすい論理展開となっている。

(本発明による翻訳結果：「主要キーワード」指定後)
T2-b. [The breakthrough] is due to the recent development of stronger permanent magnets.
T3-b. Only ten pounds of [such magnets] could support two tons of rotor.
以上まとめると、本発明による機械翻訳装置においては、ユーザが原文において指定した語またはその語を含むフレーズ（ここでは「ブレイクスルー」）ができるだけ文頭に近い位置に存在するような訳文の生成方法を選択する。例えば、以下の表１に挙げたような翻訳結果候補１〜４があった場合、本発明による機械翻訳装置では、ユーザが原文において指定した語（ブレイクスルー）が最も文頭に近い位置に存在する訳文（翻訳結果候補２）が翻訳結果となるように訳文の生成方法を選択する。

なお、ユーザが原文において指定した語が文頭に近い位置に存在する訳文である翻訳結果候補２が何らかの理由で生成できない場合には、翻訳部２８は、指定した語を含むフレーズが最も文頭に近い訳文を選択する。表１で示した一例では、翻訳結果候補３、４がこれに相当する。翻訳結果候補３、４では、原文において指定した語（ブレイクスルー）が文頭から同じ位置に存在する。この場合は、原文において指定した語を含むフレーズが主語となっている場合に、翻訳部２８は、主語の語数が少ない翻訳結果候補を選択する。ここでは、訳文結果候補３の主語は”The reason why such a breakthrough was seen”であり、訳文結果候補４の主語は”The cause of such a breakthrough”であり、訳文結果候補４の主語の語数が訳文結果候補３の主語の語数より少ないので、翻訳結果候補４を生成することになる。

以上の説明は、原文を一旦翻訳した後にキーワード推定部２９でキーワードの推定を行い、ユーザが入力装置２０で推定されたキーワードの中から「主要キーワード」を指定して再度翻訳を行うようにしたが、最初からキーワードの自動推定を行い、最も文頭に近いキーワードをデフォルトで「主要キーワード」とし、訳文を生成するような翻訳モードを翻訳部２８に設けることもできる。

このような翻訳モードによって、必ずしも論理展開が明確な訳文が作成できるとは限らないが、情報は既知のものから未知のものという順で提示される場合が多いことを考慮すると、文頭に近いキーワードが前の文の内容を受けた「主要キーワード」である可能性は比較的高いと考えられるため、デフォルトモードとしての価値は高いと考えられる。もちろん、デフォルトの「主要キーワード」をユーザが指定し直して再度翻訳することもできる。また、キーワード推定部２９を省略し、原文を入力した後に、ユーザがその原文に対して、入力装置２０から「主要キーワード」語句を指定し翻訳するようにしてもよい。この場合は、図３のステップＳ１１の後に、主要キーワードの語句を指定するステップを設け、ステップＳ１６〜ステップＳ２０を省略することになる。

次に、原文Ｓ２，訳文Ｔ２−ａ，Ｔ２−ｂを一例に用いて、翻訳部２８で行われる各処理の詳細について説明する。なお、ここで行っている処理はルールベースの翻訳処理の一例である。

図４は、本発明の実施の形態に係わる機械翻訳装置の翻訳処理（図３のステップＳ１３）における形態素解析・構文解析の結果として得られる木構造を示す説明図である。入力された原文は、原文Ｓ２の「このようなブレイクスルーが見られた原因は、より強力な永久磁石が最近開発されたことにある。」である。図４の木構造では、文を構成する自立語（ノード）と、各自立語間の構文及び意味上の関係（リンク）が明示されている。なお、簡潔のため、キーワード以外の語に関するリンクを適宜省略した形で書いている。なお、強調表示してあるノードとリンクは、後述の図６を説明する際に用いる。

図５は、図４に示した原文の構文及び意味上の関係をできるだけ忠実に反映して、翻訳処理（図３のステップＳ１３）における言語変換処理及び構文生成処理を行った結果得られた木構造を示す説明図である。この構文では、「breakthrough」は「see」の目的語となっており、日本語の構文がほぼそのまま英文の構文に変換されている。

図６は、図４の原文において「ブレイクスルー」をキーワードとして指定して翻訳処理（図３のステップＳ１９）における言語変換処理及び構文生成処理を行った結果得られた木構造を示す説明図である。ここで優先された言語変換及び構文生成の規則を図７を用いて説明する。図７（ａ）は原文の部分木構造で、図７（ｂ）は規則適用後の部分木構造である。翻訳規則の概要は、「が見られた原因は〜ことにある」という部分木がある場合、「見られた」の目的語である「ブレイクスルー」を主語とし、「〜こと」であらわされる名詞節を名詞句に変換し、最終的に「breakthrough is due to 名詞句」という英語構文を生成する、というものである。翻訳規則は、具体的には、以下のようなテキスト形式で記述されている。この例は、「〜が見られた原因は」という日本語を、”〜 is due to” という英語に変換するための規則である。

原因(syusyoku_*1(jyoshi_*2)=*2 is due to
[*1.prop=keisiki_v]
上記の*1と*2は単語を示す。”syusyoku_”は、”syusyoku_”の右側の文字列が「原因」を修飾していることを示し、”jyoshi”は、*1の単語と*2の単語が助詞（この例では「が」）でつながっていることを示している。[*1.prop=keisiki_v]の部分は、この規則が適用されるための条件で、:1の単語の属性が形式名詞(keisiki_V)であることを示している。形式動詞とは、「が見られる」「〜と聞く」「〜という」などのように、具体的な動作としての意味を失っている動詞のことである。例えば、keisiki_v：形式動詞（見る、聞く、言う・・・）である。

以上説明したように、本発明の実施の形態では、ユーザが原文において指定した語またはその語を含むフレーズができるだけ文頭に近い位置に存在するような訳文の生成方法を選択して原文を翻訳する。これによって、原文の論理展開上重要な語が訳文においても論理展開上重要な位置に置かれるため、論理の展開が明確な訳文を作成することができる。すなわち、原文の論理の展開が訳文言語として自然なスタイルで明確に表現された訳文を作成することができる。

また、キーワード推定部２９により原文の論理展開上重要な語の自動推定を行い、ユーザによる「主要キーワード」の指定の際に、推定された語句を参考にすることもできる。これによって、ユーザが語を指定する際の判断の負担を軽減することができる。

また、キーワード推定部２９により、原文の論理展開上重要な語の自動推定を行い、推定された語句のうち、最も文頭に近いキーワードを「主要キーワード」のデフォルト値とした訳文を生成するような翻訳モードを設けることもできる。これによって、「主要キーワード」の指定を行わない場合でも、訳文の作成に当たって原文の論理の展開に一応の配慮を行うことができる。

本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図。本発明の実施の形態に係わる機械翻訳装置の機能ブロック図。本発明の実施の形態に係わる機械翻訳装置の翻訳処理のフロー図。本発明の実施の形態に係わる機械翻訳装置の翻訳処理（図３のステップＳ１３）における形態素解析・構文解析の結果として得られる木構造を示す説明図。図４に示した原文の構文及び意味上の関係をできるだけ忠実に反映して、翻訳処理（図３のステップＳ１３）における言語変換処理及び構文生成処理を行った結果得られた木構造を示す説明図。図４の原文において「ブレイクスルー」をキーワードとして指定して翻訳処理（図３のステップＳ１９）における言語変換処理及び構文生成処理を行った結果得られた木構造を示す説明図。図４の原文において「ブレイクスルー」をキーワードとして指定したときの優先された言語変換及び構文生成の規則の説明図。

符号の説明

１１…機械翻訳装置、１２…演算制御装置、１３…プロセッサ、１４…メモリ、１５…機械翻訳プログラム、１６…作業エリア、１７…出力装置、１８…表示装置、１９…通信制御装置、２０…入力装置、２１…マウス、２２…キーボード、２３…ディスクドライブ、２４…ハードディスクドライブ、２５…入力処理部、２６…文分割部、２７…制御部、２８…翻訳部、２９…キーワード推定部、３０…主要キーワード指定部、３１…記憶装置、３２…翻訳辞書部、３３…基本辞書部、３４…用例辞書部、３５…出力処理部

Claims

翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置を備えた機械翻訳装置において、前記機械翻訳装置は、入力装置から入力された第１言語の原文に対してユーザから指定された第１言語の語句を受け付ける主要キーワード指定部と、入力された原文全体に対して、前記主要キーワード指定部で指定された第１言語の語句またはその語句を含むフレーズの訳語が、翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行う翻訳部と、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を出力装置に出力処理する出力処理部とを備える機械翻訳装置。
前記入力装置からの指令に基づき入力された前記原文からキーワードを推定するキーワード推定部を設け、前記出力処理部は前記原文とともに前記キーワード推定部で推定されたキーワードを前記出力装置に出力する請求項１記載の機械翻訳装置。
翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置を備えた機械翻訳装置において、前記機械翻訳装置は、入力装置から入力された第１言語の原文からキーワードを推定するキーワード推定部と、入力された原文全体に対して、前記キーワード推定部で推定されたキーワードのうち原文において最も文頭に近い位置に存在する第１言語の語が翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行う翻訳部と、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を前記出力装置に出力処理する出力処理部とを備える機械翻訳装置。
機械翻訳プログラム、翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータに用いられる機械翻訳プログラムにおいて、前記コンピュータに、入力装置から入力された第１言語の原文に対してユーザから指定された第１言語の語句を受け付ける手順と、入力された原文全体に対して、指定された第１言語の語句またはその語句を含むフレーズの訳語が翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行う手順と、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を出力装置に出力処理する手順とを実行させるための機械翻訳プログラム。
機械翻訳プログラム、翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えたコンピュータに用いられる機械翻訳プログラムにおいて、前記コンピュータに、入力装置から入力された第１言語の原文からキーワードを推定する手順と、入力された原文全体に対して、推定されたキーワードのうち原文において最も文頭に近い位置に存在する第１言語の語が翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行う手順と、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を前記出力装置に出力処理する手順とを実行させるための機械翻訳プログラム。
機械翻訳プログラム、翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備え、機械翻訳を行う機械翻訳方法において、入力装置から入力された第１言語の原文に対してユーザから指定された第１言語の語句を受け付けるステップと、入力された原文全体に対して、指定された第１言語の語句またはその語句を含むフレーズの訳語が、翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行うステップと、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を出力装置に出力処理するステップとを備える機械翻訳方法。
機械翻訳プログラム、翻訳に必要な知識情報・規則を蓄積した翻訳辞書部を記憶した記憶装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備え、機械翻訳を行う機械翻訳方法において、入力装置から入力された第１言語の原文からキーワードを推定するステップと、入力された原文全体に対して、キーワードのうち原文において最も文頭に近い位置に存在する第１言語の語が翻訳後の第２言語の訳文の文頭に最も近い位置に存在する訳文を生成する規則を選択して翻訳を行うステップと、翻訳対象の原文や前記翻訳部による翻訳後の第２言語の訳文を前記出力装置に出力処理するステップとを備える機械翻訳方法。