JP5909123B2

JP5909123B2 - 機械翻訳装置、機械翻訳方法およびプログラム

Info

Publication number: JP5909123B2
Application number: JP2012064234A
Authority: JP
Inventors: 晶佐々木; 裕美子吉村; 貴志澁谷; 明熊野
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2016-04-26
Anticipated expiration: 2032-03-21
Also published as: JP2013196493A

Description

本発明の実施形態は、機械翻訳装置、機械翻訳方法およびプログラムに関する。

国際化の進行に伴い、外国語を用いた迅速な情報交換を実現するツールとして、機械翻訳装置は大いに期待されている。現状では、現在の機械翻訳技術による翻訳結果は、人手による手直しが全く不要なレベルにあるとはいえないため、人の手で訳された翻訳結果をデータベース化して活用するための翻訳支援ツールが開発されている。このようなツールでは、第一言語の原文と第二言語の訳文との対訳とからなる翻訳用例をあらかじめ翻訳用例データベースに複数蓄積しておき、入力された翻訳対象の原文に原文が類似している翻訳用例（以下、「類似用例」という。）を検索して表示する。そして、検索された類似用例の原文が翻訳対象の原文と完全一致していない場合には、検索された翻訳用例の訳文を一部編集して、翻訳対象の原文の翻訳結果とする。

このような翻訳用例を用いた機械翻訳装置では、ユーザによる編集箇所の判断や訳語の選択などの手間を軽減するため、上記編集を自動的に行うものも提案されている。この場合、翻訳対象の原文と検索された類似用例の原文との相違箇所（以下、「差分」という。）を語句単位で判定し、類似用例において原文中の差分に対応する訳文中の語句を判定し、当該語句を翻訳対象原文中の差分に対応する訳語に置き換えた合成訳文を作成し、翻訳対象原文の訳文とする。

また、他の従来の技術では、類似用例と機械翻訳による翻訳結果の訳語の統一を図るための工夫を行っている。すなわち、類似用例中において原文中の語句とそれに対応する訳文中の語句に対して、原文中の語句が、ユーザにより作成された機械翻訳用の辞書（以下、「ユーザ辞書」という。）に登録されており、かつ、それに対応する訳語として、類似用例中で用いられている訳語とは異なる訳語がユーザ辞書に登録されている場合、ユーザにその旨を明示する手段を有している。こうすることにより、ユーザ辞書に登録されている訳語とは異なる訳語が類似用例の中で使われることを防ぎ、訳語の統一を図っている。

上記した従来の技術による方法では、置き換えられた訳語が作成された合成訳文の文脈に合わない場合があるという問題があった。このような問題点について、例を用いて説明する。

（第１の問題点）置き換えられた訳語と、置き換えられていない部分の語句との不統一。

（第２の問題点）置き換えられた訳語と、置き換えの元になった類似用例訳文中の語句との不統一。

まず、第１の問題点について述べる。

図９は、翻訳対象原文に対し類似用例を用いて作成された合成訳文の第１の例を示す図である。

翻訳対象の原文が、「To reduce the memory access of the above memory means, and to reduce the time required for reading and rewriting registration data in the memory means.」（欄９０１）であり、検索された類似用例の原文が「To reduce the memory capacity of a memory means, and to reduce the time required for recording information data in the memory means.」（欄９０２）であるとする。

上記例において、翻訳対象の原文と検索された類似用例の原文との差分は３箇所あり、それぞれ以下の通りである。図９における欄９０１と欄９０２において下線を引いた部分である。

「the memory access」と「the memory capacity」
「the above memory means」と「a memory means」
「reading and rewriting registration data」と「recording information data」

一方、この類似用例原文と対応付けて検索される類似用例訳文は「記憶手段の記憶容量を低減すると共に、記憶手段に情報データを記録するに要する時間を低減する。」（欄９０３）であるとする。

ここで、類似用例の原文と類似用例の訳文との間では、それぞれ以下のように対応付けられる。図９における欄９０２と欄９０３において下線を引いた部分である。

「the memory capacity」と「記憶容量」
「a memory means」と「記憶手段」
「recording information data」と「情報データを記録する」

そして、翻訳対象原文に対する合成訳文は、これらの対応関係に基づいて作成されることになるが、従来の技術によって作成された合成訳文は、「上記メモリ手段のメモリ・アクセスを低減すると共に、記憶手段中の登録データを読み書きし直すことに必要な時間を低減する。」（欄９０４）となっている。

ここで、翻訳対象の原文中の差分の語句は、それぞれ以下のように訳されて、類似用例訳文に対しての置き換え訳語として使用されている。図９における欄９０１と欄９０４において下線を引いた部分である。

「the memory access」→「メモリ・アクセス」
「the above memory means」→「上記メモリ手段」
「reading and rewriting registration data」→「登録データを読み書きし直すこと」

上記の置き換えられた訳語の「メモリ・アクセス」および「上記メモリ手段」の「メモリ」は、翻訳対象の原文中の「the memory access」と「the above memory means」の「memory」に対する訳語であるが、一方で、同じ翻訳対象の原文の文末にある「the memory means」の「memory」に対する訳語は、類似用例原文との差分ではないため置き換えられておらず、「記憶」のままである。

このように、従来の技術による合成訳文では、置き換えられた訳語「メモリ」と、置き換えられていない部分の語句「記憶」とが統一されていないという問題があった。

次に、第２の問題点について述べる。

類似用例中の差分、すなわち置き換えの元になった部分では、「the memory capacity」と「a memory means」中の「memory」は（欄９０２）、それぞれ「記憶容量」と「記憶手段」というように「記憶」と訳されている（欄９０３）。

これに対して、置き換え対象となった翻訳対象原文中の語句「the memory access」と「the above memory means」中の「memory」は（欄９０１）、類似用例中の差分の語句と類似度が高いにも係らず、「メモリ・アクセス」と「上記メモリ手段」というように「メモリ」と訳されている（欄９０４）。このように、従来の技術による合成訳文では、置き換えられた訳語の「メモリ」と、置き換えの元になった類似用例中の差分の語句の訳し方が、類似した語であるにも係らず統一されていないという問題があった。

ところで、他の従来の技術においては、類似用例中の語句と置き換えられた訳語を統一する工夫がなされているが、効果があるのは類似用例中の語とまったく同じ語がユーザ辞書に登録されている場合に限られている。また、合成語に関して、構成語の一部は同じでも他の一部が異なる合成語の場合には、合成語の共通部分の訳語を統一することはできなかった。また、そもそも、ユーザ辞書に登録されていない語句については、訳語統一を図ることができなかった。

これに対して、翻訳用例データベースに登録されている翻訳用例からあらかじめ用語を抽出してユーザ辞書に登録しておく対策が考えられる。しかし多くの場合、翻訳用例データベースには出典が異なる用例が登録されているため、抽出された用語が検索された類似用例の文脈に適しているとは限らないという新たな問題が発生する。

このように従来の技術では、置き換えられた訳語と、置き換えられていない部分の語句との不統一、置き換えられた訳語と、置き換えの元になった類似用例訳文中の語句との不統一という問題が起こる場合があった。

特開２００６−１１８４２号公報特開２００９−１１６５８５号公報特開２００５−２０８８２５号公報

本発明が解決しようとする課題は、合成訳文中の訳語の統一を図る技術を提供することである。

本発明の実施形態によれば、翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する。検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する。その翻訳対象原文と類似用例原文との構文上の差分となる語句を特定する。特定された翻訳対象原文中の差分語句については、その差分語句に対応する訳語を他の訳語候補より優先して選択する。類似用例訳文において、類似用例原文中の差分語句に対応する類似用例訳文中の語句を、選択された訳語を用いて置き換えることにより、翻訳対象原文の訳文を生成する。

実施形態の機械翻訳装置のハードウエア構成図実施形態の機械翻訳装置の機能ブロック図実施形態の機械翻訳装置の処理のフローチャート図３の類似用例対応付け処理Ｓ３０９の詳細なフローチャート実施例１における翻訳対象原文の形態素解析および構文解析の結果のツリー構造実施例１における類似用例原文の形態素解析および構文解析の結果のツリー構造実施例１における類似用例訳文の形態素解析および構文解析の結果のツリー構造実施例１における原文語句・訳語対応テーブルの内容を示す図翻訳対象原文に対し類似用例を用いて作成された合成訳文の第１の例を示す図翻訳対象原文に対し類似用例を用いて作成された合成訳文の第２の例を示す図実施例２における翻訳対象原文の形態素解析および構文解析の結果のツリー構造実施例２における類似用例原文の形態素解析および構文解析の結果のツリー構造実施例２における類似用例訳文の形態素解析および構文解析の結果のツリー構造実施例２における原文語句・訳語対応テーブルの内容を示す図実施例３における翻訳対象原文に対し類似用例を用いて訳語を選択する例を示す図

本実施形態は、類似用例を用いる機械翻訳装置において、検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶し、類似用例から記憶した語句と、機械翻訳用の辞書およびユーザ辞書に登録された各訳語の優先度を比較し、類似用例から記憶した語句を優先して翻訳選択することにより、訳語の統一を図るものである。

図１は、実施形態の機械翻訳装置のハードウエア構成図である。

図１において、機械翻訳装置１１は、例えば一般的なコンピュータであり、メモリ１９に記憶されたプログラム２０を、演算制御装置１２のプロセッサ１８において実行する。

演算制御装置１２には、表示装置１３、マウス１４、キーボード１５、ディスクドライブ１６及び記憶装置１７が接続されている。表示装置１３は、演算制御装置１２の演算結果等を表示するものであり、マウス１４やキーボード１５等の入力装置は、表示装置１３に表示されるユーザインターフェースとともに演算制御装置１２に対する各種指令の入力に用いられる。また、キーボード１５から翻訳対象の第一言語の原文文書を入力することも可能である。ディスクドライブ１６は、翻訳対象の第一言語の原文文書などのファイルを記憶媒体に入出力するものであり、翻訳対象の第一言語の原文文書を入力する入力装置としても使用可能である。

記憶装置１７は、演算制御装置１２の演算結果や翻訳辞書等を記憶するものであり、例えば、複数個のハードディスクドライブ（ＨＤＤ）で構成される。演算制御装置１２は、プロセッサ１８とメモリ１９とを含んで構成されている。メモリ１９には、プログラム２０が記憶されると共に、プロセッサ１８により演算処理が実行される際に使用される作業エリア２１が設けられている。

図２は、実施形態の機械翻訳装置の機能ブロック図である。ここでは図１に示したハードウエア構成図を参照しながら説明する。

入力部２２は翻訳対象となる第一言語の原文データの入力を受け付けるものである。例えば、図１に示したように、原文データがユーザ自身によりキーボード１５等から直接入力されたときや、記憶媒体を介してディスクドライブ１６から入力されたときに、原文データを演算制御装置１２内のメモリ１９や記憶装置１７内に入力し記憶させるものである。

文分割部２３は、入力部２２から入力された原文データの原文を文単位に分割し、メモリ１９の作業エリア２１に格納するものである。１文単位で分割された原文は、制御部２４に受け渡される。制御部２４は、原文解析・翻訳部２５、翻訳用例検索部２６、差分判定部２７、類似用例対応付け部２８、差分語句訳語選択部２９、訳語置換部３０、辞書部３１、翻訳用例データベース３２、類似用例語句対応関係記憶部３３、出力部３４を制御するものである。

原文解析・翻訳部２５は、入力部２２から入力され、文分割部２３によって１文単位に分割された原文に対して、辞書部３１を参照しながら文の解析を行うものである。

翻訳用例検索部２６は、文分割部２３にて１文単位に分割された入力された原文を検索キーとして翻訳用例データベース部３２から翻訳対象原文に類似する翻訳用例を検索するものである。

差分判定部２７は、検索された類似用例原文と翻訳対象原文との差異部分を判定するものである。この差異部分に対応する類似用例原文中の語句と翻訳対象原文中の語句とが対応付けられる。この語句を差分語句という。

類似用例対応付け部２８は、検索された類似用例原文と類似用例訳文との語句単位での対応付けを行うものである。ここで対応付けられた類似用例原文中の語句と類似用例訳文中の語句との対応関係は、類似用例語句対応関係記憶部３３に記憶される。

差分語句訳語選択部２９は、後述する辞書部３１と類似用例語句対応関係記憶部３３とを参照して、採用する訳語の優先度を特定の基準に基づいて算出することにより、前記差分判定部２７によって特定された前記原文中の差異部分に対応する、第二言語による訳語の選択を行うものである。

訳語置換部３０は、差分判定部２７によって特定された類似用例訳文中の語句を、差分語句訳語選択部２９によって取得した訳語で置き換えて、訳文を生成するものである。

辞書部３１は、入力した第一言語の原文の解析及び第二言語への翻訳に必要な語彙・規則を格納するものであり、記憶装置１７内に形成されている。翻訳に必要な規則では、特定の条件下において用いる語句の優先度などが指定されている。翻訳に必要な語彙・規則は、辞書部３１の語彙部３１ａ、形態素解析処理部３１ｂ、構文解析部３１ｃ、変換規則部３１ｄ、および生成規則部３１ｅに格納されている。類似用例は翻訳用例データベース３２に格納されている。

出力部３４は、原文解析・翻訳部２５によって生成された翻訳の結果を出力装置に出力するものである。例えば、出力装置としての表示装置１３に表示出力する。出力装置は図１の表示装置１３だけでなく、表示装置１３による出力に代え、あるいは、表示装置１３による出力に加えて、音声により音声出力装置に出力するようにしてもよいし、印刷装置に印刷出力するようにしてもよいし、ディスクドライブ１６を介して記録媒体に出力するようにしてもよい。

図２に示す演算制御装置１２内の各部は、図１に示したプロセッサ１８がプログラム２０をメモリ１９に読み込んで実行することで、演算制御装置１２は当該各部として機能するものである。

図３は、実施形態の機械翻訳装置の処理のフローチャートである。

ユーザが入力装置から翻訳対象の第一言語の原文を入力すると、入力部２２は原文を受け付ける（ステップＳ３０１）。入力された原文は、メモリ１９または記憶装置１７に記憶される。次に、文分割部２３は、メモリ１９または記憶装置１７から原文を読み出して１文単位に分割する（ステップＳ３０２）。分割された原文の各１文に対して、制御部２４は、変数ｉに「１」をセットし（ステップＳ３０３）、ｉ番目の原文１文を取り出す（ステップＳ３０４）。ｉ番目の原文１文はメモリ１９の作業エリア２１に取り出される。

次に、取り出されたｉ番目の原文１文に対して、原文解析・翻訳部２５は、辞書部３１を参照して原文言語解析処理を行う（ステップＳ３０５）。すなわち、原文解析・翻訳部２５が語彙部３１ａ及び形態素解析規則部３１ｂを参照して原文１文の形態素解析処理を行い、構文解析規則部３１ｃを参照して構文解析処理を行い、原文１文を構成する各語の品詞、構文に関する情報を取得する。なお、ここで用いる構文解析処理その他の技術は、本実施形態に固有のものではなく、言語処理に関わる一般的な技術である。

続いて、翻訳用例検索部２６が、原文を検索キーとして翻訳用例データベース３２から前記原文と同一または類似している翻訳用例を検索する（ステップＳ３０６）。類似用例の検索は、原文を構成する各単語と一致する単語数の割合から算出される文の一致度、その他の属性の一致などを考慮して行われる。

なお、単語の一致の判定を行うに当たり、ステップＳ３０５で取得した言語解析処理の結果を用いて、表記の揺れは違いとみなさない処理を行うこともできる。表記の揺れとは、長音記号の有無などのカタカナ表記や送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れなどを指している。

もちろん、表記の揺れは吸収しない完全一致の翻訳用例のみを検索結果とする実施形態も可能である。また、文字・単語上の違いがあっても、違いの割合が特定の値以下の場合は違いを無視するというように、差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する実施形態であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出することもできる。この場合は、用例検索のステップＳ３０６を辞書引き処理・形態素解析のステップＳ３０５の後に行う必要はない。

用例検索では、複数の類似用例が検索される場合もあるが、最終的には類似度が最も高い用例を絞り込み、処理対象とする。本実施形態の本質的な部分でないためここでは詳細に説明しないが、複数の類似用例から優先度の最も高い用例を決定するには、類似度、用例の登録者、登録日時などの基準を用いて行うのが一般的である。

翻訳用例検索部２６が、類似用例があると判定した場合は（ステップＳ３０７：Ｙｅｓ）、類似用例をメモリ１９の類似用例記憶エリアに記憶する。

続いて、処理対象の類似用例に対して差分関連の処理を行う（ステップＳ３０８〜ステップＳ３１１）。まず差分判定部２７によって、翻訳対象原文と類似用例原文に対して差分対応付け処理を行う（ステップＳ３０８）。差分対応付けの具体例については後で説明する。

次に、類似用例対応付け部２８によって、類似用例に対して類似用例対応付け処理を行う（ステップＳ３０９）。すなわち、原文の語句と訳文の語句との対応付けである。この類似用例対応付け処理のステップＳ３０９の詳細については後で図４を参照して説明する。

続いて差分語句訳語選択部２９が、差分判定部２７によって判定された翻訳対象原文と類似用例原文との差分語句に対して、辞書部３１の語彙部３１ａおよび類似用例語句対応関係記憶部３３を参照してその訳語を選択・取得する、差分語句訳語取得処理を行う（ステップＳ３１０）。

その後、訳語置換部３０が、差分語句訳語選択部２９が取得した訳語を用いて、差分判定部２７によって判定済みの差分語句に対応する類似用例訳文中の語句を置き換える（ステップＳ３１１）。訳語置換処理の結果得られた訳文をｉ番目の原文１文の翻訳結果とする。

一方、ステップＳ３０７の判定で、類似用例はないと判定した場合は（ステップＳ３０７：Ｎｏ）、差分関連の処理（ステップＳ３０８〜ステップＳ３１１）を行わず省略してステップＳ３１２に移行し、原文解析・翻訳部２５によるｉ番目の原文１文の翻訳処理が行われる（ステップＳ３１２）。

最後に、上流の各処理によって得られた翻訳結果を、出力部３３から表示する（ステップＳ３１３）。表示される内容としては、ステップＳ３０７で類似用例が検出されなかった場合には、ステップＳ３１２で得られた翻訳結果が表示される。ステップＳ３０７で類似用例が見つかり、かつステップＳ３０８の差分対応付け処理にて類似用例の原文中の差分に一対一に対応する類似用例の訳文中の語句の判定（対応付け）が成功している場合には、類似用例の訳文に対して、ステップＳ３０９で得られた翻訳対象原文の差分に対応する訳語を置き換えた訳文が表示される。

なお、ステップＳ３０７で類似用例が検出されてはいたが、ステップＳ３０８の差分対応付け処理にて類似用例の原文中の差分に一対一に対応する類似用例の訳文中の語句の判定（対応付け）に失敗している場合には、ステップＳ３０７で検出された類似用例の訳文が、参考訳文として表示される。

そして、原文のすべての文について処理が終了したかどうか、つまり全原文処理が終了したかどうかを判定し（ステップＳ３１４）、原文のすべての文に対する処理が終了している場合は処理を終了し、原文のすべての文に対する処理が終了していない場合には、変数ｉに「１」を加算して（ｉ＝ｉ＋１）とし（ステップＳ３１５）、ステップＳ３０４に戻る。

図４は、図３の類似用例対応付け処理Ｓ３０９の詳細なフローチャートである。

原文解析・翻訳部２５は、類似用例の原文と翻訳対象の原文とをメモリ１９の作業エリア２１に取り出し、翻訳用例検索部２６によって取得された類似用例の原文に対して、図３のステップＳ３０５において翻訳対象原文に対して行ったものと同様な言語解析処理を行う（ステップＳ４０１）。

次に、類似用例の訳文に対しても、原文と同様な言語解析処理を原文解析・翻訳部２５が行う（ステップＳ４０２）。

ステップＳ４０１とステップＳ４０２において得られた言語解析結果を用いて、差分判定部２７が、翻訳対象原文中の語句と類似用例原文中の語句との対応付けを行う（ステップＳ４０３）。

ここで、図９に示した英日機械翻訳の具体例において、同図の翻訳対象原文（欄９０１）に対して同図の類似用例原文（欄９０２）および類似用例訳文（欄９０３）が検出された場合における、ステップＳ３０８の差分対応付け処理およびステップＳ３０９の類似用例対応付け処理について詳しく説明する。

図５は、実施例１における翻訳対象原文の形態素解析および構文解析の結果のツリー構造である。

図５の翻訳対象原文は、図９に示した翻訳対象原文（欄９０１）と同じものである。この翻訳対象原文に対して、ステップＳ３０５の原文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

実線で囲まれた語句は形態素解析によって得られた文を構成する各要素であり、これら各要素をつなぐ線によって、各要素同士の構文上のつながり方が表現されている。本実施形態において、このように文を構成する各語句の構文上のつながりを図上に表したものをツリー構造と呼ぶ。

図５において、例えば、「memory access」は、形態素としては「memory」および「access」の二つの単語からなるものであるが、構文解析によるツリー構造においては「memory access」という一つの要素となっている。また、「memory means」についても同様にツリー構造における一つの要素となっている。

図６は、実施例１における類似用例原文の形態素解析および構文解析の結果のツリー構造である。

図６の類似用例原文は、図９に示した類似用例原文（欄９０２）と同じものである。この類似用例原文に対して、ステップＳ４０１の類似用例原文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

破線で囲まれた語句は、類似用例原文を構成する各要素に対する第二言語の訳語候補として語彙部３１ａに登録されている訳語候補のリストである。訳語が複数あるものはコンマで区切って列挙しており、訳語がない場合は「Φ」記号で表される。後述する類似用例原文と類似用例訳文の差分の対応付け（ステップＳ４０４）の処理で使用する。

この図５および図６のツリー構造のマッチングにより、翻訳対象原文と類似用例原文との差分を以下のように判定する（ステップＳ４０３）。

翻訳対象原文：「the memory access」―― 類似文用例原文：「the memory capacity」
翻訳対象原文：「the above memory means」―― 類似文用例原文：「a memory means」
翻訳対象原文：「reading and rewriting registration data」―― 類似文用例原文：「recording information data」

なお、このようなツリー構造を基にした文のマッチングの手法は、特開２００５−２０８８２５号公報等に開示される既存の手法であり、その説明は省略する。

図７は、実施例１における類似用例訳文の形態素解析および構文解析の結果のツリー構造である。

図７の類似用例訳文は、図９に示した類似用例訳文（欄９０３）と同じものである。この類似用例訳文に対して、ステップＳ４０２の類似用例訳文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

破線で囲まれた語句は、類似用例訳文を構成する各要素に対する第一言語の訳語候補として語彙部３１ａに登録されている訳語候補のリストである。

次に、類似用例原文と類似用例訳文との対応付け処理の流れの概要を以下に示す。

［１］類似用例対応付け部２８が、以下の処理を類似用例原文の各構成要素について行う。

［１−１］類似用例原文を構成する語句（第一言語）に対して、類似用例訳文（第二言語）を構成する各語句の訳語（第一言語）から一致するものを検索し、一致する訳語を持つ類似用例訳文の構成語を、類似用例原文の構成語に対応する類似用例訳文の対応語候補（第一言語）として抽出する。候補が複数存在すれば、複数の候補を抽出する。

［１−２］類似用例訳文を構成する各語句（第二言語）に対して、類似用例原文（第一言語）を構成する各語句の訳語（第二言語）から一致するものを検索し、一致する訳語を持つ類似用例原文の構成語を、類似用例訳文の構成語に対応する類似用例原文の対応語候補（第二言語）として抽出する。候補が複数存在すれば、複数の候補を抽出する。

［２］上記［１］の結果、対応関係に重複がなく１対１に対応が決まる場合、類似用例対応付け部２８が、対応関係のつけられた語句を確定する。

以上説明した対応付け処理によって得られた類似用例原文と類似用例訳文を構成する各語句の対応関係に基づいて、原文語句・訳文語句対応テーブル３３ａを作成し（Ｓ４０４）、類似用例語句対応関係記憶部３３に格納する。

図８は、実施例１における原文語句・訳語対応テーブルの内容を示す図である。

すなわち、図６の類似用例原文の形態素解析および構文解析の結果として得られるツリー構造と、図７の類似用例訳文の形態素解析および構文解析の結果として得られるツリー構造とから、類似用例対応付け部２８による上記［１］［２］の対応付け処理によって得られた対応関係である。この内容が、類似用例語句対応関係記憶部３３に格納される。

次に、翻訳対象原文の差分語句に対する差分語句訳語取得部２９による処理を、翻訳対象原文（欄９０１）の差分語句の一つである「the above memory means」を用いて説明する。まず、差分語句訳語取得部２９が「the above memory means」を構成する各語（「the above」についてはここでは説明を省略する）の訳語を、語彙部３１ａおよび原文語句・訳文語句対応テーブル３３ａを参照して取得する。取得される訳語候補は以下の通りとなる。

（語彙部３１ａに登録されている訳語候補）
「memory」の訳語候補：「メモリ」「記憶」「回想」等
「means」の訳語候補：「方法」「手段」「財力」等

（原文語句・訳文語句対応テーブル３３ａに登録されている訳語候補）
「memory」の訳語候補：「記憶」
「means」の訳語候補：「手段」
「memory means」の訳語候補：「記憶手段」

また、この例では、以下（１）および（２）の場合を想定している。
（１）ユーザ辞書に「memory」「means」「memory means」は登録されていない。
（２）語彙部３１ａに登録されている各訳語に対して、訳語の優先順位に関する翻訳規則は登録されていない。

本実施形態は、このように語彙部３１ａにおいて置き換え対象の訳語の候補が複数ある場合に、原文語句・訳文語句対応テーブル３３ａに基づいて、類似用例から記憶した語句を優先して選択することにより、訳語統一を行う。

また、変形例としては、各訳語の優先度は、以下の各基準を満たす訳語の優先度に点数を加算することで算出するようにしてもよい。

１．見出し語が、差分語句である「memory means」と一致している単語数が多いほど高得点を加算する。

２．語彙部３１ａに、訳語の優先順位に関する規則が登録されている。

３．原文語句・訳文語句対応テーブル３３ａに登録されている。

４．ユーザ辞書に登録されている。

このような優先度を算出する場合、上記３．の基準である原文語句・訳文語句対応テーブル３３ａに登録されていることの点数を高くすると好ましい。これらの基準に基づいて上記の訳語候補の優先度を算出すると、「memory means」に対応付けられた「記憶手段」の優先度の値が最も大きくなり、訳語として選択される。

その結果、本実施形態において、翻訳対象原文（欄９０１）に対する合成訳文は、「上記記憶手段の記憶アクセスを低減すると共に、記憶手段中の登録データを読み書きし直すことに必要な時間を低減する。」となる（欄９０５）。つまり、「memory」に対する訳語は「記憶」に統一されることになる。

なお、上記の基準については、ステップＳ３０６で行った類似用例検索処理と同様な、表記の揺れを吸収する処理を行っても良い。

また、必要に応じて、上記の訳語の優先度の算出に際して、加算する点数に条件に応じた重みを付けても良い。これによって、例えば会社名などの固有名詞が登録されているユーザが作成した辞書には大きな点数を与え、どのような状況でも登録した訳語が選出されるようにすることもできる。また、必要に応じて、特定の翻訳規則に対して大きな点数を与えることで、例えば慣用表現などに対しては、語彙部に登録された訳語が優先して選出されるようにすることもできる。

上記の例では、差分語句訳語選択部２９において算出された優先度の値に基づいて訳語を自動的に決定したが、優先度判断の対象となった語句をユーザに一覧表示する訳語候補表示部を設けることもできる。具体的には、類似用例で使われている訳語とユーザ辞書、翻訳辞書とに登録されている訳語をユーザに一覧表示することができる。その場合、訳語候補は優先度の高い順に並べるユーザインタフェースを設けるようにする。

これによって、類似用例を基に合成された訳文における訳語の統一を図る際に、ユーザの判断を加味することができる。また、ユーザが自動的に選択された訳語以外の訳語を選択する際の労力を削減することもできる。

また、優先度の値に基づいて決定された訳語以外の訳語候補をユーザが選択した場合には、ユーザ辞書に自動的に登録する、あるいは、ユーザ辞書に登録することをユーザに知らせる訳語優先度編集部を設けることもできる。これによって、ユーザが何度も訳語選択をする労力を削減することができる。

もしくは、翻訳対象原文と類似用例原文との差分語句に対応する第二言語による訳語を決定する際に、表示された訳語の優先度を編集できるようにしてもよい。これによって、表示された訳語とは異なる訳語を選択することもできる。編集した優先度が記憶されるため、次回から変更後の優先度が適用され、ユーザが何度も同じ訳語の優先度を編集する手間を省くことができる。

図１０は、翻訳対象原文に対し類似用例を用いて作成された合成訳文の第２の例を示す図である。

翻訳対象の原文が、「Over a 63-month period, FAST scans were retrospectively studied.」（欄１００１）であり、検索された類似用例の原文が「Over a 63-month period, FAST scans were prospectively studied.」（欄１００２）であるとする。

上記例において、翻訳対象の原文と検索された類似用例の原文との差異部分は１箇所あり、以下の通りである。図１０における欄１００１と欄１００２において下線を引いた部分である。

「retrospectively」と「prospectively」

一方、この類似用例原文と対応付けて検索される類似用例訳文は「63ヶ月に渡ってFASTを前向きに調査した。」（欄１００３）であるとする。

ここで、類似用例の原文と類似用例の訳文との間では、差異部分の対応訳語は、以下のように対応付けられる。図１０における欄１００２と欄１００３において下線を引いた部分である。

「prospectively」と「前向きに」

そして、翻訳対象原文に対する合成訳文は、これらの対応関係に基づいて作成されることになるが、従来の技術によって作成された合成訳文は、「63ヶ月に渡ってFASTを回顧的に調査した。」（欄１００４）となっている。

この従来の技術によって作成された合成訳文においては、翻訳対象の原文中の差異部分の語句は、辞書部の語彙部における見出し語とその訳語（欄１１００）に従って、以下のように訳されて、置き換え訳語として使用される。図１０における欄１００１と欄１００４において下線を引いた部分である。

「retrospectively」→「回顧的に」

この類似用例中の差分、すなわち置き換えの元になった部分では、「retrospectively」が「回顧的に」と訳されている。このように、従来の技術による合成訳文では、置き換えられた訳語の「回顧的に」が、置き換えの元になった類似用例訳文の文脈にそぐわないという問題があった。

そこで、本実施形態において作成された合成訳文によれば、欄１００５に示すように、「63ヶ月に渡ってFASTを後ろ向きに調査した。」という適切な結果となる。以下、この結果が得られる処理について具体的に説明する。

図１１は、実施例２における翻訳対象原文の形態素解析および構文解析の結果のツリー構造である。

図１１の翻訳対象原文は、図１０に示した翻訳対象原文（欄１００１）と同じものである。この翻訳対象原文に対して、ステップＳ３０５の原文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

図１２は、実施例２における類似用例原文の形態素解析および構文解析の結果のツリー構造である。

図１２の類似用例原文は、図１０に示した類似用例原文（欄１００２）と同じものである。この類似用例原文に対して、ステップＳ４０１の類似用例原文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

そして、この図１１および図１２のツリー構造のマッチングにより、翻訳対象原文と類似用例原文との差異部分を以下のように判定する（図４のステップＳ４０３、図１０に示した翻訳対象原文の欄１００１と類似用例原文の欄１００２において下線を引いた差異部分を参照。）。

翻訳対象原文：「retrospectively」―― 類似文用例原文：「prospectively」

図１３は、実施例２における類似用例訳文の形態素解析および構文解析の結果のツリー構造である。

図１３の類似用例訳文は、図１０に示した類似用例訳文（欄１００３）と同じものである。この類似用例訳文に対して、ステップＳ４０２の類似用例訳文言語解析（形態素解析および構文解析）の処理の結果として得られるツリー構造が示されている。

そして、この対応付け処理によって得られた類似用例原文と類似用例訳文を構成する各語句の対応関係に基づいて、原文語句・訳文語句対応テーブル３３ａを作成し（Ｓ４０４）、類似用例語句対応関係記憶部３３に格納する。

図１４は、実施例２における原文語句・訳語対応テーブルの内容を示す図である。

すなわち、図１２の類似用例原文の形態素解析および構文解析の結果として得られるツリー構造と、図１３の類似用例訳文の形態素解析および構文解析の結果として得られるツリー構造とから、類似用例対応付け部２８による上記［１］［２］の対応付け処理によって得られた対応関係である。

次に、翻訳対象原文の差分語句に対する差分語句訳語取得部２９による処理を、翻訳対象原文（欄１００１）の差分語句である「retrospectively」を用いて説明する。まず、差分語句訳語取得部２９が「retrospectively」の訳語を、語彙部３１ａおよび原文語句・訳文語句対応テーブル３３ａを参照して取得する。取得される訳語候補は以下の通りとなる。

（語彙部３１ａに登録されている訳語候補。図１０および図１１の欄１１００参照。）
「retrospectively」の訳語候補：回顧的に、回想的に、遡及的に、後ろ向きに、…

（図１４の原文語句・訳文語句対応テーブル３３ａに登録されている訳語候補）
「prospectively」の訳語候補：「前向きに」

また、この例では、以下（１）および（２）の場合を想定している。
（１）ユーザ辞書に「retrospectively」は登録されていない。
（２）語彙部３１ａに登録されている各訳語に対して、訳語の優先順位に関する翻訳規則は登録されていない。

本実施例では、各訳語の優先度は、以下の基準を満たす訳語の優先度に点数を加算することで算出する。

１．見出し語が、差分語句である「retrospectively」と一致している単語数が多いほど高得点を加算する。

２．差分語句に対する類似用例訳文中の対応訳語「前向きに」と文字列の類似度が高いほど高得点を加算する。（図１０および図１２の欄１２００参照。）

３．語彙部３１ａに、訳語の優先順位に関する規則が登録されている。

４．原文語句・訳文語句対応テーブル３３ａに登録されている。

５．ユーザ辞書に登録されている。

これらの基準に基づいて上記の訳語候補の優先度を算出すると、「後ろ向きに」の優先度の値が最も大きくなり、図１０に示すように、訳語として選択される。上記の基準２．の類似度は、例えば、一致している文字数の割合などによって算出することができる。上記の基準１．および２．では、Ｓ３０６で行った類似用例検索処理と同様な、表記の揺れを吸収する処理を行っても良い。

図１５は、実施例３における翻訳対象原文に対し類似用例を用いて訳語を選択する例を示す図である。

翻訳対象の原文が、「Additional inflammatory reaction to tick salivary proteins also may help prevent transmission.」（欄１５０１）であり、検索された類似用例の原文が「Additional inflammatory reaction to mosquito salivary proteins also may help prevent transmission.」（欄１５０２）であるとする。

上記例において、翻訳対象の原文と検索された類似用例の原文との差異部分は１箇所あり、以下の通りである。図１５における欄１５０１と欄１５０２において下線を引いた部分である。

「tick」と「mosquito」

一方、この類似用例原文と対応付けて検索される類似用例訳文は「蚊の唾液タンパクに対するその他の炎症反応も、伝播の防止に役立つと考えられる。」（欄１５０３）であるとする。

ここで、類似用例の原文と類似用例の訳文との間では、差異部分の対応訳語は、以下のように対応付けられる。図１５における欄１５０２と欄１５０３において下線を引いた部分である。

「mosquito」と「蚊」

次に、翻訳対象原文の差分語句に対する差分語句訳語取得部２９による処理を、翻訳対象原文（欄１５０１）の差分語句である「tick」を用いて説明する。まず、差分語句訳語取得部２９が「tick」の訳語を、語彙部３１ａおよび原文語句・訳文語句対応テーブル３３ａを参照して取得する。取得される訳語候補は以下の通りとなる。

（語彙部３１ａに登録されている訳語候補。図１５の欄１５０４参照。）
「tick」の訳語候補：名詞：「かちかち（という音）」（属性：擬音）、「ダニ」（属性：生物）、・・・、
動詞「かちかち音を立てる」、・・・

「mosquito」の訳語候補：名詞：「蚊」（属性：生物）、「小型止血鉗子」（属性：道具）・・・、

１．差分語句に対する類似用例訳文中の対応訳語「蚊」と属性が似ているほど高得点を加算する。

２．（他の実施例と同様とし省略）

これらの基準に基づいて上記の訳語候補の優先度を算出すると、「ダニ」の優先度の値が最も大きくなり、図１５に示すように、訳語として選択される。

以上説明したように、本実施形態では、翻訳対象原文と類似した翻訳用例（類似用例）の一部を自動的に編集して訳文を作成する機械翻訳において、訳文における訳語の統一を行う。本実施形態では、検索された類似用例原文中の語句と類似用例訳文中の語句の対応関係を記憶し、類似用例訳文から記憶した語句と、機械翻訳用の辞書およびユーザ辞書に登録された各訳語の優先度を比較し、類似用例訳文から記憶した語句を優先して訳語選択を行う。これによって、類似用例を基に合成された訳文における訳語の統一を図ることができる。

本実施形態の機械翻訳処理は、英日翻訳のみならず、日英翻訳及び他の言語間での翻訳、例えば中日翻訳や日中翻訳にも適用可能である。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１１・・・機械翻訳装置
１２・・・演算制御装置
１７・・・記憶装置
２２・・・入力部
２３・・・文分割部
２４・・・制御部
２５・・・原文解析・翻訳部
２６・・・翻訳用例検索部
２７・・・差分判定部
２８・・・類似用例対応付け部
２９・・・差分語句訳語選択部
３０・・・訳語置換部
３１・・・辞書部
３２・・・翻訳用例データベース
３３・・・類似用例語句対応関係記憶部
３３ａ・・・原文語句・訳文語句対応テーブル
３４・・・出力部

Claims

翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する翻訳用例検索部と、

前記翻訳用例検索部により検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する類似用例語句対応関係記憶部と、

前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定する差分判定部と、

前記差分判定部により特定された前記翻訳対象原文中の差分語句に対して、前記類似用例語句対応関係記憶部におけるその差分語句に対応する訳語を他の訳語候補より優先して選択する差分語句訳語選択部と、

前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記差分語句訳語選択部により選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成する訳語置換部とを有する機械翻訳装置。
前記差分語句訳語選択部における優先度を変更し記憶する訳語優先度編集部をさらに有する請求項１記載の機械翻訳装置。
翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索するステップと、

前記検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶するステップと、

前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定するステップと、

前記特定された前記翻訳対象原文中の差分語句に対して、その差分語句に対応する訳語を他の訳語候補より優先して選択するステップと、

前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成するステップとを有する機械翻訳方法。
翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する手順と、

前記検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する手順と、

前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定する手順と、

前記特定された前記翻訳対象原文中の差分語句に対して、その差分語句に対応する訳語を他の訳語候補より優先して選択する手順と、

前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成する手順とをコンピュータに実行させるためのプログラム。