JP5909123B2 - 機械翻訳装置、機械翻訳方法およびプログラム - Google Patents

機械翻訳装置、機械翻訳方法およびプログラム Download PDF

Info

Publication number
JP5909123B2
JP5909123B2 JP2012064234A JP2012064234A JP5909123B2 JP 5909123 B2 JP5909123 B2 JP 5909123B2 JP 2012064234 A JP2012064234 A JP 2012064234A JP 2012064234 A JP2012064234 A JP 2012064234A JP 5909123 B2 JP5909123 B2 JP 5909123B2
Authority
JP
Japan
Prior art keywords
translation
phrase
similar example
original
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012064234A
Other languages
English (en)
Other versions
JP2013196493A (ja
Inventor
晶 佐々木
晶 佐々木
裕美子 吉村
裕美子 吉村
貴志 澁谷
貴志 澁谷
明 熊野
明 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2012064234A priority Critical patent/JP5909123B2/ja
Publication of JP2013196493A publication Critical patent/JP2013196493A/ja
Application granted granted Critical
Publication of JP5909123B2 publication Critical patent/JP5909123B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、機械翻訳装置、機械翻訳方法およびプログラムに関する。
国際化の進行に伴い、外国語を用いた迅速な情報交換を実現するツールとして、機械翻訳装置は大いに期待されている。現状では、現在の機械翻訳技術による翻訳結果は、人手による手直しが全く不要なレベルにあるとはいえないため、人の手で訳された翻訳結果をデータベース化して活用するための翻訳支援ツールが開発されている。このようなツールでは、第一言語の原文と第二言語の訳文との対訳とからなる翻訳用例をあらかじめ翻訳用例データベースに複数蓄積しておき、入力された翻訳対象の原文に原文が類似している翻訳用例(以下、「類似用例」という。)を検索して表示する。そして、検索された類似用例の原文が翻訳対象の原文と完全一致していない場合には、検索された翻訳用例の訳文を一部編集して、翻訳対象の原文の翻訳結果とする。
このような翻訳用例を用いた機械翻訳装置では、ユーザによる編集箇所の判断や訳語の選択などの手間を軽減するため、上記編集を自動的に行うものも提案されている。この場合、翻訳対象の原文と検索された類似用例の原文との相違箇所(以下、「差分」という。)を語句単位で判定し、類似用例において原文中の差分に対応する訳文中の語句を判定し、当該語句を翻訳対象原文中の差分に対応する訳語に置き換えた合成訳文を作成し、翻訳対象原文の訳文とする。
また、他の従来の技術では、類似用例と機械翻訳による翻訳結果の訳語の統一を図るための工夫を行っている。すなわち、類似用例中において原文中の語句とそれに対応する訳文中の語句に対して、原文中の語句が、ユーザにより作成された機械翻訳用の辞書(以下、「ユーザ辞書」という。)に登録されており、かつ、それに対応する訳語として、類似用例中で用いられている訳語とは異なる訳語がユーザ辞書に登録されている場合、ユーザにその旨を明示する手段を有している。こうすることにより、ユーザ辞書に登録されている訳語とは異なる訳語が類似用例の中で使われることを防ぎ、訳語の統一を図っている。
上記した従来の技術による方法では、置き換えられた訳語が作成された合成訳文の文脈に合わない場合があるという問題があった。このような問題点について、例を用いて説明する。
(第1の問題点)置き換えられた訳語と、置き換えられていない部分の語句との不統一。
(第2の問題点)置き換えられた訳語と、置き換えの元になった類似用例訳文中の語句との不統一。
まず、第1の問題点について述べる。
図9は、翻訳対象原文に対し類似用例を用いて作成された合成訳文の第1の例を示す図である。
翻訳対象の原文が、「To reduce the memory access of the above memory means, and to reduce the time required for reading and rewriting registration data in the memory means.」(欄901)であり、検索された類似用例の原文が「To reduce the memory capacity of a memory means, and to reduce the time required for recording information data in the memory means.」(欄902)であるとする。
上記例において、翻訳対象の原文と検索された類似用例の原文との差分は3箇所あり、それぞれ以下の通りである。図9における欄901と欄902において下線を引いた部分である。
「the memory access」と「the memory capacity」
「the above memory means」と「a memory means」
「reading and rewriting registration data」と「recording information data」
一方、この類似用例原文と対応付けて検索される類似用例訳文は「記憶手段の記憶容量を低減すると共に、記憶手段に情報データを記録するに要する時間を低減する。」(欄903)であるとする。
ここで、類似用例の原文と類似用例の訳文との間では、それぞれ以下のように対応付けられる。図9における欄902と欄903において下線を引いた部分である。
「the memory capacity」と「記憶容量」
「a memory means」と「記憶手段」
「recording information data」と「情報データを記録する」
そして、翻訳対象原文に対する合成訳文は、これらの対応関係に基づいて作成されることになるが、従来の技術によって作成された合成訳文は、「上記メモリ手段のメモリ・アクセスを低減すると共に、記憶手段中の登録データを読み書きし直すことに必要な時間を低減する。」(欄904)となっている。
ここで、翻訳対象の原文中の差分の語句は、それぞれ以下のように訳されて、類似用例訳文に対しての置き換え訳語として使用されている。図9における欄901と欄904において下線を引いた部分である。
「the memory access」→「メモリ・アクセス」
「the above memory means」→「上記メモリ手段」
「reading and rewriting registration data」→「登録データを読み書きし直すこと」
上記の置き換えられた訳語の「メモリ・アクセス」および「上記メモリ手段」の「メモリ」は、翻訳対象の原文中の「the memory access」と「the above memory means」の「memory」に対する訳語であるが、一方で、同じ翻訳対象の原文の文末にある「the memory means」の「memory」に対する訳語は、類似用例原文との差分ではないため置き換えられておらず、「記憶」のままである。
このように、従来の技術による合成訳文では、置き換えられた訳語「メモリ」と、置き換えられていない部分の語句「記憶」とが統一されていないという問題があった。
次に、第2の問題点について述べる。
類似用例中の差分、すなわち置き換えの元になった部分では、「the memory capacity」と「a memory means」中の「memory」は(欄902)、それぞれ「記憶容量」と「記憶手段」というように「記憶」と訳されている(欄903)。
これに対して、置き換え対象となった翻訳対象原文中の語句「the memory access」と「the above memory means」中の「memory」は(欄901)、類似用例中の差分の語句と類似度が高いにも係らず、「メモリ・アクセス」と「上記メモリ手段」というように「メモリ」と訳されている(欄904)。このように、従来の技術による合成訳文では、置き換えられた訳語の「メモリ」と、置き換えの元になった類似用例中の差分の語句の訳し方が、類似した語であるにも係らず統一されていないという問題があった。
ところで、他の従来の技術においては、類似用例中の語句と置き換えられた訳語を統一する工夫がなされているが、効果があるのは類似用例中の語とまったく同じ語がユーザ辞書に登録されている場合に限られている。また、合成語に関して、構成語の一部は同じでも他の一部が異なる合成語の場合には、合成語の共通部分の訳語を統一することはできなかった。また、そもそも、ユーザ辞書に登録されていない語句については、訳語統一を図ることができなかった。
これに対して、翻訳用例データベースに登録されている翻訳用例からあらかじめ用語を抽出してユーザ辞書に登録しておく対策が考えられる。しかし多くの場合、翻訳用例データベースには出典が異なる用例が登録されているため、抽出された用語が検索された類似用例の文脈に適しているとは限らないという新たな問題が発生する。
このように従来の技術では、置き換えられた訳語と、置き換えられていない部分の語句との不統一、置き換えられた訳語と、置き換えの元になった類似用例訳文中の語句との不統一という問題が起こる場合があった。
特開2006−11842号公報 特開2009−116585号公報 特開2005−208825号公報
本発明が解決しようとする課題は、合成訳文中の訳語の統一を図る技術を提供することである。
本発明の実施形態によれば、翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する。検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する。その翻訳対象原文と類似用例原文との構文上の差分となる語句を特定する。特定された翻訳対象原文中の差分語句については、その差分語句に対応する訳語を他の訳語候補より優先して選択する。類似用例訳文において、類似用例原文中の差分語句に対応する類似用例訳文中の語句を、選択された訳語を用いて置き換えることにより、翻訳対象原文の訳文を生成する。
実施形態の機械翻訳装置のハードウエア構成図 実施形態の機械翻訳装置の機能ブロック図 実施形態の機械翻訳装置の処理のフローチャート 図3の類似用例対応付け処理S309の詳細なフローチャート 実施例1における翻訳対象原文の形態素解析および構文解析の結果のツリー構造 実施例1における類似用例原文の形態素解析および構文解析の結果のツリー構造 実施例1における類似用例訳文の形態素解析および構文解析の結果のツリー構造 実施例1における原文語句・訳語対応テーブルの内容を示す図 翻訳対象原文に対し類似用例を用いて作成された合成訳文の第1の例を示す図 翻訳対象原文に対し類似用例を用いて作成された合成訳文の第2の例を示す図 実施例2における翻訳対象原文の形態素解析および構文解析の結果のツリー構造 実施例2における類似用例原文の形態素解析および構文解析の結果のツリー構造 実施例2における類似用例訳文の形態素解析および構文解析の結果のツリー構造 実施例2における原文語句・訳語対応テーブルの内容を示す図 実施例3における翻訳対象原文に対し類似用例を用いて訳語を選択する例を示す図
本実施形態は、類似用例を用いる機械翻訳装置において、検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶し、類似用例から記憶した語句と、機械翻訳用の辞書およびユーザ辞書に登録された各訳語の優先度を比較し、類似用例から記憶した語句を優先して翻訳選択することにより、訳語の統一を図るものである。
図1は、実施形態の機械翻訳装置のハードウエア構成図である。
図1において、機械翻訳装置11は、例えば一般的なコンピュータであり、メモリ19に記憶されたプログラム20を、演算制御装置12のプロセッサ18において実行する。
演算制御装置12には、表示装置13、マウス14、キーボード15、ディスクドライブ16及び記憶装置17が接続されている。表示装置13は、演算制御装置12の演算結果等を表示するものであり、マウス14やキーボード15等の入力装置は、表示装置13に表示されるユーザインターフェースとともに演算制御装置12に対する各種指令の入力に用いられる。また、キーボード15から翻訳対象の第一言語の原文文書を入力することも可能である。ディスクドライブ16は、翻訳対象の第一言語の原文文書などのファイルを記憶媒体に入出力するものであり、翻訳対象の第一言語の原文文書を入力する入力装置としても使用可能である。
記憶装置17は、演算制御装置12の演算結果や翻訳辞書等を記憶するものであり、例えば、複数個のハードディスクドライブ(HDD)で構成される。演算制御装置12は、プロセッサ18とメモリ19とを含んで構成されている。メモリ19には、プログラム20が記憶されると共に、プロセッサ18により演算処理が実行される際に使用される作業エリア21が設けられている。
図2は、実施形態の機械翻訳装置の機能ブロック図である。ここでは図1に示したハードウエア構成図を参照しながら説明する。
入力部22は翻訳対象となる第一言語の原文データの入力を受け付けるものである。例えば、図1に示したように、原文データがユーザ自身によりキーボード15等から直接入力されたときや、記憶媒体を介してディスクドライブ16から入力されたときに、原文データを演算制御装置12内のメモリ19や記憶装置17内に入力し記憶させるものである。
文分割部23は、入力部22から入力された原文データの原文を文単位に分割し、メモリ19の作業エリア21に格納するものである。1文単位で分割された原文は、制御部24に受け渡される。制御部24は、原文解析・翻訳部25、翻訳用例検索部26、差分判定部27、類似用例対応付け部28、差分語句訳語選択部29、訳語置換部30、辞書部31、翻訳用例データベース32、類似用例語句対応関係記憶部33、出力部34を制御するものである。
原文解析・翻訳部25は、入力部22から入力され、文分割部23によって1文単位に分割された原文に対して、辞書部31を参照しながら文の解析を行うものである。
翻訳用例検索部26は、文分割部23にて1文単位に分割された入力された原文を検索キーとして翻訳用例データベース部32から翻訳対象原文に類似する翻訳用例を検索するものである。
差分判定部27は、検索された類似用例原文と翻訳対象原文との差異部分を判定するものである。この差異部分に対応する類似用例原文中の語句と翻訳対象原文中の語句とが対応付けられる。この語句を差分語句という。
類似用例対応付け部28は、検索された類似用例原文と類似用例訳文との語句単位での対応付けを行うものである。ここで対応付けられた類似用例原文中の語句と類似用例訳文中の語句との対応関係は、類似用例語句対応関係記憶部33に記憶される。
差分語句訳語選択部29は、後述する辞書部31と類似用例語句対応関係記憶部33とを参照して、採用する訳語の優先度を特定の基準に基づいて算出することにより、前記差分判定部27によって特定された前記原文中の差異部分に対応する、第二言語による訳語の選択を行うものである。
訳語置換部30は、差分判定部27によって特定された類似用例訳文中の語句を、差分語句訳語選択部29によって取得した訳語で置き換えて、訳文を生成するものである。
辞書部31は、入力した第一言語の原文の解析及び第二言語への翻訳に必要な語彙・規則を格納するものであり、記憶装置17内に形成されている。翻訳に必要な規則では、特定の条件下において用いる語句の優先度などが指定されている。翻訳に必要な語彙・規則は、辞書部31の語彙部31a、形態素解析処理部31b、構文解析部31c、変換規則部31d、および生成規則部31eに格納されている。類似用例は翻訳用例データベース32に格納されている。
出力部34は、原文解析・翻訳部25によって生成された翻訳の結果を出力装置に出力するものである。例えば、出力装置としての表示装置13に表示出力する。出力装置は図1の表示装置13だけでなく、表示装置13による出力に代え、あるいは、表示装置13による出力に加えて、音声により音声出力装置に出力するようにしてもよいし、印刷装置に印刷出力するようにしてもよいし、ディスクドライブ16を介して記録媒体に出力するようにしてもよい。
図2に示す演算制御装置12内の各部は、図1に示したプロセッサ18がプログラム20をメモリ19に読み込んで実行することで、演算制御装置12は当該各部として機能するものである。
図3は、実施形態の機械翻訳装置の処理のフローチャートである。
ユーザが入力装置から翻訳対象の第一言語の原文を入力すると、入力部22は原文を受け付ける(ステップS301)。入力された原文は、メモリ19または記憶装置17に記憶される。次に、文分割部23は、メモリ19または記憶装置17から原文を読み出して1文単位に分割する(ステップS302)。分割された原文の各1文に対して、制御部24は、変数iに「1」をセットし(ステップS303)、i番目の原文1文を取り出す(ステップS304)。i番目の原文1文はメモリ19の作業エリア21に取り出される。
次に、取り出されたi番目の原文1文に対して、原文解析・翻訳部25は、辞書部31を参照して原文言語解析処理を行う(ステップS305)。すなわち、原文解析・翻訳部25が語彙部31a及び形態素解析規則部31bを参照して原文1文の形態素解析処理を行い、構文解析規則部31cを参照して構文解析処理を行い、原文1文を構成する各語の品詞、構文に関する情報を取得する。なお、ここで用いる構文解析処理その他の技術は、本実施形態に固有のものではなく、言語処理に関わる一般的な技術である。
続いて、翻訳用例検索部26が、原文を検索キーとして翻訳用例データベース32から前記原文と同一または類似している翻訳用例を検索する(ステップS306)。類似用例の検索は、原文を構成する各単語と一致する単語数の割合から算出される文の一致度、その他の属性の一致などを考慮して行われる。
なお、単語の一致の判定を行うに当たり、ステップS305で取得した言語解析処理の結果を用いて、表記の揺れは違いとみなさない処理を行うこともできる。表記の揺れとは、長音記号の有無などのカタカナ表記や送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れなどを指している。
もちろん、表記の揺れは吸収しない完全一致の翻訳用例のみを検索結果とする実施形態も可能である。また、文字・単語上の違いがあっても、違いの割合が特定の値以下の場合は違いを無視するというように、差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する実施形態であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出することもできる。この場合は、用例検索のステップS306を辞書引き処理・形態素解析のステップS305の後に行う必要はない。
用例検索では、複数の類似用例が検索される場合もあるが、最終的には類似度が最も高い用例を絞り込み、処理対象とする。本実施形態の本質的な部分でないためここでは詳細に説明しないが、複数の類似用例から優先度の最も高い用例を決定するには、類似度、用例の登録者、登録日時などの基準を用いて行うのが一般的である。
翻訳用例検索部26が、類似用例があると判定した場合は(ステップS307:Yes)、類似用例をメモリ19の類似用例記憶エリアに記憶する。
続いて、処理対象の類似用例に対して差分関連の処理を行う(ステップS308〜ステップS311)。まず差分判定部27によって、翻訳対象原文と類似用例原文に対して差分対応付け処理を行う(ステップS308)。差分対応付けの具体例については後で説明する。
次に、類似用例対応付け部28によって、類似用例に対して類似用例対応付け処理を行う(ステップS309)。すなわち、原文の語句と訳文の語句との対応付けである。この類似用例対応付け処理のステップS309の詳細については後で図4を参照して説明する。
続いて差分語句訳語選択部29が、差分判定部27によって判定された翻訳対象原文と類似用例原文との差分語句に対して、辞書部31の語彙部31aおよび類似用例語句対応関係記憶部33を参照してその訳語を選択・取得する、差分語句訳語取得処理を行う(ステップS310)。
その後、訳語置換部30が、差分語句訳語選択部29が取得した訳語を用いて、差分判定部27によって判定済みの差分語句に対応する類似用例訳文中の語句を置き換える(ステップS311)。訳語置換処理の結果得られた訳文をi番目の原文1文の翻訳結果とする。
一方、ステップS307の判定で、類似用例はないと判定した場合は(ステップS307:No)、差分関連の処理(ステップS308〜ステップS311)を行わず省略してステップS312に移行し、原文解析・翻訳部25によるi番目の原文1文の翻訳処理が行われる(ステップS312)。
最後に、上流の各処理によって得られた翻訳結果を、出力部33から表示する(ステップS313)。表示される内容としては、ステップS307で類似用例が検出されなかった場合には、ステップS312で得られた翻訳結果が表示される。ステップS307で類似用例が見つかり、かつステップS308の差分対応付け処理にて類似用例の原文中の差分に一対一に対応する類似用例の訳文中の語句の判定(対応付け)が成功している場合には、類似用例の訳文に対して、ステップS309で得られた翻訳対象原文の差分に対応する訳語を置き換えた訳文が表示される。
なお、ステップS307で類似用例が検出されてはいたが、ステップS308の差分対応付け処理にて類似用例の原文中の差分に一対一に対応する類似用例の訳文中の語句の判定(対応付け)に失敗している場合には、ステップS307で検出された類似用例の訳文が、参考訳文として表示される。
そして、原文のすべての文について処理が終了したかどうか、つまり全原文処理が終了したかどうかを判定し(ステップS314)、原文のすべての文に対する処理が終了している場合は処理を終了し、原文のすべての文に対する処理が終了していない場合には、変数iに「1」を加算して(i=i+1)とし(ステップS315)、ステップS304に戻る。
図4は、図3の類似用例対応付け処理S309の詳細なフローチャートである。
原文解析・翻訳部25は、類似用例の原文と翻訳対象の原文とをメモリ19の作業エリア21に取り出し、翻訳用例検索部26によって取得された類似用例の原文に対して、図3のステップS305において翻訳対象原文に対して行ったものと同様な言語解析処理を行う(ステップS401)。
次に、類似用例の訳文に対しても、原文と同様な言語解析処理を原文解析・翻訳部25が行う(ステップS402)。
ステップS401とステップS402において得られた言語解析結果を用いて、差分判定部27が、翻訳対象原文中の語句と類似用例原文中の語句との対応付けを行う(ステップS403)。
ここで、図9に示した英日機械翻訳の具体例において、同図の翻訳対象原文(欄901)に対して同図の類似用例原文(欄902)および類似用例訳文(欄903)が検出された場合における、ステップS308の差分対応付け処理およびステップS309の類似用例対応付け処理について詳しく説明する。
図5は、実施例1における翻訳対象原文の形態素解析および構文解析の結果のツリー構造である。
図5の翻訳対象原文は、図9に示した翻訳対象原文(欄901)と同じものである。この翻訳対象原文に対して、ステップS305の原文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
実線で囲まれた語句は形態素解析によって得られた文を構成する各要素であり、これら各要素をつなぐ線によって、各要素同士の構文上のつながり方が表現されている。本実施形態において、このように文を構成する各語句の構文上のつながりを図上に表したものをツリー構造と呼ぶ。
図5において、例えば、「memory access」は、形態素としては「memory」および「access」の二つの単語からなるものであるが、構文解析によるツリー構造においては「memory access」という一つの要素となっている。また、「memory means」についても同様にツリー構造における一つの要素となっている。
図6は、実施例1における類似用例原文の形態素解析および構文解析の結果のツリー構造である。
図6の類似用例原文は、図9に示した類似用例原文(欄902)と同じものである。この類似用例原文に対して、ステップS401の類似用例原文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
破線で囲まれた語句は、類似用例原文を構成する各要素に対する第二言語の訳語候補として語彙部31aに登録されている訳語候補のリストである。訳語が複数あるものはコンマで区切って列挙しており、訳語がない場合は「Φ」記号で表される。後述する類似用例原文と類似用例訳文の差分の対応付け(ステップS404)の処理で使用する。
この図5および図6のツリー構造のマッチングにより、翻訳対象原文と類似用例原文との差分を以下のように判定する(ステップS403)。
翻訳対象原文:「the memory access」―― 類似文用例原文:「the memory capacity」
翻訳対象原文:「the above memory means」―― 類似文用例原文:「a memory means」
翻訳対象原文:「reading and rewriting registration data」―― 類似文用例原文:「recording information data」
なお、このようなツリー構造を基にした文のマッチングの手法は、特開2005−208825号公報等に開示される既存の手法であり、その説明は省略する。
図7は、実施例1における類似用例訳文の形態素解析および構文解析の結果のツリー構造である。
図7の類似用例訳文は、図9に示した類似用例訳文(欄903)と同じものである。この類似用例訳文に対して、ステップS402の類似用例訳文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
破線で囲まれた語句は、類似用例訳文を構成する各要素に対する第一言語の訳語候補として語彙部31aに登録されている訳語候補のリストである。
次に、類似用例原文と類似用例訳文との対応付け処理の流れの概要を以下に示す。
[1]類似用例対応付け部28が、以下の処理を類似用例原文の各構成要素について行う。
[1−1]類似用例原文を構成する語句(第一言語)に対して、類似用例訳文(第二言語)を構成する各語句の訳語(第一言語)から一致するものを検索し、一致する訳語を持つ類似用例訳文の構成語を、類似用例原文の構成語に対応する類似用例訳文の対応語候補(第一言語)として抽出する。候補が複数存在すれば、複数の候補を抽出する。
[1−2]類似用例訳文を構成する各語句(第二言語)に対して、類似用例原文(第一言語)を構成する各語句の訳語(第二言語)から一致するものを検索し、一致する訳語を持つ類似用例原文の構成語を、類似用例訳文の構成語に対応する類似用例原文の対応語候補(第二言語)として抽出する。候補が複数存在すれば、複数の候補を抽出する。
[2]上記[1]の結果、対応関係に重複がなく1対1に対応が決まる場合、類似用例対応付け部28が、対応関係のつけられた語句を確定する。
以上説明した対応付け処理によって得られた類似用例原文と類似用例訳文を構成する各語句の対応関係に基づいて、原文語句・訳文語句対応テーブル33aを作成し(S404)、類似用例語句対応関係記憶部33に格納する。
図8は、実施例1における原文語句・訳語対応テーブルの内容を示す図である。
すなわち、図6の類似用例原文の形態素解析および構文解析の結果として得られるツリー構造と、図7の類似用例訳文の形態素解析および構文解析の結果として得られるツリー構造とから、類似用例対応付け部28による上記[1][2]の対応付け処理によって得られた対応関係である。この内容が、類似用例語句対応関係記憶部33に格納される。
次に、翻訳対象原文の差分語句に対する差分語句訳語取得部29による処理を、翻訳対象原文(欄901)の差分語句の一つである「the above memory means」を用いて説明する。まず、差分語句訳語取得部29が「the above memory means」を構成する各語(「the above」についてはここでは説明を省略する)の訳語を、語彙部31aおよび原文語句・訳文語句対応テーブル33aを参照して取得する。取得される訳語候補は以下の通りとなる。
(語彙部31aに登録されている訳語候補)
「memory」の訳語候補:「メモリ」「記憶」「回想」等
「means」の訳語候補:「方法」「手段」「財力」等
(原文語句・訳文語句対応テーブル33aに登録されている訳語候補)
「memory」の訳語候補:「記憶」
「means」の訳語候補:「手段」
「memory means」の訳語候補:「記憶手段」
また、この例では、以下(1)および(2)の場合を想定している。
(1)ユーザ辞書に「memory」「means」「memory means」は登録されていない。
(2)語彙部31aに登録されている各訳語に対して、訳語の優先順位に関する翻訳規則は登録されていない。
本実施形態は、このように語彙部31aにおいて置き換え対象の訳語の候補が複数ある場合に、原文語句・訳文語句対応テーブル33aに基づいて、類似用例から記憶した語句を優先して選択することにより、訳語統一を行う。
また、変形例としては、各訳語の優先度は、以下の各基準を満たす訳語の優先度に点数を加算することで算出するようにしてもよい。
1.見出し語が、差分語句である「memory means」と一致している単語数が多いほど高得点を加算する。
2.語彙部31aに、訳語の優先順位に関する規則が登録されている。
3.原文語句・訳文語句対応テーブル33aに登録されている。
4.ユーザ辞書に登録されている。
このような優先度を算出する場合、上記3.の基準である原文語句・訳文語句対応テーブル33aに登録されていることの点数を高くすると好ましい。これらの基準に基づいて上記の訳語候補の優先度を算出すると、「memory means」に対応付けられた「記憶手段」の優先度の値が最も大きくなり、訳語として選択される。
その結果、本実施形態において、翻訳対象原文(欄901)に対する合成訳文は、「上記記憶手段の記憶アクセスを低減すると共に、記憶手段中の登録データを読み書きし直すことに必要な時間を低減する。」となる(欄905)。つまり、「memory」に対する訳語は「記憶」に統一されることになる。
なお、上記の基準については、ステップS306で行った類似用例検索処理と同様な、表記の揺れを吸収する処理を行っても良い。
また、必要に応じて、上記の訳語の優先度の算出に際して、加算する点数に条件に応じた重みを付けても良い。これによって、例えば会社名などの固有名詞が登録されているユーザが作成した辞書には大きな点数を与え、どのような状況でも登録した訳語が選出されるようにすることもできる。また、必要に応じて、特定の翻訳規則に対して大きな点数を与えることで、例えば慣用表現などに対しては、語彙部に登録された訳語が優先して選出されるようにすることもできる。
上記の例では、差分語句訳語選択部29において算出された優先度の値に基づいて訳語を自動的に決定したが、優先度判断の対象となった語句をユーザに一覧表示する訳語候補表示部を設けることもできる。具体的には、類似用例で使われている訳語とユーザ辞書、翻訳辞書とに登録されている訳語をユーザに一覧表示することができる。その場合、訳語候補は優先度の高い順に並べるユーザインタフェースを設けるようにする。
これによって、類似用例を基に合成された訳文における訳語の統一を図る際に、ユーザの判断を加味することができる。また、ユーザが自動的に選択された訳語以外の訳語を選択する際の労力を削減することもできる。
また、優先度の値に基づいて決定された訳語以外の訳語候補をユーザが選択した場合には、ユーザ辞書に自動的に登録する、あるいは、ユーザ辞書に登録することをユーザに知らせる訳語優先度編集部を設けることもできる。これによって、ユーザが何度も訳語選択をする労力を削減することができる。
もしくは、翻訳対象原文と類似用例原文との差分語句に対応する第二言語による訳語を決定する際に、表示された訳語の優先度を編集できるようにしてもよい。これによって、表示された訳語とは異なる訳語を選択することもできる。編集した優先度が記憶されるため、次回から変更後の優先度が適用され、ユーザが何度も同じ訳語の優先度を編集する手間を省くことができる。
図10は、翻訳対象原文に対し類似用例を用いて作成された合成訳文の第2の例を示す図である。
翻訳対象の原文が、「Over a 63-month period, FAST scans were retrospectively studied.」(欄1001)であり、検索された類似用例の原文が「Over a 63-month period, FAST scans were prospectively studied.」(欄1002)であるとする。
上記例において、翻訳対象の原文と検索された類似用例の原文との差異部分は1箇所あり、以下の通りである。図10における欄1001と欄1002において下線を引いた部分である。
「retrospectively」と「prospectively」
一方、この類似用例原文と対応付けて検索される類似用例訳文は「63ヶ月に渡ってFASTを前向きに調査した。」(欄1003)であるとする。
ここで、類似用例の原文と類似用例の訳文との間では、差異部分の対応訳語は、以下のように対応付けられる。図10における欄1002と欄1003において下線を引いた部分である。
「prospectively」と「前向きに」
そして、翻訳対象原文に対する合成訳文は、これらの対応関係に基づいて作成されることになるが、従来の技術によって作成された合成訳文は、「63ヶ月に渡ってFASTを回顧的に調査した。」(欄1004)となっている。
この従来の技術によって作成された合成訳文においては、翻訳対象の原文中の差異部分の語句は、辞書部の語彙部における見出し語とその訳語(欄1100)に従って、以下のように訳されて、置き換え訳語として使用される。図10における欄1001と欄1004において下線を引いた部分である。
「retrospectively」→「回顧的に」
この類似用例中の差分、すなわち置き換えの元になった部分では、「retrospectively」が「回顧的に」と訳されている。このように、従来の技術による合成訳文では、置き換えられた訳語の「回顧的に」が、置き換えの元になった類似用例訳文の文脈にそぐわないという問題があった。
そこで、本実施形態において作成された合成訳文によれば、欄1005に示すように、「63ヶ月に渡ってFASTを後ろ向きに調査した。」という適切な結果となる。以下、この結果が得られる処理について具体的に説明する。
図11は、実施例2における翻訳対象原文の形態素解析および構文解析の結果のツリー構造である。
図11の翻訳対象原文は、図10に示した翻訳対象原文(欄1001)と同じものである。この翻訳対象原文に対して、ステップS305の原文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
図12は、実施例2における類似用例原文の形態素解析および構文解析の結果のツリー構造である。
図12の類似用例原文は、図10に示した類似用例原文(欄1002)と同じものである。この類似用例原文に対して、ステップS401の類似用例原文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
そして、この図11および図12のツリー構造のマッチングにより、翻訳対象原文と類似用例原文との差異部分を以下のように判定する(図4のステップS403、図10に示した翻訳対象原文の欄1001と類似用例原文の欄1002において下線を引いた差異部分を参照。)。
翻訳対象原文:「retrospectively」―― 類似文用例原文:「prospectively」
図13は、実施例2における類似用例訳文の形態素解析および構文解析の結果のツリー構造である。
図13の類似用例訳文は、図10に示した類似用例訳文(欄1003)と同じものである。この類似用例訳文に対して、ステップS402の類似用例訳文言語解析(形態素解析および構文解析)の処理の結果として得られるツリー構造が示されている。
そして、この対応付け処理によって得られた類似用例原文と類似用例訳文を構成する各語句の対応関係に基づいて、原文語句・訳文語句対応テーブル33aを作成し(S404)、類似用例語句対応関係記憶部33に格納する。
図14は、実施例2における原文語句・訳語対応テーブルの内容を示す図である。
すなわち、図12の類似用例原文の形態素解析および構文解析の結果として得られるツリー構造と、図13の類似用例訳文の形態素解析および構文解析の結果として得られるツリー構造とから、類似用例対応付け部28による上記[1][2]の対応付け処理によって得られた対応関係である。
次に、翻訳対象原文の差分語句に対する差分語句訳語取得部29による処理を、翻訳対象原文(欄1001)の差分語句である「retrospectively」を用いて説明する。まず、差分語句訳語取得部29が「retrospectively」の訳語を、語彙部31aおよび原文語句・訳文語句対応テーブル33aを参照して取得する。取得される訳語候補は以下の通りとなる。
(語彙部31aに登録されている訳語候補。図10および図11の欄1100参照。)
「retrospectively」の訳語候補:回顧的に、回想的に、遡及的に、後ろ向きに、…
(図14の原文語句・訳文語句対応テーブル33aに登録されている訳語候補)
「prospectively」の訳語候補:「前向きに」
また、この例では、以下(1)および(2)の場合を想定している。
(1)ユーザ辞書に「retrospectively」は登録されていない。
(2)語彙部31aに登録されている各訳語に対して、訳語の優先順位に関する翻訳規則は登録されていない。
本実施例では、各訳語の優先度は、以下の基準を満たす訳語の優先度に点数を加算することで算出する。
1.見出し語が、差分語句である「retrospectively」と一致している単語数が多いほど高得点を加算する。
2.差分語句に対する類似用例訳文中の対応訳語「前向きに」と文字列の類似度が高いほど高得点を加算する。(図10および図12の欄1200参照。)
3.語彙部31aに、訳語の優先順位に関する規則が登録されている。
4.原文語句・訳文語句対応テーブル33aに登録されている。
5.ユーザ辞書に登録されている。
これらの基準に基づいて上記の訳語候補の優先度を算出すると、「後ろ向きに」の優先度の値が最も大きくなり、図10に示すように、訳語として選択される。上記の基準2.の類似度は、例えば、一致している文字数の割合などによって算出することができる。上記の基準1.および2.では、S306で行った類似用例検索処理と同様な、表記の揺れを吸収する処理を行っても良い。
図15は、実施例3における翻訳対象原文に対し類似用例を用いて訳語を選択する例を示す図である。
翻訳対象の原文が、「Additional inflammatory reaction to tick salivary proteins also may help prevent transmission.」(欄1501)であり、検索された類似用例の原文が「Additional inflammatory reaction to mosquito salivary proteins also may help prevent transmission.」(欄1502)であるとする。
上記例において、翻訳対象の原文と検索された類似用例の原文との差異部分は1箇所あり、以下の通りである。図15における欄1501と欄1502において下線を引いた部分である。
「tick」と「mosquito」
一方、この類似用例原文と対応付けて検索される類似用例訳文は「蚊の唾液タンパクに対するその他の炎症反応も、伝播の防止に役立つと考えられる。」(欄1503)であるとする。
ここで、類似用例の原文と類似用例の訳文との間では、差異部分の対応訳語は、以下のように対応付けられる。図15における欄1502と欄1503において下線を引いた部分である。
「mosquito」と「蚊」
次に、翻訳対象原文の差分語句に対する差分語句訳語取得部29による処理を、翻訳対象原文(欄1501)の差分語句である「tick」を用いて説明する。まず、差分語句訳語取得部29が「tick」の訳語を、語彙部31aおよび原文語句・訳文語句対応テーブル33aを参照して取得する。取得される訳語候補は以下の通りとなる。
(語彙部31aに登録されている訳語候補。図15の欄1504参照。)
「tick」の訳語候補:名詞:「かちかち(という音)」(属性:擬音)、「ダニ」(属性:生物)、・・・、
動詞「かちかち音を立てる」、・・・
「mosquito」の訳語候補:名詞:「蚊」(属性:生物)、「小型止血鉗子」(属性:道具)・・・、
本実施例では、各訳語の優先度は、以下の基準を満たす訳語の優先度に点数を加算することで算出する。
1.差分語句に対する類似用例訳文中の対応訳語「蚊」と属性が似ているほど高得点を加算する。
2.(他の実施例と同様とし省略)
これらの基準に基づいて上記の訳語候補の優先度を算出すると、「ダニ」の優先度の値が最も大きくなり、図15に示すように、訳語として選択される。
以上説明したように、本実施形態では、翻訳対象原文と類似した翻訳用例(類似用例)の一部を自動的に編集して訳文を作成する機械翻訳において、訳文における訳語の統一を行う。本実施形態では、検索された類似用例原文中の語句と類似用例訳文中の語句の対応関係を記憶し、類似用例訳文から記憶した語句と、機械翻訳用の辞書およびユーザ辞書に登録された各訳語の優先度を比較し、類似用例訳文から記憶した語句を優先して訳語選択を行う。これによって、類似用例を基に合成された訳文における訳語の統一を図ることができる。
本実施形態の機械翻訳処理は、英日翻訳のみならず、日英翻訳及び他の言語間での翻訳、例えば中日翻訳や日中翻訳にも適用可能である。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
11・・・機械翻訳装置
12・・・演算制御装置
17・・・記憶装置
22・・・入力部
23・・・文分割部
24・・・制御部
25・・・原文解析・翻訳部
26・・・翻訳用例検索部
27・・・差分判定部
28・・・類似用例対応付け部
29・・・差分語句訳語選択部
30・・・訳語置換部
31・・・辞書部
32・・・翻訳用例データベース
33・・・類似用例語句対応関係記憶部
33a・・・原文語句・訳文語句対応テーブル
34・・・出力部

Claims (4)


  1. 翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する翻訳用例検索部と、

    前記翻訳用例検索部により検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する類似用例語句対応関係記憶部と、

    前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定する差分判定部と、

    前記差分判定部により特定された前記翻訳対象原文中の差分語句に対して、前記類似用例語句対応関係記憶部におけるその差分語句に対応する訳語を他の訳語候補より優先して選択する差分語句訳語選択部と、

    前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記差分語句訳語選択部により選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成する訳語置換部とを有する機械翻訳装置。

  2. 前記差分語句訳語選択部における優先度を変更し記憶する訳語優先度編集部をさらに有する請求項1記載の機械翻訳装置。

  3. 翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索するステップと、

    前記検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶するステップと、

    前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定するステップと、

    前記特定された前記翻訳対象原文中の差分語句に対して、その差分語句に対応する訳語を他の訳語候補より優先して選択するステップと、

    前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成するステップとを有する機械翻訳方法。

  4. 翻訳用例原文と翻訳用例訳文とが対応付けて記憶されている記憶装置から翻訳対象原文に類似する類似用例原文をその類似用例訳文とともに検索する手順と、

    前記検索された類似用例原文中の語句と類似用例訳文中の語句との対応関係を記憶する手順と、

    前記翻訳対象原文と前記類似用例原文との構文上の差分となる語句を特定する手順と、

    前記特定された前記翻訳対象原文中の差分語句に対して、その差分語句に対応する訳語を他の訳語候補より優先して選択する手順と、

    前記類似用例訳文において、前記類似用例原文中の前記差分語句に対応する当該類似用例訳文中の語句を、前記選択された訳語に置き換えて、前記翻訳対象原文の訳文を生成する手順とをコンピュータに実行させるためのプログラム。
JP2012064234A 2012-03-21 2012-03-21 機械翻訳装置、機械翻訳方法およびプログラム Expired - Fee Related JP5909123B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012064234A JP5909123B2 (ja) 2012-03-21 2012-03-21 機械翻訳装置、機械翻訳方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012064234A JP5909123B2 (ja) 2012-03-21 2012-03-21 機械翻訳装置、機械翻訳方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013196493A JP2013196493A (ja) 2013-09-30
JP5909123B2 true JP5909123B2 (ja) 2016-04-26

Family

ID=49395326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012064234A Expired - Fee Related JP5909123B2 (ja) 2012-03-21 2012-03-21 機械翻訳装置、機械翻訳方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5909123B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110012190A (zh) * 2017-12-15 2019-07-12 京瓷办公信息系统株式会社 图像处理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
JP5148583B2 (ja) * 2009-10-27 2013-02-20 株式会社東芝 機械翻訳装置、方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110012190A (zh) * 2017-12-15 2019-07-12 京瓷办公信息系统株式会社 图像处理装置
CN110012190B (zh) * 2017-12-15 2021-05-11 京瓷办公信息系统株式会社 图像处理装置

Also Published As

Publication number Publication date
JP2013196493A (ja) 2013-09-30

Similar Documents

Publication Publication Date Title
JP4504555B2 (ja) 翻訳支援システム
JP4911028B2 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
KR20170106308A (ko) 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
US20050267734A1 (en) Translation support program and word association program
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP4528818B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JPH07325826A (ja) 日本語処理システム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JPH08329059A (ja) 汎用参照装置
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP2018055328A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JPH0561902A (ja) 機械翻訳システム
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP3248180B2 (ja) 機械翻訳システム
JP2011210193A (ja) 機械翻訳装置および機械翻訳プログラム
JP2011210194A (ja) 機械翻訳装置および編集に用いる編集条件ファイルのデータ構造

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150216

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160325

R150 Certificate of patent or registration of utility model

Ref document number: 5909123

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees