JP6056489B2 - 翻訳支援プログラム、方法、および装置 - Google Patents

翻訳支援プログラム、方法、および装置 Download PDF

Info

Publication number
JP6056489B2
JP6056489B2 JP2013004403A JP2013004403A JP6056489B2 JP 6056489 B2 JP6056489 B2 JP 6056489B2 JP 2013004403 A JP2013004403 A JP 2013004403A JP 2013004403 A JP2013004403 A JP 2013004403A JP 6056489 B2 JP6056489 B2 JP 6056489B2
Authority
JP
Japan
Prior art keywords
morpheme
translation
source language
sentence
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013004403A
Other languages
English (en)
Other versions
JP2014137613A (ja
Inventor
富士 秀
秀 富士
友樹 長瀬
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013004403A priority Critical patent/JP6056489B2/ja
Publication of JP2014137613A publication Critical patent/JP2014137613A/ja
Application granted granted Critical
Publication of JP6056489B2 publication Critical patent/JP6056489B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本明細書で議論される実施態様は、翻訳支援プログラム、方法、および装置に関する。
一般的に、翻訳者が翻訳作業を行う場合、最初から人手で翻訳する場合と、あらかじめ機械翻訳を用いて一次訳を作成してそれを編集して翻訳文(以下、訳文と略す場合がある)を完成させる場合がある。
翻訳業界では、翻訳者が不注意によって原言語文(以下、原文と略す場合がある)中の一部の単語を訳し忘れる、いわゆる「訳抜け」は訳質管理上の重大なエラーである。そのため、訳抜けのない訳文を作成するために多くのチェック工数が割かれている。しかし、チェック工数が多くなるとチェック者の負荷が高くなるという問題もある。
例えば、機械翻訳文を編集する際の、「挿入、削除、置換」等の操作履歴を保存する技術は知られている。また、編集操作時に編集対象となった文字列の形態素解析を行い、自立語の数の増減を算定する技術も知られている。更に、初期状態よりも語数が減っている場合に訳抜け発生として編集操作を行うユーザに警告する技術も知られている。
例えば、原文と訳文の形態素情報を得て、それぞれの名詞、動詞、形容詞、副詞の数等から、文の長さを比較し、訳文の方が短い時は情報量が減っているため誤り率を求め通知する技術が知られている。
また、例えば、指定のキーワードのみを先ず翻訳し、キーワードの数を比較し、異なる場合は訳抜けが有ると判断し、原文で翻訳されなかった部分はマニュアルで翻訳し、翻訳完了後に訳抜けを自動チェック可能にする技術が知られている。
また、例えば、訳文と訂正訳文との互いの差分を識別表示する技術、手直しの判断を相違する文字数や形態素数のカウントなどで行なう技術が知られている。
特開2000−148756号公報 特開2005−071017号公報 特開2006−178682号公報
従来の技術を用いれば、機械翻訳文を編集する際の「挿入、削除、置換」の操作を保存し、この操作を通じての自立語の増減を算定し、編集前と比べて自立語数が減っている場合に訳抜けが存在していることを提示することができる。
しかし、従来の技術では、訳抜けが原文中のどこかで発生したことは検知できても、実際にどの単語が訳抜けとなったかを検知し、これをユーザに知らせることができない、という問題があった。
1つの側面において、本発明は、機械翻訳による翻訳文を編集して対訳文を作成する際に、原文中の訳抜けの可能性がある部分を提示することを目的とする。
本明細書で後述する翻訳支援プログラムは、以下の処理をコンピュータに実行させる。この処理は、まず、翻訳対象となる原言語文を受け付ける。次に、原言語文に対して翻訳処理を実行して、原言語文に対応する目標言語の翻訳文を生成する。続いて、翻訳文に対する編集操作入力を受け付ける。更に、編集操作入力によって翻訳文に対して編集された編集文字列を抽出する。そして、単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、編集文字列に対して形態素解析を実行し、編集によって挿入された文字列に対応する第1の形態素列と、編集によって削除された文字列に対応する第2の形態素列とを生成する。次に、目標言語の単語に対して目標言語の同義語を対応付ける同義語辞書を参照しながら、第1の形態素列および第2の形態素列に含まれる各形態素に対して同義語展開を行い、同義語を有する形態素には同義語を併記する。続いて、第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行う。そして、第1の形態素列には含まれず第2の形態素列のみに含まれる形態素を差分の形態素として検知する。更に、目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、検知された差分の形態素に対して対訳辞書検索を行い、差分の形態素の原言語による表記を取得する。続いて、原言語による表記を原言語文と照合し、原言語による表記に対応する原言語文中の単語を訳抜け候補として特定する。最後に、記訳抜け候補を示す情報を出力する。
実施形態の翻訳支援プログラムによれば、機械翻訳による翻訳文を編集して対訳文を作成する際に、原文中の訳抜けの可能性がある部分を提示することができるという効果を奏する。
第1の実施形態に係る翻訳支援装置の構成図である。 第1の実施形態に係る翻訳支援処理において、原文と、初期状態の機械翻訳文とを示す図である。 第1の実施形態に係る翻訳支援処理において、原文と、編集した機械翻訳文とを示す図である。 第1の実施形態に係る翻訳支援処理において、原文と、編集した修正履歴のある機械翻訳文とを示す図である。 第1の実施形態に係る翻訳支援処理において、編集文字列の意味を示す表である。 第1の実施形態に係る翻訳支援処理において、編集文字列への形態素解析の結果を示す表である。 第1の実施形態に係る翻訳支援処理において、形態素の同義語展開を行った形態素解析の結果を示す表である。 第1の実施形態に係る翻訳支援処理において、「削除」および「挿入」の自立語形態素をマッチングさせて差分の形態素を特定する表を示す。 第1の実施形態に係る翻訳支援処理において、原文と、文節解析した原文とを示す図である。 第1の実施形態に係る翻訳支援処理において、対応なしの形態素について対訳辞書検索を行った結果を示す図である。 第1の実施形態に係る翻訳支援処理において、対応なしの形態素について対訳辞書検索を行った結果を示す図である。 第1の実施形態に係る翻訳支援処理において、ユーザへの訳抜け可能性の警告の表示例を示す図である。 標準的なコンピュータのハードウエア構成の一例を示すブロック図である。 第1の実施形態に係る翻訳支援プログラムにおける処理内容の全体を図解したフローチャートである。 第2の実施形態に係る翻訳支援装置の構成図である。 第2の実施形態に係る翻訳支援プログラムにおける処理内容の全体を図解したフローチャートである。
まず、「原言語」および「目標言語」の意味について説明する。これらは、日本語、英語、仏語、独語、中国語等の自然言語中のいずれか異なる言語の組み合わせから選択される。「原言語」とは翻訳する前の言語を意味し、「目標言語」とは翻訳した後の言語を意味する。
また、「原言語文」とは、原言語からなる文のことであり、以下、「原文」と省略する場合がある。「翻訳文」とは、目標言語からなる翻訳された文のことであり、以下、「訳文」と省略する場合がある。
本明細書に記載する技術は、いかなる二言語間の翻訳に対しても適用可能である。
発明者らは、まず、編集前の初期状態の機械翻訳では、原文単語と訳文単語の間で対応が付いているため、結果として訳抜けが起きていない状態であることに着目した。ユーザが初期状態の機械翻訳文を編集する際に、挿入・削除・置換等の操作履歴を記録しておく。更に、挿入・削除それぞれの対象文字列について形態素解析を行い、原言語と目標言語の間で対応する形態素の対を見つけることができる。
実施形態では、ここで「削除」操作において、原文単語と訳文単語で対応しない形態素が存在した場合に、この単語で訳抜けが発生していることを検知する。この時点では、訳抜け単語に対応する訳文側単語がわかっているが、ここから対訳辞書を用いて対応する原文単語を特定する。原文中の訳抜け単語を特定してこれをユーザに提示することにより、従来技術の問題点を解決することを見出した。
<第1の実施形態>
本実施形態は、以下の処理をコンピュータに実行させる。この処理は、まず、翻訳対象となる原言語文を受け付ける。次に、原言語文に対して翻訳処理を実行して、原言語文に対応する目標言語の翻訳文を生成する。続いて、翻訳文に対する編集操作入力を受け付ける。更に、編集操作入力によって翻訳文に対して編集された編集文字列を抽出する。そして、単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、編集文字列に対して形態素解析を実行し、編集によって挿入された文字列に対応する第1の形態素列と、編集によって削除された文字列に対応する第2の形態素列とを生成する。次に、目標言語の単語に対して目標言語の同義語を対応付ける同義語辞書を参照しながら、第1の形態素列および第2の形態素列に含まれる各形態素に対して同義語展開を行い、同義語を有する形態素には同義語を併記する。続いて、第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行う。そして、第1の形態素列には含まれず第2の形態素列のみに含まれる形態素を差分の形態素として検知する。更に、目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、検知された差分の形態素に対して対訳辞書検索を行い、差分の形態素の原言語による表記を取得する。続いて、原言語による表記を原言語文と照合し、原言語による表記に対応する原言語文中の単語を訳抜け候補として特定する。最後に、記訳抜け候補を示す情報を出力する。
まず、第1の実施形態に係る翻訳支援装置について、図1〜図12を参照しながら説明する。本実施形態に係る技術は、いかなる二言語間の翻訳に対しても適用可能である。以下の実施例では、翻訳の対象言語として日英翻訳をとりあげて説明する。
図1は、第1の実施形態に係る翻訳支援装置100の構成図である。図1に示すように、本実施形態に係る翻訳支援装置100は、入力文受付部101、機械翻訳部102、編集入力受付部103、編集文字列抽出部104、形態素解析辞書105、形態素解析部106、同義語辞書107、同義語展開部108、挿入・削除対応付け部109、差分検知部110、対訳辞書111、対訳辞書検索部112、訳抜け候補特定部113、および訳抜け警告出力部114を備える。
入力文受付部101は、翻訳対象となる原言語文を入力文として受け付ける。
機械翻訳部102は、例えば、図2に示すように、入力文受付部101が受け付けた原言語文に対して翻訳処理を実行し、原言語文に対応する目標言語の翻訳文を生成する。
編集入力受付部103は、翻訳文に対して、ユーザが編集を行う際に、例えば、図3に示すような編集操作入力を受け付ける。このとき、例えば図4に示すように、編集した修正履歴を記録しておく。
編集文字列抽出部104は、例えば、図5に示すように、編集入力受付部103が受け付けた編集操作入力によって機械翻訳文に対して編集された編集文字列を抽出する機能を持つ。
形態素解析辞書105は、形態素解析部106が形態素解析を実行する際に参照するデータベースである。形態素解析辞書105は、特に限定されるものではなく、例えば、目標言語の各単語に対して自立語・付属語等を含む形態論情報がそれぞれ対応付けられているものであればよい。形態論情報は、特に限定されるものではなく、自立語・付属語の区分の他、名詞・動詞・形容詞・副詞・助詞等の品詞、その他の特性に関する情報を含むことができる。
形態素解析部106は、形態素解析辞書105を参照しながら、編集文字列抽出部104によって抽出された編集文字列に対して、形態素解析を実行し、文字列を単語に分割して、各単語に自立語・付属語等の形態論情報を付与し、抽出された編集文字列に相当する形態素列を生成する。このとき、例えば、図6に示すように、各編集文字列にIDおよび挿入・削除等の操作種類を付与してもよい。
同義語辞書107は、同義語展開部108が同義語展開を実行する際に参照するデータベースである。同義語辞書107は、特に限定されるものではなく、例えば、目標言語の各単語に対して同じ目標言語中の単語から同義語をそれぞれ対応付けているものであればよい。
同義語展開部108は、同義語辞書107を参照しながら、例えば、図7に示すように、形態素解析部106によって得られた編集文字列に対応する各形態素に対して同義語展開を行う。
挿入・削除対応付け部109は、例えば、図8に示すように、「挿入」文字列に対応する形態素、および「削除」文字列に対応する形態素の間の比較を行って、各形態素間の対応付けを行う。
差分検知部110は、挿入・削除対応付け部109において、削除側のみに現れた形態素を差分として検知する。
対訳辞書111は、対訳辞書検索部112が参照するデータベースである。対訳辞書111は、特に限定されるものではないが、目標言語の各単語に対応する原言語の単語をそれぞれ対応付けるものであればよい。
対訳辞書検索部112は、対訳辞書111を参照しながら、差分検知部110によって検知された差分の形態素に対して対訳辞書検索を行って、差分の形態素の原言語による表記を取得する。
訳抜け候補特定部113は、例えば、図9A〜図9Cに示すように、前記差分の形態素の原言語による表記に対応する原言語文中の単語を訳抜け候補として特定する。
訳抜け警告出力部114は、例えば、図10に示すように、訳抜け候補特定部113で特定された訳抜け候補について、ユーザに対して警告を出力する。これにより、原言語文から目標言語文への翻訳において訳抜けが生じた場合に訳抜け単語を指摘して表示することが可能となる。
以下に、実施例を用いて本実施形態に係る翻訳支援処理方法について説明する。
本実施形態に係る技術は、いかなる二言語間の翻訳に対しても適用可能である。以下の実施例では、翻訳の対象言語として日英翻訳をとりあげて説明する。
図2は、本実施形態に係る翻訳支援処理において、原文と、初期状態の機械翻訳文とを示す図である。図2に示すように、上部に、原言語である日本語で記述された入力原文が示されている。下部には、入力原文を、日英機械翻訳を用いて翻訳した英訳文が示されている。この英訳文は、日英機械翻訳によって得られたそのままの英訳文であり、ユーザによる編集はなされていない。
図3は、本実施形態に係る翻訳支援処理において、原文と、編集した機械翻訳文とを示す図である。図3に示すように、図2における機械翻訳文は、例えば、ユーザにより以下のような編集操作が行われる。
1.前半の節と後半の節とを入れ替える。
2.“A, while B”の構文を“While A, B”の構文に書き換える。
3.機械翻訳の訳語“river”を“brook”に、“went”を“walked”に書き換える。
4.上記1〜3の編集のうちに、不注意で“One day”を消してしまう(訳抜け発生)。
ここで、ユーザは、英訳文をより自然な形にするために、人手で上記1〜3の編集操作を行っているが、その過程において、不注意で上記4の訳抜けを発生させる虞がある。つまり、原文中の「ある日」に対応する“one day”という表現がなくなってしまう虞がある。
図4は、本実施形態に係る翻訳支援処理において、原文と、編集した修正履歴のある機械翻訳文とを示す図である。図4に示すように、機械翻訳文に対するユーザによる編集について、システム内部に自動的に記録された編集履歴が図示される。図4の機械翻訳文中、例えば、何かしらの編集がなされた文字列を赤文字等で表わし、編集されていない他の箇所と区別して表示してもよい。この中で、下線で示された文字列が、ユーザによって挿入された文字列を表し、取り消し線で示された文字列が、ユーザによって削除された文字列を表す。
図5は、本実施形態に係る翻訳支援処理において、編集文字列の意味を示す表である。図5に示すように、図4に図示された編集履歴のうち、挿入文字列と削除文字列をそれぞれ抜き出す。この抽出操作は、既存の技術を用いて自動的に実行される。
図6は、本実施形態に係る翻訳支援処理において、編集文字列への形態素解析の結果を示す表である。図6に示すように、図5において抽出された挿入文字列および削除文字列それぞれについて、形態素解析を実行する。ここで、形態素解析は従来技術のものを用いることができる。例えば、自立語の形態素は「自」で、付属語の形態素は「付」で表されている。なお、形態素解析の辞書引きによって、過去形で記載された単語が原形に戻される等、形態素の正規化がなされてもよい。形態素解析の辞書引きによって、例えば、“did the laundry”の原形“do the laundry”を得ることができる。
図7は、本実施形態に係る翻訳支援処理において、形態素の同義語展開を行った形態素解析の結果を示す表である。図7に示すように、図6において得られた形態素解析結果に対して、同義語辞書を用いた同義語展開を行う。例えば、同義語展開前の状態で“old”となっていた単語は、同義語展開によって“old”/“ancient”となる。同様に、“river”は同義語展開によって“river”/“brook”となる。
図8は、本実施形態に係る翻訳支援処理において、「削除」および「挿入」の自立語形態素をマッチングさせて差分の形態素を特定する表を示す。図8において、「挿入」文字列に対応する自立語形態素と、「削除」文字列に対応する自立語形態素とを比較し、差分の形態素を特定する。ここでは、ユーザによる編集がなされても、編集の前後で自立語形態素の数はほとんど変化しないということを前提としており、自立語形態素の数の変化を見ることで、訳抜けの検出を行うことができる。図8に示すように、「挿入」における“while”は「削除」における“while”と対応している、等のように対応を見つけていくが、「削除」における“one day”に対応する「挿入」の形態素がない、というように、余った形態素が特定される。
図9Aは、本実施形態に係る翻訳支援処理において、原文と、文節解析した原文とを示す図であり、図9Bおよび図9Cは、図9Aの文節解析において対応なしの形態素について対訳辞書検索を行った結果を示す図である。
図9Aに示すように、図8において特定された訳文側の余り形態素を差分の形態素とする。この差分の形態素に対して対訳辞書を検索し、この差分の形態素に対応する原文形態素を特定する。図9Bに示すように、“one day”は、訳文側の差分の形態素として特定された形態素であるが、この訳文側形態素をキーとして対訳辞書を検索すると、訳文側形態素として「ある日」と「いつか」が検索される。これを原文と照合すると「ある日」がマッチするため、「ある日」が訳抜けであると判定される。
また、図9C中の“go”は、訳文側の差分の形態素として特定された形態素であるが、この訳文側形態素をキーとして対訳辞書を検索すると、訳文側形態素として「行く」が検索される。これを原文と照合すると「行きました」がマッチするため、「行きました」が訳抜けであると判定される。
図10は、本実施形態に係る翻訳支援処理において、ユーザへの訳抜け可能性の警告の表示例を示す図である。図10に示すように、図9A〜図9Cにおいて特定された訳抜けの原文単語について、ユーザに対して、訳抜けである可能性のある単語として提示する。
ここで、上記実施の形態による翻訳支援装置の動作、及び翻訳支援処理をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。
図11は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図11に示すように、コンピュータ300は、Central Processing Unit(CPU)302、メモリ304、入力装置306、出力装置308、外部記憶装置312、媒体駆動装置314、ネットワーク接続装置318等がバス310を介して互いに接続されている。
CPU302は、コンピュータ300全体の動作を制御する演算処理装置である。CPU302は、メモリ304を利用して翻訳支援プログラムを実行することにより、図1の入力文受付部101、機械翻訳部102、編集入力受付部103、および編集文字列抽出部104として動作する。CPU302は、メモリ304を利用して翻訳支援プログラムを実行することにより、図1の形態素解析部106、同義語展開部108、挿入・削除対応付け部109、および差分検知部110としても動作する。CPU302は、メモリ304を利用して翻訳支援プログラムを実行することにより、図1の対訳辞書検索部112、訳抜け候補特定部113、および訳抜け警告出力部114としても動作する。
メモリ304は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等を含み、翻訳支援プログラムと翻訳支援処理に用いられるデータを格納する。メモリ304は、翻訳支援プログラムを予め記憶したり、翻訳支援プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ304は、形態素解析辞書105、同義語辞書107、および対訳辞書111を格納する記憶部としても用いることができる。
入力装置306は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU302に送信する装置であり、例えばキーボード装置、マウス装置などである。入力装置306は、翻訳支援プログラムを実行する際に、外部入力からの編集操作入力を受け付ける。
出力装置308は、コンピュータ300による処理結果を出力する装置であり、表示装置などが含まれる。表示装置とは、例えば、ディスプレイやプリンタ等であり、コンピュータのユーザへの問い合わせ、処理結果等の出力に用いられる。例えば表示装置は、CPU302により送付される表示データに応じてテキストや画像を表示する。出力装置308は、翻訳支援プログラムを実行する際に、訳抜け候補を示す情報を出力する。
外部記憶装置312は、例えば、ハードディスクなどの記憶装置であり、CPU302により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。記憶装置とは、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置等である。外部記憶装置312は、形態素解析辞書105、同義語辞書107、および対訳辞書111を格納することもできる。この場合、形態素解析辞書105、同義語辞書107、および対訳辞書111は、外部記憶装置312からメモリ304に読み出されて、翻訳支援処理に用いられる。さらに、翻訳支援プログラムをコンピュータ300の外部記憶装置312に保存しておき、必要に応じて、それらをメモリ304にロードして使用することもできる。
媒体駆動装置314は、可搬記録媒体316に書き込みおよび読み出しを行うための装置である。媒体駆動装置314は、可搬記録媒体316を駆動し、その記録内容にアクセスする。
CPU302は、可搬型記録媒体316に記録されている翻訳支援プログラムを、記録媒体駆動装置314を介して読み出して実行することによって、翻訳支援処理を行うようにすることもできる。可搬記録媒体316は、例えばConpact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。
ネットワーク接続装置318は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。ネットワーク接続装置318は、Local Area Network(LAN)、Wide Area Network(WAN)等の任意のネットワーク(回線)を介して外部の装置を通信し、通信に伴うデータ変換を行う。また、必要に応じて、翻訳支援プログラムを外部の装置から受け取り、それをコンピュータ300のメモリ304にロードして使用することもできる。
バス310は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。この可搬記録媒体316に上述のプログラムを格納しておき、必要に応じて、それをコンピュータ300のメモリ302にロードして使用することもできる。
上記それぞれの実施の形態による翻訳支援処理をコンピュータに実行させる翻訳支援プログラムは、例えば外部記憶装置312に記憶される。CPU302は、外部記憶装置312から翻訳支援プログラムを読み出し、翻訳支援処理を行う。このとき、翻訳支援処理をCPU302に行わせるための翻訳支援プログラムは、予め外部記憶装置312に記憶されている。そして、入力装置306から所定の指示をCPU302に与えて、この翻訳支援プログラムを外部記憶装置312から読み出させて実行させるようにする。また、この翻訳支援プログラムは、可搬記録媒体316に記憶するようにしてもよい。
次に、図11に図示したコンピュータ300への翻訳支援プログラム及びデータのローディング例を説明する。
上述の実施形態において説明した翻訳支援装置100に相当する機能をコンピュータ300に行わせるためには、翻訳支援プログラムを、コンピュータ300で読み取り可能な可搬記録媒体316に予め記憶させておく。そして、その可搬記録媒体316から翻訳支援プログラムをコンピュータ300に読み出させて、そのコンピュータ300のメモリ304や外部記憶装置312に一旦格納させ、この格納された翻訳支援プログラムをそのコンピュータ300の有するCPU302に読み出させて実行させるように構成すればよい。
また、サーバが有するデータベースから、ネットワークを介して、翻訳支援プログラムをコンピュータ300にダウンロードすることとしてもよい。
続いて、上記の翻訳支援処理方法をコンピュータに行わせる翻訳支援プログラムについて説明する。
図12は、第1の実施形態に係る翻訳支援プログラムの処理内容の全体を図解したフローチャートである。図12に示すように、本実施形態では、以下の処理をコンピュータに実行させる。
まず、S100において、入力文受付部101は、翻訳対象の原言語文である入力文を1文受け付ける。
次に、S102において、機械翻訳部102は、S100で受け付けられた入力文に対して機械翻訳を実行し、目標言語文の翻訳文を生成する。
続いて、S104において、編集入力受付部103は、S102の機械翻訳訳文に対する編集入力を受け付ける。
更に、S106において、編集文字列抽出部104は、S104で受け付けた編集入力の中から、編集文字列を抽出する。
続いて、S108において、形態素解析部106は、S106で抽出した編集文字列群のなかから、編集文字列を一つ取り出す。
そして、S110において、形態素解析部106は、S108で取り出した編集文字列に対して、形態素解析を実行する。
次に、S112において、同義語展開部108は、S110で得られた形態素に対して同義語展開を行う。
続いて、S114において、同義語展開部108は、S112で得られた同義語展開後の形態素が最後の形態素であるかどうかを検査し、その結果によって分岐する。S114の結果、同義語展開後の形態素が「はい」すなわち最後の形態素である場合、S116に進む。S114の結果、同義語展開後の形態素が「いいえ」すなわち最後の形態素でない場合、S108に戻り、繰り返す。
更に、S116において、挿入・削除対応付け部109は、S112で同義語展開された形態素群のうち、「挿入」操作に対応する形態素群と「削除」操作に対応する形態素群を比較する。
そして、S118において、挿入・削除対応付け部109は、S116の形態素群間比較によって、自立語数が減少しているかどうかを検査し、その結果によって分岐する。S118の結果、「はい」すなわち自立語数が減少している場合、S120に進む。S118の結果、「いいえ」すなわち自立語数が減少していない場合、訳抜けの可能性はないものと判定し、プログラムを終了する。
次に、S120において、差分検知部110は、S118で自立語数が減少したと判定された場合に、余った形態素を差分の形態素として検出する。
続いて、S122において、対訳辞書検索部112は、S120で検出した差分の形態素に対して対訳辞書検索を行って、差分の形態素の原言語による表記を取得する。
更に、S124において、訳抜け候補特定部113は、差分の形態素の原言語による表記に対応する原文中の単語を訳抜け候補として特定する。
最後に、S126において、訳抜け警告出力部114は、S124で特定した訳抜け候補をユーザに提示する警告を出力する。これにより、原言語文から目標言語文への翻訳において訳抜けが生じた場合に訳抜け単語を指摘して表示することが可能となる。
以上説明したように本実施形態によれば、機械翻訳文を編集して訳文を作成する翻訳作業において、ユーザの「挿入」、「削除」編集操作を分析することによって、自動的に訳抜けの可能性のある単語を提示することができる。これにより、機械翻訳による翻訳文を編集して対訳文を作成する際に、原文中の訳抜けの可能性がある部分を提示することができる。
<第2の実施形態>
以下に、第2の実施形態に係る翻訳支援処理方法について、図13および図14を参照しながら説明する。本実施形態に係る技術は、いかなる二言語間の翻訳に対しても適用可能である。以下の実施例では、翻訳の対象言語として日英翻訳をとりあげて説明する。
図13は、第2の実施形態に係る翻訳支援装置の構成図である。図13に示すように、本実施形態に係る翻訳支援装置200は、第1の実施形態に係る翻訳支援装置100と同様の構成であるが、インターネット検索部215を更に備える。これにより、意訳によって通常の対訳辞書では対応が付かないような単語の書き換えが行われても、単語対応を検知して訳抜けを指摘することができる。
例えば、原文中の単語「山」を、通常の訳語である“mountain”ではなく、“hill”と意訳した場合に、訳文中の“mountain”は、編集により“hill”に置換される。(このとき、修正履歴上では、訳文中から“mountain”が削除されて“hill”が挿入される。)そのため、図9に示した対訳辞書検索では対応が付かなくなってしまう。このような場合に、インターネット検索部215は、「山」と“hill”とが対訳として現れるインターネットページを検索し、該当するインターネットページが所定の閾値以上の頻度で使われているという結果が得られるとき、原文中の単語と意訳した単語との間に対応が付いたものと判定することができる。
すなわち、インターネット検索部215は、訳文中の単語(“mountain”)が編集により異なる単語(“hill”)に置換されている形態素がある場合に、置換された単語に対応する原文中の単語(「山」)と置換された単語とが対訳として現れるインターネットページを検索する。該当するインターネットページ(すなわち、「山」と“hill”とが対訳として現れる)が所定の閾値以上の頻度で検出された場合、訳抜け候補特定部213は、原文中の対応する単語と置換された単語との間に対応を付け、対応する原言語文中の単語(「山」)を訳抜け候補から除外する。
続いて、上記の翻訳支援処理方法をコンピュータに行わせる翻訳支援処理プログラムについて説明する。
図14は、第2の実施形態に係る翻訳支援プログラムにおける処理内容の全体を図解したフローチャートである。本実施形態に係るプログラムは、図14に示すように、以下の処理をコンピュータに実行させる。
まず、S200〜S222については、図12に示した第1の実施形態に係る翻訳支援処理と同様であり、S100〜S122に対応する。
本実施形態では、S222において、対訳辞書検索部212が、S220で検出した差分の形態素に対して対訳辞書検索を行って、差分の形態素の原文側の表記を取得した後、S224に進む
S224では、インターネット検索部215は、インターネットを検索して意訳の対応を見つける。例えば、該当するインターネットページが所定の閾値以上の頻度で検出された場合、そのような意訳は一般的に使われているものと判定し、原文中の単語と意訳した単語との間に対応が付いたものと判定する。
その後、S226に進み、訳抜け候補特定部213は、差分の形態素の原言語による表記を原文中の訳抜け候補として検出する。その際、S224において、原文中の単語と意訳した単語との間に対応が付いたと判定された形態素については、訳抜け候補から除外する。
最後に、S228において、訳抜け警告出力部214は、S224で検出した原文中の訳抜けをユーザに提示する警告を出力し、原言語文から目標言語文への翻訳において訳抜けが生じた場合に訳抜け単語を指摘して表示する。
ここで、上記実施の形態による翻訳支援装置の動作、及び翻訳支援処理をコンピュータに行わせるために共通に適用されるコンピュータについては、例えば、図11に示した標準的なコンピュータのハードウエア構成を用いることができる。
翻訳支援装置200を構成するインターネット検索部215は、コンピュータ300のメモリ304の特定のプログラムコードセグメントにプログラムとして格納される。なお、翻訳支援装置200によって行われる処理は、図を用いて既に説明した。図11に図示したコンピュータ300へのプログラム及びデータのローディング例についても、既に上記に説明した。
以上説明したように本実施形態に係るによれば、機械翻訳文を編集して訳文を作成する翻訳作業において、ユーザの「挿入」、「削除」編集操作を分析することによって、自動的に訳抜けの可能性のある単語を提示することができる。これにより、機械翻訳による翻訳文を編集して対訳文を作成する際に、原文中の訳抜けの可能性がある部分を提示することができる。更に、インターネットの検索結果を考慮することにより、より信頼性の高い結果を得ることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではなく、他の様々な変更が可能である。
以上のように、本発明に係わる翻訳支援技術は、自動翻訳装置、ネットワークを介した自動翻訳サービス等に有用である。
なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
翻訳対象となる原言語文を受け付け、
前記原言語文に対して翻訳処理を実行して、前記原言語文に対応する目標言語の翻訳文を生成し、
前記翻訳文に対する編集操作入力を受け付け、
前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出し、
単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の形態素列とを生成し、
前記目標言語の単語に対して前記目標言語の同義語を対応付ける同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列に含まれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記し、
前記第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行い、
前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知し、
前記目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、前記検知された差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の前記原言語による表記を取得し、
前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文中の単語を訳抜け候補として特定し、
前記訳抜け候補を示す情報を出力する、
処理をコンピュータに実行させる翻訳支援プログラム。
(付記2)
前記翻訳文中の単語が前記編集により異なる単語に置換されている形態素がある場合に、前記置換された単語に対応する前記原言語文中の単語と前記置換された単語とが対訳として現れるインターネットページを検索し、
該当するインターネットページが所定の閾値以上の頻度で検出された場合、前記原言語文中の対応する単語と前記置換された単語との間に対応を付け、前記原言語文中の対応する単語を前記訳抜け候補から除外する、
ことを含む付記1に記載の翻訳支援プログラム。
(付記3)
コンピュータによって実行される翻訳支援方法であって、
翻訳対象となる原言語文を受け付け、
前記原言語文に対して翻訳処理を実行して、前記原言語文に対応する目標言語の翻訳文を生成し、
前記翻訳文に対する編集操作入力を受け付け、
前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出し、
単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の形態素列とを生成し、
前記目標言語の単語に対して前記目標言語の同義語を対応付ける同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列に含まれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記し、
前記第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行い、
前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知し、
前記目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、前記検知された差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の前記原言語による表記を取得し、
前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文中の単語を訳抜け候補として特定し、
前記訳抜け候補を示す情報を出力する、
ことを特徴とする翻訳支援方法。
(付記4)
前記翻訳文中の単語が前記編集により異なる単語に置換されている形態素がある場合に、前記置換された単語に対応する前記原言語文中の単語と前記置換された単語とが対訳として現れるインターネットページを検索し、
該当するインターネットページが所定の閾値以上の頻度で検出された場合、前記原言語文中の対応する単語と前記置換された単語との間に対応を付け、前記原言語文中の対応する単語を前記訳抜け候補から除外する、
ことを含む付記3に記載の翻訳支援方法。
(付記5)
翻訳対象となる原言語文を受け付ける入力文受付部と、
前記原言語文に対して翻訳処理を実行し、前記原言語文に対応する目標言語の翻訳文を生成する機械翻訳部と、
前記翻訳文に対する編集操作入力を受け付ける編集入力受付部と、
前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出する編集文字列抽出部と、
単語に対して形態論情報を対応付ける形態素解析辞書と、
該形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の文字列とを生成する形態素解析部と、
前記目標言語の単語に対して前記目標言語中の同義語を対応付ける同義語辞書と、
該同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列に含まれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記する同義語展開部と、
前記第1の形態素列の各形態素と、前記第2の形態素列の各形態素との対応付けを行う挿入・削除対応付け部と、
前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知する差分検知部と、
前記目標言語の単語を原言語の単語に対応付ける対訳辞書と、
該対訳辞書を参照しながら、前記差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の原言語による表記を取得する対訳辞書検索部と、
前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文の単語を訳抜け候補として特定する訳抜け候補特定部と、
前記訳抜け候補を示す情報を出力する訳抜け警告出力部と、
を備えることを特徴とする、翻訳支援装置。
(付記6)
前記翻訳文中の単語が前記編集により異なる単語に置換されている形態素がある場合に、前記置換された単語に対応する前記原言語文中の単語と前記置換された単語とが対訳として現れるインターネットページを検索するインターネット検索部を備え、
該当するインターネットページが所定の閾値以上の頻度で検出された場合、訳抜け候補特定部は、前記原言語文中の対応する単語と前記置換された単語との間に対応を付け、前記原言語文中の対応する単語を前記訳抜け候補から除外する、
ことを含む付記5に記載の翻訳支援装置。
100 翻訳支援装置
101 入力文受付部
102 機械翻訳部
103 編集入力受付部
104 編集文字列抽出部
105 形態素解析辞書
106 形態素解析部
107 同義語辞書
108 同義語展開部
109 挿入・削除対応付け部
110 差分検知部
111 対訳辞書
112 対訳辞書検索部
113 訳抜け候補特定部
114 訳抜け警告出力部
215 インターネット検索部

Claims (3)

  1. 翻訳対象となる原言語文を受け付け、
    前記原言語文に対して翻訳処理を実行して、前記原言語文に対応する目標言語の翻訳文を生成し、
    前記翻訳文に対する編集操作入力を受け付け、
    前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出し、
    単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の形態素列とを生成し、
    前記目標言語の単語に対して前記目標言語の同義語を対応付ける同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列に含まれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記し、
    前記第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行い、
    前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知し、
    前記目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、前記差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の前記原言語による表記を取得し、
    前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文中の単語を訳抜け候補として特定し、
    前記訳抜け候補を示す情報を出力する、
    処理をコンピュータに実行させる翻訳支援プログラム。
  2. コンピュータによって実行される翻訳支援方法であって、
    翻訳対象となる原言語文を受け付け、
    前記原言語文に対して翻訳処理を実行して、前記原言語文に対応する目標言語の翻訳文を生成し、
    前記翻訳文に対する編集操作入力を受け付け、
    前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出し、
    単語に対して形態論情報を対応付ける形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の形態素列とを生成し、
    前記目標言語の単語に対して前記目標言語の同義語を対応付ける同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列に含まれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記し、
    前記第1の形態素列の各形態素と、第2の形態素列の各形態素との対応付けを行い、
    前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知し、
    前記目標言語の単語を原言語の単語に対応付ける対訳辞書を参照しながら、前記差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の前記原言語による表記を取得し、
    前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文中の単語を訳抜け候補として特定し、
    前記訳抜け候補を示す情報を出力する、
    ことを特徴とする翻訳支援方法。
  3. 翻訳対象となる原言語文を受け付ける入力文受付部と、
    前記原言語文に対して翻訳処理を実行し、前記原言語文に対応する目標言語文からなる翻訳文を得る機械翻訳部と、
    前記翻訳文に対する編集操作入力を受け付ける編集入力受付部と、
    前記編集操作入力によって翻訳文に対して編集された編集文字列を抽出する編集文字列抽出部と、
    単語に対して形態論情報を対応付ける形態素解析辞書と、
    該形態素解析辞書を参照しながら、前記編集文字列に対して形態素解析を実行し、前記編集によって挿入された文字列に対応する第1の形態素列と、前記編集によって削除された文字列に対応する第2の文字列とを生成する形態素解析部と、
    前記目標言語の単語に対して前記目標言語の同義語を対応付ける同義語辞書と、
    該同義語辞書を参照しながら、前記第1の形態素列および前記第2の形態素列にふくまれる各形態素に対して同義語展開を行い、前記同義語を有する形態素には前記同義語を併記する同義語展開部と、
    前記第1の形態素列の各形態素と、前記第2の形態素列の各形態素との対応付けを行う挿入・削除対応付け部と、
    前記第1の形態素列には含まれず前記第2の形態素列のみに含まれる形態素を差分の形態素として検知する差分検知部と、
    前記目標言語の単語を原言語の単語に対応付ける対訳辞書と、
    該対訳辞書を参照しながら、前記差分の形態素に対して対訳辞書検索を行い、前記差分の形態素の前記原言語による表記を取得する対訳辞書検索部と、
    前記原言語による表記を前記原言語文と照合し、前記原言語による表記に対応する前記原言語文中の単語を訳抜け候補として特定する訳抜け候補特定部と、
    前記訳抜け候補を示す情報を出力する訳抜け警告出力部と、
    を備えることを特徴とする、翻訳支援装置。
JP2013004403A 2013-01-15 2013-01-15 翻訳支援プログラム、方法、および装置 Expired - Fee Related JP6056489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013004403A JP6056489B2 (ja) 2013-01-15 2013-01-15 翻訳支援プログラム、方法、および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013004403A JP6056489B2 (ja) 2013-01-15 2013-01-15 翻訳支援プログラム、方法、および装置

Publications (2)

Publication Number Publication Date
JP2014137613A JP2014137613A (ja) 2014-07-28
JP6056489B2 true JP6056489B2 (ja) 2017-01-11

Family

ID=51415099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013004403A Expired - Fee Related JP6056489B2 (ja) 2013-01-15 2013-01-15 翻訳支援プログラム、方法、および装置

Country Status (1)

Country Link
JP (1) JP6056489B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870901B (zh) * 2016-09-27 2023-05-12 松下知识产权经营株式会社 从翻译源原文生成相似文的方法、记录介质、装置以及系统
JP6885319B2 (ja) 2017-12-15 2021-06-16 京セラドキュメントソリューションズ株式会社 画像処理装置
JP6885318B2 (ja) 2017-12-15 2021-06-16 京セラドキュメントソリューションズ株式会社 画像処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3969689B2 (ja) * 1999-08-04 2007-09-05 株式会社東芝 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体

Also Published As

Publication number Publication date
JP2014137613A (ja) 2014-07-28

Similar Documents

Publication Publication Date Title
US10248650B2 (en) In-context exact (ICE) matching
JP3356536B2 (ja) 機械翻訳装置
JP5235344B2 (ja) 機械翻訳を行う装置、方法およびプログラム
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
US9122674B1 (en) Use of annotations in statistical machine translation
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2008152760A (ja) マシンアシスト翻訳ツール
US20100332484A1 (en) Document information creation device, document registration system, computer-readable storage medium and document information creation method
AU2018226399A1 (en) Detecting style breaches in multi-author content or collaborative writing
JP2011209941A (ja) 文書校正支援装置、方法およびプログラム
US9098487B2 (en) Categorization based on word distance
US20140156258A1 (en) Foreign language writing support apparatus and method
JP2013105321A (ja) 文書処理装置、文書構成要素間の関係解析方法およびプログラム
KR20180105546A (ko) 클레임 요소 명사의 요소 명사 참조 번호를 획득하기 위한 요소 명사 참조 번호 획득방법
CN102227723B (zh) 辅助误译的检测的装置及方法
US20140244676A1 (en) Discovering Title Information for Structured Data in a Document
JP5083317B2 (ja) 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
Warburton Processing terminology for the translation pipeline
US11768804B2 (en) Deep search embedding of inferred document characteristics
WO2007041328A1 (en) Detecting segmentation errors in an annotated corpus
JPH06348751A (ja) 言語変換装置
JP7483085B1 (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
CN109271392B (zh) 快速判别和抽取关系型数据库实体及属性的方法及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161121

R150 Certificate of patent or registration of utility model

Ref document number: 6056489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees