JP5632213B2 - 機械翻訳装置及び機械翻訳プログラム - Google Patents

機械翻訳装置及び機械翻訳プログラム Download PDF

Info

Publication number
JP5632213B2
JP5632213B2 JP2010144963A JP2010144963A JP5632213B2 JP 5632213 B2 JP5632213 B2 JP 5632213B2 JP 2010144963 A JP2010144963 A JP 2010144963A JP 2010144963 A JP2010144963 A JP 2010144963A JP 5632213 B2 JP5632213 B2 JP 5632213B2
Authority
JP
Japan
Prior art keywords
language
translation
ambiguous
document
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010144963A
Other languages
English (en)
Other versions
JP2012008852A (ja
Inventor
美和子 島津
美和子 島津
裕美子 吉村
裕美子 吉村
貴志 澁谷
貴志 澁谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010144963A priority Critical patent/JP5632213B2/ja
Publication of JP2012008852A publication Critical patent/JP2012008852A/ja
Application granted granted Critical
Publication of JP5632213B2 publication Critical patent/JP5632213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明の実施形態は、自然言語文書を処理する機械翻訳装置及び機械翻訳プログラムに関する。
グローバル化の進展とともに様々な文書を英語その他の外国語に翻訳したり、逆に外国語の文書を日本語化するニーズがますます高まっている。自然言語処理技術の発達により、機械翻訳技術も向上し、翻訳する必要のある文書を質は別としてもコストや速度の面で人手による翻訳よりも優れ、機械翻訳を使うことも増えた。
その一方で、機械翻訳の翻訳結果を容認可能な文書とするには、人手の介在をなお必要とする。翻訳品質が特に重要視される文書では、特にこの必要性が高い。すでに出来上がった原文に対する人手の編集作業を軽減するための解決策の一つとして、もともとの原文を曖昧性の生じにくい制限言語で記述したり、すでにある原文を専門のライターが制限言語に書き換える(rewriting)方法がとられている。制限言語の代表例として、英語では、STE (Simplified Technical English)があり、日本語では、日本特許情報機構(Japio)による「産業日本語」がある。
制限言語で記述されれば、機械に扱いやすい文書になるが、通常の自然言語では記述できる内容が自由に表現できなくなり、一般からみて不自然な表現となることも少なくない。また、筆者が制限言語に精通しているとは限らないので、制限言語に精通した筆者とは別の専門の編集者に編集を依頼することも考えられるが、そうすると筆者の意図を反映するのに編集者に精神的な負担を伴うだけでなく、忠実な書き換えができない場合がある。さらには、制限言語は、特許明細書やマニュアルといったごく限られた文書を想定しており、自然科学・社会科学の論文については適用が普及していない。
また、言語の違いから、第一言語では問題とならない差異が第二言語では必要となることが少なくない。例えば、日本人の漢字の名前には複数の読み方がある場合があるが、振り仮名がないと正確なアルファベットにおきかえることはできない。日本語原稿では振り仮名がなくとも通用する。この場合、翻訳に必要な情報が原文には盛り込まれていないことになる。
この差異は言語によって異なるため、例えば日本語文書を英語に翻訳することも考えながら作成したとしても、これが英語以外の翻訳にもなじむという保証はない。また、原作者の暗黙知を翻訳者が共有しているとは限らず、広範な文献調査では、原文の意味が把握できないこともある。
ここで、入力された各種メディアに対し複数種類のメディア変換処理を連続して実行する際に、利用者による単語レベルの「曖昧性」についての修正操作は全てのメディア変換処理が終了してから行うようにしたものがある。
従来の機械翻訳装置では、高い翻訳品質を得るために原文を制限言語で記述するか、原文に曖昧性が残る箇所については、制限言語に近い形に書き直しを促したり、あるいは、可能な書き換え候補を提示し、その中から選択させる方法をとっていた。この制限言語は日常の言語と違い、使いこなすためには一定の能力が必要であり、また、制約が多いため、能力のある者にとっても作業の心理的負担が大きい。
例えば、「その場で立ってミネラル水を飲むことができるだけでなく、ボトルに一定量のミネラル水を自動的に入れることができるミネラル水の供給装置を提供する。」のような文があった場合、「ミネラル水の供給装置を提供する。その供給装置からは、その場で立ってミネラル水を飲むことができるだけでなく、ボトルに一定量のミネラル水を自動的に入れることができる。」のように曖昧性が残らない形に書き換えなければならない。
また、すべての文がこのように書き換えが可能であるとは限らない。仮に無理に書き換えても元の意味とは異なってしまったり、また、不自然になったりすることが少なくなかった。書き換えでは必要な情報を表示できない場合、各種記号を原文に挿入することもなされているが、少なくとも一般の人にはなじみのないものであり扱いにくい。従って、機械翻訳において、高い翻訳品質を確保するには、このように自由度の少ない限定された条件下で校正作業を行うしかなく、自然な言語のまま扱うためには従来の人手による処理に頼るしかなかった。
特開平9−269945号公報
第一言語の原文には必ずしも表現されておらず、解釈に言外の知識を要する曖昧性がある場合であっても精度よく翻訳できる機械翻訳装置及び機械翻訳プログラムを提供することである。
実施形態の機械翻訳装置は、第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶する辞書であって、第一言語では弁別しないが第二言語では同じ意味レベルの語がなく語の指定に弁別素性が必要となる語を集めた曖昧用語辞書、および曖昧となりうる構造を構造式の形で列挙した曖昧構造規則の両方ないし一方を備える第一言語曖昧箇所文法辞書と、翻訳対象となる第一言語文書を解析して第二言語の訳文を求める文書解析翻訳手段と、前記文書解析翻訳手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する曖昧箇所検出手段と、前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を、前記第一言語曖昧箇所文法辞書に基づき、選択型あるいは非選択型のいずれかの質問文を作成する質問文作成手段と、文書編集アプリケーションプログラムの校閲または注釈機能を使って前記質問文を前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する質問文付与手段と、前記質問文付与手段で付与された質問文に対して前記文書アプリケーションプログラムの校閲または注釈機能を使って入力されたユーザからの回答の文字列を形態素に分割し、属性情報を求め、その属性情報、前記文書解析翻訳手段で解析された解析情報、および前記曖昧用語辞書、前記曖昧構造規則に含まれる知識に基づいて、第二言語の訳文に必要となる情報を確定し、前記文書解析翻訳手段で翻訳した訳文に反映させる回答解析手段とを備えたことを特徴とする。
実施形態に係わる機械翻訳装置の機能ブロック構成図。 実施形態に係わる機械翻訳装置のハードウェア構成を示すブロック構成図。 実施形態に係わる機械翻訳装置の処理内容の一例を示すフローチャート。 実施形態における校正前の第一言語の文書の一例を示す図。 図4の文番号1の文に対する形態素解析情報及び格情報の説明図。 図4の文番号1の文に対する係り受け情報の候補の説明図。 実施形態における第一言語曖昧箇所文法辞書の中にある曖昧用語辞書の一例の説明図。 実施形態における第一言語曖昧箇所文法辞書の中にある曖昧構造規則の一例の説明図。 図4の文番号2の文に対する係り受け解析結果の一例を木構造で示した説明図。 図4の文番号3に対する質問文の一例を示す説明図。 実施形態における質問文付与の表示画面の一例を示す説明図。 実施形態における質問文付与の表示画面への回答入力の一例を示す説明図。 図9の木構造の空に質問文の回答に基づき語「トップクォーク」を挿入した場合の説明図。 他の実施形態に係わる機械翻訳装置の機能ブロック構成図。 他の実施形態において文書編集アプリケーションプログラムで曖昧性解消の処理を行う際の処理の流れを示すフローチャート。 他の実施形態におけるコメント参照の場合のプログラムの一例を示す説明図。
以下、実施形態を図面に基づいて説明する。図1は、実施形態に係わる機械翻訳装置の機能ブロック構成図、図2は実施形態に係わる機械翻訳装置のハードウェア構成を示すブロック構成図である。
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14にはプログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は表示装置17に表示出力される。
入力装置18は演算制御装置12に情報を入力するものであり、例えば、マウス19、キーボード20、読み取り装置21a、読み込み装置21bから構成される。読み取り装置21aは、例えばOCR(光学式文字読み取り装置)等であり、読み込み装置21bは、例えば磁気テープ、磁気ディスク、光ディスク等、コンピュータ可読媒体からの読み込み装置である。
例えば、マウス19やキーボード20は表示装置17を介して演算制御装置12に各種指令を入力し、キーボード20、読み取り装置21a、読み込み装置21bは、機械翻訳対象の文書を入力する。すなわち、読み取り装置21a、読み込み装置21bは、機械翻訳対象の文書のファイルを記憶媒体に入出力するものである。さらに、演算制御装置12の演算結果や機械翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)22が設けられている。
図1において、演算制御装置12内の各機能ブロックは、機械翻訳プログラムを構成する各プログラム15の機能に対応する。すなわち、プロセッサ13が機械翻訳プログラムを構成する各プログラム15を実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ22の記憶領域に対応する。
入力装置18は、翻訳対象となる文書の電子データを入力するものであり、ユーザの入力操作に基づく(対訳)文書、質問文、その回答などの入力が可能である。また、入力装置18は、入力処理部23を介して制御部24に対して各種コマンドを与える。
入力装置18から入力される文書は、翻訳対象となる第一言語文書、それに関する第一言語あるいは第二言語の質問文、この質問文に対する第一言語あるいは第二言語の回答である。この質問は対応する回答と対になっている。入力装置18によって入力された翻訳対象となる第一言語文書、それに関する質問文及び回答は、演算処理部12の入力処理部23により入力処理されて取り込まれ、制御部24を介して記憶装置25の文書記憶部26に記憶される。
制御部24は、入力処理部23、出力処理部33、文書解析翻訳手段28、曖昧箇所検出手段30、質問文作成手段32、質問文付与手段34、回答付与手段35、回答解析手段36を制御するとともに、記憶装置25とのデータの授受の制御も行う。
文書解析翻訳手段28は、制御部24からの指示に従って、後述する記憶装置25の翻訳辞書部27を用いて、入力装置18によって入力され、文書記憶部26に記憶された翻訳対象となる第一言語文書を解析し、その解析情報を解析情報記憶部29に記憶する。また、その解析結果は、必要に応じて、制御部24及び出力処理部33を介して表示装置17に表示出力される。
曖昧箇所検出手段30は、解析情報記憶部29に記憶された解析情報に基づいて曖昧箇所を検出し、必要に応じて、検出結果を制御部24及び出力処理部33を介して表示装置17に表示出力する。
質問文作成手段32は、解析情報記憶部29に記憶された解析情報に基づいて、曖昧箇所検出手段30により検出された箇所ごとに質問文を作成し、記憶装置25の質問文・回答記憶部31に記憶する。
質問文付与手段34は、その質問文を制御部24及び出力処理部33を介して、第一言語文の該当箇所に付与して表示装置17に表示出力する。
回答付与手段35は、表示装置17に表示された質問文に対して回答することをユーザに促した後にユーザに回答を入力可能にするものである。
回答解析手段36は、ユーザにより入力装置18を介して入力された回答とそれに対応する質問を分析することを通して翻訳上の曖昧性を解消するための情報を獲得し、質問文・回答記憶部31に記憶するとともに、その情報を用いて対応する第一言語文の各種情報(形態素解析結果、係り受け解析結果など)に対して補充するものである。
出力処理部33は、制御部24を介して供給された(対訳)文書、解析結果、曖昧箇所検出箇所、質問文、回答、回答を反映した新たな翻訳結果を表示装置17に出力処理するものであり、これにより、表示装置17の表示画面上に翻訳・校正情報画面表示される。また、出力処理部33は制御部24への各種コマンドに対する制御部24からの応答を表示する。
翻訳辞書部27は、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納しており、文書解析翻訳手段28が翻訳対象となる第一言語文書を解析し翻訳する際、質問文作成手段32が質問文を作成する際、及び回答解析手段36が回答を翻訳し、大元の第一言語の文書の翻訳結果にその結果を反映する際に用いる各種辞書データを格納している。
翻訳辞書部27のうち第一言語を解析する辞書は、語尾等に変化のある単語・熟語をその原形に変換するための第一言語活用変化辞書27a、第一言語を解析するための文法が記憶された第一言語解析文法辞書27b、第一言語の単語・熟語に対応する第二言語の訳語が、その品詞情報と共に記憶される第一言語単語・熟語辞書27c、第一言語から第二言語への変換情報が記憶された第一言語変換文法辞書27d、第二言語の文の構造を決定する第二言語生成文法辞書27e、さらに語尾等の語形を変化させて翻訳文を完成させる第二言語形態素生成文法辞書27f、第一言語では問題とならない弁別素性(distinctive features)が第二言語の訳出には必要となる単語及びそのような文構造を集めた文法知識である第一言語曖昧箇所文法辞書27gよりなる。
また、第一言語を解析した結果から第二言語への訳文を得るための辞書は、第二言語活用変化辞書27h、第二言語を解析するための文法が記憶された第二言語解析文法辞書27i、第二言語の単語・熟語に対応する第一言語の訳語がその品詞情報と共に記憶される第二言語単語・熟語辞書27j、第二言語から第一言語への変換情報が記憶された第二言語変換文法辞書27k、第一言語の文の構造を決定する第一言語生成文法辞書27l、さらに語尾等の語形を変化させて翻訳文を完成させる第一言語形態素生成文法辞書27mよりなる。
ここでは、有用と思われる辞書を挙げたが、必ずしもこれらをすべてを使用する必要はない。
以下、日本語を第一言語とし英語を第二言語とした場合を例にとり説明する。図3は、実施形態に係わる機械翻訳装置の処理内容の一例を示すフローチャートである。
まず、入力装置18から入力処理部23を介して翻訳対象となる第一言語の文書が入力されると、制御部24は、翻訳対象となる第一言語の文書を記憶する(S1)。この場合、翻訳対象となる第一言語文書は文書記憶部26に記憶される。
図4は翻訳対象となる第一言語文書の一例の説明図である。図4では文番号1、2、3の文章を示しているが、これは、説明のための一例であるので、文同士に意味の連関性はない。
次に、制御部24は文書解析翻訳手段28を起動する。文書解析翻訳手段28は、文書記憶部26に記憶された翻訳対象の第一言語の文書を読み出し、各文をそれぞれ形態素に分解し、品詞等の属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。
ステップS2においては、翻訳辞書部27の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書27aと第一言語解析文法辞書27bとの照合により、各単語につき、品詞、原形、属性が付与され、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
次に、文書解析翻訳手段28は、第一言語単語・熟語辞書27cを用いて、各形態素に対して翻訳辞書部27内に定義している訳語情報を得る(S3)。さらに、第一言語変換文法辞書27d、第二言語生成文法辞書27e、第二言語形態素生成文法辞書27fを用いて、第二言語の構造変換・形態素生成を行い訳文を得る(S4)。
図5は図4の文番号1の文に対する形態素解析情報及び格情報の説明図、図6は図4の文番号1の文に対しての係り受け情報の候補の説明図である。図5(a)に示すように、形態素解析情報は、形態素ごとに解析が行われ、第一言語の品詞、原形、格・活用形が判定され、第一言語の形態素に対応する第二言語の形態素ごとに訳語、属性・格、品詞が判定される。また、図5(b)に示すように、第一言語の動詞について、格情報として必須格及び格の種類が判定される。
そして、図6に示すように、係り受け情報の候補が解析される。図6では2個の候補が解析された場合を示している。
Figure 0005632213
は第一言語文書では明示されていないが第二言語の訳文には必要となる情報(空)を示している。
また、文書解析翻訳手段28では、これらの形態素解析情報、格情報、係り受け情報を用いて訳文を作成する際には、第一言語内に曖昧性がある場合、訳語としてデフォルト値を出力するか、デフォルト値がない場合は、非文を生成するかどちらかの形をとることとしている。
こうして得られた形態素解析情報、格情報、係り受け情報、翻訳結果は、制御部24により解析情報記憶部29に記憶される。
次に、制御部24は曖昧箇所検出手段30を起動する。曖昧箇所検出手段30は、解析情報記憶部29から形態素解析情報、格情報、翻訳結果を読み込み、これらと第一言語曖昧箇所文法辞書27gを照合して、文の中に曖昧性はあるか否かの判定を行う(S5)。
すなわち、第一言語曖昧箇所文法辞書27gの中にある曖昧用語辞書、または曖昧構造規則に適合するものがあるかどうかを判断する。図7は第一言語曖昧箇所文法辞書27gの中にある曖昧用語辞書の一例の説明図、図8は第一言語曖昧箇所文法辞書27gの中にある曖昧構造規則の一例の説明図である。
ここで、本実施形態において検出対象となる曖昧箇所の定義について説明する。曖昧箇所について二つのケースを考慮する。
第一に、第一言語から第二言語に翻訳を行う場合、一般に構造上の(syntactic)曖昧性と意味的な(semantic)曖昧性とがあるとされている。すなわち、第一言語では特定しないが、第二言語では特定せずには、文を作成できなくなる要素をもった第一言語の文は曖昧箇所を持つとみなされる。一方、第一言語で特定せず、第二言語でも同様に特定しないまま文を生成できる場合は、曖昧箇所を持つとはみなされない。
例えば、Lewis CarrollのAlice's Adventures in Wonderlandには以下のようなくだりがある。 "Mine is a long and a sad tale!" said the mouse, turning to Alice, and sighing. "It is a long tail, certainly," said Alice.ここで、long tailはlong taleとかけている。仮に日本語の同音異字語で尻尾と小話と両方を示す漢字があれば、これは曖昧箇所の検出対象にはならない。
第二に、翻訳以前の問題として、第一言語内に限った場合でも、複数の解釈の可能性があるものもある。これが検出すべき曖昧箇所の第二のケースである。第一のケースの記述からわかるように、何が曖昧箇所に相当するかは第一言語、第二言語に何を選ぶかによって大きく異なる。
本実施形態では、冒頭に述べたとおり、第一言語が日本語、第二言語が英語である場合を中心に説明するが、第一言語が英語、第二言語が日本語の場合の例を用いた方がわかりやすい場合は随時後者の言語方向を使う。
前述したように、第一言語曖昧箇所文法辞書27gは、図7に一例を示す曖昧用語辞書と、図8に一例を示す曖昧構造規則とよりなる。
まず、曖昧用語辞書について説明する。曖昧用語辞書は、第一言語では弁別しないが、第二言語では同じ意味レベルの語がなく、語の指定に弁別要素が必要となる語を集めたものである。すなわち、曖昧用語辞書は、曖昧箇所の定義のうち意味的な曖昧性を扱うものである。こうした知識は日英対照研究の蓄積から得られるので、ここではそれを機械可読な形で持たせている。
図7において、用語として、「椅子」、「牛」、「氏」の場合を示している。図7中の「*1」は互いに背反することを示しており、「+」は左に示す意味特徴(弁別素性)がある場合、「−」は意味特徴(弁別素性)がない場合、「±」はどちらでもよい場合をそれぞれ示している。翻訳対象の第一文書はすでに形態素解析されているので、この曖昧用語辞書の見出し語が読み込んである形態素解析情報の中に含まれているか否かのチェックを行う。この一例の場合、文番号3の「氏」が該当する。
人間による翻訳でも明らかな誤訳のケース以外は、厳密な面では必ずしも最適な訳語ではなく訳されていることも多い。明らかな誤訳のケースとは、原文では、男女の区別がつかないが、実際は男性のことを語っていたところを翻訳では女性として訳出していたとか、あるいは原文では明示的に示されていないが、複数の人のことを語っていたところを翻訳では一人として訳出していたなどといった場合である。
これとは、対照的に、矛盾はしないケースとしてはfingerと指の対比がある。人体の一部分を示す英語のfingerは日本語では指と訳すことが多いが、実際は指の一種である親指を含まないことが多い。
現状の翻訳システムの観点からいうと、デフォルト規則が適用された部分とみなしてもよい。例えば、原文にtheyという代名詞があり、機械の文脈解釈の限界から、人を指すのか、物を指すのかが決定できない場合がある。これには、例えば、わからない場合、訳出しないわけにはいかないため、一律、第一訳語として、例えば「それら」と訳すと決めてしまうデフォルト規則が適用される。(なお、システムによっては、訳語を「それら/彼ら」とするところもあるが、日本語としては不自然である。)。
次に、曖昧構造規則について説明する。曖昧構造規則は、曖昧となりうる構造を品詞や活用形、表層の語などの指定により構造式の形で列挙したものである。すなわち、曖昧箇所の定義のうち、構造上の曖昧性を扱うものである。
図8において、下線部はこの曖昧となりうる構造中で最も注目すべき要素で、ユーザにはハイライトして表示させる要素である。ここでは、主語の省略と連体修飾を例として示している。曖昧性を有する文構造についても、言語学で研究が蓄積されているので、その知見を本実施形態では構造式の形に直して持っている。
主語の省略や連体修飾句以外にも、無規定的な接続助詞「が」が知られている。具体例として新聞の記事から引用する。「英語にはnot worth the paper it is printed on(それが書かれている紙の価値もない)というイディオムがあります。worthless(値打ちがない)を強調したものです、This column is not worth the paper it is printed on. とならないように、新年度も気合いをいれて、ためになる原稿の執筆に取り組んでいきたいと思います。」。
なお、本実施形態において、現時点で考えられる構造上の曖昧性のケースを網羅する必要があるときには、より論理的な言語である英語を第一言語とした方が説明しやすいため、第一言語を英語、第二言語を日本語とした場合を考える。網羅のためには、研究書に依拠して挙げていくのがよい。英語自体の曖昧性については、身近なところでは、例えば吉川洋、友繁義典(2008)『英語の意味とニュアンス』大修館書店がある。
大きな枠組みでいえば、次の3つに集約される。
(1)複数品詞を持つ単語を含むもの
例:Time flies like an arrow.
Timeとflyとは動詞と名詞を持ち、likeは動詞と前置詞を持つ。従って、品詞の並びとしては、time, fly, likeがそれぞれ動詞になって3通りあることになる。
(2)複数の係り受け可能性をもつもの
例:I saw a girl with a telescope
前置詞句は動詞句と名詞句(代名詞を除く)の両方に係りうるので、”with a telescope”は、”a girl”に係る解釈と”saw”に係る解釈とがあり得ることになる。
(3)同一品詞でも複数の用法を持つもの
例1:The chicken is ready to eat.
Eatは他動詞と自動詞がありうるので、the chickenがeatの主語になる解釈とeatの目的語になる解釈との2つがある。
例2:They are flying saucers.
動詞beには進行形の一部としての用法、連結動詞の用法などがある。従って例2ではbe flyingが主動詞、saucersがその目的語である解釈とflyingがsaucersを修飾して名詞句を形成し、theyとflying saucersが等価であるとする解釈があり得る。
個々の単語について、上記の(1)、(2)、(3)に該当するものがあれば、それぞれ規則を書いていくことになる。端的には、意味的な曖昧性のように、機械翻訳処理において構文規則のうちデフォルト規則が適用されるものがこの対象となるとみなせる。例えば、(3)の例2でみたような曖昧性がある場合、統計的にどちらかのほうが頻度が高いなどの理由により、どちらか一方に決めてしまうデフォルト規則が適用されるが、これが裏を返せば検出対象となるのである。
次に、図3のステップS5において、曖昧箇所検出手段30は、文の中に曖昧性はあるか否かの判定を行うにあたり、形態素文字列や品詞や活用形は、解析情報記憶部29からから読み込まれた形態素解析情報の中に含まれているので、それを所与にして、構造式に該当するものがあるか否かを照合する。
ここで、文番号1は、S2において、図5に示すように解析されているので、「お金を借りた銀行」の部分に規則2が適用される。
同様に、文番号2は例えば「[[[トップクォーク]名詞[の]格助詞[寿命]名詞]名詞句[は][短い]形容詞終止形] 文[ので]接続詞[、][[自然界]名詞[には]助詞[[存在し]動詞連用形[え]助動詞未然形[ない]助動詞終止形]]文」と解析されており、従って、「自然界には存在しえない」の部分に図8の規則1が合致するため、曖昧性があることになる。木構造で示すと、図9のようになる。
曖昧構造規則が適用されると、図8に示すように、中央の列に曖昧性の種類及び曖昧さの内容が記してあるので、文中のどの箇所に曖昧性があるかが特定できる。これによれば、文番号1の場合は、曖昧性の種類は連体修飾句であり、名詞句2と動詞連体形との意味関係が不明であることになる。図6の<係り受け情報>に示すように二つの係り受けの関係が可能である。
図8の曖昧構造規則によれば「名詞句2」(銀行)と「動詞連体形」(借りる)の関係が曖昧であり、事実、図6の木構造では、「銀行」と「借りる」を結ぶアークには、「から」と「が」の2つがある。一方、文番号2の曖昧性は主語の省略であることが、図8の曖昧構造規則より分かる。
こうして、図4に挙げた第一言語の文はいずれも曖昧性を有すると判断されることになる。このように判断されると、次に検出された曖昧箇所に対して、翻訳上の曖昧性を解消する質問文を作成する(S6)。一方、曖昧性を有しないと判断すると、曖昧性が解消したものとして訳文を確定する(S13)。
ステップS6において、質問文を作成する際には、[1]可能な候補を列挙できるタイプ(選択型)と、[2]そうでないタイプ(非選択型)とがある。
図7に示す曖昧用語辞書により検出された曖昧箇所については、可能な候補を列挙できるタイプであり、選択疑問文またはYes-No疑問文を作成することができる。曖昧用語辞書内の意味特徴(弁別素性)がすでに質問形式になっているため、そのまま質問として使うことができる。これはYes-No疑問文であるので、回答は選択方式とすることができる。
本実施形態の文番号3の「氏」の場合は、図10のような質問を作成することができる。ここで、図7(c)の意味素性の列に示すと通りの質問になっていないのは、男性と女性とは、一般には図7(c)に示すように背反することになっているため、冗長性を避けるべく、2つの質問を一つにまとめたためである。
一方、曖昧構造規則により検出された曖昧箇所については、可能な候補を列挙できないタイプであり、例えば次のようにして質問文を作成する。図8の最右列に「質問形式」には、規則ごとに対応する質問文を設けているので、文法範疇を問題となっている実際の文中の具体的な語にあてはめて、必要な変形を行い質問文を作成する。
このように可能な候補が列挙できない場合(非選択型)は、wh疑問文を作成することになる。規則2が適用される文番号1の場合、例えば「「借りた」の主語は何か?」といった質問文が作成される。また、規則1が適用される文番号1の場合、例えば「「存在しえない」の主語は何か?」のような質問文が作成される。選択肢はないため、このようなwh疑問文に対して回答者は自由記述で回答することになる。以上のようにして、すべての曖昧箇所に対する質問文が完成すると、質問文付与手段34は、質問文を文中の該当箇所に付与する(S7)。
図11は、実施形態における質問文付与の表示画面の一例を示す説明図である。図11(a)はMicrosoft社のWord(登録商標)の文書編集アプリケーションプログラムのコメント付与機能を使った場合、図11(b)はAdobe社のAcrobatの文書編集アプリケーションプログラムの注釈機能を使用した場合を示している。
図11(a)、図11(b)に示すように、いずれの表示画面においても、文番号3の曖昧箇所である「Y氏」の文字がハイライトされ、目立つようになっている。また、質問文は原文の近傍に出力され、原文を参照しながら質問に回答できるよう工夫がされている。原文は、そのままの状態に保たれている。
図11(a)の文書編集アプリケーションプログラムにおいては、コメントに対するコメントという形で入力はできないため、回答は質問文と同じフィールドに記入することになる。質問文と回答の境界を明確にしておくために、質問文の末尾に[回答欄]という文字列を挿入している。
一方、図11(b)の文書編集アプリケーションプログラムにおいては、注釈に対する返信という入力が可能であるので、それを利用する。この返信を使うと例えば、図12のような画面となる。このように質問文と回答とは領域として区別されているが、お互いが関連づけられている。
このように質問文が付与されると、これらの質問に対する回答をユーザに求める。するとユーザは回答付与手段35を通じて質問文のウィンドウの近傍に示される回答用のウィンドウに回答を埋めていく。なお、選択疑問文の場合は、図11(a)の第3文目や図12の第3文目にあるように、入力の手間を省くため、選択肢を選べるようになっている。これにより、機械翻訳装置は回答者から質問文に対する回答を得る(S8)。
次に回答解析手段36は、質問文は選択型か否かを判定する(S9)。質問文が文番号3の質問のように選択型である場合には、回答から直接解を導くことができるので、第一言語曖昧箇所文法辞書27g、解析情報記憶部32に保存されている各種情報と得られた回答をもとに、正しい解釈を得る(S10)。
そして、ステップ10での解釈はステップS4で得た解析と同一であるかどうかを判定し(S11)、同一でない場合には、問題箇所を置き換えることによってデフォルトの訳文を修正する(S12)。
いま、選択型の質問文として、文番号3に対する質問文を例に取り説明する。例えば、質問(1)については(b)、質問(2)については(e)の回答が得られたとすると、図7(c)の曖昧用語辞書の「氏」のマトリックスより、訳語は”Ms.”に特定できる。
一方、この「氏」のデフォルトの性別は「男性」で、そのデフォルトの訳語は”Mr.”だったとする。この場合、回答者から回答を得ることによって、文番号3の「氏」の属性として「女性」が追加され、ステップS4の段階で得られた「氏」の訳語”Mr.”からこの”Ms.”に置き換わる。置き換わると、この文については曖昧性が解消したものとして訳文を確定する(S13)。これにより処理は終了する。
下記に「氏」の翻訳規則の一例を模式的に示す。
氏の翻訳規則 {}は条件部(上から順に適用され、適用されれば処理終了)
(1)氏{gender=m}→Mr.
(2)氏{gender=f}→Ms.
(3)氏→Mr. <デフォルト規則>
(注)genderは性別を示すプロパティ、m(男性)やf(女性)はその値。
これに当てはめて述べると、女性という回答からgender=fという内部形式に落とすことができる。これにより、従来の(3)の規則ではなく、デフォルト規則ではない(2)の規則が適用されることになる。
次に、ステップS9の判定で質問文が選択型ではなかった場合には、回答をそれぞれ形態素に分割し、品詞等の属性情報を得る(S14)。文番号1や文番号2に対する質問が非選択型である。非選択型の質問に対する回答は自然言語の文や句になるので、これらを訳文に取り込むために、回答の文字列を形態素に分割し品詞等の属性情報を得ることになる。
そして、第一言語曖昧箇所文法辞書、解析情報記憶部から読み出した各種情報と得られた回答とその属性情報より、正しい解釈を得る(S15)。例えば、文番号1に対する質問は、図5(b)の<係り受け情報>に示した木構造の中の動詞「借りる」から分かれている「が」格(主格)のノードにある要素を求めるものである。候補1では、「銀行」という具体的な語が入っているが、候補2では空になっている。回答者が「銀行」と回答していれば、候補1が正しいことになり、<係り受け情報>の候補2は棄却される。一方、回答者が「銀行」以外、例えば、「私」であれば、候補2で空となっている箇所に「私」を挿入するとともに候補1を棄却する。また、<形態素解析情報>には、ステップS14で行った回答の文字列の辞書引き結果が追加される。
ここで、回答の中に翻訳処理に必要な情報を入れていないことがある。よくある例としては、「わからない」、「不明」などがある。この種の回答と上記のような回答を区別するために上記のように言語解析が必要である。文番号2の質問文の回答からは、図9の空となっている部分に入るべき要素が得られる。そこで、もし回答が「トップクォーク」であれば、図9の木構造は、図13のようになる。
そして、このように回答から導かれる情報がステップS4での各種解析結果に反映されると曖昧性は解消したものとして訳文を確定し(S13)、処理を終了する。
以上の説明では、質問文を作成前に、ひと通りの翻訳が終了しているものとしたが、曖昧性の有無の判断に必要な段階までの解析処理(生成処理の手前)までにとどめ、質問に対する回答が得られた後に、最終段階の訳文まで出力するようにすることもできる。
さらに、本実施形態では、ユーザが回答を付与する手段を構成要素として含めていたが、文書編集アプリケーションプログラムに質問文を付与し、それに対する回答をユーザが入れた結果の文書を機械翻訳の入力とすることもできる。つまり、質問付与を一括して行い、そのあと、ユーザが質問に対する回答を終えた後、その回答を利用して、一括翻訳を行うという流れになる。
この場合、ユーザが回答を付与する手段は必須ではなくなる。また、図3に示したフローチャートにおいて、ステップS7で一旦処理を終える。ステップS7の結果、出力される質問文つき文書に対し、ユーザが回答を付与した文書が機械翻訳の入力となる。
この場合は、まず、回答解析手段36は、質問文と回答とから形態素解析情報、格情報、係り受け情報などを導出できる情報を抽出する。次に通常の翻訳処理に進む。このとき、原文のみから得られる形態素解析情報、格情報、係り受け情報、及び質問文と回答の解析により得られた形態素解析情報、格情報、係り受け情報の双方を用いて機械翻訳を行う。翻訳を一通り終えると処理は終了する。
次に、他の実施形態を説明する。図14は、他の実施形態に係わる機械翻訳装置の機能ブロック構成図である。この他の実施形態は、図1に示した実施形態に対し、質問文付与手段34及び回答付与手段35は、文書編集アプリケーションプログラムの校閲または注釈機能を使って行うようにしたものである。図1と同一要素には同一符号を付し重複する説明は省略する。
図1に示した実施形態では、機械翻訳装置の専用のエディタを使用すれば、データの授受は容易であるが、実際の文書作成は、それぞれの目的に応じた文書編集アプリケーションプログラムを用いて行うことが多い。従って、そうした文書編集アプリケーションプログラム上で翻訳を行う際には、機械翻訳装置の機械翻訳プログラムと当該の文書編集アプリケーションプログラムとを連携させることになる。
そこで、図14に示すように、機械翻訳装置の機械翻訳プログラムと当該の文書編集アプリケーションプログラム37とを連携インタフェース38にて連携を行う。文書編集アプリケーションプログラム37と機械翻訳装置との連携にはさまざまな方法がある。アプリケーション間のデータ通信インタフェース(技術)としては、DDE (Dynamic Data Exchange), OLE (Object Linking and Embedding), OCX (OLE Custom Control), ActiveX, COM (Component Object Model)などがある。
また、文書編集アプリケーションプログラム37で連携翻訳を実現するには、文書編集アプリケーションプログラム37にマクロやプラグインを組み込む。これらは、一般的にツールバーやメニューコマンドとして実現している。また、これらのマクロやプラグインは、連携インタフェース38を介して、機械翻訳装置11の演算制御装置12の制御部24と通信しデータの授受を行う。
文書編集アプリケーションプログラム37を連携させて曖昧性解消の処理を行う際の処理の流れを図15に示す。曖昧性解消の処理は、図3に示した場合と同様であるが、機械翻訳プログラムと文書編集アプリケーションプログラム37とを連携させる際に、連携インタフェース38及びマクロやプラグインが介在することが異なっている。
次に、文書編集アプリケーションプログラム37におけるコメントや注釈部分の識別について簡単に説明する。例えば、文書編集アプリケーションプログラム37がMicrosoft社のWordの場合は、文(Sentence)オブジェクトにコメントが付与されていれば、コメント(Comments)オブジェクトがあることがわかる。具体的には図16のようなプログラムでコメントを参照することができる。従って、対象のコメントオブジェクトを取得し、テキストを抽出すれば、そこに記載の質問に対する回答も取得可能である。
以上述べたように、実施形態によれば、以下の効果が期待できる。第一に、第二言語に機械翻訳し易くするために原文を書き換えるといった負荷の大きい作業を軽減できる。第二に、原文を書き換えることはしないため、原文のオリジナリティを保持することができる。解釈に変更があっても、原文は影響を受けない。第三に、monolingualなユーザが機械翻訳を外国語での情報発信に使う場合、その外国語の知識がなくても、あるいは、第一言語と第二言語の特徴的な差異についての知識がなくても、システムが提示する質問に回答するだけで機械翻訳の精度を上げることができる。第四に、従来は機械翻訳装置内で対話的に曖昧性箇所の問い合わせを行っていたが、実施形態では、機械翻訳装置の外側で対話方式あるいは事前の一括方式のいずれかにて、翻訳に必要とされる情報を付加することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…表示装置、18…入力装置、19…マウス、20…キーボード、21a…読み取り装置、21b…読み込み装置、22…ハードディスクドライブ、23…入力処理部、24…制御部、25…記憶部、26…文書記憶部、27…翻訳辞書部、28…文書解析翻訳手段、29…解析情報記憶部、30…曖昧箇所検出手段、31…質問文・回答記憶部、32…質問文作成手段、33…出力処理部、34…質問文付与手段、35…回答付与手段、36…回答解析手段、37…文書編集アプリケーションプログラム、38…連携インタフェース

Claims (2)

  1. 第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶する辞書であって、第一言語では弁別しないが第二言語では同じ意味レベルの語がなく語の指定に弁別素性が必要となる語を集めた曖昧用語辞書、および曖昧となりうる構造を構造式の形で列挙した曖昧構造規則の両方ないし一方を備える第一言語曖昧箇所文法辞書と、
    翻訳対象となる第一言語文書を解析して第二言語の訳文を求める文書解析翻訳手段と、
    前記文書解析翻訳手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する曖昧箇所検出手段と、
    前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を、前記第一言語曖昧箇所文法辞書に基づき、選択型あるいは非選択型のいずれかの質問文を作成する質問文作成手段と、
    文書編集アプリケーションプログラムの校閲または注釈機能を使って前記質問文を前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する質問文付与手段と、
    前記質問文付与手段で付与された質問文に対して前記文書アプリケーションプログラムの校閲または注釈機能を使って入力されたユーザからの回答の文字列を形態素に分割し、属性情報を求め、その属性情報、前記文書解析翻訳手段で解析された解析情報、および前記曖昧用語辞書、前記曖昧構造規則に含まれる知識に基づいて、第二言語の訳文に必要となる情報を確定し、前記文書解析翻訳手段で翻訳した訳文に反映させる回答解析手段とを備えたことを特徴とする機械翻訳装置。
  2. 機械翻訳プログラムを記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力装置と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置として機能させるためのコンピュータにおいて、
    前記記憶装置に第一言語では曖昧とならないが第二言語の訳出には必要となる単語または文構造を記憶装置に格納した辞書であって、第一言語では弁別しないが第二言語では同じ意味レベルの語がなく語の指定に弁別素性が必要となる語を集めた曖昧用語辞書、および曖昧となりうる構造を構造式の形で列挙した曖昧構造規則の両方、ないし一方を備える第一言語曖昧箇所文法辞書を記憶させておき、
    前記コンピュータを、
    翻訳対象となる第一言語文書を解析して第二言語の訳文を求める文書解析翻訳手段と、
    前記文書解析翻訳手段で解析された解析情報及び前記第一言語曖昧箇所文法辞書に基づいて前記第一言語文書では明示されていないが第二言語の訳文には必要となる情報が欠落している曖昧箇所を検出する曖昧箇所検出手段と、
    前記曖昧箇所ごとに前記第二言語の訳文に必要となる情報を得るためのユーザへの質問文を、前記第一言語曖昧箇所文法辞書に基づき、選択型あるいは非選択型のいずれかの質問文を作成する質問文作成手段と、
    前記質問文を文書編集アプリケーションプログラムの校閲または注釈機能を使って前記第一言語文書の該当曖昧箇所に付与して表示装置に表示する質問文付与手段と、
    前記質問文付与手段で付与された質問文に対して前記文書アプリケーションプログラムの校閲または注釈機能を使って入力されたユーザからの回答の文字列を形態素に分割し、属性情報を求め、その属性情報、前記文書解析翻訳手段で解析された解析情報、および前記曖昧用語辞書、前記構造規則に含まれる知識に基づいて、第二言語の訳文に必要となる情報を確定し、前記文書解析翻訳手段で翻訳した訳文に反映させる回答解析手段として機能させるための機械翻訳プログラム。
JP2010144963A 2010-06-25 2010-06-25 機械翻訳装置及び機械翻訳プログラム Active JP5632213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010144963A JP5632213B2 (ja) 2010-06-25 2010-06-25 機械翻訳装置及び機械翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010144963A JP5632213B2 (ja) 2010-06-25 2010-06-25 機械翻訳装置及び機械翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2012008852A JP2012008852A (ja) 2012-01-12
JP5632213B2 true JP5632213B2 (ja) 2014-11-26

Family

ID=45539304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010144963A Active JP5632213B2 (ja) 2010-06-25 2010-06-25 機械翻訳装置及び機械翻訳プログラム

Country Status (1)

Country Link
JP (1) JP5632213B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6045948B2 (ja) * 2013-03-15 2016-12-14 株式会社東芝 機械翻訳装置及び機械翻訳プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0895979A (ja) * 1994-09-28 1996-04-12 Sharp Corp 機械翻訳装置
JPH09305607A (ja) * 1996-05-13 1997-11-28 Sony Corp 翻訳装置および翻訳方法

Also Published As

Publication number Publication date
JP2012008852A (ja) 2012-01-12

Similar Documents

Publication Publication Date Title
Daud et al. Urdu language processing: a survey
Miłkowski Developing an open‐source, rule‐based proofreading tool
Elkateb et al. Arabic WordNet and the challenges of Arabic
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
Garvin On machine translation: selected papers
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
US20140039879A1 (en) Generic system for linguistic analysis and transformation
Azmi et al. Universal web accessibility and the challenge to integrate informal Arabic users: a case study
Somers The translator's workstation
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
Mammadzada A review of existing transliteration approaches and methods
JP5632213B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP4298771B2 (ja) 機械翻訳装置及びプログラム
Zhang et al. PQAC-WN: constructing a wordnet for Pre-Qin ancient Chinese
JP4350566B2 (ja) 機械翻訳システム
JP6045948B2 (ja) 機械翻訳装置及び機械翻訳プログラム
Nolan et al. UniArab: RRG Arabic-to-English machine translation
Memmesheimer et al. A German Parallel Clausal Coordinate Ellipsis Corpus that Aligns Sentences from the TüBa-D/Z Treebank with Reconstructed Canonical Forms
LAZAREVA Olha SERDIUKOVA
JPH04174069A (ja) 言語理解支援装置
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
ROSEN et al. CZESL, A CORPUS OF NON-NATIVE CZECH
JP2723886B2 (ja) 機械翻訳装置及びその翻訳規則作成方法
He Translating English Relative Clauses into Chinese: A Corpus-assisted Study

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130213

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130723

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141009

R150 Certificate of patent or registration of utility model

Ref document number: 5632213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350