JP5100445B2 - 機械翻訳する装置および方法 - Google Patents

機械翻訳する装置および方法 Download PDF

Info

Publication number
JP5100445B2
JP5100445B2 JP2008048284A JP2008048284A JP5100445B2 JP 5100445 B2 JP5100445 B2 JP 5100445B2 JP 2008048284 A JP2008048284 A JP 2008048284A JP 2008048284 A JP2008048284 A JP 2008048284A JP 5100445 B2 JP5100445 B2 JP 5100445B2
Authority
JP
Japan
Prior art keywords
sentence
target language
unit
translation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008048284A
Other languages
English (en)
Other versions
JP2009205518A (ja
Inventor
聡史 釜谷
哲朗 知野
建太郎 降幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008048284A priority Critical patent/JP5100445B2/ja
Priority to US12/234,009 priority patent/US8924195B2/en
Priority to CN200910007558A priority patent/CN101520777A/zh
Publication of JP2009205518A publication Critical patent/JP2009205518A/ja
Application granted granted Critical
Publication of JP5100445B2 publication Critical patent/JP5100445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

この発明は、入力された原言語の文を目的言語の文に機械翻訳する装置および方法に関する。
自然言語処理技術の進展に伴い、原言語で記述された原言語文を入力し、所望の目的言語へと変換して出力する機械翻訳装置が開発されている。例えば、日本語で記述されたテキストなどを、英語や中国語などの他言語に翻訳する機械翻訳装置が実用化されている。このような機械翻訳装置では、入力された原言語文をより忠実に、また高精度に訳出するために、自然言語が持つ多様性や曖昧性などを十分に解決する機構が必要である。
例えば、特許文献1では、原言語文で不足する格要素をユーザとの対話を通して補足する技術が提案されている。これにより、原言語文の解釈曖昧さを解決し、解析誤りのない高い精度の翻訳装置を実現している。
特開2000−10974号公報
しかしながら、原言語文に解析上の曖昧性がない場合でも、十分に原言語文の持つ意図を反映した訳文を生成することができない事例が散見される。例えば、文化的背景、語法、語用の観点から、原言語では省略する方が自然な語句が存在する。そして、このような語句の省略は、原言語の文法上は問題がない場合が多い。このため、語句の省略を含む原言語文を翻訳したときに、訳文に意図が反映されない場合があることを検知することが困難となる。
また、一般に機械翻訳装置のユーザは目的言語に対する知識を十分持ち合わせていない。このため、ユーザが出力された訳文を確認して訳文が原言語文の意図を反映していないことを判断し、さらに適切な訳文を得るための情報を補って再度原言語文を入力することは極めて困難である。
本発明は、上記に鑑みてなされたものであって、翻訳結果がユーザの意図を十分に反映したものとなるよう、原文に追加補足するべき語句を検出、提示し、原言語入力文をよりユーザの意図を酌んだ内容に調整可能とする機構を備えることにより高精度な機械翻訳を実現できる装置および方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部と、原言語による入力文を受付ける入力受付部と、前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を前記用例記憶部から検索する検索部と、前記入力文を目的言語に翻訳した目的言語文を生成し、検索された前記目的言語の用例を原言語に翻訳した再訳文を生成する翻訳部と、前記再訳文と前記入力文との間の相違部分を検出する検出部と、前記相違部分を出力する出力部と、を備えたことを特徴とする。
また、本発明は、目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部と、原言語による入力文を受付ける入力受付部と、前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を前記用例記憶部から検索する検索部と、検索された前記目的言語の用例を原言語に翻訳した第1再訳文を生成する第1翻訳部と、前記入力文を目的言語に翻訳した目的言語文を生成し、前記目的言語文を原言語に翻訳した第2再訳文を生成する第2翻訳部と、前記第1再訳文と前記第2再訳文との間の相違部分を検出する検出部と、前記相違部分を出力する出力部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法である。
本発明によれば、翻訳結果がユーザの意図を十分に反映したものとなるよう、原文に追加補足するべき語句を検出、提示し、原言語入力文をよりユーザの意図を酌んだ内容に調整可能とする機構を備えることにより高精度な機械翻訳を実現できるという効果を奏する。
以下に添付図面を参照して、この発明にかかる機械翻訳する装置および方法の最良な実施の形態を詳細に説明する。なお、以下では、日本語と中国語または英語との間の翻訳を例に説明を進めるが、翻訳処理の目的言語は、これらの言語に限られることなく、あらゆる言語を対象とすることができる。
本実施の形態にかかる機械翻訳装置は、原言語の入力文と類似する用例を含む対訳用例を検索し、対訳用例の目的言語の用例を原言語に翻訳した再訳文と、入力文または入力文を目的言語に翻訳した結果をさらに原言語に翻訳した再訳文とを比較して相違部分(差分)を検出し、検出した差分を出力する。
図1は、本実施の形態にかかる機械翻訳装置100のブロック図である。図1に示すように、機械翻訳装置100は、入力受付部101と、選択受付部102と、翻訳制御部110と、出力部103と、用例記憶部120と、を備えている。翻訳制御部110は、翻訳処理を制御する構成部であり、検索部111と、翻訳部112と、検出部113と、生成部114と、仮説適用部115と、更新部116と、を備えている。以下に、各構成部の詳細な機能について説明する。
入力受付部101は、ユーザによる原言語の入力文(以下、原言語入力文という。)を受付ける。原言語入力文の入力には、キーボード、ポインティングデバイス、手書き文字認識、OCRなど、一般的に用いられるあらゆる入力方法を適用することができる。また、入力受付部101は、ユーザの発声を音声入力として受付け、これを音声認識処理した結果として原言語入力文を出力するようにするなど、最終的に原言語入力文を得られる処理であれば、種々の方法を使用することができる。
用例記憶部120は、原言語による文と、これと互いに翻訳関係にある、少なくとも1つの目的言語による文とを組にし、対訳用例として記憶する。本実施の形態では、日本語、中国語、および英語の用例を対応づけた対訳用例を用いる例について説明する。なお、対応づける言語の個数はこれに限られず、2言語または4言語以上の用例を対応づけるように構成してもよい。3言語以上の言語の用例を用いる場合は、所望の目的言語を動的に選択して使用するように構成する。
図2は、用例記憶部120に記憶されている対訳用例のデータ構造の一例を示す図である。図2は、対訳用例201〜206の6つの対訳用例を記憶した例を示している。対訳用例201〜206は、それぞれ複数の言語の用例を含む。例えば、対訳用例201は、日本語文207と、これと互いに対訳関係にある中国語文208および英語文209とを含んでいる。
なお、以下の説明では、対訳用例中の用例文のうち、入力受付部101で受付けた原言語入力文と同じ言語による文を用例原文、翻訳の目的言語として指定された言語による文を用例訳文と呼称する。
また、用例記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
図1に戻り、検索部111は、入力受付部101で受付けた原言語入力文について、これと類似する用例原文を持つ対訳用例を用例記憶部120から検索し、その類似度順に類似対訳用例リストに記憶する。類似度計算方法としては、単語間の概念的上下関係や同義関係を記述したシソーラス上の距離を測る方法などを利用した従来から用いられているあらゆる方法を適用できる。
例えば、検索部111は、注目する単語が完全に一致する時に最大値を取る尺度を、単語間の類似度である単語間類似度として用いる。そして、検索部111は、単語間類似度が文全体として最大となるような単語間対応を動的計画法などの広く知られた手法で検出する。また、検索部111は、検出した単語間対応を仮定したときの単語間類似度の総和を文全体の類似度とする。そして、検索部111は、文全体の類似度が大きい順に所定数の対訳用例を検索する。
図3は、検索部111による処理結果を記憶した、類似対訳用例リストの一例を示す図である。図3に示すように、類似対訳用例リストは、図2のような対訳用例のうち、原言語入力文に類似する用例として検索された対訳用例を類似度順に格納している。図3は、図2の対訳用例202、203、および201にそれぞれ対応する対訳用例301〜303を格納した類似対訳用例リストの例を示している。
図1に戻り、翻訳部112は、指定された文字列が原言語による文であれば目的言語による文へ翻訳し、指定された文字列が目的言語による文であれば原言語による文へ翻訳して出力する。例えば、目的言語として中国語が指定されており、指定された文字列が日本語文であれば、翻訳部112は、日本語文を中国語文に翻訳する。一方、指定された文字列が中国語文であれば、翻訳部112は、中国語文を日本語文へと変換する。
本実施の形態では、翻訳部112は、後述する検出部113の要求に応じて、用例訳文を編集した編集用例再訳文(詳細は後述)を原言語に翻訳した編集用例再訳文を生成する。また、翻訳部112は、検出部113の要求に応じて、原言語入力文を目的言語に翻訳した目的言語文を生成し、生成した目的言語文をさらに原言語に翻訳した再訳入力文を生成する。編集用例再訳文は、検出部113が原言語入力文または再訳入力文との間の差分を検出する際に参照される。
なお、翻訳部112より行われる翻訳処理は、トランスファ方式、用例ベース方式、統計ベース方式、中間言語方式に代表される、従来から用いられているあらゆる機械翻訳方法を適用することができる。
検出部113は、編集用例再訳文と原言語入力文との間の差分、および編集用例再訳文と再訳入力文との間の差分を検出する。具体的には、検出部113は、まず、原言語入力文と、検索部111によって構築された類似対訳用例リスト内に保持された各対訳用例の用例原文との差分を検知する。次に、検出部113は、差分が現れた用例原文中の各単語に対応する用例訳文中の各単語を、当該差分が現れた原言語入力文中の各単語の訳語で置換することにより編集用例訳文を作成する。次に、検出部113は、翻訳部112を用いて編集用例訳文を原言語に翻訳し、編集用例再訳文を得る。そして、検出部113は、編集用例再訳文と原言語入力文との間の差分を検出する。検出部113は、検出した差分を含む差分情報に、比較した対訳用例を対応付けて差分情報リストに記憶する。
また、検出部113は、翻訳部112を用いて原言語入力文を目的言語に翻訳し、目的言語文を得る。さらに、検出部113は、翻訳部112を用いて目的言語文をさらに原言語に翻訳し、再訳入力文を得る。そして、検出部113は、編集用例再訳文と再訳入力文との間の差分を検出する。検出部113は、検出した差分を含む差分情報に、比較した対訳用例と対応付けて差分情報リストに記憶する。
ここで、検出部113による差分検出処理の具体例について説明する。図4は、原言語入力文と編集用例再訳文との間の差分が検出される過程を示す図である。図4は、「私はお酒を飲むのが好きです」を意図して入力された日本語の原言語入力文401に対する差分検出処理の例を示している。
なお、日本語では、このような文を意図する場合、「お酒」を目的語とする語句である「飲む」を意味する動詞を省略することができる。原言語入力文401は、このように「飲む」を意味する動詞が省略された日本語の文を表している。
この場合、検索部111は、例えば、図2の対訳用例201に相当する対訳用例402を検索する。対訳用例402は、「私は映画を見るのが好きです」を意味する各言語の用例を含んでいる。なお、対訳用例402に含まれる日本語の用例原文403は、「映画」を目的語とする語句である「見る」を意味する動詞が省略されている。
従って、検出部113は、原言語入力文401と用例原文403との差分として、「お酒」を意味する日本語の単語411と、「映画」を意味する日本語の単語412とを検出する。そして、検出部113は、用例訳文404のうち、「映画」を意味する下線部の単語を、「お酒」に対応する中国語および英語の少なくとも一方の単語に置換し、編集用例訳文405を生成する。なお、同図では、中国語の用例訳文と英語の用例訳文とを共に記載しているが、検出部113は、指定された目的言語に対応する少なくとも一方の用例訳文に対して差分検出処理を実行すればよい。
検出部113は、さらに編集用例訳文405を翻訳部112で翻訳することによって、編集用例再訳文406を生成する。次に、検出部113は、原言語入力文401と、編集用例再訳文406との差分413(「を見るの」)を検出し、検出した差分413を含む差分情報に、対訳用例402を対応付けて差分情報リストに記憶する。
図5は、再訳入力文と編集用例再訳文との間の差分が検出される過程を示す図である。図5は、「切手を貼るのを忘れないでね」を意図して入力された日本語の原言語入力文501に対する差分検出処理の例を示している。
なお、日本語では、このような文を意図する場合、「切手」を目的語とする語句である「貼る」を意味する動詞を省略することができる。原言語入力文501は、このように「貼る」を意味する動詞が省略された日本語の文を表している。
検出部113は、翻訳部112を用いて原言語入力文501を目的言語に翻訳し、目的言語文502を得る。さらに、検出部113は、翻訳部112を用いて目的言語文502をさらに原言語に翻訳し、再訳入力文503を得る。
一方、検索部111は、原言語入力文501に類似する用例として、図2の対訳用例304に相当する対訳用例504を検索する。対訳用例504は、「ノートを買うのを忘れないでね」を意味する各言語の用例を含んでいる。なお、対訳用例504に含まれる日本語の用例原文505は、「ノート」を目的語とする語句である「忘れる」を意味する動詞が省略されている。
従って、検出部113は、原言語入力文501と用例原文505との差分として、「切手」を意味する日本語の単語611と、「ノート」を意味する日本語の単語612とを検出する。そして、検出部113は、用例訳文506のうち、「切手」を意味する下線部の単語を、「ノート」に対応する中国語および英語の少なくとも一方の単語に置換し、編集用例訳文507を生成する。
検出部113は、さらに編集用例訳文507を翻訳部112で翻訳することによって、編集用例再訳文508を生成する。次に、検出部113は、原言語入力文501と、編集用例再訳文508との差分513(「を買うの」)を検出し、検出した差分613を含む差分情報に対訳用例504を対応付けて差分情報リストに記憶する。
図6は、差分情報を保持する差分情報リストの例を示す図である。なお、図6は、図3のような3つの対訳用例を含む類似対訳用例リストが得られた場合に、各対訳用例に対応する3つの差分情報を含む差分情報リストの例を示している。図6に示すように、差分情報601、604、607は、それぞれ差分602、605、608の検出元である対訳用例603、606、609が対応づけられている。なお、差分情報601、604、607には、記号“(”および記号“)”で括られた、原言語入力文に元来含まれている語句を含む。これにより、編集用例再訳文内で差分の生じた箇所を容易に把握することができる。
図1に戻り、生成部114は、検出された差分を原言語入力文に付加した出力文を生成する。出力文とは、ユーザが意図している翻訳を得るために必要な補完情報を含む新たな原言語文の候補を提案するためにユーザに出力する文である。以下では、このような出力文を提案文と呼ぶ。
具体的には、生成部114は、記号“(”および記号“)”で括られた原言語入力文に元来含まれている部分に、差分情報リスト内の差分を選言的に並べることで提案文を生成する。図7は、提案文の一例を示す図である。図7に示すように、生成部114は、例えば、記号“/”で区切って選言的に並べられた差分702〜704を記号“{”および記号“}”で括り、原言語入力文の差分が生じた箇所に埋め込んだ形式の提案文701を生成する。なお、提案文701(「私はお酒{を飲むの/を食べるの/を見るの}が好きです」)は、図4の原言語入力文401(「私はお酒が好きです」)に対して、図6のような差分情報リストが得られた場合に、生成部114が生成する提案文の一例を示している。
図1に戻り、選択受付部102は、生成部114によって生成され、出力部103(後述)が出力した提案文内の差分のうち、ユーザが選択した差分を受付ける。また、選択受付部102は、ユーザが翻訳処理を終了するための操作を受付ける。選択する差分の受付けや、終了操作の受付けには、キーボード、ポインティングデバイスなどの一般的に用いられているあらゆる入力方法を適用することができる。
例えば、ユーザが、出力された図7の提案文701(「私はお酒{を飲むの/を食べるの/を見るの}が好きです」)の差分702(「を飲むの」)を表示している部分をポインティングデバイスによりポイントすることで採用する差分を選択する。そして、選択受付部102は選択された差分を受付ける。なお、選択受付部102は、選択された差分702を含む図6の差分情報601を選択差分情報としてRAMなどの記憶部等(図示せず)に記憶する。
ユーザが提案文に含まれる差分以外の語句を原言語入力文に補完することを望む場合は、選択受付部102は、ユーザが独自に入力した語句をユーザ差分情報として受付けて記憶部に記憶する。図8は、ユーザ差分情報の例を示す図である。図8に示すように、ユーザ差分情報801は、ユーザが入力した語句である差分802に、記号“(”および記号“)”で括られた、原言語入力文に元来含まれている語句が付加される。
なお、ユーザ差分情報は、図6のような差分情報リストの要素である差分情報とは、差分の検出元となった対訳用例が対応づけられていない点が異なるが、差分情報自体は共通の記憶方式を採用する。これにより、出力された差分が選択された場合と、ユーザが独自の差分を入力した場合とで処理を共通化することができる。
なお、選択受付部102を、ユーザの発声を音声入力として受付け、受付けた音声を音声認識し、音声認識結果と一致する差分を選択された差分として受付けるように構成してもよい。また、差分の一部のキーワードのみが発声された場合、当該キーワードを含む差分が選択されたと判断するように構成してもよい。
仮説適用部115は、選択差分情報またはユーザ差分情報を用いて、新たな原言語入力文を生成し、生成した原言語入力文を翻訳部112によって翻訳することで新たに目的言語文を取得する。
例えば、図7の提案文701(「私はお酒{を飲むの/を食べるの/を見るの}が好きです」)に対して、差分702(「を飲むの」)が選択された場合、図6の差分情報601が選択差分情報として記憶される。そこで、仮説適用部115は、差分情報601から記号“(”および記号“)”を取り除くことで新たな原言語入力文(「私はお酒を飲むのが好きです」)を生成する。仮説適用部115は、ユーザ差分情報についても、同様の方法で新たな原言語入力文を生成する。
更新部116は、選択差分情報に対応づけられた対訳用例を、検索部111によって生成された類似対訳用例リストの先頭に移動させるように配置を更新する。
出力部103は、原言語入力文、目的言語文、提案文、類似対訳用例リストの内容を出力する。出力部103による出力方法は、例えば、ディスプレイ装置(図示せず)による画像出力、プリンタ装置(図示せず)による印字出力、音声合成装置(図示せず)による合成音声など、従来から用いられているあらゆる方法で実現することができる。また、このような出力方法を複数組み込んでおき、必要に応じて切り替えるように構成してもよいし、それら複数の方式を併用するように構成してもよい。
図9は、出力部103によるディスプレイ装置へ出力した表示画面の一例を示す図である。図9に示すように、表示画面は、原言語入力文を出力する原言語入力文フィールド901と、目的言語文を出力する目的言語文フィールド902と、提案文を出力する提案文フィールド903と、類似対訳用例リスト内の各対訳用例を出力する類似対訳用例リストフィールド904とを含んでいる。
次に、このように構成された本実施の形態にかかる機械翻訳装置100による機械翻訳処理について図10を用いて説明する。図10は、本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
まず、入力受付部101が、原言語入力文Sを受付ける(ステップS1001)。次に、検索部111が、原言語入力文Sと一致または類似する用例を用例記憶部120から検索し、類似度の高い順に類似対訳用例リストLeに記憶する(ステップS1002)。
次に、翻訳部112が、原言語入力文Sを翻訳し目的言語文Tを生成する(ステップS1003)。次に、検出部113が、編集用例再訳文および再訳入力文を生成し、編集用例再訳文と原言語入力文および再訳入力文とを比較して差分を検出する差分検出処理を実行する(ステップS1004)。差分検出処理の詳細は後述する。なお、差分検出処理では、処理結果として検出された差分を含む差分情報リストLdが出力される。
次に、生成部114が、検出された差分を参照してユーザに提示する提案文を生成する提案文生成処理を実行する(ステップS1005)。提案文生成処理の詳細については後述する。
次に、出力部103が、原言語入力文、目的言語文、および生成された提案文をディスプレイ装置等に出力する結果出力処理を実行する(ステップS1006)。結果出力処理の詳細については後述する。
次に、選択受付部102が、ユーザの操作を受付ける(ステップS1007)。選択受付部102は、受付けた操作が終了操作であるか否かを判断し(ステップS1008)、終了操作の場合は(ステップS1008:YES)、機械翻訳処理を終了する。
終了操作でない場合は(ステップS1008:NO)、選択受付部102は、差分が入力されたか否かを判断する(ステップS1009)。なお、差分の入力方法には、表示された提案文からユーザがポインティングデバイス等により選択する方法と、提案文に含まれない差分をユーザが独自に入力する方法とが含まれる。
差分が入力されていない場合は(ステップS1009:NO)、ユーザ操作受付処理に戻って処理を繰り返す(ステップS1007)。
差分が入力された場合は(ステップS1009:YES)、仮説適用部115は、入力された差分が、差分検出処理で出力された差分情報リストに含まれるか否かを判断する(ステップS1010)。入力された差分が差分情報リストに含まれる場合(ステップS1010:YES)、仮説適用部115は、入力された差分を含む差分情報を選択差分情報Hとして記憶するとともに、ユーザ差分情報Uを空に設定する(ステップS1011)。
入力された差分が差分情報リストに含まれない場合(ステップS1010:NO)、仮説適用部115は、入力された差分を含むユーザ差分情報Uを生成して記憶するとともに、選択差分情報Hを空に設定する(ステップS1012)。
次に、仮説適用部115が、記憶された選択差分情報Hまたはユーザ差分情報Uを参照して新たな原言語入力文を生成し、生成した原言語入力文を翻訳して目的言語文を得る仮説適用処理を実行する(ステップS1013)。仮説適用処理の詳細については後述する。
次に、更新部116が、表示画面の表示を更新する更新処理を実行する(ステップS1014)。更新処理の詳細は後述する。
このような処理により、翻訳結果を原言語に再翻訳した再訳文と原言語入力文との差分を、翻訳結果が原文の意図を反映しているか否かを検出するための情報として出力することができる。そして、出力された差分からユーザが選択した差分を用いて新たに生成した原言語入力文を翻訳することができるため、意図を反映した翻訳結果を容易に得ることが可能となる。
次に、ステップS1004の差分検出処理の詳細について図11を用いて説明する。図11は、本実施の形態における差分検出処理の全体の流れを示すフローチャートである。
まず、検出部113は、翻訳部112を用いて目的言語文Tを原言語に翻訳し、再訳入力文Tbを生成する(ステップS1101)。次に、検出部113は、類似対訳用例リストLeから未処理の対訳用例Eを取得する(ステップS1102)。
次に、検出部113は、取得した対訳用例Eの用例原文と原言語入力文Sとの相違部分を検出する(ステップS1103)。さらに、検出部113は、対訳用例Eの用例訳文の相違部分に相当する語句を、用例原文の相違部分に対応する訳語で置換して編集用例訳文Emを生成する(ステップS1104)。なお、検出部113は、原言語と目的言語の単語を対応づけた辞書等(図示せず)を参照することにより、用例原文の相違部分に対応する訳語を取得する。
次に、検出部113は、翻訳部112を用いて編集用例訳文Emを原言語に翻訳し、編集用例再訳文Etを生成する(ステップS1105)。次に、検出部113は、編集用例再訳文Etと、原言語入力文Sとの差分を検出し、検出した差分を含む差分情報を生成して差分情報リストLdに記憶する(ステップS1106)。具体的には、検出部113は、検出した差分に、記号“(”および記号“)”で括られた、原言語入力文に元来含まれている語句を付加した差分情報を生成する。さらに、検出部113は、生成した差分情報に、検出の元になった対訳用例を対応づけて差分情報リストLdに記憶する。
同様に、検出部113は、編集用例再訳文Etと、ステップS1101で生成した再訳入力文Tbとの差分を検出し、検出した差分を含む差分情報を生成して差分情報リストLdに記憶する(ステップS1107)。
次に、検出部113は、類似対訳用例リストLe内のすべての対訳用例を処理したか否かを判断する(ステップS1108)。すべての対訳用例を処理していない場合は(ステップS1108:NO)、次の対訳用例を選択して処理を繰り返す(ステップS1102)。すべての対訳用例を処理した場合は(ステップS1108:YES)、差分検出処理を終了する。
次に、ステップS1005の提案文生成処理の詳細について図12を用いて説明する。図12は、本実施の形態における提案文生成処理の全体の流れを示すフローチャートである。
まず、生成部114は、原言語入力文Sをディスプレイ装置等に表示する提案文Pとして設定する(ステップS1201)。次に、生成部114は、差分情報リストLdから未処理の差分情報を取得する(ステップS1202)。そして、生成部114は、取得した差分情報を提案文Pに併合する(ステップS1203)。具体的には、生成部114は、差分情報に含まれる差分を、提案文Pの該当する位置に挿入し、記号“{”および“}”で括ることにより差分情報を提案文Pに併合する。なお、複数の差分を同じ位置に挿入する場合は、生成部114は、挿入する差分と他の差分とを記号“/”で区切る。
次に、生成部114は、差分情報リストLd内のすべての差分情報を処理したか否かを判断する(ステップS1204)。すべての差分情報を処理していない場合は(ステップS1204:NO)、次の差分情報を選択して処理を繰り返す(ステップS1202)。すべての差分情報を処理した場合は(ステップS1204:YES)、提案文生成処理を終了する。
次に、ステップS1006の結果出力処理の詳細について図13を用いて説明する。図13は、本実施の形態における結果出力処理の全体の流れを示すフローチャートである。
まず、出力部103は、原言語入力文S、目的言語文T、および提案文Pを表示画面の所定の位置に出力する(ステップS1301)。次に、出力部103は、類似用例リストLeから未処理の対訳用例を取得する(ステップS1302)。次に、出力部103は、取得した対訳用例を、表示画面の所定の位置に出力する(ステップS1303)。
次に、出力部103は、類似用例リストLe内のすべての対訳用例を処理したか否かを判断する(ステップS1304)。すべての対訳用例を処理していない場合は(ステップS1304:NO)、次の対訳用例を選択して処理を繰り返す(ステップS1302)。すべての対訳用例を処理した場合は(ステップS1304:YES)、結果出力処理を終了する。
次に、ステップS1013の仮説適用処理の詳細について図14を用いて説明する。図14は、本実施の形態における仮説適用処理の全体の流れを示すフローチャートである。
まず、仮説適用部115は、選択差分情報Hが空か否かを判断する(ステップS1401)。選択差分情報Hが空の場合(ステップS1401:YES)、仮説適用部115は、ユーザ差分情報Uから新たな原言語入力文Sを生成する(ステップS1402)。具体的には、ユーザ差分情報U内の記号“(”および記号“)”を取り除くことで新たな原言語入力文Sを生成する。
選択差分情報Hが空でない場合(ステップS1401:NO)、仮説適用部115は、選択差分情報Hから新たな原言語入力文Sを生成する(ステップS1403)。
次に、仮説適用部115は、翻訳部112によって、生成した原言語入力文Sを翻訳して目的言語文Tを生成し(ステップS1404)、仮説適用処理を終了する。
次に、ステップS1014の更新処理の詳細について図15を用いて説明する。図15は、本実施の形態における更新処理の全体の流れを示すフローチャートである。
まず、更新部116は、選択差分情報Hが空か否かを判断する(ステップS1501)。選択差分情報Hが空の場合(ステップS1501:YES)、更新部116は更新処理を終了する。
選択差分情報Hが空でない場合(ステップS1501:NO)、更新部116は、選択差分情報Hの元となった対訳用例Ehを取得する(ステップS1502)。具体的には、更新部116は、選択差分情報Hと一致する差分情報に対応づけられた対訳用例Ehを、差分情報リストから取得する。
次に、更新部116は、取得した対訳用例Ehを、類似対訳用例リストLe内で先頭になるように配置を更新し(ステップS1503)、更新処理を終了する。
次に、本実施の形態による機械翻訳処理の具体例について説明する。以下では、用例記憶部120には、図2に示すような対訳用例が記憶されているものとする。また、原言語は日本語であり、目的言語は中国語または英語が指定されたものとする。
まず、入力受付部101が、「私はお酒を飲むのが好きです」を意図して入力された図4の原言語入力文401(「私はお酒が好きです」)を受付けたとする(ステップS1001)。なお、原言語入力文401は、上述のように「飲む」を意味する動詞が省略されている。
検索部111は、原言語入力文401に類似する用例を用例記憶部120から検索し、例えば、図3に示す類似対訳用例リストLeを得る(ステップS1002)。また、翻訳部112は、原言語入力文401を翻訳し、例えば、図16の中国語文1601または英語文1602を生成する(ステップS1003)。
なお、中国語文1601および英語文1602は、「私はお酒という存在が好きである」という意味になっている。すなわち、この訳文は、ユーザの意図とは異なる不自然な訳文となっている。これは、動詞が省略された原言語入力文401をそのまま翻訳したことが原因である。
これらの条件の下で、ユーザの発話意図を反映した翻訳処理を実現するため、以下のように処理を継続する。まず、検出部113が差分検出処理を実行する(ステップS1004)。
検出部113は、翻訳部112を用いて目的言語文Tである中国語文1601または英語文1602を原言語に翻訳し、例えば、原言語入力文401と同じ再訳入力文Tb(「私はお酒が好きです」)を得る(ステップS1101)。
類似対訳用例リストLeは、図3に示すように3つの対訳用例を保持している。そこで、検出部113は、処理対象の対訳用例Eとして、類似対訳用例リストLeの1番目の対訳用例301を取り出す(ステップS1102)。
対訳用例301の用例原文304(「私は牛乳が好きです」)と、原言語入力文401(「私はお酒が好きです」)との差分は、「牛乳」を意味する日本語の単語と、「お酒」を意味する日本語の単語である。そこで、検出部113は、対訳用例301の用例訳文305または用例訳文306のうち、「牛乳」を意味する単語を「お酒」に対応する単語に置換することで、編集用例訳文Emを生成する(ステップS1104)。
図17は、このようにして生成された編集用例訳文の一例を示す図である。目的言語が中国語の場合は、図17の中国語文1701が、編集用例訳文Emとして生成される。目的言語が英語の場合は、図17の英語文1702が、編集用例訳文Emとして生成される。
検出部113は、生成された編集用例訳文Emを翻訳部112で日本語に翻訳することによって、編集用例再訳文Etを生成する(ステップS1105)。これにより、原言語入力文401では省略されていた「飲む」を意味する動詞を含む日本語の編集用例再訳文Et(「お酒を飲むのが好きです」)が得られる。
次に、検出部113は、原言語入力文401と、編集用例訳文Etとの差分を検出して差分情報リストLdに記憶する(ステップS1106)。この例では、図6の差分情報601が、検出元となった対訳用例301と対応づけられて記憶される。
以上で、類似対訳用例リストLeに含まれる対訳用例のうち、1つ目の対訳用例に対する差分検出処理が終了する。以下、類似対訳用例リストLeに含まれるすべての対訳用例について上述のような処理が繰り返し実行される。この結果、図6のような差分情報リストLdが生成される。
次に、生成部114が提案文生成処理を実行する(ステップS1005)。
まず、生成部114は、原言語入力文401(「私はお酒が好きです」)を、提案文Pの初期値として設定する(ステップS1201)。次に、差分情報リストLdに記憶された差分情報を提案文Pに順次埋め込むため、以下の処理を実行する。
この例では、差分情報リストLdは、図6に示す3つの差分情報601、604、607を保持している。生成部114は、差分情報リストLdから1番目の差分情報601を取り出す(ステップS1202)。次に、生成部114は、差分情報601内の差分602を提案文Pに埋め込む(ステップS1203)。この段階では、生成部114は、図7の提案文701のうち、記号“{”および記号“}”の間に差分702のみを含むような提案文(「私はお酒{を飲むの}が好きです」)を生成する。
以上で、差分情報リストLdに含まれる差分情報のうち、1つ目の差分情報に対する提案文生成処理が終了する。以下、差分情報リストLdに含まれるすべての差分情報について上述のような処理が繰り返し実行される。この結果、図7の提案文701が生成される。
次に、出力部103が結果出力処理を実行する(ステップS1006)。結果出力処理では、これまでの処理によって生成された原言語入力文S、目的言語文T、および提案文Pが出力される(ステップS1301)。また、類似対訳用例リストLeに記憶されている対訳用例が、リスト内の順番に従って順に出力される(ステップS1302〜ステップS1303)。この例では、出力部103は、図9に示すような表示画面によって原言語入力文S、目的言語文T、提案文P、および対訳用例が出力される。図9に示すように、類似対訳用例リストフィールド904では、リスト内の順序に従って対訳用例が出力される。
次に、提示されている提案文701から、ユーザが差分702(「を飲むの」)を選択し、選択受付部102がこの選択を受付けたと仮定する(ステップS1007)。この操作は終了操作ではなく(ステップS1008:NO)、差分の入力であるため(ステップS1009:YES)、仮説適用部115は、入力された差分が差分情報リストLdに含まれるか否かを判断する(ステップS1010)。
この例では、選択された差分702は、図6のような差分情報リストLdに含まれる差分情報のうち、差分情報601内の差分602と一致する。このため、仮説適用部115は、差分情報601を選択差分情報Hとして記憶し、ユーザ差分情報Uを空に設定する(ステップS1011)。
次に、記憶された選択差分情報を元に、ユーザの意図を反映した翻訳処理を実行するため、仮説適用処理が実行される(ステップS1013)。
選択差分情報Hには、図6の差分情報601が記憶されているため(ステップS1401:NO)、仮説適用部115は、この差分情報601から新たな原言語入力文Sを生成する(ステップS1403)。具体的には、仮説適用部115は、差分情報601から記号“(”および記号“)”を削除した文(「私はお酒を飲むのが好きです」)を新たな原言語入力文Sとして生成する。
次に、仮説適用部115は、翻訳部112によって、生成した原言語入力文Sを目的言語に翻訳して目的言語文Tを生成する(ステップS1404)。この例では、例えば、図17の中国語文1701または英語文1702が目的言語文Tとして生成される。
これらの目的言語文は、ステップS1003で最初に得られた中国語文1601および英語文1602と比較すると、対象物である「お酒」に対する動作も含めた表現になっている。すなわち、ユーザが意図した原言語入力文の内容と等価な訳文となっている。
次に、更新部116が更新処理を実行する(ステップS1014)。
選択差分情報Hには、図6の差分情報601が記憶されているため(ステップS1501:NO)、更新部116は、まず選択差分情報Hに関連づけられている対訳用例Ehを取得する(ステップS1502)。そして、更新部116は、取得した対訳用例Ehを類似対訳用例リストLe内で先頭に再配置する(ステップS1503)。なお、この例では、先頭の対訳用例である図3の対訳用例301が選択差分情報Hに関連づけられているため(図6の対訳用例603)、リスト内での順序の変更はない。
以上で、更新処理が終了し、再度結果出力処理が呼び出される(ステップS1006)。この結果、図18に示すような表示画面が表示される。図18に示すように、原言語入力文フィールド2001には、真にユーザの発話意図を酌んだ訳文を得られる新たな原言語入力文(「私はお酒を飲むのが好きです」)が出力される。また、目的言語文フィールド2002には、新たな原言語入力文を翻訳した訳文が出力される。なお、類似対訳用例リスト内で対訳用例の順序が変更された場合は、変更後の順序で類似対訳用例リストフィールド2003に対訳用例が出力される。
以上で、結果出力処理が終了する。ユーザによって終了操作が入力されたとする(ステップS1008:YES)と、機械翻訳処理が終了する。
以上示したとおり、本実施の形態によれば、目的言語に関する知識を十分持ち合わせていないユーザであっても、ユーザ自身の発話意図を十分酌んだ訳文を出力するために機械翻訳装置100が必要とする情報を、原言語によって把握することができる。また、ユーザは、この情報を元に、発話意図を酌んだ訳文を生成可能な原言語入力文を容易に生成することができる。この結果、高い翻訳精度の機械翻訳装置100を実現することができる。
次に、本実施の形態による機械翻訳処理の別の具体例について説明する。以下では、出力された提案文内に、ユーザの意図を反映した情報が含まれず、ユーザが独自に補完すべき語句を入力する場合の処理の例を示す。
また、以下では、入力受付部101が、「切手を貼るのを忘れないでね」を意図して入力された図5の原言語入力文501(「切手を忘れないでね」)を受付けた場合(ステップS1001)を例として説明する。なお、原言語入力文501は、上述のように「貼る」を意味する動詞が省略されている。
検索部111は、原言語入力文501に類似する用例を用例記憶部120から検索し、例えば、図19に示す類似対訳用例リストLeを得る(ステップS1002)。また、翻訳部112は、原言語入力文501を翻訳し、例えば、図20の中国語文2201または英語文2202を生成する(ステップS1003)。
なお、図20の中国語文2201および英語文2202は、「(一枚の)切手を買うのを忘れないでね」という意味になっている。すなわち、ユーザの意図とは異なる「買う」という行為が補完されて訳出されている。
これらの条件の下で、ユーザの発話意図を反映した翻訳処理を実現するため、以下のように処理を継続する。差分検出処理から結果出力処理(ステップS1004〜ステップS1006)は上述の処理と同様であるため、詳細な説明は省略する。
なお、図21は、この例での差分検出処理の処理結果として生成される差分情報リストLdの一例を示す図である。また、図22は、この例での結果出力処理の処理結果として出力される表示画面の一例を示す図である。図21および図22に示すように、この例では、ユーザの意図する「貼る」を意味する動詞を含む対訳用例が検索されなかったため、「貼る」を意味する動詞を含む提案文は表示されない。しかし、ユーザは、例えば動詞を補完すれば適切な訳文が得られることを提案文の表示から推測することができる。
結果出力処理が終了した後、ユーザによって、提示されている提案文に存在しない差分であって、「貼る」を意味する動詞を補完するための日本語(「を貼るの」)が入力された(ステップS1007)と仮定する。
この操作は終了操作ではなく(ステップS1008:NO)、差分の入力であるため(ステップS1009:YES)、仮説適用部115は、入力された差分が差分情報リストLdに含まれるか否かを判断する(ステップS1010)。
この例では、入力された差分は、差分情報リストLdに含まれないため(ステップS1010:NO)、仮説適用部115は、入力された差分を含むユーザ差分情報Uを生成して記憶し、選択差分情報Hを空に設定する(ステップS1012)。なお、図8のユーザ差分情報801は、この例で生成されるユーザ差分情報を表している。
次に、記憶されたユーザ差分情報801を元に、ユーザの意図を反映した翻訳処理を実行するため、仮説適用処理が実行される(ステップS1013)。
この例では選択差分情報Hは空であるため(ステップS1401:YES)、仮説適用部115は、ユーザ差分情報801から新たな原言語入力文Sを生成する(ステップS1403)。具体的には、仮説適用部115は、ユーザ差分情報801から記号“(”および記号“)”を削除した文(「切手を貼るのを忘れないでね」)を新たな原言語入力文Sとして生成する。
次に、仮説適用部115は、翻訳部112によって、生成した原言語入力文Sを目的言語に翻訳して目的言語文Tを生成する(ステップS1404)。この例では、例えば、図20の中国語文2203または英語文2204が目的言語文Tとして生成される。なお、図20の中国語文2203および英語文2204は、ユーザが意図する「貼る」という行為が補完された訳文となっている。
次に、更新部116が更新処理を実行する(ステップS1014)。
この例では選択差分情報Hは空であるため(ステップS1501:YES)、更新部116は類似対訳用例リストLeの配置を更新せずに更新処理を実行する。
以上で、更新処理が終了し、再度結果出力処理が呼び出される(ステップS1006)。この結果、図23に示すような表示画面が表示される。図23に示すように、原言語入力文フィールド2501には、真にユーザの発話意図を酌んだ訳文を得られる新たな原言語入力文(「切手を貼るのを忘れないでね」)が出力される。また、目的言語文フィールド2502には、新たな原言語入力文を翻訳した訳文が出力される。
以上示した通り、目的言語に関する知識を十分持ち合わせていないユーザであっても、類似した発話事例と、提案文に付記された不足情報を参照することにより、ユーザ自身の発話意図を十分酌んだ訳文を出力するために必要な情報を想起することができる。これにより、原言語入力文の修正作業が簡便になる。
(変形例)
上記実施の形態では、更新部116が、選択された差分の生成元になった対訳用例を類似対訳用例リストの先頭に移動することによって、表示画面上で優先的に表示されるようにしていた。これに加え、選択された差分の生成元になった対訳用例が、以降の用例検索処理で優先的に検索されるように構成してもよい。
この場合、まず用例記憶部120が、対訳用例を優先する度合いを表す優先度を対訳用例に対応づけて記憶するように構成する。また、検索部111は、例えば類似度が同一の対訳用例が検索された場合は、優先度が大きい対訳用例を優先的に検索する。さらに、更新部116は、選択された差分の生成元になった対訳用例に対応づけられた優先度を、予め定められた値だけ増加させる。
このように構成することにより、より適切な対訳用例を検索し、検索した対訳用例から適切な差分を検出してユーザに提示することが可能となる。
また、上記実施の形態では、原言語入力文と編集用例再訳文とを比較して差分を検出する処理(ステップS1106等)と、再訳入力文と編集用例再訳文とを比較して差分を検出する処理(ステップS1107等)とを共に含む例について説明した。差分を検出する方法はこれに限られず、これらの2つの処理のいずれか一方によって差分を検出するように構成してもよい。
また、上記実施の形態では、検出した差分を提案文として出力し、さらに提案文からユーザが選択した差分を用いて新たに生成した原言語入力文を再翻訳することにより、ユーザの意図した訳文を得るように構成していた。差分の出力方法はこれに限られず、少なくとも差分を補完することでユーザの意図した訳文を生成可能であることを示唆できる方法であればあらゆる方法を適用できる。例えば、差分のみを列挙して出力するように構成してもよい。また、再翻訳の方法は上記に限られず、例えば、出力された差分を参照してユーザが再入力した新たな原言語入力文を受付け、受付けた文を翻訳するように構成してもよい。
ところで、上述した具体例で、ステップS1006の結果出力処理が終了した後、「買う」を意味する動詞を補完するための日本語(「を買うの」)が入力されたと仮定するならば、これは、再訳入力文の原文、つまり、ステップS1001で受け付けた原言語入力文の翻訳結果をそのまま受け入れたことと同義である。このように、再訳入力文と用例原文との差分比較処理を備えることにより、機械翻訳装置の翻訳結果が真にユーザの意図と合致した結果であることを確認することができる。
以上のように、本実施の形態にかかる機械翻訳装置では、原言語の入力文と類似する用例を含む対訳用例を検索し、対訳用例の目的言語の用例を原言語に翻訳した再訳文と、入力文、または入力文を目的言語に翻訳した結果をさらに原言語に翻訳した再訳文とを比較して差分を検出し、検出した差分をユーザに出力することができる。
すなわち、原言語文の表層情報の忠実な訳出では目的言語文に反映されにくい話者の意図を、翻訳事例を蓄積した用例ベースの情報を利用して、訳出する上での必要情報として推定し、ユーザに追加入力を促すために提示することができる。これにより、ユーザの意図とは異なった内容が目的言語話者に伝わることを避けることができる。
次に、本実施の形態にかかる機械翻訳装置のハードウェア構成について図24を用いて説明する。図24は、本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
本実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施の形態の機械翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(入力受付部、選択受付部、翻訳制御部、出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置および方法は、原言語による原言語文を目的言語に翻訳して文字出力または音声出力する機械翻訳装置に適している。
本実施の形態にかかる機械翻訳装置のブロック図である。 用例記憶部に記憶されている対訳用例のデータ構造の一例を示す図である。 類似対訳用例リストの一例を示す図である。 原言語入力文と編集用例再訳文との間の差分が検出される過程を示す図である。 再訳入力文と編集用例再訳文との間の差分が検出される過程を示す図である。 差分情報を保持する差分情報リストの例を示す図である。 提案文の一例を示す図である。 ユーザ差分情報の例を示す図である。 表示画面の一例を示す図である。 本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 本実施の形態における差分検出処理の全体の流れを示すフローチャートである。 本実施の形態における提案文生成処理の全体の流れを示すフローチャートである。 本実施の形態における結果出力処理の全体の流れを示すフローチャートである。 本実施の形態における仮説適用処理の全体の流れを示すフローチャートである。 本実施の形態における更新処理の全体の流れを示すフローチャートである。 訳文の一例を示す図である。 編集用例訳文の一例を示す図である。 表示画面の一例を示す図である。 類似対訳用例リストの一例を示す図である。 訳文の一例を示す図である。 差分情報リストの一例を示す図である。 表示画面の一例を示す図である。 表示画面の一例を示す図である。 本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 機械翻訳装置
101 入力受付部
102 選択受付部
103 出力部
110 翻訳制御部
111 検索部
112 翻訳部
113 検出部
114 生成部
115 仮説適用部
116 更新部
120 用例記憶部
201〜206 対訳用例
207 日本語文
208 中国語文
209 英語文
301〜303 対訳用例
304 用例原文
305、306 用例訳文
401 原言語入力文
402 対訳用例
403 用例原文
404 用例訳文
405 編集用例訳文
406 編集用例再訳文
411、412 単語
413 差分
501 原言語入力文
502 目的言語文
503 再訳入力文
504 対訳用例
505 用例原文
506 用例訳文
507 編集用例訳文
508 編集用例再訳文
511、512 単語
513 差分
601、604、607 差分情報
602、605、608 差分
603、606、609 対訳用例
701 提案文
702、703、704 差分
801 ユーザ差分情報
802 差分
901 原言語入力文フィールド
902 目的言語文フィールド
903 提案文フィールド
904 類似対訳用例リストフィールド
1601 中国語文
1602 英語文
1701 中国語文
1702 英語文
2001 原言語入力文フィールド
2002 目的言語文フィールド
2003 類似対訳用例リストフィールド
2201 中国語文
2202 英語文
2203 中国語文
2204 英語文
2501 原言語入力文フィールド
2502 目的言語文フィールド

Claims (14)

  1. 目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部と、
    原言語による入力文を受付ける入力受付部と、
    前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を前記用例記憶部から検索する検索部と、
    前記入力文を目的言語に翻訳した目的言語文を生成し、検索された前記目的言語の用例を原言語に翻訳した再訳文を生成する翻訳部と、
    前記再訳文と前記入力文との間の相違部分を検出する検出部と、
    前記相違部分を出力する出力部と、
    を備えたことを特徴とする機械翻訳装置。
  2. 前記入力文に前記相違部分を付加した出力文を生成する生成部をさらに備え、
    前記出力部は、前記相違部分が付加された前記出力文を出力すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  3. 出力された前記相違部分のうちいずれかの選択を受付ける選択受付部と、
    前記翻訳部は、さらに、選択された前記相違部分を付加した前記入力文を目的言語に翻訳した前記目的言語文を生成し、
    前記出力部は、さらに、前記目的言語文を出力すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  4. 前記用例記憶部は、さらに、前記目的言語の用例を優先する度合いを表す優先度を、前記目的言語の用例に対応づけて記憶し、
    前記検索部は、前記優先度が大きい前記目的言語の用例を、前記優先度が小さい前記目的言語の用例より優先して検索し、
    選択された前記相違部分を含む前記再訳文の生成元である前記目的言語の用例の前記優先度を予め定められた値だけ増加させる更新部をさらに備えたこと、
    を特徴とする請求項3に記載の機械翻訳装置。
  5. 前記入力受付部は、さらに、前記入力文に付加する語句の入力を受付け、
    前記翻訳部は、さらに、受付けた前記語句を付加した前記入力文を目的言語に翻訳した前記目的言語文を生成し、
    前記出力部は、さらに、前記目的言語文を出力すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  6. 前記用例記憶部は、前記目的言語の用例と、前記目的言語の用例に含まれる語句に対応する語句が省略可能な前記原言語の用例とを対応づけて記憶し、
    前記検出部は、前記入力文と一致または類似する前記原言語の用例で省略された語句を前記相違部分として検出すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  7. 目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部と、
    原言語による入力文を受付ける入力受付部と、
    前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を前記用例記憶部から検索する検索部と、
    検索された前記目的言語の用例を原言語に翻訳した第1再訳文を生成する第1翻訳部と、
    前記入力文を目的言語に翻訳した目的言語文を生成し、前記目的言語文を原言語に翻訳した第2再訳文を生成する第2翻訳部と、
    前記第1再訳文と前記第2再訳文との間の相違部分を検出する検出部と、
    前記相違部分を出力する出力部と、
    を備えたことを特徴とする機械翻訳装置。
  8. 前記入力文に前記相違部分を付加した出力文を生成する生成部をさらに備え、
    前記出力部は、前記相違部分が付加された前記出力文を出力すること、
    を特徴とする請求項7に記載の機械翻訳装置。
  9. 出力された前記相違部分のうちいずれかの選択を受付ける選択受付部と、
    前記第2翻訳部は、さらに、選択された前記相違部分を付加した前記入力文を目的言語に翻訳した前記目的言語文を生成し、
    前記出力部は、さらに、前記目的言語文を出力すること、
    を特徴とする請求項7に記載の機械翻訳装置。
  10. 前記用例記憶部は、さらに、前記目的言語の用例を優先する度合いを表す優先度を、前記目的言語の用例に対応づけて記憶し、
    前記検索部は、前記優先度が大きい前記目的言語の用例を、前記優先度が小さい前記目的言語の用例より優先して検索し、
    選択された前記相違部分を含む前記再訳文の生成元である前記目的言語の用例の前記優先度を予め定められた値だけ増加させる更新部をさらに備えたこと、
    を特徴とする請求項7に記載の機械翻訳装置。
  11. 前記入力受付部は、さらに、前記入力文に付加する語句の入力を受付け、
    前記第2翻訳部は、さらに、受付けた前記語句を付加した前記入力文を目的言語に翻訳した前記目的言語文を生成し、
    前記出力部は、さらに、前記目的言語文を出力すること、
    を特徴とする請求項7に記載の機械翻訳装置。
  12. 前記用例記憶部は、前記目的言語の用例と、前記目的言語の用例に含まれる語句に対応する語句が省略可能な前記原言語の用例とを対応づけて記憶し、
    前記検出部は、前記入力文と一致または類似する前記原言語の用例で省略された語句を前記相違部分として検出すること、
    を特徴とする請求項7に記載の機械翻訳装置。
  13. 入力受付部が、原言語による入力文を受付ける入力受付ステップと、
    検索部が、目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部から、前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を検索する検索ステップと、
    翻訳部が、前記入力文を目的言語に翻訳した目的言語文を生成し、検索された前記目的言語の用例を原言語に翻訳した再訳文を生成する翻訳ステップと、
    検出部が、前記再訳文と前記入力文との間の相違部分を検出する検出ステップと、
    出力部が、前記相違部分を出力する出力ステップと、
    を備えたことを特徴とする機械翻訳方法。
  14. 入力受付部が、原言語による入力文を受付ける入力受付ステップと、
    検索部が、目的言語の用例と、前記目的言語の用例と意味が等価な原言語の用例とを対応づけて記憶する用例記憶部から、前記入力文と一致または類似する前記原言語の用例に対応する前記目的言語の用例を検索する検索ステップと、
    翻訳部が、検索された前記目的言語の用例を原言語に翻訳した第1再訳文を生成する第1翻訳ステップと、
    翻訳部が、前記入力文を目的言語に翻訳した目的言語文を生成し、前記目的言語文を原言語に翻訳した第2再訳文を生成する第2翻訳ステップと、
    検出部が、前記第1再訳文と前記第2再訳文との間の相違部分を検出する検出ステップと、
    出力部が、前記相違部分を出力する出力ステップと、
    を備えたことを特徴とする機械翻訳方法。
JP2008048284A 2008-02-28 2008-02-28 機械翻訳する装置および方法 Active JP5100445B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008048284A JP5100445B2 (ja) 2008-02-28 2008-02-28 機械翻訳する装置および方法
US12/234,009 US8924195B2 (en) 2008-02-28 2008-09-19 Apparatus and method for machine translation
CN200910007558A CN101520777A (zh) 2008-02-28 2009-02-23 用于机器翻译的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008048284A JP5100445B2 (ja) 2008-02-28 2008-02-28 機械翻訳する装置および方法

Publications (2)

Publication Number Publication Date
JP2009205518A JP2009205518A (ja) 2009-09-10
JP5100445B2 true JP5100445B2 (ja) 2012-12-19

Family

ID=41013827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008048284A Active JP5100445B2 (ja) 2008-02-28 2008-02-28 機械翻訳する装置および方法

Country Status (3)

Country Link
US (1) US8924195B2 (ja)
JP (1) JP5100445B2 (ja)
CN (1) CN101520777A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201020816A (en) * 2008-11-25 2010-06-01 Univ Nat Taiwan Information retrieval oriented translation apparatus and methods, and storage media
RU2009144948A (ru) * 2009-12-03 2011-06-10 Виталий Евгеньевич Пилкин (RU) Система улучшения автоматизированного перевода информации
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
JP2013206253A (ja) 2012-03-29 2013-10-07 Toshiba Corp 機械翻訳装置、方法、およびプログラム
JP5653392B2 (ja) * 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
CN102880723B (zh) * 2012-10-22 2015-08-05 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
JP6221339B2 (ja) * 2013-05-14 2017-11-01 富士通株式会社 翻訳装置及び翻訳方法
JP6344107B2 (ja) * 2014-07-17 2018-06-20 富士通株式会社 翻訳における原文修正支援装置、支援方法及びプログラム
CN105373527B (zh) * 2014-08-27 2020-11-27 中兴通讯股份有限公司 一种省略恢复方法及问答系统
JP2016091266A (ja) * 2014-11-04 2016-05-23 富士通株式会社 翻訳装置、翻訳方法、及び翻訳プログラム
JP6451414B2 (ja) * 2015-03-06 2019-01-16 富士通株式会社 情報処理装置、要約文編集方法、及びプログラム
US9483465B2 (en) * 2015-03-06 2016-11-01 Ricoh Company, Ltd. Language translation for multi-function peripherals
WO2017163284A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 翻訳装置
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
CN108304389B (zh) * 2017-12-07 2021-06-08 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108427672B (zh) * 2018-02-07 2019-05-07 平安科技(深圳)有限公司 文字翻译的方法、终端设备及计算机可读存储介质
JPWO2020149069A1 (ja) * 2019-01-15 2021-11-25 パナソニックIpマネジメント株式会社 翻訳装置、翻訳方法およびプログラム
CN109918646B (zh) * 2019-01-30 2020-08-11 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
US11095578B2 (en) 2019-12-11 2021-08-17 International Business Machines Corporation Technology for chat bot translation
WO2024010805A1 (en) * 2022-07-06 2024-01-11 Cabo Applications Llc Delimited machine-enabled language translation

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04241543A (ja) * 1991-01-14 1992-08-28 Toshiba Corp ポータブル編集翻訳装置
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5675707A (en) * 1995-09-15 1997-10-07 At&T Automated call router system and method
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
JP2000010974A (ja) 1998-06-26 2000-01-14 Matsushita Electric Ind Co Ltd 機械翻訳装置および機械翻訳方法ならびに記録媒体
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6278969B1 (en) * 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
CN1271545C (zh) * 1999-11-17 2006-08-23 联合国 语言翻译系统
US6598021B1 (en) * 2000-07-13 2003-07-22 Craig R. Shambaugh Method of modifying speech to provide a user selectable dialect
US6782356B1 (en) * 2000-10-03 2004-08-24 Hewlett-Packard Development Company, L.P. Hierarchical language chunking translation table
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US6996518B2 (en) * 2001-01-03 2006-02-07 International Business Machines Corporation Method and apparatus for automated measurement of quality for machine translation
US6535852B2 (en) * 2001-03-29 2003-03-18 International Business Machines Corporation Training of text-to-speech systems
CN1578954B (zh) * 2001-10-29 2010-04-14 英国电讯有限公司 计算机语言翻译扩展系统
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
US7283949B2 (en) * 2003-04-04 2007-10-16 International Business Machines Corporation System, method and program product for bidirectional text translation
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
JP4134983B2 (ja) * 2004-12-21 2008-08-20 ブラザー工業株式会社 機械翻訳装置
JP4317990B2 (ja) * 2005-03-11 2009-08-19 独立行政法人情報通信研究機構 データ変換適性評価方法及びデータ変換装置
JP4263181B2 (ja) * 2005-03-28 2009-05-13 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
JP2006318202A (ja) * 2005-05-12 2006-11-24 Suri Kaiseki Kenkyusho:Kk 翻訳装置、翻訳プログラム及び翻訳システム
JP4559946B2 (ja) * 2005-09-29 2010-10-13 株式会社東芝 入力装置、入力方法および入力プログラム
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US7890330B2 (en) * 2005-12-30 2011-02-15 Alpine Electronics Inc. Voice recording tool for creating database used in text to speech synthesis system
JP2007220045A (ja) * 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US7848915B2 (en) * 2006-08-09 2010-12-07 International Business Machines Corporation Apparatus for providing feedback of translation quality using concept-based back translation
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
EP2109832A4 (en) * 2007-01-10 2010-05-12 Ca Nat Research Council MEANS AND METHODS FOR AUTOMATIC POSTENDING OF TRANSLATIONS
US7983897B2 (en) * 2007-02-14 2011-07-19 Google Inc. Machine translation feedback
US7895030B2 (en) * 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8527715B2 (en) * 2008-02-26 2013-09-03 International Business Machines Corporation Providing a shared memory translation facility
US8060358B2 (en) * 2008-03-24 2011-11-15 Microsoft Corporation HMM alignment for combining translation systems
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
US8380504B1 (en) * 2010-05-06 2013-02-19 Sprint Communications Company L.P. Generation of voice profiles

Also Published As

Publication number Publication date
CN101520777A (zh) 2009-09-02
JP2009205518A (ja) 2009-09-10
US20090222256A1 (en) 2009-09-03
US8924195B2 (en) 2014-12-30

Similar Documents

Publication Publication Date Title
JP5100445B2 (ja) 機械翻訳する装置および方法
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP5121252B2 (ja) 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
JP4439431B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
Waibel et al. Multilinguality in speech and spoken language systems
JP4064413B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP5319655B2 (ja) 情報処理装置、情報処理方法、プログラム、およびプログラムを記録したコンピュータ読取り可能な記録媒体
US8214197B2 (en) Apparatus, system, method, and computer program product for resolving ambiguities in translations
EP1330816B1 (en) Language independent voice-based user interface
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
US20070198245A1 (en) Apparatus, method, and computer program product for supporting in communication through translation between different languages
JP4372133B2 (ja) 辞書登録装置、辞書登録方法及び辞書登録プログラム
JP5002271B2 (ja) 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
US20090216522A1 (en) Apparatus, method, and computer program product for determing parts-of-speech in chinese
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
KR101498456B1 (ko) 백과사전을 이용한 번역 서비스 장치 및 그 방법
JP2008243222A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP2003330925A (ja) 自動通訳装置及び自動通訳用プログラム
KR20180054236A (ko) 음성기호 기반 사전 유사 탐색을 활용한 자동 통번역 시스템 및 그 방법
JP7115187B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5293091B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP5331964B2 (ja) 翻訳支援装置、翻訳支援方法および翻訳支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5100445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350