JP2011107852A - 機械翻訳装置及びプログラム - Google Patents

機械翻訳装置及びプログラム Download PDF

Info

Publication number
JP2011107852A
JP2011107852A JP2009260525A JP2009260525A JP2011107852A JP 2011107852 A JP2011107852 A JP 2011107852A JP 2009260525 A JP2009260525 A JP 2009260525A JP 2009260525 A JP2009260525 A JP 2009260525A JP 2011107852 A JP2011107852 A JP 2011107852A
Authority
JP
Japan
Prior art keywords
translation
translated
difference
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009260525A
Other languages
English (en)
Other versions
JP5039114B2 (ja
Inventor
Akira Sasaki
晶 佐々木
Yumiko Yoshimura
裕美子 吉村
Takashi Shibuya
貴志 澁谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009260525A priority Critical patent/JP5039114B2/ja
Publication of JP2011107852A publication Critical patent/JP2011107852A/ja
Application granted granted Critical
Publication of JP5039114B2 publication Critical patent/JP5039114B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】翻訳対象原文と翻訳用例原文との差分が翻訳用例訳文に含まれない合成語の場合であっても訳文中の対応する訳語の範囲を確定することである。
【解決手段】入力装置20から入力された翻訳対象の第1言語の文章データを1文単位に分割して翻訳対象原文を求め、翻訳用例検索部30は翻訳対象原文に対して翻訳用例データベース36から翻訳用例原文と翻訳用例訳文との対の翻訳用例を検索し、差分対応付け部31は類似用例原文と翻訳対象原文との差分に対応する類似用例訳文中の語句と翻訳対象原文中の語句とを対応付け、その1対1の対応付けに失敗した語句に対して再対応付け可能判定部32によりそれぞれの語句の範囲を拡大して再度対応付けを行い、これらによって対応付けられた翻訳対象原文中の差分の語句の訳語を取得し、訳語置換部34は対応付けられた類似用例訳文中の語句を、取得した訳語に置き換えて訳文を生成する。
【選択図】 図1

Description

本発明は、第1言語文と第2言語文との対訳からなる翻訳用例を用いて翻訳対象の第1言語の原文を第2言語の訳文に翻訳する機械翻訳装置及びプログラムに関する。
国際化の進行に伴い、外国語を用いた迅速な情報交換を実現するツールとして、機械翻訳装置は大いに期待されている。現状では、現在の機械翻訳技術による翻訳結果は、人手による手直しが全く不要なレベルにあるとはいえないため、人の手で訳された翻訳結果をデータベース化して活用するための翻訳支援ツールが開発されている。これらのツールでは、第1言語の原文と第2言語の訳文との対訳とからなる翻訳用例をあらかじめ翻訳用例データベースに複数蓄積しておき、入力された翻訳対象の原文に原文が類似している翻訳用例(以下、類似用例という)を検索・表示する。そして、検索された類似用例の原文が翻訳対象の原文と完全一致していない場合には、検索された翻訳用例の訳文を一部編集して、翻訳対象の原文の翻訳結果とするものである。
このような翻訳用例を用いた機械翻訳装置では、ユーザによる編集箇所の判断や訳語の選択などの手間を軽減するため、上記編集を自動的に行うものも提案されている(例えば、特許文献1参照)。この場合、翻訳対象の原文と検索された類似用例の原文との相違箇所(以下差分)を語句単位で判定し、類似用例において原文中の差分に対応する訳文中の語句を判定し、当該語句を翻訳対象原文中の差分に対応する訳語に置き換えた合成文を作成し、翻訳対象原文の訳文とする。
特開2006−11842号公報
しかし、特許文献1で想定されている類似用例中の差分には、単一の単語(眼鏡、スーツケースなど)が想定されているが、合成語が差分に相当する場合が含まれていないのが現状である。実際には複数の語から構成された合成語が差分に相当する場合があり、このような場合、翻訳対象の原文中の差分に対応する類似用例の訳文中の語句の判定がうまくいかない場合がある。例えば、表1に示す例で説明する。表1の例は、翻訳対象の原文を翻訳用例(類似用例の原文、類似用例の訳文)を用いて翻訳する場合である。
Figure 2011107852
この例において、翻訳対象の原文と検索された類似用例の原文との差分は「遠隔」であると見なし、類似用例において原文中の「遠隔」に対応する訳文中の語を探そうとしても、「遠隔」に直接対応する単語が見つからないという問題があった。この例の「遠隔治療」が「遠隔」と「治療」から構成される合成語であるため、「遠隔」、「治療」、「teletherapy」との間に1対1対応の関係があるとは判定されないことが問題の原因であり、その結果、原文中の差分に対応する訳文中の語句が見つからず、訳語の置き換えに失敗していた。
このように従来の技術では、類似用例を用いた翻訳において、翻訳対象原文と類似用例原文との差分を語句単位で判定し、類似用例の原文中の差分に対応する類似用例訳文の語句を判定する際に、原文中の差分に1対1で対応する類似用例の訳文中の語句の判定に失敗する場合があった。
本発明の目的は、翻訳対象原文と翻訳用例原文との差分が翻訳用例訳文に含まれない合成語の場合であっても訳文中の対応する訳語の範囲を確定できる機械翻訳装置及びプログラムを提供することを目的とする。
本発明に係わる機械翻訳装置は、機械翻訳プログラム、翻訳対象の第1言語を翻訳目的の第2言語に翻訳するための機械翻訳辞書、翻訳対象の第1言語の文と翻訳目的の第2言語の文との対訳からなる翻訳用例を類似用例原文及び類似用例訳文の対として蓄積した翻訳用例データベースを記憶した記憶装置と、翻訳対象である第1言語の文章データを入力する入力装置と、翻訳後の第2言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記入力装置から入力された翻訳対象の第1言語の文章データを受け付け前記記憶装置に記憶させる入力処理部と、前記入力処理部で受け付けた第1言語の文章データを1文単位に分割し翻訳対象原文を得る文分割部と、前記文分割部で得られた翻訳対象原文を前記機械翻訳辞書を参照して解析するとともに第2言語に翻訳を行う原文解析・翻訳部と、前記翻訳対象原文に類似する翻訳用例を類似用例原文及び類似用例訳文の対として前記翻訳用例データベースから検索する翻訳用例検索部と、前記翻訳用例検索部で検索された前記類似用例原文と前記翻訳対象原文との差分を判定するともに当該差分に対応する前記類似用例訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付け部と、前記差分対応付け部において差分と判定した語句および類似用例中で1対1の対応付けに失敗した語句に対してそれぞれの語句の範囲を拡大して再度対応付けを行う再対応付け可能判定部と、前記差分対応付け部によって対応付けられた前記翻訳対象原文中の差分の語句に対して前記機械翻訳辞書を参照して対応する第2言語による訳語を取得する差分語句訳語取得部と、前記差分対応付け部によって対応付けられた類似用例訳文中の語句を前記差分語句訳語取得部によって取得した訳語に置き換えて訳文を生成する訳語置換部とを備えたことを特徴とする。
本発明によれば、翻訳対象原文と翻訳用例原文との差分が翻訳用例訳文に含まれない合成語の場合であっても訳文中の対応する訳語の範囲を確定できる。
本発明の実施の形態に係わる機械翻訳装置の機能ブロック図。 本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図。 本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャート。 表1に示した翻訳対象原文に対して図3のステップS305での言語解析処理を行った解析結果の一例のツリー構造図。 図3のステップS308の対応付け再試行処理を含む差分対応付け処理の内容を示すフローチャート。 表1に示した類似用例原文に対して図5のステップS401での言語解析処理を行った解析結果の一例のツリー構造図。 表1に示した類似用例訳文に対して図5のステップS402での言語解析処理を行った解析結果の一例のツリー構造図。
以下、本発明の実施の形態を説明する。図1は本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図、図2は本発明の実施の形態に係わる機械翻訳装置のハードウエア構成を示すブロック構成図である。
まず、本発明の実施の形態に係わる機械翻訳装置のハードウエア構成について説明する。
図2において、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や翻訳に必要な知識・規則を蓄積した翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
次に、本発明の実施の形態に係わる機械翻訳装置11の機能構成について説明する。図1において、演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
入力処理部26は、入力装置20から入力された第1言語の文章データを受け付け、記憶装置25に記憶させるものである。例えば、文章データがユーザ自身によりキーボード22等から直接入力されたり、記憶媒体を介してディスクドライブ23から入力されたときに、文章データを演算制御装置12内のメモリ14や記憶装置25内に入力し記憶するものである。
文分割部27は、入力処理部26で受け付け記憶装置25に記憶した第1言語の文章データを文単位に分割し、翻訳対象原文としてメモリ14の作業エリア16に格納するものである。1文単位で分割された原文は、制御部28に受け渡される。
制御部28は、原文解析・翻訳部29、翻訳用例検索部30、差分対応付け部31、再対応付け可能判定部32、差分語句訳語取得部33、訳語置換部34、機械翻訳辞書35、翻訳用例データベース36、出力処理部37を制御するものである。
原文解析・翻訳部29は、入力処理部26から入力され、文分割部27によって1文単位に分割された翻訳対象原文に対して、機械翻訳辞書35を参照しながら文の解析を行うとともに、翻訳を行うものである。
翻訳用例検索部30は、文分割部27にて1文単位に分割されて入力された翻訳対象原文を検索キーとして翻訳用例データベース36から翻訳対象原文に類似する翻訳用例を類似用例原文及び用例訳文の対として検索するものである。
差分対応付け部31は、原文解析・翻訳部29による解析結果に基づいて、検索された類似用例原文と翻訳対象原文との差分を対応付けるとともに、当該差分に対応する類似用例訳文中の語句と翻訳対象原文中の語句とを対応付けるものである。
再対応付け可能判定部32は、差分対応付け部31において類似用例原文と翻訳対象原文との差分に1対1で対応する類似用例訳文中の語句の判定に失敗した場合に、前記差分対応付け部が差分と判定した類似用例原文中の語句、翻訳対象原文中の語句および類似用例訳文中で1対1の対応付けに失敗した語句に対して、それぞれの語句の範囲を拡大して再度対応付けを行うものである。
差分語句訳語取得部33は、差分対応付け部31または再対応付け可能判定部32によって特定された原文中の差分に対応する第2言語による訳語を機械翻訳辞書35を参照して取得するものである。
訳語置換部34は、差分対応付け部31または再対応付け可能判定部32によって特定された類似用例訳文中の語句を、差分語句訳語取得部33によって取得した訳語で置き換えて訳文を生成するものである。
機械翻訳辞書35は、入力した第1言語の原文の解析及び第二言語への翻訳に必要な語彙・規則を格納するものであり、記憶装置25内に形成されている。翻訳に必要な語彙・規則は、機械翻訳辞書35の語彙部35a、形態素解析規則部35b、構文解析規則部35c、変換規則部35d、生成規則部35eに格納されている。類似用例は翻訳用例データベース36に格納されている。
出力処理部37は、原文解析・翻訳部29によって生成された翻訳の結果を出力装置17に出力するものである。例えば、出力装置17としての表示装置13に表示出力する。出力装置17は表示装置13だけでなく、表示装置13による出力に代え、あるいは、表示装置13による出力に加えて、音声により音声出力装置に出力するようにしてもよいし、印刷装置に印刷出力するようにしてもよいし、ディスクドライブ23を介して記録媒体に出力するようにしてもよい。
次に、本発明の実施の形態に係わる機械翻訳装置11での翻訳処理の内容について、日英翻訳を例にして説明する。図3は本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャートである。
ユーザが入力装置20から翻訳対象の第1言語の文章データを入力すると、まず、入力処理部26は翻訳対象の文章データを受け付ける(S301)。入力された翻訳対象の文章データはメモリ14または記憶装置25に記憶される。
次に、文分割部27は、メモリ14または記憶装置25から翻訳対象の文章データを読み出して1文単位に分割する(S302)。分割された翻訳対象の文章データの1文である翻訳対象原文に対して、制御部28は、変数Iに「1」をセットし(S303)、I番目の翻訳対象原文を取り出す(S304)。I番目の翻訳対象原文はメモリ14の作業エリア16に取り出される。
次に、取り出されたI番目の翻訳対象原文に対して、原文解析・翻訳部29は、機械翻訳辞書35を参照して言語解析処理を行う(S305)。すなわち、原文解析・翻訳部29は機械翻訳辞書35の語彙部35a及び形態素解析規則部35bを参照して翻訳対象原文の形態素解析処理を行い、構文解析規則部35cを参照して構文解析処理を行い、翻訳対象原文を構成する各語の品詞、構文に関する情報を取得する。なお、ここで用いる構文解析処理その他の技術は、本発明に固有のものではなく、言語処理に関わる一般的な技術である。
図4は、表1に示した翻訳対象原文に対して図3のステップS305での言語解析処理を行った解析結果の一例のツリー構造図である。実線で囲まれた語句は形態素解析によって得られた文を構成する各要素であり、これら各要素をつなぐ線によって、各要素同士の構文上のつながり方が表現されている。このように文を構成する各語句の構文上のつながりを表した図はツリー構造と呼ばれる。
続いて、翻訳用例検索部30は翻訳対象原文を検索キーとして翻訳用例データベース36から翻訳対象原文と同一または類似している翻訳用例を検索する(S306)。類似用例の検索は、翻訳対象原文を構成する各単語と一致する単語の割合から算出される文の一致度、その他の属性の一致などを考慮して行われる。
なお、単語の一致の判定を行うに当たり、ステップS305で取得した言語処理の結果を用いて、表記の揺れは違いと見なさない処理を行うこともできる。表記の揺れとは、長音記号の有無などのカタカナ表記や送り仮名の表記の揺れや、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れなどを指している。もちろん、表記の揺れは吸収しない完全一致の翻訳用例のみを検索結果とする構成も可能である。また、文字・単語上の違いがあっても、違いの割合が特定の値以下の場合は違いを無視するというように、差異文字数ないしは差異単語数の割合の下限値を設けて検索の可否を制御する構成であってもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出することもできる。この場合は、用例検索(ステップS306)のタイミングを原文言語解析(ステップS305)の後にする必要はない。辞書引き処理・形態素解析の結果を必要としないからである。
翻訳用例検索部30での用例検索では、複数の類似用例が検索される場合もあるが、最終的には類似度が最も高い用例を絞り込み処理対象とする。複数の類似用例から優先度の最も高い用例を決定するには、例えば、類似度、類似度が同じである場合には用例の登録者や登録日時などの基準を用いて行うのが一般的である。
制御部28は、類似用例が検索されたかどうかを判定し(S307)、翻訳用例検索部30により類似用例が検索された場合には、制御部28は類似用例をメモリ14の類似用例記憶エリアに記憶する。続いて、差分対応付け部31及び再対応付け可能判定部32は、処理対象の類似用例に対して対応付け再試行処理を含む差分対応付け処理を行う(S308)。
すなわち、ステップS308において、まず、差分対応付け部31は類似用例(類似用例原文と類似用例訳文)及び翻訳対象原文に対して差分対応付け処理を行い、差分対応付け部31における類似用例の原文中の差分に1対1に対応する類似用例訳文中の語句の判定に失敗した場合には、再対応付け可能判定部32は、差分と判定した語句及び類似用例中で1対1の対応付けに失敗した語句の範囲を拡大して、対応付け再試行処理を行う。このステップS308の詳細な処理内容については後述する。
差分対応付け部31または再対応付け可能判定部32によって判定された翻訳対象原文中の差分語句に対して、差分語句訳語取得部33は機械翻訳辞書35の語彙部35aを参照してその訳語を取得する差分語句訳語取得処理を行う(S309)。その後、訳語置換部34は、差分語句訳語取得部33が取得した訳語を用いて、差分対応付け部31または再対応付け可能判定部32によって判定済みの差分語句に対応する類似用例訳文中の語句を置き換える訳語置換処理を行う(S310)。そして、訳語置換処理の結果得られた訳文をI番目の翻訳対象原文の翻訳結果とする。
一方、ステップS307の判定で、類似用例はないと判定された場合は、原文解析・翻訳部29は翻訳対象原文の翻訳処理を行う(S311)。すなわち、差分関連の処理を行わず(S308〜S310)を省略してステップS311に移行し、原文解析・翻訳部29によるI番目の原文1文の翻訳処理が行われる(S311)。
そして、出力処理部37は、ステップS310やステップS311の処理によって得られた翻訳結果を表示する(S312)。すなわち、出力処理部37は表示装置17に翻訳結果を表示する。表示装置17に表示される内容については、ステップS307で類似用例が検出されなかった場合には、ステップS311で得られた翻訳結果が表示される。ステップS307で類似用例が見つかり、かつステップS308の対応付け再試行処理を含む差分対応付け処理にて類似用例の原文中の差分に1対1対応する類似用例の訳文中の語句の判定が成功している場合には、類似用例訳文に対して、ステップS309で得られた翻訳対象原文の差分に対応する訳語を置き換えた訳文が表示される。
ステップS307で類似用例が検出されてはいたが、ステップS308の対応付け再試行処理を含む差分対応付け処理にて類似用例原文中の差分に1対1対応する類似用例訳文中の語句の判定に失敗している場合には、ステップS307で検出された類似用例訳文が参考訳文として表示される。
そして、翻訳対象のすべての文章データについて処理が終了したかどうか、つまり全文章処理が終了かどうかを判定し(S313)、翻訳対象のすべての文章データに対する処理が終了している場合は処理を終了し、原文のすべての文に対する処理が終了していない場合には、変数Iに「1」を加算して(I=I+1)とし(S314)、ステップS304に戻る。
図5は、図3のステップS308の対応付け再試行処理を含む差分対応付け処理の内容を示すフローチャートである。原文解析・翻訳部29は、類似用例原文と翻訳対象原文とをメモリ14の作業エリア16に取り出し、翻訳用例検索部30によって取得された類似用例原文に対して、言語解析処理を行う(S401)。
図6は表1に示した類似用例原文に対して図5のステップS401での言語解析処理を行った解析結果の一例のツリー構造図である。実線で囲まれた語句は形態素解析によって得られた文を構成する各要素であり、これら各要素をつなぐ線によって、各要素同士の構文上のつながり方が表現されている。また、破線で囲まれた語句は、類似用例原文を構成する各要素に対する第2言語の訳語候補として語彙部35aに登録されている訳語候補のリストである。
同様に、原文解析・翻訳部29は、類似用例訳文に対して言語解析処理を行う(S402)。図7は、表1に示した類似用例訳文に対して図5のステップS402での言語解析処理を行った解析結果の一例のツリー構造図である。実線で囲まれた語句は形態素解析によって得られた文を構成する各要素であり、これら各要素をつなぐ線によって、各要素同士の構文上のつながり方が表現されている。また、破線で囲まれた語句は、類似用例訳文を構成する各要素に対する第1言語の訳語候補として語彙部35aに登録されている訳語候補のリストである。訳語が複数あるものはコンマで区切って列挙し、訳語がないものについては「Φ」で表している。
差分対応付け部31は、図3のステップS305において得られた言語解析結果(図4)と、図5のステップS401とにおいて得られた言語解析結果(図6)とを用いて、翻訳対象原文と類似用例原文との差分の判定を行う(S403)。これは、図4と図6とのツリー構造のマッチングにより、翻訳対象原文と類似用例原文の差分を判定する。これにより、表1の例の場合には、差分は以下の[1]のように判定される。これは、文字列の情報から判定された差分である。
[1]翻訳対象原文:(該当なし)−−類似用例原文:形容詞的名詞「遠隔」
差分対応付け部31は、当該差分に対応する類似用例原文中の語句と類似用例訳文中の語句との対応付けを行う(S404)。これは、図6と図7とのツリー構造を参照して行う。すなわち、類似用例原文と類似用例訳文との語句は以下の[A]により対応付けることにより行われる。差分対応付け部31は、差分対応付け処理として類似用例原文の構成要素ごとに行う(S404)。
[A−1]類似用例原文を構成する語句(第1言語)に対して、類似用例訳文(第2言語)を構成する各語句の訳語(第1言語)から一致するものを検索し、一致する訳語を持つ類似用例訳文の構成語を、類似用例原文の構成語に対応する類似用例訳文の対応語候補(第2言語)として抽出する。候補が複数存在すれば複数の候補を抽出する。
[A−2]類似用例訳文を構成する各語句(第2言語)に対して、類似用例原文(第1言語)を構成する各語句の訳語(第2言語)から一致するものを検索し、一致する訳語を持つ類似用例原文の構成語を、類似用例訳文の構成語に対応する類似用例原文の対応語候補(第1言語)として抽出する。候補が複数存在すれば複数の候補を抽出する。
そして、差分対応付け部31は、類似用例原文の語句と類似用例訳文の語句とが1対1対応かどうかを判定し(S405)、1対1に対応が決まる場合には、対応付けられた語句を対応語句として確定し、これにより差分と類似用例訳文の語句の対応付けが確定する(S406)。
表1の例の場合には、類似用例原文の「使用する」は類似用例訳文の「use」、類似用例原文の「医療器具」は類似用例訳文の「medical device」、類似用例原文の「この」は類似用例訳文の「this」、類似用例原文の「脳内出血」は類似用例訳文の「cerebral hemorrhage」、類似用例原文の「遠隔治療」は類似用例訳文の「teletherapy」にそれぞれ対応付けられる。従って、類似用例原文中の差分「遠隔」は類似用例訳文中の語句に1対1の対応付けができないので、ステップS405の判定では、1対1の対応付けに失敗したことになる。
差分対応付け部31による差分の類似用例訳文中の語句への1対1の対応付けに失敗した場合には、再対応付け可能判定部32は、対応付けを行う語句の範囲の拡大が可能かどうか、つまり対応範囲拡大可能かどうかを判断する(S407)。
再対応付け可能判定部32は、1対1に対応が決まらない場合、以下の方法で対応付ける語句の範囲の拡大を試みる。対応付けの範囲が拡大可能かどうかは、下記の範囲拡大可能条件[B]を満たすかどうかで判定される。
[B]範囲拡大可能条件:検出された語句と構造ツリー上で連続している語句であり、かつ検出された語句と同じ品詞属性を持つか、または検出された語句を修飾可能な品詞であるものとする。
表1の例では、検索対象である「遠隔」は、「治療」及び「脳内出血」と構造ツリー上で連続しており、「名詞」という同じ品詞属性を持つので、再対応付け可能判定部32は範囲拡大可能条件を満たすと判定する。
再対応付け可能判定部32は、範囲拡大可能条件を満たすと判定すると対応範囲を拡大する(S408)。範囲拡大は以下の条件で行われる。
[B−1]類似用例原文を構成する語句(第1言語)に対して、類似用例訳文(第2言語)を構成する各語句の訳語(第1言語)から部分的に一致するものを検索し、見つかった訳語のうち一致していない部分を切り出し、その部分を訳語としてもつ類似用例原文の構成要素を検索する。
[B−2]類似用例訳文を構成する語句(第2言語)に対して、類似用例原文(第1言語)を構成する各語句の訳語(第2言語)から部分的に一致するものを検索し、見つかった訳語のうち一致していない部分を切り出し、その部分を訳語としてもつ類似用例原文の構成要素を検索する。
表1に示した例では、類似用例原文の構成要素「治療」と、類似用例訳文の構成要素「teletherapy」の訳語である「遠隔治療」とは“治療”の部分が一致している。この場合、「遠隔治療」の一致していない部分である“遠隔”を切り出し、“遠隔”を訳語として持つ類似用例原文の構成要素が存在するかどうかを検索する。
または、類似用例原文のツリー構造において、「治療」に連続しておりかつ「治療」と同一の属性を持つ品詞または「治療」を修飾する語と連結し、その結果作成された合成語が「遠隔治療」と一致するかどうかを判定する。
この結果、訳語に「tele-」を持つ、「治療」を修飾可能な語(形容詞的名詞)である「遠隔」が検出される。最終的に、類似用例原文の「治療」から、「遠隔」+「治療」へと対応範囲が拡大される。
そして、ステップS408に戻り、差分対応付け部31は、再対応付け可能判定部32で拡大された類似用例原文の「遠隔」+「治療」を基に、差分を以下の[2]のように判定する。
[2]翻訳対象原文:名詞「治療」−−類似用例原文:形容詞的名詞「遠隔」+名詞「治療」
表1の例では、差分と判定された語が名詞を修飾する語である場合は、修飾されている名詞にまで範囲を拡大した差分の別候補[2]も差分として判定する。これにより、差分対応付け部31のステップS404の判定で、類似用例原文の「遠隔治療」と類似用例訳文の「teletherapy」とが対応付けられる。つまり、以上の対応付け処理によって、類似用例原文と類似用例訳文とを構成する各語句の間に以下の対応関係が得られる。
使用する−−use
医療器具−−medical device
この−−this
脳内出血−−cerebral hemorrhage
遠隔治療−−teletherapy
ステップS405で類似用例原文の語句と類似用例訳文の語句とが1対1対応であると判定され、対応付けられた語句を対応語句として確定する。これにより差分「治療」と類似用例訳文の語句「teletherapy」との対応付けが確定する(S406)。なお、上記のような条件が設定してあるため、例えば、類似用例原文の「医療器具」に「治療用」という修飾語が付いていたとしても、ツリー構造上かけ離れた位置に存在するため検索対象にはならない。
以上の結果を用いて、差分語句訳語取得部33は、翻訳対象原文、類似用例原文、類似用例訳文の3者間で、以下のような1対1対応が取れていると判定する。なお、差分[1]では、3者間の1対1対応は取れないため、この場合採用されたのは差分[2]である。
翻訳対象原文「治療」−−類似用例原文「遠隔治療」−−類似用例訳文「teletherapy」
以上の判定結果を用いて、差分語句訳語取得部33は、翻訳対象原文の差分である「治療」の訳語を語彙部35aを参照して取得する(S309)。図6の中に記述してある通り、語彙部35aに登録されている「治療」の訳語候補には「treatment」、「therapy」等がある。これらの訳語候補のうち、最初に登録されている「treatment」を用いて、類似用例訳文の差分語句に対応する類似用例訳文中の語句「teletherapy」を訳語置換部34が置き換える(S310)。これにより、表1の例では表2に示すような類似用例訳文が得られる。
Figure 2011107852
次に、語句の範囲を拡大する際の条件については、前述した範囲拡大可能条件[B]以外にも、「文字種を限定する」という条件を設定することもできる。すなわち、文字種が範囲拡大の元となる語句と同じであるか、ひらがなを含まない文字種で構成されている(カタカナ、アルファベット、漢字のみから構成されている)という条件を設定することもできる。この条件の下では、語彙部35aに登録されていない未知語に対しても、範囲拡大の対象とすることができる。例えば、類似用例原文中に「ビービー・エイジェンシー」という語句が存在しており、「ビービー」は語彙部35aの日英辞書には未登録だが、英日辞書には登録されている(「BB device」の訳語として「BB agency」が登録されている)ような場合には、原文の「BB」の品詞が不明でも、文字種にひらがなを含まない語であることから、範囲拡大の対象とすることができる。
以上説明したように、本発明の実施の形態では、翻訳対象原文と類似用例原文との差分を判定し、判定された差分に対する類似用例訳文中の語句の1対1での対応付けに失敗した場合に、対応付け処理を再試行することができる。再試行を行うことによって、対応付け失敗の確率を小さくすることができる。
再試行の際には、差分と判定した語句の前後の単語を対象に、品詞等に関する特定の条件に基づいて差分の範囲を拡大するので、類似用例の原文と訳文を構成する各語句の対応付けの候補の中から、構文上つながりがあり、ひとつの合成語とみなせる候補を正確に絞り込むことができる。また、機械翻訳の機械翻訳辞書に登録のない未知語であり、品詞などの属性が不明でも、語句拡大の対象とすることができる。
なお、本発明の実施の形態では、日英翻訳について説明したが、日英翻訳だけでなく、英日翻訳及び他の言語間での翻訳、例えば中日翻訳や日中翻訳にも適用可能であることは言うまでもない。
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…機械翻訳プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…入力処理部、27…文分割部、28…制御部、29…原文解析・翻訳部、30…翻訳用例検索部、31…差分対応付け部、32…再対応付け可能判定部、33…差分語句訳語取得部、34…訳語置換部、35…機械翻訳辞書、35a…語彙部、35b…形態素解析規則部、35c…構文解析規則部、
35d…変換規則部、35e…生成規則部、36…翻訳用例データベース、37…出力処理部

Claims (4)

  1. 機械翻訳プログラム、翻訳対象の第1言語を翻訳目的の第2言語に翻訳するための機械翻訳辞書、翻訳対象の第1言語の文と翻訳目的の第2言語の文との対訳からなる翻訳用例を類似用例原文及び類似用例訳文の対として蓄積した翻訳用例データベースを記憶した記憶装置と、翻訳対象原文を入力する入力装置と、翻訳後の第2言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置において、前記入力装置から入力された翻訳対象原文を前記機械翻訳辞書を参照して解析するとともに第2言語に翻訳を行う原文解析・翻訳部と、前記翻訳対象原文に類似する翻訳用例を類似用例原文及び類似用例訳文の対として前記翻訳用例データベースから検索する翻訳用例検索部と、前記原文解析・翻訳部による解析結果に基づいて、前記翻訳用例検索部で検索された前記類似用例原文と前記翻訳対象原文との差分を判定するともに当該差分に対応する前記類似用例訳文中の語句と前記翻訳対象原文中の語句とを対応付ける差分対応付け部と、前記差分対応付け部において差分と判定した類似用例原文中の語句、翻訳対象原文中の語句および類似用例訳文中で1対1の対応付けに失敗した語句に対して、それぞれの語句の範囲を拡大して再度対応付けを行う再対応付け可能判定部と、前記差分対応付け部及び前記再対応付け可能判定部によって対応付けられた前記翻訳対象原文中の差分の語句に対して前記機械翻訳辞書を参照して対応する第2言語による訳語を取得する差分語句訳語取得部と、前記差分対応付け部及び前記再対応付け可能判定部によって対応付けられた類似用例訳文中の語句を前記差分語句訳語取得部によって取得した訳語に置き換えて訳文を生成する訳語置換部とを備えたことを特徴とする機械翻訳装置。
  2. 前記再対応付け可能判定部は、前記語句の範囲を拡大して再度対応付けを行う条件として、その語句と構造ツリー上で連続しており、その語句と同じ品詞属性を持つか、またはその語句を修飾可能な品詞であることを条件とすることを特徴とする請求項1記載の機械翻訳装置。
  3. 前記再対応付け可能判定部は、前記語句の範囲を拡大して再度対応付けを行う条件として、その語句と構造ツリー上で連続しており、文字種がその語句と同じであるか、ひらがなを含まない文字種から構成されることを条件とすることを特徴とする請求項1記載の機械翻訳装置。
  4. 機械翻訳プログラム、翻訳対象の第1言語を翻訳目的の第2言語に翻訳するための機械翻訳辞書、翻訳対象の第1言語の文と翻訳目的の第2言語の文との対訳からなる翻訳用例を類似用例原文及び類似用例訳文の対として蓄積した翻訳用例データベースを記憶した記憶装置と、翻訳対象原文を入力する入力装置と、翻訳後の第2言語の訳文を出力する出力装置と、前記機械翻訳プログラムを演算実行する演算制御装置とを備えた機械翻訳装置として機能させるためのコンピュータにおいて、コンピュータに、前記入力装置から入力された翻訳対象原文を前記機械翻訳辞書を参照して解析するとともに第2言語に翻訳を行う機能と、前記翻訳対象原文に類似する翻訳用例を類似用例原文及び類似用例訳文の対として前記翻訳用例データベースから検索する機能と、前記翻訳対象原文の解析結果に基づいて、前記検索された前記類似用例原文と前記翻訳対象原文との差分を判定するともに当該差分に対応する前記類似用例訳文中の語句と前記翻訳対象原文中の語句とを対応付ける機能と、前記差分と判定した類似用例原文中の語句、翻訳対象原文中の語句および類似用例訳文中で1対1の対応付けに失敗した語句に対してそれぞれの語句の範囲を拡大して再度対応付けを行う機能と、対応付けられた前記翻訳対象原文中の差分の語句に対して前記機械翻訳辞書を参照して対応する第2言語による訳語を取得する機能と、対応付けられた類似用例訳文中の語句を前記取得した訳語に置き換えて訳文を生成する機能とを実現させるための機械翻訳プログラム。
JP2009260525A 2009-11-14 2009-11-14 機械翻訳装置及びプログラム Expired - Fee Related JP5039114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009260525A JP5039114B2 (ja) 2009-11-14 2009-11-14 機械翻訳装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009260525A JP5039114B2 (ja) 2009-11-14 2009-11-14 機械翻訳装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011107852A true JP2011107852A (ja) 2011-06-02
JP5039114B2 JP5039114B2 (ja) 2012-10-03

Family

ID=44231268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009260525A Expired - Fee Related JP5039114B2 (ja) 2009-11-14 2009-11-14 機械翻訳装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5039114B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6631930B2 (ja) 2017-02-07 2020-01-15 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011842A (ja) * 2004-06-25 2006-01-12 Sharp Corp 翻訳装置および翻訳プログラム
JP2009116584A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
WO2009107456A1 (ja) * 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011842A (ja) * 2004-06-25 2006-01-12 Sharp Corp 翻訳装置および翻訳プログラム
JP2009116584A (ja) * 2007-11-06 2009-05-28 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
WO2009107456A1 (ja) * 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP5039114B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
JP4504555B2 (ja) 翻訳支援システム
JP6671027B2 (ja) 換言文生成方法、該装置および該プログラム
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP2008262587A (ja) 用例ベースの機械翻訳システム
JP2013206397A (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2007072594A (ja) 翻訳装置、翻訳方法および翻訳プログラム、媒体
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2010152420A (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP2011186507A (ja) 翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラム
JP2009116585A (ja) 機械翻訳装置及び機械翻訳プログラム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法
JP3244286B2 (ja) 翻訳処理装置
JP2011210193A (ja) 機械翻訳装置および機械翻訳プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5039114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees