JP2010140381A - 機械翻訳装置及び機械翻訳プログラム - Google Patents

機械翻訳装置及び機械翻訳プログラム Download PDF

Info

Publication number
JP2010140381A
JP2010140381A JP2008317892A JP2008317892A JP2010140381A JP 2010140381 A JP2010140381 A JP 2010140381A JP 2008317892 A JP2008317892 A JP 2008317892A JP 2008317892 A JP2008317892 A JP 2008317892A JP 2010140381 A JP2010140381 A JP 2010140381A
Authority
JP
Japan
Prior art keywords
translation
original text
machine
language
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008317892A
Other languages
English (en)
Other versions
JP5032453B2 (ja
Inventor
Enko Sai
遠航 蔡
Yumiko Yoshimura
裕美子 吉村
Takashi Shibuya
貴志 澁谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2008317892A priority Critical patent/JP5032453B2/ja
Publication of JP2010140381A publication Critical patent/JP2010140381A/ja
Application granted granted Critical
Publication of JP5032453B2 publication Critical patent/JP5032453B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】翻訳対象原文の訳文の翻訳精度や完成度が高く、しかも訳文の合成がし易くなるように翻訳用例の優先度を調整できる機械翻訳装置及び機械翻訳プログラムを提供することである。
【解決手段】翻訳用例検索手段32は翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を翻訳用例データベース29から検索し、差分対応付け手段33は翻訳用例検索手段32で複数の翻訳用例が検索された場合には各々の翻訳用例の原文と翻訳対象原文との差異部分を対応付け、用例優先度付与手段34は差分対応付け手段33で対応付けられた各々の翻訳用例の原文と翻訳対象原文との差異部分について構文上の役割を判定し構文上の役割が同じである割合が高いほど高い優先度を翻訳用例に付与する。
【選択図】 図1

Description

本発明は、第1言語の翻訳対象原文を第2言語の訳文に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。
第1言語の原文を第2言語の訳文に翻訳する機械翻訳装置においては、第1言語の原文と第2言語文の対訳とからなる翻訳用例を予め翻訳用例データベースに蓄積しておき、入力された翻訳対象原文に類似する翻訳用例を検索して、翻訳対象原文とともに利用者に提示し、翻訳の支援を行うものがある(例えば、特許文献1参照)。
翻訳対象原文に類似する翻訳用例を翻訳用例データベースから検索するにあたっては、翻訳対象原文に含まれる単語または文字が一致する割合が予め定めた割合以上の翻訳用例を翻訳用例データベースから検索することになる。
この検索において、複数の翻訳用例が検索された場合、使用する翻訳用例を最終的に一つに絞り込む必要があるので、検索された翻訳用例には「優先度」を付けるようにしている。そして、決定された優先度の順番で翻訳用例をユーザに提示する。ユーザは提示された翻訳用例のうちから適切な翻訳用例を選択し、その選択した翻訳用例を用いて翻訳対象原文の訳文を合成することになる。現状では、翻訳用例の優先度を以下の方法で決定するようにしている。
(1)翻訳対象原文との「類似度」が高い翻訳用例の優先度を高くする。
「類似度」は、翻訳対象原文と翻訳用例原文との一致する単語の割合または文字の割合によって決める。
(2)類似度が同じである翻訳用例に対しては、検索で先に見つけた翻訳用例を優先する。あるいは、新しく登録した翻訳用例を優先する。
このように、翻訳用例を用いた翻訳において、現状では翻訳対象原文に対して複数の翻訳用例が存在する場合には、翻訳対象原文との類似度の高い翻訳用例の優先度を高くしている。そして、その複数の翻訳用例の類似度が等しい場合は、翻訳用例の検索で先に発見したものを優先するようにしている。
特開2008−204312号公報
しかし、このように決められた「優先度の高い翻訳用例」を使用すると、単に、翻訳対象原文と翻訳用例原文との一致する単語の割合または文字の割合によって翻訳用例の優先度を決めているので、翻訳対象原文の訳文の翻訳精度や完成度が低く訳文の合成がし難いことがある。却って、類似度の低い翻訳用例を使用した場合や、類似度が同じでも翻訳用例検索で後で見つけた翻訳用例を使用した場合の方が、翻訳対象原文の訳文の翻訳精度や完成度が高く、訳文の合成がし易いことがある。表1に翻訳用例の類似度と優先度との関係の一例を示し、類似度が高くても、翻訳対象原文の訳文の翻訳精度や完成度が低く訳文の合成がし難い場合について説明する。
Figure 2010140381
[表1のケース1]
翻訳対象原文と翻訳用例1原文とは一致する単語の割合は(4/6)であり、翻訳対象原文と翻訳用例2原文とは一致する単語の割合は(4/5)である。従って、翻訳用例1原文の類似度は67%、翻訳用例2原文の類似度は80%であり、翻訳用例2原文の優先度が1で翻訳用例1原文の優先度が2となっているので、現状では、翻訳用例2が優先的に使用される。
ところが、翻訳用例2原文の”unwillingly”と翻訳対象原文の”yesterday”との構文上の役割は”気持や状態を表す副詞句”と”時間を表す副詞句”とで異なり、一方、翻訳用例1原文の”last month”と翻訳対象原文の”yesterday”との構文上の役割は同じ”時間を表す副詞句”である。このため、翻訳用例2原文より類似度は低いが翻訳用例1の訳文を使用した方が精度の高い訳文を得ることができる。
[表1のケース2]
翻訳対象原文と翻訳用例1原文とは一致する単語の割合は(7/9)であり、翻訳対象原文と翻訳用例2原文とは一致する単語の割合は(7/9)である。従って、翻訳用例1原文の類似度は78%、翻訳用例2原文の類似度は78%であり、翻訳対象原文との類似度は、翻訳用例1と翻訳用例2は同じであるが、翻訳用例1原文が先に検索発見されたので、翻訳用例1の原文の優先度が1で翻訳用例2の原文の優先度が2となっている。これにより、現状では、翻訳用例1の原文が優先的に使用される。
ところが、翻訳対象原文と翻訳用例1の異なる箇所(差分箇所)は2箇所あり、翻訳用例1を使用して翻訳対象原文の訳文を合成する場合、2つの差分箇所で処理(編集、自動置き換えなど)を行わなければならない。一方、翻訳対象原文と翻訳用例2との差分箇所は1つであり、翻訳用例2を使用して訳文を合成する場合、1つの差分箇所のみを処理すればよい。このように、翻訳用例2を使用した方が、訳文の合成がし易い。
[表1のケース3]
翻訳対象原文と翻訳用例1原文とは一致する単語の割合は(4/5)であり、翻訳対象原文と翻訳用例2原文とは一致する単語の割合は(4/5)である。従って、翻訳用例1原文の類似度は80%、翻訳用例2原文の類似度は80%であり、翻訳対象原文との類似度は、翻訳用例1と翻訳用例2は同じであるが、翻訳用例1原文が先に検索発見されたので、翻訳用例1の原文の優先度が1で翻訳用例2の原文の優先度が2となっている。これにより、現状では、翻訳用例1の原文が優先的に使用される。
ところが、翻訳用例1原文の”seldom”には否定の意味合いを持ち、翻訳用例1を使用して翻訳対象原文の訳文を合成する場合、この否定の意味合いを考慮した処理が必要となる(例えば用例訳文中の”しません”を”します”に変更する)。一方、翻訳用例2を使用するとこのような余分な処理を行わなくてよい。このように、翻訳用例2を使用した方が、訳文の合成がし易い。
[表1のケース4]
翻訳対象原文と翻訳用例1原文とは一致する単語の割合は(10/12)であり、翻訳対象原文と翻訳用例2原文とは一致する単語の割合は(10/12)である。従って、翻訳用例1原文の類似度は83%、翻訳用例2原文の類似度は83%であり、翻訳対象原文との類似度は、翻訳用例1と翻訳用例2は同じであるが、翻訳用例1原文が先に検索発見されたので、翻訳用例1の原文の優先度が1で翻訳用例2の原文の優先度が2となっている。これにより、現状では、翻訳用例1の原文が優先的に使用される。
ところが、翻訳用例1訳文には、翻訳用例1原文の”手紙”に対応した訳語がない。そのため、翻訳用例1訳文を使用して翻訳対象原文の訳文を合成する場合、”手紙”と差分である”招待状”に対応した語句がないため、編集や置き換えなどが難しくなる。この場合、翻訳用例2訳文を使用して翻訳対象原文訳文を合成した方が簡単である。
本発明の目的は、翻訳対象原文の訳文の翻訳精度や完成度が高く、しかも訳文の合成がし易くなるように翻訳用例の優先度を調整できる機械翻訳装置及び機械翻訳プログラムを提供することである。
本発明の機械翻訳装置は、機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置において、前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記翻訳用例データベースから検索する翻訳用例検索手段と、前記翻訳用例検索手段で翻訳用例検索で見つけた翻訳用例の原文に対して形態素解析及び構文解析を行い翻訳対象原文及び翻訳用例原文の構文構造を求める翻訳手段と、前記翻訳用例検索手段で複数の翻訳用例が検索された場合には前記翻訳手段で求めた構文構造に基づいて各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける差分対応付け手段と、前記差分対応付け手段で対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分について前記構文構造に基づいて構文上の役割を判定し前記構文上の役割が同じである割合が高いほど高い優先度を前記翻訳用例に付与する用例優先度付与手段とを備えたことを特徴とする。
本発明によれば、翻訳対象原文の訳文の翻訳精度や完成度が高く、しかも訳文の合成がし易くなるように翻訳用例の優先度を調整できる。
以下、図面を参照しながら本発明の実施の形態について説明する。図1は本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図、図2は本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図である。
図2に示すように、機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムが演算制御装置12のプロセッサ13において実行されることにより実現される。
演算制御装置12は機械翻訳に関する各種演算を行うものであり、演算制御装置12はプロセッサ13とメモリ14とを有し、メモリ14には翻訳に関する機械翻訳プログラム15が記憶され、プロセッサ13により処理が実行される際には作業エリア16が用いられる。演算制御装置12の演算結果等は出力装置17である表示装置18に表示出力され、また、通信制御装置19を介して通信ネットワークに出力される。
入力装置20は演算制御装置12に情報を入力するものであり、例えば、マウス21、キーボード22、ディスクドライブ23、通信制御装置19から構成され、例えば、マウス21やキーボード22は表示装置18を介して演算制御装置12に各種指令を入力し、キーボード22、ディスクドライブ23、通信制御装置19は翻訳対象の文書を入力する。
すなわち、ディスクドライブ23は翻訳対象の文書のファイルを記憶媒体に入出力するものであり、通信制御装置19は機械翻訳装置11をインターネットやLANなどの通信ネットワークに接続するものである。通信制御装置19はLANカードやモデムなどの装置であり、通信制御装置19を介して通信ネットワークと送受信したデータは入力信号又は出力信号として演算制御装置12に送受信される。さらに、演算制御装置12の演算結果や機械翻訳規則や機械翻訳辞書等を記憶するハードディスクドライブ(HDD)24が設けられている。
図1に示す演算制御装置12内の各機能ブロックは、上述の機械翻訳プログラム15を構成する各プログラムに対応する。すなわち、プロセッサ13が機械翻訳プログラム15を構成する各プログラムを実行することで、演算制御装置12は、各機能ブロックとして機能することとなる。また、記憶装置25の各ブロックは、演算制御装置12内のメモリ14及びハードディスクドライブ24の記憶領域に対応する。
演算制御部12の入力部26は、ユーザによって入力装置20から入力された第1言語の翻訳対象の原文データの入力処理を行い翻訳部27に取り込むものであり、ユーザによって入力装置20から入力された翻訳操作に必要な情報も入力処理する。また、表示部28は、翻訳対象の第1言語の原文データや翻訳部27で翻訳された翻訳後の第2言語の訳文、さらには記憶装置25の翻訳用例データベース29から検索された翻訳用例の表示処理を行い表示装置18に表示するものである。
記憶装置25に記憶された翻訳用例データベース29は、予め登録された第1言語の文と第2言語の文との対訳からなる翻訳用例を複数蓄積したデータベースであり、例えば、表1に示した翻訳用例が記憶されている。機械翻訳辞書30及び機械翻訳規則31には、第1言語の原文を第2言語の訳文に翻訳する際に使用する語彙・規則が蓄積されている。
翻訳部27は、訳文翻訳用例データベース29、機械翻訳辞書30及び機械翻訳規則31を用いて、第1言語の原文を第2言語の訳文に機械翻訳を行うものであり、翻訳用例検索手段32、差分対応付け手段33、用例優先度付与手段34及び翻訳手段35を有している。翻訳用例検索手段32は、入力された第1言語の翻訳対象原文を検索キーとして翻訳用例データベース29から翻訳対象原文に類似する翻訳用例を検索するものである。差分対応付け手段33は、翻訳用例検索手段32により検索された翻訳用例の原文と翻訳対象原文との差異部分を対応付けるものであり、用例優先度付与手段34は翻訳用例に優先度を付与するものである。そして、翻訳手段35は第1言語の翻訳対象原文を第2言語の訳文に翻訳するものである。
機械翻訳装置11は、入力装置から入力され入力部26で入力処理して取り込んだ翻訳対象原文について翻訳用例検索手段32で翻訳用例データベース29から翻訳用例を検索し、翻訳用例検索手段32での検索で複数の翻訳用例が得られた場合に、差分対応付け手段33により翻訳対象原文と翻訳用例との差分箇所を対応付け、用例優先度付与手段34により差分箇所の属性に応じて得られた翻訳用例に優先度を付与する構成になっている。
機械翻訳装置11のこれら処理の後に、付与された優先度に基づき翻訳用例リストをユーザに提示したり、優先度の最も高い翻訳用例を使用して翻訳対象原文の訳文を自動的に合成したりすることになる。本発明の特徴点は、翻訳用例検索で見つけた複数の翻訳用例に対して優先度を付与する点であり、複数の翻訳用例に対して優先度を付与した後の翻訳用例リストの提示や訳文の合成などの処理は本発明の本質的な部分でないので、それらの説明は省略する。
図3は本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャートである。ユーザにより入力装置20から入力された第1言語の翻訳対象原文は、入力部26で入力処理されて翻訳部27に取り込まれる。そして、入力装置20から翻訳指令が入力され入力部26により翻訳要求が発行されると、翻訳部27の翻訳手段35は、取り込まれた翻訳対象原文に対して辞書引き処理・形態素解析を行い(S1)、各形態素の品詞、活用の種類、各種属性、訳語などの各種情報が得る。続いて、翻訳部27の翻訳用例検索手段32は記憶装置25の翻訳用例データベース29に対して用例検索を行う(S2)。すなわち、入力された翻訳対象原文と同じ翻訳用例原文または類似の翻訳用例原文を持つ翻訳用例が蓄積されているか否かを検出する。
この段階では、ステップS1の処理により、形態素解析結果や翻訳対象原文中の各語に対する各種情報が取得されているため、例えば、日本語の場合には、カタカナや送り仮名の表記の揺れ、漢字表記とひらがな表記の揺れ、送り仮名の有無の揺れの情報も取得されている。これらの情報により、完全に入力された翻訳対象原文と1文字違わず一致した翻訳用例でなくとも、これらの表記の揺れに関する違いについては、違いとしては認識しないような揺れの吸収処理を行うことも可能である。
一方、表記の揺れは吸収しない完全一致の翻訳用例があるときのみ検索成功とすることも可能である。また、文字・単語上の違いがあっても同値とみなす差異文字数、ないしは差異単語数の割合の下限値を設けて検索の可否を制御する構成としてもよい。これにより、語句・文字の使われ方が類似した翻訳用例を抽出できる。このような場合は、ステップS2の翻訳用例検索のタイミングをステップS1の辞書引き処理・形態素解析の後にする必要もなくなり、図2の処理の最初に行う構成でもよい。
次に、翻訳用例検索手段32は翻訳用例が検索できたか否かを判定し(S3)、翻訳用例が検索できた場合には検索結果は複数か否かを判定する(S4)。翻訳用例の検索結果が複数ある場合には、翻訳部27は用例優先度付与処理を実行し(S5)、さらに翻訳処理を実行する(S6)。ステップS3の判定で、翻訳用例が検索でなかった場合や、ステップS4の判定で検索結果が1つだけであるときは、ステップS6の翻訳処理に移行する。
次に、図3のステップS5の用例優先度付与処理について説明する。用例優先度付与処理は、以下の4通りの翻訳対象原文と翻訳用例原文との差分箇所の属性を考慮に入れて用例の優先度を付与する処理を行う。
(a)翻訳対象原文と翻訳用例原文との差分の構文上の役割
(b)差分箇所の数
(c)翻訳用例原文の訳語が複数箇所の分離された語句に対応している割合
(d)翻訳用例原文の翻訳用例訳文に対応訳語がない割合
上記の(c)、(d)は、翻訳対象原文に対する翻訳用例原文だけでなく、翻訳用例訳文を使用して訳文を合成する際の合成のし易さをも考慮に入れるものである。
図4は本発明の実施の形態における用例優先度付与処理の実施例1の処理内容を示すフローチャートである。この実施例1は、前述の「(a)翻訳対象原文と翻訳用例原文との差分の構文上の役割」を考慮に入れた用例優先度付与処理aである。翻訳部27による用例優先度付与処理aは以下のようにして行われる。
まず、翻訳部27の翻訳手段35は、翻訳対象原文に対して構文解析を行う(S11)。そして、翻訳手段35は、翻訳用例検索で見つけた翻訳用例について、翻訳用例原文に対して形態素解析、構文解析を行う(S12)。これによって、翻訳対象原文、翻訳用例原文の文を構成する単語列、各単語の品詞・活用の種類・訳語ほか、翻訳処理に必要な各種情報、そして構文構造がすべて得られる。この処理で構文上の役割が得られる。
差分対応付け手段33は、これらの情報を用いて、翻訳対象原文と翻訳用例原文との差分の対応付けを行う(S13)。
続いて、用例優先度付与手段34は、翻訳対象原文と翻訳用例原文との差分箇所の数を記憶装置15の予め定めた記憶領域に記憶する(S14)。その後、用例優先度付与手段34は、各差分箇所において、翻訳対象原文の語句と翻訳用例原文の語句との構文上の役割を比較し(S15)、構文上の役割が一致している差分箇所の数を記憶する(S16)。最後に、用例優先度付与手段34は、ステップS14で記憶した差分箇所の数、ステップS16で記憶した構文上の役割が一致している差分箇所の数を用いて当該用例の優先度を算出する(S17)。そして、次の翻訳用例があるかどうかを判断し、翻訳用例がある場合にはステップS12に戻り(S18)、翻訳用例がなくなるまでステップS12〜ステップS17の処理を繰り返し行う。
ここで、用例優先度付与手段34によるステップS14での差分箇所の数え方としては、構文解析後の構文木(構文解析の結果を木構造で表したもの)において、ひとまとまりである語句(木構造の1ノード)を1箇所の差分として扱う。また、構文木を利用せず、文中の連続した差分語句をまとめて1箇所の差分として扱う構成にしてもよい。
また、用例優先度付与手段34によるステップS17の優先度の算出には、優先度をP、類似度をα[%]、差分箇所の数をN、構文上の役割が一致する差分箇所の数をn、係数をkとしたとき、以下の(1)式を使用する。
[数1]
P=(100%−α)・(n/N)・k+α
実施例1においては、構文上の役割0.が一致する差分箇所が類似度αにどれぐらい影響を与えるかを統計的に検証して係数kを定めるようにしてもよいし、差分箇所の数などの要素によって係数kを動的に定めるようにしてもよい。ここでは、例えば、係数kを”0.8”に固定して設定する。
いま、表1のケース1の翻訳対象原文に対して、翻訳用例データベース29より表1のケース1の2つの翻訳用例が検索されたとする。
翻訳対象原文: He attended our meeting yesterday.
翻訳用例1原文: He attended our meeting last month.
翻訳用例2原文: He attended our meeting unwillingly.
図4のステップS11では、翻訳手段35により、翻訳対象原文”He attended our meeting yesterday.”について構文解析を行い、翻訳用例検索手段32で既に検索で見つけた2つの翻訳用例について、それぞれにS12〜S17の処理が行われる。
まず、翻訳用例1に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”yesterday”と”last month”とが差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。用例優先度付与手段34のステップS15の処理で、”yesterday”と”last month”との構文上の役割が比較され、双方ともに同じ”時間表現を表す副詞句”であり構文上の役割が一致すると判定される。次に、用例優先度付与手段34でのステップS16の処理で、構文上の役割が一致している差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。
そして、用例優先度付与手段34のステップS17の処理で、ステップS14及びステップS16で得られた差分箇所の数Nや構文上の役割が一致する差分箇所の数nを用いて優先度Pが算出される。すなわち、ケース1の翻訳用例1の類似度αは67%、差分箇所の数Nは1、構文上の役割が一致する差分箇所の数nは1、係数kは0.8であるので、(1)式にこれらを代入して、ケース1の翻訳用例1の優先度P11を求めるとP11=93%となる。
次に、翻訳用例2に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”yesterday”と”unwillingly”とが差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。用例優先度付与手段34のステップS15の処理で、”yesterday”と”unwillingly”が構文上の役割が比較され、これらの構文上の役割が一致しないと判定される。次に、用例優先度付与手段34でのステップS16の処理で、構文上の役割が一致している差分箇所の数「0」が記憶装置25の予め定めた記憶領域に記憶される。
そして、用例優先度付与手段34のステップS17の処理で、ステップS14及びステップS16で得られた差分箇所の数Nや構文上の役割が一致する差分箇所の数nを用いてケース1の翻訳用例2の優先度P12が算出される。すなわち、ケース1の翻訳用例2の類似度αは80%、差分箇所の数Nは1、構文上の役割が一致する差分箇所の数nは0、係数kは0.8であるので、(1)式にこれらを代入して、ケース1の翻訳用例2の優先度P12を求めるとP12=80%となる。
このようにして、求められた優先度P11、P12は、記憶装置25の予め定めた記憶領域に記憶されるとともに、入力装置20からの指令により必要に応じて表示部28を介して表示装置18に表示される。これにより、翻訳用例1の優先度P11が翻訳用例2の優先度P12よりも高いことがユーザに提供される。以上の説明では、優先度Pは%表示で表したが、優先度の%数値の高い順から「優先度1」、「優先度2」のように翻訳用例の優先度を番号順で付与するようにしてもよい。
以上述べたように、表1のケース1の場合、従来の翻訳用例の選択では、類似度が高い翻訳用例2を優先的に提示する(または使用する)が、本発明の実施例1では、差分箇所の構文上の役割を考慮して優先度Pを調整するので、類似度は低いが差分箇所の構文上の役割の一致する割合が大きい翻訳用例1を優先的に提示する(または使用する)ことになる。
本発明の実施の形態の実施例1によれば、翻訳対象原文の翻訳用例が複数ある場合、各翻訳用例において、差分箇所の構文上の役割が同じである翻訳用例の優先度を高くするので、その翻訳用例を用いて翻訳対象原文の訳文を合成する際に完成度の高い訳文が得られる。
図5は本発明の実施の形態における用例優先度付与処理の実施例2の処理内容を示すフローチャートである。この実施例2は、前述の「(b)差分箇所の数」を考慮に入れた用例優先度付与処理bである。翻訳部27による用例優先度付与処理bは以下のようにして行われる。
まず、図4に示した実施例1の場合と同様に、翻訳部27の翻訳手段35は、翻訳対象原文に対して構文解析を行い(S11)、翻訳手段35は、翻訳用例検索で見つけた翻訳用例について、翻訳用例原文に対して形態素解析、構文解析を行う(S12)。そして、差分対応付け手段33は、これらの情報を用いて、翻訳対象原文と翻訳用例原文との差分の対応付けを行い(S13)、用例優先度付与手段34は、翻訳対象原文と翻訳用例原文との差分箇所の数を記憶装置15の予め定めた記憶領域に記憶する(S14)。
次に、用例優先度付与手段34は、次の翻訳用例があるかどうかを判断し、翻訳用例がある場合にはステップS12に戻り(S19)、翻訳用例がなくなるまでステップS12〜ステップS14の処理を繰り返し行う。その後、すべての翻訳用例のうち、差分箇所の数が最も多い翻訳用例の最多差分箇所数Nmaxを取得する(S20)。取得した最多差分箇所数Nmaxを用いて、最初の翻訳用例から順番に翻訳用例の優先度を算出する(S21)。
用例優先度付与手段34によるステップS21の優先度の算出には、優先度をP、類似度をα[%]、差分箇所の数をN、最多差分箇所数をNmaxとしたとき、以下の(2)式を使用する。
[数2]
P=(100−α)・(1−N/Nmax)+α
実施例2においては、差分箇所Nが多いほど(差分箇所Nの数が最多差分箇所数Nmaxに近づくほど)、当該翻訳用例を使用した際の編集コストや訳文合成失敗リスクが大きくなることから優先度を低くする。
すなわち、(100−α)の係数を(1−N/Nmax)としているが、(100−α)の係数を固定値にしてもよいし、差分箇所Nが多い場合に類似度αにどれぐらい影響を与えるかを統計的に検証して、(100−α)の係数を定めるようにしてもよい。
いま、表1のケース2の翻訳対象原文に対して、翻訳用例データベース29より表1のケース2の2つの翻訳用例が検索されたとする。
翻訳対象原文: The goods delivered were much different from the sample.
翻訳用例1原文: The products delivered were much different from the model.
翻訳用例2原文: The finished products delivered were much different from the sample.
図5のステップS11では、翻訳手段35により、”The goods delivered were much different from the sample.”について構文解析を行い、翻訳用例検索手段32で既に検索で見つけた2つの翻訳用例について、それぞれにS12〜S14の処理が行われる。
まず、翻訳用例1に対して、差分対応付け手段33でのステップS13の処理で、”goods”と”products”、”sample”と”model”が対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「2」が記憶装置25の予め定めた記憶領域に記憶される。
一方、翻訳用例2に対して、差分対応付け手段33でのステップS13の処理で、”goods”と”finished products”が対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。
表1のケース2の場合、翻訳用例は翻訳用例1、2の2つであるので、用例優先度付与手段34のステップS20の処理で、翻訳用例1、2のうちの最多差分箇所を検索し最多差分箇所数Nmaxとして「2」を取得する。そして、用例優先度付与手段34のステップS21の処理で、翻訳用例1、翻訳用例2の優先度を算出する。翻訳用例1の類似度αは78%、差分箇所Nは2、最多差分箇所数Nmaxは2であるので、(2)式にこれらを代入して、ケース2の翻訳用例1の優先度P21を求めるとP21=78%となる。一方、ケース2の翻訳用例2の類似度αは78%、差分箇所の数Nは1、最多差分箇所数Nmaxは2であるので、(2)式にこれらを代入して、ケース2の翻訳用例2の優先度P22を求めるとP22=89%となる。
このようにして、求められた優先度P21、P22は、記憶装置25の予め定めた記憶領域に記憶されるとともに、入力装置20からの指令により必要に応じて表示部28を介して表示装置18に表示される。これにより、翻訳用例2の優先度P22が翻訳用例2の優先度P21よりも高いことがユーザに提供される。
以上述べたように、表1のケース2の場合、従来の翻訳用例の選択では、類似度αが78%で同じであるため、翻訳用例検索で先に見つけた翻訳用例1を優先的に提示する(または使用する)が、実施例2では、差分箇所数Nを考慮して優先度Pを調整するので、類似度αが同じであっても差分箇所数Nが少ない翻訳用例2を優先的に提示する(または使用する)ようになる。
すなわち、翻訳用例1を使用して翻訳対象原文の訳文を合成する場合、”products”と”model”との2箇所で編集を行わなければならないが、翻訳用例2を使用した場合には、”finished products”の1箇所で編集を行うだけでよい。後者の場合、編集コストが少なく、また、編集による周囲への影響が少ないため訳文合成失敗のリスクが少ない。
本発明の実施の形態の実施例2によれば、差分箇所数に応じて翻訳用例の優先度を調整することによって、差分箇所の少ない翻訳用例が優先的に使用されるため、翻訳用例を用いて翻訳対象原文の訳文を合成する際に完成度の高い訳文が得られる。
図6は本発明の実施の形態における用例優先度付与処理の実施例3の処理内容を示すフローチャートである。この実施例3は、前述の「(c)翻訳用例原文の訳語が複数箇所の分離された語句に対応している割合」を考慮に入れた用例優先度付与処理cである。翻訳部27による用例優先度付与処理cは以下のようにして行われる。
まず、図4に示した実施例1の場合と同様に、翻訳部27の翻訳手段35は、翻訳対象原文に対して構文解析を行い(S11)、翻訳手段35は、翻訳用例検索で見つけた翻訳用例について、翻訳用例原文に対して形態素解析、構文解析を行う(S12)。そして、差分対応付け手段33は、これらの情報を用いて、翻訳対象原文と翻訳用例原文との差分の対応付けを行い(S13)、用例優先度付与手段34は、翻訳対象原文と翻訳用例原文との差分箇所の数を記憶装置15の予め定めた記憶領域に記憶する(S14)。
次に、用例優先度付与手段34は差分箇所の分析を行い(S22)、差分箇所の翻訳用例原文の訳語が当該翻訳用例の訳文の分離している複数箇所に対応しているか否かをチェックし、当該翻訳用例の訳文の複数箇所に対応している差分箇所の数を記憶装置25の予め定められた記憶領域に記憶する(S23)。その後に、用例優先度付与手段34は、ステップS14で記憶した差分箇所数、ステップS23で記憶した訳文の複数箇所に対応している差分箇所の数を用いて当該翻訳用例の優先度を算出する(S24)。そして、用例優先度付与手段34は、次の翻訳用例があるかどうかを判断し、翻訳用例がある場合にはステップS12に戻り(S25)、翻訳用例がなくなるまでステップS12〜ステップS24の処理を繰り返し行う。
用例優先度付与手段34によるステップS24の優先度の算出には、優先度をP、類似度をα[%]、差分箇所の数をN、訳文の複数箇所に対応している差分箇所の数をNaとしたとき、以下の(3)式を使用する。
[数3]
P=α−(100−α)・(Na/N)
実施例3においては、訳文の複数箇所に対応している差分箇所の数Naが多いほど、当該翻訳用例を使用した際の編集コストや訳文合成失敗リスクが大きくなることから、(100−α)の係数を(Na/N)としている。この(100−α)の係数である(Na/N)は固定値にしてもよいし、訳文の複数箇所に対応している差分箇所が多い場合に類似度にどれぐらい影響を与えるかを統計的に検証して定めるようにしてもよい。
いま、表1のケース3の翻訳対象原文に対して、翻訳用例データベース29より表1のケース2の2つの翻訳用例が検索されたとする。
翻訳対象原文: He usually attended our meeting.
翻訳用例1原文: He seldom attends our meeting.
翻訳用例2原文: He sometimes attends our meeting.
図6のステップS11では、翻訳手段35により、”He usually attended our meeting.”について構文解析を行い、翻訳用例検索手段32で既に検索で見つけた2つの翻訳用例について、それぞれにS12〜S24の処理が行われる。
まず、翻訳用例1に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”usually”と”seldom”とが対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。
次に、用例優先度付与手段34のステップS22の処理で差分箇所の分析が行われる。すなわち、差分箇所である”seldom”が訳文の複数箇所に対応しているかどうかが判定される。翻訳用例原文側の1つの語句が翻訳用例訳文側の分離している複数の部分に対応しているかを分析する方法は様々なものがある。例えば、語句の品詞と”否定”属性とを利用する方法や、語句を翻訳辞書で辞書引きして訳語が構文上の複数部分から構成されるのを利用する方法などがある。
この例文では、語句の品詞と”否定”属性とを利用する。翻訳手段35による翻訳用例1原文の構文解析後に、”seldom”の属性として”否定”が付与されているので、用例優先度付与手段34のステップS22の処理で”seldom”の属性として”否定”が付与されていることが分かり、また、”seldom”の品詞が”副詞”であることも判明する。副詞には否定の活用がないため、この”否定”に対応する訳文の部分と”seldom”に対応する訳文の部分は分離している部分となることが分かる。
次に、用例優先度付与手段34のステップS23の処理で、訳文の複数箇所に対応している差分箇所の数「1」を記憶装置25の予め定めた記憶領域に記憶する。そして、用例優先度付与手段34のステップS24の処理で、ケース3の翻訳用例1の優先度を算出する。翻訳用例1の類似度αは80%、差分箇所Nは1、訳文の複数箇所に対応している差分箇所数Naは1であるので、(3)式にこれらを代入して、ケース3の翻訳用例1の優先度P31を求めるとP31=60%となる。
次に、翻訳用例2に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”usually”と”sometimes”とが対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。
次に、用例優先度付与手段34のステップS22の処理で差分箇所の分析が行われる。すなわち、差分箇所である”sometimes”が訳文の複数箇所に対応しているかどうかが判定される。”sometimes”は訳文の複数箇所に対応していないので、用例優先度付与手段34のステップS23の処理で、訳文の複数箇所に対応している差分箇所数「0」を記憶装置25の予め定めた記憶領域に記憶する。
そして、用例優先度付与手段34のステップS25の処理で、ケース3の翻訳用例2の優先度P32を算出する。翻訳用例1の類似度αは80%、差分箇所Nは1、訳文の複数箇所に対応している差分箇所数Naは0であるので、(3)式にこれらを代入して、ケース3の翻訳用例2の優先度P32を求めるとP32=80%となる。
このようにして、求められた優先度P31、P32は、記憶装置25の予め定めた記憶領域に記憶されるとともに、入力装置20からの指令により必要に応じて表示部28を介して表示装置18に表示される。これにより、翻訳用例1の優先度P32が翻訳用例2の優先度P31よりも高いことがユーザに提供される。
以上述べたように、表1のケース3の場合、従来の翻訳用例の選択では、類似度αが80%で同じであるため、翻訳用例検索で先に見つけた翻訳用例1を優先的に提示する(または使用する)が、実施例3では、差分箇所が訳文の複数箇所に対応しているかの観点で当該翻訳用例を使用して翻訳対象原文の訳文を合成する際の合成のし易さを考慮して優先度を調整するので、類似度αが同じであっても、差分箇所が訳文の複数箇所に対応している差分箇所数Naが小さい翻訳用例2を優先的に提示する(または使用する)ようになる。
すなわち、翻訳用例1を使用して翻訳対象原文の訳文を合成する場合、”seldom”が対応している部分を編集するだけでなく、”seldom”が持つ”否定”の意味合いに対応する”しません”の部分も編集しなければならないので、編集コストが増え、また、編集による周囲への影響が増えるため訳文合成失敗のリスクが高くなるが、翻訳用例2を使用した場合にはそのような欠点はない。
本発明の実施の形態の実施例3によれば、差分箇所が用例訳文中の分離されている複数箇所に対応している翻訳用例の優先度を調整して低くし、そうでない翻訳用例を優先的に使用するので、翻訳用例を用いて翻訳対象原文の訳文を合成する際の編集コストや合成失敗のリスクを低減できる。従って、完成度の高い訳文が得られる。
図7は本発明の実施の形態における用例優先度付与処理の実施例3の処理内容を示すフローチャートである。この実施例3は、前述の「(d)翻訳用例原文の翻訳用例訳文に対応訳語がない割合」を考慮に入れた用例優先度付与処理dである。翻訳部27による用例優先度付与処理dは以下のようにして行われる。
まず、図4に示した実施例1の場合と同様に、翻訳部27の翻訳手段35は、翻訳対象原文に対して構文解析を行い(S11)、翻訳手段35は、翻訳用例検索で見つけた翻訳用例について、翻訳用例原文に対して形態素解析、構文解析を行う(S12)。そして、差分対応付け手段33は、これらの情報を用いて、翻訳対象原文と翻訳用例原文との差分の対応付けを行い(S13)、用例優先度付与手段34は、翻訳対象原文と翻訳用例原文との差分箇所の数を記憶装置15の予め定めた記憶領域に記憶する(S14)。
次に、用例優先度付与手段34は、ステップS12の処理で得た情報を用いて翻訳用例原文の語句と翻訳用例訳文の語句との対応付けを行う(S26)。この対応付けによって、対応する訳文語句がない差分箇所が判明する。そこで、その対応する訳文語句がない差分箇所の数を記憶装置25の予め定められた記憶領域に記憶する(S27)。次に、ステップ14で記憶した差分箇所の数、ステップS27で記憶した翻訳用例原文の語句に対応する訳文語句がない差分箇所の数を用いて当該翻訳用例の優先度を算出する(S28)。そして、用例優先度付与手段34は、次の翻訳用例があるかどうかを判断し、翻訳用例がある場合にはステップS12に戻り(S25)、翻訳用例がなくなるまでステップS12〜ステップS28の処理を繰り返し行う。
用例優先度付与手段34によるステップS28の優先度の算出には、優先度をP、類似度をα[%]、差分箇所の数をN、翻訳用例原文の語句に対応する訳文語句がない差分箇所の数をNbとしたとき、以下の(4)式を使用する。
[数4]
P=α−(100−α)・(Nb/N)
実施例4においては、対応する訳文語句がない差分箇所の数Nbが多いほど、当該翻訳用例を使用した際の編集コストや訳文合成失敗リスクが大きくなることから、(100−α)の係数を(Nb/N)としている。この(100−α)の係数である(Nb/N)は固定値にしてもよいし、対応する訳文語句がない差分箇所が多い場合に類似度にどれぐらい影響を与えるかを統計的に検証して定める構成にしてもよい。
いま、表1のケース4の翻訳対象原文に対して、翻訳用例データベース29より表1のケース2の2つの翻訳用例が検索されたとする。
翻訳対象原文: 昨日彼に招待状を書きました。
翻訳用例1原文: 昨日彼に手紙を書きました。
翻訳用例1訳文: I wrote to him yesterday.
翻訳用例2原文: 昨日彼に手紙を書きました。
翻訳用例2訳文: I wrote a letter to him yesterday.
図7のステップS11では、翻訳手段35により、”昨日彼に招待状を書きました。”について構文解析を行い、翻訳用例検索手段32で既に検索で見つけた2つの翻訳用例について、それぞれにS12〜S28の処理が行われる。
まず、翻訳用例1に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”招待状”と”手紙”が対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。用例優先度付与手段34のステップS26の処理で、翻訳用例1原文の語句と翻訳用例1訳文の語句との対応付けが行われる。これにより、”手紙”に対応している訳文語句がないことが判明する。用例優先度付与手段34のステップS27の処理で、対応する訳文語句がない差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。
そして、用例優先度付与手段34のステップS28の処理で、ケース4の翻訳用例1の優先度を算出する。翻訳用例1の類似度αは83%、差分箇所Nは1、翻訳用例原文の語句に対応する訳文語句がない差分箇所の数Nbは1であるので、(4)式にこれらを代入して、ケース4の翻訳用例1の優先度P41を求めるとP41=66%となる。
次に、翻訳用例2に対する処理について説明する。差分対応付け手段33でのステップS13の処理で、”招待状”と”手紙”とが対応する差分語句として対応付けられる。用例優先度付与手段34のステップS14の処理で、差分箇所の数「1」が記憶装置25の予め定めた記憶領域に記憶される。用例優先度付与手段34のステップS26の処理で、翻訳用例1原文の語句と翻訳用例1訳文の語句との対応付けが行われ、”手紙”が対応している訳文語句が”letter”であることが判明するので、用例優先度付与手段34のステップS27の処理で、対応する訳文語句がない差分箇所の数「0」が記憶装置25の予め定めた記憶領域に記憶される。
そして、用例優先度付与手段34のステップS28の処理で、ケース4の翻訳用例2の優先度を算出する。翻訳用例2の類似度αは83%、差分箇所Nは1、翻訳用例原文の語句に対応する訳文語句がない差分箇所の数Nbは0であるので、(4)式にこれらを代入して、ケース4の翻訳用例1の優先度P42を求めるとP42=83%となる。
このようにして、求められた優先度P41、P42は、記憶装置25の予め定めた記憶領域に記憶されるとともに、入力装置20からの指令により必要に応じて表示部28を介して表示装置18に表示される。これにより、翻訳用例1の優先度P42が翻訳用例2の優先度P41よりも高いことがユーザに提供される。
以上述べたように、表1のケース4の場合、類似度αが同じであるため、翻訳用例検索で先に見つけた翻訳用例1を優先的に提示する(または使用する)が、実施例4では、翻訳用例中の差分箇所の翻訳用例原文の語句が翻訳用例訳文中の語句に対応しているかの観点で、当該翻訳用例を使用して翻訳対象原文の訳文を合成する際の合成のし易さを考慮して優先度を調整する。従って、類似度αが同じであっても、翻訳用例原文の語句に対応する訳文語句がない差分箇所の数Nbが小さい翻訳用例2を優先的に提示する(または使用する)ようになる。
ここで、用例優先度付与手段34のステップ26での語句の対応付け処理、すなわち、翻訳用例原文(第1言語文)、翻訳用例訳文(第2言語文)の中のどの要素(語句)とどの要素とが対応しているかの判定処理は、形態素解析、構文解析済みの翻訳用例原文(第1言語文)、翻訳用例訳文(第2言語文)とにおいて実施する。
図8は表1のケース4の翻訳用例原文と翻訳用例訳文の構文木の説明図である。表1のケース4の翻訳用例1原文及び翻訳用例2原文中の「TW」で示しているのは、第2言語の訳語候補として存在する訳語の候補のリストである。複数あるものは、コンマで区切って列挙している。
差分対応付け手段33での対応付け処理の流れの概要を以下に示す。
[1]以下の処理を第1言語の解析結果の各構成要素ごとに行う。
[1a]第1言語文の見出し語(形態素解析後の各要素)を、第2言語文の解析結果の中で「TW」属性を含む要素を探し、見出し語に対応する訳語を対応候補として抽出する。複数存在すれば複数候補のペアを抽出する。
[1b]第1言語の要素の訳語候補の一つが第2言語文の解析結果中の構成要素と一致するかどうかをチェックし、一致するものがあれば対応候補として抽出する。複数存在すれば複数候補のペアを抽出する。
[2]上記[1]の結果、対応関係に重複がなく、ユニークに対応が決まるものは、対応語句として確定する。また、片方の構造中の1つの要素が他方の構造では2つ以上の連続要素に一致する場合など、要素数が一致しないケースでも対応語句として抽出する。
[3]上記[1]の結果、対応関係にあいまい性がある場合、例えば、同じ語が2回用いられているような場合は、他の対応語句候補と解析結果中での直接的修飾関係や、修飾関係の交差の有無や、部分構造中での他の対応語句候補との共存関係を基に、より可能性の高い対応関係を選択し、あいまい性を解消する。
[4]上記[3]までに対応語句候補が抽出されると、これらの対応語句候補の第1言語文の解析結果構造と第2言語文の解析結果構造との中で、構造的に連続している部分の検出を行う。
差分対応付け手段33によるこの語句の対応付け処理によって表2の対応関係が得られる。
Figure 2010140381
差分対応付け手段33によりこの対応付けを行った後の内部データの一覧を表3に示す。
Figure 2010140381
表3に示すように、翻訳用例1原文と翻訳用例1訳文とは、個々の構成要素、品詞情報、及びそれぞれ他方のデータ構造のどの語句に対応するかを示すID番号を示している。同様に、翻訳用例2原文と翻訳用例2訳文とは、個々の構成要素、品詞情報、及びそれぞれ他方のデータ構造のどの語句に対応するかを示すID番号とを有している。「−1」が入っている要素は、対応する語句がないことを示す。
この表3の対応関係から、翻訳対象原文との差分である翻訳用例1原文中の「手紙」が、対応している翻訳用例1訳文の語句がないことが分かる。一方、翻訳対象原文との差分である翻訳用例2原文中の「手紙」が、翻訳用例2訳文の語句「letter」に対応していることが分かる。
本発明の実施の形態の実施例4によれば、翻訳用例原文の語句に対応する訳文語句がない差分箇所の数が小さい翻訳用例の優先度を高くするので、翻訳用例を用いて翻訳対象原文の訳文を合成する際に、編集コストや合成失敗のリスクが低くすることができ完成度の高い訳文が得られる。
本発明の実施の形態に係わる機械翻訳装置11の機能ブロック図。 本発明の実施の形態に係る機械翻訳装置のハードウエア構成を示すブロック構成図。 本発明の実施の形態に係わる機械翻訳装置の処理内容を示すフローチャート。 本発明の実施の形態における用例優先度付与処理の実施例1の処理内容を示すフローチャート。 本発明の実施の形態における用例優先度付与処理の実施例2の処理内容を示すフローチャート。 本発明の実施の形態における用例優先度付与処理の実施例3の処理内容を示すフローチャート。 本発明の実施の形態における用例優先度付与処理の実施例3の処理内容を示すフローチャート。 表1のケース4の翻訳用例原文と翻訳用例訳文の構文木の説明図。
符号の説明
11…機械翻訳装置、12…演算制御装置、13…プロセッサ、14…メモリ、15…プログラム、16…作業エリア、17…出力装置、18…表示装置、19…通信制御装置、20…入力装置、21…マウス、22…キーボード、23…ディスクドライブ、24…ハードディスクドライブ、25…記憶装置、26…入力部、27…翻訳部、28…表示部、29…翻訳用例データベース、30…機械翻訳辞書、31…機械翻訳規則、32…翻訳用例検索手段、33…差分対応付け手段、34…用例優先度付与手段、35…翻訳手段

Claims (8)

  1. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置において、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記翻訳用例データベースから検索する翻訳用例検索手段と、
    前記翻訳用例検索手段で翻訳用例検索で見つけた翻訳用例の原文に対して形態素解析及び構文解析を行い翻訳対象原文及び翻訳用例原文の構文構造を求める翻訳手段と、
    前記翻訳用例検索手段で複数の翻訳用例が検索された場合には前記翻訳手段で求めた構文構造に基づいて各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける差分対応付け手段と、
    前記差分対応付け手段で対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分について前記構文構造に基づいて構文上の役割を判定し前記構文上の役割が同じである割合が高いほど高い優先度を前記翻訳用例に付与する用例優先度付与手段とを備えたことを特徴とする機械翻訳装置。
  2. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置において、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記翻訳用例データベースから検索する翻訳用例検索手段と、
    前記翻訳用例検索手段で複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける差分対応付け手段と、
    前記差分対応付け手段で対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分の数が少ないほど高い優先度を前記翻訳用例に付与する用例優先度付与手段とを備えたことを特徴とする機械翻訳装置。
  3. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置において、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記翻訳用例データベースから検索する翻訳用例検索手段と、
    前記翻訳用例検索手段で複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける差分対応付け手段と、
    前記差分対応付け手段で対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分が前記翻訳用例の訳文中の複数箇所の分離された語句に対応しているか否かを判定し複数箇所の分離された語句に対応している割合が高いほど低い優先度を前記翻訳用例に付与する用例優先度付与手段とを備えたことを特徴とする機械翻訳装置。
  4. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置において、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記翻訳用例データベースから検索する翻訳用例検索手段と、
    前記翻訳用例検索手段で複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける差分対応付け手段と、
    前記差分対応付け手段で対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分が前記翻訳用例の訳文中のどの語句に対応しているか判定し対応する語句がない割合が高いほど低い優先度を前記翻訳用例に付与する用例優先度付与手段とを備えたことを特徴とする機械翻訳装置。
  5. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、
    コンピュータに、前記入力装置により入力された第1言語の翻訳対象原文をデータとして入力処理する手順と、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記記憶装置の前記翻訳用例データベースから検索する手順と、
    前記翻訳用例データベースから翻訳用例が検索された翻訳用例の原文に対して形態素解析及び構文解析を行い翻訳対象原文及び翻訳用例原文の構文構造を求める手順と、
    前記翻訳用例データベースから複数の翻訳用例が検索された場合には前記構文構造に基づいて各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける手順と、
    対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分について前記構文構造に基づいて構文上の役割を判定し前記構文上の役割が同じである割合が高いほど高い優先度を前記翻訳用例に付与する手順とを実行させるための機械翻訳プログラム。
  6. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、
    コンピュータに、前記入力装置により入力された第1言語の翻訳対象原文をデータとして入力処理する手順と、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記記憶装置の前記翻訳用例データベースから検索する手順と、
    前記翻訳用例データベースから複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける手順と、
    対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分の数が少ないほど高い優先度を前記翻訳用例に付与する手順とを実行させるための機械翻訳プログラム。
  7. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、
    コンピュータに、前記入力装置により入力された第1言語の翻訳対象原文をデータとして入力処理する手順と、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記記憶装置の前記翻訳用例データベースから検索する手順と、
    前記翻訳用例データベースから複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける手順と、
    対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分が前記翻訳用例の訳文中の複数箇所の分離された語句に対応しているか否かを判定し複数箇所の分離された語句に対応している割合が高いほど低い優先度を前記翻訳用例に付与する手順とを実行させるための機械翻訳プログラム。
  8. 機械翻訳プログラム、機械翻訳規則、機械翻訳辞書、翻訳用例データベースを記憶した記憶装置と、第1言語の翻訳対象原文をデータとして入力する入力装置と、前記機械翻訳プログラムを演算実行し、前記機械翻訳規則、前記機械翻訳辞書、前記翻訳用例データベースを用いて、前記入力装置で入力された第1言語の翻訳対象原文を第2言語の訳文に翻訳する演算制御装置と、前記演算制御装置の処理内容を表示する表示装置とを備えた機械翻訳装置に用いられる機械翻訳プログラムにおいて、
    コンピュータに、前記入力装置により入力された第1言語の翻訳対象原文をデータとして入力処理する手順と、
    前記翻訳対象原文に含まれる単語または文字と同一の単語または同一の文字が含まれる割合が予め定めた割合以上の翻訳用例を前記記憶装置の前記翻訳用例データベースから検索する手順と、
    前記翻訳用例データベースから複数の翻訳用例が検索された場合には各々の翻訳用例の原文と前記翻訳対象原文との差異部分を対応付ける手順と、
    対応付けられた各々の前記翻訳用例の原文と前記翻訳対象原文との差異部分が前記翻訳用例の訳文中のどの語句に対応しているか判定し対応する語句がない割合が高いほど低い優先度を前記翻訳用例に付与する手順とを実行させるための機械翻訳プログラム。
JP2008317892A 2008-12-15 2008-12-15 機械翻訳装置及び機械翻訳プログラム Active JP5032453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008317892A JP5032453B2 (ja) 2008-12-15 2008-12-15 機械翻訳装置及び機械翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008317892A JP5032453B2 (ja) 2008-12-15 2008-12-15 機械翻訳装置及び機械翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2010140381A true JP2010140381A (ja) 2010-06-24
JP5032453B2 JP5032453B2 (ja) 2012-09-26

Family

ID=42350455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008317892A Active JP5032453B2 (ja) 2008-12-15 2008-12-15 機械翻訳装置及び機械翻訳プログラム

Country Status (1)

Country Link
JP (1) JP5032453B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254881A (ja) * 1997-03-11 1998-09-25 Sharp Corp 機械翻訳装置
JP2004355204A (ja) * 2003-05-28 2004-12-16 Oki Electric Ind Co Ltd 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2005202924A (ja) * 2003-12-15 2005-07-28 Gengo Gijutsu Kenkyusho:Kk 対訳判断装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254881A (ja) * 1997-03-11 1998-09-25 Sharp Corp 機械翻訳装置
JP2004355204A (ja) * 2003-05-28 2004-12-16 Oki Electric Ind Co Ltd 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2005202924A (ja) * 2003-12-15 2005-07-28 Gengo Gijutsu Kenkyusho:Kk 対訳判断装置、方法及びプログラム

Also Published As

Publication number Publication date
JP5032453B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
US20080133444A1 (en) Web-based collocation error proofing
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US20140039879A1 (en) Generic system for linguistic analysis and transformation
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4875040B2 (ja) 機械翻訳システム及び機械翻訳プログラム
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP2838984B2 (ja) 汎用参照装置
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JP4054353B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JPH0561902A (ja) 機械翻訳システム
JP3244286B2 (ja) 翻訳処理装置
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
JPH10149364A (ja) 訳語選択装置と記憶媒体
JPWO2008123081A1 (ja) 文字データ処理方法、コンピュータプログラム及び文字データ処理システム
JP3884001B2 (ja) 言語解析システムおよび方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110920

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120628

R150 Certificate of patent or registration of utility model

Ref document number: 5032453

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350