JP2004318424A - 翻訳後編集装置、翻訳後編集方法、及びそのプログラム - Google Patents

翻訳後編集装置、翻訳後編集方法、及びそのプログラム Download PDF

Info

Publication number
JP2004318424A
JP2004318424A JP2003110611A JP2003110611A JP2004318424A JP 2004318424 A JP2004318424 A JP 2004318424A JP 2003110611 A JP2003110611 A JP 2003110611A JP 2003110611 A JP2003110611 A JP 2003110611A JP 2004318424 A JP2004318424 A JP 2004318424A
Authority
JP
Japan
Prior art keywords
translation
document
post
editing
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003110611A
Other languages
English (en)
Inventor
Terumasa Ebara
暉将 江原
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003110611A priority Critical patent/JP2004318424A/ja
Publication of JP2004318424A publication Critical patent/JP2004318424A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】効率的で高精度な後編集を行い、翻訳精度を向上させることを目的とする。
【解決手段】第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集を行う翻訳後編集装置において、予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習手段と、前記書換規則学習手段により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳手段とを有することにより、上記課題を解決する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、翻訳後編集装置、翻訳後編集方法、及びそのプログラムに係り、特に、複数の言語間における翻訳の精度を向上させるための翻訳後編集装置、翻訳後編集方法、及びそのプログラムに関する。
【0002】
【従来の技術】
従来、ある言語からなる文書から他の言語へ機械的に翻訳する機械翻訳手法において、精度が不十分な場合に後編集を実施することで翻訳精度を向上させている。この後編集の作業は、人手による場合と機械的に後編集を行う場合とがある。
【0003】
ここで、機械的に自動後編集を行うためには事前にある条件に基づく編集規則情報が必要となるが、従来は、この規則情報も人手によりデータベース等に入力して作成していた。そのため、多数の言語に対応させて後編集規則を作成する場合には規則情報の質、量ともに不足する場合が多く、また、人件費等による膨大なコストが発生する等の理由により十分な自動後編集ができないという問題があった。
【0004】
そこで、最近では、電子データ化された文書を使用して自動的に後編集を支援する翻訳後編集手法が提案されている。例えば、自動後編集を行った後、後編集を適用した訳文と適用していない訳文とを区別して表示させることで、後編集を支援する技術がある(例えば、特許文献1参照。)。
【0005】
また、翻訳先言語のデータベースを用いて、機械翻訳結果を自動後編集する文書編集装置に関する技術がある(例えば、特許文献2参照。)。
【0006】
【特許文献1】
特開平7−28818号公報
【0007】
【特許文献2】
特開2000−57144号公報
【0008】
【発明が解決しようとする課題】
しかしながら、特許文献1に示すような方法では、オペレータ等の作業者による後編集を支援するものであり、機械翻訳後には人手による後編集作業が必要となるため、効率的な翻訳の作成を行うことはできない。
【0009】
また、人手による作業となるため、書き手の発想や文書の構成が類似してしまう場合があり、均質化された高精度な翻訳を作成することが困難となる。
【0010】
更に、特許文献2に記載された発明については、構文の変更を主としたものであり、単語や文字列等の詳細な部分の翻訳には対応していない。
【0011】
本発明は、上述した問題点に鑑みなされたものであり、複数の言語からなる文書を利用することで後編集を効率的で高精度に行い、翻訳の精度を向上させることができる翻訳後編集装置、翻訳後編集方法、及びそのプログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【0013】
請求項1に記載された発明は、第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集を行う翻訳後編集装置において、予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習手段と、前記書換規則学習手段により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳手段とを有することを特徴とする。
【0014】
請求項1記載の発明によれば、予め設定された文書内容に基づく複数言語の基本文書から書き換え規則を作成することにより、訳文の後編集を効率的で高精度に行うことができる。これにより、高精度な編集翻訳文書を作成することができる。
【0015】
請求項2に記載された発明は、前記書換規則学習手段は、前記第1の言語文書及び前記他の言語文書を入力する文書入力手段と、前記文書入力手段により入力された文書を予め設定された1以上の言語へ機械翻訳を行う基本文書機械翻訳手段と、前記基本文書機械翻訳手段により翻訳された文書間における相違部分に基づいて書き換え規則情報を作成する書換規則作成手段とを有することを特徴とする。
【0016】
請求項2記載の発明によれば、入力された文書を予め設定した単一の言語に機械翻訳した複数の文書を用いて、言語間の相違部分を比較して後編集用の書き換え規則を作成することにより、高精度な後編集を行うことができる。また、機械翻訳の精度に対応した書き換え規則を作成することができる。
【0017】
請求項3に記載された発明は、前記翻訳手段は、前記原文を入力する原文入力手段と、前記原文入力手段により入力された原文を機械翻訳する原文機械翻訳手段と、前記書換規則作成手段により得られる書き換え規則情報に基づき、前記原文機械翻訳手段により機械翻訳された訳文を編集する後編集手段とを有することを特徴とする。
【0018】
請求項3記載の発明によれば、書き換え規則に基づいて、効率的で高精度な後編集を行うことができる。
【0019】
請求項4に記載された発明は、前記基本文書機械翻訳手段は、前記文書入力手段により入力された複数の言語文書の夫々を、前記複数の言語に対応させて機械翻訳することを特徴とする。
【0020】
請求項4記載の発明によれば、入力した複数の言語毎に対応する書き換え規則を作成することができる。
【0021】
請求項5に記載された発明は、前記基本文書機械翻訳手段は、予め設定された言語へ機械翻訳した文書を、元の言語に再翻訳することを特徴とする。
【0022】
請求項5記載の発明によれば、入力したある言語の文書と、その言語に機械翻訳した他の言語の文書と、機械翻訳された他の言語文書を元の言語の文書に再翻訳された文書とを用いることにより、より高精度な書き換え規則を作成することができる。また、機械翻訳の精度に対応させた書き換え規則を作成することができる。
【0023】
請求項6に記載された発明は、前記書換規則作成手段は、前記基本文書機械翻訳手段により翻訳された文書間における単語、文字列、又は、その前後の単語、文字列に基づいて書き換え規則情報を作成することを特徴とする。
【0024】
請求項6記載の発明によれば、単語、又は文字列単位で書き換え規則を作成することで、より高精度な訳文の後編集を行うことができる。
【0025】
請求項7に記載された発明は、前記後編集手段は、前記書き換え規則情報により前記訳文に含まれる単語又は文字列毎に書き換えを行うことを特徴とする。
【0026】
請求項7記載の発明によれば、単語、又は文字列単位で作成された書き換え規則を用いることで、より高精度な訳文の後編集を行うことができ、効率的で高精度な翻訳文書を作成することができる。
【0027】
請求項8に記載された発明は、第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集を行う翻訳後編集方法において、予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習段階と、前記書換規則学習段階により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳段階とを有することを特徴とする。
【0028】
請求項8記載の発明によれば、予め設定された文書内容に基づく複数言語の基本文書から書き換え規則を作成することにより、訳文の後編集を効率的で高精度に行うことができる。これにより、高精度な編集翻訳文書を作成することができる。
【0029】
請求項9に記載された発明は、第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集をコンピュータに実行させるためのプログラムにおいて、予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習処理と、前記書換規則学習処理により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳処理とをコンピュータに実行させる。
【0030】
請求項9記載の発明によれば、予め設定された文書内容に基づく複数言語の基本文書から書き換え規則を作成することにより、訳文の後編集を効率的で高精度に行うことができる。これにより、高精度な編集翻訳文書を作成することができる。
【0031】
【発明の実施の形態】
本発明は、同一又は類似した内容を持つ複数の言語で書かれた文書を利用して、機械翻訳結果の欠陥を自動的に抽出すると共に、その欠陥をどのように書き換えればよいかを判断し、文書中に含まれる単語、又は文字列に対応させて書き換えを行うことで機械翻訳の精度を向上させるものである。
【0032】
更に詳細に説明すれば、基本となる複数の言語で書かれた文書を単一の言語に統一して翻訳を行い、その文書間の相違部分を抽出し、抽出した相違部分に翻訳の欠陥があるため、その抽出部分を用いて書き換え規則を作成し、書き換え規則に基づく機械翻訳後の訳文に対する後編集を行うことで高精度な翻訳文書を作成する。
【0033】
次に、本発明における実施の形態について図を用いて説明する。ここで、入力する文書は、日本語文書を基準(第1言語文書)として他言語文書、例えば、韓国語を原文として入力し、日本語に機械翻訳された訳文を後編集して翻訳文書を作成する手順について説明する。なお、本発明においての翻訳言語の種類はこの限りではない。
【0034】
図1は、本発明における翻訳後編集装置の概略構成図を示す図である。図1の翻訳後編集装置1は、文書翻訳手段11と、書換規則作成手段12と、原文翻訳手段13と、後編集手段14とを有するよう構成されている。
【0035】
なお、IN1は、第1言語文書13及び他言語文書16の書き換え規則を作成するための基本となる文書が入力される入力端子である。また、IN2は、第1言語に翻訳するための他言語文書16の原文が入力される入力端子である。更に、OUT1は、IN2から入力される原文を機械翻訳して、更に本発明における後編集手段14にて訳文の後編集がなされた編集翻訳文書が出力される出力端子である。
【0036】
ここで、第1言語文書15及び他言語文書16は同一又は類似の内容が異なる言語で作成された文書が電子データ化されたものである。また、入力端子IN1に入力される他言語文書16は、翻訳者や構成者等の人でにより作成、編集等されたものであってもよい。
【0037】
まず、第1言語文書15及び他言語文書16から文書翻訳手段11及び書換規則作成手段12により、書換規則データベース17を作成する。ここまでの処理を書き換え規則の学習フェーズとする。
【0038】
学習フェーズにおいて、まず文書翻訳手段11は、入力端子1より入力される他言語文書16を予め設定された言語(例えば、第1言語文書)に翻訳する。ここで、他言語文書から第1言語文書への翻訳は、従来ある対訳コーパス等を用いた機械翻訳により作成される。
【0039】
次に、書換規則作成手段12は、第1言語に機械翻訳された他言語文書と、第1言語文書とから文書間の相違する部分を抽出し、抽出した相違部分情報により単語、文字列、又はその前後の単語、文字列等から書き換え規則を作成し、書換規則データベース17に出力する。ここで、相違部分の抽出方法は、形態素解析等により文章を単語、助詞等の文字区切り毎に分割し、分割された単語又は文字列が相違するものを抽出する。
【0040】
なお、相違部分の比較を行う場合には、全文書中を対象に比較を行う方法や、文書毎に含まれる所定の文章、節、段落数等の比較範囲を設定して比較を行う方法等があるが、本発明においては、共通している単語が抽出できるよう構成されていれば、いかなる手段を用いてもよい。
【0041】
ここで、文書翻訳手段11については、予め設定される翻訳条件に基づき、他言語文書を第1言語文書に翻訳する場合の他に、第1言語を他言語側に翻訳したり、第1言語をいったん他言語に翻訳し、その機械翻訳した文書を再度第1言語文書に機械翻訳して、その機械翻訳された文書も含めて、書換規則作成手段12により相違部分を抽出して書き換え規則を作成することもできる。これにより、機械翻訳における翻訳の特徴を把握できるため、文書翻訳手段11にて用いられる機械翻訳の翻訳精度に対応させた書き換え規則を学習することができる。
【0042】
つまり、多くの文書に基づいて書換規則を作成することで、利用性を向上させた書換規則データベースを作成することができ、この書換規則情報を用いて高精度な後編集を実現することができる。
【0043】
更に、複数の他言語文書を入力し、入力された文書で相互の言語に機械翻訳を行い、機械翻訳結果と入力された言語文書とから相違部分を抽出して書き換え規則を作成することにより、書き換え規則を用いた後編集を入力端子IN1から入力した基本文書全てに対応させることができる。
【0044】
次に、上述の学習フェーズにて作成された書換規則データベース17を用いて、原文翻訳手段13と後編集手段14とにより入力端子IN2から入力される原文を機械翻訳し後編集を行って、その結果を出力端子OUT1から出力する。ここで、原文翻訳手段13及び後編集手段14における処理を翻訳フェーズとする。
【0045】
翻訳フェーズにおいて、まず原文翻訳手段13は、入力端子IN2から入力される原文を予め設定された言語に機械翻訳して訳文を作成する。なお、入力端子IN2に入力される原文は、上述の学習フェーズにおいて、入力端子IN1から入力される文書の言語と同一のものとなる。
【0046】
ここで、原文から訳文への翻訳は従来の対訳コーパス等を用いた機械翻訳により作成されたものである。また、原文翻訳手段13と文書翻訳手段11との翻訳手段は同一の機械翻訳の精度を有するものであることが望ましい。すなわち、学習フェーズで作成された書換規則データベース17は、文書翻訳手段11の翻訳精度に対応させたものであり、この翻訳精度と同等の機械翻訳を行う翻訳手段を用いる方が訳文の後編集をより高精度に行うことができるからである。
【0047】
次に、後編集手段14は、原文翻訳手段13により機械翻訳された訳文を、上述の学習フェーズで作成された書換規則データベース17を用いて、データベースに存在する単語、文字列毎の書換変換の規則を対比させ、該当する単語、文字列の書き換えを行う。これにより、機械翻訳において不十分な訳文であっても書換規則データベースを用いて書き換えを行うことで、高精度な翻訳文書を作成することができる。
【0048】
なお、上述の書き換え規則の作成において、複数の他言語文書を入力しその全てにおける相互の書き換え規則情報を有している場合は、その規則に基づいて、原文翻訳手段13にて予め設定された言語に翻訳された訳文から後編集にて書き換えを行うことができる。
【0049】
また、原文翻訳手段13においては、翻訳される訳文の言語の指定が必要になるが、学習フェーズにて作成された書換規則データベース17に蓄積される内容に応じて予め設定される。
【0050】
上述の翻訳フェーズを用いることにより、原文に対して効率的に高精度な自動翻訳を実現することができる。なお、学習フェーズと翻訳フェーズは同期して実行してもよく、また、夫々のフェーズが単独で実行されてもよい。
【0051】
また、入力端子IN1から入力される書き換え規則を作成する基本文書と、入力端子IN2から入力される原文とは、同一分野の文書であることが望ましい。例えば、原文が論文に関するものであれば、書き換え規則を作成する際に入力端子IN1から入力される文書も論文の文書にすることで、論文特有の文章表現にも容易に対応することができる。
【0052】
更に、原文がニュース記事等であれば、書き換え規則もニュース記事文書から作成された方がよい。特に、ニュース記事文書は、ニュースの内容は同一でありながら、異なる国でそのニュースが提供される場合にはニュースの記事内容と提供される国との関連性に基づいて編集され、詳細情報や背景情報が含まれていたり文章が削除されていたりする。そのため、効率的に原文から翻訳文書を作成するには、ニュース記事特有の文章表現や、文書構成に対応する必要があるため学習フェーズと翻訳フェーズで入力される文書データについては、関連性のある分野の文書であるほうが、より高精度な翻訳を実現することができる。
【0053】
上述したように、翻訳後編集装置1により、原文に対して効率的に高精度な後編集を行い、編集翻訳文書を作成することができる。
【0054】
ここで、上述の翻訳後編集装置1に示すような専用の装置構成により本発明における複数の言語を用いた翻訳後編集を行うこともできるが、上述の学習フェーズ及び翻訳フェーズにおける各ステップをコンピュータに実行させることができる実行プログラムを作成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にインストールすることにより本発明における自動翻訳後編集が実現可能となる。
【0055】
ここで、本発明における学習フェーズ及び翻訳フェーズにおける各処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図2は、学習フェーズ、翻訳フェーズにおける各処理が実行プログラムにより実現可能なハードウェア構成の一例を示す図である。
【0056】
図2におけるコンピュータ本体には、入力装置21と、出力装置22と、ドライブ装置23と、補助記憶装置24と、メモリ装置25と、各種制御を行うCPU(Central Processing Unit)26と、ネットワーク接続装置27とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
【0057】
入力装置21は、使用者が操作するキーボード及びマウス等のポインティングデバイスを有しており、使用者からのプログラムの実行等、各種操作信号を入力する。出力装置22は、本発明における翻訳後編集を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するモニタを有し、CPU26に有する制御プログラムに基づいてプログラム実行結果等を表示することができる。
【0058】
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体28等により提供される。プログラムを記録した記録媒体28はドライブ装置23にセット可能であり、記録媒体28に含まれる実行プログラムが、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。
【0059】
補助記憶装置24は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラムの他に、ドライブ装置23から読み取ることができる第1言語文書及び他言語文書、原文、訳文又は学習フェーズにて作成された書換規則データベースを蓄積し、必要に応じて入出力を行うことができる。また、翻訳フェーズにて得られる編集翻訳文書を格納することもできる。
【0060】
CPU26は、OS(Operating System)等の制御プログラム、メモリ装置25により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御する。
【0061】
また、CPU26は、本発明における実行プログラム及び制御プログラムにより、文書翻訳手段11、書換規則作成手段12と、原文翻訳手段13と、後編集手段14における各処理を実現することができる。プログラムの実行中に必要な各種情報は、補助記憶装置24から取得することができ、また格納することもできる。この場合、入力端子及び出力端子は補助記憶装置24であると言い換えることができる。
【0062】
ネットワーク接続装置27は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、本発明における翻訳後編集手順を規定したプログラムを実行することで得られた情報若しくは翻訳後編集を実行するための実行プログラム自体を他の端末等に提供することができる。
【0063】
また、本発明における翻訳後編集を実行するためのプログラムはCD−ROM等の持ち運び可能な記録媒体28に格納することにより任意の端末で実行することができる。上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで高精度な翻訳後編集を実施することができる。
【0064】
次に、上述のハードウェア構成により翻訳後編集を行う手順についてフローチャートを用いて説明する。ここでは、一例として第1言語文書として日本語を入力し、他言語文書として韓国語を入力し、韓国語から日本語への自動翻訳を行う場合について説明する。また、翻訳後編集手順においては、学習フェーズと翻訳フェーズとの処理に分けて説明する。
【0065】
図3は、本発明における学習フェーズの処理手順の一例を示すフローチャートである。まず、CPU26は、入力装置21から学習フェーズプログラムの実行指示が入力されると、補助記憶装置24に予め記憶されている学習フェーズプログラムをメモリ装置25上で起動し、起動した実行プログラムが補助記憶装置24、ドライブ装置23にセットされた記憶媒体28、又は通信ネットワーク接続装置27の通信ネットワーク上に存在する他の端末から得られる日本語文書及び韓国語文書をメモリ装置25に入力する(S01)。
【0066】
次に、CPU26は、メモリ装置25上にある入力した韓国語文書を日本語に機械翻訳する(S02)。その後、日本語に機械翻訳された韓国語文書と、日本語文書との比較を行い相違部分の抽出を行う(S03)。
【0067】
次に、S03にて抽出された相違部分に基づいて書き換え規則を作成する(S04)。なお、作成された書き換え規則は、補助記憶装置24に出力し蓄積される。また、出力装置22のモニタにより処理状態及び処理結果を表示させる。
【0068】
学習フェーズプログラムをコンピュータに実行させることにより、上述のS01〜S04の処理を実行して高精度な書き換え規則を作成することができる。
【0069】
ここで、上述した学習フェーズの具体的な実施例を簡単な文書を用いて説明する。図4は、本発明における学習フェーズの実施例を示す図である。
【0070】
図4において、「北朝鮮への融和的な制作を後退させないよう牽制しました。」という日本語文書(図4(a))と、同一の内容が韓国語で作成された文書(図4(b))を、書き換え規則を作成するための基本文書として入力する。
【0071】
学習フェーズでは、まず図4(b)に示す韓国語文書が機械翻訳により翻訳され、図4(c)に示すような日本語文書が作成される。次に、図4(a)の日本語文書と、図4(c)の日本語文書とを比較して相違部分の抽出を行う。ここでは、抽出の結果により得られる相違部分について図4(a)に示す日本語の文字列、文節、句となるように書き換えを行うための書き換え規則を作成して、書換規則データベースとして出力する。ここで、図4(d)に相違部分から作成される書き換え規則の例を示す。図4(d)に示すような書き換え規則を利用して翻訳フェーズにおいて、高精度な翻訳後編集行うことができ、高精度な編集翻訳文書を作成することができる。
【0072】
なお、機械翻訳においては、書き換え規則の作成条件により、日本語から韓国語、韓国語から日本語への相互間での翻訳後編集を可能にするための書き換え規則を作成することができる。例えば、上述の内容とは逆に、韓国語文書に翻訳するための書き換え規則を作成する場合は、入力した日本語文書を機械翻訳により韓国語に翻訳した後、入力された韓国語文書と翻訳された韓国語文書間での相違部分の抽出して、抽出情報に基づいて書き換え規則を作成する。
【0073】
ここで、機械翻訳における翻訳精度は、対訳コーパス等により異なる場合が多い。そこで、機械翻訳の精度に対応した書き換え規則を作成するために、日本語文書を一度韓国語文書に翻訳した後、再度日本語文書に機械翻訳を行い、その日本語文書と、元の日本語文書と、韓国語から翻訳した日本語文書とに基づいて相違部分の抽出を行うことで、機械翻訳精度に対応させて書き換え規則の抜けをなくし、更に、機械翻訳の精度に対応させた高精度な書き換え規則を作成することができる。
【0074】
ここで、上述の内容について図を用いて作成する。図5は、基本文書における機械翻訳の手順の一例を示す図である。なお、図5(a)は、日本語の翻訳後編集を行うための書き換え規則で使用される場合の翻訳例であり、図5(b)は、韓国語の翻訳後編集を行うための書き換え規則で使用される場合の翻訳例である。
【0075】
図5において、「J」を元の日本語文書、「K」を元の韓国語文書とし、「JK」を元の日本語文書を日韓機械翻訳(JKMT)した韓国語文書、「KJ」を元の韓国語文書を韓日機械翻訳(KJMT)した日本語文書とし、「JKJ」は文書「JK」を更に韓日機械翻訳(JKMT)した日本語文書を示すものである。
【0076】
図5(a)に示す文書「J」について、JKMTにより文書「JK」に翻訳し、更にKJMTにより文書「JKJ」を作成する。ここで、文書「J」と文書「JKJ」で比較を行うと、一致しない部分が存在する。この場合JKMT又はKJMTに誤りがあることになる。ここで、図5(b)に示すように文書「K」からKJMTにより翻訳された文書「KJ」を用いて、文書「J」と文書「KJ」とを比較することで、使用した機械翻訳の翻訳精度に対応した相違部分を抽出し書き換え規則を作成する。
【0077】
なお、書き換え規則の作成については、相違部分について文書「J」における単語又は文字列に書き換えた方が、日本語的な構成及び表現が既にできているため、書き換えにより効率的で高精度に後編集を行い、編集翻訳文書を作成することができる。また、他の書き換え条件としては、例えば、上述した再翻訳文書も含めた3つの文書のうち2つが一致する場合は、2つの文書が一致している単語、又は文字列に書き換える等の設定を行うこともできる。
【0078】
図6は、図5に対応させた翻訳手順の一例を示す図である。図6(a)に示すように文書「J」から文書「JKJ」を作成し、図6(b)に示すように文書「K」から文書「KJ」を作成してこの3つの文書間における相違部分(図6(a),(b)下線部分)を比較することにより書き換え規則を作成する。
【0079】
ここで、作成される書き換え規則の一例を図を用いて説明する。図7は、本発明における学習フェーズで作成される書換規則データベースの第1の例を示す図である。
【0080】
図7において文書「J」、文書「JKJ」、文書「KJ」の夫々の相違部分と、その相違部分における書き換え規則の修正事項を示している。例えば、「後退させ」という文字列に対しては、文書「J」及び文書「KJ」が一致しているため、「後退させ」と書き換えるよう規則情報を作成し、「融和的」の文字列の場合は、文書「J」を優先させるという条件に基づき、文書「J」の「融和的」を適用して書き換え規則を作成する。このように、複数の文書を用いることで、機械翻訳の精度に対応させて設定条件による高精度な書き換え規則を作成することができ、この書換規則データベースを用いることで後編集を効率的で高精度に行い編集翻訳文書の精度を向上させることができる。
【0081】
なお、図7における書き換えデータベースの作成において、文書「J」、文書「JKJ」、及び文書「KJ」が作成されていて、書き換え規則が異なる場合は「書換規則」が新たな規則に変更される。
【0082】
次に、本発明におけるコンピュータによる翻訳フェーズについて説明する。図8は、本発明における翻訳フェーズの処理手順の一例を示すフローチャートである。
【0083】
図8において、まず、CPU26は、操作者により入力装置21から入力される翻訳の実行指示により、翻訳実行プログラムがメモリ装置25にて起動され、補助記憶装置24、ドライブ装置23にセットされた記憶媒体28、又は通信ネットワーク接続装置27の通信ネットワーク上に存在する他の端末から得られる原文の韓国語文書がメモリ装置25に入力されると(S11)、原文を日本語へ機械翻訳される(S12)。次に、CPU26は、S12にて機械翻訳された日本語文書に対して、上述の学習フェーズにて作成され補助記憶装置24に記憶されている書換規則データベースをメモリ装置25にて一次記憶し、その書換規則データベースを用いて翻訳後編集を実施する(S13)。S13の実施により得られる編集翻訳文書は、補助記憶装置24に出力され蓄積される。また、出力装置22のモニタに実行状態及び実行後の編集翻訳文書を表示する(S14)。
【0084】
なお、書き換え規則の対応については、日本語に機械翻訳された文書を形態素解析等により単語、文字列、句等に分割させ、その夫々の単語、文字列について、図7に示す書換規則データベースの単語等に対応させて書き換えることにより翻訳後編集を行うことで、高精度な翻訳を実現することができる。
【0085】
翻訳フェーズプログラムをコンピュータに実行させることにより、上述のS11〜S14の処理を実行し効率的で高精度な編集翻訳文書を作成することができる。
【0086】
ここで、上述した翻訳フェーズの具体的な実施例を簡単な文書を用いて説明する。図9は、本発明における翻訳フェーズの実施例を示す図である。
【0087】
図9(a)に示す韓国語が入力端子IN2から入力され、機械翻訳されると図9(b)に示すような日本語に機械翻訳される。ここで、図9(b)のままでも意味的には通じるが、その前後の文書において、「融化的」と「融和的」とが同一の韓国語でありながら混在して翻訳されたり、前後の文脈が不適切な文書になってしまうこともあるため、文書全体の翻訳精度の均質化を行うため、図7に示すような書き換え規則に従い、図9(c)に示す内容に書き換える後編集を行うことにより、効率的に高精度な編集翻訳文書を作成することができる。
【0088】
また、書き換え規則を作成する場合、韓国語と日本語との対応データベースを作成し、原文翻訳手段において対訳コーパスの一部として適用することもできる。この場合、後編集手段における処理は、省略されることになる。
【0089】
図10は、本発明における書換規則データベースの第2の例を示す図である。ここで、図10は上述した対応データベースを示すものであり、日本語文書と、韓国語文書との直接の対応関係がデータベースに蓄積されている。
【0090】
例えば、日本語から韓国語に翻訳する場合に、「後退させ」という文字列に対して日韓機械翻訳(JKMT)により翻訳される文字を基本文書から作成された書換規則情報により、図10▲1▼に示すように書き換えられて翻訳される。また、韓国語から日本語に翻訳する場合は、図10▲2▼に示すように日本語が書き換えられて翻訳することにより、高精度で効率的な翻訳を行うことができる。
【0091】
上述したように本発明によれば、複数の言語で書かれた基本となる文書を利用して、1つの言語に統一して翻訳された文書間の相違部分から書き換え規則を作成し、原文に対して機械翻訳された訳文の欠陥を、上述の書き換え規則に基づいて訳文の書き換えを行うことにより効率的で高精度な翻訳後編集を行うことができる。この書き換え規則の学習フェーズと、翻訳フェーズを有することにより、高精度な翻訳を実現することができる。
【0092】
また、機械翻訳の精度に対応させた書き換え規則を作成することができる。また、いったん翻訳した文書を元の言語に翻訳し直した文書も利用することにより、より書き換え規則の抜けを防止し、より高精度な翻訳後編集を実現することができる。
【0093】
更に、書き換え規則作成時に、入力される複数の言語の基本文書における全ての言語に対して、上述の書き換え規則を作成することにより、入力した全ての言語に対する原文の翻訳を行うことができるため、本発明における装置、プログラムの利用性を向上させることができる。
【0094】
なお、本発明を用いることにより、例えば、ニュース原稿の外国語への翻訳やWWW上に公開されたWebページの文書を他の言語文書に変換して読むときに利用する等、多様な分野への適用が可能である。
【0095】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【0096】
【発明の効果】
上述の如く本発明によれば、効率的で高精度な後編集を行い、翻訳精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明における翻訳後編集装置の概略構成図を示す図である。
【図2】学習フェーズ、翻訳フェーズにおける各処理が実行プログラムにより実現可能なハードウェア構成の一例を示す図である。
【図3】本発明における学習フェーズの処理手順の一例を示すフローチャートである。
【図4】本発明における学習フェーズの実施例を示す図である。
【図5】基本文書における機械翻訳の手順の一例を示す図である。
【図6】図5に対応させた翻訳手順の一例を示す図である。
【図7】本発明における学習フェーズで作成される書換規則データベースの第一の例を示す図である。
【図8】本発明における翻訳フェーズの処理手順の一例を示すフローチャートである。
【図9】本発明における翻訳フェーズの実施例を示す図である。
【図10】本発明における書換規則データベースの第2の例を示す図である。
【符号の説明】
1 翻訳後編集装置
11 文書翻訳手段
12 書換規則作成手段
13 原文翻訳手段
14 後編集手段
15 第1言語文書
16 他言語文書
17 書換規則データベース
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 メモリ装置
26 CPU
27 ネットワーク接続装置
28 記録媒体

Claims (9)

  1. 第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集を行う翻訳後編集装置において、
    予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習手段と、
    前記書換規則学習手段により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳手段とを有することを特徴とする翻訳後編集装置。
  2. 前記書換規則学習手段は、
    前記第1の言語文書及び前記他の言語文書を入力する文書入力手段と、
    前記文書入力手段により入力された文書を予め設定された1以上の言語へ機械翻訳を行う基本文書機械翻訳手段と、
    前記基本文書機械翻訳手段により翻訳された文書間における相違部分に基づいて書き換え規則情報を作成する書換規則作成手段とを有することを特徴とする請求項1に記載の翻訳後編集装置。
  3. 前記翻訳手段は、
    前記原文を入力する原文入力手段と、
    前記原文入力手段により入力された原文を機械翻訳する原文機械翻訳手段と、前記書換規則作成手段により得られる書き換え規則情報に基づき、前記原文機械翻訳手段により機械翻訳された訳文を編集する後編集手段とを有することを特徴とする請求項1又は2に記載の翻訳後編集装置。
  4. 前記基本文書機械翻訳手段は、
    前記文書入力手段により入力された複数の言語文書の夫々を、前記複数の言語に対応させて機械翻訳することを特徴とする請求項3に記載の翻訳後編集装置。
  5. 前記基本文書機械翻訳手段は、
    予め設定された言語へ機械翻訳した文書を、元の言語に再翻訳することを特徴とする請求項2に記載の翻訳後編集装置。
  6. 前記書換規則作成手段は、
    前記基本文書機械翻訳手段により翻訳された文書間における単語、文字列、又は、その前後の単語、文字列に基づいて書き換え規則情報を作成することを特徴とする請求項2に記載の翻訳後編集装置。
  7. 前記後編集手段は、
    前記書き換え規則情報により前記訳文に含まれる単語又は文字列毎に書き換えを行うことを特徴とする請求項1乃至6の何れか1項に記載の翻訳後編集装置。
  8. 第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集を行う翻訳後編集方法において、
    予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習段階と、
    前記書換規則学習段階により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳段階とを有することを特徴とする翻訳後編集方法。
  9. 第1の言語からなる原文を他の言語に機械翻訳して得られる訳文に対して書き換えによる後編集をコンピュータに実行させるためのプログラムにおいて、
    予め設定された文書内容に基づく第1の言語文書及び他の言語文書から書き換え規則を学習する書換規則学習処理と、
    前記書換規則学習処理により得られる書き換え規則に基づいて、前記訳文に対する後編集を行い、編集翻訳文書を作成する翻訳処理とをコンピュータに実行させるためのプログラム。
JP2003110611A 2003-04-15 2003-04-15 翻訳後編集装置、翻訳後編集方法、及びそのプログラム Pending JP2004318424A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003110611A JP2004318424A (ja) 2003-04-15 2003-04-15 翻訳後編集装置、翻訳後編集方法、及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003110611A JP2004318424A (ja) 2003-04-15 2003-04-15 翻訳後編集装置、翻訳後編集方法、及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2004318424A true JP2004318424A (ja) 2004-11-11

Family

ID=33471423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003110611A Pending JP2004318424A (ja) 2003-04-15 2003-04-15 翻訳後編集装置、翻訳後編集方法、及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2004318424A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
CN111144137A (zh) * 2019-12-17 2020-05-12 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
CN111144137A (zh) * 2019-12-17 2020-05-12 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置
CN111144137B (zh) * 2019-12-17 2023-09-05 语联网(武汉)信息技术有限公司 机器翻译后编辑模型语料的生成方法及装置

Similar Documents

Publication Publication Date Title
US20090076792A1 (en) Text editing apparatus and method
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JP2005507525A (ja) 機械翻訳
US9817887B2 (en) Universal text representation with import/export support for various document formats
JP4304268B2 (ja) 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JPH0417470B2 (ja)
JP2004318424A (ja) 翻訳後編集装置、翻訳後編集方法、及びそのプログラム
WO2016125710A1 (ja) 構文解析装置、学習装置、機械翻訳装置、および記録媒体
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP5016333B2 (ja) 文書作成支援装置及び文書作成支援プログラム
JPH04128926A (ja) プログラムコメント翻訳方式
JP3982726B2 (ja) 翻訳知識学習装置及び機械翻訳装置
JP2002132764A (ja) 機械翻訳前処理装置
JP3389313B2 (ja) 機械翻訳装置
JP3569753B2 (ja) 機械翻訳用辞書作成装置
JP2928246B2 (ja) 翻訳支援装置
JP2004326315A (ja) 文書要約装置、文書要約方法、及びそのプログラム
De Pauw et al. Bootstrapping machine translation for the language pair English-Kiswahili
JP3313810B2 (ja) アスペクト処理装置
JPH04227571A (ja) 電子翻訳システムの編集処理方法
JP3277560B2 (ja) 機械翻訳装置
JP2002032369A (ja) 辞書作成装置
JP3316884B2 (ja) 言語翻訳装置
JP2006268621A (ja) 機械翻訳プログラム、機械翻訳装置