JP2007323476A - Mechanical translation device and computer program - Google Patents
Mechanical translation device and computer program Download PDFInfo
- Publication number
- JP2007323476A JP2007323476A JP2006154501A JP2006154501A JP2007323476A JP 2007323476 A JP2007323476 A JP 2007323476A JP 2006154501 A JP2006154501 A JP 2006154501A JP 2006154501 A JP2006154501 A JP 2006154501A JP 2007323476 A JP2007323476 A JP 2007323476A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- machine translation
- output
- language
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は機械翻訳システムに関し、特に、同一の入力に対し複数の翻訳エンジンから出力される仮説の一つを選択する機械翻訳システムに関する。 The present invention relates to a machine translation system, and more particularly to a machine translation system that selects one of hypotheses output from a plurality of translation engines for the same input.
機械翻訳(MT)とは、ある自然言語から他の自然言語にテキストを翻訳するという作業に対して、コンピュータを適用したものである。機械翻訳に対する最新のアプローチは、大規模パラレルテキストコーパス、すなわちソース言語とターゲット言語との対訳の集合を使用するというものである。こうしたアプローチは「コーパスベースの機械翻訳」と呼ばれる。 Machine translation (MT) is the application of a computer to the task of translating text from one natural language to another. The latest approach to machine translation is to use a massively parallel text corpus, ie a set of parallel translations of source and target languages. This approach is called “corpus-based machine translation”.
コーパスベースの機械翻訳において採用される主な戦略として二種類がある。第1は用例機械翻訳(EBMT)である。第2は統計機械翻訳(SMT)である。 There are two main strategies employed in corpus-based machine translation. The first is example machine translation (EBMT). The second is statistical machine translation (SMT).
EBMTは、コーパスを直接に利用する。すなわち、入力表現が与えられると、EBMTはその入力表現に最も類似した文を持つ翻訳用例(対訳)をコーパス中から見つけ出し、その対訳中のターゲット言語の文を変形して、入力表現に対する翻訳を作り出す。 EBMT uses the corpus directly. That is, given an input expression, EBMT finds a translation example (parallel translation) having a sentence most similar to the input expression from the corpus, transforms the sentence of the target language in the parallel translation, and translates the input expression. produce.
一方、SMTは、最初に、コーパスから翻訳のための翻訳統計的モデルを学習し、実行時には、多数の翻訳文の候補を作成し、その中から言語モデル及び統計モデルにしたがって最善の翻訳、すなわち確率的に最も確からしいものを探索する。 On the other hand, the SMT first learns a translation statistical model for translation from the corpus, and creates a large number of translation sentence candidates at the time of execution, from which the best translation according to the language model and statistical model, that is, Search for the most probable thing.
SMTの動作の枠組みは、ソース言語の文Sをターゲット言語の文Tに翻訳するという問題を、次の条件付確率の最大化問題に帰着させる。 The SMT operation framework reduces the problem of translating the source language sentence S to the target language sentence T into the following conditional probability maximization problem.
LM及びTMの確率は、それぞれ単言語コーパス及びバイリンガルコーパスから自動的に学習することが可能であり、そのためのツールも普及している。そうした確率に基づき、機械翻訳で生成される全ての翻訳候補に対してスコアを計算することができる。候補の中で最も高いスコアを示した候補が翻訳出力として選択される。なお、バイリンガルコーパスが存在する場合、そのうちの一方の言語(ソース言語又はターゲット言語)の文の集まりを単言語コーパスとして用い、その言語の言語モデルの算出に使用することもできる。
機械翻訳システムの性能は、単言語及びバイリンガルのトレーニングデータのサイズに依存することが知られている。例えば、アラビア語のニュースワイアのテキストの英語への翻訳に関する調査によれば、統計的言語モデルのトレーニングに使用する単言語のトレーニングデータの大きさを2倍にすると、BLEUスコア(機械翻訳の分野で使用される、翻訳に対する客観的評価尺度であって、MTの出力を参照訳と比較することにより算出されるスコア)には0.5%の改善が見られ、パラレルトレーニングデータの大きさを2倍にすると、同じく2.5%の改善が見られるとのことである。 It is known that the performance of a machine translation system depends on the size of monolingual and bilingual training data. For example, according to a survey on the translation of Arabic newswire text into English, doubling the size of monolingual training data used for statistical language model training resulted in a BLEU score (machine translation field). , Which is an objective evaluation scale for translation, calculated by comparing the output of MT with a reference translation), shows a 0.5% improvement in the size of parallel training data. If doubled, the same improvement of 2.5% can be seen.
これは、トレーニングデータが大きければ大きいほど、利用されるMTエンジンの翻訳品質が向上することを示す。しかし、トレーニングデータの量を増やせば、翻訳モデルの曖昧さのレベルも増大し、生成された多数の翻訳候補から最良の翻訳をどのように特定するかにかかる作業の複雑さも増大する。したがって、より多くの誤訳が起こりうる。 This indicates that the larger the training data, the better the translation quality of the MT engine used. However, increasing the amount of training data increases the level of ambiguity of the translation model and increases the complexity of how to identify the best translation from the many translation candidates generated. Therefore, more mistranslations can occur.
多数の翻訳候補から最良の翻訳をいかにして選択するかという課題に対してこれまでに提案されてきた対策のほとんどは、統計的な手法を用いている。先行技術の方法のうち、特許文献1に記載のものが最も有望であると思われる。 Most of the countermeasures that have been proposed so far on the problem of how to select the best translation from a large number of translation candidates use statistical techniques. Of the prior art methods, the one described in Patent Document 1 seems to be the most promising.
図1は特許文献1に開示された機械翻訳システム30の全体構造を示す。図1を参照して、機械翻訳システム30は、入力された文40をそれぞれの仮説に翻訳する異なるMTエンジン70A,70B,…,70Mを含むMTブロック42と、MTブロック42から出力される仮説の一つを統計モデルに基づいて選択するための選択ブロック52と、パラレルテキストコーパス44と、MTエンジン70A,70B,…,70Mのための適切なデータを構築しトレーニングするためのトレーニングモジュール46とを含む。
FIG. 1 shows the overall structure of a
機械翻訳システム30はさらに、パラレルテキストコーパス44をN個のサブセットに分割し、コーパス全体からサブセットのそれぞれ一つ(1/Nのサブセット)を除去することによってN個のサブコーパス80A〜80Nを生成し、サブコーパス80A〜80Nにより言語モデル90A〜90Nと翻訳モデル92A〜92Nとをそれぞれ生成するためのN重クロス検定型モデル作成モジュール48とを含む。言語モデル90A〜90Nと翻訳モデル92A〜92Nとは、選択モジュール52における翻訳候補の選択の際に用いられる。
The
選択モジュール52は、MTエンジン70A,70B,…,70Mからの仮説出力の各々について、N個のセットの言語モデルと翻訳モデルとによりN個の統計的スコアを計算し、一つのMT出力について得られた統計的スコアが別のMT出力に対するものより有意に高いか否かを判定するための多重比較検定モジュール100と、多重比較検定モジュール100の出力に応答して、機械翻訳システム30の出力54として仮説の一つを選択するためのセレクタ102とを含む。
The
他の仮説よりスコアが有意に高い仮説が存在しない場合、セレクタ102はMTエンジン70A,70B,…,70M中で、予め設定された優先順位にしたがって、仮説の一つを選択する。優先順位は、BLEU等の適切なスコアリング手法と開発セットのコーパスとを用いて予め計算される。
When there is no hypothesis having a score significantly higher than that of other hypotheses, the
多重比較検定モジュール100は、仮説の有意性を計算するにあたって「クルスカル−ウォリス(Kruskal−Wallis)のテスト」と呼ばれる、一対ごとの比較テスト手法を用いる。
The multiple
動作において、N重クロス検定型モデル作成モジュール48は、パラレルテキストコーパス44から、互いに異なる1/Nのサブセットを除去することでN個のサブコーパス80A〜80Nを作成する。N重クロス検定型モデル作成モジュール48はさらに、言語モデルと翻訳モデルとのセット90Aと92A,90Bと92B,…を、サブコーパス80A〜80Nからそれぞれ作成する。
In operation, the N-fold cross-validated
トレーニングモジュール46は、パラレルテキストコーパス44を用い、MTエンジン70A,70B,…,70Mの各々をトレーニングする。すなわち、これらのMTエンジンのそれぞれの仕様にあわせ、パラレルテキストコーパス44による言語モデル及び統計モデルの作成、並びに翻訳規則の抽出を行なう。
The
入力文40が与えられると、MTエンジン70A,70B,…,70Mの各々は、これをターゲット言語に翻訳し、仮説(翻訳結果)を出力する。仮説は多重比較検定モジュール100とセレクタ102とに与えられる。
When the
仮説の各々について、セレクタ102は言語モデルと翻訳モデルとのセット90Aと92A,90Bと92B,…,90Nと92Nを用いて、スコアの組を計算する。全てのスコアを計算した後、多重比較検定モジュール100が仮説のスコアに対してクルスカル−ウォリスのテストを適用し、MTエンジンのうち、そのスコアが他のものより有意に高いものがあるか否かをチェックする。該当するものがあれば、多重比較検定モジュール100はセレクタ102に制御信号を与え、セレクタ102が有意に高いスコアを与える仮説を選択し、これを出力54として出力する。
For each hypothesis, the
このアプローチではトレーニングデータ(パラレルテキストコーパス44)はサブコーパス80A〜80Nにランダムに分割される。これらを使用して、統計的言語モデル90A〜90Nと翻訳モデル92A〜92Nとがトレーニングされる。したがって、元のコーパスに内在する曖昧さのレベルを下げることはできず、時に、望ましくない出力が得られる。
In this approach, training data (parallel text corpus 44) is randomly divided into
したがって、この発明の目的の一つは、複数の機械翻訳部で得られた翻訳候補から最良の翻訳候補を選択する機械翻訳装置であって、翻訳時の曖昧さのレベルを下げることにより、最終的な翻訳品質を改善することができる機械翻訳装置を提供することである。 Accordingly, one of the objects of the present invention is a machine translation device that selects the best translation candidate from translation candidates obtained by a plurality of machine translation units, and reduces the level of ambiguity at the time of translation. It is to provide a machine translation apparatus capable of improving a general translation quality.
本発明の第1の局面に係る機械翻訳装置は、所定の第1の言語による共通の入力文に対し、各々が所定の第2の言語による翻訳候補を出力するための第1及び第2の機械翻訳手段と、第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、所定の第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第1の判定手段と、第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、第1の判定基準と異なる所定の第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第2の判定手段と、第1の判定手段及び第2の判定手段の出力に基づいて、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを入力に対する翻訳文として選択し出力するための選択手段とを含む。 The machine translation device according to the first aspect of the present invention provides a first and a second for outputting translation candidates in a predetermined second language for a common input sentence in a predetermined first language. Machine translation means and translation candidates respectively output by the first and second machine translation means are received, and translation candidates that are determined to have higher quality than the other according to a predetermined first criterion The first determination means for outputting the information to be displayed and the translation candidates output by the first and second machine translation means, respectively, and from the other according to a predetermined second determination criterion different from the first determination criterion Based on outputs of a second determination means for outputting information indicating translation candidates determined to have excellent quality, and outputs of the first determination means and the second determination means. Input any of translation candidates output by the second machine translation means Select the translation of and a selection means for outputting.
第1及び第2の機械翻訳手段は、第1の言語による共通の入力文を受けて、それぞれ第2の言語による翻訳候補を出力する。第1の判定手段は、第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力する。同様に第2の判定手段は、第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力する。選択手段は、第1の判定手段及び第2の判定手段の出力に基づいて、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを入力に対する翻訳文として選択し出力する。第1及び第2の判定手段が使用する判定基準は互いに異なっており、異なる側面から翻訳候補を評価する。選択手段の選択は、これら多面的な評価に基づいて行なわれるので、翻訳候補選択時の曖昧さが低減され、選択される翻訳候補の品質が改善される。 The first and second machine translation units receive a common input sentence in the first language and output translation candidates in the second language, respectively. The first determination means outputs information indicating translation candidates determined to have quality superior to the other according to the first determination criterion. Similarly, the second determination means outputs information indicating translation candidates determined to have a quality superior to the other according to the second determination criterion. The selection means selects and outputs one of translation candidates output from the first and second machine translation means as a translation sentence for the input based on the outputs of the first determination means and the second determination means. The determination criteria used by the first and second determination means are different from each other, and translation candidates are evaluated from different aspects. Since the selection means is selected based on these multifaceted evaluations, the ambiguity when selecting translation candidates is reduced, and the quality of the selected translation candidates is improved.
好ましくは、第1の判定手段は、所定の第1の統計的モデルを用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第1のスコア算出手段と、第1のスコア算出手段が第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第1のスコア判定手段と、第1のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第1の翻訳候補選択手段とを含む。 Preferably, the first determination means calculates scores of translation candidates output from the first machine translation means and the second machine translation means by a predetermined scoring method using a predetermined first statistical model. Whether there is a significant difference between the scores calculated by the first score calculation means for the translation and the translation candidates output by the first machine translation means and the second machine translation means by the first score calculation means Information indicating translation candidates determined to have a score superior to the other with a significant difference according to the determination result of the first score determination unit and the first score determination unit First translation candidate selection means.
第1のスコア算出手段は、所定のスコアリング手法によって第1及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出する。これらのスコアに有意な差があれば、優れたスコアを示した翻訳候補が第1の候補選択手段により選択され、選択手段の選択対象となる。他方に対し、単にスコアが高いだけではなく、有意な差をもって優れていると判定された翻訳候補が選択手段による選択対象となるので、最終的に選択される翻訳の品質も改善される。 The first score calculation means calculates scores of translation candidates output from the first and second machine translation means by a predetermined scoring method. If there is a significant difference between these scores, a translation candidate showing an excellent score is selected by the first candidate selection means and becomes a selection target of the selection means. On the other hand, since the translation candidate determined not only to have a high score but also to be superior with a significant difference becomes a selection target by the selection means, the quality of the finally selected translation is also improved.
より好ましくは、第2の判定手段は、第1の統計的モデルと異なる所定の第2の統計的モデルを用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第2のスコア算出手段と、第2のスコア算出手段が第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第2のスコア判定手段と、第2のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第2の翻訳候補選択手段とを含む。 More preferably, the second determination means uses the predetermined scoring method using a predetermined second statistical model different from the first statistical model, and uses the first machine translation means and the second machine translation means. The second score calculating means for calculating the score of the translation candidate output by the second score calculating means, and the second score calculating means calculated for the translation candidate output by the first machine translation means and the second machine translation means The second score determination means for determining whether or not there is a significant difference in the score, and the determination result of the second score determination means, it is determined that it has a score superior to the other with a significant difference Second translation candidate selection means for outputting information indicating the translated translation candidates.
第2のスコア算出手段は、第1のスコア算出手段が用いたものとは異なる統計的モデルを用いた所定のスコアリング手法によって、第1及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出する。これらのスコアに有意な差があれば、優れたスコアを示した翻訳候補が第2の翻訳候補選択手段により選択され、選択手段の選択対象となる。他方に対し、単にスコアが高いだけではなく、有意な差をもって優れていると判定された翻訳候補が選択手段による選択対象となるので、最終的に選択される翻訳の品質も改善される。第1のスコア算出手段でも同様の処理をしている場合、最終的に選択手段が選択する翻訳の品質が改善される可能性はさらに高くなる。 The second score calculation means uses a predetermined scoring technique using a statistical model different from that used by the first score calculation means, and outputs the translation candidate scores output by the first and second machine translation means. Is calculated. If there is a significant difference between these scores, a translation candidate showing an excellent score is selected by the second translation candidate selection means and is selected by the selection means. On the other hand, since the translation candidate determined not only to have a high score but also to be superior with a significant difference becomes a selection target by the selection means, the quality of the finally selected translation is also improved. When the same processing is performed in the first score calculation means, the possibility that the quality of translation finally selected by the selection means will be further increased.
さらに好ましくは、機械翻訳装置は、第1及び第2の言語の対訳文からなる第1のパラレルテキストコーパスの第2の言語の文から、第2の言語の第1の統計的言語モデル群を作成するための第1の言語モデル作成手段と、第1のパラレルテキストコーパスから、第2の言語から第1の言語への第1の統計的翻訳モデル群を作成するための第1の翻訳モデル作成手段とをさらに含み、第1のスコア算出手段は、第1の統計的言語モデル群及び第1の翻訳モデル群を用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む。 More preferably, the machine translation device obtains the first statistical language model group of the second language from the second language sentence of the first parallel text corpus composed of the parallel translation sentences of the first and second languages. A first translation model for creating a first statistical translation model group from the second language to the first language from the first language model creating means for creating and the first parallel text corpus Creating means, wherein the first score calculating means uses a predetermined scoring technique using the first statistical language model group and the first translation model group, and the first machine translation means and the second machine translation means. Means for calculating a translation candidate score output by the machine translation means are included.
機械翻訳装置は、第1及び第2の言語の対訳文からなる、第1のパラレルテキストコーパスと異なる第2のパラレルテキストコーパスの第2の言語の文から、第2の言語の第2の統計的言語モデル群を作成するための第2の言語モデル作成手段と、第2のパラレルテキストコーパスから、第2の言語から第1の言語への第2の統計的翻訳モデル群を作成するための第2の翻訳モデル作成手段とをさらに含んでもよい。第2のスコア算出手段は、第2の統計的言語モデル群及び第2の翻訳モデル群を用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む。 The machine translation device includes a second statistic of a second language from a sentence of a second language of a second parallel text corpus different from the first parallel text corpus, which is composed of a bilingual sentence of the first and second languages. A second statistical translation model group from the second language to the first language from the second language model creating means for creating the static language model group and the second parallel text corpus Second translation model creation means may be further included. The second score calculation means is a translation output from the first machine translation means and the second machine translation means by a predetermined scoring method using the second statistical language model group and the second translation model group. Means for calculating a score for the candidate.
好ましくは、機械翻訳装置は、第1のパラレルテキストコーパスを学習データとして、第1の機械翻訳手段のトレーニングを行なうための手段をさらに含む。 Preferably, the machine translation apparatus further includes means for training the first machine translation means using the first parallel text corpus as learning data.
第1の機械翻訳手段は、第1のパラレルテキストコーパスを学習データとしてトレーニングされる。その翻訳結果は、第1のパラレルテキストコーパスから得られた統計的モデルを用いて評価されるだけではなく、第2のパラレルテキストコーパスから得られた統計的モデルを用いても評価される。それら異なるコーパスによる異なる基準で翻訳候補の評価が行なわれるので、翻訳候補の選択の信頼性は高くなり、最終的に出力される翻訳文の品質が改善される。 The first machine translation means is trained using the first parallel text corpus as learning data. The translation result is evaluated not only using the statistical model obtained from the first parallel text corpus, but also using the statistical model obtained from the second parallel text corpus. Since the translation candidates are evaluated based on different criteria by these different corpora, the reliability of selection of the translation candidates is increased, and the quality of the translation sentence to be finally output is improved.
より好ましくは、機械翻訳装置は、第2のパラレルテキストコーパスを学習データとして、第2の機械翻訳手段のトレーニングを行なうための手段をさらに含む。 More preferably, the machine translation apparatus further includes means for training the second machine translation means using the second parallel text corpus as learning data.
第2の機械翻訳手段は、第2のパラレルテキストコーパスを学習データとしてトレーニングされる。その翻訳結果は、第2のパラレルテキストコーパスから得られた統計的モデルを用いて評価されるだけではなく、第1のパラレルテキストコーパスから得られた統計的モデルを用いても評価される。それら異なるコーパスによる異なる基準で翻訳候補の評価が行なわれるので、翻訳候補の選択の信頼性は高くなり、最終的に出力される翻訳文の品質が改善される。 The second machine translation means is trained using the second parallel text corpus as learning data. The translation result is evaluated not only using the statistical model obtained from the second parallel text corpus, but also using the statistical model obtained from the first parallel text corpus. Since the translation candidates are evaluated based on different criteria by these different corpora, the reliability of selection of the translation candidates is increased, and the quality of the translation sentence to be finally output is improved.
さらに好ましくは、機械翻訳装置はさらに、第1及び第2の機械翻訳手段に対して付された優先順位を記憶するための優先順位記憶手段を含む。第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力する。選択手段は、第1及び第2の判定手段の出力と、優先順位記憶手段に記憶された情報とによって、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む。 More preferably, the machine translation apparatus further includes priority order storage means for storing priorities assigned to the first and second machine translation means. When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means replace the information indicating the translation candidate with a condition. Information indicating that there are no satisfactory translation candidates is output. The selection means selects and outputs one of the translation candidates output from the first and second machine translation means based on the outputs of the first and second determination means and the information stored in the priority order storage means. Means for.
統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、第1及び第2の判定手段は、条件を充足する翻訳候補がないことを示す情報を出力する。出力するための手段は、第1及び第2の判定手段により条件を充足する翻訳候補がないときでも、優先順位記憶手段に記憶された情報を用いてどの翻訳候補を出力するかを選択できる。予め優先順位記憶手段に所望の優先順位で第1及び第2の機械翻訳手段を登録しておくことにより、他方に対して有意な差をもって優れた品質の翻訳候補がなくても、ある程度の信頼性をもって翻訳候補を選択できる。 When there is no translation candidate that is determined to have quality superior to the other with statistical significance, the first and second determination means include information indicating that there is no translation candidate that satisfies the condition. Output. The means for outputting can select which translation candidate is to be output using the information stored in the priority storage means even when there is no translation candidate satisfying the condition by the first and second determination means. By registering the first and second machine translation means in a desired priority order in the priority order storage means in advance, even if there is no superior quality translation candidate with a significant difference from the other, a certain degree of trust A translation candidate can be selected with certainty.
出力するための手段は、第1及び第2の判定手段の出力が一致して一方の翻訳候補を示すことに応答して、当該翻訳候補を選択するための手段と、第1及び第2の判定手段の出力が競合していることに応答して、優先順位記憶手段により決定される機械翻訳手段から出力された翻訳候補を選択するための手段と、第1及び第2の判定手段の出力の一方がある翻訳候補を示し、他方が条件を満たす翻訳候補の不在を示すことに応答して、ある翻訳候補を選択するための手段とを含んでもよい。 Means for outputting, in response to the outputs of the first and second determination means being coincident to indicate one translation candidate, means for selecting the translation candidate, and the first and second Means for selecting translation candidates output from the machine translation means determined by the priority order storage means in response to the output of the determination means competing; and outputs of the first and second determination means Means for selecting one translation candidate in response to indicating one translation candidate and the other indicating the absence of a translation candidate that satisfies the condition.
第1及び第2の判定手段の出力が一致して一方の翻訳候補を示しているときには、その翻訳候補が出力として選択される。この場合の翻訳候補の品質が高くなる可能性は極めて高い。一方の判定手段のみが、有意な差をもって他方より品質が高いと判定された翻訳候補を特定し、他方の判定手段ではそうした翻訳候補がないときには、一方において品質が高いと判定された翻訳候補が選択される。この場合には、両方の判定手段が一致した場合と比較すれば信頼性は劣るかもしれないが、従来技術と同等の信頼性を実現できる。両方の判定手段の出力が競合しているときには、優先順位記憶手段により決定される機械翻訳手段から出力された候補が選択される。この場合でも、優先順位の付け方により、ある程度の信頼性が期待できる。したがって、全体として、最終的に選択される翻訳候補の品質を高くすることができる。 When the outputs of the first and second determination means match to indicate one translation candidate, the translation candidate is selected as an output. In this case, there is a very high possibility that the quality of translation candidates will be high. Only one determination means identifies a translation candidate that is determined to have a higher quality than the other with a significant difference, and when there is no such translation candidate in the other determination means, a translation candidate that is determined to have high quality on one side Selected. In this case, the reliability may be inferior as compared to the case where both the determination means match, but the same reliability as that of the prior art can be realized. When the outputs of both determination means are in conflict, the candidate output from the machine translation means determined by the priority storage means is selected. Even in this case, a certain degree of reliability can be expected depending on how the priorities are assigned. Therefore, the quality of the translation candidate finally selected can be improved as a whole.
好ましくは、第1及び第2の機械翻訳手段の各々は、入力を受けて、それぞれが第2の言語の翻訳候補を出力する複数の機械翻訳エンジンと、複数の機械翻訳エンジンの出力する翻訳候補のいずれかを、所定の判定基準にしたがって選択するための手段とを含む。 Preferably, each of the first and second machine translation means receives a plurality of machine translation engines that each output a translation candidate of the second language, and translation candidates output by the plurality of machine translation engines And means for selecting according to a predetermined criterion.
第1及び第2の機械翻訳手段として、それ自体、複数の機械翻訳エンジンの出力から所定の判定基準にしたがって選択した候補を選択するものを用いる。このように複数の翻訳候補から一つを選択する機構を多段式とすることにより、最終的な選択までに複数の基準による判定が行なわれることになり、出力される翻訳結果の品質を向上させることができる。 As the first and second machine translation means, one that selects candidates selected according to a predetermined criterion from outputs of a plurality of machine translation engines is used. By using a multi-stage mechanism for selecting one of a plurality of translation candidates in this way, determination based on a plurality of criteria is performed before final selection, and the quality of the output translation result is improved. be able to.
より好ましくは、機械翻訳装置はさらに、第1及び第2の機械翻訳手段に含まれる機械翻訳エンジンの各々に対して付された優先順位を記憶するための優先順位記憶手段を含む。第1及び第2の機械翻訳手段の出力する翻訳候補には、それぞれどの機械翻訳エンジンの出力かを示す情報が付されている。第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力する。選択手段は、第1及び第2の判定手段の出力と、優先順位記憶手段に記憶された情報と、第1及び第2の機械翻訳手段の出力する翻訳候補に付された、どの機械翻訳エンジンの出力かを示す情報とによって、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む。 More preferably, the machine translation apparatus further includes priority order storage means for storing the priority order assigned to each of the machine translation engines included in the first and second machine translation means. Information indicating which machine translation engine is output is attached to each translation candidate output by the first and second machine translation means. When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means replace the information indicating the translation candidate with a condition. Information indicating that there are no satisfactory translation candidates is output. The selection means includes any one of the machine translation engines attached to the outputs of the first and second determination means, the information stored in the priority order storage means, and the translation candidates output from the first and second machine translation means. And means for selecting and outputting one of the translation candidates output by the first and second machine translation means according to the information indicating whether the output is output.
統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、第1及び第2の判定手段は、条件を充足する翻訳候補がないことを示す情報を出力する。出力するための手段は、第1及び第2の判定手段により条件を充足する翻訳候補がないときでも、優先順位記憶手段に記憶された情報を用い、どの機械翻訳エンジンにより出力された翻訳候補であるかを基準として、いずれの翻訳候補を出力するかを選択できる。予め優先順位記憶手段に所望の優先順位で第1及び第2の機械翻訳手段に使用される機械翻訳エンジンを登録しておくことにより、他方に対して有意な差をもって優れた品質の翻訳候補がなくても、ある程度の信頼性をもって翻訳候補を選択できる。 When there is no translation candidate that is determined to have quality superior to the other with statistical significance, the first and second determination means include information indicating that there is no translation candidate that satisfies the condition. Output. The means for outputting is the translation candidate output by any machine translation engine using the information stored in the priority storage means even when there is no translation candidate satisfying the condition by the first and second judging means. It is possible to select which translation candidate is output on the basis of whether or not it exists. By registering in advance the machine translation engine used for the first and second machine translation means with a desired priority in the priority order storage means, an excellent quality translation candidate can be obtained with a significant difference from the other. Even without it, translation candidates can be selected with a certain degree of reliability.
さらに好ましくは、第1及び第2のパラレルテキストコーパスの第1の言語の文の少なくとも一部は互いに共通しており、第1及び第2のパラレルテキストコーパスの第2の言語の文は、互いに独立である。 More preferably, at least some of the first language sentences of the first and second parallel text corpora are common to each other, and the second language sentences of the first and second parallel text corpora are mutually Independent.
このように、第2の言語の文が互いに独立である場合、両方のコーパスは全体として同じ意味を表すが、第2の言語の文に使用されている文法、語彙、記法、第1の言語の文に対する直訳性などの点で互いに異なっている。このように異なった性格のコーパスから得た統計的モデルを双方とも用い、第1及び第2の機械翻訳手段からの翻訳候補を評価し、いずれかを選択するので、翻訳候補に対して多面的な評価を行なうことができ、最終的に選択される翻訳候補の品質の向上が期待できる。 Thus, if the sentences in the second language are independent of each other, both corpuses represent the same meaning as a whole, but the grammar, vocabulary, notation, and first language used in the sentence in the second language Are different from each other in terms of their literal translation. Thus, the statistical models obtained from the corpus having different personalities are both used, the translation candidates from the first and second machine translation means are evaluated, and one of them is selected. It is possible to evaluate the quality of the translation candidate that is finally selected.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として機能させる。したがって、上記した機械翻訳装置と同様の効果を得ることができる。 When the computer program according to the second aspect of the present invention is executed by a computer, the computer program causes the computer to function as any one of the machine translation devices described above. Therefore, it is possible to obtain the same effect as the machine translation device described above.
以下の説明では、同じ部分又は装置には同じ参照符号を付す。名称と機能も同一である。したがって、それらの詳細な説明は繰返さない。以下の実施の形態は、英語から中国語への翻訳に関するものである。しかし、この発明はソース言語及びターゲット言語のどのような組合せにも適用可能である。 In the following description, the same parts or devices are denoted by the same reference numerals. The name and function are also the same. Therefore, detailed description thereof will not be repeated. The following embodiment relates to translation from English to Chinese. However, the present invention is applicable to any combination of source and target languages.
後述するように、この発明の翻訳システムは、通常は、コンピュータハードウェア及びその上で実行されるコンピュータソフトウェアによって実現される。以下の説明では、ソフトウェア構造をブロック図の形で表す。 As will be described later, the translation system of the present invention is usually realized by computer hardware and computer software executed on the computer hardware. In the following description, the software structure is represented in block diagram form.
<構成>
図2は、この発明の一実施の形態にしたがった中国語−英語機械翻訳システム130の構成を示す図である。機械翻訳システム130は、先行技術の部分で説明した機械翻訳システム30を拡張したものである。図2を参照して、機械翻訳システム130は、入力されたソース言語の文40をターゲット言語に翻訳し、2個の仮説(翻訳候補)を出力するMTブロック140を含む。
<Configuration>
FIG. 2 is a diagram showing a configuration of the Chinese-English
MTブロック140は2個の機械翻訳装置30A及び30Bを含み、これらはいずれも、先行技術の項で説明した機械翻訳システム30にしたがって構成されている。この実施の形態の機械翻訳装置30A及び30Bは、それぞれ複数個のMTエンジンからなる同じMTエンジンの組合せを含む。以下で説明するように、機械翻訳装置30Aの言語モデル及び翻訳モデルはある特定のコーパスを用いてトレーニングされ、機械翻訳装置30Bの言語モデル及び翻訳モデルは別のコーパスを用いてトレーニングされる。したがって、同一の入力文に対し、機械翻訳装置30A及び30Bの出力は一般的に異なる。
The
なお、本実施の形態では、MTブロック140は、その出力する仮説の各々に、その仮説を出力したMTエンジンを特定するタグを付ける。このタグは以後の処理の全体にわたり仮説に付されている。したがって処理のどの段階でも、仮説を出力したMTエンジンがどれであるかを確認することができる。 In the present embodiment, the MT block 140 attaches a tag that identifies the MT engine that outputs the hypothesis to each hypothesis that is output. This tag is hypothesized throughout the subsequent processing. Therefore, it is possible to confirm which MT engine has output the hypothesis at any stage of the process.
機械翻訳システム130はさらに、2個のコーパス、すなわち中国語―英語パラレルテキストコーパス142及び144を含む。この実施の形態では、パラレルテキストコーパス144はパラレルテキストコーパス142の変形である。すなわち、図3を参照して、パラレルテキストコーパス142とパラレルテキストコーパス144とは、同じ英語−日本語パラレルテキストコーパス200から生成される。英語−日本語パラレルテキストコーパス200は多数の英文とその日本語の等価物(訳文)との対、すなわち対訳を含む。
The
テキストコーパス200の中の英文の各々が、英語から中国語に翻訳される(202)。翻訳して得られた中国語をそれぞれ元の英文と対にすることで、パラレルテキストコーパス142が得られる。これに対し、英語−日本語パラレルテキストコーパス200の日本語文の各々を日本語から中国語に翻訳する(204)。パラレルテキストコーパス200の日本語文を、翻訳の結果得られた中国語文と置換えることで、パラレルテキストコーパス144が得られる。ここでは、パラレルテキストコーパス142と144とを「変形コーパス」と呼ぶ。これらは意味上は互いに等しいパラレルコーパスであるが、同じ内容を表すのに、異なる語彙、文法構造、記法、及び直訳性(英語と中国語との間の訳語の対応関係の強さ)を持ったコーパスである。
Each English sentence in the
機械翻訳システム130はさらに、それぞれ機械翻訳装置30A及び30B内のMTエンジンで用いられる統計モデルをトレーニングするためのトレーニングモジュール146及び148を含む。上述の通り、機械翻訳装置30A及び30Bは各々複数個のMTエンジンを含む。トレーニングモジュール146は機械翻訳装置30A内のMTエンジンで用いられるモデルを、パラレルテキストコーパス142を用いてトレーニングし、トレーニングモジュール148は機械翻訳装置30B内のMTエンジンで用いられるモデルを、パラレルテキストコーパス144を用いてトレーニングする。
なお、ルールベースのMTエンジンのように、トレーニングする必要のないものについてはこのトレーニングが行なわれないことはもちろんである。 Needless to say, this training is not performed for a rule-based MT engine that does not need to be trained.
さらに、機械翻訳システム130は、図1に示すN重クロス検定型モデル作成モジュール48と同様の形態で、パラレルテキストコーパス142を用いて言語モデル群150Aと翻訳モデル群152AとをトレーニングするためのN重クロス検定型モデル作成モジュール162と、パラレルテキストコーパス144を用いて言語モデル群150Bと翻訳モデル群152BとをトレーニングするためのN重クロス検定型モデル作成モジュール164とを含む。
Further, the
なお、本実施の形態では、MTブロック140内のMTエンジンを、N重クロス検定型モデル作成モジュール164によるトレーニングに用いるパラレルテキストコーパス142及び144を用いてトレーニングしている。しかし本発明はこのような実施の形態には限定されず、このトレーニングに、異なるコーパスを使用してもよい。
In the present embodiment, the MT engine in the MT block 140 is trained using the
同じ内容でソースが異なるトレーニングコーパス142及び144を用いるため、結果として得られる言語モデル群及び翻訳モデル群は、特定の言語的側面に焦点を当てたものとなり、これらの双方で後述するように翻訳候補の品質差の有意性を検定することで、全ての変形コーパスを統合することによって得られるコーパスでトレーニングされたモデルを使用する場合と比較して、翻訳候補の選択の曖昧さを低減できる。
Because
機械翻訳システム130はさらに、MTブロック140で用いられるMTエンジンの優先順位を記憶する優先順位テーブル156と、仮説同士のスコアの差の有意性に基づいてMTブロック140の出力の一つを選択するための規則を記憶する規則テーブル158と、仮説同士のスコアの差の有意性、規則テーブル158に記憶された規則、及び優先順位テーブル156に記憶された優先順位に基づいて、MTブロック140の出力する翻訳候補の一つを選択するための選択モジュール154とを含む。
The
優先順位テーブル156の内容は、テストセット文を用いてMTブロック140内のMTエンジンの出力をBLEU又は単語誤り率等の評価基準により評価することによって準備される。MTエンジンの評価が高いほど、優先順位も高くなる。 The contents of the priority table 156 are prepared by evaluating the output of the MT engine in the MT block 140 according to an evaluation criterion such as BLEU or word error rate using a test set sentence. The higher the MT engine rating, the higher the priority.
選択モジュール154は、どの仮説を選択すべきかを判断するための、変形コーパスによる検定処理モジュール180と、変形コーパスによる検定処理モジュール180の判断に応じてMTブロック140の出力の一つを出力160として選択するセレクタ182とを含む。
The
図4は、図2に示す変形コーパスによる検定処理モジュール180のブロック図である。図4を参照して、変形コーパスによる検定処理モジュール180は、パラレルテキストコーパス142(図2)を用いてトレーニングされたN個の言語モデル群150A及びN個の翻訳モデル群152Aを用いて、MTブロック140の2個の出力をそれぞれスコアリングしたスコアベクトルを出力するための第1及び第2のスコアリングモジュール220及び222と、パラレルテキストコーパス144(図2)を用いてトレーニングされた言語モデル群150B及び翻訳モデル群152Bを用いて、それぞれMTブロック140の2個の出力をスコアリングし、それぞれのスコアリングベクトルを出力するための第3及び第4のスコアリングモジュール224及び226と、第1及び第2のスコアリングモジュール220及び222から出力された二つのスコアリングベクトルのいずれかが他方に対して有意に高いスコアを示しているか否かを、従来技術と同様、クルスカル−ウォリスのテストを用いてチェックし、その結果を出力するための第1の有意差検定モジュール230と、第3及び第4のスコアリングモジュール224及び226から出力された二つのスコアリングベクトルのいずれかが他方より有意に高いスコアを示しているか否かを同様にチェックし、その結果を出力するための第2の有意差検定モジュール232とを含む。有意差検定モジュール230及び232は、他方に対して有意に高いスコアを持つスコアリングベクトルがある場合には、そのベクトルに対応する翻訳候補を示す情報をテーブルルックアップモジュール240に与える。そうしたものがない場合には、条件を満たすものがないことを示す信号をテーブルルックアップモジュール240に与える。
FIG. 4 is a block diagram of the
なお、本実施の形態では、クルスカル−ウォリスのテストにより評価するスコアとして、仮説Hに対して言語モデルから算出されるスコアLMと、翻訳モデルによって算出されるスコアTMとの積を用いる。この積を、言語モデルと翻訳モデルとの組の各々について計算し、全ての組について算出された値をベクトルとすることでスコアリングベクトルを作成し、クルスカル−ウォリスのテストでの評価に用いる。 In the present embodiment, the product of the score LM calculated from the language model for the hypothesis H and the score TM calculated from the translation model is used as the score to be evaluated by the Kruskal-Wallis test. This product is calculated for each set of language model and translation model, and the scoring vector is created by using the values calculated for all the sets as vectors, and used for evaluation in the Kruskal-Wallis test.
変形コーパスによる検定処理モジュール180はさらに、第1及び第2の有意差検定モジュール230及び232からの結果が、MTブロック140の2個の出力のうち1個を明確に示しているか否かを判断し、もしそうであれば、第1及び第2の有意差検定モジュール230及び232からの結果の組合せに対応する規則テーブル158の適切なエントリを調べることで、どの出力を選択すべきかを判断するためのテーブルルックアップモジュール240と、テーブルルックアップモジュール240の出力246と優先順位テーブル156の内容とに基づいて、MTブロック140の2個の出力のうち一方を決定し、セレクタ182(図2参照)に対しそれを特定する信号を出力するための最終選択モジュール242とを含む。
The modified corpus
図5は規則テーブル158の内容の一例を示す。図5を参照して、最上段は第1の有意差検定モジュール230の出力に対応し、左端の列は第2の有意差検定モジュール232の出力に対応する。
FIG. 5 shows an example of the contents of the rule table 158. Referring to FIG. 5, the top row corresponds to the output of first significant
規則テーブル158によれば、仮説は以下のシーケンスによって選択される。 According to the rule table 158, hypotheses are selected by the following sequence.
(1)第1の有意差検定モジュール230からの出力値にしたがって、列を選択する。第1の有意差検定モジュール230の出力が第1の仮説について有意差が見出されたことを示している場合、第1の列が選択される。もし第2の仮説について有意差が見出された場合には、第2の列が選択される。出力中に有意差が見出されない場合には、第3の列が選択される。
(1) A column is selected according to the output value from the first significant
(2)同様に、第2の有意差検定モジュール232からの出力値にしたがって行を選択する。
(2) Similarly, a row is selected according to the output value from the second
(3)選択された行と列との交差点にある枠内の内容を見る。この枠内の内容により、どの仮説を選択すべきかが示されている。もし第1及び第2の有意差検定モジュール230及び232の出力間に競合があれば、又は有意差がない場合には、枠の内容は、優先順位テーブルにしたがって決定される仮説を出力すべきことを示す。
(3) View the contents in the frame at the intersection of the selected row and column. The contents in this frame indicate which hypothesis to select. If there is a conflict between the outputs of the first and second
<動作>
この実施の形態の機械翻訳システム130は以下のように動作する。図2を参照して、優先順位テーブル156、規則テーブル158、パラレルテキストコーパス142及びパラレルテキストコーパス144は、処理に先立って準備されているものとする。
<Operation>
The
機械翻訳システムには二つの動作フェーズがある。第1のフェーズはトレーニング・フェーズであって、ここではMTブロック140内のMTエンジンがパラレルテキストコーパス142及びパラレルテキストコーパス144を用いてトレーニングされる。第2のフェーズはアプリケーション・フェーズであって、ここでは入力文が機械翻訳システム130に適用され、機械翻訳システム130が好ましい翻訳を出力160として出力する。
The machine translation system has two phases of operation. The first phase is a training phase where the MT engine in MT block 140 is trained using
−トレーニング・フェーズ
トレーニング・フェーズでは、機械翻訳システム130は以下のように動作する。トレーニングモジュール146は機械翻訳装置30AのMTエンジンの言語モデル及び翻訳モデルをパラレルテキストコーパス142を用いてトレーニングする。機械翻訳装置30A内のMTエンジンは互いに異なる種類のものなので、同じコーパスでトレーニングされても、これらMTエンジンの性能は異なったものとなる。同様に、トレーニングモジュール148は機械翻訳装置30B内のMTエンジンの言語モデル及び翻訳モデルをパラレルテキストコーパス144を用いてトレーニングする。
-Training Phase In the training phase, the
機械翻訳装置30A内のMTエンジンの組は、機械翻訳装置30B内のものと同じである。しかし、両者は互いに異なるコーパスによってトレーニングされる。したがって、それらの性能は異なるものとなる。
The set of MT engines in the
このようにして機械翻訳装置30A及び30B中のMTエンジンのトレーニングを完了した後、所定のテストセットと所定の評価法(BLEUなど)を用い、機械翻訳装置30A及び機械翻訳装置30Bに含まれるMTエンジンの評価を行なう。そして、その評価のよいものから順番に高い優先順位を割当て、優先順位テーブル156に記憶させる。
After completing the training of the MT engine in the
さらに、N重クロス検定型モデル作成モジュール162により、パラレルテキストコーパス142を用いて、言語モデル群150A及び翻訳モデル群152Aがそれぞれトレーニングされる。同様に、N重クロス検定型モデル作成モジュール164により、パラレルテキストコーパス144を用いて、言語モデル群150B及び翻訳モデル群152Bがそれぞれトレーニングされる。
Further, the
−アプリケーション・フェーズ
先行技術の項で説明したように、入力文40が機械翻訳装置30Aに与えられると、機械翻訳装置30A内のMTエンジンがそれぞれの仮説を出力する。仮説の一つが選択モジュール52(図1)によって選択され、機械翻訳装置30Aの仮説として出力される。
Application Phase As described in the section of the prior art, when the
機械翻訳装置30Bでも同じ手続きが行なわれ、仮説が出力される。
The same procedure is performed in the
二つの仮説は、いずれも図2に示すセレクタ182と変形コーパスによる検定処理モジュール180とに与えられる。
Both hypotheses are given to the
図4を参照して、スコアリングモジュール220及び222は、パラレルテキストコーパス142(コーパスA)から作成された言語モデル群及び翻訳モデル群を用い、従来技術の多重比較検定モジュール100での処理と同様に、それぞれ機械翻訳装置30A及び30Bから出力された仮説に対するスコアリングを行ない、その結果をスコアリングベクトルとして有意差検定モジュール230に与える。有意差検定モジュール230は、スコアリングモジュール220からのスコアリングベクトルと、スコアリングモジュール222からのスコアリングベクトルとの間に、有意な差があるか否かを判定し、あれば他方よりもスコアのよい仮説を示す値をテーブルルックアップモジュール240に与え、なければなかったことを示す値をテーブルルックアップモジュール240に与える。
Referring to FIG. 4, scoring
同様に、スコアリングモジュール224及び226は、パラレルテキストコーパス144(コーパスB)から作成された言語モデル群及び翻訳モデル群を用い、それぞれ機械翻訳装置30A及び30Bから出力された仮説に対するスコアリングを行ない、その結果をそれぞれスコアリングベクトルとして有意差検定モジュール232に与える。有意差検定モジュール232は、スコアリングモジュール224からのスコアリングベクトルと、スコアリングモジュール226からのスコアリングベクトルとの間で、有意な差があるか否かを判定し、あれば他方よりもスコアのよい仮説を示す値をテーブルルックアップモジュール240に与え、なければなかったことを示す値をテーブルルックアップモジュール240に与える。
Similarly, the scoring
テーブルルックアップモジュール240は、有意差検定モジュール230から与えられた値と、有意差検定モジュール232から与えられた値との組合せに対応する枠を規則テーブル158で見つけ、その内容を読出す。テーブルルックアップモジュール240は、もしも読出した内容が「1番目」であれば機械翻訳装置30Aの出力する仮説を選択することを決め、最終選択モジュール242への信号246を第1の値とする。読出した内容が「2番目」であれば機械翻訳装置30Bの出力する仮説を選択することを決め、最終選択モジュール242への信号246の値を第1の値と異なる第2の値とする。読出した内容が「優先順位による」であれば、信号246の値を第1及び第2のいずれの値とも異なる所定の第3の値とする。
The
最終選択モジュール242は、信号246の値が第1又は第2の値であれば、信号246をそのままセレクタ182に対して出力する。信号246の値が第3の値であれば、最終選択モジュール242は、優先順位テーブル156を参照し、有意差検定モジュール230によって選択された仮説を出力した翻訳エンジン(図2の機械翻訳装置30A内)と、有意差検定モジュール232によって選択された仮説を出力した翻訳エンジン(図2の機械翻訳装置30B内)とのいずれかを、優先順位テーブル156中の優先順位にしたがって選択し、それらを含む機械翻訳装置を示す信号をセレクタ182に与える。
If the value of the
図2を参照して、セレクタ182は、変形コーパスによる検定処理モジュール180の最終選択モジュール242から与えられた信号にしたがい、機械翻訳装置30A及び30Bの出力する仮説のいずれかを選択し、出力160として出力する。
Referring to FIG. 2,
本実施の形態に係る機械翻訳システム130では、一つの英日パラレルテキストコーパスから、性格の異なる二つの中英パラレルテキストコーパスを作成する。この場合の「性格」とは、直訳性(翻訳が元の文に忠実に訳しているか、意訳しているかの別)、訳文の文法的傾向及び語彙の相違、記法の相違など、コーパス内の文の文法的な種々の局面における相違をいう。例えば直訳性が高い文が多いコーパスを用いてトレーニングされたモデルを使用した機械翻訳では、得られる訳文は自然な訳文ではないかも知れないが、全くの誤りというわけではないことが多い。一方直訳性が低く、主に意訳がされた文が多いコーパスを用いてトレーニングされたモデルを使用した機械翻訳では、非常に自然な訳文が得られる場合もあるが、誤るときには全く誤った訳文しか得られないことが多い。
In the
特に本実施の形態では、図3の参照符号202に示されるように、英語から中国語に訳した場合には元の英語の構造が比較的よく保たれている一方、参照符号204に示されるように日本語から中国語に訳した場合には、日本語の表現が中国語の翻訳に反映され、元の英語の構造とは異なった中国語訳が得られる傾向が高い。したがって、図3に示すパラレルテキストコーパス142及び144は、上記した「性格」が互いに異なるコーパスとなる。
In particular, in the present embodiment, as shown by
本実施の形態では、機械翻訳装置30A及び30B内で従来技術で説明したように、それぞれのコーパスを使用して得られた訳文の内で、他の訳文よりもよいスコアを示したものが選ばれる。しかし、これだけでは、単独のコーパスによる評価でしかない。一方、MTブロック140から出力される仮説のうち、いずれを選択するかが選択モジュール154で改めて決定される。ここでの評価は、一方のコーパスから得られたモデルだけではなく、両方のコーパスから得られたモデルを用いて行なう。すなわち、全体としては同じ意味を表すコーパスではあるが、訳文の表現の性格が大きく異なる二つのコーパスから得られたモデルによって、互いに異なる側面から仮説の評価が行なわれる。
In the present embodiment, as described in the prior art in the
その評価結果にしたがい、いずれの側面から評価しても他方よりもスコアが有意に高い仮説があれば、その仮説が選択される。この場合の仮説の品質は非常に高くなることが期待できる。一方の評価では有意性が確認できたが他方の評価では有意性が確認できなかった場合には、一方の評価のみで有意性が確認できた仮説が選択される。この場合には、仮説の信頼性はやや低くなるものの、ある程度の信頼性が期待できる。そうした仮説が存在しない場合(評価結果が互いに競合・矛盾する場合、又は有意性がいずれについても確認できなかった場合)には、予めテストセットを用いて行なわれた評価結果にしたがい、好ましい結果が得られると判断されたMTエンジンによる仮説が選択される。この場合、翻訳候補の評価をその選択に使用することはできないが、より一般的な評価基準(すなわち翻訳に使用された翻訳エンジンの一般的な優劣に関する情報)によって仮説が選択されるので、その結果についても、ある程度の信頼性があることが期待できる。 According to the evaluation result, if there is a hypothesis having a score that is significantly higher than that of the other in any aspect, that hypothesis is selected. The hypothesis quality in this case can be expected to be very high. If the significance is confirmed in one evaluation but the significance is not confirmed in the other evaluation, a hypothesis in which the significance is confirmed only in one evaluation is selected. In this case, the reliability of the hypothesis is slightly lowered, but a certain level of reliability can be expected. If such a hypothesis does not exist (if the evaluation results are mutually conflicting or contradictory, or if no significance has been confirmed), a favorable result will be obtained according to the evaluation results that were previously performed using the test set. The hypothesis by the MT engine determined to be obtained is selected. In this case, the evaluation of the translation candidate cannot be used for the selection, but the hypothesis is selected by a more general evaluation criterion (ie information about the general superiority or inferiority of the translation engine used for the translation) The results can be expected to have a certain level of reliability.
すなわち、本実施の形態では、性格の異なるコーパスを用いて仮説を評価し、その結果を総合して仮説を選択する。そのため、特許文献1に記載のシステムのように何らかの基準を設定せずに同一のコーパスを分割し、それらコーパスから得たモデルで仮説を評価する場合と比較して、得られた結果はより信頼性が高くなると思われる。実際、後述するように、本実施の形態のシステム構成に準拠して行なった実験では、よい結果が得られている。 That is, in this embodiment, hypotheses are evaluated using corpus having different personalities, and the hypotheses are selected by combining the results. Therefore, as compared with the case where the same corpus is divided without setting any standard as in the system described in Patent Document 1, and the hypothesis is evaluated with a model obtained from the corpus, the obtained result is more reliable. It seems that the nature becomes high. In fact, as will be described later, good results have been obtained in experiments conducted in accordance with the system configuration of the present embodiment.
<実験結果>
図6に、上記した実施の形態の構成を用いて行なった実験の結果を示す。実験では、7種類のMTエンジンを使用した。これらMTエンジンは、4種類のSMT(MT1〜MT4)と、3種類のEBMT(MT5〜MT7)とを含む。使用したコーパスは、出願人において作成した、BTECと呼ばれる、旅行ドメインでの会話の英日コーパスである。この中の英日パラレルテキストコーパスに基づき、図3に示す方法とは異なり、英語文のみを取出し、独立に中国語への翻訳を2回行なうことにより、二つの中英パラレルテキストコーパスを得た。ここでは、便宜的に一方をオリジナルコーパス、他方を変形コーパスと呼び、それぞれBTEC(O)及びBTEC(V)で表す。また、BTEC(O)又はBTEC(V)によりトレーニングしたMTにもそれぞれ(O)又は(V)を付して表す。
<Experimental result>
FIG. 6 shows the results of an experiment performed using the configuration of the above-described embodiment. In the experiment, seven types of MT engines were used. These MT engines include four types of SMT (MT1 to MT4) and three types of EBMT (MT5 to MT7). The corpus used was an English-Japanese corpus of conversation in the travel domain, called BTEC, created by the applicant. Based on the English-Japanese parallel text corpus, two English-English parallel text corpora were obtained by extracting only English sentences and independently translating them into Chinese twice, unlike the method shown in FIG. . Here, for convenience, one is called an original corpus and the other is called a modified corpus, which are represented by BTEC (O) and BTEC (V), respectively. In addition, MT trained by BTEC (O) or BTEC (V) is also denoted by (O) or (V), respectively.
図6において、左端の欄が「SMT」及び「EBMT」となっている7行の各々は、図2に示すMTブロック140内の機械翻訳装置30A及び機械翻訳装置30Bとして、それぞれただ一つのMTエンジンを使用し、機械翻訳システム130を構成した場合のBLEUスコアと、BTEC(O)及びBTEC(V)をマージして得られたコーパスを用いてトレーニングした同じMTエンジンによるBLEUスコアからのその改善率とを示す。なおこの場合、機械翻訳装置30A又は30B内部での仮説の選択は不要であるから、行なっていない。
In FIG. 6, each of the seven lines in which the leftmost column is “SMT” and “EBMT” is a single MT as the
例えば、MT1(O)からの仮説と、MT1(V)からの仮説とのいずれかを、BTEC(O)及びBTEC(V)から得た言語モデル及び翻訳モデルを用いて相互に検定した結果を用いると、BLEUスコアは0.5010となった。これは、BTEC(O)とBTEC(V)とをマージしたものを用いた場合と比較して3.8パーセントの改善を示す値である。 For example, the result of mutually testing either the hypothesis from MT1 (O) or the hypothesis from MT1 (V) using the language model and translation model obtained from BTEC (O) and BTEC (V). When used, the BLEU score was 0.5010. This is a value indicating an improvement of 3.8% compared to the case where the merged BTEC (O) and BTEC (V) are used.
図6から分かるように、MT1〜MT7のいずれの場合にも、本発明の実施の形態によって得たBLEUスコアの方が、比較例よりもよい値となっている。これにより、本発明の有効性は十分に示されている。 As can be seen from FIG. 6, in any of MT1 to MT7, the BLEU score obtained by the embodiment of the present invention is a better value than the comparative example. This fully demonstrates the effectiveness of the present invention.
図6の最下行には、機械翻訳装置30A及び30Bの各々において、MT1〜MT7までを全て同時に用いて得た結果を示す。機械翻訳装置30Aの各MTエンジンはBTEC(O)を用いてトレーニングし、機械翻訳装置30Bの各MTエンジンはBTEC(V)を用いてトレーニングした。
The bottom row of FIG. 6 shows the results obtained by using all of MT1 to MT7 simultaneously in each of the
その結果は図6の最下行右側に示されているように、BLEUスコア0.5765となった。この結果は、MT1〜MT7をそれぞれ単独で使用した場合と同様、かなり高い数値となっている。BTEC(O)とBTEC(V)とをマージしたコーパスを使用した場合よりも、BLEUスコアは4.2%の改善を示した。 The result was a BLEU score of 0.5765 as shown on the right side of the bottom line of FIG. This result is a considerably high numerical value as in the case where MT1 to MT7 are used individually. The BLEU score showed a 4.2% improvement over the use of a corpus that merged BTEC (O) and BTEC (V).
<コンピュータによる実現>
既に述べたように、この実施の形態の機械翻訳システム130は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムと、コンピュータハードウェアに格納されるコーパス、言語モデル、翻訳モデルなどのデータとにより実現される。図7はこのコンピュータシステム330の外観を示し、図8はコンピュータシステム330の内部構成を示す。
<Realization by computer>
As described above, the
図7を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
Referring to FIG. 7, the
図8を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。
Referring to FIG. 8, in addition to the
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム330に機械翻訳システム130としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352にそれぞれ装着されるDVD362又は携帯型メモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、携帯型メモリ364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態に係る機械翻訳システム130として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で、コンピュータ340内で利用可能な適切な機能又は「ツール」を呼出すことにより、上記した機械翻訳システム130としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions for causing the
<可能な変形例>
なお、上記した実施の形態では、MTブロック140が含む機械翻訳装置は機械翻訳装置30A及び30Bの二つであった。しかし、本発明はそのような実施の形態に限定されるわけではない。MTブロック140には3個以上の機械翻訳装置を設けるようにしてもよい。その場合、図4に示す変形コーパスによる検定処理モジュール180における比較を、上記した実施の形態での方式をそのまま用いて行なうことはできない。しかし、機械翻訳装置の任意の二つの組合せの全てについて、上記した変形コーパスによる検定処理モジュール180における処理を行ない、それらの処理で各仮説が選択された回数の合計で仮説の選択を行なうようにすれば、プログラムでの実現はループが二重になるだけで比較的簡単である。
<Possible modification>
In the embodiment described above, the machine translation devices included in the MT block 140 are the two
さらに、上記実施の形態では、選択モジュール154で使用する変形コーパスを、MTブロック140内の各MTエンジンのトレーニングにも使用している。このようにすると、MTブロック140から出力される仮説は、それぞれ一方のコーパスの性格を強く反映したものとなる。そのために、翻訳結果は互いにかなり異なることが予想され、選択モジュール154での判定で有意な差が生じることが多いと思われる。しかし、本発明はそのような実施の形態には限定されない。MTブロック140をトレーニングするためのコーパスと、選択モジュール154での判定に使用するコーパスとは全く別のものであってもよい。ただし、MTブロック140をトレーニングするコーパスのうち、例えば機械翻訳装置30Aのためのものと、機械翻訳装置30Bのためのものとは、前述したとおり性格が異なっていることが必要であり、また選択モジュール154での判定に用いるコーパスも、互いに性格が異なっていることが必要である。
Further, in the above embodiment, the modified corpus used in the
上記したことから明らかなように、MTブロック140内のMTエンジンをトレーニングするためのコーパスの数と、選択モジュール154での評価に用いるコーパスの数とは、互いに一致する必要はない。本実施の形態では、使用可能なコーパスに制限があるため、両者を共通のものにしたが、両者に全く別の数のコーパスを使用するようにしてもよい。
As is apparent from the above, the number of corpuses for training the MT engine in the MT block 140 and the number of corpuses used for evaluation in the
さらに、上記した実施の形態では、パラレルテキストコーパス142及び144として、英語文を共通とし、中国文が異なる中英コーパスを用いた。すなわち、英語文が両者において一致している。このようなコーパスを用いると、コーパスによってカバーされるドメインがほぼ一致する。したがって、MTブロック140から出力される翻訳は、コーパスの性格を明確に反映したものとなる可能性が高い。したがって、選択モジュール154で行なわれる、種々の側面からの評価が有意義なものとなると思われる。
Further, in the above-described embodiment, as the
しかし本発明はこのように対訳文の一方が一致している一組のコーパスを用いたものに限定されるわけではない。言語の組合せが互いに同一で、かつ性格の異なるようなパラレルテキストコーパスであれば、どのような組合せのものを用いても、あるコーパスを単独で使用する場合と比較して評価の側面が多様になり、最終的に得られる結果もよりよいものとなることが期待できる。 However, the present invention is not limited to one using a pair of corpora in which one of the parallel translations is matched. Parallel text corpora with the same language combination and different personalities will have various aspects of evaluation compared to using a single corpus, regardless of the combination. It can be expected that the final result will be better.
なお、上記した実施の形態では、仮説のスコアについて、言語モデル群及び翻訳モデル群の双方を用いて算出している。しかし本発明はそのような実施の形態には限定されない。例えば言語モデル群のみ、又は翻訳モデル群のみを使用して仮説のスコアを算出するようにしてもよい。 In the above-described embodiment, the hypothesis score is calculated using both the language model group and the translation model group. However, the present invention is not limited to such an embodiment. For example, the hypothesis score may be calculated using only the language model group or only the translation model group.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30,130 機械翻訳システム
30A,30B 機械翻訳装置
140 MTブロック
142,144 パラレルテキストコーパス
156 優先順位テーブル
158 規則テーブル
180 変形コーパスによる検定処理モジュール
220,222,224,226 スコアリングモジュール
230,232 有意差検定モジュール
30, 130
Claims (13)
前記第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、所定の第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第1の判定手段と、
前記第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、前記第1の判定基準と異なる所定の第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第2の判定手段と、
前記第1の判定手段及び前記第2の判定手段の出力に基づいて、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを前記入力に対する翻訳文として選択し出力するための選択手段とを含む、機械翻訳装置。 First and second machine translation means for outputting translation candidates in a predetermined second language for a common input sentence in a predetermined first language;
The translation candidates output by the first and second machine translation units are received, and information indicating translation candidates determined to have a quality superior to the other according to a predetermined first determination criterion is output. First determination means for
The translation candidates output by the first and second machine translation units are received, respectively, and determined to have a quality superior to the other according to a predetermined second criterion different from the first criterion. Second determination means for outputting information indicating translation candidates
Based on the outputs of the first determination means and the second determination means, one of the translation candidates output by the first and second machine translation means is selected and output as a translation for the input. A machine translation device including selection means.
所定の第1の統計的モデルを用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第1のスコア算出手段と、
前記第1のスコア算出手段が前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第1のスコア判定手段と、
前記第1のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第1の翻訳候補選択手段とを含む、請求項1に記載の機械翻訳装置。 The first determination means includes
First score calculation for calculating scores of translation candidates output from the first machine translation unit and the second machine translation unit by a predetermined scoring method using a predetermined first statistical model Means,
A first score for determining whether or not there is a significant difference between the scores calculated by the first score calculation means for the translation candidates output by the first machine translation means and the second machine translation means; A score determination means,
First translation candidate selection means for outputting information indicating translation candidates determined to have a score superior to the other with a significant difference according to the determination result of the first score determination means The machine translation apparatus according to claim 1.
前記第1の統計的モデルと異なる所定の第2の統計的モデルを用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第2のスコア算出手段と、
前記第2のスコア算出手段が前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第2のスコア判定手段と、
前記第2のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第2の翻訳候補選択手段とを含む、請求項1又は請求項2に記載の機械翻訳装置。 The second determination means includes
By using a predetermined scoring method using a predetermined second statistical model different from the first statistical model, the scores of translation candidates output from the first machine translation unit and the second machine translation unit are obtained. A second score calculating means for calculating;
A second for determining whether or not there is a significant difference between the scores calculated by the second score calculation means for the translation candidates output by the first machine translation means and the second machine translation means; A score determination means,
Second translation candidate selection means for outputting information indicating translation candidates determined to have a score superior to the other with a significant difference based on the determination result of the second score determination means The machine translation apparatus according to claim 1 or 2.
前記第1のパラレルテキストコーパスから、前記第2の言語から前記第1の言語への第1の統計的翻訳モデル群を作成するための第1の翻訳モデル作成手段とをさらに含み、
前記第1のスコア算出手段は、前記第1の統計的言語モデル群及び前記第1の翻訳モデル群を用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む、請求項1〜請求項3のいずれかに記載の機械翻訳装置。 A first statistical language model group for the second language is created from the second language sentence of the first parallel text corpus comprising the parallel translation sentences of the first and second languages. Language model creation means,
First translation model creating means for creating a first statistical translation model group from the second language to the first language from the first parallel text corpus;
The first score calculation means uses the first machine translation means and the second machine translation by a predetermined scoring method using the first statistical language model group and the first translation model group. 4. The machine translation apparatus according to claim 1, further comprising means for calculating a score of translation candidates output by the means.
前記第2のパラレルテキストコーパスから、前記第2の言語から前記第1の言語への第2の統計的翻訳モデル群を作成するための第2の翻訳モデル作成手段とをさらに含み、
前記第2のスコア算出手段は、前記第2の統計的言語モデル群及び前記第2の翻訳モデル群を用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む、請求項4に記載の機械翻訳装置。 A second statistical of the second language from a sentence of the second language of a second parallel text corpus different from the first parallel text corpus, comprising bilingual sentences of the first and second languages. A second language model creating means for creating a language model group;
A second translation model creating means for creating a second statistical translation model group from the second language to the first language from the second parallel text corpus;
The second score calculating means uses the first machine translation means and the second machine translation by a predetermined scoring method using the second statistical language model group and the second translation model group. The machine translation apparatus according to claim 4, comprising means for calculating a score of translation candidates output by the means.
前記第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、前記翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力し、
前記選択手段は、前記第1及び第2の判定手段の出力と、前記優先順位記憶手段に記憶された情報とによって、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む、請求項1〜請求項7のいずれかに記載の機械翻訳装置。 Furthermore, priority order storage means for storing priority given to the first and second machine translation means,
When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means, instead of the information indicating the translation candidate, Output information indicating that there are no translation candidates that satisfy the condition,
The selection means selects one of the translation candidates output from the first and second machine translation means based on the output of the first and second determination means and the information stored in the priority order storage means. The machine translation apparatus according to claim 1, comprising means for selecting and outputting.
前記第1及び第2の判定手段の出力が一致して一方の翻訳候補を示すことに応答して、当該翻訳候補を選択するための手段と、
前記第1及び第2の判定手段の出力が競合していることに応答して、前記優先順位記憶手段により決定される機械翻訳手段から出力された翻訳候補を選択するための手段と、
前記第1及び第2の判定手段の出力の一方がある翻訳候補を示し、他方が条件を満たす翻訳候補の不在を示すことに応答して、前記ある翻訳候補を選択するための手段とを含む、請求項8に記載の機械翻訳装置。 The means for outputting is:
Means for selecting the translation candidate in response to the output of the first and second determining means being matched and indicating one translation candidate;
Means for selecting translation candidates output from the machine translation means determined by the priority storage means in response to conflicting outputs of the first and second determination means;
Means for selecting the certain translation candidate in response to one of the outputs of the first and second determination means indicating a translation candidate and the other indicating the absence of a translation candidate that satisfies the condition. The machine translation apparatus according to claim 8.
前記入力を受けて、それぞれが前記第2の言語の翻訳候補を出力する複数の機械翻訳エンジンと、
前記複数の機械翻訳エンジンの出力する翻訳候補のいずれかを、所定の判定基準にしたがって選択するための手段とを含む、請求項1〜請求項7のいずれかに記載の機械翻訳装置。 Each of the first and second machine translation means includes:
A plurality of machine translation engines each receiving the input and outputting translation candidates for the second language;
The machine translation device according to claim 1, further comprising: means for selecting any one of translation candidates output from the plurality of machine translation engines according to a predetermined determination criterion.
前記第1及び第2の機械翻訳手段の出力する翻訳候補には、それぞれどの機械翻訳エンジンの出力かを示す情報が付されており、
前記第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、前記翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力し、
前記選択手段は、前記第1及び第2の判定手段の出力と、前記優先順位記憶手段に記憶された情報と、前記第1及び第2の機械翻訳手段の出力する翻訳候補に付された、どの機械翻訳エンジンの出力かを示す情報とによって、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む、請求項10に記載の機械翻訳装置。 And further comprising priority order storage means for storing priorities assigned to each of the machine translation engines included in the first and second machine translation means,
Each of the translation candidates output by the first and second machine translation means has information indicating which machine translation engine is output,
When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means, instead of the information indicating the translation candidate, Output information indicating that there are no translation candidates that satisfy the condition,
The selection means is attached to the output of the first and second determination means, the information stored in the priority order storage means, and the translation candidate output from the first and second machine translation means, 11. The machine translation according to claim 10, further comprising means for selecting and outputting one of translation candidates output by the first and second machine translation means according to information indicating which machine translation engine output. apparatus.
前記第1及び第2のパラレルテキストコーパスの前記第2の言語の文は、互いに独立である、請求項5に記載の機械翻訳装置。 At least some of the sentences in the first language of the first and second parallel text corpora are common to each other;
6. The machine translation device according to claim 5, wherein sentences in the second language of the first and second parallel text corpora are independent of each other.
A computer program that, when executed by a computer, causes the computer to function as the machine translation device according to any one of claims 1 to 12.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006154501A JP2007323476A (en) | 2006-06-02 | 2006-06-02 | Mechanical translation device and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006154501A JP2007323476A (en) | 2006-06-02 | 2006-06-02 | Mechanical translation device and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007323476A true JP2007323476A (en) | 2007-12-13 |
Family
ID=38856214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006154501A Pending JP2007323476A (en) | 2006-06-02 | 2006-06-02 | Mechanical translation device and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007323476A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090100A (en) * | 2009-10-21 | 2011-05-06 | National Institute Of Information & Communication Technology | Speech translation system, controller, speech recognition device, translation device, and speech synthesizer |
JP2012168893A (en) * | 2011-02-16 | 2012-09-06 | Toshiba Corp | Machine translation apparatus, machine translation method and machine translation program |
JP2013089116A (en) * | 2011-10-20 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | Optimal translation sentence selection device, translation sentence selection model learning device, method, and program |
JP2013190975A (en) * | 2012-03-13 | 2013-09-26 | Yahoo Japan Corp | Translation control device, translation control method and translation control program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038406A (en) * | 2002-07-01 | 2004-02-05 | Advanced Telecommunication Research Institute International | Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data |
JP2005108184A (en) * | 2003-09-09 | 2005-04-21 | Advanced Telecommunication Research Institute International | Machine translation system, its controller and computer program |
-
2006
- 2006-06-02 JP JP2006154501A patent/JP2007323476A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038406A (en) * | 2002-07-01 | 2004-02-05 | Advanced Telecommunication Research Institute International | Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data |
JP2005108184A (en) * | 2003-09-09 | 2005-04-21 | Advanced Telecommunication Research Institute International | Machine translation system, its controller and computer program |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090100A (en) * | 2009-10-21 | 2011-05-06 | National Institute Of Information & Communication Technology | Speech translation system, controller, speech recognition device, translation device, and speech synthesizer |
US8954335B2 (en) | 2009-10-21 | 2015-02-10 | National Institute Of Information And Communications Technology | Speech translation system, control device, and control method |
JP2012168893A (en) * | 2011-02-16 | 2012-09-06 | Toshiba Corp | Machine translation apparatus, machine translation method and machine translation program |
JP2013089116A (en) * | 2011-10-20 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | Optimal translation sentence selection device, translation sentence selection model learning device, method, and program |
JP2013190975A (en) * | 2012-03-13 | 2013-09-26 | Yahoo Japan Corp | Translation control device, translation control method and translation control program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3971373B2 (en) | Hybrid automatic translation system that mixes rule-based method and translation pattern method | |
US8209166B2 (en) | Apparatus, method, and computer program product for machine translation | |
US8494835B2 (en) | Post-editing apparatus and method for correcting translation errors | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
US20080306728A1 (en) | Apparatus, method, and computer program product for machine translation | |
US20100088085A1 (en) | Statistical machine translation apparatus and method | |
JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
JP2007108749A (en) | Method and device for training in statistical model of prosody, method and device for analyzing prosody, and method and system for synthesizing text speech | |
KR20090066067A (en) | Method and apparatus for providing hybrid automatic translation | |
US20070282596A1 (en) | Generating grammatical elements in natural language sentences | |
KR20150033735A (en) | Word division device, word division method, and word division program | |
Sun et al. | Contextual text denoising with masked language models | |
Desai et al. | Diagnosing transformers in task-oriented semantic parsing | |
EP2851809A2 (en) | Machine translation apparatus and method | |
JP2007323476A (en) | Mechanical translation device and computer program | |
JP2016164707A (en) | Automatic translation device and translation model learning device | |
US20210133394A1 (en) | Experiential parser | |
JP5317061B2 (en) | A simultaneous classifier in multiple languages for the presence or absence of a semantic relationship between words and a computer program therefor. | |
CN113268996A (en) | Method for expanding corpus, training method for translation model and product | |
KR20210035721A (en) | Machine translation method using multi-language corpus and system implementing using the same | |
JP2004038406A (en) | Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data | |
CN111178097A (en) | Method and device for generating Chinese and Tai bilingual corpus based on multi-level translation model | |
JP2006004366A (en) | Machine translation system and computer program for it | |
JP4113204B2 (en) | Machine translation apparatus, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090507 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120403 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120724 |