JP2007323476A - Mechanical translation device and computer program - Google Patents

Mechanical translation device and computer program Download PDF

Info

Publication number
JP2007323476A
JP2007323476A JP2006154501A JP2006154501A JP2007323476A JP 2007323476 A JP2007323476 A JP 2007323476A JP 2006154501 A JP2006154501 A JP 2006154501A JP 2006154501 A JP2006154501 A JP 2006154501A JP 2007323476 A JP2007323476 A JP 2007323476A
Authority
JP
Japan
Prior art keywords
translation
machine translation
output
language
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006154501A
Other languages
Japanese (ja)
Inventor
Paul Micheal
ミヒャエル・パウル
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006154501A priority Critical patent/JP2007323476A/en
Publication of JP2007323476A publication Critical patent/JP2007323476A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve final translation quality by reducing the level of ambiguity in selection of a best translation candidate from translation candidates obtained by a plurality of mechanical translation parts. <P>SOLUTION: The mechanical translation system 130 comprises mechanical translation devices 30A and 30B each of which outputs an English translation candidate to a Chinese common input sentence; and a selector 182 which receives the translation candidates, calculates, based on a determination reference using a language model group 150A and a translation model group 152 and on a determination reference using a language model group 150B and a translation model group 152B, which are obtained from parallel text corpuses 142 and 144 differed in property, both scores of each translation candidate, and selects and outputs, based on the scores, either one of the translation candidates outputted by the mechanical translation devices 30A and 30B as a translation output 160. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は機械翻訳システムに関し、特に、同一の入力に対し複数の翻訳エンジンから出力される仮説の一つを選択する機械翻訳システムに関する。   The present invention relates to a machine translation system, and more particularly to a machine translation system that selects one of hypotheses output from a plurality of translation engines for the same input.

機械翻訳(MT)とは、ある自然言語から他の自然言語にテキストを翻訳するという作業に対して、コンピュータを適用したものである。機械翻訳に対する最新のアプローチは、大規模パラレルテキストコーパス、すなわちソース言語とターゲット言語との対訳の集合を使用するというものである。こうしたアプローチは「コーパスベースの機械翻訳」と呼ばれる。   Machine translation (MT) is the application of a computer to the task of translating text from one natural language to another. The latest approach to machine translation is to use a massively parallel text corpus, ie a set of parallel translations of source and target languages. This approach is called “corpus-based machine translation”.

コーパスベースの機械翻訳において採用される主な戦略として二種類がある。第1は用例機械翻訳(EBMT)である。第2は統計機械翻訳(SMT)である。   There are two main strategies employed in corpus-based machine translation. The first is example machine translation (EBMT). The second is statistical machine translation (SMT).

EBMTは、コーパスを直接に利用する。すなわち、入力表現が与えられると、EBMTはその入力表現に最も類似した文を持つ翻訳用例(対訳)をコーパス中から見つけ出し、その対訳中のターゲット言語の文を変形して、入力表現に対する翻訳を作り出す。   EBMT uses the corpus directly. That is, given an input expression, EBMT finds a translation example (parallel translation) having a sentence most similar to the input expression from the corpus, transforms the sentence of the target language in the parallel translation, and translates the input expression. produce.

一方、SMTは、最初に、コーパスから翻訳のための翻訳統計的モデルを学習し、実行時には、多数の翻訳文の候補を作成し、その中から言語モデル及び統計モデルにしたがって最善の翻訳、すなわち確率的に最も確からしいものを探索する。   On the other hand, the SMT first learns a translation statistical model for translation from the corpus, and creates a large number of translation sentence candidates at the time of execution, from which the best translation according to the language model and statistical model, that is, Search for the most probable thing.

SMTの動作の枠組みは、ソース言語の文Sをターゲット言語の文Tに翻訳するという問題を、次の条件付確率の最大化問題に帰着させる。   The SMT operation framework reduces the problem of translating the source language sentence S to the target language sentence T into the following conditional probability maximization problem.

Figure 2007323476
ただしここでp(T)は言語モデル(LM)と呼ばれる統計的なモデルであって、ターゲット言語において各単語の出現する確率を表す。Tハットはソース言語の文Sに対する翻訳である。p(S|T)は翻訳モデル(TM)と呼ばれ、ソース言語の文Sからターゲット言語の文Tが生成される確率を表す。
Figure 2007323476
Here, p (T) is a statistical model called a language model (LM), and represents the probability that each word appears in the target language. T hat is a translation for sentence S in the source language. p (S | T) is called a translation model (TM) and represents a probability that a target language sentence T is generated from a source language sentence S.

LM及びTMの確率は、それぞれ単言語コーパス及びバイリンガルコーパスから自動的に学習することが可能であり、そのためのツールも普及している。そうした確率に基づき、機械翻訳で生成される全ての翻訳候補に対してスコアを計算することができる。候補の中で最も高いスコアを示した候補が翻訳出力として選択される。なお、バイリンガルコーパスが存在する場合、そのうちの一方の言語(ソース言語又はターゲット言語)の文の集まりを単言語コーパスとして用い、その言語の言語モデルの算出に使用することもできる。
特開2006−39616号公報
The probabilities of LM and TM can be automatically learned from a monolingual corpus and a bilingual corpus, respectively, and tools for that purpose are also popular. Based on such probabilities, scores can be calculated for all translation candidates generated by machine translation. The candidate showing the highest score among the candidates is selected as the translation output. If a bilingual corpus exists, a collection of sentences in one of the languages (source language or target language) can be used as a monolingual corpus and used to calculate a language model for that language.
JP 2006-39616 A

機械翻訳システムの性能は、単言語及びバイリンガルのトレーニングデータのサイズに依存することが知られている。例えば、アラビア語のニュースワイアのテキストの英語への翻訳に関する調査によれば、統計的言語モデルのトレーニングに使用する単言語のトレーニングデータの大きさを2倍にすると、BLEUスコア(機械翻訳の分野で使用される、翻訳に対する客観的評価尺度であって、MTの出力を参照訳と比較することにより算出されるスコア)には0.5%の改善が見られ、パラレルトレーニングデータの大きさを2倍にすると、同じく2.5%の改善が見られるとのことである。   It is known that the performance of a machine translation system depends on the size of monolingual and bilingual training data. For example, according to a survey on the translation of Arabic newswire text into English, doubling the size of monolingual training data used for statistical language model training resulted in a BLEU score (machine translation field). , Which is an objective evaluation scale for translation, calculated by comparing the output of MT with a reference translation), shows a 0.5% improvement in the size of parallel training data. If doubled, the same improvement of 2.5% can be seen.

これは、トレーニングデータが大きければ大きいほど、利用されるMTエンジンの翻訳品質が向上することを示す。しかし、トレーニングデータの量を増やせば、翻訳モデルの曖昧さのレベルも増大し、生成された多数の翻訳候補から最良の翻訳をどのように特定するかにかかる作業の複雑さも増大する。したがって、より多くの誤訳が起こりうる。   This indicates that the larger the training data, the better the translation quality of the MT engine used. However, increasing the amount of training data increases the level of ambiguity of the translation model and increases the complexity of how to identify the best translation from the many translation candidates generated. Therefore, more mistranslations can occur.

多数の翻訳候補から最良の翻訳をいかにして選択するかという課題に対してこれまでに提案されてきた対策のほとんどは、統計的な手法を用いている。先行技術の方法のうち、特許文献1に記載のものが最も有望であると思われる。   Most of the countermeasures that have been proposed so far on the problem of how to select the best translation from a large number of translation candidates use statistical techniques. Of the prior art methods, the one described in Patent Document 1 seems to be the most promising.

図1は特許文献1に開示された機械翻訳システム30の全体構造を示す。図1を参照して、機械翻訳システム30は、入力された文40をそれぞれの仮説に翻訳する異なるMTエンジン70A,70B,…,70Mを含むMTブロック42と、MTブロック42から出力される仮説の一つを統計モデルに基づいて選択するための選択ブロック52と、パラレルテキストコーパス44と、MTエンジン70A,70B,…,70Mのための適切なデータを構築しトレーニングするためのトレーニングモジュール46とを含む。   FIG. 1 shows the overall structure of a machine translation system 30 disclosed in Patent Document 1. Referring to FIG. 1, the machine translation system 30 includes an MT block 42 including different MT engines 70A, 70B,..., 70M for translating an input sentence 40 into respective hypotheses, and a hypothesis output from the MT block 42. A selection block 52 for selecting one of them based on a statistical model, a parallel text corpus 44, and a training module 46 for building and training appropriate data for the MT engines 70A, 70B,. including.

機械翻訳システム30はさらに、パラレルテキストコーパス44をN個のサブセットに分割し、コーパス全体からサブセットのそれぞれ一つ(1/Nのサブセット)を除去することによってN個のサブコーパス80A〜80Nを生成し、サブコーパス80A〜80Nにより言語モデル90A〜90Nと翻訳モデル92A〜92Nとをそれぞれ生成するためのN重クロス検定型モデル作成モジュール48とを含む。言語モデル90A〜90Nと翻訳モデル92A〜92Nとは、選択モジュール52における翻訳候補の選択の際に用いられる。   The machine translation system 30 further generates N sub-corpora 80A-80N by dividing the parallel text corpus 44 into N subsets and removing each one of the subsets (1 / N subsets) from the entire corpus. And an N-fold cross-validation model creation module 48 for generating language models 90A to 90N and translation models 92A to 92N, respectively, using the sub-corpora 80A to 80N. The language models 90A to 90N and the translation models 92A to 92N are used when selecting a translation candidate in the selection module 52.

選択モジュール52は、MTエンジン70A,70B,…,70Mからの仮説出力の各々について、N個のセットの言語モデルと翻訳モデルとによりN個の統計的スコアを計算し、一つのMT出力について得られた統計的スコアが別のMT出力に対するものより有意に高いか否かを判定するための多重比較検定モジュール100と、多重比較検定モジュール100の出力に応答して、機械翻訳システム30の出力54として仮説の一つを選択するためのセレクタ102とを含む。   The selection module 52 calculates N statistical scores for each hypothesis output from the MT engines 70A, 70B,..., 70M by N sets of language models and translation models and obtains for one MT output. A multiple comparison test module 100 for determining whether the obtained statistical score is significantly higher than that for another MT output, and in response to the output of the multiple comparison test module 100, the output 54 of the machine translation system 30 And a selector 102 for selecting one of the hypotheses.

他の仮説よりスコアが有意に高い仮説が存在しない場合、セレクタ102はMTエンジン70A,70B,…,70M中で、予め設定された優先順位にしたがって、仮説の一つを選択する。優先順位は、BLEU等の適切なスコアリング手法と開発セットのコーパスとを用いて予め計算される。   When there is no hypothesis having a score significantly higher than that of other hypotheses, the selector 102 selects one of the hypotheses in the MT engines 70A, 70B,. The priorities are pre-calculated using an appropriate scoring technique such as BLEU and a development set corpus.

多重比較検定モジュール100は、仮説の有意性を計算するにあたって「クルスカル−ウォリス(Kruskal−Wallis)のテスト」と呼ばれる、一対ごとの比較テスト手法を用いる。   The multiple comparison test module 100 uses a pairwise comparison test technique called “Kruskal-Wallis test” in calculating the significance of a hypothesis.

動作において、N重クロス検定型モデル作成モジュール48は、パラレルテキストコーパス44から、互いに異なる1/Nのサブセットを除去することでN個のサブコーパス80A〜80Nを作成する。N重クロス検定型モデル作成モジュール48はさらに、言語モデルと翻訳モデルとのセット90Aと92A,90Bと92B,…を、サブコーパス80A〜80Nからそれぞれ作成する。   In operation, the N-fold cross-validated model creation module 48 creates N sub-corpora 80A-80N by removing different 1 / N subsets from the parallel text corpus 44. The N-fold cross-validation model creation module 48 further creates language models and translation models sets 90A and 92A, 90B and 92B,... From the sub-corpora 80A to 80N, respectively.

トレーニングモジュール46は、パラレルテキストコーパス44を用い、MTエンジン70A,70B,…,70Mの各々をトレーニングする。すなわち、これらのMTエンジンのそれぞれの仕様にあわせ、パラレルテキストコーパス44による言語モデル及び統計モデルの作成、並びに翻訳規則の抽出を行なう。   The training module 46 trains each of the MT engines 70A, 70B, ..., 70M using the parallel text corpus 44. That is, in accordance with the specifications of these MT engines, a language model and a statistical model are created by the parallel text corpus 44, and translation rules are extracted.

入力文40が与えられると、MTエンジン70A,70B,…,70Mの各々は、これをターゲット言語に翻訳し、仮説(翻訳結果)を出力する。仮説は多重比較検定モジュール100とセレクタ102とに与えられる。   When the input sentence 40 is given, each of the MT engines 70A, 70B,..., 70M translates it into a target language and outputs a hypothesis (translation result). The hypothesis is given to the multiple comparison test module 100 and the selector 102.

仮説の各々について、セレクタ102は言語モデルと翻訳モデルとのセット90Aと92A,90Bと92B,…,90Nと92Nを用いて、スコアの組を計算する。全てのスコアを計算した後、多重比較検定モジュール100が仮説のスコアに対してクルスカル−ウォリスのテストを適用し、MTエンジンのうち、そのスコアが他のものより有意に高いものがあるか否かをチェックする。該当するものがあれば、多重比較検定モジュール100はセレクタ102に制御信号を与え、セレクタ102が有意に高いスコアを与える仮説を選択し、これを出力54として出力する。   For each hypothesis, the selector 102 uses the language model and translation model sets 90A and 92A, 90B and 92B,..., 90N and 92N to calculate a set of scores. After calculating all the scores, the multiple comparison test module 100 applies the Kruskal-Wallis test to the hypothetical score, and whether any MT engine has a significantly higher score than the others Check. If applicable, the multiple comparison test module 100 gives a control signal to the selector 102, selects a hypothesis that the selector 102 gives a significantly high score, and outputs it as an output 54.

このアプローチではトレーニングデータ(パラレルテキストコーパス44)はサブコーパス80A〜80Nにランダムに分割される。これらを使用して、統計的言語モデル90A〜90Nと翻訳モデル92A〜92Nとがトレーニングされる。したがって、元のコーパスに内在する曖昧さのレベルを下げることはできず、時に、望ましくない出力が得られる。   In this approach, training data (parallel text corpus 44) is randomly divided into sub-corpora 80A-80N. These are used to train statistical language models 90A-90N and translation models 92A-92N. Thus, the level of ambiguity inherent in the original corpus cannot be reduced and sometimes an undesirable output is obtained.

したがって、この発明の目的の一つは、複数の機械翻訳部で得られた翻訳候補から最良の翻訳候補を選択する機械翻訳装置であって、翻訳時の曖昧さのレベルを下げることにより、最終的な翻訳品質を改善することができる機械翻訳装置を提供することである。   Accordingly, one of the objects of the present invention is a machine translation device that selects the best translation candidate from translation candidates obtained by a plurality of machine translation units, and reduces the level of ambiguity at the time of translation. It is to provide a machine translation apparatus capable of improving a general translation quality.

本発明の第1の局面に係る機械翻訳装置は、所定の第1の言語による共通の入力文に対し、各々が所定の第2の言語による翻訳候補を出力するための第1及び第2の機械翻訳手段と、第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、所定の第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第1の判定手段と、第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、第1の判定基準と異なる所定の第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第2の判定手段と、第1の判定手段及び第2の判定手段の出力に基づいて、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを入力に対する翻訳文として選択し出力するための選択手段とを含む。   The machine translation device according to the first aspect of the present invention provides a first and a second for outputting translation candidates in a predetermined second language for a common input sentence in a predetermined first language. Machine translation means and translation candidates respectively output by the first and second machine translation means are received, and translation candidates that are determined to have higher quality than the other according to a predetermined first criterion The first determination means for outputting the information to be displayed and the translation candidates output by the first and second machine translation means, respectively, and from the other according to a predetermined second determination criterion different from the first determination criterion Based on outputs of a second determination means for outputting information indicating translation candidates determined to have excellent quality, and outputs of the first determination means and the second determination means. Input any of translation candidates output by the second machine translation means Select the translation of and a selection means for outputting.

第1及び第2の機械翻訳手段は、第1の言語による共通の入力文を受けて、それぞれ第2の言語による翻訳候補を出力する。第1の判定手段は、第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力する。同様に第2の判定手段は、第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力する。選択手段は、第1の判定手段及び第2の判定手段の出力に基づいて、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを入力に対する翻訳文として選択し出力する。第1及び第2の判定手段が使用する判定基準は互いに異なっており、異なる側面から翻訳候補を評価する。選択手段の選択は、これら多面的な評価に基づいて行なわれるので、翻訳候補選択時の曖昧さが低減され、選択される翻訳候補の品質が改善される。   The first and second machine translation units receive a common input sentence in the first language and output translation candidates in the second language, respectively. The first determination means outputs information indicating translation candidates determined to have quality superior to the other according to the first determination criterion. Similarly, the second determination means outputs information indicating translation candidates determined to have a quality superior to the other according to the second determination criterion. The selection means selects and outputs one of translation candidates output from the first and second machine translation means as a translation sentence for the input based on the outputs of the first determination means and the second determination means. The determination criteria used by the first and second determination means are different from each other, and translation candidates are evaluated from different aspects. Since the selection means is selected based on these multifaceted evaluations, the ambiguity when selecting translation candidates is reduced, and the quality of the selected translation candidates is improved.

好ましくは、第1の判定手段は、所定の第1の統計的モデルを用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第1のスコア算出手段と、第1のスコア算出手段が第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第1のスコア判定手段と、第1のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第1の翻訳候補選択手段とを含む。   Preferably, the first determination means calculates scores of translation candidates output from the first machine translation means and the second machine translation means by a predetermined scoring method using a predetermined first statistical model. Whether there is a significant difference between the scores calculated by the first score calculation means for the translation and the translation candidates output by the first machine translation means and the second machine translation means by the first score calculation means Information indicating translation candidates determined to have a score superior to the other with a significant difference according to the determination result of the first score determination unit and the first score determination unit First translation candidate selection means.

第1のスコア算出手段は、所定のスコアリング手法によって第1及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出する。これらのスコアに有意な差があれば、優れたスコアを示した翻訳候補が第1の候補選択手段により選択され、選択手段の選択対象となる。他方に対し、単にスコアが高いだけではなく、有意な差をもって優れていると判定された翻訳候補が選択手段による選択対象となるので、最終的に選択される翻訳の品質も改善される。   The first score calculation means calculates scores of translation candidates output from the first and second machine translation means by a predetermined scoring method. If there is a significant difference between these scores, a translation candidate showing an excellent score is selected by the first candidate selection means and becomes a selection target of the selection means. On the other hand, since the translation candidate determined not only to have a high score but also to be superior with a significant difference becomes a selection target by the selection means, the quality of the finally selected translation is also improved.

より好ましくは、第2の判定手段は、第1の統計的モデルと異なる所定の第2の統計的モデルを用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第2のスコア算出手段と、第2のスコア算出手段が第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第2のスコア判定手段と、第2のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第2の翻訳候補選択手段とを含む。   More preferably, the second determination means uses the predetermined scoring method using a predetermined second statistical model different from the first statistical model, and uses the first machine translation means and the second machine translation means. The second score calculating means for calculating the score of the translation candidate output by the second score calculating means, and the second score calculating means calculated for the translation candidate output by the first machine translation means and the second machine translation means The second score determination means for determining whether or not there is a significant difference in the score, and the determination result of the second score determination means, it is determined that it has a score superior to the other with a significant difference Second translation candidate selection means for outputting information indicating the translated translation candidates.

第2のスコア算出手段は、第1のスコア算出手段が用いたものとは異なる統計的モデルを用いた所定のスコアリング手法によって、第1及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出する。これらのスコアに有意な差があれば、優れたスコアを示した翻訳候補が第2の翻訳候補選択手段により選択され、選択手段の選択対象となる。他方に対し、単にスコアが高いだけではなく、有意な差をもって優れていると判定された翻訳候補が選択手段による選択対象となるので、最終的に選択される翻訳の品質も改善される。第1のスコア算出手段でも同様の処理をしている場合、最終的に選択手段が選択する翻訳の品質が改善される可能性はさらに高くなる。   The second score calculation means uses a predetermined scoring technique using a statistical model different from that used by the first score calculation means, and outputs the translation candidate scores output by the first and second machine translation means. Is calculated. If there is a significant difference between these scores, a translation candidate showing an excellent score is selected by the second translation candidate selection means and is selected by the selection means. On the other hand, since the translation candidate determined not only to have a high score but also to be superior with a significant difference becomes a selection target by the selection means, the quality of the finally selected translation is also improved. When the same processing is performed in the first score calculation means, the possibility that the quality of translation finally selected by the selection means will be further increased.

さらに好ましくは、機械翻訳装置は、第1及び第2の言語の対訳文からなる第1のパラレルテキストコーパスの第2の言語の文から、第2の言語の第1の統計的言語モデル群を作成するための第1の言語モデル作成手段と、第1のパラレルテキストコーパスから、第2の言語から第1の言語への第1の統計的翻訳モデル群を作成するための第1の翻訳モデル作成手段とをさらに含み、第1のスコア算出手段は、第1の統計的言語モデル群及び第1の翻訳モデル群を用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む。   More preferably, the machine translation device obtains the first statistical language model group of the second language from the second language sentence of the first parallel text corpus composed of the parallel translation sentences of the first and second languages. A first translation model for creating a first statistical translation model group from the second language to the first language from the first language model creating means for creating and the first parallel text corpus Creating means, wherein the first score calculating means uses a predetermined scoring technique using the first statistical language model group and the first translation model group, and the first machine translation means and the second machine translation means. Means for calculating a translation candidate score output by the machine translation means are included.

機械翻訳装置は、第1及び第2の言語の対訳文からなる、第1のパラレルテキストコーパスと異なる第2のパラレルテキストコーパスの第2の言語の文から、第2の言語の第2の統計的言語モデル群を作成するための第2の言語モデル作成手段と、第2のパラレルテキストコーパスから、第2の言語から第1の言語への第2の統計的翻訳モデル群を作成するための第2の翻訳モデル作成手段とをさらに含んでもよい。第2のスコア算出手段は、第2の統計的言語モデル群及び第2の翻訳モデル群を用いた所定のスコアリング手法によって、第1の機械翻訳手段及び第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む。   The machine translation device includes a second statistic of a second language from a sentence of a second language of a second parallel text corpus different from the first parallel text corpus, which is composed of a bilingual sentence of the first and second languages. A second statistical translation model group from the second language to the first language from the second language model creating means for creating the static language model group and the second parallel text corpus Second translation model creation means may be further included. The second score calculation means is a translation output from the first machine translation means and the second machine translation means by a predetermined scoring method using the second statistical language model group and the second translation model group. Means for calculating a score for the candidate.

好ましくは、機械翻訳装置は、第1のパラレルテキストコーパスを学習データとして、第1の機械翻訳手段のトレーニングを行なうための手段をさらに含む。   Preferably, the machine translation apparatus further includes means for training the first machine translation means using the first parallel text corpus as learning data.

第1の機械翻訳手段は、第1のパラレルテキストコーパスを学習データとしてトレーニングされる。その翻訳結果は、第1のパラレルテキストコーパスから得られた統計的モデルを用いて評価されるだけではなく、第2のパラレルテキストコーパスから得られた統計的モデルを用いても評価される。それら異なるコーパスによる異なる基準で翻訳候補の評価が行なわれるので、翻訳候補の選択の信頼性は高くなり、最終的に出力される翻訳文の品質が改善される。   The first machine translation means is trained using the first parallel text corpus as learning data. The translation result is evaluated not only using the statistical model obtained from the first parallel text corpus, but also using the statistical model obtained from the second parallel text corpus. Since the translation candidates are evaluated based on different criteria by these different corpora, the reliability of selection of the translation candidates is increased, and the quality of the translation sentence to be finally output is improved.

より好ましくは、機械翻訳装置は、第2のパラレルテキストコーパスを学習データとして、第2の機械翻訳手段のトレーニングを行なうための手段をさらに含む。   More preferably, the machine translation apparatus further includes means for training the second machine translation means using the second parallel text corpus as learning data.

第2の機械翻訳手段は、第2のパラレルテキストコーパスを学習データとしてトレーニングされる。その翻訳結果は、第2のパラレルテキストコーパスから得られた統計的モデルを用いて評価されるだけではなく、第1のパラレルテキストコーパスから得られた統計的モデルを用いても評価される。それら異なるコーパスによる異なる基準で翻訳候補の評価が行なわれるので、翻訳候補の選択の信頼性は高くなり、最終的に出力される翻訳文の品質が改善される。   The second machine translation means is trained using the second parallel text corpus as learning data. The translation result is evaluated not only using the statistical model obtained from the second parallel text corpus, but also using the statistical model obtained from the first parallel text corpus. Since the translation candidates are evaluated based on different criteria by these different corpora, the reliability of selection of the translation candidates is increased, and the quality of the translation sentence to be finally output is improved.

さらに好ましくは、機械翻訳装置はさらに、第1及び第2の機械翻訳手段に対して付された優先順位を記憶するための優先順位記憶手段を含む。第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力する。選択手段は、第1及び第2の判定手段の出力と、優先順位記憶手段に記憶された情報とによって、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む。   More preferably, the machine translation apparatus further includes priority order storage means for storing priorities assigned to the first and second machine translation means. When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means replace the information indicating the translation candidate with a condition. Information indicating that there are no satisfactory translation candidates is output. The selection means selects and outputs one of the translation candidates output from the first and second machine translation means based on the outputs of the first and second determination means and the information stored in the priority order storage means. Means for.

統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、第1及び第2の判定手段は、条件を充足する翻訳候補がないことを示す情報を出力する。出力するための手段は、第1及び第2の判定手段により条件を充足する翻訳候補がないときでも、優先順位記憶手段に記憶された情報を用いてどの翻訳候補を出力するかを選択できる。予め優先順位記憶手段に所望の優先順位で第1及び第2の機械翻訳手段を登録しておくことにより、他方に対して有意な差をもって優れた品質の翻訳候補がなくても、ある程度の信頼性をもって翻訳候補を選択できる。   When there is no translation candidate that is determined to have quality superior to the other with statistical significance, the first and second determination means include information indicating that there is no translation candidate that satisfies the condition. Output. The means for outputting can select which translation candidate is to be output using the information stored in the priority storage means even when there is no translation candidate satisfying the condition by the first and second determination means. By registering the first and second machine translation means in a desired priority order in the priority order storage means in advance, even if there is no superior quality translation candidate with a significant difference from the other, a certain degree of trust A translation candidate can be selected with certainty.

出力するための手段は、第1及び第2の判定手段の出力が一致して一方の翻訳候補を示すことに応答して、当該翻訳候補を選択するための手段と、第1及び第2の判定手段の出力が競合していることに応答して、優先順位記憶手段により決定される機械翻訳手段から出力された翻訳候補を選択するための手段と、第1及び第2の判定手段の出力の一方がある翻訳候補を示し、他方が条件を満たす翻訳候補の不在を示すことに応答して、ある翻訳候補を選択するための手段とを含んでもよい。   Means for outputting, in response to the outputs of the first and second determination means being coincident to indicate one translation candidate, means for selecting the translation candidate, and the first and second Means for selecting translation candidates output from the machine translation means determined by the priority order storage means in response to the output of the determination means competing; and outputs of the first and second determination means Means for selecting one translation candidate in response to indicating one translation candidate and the other indicating the absence of a translation candidate that satisfies the condition.

第1及び第2の判定手段の出力が一致して一方の翻訳候補を示しているときには、その翻訳候補が出力として選択される。この場合の翻訳候補の品質が高くなる可能性は極めて高い。一方の判定手段のみが、有意な差をもって他方より品質が高いと判定された翻訳候補を特定し、他方の判定手段ではそうした翻訳候補がないときには、一方において品質が高いと判定された翻訳候補が選択される。この場合には、両方の判定手段が一致した場合と比較すれば信頼性は劣るかもしれないが、従来技術と同等の信頼性を実現できる。両方の判定手段の出力が競合しているときには、優先順位記憶手段により決定される機械翻訳手段から出力された候補が選択される。この場合でも、優先順位の付け方により、ある程度の信頼性が期待できる。したがって、全体として、最終的に選択される翻訳候補の品質を高くすることができる。   When the outputs of the first and second determination means match to indicate one translation candidate, the translation candidate is selected as an output. In this case, there is a very high possibility that the quality of translation candidates will be high. Only one determination means identifies a translation candidate that is determined to have a higher quality than the other with a significant difference, and when there is no such translation candidate in the other determination means, a translation candidate that is determined to have high quality on one side Selected. In this case, the reliability may be inferior as compared to the case where both the determination means match, but the same reliability as that of the prior art can be realized. When the outputs of both determination means are in conflict, the candidate output from the machine translation means determined by the priority storage means is selected. Even in this case, a certain degree of reliability can be expected depending on how the priorities are assigned. Therefore, the quality of the translation candidate finally selected can be improved as a whole.

好ましくは、第1及び第2の機械翻訳手段の各々は、入力を受けて、それぞれが第2の言語の翻訳候補を出力する複数の機械翻訳エンジンと、複数の機械翻訳エンジンの出力する翻訳候補のいずれかを、所定の判定基準にしたがって選択するための手段とを含む。   Preferably, each of the first and second machine translation means receives a plurality of machine translation engines that each output a translation candidate of the second language, and translation candidates output by the plurality of machine translation engines And means for selecting according to a predetermined criterion.

第1及び第2の機械翻訳手段として、それ自体、複数の機械翻訳エンジンの出力から所定の判定基準にしたがって選択した候補を選択するものを用いる。このように複数の翻訳候補から一つを選択する機構を多段式とすることにより、最終的な選択までに複数の基準による判定が行なわれることになり、出力される翻訳結果の品質を向上させることができる。   As the first and second machine translation means, one that selects candidates selected according to a predetermined criterion from outputs of a plurality of machine translation engines is used. By using a multi-stage mechanism for selecting one of a plurality of translation candidates in this way, determination based on a plurality of criteria is performed before final selection, and the quality of the output translation result is improved. be able to.

より好ましくは、機械翻訳装置はさらに、第1及び第2の機械翻訳手段に含まれる機械翻訳エンジンの各々に対して付された優先順位を記憶するための優先順位記憶手段を含む。第1及び第2の機械翻訳手段の出力する翻訳候補には、それぞれどの機械翻訳エンジンの出力かを示す情報が付されている。第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力する。選択手段は、第1及び第2の判定手段の出力と、優先順位記憶手段に記憶された情報と、第1及び第2の機械翻訳手段の出力する翻訳候補に付された、どの機械翻訳エンジンの出力かを示す情報とによって、第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む。   More preferably, the machine translation apparatus further includes priority order storage means for storing the priority order assigned to each of the machine translation engines included in the first and second machine translation means. Information indicating which machine translation engine is output is attached to each translation candidate output by the first and second machine translation means. When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means replace the information indicating the translation candidate with a condition. Information indicating that there are no satisfactory translation candidates is output. The selection means includes any one of the machine translation engines attached to the outputs of the first and second determination means, the information stored in the priority order storage means, and the translation candidates output from the first and second machine translation means. And means for selecting and outputting one of the translation candidates output by the first and second machine translation means according to the information indicating whether the output is output.

統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、第1及び第2の判定手段は、条件を充足する翻訳候補がないことを示す情報を出力する。出力するための手段は、第1及び第2の判定手段により条件を充足する翻訳候補がないときでも、優先順位記憶手段に記憶された情報を用い、どの機械翻訳エンジンにより出力された翻訳候補であるかを基準として、いずれの翻訳候補を出力するかを選択できる。予め優先順位記憶手段に所望の優先順位で第1及び第2の機械翻訳手段に使用される機械翻訳エンジンを登録しておくことにより、他方に対して有意な差をもって優れた品質の翻訳候補がなくても、ある程度の信頼性をもって翻訳候補を選択できる。   When there is no translation candidate that is determined to have quality superior to the other with statistical significance, the first and second determination means include information indicating that there is no translation candidate that satisfies the condition. Output. The means for outputting is the translation candidate output by any machine translation engine using the information stored in the priority storage means even when there is no translation candidate satisfying the condition by the first and second judging means. It is possible to select which translation candidate is output on the basis of whether or not it exists. By registering in advance the machine translation engine used for the first and second machine translation means with a desired priority in the priority order storage means, an excellent quality translation candidate can be obtained with a significant difference from the other. Even without it, translation candidates can be selected with a certain degree of reliability.

さらに好ましくは、第1及び第2のパラレルテキストコーパスの第1の言語の文の少なくとも一部は互いに共通しており、第1及び第2のパラレルテキストコーパスの第2の言語の文は、互いに独立である。   More preferably, at least some of the first language sentences of the first and second parallel text corpora are common to each other, and the second language sentences of the first and second parallel text corpora are mutually Independent.

このように、第2の言語の文が互いに独立である場合、両方のコーパスは全体として同じ意味を表すが、第2の言語の文に使用されている文法、語彙、記法、第1の言語の文に対する直訳性などの点で互いに異なっている。このように異なった性格のコーパスから得た統計的モデルを双方とも用い、第1及び第2の機械翻訳手段からの翻訳候補を評価し、いずれかを選択するので、翻訳候補に対して多面的な評価を行なうことができ、最終的に選択される翻訳候補の品質の向上が期待できる。   Thus, if the sentences in the second language are independent of each other, both corpuses represent the same meaning as a whole, but the grammar, vocabulary, notation, and first language used in the sentence in the second language Are different from each other in terms of their literal translation. Thus, the statistical models obtained from the corpus having different personalities are both used, the translation candidates from the first and second machine translation means are evaluated, and one of them is selected. It is possible to evaluate the quality of the translation candidate that is finally selected.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として機能させる。したがって、上記した機械翻訳装置と同様の効果を得ることができる。   When the computer program according to the second aspect of the present invention is executed by a computer, the computer program causes the computer to function as any one of the machine translation devices described above. Therefore, it is possible to obtain the same effect as the machine translation device described above.

以下の説明では、同じ部分又は装置には同じ参照符号を付す。名称と機能も同一である。したがって、それらの詳細な説明は繰返さない。以下の実施の形態は、英語から中国語への翻訳に関するものである。しかし、この発明はソース言語及びターゲット言語のどのような組合せにも適用可能である。   In the following description, the same parts or devices are denoted by the same reference numerals. The name and function are also the same. Therefore, detailed description thereof will not be repeated. The following embodiment relates to translation from English to Chinese. However, the present invention is applicable to any combination of source and target languages.

後述するように、この発明の翻訳システムは、通常は、コンピュータハードウェア及びその上で実行されるコンピュータソフトウェアによって実現される。以下の説明では、ソフトウェア構造をブロック図の形で表す。   As will be described later, the translation system of the present invention is usually realized by computer hardware and computer software executed on the computer hardware. In the following description, the software structure is represented in block diagram form.

<構成>
図2は、この発明の一実施の形態にしたがった中国語−英語機械翻訳システム130の構成を示す図である。機械翻訳システム130は、先行技術の部分で説明した機械翻訳システム30を拡張したものである。図2を参照して、機械翻訳システム130は、入力されたソース言語の文40をターゲット言語に翻訳し、2個の仮説(翻訳候補)を出力するMTブロック140を含む。
<Configuration>
FIG. 2 is a diagram showing a configuration of the Chinese-English machine translation system 130 according to the embodiment of the present invention. The machine translation system 130 is an extension of the machine translation system 30 described in the prior art. Referring to FIG. 2, machine translation system 130 includes an MT block 140 that translates input source language sentence 40 into a target language and outputs two hypotheses (translation candidates).

MTブロック140は2個の機械翻訳装置30A及び30Bを含み、これらはいずれも、先行技術の項で説明した機械翻訳システム30にしたがって構成されている。この実施の形態の機械翻訳装置30A及び30Bは、それぞれ複数個のMTエンジンからなる同じMTエンジンの組合せを含む。以下で説明するように、機械翻訳装置30Aの言語モデル及び翻訳モデルはある特定のコーパスを用いてトレーニングされ、機械翻訳装置30Bの言語モデル及び翻訳モデルは別のコーパスを用いてトレーニングされる。したがって、同一の入力文に対し、機械翻訳装置30A及び30Bの出力は一般的に異なる。   The MT block 140 includes two machine translation devices 30A and 30B, both of which are configured in accordance with the machine translation system 30 described in the prior art section. Machine translation apparatuses 30A and 30B according to this embodiment include a combination of the same MT engines each including a plurality of MT engines. As described below, the language model and translation model of the machine translation device 30A are trained using a specific corpus, and the language model and translation model of the machine translation device 30B are trained using another corpus. Therefore, the output of the machine translation devices 30A and 30B is generally different for the same input sentence.

なお、本実施の形態では、MTブロック140は、その出力する仮説の各々に、その仮説を出力したMTエンジンを特定するタグを付ける。このタグは以後の処理の全体にわたり仮説に付されている。したがって処理のどの段階でも、仮説を出力したMTエンジンがどれであるかを確認することができる。   In the present embodiment, the MT block 140 attaches a tag that identifies the MT engine that outputs the hypothesis to each hypothesis that is output. This tag is hypothesized throughout the subsequent processing. Therefore, it is possible to confirm which MT engine has output the hypothesis at any stage of the process.

機械翻訳システム130はさらに、2個のコーパス、すなわち中国語―英語パラレルテキストコーパス142及び144を含む。この実施の形態では、パラレルテキストコーパス144はパラレルテキストコーパス142の変形である。すなわち、図3を参照して、パラレルテキストコーパス142とパラレルテキストコーパス144とは、同じ英語−日本語パラレルテキストコーパス200から生成される。英語−日本語パラレルテキストコーパス200は多数の英文とその日本語の等価物(訳文)との対、すなわち対訳を含む。   The machine translation system 130 further includes two corpora, a Chinese-English parallel text corpus 142 and 144. In this embodiment, the parallel text corpus 144 is a modification of the parallel text corpus 142. That is, referring to FIG. 3, parallel text corpus 142 and parallel text corpus 144 are generated from the same English-Japanese parallel text corpus 200. The English-Japanese parallel text corpus 200 includes a number of pairs of English sentences and their Japanese equivalents (translations), that is, parallel translations.

テキストコーパス200の中の英文の各々が、英語から中国語に翻訳される(202)。翻訳して得られた中国語をそれぞれ元の英文と対にすることで、パラレルテキストコーパス142が得られる。これに対し、英語−日本語パラレルテキストコーパス200の日本語文の各々を日本語から中国語に翻訳する(204)。パラレルテキストコーパス200の日本語文を、翻訳の結果得られた中国語文と置換えることで、パラレルテキストコーパス144が得られる。ここでは、パラレルテキストコーパス142と144とを「変形コーパス」と呼ぶ。これらは意味上は互いに等しいパラレルコーパスであるが、同じ内容を表すのに、異なる語彙、文法構造、記法、及び直訳性(英語と中国語との間の訳語の対応関係の強さ)を持ったコーパスである。   Each English sentence in the text corpus 200 is translated from English to Chinese (202). A parallel text corpus 142 is obtained by pairing the Chinese obtained by translation with the original English text. On the other hand, each Japanese sentence of the English-Japanese parallel text corpus 200 is translated from Japanese to Chinese (204). The parallel text corpus 144 is obtained by replacing the Japanese text in the parallel text corpus 200 with the Chinese text obtained as a result of translation. Here, the parallel text corpora 142 and 144 are referred to as “deformed corpora”. These are semantically equivalent parallel corpora, but have different vocabulary, grammatical structure, notation, and direct translation (strength correspondence between English and Chinese) to represent the same content. Corpus.

機械翻訳システム130はさらに、それぞれ機械翻訳装置30A及び30B内のMTエンジンで用いられる統計モデルをトレーニングするためのトレーニングモジュール146及び148を含む。上述の通り、機械翻訳装置30A及び30Bは各々複数個のMTエンジンを含む。トレーニングモジュール146は機械翻訳装置30A内のMTエンジンで用いられるモデルを、パラレルテキストコーパス142を用いてトレーニングし、トレーニングモジュール148は機械翻訳装置30B内のMTエンジンで用いられるモデルを、パラレルテキストコーパス144を用いてトレーニングする。   Machine translation system 130 further includes training modules 146 and 148 for training statistical models used in the MT engine in machine translation devices 30A and 30B, respectively. As described above, the machine translation devices 30A and 30B each include a plurality of MT engines. The training module 146 trains a model used in the MT engine in the machine translation apparatus 30A by using the parallel text corpus 142, and the training module 148 trains a model used in the MT engine in the machine translation apparatus 30B in the parallel text corpus 144. To train.

なお、ルールベースのMTエンジンのように、トレーニングする必要のないものについてはこのトレーニングが行なわれないことはもちろんである。   Needless to say, this training is not performed for a rule-based MT engine that does not need to be trained.

さらに、機械翻訳システム130は、図1に示すN重クロス検定型モデル作成モジュール48と同様の形態で、パラレルテキストコーパス142を用いて言語モデル群150Aと翻訳モデル群152AとをトレーニングするためのN重クロス検定型モデル作成モジュール162と、パラレルテキストコーパス144を用いて言語モデル群150Bと翻訳モデル群152BとをトレーニングするためのN重クロス検定型モデル作成モジュール164とを含む。   Further, the machine translation system 130 is configured to train the language model group 150A and the translation model group 152A using the parallel text corpus 142 in the same form as the N-fold cross-validation model creation module 48 shown in FIG. A double cross-validation model creation module 162 and an N-fold cross-validation model creation module 164 for training the language model group 150B and the translation model group 152B using the parallel text corpus 144 are included.

なお、本実施の形態では、MTブロック140内のMTエンジンを、N重クロス検定型モデル作成モジュール164によるトレーニングに用いるパラレルテキストコーパス142及び144を用いてトレーニングしている。しかし本発明はこのような実施の形態には限定されず、このトレーニングに、異なるコーパスを使用してもよい。   In the present embodiment, the MT engine in the MT block 140 is trained using the parallel text corpus 142 and 144 used for training by the N-fold cross-validation model creation module 164. However, the present invention is not limited to such an embodiment, and different corpora may be used for this training.

同じ内容でソースが異なるトレーニングコーパス142及び144を用いるため、結果として得られる言語モデル群及び翻訳モデル群は、特定の言語的側面に焦点を当てたものとなり、これらの双方で後述するように翻訳候補の品質差の有意性を検定することで、全ての変形コーパスを統合することによって得られるコーパスでトレーニングされたモデルを使用する場合と比較して、翻訳候補の選択の曖昧さを低減できる。   Because training corpus 142 and 144 with the same content and different sources are used, the resulting language models and translation models focus on specific linguistic aspects, both of which are translated as described below. Testing the significance of candidate quality differences can reduce the ambiguity of selection of translation candidates compared to using a model trained on a corpus obtained by integrating all deformation corpora.

機械翻訳システム130はさらに、MTブロック140で用いられるMTエンジンの優先順位を記憶する優先順位テーブル156と、仮説同士のスコアの差の有意性に基づいてMTブロック140の出力の一つを選択するための規則を記憶する規則テーブル158と、仮説同士のスコアの差の有意性、規則テーブル158に記憶された規則、及び優先順位テーブル156に記憶された優先順位に基づいて、MTブロック140の出力する翻訳候補の一つを選択するための選択モジュール154とを含む。   The machine translation system 130 further selects one of the outputs of the MT block 140 based on the priority table 156 that stores the priorities of the MT engines used in the MT block 140 and the score difference between the hypotheses. Output of the MT block 140 based on the rule table 158 that stores the rules for and the significance of the difference in score between hypotheses, the rules stored in the rule table 158, and the priorities stored in the priority table 156 A selection module 154 for selecting one of the translation candidates to be translated.

優先順位テーブル156の内容は、テストセット文を用いてMTブロック140内のMTエンジンの出力をBLEU又は単語誤り率等の評価基準により評価することによって準備される。MTエンジンの評価が高いほど、優先順位も高くなる。   The contents of the priority table 156 are prepared by evaluating the output of the MT engine in the MT block 140 according to an evaluation criterion such as BLEU or word error rate using a test set sentence. The higher the MT engine rating, the higher the priority.

選択モジュール154は、どの仮説を選択すべきかを判断するための、変形コーパスによる検定処理モジュール180と、変形コーパスによる検定処理モジュール180の判断に応じてMTブロック140の出力の一つを出力160として選択するセレクタ182とを含む。   The selection module 154 determines, as an output 160, one of the outputs of the MT block 140 according to the determination of the modified corpus-based verification processing module 180 and the verification corpus-based verification processing module 180 for determining which hypothesis should be selected. And a selector 182 to select.

図4は、図2に示す変形コーパスによる検定処理モジュール180のブロック図である。図4を参照して、変形コーパスによる検定処理モジュール180は、パラレルテキストコーパス142(図2)を用いてトレーニングされたN個の言語モデル群150A及びN個の翻訳モデル群152Aを用いて、MTブロック140の2個の出力をそれぞれスコアリングしたスコアベクトルを出力するための第1及び第2のスコアリングモジュール220及び222と、パラレルテキストコーパス144(図2)を用いてトレーニングされた言語モデル群150B及び翻訳モデル群152Bを用いて、それぞれMTブロック140の2個の出力をスコアリングし、それぞれのスコアリングベクトルを出力するための第3及び第4のスコアリングモジュール224及び226と、第1及び第2のスコアリングモジュール220及び222から出力された二つのスコアリングベクトルのいずれかが他方に対して有意に高いスコアを示しているか否かを、従来技術と同様、クルスカル−ウォリスのテストを用いてチェックし、その結果を出力するための第1の有意差検定モジュール230と、第3及び第4のスコアリングモジュール224及び226から出力された二つのスコアリングベクトルのいずれかが他方より有意に高いスコアを示しているか否かを同様にチェックし、その結果を出力するための第2の有意差検定モジュール232とを含む。有意差検定モジュール230及び232は、他方に対して有意に高いスコアを持つスコアリングベクトルがある場合には、そのベクトルに対応する翻訳候補を示す情報をテーブルルックアップモジュール240に与える。そうしたものがない場合には、条件を満たすものがないことを示す信号をテーブルルックアップモジュール240に与える。   FIG. 4 is a block diagram of the verification processing module 180 using the modified corpus shown in FIG. Referring to FIG. 4, the modified corpus-based verification processing module 180 uses the N language model groups 150A and the N translation model groups 152A trained using the parallel text corpus 142 (FIG. 2), and performs MT processing. Language models trained using first and second scoring modules 220 and 222 for outputting score vectors scoring the two outputs of block 140, respectively, and parallel text corpus 144 (FIG. 2) The third and fourth scoring modules 224 and 226 for scoring the two outputs of the MT block 140 and outputting the respective scoring vectors using the 150B and the translation model group 152B, And from the second scoring modules 220 and 222 In order to check whether one of the two scoring vectors given is significantly higher than the other using the Kruskal-Wallis test and output the result, as in the prior art The first significant difference test module 230 of the first and the second scoring modules 224 and 226 output from the third and fourth scoring modules 224 and 226 are similar to each other in terms of whether the score is significantly higher than the other. And a second significance test module 232 for outputting the result. If there is a scoring vector having a score that is significantly higher than the other, the significance test modules 230 and 232 provide information indicating translation candidates corresponding to the vector to the table lookup module 240. If there is no such, a signal is provided to the table lookup module 240 indicating that none meets the condition.

なお、本実施の形態では、クルスカル−ウォリスのテストにより評価するスコアとして、仮説Hに対して言語モデルから算出されるスコアLMと、翻訳モデルによって算出されるスコアTMとの積を用いる。この積を、言語モデルと翻訳モデルとの組の各々について計算し、全ての組について算出された値をベクトルとすることでスコアリングベクトルを作成し、クルスカル−ウォリスのテストでの評価に用いる。   In the present embodiment, the product of the score LM calculated from the language model for the hypothesis H and the score TM calculated from the translation model is used as the score to be evaluated by the Kruskal-Wallis test. This product is calculated for each set of language model and translation model, and the scoring vector is created by using the values calculated for all the sets as vectors, and used for evaluation in the Kruskal-Wallis test.

変形コーパスによる検定処理モジュール180はさらに、第1及び第2の有意差検定モジュール230及び232からの結果が、MTブロック140の2個の出力のうち1個を明確に示しているか否かを判断し、もしそうであれば、第1及び第2の有意差検定モジュール230及び232からの結果の組合せに対応する規則テーブル158の適切なエントリを調べることで、どの出力を選択すべきかを判断するためのテーブルルックアップモジュール240と、テーブルルックアップモジュール240の出力246と優先順位テーブル156の内容とに基づいて、MTブロック140の2個の出力のうち一方を決定し、セレクタ182(図2参照)に対しそれを特定する信号を出力するための最終選択モジュール242とを含む。   The modified corpus test processing module 180 further determines whether the results from the first and second significance test modules 230 and 232 clearly indicate one of the two outputs of the MT block 140. If so, determine which output should be selected by examining the appropriate entry in the rule table 158 corresponding to the combination of results from the first and second significance test modules 230 and 232. One of the two outputs of the MT block 140 is determined based on the table lookup module 240, the output 246 of the table lookup module 240, and the contents of the priority table 156, and the selector 182 (see FIG. 2). And a final selection module 242 for outputting a signal identifying it.

図5は規則テーブル158の内容の一例を示す。図5を参照して、最上段は第1の有意差検定モジュール230の出力に対応し、左端の列は第2の有意差検定モジュール232の出力に対応する。   FIG. 5 shows an example of the contents of the rule table 158. Referring to FIG. 5, the top row corresponds to the output of first significant difference test module 230, and the leftmost column corresponds to the output of second significant difference test module 232.

規則テーブル158によれば、仮説は以下のシーケンスによって選択される。   According to the rule table 158, hypotheses are selected by the following sequence.

(1)第1の有意差検定モジュール230からの出力値にしたがって、列を選択する。第1の有意差検定モジュール230の出力が第1の仮説について有意差が見出されたことを示している場合、第1の列が選択される。もし第2の仮説について有意差が見出された場合には、第2の列が選択される。出力中に有意差が見出されない場合には、第3の列が選択される。   (1) A column is selected according to the output value from the first significant difference test module 230. If the output of the first significance test module 230 indicates that a significant difference has been found for the first hypothesis, the first column is selected. If a significant difference is found for the second hypothesis, the second column is selected. If no significant difference is found in the output, the third column is selected.

(2)同様に、第2の有意差検定モジュール232からの出力値にしたがって行を選択する。   (2) Similarly, a row is selected according to the output value from the second significance test module 232.

(3)選択された行と列との交差点にある枠内の内容を見る。この枠内の内容により、どの仮説を選択すべきかが示されている。もし第1及び第2の有意差検定モジュール230及び232の出力間に競合があれば、又は有意差がない場合には、枠の内容は、優先順位テーブルにしたがって決定される仮説を出力すべきことを示す。   (3) View the contents in the frame at the intersection of the selected row and column. The contents in this frame indicate which hypothesis to select. If there is a conflict between the outputs of the first and second significance test modules 230 and 232, or if there is no significant difference, the contents of the frame should output a hypothesis determined according to the priority table. It shows that.

<動作>
この実施の形態の機械翻訳システム130は以下のように動作する。図2を参照して、優先順位テーブル156、規則テーブル158、パラレルテキストコーパス142及びパラレルテキストコーパス144は、処理に先立って準備されているものとする。
<Operation>
The machine translation system 130 of this embodiment operates as follows. Referring to FIG. 2, it is assumed that a priority table 156, a rule table 158, a parallel text corpus 142, and a parallel text corpus 144 are prepared prior to processing.

機械翻訳システムには二つの動作フェーズがある。第1のフェーズはトレーニング・フェーズであって、ここではMTブロック140内のMTエンジンがパラレルテキストコーパス142及びパラレルテキストコーパス144を用いてトレーニングされる。第2のフェーズはアプリケーション・フェーズであって、ここでは入力文が機械翻訳システム130に適用され、機械翻訳システム130が好ましい翻訳を出力160として出力する。   The machine translation system has two phases of operation. The first phase is a training phase where the MT engine in MT block 140 is trained using parallel text corpus 142 and parallel text corpus 144. The second phase is the application phase, where the input sentence is applied to the machine translation system 130 and the machine translation system 130 outputs a preferred translation as output 160.

−トレーニング・フェーズ
トレーニング・フェーズでは、機械翻訳システム130は以下のように動作する。トレーニングモジュール146は機械翻訳装置30AのMTエンジンの言語モデル及び翻訳モデルをパラレルテキストコーパス142を用いてトレーニングする。機械翻訳装置30A内のMTエンジンは互いに異なる種類のものなので、同じコーパスでトレーニングされても、これらMTエンジンの性能は異なったものとなる。同様に、トレーニングモジュール148は機械翻訳装置30B内のMTエンジンの言語モデル及び翻訳モデルをパラレルテキストコーパス144を用いてトレーニングする。
-Training Phase In the training phase, the machine translation system 130 operates as follows. The training module 146 trains the language model and translation model of the MT engine of the machine translation apparatus 30 </ b> A using the parallel text corpus 142. Since the MT engines in the machine translation apparatus 30A are of different types, the performance of these MT engines will be different even if they are trained with the same corpus. Similarly, the training module 148 trains the language model and translation model of the MT engine in the machine translation apparatus 30B using the parallel text corpus 144.

機械翻訳装置30A内のMTエンジンの組は、機械翻訳装置30B内のものと同じである。しかし、両者は互いに異なるコーパスによってトレーニングされる。したがって、それらの性能は異なるものとなる。   The set of MT engines in the machine translation apparatus 30A is the same as that in the machine translation apparatus 30B. However, both are trained by different corpora. Therefore, their performance will be different.

このようにして機械翻訳装置30A及び30B中のMTエンジンのトレーニングを完了した後、所定のテストセットと所定の評価法(BLEUなど)を用い、機械翻訳装置30A及び機械翻訳装置30Bに含まれるMTエンジンの評価を行なう。そして、その評価のよいものから順番に高い優先順位を割当て、優先順位テーブル156に記憶させる。   After completing the training of the MT engine in the machine translation devices 30A and 30B in this manner, the MT included in the machine translation device 30A and the machine translation device 30B using a predetermined test set and a predetermined evaluation method (such as BLEU). Evaluate the engine. Then, the higher priority is assigned in order from the highest evaluation, and the priority order is stored in the priority table 156.

さらに、N重クロス検定型モデル作成モジュール162により、パラレルテキストコーパス142を用いて、言語モデル群150A及び翻訳モデル群152Aがそれぞれトレーニングされる。同様に、N重クロス検定型モデル作成モジュール164により、パラレルテキストコーパス144を用いて、言語モデル群150B及び翻訳モデル群152Bがそれぞれトレーニングされる。   Further, the language model group 150A and the translation model group 152A are trained using the parallel text corpus 142 by the N-fold cross validation model creation module 162, respectively. Similarly, the language model group 150B and the translation model group 152B are trained by the N-fold cross-validation model creation module 164 using the parallel text corpus 144, respectively.

−アプリケーション・フェーズ
先行技術の項で説明したように、入力文40が機械翻訳装置30Aに与えられると、機械翻訳装置30A内のMTエンジンがそれぞれの仮説を出力する。仮説の一つが選択モジュール52(図1)によって選択され、機械翻訳装置30Aの仮説として出力される。
Application Phase As described in the section of the prior art, when the input sentence 40 is given to the machine translation device 30A, the MT engine in the machine translation device 30A outputs the respective hypotheses. One of the hypotheses is selected by the selection module 52 (FIG. 1) and output as a hypothesis of the machine translation apparatus 30A.

機械翻訳装置30Bでも同じ手続きが行なわれ、仮説が出力される。   The same procedure is performed in the machine translation apparatus 30B, and a hypothesis is output.

二つの仮説は、いずれも図2に示すセレクタ182と変形コーパスによる検定処理モジュール180とに与えられる。   Both hypotheses are given to the selector 182 and the verification processing module 180 using a modified corpus shown in FIG.

図4を参照して、スコアリングモジュール220及び222は、パラレルテキストコーパス142(コーパスA)から作成された言語モデル群及び翻訳モデル群を用い、従来技術の多重比較検定モジュール100での処理と同様に、それぞれ機械翻訳装置30A及び30Bから出力された仮説に対するスコアリングを行ない、その結果をスコアリングベクトルとして有意差検定モジュール230に与える。有意差検定モジュール230は、スコアリングモジュール220からのスコアリングベクトルと、スコアリングモジュール222からのスコアリングベクトルとの間に、有意な差があるか否かを判定し、あれば他方よりもスコアのよい仮説を示す値をテーブルルックアップモジュール240に与え、なければなかったことを示す値をテーブルルックアップモジュール240に与える。   Referring to FIG. 4, scoring modules 220 and 222 use the language model group and translation model group created from parallel text corpus 142 (corpus A), and are the same as the processing in the conventional multiple comparison test module 100. Then, scoring is performed on the hypotheses output from the machine translation devices 30A and 30B, respectively, and the result is given to the significance test module 230 as a scoring vector. The significance test module 230 determines whether there is a significant difference between the scoring vector from the scoring module 220 and the scoring vector from the scoring module 222, and if so, scores more than the other. A value indicating a good hypothesis is provided to the table lookup module 240 and a value indicating that it did not exist is provided to the table lookup module 240.

同様に、スコアリングモジュール224及び226は、パラレルテキストコーパス144(コーパスB)から作成された言語モデル群及び翻訳モデル群を用い、それぞれ機械翻訳装置30A及び30Bから出力された仮説に対するスコアリングを行ない、その結果をそれぞれスコアリングベクトルとして有意差検定モジュール232に与える。有意差検定モジュール232は、スコアリングモジュール224からのスコアリングベクトルと、スコアリングモジュール226からのスコアリングベクトルとの間で、有意な差があるか否かを判定し、あれば他方よりもスコアのよい仮説を示す値をテーブルルックアップモジュール240に与え、なければなかったことを示す値をテーブルルックアップモジュール240に与える。   Similarly, the scoring modules 224 and 226 use the language model group and the translation model group created from the parallel text corpus 144 (Corpus B) to score the hypotheses output from the machine translation devices 30A and 30B, respectively. The result is given to the significant difference test module 232 as a scoring vector. The significance test module 232 determines whether there is a significant difference between the scoring vector from the scoring module 224 and the scoring vector from the scoring module 226, and if so, scores more than the other. A value indicating a good hypothesis is provided to the table lookup module 240 and a value indicating that it did not exist is provided to the table lookup module 240.

テーブルルックアップモジュール240は、有意差検定モジュール230から与えられた値と、有意差検定モジュール232から与えられた値との組合せに対応する枠を規則テーブル158で見つけ、その内容を読出す。テーブルルックアップモジュール240は、もしも読出した内容が「1番目」であれば機械翻訳装置30Aの出力する仮説を選択することを決め、最終選択モジュール242への信号246を第1の値とする。読出した内容が「2番目」であれば機械翻訳装置30Bの出力する仮説を選択することを決め、最終選択モジュール242への信号246の値を第1の値と異なる第2の値とする。読出した内容が「優先順位による」であれば、信号246の値を第1及び第2のいずれの値とも異なる所定の第3の値とする。   The table lookup module 240 finds a frame corresponding to the combination of the value given from the significance test module 230 and the value given from the significance test module 232 in the rule table 158, and reads the contents. If the read content is “first”, the table lookup module 240 decides to select the hypothesis output by the machine translation device 30A, and sets the signal 246 to the final selection module 242 as the first value. If the read content is “second”, it is decided to select the hypothesis output by the machine translation device 30B, and the value of the signal 246 to the final selection module 242 is set to a second value different from the first value. If the read content is “by priority”, the value of the signal 246 is set to a predetermined third value that is different from both the first and second values.

最終選択モジュール242は、信号246の値が第1又は第2の値であれば、信号246をそのままセレクタ182に対して出力する。信号246の値が第3の値であれば、最終選択モジュール242は、優先順位テーブル156を参照し、有意差検定モジュール230によって選択された仮説を出力した翻訳エンジン(図2の機械翻訳装置30A内)と、有意差検定モジュール232によって選択された仮説を出力した翻訳エンジン(図2の機械翻訳装置30B内)とのいずれかを、優先順位テーブル156中の優先順位にしたがって選択し、それらを含む機械翻訳装置を示す信号をセレクタ182に与える。   If the value of the signal 246 is the first or second value, the final selection module 242 outputs the signal 246 as it is to the selector 182. If the value of the signal 246 is the third value, the final selection module 242 refers to the priority table 156, and translates the hypothesis selected by the significance test module 230 (the machine translation device 30A in FIG. 2). And the translation engine (in the machine translation apparatus 30B in FIG. 2) that outputs the hypothesis selected by the significance test module 232, according to the priority in the priority table 156, and selects them. A signal indicating the machine translation device including the signal is supplied to the selector 182.

図2を参照して、セレクタ182は、変形コーパスによる検定処理モジュール180の最終選択モジュール242から与えられた信号にしたがい、機械翻訳装置30A及び30Bの出力する仮説のいずれかを選択し、出力160として出力する。   Referring to FIG. 2, selector 182 selects one of hypotheses output from machine translation devices 30A and 30B according to the signal given from final selection module 242 of verification processing module 180 using the modified corpus, and outputs 160 Output as.

本実施の形態に係る機械翻訳システム130では、一つの英日パラレルテキストコーパスから、性格の異なる二つの中英パラレルテキストコーパスを作成する。この場合の「性格」とは、直訳性(翻訳が元の文に忠実に訳しているか、意訳しているかの別)、訳文の文法的傾向及び語彙の相違、記法の相違など、コーパス内の文の文法的な種々の局面における相違をいう。例えば直訳性が高い文が多いコーパスを用いてトレーニングされたモデルを使用した機械翻訳では、得られる訳文は自然な訳文ではないかも知れないが、全くの誤りというわけではないことが多い。一方直訳性が低く、主に意訳がされた文が多いコーパスを用いてトレーニングされたモデルを使用した機械翻訳では、非常に自然な訳文が得られる場合もあるが、誤るときには全く誤った訳文しか得られないことが多い。   In the machine translation system 130 according to the present embodiment, two Chinese-English parallel text corpuses having different personalities are created from one English-Japanese parallel text corpus. In this case, the “character” means the direct translation (whether the translation is faithfully translated into the original sentence or whether it is translated), the grammatical tendency and vocabulary of the translation, the difference in notation, etc. Differences in various grammatical aspects of sentences. For example, in machine translation using a model trained using a corpus having many sentences with high literal translation, the obtained translation may not be a natural translation, but it is often not a complete error. On the other hand, machine translation using a model trained with a corpus that has a low level of literal translation and a large number of translated sentences may result in a very natural translation. Often not available.

特に本実施の形態では、図3の参照符号202に示されるように、英語から中国語に訳した場合には元の英語の構造が比較的よく保たれている一方、参照符号204に示されるように日本語から中国語に訳した場合には、日本語の表現が中国語の翻訳に反映され、元の英語の構造とは異なった中国語訳が得られる傾向が高い。したがって、図3に示すパラレルテキストコーパス142及び144は、上記した「性格」が互いに異なるコーパスとなる。   In particular, in the present embodiment, as shown by reference numeral 202 in FIG. 3, the original English structure is maintained relatively well when translated from English to Chinese, whereas it is shown by reference numeral 204. Thus, when Japanese is translated into Chinese, Japanese expressions are reflected in the Chinese translation, and a Chinese translation that is different from the original English structure tends to be obtained. Therefore, the parallel text corpora 142 and 144 shown in FIG. 3 are corpora having different “characters”.

本実施の形態では、機械翻訳装置30A及び30B内で従来技術で説明したように、それぞれのコーパスを使用して得られた訳文の内で、他の訳文よりもよいスコアを示したものが選ばれる。しかし、これだけでは、単独のコーパスによる評価でしかない。一方、MTブロック140から出力される仮説のうち、いずれを選択するかが選択モジュール154で改めて決定される。ここでの評価は、一方のコーパスから得られたモデルだけではなく、両方のコーパスから得られたモデルを用いて行なう。すなわち、全体としては同じ意味を表すコーパスではあるが、訳文の表現の性格が大きく異なる二つのコーパスから得られたモデルによって、互いに異なる側面から仮説の評価が行なわれる。   In the present embodiment, as described in the prior art in the machine translation devices 30A and 30B, the translations obtained by using the respective corpora are those that show better scores than other translations. It is. However, this is only an evaluation by a single corpus. On the other hand, the selection module 154 again determines which one of the hypotheses output from the MT block 140 is to be selected. The evaluation here is performed using not only models obtained from one corpus but also models obtained from both corpora. That is, although the corpora express the same meaning as a whole, hypotheses are evaluated from different aspects by using models obtained from two corpuses that are greatly different in the character of the translation.

その評価結果にしたがい、いずれの側面から評価しても他方よりもスコアが有意に高い仮説があれば、その仮説が選択される。この場合の仮説の品質は非常に高くなることが期待できる。一方の評価では有意性が確認できたが他方の評価では有意性が確認できなかった場合には、一方の評価のみで有意性が確認できた仮説が選択される。この場合には、仮説の信頼性はやや低くなるものの、ある程度の信頼性が期待できる。そうした仮説が存在しない場合(評価結果が互いに競合・矛盾する場合、又は有意性がいずれについても確認できなかった場合)には、予めテストセットを用いて行なわれた評価結果にしたがい、好ましい結果が得られると判断されたMTエンジンによる仮説が選択される。この場合、翻訳候補の評価をその選択に使用することはできないが、より一般的な評価基準(すなわち翻訳に使用された翻訳エンジンの一般的な優劣に関する情報)によって仮説が選択されるので、その結果についても、ある程度の信頼性があることが期待できる。   According to the evaluation result, if there is a hypothesis having a score that is significantly higher than that of the other in any aspect, that hypothesis is selected. The hypothesis quality in this case can be expected to be very high. If the significance is confirmed in one evaluation but the significance is not confirmed in the other evaluation, a hypothesis in which the significance is confirmed only in one evaluation is selected. In this case, the reliability of the hypothesis is slightly lowered, but a certain level of reliability can be expected. If such a hypothesis does not exist (if the evaluation results are mutually conflicting or contradictory, or if no significance has been confirmed), a favorable result will be obtained according to the evaluation results that were previously performed using the test set. The hypothesis by the MT engine determined to be obtained is selected. In this case, the evaluation of the translation candidate cannot be used for the selection, but the hypothesis is selected by a more general evaluation criterion (ie information about the general superiority or inferiority of the translation engine used for the translation) The results can be expected to have a certain level of reliability.

すなわち、本実施の形態では、性格の異なるコーパスを用いて仮説を評価し、その結果を総合して仮説を選択する。そのため、特許文献1に記載のシステムのように何らかの基準を設定せずに同一のコーパスを分割し、それらコーパスから得たモデルで仮説を評価する場合と比較して、得られた結果はより信頼性が高くなると思われる。実際、後述するように、本実施の形態のシステム構成に準拠して行なった実験では、よい結果が得られている。   That is, in this embodiment, hypotheses are evaluated using corpus having different personalities, and the hypotheses are selected by combining the results. Therefore, as compared with the case where the same corpus is divided without setting any standard as in the system described in Patent Document 1, and the hypothesis is evaluated with a model obtained from the corpus, the obtained result is more reliable. It seems that the nature becomes high. In fact, as will be described later, good results have been obtained in experiments conducted in accordance with the system configuration of the present embodiment.

<実験結果>
図6に、上記した実施の形態の構成を用いて行なった実験の結果を示す。実験では、7種類のMTエンジンを使用した。これらMTエンジンは、4種類のSMT(MT1〜MT4)と、3種類のEBMT(MT5〜MT7)とを含む。使用したコーパスは、出願人において作成した、BTECと呼ばれる、旅行ドメインでの会話の英日コーパスである。この中の英日パラレルテキストコーパスに基づき、図3に示す方法とは異なり、英語文のみを取出し、独立に中国語への翻訳を2回行なうことにより、二つの中英パラレルテキストコーパスを得た。ここでは、便宜的に一方をオリジナルコーパス、他方を変形コーパスと呼び、それぞれBTEC(O)及びBTEC(V)で表す。また、BTEC(O)又はBTEC(V)によりトレーニングしたMTにもそれぞれ(O)又は(V)を付して表す。
<Experimental result>
FIG. 6 shows the results of an experiment performed using the configuration of the above-described embodiment. In the experiment, seven types of MT engines were used. These MT engines include four types of SMT (MT1 to MT4) and three types of EBMT (MT5 to MT7). The corpus used was an English-Japanese corpus of conversation in the travel domain, called BTEC, created by the applicant. Based on the English-Japanese parallel text corpus, two English-English parallel text corpora were obtained by extracting only English sentences and independently translating them into Chinese twice, unlike the method shown in FIG. . Here, for convenience, one is called an original corpus and the other is called a modified corpus, which are represented by BTEC (O) and BTEC (V), respectively. In addition, MT trained by BTEC (O) or BTEC (V) is also denoted by (O) or (V), respectively.

図6において、左端の欄が「SMT」及び「EBMT」となっている7行の各々は、図2に示すMTブロック140内の機械翻訳装置30A及び機械翻訳装置30Bとして、それぞれただ一つのMTエンジンを使用し、機械翻訳システム130を構成した場合のBLEUスコアと、BTEC(O)及びBTEC(V)をマージして得られたコーパスを用いてトレーニングした同じMTエンジンによるBLEUスコアからのその改善率とを示す。なおこの場合、機械翻訳装置30A又は30B内部での仮説の選択は不要であるから、行なっていない。   In FIG. 6, each of the seven lines in which the leftmost column is “SMT” and “EBMT” is a single MT as the machine translation device 30A and the machine translation device 30B in the MT block 140 shown in FIG. The BLEU score when using the engine and configuring the machine translation system 130 and its improvement from the BLEU score by the same MT engine trained using a corpus obtained by merging BTEC (O) and BTEC (V) Rate. In this case, selection of a hypothesis within the machine translation apparatus 30A or 30B is not necessary, and thus is not performed.

例えば、MT1(O)からの仮説と、MT1(V)からの仮説とのいずれかを、BTEC(O)及びBTEC(V)から得た言語モデル及び翻訳モデルを用いて相互に検定した結果を用いると、BLEUスコアは0.5010となった。これは、BTEC(O)とBTEC(V)とをマージしたものを用いた場合と比較して3.8パーセントの改善を示す値である。   For example, the result of mutually testing either the hypothesis from MT1 (O) or the hypothesis from MT1 (V) using the language model and translation model obtained from BTEC (O) and BTEC (V). When used, the BLEU score was 0.5010. This is a value indicating an improvement of 3.8% compared to the case where the merged BTEC (O) and BTEC (V) are used.

図6から分かるように、MT1〜MT7のいずれの場合にも、本発明の実施の形態によって得たBLEUスコアの方が、比較例よりもよい値となっている。これにより、本発明の有効性は十分に示されている。   As can be seen from FIG. 6, in any of MT1 to MT7, the BLEU score obtained by the embodiment of the present invention is a better value than the comparative example. This fully demonstrates the effectiveness of the present invention.

図6の最下行には、機械翻訳装置30A及び30Bの各々において、MT1〜MT7までを全て同時に用いて得た結果を示す。機械翻訳装置30Aの各MTエンジンはBTEC(O)を用いてトレーニングし、機械翻訳装置30Bの各MTエンジンはBTEC(V)を用いてトレーニングした。   The bottom row of FIG. 6 shows the results obtained by using all of MT1 to MT7 simultaneously in each of the machine translation devices 30A and 30B. Each MT engine of the machine translation apparatus 30A was trained using BTEC (O), and each MT engine of the machine translation apparatus 30B was trained using BTEC (V).

その結果は図6の最下行右側に示されているように、BLEUスコア0.5765となった。この結果は、MT1〜MT7をそれぞれ単独で使用した場合と同様、かなり高い数値となっている。BTEC(O)とBTEC(V)とをマージしたコーパスを使用した場合よりも、BLEUスコアは4.2%の改善を示した。   The result was a BLEU score of 0.5765 as shown on the right side of the bottom line of FIG. This result is a considerably high numerical value as in the case where MT1 to MT7 are used individually. The BLEU score showed a 4.2% improvement over the use of a corpus that merged BTEC (O) and BTEC (V).

<コンピュータによる実現>
既に述べたように、この実施の形態の機械翻訳システム130は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるコンピュータプログラムと、コンピュータハードウェアに格納されるコーパス、言語モデル、翻訳モデルなどのデータとにより実現される。図7はこのコンピュータシステム330の外観を示し、図8はコンピュータシステム330の内部構成を示す。
<Realization by computer>
As described above, the machine translation system 130 of this embodiment includes computer hardware, a computer program executed by the computer hardware, a corpus, a language model, a translation model, and the like stored in the computer hardware. Realized with data. FIG. 7 shows the external appearance of the computer system 330, and FIG. 8 shows the internal configuration of the computer system 330.

図7を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。   Referring to FIG. 7, the computer system 330 includes a computer 340 having a memory port 352 and a DVD (Digital Versatile Disc) drive 350, a keyboard 346, a mouse 348, and a monitor 342.

図8を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。   Referring to FIG. 8, in addition to the memory port 352 and the DVD drive 350, the computer 340 boots up a CPU (Central Processing Unit) 356, a bus 366 connected to the CPU 356, the memory port 352, and the DVD drive 350, and A read only memory (ROM) 358 that stores programs and the like, and a random access memory (RAM) 360 that is connected to the bus 366 and stores program instructions, system programs, work data, and the like.

ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。   Although not shown here, the computer 340 may further include a network adapter board that provides a connection to a local area network (LAN).

コンピュータシステム330に機械翻訳システム130としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352にそれぞれ装着されるDVD362又は携帯型メモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、携帯型メモリ364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。   A computer program for causing the computer system 330 to operate as the machine translation system 130 is stored in the DVD 362 or the portable memory 364 attached to the DVD drive 350 or the memory port 352, and further transferred to the hard disk 354. Alternatively, the program may be transmitted to the computer 340 through a network (not shown) and stored in the hard disk 354. The program is loaded into the RAM 360 when executed. The program may be loaded into the RAM 360 directly from the DVD 362, from the portable memory 364, or via a network.

このプログラムは、コンピュータ340にこの実施の形態に係る機械翻訳システム130として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で、コンピュータ340内で利用可能な適切な機能又は「ツール」を呼出すことにより、上記した機械翻訳システム130としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。   This program includes a plurality of instructions for causing the computer 340 to operate as the machine translation system 130 according to this embodiment. Some of the basic functions required to perform this operation are provided by operating system (OS) or third party programs running on the computer 340 or various toolkit modules installed on the computer 340. Therefore, this program does not necessarily include all functions necessary for realizing the system and method of this embodiment. This program operates as the machine translation system 130 described above by calling an appropriate function or “tool” available in the computer 340 in a controlled manner so as to obtain a desired result. Need only contain instructions to execute The operation of computer system 330 is well known and will not be repeated here.

<可能な変形例>
なお、上記した実施の形態では、MTブロック140が含む機械翻訳装置は機械翻訳装置30A及び30Bの二つであった。しかし、本発明はそのような実施の形態に限定されるわけではない。MTブロック140には3個以上の機械翻訳装置を設けるようにしてもよい。その場合、図4に示す変形コーパスによる検定処理モジュール180における比較を、上記した実施の形態での方式をそのまま用いて行なうことはできない。しかし、機械翻訳装置の任意の二つの組合せの全てについて、上記した変形コーパスによる検定処理モジュール180における処理を行ない、それらの処理で各仮説が選択された回数の合計で仮説の選択を行なうようにすれば、プログラムでの実現はループが二重になるだけで比較的簡単である。
<Possible modification>
In the embodiment described above, the machine translation devices included in the MT block 140 are the two machine translation devices 30A and 30B. However, the present invention is not limited to such an embodiment. The MT block 140 may be provided with three or more machine translation devices. In that case, the comparison in the verification processing module 180 by the modified corpus shown in FIG. 4 cannot be performed using the method in the above-described embodiment as it is. However, all the arbitrary two combinations of the machine translation apparatus are processed in the test processing module 180 using the modified corpus described above, and hypotheses are selected based on the total number of times each hypothesis is selected in those processes. In this way, implementation in a program is relatively simple with only a double loop.

さらに、上記実施の形態では、選択モジュール154で使用する変形コーパスを、MTブロック140内の各MTエンジンのトレーニングにも使用している。このようにすると、MTブロック140から出力される仮説は、それぞれ一方のコーパスの性格を強く反映したものとなる。そのために、翻訳結果は互いにかなり異なることが予想され、選択モジュール154での判定で有意な差が生じることが多いと思われる。しかし、本発明はそのような実施の形態には限定されない。MTブロック140をトレーニングするためのコーパスと、選択モジュール154での判定に使用するコーパスとは全く別のものであってもよい。ただし、MTブロック140をトレーニングするコーパスのうち、例えば機械翻訳装置30Aのためのものと、機械翻訳装置30Bのためのものとは、前述したとおり性格が異なっていることが必要であり、また選択モジュール154での判定に用いるコーパスも、互いに性格が異なっていることが必要である。   Further, in the above embodiment, the modified corpus used in the selection module 154 is also used for training each MT engine in the MT block 140. In this way, each hypothesis output from the MT block 140 strongly reflects the character of one corpus. For this reason, the translation results are expected to be considerably different from each other, and it is likely that a significant difference occurs in the determination in the selection module 154. However, the present invention is not limited to such an embodiment. The corpus for training the MT block 140 and the corpus used for the determination in the selection module 154 may be completely different. However, among the corpora for training the MT block 140, for example, the machine translation device 30A and the machine translation device 30B must have different personalities as described above, and are selected. The corpus used for the determination in the module 154 also needs to have different personalities.

上記したことから明らかなように、MTブロック140内のMTエンジンをトレーニングするためのコーパスの数と、選択モジュール154での評価に用いるコーパスの数とは、互いに一致する必要はない。本実施の形態では、使用可能なコーパスに制限があるため、両者を共通のものにしたが、両者に全く別の数のコーパスを使用するようにしてもよい。   As is apparent from the above, the number of corpuses for training the MT engine in the MT block 140 and the number of corpuses used for evaluation in the selection module 154 need not match each other. In this embodiment, since there is a limit to the corpus that can be used, both are made common, but a completely different number of corpuses may be used for both.

さらに、上記した実施の形態では、パラレルテキストコーパス142及び144として、英語文を共通とし、中国文が異なる中英コーパスを用いた。すなわち、英語文が両者において一致している。このようなコーパスを用いると、コーパスによってカバーされるドメインがほぼ一致する。したがって、MTブロック140から出力される翻訳は、コーパスの性格を明確に反映したものとなる可能性が高い。したがって、選択モジュール154で行なわれる、種々の側面からの評価が有意義なものとなると思われる。   Further, in the above-described embodiment, as the parallel text corpora 142 and 144, a Chinese-English corpus having a common English sentence and a different Chinese sentence is used. That is, the English sentences are consistent in both. When such a corpus is used, the domains covered by the corpus are almost the same. Therefore, the translation output from the MT block 140 is likely to clearly reflect the character of the corpus. Therefore, the evaluation from various aspects performed in the selection module 154 will be meaningful.

しかし本発明はこのように対訳文の一方が一致している一組のコーパスを用いたものに限定されるわけではない。言語の組合せが互いに同一で、かつ性格の異なるようなパラレルテキストコーパスであれば、どのような組合せのものを用いても、あるコーパスを単独で使用する場合と比較して評価の側面が多様になり、最終的に得られる結果もよりよいものとなることが期待できる。   However, the present invention is not limited to one using a pair of corpora in which one of the parallel translations is matched. Parallel text corpora with the same language combination and different personalities will have various aspects of evaluation compared to using a single corpus, regardless of the combination. It can be expected that the final result will be better.

なお、上記した実施の形態では、仮説のスコアについて、言語モデル群及び翻訳モデル群の双方を用いて算出している。しかし本発明はそのような実施の形態には限定されない。例えば言語モデル群のみ、又は翻訳モデル群のみを使用して仮説のスコアを算出するようにしてもよい。   In the above-described embodiment, the hypothesis score is calculated using both the language model group and the translation model group. However, the present invention is not limited to such an embodiment. For example, the hypothesis score may be calculated using only the language model group or only the translation model group.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

従来技術による機械翻訳システム30のブロック図である。It is a block diagram of the machine translation system 30 by a prior art. 本発明の一実施の形態に係る機械翻訳システム130の構成を示す図である。It is a figure which shows the structure of the machine translation system 130 which concerns on one embodiment of this invention. 本発明の一実施の形態において使用されるパラレルテキストコーパス142及び144が作成される過程の例を示すブロック図である。It is a block diagram which shows the example of the process in which the parallel text corpus 142 and 144 used in one embodiment of this invention are produced. 本発明の一実施の形態に係る機械翻訳システム130内の変形コーパスによる検定処理モジュール180の構成の詳細を示すブロック図である。It is a block diagram which shows the detail of a structure of the test | inspection processing module 180 by the deformation corpus in the machine translation system 130 concerning one embodiment of this invention. 本発明の一実施の形態に係る機械翻訳システム130で使用される規則テーブル158の構成の詳細を表形式で示す図である。It is a figure which shows the detail of a structure of the rule table 158 used with the machine translation system 130 which concerns on one embodiment of this invention in a table format. 本発明の一実施の形態に係る機械翻訳システム130によって得られる翻訳文に対する評価の改善を表形式で示す図である。It is a figure which shows the improvement of evaluation with respect to the translation sentence obtained by the machine translation system 130 which concerns on one embodiment of this invention in a table format. 機械翻訳システム130を実現するためのコンピュータシステムの正面図である。2 is a front view of a computer system for realizing a machine translation system 130. FIG. 図7に示すコンピュータシステム330の内部構成を示すブロック図である。It is a block diagram which shows the internal structure of the computer system 330 shown in FIG.

符号の説明Explanation of symbols

30,130 機械翻訳システム
30A,30B 機械翻訳装置
140 MTブロック
142,144 パラレルテキストコーパス
156 優先順位テーブル
158 規則テーブル
180 変形コーパスによる検定処理モジュール
220,222,224,226 スコアリングモジュール
230,232 有意差検定モジュール
30, 130 Machine translation system 30A, 30B Machine translation device 140 MT block 142, 144 Parallel text corpus 156 Priority table 158 Rule table 180 Modified corpus-based test processing module 220, 222, 224, 226 Scoring module 230, 232 Significant difference Test module

Claims (13)

所定の第1の言語による共通の入力文に対し、各々が所定の第2の言語による翻訳候補を出力するための第1及び第2の機械翻訳手段と、
前記第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、所定の第1の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第1の判定手段と、
前記第1及び第2の機械翻訳手段がそれぞれ出力する翻訳候補を受け、前記第1の判定基準と異なる所定の第2の判定基準により、他方よりも優れた品質を有していると判定される翻訳候補を示す情報を出力するための第2の判定手段と、
前記第1の判定手段及び前記第2の判定手段の出力に基づいて、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを前記入力に対する翻訳文として選択し出力するための選択手段とを含む、機械翻訳装置。
First and second machine translation means for outputting translation candidates in a predetermined second language for a common input sentence in a predetermined first language;
The translation candidates output by the first and second machine translation units are received, and information indicating translation candidates determined to have a quality superior to the other according to a predetermined first determination criterion is output. First determination means for
The translation candidates output by the first and second machine translation units are received, respectively, and determined to have a quality superior to the other according to a predetermined second criterion different from the first criterion. Second determination means for outputting information indicating translation candidates
Based on the outputs of the first determination means and the second determination means, one of the translation candidates output by the first and second machine translation means is selected and output as a translation for the input. A machine translation device including selection means.
前記第1の判定手段は、
所定の第1の統計的モデルを用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第1のスコア算出手段と、
前記第1のスコア算出手段が前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第1のスコア判定手段と、
前記第1のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第1の翻訳候補選択手段とを含む、請求項1に記載の機械翻訳装置。
The first determination means includes
First score calculation for calculating scores of translation candidates output from the first machine translation unit and the second machine translation unit by a predetermined scoring method using a predetermined first statistical model Means,
A first score for determining whether or not there is a significant difference between the scores calculated by the first score calculation means for the translation candidates output by the first machine translation means and the second machine translation means; A score determination means,
First translation candidate selection means for outputting information indicating translation candidates determined to have a score superior to the other with a significant difference according to the determination result of the first score determination means The machine translation apparatus according to claim 1.
前記第2の判定手段は、
前記第1の統計的モデルと異なる所定の第2の統計的モデルを用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための第2のスコア算出手段と、
前記第2のスコア算出手段が前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補に対して算出したスコアに有意な差があるか否かを判定するための第2のスコア判定手段と、
前記第2のスコア判定手段の判定結果により、有意な差をもって他方より優れたスコアを有していると判定された翻訳候補を示す情報を出力するための第2の翻訳候補選択手段とを含む、請求項1又は請求項2に記載の機械翻訳装置。
The second determination means includes
By using a predetermined scoring method using a predetermined second statistical model different from the first statistical model, the scores of translation candidates output from the first machine translation unit and the second machine translation unit are obtained. A second score calculating means for calculating;
A second for determining whether or not there is a significant difference between the scores calculated by the second score calculation means for the translation candidates output by the first machine translation means and the second machine translation means; A score determination means,
Second translation candidate selection means for outputting information indicating translation candidates determined to have a score superior to the other with a significant difference based on the determination result of the second score determination means The machine translation apparatus according to claim 1 or 2.
前記第1及び第2の言語の対訳文からなる第1のパラレルテキストコーパスの前記第2の言語の文から、前記第2の言語の第1の統計的言語モデル群を作成するための第1の言語モデル作成手段と、
前記第1のパラレルテキストコーパスから、前記第2の言語から前記第1の言語への第1の統計的翻訳モデル群を作成するための第1の翻訳モデル作成手段とをさらに含み、
前記第1のスコア算出手段は、前記第1の統計的言語モデル群及び前記第1の翻訳モデル群を用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む、請求項1〜請求項3のいずれかに記載の機械翻訳装置。
A first statistical language model group for the second language is created from the second language sentence of the first parallel text corpus comprising the parallel translation sentences of the first and second languages. Language model creation means,
First translation model creating means for creating a first statistical translation model group from the second language to the first language from the first parallel text corpus;
The first score calculation means uses the first machine translation means and the second machine translation by a predetermined scoring method using the first statistical language model group and the first translation model group. 4. The machine translation apparatus according to claim 1, further comprising means for calculating a score of translation candidates output by the means.
前記第1及び第2の言語の対訳文からなる、前記第1のパラレルテキストコーパスと異なる第2のパラレルテキストコーパスの前記第2の言語の文から、前記第2の言語の第2の統計的言語モデル群を作成するための第2の言語モデル作成手段と、
前記第2のパラレルテキストコーパスから、前記第2の言語から前記第1の言語への第2の統計的翻訳モデル群を作成するための第2の翻訳モデル作成手段とをさらに含み、
前記第2のスコア算出手段は、前記第2の統計的言語モデル群及び前記第2の翻訳モデル群を用いた所定のスコアリング手法によって、前記第1の機械翻訳手段及び前記第2の機械翻訳手段の出力する翻訳候補のスコアを算出するための手段を含む、請求項4に記載の機械翻訳装置。
A second statistical of the second language from a sentence of the second language of a second parallel text corpus different from the first parallel text corpus, comprising bilingual sentences of the first and second languages. A second language model creating means for creating a language model group;
A second translation model creating means for creating a second statistical translation model group from the second language to the first language from the second parallel text corpus;
The second score calculating means uses the first machine translation means and the second machine translation by a predetermined scoring method using the second statistical language model group and the second translation model group. The machine translation apparatus according to claim 4, comprising means for calculating a score of translation candidates output by the means.
前記第1のパラレルテキストコーパスを学習データとして、前記第1の機械翻訳手段のトレーニングを行なうための手段をさらに含む、請求項4又は請求項5に記載の機械翻訳装置。 6. The machine translation apparatus according to claim 4 or 5, further comprising means for training the first machine translation means using the first parallel text corpus as learning data. 前記第2のパラレルテキストコーパスを学習データとして、前記第2の機械翻訳手段のトレーニングを行なうための手段をさらに含む、請求項6に記載の機械翻訳装置。 The machine translation apparatus according to claim 6, further comprising means for training the second machine translation means using the second parallel text corpus as learning data. さらに、前記第1及び第2の機械翻訳手段に対して付された優先順位を記憶するための優先順位記憶手段を含み、
前記第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、前記翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力し、
前記選択手段は、前記第1及び第2の判定手段の出力と、前記優先順位記憶手段に記憶された情報とによって、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む、請求項1〜請求項7のいずれかに記載の機械翻訳装置。
Furthermore, priority order storage means for storing priority given to the first and second machine translation means,
When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means, instead of the information indicating the translation candidate, Output information indicating that there are no translation candidates that satisfy the condition,
The selection means selects one of the translation candidates output from the first and second machine translation means based on the output of the first and second determination means and the information stored in the priority order storage means. The machine translation apparatus according to claim 1, comprising means for selecting and outputting.
前記出力するための手段は、
前記第1及び第2の判定手段の出力が一致して一方の翻訳候補を示すことに応答して、当該翻訳候補を選択するための手段と、
前記第1及び第2の判定手段の出力が競合していることに応答して、前記優先順位記憶手段により決定される機械翻訳手段から出力された翻訳候補を選択するための手段と、
前記第1及び第2の判定手段の出力の一方がある翻訳候補を示し、他方が条件を満たす翻訳候補の不在を示すことに応答して、前記ある翻訳候補を選択するための手段とを含む、請求項8に記載の機械翻訳装置。
The means for outputting is:
Means for selecting the translation candidate in response to the output of the first and second determining means being matched and indicating one translation candidate;
Means for selecting translation candidates output from the machine translation means determined by the priority storage means in response to conflicting outputs of the first and second determination means;
Means for selecting the certain translation candidate in response to one of the outputs of the first and second determination means indicating a translation candidate and the other indicating the absence of a translation candidate that satisfies the condition. The machine translation apparatus according to claim 8.
前記第1及び第2の機械翻訳手段の各々は、
前記入力を受けて、それぞれが前記第2の言語の翻訳候補を出力する複数の機械翻訳エンジンと、
前記複数の機械翻訳エンジンの出力する翻訳候補のいずれかを、所定の判定基準にしたがって選択するための手段とを含む、請求項1〜請求項7のいずれかに記載の機械翻訳装置。
Each of the first and second machine translation means includes:
A plurality of machine translation engines each receiving the input and outputting translation candidates for the second language;
The machine translation device according to claim 1, further comprising: means for selecting any one of translation candidates output from the plurality of machine translation engines according to a predetermined determination criterion.
さらに、前記第1及び第2の機械翻訳手段に含まれる機械翻訳エンジンの各々に対して付された優先順位を記憶するための優先順位記憶手段を含み、
前記第1及び第2の機械翻訳手段の出力する翻訳候補には、それぞれどの機械翻訳エンジンの出力かを示す情報が付されており、
前記第1及び第2の判定手段はいずれも、統計的有意性をもって他方よりも優れた品質を有していると判定される翻訳候補が存在しないときには、前記翻訳候補を示す情報に代えて、条件を充足する翻訳候補がないことを示す情報を出力し、
前記選択手段は、前記第1及び第2の判定手段の出力と、前記優先順位記憶手段に記憶された情報と、前記第1及び第2の機械翻訳手段の出力する翻訳候補に付された、どの機械翻訳エンジンの出力かを示す情報とによって、前記第1及び第2の機械翻訳手段の出力する翻訳候補のいずれかを選択し出力するための手段を含む、請求項10に記載の機械翻訳装置。
And further comprising priority order storage means for storing priorities assigned to each of the machine translation engines included in the first and second machine translation means,
Each of the translation candidates output by the first and second machine translation means has information indicating which machine translation engine is output,
When there is no translation candidate that is determined to have statistical significance and superior quality to the other, the first and second determination means, instead of the information indicating the translation candidate, Output information indicating that there are no translation candidates that satisfy the condition,
The selection means is attached to the output of the first and second determination means, the information stored in the priority order storage means, and the translation candidate output from the first and second machine translation means, 11. The machine translation according to claim 10, further comprising means for selecting and outputting one of translation candidates output by the first and second machine translation means according to information indicating which machine translation engine output. apparatus.
前記第1及び第2のパラレルテキストコーパスの前記第1の言語の文の少なくとも一部は互いに共通しており、
前記第1及び第2のパラレルテキストコーパスの前記第2の言語の文は、互いに独立である、請求項5に記載の機械翻訳装置。
At least some of the sentences in the first language of the first and second parallel text corpora are common to each other;
6. The machine translation device according to claim 5, wherein sentences in the second language of the first and second parallel text corpora are independent of each other.
コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項12のいずれかに記載の機械翻訳装置として機能させる、コンピュータプログラム。
A computer program that, when executed by a computer, causes the computer to function as the machine translation device according to any one of claims 1 to 12.
JP2006154501A 2006-06-02 2006-06-02 Mechanical translation device and computer program Pending JP2007323476A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006154501A JP2007323476A (en) 2006-06-02 2006-06-02 Mechanical translation device and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006154501A JP2007323476A (en) 2006-06-02 2006-06-02 Mechanical translation device and computer program

Publications (1)

Publication Number Publication Date
JP2007323476A true JP2007323476A (en) 2007-12-13

Family

ID=38856214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006154501A Pending JP2007323476A (en) 2006-06-02 2006-06-02 Mechanical translation device and computer program

Country Status (1)

Country Link
JP (1) JP2007323476A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090100A (en) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology Speech translation system, controller, speech recognition device, translation device, and speech synthesizer
JP2012168893A (en) * 2011-02-16 2012-09-06 Toshiba Corp Machine translation apparatus, machine translation method and machine translation program
JP2013089116A (en) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> Optimal translation sentence selection device, translation sentence selection model learning device, method, and program
JP2013190975A (en) * 2012-03-13 2013-09-26 Yahoo Japan Corp Translation control device, translation control method and translation control program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (en) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data
JP2005108184A (en) * 2003-09-09 2005-04-21 Advanced Telecommunication Research Institute International Machine translation system, its controller and computer program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038406A (en) * 2002-07-01 2004-02-05 Advanced Telecommunication Research Institute International Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data
JP2005108184A (en) * 2003-09-09 2005-04-21 Advanced Telecommunication Research Institute International Machine translation system, its controller and computer program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090100A (en) * 2009-10-21 2011-05-06 National Institute Of Information & Communication Technology Speech translation system, controller, speech recognition device, translation device, and speech synthesizer
US8954335B2 (en) 2009-10-21 2015-02-10 National Institute Of Information And Communications Technology Speech translation system, control device, and control method
JP2012168893A (en) * 2011-02-16 2012-09-06 Toshiba Corp Machine translation apparatus, machine translation method and machine translation program
JP2013089116A (en) * 2011-10-20 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> Optimal translation sentence selection device, translation sentence selection model learning device, method, and program
JP2013190975A (en) * 2012-03-13 2013-09-26 Yahoo Japan Corp Translation control device, translation control method and translation control program

Similar Documents

Publication Publication Date Title
JP3971373B2 (en) Hybrid automatic translation system that mixes rule-based method and translation pattern method
US8209166B2 (en) Apparatus, method, and computer program product for machine translation
US8494835B2 (en) Post-editing apparatus and method for correcting translation errors
US20140163951A1 (en) Hybrid adaptation of named entity recognition
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
US20100088085A1 (en) Statistical machine translation apparatus and method
JP5071373B2 (en) Language processing apparatus, language processing method, and language processing program
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
JP2007108749A (en) Method and device for training in statistical model of prosody, method and device for analyzing prosody, and method and system for synthesizing text speech
KR20090066067A (en) Method and apparatus for providing hybrid automatic translation
US20070282596A1 (en) Generating grammatical elements in natural language sentences
KR20150033735A (en) Word division device, word division method, and word division program
Sun et al. Contextual text denoising with masked language models
Desai et al. Diagnosing transformers in task-oriented semantic parsing
EP2851809A2 (en) Machine translation apparatus and method
JP2007323476A (en) Mechanical translation device and computer program
JP2016164707A (en) Automatic translation device and translation model learning device
US20210133394A1 (en) Experiential parser
JP5317061B2 (en) A simultaneous classifier in multiple languages for the presence or absence of a semantic relationship between words and a computer program therefor.
CN113268996A (en) Method for expanding corpus, training method for translation model and product
KR20210035721A (en) Machine translation method using multi-language corpus and system implementing using the same
JP2004038406A (en) Method for selecting best translation from plulal translation results, method for generating regression tree data for the selection, best translation selection type machine translation program, regression tree generation program, and storage medium with regression tree data
CN111178097A (en) Method and device for generating Chinese and Tai bilingual corpus based on multi-level translation model
JP2006004366A (en) Machine translation system and computer program for it
JP4113204B2 (en) Machine translation apparatus, method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120724