JP2007072927A - Translation apparatus and computer program - Google Patents

Translation apparatus and computer program Download PDF

Info

Publication number
JP2007072927A
JP2007072927A JP2005261609A JP2005261609A JP2007072927A JP 2007072927 A JP2007072927 A JP 2007072927A JP 2005261609 A JP2005261609 A JP 2005261609A JP 2005261609 A JP2005261609 A JP 2005261609A JP 2007072927 A JP2007072927 A JP 2007072927A
Authority
JP
Japan
Prior art keywords
translation
hypothesis
hypotheses
language
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005261609A
Other languages
Japanese (ja)
Inventor
Paul Micheal
ミヒャエル・パウル
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005261609A priority Critical patent/JP2007072927A/en
Publication of JP2007072927A publication Critical patent/JP2007072927A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a translation apparatus for reducing calculation costs and using a greedy decoding algorithm. <P>SOLUTION: The translating apparatus 30 for translating a first language sentence 46 into a second language sentence 72 includes: MT engines 52 for translating the first language sentence 46 into hypotheses 56 in the second language; a classifier 58 and a hypotheses selection part 74 for selecting, on a statistical basis, a hypothesis from the hypotheses 56 that will yield a better hypothesis in a predetermined algorithm for generating hypothesis from an initial hypothesis; and a decoder 68 for generating the translation sentence 72 using the predetermined algorithm from the classifier 58, the hypothesis selection part 74, and the hypothesis selected by classifier 58 and a hypothesis selection part 74. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は機械翻訳に関し、特に、貪欲デコードアルゴリズムを用いた統計的機械翻訳(Statistical Machine Translation:SMT)に関する。   The present invention relates to machine translation, and more particularly, to statistical machine translation (SMT) using a greedy decoding algorithm.

[統計的機械翻訳のための貪欲デコーディング]
統計的機械翻訳(SMT)のフレームワークは、ソース言語Sの文をターゲット言語Tへと翻訳する問題を、以下のように条件付確率の最大化問題として定式化する。
[Greedy decoding for statistical machine translation]
The Statistical Machine Translation (SMT) framework formulates the problem of translating source language S sentences into target language T as a conditional probability maximization problem as follows.

Figure 2007072927
ただしp(T)は「言語モデル」(language model:LM)と呼ばれ、ターゲット言語の尤度を表す。p(S|T)は「翻訳モデル」(translation model:TM)と呼ばれ、SからTへの生成確率を表す。言語モデルと翻訳モデルとの詳細については、非特許文献1を参照されたい。
Figure 2007072927
However, p (T) is called a “language model” (LM) and represents the likelihood of the target language. p (S | T) is called a “translation model” (TM) and represents the generation probability from S to T. Refer to Non-Patent Document 1 for details of the language model and the translation model.

LMとTMとの確率はそれぞれ、モノリンガルコーパス及びバイリンガルコーパスから自動的にトレーニング(学習)される。これらは、ソース言語の単語シーケンスをターゲット言語にマッピングするのに用いられる一般的な翻訳知識を表す。   The probabilities of LM and TM are automatically trained (learned) from a monolingual corpus and a bilingual corpus, respectively. These represent general translation knowledge used to map source language word sequences to target languages.

英語(E)の単語シーケンスを日本語(J)にマッピングする例を図9に示す。   An example of mapping an English (E) word sequence to Japanese (J) is shown in FIG.

従来のSMTのアプローチでは、生成された翻訳文候補の全てを、翻訳モデル(ファーティリティ(fertility))、NULL生成、辞書(lexicon)、ディストーション(distortion)及び言語モデルの確率に基づいてスコアリングする。TM*LMのスコアが最も高い翻訳文候補が、翻訳出力として選択される。   In the conventional SMT approach, all of the generated translation sentences are scored based on the probabilities of the translation model (fertility), NULL generation, lexicon, distortion, and language model. . The translation sentence candidate having the highest TM * LM score is selected as the translation output.

Figure 2007072927
翻訳処理(デコーディング)の間には、適切な翻訳文を見出すために、起こりうる多数の単語の挿入、ソース言語とターゲット言語との単語シーケンス間の複雑な単語のアライメント(ファーティリティ)、及び単語の順序の変更(ディストーション)を考慮しなければならない。
P.ブラウン及びS.デラ ピエトラ及びV.デラ ピエトラ及びR.メルサー、「統計的機械翻訳の数学:パラメータの推定」、コンピュータ言語、19(2)、263−311ページ、1993年(P. Brown and S. Della Pietra and V. Della Pietra and R. Mercer: "The mathematics of statistical machine translation: Parameter estimation", Computational Linguistics, 19(2), pp. 263-311, 1993) M.ポール及びE.スミタ及びS.ヤマモト、「統計的機械翻訳出力の用例ベースの再スコアリング」、HLT/NAACL2004予稿集、姉妹編、9−12ページ、ボストン、USA、2004年(M. Paul and E. Sumita and S. Yamamoto: "Example-based Rescoring of Statistical Machine Translation Output", In Proc. of the HLT/NAACL2004, Companion Volume, pp. 9-12, Boston, USA, 2004) ルールクエスト「データマイニングツールC5.0」、http://rulequest.com/see5-info.html (Rulequest "Data mining tool C5.0", http://rulequest.com/see5-info.html) T.ワタナベ及びE.スミタ、「統計的機械翻訳の用例ベースのデコーディング」、MTサミットIX予稿集、410−417ページ、2003年(T. Watanabe and E. Sumita: "Example-based Decoding for Statistical Machine Translation", Proceedings of MT Summit IX, pp. 410-417, 2003.)
Figure 2007072927
During the translation process (decoding), in order to find an appropriate translation, many possible word insertions, complex word alignments between the source and target language word sequences (fertility), and Changes in word order (distortion) must be taken into account.
P. Brown and S. Della Pietra and V. Della Pietra and R. Mercer, "Mathematics of Statistical Machine Translation: Parameter Estimation," Computer Language, 19 (2), pp. 263-311, 1993 (P. Brown and S. Della Pietra and V. Della Pietra and R. Mercer: " The mathematics of statistical machine translation: Parameter estimation ", Computational Linguistics, 19 (2), pp. 263-311, 1993) M.M. Paul and E. Sumita and S. Yamamoto, "Example-based rescoring of statistical machine translation output," HLT / NAACL2004 proceedings, sisters, pages 9-12, Boston, USA, 2004 (M. Paul and E. Sumita and S. Yamamoto: "Example-based Rescoring of Statistical Machine Translation Output", In Proc. Of the HLT / NAACL2004, Companion Volume, pp. 9-12, Boston, USA, 2004) Rule quest "Data mining tool C5.0", http://rulequest.com/see5-info.html (Rulequest "Data mining tool C5.0", http://rulequest.com/see5-info.html) T.A. Watanabe and E. Sumita, “Example-Based Decoding for Statistical Machine Translation”, MT Summit IX Proceedings, pages 410-417, 2003 (T. Watanabe and E. Sumita: “Example-based Decoding for Statistical Machine Translation”, Proceedings of MT Summit IX, pp. 410-417, 2003.)

翻訳出力は、検索を開始するための初期翻訳仮説に依存するが、これは、局所最適な翻訳文には導くであろうが、大域最適な翻訳文には必ずしも導かない。   The translation output depends on the initial translation hypothesis to initiate the search, which will lead to a locally optimal translation, but not necessarily a global optimal translation.

この問題を解決するために、これまでの対策は、入力又は入力に類似した文を予備的に翻訳した文を、初期翻訳仮説として用いることを提案している(非特許文献4を参照されたい。)。   In order to solve this problem, the conventional measures have proposed using a sentence obtained by preliminary translation of input or a sentence similar to the input as an initial translation hypothesis (see Non-Patent Document 4). .)

この方法では、ソース部分が入力文と類似する翻訳用例をバイリンガルコーパスから取出して用いる。各用例のターゲット部分をわずかに修正して、各対が実際の翻訳になるようにする。この用例ベースのアプローチの利点は、良い翻訳文の検索を、推測した翻訳文からではなく、検索された翻訳用例から開始するので、検索誤差が少ないということである。   In this method, a translation example whose source part is similar to an input sentence is extracted from a bilingual corpus and used. The target part of each example is slightly modified so that each pair is an actual translation. The advantage of this example-based approach is that the search for good translations starts with the searched translation example rather than with the guessed translation, so the search error is small.

しかし、この方法は基本の方法と同じ貪欲検索アルゴリズムを用いるので、検索誤差を完全に回避することはできない。   However, since this method uses the same greedy search algorithm as the basic method, the search error cannot be completely avoided.

貪欲検索の局部最適の問題を克服して最良の翻訳文を得るために、非特許文献2に開示の方法では多数の検索エンジンによって生成された多様な開始点を用いる。これらの開始点となる翻訳文を「初期翻訳仮説」または「シード」と呼ぶ。   In order to overcome the local optimization problem of greedy search and obtain the best translation, the method disclosed in Non-Patent Document 2 uses various starting points generated by a number of search engines. These translated sentences are called “initial translation hypotheses” or “seed”.

互いに異なった辞書、互いに異なった文法及び互いに異なった翻訳規則を用い、独立して開発された翻訳エンジンによって初期翻訳仮説が生成されるため、きわめて多様な初期翻訳仮説が得られる。従って、貪欲検索アルゴリズムでは、検索空間のより広い部分を探索することができ、大域最適解が得られる可能性が増大する。   Since initial translation hypotheses are generated by an independently developed translation engine using different dictionaries, different grammars, and different translation rules, a great variety of initial translation hypotheses can be obtained. Therefore, the greedy search algorithm can search a wider part of the search space, increasing the possibility of obtaining a global optimal solution.

貪欲検索の間に生成された翻訳中の最良の翻訳が、編集距離を用いた再スコアリング法によって選択される。これは、生成された翻訳候補の各々の統計的スコアを、初期翻訳仮説がデコーディングの間にどれほど修正されたかの情報によって訂正するものである。   The best translation among the translations generated during the greedy search is selected by a rescoring method using edit distance. This corrects the statistical score of each of the generated translation candidates with information on how much the initial translation hypothesis was modified during decoding.

この方法は、非特許文献4等の、統計的モデルのみに基づく貪欲デコーディングによるアプローチより優れた性能を発揮する。   This method exhibits performance superior to an approach based on greedy decoding based only on a statistical model, such as Non-Patent Document 4.

しかし、このアプローチの欠点は、全ての初期翻訳仮説にデコーダを適用しなければならないことである。このため、最適な翻訳文を特定するために高い計算コストがかかる。   However, the drawback of this approach is that the decoder must be applied to all initial translation hypotheses. For this reason, a high calculation cost is required to specify an optimal translated sentence.

従って、この発明の目的は、計算コストを減じつつ、貪欲デコードアルゴリズムを用いる翻訳装置を提供することである。   Accordingly, an object of the present invention is to provide a translation apparatus that uses a greedy decoding algorithm while reducing the calculation cost.

この発明の別の目的は、翻訳結果の品質を維持し、計算コストを減じつつ、貪欲デコードアルゴリズムを用いる翻訳装置を提供することである。   Another object of the present invention is to provide a translation apparatus using a greedy decoding algorithm while maintaining the quality of the translation result and reducing the calculation cost.

この発明の一局面に係る翻訳装置は、第1の言語の文を第2の言語の文に翻訳するための翻訳装置であって、第1の言語の文を第2の言語の複数個の仮説に翻訳するための手段と、統計的根拠に基づいて、複数個の仮説の中から、予め定められたアルゴリズムによってより良い仮説を生じさせるものを選択するための手段と、予め定められたアルゴリズムを用いて、選択するための手段によって選択された仮説から翻訳文を生成するための手段とを含む。   A translation device according to one aspect of the present invention is a translation device for translating a sentence in a first language into a sentence in a second language, wherein the sentence in the first language is converted into a plurality of sentences in the second language. A means for translating into a hypothesis, a means for selecting a plurality of hypotheses from which a better hypothesis is generated by a predetermined algorithm based on a statistical basis, and a predetermined algorithm And means for generating a translation from the hypothesis selected by the means for selecting.

翻訳するための手段は、第1の言語の文を第2の言語の複数個の仮説に翻訳する。選択するための手段は、仮説の中から、予め定められたアルゴリズムによって処理するとより良い仮説を生じさせるものを選択する。生成するための手段は、選択された仮説を初期仮説として用い、予め定められたアルゴリズムによって翻訳文を生成する。生成するための手段によって、好ましい仮説が予め定められたアルゴリズム中で用いられているので、結果は選択された初期の仮説より良質であると期待される。予め定められたアルゴリズムで用いられる初期仮説の数が実質的に削減されるので、生成するための手段の計算コストは低くなる。   The means for translating translates the sentence in the first language into a plurality of hypotheses in the second language. The means for selecting selects a hypothesis that produces a better hypothesis when processed by a predetermined algorithm. The means for generating uses the selected hypothesis as an initial hypothesis, and generates a translation sentence by a predetermined algorithm. The result is expected to be better than the selected initial hypothesis because the preferred hypothesis is used in a predetermined algorithm by means for generating. Since the number of initial hypotheses used in the predetermined algorithm is substantially reduced, the computational cost of the means for generating is low.

好ましくは、選択するための手段は、第2の言語の複数個の仮説を、統計的根拠に基づいて複数個のクラスに分類し、複数個の仮説のそれぞれのスコアを統計的根拠に基づいて計算するための手段を含む。複数個のクラスは第1のクラスと第2のクラスとを含む。選択するための手段はさらに、分類するための手段によって計算されたスコアに基づき、第1のクラスに分類された仮説のうち一つを選択するための手段を含む。   Preferably, the means for selecting classifies the plurality of hypotheses of the second language into a plurality of classes based on a statistical basis, and the respective scores of the plurality of hypotheses are based on the statistical basis. Including means for calculating. The plurality of classes includes a first class and a second class. The means for selecting further includes means for selecting one of the hypotheses classified into the first class based on the score calculated by the means for classifying.

より好ましくは、分類するための手段が、第1の言語の文とそれらに対応する仮説との対と、さらに当該仮説から予め定められたアルゴリズムによって得られる結果とによりトレーニングされる決定木分類器を含む。   More preferably, the decision tree classifier wherein the means for classifying is trained by pairs of sentences in the first language and their corresponding hypotheses, and further results obtained from the hypotheses by a predetermined algorithm. including.

さらに好ましくは、第1の言語のトレーニング用文の組と、このトレーニング用文の組から得られるトレーニング用仮説の組と、トレーニング用仮説の組から予め定められたアルゴリズムによって得られる第2の言語の文の組であって、かつ各文が良い翻訳文と悪い翻訳文とに分類されている組とを用いて、選択するための手段をトレーニングするための手段をさらに含む。   More preferably, a set of training sentences in the first language, a set of training hypotheses obtained from the set of training sentences, and a second language obtained by a predetermined algorithm from the set of training hypotheses Means for training means for selecting using a set of sentences, each sentence being classified into a good translation sentence and a bad translation sentence.

この発明の第2の局面に係るコンピュータプログラムは、コンピュータに、上述の翻訳装置のいずれかの全ての機能を行わせる。   A computer program according to the second aspect of the present invention causes a computer to perform all the functions of any of the above translation apparatuses.

以下のシステムは日本語から英語への翻訳に関するが、この発明はそのような言語の組合せに限定されるものではない。その言語の組合せについてバイリンガルコーパスが利用可能であれば、どのような組合せ、及びどのような翻訳方向を用いることもできる。   The following system relates to translation from Japanese to English, but the invention is not limited to such language combinations. Any combination and any translation direction can be used as long as a bilingual corpus is available for that language combination.

<システムの概要>
この発明の第1の実施の形態に係る翻訳システム30の全体のブロック図を図1に示す。翻訳システム30は日本語の文を英語の文に翻訳する。
<System overview>
FIG. 1 shows an overall block diagram of a translation system 30 according to the first embodiment of the present invention. The translation system 30 translates Japanese sentences into English sentences.

翻訳システム30は日本語の文と英語の文とが前もってアライメントされているバイリンガルコーパス40と、バイリンガルコーパス40のトレーニングデータセットから導出される、英語から日本語への統計的翻訳モデル及び英語の統計的言語モデル70と連携して動作する。翻訳モデルの翻訳方向は、翻訳システムの翻訳方向(日本語から英語)とは逆であることに注意されたい。   The translation system 30 is a bilingual corpus 40 in which Japanese sentences and English sentences are pre-aligned, and an English-to-Japanese statistical translation model and English statistics derived from a training data set of the bilingual corpus 40. It works in conjunction with the global language model 70. Note that the translation direction of the translation model is the opposite of the translation direction of the translation system (from Japanese to English).

翻訳システム30は二つの動作フェーズで動作する。トレーニングフェーズと動作フェーズである。翻訳システム30は外部の動作モード信号78に従って、トレーニングフェーズ又は動作フェーズで動作する。   Translation system 30 operates in two phases of operation. It is a training phase and an operation phase. The translation system 30 operates in the training phase or the operation phase according to the external operation mode signal 78.

翻訳システム30は、トレーニングフェーズにおいてバイリンガルコーパス40からトレーニング文44を読出すための読出モジュール42と、動作モードに従って、トレーニング文44または入力文46を選択するための入力選択部48と、入力選択部48によって選択された文を翻訳して、入力選択部48からの各文に対し予め定められた数の仮説56を出力するためのMTエンジン52の組とを含む。MTエンジン52の組は、m個のMTエンジンを含み、MTエンジン52は入力選択部48からの各文に対しm個の仮説を出力する。   The translation system 30 includes a reading module 42 for reading the training sentence 44 from the bilingual corpus 40 in the training phase, an input selecting part 48 for selecting the training sentence 44 or the input sentence 46 according to the operation mode, and an input selecting part. And a set of MT engines 52 for translating the sentence selected by 48 and outputting a predetermined number of hypotheses 56 for each sentence from the input selector 48. The set of MT engines 52 includes m MT engines, and the MT engine 52 outputs m hypotheses for each sentence from the input selection unit 48.

翻訳システム30はさらに、動作モードに従ってトレーニング文44又は入力文46を選択するための選択部50と、所与の入力文と仮説との対が貪欲デコーディングを用いるアプローチによって改良されうるか否かを判断する決定木(Decision Tree:DT)分類器58とを含む。DT分類器58は、バイリンガルコーパス40からのトレーニングデータを用いてトレーニングフェーズの間に得られた統計的根拠に基づき、仮説を分類する。   The translation system 30 further includes a selector 50 for selecting the training sentence 44 or the input sentence 46 according to the operation mode, and whether a given input sentence and hypothesis pair can be improved by an approach using greedy decoding. A decision tree (DT) classifier 58 to determine. The DT classifier 58 classifies hypotheses based on statistical evidence obtained during the training phase using training data from the bilingual corpus 40.

翻訳システム30はさらに、統計とDT分類器58の分類結果の信頼性の値とに基づいて、仮説の一つを選択する仮説選択部74と、二つの入力が仮説選択部74の出力と仮説56とを受けるようにそれぞれ接続された出力選択部66と、非特許文献2に示された貪欲アルゴリズムを用いて出力選択部66の出力をデコードし、編集距離を用いた再スコアリング法に従って最良の翻訳結果を選択するためのデコーダ68とを含む。翻訳結果はデコーダ出力72として出力される。   The translation system 30 further includes a hypothesis selection unit 74 that selects one of the hypotheses based on the statistics and the reliability value of the classification result of the DT classifier 58, and two inputs that are the output of the hypothesis selection unit 74 and the hypothesis. 56, and the output selection unit 66 connected to each other to decode the output of the output selection unit 66 using the greedy algorithm shown in Non-Patent Document 2, and the best according to the rescoring method using the edit distance And a decoder 68 for selecting the translation result. The translation result is output as a decoder output 72.

DT分類器58をトレーニングする目的で、翻訳システム30はさらに、仮説56中の各仮説対とそれに対応するデコーダ出力72に対し自動評価スコアリング方式(「単語誤り率」、Word Error Rate(略してWER)を用いる。)を適用して、その対に「良」又は「不良」の属性を割当てるためのDT属性抽出モジュール64と、入力−仮説の各組を分析して、DT分類器58をトレーニングするのに必要な特徴量を抽出するためのDT特徴量抽出モジュール54と、DT特徴量抽出モジュール54によって抽出された特徴量及びDT属性抽出モジュール64によって抽出された属性を用いて、DT分類器58をトレーニングするためのDT分類器学習部62と、動作モードに従って、DT特徴量抽出モジュール54の出力とDT分類器学習部62の出力とを選択的にDT分類器58に接続するための選択部60と、を含む。   For the purpose of training the DT classifier 58, the translation system 30 further provides an automatic evaluation scoring scheme (“word error rate”, Word Error Rate (abbreviated for short) for each hypothesis pair in the hypothesis 56 and its corresponding decoder output 72. DT attribute extraction module 64 for assigning a “good” or “bad” attribute to the pair, and analyzing each input-hypothesis pair to produce a DT classifier 58. DT classification using the DT feature quantity extraction module 54 for extracting the feature quantity necessary for training, the feature quantity extracted by the DT feature quantity extraction module 54 and the attribute extracted by the DT attribute extraction module 64 DT classifier learning unit 62 for training the device 58 and the output of the DT feature quantity extraction module 54 according to the operation mode And a selection unit 60 for selectively connecting the output of the DT classifier learning unit 62 to the DT classifier 58.

翻訳システム30はさらに、入力選択部48、50、60及び66、DT分類器58、並びに読出モジュール42を制御して、トレーニングフェーズと動作フェーズとで翻訳システム30を以下のように動作させるための動作フェーズ制御部76を含む。   The translation system 30 further controls the input selectors 48, 50, 60 and 66, the DT classifier 58, and the reading module 42 to operate the translation system 30 in the training phase and the operation phase as follows. An operation phase control unit 76 is included.

I.トレーニングフェーズ
トレーニングフェーズでは、動作フェーズ制御部76は選択部48、50、60及び66を制御して、図2に示すように翻訳システム30がDT分類器58をトレーニングするように設定する。
I. Training Phase In the training phase, the operation phase controller 76 controls the selectors 48, 50, 60 and 66 to set the translation system 30 to train the DT classifier 58 as shown in FIG.

トレーニングフェーズでは、動作フェーズ制御部76が翻訳システム30を以下のように制御する。読出モジュール42がバイリンガルコーパス40中の日本語のトレーニング文の各々を読出し、トレーニング文44を入力選択部48(図1)に与える。入力選択部48はトレーニング文44を選択し、トレーニング文の各々をMTエンジン52に与える。MTエンジン52はトレーニング文44の各々を翻訳し、トレーニング文44の各々についてm個の仮説56を出力する。   In the training phase, the operation phase control unit 76 controls the translation system 30 as follows. The reading module 42 reads each of the Japanese training sentences in the bilingual corpus 40 and gives the training sentence 44 to the input selection unit 48 (FIG. 1). The input selection unit 48 selects the training sentence 44 and gives each of the training sentences to the MT engine 52. The MT engine 52 translates each of the training sentences 44 and outputs m hypotheses 56 for each of the training sentences 44.

選択部50(図1)はトレーニング文44を選択し、トレーニング文44をDT特徴量抽出モジュール54に与える。MTエンジン52中の各MTエンジンについて、それぞれの入力−仮説対の組がDT特徴量抽出モジュール54によって分析され、DT分類器58をトレーニングするのに必要な特徴量が抽出され、この特徴量がDT分類器学習部62に与えられる。   The selection unit 50 (FIG. 1) selects the training sentence 44 and provides the training sentence 44 to the DT feature amount extraction module 54. For each MT engine in the MT engine 52, each input-hypothesis pair pair is analyzed by the DT feature extraction module 54 to extract the features necessary to train the DT classifier 58, and this feature is This is given to the DT classifier learning unit 62.

出力選択部66(図1)はMTエンジン52の出力(仮説56)を選択し、仮説の各々をデコーダ68に与える。デコーダ68は与えられた仮説をデコードする、すなわち、与えられた仮説をシードとして用いて貪欲アルゴリズムにより翻訳文を検索し、編集距離を用いた再スコアリング方式に従って最良の翻訳文を選択し、与えられた仮説の各々についてデコーダ出力72を生成する。   The output selection unit 66 (FIG. 1) selects the output (hypothesis 56) of the MT engine 52 and supplies each hypothesis to the decoder 68. The decoder 68 decodes a given hypothesis, that is, uses the given hypothesis as a seed to search for a translation using a greedy algorithm, selects the best translation according to a re-scoring scheme using edit distance, and gives A decoder output 72 is generated for each hypothesized.

仮説56中の仮説とデコーダ68からのその対応の出力との各対に、DT属性抽出モジュール64が自動評価スコアリング方式を適用してその対に「良」又は「不良」の属性を割当て、その属性をDT分類器学習部62に与える。   For each pair of hypothesis in hypothesis 56 and its corresponding output from decoder 68, DT attribute extraction module 64 applies an automatic evaluation scoring scheme to assign a “good” or “bad” attribute to the pair; The attribute is given to the DT classifier learning unit 62.

選択部60(図1)はDT分類器学習部62の出力をDT分類器58のトレーニング入力に接続する。DT特徴量抽出モジュール54からの抽出特徴量とDT属性抽出モジュール64からの属性とがDT分類器学習部62の入力となり、この結果、DT分類器58は、所与の入力−仮説対が貪欲デコーディングを用いたアプローチによって改良可能か否かを判断することになる。DT分類器58は決定木分類器であり、DT分類器58の葉ノードの各々について、信頼性尺度が計算される。信頼性尺度はDT分類器58による判断(「良」又は「不良」)の可能性が正しいか否かを、トレーニングフェーズで得られた統計的確率の形で示す。   The selector 60 (FIG. 1) connects the output of the DT classifier learning unit 62 to the training input of the DT classifier 58. The extracted feature quantity from the DT feature quantity extraction module 54 and the attribute from the DT attribute extraction module 64 are input to the DT classifier learning unit 62. As a result, the DT classifier 58 has a given input-hypothesis pair as greedy. It will be judged whether it can improve by the approach using decoding. The DT classifier 58 is a decision tree classifier, and a reliability measure is calculated for each leaf node of the DT classifier 58. The reliability measure indicates whether or not the possibility of judgment (“good” or “bad”) by the DT classifier 58 is correct in the form of statistical probability obtained in the training phase.

II.動作フェーズ
動作フェーズにおいては、動作フェーズ制御部76は選択部48、50、60及び66を制御して、翻訳システム30が図3に示すように設定されるようにする。このフェーズでは、所与の入力文46がMTエンジン52を用いて翻訳され、m個の初期仮説56が生成される。入力−仮説対の各々にDT分類器を適用し、「不良」と分類された入力−仮説対は全て初期仮説56の組から削除される。
II. Operation Phase In the operation phase, the operation phase control unit 76 controls the selection units 48, 50, 60 and 66 so that the translation system 30 is set as shown in FIG. In this phase, a given input sentence 46 is translated using the MT engine 52 and m initial hypotheses 56 are generated. Applying a DT classifier to each of the input-hypothesis pairs, all input-hypothesis pairs classified as “bad” are deleted from the set of initial hypotheses 56.

統計的スコア及び分類結果の信頼性の値に基づいて、単一の入力−仮説対が仮説選択部74によって選択され、貪欲デコーダ68の入力として用いられ、ここで結果として得られる最良の翻訳文(デコーダ出力72)が編集距離ベースの再スコアリング法に従って選択される。   Based on the statistical score and the confidence value of the classification result, a single input-hypothesis pair is selected by the hypothesis selector 74 and used as input to the greedy decoder 68, where the resulting best translation is obtained. The (decoder output 72) is selected according to an edit distance based rescoring method.

この実施の形態では、MTエンジン52として5個のMTエンジンを用いた。2個は用例ベースのMT(Example Based MT:EBMT)であり、これらは貪欲デコーダ68と同じトレーニングセットによってトレーニングされた。残り3個は市販の規則ベースのMT(Rule Based MT:RBMT)システムであり、辞書、文法及び翻訳規則に基づいている。   In this embodiment, five MT engines are used as the MT engine 52. Two were example-based MT (EBMT), which were trained by the same training set as the greedy decoder 68. The remaining three are commercially available rule-based MT (RBMT) systems, which are based on dictionaries, grammar and translation rules.

決定木分類器の学習のために、市販のデータマイニングツールを用いた。このようなツールの一例は非特許文献3にある。初期の入力−仮説対の組からDT特徴量抽出モジュール54によって抽出される特徴量は以下の通りである。   A commercially available data mining tool was used to learn the decision tree classifier. An example of such a tool is in Non-Patent Document 3. The feature quantity extracted by the DT feature quantity extraction module 54 from the initial input-hypothesis pair set is as follows.

(1)異なるMTエンジンによって生成された初期の翻訳仮説間の「類似性特徴量」、これは、以下を含む。   (1) “Similarity features” between initial translation hypotheses generated by different MT engines, including:

−初期翻訳仮説のうち同一のものの数
−所与の仮説と他のMTエンジンのものとの平均編集距離(edit−distance:ED)。編集距離は挿入(INS)、削除(DEL)、及び置換(SUB)動作のコストの合計、ED=INS+DEL+SUBとして定義される。
-Number of identical initial translation hypotheses-Average edit distance (ED) between a given hypothesis and that of other MT engines. The edit distance is defined as the sum of the costs of insert (INS), delete (DEL), and replace (SUB) operations, ED = INS + DEL + SUB.

−最短/最長の初期翻訳仮説からの文の長さの相違。   -Sentence length differences from shortest / longest initial translation hypotheses.

(2)トレーニングコーパスから抽出された「統計的特徴量」。これは以下を含む。   (2) “Statistical features” extracted from the training corpus. This includes:

−TM*LM統計モデルスコア
−特定のソース言語及びターゲット言語の単語の頻度。
TM * LM statistical model score-frequency of words in specific source and target languages.

(3)トリグラム言語モデルに基づいて計算された、ソース言語入力と初期翻訳仮説との「言語パープレキシティ」特徴量。   (3) “Language perplexity” feature quantity of source language input and initial translation hypothesis calculated based on trigram language model.

(4)「言語学的特徴量」、これは以下を含む。   (4) “Linguistic features”, which includes:

−文の長さ
−文の種類
−文の構造(構文解析木でのノードの数等)
−構成要素のサイズ
−密度特徴量、すなわち、機能語と内容語との比率
−内容語の意味論的カテゴリー。
-Sentence length-Sentence type-Sentence structure (number of nodes in the parse tree, etc.)
-The size of the component-Density features, ie the ratio of function words to content words-Semantic categories of content words.

図4はこの実施の形態のDT特徴量抽出部54によって抽出された特徴量の組の例として表90を示す。図4において、「INPUT」は入力文を意味し、「HYP」は「INPUT」に対応する仮説を表す。   FIG. 4 shows a table 90 as an example of a set of feature amounts extracted by the DT feature amount extraction unit 54 of this embodiment. In FIG. 4, “INPUT” means an input sentence, and “HYP” represents a hypothesis corresponding to “INPUT”.

図5は特徴量の組の例として表100を示す。ここで「INPUT」と一個のMTエンジン52(MT1)との対について抽出されたものを組110で示し、「INPUT」と別のMTエンジン52(MT2)との対について抽出されたものを組112で示す。   FIG. 5 shows a table 100 as an example of a set of feature amounts. Here, a pair extracted with respect to a pair of “INPUT” and one MT engine 52 (MT1) is shown as a set 110, and a pair extracted with respect to a pair of “INPUT” and another MT engine 52 (MT2). 112.

DT属性(「良」又は「不良」)、すなわち分類器のトレーニングに用いられる特徴量は以下のように決定される。   The DT attribute (“good” or “bad”), that is, the feature quantity used for training of the classifier is determined as follows.

バイリンガルコーパス40中の文をMTエンジン52を用いて翻訳し、初期仮説の組56を生成する。これらの初期仮説の組56は編集距離ベースの再スコアリングによりデコードされる。デコーダ68の出力の各々に自動評価スコアリング法(WER)を適用して、以下の翻訳品質を判断する。   Sentences in the bilingual corpus 40 are translated using the MT engine 52 to generate an initial hypothesis set 56. These initial hypothesis sets 56 are decoded by edit distance based rescoring. An automatic evaluation scoring method (WER) is applied to each of the outputs of the decoder 68 to determine the following translation quality.

(a) MTエンジンによって生成された初期仮説
(b) デコーダ出力。
(A) Initial hypothesis generated by MT engine (b) Decoder output.

入力−仮説の各対についての属性(「良」又は「不良」)は以下のように割当てられる。   The attributes (“good” or “bad”) for each input-hypothesis pair are assigned as follows:

−翻訳品質が改良されていれば、すなわち、WER(デコーダ出力)<WER(初期仮説)であれば「良」。   -If the translation quality is improved, i.e. WER (decoder output) <WER (initial hypothesis), "good".

−それ以外は「不良」。   -Otherwise it is "bad".

DT分類器58は、入力−仮説の各対についてDT特徴量抽出モジュール54とDT属性抽出モジュール64とによってそれぞれ抽出された特徴量と属性とによってトレーニングされる。   The DT classifier 58 is trained by the feature quantities and attributes respectively extracted by the DT feature quantity extraction module 54 and the DT attribute extraction module 64 for each input-hypothesis pair.

図6を参照して、トレーニングされたDT分類器58は、入力−仮説の対の特徴量に関する質問を含む、ノード140、142、144、150、152、160、162、180、182、200、210、212、230、232、240、242、260及び262を含む。ノードルート140から開始して、特徴量が真であるか否かに従って決定木を辿っていき、分類結果を含む葉に至る。例えば、葉ノードには、
−分類された属性(「良」又は「不良」)と数値によるスコア、及び
−タグ170、190、192、220、250、270及び272で示される、分類結果の信頼性(決定木の同じパスを用いた場合に正確に分類されたトレーニングサンプルのパーセンテージ)を割当てることができる。
Referring to FIG. 6, the trained DT classifier 58 includes nodes 140, 142, 144, 150, 152, 160, 162, 180, 182, 200, including questions about the input-hypothesis pair features. 210, 212, 230, 232, 240, 242, 260 and 262. Starting from the node route 140, the decision tree is traced according to whether or not the feature quantity is true, and the leaf including the classification result is reached. For example, the leaf node
A classified attribute (“good” or “bad”) and a numerical score; and a reliability of the classification result indicated by the tags 170, 190, 192, 220, 250, 270 and 272 (the same path of the decision tree) Can be assigned as a percentage of training samples correctly classified.

例えば、タグ170は、ツリーを辿ってノード160に至った場合、属性は「不良」でありその信頼性の値が1.0であることを示す。これは、この葉ノード160に至る全ての仮説が、トレーニングフェーズで全く改良を示さなかったことを表す。   For example, when the tag 170 traces the tree to reach the node 160, it indicates that the attribute is “bad” and the reliability value thereof is 1.0. This represents that all hypotheses leading to this leaf node 160 did not show any improvement in the training phase.

動作時には、所与の入力−仮説対がDT分類器58で分類される。所与の入力−仮説対が「不良」であると分類されれば、これは初期仮説の組から除外される。   In operation, a given input-hypothesis pair is classified by the DT classifier 58. If a given input-hypothesis pair is classified as “bad”, it is excluded from the initial hypothesis set.

仮説選択部74はDT分類器58によって選択された入力−仮説対から単一の入力−仮説対を、翻訳及び言語モデル70を用いて計算された統計的モデルに基づくスコア(TM・LM)の情報と、決定木分類結果の信頼性の値(CONF)とに基づいて選択する。   The hypothesis selection unit 74 converts a single input-hypothesis pair from the input-hypothesis pair selected by the DT classifier 58 into a score (TM · LM) based on a statistical model calculated using the translation and language model 70. The selection is made based on the information and the reliability value (CONF) of the decision tree classification result.

仮説選択部74は、DT分類器58によって選択された仮説を、CONF、TM及びLMの関数であるCONF・TM・LMスコアによって再スコアリングする。

CONF・TM・LM score=func(CONF,TM,LM)

仮説選択部74によって用いられる基準は次のようなものである。
The hypothesis selection unit 74 rescores the hypothesis selected by the DT classifier 58 by the CONF · TM · LM score that is a function of CONF, TM, and LM.

CONF / TM / LM score = func (CONF, TM, LM)

The criteria used by the hypothesis selection unit 74 are as follows.

−統計的モデルスコアTM・LMが高いほど、翻訳の品質は高いと考えられる。   -The higher the statistical model score TM · LM, the higher the quality of translation.

−分類結果から導出される信頼性のスコアが高いほど、良い開始点が見出されたと思われる。   -The higher the confidence score derived from the classification results, the better the starting point may have been found.

CONF・TM・LMスコアが最も高い入力−仮説対が、デコーダ68によるデコードのために選択される。   The input-hypothesis pair with the highest CONF.TM.LM score is selected for decoding by decoder 68.

上述の実施の形態では、以下のスコアリング関数が用いられる。   In the above-described embodiment, the following scoring function is used.

Figure 2007072927
ここで、「I」と「H」とは、それぞれ「入力」と「仮説」を表す。
Figure 2007072927
Here, “I” and “H” represent “input” and “hypothesis”, respectively.

DT属性抽出モジュール64における属性抽出では、トレーニングフェーズにおいてデコーダ68の出力の各々に以下の基準に従ったランクが割当てられる。   In attribute extraction in the DT attribute extraction module 64, ranks according to the following criteria are assigned to each of the outputs of the decoder 68 in the training phase.

Figure 2007072927

ランクは、英語を母国語とする人によって決定される。ABCスコアが次のように計算される。
Figure 2007072927

The rank is determined by a person whose native language is English. The ABC score is calculated as follows:

Figure 2007072927
例:トレーニングフェーズ(日本語から英語への翻訳)
トレーニングフェーズでのトレーニング文の一例「えと 名前 が タナカ ヨシコ と 申し ます それ で 予約 御 願い し ます」。この文をMTエンジン52に与える。MT1及びMT2がこの入力文(INPUT)を翻訳し、以下の二個の仮説HYP1及びHYP2をそれぞれ生成する。
Figure 2007072927
Example: Training phase (Translation from Japanese to English)
An example of the training text in the training phase, “My name is Yoshiko Tanaka, so please make a reservation.” This sentence is given to the MT engine 52. MT1 and MT2 translate this input sentence (INPUT) and generate the following two hypotheses HYP1 and HYP2, respectively.

Figure 2007072927
これらの仮説に対するデコーダ68の出力(OUTPUT)は次のようになる。
Figure 2007072927
The output (OUTPUT) of the decoder 68 for these hypotheses is as follows.

Figure 2007072927
DT特徴量抽出モジュール54は各対(INPUT,HYP1)、(INPUT,HYP2)から特徴量を抽出し、一方DT属性抽出モジュール64は対(HYP1,OUT1)、(HYP2,OUT2)の属性を抽出する。
Figure 2007072927
The DT feature quantity extraction module 54 extracts feature quantities from each pair (INPUT, HYP1) and (INPUT, HYP2), while the DT attribute extraction module 64 extracts attributes of the pair (HYP1, OUT1) and (HYP2, OUT2). To do.

例:動作フェーズ(日本語から英語への翻訳)
動作フェーズでは、以下の文が翻訳システム30に与えられるものとする。
Example: Operation phase (Translation from Japanese to English)
In the operation phase, the following sentence is given to the translation system 30.

INPUT:「はい 使え ます どこ の カード を お持ち です か」
MTエンジン52は、以下の表に示す仮説56を、それぞれのTM・LMスコアとともに出力する。
INPUT: “Yes, what cards do you have?”
The MT engine 52 outputs a hypothesis 56 shown in the following table together with each TM / LM score.

Figure 2007072927

DT分類器58は以下の表に示されるように仮説を分類した。この表からわかるように、仮説HYP2及びHYP3は「不良」と分類されるため、削除される。仮説HYP1、HYP4及びHYP5のみが仮説選択部74に与えられる。
Figure 2007072927

The DT classifier 58 classified the hypotheses as shown in the following table. As can be seen from this table, hypotheses HYP2 and HYP3 are classified as “bad” and are therefore deleted. Only hypotheses HYP1, HYP4, and HYP5 are provided to the hypothesis selection unit 74.

Figure 2007072927
先行技術では、全ての初期仮説にTM・LMスコアを用いて優先順位をつけた。しかし、全ての仮説がデコードのために選択される。
Figure 2007072927
In the prior art, all initial hypotheses were prioritized using TM / LM scores. However, all hypotheses are selected for decoding.

Figure 2007072927
この結果、デコーダ出力は以下の表に示されるようになり、翻訳文OUT3の“do you have cards do you have”が選択されることになる。
Figure 2007072927
As a result, the decoder output is as shown in the following table, and “do you have cards do you have” in the translated text OUT3 is selected.

Figure 2007072927
一方、この実施の形態では、「良」と分類された仮説のみがデコーディングのために選択され、CONF・TM・LMスコアを用いて優先順位がつけられる。とくに、この実施の形態では、最も高いCONF・TM・LMスコアを有する仮説一つのみがデコーディングのために選択される。
Figure 2007072927
On the other hand, in this embodiment, only hypotheses classified as “good” are selected for decoding and prioritized using CONF / TM / LM scores. In particular, in this embodiment, only one hypothesis having the highest CONF.TM.LM score is selected for decoding.

Figure 2007072927
デコーダ68の出力は、OUT5の“yes what card do you have”となり、そのTM・LMスコアは1.06600101481e−46である。翻訳システム30は“yes what card do you have”を出力する。
Figure 2007072927
The output of the decoder 68 is “yes what card do you have” of OUT5, and its TM · LM score is 1.0666101481e-46. The translation system 30 outputs “yes what card do you have”.

デコードされた出力OUT1からOUT5に対する主観的な評価を行った。結果は以下の通りである。   A subjective evaluation of the decoded outputs OUT1 to OUT5 was performed. The results are as follows.

Figure 2007072927
この実施の形態の翻訳システム30の出力は「A」にランクされ、一方先行技術の方法の結果は「D」にランクされた。
Figure 2007072927
The output of translation system 30 in this embodiment was ranked “A”, while the results of the prior art method were ranked “D”.

<実験結果>
発明者らは実験を行った。翻訳方向は日本語から英語である。テストデータの組は500個の文を含んでいた。
<Experimental result>
The inventors conducted experiments. The translation direction is from Japanese to English. The test data set contained 500 sentences.

(1)翻訳の正確さ
(a)MTエンジン
(1) Accuracy of translation (a) MT engine

Figure 2007072927
(b)編集距離を用いた再スコアリングによる貪欲デコーディング
Figure 2007072927
(B) Greedy decoding by rescoring using edit distance

Figure 2007072927
(2)計算コスト
Figure 2007072927
(2) Calculation cost

Figure 2007072927
この実施の形態の翻訳システム30は、先行技術の方法と比較して、計算コストを85.7%減じつつ、より良好な翻訳精度を達成することが明らかである。
Figure 2007072927
It is clear that the translation system 30 of this embodiment achieves better translation accuracy while reducing the computational cost by 85.7% compared to prior art methods.

上述の実施の形態の仮説選択部74は仮説1個を選択するのみであるが、この発明はそのような実施の形態に限定されない。仮説選択部74は選択される仮説の数が初期仮説56の数より少ない限り、2個以上の仮説を選択してもよい。上述の実施の形態に比べ、計算コストは高くなるが、それでも先行技術よりは依然として低い。   Although the hypothesis selection unit 74 of the above-described embodiment selects only one hypothesis, the present invention is not limited to such an embodiment. The hypothesis selection unit 74 may select two or more hypotheses as long as the number of hypotheses to be selected is smaller than the number of initial hypotheses 56. Compared to the embodiment described above, the computational cost is higher but still lower than the prior art.

上述の実施の形態では、デコーディングのための仮説を選択するのに決定木を用いている。しかし、仮説の選択は、貪欲デコーダのより良好な出力が得られると思われる仮説を判断できるよう学習可能であるかぎり、他の方策によって行われても良い。決定木に代えて、サポートベクトルマシン(Support Vector Machine:SVM)、神経回路網(Neural Networks:NN)又は多層パーセプトロン(Multi−layer Perceptron:MLP)を用いてもよい。   In the above-described embodiment, a decision tree is used to select a hypothesis for decoding. However, the selection of hypotheses may be done by other strategies as long as it can be learned to determine the hypotheses that would yield a better output of the greedy decoder. Instead of the decision tree, a support vector machine (Support Vector Machine: SVM), a neural network (NN), or a multi-layer perceptron (MLP) may be used.

図7は上述のプログラムを実行しこの実施の形態の翻訳システム30を実現するコンピュータシステム330の外観を示し、図8はシステム330の構造をブロック図で示す。   FIG. 7 shows the appearance of a computer system 330 that executes the above-described program and realizes the translation system 30 of this embodiment, and FIG. 8 shows the structure of the system 330 in a block diagram.

図7を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read Only Memory)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。   Referring to FIG. 7, the computer system 330 includes a computer 340 having an FD (Flexible Disk) drive 352 and a CD-ROM (Compact Disc Read Only Memory) drive 350, a keyboard 346, a mouse 348, and a monitor 342. Including.

図8を参照して、コンピュータ340はさらに、FDドライブ352及びCD−ROMドライブ350に加えて、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)358と、CPU356に接続されアプリケーションプログラムの命令を一時的に記憶するとともに、一時記憶領域を提供するRAM(Random Access Memory)360と、アプリケーションプログラム、システムプログラム及びデータを記憶するためのハードディスク354とを含む。ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(Local Area Network:LAN)への接続を提供するネットワークアダプタボードを含んでもよい。   Referring to FIG. 8, in addition to FD drive 352 and CD-ROM drive 350, computer 340 further includes a CPU (Central Processing Unit) 356 and a bus connected to CPU 356, CD-ROM drive 350, and FD drive 352. 366, a ROM (Read-Only Memory) 358 for storing a program such as a boot-up program, and a RAM (Random Access) that is connected to the CPU 356 and temporarily stores application program instructions and provides a temporary storage area. Memory) 360 and a hard disk 354 for storing application programs, system programs and data. Although not shown here, the computer 340 may further include a network adapter board that provides a connection to a local area network (LAN).

コンピュータシステム330にこの実施の形態の翻訳システム30の機能を実行させるプログラムは、CD−ROMドライブ350又はFDドライブ352に挿入されるCD−ROM362又はFD364に記憶され、さらにハードディスク354に転送されてもよい。これに代えて、プログラムは図示しないネットワークを介して送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接RAM360にロードされてもよい。   A program for causing the computer system 330 to execute the functions of the translation system 30 of this embodiment is stored in the CD-ROM 362 or FD 364 inserted in the CD-ROM drive 350 or FD drive 352, and further transferred to the hard disk 354. Good. Alternatively, the program may be transmitted via a network (not shown) and stored in the hard disk 354. The program is loaded into the RAM 360 when executed. The program may be loaded directly into the RAM 360 from the CD-ROM 362, the FD 364, or the network.

プログラムは、コンピュータ340にこの実施の形態の翻訳システム30の機能を実行させるための複数の命令を含む。必要とされる基本的機能のいくつかはコンピュータ340上で実行されるオペレーティングシステム(OS)又はサードパーティプログラム、もしくはコンピュータ340にインストールされるモジュールによって提供されるので、プログラムは必ずしもこの実施の形態の翻訳システム30を実現するために必要とされる基本的機能の全てを含む必要はない。プログラムは、所望の結果が得られるように制御された様態で適切な機能を呼出すような命令の部分のみを含んでいればよい。コンピュータシステム330の一般的な動作は周知であり、従ってここでは繰返さない。   The program includes a plurality of instructions for causing the computer 340 to execute the functions of the translation system 30 of this embodiment. Since some of the required basic functions are provided by an operating system (OS) or a third party program running on the computer 340, or a module installed on the computer 340, the program is not necessarily of this embodiment. It is not necessary to include all of the basic functions required to implement the translation system 30. The program only needs to include a part of an instruction that calls an appropriate function in a controlled manner so as to obtain a desired result. The general operation of computer system 330 is well known and will not be repeated here.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

この発明の一実施の形態の翻訳システムのブロック図である。It is a block diagram of the translation system of one embodiment of this invention. トレーニングフェーズで動作するように構成された翻訳システム30を示すブロック図である。1 is a block diagram illustrating a translation system 30 configured to operate in a training phase. FIG. 動作フェーズで動作するように構成された翻訳システム30を示すブロック図である。1 is a block diagram illustrating a translation system 30 configured to operate in an operation phase. FIG. 実施の形態の入力−仮説対から抽出された特徴量を説明する図である。It is a figure explaining the feature-value extracted from the input-hypothesis pair of embodiment. 実験で計算された入力−仮説対の特徴量の値を示す図である。It is a figure which shows the value of the feature-value of the input-hypothesis pair calculated by experiment. 実施の形態で用いられる決定木の詳細な構造を示す図である。It is a figure which shows the detailed structure of the decision tree used by embodiment. 上述のプログラムを実行し実施の形態のシステム30を実現するコンピュータシステム330の外観を示す図である。It is a figure which shows the external appearance of the computer system 330 which executes the above-mentioned program and implement | achieves the system 30 of embodiment. 図7に示すコンピュータ340の構造を示す図である。It is a figure which shows the structure of the computer 340 shown in FIG. 英語(E)の単語シーケンスを日本語(J)にマッピングする例を示す図である。It is a figure which shows the example which maps the word sequence of English (E) to Japanese (J).

符号の説明Explanation of symbols

30 翻訳システム
40 バイリンガルコーパス
52 MTエンジン
54 DT特徴量抽出モジュール
56 仮説
58 DT分類器
62 DT分類器学習部
64 DT属性抽出モジュール
68 デコーダ
70 翻訳及び言語モデル
72 デコーダ出力
74 仮説選択モジュール
30 translation system 40 bilingual corpus 52 MT engine 54 DT feature extraction module 56 hypothesis 58 DT classifier 62 DT classifier learning unit 64 DT attribute extraction module 68 decoder 70 translation and language model 72 decoder output 74 hypothesis selection module

Claims (5)

第1の言語の文を第2の言語の文に翻訳するための翻訳装置であって、
前記第1の言語の文を前記第2の言語の複数個の仮説に翻訳するための手段と、
統計的根拠に基づいて、前記複数個の仮説の中から、初期仮説から仮説を生成するための予め定められたアルゴリズムによってより良い仮説を生じさせるものを選択するための手段と、
前記予め定められたアルゴリズムを用いて、前記選択するための手段によって選択された仮説から翻訳文を生成するための手段とを含む、翻訳装置。
A translation device for translating a sentence in a first language into a sentence in a second language,
Means for translating the sentence in the first language into a plurality of hypotheses in the second language;
Means for selecting, based on statistical evidence, a plurality of hypotheses that produce a better hypothesis by a predetermined algorithm for generating a hypothesis from an initial hypothesis;
Means for generating a translated sentence from a hypothesis selected by the means for selecting using the predetermined algorithm.
前記選択するための手段が、
前記第2の言語の前記複数個の仮説を、統計的根拠に基づいて複数個のクラスに分類し、前記複数個の仮説のそれぞれのスコアを前記統計的根拠に基づいて計算するための手段を含み、前記複数個のクラスは第1のクラスと第2のクラスとを含み、
前記選択するための手段はさらに、前記分類するための手段によって計算されたスコアに基づき、前記第1のクラスに分類された仮説のうち一つを選択するための手段を含む、請求項1に記載の翻訳装置。
The means for selecting comprises:
Means for classifying the plurality of hypotheses of the second language into a plurality of classes based on a statistical basis, and calculating a score of each of the plurality of hypotheses based on the statistical basis; The plurality of classes includes a first class and a second class;
The means for selecting further comprises means for selecting one of hypotheses classified into the first class based on the score calculated by the means for classifying. The translation device described.
前記分類するための手段が、前記第1の言語の文とそれらに対応する仮説との対と、さらに当該仮説から前記予め定められたアルゴリズムによって得られる結果とによりトレーニングされる決定木分類器を含む、請求項2に記載の翻訳装置。 A decision tree classifier trained by a pair of sentences of the first language and hypotheses corresponding to the first language, and a result obtained by the predetermined algorithm from the hypothesis; The translation apparatus according to claim 2, further comprising: 前記第1の言語のトレーニング用文の組と、前記トレーニング用文の組から得られるトレーニング用仮説の組と、前記トレーニング用仮説の組から前記予め定められたアルゴリズムによって得られる前記第2の言語の文の組であって、かつ各文が良い翻訳文と悪い翻訳文とに分類されている組とを用いて、前記選択するための手段をトレーニングするための手段をさらに含む、請求項1から請求項3のいずれかに記載の翻訳装置。 A set of training sentences in the first language, a set of training hypotheses obtained from the set of training sentences, and the second language obtained by the predetermined algorithm from the set of training hypotheses And further comprising means for training the means for selecting using a set of sentences, each sentence being classified as a good translation sentence and a bad translation sentence. The translation apparatus according to claim 3. コンピュータ上で実行されると、当該コンピュータに請求項1から請求項4のいずれかに記載の機能の全てを行わせる、コンピュータプログラム。
A computer program that, when executed on a computer, causes the computer to perform all of the functions according to any one of claims 1 to 4.
JP2005261609A 2005-09-09 2005-09-09 Translation apparatus and computer program Pending JP2007072927A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005261609A JP2007072927A (en) 2005-09-09 2005-09-09 Translation apparatus and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005261609A JP2007072927A (en) 2005-09-09 2005-09-09 Translation apparatus and computer program

Publications (1)

Publication Number Publication Date
JP2007072927A true JP2007072927A (en) 2007-03-22

Family

ID=37934293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005261609A Pending JP2007072927A (en) 2005-09-09 2005-09-09 Translation apparatus and computer program

Country Status (1)

Country Link
JP (1) JP2007072927A (en)

Similar Documents

Publication Publication Date Title
Weiss et al. Sequence-to-sequence models can directly translate foreign speech
JP6493866B2 (en) Information processing apparatus, information processing method, and program
US9176936B2 (en) Transliteration pair matching
JP4961755B2 (en) Word alignment device, word alignment method, word alignment program
US11942076B2 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
US20170199867A1 (en) Dialogue control system and dialogue control method
US20100088085A1 (en) Statistical machine translation apparatus and method
KR20180114781A (en) Apparatus and method for converting dialect into standard language
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
Nishimura et al. Multi-source neural machine translation with missing data
CN104462072A (en) Input method and device oriented at computer-assisting translation
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
US20200211417A1 (en) Two-language free dialogue system and method for language learning
KR20160133349A (en) Method for generating a phase table and method for machine translation using the phase table
KR20230009564A (en) Learning data correction method and apparatus thereof using ensemble score
JP2006338261A (en) Translation device, translation method and translation program
KR20120045906A (en) Apparatus and method for correcting error of corpus
JP2007323476A (en) Mechanical translation device and computer program
Sridhar et al. Enriching spoken language translation with dialog acts
JP2007072927A (en) Translation apparatus and computer program
JP2006024114A (en) Mechanical translation device and mechanical translation computer program
CN117094329B (en) Voice translation method and device for solving voice ambiguity
JP5500624B2 (en) Transliteration device, computer program and recording medium
Zhang Text Normalization for Text-to-Speech
Charoenpornsawat et al. Improving word segmentation for Thai speech translation