JP5288371B2 - Statistical machine translation system - Google Patents
Statistical machine translation system Download PDFInfo
- Publication number
- JP5288371B2 JP5288371B2 JP2008145533A JP2008145533A JP5288371B2 JP 5288371 B2 JP5288371 B2 JP 5288371B2 JP 2008145533 A JP2008145533 A JP 2008145533A JP 2008145533 A JP2008145533 A JP 2008145533A JP 5288371 B2 JP5288371 B2 JP 5288371B2
- Authority
- JP
- Japan
- Prior art keywords
- smt
- probability
- model
- class
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は統計的機械翻訳(Statistical Machine Translation:SMT)に関し、特に、クラス依存SMTの改良に関する。 The present invention relates to statistical machine translation (SMT), and more particularly to improvement of class-dependent SMT.
音声認識において、モデルの品質を改善するのに、トピック依存モデリングが有効であることが知られている。最近、機械翻訳分野での実験により(先行技術の非特許文献1、2及び3)、クラスに特定のモデルもまた、翻訳に有用であることが示された。非特許文献1では、トピック依存性は、デコード処理開始前にデータを集合に分け、その後、前処理パスでソース文の全てによって学習を済ませた分類器により、ソース文のクラスを予測し、予測されたクラスに特定の別々のモデルを用いて、これらの集合を独立してデコードすることによって実現される。
(Hirofumi Yamamoto et al. 2007. Bilingual cluster based models for statistical machine translation. EMNLP-CoNLL-2007 (Conference on Empirical Methods in Natural Language Processing Conference on Computational Natural Language Learning Joint Meeting following ACL 2007), Prague, Czech Republic; pp. 514-523.)
(Andrew Finch et al. 2007. The NICT/ATR speech translation system for IWSLT 2007. IWSLT 2007, Trento, Italy.)
(George Foster and Roland Kuhn. 2007. Mixture-model adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation, ACL, pp. 128-135, Prague, Czech Republic.) (George Foster and Roland Kuhn. 2007. Mixture-model adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation, ACL, pp. 128-135, Prague, Czech Republic.)
トピック依存、又はクラス依存のモデリングは機械翻訳の精度を改善する。しかし、精度は分類器の精度に大きく左右される。もし入力された文が誤ったトピック又はクラスに分類されてしまうと、翻訳の精度は非常に劣化する。 Topic-dependent or class-dependent modeling improves machine translation accuracy. However, the accuracy greatly depends on the accuracy of the classifier. If the input sentence is classified into an incorrect topic or class, the accuracy of translation is greatly deteriorated.
従って、この発明の目的の一つは、特定のクラスの入力文をより安定して頑健に翻訳することのできるSMT装置を提供することである。 Accordingly, one of the objects of the present invention is to provide an SMT apparatus that can more stably and robustly translate an input sentence of a specific class.
この発明の別の目的は、特定のクラスの入力文をより安定してより高い精度で頑健に翻訳することのできるSMT装置を提供することである。 Another object of the present invention is to provide an SMT apparatus capable of more stably and robustly translating a specific class of input sentences.
この発明の第1の局面に従った統計的機械翻訳装置は、ソース文のクラスメンバーシップを表す確率のベクトルを決定するための手段を含む。ベクトルの要素は、ソース文の確率が予め定められたクラスの集合の1つに属する確率を表す。装置はさらに、予め定められたクラスの集合のクラスそれぞれについて設けられた、複数個のクラス特定統計的サブデコーダを含む。デコーダはそれぞれのクラスのトレーニングデータのそれぞれの集合によって統計的にトレーニングされる。デコーダの各々はソース文中の単語又は単語シーケンスの各々についてターゲット言語での翻訳単語又は単語シーケンスの確率を出力する。装置はさらに、ターゲット言語の可能な単語シーケンスの確率に従って、前記ソース文の前記ターゲット言語における最も尤度の高い翻訳仮説を推定する手段を含む。ターゲット言語の可能な単語シーケンスの確率は、複数個のサブデコーダによって出力される確率をターゲット言語の単語又は単語シーケンスの各々について、確率ベクトルに従って補間することによって計算される。 The statistical machine translation apparatus according to the first aspect of the present invention includes means for determining a vector of probabilities representing class membership of a source sentence. The vector element represents the probability that the probability of the source sentence belongs to one of a set of predetermined classes. The apparatus further includes a plurality of class specific statistical sub-decoders provided for each class of the predetermined set of classes. The decoder is statistically trained with a respective set of training data for each class. Each of the decoders outputs the probability of the translated word or word sequence in the target language for each word or word sequence in the source sentence. The apparatus further includes means for estimating the most likely translation hypothesis in the target language of the source sentence according to the probability of a possible word sequence in the target language. The probability of possible word sequences in the target language is calculated by interpolating the probabilities output by the plurality of subdecoders for each word or word sequence in the target language according to a probability vector.
クラスメンバーシップを決定する手段は、確率ベクトルを決定する。ベクトルの要素はソース文がそれぞれのクラスに属する確率を表す。複数個の統計的サブデコーダはソース文中の単語又は単語シーケンスの各々についてターゲット言語での翻訳単語又は単語シーケンスの確率を出力する。推定手段は、単語又は単語シーケンスの確率に従って、最も尤度の高い翻訳仮説を推定し、これらはサブデコーダによって出力される確率を補間することによって計算される。 The means for determining class membership determines a probability vector. The vector element represents the probability that the source sentence belongs to each class. The plurality of statistical sub-decoders outputs the probability of the translated word or word sequence in the target language for each word or word sequence in the source sentence. The estimation means estimates the most likely translation hypothesis according to the word or word sequence probabilities, which are calculated by interpolating the probabilities output by the sub-decoder.
好ましくは、複数個のクラスは一般クラスと複数個の特定クラスとを含み、前記複数個の特定クラスは、前記一般クラスを分割したものである。 Preferably, the plurality of classes include a general class and a plurality of specific classes, and the plurality of specific classes are obtained by dividing the general class.
より好ましくは、一般クラスに対応する前記ベクトルの1要素は、0から1の範囲の定数である。 More preferably, one element of the vector corresponding to the general class is a constant in the range of 0 to 1.
さらに好ましくは、装置は前記ベクトルの要素を正規化して、前記要素の和が1となるようにするための正規化手段をさらに含む。 More preferably, the apparatus further includes normalizing means for normalizing the elements of the vector so that the sum of the elements is 1.
前記確率のベクトルを決定するための手段は、最大エントロピモデルに基づいて統計的にトレーニングされ、前記クラスのそれぞれにメンバーシップ確率を割当ててもよい。 The means for determining the probability vector may be statistically trained based on a maximum entropy model and assigning membership probabilities to each of the classes.
好ましくは、前記複数個のクラス特定統計的サブデコーダの各々は、クラス特定言語モデル、クラス特定翻訳モデル、クラス特定長さモデル、若しくはクラス特定ディストーションモデル、又はこれらモデルの任意の組合せに従って確率を計算する。 Preferably, each of the plurality of class specific statistical sub-decoders calculates a probability according to a class specific language model, a class specific translation model, a class specific length model, or a class specific distortion model, or any combination of these models. To do.
この発明のアプローチは、多くの点において先行技術の非特許文献1を一般化したものである。この発明の技術により、デコード処理そのものにおいて多数のモデルの集合を利用することが可能になる。クラス特定モデルの集合の各々の寄与分は、後述するように、補間重みの集合によって、デコードの間に動的に制御される。これらの重みは、文ごとに変更可能である。以前のアプローチでは、本質的に、補間の重みは(ソース文がモデルと同じトピックであることを示す)1であるか、又は(ソース文が異なるトピックであることを示す)0であるか、のどちらかであった。
The approach of the present invention is a generalization of the prior art Non-Patent
本発明の利点の一つは、これが柔軟なアプローチである、ということである。すなわち、ソース文は、多数のクラスに様々な程度で属することができる。ここでは、確率分類器を用いて、クラスメンバーシップを表す確率のベクトルを決定した。これらの確率は、補間されたモデルの集合において、それぞれのクラス依存モデルについて、混合重みとして直接使用される。 One advantage of the present invention is that this is a flexible approach. That is, a source sentence can belong to many classes to various degrees. Here, a probability class representing a class membership was determined using a probability classifier. These probabilities are used directly as blend weights for each class dependent model in the set of interpolated models.
この発明のシステムの別の特徴は、これが、クラス特定モデルの集合とともに、全てのデータから構築された一般モデルを含むことである。この結果、正確で安定した翻訳が得られる。 Another feature of the system of the present invention is that it includes a general model constructed from all data along with a set of class specific models. This results in an accurate and stable translation.
この実施の形態のアプローチは、クラス依存のモデルの点で、先行する全てのアプローチと異なる。先行技術の非特許文献1以前には、クラス依存の言語モデルのみが用いられていた。非特許文献1及び3はともに、これを拡張して翻訳モデルを含めている。この発明のアプローチでは、ディストーション及びターゲット長さモデルを含みうるすべてのモデルが、単一のフレームワーク内でSMTシステムに組合されている。
The approach of this embodiment differs from all previous approaches in terms of class dependent models. Prior to the prior art Non-Patent
バイリンガルコーパスは、文の対の集合体である。各対は、第1の言語の文と第2の言語の文とを含む。各文は他方の翻訳である。バイリンガルコーパス中の文は単語又は音素にセグメント化され、品詞ラベルを付されている。 A bilingual corpus is a collection of sentence pairs. Each pair includes a first language sentence and a second language sentence. Each sentence is a translation of the other. Sentences in a bilingual corpus are segmented into words or phonemes and labeled with part-of-speech labels.
言語モデル(LM)は、N−1個の他の単語がその前に出現するという条件での、単語の出現確率を与える。N−グラムLMは、バイリンガルコーパスのトレーニング集合のターゲット部分から得られる統計により、構築(トレーニング)される。 The language model (LM) gives a word appearance probability on condition that N−1 other words appear before it. The N-gram LM is constructed (trained) with statistics obtained from the target portion of the training set of the bilingual corpus.
翻訳モデル(TM)は、第1の言語の単語が第2の言語の別の単語にされる確率を与える。この実施の形態では、TMはトレーニング集合から統計的に得られる。 The translation model (TM) gives the probability that a word in the first language is made another word in the second language. In this embodiment, TM is obtained statistically from the training set.
長さモデル(LeM)は平均に対して翻訳(ターゲット)中の単語が1つ付加されるたびにペナルティを与える。長さモデルはトレーニング集合中の文の対のターゲット部分から得られる。 The length model (LeM) gives a penalty each time a word in the translation (target) is added to the average. The length model is obtained from the target portion of the sentence pair in the training set.
ディストーションモデル(DM)はターゲット言語において2つの隣り合った句に対応付けられた、2つのソース言語の句の相対的距離に対するペナルティを与える。DMはトレーニング集合から統計的に得られる。 The distortion model (DM) provides a penalty for the relative distance between two source language phrases associated with two adjacent phrases in the target language. DM is obtained statistically from the training set.
1.始めに
この実施の形態は、多数のSMTシステムを重み付けして組合せ、システム中の全てのモデルについて、トピック依存モデル間の確率的に柔軟な重みづけを可能にする。この実施の形態はこの技術を応用したもので、疑問文及び叙述文のためのクラスベースのモデルを構築し組合せることによって、対話システムの品質を改善する。
1. Introduction This embodiment weights and combines multiple SMT systems, allowing for probabilistic and flexible weighting between topic-dependent models for all models in the system. This embodiment is an application of this technology and improves the quality of the dialogue system by building and combining class-based models for question sentences and narrative sentences.
この実施の形態のSTMシステムは、全てのモデルのクラス依存の形式がデコード処理に直接統合される点で、先行するクラス依存の翻訳方法と異なる。この実施の形態のシステムは、モデルの間の確率的な混合重みを用いるが、この重みはソースセグメントの特性に依存してセグメントごとにダイナミックに変更可能である。 The STM system of this embodiment differs from the previous class-dependent translation method in that the class-dependent format of all models is directly integrated into the decoding process. The system of this embodiment uses a probabilistic blend weight between models, but this weight can be dynamically changed from segment to segment depending on the characteristics of the source segment.
この実施の形態のシステムはクラス依存のモデルを用いた質問及び叙述文の翻訳に関する。これを達成するために、このシステムは対話文の2つのクラス、すなわち質問と叙述、の一つに当てはまる文に対処するために特別に構築された2つのモデルの集合を、一般のクラスを扱うために構築された第3の集合と統合する。 The system of this embodiment relates to the translation of questions and narratives using a class dependent model. To accomplish this, the system handles the general class of two models of conversational sentences, a set of two models specially constructed to deal with sentences that fit into one of the questions and descriptions. Integrate with a third set built for
この実施の形態の目的のために、疑問文と、それ以外とを区別したい。表現を簡潔にするために、以下の明細書中では、疑問文を「質問」とし、それ以外を「叙述」と呼ぶことにする。トレーニングに用いられるバイリンガルコーパス中の文には各々、「質問」又は「叙述」のラベルが付されているものとする。 For the purposes of this embodiment, we want to distinguish question sentences from others. In order to simplify the expression, in the following specification, the question sentence is referred to as “question”, and the rest is referred to as “description”. Assume that each sentence in the bilingual corpus used for training is labeled “question” or “description”.
2.システムの概観
2.1システムアーキテクチャ
後述する図1は、このシステムの全体構造を示す。データはクラスに分けられ、さらに各クラスについて、トレーニングセットと開発セットとに細分される。3個の完全なSMTシステムが構築される。各クラスのための1つと、両方のクラスからのデータについての1つとである。確率分類器(次の項で述べる)もまた、トレーニングデータの完全なセットからトレーニングされる。
2. System Overview 2.1 System Architecture FIG. 1 described below shows the overall structure of this system. The data is divided into classes, and further divided into a training set and a development set for each class. Three complete SMT systems are built. One for each class and one for data from both classes. A probability classifier (described in the next section) is also trained from the complete set of training data.
用いられる機械翻訳デコーダは、デコードされるべき各ソース単語シーケンスについて与えられる補間重みのベクトルに従って、全てのサブシステムからの全てのモデルを線形補間可能である。こうするために、検索に先立って、デコーダはまず、各サブシステムからの句(フレーズ)テーブルをマージしなければならない。全ての句テーブルの句の全てが、デコードの間に用いられる。1つのサブシステムのテーブルで発現するが他のサブシステムのテーブルでは発現しない句も用いられるが、トレーニング中にこの句を獲得しなかったサブシステムによるサポートはない(ゼロ確率)。探索処理は、典型的な多段句ベースデコーダにおけるのと同様に行われる。 The machine translation decoder used can linearly interpolate all models from all subsystems according to a vector of interpolation weights given for each source word sequence to be decoded. In order to do this, prior to the search, the decoder must first merge the phrase tables from each subsystem. All of the phrases in all phrase tables are used during decoding. Phrases that appear in the table of one subsystem but not in the tables of other subsystems are also used, but there is no support by the subsystem that did not acquire this phrase during training (zero probability). The search process is performed in the same way as in a typical multistage phrase-based decoder.
一般モデルのための重みは、このパラメータを、一般開発セットに対してBLEUスコアが最大になるように調整することによって設定される。この重みは、一般モデルに割当てられるべき確率の大きさを決定し、全ての文のデコードの間、固定されたままである。確率の大きさの残りの部分は実行時に、各文について動的に、クラス特定モデルの間で分割される。各クラスに割当てられる割合は、単に、分類器によって割当られたソース文のクラスメンバーシップ確率である。 The weight for the general model is set by adjusting this parameter to maximize the BLEU score for the general development set. This weight determines the amount of probability to be assigned to the general model and remains fixed during the decoding of all sentences. The remaining portion of the magnitude of probability is divided among the class specific models dynamically at run time for each sentence. The percentage assigned to each class is simply the class membership probability of the source sentence assigned by the classifier.
3.質問予測
3.1問題の概要
ある特定のクラス(この実施の形態では、疑問又は叙述)のソース文が与えられる場合、生成されるターゲット文が確実に適切なクラスであることが望まれる。これは必ずしも、ソースで質問が与えられるとターゲットで質問が生成されなければならない、という意味ではない。しかし、少なくとも直観的には、ソースの質問からはターゲットの質問が、ソースの叙述からはターゲットの叙述が生成できるはずだと仮定するのが合理的であろう。これが合理的なのは、機械翻訳エンジンの役割が、ソースから可能な全ての翻訳を生成することではなく、1つの受容可能な翻訳を生成できるようにすることだからである。この仮定から、進むべきもっともふさわしい方策が2つ導かれる。
3. Question Prediction 3.1 Overview of the Problem Given a certain class of source sentences (questions or narrations in this embodiment), it is desirable to ensure that the generated target sentence is an appropriate class. This does not necessarily mean that if a question is given at the source, the question must be generated at the target. However, at least intuitively, it would be reasonable to assume that the target question should be able to be generated from the source question and the target description from the source description. This is reasonable because the machine translation engine's role is to generate one acceptable translation rather than all possible translations from the source. This assumption leads to the two most appropriate strategies to proceed.
1.ソース文のクラスを予測し、これを用いてターゲットを生成するのに用いられるデコード処理を制約すること。 1. Predict the source sentence class and use it to constrain the decoding process used to generate the target.
2.ターゲットのクラスを予測すること。 2. Predict the target class.
後述する実験では、最も正確であると思われたため、第2の方法を選択したが、いずれの戦略にも相応の利点があると思われる。 In the experiments described below, the second method was chosen because it appeared to be the most accurate, but it appears that both strategies have reasonable advantages.
3.2最大エントロピ分類器
この実施の形態では、最大エントロピ(Maximum Entropy:ME)分類器を用い、語彙的特徴量の集合を用いて入力ソース文が属するクラスを決定する。すなわち、分類器を用いて、クラス特定モデルの混合重みを設定する。最近は、この様な分類器が、さまざまな自然言語処理課題において多数の語彙的特徴量を利用して有力なモデルを生成している。例えば、ロナルド ローゼンフェルド、1996を参照(ロナルド ローゼンフェルド、1996年。適応的統計的言語モデル化への最大エントロピアプローチ。コンピュータ音声及び言語。10:187−228)(Ronald Rosenfeld. 1996. A maximum entropy approach to adaptive statistical language modeling. Computer Speech and Language. 10:187-228)MEモデルは以下の形の指数モデルである。
3.2 Maximum Entropy Classifier In this embodiment, a maximum entropy (ME) classifier is used, and a class to which an input source sentence belongs is determined using a set of lexical feature quantities. That is, the classifier is used to set the mixing weight of the class specific model. Recently, such classifiers have generated powerful models using a large number of lexical features in various natural language processing tasks. See, for example, Ronald Rosenfeld, 1996 (Ronald Rosenfeld. 1996. Maximum entropy approach to adaptive statistical language modeling. Computer speech and language. 10: 187-228) (Ronald Rosenfeld. 1996. A maximum entropy. Computer Speech and Language. 10: 187-228) The ME model is an exponential model of the following form.
tは予測されるクラス、
cはtの文脈、
γは正規化係数、
Kはモデル中の特徴量の数、
αkは特徴量fkの重み、
fkは二次特徴量関数、
p0はデフォルトモデルであり、
これらはソース文中の、文のクラスを予測するための特徴量である。
t is the predicted class,
c is the context of t,
γ is a normalization factor,
K is the number of features in the model,
α k is the weight of the feature quantity f k ,
f k is a secondary feature function,
p 0 is the default model,
These are feature quantities for predicting a sentence class in a source sentence.
さらに、文中で出現するものを、文頭及び文末で出現するnグラムと区別するために、単語シーケンス中に文頭トークン(<s>)と文末トークンとを導入した。これは、「質問語」又は文が質問であることを示す単語が、(たとえば、英語のwh−<what,where,when>、マレー語の−kah語−<apakah,dimanakah,kapankah>のように)文頭にしばしば見出されるか、(日本語の<ka>又は中国語の<ma>のように)文末にしばしば見出される、という観察に基づくものである。 Furthermore, in order to distinguish what appears in the sentence from n-grams appearing at the beginning and end of the sentence, we introduced a beginning token (<s>) and a sentence end token in the word sequence. This is because a word indicating that the “question word” or sentence is a question is (for example, wh- <what, where, when> in English, -kah word in Malay- <apakah, dimanakah, kapankah>) ) Based on the observation that it is often found at the beginning of sentences or is often found at the end of sentences (like <ka> in Japanese or <ma> in Chinese).
このnグラム抽出を採用したのは、誤りの分析から、“excuse me please where is…”等の文を扱うには、文の内側からのnグラムが必要であることが示されたためである。簡単な例文とその文から生成された特徴量の集合を図11に示し、詳細は後述する。 The reason why this n-gram extraction is adopted is that an error analysis indicates that n-grams from the inside of the sentence are necessary to handle sentences such as “exclude me please where is ...”. A simple example sentence and a set of feature values generated from the sentence are shown in FIG. 11 and will be described in detail later.
この発明のMEモデルを実現するために、Le ZhangのMEモデリングツールキットを用いた。(LeZhang。2004年。Python及びC++用最大エントロピモデリングツールキット)(Le Zhang. 2004. Maximum Entropy Modeling Toolkit for Python and C++, [http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html])。これらのモデルは、L―BFGSパラメータ推定によってトレーニングされ、トレーニングの間、平滑化のためにガウス事前分布を用いた。「L−BFGS」は非線形最適化問題を解決するための周知のソフトウェアパッケージである。 In order to realize the ME model of the present invention, Le Zhang's ME modeling toolkit was used. (LeZhang. 2004. Maximum entropy modeling toolkit for Python and C ++) (Le Zhang. 2004. Maximum Entropy Modeling Toolkit for Python and C ++, [http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit. html]). These models were trained by L-BFGS parameter estimation and used a Gaussian prior for smoothing during training. “L-BFGS” is a well-known software package for solving nonlinear optimization problems.
デコーダからのnベスト出力をとり、ソース及びターゲット分類器に従ったクラスが一致するリストの中で最も高い翻訳仮説を選択する。 Take the n best output from the decoder and select the highest translation hypothesis in the list of matching classes according to the source and target classifiers.
4.システム構成
図1はこの実施の形態のSMTシステム30の全体構造を示す。図1を参照して、SMTシステム30は、クラス依存SMTモデル、ソース文を分類するために用いられる分類器モデル、及びSMTデコーダ内で用いられる句テーブルをトレーニングするためのトレーニングモジュール44を含む。トレーニングセット42はトレーニングデータとして用いられる。トレーニングモジュール44はさらに、一般SMTモデルに割当てられる重みW1を推定する。重みは、開発セット40に基づいて推定される。バイリンガルコーパスはクラスに分けられ、さらに、各クラスについてトレーニングセットと開発セットとに細分される。
4). System Configuration FIG. 1 shows the overall structure of the
SMTシステム30はさらに、ソース言語の入力文48をターゲット言語の翻訳50に翻訳するための統計的機械翻訳(Statistical Machine Translation:SMT)装置46を含む。SMT装置46はトレーニングモジュール44によってトレーニングされたモデルと、トレーニングモジュール44によって推定された重みW1とに基づいて、統計的に翻訳を行う。
The
トレーニングモジュール44は、入力文の特徴量の組が与えられると、その文が質問である確率を分類器モデル110に基づいて計算するように、分類器モデル100をトレーニングするための分類器トレーニングモジュール72と、クラス依存SMTモデル112の3つの集合、すなわち一般、質問に特定、叙述に特定のモデルをトレーニングするためのSMTトレーニングモジュール74と、バイリンガルコーパスのトレーニングセット42から抽出された句テーブル114を生成するための、句テーブル生成モジュール76と、開発セット40に基づいて、一般SMTモデルの一般集合に割当られた重みW1を推定するための重み推定モジュール70とを含む。
A
SMT装置46は、分類器モデル110、クラス依存SMTモデル112の3つの集合、句テーブル114及び重み推定モジュール70によって推定された重み116(W1)を記憶するための記憶部90を含む。
The
SMT装置46はさらに、入力文48が質問文である確率PQを推定する分類器92と、翻訳処理の間に一般SMTモデル、質問に特定のSMTモデル及び叙述に特定のSMTモデルに基づいて、重みW1、W2及びW3の和が1になるように計算される、確率に割当てられる重みW1、W2及びW3を正規化する正規化モジュール94と、ソース言語の入力文48を、統計的機械翻訳方法を利用してターゲット言語の翻訳50に翻訳するためのSMTモジュール96とを含む。SMTモジュール96は、一般集合から由来する確率に代えて、SMTモデル112の3つの集合からくる確率の重みづけ合計で仮説の確率を計算する点を除き、通常のSMTモジュールである。
The
図2は図1のSMTトレーニングモジュール74とクラス依存SMTモデル112の3つの集合とを示す詳細なブロック図である。
FIG. 2 is a detailed block diagram illustrating the
図2を参照して、クラス依存SMTモデル112の3つの集合は、一般SMTモデルの集合160、質問に特定のSMTモデルの集合162、及び叙述に特定のSMTモデルの集合164を含む。
Referring to FIG. 2, the three sets of class-
一般SMTモデル160は、言語モデル180、翻訳モデル182、長さモデル184、及びディストーションモデル186を含む。
The
言語モデル(LM)はN−1個の他の単語が直前に出現しているという条件での、単語の出現の確率を与える。N−グラムLMはバイリンガルコーパスのトレーニングセット42のターゲット部から得られる統計から構築(トレーニング)される。 The language model (LM) gives the probability of the appearance of a word under the condition that N-1 other words appear immediately before. The N-gram LM is constructed (trained) from statistics obtained from the target portion of the training set 42 of the bilingual corpus.
翻訳モデル(TM)は第1の言語の単語が、第2の言語の単語に翻訳される確率を与える。この実施の形態では、TM182はバイリンガルコーパスのトレーニングセット42から得られる。
The translation model (TM) gives the probability that a word in the first language is translated into a word in the second language. In this embodiment,
長さモデル(LeM)は平均に対して翻訳(ターゲット)中の単語が1つ増えるたびにペナルティを与える。長さモデル184はバイリンガルコーパスのトレーニングセット42の文の対のうちターゲット部から得られる。
The length model (LeM) gives a penalty for each additional word in the translation (target) relative to the average. The
ディストーションモデル(DM)は、2つの近接するターゲット言語の句に対応付けされる2つのソース言語の句の相対的距離に対してペナルティを与える。DM186はバイリンガルコーパスのトレーニングセット42から統計的に得られる。
The distortion model (DM) penalizes the relative distance between two source language phrases associated with two adjacent target language phrases. The
同様に、質問に特定のSMTモデル162の集合はLM200、TM202、LeM204、及びDM206を含み、叙述に特定のSMTモデル164の集合はLM220、TM222、LeM224、及びDM226を含む。
Similarly, the set of
SMTトレーニングモジュール74は、トレーニングセット42の全体に基づいて、一般SMTモデル160の集合をトレーニングするための一般SMTトレーニングモジュール130と、トレーニングセット42から文の対であってターゲット側に質問を含むものを抽出する、質問抽出モジュール132と、質問抽出モジュール132によって抽出された文の対に基づいて、質問に特定のSMTモデル162をトレーニングするための質問特定SMTトレーニングモジュール134と、トレーニングセット42から文の対であってターゲット側に叙述を含むものを抽出する叙述抽出モジュール136と、叙述抽出モジュール136によって抽出された文の対に基づいて、叙述に特定のSMTモデル164をトレーニングするための、叙述特定SMTトレーニングモジュール138とを含む。
The
図3は、図1に示す句テーブル生成モジュール76のブロック図である。図1を参照して、句テーブル生成モジュール76は、バイリンガルコーパスのトレーニングセット42の対の各々のソース文とターゲット文とを対応付ける自動アライメントモジュール240と、自動アライメントモジュール240によって対応付けされたソース文とターゲット文とを特定しその句を抽出する句抽出モジュール242と、を含む。
FIG. 3 is a block diagram of the phrase
自動アライメントモジュール240は、ソース文の各単語をターゲット文の対応の単語と対応付ける。句抽出モジュール242はソース文中の特定の単語シーケンスであってターゲット文中の連続した単語と対応付けされたものを句の対として抽出し、これらを一般句テーブル244に記憶する。
The
同様に、句テーブル生成モジュール76はさらに、質問特定句テーブル254を生成するための、自動アライメントモジュール250及び句抽出モジュール252と、叙述特定句テーブル264を生成するための自動アライメントモジュール260及び句抽出モジュール262とを含む。
Similarly, the phrase
句テーブル生成モジュール76はさらに、一般句テーブル244、質問特定句テーブル254及び叙述特定句テーブル264をマージするためのテーブルマージモジュール270を含む。句テーブル114を生成するにあたって、1つのサブシステムのテーブルで出現するが別のサブシステムのテーブルには出現しない句も用いられるが、トレーニング中にこの句を獲得しないサブシステムからのサポートはない(ゼロ確率)。
The phrase
図4は図1に示した、分類器トレーニングモジュール72の詳細なブロック図であり、これは入力文の特徴量の予め定められた組を受け、MEモデルに基づいてその文が質問である確率を出力する、質問特定分類器92のためのME(最大エントロピ)モデルをトレーニングするためのものである。
FIG. 4 is a detailed block diagram of the
図4を参照して、分類器トレーニングモジュール72は、バイリンガルコーパスのトレーニングセット42のソース文の各々から特徴量の予め定められた組を抽出する特徴量抽出モジュール290と、特徴量の組と、ソース文のラベル(質問/叙述)とを記憶する記憶部292と、確率分類モデル110を計算するための最大エントロピモデリングモジュール294とを含む。最大エントロピモデリングモジュール294は最大エントロピツールキットで実現される。このようなツールキットのいくつかがインターネット上で入手可能である。
Referring to FIG. 4, the
図5は図1に示す重み推定モジュール70のブロック図である。図5を参照して、重み推定モジュール70はバイリンガルコーパスの開発セット40とSMT装置46とを利用して、翻訳セット310について計算された平均BLEUスコアが最も高くなるように、一般SMTの重みW1を最適化する。
FIG. 5 is a block diagram of the
重み推定モジュール70は翻訳セット310内の全ての翻訳のBLEUスコアを評価するBLEU評価器320を含む。翻訳セット310は、開発セット40内の全てのソース文の、SMT装置46によるターゲット言語への翻訳を含む。BLEU評価器320は開発セット40内の文の対のうちターゲット部分を、基準翻訳として使用する。
The
重み推定モジュール70はさらに、BLEU評価器320によって評価された翻訳のBLEUスコアを記憶するための記憶部322と、翻訳と評価との繰返しにより一般SMT確率についての重み326(W1)を最適化するための重み最適化モジュール324とを含む。後述するように、重みW1の最適化に先立って、分類器モデル110及びクラス特定SMTモデル112と句テーブル114との3つの組が生成される。従って、重みW1の最適化は、各々が0から1までの範囲の重みの組について全てのソース文を繰返し翻訳し、最も高いBLEUスコアが得られる値を見出すことによって可能となる。
The
図6は図1に示すSMTモジュール96のブロック図である。図6を参照して、SMTモジュール96は、入力文48を受け、一般SMTモデル160の集合に基づいて、LeM及びDMペナルティとともにそのSMT(SM及びTM)確率を出力する一般SMTサブシステム340と、ターゲット言語からの確率及びペナルティの各々を図1の正規化モジュール94からの重みW1で乗算する重みづけモジュール350と、入力文48を受け、質問特定SMTモデル162に基づいて、LeM及びDMペナルティとともにそのSMT確率を出力する質問特定SMTサブシステム342と、質問特定SMTサブシステム342からの確率及びペナルティの各々を乗算し、入力文48を受け叙述特定SMTモデルに基づいてLeM及びDMペナルティとともにそのSMT確率を出力するための重みづけモジュール352と、入力文48を受け、叙述特定SMTモデル164に基づいて、LeM及びDMペナルティとともにそのSMT確率を出力する叙述特定SMTサブシステム344と、LM及びTMの値の各々を質問特定及び叙述とともに乗算する重みづけモジュール354と、を含む。
FIG. 6 is a block diagram of the
SMTモジュール96はさらに、重みづけられたLM、TM、LeMペナルティとDMペナルティとを合計する合計モジュール360と、LM及びTM確率とLeM及びDMペナルティとの合計を受け、句テーブル114を利用して、入力文48の翻訳のnベスト仮説を探索する多段フレーズベースデコーダ362とを含む。
The
図7は重みづけモジュール352の簡略化したブロック図である。図7を参照して、重みづけモジュール352は、質問特定SMTサブシステム342からのLM確率を重みW2で乗算する乗算器400と、質問特定SMTサブシステム342からのTM確率を重みW2で乗算する乗算器402と、質問特定SMTサブシステム342からのLeMペナルティを重みW2で乗算する乗算器404と、質問特定SMTサブシステム342からのDMペナルティを重みW2で乗算する乗算器406と、を含む。
FIG. 7 is a simplified block diagram of the
図示しないが、重みづけモジュール350及び354は重みづけモジュール352と同様の構造を有する。しかしながら、重みづけモジュール350及び354の重みはそれぞれW1とW3とである。重みづけモジュール350、352及び354の出力は合計モジュール360に与えられる。
Although not shown, the
図8は図6に示す合計モジュール360のブロック図である。図6を参照して、合計モジュール360は、重みづけモジュール350、352及び354から出力されるLM確率、TM確率、LeMペナルティ及びDMペナルティをそれぞれ計算するための4つの合計回路420、422、424及び426を含む。合計回路420、422、424及び426の出力はデコーダ362の入力に与えられ、これは、これらの値に基づいて翻訳の最も確率の高い仮説を探索する。
FIG. 8 is a block diagram of the summing
図9は、分類器92によって推定された確率PQに基づいて、クラスメンバーシップを表す重みベクトルの要素である重みW1、W2及びW3の合計が1となるように、重みW2及びW3を正規化するための正規化モジュール94のブロック図である。重みW1は、一旦重み推定モジュール70によって最適化されると、固定されたままである。従って、正規化モジュール94はW2とW3との合計が1−W1となるように、W2及びW3に対するPQと1−PQとを正規化する。
FIG. 9 shows that the weights W2 and W3 are normalized based on the probability P Q estimated by the
具体的には、正規化モジュール94は、数値定数「1」を記憶するための記憶部440と、一方入力が分類器92からの確率PQを受けるように結合され、他方入力が記憶装置440に結合されて、定数1と確率PQとの差、すなわち1−PQを出力する減算器442と、一方入力が重みW1を受けるように結合され、他方入力が記憶装置440に結合されて、定数1と重みW1との差を出力する減算器444と、一方入力が減算器444の出力を受けるように結合され、他方入力が分類器92からの確率PQを受けるように結合された乗算器446と、一方入力が減算器444の出力を受けるように結合され、他方入力が減算器442の出力を受けるように結合された乗算器448と、を含む。
Specifically, the
減算器442及び444の出力はそれぞれ、1−PQと1−W1とに等しい。従って、乗算器446及び448の出力W2及びW3は、それぞれPQ*(1−W1)と、(1−PQ)*(1−W1)とに等しい。W1、W2及びW3の合計、すなわちW1+PQ*(1−W1)+(1−PQ)*(1−W1)は1に等しい。
Each output of the
図10は図1に示す分類器92のブロック図である。図10を参照して、分類器92は、図4に示す特徴量抽出モジュール290によって抽出されたのと同じ特徴量の組を入力文48から抽出するための特徴量抽出モジュール460と、分類器モデル110(図1を参照)及び特徴量抽出モジュール460によって抽出された入力文48の特徴量の組に基づいて、入力文48の確率PQを計算するための確率計算モジュール462と、を含む。
FIG. 10 is a block diagram of the
図11はターゲット文のクラスを予測するためにMEモデルにおいて述語として用いられる、文“<s>where is the station</s>”から抽出されたnグラム(n≦3)の組を示す。この組は、4個のユニグラム(<s>where,is,the,station</s>)、3個のバイグラム(<s>where is,is the,the station</s>)、及び2個のトライグラム(<s>where is the,is the station</s>)を含む。nグラムの特徴量の説明を簡潔にするため、図1ではnを3とした。しかし、nの数は3に限られない。後述するように、発明者らは実験では5グラム特徴量(n=5)を用いている。 FIG. 11 shows a set of n-grams (n ≦ 3) extracted from the sentence “<s> where is the station </ s>” used as a predicate in the ME model to predict the class of the target sentence. This set consists of 4 unigrams (<s> where, is, the, station </ s>), 3 bigrams (<s> where is, is the, the station </ s>), and 2 Of the trigram (<s> where is the, is the station </ s>). In order to simplify the description of the feature quantity of n-grams, n is 3 in FIG. However, the number of n is not limited to three. As will be described later, the inventors use a 5-gram feature (n = 5) in the experiment.
5.動作
<全体手順>
SMTシステムは以下のように動作する。SMTシステム30は大まかに言って2つの動作段階を含む。トレーニング段階と翻訳段階である。
5. Operation <Overall procedure>
The SMT system operates as follows. The
図12を参照して、トレーニング段階は4つのサブ段階を含む。クラス依存SMTモデル112のトレーニング(ステップ500)と、分類器モデル110のトレーニング(ステップ502)と、句テーブル114の生成(ステップ504及び506)と、開発セット40の一般モデルのための重みW1の最適化(ステップ508)と、である。ステップ500から508が完了すると、SMTシステム30は何らかの入力文を翻訳する準備が整う。
Referring to FIG. 12, the training stage includes four sub-stages. Training of the class dependent SMT model 112 (step 500), training of the classifier model 110 (step 502), generation of the phrase table 114 (
[SMTモデルのトレーニング(ステップ500)]
図2を参照して、一般SMTトレーニングモジュール130はトレーニングセット42の全データに基づいて一般SMTモデル160をトレーニングする。SMTモデルのトレーニングは通常の方法で行われる。
[SMT model training (step 500)]
With reference to FIG. 2, the general
質問抽出モジュール132はトレーニングセット42から、各々がターゲット側に質問文を含む文の対を抽出する。質問特定SMTトレーニングモジュール134は、質問抽出モジュール132によって抽出された文の対に基づいて、質問特定SMTモジュール162をトレーニングする。トレーニングの方法は、一般SMTトレーニングモジュール130と同様である。
The
叙述抽出モジュール136は、トレーニングセット42から、各々がターゲット側に叙述文を含む文の対を抽出する。叙述特定SMTトレーニングモジュール138は、叙述抽出モジュール136によって抽出された文の対に基づいて、叙述特定SMTモジュール164をトレーニングする。トレーニングの方法は、SMTトレーニングモジュール130及び質問特定SMTトレーニングモジュール134と同様である。
The
[分類器モデル110のトレーニング(ステップ502)]
図4を参照して、特徴量抽出モジュール290は、トレーニングセット42の文の対のソース文の各々から図10に示す特徴量抽出モジュール460によって抽出されるのと同じ特徴量の組を抽出する。記憶部292は抽出された特徴量の組をターゲット側の文の各々の文ラベル(質問/叙述)とともに記憶する。その後最大エントロピモデリングモジュール294が記憶部292に記憶された特徴量の組と文ラベルとに基づいて、式(1)に従って分類モデル110のパラメータを計算する。
[Training of classifier model 110 (step 502)]
Referring to FIG. 4, the feature
[句テーブルの生成(ステップ504及び506)]
図3を参照して、自動アライメントモジュール240は、トレーニングセット42の文の対の各々について、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール242は、対応付けされた文の対から、句の対を抽出する。ここで、句抽出モジュール242は、ターゲット文中の連続した単語に対応付けられたソース文中の連続した単語のシーケンスを見出し、これら単語シーケンスの対を句の翻訳対として抽出する。抽出した句の対は、一般句テーブル244に記憶される。
[Phrase Table Generation (
Referring to FIG. 3, the
自動アライメントモジュール250は、トレーニングセット42の「質問」というラベルを付された文の対の各々において、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール252は、一般句テーブル244と同様に、対応付けされた文の対から句の対を抽出する。抽出された句の対は、質問特定句テーブル254に記憶される。
The
自動アライメントモジュール250はトレーニングセット42の「叙述」というラベルを付された文の対の各々において、ソース文の単語とターゲット文の単語とを対応付ける。句抽出モジュール262は、句抽出モジュール242及び一般句テーブル244と同様に、対応付けされた文の対から句の対を抽出する。抽出された句の対は、叙述特定句テーブル264に記憶される。
The
テーブルマージモジュール270は、一般句テーブル244、質問特定句テーブル254及び叙述特定句テーブル264をマージする。ここで、テーブル244、254及び264の1つ又は2つで出現する句の対は、句テーブル114に記憶される。しかし、この句をトレーニング中に獲得しなかったサブシステムにはサポートがない(ゼロ確率)。
The
[重みW1の最適化(ステップ508)]
重みW1の最適化には開発セット40が用いられる。図5を参照して、開発セット40内のソース文の各々がSMT装置46によって翻訳され、翻訳セット310ができる。BLEU評価器320が翻訳の各々のBLEUスコアを評価する。開発セット40内のターゲット側の文は、この評価において基準翻訳として用いられる。BLEUスコアの平均が計算され記憶される。
[Optimization of weight W1 (step 508)]
The development set 40 is used for optimizing the weight W1. Referring to FIG. 5, each of the source sentences in the development set 40 is translated by the
次のサイクルで、重みW1の値をわずかに変えて、同様のBLEU評価が行われる。こうして、最少誤差トレーニングにより(フランツ J オック、2003年。統計的機械翻訳のための最少誤差率トレーニング、ACL予稿集)(Franz J. Och, 2003. Minimum error rate training for statistical machine translation, Proceedings ACL.)、一般モデルの重みW1が最適化される。 In the next cycle, the value of the weight W1 is changed slightly, and the same BLEU evaluation is performed. Thus, by minimum error training (Franz J. Och, 2003. Minimum error rate training for statistical machine translation, Proceedings ACL. ), The weight W1 of the general model is optimized.
一旦最適化されると、重みW1は文のデコード(翻訳)の間、固定されたままである。 Once optimized, weight W1 remains fixed during sentence decoding (translation).
[SMTモジュール96による翻訳]
ラベル(質問/叙述)なしの入力文48が分類器92(図1及び図10を参照)に与えられると、特徴量抽出モジュール460は入力文48から特徴量の組を抽出し、その特徴量の組を確率計算モジュール462に与える。確率計算モジュール462は、特徴量の組を分類器モデル110に適用することによって、入力文48が質問である確率を計算する。計算された確率PQは正規化モジュール94の減算器442及び乗算器446の入力に与えられる。分類器92から与えられた確率PQに基づいて、正規化モジュール94は、重みW1、W2及びW3の和が1となるように重みW2及びW3を正規化し、重みW1、W2及びW3をSMTモジュール96に与える。
[Translation by SMT module 96]
When an
図6を参照して、一般SMTサブシステム340、質問特定SMTサブシステム342及び叙述特定SMTサブシステム344は、特徴量の組が与えられると、一般SMTモデル160、質問特定SMTモデル162及び叙述特定SMTモデル164にそれぞれ基づいて、仮説の確率を独立に計算する。LM及びTM確率と、LeM及びDMペナルティとが一般SMTサブシステム340、質問特定SMTサブシステム342及び叙述特定SMTサブシステム344から重みづけモジュール350、352及び354にそれぞれ与えられ、重みW1、W2及びW3によってそれぞれ重みづけられる。
Referring to FIG. 6, the
重みづけられたLM及びTM確率と重みづけられたLeM及びDMペナルティとは合計モジュール360に与えられ(図8を参照)、ここで重みづけモジュール350、352及び354からのLM確率が加算される。同様に、重みづけモジュール350、352及び354からのTM確率が加算される。LeM確率及びDMペナルティも同様に加算される。このようにして得られたLM確率、TM確率、LeMペナルティ及びDMペナルティはデコーダ362に与えられる。
The weighted LM and TM probabilities and the weighted LeM and DM penalties are provided to the sum module 360 (see FIG. 8), where the LM probabilities from the
デコーダはこれらの値に基づいて、入力文48の翻訳の最もそれらしい仮説を検索し、nベスト仮説を出力する。
Based on these values, the decoder searches for the most likely hypothesis for the translation of the
6.実験
6.1 実験データ
提案された技術を評価するために、旅行会話コーパスについて実験を行った。実験用コーパスは、BTECコーパスの旅行用構成課題であり(キクイら、2003年。音声対音声翻訳のためのコーパスの生成。EUROSPEECH予稿集、第381−384ページ)、(Kikui, et al., 2003. Creating Corpora for Speech-to-Speech Translation. In Proceedings of EUROSPEECH, pages 381-384)英語をターゲットとし、他の言語の各々をソース言語とした。トレーニング、開発、及び評価コーパス統計はテーブル1に示すとおりである。評価コーパスでは、一文につき16個の参照翻訳文がある。
(テーブル1)
6). Experiment 6.1 Experimental data To evaluate the proposed technology, an experiment was conducted on a travel conversation corpus. The experimental corpus is a travel component of the BTEC corpus (Kikui et al., 2003. Generating a corpus for speech-to-speech translation. Eurospeech Proceedings, pages 381-384), (Kikui, et al., 2003. Creating Corpora for Speech-to-Speech Translation. In Proceedings of EUROSPEECH, pages 381-384) Targeted English and each of the other languages as the source language. Training, development, and evaluation corpus statistics are as shown in Table 1. In the evaluation corpus, there are 16 reference translations per sentence.
(Table 1)
データはクラスに分けられ(質問及び叙述)、さらに各クラスについてトレーニングセットと開発セットとに細分された。1000個の文が開発データとして取除けられ、残りがトレーニングに用いられた。
The data was divided into classes (questions and descriptions) and further subdivided into a training set and a development set for each class. 1000 sentences were removed as development data, and the rest was used for training.
実験は様々な異なる言語に対して行われた。これらを以下のキーで表す:アラビア語(ar)、デンマーク語(da)、ドイツ語(de)、英語(en)、スペイン語(es)、フランス語(fr)、インドネシア語(マレー語)(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、マレーシア語(マレー語)(ms)、オランダ語(nl)、ポルトガル語(pt)、ロシア語(ru)、タイ語(th)、ベトナム語(vi)、中国語(zh)である。 Experiments were conducted on a variety of different languages. These are represented by the following keys: Arabic (ar), Danish (da), German (de), English (en), Spanish (es), French (fr), Indonesian (Malay) (id ), Italian (it), Japanese (ja), Korean (ko), Malaysian (Malay) (ms), Dutch (nl), Portuguese (pt), Russian (ru), Thai (Th), Vietnamese (vi), and Chinese (zh).
[デコーダ]
実験で用いたデコーダ、CleopATRa(クレオパトラ)は、PHARAOH(ファラオ)(フィリップ コーエン、2004年。ファラオ:句ベースの統計的機械翻訳モデルのためのビームサーチデコーダ。機械翻訳:実際のユーザから研究まで:第6回AMTAカンファレンス、ワシントンDC,シュプリンガーフェラーク、第115−124ページ)(Philipp Koehn. 2004. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. Machine translation: from real users to research: 6th conference of AMTA, Washington, DC, Springer Verlag, pp. 115-124.)及びMOSES(モーゼ)(フィリップ コーエンら、2007年。モーゼ:統計的機械翻訳のためのオープンソースツールキット、ACL2007:デモ及びポスターセッション予稿集、プラハ、チェコ共和国、第177−180ページ)(Philipp Koehn et al., 2007. Moses: open source toolkit for statistical machine translation, ACL 2007: proceedings of demo and poster sessions, Prague, Czech Republic, pp. 177-180.)デコーダと同じ原理で動作する、出願人組織内のフレーズベースの統計的デコーダである。デコーダはこれらの実験で、MOSESとほぼ同一の出力を生成するように構成された。デコーダは、モデルの多数の組を扱い、重みづけられた入力を受容し、デコードの間にダイナミックな補間処理を組入れるように修正された。
[decoder]
The decoder used in the experiment, CleopATRa, is PHARAOH (Pharaoh) (Philip Cohen, 2004. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. Machine translation: from real users to research: 6th AMTA Conference, Washington DC, Springer Ferrack, pages 115-124) (Philipp Koehn. 2004. Pharaoh: a beam search decoder for phrase-based statistical machine translation models. Machine translation: from real users to research: 6th conference of AMTA, Washington, DC, Springer Verlag, pp. 115-124. and MOSES (Philip Cohen et al., 2007. Moses: open source toolkit for statistical machine translation, ACL 2007: demos and posters Session proceedings, Prague, Czech Republic Pp.177-180 (Philipp Koehn et al., 2007. Moses: open source toolkit for statistical machine translation, ACL 2007: proceedings of demo and poster sessions, Prague, Czech Republic, pp. 177-180.) A phrase-based statistical decoder within the applicant's organization that operates on the same principle. In these experiments, the decoder was configured to produce almost the same output as MOSES. The decoder was modified to handle multiple sets of models, accept weighted inputs, and incorporate dynamic interpolation during decoding.
[実際的な問題]
提案されたアプローチについて最も懸念されるのは、多数のモデルを扱う場合に起こりうる、リソースについての過大な要求である。しかしながら、この実験で用いるデコーダの重要な特徴の一つは、そのモデルをディスクに置き、モデルのうち、手元の文をデコードするのに必要な部分のみをロードできる能力である。これによって、多数のモデルをロードする際に、デコード時間をそれとわかるほど悪化させることなく、メモリのオーバーヘッドが減じられる。さらに、検索開始前に、各文のモデルのほとんどについて、補間可能性を前もって計算することができ、これによって検索メモリと処理時間の両方を減じることができる。
[Practical problems]
Of most concern for the proposed approach is the excessive demand for resources that can arise when dealing with a large number of models. However, one important feature of the decoder used in this experiment is the ability to place the model on disk and load only the part of the model necessary to decode the sentence at hand. This reduces memory overhead when loading a large number of models without appreciably degrading the decoding time. In addition, the interpolability can be calculated in advance for most of each sentence model before the search is started, thereby reducing both the search memory and the processing time.
[デコード条件]
デコーダパラメータの調整のために、それぞれの開発コーパスを用いて、BLEUスコアに対する最少誤差トレーニングを行った。SRI言語モデリングツールキット(アンドレアス ストルク1999年。SRILM−拡張可能言語モデルツールキット)(Andreas Stolcke. 1999. SRILM - An Extensible Language Model Toolkit. http://www.speech.sri.com/projects/srilm/)とウィットン−ベル平滑化を用いて構築した5グラム言語モデルを用いた。モデルは長さモデルを含み、さらに、PHARAOHデコーダで用いられる単純な距離ベースのディストーションモデルも含む。
[Decoding conditions]
For the adjustment of the decoder parameters, the minimum error training for the BLEU score was performed using the respective development corpus. SRI Language Modeling Toolkit (Andreas Stolk 1999. SRILM-Extensible Language Model Toolkit) (Andreas Stolcke. 1999. SRILM-An Extensible Language Model Toolkit. Http://www.speech.sri.com/projects/srilm/ And a 5 gram language model constructed using Witton-Bell smoothing. The model includes a length model and also includes a simple distance-based distortion model used in the PHARAOH decoder.
[補間重みの調整]
補間重みは、0から1の範囲で0.1ずつ増分する重みの組によって開発セットのBLEUスコアを最大化することで調整された。図13はこの発明の2つのモデルの重みパラメータに対する挙動を示したものである。
[Interpolation weight adjustment]
The interpolation weights were adjusted by maximizing the development set BLEU score by a set of weights incrementing by 0.1 in the range of 0 to 1. FIG. 13 shows the behavior of the two models of the present invention with respect to the weight parameter.
図13を参照して、破線522で示す中国語(zh)から英語への翻訳のBLEUスコアは、重みW1をゼロから増加させても改善が見られなかった。これに対して、実線520で示すインドネシア語(マレー語)(id)から英語への翻訳の場合、W1を約2にするとBLEUスコアは最大となった。これは、ソース言語とターゲット言語との組合せに対する、このシステムの依存性を示す。
Referring to FIG. 13, the BLEU score for translation from Chinese (zh) to English indicated by a
[評価スキーム]
ここで提案するアプローチの利点をバランスよく見るために、実験では、このシステムの評価に6種類の評価技術を用いた。すなわち、BLEU(キショー パピネニら、2001年。Bleu:機械翻訳の自動評価方法。IBM調査レポート、RC22176、9月17日)(Kishore Papineni et al., 2001. Bleu: a method for automatic evaluation of machine translation. IBM Research Report, RC22176, September 17.)、NIST(ジョージ ドディントン、2002。nグラムの同時出現統計を用いた機械翻訳品質の自動評価。人間言語技術カンファレンス予稿集、サンディエゴ、カリフォルニア、第138−145ページ)(George Doddington. 2002 Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Proceedings of Human Language Technology Conference, San Diego, California, pp. 138-145.)、WER(Word Error Rate:単語誤り率)、PER(Position independent WER:位置独立WER)、GTM(General Text Matcher:汎用テキスト一致器)、及びMETEOR(サタニエフ バネリジ及びアロン ラビ、2005年。人の判断との相関が改善されたMT評価のための自動メトリック、ACL―2005:機械翻訳及び/又は要約のための内在的及び外在的評価尺度に関するワークショップ、第65−72ページ)(Satanjeev Banerjee and Alon Lavie. 2005. METEOR:an automatic metric for MT evaluation with improved correlation with human judgments. ACL-2005: Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pp. 65-72.)である。
[Evaluation scheme]
In order to see the benefits of the proposed approach in a balanced manner, six different evaluation techniques were used in the experiment to evaluate this system. That is, BLEU (Kisho Papineni et al., 2001. Bleu: automatic evaluation method of machine translation. IBM research report, RC22176, September 17) (Kishore Papineni et al., 2001. Bleu: a method for automatic evaluation of machine translation IBM Research Report, RC22176, September 17.), NIST (George Dodington, 2002. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Proc. Of Human Language Technology Conference, San Diego, California, 138-145. Page) (George Doddington. 2002 Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Proceedings of Human Language Technology Conference, San Diego, California, pp. 138-145.), WER (Word Error Rate: word error) Rate), PER (Position independent WER: rank) Independent WER), GTM (General Text Matcher), and METEOR (Sataniev Banerigi and Aron Rabi, 2005. Automatic metrics for MT evaluation with improved correlation with human judgment, ACL-2005: Workshop on intrinsic and external assessment scales for machine translation and / or summaries, pages 65-72) (Satanjeev Banerjee and Alon Lavie. 2005. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments ACL-2005: Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and / or Summarization, pp. 65-72.
6.2分類精度
分類器の性能(トレーニングセットの10分割相互検証による)を表2に示す。ソース(同じ言語)とターゲット(英語)の句読法を予測する分類精度の数字を示した。当然のことながら、全てのシステムで、それ自身の句読法はより良く予測された。表でスコアが悪いものは、言語的特性(おそらくは、ソース文の質問がターゲットではしばしば陳述として表わされる)又はコーパス自体の特性を反映してものであろう。全ての言語について、分類器の精度は、特にコーパスそのものに一貫性を欠く可能性があること(従ってこの実験でのテストデータもそうであること)を考えれば、満足のいくものと思われる。
6.2 Classification accuracy Table 2 shows the performance of the classifier (by 10-fold cross-validation of the training set). The numbers of classification accuracy to predict the punctuation of source (same language) and target (English) are shown. Of course, on all systems, its own punctuation was better predicted. A bad score in the table will probably reflect a linguistic characteristic (perhaps the source sentence question is often expressed as a statement in the target) or a characteristic of the corpus itself. For all languages, the accuracy of the classifier seems to be satisfactory, especially considering that the corpus itself may be inconsistent (and so is the test data in this experiment).
6.3翻訳の品質
SMTシステムの性能を表3に示す。
6.3 Translation quality Table 3 shows the performance of the SMT system.
興味深いことに、マレー語の親戚であるオランダ語も、実質的に改善された。これは、利得に関する言語学的説明を証拠立てるものである。マレー語は非常に簡潔で規則正しい質問の構造を有し、質問語が質問文のはじめに出現し(ターゲット言語と同様に)、その言語において(たとえば英語の“do”と異なり)他の機能を果たすことはない。おそらくこの表現の単純さのために、この発明のクラス特定モデルが、データ分割によってデータが減少したにも関わらず、データを良好にモデル化できたものと思われる。 Interestingly, the Malay relative, Dutch, has also improved substantially. This provides linguistic explanations for gain. Malay has a very concise and regular question structure, where the question word appears at the beginning of the question sentence (similar to the target language) and performs other functions in that language (unlike English “do”, for example) There is nothing. Perhaps because of the simplicity of this representation, the class specific model of the present invention was able to model the data well despite the data being reduced due to the data partitioning.
別の要因は、分類器の性能と思われ、これは全ての言語において高かった(約98%)。残念ながら、表のスコアの多様性の裏にある理由を知るのは困難である。大きな要因の一つは、コーパスの品質の差と、ソースコーパスとターゲットコーパスとの関係とであろう。いくつかのコーパスは互いの直訳であり、他のものは別の言語からの重訳である。中国語がこの様な言語の一つであり、中国語と関連の深い日本語とタイ語では非常にうまくいったにも関わらず、この言語ではベースラインから改善できなかった理由がこれで説明できるかもしれない。 Another factor seemed to be classifier performance, which was high in all languages (about 98%). Unfortunately, it is difficult to know the reason behind the diversity of table scores. One of the major factors may be the difference in corpus quality and the relationship between the source corpus and the target corpus. Some corpora are direct translations of each other, others are multiple translations from different languages. This is the reason why Chinese was one of these languages, and although it was very successful in Japanese and Thai, which are closely related to Chinese, this language did not improve from the baseline. I may be able to do it.
[先行する方法との比較]
ここで提案した方法を、このシステムのハード重みを用いた実現例と比較するための実験を行った。その目的は、このフレームワーク内で、先行技術の非特許文献1で提案されたシステムにできる限り近づいてみることであった。分類確率でクラス特定モデルに重みを付けることに代えて、1と0との重みを用いた。これを達成するために、分類器からの確率を、確率が>0.5であれば1の重みを与え、そうでなければ0の重みを用いるように2値化処理した。このシステムの性能を、表4の「ハード」という見出しの欄に示す。1つを除く全ての条件下で、このシステムよりも、発明で提案したアプローチのほうが性能が勝っているか、又は等しかった。
[Comparison with the previous method]
An experiment was conducted to compare the proposed method with an implementation using the hardware weight of this system. The aim was to try to get as close as possible to the system proposed in the prior
7.結論
上述の実施の形態では、質問に特定のSMTエンジンと叙述に特定のSMTエンジンとからの2つのモデルを単一のデコード処理に組合せた。しかし、この発明は2つのクラスのシステムに限定されるものではない。式1から明らかなとおり、この発明は3又はそれ以上のクラスを含むシステムに適用可能である。
7). CONCLUSION In the above-described embodiment, the two models from the SMT engine specific to the question and the SMT engine specific to the description were combined into a single decoding process. However, the present invention is not limited to two classes of systems. As is apparent from
この技術は、構成要素モデル間の確率による柔軟な重みづけでのトピック依存デコード処理を可能にする。実験は、疑問文と叙述文とのクラスにクラス特定モデルを構築することで、会話データに対するこの発明の実施の形態の有効性を示した。多数の言語対及びMT評価メトリックスを用いた技術の広範な評価は、この発明の有効性を示す。ほとんどの場合、モデル補間なしのシステムに対し優位な改善を示すことができ、いくつかの言語対に対してはこのアプローチが優越している。全ての言語対の中で最も改善されたのはマレーシア語(マレー語)と英語であり、ベースラインシステムに対しBLEUが4.7ポイント(0.463から0.510)上昇した。 This technique enables topic-dependent decoding with flexible weighting based on the probability between component models. The experiment showed the effectiveness of the embodiment of the present invention for conversation data by constructing a class specific model in the class of question sentences and narrative sentences. Extensive evaluation of the technology using numerous language pairs and MT evaluation metrics demonstrates the effectiveness of the present invention. In most cases, a significant improvement over systems without model interpolation can be shown, and this approach is superior for some language pairs. The most improved of all language pairs was Malaysian (Malay) and English, increasing the BLEU by 4.7 points (0.463 to 0.510) over the baseline system.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 SMTシステム
40 開発セット
42 トレーニングセット
44 トレーニングモジュール
46 SMT装置
48 入力文
50 翻訳
70 重み推定モジュール
72 分類器トレーニングモジュール
74 SMTトレーニングモジュール
76 句テーブル生成モジュール
92 分類器
96 SMTモジュール
110 分類器モデル
112 クラス特定SMTモデル
114 句テーブル
130 SMTトレーニングモジュール
134 質問特定SMTトレーニングモジュール
138 叙述特定SMTトレーニングモジュール
160 一般SMTモデル
162 質問特定SMTモデル
164 叙述特定SMTモデル
290及び460 特徴量抽出モジュール
294 最大エントロピモデリングモジュール
324 重み最適化モジュール
340 一般SMTサブシステム
342 質問特定SMTサブシステム
344 叙述特定SMTサブシステム
362 デコーダ
30
Claims (6)
前記複数個のクラスそれぞれについて設けられた、複数個のサブデコーダを含み、前記複数個のサブデコーダはそれぞれのクラスのトレーニングデータの集合によって統計的にトレーニングされ、前記複数個のサブデコーダの各々は、前記ソース文中の単語及び特定の句の各々について、ターゲット言語での翻訳単語及び翻訳単語シーケンスの確率をそれぞれ出力し、
前記ターゲット言語の翻訳単語及び翻訳単語シーケンスを組合わせて得られる仮説の確率に従って、前記ソース文の前記ターゲット言語における最も尤度の高い仮説を前記ソース文に対する翻訳文として出力するための手段をさらに含み、前記ターゲット言語の前記仮説の前記確率は、前記仮説を構成する前記ターゲット言語の翻訳単語及び翻訳単語シーケンスの各々について前記複数個のサブデコーダにより出力された確率を前記ベクトルの要素を重みとして加算した値を用いて計算される、統計的機械翻訳装置。 Includes means for determining a vector of probabilities representing the class membership of the source sentence, the elements of the vector represents the probability of belonging respectively to the plurality of classes the source sentence predetermined further
Wherein provided for each plurality of classes, look including a plurality of sub Budekoda, the plurality of sub-decoders are statistically trained by collection of training data for each class, of the plurality of sub-decoder each of the each of the words and certain phrases of the source sentence, and outputs the probability of the translation word and translation word sequences in the target language, respectively,
According to the probability of the hypothesis obtained by combining the target language translation word and translation word sequences, means for outputting a high anchor theory of most likelihood in the target language of the source text as a translation for the source text further comprising a, the probability of the hypothesis of the target language, the probability output by the plurality of sub-decoders for each of the target language translation word and translation word sequence which forms the hypothesis before Kibe vector A statistical machine translation apparatus that is calculated using a value obtained by adding elements as weights .
前記複数個の特定クラスは、前記一般クラスを分割したものである、請求項1に記載の統計的機械翻訳装置。 The plurality of classes includes a general class and a plurality of specific classes,
The statistical machine translation device according to claim 1, wherein the plurality of specific classes are obtained by dividing the general class.
Each of said plurality of sub Budekoda the class specific language model, class specific translation model, calculates the probability according to any combination of classes specified length model, or class specific distortion model or these models, claims 1 Item 6. The statistical machine translation device according to any one of Items 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008145533A JP5288371B2 (en) | 2008-06-03 | 2008-06-03 | Statistical machine translation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008145533A JP5288371B2 (en) | 2008-06-03 | 2008-06-03 | Statistical machine translation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009294747A JP2009294747A (en) | 2009-12-17 |
JP5288371B2 true JP5288371B2 (en) | 2013-09-11 |
Family
ID=41542918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008145533A Active JP5288371B2 (en) | 2008-06-03 | 2008-06-03 | Statistical machine translation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5288371B2 (en) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9798720B2 (en) | 2008-10-24 | 2017-10-24 | Ebay Inc. | Hybrid machine translation |
JP5500636B2 (en) * | 2010-03-03 | 2014-05-21 | 独立行政法人情報通信研究機構 | Phrase table generator and computer program therefor |
US9881006B2 (en) | 2014-02-28 | 2018-01-30 | Paypal, Inc. | Methods for automatic generation of parallel corpora |
US9940658B2 (en) | 2014-02-28 | 2018-04-10 | Paypal, Inc. | Cross border transaction machine translation |
US9569526B2 (en) | 2014-02-28 | 2017-02-14 | Ebay Inc. | Automatic machine translation using user feedback |
US9530161B2 (en) | 2014-02-28 | 2016-12-27 | Ebay Inc. | Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data |
CN106776583A (en) * | 2015-11-24 | 2017-05-31 | 株式会社Ntt都科摩 | Machine translation evaluation method and apparatus and machine translation method and equipment |
CN109960814B (en) * | 2019-03-25 | 2023-09-29 | 北京金山数字娱乐科技有限公司 | Model parameter searching method and device |
CN113435215A (en) * | 2021-06-22 | 2021-09-24 | 北京捷通华声科技股份有限公司 | Machine translation method and device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000509173A (en) * | 1996-04-03 | 2000-07-18 | シーメンス アクチエンゲゼルシヤフト | Automatic classification of text plotted in documents after conversion to digital data |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
JP2006338261A (en) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | Translation device, translation method and translation program |
JP4537970B2 (en) * | 2006-03-17 | 2010-09-08 | 日本電信電話株式会社 | Language model creation device, language model creation method, program thereof, and recording medium thereof |
JP5067777B2 (en) * | 2006-09-01 | 2012-11-07 | 独立行政法人情報通信研究機構 | Translation apparatus, cluster generation apparatus, cluster manufacturing method, and program |
-
2008
- 2008-06-03 JP JP2008145533A patent/JP5288371B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009294747A (en) | 2009-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5288371B2 (en) | Statistical machine translation system | |
Artetxe et al. | An effective approach to unsupervised machine translation | |
Yeh | Speech act identification using semantic dependency graphs with probabilistic context-free grammars | |
JP3768205B2 (en) | Morphological analyzer, morphological analysis method, and morphological analysis program | |
Mauser et al. | Extending statistical machine translation with discriminative and trigger-based lexicon models | |
Finch et al. | Dynamic model interpolation for statistical machine translation | |
Kirchhoff et al. | Improved language modeling for statistical machine translation | |
Ueffing et al. | Semi-supervised model adaptation for statistical machine translation | |
Arisoy et al. | Discriminative language modeling with linguistic and statistically derived features | |
Gadde et al. | Adapting a WSJ trained part-of-speech tagger to noisy text: preliminary results | |
Devlin et al. | Statistical machine translation as a language model for handwriting recognition | |
Prasad et al. | BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms | |
Matiasek et al. | Exploiting long distance collocational relations in predictive typing | |
Gu et al. | Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation | |
Leidig et al. | Automatic detection of anglicisms for the pronunciation dictionary generation: a case study on our German IT corpus. | |
JP5500636B2 (en) | Phrase table generator and computer program therefor | |
Zarnoufi et al. | Machine normalization: Bringing social media text from non-standard to standard form | |
Blackwood | Lattice rescoring methods for statistical machine translation | |
Sridhar et al. | Enriching machine-mediated speech-to-speech translation using contextual information | |
Sarikaya et al. | Tied-mixture language modeling in continuous space | |
Vaičiūnas et al. | Statistical language models of Lithuanian based on word clustering and morphological decomposition | |
Khalilov et al. | Neural network language models for translation with limited data | |
Antony et al. | Statistical method for English to Kannada transliteration | |
Aransa | Statistical machine translation of the Arabic language | |
Pham et al. | Adaptation in Statistical Machine Translation for Low-resource Domains in English-Vietnamese Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5288371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |