JP5565827B2 - A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. - Google Patents
A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. Download PDFInfo
- Publication number
- JP5565827B2 JP5565827B2 JP2009273137A JP2009273137A JP5565827B2 JP 5565827 B2 JP5565827 B2 JP 5565827B2 JP 2009273137 A JP2009273137 A JP 2009273137A JP 2009273137 A JP2009273137 A JP 2009273137A JP 5565827 B2 JP5565827 B2 JP 5565827B2
- Authority
- JP
- Japan
- Prior art keywords
- training
- separator
- sentence
- source language
- language sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
この発明は自然言語処理(Natural Language Processing:NLP)の前処理に関し、特に、SMT(Statistical Machine Translation)又は自然言語理解に用いられるモデルをトレーニングするためのコーパス内の文をセグメント化することに関する。 The present invention relates to preprocessing of natural language processing (NLP), and more particularly to segmenting sentences in a corpus for training a model used for SMT (Statistical Machine Translation) or natural language understanding.
単語セグメント化の作業、すなわち連続したテキストにおいて単語の境界を特定することは、自然言語理解、情報抽出及び機械翻訳等のデータ駆動のNLP応用では基礎的前処理ステップのひとつである。英語等のインド−ヨーロッパ系言語と異なり、中国語、日本語等のアジア系言語の多くは意味のある単語単位を区別するのに空白文字を用いない。 Word segmentation work, i.e. identifying word boundaries in continuous text, is one of the basic preprocessing steps in data-driven NLP applications such as natural language understanding, information extraction and machine translation. Unlike Indo-European languages such as English, many Asian languages such as Chinese and Japanese do not use white space to distinguish meaningful word units.
これら言語の単語セグメント化には以下の課題がある。 The word segmentation of these languages has the following problems.
(1)多義性。たとえば、中国語では、単一の文字がある文脈では構成要素のひとつであり、別の文脈ではそれだけでひとつの単語でありうる。 (1) Ambiguity. For example, in Chinese, a single character can be a component in one context and a single word alone in another.
(2)未知の単語。すなわち、既存の単語を組み合わせると例えば「ホワイトハウス」等の固有名詞など、新たな単語になりうる。 (2) An unknown word. In other words, combining existing words can result in a new word such as a proper noun such as “White House”.
先行技術の純粋に辞書ベースのアプローチでは、最大一致度ヒューリスィックスによってこれらの課題に対処しているが、その精度は利用される辞書の守備範囲に大いに依存する。教師なしの単語セグメント化に関する最近の研究は、確率論的方法に基づくアプローチに焦点をあてている。例えば、非特許文献1はユニグラム単語分布に基づく確率論的セグメント化モデルを提案しており、非特許文献2は標準的なn−グラム(1≦n≦3)言語モデルを用いている。これに替わる、ディリクレプロセスに基づくノンパラメトリックベイズ推論のアプローチであって、ユニグラム及びバイグラムの単語依存性を組入れたものが非特許文献3で紹介されている。
Prior art purely dictionary-based approaches address these challenges with maximum matching heuristics, but their accuracy is highly dependent on the coverage of the dictionary used. Recent research on unsupervised word segmentation has focused on approaches based on probabilistic methods. For example, Non-Patent
しかし、区切り記号を用いない言語の機械翻訳作業に最適な単語セグメント化の学習についてはあまり注意が払われてこなかった。中国語または日本語の単一の文字といった、小さい翻訳単位の場合、そのようなトークンがトレーニングコーパスの中に見られることが多く、従ってこれらのトークンをSMTで翻訳することができるが、これらのトークンによって与えられるコンテキスト情報は良い翻訳を得るには十分でないかもしれない。 However, little attention has been paid to learning word segmentation that is optimal for machine translation work in languages that do not use delimiters. For small translation units, such as single Chinese or Japanese characters, such tokens are often found in training corpora, so these tokens can be translated with SMT, but these The context information given by the token may not be enough to get a good translation.
例えば、日本語−英語SMTは2つの連続した文字「白」(“white”)と「鳥」(“bird”)とを“White bird”と訳すであろうが、人間ならこれらの連続した文字「白鳥」を“swan”と訳すであろう。従って、翻訳単位が長くなればなるほど、意味のある翻訳を見出すためにはより多くのコンテキストを利用することが可能になる。他方で、翻訳単位が長くなればなるほど、統計的翻訳モデルのトレーニングに利用される言語資源のスパースネスのために、トレーニングデータ中にそのようなトークンの生じる可能性は少なくなる。 For example, a Japanese-English SMT would translate two consecutive characters “white” (“white”) and “bird” (“bird”) to “white bird”, but for humans these consecutive characters “Swan” would be translated as “swan”. Therefore, the longer the translation unit, the more context can be used to find meaningful translations. On the other hand, the longer the translation unit, the less likely that such tokens will occur in the training data due to the sparseness of the language resources used to train the statistical translation model.
従って、機械翻訳に「最適」な単語セグメント化は、所与の入力文のコンテキストにおいて意味を持つに十分に小さく、かつ翻訳の品質を最適化するための統計的モデルの翻訳作業の複雑さと対称範囲とのトレードオフを達成する翻訳単位を特定するものである、といえる。モノリンガルの確率モデルを用いることは、必ずしも良好な機械翻訳性能を生じない。しかし、モノリンガルのみならずバイリンガルの情報も考慮したいくつかのアプローチから改良がなされ、SMTに好適な単語セグメント化を導出するものが提案されている。言語資源の入手しやすさの点から、最近の研究は中国語から英語へのSMTのための中国語単語セグメント化(Chinese word segmentation:CWS)の最適化に焦点をあてている。例えば、非特許文献4はCWSのためのベイズ半教師付きアプローチであって、非特許文献3に基づくものを提案している。この生成的モデルは、まず市販の分離器を用いて中国語のテキストをセグメント化し、SMTに好適な新たな単語の種類と分布とを学習する。さらに、セグメント化の一貫性と翻訳単位の粒度ともまた、CWSを改良するには重要である。
Therefore, the word segmentation that is “optimal” for machine translation is small enough to make sense in the context of a given input sentence, and is symmetric with the complexity of the translation work of a statistical model to optimize the quality of the translation. It can be said that the translation unit that achieves the trade-off with the scope is specified. Using a monolingual probabilistic model does not necessarily produce good machine translation performance. However, improvements have been made from several approaches that consider not only monolingual but also bilingual information, and what has been proposed to derive word segmentation suitable for SMT. In view of the availability of language resources, recent research has focused on the optimization of Chinese word segmentation (CWS) for SMT from Chinese to English. For example, Non-Patent
しかし、非特許文献3に開示のシステムでは、最初のセグメント化を得るために言語学的に導かれた単語セグメント化ツールが必要とされる。
However, the system disclosed in Non-Patent
従って、この発明の目的の一つは、言語学に導かれた単語セグメント化ツールを必要としない、文分離器トレーニング装置を提供することである。 Accordingly, one object of the present invention is to provide a sentence separator training device that does not require a linguistically guided word segmentation tool.
この発明の別の目的は、言語学的に導かれた単語セグメント化ツールを必要とせず、最適な文分離器を自動的に生成する、文分離器トレーニング装置を提供することである。 Another object of the present invention is to provide a sentence separator training device that does not require a linguistically derived word segmentation tool and automatically generates an optimal sentence separator.
この発明の第1の局面に従えば、予め選択された第1の言語の文分離器をトレーニングするための文分離器トレーニング装置は、翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第1の言語のソース言語文と第2の言語のターゲット言語文とを含み、さらに前記バイリンガルコーパス中の前記ソース言語文を予め定められた区切りによって文字列にセグメント化するための文字ベースの第1の分離器と、前記第1の言語と前記第2の言語の文の翻訳対を含むバイリンガルトレーニングコーパスを利用してSMT手段をトレーニングするための第1のトレーニング手段と、を含み、前記SMT手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々を対応付け、前記トレーニング手段によってトレーニングされた前記SMT手段の性能を評価するための評価手段と、前記SMT手段による対応付けの結果を利用して、前記バイリンガルコーパスの前記ソース言語文の第2の分離器をトレーニングするための第2のトレーニング手段と、前記バイリンガルコーパス中の前記ソース言語文を、前記第2のトレーニング手段によってトレーニングされた前記第2の分離器を利用して、前記予め定められた区切りによって分離されたセグメント列に分離するためのセグメント化手段と、前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段及び前記第2の分離器を、前記SMTの性能に関する予め定められた終了条件が満足されるまで繰返し動作するよう制御するための繰返し制御手段と、前記繰返し制御手段の第1回目の繰返しに、前記文字ベースの第1の分離器によってセグメント化されたソース言語文を含むバイリンガルコーパスの一つを選択し、その後の繰返しで前記第2の分離器によってセグメント化された前記ソース言語文を有する前記バイリンガルコーパスを選択し、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第1のトレーニング手段に前記SMT手段をトレーニングさせるための選択手段と、をさらに含む。 According to a first aspect of the present invention, a sentence separator training device for training a preselected first language sentence separator includes means for storing a bilingual corpus of translation pairs, Each pair includes a source language sentence of the first language and a target language sentence of a second language, and further for segmenting the source language sentence in the bilingual corpus into character strings by a predetermined delimiter A first training means for training SMT means using a bilingual training corpus including a first language-based separator and a translation pair of sentences of the first language and the second language; The SMT means associates each of the translation pairs in the bilingual training corpus during training, Training the second separator of the source language sentence of the bilingual corpus using the evaluation means for evaluating the performance of the SMT means trained by the means and the result of the association by the SMT means Second training means and the source language sentence in the bilingual corpus are separated by the predetermined delimiter using the second separator trained by the second training means. The segmentation means for separating into segment rows, the first training means, the evaluation means, the second training means, and the second separator have predetermined termination conditions relating to the performance of the SMT. Repetitive control means for controlling repetitive operation until satisfied, and the repetitive control In the first iteration of the means, select one of the bilingual corpora containing source language sentences segmented by the character-based first separator and then segmented by the second separator in subsequent iterations Selecting the bilingual corpus having the source language sentence, and selecting means for causing the first training means to train the SMT means using the selected bilingual corpus as the bilingual training corpus. In addition.
第1の分離器は、バイリンガルコーパス中のソース言語の文を予め定められた区切りでセグメント化された文字列にセグメント化する。1回目の繰返しでは、選択手段が、文字ベースの第1の分離器によってセグメント化されたソース言語の文を含むバイリンガルコーパスを選択する。第1のトレーニング手段は選択されたコーパスをバイリンガルトレーニングコーパスとして利用してSMT手段をトレーニングする。トレーニングの間に、SMT手段はバイリンガルトレーニングコーパスの翻訳対の各々を対応付ける。第2のトレーニング手段はSMT手段による対応付けの結果を利用して第2の分離器をトレーニングする。セグメント化手段はバイリンガルコーパス中のソース言語の文を、第2のトレーニング手段によってトレーニングされた第2の分離器を利用してセグメント列にセグメント化する。2回目の繰返しでは、選択手段はセグメント化手段によってセグメント化されたバイリンガルコーパスを選択する。第1のトレーニング手段が選択されたコーパスをバイリンガルトレーニングコーパスとして利用してSMT手段をトレーニングする。繰返しごとのSMTトレーニングの終わりに、評価手段がトレーニング手段によってトレーニングされたSMT手段の性能を評価する。繰返し制御手段は予め定められた終了条件が満足されると繰返しを止める。例えば、評価が劣化すると、繰返しが止められる。 The first separator segments the source language sentences in the bilingual corpus into character strings that are segmented at a predetermined delimiter. In the first iteration, the selection means selects a bilingual corpus that includes source language sentences segmented by the first character-based separator. The first training means trains the SMT means using the selected corpus as a bilingual training corpus. During training, the SMT means associates each translation pair of the bilingual training corpus. The second training means trains the second separator using the result of association by the SMT means. The segmenting means segments the source language sentences in the bilingual corpus into segment strings using the second separator trained by the second training means. In the second iteration, the selection means selects the bilingual corpus segmented by the segmentation means. The first training means trains the SMT means using the selected corpus as a bilingual training corpus. At the end of each iteration of SMT training, the evaluation means evaluates the performance of the SMT means trained by the training means. The repetition control means stops the repetition when a predetermined end condition is satisfied. For example, if the evaluation deteriorates, the repetition is stopped.
1回目の繰返しでは文字列にセグメント化されたソース言語の文を有するバイリンガルコーパスを利用するので、セグメント化は何ら言語特定の分離器を必要としない。次の繰返し以降に用いられる分離器はSMT手段のトレーニングの間に得られた対応付けの結果によってトレーニング可能である。従って、文分離器トレーニング装置は言語に依存せず、言語学的に導かれた単語セグメント化ツールを必要としない文分離器トレーニング装置が提供される。 Since the first iteration uses a bilingual corpus with source language sentences segmented into strings, segmentation does not require any language specific separator. The separator used after the next iteration can be trained according to the result of the correspondence obtained during the training of the SMT means. Thus, a sentence separator training device is provided that is language independent and does not require a linguistically derived word segmentation tool.
第1の局面に基づく第2の局面では、前記第2のトレーニング手段は、前記SMT手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース言語文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、前記バイリンガルコーパスの前記ソース言語文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース言語文の対象の文字のコンテキストと、前記ソース言語文と対にされたターゲット言語文における対象の文字と対応付けた単語のコンテキストとを反映し、さらに前記第2の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース言語文中の文字が単語の終端であるか否かの確率を推定するのに用いられる。 In a second aspect based on the first aspect, the second training means annotates each character in the source language sentence of the bilingual corpus using the result of the association by the SMT means, Means for giving each character an annotation indicating whether or not each character is the end of a word; and means for extracting a predetermined feature amount set of each character in the source language sentence of the bilingual corpus And the predetermined feature amount set includes a context of a target character of the source language sentence and a context of a word associated with the target character in the target language sentence paired with the source language sentence. Means for reflecting and further training a probability model used in the second separator, wherein the probability model is extracted by the extraction means By the characteristic quantity of the set of statistical analysis was used to characters in the source language sentence is to estimate whether the probability or is the end of a word.
SMT手段のトレーニングの終わりに、バイリンガルコーパスのソース言語の文に注釈が付けられる。このように注釈が付けられたバイリンガルコーパスから、予め定められた特徴量の組が抽出され、第2の分離器で用いられる確率モデルがこの特徴量の組と既存の統計的機械翻訳スキームとを用いて統計的にトレーニングされ得る。 At the end of the training of the SMT instrument, the bilingual corpus source language sentence is annotated. A predetermined feature set is extracted from the annotated bilingual corpus, and the probability model used in the second separator determines the feature set and the existing statistical machine translation scheme. Can be used for statistical training.
従って、言語学的に導かれた単語セグメント化ツールを必要とせず、統計的に最適化された文分離器を自動的に生成する文分離器トレーニング装置が提供される。 Accordingly, a sentence separator training device is provided that automatically generates a statistically optimized sentence separator without the need for linguistically derived word segmentation tools.
第2の局面に基づく第3の局面では、前記確率モデルは最大エントロピ(Maximum Entropy:ME)モデルを含む。 In a third aspect based on the second aspect, the probability model includes a maximum entropy (ME) model.
SMTトレーニングの間の対応付けの結果は、いくつかの対応誤りを含むことが多い。しかし、対応付けを利用してMEモデルをトレーニングすることで、誤りの起こりやすさを軽減することができ、従って、言語学的に導かれた単語セグメント化ツールを必要とせず比較的正確な文分離器を自動的に生成する文分離器トレーニング装置が提供される。 The result of mapping during SMT training often includes several mapping errors. However, training the ME model using correspondence can reduce the likelihood of errors, and therefore does not require a linguistically derived word segmentation tool and is a relatively accurate sentence. A sentence separator training device is provided that automatically generates a separator.
第3の局面に基づく第4の局面によれば、前記繰返し制御手段は前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段、及び前記第2の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する。従って、言語学的に導かれた単語セグメント化ツールを必要とせず、最適な文分離器を自動的に生成する文分離器トレーニング装置が提供される。最適化はSMTと分離器の自動トレーニングとを利用して行われるので、結果として得られる分離器は人の手によってセグメント化されたバイリンガルコーパスを利用してトレーニングされたものとは異なり、セグメント化はよりSMTに好適なものとなるであろう。 According to a fourth aspect based on the third aspect, the iterative control means includes the first training means, the evaluation means, the second training means, and the second separator according to the evaluation means. Control is performed so that the evaluation is repeated until the evaluation becomes worse than the evaluation of the evaluation means in the preceding repetition. Thus, a sentence separator training device is provided that automatically generates an optimal sentence separator without the need for linguistically derived word segmentation tools. Since optimization is performed using SMT and automatic training of the separator, the resulting separator differs from that trained using a human-segmented bilingual corpus, and is segmented Will be more suitable for SMT.
この発明の第5の局面は、コンピュータ上で実行されるとコンピュータを第1から第4の局面のいずれかに基づく装置として機能させる、コンピュータプログラムに関する。 A fifth aspect of the present invention relates to a computer program that, when executed on a computer, causes the computer to function as an apparatus based on any of the first to fourth aspects.
この発明の第6の局面に従えば、コンピュータ可読媒体は第5の局面に従ったコンピュータプログラムを記憶する。 According to a sixth aspect of the present invention, a computer readable medium stores a computer program according to the fifth aspect.
[第1の実施例]
(概観)
先行のアプローチとは対照的に、この発明では最初のセグメント化を得るために言語学的に導かれた単語セグメント化ツールの存在を必要としない、言語に依存しないアプローチを提案する。提案される方法はパラレルコーパスを用いて、文字列となっているソース言語の文をターゲット言語の空白スペースで分離された単語単位に対応付ける。同じターゲット単語に対応付けされた連続する文字が統合されたより大きなソース言語単位になる。従って、翻訳単位の粒度は所与のバイリンガルコーパスコンテキストで規定される。対応誤りの副作用を最小にし、かつセグメント化の一貫性を保つために、最大エントロピ(Maximum−Entropy:ME)アルゴリズムを適用して、再セグメント化されたバイリンガルコーパスでトレーニングされるSMTシステムの翻訳品質を最適化するソース言語単語セグメント化の学習が行われる。
[First embodiment]
(Overview)
In contrast to previous approaches, the present invention proposes a language-independent approach that does not require the presence of a linguistically derived word segmentation tool to obtain the initial segmentation. The proposed method uses a parallel corpus to associate source language sentences that are character strings with word units separated by blank spaces in the target language. It becomes a larger source language unit in which consecutive characters associated with the same target word are integrated. Therefore, the granularity of translation units is defined in a given bilingual corpus context. Translation quality of an SMT system trained on a re-segmented bilingual corpus using the Maximum-Entropy (ME) algorithm to minimize the side effects of miscorrespondence and to keep the segmentation consistent Learning of source language word segmentation is performed.
現代のSMTシステムには、GIZA++等のトークン−単語対応付けサブシステムが埋込まれている。このようなサブシステムはソース言語文のトークンとターゲット言語文の単語との間の最も確率の高い対応付けを出力するものとして知られているが、その対応付け精度は時として疑問である。 Modern SMT systems have embedded token-word association subsystems such as GIZA ++. Such a subsystem is known to output the most probable association between the tokens of the source language sentence and the words of the target language sentence, but the accuracy of the association is sometimes questionable.
5つのアジア系言語(日本語、韓国語、タイ語、中国語(標準中国語、台湾語))から英語への翻訳に、提案のセグメント化方法を適用した実験を行った。実験の結果、提案の方法は、文字化されたソース言語文を翻訳するベースラインシステムより性能がよく、言語学的ツールでセグメント化されたバイリンガルコーパスでトレーニングされたSMTモジュールと同様の翻訳結果を得ることが分かった。 An experiment was conducted in which the proposed segmentation method was applied to translation from five Asian languages (Japanese, Korean, Thai, Chinese (standard Chinese, Taiwanese)) into English. As a result of experiments, the proposed method performs better than a baseline system that translates textual source language sentences and produces similar translation results as a SMT module trained in a bilingual corpus segmented with linguistic tools. I knew I would get it.
(単語セグメント化)
提案の単語セグメント化方法は2つのステップからなる。第1のステップでは、ユニグラムセグメント化ソース言語文字列と空白で分けられたターゲット言語の単語とからなるパラレルテキストコーパス上で標準的SMTモデルがトレーニングされる。SMTトレーニング手順の文字−単語対応付けの結果を利用して、それぞれのバイリンガルコーパスで同じターゲット言語の単語に対応付けされた連続したソース言語の文字を特定し、これらの文字を統合してより大きな翻訳単位とする。
(Word segmentation)
The proposed word segmentation method consists of two steps. In the first step, a standard SMT model is trained on a parallel text corpus consisting of unigram segmented source language strings and target language words separated by white space. Using the results of the character-word association of the SMT training procedure, each source's bilingual corpus identifies consecutive source language characters associated with the same target language word, and these characters are integrated to create a larger A translation unit.
第2のステップでは、単語セグメント化の作業は文字タグ付けとして取扱われ、ここでは2つのタグのみが用いられる。すなわち、所与のソース言語文字がターゲット言語の単語に対応付けされた統合文字列の最後の文字である場合の”WB”(word boundary:単語境界)と、その他の場合の”NB"(no bourdary:非境界)である。対応付けベースの単語境界注釈を用いて、ME法が適用され、最適なソース言語単語セグメント化が学習される。 In the second step, the word segmentation task is treated as character tagging, where only two tags are used. That is, “WB” (word boundary) when a given source language character is the last character of an integrated character string associated with a word in the target language, and “NB” (no) in other cases (borderary: non-boundary). Using the association-based word boundary annotation, the ME method is applied to learn the optimal source language word segmentation.
(1)最大エントロピタグ付けモデル
MEモデルは分類と予測のための汎用機械学習技術を提供する。これらは多くの特徴量を扱うことのできる多用途のツールであり、文境界検出又は品詞タグ付けを含む広範なNLP作業において非常に有効であることを示している。最大エントロピ分類機は指数的モデルであって、多数の二値特徴量関数及びそれらの重みからなる。モデルは、トレーニングデータによって課される制約により、確率モデルのエントロピを最大にするよう重みを調節することでトレーニングされる。実験では条件付き最大エントロピモデルを用い、ここで所与の特徴量の組に対する結果の条件付き確率は非特許文献5でモデル化されている。モデルは以下の形である:
(1) Maximum entropy tagging model The ME model provides a general-purpose machine learning technique for classification and prediction. These are versatile tools that can handle many features and have proved very effective in a wide range of NLP tasks including sentence boundary detection or part-of-speech tagging. The maximum entropy classifier is an exponential model and consists of a number of binary feature functions and their weights. The model is trained by adjusting the weights to maximize the entropy of the stochastic model due to constraints imposed by the training data. In the experiment, a conditional maximum entropy model is used, and the conditional probability of the result for a given feature set is modeled in
tは予測されるタグであり、
cはtのコンテキストであり、
xは正規化係数であり、
Kはモデル内の特徴量の数であり、
fkは二値特徴量関数であり、
αkは特徴量関数fkの重みであり、
p0はデフォルトモデルである。
t is the expected tag,
c is the context of t,
x is a normalization factor,
K is the number of features in the model,
f k is a binary feature quantity function;
α k is a weight of the feature quantity function f k ,
p 0 is the default model.
特徴量の組を表1に示す。辞書によるコンテキスト特徴量はタグtで注釈を付けられた(タグ付けされた)ソース言語の文字列を含む。c0はタグ付けされたコンテキスト単位(例えば文字、または単語)を示し、c−2、…c+2は周囲のコンテキスト単位を示す。t0は現在のタグを示し、t−1は先行するタグを示し、以下同様である。タグコンテキスト特徴量は先行するタグ列のコンテキストに関する情報を供給する。この条件付きモデルは分類器として用いることができる。モデルは繰返しトレーニングされ、実験には改良された繰返しスケーリングアルゴリズム(Improved Iterative Scaling:IIS)を用いた。 Table 1 shows a set of feature amounts. The context feature by the dictionary includes a source language character string annotated (tagged) with a tag t. c 0 indicates a tagged context unit (eg character or word) and c −2 ,... c +2 indicate surrounding context units. t 0 indicates the current tag, t −1 indicates the preceding tag, and so on. The tag context feature quantity supplies information related to the context of the preceding tag string. This conditional model can be used as a classifier. The model was iteratively trained and an improved iterative scaling algorithm (IIS) was used for the experiments.
(2)繰返しブートストラップ法
SMTの最適単語セグメント化学習のための、本発明により提案される繰返しブートストラップ法を図1にまとめた。図1を参照して、ターゲット言語文32とソース言語文34とを含むバイリンガルコーパス30を準備する。ターゲット言語文32の各々がその翻訳のソース言語文と対になっている。
(2) Iterative Bootstrap Method The iterative bootstrap method proposed by the present invention for optimal word segmentation learning of SMT is summarized in FIG. Referring to FIG. 1, a
図2を参照して、翻訳対110はソース言語文112と、そのソース言語文112の翻訳であるターゲット言語文114とを含む。
Referring to FIG. 2,
再び図1を参照して、最初の繰返し(0回目繰返し)では、ソース言語文34の各々がユニグラム分離器36により文字ごとにユニグラムセグメント化ソース言語文38に分割される。ユニグラム分離器36は単に、ソース言語文34の隣接する文字の各々の間に空白を挿入するだけである。
Referring to FIG. 1 again, in the first iteration (0th iteration), each of the
ターゲット言語文32とユニグラムセグメント化ソース言語文38とを含むバイリンガルコーパスを利用してSMT40をトレーニングする。これは最初の繰返しなので、このSMT40を「SMT0」と呼ぶ。SMT040のトレーニングの間に、ターゲット言語文32とユニグラムセグメント化ソース言語文38との文の対の各々が対応付けされる。
次の繰返しが始まる前に、SMT040をソース言語文開発セット(図示せず)をターゲット言語文にデコードすることによって評価し、さらにデコードされた結果を、BLEU(K.パピネニにより提案、「BLEU:機械翻訳の自動評価法」第40回ACL予稿集、第311−318ページ、フィラデルフィア、US,2002年、K. Papineni, “BLEU: a Method for Automatic Evaluation of Machine Translation”, in Proceedings of the 40th ACL, pages 311-318, Philadelphia, US, 2002))又はMETEOR(S.ベネルジらにより提案、「METEOR:MT評価のための自動尺度」ACL予稿集第65−72ページ、アンアーバー、US、2005年(S. Banerjee et al., “METEOR: An Automatic Metric for MT Evaluation” in Proceedings of the ACL, pages 65-72, Ann Arbor, US, 2005.))等の自動評価器によって評価する。評価結果42のスコアを保存する。SMT040のトレーニングの間に、トークン―単語対応付けの結果44が抽出される。結果44を用いてユニグラムセグメント化ソース言語文38内の各トークンに注釈を付けることができる。注釈付きソース言語文38内のトークンの各々の特徴量セットが抽出され、より長い翻訳単位の取扱いが可能なME分類器46(ME1)のトレーニングに用いられる。
Before the next iteration begins,
それぞれのバイリンガルコーパス30の最初の文字−単語対応付けからME分類器46を学習した後、得られたME分類器46を適用して、セグメント化されていないパラレルコーパスのソース言語文34の再セグメント化を行い、結果として、ターゲット言語文32及びソース言語文48を含むセグメント化バイリンガルコーパスが替わりに得られ、これを用いて別のSMT(SMT1)50を再トレーニングし再評価することができ、これによって最初のSMT(SMT0)よりも良好な翻訳性能を達成すると期待できる。
After learning the
教師なしMEタグ付け方法をSMT1のトレーニングの間に抽出されるトークン−単語対応付けに適用することもでき、これによってより長い翻訳単位の取扱いが可能なME分類器56(ME2)を得ることができる。 The unsupervised ME tagging method can also be applied to token-word associations extracted during SMT 1 training, resulting in a ME classifier 56 (ME 2 ) capable of handling longer translation units. be able to.
この実施例では、ユニグラムセグメント化ソース言語文38に、SMT040による対応付けの結果44の結果によって注釈が付けられる。例えば、SMT040のトレーニングにおいて、ある文字がある単語の終端であると判断されると、その単語に「WE」(Word End:語終端)というラベルが付され、そうでなければ「NE」(Not End:非終端)とされる。注釈付きソース言語文を用いてME分類器のトレーニングを行う。この実施例では、ユニグラムセグメント化ソース言語文38の注釈付き文字の各々について、表1に示すようなコンテキスト特徴量の組が導出される。ME分類器46は、トレーニングデータによって課される所与の制約のもとで、確率モデルのエントロピが最大になるようにトレーニングされる。MEモデルは特徴量の組により統計的にトレーニングされる。この実施例では、上述のとおり、ME分類器46に対し条件付き最大エントロピモデルを用いる。
In this example, the unigram segmented
次の繰返しを「1回目」の繰返しと呼ぶ。1回目の繰返しでは、ソース言語文34がME分類器46によってセグメント化されて、セグメント化ソース言語文48が結果として得られる。ターゲット言語文32とセグメント化ソース言語文48とを含むバイリンガルコーパスを用いて、SMT50(SMT1)をトレーニングする。トレーニングの間に、セグメント化ソース言語文48のセグメントの各々がターゲット言語文32の対応する単語と対応付けされる。対応付けの結果54がSMT150から抽出され、これを利用してセグメント化ソース言語文48に注釈が付けられる。注釈付きセグメント化ソース言語文48を用いて次の繰返しのME分類器56(ME2分類器)をトレーニングする。
The next iteration is called the “first” iteration. In the first iteration, the
一方で、SMT150の性能を、ソース言語の開発セット文をデコードすることによって評価する。評価結果52を最初の繰返しの保存された評価結果42と比較する。もし結果52が結果42より良好であれば、繰返しが継続される。そうでなければ、この段階で繰返しを中止し、ME分類器46がソース言語文のセグメント化に最適な分類器として出力される。
On the other hand, the performance of
もし結果52が保存された結果42より良好であれば、評価結果が保存され、ソース言語文34がME分類器56でセグメント化されてセグメント化ソース言語文58が結果として得られる。ターゲット言語文32とセグメント化ソース言語文58とを含むバイリンガルコーパスを利用してSMT60(SMT2)をトレーニングする。SMT260のトレーニングの間のソース言語文の対応付けの結果(図示せず)が抽出される。SMT260の性能は、自動評価器で評価される。SMT260の評価結果62が保存された結果52より悪ければ、繰返しは終了し、ME分類器46が最適な分類器として出力される。もし評価結果62が保存された結果52より良好なら、次の繰返しが行われる。
If the
ME分類器のトレーニング、ME分類器を用いたソース言語文34のセグメント化、セグメント化ソース言語文を含むバイリンガルコーパスによるSMTのトレーニング、及びSMT性能の評価はこのようにして、評価結果が先行する評価結果より悪くなるまで繰返される。
Training of ME classifiers, segmentation of
すなわち、図1を参照して、ME分類器76が(J−1)回目の繰返しで(J−2)回目のSMTトレーニングでのバイリンガルコーパスの対応付けを利用してトレーニングされると仮定する。(J−1)回目の繰返しでは、ソース言語文34はME分類器76によってセグメント化される。結果として得られるセグメント化されたテキスト78は、ターゲット言語文32とともにSMT80(SMTJ−1)のトレーニングに利用される。SMTJ−180の性能が評価される。もし評価結果82が先行する結果より良好なら、結果82が保存され、SMTJ−180のトレーニングにおける対応付けの結果が抽出される。ME分類器86は対応付けの結果84を用いてトレーニングされる。ソース言語文34はセグメント化されてセグメント化ソース言語文88になる。ターゲット言語文32とセグメント化ソース言語文88とを含むバイリンガルコーパスを利用してSMT90(SMTJ)をトレーニングする。SMTJ90の性能が自動評価器によって評価され、評価結果92が先行する評価結果82と比較される。ここでは、結果92が結果82より悪いと仮定する。ここで繰返しが中止され、先行する繰返しで得られた分類器76が最適分類器として特定され、記憶される。
That is, with reference to FIG. 1, it is assumed that the
このようなブートストラップ法が一連のSMTiを繰返し生成し、そのたびに翻訳の複雑さが少なくなる。なぜなら、語順又は語の明瞭化の誤りなしに、より大きな塊を1のステップで翻訳することができるからである。しかし、ある時点で、トレーニングコーパスから学習した翻訳単位の長さの増大によりオーバーフィッティングが生じ、学習時に遭遇していない文を翻訳する際の翻訳性能が低下する。従って、トレーニングコーパスのJ回目の再セグメント化が、遭遇してないテストの組について前回の繰返しより低い自動評価スコアをもたらした場合には、ブートストラップ法は中止される。そして、最も高い自動翻訳スコアを達成したME分類器76(MEJ−1)が提案の方法の最終的な単語分離器として選択され出力される。 Such a bootstrap method repeatedly generates a series of SMT i , each time with less translation complexity. This is because larger chunks can be translated in one step without error in word order or word clarification. However, at some point, overfitting occurs due to an increase in the length of the translation unit learned from the training corpus, and the translation performance when translating a sentence that has not been encountered at the time of learning is reduced. Thus, if the Jth re-segmentation of the training corpus resulted in a lower auto-evaluation score for the test set that was not encountered than the previous iteration, the bootstrap method is aborted. The ME classifier 76 (ME J-1 ) that achieves the highest automatic translation score is selected and output as the final word separator of the proposed method.
(コンピュータによる実現)
図3を参照して、このトークン分類器トレーニング装置を実現するコンピュータプログラムは、バイリンガルコーパス30のソース言語文34をユニグラムにセグメント化してユニグラムセグメント化ソース言語文48を得るステップ140で開始し、その後、ターゲット言語文32とセグメント化ソース言語文48とを含むバイリンガルコーパスを利用してSMT040をトレーニングするステップを含む。
(Realization by computer)
Referring to FIG. 3, the computer program that implements this token classifier training apparatus begins at
図4を参照して、バイリンガルコーパス30は、ソース言語文及び対応のターゲット言語文を含む文対240等の多数の翻訳対(文対)を含む。図4(A)は手動でセグメント化されたソース文を含む対240を示し、図4(B)はユニグラムセグメント化ソース言語文を含む対242を示す。ここで、「ユニグラムセグメント化」とは、「文字にセグメント化された」という意味である。
Referring to FIG. 4, the
プログラムはさらに、BLEUまたはMETEOR等の自動評価器を用いてSMTの性能を評価するステップ(144)を含み、評価の結果を得て、これが最初の繰返しであるか否かを判断するステップ(146)を含む。もしステップ146の判断がYESなら、制御はステップ150に進む。そうでなければ、制御はステップ148に進む。ステップ148で、ステップ144で計算された評価結果が先行する結果よりも悪いか否かが判断される。もし判断がYESならば、制御はステップ164に進み、ここで先行する繰返しで得られたME分類器が最適な分類器として出力され、制御は一連のプログラムを終了する。もしステップ148の判断がNOなら、制御はステップ150に進む。
The program further includes the step (144) of evaluating the performance of the SMT using an automatic evaluator such as BLEU or METEOR, obtaining the result of the evaluation and determining whether this is the first iteration (146). )including. If the determination in
ステップ150で、ステップ144で計算された結果がメモリロケーションに記憶される。
At
プログラムはさらに:直前に得られたME分類器をメモリロケーションに記憶するステップ(152)と、先行するSMTトレーニングステップからの対応付けの結果を抽出するステップ(154)と、対応付けの結果を用いてソース言語文に注釈を付けるステップ(156)と、セグメント化されたソース言語文のトークンの各々について特徴量セットを抽出するステップ(158)と、抽出された特徴量セットを利用して今回の繰返しのME分類器をトレーニングするステップ(160)と、ステップ160で得られたME分類器でソース言語文をセグメント化し(162)、制御をステップ142に戻すステップと、を含む。 The program further includes: storing the ME classifier obtained immediately before in a memory location (152), extracting a matching result from a preceding SMT training step (154), and using the matching result Annotating the source language sentence (156), extracting a feature quantity set for each of the segmented source language sentence tokens (158), and using the extracted feature quantity set Training an iterative ME classifier (160), segmenting a source language sentence with the ME classifier obtained in step 160 (162), and returning control to step 142.
最初の繰返しでは、ユニグラムにセグメント化されたソース言語文を含むバイリンガルコーパスが選択されてSMTのトレーニングに用いられる。これに続く繰返しでは、ステップ160でトレーニングされたME分類器を利用してセグメント化されたバイリンガルコーパスが選択されてSMTのトレーニングに用いられる。ユニグラムのセグメント化は文字ベースなので、ステップ140のセグメント化は言語に依存しない。従って、言語学的に導かれた単語セグメント化ツールは不要である。
In the first iteration, a bilingual corpus containing source language sentences segmented into unigrams is selected and used for SMT training. In subsequent iterations, a segmented bilingual corpus using the ME classifier trained in
SMTのトレーニング中の対応付けには周知のツールがあるが、対応付けの結果はいくつかの対応誤りを含むことが少なくない。対応付けの結果を直接バイリンガルコーパスのセグメント化に適用すると、結果に誤りが多くなるであろう。しかし、SMTトレーニングの対応付けの結果を利用してME分類器を統計的にトレーニングすることにより、ME分類器のセグメント化結果は比較的誤りが少なくなる。上述の繰返しの終わりに結果として得られるME分類器は、結果としてSMT性能が繰返しの間に得られるSMTの中で最良となる、という意味で、最適なものとなるであろう。 The association in the SMT of the training there is a well-known tool, but the association of the results, it is not a few, including some of the correlation error. Applying the mapping results directly to bilingual corpus segmentation will result in many errors in the results. However, by statistically training the ME classifier using the result of the association of SMT training, the segmentation result of the ME classifier is relatively less error- prone . The resulting ME classifier at the end of the above iteration will be optimal in the sense that the resulting SMT performance is the best among the SMT obtained during the iteration.
このように構成されたプログラムはコンピュータで実行されると図1に示す動作を実現するものであることが当業者には理解されるであろう。 Those skilled in the art will understand that the program configured as described above realizes the operation shown in FIG. 1 when executed by a computer.
(実験)
種々の単語セグメント化を用いる効果を、多言語基本旅行表現コーパス(multilingual Basic Travel Expressions Corpus:BTEC)を用いて調査した。これはバイリンガルの旅行の専門家が外国へ行ったり来たりする人々に有用と考えられる文章を集めたものである。単語セグメント化の実験のために、自然には単語単位を区切りで分離しない5つのアジア系言語、すなわち日本語(ja)、韓国語(ko)、タイ語(th)、及び2種の中国語である標準中国語(zh)ならびに台湾語(tw)を選択した。
(Experiment)
The effect of using various word segmentations was investigated using a multilingual Basic Travel Expressions Corpus (BTEC). This is a collection of texts that bilingual travel specialists may find useful for people traveling to and from abroad. For the purpose of word segmentation experiments, five Asian languages that do not naturally separate word units into separate parts: Japanese (ja), Korean (ko), Thai (th), and two Chinese languages Standard Chinese (zh) and Taiwanese (tw) were selected.
表2に、SMTモデルのトレーニング(train)、モデル重みづけのチューニング(dev)及び翻訳品質の評価(eval)に用いたBTECコーパスデータセットの特性をまとめた。文の数(sen)及び語彙(voc)に加えて、文の長さ(len)も、文ごとの平均単語数として与えられている。 Table 2 summarizes the characteristics of the BTEC corpus data set used for SMT model training, model weight tuning (dev), and translation quality evaluation (eval). In addition to the number of sentences (sen) and vocabulary (voc), the length of the sentence (len) is also given as the average number of words per sentence.
全てのソース言語について、それぞれの言語に利用可能な言語学的セグメント化ツールを用いて所与の統計が得られた。台湾語についてはセグメント化が利用できなかった。 For all source languages, given statistics were obtained using linguistic segmentation tools available for each language. Segmentation was not available for Taiwanese.
SMTモデルのトレーニングについては、F.オチ及びH.ネイ、「統計的対応付けモデルの系統的比較」、コンピュータ言語、29(1):19−51ページ,2003年(F. Och and H. Ney, “A Systematic Comparison of Statistical Alignment Models” in Computational Linguistics, 29(1):19-51, 2003)で提案された標準的単語対応付けと、A.ストックル、「SRILM、拡張可能LMツールキット」ICSLP予稿集、第901−904ページ、デンバー、US.2002年(A. Stolcke, “SRILM an extensible LM toolkit”, in Proceedings of ICSLP, pages 901-904, Denver, US, 2002)によって提案された言語モデル化ツールを使用した。デコーダのパラメータのチューニングには最小誤り率トレーニング(Minimum error rate training: MERT)を用い、オチ及びネイの提案する技術を用いてdevセットについて行った。翻訳には、A.フィンチら、「NICT/ATR音声翻訳システム」、IWSLT予稿集、第103−110ページ、トレント、イタリア、2007年(A. Finch et al, “The NICT/ATR Speech Translation System” in Proceedings of the IWSLT, pages 103-110, Trento, Italy, 2007)の提案するマルチスタック句ベースデコーダであってオープンソースツールキットMOSESに相当するものを用いた。翻訳品質の評価には、標準的自動評価尺度、すなわちBLEU及びMETEORを用いた。この実施例の実験結果では、所与のスコアはパーセントの数字でリストされている。
For training on the SMT model, see F.C. Ochi and H. Ney, “Systematic Comparison of Statistical Alignment Models,” Computer Language, 29 (1): 19-51, 2003 (F. Och and H. Ney, “A Systematic Comparison of Statistical Alignment Models” in Computational Linguistics. , 29 (1): 19-51, 2003), and A. Stockl, “SRILM, Extensible LM Toolkit” ICSLP Proceedings, 901-904, Denver, US. The language modeling tool proposed by 2002 (A. Stolcke, “SRILM an extensible LM toolkit”, in Proceedings of ICSLP, pages 901-904, Denver, US, 2002) was used. Decoder parameters were tuned using minimum error rate training (MERT) and dev sets using techniques proposed by Ochi and Nei. For translation, A. Finch et al., “NICT / ATR Speech Translation System”, IWSLT Proceedings, pages 103-110, Trento, Italy, 2007 (A. Finch et al, “The NICT / ATR Speech Translation System” in Proceedings of the IWSLT, pages 103-110, Trento, Italy, 2007), which is a multi-stack phrase base decoder proposed by MOSES equivalent to the open source toolkit. Standard automatic rating scales, namely BLEU and METEOR, were used for translation quality assessment. In the experimental results of this example, a given score is listed as a percentage number.
セクション(1)はこの実施例の提案の方法を、文字ごとに分けたソース文を翻訳するベースラインシステムと、言語に依存する言語学的に導かれた単語セグメント化によってトレーニングされたSMTとに比較した。加えて、繰返しブートストラップ法の効果をセクション(2)にまとめた。 Section (1) describes the proposed method of this embodiment as a baseline system for translating source-separated source sentences and an SMT trained by language-dependent linguistically guided word segmentation. Compared. In addition, the effect of the repeated bootstrap method is summarized in section (2).
セクション(1)単語セグメント化の効果 Section (1) Effects of word segmentation
種々にセグメント化されたソース言語リソースでトレーニングされたSMTの自動評価スコアを表3に示す。ここで
「文字」は翻訳にユニグラムセグメント化ソーステキストを用いるベースラインシステムを指す。
「本件」はここで提案される最適MEタグ付けモデルによってセグメント化されたコーパスでトレーニングされたSMTである。
「言語学的」は、twを除き、調査された言語の各々について利用可能な言語依存の言語学的に導かれた単語セグメント化ツールを用いたものである。
Table 3 shows the automatic evaluation scores for SMT trained with various segmented source language resources. Here "character" refers to a baseline system that uses unigram segmented source text for translation.
“This case” is an SMT trained on a corpus segmented by the optimal ME tagging model proposed here.
“Linguistic” is a language-dependent linguistically derived word segmentation tool that is available for each of the investigated languages, except tw.
この結果から、この実施例に従った本件の方法が、対象とした言語の各々についてベースラインシステムに勝り、評価尺度はともに一貫してBLEUでは0.8から2.0ポイントのゲイン、METEORでは0.5から3.0ポイントのゲインを達成したことが示される。しかし、改良はそれぞれのソース言語とその特性に依存する。例えば、ゲインが最も小さかったのは中国語であったが、その理由は、単一の文字がそれ自身で単語を構成することが多く、このため、連続したひらがな又はカタカナ文字がより大きな意味のある単位を構成する日本語に比べ、多義性が高くなったからである。 From this result, the method according to this embodiment is superior to the baseline system for each of the target languages, and the evaluation scale is consistently 0.8 to 2.0 points gain for BLEU and METEOR. It is shown that a gain of 0.5 to 3.0 points has been achieved. However, improvements depend on each source language and its characteristics. For example, the smallest gain was in Chinese, because a single letter often constitutes a word on its own, so consecutive hiragana or katakana characters are more meaningful This is because the ambiguity is higher than the Japanese language that composes a unit.
この実施例の方法を、言語学的に導かれた分離器と比較すると、結果はソース言語のほとんどについて自動的に学習した単語セグメント化の評価スコアがわずかに低くなったが、この実施例の方法による結果は例えば韓国語−英語等の作業では言語学的セグメント化ツールにきわめて近いかこれに勝るものであった。しかし、調査したほかの文字種に比べ文字種が顕著に異なるタイ語については、本件の方法と言語学的セグメント化との間に大きな開きが出た。 When comparing the method of this example with a linguistically derived separator, the result was a slightly lower word segmentation rating score that was automatically learned for most of the source languages. The results of the method were very close to or better than linguistic segmentation tools, for example for Korean-English tasks. However, for Thai, which has significantly different character types compared to the other character types investigated, there was a big gap between the method and linguistic segmentation.
本件のセグメント化方法に影響を与え、従って初期コーパスセグメント化を生成する際に考慮すべき特徴量は以下を含む:(1)タイ語の文字種は、子音に基づくセグメント的表記体系であるが、母音の表記は強制的であって、ベースラインシステムの文字分けは子音の依存性に影響を与える。(2)これは子音の上に置かれるトーンマーカを用いるが、本件のアプローチでは単一の文字として扱われる。(3)子音の後に発音される母音は非連続で、子音の前、後、上、又は下に生じ得るため、トレーニングコーパスの単語語形変化の数が増え、学習済ME分類器の正確さが減じられる。 Features that affect the segmentation method in this case and therefore should be considered when generating the initial corpus segmentation include: (1) Thai character types are a segmental notation system based on consonants, The vowel notation is compulsory, and the character separation of the baseline system affects the consonant dependency. (2) This uses a tone marker placed on the consonant, but is treated as a single character in this approach. (3) Since the vowels that are pronounced after the consonant are discontinuous and can occur before, after, above, or below the consonant, the number of word word form changes in the training corpus increases and the accuracy of the learned ME classifier Reduced.
日本語は複数の文字種(漢字、ひらがな、カタカナ)を用いて書かれるので、所与のトークンに文字種に関する付加的特徴量を加えればME分類器の性能改良の一助となるかもしれない。 Japanese is written using multiple character types (kanji, hiragana, katakana), so adding additional features related to character types to a given token may help improve the performance of the ME classifier.
最後に、伝統的中国語文字種を用いたテキストをセグメント化するのに言語学的ツールが利用できなかった台湾語については、言語学的に導かれたセグメント化ツールが利用できないいかなる言語の翻訳についても、この実施例の方法がうまく適用できることを示した。 Finally, for Taiwanese where linguistic tools were not available for segmenting text using traditional Chinese character types, translations in any language where linguistically derived segmentation tools are not available Also demonstrated that the method of this example can be applied successfully.
セクション(2)繰返しブートストラップの効果
この実施例の方法の頑健性を見るため、繰返しブートストラップ法の間に各ソース言語のシステム性能に現れた変化を図7及び図8に示す。図7のBLEUの結果、及び図8のMETEORの結果は、全ての言語で第1回目の繰返しで最良の性能に達し、その後は繰返しの数が増すたびにわずかながら、しかし一貫して悪化することを示している。この理由は、より長いターゲット言語句と対応付けされ、その結果より長い翻訳単位のセグメント化につながるソーストークンの連結によって引起されるオーバーフィッティングの効果である。
Section (2) Effect of Repeated Bootstrap To see the robustness of the method of this example, the changes that appear in the system performance of each source language during the repeated bootstrap method are shown in FIGS. The BLEU results in FIG. 7 and the METEOR results in FIG. 8 reach the best performance in the first iteration for all languages, but then slightly worse but consistently worse with each iteration. It is shown that. The reason for this is the effect of overfitting caused by the concatenation of source tokens that are associated with longer target language phrases, resulting in segmentation of longer translation units.
語彙サイズと単語長の変化を図9及び図10にまとめた。図9及び図10を参照して、本件の方法で抽出された単語の量はベースラインシステムのものよりかなり多く、標準中国語及び台湾語では10倍、日本語及び韓国語では30倍、タイ語では100倍に語彙サイズが増大した。さらに、調査した全ての言語について、言語学的ルールで得られた語彙よりも1.5から2.5倍、サイズが大きかった。平均語彙長さも、繰返しごとに増加し、10回の繰返し後に学習された翻訳単位の長さは、最初の繰返しの平均単語長さの約2倍であった。 Changes in vocabulary size and word length are summarized in FIGS. Referring to FIGS. 9 and 10, the amount of words extracted by this method is considerably larger than that of the baseline system, 10 times for Mandarin Chinese and Taiwanese, 30 times for Japanese and Korean, In words, the vocabulary size increased 100 times. In addition, all the languages studied were 1.5 to 2.5 times larger in size than the vocabulary obtained with linguistic rules. The average vocabulary length also increased with each iteration, and the length of translation units learned after 10 iterations was approximately twice the average word length of the first iteration.
この実施例に従った方法のオーバーフィッティングの問題は、語彙外の(out−of−vocabulary:OOV)単語の増加、すなわち遭遇していないデータセットに含まれるソース言語単語であってそれぞれのSMTでは翻訳できないものの増加、という形で示される。図11に与えられる結果は、最初の3回の繰返しについてOOV単語の大きな増加を示しており、この結果、図7及び図8にリストされるように、翻訳品質が下がっている。 The problem of overfitting of the method according to this example is that there is an increase in out-of-vocabulary (OOV) words, ie source language words that are included in a data set that has not been encountered, in each SMT. It is shown in the form of an increase in things that cannot be translated. The results given in FIG. 11 show a large increase in OOV words for the first three iterations, which results in reduced translation quality, as listed in FIGS.
図5及び図6は日本語−英語翻訳作業に種々のセグメント化スキームを用いた、いくつかの翻訳例を示す。図において、「REF」は人手によるセグメント化と対応の翻訳を示す。最良の翻訳を達成した繰返しには「*」の印を付す。図5に示す最初の例では、この実施例の方法による「もう真夜中」(already midnight)という連結がOOV単語となり、このため、部分的な翻訳しか達成できない。図6の上部に示す第2の例では、文の構造を正確に扱う第1回目の繰返しでの単語セグメント化を用いて最良の翻訳がなされており、一方この情報はベースラインシステム出力では省略されている。しかし、最初の文をさらに連結すると、同じOOVの問題が引起される。図6の下部分に示される第3の例では、より長いトークンが翻訳の複雑さを減じ、従ってより多くの多義性を引起す他のセグメント化に比べ、よりよい翻訳が可能であることを示す。 FIGS. 5 and 6 show several translation examples using various segmentation schemes for Japanese-English translation work. In the figure, “REF” indicates manual segmentation and corresponding translation. The repetition that achieves the best translation is marked with an “*”. In the first example shown in FIG. 5, the “already midnight” concatenation according to the method of this example becomes an OOV word, so that only partial translation can be achieved. In the second example shown at the top of FIG. 6, the best translation is done using word segmentation in the first iteration that correctly handles sentence structure, while this information is omitted in the baseline system output. Has been. However, further concatenation of the first sentence causes the same OOV problem. In the third example shown in the lower part of FIG. 6, it is shown that longer tokens reduce translation complexity and thus allow better translation compared to other segmentations that cause more ambiguity. Show.
図12を参照して、コンピュータシステム320はコンピュータ340と、全てコンピュータ340に接続された、モニタ342と、キーボード346と、マウス348とを含む。さらに、コンピュータ340はDVD(Digital Versatile Disc:ディジタル多用途ディスク)ドライブ350と、半導体メモリポート352と、を含む。
Referring to FIG. 12,
図13を参照して、コンピュータ340はさらに、DVDドライブ350及び半導体メモリポート352に接続されたバス366と、上述の装置を実現するコンピュータプログラムを実行するCPU(Central Processing Unit)356と、コンピュータ340のブートアッププログラムを記憶するROM(Read Only Memory)358と、CPU356によって用いられる作業領域及びCPU356によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)360と、バイリンガルコーパス30(図1を参照)及び他のデータを記憶するハードディスクドライブ(Hard Disk Drive:HDD)364と、を含む。
Referring to FIG. 13, the
コンピュータ340が翻訳トレーニング装置として用いられる場合、HDD364はSMTモジュールのためのプログラムをさらに記憶し、バイリンガルコーパスとテストセットとを記憶する。
When the
コンピュータ340はさらにバス366に接続されコンピュータ340をネットワーク382に接続するネットワークインターフェース(I/F)380を含む。
上述の実施例のシステムを実現するソフトウェアはDVD368又は半導体メモリ370等の記録媒体に記録されたオブジェクトコードの形で配布されてもよく、DVDドライブ350又は半導体メモリポート352等の読出装置によってコンピュータ340に提供され、HDD364に記憶されてもよい。CPU356がプログラムを実行する際には、プログラムはHDD364から読出され、RAM360に記憶される。CPU356内の図示しないプログラムカウンタから指定されるアドレスからCPU356に命令がフェッチされ実行される。CPU356はCPU356、RAM360又はHDD364内のレジスタから処理すべきデータを読出し、処理の結果をまたCPU356、RAM360又はHDD364内のレジスタに記憶する。
Software for realizing the system of the above-described embodiment may be distributed in the form of an object code recorded on a recording medium such as a
コンピュータシステム320の一般的な動作は公知であるので、その詳細はここでは説明しない。
Since the general operation of
ソフトウェア配布の方法については、必ずしも記憶媒体に固定されていなくてもよい。例えば、ソフトウェアは別のコンピュータからコンピュータ340にネットワーク382を介して送信されてもよい。ソフトウェアの一部をHDD364に記憶し、ソフトウェアの残りの部分をネットワークからHDD364に取込んで、実行の際に統合してもよい。
The software distribution method is not necessarily fixed to the storage medium. For example, software may be transmitted from another computer to
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(Operating System:OS)によって提供される機能を利用し、これらの機能を所望の目的に従って制御されたやり方で実行する。従って、これら機能を含まず、OSによって、又は第三者によって提供され、一般的機能の実行の順序の組合せのみを指定するのみのプログラムもまた、そのプログラムが全体として所望の目的を達成する制御構造を有するのであれば、この発明の範囲に含まれる。 Typically, modern computers utilize the functions provided by a computer operating system (OS) and perform these functions in a controlled manner according to the desired purpose. Therefore, a program that does not include these functions, is provided by the OS or by a third party, and only specifies a combination of execution order of general functions is also a control that achieves a desired purpose as a whole. Any structure is included in the scope of the present invention.
上述の実施例では、繰返しは評価結果が先行する繰返しの評価結果よりも悪いステップ148(図3を参照)で止まる。しかし、この発明はそのような実施例に限定されない。例えば、繰返しは、評価が先行する評価結果より高くないときに停止されてもよいし、一回の繰返しの評価結果に代えて、予め定められた繰返しの評価結果の移動平均を利用してもよい。 In the example described above, the iteration stops at step 148 (see FIG. 3) where the evaluation result is worse than the preceding evaluation result. However, the present invention is not limited to such an embodiment. For example, the repetition may be stopped when the evaluation is not higher than the preceding evaluation result, or a moving average of a predetermined repetition evaluation result may be used instead of the evaluation result of one repetition. Good.
さらに、バイリンガルコーパスのソース言語文の文字にタグ付けするためのME分類器は、MEでなく、統計的モデルを用いてもよい。SVM(Support Vector Machine)又は判断ツリーをMEに代えて用いてもよい。 Further, the ME classifier for tagging the characters of the source language sentence of the bilingual corpus may use a statistical model instead of the ME. An SVM (Support Vector Machine) or a decision tree may be used instead of the ME.
(結論)
この実施例は、現在のSMTシステムの性能を改良するために、意味のある単語単位を分離するのに空白文字を用いない文を、教師なしでセグメント化する、新たな言語に依存しない方法を提案する。提案の方法はソース言語について何ら言語学的情報必要とせず、これはしばしば形態素的分析ツールが利用できない比較的マイナーな言語の翻訳のためのSMTシステムを構築するのに重要である。加えて、開発費用は、バイリンガルコーパスの生成についてのみで、言語学的単語セグメント化ツールの開発、またはデータセットを人手でセグメント化するために人に支払う費用にくらべはるかに少ない。
(Conclusion)
This example provides a new language-independent method for unsupervised segmentation of sentences that do not use white space to separate meaningful word units to improve the performance of current SMT systems. suggest. The proposed method does not require any linguistic information about the source language, which is important in building an SMT system for translation of relatively minor languages, where morphological analysis tools are often not available. In addition, the development costs are only for the generation of a bilingual corpus, which is much less than the development of linguistic word segmentation tools, or the costs paid to people to manually segment a data set.
提案の方法の効果を、旅行会話の分野について5つのアジア系言語(日本語、韓国語、タイ語及び中国語(標準中国語、台湾語))を英語に翻訳して調査した。翻訳結果の自動評価は、文字分けされた入力文を翻訳するベースラインシステムと比較してBLEUで最大2.0ポイント、METEORで最大3.0ポイントの一貫した改良を示した。加えて、提案の方法は、何ら外部の情報なく、MEベースのセグメント化モデルをトレーニングするのに所与のバイリンガルコーパスを用いたのみで、言語学的に導かれたツールでセグメント化されたバイリンガルコーパスでトレーニングされたSMTモデルと同様の翻訳結果を達成した。 The effect of the proposed method was investigated by translating five Asian languages (Japanese, Korean, Thai and Chinese (Mandarin Chinese, Taiwanese)) into English in the field of travel conversation. Automatic evaluation of translation results showed a consistent improvement of up to 2.0 points for BLEU and up to 3.0 points for METEOR compared to a baseline system that translates character-separated input sentences. In addition, the proposed method uses only a given bilingual corpus to train the ME-based segmentation model without any external information, and is bilingual segmented with linguistically derived tools. Similar translation results were achieved with the SMT model trained on the corpus.
最初の単語セグメント化の生成の間にソース言語の文字種に特有の特徴を取扱うこと、さらにMEベースのタグ付けモデルのさらなる特徴量を特定することで、システムの性能をさらに改良できるであろう。さらに、繰返しブートストラップ法で学習される単語セグメント化スキームは互いに大きく異なる。従って、SMTデコード処理に異なるスキームを組み合わせることで、長い翻訳単位を用いる単語セグメント化スキームのオーバーフィッティングの問題を克服しシステムの性能を上げる大きな可能性がある。 By handling features specific to the source language character type during the initial word segmentation generation, and identifying additional features of the ME-based tagging model, the performance of the system could be further improved. Furthermore, the word segmentation schemes learned by the iterative bootstrap method are very different from each other. Therefore, combining different schemes with the SMT decoding process has the potential to overcome the overfitting problem of word segmentation schemes that use long translation units and improve system performance.
30 バイリンガルコーパス
32 ターゲット言語文
34 ソース言語文
36 ユニグラム分離器
40、50、60、80、90 SMT
42、52、63、82、92 評価結果
44、54、84 トークン−単語対応付け結果
46、56、76、86 ME分類器
48、58、78、80 セグメント化されたソース言語文
30
42, 52, 63, 82, 92
Claims (6)
翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第1の言語のソース言語文と第2の言語のターゲット言語文とを含み、前記ソース言語文の各々は、互いに区切りのない文字列から構成され、前記ターゲット言語文の各々の各単語は、互いに空白文字で区切られており、前記文分離器トレーニング装置はさらに
前記バイリンガルコーパス中の前記ソース言語文を予め定められた区切り文字によって文字ごとに分離してセグメント化するための文字ベースの第1の分離器と、
前記第1の言語と前記第2の言語の文の翻訳対を含むバイリンガルトレーニングコーパスを利用して統計的機械翻訳手段をトレーニングするための第1のトレーニング手段と、を含み、前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々について、前記ソース言語文中の、前記区切り文字により分離されたセグメントの各々を、前記ターゲット言語文中の単語のいずれかに対応付ける機能を持ち、
前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、
前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの翻訳対の各々について、ソース言語文中の連続する文字であって、ターゲット言語文中の同じ単語に対応付けられた複数の文字を1つの文字列に統合しながら、当該ソース言語文をセグメントに分離するよう前記ソース言語文の第2の分離器をトレーニングするための第2のトレーニング手段と、
前記バイリンガルコーパス中の前記ソース言語文を、前記第2のトレーニング手段によってトレーニングされた前記第2の分離器を利用してセグメントに分離し、セグメント境界に前記予め定められた区切り文字を挿入するためのセグメント化手段と、
前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段及び前記第2の分離器を、前記評価手段による評価の向上が見られなくなるまで繰返し動作するよう制御するための繰返し制御手段と、
前記繰返し制御手段の第1回目の繰返しに、前記文字ベースの第1の分離器によってセグメント化されたソース言語文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第2の分離器によってセグメント化された前記ソース言語文を有する前記バイリンガルコーパスを選択し、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第1のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせるための選択手段とをさらに含み、
前記繰返し制御手段の制御による繰り返しが終了する時点までに得られた前記第2の分離器のうちで前記評価手段による評価が最も高かったものをトレーニング済の文分離器として出力する、文分離器トレーニング装置。 A sentence separator training device for training a preselected first language sentence separator,
Means for storing a bilingual corpus of translation pairs, each of the translation pairs including a source language sentence of the first language and a target language sentence of a second language, each of the source language sentences The target language sentence is composed of non-delimited character strings, each word of the target language sentence is separated from each other by a space character, and the sentence separator training device further defines the source language sentence in the bilingual corpus in advance. A character-based first separator for separating and segmenting each character by a delimiter;
First statistical training means for training statistical machine translation means using a bilingual training corpus including translation pairs of sentences of the first language and the second language, the statistical machine translation means for each of the translation pairs in the bilingual training corpus during the training, the source language sentence, each segment separated by the delimiters, Ru correspondence to one of the words of the target language sentence It has a function
An evaluation means for evaluating the performance of the statistical machine translation means trained by the training means;
Using the result of the association by the statistical machine translation means , for each translation pair of the bilingual corpus, a plurality of consecutive characters in the source language sentence that are associated with the same word in the target language sentence A second training means for training a second separator of the source language sentence to separate the source language sentence into segments while integrating the characters into one string ;
Separating the source language sentence in the bilingual corpus into segments using the second separator trained by the second training means, and inserting the predetermined delimiter at a segment boundary Segmentation means of
The first training means, said evaluating means, wherein the second training means and the second separator, repetitive control for controlling so as to repeatedly operate until the a no observed improvement in the evaluation by the evaluation unit Means,
In the first iteration of the iteration control means, select the bilingual corpus that includes the source language sentence segmented by the character-based first separator, and in subsequent iterations segment by the second separator Selecting the bilingual corpus having the source language sentence that has been converted, and using the selected bilingual corpus as the bilingual training corpus to cause the first training means to train the statistical machine translation means further look at containing and means,
A sentence separator that outputs, as a trained sentence separator, the second separator obtained by the evaluation by the evaluation means among the second separators obtained by the time when the repetition by the control of the repetition control means ends . Training device.
前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース言語文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、
前記バイリンガルコーパスの前記ソース言語文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース言語文の対象の文字の前記注釈を含むコンテキストを反映し、さらに
前記第2の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース言語文中の文字が単語の終端であるか否かの確率を推定するのに用いられる、請求項1に記載の文分離器トレーニング装置。 The second training means includes
Annotating each character in the source language sentence of the bilingual corpus using the result of the association by the statistical machine translation means, and an annotation indicating whether each character is the end of a word Means for granting to,
Means for extracting a predetermined feature amount set of each character in the source language sentence of the bilingual corpus, wherein the predetermined feature amount set includes the annotation of the target character of the source language sentence. reflecting the context containing, by further wherein the probability models used in the second separator comprises a means for training the probabilistic model statistical analysis of the set of the feature amount extracted by said extraction means, The sentence separator training device according to claim 1, wherein the sentence separator training apparatus is used to estimate a probability that a character in a source language sentence is an end of a word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009273137A JP5565827B2 (en) | 2009-12-01 | 2009-12-01 | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009273137A JP5565827B2 (en) | 2009-12-01 | 2009-12-01 | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011118496A JP2011118496A (en) | 2011-06-16 |
JP5565827B2 true JP5565827B2 (en) | 2014-08-06 |
Family
ID=44283776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009273137A Expired - Fee Related JP5565827B2 (en) | 2009-12-01 | 2009-12-01 | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5565827B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239294B (en) * | 2014-09-10 | 2017-06-06 | 华建宇通科技(北京)有限责任公司 | Hide the how tactful Tibetan language long sentence cutting method of Chinese translation system |
US9348809B1 (en) * | 2015-02-02 | 2016-05-24 | Linkedin Corporation | Modifying a tokenizer based on pseudo data for natural language processing |
JP7106902B2 (en) | 2018-03-13 | 2022-07-27 | 富士通株式会社 | Learning program, learning method and learning device |
CN110874536B (en) * | 2018-08-29 | 2023-06-27 | 阿里巴巴集团控股有限公司 | Corpus quality evaluation model generation method and double-sentence pair inter-translation quality evaluation method |
US11966699B2 (en) | 2021-06-17 | 2024-04-23 | International Business Machines Corporation | Intent classification using non-correlated features |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001505330A (en) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | Method and apparatus for providing word breaks in a text stream |
JP2001249922A (en) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | Word division system and device |
JP3919771B2 (en) * | 2003-09-09 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | Machine translation system, control device thereof, and computer program |
JP2006127405A (en) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | Method for carrying out alignment of bilingual parallel text and executable program in computer |
JP2008140117A (en) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | Apparatus for segmenting chinese character sequence to chinese word sequence |
-
2009
- 2009-12-01 JP JP2009273137A patent/JP5565827B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011118496A (en) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10025778B2 (en) | Training markov random field-based translation models using gradient ascent | |
US20090326916A1 (en) | Unsupervised chinese word segmentation for statistical machine translation | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
WO2010046782A2 (en) | Hybrid machine translation | |
Zitouni et al. | Arabic diacritic restoration approach based on maximum entropy models | |
Antony et al. | Machine transliteration for indian languages: A literature survey | |
Bar-Haim et al. | Part-of-speech tagging of Modern Hebrew text | |
JP5565827B2 (en) | A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium. | |
Nguyen et al. | Adaptive edit-distance and regression approach for post-OCR text correction | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
Paul et al. | Integration of multiple bilingually-trained segmentation schemes into statistical machine translation | |
JP5500636B2 (en) | Phrase table generator and computer program therefor | |
Haertel et al. | Automatic diacritization for low-resource languages using a hybrid word and consonant CMM | |
Mager et al. | Low-resource neural character-based noisy text normalization | |
Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
Van Den Bosch et al. | A memory-based classification approach to marker-based EBMT | |
Chang et al. | Unsupervised constraint driven learning for transliteration discovery | |
Fukunishi et al. | A bayesian alignment approach to transliteration mining | |
JP5454763B2 (en) | Device for associating words in a sentence pair and computer program therefor | |
JP4829702B2 (en) | Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof | |
Kaur | Development of an approach for disambiguating ambiguous Hindi postposition | |
Qafmolla | Automatic language identification | |
JP4113204B2 (en) | Machine translation apparatus, method and program thereof | |
Finch et al. | A bayesian model of transliteration and its human evaluation when integrated into a machine translation system | |
Naseer et al. | Supervised word sense disambiguation for Urdu using Bayesian classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140527 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5565827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |