JP2008015844A - Mechanical translation device, mechanical translation method, generation rule forming device, generation rule forming method, and programs and recording media therefor - Google Patents

Mechanical translation device, mechanical translation method, generation rule forming device, generation rule forming method, and programs and recording media therefor Download PDF

Info

Publication number
JP2008015844A
JP2008015844A JP2006187240A JP2006187240A JP2008015844A JP 2008015844 A JP2008015844 A JP 2008015844A JP 2006187240 A JP2006187240 A JP 2006187240A JP 2006187240 A JP2006187240 A JP 2006187240A JP 2008015844 A JP2008015844 A JP 2008015844A
Authority
JP
Japan
Prior art keywords
word
translation
generation rule
hypothesis
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006187240A
Other languages
Japanese (ja)
Other versions
JP4829702B2 (en
Inventor
Hajime Tsukada
元 塚田
Taro Watanabe
太郎 渡辺
Hideki Isozaki
秀樹 磯崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006187240A priority Critical patent/JP4829702B2/en
Publication of JP2008015844A publication Critical patent/JP2008015844A/en
Application granted granted Critical
Publication of JP4829702B2 publication Critical patent/JP4829702B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a mechanical translation technique capable of improving translation accuracy. <P>SOLUTION: The mechanical translation device 2 comprises a generation rule searching means 241 for searching a generation rule to a partial hypothesis from a rule table 114 storing generation rules restricted so that the symbol string of a translation destination language of the right side of a generation rule in synchronous context free grammar starts from a terminal symbol; a generation rule with word range generation means 242 for adding a word range showing the range of an input sentence covered by non-terminal symbols of the generation rule to the generation rule; a partial hypothesis score calculation means 243 for forming a translated word and a word range contained in the generation rule with word range as a new partial hypothesis, and successively extending the new partial hypothesis in the arrangement order of non-terminal symbols on the translation destination language side of the generation rule from the beginning to the end of the sentence by applying the generation rule from top to down to calculate partial hypothesis scores; and a hypothesis search means 244 for searching a hypothesis with maximum partial hypothesis score of applicable hypotheses. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体に関する。   The present invention relates to a machine translation device, a machine translation method, a production rule creation device, a production rule creation method, a program thereof, and a recording medium.

従来、統計モデルを用いて機械翻訳を実現する技術(統計的機械翻訳)が知られている(例えば、非特許文献1〜4)。
統計的機械翻訳は、翻訳元言語の単語列(文)が与えられたとき、翻訳確率を最大化するような翻訳先言語の単語列(文)を探索する問題として定式化される。ここで、翻訳確率を対数線形モデルで表現すると、最終的に統計的機械翻訳は式(1)で定式化される。
Conventionally, techniques (statistical machine translation) for realizing machine translation using a statistical model are known (for example, Non-Patent Documents 1 to 4).
Statistical machine translation is formulated as a problem of searching for a target language word string (sentence) that maximizes the translation probability when a source language word string (sentence) is given. Here, when the translation probability is expressed by a logarithmic linear model, statistical machine translation is finally formulated by Equation (1).

Figure 2008015844
Figure 2008015844

ここで、翻訳元言語の単語列には、各単語位置に整数「1」〜「J」の識別符号が付与されている。すなわち、翻訳元言語の単語列は、「J」個の単語から構成される。なお、翻訳元言語が日本語の場合には、翻訳元言語の単語列は、「J」個の自立語、付属語、句読点(。、)から構成されることとなる。また、翻訳先言語の単語列には、各単語位置に整数「1」〜「I」の識別符号が付与されている。すなわち、翻訳先言語の単語列は、「I」個の単語から構成される。また、m(1≦m≦M)は、素性関数を識別するための整数を示し、Mは、素性関数の個数を示す。また、各素性関数は、翻訳としての確からしさを表すものや、翻訳先言語としての確からしさを表すもの等である。単語列集合Eは、翻訳先言語の単語のあらゆる組み合わせで生成可能なすべての単語列集合を表す。各素性重みλmは、誤り最小化学習法等を用いて素性重み学習用対訳コーパスにおける翻訳精度の値が最大になるように設定される(例えば、非特許文献1参照)。 Here, an identification code of integers “1” to “J” is assigned to each word position in the word string of the translation source language. That is, the word string in the source language is composed of “J” words. When the translation source language is Japanese, the translation source language word string is composed of “J” independent words, attached words, and punctuation marks (.,). Also, in the word string of the translation destination language, identification codes of integers “1” to “I” are assigned to the respective word positions. That is, the word string in the translation target language is composed of “I” words. M (1 ≦ m ≦ M) represents an integer for identifying a feature function, and M represents the number of feature functions. Each feature function represents a certainty as a translation, a certain one as a translation target language, or the like. The word string set E represents all word string sets that can be generated by any combination of words in the translation target language. Each feature weight λ m is set such that the translation accuracy value in the feature weight learning parallel translation corpus is maximized by using an error minimization learning method or the like (see, for example, Non-Patent Document 1).

翻訳元言語の文から翻訳先言語の文への翻訳に対して、重み付き同期文脈自由文法(weighted synchronous context-free grammar)を利用して、翻訳元言語の文と翻訳先言語の文との対応付けをモデル化する方法が知られている(例えば、非特許文献2参照)。
重み付き同期文脈自由文法は、式(2)に示す生成規則に、重みが付いたものの集合からなるものである。
For translation from a source language sentence to a destination language sentence, a weighted synchronous context-free grammar is used to determine whether the source language sentence and the destination language sentence are A method for modeling the association is known (for example, see Non-Patent Document 2).
The weighted synchronization context free grammar is composed of a set of weighted generation rules shown in Expression (2).

Figure 2008015844
Figure 2008015844

ここで、矢印の左辺のXは、非終端記号を示す。矢印の右辺のγは、終端記号または非終端記号から構成された記号列であって翻訳元言語に対応している。また、αは、終端記号または非終端記号から構成された記号列であって翻訳先言語に対応している。また、「〜」は、記号列γに含まれる非終端記号と、記号列αに含まれる非終端記号との一対一の対応関係を表している。ここでは、記号列γに含まれる非終端記号の個数と、記号列αに含まれる非終端記号の個数とは同じものとする。   Here, X on the left side of the arrow indicates a non-terminal symbol. Γ on the right side of the arrow is a symbol string composed of terminal symbols or non-terminal symbols and corresponds to the source language. Α is a symbol string composed of a terminal symbol or a non-terminal symbol, and corresponds to the language to be translated. “˜” represents a one-to-one correspondence between a non-terminal symbol included in the symbol string γ and a non-terminal symbol included in the symbol string α. Here, it is assumed that the number of non-terminal symbols included in the symbol string γ is the same as the number of non-terminal symbols included in the symbol string α.

式(2)に示した生成規則の具体例を表1に示す。ここで、X(k)は、非終端記号であり、k(k=1,2,…)は、翻訳元言語の非終端記号の配置と、翻訳先言語の非終端記号の配置との対応関係を示している。 Table 1 shows a specific example of the generation rule shown in Expression (2). Here, X (k) is a non-terminal symbol, and k (k = 1, 2,...) Indicates the correspondence between the arrangement of the non-terminal symbol in the source language and the arrangement of the non-terminal symbol in the target language. ing.

Figure 2008015844
Figure 2008015844

非特許文献2に記載された方法の特殊な形として、式(3)に示す形式の生成規則だけを用いた方法も知られている(非特許文献3参照)。非特許文献3に記載された方法は、句単位で統計的機械翻訳を行うものであり、フレーズペアに基づく翻訳方法である。この方法では、抽出されたフレーズペアの集合から同期文脈自由文法を生成する際に、式(3)に示す形式の生成規則だけ用いる。この生成規則の形式に依存して解探索を行う場合には、効率的なビームサーチの手法が利用可能である(非特許文献4参照)。非特許文献4に記載の方法では、解探索において、翻訳された単語範囲を、翻訳済みの単語の位置をマークしたビット列で表現してメモリに保持している。   As a special form of the method described in Non-Patent Document 2, a method using only a generation rule of the form shown in Expression (3) is also known (see Non-Patent Document 3). The method described in Non-Patent Document 3 performs statistical machine translation in phrase units, and is a translation method based on phrase pairs. In this method, when generating a synchronous context free grammar from a set of extracted phrase pairs, only a generation rule of the form shown in Expression (3) is used. When performing a solution search depending on the form of this generation rule, an efficient beam search technique can be used (see Non-Patent Document 4). In the method described in Non-Patent Document 4, in the solution search, the translated word range is expressed by a bit string in which the position of the translated word is marked and held in the memory.

Figure 2008015844
Figure 2008015844

重み付き同期文脈自由文法を利用した従来のモデル化では、重み付き同期文脈自由文法の導出Dを用いて、翻訳元言語の単語列と翻訳先言語の単語列とをそれぞれf(D)、e(D)と記述する。ここで、例えば、翻訳元言語の単語列f(D)の「i」番目の単語から「j」番目単語を被う生成規則をrとすると、導出Dは、三つ組<r,i,j>の集合で表される。   In the conventional modeling using the weighted synchronous context free grammar, the derivation D of the weighted synchronous context free grammar is used to convert the word string of the source language and the word string of the target language into f (D) and e, respectively. (D) is described. Here, for example, if the generation rule covering the “j” -th word from the “i” -th word in the word string f (D) of the translation source language is r, the derivation D is a triple <r, i, j>. It is represented by a set of

そして、非特許文献2のモデル化では、統計的機械翻訳を定式化した式(1)を導出ベースに修正した式(4)を用いる。この定式化では、翻訳元言語の単語列が与えられたとき、素性関数と素性重みとの積の線形和が最大となるような導出D^を求めたときに、それに対応するe(D^)が翻訳結果となる。ここで、記号「^(ハット)」は、文字「D」の上に付される記号を示し、本明細書では、以下、記号「^(ハット)」を同様な意味で使用する。   In the modeling of Non-Patent Document 2, Formula (4) obtained by modifying Formula (1) formulated from statistical machine translation to a derivation base is used. In this formulation, when a translation source language word string is given, a derivation D ^ that maximizes the linear sum of the product of the feature function and the feature weight is obtained, and the corresponding e (D ^ ) Is the translation result. Here, the symbol “^ (hat)” indicates a symbol added on the letter “D”, and the symbol “^ (hat)” is used in the same meaning hereinafter.

Figure 2008015844
Figure 2008015844

式(4)に示す各素性関数の値hm(D)に何を用いるかについては様々なバリエーションが考えられる。例えば、以下の6つの関数の値の自然対数loge(以下、lnと表記する)を用いる場合がある(例えば、非特許文献3参照)。これら6つの関数の値とは、式(5)に示す翻訳確率Pe|f(D),Pf|e(D)と、式(6)に示すレキシカル重みLexe|f(D),Lexf|e(D)と、n-gram言語モデルの確率PLM(e(D))と、フレーズペナルテイexp(length(e(D)))である。ここで、length(・)は、単語数を返す関数を示す。 Various variations can be considered as to what is used for the value h m (D) of each feature function shown in Expression (4). For example, the natural logarithm log e (hereinafter referred to as ln) of the following six function values may be used (for example, see Non-Patent Document 3). The values of these six functions are the translation probabilities P e | f (D) and P f | e (D) shown in Equation (5), and the lexical weight Lex e | f (D), Lex f | e (D), n-gram language model probability P LM (e (D)), and phrase penalty exp (length (e (D))). Here, length (·) indicates a function that returns the number of words.

Figure 2008015844
Figure 2008015844
Figure 2008015844
Figure 2008015844

翻訳確率Pe|f(D),Pf|e(D)と、レキシカル重みLexe|f(D),Lexf|e(D)とは、翻訳としての確からしさを評価するための値であり、翻訳モデルとも呼ばれている。詳細には、例えば、翻訳確率Pe|f(D)は、式(5)に示すように、導出Dに含まれる生成規則rごとの確率P(α|γ)を生成規則ごとのスコアとして、導出Dに含まれるすべての生成規則rについて生成規則ごとのスコアを積算したものである。 The translation probabilities P e | f (D), P f | e (D) and the lexical weights Lex e | f (D), Lex f | e (D) are values for evaluating the likelihood of translation. It is also called a translation model. Specifically, for example, the translation probability P e | f (D) is obtained by using the probability P (α | γ) for each production rule r included in the derivation D as the score for each production rule, as shown in Expression (5). , The scores for each production rule are integrated for all production rules r included in derivation D.

例えば、非特許文献2に記載された方法では、翻訳における解探索を次の手順で行う。
まず、CKY(Cocke-Kasami-Younger)法に基づくボトムアップ構文解析において、同期文脈自由文法の翻訳元言語側の生成規則を、翻訳元言語の単語列に適用し、翻訳元言語の構文解析木を得る。そして、翻訳元言語の構文解析木に対応する同期文脈自由文法の最適な導出D^を、前記した式(4)に基づいて求め、その最適な導出D^に基づいて翻訳先言語の単語列を生成する。ただし、統計的機械翻訳の解探索において解の候補(以下、仮説と呼ぶ)は膨大であるため、計算量の観点から、全探索をして真の最適解を求めることは事実上不可能となっている。そこで、従来、解探索の過程で部分的に構成された、同期文脈自由文法の部分木の導出Dに対して所定の枝刈りを実行しながら処理をすすめて準最適解を求めることとしている。
Franz Josef Och. Minimum error rate training in statistical machine translation. In Proc.of ACL 2003、p. 160-167、Sapporo、Japan、July 2003 David Chiang. A hierarchical phrase-based model for statistical machine translation. In Proc. of ACL 2005, p. 263-270, Ann Arbor, Michigan, June 2005 Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation. In Proc. of NAACL 2003, p. 48-54、Edmonton, Canada, 2003 Philipp Koehn. Pharaoh: A beam search decoder for phrase-based statistical machine translation models. In Proc. of the 6th Conference of the Association for Machine Translation in the Americas(AMTA), p. l15-124, September-October 2004
For example, in the method described in Non-Patent Document 2, a solution search in translation is performed according to the following procedure.
First, in bottom-up syntax analysis based on the CKY (Cocke-Kasami-Younger) method, the generation rules on the source language side of the synchronous context free grammar are applied to the source language word strings, and the source language syntax analysis tree Get. Then, an optimum derivation D ^ of the synchronous context free grammar corresponding to the parse tree of the source language is obtained based on the above-described equation (4), and the word string of the translation destination language is obtained based on the optimum derivation D ^. Is generated. However, since there are a large number of solution candidates (hereinafter referred to as hypotheses) in the statistical machine translation solution search, it is virtually impossible to perform a full search to find the true optimal solution from the viewpoint of computational complexity. It has become. Therefore, conventionally, a sub-optimal solution is obtained by performing processing while executing predetermined pruning on the derivation D of the subtree of the synchronous context free grammar partially configured in the solution search process.
Franz Josef Och. Minimum error rate training in statistical machine translation.In Proc.of ACL 2003, p. 160-167, Sapporo, Japan, July 2003 David Chiang. A hierarchical phrase-based model for statistical machine translation. In Proc. Of ACL 2005, p. 263-270, Ann Arbor, Michigan, June 2005 Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation.In Proc. Of NAACL 2003, p. 48-54, Edmonton, Canada, 2003 Philipp Koehn. Pharaoh: A beam search decoder for phrase-based statistical machine translation models.In Proc. Of the 6th Conference of the Association for Machine Translation in the Americas (AMTA), p. L15-124, September-October 2004

統計的機械翻訳の解探索において、副作用の少ない枝刈りを実現するためには、前記した式(4)に示される導出Dの仮説の尤度を正確に見積もることが必要である。その際に、翻訳精度を向上させるために、素性関数の1つとして、翻訳先言語のn-gram言語モデルを用いることが重要である。そのため、仮説のもととなる部分仮説のスコアとして、n-gram言語モデルのスコアを有効利用するためには、翻訳先言語の文頭から文末にかけて逐次的に生成されることが望まれる。しかしながら、従来の方法では、部分仮説が翻訳先言語の文頭からの文末にかけて逐次的に生成されることが保証されていなかった。   In the solution search of statistical machine translation, in order to realize pruning with few side effects, it is necessary to accurately estimate the likelihood of the hypothesis of the derived D shown in the above equation (4). At that time, in order to improve the translation accuracy, it is important to use the n-gram language model of the translation destination language as one of the feature functions. Therefore, in order to effectively use the score of the n-gram language model as the score of the partial hypothesis that is the basis of the hypothesis, it is desired that the score is generated sequentially from the beginning of the translated language to the end of the sentence. However, in the conventional method, it is not guaranteed that the partial hypotheses are sequentially generated from the beginning of the translated language to the end of the sentence.

そこで、本発明では、前記した問題を解決し、翻訳精度を向上させることのできる機械翻訳技術を提供することを目的とする。   Therefore, an object of the present invention is to provide a machine translation technique that can solve the above-described problems and improve translation accuracy.

前記課題を解決するため、請求項1に記載の機械翻訳装置は、同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置であって、前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索手段と、前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成手段と、前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を順次拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出手段と、前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索手段とを備えることを特徴とする。   In order to solve the above problem, the machine translation device according to claim 1, wherein the translation destination language on the right side of a generation rule that generates a word string of the translation destination language from a word string of the translation source language using a synchronous context free grammar Using a rule table that stores a plurality of generation rules generated so that the symbol string of a symbol starts with a terminal symbol, the translation target language corresponding to the input that is the translation result of the word string of the input source language is input. A machine translation device that outputs a hypothesis that is a partial hypothesis that is finally generated by sequentially creating a new partial hypothesis from a predetermined partial hypothesis as a word string and extending the predetermined partial hypothesis. A generation rule search means for searching the rule table for a generation rule applicable for extending the predetermined partial hypothesis, and a translation source language side of the searched generation rule A word range indicating a range of the word string of the source language covered by the non-terminal symbol of the searched generation rule based on the number of words and the word position of the words constituting the input word string of the source language. In addition, a generation rule generation unit with a word range for generating each applicable generation rule with a word range, a translated word on the translation target language side included in the generated generation rule with a word range, and the word range As the new partial hypothesis, and the applicable generation rule is applied in a top-down manner, and the non-terminal symbols on the translation target language side are arranged from the beginning to the end of the sentence in the applicable generation rule. Then, the new partial hypothesis is sequentially expanded to obtain a translation model score representing the likelihood of translation and a word string of the translation target language, which are obtained in advance for each of the generation rules. A partial hypothesis score calculating means for calculating a partial hypothesis score indicating an evaluation value of the created partial hypothesis based on a score of a language model representing the certainty of the input, and a word string of the input source language Search for a predetermined partial hypothesis that can be applied and expand the predetermined partial hypothesis to search for a partial hypothesis finally having the maximum partial hypothesis score as the hypothesis. And a hypothesis search means.

また、請求項2に記載の機械翻訳方法は、同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置の機械翻訳方法であって、前記機械翻訳装置は、前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索ステップと、前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成ステップと、前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を順次拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出ステップと、前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索ステップとを有することを特徴とする。   Further, in the machine translation method according to claim 2, the symbol string of the translation destination language on the right side of the generation rule for generating the translation target language word string from the translation source language word string using the synchronous context free grammar is terminated. Using a rule table storing a plurality of generation rules generated so as to start with a symbol, a translation target language word string corresponding to the input, which is a translation result of the input source language word string, is predetermined. This is a machine translation method of a machine translation device that outputs a hypothesis that is a partial hypothesis finally generated by sequentially creating a new partial hypothesis from the partial hypotheses and extending the predetermined partial hypothesis. Then, the machine translation device searches the rule table for a generation rule applicable for extending the predetermined partial hypothesis, respectively, and a search for the searched generation rule. The source language word covered by the non-terminal symbol of the searched generation rule based on the number of words constituting the input source language word string and the word position on the source language side A generation rule generation step with a word range that adds a word range indicating the range of the column and generates an applicable generation rule with a word range, and a translation-side language side included in the generated generation rule with a word range The translated word and the word range are created as the new partial hypothesis, and the applicable generation rule is applied top-down, and the non-terminal symbol on the translation destination language side is applied from the beginning of the sentence in the applicable generation rule The new partial hypotheses are sequentially expanded in the order in which they are arranged at the end of the sentence, and a translation model score representing the certainty of the translation obtained in advance for each of the generation rules, and the previous A partial hypothesis score calculating step for calculating a partial hypothesis score indicating an evaluation value of the created partial hypothesis based on a score of a language model representing the probability as a word string of a translation target language; and the input translation Search for a predetermined partial hypothesis applicable to a word string in the original language, and among the partial hypotheses finally generated by extending the predetermined partial hypothesis, a portion having the maximum partial hypothesis score A hypothesis searching step for searching for a hypothesis as the hypothesis.

請求項1に記載の機械翻訳装置または請求項2に記載の機械翻訳方法によれば、生成規則の右辺の翻訳先言語の記号列が終端記号から始まっているので、機械翻訳装置は、終端記号、すなわち、翻訳先の単語から始まる部分仮説を生成することができる。したがって、機械翻訳装置は、入力された翻訳元言語の単語列において未翻訳の部分に対して部分仮説を順次拡張するように、生成規則をトップダウンに展開し、翻訳先言語側の非終端記号の並ぶ順序で部分仮説を作成することにより、入力に対応する翻訳先言語の単語列の候補としての仮説を、翻訳先言語の文頭から文末にかけて逐次的に生成することができる。また、機械翻訳装置は、生成規則ごとの翻訳モデルおよび言語モデルに基づいて、各部分仮説の評価値である部分仮説スコアを算出し、部分仮説スコアが最大となる部分仮説を仮説として探索する。したがって、翻訳先言語の単語列の翻訳精度を向上させることができる。また、機械翻訳装置は、部分仮説を翻訳先言語の文頭から文末にかけて逐次的に生成するので、比較的長いn-gram言語モデルに対しても読み出し易くなる。そのため、比較的長いn-gram言語モデルを採用することにより、それに応じた翻訳性能の向上を図ることが可能となる。さらに、部分仮説を翻訳先言語の文頭から文末にかけて逐次的に生成するため、所定のしきい値を定めておくことにより枝刈りを効果的に実行し、解探索空間を低減することも可能となる。   According to the machine translation device according to claim 1 or the machine translation method according to claim 2, since the symbol string of the translation target language on the right side of the generation rule starts with a terminal symbol, the machine translation device That is, a partial hypothesis starting from a translated word can be generated. Therefore, the machine translation device expands the generation rules from the top down so that the partial hypotheses are sequentially expanded with respect to the untranslated portion in the word string of the input source language, and the non-terminal symbol of the destination language side is expanded. By creating partial hypotheses in the order in which they are arranged, hypotheses as candidates for translation target language word strings corresponding to input can be sequentially generated from the beginning of the translation destination language to the end of the sentence. Further, the machine translation device calculates a partial hypothesis score that is an evaluation value of each partial hypothesis based on the translation model and language model for each generation rule, and searches for a partial hypothesis having the maximum partial hypothesis score as a hypothesis. Therefore, the translation accuracy of the word string in the translation destination language can be improved. In addition, since the machine translation apparatus sequentially generates partial hypotheses from the beginning of the translation target language to the end of the sentence, it is easy to read even a relatively long n-gram language model. Therefore, by adopting a relatively long n-gram language model, it becomes possible to improve the translation performance accordingly. Furthermore, since partial hypotheses are generated sequentially from the beginning of the translation target language to the end of the sentence, it is possible to effectively execute pruning by setting a predetermined threshold value and reduce the solution search space. Become.

また、請求項3に記載の生成規則作成装置は、請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置であって、翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出手段と、前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成手段とを備えることを特徴とする。   A production rule creation device according to claim 3 is a production rule creation device for creating a production rule used in the machine translation device according to claim 1, wherein a word in the translation source language and a word in the translation destination language From the combination stored in the bilingual corpus having a plurality of combinations of the source language word sequence and the translation destination language word sequence having the same meaning, the translation source language and the translation destination language A phrase pair extraction means for extracting a combination of words or phrases having the same meaning as a phrase pair, and a symbol string of the translation target language on the right side in the generation rule of the synchronous context free grammar based on the extracted phrase pair Generation rule creating means for creating a production rule to which a restriction is added that starts with a terminal symbol.

また、請求項4に記載の生成規則作成方法は、請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置の生成規則作成方法であって、前記生成規則作成装置は、翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出ステップと、前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成ステップとを有することを特徴とする。   A production rule creation method according to claim 4 is a production rule creation method of a production rule creation device for creating a production rule used in the machine translation device according to claim 1, wherein the production rule creation device includes: The translation corpus includes a plurality of combinations of a source language word sequence and a target language word sequence having the same meaning based on a word correspondence between a source language word and a target language word. A phrase pair extraction step for extracting a combination of words or phrases having the same meaning in the translation source language and the translation destination language as a phrase pair from a combination; and generation of a synchronous context free grammar based on the extracted phrase pair And a generation rule creating step for creating a generation rule to which a restriction that the symbol string of the translation target language on the right side starts with a terminal symbol is added. The features.

請求項3に記載の生成規則作成装置または請求項4に記載の生成規則作成方法によれば、生成規則作成装置は、同期文脈自由文法の生成規則に対して、右辺の翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する。このように生成規則における翻訳先言語側に制約を加えることにより、作成された生成規則を用いて仮説探索を行う際に、翻訳元言語よりも翻訳先言語を優先した構文木を構築することを容易に行えるようになる。   According to the production rule creation device according to claim 3 or the production rule creation method according to claim 4, the production rule creation device generates a symbol string of the translation destination language on the right side with respect to the production rule of the synchronization context free grammar. Create a production rule with the constraint that starts with a terminal symbol. In this way, by constraining the destination language side in the generation rule, when searching for hypotheses using the generated generation rule, it is possible to construct a syntax tree that prioritizes the destination language over the source language. It becomes easy to do.

また、請求項5に記載の機械翻訳プログラムは、請求項2に記載の機械翻訳方法をコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。   The machine translation program according to claim 5 causes a computer to execute the machine translation method according to claim 2. By being configured in this way, a computer in which this program is installed can realize each function based on this program.

また、請求項6に記載の生成規則作成プログラムは、請求項4に記載の生成規則作成方法をコンピュータに実行させることを特徴とする。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。   According to a sixth aspect of the present invention, there is provided a production rule creation program that causes a computer to execute the production rule creation method according to the fourth aspect. By being configured in this way, a computer in which this program is installed can realize each function based on this program.

また、請求項7に記載のコンピュータ読み取り可能な記録媒体は、請求項5に記載の機械翻訳プログラムまたは請求項6に記載の生成規則作成プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。   A computer-readable recording medium according to claim 7 is recorded with the machine translation program according to claim 5 or the generation rule creation program according to claim 6. By being configured in this way, a computer equipped with this recording medium can realize each function based on a program recorded on this recording medium.

本発明によれば、翻訳精度を向上させることが可能となる。   According to the present invention, translation accuracy can be improved.

以下、図面を参照して本発明の機械翻訳装置および機械翻訳方法、並びに、生成規則作成装置および生成規則作成方法を実施するための最良の形態(以下「実施形態」という)について詳細に説明する。以下では、生成規則作成装置および生成規則作成方法と、機械翻訳装置および機械翻訳方法とに分けて順次説明を行う。   The best mode for carrying out a machine translation device and a machine translation method, and a production rule creation device and a production rule creation method according to the present invention will be described in detail below with reference to the drawings. . Hereinafter, the production rule creation device and the production rule creation method, and the machine translation device and the machine translation method will be described in order.

[生成規則作成装置の構成]
図1は、本発明の実施形態に係る生成規則作成装置の構成を示す機能ブロック図である。
生成規則作成装置1は、翻訳元言語の単語列を翻訳先言語の単語列に機械的に翻訳する機械翻訳装置で利用する生成規則を作成するものである。以下では、翻訳元言語を日本語、翻訳先言語を英語として説明することとする。
生成規則作成装置1は、例えば、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、ROM(Read Only Memory)と、HDD(Hard Disk Drive)と、入出力インタフェース等から構成され、図1に示すように、入出力手段10と、記憶手段11と、単語対応作成モジュール12と、制御手段13とを備えている。
[Configuration of generation rule creation device]
FIG. 1 is a functional block diagram showing a configuration of a production rule creation device according to an embodiment of the present invention.
The generation rule creation device 1 creates a generation rule used in a machine translation device that mechanically translates a word string in a translation source language into a word string in a translation destination language. In the following description, it is assumed that the source language is Japanese and the target language is English.
The generation rule creation device 1 is composed of, for example, a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), an input / output interface, and the like. As shown in FIG. 1, input / output means 10, storage means 11, word correspondence creation module 12, and control means 13 are provided.

入出力手段10は、対訳コーパス150を単語対応作成モジュール12に入力したり、演算処理の結果や記憶手段11に記憶されたデータ等を出力装置Dに出力したりするものである。また、入出力手段10は、入力装置Kから、所定のコマンド(モード選択コマンドや動作コマンド等)を制御手段13に入力する。本実施形態では、モード選択コマンドは、「単語対応作成」モードを選択するコマンドと、「ルールテーブル作成」モードを選択するコマンドとを含む。
対訳コーパス150は、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せのデータを複数備える。
The input / output means 10 inputs the bilingual corpus 150 to the word correspondence creation module 12 and outputs the result of the arithmetic processing, data stored in the storage means 11, and the like to the output device D. The input / output unit 10 inputs a predetermined command (such as a mode selection command or an operation command) from the input device K to the control unit 13. In the present embodiment, the mode selection command includes a command for selecting the “word correspondence creation” mode and a command for selecting the “rule table creation” mode.
The bilingual corpus 150 includes a plurality of data of combinations of translation source language word strings and translation destination language word strings having the same meaning.

記憶手段11は、例えば、CPUによる演算処理等に利用されるRAMや、例えば、所定のプログラム、各種データベース、処理結果等を格納するROMやHDDを備えている。例えば、記憶手段11には、処理結果として、単語対応111と、フレーズペア112と、ルール113と、ルールテーブル114とが格納される。   The storage unit 11 includes, for example, a RAM used for arithmetic processing by the CPU, and a ROM and HDD for storing predetermined programs, various databases, processing results, and the like. For example, the storage unit 11 stores a word correspondence 111, a phrase pair 112, a rule 113, and a rule table 114 as processing results.

単語対応作成モジュール12は、「単語対応作成」モードを選択するコマンドが入力されたときに、対訳コーパス150から得られる単語共起に関する統計量を活用し、多対多(翻訳元言語または翻訳先言語の単語がどこにも対応付かないことを含む)の単語対応111を自動的に求めるものである。単語対応作成モジュール12は、多対多の単語対応111を求めるために、例えば、単語単位の翻訳モデルを活用して、文全体で最適な1対多対応と多対1対応とを求め、その両者を組み合わせる。組み合わせ方の一例としては、1対多対応と多対1対応とのインターセクションを使い、それに隣接する1対多対応と多対1対応とのユニオンの要素を追加する方法がある(非特許文献3参照)。なお、単語単位の翻訳モデルについては、「Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. The mathematics of statistical machine translation: Parameter estimation. Computatinal Linguistics, 19(2):263-311, 1993」に記載されている。また、対訳コーパス150自体が単語対応111の情報を保持している場合には、単語対応作成モジュール12を省略した構成としてもよい。   The word correspondence creation module 12 uses a statistic about word co-occurrence obtained from the bilingual corpus 150 when a command for selecting the “word correspondence creation” mode is input, and provides many-to-many (translation source language or translation destination). The word correspondence 111 (including that the language word does not correspond anywhere) is automatically obtained. In order to obtain the many-to-many word correspondence 111, the word correspondence creation module 12 uses, for example, a word-by-word translation model to obtain the optimum one-to-many correspondence and many-to-one correspondence for the entire sentence. Combine both. As an example of the combination method, there is a method of using an intersection of a one-to-many correspondence and a many-to-one correspondence, and adding a neighboring element of a one-to-many correspondence and a many-to-one correspondence (non-patent document). 3). For the translation model for each word, see “Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. The mathematics of statistical machine translation: Parameter estimation. Computatinal Linguistics, 19 ): 263-311, 1993 ". In addition, when the bilingual corpus 150 itself holds information about the word correspondence 111, the word correspondence creation module 12 may be omitted.

図2に、日英の対訳の単語対応の例を示す。8個の単語および句点(ピリオド)を示す黒丸が単語対応である。
「違憲 の 問題 について は 、 連邦 憲法 裁判所 が 決定 する 。」
「The Federal Constitutional Court decides on the question of unconstitutionality .」
FIG. 2 shows an example of word correspondence of Japanese-English parallel translation. Eight words and black circles indicating punctuation points (periods) correspond to words.
“The Federal Constitutional Court decides on the issue of unconstitution.”
"The Federal Constitutional Court decides on the question of unconstitutionality."

制御手段13は、モード判定手段131と、フレーズペア抽出手段132と、生成規則作成手段133と、翻訳スコア計算手段134とを備えている。   The control unit 13 includes a mode determination unit 131, a phrase pair extraction unit 132, a generation rule creation unit 133, and a translation score calculation unit 134.

モード判定手段131は、入力装置Kから入出力手段10を介して入力したモード選択コマンドの示すモードを判定するものである。モード判定手段131は、モードが「単語対応作成」モードの場合には、単語対応作成モジュール12に対して対訳コーパス150を入力するように指示する。また、モード判定手段131は、モードが「ルールテーブル作成」モードの場合には、フレーズペア抽出手段132に対して対訳コーパス150を入力するように指示する。   The mode determination unit 131 determines the mode indicated by the mode selection command input from the input device K via the input / output unit 10. The mode determination unit 131 instructs the word correspondence creation module 12 to input the bilingual corpus 150 when the mode is the “word correspondence creation” mode. Further, when the mode is the “rule table creation” mode, the mode determination unit 131 instructs the phrase pair extraction unit 132 to input the bilingual corpus 150.

フレーズペア抽出手段132は、翻訳元言語の単語と翻訳先言語の単語との単語対応111に基づき、対訳コーパス150から、翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペア112として抽出するものである。抽出されたフレーズペア112は記憶手段11に格納される。フレーズペア抽出手段132は、式(1)に示した翻訳元言語の単語列と翻訳先言語の単語列との対訳文に対して、ある単語対応aが計算されたとき、式(7)に示すフレーズペアを抽出する。ここで、単語対応aは、翻訳先言語の単語位置と翻訳元言語の単語位置の組の集合である。式(7)の「i,m,j,n」は整数を示し、単語対応aとの間で式(8)の関係を満たすものである。   The phrase pair extraction unit 132 obtains a combination of words or phrases having the same meaning in the source language and the target language from the parallel corpus 150 based on the word correspondence 111 between the source language word and the target language word. The phrase pair 112 is extracted. The extracted phrase pair 112 is stored in the storage unit 11. When a word correspondence a is calculated with respect to the parallel translation of the word string in the translation source language and the word string in the translation destination language shown in Expression (1), the phrase pair extraction unit 132 calculates Expression (7). Extract the indicated phrase pair. Here, the word correspondence a is a set of a set of a word position in the translation destination language and a word position in the translation source language. “I, m, j, n” in equation (7) represents an integer, and satisfies the relationship of equation (8) with the word correspondence a.

Figure 2008015844
Figure 2008015844

Figure 2008015844
Figure 2008015844

例えば、図2に示した対訳文の単語対応からは、以下のようなフレーズペアが抽出されることとなる。   For example, the following phrase pairs are extracted from the word correspondence of the parallel translation shown in FIG.

Figure 2008015844
Figure 2008015844

生成規則作成手段133は、対訳コーパス150の中の対訳文ペア(対訳文の組合わせ)ごとに、その対訳文ペアから抽出されたフレーズペア112内に格納されたフレーズペアのリストをもとに、同期文脈自由文法の生成規則を作成し、ルール113に格納するものである。ここで、作成する生成規則では、翻訳先言語側は終端記号で始まらなければならないという制約を設ける。また、ルール113に格納する生成規則は、重複を許すものとする。こうして作成される生成規則においては、非特許文献2で用いられる以下のようなグルー規則は用いない。なお、グルー規則とは、Sを開始記号、Xを非終端記号としたときに、以下の2つの規則のことを示す。
S → <S(1)(1) ,S(1)(1)
S → <X(1) ,X(1)
The generation rule creation means 133 is based on the list of phrase pairs stored in the phrase pair 112 extracted from the parallel translation sentence pair for each parallel translation sentence pair (combination of parallel translation sentences) in the parallel translation corpus 150. A rule for generating a synchronous context free grammar is created and stored in the rule 113. Here, in the generation rule to be created, there is a restriction that the translation destination language side must start with a terminal symbol. In addition, the generation rules stored in the rule 113 allow duplication. In the generation rule created in this way, the following glue rule used in Non-Patent Document 2 is not used. Note that the glue rule refers to the following two rules when S is a start symbol and X is a non-terminal symbol.
S → <S (1) X (1) , S (1) X (1) >
S → <X (1) , X (1) >

生成規則作成手段133は、フレーズペア

Figure 2008015844
に対応して、式(9)〜式(9d)の生成規則を生成する。このうち、式(9a)〜式(9d)の生成規則は、式(9)の生成規則から自動的に生成することができる。また、式(9a)〜式(9d)の生成規則に付与されるスコアについても、式(9)の生成規則と同一値を用いることができる。このような理由から、実装上は、式(9a)〜式(9d)の生成規則は明示的にストレージに格納する必要がない。式(9a)〜式(9d)の生成規則は、非特許文献2で用いられるグルー規則の非終端記号Xを、Xを左辺とする個々の規則で1回書き換えたものに対応している。 The generation rule creation means 133 is a phrase pair
Figure 2008015844
Corresponding to the above, generation rules of Expression (9) to Expression (9d) are generated. Among these, the production | generation rule of Formula (9a)-Formula (9d) can be automatically produced | generated from the production | generation rule of Formula (9). Moreover, the same value as the production | generation rule of Formula (9) can be used also about the score provided to the production | generation rule of Formula (9a)-Formula (9d). For this reason, it is not necessary to explicitly store the generation rules of the expressions (9a) to (9d) in the storage for implementation. The generation rules of the equations (9a) to (9d) correspond to the non-terminal symbol X of the glue rule used in Non-Patent Document 2 rewritten once with each rule having X as the left side.

Figure 2008015844
Figure 2008015844

生成規則作成手段133は、式(10)で示す生成規則が生成され、かつ、式(9)の右辺のフレーズペアが、式(11)の関係を満たす場合、式(12)で示す生成規則を生成する。   The generation rule creation unit 133 generates the generation rule represented by Expression (10) when the generation rule represented by Expression (10) is generated and the phrase pair on the right side of Expression (9) satisfies the relationship of Expression (11). Is generated.

Figure 2008015844
Figure 2008015844

Figure 2008015844
Figure 2008015844

Figure 2008015844
Figure 2008015844

ここで、αには終端記号で始まらなければならないという制約を設ける。なお、本実施形態に必須のものではないが、生成規則作成手段133は、例えば、以下の制約も採用する。第1に、γとαの両方とも、少なくとも1つの終端記号を含まなければならない。第2に、生成規則は、最大2つの非終端記号を有することができる。しかし、翻訳元言語側のγで、非終端記号は隣接してはならない。   Here, α has a restriction that it must start with a terminal symbol. Although not essential to the present embodiment, the generation rule creation unit 133 also employs the following restrictions, for example. First, both γ and α must contain at least one terminal symbol. Second, production rules can have a maximum of two nonterminal symbols. However, nonterminal symbols must not be adjacent in the source language.

翻訳スコア計算手段134は、ルール113に重複を許して格納されている生成規則を数え上げ、各生成規則rに対応する翻訳確率Pe|f(r),Pf|e(r)と、レキシカル重みLex e|f(r),Lex f|e(r)とを計算し、各生成規則rに対応づけてルールテーブル114に格納する。図3に、ルールテーブルの一例を示す。また、表3に生成規則rに対応した各翻訳確率、レキシカル重みの計算式を示す。このスコア計算は非特許文献2に倣ったものである。 The translation score calculation means 134 counts the generation rules stored in the rule 113 with duplication allowed, the translation probabilities P e | f (r) and P f | e (r) corresponding to each generation rule r, and the lexical Weights Lex e | f (r) and Lex f | e (r) are calculated and stored in the rule table 114 in association with each generation rule r. FIG. 3 shows an example of the rule table. Table 3 shows calculation formulas for each translation probability and lexical weight corresponding to the generation rule r. This score calculation is based on Non-Patent Document 2.

Figure 2008015844
Figure 2008015844

[具体例]
具体的には、生成規則作成手段133は、図2に示した対訳文から表4に示すような規則(右辺だけ示す)を生成する。表4の例では、各生成規則の右辺の翻訳先言語側は必ず終端記号(単語)で始まっている。一方、従来の方法では、生成規則の右辺の翻訳先言語側は必ずしも終端記号で始まることはなく、例えば、表1に示したように、非終端記号Xで始まる場合がある。
[Concrete example]
Specifically, the generation rule creation unit 133 generates a rule (only the right side is shown) as shown in Table 4 from the parallel translation shown in FIG. In the example of Table 4, the translation destination language side on the right side of each production rule always starts with a terminal symbol (word). On the other hand, in the conventional method, the translation destination language side on the right side of the generation rule does not necessarily start with a terminal symbol. For example, as shown in Table 1, it may start with a non-terminal symbol X.

Figure 2008015844
Figure 2008015844

なお、モード判定手段131と、フレーズペア抽出手段132と、生成規則作成手段133と、翻訳スコア計算手段134とは、CPUが記憶手段11のHDD等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。   Note that the mode determination unit 131, the phrase pair extraction unit 132, the generation rule creation unit 133, and the translation score calculation unit 134 have the CPU expand a predetermined program stored in the HDD or the like of the storage unit 11 in the RAM. It is realized by executing.

[生成規則作成装置の動作]
図1に示した生成規則作成装置の動作について図4を参照(適宜図1参照)して説明する。図4は、図1に示した生成規則作成装置の動作を示すフローチャートである。
生成規則作成装置1は、モード判定手段131によって、モードを判定する(ステップS1)。判定の結果、モードが「単語対応作成」モードの場合には、生成規則作成装置1は、入出力手段10を介して、対訳コーパス150を単語対応作成モジュール12に入力し(ステップS2)、単語対応作成モジュール12によって、単語対応を作成する(ステップS3)。作成された単語対応111は、記憶手段11に格納される。
[Operation of generation rule creation device]
The operation of the production rule creation device shown in FIG. 1 will be described with reference to FIG. 4 (see FIG. 1 as appropriate). FIG. 4 is a flowchart showing the operation of the generation rule creation device shown in FIG.
The production rule creation device 1 determines the mode by the mode determination means 131 (step S1). As a result of the determination, if the mode is the “word correspondence creation” mode, the generation rule creation device 1 inputs the bilingual corpus 150 to the word correspondence creation module 12 via the input / output means 10 (step S2). A word correspondence is created by the correspondence creating module 12 (step S3). The created word correspondence 111 is stored in the storage unit 11.

一方、ステップS1での判定の結果、モードが「ルールテーブル作成」モードの場合には、生成規則作成装置1は、入出力手段10を介して、対訳コーパス150を制御手段13に入力し(ステップS4)、フレーズペア抽出手段132によって、対訳コーパス150からフレーズペアを抽出する(ステップS5:フレーズペア抽出ステップ)。抽出されたフレーズペア112は、記憶手段11に格納される。   On the other hand, if the result of determination in step S1 is that the mode is “rule table creation” mode, the production rule creation device 1 inputs the bilingual corpus 150 to the control means 13 via the input / output means 10 (step S4) The phrase pair extraction unit 132 extracts a phrase pair from the parallel corpus 150 (step S5: phrase pair extraction step). The extracted phrase pair 112 is stored in the storage unit 11.

続いて、生成規則作成装置1は、生成規則作成手段133によって、フレーズペア112に基づいて、同期文脈自由文法の生成規則の右辺の翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する(ステップS6:生成規則作成ステップ)。作成されたルール113は、記憶手段11に格納される。そして、生成規則作成装置1は、翻訳スコア計算手段134によって、ルール113の各生成規則から計算した各翻訳スコアを各生成規則に対応付ける(ステップS7)。対応付けられた生成規則と翻訳スコアとは、ルールテーブル114として記憶手段11に格納される。   Subsequently, the production rule creation device 1 adds a restriction that the symbol string of the translation target language on the right side of the production rule of the synchronous context free grammar starts from the terminal symbol based on the phrase pair 112 by the production rule creation unit 133. A generation rule is created (step S6: generation rule creation step). The created rule 113 is stored in the storage unit 11. And the production | generation rule preparation apparatus 1 matches each translation score calculated from each production | generation rule of the rule 113 with each production | generation rule by the translation score calculation means 134 (step S7). The associated generation rule and translation score are stored in the storage unit 11 as the rule table 114.

なお、生成規則作成装置1は、一般的なコンピュータに、前記した各ステップを実行させる生成規則作成プログラムを実行することで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。   The production rule creation device 1 can also be realized by executing a production rule creation program that causes a general computer to execute each of the steps described above. This program can be distributed via a communication line, or can be written on a recording medium such as a CD-ROM for distribution.

本実施形態の生成規則作成装置1によれば、生成規則の数を従来よりも大幅に削減できる。例えば、図2に示した対訳文の単語対応の場合には、抽出されるフレーズペアは、実際には合計で71対応存在する。各生成規則の非終端記号の数を「2」までに制限した場合であっても、従来法ではこのフレーズペアをもとに、533もの生成規則が作成される(ただしグルー規則は除く)。一方、本実施形態では、制約を課して生成規則を作成するので、生成規則数を110に削減できる。その結果、本実施形態の生成規則を利用して翻訳解を探索する場合には従来法よりも解探索空間を大幅に小さくすることが可能となる。   According to the production rule creation device 1 of the present embodiment, the number of production rules can be greatly reduced as compared with the conventional case. For example, in the case of word correspondence of the parallel translation sentence shown in FIG. 2, there are actually 71 extracted phrase pairs in total. Even when the number of non-terminal symbols of each production rule is limited to “2”, the conventional method creates 533 production rules based on this phrase pair (except for the glue rule). On the other hand, in the present embodiment, since the generation rule is created by imposing restrictions, the number of generation rules can be reduced to 110. As a result, when searching for a translation solution using the generation rule of this embodiment, the solution search space can be significantly reduced as compared with the conventional method.

[機械翻訳装置の構成]
図5は、本発明の実施形態に係る機械翻訳装置の構成を示す機能ブロック図である。
機械翻訳装置2は、生成規則作成装置1(図1参照)で作成されたルールテーブルを利用して、入力された翻訳元言語の単語列を、入力に対応する翻訳先言語の単語列に機械的に翻訳するものである。機械翻訳装置2は、例えば、CPUと、RAMと、ROMと、HDDと、入出力インタフェース等から構成され、図5に示すように、入出力手段20と、記憶手段21と、素性重み学習モジュール22と、単語情報抽出モジュール23と、制御手段24とを備えている。
[Configuration of machine translation device]
FIG. 5 is a functional block diagram showing the configuration of the machine translation apparatus according to the embodiment of the present invention.
The machine translation device 2 uses the rule table created by the generation rule creation device 1 (see FIG. 1) to convert the input source language word string into the translation destination language word string corresponding to the input. It is intended to translate. The machine translation apparatus 2 includes, for example, a CPU, a RAM, a ROM, an HDD, an input / output interface, and the like. As shown in FIG. 5, the input / output means 20, the storage means 21, and a feature weight learning module. 22, a word information extraction module 23, and a control means 24.

入出力手段20は、入力装置Kから翻訳元言語の単語列を制御手段24に入力したり、制御手段24から、翻訳結果である翻訳先言語の単語列を出力装置Dに出力したりするものである。また、入出力手段20は、素性重み学習用対訳コーパス250を素性重み学習モジュール22に入力する。
素性重み学習用対訳コーパス250は、生成規則作成装置1(図1参照)が生成規則を作成する際に利用する対訳コーパス150とは別に用意するものである。
The input / output means 20 inputs a translation source language word string from the input device K to the control means 24, and outputs a translation destination language word string as a translation result to the output device D from the control means 24. It is. The input / output unit 20 inputs the feature weight learning parallel corpus 250 to the feature weight learning module 22.
The feature weight learning bilingual corpus 250 is prepared separately from the bilingual corpus 150 used when the generation rule creation device 1 (see FIG. 1) creates a generation rule.

記憶手段21は、例えば、CPUによる演算処理等に利用されるRAMや、例えば、所定のプログラム、各種データベース、処理結果等を格納するROMやHDDを備えている。例えば、記憶手段21には、処理結果として、素性重み211と、単語情報212と、単語範囲付きルール213と、部分仮説214と、部分仮説スコア216とが格納される。また、記憶手段11には、生成規則作成装置1(図1参照)で作成されたルールテーブル114と、別に予め作成された言語モデル215とが格納される。言語モデル215は、翻訳先言語としての確からしさを表すn‐gramを格納したものである。このn-gramは別途、膨大な量の翻訳先言語のコーパスから学習される。   The storage unit 21 includes, for example, a RAM used for arithmetic processing by the CPU, and a ROM and HDD for storing predetermined programs, various databases, processing results, and the like. For example, the storage means 21 stores a feature weight 211, word information 212, a rule with word range 213, a partial hypothesis 214, and a partial hypothesis score 216 as processing results. The storage unit 11 stores a rule table 114 created by the production rule creation device 1 (see FIG. 1) and a language model 215 created separately in advance. The language model 215 stores an n-gram representing the certainty as a translation destination language. This n-gram is separately learned from an enormous volume of translated corpora.

素性重み学習モジュール22は、素性重み学習用対訳コーパス250と、ルールテーブル114と、言語モデル215とに基づいて、各素性関数の値に対応した重みを学習し、学習結果を素性重み211として記憶手段21に格納するものである。   The feature weight learning module 22 learns the weight corresponding to the value of each feature function based on the feature weight learning parallel translation corpus 250, the rule table 114, and the language model 215, and stores the learning result as the feature weight 211. The information is stored in the means 21.

単語情報抽出モジュール23は、入出力手段20を介して入力装置Kから入力する翻訳元言語の文を単語単位に分割して、翻訳元言語の文を構成する単語についての情報(単語情報)を抽出するものである。単語情報は、例えば、単語列、単語位置、単語数等を含む。抽出された単語情報212は記憶手段21に格納される。なお、入力装置Kから入力する翻訳元言語の文が単語分割済みの場合には、単語情報抽出モジュール23を省略することもできる。   The word information extraction module 23 divides the sentence of the translation source language input from the input device K through the input / output means 20 into words, and obtains information (word information) about the words constituting the sentence of the translation source language. To extract. The word information includes, for example, a word string, a word position, the number of words, and the like. The extracted word information 212 is stored in the storage means 21. When the sentence of the translation source language input from the input device K has already been divided into words, the word information extraction module 23 can be omitted.

制御手段24は、後記する手順で部分仮説を展開しながら文全体を被う仮説を求め、その中で最適(実際は準最適)なものを求めるものであり、生成規則探索手段241と、単語範囲付き生成規則生成手段242と、部分仮説スコア算出手段243と、部分仮説スコア算出手段243と、仮説探索手段244とを備えている。   The control unit 24 obtains a hypothesis that covers the entire sentence while expanding the partial hypothesis in the procedure described later, and obtains an optimum (actually suboptimal) one of them. The generation rule search unit 241 and the word range The generation rule generation unit 242 includes a partial hypothesis score calculation unit 243, a partial hypothesis score calculation unit 243, and a hypothesis search unit 244.

生成規則探索手段241は、所定の部分仮説を拡張するために適用可能な生成規則をルールテーブル114からそれぞれ探索するものである。   The generation rule search means 241 searches the rule table 114 for a generation rule applicable for extending a predetermined partial hypothesis.

単語範囲付き生成規則生成手段242は、生成規則探索手段241で探索された生成規則に対して、入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成するものである。   The generation rule generation unit with word range 242 searches the generation rule searched by the generation rule search unit 241 based on the number of words and the word position of the words constituting the input word string of the translation source language. A word range indicating the range of the word string of the translation source language covered by the non-terminal symbol of the generated generation rule is added to generate applicable generation rules with word ranges.

ここでは、入力された翻訳元言語の単語列の変換対象部分(非終端記号が被う範囲)を、その単語位置の左端(left)と右端(right)で、[l,r]のように表記することとする。初期段階では、例えば、入力が11単語であれば、[l,r]=[1,11]となる。この場合、生成規則の翻訳元言語側の各非終端記号の単語範囲(未翻訳の単語範囲)を[l1,r1],[l2,r2],…のように表記する。例えば、[l1,r1]=[1,2]等となる。なお、ある生成規則の翻訳元言語側の非終端記号が2つあれば、単語範囲も2つ設定される。また、ある生成規則の翻訳元言語側の非終端記号に対して、「l1」の値や「r1」の値として、複数の可能性がある。 Here, the conversion target part (the range covered by the non-terminal symbol) of the input source language word string is expressed as [l, r] at the left end (left) and right end (right) of the word position. I decided to. In the initial stage, for example, if the input is 11 words, [l, r] = [1,11]. In this case, the word range (untranslated word range) of each non-terminal symbol on the source language side of the generation rule is expressed as [l 1 , r 1 ], [l 2 , r 2 ],. For example, [l 1 , r 1 ] = [1, 2]. If there are two non-terminal symbols on the translation source language side of a certain generation rule, two word ranges are also set. In addition, there are a plurality of possibilities as the value of “l 1 ” or “r 1 ” for a non-terminal symbol on the translation source language side of a generation rule.

部分仮説スコア算出手段243は、単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と単語範囲とを、新たな部分仮説として作成すると共に、適用可能な生成規則をトップダウンに適用し且つ適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、新たな部分仮説を拡張し、生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、翻訳先言語の単語列としての確からしさを表す言語モデルのスコアなどに基づいて、作成された部分仮説H′の評価値を示す部分仮説スコアを算出するものである。   The partial hypothesis score calculation means 243 creates the translated word and the word range on the translation target language side included in the generation rule with word range as a new partial hypothesis, and applies the applicable generation rule from the top down. In addition, the new partial hypotheses are expanded in the order in which the non-terminal symbols on the translation target language side are arranged from the beginning of the sentence to the end of the sentence in the applicable production rules, and the certainty of translation obtained in advance for each production rule. The partial hypothesis score indicating the evaluation value of the created partial hypothesis H ′ is calculated based on the score of the translation model to be expressed and the score of the language model indicating the certainty of the translated language as a word string.

具体的には、部分仮説スコア算出手段243は、「翻訳先言語の文頭からの単語列」と「翻訳元言語の単語列のうち未翻訳の単語の範囲を保持するスタック」の二つ組みからなる部分仮説Hをもとに、適用可能な単語範囲付き生成規則を使って、新たな部分仮説H′を作成するということを繰り返す。HをもとにH′を作成することを部分仮説の拡張と呼ぶ。部分仮説が拡張されるに従い、部分仮説中の「翻訳先言語の文頭からの単語列は文頭から文末にかけて逐次的に追加される。また、部分仮説スコア算出手段243は、メモリを節約するため、他の部分仮説との間で単語列の共有を行う。なお、翻訳元言語の単語数がJの場合、初期部分仮説(部分仮説の初期値)は、「空列」と、「[1,J]だけが積まれたスタック」とからなる。   Specifically, the partial hypothesis score calculation means 243 includes a combination of “a word string from the beginning of a sentence in the translation target language” and “a stack that holds a range of untranslated words in the word string in the translation source language”. Based on the partial hypothesis H, a new partial hypothesis H ′ is generated using the applicable generation rule with word range. Creating H ′ based on H is called extension of the partial hypothesis. As the partial hypothesis is expanded, the word string from the beginning of the translated language in the partial hypothesis is added sequentially from the beginning of the sentence to the end of the sentence. Further, the partial hypothesis score calculating means 243 saves memory. Share word strings with other partial hypotheses, and if the number of words in the source language is J, the initial partial hypothesis (initial value of the partial hypothesis) is “empty string” and “[1, J] is the only stack.

部分仮説スコア算出手段243は、部分仮説H′の翻訳元言語の翻訳されている単語数をm(0≦m≦J)とすると、優先度付きキューQ0,Q1,…,QJに部分仮説H′を入れる。つまり、部分仮説スコア算出手段243は、Q0={初期部分仮説}から始めて、翻訳された翻訳元言語の単語数に同期して優先度付きキューQmに格納する部分仮説を拡張していく。 Partial hypothesis score calculating means 243, and the number of words that are in the source language portion hypothesis H 'translated and m (0 ≦ m ≦ J) , the priority queue Q 0, Q 1, ..., a Q J Enter a partial hypothesis H ′. That is, the partial hypothesis score calculation means 243 starts with Q 0 = {initial partial hypothesis} and expands the partial hypothesis stored in the priority-added queue Q m in synchronization with the number of translated words in the translation source language. .

部分仮説スコア算出手段243は、ある部分仮説を拡張するとき、そのスタックの先頭から(積まれた上方から)翻訳されていない翻訳元言語の単語範囲[l,r]をポップする。翻訳元言語の入力文に対応する生成規則はEarley法のチャート構造で管理する。チャート構造を用いることにより、部分仮説に対して適用可能な生成規則を効率良く見つけることが可能となる。例えば、部分仮説スコア算出手段243は、前記した式(9d)から生成された式(13)に示すような単語範囲つき生成規則から部分仮説を抽出する場合には、単語範囲[l2,r2],[l1,r1]の順序でスタックにプッシュして、[l1,r1]が先に処理されるようにする。こうして、翻訳先言語側は、常に文頭から翻訳が生成されることが保証されることになる。 When expanding a partial hypothesis, the partial hypothesis score calculation means 243 pops the untranslated word range [l, r] from the top of the stack (from the top of the stack). Generation rules corresponding to input sentences in the source language are managed using the Earley chart structure. By using the chart structure, it is possible to efficiently find a generation rule applicable to the partial hypothesis. For example, when the partial hypothesis score calculation means 243 extracts a partial hypothesis from the generation rule with a word range as shown in the equation (13) generated from the equation (9d), the word range [l 2 , r 2 ], [l 1 , r 1 ] are pushed onto the stack in order, so that [l 1 , r 1 ] is processed first. In this way, the translation target language side is guaranteed to always generate a translation from the beginning of the sentence.

Figure 2008015844
Figure 2008015844

部分仮説スコア算出手段243は、もととなった部分仮説HのスコアS(H)に差分スコアを加算することで、式(14)に示すような、拡張された部分仮説H′のスコアS(H′)を算出する。   The partial hypothesis score calculation means 243 adds the difference score to the score S (H) of the original partial hypothesis H, thereby increasing the score S of the expanded partial hypothesis H ′ as shown in the equation (14). (H ′) is calculated.

Figure 2008015844
Figure 2008015844

ここで、m(1≦m≦M)は素性関数の値の識別番号を示す。本実施形態では、部分仮説スコア算出手段243は、M=6として、表5に示す6つの素性関数の値hm(H′)と、そのhm(H′)に対して対応する素性重みλm(H′)とを用いる。また、仮説を生成する際に、部分仮説の展開により新たに生成された翻訳先言語の単語列を、

Figure 2008015844
と表記する。ここで、生成された翻訳先言語の単語列は、「i」番目の単語から「i+ε」番目の単語で構成されている。 Here, m (1 ≦ m ≦ M) indicates an identification number of the value of the feature function. In the present embodiment, the partial hypothesis score calculation means 243 sets M = 6, the values h m (H ′) of the six feature functions shown in Table 5, and the feature weights corresponding to the h m (H ′). λ m (H ′) is used. Also, when generating a hypothesis, the word string of the target language that was newly generated by expanding the partial hypothesis,
Figure 2008015844
Is written. Here, the generated word string of the translation destination language is composed of the “i + ε” -th word from the “i” -th word.

Figure 2008015844
Figure 2008015844

ここで、Pe|f(r)、Pf|e(r)、Lexe|f(r)、Lexf|e(r)は、記憶手段21のルールテーブル114に規定されている生成規則rに対応した素性関数の値である。また、素性重みλmは、記憶手段21に格納された素性重み211に予め規定されているものとする。 Here, P e | f (r), P f | e (r), Lex e | f (r), and Lex f | e (r) are generation rules defined in the rule table 114 of the storage unit 21. This is the value of the feature function corresponding to r. The feature weight λ m is defined in advance in the feature weight 211 stored in the storage unit 21.

つまり、本実施形態では、式(14)と表5とから、部分仮説スコア算出手段243は、最終的に、部分仮説H′のスコアS(H′)を、式(15)で算出する。この式(15)の2番目の等号の右辺は、もととなった部分仮説HのスコアS(H)に、差分スコアを加算することを示している。また、部分仮説スコア算出手段243は、優先度付きキューQ0,Q1,…,QJには、最大Y個(例えば、1000個)の部分仮説しか保持しない。また、部分仮説スコア算出手段243は、部分仮説スコアS(H′)が優先度付きキューQ0,Q1,…,QJ内の最大の部分仮説スコアとある定数との積よりも小さい場合、その部分仮説H′を捨てる。これにより、部分仮説スコア算出手段243は、優先度付きキューQ0,Q1,…,QJに格納される各部分仮説に対して効果的な枝刈りを行うことができる。 That is, in this embodiment, the partial hypothesis score calculation means 243 finally calculates the score S (H ′) of the partial hypothesis H ′ from the equation (14) and Table 5 using the equation (15). The right side of the second equal sign in equation (15) indicates that the difference score is added to the score S (H) of the original partial hypothesis H. Further, the partial hypothesis score calculation means 243 holds only the maximum Y (for example, 1000) partial hypotheses in the priority queues Q 0 , Q 1 ,..., Q J. The partial hypothesis score calculation unit 243, partial hypothesis score S (H ') is the priority queue Q 0, Q 1, ..., if less than the product of a constant with the largest part hypothesis score in Q J Discard the partial hypothesis H ′. Thereby, the partial hypothesis score calculation means 243 can perform effective pruning on each partial hypothesis stored in the priority-added queues Q 0 , Q 1 ,..., Q J.

Figure 2008015844
Figure 2008015844

仮説探索手段244は、入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、所定の部分仮説を拡張することによって最終的に生成された翻訳元言語の文全体に対応する部分仮説(これを仮説と呼ぶ)のうちで、部分仮説スコアが最大となる仮説を探索するものである。具体的には、仮説探索手段244は、翻訳元言語の文全体から得られる所定数の仮説のうちで、仮説スコアが最大となる仮説H^を、式(16)の関係から探索する。式(16)に示す仮説Hは、優先度付きキューQJに含まれる部分仮説Hのことなので、式(16)で求める仮説H^は、部分仮説スコアS(H)の値を最大とする部分仮説H(つまり仮説H)を求めることで実現できる。 The hypothesis search means 244 searches for a predetermined partial hypothesis that can be applied to the input word string of the source language, and expands the predetermined partial hypothesis so that the entire sentence of the source language finally generated Among the partial hypotheses corresponding to (referred to as a hypothesis), a hypothesis having the maximum partial hypothesis score is searched. Specifically, the hypothesis searching means 244 searches the hypothesis H ^ having the maximum hypothesis score from the relationship of the equation (16) among a predetermined number of hypotheses obtained from the entire sentence of the translation source language. Since the hypothesis H shown in the equation (16) is the partial hypothesis H included in the priority queue Q J , the hypothesis H ^ obtained in the equation (16) maximizes the value of the partial hypothesis score S (H). This can be realized by obtaining a partial hypothesis H (that is, hypothesis H).

Figure 2008015844
Figure 2008015844

また、仮説探索手段244は、求めた仮説に対応する翻訳先言語の文頭から文末までの単語列を翻訳結果として、入出力手段20を介して出力装置Dに出力する。   Further, the hypothesis searching means 244 outputs a word string from the beginning of the translation language corresponding to the obtained hypothesis to the end of the sentence as a translation result to the output device D via the input / output means 20.

なお、生成規則探索手段241、単語範囲付き生成規則生成手段242、部分仮説スコア算出手段243、部分仮説スコア算出手段243および仮説探索手段244は、CPUが記憶手段21のHDD等に格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。   It should be noted that the generation rule search unit 241, the word range added generation rule generation unit 242, the partial hypothesis score calculation unit 243, the partial hypothesis score calculation unit 243, and the hypothesis search unit 244 are predetermined ones stored in the HDD of the storage unit 21 by the CPU This program is realized by developing the program in RAM and executing it.

[機械翻訳装置の動作]
図5に示した機械翻訳装置の動作について図6を参照(適宜図5参照)して説明する。図6は、図5に示した機械翻訳装置の動作を示すフローチャートである。予め、機械翻訳装置2は、素性重み学習モジュール22によって、素性重み学習用対訳コーパス250と、言語モデル215と、ルールテーブル114とに基づいて、素性関数の値の重みを学習し、学習結果である素性重み211を記憶手段21に格納しておく。
[Operation of machine translation device]
The operation of the machine translation apparatus shown in FIG. 5 will be described with reference to FIG. 6 (see FIG. 5 as appropriate). FIG. 6 is a flowchart showing the operation of the machine translation apparatus shown in FIG. In advance, the machine translation device 2 learns the weight of the feature function value based on the feature weight learning parallel translation corpus 250, the language model 215, and the rule table 114 by the feature weight learning module 22, and uses the learning result as the learning result. A certain feature weight 211 is stored in the storage means 21.

そして、機械翻訳装置2は、入力装置Kから入出力手段20を介して入力された翻訳元言語の文を単語情報抽出モジュール23に入力する(ステップS11)。機械翻訳装置2は、単語情報抽出モジュール23によって、入力された翻訳元言語の文(入力文)を単語に分割し、単語列、単語数Jやそれぞれの単語の単語位置を抽出する(ステップS12)。抽出された単語列、単語列単語数Jや単語位置は、単語情報212として記憶手段21に格納される。   Then, the machine translation device 2 inputs the sentence of the translation source language input from the input device K via the input / output means 20 to the word information extraction module 23 (step S11). The machine translation device 2 uses the word information extraction module 23 to divide the input source language sentence (input sentence) into words, and extract the word string, the number of words J, and the word position of each word (step S12). ). The extracted word string, word string word count J, and word position are stored in the storage unit 21 as word information 212.

機械翻訳装置2は、仮説探索手段244によって、初期部分仮説H0を作成し、入力単語数Jに合わせて、J個の優先度付きキューQ0,…,QJを空にして、そのうちの優先度付きキューQ0に初期部分仮説H0を格納する(ステップS13)。そして、機械翻訳装置2は、仮説探索手段244によって、初期部分仮説H0に対する部分仮説スコアS(H0)と、優先度付きキューの識別変数mとを初期化する。すなわち、S(H0)=0,m=0とする(ステップS14)。続いて、機械翻訳装置2は、生成規則探索手段241によって、m番目の優先度付きキューQmから、そこに格納されている適用可能なそれぞれの部分仮説Hを順次ポップし、それぞれの部分仮説Hを拡張できるような適用可能なそれぞれの生成規則rをルールテーブル114から探索する。そして、探索結果であるそれぞれの生成規則rの翻訳元言語側に記述されている翻訳済単語の個数(翻訳済単語個数)V(r)を取得し、現在の優先度付きキューの識別変数mの値に加算することによって、処理対象の部分仮説Hに対する翻訳済単語数nの値を更新する。すなわち、n=m+V(r)とする(ステップS15:生成規則探索ステップ)。 The machine translation device 2 creates an initial partial hypothesis H 0 by the hypothesis search means 244, empties J priority queues Q 0 ,..., Q J according to the number of input words J, of which The initial partial hypothesis H 0 is stored in the priority queue Q 0 (step S13). Then, the machine translation apparatus 2 initializes the partial hypothesis score S (H 0 ) for the initial partial hypothesis H 0 and the identification variable m of the priority queue with the hypothesis search means 244. That is, S (H 0 ) = 0 and m = 0 are set (step S14). Subsequently, the machine translation device 2 sequentially pops each applicable partial hypothesis H stored therein from the m-th priority queue Q m by the generation rule search means 241, and each partial hypothesis. Each applicable generation rule r that can expand H is searched from the rule table 114. Then, the number of translated words (number of translated words) V (r) described on the translation source language side of each generation rule r as a search result is acquired, and the identification variable m of the current priority queue. Is added to this value, the value of the number n of translated words for the partial hypothesis H to be processed is updated. That is, n = m + V (r) is set (step S15: generation rule search step).

そして、機械翻訳装置2は、単語範囲付き生成規則生成手段242によって、探索した生成規則に対して適用可能なそれぞれの単語範囲付き生成規則r′を生成する(ステップS16:単語範囲付き生成規則生成ステップ)。そして、機械翻訳装置2は、部分仮説スコア算出手段243によって、処理対象の部分仮説Hを、それぞれの単語範囲付き生成規則r′で展開して部分仮説H′をそれぞれ作成し、作成した部分仮説H′について前記した式(15)に基づいて部分仮説スコアS(H′)を算出する。そして、作成した部分仮説H′を、n番目の優先度付きキューQnに格納し、所定の枝刈りを行う(ステップS17:部分仮説スコア算出ステップ)。ここで、枝刈りによって不要となった部分仮説H′は、優先度付きキューQnから削除される。また、算出された部分仮説スコアS(H′)は記憶手段21の部分仮説スコア216に格納されるが、枝刈りによって削除された部分仮説H′に対する部分仮説スコアS(H′)は削除されることとなる。 Then, the machine translation device 2 generates each generation rule r ′ with word range applicable to the searched generation rule by the generation rule generation unit 242 with word range (step S16: generation generation with word range). Step). Then, the machine translation apparatus 2 creates partial hypotheses H ′ by expanding the partial hypotheses H to be processed by the generation rules r ′ with word ranges by the partial hypothesis score calculating means 243, respectively. A partial hypothesis score S (H ′) is calculated for H ′ based on the above equation (15). Then, the created partial hypothesis H ′ is stored in the n-th priority queue Q n and predetermined pruning is performed (step S17: partial hypothesis score calculation step). Here, the partial hypothesis H ′ that has become unnecessary due to pruning is deleted from the priority queue Q n . The calculated partial hypothesis score S (H ′) is stored in the partial hypothesis score 216 of the storage means 21, but the partial hypothesis score S (H ′) for the partial hypothesis H ′ deleted by pruning is deleted. The Rukoto.

そして、機械翻訳装置2は、仮説探索手段244によって、適用可能な単語範囲付き生成規則r′をすべて選択したか否かを判別する(ステップS18)。適用可能なr′がまだ存在する場合(ステップS18:No)、機械翻訳装置2は、ステップS16に戻る。一方、r′をすべて選択した場合(ステップS18:Yes)、仮説探索手段244は、適用可能な生成規則rをすべて選択したか否かを判別する(ステップS19)。適用可能なrがまだ存在する場合(ステップS19:No)、機械翻訳装置2は、ステップS15に戻る。一方、rをすべて選択した場合(ステップS19:Yes)、仮説探索手段244は、適用可能な部分仮説Hをすべて選択したか否かを判別する(ステップS20)。適用可能なHがまだ存在する場合(ステップS20:No)、機械翻訳装置2は、ステップS15に戻る。一方、Hをすべて選択した場合(ステップS20:Yes)、仮説探索手段244は、現在の優先度付きキューの識別変数mの値が入力単語数Jと等しい(m=J)か否かを判別する(ステップS21)。m≠Jである場合(ステップS21:No)、機械翻訳装置2は、仮説探索手段244によって、優先度付きキューの識別変数mをインクリメントする。すなわち、m=m+1とする(ステップS22)。続いて、ステップS15に戻る。   Then, the machine translation apparatus 2 determines whether or not all applicable generation rules r ′ with word ranges have been selected by the hypothesis search means 244 (step S18). If applicable r ′ still exists (step S18: No), the machine translation device 2 returns to step S16. On the other hand, if all r ′ are selected (step S18: Yes), the hypothesis searching means 244 determines whether all applicable generation rules r have been selected (step S19). If applicable r still exists (step S19: No), the machine translation device 2 returns to step S15. On the other hand, if all r are selected (step S19: Yes), the hypothesis searching unit 244 determines whether all applicable partial hypotheses H have been selected (step S20). If applicable H still exists (step S20: No), the machine translation device 2 returns to step S15. On the other hand, if all H are selected (step S20: Yes), the hypothesis searching means 244 determines whether or not the value of the identification variable m of the current priority queue is equal to the number of input words J (m = J). (Step S21). If m ≠ J (step S21: No), the machine translation device 2 increments the identification variable m of the priority queue by the hypothesis search means 244. That is, m = m + 1 is set (step S22). Then, it returns to step S15.

一方、m=Jである場合(ステップS21:Yes)、J番目の優先度付きキューQJには、翻訳元言語の文全体を被う部分仮説Hが複数格納されている。これら部分仮説Hは、翻訳元言語の文に対する仮説Hとみなすことができる。同様に、優先度付きキューQJに格納された部分仮説Hに対する部分仮説スコアS(H)は、この意味で、仮説スコアS(H)と呼ぶ。そして、この場合、機械翻訳装置2は、仮説探索手段244によって、J番目の優先度付きキューQJから仮説スコアS(H)の値が最大となる仮説Hを探索する(ステップS23:仮説探索ステップ)。そして、機械翻訳装置2は、仮説探索手段244によって、探索された仮説を翻訳先言語の文として出力する(ステップS24)。これにより、探索された仮説に対応する翻訳先言語の文頭から文末までの単語列が出力装置Dに出力される。 On the other hand, when m = J (step S21: Yes), the J-th priority queue Q J stores a plurality of partial hypotheses H covering the entire sentence of the source language. These partial hypotheses H can be regarded as hypotheses H for sentences in the source language. Similarly, the partial hypothesis score S (H) for the partial hypothesis H stored in the priority queue Q J is referred to as a hypothesis score S (H) in this sense. In this case, the machine translation device 2 searches the hypothesis search means 244 for a hypothesis H having the maximum hypothesis score S (H) from the J-th priority queue Q J (step S23: hypothesis search). Step). Then, the machine translation device 2 outputs the searched hypothesis as a sentence in the translation destination language by the hypothesis search means 244 (step S24). As a result, a word string from the beginning of the translation target language to the end of the sentence corresponding to the searched hypothesis is output to the output device D.

なお、機械翻訳装置2は、一般的なコンピュータに、前記した各ステップを実行させる機械翻訳プログラムを実行することで実現することもできる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。   The machine translation apparatus 2 can also be realized by executing a machine translation program that causes a general computer to execute the above steps. This program can be distributed via a communication line, or can be written on a recording medium such as a CD-ROM for distribution.

[具体例]
図7と、表6と、表7と、表8とを参照して具体例について説明する。
図7は、図5に示した部分仮説から仮説への拡張例を示す図である。表6は、11単語からなる翻訳元言語文を示し、表7は、表6に示した翻訳元言語文に対応して適用可能な生成規則を示す。なお、表7中の「生成規則の種類」とは、前記した式(9)〜式(9d)のいずれに対応するかを示すものである。表8は、表7に示した生成規則の適用順とそれに基づく単語範囲付き生成規則を示すものである。
[Concrete example]
Specific examples will be described with reference to FIG. 7, Table 6, Table 7, and Table 8.
FIG. 7 is a diagram illustrating an extension example from the partial hypothesis illustrated in FIG. 5 to the hypothesis. Table 6 shows a translation source language sentence composed of 11 words, and Table 7 shows a generation rule applicable to the translation source language sentence shown in Table 6. In addition, the “type of generation rule” in Table 7 indicates which of the above formulas (9) to (9d) corresponds. Table 8 shows the order of application of the generation rules shown in Table 7 and the generation rules with word ranges based thereon.

Figure 2008015844
Figure 2008015844

Figure 2008015844
Figure 2008015844

Figure 2008015844
Figure 2008015844

初期状態において、部分仮説スコア算出手段243は、スタックを空にし、図7に示すように、状態「0」で翻訳元言語の単語列(文)全体を被う単語範囲[1,11]をプッシュする。状態「0」では、部分仮説H′(0)は、初期部分仮説なので、スタックにプッシュした単語範囲[1,11]と空列との組である。部分仮説H′(0)の部分仮説スコアS(H′)は「0」とする。   In the initial state, the partial hypothesis score calculation means 243 empties the stack and, as shown in FIG. 7, the word range [1, 11] covering the entire word string (sentence) of the translation source language in the state “0”. To push. In the state “0”, since the partial hypothesis H ′ (0) is the initial partial hypothesis, it is a set of the word range [1, 11] pushed onto the stack and an empty string. The partial hypothesis score S (H ′) of the partial hypothesis H ′ (0) is “0”.

次に、状態「1」で、部分仮説スコア算出手段243は、スタックから範囲[1,11]をポップし、生成規則探索手段241は、表7から、ポップされた範囲に適用可能な生成規則r(3)を選択する。生成規則r(3)における翻訳解「The」に対応した「は」の入力文における単語位置は、「3」なので、単語範囲付き生成規則生成手段242は、表8に示すように、生成規則r(3)における非終端記号X(1)および非終端記号X(2)の単語範囲が、それぞれ[1,2]、[4,11]となるような単語範囲付き生成規則r′(3)を生成する。この単語範囲付き生成規則r′(3)では、翻訳先言語側において非終端記号X(1)が非終端記号X(2)より先に処理されなければならない。そのため、部分仮説スコア算出手段243は、図7に示すように、単語範囲付き生成規則r′(3)において、非終端記号X(2)に対応する単語範囲[4,11]をスタックにプッシュしてから、非終端記号X(1)に対応する単語範囲[1,2]をプッシュする。部分仮説スコア算出手段243は、スタックにプッシュした単語範囲[1,2]、[4,11]と、翻訳先言語の文頭からの単語列としての翻訳解「The」とを部分仮説H′(1)とする。部分仮説スコア算出手段243は、部分仮説H′(1)について部分仮説スコアを算出する。 Next, in the state “1”, the partial hypothesis score calculation unit 243 pops the range [1, 11] from the stack, and the generation rule search unit 241 generates a generation rule applicable to the popped range from Table 7. Select r (3). Since the word position in the input sentence of “ha” corresponding to the translation solution “The” in the generation rule r (3) is “3”, the generation rule generation unit with word range 242 generates the generation rule as shown in Table 8. A generation rule r ′ (3) with a word range such that the word ranges of the non-terminal symbol X (1) and the non-terminal symbol X (2 ) in r (3) are [1, 2] and [4, 11], respectively. Generate. In this generation rule r ′ (3) with word range, the non-terminal symbol X (1) must be processed before the non-terminal symbol X (2) on the translation destination language side. Therefore, as shown in FIG. 7, the partial hypothesis score calculation means 243 pushes the word range [4, 11] corresponding to the nonterminal symbol X (2) on the stack in the generation rule r ′ (3) with word range. After that, the word range [1, 2] corresponding to the non-terminal symbol X (1) is pushed. The partial hypothesis score calculation means 243 converts the word ranges [1, 2] and [4, 11] pushed onto the stack and the translation solution “The” as a word string from the head of the translation target language into the partial hypothesis H ′ ( 1). The partial hypothesis score calculation means 243 calculates a partial hypothesis score for the partial hypothesis H ′ (1).

次に、状態「2」で、部分仮説スコア算出手段243は、スタックから単語範囲[1,2]をポップし、生成規則探索手段241は、表7から、この単語範囲に適用可能な生成規則r(1)を選択する。生成規則r(1)における翻訳解「international」に対応した「国際」の入力文における単語位置は、「1」なので、単語範囲付き生成規則生成手段242は、表8に示すように、生成規則r(1)における非終端記号X(1)の単語範囲が[2,2]となるような単語範囲付き生成規則r′(1)を生成する。部分仮説スコア算出手段243は、図7に示すように、単語範囲付き生成規則r′(1)において、単語範囲[2,2]をスタックにプッシュする。部分仮説スコア算出手段243は、スタックにプッシュした単語範囲[2,2]と、以前プッシュした単語範囲[4,11]と、翻訳先言語の文頭からの単語列としての翻訳解「The international」とを部分仮説H′(2)とする。部分仮説スコア算出手段243は、部分仮説H′(2)について部分仮説スコアを算出する。 Next, in the state “2”, the partial hypothesis score calculation unit 243 pops the word range [1, 2] from the stack, and the generation rule search unit 241 generates a generation rule applicable to this word range from Table 7. Select r (1). Since the word position in the input sentence “international” corresponding to the translation solution “international” in the generation rule r (1) is “1”, the generation rule generation unit with word range 242 generates the generation rule as shown in Table 8. word range of r (1) non-terminal symbol X in (1) to produce a conditioned word range generation rule r '(1) such that [2,2]. As shown in FIG. 7, the partial hypothesis score calculation means 243 pushes the word range [2, 2] onto the stack in the generation rule with word range r ′ (1). The partial hypothesis score calculation means 243 translates the word range [2, 2] pushed onto the stack, the previously pushed word range [4, 11], and the translation solution “The international” as a word string from the beginning of the target language. Is a partial hypothesis H ′ (2). The partial hypothesis score calculation means 243 calculates a partial hypothesis score for the partial hypothesis H ′ (2).

次に、状態「3」で、部分仮説スコア算出手段243は、スタックから単語範囲[2,2]をポップし、生成規則探索手段241は、表7から、この単語範囲に適用可能な生成規則r(2)を選択する。生成規則r(2)には「テロ」に対応した翻訳解「terrorism」が記述されているが、非終端記号が無いので、単語範囲付き生成規則生成手段242は、生成規則r(2)をそのまま単語範囲付き生成規則r′(2)とする。部分仮説スコア算出手段243は、単語範囲付き生成規則r′(2)において単語範囲が指定されていないのでスタックに対する操作を行わない。部分仮説スコア算出手段243は、図7に示すように、スタックに以前プッシュした単語範囲[4,11]と、翻訳先言語の文頭からの単語列としての翻訳解「The international terrorism」とを部分仮説H′(3)とする。部分仮説スコア算出手段243は、部分仮説H′(3)について部分仮説スコアを算出する。   Next, in the state “3”, the partial hypothesis score calculating unit 243 pops the word range [2, 2] from the stack, and the generation rule searching unit 241 uses the generation rule applicable to this word range from Table 7. Select r (2). In the generation rule r (2), the translation solution “terrorism” corresponding to “terrorism” is described, but since there is no non-terminal symbol, the generation rule generation unit with word range 242 uses the generation rule r (2) as it is. The generation rule r ′ (2) with word range is used. The partial hypothesis score calculation means 243 does not operate the stack because the word range is not specified in the generation rule r ′ (2) with word range. As shown in FIG. 7, the partial hypothesis score calculation means 243 partially generates the word range [4, 11] that was previously pushed onto the stack and the translation solution “The international terrorism” as a word string from the head of the target language. Let it be hypothesis H ′ (3). The partial hypothesis score calculation means 243 calculates a partial hypothesis score for the partial hypothesis H ′ (3).

以下、同様にして、表8に記載した適用順に、状態「4」から状態「9」に対応する操作を行うと、スタックが空になるので、部分仮説スコア算出手段243は、部分仮説の展開を終了し、仮説を生成する。このとき、翻訳先言語の文頭からの単語列としての翻訳解は、以下のように、10単語の単語列となる。
「The international terrorism also is a possible threat in Japan」
In the same manner, when an operation corresponding to the state “4” to the state “9” is performed in the application order described in Table 8, the stack becomes empty, and the partial hypothesis score calculation unit 243 develops the partial hypothesis. To generate a hypothesis. At this time, the translation solution as a word string from the sentence head of the translation target language is a word string of 10 words as follows.
"The international terrorism also is a possible threat in Japan"

ここで、生成規則r(9)は、2つの終端記号(単語)「で ある,is a」を有しているため、部分仮説スコア算出手段243は、9回の状態遷移で10単語を訳出する。図7では、部分仮説展開の過程で、翻訳先言語側が文頭から文末にかけて生成されたことが示されている。   Here, since the generation rule r (9) has two terminal symbols (words) “is a”, the partial hypothesis score calculation means 243 translates 10 words in nine state transitions. To do. FIG. 7 shows that the translation destination language side was generated from the beginning of the sentence to the end of the sentence in the process of partial hypothesis development.

図8は、図7に示した仮説への拡張例に対応した同期文脈自由文法の木構造を示す図である。これは部分仮説展開に用いた生成規則の系列を木として表現したものである。図8において、(1)〜(9)は同期文脈自由文法の生成規則の展開順序を表す。生成規則は、右辺の翻訳先言語側は終端記号で始まっており、木はトップダウンかつ翻訳先言語の文頭から文末の順序に展開されるので、翻訳先言語の単語は必ず文頭から文末にかけて逐次的に生成される。これとは対照的に翻訳元言語側は必ずしも文頭から文末にかけて解析されるわけではなく、この点が従来手法と大きく異なる。   FIG. 8 is a diagram showing a tree structure of the synchronous context free grammar corresponding to the extension example to the hypothesis shown in FIG. This is a sequence of generation rules used for partial hypothesis expansion expressed as a tree. In FIG. 8, (1) to (9) represent the expansion order of the generation rules of the synchronous context free grammar. The generation rules start with a terminal symbol on the destination language side on the right side, and the tree is expanded from top to bottom in the order from the beginning of the target language to the end of the target language. Generated automatically. In contrast, the source language side is not always analyzed from the beginning to the end of the sentence, and this point is greatly different from the conventional method.

表8に示した単語範囲付き生成規則と異なる例を表9に示す。表9では、適用順「1」,「2」の内容が異なる以外は表8と同じである。この場合には、状態「1」で、生成規則r(1)を選択し、状態「2」で生成規則r(3)を選択する。このとき、翻訳先言語の文頭からの単語列としての翻訳解は、以下のように、より不自然な英語となるため、この場合の仮説の仮説スコアは、表8の場合の仮説の仮説スコアよりも小さくなる。
「international The terrorism also is a possible threat in Japan」
Table 9 shows an example different from the generation rule with word range shown in Table 8. Table 9 is the same as Table 8 except that the contents of the application orders “1” and “2” are different. In this case, the generation rule r (1) is selected in the state “1”, and the generation rule r (3) is selected in the state “2”. At this time, since the translation solution as a word string from the head of the target language is as follows, the hypothesis score of the hypothesis in the case of Table 8 is as follows. Smaller than.
"International The terrorism also is a possible threat in Japan"

Figure 2008015844
Figure 2008015844

本実施形態の機械翻訳装置2によれば、入力された翻訳元言語の単語列において未翻訳の部分に対して部分仮説を順次拡張するように、生成規則をトップダウンに展開し、対応する部分仮説を作成することにより、入力に対応する翻訳先言語の仮説を、文頭から文末にかけて逐次的に生成することができる。また、機械翻訳装置2は、生成規則ごとの翻訳モデルおよび言語モデルに基づいて、部分仮説スコアを算出し、部分仮説スコア(この場合には仮説スコア)が最大となる仮説を翻訳先言語の単語列として探索する。したがって、翻訳先言語の単語列の翻訳精度を向上させることができる。   According to the machine translation apparatus 2 of the present embodiment, the generation rules are expanded top-down so that partial hypotheses are sequentially expanded with respect to untranslated parts in the input word string of the source language, and the corresponding parts By creating a hypothesis, it is possible to sequentially generate a hypothesis of the translation target language corresponding to the input from the beginning of the sentence to the end of the sentence. Further, the machine translation device 2 calculates a partial hypothesis score based on the translation model and language model for each generation rule, and determines the hypothesis having the maximum partial hypothesis score (in this case, the hypothesis score) as a word in the translation destination language. Search as a column. Therefore, the translation accuracy of the word string in the translation destination language can be improved.

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、本実施形態では、日英の翻訳を例に説明したが、これに限定されるものではない。生成規則作成装置により生成規則を作成すれば、任意の多言語間でこの翻訳装置を使用することが可能である。   As mentioned above, although embodiment of this invention was described, this invention is not limited to this, It can implement in the range which does not change the meaning. For example, in the present embodiment, Japanese-English translation has been described as an example, but the present invention is not limited to this. If a production rule is created by the production rule creation device, this translation device can be used between any multilinguals.

本発明の効果を確認するために翻訳実験を行った。具体的には、約18万文からなる新聞記事の日英対訳コーパスから、素性重み学習用対訳コーパス(development set)と、翻訳結果を評価するための評価セット(test set)を各々1500文ずつサンプリングした。新聞記事の日英対訳コーパスについては、「Masao Utiyama and Hitoshi Isahara. Reliable measures for aligning Japanese-English news articles and sentences. In Pro. of ACL 2003, pages 72-79, 2003」に記載されている。また、残りの対訳に約130万エントリの日英辞書(dictionary)を加えたものを、「生成規則作成装置」の学習用の対訳コーパス(training set)とした。各training set、development set、test setの大きさを表10に示す。   Translation experiments were conducted to confirm the effects of the present invention. Specifically, from a Japanese-English bilingual corpus of approximately 180,000 newspaper articles, a feature-weight learning bilingual corpus (development set) and an evaluation set (test set) for evaluating translation results are each 1500 sentences. Sampling. The Japanese-English bilingual corpus of newspaper articles is described in “Masao Utiyama and Hitoshi Isahara. Reliable measures for aligning Japanese-English news articles and sentences. In Pro. Of ACL 2003, pages 72-79, 2003”. In addition, a bilingual corpus (training set) for learning of the “generation rule creation device” is obtained by adding a Japanese-English dictionary (about 1.3 million entries) to the remaining parallel translations. Table 10 shows the size of each training set, development set, and test set.

Figure 2008015844
Figure 2008015844

trainingsetで、単語ベースのHMM(Hidden Markov Model)翻訳モデルを学習し、それを活用して多対多の単語対応を求めた。なお、HMM翻訳モデルについては、「Franz Josef Och and Hermann Ney. A systematic comparison of various statistical alignment models. Computational Linguistics,29(1):19-51,March 2003」に記載されている。   In trainingset, we learned a word-based HMM (Hidden Markov Model) translation model and used it to find a many-to-many word correspondence. The HMM translation model is described in “Franz Josef Och and Hermann Ney. A systematic comparison of various statistical alignment models. Computational Linguistics, 29 (1): 19-51, March 2003”.

さらにそれを用いてフレーズペアを抽出するとともに、生成規則の生成を行なった(表11参照)。表11のPhraseやHierarchalのrules/phrasesには、グルー規則の数は入っていない。また、Normalized-2、Normalized-3の規則数は、前記した式(9)〜式(9d)のうち、式(9)だけをカウントしている。   Furthermore, the phrase pair was extracted using it, and the production | generation rule was produced | generated (refer Table 11). Phrase and Hierarchal rules / phrases in Table 11 do not contain the number of glue rules. In addition, the number of rules of Normalized-2 and Normalized-3 counts only Expression (9) among Expressions (9) to (9d) described above.

Figure 2008015844
Figure 2008015844

Phraseは非特許文献3にあるフレーズペアを用いた翻訳手法(比較例1)を示す。一方、Normalized-2およびNormalized-3は本実施形態による翻訳手法を表す。ここで、Nomalized-2は、非終端記号の数を2個までという制約のもとに生成規則を求めたものに対応している(実施例1)。また、Nomalized-3は、非終端記号の数を3個までという制約のもとに生成規則を求めたものに対応している(実施例2)。また、Hierarchicalは非特許文献2による翻訳手法を表す(比較例2)。表11で明らかなように、本実施形態(Normalized-2、Normalized-3)は、Phraseより生成規則数が増えるものの、Hierarchicalと比べて大幅に生成規則数を抑えることができた。さらに、表12に翻訳精度示す。   Phrase indicates a translation method (Comparative Example 1) using a phrase pair described in Non-Patent Document 3. On the other hand, Normalized-2 and Normalized-3 represent translation methods according to this embodiment. Here, Normalized-2 corresponds to a case where a generation rule is obtained under the restriction that the number of non-terminal symbols is two (Example 1). Further, Normalized-3 corresponds to the one for which the generation rule is obtained under the restriction that the number of non-terminal symbols is three (Example 2). Moreover, Hierarchical represents the translation method by a nonpatent literature 2 (comparative example 2). As is clear from Table 11, in this embodiment (Normalized-2, Normalized-3), although the number of generation rules is larger than that of Phrase, the number of generation rules can be significantly suppressed as compared with Hierarchical. Furthermore, Table 12 shows the translation accuracy.

Figure 2008015844
Figure 2008015844

翻訳精度を比較する実験では、句に基づく統計的機械翻訳(Phraseを翻訳手法として使用)と本実施形態による統計的機械翻訳(Nomalized-2を翻訳手法として使用)を比較した。それぞれ、言語モデルとして3-gram、5-gramを用いた。評価尺度には、n-gramの正解率に基づく指標であるBLEUとNISTとを用いた。   In an experiment for comparing translation accuracy, statistical machine translation based on phrases (Phrase is used as a translation technique) and statistical machine translation according to the present embodiment (Nomalized-2 is used as a translation technique) were compared. For each, 3-gram and 5-gram were used as language models. As the evaluation scale, BLEU and NIST, which are indices based on the accuracy rate of n-gram, were used.

なお、BLEUについては、「Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a method for automatic evaluation of machine translation. In Proc. of ACL 2002, p. 311-318, 2002」に記載されている。また、NISTについては、「National Institute of Standards and Technology. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. http://www.nist.gov/speech/tests/mt/doc/ngram-study.pdf, 2002」に記載されている。   BLEU is described in “Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a method for automatic evaluation of machine translation. In Proc. Of ACL 2002, p. 311-318, 2002”. Has been. For NIST, see “National Institute of Standards and Technology. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. Http://www.nist.gov/speech/tests/mt/doc/ngram-study .pdf, 2002 ".

表12の実験結果は、Normalized-2(実施例1)がPhrase(比較例1)よりも高精度の翻訳が得られることを示している。また、3-gramから5-gramに変えたとき、Phraseと比べてNomalized-2の精度改善が著しいことから、実施例1が長いn-gramを有効活用できることを示唆している。本発明の実施形態は、生成規則に強い制約を設けているが、PhraseとNormalized-2との翻訳精度を比較した実験結果から、生成規則に設けた制約が翻訳モデルとして妥当であると言える。   The experimental results in Table 12 indicate that Normalized-2 (Example 1) can obtain translation with higher accuracy than Phrase (Comparative Example 1). In addition, when changing from 3-gram to 5-gram, the accuracy improvement of Normalized-2 is significant compared to Phrase, suggesting that Example 1 can effectively use a long n-gram. Although the embodiment of the present invention has a strong restriction on the generation rule, it can be said that the restriction provided on the generation rule is valid as a translation model from the experimental results comparing the translation accuracy of Phrase and Normalized-2.

本発明の実施形態に係る生成規則作成装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the production | generation rule production apparatus which concerns on embodiment of this invention. 日英の対訳の単語対応の例を示す図である。It is a figure which shows the example of word correspondence of a Japanese-English parallel translation. 図1に示したルールテーブルの例を示す図である。It is a figure which shows the example of the rule table shown in FIG. 図1に示した生成規則作成装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the production | generation rule preparation apparatus shown in FIG. 本発明の実施形態に係る機械翻訳装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the machine translation apparatus which concerns on embodiment of this invention. 図5に示した機械翻訳装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the machine translation apparatus shown in FIG. 図5に示した部分仮説から仮説への拡張例を示す図である。It is a figure which shows the example of an extension from the partial hypothesis shown in FIG. 5 to a hypothesis. 図7に示した仮説への拡張例に対応した同期文脈自由文法の木構造を示す図である。It is a figure which shows the tree structure of the synchronous context free grammar corresponding to the example extended to the hypothesis shown in FIG.

符号の説明Explanation of symbols

1 生成規則作成装置
2 機械翻訳装置
10 入出力手段
11 記憶手段
111 単語対応
112 フレーズペア
113 ルール
114 ルールテーブル
12 単語対応作成モジュール
13 制御手段
131 モード判定手段
132 フレーズペア抽出手段
133 生成規則作成手段
134 翻訳スコア計算手段
150 対訳コーパス
20 入出力手段
21 記憶手段
211 素性重み
212 単語情報
213 単語範囲付きルール
214 部分仮説
215 言語モデル
216 部分仮説スコア
22 素性重み学習モジュール
23 単語情報抽出モジュール
24 制御手段
241 生成規則探索手段
242 単語範囲付き生成規則生成手段
243 部分仮説スコア算出手段
244 仮説探索手段
250 素性重み学習用対訳コーパス
K 入力装置
D 出力装置
DESCRIPTION OF SYMBOLS 1 Generation rule creation apparatus 2 Machine translation apparatus 10 Input / output means 11 Storage means 111 Word correspondence 112 Phrase pair 113 Rule 114 Rule table 12 Word correspondence creation module 13 Control means 131 Mode determination means 132 Phrase pair extraction means 133 Generation rule creation means 134 Translation score calculation means 150 Bilingual corpus 20 Input / output means 21 Storage means 211 Feature weight 212 Word information 213 Rule with word range 214 Partial hypothesis 215 Language model 216 Partial hypothesis score 22 Feature weight learning module 23 Word information extraction module 24 Control means 241 Generation Rule search means 242 Generation rule generation means with word range 243 Partial hypothesis score calculation means 244 Hypothesis search means 250 Bilingual corpus for feature weight learning K input device D output device

Claims (7)

同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置であって、
前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索手段と、
前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成手段と、
前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出手段と、
前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索手段と、
を備えることを特徴とする機械翻訳装置。
Stores multiple generation rules generated so that the destination language symbol string on the right side of the generation rule that generates the target language word string from the source language word string using the synchronous context free grammar starts from the terminal symbol A new partial hypothesis that is longer than a predetermined partial hypothesis is generated as a word sequence in the translation target language corresponding to the input, which is the translation result of the input word sequence in the translation source language. A machine translation device that outputs a hypothesis that is a partial hypothesis finally generated by sequentially creating and extending the predetermined partial hypothesis,
Generation rule search means for searching each rule table for a generation rule applicable to extend the predetermined partial hypothesis;
The non-terminal symbol of the searched generation rule is determined based on the number of words and the word position of the word constituting the input word string of the input source language with respect to the source language side of the searched generation rule. A word range generation rule generating means for adding a word range indicating a range of a word string of the translation source language to be generated and generating each applicable generation rule with a word range;
A translated word on the translation target language side included in the generated generation rule with a word range and the word range are created as the new partial hypothesis, and the applicable generation rule is applied top-down, and In the applicable production rule, the new partial hypothesis is expanded in the order in which the non-terminal symbols on the translation target language side are arranged from the head of the sentence to the end of the sentence. A partial hypothesis for calculating a partial hypothesis score indicating an evaluation value of the created partial hypothesis based on a score of the translation model representing the likelihood and a score of the language model representing the probability as the word string of the translation target language A score calculation means;
Among the partial hypotheses finally generated by searching for a predetermined partial hypothesis applicable to the input word string of the source language and extending the predetermined partial hypothesis, the partial hypothesis score A hypothesis search means for searching for a partial hypothesis with the maximum as the hypothesis,
A machine translation device comprising:
同期文脈自由文法を用いて翻訳元言語の単語列から翻訳先言語の単語列を生成する生成規則の右辺の前記翻訳先言語の記号列が終端記号から始まるように生成された生成規則が複数格納されたルールテーブルを利用して、入力された翻訳元言語の単語列の翻訳結果である前記入力に対応する翻訳先言語の単語列として、所定の部分仮説からそれよりも長い新たな部分仮説を順次作成して前記所定の部分仮説を拡張することによって最終的に生成された部分仮説である仮説を出力する機械翻訳装置の機械翻訳方法であって、
前記機械翻訳装置は、
前記所定の部分仮説を拡張するために適用可能な生成規則を前記ルールテーブルからそれぞれ探索する生成規則探索ステップと、
前記探索された生成規則の翻訳元言語側に対して、前記入力された翻訳元言語の単語列を構成する単語の単語数と単語位置とに基づいて、前記探索された生成規則の非終端記号が被う翻訳元言語の単語列の範囲を示す単語範囲を付加して、適用可能な単語範囲付き生成規則をそれぞれ生成する単語範囲付き生成規則生成ステップと、
前記生成された単語範囲付き生成規則に含まれる翻訳先言語側の翻訳済み単語と前記単語範囲とを、前記新たな部分仮説として作成すると共に、前記適用可能な生成規則をトップダウンに適用し且つ前記適用可能な生成規則において翻訳先言語側の非終端記号が文頭から文末に亘って並べられた順序で、前記新たな部分仮説を拡張し、前記生成規則ごとにそれぞれ予め求められた、翻訳の確からしさを表す翻訳モデルのスコアと、前記翻訳先言語の単語列としての確からしさを表す言語モデルのスコアとに基づいて、前記作成された部分仮説の評価値を示す部分仮説スコアを算出する部分仮説スコア算出ステップと、
前記入力された翻訳元言語の単語列に対して適用可能な所定の部分仮説を探索し、前記所定の部分仮説を拡張することによって最終的に生成された部分仮説のうちで、前記部分仮説スコアが最大となる部分仮説を、前記仮説として探索する仮説探索ステップと、
を有することを特徴とする機械翻訳方法。
Stores multiple generation rules generated so that the destination language symbol string on the right side of the generation rule that generates the target language word string from the source language word string using the synchronous context free grammar starts from the terminal symbol A new partial hypothesis that is longer than a predetermined partial hypothesis is generated as a word sequence in the translation target language corresponding to the input, which is the translation result of the input word sequence in the translation source language. A machine translation method of a machine translation device that outputs a hypothesis that is a partial hypothesis finally generated by sequentially creating and expanding the predetermined partial hypothesis,
The machine translation device includes:
A production rule search step of searching the rule table for a production rule applicable to extend the predetermined partial hypothesis;
The non-terminal symbol of the searched generation rule is determined based on the number of words and the word position of the word constituting the input word string of the input source language with respect to the source language side of the searched generation rule. Adding a word range indicating a range of a word string of the translation source language to be covered, and generating a generation rule with a word range, each generating a generation rule with a word range,
A translated word on the translation target language side included in the generated generation rule with a word range and the word range are created as the new partial hypothesis, and the applicable generation rule is applied top-down, and In the applicable production rule, the new partial hypothesis is expanded in the order in which the non-terminal symbols on the translation target language side are arranged from the head of the sentence to the end of the sentence. A partial hypothesis for calculating a partial hypothesis score indicating an evaluation value of the created partial hypothesis based on a score of the translation model representing the likelihood and a score of the language model representing the probability as the word string of the translation target language A score calculating step;
Among the partial hypotheses finally generated by searching for a predetermined partial hypothesis applicable to the input word string of the source language and extending the predetermined partial hypothesis, the partial hypothesis score A hypothesis search step for searching for a partial hypothesis with the maximum as the hypothesis,
A machine translation method comprising:
請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置であって、
翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出手段と、
前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成手段と、
を備えることを特徴とする生成規則作成装置。
A production rule creation device for creating a production rule used in the machine translation device according to claim 1,
The combination stored in the bilingual corpus having a plurality of combinations of a source language word string and a target language word string having the same meaning based on the word correspondence between the source language word and the target language word A phrase pair extraction means for extracting a combination of words or phrases having the same meaning in the translation source language and the translation destination language as a phrase pair;
Based on the extracted phrase pair, in the generation rule of the synchronization context free grammar, a generation rule creating means for creating a generation rule to which a restriction that the symbol string of the translation target language on the right side starts with a terminal symbol is added;
A production rule creation device comprising:
請求項1に記載の機械翻訳装置で利用する生成規則を作成する生成規則作成装置の生成規則作成方法であって、
前記生成規則作成装置は、
翻訳元言語の単語と翻訳先言語の単語との単語対応に基づき、互いに同じ意味を有する翻訳元言語の単語列と翻訳先言語の単語列との組合せを複数備える対訳コーパスに格納された前記組合せから、前記翻訳元言語と翻訳先言語において互いに同じ意味を有する単語または句の組合せをフレーズペアとして抽出するフレーズペア抽出ステップと、
前記抽出されたフレーズペアに基づいて、同期文脈自由文法の生成規則において、右辺の前記翻訳先言語の記号列が終端記号から始まるという制約を加えた生成規則を作成する生成規則作成ステップと、
を有することを特徴とする生成規則作成方法。
A production rule creation method of a production rule creation device for creating a production rule used in the machine translation device according to claim 1,
The generation rule creating device is
The combination stored in the bilingual corpus having a plurality of combinations of a source language word string and a target language word string having the same meaning based on the word correspondence between the source language word and the target language word A phrase pair extraction step of extracting a combination of words or phrases having the same meaning in the translation source language and the translation destination language as a phrase pair;
Based on the extracted phrase pair, in the generation rule of the synchronous context free grammar, a generation rule creation step of creating a generation rule with a restriction that the symbol string of the translation target language on the right side starts with a terminal symbol;
A production rule creation method characterized by comprising:
請求項2に記載の機械翻訳方法をコンピュータに実行させることを特徴とする機械翻訳プログラム。   A machine translation program for causing a computer to execute the machine translation method according to claim 2. 請求項4に記載の生成規則作成方法をコンピュータに実行させることを特徴とする生成規則作成プログラム。   A generation rule creation program for causing a computer to execute the production rule creation method according to claim 4. 請求項5に記載の機械翻訳プログラムまたは請求項6に記載の生成規則作成プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium in which the machine translation program according to claim 5 or the production rule creation program according to claim 6 is recorded.
JP2006187240A 2006-07-06 2006-07-06 Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof Active JP4829702B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006187240A JP4829702B2 (en) 2006-07-06 2006-07-06 Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006187240A JP4829702B2 (en) 2006-07-06 2006-07-06 Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2008015844A true JP2008015844A (en) 2008-01-24
JP4829702B2 JP4829702B2 (en) 2011-12-07

Family

ID=39072784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006187240A Active JP4829702B2 (en) 2006-07-06 2006-07-06 Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4829702B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242895A (en) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> Translation device, method and program for machine translation
JP2013257660A (en) * 2012-06-11 2013-12-26 National Institute Of Information & Communication Technology Translation device, translation method and program
US10572605B2 (en) 2016-06-16 2020-02-25 Samsung Electronics Co., Ltd. Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296326A (en) * 2002-04-03 2003-10-17 Just Syst Corp Machine translation system, machine translation method and machine translation program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296326A (en) * 2002-04-03 2003-10-17 Just Syst Corp Machine translation system, machine translation method and machine translation program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242895A (en) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> Translation device, method and program for machine translation
JP2013257660A (en) * 2012-06-11 2013-12-26 National Institute Of Information & Communication Technology Translation device, translation method and program
US10572605B2 (en) 2016-06-16 2020-02-25 Samsung Electronics Co., Ltd. Electronic device for providing translation service and method thereof for determining translation candidate text from a plurality of candidate texts

Also Published As

Publication number Publication date
JP4829702B2 (en) 2011-12-07

Similar Documents

Publication Publication Date Title
JP5774751B2 (en) Extracting treelet translation pairs
US8229731B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
Kanthak et al. Novel reordering approaches in phrase-based statistical machine translation
US9176936B2 (en) Transliteration pair matching
JP5586817B2 (en) Extracting treelet translation pairs
KR101544690B1 (en) Word division device, word division method, and word division program
Hellsten et al. Transliterated mobile keyboard input via weighted finite-state transducers
KR20230009564A (en) Learning data correction method and apparatus thereof using ensemble score
JP5180522B2 (en) Machine translation apparatus, machine translation method, program thereof, and recording medium
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
JP4829702B2 (en) Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof
JP2010244385A (en) Machine translation device, machine translation method, and program
JP5565827B2 (en) A sentence separator training device for language independent word segmentation for statistical machine translation, a computer program therefor and a computer readable medium.
JP5544518B2 (en) Machine translation apparatus, machine translation method, and program thereof
JP4113204B2 (en) Machine translation apparatus, method and program thereof
JP5780670B2 (en) Translation apparatus, method, and program, and translation model learning apparatus, method, and program
Jabaian et al. A unified framework for translation and understanding allowing discriminative joint decoding for multilingual speech semantic interpretation
Finch et al. A bayesian model of transliteration and its human evaluation when integrated into a machine translation system
Hewavitharana et al. The CMU statistical machine translation system for IWSLT2005
Zhu Optimized Chinese pronunciation prediction by component-based statistical machine translation
KR100910275B1 (en) Method and apparatus for automatic extraction of transliteration pairs in dual language documents
Xu et al. Partitioning parallel documents using binary segmentation
JP2006024114A (en) Mechanical translation device and mechanical translation computer program
KR20090042201A (en) Method and apparatus for automatic extraction of transliteration pairs in dual language documents
Lee et al. IBM Chinese-to-English PatentMT System for NTCIR-9.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080730

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4829702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350