JP2017142757A - Information processing method, device, and program - Google Patents

Information processing method, device, and program Download PDF

Info

Publication number
JP2017142757A
JP2017142757A JP2016025252A JP2016025252A JP2017142757A JP 2017142757 A JP2017142757 A JP 2017142757A JP 2016025252 A JP2016025252 A JP 2016025252A JP 2016025252 A JP2016025252 A JP 2016025252A JP 2017142757 A JP2017142757 A JP 2017142757A
Authority
JP
Japan
Prior art keywords
phrase
subset
sentence
pair
covered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016025252A
Other languages
Japanese (ja)
Other versions
JP6498135B2 (en
Inventor
正彬 西野
Masaaki Nishino
正彬 西野
潤 鈴木
Jun Suzuki
潤 鈴木
昌明 永田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016025252A priority Critical patent/JP6498135B2/en
Publication of JP2017142757A publication Critical patent/JP2017142757A/en
Application granted granted Critical
Publication of JP6498135B2 publication Critical patent/JP6498135B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To acquire a phrase table with the number of phrase couples reduced for performing translation with high accuracy.SOLUTION: A selection processing part 22 selects a subset X from a phrase table so as to optimize an object function with a deteriorated modular function, represented by using the number of times when each of the k-th words eof a sentence eof an original language is covered with a phrase couple zincluded in the subset X of the phrase table being a set of phrase couples zabout each of a pair (e, f) of training bilingual corpuses and the number of times when each of the k-th words fof a sentence fof a target language is covered with a phrase couple zincluded in the subset X, as an object function.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理方法、装置、及びプログラムに関する。   The present invention relates to an information processing method, apparatus, and program.

統計的機械翻訳法とは、確率・統計の技術を用いてある言語(以下、原言語と称する。)で書かれた文書を別の言語(以下、目的言語と称する。)で書かれた文書へと自動的に翻訳する手法のことである。様々な統計的機械翻訳手法が存在するが、その中の1つであるフレーズに基づく統計的機械翻訳では、原言語の文を、語の連なりからなる句を並べたものとして表現し、それを目的言語の対応する句の並びに変換することで翻訳を行う。   A statistical machine translation method is a document written in one language (hereinafter referred to as a source language) using a probability / statistical technique and written in another language (hereinafter referred to as a target language). It is a method of automatically translating into There are various statistical machine translation techniques, but in statistical machine translation based on one of the phrases, the source language sentence is expressed as a sequence of phrases consisting of a series of words, Translation is performed by converting the corresponding phrases in the target language.

フレーズに基づく統計的機械翻訳を行うためには、フレーズテーブルとよばれる、原言語のあるフレーズが目的言語のどのフレーズに訳されるかを示したテーブルを用意する必要がある。フレーズテーブルをSとする。Sの構成要素はフレーズ対(p,q)である。ここでpは原言語のフレーズであり、qは目的言語のフレーズである。フレーズテーブルに含まれるフレーズ対の種類が、その翻訳システムが翻訳可能な語彙を定めていることから、一般にフレーズテーブルに含まれるフレーズ対の総数は膨大な数になる。   In order to perform statistical machine translation based on a phrase, it is necessary to prepare a table called a phrase table that indicates a phrase in a target language into which a phrase in the source language is translated. Let S be the phrase table. The component of S is a phrase pair (p, q). Here, p is a phrase in the source language, and q is a phrase in the target language. Since the types of phrase pairs included in the phrase table define the vocabulary that can be translated by the translation system, the total number of phrase pairs included in the phrase table is generally enormous.

フレーズに基づく統計的機械翻訳システムによって翻訳を行う際には、計算機の記憶装置に格納されたフレーズテーブルに繰り返しアクセスする必要がある。フレーズテーブルに含まれるフレーズ対の数が膨大となると、翻訳文を生成する際に取りうる選択肢が増加することから、結果的に翻訳文の生成に時間がかかるようになる。   When translation is performed by a phrase-based statistical machine translation system, it is necessary to repeatedly access a phrase table stored in a storage device of a computer. If the number of phrase pairs included in the phrase table is enormous, the number of options that can be taken when generating a translation increases, and as a result, it takes time to generate the translation.

また、一般に、フレーズテーブルに含まれるフレーズ対は、対訳関係にある原言語と目的言語の文の対の単語アラインメントの結果をもとにして自動的に獲得されるものであるが、こうして得られたフレーズ対には対訳関係になっていない、質の悪いフレーズ対も多く含まれる。質の悪いフレーズ対は翻訳生成時のノイズとなって生成される翻訳の質の低下につながる。これらの理由から、与えられたフレーズテーブルから質の悪いフレーズを除いてより小さなフレーズテーブルを作成する技術が検討されている(例えば、非特許文献1)。   In general, the phrase pairs included in the phrase table are automatically obtained based on the word alignment result of the sentence pairs of the source language and the target language that are in a parallel translation relationship. There are many poor-quality phrase pairs that are not translated in parallel. Poor-quality phrase pairs become noise at the time of translation generation, leading to deterioration in the quality of the generated translation. For these reasons, a technique for creating a smaller phrase table by removing a poor quality phrase from a given phrase table has been studied (for example, Non-Patent Document 1).

Zens, Richard and Stanton, Daisy and Xu, Peng,“A Systematic Comparison of Phrase Table Pruning Techniques”, In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012.Zens, Richard and Stanton, Daisy and Xu, Peng, “A Systematic Comparison of Phrase Table Pruning Techniques”, In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012.

非特許文献1では、エントロピーを用いてフレーズ対に点数をつけ、その点数に基づいて不要なフレーズ対を削除することで小さなフレーズテーブルを作成する手法が提案されている。   Non-Patent Document 1 proposes a method of creating a small phrase table by scoring a phrase pair using entropy and deleting unnecessary phrase pairs based on the score.

しかし、この手法では各フレーズ対について独立に点数を付与して、点数が高いものを取り出すという処理を行うため、点数が高いフレーズ対の集まりとして構成されるフレーズテーブルの性質を直接評価することができないため、フレーズテーブルの質が低下する、つまりフレーズ対の個数を削減したテーブルを用いて統計的機械翻訳システムを構築すると、翻訳精度が低下することがあった。
また、エントロピーを用いたフレーズ対の削減を行うためには、各フレーズ対に含まれるフレーズの長さに対して指数時間の計算を必要とするため、長いフレーズからなるフレーズ対が多く含まれる場合には、効率的な計算が困難であるという課題があった。
However, in this method, a score is independently assigned to each phrase pair, and a process having a high score is taken out. Therefore, it is possible to directly evaluate the properties of the phrase table configured as a collection of phrase pairs having a high score. Therefore, when the statistical machine translation system is constructed using a table in which the number of phrase pairs is reduced, the translation accuracy may be lowered.
In addition, in order to reduce the number of phrase pairs using entropy, it is necessary to calculate the exponent time for the length of the phrase included in each phrase pair, so there are many phrase pairs consisting of long phrases. However, there was a problem that efficient calculation was difficult.

本発明は、上記の事情を鑑みてなされたもので、精度よく翻訳を行うための、フレーズ対の数が削減されたフレーズテーブルを得ることができる情報処理方法、装置、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and provides an information processing method, apparatus, and program capable of obtaining a phrase table with a reduced number of phrase pairs for accurate translation. With the goal.

上記の目的を達成するために本発明に係る情報処理方法は、選択処理手段を含み、原言語の文eと前記原言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、原言語の文eの部分文字列であるフレーズpと、前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対zの集合であるフレーズテーブルから、部分集合を選択する情報処理装置における情報処理方法であって、前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(e,f)の各々についての、前記原言語の文eのk番目の単語eikの各々が、前記フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれる前記フレーズ対zによって被覆される回数と、前記目的言語の文fのk番目の単語fikの各々が、前記部分集合Xに含まれる前記フレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択するステップを含んで構成されている。 The information processing method according to the present invention in order to achieve the above object, includes a selection processing means, the pair of the sentence f i in the target language is a translation of the sentence e i of the original said the sentence e i of the source language Language A phrase p i that is a partial character string of a sentence e i in the source language, which is generated in advance from a training parallel translation corpus that is a set of (e i , f i ), and the phrase p i , and the purpose An information processing method in an information processing apparatus for selecting a subset from a phrase table that is a set of phrase pairs z i with a phrase q i that is a partial character string of a sentence f i in a language, wherein the selection processing means includes: For each of the pairs (e i , f i ) of the training bilingual corpus, each of the kth words e ik of the source language sentence e i is a set of phrase pairs z j Before being included in subset X The number of times that is covered by the phrase pair z j, each of the k-th word f ik sentence f i of the target language, with the number of times that is covered by the phrase pair z j included in the subset X A step of selecting a subset X from the phrase table so as to optimize the objective function using the expressed submodular function as an objective function.

本発明に係る情報処理装置は、原言語の文eと前記原言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、原言語の文eの部分文字列であるフレーズpと、前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対zの集合であるフレーズテーブルから、部分集合を選択する情報処理装置であって、前記訓練用対訳コーパスの前記ペア(e,f)の各々についての、前記原言語の文eのk番目の単語eikの各々が、前記フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれる前記フレーズ対zによって被覆される回数と、前記目的言語の文fのk番目の単語fikの各々が、前記部分集合Xに含まれる前記フレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択する選択処理手段を含んで構成されている。 The information processing apparatus according to the present invention, sentence f i and the pair (e i, f i) of the target language is a translation of the sentence e i of the source language with sentence e i of the source language translation for a set of training generated in advance from the corpus, the phrase p i is a substring of the text e i of the source language, a translation of the phrase p i, and phrase q i is a substring of the sentence f i in the target language Is an information processing apparatus that selects a subset from a phrase table that is a set of phrase pairs z i with respect to each of the pairs (e i , f i ) of the training bilingual corpus each k-th word e ik statement e i is the number of times that is covered by the phrase pair z j included in the subset X a phrase table which is a set of the phrase pair z j, sentence f of the target language i of the k-th word f ik of Portion s is submodularity function expressed by using the number of times it is covered by the phrase pair z j included in the subset X as an objective function, so as to optimize the objective function, from the phrase table Selection processing means for selecting the set X is included.

前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、貪欲法を用いて前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択するようにすることができる。   The step of selecting the subset X from the phrase table by the selection processing means may select the subset X from the phrase table so as to optimize the objective function using a greedy method.

前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、以下の式に示す前記目的関数g(X)を最適化するように、前記フレーズテーブルから部分集合Xを選択するようにすることができる。   The step of selecting the subset X from the phrase table by the selection processing means selects the subset X from the phrase table so as to optimize the objective function g (X) represented by the following equation: be able to.

Figure 2017142757
ただし、Kは、部分集合のサイズを表す予め定められた値である。Eは、前記訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、前記訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、前記単語fikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表し、c(X,eik)は、前記単語eikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表す。
Figure 2017142757
Here, K is a predetermined value representing the size of the subset. E represents a set of source language sentences {e 1 ,..., E N } in the training bilingual corpus, and F represents a set of target language sentences {f 1 ,. ., f N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) represents the word e ik is the part This represents the number of times covered by the phrase pair z j included in the set X.

前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、以下の式に示す前記目的関数h(X)を最適化するように、前記フレーズテーブルから部分集合Xを選択するようにすることができる。   The step of selecting the subset X from the phrase table by the selection processing means selects the subset X from the phrase table so as to optimize the objective function h (X) represented by the following equation: be able to.

Figure 2017142757
ただし、Eは、前記訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、前記訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、前記単語fikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表し、c(X,eik)は、前記単語eikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表す。λは0≦λ≦1であるようなパラメーである。I(・)は、引数が真のときに1、引数が偽のときに0を返すような関数である。
Figure 2017142757
Where E represents a set of source language sentences {e 1 ,..., E N } in the training bilingual corpus, and F represents a set of target language sentences {f 1 ,. ..., f N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) represents the word e ik is the part This represents the number of times covered by the phrase pair z j included in the set X. λ is a parameter such that 0 ≦ λ ≦ 1. I (•) is a function that returns 1 when the argument is true and 0 when the argument is false.

本発明に係るプログラムは、本発明の情報処理方法の各ステップをコンピュータに実行させるためのプログラムである。   The program according to the present invention is a program for causing a computer to execute each step of the information processing method of the present invention.

以上説明したように、本発明の情報処理方法、装置、及びプログラムによれば、訓練用対訳コーパスのペア(e,f)の各々についての、原言語の文eのk番目の単語eikの各々が、フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれるフレーズ対zによって被覆される回数と、目的言語の文fのk番目の単語fikの各々が、部分集合Xに含まれるフレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、当該目的関数を最適化するように、フレーズテーブルから部分集合Xを選択することにより、精度良く翻訳を行うための、フレーズ対の数が削減されたフレーズテーブルを得ることができる、という効果が得られる。 As described above, according to the information processing method, apparatus, and program of the present invention, the kth word of the sentence e i in the source language for each pair (e i , f i ) of the training parallel translation corpus each e ik is the number of times that is covered by the phrase pair z j included in the subset X a phrase table is a set of phrase pair z j, each of the k-th word f ik sentence f i in the target language The subset X is selected from the phrase table so as to optimize the objective function using the submodular function expressed by the number of times covered by the phrase pair z j included in the subset X as an objective function. By this, the effect that the phrase table for which the number of phrase pairs for reducing a translation accurately can be obtained can be acquired.

本発明の実施の形態に係る情報処理装置の構成を示す概略図である。It is the schematic which shows the structure of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るアルゴリズムを示す図である。It is a figure which shows the algorithm which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置における選択処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the selection process routine in the information processing apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の概要>
本発明の実施の形態は、フレーズに基づく統計的機械翻訳で必要となるフレーズテーブルに格納されるフレーズ対の個数を削減するためのものである。本実施の形態では、フレーズテーブルからフレーズ対の集合を取り出す問題を、劣モジュラ関数を最大化する最適化問題として定式化し、これを貪欲法によって解くことでフレーズ対を取り出す。
<Outline of Embodiment of the Present Invention>
The embodiment of the present invention is to reduce the number of phrase pairs stored in a phrase table that is necessary for statistical machine translation based on phrases. In the present embodiment, the problem of extracting a set of phrase pairs from the phrase table is formulated as an optimization problem that maximizes the submodular function, and the phrase pairs are extracted by solving this by a greedy method.

<システム構成>
本発明の実施の形態に係る情報処理装置100は、訓練用対訳コーパスから予め生成されたフレーズテーブルSから、部分集合Xを選択する。この情報処理装置100は、CPUと、RAMと、後述する選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、情報処理装置100は、入力部10と、演算部20と、出力部30とを備えている。
<System configuration>
The information processing apparatus 100 according to the embodiment of the present invention selects the subset X from the phrase table S generated in advance from the training parallel translation corpus. The information processing apparatus 100 is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a selection processing routine described later, and is functionally configured as follows. . As illustrated in FIG. 1, the information processing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 30.

入力部10は、フレーズテーブルSと、原言語の文の集合E及び目的言語の文の集合Fを含んで構成される訓練用対訳コーパスとを入力として受け付ける。本実施の形態では、フレーズテーブルSをS={z,...,z}とする。フレーズテーブルSは、フレーズ対zの集合である。 The input unit 10 receives as input a phrase table S and a training parallel translation corpus that includes a set E of source language sentences and a set F of target language sentences. In the present embodiment, the phrase table S is S = {z 1 ,..., Z M }. The phrase table S is a set of phrase pairs z i .

フレーズテーブルSは、訓練用対訳コーパスから予め生成されている。訓練用対訳コーパスは、原言語の文eと当該原言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である。また、フレーズテーブルSは、訓練用対訳コーパスの原言語の文eの部分文字列であるフレーズpと当該フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合である。 The phrase table S is generated in advance from the training parallel translation corpus. The training bilingual corpus is a set of pairs (e i , f i ) of a source language sentence e i and a target language sentence f i that is a translation of the source language sentence e i . Further, the phrase table S is a bilingual phrase p i and the phrase p i is a substring of the text e i of the source language of the training corpus, and a partial character string of a sentence f i in the target language it is a set of phrase pair x i with a certain phrase q i.

また、Mはフレーズ対の総数を表し、x=(p,q)は原言語のフレーズpと目的言語のフレーズqとのペアである。フレーズはそれぞれ単語の列であり、 Further, M represents the total number of phrase pairs, and x i = (p i , q i ) is a pair of a source language phrase p i and a target language phrase q i . Each phrase is a sequence of words,

Figure 2017142757
Figure 2017142757

とする。Eは原言語の文の集合、Fは目的言語の文の集合とし、e,fをそれぞれ原言語、目的言語の文とする。lはpの語数とし、kはqの語数とする。E={e,...,e},F={f,...,f}であり、文eと文fとは対訳関係にある。各文は単語の系列として表現されており、 And E is a set of sentences in the source language, F is a set of sentences in the target language, and e i and f i are sentences in the source language and the target language, respectively. l i is the number of words of p i, k i is the number of words of q i. E = {e 1 ,. . . , E N }, F = {f 1 ,. . . , F N }, and sentence e i and sentence f i are in a bilingual relationship. Each sentence is expressed as a sequence of words,

Figure 2017142757
Figure 2017142757

とする。eijは原言語の単語でありnはeの語数とする。同様に And e ij is a source language word, and n i is the number of words in e i . As well

Figure 2017142757
Figure 2017142757

とする。mはfの語数とする。 And m i is the number of words of f i.

あるフレーズ対z=(p,q)と対訳コーパス中の文のペア(e,f)に対して、zがペアに含まれるとは、pがeのある部分列に一致し、かつqがfのある部分列に一致することと定義する。すなわち、 For a phrase pair z j = (p j , q j ) and a sentence pair (e i , f i ) in a parallel corpus, z j is included in the pair, where p j is part of e i It is defined that it matches a column and q j matches a substring with f i . That is,

Figure 2017142757
Figure 2017142757

を満たすような To meet

Figure 2017142757
Figure 2017142757

が存在することと定義する。このとき、p,qに一致する部分列に含まれる単語はzによって被覆されていると定義する。 Is defined to exist. At this time, words included in the partial string matching p j, the q j is defined as being covered by the z j.

演算部20は、入力部10によって受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、フレーズテーブルSから、部分集合を選択する。演算部20は、選択処理部22を備えている。   The computing unit 20 selects a subset from the phrase table S based on the training parallel translation corpus and the phrase table S received by the input unit 10. The calculation unit 20 includes a selection processing unit 22.

選択処理部22は、入力部10によって受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、劣モジュラ関数を目的関数として、当該目的関数を最適化するように、フレーズテーブルから部分集合X(フレーズテーブルX)を選択する。本実施形態では、貪欲法を用いて目的関数を最大化するように最適化問題を解くことによって、フレーズテーブルSから部分集合Xを選択する。   Based on the training parallel translation corpus and the phrase table S received by the input unit 10, the selection processing unit 22 uses the submodular function as an objective function and optimizes the objective function from the subset X (phrase). Select table X). In this embodiment, the subset X is selected from the phrase table S by solving the optimization problem so as to maximize the objective function using the greedy method.

本実施の形態では、訓練用対訳コーパスのペア(e,f)の各々についての、原言語の文eのk番目の単語eikの各々が、フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれるフレーズ対zによって被覆される回数と、目的言語の文fのk番目の単語fikの各々が、部分集合Xに含まれるフレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を、目的関数として用いる。 In the present embodiment, for each training bilingual corpus pair (e i , f i ), each k-th word e ik of the source language sentence e i is a set of phrase pairs z j. The number of times covered by the phrase pair z j included in the subset X of the table and each of the kth words f ik of the sentence f i in the target language are covered by the phrase pair z j included in the subset X A submodular function expressed by the number of times is used as an objective function.

具体的には、選択処理部22は、以下の式(1)に示す最適化問題を解くことによって、フレーズテーブルから部分集合Xを選択する。   Specifically, the selection processing unit 22 selects the subset X from the phrase table by solving the optimization problem shown in the following formula (1).

Figure 2017142757
Figure 2017142757

なお、変数g(X)は、以下の式(2)に示すように、フレーズ対の部分集合Xの良さを評価する目的関数である。   The variable g (X) is an objective function for evaluating the goodness of the phrase pair subset X, as shown in the following equation (2).

Figure 2017142757
Figure 2017142757

ただし、Kは、部分集合のサイズを表す予め定められた値である。Eは、訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、単語fikが部分集合Xに含まれるフレーズ対zにより被覆される回数を表し、c(X,eik)は、単語eikが部分集合Xに含まれるフレーズ対zにより被覆される回数を表す。 Here, K is a predetermined value representing the size of the subset. E represents a set of source language sentences {e 1 ,..., E N } in the training bilingual corpus, and F represents a set of target language sentences {f 1 ,. f N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) includes the word e ik in the subset X. It represents the number of times that is covered by the phrase pair z j.

また、g(X)は、E、F中に出現する語をより多く被覆するようなフレーズテーブルに対して高いスコアを与えるが、ある語を被覆した回数c(X,fik)又はc(X,eik)に対してその対数をとってスコアに加算することによって、異なる語を多く被覆するようなフレーズテーブルに対してより高いスコアが与えられる。 Also, g (X) gives a high score to a phrase table that covers more words appearing in E and F, but the number of times c (X, f ik ) or c ( Taking the logarithm of X, e ik ) and adding it to the score gives a higher score for a phrase table that covers many different words.

図2に、上記の最適化問題の近似解を求める貪欲法アルゴリズムを示す。図2に示すように、本実施形態では、まず部分集合Xを空集合として初期化したのちに、スコアを表す関数の差分g(X∪{z})−g(X)を最大化するようなz∈Sを順に選択し、部分集合Xに追加していくことによって、サイズKのフレーズテーブルである部分集合Xを生成する。選択処理部22は、上述の最適化問題を解くことによって、X⊆Sであるようなフレーズテーブルである部分集合Xを得る。   FIG. 2 shows a greedy algorithm for obtaining an approximate solution of the above optimization problem. As shown in FIG. 2, in this embodiment, first, the subset X is initialized as an empty set, and then the difference g (X∪ {z}) − g (X) of the function representing the score is maximized. By selecting zεS in order and adding them to the subset X, a subset X that is a phrase table of size K is generated. The selection processing unit 22 obtains a subset X that is a phrase table such that X⊆S by solving the above optimization problem.

出力部30は、選択処理部22によって選択された部分集合Xを、フレーズ対の数が削減されたフレーズテーブルとして出力する。   The output unit 30 outputs the subset X selected by the selection processing unit 22 as a phrase table in which the number of phrase pairs is reduced.

<情報処理装置の作用>
次に、本発明の実施の形態に係る情報処理装置100の作用について説明する。まず、訓練用対訳コーパス及びフレーズテーブルSが、情報処理装置100に入力されると、情報処理装置100によって、図3に示す選択処理ルーチンが実行される。
<Operation of information processing device>
Next, the operation of the information processing apparatus 100 according to the embodiment of the present invention will be described. First, when the training parallel translation corpus and the phrase table S are input to the information processing apparatus 100, the information processing apparatus 100 executes a selection processing routine shown in FIG.

まず、ステップS100において、入力部10により訓練用対訳コーパス及びフレーズテーブルSを受け付ける。   First, in step S <b> 100, a training parallel translation corpus and a phrase table S are received by the input unit 10.

そして、ステップS102において、選択処理部22は、上記ステップS100で受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、貪欲法を用いて、上記式(1)及び(2)に従って、フレーズテーブルSから部分集合Xを選択する。   In step S102, the selection processing unit 22 uses the greedy method based on the training parallel translation corpus and the phrase table S received in step S100, according to the above formulas (1) and (2). A subset X is selected from

ステップS104において、上記ステップS102で選択された部分集合Xを結果として出力し、選択処理ルーチンを終了する。   In step S104, the subset X selected in step S102 is output as a result, and the selection processing routine is terminated.

以上説明したように、本実施の形態に係る情報処理装置によれば、訓練用対訳コーパスのペア(e,f)の各々についての、原言語の文eのk番目の単語eikの各々が、フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれるフレーズ対zによって被覆される回数と、目的言語の文fのk番目の単語fikの各々が、部分集合Xに含まれるフレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、当該目的関数を最適化するように、フレーズテーブルから部分集合Xを選択することにより、精度良く翻訳を行うためのフレーズテーブルであり、かつフレーズ対が削減されたフレーズテーブルを得ることができる。また、フレーズ対の数が少ないフレーズテーブルを得ることができる。 As described above, according to the information processing apparatus according to the present embodiment, the k-th word e ik of the sentence e i in the source language for each pair (e i , f i ) of the parallel translation corpus for training. each, the number of times that is covered by the phrase pair z j included in the subset X a phrase table is a set of phrase pair z j, each of the k-th word f ik sentence f i of the target language, part of the By selecting the subset X from the phrase table so as to optimize the objective function using the submodular function represented by the number of times covered by the phrase pair z j included in the set X as the objective function. Therefore, it is possible to obtain a phrase table for performing translation with high accuracy and having reduced phrase pairs. Moreover, a phrase table with a small number of phrase pairs can be obtained.

また、その結果として翻訳文書生成処理の高速化、不要なフレーズ対を減らすことによる翻訳精度の向上が可能である。   As a result, it is possible to speed up the translation document generation process and improve translation accuracy by reducing unnecessary phrase pairs.

また、本実施形態によれば、エントロピーを用いた既存手法とは異なりフレーズテーブルの良さを直接評価することができるので、フレーズテーブル内のフレーズの削減が実現される。また、貪欲法による解法は、フレーズの数に対して多項式時間で動作し、フレーズ長に応じて指数的に時間がかかるようなことはない。そのため、膨大な数のフレーズ対を含むフレーズテーブルが入力として与えられたときも高速に動作する。   In addition, according to the present embodiment, unlike the existing method using entropy, the goodness of the phrase table can be directly evaluated, so that the number of phrases in the phrase table can be reduced. In addition, the solution by the greedy method operates in polynomial time with respect to the number of phrases, and does not take exponentially time according to the phrase length. Therefore, even when a phrase table including a huge number of phrase pairs is given as an input, it operates at high speed.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上記実施の形態では、劣モジュラ関数の一例として、上記式(2)に示したg(X)を用いる場合を例に説明したが、これに限定されるものではない。例えば、以下の式(3)に示すh(X)を目的関数として用いてもよい。   For example, in the above-described embodiment, the case where g (X) shown in the above formula (2) is used as an example of the submodular function has been described as an example. However, the present invention is not limited to this. For example, h (X) shown in the following formula (3) may be used as the objective function.

Figure 2017142757
Figure 2017142757

ただし、上記式(2)と同様に、Eは、訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、単語fikが部分集合Xに含まれるフレーズ対zにより被覆される回数を表し、c(X,eik)は、単語eikが部分集合Xに含まれるフレーズ対zにより被覆される回数を表す。また、λは0≦λ≦1であるようなパラメーである。I(・)は、引数が真のときに1、引数が偽のときに0を返すような関数である。 However, as in the above equation (2), E represents a set of sentences in the source language {e 1 ,..., E N } in the training bilingual corpus, and F represents the target language in the training bilingual corpus. Represents a set of sentences {f 1 ,..., F N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) includes the word e ik in the subset X. It represents the number of times that is covered by the phrase pair z j. Also, λ is a parameter such that 0 ≦ λ ≦ 1. I (•) is a function that returns 1 when the argument is true and 0 when the argument is false.

なお、λ<1として上記式(3)のh(X)を用いると、上記式(2)のg(X)と比べてより多くの異なる語を被覆するような部分集合Xに対して、スコアが高く設定される。   When h (X) in the above equation (3) is used as λ <1, for a subset X that covers more different words than g (X) in the above equation (2), A high score is set.

上述の情報処理装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The information processing apparatus 100 described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
20 演算部
22 選択処理部
30 出力部
100 情報処理装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Calculation part 22 Selection process part 30 Output part 100 Information processing apparatus

Claims (6)

選択処理手段を含み、原言語の文eと前記原言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、原言語の文eの部分文字列であるフレーズpと、前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対zの集合であるフレーズテーブルから、部分集合を選択する情報処理装置における情報処理方法であって、
前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(e,f)の各々についての、前記原言語の文eのk番目の単語eikの各々が、前記フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれる前記フレーズ対zによって被覆される回数と、前記目的言語の文fのk番目の単語fikの各々が、前記部分集合Xに含まれる前記フレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択するステップ
を含む情報処理方法。
From a training bilingual corpus that includes a selection processing means and is a set of pairs (e i , f i ) of a source language sentence e i and a target language sentence f i that is a parallel translation of the source language sentence e i phrases generated, and phrase p i is a substring of the text e i of the source language, a translation of the phrase p i, and the phrase q i is a substring of the sentence f i in the target language An information processing method in an information processing apparatus for selecting a subset from a phrase table that is a set of pairs z i ,
For each of the pairs (e i , f i ) of the training bilingual corpus, the selection processing means determines that each of the kth words e ik of the source language sentence e i of the phrase pair z j The number of times covered by the phrase pair z j included in the subset X of the phrase table that is a set, and each of the kth words f ik of the sentence f i of the target language are included in the subset X And selecting a subset X from the phrase table so as to optimize the objective function using a submodular function represented by the number of times covered by the phrase pair z j as an objective function. .
前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、貪欲法を用いて前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択する
請求項1に記載の情報処理方法。
The information according to claim 1, wherein the step of selecting the subset X from the phrase table by the selection processing unit selects the subset X from the phrase table so as to optimize the objective function using a greedy method. Processing method.
前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、以下の式に示す前記目的関数g(X)を最適化するように、前記フレーズテーブルから部分集合Xを選択する請求項1又は請求項2に記載の情報処理方法。
Figure 2017142757
ただし、Kは、部分集合のサイズを表す予め定められた値である。Eは、前記訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、前記訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、前記単語fikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表し、c(X,eik)は、前記単語eikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表す。
The step of selecting the subset X from the phrase table by the selection processing means selects the subset X from the phrase table so as to optimize the objective function g (X) shown in the following equation. Or the information processing method of Claim 2.
Figure 2017142757
Here, K is a predetermined value representing the size of the subset. E represents a set of source language sentences {e 1 ,..., E N } in the training bilingual corpus, and F represents a set of target language sentences {f 1 ,. ., f N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) represents the word e ik is the part This represents the number of times covered by the phrase pair z j included in the set X.
前記選択処理手段が前記フレーズテーブルから部分集合Xを選択するステップは、以下の式に示す前記目的関数h(X)を最適化するように、前記フレーズテーブルから部分集合Xを選択する請求項3に記載の情報処理方法。
Figure 2017142757
ただし、Eは、前記訓練用対訳コーパスにおける原言語の文の集合{e,...,e}を表し、Fは、前記訓練用対訳コーパスにおける目的言語の文の集合{f,...,f}を表す。c(X,fik)は、前記単語fikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表し、c(X,eik)は、前記単語eikが前記部分集合Xに含まれる前記フレーズ対zにより被覆される回数を表す。λは0≦λ≦1であるようなパラメーである。I(・)は、引数が真のときに1、引数が偽のときに0を返すような関数である。
The step of selecting the subset X from the phrase table by the selection processing means selects the subset X from the phrase table so as to optimize the objective function h (X) expressed by the following equation. Information processing method described in 1.
Figure 2017142757
Where E represents a set of source language sentences {e 1 ,..., E N } in the training bilingual corpus, and F represents a set of target language sentences {f 1 ,. ..., f N }. c (X, f ik ) represents the number of times the word f ik is covered by the phrase pair z j included in the subset X, and c (X, e ik ) represents the word e ik is the part This represents the number of times covered by the phrase pair z j included in the set X. λ is a parameter such that 0 ≦ λ ≦ 1. I (•) is a function that returns 1 when the argument is true and 0 when the argument is false.
原言語の文eと前記原言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、原言語の文eの部分文字列であるフレーズpと、前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対zの集合であるフレーズテーブルから、部分集合を選択する情報処理装置であって、
前記訓練用対訳コーパスの前記ペア(e,f)の各々についての、前記原言語の文eのk番目の単語eikの各々が、前記フレーズ対zの集合であるフレーズテーブルの部分集合Xに含まれる前記フレーズ対zによって被覆される回数と、前記目的言語の文fのk番目の単語fikの各々が、前記部分集合Xに含まれる前記フレーズ対zによって被覆される回数とを用いて表される劣モジュラ関数を目的関数として、前記目的関数を最適化するように、前記フレーズテーブルから部分集合Xを選択する選択処理手段
を含む情報処理装置。
A source language generated in advance from a training bilingual corpus that is a set of pairs (e i , f i ) of a source language sentence e i and a target language sentence f i that is a translation of the source language sentence e i and phrase p i is a substring of the text e i of a bilingual the phrase p i, and a set of phrase pair z i of the phrase q i is a substring of the sentence f i in the target language An information processing apparatus that selects a subset from a phrase table,
For each of the pairs (e i , f i ) of the training bilingual corpus, each of the kth words e ik of the source language sentence e i is a set of phrase pairs z j The number of times covered by the phrase pair z j included in the subset X and each of the kth words f ik of the sentence f i in the target language are covered by the phrase pair z j included in the subset X And a selection processing means for selecting the subset X from the phrase table so as to optimize the objective function using the submodular function represented by
請求項1〜請求項4の何れか1項に記載の情報処理方法の各ステップをコンピュータに実行させるためのプログラム。   The program for making a computer perform each step of the information processing method of any one of Claims 1-4.
JP2016025252A 2016-02-12 2016-02-12 Information processing method, apparatus, and program Active JP6498135B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016025252A JP6498135B2 (en) 2016-02-12 2016-02-12 Information processing method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016025252A JP6498135B2 (en) 2016-02-12 2016-02-12 Information processing method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2017142757A true JP2017142757A (en) 2017-08-17
JP6498135B2 JP6498135B2 (en) 2019-04-10

Family

ID=59627336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016025252A Active JP6498135B2 (en) 2016-02-12 2016-02-12 Information processing method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP6498135B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345797A (en) * 1998-06-04 2003-12-05 Matsushita Electric Ind Co Ltd Language converter and program recording medium
JP2004362249A (en) * 2003-06-04 2004-12-24 Advanced Telecommunication Research Institute International Translation knowledge optimization device, computer program, computer and storage medium for translation knowledge optimization
JP2015022431A (en) * 2013-07-17 2015-02-02 株式会社エヌ・ティ・ティ・データ Learning model creation device, translation device, learning model creation method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345797A (en) * 1998-06-04 2003-12-05 Matsushita Electric Ind Co Ltd Language converter and program recording medium
JP2004362249A (en) * 2003-06-04 2004-12-24 Advanced Telecommunication Research Institute International Translation knowledge optimization device, computer program, computer and storage medium for translation knowledge optimization
JP2015022431A (en) * 2013-07-17 2015-02-02 株式会社エヌ・ティ・ティ・データ Learning model creation device, translation device, learning model creation method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
浅見太一: "結合KLダイバージェンスの劣モジュラ最適化に基づく音響モデルの学習データ選択", 電子情報通信学会技術研究報告, vol. 115, no. 184, JPN6019004467, 14 August 2015 (2015-08-14), JP, pages 45 - 50, ISSN: 0003974984 *

Also Published As

Publication number Publication date
JP6498135B2 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
Oda et al. Learning to generate pseudo-code from source code using statistical machine translation
US9176936B2 (en) Transliteration pair matching
US9208149B2 (en) Machine translation apparatus, method and program
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
KR101732634B1 (en) Statistical Machine Translation Method using Dependency Forest
CN108475262A (en) Electronic equipment and method for text-processing
JP2009140503A (en) Method and apparatus for translating speech
JP2005100335A5 (en)
CN105068997B (en) The construction method and device of parallel corpora
JP6946842B2 (en) Model learners, converters, methods, and programs
CN111325038A (en) Translation training data generation method and device, computer equipment and storage medium
CN112819091A (en) Cross-language description oriented antagonism data enhancement method, system and storage medium
JP2016224483A (en) Model learning device, method and program
JP5973986B2 (en) Translation system, method, and program
JP2017021422A (en) Statistical translation optimization device, statistical translation system, and computer program
JP2007156545A (en) Symbol string conversion method, word translation method, its device, its program and recording medium
CN105608067B (en) Automatic knowledge extraction method and device for network teaching system
JP2017010274A (en) Associating device and program
JP6498135B2 (en) Information processing method, apparatus, and program
JP6482073B2 (en) Information processing method, apparatus, and program
Arun et al. A unified approach to minimum risk training and decoding
JP2005025474A (en) Machine translation device, computer program, and computer
JP2007317000A (en) Machine translation device, its method, and program
Pang et al. Amortized noisy channel neural machine translation
KR101735314B1 (en) Apparatus and method for Hybride Translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190312

R150 Certificate of patent or registration of utility model

Ref document number: 6498135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150