JP6482073B2 - Information processing method, apparatus, and program - Google Patents

Information processing method, apparatus, and program Download PDF

Info

Publication number
JP6482073B2
JP6482073B2 JP2015116059A JP2015116059A JP6482073B2 JP 6482073 B2 JP6482073 B2 JP 6482073B2 JP 2015116059 A JP2015116059 A JP 2015116059A JP 2015116059 A JP2015116059 A JP 2015116059A JP 6482073 B2 JP6482073 B2 JP 6482073B2
Authority
JP
Japan
Prior art keywords
phrase
sentence
pair
subset
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015116059A
Other languages
Japanese (ja)
Other versions
JP2017004179A (en
Inventor
正彬 西野
正彬 西野
鈴木 潤
潤 鈴木
平尾 努
努 平尾
俊治 梅谷
俊治 梅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015116059A priority Critical patent/JP6482073B2/en
Publication of JP2017004179A publication Critical patent/JP2017004179A/en
Application granted granted Critical
Publication of JP6482073B2 publication Critical patent/JP6482073B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理方法、装置、及びプログラムに関する。   The present invention relates to an information processing method, apparatus, and program.

統計的機械翻訳法とは、確率・統計の技術を用いてある言語(以下、元言語と称する。)で書かれた文書を別の言語(以下、目的言語と称する。)で書かれた文書へと自動的に翻訳する手法のことである。様々な統計的機械翻訳手法が存在するが、その中の1つであるフレーズに基づく統計的機械翻訳では、元言語の文を、語の連なりからなる句を並べたものとして表現し、それを目的言語の対応する句の並びに変換することで翻訳を行う。   The statistical machine translation method is a document written in a language (hereinafter referred to as an original language) using a probability / statistical technique and written in another language (hereinafter referred to as a target language). It is a method of automatically translating into There are various statistical machine translation methods, but in statistical machine translation based on one of the phrases, a sentence in the original language is expressed as an array of phrases consisting of a series of words, Translation is performed by converting the corresponding phrases in the target language.

フレーズに基づく統計的機械翻訳を行うためには、フレーズテーブルとよばれる、元言語のあるフレーズが目的言語のどのフレーズに訳されるかを示したテーブルを用意する必要がある。フレーズテーブルをSとする。Sの構成要素はフレーズ対(p,q)である。ここでpは元言語のフレーズであり、qは目的言語のフレーズである。フレーズテーブルに含まれるフレーズ対の種類が、その翻訳システムが翻訳可能な語彙を定めていることから、一般にフレーズテーブルに含まれるフレーズ対の総数は膨大な数になる。   In order to perform statistical machine translation based on a phrase, it is necessary to prepare a table called a phrase table, which indicates a phrase in a target language into which a phrase in the original language is translated. Let S be the phrase table. The component of S is a phrase pair (p, q). Here, p is a phrase in the original language, and q is a phrase in the target language. Since the types of phrase pairs included in the phrase table define the vocabulary that can be translated by the translation system, the total number of phrase pairs included in the phrase table is generally enormous.

フレーズに基づく統計的機械翻訳システムによって翻訳を行う際には、計算機の記憶装置に格納されたフレーズテーブルに繰り返しアクセスする必要がある。フレーズテーブルに含まれるフレーズ対の数が膨大となると、翻訳文を生成する際に取りうる選択肢が増加することから、結果的に翻訳文の生成に時間がかかるようになる。   When translation is performed by a phrase-based statistical machine translation system, it is necessary to repeatedly access a phrase table stored in a storage device of a computer. If the number of phrase pairs included in the phrase table is enormous, the number of options that can be taken when generating a translation increases, and as a result, it takes time to generate the translation.

また、一般に、フレーズテーブルに含まれるフレーズ対は、対訳関係にある元言語と目的言語の文の対の単語アラインメントの結果をもとにして自動的に獲得されるものであるが、こうして得られたフレーズ対には対訳関係になっていない、質の悪いフレーズ対も多く含まれる。質の悪いフレーズ対は翻訳生成時のノイズとなって生成される翻訳の質の低下につながる。これらの理由から、与えられたフレーズテーブルから質の悪いフレーズを除いてより小さなフレーズテーブルを作成する技術が検討されている(例えば、非特許文献1)。   In general, the phrase pairs included in the phrase table are automatically obtained based on the word alignment results of the sentence pairs of the source language and the target language that are in a parallel translation relationship. There are many poor-quality phrase pairs that are not translated in parallel. Poor-quality phrase pairs become noise at the time of translation generation, leading to deterioration in the quality of the generated translation. For these reasons, a technique for creating a smaller phrase table by removing a poor quality phrase from a given phrase table has been studied (for example, Non-Patent Document 1).

Zens, Richard and Stanton, Daisy and Xu, Peng,“A Systematic Comparison of Phrase Table Pruning Techniques”, In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012.Zens, Richard and Stanton, Daisy and Xu, Peng, “A Systematic Comparison of Phrase Table Pruning Techniques”, In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012.

非特許文献1では、頻度やエントロピーを用いてフレーズ対に点数をつけ、その点数に基づいて不要なフレーズ対を削除することで小さなフレーズテーブルを作成する手法が提案されている。   Non-Patent Document 1 proposes a method of creating a small phrase table by scoring a phrase pair using frequency and entropy and deleting unnecessary phrase pairs based on the score.

しかし、これらの手法ではフレーズ対の点数に対してしきい値θを定めるか、あるいは点数の上位K件を取り出すという形式でフレーズテーブルを作成するため、フレーズテーブルのサイズを決めるθまたはKというパラメータを何らかの基準で定める必要がある。適切なフレーズテーブルの大きさは翻訳システムによって異なるため、適切なパラメータを選択することは試行錯誤を伴う困難な問題であった。   However, in these methods, the threshold value θ is determined for the score of the phrase pair, or the phrase table is created in the form of taking out the top K scores, so the parameter θ or K that determines the size of the phrase table Need to be determined by some standard. Since the size of an appropriate phrase table varies depending on the translation system, selecting an appropriate parameter has been a difficult problem involving trial and error.

また、訓練用対訳コーパスに含まれる文を正しく訳せることは翻訳システムの頑健性を保証するうえで重要であるが、既存のフレーズテーブル削減法では訓練用対訳コーパスの文を正しく翻訳するために必要となるフレーズ対が選択されることを保証できないという問題があった。   In addition, it is important to ensure that the translation system correctly translates the sentences included in the training bilingual corpus, but the existing phrase table reduction method is necessary to correctly translate the sentences in the training bilingual corpus. There was a problem that it was not possible to guarantee that a pair of phrases would be selected.

本発明は、上記の事情を鑑みてなされたもので、フレーズ対が削減されたフレーズテーブルを得ることができる情報処理方法、装置、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide an information processing method, apparatus, and program capable of obtaining a phrase table with reduced phrase pairs.

上記の目的を達成するために本発明に係る情報処理方法は、選択処理手段を含み、元言語の文eと前記元言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、元言語の文eの部分文字列であるフレーズpと前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合であるフレーズテーブルから、部分集合を選択する情報処理装置における情報処理方法であって、前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(e,f)の各々について、前記ペア(e,f)の前記元言語の文eのr番目の単語ejrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xのフレーズpであって、かつ、前記元言語の文eの部分文字列であるフレーズpに含まれ、前記目的言語の文fのr番目の単語fjrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xの前記フレーズqであって、かつ、前記目的言語の文fの部分文字列である前記フレーズqに含まれるように、前記フレーズテーブルから部分集合を選択するステップを含んで構成されている。 The information processing method according to the present invention in order to achieve the above object, includes a selection processing means, the pair of the sentence f j in the target language is a translation of the sentence e j of the source language with sentence e j of the original language (e j, f j) are previously generated from training corpus is a collection of a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and the target language An information processing method in an information processing apparatus for selecting a subset from a phrase table that is a set of phrase pairs x i with a phrase q i that is a partial character string of a sentence f j of the pair (e j, f j) of the training corpus for each of said pairs (e j, f j) each of r th word e jr sentence e j of the original language, the phrase pair x i is a set of phrase table A phrase p i of any one of the phrase pair x i minute set, and the included phrase p i is a substring of the sentence e j of the original language, the sentence f j of the target language each of r th word f jr is a said phrase q i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i, and sentences of the target language f includes a step of selecting a subset from the phrase table so as to be included in the phrase q i which is a partial character string of j .

本発明に係る情報処理装置は、元言語の文eと前記元言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、元言語の文eの部分文字列であるフレーズpと前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合であるフレーズテーブルから、部分集合を選択する情報処理装置であって、前記訓練用対訳コーパスの前記ペア(e,f)の各々について、前記ペア(e,f)の前記元言語の文eのr番目の単語ejrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xのフレーズpであって、かつ、前記元言語の文eの部分文字列であるフレーズpに含まれ、前記目的言語の文fのr番目の単語fjrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xの前記フレーズqであって、かつ、前記目的言語の文fの部分文字列である前記フレーズqに含まれるように、前記フレーズテーブルから部分集合を選択する選択処理手段を含んで構成されている。 The information processing apparatus according to the present invention, the pair (e j, f j) of the sentence f j in the target language is a translation of the sentence e j of the source language with sentence e j of source language translation for a set of training generated in advance from the corpus, a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and a phrase q i is a substring of the sentence f j in the target language from the phrase table is a set of phrase pair x i of an information processing apparatus for selecting a subset, the pair (e j, f j) of the training corpus for each of said pairs (e j, each of r th word e jr sentence e j of the original language of the f j) is a phrase p i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i And the sentence in the original language j included in the partial character strings in a phrase p i of each of the r-th word f jr sentence f j of the target language, any subset of the set is a phrase table of the phrase pair x i 1 One of the phrases a said phrase q i pair x i, and the like contained in the phrase q i is a substring of the sentence f j in the target language, selection for selecting a subset from the phrase table The processing means is included.

前記選択処理手段が前記フレーズテーブルから部分集合を選択するステップは、以下の式にしたがって、前記フレーズテーブルから部分集合を選択するようにすることができる。
ただし、変数y(i=1,...,M) は、フレーズ対xが前記部分集合に含まれるか否かを表す二値変数であり、aijrはフレーズ対xによって元言語の文eのr番目の単語ejrが被覆されているかどうかを表すパラメータであり、被覆されているときにはaijr=1、被覆されていないときには0となるパラメータである。bijrはフレーズ対xによって目的言語の文fのr番目の単語fjrが被覆されているかどうかを表すパラメータであり、被覆されているときにはbijr=1、被覆されていないときには0となるパラメータである。
The step of selecting a subset from the phrase table by the selection processing means may select a subset from the phrase table according to the following equation.
However, the variable y i (i = 1,..., M) is a binary variable indicating whether or not the phrase pair x i is included in the subset, and a ijr is the original language according to the phrase pair x i . a parameter r th word e jr the sentence e j represents whether it is covered, when it is covered is 0 and becomes parameter when a IJR = 1, not covered. b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and b ijr = 1 when covered, 0 when not covered It is a parameter.

本発明に係るプログラムは、本発明の情報処理方法の各ステップをコンピュータに実行させるためのプログラムである。   The program according to the present invention is a program for causing a computer to execute each step of the information processing method of the present invention.

以上説明したように、本発明の情報処理方法、装置、及びプログラムによれば、訓練用対訳コーパスのペア(e,f)の各々について、当該ペア(e,f)の元言語の文eのr番目の単語ejrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズpであって、かつ、元言語の文eの部分文字列であるフレーズpに含まれ、目的言語の文fのr番目の単語fjrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズqであって、かつ、目的言語の文fの部分文字列であるフレーズqに含まれるように、フレーズテーブルから部分集合を選択することにより、フレーズ対が削減されたフレーズテーブルを得ることができる、という効果が得られる。 As described above, the information processing method of the present invention, apparatus, and according to the program, training corpus pair (e j, f j) for each of the original language of the pair (e j, f j) Each of the r-th words e jr of the sentence e j is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i , and included in the phrase p i is a substring of the sentence e j, each of the r-th word f jr sentence f j of the target language is any subset of the phrase table is a set of phrase pair x i 1 a phrase q i of One phrase pair x i, and, to be included in the phrase q i is a substring of the sentence f j in the target language, by selecting a subset from the phrase table, the phrase pairs Reduced The effect that a raise table can be obtained is obtained.

本発明の実施の形態に係る情報処理装置の構成を示す概略図である。It is the schematic which shows the structure of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置における選択処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the selection process routine in the information processing apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の実施の形態の概要>
本発明の実施の形態は、フレーズに基づく統計的機械翻訳で必要となるフレーズテーブルに格納されるフレーズ対の個数を削減するためのものである。本実施の形態では、フレーズテーブルからフレーズ対の部分集合を取り出す問題を、組合せ最適化問題の一種である集合分割問題として定式化し、集合分割問題を解くことでフレーズ対の部分集合を取り出す。
<Outline of Embodiment of the Present Invention>
The embodiment of the present invention is to reduce the number of phrase pairs stored in a phrase table that is necessary for statistical machine translation based on phrases. In this embodiment, the problem of extracting a subset of phrase pairs from the phrase table is formulated as a set partitioning problem that is a kind of combination optimization problem, and a subset of phrase pairs is extracted by solving the set partitioning problem.

<システム構成>
本発明の実施の形態に係る情報処理装置100は、訓練用対訳コーパスから予め生成されたフレーズテーブルSから、部分集合Tを選択する。この情報処理装置100は、CPUと、RAMと、後述する選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、情報処理装置100は、入力部10と、演算部20と、出力部30とを備えている。
<System configuration>
The information processing apparatus 100 according to the embodiment of the present invention selects a subset T from the phrase table S generated in advance from the training parallel corpus. The information processing apparatus 100 is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a selection processing routine described later, and is functionally configured as follows. . As illustrated in FIG. 1, the information processing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 30.

入力部10は、フレーズテーブルSと、元言語の文の集合E及び目的言語の文の集合Fを含んで構成される訓練用対訳コーパスとを入力として受け付ける。本実施の形態では、フレーズテーブルSをS={x,...,x}とする。フレーズテーブルSは、フレーズ対xの集合である。 The input unit 10 receives as input a phrase table S and a training bilingual corpus that includes an original language sentence set E and a target language sentence set F. In the present embodiment, the phrase table S is represented by S = {x 1 ,. . . , X M }. Phrase table S is a set of phrase pair x i.

フレーズテーブルSは、訓練用対訳コーパスから予め生成されている。訓練用対訳コーパスは、元言語の文eと当該元言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である。また、フレーズテーブルSは、訓練用対訳コーパスの元言語の文eの部分文字列であるフレーズpと当該フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合である。 The phrase table S is generated in advance from the training parallel translation corpus. Training corpus is a collection of pairs of sentences f j in the target language is a translation of the sentence e j and the source language sentence e j of the source language (e j, f j). Further, the phrase table S is a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language of the training corpus, and a partial character string of a sentence f j in the target language it is a set of phrase pair x i with a certain phrase q i.

また、Mはフレーズ対の総数を表し、x=(p,q)は元言語のフレーズpと目的言語のフレーズqとのペアである。フレーズはそれぞれ単語の列であり、 M represents the total number of phrase pairs, and x i = (p i , q i ) is a pair of the original language phrase p i and the target language phrase q i . Each phrase is a sequence of words,

とする。Eは元言語の文の集合、Fは目的言語の文の集合とし、e,fをそれぞれ元言語、目的言語の文とする。E={e,...,e},F={f,...,f}であり、文eと文fとは対訳関係にある。各文は単語の系列として表現されており、 And E is a set of sentences in the original language, F is a set of sentences in the target language, and e i and f i are sentences in the original language and the target language, respectively. E = {e 1 ,. . . , E N }, F = {f 1 ,. . . , F N }, and sentence e i and sentence f i are in a bilingual relationship. Each sentence is expressed as a sequence of words,

とする。eijは元言語の単語でありnはeの語数とする。同様に And e ij is a word in the original language, and n i is the number of words in e i . As well

とする。mはfの語数とする。 And m i is the number of words of f i.

あるフレーズ対xと対訳コーパス中の文のペア(e,f)に対して、x=(p,q) がペアに含まれるとは、pがeのある部分列に一致し、かつqがfのある部分列に一致することと定義する。すなわち、 Part there phrase pair x j and sentences in parallel corpus pair (e i, f i) with respect to, x j = (p j, q j) and is included in the pair, with p j is the e i It is defined that it matches a column and q j matches a substring with f i . That is,

を満たすような To meet

が存在することと定義する。このとき、p,qに一致する部分列に含まれる単語はxによって被覆されていると定義する。 Is defined to exist. At this time, words included in the partial string matching p j, the q j is defined as being covered by x j.

演算部20は、入力部10によって受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、フレーズテーブルSから、部分集合を選択する。演算部20は、選択処理部22を備えている。   The computing unit 20 selects a subset from the phrase table S based on the training parallel translation corpus and the phrase table S received by the input unit 10. The calculation unit 20 includes a selection processing unit 22.

選択処理部22は、入力部10によって受け付けた訓練用対訳コーパスのペア(e,f)の各々について、当該ペア(e,f)の元言語の文eのr番目の単語ejrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズpであって、かつ、元言語の文eの部分文字列であるフレーズpに含まれ、目的言語の文fのr番目の単語fjrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズqであって、かつ、目的言語の文fの部分文字列であるフレーズqに含まれるように、フレーズテーブルSから部分集合Tを選択する。選択処理部22は、集合分割問題を解くことによって、T⊆Sであるような部分集合T(フレーズテーブルT)を得る。 For each pair of training bilingual corpora (e j , f j ) received by the input unit 10, the selection processing unit 22 selects the r th word of the sentence e j in the original language of the pair (e j , f j ). Each of e jr is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i and is a partial character string of a sentence e j in the original language A phrase q i of any one phrase pair x i in a subset of the phrase table in which each of the r-th words f jr of the sentence f j in the target language is a set of phrase pairs x i included in the phrase p i The subset T is selected from the phrase table S so as to be included in the phrase q i which is a partial character string of the sentence f j in the target language. The selection processing unit 22 obtains a subset T (phrase table T) such that T⊆S by solving the set partitioning problem.

具体的には、選択処理部22は、以下の式にしたがって、集合分割問題を解くことにより、フレーズテーブルSから部分集合Tを選択する。ここで、解くべき集合分割問題は、   Specifically, the selection processing unit 22 selects the subset T from the phrase table S by solving the set partitioning problem according to the following formula. Here, the set partitioning problem to be solved is

という変数yに対する整数計画問題として定式化される。 It is formulated as an integer programming problem for the variable y i .

変数y(i=1,...,M) は二値変数であり、フレーズ対xが部分集合Tに含まれるときにy=1、そうでないときにy=0となる変数である。また、aijrはフレーズ対xによって元言語の文eのr番目の単語ejrが被覆されているかどうかを表すパラメータであり、被覆されているときにはaijr=1、そうでないときには0となるパラメータである。また、同様にbijrはフレーズ対xによって目的言語の文fのr番目の単語fjrが被覆されているかどうかを表すパラメータであり、被覆されているときにはときに1、そうでないときに0となるパラメータである。 The variable y i (i = 1,..., M) is a binary variable, and y i = 1 when the phrase pair x i is included in the subset T, and y i = 0 otherwise. It is. Further, a IJR is a parameter indicating whether r th word e jr sentence e j of the original language by the phrase pair x i is covered, and 0 when a IJR = 1, otherwise when it is covered It is a parameter. Similarly, b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and is 1 when covered, otherwise This parameter is zero.

集合分割問題とは、各ejr,fjrがかならず1回のみ被覆されるようなフレーズの集合を選択する問題である。 The set partitioning problem is a problem of selecting a set of phrases in which each e jr and f jr is covered only once.

出力部30は、選択処理部22によって選択されたフレーズ対xの部分集合Tを、フレーズ対が削減されたフレーズテーブルとして出力する。 The output unit 30 outputs the subset T of the phrase pair x i selected by the selection processing unit 22 as a phrase table in which the phrase pairs are reduced.

<情報処理装置の作用>
次に、本発明の実施の形態に係る情報処理装置100の作用について説明する。まず、訓練用対訳コーパス及びフレーズテーブルSが、情報処理装置100に入力されると、情報処理装置100によって、図2に示す選択処理ルーチンが実行される。
<Operation of information processing device>
Next, the operation of the information processing apparatus 100 according to the embodiment of the present invention will be described. First, when the training parallel translation corpus and the phrase table S are input to the information processing apparatus 100, the information processing apparatus 100 executes a selection processing routine shown in FIG.

まず、ステップS100において、入力部10により訓練用対訳コーパス及びフレーズテーブルSを受け付ける。   First, in step S <b> 100, a training parallel translation corpus and a phrase table S are received by the input unit 10.

そして、ステップS102において、選択処理部22は、上記ステップS100で受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、訓練用対訳コーパスのペア(e,f)の各々について、当該ペア(e,f)の元言語の文eのr番目の単語ejrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズpであって、かつ、元言語の文eの部分文字列であるフレーズpに含まれ、目的言語の文fのr番目の単語fjrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズqであって、かつ、目的言語の文fの部分文字列であるフレーズqに含まれるように、フレーズテーブルSから部分集合Tを選択する。 In step S102, the selection processing unit 22 determines, for each pair of training bilingual corpora (e j , f j ), based on the training bilingual corpus and phrase table S received in step S100. e j, f j) of each of the r-th word e jr sentence e j of the original language, phrase pair x i phrase p i of any one phrase pair x i of a subset of the phrase table is a set of a is and, included in the phrase p i is a substring of the sentence e j of the original language, each of the r-th word f jr sentence f j of the target language is, is a set of phrase pair x i a phrase q i of any one phrase pair x i of a subset of the phrase table, and, to be included in the phrase q i is a substring of the sentence f j in the target language, Furezute A subset T is selected from the table S.

ステップS104において、上記ステップS102で選択された部分集合Tを結果として出力し、選択処理ルーチンを終了する。   In step S104, the subset T selected in step S102 is output as a result, and the selection processing routine is terminated.

以上説明したように、本実施の形態に係る情報処理装置によれば、訓練用対訳コーパスのペア(e,f)の各々について、当該ペア(e,f)の元言語の文eのr番目の単語ejrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズpであって、かつ、元言語の文eの部分文字列であるフレーズpに含まれ、目的言語の文fのr番目の単語fjrの各々が、フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xのフレーズqであって、かつ、目的言語の文fの部分文字列であるフレーズqに含まれるように、フレーズテーブルから部分集合を選択することにより、訓練用対訳コーパスに含まれるフレーズ対を含み、かつフレーズ対が削減されたフレーズテーブルを得ることができ、フレーズ対の数が少ないフレーズテーブルを得ることができる。 As described above, according to the information processing apparatus according to the present embodiment, training corpus pair (e j, f j) for each of the original language sentence of the pair (e j, f j) each of the jth r-th words e jr is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i , and a sentence e in the original language j included in the phrase p i is a substring of any one phrase of a subset of each of the r-th word f jr sentence f j of the target language is a phrase table is a set of phrase pair x i a phrase q i pair x i, and, to be included in the phrase q i is a substring of the sentence f j in the target language, by selecting a subset from the phrase table, the training corpus Included phrases A phrase table including pairs and having reduced phrase pairs can be obtained, and a phrase table having a small number of phrase pairs can be obtained.

また、フレーズ対の数が少ないフレーズテーブルが得られた結果として、翻訳文書生成処理の高速化、不要なフレーズ対を減らすことによる翻訳精度の向上が可能である。また、分割の概念を用いて定式化したことにより、フレーズテーブルの大きさに関するパラメータを手動で設定することなく、訓練用対訳コーパスに含まれる文に対する翻訳可能性を保証したフレーズテーブルを得ることができる。   Further, as a result of obtaining a phrase table with a small number of phrase pairs, it is possible to speed up the translation document generation process and improve translation accuracy by reducing unnecessary phrase pairs. In addition, by formulating using the concept of division, it is possible to obtain a phrase table that guarantees the translatability of the sentences included in the training bilingual corpus without manually setting parameters relating to the size of the phrase table. it can.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

上述の情報処理装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The information processing apparatus 100 described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 入力部
20 演算部
22 選択処理部
30 出力部
100 情報処理装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Calculation part 22 Selection process part 30 Output part 100 Information processing apparatus

Claims (3)

選択処理手段を含み、元言語の文eと前記元言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、元言語の文eの部分文字列であるフレーズpと前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合であるフレーズテーブルから、部分集合を選択する情報処理装置における情報処理方法であって、
前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(e,f)の各々について、前記ペア(e,f)の前記元言語の文eのr番目の単語ejrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xのフレーズpであって、かつ、前記元言語の文eの部分文字列であるフレーズpに含まれ、前記目的言語の文fのr番目の単語fjrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xの前記フレーズqであって、かつ、前記目的言語の文fの部分文字列である前記フレーズqに含まれるように、前記フレーズテーブルから部分集合を選択するステップ
を含む情報処理方法であって、
前記選択処理手段が前記フレーズテーブルから部分集合を選択するステップは、以下の式にしたがって、前記フレーズテーブルから部分集合を選択する、情報処理方法。

ただし、変数y (i=1,...,M) は、フレーズ対x が前記部分集合に含まれるか否かを表す二値変数であり、a ijr はフレーズ対x によって元言語の文e のr番目の単語e jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはa ijr =1、被覆されていないときには0となるパラメータである。b ijr はフレーズ対x によって目的言語の文f のr番目の単語f jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはb ijr =1、被覆されていないときには0となるパラメータである。
Wherein the selection processing means, in advance from a set a is training corpus of pairs of sentences f j in the target language is a translation of the sentence e j of the source language with sentence e j of source language (e j, f j) It produced a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and a phrase pair of phrases q i is a substring of the sentence f j in the target language An information processing method in an information processing apparatus that selects a subset from a phrase table that is a set of xi ,
It said selection processing means, the pair (e j, f j) of the training corpus for each of said pairs (e j, f j) the sentence e j of the original language of the r-th word e jr of each, a phrase p i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i, and is the partial character string of a sentence e j of the source language Each of the r-th word f jr of the sentence f j in the target language sentence f j is included in the phrase p i , and the phrase pair x i of any one of the subsets of the phrase table that is a set of the phrase pairs x i a the phrase q i, and said to be included in the target language the phrase q i is a substring of the sentence f j of, met information processing method comprising the steps of selecting a subset from the phrase table The
The step of selecting a subset from the phrase table by the selection processing means selects an subset from the phrase table according to the following expression.

However, the variable y i (i = 1,..., M) is a binary variable indicating whether or not the phrase pair x i is included in the subset, and a ijr is the original language according to the phrase pair x i . a parameter r th word e jr the sentence e j represents whether it is covered, when it is covered is 0 and becomes parameter when a IJR = 1, not covered. b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and b ijr = 1 when covered, 0 when not covered It is a parameter.
元言語の文eと前記元言語の文eの対訳である目的言語の文fとのペア(e,f)の集合である訓練用対訳コーパスから予め生成された、元言語の文eの部分文字列であるフレーズpと前記フレーズpの対訳であり、かつ、目的言語の文fの部分文字列であるフレーズqとのフレーズ対xの集合であるフレーズテーブルから、部分集合を選択する情報処理装置であって、
前記訓練用対訳コーパスの前記ペア(e,f)の各々について、前記ペア(e,f)の前記元言語の文eのr番目の単語ejrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xのフレーズpであって、かつ、前記元言語の文eの部分文字列であるフレーズpに含まれ、前記目的言語の文fのr番目の単語fjrの各々が、前記フレーズ対xの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xの前記フレーズqであって、かつ、前記目的言語の文fの部分文字列である前記フレーズqに含まれるように、前記フレーズテーブルから部分集合を選択する選択処理手段
を含む情報処理装置であって、
前記選択処理手段は、以下の式にしたがって、前記フレーズテーブルから部分集合を選択する、情報処理方法。

ただし、変数y (i=1,...,M) は、フレーズ対x が前記部分集合に含まれるか否かを表す二値変数であり、a ijr はフレーズ対x によって元言語の文e のr番目の単語e jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはa ijr =1、被覆されていないときには0となるパラメータである。b ijr はフレーズ対x によって目的言語の文f のr番目の単語f jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはb ijr =1、被覆されていないときには0となるパラメータである。
Sentence f j and a pair (e j, f j) of the target language is a translation of the sentence e j of the source language with sentence e j of the original language are previously generated from training corpus is a collection of source language A phrase p i that is a partial character string of the sentence e j and a phrase x i that is a parallel translation of the phrase p i and a phrase q i that is a partial character string of the sentence f j in the target language. An information processing apparatus that selects a subset from a phrase table,
Wherein said pair of training corpus (e j, f j) for each of said pairs (e j, f j) each r-th word e jr sentence e j of the original language of the phrase pair a x i phrase p i of any one of the phrase pair x i of a subset of the phrase table is a set of, and included in the phrase p i said a substring of the sentence e j of the original language , each r-th word f jr sentence f j of the target language, encounters the phrase q i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i And a selection processing means for selecting a subset from the phrase table so as to be included in the phrase q i that is a partial character string of the sentence f j of the target language ,
The information processing method, wherein the selection processing means selects a subset from the phrase table according to the following expression.

However, the variable y i (i = 1,..., M) is a binary variable indicating whether or not the phrase pair x i is included in the subset, and a ijr is the original language according to the phrase pair x i . a parameter r th word e jr the sentence e j represents whether it is covered, when it is covered is 0 and becomes parameter when a IJR = 1, not covered. b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and b ijr = 1 when covered, 0 when not covered It is a parameter.
請求項1に記載の情報処理方法の各ステップをコンピュータに実行させるためのプログラム。 A program for causing a computer to execute each step of the information processing method according to claim 1 .
JP2015116059A 2015-06-08 2015-06-08 Information processing method, apparatus, and program Active JP6482073B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015116059A JP6482073B2 (en) 2015-06-08 2015-06-08 Information processing method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015116059A JP6482073B2 (en) 2015-06-08 2015-06-08 Information processing method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2017004179A JP2017004179A (en) 2017-01-05
JP6482073B2 true JP6482073B2 (en) 2019-03-13

Family

ID=57752096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015116059A Active JP6482073B2 (en) 2015-06-08 2015-06-08 Information processing method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP6482073B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3642733A4 (en) * 2017-07-31 2020-07-22 Beijing Didi Infinity Technology and Development Co., Ltd. System and method for segmenting a sentence

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
JP2011180823A (en) * 2010-03-01 2011-09-15 National Institute Of Information & Communication Technology Apparatus and method for machine translation, and program
US8612205B2 (en) * 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US8655640B2 (en) * 2011-03-02 2014-02-18 Raytheon Bbn Technologies Corp. Automatic word alignment
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
JP5918625B2 (en) * 2012-05-18 2016-05-18 日本放送協会 Phrase translation model learning device and program thereof
US8990069B1 (en) * 2012-06-29 2015-03-24 Google Inc. Techniques for pruning phrase tables for statistical machine translation
CN104391885B (en) * 2014-11-07 2017-07-28 哈尔滨工业大学 A kind of abstracting method of the chapter level than the parallel phrase pair of language material trained based on parallel corpora

Also Published As

Publication number Publication date
JP2017004179A (en) 2017-01-05

Similar Documents

Publication Publication Date Title
US9208149B2 (en) Machine translation apparatus, method and program
US9176936B2 (en) Transliteration pair matching
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
JP2009140503A (en) Method and apparatus for translating speech
KR101732634B1 (en) Statistical Machine Translation Method using Dependency Forest
JP2020537223A5 (en)
JP2010061645A (en) Phrase-based statistics machine translation method and system
JP6817556B2 (en) Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system
RU2014135303A (en) TEXT PROCESSING METHOD (OPTIONS) AND PERMANENT MACHINE READABLE MEDIA (OPTIONS)
US20170220562A1 (en) Translation apparatus
Rahman et al. A corpus based n-gram hybrid approach of bengali to english machine translation
JP6482073B2 (en) Information processing method, apparatus, and program
Wuebker et al. Hierarchical incremental adaptation for statistical machine translation
JP6478382B2 (en) Translation device
Adams et al. Inducing bilingual lexicons from small quantities of sentence-aligned phonemic transcriptions
JP6498135B2 (en) Information processing method, apparatus, and program
Siahbani et al. Efficient left-to-right hierarchical phrase-based translation with improved reordering
JP2005025474A (en) Machine translation device, computer program, and computer
JP6564709B2 (en) Sentence rewriting device, method, and program
JP2007317000A (en) Machine translation device, its method, and program
Hajmohammadi et al. Density based active self-training for cross-lingual sentiment classification
Van Niekerk Exploring unsupervised word segmentation for machine translation in the South African context
JP2010170303A (en) Machine translation device and program
KR20160085100A (en) Apparatus for Hybride Translation
JP2016189154A (en) Translation method, device, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190207

R150 Certificate of patent or registration of utility model

Ref document number: 6482073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250