JP6482073B2 - Information processing method, apparatus, and program - Google Patents
Information processing method, apparatus, and program Download PDFInfo
- Publication number
- JP6482073B2 JP6482073B2 JP2015116059A JP2015116059A JP6482073B2 JP 6482073 B2 JP6482073 B2 JP 6482073B2 JP 2015116059 A JP2015116059 A JP 2015116059A JP 2015116059 A JP2015116059 A JP 2015116059A JP 6482073 B2 JP6482073 B2 JP 6482073B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- sentence
- pair
- subset
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 28
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000013519 translation Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 description 12
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
本発明は、情報処理方法、装置、及びプログラムに関する。 The present invention relates to an information processing method, apparatus, and program.
統計的機械翻訳法とは、確率・統計の技術を用いてある言語(以下、元言語と称する。)で書かれた文書を別の言語(以下、目的言語と称する。)で書かれた文書へと自動的に翻訳する手法のことである。様々な統計的機械翻訳手法が存在するが、その中の1つであるフレーズに基づく統計的機械翻訳では、元言語の文を、語の連なりからなる句を並べたものとして表現し、それを目的言語の対応する句の並びに変換することで翻訳を行う。 The statistical machine translation method is a document written in a language (hereinafter referred to as an original language) using a probability / statistical technique and written in another language (hereinafter referred to as a target language). It is a method of automatically translating into There are various statistical machine translation methods, but in statistical machine translation based on one of the phrases, a sentence in the original language is expressed as an array of phrases consisting of a series of words, Translation is performed by converting the corresponding phrases in the target language.
フレーズに基づく統計的機械翻訳を行うためには、フレーズテーブルとよばれる、元言語のあるフレーズが目的言語のどのフレーズに訳されるかを示したテーブルを用意する必要がある。フレーズテーブルをSとする。Sの構成要素はフレーズ対(p,q)である。ここでpは元言語のフレーズであり、qは目的言語のフレーズである。フレーズテーブルに含まれるフレーズ対の種類が、その翻訳システムが翻訳可能な語彙を定めていることから、一般にフレーズテーブルに含まれるフレーズ対の総数は膨大な数になる。 In order to perform statistical machine translation based on a phrase, it is necessary to prepare a table called a phrase table, which indicates a phrase in a target language into which a phrase in the original language is translated. Let S be the phrase table. The component of S is a phrase pair (p, q). Here, p is a phrase in the original language, and q is a phrase in the target language. Since the types of phrase pairs included in the phrase table define the vocabulary that can be translated by the translation system, the total number of phrase pairs included in the phrase table is generally enormous.
フレーズに基づく統計的機械翻訳システムによって翻訳を行う際には、計算機の記憶装置に格納されたフレーズテーブルに繰り返しアクセスする必要がある。フレーズテーブルに含まれるフレーズ対の数が膨大となると、翻訳文を生成する際に取りうる選択肢が増加することから、結果的に翻訳文の生成に時間がかかるようになる。 When translation is performed by a phrase-based statistical machine translation system, it is necessary to repeatedly access a phrase table stored in a storage device of a computer. If the number of phrase pairs included in the phrase table is enormous, the number of options that can be taken when generating a translation increases, and as a result, it takes time to generate the translation.
また、一般に、フレーズテーブルに含まれるフレーズ対は、対訳関係にある元言語と目的言語の文の対の単語アラインメントの結果をもとにして自動的に獲得されるものであるが、こうして得られたフレーズ対には対訳関係になっていない、質の悪いフレーズ対も多く含まれる。質の悪いフレーズ対は翻訳生成時のノイズとなって生成される翻訳の質の低下につながる。これらの理由から、与えられたフレーズテーブルから質の悪いフレーズを除いてより小さなフレーズテーブルを作成する技術が検討されている(例えば、非特許文献1)。 In general, the phrase pairs included in the phrase table are automatically obtained based on the word alignment results of the sentence pairs of the source language and the target language that are in a parallel translation relationship. There are many poor-quality phrase pairs that are not translated in parallel. Poor-quality phrase pairs become noise at the time of translation generation, leading to deterioration in the quality of the generated translation. For these reasons, a technique for creating a smaller phrase table by removing a poor quality phrase from a given phrase table has been studied (for example, Non-Patent Document 1).
非特許文献1では、頻度やエントロピーを用いてフレーズ対に点数をつけ、その点数に基づいて不要なフレーズ対を削除することで小さなフレーズテーブルを作成する手法が提案されている。 Non-Patent Document 1 proposes a method of creating a small phrase table by scoring a phrase pair using frequency and entropy and deleting unnecessary phrase pairs based on the score.
しかし、これらの手法ではフレーズ対の点数に対してしきい値θを定めるか、あるいは点数の上位K件を取り出すという形式でフレーズテーブルを作成するため、フレーズテーブルのサイズを決めるθまたはKというパラメータを何らかの基準で定める必要がある。適切なフレーズテーブルの大きさは翻訳システムによって異なるため、適切なパラメータを選択することは試行錯誤を伴う困難な問題であった。 However, in these methods, the threshold value θ is determined for the score of the phrase pair, or the phrase table is created in the form of taking out the top K scores, so the parameter θ or K that determines the size of the phrase table Need to be determined by some standard. Since the size of an appropriate phrase table varies depending on the translation system, selecting an appropriate parameter has been a difficult problem involving trial and error.
また、訓練用対訳コーパスに含まれる文を正しく訳せることは翻訳システムの頑健性を保証するうえで重要であるが、既存のフレーズテーブル削減法では訓練用対訳コーパスの文を正しく翻訳するために必要となるフレーズ対が選択されることを保証できないという問題があった。 In addition, it is important to ensure that the translation system correctly translates the sentences included in the training bilingual corpus, but the existing phrase table reduction method is necessary to correctly translate the sentences in the training bilingual corpus. There was a problem that it was not possible to guarantee that a pair of phrases would be selected.
本発明は、上記の事情を鑑みてなされたもので、フレーズ対が削減されたフレーズテーブルを得ることができる情報処理方法、装置、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide an information processing method, apparatus, and program capable of obtaining a phrase table with reduced phrase pairs.
上記の目的を達成するために本発明に係る情報処理方法は、選択処理手段を含み、元言語の文ejと前記元言語の文ejの対訳である目的言語の文fjとのペア(ej,fj)の集合である訓練用対訳コーパスから予め生成された、元言語の文ejの部分文字列であるフレーズpiと前記フレーズpiの対訳であり、かつ、目的言語の文fjの部分文字列であるフレーズqiとのフレーズ対xiの集合であるフレーズテーブルから、部分集合を選択する情報処理装置における情報処理方法であって、前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(ej,fj)の各々について、前記ペア(ej,fj)の前記元言語の文ejのr番目の単語ejrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiのフレーズpiであって、かつ、前記元言語の文ejの部分文字列であるフレーズpiに含まれ、前記目的言語の文fjのr番目の単語fjrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiの前記フレーズqiであって、かつ、前記目的言語の文fjの部分文字列である前記フレーズqiに含まれるように、前記フレーズテーブルから部分集合を選択するステップを含んで構成されている。 The information processing method according to the present invention in order to achieve the above object, includes a selection processing means, the pair of the sentence f j in the target language is a translation of the sentence e j of the source language with sentence e j of the original language (e j, f j) are previously generated from training corpus is a collection of a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and the target language An information processing method in an information processing apparatus for selecting a subset from a phrase table that is a set of phrase pairs x i with a phrase q i that is a partial character string of a sentence f j of the pair (e j, f j) of the training corpus for each of said pairs (e j, f j) each of r th word e jr sentence e j of the original language, the phrase pair x i is a set of phrase table A phrase p i of any one of the phrase pair x i minute set, and the included phrase p i is a substring of the sentence e j of the original language, the sentence f j of the target language each of r th word f jr is a said phrase q i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i, and sentences of the target language f includes a step of selecting a subset from the phrase table so as to be included in the phrase q i which is a partial character string of j .
本発明に係る情報処理装置は、元言語の文ejと前記元言語の文ejの対訳である目的言語の文fjとのペア(ej,fj)の集合である訓練用対訳コーパスから予め生成された、元言語の文ejの部分文字列であるフレーズpiと前記フレーズpiの対訳であり、かつ、目的言語の文fjの部分文字列であるフレーズqiとのフレーズ対xiの集合であるフレーズテーブルから、部分集合を選択する情報処理装置であって、前記訓練用対訳コーパスの前記ペア(ej,fj)の各々について、前記ペア(ej,fj)の前記元言語の文ejのr番目の単語ejrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiのフレーズpiであって、かつ、前記元言語の文ejの部分文字列であるフレーズpiに含まれ、前記目的言語の文fjのr番目の単語fjrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiの前記フレーズqiであって、かつ、前記目的言語の文fjの部分文字列である前記フレーズqiに含まれるように、前記フレーズテーブルから部分集合を選択する選択処理手段を含んで構成されている。 The information processing apparatus according to the present invention, the pair (e j, f j) of the sentence f j in the target language is a translation of the sentence e j of the source language with sentence e j of source language translation for a set of training generated in advance from the corpus, a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and a phrase q i is a substring of the sentence f j in the target language from the phrase table is a set of phrase pair x i of an information processing apparatus for selecting a subset, the pair (e j, f j) of the training corpus for each of said pairs (e j, each of r th word e jr sentence e j of the original language of the f j) is a phrase p i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i And the sentence in the original language j included in the partial character strings in a phrase p i of each of the r-th word f jr sentence f j of the target language, any subset of the set is a phrase table of the phrase pair x i 1 One of the phrases a said phrase q i pair x i, and the like contained in the phrase q i is a substring of the sentence f j in the target language, selection for selecting a subset from the phrase table The processing means is included.
前記選択処理手段が前記フレーズテーブルから部分集合を選択するステップは、以下の式にしたがって、前記フレーズテーブルから部分集合を選択するようにすることができる。
本発明に係るプログラムは、本発明の情報処理方法の各ステップをコンピュータに実行させるためのプログラムである。 The program according to the present invention is a program for causing a computer to execute each step of the information processing method of the present invention.
以上説明したように、本発明の情報処理方法、装置、及びプログラムによれば、訓練用対訳コーパスのペア(ej,fj)の各々について、当該ペア(ej,fj)の元言語の文ejのr番目の単語ejrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズpiであって、かつ、元言語の文ejの部分文字列であるフレーズpiに含まれ、目的言語の文fjのr番目の単語fjrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズqiであって、かつ、目的言語の文fjの部分文字列であるフレーズqiに含まれるように、フレーズテーブルから部分集合を選択することにより、フレーズ対が削減されたフレーズテーブルを得ることができる、という効果が得られる。 As described above, the information processing method of the present invention, apparatus, and according to the program, training corpus pair (e j, f j) for each of the original language of the pair (e j, f j) Each of the r-th words e jr of the sentence e j is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i , and included in the phrase p i is a substring of the sentence e j, each of the r-th word f jr sentence f j of the target language is any subset of the phrase table is a set of phrase pair x i 1 a phrase q i of One phrase pair x i, and, to be included in the phrase q i is a substring of the sentence f j in the target language, by selecting a subset from the phrase table, the phrase pairs Reduced The effect that a raise table can be obtained is obtained.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<本発明の実施の形態の概要>
本発明の実施の形態は、フレーズに基づく統計的機械翻訳で必要となるフレーズテーブルに格納されるフレーズ対の個数を削減するためのものである。本実施の形態では、フレーズテーブルからフレーズ対の部分集合を取り出す問題を、組合せ最適化問題の一種である集合分割問題として定式化し、集合分割問題を解くことでフレーズ対の部分集合を取り出す。
<Outline of Embodiment of the Present Invention>
The embodiment of the present invention is to reduce the number of phrase pairs stored in a phrase table that is necessary for statistical machine translation based on phrases. In this embodiment, the problem of extracting a subset of phrase pairs from the phrase table is formulated as a set partitioning problem that is a kind of combination optimization problem, and a subset of phrase pairs is extracted by solving the set partitioning problem.
<システム構成>
本発明の実施の形態に係る情報処理装置100は、訓練用対訳コーパスから予め生成されたフレーズテーブルSから、部分集合Tを選択する。この情報処理装置100は、CPUと、RAMと、後述する選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、情報処理装置100は、入力部10と、演算部20と、出力部30とを備えている。
<System configuration>
The information processing apparatus 100 according to the embodiment of the present invention selects a subset T from the phrase table S generated in advance from the training parallel corpus. The information processing apparatus 100 is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a selection processing routine described later, and is functionally configured as follows. . As illustrated in FIG. 1, the information processing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 30.
入力部10は、フレーズテーブルSと、元言語の文の集合E及び目的言語の文の集合Fを含んで構成される訓練用対訳コーパスとを入力として受け付ける。本実施の形態では、フレーズテーブルSをS={x1,...,xM}とする。フレーズテーブルSは、フレーズ対xiの集合である。 The input unit 10 receives as input a phrase table S and a training bilingual corpus that includes an original language sentence set E and a target language sentence set F. In the present embodiment, the phrase table S is represented by S = {x 1 ,. . . , X M }. Phrase table S is a set of phrase pair x i.
フレーズテーブルSは、訓練用対訳コーパスから予め生成されている。訓練用対訳コーパスは、元言語の文ejと当該元言語の文ejの対訳である目的言語の文fjとのペア(ej,fj)の集合である。また、フレーズテーブルSは、訓練用対訳コーパスの元言語の文ejの部分文字列であるフレーズpiと当該フレーズpiの対訳であり、かつ、目的言語の文fjの部分文字列であるフレーズqiとのフレーズ対xiの集合である。 The phrase table S is generated in advance from the training parallel translation corpus. Training corpus is a collection of pairs of sentences f j in the target language is a translation of the sentence e j and the source language sentence e j of the source language (e j, f j). Further, the phrase table S is a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language of the training corpus, and a partial character string of a sentence f j in the target language it is a set of phrase pair x i with a certain phrase q i.
また、Mはフレーズ対の総数を表し、xi=(pi,qi)は元言語のフレーズpiと目的言語のフレーズqiとのペアである。フレーズはそれぞれ単語の列であり、 M represents the total number of phrase pairs, and x i = (p i , q i ) is a pair of the original language phrase p i and the target language phrase q i . Each phrase is a sequence of words,
とする。Eは元言語の文の集合、Fは目的言語の文の集合とし、ei,fiをそれぞれ元言語、目的言語の文とする。E={e1,...,eN},F={f1,...,fN}であり、文eiと文fiとは対訳関係にある。各文は単語の系列として表現されており、 And E is a set of sentences in the original language, F is a set of sentences in the target language, and e i and f i are sentences in the original language and the target language, respectively. E = {e 1 ,. . . , E N }, F = {f 1 ,. . . , F N }, and sentence e i and sentence f i are in a bilingual relationship. Each sentence is expressed as a sequence of words,
とする。eijは元言語の単語でありniはeiの語数とする。同様に And e ij is a word in the original language, and n i is the number of words in e i . As well
とする。miはfiの語数とする。 And m i is the number of words of f i.
あるフレーズ対xjと対訳コーパス中の文のペア(ei,fi)に対して、xj=(pj,qj) がペアに含まれるとは、pjがeiのある部分列に一致し、かつqjがfiのある部分列に一致することと定義する。すなわち、 Part there phrase pair x j and sentences in parallel corpus pair (e i, f i) with respect to, x j = (p j, q j) and is included in the pair, with p j is the e i It is defined that it matches a column and q j matches a substring with f i . That is,
を満たすような To meet
が存在することと定義する。このとき、pj,qjに一致する部分列に含まれる単語はxjによって被覆されていると定義する。 Is defined to exist. At this time, words included in the partial string matching p j, the q j is defined as being covered by x j.
演算部20は、入力部10によって受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、フレーズテーブルSから、部分集合を選択する。演算部20は、選択処理部22を備えている。 The computing unit 20 selects a subset from the phrase table S based on the training parallel translation corpus and the phrase table S received by the input unit 10. The calculation unit 20 includes a selection processing unit 22.
選択処理部22は、入力部10によって受け付けた訓練用対訳コーパスのペア(ej,fj)の各々について、当該ペア(ej,fj)の元言語の文ejのr番目の単語ejrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズpiであって、かつ、元言語の文ejの部分文字列であるフレーズpiに含まれ、目的言語の文fjのr番目の単語fjrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズqiであって、かつ、目的言語の文fjの部分文字列であるフレーズqiに含まれるように、フレーズテーブルSから部分集合Tを選択する。選択処理部22は、集合分割問題を解くことによって、T⊆Sであるような部分集合T(フレーズテーブルT)を得る。 For each pair of training bilingual corpora (e j , f j ) received by the input unit 10, the selection processing unit 22 selects the r th word of the sentence e j in the original language of the pair (e j , f j ). Each of e jr is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i and is a partial character string of a sentence e j in the original language A phrase q i of any one phrase pair x i in a subset of the phrase table in which each of the r-th words f jr of the sentence f j in the target language is a set of phrase pairs x i included in the phrase p i The subset T is selected from the phrase table S so as to be included in the phrase q i which is a partial character string of the sentence f j in the target language. The selection processing unit 22 obtains a subset T (phrase table T) such that T⊆S by solving the set partitioning problem.
具体的には、選択処理部22は、以下の式にしたがって、集合分割問題を解くことにより、フレーズテーブルSから部分集合Tを選択する。ここで、解くべき集合分割問題は、 Specifically, the selection processing unit 22 selects the subset T from the phrase table S by solving the set partitioning problem according to the following formula. Here, the set partitioning problem to be solved is
という変数yiに対する整数計画問題として定式化される。 It is formulated as an integer programming problem for the variable y i .
変数yi(i=1,...,M) は二値変数であり、フレーズ対xiが部分集合Tに含まれるときにyi=1、そうでないときにyi=0となる変数である。また、aijrはフレーズ対xiによって元言語の文ejのr番目の単語ejrが被覆されているかどうかを表すパラメータであり、被覆されているときにはaijr=1、そうでないときには0となるパラメータである。また、同様にbijrはフレーズ対xiによって目的言語の文fjのr番目の単語fjrが被覆されているかどうかを表すパラメータであり、被覆されているときにはときに1、そうでないときに0となるパラメータである。 The variable y i (i = 1,..., M) is a binary variable, and y i = 1 when the phrase pair x i is included in the subset T, and y i = 0 otherwise. It is. Further, a IJR is a parameter indicating whether r th word e jr sentence e j of the original language by the phrase pair x i is covered, and 0 when a IJR = 1, otherwise when it is covered It is a parameter. Similarly, b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and is 1 when covered, otherwise This parameter is zero.
集合分割問題とは、各ejr,fjrがかならず1回のみ被覆されるようなフレーズの集合を選択する問題である。 The set partitioning problem is a problem of selecting a set of phrases in which each e jr and f jr is covered only once.
出力部30は、選択処理部22によって選択されたフレーズ対xiの部分集合Tを、フレーズ対が削減されたフレーズテーブルとして出力する。 The output unit 30 outputs the subset T of the phrase pair x i selected by the selection processing unit 22 as a phrase table in which the phrase pairs are reduced.
<情報処理装置の作用>
次に、本発明の実施の形態に係る情報処理装置100の作用について説明する。まず、訓練用対訳コーパス及びフレーズテーブルSが、情報処理装置100に入力されると、情報処理装置100によって、図2に示す選択処理ルーチンが実行される。
<Operation of information processing device>
Next, the operation of the information processing apparatus 100 according to the embodiment of the present invention will be described. First, when the training parallel translation corpus and the phrase table S are input to the information processing apparatus 100, the information processing apparatus 100 executes a selection processing routine shown in FIG.
まず、ステップS100において、入力部10により訓練用対訳コーパス及びフレーズテーブルSを受け付ける。 First, in step S <b> 100, a training parallel translation corpus and a phrase table S are received by the input unit 10.
そして、ステップS102において、選択処理部22は、上記ステップS100で受け付けた訓練用対訳コーパス及びフレーズテーブルSに基づいて、訓練用対訳コーパスのペア(ej,fj)の各々について、当該ペア(ej,fj)の元言語の文ejのr番目の単語ejrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズpiであって、かつ、元言語の文ejの部分文字列であるフレーズpiに含まれ、目的言語の文fjのr番目の単語fjrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズqiであって、かつ、目的言語の文fjの部分文字列であるフレーズqiに含まれるように、フレーズテーブルSから部分集合Tを選択する。 In step S102, the selection processing unit 22 determines, for each pair of training bilingual corpora (e j , f j ), based on the training bilingual corpus and phrase table S received in step S100. e j, f j) of each of the r-th word e jr sentence e j of the original language, phrase pair x i phrase p i of any one phrase pair x i of a subset of the phrase table is a set of a is and, included in the phrase p i is a substring of the sentence e j of the original language, each of the r-th word f jr sentence f j of the target language is, is a set of phrase pair x i a phrase q i of any one phrase pair x i of a subset of the phrase table, and, to be included in the phrase q i is a substring of the sentence f j in the target language, Furezute A subset T is selected from the table S.
ステップS104において、上記ステップS102で選択された部分集合Tを結果として出力し、選択処理ルーチンを終了する。 In step S104, the subset T selected in step S102 is output as a result, and the selection processing routine is terminated.
以上説明したように、本実施の形態に係る情報処理装置によれば、訓練用対訳コーパスのペア(ej,fj)の各々について、当該ペア(ej,fj)の元言語の文ejのr番目の単語ejrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズpiであって、かつ、元言語の文ejの部分文字列であるフレーズpiに含まれ、目的言語の文fjのr番目の単語fjrの各々が、フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つのフレーズ対xiのフレーズqiであって、かつ、目的言語の文fjの部分文字列であるフレーズqiに含まれるように、フレーズテーブルから部分集合を選択することにより、訓練用対訳コーパスに含まれるフレーズ対を含み、かつフレーズ対が削減されたフレーズテーブルを得ることができ、フレーズ対の数が少ないフレーズテーブルを得ることができる。 As described above, according to the information processing apparatus according to the present embodiment, training corpus pair (e j, f j) for each of the original language sentence of the pair (e j, f j) each of the jth r-th words e jr is a phrase p i of any one phrase pair x i of a subset of the phrase table that is a set of phrase pairs x i , and a sentence e in the original language j included in the phrase p i is a substring of any one phrase of a subset of each of the r-th word f jr sentence f j of the target language is a phrase table is a set of phrase pair x i a phrase q i pair x i, and, to be included in the phrase q i is a substring of the sentence f j in the target language, by selecting a subset from the phrase table, the training corpus Included phrases A phrase table including pairs and having reduced phrase pairs can be obtained, and a phrase table having a small number of phrase pairs can be obtained.
また、フレーズ対の数が少ないフレーズテーブルが得られた結果として、翻訳文書生成処理の高速化、不要なフレーズ対を減らすことによる翻訳精度の向上が可能である。また、分割の概念を用いて定式化したことにより、フレーズテーブルの大きさに関するパラメータを手動で設定することなく、訓練用対訳コーパスに含まれる文に対する翻訳可能性を保証したフレーズテーブルを得ることができる。 Further, as a result of obtaining a phrase table with a small number of phrase pairs, it is possible to speed up the translation document generation process and improve translation accuracy by reducing unnecessary phrase pairs. In addition, by formulating using the concept of division, it is possible to obtain a phrase table that guarantees the translatability of the sentences included in the training bilingual corpus without manually setting parameters relating to the size of the phrase table. it can.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
上述の情報処理装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 The information processing apparatus 100 described above has a computer system inside, but the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10 入力部
20 演算部
22 選択処理部
30 出力部
100 情報処理装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Calculation part 22 Selection process part 30 Output part 100 Information processing apparatus
Claims (3)
前記選択処理手段が、前記訓練用対訳コーパスの前記ペア(ej,fj)の各々について、前記ペア(ej,fj)の前記元言語の文ejのr番目の単語ejrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiのフレーズpiであって、かつ、前記元言語の文ejの部分文字列であるフレーズpiに含まれ、前記目的言語の文fjのr番目の単語fjrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiの前記フレーズqiであって、かつ、前記目的言語の文fjの部分文字列である前記フレーズqiに含まれるように、前記フレーズテーブルから部分集合を選択するステップ
を含む情報処理方法であって、
前記選択処理手段が前記フレーズテーブルから部分集合を選択するステップは、以下の式にしたがって、前記フレーズテーブルから部分集合を選択する、情報処理方法。
ただし、変数y i (i=1,...,M) は、フレーズ対x i が前記部分集合に含まれるか否かを表す二値変数であり、a ijr はフレーズ対x i によって元言語の文e j のr番目の単語e jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはa ijr =1、被覆されていないときには0となるパラメータである。b ijr はフレーズ対x i によって目的言語の文f j のr番目の単語f jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはb ijr =1、被覆されていないときには0となるパラメータである。 Wherein the selection processing means, in advance from a set a is training corpus of pairs of sentences f j in the target language is a translation of the sentence e j of the source language with sentence e j of source language (e j, f j) It produced a bilingual phrase p i and the phrase p i is a substring of the sentence e j of the original language and a phrase pair of phrases q i is a substring of the sentence f j in the target language An information processing method in an information processing apparatus that selects a subset from a phrase table that is a set of xi ,
It said selection processing means, the pair (e j, f j) of the training corpus for each of said pairs (e j, f j) the sentence e j of the original language of the r-th word e jr of each, a phrase p i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i, and is the partial character string of a sentence e j of the source language Each of the r-th word f jr of the sentence f j in the target language sentence f j is included in the phrase p i , and the phrase pair x i of any one of the subsets of the phrase table that is a set of the phrase pairs x i a the phrase q i, and said to be included in the target language the phrase q i is a substring of the sentence f j of, met information processing method comprising the steps of selecting a subset from the phrase table The
The step of selecting a subset from the phrase table by the selection processing means selects an subset from the phrase table according to the following expression.
However, the variable y i (i = 1,..., M) is a binary variable indicating whether or not the phrase pair x i is included in the subset, and a ijr is the original language according to the phrase pair x i . a parameter r th word e jr the sentence e j represents whether it is covered, when it is covered is 0 and becomes parameter when a IJR = 1, not covered. b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and b ijr = 1 when covered, 0 when not covered It is a parameter.
前記訓練用対訳コーパスの前記ペア(ej,fj)の各々について、前記ペア(ej,fj)の前記元言語の文ejのr番目の単語ejrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiのフレーズpiであって、かつ、前記元言語の文ejの部分文字列であるフレーズpiに含まれ、前記目的言語の文fjのr番目の単語fjrの各々が、前記フレーズ対xiの集合であるフレーズテーブルの部分集合の何れか1つの前記フレーズ対xiの前記フレーズqiであって、かつ、前記目的言語の文fjの部分文字列である前記フレーズqiに含まれるように、前記フレーズテーブルから部分集合を選択する選択処理手段
を含む情報処理装置であって、
前記選択処理手段は、以下の式にしたがって、前記フレーズテーブルから部分集合を選択する、情報処理方法。
ただし、変数y i (i=1,...,M) は、フレーズ対x i が前記部分集合に含まれるか否かを表す二値変数であり、a ijr はフレーズ対x i によって元言語の文e j のr番目の単語e jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはa ijr =1、被覆されていないときには0となるパラメータである。b ijr はフレーズ対x i によって目的言語の文f j のr番目の単語f jr が被覆されているかどうかを表すパラメータであり、被覆されているときにはb ijr =1、被覆されていないときには0となるパラメータである。 Sentence f j and a pair (e j, f j) of the target language is a translation of the sentence e j of the source language with sentence e j of the original language are previously generated from training corpus is a collection of source language A phrase p i that is a partial character string of the sentence e j and a phrase x i that is a parallel translation of the phrase p i and a phrase q i that is a partial character string of the sentence f j in the target language. An information processing apparatus that selects a subset from a phrase table,
Wherein said pair of training corpus (e j, f j) for each of said pairs (e j, f j) each r-th word e jr sentence e j of the original language of the phrase pair a x i phrase p i of any one of the phrase pair x i of a subset of the phrase table is a set of, and included in the phrase p i said a substring of the sentence e j of the original language , each r-th word f jr sentence f j of the target language, encounters the phrase q i of any one of the phrase pair x i of a subset of the phrase table which is a set of the phrase pair x i And a selection processing means for selecting a subset from the phrase table so as to be included in the phrase q i that is a partial character string of the sentence f j of the target language ,
The information processing method, wherein the selection processing means selects a subset from the phrase table according to the following expression.
However, the variable y i (i = 1,..., M) is a binary variable indicating whether or not the phrase pair x i is included in the subset, and a ijr is the original language according to the phrase pair x i . a parameter r th word e jr the sentence e j represents whether it is covered, when it is covered is 0 and becomes parameter when a IJR = 1, not covered. b ijr is a parameter indicating whether or not the r-th word f jr of the sentence f j of the target language is covered by the phrase pair x i , and b ijr = 1 when covered, 0 when not covered It is a parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015116059A JP6482073B2 (en) | 2015-06-08 | 2015-06-08 | Information processing method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015116059A JP6482073B2 (en) | 2015-06-08 | 2015-06-08 | Information processing method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017004179A JP2017004179A (en) | 2017-01-05 |
JP6482073B2 true JP6482073B2 (en) | 2019-03-13 |
Family
ID=57752096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015116059A Active JP6482073B2 (en) | 2015-06-08 | 2015-06-08 | Information processing method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6482073B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3642733A4 (en) * | 2017-07-31 | 2020-07-22 | Beijing Didi Infinity Technology and Development Co., Ltd. | System and method for segmenting a sentence |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
JP2011180823A (en) * | 2010-03-01 | 2011-09-15 | National Institute Of Information & Communication Technology | Apparatus and method for machine translation, and program |
US8612205B2 (en) * | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
US8655640B2 (en) * | 2011-03-02 | 2014-02-18 | Raytheon Bbn Technologies Corp. | Automatic word alignment |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
JP5918625B2 (en) * | 2012-05-18 | 2016-05-18 | 日本放送協会 | Phrase translation model learning device and program thereof |
US8990069B1 (en) * | 2012-06-29 | 2015-03-24 | Google Inc. | Techniques for pruning phrase tables for statistical machine translation |
CN104391885B (en) * | 2014-11-07 | 2017-07-28 | 哈尔滨工业大学 | A kind of abstracting method of the chapter level than the parallel phrase pair of language material trained based on parallel corpora |
-
2015
- 2015-06-08 JP JP2015116059A patent/JP6482073B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017004179A (en) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9208149B2 (en) | Machine translation apparatus, method and program | |
US9176936B2 (en) | Transliteration pair matching | |
US10303761B2 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
JP2009140503A (en) | Method and apparatus for translating speech | |
KR101732634B1 (en) | Statistical Machine Translation Method using Dependency Forest | |
JP2020537223A5 (en) | ||
JP2010061645A (en) | Phrase-based statistics machine translation method and system | |
JP6817556B2 (en) | Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system | |
RU2014135303A (en) | TEXT PROCESSING METHOD (OPTIONS) AND PERMANENT MACHINE READABLE MEDIA (OPTIONS) | |
US20170220562A1 (en) | Translation apparatus | |
Rahman et al. | A corpus based n-gram hybrid approach of bengali to english machine translation | |
JP6482073B2 (en) | Information processing method, apparatus, and program | |
Wuebker et al. | Hierarchical incremental adaptation for statistical machine translation | |
JP6478382B2 (en) | Translation device | |
Adams et al. | Inducing bilingual lexicons from small quantities of sentence-aligned phonemic transcriptions | |
JP6498135B2 (en) | Information processing method, apparatus, and program | |
Siahbani et al. | Efficient left-to-right hierarchical phrase-based translation with improved reordering | |
JP2005025474A (en) | Machine translation device, computer program, and computer | |
JP6564709B2 (en) | Sentence rewriting device, method, and program | |
JP2007317000A (en) | Machine translation device, its method, and program | |
Hajmohammadi et al. | Density based active self-training for cross-lingual sentiment classification | |
Van Niekerk | Exploring unsupervised word segmentation for machine translation in the South African context | |
JP2010170303A (en) | Machine translation device and program | |
KR20160085100A (en) | Apparatus for Hybride Translation | |
JP2016189154A (en) | Translation method, device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6482073 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |