JP2014154102A - Sentence correspondence determination device, method and program - Google Patents

Sentence correspondence determination device, method and program Download PDF

Info

Publication number
JP2014154102A
JP2014154102A JP2013025805A JP2013025805A JP2014154102A JP 2014154102 A JP2014154102 A JP 2014154102A JP 2013025805 A JP2013025805 A JP 2013025805A JP 2013025805 A JP2013025805 A JP 2013025805A JP 2014154102 A JP2014154102 A JP 2014154102A
Authority
JP
Japan
Prior art keywords
partial document
pair
document
partial
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013025805A
Other languages
Japanese (ja)
Other versions
JP5964764B2 (en
Inventor
Masaaki Nishino
正彬 西野
Tsutomu Hirao
努 平尾
Katsuto Sudo
克仁 須藤
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013025805A priority Critical patent/JP5964764B2/en
Publication of JP2014154102A publication Critical patent/JP2014154102A/en
Application granted granted Critical
Publication of JP5964764B2 publication Critical patent/JP5964764B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To determine sentence correspondence with good accuracy even when sentence correspondences are intersecting.SOLUTION: By a partial document pair score calculation processing unit 21, correspondence of sentences between partial documents is determined so as to optimize a correspondence score about each of all pairs of partial documents in two documents. By sentence correspondence calculation unit 22, the pair of the partial documents to be corresponded is determined by solving an integer linear programming problem, and correspondence of the determined sentences for each of the pairs of the corresponded partial documents is determined as the correspondence of the sentences between the two documents.

Description

本発明は、文対応付け決定装置、方法、及びプログラムに係り、特に、2つの文書間の文の対応付けを決定する文対応付け決定装置、方法、及びプログラムに関する。   The present invention relates to a sentence association determination apparatus, method, and program, and more particularly, to a sentence association determination apparatus, method, and program for determining sentence association between two documents.

既存の文関係の対応付けを決定する手法として、非特許文献1では系列のDPマッチングに基づく方法が示されている。DPマッチングは、二つの系列が与えられたときにその系列の要素間の対応関係を動的計画法によって高速に求めるための方法である。また、文の対応付けでは利用されていないが、類似の問題である単語同士の対応付けを求める問題は離散最適化の問題の一種である割当問題として定式化して解くことができ、文同士の対応付け問題も同様に解くことができる(非特許文献2)。   As a method for determining the association between existing sentence relationships, Non-Patent Document 1 discloses a method based on DP matching of sequences. DP matching is a method for obtaining a correspondence between elements of two sequences at a high speed by dynamic programming when two sequences are given. In addition, although not used in sentence association, the problem of finding the correspondence between words, which is a similar problem, can be formulated and solved as an assignment problem, which is a kind of discrete optimization problem. The association problem can be solved similarly (Non-Patent Document 2).

Robert C. Moore, “Fast and Accurate Sentence Alignment of Bilingual Corpora”, in proceedings of AMTA’02, pp 135-144, 2002.Robert C. Moore, “Fast and Accurate Sentence Alignment of Bilingual Corpora”, in proceedings of AMTA’02, pp 135-144, 2002. Evgenv Matusov, Richard Zens, and Hermann Ney, “Symmetric Word Alignments for Statistical Machine Translation” In Proceedings of the 20th international conference on Computational Linguistics, page 219. Association for Computational Linguistics.Evgenv Matusov, Richard Zens, and Hermann Ney, “Symmetric Word Alignments for Statistical Machine Translation” In Proceedings of the 20th international conference on Computational Linguistics, page 219. Association for Computational Linguistics.

既存のDPマッチングによる方法では,可能な文間の対応付けにおいて順序の反転を許さないという制約がある。すなわち、いま、2つの文書をF,Eとし、それぞれがm個の文f,f,...,fとn個の文e,e,...,eからなるとする。文の対応付けを求める問題は、これらの文における、スコアを最大にする対応付けの集合A={(fρ(1),eη(1)),(fρ(2),eη(2)),...,(fρ(G),η(G))}を見つけることに対応する。ここでGは対応付けの個数を表し、G≦m、nである。また、ρ(i)はi番目の対応付けにおけるfの添字、η(i)はeの添字をそれぞれ表す。DPマッチングを用いる方法には、交叉を許す対応付けを見つけることができないという問題がある。ここで、対応付けが交叉するとは、Aにおいて(f,e)という対応付けがなされている場合に、i’<iかつj’>jであるような対応付け(fi’,ej’)もAに含まれていることを指す。この制約は、EがFの対訳であるような場合には妥当であることが多いが、例えば文書中の段落の順番が入れ替わっているような場合には、正しい対応付けを得られない可能性が高い。 In the existing DP matching method, there is a restriction that reversal of the order is not allowed in correspondence between possible sentences. That is, now two documents are F and E, and m sentences f 1 , f 2 ,. . . , F m and n pieces of sentence e 1, e 2,. . . , And it consists of e n. The problem of obtaining sentence associations is that a set of associations A = {(f ρ (1) , e η (1) ), (f ρ (2) , e η ( 2) ),. . . , (F ρ (G), e η (G) )}. Here, G represents the number of associations, and G ≦ m, n. Further, ρ (i) represents a subscript of f in the i-th association, and η (i) represents a subscript of e. The method using DP matching has a problem that it is impossible to find a correspondence that allows crossover. Here, the associations cross over each other when the association (f i , e j ) is made in A and the associations (f i ′ , e) such that i ′ <i and j ′> j are satisfied. j ′ ) is also included in A. This restriction is often appropriate when E is a parallel translation of F. For example, when the order of paragraphs in a document is changed, there is a possibility that a correct correspondence cannot be obtained. Is expensive.

割当問題として文の対応付けを行った場合にはこのような問題は発生しないが、一方で文書内での前後のつながりを考慮せずに対応を行うことになるため、よい対応付けを得ることができないという問題がある.   Such a problem does not occur when sentence association is performed as an assignment problem, but on the other hand, since correspondence is performed without considering the connection before and after in the document, a good association is obtained. There is a problem that cannot be done.

本発明は、上記の事情を鑑みてなされたもので、文の対応付けが交叉している場合であっても、文の対応付けを精度よく決定するこができる文対応付け決定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and a sentence association determination apparatus, method, and method capable of accurately determining sentence association even when sentence associations are crossed. And to provide a program.

上記の目的を達成するために本発明に係る文対応付け決定装置は、複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置であって、前記第1文書のうちの連続する1つ以上の文からなる第1部分文書を各々作成すると共に、前記第2文書のうちの連続する1つ以上の文からなる第2部分文書を各々作成し、前記第1部分文書と前記第2部分文書との全てのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように前記ペアの文の対応付けを決定する部分文書ペアスコア計算手段と、前記部分文書ペアスコア計算手段によって最適化するように計算された前記ペアの各々の対応付けスコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する文対応付け決定手段と、含んで構成されている。   In order to achieve the above object, a sentence association determining apparatus according to the present invention determines a sentence association between a first document including a plurality of sentences and a second document including a plurality of sentences. An association determination device that creates a first partial document composed of one or more consecutive sentences in the first document and includes one or more consecutive sentences in the second document. Create a second partial document, and for each of all pairs of the first partial document and the second partial document, correspondence of the sentence between the first partial document and the second partial document of the pair The partial document pair score calculating means for determining the correspondence of the sentence of the pair so as to optimize the matching score calculated according to the attachment, and calculated by the partial document pair score calculating means for optimization Based on each matching score of the pair The first partial document of the pair of the first partial document and the second partial document to be associated does not overlap with the first partial document of another pair, and is associated with the first partial document The second partial document in a pair of the second partial document does not overlap with the second partial document of another pair, and is a pair of the first partial document and the second partial document that are associated with each other At least one pair of the first partial document and the second partial document to be matched is determined so that the sum of the correspondence scores calculated so as to optimize each of the first partial document and the second partial document is maximized. A sentence that determines the association of the determined sentence for each pair of the first partial document and the second partial document that is determined as a sentence association between the first document and the second document The correspondence determining means is configured to include That.

本発明に係る文対応付け決定方法は、複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置における文対応付け決定方法であって、部分文書ペアスコア計算手段によって、前記第1文書のうちの連続する1つ以上の文からなる第1部分文書を各々作成すると共に、前記第2文書のうちの連続する1つ以上の文からなる第2部分文書を各々作成し、前記第1部分文書と前記第2部分文書との全てのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように前記ペアの文の対応付けを決定し、文対応付け決定手段によって、前記部分文書ペアスコア計算手段によって最適化するように計算された前記ペアの各々の対応付けスコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する。   The sentence association determination method according to the present invention includes a sentence association in a sentence association determination apparatus that determines sentence association between a first document including a plurality of sentences and a second document including a plurality of sentences. In the determination method, the partial document pair score calculation unit creates each of the first partial documents including one or more continuous sentences of the first document, and the continuous document of the second documents. A second partial document composed of one or more sentences, and for each of all pairs of the first partial document and the second partial document, the first partial document and the second partial document of the pair; The sentence correspondence between the pair is determined so as to optimize the correspondence score calculated according to the sentence correspondence between the two, and optimized by the partial document pair score calculating means by the sentence correspondence determining means Calculated to be said A first partial document of a pair of the first partial document and the second partial document to be associated with each other based on the association score of each of the In addition, the second partial document of the pair of the first partial document and the second partial document to be associated with each other does not overlap with the second partial document of another pair, and is associated with the first partial document The first partial document and the second partial document that are associated with each other so that the sum of the correspondence scores calculated to optimize each pair of the document and the second partial document is maximized. At least one pair is determined, and the determined sentence correspondence between each pair of the first partial document and the second partial document associated with each other is determined between the first document and the second document. It is decided as the correspondence of the sentence in.

本発明に係るプログラムは、コンピュータを、上記の文対応付け決定装置の各手段として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each unit of the above sentence association determination apparatus.

以上説明したように、本発明の文対応付け決定装置、方法、及びプログラムによれば、
部分文書のペアの各々について、部分文書間で対応付けスコアを最適化するように文の対応付けを決定し、対応付けられるペアの部分文書が、他のペアの部分文書と重複せず、かつ、対応付けられる部分文書のペアの最適な対応付けスコアの総和が最大となるように、対応付けられる部分文書のペアを決定し、対応付けられた部分文書のペアについて決定された文の対応付けを、文書間の文の対応付けとして決定することにより、文の対応付けが交叉している場合であっても、文の対応付けを精度よく決定することができる、という効果が得られる。
As described above, according to the sentence association determination apparatus, method, and program of the present invention,
For each of the partial document pairs, sentence association is determined so as to optimize the association score between the partial documents, and the paired partial documents do not overlap with other pairs of partial documents, and , Determine the pair of partial documents to be matched so that the sum of the optimal matching scores of the pair of partial documents to be maximized, and associate the sentence determined for the pair of partial documents Is determined as the sentence correspondence between documents, so that the sentence correspondence can be accurately determined even when the sentence associations are crossed.

本発明の実施の形態に係る文対応付け決定装置の構成を示す概略図である。It is the schematic which shows the structure of the sentence matching determination apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る文対応付け決定装置における文対応付け決定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the sentence matching determination processing routine in the sentence matching determination apparatus which concerns on embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<システム構成>
本発明の実施の形態に係る文対応付け決定装置100は、対応する2つの文書が入力され、2つの文書間で文の対応付けを決定する。この文対応付け決定装置100は、CPUと、RAMと、後述する文対応付け決定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、文対応付け決定装置100は、文書入力部10と、演算部20と、対応付け結果出力部30を備えている。
<System configuration>
The sentence association determination apparatus 100 according to the embodiment of the present invention receives two corresponding documents and determines sentence association between the two documents. The sentence association determination apparatus 100 is composed of a computer including a CPU, a RAM, and a ROM that stores a program for executing a sentence association determination processing routine to be described later. It is configured. As shown in FIG. 1, the sentence association determination apparatus 100 includes a document input unit 10, a calculation unit 20, and an association result output unit 30.

文書入力部10は、対応付けを行う対象である2つの文書の入力を受け付ける。入力される2つの文書は、翻訳元言語の文書と、当該文書を翻訳した翻訳先言語の文書とである。   The document input unit 10 receives input of two documents that are targets of association. The two input documents are a translation source language document and a translation destination language document obtained by translating the document.

演算部20は、部分文書ペアスコア計算処理部21及び対応付け計算部22を備えている。   The calculation unit 20 includes a partial document pair score calculation processing unit 21 and an association calculation unit 22.

部分文書ペアスコア計算処理部21は、文書入力部10で受け付けた2つの文書について、それぞれに含まれる、すべての連続する1文以上のまとまり(部分文書とよぶ)を全て作成し、部分文書同士のすべてのペアについて、以下のように、スコアを計算する。   The partial document pair score calculation processing unit 21 creates all the continuous groups of one or more sentences (called partial documents) included in each of the two documents received by the document input unit 10, For all pairs, calculate the score as follows:

ここで、2つの文書をF、Eとし、それぞれがm個の文f,f,...,fとn個の文e,e,...,eからなるとする。なお、以下ではfi,jで、Fのi番目の文からj番目の文からなる文の集まり(部分文書)を表すとする。Eについても同様に表現する。 Here, two documents are F and E, and m sentences f 1 , f 2 ,. . . , F m and n pieces of sentence e 1, e 2,. . . , And it consists of e n. In the following, it is assumed that f i, j represents a set of sentences (partial documents) including the i-th sentence to the j-th sentence of F. E is expressed similarly.

部分文書のペアとは、2つの文の集まりfi,jとek,lのペアのこととする。fi,jが(n+1)n/2通り、ek,lが(m+1)m/2通りあることから、可能なペアの総数は、(n+1)(m+1)nm/4通りである。 A partial document pair is a pair of two sentences, f i, j and e k, l . Since f i, j is (n + 1) n / 2 ways and ek, l is (m + 1) m / 2 ways, the total number of possible pairs is (n + 1) (m + 1) nm / 4 ways.

部分文書のペアのスコアは、その部分文書同士で、上記の手法でDPマッチングを行うことによって計算する。DPマッチングでは文同士のペアに対するスコアscore(f,e)をもとにして、部分文書間のDPマッチングによる最適なスコアを計算する。score(f,e)としては、たとえば、非特許文献1に記載されているものを利用することができ、以下の(1)式で表わされる。 The score of a pair of partial documents is calculated by performing DP matching between the partial documents using the above method. In DP matching, an optimal score by DP matching between partial documents is calculated based on a score score (f i , e j ) for a pair of sentences. As score (f i , e j ), for example, one described in Non-Patent Document 1 can be used, and is represented by the following equation (1).

Figure 2014154102
Figure 2014154102

また、DPマッチングによって、以下の(2)式に従って、fi,jとek,lのペアについての最適なスコアscore(fi,j,ek,l)を計算するとともに、部分文書内での最適な文同士の対応付けを得ることができる。計算された最適なスコアscore(fi,j,ek,l)をメモリ(図示省略)に記憶しておく。なお、スコアscore(fi,j,ek,l)が、対応付けスコアの一例である。部分文集合fi,jとek,lのマッチングスコアscore(fij,ek,l)は、以下の(2)式のような再帰式で求めることができる. Further, the DP matching, in accordance with the following equation (2), f i, j and e k, best scores score for a pair of l (f i, j, e k, l) together with calculating the partial document The optimal correspondence between sentences can be obtained. The calculated optimal score score (fi , j , e k, l ) is stored in a memory (not shown). The score score (fi , j , e k, l ) is an example of the association score. The matching score score (f ij , e k, l ) between the sub-sentence sets f i, j and e k, l can be obtained by a recursive equation such as the following equation (2).

Figure 2014154102
Figure 2014154102

ここで、score(fj)、score(el)はそれぞれの文が対応づけられなかったときのスコアを表す。score(fi,j,ek,l)はDPマッチングを用いて効率的に求めることができる。すなわち、 Here, score (f j ) and score (e l ) represent scores when the sentences are not associated with each other. score (f i, j , e k, l ) can be efficiently obtained using DP matching. That is,

Figure 2014154102
Figure 2014154102

として順番に解を求めていくことで、以前に計算した結果を再利用してスコアを求めることができる。 As a result, the score can be obtained by reusing previously calculated results.

対応付け計算部22は、部分文書ペアスコア計算処理部21で計算した全てのペアのスコアを用いて、スコアを最大とする部分文書の対応付けを計算する。整数線形計画問題処理装置150は、文対応付け決定装置100の外部にある、整数線形計画問題を解くための装置であり、対応付け計算部22から呼び出されて使われる。整数線形計画問題処理装置150として、市販の任意の整数線形計画法のソルバーを利用できる。   The association calculation unit 22 uses the scores of all the pairs calculated by the partial document pair score calculation processing unit 21 to calculate the association of the partial documents having the maximum score. The integer linear programming problem processing apparatus 150 is an apparatus for solving an integer linear programming problem that is external to the sentence association determination apparatus 100 and is called from the association calculation unit 22 and used. As the integer linear programming problem processing apparatus 150, any commercially available integer linear programming solver can be used.

以下に、対応付け計算部22による最適マッチング計算について説明する。この計算は、整数線形計画問題処理装置150において、以下の最適化問題を解くことによって行われる。   Below, the optimal matching calculation by the matching calculation part 22 is demonstrated. This calculation is performed by solving the following optimization problem in the integer linear programming problem processing apparatus 150.

Figure 2014154102
Figure 2014154102

ただし、wijklは、対応付けが行われた文の集まりのペア(fi,j,ek,l)を表すバイナリ変数,fi,j,ek,lは文それぞれの集まりを表すバイナリ変数である.最終的に得られた対応付けにおいて文の集まりのペア(fi,j,ek,l)が含まれているときにwijklは1をとり、そうでないときに0をとる。λはペアを加えることに対するコストであり、score(fi,j,ek,l)に対して大きいλを設定することで、できるだけ大きい文の集まり同士で対応がとられ易くする。なお、λ=0としてもよい。 Here, w ijkl is a binary variable representing a pair (f i, j , e k, l ) of a group of sentences associated with each other, and f i, j , e k, l is a binary representing a group of each sentence. Is a variable. W ijkl takes 1 when the finally obtained correspondence includes a sentence group pair (f i, j , e k, l ), and takes 0 otherwise. λ is a cost for adding a pair, and by setting a large λ for score (fi , j , e k, l ), it becomes easy to take correspondence between groups of sentences as large as possible. Note that λ = 0 may be used.

上記の最適化問題(整数線形計画問題)を解くことによって、対応付けられる第1部分文書と第2部分文書とのペアの第1部分文書が、対応付けられる他のペアの第1部分文書と重複せず、かつ、対応付けられる第1部分文書と第2部分文書とのペアの第2部分文書が、対応付けられる他のペアの第2部分文書と重複せず、かつ、対応付けられる第1部分文書と第2部分文書とのペアの対応付けスコアscore(fi,j,ek,l)からλを減算した値の総和が最大となるように、対応付けられる第1部分文書と第2部分文書とのペアが少なくとも1つ決定される。 By solving the above optimization problem (integer linear programming problem), the first partial document of the pair of the first partial document and the second partial document to be associated with the first partial document of the other pair to be associated with A second partial document that does not overlap and is associated with a second partial document that is a pair of the first partial document and the second partial document that are associated with each other and that does not overlap with a second partial document that is associated with another pair. The first partial document to be matched such that the sum of the values obtained by subtracting λ from the matching score score (fi , j , e k, l ) of the pair of the one partial document and the second partial document is maximized At least one pair with the second partial document is determined.

そして、対応付け計算部22は、対応付けられた第1部分文書と第2部分文書とのペアの各々について部分文書ペアスコア計算処理部21で決定した文の対応付けを、文書入力部10で受け付けた2つの文書における最適な文の対応付けとして決定する。   Then, the association calculation unit 22 uses the document input unit 10 to associate the sentence determined by the partial document pair score calculation processing unit 21 for each pair of the first partial document and the second partial document associated with each other. It is determined as the optimum sentence correspondence between the two received documents.

対応付け結果出力部30は、文対応付け決定装置100によって得られた最適な文の対応付けを出力する。   The association result output unit 30 outputs the optimum sentence association obtained by the sentence association determination apparatus 100.

<文対応付け決定装置の作用>
次に、本発明の実施の形態に係る文対応付け決定装置100の作用について説明する。まず、文の対応付けの対象となる2つの文書が、文対応付け決定装置100に入力されると、文対応付け決定装置100によって、図2に示す文対応付け決定処理ルーチンが実行される。
<Operation of sentence association determination device>
Next, the operation of the sentence association determination apparatus 100 according to the embodiment of the present invention will be described. First, when two documents to be sentence association targets are input to the sentence association determination apparatus 100, the sentence association determination apparatus 100 executes a sentence association determination processing routine shown in FIG.

まず、ステップS01において、入力された2つの文書を受け付ける。   First, in step S01, two input documents are received.

そして、ステップS02において、上記ステップS01で受け付けた2つの文書の各々について、すべての部分文書を生成するとともに、2つの文書の各々の部分文書で形成されるすべてのペアの各々について、当該ペアの部分文書間のDPマッチングを行って、当該ペアについての最適なスコアscore(fi,j,ek,l)を計算する。 In step S02, all partial documents are generated for each of the two documents received in step S01, and for each of all pairs formed by the partial documents of the two documents, DP matching between the partial documents is performed to calculate an optimal score score (fi , j , e k, l ) for the pair.

次のステップS03では、上記ステップS02で計算されたすべてのペアの各々の最適なスコアscore(fi,j,ek,l)に基づいて、整数線形計画問題処理装置150を用いて、上記(3)式に示す最適化問題(整数線形計画問題)を解くことによって、2つの文書間の部分文書の対応付けを決定する。 In the next step S03, the integer linear programming problem processing apparatus 150 is used based on the optimal scores score (fi , j , e k, l ) of all the pairs calculated in step S02. By solving the optimization problem (integer linear programming problem) shown in equation (3), the correspondence between the two documents is determined.

ステップS04では、上記ステップS03で対応付けられた部分文書のペアの各々について、上記ステップS02で決定された当該ペアの部分文書間の文の対応付けを用いて、2つの文書間の文の対応付けを決定し、対応付け結果出力部30により出力して、文対応付け決定処理ルーチンを終了する。   In step S04, for each of the partial document pairs associated in step S03, the sentence correspondence between the two documents is determined using the sentence association between the paired partial documents determined in step S02. The association is determined and output by the association result output unit 30, and the sentence association determination processing routine is terminated.

以上説明したように、本実施の形態に係る文対応付け決定装置によれば、2つの文書における部分文書の全てのペアについて、部分文書fi,j、ek,l間でスコアscore(fi,j,ek,l)を最適化するように文の対応付けを決定し、対応付けられるペアの部分文書が、対応付けられる他のペアの部分文書と重複せず、かつ、対応付けられる部分文書のペアの最適なスコアscore(fi,j,ek,l)からλを減算した値の総和が最大となるように、対応付けられる部分文書のペアを決定し、対応付けられた部分文書のペアについて最適化するよう決定された文の対応付けを、2つの文書間の文の対応付けとして決定することにより、文書間で文の対応付けが交叉している場合であっても、文の対応付けを精度よく決定するこができる。 As described above, according to the sentence association determination apparatus according to the present embodiment, for all pairs of partial documents in two documents, the score score (f) between the partial documents f i, j , e k, l. sentence correspondence is determined so as to optimize i, j , e k, l ), the paired partial documents do not overlap with other paired partial documents, and are matched A pair of partial documents to be matched is determined so that the sum of values obtained by subtracting λ from the optimal score score (fi , j , e k, l ) of the pair of partial documents to be maximized This is a case where sentence correspondence between two documents is crossed by determining sentence correspondence determined to be optimized for a pair of partial documents as sentence correspondence between two documents. However, the sentence mapping is accurate Can be determined.

また、いくつかの連続する文のまとまりである部分文書を構成要素とする割当問題として、文の対応付け問題を定式化して解く。このように部分文書を構成要素として解くことによって、一つの文を構成要素とする割当問題として解く際に考慮できなかった、文の前後のつながりを考慮した対応付けを行うことができる。また、DPマッチングによる方法では不可能だった、文の交叉があるような場合でも対応付けを行うことが可能となる。   In addition, as an assignment problem having a partial document that is a group of several consecutive sentences as a constituent element, a sentence association problem is formulated and solved. By solving the partial document as a constituent element in this way, it is possible to perform association in consideration of the connection before and after the sentence, which could not be considered when solving as an assignment problem with one sentence as a constituent element. In addition, it is possible to perform association even when there is a sentence crossing, which was impossible with the DP matching method.

また、2つの文書中の文同士の対応付けを行う問題において、対応する文のまとまり(例えば、段落)の位置が文書間で交叉しているような場合にも、適切な対応付けを行うことが可能となり、結果として文書間の文の対応付けの精度を向上させることができる。   Also, in the problem of associating sentences in two documents, appropriate association should be performed even when the positions of corresponding sentence groups (for example, paragraphs) intersect between documents. As a result, it is possible to improve the accuracy of sentence correspondence between documents.

また、本実施の形態で説明した文の対応付けを、対訳データを生成する際に利用することにより、対訳データにおける文の対応付けを精度よく行うことができ、統計的機械翻訳の精度向上等の効果が見込める。また、本実施の形態で説明した文の対応付けを、ある文書の違法なコピーを発見する問題などにも適用することができる。   In addition, by using the sentence correspondence described in the present embodiment when generating parallel translation data, it is possible to accurately associate sentences in the parallel translation data, improving the accuracy of statistical machine translation, etc. Can be expected. The sentence association described in this embodiment can also be applied to the problem of finding an illegal copy of a document.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   For example, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program may be provided by being stored in a computer-readable recording medium.

10 文書入力部
20 演算部
21 部分文書ペアスコア計算処理部
22 計算部
30 対応付け結果出力部
100 文対応付け決定装置
150 整数線形計画問題処理装置
DESCRIPTION OF SYMBOLS 10 Document input part 20 Calculation part 21 Partial document pair score calculation process part 22 Calculation part 30 Matching result output part 100 Sentence matching determination apparatus 150 Integer linear programming problem processing apparatus

Claims (7)

複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置であって、
前記第1文書のうちの連続する1つ以上の文からなる第1部分文書を各々作成すると共に、前記第2文書のうちの連続する1つ以上の文からなる第2部分文書を各々作成し、前記第1部分文書と前記第2部分文書との全てのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように前記ペアの文の対応付けを決定する部分文書ペアスコア計算手段と、
前記部分文書ペアスコア計算手段によって最適化するように計算された前記ペアの各々の対応付けスコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する文対応付け決定手段と、
を含む文対応付け決定装置。
A sentence association determination device that determines sentence association between a first document including a plurality of sentences and a second document including a plurality of sentences,
A first partial document composed of one or more continuous sentences in the first document is created, and a second partial document composed of one or more continuous sentences in the second document is created. Correspondence calculated for each pair of the first partial document and the second partial document in accordance with sentence correspondence between the first partial document and the second partial document of the pair A partial document pair score calculating means for determining the correspondence of the sentence of the pair so as to optimize the attaching score;
The first part of the pair of the first partial document and the second partial document associated with each other based on the correspondence score of each of the pairs calculated to be optimized by the partial document pair score calculation unit The document does not overlap with the first partial document of another pair, and the second partial document of the pair of the first partial document and the second partial document associated with each other is the second partial document of the other pair. The sum of the correspondence scores calculated so as to optimize each pair of the first partial document and the second partial document to be matched does not overlap with a two-part document so as to be maximized. , Determining at least one pair of the first partial document and the second partial document to be associated, and determining the sentence for each of the pair of the first partial document and the second partial document associated with each other Mapping And sentence correspondence determining means for determining a correspondence between statements in between the first document a second document,
A sentence association determination apparatus including
前記文対応付け決定手段は、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアから所定値を減算した値の総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定する請求項1記載の文対応付け決定装置。   The sentence association determining unit is configured so that the first partial document of a pair of the first partial document and the second partial document to be associated with each other does not overlap with the first partial document of another pair. The second partial document of the pair of the first partial document and the second partial document to be attached does not overlap the second partial document of another pair and is associated with the first partial document and the second partial document The first partial document and the second partial document that are associated with each other so that the sum of values obtained by subtracting a predetermined value from the association score calculated to optimize each pair with the second partial document is maximized. The sentence association determining apparatus according to claim 1, wherein at least one pair with a partial document is determined. 前記文対応付け決定手段は、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、線形計画問題を解くことによって、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定する請求項1又は2記載の文対応付け決定装置。   The sentence association determining unit is configured so that the first partial document of a pair of the first partial document and the second partial document to be associated with each other does not overlap with the first partial document of another pair. The second partial document of the pair of the first partial document and the second partial document to be attached does not overlap the second partial document of another pair and is associated with the first partial document and the second partial document By solving the linear programming problem so that the sum of the correspondence scores calculated to optimize each pair with the second partial document is maximized, the first partial document associated with the first partial document and the first partial document are correlated with each other. 3. The sentence association determination apparatus according to claim 1, wherein at least one pair with a two-part document is determined. 複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置における文対応付け決定方法であって、
部分文書ペアスコア計算手段によって、前記第1文書のうちの連続する1つ以上の文からなる第1部分文書を各々作成すると共に、前記第2文書のうちの連続する1つ以上の文からなる第2部分文書を各々作成し、前記第1部分文書と前記第2部分文書との全てのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように前記ペアの文の対応付けを決定し、
文対応付け決定手段によって、前記部分文書ペアスコア計算手段によって最適化するように計算された前記ペアの各々の対応付けスコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する
文対応付け決定方法。
A sentence association determination method in a sentence association determination apparatus that determines sentence association between a first document including a plurality of sentences and a second document including a plurality of sentences,
The partial document pair score calculation means respectively creates a first partial document composed of one or more continuous sentences in the first document, and consists of one or more continuous sentences in the second document. Create a second partial document, and for each of all pairs of the first partial document and the second partial document, correspondence of the sentence between the first partial document and the second partial document of the pair Determine the correspondence of the pair of sentences so as to optimize the correspondence score calculated according to the attachment,
The first partial document and the second partial document that are associated with each other based on the association score of each of the pairs calculated to be optimized by the partial document pair score calculation unit by the sentence association determination unit The first partial document of the pair of the second partial document does not overlap with the first partial document of the other pair and the paired first partial document and the second partial document are associated with each other. The correspondence score calculated so as to optimize each pair of the first partial document and the second partial document that do not overlap with the second partial document of another pair At least one pair of the first partial document and the second partial document associated with each other is determined so that the sum is maximized, and the pair of the first partial document and the second partial document associated with each other is determined. For each The correspondence of statements with the determined sentence correspondence determination method for determining a correlation statement between the first document and the second document.
前記文対応付け決定手段によって、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定することは、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアから所定値を減算した値の総和が最大となるように、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定する請求項4記載の文対応付け決定方法。   Determining at least one pair of the first partial document and the second partial document to be associated by the sentence association determination means is performed between the first partial document and the second partial document to be associated with each other. The first partial document of a pair does not overlap the first partial document of another pair, and the second partial document of the pair of the first partial document and the second partial document to be associated with each other is Predetermined from the correspondence score calculated so as to optimize each pair of the first partial document and the second partial document that do not overlap with the second partial document of another pair 5. The sentence association determination method according to claim 4, wherein at least one pair of the first partial document and the second partial document to be associated is determined so that a sum of values obtained by subtracting the values is maximized. 前記文対応付け決定手段によって、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定することは、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算された前記対応付けスコアの総和が最大となるように、線形計画問題を解くことによって、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定する請求項4又は5記載の文対応付け決定方法。   Determining at least one pair of the first partial document and the second partial document to be associated by the sentence association determination means is performed between the first partial document and the second partial document to be associated with each other. The first partial document of a pair does not overlap the first partial document of another pair, and the second partial document of the pair of the first partial document and the second partial document to be associated with each other is The sum of the correspondence scores calculated so as to optimize each pair of the first partial document and the second partial document that do not overlap with the second partial document of another pair The sentence association determination method according to claim 4 or 5, wherein at least one pair of the first partial document and the second partial document to be associated is determined by solving a linear programming problem so that the maximum is obtained. . コンピュータを、請求項1〜請求項3の何れか1項記載の文対応付け決定装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the sentence matching determination apparatus of any one of Claims 1-3.
JP2013025805A 2013-02-13 2013-02-13 Statement association determination apparatus, method, and program Active JP5964764B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013025805A JP5964764B2 (en) 2013-02-13 2013-02-13 Statement association determination apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013025805A JP5964764B2 (en) 2013-02-13 2013-02-13 Statement association determination apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2014154102A true JP2014154102A (en) 2014-08-25
JP5964764B2 JP5964764B2 (en) 2016-08-03

Family

ID=51575876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013025805A Active JP5964764B2 (en) 2013-02-13 2013-02-13 Statement association determination apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5964764B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170131A (en) * 2014-03-06 2015-09-28 日本電信電話株式会社 Sentence correspondence determination device, method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099511A (en) * 1998-09-24 2000-04-07 Oki Electric Ind Co Ltd Translated document corresponding system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099511A (en) * 1998-09-24 2000-04-07 Oki Electric Ind Co Ltd Translated document corresponding system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015049889; 藤井 敦、谷川 英和、岩山 真、難波 英嗣、山本 幹雄、内山 将夫: 特許情報処理:言語処理的アプローチ 第1版, 20121228, p.135-141, 株式会社コロナ社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170131A (en) * 2014-03-06 2015-09-28 日本電信電話株式会社 Sentence correspondence determination device, method and program

Also Published As

Publication number Publication date
JP5964764B2 (en) 2016-08-03

Similar Documents

Publication Publication Date Title
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
WO2018233647A1 (en) Abstract generation method, device and computer device and storage medium
Joanis et al. The Nunavut Hansard Inuktitut–English parallel corpus 3.0 with preliminary machine translation results
US20090094017A1 (en) Multilingual Translation Database System and An Establishing Method Therefor
JP7111464B2 (en) Translation method, translation device and translation system
CN108132932B (en) Neural machine translation method with replication mechanism
JP6532088B2 (en) Autonomous learning alignment-based alignment corpus generation device and method thereof, morpheme analysis device of destruction expression using alignment corpus, and morphological analysis method thereof
Nuhn et al. Beam search for solving substitution ciphers
RU2014135303A (en) TEXT PROCESSING METHOD (OPTIONS) AND PERMANENT MACHINE READABLE MEDIA (OPTIONS)
JP2016224483A (en) Model learning device, method and program
JP5964764B2 (en) Statement association determination apparatus, method, and program
Mori et al. Language Resource Addition: Dictionary or Corpus?
Tennage et al. Handling rare word problem using synthetic training data for sinhala and tamil neural machine translation
JP5833087B2 (en) Character string processing apparatus, method, and program
JP5911931B2 (en) Predicate term structure extraction device, method, program, and computer-readable recording medium
US20230028376A1 (en) Abstract learning method, abstract learning apparatus and program
Espla-Gomis et al. UAlacant word-level and phrase-level machine translation quality estimation systems at WMT 2016
JP6019538B2 (en) Statement association determination apparatus, method, and program
US20180033425A1 (en) Evaluation device and evaluation method
JP6482073B2 (en) Information processing method, apparatus, and program
Mohamed et al. Automatic creation of a word aligned Sinhala-Tamil parallel corpus
JP6498135B2 (en) Information processing method, apparatus, and program
KR102653880B1 (en) Apparatus and method for assessing translation quality
US20240037347A1 (en) Embedding transformation method and system
Tambouratzis et al. Language-independent hybrid MT: Comparative evaluation of translation quality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160630

R150 Certificate of patent or registration of utility model

Ref document number: 5964764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150