JP2018072979A - Parallel translation sentence extraction device, parallel translation sentence extraction method and program - Google Patents
Parallel translation sentence extraction device, parallel translation sentence extraction method and program Download PDFInfo
- Publication number
- JP2018072979A JP2018072979A JP2016209550A JP2016209550A JP2018072979A JP 2018072979 A JP2018072979 A JP 2018072979A JP 2016209550 A JP2016209550 A JP 2016209550A JP 2016209550 A JP2016209550 A JP 2016209550A JP 2018072979 A JP2018072979 A JP 2018072979A
- Authority
- JP
- Japan
- Prior art keywords
- bilingual
- language
- word
- sentence
- parallel translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、対訳コーパスを作成する技術に関する。 The present invention relates to a technique for creating a bilingual corpus.
近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を辞書引きして他方の言語の単語群に変換し、他方の言語の文との間で単語の一致数を計ることで、文の対応付けを行う方法が知られている(非特許文献1参照)。 In recent years, the importance of creating a large quantity of high-quality parallel corpora for use in statistical machine translation and text mining has been recognized. In general, it takes a great deal of cost to create a bilingual corpus, and its efficient creation method is a technical problem. As a method of creating a bilingual corpus, for example, a document of one language constituting a bilingual document is converted into a dictionary group and converted into a word group of the other language, and the number of matching words between sentences of the other language is calculated. A method of associating sentences by measuring is known (see Non-Patent Document 1).
しかし、従来のコーパス作成方法では、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける結果、一般の辞書に載っていないような専門用語が記載された対訳文書に基づいて対訳コーパスを作成する場合には、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。 However, in the conventional corpus creation method, the number of matching words is measured using a general dictionary, and as a result of associating sentences, a bilingual corpus based on a bilingual document in which technical terms that are not included in the general dictionary are described. When creating a sentence, there are cases where sentences that are not translated are associated with each other when viewed as a whole sentence.
本発明は、このような事情に鑑みてなされたものであり、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。 The present invention has been made in view of such circumstances, and measures the number of matching words using a general dictionary, and creates a higher-quality parallel corpus than when matching sentences. With the goal.
上記の課題を解決するため、本発明は、第1言語と第2言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得する対訳文取得部と、前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出する単語アライメントスコア算出部と、単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加する対訳語抽出部とを備え、前記対訳文取得部は、前記対訳語抽出部により前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得することを特徴とする対訳文抽出装置を提供する。 In order to solve the above-described problems, the present invention provides a bilingual document obtaining unit that obtains a bilingual document in a first language and a second language, a sentence in the first language that constitutes the obtained bilingual document, and the second language. Matching a sentence of a language using the bilingual dictionary of the first language and the second language to obtain a bilingual sentence of the first language and the second language, and the acquired bilingual sentence A word alignment score calculation unit for calculating a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired parallel translation sentence for each word of the first language constituting the sentence; Of each word of the first language for which the alignment is calculated, a pair of a word whose calculated word alignment score is higher than or equal to the threshold and one word of the second language is used as a bilingual word In the bilingual dictionary A bilingual word extraction unit, and the bilingual sentence acquisition unit adds the bilingual word to the bilingual dictionary by the bilingual word extraction unit, and A bilingual sentence extracting apparatus that matches a sentence with a sentence in the second language using a bilingual dictionary to which the bilingual word is added, and acquires a bilingual sentence in the first language and the second language. I will provide a.
好ましい態様において、前記閾値は、前記対訳辞書に追加すべき対訳語の数に基づいて予め設定される。 In a preferred aspect, the threshold value is preset based on the number of parallel translation words to be added to the parallel translation dictionary.
また、本発明は、1以上のコンピュータにより実行される対訳文抽出方法であって、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出するステップと、単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加するステップと、前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップとを備える対訳文抽出方法を提供する。 The present invention is also a bilingual sentence extraction method executed by one or more computers, the step of obtaining a bilingual document in a first language and a second language, and the first bilingual document constituting the obtained bilingual document. Matching a sentence of a language and a sentence of the second language using a bilingual dictionary of the first language and the second language to obtain a bilingual sentence of the first language and the second language; Calculating a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired bilingual sentence for each word of the first language constituting the acquired bilingual sentence; Of each word of the first language for which the alignment is calculated, a pair of a word whose calculated word alignment score is higher than or equal to the threshold and one word of the second language is used as a bilingual word Said A step of adding to the translation dictionary; and after the bilingual word is added to the bilingual dictionary, the bilingual word adds the sentence of the first language and the sentence of the second language constituting the acquired bilingual document There is provided a bilingual sentence extraction method comprising a step of performing matching using the translated bilingual dictionary and obtaining a bilingual sentence in the first language and the second language.
また、本発明は、コンピュータに、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出するステップと、単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加するステップと、前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップとを実行させるためのプログラムを提供する。 According to another aspect of the present invention, a computer acquires a bilingual document in a first language and a second language, a sentence in the first language and a sentence in the second language that constitute the acquired bilingual document, Matching using a bilingual dictionary of the first language and the second language to obtain one or more bilingual sentences of the first language and the second language, and the first constituting the acquired bilingual sentence For each word in one language, a step of calculating a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired parallel translation sentence; and a step of calculating the word alignment of the first language Adding a pair of each word that has a calculated word alignment score higher than or equal to a threshold value and one word in the second language to the bilingual dictionary as a bilingual word; versus After a word is added to the bilingual dictionary, the sentence of the first language and the sentence of the second language constituting the acquired bilingual document are matched using the bilingual dictionary to which the bilingual word is added. , And a program for executing the step of obtaining the parallel translation of the first language and the second language.
本発明によれば、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することができる。 According to the present invention, it is possible to create a bilingual corpus having higher quality than a case where the number of matching words is measured using a general dictionary and sentences are associated with each other.
1.実施形態
1−1.構成
図1は、本実施形態に係る対訳文抽出装置1の構成の一例を示すブロック図である。対訳文抽出装置1は、CPU等の演算処理装置と、HDD等の記憶装置を備えるコンピュータである。この対訳文抽出装置1は、対訳文書記憶部101と、対訳文書取得部102と、単語分割部103と、対訳辞書記憶部104と、対訳文取得部105と、対訳文記憶部106と、単語アライメントスコア算出部107と、対訳語記憶部108と、対訳語抽出部109という機能を備える。これらの機能のうち、対訳文書記憶部101、対訳辞書記憶部104、対訳文記憶部106および対訳語記憶部108の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。
1. Embodiment 1-1. Configuration FIG. 1 is a block diagram illustrating an example of a configuration of a parallel
対訳文書記憶部101は、第1言語と第2言語の対訳文書を記憶する。ここで、第1言語は日本語であり、第2言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。
The bilingual
対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。
The parallel translation
単語分割部103は、対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。なお、他の実施形態において、単語分割部103は、他の周知の方法を用いて、対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割してもよい。
The
対訳辞書記憶部104は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。
The bilingual
対訳文取得部105は、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の1以上の対訳文を取得する。具体的には、対訳文取得部105は、単語分割部103により切り出された英語の文を辞書引きして日本語の単語群に変換し、日本語の文と英語の文の対の全体の類似度が最大となるような日本語の文と英語の文の対訳文を取得する。ここで、類似度とは、英語の文を辞書引きして得られた日本語の単語群と日本語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、日本語の単語群と日本語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、対訳文取得部105は、上記の非特許文献に記載の対訳コーパス作成方法のように、DP(Dynamic Programming)マッチングを用いて対訳文を取得する。別の例として、対訳文取得部105は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにDPマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。
The bilingual
また、対訳文取得部105は、対訳語抽出部109により対訳語が対訳辞書に追加された後に、その対訳語が追加された対訳辞書を用いて、単語分割部103により切り出された日本語の文と英語の文をマッチングして、日本語と英語の1以上の対訳文を取得する。対訳文取得部105が対訳文取得処理を繰り返す回数は、例えば、対訳文抽出装置1の利用者により決定される。
In addition, the bilingual
対訳文記憶部106は、対訳文取得部105により取得された対訳文(言い換えると、対訳コーパス)を記憶する。その際、対訳文記憶部106は、各対訳文を、当該対訳文を識別する対訳文IDと対応付けて記憶する。
The parallel
単語アライメントスコア算出部107は、対訳文記憶部106に記憶された対訳文について、日本語の単語と英語の単語とが対応する確率を示す単語アライメントスコアを算出する。その際、単語アライメントスコア算出部107は、対訳文を構成する日本語の各単語について、対訳文を構成する英語の一の単語と対応する確率を示す単語アライメントスコアを算出する。また、単語アライメントスコア算出部107は、対訳文を構成する他のすべての英語の単語の各々についても同様に、対訳文を構成する日本語の各単語と対応する確率を示す単語アライメントスコアを算出する。ここで、日本語の単語と英語の単語とが対応する確率とは、言い換えると、一方の単語が他方の単語の訳語である確率である。また、単語とは、具体的には自立語であり、より具体的には、名詞、動詞、形容詞および副詞である。
The word alignment
単語アライメントスコア算出部107は、単語アライメントスコアを算出する際に、IBM(登録商標)モデルを用いる。IBM(登録商標)モデルについては、例えば、Peter F. Brown, et al. "The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics", 19(2):263-311 (1993)を参照のこと。具体的には、単語アライメントスコア算出部107は、GIZA++(http://www.fjoch.com/GIZA++.html)を用いる。GIZA++については、Franz Josef Och, Hermann Ney. "A Systematic Comparison of Various Statistical Alignment Models", Computational Linguistics, volume 29, number 1, pp. 19-51 March 2003を参照のこと。
The word alignment
対訳語記憶部108は、単語アライメントスコア算出部107により算出された単語アライメントスコアと、当該スコアが算出された日本語と英語の対訳語とを対応付けて記憶する。その際、対訳語記憶部108は、各対訳語を、当該対訳語を識別する対訳語IDと対応付けて記憶する。
The parallel
対訳語抽出部109は、対訳語記憶部108に新たに記憶された対訳語のうち、算出された単語アライメントスコアが閾値よりも高い対訳語を、対訳辞書記憶部104に記憶される対訳辞書に追加する。言い換えると、対訳語抽出部109は、英語の一の単語との間で単語アライメントが算出された日本語の各単語のうち、算出された単語アライメントスコアが閾値よりも高い単語と、その英語の一の単語の対を、対訳語として、対訳辞書記憶部104に記憶される対訳辞書に追加する。ここで閾値とは、一定値である。
The bilingual
1−2.動作
対訳文抽出装置1の動作について説明する。図2は、対訳文抽出装置1により実行される対訳文抽出処理の一例を示すフロー図である。
1-2. Operation The operation of the bilingual
この対訳文抽出処理のステップS1において、対訳文抽出装置1の対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。図3は、対訳文書の一例を示す図である。
In step S <b> 1 of the parallel translation extraction process, the parallel translation
対訳文書取得部102により対訳文書が取得されると、単語分割部103は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する(ステップS2)。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。
When the bilingual document is acquired by the bilingual
単語分割部103により対訳文書が文に分割され、かつ、各文が単語に分割されると、取得対訳文取得部105は、変数iに初期値「1」を設定した後(ステップS3)、単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の対訳文を取得する(ステップS4)。対訳文を取得すると、対訳文取得部105は、各対訳文を対訳文IDと対応付けて対訳文記憶部106に記憶する(ステップS5)。図4は、対訳文取得部105により対訳文が記憶された対訳文記憶部106のデータの一例を示す図である。
When the bilingual document is divided into sentences by the
対訳文取得部105により対訳文が対訳文記憶部106に記憶されると、単語アライメントスコア算出部107は、対訳文記憶部106に記憶された対訳文について、日本語の単語と英語の単語とが対応する確率を示す単語アライメントスコアを算出する(ステップS6)。単語アライメントを算出すると、単語アライメントスコア算出部107は、算出した各単語アライメントスコアと、当該スコアが算出された日本語と英語の対訳語と、当該対訳語の対訳語IDとを対応付けて対訳語記憶部108に記憶する(ステップS7)。図5は、単語アライメントスコア算出部107により単語アライメントスコア等が記憶された対訳語記憶部108のデータの一例を示す図である。
When the bilingual sentence is stored in the bilingual
単語アライメントスコア算出部107により単語アライメントスコア等が対訳語記憶部108に記憶されると、対訳語抽出部109は、対訳語記憶部108に新たに記憶された対訳語のうち、算出された単語アライメントスコアが閾値よりも高い対訳語を、対訳辞書記憶部104に記憶される対訳辞書に追加する(ステップS8)。例えば、閾値が「0.3」に設定されている場合には、図5に示す例では、ID「030」および「043」の対訳語が、対訳辞書に追加される。
When the word alignment
対訳語抽出部109により対訳語が対訳辞書に対して追加されると、対訳文取得部105は、変数iの値をインクリメントし(ステップS9)、変数iの値が終値nよりも大きいか否かについて判定を行う(ステップS10)。ここで終値nは、ステップ4の実行回数を示す。この判定の結果、変数iの値が終値n以下である場合には(ステップS10:NO)、対訳文取得部105は、ステップS4に戻り、対訳語が新たに追加された対訳辞書を用いて当該ステップを実行する。この判定の結果、変数iの値が終値nよりも大きい場合には(ステップS10:YES)、本対訳文抽出処理は終了する。
以上が、対訳文抽出処理についての説明である。
When the bilingual word is added to the bilingual dictionary by the bilingual
The above is the description of the bilingual sentence extraction process.
以上説明した対訳文抽出装置1によれば、対訳文書から対訳辞書を用いてDPマッチングにより対訳文が取得された後に、取得された対訳文から単語アライメントにより対訳語が抽出されて対訳辞書に追加され、対訳語が新たに追加された対訳辞書を用いてあらためて対訳文書からDPマッチングにより対訳文が取得されている。このように、本対訳文抽出装置1では、対訳文書から取得された対訳文に基づいて更新された対訳辞書を用いて、同対訳文書から対訳文が取得されるため、単語の一致度の算出の精度が向上し、結果として、より品質の高い対訳コーパスを作成することができる。
According to the bilingual
例えば、図6に示す例を参照して説明すると、仮に「モノクローナル」という用語が対訳辞書に登録されていなかったとすると、上記の対訳文抽出処理のステップS4において、英語文Aは、日本語文AおよびBのうち、どちらに対応付ければよいか判断することができない。これは、英単語「monoclonal」を「モノクローナル」に翻訳することができない結果、いずれの日本語文も、英語文Aとの間で、「蛋白質」、「特異的」、「認識」、「抗体」および「精製」の計5個の単語が一致することになる(すなわち、単語の一致数が「5」となる)からである。しかし、対訳文書から対訳文が取得され、その対訳文に単語アライメントが行われた結果、「モノクローナル」および「monoclonal」の対訳語が新たに対訳辞書に追加されたと仮定すると、当該対訳語が新たに追加された対訳辞書を用いて対訳文書に対してDPマッチングが行われた場合、英単語「monoclonal」が「モノクローナル」に翻訳される結果、英語文Aと日本語文Aの単語の一致度は「6」となり、両者は対訳文として対応付けられやすくなる。 For example, referring to the example shown in FIG. 6, if the term “monoclonal” is not registered in the bilingual dictionary, the English sentence A is converted into the Japanese sentence A in step S4 of the bilingual sentence extracting process. It is impossible to determine which of B and B should be associated. This is because the English word “monoclonal” cannot be translated into “monoclonal”, and as a result, any Japanese sentence between the English sentence A and “protein”, “specific”, “recognition”, “antibody” This is because a total of five words “refining” and “purification” match (that is, the number of matching words is “5”). However, assuming that a bilingual sentence is obtained from the bilingual document and word translation is performed on the bilingual sentence, the bilingual words “monoclonal” and “monoclonal” are newly added to the bilingual dictionary. When DP matching is performed on a bilingual document using the bilingual dictionary added to, the English word “monoclonal” is translated into “monoclonal”. It becomes “6”, and both are easily associated as parallel translations.
2.変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する1以上の変形例は、互いに組み合わせてもよい。
2. Modifications The above embodiments may be modified as described below. One or more modifications described below may be combined with each other.
2−1.変形例1
上記の対訳文抽出装置1は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置1が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置1と接続されてもよい。
2-1.
The bilingual
2−2.変形例2
上記の実施形態において、第1言語を英語とし、第2言語を日本語としてもよい。また、第1言語と第2言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。
2-2. Modification 2
In the above embodiment, the first language may be English and the second language may be Japanese. The combination of the first language and the second language may be arbitrarily selected from natural languages such as German, French, Chinese, Korean, etc. in addition to Japanese and English.
2−3.変形例3
上記の対訳文取得部105は、単語分割部103により切り出された日本語の文を辞書引きして英語の単語群に変換し、英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得するようにしてもよい。
2-3. Modification 3
The bilingual
2−4.変形例4
上記の単語アライメントスコア算出部107は、GIZA++以外の単語アライメントツールを用いて単語アライメントスコアを算出してもよい。例えば、Berkeley Aligner(https://code.google.com/archive/p/berkeleyaligner/)や、PostCAT(http://www.seas.upenn.edu/~strctlrn/CAT/CAT.html)を用いてもよい。
2-4. Modification 4
Said word alignment
また、単語アライメントスコア算出部107は、IBM(登録商標)モデル以外のモデルを用いて単語アライメントスコアを算出してもよい。例えば、ダイス係数や対数尤度比など、ヒューリスティックに基づくヒューリスティックモデルや、教師あり単語アライメントを用いてもよい。
Further, the word alignment
2−5.変形例5
上記の対訳語抽出部109が参照する閾値は、対訳辞書に新たに追加すべき対訳語の数に基づいて自動的に設定されてもよい。例えば、対訳語の抽出(ステップS8)ごとに、対訳辞書にすでに格納されている対訳語全体の一割の数の対訳語を新たに追加したい場合には、当該数の対訳語が抽出されるように閾値を設定してもよい。
2-5. Modification 5
The threshold value referred to by the parallel
または、対訳語抽出部109は、英語の一の単語との間で単語アライメントが算出された日本語の各単語のうち、算出された単語アライメントスコアが最大である単語と、その英語の一の単語の対を、対訳語として対訳辞書に追加するようにしてもよい。
Alternatively, the bilingual
2−6.変形例6
上記の対訳文取得部105は、上記の対訳文抽出処理のステップS8の結果、対訳辞書に一つも対訳語が追加されなかった場合には、ステップS10の判定において変数iの値が終値n以下であっても、対訳文抽出処理を終了するようにしてもよい。
2-6. Modification 6
If no parallel translation word is added to the parallel translation dictionary as a result of step S8 of the parallel translation extraction process, the parallel
2−7.変形例7
上記の実施形態または変形例に係る対訳文抽出装置1の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。
2-7. Modification 7
A program for realizing each function of the bilingual
1…対訳文抽出装置、101…対訳文書記憶部、102…対訳文書取得部、103…単語分割部、104…対訳辞書記憶部、105…対訳文取得部、106…対訳文記憶部、107…単語アライメントスコア算出部、108…対訳語記憶部、109…対訳語抽出部
DESCRIPTION OF
Claims (4)
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得する対訳文取得部と、
前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出する単語アライメントスコア算出部と、
単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加する対訳語抽出部と
を備え、
前記対訳文取得部は、前記対訳語抽出部により前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得する
ことを特徴とする対訳文抽出装置。 A bilingual document acquisition unit for acquiring bilingual documents in the first language and the second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. A bilingual acquisition unit for acquiring bilingual bilingual sentences;
A word alignment score that calculates a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired parallel translation sentence for each word of the first language constituting the acquired parallel translation sentence A calculation unit;
Of each word in the first language for which word alignment has been calculated, a pair of a word whose calculated word alignment score is higher than or equal to a threshold and one word in the second language is a bilingual word A bilingual word extraction unit to be added to the bilingual dictionary as
The bilingual sentence acquisition unit, after the bilingual word is added to the bilingual dictionary by the bilingual word extraction unit, the sentence of the first language and the sentence of the second language that constitute the acquired bilingual document, The bilingual sentence extraction device, wherein matching is performed using the bilingual dictionary to which the bilingual word is added, and the bilingual sentence of the first language and the second language is acquired.
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、
前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出するステップと、
単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加するステップと、
前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと
を備える対訳文抽出方法。 A bilingual sentence extraction method executed by one or more computers,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining bilingual translations;
Calculating a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired bilingual sentence for each word of the first language constituting the acquired bilingual sentence;
Of each word in the first language for which word alignment has been calculated, a pair of a word whose calculated word alignment score is higher than or equal to a threshold and one word in the second language is a bilingual word Adding to the bilingual dictionary as
After the bilingual word is added to the bilingual dictionary, the sentence in the first language and the sentence in the second language that constitute the acquired bilingual document are matched using the bilingual dictionary to which the bilingual word is added. And obtaining a parallel translation sentence of the first language and the second language.
第1言語と第2言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の1以上の対訳文を取得するステップと、
前記取得された対訳文を構成する前記第1言語の各単語について、前記取得された対訳文を構成する前記第2言語の一の単語と対応する確率を示す単語アライメントスコアを算出するステップと、
単語アライメントが算出された前記第1言語の各単語のうち、算出された単語アライメントスコアが閾値よりも高いか、または最大である単語と、前記第2言語の一の単語の対を、対訳語として前記対訳辞書に追加するステップと、
前記対訳語が前記対訳辞書に追加された後に、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記対訳語が追加された対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと
を実行させるためのプログラム。 On the computer,
Obtaining a bilingual document in a first language and a second language;
The first language sentence and the second language sentence constituting the acquired bilingual document are matched using the first language and the second language bilingual dictionary, and the first language and the second language sentence are matched. Obtaining one or more parallel translations in two languages;
Calculating a word alignment score indicating a probability corresponding to one word of the second language constituting the acquired bilingual sentence for each word of the first language constituting the acquired bilingual sentence;
Of each word in the first language for which word alignment has been calculated, a pair of a word whose calculated word alignment score is higher than or equal to a threshold and one word in the second language is a bilingual word Adding to the bilingual dictionary as
After the bilingual word is added to the bilingual dictionary, the sentence in the first language and the sentence in the second language that constitute the acquired bilingual document are matched using the bilingual dictionary to which the bilingual word is added. And the program for performing the step which acquires the translation of the said 1st language and the said 2nd language.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016209550A JP2018072979A (en) | 2016-10-26 | 2016-10-26 | Parallel translation sentence extraction device, parallel translation sentence extraction method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016209550A JP2018072979A (en) | 2016-10-26 | 2016-10-26 | Parallel translation sentence extraction device, parallel translation sentence extraction method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018072979A true JP2018072979A (en) | 2018-05-10 |
Family
ID=62113942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016209550A Pending JP2018072979A (en) | 2016-10-26 | 2016-10-26 | Parallel translation sentence extraction device, parallel translation sentence extraction method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018072979A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783809A (en) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | A method of alignment sentence is extracted from Laos-Chinese chapter grade alignment corpus |
CN110362820A (en) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | A kind of bilingual parallel sentence extraction method of old man based on Bi-LSTM algorithm |
CN111368035A (en) * | 2020-03-03 | 2020-07-03 | 新疆大学 | Neural network-based Chinese dimension-dimension Chinese organization name dictionary mining system |
-
2016
- 2016-10-26 JP JP2016209550A patent/JP2018072979A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783809A (en) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | A method of alignment sentence is extracted from Laos-Chinese chapter grade alignment corpus |
CN109783809B (en) * | 2018-12-22 | 2022-04-12 | 昆明理工大学 | Method for extracting aligned sentences from Laos-Chinese chapter level aligned corpus |
CN110362820A (en) * | 2019-06-17 | 2019-10-22 | 昆明理工大学 | A kind of bilingual parallel sentence extraction method of old man based on Bi-LSTM algorithm |
CN110362820B (en) * | 2019-06-17 | 2022-11-01 | 昆明理工大学 | Bi-LSTM algorithm-based method for extracting bilingual parallel sentences in old and Chinese |
CN111368035A (en) * | 2020-03-03 | 2020-07-03 | 新疆大学 | Neural network-based Chinese dimension-dimension Chinese organization name dictionary mining system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daud et al. | Urdu language processing: a survey | |
Cohn et al. | Sentence compression beyond word deletion | |
US20130185049A1 (en) | Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation | |
JP4319860B2 (en) | Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system | |
KR101266361B1 (en) | Automatic translation system based on structured translation memory and automatic translating method using the same | |
JP2005216126A (en) | Text generation method and text generation device of other language | |
JP2006252428A (en) | Multilingual translation memory, translating method and translating program | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
Erdmann et al. | Improving the extraction of bilingual terminology from Wikipedia | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
Mager et al. | Probabilistic finite-state morphological segmenter for wixarika (huichol) language | |
Chen et al. | A simplification-translation-restoration framework for cross-domain SMT applications | |
Shawar | A Chatbot as a natural web Interface to Arabic web QA | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
JP2018072979A (en) | Parallel translation sentence extraction device, parallel translation sentence extraction method and program | |
Aasha et al. | Machine translation from English to Malayalam using transfer approach | |
Mrinalini et al. | Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems | |
Bernhard | Adding dialectal lexicalisations to linked open data resources: The example of Alsatian | |
Reddy et al. | Indic language machine translation tool: English to Kannada/Telugu | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
Iswarya et al. | Adapting hybrid machine translation techniques for cross-language text retrieval system | |
Rana et al. | Example based machine translation using fuzzy logic from English to Hindi | |
Tambouratzis et al. | Machine Translation with Minimal Reliance on Parallel Resources | |
JP2018055328A (en) | Parallel translation sentence extracting device, parallel translation sentence extracting method and program | |
Ghaffar et al. | English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200623 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201215 |