JP2006127405A - Method for carrying out alignment of bilingual parallel text and executable program in computer - Google Patents
Method for carrying out alignment of bilingual parallel text and executable program in computer Download PDFInfo
- Publication number
- JP2006127405A JP2006127405A JP2004318207A JP2004318207A JP2006127405A JP 2006127405 A JP2006127405 A JP 2006127405A JP 2004318207 A JP2004318207 A JP 2004318207A JP 2004318207 A JP2004318207 A JP 2004318207A JP 2006127405 A JP2006127405 A JP 2006127405A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- language
- alignment
- sentences
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明はバイリンガルコーパスの文のアライメントに関し、特に、中国語及び英語コーパス等のバイリンガルコーパスの、センテンス長に基づく拡張された文アライメントに関する。 The present invention relates to sentence alignment of bilingual corpora, and more particularly to extended sentence alignment of bilingual corpora such as Chinese and English corpora based on sentence length.
最近、バイリンガルコーパスの文のアライメント(対応付け)に関する多くの研究がなされている。非特許文献1、2及び3を参照されたい。文のアライメントは、機械翻訳の基本的要素の一つであって、翻訳情報と、バイリンガルコーパスに関する統計的パラメータとを提供する。特に、テキストのアライメントは統計的機械翻訳に不可欠である。
Recently, many studies on sentence alignment of bilingual corpora have been made. See
一般に、テキストアライメントの方法の研究として、基本的で同時に主要でもある二つの方面からの研究がある。すなわち、レキシコンに基づくものと、統計的なものとである。レキシコンに基づく手法では、文をアライメントするために、バイリンガルのレキシコンを利用する(非特許文献3及び4)。中国語と英語とのアライメントではまた、中国語のセグメント化及び品詞(Part Of Speech:POS)情報等の他の情報も必要とされる。 In general, there are two basic researches on text alignment methods, both basic and simultaneous. A lexicon-based one and a statistical one. In the lexicon-based method, a bilingual lexicon is used to align sentences (Non-Patent Documents 3 and 4). Alignment between Chinese and English also requires other information such as Chinese segmentation and part-of-speech (POS) information.
統計的な手法では言語知識はほとんど必要とされない。この手法は、バイリンガルのセンテンス長と、長さの分布のみに関連する。 Statistical methods require little linguistic knowledge. This approach relates only to the bilingual sentence length and length distribution.
現在、アルファベット系の言語をアライメントするためにセンテンス長に基づく手法が広く用いられており、同じ語族の言語をアライメントするには良好な結果が得られることが分っている。しかし、言語が異なる語族に属する場合、アライメントの精度は低く、問題が生じる。特に、一方の言語が中国語である場合、センテンス長に基づくアライメントには問題があることが知られている。なぜなら中国語はアルファベット系の言語とは全く異なるからである。 Currently, sentence length-based techniques are widely used to align alphabetic languages, and it has been found that good results can be obtained when aligning languages of the same family. However, when the languages belong to different families, the alignment accuracy is low and a problem arises. In particular, when one language is Chinese, it is known that there is a problem in alignment based on sentence length. This is because Chinese is completely different from alphabetic languages.
非特許文献2において、ウーは統計的手法とレキシコンによる手法とを同時に組合せた混合手法を提案している。ウーは上述の単一の手法の利点を利用し、レキシコンを手がかりとしたセンテンス長に基づく手法を提案している。
しかし、先行技術による、異なる語族の2言語でのパラレルテキスト中の文のアライメントは、精度が低いことが分っている。特に中国語−英語の文のアライメントは非常に困難でその精度が低いことが知られている。 However, it has been found that the alignment of sentences in parallel text in two languages of different families according to the prior art is inaccurate. In particular, it is known that alignment of Chinese-English sentences is very difficult and its accuracy is low.
したがって、この発明の目的の一つは、異なる語族の2言語の文を高い精度でアライメントする方法を提供することである。 Accordingly, one of the objects of the present invention is to provide a method for aligning sentences in two languages of different language families with high accuracy.
この発明の別の目的は、中国語−英語の文を高い精度でアライメントする方法を提供することである。 Another object of the present invention is to provide a method for aligning Chinese-English sentences with high accuracy.
この発明の一局面は、第1の言語と第2の言語とのバイリンガルパラレルテキストの文をアライメントする、コンピュータで実現される以下のステップを含む方法に関する。すなわち、この方法は、第1の言語の文と第2の言語の文とが互いの訳である確率を算出するための、センテンス長に基づく確率モデルを、センテンス長情報と単語ペアの集合とに基づいて準備するステップを含み、ペアの各々は第1の言語の単語と第2の言語の単語とのペアを含む。この方法はさらに、センテンス長に基づく確率を用いてダイナミックプログラミングアルゴリズムで計算されたアライメントの合計確率が最大になるようにバイリンガルパラレルテキストの文をアライメントするステップと、バイリンガルパラレルテキストの対応する句読点が互いにアライメントされるように、アライメントを訂正するステップとを含む。 One aspect of the present invention relates to a method of aligning bilingual parallel text sentences in a first language and a second language, including the following steps implemented on a computer. That is, in this method, a probability model based on a sentence length for calculating a probability that a sentence in a first language and a sentence in a second language are mutually translated is a sentence length information and a set of word pairs. And each of the pairs includes a pair of a first language word and a second language word. The method further includes aligning the sentences of the bilingual parallel text using a probability based on the sentence length to maximize the total probability of alignment calculated by the dynamic programming algorithm, and the corresponding punctuation marks of the bilingual parallel text are mutually aligned. Correcting the alignment so that it is aligned.
センテンス長に基づく確率モデルを第1及び第2の言語の単語ペアと組合せることにより、アライメント誤差率を少なくできる。 By combining the probability model based on the sentence length with the word pairs in the first and second languages, the alignment error rate can be reduced.
好ましくは、ペアの各々は、所定の品詞(主に名詞)の単語ペアを含む。単語ペアはバイリンガルのレキシコンとして準備される。 Preferably, each of the pairs includes a word pair of a predetermined part of speech (mainly a noun). Word pairs are prepared as bilingual lexicons.
さらに好ましくは、ペアの幾つかは、それぞれ所定の実在物(客観的・概念的なものを含む。)を第1の言語でそれぞれ表す固有名詞と、それら所定の実在物を第2の言語でそれぞれ表す対応の固有名詞とをそれぞれ含む。 More preferably, some of the pairs each have a proper noun representing each predetermined entity (including objective and conceptual) in the first language, and each predetermined entity in the second language. Each corresponding proper noun is represented.
固有名詞は、両方の言語で容易に見つけることができる。その対応が明らかだからである。これによってアライメントが正確か否かを判断することが容易になり、したがってアライメント誤差も大幅に減少する。 Proper nouns can be easily found in both languages. This is because the correspondence is clear. This makes it easy to determine whether the alignment is accurate, and therefore greatly reduces alignment errors.
さらに好ましくは、センテンス長に基づく確率モデルは、互いの訳である第1の言語の文と第2の言語の文との確率が二つのセンテンス長の比に基づいて算出されるように準備される。 More preferably, the probability model based on the sentence length is prepared such that the probabilities of the sentence in the first language and the sentence in the second language that are mutually translated are calculated based on a ratio of the two sentence lengths. The
各センテンス長は、文中の文字の数で計数してもよい。 Each sentence length may be counted by the number of characters in the sentence.
一文中の単語数は言語の種類によって異なるであろう。この構成により、単語がデリミタによって分離されていない場合でも、文のセグメント化が不要となる。したがって、中国語、日本語等を含むいずれの言語にも、この方法を適用することができる。 The number of words in a sentence will vary depending on the language type. This configuration eliminates the need for sentence segmentation even when words are not separated by delimiters. Therefore, this method can be applied to any language including Chinese and Japanese.
この発明の別の局面は、コンピュータ上で実行されると、上述の方法のいずれかの全てのステップをコンピュータに実行させる、コンピュータで実行可能なプログラムに関する。 Another aspect of the invention relates to a computer executable program that, when executed on a computer, causes the computer to execute all steps of any of the methods described above.
[構造]
この発明の一実施の形態は、パラレルテキストにおける中国語−英語の文をアライメントするための新たな手法に関する。この混合手法は、主にセンテンス長に基づく手法に基づき、同時に、バイリンガルレキシコンからの語彙的な情報も考慮する。
[Construction]
One embodiment of the invention relates to a new technique for aligning Chinese-English sentences in parallel text. This mixing method is based mainly on a method based on sentence length, and also considers lexical information from a bilingual lexicon.
この混合手法はセグメント化及び品詞タグ付け等、中国語を更に処理することを不要にするだけでなく、統計的手法において幾つかの中国語のキーワードを使用することによって、文のアライメント精度を向上させる。この実施の形態で用いられるバイリンガルコーパスは、LDC(Linguistic Data Consortium)コーパスである。 This mixed approach not only eliminates the need for further processing of Chinese, such as segmentation and part-of-speech tagging, but also improves sentence alignment accuracy by using some Chinese keywords in statistical methods. Let The bilingual corpus used in this embodiment is an LDC (Linguistic Data Consortium) corpus.
図1はこの発明の一実施の形態に従った文アライメントシステム20の構成を示すブロック図である。図1を参照して、文アライメントシステム20は、文ごとにアライメントされた英語コーパス60及び中国語コーパス62を含むトレーニングコーパス30と、トレーニングコーパス30を用いてセンテンス長に基づく手法のための確率モデル34をトレーニングするトレーニングモジュール32とを含む。確率モデル34は英語と中国語のコーパスの最尤の割当方法を求めるために用いられる。バイリンガル文の各ペアに対し、確率モデル34は二つのセンテンス長の比に基づいた確率スコアを割当てる。
FIG. 1 is a block diagram showing a configuration of a sentence alignment system 20 according to an embodiment of the present invention. Referring to FIG. 1, a sentence alignment system 20 includes a
文アライメントシステム20はさらに、英語コーパス70及び中国語コーパス72を含む入力コーパス36をアライメントして、アライメントされた出力コーパス44を出力する、文アライメント装置38と、中国語コーパス72中の中国語文のセグメント化及び中国語単語への適切な品詞(POS)タグ付けの際に文アライメント装置38によって使用される辞書(レキシコン)40と、アライメントを向上させるために用いられる言語学的情報を記憶する言語情報記憶部42とを含む。アライメントされた出力コーパス44は英語コーパス100及び中国語コーパス102を含み、これらは基本的に、それぞれ英語コーパス60及び中国語コーパス62と同一である。
The sentence alignment system 20 further aligns an input corpus 36 including an
文アライメント装置38は、中国語コーパス72の文を辞書40を用いて形態素にセグメント化するセグメント化モジュール80と、辞書40を用いて各形態素にPOSタグをタグ付けするためのPOSタグ付けモジュール82とを含む。セグメント化とPOSタグ付けの目的は、バイリンガルコーパス中で固有名詞を見つけることである。文アライメント装置38はさらに、英語コーパス70中の文と、セグメント化されPOSタグ付けされた中国語文とを、アライメントされた文ペアの、確率モデル34で計算された確率が最大となるようにアライメントして、最大確率のアライメントを第1の結果86として出力するためのアライメントモジュール84を含む。文は確率モデル34のみでアライメントされているので、第1の結果86は多くの誤差を含むものと考えられる。
The
文アライメント装置38はさらに、言語情報記憶部42に記憶された言語情報を用いて第1の結果86を訂正し、訂正されたアライメントを第2の結果90として出力する第1の訂正モジュール88と、英語及び中国語の句読点情報を用いて第2の結果90を訂正する第2の訂正モジュール92とを含む。
The
この実施の形態で用いられるトレーニングコーパス30中のバイリンガルテキストは、LDCコーパスである。これらのファイルは、3つの形式、すなわち、Big5と、GBコーディングと、対応の英訳文という形式の香港の新聞記事である。この実施の形態では、Big5コーディングのテキストはGBコーディングに変換される。変換後、アライメントされたバイリンガルのコーパスの属性が分析される。完成したパラレルテキストは高品質の逐語訳を含むことになる。このバイリンガルテキストから、バイリンガルペアの翻訳の種類を特定する情報が得られる。ほとんどの中国語文と英語の訳文は1対1タイプである。1対2または2対1の割合は少なく、ごく稀に、mが2より大きいm対mなどと、他の構成とがある。最後の、mを持つタイプは全て2対2に統一される。
The bilingual text in the
文アライメントのセンテンス長に基づく手法(非特許文献5)は、英語とフランス語、及び同じ語族の他の言語については良好な結果を生じることが知られている。中国語はアルファベット系の言語とは明確に異なる。したがって、中国語−英語については、アライメント処理は異なっている。 The technique based on sentence alignment sentence length (Non-Patent Document 5) is known to produce good results for English, French, and other languages of the same language family. Chinese is clearly different from alphabetic languages. Therefore, the alignment process is different for Chinese-English.
センテンス長に基づく手法は二つの言語の文字列長による統計的モデル(確率モデル34)に基づくものである。基本的原理は、二つのセンテンス長の比に基づいて、バイリンガル文の各ペアに確率スコアを割当てる、というものである。トレーニングコーパス30からトレーニングされた確率モデル34を用いて、入力コーパス36中の文の全てのアライメントから最大尤度のアライメントを見出す。
The method based on sentence length is based on a statistical model (probability model 34) based on character string lengths of two languages. The basic principle is to assign a probability score to each pair of bilingual sentences based on the ratio of the two sentence lengths. Using the
以下にその統計的モデルを示す。ここでAはアライメントされたペアであり、LS及びLTはそれぞれソース言語とターゲット言語を表す。 The statistical model is shown below. Where A is an aligned pair and L S and L T represent the source language and the target language, respectively.
現在、センテンス長を計算する幾つかの方法がある(非特許文献5)。セグメント化の誤差を避けるため、文中の語数ではなく文字数を計数した。中国語の文字の各々と中国語の句読点とは長さ2を有するが、英語の文字と句読点との長さは1である。 Currently, there are several methods for calculating the sentence length (Non-Patent Document 5). To avoid segmentation errors, we counted the number of characters, not the number of words in the sentence. Each Chinese character and Chinese punctuation have a length of 2, while English characters and punctuation have a length of 1.
ここで、モデルを値cと分散s2とで示す。s2は長さに比例する。この実施の形態では、LDCコーパス(トレーニングコーパス30)でc=1.63でありs2=3.2である。この場合δは正規分布を有し、以下で定義される。 Here, the models the values c and variance s 2. s 2 is proportional to the length. In this embodiment, c = 1.63 and s 2 = 3.2 in the LDC corpus (training corpus 30). In this case, δ has a normal distribution and is defined below.
このため、第1の訂正モジュールが、バイリンガルコーパス中の中国語のキーワード情報等の言語学的情報をセンテンス長に基づく手法と組合せる。この情報は記憶部42に記憶され、主に文の主要語を含む。これらの単語は特定の品詞であり、特定の、客観的・概念的なものを含む実在物を示すものと考えられる。典型的な例は組織又は人の名前等の固有名詞である。第1と第2の言語間でのこれらの対応は明確である。キーワード情報の例を図2に示す。
For this reason, the first correction module combines linguistic information such as Chinese keyword information in a bilingual corpus with a technique based on sentence length. This information is stored in the
図2を参照して、中国語の単語 Referring to FIG. 2, Chinese words
ここで、式(2)はレキシコン情報により、以下の近似式に置換可能である。 Here, Expression (2) can be replaced with the following approximate expression by lexicon information.
これらは、パラメータδiで以下のように統一される。 These are unified by the parameter δ i as follows.
実際には、センテンス長に基づく手法の結果を訂正するには句読点情報も重要である。句読点は順序付きのバイリンガルテキスト間の内部での並びを決定するのに役立つ。 In practice, punctuation information is also important to correct the results of a technique based on sentence length. Punctuation marks are useful for determining the internal alignment between ordered bilingual text.
第2の訂正モジュール92は第1の訂正モジュールから出力された第2の結果90を、句読点マッチングによって訂正する。4つの主な文の句読点ペアがある。すなわち、中国語と英語でそれぞれ文の終わりを示す「;/;」と、「。/.」と、「?/?」と「!/!」とである。第1の結果86では、幾つかの中国語と英語の文が正しくアライメントされていないことがあり得る。句読点のミスマッチがあるからである。これらの誤りは以下の状況で生じる。
The second correction module 92 corrects the
(1)「( )」及び「“ ”」等の句読点は、中国語では通常一文の中に現れるが、英語では別の文で2個の独立したペアに分けられることがある。このような状況は、中国語の文が別の新聞または人から引用されたものであり、2以上の完全な文を含むという条件で生じる。 (1) Punctuation marks, such as “()” and ““ ”, usually appear in one sentence in Chinese, but may be divided into two independent pairs in another sentence in English. Such a situation arises on the condition that a Chinese sentence is quoted from another newspaper or person and contains two or more complete sentences.
(2)図3に示すように、中国語の文が、中国語のカンマで示される複数の節を含み、その節の各々が、文末を示す句読点を伴った英語の訳を有する場合、最初のアライメントタイプは節をアライメントするだけでは1対2となる。したがって、複雑な中国語及び英語文をアライメントすることでアライメントタイプは1対1に変更される。 (2) As shown in FIG. 3, when a Chinese sentence includes a plurality of sections indicated by Chinese commas, and each of the sections has an English translation with a punctuation mark indicating the end of the sentence, The alignment type of 1 becomes 2 by just aligning the nodes. Therefore, the alignment type is changed to 1: 1 by aligning complex Chinese and English sentences.
状況(1)は、すべての句読点ペアのマッチングを見出し、分割された中国語文を合体させることによって解決する。状況(2)の場合、中国語での節の数を計数してアライメントタイプを1対1に変更する。状況(2)によって、アライメント誤りは容易に広がっていく。 The situation (1) is solved by finding matching of all punctuation pairs and combining the divided Chinese sentences. In situation (2), the number of clauses in Chinese is counted and the alignment type is changed to 1: 1. Depending on the situation (2), alignment errors easily spread.
文をアライメントする処理は、アライメントモジュール84により、ダイナミックプログラミングアルゴリズムで行なわれる。ソース言語文をSi,i=1…sとし、ターゲット言語文をTj,j=1…tとする。アライメントされた文のシーケンスはA(k)={<Sk,Tk>,k∈[0,K]}である。ただし、Kはこれらアライメント文の数である。 The process of aligning sentences is performed by the alignment module 84 using a dynamic programming algorithm. Let the source language sentence be S i , i = 1... S, and the target language sentence be T j , j = 1. The sequence of aligned sentences is A (k) = {<Sk, Tk>, kε [0, K]}. However, K is the number of these alignment sentences.
ダイナミックプログラミングアルゴリズムの手順において、目的とするところは、式(6)を最小にするアライメントされた文のペアを見出すことであり、g(i,j)は再帰的に計算される。 In the dynamic programming algorithm procedure, the goal is to find an aligned sentence pair that minimizes Equation (6), and g (i, j) is recursively computed.
ステップ114で、終点に至るまでの経路が2以上あるかが判断される。もし2以上の経路がある場合は、ステップ116で最小のg(i,j)となる経路を選択し、制御はステップ118に進む。さもなければ、制御は直接ステップ118に進む。ステップ118で、段落の終点に達したか否かが判断される。もし終点に達していれば、経路が成功裏に見出されたと判断して処理を終了する。さもなければ、ステップ120で変数iを1だけ増分し、制御はステップ112に戻る。
In
このようなダイナミックプログラミングにより、図1に示すアライメントモジュール84はセンテンス長に基づくアライメントを決定する。 With such dynamic programming, the alignment module 84 shown in FIG. 1 determines the alignment based on the sentence length.
[動作]
文アライメントシステム20の動作には二つの局面が存在する。第1の局面では、トレーニングモジュール32がトレーニングコーパス30を用いて確率モデル34をトレーニングする。確率モデル34が準備され、辞書40と言語情報記憶部42とが準備されると、文アライメント装置38は第2の局面の動作を行なうことができる。
[Operation]
There are two aspects to the operation of the sentence alignment system 20. In the first aspect, the
入力コーパス36が与えられると、セグメント化モジュール80は中国語コーパス72の文を多数の形態素にセグメント化し、POSタグ付けモジュール82は形態素の各々に対応のPOSタグを付す。これらの動作は辞書40を用いて行なわれる。
Given the input corpus 36, the
その後、アライメントモジュール84は英語コーパス70の文と中国語コーパス72の文とを、確率モデル34を用いて、図4に示すダイナミックプログラミングによりアライメントする。アライメントモジュール84は、最小のg(i,j)に対応するアライメントの結果を、第1の結果86として出力する。
Thereafter, the alignment module 84 aligns the sentence of the
第1の結果86は誤差を含むものと考えられるので、第1の訂正モジュールが第1の結果86を、図2に示すような言語情報を用いて訂正する。訂正されたアライメントは第1の訂正モジュール88から第2の結果90として出力される。
Since the
第2の訂正モジュール92はさらに、句読点の対応付けに基づいて第2の訂正モジュール92を訂正する。訂正された結果はアライメントされたコーパス44として出力される。
The second correction module 92 further corrects the second correction module 92 based on the punctuation mark association. The corrected result is output as an aligned
センテンス長に基づく手法とレキシコンによる手法とは、中国語−英語文のアライメントにおいてはそれぞれ長所と短所とを持つ。センテンス長に基づく手法は主に2言語の統計的パラメータに依存し、言語知識からは独立している。この実施の形態は、中国語の言語に固有の特徴に基づき、キーワード情報と句読点とを同時に考慮するという点で優れている。 The sentence length-based method and the lexicon-based method each have advantages and disadvantages in Chinese-English sentence alignment. The method based on sentence length mainly depends on statistical parameters of two languages and is independent of language knowledge. This embodiment is superior in that it considers keyword information and punctuation at the same time based on features unique to the Chinese language.
純粋にレキシコンによる手法は、大規模なコーパスでは、特に中国語の処理が複雑であるため、中国語−英語のアライメントというタスクにはふさわしくない。センテンス長に基づく手法は大規模なバイリンガルテキストに適しており、多言語に移植可能である。中国語はセンテンス長のパラメータに対する感度が低いので、この実施の形態で示したようなセンテンス長に基づく拡張手法は上述の二つの手法の利点を組合わせて利用している。 The purely lexicon approach is not suitable for the task of Chinese-English alignment because of the complexity of Chinese processing, especially on large corpora. The sentence length based method is suitable for large-scale bilingual texts and is portable to multiple languages. Since Chinese has a low sensitivity to the sentence length parameter, the extended method based on the sentence length as shown in this embodiment uses a combination of the advantages of the above two methods.
[実験結果]
1997年から1999年の間に香港の新聞に載った香港のニュースについてのLDCコーパスを用い、実験を行なった。テスト用のテキストはランダムに選択され、2880のバイリンガルのパラレルな文を含む。
[Experimental result]
Experiments were carried out using an LDC corpus about Hong Kong news in the Hong Kong newspaper between 1997 and 1999. The test text is randomly selected and includes 2880 bilingual parallel sentences.
アライメント精度は、以下の式(7)で計算した。
精度=Numc/Numt (7)
ただし、Numcは人の判断による、正しくアライメントされた文の数であり、Numtはテストセット中のアライメント文の総数である。テストの結果を表2に示す。
The alignment accuracy was calculated by the following formula (7).
Accuracy = Num c / Num t (7)
Here, Num c is the number of correctly aligned sentences according to human judgment, and Num t is the total number of alignment sentences in the test set. Table 2 shows the test results.
当業者であれば、この発明の上述の実施の形態をコンピュータハードウェアとそのハードウェア上で実行されるコンピュータソフトウェアで実現できることを理解するであろう。コンピュータプログラムはコンピュータ読出可能媒体に記憶され頒布されてもよい。このようなコンピュータソフトウェア、そのソフトウェアを記憶する媒体、及びソフトウェアでプログラムされるコンピュータは、そのプログラムが請求項のいずれかに記載された全てのステップを実行するかまたは全ての機能を満足する限り、この発明の範囲に含まれる。 Those skilled in the art will appreciate that the above-described embodiments of the present invention can be implemented with computer hardware and computer software running on the hardware. The computer program may be stored and distributed on a computer readable medium. Such computer software, a medium storing the software, and a computer programmed with the software, as long as the program executes all the steps recited in any of the claims or satisfies all the functions, It is included in the scope of the present invention.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20 文アライメントシステム
30 トレーニングコーパス
32 トレーニングモジュール
34 確率モデル
36 入力コーパス
38 文アライメント装置
40 辞書
42 言語情報
44 出力コーパス
80 セグメント化モジュール
82 POSタグ付けモジュール
84 アライメントモジュール
88 第1の訂正モジュール
92 第2の訂正モジュール
20
Claims (6)
前記第1の言語の文と前記第2の言語の文とが互いの訳である確率を算出するための、センテンス長に基づく確率モデルを、センテンス長情報と単語ペアの集合とに基づいて準備するステップを含み、前記ペアの各々は前記第1の言語の単語と前記第2の言語の単語とのペアを含み、さらに
前記センテンス長に基づく確率を用いてダイナミックプログラミングアルゴリズムで計算されたアライメントの合計確率が最大になるように前記バイリンガルパラレルテキストの文をアライメントするステップと、
前記バイリンガルパラレルテキストの対応する句読点が互いにアライメントされるように、アライメントを訂正するステップとを含む、方法。 A computer-implemented method for aligning bilingual parallel text sentences in a first language and a second language, comprising the following steps implemented on a computer:
A probability model based on sentence length is prepared based on sentence length information and a set of word pairs for calculating a probability that the sentence in the first language and the sentence in the second language are mutually translated. Each of the pairs includes a pair of a word of the first language and a word of the second language, and further includes an alignment computed by a dynamic programming algorithm using a probability based on the sentence length. Aligning the sentences of the bilingual parallel text so that the total probability is maximized;
Correcting alignment such that corresponding punctuation marks of the bilingual parallel text are aligned with each other.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004318207A JP2006127405A (en) | 2004-11-01 | 2004-11-01 | Method for carrying out alignment of bilingual parallel text and executable program in computer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004318207A JP2006127405A (en) | 2004-11-01 | 2004-11-01 | Method for carrying out alignment of bilingual parallel text and executable program in computer |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006127405A true JP2006127405A (en) | 2006-05-18 |
JP2006127405A5 JP2006127405A5 (en) | 2007-11-29 |
Family
ID=36722070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004318207A Pending JP2006127405A (en) | 2004-11-01 | 2004-11-01 | Method for carrying out alignment of bilingual parallel text and executable program in computer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006127405A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064137A (en) * | 2007-09-05 | 2009-03-26 | Nippon Hoso Kyokai <Nhk> | Translation alignment device and program |
WO2011047608A1 (en) * | 2009-10-20 | 2011-04-28 | 北京东方爱译科技有限责任公司 | Forming method of patterned bilingual sentence pair and forming device thereof |
JP2011118496A (en) * | 2009-12-01 | 2011-06-16 | National Institute Of Information & Communication Technology | Language-independent word segmentation for statistical machine translation |
JP2011180941A (en) * | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | Phrase table generator and computer program therefor |
CN104657351A (en) * | 2015-02-12 | 2015-05-27 | 中国科学院软件研究所 | Method and device for processing bilingual alignment corpora |
JP2015170131A (en) * | 2014-03-06 | 2015-09-28 | 日本電信電話株式会社 | Sentence correspondence determination device, method and program |
-
2004
- 2004-11-01 JP JP2004318207A patent/JP2006127405A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009064137A (en) * | 2007-09-05 | 2009-03-26 | Nippon Hoso Kyokai <Nhk> | Translation alignment device and program |
WO2011047608A1 (en) * | 2009-10-20 | 2011-04-28 | 北京东方爱译科技有限责任公司 | Forming method of patterned bilingual sentence pair and forming device thereof |
JP2011118496A (en) * | 2009-12-01 | 2011-06-16 | National Institute Of Information & Communication Technology | Language-independent word segmentation for statistical machine translation |
JP2011180941A (en) * | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | Phrase table generator and computer program therefor |
JP2015170131A (en) * | 2014-03-06 | 2015-09-28 | 日本電信電話株式会社 | Sentence correspondence determination device, method and program |
CN104657351A (en) * | 2015-02-12 | 2015-05-27 | 中国科学院软件研究所 | Method and device for processing bilingual alignment corpora |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
US8209163B2 (en) | Grammatical element generation in machine translation | |
US20070011132A1 (en) | Named entity translation | |
De Gispert et al. | Hierarchical phrase-based translation with weighted finite-state transducers and shallow-n grammars | |
US8874433B2 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
JP2004038976A (en) | Example-based machine translation system | |
Costa-Jussá et al. | Statistical machine translation enhancements through linguistic levels: A survey | |
Zhikov et al. | An efficient algorithm for unsupervised word segmentation with branching entropy and MDL | |
Way et al. | wEBMT: developing and validating an example-based machine translation system using the world wide web | |
Unnikrishnan et al. | A novel approach for English to South Dravidian language statistical machine translation system | |
Vilares et al. | Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval | |
Meelen et al. | Optimisation of the largest annotated Tibetan corpus combining rule-based, memory-based, and deep-learning methods | |
Aasha et al. | Machine translation from English to Malayalam using transfer approach | |
JP2006127405A (en) | Method for carrying out alignment of bilingual parallel text and executable program in computer | |
Wu et al. | Parsing-based Chinese word segmentation integrating morphological and syntactic information | |
Sennrich et al. | A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge | |
Wang et al. | Structure alignment using bilingual chunking | |
Bosch et al. | Memory-based morphological analysis and part-of-speech tagging of Arabic | |
Tambouratzis | Conditional Random Fields versus template-matching in MT phrasing tasks involving sparse training data | |
Strassel et al. | Data acquisition and linguistic resources | |
Szymanski | Morphological inference from Bitext for resource-poor languages | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
Ombui et al. | InterlinguaPlus Machine Translation Approach for Local Languages: Ekegusii & Swahili | |
He et al. | Ict system description for the 2006 tc-star run# 2 slt evaluation | |
Ji et al. | Phonetic name matching for cross-lingual spoken sentence retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071012 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071221 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080122 |