JP2006024114A - Mechanical translation device and mechanical translation computer program - Google Patents
Mechanical translation device and mechanical translation computer program Download PDFInfo
- Publication number
- JP2006024114A JP2006024114A JP2004203382A JP2004203382A JP2006024114A JP 2006024114 A JP2006024114 A JP 2006024114A JP 2004203382 A JP2004203382 A JP 2004203382A JP 2004203382 A JP2004203382 A JP 2004203382A JP 2006024114 A JP2006024114 A JP 2006024114A
- Authority
- JP
- Japan
- Prior art keywords
- language
- translation
- sentence
- probability
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この発明は、対訳コーパスを用いた用例翻訳を行なう機械翻訳装置に関し、特に、用例翻訳の弱点を、統計的なモデルを用いて克服し高品質な翻訳を行なう機械翻訳装置に関する。 The present invention relates to a machine translation apparatus that performs example translation using a bilingual corpus, and more particularly, to a machine translation apparatus that overcomes the weaknesses of example translation using a statistical model and performs high-quality translation.
現在、機械翻訳において、対訳コーパスを利用して翻訳を行なう翻訳方式が高い成果を挙げつつある。このような機械翻訳の代表的なものとして、用例翻訳と呼ばれるものがある(非特許文献1を参照されたい)。用例翻訳は、対訳コーパスを一種のデータベース(以下、これを「用例ベース」と呼ぶ。)として利用して機械翻訳を行なう。 Currently, in machine translation, a translation system that performs translation using a bilingual corpus is producing high results. A typical example of such machine translation is called example translation (see Non-Patent Document 1). For example translation, machine translation is performed using a bilingual corpus as a kind of database (hereinafter referred to as “example base”).
図11に、用例翻訳を行なう従来の典型的な機械翻訳装置の構成を概略的に示す。図11を参照して、従来の機械翻訳装置300は、第1の言語(以下、この言語を「原言語」と呼ぶ。)の入力文310を第2の言語(以下、この言語を「目的言語」と呼ぶ。)の出力文312に翻訳するものであって、原言語の文とその文に対する目的言語の訳文とを多数含む対訳コーパス302からなる用例ベース304と、入力文310に最も類似した対訳文(以下、これを「用例」と呼ぶ。)を用例ベース304から検索するための検索部320と、検索部320により検索された用例の原言語単語列と入力文310との異なり単語列を同定するための差分同定部321と、原言語と目的言語との間の対訳辞書306と、対訳辞書306を参照し、検索部320により得られた用例のうち差分同定部321により同定された、原言語の文と入力文310との相違に基づき、用例のうち目的言語の文を修正して出力文312を生成するための修正部322とを含む。
FIG. 11 schematically shows a configuration of a typical conventional machine translation apparatus that performs example translation. Referring to FIG. 11, a conventional
機械翻訳装置300に入力文310が与えられると、検索部320が、入力文310に最も類似する用例を用例ベース304から検索する。検索された用例は差分同定部321に与えられる。差分同定部321には、入力文310も与えられる。差分同定部321は、入力文310と検索された用例の原言語側の文との間で異なる個所を特定する。差分同定部321は、入力文310および用例の相違個所を特定する情報とともに用例を修正部322に与える。修正部322は、対訳辞書306を参照して、用例の目的言語側の文中において特定された個所を、入力文310の対応する個所の単語の訳語を用いて修正し、修正した文を出力文312として出力する。
When the
例えば、原言語として英語、目的言語として日本語の場合を考える。この場合、用例ベース304としては英語と日本語との対訳を多数含むものが用いられる。入力文310として「where is the cheapest hotel」という英語の文が入力されたものとする。検索部320は、用例ベース304から、英語側の文が入力文310に最も類似する用例を検索する。ここで用例ベース304から、「where is the cheapest restaurant/一番安いレストランはどこですか」という用例が検索されたものとする。検索部320は差分同定部321にこの用例と入力文310とを与える。
For example, consider the case where the source language is English and the target language is Japanese. In this case, as the
入力文310中には「hotel」という単語があるのに対し、用例の英語側の文では「hotel」の代りに「restaurant」という単語がある点で入力文と用例とは異なる。差分同定部321は、用例の英語側の文と入力文310とのこの相違個所を同定する。差分同定部321はさらに、用例の日本語側の文のうち、用例の英語側の文において入力文310と相違しているとして同定された単語「restaurant」に対応する単語「レストラン」を特定する。差分同定部321は、検索された用例とその用例に対する入力文310中の異なり単語「hotel」とを修正部322に与える。このとき差分同定部321は、用例中の単語「restaurant」に対応する単語「レストラン」を修正部322に対して指示する。修正部322は、対訳辞書306を参照して入力文310中の異なり単語「hotel」の訳語である「ホテル」を得る。修正部322は、差分同定部321により指示された単語「レストラン」を対訳辞書306から得られた「ホテル」に置換する。機械翻訳装置300は、これら一連の処理により得られる日本語の文「一番安いホテルはどこですか」を、出力文312として出力する。
The
用例翻訳において利用される用例には、句または文を単位とした対訳が用いられることが多い。そのため用例翻訳は、慣用表現等を適切に翻訳することができるという利点を有する。 As an example used in example translation, a parallel translation in units of phrases or sentences is often used. Therefore, example translation has the advantage that conventional expressions and the like can be appropriately translated.
用例翻訳では、例えば類似度を単語の異なり数で測った場合、入力文との単語の異なり数が最も少ない用例が用例ベース304から検索できることが前提である。しかし、そのような用例が一意に検索できるとは限らず、単語の異なりが同程度の用例が複数個競合することがある。複数個の用例が競合した場合、従来の用例翻訳では、入力文とそれら用例の原言語側との類似度を測り、類似度が最も高い用例を選択する。しかし、最も類似した用例を選択した場合であっても、選択された用例から適切な出力文が生成されるとは限らない。
In the example translation, for example, when the similarity is measured by the number of different words, it is assumed that an example having the smallest number of different words from the input sentence can be searched from the
例えば、「where is the nearest restaurant」という文が入力されたものとする。また、この入力文に類似する用例として、「where is the nearest subway/最寄りの地下鉄の駅はどこですか」という用例と、「where is the cheapest restaurant/一番安いレストランはどこですか」という用例とが競合したとする。仮に入力文に最も類似する用例として前者が選択されたとする。この場合、用例の「subway」が入力文の「restaurant」と異なるため、「地下鉄」が「restaurant」の訳語「レストラン」に置換される。したがって出力文312として「最寄りのレストランの駅はどこですか」が出力される。しかしこの出力文は誤訳である。
For example, it is assumed that a sentence “where is the nearest resturant” is input. As examples similar to this input sentence, there are an example of “where is the nearest subway / where is the nearest subway station” and an example of “where is the cheapest restaurant / where is the cheapest restaurant”. Suppose you compete. Assume that the former is selected as an example most similar to the input sentence. In this case, since “subway” in the example is different from “restaurant” in the input sentence, “subway” is replaced with the translated word “restaurant” of “restaurant”. Therefore, “where is the nearest restaurant station” is output as the
仮に後者が選択されたとすると、用例の「cheapest」が入力文の「nearest」と異なる。そのため、用例の「一番安い」を「nearest」の訳語に置換することにより出力文312が生成される。ここで、対訳辞書306を参照することにより、「nearest」の訳語として「一番近い」を得たならば、出力文312は「一番近いレストランはどこですか」となり、正しい訳文となる。しかし、必ずしもそのようになるとは限らない。「nearest」の訳語として「最寄り」を得た場合、出力文312は、「最寄りレストランはどこですか」となる。これは、文法的に誤った文である。
If the latter is selected, the example “cheapest” is different from the input sentence “nearest”. Therefore, the
このように、用例翻訳においては、翻訳によりどのような結果が得られるかを考慮せずに用例の修正が実行される。よって、最終的な出力文が入力文の翻訳として正しいかどうかが検証できず、誤訳文または目的言語の文として正しくない文が出力されるおそれがある。 As described above, in the example translation, the example is corrected without considering what result is obtained by the translation. Therefore, it is impossible to verify whether the final output sentence is correct as a translation of the input sentence, and there is a possibility that an incorrect sentence is output as a mistranslated sentence or a target language sentence.
それゆえに、本発明の目的は、用例機械翻訳において、得られた翻訳文を検証して所定条件にしたがって正しいと判定された翻訳文を出力することができる機械翻訳装置を提供することである。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a machine translation apparatus capable of verifying an obtained translation sentence and outputting a translation sentence determined to be correct according to a predetermined condition in an example machine translation.
本発明の別の目的は、用例機械翻訳において、機械翻訳後の翻訳文が目的言語の文として正しい文か否かを判定し、正しい文と判定できる翻訳文を出力することができる機械翻訳装置を提供することである。 Another object of the present invention is to determine whether or not a translated sentence after machine translation is a correct sentence as a sentence in a target language in an example machine translation, and to output a translated sentence that can be determined as a correct sentence Is to provide.
本発明のさらに別の目的は、用例機械翻訳において、機械翻訳後の翻訳文が目的言語の文として正しい文か否かを統計的機械翻訳において使用される統計的モデルを用いて判定し、統計的にみて正しい文と判定できる翻訳文を出力することができる機械翻訳装置を提供することである。 Still another object of the present invention is to determine whether a translated sentence after machine translation is a correct sentence as a sentence in a target language by using a statistical model used in statistical machine translation in an example machine translation, An object of the present invention is to provide a machine translation apparatus that can output a translated sentence that can be determined as a correct sentence.
本発明の第1の局面に係る機械翻訳装置は、第1の言語の文と第2の言語の文との対からなる用例を複数含む所定の用例ベースと、第1の言語の入力文を受けて、用例ベースを参照して、入力文に対する第2の言語の翻訳文の複数の候補を生成するための用例翻訳手段と、用例翻訳手段の生成する複数の候補のうち、所定の確率統計モデルを用いて算出される確率スコアが所定の条件を充足するものを選択して出力するための統計的選択手段とを含む。 A machine translation device according to a first aspect of the present invention includes a predetermined example base including a plurality of examples including pairs of a sentence in a first language and a sentence in a second language, and an input sentence in the first language. Then, referring to the example base, an example translation unit for generating a plurality of candidates for the translated sentence of the second language for the input sentence, and a predetermined probability statistic among the plurality of candidates generated by the example translation unit Statistical selection means for selecting and outputting a probability score calculated using a model that satisfies a predetermined condition.
好ましくは、用例翻訳手段は、入力文を受け、入力文と所定の類似条件を充足する第1の言語の文を有する用例を用例ベース中で検索し、検索された第1の言語の文をそれぞれ含む複数の用例を抽出するための検索手段と、複数の用例の第2の言語の文をそれぞれ修正し、複数の用例の各々から、入力文に対する翻訳文の候補を生成するための修正手段とを含む。 Preferably, the example translation means receives an input sentence, searches an example base having a sentence in a first language satisfying a predetermined similarity condition with the input sentence, and searches the sentence in the first language searched for. Retrieval means for extracting a plurality of examples included therein, and correction means for correcting each sentence in the second language of the plurality of examples and generating translation sentence candidates for the input sentence from each of the plurality of examples Including.
より好ましくは、検索手段は、入力文を受け、入力文との異なり単語数が最も少ない複数の第1の言語の文を用例ベースにおいて検索し、検索された第1の言語の文をそれぞれ含む複数の用例を取得するための手段を含む。 More preferably, the search means receives an input sentence, searches for a plurality of sentences in the first language having the smallest number of words unlike the input sentence on an example basis, and includes each searched sentence in the first language. Means for obtaining a plurality of examples are included.
さらに好ましくは、機械翻訳装置は、第1の言語と第2の言語との間の対訳辞書をさらに含む。修正手段は、入力文と複数の用例の各々の第1の言語の文とを比較し、複数の用例の各々について、入力文との差分を同定するための差分同定手段と、複数の用例の第2の言語の文を、差分同定手段により同定された差分に基づいて対訳辞書を参照してそれぞれ修正し、複数の用例の各々から、入力文に対する翻訳文の候補を生成するための候補生成手段とを含む。 More preferably, the machine translation device further includes a bilingual dictionary between the first language and the second language. The correcting means compares the input sentence with sentences in the first language of each of the plurality of examples, and for each of the plurality of examples, difference identifying means for identifying a difference from the input sentence, and a plurality of examples Candidate generation for correcting a sentence in the second language with reference to the bilingual dictionary based on the difference identified by the difference identifying means, and generating a translation sentence candidate for the input sentence from each of a plurality of examples Means.
対訳辞書は、第1の言語の一つの単語に対して第2の言語の複数個の単語を訳語として含むことがあってもよい。候補生成手段は、複数の用例の各々の第2の言語の文を、差分同定手段により同定された差分に基づいて対訳辞書を参照して得られた1または複数個の第2の言語の単語を用いてそれぞれ修正することにより、入力文に対する1または複数の翻訳文の候補を生成するための手段を含む。 The bilingual dictionary may include a plurality of words in the second language as translations for one word in the first language. The candidate generating means includes one or a plurality of second language words obtained by referring to the bilingual dictionary based on the differences identified by the difference identifying means for the sentences in the second language of the plurality of examples. Means for generating one or a plurality of translation sentence candidates for the input sentence by modifying each of them using.
生成するための手段は、複数の用例の各々の第2の言語の文を、差分同定手段により同定された差分の各々に基づいて対訳辞書を参照して得られた1または複数個の第2の言語の単語を用いてそれぞれ可能な全ての組合せにしたがって修正することにより、入力文に対する1または複数の翻訳文の候補を生成するための手段を含んでもよい。 The means for generating the sentence of the second language of each of the plurality of examples is obtained by referring to the bilingual dictionary based on each of the differences identified by the difference identifying means. Means may be included for generating one or more translation sentence candidates for the input sentence by modifying according to all possible combinations using words in the language.
検索手段は、入力文を受け、入力文との編集距離が最小となる複数の第1の言語の文を用例ベース中で検索し、検索された第1の言語の文をそれぞれ含む複数の用例を取得するための手段を含んでもよい。 The search means receives the input sentence, searches the example base for a plurality of first language sentences that have the smallest editing distance from the input sentence, and includes a plurality of examples each including the searched first language sentence. Means for obtaining may be included.
検索手段は、入力文を受け、単語間の意味的距離を考慮して算出される入力文との編集距離が最小となる複数の第1の言語の文を用例ベース中で検索し、検索された第1の言語の文をそれぞれ含む複数の用例を取得するための手段を含んでもよい。 The search means receives an input sentence, searches the example base for sentences in a plurality of first languages that have the smallest editing distance from the input sentence calculated in consideration of the semantic distance between words, and is searched. A means for acquiring a plurality of examples each including a sentence in the first language may be included.
好ましくは、統計的選択手段は、用例翻訳手段の生成する複数の候補のうち、所定の確率統計モデルを用いて算出される確率スコアが最も高いものを選択して出力するための手段を含む。 Preferably, the statistical selection means includes means for selecting and outputting a candidate having the highest probability score calculated using a predetermined probability statistical model from among a plurality of candidates generated by the example translation means.
より好ましくは、機械翻訳装置はさらに、第2の言語の言語モデルを記憶するための言語モデル記憶手段を含む。出力するための手段は、複数の候補の各々に対し、言語記憶手段に記憶された言語モデルを用いて言語確率を算出するための言語確率算出手段と、言語確率算出手段により算出された言語確率が最も高い候補を選択して出力するための手段とを含む。 More preferably, the machine translation device further includes language model storage means for storing a language model of the second language. The means for outputting includes, for each of the plurality of candidates, a language probability calculation means for calculating a language probability using a language model stored in the language storage means, and a language probability calculated by the language probability calculation means Means for selecting and outputting the highest candidate.
より好ましくは、機械翻訳装置はさらに、第2の言語から第1の言語への翻訳モデルを記憶するための翻訳モデル記憶手段を含む。出力するための手段は、複数の候補の各々に対し、翻訳モデル記憶手段に記憶された翻訳モデルを用いて翻訳確率を算出するための翻訳確率算出手段と、翻訳確率算出手段により算出された翻訳確率が最も高い候補を選択して出力するための手段とを含む。 More preferably, the machine translation device further includes a translation model storage unit for storing a translation model from the second language to the first language. The means for outputting includes, for each of the plurality of candidates, a translation probability calculation means for calculating a translation probability using a translation model stored in the translation model storage means, and a translation calculated by the translation probability calculation means Means for selecting and outputting a candidate having the highest probability.
より好ましくは、機械翻訳装置はさらに、第2の言語の言語モデルを記憶するための言語モデル記憶手段と、第2の言語から第1の言語への翻訳モデルを記憶するための翻訳モデル記憶手段とを含む。出力するための手段は、複数の候補の各々に対し、言語記憶手段に記憶された言語モデルを用いて言語確率を算出するための言語確率算出手段と、複数の候補の各々に対し、翻訳モデル記憶手段に記憶された翻訳モデルを用いて翻訳確率を算出するための翻訳確率算出手段と、言語確率算出手段が算出する言語確率と、翻訳確率算出手段が算出する翻訳確率との関数として所定の確率スコアを算出するためのスコア算出手段と、スコア算出手段により算出された確率スコアが最も高い候補を選択して出力するための手段とを含む。 More preferably, the machine translation apparatus further includes language model storage means for storing a language model of the second language, and translation model storage means for storing a translation model from the second language to the first language. Including. The means for outputting, for each of a plurality of candidates, a language probability calculating means for calculating a language probability using a language model stored in the language storage means, and a translation model for each of the plurality of candidates A translation probability calculation means for calculating a translation probability using a translation model stored in the storage means, a language probability calculated by the language probability calculation means, and a translation probability calculated by the translation probability calculation means as a predetermined function. Score calculating means for calculating a probability score; and means for selecting and outputting a candidate having the highest probability score calculated by the score calculating means.
本発明の第2の局面に係る機械翻訳コンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第1の局面に係る機械翻訳装置として動作させる。 The machine translation computer program according to the second aspect of the present invention, when executed by a computer, causes the computer to operate as the machine translation apparatus according to the first aspect of the present invention.
以下に示す本発明の具体的な実施の形態に係る機械翻訳システムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図1はこの機械翻訳システムを実現するコンピュータシステム30の外観を示し、図2はコンピュータシステム30の内部構成を示す。
A machine translation system according to a specific embodiment of the present invention described below is realized by computer hardware, a program executed by the computer hardware, and data stored in the computer hardware. FIG. 1 shows the external appearance of a
図1を参照して、このコンピュータシステム30は、FD(フレキシブルディスク)ドライブ52およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ50を有するコンピュータ40と、キーボード46と、マウス48と、モニタ42とを含む。
Referring to FIG. 1, a
図2を参照して、コンピュータ40は、FDドライブ52およびCD−ROMドライブ50に加えて、CPU(中央処理装置)56と、CPU56、FDドライブ52およびCD−ROMドライブ50に接続されたバス66と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)58と、バス66に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)60とを含む。コンピュータシステム30はさらに、プリンタ44を含む。
2, in addition to the
ここでは示さないが、コンピュータ40はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム30に本実施の形態に係る機械翻訳システムの機能を実現させるためのコンピュータプログラムは、CD−ROMドライブ50またはFDドライブ52に挿入されるCD−ROM62またはFD64に記憶され、さらにハードディスク54に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ40に送信されハードディスク54に記憶されてもよい。プログラムは実行の際にRAM60にロードされる。CD−ROM62から、FD64から、またはネットワークを介して、直接にRAM60にプログラムをロードしてもよい。
A computer program for causing the
以下に説明する機械翻訳プログラムは、コンピュータ40に本実施の形態に係る機械翻訳装置の機能を実現させる複数の命令を含む。この装置を実現するために必要な基本的機能のいくつかはコンピュータ40上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ40にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態に係る機械翻訳装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、機械翻訳装置の機能を実現する命令のみを含んでいればよい。コンピュータシステム30の動作自体は周知であるので、ここでは繰返さない。
The machine translation program described below includes a plurality of instructions that cause the
−概要−
対訳コーパスを用いる機械翻訳の方式として、用例翻訳の他に、統計翻訳と呼ばれる方式がある。この方式では、ある言語の文を他の言語の文に翻訳するという問題を、条件付確率の最大化問題として定式化する。原言語文をFとし、目的言語文をEとすると、統計翻訳は、原言語文Fをもとに、次の式を満足する文を探索する。
-Overview-
As a method of machine translation using a bilingual corpus, there is a method called statistical translation in addition to example translation. In this method, the problem of translating a sentence in one language into a sentence in another language is formulated as a problem of maximizing conditional probability. If the source language sentence is F and the target language sentence is E, statistical translation searches the source language sentence F for a sentence that satisfies the following expression.
ついて言語モデル確率を算出したものを言語モデルと呼ぶ。また、P(F|E)は、翻訳
モデル確率と呼ばれる。翻訳モデル確率P(F|E)もまた、対訳コーパスをもとに算出される。なおここで使用される翻訳モデルが目的言語から原言語へのものであり、翻訳の向きとは逆であることに注意が必要である。
本実施の形態に係る機械翻訳装置は、言語モデルおよび翻訳モデルを用いた文の探索を用例翻訳に導入することにより、最適な出力文を選択し出力する。 The machine translation apparatus according to the present embodiment selects and outputs an optimum output sentence by introducing a sentence search using the language model and the translation model into the example translation.
−構成−
図3に、本実施の形態に係る機械翻訳システム90のブロック図を示す。図3を参照して、機械翻訳システム90は、原言語文(英語)とその文に対する目的言語(日本語)の訳文とからなる対訳文を多数含む対訳コーパス100と、対訳コーパス100をもとに、目的言語である日本語の言語モデル102を作成するための言語モデル作成装置110と、対訳コーパス100をもとに、目的言語から原言語への翻訳モデル104を作成する翻訳モデル作成装置112と、対訳コーパス100からなる用例ベース106、言語モデル102、および翻訳モデル104を用いて原言語の入力文120を翻訳し、目的言語の出力文122を生成する機械翻訳装置130とを含む。
−Configuration−
FIG. 3 shows a block diagram of a
図4に、用例ベース106の構成を示す。図4を参照して、用例ベース106は、対訳文の番号、その対訳文の原言語(英語)側の単語列(原言語単語列)、原言語文に対する目的言語の訳文の単語列(目的言語単語列)、および対訳文における単語対応を示す情報を含む。図4において、「/」は、単語の区切りを示す。単語対応は、原言語単語列中の単語と、その単語に対応する目的言語単語列中の単語または単語列との組を示す。通常、対訳コーパス100はこのような情報を含んでおり、対訳コーパス100を用例ベース106として使用できる。
FIG. 4 shows the configuration of the
図5に、言語モデル102の構成を示す。図5に示す言語モデル102は、単語バイグラム(bigram)モデルである。言語モデル102は、対訳コーパス100の目的言語文中の単語ei-1およびeiの順序付の組と、直前に単語ei-1が置かれているという条件下で単語eiが生起する確率p(ei|ei-1)とからなる多数のエントリを含む。なお、図5に示す言語モデル102において、「<s>」は、文の開始位置を示す記号であり、「</s>」は、文の終了位置を示す記号である。
FIG. 5 shows the configuration of the
図6に、翻訳モデル104の構成を示す。図6に示す翻訳モデル104は、Lexicon(語彙)モデルである。翻訳モデル104は、対訳コーパス100中の目的言語(日本語)の単語eiおよび原言語の単語fjの組と、対訳コーパス100中の対訳文において単語eiが原言語の単語fjに訳される確率を表わす値t(fj|ei)とを含む。なお、図6に示す翻訳モデル104において、「NULL」は、原言語単語が翻訳されないことを示す特殊単語である。翻訳モデルは、原言語と目的言語との間の単語の訳の正確性を表わすモデルである。
FIG. 6 shows the configuration of the
図3を参照して、機械翻訳装置130は、用例ベース106に加えて、原言語の単語とその単語に対する1または複数の目的言語の単語または単語列とからなる対訳を多数含む対訳辞書108と、入力文120が与えられると、用例ベース106および対訳辞書108を用い、従来と同様の用例翻訳により、日本語の複数の出力文候補132A,…,132M(これらをまとめて出力文候補132と呼ぶこともある。)を生成して出力するための用例翻訳部140と、出力文候補132A,…,132Mの中から、言語モデル102および翻訳モデル104を用いて統計的に最適と判定される出力文122を選択し出力するための統計的選択部150とを含む。
Referring to FIG. 3, in addition to the
図7に、対訳辞書108の構成を示す。図7を参照して、対訳辞書108は、原言語の単語と、その単語に対する訳語である目的言語単語列との組からなるエントリを多数含む。原言語単語に対して複数の訳語が存在する場合、対訳辞書には、それら複数の訳語が列挙される。例えば、原言語単語「nearest」に対して、目的言語単語列には、「最寄り」という訳語と「一番/近い」という訳語とが列挙されている。なお、図7に示す対訳辞書108においても用例ベース106(図4参照)と同様に、「/」が単語の区切りを示す。
FIG. 7 shows the configuration of the
図8に、用例翻訳部140(図3参照)の詳細なブロック図を示す。図8を参照して、用例翻訳部140は、入力文120に類似する原言語文(英語単語列)を有する所定の数(N個)の用例を用例ベース106より検索するための検索部200と、検索部200によりN個の検索された用例の各々の原言語単語列と入力文120との異なり単語を同定するための差分同定部202と、各用例の目的言語単語列において、差分同定部202により同定された原言語の異なり単語に対応する訳語を、用例ベース106に含まれる、用例の単語対応情報により特定し、入力文120の異なり単語を用いて対訳辞書108から検索した訳語で置換または修正することにより、出力文候補132A,…,132Mを生成するための修正部204とを含む。ここで、対訳辞書108から複数の訳語が得られる場合もあるので、M≧Nである。
FIG. 8 shows a detailed block diagram of the example translation unit 140 (see FIG. 3). Referring to FIG. 8, the
図9に、統計的選択部150(図3参照)の詳細なブロック図を示す。図9を参照して、統計的選択部150は、言語モデル102に基づき、各出力文候補132A,…,132Mの言語モデル確率を算出する言語モデル確率算出部220と、翻訳モデル104に基づき、入力文120と各出力文候補132A,…,132Mとの間の翻訳モデル確率を算出する翻訳モデル確率算出部222とを含む。統計的選択部150はさらに、出力文候補132A,…,132Mについての言語モデル確率と翻訳モデル確率とを乗算し、得られた値を、出力文候補132A,…,132Mに対しそれぞれ統計的確率スコアとして付与する乗算部224と、出力文候補132A,…,132Mの中で、乗算部224が付与した統計的確率スコアの値が最も高いものを選択し、出力文122として出力するための選択部226とを含む。
FIG. 9 shows a detailed block diagram of the statistical selection unit 150 (see FIG. 3). Referring to FIG. 9, the
言語モデル確率算出部220は、図5に示す単語バイグラムモデルからなる言語モデル102を用い、単語数WEの単語ei(1≦i≦WE)からなる出力文候補Eについての言語モデル確率P(E)を次の式で算出する。
Language model
翻訳モデル確率算出部222は、図6に示すLexiconモデルからなる翻訳モデル104を用い、単語数WEの単語ei(1≦i≦WE)からなる出力文候補Eと単語数WFの単語fj(1≦j≦WF)からなる入力文F(120)との変換についての翻訳モデル確率P(F|E)を、次の式で算出する。
Translation model
−処理構造−
図10に、機械翻訳装置130において実行される処理の構造をフローチャートで示す。図10を参照して、入力文120(図3参照)が機械翻訳装置130に与えられると、ステップ(以下、単に「S」と表記する。)S252において、入力文120との異なり単語数が最も少ないN個の用例を用例ベース106より検索する。
-Processing structure-
FIG. 10 is a flowchart showing the structure of processing executed in the
続いて、S254AとS254Bとで囲まれたS256およびS258の処理を、S252で検索されたN個全ての用例について実行する。すなわち、S256では、入力文120と、検索された用例の原言語単語列とを比較して、両者の間の差分すなわち異なり単語を同定する。S258では、用例の目的言語単語列のうち、原言語単語列の異なり単語に対応する単語を用例ベース106の単語対応情報により特定し、さらに、入力文における異なり単語の訳語を対訳辞書108より取得して用例の目的言語単語列内の異なり単語に対応する単語を対訳辞書108より取得した訳語で置換する。このようにして修正された目的言語単語列が出力文候補132となる。対訳辞書に複数の訳語が列挙されている場合、それらの各々について出力文候補132を生成する。仮に異なり単語が複数あれば、それらの各々に対し可能な訳語を全て調べ、それらの間で可能な全ての組合せにしたがって、出力文候補132を生成する。全ての用例に対してその出力文候補132が生成されると、処理はS260Aに移る。
Subsequently, the processing of S256 and S258 surrounded by S254A and S254B is executed for all N examples retrieved in S252. That is, in S256, the
S260AとS260Bとで囲まれたS262、S264、およびS266の処理は、S254A〜S254Bにおいて生成された全ての出力文候補132について実行される。S262では、出力文候補132の各々について言語モデル確率を算出する。S264では、出力文候補132の各々と入力文との間の翻訳モデル確率を算出する。S266では、S262で算出された言語モデル確率とS264で算出された翻訳モデル確率との積からなる統計的確率スコアを出力文候補132の各々について算出する。以上の処理が各出力文候補132について行なわれると、処理はS268に移る。
The processing of S262, S264, and S266 surrounded by S260A and S260B is executed for all
S268では、出力文候補132の中から、S266で算出された統計的確率スコアの値が最大のものを出力文として選択し、出力して処理を終了する。
In S268, the
−動作−
機械翻訳システム90は、以下のように動作する。図3を参照して、対訳コーパス100には原言語の文と目的言語の訳文とからなる多数の対訳文が含まれており、用例ベース106(図4参照)として使用可能な状態で予め準備されているものとする。また対訳辞書108(図7参照)も、予め何らかの手段により準備されているものとする。言語モデル作成装置110は、対訳コーパス100をもとに言語モデル102(図5参照)を作成しておき、機械翻訳装置130に予め与えておく。また、翻訳モデル作成装置112は、対訳コーパス100をもとに翻訳モデル104(図6参照)を作成しておき、予め機械翻訳装置130に与えておく。
-Operation-
The
図8を参照して、入力文120は、用例翻訳部140の検索部200に与えられる。検索部200は、用例ベース106(図4参照)中の原言語単語列と入力文120とを比較し、入力文120と異なる単語の数が最も少ないものから順にN個の用例を検索し差分同定部202に与える。差分同定部202にはまた、入力文120も与えられる。
Referring to FIG. 8,
差分同定部202は、検索部200により検索された各用例の原言語単語列と、入力文120とを比較し、原言語単語列中で入力文120と異なる単語を同定する。さらに用例の単語対応をもとに、入力文120と異なる単語として同定された単語に対応する目的言語の単語列を、用例の目的言語単語列中で同定する。差分同定部202は、検索された各用例とその用例に対する入力文120中の異なり単語とを修正部204に与える。このとき差分同定部202は、与えた用例の目的言語単語列中で異なる単語または単語列として同定された単語または単語列を修正部204に対して指示する。
The
修正部204は、対訳辞書108を参照して、入力文120中の異なり単語として与えられた単語の訳語を取得する。対訳辞書108に複数の訳語が列挙されている場合、列挙された全ての訳語を取得する。修正部204はさらに、与えられた用例の、目的言語列側の異なり単語列を、対訳辞書108から取得した訳語に置換して出力文候補132を生成する。対訳辞書108から複数個の訳語が検索された場合には、それら複数個の訳語の各々に対して出力文候補132を生成する。異なり単語が複数あるときは、それらに対する訳語の全てを用い、可能な組合せの全てについて出力文候補132を生成する。
The
こうして、用例翻訳部140は、1つの入力文120に対しM個(M≧N)の出力文候補132A,…,132Mを生成する。生成された出力文候補132A,…,132Mは、統計的選択部150に与えられる。
Thus, the
図9を参照して、出力文候補132A,…,132Mの1つ、例えば出力文候補132Aが言語モデル確率算出部220、翻訳モデル確率算出部222、および乗算部226に与えられる。言語モデル確率算出部220は、図5に示す単語バイグラムモデルからなる言語モデル102を用いて、与えられた出力文候補132Aの言語モデル確率を次の式にしたがい算出する。
Referring to FIG. 9, one of output sentence candidates 132A,..., 132M, for example, output sentence candidate 132A is given to language model
翻訳モデル確率算出部222は、入力文120を受け、図6に示すLexiconモデルからなる翻訳モデル104を用いて、入力文120と与えられた出力文候補132Aとの翻訳モデル確率を、次の式にしたがい算出する。
The translation model
乗算部224は、言語モデル確率算出部220により算出された言語モデル確率P(E)と翻訳モデル算出部222により算出された翻訳モデル確率P(F|E)とを乗算し、積P(E)P(F|E)と与えられた出力文候補132Aとを併せて、選択部226に与える。
The
言語モデル確率算出部220、翻訳モデル確率算出部222、および乗算部224は、上記した処理をさらに出力文候補132B,…,132Mの各々に対して実行し、出力文候補132B,…,132Mに、言語モデル確率と翻訳モデル確率との積からなる統計的確率スコアをそれぞれ付与して選択部226に与える。
The language model
選択部226は、統計的確率スコアがそれぞれ付与された出力文候補132A,…,132Mのうち、その値が最大のものを選択する。選択部226は、選択した出力文候補を出力文122として出力する。
The selection unit 226 selects the output sentence candidate 132A,..., 132M to which the statistical probability score is assigned, that has the maximum value. The selection unit 226 outputs the selected output sentence candidate as the
−翻訳例−
英語の文を日本語の文に翻訳する場合を例にとり、機械翻訳システム90による翻訳の具体例を示す。例えば、「where is the nearest restaurant」という英語の文が入力文120として用例翻訳部140に与えられたものとする。N=2とする。
-Translation example-
Taking a case where an English sentence is translated into a Japanese sentence as an example, a specific example of translation by the
図4を参照して、用例ベース106の番号1の用例の英語側の文「where is the nearest subway」には、入力文120と異なる単語は1つ(subway)含まれている。また番号2の用例の英語側の文「where is the cheapest restaurant」にも、入力文120と異なる単語は1つ(cheapest)含まれている。番号3の用例「today is free」には、入力文120と異なる単語が2つ存在する。この場合、図8に示す検索部200は番号1の用例と番号2の用例とを用例ベース106から検索する。
Referring to FIG. 4, the English sentence “where is the nearest subway” of the
番号1の用例の目的言語単語列は、「最寄り/の/地下鉄/の/駅/は/どこ/です/か」である。また番号2の用例の目的言語単語列は、「一番/安い/レストラン/は/どこ/です/か」である。
The target language word string of the
番号1の用例では、原言語単語列中の異なり単語である「subway」は、目的言語単語列中の単語「地下鉄」に対応する。図8に示す修正部204は、図7に示す対訳辞書108より、入力文120中の「restaurant」の訳語「レストラン」を検索する。修正部204は、番号1の用例における目的言語単語列中の単語「地下鉄」を対訳辞書108から検索した「レストラン」に置換して、出力文候補を生成し出力する。
In the example of
番号2の用例では、原言語単語列中の異なり単語である「cheapest」は、目的言語単語列中の単語列「一番/安い」に対応する。また、検索部200は、図7に示す対訳辞書108より、入力文120中の「nearest」の訳語として「最寄り」および「一番/近い」を検索する。用例翻訳部140は、番号2の用例における目的言語単語列中の単語「一番/安い」を「最寄り」に置換した出力文候補と、目的言語単語列中の単語「一番/安い」を「最寄り」に置換した出力文候補とを生成し出力する。
In the example of
このようにして、以下の3つの出力文候補が作成される。すなわち、
(a)「最寄り/の/レストラン/の/駅/は/どこ/です/か」
(b)「一番/近い/レストラン/は/どこ/です/か」
(c)「最寄り/レストラン/は/どこ/です/か」
である。以下、これらの出力文候補をそれぞれ「Ea」、「Eb」、および「Ec」とする。
In this way, the following three output sentence candidates are created. That is,
(A) “Nearest / No / Restaurant / No / Station / Ha / Where / Is / K”
(B) “The closest / closest / restaurant / ha / where / is / ka”
(C) “Nearest / Restaurant / Ha / Where / Is it /?”
It is. Hereinafter, these output sentence candidates are referred to as “E a ”, “E b ”, and “E c ”, respectively.
下の表に、図5に示す言語モデル102をもとに算出した出力文候補Ea、Eb、およびEcについての言語モデル確率P(E)、図6に示す翻訳モデル104をもとに算出した出力文候補Ea、Eb、およびEcの各々と入力文120とついての翻訳モデル確率P(F|E)、およびそれらの積からなる統計的確率スコアP(E)P(F|E)を示す。
The table below shows the language model probabilities P (E) for the output sentence candidates E a , E b , and E c calculated based on the
以上のように、本実施の形態に係る機械翻訳装置130では、従来の用例翻訳とは異なり、入力文と用例の原言語側との類似性のみをもとに一意に用例を決定することはしない。そうではなく、入力文に類似する複数の用例を検索し、それらに基づいて翻訳を行なう。そのため、複数の用例が競合する場合でもその中から一つを選択することによる問題が生ずることはない。また、この機械翻訳装置130は、そのようにして選択された複数の用例をもとに複数の出力文候補を生成する。これら複数の出力文候補全体の中に出力文として適切なものが含まれる確率は、単一の出力文候補のみを生成する場合と比較してより高くなる。よって複数の出力文候補の中から適切なものを選択することで、高品質の出力文が出力される可能性を高めることができる。
As described above, in
さらに、機械翻訳装置130は、統計翻訳で用いられる言語モデルと翻訳モデルとを利用して、出力文候補の中から出力文を選択する。言語モデルは、文の流暢さを表わすモデルであり、翻訳モデルは、原言語と目的言語との単語訳の正確さを表わすモデルである。これらのモデルを用い、言語モデル確率と翻訳モデル確率とを総合的に勘案することにより、出力文候補の中から、目的言語の文として自然で、かつ入力文の翻訳として正確なものを選択することができる。
Furthermore, the
なお、上記した実施の形態では、検索部200(図8参照)は、入力文との異なり単語数を基準として、入力文に類似する用例を検索した。しかし、本発明はそうした実施の形態に限定されるわけではない。入力文に類似する用例を検索するための基準として、編集距離を用いても良い。また、異なり単語の個数または編集距離による類似度の算出において、シソーラスを利用して求められる意味距離を勘案し、異なり単語の個数または編集距離の算出において、意味的に近い単語の場合には単語個数または編集距離が小さくなるようにし、類似用例を検索してもよい。この場合、差分同定部202および修正部204はそれぞれ、検索の基準に応じた方法で入力文と検索された用例との差分の同定、および検索された用例の修正を行なうことが望ましい。
In the above-described embodiment, the search unit 200 (see FIG. 8) searches for an example similar to the input sentence based on the number of words unlike the input sentence. However, the present invention is not limited to such an embodiment. The edit distance may be used as a reference for searching for an example similar to the input sentence. Also, in calculating the similarity based on the number of different words or the edit distance, the semantic distance obtained using the thesaurus is taken into account, and in calculating the number of different words or the edit distance, if the word is semantically close, the word Similar examples may be searched by reducing the number or editing distance. In this case, it is desirable that the
また、検索部200により検索される用例の数Nは、予め与えられた固定値であってもよいし、状況に応じて調節されるようにしてもよい。例えば、検索部200が入力文と完全に一致する原言語文を持つ用例の検索に成功した場合に、これに応答して用例の数を1にして、その段階で検索を打切るようにしてもよい。
The number N of examples searched by the
翻訳の方式は、上記した方式すなわち用例ベースに含まれる単語対応情報を用いて用例中の異なり単語を特定する方式に限らず、構文トランスファ方式(非特許文献2)を用いて入力文の構文木を目的言語の構文木にマッピングし、得られた木構造の葉に非終端記号が残る場合に、対訳辞書を参照して当該葉の訳語候補を求めるような方式を用いてもよい。その他、複数の出力文候補が出力可能な構成であれば、どのような方式の用例翻訳を用いてもよい。 The translation method is not limited to the above-described method, that is, the method of specifying different words in the example using the word correspondence information included in the example base, and the syntax tree of the input sentence using the syntax transfer method (Non-Patent Document 2). May be mapped to the syntax tree of the target language, and when a non-terminal symbol remains in the leaf of the obtained tree structure, a translation word candidate of the leaf may be obtained by referring to the bilingual dictionary. In addition, any type of example translation may be used as long as a plurality of output sentence candidates can be output.
上記した実施の形態では、言語モデル102は、単語バイグラムモデルであり、言語モデル確率算出部220は、単語バイグラムモデルを用いて言語モデル確率を算出した。しかし、本発明はこのような実施の形態に限定されるわけではなく、単語トライグラムモデル、品詞Nグラムモデル等のNグラムモデル、それらのモデルを組合せたもの、または統計翻訳において用いるその他の言語モデルを用いることも可能である。これらの言語モデルは、本実施の形態におけるように用例翻訳に用いる対訳コーパス100から作成されたものであってもよいし、別のコーパスから作成されたものであってもよい。
In the above-described embodiment, the
上記した実施の形態では、翻訳モデルは、Lexiconモデルであるが、本発明はこのような実施の形態に限定されるわけではない。その他の翻訳モデル、例えば、Fertiliry、NULL生成モデル、Distortionモデルと組合せた翻訳モデルを用いることも可能である。これらの言語モデルは、本実施の形態のように用例翻訳に用いる対訳コーパス100をもとに作成されたものであってもよいし、対訳コーパス100とは別のコーパスをもとに作成されたものであってもよい。
In the above-described embodiment, the translation model is a Lexicon model, but the present invention is not limited to such an embodiment. It is also possible to use other translation models, for example, a translation model combined with a Fertility, NULL generation model, and a distortion model. These language models may be created based on a
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 コンピュータシステム、40 コンピュータ、42 モニタ、44 プリンタ、46 キーボード、48 マウス、50 CD−ROMドライブ、52 FDドライブ、54 ハードディスク、56 CPU、58 ROM、60 RAM、62 CD−ROM、64 FD、66 バス、90 機械翻訳システム、100 対訳コーパス、102 言語モデル、104 翻訳モデル、106 用例ベース、108 対訳辞書、110 言語モデル作成装置、112 翻訳モデル作成装置、120 入力文、122 出力文、130 機械翻訳装置、132A,…,132M 出力文候補、140 用例翻訳部、150 統計的選択部、200 検索部、202 差分同定部、204 修正部、220 言語モデル確率算出部、222 翻訳モデル確率算出部、224 乗算部、226 選択部
30 computer system, 40 computer, 42 monitor, 44 printer, 46 keyboard, 48 mouse, 50 CD-ROM drive, 52 FD drive, 54 hard disk, 56 CPU, 58 ROM, 60 RAM, 62 CD-ROM, 64 FD, 66 Bus, 90 machine translation system, 100 bilingual corpus, 102 language model, 104 translation model, 106 example base, 108 bilingual dictionary, 110 language model creation device, 112 translation model creation device, 120 input sentence, 122 output sentence, 130 machine translation Device, 132A,..., 132M Output sentence candidate, 140 Example translation unit, 150 Statistical selection unit, 200 Search unit, 202 Difference identification unit, 204 Correction unit, 220 Language model probability calculation unit, 222 Translation model
Claims (13)
前記第1の言語の入力文を受けて、前記用例ベースを参照して、前記入力文に対する前記第2の言語の翻訳文の複数の候補を生成するための用例翻訳手段と、
前記用例翻訳手段の生成する前記複数の候補のうち、所定の確率統計モデルを用いて算出される確率スコアが所定の条件を充足するものを選択して出力するための統計的選択手段とを含む、機械翻訳装置。 A predetermined example base including a plurality of examples of pairs of sentences in a first language and sentences in a second language;
Example translation means for receiving an input sentence in the first language and generating a plurality of translation sentence candidates in the second language for the input sentence with reference to the example base;
Statistical selection means for selecting and outputting a candidate whose probability score calculated using a predetermined probability statistical model satisfies a predetermined condition among the plurality of candidates generated by the example translation means Machine translation device.
前記入力文を受け、前記入力文と所定の類似条件を充足する前記第1の言語の文を有する用例を前記用例ベース中で検索し、検索された第1の言語の文をそれぞれ含む複数の用例を抽出するための検索手段と、
前記複数の用例の前記第2の言語の文をそれぞれ修正し、前記複数の用例の各々から、前記入力文に対する翻訳文の候補を生成するための修正手段とを含む、請求項1に記載の機械翻訳装置。 The example translation means includes:
Receiving the input sentence, the example having the sentence in the first language satisfying a predetermined similarity condition with the input sentence is searched in the example base, and a plurality of sentences each including the searched first language sentence Search means for extracting examples;
The correction means for correcting each sentence of the second language of the plurality of examples and generating a translation sentence candidate for the input sentence from each of the plurality of examples. Machine translation device.
前記修正手段は、
前記入力文と前記複数の用例の各々の前記第1の言語の文とを比較し、前記複数の用例の各々について、前記入力文との差分を同定するための差分同定手段と、
前記複数の用例の前記第2の言語の文を、前記差分同定手段により同定された差分に基づいて前記対訳辞書を参照してそれぞれ修正し、前記複数の用例の各々から、前記入力文に対する翻訳文の候補を生成するための候補生成手段とを含む、請求項3に記載の機械翻訳装置。 A bilingual dictionary between the first language and the second language;
The correcting means is
A difference identifying means for comparing the input sentence with the sentence in the first language of each of the plurality of examples, and identifying a difference from the input sentence for each of the plurality of examples;
The sentence of the second language of the plurality of examples is corrected by referring to the bilingual dictionary based on the difference identified by the difference identification unit, and the translation of the input sentence from each of the plurality of examples The machine translation apparatus according to claim 3, further comprising candidate generation means for generating sentence candidates.
前記候補生成手段は、前記複数の用例の各々の前記第2の言語の文を、前記差分同定手段により同定された差分に基づいて前記対訳辞書を参照して得られた1または複数個の前記第2の言語の単語を用いてそれぞれ修正することにより、前記入力文に対する1または複数の翻訳文の候補を生成するための手段を含む、請求項4に記載の機械翻訳装置。 The bilingual dictionary may include a plurality of words in the second language as translations for one word in the first language,
The candidate generating means is configured to obtain one or a plurality of the sentence in the second language of each of the plurality of examples by referring to the bilingual dictionary based on the difference identified by the difference identifying means. The machine translation apparatus according to claim 4, comprising means for generating one or a plurality of translation sentence candidates for the input sentence by correcting each word using a second language word.
前記出力するための手段は、
前記複数の候補の各々に対し、前記言語記憶手段に記憶された前記言語モデルを用いて言語確率を算出するための言語確率算出手段と、
前記言語確率算出手段により算出された前記言語確率が最も高い候補を選択して出力するための手段とを含む、請求項9に記載の機械翻訳装置。 And further comprising language model storage means for storing a language model of the second language,
The means for outputting is:
Language probability calculating means for calculating a language probability using the language model stored in the language storage means for each of the plurality of candidates;
The machine translation apparatus according to claim 9, further comprising: means for selecting and outputting a candidate having the highest language probability calculated by the language probability calculation means.
前記出力するための手段は、
前記複数の候補の各々に対し、前記翻訳モデル記憶手段に記憶された前記翻訳モデルを用いて翻訳確率を算出するための翻訳確率算出手段と、
前記翻訳確率算出手段により算出された翻訳確率が最も高い候補を選択して出力するための手段とを含む、請求項9に記載の機械翻訳装置。 A translation model storage unit for storing a translation model from the second language to the first language;
The means for outputting is:
For each of the plurality of candidates, a translation probability calculation means for calculating a translation probability using the translation model stored in the translation model storage means;
The machine translation apparatus according to claim 9, further comprising: means for selecting and outputting a candidate having the highest translation probability calculated by the translation probability calculation means.
前記第2の言語から前記第1の言語への翻訳モデルを記憶するための翻訳モデル記憶手段とを含み、
前記出力するための手段は、
前記複数の候補の各々に対し、前記言語記憶手段に記憶された前記言語モデルを用いて言語確率を算出するための言語確率算出手段と、
前記複数の候補の各々に対し、前記翻訳モデル記憶手段に記憶された前記翻訳モデルを用いて翻訳確率を算出するための翻訳確率算出手段と、
前記言語確率算出手段が算出する言語確率と、前記翻訳確率算出手段が算出する翻訳確率との関数として所定の確率スコアを算出するためのスコア算出手段と、
前記スコア算出手段により算出された前記確率スコアが最も高い候補を選択して出力するための手段とを含む、請求項9に記載の機械翻訳装置。 A language model storage means for storing a language model of the second language;
Translation model storage means for storing a translation model from the second language to the first language;
The means for outputting is:
Language probability calculating means for calculating a language probability using the language model stored in the language storage means for each of the plurality of candidates;
For each of the plurality of candidates, a translation probability calculation means for calculating a translation probability using the translation model stored in the translation model storage means;
Score calculating means for calculating a predetermined probability score as a function of the language probability calculated by the language probability calculating means and the translation probability calculated by the translation probability calculating means;
The machine translation apparatus according to claim 9, further comprising: means for selecting and outputting a candidate having the highest probability score calculated by the score calculation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004203382A JP2006024114A (en) | 2004-07-09 | 2004-07-09 | Mechanical translation device and mechanical translation computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004203382A JP2006024114A (en) | 2004-07-09 | 2004-07-09 | Mechanical translation device and mechanical translation computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006024114A true JP2006024114A (en) | 2006-01-26 |
Family
ID=35797326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004203382A Pending JP2006024114A (en) | 2004-07-09 | 2004-07-09 | Mechanical translation device and mechanical translation computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006024114A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157888A (en) * | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | Transliteration model generation device, transliteration apparatus, and computer program therefor |
WO2009139240A1 (en) * | 2008-05-13 | 2009-11-19 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
CN102681984A (en) * | 2010-12-17 | 2012-09-19 | 谷歌公司 | Combining model-based aligner using dual decomposition |
JP2017503282A (en) * | 2013-10-28 | 2017-01-26 | 自立 余 | Natural expression processing method, processing and response method, apparatus, and system |
JP2018173846A (en) * | 2017-03-31 | 2018-11-08 | 株式会社Kddi総合研究所 | Language processing device, program and method for selecting language model in accordance with user attribute |
-
2004
- 2004-07-09 JP JP2004203382A patent/JP2006024114A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157888A (en) * | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | Transliteration model generation device, transliteration apparatus, and computer program therefor |
WO2009139240A1 (en) * | 2008-05-13 | 2009-11-19 | 日本電気株式会社 | Information processing device, information processing method, and recording medium |
CN102681984A (en) * | 2010-12-17 | 2012-09-19 | 谷歌公司 | Combining model-based aligner using dual decomposition |
JP2017503282A (en) * | 2013-10-28 | 2017-01-26 | 自立 余 | Natural expression processing method, processing and response method, apparatus, and system |
US9753914B2 (en) | 2013-10-28 | 2017-09-05 | Zili Yu | Natural expression processing method, processing and response method, device, and system |
US9760565B2 (en) | 2013-10-28 | 2017-09-12 | Zili Yu | Natural expression processing method, processing and response method, device, and system |
JP2018173846A (en) * | 2017-03-31 | 2018-11-08 | 株式会社Kddi総合研究所 | Language processing device, program and method for selecting language model in accordance with user attribute |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4694121B2 (en) | Statistical method and apparatus for learning translation relationships between phrases | |
JP4993762B2 (en) | Example-based machine translation system | |
JP2745370B2 (en) | Machine translation method and machine translation device | |
US9176936B2 (en) | Transliteration pair matching | |
JP2007141133A (en) | Device, method and program of example translation | |
JP2005100335A (en) | Machine translation apparatus, machine translation computer program, and computer | |
JP4319860B2 (en) | Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system | |
JP2005100335A6 (en) | Machine translation apparatus, machine translation computer program, and computer | |
JP2006012168A (en) | Method for improving coverage and quality in translation memory system | |
KR101544690B1 (en) | Word division device, word division method, and word division program | |
JP2004062726A (en) | Translation device, translation method, program and recording medium | |
Alqudsi et al. | A hybrid rules and statistical method for Arabic to English machine translation | |
KR20230009564A (en) | Learning data correction method and apparatus thereof using ensemble score | |
JP2007156545A (en) | Symbol string conversion method, word translation method, its device, its program and recording medium | |
KR101709693B1 (en) | Method for Web toon Language Automatic Translating Using Crowd Sourcing | |
JP2006338261A (en) | Translation device, translation method and translation program | |
JP2006024114A (en) | Mechanical translation device and mechanical translation computer program | |
JP4113204B2 (en) | Machine translation apparatus, method and program thereof | |
Núñez et al. | Phonetic normalization for machine translation of user generated content | |
JP5302784B2 (en) | Machine translation method and system | |
JP2006127405A (en) | Method for carrying out alignment of bilingual parallel text and executable program in computer | |
JP5039114B2 (en) | Machine translation apparatus and program | |
JP2004280467A (en) | Translation device, translation method, and its program | |
Gdaniec et al. | Derivational morphology to the rescue: how it can help resolve unfound words in MT | |
WO2024004183A1 (en) | Extraction device, generation device, extraction method, generation method, and program |