JP2007018462A - Machine translation device and program - Google Patents
Machine translation device and program Download PDFInfo
- Publication number
- JP2007018462A JP2007018462A JP2005202350A JP2005202350A JP2007018462A JP 2007018462 A JP2007018462 A JP 2007018462A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2007018462 A JP2007018462 A JP 2007018462A
- Authority
- JP
- Japan
- Prior art keywords
- tree structure
- language
- probability
- information
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、受け付けた文章を他言語に翻訳する機械翻訳装置等に関するものである。 The present invention relates to a machine translation device that translates received text into another language.
従来の第一の機械翻訳装置において、「Phrase−based SMT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献1参照)。「Phrase−based SMT」とは、句に基づく統計翻訳であり、複数単語(句)を単位に翻訳を行う。 The conventional first machine translation apparatus employs a translation algorithm called “Phrase-based SMT” (see, for example, Non-Patent Document 1). “Phrase-based SMT” is a statistical translation based on a phrase, and translation is performed in units of a plurality of words (phrases).
従来の第二の機械翻訳装置において、「構文トランスファ方式MT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献2参照)。構文トランスファ方式の機械翻訳では、入力文を構文解析し、得られた構文木を出力の構文木に変換することにより翻訳を行う。 The conventional second machine translation apparatus employs a translation algorithm called “syntax transfer system MT” (for example, see Non-Patent Document 2). In the machine transfer of the syntax transfer method, an input sentence is parsed, and translation is performed by converting the obtained syntax tree into an output syntax tree.
さらに、従来の第三の技術として、本機械翻訳装置で利用され得る翻訳モデルの自動取得の技術がある。かかる翻訳モデル(原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルの総称)に含まれる規則は、階層的句アライメント方法(非特許文献3参照)等を用いると、コーパスから自動的に抽出することができる。また、これらモデルの確率は、コーパス中に規則が使われた頻度をカウントし、その相対頻度を計算するなどの処理により、算出することができる。かかる第三の技術により、原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルが自動的に取得でき得る。
しかしながら、従来の第一の機械翻訳装置においては、句の順序を調整しなければ正しい翻訳文とはならない。本機械翻訳装置の翻訳方法では、句の順序調整を平坦な構造上で行い、言語モデルで検証していた。そのため、構文的に誤った翻訳文を出力することがある、という課題があった。
また、従来の第二の機械翻訳装置においては、入力の解析結果として、複数の構造が得られた時、単語の意味距離等を用いて曖昧性解消を行っていた。そのため、シソーラスを必要とする、という課題があった。
However, in the conventional first machine translation apparatus, the translated sentence is not correct unless the phrase order is adjusted. In the translation method of this machine translation apparatus, the order of phrases is adjusted on a flat structure and verified by a language model. For this reason, there is a problem that a syntactically incorrect translation may be output.
In the second conventional machine translation apparatus, when a plurality of structures are obtained as input analysis results, the ambiguity is resolved using the semantic distance of words. For this reason, there is a problem that a thesaurus is required.
本第一の発明の機械翻訳装置は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している原言語木構造モデル格納部と、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している目的言語木構造モデル格納部と、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、第一言語の文章を受け付ける受付部と、前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算部と、前記木構造マッピング確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the first aspect of the invention is information relating to the tree structure of the first language, which is the language of the original sentence to be translated, and a long unit phrase consisting of a plurality of words and not including a non-terminal symbol is regarded as one node. Source language having at least one source language tree structure record having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information. This is information about the source language tree structure model storage section that stores the tree structure model and the tree structure of the second language that is the language of the sentence of the translation result. One target language tree structure record including target language tree structure information including information on a tree structure as one node and a target language tree structure probability which is information indicating a probability of a tree structure corresponding to the target language tree structure information. Purpose of having A target language tree structure model storage unit that stores a word tree structure model, mapping information that is information indicating correspondence between source language tree structure information and target language tree structure information, and a correspondence probability indicated by the mapping information. A tree structure mapping model storage unit storing a tree structure mapping model having one or more tree structure mapping records having a mapping probability which is information indicating, and a word appearance probability which is information on the probability of word appearance in the second language A language model storage unit that stores one or more language models, a reception unit that receives a sentence in a first language, a sentence that is received by the reception unit, and a partial or entire tree structure of the sentence An input sentence syntax analysis unit that sequentially obtains tree structure information as information, and one or more source language trees corresponding to the tree structure information obtained by the input sentence syntax analysis unit And the one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit are acquired from the source language tree structure model storage unit. One or more target language tree structure probabilities obtained from the storage unit and corresponding to each of the one or more target language tree structure information are acquired from the target language tree structure model storage unit, and the acquired target language tree structure information is included in the acquired target language tree structure information. On the basis of one or more word appearance probabilities of two or more words constituting the target language tree structure information from the language model storage unit, the acquired source language tree structure probability, the acquired mapping probability, A tree structure mapping probability calculation unit for calculating an evaluation value of an output syntax tree based on the acquired target language tree structure probability and the acquired word appearance probability; and the tree structure mapping Based on the evaluation value calculated by the probability calculation unit, a part or all of the syntax tree of the second language to be output is determined, and an output that is a sentence of all or part of the second language based on the determined syntax tree A machine translation apparatus comprising: a maximum likelihood sequence search unit that acquires information; and an output unit that outputs a second language sentence having one or more pieces of output information acquired by the maximum likelihood sequence search unit.
With this configuration, high-quality and high-speed translation becomes possible.
また、本第二の発明の機械翻訳装置は、第一の発明に対して、前記木構造マッピング確率計算部は、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得手段と、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
Further, in the machine translation device of the second invention, in contrast to the first invention, the tree structure mapping probability calculation unit includes one or more source languages corresponding to the tree structure information obtained by the input sentence syntax analysis unit. Source language tree structure probability acquisition means for acquiring a tree structure probability from the source language tree structure model storage unit, one or more target language tree structure information corresponding to the tree structure information obtained by the input sentence syntax analysis unit, and one or more Mapping probability acquisition means for acquiring the mapping probabilities from the tree structure mapping model storage unit, and one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information stored in the target language tree structure model Based on the acquired target language tree structure probability acquisition means and the acquired target language tree structure information, the one or more word appearance probabilities of two or more words constituting the target language tree structure information Based on the word appearance probability acquisition means acquired from the model storage unit, the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability, an evaluation value of the output syntax tree is calculated. It is a machine translation apparatus provided with an evaluation value calculation means.
With this configuration, high-quality and high-speed translation becomes possible.
また、本第三の発明の機械翻訳装置は、第一、第二の発明に対して、前記木構造マッピング確率計算部が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成するマージ部をさらに具備し、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
また、本第四の発明の機械翻訳装置は、第二、第三の発明に対して、前記評価値算出手段は、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the third aspect of the present invention provides two or more evaluation values calculated by the tree structure mapping probability calculation unit and an output syntax tree corresponding to the evaluation values, relative to the first and second aspects of the invention. A merge unit that combines evaluation values corresponding to the same syntax tree, and the maximum likelihood sequence search unit is obtained by combining the evaluation value calculated by the tree structure mapping probability calculation unit and the merge unit. A machine that determines part or all of the syntax tree of the second language to be output based on the evaluated value and acquires output information that is a sentence of all or part of the second language based on the determined syntax tree It is a translation device.
With this configuration, high-quality and high-speed translation becomes possible.
Further, in the machine translation device of the fourth invention, in contrast to the second and third inventions, the evaluation value calculation means includes the source language tree structure probability, the mapping probability, the target language tree structure probability, This is a machine translation device that calculates a product of word appearance probabilities and uses the product as an evaluation value of an output syntax tree.
With this configuration, high-quality and high-speed translation becomes possible.
また、本第五の発明の機械翻訳装置は、第一から第四いずれかの発明に対して、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the fifth aspect of the present invention provides the maximum likelihood sequence search unit according to any of the first to fourth aspects, wherein the maximum likelihood sequence search unit has a maximum evaluation value calculated by the tree structure mapping probability calculation unit. This is a machine translation device that determines a tree as a syntax tree to be output, and obtains output information that is a sentence of all or part of the second language based on the determined syntax tree.
With this configuration, high-quality and high-speed translation becomes possible.
本発明による機械翻訳装置によれば、高品質かつ高速な翻訳が可能となる。 The machine translation apparatus according to the present invention enables high-quality and high-speed translation.
以下、機械翻訳装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における機械翻訳装置のブロック図である。
Hereinafter, embodiments of a machine translation apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
FIG. 1 is a block diagram of a machine translation apparatus according to the present embodiment.
機械翻訳装置は、原言語木構造モデル格納部11、目的言語木構造モデル格納部12、木構造マッピングモデル格納部13、言語モデル格納部14、受付部15、入力文構文解析部16、木構造マッピング確率計算部17、マージ部18、最尤列探索部19、出力部20を具備する。また、機械翻訳装置は、入力手段として、例えば、キーボード302、マウス303を具備する。さらに、機械翻訳装置は、出力手段として、例えば、ディスプレイ304を具備する。
木構造マッピング確率計算部17は、原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175を具備する。
The machine translation apparatus includes a source language tree structure
The tree structure mapping probability calculation unit 17 includes source language tree structure probability acquisition means 171, mapping probability acquisition means 172, target language tree structure probability acquisition means 173, word appearance probability acquisition means 174, and evaluation value calculation means 175.
原言語木構造モデル格納部11は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している。なお、非終端記号とは、構文ラベル付き変数である。終端記号とは、単語そのものである。また、原言語木構造情報は、以下の複数の種類がある。例えば、原言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である原言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である原言語単語単位木構造情報などがある。また、原言語木構造確率とは、原言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。原言語木構造モデルのデータ構造は問わない。原言語木構造モデルの例は、後述する。原言語木構造モデル格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The source language tree structure
目的言語木構造モデル格納部12は、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している。目的言語木構造情報は、以下の複数の種類がある。例えば、目的言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である目的言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である目的言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である目的言語単語単位木構造情報などがある。また、目的言語木構造確率とは、目的言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。目的言語木構造モデルのデータ構造は問わない。目的言語木構造モデルの例は、後述する。目的言語木構造モデル格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The target language tree structure
木構造マッピングモデル格納部13は、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している。ここでは、マッピング確率とは、原言語木構造情報と目的言語木構造情報が対応する確率を示す情報である。木構造マッピングモデルのデータ構造は問わない。木構造マッピングモデルの例は、後述する。木構造マッピングモデル格納部13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The tree structure mapping
言語モデル格納部14は、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している。単語出現確率は、例えば、第二言語の、2以上の単語の連続した出現に関する確率の情報である。単語出現確率は、例えば、第二言語の第一の単語と、第二の単語と、第一の単語の次に第二の単語が出現する確率を示す情報である。言語モデルは、例えば、第一の単語と、第二の単語と、単語出現確率を有するレコードを1以上有する。言語モデル格納部14は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The language
受付部15は、第一言語の文章を受け付ける。文章の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部15は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The accepting
入力文構文解析部16は、受付部15が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る。入力文構文解析部16は、通常、原言語木構造モデル格納部11の原言語木構造モデルを用いて、文章を構文解析する。ただし、入力文構文解析部16は、原言語木構造モデルを用いることが好適であるが、他の木構造モデルを用いて、文章を構文解析しても良いし、他の手段により文章を構文解析しても良い。なお、文章を構文解析し、木構造情報を、順次得る処理は公知技術における処理であるので、詳細な説明は省略する。入力文構文解析部16は、通常、MPUやメモリ等から実現され得る。入力文構文解析部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The input sentence
木構造マッピング確率計算部17は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得し、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得し、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得し、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得し、取得した原言語木構造確率、取得したマッピング確率、取得した目的言語木構造確率、および取得した単語出現確率に基づいて、出力の構文木の評価値を算出する。木構造マッピング確率計算部17は、通常、MPUやメモリ等から実現され得る。木構造マッピング確率計算部17の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
原言語木構造確率取得手段171は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得する。
マッピング確率取得手段172は、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得する。
The tree structure mapping probability calculation unit 17 obtains one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence
The source language tree structure probability acquisition unit 171 acquires one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence
The mapping probability acquisition unit 172 acquires one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence
目的言語木構造確率取得手段173は、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得する。ここでの1以上の目的言語木構造情報は、マッピング確率取得手段172が取得した目的言語木構造情報である。
The target language tree structure
単語出現確率取得手段174は、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得する。単語出現確率取得手段174は、例えば、後述する単語bigramモデルの確率を取得しても良い。
Based on the acquired target language tree structure information, the word appearance probability acquisition unit 174 acquires one or more word appearance probabilities of two or more words constituting the target language tree structure information from the language
評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率、および単語出現確率に基づいて、出力の構文木の評価値を算出する。評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出し、かつ、1以上の単語出現確率の積で言語モデル確率を算出し、かつ当該翻訳モデル確率と言語モデル確率に基づいて評価値を算出することは好適である。さらに、評価値算出手段175は、翻訳モデル確率と言語モデル確率の積により評価値を算出することは好適である。 The evaluation value calculation means 175 calculates an evaluation value of the output syntax tree based on the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability. The evaluation value calculation means 175 calculates a translation model probability by a product of the source language tree structure probability, mapping probability, and target language tree structure probability, calculates a language model probability by a product of one or more word appearance probabilities, and It is preferable to calculate the evaluation value based on the translation model probability and the language model probability. Furthermore, it is preferable that the evaluation value calculation means 175 calculates the evaluation value by the product of the translation model probability and the language model probability.
原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175は、通常、MPUやメモリ等から実現され得る。原言語木構造確率取得手段171等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
マージ部18は、木構造マッピング確率計算部17が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成する。合成とは、例えば、2以上の評価値の和を算出することである。また、合成とは、例えば、一の出力の構文木に対応する2以上の評価値を、一の評価値としてグループ化(リンク付けなど)することである。具体的には、マージ部18は、例えば、得られた出力の構文木の木構造情報(例えば、単語列リスト)をキーとして、バッファ(例えば、出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。なお、かかるバッファには、木構造マッピング確率計算部17が得た、出力の木構造情報(単語列リスト)と評価値(例えば、確率)が格納されている。そして、マージ部18は、バッファ中に、得られた木構造情報(例えば、単語列リスト)が存在するか否かを判断する。そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在すると判断した場合、得られた木構造情報(例えば、単語列リスト)に対応する評価値(例えば、確率)として、得られた評価値(例えば、確率)を追記する。なお、一の単語リストに対応する評価値(例えば、確率)が2以上存在する場合、翻訳モデル確率(評価値)の和が、当該単語リストの翻訳確率(評価値)となる。そして、例えば、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率(評価値)となる。そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在しないと判断した場合、得られた木構造情報(例えば、単語列リスト)、および得られた評価値(例えば、確率)を対にして登録する。マージ部18は、通常、MPUやメモリ等から実現され得る。マージ部18の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The source language tree structure probability acquisition unit 171, the mapping probability acquisition unit 172, the target language tree structure
The
最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する。最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値が最大の構文木を出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。最尤列探索部19は、通常、MPUやメモリ等から実現され得る。最尤列探索部19の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The maximum likelihood
出力部20は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音声合成による出力、外部の装置への送信等を含む概念である。出力部20は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部20は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
なお、第一言語、第二言語は、日本語、英語、中国語、韓国語等何でも良い。ただし、第一言語と第二言語は異なる言語である。
次に、機械翻訳装置の動作について図2から図5のフローチャートを用いて説明する。
(ステップS201)受付部15は、第一言語の文章を受け付けたか否かを判断する。文章を受け付ければステップS202に行き、文章を受け付けなければステップS201に戻る。
The
The first language and the second language may be anything such as Japanese, English, Chinese, Korean. However, the first language and the second language are different languages.
Next, the operation of the machine translation apparatus will be described with reference to the flowcharts of FIGS.
(Step S201) The
(ステップS202)入力文構文解析部16は、原言語木構造モデル格納部11の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、ステップS201で受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を得る。なお、本ステップにおける文章の構文解析処理は、先に読み込んだ単語を次々に用いて、ボトムアップに大きな構文木を構成するような処理である。
(Step S202) The input sentence
(ステップS203)木構造マッピング確率計算部17は、ステップS202において新たな部分木(新たな木構造情報)が取得できたか否かを判断する。新たな部分木が取得できればステップS204に行き、新たな部分木が取得できなければステップS205に行く。 (Step S203) The tree structure mapping probability calculation unit 17 determines whether or not a new subtree (new tree structure information) has been acquired in Step S202. If a new subtree can be acquired, the process goes to step S204. If a new subtree cannot be acquired, the process goes to step S205.
(ステップS204)木構造マッピング確率計算部17は、評価処理を行う。評価処理とは、出力の構文木の評価値を算出する処理である。出力の構文木の評価値は、出力情報(翻訳された文章)が出力される確率を示す情報である。ステップS202に戻る。なお、ステップS202に戻った際には、ステップS202において、直前に作成した部分木を構成する前の単語をも取得して、ボトムアップにより大きな構文木を構成するように処理される。評価処理の詳細について、図3のフローチャートを用いて説明する。 (Step S204) The tree structure mapping probability calculation unit 17 performs an evaluation process. The evaluation process is a process for calculating an evaluation value of the output syntax tree. The evaluation value of the output syntax tree is information indicating the probability that output information (translated text) will be output. The process returns to step S202. When the process returns to step S202, in step S202, the previous word constituting the subtree created immediately before is also acquired, and processing is performed so as to form a large syntax tree by bottom-up. Details of the evaluation process will be described with reference to the flowchart of FIG.
(ステップS205)最尤列探索部19は、文章の最後尾か否かを判断する。最後尾であればステップS206に行き、最後尾でなければステップS210に行く。なお、ステップS205における判断が最後尾でないとの判断の場合、本文章は、2以上の部分木を有することとなる。
(Step S205) The maximum likelihood
(ステップS206)最尤列探索部19は、上述の構文解析の処理、および評価処理において、バッファ上に登録された複数の翻訳候補(第二言語の1以上の構文木の集合)から、部分木(構文木)の数が最少となる部分木列を取得する。
(Step S206) The maximum likelihood
(ステップS207)最尤列探索部19は、各部分木の出力単語リストから、確率の和が最大となる単語列を決定する。その際、同一の出力単語リストが2以上存在する場合には、当該出力単語リストに対応する確率の和を算出し、確率の和が最大となる単語列を決定する際に、当該確率の和を比較対象とする。
(ステップS208)最尤列探索部19は、ステップS206で決定した1以上の部分木の単語列を連結する。
(Step S207) The maximum likelihood
(Step S208) The maximum likelihood
(ステップS209)出力部20は、ステップS208で連結された単語列を出力する。なお、かかる単語列は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章(翻訳結果)である。処理を終了する。
(ステップS210)最尤列探索部19は、次の単語にスキップする。次の単語へのスキップとは、構文解析を行う単語のポインタをずらす処理である。ステップS202に戻る。
次に、ステップS204の評価処理について、図3のフローチャートを用いて詳細に説明する。
(Step S209) The
(Step S210) The maximum likelihood
Next, the evaluation process in step S204 will be described in detail using the flowchart in FIG.
(ステップS301)木構造マッピング確率計算部17は、構築した部分木の最上位ノードの規則θfに対応するすべての目的言語木構造モデルの規則θeを、目的言語木構造モデル格納部12から取得する。つまり、ここでは、1以上の(θf,θe)の組が取得される。なお、規則とは、原言語木構造情報、目的言語木構造情報等である。
(ステップS302)木構造マッピング確率計算部17は、カウンタiに1を代入する。
(Step S301) The tree structure mapping probability calculation unit 17 obtains the rule θ e of all target language tree structure models corresponding to the rule θ f of the highest node of the constructed subtree from the target language tree structure
(Step S302) The tree structure mapping probability calculation unit 17
(ステップS303)木構造マッピング確率計算部17は、i番目の(θf,θe)の組が存在するか否かを判断する。i番目の(θf,θe)の組が存在すればステップS304に行き、存在しなければ上位関数にリターンする。 (Step S303) The tree structure mapping probability calculation unit 17 determines whether or not the i-th (θ f , θ e ) pair exists. If the i-th (θ f , θ e ) pair exists, the process goes to step S304, and if not, the process returns to the upper function.
(ステップS304)木構造マッピング確率計算部17は、i番目の(θf,θe)の組のθeを用いて、出力の部分木(目的言語木構造情報)を構築する。木構造マッピング確率計算部17は、以下のように出力の部分木を構築する。つまり、入力文構文解析部16により入力文をボトムアップに構文解析しているので、入力構文木におけるθfの子ノードの非終端記号は既にわかっている。すると、θeの子ノードの非終端記号についても、出力構文木(と出力単語列リスト)は既にわかっていることになる。θeの子ノードの出力構文木を、θeの非終端記号に埋め込む際、子ノードの出力構文木の最上位の構文ラベルと、非終端記号の構文ラベルを比較し、θeのすべての子ノード非終端記号について一致している場合だけ埋め込んで、θeの親ノードをトップとする出力構文木を、木構造マッピング確率計算部17は生成する。
(ステップS305)木構造マッピング確率計算部17は、ステップS304において、出力の部分木が構築できたか否かを判断する。
(ステップS306)木構造マッピング確率計算部17は、構築できた部分木を単語列リストに展開する。
(ステップS307)木構造マッピング確率計算部17は、当該部分木の翻訳モデル確率を算出する。翻訳モデル確率を算出する処理については、図4のフローチャートを用いて、詳細に説明する。
(ステップS308)木構造マッピング確率計算部17は、当該部分木の言語モデル確率を算出する。言語モデル確率を算出する処理については、図5のフローチャートを用いて、詳細に説明する。
(Step S304) The tree structure mapping probability calculation unit 17 constructs an output subtree (target language tree structure information) using θ e of the i-th (θ f , θ e ) pair. The tree structure mapping probability calculation unit 17 constructs an output subtree as follows. That is, since the input sentence is analyzed bottom-up by the input sentence
(Step S305) The tree structure mapping probability calculation unit 17 determines whether or not an output subtree has been constructed in step S304.
(Step S306) The tree structure mapping probability calculation unit 17 expands the constructed subtree into a word string list.
(Step S307) The tree structure mapping probability calculation unit 17 calculates the translation model probability of the subtree. The process of calculating the translation model probability will be described in detail with reference to the flowchart of FIG.
(Step S308) The tree structure mapping probability calculation unit 17 calculates a language model probability of the subtree. The process of calculating the language model probability will be described in detail with reference to the flowchart of FIG.
(ステップS309)木構造マッピング確率計算部17は、ステップS307で算出した翻訳モデル確率と、ステップS308で算出した言語モデル確率を用いて、出力単語列の確率を算出する。通常、木構造マッピング確率計算部17は、「翻訳モデル確率×言語モデル確率」により、出力単語列の確率を算出する。出力単語列の確率とは、入力単語列が出力単語列に翻訳される確率である。
(ステップS310)マージ部18は、ステップS306で得られた単語列リストをキーとして、バッファ(出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。
(Step S309) The tree structure mapping probability calculation unit 17 calculates the probability of the output word string using the translation model probability calculated in step S307 and the language model probability calculated in step S308. Normally, the tree structure mapping probability calculation unit 17 calculates the probability of the output word string by “translation model probability × language model probability”. The probability of the output word string is the probability that the input word string is translated into the output word string.
(Step S310) The
(ステップS311)マージ部18は、バッファ中に、ステップS306で得られた単語列リストが存在するか否かを判断する。単語列リストが存在すればステップS312に行き、単語列リストが存在しなければステップS313に行く。
(Step S311) The
(ステップS312)マージ部18は、ステップS306で得られた単語列リストに対応する確率として、ステップS309で得られた確率を追記する。ステップS314に行く。なお、一の単語リストに対応する確率が2以上存在する場合、翻訳モデル確率の和が、当該単語リストの翻訳確率となる。そして、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率となる。
(ステップS313)マージ部18は、ステップS306で得られた単語列リスト、およびステップS309で得られた確率を対にして登録する。
(ステップS314)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。ステップS303に戻る。
次に、ステップS307の翻訳モデル確率を算出する処理について、図4のフローチャートを用いて、詳細に説明する。
(ステップS401)原言語木構造確率取得手段171は、原言語の木構造を用いて、原言語木構造確率を、原言語木構造モデル格納部11から取得する。
(Step S312) The
(Step S313) The merging
(Step S314) The tree structure mapping probability calculation unit 17 increments the counter i by one. The process returns to step S303.
Next, the process of calculating the translation model probability in step S307 will be described in detail using the flowchart of FIG.
(Step S401) The source language tree structure probability acquisition unit 171 uses the source language tree structure to acquire the source language tree structure probability from the source language tree structure
(ステップS402)マッピング確率取得手段172は、原言語の木構造(原言語木構造情報)、および出力の部分木(目的言語木構造情報)を用いて、マッピング確率を木構造マッピングモデル格納部13から取得する。
(ステップS403)目的言語木構造確率取得手段173は、出力の部分木を用いて、目的言語木構造確率を目的言語木構造モデル格納部12から取得する。
(Step S402) The mapping probability acquisition means 172 uses the source language tree structure (source language tree structure information) and the output subtree (target language tree structure information) to determine the mapping probability to the tree structure mapping
(Step S403) The target language tree structure
(ステップS404)評価値算出手段175は、原言語木構造確率、マッピング確率、および目的言語木構造確率に基づいて、出力の構文木の翻訳モデル確率を算出する。評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出することは好適である。上位関数にリターンする。
なお、図4のフローチャートにおいて、原言語木構造確率、マッピング確率、目的言語木構造確率を取得する順序は問わないことは言うまでもない。
(Step S404) The evaluation value calculation means 175 calculates a translation model probability of the output syntax tree based on the source language tree structure probability, the mapping probability, and the target language tree structure probability. The evaluation value calculation means 175 preferably calculates the translation model probability by the product of the source language tree structure probability, the mapping probability, and the target language tree structure probability. Return to upper function.
In the flowchart of FIG. 4, it goes without saying that the order of acquiring the source language tree structure probability, the mapping probability, and the target language tree structure probability does not matter.
次に、ステップS308の言語モデル確率を算出する処理について、図5のフローチャートを用いて、詳細に説明する。本フローチャートにおいて算出する言語モデル確率の言語モデルは、単語bigramモデルである。
(ステップS501)木構造マッピング確率計算部17は、カウンタiに1を代入する。
(ステップS502)木構造マッピング確率計算部17は、i番目の単語が存在するか否かを判断する。i番目の単語が存在すればステップS503に行き、i番目の単語が存在しなければステップS504に行く。
Next, the process of calculating the language model probability in step S308 will be described in detail using the flowchart of FIG. The language model of the language model probability calculated in this flowchart is a word bigram model.
(Step S501) The tree structure mapping probability calculation unit 17
(Step S502) The tree structure mapping probability calculation unit 17 determines whether or not the i-th word exists. If the i-th word exists, the process goes to step S503, and if the i-th word does not exist, the process goes to step S504.
(ステップS503)木構造マッピング確率計算部17は、(i−1)番目の単語、i番目の単語を取得する。なお、iが「1」の時は、木構造マッピング確率計算部17は、「<S>」および1番目の単語を取得する。「<S>」は、文の開始を示す記号の文開始記号である。ステップS505に行く。
(ステップS504)木構造マッピング確率計算部17は、(i−1)番目の単語、「</S>」を取得する。なお、「</S>」は、文の終了を示す記号の文終了記号である。
(Step S503) The tree structure mapping probability calculation unit 17 acquires the (i-1) th word and the i-th word. When i is “1”, the tree structure mapping probability calculation unit 17 acquires “<S>” and the first word. “<S>” is a sentence start symbol indicating a start of a sentence. Go to step S505.
(Step S504) The tree structure mapping probability calculation unit 17 acquires the (i-1) th word, “</ S>”. “</ S>” is a sentence end symbol indicating the end of the sentence.
(ステップS505)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」に対応する情報を、言語モデル格納部14から検索する。
(Step S505) The word appearance probability acquisition means 174 selects “<S>, i-th word”, “(i−1) -th word, i-th word” or “(i−1) -th word, < Information corresponding to “/ S>” is searched from the language
(ステップS506)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」が言語モデル格納部14に存在するか否かを判断する。言語モデル格納部14に存在すればステップS507に行き、存在しなければステップS508に行く。
(ステップS507)単語出現確率取得手段174は、対応する単語出現確率を、言語モデル格納部14から取得し、一時蓄積する。ステップS509に行く。
(ステップS508)単語出現確率取得手段174は、単語出現確率を予め決められた値とし、一時蓄積する。なお、予め決められた値は、単語出現確率取得手段174が保持している、とする。
(ステップS509)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。
(Step S506) The word appearance probability acquisition means 174 selects “<S>, i-th word”, “(i−1) -th word, i-th word” or “(i−1) -th word, < It is determined whether or not “/ S>” exists in the language
(Step S507) The word appearance probability acquisition unit 174 acquires the corresponding word appearance probability from the language
(Step S508) The word appearance probability acquisition means 174 temporarily stores the word appearance probability as a predetermined value. It is assumed that the predetermined value is held by the word appearance probability acquisition unit 174.
(Step S509) The tree structure mapping probability calculation unit 17 increments the counter i by 1.
(ステップS510)木構造マッピング確率計算部17は、ラストか否かを判断する。ラストであればステップS511に行き、ラストでなければステップS502に戻る。なお、ラストか否かは、「</S>」が出現したか否かにより判断され得る。
(ステップS511)木構造マッピング確率計算部17は、一時蓄積した1以上の単語出現確率の積を算出する。かかる1以上の単語出現確率の積が、言語モデル確率である。上位関数にリターンする。
(Step S510) The tree structure mapping probability calculation unit 17 determines whether it is the last. If it is the last, the process goes to step S511, and if it is not the last, the process returns to step S502. Whether or not it is the last can be determined by whether or not “</ S>” appears.
(Step S511) The tree structure mapping probability calculation unit 17 calculates a product of one or more temporarily stored word appearance probabilities. The product of the one or more word appearance probabilities is the language model probability. Return to upper function.
なお、図5のフローチャートにおいて、言語モデルは、単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデルなどの、他の言語モデルを用いても良い。他の言語モデルについては、公知技術であるので、詳細な説明は省略する。
上記のフローチャートで説明した機械翻訳装置の翻訳方法は、以下の翻訳方法である。
In the flowchart of FIG. 5, the word bigram model is used as the language model, but other language models such as the word trigram model and the part-of-speech trigram model may be used. Since other language models are well-known techniques, detailed description thereof is omitted.
The translation method of the machine translation apparatus described in the above flowchart is the following translation method.
つまり、本翻訳方法は、統計翻訳の一種である。統計翻訳は、入力の単語列fが与えられたとき、確率を最大化する出力の単語列eを、すべての可能な組み合わせ中から探索することにより、翻訳を行う方法である。探索結果は、以下の数式1により表わされる。数式1において「argmax」は、確率を最大化する出力の単語列を取得することを示す。確率を最大化する出力の単語列とは、翻訳結果の文章(第二言語の文章)である。
つまり、本具体例において、翻訳結果の文章を取得することは、言語モデル確率と翻訳モデル確率の積が最大の単語列を取得することである。
以下、翻訳モデル確率の算出方法について、数式を用いて説明する。
That is, this translation method is a kind of statistical translation. Statistical translation is a method of performing translation by searching an output word string e that maximizes a probability from all possible combinations when an input word string f is given. The search result is expressed by the following
That is, in this specific example, acquiring the translation result sentence means acquiring the word string having the maximum product of the language model probability and the translation model probability.
Hereinafter, a method for calculating the translation model probability will be described using mathematical expressions.
構文トランスファ方式の統計翻訳は、翻訳モデル中に隠れ変数として原言語・目的言語の構文木(それぞれF、Eと示し、単語列f,eを生成する)を仮定し、木構造同士のマッピングを行うことにより、翻訳文を生成する。
本機械翻訳措置において、翻訳モデルを原言語(入力)の木構造モデル、目的言語(出力)の木構造モデル、および順方向・逆方向木構造マッピングモデルに分解する。
具体的には、数式2で表現される。
In this machine translation measure, the translation model is decomposed into a source language (input) tree structure model, a target language (output) tree structure model, and a forward / reverse tree structure mapping model.
Specifically, it is expressed by
ここで、P(F|f)は、原言語の木構造モデル確率である。また、P(E|e)は、目的言語の木構造モデル確率である。また、P(E|F)は、順方向木構造マッピングモデル確率である。また、P(F|E)は、逆方向木構造マッピングモデル確率である。P(E|F)P(F|E)を、単に木構造マッピングモデル確率と言う。 Here, P (F | f) is a tree structure model probability of the source language. P (E | e) is a tree structure model probability of the target language. P (E | F) is a forward tree structure mapping model probability. P (F | E) is the backward tree structure mapping model probability. P (E | F) P (F | E) is simply referred to as a tree structure mapping model probability.
しかし、構文木全体を変換することはできないため、構文木を構成する文脈自由文法規則単位に変換を行う。文脈自由文法規則単位とは、親ノードの非終端記号に対して、子ノードの非終端記号または終端記号列を生成する規則である。たとえば、原言語の構文木Eを構成する文脈自由文法規則をθe、目的言語の構文木F構成する文脈自由文法規則をθfとしたとき、各モデルの確率は、以下の数式3から数式5で算出する。数式3は、原言語の木構造モデル確率を算出する式である。数式4は、目的言語の木構造モデル確率を算出する式である。数式5は、木構造マッピングモデル確率を算出する式である。
なお、本機械翻訳装置において、翻訳を行う際には、翻訳モデル確率は再帰的に計算する。たとえば、ある部分木の最上位ノードNiが、その直下にj個の部分木を含んでいる場合、以下の数式6で算出する。
本機械翻訳装置において、上述した数式により、第二言語の文章(出力単語列リスト)を評価し、例えば、最も評価値が大きい出力単語列リストを出力する。かかる出力単語列リストが、翻訳結果の文章(第二言語の文章)である。
以下、本実施の形態における機械翻訳装置の具体的な動作について説明する。
In the machine translation apparatus, the sentence (output word string list) in the second language is evaluated by the above-described mathematical formula, and, for example, an output word string list having the largest evaluation value is output. This output word string list is a translation result sentence (second language sentence).
Hereinafter, a specific operation of the machine translation apparatus in the present embodiment will be described.
図6は、本機械翻訳装置の原言語木構造モデル格納部11に格納されている原言語木構造モデルの例である。本原言語木構造モデルは、名前、原言語木構造情報、原言語木構造確率「P(θf)」の属性値を有する1以上の原言語木構造レコードを有する。名前は、原言語木構造情報、原言語木構造確率の組を識別する情報である。原言語木構造情報は、親ノードと子ノード列を有する。つまり、原言語木構造情報は、親ノードと子ノード列により、木構造を構成している。また、原言語木構造情報の中には、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報が含まれる。原言語長単位句木構造情報は、例えば、名前「SRC−102」、「SRC−103」、「SRC−105」に対応する原言語木構造情報である。また、図6の原言語木構造確率「P(θf)」等における、例えば、「3.67e−3」は、「3.67×10−3」のことである。また、原言語木構造確率「P(θf)」は、原言語において、親ノードが子ノード列を生成する確率である。
FIG. 6 is an example of a source language tree structure model stored in the source language tree structure
図7は、本機械翻訳装置の目的言語木構造モデル格納部12に格納されている目的言語木構造モデルの例である。本目的言語木構造モデルは、名前、目的言語木構造情報、目的言語木構造確率「P(θe)」の属性値を有する1以上の目的言語木構造レコードを有する。名前は、目的言語木構造情報、目的言語木構造確率の組を識別する情報である。目的言語木構造情報は、原言語木構造情報と同様に、親ノードと子ノード列を有する。また、目的言語木構造確率「P(θe)」は、目的言語において、対応する目的言語木構造情報が現れる確率である。
FIG. 7 is an example of the target language tree structure model stored in the target language tree structure
図8は、木構造マッピングモデル格納部13に格納されている木構造マッピングモデルの例である。本木構造マッピングモデルは、マッピング情報とマッピング確率「P(θe|θf)P(θf|θe)」を有する木構造マッピングレコードを1以上有する。マッピング情報は、目的言語の名前と原言語の名前の情報を有する。つまり、マッピング情報は、2つの名前で特定される目的言語の木構造と、原言語の木構造との対応を示す情報である。また、マッピング確率「P(θe|θf)P(θf|θe)」は、順方向の木構造マッピングモデル確率と逆方向の木構造マッピングモデル確率の積である。
FIG. 8 is an example of a tree structure mapping model stored in the tree structure mapping
図9は、言語モデル格納部14に格納されている言語モデルの例である。本言語モデルは、第一の単語(wi−1 e)と、第二の単語(wi e)と、第一の単語の次に第二の単語が出現する確率を示す情報である単語出現確率(P(wi e|wi−1 e)を有する単語出現確率を1以上保持している。なお、図9において「<S>」は文開始記号、「</S>」は文終了記号である。
FIG. 9 is an example of a language model stored in the language
かかる状況において、本機械翻訳装置は、例えば、図10に示すような構文トランスファ方式の機械翻訳を行う。また、本機械翻訳装置は、ここでは、日英翻訳を行う、とする。図10は、「バスは12時に出ますか」という日本語の文章を構文解析し、日本語構文木Fを取得し、次に、当該日本語構文木Fと英語構文木Eとのマッピングを行って英語文を出力することを示している。なお、図10において、「S」は文章、「NP」は名詞句、「NOUN」は名詞、「VP」は動詞句、「PP」は副詞句、「V」は動詞、「P」は助詞、「NUM」は数字を示す。また、図10において、「SQ」は疑問文、「NN」は名詞、「VB」は動詞、「IN」は前置詞、「CD」は数字を示す。(正しいでしょうか?)
本機械翻訳装置は、かかる構文トランスファ方式の機械翻訳において、翻訳モデル中に、複数の単語から成り、非終端記号を含まない規則(長単位句木構造情報)を含んでいる。
そして、ユーザは、例えば、キーボードから第一言語の文章「バスは12時に出ますか」を入力した、とする。そして、受付部15は、第一言語の文章「バスは12時に出ますか」を受け付ける。
以下、かかる場合において、本機械翻訳装置が、「12時に出」の部分翻訳を行う際の処理について説明する。
そして、本機械翻訳装置は、図11に示す長単位句木構造情報、およびそれぞれに対応する翻訳モデル確率、言語モデル確率を保持している、とする。
In this situation, the machine translation apparatus performs syntax transfer machine translation as shown in FIG. 10, for example. Here, it is assumed that the machine translation apparatus performs Japanese-English translation. FIG. 10 parses a Japanese sentence “Do the bus leave at 12:00”, obtains a Japanese syntax tree F, and then maps the Japanese syntax tree F to the English syntax tree E? It shows that it goes and outputs an English sentence. In FIG. 10, “S” is a sentence, “NP” is a noun phrase, “NOUN” is a noun, “VP” is a verb phrase, “PP” is an adverb phrase, “V” is a verb, and “P” is a particle. “NUM” indicates a number. In FIG. 10, “SQ” indicates a question sentence, “NN” indicates a noun, “VB” indicates a verb, “IN” indicates a preposition, and “CD” indicates a number. (Is it correct?)
This machine translation apparatus includes a rule (long unit phrase tree structure information) that includes a plurality of words and does not include a non-terminal symbol in a translation model in such syntax transfer type machine translation.
Then, for example, it is assumed that the user inputs a sentence in the first language “Does the bus leave at 12:00” from the keyboard? And the
Hereinafter, in such a case, a process when the machine translation apparatus performs partial translation of “out at 12:00” will be described.
The machine translation apparatus holds the long unit phrase tree structure information shown in FIG. 11 and the translation model probabilities and language model probabilities corresponding thereto.
次に、入力文構文解析部16は、図6の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、「12時に出」を構文解析する。そして、入力文構文解析部16は、SRC−002,SRC−003,SRC−103が適用可能であり、どれも「12時に出」についてVPを構成することを検出し、SRC−002,SRC−003,SRC−103を取得する。かかる3つの部分木「SRC−002」,「SRC−003」,「SRC−103」は、入力部分木を示す情報(その名前)である。
そして、木構造マッピング確率計算部17は、3つの入力部分木(原言語木構造情報)に対して、以下の処理を行う。
Next, the input sentence
Then, the tree structure mapping probability calculation unit 17 performs the following processing on the three input subtrees (source language tree structure information).
まず、木構造マッピング確率計算部17は、入力の部分木の最上位ノードに使われた規則θf(ここでは、原言語木構造モデルの名前で特定する)に対応する目的言語木構造モデルの規則θe(ここでは、目的言語木構造モデルの名前で特定する)を図8の木構造マッピングモデルから取得する。SRC−002に対応するθeは、TRG−002,TRG−003、SRC−003に対応するθeはTRG−002,TRG−003、SRC−103に対応するθeはTRG−104である。 First, the tree structure mapping probability calculation unit 17 sets the target language tree structure model corresponding to the rule θ f (specified here by the name of the source language tree structure model) used for the top node of the input subtree. The rule θ e (identified here by the name of the target language tree structure model) is obtained from the tree structure mapping model of FIG. Θ e corresponding to SRC-002 is TRG-002, TRG-003, θ e corresponding to SRC-003 is TRG-002, TRG-003, and θ e corresponding to SRC-103 is TRG-104.
ここで、木構造マッピング確率計算部17は、(θf,θe)の組「(SRC−002,TRG−002)」「(SRC−002,TRG−003)」「(SRC−003,TRG−002)」「(SRC−003,TRG−003)」「(SRC−103,TRG−104)」を取得する。
次に、木構造マッピング確率計算部17は、上記5組の(θf,θe)のそれぞれに対して、以下の処理を行う。
Here, the tree structure mapping probability calculation unit 17 sets the (θ f , θ e ) pairs “(SRC-002, TRG-002)”, “(SRC-002, TRG-003)”, “(SRC-003, TRG). -002) "" (SRC-003, TRG-003) "" (SRC-103, TRG-104) ".
Next, the tree structure mapping probability calculation unit 17 performs the following processing for each of the five sets (θ f , θ e ).
まず、木構造マッピング確率計算部17は、θeを用いて、部分木を構築する(図12のステップ1、ステップ2)。この例では、図12の3つの部分木が構築される。(SRC−002,TRG−002)の組、および(SRC−003,TRG−003)の組の場合は、θeに適合する子供の部分木が存在しないため、出力の部分木は構築されない、とする。図12の(1)は、(SRC−002,TRG−003)の組に対応する部分木、(2)は「(SRC−003,TRG−002)の組に対応する部分木、(3)は(SRC−103,TRG−104)の組に対応する部分木である。 First, the tree structure mapping probability calculation unit 17 constructs a subtree using θ e (steps 1 and 2 in FIG. 12). In this example, the three subtrees in FIG. 12 are constructed. (SRC-002, TRG-002 ) set, and in the case of (SRC-003, TRG-003 ) set, because there is no matching children subtrees in theta e, subtree output is not built, And (1) in FIG. 12 is a subtree corresponding to the set of (SRC-002, TRG-003), (2) is a subtree corresponding to the set of (SRC-003, TRG-002), (3) Is a subtree corresponding to a set of (SRC-103, TRG-104).
次に、図12の(1)から(3)の出力部分木の単語列リストを展開し、新たな出力単語リストを得る(図12のステップ3)。そして、各出力単語列に対して、数式6、数式7を用いて翻訳モデル確率、言語モデル確率を算出する。なお、部分木の言語モデル確率は、ここでは、文開始・終了記号を付けずに算出し、図9にない単語列に関しては、例えば、確率「1.0e-7」を割り当てる、とする。
Next, the word string list of the output subtrees (1) to (3) in FIG. 12 is expanded to obtain a new output word list (
例えば、(SRC−002,TRG−003)の組を用いた場合、「12時に」の出力単語列リストは「at 12 o'clock」,「at noon」,「to noon」であり、「出」の出力単語列リストは「leave」「start」である。したがって、その組み合わせを展開し、翻訳モデル確率、言語モデル確率を算出すると、図13の出力単語列リストを得る。
図13において、「入力構文木」は原言語木構造情報の例である。また、「出力構文木」は「目的言語木構造情報」の例である。
同様に、(SRC−003,TRG−002)の組、(SRC−103,TRG−104)の組の場合は、図14の出力単語列リストを得る。
以上の処理により、木構造マッピング確率計算部17は、図13、図14の出力単語列リストを得ることができる。
For example, when the set of (SRC-002, TRG-003) is used, the output word string list of “12 o'clock” is “at 12 o'clock”, “at noon”, “to noon”, and “output” The output word string list of “leave” is “leave” and “start”. Therefore, when the combination is expanded and the translation model probability and the language model probability are calculated, the output word string list of FIG. 13 is obtained.
In FIG. 13, “input syntax tree” is an example of source language tree structure information. The “output syntax tree” is an example of “target language tree structure information”.
Similarly, in the case of the set of (SRC-003, TRG-002) and the set of (SRC-103, TRG-104), the output word string list of FIG. 14 is obtained.
Through the above processing, the tree structure mapping probability calculation unit 17 can obtain the output word string list of FIGS.
次に、木構造マッピング確率計算部17は、入力単語列、入力部分木の構文ラベル、出力部分木の構文ラベルが同一の出力単語列リストが既にバッファに登録されている場合、両者の出力単語列リストをマージする。マージの際、同一の出力単語列が存在する場合は、数式2に従い、翻訳モデル確率の和を算出し、バッファに登録する。
Next, if the output word string list having the same input word string, the syntax label of the input subtree, and the syntax label of the output subtree has already been registered in the buffer, the tree structure mapping probability calculation unit 17 outputs both output words. Merge column lists. If the same output word string exists at the time of merging, the sum of translation model probabilities is calculated according to
ここで、木構造マッピング確率計算部17は、例えば、マージの結果、出力単語列リストのサイズが、一定値(Nと表記し、ここでは3を仮定する)を超える場合は、翻訳モデル確率と言語モデル確率の積の上位N個だけを残し、登録する。かかる処理により高速な翻訳処理が可能となる。
上記例の場合、マージの結果、図15出力単語列リストが得られ、例えば、上位3個だけがバッファに登録される(図12のステップ4)。
Here, for example, when the size of the output word string list exceeds a certain value (denoted as N, assuming 3 here) as a result of merging, the tree structure mapping probability calculation unit 17 calculates the translation model probability as Only the top N products of language model probabilities are left and registered. Such processing enables high-speed translation processing.
In the case of the above example, as a result of merging, the output word string list shown in FIG. 15 is obtained. For example, only the top three are registered in the buffer (
上記処理により、新たに「12時に出」の部分翻訳結果が得られるので、これを再帰的に入力文全体について繰り返すことにより、入力文「バスは12時に出ますか」の部分翻訳結果を得ることができる。なお、最終的に得られた出力単語列リストは、文開始・終了記号込みで言語モデル確率が再計算され、翻訳モデル確率との積が最大の出力単語列を、入力文の翻訳結果として出力する。
以上、本実施の形態によれば、単語と句(複数単語)を区別せず翻訳を行うことができる。
また、本実施の形態によれば、句や単語の順序を階層的に入れ替えることができ、構文的に正しい翻訳文を出力することができる。結果的に翻訳品質が向上する。
As a result of the above processing, a new partial translation result of “Exit at 12 o'clock” is obtained. By recursively repeating this for the entire input sentence, a partial translation result of the input sentence “Is the bus exit at 12 o'clock” is obtained. be able to. In the final output word string list, the language model probabilities are recalculated including the sentence start and end symbols, and the output word string with the maximum product with the translation model probability is output as the translation result of the input sentence. To do.
As described above, according to the present embodiment, translation can be performed without distinguishing words and phrases (a plurality of words).
Further, according to the present embodiment, the order of phrases and words can be hierarchically changed, and a syntactically correct translated sentence can be output. As a result, translation quality is improved.
また、本実施の形態によれば、構文木に複数の候補が得られた時にも、コーパスから自動的に得られた原言語・目的言語木構造モデル、木構造マッピングモデルに基づく確率を基に、最適な出力単語列を構成することができる。したがって、シソーラス等は必要としない。 Further, according to the present embodiment, even when a plurality of candidates are obtained in the syntax tree, based on the probabilities based on the source language / target language tree structure model and tree structure mapping model automatically obtained from the corpus. An optimal output word string can be constructed. Therefore, a thesaurus or the like is not necessary.
また、本実施の形態の具体例によれば、上記ステップS206の処理(部分木の数が最少となる出力部分木を選択する処理)の例について説明しなかった。かかる処理は、例えば、以下のような処理である。「すみませんバスは12時に出ますか」が入力されると、部分木の数が最小のものとしては、「すみません」、「バスは12時に出ますか」という2つが得られる。そして、それぞれ「excuse me」、「will the bus leave at 12 o'clock」「will the bus leave at noon」などの出力単語列が得られる。そして、それぞれの部分木から、確率最大の出力単語列を取得し、連結して出力すると、「excuse me will the bus leave at 12 o'clock」となる。 Further, according to the specific example of the present embodiment, the example of the process of step S206 (a process of selecting an output subtree having the smallest number of subtrees) has not been described. Such processing is, for example, the following processing. When "I'm sorry, does the bus leave at 12:00" is entered, the two subtrees with the minimum number of subtrees are "I'm sorry" and "Do the bus leave at 12:00"? Then, output word strings such as “excuse me”, “will the bus leave at 12 o'clock”, and “will the bus leave at noon” are obtained. Then, when an output word string having the maximum probability is obtained from each subtree and connected and output, “excuse me will the bus leave at 12 o'clock” is obtained.
さらに、本実施の形態において、出力単語列が多数存在する場合にも、入力単語列、入力・出力の部分木の構文ラベルが同じ出力単語列から、確率が上位の単語列だけを残すことを行えば、適切に候補を削減することができ、翻訳速度が向上する。
なお、本実施の形態の具体例において、言語モデルとして単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデル等、他の言語モデルを用いてもよい。
Furthermore, in the present embodiment, even when there are a large number of output word strings, only word strings having higher probabilities are left out of the input word strings and the output word strings having the same syntax label of the input / output subtree. If done, candidates can be reduced appropriately and the translation speed is improved.
In the specific example of the present embodiment, the word bigram model is used as the language model, but other language models such as the word trigram model and the part-of-speech trigram model may be used.
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納しており、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、第一言語の文章を受け付ける受付ステップと、前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索ステップと、前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム、である。
Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded on a recording medium such as a CD-ROM and distributed. Note that the software that implements the information processing apparatus according to the present embodiment is the following program. In other words, this program is information about the tree structure of the first language, which is the language of the original sentence to be translated, on the computer, and is a tree with a long unit phrase consisting of a plurality of words and not including a nonterminal symbol as one node. Source language tree structure information including one or more source language tree structure records having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information. Information on the tree structure of the second language, which is the language of the sentence of the translation result, storing the model, and information on the tree structure with a long unit phrase consisting of multiple words and not including non-terminal symbols as one node A target language tree structure model having at least one target language tree structure record having a target language tree structure probability that is information indicating the probability of the tree structure corresponding to the target language tree structure information. A tree structure mapping record having mapping information which is information indicating the correspondence between the source language tree structure information and the target language tree structure information, and mapping probability which is information indicating the correspondence probability indicated by the mapping information And a language model having one or more word appearance probabilities having word appearance probabilities that are information on probabilities related to successive appearances of two or more words in the second language, An accepting step for accepting a sentence in a first language; an input sentence syntactic analyzing step for sequentially obtaining a tree structure information that is information on a tree structure of a part or all of the sentence by parsing the sentence accepted in the accepting step; , One or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step are acquired, and the input sentence syntax analysis One or more target language tree structure information corresponding to the tree structure information obtained in
また、前記木構造マッピング確率計算ステップは、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得する原言語木構造確率取得ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得するマッピング確率取得ステップと、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得する目的言語木構造確率取得ステップと、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得ステップと、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出ステップを具備しても良い。
前記評価値算出ステップは、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とすることは好適である。
The tree structure mapping probability calculation step includes a source language tree structure probability acquisition step for acquiring one or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step, and the input sentence syntax One or more target language tree structure information corresponding to the tree structure information obtained in the analysis step, a mapping probability acquisition step for acquiring one or more mapping probabilities, and one or more corresponding to each of the one or more target language tree structure information A target language tree structure probability acquisition step of acquiring the target language tree structure probability of the target language tree, and one or more word appearances of two or more words constituting the target language tree structure information based on the acquired target language tree structure information A word appearance probability acquisition step of acquiring a probability from the language model storage unit; the source language tree structure probability; the mapping probability; the target language tree structure probability; Based on the fine said word occurrence probabilities may be provided with an evaluation value calculation step of calculating an evaluation value of the syntax tree output.
Preferably, the evaluation value calculating step calculates a product of the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability, and uses the product as an evaluation value of an output syntax tree. It is.
さらに、前記最尤列探索ステップにおいて、前記木構造マッピング確率計算ステップで算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。 Further, in the maximum likelihood sequence search step, a syntax tree having the maximum evaluation value calculated in the tree structure mapping probability calculation step is determined as an output syntax tree, and one of the second languages is determined based on the determined syntax tree. It is preferable to obtain output information that is a part or all of a sentence.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。 In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
また、図16は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図16は、このコンピュータシステム300の概観図であり、図17は、システム300のブロック図である。
FIG. 16 shows the external appearance of a computer that executes the programs described in this specification to realize the information processing apparatuses according to the various embodiments described above. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 16 is an overview diagram of the
図16において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
In FIG. 16, a
図17において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
In FIG. 17, in addition to the
コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
A program that causes the
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる機械翻訳装置は、高品質かつ高速な翻訳が可能となる、という効果を有し、機械翻訳装置等として有用である。 As described above, the machine translation apparatus according to the present invention has an effect that high-quality and high-speed translation is possible, and is useful as a machine translation apparatus or the like.
11 原言語木構造モデル格納部
12 目的言語木構造モデル格納部
13 木構造マッピングモデル格納部
14 言語モデル格納部
15 受付部
16 入力文構文解析部
17 木構造マッピング確率計算部
18 最尤列探索部
19 出力部
171 原言語木構造確率取得手段
172 マッピング確率取得手段
173 目的言語木構造確率取得手段
174 単語出現確率取得手段
175 評価値算出手段
DESCRIPTION OF
Claims (6)
翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している目的言語木構造モデル格納部と、
原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、
第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、
第一言語の文章を受け付ける受付部と、
前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、
前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算部と、
前記木構造マッピング確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、
前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置。 Source language tree structure that is information about the tree structure of the first language that is the language of the original sentence to be translated, and that contains information about the tree structure that consists of a plurality of words and does not include a non-terminal symbol and has a long unit phrase as one node Information and a source language tree storing a source language tree structure model having one or more source language tree structure records having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information A structural model storage;
Information on the tree structure of the second language, which is the language of the sentence of the translation result, the target language tree structure information including information on the tree structure consisting of a plurality of words and a long unit phrase not including a non-terminal symbol as one node; , A target language tree structure model storing a target language tree structure model having one or more target language tree structure records having a target language tree structure probability that is information indicating the probability of the tree structure corresponding to the target language tree structure information A storage unit;
Tree structure having one or more tree structure mapping records having mapping information which is information indicating correspondence between source language tree structure information and target language tree structure information and mapping probability which is information indicating correspondence probability indicated by the mapping information A tree structure mapping model storage unit storing a mapping model;
A language model storage unit storing a language model having one or more word appearance probabilities, which is information on the probability of word appearance in the second language;
A reception unit that accepts sentences in the first language;
An input sentence syntax analysis unit that sequentially parses the sentence received by the reception unit and sequentially obtains tree structure information that is information on a part or all of the tree structure of the sentence;
One or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit are acquired from the source language tree structure model storage unit and correspond to the tree structure information obtained by the input sentence syntax analysis unit One or more target language tree structure information and one or more mapping probabilities are acquired from the tree structure mapping model storage unit, and one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information are obtained. Acquired from the target language tree structure model storage unit, and stores one or more word appearance probabilities of two or more words constituting the target language tree structure information based on the acquired target language tree structure information in the language model Based on the acquired source language tree structure probability, the acquired mapping probability, the acquired target language tree structure probability, and the acquired word appearance probability. A tree structure mapping probability calculation unit for calculating a value,
Based on the evaluation value calculated by the tree structure mapping probability calculation unit, a part or all of the second language to be output is determined, and based on the determined syntax tree, part or all of the second language is determined. A maximum likelihood sequence search unit for acquiring output information that is a sentence;
A machine translation apparatus comprising: an output unit that outputs a sentence in a second language having one or more pieces of output information acquired by the maximum likelihood sequence search unit.
前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、
前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、
前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、
前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得手段と、
前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する請求項1記載の機械翻訳装置。 The tree structure mapping probability calculator
Source language tree structure probability acquisition means for acquiring one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit from the source language tree structure model storage unit;
Mapping probability acquisition means for acquiring one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit from the tree structure mapping model storage unit;
Target language tree structure probability acquisition means for acquiring one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information from the target language tree structure model storage unit;
Based on the acquired target language tree structure information, word appearance probability acquisition means for acquiring one or more word appearance probabilities of the two or more words constituting the target language tree structure information from the language model storage unit;
2. The machine according to claim 1, further comprising: an evaluation value calculation means for calculating an evaluation value of an output syntax tree based on the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability. Translation device.
前記最尤列探索部は、
前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1または請求項2記載の機械翻訳装置。 In the syntax tree of the output corresponding to the two or more evaluation values calculated by the tree structure mapping probability calculation unit and the evaluation value, the merge structure unit further includes a merging unit that combines the evaluation values corresponding to the same syntax tree,
The maximum likelihood sequence search unit includes:
Based on the evaluation value calculated by the tree structure mapping probability calculation unit and the evaluation value obtained by combining by the merge unit, a part or all of the syntax tree of the second language to be output is determined, and the determined syntax tree The machine translation apparatus according to claim 1, wherein output information that is a part or all of a sentence in the second language is acquired based on.
前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする請求項2または請求項3記載の機械翻訳装置。 The evaluation value calculation means includes
4. The machine according to claim 2, wherein a product of the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability is calculated, and the product is used as an evaluation value of an output syntax tree. Translation device.
前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1から請求項4いずれか記載の機械翻訳装置。 The maximum likelihood sequence search unit includes:
A syntax tree having the maximum evaluation value calculated by the tree structure mapping probability calculation unit is determined as a syntax tree to be output, and output information that is a sentence of a part or all of the second language based on the determined syntax tree. The machine translation apparatus according to claim 1, which is acquired.
翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、
翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納しており、
原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、
第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、
第一言語の文章を受け付ける受付ステップと、
前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、
前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、
前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索ステップと、
前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム。
On the computer,
Source language tree structure that is information about the tree structure of the first language that is the language of the original sentence to be translated, and that contains information about the tree structure that consists of a plurality of words and does not include a non-terminal symbol and has a long unit phrase as one node A source language tree structure model having at least one source language tree structure record having a source language tree structure probability that is information and information indicating the probability of the tree structure corresponding to the source language tree structure information;
Information on the tree structure of the second language, which is the language of the sentence of the translation result, the target language tree structure information including information on the tree structure consisting of a plurality of words and a long unit phrase not including a non-terminal symbol as one node; A target language tree structure model having at least one target language tree structure record having a target language tree structure probability, which is information indicating the probability of the tree structure corresponding to the target language tree structure information,
Tree structure having one or more tree structure mapping records having mapping information which is information indicating correspondence between source language tree structure information and target language tree structure information and mapping probability which is information indicating correspondence probability indicated by the mapping information Contains the mapping model,
Storing a language model having one or more word appearance probabilities having a word appearance probability, which is information on the probability of consecutive occurrences of two or more words in the second language;
A reception step for accepting sentences in the first language;
Parsing the sentence received in the reception step, the input sentence syntax analysis step to sequentially obtain the tree structure information that is information about a part or all of the tree structure of the sentence;
One or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step are acquired, and one or more target language tree structure information corresponding to the tree structure information obtained in the input sentence syntax analysis step And one or more mapping probabilities, one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information, and the target language tree structure information based on the acquired target language tree structure information One or more word appearance probabilities of two or more words constituting language tree structure information are acquired, the acquired source language tree structure probability, the acquired mapping probability, the acquired target language tree structure probability, and the acquisition A tree structure mapping probability calculation step for calculating an evaluation value of the output syntax tree based on the word appearance probability,
Based on the evaluation value calculated in the tree structure mapping probability calculation step, a part or all of the second language to be output is determined, and based on the determined syntax tree, part or all of the second language is determined. A maximum likelihood sequence search step for obtaining output information that is a sentence;
A program for executing an output step of outputting a sentence in a second language having one or more output information acquired in the maximum likelihood sequence search step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202350A JP2007018462A (en) | 2005-07-11 | 2005-07-11 | Machine translation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005202350A JP2007018462A (en) | 2005-07-11 | 2005-07-11 | Machine translation device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007018462A true JP2007018462A (en) | 2007-01-25 |
Family
ID=37755554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005202350A Pending JP2007018462A (en) | 2005-07-11 | 2005-07-11 | Machine translation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007018462A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7890539B2 (en) | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
JP2011221650A (en) * | 2010-04-06 | 2011-11-04 | Nippon Telegr & Teleph Corp <Ntt> | Machine translation apparatus and machine translation method and program thereof |
US8280719B2 (en) | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
-
2005
- 2005-07-11 JP JP2005202350A patent/JP2007018462A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8280719B2 (en) | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
US7890539B2 (en) | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
JP2011221650A (en) * | 2010-04-06 | 2011-11-04 | Nippon Telegr & Teleph Corp <Ntt> | Machine translation apparatus and machine translation method and program thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2745370B2 (en) | Machine translation method and machine translation device | |
US7035789B2 (en) | Supervised automatic text generation based on word classes for language modeling | |
KR101762866B1 (en) | Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method | |
KR100530154B1 (en) | Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system | |
US8015016B2 (en) | Automatic translation method and system based on corresponding sentence pattern | |
JP2019070799A (en) | Bidirectional probabilistic natural language rewriting and selection | |
JP2000353161A (en) | Method and device for controlling style in generation of natural language | |
JP3921523B2 (en) | Text generation method and text generation apparatus | |
Knight et al. | Applications of weighted automata in natural language processing | |
JP2018181181A (en) | Text processing device and text processing method | |
JP2007018462A (en) | Machine translation device and program | |
Flickinger et al. | ParDeepBank: Multiple parallel deep treebanking | |
JP4476609B2 (en) | Chinese analysis device, Chinese analysis method and Chinese analysis program | |
JP2007206796A (en) | Character processing system, method thereof, program thereof, and recording medium | |
JP4113204B2 (en) | Machine translation apparatus, method and program thereof | |
JP4971732B2 (en) | Natural language processing apparatus and program | |
KR19980047177A (en) | Korean document analyzer for voice conversion system | |
KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
KR950013129B1 (en) | Method and apparatus for machine translation | |
JP2006024114A (en) | Mechanical translation device and mechanical translation computer program | |
JP3921543B2 (en) | Machine translation device | |
JP2007102530A (en) | Device for generating grammar of specific language | |
Ho | Generative Probabilistic Alignment Models for Words and Subwords: a Systematic Exploration of the Limits and Potentials of Neural Parametrizations | |
Patil et al. | A review on implementation of Sandhi Viccheda for Sanskrit words | |
JP2004280467A (en) | Translation device, translation method, and its program |