JP2007018462A - Machine translation device and program - Google Patents

Machine translation device and program Download PDF

Info

Publication number
JP2007018462A
JP2007018462A JP2005202350A JP2005202350A JP2007018462A JP 2007018462 A JP2007018462 A JP 2007018462A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2007018462 A JP2007018462 A JP 2007018462A
Authority
JP
Japan
Prior art keywords
tree structure
language
probability
information
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005202350A
Other languages
Japanese (ja)
Inventor
Kenji Imamura
賢治 今村
Hideo Okuma
英男 大熊
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005202350A priority Critical patent/JP2007018462A/en
Publication of JP2007018462A publication Critical patent/JP2007018462A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To solve a problem of a conventional machine translation device incapable of performing high-quality translation at a high speed. <P>SOLUTION: Based on an original language tree structure model having original language tree structure information using a long unit phrase, which consists of a plurality of words and includes no non-terminal symbol, as one node, a target language tree structure model having target language tree structure information using a long unit phrase, which consists of a plurality of words and include no non-terminal symbol, as one node, a tree structure mapping model having mapping information, which shows correspondence between the original language structure and the target language tree structure information, and a mapping probability, and a language model having one or more word appearance probabilities serving as information about a probability concerned with appearance of a word in a second language, syntax analysis is carried out on a received sentence for acquiring a translation model probability and a language model probability. Based on these two probabilities, a syntax tree of an output is evaluated, and a translation sentence to be outputted is decided. In this way, this machine translation device can perform high-quality translation at a high speed. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、受け付けた文章を他言語に翻訳する機械翻訳装置等に関するものである。   The present invention relates to a machine translation device that translates received text into another language.

従来の第一の機械翻訳装置において、「Phrase−based SMT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献1参照)。「Phrase−based SMT」とは、句に基づく統計翻訳であり、複数単語(句)を単位に翻訳を行う。   The conventional first machine translation apparatus employs a translation algorithm called “Phrase-based SMT” (see, for example, Non-Patent Document 1). “Phrase-based SMT” is a statistical translation based on a phrase, and translation is performed in units of a plurality of words (phrases).

従来の第二の機械翻訳装置において、「構文トランスファ方式MT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献2参照)。構文トランスファ方式の機械翻訳では、入力文を構文解析し、得られた構文木を出力の構文木に変換することにより翻訳を行う。   The conventional second machine translation apparatus employs a translation algorithm called “syntax transfer system MT” (for example, see Non-Patent Document 2). In the machine transfer of the syntax transfer method, an input sentence is parsed, and translation is performed by converting the obtained syntax tree into an output syntax tree.

さらに、従来の第三の技術として、本機械翻訳装置で利用され得る翻訳モデルの自動取得の技術がある。かかる翻訳モデル(原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルの総称)に含まれる規則は、階層的句アライメント方法(非特許文献3参照)等を用いると、コーパスから自動的に抽出することができる。また、これらモデルの確率は、コーパス中に規則が使われた頻度をカウントし、その相対頻度を計算するなどの処理により、算出することができる。かかる第三の技術により、原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルが自動的に取得でき得る。
Philipp Koehn, Franz J. Och, and Daniel Marcu:Statistical Phrase-Based Translation.HLT-NAACL 2003: Main Proceedings, 2003,pp.127-133 古瀬 蔵他2名,構成素境界解析を用いた多言語話し言葉翻訳,自然言語処理, Vol. 6, No. 5, 1999,pp.63-91 今村 賢治,構文解析と融合した階層的句アライメント,自然言語処理, Vol. 9, No. 5, 2002, pp. 23-42
Further, as a third conventional technique, there is a technique for automatically acquiring a translation model that can be used in the machine translation apparatus. Rules included in such a translation model (generic name of source language tree structure model, target language tree structure model, tree structure mapping model) are automatically generated from a corpus using a hierarchical phrase alignment method (see Non-Patent Document 3). Can be extracted. The probabilities of these models can be calculated by processing such as counting the frequency of use of rules in the corpus and calculating the relative frequency. With this third technique, the source language tree structure model, the target language tree structure model, and the tree structure mapping model can be automatically acquired.
Philipp Koehn, Franz J. Och, and Daniel Marcu: Statistical Phrase-Based Translation.HLT-NAACL 2003: Main Proceedings, 2003, pp.127-133 Kurose and others, multilingual spoken language translation using constituent boundary analysis, natural language processing, Vol. 6, No. 5, 1999, pp.63-91 Kenji Imamura, Hierarchical phrase alignment fused with syntax analysis, Natural language processing, Vol. 9, No. 5, 2002, pp. 23-42

しかしながら、従来の第一の機械翻訳装置においては、句の順序を調整しなければ正しい翻訳文とはならない。本機械翻訳装置の翻訳方法では、句の順序調整を平坦な構造上で行い、言語モデルで検証していた。そのため、構文的に誤った翻訳文を出力することがある、という課題があった。
また、従来の第二の機械翻訳装置においては、入力の解析結果として、複数の構造が得られた時、単語の意味距離等を用いて曖昧性解消を行っていた。そのため、シソーラスを必要とする、という課題があった。
However, in the conventional first machine translation apparatus, the translated sentence is not correct unless the phrase order is adjusted. In the translation method of this machine translation apparatus, the order of phrases is adjusted on a flat structure and verified by a language model. For this reason, there is a problem that a syntactically incorrect translation may be output.
In the second conventional machine translation apparatus, when a plurality of structures are obtained as input analysis results, the ambiguity is resolved using the semantic distance of words. For this reason, there is a problem that a thesaurus is required.

本第一の発明の機械翻訳装置は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している原言語木構造モデル格納部と、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している目的言語木構造モデル格納部と、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、第一言語の文章を受け付ける受付部と、前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算部と、前記木構造マッピング確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the first aspect of the invention is information relating to the tree structure of the first language, which is the language of the original sentence to be translated, and a long unit phrase consisting of a plurality of words and not including a non-terminal symbol is regarded as one node. Source language having at least one source language tree structure record having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information. This is information about the source language tree structure model storage section that stores the tree structure model and the tree structure of the second language that is the language of the sentence of the translation result. One target language tree structure record including target language tree structure information including information on a tree structure as one node and a target language tree structure probability which is information indicating a probability of a tree structure corresponding to the target language tree structure information. Purpose of having A target language tree structure model storage unit that stores a word tree structure model, mapping information that is information indicating correspondence between source language tree structure information and target language tree structure information, and a correspondence probability indicated by the mapping information. A tree structure mapping model storage unit storing a tree structure mapping model having one or more tree structure mapping records having a mapping probability which is information indicating, and a word appearance probability which is information on the probability of word appearance in the second language A language model storage unit that stores one or more language models, a reception unit that receives a sentence in a first language, a sentence that is received by the reception unit, and a partial or entire tree structure of the sentence An input sentence syntax analysis unit that sequentially obtains tree structure information as information, and one or more source language trees corresponding to the tree structure information obtained by the input sentence syntax analysis unit And the one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit are acquired from the source language tree structure model storage unit. One or more target language tree structure probabilities obtained from the storage unit and corresponding to each of the one or more target language tree structure information are acquired from the target language tree structure model storage unit, and the acquired target language tree structure information is included in the acquired target language tree structure information. On the basis of one or more word appearance probabilities of two or more words constituting the target language tree structure information from the language model storage unit, the acquired source language tree structure probability, the acquired mapping probability, A tree structure mapping probability calculation unit for calculating an evaluation value of an output syntax tree based on the acquired target language tree structure probability and the acquired word appearance probability; and the tree structure mapping Based on the evaluation value calculated by the probability calculation unit, a part or all of the syntax tree of the second language to be output is determined, and an output that is a sentence of all or part of the second language based on the determined syntax tree A machine translation apparatus comprising: a maximum likelihood sequence search unit that acquires information; and an output unit that outputs a second language sentence having one or more pieces of output information acquired by the maximum likelihood sequence search unit.
With this configuration, high-quality and high-speed translation becomes possible.

また、本第二の発明の機械翻訳装置は、第一の発明に対して、前記木構造マッピング確率計算部は、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得手段と、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
Further, in the machine translation device of the second invention, in contrast to the first invention, the tree structure mapping probability calculation unit includes one or more source languages corresponding to the tree structure information obtained by the input sentence syntax analysis unit. Source language tree structure probability acquisition means for acquiring a tree structure probability from the source language tree structure model storage unit, one or more target language tree structure information corresponding to the tree structure information obtained by the input sentence syntax analysis unit, and one or more Mapping probability acquisition means for acquiring the mapping probabilities from the tree structure mapping model storage unit, and one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information stored in the target language tree structure model Based on the acquired target language tree structure probability acquisition means and the acquired target language tree structure information, the one or more word appearance probabilities of two or more words constituting the target language tree structure information Based on the word appearance probability acquisition means acquired from the model storage unit, the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability, an evaluation value of the output syntax tree is calculated. It is a machine translation apparatus provided with an evaluation value calculation means.
With this configuration, high-quality and high-speed translation becomes possible.

また、本第三の発明の機械翻訳装置は、第一、第二の発明に対して、前記木構造マッピング確率計算部が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成するマージ部をさらに具備し、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
また、本第四の発明の機械翻訳装置は、第二、第三の発明に対して、前記評価値算出手段は、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the third aspect of the present invention provides two or more evaluation values calculated by the tree structure mapping probability calculation unit and an output syntax tree corresponding to the evaluation values, relative to the first and second aspects of the invention. A merge unit that combines evaluation values corresponding to the same syntax tree, and the maximum likelihood sequence search unit is obtained by combining the evaluation value calculated by the tree structure mapping probability calculation unit and the merge unit. A machine that determines part or all of the syntax tree of the second language to be output based on the evaluated value and acquires output information that is a sentence of all or part of the second language based on the determined syntax tree It is a translation device.
With this configuration, high-quality and high-speed translation becomes possible.
Further, in the machine translation device of the fourth invention, in contrast to the second and third inventions, the evaluation value calculation means includes the source language tree structure probability, the mapping probability, the target language tree structure probability, This is a machine translation device that calculates a product of word appearance probabilities and uses the product as an evaluation value of an output syntax tree.
With this configuration, high-quality and high-speed translation becomes possible.

また、本第五の発明の機械翻訳装置は、第一から第四いずれかの発明に対して、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。
かかる構成により、高品質かつ高速な翻訳が可能となる。
The machine translation device according to the fifth aspect of the present invention provides the maximum likelihood sequence search unit according to any of the first to fourth aspects, wherein the maximum likelihood sequence search unit has a maximum evaluation value calculated by the tree structure mapping probability calculation unit. This is a machine translation device that determines a tree as a syntax tree to be output, and obtains output information that is a sentence of all or part of the second language based on the determined syntax tree.
With this configuration, high-quality and high-speed translation becomes possible.

本発明による機械翻訳装置によれば、高品質かつ高速な翻訳が可能となる。   The machine translation apparatus according to the present invention enables high-quality and high-speed translation.

以下、機械翻訳装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における機械翻訳装置のブロック図である。
Hereinafter, embodiments of a machine translation apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
FIG. 1 is a block diagram of a machine translation apparatus according to the present embodiment.

機械翻訳装置は、原言語木構造モデル格納部11、目的言語木構造モデル格納部12、木構造マッピングモデル格納部13、言語モデル格納部14、受付部15、入力文構文解析部16、木構造マッピング確率計算部17、マージ部18、最尤列探索部19、出力部20を具備する。また、機械翻訳装置は、入力手段として、例えば、キーボード302、マウス303を具備する。さらに、機械翻訳装置は、出力手段として、例えば、ディスプレイ304を具備する。
木構造マッピング確率計算部17は、原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175を具備する。
The machine translation apparatus includes a source language tree structure model storage unit 11, a target language tree structure model storage unit 12, a tree structure mapping model storage unit 13, a language model storage unit 14, a reception unit 15, an input sentence syntax analysis unit 16, a tree structure A mapping probability calculation unit 17, a merge unit 18, a maximum likelihood sequence search unit 19, and an output unit 20 are provided. The machine translation apparatus also includes, for example, a keyboard 302 and a mouse 303 as input means. Furthermore, the machine translation apparatus includes a display 304 as output means, for example.
The tree structure mapping probability calculation unit 17 includes source language tree structure probability acquisition means 171, mapping probability acquisition means 172, target language tree structure probability acquisition means 173, word appearance probability acquisition means 174, and evaluation value calculation means 175.

原言語木構造モデル格納部11は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している。なお、非終端記号とは、構文ラベル付き変数である。終端記号とは、単語そのものである。また、原言語木構造情報は、以下の複数の種類がある。例えば、原言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である原言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である原言語単語単位木構造情報などがある。また、原言語木構造確率とは、原言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。原言語木構造モデルのデータ構造は問わない。原言語木構造モデルの例は、後述する。原言語木構造モデル格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The source language tree structure model storage unit 11 is information on the tree structure of the first language that is the language of the original sentence to be translated, and associates one non-terminal signal with one or more terminal signals or non-terminal signals. Source language tree structure information including information on the tree structure, and a source language having at least one source language tree structure record having a source language tree structure probability that is information indicating the probability of the tree structure corresponding to the source language tree structure information Stores a tree structure model. A non-terminal symbol is a variable with a syntax label. The terminator is the word itself. The source language tree structure information includes the following types. For example, the source language tree structure information has two or more terminal symbols as child nodes, and the source language long unit phrase tree structure information which is information including a rule whose parent node is a non-terminal symbol, and one or more non-terminal symbols Source language syntax tree structure information, which is a rule indicating that the parent node is a non-terminal symbol, having zero or more terminal symbols as child nodes, and one terminal symbol as a child node, and the parent node is non-terminal There is source language word unit tree structure information which is information indicating a rule which is a symbol. The source language tree structure probability is a probability that a non-terminal symbol of a parent node generates a non-terminal symbol string or a terminal symbol string of a child node in the source language. Also, the information of the tree structure in which one or more terminal signals or non-terminal signals are associated with one non-terminal signal is a tree-structured information having a long unit phrase including a plurality of words and not including a non-terminal symbol as one node. Contains information. The data structure of the source language tree structure model does not matter. An example of the source language tree structure model will be described later. The source language tree structure model storage unit 11 is preferably a nonvolatile recording medium, but can also be realized by a volatile recording medium.

目的言語木構造モデル格納部12は、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している。目的言語木構造情報は、以下の複数の種類がある。例えば、目的言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である目的言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である目的言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である目的言語単語単位木構造情報などがある。また、目的言語木構造確率とは、目的言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。目的言語木構造モデルのデータ構造は問わない。目的言語木構造モデルの例は、後述する。目的言語木構造モデル格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The target language tree structure model storage unit 12 is information regarding the tree structure of the second language that is the language of the sentence of the translation result, and is a tree in which one or more terminal signals or non-terminal signals are associated with one non-terminal signal. Target language tree structure information including structure information, and target language tree structure records having one or more target language tree structure records having target language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the target language tree structure information Stores the model. The target language tree structure information has the following types. For example, the target language tree structure information has two or more terminal symbols as child nodes, and the target language long unit phrase tree structure information which is information including a rule whose parent node is a non-terminal symbol, and one or more non-terminal symbols And the target language syntax tree structure information, which is a rule indicating that the parent node is a non-terminal symbol, having zero or more terminal symbols as child nodes, and one terminal symbol as a child node, and the parent node is non-terminal There is target language word unit tree structure information which is information indicating a rule which is a symbol. The target language tree structure probability is a probability that a non-terminal symbol of a parent node generates a non-terminal symbol string or a terminal symbol string of a child node in the target language. Also, the information of the tree structure in which one or more terminal signals or non-terminal signals are associated with one non-terminal signal is a tree structure information including a long unit phrase including a plurality of words and not including a non-terminal symbol as one node. Contains information. The data structure of the target language tree structure model does not matter. An example of the target language tree structure model will be described later. The target language tree structure model storage unit 12 is preferably a nonvolatile recording medium, but can also be realized by a volatile recording medium.

木構造マッピングモデル格納部13は、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している。ここでは、マッピング確率とは、原言語木構造情報と目的言語木構造情報が対応する確率を示す情報である。木構造マッピングモデルのデータ構造は問わない。木構造マッピングモデルの例は、後述する。木構造マッピングモデル格納部13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The tree structure mapping model storage unit 13 is a tree having mapping information that is information indicating the correspondence between the source language tree structure information and the target language tree structure information, and mapping probability that is information indicating the correspondence probability indicated by the mapping information. A tree structure mapping model having one or more structure mapping records is stored. Here, the mapping probability is information indicating the probability that the source language tree structure information corresponds to the target language tree structure information. The data structure of the tree structure mapping model does not matter. An example of the tree structure mapping model will be described later. The tree structure mapping model storage unit 13 is preferably a nonvolatile recording medium, but can also be realized by a volatile recording medium.

言語モデル格納部14は、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している。単語出現確率は、例えば、第二言語の、2以上の単語の連続した出現に関する確率の情報である。単語出現確率は、例えば、第二言語の第一の単語と、第二の単語と、第一の単語の次に第二の単語が出現する確率を示す情報である。言語モデルは、例えば、第一の単語と、第二の単語と、単語出現確率を有するレコードを1以上有する。言語モデル格納部14は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The language model storage unit 14 stores a language model having one or more word appearance probabilities, which is information about the probability of word appearance in the second language. The word appearance probability is, for example, information on the probability related to the continuous appearance of two or more words in the second language. The word appearance probability is information indicating the probability that the second word appears after the first word in the second language, the second word, and the first word, for example. The language model includes, for example, one or more records having a first word, a second word, and a word appearance probability. The language model storage unit 14 is preferably a nonvolatile recording medium, but can also be realized by a volatile recording medium.

受付部15は、第一言語の文章を受け付ける。文章の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部15は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。   The accepting unit 15 accepts a sentence in the first language. The text input means may be anything such as a numeric keypad, keyboard, mouse or menu screen. The accepting unit 15 can be realized by a device driver for input means such as a numeric keypad and a keyboard, control software for a menu screen, and the like.

入力文構文解析部16は、受付部15が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る。入力文構文解析部16は、通常、原言語木構造モデル格納部11の原言語木構造モデルを用いて、文章を構文解析する。ただし、入力文構文解析部16は、原言語木構造モデルを用いることが好適であるが、他の木構造モデルを用いて、文章を構文解析しても良いし、他の手段により文章を構文解析しても良い。なお、文章を構文解析し、木構造情報を、順次得る処理は公知技術における処理であるので、詳細な説明は省略する。入力文構文解析部16は、通常、MPUやメモリ等から実現され得る。入力文構文解析部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The input sentence syntax analysis unit 16 parses the sentence received by the reception unit 15 and sequentially obtains tree structure information that is information about a part or all of the tree structure of the sentence. The input sentence syntax analysis unit 16 normally parses a sentence using the source language tree structure model in the source language tree structure model storage unit 11. However, although the input sentence syntax analysis unit 16 preferably uses a source language tree structure model, the sentence may be parsed using another tree structure model, or the sentence may be parsed by other means. You may analyze. In addition, since the process which parses a sentence and acquires tree structure information sequentially is a process in a well-known technique, detailed description is abbreviate | omitted. The input sentence syntax analysis unit 16 can usually be realized by an MPU, a memory, or the like. The processing procedure of the input sentence syntax analysis unit 16 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

木構造マッピング確率計算部17は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得し、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得し、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得し、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得し、取得した原言語木構造確率、取得したマッピング確率、取得した目的言語木構造確率、および取得した単語出現確率に基づいて、出力の構文木の評価値を算出する。木構造マッピング確率計算部17は、通常、MPUやメモリ等から実現され得る。木構造マッピング確率計算部17の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
原言語木構造確率取得手段171は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得する。
マッピング確率取得手段172は、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得する。
The tree structure mapping probability calculation unit 17 obtains one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit 16 from the source language tree structure model storage unit 11, and the input sentence syntax analysis unit One or more target language tree structure information corresponding to the tree structure information obtained by 16 and one or more mapping probabilities are obtained from the tree structure mapping model storage unit 13 and 1 corresponding to each of the one or more target language tree structure information. The above target language tree structure probabilities are acquired from the target language tree structure model storage unit 12, and based on the acquired target language tree structure information, one or more words of two or more words constituting the target language tree structure information The appearance probability is acquired from the language model storage unit 14, and based on the acquired source language tree structure probability, the acquired mapping probability, the acquired target language tree structure probability, and the acquired word appearance probability, To calculate the evaluation value of Bunki. The tree structure mapping probability calculation unit 17 can usually be realized by an MPU, a memory, or the like. The processing procedure of the tree structure mapping probability calculation unit 17 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
The source language tree structure probability acquisition unit 171 acquires one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit 16 from the source language tree structure model storage unit 11.
The mapping probability acquisition unit 172 acquires one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit 16 from the tree structure mapping model storage unit 13.

目的言語木構造確率取得手段173は、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得する。ここでの1以上の目的言語木構造情報は、マッピング確率取得手段172が取得した目的言語木構造情報である。   The target language tree structure probability acquisition unit 173 acquires one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information from the target language tree structure model storage unit 12. The one or more target language tree structure information here is the target language tree structure information acquired by the mapping probability acquisition means 172.

単語出現確率取得手段174は、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得する。単語出現確率取得手段174は、例えば、後述する単語bigramモデルの確率を取得しても良い。   Based on the acquired target language tree structure information, the word appearance probability acquisition unit 174 acquires one or more word appearance probabilities of two or more words constituting the target language tree structure information from the language model storage unit 14. The word appearance probability acquisition unit 174 may acquire, for example, the probability of a word bigram model described later.

評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率、および単語出現確率に基づいて、出力の構文木の評価値を算出する。評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出し、かつ、1以上の単語出現確率の積で言語モデル確率を算出し、かつ当該翻訳モデル確率と言語モデル確率に基づいて評価値を算出することは好適である。さらに、評価値算出手段175は、翻訳モデル確率と言語モデル確率の積により評価値を算出することは好適である。   The evaluation value calculation means 175 calculates an evaluation value of the output syntax tree based on the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability. The evaluation value calculation means 175 calculates a translation model probability by a product of the source language tree structure probability, mapping probability, and target language tree structure probability, calculates a language model probability by a product of one or more word appearance probabilities, and It is preferable to calculate the evaluation value based on the translation model probability and the language model probability. Furthermore, it is preferable that the evaluation value calculation means 175 calculates the evaluation value by the product of the translation model probability and the language model probability.

原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175は、通常、MPUやメモリ等から実現され得る。原言語木構造確率取得手段171等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
マージ部18は、木構造マッピング確率計算部17が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成する。合成とは、例えば、2以上の評価値の和を算出することである。また、合成とは、例えば、一の出力の構文木に対応する2以上の評価値を、一の評価値としてグループ化(リンク付けなど)することである。具体的には、マージ部18は、例えば、得られた出力の構文木の木構造情報(例えば、単語列リスト)をキーとして、バッファ(例えば、出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。なお、かかるバッファには、木構造マッピング確率計算部17が得た、出力の木構造情報(単語列リスト)と評価値(例えば、確率)が格納されている。そして、マージ部18は、バッファ中に、得られた木構造情報(例えば、単語列リスト)が存在するか否かを判断する。そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在すると判断した場合、得られた木構造情報(例えば、単語列リスト)に対応する評価値(例えば、確率)として、得られた評価値(例えば、確率)を追記する。なお、一の単語リストに対応する評価値(例えば、確率)が2以上存在する場合、翻訳モデル確率(評価値)の和が、当該単語リストの翻訳確率(評価値)となる。そして、例えば、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率(評価値)となる。そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在しないと判断した場合、得られた木構造情報(例えば、単語列リスト)、および得られた評価値(例えば、確率)を対にして登録する。マージ部18は、通常、MPUやメモリ等から実現され得る。マージ部18の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The source language tree structure probability acquisition unit 171, the mapping probability acquisition unit 172, the target language tree structure probability acquisition unit 173, the word appearance probability acquisition unit 174, and the evaluation value calculation unit 175 can usually be realized by an MPU, a memory, or the like. The processing procedure of the source language tree structure probability acquisition unit 171 and the like is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
The merge unit 18 synthesizes evaluation values corresponding to the same syntax tree in the two or more evaluation values calculated by the tree structure mapping probability calculation unit 17 and the output syntax tree corresponding to the evaluation value. Combining is, for example, calculating the sum of two or more evaluation values. Further, the composition is, for example, grouping (linking or the like) two or more evaluation values corresponding to one output syntax tree as one evaluation value. Specifically, the merge unit 18 temporarily stores a buffer (for example, an output word string list and a probability) using, for example, tree structure information (for example, a word string list) of the obtained output syntax tree as a key. Search). In this buffer, output tree structure information (word string list) and evaluation value (for example, probability) obtained by the tree structure mapping probability calculation unit 17 are stored. Then, the merging unit 18 determines whether or not the obtained tree structure information (for example, a word string list) exists in the buffer. When the merge unit 18 determines that the obtained tree structure information (for example, word string list) exists, the evaluation value (for example, probability) corresponding to the obtained tree structure information (for example, word string list). As a result, the obtained evaluation value (for example, probability) is added. When there are two or more evaluation values (for example, probabilities) corresponding to one word list, the sum of the translation model probabilities (evaluation values) is the translation probability (evaluation value) of the word list. For example, “(sum of two or more translation model probabilities) × language model probability” is the probability (evaluation value) of the word list. When the merging unit 18 determines that the obtained tree structure information (for example, word string list) does not exist, the obtained tree structure information (for example, word string list) and the obtained evaluation value (for example, , Probability) as a pair. The merging unit 18 can be usually realized by an MPU, a memory, or the like. The processing procedure of the merge unit 18 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する。最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値が最大の構文木を出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。最尤列探索部19は、通常、MPUやメモリ等から実現され得る。最尤列探索部19の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The maximum likelihood sequence search unit 19 determines a part or all of the syntax tree of the second language to be output based on the evaluation value calculated by the tree structure mapping probability calculation unit 17, and based on the determined syntax tree Get output information that is part or all of a sentence in two languages. The maximum likelihood sequence search unit 19 determines a syntax tree that outputs a syntax tree having the maximum evaluation value calculated by the tree structure mapping probability calculation unit 17, and a part or all of the second language is based on the determined syntax tree. It is preferable to obtain output information that is a sentence. The maximum likelihood sequence search unit 19 can be usually realized by an MPU, a memory, or the like. The processing procedure of the maximum likelihood sequence search unit 19 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

出力部20は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音声合成による出力、外部の装置への送信等を含む概念である。出力部20は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部20は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
なお、第一言語、第二言語は、日本語、英語、中国語、韓国語等何でも良い。ただし、第一言語と第二言語は異なる言語である。
次に、機械翻訳装置の動作について図2から図5のフローチャートを用いて説明する。
(ステップS201)受付部15は、第一言語の文章を受け付けたか否かを判断する。文章を受け付ければステップS202に行き、文章を受け付けなければステップS201に戻る。
The output unit 20 outputs a second language sentence having one or more pieces of output information acquired by the maximum likelihood sequence search unit 19. Here, the output is a concept including display on a display, printing on a printer, output by speech synthesis, transmission to an external device, and the like. The output unit 20 may be considered as including or not including an output device such as a display or a speaker. The output unit 20 can be realized by output device driver software, or output device driver software and an output device.
The first language and the second language may be anything such as Japanese, English, Chinese, Korean. However, the first language and the second language are different languages.
Next, the operation of the machine translation apparatus will be described with reference to the flowcharts of FIGS.
(Step S201) The reception unit 15 determines whether or not a sentence in the first language has been received. If a sentence is accepted, the process goes to step S202, and if no sentence is accepted, the process returns to step S201.

(ステップS202)入力文構文解析部16は、原言語木構造モデル格納部11の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、ステップS201で受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を得る。なお、本ステップにおける文章の構文解析処理は、先に読み込んだ単語を次々に用いて、ボトムアップに大きな構文木を構成するような処理である。   (Step S202) The input sentence syntax analysis unit 16 uses the source language tree structure model (specifically, source language tree structure information) in the source language tree structure model storage unit 11 to parse the sentence received in step S201. Then, tree structure information, which is information about the tree structure of part or all of the sentence, is obtained. Note that the sentence parsing process in this step is a process of constructing a large syntax tree bottom-up by using previously read words one after another.

(ステップS203)木構造マッピング確率計算部17は、ステップS202において新たな部分木(新たな木構造情報)が取得できたか否かを判断する。新たな部分木が取得できればステップS204に行き、新たな部分木が取得できなければステップS205に行く。   (Step S203) The tree structure mapping probability calculation unit 17 determines whether or not a new subtree (new tree structure information) has been acquired in Step S202. If a new subtree can be acquired, the process goes to step S204. If a new subtree cannot be acquired, the process goes to step S205.

(ステップS204)木構造マッピング確率計算部17は、評価処理を行う。評価処理とは、出力の構文木の評価値を算出する処理である。出力の構文木の評価値は、出力情報(翻訳された文章)が出力される確率を示す情報である。ステップS202に戻る。なお、ステップS202に戻った際には、ステップS202において、直前に作成した部分木を構成する前の単語をも取得して、ボトムアップにより大きな構文木を構成するように処理される。評価処理の詳細について、図3のフローチャートを用いて説明する。   (Step S204) The tree structure mapping probability calculation unit 17 performs an evaluation process. The evaluation process is a process for calculating an evaluation value of the output syntax tree. The evaluation value of the output syntax tree is information indicating the probability that output information (translated text) will be output. The process returns to step S202. When the process returns to step S202, in step S202, the previous word constituting the subtree created immediately before is also acquired, and processing is performed so as to form a large syntax tree by bottom-up. Details of the evaluation process will be described with reference to the flowchart of FIG.

(ステップS205)最尤列探索部19は、文章の最後尾か否かを判断する。最後尾であればステップS206に行き、最後尾でなければステップS210に行く。なお、ステップS205における判断が最後尾でないとの判断の場合、本文章は、2以上の部分木を有することとなる。   (Step S205) The maximum likelihood sequence search unit 19 determines whether or not the end of the sentence is reached. If it is the tail, it goes to step S206, and if it is not the tail, it goes to step S210. If the determination in step S205 is not the end, this sentence has two or more subtrees.

(ステップS206)最尤列探索部19は、上述の構文解析の処理、および評価処理において、バッファ上に登録された複数の翻訳候補(第二言語の1以上の構文木の集合)から、部分木(構文木)の数が最少となる部分木列を取得する。   (Step S206) The maximum likelihood sequence search unit 19 performs partial processing from a plurality of translation candidates (a set of one or more syntax trees in the second language) registered on the buffer in the parsing and evaluation processes described above. A subtree sequence having the smallest number of trees (syntax trees) is obtained.

(ステップS207)最尤列探索部19は、各部分木の出力単語リストから、確率の和が最大となる単語列を決定する。その際、同一の出力単語リストが2以上存在する場合には、当該出力単語リストに対応する確率の和を算出し、確率の和が最大となる単語列を決定する際に、当該確率の和を比較対象とする。
(ステップS208)最尤列探索部19は、ステップS206で決定した1以上の部分木の単語列を連結する。
(Step S207) The maximum likelihood sequence search unit 19 determines a word sequence having the maximum probability from the output word list of each subtree. In this case, if there are two or more identical output word lists, the sum of the probabilities corresponding to the output word list is calculated, and when determining the word string that maximizes the sum of the probabilities, the sum of the probabilities is calculated. To be compared.
(Step S208) The maximum likelihood sequence search unit 19 concatenates the word sequences of one or more subtrees determined in step S206.

(ステップS209)出力部20は、ステップS208で連結された単語列を出力する。なお、かかる単語列は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章(翻訳結果)である。処理を終了する。
(ステップS210)最尤列探索部19は、次の単語にスキップする。次の単語へのスキップとは、構文解析を行う単語のポインタをずらす処理である。ステップS202に戻る。
次に、ステップS204の評価処理について、図3のフローチャートを用いて詳細に説明する。
(Step S209) The output unit 20 outputs the word string connected in step S208. The word string is a second language sentence (translation result) having one or more output information acquired by the maximum likelihood string search unit 19. The process ends.
(Step S210) The maximum likelihood sequence search unit 19 skips to the next word. Skipping to the next word is a process of shifting the pointer of the word to be parsed. The process returns to step S202.
Next, the evaluation process in step S204 will be described in detail using the flowchart in FIG.

(ステップS301)木構造マッピング確率計算部17は、構築した部分木の最上位ノードの規則θfに対応するすべての目的言語木構造モデルの規則θを、目的言語木構造モデル格納部12から取得する。つまり、ここでは、1以上の(θf,θ)の組が取得される。なお、規則とは、原言語木構造情報、目的言語木構造情報等である。
(ステップS302)木構造マッピング確率計算部17は、カウンタiに1を代入する。
(Step S301) The tree structure mapping probability calculation unit 17 obtains the rule θ e of all target language tree structure models corresponding to the rule θ f of the highest node of the constructed subtree from the target language tree structure model storage unit 12. get. That is, here, one or more (θ f , θ e ) pairs are acquired. The rules are source language tree structure information, target language tree structure information, and the like.
(Step S302) The tree structure mapping probability calculation unit 17 substitutes 1 for a counter i.

(ステップS303)木構造マッピング確率計算部17は、i番目の(θf,θ)の組が存在するか否かを判断する。i番目の(θf,θ)の組が存在すればステップS304に行き、存在しなければ上位関数にリターンする。 (Step S303) The tree structure mapping probability calculation unit 17 determines whether or not the i-th (θ f , θ e ) pair exists. If the i-th (θ f , θ e ) pair exists, the process goes to step S304, and if not, the process returns to the upper function.

(ステップS304)木構造マッピング確率計算部17は、i番目の(θf,θ)の組のθを用いて、出力の部分木(目的言語木構造情報)を構築する。木構造マッピング確率計算部17は、以下のように出力の部分木を構築する。つまり、入力文構文解析部16により入力文をボトムアップに構文解析しているので、入力構文木におけるθfの子ノードの非終端記号は既にわかっている。すると、θeの子ノードの非終端記号についても、出力構文木(と出力単語列リスト)は既にわかっていることになる。θeの子ノードの出力構文木を、θeの非終端記号に埋め込む際、子ノードの出力構文木の最上位の構文ラベルと、非終端記号の構文ラベルを比較し、θeのすべての子ノード非終端記号について一致している場合だけ埋め込んで、θeの親ノードをトップとする出力構文木を、木構造マッピング確率計算部17は生成する。
(ステップS305)木構造マッピング確率計算部17は、ステップS304において、出力の部分木が構築できたか否かを判断する。
(ステップS306)木構造マッピング確率計算部17は、構築できた部分木を単語列リストに展開する。
(ステップS307)木構造マッピング確率計算部17は、当該部分木の翻訳モデル確率を算出する。翻訳モデル確率を算出する処理については、図4のフローチャートを用いて、詳細に説明する。
(ステップS308)木構造マッピング確率計算部17は、当該部分木の言語モデル確率を算出する。言語モデル確率を算出する処理については、図5のフローチャートを用いて、詳細に説明する。
(Step S304) The tree structure mapping probability calculation unit 17 constructs an output subtree (target language tree structure information) using θ e of the i-th (θ f , θ e ) pair. The tree structure mapping probability calculation unit 17 constructs an output subtree as follows. That is, since the input sentence is analyzed bottom-up by the input sentence syntax analysis unit 16, the non-terminal symbols of the child nodes of θ f in the input syntax tree are already known. Then, the output syntax tree (and the output word string list) is already known for the non-terminal symbols of the child nodes of θ e . The output syntax tree of children nodes of theta e, theta e when embedding the non-terminal symbols, compares the syntax labels highest output syntax tree of children nodes, the syntax label non-terminal symbol, theta all child nodes of e embedded only if they match the non-terminal symbols, the output syntax tree to the top of the parent node of the theta e, tree mapping probability calculation unit 17 generates.
(Step S305) The tree structure mapping probability calculation unit 17 determines whether or not an output subtree has been constructed in step S304.
(Step S306) The tree structure mapping probability calculation unit 17 expands the constructed subtree into a word string list.
(Step S307) The tree structure mapping probability calculation unit 17 calculates the translation model probability of the subtree. The process of calculating the translation model probability will be described in detail with reference to the flowchart of FIG.
(Step S308) The tree structure mapping probability calculation unit 17 calculates a language model probability of the subtree. The process of calculating the language model probability will be described in detail with reference to the flowchart of FIG.

(ステップS309)木構造マッピング確率計算部17は、ステップS307で算出した翻訳モデル確率と、ステップS308で算出した言語モデル確率を用いて、出力単語列の確率を算出する。通常、木構造マッピング確率計算部17は、「翻訳モデル確率×言語モデル確率」により、出力単語列の確率を算出する。出力単語列の確率とは、入力単語列が出力単語列に翻訳される確率である。
(ステップS310)マージ部18は、ステップS306で得られた単語列リストをキーとして、バッファ(出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。
(Step S309) The tree structure mapping probability calculation unit 17 calculates the probability of the output word string using the translation model probability calculated in step S307 and the language model probability calculated in step S308. Normally, the tree structure mapping probability calculation unit 17 calculates the probability of the output word string by “translation model probability × language model probability”. The probability of the output word string is the probability that the input word string is translated into the output word string.
(Step S310) The merge unit 18 searches the buffer (the output word string list and the buffer in which the probability is temporarily stored) using the word string list obtained in step S306 as a key.

(ステップS311)マージ部18は、バッファ中に、ステップS306で得られた単語列リストが存在するか否かを判断する。単語列リストが存在すればステップS312に行き、単語列リストが存在しなければステップS313に行く。   (Step S311) The merge unit 18 determines whether or not the word string list obtained in step S306 exists in the buffer. If the word string list exists, the process goes to step S312. If the word string list does not exist, the process goes to step S313.

(ステップS312)マージ部18は、ステップS306で得られた単語列リストに対応する確率として、ステップS309で得られた確率を追記する。ステップS314に行く。なお、一の単語リストに対応する確率が2以上存在する場合、翻訳モデル確率の和が、当該単語リストの翻訳確率となる。そして、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率となる。
(ステップS313)マージ部18は、ステップS306で得られた単語列リスト、およびステップS309で得られた確率を対にして登録する。
(ステップS314)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。ステップS303に戻る。
次に、ステップS307の翻訳モデル確率を算出する処理について、図4のフローチャートを用いて、詳細に説明する。
(ステップS401)原言語木構造確率取得手段171は、原言語の木構造を用いて、原言語木構造確率を、原言語木構造モデル格納部11から取得する。
(Step S312) The merge unit 18 adds the probability obtained in step S309 as the probability corresponding to the word string list obtained in step S306. Go to step S314. When there are two or more probabilities corresponding to one word list, the sum of the translation model probabilities becomes the translation probability of the word list. Then, “(sum of two or more translation model probabilities) × language model probability” is the probability of the word list.
(Step S313) The merging unit 18 registers the word string list obtained in Step S306 and the probability obtained in Step S309 as a pair.
(Step S314) The tree structure mapping probability calculation unit 17 increments the counter i by one. The process returns to step S303.
Next, the process of calculating the translation model probability in step S307 will be described in detail using the flowchart of FIG.
(Step S401) The source language tree structure probability acquisition unit 171 uses the source language tree structure to acquire the source language tree structure probability from the source language tree structure model storage unit 11.

(ステップS402)マッピング確率取得手段172は、原言語の木構造(原言語木構造情報)、および出力の部分木(目的言語木構造情報)を用いて、マッピング確率を木構造マッピングモデル格納部13から取得する。
(ステップS403)目的言語木構造確率取得手段173は、出力の部分木を用いて、目的言語木構造確率を目的言語木構造モデル格納部12から取得する。
(Step S402) The mapping probability acquisition means 172 uses the source language tree structure (source language tree structure information) and the output subtree (target language tree structure information) to determine the mapping probability to the tree structure mapping model storage unit 13. Get from.
(Step S403) The target language tree structure probability acquisition unit 173 acquires the target language tree structure probability from the target language tree structure model storage unit 12 using the output subtree.

(ステップS404)評価値算出手段175は、原言語木構造確率、マッピング確率、および目的言語木構造確率に基づいて、出力の構文木の翻訳モデル確率を算出する。評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出することは好適である。上位関数にリターンする。
なお、図4のフローチャートにおいて、原言語木構造確率、マッピング確率、目的言語木構造確率を取得する順序は問わないことは言うまでもない。
(Step S404) The evaluation value calculation means 175 calculates a translation model probability of the output syntax tree based on the source language tree structure probability, the mapping probability, and the target language tree structure probability. The evaluation value calculation means 175 preferably calculates the translation model probability by the product of the source language tree structure probability, the mapping probability, and the target language tree structure probability. Return to upper function.
In the flowchart of FIG. 4, it goes without saying that the order of acquiring the source language tree structure probability, the mapping probability, and the target language tree structure probability does not matter.

次に、ステップS308の言語モデル確率を算出する処理について、図5のフローチャートを用いて、詳細に説明する。本フローチャートにおいて算出する言語モデル確率の言語モデルは、単語bigramモデルである。
(ステップS501)木構造マッピング確率計算部17は、カウンタiに1を代入する。
(ステップS502)木構造マッピング確率計算部17は、i番目の単語が存在するか否かを判断する。i番目の単語が存在すればステップS503に行き、i番目の単語が存在しなければステップS504に行く。
Next, the process of calculating the language model probability in step S308 will be described in detail using the flowchart of FIG. The language model of the language model probability calculated in this flowchart is a word bigram model.
(Step S501) The tree structure mapping probability calculation unit 17 substitutes 1 for a counter i.
(Step S502) The tree structure mapping probability calculation unit 17 determines whether or not the i-th word exists. If the i-th word exists, the process goes to step S503, and if the i-th word does not exist, the process goes to step S504.

(ステップS503)木構造マッピング確率計算部17は、(i−1)番目の単語、i番目の単語を取得する。なお、iが「1」の時は、木構造マッピング確率計算部17は、「<S>」および1番目の単語を取得する。「<S>」は、文の開始を示す記号の文開始記号である。ステップS505に行く。
(ステップS504)木構造マッピング確率計算部17は、(i−1)番目の単語、「</S>」を取得する。なお、「</S>」は、文の終了を示す記号の文終了記号である。
(Step S503) The tree structure mapping probability calculation unit 17 acquires the (i-1) th word and the i-th word. When i is “1”, the tree structure mapping probability calculation unit 17 acquires “<S>” and the first word. “<S>” is a sentence start symbol indicating a start of a sentence. Go to step S505.
(Step S504) The tree structure mapping probability calculation unit 17 acquires the (i-1) th word, “</ S>”. “</ S>” is a sentence end symbol indicating the end of the sentence.

(ステップS505)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」に対応する情報を、言語モデル格納部14から検索する。   (Step S505) The word appearance probability acquisition means 174 selects “<S>, i-th word”, “(i−1) -th word, i-th word” or “(i−1) -th word, < Information corresponding to “/ S>” is searched from the language model storage unit 14.

(ステップS506)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」が言語モデル格納部14に存在するか否かを判断する。言語モデル格納部14に存在すればステップS507に行き、存在しなければステップS508に行く。
(ステップS507)単語出現確率取得手段174は、対応する単語出現確率を、言語モデル格納部14から取得し、一時蓄積する。ステップS509に行く。
(ステップS508)単語出現確率取得手段174は、単語出現確率を予め決められた値とし、一時蓄積する。なお、予め決められた値は、単語出現確率取得手段174が保持している、とする。
(ステップS509)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。
(Step S506) The word appearance probability acquisition means 174 selects “<S>, i-th word”, “(i−1) -th word, i-th word” or “(i−1) -th word, < It is determined whether or not “/ S>” exists in the language model storage unit 14. If it exists in the language model storage unit 14, the process goes to step S507, and if not, the process goes to step S508.
(Step S507) The word appearance probability acquisition unit 174 acquires the corresponding word appearance probability from the language model storage unit 14, and temporarily accumulates it. Go to step S509.
(Step S508) The word appearance probability acquisition means 174 temporarily stores the word appearance probability as a predetermined value. It is assumed that the predetermined value is held by the word appearance probability acquisition unit 174.
(Step S509) The tree structure mapping probability calculation unit 17 increments the counter i by 1.

(ステップS510)木構造マッピング確率計算部17は、ラストか否かを判断する。ラストであればステップS511に行き、ラストでなければステップS502に戻る。なお、ラストか否かは、「</S>」が出現したか否かにより判断され得る。
(ステップS511)木構造マッピング確率計算部17は、一時蓄積した1以上の単語出現確率の積を算出する。かかる1以上の単語出現確率の積が、言語モデル確率である。上位関数にリターンする。
(Step S510) The tree structure mapping probability calculation unit 17 determines whether it is the last. If it is the last, the process goes to step S511, and if it is not the last, the process returns to step S502. Whether or not it is the last can be determined by whether or not “</ S>” appears.
(Step S511) The tree structure mapping probability calculation unit 17 calculates a product of one or more temporarily stored word appearance probabilities. The product of the one or more word appearance probabilities is the language model probability. Return to upper function.

なお、図5のフローチャートにおいて、言語モデルは、単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデルなどの、他の言語モデルを用いても良い。他の言語モデルについては、公知技術であるので、詳細な説明は省略する。
上記のフローチャートで説明した機械翻訳装置の翻訳方法は、以下の翻訳方法である。
In the flowchart of FIG. 5, the word bigram model is used as the language model, but other language models such as the word trigram model and the part-of-speech trigram model may be used. Since other language models are well-known techniques, detailed description thereof is omitted.
The translation method of the machine translation apparatus described in the above flowchart is the following translation method.

つまり、本翻訳方法は、統計翻訳の一種である。統計翻訳は、入力の単語列fが与えられたとき、確率を最大化する出力の単語列eを、すべての可能な組み合わせ中から探索することにより、翻訳を行う方法である。探索結果は、以下の数式1により表わされる。数式1において「argmax」は、確率を最大化する出力の単語列を取得することを示す。確率を最大化する出力の単語列とは、翻訳結果の文章(第二言語の文章)である。

Figure 2007018462
なお、数式1において、P(e)を言語モデル確率、P(f|e)を逆方向翻訳モデル確率、P(e|f)を順方向翻訳モデル確率、P(f|e)P(e|f)を単に翻訳モデル確率と言う。
つまり、本具体例において、翻訳結果の文章を取得することは、言語モデル確率と翻訳モデル確率の積が最大の単語列を取得することである。
以下、翻訳モデル確率の算出方法について、数式を用いて説明する。 That is, this translation method is a kind of statistical translation. Statistical translation is a method of performing translation by searching an output word string e that maximizes a probability from all possible combinations when an input word string f is given. The search result is expressed by the following Equation 1. In Equation 1, “argmax” indicates that an output word string that maximizes the probability is acquired. The output word string that maximizes the probability is a sentence (second language sentence) as a translation result.
Figure 2007018462
In Equation 1, P (e) is a language model probability, P (f | e) is a backward translation model probability, P (e | f) is a forward translation model probability, and P (f | e) P (e | F) is simply referred to as a translation model probability.
That is, in this specific example, acquiring the translation result sentence means acquiring the word string having the maximum product of the language model probability and the translation model probability.
Hereinafter, a method for calculating the translation model probability will be described using mathematical expressions.

構文トランスファ方式の統計翻訳は、翻訳モデル中に隠れ変数として原言語・目的言語の構文木(それぞれF、Eと示し、単語列f,eを生成する)を仮定し、木構造同士のマッピングを行うことにより、翻訳文を生成する。
本機械翻訳措置において、翻訳モデルを原言語(入力)の木構造モデル、目的言語(出力)の木構造モデル、および順方向・逆方向木構造マッピングモデルに分解する。
具体的には、数式2で表現される。

Figure 2007018462
The statistical transfer of the syntax transfer method assumes a syntax tree of the source language and the target language (represented as F and E, respectively, and generates word strings f and e) as hidden variables in the translation model, and maps the tree structures to each other. By doing so, a translated sentence is generated.
In this machine translation measure, the translation model is decomposed into a source language (input) tree structure model, a target language (output) tree structure model, and a forward / reverse tree structure mapping model.
Specifically, it is expressed by Equation 2.
Figure 2007018462

ここで、P(F|f)は、原言語の木構造モデル確率である。また、P(E|e)は、目的言語の木構造モデル確率である。また、P(E|F)は、順方向木構造マッピングモデル確率である。また、P(F|E)は、逆方向木構造マッピングモデル確率である。P(E|F)P(F|E)を、単に木構造マッピングモデル確率と言う。   Here, P (F | f) is a tree structure model probability of the source language. P (E | e) is a tree structure model probability of the target language. P (E | F) is a forward tree structure mapping model probability. P (F | E) is the backward tree structure mapping model probability. P (E | F) P (F | E) is simply referred to as a tree structure mapping model probability.

しかし、構文木全体を変換することはできないため、構文木を構成する文脈自由文法規則単位に変換を行う。文脈自由文法規則単位とは、親ノードの非終端記号に対して、子ノードの非終端記号または終端記号列を生成する規則である。たとえば、原言語の構文木Eを構成する文脈自由文法規則をθ、目的言語の構文木F構成する文脈自由文法規則をθとしたとき、各モデルの確率は、以下の数式3から数式5で算出する。数式3は、原言語の木構造モデル確率を算出する式である。数式4は、目的言語の木構造モデル確率を算出する式である。数式5は、木構造マッピングモデル確率を算出する式である。

Figure 2007018462
Figure 2007018462
Figure 2007018462
However, since the entire syntax tree cannot be converted, the conversion is performed in units of context-free grammar rules constituting the syntax tree. A context-free grammar rule unit is a rule for generating a non-terminal symbol or terminal symbol string of a child node for a non-terminal symbol of a parent node. For example, when the context-free grammar rule constituting the source language syntax tree E is θ e and the context-free grammar rule constituting the target language syntax tree F is θ f , the probabilities of the respective models are expressed by the following formulas 3 to 3. 5 is calculated. Formula 3 is a formula for calculating the tree structure model probability of the source language. Formula 4 is a formula for calculating the tree structure model probability of the target language. Expression 5 is an expression for calculating the tree structure mapping model probability.
Figure 2007018462
Figure 2007018462
Figure 2007018462

なお、本機械翻訳装置において、翻訳を行う際には、翻訳モデル確率は再帰的に計算する。たとえば、ある部分木の最上位ノードNが、その直下にj個の部分木を含んでいる場合、以下の数式6で算出する。

Figure 2007018462
さらに、本機械翻訳装置において、例えば、言語モデルは、単語bigramモデルを用いる。つまり、単語bigramモデルは、数式7により、確率が算出される。
Figure 2007018462
In this machine translation apparatus, when translation is performed, the translation model probability is recursively calculated. For example, when the highest node N i of a certain subtree includes j subtrees immediately below it, the following equation 6 is used.
Figure 2007018462
Furthermore, in the machine translation apparatus, for example, a word bigram model is used as the language model. That is, the probability of the word bigram model is calculated according to Equation 7.
Figure 2007018462

本機械翻訳装置において、上述した数式により、第二言語の文章(出力単語列リスト)を評価し、例えば、最も評価値が大きい出力単語列リストを出力する。かかる出力単語列リストが、翻訳結果の文章(第二言語の文章)である。
以下、本実施の形態における機械翻訳装置の具体的な動作について説明する。
In the machine translation apparatus, the sentence (output word string list) in the second language is evaluated by the above-described mathematical formula, and, for example, an output word string list having the largest evaluation value is output. This output word string list is a translation result sentence (second language sentence).
Hereinafter, a specific operation of the machine translation apparatus in the present embodiment will be described.

図6は、本機械翻訳装置の原言語木構造モデル格納部11に格納されている原言語木構造モデルの例である。本原言語木構造モデルは、名前、原言語木構造情報、原言語木構造確率「P(θ)」の属性値を有する1以上の原言語木構造レコードを有する。名前は、原言語木構造情報、原言語木構造確率の組を識別する情報である。原言語木構造情報は、親ノードと子ノード列を有する。つまり、原言語木構造情報は、親ノードと子ノード列により、木構造を構成している。また、原言語木構造情報の中には、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報が含まれる。原言語長単位句木構造情報は、例えば、名前「SRC−102」、「SRC−103」、「SRC−105」に対応する原言語木構造情報である。また、図6の原言語木構造確率「P(θ)」等における、例えば、「3.67e−3」は、「3.67×10−3」のことである。また、原言語木構造確率「P(θ)」は、原言語において、親ノードが子ノード列を生成する確率である。 FIG. 6 is an example of a source language tree structure model stored in the source language tree structure model storage unit 11 of the machine translation apparatus. The source language tree structure model includes one or more source language tree structure records having attribute values such as a name, source language tree structure information, and a source language tree structure probability “P (θ f )”. The name is information for identifying a set of source language tree structure information and source language tree structure probabilities. The source language tree structure information has a parent node and a child node string. That is, the source language tree structure information constitutes a tree structure by parent nodes and child node strings. The source language tree structure information includes source language length unit phrase tree structure information which is information including a rule having two or more terminal symbols as child nodes and a parent node being a non-terminal symbol. The source language long unit phrase tree structure information is, for example, source language tree structure information corresponding to the names “SRC-102”, “SRC-103”, and “SRC-105”. For example, “3.67e-3” in the source language tree structure probability “P (θ f )” of FIG. 6 is “3.67 × 10 −3 ”. The source language tree structure probability “P (θ f )” is a probability that a parent node generates a child node sequence in the source language.

図7は、本機械翻訳装置の目的言語木構造モデル格納部12に格納されている目的言語木構造モデルの例である。本目的言語木構造モデルは、名前、目的言語木構造情報、目的言語木構造確率「P(θ)」の属性値を有する1以上の目的言語木構造レコードを有する。名前は、目的言語木構造情報、目的言語木構造確率の組を識別する情報である。目的言語木構造情報は、原言語木構造情報と同様に、親ノードと子ノード列を有する。また、目的言語木構造確率「P(θ)」は、目的言語において、対応する目的言語木構造情報が現れる確率である。 FIG. 7 is an example of the target language tree structure model stored in the target language tree structure model storage unit 12 of the machine translation apparatus. The target language tree structure model includes one or more target language tree structure records having an attribute value of name, target language tree structure information, and target language tree structure probability “P (θ e )”. The name is information for identifying a set of target language tree structure information and target language tree structure probability. Similar to the source language tree structure information, the target language tree structure information includes a parent node and a child node string. The target language tree structure probability “P (θ e )” is the probability that the corresponding target language tree structure information will appear in the target language.

図8は、木構造マッピングモデル格納部13に格納されている木構造マッピングモデルの例である。本木構造マッピングモデルは、マッピング情報とマッピング確率「P(θ|θ)P(θ|θ)」を有する木構造マッピングレコードを1以上有する。マッピング情報は、目的言語の名前と原言語の名前の情報を有する。つまり、マッピング情報は、2つの名前で特定される目的言語の木構造と、原言語の木構造との対応を示す情報である。また、マッピング確率「P(θ|θ)P(θ|θ)」は、順方向の木構造マッピングモデル確率と逆方向の木構造マッピングモデル確率の積である。 FIG. 8 is an example of a tree structure mapping model stored in the tree structure mapping model storage unit 13. The main tree structure mapping model has one or more tree structure mapping records having mapping information and mapping probability “P (θ e | θ f ) P (θ f | θ e )”. The mapping information includes information on the name of the target language and the name of the source language. That is, the mapping information is information indicating the correspondence between the tree structure of the target language identified by two names and the tree structure of the source language. The mapping probability “P (θ e | θ f ) P (θ f | θ e )” is the product of the forward tree structure mapping model probability and the backward tree structure mapping model probability.

図9は、言語モデル格納部14に格納されている言語モデルの例である。本言語モデルは、第一の単語(wi−1 e)と、第二の単語(w e)と、第一の単語の次に第二の単語が出現する確率を示す情報である単語出現確率(P(w e|wi−1 e)を有する単語出現確率を1以上保持している。なお、図9において「<S>」は文開始記号、「</S>」は文終了記号である。 FIG. 9 is an example of a language model stored in the language model storage unit 14. This language model is a word that is information indicating the first word (w i-1 e ), the second word (w i e ), and the probability that the second word will appear after the first word. It holds at least one word appearance probability having an appearance probability (P (w i e | w i−1 e ), where “<S>” is a sentence start symbol and “</ S>” is It is a sentence end symbol.

かかる状況において、本機械翻訳装置は、例えば、図10に示すような構文トランスファ方式の機械翻訳を行う。また、本機械翻訳装置は、ここでは、日英翻訳を行う、とする。図10は、「バスは12時に出ますか」という日本語の文章を構文解析し、日本語構文木Fを取得し、次に、当該日本語構文木Fと英語構文木Eとのマッピングを行って英語文を出力することを示している。なお、図10において、「S」は文章、「NP」は名詞句、「NOUN」は名詞、「VP」は動詞句、「PP」は副詞句、「V」は動詞、「P」は助詞、「NUM」は数字を示す。また、図10において、「SQ」は疑問文、「NN」は名詞、「VB」は動詞、「IN」は前置詞、「CD」は数字を示す。(正しいでしょうか?)
本機械翻訳装置は、かかる構文トランスファ方式の機械翻訳において、翻訳モデル中に、複数の単語から成り、非終端記号を含まない規則(長単位句木構造情報)を含んでいる。
そして、ユーザは、例えば、キーボードから第一言語の文章「バスは12時に出ますか」を入力した、とする。そして、受付部15は、第一言語の文章「バスは12時に出ますか」を受け付ける。
以下、かかる場合において、本機械翻訳装置が、「12時に出」の部分翻訳を行う際の処理について説明する。
そして、本機械翻訳装置は、図11に示す長単位句木構造情報、およびそれぞれに対応する翻訳モデル確率、言語モデル確率を保持している、とする。
In this situation, the machine translation apparatus performs syntax transfer machine translation as shown in FIG. 10, for example. Here, it is assumed that the machine translation apparatus performs Japanese-English translation. FIG. 10 parses a Japanese sentence “Do the bus leave at 12:00”, obtains a Japanese syntax tree F, and then maps the Japanese syntax tree F to the English syntax tree E? It shows that it goes and outputs an English sentence. In FIG. 10, “S” is a sentence, “NP” is a noun phrase, “NOUN” is a noun, “VP” is a verb phrase, “PP” is an adverb phrase, “V” is a verb, and “P” is a particle. “NUM” indicates a number. In FIG. 10, “SQ” indicates a question sentence, “NN” indicates a noun, “VB” indicates a verb, “IN” indicates a preposition, and “CD” indicates a number. (Is it correct?)
This machine translation apparatus includes a rule (long unit phrase tree structure information) that includes a plurality of words and does not include a non-terminal symbol in a translation model in such syntax transfer type machine translation.
Then, for example, it is assumed that the user inputs a sentence in the first language “Does the bus leave at 12:00” from the keyboard? And the reception part 15 receives the sentence of the first language "Is a bus appearing at 12:00?"
Hereinafter, in such a case, a process when the machine translation apparatus performs partial translation of “out at 12:00” will be described.
The machine translation apparatus holds the long unit phrase tree structure information shown in FIG. 11 and the translation model probabilities and language model probabilities corresponding thereto.

次に、入力文構文解析部16は、図6の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、「12時に出」を構文解析する。そして、入力文構文解析部16は、SRC−002,SRC−003,SRC−103が適用可能であり、どれも「12時に出」についてVPを構成することを検出し、SRC−002,SRC−003,SRC−103を取得する。かかる3つの部分木「SRC−002」,「SRC−003」,「SRC−103」は、入力部分木を示す情報(その名前)である。
そして、木構造マッピング確率計算部17は、3つの入力部分木(原言語木構造情報)に対して、以下の処理を行う。
Next, the input sentence syntax analysis unit 16 parses “out at 12:00” using the source language tree structure model (specifically, source language tree structure information) of FIG. Then, the input sentence syntax analysis unit 16 detects that the SRC-002, SRC-003, and SRC-103 are applicable, and that any of them constitutes a VP for “12:00”, and SRC-002, SRC- 003, SRC-103 is acquired. The three subtrees “SRC-002”, “SRC-003”, and “SRC-103” are information (names) indicating the input subtree.
Then, the tree structure mapping probability calculation unit 17 performs the following processing on the three input subtrees (source language tree structure information).

まず、木構造マッピング確率計算部17は、入力の部分木の最上位ノードに使われた規則θ(ここでは、原言語木構造モデルの名前で特定する)に対応する目的言語木構造モデルの規則θ(ここでは、目的言語木構造モデルの名前で特定する)を図8の木構造マッピングモデルから取得する。SRC−002に対応するθは、TRG−002,TRG−003、SRC−003に対応するθはTRG−002,TRG−003、SRC−103に対応するθはTRG−104である。 First, the tree structure mapping probability calculation unit 17 sets the target language tree structure model corresponding to the rule θ f (specified here by the name of the source language tree structure model) used for the top node of the input subtree. The rule θ e (identified here by the name of the target language tree structure model) is obtained from the tree structure mapping model of FIG. Θ e corresponding to SRC-002 is TRG-002, TRG-003, θ e corresponding to SRC-003 is TRG-002, TRG-003, and θ e corresponding to SRC-103 is TRG-104.

ここで、木構造マッピング確率計算部17は、(θ,θ)の組「(SRC−002,TRG−002)」「(SRC−002,TRG−003)」「(SRC−003,TRG−002)」「(SRC−003,TRG−003)」「(SRC−103,TRG−104)」を取得する。
次に、木構造マッピング確率計算部17は、上記5組の(θ,θ)のそれぞれに対して、以下の処理を行う。
Here, the tree structure mapping probability calculation unit 17 sets the (θ f , θ e ) pairs “(SRC-002, TRG-002)”, “(SRC-002, TRG-003)”, “(SRC-003, TRG). -002) "" (SRC-003, TRG-003) "" (SRC-103, TRG-104) ".
Next, the tree structure mapping probability calculation unit 17 performs the following processing for each of the five sets (θ f , θ e ).

まず、木構造マッピング確率計算部17は、θを用いて、部分木を構築する(図12のステップ1、ステップ2)。この例では、図12の3つの部分木が構築される。(SRC−002,TRG−002)の組、および(SRC−003,TRG−003)の組の場合は、θに適合する子供の部分木が存在しないため、出力の部分木は構築されない、とする。図12の(1)は、(SRC−002,TRG−003)の組に対応する部分木、(2)は「(SRC−003,TRG−002)の組に対応する部分木、(3)は(SRC−103,TRG−104)の組に対応する部分木である。 First, the tree structure mapping probability calculation unit 17 constructs a subtree using θ e (steps 1 and 2 in FIG. 12). In this example, the three subtrees in FIG. 12 are constructed. (SRC-002, TRG-002 ) set, and in the case of (SRC-003, TRG-003 ) set, because there is no matching children subtrees in theta e, subtree output is not built, And (1) in FIG. 12 is a subtree corresponding to the set of (SRC-002, TRG-003), (2) is a subtree corresponding to the set of (SRC-003, TRG-002), (3) Is a subtree corresponding to a set of (SRC-103, TRG-104).

次に、図12の(1)から(3)の出力部分木の単語列リストを展開し、新たな出力単語リストを得る(図12のステップ3)。そして、各出力単語列に対して、数式6、数式7を用いて翻訳モデル確率、言語モデル確率を算出する。なお、部分木の言語モデル確率は、ここでは、文開始・終了記号を付けずに算出し、図9にない単語列に関しては、例えば、確率「1.0e-7」を割り当てる、とする。   Next, the word string list of the output subtrees (1) to (3) in FIG. 12 is expanded to obtain a new output word list (step 3 in FIG. 12). Then, for each output word string, the translation model probability and the language model probability are calculated using Equation 6 and Equation 7. Here, the language model probability of the subtree is calculated without a sentence start / end symbol, and for a word string not shown in FIG. 9, for example, a probability “1.0e-7” is assigned.

例えば、(SRC−002,TRG−003)の組を用いた場合、「12時に」の出力単語列リストは「at 12 o'clock」,「at noon」,「to noon」であり、「出」の出力単語列リストは「leave」「start」である。したがって、その組み合わせを展開し、翻訳モデル確率、言語モデル確率を算出すると、図13の出力単語列リストを得る。
図13において、「入力構文木」は原言語木構造情報の例である。また、「出力構文木」は「目的言語木構造情報」の例である。
同様に、(SRC−003,TRG−002)の組、(SRC−103,TRG−104)の組の場合は、図14の出力単語列リストを得る。
以上の処理により、木構造マッピング確率計算部17は、図13、図14の出力単語列リストを得ることができる。
For example, when the set of (SRC-002, TRG-003) is used, the output word string list of “12 o'clock” is “at 12 o'clock”, “at noon”, “to noon”, and “output” The output word string list of “leave” is “leave” and “start”. Therefore, when the combination is expanded and the translation model probability and the language model probability are calculated, the output word string list of FIG. 13 is obtained.
In FIG. 13, “input syntax tree” is an example of source language tree structure information. The “output syntax tree” is an example of “target language tree structure information”.
Similarly, in the case of the set of (SRC-003, TRG-002) and the set of (SRC-103, TRG-104), the output word string list of FIG. 14 is obtained.
Through the above processing, the tree structure mapping probability calculation unit 17 can obtain the output word string list of FIGS.

次に、木構造マッピング確率計算部17は、入力単語列、入力部分木の構文ラベル、出力部分木の構文ラベルが同一の出力単語列リストが既にバッファに登録されている場合、両者の出力単語列リストをマージする。マージの際、同一の出力単語列が存在する場合は、数式2に従い、翻訳モデル確率の和を算出し、バッファに登録する。   Next, if the output word string list having the same input word string, the syntax label of the input subtree, and the syntax label of the output subtree has already been registered in the buffer, the tree structure mapping probability calculation unit 17 outputs both output words. Merge column lists. If the same output word string exists at the time of merging, the sum of translation model probabilities is calculated according to Equation 2 and registered in the buffer.

ここで、木構造マッピング確率計算部17は、例えば、マージの結果、出力単語列リストのサイズが、一定値(Nと表記し、ここでは3を仮定する)を超える場合は、翻訳モデル確率と言語モデル確率の積の上位N個だけを残し、登録する。かかる処理により高速な翻訳処理が可能となる。
上記例の場合、マージの結果、図15出力単語列リストが得られ、例えば、上位3個だけがバッファに登録される(図12のステップ4)。
Here, for example, when the size of the output word string list exceeds a certain value (denoted as N, assuming 3 here) as a result of merging, the tree structure mapping probability calculation unit 17 calculates the translation model probability as Only the top N products of language model probabilities are left and registered. Such processing enables high-speed translation processing.
In the case of the above example, as a result of merging, the output word string list shown in FIG. 15 is obtained. For example, only the top three are registered in the buffer (step 4 in FIG. 12).

上記処理により、新たに「12時に出」の部分翻訳結果が得られるので、これを再帰的に入力文全体について繰り返すことにより、入力文「バスは12時に出ますか」の部分翻訳結果を得ることができる。なお、最終的に得られた出力単語列リストは、文開始・終了記号込みで言語モデル確率が再計算され、翻訳モデル確率との積が最大の出力単語列を、入力文の翻訳結果として出力する。
以上、本実施の形態によれば、単語と句(複数単語)を区別せず翻訳を行うことができる。
また、本実施の形態によれば、句や単語の順序を階層的に入れ替えることができ、構文的に正しい翻訳文を出力することができる。結果的に翻訳品質が向上する。
As a result of the above processing, a new partial translation result of “Exit at 12 o'clock” is obtained. By recursively repeating this for the entire input sentence, a partial translation result of the input sentence “Is the bus exit at 12 o'clock” is obtained. be able to. In the final output word string list, the language model probabilities are recalculated including the sentence start and end symbols, and the output word string with the maximum product with the translation model probability is output as the translation result of the input sentence. To do.
As described above, according to the present embodiment, translation can be performed without distinguishing words and phrases (a plurality of words).
Further, according to the present embodiment, the order of phrases and words can be hierarchically changed, and a syntactically correct translated sentence can be output. As a result, translation quality is improved.

また、本実施の形態によれば、構文木に複数の候補が得られた時にも、コーパスから自動的に得られた原言語・目的言語木構造モデル、木構造マッピングモデルに基づく確率を基に、最適な出力単語列を構成することができる。したがって、シソーラス等は必要としない。   Further, according to the present embodiment, even when a plurality of candidates are obtained in the syntax tree, based on the probabilities based on the source language / target language tree structure model and tree structure mapping model automatically obtained from the corpus. An optimal output word string can be constructed. Therefore, a thesaurus or the like is not necessary.

また、本実施の形態の具体例によれば、上記ステップS206の処理(部分木の数が最少となる出力部分木を選択する処理)の例について説明しなかった。かかる処理は、例えば、以下のような処理である。「すみませんバスは12時に出ますか」が入力されると、部分木の数が最小のものとしては、「すみません」、「バスは12時に出ますか」という2つが得られる。そして、それぞれ「excuse me」、「will the bus leave at 12 o'clock」「will the bus leave at noon」などの出力単語列が得られる。そして、それぞれの部分木から、確率最大の出力単語列を取得し、連結して出力すると、「excuse me will the bus leave at 12 o'clock」となる。   Further, according to the specific example of the present embodiment, the example of the process of step S206 (a process of selecting an output subtree having the smallest number of subtrees) has not been described. Such processing is, for example, the following processing. When "I'm sorry, does the bus leave at 12:00" is entered, the two subtrees with the minimum number of subtrees are "I'm sorry" and "Do the bus leave at 12:00"? Then, output word strings such as “excuse me”, “will the bus leave at 12 o'clock”, and “will the bus leave at noon” are obtained. Then, when an output word string having the maximum probability is obtained from each subtree and connected and output, “excuse me will the bus leave at 12 o'clock” is obtained.

さらに、本実施の形態において、出力単語列が多数存在する場合にも、入力単語列、入力・出力の部分木の構文ラベルが同じ出力単語列から、確率が上位の単語列だけを残すことを行えば、適切に候補を削減することができ、翻訳速度が向上する。
なお、本実施の形態の具体例において、言語モデルとして単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデル等、他の言語モデルを用いてもよい。
Furthermore, in the present embodiment, even when there are a large number of output word strings, only word strings having higher probabilities are left out of the input word strings and the output word strings having the same syntax label of the input / output subtree. If done, candidates can be reduced appropriately and the translation speed is improved.
In the specific example of the present embodiment, the word bigram model is used as the language model, but other language models such as the word trigram model and the part-of-speech trigram model may be used.

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納しており、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、第一言語の文章を受け付ける受付ステップと、前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索ステップと、前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム、である。   Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded on a recording medium such as a CD-ROM and distributed. Note that the software that implements the information processing apparatus according to the present embodiment is the following program. In other words, this program is information about the tree structure of the first language, which is the language of the original sentence to be translated, on the computer, and is a tree with a long unit phrase consisting of a plurality of words and not including a nonterminal symbol as one node. Source language tree structure information including one or more source language tree structure records having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information. Information on the tree structure of the second language, which is the language of the sentence of the translation result, storing the model, and information on the tree structure with a long unit phrase consisting of multiple words and not including non-terminal symbols as one node A target language tree structure model having at least one target language tree structure record having a target language tree structure probability that is information indicating the probability of the tree structure corresponding to the target language tree structure information. A tree structure mapping record having mapping information which is information indicating the correspondence between the source language tree structure information and the target language tree structure information, and mapping probability which is information indicating the correspondence probability indicated by the mapping information And a language model having one or more word appearance probabilities having word appearance probabilities that are information on probabilities related to successive appearances of two or more words in the second language, An accepting step for accepting a sentence in a first language; an input sentence syntactic analyzing step for sequentially obtaining a tree structure information that is information on a tree structure of a part or all of the sentence by parsing the sentence accepted in the accepting step; , One or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step are acquired, and the input sentence syntax analysis One or more target language tree structure information corresponding to the tree structure information obtained in step 1 and one or more mapping probabilities are acquired, and one or more target language tree structures corresponding to each of the one or more target language tree structure information are acquired. Probability is acquired, one or more word appearance probabilities of two or more words constituting the target language tree structure information are acquired based on the acquired target language tree structure information, and the acquired source language tree structure probability is acquired A tree structure mapping probability calculation step for calculating an evaluation value of an output syntax tree based on the acquired mapping probability, the acquired target language tree structure probability, and the acquired word appearance probability; and the tree structure mapping probability Based on the evaluation value calculated in the calculation step, a part or all of the syntax tree of the second language to be output is determined, and a part or all of the text of the second language is determined based on the determined syntax tree. And a program for executing an output step of outputting a sentence in a second language having one or more pieces of output information acquired in the maximum likelihood sequence search step.

また、前記木構造マッピング確率計算ステップは、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得する原言語木構造確率取得ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得するマッピング確率取得ステップと、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得する目的言語木構造確率取得ステップと、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得ステップと、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出ステップを具備しても良い。
前記評価値算出ステップは、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とすることは好適である。
The tree structure mapping probability calculation step includes a source language tree structure probability acquisition step for acquiring one or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step, and the input sentence syntax One or more target language tree structure information corresponding to the tree structure information obtained in the analysis step, a mapping probability acquisition step for acquiring one or more mapping probabilities, and one or more corresponding to each of the one or more target language tree structure information A target language tree structure probability acquisition step of acquiring the target language tree structure probability of the target language tree, and one or more word appearances of two or more words constituting the target language tree structure information based on the acquired target language tree structure information A word appearance probability acquisition step of acquiring a probability from the language model storage unit; the source language tree structure probability; the mapping probability; the target language tree structure probability; Based on the fine said word occurrence probabilities may be provided with an evaluation value calculation step of calculating an evaluation value of the syntax tree output.
Preferably, the evaluation value calculating step calculates a product of the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability, and uses the product as an evaluation value of an output syntax tree. It is.

さらに、前記最尤列探索ステップにおいて、前記木構造マッピング確率計算ステップで算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。   Further, in the maximum likelihood sequence search step, a syntax tree having the maximum evaluation value calculated in the tree structure mapping probability calculation step is determined as an output syntax tree, and one of the second languages is determined based on the determined syntax tree. It is preferable to obtain output information that is a part or all of a sentence.

また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。   In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.

また、図16は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図16は、このコンピュータシステム300の概観図であり、図17は、システム300のブロック図である。   FIG. 16 shows the external appearance of a computer that executes the programs described in this specification to realize the information processing apparatuses according to the various embodiments described above. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 16 is an overview diagram of the computer system 300, and FIG. 17 is a block diagram of the system 300.

図16において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。   In FIG. 16, a computer system 300 includes a computer 301 including a FD (Flexible Disk) drive and a CD-ROM (Compact Disk Read Only Memory) drive, a keyboard 302, a mouse 303, and a monitor 304.

図17において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。   In FIG. 17, in addition to the FD drive 3011 and the CD-ROM drive 3012, the computer 301 includes a CPU (Central Processing Unit) 3013, a bus 3014 connected to the CPU 3013, the CD-ROM drive 3012 and the FD drive 3011, and a boot. A ROM (Read-Only Memory) 3015 for storing a program such as an up program, and a RAM (Random Access Memory) connected to the CPU 3013 for temporarily storing instructions of the application program and providing a temporary storage space 3016 and a hard disk 3017 for storing application programs, system programs, and data. Although not shown here, the computer 301 may further include a network card that provides connection to a LAN.

コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。   A program that causes the computer system 300 to execute the functions of the information processing apparatus according to the above-described embodiment is stored in the CD-ROM 3101 or FD 3102, inserted into the CD-ROM drive 3012 or FD drive 3011, and further stored in the hard disk 3017. May be forwarded. Alternatively, the program may be transmitted to the computer 301 via a network (not shown) and stored in the hard disk 3017. The program is loaded into the RAM 3016 at the time of execution. The program may be loaded directly from the CD-ROM 3101, the FD 3102 or the network.

プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 301 to execute the functions of the information processing apparatus according to the above-described embodiment. The program only needs to include an instruction portion that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 300 operates is well known and will not be described in detail.
Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上のように、本発明にかかる機械翻訳装置は、高品質かつ高速な翻訳が可能となる、という効果を有し、機械翻訳装置等として有用である。   As described above, the machine translation apparatus according to the present invention has an effect that high-quality and high-speed translation is possible, and is useful as a machine translation apparatus or the like.

実施の形態1における機械翻訳装置のブロック図Block diagram of machine translation apparatus in embodiment 1 同機械翻訳装置の動作について説明するフローチャートFlow chart for explaining the operation of the machine translation apparatus 同評価処理の動作について説明するフローチャートA flowchart for explaining the operation of the evaluation process 同翻訳モデル確率を算出する処理について説明するフローチャートA flowchart for explaining the process of calculating the translation model probability 同言語モデル確率を算出する処理について説明するフローチャートFlowchart explaining processing for calculating same language model probability 同原言語木構造モデルの例を示す図Diagram showing an example of the original language tree structure model 同目的言語木構造モデルの例を示す図Diagram showing an example of the same language tree structure model 同木構造マッピングモデルの例を示す図Diagram showing an example of the same tree structure mapping model 同言語モデルの例を示す図Diagram showing an example of the same language model 同構文トランスファ方式の機械翻訳を説明する図Diagram explaining machine translation of the same syntax transfer method 同機械翻訳装置の初期状態を示す図The figure which shows the initial state of the same machine translation device 同機械翻訳装置が構築する部分木を示す図The figure which shows the subtree which the same machine translation device constructs 同機械翻訳装置が構成する出力単語列リストを示す図The figure which shows the output word sequence list which the machine translation apparatus comprises 同機械翻訳装置が構成する出力単語列リストを示す図The figure which shows the output word sequence list which the machine translation apparatus comprises 同機械翻訳装置が構成する出力単語列リストを示す図The figure which shows the output word sequence list which the machine translation apparatus comprises 同機械翻訳装置を実現するコンピュータの外観図External view of a computer that implements the machine translation device 同機械翻訳装置のブロック図Block diagram of the machine translation device

符号の説明Explanation of symbols

11 原言語木構造モデル格納部
12 目的言語木構造モデル格納部
13 木構造マッピングモデル格納部
14 言語モデル格納部
15 受付部
16 入力文構文解析部
17 木構造マッピング確率計算部
18 最尤列探索部
19 出力部
171 原言語木構造確率取得手段
172 マッピング確率取得手段
173 目的言語木構造確率取得手段
174 単語出現確率取得手段
175 評価値算出手段
DESCRIPTION OF SYMBOLS 11 Source language tree structure model storage part 12 Target language tree structure model storage part 13 Tree structure mapping model storage part 14 Language model storage part 15 Reception part 16 Input sentence syntax analysis part 17 Tree structure mapping probability calculation part 18 Maximum likelihood sequence search part 19 Output unit 171 Source language tree structure probability acquisition means 172 Mapping probability acquisition means 173 Target language tree structure probability acquisition means 174 Word appearance probability acquisition means 175 Evaluation value calculation means

Claims (6)

翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している原言語木構造モデル格納部と、
翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している目的言語木構造モデル格納部と、
原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、
第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、
第一言語の文章を受け付ける受付部と、
前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、
前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算部と、
前記木構造マッピング確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、
前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置。
Source language tree structure that is information about the tree structure of the first language that is the language of the original sentence to be translated, and that contains information about the tree structure that consists of a plurality of words and does not include a non-terminal symbol and has a long unit phrase as one node Information and a source language tree storing a source language tree structure model having one or more source language tree structure records having source language tree structure probabilities that are information indicating the probability of the tree structure corresponding to the source language tree structure information A structural model storage;
Information on the tree structure of the second language, which is the language of the sentence of the translation result, the target language tree structure information including information on the tree structure consisting of a plurality of words and a long unit phrase not including a non-terminal symbol as one node; , A target language tree structure model storing a target language tree structure model having one or more target language tree structure records having a target language tree structure probability that is information indicating the probability of the tree structure corresponding to the target language tree structure information A storage unit;
Tree structure having one or more tree structure mapping records having mapping information which is information indicating correspondence between source language tree structure information and target language tree structure information and mapping probability which is information indicating correspondence probability indicated by the mapping information A tree structure mapping model storage unit storing a mapping model;
A language model storage unit storing a language model having one or more word appearance probabilities, which is information on the probability of word appearance in the second language;
A reception unit that accepts sentences in the first language;
An input sentence syntax analysis unit that sequentially parses the sentence received by the reception unit and sequentially obtains tree structure information that is information on a part or all of the tree structure of the sentence;
One or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit are acquired from the source language tree structure model storage unit and correspond to the tree structure information obtained by the input sentence syntax analysis unit One or more target language tree structure information and one or more mapping probabilities are acquired from the tree structure mapping model storage unit, and one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information are obtained. Acquired from the target language tree structure model storage unit, and stores one or more word appearance probabilities of two or more words constituting the target language tree structure information based on the acquired target language tree structure information in the language model Based on the acquired source language tree structure probability, the acquired mapping probability, the acquired target language tree structure probability, and the acquired word appearance probability. A tree structure mapping probability calculation unit for calculating a value,
Based on the evaluation value calculated by the tree structure mapping probability calculation unit, a part or all of the second language to be output is determined, and based on the determined syntax tree, part or all of the second language is determined. A maximum likelihood sequence search unit for acquiring output information that is a sentence;
A machine translation apparatus comprising: an output unit that outputs a sentence in a second language having one or more pieces of output information acquired by the maximum likelihood sequence search unit.
前記木構造マッピング確率計算部は、
前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、
前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、
前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、
前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得手段と、
前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する請求項1記載の機械翻訳装置。
The tree structure mapping probability calculator
Source language tree structure probability acquisition means for acquiring one or more source language tree structure probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit from the source language tree structure model storage unit;
Mapping probability acquisition means for acquiring one or more target language tree structure information and one or more mapping probabilities corresponding to the tree structure information obtained by the input sentence syntax analysis unit from the tree structure mapping model storage unit;
Target language tree structure probability acquisition means for acquiring one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information from the target language tree structure model storage unit;
Based on the acquired target language tree structure information, word appearance probability acquisition means for acquiring one or more word appearance probabilities of the two or more words constituting the target language tree structure information from the language model storage unit;
2. The machine according to claim 1, further comprising: an evaluation value calculation means for calculating an evaluation value of an output syntax tree based on the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability. Translation device.
前記木構造マッピング確率計算部が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成するマージ部をさらに具備し、
前記最尤列探索部は、
前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1または請求項2記載の機械翻訳装置。
In the syntax tree of the output corresponding to the two or more evaluation values calculated by the tree structure mapping probability calculation unit and the evaluation value, the merge structure unit further includes a merging unit that combines the evaluation values corresponding to the same syntax tree,
The maximum likelihood sequence search unit includes:
Based on the evaluation value calculated by the tree structure mapping probability calculation unit and the evaluation value obtained by combining by the merge unit, a part or all of the syntax tree of the second language to be output is determined, and the determined syntax tree The machine translation apparatus according to claim 1, wherein output information that is a part or all of a sentence in the second language is acquired based on.
前記評価値算出手段は、
前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする請求項2または請求項3記載の機械翻訳装置。
The evaluation value calculation means includes
4. The machine according to claim 2, wherein a product of the source language tree structure probability, the mapping probability, the target language tree structure probability, and the word appearance probability is calculated, and the product is used as an evaluation value of an output syntax tree. Translation device.
前記最尤列探索部は、
前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1から請求項4いずれか記載の機械翻訳装置。
The maximum likelihood sequence search unit includes:
A syntax tree having the maximum evaluation value calculated by the tree structure mapping probability calculation unit is determined as a syntax tree to be output, and output information that is a sentence of a part or all of the second language based on the determined syntax tree. The machine translation apparatus according to claim 1, which is acquired.
コンピュータに、
翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、
翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納しており、
原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、
第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、
第一言語の文章を受け付ける受付ステップと、
前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、
前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、
前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索ステップと、
前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム。
On the computer,
Source language tree structure that is information about the tree structure of the first language that is the language of the original sentence to be translated, and that contains information about the tree structure that consists of a plurality of words and does not include a non-terminal symbol and has a long unit phrase as one node A source language tree structure model having at least one source language tree structure record having a source language tree structure probability that is information and information indicating the probability of the tree structure corresponding to the source language tree structure information;
Information on the tree structure of the second language, which is the language of the sentence of the translation result, the target language tree structure information including information on the tree structure consisting of a plurality of words and a long unit phrase not including a non-terminal symbol as one node; A target language tree structure model having at least one target language tree structure record having a target language tree structure probability, which is information indicating the probability of the tree structure corresponding to the target language tree structure information,
Tree structure having one or more tree structure mapping records having mapping information which is information indicating correspondence between source language tree structure information and target language tree structure information and mapping probability which is information indicating correspondence probability indicated by the mapping information Contains the mapping model,
Storing a language model having one or more word appearance probabilities having a word appearance probability, which is information on the probability of consecutive occurrences of two or more words in the second language;
A reception step for accepting sentences in the first language;
Parsing the sentence received in the reception step, the input sentence syntax analysis step to sequentially obtain the tree structure information that is information about a part or all of the tree structure of the sentence;
One or more source language tree structure probabilities corresponding to the tree structure information obtained in the input sentence syntax analysis step are acquired, and one or more target language tree structure information corresponding to the tree structure information obtained in the input sentence syntax analysis step And one or more mapping probabilities, one or more target language tree structure probabilities corresponding to each of the one or more target language tree structure information, and the target language tree structure information based on the acquired target language tree structure information One or more word appearance probabilities of two or more words constituting language tree structure information are acquired, the acquired source language tree structure probability, the acquired mapping probability, the acquired target language tree structure probability, and the acquisition A tree structure mapping probability calculation step for calculating an evaluation value of the output syntax tree based on the word appearance probability,
Based on the evaluation value calculated in the tree structure mapping probability calculation step, a part or all of the second language to be output is determined, and based on the determined syntax tree, part or all of the second language is determined. A maximum likelihood sequence search step for obtaining output information that is a sentence;
A program for executing an output step of outputting a sentence in a second language having one or more output information acquired in the maximum likelihood sequence search step.
JP2005202350A 2005-07-11 2005-07-11 Machine translation device and program Pending JP2007018462A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005202350A JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005202350A JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Publications (1)

Publication Number Publication Date
JP2007018462A true JP2007018462A (en) 2007-01-25

Family

ID=37755554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005202350A Pending JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Country Status (1)

Country Link
JP (1) JP2007018462A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2011221650A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> Machine translation apparatus and machine translation method and program thereof
US8280719B2 (en) 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280719B2 (en) 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2011221650A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> Machine translation apparatus and machine translation method and program thereof

Similar Documents

Publication Publication Date Title
JP2745370B2 (en) Machine translation method and machine translation device
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
KR100530154B1 (en) Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system
US8015016B2 (en) Automatic translation method and system based on corresponding sentence pattern
JP2019070799A (en) Bidirectional probabilistic natural language rewriting and selection
JP2000353161A (en) Method and device for controlling style in generation of natural language
JP3921523B2 (en) Text generation method and text generation apparatus
Knight et al. Applications of weighted automata in natural language processing
JP2018181181A (en) Text processing device and text processing method
JP2007018462A (en) Machine translation device and program
Flickinger et al. ParDeepBank: Multiple parallel deep treebanking
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP2007206796A (en) Character processing system, method thereof, program thereof, and recording medium
JP4113204B2 (en) Machine translation apparatus, method and program thereof
JP4971732B2 (en) Natural language processing apparatus and program
KR19980047177A (en) Korean document analyzer for voice conversion system
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
KR950013129B1 (en) Method and apparatus for machine translation
JP2006024114A (en) Mechanical translation device and mechanical translation computer program
JP3921543B2 (en) Machine translation device
JP2007102530A (en) Device for generating grammar of specific language
Ho Generative Probabilistic Alignment Models for Words and Subwords: a Systematic Exploration of the Limits and Potentials of Neural Parametrizations
Patil et al. A review on implementation of Sandhi Viccheda for Sanskrit words
JP2004280467A (en) Translation device, translation method, and its program