JP2007018462A - Machine translation device and program - Google Patents

Machine translation device and program Download PDF

Info

Publication number
JP2007018462A
JP2007018462A JP2005202350A JP2005202350A JP2007018462A JP 2007018462 A JP2007018462 A JP 2007018462A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2005202350 A JP2005202350 A JP 2005202350A JP 2007018462 A JP2007018462 A JP 2007018462A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
tree structure
probability
language
information
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005202350A
Other languages
Japanese (ja)
Inventor
Kenji Imamura
Hideo Okuma
Eiichiro Sumida
賢治 今村
英男 大熊
英一郎 隅田
Original Assignee
Advanced Telecommunication Research Institute International
株式会社国際電気通信基礎技術研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve a problem of a conventional machine translation device incapable of performing high-quality translation at a high speed. <P>SOLUTION: Based on an original language tree structure model having original language tree structure information using a long unit phrase, which consists of a plurality of words and includes no non-terminal symbol, as one node, a target language tree structure model having target language tree structure information using a long unit phrase, which consists of a plurality of words and include no non-terminal symbol, as one node, a tree structure mapping model having mapping information, which shows correspondence between the original language structure and the target language tree structure information, and a mapping probability, and a language model having one or more word appearance probabilities serving as information about a probability concerned with appearance of a word in a second language, syntax analysis is carried out on a received sentence for acquiring a translation model probability and a language model probability. Based on these two probabilities, a syntax tree of an output is evaluated, and a translation sentence to be outputted is decided. In this way, this machine translation device can perform high-quality translation at a high speed. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、受け付けた文章を他言語に翻訳する機械翻訳装置等に関するものである。 The present invention relates to a machine translation apparatus or the like for translating the received text into another language.

従来の第一の機械翻訳装置において、「Phrase−based SMT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献1参照)。 In the conventional first translating machine had taken a translation algorithm called "Phrase-based SMT" (e.g., see Non-Patent Document 1). 「Phrase−based SMT」とは、句に基づく統計翻訳であり、複数単語(句)を単位に翻訳を行う。 The "Phrase-based SMT" is a statistical translation based on the phrase, do the translation multiple words (phrase) to the unit.

従来の第二の機械翻訳装置において、「構文トランスファ方式MT」と呼ばれる翻訳アルゴリズムを採っていた(例えば、非特許文献2参照)。 In the second conventional machine translation apparatus, it has adopted a translation algorithm called "Syntax Transfer Method MT" (e.g., see Non-Patent Document 2). 構文トランスファ方式の機械翻訳では、入力文を構文解析し、得られた構文木を出力の構文木に変換することにより翻訳を行う。 The machine translation syntax transfer method, the input sentence is parsed, it performs translations by converting the syntax tree output parse trees obtained.

さらに、従来の第三の技術として、本機械翻訳装置で利用され得る翻訳モデルの自動取得の技術がある。 Further, as a conventional third technique, there is automatically obtained a technical translation model that may be utilized in the machine translation apparatus. かかる翻訳モデル(原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルの総称)に含まれる規則は、階層的句アライメント方法(非特許文献3参照)等を用いると、コーパスから自動的に抽出することができる。 Such translation model rules contained in (source language tree structure model, the target language tree structure model, generic tree structure mapping model), the use of such hierarchical phrase alignment method (see Non-Patent Document 3), automatically from a corpus it can be extracted to. また、これらモデルの確率は、コーパス中に規則が使われた頻度をカウントし、その相対頻度を計算するなどの処理により、算出することができる。 Also, the probability of these models, counts the frequency with which rule is used in the corpus, the processing such as calculating the relative frequency can be calculated. かかる第三の技術により、原言語木構造モデル、目的言語木構造モデル、木構造マッピングモデルが自動的に取得でき得る。 Such a third technique, the source language tree structure model, the target language tree structure model, the tree structure mapping model may be acquired automatically.

しかしながら、従来の第一の機械翻訳装置においては、句の順序を調整しなければ正しい翻訳文とはならない。 However, in the conventional first machine translation apparatus is not a correct translation to be adjusted sequence of phrases. 本機械翻訳装置の翻訳方法では、句の順序調整を平坦な構造上で行い、言語モデルで検証していた。 The translation process of the machine translation apparatus performs order adjustment clauses on a flat structure, it has been verified by the language model. そのため、構文的に誤った翻訳文を出力することがある、という課題があった。 Therefore, it is possible to output a translation that syntactically incorrect, there is a problem that.
また、従来の第二の機械翻訳装置においては、入力の解析結果として、複数の構造が得られた時、単語の意味距離等を用いて曖昧性解消を行っていた。 Further, in the second conventional machine translation apparatus, as the analysis result of the input, when the plurality of structures are obtained, it had done disambiguation using semantic distance of words like. そのため、シソーラスを必要とする、という課題があった。 For this reason, it requires a thesaurus, there is a problem in that.

本第一の発明の機械翻訳装置は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している原言語木構造モデル格納部と、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的 Machine translation apparatus of the present first invention is an information relating to the tree structure of the first language is the language of the original sentence to be translated, and one node length unit clause free of non-terminal symbols of a plurality of words a source language tree structure information including information of the tree structure, the source language with the source language tree records with source language tree probability information indicating the probability of the corresponding tree structure in the source language tree structure information 1 or more a source language tree structure model storage unit that stores a tree structure model is information relating to the tree structure of the second language is a language of the translation result sentence length unit clause free of non-terminal symbols of a plurality of words a target language tree structure information including information of the tree structure to one node, the target language tree records having the target language tree probability information indicating the probability of a tree structure corresponding to the target language tree structure information 1 the purpose of having more 語木構造モデルを格納している目的言語木構造モデル格納部と、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、第一言語の文章を受け付ける受付部と、前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木 A target language tree structure model storage unit that stores word tree structure model, and mapping information indicating a correspondence between the original language tree structure information and the target language tree structure information, the probability of response to which the mapping information indicates a tree structure mapping model storage unit that stores a tree structure mapping model with 1 or more tree mapping records having a mapping probability is information indicating, a word occurrence probability is information probability for the appearance of a word in the second language and language model storage unit that stores the language model having 1 or more, and a receiving unit that receives a sentence of a first language, a sentence the accepting unit accepts parses relates tree structure of some or all of the sentence the tree structure information is the information, and sequentially obtaining the input sentence parsing unit, one or more source language tree corresponding to the tree structure information which the input sentence parser to obtain 造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算部と、前記木構造マッピング Get the forming probability from the source language tree structure model storage unit, one or more target language tree structure information and one or more mapping probabilities the tree structure mapping model corresponding to the tree structure information which the input sentence parser to obtain acquired from the storage unit, it acquires the one or more one or more target language tree probabilities corresponding to each of the target language tree structure information from the target language tree structure model storage section, on the obtained target language tree structure information based on, two or more words constituting the target language tree structure information to obtain one or more words appearance probability from the language model storage unit, the acquired source language tree probability, the obtained mapping probability, the obtained target language tree structure probabilities, and on the basis of the obtained word appearance probability, a tree structure mapping probability calculation unit for calculating an evaluation value of the output of the syntax tree, the tree structure mapping 確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置である。 Based on the evaluation value probability calculation unit has calculated, to determine some or all of the syntax tree of the second language to be output, which is a part or the whole of a sentence of the second language based on the syntax tree which the determined output and maximum likelihood sequence search unit that acquires information, said a machine translation apparatus comprising an output unit for outputting the sentences of the second language having one or more output information maximum likelihood sequence search unit has acquired.
かかる構成により、高品質かつ高速な翻訳が可能となる。 With this configuration, it becomes possible to high-quality and high-speed translation.

また、本第二の発明の機械翻訳装置は、第一の発明に対して、前記木構造マッピング確率計算部は、前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言 Further, translation apparatus of the present second invention, with respect to the first invention, the tree structure mapping probability calculation unit may include one or more source language corresponding to the tree structure information which the input sentence parser to obtain a source language tree structure probability acquiring means for acquiring the tree structure probability from the source language tree structure model storage unit, one or more target language tree structure information and one or more corresponding to the tree structure information which the input sentence parser to obtain and mapping probability acquiring means for mapping probabilities obtained from the tree structure mapping model storage unit of the storage target language tree structure model corresponding one or more target language tree probability to each of the one or more target language tree structure information a target language tree structure probability obtaining means for obtaining from the parts, based on the obtained target language tree structure information, of two or more words constituting the target language tree structure information, the words one or more words appearance probability モデル格納部から取得する単語出現確率取得手段と、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する機械翻訳装置である。 A word occurrence probability obtaining means for obtaining from the model storage unit, the source language tree probability, the mapping probability, the target language tree structure probabilities, and on the basis of said word occurrence probability, and calculates the evaluation value of the syntax tree output a machine translation apparatus comprising an evaluation value calculating means.
かかる構成により、高品質かつ高速な翻訳が可能となる。 With this configuration, it becomes possible to high-quality and high-speed translation.

また、本第三の発明の機械翻訳装置は、第一、第二の発明に対して、前記木構造マッピング確率計算部が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成するマージ部をさらに具備し、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。 Further, translation apparatus of the present third invention, first, second relative invention, the output of the syntax tree in which the tree structure mapping probability calculation unit corresponds to 2 or more evaluation value and the evaluation value calculated in the merging unit for combining the evaluation values ​​corresponding to the same syntax tree further comprising, said maximum likelihood sequence search unit, the tree evaluation value structure mapping probability calculation unit has calculated and the merging part are synthesized to obtain was based on the evaluation value, to determine some or all of the syntax tree of the second language to be output to obtain the output information is a part or all of the text in the second language on the basis of the syntax tree and the determined machine it is a translation apparatus.
かかる構成により、高品質かつ高速な翻訳が可能となる。 With this configuration, it becomes possible to high-quality and high-speed translation.
また、本第四の発明の機械翻訳装置は、第二、第三の発明に対して、前記評価値算出手段は、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする機械翻訳装置である。 Further, translation apparatus of the present fourth invention, the second, with respect to the third invention, the evaluation value calculating means, the source language tree probability, the mapping probability, the target language tree probability, the calculating the product of the word occurrence probability, a machine translation apparatus according to the evaluation value of the syntax tree outputs the product.
かかる構成により、高品質かつ高速な翻訳が可能となる。 With this configuration, it becomes possible to high-quality and high-speed translation.

また、本第五の発明の機械翻訳装置は、第一から第四いずれかの発明に対して、前記最尤列探索部は、前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する機械翻訳装置である。 Further, the translation apparatus of the fifth invention, with respect to the fourth one of the invention from the first, the maximum likelihood sequence search unit, the tree structure mapping probability calculation unit evaluation value calculated maximum Syntax trees, determines as an output to the syntax tree, a machine translation apparatus to retrieve some or output information in whole sentence of the second language based on the syntax tree which is the determined.
かかる構成により、高品質かつ高速な翻訳が可能となる。 With this configuration, it becomes possible to high-quality and high-speed translation.

本発明による機械翻訳装置によれば、高品質かつ高速な翻訳が可能となる。 According to the machine translation apparatus according to the present invention enables high-quality and high-speed translation.

以下、機械翻訳装置等の実施形態について図面を参照して説明する。 It will be described below with reference to the accompanying drawings, embodiments of the such machine translation apparatus. なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 It should be noted that constituent elements denoted by the same reference numerals in the embodiments perform similar operations, may not be repeated in the description.
(実施の形態1) (Embodiment 1)
図1は、本実施の形態における機械翻訳装置のブロック図である。 Figure 1 is a block diagram of a machine translation apparatus according to the present embodiment.

機械翻訳装置は、原言語木構造モデル格納部11、目的言語木構造モデル格納部12、木構造マッピングモデル格納部13、言語モデル格納部14、受付部15、入力文構文解析部16、木構造マッピング確率計算部17、マージ部18、最尤列探索部19、出力部20を具備する。 Machine translation system, the source language tree structure model storage unit 11, a target language tree structure model storage unit 12, the tree structure mapping model storage unit 13, the language model storage unit 14, receiving unit 15, the input sentence parsing unit 16, the tree structure mapping probability calculation unit 17, the merge unit 18, the maximum likelihood sequence search unit 19, and an output unit 20. また、機械翻訳装置は、入力手段として、例えば、キーボード302、マウス303を具備する。 Further, machine translation apparatus, as input means, for example, comprises a keyboard 302, a mouse 303. さらに、機械翻訳装置は、出力手段として、例えば、ディスプレイ304を具備する。 Further, machine translation apparatus, an output means, for example, includes a display 304.
木構造マッピング確率計算部17は、原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175を具備する。 Tree mapping probability calculation unit 17, the source language tree structure probability obtaining unit 171, the mapping random acquisition unit 172, target language tree structure probability obtaining unit 173, a word occurrence probability obtaining unit 174 comprises an evaluation value calculation unit 175.

原言語木構造モデル格納部11は、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している。 Source language tree structure model storage unit 11 is information relating to the tree structure of the first language is the language of the original sentence to be translated, for one non-terminal signal, associates one or more termination signal or non-terminal signal was the source language tree structure information including information of the tree structure, the source language with source language tree records with source language tree probability information indicating the probability of a tree structure corresponding to the source language tree structure information 1 or more that contains the tree structure model. なお、非終端記号とは、構文ラベル付き変数である。 It is to be noted that the non-terminal symbol, a syntax labeled variable. 終端記号とは、単語そのものである。 The terminal symbol, a word itself. また、原言語木構造情報は、以下の複数の種類がある。 In addition, the source language tree structure information, there is more than one kind of following. 例えば、原言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である原言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である原言語単語単位木構造情報などがある。 For example, the source language tree structure information has two or more terminal symbol as a child node, and the original language length unit clause tree structure information is information including a rule which is the parent node is non-terminal, one or more nonterminal When, with zero or more terminal symbol as a child node, and the source language syntax tree structure information is information indicating the rule which is the parent node is non-terminal, has one terminal symbol as a child node, the parent node is a non-terminal there is such a source language word-tree structure information is information indicating the rule is a symbol. また、原言語木構造確率とは、原言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。 Further, the source language tree probability, in the original language, non-terminal symbols of the parent node is the probability of generating a non-terminal sequence or terminator sequence of child nodes. また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。 Further, for one non-terminal signal, the tree structure that associates one or more termination signal or non-terminal signal information of the tree structure to the length unit clause free of non-terminal symbols of a plurality of words and one node including the information. 原言語木構造モデルのデータ構造は問わない。 Data structure of the source language tree structure model does not matter. 原言語木構造モデルの例は、後述する。 Examples of the source language tree structure model will be described later. 原言語木構造モデル格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。 Source language tree structure model storage unit 11, non-volatile storage medium is preferred, it can also be implemented by a volatile storage medium.

目的言語木構造モデル格納部12は、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している。 Trees target language tree structure model storage unit 12 is information relating to the tree structure of the second language is a language of the translation result sentences, for one non-terminal signal, which associates one or more termination signal or non-terminal signal target language tree structure having a target language tree structure information including information on the structure, the target language tree records having the target language tree probability information indicating the probability of a tree structure corresponding to the target language tree structure information 1 or more that contains the model. 目的言語木構造情報は、以下の複数の種類がある。 Target language tree structure information, there is more than one kind of following. 例えば、目的言語木構造情報は、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である目的言語長単位句木構造情報と、1つ以上の非終端記号と、0個以上の終端記号を子ノードとして持つ、親ノードが非終端記号である規則を示す情報である目的言語構文木構造情報と、1個の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を示す情報である目的言語単語単位木構造情報などがある。 For example, the target language tree structure information has two or more terminal symbol as a child node, and the target language length unit clause tree structure information is information including rules parent node is non-terminal symbol, one or more nonterminal When, with zero or more terminal symbol as a child node, and the target language syntax tree structure information parent node is information indicating a rule is non-terminal symbol has one terminal symbol as a child node, the parent node is a non-terminal and the like target language word-tree information indicating a rule a symbol. また、目的言語木構造確率とは、目的言語において、親ノードの非終端記号が、子ノードの非終端記号列または終端記号列を生成する確率である。 Further, the target language tree probability, in the target language, non-terminal symbols of the parent node is the probability of generating a non-terminal sequence or terminator sequence of child nodes. また、1つの非終端信号に対し、1個以上の終端信号または非終端信号を対応付けた木構造の情報は、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む。 Further, for one non-terminal signal, the tree structure that associates one or more termination signal or non-terminal signal information of the tree structure to the length unit clause free of non-terminal symbols of a plurality of words and one node including the information. 目的言語木構造モデルのデータ構造は問わない。 Data structure of the target language tree structure model does not matter. 目的言語木構造モデルの例は、後述する。 Examples of the target language tree structure model will be described later. 目的言語木構造モデル格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。 Target language tree structure model storage unit 12, a non-volatile storage medium is preferred, it can also be implemented by a volatile storage medium.

木構造マッピングモデル格納部13は、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している。 Tree mapping model storage unit 13, the tree having a mapping information indicating a correspondence between the original language tree structure information and the target language tree structure information, the mapping probability is information indicating the probability of response indicated by the mapping information stores a tree structure mapping model having a structure mapping record one or more. ここでは、マッピング確率とは、原言語木構造情報と目的言語木構造情報が対応する確率を示す情報である。 Here, the mapping probability is information indicating the probability of the source language tree structure information and the target language tree structure information corresponds. 木構造マッピングモデルのデータ構造は問わない。 Data structure of the tree structure mapping model does not matter. 木構造マッピングモデルの例は、後述する。 Examples of the tree structure mapping model is described later. 木構造マッピングモデル格納部13は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。 Tree mapping model storage unit 13, a non-volatile storage medium is preferred, it can also be implemented by a volatile storage medium.

言語モデル格納部14は、第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している。 The language model storage unit 14 stores a language model with a word occurrence probability is information probability for the appearance of a word in the second language 1 or more. 単語出現確率は、例えば、第二言語の、2以上の単語の連続した出現に関する確率の情報である。 Word appearance probability, for example, the second language, which is 2 or more consecutive information probabilities for occurrences of words. 単語出現確率は、例えば、第二言語の第一の単語と、第二の単語と、第一の単語の次に第二の単語が出現する確率を示す情報である。 Word appearance probability, for example, a first word of a second language, the second word is information indicating the probability that the second word appears in the next first word. 言語モデルは、例えば、第一の単語と、第二の単語と、単語出現確率を有するレコードを1以上有する。 The language model comprises, for example, a first word, the second word, one or more records having word appearance probability. 言語モデル格納部14は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。 The language model storage unit 14, a non-volatile storage medium is preferred, it can also be implemented by a volatile storage medium.

受付部15は、第一言語の文章を受け付ける。 Receiving unit 15, accepts a sentence of the first language. 文章の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。 Input means of the sentence, such as a numeric keypad, a keyboard, a mouse, a menu screen, be anything. 受付部15は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。 Receiving section 15, a device driver of the input means a numeric keypad or a keyboard or the like, may be implemented in the control software for a menu screen.

入力文構文解析部16は、受付部15が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る。 Input sentence parsing unit 16, the sentence accepting portion 15 accepts parses the tree structure information is information about the tree structure of some or all of the text, obtained sequentially. 入力文構文解析部16は、通常、原言語木構造モデル格納部11の原言語木構造モデルを用いて、文章を構文解析する。 Input sentence parsing unit 16, typically using a source language tree structure model of the source language tree structure model storage unit 11, parses the sentence. ただし、入力文構文解析部16は、原言語木構造モデルを用いることが好適であるが、他の木構造モデルを用いて、文章を構文解析しても良いし、他の手段により文章を構文解析しても良い。 However, the input sentence parsing unit 16, but is preferable to use a source language tree structure model, using other tree model, may parse the sentence, the syntax of the sentence by other means it may be analyzed. なお、文章を構文解析し、木構造情報を、順次得る処理は公知技術における処理であるので、詳細な説明は省略する。 Incidentally, a sentence parse tree structure information, since sequential obtain process is a process in the known art, a detailed description thereof will be omitted. 入力文構文解析部16は、通常、MPUやメモリ等から実現され得る。 Input sentence parsing unit 16 can be generally an MPU or memory. 入力文構文解析部16の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。 Processing procedure of the input sentence parsing unit 16 is usually realized by software, the software is stored in a recording medium such as a ROM. 但し、ハードウェア(専用回路)で実現しても良い。 However, it may be realized by hardware (dedicated circuit).

木構造マッピング確率計算部17は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得し、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得し、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得し、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得し、取得した原言語木構造確率、取得したマッピング確率、取得した目的言語木構造確率、および取得した単語出現確率に基づいて、出力の Tree mapping probability calculation unit 17 obtains one or more source language tree probability corresponding to the tree structure information input sentence parsing unit 16 obtained from the source language tree structure model storage unit 11, the input sentence parser 16 one or more corresponding target language tree structure information and one or more mapping probability tree structure information obtained from the tree structure mapping model storage unit 13 to obtain, corresponding to each of the one or more target language tree structure information of 1 It gets the target language tree probability than the target language tree structure model storage unit 12, based on the obtained target language tree structure information, of two or more words constituting the target language tree structure information, one or more words Gets the appearance probability from the language model storage unit 14, the acquired source language tree probability acquired mapping probability, the obtained target language tree structure probabilities, and based on the obtained word appearance probability, the output 文木の評価値を算出する。 To calculate the evaluation value of Bunki. 木構造マッピング確率計算部17は、通常、MPUやメモリ等から実現され得る。 Tree mapping probability calculation unit 17 can be generally an MPU or memory. 木構造マッピング確率計算部17の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。 Procedure of the tree structure mapping probability calculation unit 17 is usually realized by software, the software is stored in a recording medium such as a ROM. 但し、ハードウェア(専用回路)で実現しても良い。 However, it may be realized by hardware (dedicated circuit).
原言語木構造確率取得手段171は、入力文構文解析部16が得た木構造情報に対応する1以上の原言語木構造確率を原言語木構造モデル格納部11から取得する。 Source language tree probability obtaining unit 171 obtains one or more source language tree probability corresponding to the tree structure information input sentence parsing unit 16 obtained from the source language tree structure model storage unit 11.
マッピング確率取得手段172は、入力文構文解析部16が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を木構造マッピングモデル格納部13から取得する。 Mapping random acquiring unit 172 acquires one or more target language tree structure information of the input sentence parsing unit 16 corresponds to the tree structure information obtained and one or more mapping random from the tree structure mapping model storage unit 13.

目的言語木構造確率取得手段173は、1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を目的言語木構造モデル格納部12から取得する。 Target language tree probability obtaining unit 173 obtains one or more one or more target language tree probabilities corresponding to each of the target language tree structure information from the target language tree structure model storage unit 12. ここでの1以上の目的言語木構造情報は、マッピング確率取得手段172が取得した目的言語木構造情報である。 1 or more target language tree structure information here is the target language tree structure information mapping probability obtaining unit 172 has obtained.

単語出現確率取得手段174は、取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を言語モデル格納部14から取得する。 Word occurrence probability obtaining unit 174, based on the obtained target language tree structure information, of two or more words constituting the target language tree structure information to obtain one or more words appearance probability from the language model storage unit 14. 単語出現確率取得手段174は、例えば、後述する単語bigramモデルの確率を取得しても良い。 Word appearance probability acquiring means 174, for example, may acquire the probability of the word bigram model, which will be described later.

評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率、および単語出現確率に基づいて、出力の構文木の評価値を算出する。 Evaluation value calculating means 175, the source language tree probability mapping probability, the target language tree structure probabilities, and on the basis of the word occurrence probability, and calculates the evaluation value of the syntax tree output. 評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出し、かつ、1以上の単語出現確率の積で言語モデル確率を算出し、かつ当該翻訳モデル確率と言語モデル確率に基づいて評価値を算出することは好適である。 Evaluation value calculating means 175, the source language tree structure probability, mapping probability, to calculate the translation model probability by the product of the target language tree structure probability, and calculates the language model probability by the product of one or more of the word appearance probability, and it is preferable to calculate the evaluation value based on the translation model probability and the language model probabilities. さらに、評価値算出手段175は、翻訳モデル確率と言語モデル確率の積により評価値を算出することは好適である。 Further, the evaluation value calculation unit 175, it is preferable to calculate the evaluation value by the product of translation model probability and the language model probabilities.

原言語木構造確率取得手段171、マッピング確率取得手段172、目的言語木構造確率取得手段173、単語出現確率取得手段174、評価値算出手段175は、通常、MPUやメモリ等から実現され得る。 Source language tree probability obtaining unit 171, the mapping random acquisition unit 172, target language tree structure probability obtaining unit 173, a word occurrence probability obtaining unit 174, evaluation value calculation unit 175 can be generally an MPU or memory. 原言語木構造確率取得手段171等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。 Procedures, such as the source language tree probability obtaining unit 171 is generally realized by software, the software is stored in a recording medium such as a ROM. 但し、ハードウェア(専用回路)で実現しても良い。 However, it may be realized by hardware (dedicated circuit).
マージ部18は、木構造マッピング確率計算部17が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成する。 Merge unit 18, the syntax tree of outputs corresponding to two or more evaluation values ​​and the evaluation value tree mapping probability calculation unit 17 is calculated, to synthesize an evaluation value corresponding to the same syntax tree. 合成とは、例えば、2以上の評価値の和を算出することである。 Synthesis is, for example, is to calculate the sum of two or more evaluation values. また、合成とは、例えば、一の出力の構文木に対応する2以上の評価値を、一の評価値としてグループ化(リンク付けなど)することである。 Also, synthesis is, for example, two or more evaluation values ​​corresponding to the syntax tree of one output is to group (linked, etc.) as an evaluation value. 具体的には、マージ部18は、例えば、得られた出力の構文木の木構造情報(例えば、単語列リスト)をキーとして、バッファ(例えば、出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。 Specifically, the merge unit 18, for example, the tree structure information of the syntax tree of the resulting output (e.g., word sequence list) as a key, a buffer (e.g., the output of the word sequence list, and probabilities are temporarily stored to search for the buffer). なお、かかるバッファには、木構造マッピング確率計算部17が得た、出力の木構造情報(単語列リスト)と評価値(例えば、確率)が格納されている。 Incidentally, in such a buffer, the tree structure mapping probability calculation unit 17 is obtained, the tree structure information of the output (word sequence list) evaluation value (e.g., probability) is stored. そして、マージ部18は、バッファ中に、得られた木構造情報(例えば、単語列リスト)が存在するか否かを判断する。 The merging unit 18 in the buffer, resulting tree structure information (e.g., word sequence list) to determine whether there. そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在すると判断した場合、得られた木構造情報(例えば、単語列リスト)に対応する評価値(例えば、確率)として、得られた評価値(例えば、確率)を追記する。 Then, the merge unit 18, resulting tree structure information (e.g., word sequence list) if it is determined that there exists, resulting tree structure information (e.g., word sequence list) evaluation value corresponding to (e.g., probability) as the obtained evaluation value (e.g., probability) to append. なお、一の単語リストに対応する評価値(例えば、確率)が2以上存在する場合、翻訳モデル確率(評価値)の和が、当該単語リストの翻訳確率(評価値)となる。 The evaluation values ​​corresponding to one of the word list (e.g., probability) if there are two or more, the sum of the translation model probability (evaluation value), the translation probability of the word list (evaluation value). そして、例えば、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率(評価値)となる。 Then, for example, the probability of "(two or more of the sum of the translation model probability) × language model probability" is the word list (evaluation value). そして、マージ部18は、得られた木構造情報(例えば、単語列リスト)が存在しないと判断した場合、得られた木構造情報(例えば、単語列リスト)、および得られた評価値(例えば、確率)を対にして登録する。 Then, the merge unit 18, resulting tree structure information (e.g., word sequence list) if is determined that there is no resulting tree structure information (e.g., word sequence list), and the resulting evaluation value (e.g. , registered as a pair of probability). マージ部18は、通常、MPUやメモリ等から実現され得る。 Merging portion 18 can be generally an MPU or memory. マージ部18の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。 Procedure of the merging unit 18 is usually realized by software, the software is stored in a recording medium such as a ROM. 但し、ハードウェア(専用回路)で実現しても良い。 However, it may be realized by hardware (dedicated circuit).

最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する。 Maximum likelihood sequence search unit 19, based on the evaluation value tree mapping probability calculation unit 17 is calculated, to determine some or all of the syntax tree of the second language to be output, the based on the syntax tree which is the determined to obtain the output information that is part or all of the sentence of the second language. 最尤列探索部19は、木構造マッピング確率計算部17が算出した評価値が最大の構文木を出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。 Maximum likelihood sequence search unit 19, evaluation value tree mapping probability calculation unit 17 has calculated is determined as a syntax tree for outputting a maximum syntax trees, some or all of the second language on the basis of a syntax tree that the determined it is preferable for obtaining the output information is a sentence. 最尤列探索部19は、通常、MPUやメモリ等から実現され得る。 Maximum likelihood sequence search unit 19 can be generally an MPU or memory. 最尤列探索部19の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。 Procedure of the maximum likelihood sequence search unit 19 is usually realized by software, the software is stored in a recording medium such as a ROM. 但し、ハードウェア(専用回路)で実現しても良い。 However, it may be realized by hardware (dedicated circuit).

出力部20は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章を出力する。 The output unit 20 outputs the sentence of the second language, which has one or more output information maximum likelihood sequence search unit 19 has acquired. ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音声合成による出力、外部の装置への送信等を含む概念である。 Here, the output and the display of the display, printing in a printer, output by the speech synthesis is a concept including a transmission to an external apparatus. 出力部20は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。 The output unit 20 may be considered to be free be considered to include an output device such as a display or a speaker. 出力部20は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。 The output unit 20, the driver software for an output device, or may be implemented by driver software for an output device and the output device.
なお、第一言語、第二言語は、日本語、英語、中国語、韓国語等何でも良い。 It should be noted, first language, second language, Japanese, English, Chinese, may be what Korean and the like. ただし、第一言語と第二言語は異なる言語である。 However, the first language and a second language is a different language.
次に、機械翻訳装置の動作について図2から図5のフローチャートを用いて説明する。 Will now be described with reference to the flowchart of FIGS. 2-5, the operation of the machine translation apparatus.
(ステップS201)受付部15は、第一言語の文章を受け付けたか否かを判断する。 (Step S201) reception unit 15 determines whether it has received a sentence of the first language. 文章を受け付ければステップS202に行き、文章を受け付けなければステップS201に戻る。 If it has accepted the sentence goes to step S202, the flow returns to step S201 if not accept the sentence.

(ステップS202)入力文構文解析部16は、原言語木構造モデル格納部11の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、ステップS201で受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を得る。 (Step S202) the input sentence parsing unit 16, the source language tree structure model source language tree structure model storage unit 11 (specifically, the source language tree structure information) is used to parse a sentence that has been received in step S201 to obtain the tree structure information is information about the tree structure of some or all of the sentence. なお、本ステップにおける文章の構文解析処理は、先に読み込んだ単語を次々に用いて、ボトムアップに大きな構文木を構成するような処理である。 It should be noted that the parsing process of the sentence in this step, by using the word read in the previous one after another, is a process, such as to constitute a large syntax tree to the bottom-up.

(ステップS203)木構造マッピング確率計算部17は、ステップS202において新たな部分木(新たな木構造情報)が取得できたか否かを判断する。 (Step S203) tree mapping probability calculation unit 17, a new branch (new tree structure information) is equal to or been acquired in step S202. 新たな部分木が取得できればステップS204に行き、新たな部分木が取得できなければステップS205に行く。 If possible new partial tree is get to go to the step S204, it goes to step S205 if it can not get new partial tree.

(ステップS204)木構造マッピング確率計算部17は、評価処理を行う。 (Step S204) tree mapping probability calculating unit 17 performs the evaluation process. 評価処理とは、出力の構文木の評価値を算出する処理である。 And evaluation process is a process for calculating an evaluation value of the syntax tree output. 出力の構文木の評価値は、出力情報(翻訳された文章)が出力される確率を示す情報である。 The evaluation value of the syntax tree of the output, the output information (the translated text) is information indicating the probability that is output. ステップS202に戻る。 It returns to step S202. なお、ステップS202に戻った際には、ステップS202において、直前に作成した部分木を構成する前の単語をも取得して、ボトムアップにより大きな構文木を構成するように処理される。 Incidentally, when returning to step S202, at step S202, it acquires also the previous word constituting the subtree just created, is processed to construct a larger syntax tree by bottom-up. 評価処理の詳細について、図3のフローチャートを用いて説明する。 For details of the evaluation process will be described with reference to the flowchart of FIG.

(ステップS205)最尤列探索部19は、文章の最後尾か否かを判断する。 (Step S205) maximum likelihood sequence search unit 19 determines whether the end or not the sentence. 最後尾であればステップS206に行き、最後尾でなければステップS210に行く。 If it is the last tail goes to step S206, go to step S210 if it is not the end. なお、ステップS205における判断が最後尾でないとの判断の場合、本文章は、2以上の部分木を有することとなる。 Incidentally, if the determination in step S205 is determined to not the last, the text will have a 2 or more subtrees.

(ステップS206)最尤列探索部19は、上述の構文解析の処理、および評価処理において、バッファ上に登録された複数の翻訳候補(第二言語の1以上の構文木の集合)から、部分木(構文木)の数が最少となる部分木列を取得する。 (Step S206) maximum likelihood sequence search unit 19, the process of parsing the above, and in the evaluation process, a plurality of translation candidates registered in the buffer (the set of one or more syntax trees in the second language), partial the number of trees (the syntax tree) to obtain a subtree column is minimized.

(ステップS207)最尤列探索部19は、各部分木の出力単語リストから、確率の和が最大となる単語列を決定する。 (Step S207) maximum likelihood sequence search unit 19, the output word list for each subtree, determines the word sequence sum of the probabilities is maximized. その際、同一の出力単語リストが2以上存在する場合には、当該出力単語リストに対応する確率の和を算出し、確率の和が最大となる単語列を決定する際に、当該確率の和を比較対象とする。 At that time, when the same output word list is present 2 or more, when calculating the sum of the probabilities corresponding to the output word list, determines the word sequence sum of the probabilities is maximized, the sum of the probabilities the be compared.
(ステップS208)最尤列探索部19は、ステップS206で決定した1以上の部分木の単語列を連結する。 (Step S208) maximum likelihood sequence search unit 19 connects the word string of 1 or more subtrees determined in step S206.

(ステップS209)出力部20は、ステップS208で連結された単語列を出力する。 (Step S209) The output unit 20 outputs the word string which is connected at step S208. なお、かかる単語列は、最尤列探索部19が取得した1以上の出力情報を有する第二言語の文章(翻訳結果)である。 Incidentally, such a word string is a sentence of the second language, which has one or more output information maximum likelihood sequence search unit 19 obtains (translation results). 処理を終了する。 The process is terminated.
(ステップS210)最尤列探索部19は、次の単語にスキップする。 (Step S210) maximum likelihood sequence search unit 19 skips the next word. 次の単語へのスキップとは、構文解析を行う単語のポインタをずらす処理である。 The skip to the next word, is a process of shifting the pointer of the word to perform syntax analysis. ステップS202に戻る。 It returns to step S202.
次に、ステップS204の評価処理について、図3のフローチャートを用いて詳細に説明する。 Next, the evaluation process of step S204, will be described in detail with reference to the flowchart of FIG.

(ステップS301)木構造マッピング確率計算部17は、構築した部分木の最上位ノードの規則θ fに対応するすべての目的言語木構造モデルの規則θ を、目的言語木構造モデル格納部12から取得する。 (Step S301) tree mapping probability calculation unit 17, a rule theta e of all target language tree structure model corresponding to the rules theta f of the top node of the subtree constructed from target language tree structure model storage unit 12 get. つまり、ここでは、1以上の(θ f ,θ )の組が取得される。 That is, herein, one or more (θ f, θ e) a set of is obtained. なお、規則とは、原言語木構造情報、目的言語木構造情報等である。 It is to be noted that the rule, the source language tree structure information, is the target language tree structure information, and the like.
(ステップS302)木構造マッピング確率計算部17は、カウンタiに1を代入する。 (Step S302) tree mapping probability calculation unit 17 substitutes 1 for a counter i.

(ステップS303)木構造マッピング確率計算部17は、i番目の(θ f ,θ )の組が存在するか否かを判断する。 (Step S303) tree mapping probability calculation unit 17, i-th (θ f, θ e) determining whether the set is present. i番目の(θ f ,θ )の組が存在すればステップS304に行き、存在しなければ上位関数にリターンする。 the i-th (θ f, θ e) If there is a pair of go to the step S304, the procedure returns to the upper-level function if it does not exist.

(ステップS304)木構造マッピング確率計算部17は、i番目の(θ f ,θ )の組のθ を用いて、出力の部分木(目的言語木構造情報)を構築する。 (Step S304) tree mapping probability calculation unit 17 uses the i-th (theta f, theta e) a set of theta e of, constructing the output subtrees (target language tree structure information). 木構造マッピング確率計算部17は、以下のように出力の部分木を構築する。 Tree mapping probability calculation unit 17 constructs a subtree of the output as follows. つまり、入力文構文解析部16により入力文をボトムアップに構文解析しているので、入力構文木におけるθ fの子ノードの非終端記号は既にわかっている。 That is, the input sentence because it parses the bottom up by the input sentence parser 16, non-terminal symbol of the child nodes of theta f at the input syntax tree is already known. すると、θ eの子ノードの非終端記号についても、出力構文木(と出力単語列リスト)は既にわかっていることになる。 Then, for the non-terminal symbol of the child node of θ e, output syntax tree (and output word column list) will be already known. θ eの子ノードの出力構文木を、θ eの非終端記号に埋め込む際、子ノードの出力構文木の最上位の構文ラベルと、非終端記号の構文ラベルを比較し、θ eのすべての子ノード非終端記号について一致している場合だけ埋め込んで、θ eの親ノードをトップとする出力構文木を、木構造マッピング確率計算部17は生成する。 The output syntax tree of children nodes of theta e, theta e when embedding the non-terminal symbols, compares the syntax labels highest output syntax tree of children nodes, the syntax label non-terminal symbol, theta all child nodes of e embedded only if they match the non-terminal symbols, the output syntax tree to the top of the parent node of the theta e, tree mapping probability calculation unit 17 generates.
(ステップS305)木構造マッピング確率計算部17は、ステップS304において、出力の部分木が構築できたか否かを判断する。 (Step S305) tree mapping probability calculation unit 17, in step S304, the subtree of the output to determine whether or not built.
(ステップS306)木構造マッピング確率計算部17は、構築できた部分木を単語列リストに展開する。 (Step S306) tree mapping probability calculation unit 17 develops the subtree can build word sequence list.
(ステップS307)木構造マッピング確率計算部17は、当該部分木の翻訳モデル確率を算出する。 (Step S307) tree mapping probability calculation unit 17 calculates the translation model probability of the subtree. 翻訳モデル確率を算出する処理については、図4のフローチャートを用いて、詳細に説明する。 Processing for calculating the translation model probability, with reference to the flowchart of FIG. 4, will be described in detail.
(ステップS308)木構造マッピング確率計算部17は、当該部分木の言語モデル確率を算出する。 (Step S308) tree mapping probability calculation unit 17 calculates the language model probability of the subtree. 言語モデル確率を算出する処理については、図5のフローチャートを用いて、詳細に説明する。 Processing for calculating a language model probability, with reference to the flowchart of FIG. 5 will be described in detail.

(ステップS309)木構造マッピング確率計算部17は、ステップS307で算出した翻訳モデル確率と、ステップS308で算出した言語モデル確率を用いて、出力単語列の確率を算出する。 (Step S309) tree mapping probability calculation unit 17 uses the translation model probability calculated in step S307, the language model probability calculated in step S308, it calculates the probability of the output word sequence. 通常、木構造マッピング確率計算部17は、「翻訳モデル確率×言語モデル確率」により、出力単語列の確率を算出する。 Normally, the tree structure mapping probability calculation unit 17, by the "translation model probability × language model probability", to calculate the probability of the output word sequence. 出力単語列の確率とは、入力単語列が出力単語列に翻訳される確率である。 The probability of the output word sequence, is the probability that the input word string is translated into output word sequence.
(ステップS310)マージ部18は、ステップS306で得られた単語列リストをキーとして、バッファ(出力の単語列リスト、および確率が一時格納されたバッファ)を検索する。 (Step S310) merging unit 18 as a key word sequence list obtained in step S306, it searches the buffer (output word column list, and probabilities are stored temporary buffer).

(ステップS311)マージ部18は、バッファ中に、ステップS306で得られた単語列リストが存在するか否かを判断する。 (Step S311) merging unit 18 in the buffer, the word column list obtained in step S306, it is determined whether there. 単語列リストが存在すればステップS312に行き、単語列リストが存在しなければステップS313に行く。 If the word column list exists goes to step S312, if the word column list does not exist go to step S313.

(ステップS312)マージ部18は、ステップS306で得られた単語列リストに対応する確率として、ステップS309で得られた確率を追記する。 (Step S312) merging unit 18, a probability corresponding to the word string list obtained in step S306, the write-once probabilities obtained in step S309. ステップS314に行く。 Go to step S314. なお、一の単語リストに対応する確率が2以上存在する場合、翻訳モデル確率の和が、当該単語リストの翻訳確率となる。 Incidentally, if there probability corresponding to a word list is 2 or more, the sum of the translation model probability, the translation probability of the word list. そして、「(2つ以上の翻訳モデル確率の和)×言語モデル確率」が当該単語リストの確率となる。 Then, "(the sum of two or more of the translation model probability) × language model probability" is the probability of the word list.
(ステップS313)マージ部18は、ステップS306で得られた単語列リスト、およびステップS309で得られた確率を対にして登録する。 (Step S313) merge unit 18, and registers the word string list obtained in step S306, and the pair probabilities obtained in step S309.
(ステップS314)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。 (Step S314) tree mapping probability calculation unit 17, a counter i 1, increments. ステップS303に戻る。 It returns to step S303.
次に、ステップS307の翻訳モデル確率を算出する処理について、図4のフローチャートを用いて、詳細に説明する。 Next, a process of calculating a translation model probability in step S307, with reference to the flowchart of FIG. 4, will be described in detail.
(ステップS401)原言語木構造確率取得手段171は、原言語の木構造を用いて、原言語木構造確率を、原言語木構造モデル格納部11から取得する。 (Step S401) source language tree probability obtaining unit 171, by using a tree structure of the source language, the source language tree probability, obtained from source language tree structure model storage unit 11.

(ステップS402)マッピング確率取得手段172は、原言語の木構造(原言語木構造情報)、および出力の部分木(目的言語木構造情報)を用いて、マッピング確率を木構造マッピングモデル格納部13から取得する。 (Step S402) mapping random acquisition unit 172, the tree structure of the source language (source language tree structure information), and using the output subtrees (target language tree structure information), a tree structure mapping random mapping model storage unit 13 to get from.
(ステップS403)目的言語木構造確率取得手段173は、出力の部分木を用いて、目的言語木構造確率を目的言語木構造モデル格納部12から取得する。 (Step S403) target language tree probability obtaining unit 173, using the partial tree output, acquires the target language tree probability from target language tree structure model storage unit 12.

(ステップS404)評価値算出手段175は、原言語木構造確率、マッピング確率、および目的言語木構造確率に基づいて、出力の構文木の翻訳モデル確率を算出する。 (Step S404) The evaluation value calculation unit 175, the source language tree probability mapping probabilities, and on the basis of the target language tree probability, calculates the translation model probability of the output of the syntax tree. 評価値算出手段175は、原言語木構造確率、マッピング確率、目的言語木構造確率の積で翻訳モデル確率を算出することは好適である。 Evaluation value calculating means 175, it is preferable to calculate the source language tree probability mapping probability, the translation model probability by the product of the target language tree probability. 上位関数にリターンする。 To return to an upper-level function.
なお、図4のフローチャートにおいて、原言語木構造確率、マッピング確率、目的言語木構造確率を取得する順序は問わないことは言うまでもない。 In the flowchart of FIG. 4, the source language tree probability mapping probability, it is needless to say that no limitation on the order of obtaining the target language tree probability.

次に、ステップS308の言語モデル確率を算出する処理について、図5のフローチャートを用いて、詳細に説明する。 Next, a process of calculating a language model probability of the step S308, with reference to the flowchart of FIG. 5 will be described in detail. 本フローチャートにおいて算出する言語モデル確率の言語モデルは、単語bigramモデルである。 Language model language model probabilities calculated in this flowchart is a word bigram model.
(ステップS501)木構造マッピング確率計算部17は、カウンタiに1を代入する。 (Step S501) tree mapping probability calculation unit 17 substitutes 1 for a counter i.
(ステップS502)木構造マッピング確率計算部17は、i番目の単語が存在するか否かを判断する。 (Step S502) tree mapping probability calculation unit 17 determines whether i-th word exists. i番目の単語が存在すればステップS503に行き、i番目の単語が存在しなければステップS504に行く。 If there is the i-th word goes to step S503, if there is no i-th word goes to step S504.

(ステップS503)木構造マッピング確率計算部17は、(i−1)番目の単語、i番目の単語を取得する。 (Step S503) tree mapping probability calculation unit 17 acquires (i-1) th word, i th word. なお、iが「1」の時は、木構造マッピング確率計算部17は、「<S>」および1番目の単語を取得する。 It should be noted that, when i is "1", the tree structure mapping probability calculation unit 17, to get "<S>" and the first of the word. 「<S>」は、文の開始を示す記号の文開始記号である。 "<S>" is a sentence start symbol of the symbol to indicate the start of a sentence. ステップS505に行く。 Go to step S505.
(ステップS504)木構造マッピング確率計算部17は、(i−1)番目の単語、「</S>」を取得する。 (Step S504) tree structure mapping probability calculation unit 17, to acquire (i-1) th word, the "</ S>". なお、「</S>」は、文の終了を示す記号の文終了記号である。 It should be noted that, "</ S>" is a sentence end symbol of the symbol indicating the end of the sentence.

(ステップS505)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」に対応する情報を、言語モデル格納部14から検索する。 (Step S505) the word appearance probability acquiring means 174, "<S>, i-th word", "(i-1) th word, i-th word" or "(i-1) th word, < / S> corresponding information ", it retrieves from the language model storage unit 14.

(ステップS506)単語出現確率取得手段174は、「<S>、i番目の単語」、「(i−1)番目の単語、i番目の単語」または「(i−1)番目の単語、</S>」が言語モデル格納部14に存在するか否かを判断する。 (Step S506) the word appearance probability acquiring means 174, "<S>, i-th word", "(i-1) th word, i-th word" or "(i-1) th word, < / S> "it is determined whether or not present in the language model storage unit 14. 言語モデル格納部14に存在すればステップS507に行き、存在しなければステップS508に行く。 It goes to step S507 if there in the language model storage unit 14, go to step S508 if it does not exist.
(ステップS507)単語出現確率取得手段174は、対応する単語出現確率を、言語モデル格納部14から取得し、一時蓄積する。 (Step S507) word occurrence probability obtaining unit 174, the corresponding word occurrence probability, obtained from the language model storage unit 14, temporarily stores. ステップS509に行く。 Go to step S509.
(ステップS508)単語出現確率取得手段174は、単語出現確率を予め決められた値とし、一時蓄積する。 (Step S508) word occurrence probability obtaining unit 174, a predetermined value of word appearance probability, temporarily accumulated. なお、予め決められた値は、単語出現確率取得手段174が保持している、とする。 Incidentally, the predetermined value, the word occurrence probability obtaining unit 174 holds, that.
(ステップS509)木構造マッピング確率計算部17は、カウンタiを1、インクリメントする。 (Step S509) tree mapping probability calculation unit 17, a counter i 1, increments.

(ステップS510)木構造マッピング確率計算部17は、ラストか否かを判断する。 (Step S510) tree mapping probability calculation unit 17 determines whether the last. ラストであればステップS511に行き、ラストでなければステップS502に戻る。 If the last to go to the step S511, the flow returns to step S502 if it is not the last. なお、ラストか否かは、「</S>」が出現したか否かにより判断され得る。 It should be noted, is whether or not the last, "</ S>" can be judged by whether or not emerged.
(ステップS511)木構造マッピング確率計算部17は、一時蓄積した1以上の単語出現確率の積を算出する。 (Step S511) tree mapping probability calculation unit 17 calculates the product of the temporary accumulated at least one word occurrence probability. かかる1以上の単語出現確率の積が、言語モデル確率である。 Product of such one or more of the word appearance probability, is a language model probability. 上位関数にリターンする。 To return to an upper-level function.

なお、図5のフローチャートにおいて、言語モデルは、単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデルなどの、他の言語モデルを用いても良い。 In the flowchart of FIG. 5, the language model has been used word bigram model, the word trigram model, such as part of speech trigram model may be used other language models. 他の言語モデルについては、公知技術であるので、詳細な説明は省略する。 For other language models, it is a known technique, detailed description thereof will be omitted.
上記のフローチャートで説明した機械翻訳装置の翻訳方法は、以下の翻訳方法である。 Translation method of machine translation apparatus described in the flowchart described above is the following translation methods.

つまり、本翻訳方法は、統計翻訳の一種である。 In other words, the translation method, which is a kind of statistical translation. 統計翻訳は、入力の単語列fが与えられたとき、確率を最大化する出力の単語列eを、すべての可能な組み合わせ中から探索することにより、翻訳を行う方法である。 Statistical translation, when word sequence f of the input is given, the word string e output that maximizes the probability, by searching all possible combinations in a method for performing translation. 探索結果は、以下の数式1により表わされる。 Search result is represented by Equation 1 below. 数式1において「argmax」は、確率を最大化する出力の単語列を取得することを示す。 "Argmax" in Equation 1 indicates that to obtain the word string output that maximizes the probability. 確率を最大化する出力の単語列とは、翻訳結果の文章(第二言語の文章)である。 The word column of the output to maximize the probability, is the result of the translation sentence (sentence of the second language).
なお、数式1において、P(e)を言語モデル確率、P(f|e)を逆方向翻訳モデル確率、P(e|f)を順方向翻訳モデル確率、P(f|e)P(e|f)を単に翻訳モデル確率と言う。 Incidentally, in Equation 1, P (e) a language model probability, P (f | e) reverse translation model probability, P (e | f) a forward translation model probability, P (f | e) P (e | f) to simply say that the translation model probability.
つまり、本具体例において、翻訳結果の文章を取得することは、言語モデル確率と翻訳モデル確率の積が最大の単語列を取得することである。 That is, in this example, to obtain the sentence translation result is that the product of the language model probability and the translation model probability to get the maximum word sequence.
以下、翻訳モデル確率の算出方法について、数式を用いて説明する。 Hereinafter, a method of calculating the translation model probability will be described using equations.

構文トランスファ方式の統計翻訳は、翻訳モデル中に隠れ変数として原言語・目的言語の構文木(それぞれF、Eと示し、単語列f,eを生成する)を仮定し、木構造同士のマッピングを行うことにより、翻訳文を生成する。 SMT syntax transfer system, translated as latent variable to the model of the source language, the target language syntax tree (respectively F, E and shows word string f, to generate the e) assuming the mapping of the tree structure between it allows to generate a translation to do.
本機械翻訳措置において、翻訳モデルを原言語(入力)の木構造モデル、目的言語(出力)の木構造モデル、および順方向・逆方向木構造マッピングモデルに分解する。 In the machine translation measures degrade translation model tree structure model of the source language (input), the tree structure model of the target language (output), and the forward-backward tree mapping model.
具体的には、数式2で表現される。 Specifically, it expressed in Equation 2.

ここで、P(F|f)は、原言語の木構造モデル確率である。 Here, P (F | f) is a tree structure model probability of the original language. また、P(E|e)は、目的言語の木構造モデル確率である。 In addition, P (E | e) is a tree structure model probability of the target language. また、P(E|F)は、順方向木構造マッピングモデル確率である。 Also, P (E | F) is the forward tree mapping model probability. また、P(F|E)は、逆方向木構造マッピングモデル確率である。 Also, P (F | E) is a reverse tree structure mapping model probability. P(E|F)P(F|E)を、単に木構造マッピングモデル確率と言う。 P (E | F) P | a (F E), simply referred to as a tree structure mapping model probability.

しかし、構文木全体を変換することはできないため、構文木を構成する文脈自由文法規則単位に変換を行う。 However, since it is not possible to convert the whole syntax tree, it performs conversion into context-free grammar rules units constituting the syntax tree. 文脈自由文法規則単位とは、親ノードの非終端記号に対して、子ノードの非終端記号または終端記号列を生成する規則である。 Context The free grammar rules units, a rule against nonterminal parent nodes, to generate a non-terminal or terminal-symbol sequence of the child node. たとえば、原言語の構文木Eを構成する文脈自由文法規則をθ 、目的言語の構文木F構成する文脈自由文法規則をθ としたとき、各モデルの確率は、以下の数式3から数式5で算出する。 For example, when a context-free grammar rules that make up the parse tree E of the source language theta e, the context-free grammar rules to parse tree F structure of the target language and a theta f, the probability of each model, formula from Equation 3 below 5 is calculated by. 数式3は、原言語の木構造モデル確率を算出する式である。 Equation 3 is an equation for calculating the tree structure model probability of the original language. 数式4は、目的言語の木構造モデル確率を算出する式である。 Equation 4 is an equation for calculating the tree structure model probability of the target language. 数式5は、木構造マッピングモデル確率を算出する式である。 Equation 5 is an equation for calculating the tree structure mapping model probability.

なお、本機械翻訳装置において、翻訳を行う際には、翻訳モデル確率は再帰的に計算する。 In the present machine translation apparatus, when performing translation, translation model probability recursively calculated. たとえば、ある部分木の最上位ノードN が、その直下にj個の部分木を含んでいる場合、以下の数式6で算出する。 For example, the top node N i of a subtree, if it contains the j subtrees immediately below, calculated by Equation 6 below.
さらに、本機械翻訳装置において、例えば、言語モデルは、単語bigramモデルを用いる。 Further, in the present machine translation apparatus, for example, the language model uses a word bigram model. つまり、単語bigramモデルは、数式7により、確率が算出される。 That is, the word bigram model, the equation 7, the probability is calculated.

本機械翻訳装置において、上述した数式により、第二言語の文章(出力単語列リスト)を評価し、例えば、最も評価値が大きい出力単語列リストを出力する。 In the machine translation apparatus, the formula described above, the sentence of the second language (output word sequence list) and evaluated, for example, and outputs the most evaluation value is greater output word sequence list. かかる出力単語列リストが、翻訳結果の文章(第二言語の文章)である。 It takes the output word column list is the result of the translation sentence (sentence of the second language).
以下、本実施の形態における機械翻訳装置の具体的な動作について説明する。 The following describes specific operation of the machine translation apparatus in the present embodiment.

図6は、本機械翻訳装置の原言語木構造モデル格納部11に格納されている原言語木構造モデルの例である。 Figure 6 is an example of the source language tree structure model stored in the source language tree structure model storage unit 11 of the machine translation apparatus. 本原言語木構造モデルは、名前、原言語木構造情報、原言語木構造確率「P(θ )」の属性値を有する1以上の原言語木構造レコードを有する。 Motohara language tree structure model has a name, the source language tree structure information, one or more of the original language tree structure record having attribute value of the original language tree structure probability "P (θ f)". 名前は、原言語木構造情報、原言語木構造確率の組を識別する情報である。 The name is information for identifying the source language tree structure information, a set of original language tree structure probability. 原言語木構造情報は、親ノードと子ノード列を有する。 Original language tree structure information has a parent node and the child node column. つまり、原言語木構造情報は、親ノードと子ノード列により、木構造を構成している。 In other words, the original language tree structure information is, by the parent node and the child node column, constitute the tree structure. また、原言語木構造情報の中には、2個以上の終端記号を子ノードとして持ち、親ノードが非終端記号である規則を含む情報である原言語長単位句木構造情報が含まれる。 Further, in the source language tree structure information has two or more terminal symbols as child nodes, the parent node is included the source language length unit clause tree structure information is information including a rule is non-terminal symbol. 原言語長単位句木構造情報は、例えば、名前「SRC−102」、「SRC−103」、「SRC−105」に対応する原言語木構造情報である。 Source language length unit clause tree structure information, for example, the name "SRC-102", "SRC-103", a source language tree structure information corresponding to the "SRC-105". また、図6の原言語木構造確率「P(θ )」等における、例えば、「3.67e−3」は、「3.67×10 −3 」のことである。 Also, in the original language tree probability "P (θ f)" and the like in FIG. 6, for example, "3.67e-3" is "3.67 × 10 -3". また、原言語木構造確率「P(θ )」は、原言語において、親ノードが子ノード列を生成する確率である。 In addition, the source language tree structure probability "P (θ f)" is, in the original language, is the probability that the parent node is to create a child node column.

図7は、本機械翻訳装置の目的言語木構造モデル格納部12に格納されている目的言語木構造モデルの例である。 Figure 7 shows an example of a target language tree structure model stored in the target language tree structure model storage unit 12 of the machine translation apparatus. 本目的言語木構造モデルは、名前、目的言語木構造情報、目的言語木構造確率「P(θ )」の属性値を有する1以上の目的言語木構造レコードを有する。 This object language tree structure model has a name, the target language tree structure information, one or more target language tree structure record of having the attribute value of the target language tree structure probability "P (θ e)". 名前は、目的言語木構造情報、目的言語木構造確率の組を識別する情報である。 The name is information for identifying the target language tree structure information, a set of target language tree structure probability. 目的言語木構造情報は、原言語木構造情報と同様に、親ノードと子ノード列を有する。 Target language tree structure information, as well as the original language tree structure information, has a parent node and the child node column. また、目的言語木構造確率「P(θ )」は、目的言語において、対応する目的言語木構造情報が現れる確率である。 Further, the target language tree probability "P (θ e)" in the target language, the probability that target language tree structure information corresponding appear.

図8は、木構造マッピングモデル格納部13に格納されている木構造マッピングモデルの例である。 Figure 8 shows an example of a tree structure mapping models stored in the tree structure mapping model storage unit 13. 本木構造マッピングモデルは、マッピング情報とマッピング確率「P(θ |θ )P(θ |θ )」を有する木構造マッピングレコードを1以上有する。 Motoki structure mapping model, mapping information and mapping probability has a tree structure mapping records having one or more "P | | (θ e θ f ) (θ e θ f) P ". マッピング情報は、目的言語の名前と原言語の名前の情報を有する。 Mapping information has the information of the name of the name and the original language of the target language. つまり、マッピング情報は、2つの名前で特定される目的言語の木構造と、原言語の木構造との対応を示す情報である。 In other words, the mapping information is information indicating the tree structure of the target language identified by two names, the correspondence between the tree structure of the source language. また、マッピング確率「P(θ |θ )P(θ |θ )」は、順方向の木構造マッピングモデル確率と逆方向の木構造マッピングモデル確率の積である。 Also, the mapping random "P (θ e | θ f) P (θ f | θ e) " is the product of the forward tree mapping model probability and backward direction of the tree structure mapping model probability.

図9は、言語モデル格納部14に格納されている言語モデルの例である。 Figure 9 is an example of a language model stored in the language model storage unit 14. 本言語モデルは、第一の単語(w i−1 e )と、第二の単語(w e )と、第一の単語の次に第二の単語が出現する確率を示す情報である単語出現確率(P(w e |w i−1 e )を有する単語出現確率を1以上保持している。なお、図9において「<S>」は文開始記号、「</S>」は文終了記号である。 This language model, the first word (w i-1 e), and the second word (w i e), which is information indicating the probability that the second word appears in the next first word word the occurrence probability (P (w i e |. holds w i-1 e) 1 or more of the word appearance probability of having a Note, "<S>" the statement start symbol in Figure 9, "</ S>" is it is a statement terminator.

かかる状況において、本機械翻訳装置は、例えば、図10に示すような構文トランスファ方式の機械翻訳を行う。 In such a situation, the machine translation apparatus, for example, performs machine translation syntax transfer method as shown in FIG. 10. また、本機械翻訳装置は、ここでは、日英翻訳を行う、とする。 In addition, the machine translation apparatus is here, do the Japanese-to-English translation, to. 図10は、「バスは12時に出ますか」という日本語の文章を構文解析し、日本語構文木Fを取得し、次に、当該日本語構文木Fと英語構文木Eとのマッピングを行って英語文を出力することを示している。 10, parses the sentence of the Japanese "Do I get the bus to the 12 o'clock", to get the Japanese syntax tree F, then, the mapping between the Japanese syntax tree F and English syntax tree E saying it is shown that to output the English sentence. なお、図10において、「S」は文章、「NP」は名詞句、「NOUN」は名詞、「VP」は動詞句、「PP」は副詞句、「V」は動詞、「P」は助詞、「NUM」は数字を示す。 In FIG. 10, "S" sentence, "NP" is a noun phrase, "NOUN" noun, "VP" is a verb phrase, "PP" is an adverb phrase, "V" is the verb, "P" particle , "NUM" indicates the numbers. また、図10において、「SQ」は疑問文、「NN」は名詞、「VB」は動詞、「IN」は前置詞、「CD」は数字を示す。 In addition, in FIG. 10, "SQ" is questionable statement, "NN" is a noun, "VB" is a verb, "IN" is a preposition, "CD" indicates the numbers. (正しいでしょうか?) (Is it correct?)
本機械翻訳装置は、かかる構文トランスファ方式の機械翻訳において、翻訳モデル中に、複数の単語から成り、非終端記号を含まない規則(長単位句木構造情報)を含んでいる。 The machine translation apparatus, in machine translation of such syntax transfer method, during translation model, a plurality of words include a rule that does not include a non-terminal symbol (long word phrase tree structure information).
そして、ユーザは、例えば、キーボードから第一言語の文章「バスは12時に出ますか」を入力した、とする。 Then, the user, for example, "the bus out of you or to 12 o'clock" sentence of the first language from the keyboard to enter the, and the. そして、受付部15は、第一言語の文章「バスは12時に出ますか」を受け付ける。 Then, the receiving unit 15, the text of the first language "bus Do you out to the 12 o'clock" accepts a.
以下、かかる場合において、本機械翻訳装置が、「12時に出」の部分翻訳を行う際の処理について説明する。 Hereinafter, in such case, the machine translation apparatus, the process will be described when performing the partial translation of the "out 12 o'clock".
そして、本機械翻訳装置は、図11に示す長単位句木構造情報、およびそれぞれに対応する翻訳モデル確率、言語モデル確率を保持している、とする。 Then, the machine translation apparatus, the length unit clause tree structure information shown in FIG. 11, and translation model probability corresponding to each retain the language model probabilities, and to.

次に、入力文構文解析部16は、図6の原言語木構造モデル(詳細には、原言語木構造情報)を用いて、「12時に出」を構文解析する。 Next, the input sentence syntax analysis unit 16, (in particular, the source language tree structure information) the source language tree structure model of Figure 6 is used to parse the "out to the 12 o'clock". そして、入力文構文解析部16は、SRC−002,SRC−003,SRC−103が適用可能であり、どれも「12時に出」についてVPを構成することを検出し、SRC−002,SRC−003,SRC−103を取得する。 Then, the input sentence parsing unit 16, SRC-002, SRC-003, SRC-103 is applicable, none detected that constitute the VP for the "out 12 o'clock", SRC-002, SRC- 003, to get the SRC-103. かかる3つの部分木「SRC−002」,「SRC−003」,「SRC−103」は、入力部分木を示す情報(その名前)である。 Take three parts tree "SRC-002", "SRC-003", "SRC-103" is information indicating the input sub-tree (the name).
そして、木構造マッピング確率計算部17は、3つの入力部分木(原言語木構造情報)に対して、以下の処理を行う。 Then, the tree structure mapping probability calculation unit 17, to the three input branch (source language tree structure information), the following process is performed.

まず、木構造マッピング確率計算部17は、入力の部分木の最上位ノードに使われた規則θ (ここでは、原言語木構造モデルの名前で特定する)に対応する目的言語木構造モデルの規則θ (ここでは、目的言語木構造モデルの名前で特定する)を図8の木構造マッピングモデルから取得する。 First, the tree structure mapping probability calculation unit 17, the input subtree rule theta f (here, names identified in the source language tree structure model) used in the top node in the target language tree structure model corresponding to rule theta e (here, names identified in the target language tree structure model) acquires from the tree structure the mapping model in Figure 8. SRC−002に対応するθ は、TRG−002,TRG−003、SRC−003に対応するθ はTRG−002,TRG−003、SRC−103に対応するθ はTRG−104である。 Theta e corresponding to SRC-002, the theta e corresponding to TRG-002, TRG-003, SRC-003 is theta e corresponding to TRG-002, TRG-003, SRC-103 is a TRG-104.

ここで、木構造マッピング確率計算部17は、(θ ,θ )の組「(SRC−002,TRG−002)」「(SRC−002,TRG−003)」「(SRC−003,TRG−002)」「(SRC−003,TRG−003)」「(SRC−103,TRG−104)」を取得する。 Here, the tree structure mapping probability calculation unit 17, (θ f, θ e) a set of "(SRC-002, TRG-002 ) ", "(SRC-002, TRG-003 ) ", "(SRC-003, TRG -002) "" (SRC-003, TRG-003) "," (SRC-103, TRG-104) "to get.
次に、木構造マッピング確率計算部17は、上記5組の(θ ,θ )のそれぞれに対して、以下の処理を行う。 Next, the tree structure mapping probability calculation unit 17, the five sets of (θ f, θ e) for each, the following process is performed.

まず、木構造マッピング確率計算部17は、θ を用いて、部分木を構築する(図12のステップ1、ステップ2)。 First, the tree structure mapping probability calculation unit 17 uses the theta e, to construct a partial tree (Step 1 in FIG. 12, Step 2). この例では、図12の3つの部分木が構築される。 In this example, three subtrees of FIG. 12 is constructed. (SRC−002,TRG−002)の組、および(SRC−003,TRG−003)の組の場合は、θ に適合する子供の部分木が存在しないため、出力の部分木は構築されない、とする。 (SRC-002, TRG-002 ) set, and in the case of (SRC-003, TRG-003 ) set, because there is no matching children subtrees in theta e, subtree output is not built, to. 図12の(1)は、(SRC−002,TRG−003)の組に対応する部分木、(2)は「(SRC−003,TRG−002)の組に対応する部分木、(3)は(SRC−103,TRG−104)の組に対応する部分木である。 (1) in FIG. 12, (SRC-002, TRG-003) set to the corresponding subtree of, (2) "(SRC-003, TRG-002) set to the corresponding subtree of (3) is a partial tree corresponding to a set of (SRC-103, TRG-104).

次に、図12の(1)から(3)の出力部分木の単語列リストを展開し、新たな出力単語リストを得る(図12のステップ3)。 Next, expanded in FIG. 12 (1) the word string list of output subtree of (3), to obtain a new output word list (Step 3 in FIG. 12). そして、各出力単語列に対して、数式6、数式7を用いて翻訳モデル確率、言語モデル確率を算出する。 Then, for each output word column, Equation 6, the translation model probability using Equation 7, to calculate the language model probability. なお、部分木の言語モデル確率は、ここでは、文開始・終了記号を付けずに算出し、図9にない単語列に関しては、例えば、確率「1.0e-7」を割り当てる、とする。 Incidentally, the language model probability of the subtree is here calculated without the sentence start and end symbols, for no word sequence in FIG. 9, for example, assigns a probability "1.0e-7", to.

例えば、(SRC−002,TRG−003)の組を用いた場合、「12時に」の出力単語列リストは「at 12 o'clock」,「at noon」,「to noon」であり、「出」の出力単語列リストは「leave」「start」である。 For example, in the case of using the (SRC-002, TRG-003) set of the output word column list of the "12 o'clock" is "at 12 o'clock", "at noon", is "to noon", leaving " output word column list of "is" leave "," start ". したがって、その組み合わせを展開し、翻訳モデル確率、言語モデル確率を算出すると、図13の出力単語列リストを得る。 Accordingly, to expand its combinations, translation model probability, calculating the language model probabilities to obtain an output word sequence list in FIG. 13.
図13において、「入力構文木」は原言語木構造情報の例である。 13, "the input syntax tree" is an example of the source language tree structure information. また、「出力構文木」は「目的言語木構造情報」の例である。 In addition, the "output syntax tree" is an example of the "target language tree structure information".
同様に、(SRC−003,TRG−002)の組、(SRC−103,TRG−104)の組の場合は、図14の出力単語列リストを得る。 Similarly, (SRC-003, TRG-002) set, in the case of pairs (SRC-103, TRG-104), to obtain an output word sequence list in FIG. 14.
以上の処理により、木構造マッピング確率計算部17は、図13、図14の出力単語列リストを得ることができる。 By the above processing, the tree structure mapping probability calculation unit 17 may be 13 to obtain an output word sequence list in FIG. 14.

次に、木構造マッピング確率計算部17は、入力単語列、入力部分木の構文ラベル、出力部分木の構文ラベルが同一の出力単語列リストが既にバッファに登録されている場合、両者の出力単語列リストをマージする。 Next, the tree structure mapping probability calculation unit 17, an input word string, the syntax label input subtree, if the syntax label is the same output word sequence list of output subtree is already registered in the buffer, both of the output word to merge the column list. マージの際、同一の出力単語列が存在する場合は、数式2に従い、翻訳モデル確率の和を算出し、バッファに登録する。 During the merge, when the same output word sequence is present, in accordance with equation (2), to calculate the sum of the translation model probability, be registered in the buffer.

ここで、木構造マッピング確率計算部17は、例えば、マージの結果、出力単語列リストのサイズが、一定値(Nと表記し、ここでは3を仮定する)を超える場合は、翻訳モデル確率と言語モデル確率の積の上位N個だけを残し、登録する。 Here, the tree structure mapping probability calculation unit 17, for example, the result of the merge, the size of the output word sequence list, (denoted as N, here assumed 3) a constant value if it exceeds includes a translation model probability leaving only the top N of the product of the language model probability, it is registered. かかる処理により高速な翻訳処理が可能となる。 High-speed translation process is made possible by such a process.
上記例の場合、マージの結果、図15出力単語列リストが得られ、例えば、上位3個だけがバッファに登録される(図12のステップ4)。 In the above example, the result of the merge, 15 output word sequence list can be obtained, for example, only three upper is registered in the buffer (step 4 in FIG. 12).

上記処理により、新たに「12時に出」の部分翻訳結果が得られるので、これを再帰的に入力文全体について繰り返すことにより、入力文「バスは12時に出ますか」の部分翻訳結果を得ることができる。 By the above-mentioned processing, since the new partial translation result of "out to the 12 o'clock" is obtained, by repeating the entire recursively input sentence this, get a partial translation result of the input sentence "if the bus is out to 12 o'clock." be able to. なお、最終的に得られた出力単語列リストは、文開始・終了記号込みで言語モデル確率が再計算され、翻訳モデル確率との積が最大の出力単語列を、入力文の翻訳結果として出力する。 Note finally obtained output word sequence list output, the language model probability is recalculated by lump statement start and end symbols, the output word sequence of the product is up to the translation model probability as a translation result of the input sentence to.
以上、本実施の形態によれば、単語と句(複数単語)を区別せず翻訳を行うことができる。 As described above, according to this embodiment, it is possible to perform the translation without distinguishing words and phrases (multiple word).
また、本実施の形態によれば、句や単語の順序を階層的に入れ替えることができ、構文的に正しい翻訳文を出力することができる。 Further, according to this embodiment, it is possible to change the order of the phrases and words hierarchically, can output syntactically correct translation. 結果的に翻訳品質が向上する。 Resulting in the translation quality is improved.

また、本実施の形態によれば、構文木に複数の候補が得られた時にも、コーパスから自動的に得られた原言語・目的言語木構造モデル、木構造マッピングモデルに基づく確率を基に、最適な出力単語列を構成することができる。 Further, according to this embodiment, even when a plurality of candidates are obtained in the syntax tree, automatically obtained original language, target language tree structure model from the corpus, based on the probability-based tree structure mapping model , it is possible to configure the optimum output word string. したがって、シソーラス等は必要としない。 Therefore, it does not require the like thesaurus.

また、本実施の形態の具体例によれば、上記ステップS206の処理(部分木の数が最少となる出力部分木を選択する処理)の例について説明しなかった。 Further, according to the specific example of this embodiment it has not been described for an example of the processing of step S206 (processing portion number of the tree selects the output subtree is minimized). かかる処理は、例えば、以下のような処理である。 Such processing is, for example, the following processing. 「すみませんバスは12時に出ますか」が入力されると、部分木の数が最小のものとしては、「すみません」、「バスは12時に出ますか」という2つが得られる。 When the "I'm sorry if the bus is out to 12 o'clock" is input, as those number of partial tree is minimal, "I'm sorry", but two "Do bus out to the 12 o'clock" is obtained. そして、それぞれ「excuse me」、「will the bus leave at 12 o'clock」「will the bus leave at noon」などの出力単語列が得られる。 Then, each "excuse me", the output string of words such as "will the bus leave at 12 o'clock", "will the bus leave at noon" is obtained. そして、それぞれの部分木から、確率最大の出力単語列を取得し、連結して出力すると、「excuse me will the bus leave at 12 o'clock」となる。 Then, from each of the sub-tree, to obtain the probability maximum of output word string, and linked to output, and "excuse me will the bus leave at 12 o'clock".

さらに、本実施の形態において、出力単語列が多数存在する場合にも、入力単語列、入力・出力の部分木の構文ラベルが同じ出力単語列から、確率が上位の単語列だけを残すことを行えば、適切に候補を削減することができ、翻訳速度が向上する。 Further, in this embodiment, even when the output word sequence there are many input word string, the syntax label subtree of the input and output are the same output word sequence, that probability leave only word strings Top be carried out, it is possible to properly reduce the candidate, the translation speed is improved.
なお、本実施の形態の具体例において、言語モデルとして単語bigramモデルを用いたが、単語trigramモデル、品詞trigramモデル等、他の言語モデルを用いてもよい。 Incidentally, in the example of the present embodiment has used the word bigram model as the language model, word trigram model, parts of speech trigram models, etc., may be used other language models.

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。 Moreover, processing in this embodiment may be realized by software. そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。 And, it may distribute this software by the software download or the like. また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。 In addition, it may be distributed to record this software in a recording medium such as a CD-ROM. なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。 The software that realizes the information processing apparatus of this embodiment is the following program. つまり、このプログラムは、コンピュータに、翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデ In other words, the program causes the computer is information relating to the tree structure of the first language is the language of the original sentence to be translated, the length unit clause free of non-terminal symbols of a plurality of words and one node tree source language tree structure having a source language tree structure information including information on the structure, the source language tree records with source language tree probability information indicating the probability of a tree structure corresponding to the source language tree structure information 1 or more model stores a translation is the result sentences languages ​​is information about the tree structure of the second language, the information of the tree structure to the length unit clause free of non-terminal symbols of a plurality of words and one node a target language tree structure information including, target language tree structure model having one or more target language tree records having the target language tree probability information indicating the probability of a tree structure corresponding to the target language tree structure information を格納しており、原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、第一言語の文章を受け付ける受付ステップと、前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ス Stores a, a source language tree structure information and the target language tree structure information and correspondence indicating mapping information is information, a tree structure mapping records having a mapping probability is information indicating the probability of correspondence indicated by the mapping information the stores a tree structure mapping model with 1 or more, storing the language model bookmarks with one or more word occurrence probability of having a word occurrence probability of continuous information of probabilities for occurrences of two or more words in the second language, a receiving step of receiving a sentence of a first language, said parse the sentences received by the receiving step, the tree structure information is information about the tree structure of some or all of the text, and an input sentence parsing step of sequentially obtaining to obtain one or more source language tree probability corresponding to the tree structure information obtained by the input sentence parsing step, the input sentence parsing scan ップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章 Tsu acquires one or more target language tree structure information and one or more mapping probability of corresponding to the tree structure information obtained in flops, one or more target language tree structure corresponding to each of the one or more target language tree structure information get the probability, based on the obtained target language tree structure information, the object of two or more words constituting the language tree structure information to obtain one or more words appearance probability, the obtained source language tree probability , the obtained mapping probability, the obtained target language tree structure probabilities, and on the basis of the obtained word appearance probability, a tree structure mapping probability calculating step of calculating an evaluation value of the output of the syntax tree, the tree structure mapping random based on the evaluation value calculated in the calculation step to determine some or all of the syntax tree of the second language to be output, some or all of the text in the second language based on the syntax tree which is the determined である出力情報を取得する最尤列探索ステップと、前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム、である。 And maximum likelihood sequence search step of acquiring the output information is, the a program, for executing the outputting step of outputting the sentences of the second language having one or more output information acquired by the maximum likelihood sequence search step.

また、前記木構造マッピング確率計算ステップは、前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得する原言語木構造確率取得ステップと、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得するマッピング確率取得ステップと、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得する目的言語木構造確率取得ステップと、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得ステップと、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、お Furthermore, the tree structure mapping probability calculation step includes a source language tree probability acquiring step of acquiring one or more source language tree probability corresponding to the tree structure information obtained by the input sentence parsing step, the input sentence syntax and mapping probability acquiring step of acquiring one or more target language tree structure information and one or more mapping probability of corresponding to the tree structure information obtained by the analysis step, one or more corresponding to each of the one or more target language tree structure information a target language tree probability obtaining step aim to acquire language tree probability, based on the obtained target language tree structure information, of two or more words constituting the target language tree structure information, one or more word appearance and the word appearance probability acquiring the probability from the language model storage unit, the original language tree structure probability, the mapping probability, the target language tree structure probability, your び前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出ステップを具備しても良い。 Based on the fine said word occurrence probabilities may be provided with an evaluation value calculation step of calculating an evaluation value of the syntax tree output.
前記評価値算出ステップは、前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とすることは好適である。 The evaluation value calculating step, the source language tree probability, the mapping probability, the target language tree probability, and calculates the product of the word occurrence probability, suitably be an evaluation value of the syntax tree outputs the product it is.

さらに、前記最尤列探索ステップにおいて、前記木構造マッピング確率計算ステップで算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得することは好適である。 Further, in the above maximum likelihood sequence search step, the tree structure mapping probability calculation largest syntax tree evaluation value calculated in step, to determine an output syntax tree, one second language based on the syntax tree which is the determined it is preferable for obtaining the output information is a part or the whole sentence.

また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。 Further, in the foregoing embodiments, each processing (each function) may be realized by integrated processing by a single apparatus (system), or realized by distributed processing by a plurality of devices it may be.

また、図16は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。 Further, FIG. 16 executes the programs described in this specification, showing the external appearance of a computer that implements the information processing apparatus of various embodiments described above. 上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。 The foregoing embodiments may be implemented in a computer program executed on the computer hardware and. 図16は、このコンピュータシステム300の概観図であり、図17は、システム300のブロック図である。 Figure 16 is a schematic view of a computer system 300, FIG. 17 is a block diagram of a system 300.

図16において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。 16, computer system 300 includes a computer 301 including a FD (Flexible Disk) drive, CD-ROM (Compact Disk Read Only Memory) drive, a keyboard 302, a mouse 303, a monitor 304.

図17において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。 17, computer 301 includes, in addition to the FD drive 3011, CD-ROM drive 3012, a CPU (Central Processing Unit) 3013, a bus 3014 that is connected to the CPU3013, CD-ROM drive 3012 and the FD drive 3011, the boot a ROM for storing a program such as up program and (Read-Only memory) 3015, connected to the CPU3013, RAM for providing a temporary storage space temporarily stores the instruction of the application program (Random Access memory) including the 3016, application programs, system programs, and a hard disk 3017 for storing data. ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。 Although not shown, the computer 301 may further include a network card that provides connection to LAN.

コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。 The computer system 300, a program for executing the functions of the information processing apparatus of the embodiment described above, is stored in the CD-ROM 3101 or FD3102,, it is inserted in the CD-ROM drive 3012 or the FD drive 3011, further to the hard disk 3017 it may be transferred. これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。 Alternatively, the program may be transmitted via a network (not shown) to the computer 301, it may be stored in the hard disk 3017. プログラムは実行の際にRAM3016にロードされる。 Program is loaded into RAM3016 at the time of execution. プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。 The program, directly from the CD-ROM3101, FD3102, or network, may be loaded.

プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。 Program, the computer 301, an operating system to execute the functions of the information processing apparatus of the above-described embodiment (OS), or a third party program may not necessarily include. プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。 The program calls the appropriate function (module) in a controlled manner, may only include a command portion to obtain desired results. コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。 Whether the computer system 300 and how it works is well known, detailed description thereof will be omitted.
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。 Furthermore, the computer that executes this program may be a single, or a plurality. すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 That may perform centralized processing or may be performed distributed processing.
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 The present invention is not limited to the above embodiment, and various modifications may be made, and naturally these modifications are included within the scope of the present invention.

以上のように、本発明にかかる機械翻訳装置は、高品質かつ高速な翻訳が可能となる、という効果を有し、機械翻訳装置等として有用である。 As described above, the machine translation apparatus according to the present invention, it is possible to high-quality and high-speed translation, has the effect of, is useful as a machine translation apparatus or the like.

実施の形態1における機械翻訳装置のブロック図 Block diagram of a machine translation apparatus according to the first embodiment 同機械翻訳装置の動作について説明するフローチャート Flowchart illustrating the operation of the machine translation apparatus 同評価処理の動作について説明するフローチャート Flowchart illustrating the operation of the evaluation process 同翻訳モデル確率を算出する処理について説明するフローチャート Flow chart illustrating the process of calculating the same translation model probability 同言語モデル確率を算出する処理について説明するフローチャート Flowchart illustrating the process of calculating the same language model probability 同原言語木構造モデルの例を示す図 It shows an example of the source language tree structure model 同目的言語木構造モデルの例を示す図 It shows an example of the target language tree structure model 同木構造マッピングモデルの例を示す図 It shows an example of the tree structure mapping model 同言語モデルの例を示す図 It shows an example of the language model 同構文トランスファ方式の機械翻訳を説明する図 Diagram illustrating a machine translation of the same syntax transfer system 同機械翻訳装置の初期状態を示す図 Diagram showing the initial state of the machine translation apparatus 同機械翻訳装置が構築する部分木を示す図 Shows a partial tree that same machine translation apparatus to build 同機械翻訳装置が構成する出力単語列リストを示す図 Diagram showing an output word column list of the machine translation device to configure 同機械翻訳装置が構成する出力単語列リストを示す図 Diagram showing an output word column list of the machine translation device to configure 同機械翻訳装置が構成する出力単語列リストを示す図 Diagram showing an output word column list of the machine translation device to configure 同機械翻訳装置を実現するコンピュータの外観図 External view of a computer for realizing the machine translation apparatus 同機械翻訳装置のブロック図 Block diagram of the machine translation apparatus

符号の説明 DESCRIPTION OF SYMBOLS

11 原言語木構造モデル格納部 12 目的言語木構造モデル格納部 13 木構造マッピングモデル格納部 14 言語モデル格納部 15 受付部 16 入力文構文解析部 17 木構造マッピング確率計算部 18 最尤列探索部 19 出力部 171 原言語木構造確率取得手段 172 マッピング確率取得手段 173 目的言語木構造確率取得手段 174 単語出現確率取得手段 175 評価値算出手段 11 source language tree structure model storage unit 12 the target language tree structure model storage unit 13 tree structure mapping model storage unit 14 the language model storage unit 15 reception unit 16 input sentence parser 17 tree structure mapping probability calculation unit 18 the maximum likelihood sequence search unit 19 output section 171 original language tree structure probability acquisition means 172 mapping probability acquisition means 173 target language tree structure probability acquisition means 174 word appearance probability acquiring means 175 evaluation value calculation means

Claims (6)

  1. 翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納している原言語木構造モデル格納部と、 Is information about the tree structure of the first language is the language of the original sentence to be translated, the source language tree structure including information of the tree structure to the length unit clause containing no non-terminal symbol of a plurality of words and one node information and, the source language tree structure information to the probability information in a source language tree probability source language tree that contains the source language tree structure model having one or more source language tree records having shown the corresponding tree structure and the structure model storage unit,
    翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納している目的言語木構造モデル格納部と、 Is information about the tree structure of the second language is a language of the translation result sentence and target language tree structure information including information of the tree structure to the length unit clause containing no non-terminal symbol of a plurality of words and one node , target language tree structure model that contains the target language tree structure model having a target language tree records having the target language tree probability information indicating the probability of a tree structure corresponding to the target language tree structure information 1 or more a storage unit,
    原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納している木構造マッピングモデル格納部と、 A source language tree structure information and the target language tree structure information and correspondence indicating mapping information is information, a tree structure having one or more tree structures mapping records having a mapping probability is information indicating the probability of correspondence indicated by the mapping information a tree structure mapping model storage unit that stores the mapping model,
    第二言語における単語の出現に関する確率の情報である単語出現確率を1以上有する言語モデルを格納している言語モデル格納部と、 And language model storage unit that stores the language model with a word occurrence probability is information probability for the appearance of a word in the second language 1 or more,
    第一言語の文章を受け付ける受付部と、 And a receiving unit that receives a sentence of the first language,
    前記受付部が受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析部と、 The receiving unit is a sentence and parsing the accepted and the tree structure information sequentially obtained input sentence parsing unit is information about some or all of the tree structure of the sentence,
    前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得し、前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評 Corresponding to one or more to get the source language tree structure probability from the source language tree structure model storage section, a tree structure information which the input sentence parsing unit is obtained which corresponds to the tree structure information which the input sentence parser to obtain 1 or more to get the target language tree structure information and one or more mapping probabilities from said tree structure mapping model storage unit, one or more target language tree probabilities corresponding to each of the one or more target language tree structure information to be obtained from the target language tree structure model storage unit, based on the obtained target language tree structure information, of two or more words constituting the target language tree structure information, the language model storing one or more word occurrence probability obtained from parts, the acquired source language tree probability, the obtained mapping probability, the obtained target language tree probability, and the obtained based on word occurrence probability, leopard output syntax tree 値を算出する木構造マッピング確率計算部と、 A tree structure mapping probability calculation unit for calculating a value,
    前記木構造マッピング確率計算部が算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索部と、 Based on the evaluation value in which the tree structure mapping probability calculation unit has calculated, some or all of the second language to output the syntax tree to determine, some or all of the second language on the basis of a syntax tree that the determined and the maximum likelihood string search unit to acquire the output information is a sentence,
    前記最尤列探索部が取得した1以上の出力情報を有する第二言語の文章を出力する出力部を具備する機械翻訳装置。 Machine translation apparatus comprising an output unit for outputting the sentences of the second language having one or more output information the maximum likelihood sequence search unit has acquired.
  2. 前記木構造マッピング確率計算部は、 The tree structure mapping probability calculation unit,
    前記入力文構文解析部が得た木構造情報に対応する1以上の原言語木構造確率を前記原言語木構造モデル格納部から取得する原言語木構造確率取得手段と、 A source language tree structure probability acquiring means for acquiring one or more source language tree probability corresponding to the tree structure information which the input sentence parsing unit is obtained from the source language tree structure model storage unit,
    前記入力文構文解析部が得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を前記木構造マッピングモデル格納部から取得するマッピング確率取得手段と、 And mapping probability obtaining means for obtaining one or more corresponding target language tree structure information and one or more mapping probability tree structure information which the input sentence parsing unit is obtained from the tree structure mapping model storage section,
    前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を前記目的言語木構造モデル格納部から取得する目的言語木構造確率取得手段と、 A target language tree structure probability obtaining means for obtaining one or more target language tree probabilities corresponding to each of the one or more target language tree structure information from the target language tree structure model storage unit,
    前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を前記言語モデル格納部から取得する単語出現確率取得手段と、 Based on the obtained target language tree structure information, and the object of two or more words constituting the language tree structure information, a word occurrence probability obtaining means 1 or more words appearance probability obtained from the language model storage unit,
    前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、および前記単語出現確率に基づいて、出力の構文木の評価値を算出する評価値算出手段を具備する請求項1記載の機械翻訳装置。 The source language tree probability, the mapping probability, the target language tree structure probabilities, and on the basis of the word occurrence probability, the machine according to claim 1, further comprising an evaluation value calculating means for calculating an evaluation value of the syntax tree output translation apparatus.
  3. 前記木構造マッピング確率計算部が算出した2以上の評価値と当該評価値に対応する出力の構文木において、同一の構文木に対応する評価値を合成するマージ部をさらに具備し、 In the syntax tree output corresponding to two or more evaluation values ​​and the evaluation value in which the tree structure mapping probability calculation unit has calculated, further comprising a merging unit for combining the evaluation values ​​corresponding to the same syntax tree,
    前記最尤列探索部は、 The maximum likelihood string search unit,
    前記木構造マッピング確率計算部が算出した評価値および前記マージ部が合成して得た評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1または請求項2記載の機械翻訳装置。 Based on the tree structure mapping probability calculation unit has calculated evaluation value and an evaluation value in which the merging unit is obtained by combining, to determine some or all of the syntax tree of the second language to be output, the syntax tree and the determined second language translating machine part or to obtain an output information in whole sentences claim 1 or claim 2, wherein the based on.
  4. 前記評価値算出手段は、 The evaluation value calculating means,
    前記原言語木構造確率、前記マッピング確率、前記目的言語木構造確率、前記単語出現確率の積を算出し、当該積を出力の構文木の評価値とする請求項2または請求項3記載の機械翻訳装置。 The source language tree probability, the mapping probability, the target language tree probability, and calculates the product of the word occurrence probability, claim 2 or claim 3, wherein the machine to the evaluation value of the syntax tree outputs the product translation apparatus.
  5. 前記最尤列探索部は、 The maximum likelihood string search unit,
    前記木構造マッピング確率計算部が算出した評価値が最大の構文木を、出力する構文木として決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する請求項1から請求項4いずれか記載の機械翻訳装置。 The tree mapping probability evaluation value calculation unit has calculated the maximum parse tree, determined as the output syntax tree, the output information is a part or all of the text in the second language based on the syntax tree which is the determined machine translation apparatus according to any one of claims 1 to 4 to obtain.
  6. コンピュータに、 On the computer,
    翻訳される元の文章の言語である第一言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む原言語木構造情報と、当該原言語木構造情報に対応する木構造の確率を示す情報である原言語木構造確率を有する原言語木構造レコードを1以上有する原言語木構造モデルを格納しており、 Is information about the tree structure of the first language is the language of the original sentence to be translated, the source language tree structure including information of the tree structure to the length unit clause containing no non-terminal symbol of a plurality of words and one node information, stores a source language tree structure model having one or more source language tree records with source language tree probability information indicating the probability of the corresponding tree structure in the source language tree structure information,
    翻訳結果の文章の言語である第二言語の木構造に関する情報であり、複数の単語からなり非終端記号を含まない長単位句を一のノードとする木構造の情報を含む目的言語木構造情報と、当該目的言語木構造情報に対応する木構造の確率を示す情報である目的言語木構造確率を有する目的言語木構造レコードを1以上有する目的言語木構造モデルを格納しており、 Is information about the tree structure of the second language is a language of the translation result sentence and target language tree structure information including information of the tree structure to the length unit clause containing no non-terminal symbol of a plurality of words and one node stores a target language tree structure model with one or more target language tree records having the target language tree probability information indicating the probability of a tree structure corresponding to the target language tree structure information,
    原言語木構造情報と目的言語木構造情報との対応を示す情報であるマッピング情報と、当該マッピング情報が示す対応の確率を示す情報であるマッピング確率を有する木構造マッピングレコードを1以上有する木構造マッピングモデルを格納しており、 A source language tree structure information and the target language tree structure information and correspondence indicating mapping information is information, a tree structure having one or more tree structures mapping records having a mapping probability is information indicating the probability of correspondence indicated by the mapping information stores a mapping model,
    第二言語の2以上の単語の連続した出現に関する確率の情報である単語出現確率を有する単語出現確率を1以上有する言語モデルを格納しおり、 Bookmark storing a language model having one or more word occurrence probability of having a word occurrence probability of two or more successive information probabilities for occurrences of words in the second language,
    第一言語の文章を受け付ける受付ステップと、 A reception step of receiving a sentence of the first language,
    前記受付ステップで受け付けた文章を構文解析し、当該文章の一部または全部の木構造に関する情報である木構造情報を、順次得る入力文構文解析ステップと、 The receiving and parsing the text received in step, the input sentence parsing step of the tree structure information, obtained sequentially is information about some or all of the tree structure of the sentence,
    前記入力文構文解析ステップで得た木構造情報に対応する1以上の原言語木構造確率を取得し、前記入力文構文解析ステップで得た木構造情報に対応する1以上の目的言語木構造情報と1以上のマッピング確率を取得し、前記1以上の目的言語木構造情報のそれぞれに対応する1以上の目的言語木構造確率を取得し、前記取得した目的言語木構造情報に基づいて、当該目的言語木構造情報を構成する2以上の単語の、1以上の単語出現確率を取得し、前記取得した原言語木構造確率、前記取得したマッピング確率、前記取得した目的言語木構造確率、および前記取得した単語出現確率に基づいて、出力の構文木の評価値を算出する木構造マッピング確率計算ステップと、 1 or more to get the source language tree probability, one or more target language tree structure information corresponding to the tree structure information obtained by the input sentence parsing step corresponding to the tree structure information obtained by the input sentence parsing step When acquired one or more mapping probability, based on the one or more objects to retrieve the one or more target language tree probability corresponding to each language tree structure information, target language tree structure information the acquired, the object of two or more words constituting the language tree structure information to obtain one or more words appearance probability, the obtained source language tree probability, the obtained mapping probabilities, target language tree structure probability the acquired, and the acquired based on the words appearance probability, a tree structure mapping probability calculating step of calculating an evaluation value of the syntax tree output,
    前記木構造マッピング確率計算ステップで算出した評価値に基づいて、出力する第二言語の一部または全部の構文木を決定し、当該決定した構文木に基づいて第二言語の一部または全部の文章である出力情報を取得する最尤列探索ステップと、 Based on the evaluation value calculated in the tree structure mapping probability calculation step, some or all of the second language to output the syntax tree to determine, some or all of the second language on the basis of a syntax tree that the determined and the maximum likelihood string search step to obtain the output information is a sentence,
    前記最尤列探索ステップで取得した1以上の出力情報を有する第二言語の文章を出力する出力ステップを実行させるためのプログラム。 Program for executing an output step of outputting the sentences of the second language having one or more output information acquired by the maximum likelihood sequence search step.
JP2005202350A 2005-07-11 2005-07-11 Machine translation device and program Pending JP2007018462A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005202350A JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005202350A JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Publications (1)

Publication Number Publication Date
JP2007018462A true true JP2007018462A (en) 2007-01-25

Family

ID=37755554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005202350A Pending JP2007018462A (en) 2005-07-11 2005-07-11 Machine translation device and program

Country Status (1)

Country Link
JP (1) JP2007018462A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2011221650A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> Machine translation apparatus and machine translation method and program thereof
US8280719B2 (en) 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280719B2 (en) 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
JP2011221650A (en) * 2010-04-06 2011-11-04 Nippon Telegr & Teleph Corp <Ntt> Machine translation apparatus and machine translation method and program thereof

Similar Documents

Publication Publication Date Title
US5612872A (en) Machine translation system
US6862566B2 (en) Method and apparatus for converting an expression using key words
US6289302B1 (en) Chinese generation apparatus for machine translation to convert a dependency structure of a Chinese sentence into a Chinese sentence
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US7752034B2 (en) Writing assistance using machine translation techniques
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US20030204392A1 (en) Lexicon with sectionalized data and method of using the same
US5644774A (en) Machine translation system having idiom processing function
US6374224B1 (en) Method and apparatus for style control in natural language generation
US6356865B1 (en) Method and apparatus for performing spoken language translation
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US8214196B2 (en) Syntax-based statistical translation model
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6778949B2 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US5418717A (en) Multiple score language processing system
US20030061023A1 (en) Automatic extraction of transfer mappings from bilingual corpora
US5930746A (en) Parsing and translating natural language sentences automatically
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
US5895446A (en) Pattern-based translation method and system