JP5112116B2 - 機械翻訳する装置、方法およびプログラム - Google Patents

機械翻訳する装置、方法およびプログラム Download PDF

Info

Publication number
JP5112116B2
JP5112116B2 JP2008058039A JP2008058039A JP5112116B2 JP 5112116 B2 JP5112116 B2 JP 5112116B2 JP 2008058039 A JP2008058039 A JP 2008058039A JP 2008058039 A JP2008058039 A JP 2008058039A JP 5112116 B2 JP5112116 B2 JP 5112116B2
Authority
JP
Japan
Prior art keywords
translation
partial
node
morpheme
syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008058039A
Other languages
English (en)
Other versions
JP2009217360A (ja
Inventor
聡史 釜谷
哲朗 知野
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008058039A priority Critical patent/JP5112116B2/ja
Priority to US12/360,275 priority patent/US8204735B2/en
Priority to CN200910126931A priority patent/CN101526937A/zh
Publication of JP2009217360A publication Critical patent/JP2009217360A/ja
Application granted granted Critical
Publication of JP5112116B2 publication Critical patent/JP5112116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

この発明は、入力された原言語の文を目的言語の文に機械翻訳する装置および方法に関する。
自然言語処理技術の進展に伴い、第一の言語(原言語)で記述された原言語文を入力し、所望の第二の言語(目的言語)に変換して出力する機械翻訳装置が開発されている。例えば、日本語で記述されたテキストなどを、英語や中国語など他言語に翻訳する機械翻訳システムが実用化されている。この機械翻訳装置が用いる翻訳方式として、これまで種々のものが提案されているが、未だにすべての文に対して適切な訳文を生成できるような方式は実現されていない。
機械翻訳では、形態素解析や構文解析(係り受け解析)などの自然言語処理技術が利用される。このため、高精度な機械翻訳装置を実現する方法の一つとして、これらの個々の技術の処理精度を向上することも重要である。例えば、特許文献1では、構文森に含まれる構文木を個々に評価することなく、一括して効率的に係り受け解析を施すことで、取り得る複数の解釈の内、最尤のものを局所解に陥ることなく選択することが可能となり、精度の高い翻訳処理ができる自然言語解析装置が提案されている。
また、高精度な翻訳を実現する方法の一例として、複数の翻訳方式を組み合わせて原言語文を翻訳する機械翻訳装置が提案されている。例えば、特許文献2では、入力された原文の表層パタンに基づいて入力文を部分列に分割し、部分列ごとに最も適切な翻訳方式を選択的に切り替えて動作させ、それら翻訳結果を統合することで、全体の翻訳結果を得る技術が提案されている。
特開2006−53679号公報 特開2001−222529号公報
しかしながら、特許文献2では、句や節などの表層パタンを単位として入力文を分割する一次元的な分割方法を使用するため、分割のパタンが制限されることや、翻訳に適さない単位で分割することにより、翻訳の質が十分改善されない場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、複数の翻訳方式を組み合わせて翻訳する場合の翻訳精度を向上させることができる装置、方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、原言語による原言語文を入力する入力部と、前記原語文を形態素解析し、前記原語文の形態素列を出力する形態素解析部と、前記原言語文の形態素列を構文解析し、前記原言語文の形態素列の構文構造を出力する構文解析部と、前記構文構造に含まれる第1節点それぞれに対して、前記第1節点を最上位の節点とし、前記第1節点より下位のすべての節点を含む第1部分構造に対応する第1形態素列を、前記構文構造から抽出する第1抽出部と、前記第1節点より下位の第2節点を最上位の節点とし、前記第2節点より下位のすべての節点を含む部分構造と、前記第1部分構造と、の差分を表す第2部分構造に対応する第2形態素列を、前記構文構造から抽出する第2抽出部と、前記第1形態素列および前記第2形態素列を、複数の翻訳方式のそれぞれで目的言語に翻訳し、翻訳の確からしさを表す翻訳スコアと翻訳結果とを対応づけた部分訳情報を生成する翻訳部と、前記部分訳情報の組み合わせのうち、前記組み合わせ内の前記部分訳情報それぞれに含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列が重複せず、かつ、前記原言語文に含まれるすべての形態素が、前記組み合わせ内の前記部分訳情報に含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列のいずれかと一致し、かつ、前記部分訳情報に含まれる前記翻訳スコアに基づいて算出される前記組み合わせの確からしさを表す第1尤度が最大となる前記組み合わせを選択する選択部と、選択された前記組み合わせ内の前記部分訳情報に含まれる前記翻訳結果を含む目的言語による目的言語文を前記原言語文の翻訳結果として生成する生成部と、前記目的言語文を出力する出力部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、複数の翻訳方式を組み合わせて翻訳する場合の翻訳精度を向上させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。なお、以下では、日本語と英語との間の翻訳を例に説明するが、翻訳処理対象の言語はこれら二言語に限られることなく、あらゆる言語の組み合わせを対象とすることができる。
本実施の形態にかかる機械翻訳装置は、入力された原言語文(以下、原言語入力文という)を構文解析し、構文解析の結果として得られた構文情報を利用することにより、翻訳に適した単位で原言語入力文を分割する。そして、分割で得られた文字列(以下、部分入力文字列という)を、複数の翻訳方式それぞれで翻訳し、翻訳の確からしさを表す尤度(翻訳スコア)が最大となる翻訳結果を統合することにより、原言語入力文を高精度に翻訳する。
なお、上記特許文献2では、複数の翻訳方式から適切な翻訳方式を切り替えて翻訳している。しかし、特許文献2の方法は、あらゆる原言語入力文を想定した上で、部分入力文字列の切り出し方法と、これを最良に訳出できる翻訳方式を事前に選定しておく必要がある。このため、この方法を利用した機械翻訳装置の開発には多大な労力を要する。さらに、いずれかの翻訳方式が更新された場合、すべての規則を見直す必要があるため、個々の翻訳方式の改善が機械翻訳装置全体の改善に反映されにくい。
これに対し、本実施の形態にかかる機械翻訳装置では、すべての翻訳方式で部分入力文字列を翻訳し、翻訳スコアが最大の翻訳方式による翻訳結果を統合して翻訳している。このため、切り出した部分入力文字列ごとの翻訳方式を事前に定める必要がない。これにより、複数の翻訳方式の能力を最大限に引き出し、かつ、個々の翻訳方式の性能改善が、全体の翻訳品質の改善に直接寄与することが可能となる。
図1は、本実施の形態にかかる機械翻訳装置100の構成を示すブロック図である。図1に示すように、機械翻訳装置100は、入力部101と、形態素解析部102と、辞書記憶部121と、規則記憶部122と、構文解析部103と、抽出部104と、翻訳部110と、部分訳記憶部123と、最尤構造選択部105と、生成部106と、出力部107と、を備えている。
入力部101は、ユーザが入力した原言語入力文を受付ける。原言語入力文の入力には、キーボード、ポインティングデバイス、手書き文字認識、OCR、音声認識など、一般的に用いられるあらゆる入力方法を適用することができる。
形態素解析部102は、受け付けた原言語入力文を形態素解析し、解析結果として原言語入力文の形態素列を出力する。形態素解析部102による形態素解析処理では、接続コスト最小法、単語分割モデルを用いて動的計画法により分割確率を最大化する手法などの、従来から広く利用されているあらゆる形態素解析技術を適用できる。
図2は、形態素解析部102による解析結果の一例を示す図である。図2は、「私はサイズが大きいので気に入ったけどやめます」を意味する日本語の原言語入力文201に対する解析結果である形態素列202の例を表している。なお、形態素列202は、記号「・」によって形態素の区切りを表している。
図1に戻り、辞書記憶部121は、構文解析部103(後述)が構文解析処理を実行するときに参照する語彙辞書を記憶する。図3は、辞書記憶部121に記憶された語彙辞書のデータ構造の一例を示す図である。なお、図3は、図2の形態素列202内の各形態素に対する文法範疇の例を表している。
図3に示すように、語彙辞書は、語彙と、当該語彙の文法範疇とを対応づけて記憶している。例えば、「私」を意味する日本語の単語301は、名詞を表す文法範疇N(Noun)と対応づけられている。各語彙に対応する文法範疇には、N(Noun)の他に、CM(Case Marker(格助詞))、ADJ(Adjective(形容詞))、CJP(Conjunctive Particle(接続助詞))、V(Verb(動詞))、およびAUX(Auxiliary Verb(助動詞))などが含まれる。
図1に戻り、規則記憶部122は、構文解析部103(後述)が構文解析処理を実行するときに参照する文法規則を記憶する。図4は、規則記憶部122に記憶された文法規則のデータ構造の一例を示す図である。
図4に示すように、規則記憶部122は、「(文法範疇)→(文法範疇1 文法範疇2)」の形式で表された文法規則を記憶している。この文法規則は、矢印の左側の文法範疇は、矢印の右側の文法範疇1および文法範疇2から構成されることを表している。
例えば、文法規則401は、文(文法範疇S(Sentence))は、名詞句(文法範疇NP(Noun Phrase))と動詞句(文法範疇VP(Verb Phrase))とからなることを示している。また、例えば、文法規則402は、文(S)は、さらに、従属句(文法範疇SP(Subordinate Phrase))と、動詞句(文法範疇VP)とからなることを示している。また、例えば、文法規則403は、従属句(文法範疇SP)は、さらに、形容詞句(文法範疇AP(Adjective Phrase))と、接続助詞(文法範疇CJP)とからなることを示している。
なお、辞書記憶部121および規則記憶部122は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
図1に戻り、構文解析部103は、形態素解析部102が出力した形態素列を受け取り、受け取った形態素列に対して構文解析処理を実行し、原言語入力文の構文構造を表すグラフを出力する。構文解析部103は、辞書記憶部121に記憶された語彙辞書や、規則記憶部122に記憶された文方規則を参照して構文解析処理を実行する。構文解析部103による構文解析処理では、チャート法、一般化LR法などによる構文解析方法などの従来から用いられているあらゆる方法を適用できる。
構文解析部103は、形態素列の統語的・意味的な関係を表す少なくとも1つの構文構造を表すグラフを出力する。構文木として現れる構造は、形態素列が持ち得る各形態素間の関係を表す一つの解釈に相当する。そのため、形態素列、および、この形態素列を解析するための文法規則によっては、一つの原言語入力文に対して複数の解釈、すなわち、複数の構文木を想定することができる場合がある。
そこで本実施の形態では、このような構文的・意味的曖昧性に対する頑健さを提供するために、一般化LR法による構文解析を例として説明する。一般化LR法は、文脈自由文法を参照しながら、入力文が同文法的に解釈可能なすべての構文候補を同時並行的に解析し、入力文の構文情報を圧縮共有構文森(packed shared forest、以下、単純に構文森と呼ぶ)構造で出力する解析手法である。
図5は、構文解析部103が出力する構文森の一例を示す図である。図5は、図2の形態素列202を構文解析した結果として得られる構文森の例を示している。図5に示すように、構文森構造を構成するノード(節点)のうち、葉となるノード(節点)は、形態素列中の各形態素に対応している。同図は、このような形態素に対して、文法規則に基づいて構成された複数の構文木を圧縮共有して表現した構文森構造を表している。
同図に示すとおり、構文森を構成する各節点は、図4に示した文法規則によって導かれた文法範疇が対応付けられている。また、説明を容易にする目的で、各節点には、節点を区別するための識別子が付与されている。以降の説明では、各節点を区別して呼称する際には、節点S24のように、節点の持つ文法範疇と識別子とを対にして呼称する。
ところで、先に説明したとおり、構文森は、一つの原言語入力文が文法規則に照らして取り得る、複数の構文木を効率よく保持するためのデータ構造である。例えば、図5に示した構文森は、図6〜図10に示す5つの構文木を内包している。
構文森では、複数の構文木が同じ部分構造(部分木)を持つならば、これを共有(部分木共有)する。例えば、図5の節点AP14は、同図の節点AP15と節点SP16とにより共有されている。これは、図6の構文木と図8の構文木が、共に節点AP14を根とする部分構造を持つことに起因する。
さらに構文森では、同じ形態素列に対する2つ以上の部分木の根が、それぞれ同じ文法範疇に対応づけられている場合、それらの部分木の根を一つに併合する(局所曖昧性圧縮する)ことで、データの保持効率をさらに高めている。例えば、図5の節点SP21は、節点NP12と節点SP20とを子として持つ節点SP21aと、節点SP17と節点SP19とを子として持つ節点SP21bの2つを併合した構造となっている。これは、図9の節点SP21と図10の節点SP21が、それぞれ同一の形態素列(「私・は・サイズ・が・大きい・ので」)に対応し、かつ、文法範疇が共にSPであることに起因する。
構文解析部103は、さらに、構文森が含む意味的な解釈曖昧性を解決し、構造の確からしさを表す尤度(優先度)がより高い構造のみを残した構文森を最終的に出力する。
例えば、図5の構文森で、その構成要素の1つである図8に示す構文木は、「私はサイズが大きい」を意味する解釈、すなわち「わたし」が「大きい」を修飾する意味構造を含む。例えば、この解釈が生起する頻度が、「わたし」が「気に入っ(た)」を修飾する解釈が生起する頻度や、「わたし」が「やめ(ます)」を修飾する解釈が生起する頻度に比べて小さい場合、構文解析部103は、この解釈は相対的に妥当ではないと判断することができる。その結果、構文解析部103は、図8に示す構文木を棄却し、それ以外の構文木のみを残し、図11のような解釈の曖昧性を減じた構文森を出力することができる。
このように、構文森が内包する構文木の意味的な優先度を判定し、解釈の曖昧性を解決する手法としては、文法規則の適用確率を大規模なコーパスから学習し、ある一つの構文木が形成される時の確率を、文法規則の適用確率の積として与えるような確率文脈自由文法を用いる方法や、特許文献1に記載の方法などの従来から用いられているあらゆる方法を使用できる。
このように、構文解析部103は、文法規則に則って一般化LR法により解析された構文構造のうち、意味的な観点から解釈曖昧性を解消している。この結果、すべての解釈曖昧性を解決できれば、構文解析部103は、単一の解釈を表す構文木を出力する。他方、解決不能な曖昧性が含まれる場合には、構文解析部103は、複数の構文木を内包する構文森を出力する。
なお、構文解析部103が意味的な解釈曖昧性を解消せず、文法規則から得られたすべての構文木を含む構文森を出力するように構成してもよい。
図1に戻り、抽出部104は、構文森を構成する各節点に対し、当該節点を最上位の節点とする部分木に対応する形態素を抽出することにより原言語入力文を分割した分割情報を生成する。具体的には、抽出部104は、構文解析部103が出力した構文森を構成する各節点を注目する節点(第1節点)とし、第1節点がその葉方向の下位構造(部分木)として支配する領域(第1部分構造)を切り出し、切り出した第1部分構造に対応する原言語入力文の範囲を、第1部分構造に対応する部分入力文字列を表す第1形態素列として同定する。そして、抽出部104は、第1節点と、第1節点から同定した第1形態素列とを対応づけた分割情報を生成する。以降、このようにして生成した分割情報を基本部分情報と呼ぶことにする。
また、抽出部104は、構文解析部103が出力した構文森を構成する2つの節点の組み合わせのうち、一方の節点が支配する領域が他方の構文構造を完全に内包する組み合わせに対して、2つの節点の支配する領域の差分を切り出し、切り出した領域に対応する原言語入力文の範囲(形態素)を部分入力文字列として同定する。すなわち、抽出部104は、上記第1節点のそれぞれに対して、第1節点より下位の第2節点がその葉方向の下位構造(部分木)として支配する領域を切り出し、切り出した領域と、第1節点が支配する第1部分構造との差分を表す第2部分構造に対応する原言語入力文の範囲を、第2部分構造に対応する部分入力文字列を表す第2形態素列として同定する。
以下では、他方の構造を内包する構造を支配する節点を親節点、内包される構造を支配する節点を子節点と呼ぶ。抽出部104は、親節点と子節点、および切り出される第2部分構造と対応する原言語入力文の範囲(第2形態素列)とを対応づけた分割情報を生成する。以降、このようにして生成した分割情報を差分部分情報と呼ぶことにする。
なお、基本部分情報を抽出する機能および差分部分情報を抽出する機能をそれぞれ別の構成部(例えば第1抽出部および第2抽出部)で実行するように構成してもよい。
図12は、抽出部104が出力する分割情報(基本部分情報および差分部分情報)のデータ構造の一例を示す図である。図12の上部に示すように、基本部分情報は、「(節点の文法範疇と識別子)、(対応する部分入力文字列)」の形式で表される。
例えば、図5に示すように、節点AP15は、節点NP12、節点N1、節点CM2、節点AP14、節点NP13、節点N3、節点CM4、および節点ADJ5からなる下位構造を支配する節点である。そして、節点AP15は、原言語入力文のうち、「私はサイズが大きい」を意味する文字列に対応する。したがって、抽出部104は、節点AP15に対して、図12の基本部分情報1201(AP15、私はサイズが大きい)を生成する。
また、図12の下部に示すように、差分部分情報は、「(親節点の文法範疇と識別子)、(子節点の文法範疇と識別子)、(対応する部分入力文字列)」の形式で表される。
例えば、図5の節点S25aと節点SP16との組み合わせに対して差分部分情報を生成する場合を考える。節点S25aは、節点NP12、節点N1、節点CM2、節点VP24(節点VP24aおよび節点VP24bの局所曖昧性圧縮節点)、節点SP16、節点CJP6、節点AP14、節点NP13、節点N3、節点CM4、節点ADJ5、節点SP20、節点SP19、節点VP18、節点V7、節点AUX8、節点CJP9、節点VP23、節点VP22、節点V10、および節点AUX11からなる下位構造、すなわち、図5の領域501を支配する節点である。
同様に、節点SP16は、節点CJP6、節点AP14、節点NP13、節点N3、節点CM4、および節点ADJ5からなる下位構造、すなわち、図5の領域502を支配する節点である。
ここで、節点S25aは、節点SP16が支配する領域を完全に内包している。したがって、節点S25aが親節点となり、節点SP16が子節点となる。
そこで、抽出部104は、節点S25aの支配領域と節点SP16の支配領域との差分であり、節点NP12、節点N1、節点CM2、節点VP24(節点VP24aおよび節点VP24bの局所曖昧性圧縮節点)、節点SP20、節点SP19、節点VP18、節点V7、節点AUX8、節点CJP9、節点VP23、節点VP22、節点V10、節点AUX11から構成される図5の領域503を切り出す。そして、抽出部104は、領域503に対応する入力文の範囲(「私は気に入ったけどやめます」)を同定する。
この結果、抽出部104は、節点S25aと節点SP16との組み合わせに対して、図12の差分部分情報1202(S25a、SP16、私は気に入ったけどやめます)を生成する。
このようにして、抽出部104は、基本部分情報および差分部分情報という2種類の分割情報を、それぞれすべての節点およびすべての2節点の組み合わせに対して生成する。そして、抽出部104は、生成した分割情報の集合である分割情報集合を出力する。
なお、すべての節点またはすべての2節点の組み合わせに対して分割情報を生成する代わりに、切り出し対象となる節点が取り得る文法範疇を制限するように構成してもよい。例えば、図4に示した名詞句や動詞句などのように句に相当する領域のみを切り出すため、切り出し対象となる節点が取り得る文法範疇をS(文)、従属句(SP)、VP(動詞句)、NP(名詞句)、AP(形容詞句)に限定するように構成してもよい。これにより、原言語入力文の分割粒度を変えることができる。
また、抽出部104によって生成される分割情報に含まれる部分入力文字列の生起確率をコーパスから計算し、所定の確率値より小さい部分入力文字列を含む分割情報を削除することにより、不自然な分割を抑制するように構成してもよい。また、構文森が保持する構文木のうち、優先度の高いものだけに限定して構造分割の処理対象にすることにより、処理量を削減するように構成してもよい。
図1に戻り、翻訳部110は、与えられた原言語の文字列を、所定の複数の翻訳方式のそれぞれで目的言語へ翻訳し、翻訳結果と翻訳スコアと含む部分訳情報を生成する。図13は、翻訳部110の詳細な構成の一例を示すブロック図である。図13に示すように、翻訳部110は、複数の翻訳方式それぞれ実現する翻訳エンジン111〜11nを備えている。
翻訳エンジン111〜11nは、例えば、規則ベース方式、用例ベース方式、および統計ベース方式などに代表される一般的な機械翻訳方式のうち、いずれか事前に定められた方式により与えられた文字列を翻訳する。翻訳部110は、入力された文字列を、各翻訳エンジン111〜11nに配布する。そして、各翻訳エンジン111〜11nが、文字列を翻訳した翻訳文字列と、計算した翻訳スコアとを出力する。
例えば、用例ベースの翻訳方式であれば、入力文字列と用例との類似度を翻訳スコアとすることができる。また、統計ベースの翻訳方式であれば、言語モデルに基づく翻訳の生成確率を翻訳スコアとすることができる。また、規則ベースの翻訳方式であれば、構文の尤度や、用いられた規則の優先度などに基づく値を翻訳スコアとすることができる。このように、翻訳スコアは、各翻訳方式に応じた所定の算出方法で計算した値を利用することができる。なお、翻訳方式ごとに異なる方法で翻訳スコアを算出するのではなく、例えば各翻訳方式で出力された翻訳文字列の生起確率を共通の言語モデル(コーパス)に基づいて計算し、この生起確率を翻訳スコアとして用いるように構成してもよい。あるいは、各翻訳方式で出力された翻訳文字列と原言語入力文の組について、予め対訳コーパスなどから学習した翻訳モデルに基づいて、その翻訳確率を計算し、翻訳スコアとして用いるように構成しても良い。
翻訳部110は、抽出部104によって生成された分割情報と、分割情報に含まれる部分入力文字列を翻訳した結果である部分訳文と、部分訳文と共に出力される翻訳スコアと、元となった分割情報に含まれる節点の情報と、翻訳に用いた翻訳方式を識別する識別子とを対応付けた部分訳情報を生成し、部分訳記憶部123に保存する。
なお、分割情報には基本部分情報と差分部分情報の2種類が存在するため、翻訳部110は、分割情報の種類に対応する2種類の部分訳情報を生成する。
まず、基本部分情報は、部分構造を切り出すときに着目した節点と、切り出した部分構造に対応する部分入力文字列とを含んでいる。よって、翻訳部110は、節点と、部分入力文字列と、部分入力文字列を翻訳部110が翻訳した結果である部分訳文と、部分訳文と共に出力される翻訳スコアと、が対応付けられた部分訳情報を生成する。以下では、このようにして基本部分情報から生成される部分訳情報を、基本部分訳情報と呼ぶ。
一方、差分部分情報は、部分構造を切り出す時に着目した親節点および子節点と、切り出した部分構造に対応する部分入力文字列とを含んでいる。よって、翻訳部110は、親節点と、子節点と、部分入力文字列と、部分入力文字列を翻訳部110が翻訳した結果である部分訳文と、部分訳文と共に出力される翻訳スコアと、が対応付けられた部分訳情報を生成する。以下では、このようにして差分部分情報から生成される部分訳情報を差分部分訳情報と呼ぶ。
図1に戻り、部分訳記憶部123は翻訳部110によって生成された部分訳情報を記憶する。以下に、部分訳情報の詳細についてさらに説明する。
図14は、部分訳記憶部123に記憶される部分訳情報のデータ構造の一例を示す図である。図14に示すように、部分訳情報は、基本部分情報に含まれる節点または差分部分情報に含まれる親節点のいずれかを表す節点(親)と、差分部分情報に含まれる子節点を表す節点(子)と、基本部分情報または差分部分情報に含まれる部分入力文字列と、部分訳文と、翻訳スコアと、翻訳方式を識別する識別子とを含んでいる。
基本部分訳情報の場合、節点(子)の欄は常に空欄となる。部分訳文は、切り出された部分入力文字列を訳出した結果を表す。識別子は、説明の便宜上、異なる翻訳方式から得られた訳出結果であることを明示するための補助的な要素であり、同識別子の有無が、本実施の形態の機械翻訳装置100の動作に影響することはない。
同図の基本部分訳情報1401は、基本部分訳情報の一例を示している。基本部分訳情報1401は、節点S25aに着目して切り出された基本部分情報を翻訳方式1(例えば、翻訳エンジン111)により訳出した結果、部分訳文として「Since I am large size large, although it is pleased, I stop.」が、翻訳スコア0.6で得られたことを示している。
同図の基本部分訳情報1402も基本部分訳情報の一例を示している。基本部分訳情報1402は、基本部分訳情報1401と同様に、節点S25aに着目して切り出された基本部分情報に対する翻訳処理結果を表しているが、翻訳方式2(例えば、翻訳エンジン112)では、部分訳文が得られず、翻訳スコアが0であったことを示している。これは、例えば翻訳方式2が用例ベース方式であり、類似する用例が検索されなかった場合などが該当する。
同図の差分部分訳情報1405は、差分部分訳情報の一例を示している。差分部分訳情報1405は、節点S25aに着目し、節点SP16以下の構造を除いて切り出された差分部分情報を翻訳方式2(例えば、翻訳エンジン112)により訳出した結果、部分訳文として「Although I love it, I give it up.」が、翻訳スコア0.5で得られたことを示している。
図1に戻り、最尤構造選択部105は、部分訳記憶部123に保持されている部分訳情報のすべての組合せのうち、部分訳情報に含まれる節点が同一の構文木上に存在し、かつ、部分訳情報に含まれる部分入力文字列が、不足も重複もすることなく原言語入力文全体を構成することが可能であり、かつ、組み合わせの確からしさを表す尤度、すなわち、組み合わせた部分訳情報によって生成される文全体の翻訳スコアを表す総合翻訳スコアが最大となる組み合わせを選択する。そして、最尤構造選択部105は、選択した組み合わせに含まれる部分訳構造からなる最尤部分訳情報集合を出力する。
最尤構造選択部105は、例えば、部分訳情報の組み合わせのうち、部分訳情報に含まれる節点が同一の構文木上に存在し、かつ、部分訳情報に含まれる部分入力文字列が過不足なく原言語入力文全体を構成できる組み合わせをすべて生成し、生成した組み合わせごとに総合翻訳スコアを算出し、算出した総合翻訳スコアが最大の組み合わせを選択する。なお、動的計画法などを用いることにより、最尤構造選択部105がすべての組み合わせを生成せずに最尤部分訳情報集合を選択するように構成することもできる。
最尤構造選択部105は、総合翻訳スコアとして、部分訳情報に含まれる翻訳スコアの平均値を用いる。総合翻訳スコアの算出方法はこれに限られず、部分木の尤度を考慮して算出する方法などのあらゆる方法を適用できる。例えば、各部分訳情報の生成元となった分割情報に対応する構文森内の部分木の尤度として、確率文脈自由文法に基づく構文構造の生成確率を計算し、この生成確率を掛け合わせた翻訳スコアの平均値を総合翻訳スコアとするように構成してもよい。
ところで、図14の差分部分訳情報1406は、節点S25aに注目した際に得られた基本部分情報から得られた部分訳情報である。一方、節点S25aは、原言語入力文全体を支配する節点である。したがって、この節点に対応する文字列を訳出することは、原言語入力文全体を訳出することを意味する。すなわち、差分部分訳情報1406の部分訳文は、原言語入力文全体を翻訳方式1(例えば、翻訳エンジン111)で訳出した翻訳結果を表している。
このように、原言語入力文全体を支配する節点に注目して得られる基本部分情報を、各翻訳方式で訳出した部分訳文を含む部分訳情報は、各翻訳方式が原言語入力文全体に対して与えることができる最善の翻訳結果と、その翻訳スコア(全体翻訳スコア)とを保持していると言える。したがって、翻訳部110に含まれるすべての翻訳エンジンによる翻訳結果の組み合わせのうち、対応する翻訳スコアの平均値が、この全体翻訳スコアより大きい組み合わせを探索することができれば、原言語入力文全体の翻訳の質を高めた翻訳結果を得ることができる。
図1に戻り、生成部106は、最尤構造選択部105が出力した最尤部分訳情報集合と、構文解析部103が出力した構文森とに従って、原言語入力文全体の翻訳結果である目的言語文を生成する。
最尤部分訳情報集合に含まれる部分訳情報が差分部分訳構造であった場合、生成部106は、部分訳情報に含まれる親節点がその葉方向に支配する領域のうち、部分訳情報に含まれる子節点がその葉方向に支配する領域を除いた領域に対応する形態素列を、部分訳情報に含まれる部分訳文で置換する。さらに、生成部106は、置換した形態素列のみを支配領域とする節点を構文森から削除し、部分訳文を部分訳情報に含まれる親節点が直接支配する領域とする。なお、親節点が既に他の節点を支配している場合は、他の節点に対応する形態素と、部分訳文とが適切な語順になるように並び替える必要がある。そこで、生成部106は、削除した形態素列のうち原言語入力文の末尾により近い形態素を基準として、他の節点が支配する領域に対応する形態素列の順に従って、親節点が直接支配する節点を並び替える。
また、最尤部分訳情報集合に含まれる部分訳情報が基本部分訳構造であった場合、生成部106は、部分訳情報に含まれる節点がその葉方向に支配する領域に対応する形態素列を部分訳情報に含まれる部分訳文で置換する。さらに、生成部106は、置換した形態素列を支配領域に含み、かつ、部分訳情報に含まれる節点を支配領域に含まない節点を構文森から削除し、部分訳文を部分訳情報に含まれる節点が直接支配する領域とする。
このように、生成部106は、部分訳情報を構文森に埋め込むことにより、原言語入力文の部分文字列を適切な翻訳方式で訳出した結果を、統語的・意味的な関係を保持した構文木の形式で出力する。そして、生成部106は、出力した構文木の葉節点を左から右に連結することにより、目的言語文を生成する。
なお、生成部106が、構文木の形式で出力した翻訳結果に対して、例えば、規則ベースの翻訳方式を再度適用することにより、出力する目的言語文を調整するなど、さらに高次の訳文生成手法を適用するように構成してもよい。
出力部107は、生成部106によって生成された目的言語文を出力する。出力部107による出力方法は、例えば、ディスプレイ装置による画像出力、プリンタ装置による印字出力、音声合成装置による合成音声出力など、従来から用いられているあらゆる方式により実現できる。また、このような方式を、必要に応じて切り替えるように構成してもよいし、複数の方式を併用するように構成してもよい。
次に、このように構成された本実施の形態にかかる機械翻訳装置100による機械翻訳処理について図15を用いて説明する。図15は、本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。
まず、入力部101が、原言語入力文Sを受け付ける(ステップS1501)。次に、形態素解析部102が、原言語入力文Sを形態素解析し、形態素列Mを生成する(ステップS1502)。次に、構文解析部103が、形態素列Mを構文解析し、構文森Fを生成する(ステップS1503)。
次に、抽出部104が、構文森Fから基本部分情報を生成し、分割情報集合Dに追加する(ステップS1504)。さらに、抽出部104が、構文森Fから差分部分情報を生成し、分割情報集合Dに追加する(ステップS1505)。
次に、翻訳部110が、分割情報集合D内の各部分情報に対応する部分文字列を、翻訳部110内のすべての翻訳エンジン111〜11nで翻訳し、翻訳結果を含む部分訳情報を生成して部分訳記憶部123に保存する(ステップS1506)。
次に、最尤構造選択部105が、保存された部分訳情報の組み合わせのうち、部分訳情報に含まれる節点が同一の構文木上に存在し、かつ、部分訳情報に含まれる部分入力文字列が、過不足なく原言語入力文全体を構成し、かつ、総合翻訳スコアが最大となる組み合わせを最尤部分訳情報集合Cとして選択する(ステップS1507)。
次に、生成部106が、選択された最尤部分訳情報集合Cから目的言語文Tを生成する統合翻訳処理を実行する(ステップS1508)。統合翻訳処理の詳細については後述する。次に、出力部107が、生成された目的言語文Tを出力し(ステップS1509)、機械翻訳処理を終了する。
次に、ステップS1508の統合翻訳処理の詳細について図16〜図18を用いて説明する。図16は、本実施の形態における統合翻訳処理の全体の流れを示すフローチャートである。
まず、生成部106は、最尤部分訳情報集合Cに属する部分訳情報が持つ、全ての節点を持つ構文木を構文森Fから抜き出して構文木Stとする(ステップS1601)。ここで、抜き出される構文木Stは最尤部分訳情報集合Cの性質上、原言語入力文全体の解釈を表す、必ず1つの構文木に定まる。次に、最尤部分訳情報集合Cから、未処理の部分訳情報pを取得(ステップS1602)し、生成部106は、部分訳情報pが基本部分訳情報か否かを判断する(ステップS1603)。部分訳情報pが基本部分訳情報の場合(ステップS1603:YES)、生成部106は、基本部分訳情報を構文木Stに適用する基本部分訳適用処理を実行する(ステップS1604)。基本部分訳適用処理の詳細については後述する。
部分訳情報pが基本部分訳情報でない場合、すなわち、部分訳情報pが差分部分訳情報の場合(ステップS1603:NO)、生成部106は、差分部分訳情報を構文木Stに適用する差分部分訳適用処理を実行する(ステップS1605)。差分部分訳適用処理の詳細については後述する。
次に、生成部106は、最尤部分訳情報集合C内のすべての部分訳情報を処理したか否かを判断し(ステップS1606)、処理していない場合は(ステップS1606:NO)、次の未処理の部分訳情報pを取得して処理を繰り返す(ステップS1602)。
すべての部分訳情報を処理した場合は(ステップS1606:YES)、生成部106は、最終的に得られた構文木Stの葉に対応する形態素を連結した目的言語文Tを生成し(ステップS1607)、統合翻訳処理を終了する。
次に、ステップS1604の基本部分訳適用処理の詳細について図17を用いて説明する。図17は、本実施の形態における基本部分訳適用処理の全体の流れを示すフローチャートである。
まず、生成部106は、部分訳情報pに含まれる節点nを取得する(ステップS1701)。具体的には、生成部106は、部分訳情報pの節点(親)欄から節点nを取得する。次に、生成部106は、節点nが支配する領域に対応する形態素を、部分訳情報pに含まれる部分訳文tで置換する(ステップS1702)。次に、生成部106は、節点nが支配する領域の節点を構文木Stから削除する(ステップS1703)。次に、生成部106は、節点nが支配する領域として部分訳文tを追加する(ステップS1704)。次に、生成部106は、節点nを支配領域内に含まない節点を構文木Stから削除し(ステップS1705)、基本部分訳適用処理を終了する。
次に、ステップS1605の差分部分訳適用処理の詳細について図18を用いて説明する。図18は、本実施の形態における差分部分訳適用処理の全体の流れを示すフローチャートである。
まず、生成部106は、部分訳情報pに含まれる親節点npと子節点ncとを取得する(ステップS1801)。具体的には、生成部106は、部分訳情報pの節点(親)欄から親節点npを取得し、節点(子)欄から節点ncを取得する。次に、生成部106は、親節点npと子節点ncの支配領域の差分に対応する形態素を、部分訳情報pに含まれる部分訳文tで置換する(ステップS1802)。次に、生成部106は、置換した形態素のみを支配領域とする節点を構文木Stから削除する(ステップS1803)。次に、生成部106は、親節点npが支配する領域として部分訳文tを追加する(ステップS1804)。次に、生成部106は、置換した形態素のうち最も右の形態素と、他の形態素との位置関係に応じて、親節点npが直接支配する節点を並び替え(ステップS1805)、差分部分訳適用処理を終了する。
次に、本実施の形態の機械翻訳処理の具体例について図19〜図21を用いて説明する。図19〜図21は、機械翻訳処理の過程で生成される構文森の一例を示す図である。なお、以下では、翻訳部110が有する翻訳方式は2種類であり、それぞれの翻訳方式の識別子が「1」および「2」であるものとする。
まず、図2の日本語の原言語入力文201(「私はサイズが大きいので気に入ったけどやめます」)が入力されたとする(ステップS1501)。形態素解析部102は、入力された原言語入力文201を形態素解析し、例えば、図2の形態素列202を形態素列Mとして得る(ステップS1502)。
構文解析部103は、形態素列Mを入力として、図3に示すような語意辞書と、図4に示すような文法規則に基づいて一般化LR解析を実行し、図5に示すような構文森を生成する。なお、ここでは、構文解析部103がさらに意味的な解釈曖昧性を解決し、より優先度の高い構造のみを残した図11に示す構文森Fを出力したものとする(ステップS1503)。
抽出部104は、この構文森Fから、基本部分情報および差分部分情報を抽出し、例えば、図12に示す分割情報Dを出力する(ステップS1504、ステップS1505)。次に、翻訳部110が、分割情報集合Dに含まれるすべての分割情報に含まれる部分入力文字列をすべての翻訳方式で訳出し、訳出結果および翻訳スコアを、翻訳元の分割情報と組み合わせた部分訳情報を順次生成し、図14に示すような部分訳情報を部分訳記憶部123に保存する(ステップS1506)。
ここで、最尤構造選択部105が、図14の基本部分訳情報1403、基本部分訳情報1404、および差分部分訳情報1406の組合せを、最尤部分訳情報集合Cとして選択したとする(ステップS1507)。
この場合、最尤部分訳情報集合Cに属する部分訳情報の翻訳スコアの平均値は、(0.8+0.4+0.9)/3=0.7である。この平均値は、原言語入力文全体を翻訳方式1で訳したことを示す基本部分訳情報1401の翻訳スコア0.6、および、原言語入力文全体を翻訳方式2で訳したことを示す基本部分訳情報1402の翻訳スコア0のいずれよりも大きい。これは、本実施の形態の方法によれば、複数の翻訳方式のいずれかが単独で訳出する手法や、翻訳スコアの高い翻訳方式の翻訳結果を選択して翻訳する手法に比べて、より高精度な翻訳結果が得られることを示している。
次に、生成部106が、構文森Fと、最尤部分訳情報集合Cとから、最終的な目的言語文を生成するために統合翻訳処理を実行する(ステップS1508)。
まず、生成部106は、最尤部分訳情報集合Cに属する部分訳情報に含まれる全ての節点を持つ構文木Stを構文森Fから抜き出す(ステップS1601)。この場合の構文木Stは、図11の構文森Fのうち、節点S25aが支配する構文木に相当する。次に、生成部106は、最尤部分訳情報集合Cの未処理の部分訳情報、すなわち、図14の基本部分訳情報1403、基本部分訳情報1404、および差分部分訳情報1406から、例えば、差分部分訳情報1406を部分訳情報pとして取得する(ステップS1602)。
この部分訳情報pは基本部分訳情報でないため(ステップS1603:NO)、生成部106は、差分部分訳適用処理を実行する(ステップS1605)。
差分部分訳適用処理では、生成部106は、部分訳情報p、すなわち、差分部分訳情報1406に含まれる親節点S25aを親節点npとして取得し、子節点SP20を子節点ncとして取得する(ステップS1801)。
親節点npと子節点ncの支配領域の差分に対応する形態素列とは、図12の差分部分情報1203に含まれる部分入力文字列(「わたしはやめます」)に対応する形態素列に他ならない。このため、、図11の節点N1、節点CM2、節点V10、および節点AUX11に対応する形態素を含む形態素列(「わたし・は・やめ・ます」)が、部分訳情報pに含まれる部分訳文である「I just can’t buy it」と置換される(ステップS1802)。
次に、生成部106は、置換された形態素列(「わたし・は・やめ・ます」)に注目して、これら形態素のみを支配する節点を構文木Stから探す。図11の構文森Fに含まれる構文木Stで、この条件を満たす節点は、節点N1、節点CM2、節点NP12、節点V10、節点AUX11、節点VP22であるため、生成部106は、これらの節点を構文木Stから削除する(ステップS1803)。さらに、生成部106は、親節点npが支配する領域として部分訳文tを追加する(ステップS1804)。以上の処理を実行した後の構文木Stは図19のようになる。
ところで、親節点npは既に節点VP24をその直接の支配節点として保持しており、この節点VP24が支配する領域で最も右に存在する形態素は節点CJP9に対応する形態素(「けど」)である。また、置換された形態素列で最も右に存在する形態素は節点AUX11に対応する形態素(「ます」)である。この形態素は、原言語入力文の入力順では、節点CJP9に対応する形態素(「けど」)より後方に存在するため、ステップS1804で追加される支配領域は、節点VP24より後方にソートされる(ステップS1805)。したがって、ここでは、構文木Stは図19のままで変化しない。
以上で差分部分訳適用処理が終了するため、生成部106は、ステップS1606を実行する。最尤部分訳情報集合Cには、未処理の部分訳情報として図14の基本部分訳情報1403および基本部分訳情報1404が存在するため、生成部106は、例えば次に処理する部分訳情報pとして、基本部分訳情報1404を取得する(ステップS1602)。
この部分訳情報pは基本部分訳情報であるため(ステップS1603:YES)、生成部106は、基本部分訳適用処理を実行する(ステップS1604)。
基本部分訳適用処理では、生成部106は、部分訳情報p、すなわち、基本部分訳情報1404に含まれる節点S19を節点nとして取得する(ステップS1701)。
節点nの支配領域に対応する形態素列とは、図12の基本部分情報1204に含まれる部分入力文字列(「気に入ったけど」)に対応する形態素列に他ならない。このため、図11の節点V7、節点AUX8、および節点CJP9に対応する形態素を含む形態素列(「気に入っ・た・けど」)が、部分訳情報pに含まれる部分訳文である「I like it, but.」と置換される(ステップS1702)。
次に、生成部106は、節点nが支配する領域の節点を構文木Stから探す。図11の構文森Fに含まれる構文木Stで、この条件を満たす節点は、節点V7、節点AUX8、節点CJP9、および節点VP18であるため、生成部106は、これらの節点を構文森Fから削除する(ステップS1703)。さらに、生成部106は、節点nが支配する領域として部分訳文tを追加する(ステップS1704)。以上の処理を実行した後の構文木Stは図20のようになる。
なお、図20では、節点nすなわち節点SP19を含まない構造が構文木Stに存在しないため、ステップS1705ではいずれの節点も削除されない。
以上で基本部分訳適用処理が終了するため、生成部106は、ステップS1606を実行する。最尤部分訳情報集合Cには、未処理の部分訳情報として図14の基本部分訳情報1403が存在するため、生成部106は、次に処理する部分訳情報pとして、基本部分訳情報1403を取得する(ステップS1602)。
この部分訳情報pは基本部分訳情報であるため(ステップS1603:YES)、生成部106は、基本部分訳適用処理を実行する(ステップS1604)。
以降、基本部分訳情報1403に関する基本部分訳適用処理は、基本部分訳情報1404における動作と同じである。基本部分訳情報1403に対して基本部分訳適用処理を実行した後の構文木Stは、図21のようになる。
最尤部分訳情報集合Cが保持するすべての部分訳情報が処理されたため(ステップS1606:YES)、生成部106は、構文木Stの葉節点に対応する形態素を連結し、目的言語文Tとして「It’s so big for me, I like it, but I just can’t buy it」を生成する(ステップS1607)。
以上で統合翻訳処理が終了するため、出力部107が目的言語文Tをが出力し(ステップS1509)、機械翻訳処理を終了する。
このように、本実施の形態にかかる機械翻訳装置では、原言語入力文を構文情報を利用することにより原言語入力文を部分入力文字列に分割し、部分入力文字列を複数の翻訳方式それぞれで翻訳し、翻訳スコアの平均値が最大となる翻訳結果を統合した目的言語文を生成することができる。これにより、原言語入力文全体を複数の翻訳方式のいずれで翻訳しても十分な翻訳結果が得られない場合であっても、分割した部分文字列ごとに選択された最良の翻訳方式で翻訳された結果を統合した高精度な翻訳結果を得ることが可能となる。
また、本実施の形態によれば、原言語入力文に対する構文構造を利用して二次元的な観点から原言語入力文を分割し、分割した部分文字列間の関係を生かして翻訳を実行することができる。このため、原言語入力文の表層パタンによって一次元的に分割する方法と比較して、高精度な翻訳結果が得られる可能性が高くなり、最終的な目的言語文を高精度に生成することができる。
また、構文情報に基づいた統合処理を実行することで、各部分訳間の関係を保持したまま目的言語文を生成処理が可能となるため、より高精度な翻訳結果を得ることができる。また、分割処理と翻訳処理とが独立しているため、個々の翻訳方式の性能改善が、全体の翻訳品質の改善に直接寄与することが可能となる。さらに、構文解析時に構文森構造を扱うことができるため、一つの原言語入力文に対して複数の構文木が存在する場合、すなわち、原言語入力文の統語的・意味的解釈が複数存在する場合であっても、同時並行的な処理が可能となる。これにより、機械翻訳処理の処理効率および可用性を向上させることができる。
次に、本実施の形態にかかる機械翻訳装置のハードウェア構成について図22を用いて説明する。図22は、本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
本実施の形態にかかる機械翻訳装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施の形態の機械翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態にかかる機械翻訳装置で実行される機械翻訳プログラムは、上述した各部(入力部、形態素解析部、構文解析部、抽出部、翻訳部、最尤構造選択部、生成部、出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる装置、方法およびプログラムは、文字入力または音声出力した原言語文を目的言語に翻訳して文字出力または音声出力する機械翻訳装置に適している。
本実施の形態にかかる機械翻訳装置の構成を示すブロック図である。 形態素解析部による解析結果の一例を示す図である。 辞書記憶部に記憶された語彙辞書のデータ構造の一例を示す図である。 規則記憶部に記憶された文法規則のデータ構造の一例を示す図である。 構文解析部が出力する構文森の一例を示す図である。 図5の構文森に内包される構文木の一例を示す図である。 図5の構文森に内包される構文木の一例を示す図である。 図5の構文森に内包される構文木の一例を示す図である。 図5の構文森に内包される構文木の一例を示す図である。 図5の構文森に内包される構文木の一例を示す図である。 解釈の曖昧性を減じた構文森の一例を示す図である。 抽出部が出力する分割情報のデータ構造の一例を示す図である。 翻訳部の詳細な構成の一例を示すブロック図である。 部分訳記憶部に記憶される部分訳情報のデータ構造の一例を示す図である。 本実施の形態における機械翻訳処理の全体の流れを示すフローチャートである。 本実施の形態における統合翻訳処理の全体の流れを示すフローチャートである。 本実施の形態における基本部分訳適用処理の全体の流れを示すフローチャートである。 本実施の形態における差分部分訳適用処理の全体の流れを示すフローチャートである。 機械翻訳処理の過程で生成される構文森の一例を示す図である。 機械翻訳処理の過程で生成される構文森の一例を示す図である。 機械翻訳処理の過程で生成される構文森の一例を示す図である。 本実施の形態にかかる機械翻訳装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 機械翻訳装置
101 入力部
102 形態素解析部
103 構文解析部
104 抽出部
105 最尤構造選択部
106 生成部
107 出力部
110 翻訳部
111〜11n 翻訳エンジン
121 辞書記憶部
122 規則記憶部
123 部分訳記憶部
201 原言語入力文
202 形態素列
301 単語
401〜403 文法規則
501、502、503 領域
1201、1204 基本部分情報
1202、1203 差分部分情報
1401〜1404 基本部分訳情報
1405、1406 差分部分訳情報

Claims (12)

  1. 原言語による原言語文を入力する入力部と、
    前記原語文を形態素解析し、前記原語文の形態素列を出力する形態素解析部と、
    前記原言語文の形態素列を構文解析し、前記原言語文の形態素列の構文構造を出力する構文解析部と、
    前記構文構造に含まれる第1節点それぞれに対して、前記第1節点を最上位の節点とし、前記第1節点より下位のすべての節点を含む第1部分構造に対応する第1形態素列を、前記構文構造から抽出する第1抽出部と、
    前記第1節点より下位の第2節点を最上位の節点とし、前記第2節点より下位のすべての節点を含む部分構造と、前記第1部分構造と、の差分を表す第2部分構造に対応する第2形態素列を、前記構文構造から抽出する第2抽出部と、
    前記第1形態素列および前記第2形態素列を、複数の翻訳方式のそれぞれで目的言語に翻訳し、翻訳の確からしさを表す翻訳スコアと翻訳結果とを対応づけた部分訳情報を生成する翻訳部と、
    前記部分訳情報の組み合わせのうち、前記組み合わせ内の前記部分訳情報それぞれに含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列が重複せず、かつ、前記原言語文に含まれるすべての形態素が、前記組み合わせ内の前記部分訳情報に含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列のいずれかと一致し、かつ、前記部分訳情報に含まれる前記翻訳スコアに基づいて算出される前記組み合わせの確からしさを表す第1尤度が最大となる前記組み合わせを選択する選択部と、
    選択された前記組み合わせ内の前記部分訳情報に含まれる前記翻訳結果を含む目的言語による目的言語文を前記原言語文の翻訳結果として生成する生成部と、
    前記目的言語文を出力する出力部と、
    を備えたことを特徴とする機械翻訳装置。
  2. 前記構文構造は、前記原言語文が構文解析で用いる予め定められた文法規則に基づいて取り得る、複数の構文木を含む構文森であること、
    を特徴とする請求項1に記載の機械翻訳装置。
  3. 前記構文解析部は、前記構文木の確からしさを表す第2尤度を対応づけた前記構文木を含む前記構文森を生成し、
    前記第1抽出部は、前記構文森に含まれる前記構文木のうち、前記第2尤度が予め定められた第1閾値より大きい前記構文木から、前記第1形態素列を抽出し、
    前記第2抽出部は、前記構文森に含まれる前記構文木のうち、前記第2尤度が前記第1閾値より大きい前記構文木から、前記第2形態素列を抽出すること、
    を特徴とする請求項2に記載の機械翻訳装置。
  4. 前記構文構造は、対応する形態素の文法範疇が対応づけられた前記節点を含み、
    前記第1抽出部は、前記第1節点のうち、特定の前記文法範疇に対応づけられた前記第1節点を最上位の節点とする前記第1部分構造に対応する前記第1形態素列を前記構文構造から抽出すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  5. 前記第1抽出部は、さらに、抽出した前記第1形態素列のうち、原言語のコーパス内での生起確率が予め定められた第2閾値より大きい前記第1形態素列を抽出し、
    前記第2抽出部は、さらに、抽出した前記第2形態素列のうち、原言語のコーパス内での生起確率が前記第2閾値より大きい前記第2形態素列を抽出すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  6. 前記翻訳部は、前記翻訳方式ごとに予め定められた算出方法で算出された前記翻訳スコアを対応づけた前記翻訳結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  7. 前記翻訳部は、目的言語のコーパス内での前記翻訳結果の生起確率である前記翻訳スコアを対応づけた前記翻訳結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  8. 前記翻訳部は、予め定められた翻訳モデルに基づく前記翻訳結果の翻訳確率である前記翻訳スコアを対応づけた前記翻訳結果を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  9. 前記選択部は、前記組み合わせのうち、前記組み合わせ内の前記部分訳情報それぞれに含まれる翻訳結果の翻訳元の形態素が重複せず、かつ、前記原言語文に含まれるすべての形態素が、前記組み合わせ内の前記部分訳情報に含まれる翻訳結果の翻訳元の形態素のいずれかに対応する前記組み合わせを生成し、生成した前記組み合わせのそれぞれについて前記第1尤度を算出し、算出した前記第1尤度が最大となる前記組み合わせを選択すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  10. 前記生成部は、選択された前記組み合わせ内の前記部分訳情報に含まれる前記翻訳結果を、前記翻訳結果の翻訳元の形態素の前記原言語文での語順に応じて結合することにより、前記目的言語文を生成すること、
    を特徴とする請求項1に記載の機械翻訳装置。
  11. 入力部が、原言語による原言語文を入力する入力ステップと、
    形態素解析部が、前記原語文を形態素解析し、前記原語文の形態素列を出力する形態素解析ステップと、
    構文解析部が、前記原言語文の形態素列を構文解析し、前記原言語文の形態素列の構文構造を出力する構文解析ステップと、
    抽出部が、前記構文構造に含まれる第1節点それぞれに対して、前記第1節点を最上位の節点とし、前記第1節点より下位のすべての節点を含む第1部分構造に対応する第1形態素列を、前記構文構造から抽出する第1抽出ステップと、
    抽出部が、前記第1節点より下位の第2節点を最上位の節点とし、前記第2節点より下位のすべての節点を含む部分構造と、前記第1部分構造と、の差分を表す第2部分構造に対応する第2形態素列を、前記構文構造から抽出する第2抽出ステップと、
    翻訳部が、前記第1形態素列および前記第2形態素列を、複数の翻訳方式のそれぞれで目的言語に翻訳し、翻訳の確からしさを表す翻訳スコアと翻訳結果とを対応づけた部分訳情報を生成する翻訳ステップと、
    選択部が、前記部分訳情報の組み合わせのうち、前記組み合わせ内の前記部分訳情報それぞれに含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列が重複せず、かつ、前記原言語文に含まれるすべての形態素が、前記組み合わせ内の前記部分訳情報に含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列のいずれかと一致し、かつ、前記部分訳情報に含まれる前記翻訳スコアに基づいて算出される前記組み合わせの確からしさを表す第1尤度が最大となる前記組み合わせを選択する選択ステップと、
    生成部が、選択された前記組み合わせ内の前記部分訳情報に含まれる前記翻訳結果を含む目的言語による目的言語文を前記原言語文の翻訳結果として生成する生成ステップと、
    出力部が、前記目的言語文を出力する出力ステップと、
    を備えたことを特徴とする機械翻訳方法。
  12. コンピュータを、
    原言語による原言語文を入力する入力部と、
    前記原語文を形態素解析し、前記原語文の形態素列を出力する形態素解析部と、
    前記原言語文の形態素列を構文解析し、前記原言語文の形態素列の構文構造を出力する構文解析部と、
    前記構文構造に含まれる第1節点それぞれに対して、前記第1節点を最上位の節点とし、前記第1節点より下位のすべての節点を含む第1部分構造に対応する第1形態素列を、前記構文構造から抽出する第1抽出部と、
    前記第1節点より下位の第2節点を最上位の節点とし、前記第2節点より下位のすべての節点を含む部分構造と、前記第1部分構造と、の差分を表す第2部分構造に対応する第2形態素列を、前記構文構造から抽出する第2抽出部と、
    前記第1形態素列および前記第2形態素列を、複数の翻訳方式のそれぞれで目的言語に翻訳し、翻訳の確からしさを表す翻訳スコアと翻訳結果とを対応づけた部分訳情報を生成する翻訳部と、
    前記部分訳情報の組み合わせのうち、前記組み合わせ内の前記部分訳情報それぞれに含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列が重複せず、かつ、前記原言語文に含まれるすべての形態素が、前記組み合わせ内の前記部分訳情報に含まれる翻訳結果の翻訳元である前記第1形態素列または前記第2形態素列のいずれかと一致し、かつ、前記部分訳情報に含まれる前記翻訳スコアに基づいて算出される前記組み合わせの確からしさを表す第1尤度が最大となる前記組み合わせを選択する選択部と、
    選択された前記組み合わせ内の前記部分訳情報に含まれる前記翻訳結果を含む目的言語による目的言語文を前記原言語文の翻訳結果として生成する生成部と、
    前記目的言語文を出力する出力部と、
    として機能させる機械翻訳プログラム。
JP2008058039A 2008-03-07 2008-03-07 機械翻訳する装置、方法およびプログラム Active JP5112116B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008058039A JP5112116B2 (ja) 2008-03-07 2008-03-07 機械翻訳する装置、方法およびプログラム
US12/360,275 US8204735B2 (en) 2008-03-07 2009-01-27 Machine translating apparatus, method, and computer program product
CN200910126931A CN101526937A (zh) 2008-03-07 2009-03-05 机器翻译设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058039A JP5112116B2 (ja) 2008-03-07 2008-03-07 機械翻訳する装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009217360A JP2009217360A (ja) 2009-09-24
JP5112116B2 true JP5112116B2 (ja) 2013-01-09

Family

ID=41054547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058039A Active JP5112116B2 (ja) 2008-03-07 2008-03-07 機械翻訳する装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US8204735B2 (ja)
JP (1) JP5112116B2 (ja)
CN (1) CN101526937A (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8149240B2 (en) * 2007-02-07 2012-04-03 Microsoft Corporation Efficient symbolic differentiation using derivative graph factorization
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
CN102859515B (zh) * 2010-02-12 2016-01-13 谷歌公司 复合词拆分
JP5416021B2 (ja) * 2010-04-06 2014-02-12 日本電信電話株式会社 機械翻訳装置、機械翻訳方法、およびそのプログラム
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US9002696B2 (en) 2010-11-30 2015-04-07 International Business Machines Corporation Data security system for natural language translation
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
CN102270242B (zh) * 2011-08-16 2013-01-09 上海交通大学出版社有限公司 计算机辅助语料提取方法
JP4918174B1 (ja) 2011-09-20 2012-04-18 株式会社Pijin 情報提供装置、情報提供方法、及びコンピュータプログラム
WO2013053114A1 (en) * 2011-10-12 2013-04-18 Genius Link International Limited Translation Apparatus
JP5528420B2 (ja) * 2011-12-05 2014-06-25 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
CN103377184B (zh) * 2012-04-16 2016-03-30 富士通株式会社 处理语言数据的装置、方法以及设备
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
JP6075042B2 (ja) * 2012-12-04 2017-02-08 富士通株式会社 言語処理装置、言語処理方法、及びプログラム
US8914395B2 (en) * 2013-01-03 2014-12-16 Uptodate, Inc. Database query translation system
US20150356076A1 (en) * 2013-01-11 2015-12-10 Qatar Foundation For Education, Science And Community Development System and method of machine translation
JP2014194668A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 翻訳支援装置、翻訳支援システムおよび翻訳支援プログラム
JP6235280B2 (ja) 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
CN103544147A (zh) * 2013-11-06 2014-01-29 北京百度网讯科技有限公司 训练翻译模型的方法和装置
JP6334354B2 (ja) * 2014-09-30 2018-05-30 株式会社東芝 機械翻訳装置、方法およびプログラム
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
JP2015146216A (ja) * 2015-04-09 2015-08-13 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP6655788B2 (ja) * 2016-02-01 2020-02-26 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
US10133724B2 (en) * 2016-08-22 2018-11-20 International Business Machines Corporation Syntactic classification of natural language sentences with respect to a targeted element
US10394950B2 (en) * 2016-08-22 2019-08-27 International Business Machines Corporation Generation of a grammatically diverse test set for deep question answering systems
JP2019016162A (ja) * 2017-07-06 2019-01-31 富士通株式会社 形態素解析プログラム、形態素解析装置、および形態素解析方法
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
JP6918030B2 (ja) * 2019-01-11 2021-08-11 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
US20240028825A1 (en) * 2020-12-09 2024-01-25 Lowie VAN SPRANG Device for syntactic parsing of natural language

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559693A (en) * 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6778949B2 (en) * 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
JP2001222529A (ja) 2000-02-09 2001-08-17 Nec Corp 機械翻訳システム及びプログラムを記録した機械読み取り可能な記録媒体
JP4128379B2 (ja) * 2002-03-11 2008-07-30 株式会社国際電気通信基礎技術研究所 翻訳システムの自動選択をコンピュータに実行させるためのプログラム、およびそのプログラムを記録したコンピュータ読取り可能な記録媒体
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
JP4016018B2 (ja) * 2004-06-29 2007-12-05 株式会社東芝 自然言語解析装置、方法及びプログラム
JP4060832B2 (ja) * 2004-08-10 2008-03-12 株式会社東芝 自然言語解析装置及び方法、自然言語解析プログラム
JP2006252290A (ja) * 2005-03-11 2006-09-21 Advanced Telecommunication Research Institute International 機械翻訳装置及びコンピュータプログラム
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
FR2914079B1 (fr) * 2007-03-20 2009-06-26 Commissariat Energie Atomique Procede de traduction automatique
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
JP5235344B2 (ja) * 2007-07-03 2013-07-10 株式会社東芝 機械翻訳を行う装置、方法およびプログラム

Also Published As

Publication number Publication date
CN101526937A (zh) 2009-09-09
US20090228263A1 (en) 2009-09-10
JP2009217360A (ja) 2009-09-24
US8204735B2 (en) 2012-06-19

Similar Documents

Publication Publication Date Title
JP5112116B2 (ja) 機械翻訳する装置、方法およびプログラム
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
CN1608259B (zh) 机器翻译
JP4635659B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP4439431B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
JPH02165378A (ja) 機械翻訳システム
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR100617318B1 (ko) 2단계 구문분석을 통한 자동 번역 장치 및 방법
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
Saloot et al. Toward tweets normalization using maximum entropy
Liu et al. Use of statistical N-gram models in natural language generation for machine translation
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP6678087B2 (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Miranda et al. Improving ASR by integrating lecture audio and slides
KR102476104B1 (ko) 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2018055328A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP2013073282A (ja) 情報処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5112116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350