JP5194920B2

JP5194920B2 - 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Info

Publication number: JP5194920B2
Application number: JP2008076497A
Authority: JP
Inventors: 紹明劉; ホンリンウ; ハイホウコ
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-03-24
Filing date: 2008-03-24
Publication date: 2013-05-08
Anticipated expiration: 2028-03-24
Also published as: CN101546304B; CN101546304A; JP2009230561A

Description

本発明は、例文対訳辞書を利用した例文集合ベース翻訳装置、方法およびプログラム、並びに該例文集合ベース翻訳装置を含んで構成された句翻訳装置に関する。

機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、１）解析ベース機械翻訳方式、２）統計ベース機械翻訳方式、３）例文ベース機械翻訳方式に大別することができる。

解析ベース機械翻訳方式は、第１言語の解析（形態素解析、構文・意味解析など）を行い、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。

統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ（コーパス）が限られているので実用化が限定的である。

例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。１９８０年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。

図１は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム１０は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム１０は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。

機械翻訳システム１０は、原言語テキスト文入力部１２から入力された文単位の文を翻訳する翻訳メモリ装置１４、翻訳メモリ装置１４において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された単語等の例文パターンを翻訳する例文パターンベース翻訳装置１６と、例文パターンベース翻訳装置１６で翻訳できなかった単語を不適切な単語として入力し、この単語を翻訳する単語直訳翻訳装置１８と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部２０とを有している。

さらに機械翻訳システム１０は、例文パターンベース翻訳装置１６によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部２２と、翻訳不適切文自動回収部２２により作成された翻訳のチェックや修正を行う学習装置２４と、翻訳辞書２６とを備えている。翻訳辞書２６は、第１の言語の単語とその対訳である第２の言語の単語を格納する単語対訳辞書２６ａ、第１の言語の例文とその対訳である第２の言語の例文を格納する例文対訳辞書２６ｂ、第１の言語の例文パターンとその対訳である第２の言語の例文パターンを格納する例文パターン対訳辞書２６ｃを含んでいる。翻訳辞書２６は、翻訳メモリ装置１４、例文パターンベース翻訳装置１６、単語直訳翻訳装置１８において利用される。なお、図１の機械翻訳システムは、一つの構成例であって、さらに他のチャンクベース等の翻訳エンジンを含むものもある。

図２は、図１における例文パターンベース翻訳装置１６の構成を示すブロック図である。例文パターンベース翻訳装置１６は、入力文を形態素解析する形態素解析部２６、形態素解析された文に対して例文パターン対訳辞書３０を用いて写像変換を行う写像変換部２８、写像変換された文における各名詞句を翻訳する句翻訳部３２、および句翻訳部３２で翻訳された句を写像変換された文に適用して最終的な訳文を生成する訳文生成部３４を備えて構成される。例文パターン対訳辞書３０には、文中の二つ以上の単語からなる名詞句を一般化した多数の例文パターンとその対訳文が組となって格納されている。写像変換部２８は、入力文における名詞句を一般化した文を生成し、例文パターン対訳辞書３０に対して検索を実行してこれと同じ例文パターンおよびその対訳文の組を抽出する。

図３は、例文パターンベース翻訳装置１６における具体的な翻訳処理のプロセスを示した概念図である。ここでは日本語を第１言語として入力し、第２言語として中国語の訳文を得る例を示している。例文パターンベース翻訳装置１６に入力された日本語文は、形態素解析部２６で形態素解析され（図中の数字は各形態素に与えられるＩＤ）、写像変換部２８に与えられる。写像変換部２８では、形態素解析された文中の句（フレーズ）を一般化（図中のＮＰ１、ＮＰ２、ＮＰ３）した文を生成し、これに一致する例文パターンを例文パターン対訳辞書３０から抽出する。そしてその中国語対訳例文パターンを特定する。次に、写像変換部２８でＮＰ１〜ＮＰ３として一般化された名詞句を、句翻訳部３２に入力して、それらの対訳句を得る。訳文生成部３４において、このようにして得られた対訳例文パターンに対訳句が埋め込まれ、入力された日本語文に対する中国語訳文が生成される。なお、句翻訳部３２における名詞句の翻訳精度は、最終的な翻訳文における翻訳精度に重大な影響を与える。

前述のような機械翻訳技術に関連するものとして、特許文献１〜４並びに非特許文献１および２が存在する。特許文献１には、連体修飾節を有する第１言語文を第２言語文に翻訳する際に、第２言語の翻訳辞書に連体修飾節の語順に関する情報を付与し、その情報を利用して第２言語の文法規則に従って第２言語文を生成することにより、正しい語順の名詞句を持つ翻訳結果を得ることが開示されている。特許文献２には、機械翻訳装置における並列名詞句処理において、正しい並列名詞句の処理を行なえるようにした並列名詞句処理方式が開示されている。特許文献３は、構造解析して複雑な構造を有する名詞句を抽出し、主名詞とそれ以外の構成要素に分割し、文法規則中の変換・生成規則を用いて訳文を生成する技術が開示されている。特許文献４は、例文対訳辞書を用いて、入力された句を含む例文とその訳文を抽出し、ユーザが抽出された情報から訳文を選択する技術が開示されている。

また、非特許文献１は、第１言語の例文とその例文の第２言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献２は、第１言語の例文とその例文の第２言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う技術を報告している。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。

特開平５ー１２０３２９号公報特開平６ー６８１３１号公報特開平９ー２８２３２０号公報特開２００１ー１９５４０４号公報 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130.

Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.ｐp 490−497. Madrid Spain,1997.

しかしながら前記特許文献１〜３に開示の技術は、その翻訳精度が言語の解析技術に大きく依存しており、その解析精度が十分でない現状においては、その翻訳精度は要求されている水準には達していないという問題がある。また、特許文献４に開示の技術は翻訳支援技術であって、句の訳文を自動的に抽出する技術ではない。

また、非特許文献１に開示の技術は、単語アライメント技術を用いたものであるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献２に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。

本発明は、上記従来の課題を解決するものであり、機械翻訳システムにおける例文パターン翻訳装置に実装しうる高性能な句翻訳装置を提供するものであり、この句翻訳装置は、二つ以上の単語からなる句を高速、高精度に翻訳可能として、機械翻訳システムにおける最終的な翻訳文の翻訳精度を向上させることを目的としている。

なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。

本発明に係る例文集合ベース翻訳装置は、第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書と、第１言語の句を入力する手段と、前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択する手段と、前記複数の例文対訳組における各例文対訳組相互間の共通部分の組をそれぞれ抽出する手段と、前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出する手段と、前記算出された支持度合に基づいて選択された共通部分の組における対訳句を、前記入力された句に対する第２言語の訳文として出力する手段とを備える。

好ましくは、前記入力された句に対する支持度合を算出する手段が、前記抽出された共通部分の各組における第１言語による例文間の共通部分が、入力された句に対して所定の一致度合にある場合に、その第２言語の対応訳文における共通部分を訳文候補として選出する手段と、前記選出された訳文候補の出現回数をその支持度合を表すものとして計数する手段とを更に備える。

また好ましくは、前記訳文候補を選出する手段は、前記抽出された共通部分の各組における第１言語による例文間の共通部分が、入力された句に対して完全に一致する場合、または、前記共通部分が入力された句を含んでおり、かつその対応訳文における共通部分が訳文候補となっている場合の何れかの場合に、その第２言語の対応訳文における共通部分を訳文候補として選出する。

好ましくは、前記算出された支持度合に基づいて選択された共通部分の組における対訳句を、前記入力された句に対する第２言語の訳文として出力する手段が、最も出現回数が多い訳文候補の該出現回数が第１の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第２の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第３の閾値を超える場合の何れかの場合に、該最も出現回数が多い訳文候補を、前記入力された句に対する第２言語の訳文として出力する。

本発明に係る句翻訳装置は、前記例文集合ベース翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成する。

好ましくは、前記句翻訳装置は、辞書ベース翻訳方式による辞書ベース翻訳部と、例文完全マッチング翻訳方式による例文完全マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、請求項１、２、３または４に記載の例文集合ベース翻訳装置からなる例文集合ベース翻訳部と、例文ベース翻訳方式による例文ベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成される。

本発明に係る例文集合ベース翻訳方法は、第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書を利用した例文集合ベース翻訳方法であって、第１言語の句を入力するステップと、前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択するステップと、前記複数の例文対訳組における各例文対訳組相互間の共通部分の組をそれぞれ抽出するステップと、前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出するステップと、前記算出された支持度合に基づいて選択された共通部分の組における対訳句を、前記入力された句に対する第２言語の訳文として出力するステップとを備える。

好ましくは、前記入力された句に対する支持度合を算出するステップが、前記抽出された共通部分の各組における第１言語による例文間の共通部分が、入力された句に対して所定の一致度合にある場合に、その第２言語の対応訳文における共通部分を訳文候補として選出するステップと、前記選出された訳文候補の出現回数をその支持度合を表すものとして計数するステップとを更に備える。

本発明に係る例文集合ベース翻訳プログラムは、第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書を利用した例文集合ベース翻訳プログラムであって、第１言語の句を入力するステップと、前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択するステップと、前記複数の例文対訳組における各例文対訳組相互間の共通部分の組をそれぞれ抽出するステップと、前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出するステップと、前記算出された支持度合に基づいて選択された共通部分の組における対訳句を、前記入力された句に対する第２言語の訳文として出力するステップとを備える。

本発明に係る例文集合ベース翻訳装置は、例文対訳辞書における多数の例文対訳から抽出される複数の共通部分を訳文候補とし、各訳文候補に対する出現回数ベースの支持度合に基づいて最終的な訳文を決定するので、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。

また、本発明に係る句翻訳装置は、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、翻訳の高速化および高精度化が図られる。

以下本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。

本実施例は、図１に示した機械翻訳システム１０に用いられる例文パターンベース翻訳装置１６に実装しうる句翻訳装置に係る。図４は、本実施例の句翻訳装置の構成を示すブロック図である。図に示すように句翻訳装置４０は、異なる翻訳方式に基づく複数段の翻訳部４４〜５６、およびそれらで用いられる複数の対訳辞書６０〜６６を備えており、これは入力部４２に入力される第１言語の句が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。つまり、前段の翻訳部において適切に翻訳された句は次段移行の翻訳部における翻訳を受けることなく出力部５８から出力され、適切に翻訳されなかった句のみが次段の翻訳部に入力されるように構成されている。

具体的には、入力部に入力された第１言語の句は、最初に辞書ベース翻訳部４４による翻訳処理に掛けられ、ここで適切な翻訳句が得られなかった場合に、次段の例文完全マッチング翻訳部４６での翻訳処理に掛けられる。次いで例文完全マッチング翻訳部４６においても適切な翻訳句が得られない場合、入力された句は形態素解析部４８において形態素解析され、次段の単語アライメント例文ベース翻訳部５０による翻訳処理に掛けられる。更に、単語アライメント例文ベース翻訳部５０において適切な翻訳句が得られない場合、入力された句は例文集合ベース翻訳部５２の翻訳処理に掛けられる。そして、例文集合ベース翻訳部５２においても適切な翻訳句が得られない場合には、例文ベース翻訳部５４の翻訳処理に掛けられ、ここでも適切な翻訳句が得られない場合に最終段のルールベース翻訳部５６の翻訳処理に掛けられ、その結果は出力部５８から出力される。

次に、各翻訳部４４〜５６の具体的な構成および処理手順について説明する。

辞書ベース翻訳部４４は、入力された句に対して、単語／句対訳辞書６０を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語／句対訳辞書６０内には、第１言語による単語あるいは句をキーとし、第２言語によるその対訳語あるいは句を値とする辞書セットと、第２言語による単語あるいは句をキーとし、第１言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部４４は、基本的には２段階の処理を行い、最初に第１言語による単語／句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第２言語による単語／句をキーとして検索を行ってその対訳句の抽出を行う。

図５は、辞書ベース翻訳部４４における翻訳処理の手順を示したフローチャートである。図に示すように、入力された句Pに対して、最初のステップＳ５０１において、言語１から言語２への単語／句対訳辞書のセットが検索される。そして、この辞書セットに該当単語あるいは句が存在する場合、処理はステップＳ５０２からステップＳ５０３に移り、その該当単語あるいは句の対訳語あるいは対訳句が、入力された句Pの訳語として抽出され、出力部５８から出力される。

一方、ステップＳ５０２で、この辞書セットに該当単語あるいは句が存在しないと判断された場合は、言語２から言語１への単語／句対訳辞書のセットが検索される。そして、この辞書セットにおける対訳データにおいて該当単語あるいは句が存在する場合、処理はステップＳ５０５からステップＳ５０６に移り、その該当単語あるいは句の原語が、入力された句Pの訳語として抽出され、出力部５８から出力される。前記２つの辞書セットのいずれからも該当単語／句が得られない場合には、入力された句Pは次段の翻訳部である例文完全マッチング翻訳部４６へ渡され、そこでの処理に掛けられる。

図６は、単語／句対訳辞書６０のデータ構造の一例を示した図である。この例では、第１言語として日本語、第２言語として中国語を想定した場合の辞書を例としており、日本語を原語、中国語を訳語として構成された第１の辞書セット６０ａ、中国語を原語、日本語を訳語として構成された第２の辞書セット６０ｂが示されている。句翻訳装置に入力された句Pが日本語である場合、最初に第１の辞書セット６０ａの原語のカラムが検索されて、該当フィールドの対応する中国語の訳語が句Pの訳語として抽出される。第１の辞書セット６０ａによる検索が失敗した場合、次に、第２の辞書セット６０ｂの訳語のカラムが検索されて、該当フィールドの対応する中国語の原語が句Pの訳語として抽出される。

前記辞書ベース翻訳部４４において、入力された句に対する訳語が得られなかった場合、その入力された句は例文完全マッチング翻訳部４６の処理の対象になる。例文完全マッチング翻訳部４６は、主として挨拶文などの定型的な例文を備えた例文対訳辞書６２を検索して入力された句の対訳を得るためのものである。この翻訳部における対訳の抽出には、例えば、ハッシュ値を用いた検索が利用される。この場合、第１言語の句が入力されたとき、入力句のハッシュ値を生成し、入力句のハッシュ値と完全にマッチングする第１言語の例文のハッシュ値を、例文対訳辞書６２から検索し、対訳例文を抽出する。具体的なハッシュ値の生成には既存の技術を利用することができる。例文完全マッチング翻訳部４６は、ハッシュ値による検索に加えて、N-gram法による検索を用いて、例文対訳辞書から類似する第１言語の例文候補を検索し、その対訳例文を抽出するよう構成してもよい。

次に、単語アライメント例文ベース翻訳部５０の機能について説明する。例文完全マッチング翻訳部４６で適切に翻訳できなかった句は、形態素解析部４８において形態素解析、つまり、入力された句に含まれる単語と品詞をそれぞれ抽出してそれぞれに意味属性を与えられ、これが単語アライメント例文ベース翻訳部５０の入力データとなる。単語アライメント例文ベース翻訳部５０は、形態素解析された句に対する訳文候補を単語アライメント対訳辞書６４を参照して得る。

単語アライメント対訳辞書６４は、第１言語による例文とその第２言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第１言語の例文における各単語と第２言語の対訳文における各単語の対応付け情報が付加されている。具体的な単語アライメント情報の生成方法については、ここでは説明しないが、既存の各種の単語アライメント情報の生成方法が本実施例においても利用できる。

図７は、単語アライメント例文ベース翻訳部５０における翻訳処理の手順を示すフローチャートである。図のステップＳ７０１において、単語アライメント対訳辞書６４の最初の例文ペアが抽出され、ステップＳ７０２でその第１言語の例文中に形態素解析された句Pが含まれているか判断される。この処理は句Pが含まれている例文ペアが出現するまで辞書内の全ての例文ペアに対して行われる。すなわち、抽出された例文ペアに句Pが含まれていないと判断された場合、ステップＳ７０３で辞書内の全ての例文ペアを取り出したかが判断され、取り出されていない場合には、ステップＳ７０４で次の例文ペアを取り出して、句Pとの対比を行う。

ステップＳ７０２において、抽出された例文ペアに句Pが含まれている判断された場合には、処理はステップＳ７０５に移り、その例文ペアの単語アライメント情報を参照して、例文中の句Pに該当する部分に対応する、訳文中の部分を、句Pの訳文候補として抽出する。次いで、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含むか判断される（ステップＳ７０７）。そして、そのような単語がない場合、すなわち、例文の句Pに該当する部分と訳文候補とのアライメントが完全に一致しているか、あるいは、訳文候補中に他の単語が含まれているがその単語は例文中の他の部分の単語とアライメントしないもの（空対応）である場合には、この訳文候補を、本翻訳部における句Pの訳文として出力する（ステップＳ７０８）。

一方、ステップＳ７０７において、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含んでいると判断された場合には、これを最終的な訳文とするのは不適切であると判断して、処理をステップＳ７０３に戻し、次の候補を検索する。全ての例文ペアとの対比が終了し、結果として対応訳文が得られなかった場合には、入力された句は、次段の翻訳部、すなわち例文集合ベース翻訳部５２へ渡され、そこでの翻訳処理の対象となる。

図８〜図１０は、図７のステップＳ７０７における具体的な判断の例を示した図である。図８および図９の例は句Pの対応訳文が得られる例を示しており、図１０は得られない場合を示している。図８は、図中の入力された句Pに対して例文e1とその対応訳文t1のペアが抽出された例であり、ここでは、例文e1中の入力された句Pに該当する部分に対し、訳文t1中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1、p2、p3とアライメントするtg1、tg2、tg3のみによって構成されており、結果、図７のステップＳ７０７において、訳文のTg部分が最終的な訳文として出力されることとなる。

また、図９は、図中の入力された句Pに対して例文e2とその対応訳文t2のペアが抽出された例であり、ここでは、例文e2中の入力された句Pに該当する部分に対し、訳文t2中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p4とアライメントするtg1〜tg4以外にtg5を含んでいる。しかし、tg5は例文e2の他の部分とアライメントしない（空対応）ので、結果、図７のステップＳ７０７において、訳文のTg部分が最終的な訳文として出力されることとなる。

図１０は、図中の入力された句Pに対して例文e3とその対応訳文t3のペアが抽出された例であり、ここでは、例文e3中の入力された句Pに該当する部分に対し、訳文t3中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p3とアライメントするtg1〜tg3以外にtg4およびtg5を含んでいる。ここで、tg4は例文e3の他の部分とアライメントしない（空対応）が、tg5は例文e3の他の部分の単語p4とアライメントするので、結果、図７のステップＳ７０７において、訳文のTg部分は訳文としては出力されない。

次に、例文集合ベース翻訳部５２の機能について説明する。単語アライメント例文ベース翻訳部５０で適切に翻訳できなかった句は、例文集合ベース翻訳部５２の入力データとなる。例文集合ベース翻訳部５２は、入力された句に対する訳文候補を例文対訳辞書６６を参照して得る。例文対訳辞書６６には、第１言語による例文とその第２言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書６６に登録しておくことが好ましい。

図１１は、例文集合ベース翻訳部５２の内部構成を簡略的に示すブロック図である。図において、例文集合ベース翻訳部５２は、例文対訳辞書６６から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部１１０２と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部１１０４と、抽出された複数の共通部分の組の、入力された句に対する支持度合を算出する支持度算出部１１０６と、前記算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部１１０８を備えている。

前記例文対訳ペア選択部１１０２は、入力された句がPである場合に、例文対訳辞書６６における第１言語の例文群を検索して、この句Pを含む例文とその対訳文の組を全て選択する。前記句ペア抽出部１１０４は、例文対訳ペア選択部１１０２で選択された各例文対訳組を相互に照合し、それらの共通部分の組を抽出する。具体的には、各例文対訳組における第１言語による例文同士を照合してその共通部分を抽出すると共に、第２言語による訳文同士を照合してその共通部分を抽出する。各例文対訳組中に複数の共通部分が存在する場合は、各共通部分の長さを比較し最長のものを対象とする。また、文例中に含まれる助詞などの汎用的に用いられる文字は、それらを禁止用文字集合として登録しておき、抽出すべき共通部分からは除外する。

前記支持度算出部１１０６は、前記抽出された共通部分の入力された句に対する支持度を算出する。具体的には、抽出された各第１言語による例文の組み合わせにおける共通部分と、入力された句の一致度合いを見て、それらが完全一致する場合（以下、これを強支持と呼ぶ）には、その対応訳文における共通部分を訳文候補とし、その支持度を加算していく。また、それらが完全一致しない場合でも、共通部分が入力された句を含んでおり、かつその対応訳文における共通部分が訳文候補となっている場合（以下、これを弱支持と呼ぶ）にも、その対応訳文における共通部分を訳文候補とし、その支持度を加算する。この演算を、抽出された全ての共通部分に対して実施し、各共通部分の、入力された句に対する支持度を積算していく。このようにして、訳文候補の出現回数が計数される。

前記訳文選択部１１０８は、支持度算出部１１０６での演算結果に対して、所定の基準値に従って複数の訳文候補の中から出力すべき最終的な訳文を選択する。具体的には、支持度が最も高かった２つの訳文候補を抽出し、以下の基準に従ってその決定を行う。ここで、２つの訳文候補をT1、T2とし、それらの支持度をx, y（但し、x > y）とする。

（１）x < θ1 の場合、適切な候補が存在しないとして、翻訳不適切を出力する
（２）x >= θ1 かつ x - y > θ2 の場合、Ｔ1を訳文として出力する
（３）x >= θ1 かつ x / y > θ3の場合、Ｔ1を訳文として出力する
但し、θ1、θ2、θ3は非負の実数である。

次に、例文集合ベース翻訳部５２における処理の手順について説明する。図１２は、例文集合ベース翻訳部５２における翻訳処理の手順を示すフローチャートである。例文集合ベース翻訳部５２は、前段の翻訳部で適切な翻訳ができなかったとして出力された句を入力すると、例文対訳辞書６６にアクセスし、そこから入力された句を含む複数の例文対訳組を選択する（ステップＳ１２０１）。次いで、これら選択された各例文対訳組相互間の共通部分の組を抽出し（ステップＳ１２０２）、それらの全ての入力された句に対する支持度を算出する（ステップＳ１２０３）。そして、算出された支持度合の高い２つの候補を抽出し（ステップＳ１２０４）、前記基準値に従って最終的な出力を決定する（ステップＳ１２０５）。ステップＳ１２０５における判断の結果、最終的な訳文が存在する場合には、これを例文集合ベース翻訳部５２の訳文として出力部５８へ出力して処理を終える（ステップＳ１２０６）。また、訳文候補が所定の基準を満たさない場合は、本翻訳部における訳文は得られなかったとして、入力された句を次段の翻訳部に出力する。

次に、例文集合ベース翻訳部５２における翻訳処理を数学的記述に従って説明する。以下では、例文対訳辞書６６に収められた例文とその対訳文をそれぞれCSとJSと、例文対訳ペアをS=CS<->JSと、選択された対訳例文ペアの候補群をBSと表記する。ここで、例文CSと訳文JSは、文字の順序付き文字列で表現される。

入力された句をPで表す。ここでPも文字の順序付き文字列で表現される。

また、任意の例文対訳ペアをSk、Shとすると、これは次のように定義される。

そして、その共通部分は次のように定義される。

ここで、以下の各条件が満たされる。なお、CWSTOPは第１言語の禁止用文字列集合、JWSTOPは第２言語の禁止用文字列集合を表す。

次に、入力された句の言語が第１言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを強支持すると表現し、この場合、TgはPの訳文候補となる。

ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがP<->Tgを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(P<->Tg) = x と表現される。そして、支持度SV(P<->Tg)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。

ここで、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを弱支持すると表現し、この場合も、TgはPの訳文候補となる。

なお、入力された句の言語が第２言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを強支持すると表現し、この場合、TgはPの訳文候補となる。

ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがTg<->Pを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(Tg<->P) = x と表現される。そして、支持度SV(Tg<->P)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。

ここで、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを弱支持すると表現し、この場合も、TgはPの訳文候補となる。

次に、例文集合ベース翻訳部５２における翻訳処理の具体的な例を示す。例では、入力された中国語の句を日本語に翻訳する場合を示す。図１３〜図１６は、例文集合ベース翻訳部５２において実施される具体的な翻訳処理を示した例である。

図１３には、中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例（S1,S2,S3,S4,S5,...）が示されている。各例文対訳ペアの例文C1,C2,C3,C4,C5,...には、入力された句Pが含まれていることが分かる。

図１４は、選択された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。

図１５は、前記支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。

図１６では、前記支持度の集計結果から、支持度の高かった２つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的な訳文として決定されている。

図４に戻り、例文集合ベース翻訳部５２で適切に翻訳されなかった句は、次段の例文ベース翻訳部５４へ渡され、ここでの翻訳処理を受ける。例文ベース翻訳部５４は、例文対訳辞書６６を検索して、入力された句に一致する例文を抽出して、その対訳文を入力された句の訳文として出力するものである。例文ベース翻訳部５４の具体的な翻訳手法については、従来の各種の翻訳手法を採用することができる。

例文ベース翻訳部５４で適切に翻訳されなかった句は、次段のルールベース翻訳部５６へ渡され、ここでの翻訳処理を受ける。ルールベース翻訳部５６は、第１言語の解析（形態素解析、構文・意味解析など）を行い、人手によって作成された大量のルールをベースとして、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成するものである。本実施例においてルールベース翻訳部５６の具体的手法については、従来の各種の翻訳手法を採用することができる。

以上、入力部４２に入力された句は、その翻訳が得られるまで、順次翻訳部４４〜５６に段階的に入力されてそれらの翻訳処理を受けることとなる。各翻訳部の順位は、基本的により簡単な翻訳からより複雑な翻訳へ移行するよう配列されているので、翻訳の高速化および高精度化が図られる。

図１７は、句翻訳装置の一ハードウエア構成を示すブロック図である。句翻訳装置は、好ましくは、入力装置１７００、表示装置１７０２、主記憶装置１７０４、記憶装置１７０６、中央処理装置（ＣＰＵ）１７０８、これらを接続するバス１７１０を含んで構成される。

入力装置１７００は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置１７０２は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置１７０４は、ＲＯＭまたはＲＡＭを含み、図４に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置１７０６は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書６０〜６６等のデータを格納する。中央処理装置１７０８は、主記憶装置１７０４に記憶されたプログラムに従い各部を制御する。

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本発明に係る句翻訳装置は、機械翻訳システムにおける例文パターン翻訳装置において利用される。

例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。図１における例文パターンベース翻訳装置１６の構成を示すブロック図である。例文パターンベース翻訳装置１６における具体的な翻訳処理のプロセスを示した概念図である。本発明の実施例の句翻訳装置の構成を示すブロック図である。辞書ベース翻訳部４４における翻訳処理の手順を示したフローチャートである。単語／句対訳辞書６０のデータ構造の一例を示した図である。単語アライメント例文ベース翻訳部５０における翻訳処理の手順を示すフローチャートである。入力された句Pに対して例文e1とその対応訳文t１のペアが抽出された例を示す図である。入力された句Pに対して例文e2とその対応訳文t２のペアが抽出された例を示す図である。入力された句Pに対して例文e3とその対応訳文t３のペアが抽出された例を示す図である。例文集合ベース翻訳部５２の内部構成を簡略的に示すブロック図である。例文集合ベース翻訳部５２における翻訳処理の手順を示すフローチャートである。中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例を示したものである。選択された例文対訳ペアの共通部分における支持度を算出する具体例を示したものである。支持度の集計結果を表組みにして表した図である。例文集合ベース翻訳部５２において実施される具体的な翻訳処理を示した例である。句翻訳装置の一ハードウエア構成を示すブロック図である。

符号の説明

１０：機械翻訳システム１２：原言語テキスト文入力部
１４：翻訳メモリ装置１６：例文パターンベース翻訳装置
１８：単語直訳翻訳装置２０：目的言語テキスト出力部
２２：翻訳不適切文自動回収部２４：学習装置
２６ｃ：例文パターン対訳辞書２６ａ：単語対訳辞書
２６ｂ：例文対訳辞書２６：形態素解析部
２６：翻訳辞書２８：写像変換部
３０：例文パターン対訳辞書３２：句翻訳部
３４：訳文生成部４０：句翻訳装置
４２：入力部４４：辞書ベース翻訳部
４６：例文完全マッチング翻訳部４８：形態素解析部
５０：単語アライメント例文ベース翻訳部５２：例文集合ベース翻訳部
５４：例文ベース翻訳部５６：ルールベース翻訳部
５８：出力部６０：単語／句対訳辞書
６２：例文対訳辞書６４：単語アライメント対訳辞書
６６：例文対訳辞書１１０２：例文対訳ペア選択部
１１０４：句ペア抽出部１１０６：支持度算出部
１１０８：訳文選択部１７００：入力装置
１７０２：表示装置１７０４：主記憶装置
１７０６：記憶装置１７０８：中央処理装置（ＣＰＵ）
１７１０：バス

Claims

第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書と、
第１言語の句を入力する手段と、
前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択する手段と、
前記複数の例文対訳組において、第１言語による例文相互間の共通部分を抽出するとともに第２言語による訳文相互間の共通部分の組をそれぞれ抽出する手段と、
前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出する算出手段であって、当該算出手段は、第１言語による例文間の共通部分が、入力された句に対して完全一致する場合には、対応訳文の共通部分を強支持の訳文候補とし、かつ第１言語による例文間の共通部分が入力された句を完全一致ではなく包含する場合には、対応訳文の共通部分を前記強支持とは支持度合が異なる弱支持の訳文候補とし、前記選択された複数の例文対訳組間において前記訳文候補の強支持および弱支持の出現回数を加算することにより前記支持度合を算出する、前記算出手段と、
前記算出手段で算出された支持度合に基づいて選択された訳文候補を、前記入力された句に対する第２言語の訳文として出力する出力手段と、
を備えた例文集合ベース翻訳装置。
前記出力手段は、最も出現回数が多い訳文候補の該出現回数が第１の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第２の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第３の閾値を超える場合の何れかの場合に、該最も出現回数が多い訳文候補を、前記入力された句に対する第２言語の訳文として出力する、請求項１に記載の例文集合ベース翻訳装置。
請求項１または２に記載の例文集合ベース翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成した句翻訳装置。
前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、例文完全マッチング翻訳方式による例文完全マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、請求項１、２、３または４に記載の例文集合ベース翻訳装置からなる例文集合ベース翻訳部と、例文ベース翻訳方式による例文ベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、
入力された句が、順次これらの翻訳部に段階的に入力されるよう構成された請求項３に記載の句翻訳装置。
第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書を利用した例文集合ベース翻訳装置における翻訳方法であって、
第１言語の句を入力するステップと、
前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択するステップと、
前記複数の例文対訳組において、第１言語による例文相互間の共通部分を抽出するとともに第２言語による訳文相互間の共通部分の組をそれぞれ抽出するステップと、
前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出するステップであって、当該算出するステップは、第１言語による例文間の共通部分が、入力された句に対して完全一致する場合には、対応訳文の共通部分を強支持の訳文候補とし、かつ第１言語による例文間の共通部分が入力された句を完全一致ではなく包含する場合には、対応訳文の共通部分を前記強支持とは支持度合が異なる弱支持の訳文候補とし、前記選択された複数の例文対訳組間において前記訳文候補の強支持および弱支持の出現回数を加算することにより前記支持度合を算出する、前記算出するステップと、
前記算出された支持度合に基づいて選択された訳文候補を、前記入力された句に対する第２言語の訳文として出力するステップと、
を備えた例文集合ベース翻訳方法。
前記出力するステップは、最も出現回数が多い訳文候補の該出現回数が第１の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第２の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第３の閾値を超える場合の何れかの場合に、該最も出現回数が多い訳文候補を、前記入力された句に対する第２言語の訳文として出力する、請求項５に記載の例文集合ベース翻訳方法。
第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として多数記憶する例文対訳辞書を利用した例文集合ベース翻訳プログラムであって、
第１言語の句を入力するステップと、
前記例文対訳辞書から前記入力された句を含む複数の例文対訳組を選択するステップと、
前記複数の例文対訳組において、第１言語による例文相互間の共通部分を抽出するとともに第２言語による訳文相互間の共通部分の組をそれぞれ抽出するステップと、
前記抽出した複数の共通部分の組の、前記入力された句に対する支持度合を算出するステップであって、当該算出するステップは、第１言語による例文間の共通部分が、入力された句に対して完全一致する場合には、対応訳文の共通部分を強支持の訳文候補とし、かつ第１言語による例文間の共通部分が入力された句を完全一致ではなく包含する場合には、対応訳文の共通部分を前記強支持とは支持度合が異なる弱支持の訳文候補とし、前記選択された複数の例文対訳組間において前記訳文候補の強支持および弱支持の出現回数を加算することにより前記支持度合を算出する、前記算出するステップと、
前記算出された支持度合に基づいて選択された訳文候補を、前記入力された句に対する第２言語の訳文として出力するステップと、
を備えた例文集合ベース翻訳プログラム。
前記出力するステップは、最も出現回数が多い訳文候補の該出現回数が第１の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第２の閾値を超える場合、または、該出現回数が第１の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第３の閾値を超える場合の何れかの場合に、該最も出現回数が多い訳文候補を、前記入力された句に対する第２言語の訳文として出力する、請求項７に記載の例文集合ベース翻訳プログラム。