JP2010152420A

JP2010152420A - 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Info

Publication number: JP2010152420A
Application number: JP2008326704A
Authority: JP
Inventors: Shaoming Liu; 紹明劉
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-12-23
Filing date: 2008-12-23
Publication date: 2010-07-08
Anticipated expiration: 2028-12-23
Also published as: JP5298834B2

Abstract

【課題】句翻訳装置における翻訳精度および速度を向上させる。
【解決手段】句翻訳装置は、辞書ベース翻訳部、例文マッチング翻訳部、単語アライメント例文ベース翻訳部、例文集合ベース翻訳部、例文ベース翻訳部、ルールベース翻訳部を備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成される。例文マッチング翻訳部では、例文対訳辞書から、入力句を含む複数の例文対訳組が取り出され保持部に保持される。保持された例文対訳組に対応する例文パターン対訳組を例文パターン検索部が例文パターン対訳辞書から検索する。例文マッチング部が例文対訳組と例文パターン対訳組間での第１言語の例文と例文パターン間、および第２言語の例文と例文パターン間のマッチグを行い、これらのマッチグ結果に基づいて、訳文抽出部が入力句の訳文を抽出する。
【選択図】図４

Description

本発明は、例文対訳辞書を利用した例文集合ベース翻訳装置、方法およびプログラム、並びに該例文集合ベース翻訳装置を含んで構成された句翻訳装置に関する。

機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、１）解析ベース機械翻訳方式、２）統計ベース機械翻訳方式、３）例文ベース機械翻訳方式に大別することができる。

解析ベース機械翻訳方式は、第１言語の解析（形態素解析、構文・意味解析など）を行い、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。

統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ（コーパス）が限られているので実用化が限定的である。

例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。１９８０年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。

図１は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム１０は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム１０は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。

機械翻訳システム１０は、原言語テキスト文入力部１２から入力された文単位の文を翻訳する翻訳メモリ装置１４、翻訳メモリ装置１４において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された単語等の例文パターンを翻訳する例文パターンベース翻訳装置１６と、例文パターンベース翻訳装置１６で翻訳できなかった単語を不適切な単語として入力し、この単語を翻訳する単語直訳翻訳装置１８と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部２０を有している。

さらに機械翻訳システム１０は、例文パターンベース翻訳装置１６によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部２２と、翻訳不適切文自動回収部２２により作成された翻訳のチェックや修正を行う学習装置２４と、翻訳辞書２６とを備えている。翻訳辞書２６は、第１の言語の単語とその対訳である第２の言語の単語を格納する単語対訳辞書２６ａ、第１の言語の例文とその対訳である第２の言語の例文を格納する例文対訳辞書２６ｂ、第１の言語の例文パターンとその対訳である第２の言語の例文パターンを格納する例文パターン対訳辞書２６ｃを含んでいる。翻訳辞書２６は、翻訳メモリ装置１４、例文パターンベース翻訳装置１６、単語直訳翻訳装置１８において利用される。なお、図１の機械翻訳システムは、一つの構成例であって、さらに他のチャンクベース等の翻訳エンジンを含むものもある。

図２は、図１における例文パターンベース翻訳装置１６の構成を示すブロック図である。例文パターンベース翻訳装置１６は、入力文を形態素解析する形態素解析部２６、形態素解析された文に対して例文パターン対訳辞書３０を用いて写像変換を行う写像変換部２８、写像変換された文における各名詞句などの句を翻訳する句翻訳部３２、および句翻訳部３２で翻訳された句を写像変換された文に適用して最終的な訳文を生成する訳文生成部３４を備えて構成される。例文パターン対訳辞書３０には、文中の二つ以上の単語からなる句を一般化した多数の例文パターンとその対訳文が組となって格納されている。写像変換部２８は、入力文における句を一般化した文を生成し、例文パターン対訳辞書３０に対して検索を実行してこれと同じ例文パターンおよびその対訳文の組を抽出する。

図３は、例文パターンベース翻訳装置１６における具体的な翻訳処理のプロセスを示した概念図である。ここでは日本語を第１言語として入力し、第２言語として中国語の訳文を得る例を示している。例文パターンベース翻訳装置１６に入力された日本語文は、形態素解析部２６で形態素解析され（図中の数字は各形態素に与えられる品詞のＩＤ）、写像変換部２８に与えられる。写像変換部２８では、形態素解析された文中の句（フレーズ）を一般化（図中のＮＰ１、ＮＰ２、ＮＰ３）した文を生成し、これに一致する例文パターンを例文パターン対訳辞書３０から抽出する。そしてその中国語対訳例文パターンを特定する。次に、写像変換部２８でＮＰ１〜ＮＰ３として一般化された句を、句翻訳部３２に入力して、それらの対訳句を得る。訳文生成部３４において、このようにして得られた対訳例文パターンに対訳句が埋め込まれ、入力された日本語文に対する中国語訳文が生成される。なお、句翻訳部３２における句の翻訳精度は、最終的な翻訳文における翻訳精度に重大な影響を与える。

前述のような機械翻訳技術に関連するものとして、特許文献１〜４並びに非特許文献１および２が存在する。特許文献１には、連体修飾節を有する第１言語文を第２言語文に翻訳する際に、第２言語の翻訳辞書に連体修飾節の語順に関する情報を付与し、その情報を利用して第２言語の文法規則に従って第２言語文を生成することにより、正しい語順の名詞句を持つ翻訳結果を得ることが開示されている。特許文献２には、機械翻訳装置における並列名詞句処理において、正しい並列名詞句の処理を行なえるようにした並列名詞句処理方式が開示されている。特許文献３は、構造解析して複雑な構造を有する名詞句を抽出し、主名詞とそれ以外の構成要素に分割し、文法規則中の変換・生成規則を用いて訳文を生成する技術が開示されている。特許文献４は、例文対訳辞書を用いて、入力された句を含む例文とその訳文を抽出し、ユーザが抽出された情報から訳文を選択する技術が開示されている。

また、非特許文献１は、第１言語の例文とその例文の第２言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献２は、第１言語の例文とその例文の第２言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う技術を報告している。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。

特開平５ー１２０３２９号公報特開平６ー６８１３１号公報特開平９ー２８２３２０号公報特開２００１ー１９５４０４号公報 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130.

Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.ｐp 490−497. Madrid Spain,1997.

しかしながら前記特許文献１〜３に開示の技術は、その翻訳精度が言語の解析技術に大きく依存しており、その解析精度が十分でない現状においては、その翻訳精度は要求されている水準には達していないという問題がある。また、特許文献４に開示の技術は翻訳支援技術であって、句の訳文を自動的に抽出する技術ではない。

また、非特許文献１に開示の技術は、単語アライメント技術を用いたものであるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献２に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。

本発明は、上記従来の課題を解決するものであり、機械翻訳システムにおける例文パターン翻訳装置に実装しうる高性能な句翻訳装置を提供するものであり、この句翻訳装置は、二つ以上の単語からなる句を高速、高精度に翻訳可能として、機械翻訳システムにおける最終的な翻訳文の翻訳精度を向上させることを目的としている。

なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。言語学上、文が節、句を含み、節が句を含む、句が句を含まない。本明細書には、句の定義が言語学上の定義ではない、二つ以上の単語からなる単語列、かつ、句が句を含んでもよいと定義する。例文パターンベースの翻訳装置には、例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して、句の翻訳を簡易に実現する。

本発明の請求項１に係る例文集合ベース翻訳装置は、第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として記憶する第１の辞書を検索して得られる入力句を含む例文対訳組を保持する保持手段と、第１言語の例文パターンとその対訳である第２言語の対訳例文パターンを例文パターン対訳組として記憶する第２の辞書と、前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第２の辞書から検索する検索手段と、前記保持手段で保持された例文対訳組の第１言語の例文と前記検索手段で検索された例文パターン対訳組の第１言語の例文パターン間、および当該例文対訳組での第２言語の例文と当該各例文パターン対訳組での第２言語の例文パターン間のマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、を備えたものである。

本発明の請求項２に係る例文集合ベース翻訳装置は、請求項１記載の構成に対して、前記抽出手段が、第１言語の例文内の入力句が第１言語の例文パターンでの特定の可変部分に対応し、第１言語の例文パターンでの特定の可変部分が第２言語の例文パターンでの特定の可変部分に対応し、第２言語の例文パターンでの特定の可変部分が第１言語の例文に対応することにより、入力句の訳文として、当該第２言語の例文パターンでの特定の可変部分に対応する第１言語の例文の部分を抽出することを特徴とするものである。

本発明の請求項３に係る句翻訳装置は、請求項１または２に記載の例文マッチング翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成したものである。

本発明の請求項４に係る句翻訳装置は、請求項３に記載の前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、請求項１または２に記載の例文マッチング翻訳装置からなる例文マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、例文集合ベース翻訳方式による例文集合ベース翻訳部と、例文ベース翻訳方式による例文ベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成されたものである。

本発明の請求項５に係る例文マッチング翻訳プログラムは、第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として記憶する第１の辞書、および第１言語の例文パターンとその対訳である第２言語の対訳例文パターンを例文パターン対訳組として記憶する第２の辞書を利用した例文マッチング翻訳プログラムであって、前記第１の辞書を検索して得られる入力句を含む例文対訳組を保持する第１のステップと、第１のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第２の辞書から検索する第２のステップと、
第１のステップで保持された例文対訳組の第１言語の例文と第２のステップで検索された例文パターン対訳組の第１言語の例文パターン間、および当該例文対訳組での第２言語の例文と当該例文パターン対訳組での第２言語の例文パターン間のマッチングを行う第３のステップと、第３のステップのマッチング結果に基づいて入力句の訳文を抽出する第４のステップと、を備えたものである。

請求項１の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。

請求項２の構成によれば、比較的容易にマッチング結果に基づいて容易に入力句の訳文を抽出できる。

請求項３の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、翻訳の高速化および高精度化が図られる。

請求項４の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、既存技術も含めて比較的容易に翻訳の高速化および高精度化が図られる。

請求項５の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。

以下本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。

本実施例は、図１に示した機械翻訳システム１０に用いられる例文パターンベース翻訳装置１６に実装しうる句翻訳装置に係る。図４は、本実施例の句翻訳装置の構成を示すブロック図である。図に示すように句翻訳装置４０は、異なる翻訳方式に基づく複数段の翻訳部４４〜５６、およびそれらで用いられる複数の対訳辞書６０〜６６を備えており、これは入力部４２に入力される第１言語の句が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。つまり、前段の翻訳部において適切に翻訳された句は次段移行の翻訳部における翻訳を受けることなく出力部５８から出力され、適切に翻訳されなかった句のみが次段の翻訳部に入力されるように構成されている。

具体的には、入力部に入力された第１言語の句は、最初に辞書ベース翻訳部４４による翻訳処理に掛けられ、ここで適切な翻訳句が得られなかった場合に、次段の例文マッチング翻訳部４７での翻訳処理に掛けられる。次いで例文マッチング翻訳部４７においても適切な翻訳句が得られない場合、入力された句は形態素解析部４８において形態素解析され、次段の単語アライメント例文ベース翻訳部５０による翻訳処理に掛けられる。更に、単語アライメント例文ベース翻訳部５０において適切な翻訳句が得られない場合、入力された句は例文集合ベース翻訳部５２の翻訳処理に掛けられる。そして、例文集合ベース翻訳部５２においても適切な翻訳句が得られない場合には、例文ベース翻訳部５４の翻訳処理に掛けられ、ここでも適切な翻訳句が得られない場合に最終段のルールベース翻訳部５６の翻訳処理に掛けられ、その結果は出力部５８から出力される。

次に、各翻訳部４４〜５６の具体的な構成および処理手順について説明する。

辞書ベース翻訳部４４は、入力された句に対して、単語／句対訳辞書６０を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語／句対訳辞書６０内には、第１言語による単語あるいは句をキーとし、第２言語によるその対訳語あるいは句を値とする辞書セットと、第２言語による単語あるいは句をキーとし、第１言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部４４は、基本的には２段階の処理を行い、最初に第１言語による単語／句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第２言語による単語／句をキーとして検索を行ってその対訳句の抽出を行う。

図５は、辞書ベース翻訳部４４における翻訳処理の手順を示したフローチャートである。図に示すように、入力された句Pに対して、最初のステップＳ５０１において、言語１から言語２への単語／句対訳辞書のセットが検索される。そして、この辞書セットに該当単語あるいは句が存在する場合、処理はステップＳ５０２からステップＳ５０３に移り、その該当単語あるいは句の対訳語あるいは対訳句が、入力された句Pの訳語として抽出され、出力部５８から出力される。

一方、ステップＳ５０２で、この辞書セットに該当単語あるいは句が存在しないと判断された場合は、言語２から言語１への単語／句対訳辞書のセットが検索される。そして、この辞書セットにおける対訳データにおいて該当単語あるいは句が存在する場合、処理はステップＳ５０５からステップＳ５０６に移り、その該当単語あるいは句の原語が、入力された句Pの訳語として抽出され、出力部５８から出力される。前記２つの辞書セットのいずれからも該当単語／句が得られない場合には、入力された句Pは次段の翻訳部である例文マッチング翻訳部４６へ渡され、そこでの処理に掛けられる。

図６は、単語／句対訳辞書６０のデータ構造の一例を示した図である。この例では、第１言語として日本語、第２言語として中国語を想定した場合の辞書を例としており、日本語を原語、中国語を訳語として構成された第１の辞書セット６０ａ、中国語を原語、日本語を訳語として構成された第２の辞書セット６０ｂが示されている。句翻訳装置４０に入力された句Pが日本語である場合、最初に第１の辞書セット６０ａの原語のカラムが検索されて、該当フィールドの対応する中国語の訳語が句Pの訳語として抽出される。第１の辞書セット６０ａによる検索が失敗した場合、次に、第２の辞書セット６０ｂの訳語のカラムが検索されて、該当フィールドの対応する中国語の原語が句Pの訳語として抽出される。

前記辞書ベース翻訳部４４において、入力された句に対する訳語が得られなかった場合、その入力された句は例文マッチング翻訳部４７の処理の対象になる。例文マッチング翻訳部４７は、第１言語と言語２間の例文を対応させた例文対訳辞書６２を用いて、入力された句Pと完全マッチングした例文があれば、その例文の訳文をPの第２言語の訳文として出力する．完全にマッチングした例文が存在しない場合は，入力された句Pを含む例文があれば，その対訳例文ペアと対応している対訳パターンペアを例文パターン対訳辞書６３から取り出し、取り出した対訳パターンペアを用いて、句Pを翻訳する。この例文マッチング翻訳部４７の詳細構成および動作については後述する。

次に、単語アライメント例文ベース翻訳部５０の機能について説明する。例文マッチング翻訳部４７で適切に翻訳できなかった句は、形態素解析部４８において形態素解析、つまり、入力された句に含まれる単語と品詞をそれぞれ抽出してそれぞれに意味属性を与えられ、これが単語アライメント例文ベース翻訳部５０の入力データとなる。単語アライメント例文ベース翻訳部５０は、形態素解析された句に対する訳文候補を単語アライメント対訳辞書６４を参照して得る。

単語アライメント対訳辞書６４は、第１言語による例文とその第２言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第１言語の例文における各単語と第２言語の対訳文における各単語の対応付け情報が付加されている。具体的な単語アライメント情報の生成方法については、ここでは説明しないが、既存の各種の単語アライメント情報の生成方法が本実施例においても利用できる。

図７は、単語アライメント例文ベース翻訳部５０における翻訳処理の手順を示すフローチャートである。図のステップＳ７０１において、単語アライメント対訳辞書６４の最初の例文ペアが抽出され、ステップＳ７０２でその第１言語の例文中に形態素解析された句Pが含まれているか判断される。この処理は句Pが含まれている例文ペアが出現するまで辞書内の全ての例文ペアに対して行われる。すなわち、抽出された例文ペアに句Pが含まれていないと判断された場合、ステップＳ７０３で辞書内の全ての例文ペアを取り出したかが判断され、取り出されていない場合には、ステップＳ７０４で次の例文ペアを取り出して、句Pとの対比を行う。

ステップＳ７０２において、抽出された例文ペアに句Pが含まれている判断された場合には、処理はステップＳ７０５に移り、その例文ペアの単語アライメント情報を参照して、例文中の句Pに該当する部分に対応する、訳文中の部分を、句Pの訳文候補として抽出する。次いで、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含むか判断される（ステップＳ７０６）。そして、そのような単語がない場合、すなわち、例文の句Pに該当する部分と訳文候補とのアライメントが完全に一致しているか、あるいは、訳文候補中に他の単語が含まれているがその単語は例文中の他の部分の単語とアライメントしないもの（空対応）である場合には、この訳文候補を、本翻訳部における句Pの訳文として出力する（ステップＳ７０７）。

一方、ステップＳ７０７において、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含んでいると判断された場合には、これを最終的な訳文とするのは不適切であると判断して、処理をステップＳ７０３に戻し、次の候補を検索する。全ての例文ペアとの対比が終了し、結果として対応訳文が得られなかった場合には、入力された句は、次段の翻訳部、すなわち例文集合ベース翻訳部５２へ渡され、そこでの翻訳処理の対象となる。

図８〜図１０は、図７のステップＳ７０７における具体的な判断の例を示した図である。図８および図９の例は句Pの対応訳文が得られる例を示しており、図１０は得られない場合を示している。図８は、図中の入力された句Pに対して例文e1とその対応訳文t1のペアが抽出された例であり、ここでは、例文e1中の入力された句Pに該当する部分に対し、訳文t1中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1、p2、p3とアライメントするtg1、tg2、tg3のみによって構成されており、結果、図７のステップＳ７０７において、訳文のTg部分が最終的な訳文として出力されることとなる。

また、図９は、図中の入力された句Pに対して例文e2とその対応訳文t2のペアが抽出された例であり、ここでは、例文e2中の入力された句Pに該当する部分に対し、訳文t2中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p4とアライメントするtg1〜tg4以外にtg5を含んでいる。しかし、tg5は例文e2の他の部分とアライメントしない（空対応）ので、結果、図７のステップＳ７０７において、訳文のTg部分が最終的な訳文として出力されることとなる。

図１０は、図中の入力された句Pに対して例文e3とその対応訳文t3のペアが抽出された例であり、ここでは、例文e3中の入力された句Pに該当する部分に対し、訳文t3中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p3とアライメントするtg1〜tg3以外にtg4およびtg5を含んでいる。ここで、tg4は例文e3の他の部分とアライメントしない（空対応）が、tg5は例文e3の他の部分の単語p4とアライメントするので、結果、図７のステップＳ７０７において、訳文のTg部分は訳文としては出力されない。

次に、例文集合ベース翻訳部５２の機能について説明する。単語アライメント例文ベース翻訳部５０で適切に翻訳できなかった句は、例文集合ベース翻訳部５２の入力データとなる。例文集合ベース翻訳部５２は、入力された句に対する訳文候補を例文対訳辞書６６を参照して得る。例文対訳辞書６６には、第１言語による例文とその第２言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書６６に登録しておくことが好ましい。

図１１は、例文集合ベース翻訳部５２の内部構成を機能的に示すブロック図である。図において、例文集合ベース翻訳部５２は、例文対訳辞書６６から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部１１０２と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部１１０４と、抽出された複数の共通部分の組の、入力された句に対する支持度合を算出する支持度算出部１１０６と、前記算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部１１０８を備えている。

前記例文対訳ペア選択部１１０２は、入力された句がPである場合に、例文対訳辞書６６における第１言語の例文群を検索して、この句Pを含む例文とその対訳文の組を全て選択する。前記句ペア抽出部１１０４は、例文対訳ペア選択部１１０２で選択された各例文対訳組を相互に照合し、それらの共通部分の組を抽出する。具体的には、各例文対訳組における第１言語による例文同士を照合してその共通部分を抽出すると共に、第２言語による訳文同士を照合してその共通部分を抽出する。各例文対訳組中に複数の共通部分が存在する場合は、各共通部分の長さを比較し最長のものを対象とする。また、文例中に含まれる助詞などの汎用的に用いられる文字は、それらを禁止用文字集合として登録しておき、抽出すべき共通部分からは除外する。

前記支持度算出部１１０６は、前記抽出された共通部分の入力された句に対する支持度を算出する。具体的には、抽出された各第１言語による例文の組み合わせにおける共通部分と、入力された句の一致度合いを見て、それらが完全一致する場合（以下、これを強支持と呼ぶ）には、その対応訳文における共通部分を訳文候補とし、その支持度を加算していく。また、それらが完全一致しない場合で、共通部分が入力された句を含んでおり、かつその対応訳文における共通部分が訳文候補となっている場合（以下、これを弱支持と呼ぶ）にも、その対応訳文における共通部分を訳文候補とし、その支持度を加算する。この演算を、抽出された全ての共通部分に対して実施し、各共通部分の、入力された句に対する支持度を積算していく。このようにして、訳文候補の出現回数が計数される。

前記訳文選択部１１０８は、支持度算出部１１０６での演算結果に対して、所定の基準値に従って複数の訳文候補の中から出力すべき最終的な訳文を選択する。具体的には、支持度が最も高かった２つの訳文候補を抽出し、以下の基準に従ってその決定を行う。ここで、２つの訳文候補をT1、T2とし、それらの支持度をx, y（但し、x > y）とする。

（１）x < θ1 の場合、適切な候補が存在しないとして、翻訳不適切を出力する
（２）x >= θ1 かつ x - y > θ2 の場合、Ｔ1を訳文として出力する
（３）x >= θ1 かつ x / y > θ3の場合、Ｔ1を訳文として出力する
但し、θ1、θ2、θ3は非負の実数である。

次に、例文集合ベース翻訳部５２における処理の手順について説明する。図１２は、例文集合ベース翻訳部５２における翻訳処理の手順を示すフローチャートである。例文集合ベース翻訳部５２は、前段の翻訳部で適切な翻訳ができなかったとして出力された句を入力すると、例文対訳辞書６６にアクセスし、そこから入力された句を含む複数の例文対訳組を選択する（ステップＳ１２０１）。
（ステップＳ１２０６）。また、訳文候補が所定の基準を満たさない場合は、本翻訳部における訳文は得られなかったとして、入力された句を次段の翻訳部に出力する。

次に、例文集合ベース翻訳部５２における翻訳処理を数学的記述に従って説明する。以下では、例文対訳辞書６６に収められた例文とその対訳文をそれぞれCSとJSと、例文対訳ペアをS=CS<->JSと、選択された対訳例文ペアの候補群をBSと表記する。ここで、例文CSと訳文JSは、文字の順序付き文字列で表現される。

入力された句をPで表す。ここでPも文字の順序付き文字列で表現される。

また、任意の例文対訳ペアをSk、Shとすると、これは次のように定義される。

そして、その共通部分は次のように定義される。

ここで、以下の各条件が満たされる。なお、CWSTOPは第１言語の禁止用文字列集合、JWSTOPは第２言語の禁止用文字列集合を表す。

次に、入力された句の言語が第１言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを強支持すると表現し、この場合、TgはPの訳文候補となる。

ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがP<->Tgを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(P<->Tg) = x と表現される。そして、支持度SV(P<->Tg)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。

ここで、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを弱支持すると表現し、この場合も、TgはPの訳文候補となる。

なお、入力された句の言語が第２言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを強支持すると表現し、この場合、TgはPの訳文候補となる。

ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがTg<->Pを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(Tg<->P) = x と表現される。そして、支持度SV(Tg<->P)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。

ここで、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを弱支持すると表現し、この場合も、TgはPの訳文候補となる。

次に、例文集合ベース翻訳部５２における翻訳処理の具体的な例を示す。例では、入力された中国語の句を日本語に翻訳する場合を示す。図１３〜図１６は、例文集合ベース翻訳部５２において実施される具体的な翻訳処理を示した例である。

図１３には、中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例（S1,S2,S3,S4,S5,...）が示されている。各例文対訳ペアの例文C1,C2,C3,C4,C5,...には、入力された句Pが含まれていることが分かる。

図１４は、選択された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。

図１５は、前記支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。

図１６では、前記支持度の集計結果から、支持度の高かった２つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的な訳文として決定されている。

図４に戻り、例文集合ベース翻訳部５２で適切に翻訳されなかった句は、次段の例文ベース翻訳部５４へ渡され、ここでの翻訳処理を受ける。例文ベース翻訳部５４は、例文対訳辞書６６を検索して、入力された句に一致する例文を抽出して、その対訳文を入力された句の訳文として出力するものである。例文ベース翻訳部５４の具体的な翻訳手法については、従来の各種の翻訳手法を採用することができる。

例文ベース翻訳部５４で適切に翻訳されなかった句は、次段のルールベース翻訳部５６へ渡され、ここでの翻訳処理を受ける。ルールベース翻訳部５６は、第１言語の解析（形態素解析、構文・意味解析など）を行い、人手によって作成された大量のルールをベースとして、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成するものである。本実施例においてルールベース翻訳部５６の具体的手法については、従来の各種の翻訳手法を採用することができる。

次に、図１７を参照して例文マッチング翻訳部４７の詳細構成について説明する。同図に示すように、例文マッチング翻訳部４７は、例文対訳辞書６２および例文パターン対訳辞書６３を用いて入力された句について翻訳を行う。まず、これらの辞書のデータ構造について説明する。

図１８に例文対訳辞書６２のデータ構造例を示す。複数のレコードから成り、各レコードは、第１言語の例文Ｔ１と、この例文Ｔ１の訳文となる第２言語の例文Ｔ２とを含む。

次に例文パターン対訳辞書６３のデータ構造について説明する。図１９に例文パターンのデータ構造例を示す。同図において、例文パターンＰＥは、例文ＳＥ１から４を類別するパターンである。

例文パターンＰＥは、類別される例文に共通な単語、又は節で構成される固定部分ＰＦと、固定部分ＰＦではない単語又は節であるが、類別される例文間で品詞が共通する単語又は節で構成される可変部分ＰＶとで構成される。可変部分ＰＶは、それらの品詞が共通する単語又は節を、例えば、Ｖ１及びＶ２といった記号を用いて表す。

よって、例文パターンＰＥは類別される例文に共通な文字列で構成され、可変部分ＰＶは類別される例文に共通しない文字列を表す記号（以下単に、非共通文字列という）で構成される。つまり、非共通文字列は、例文パターンを構成する共通文字列以外の文字列をいう。

ここで、節とは、文法上、従位接続詞や関係詞が導く文であって、主語と述語とが一組になり完結した文をいう。しかし本実施例では、動詞、形容詞、及び形容動詞である単語とそれらに付随して使用される助詞、助動詞、及び補助動詞である単語とを合わせて節といい、それぞれ動詞節、形容詞節、及び形容動詞節という。また、節の品詞とは、動詞節、形容詞節、及び形容動詞節のいずれかへ節を分類した区分けをいう。

具体的には、図１９に示すように、「渡してください」という節ＳＣ１から４及びＰＣは、「渡す」という動詞である単語、「て」という接助詞である単語、及び「くださる」という補助動詞である単語で構成される。

また、動詞である単語「渡す」とそれに付随して使用される単語「て」及び「くださる」とで構成される節ＳＣ１から４及びＰＣの品詞を動詞節という。

固定部分ＰＦは、例文に共通な単語又は節のみならず、その同義語を表すＦＩＸ内容情報、可変部分であるか固定部分であるかを表すＴＹＰＥ情報、並びに固定部分を構成する単語の品詞を表す品詞情報、固定部分を構成する単語が属している語彙体系を表す情報である言語体系属性名等で構成される。

可変部分ＰＶは、共通する品詞を表す情報である変数名情報、及び可変部分であるか固定部分であるかを表すＴＹＰＥ情報、可変部分の語彙体系属性名等で構成される。語彙体系の言語としては、日本語語彙体系(Ｊ)、中国語語彙体系(Ｃ)などのように、挙げられる。

本記実施例において、変数名情報は、共通する品詞が名詞であることを表す名詞フレーズ(例えば、名詞句の変数名；ＮＰ、変数名ＩＤ；１)、形容詞であることを表す形容詞フレーズ(例えば、形容詞句の変数名；ＡＰ、変数名ＩＤ；２)、及び副詞であることを表す副詞フレーズ(例えば、副詞句の変数名；ＤＰ、変数名ＩＤ；３)を含む。

また、本実施例において、可変部分ＰＶは、類別される例文間で品詞が共通する単語又は節で構成されるとして説明したが、これに限定される訳ではなく、共通する性質の内容を表す単語又は節で構成される実施例を採用できる。共通する性質の内容を表す単語又は節の具体例としては、例えば、時間、数量、地名、又は人名を表す単語又は節を挙げることができる。

次に例文パターン対訳辞書６３のデータ構造例について図２０を参照して説明する。同図に示すように、例文パターン対訳辞書６３は、レコード１からｎで構成される。レコード１からｎは、第１言語で表された例文パターンＴ１と、例文パターンＴ１を第２言語に翻訳した訳文パターンとしての例文パターンＴ２と、例文パターンＴ１及び例文パターンＴ２のペア(組)を識別するＩＤと、例文パターンＴ１及びＴ２を構成する単語等である文字列の対応関係を表す対応関係情報Ｆ２とを関連付けて保存する。

レコード１からｎが保存する対応関係情報Ｆ２について説明する。ここでは、例文パターンＴ１が単語等である５つの文字列 a1 から a5 で構成され、かつ例文パターンＴ２が単語等である６つの文字列 b1 から b6 で構成されている場合を例に挙げて説明を行う。

対応関係情報Ｆ２は、文字列が例文パターンＴ１及び対訳としての例文パターンＴ２において使用される順番を用いて文字列の対応関係を表す。

具体的には、例文パターンＴ１で n 番目に使用される文字列 an が表す意味と、例文パターンＴ２で m 番目に使用される文字列 bm が表す意味とが同じである場合には、対応関係を「(n:m)」として表す。

また、例文パターンＴ１で n 番目に使用される文字列 an が表す意味と、例文パターンＴ２で m 番目及び m+1 番目に使用される２つの文字列が表す意味とが同じ意味を表す場合には、「(n:m,m+1)」として表す。

逆に、例文パターンＴ１で n 番目及び n+1 番目に使用される２つの文字列 an 及び an+1が表す意味と、対訳例文パターンＴ２で m 番目に使用される文字列 bm が表す意味とが同じ意味を表す場合には、「(n,n+1:m)」として表す。

同様に、例文パターンＴ１で n 番目及び n+1 番目に使用される２つの文字列 an 及び an+1が表す意味と、例文パターンＴ２で m 番目及び m+1 番目に使用される２つの文字列が表す意味とが同じ意味を表す場合には、「(n,n+1:m,m+1)」として表す。

本実施例では、例文パターンＴ１で使用される１つの文字列と例文パターンＴ２で使用される１つの文字列とが同じ意味を表す場合、１つの文字列と２つの文字列とが同じ意味を表す場合、２つの文字列と１つの文字列とが同じ意味を表す場合、２つの文字列と２つの文字列とが同じ意味を表す場合の対応関係を表す表記方法について説明したが、これに限定される訳ではない。

例えば、j個（j>=1)の文字列とk個（k>=1)の文字列とが同じ意味を表す場合には、一般的に、「(n,n+1,…,n+j:m,m+1,…,m+k)」として表す構成を採用できる。

更に、例文パターンＴ１で n 番目に使用される文字列 an が表す意味と同じ意味を表す文字列が例文パターンＴ２で使用されない場合には、「(n:0)」として表す。また逆に、例文パターンＴ２で m 番目に使用される文字列 bm が表す意味と同じ意味を表す文字列が例文パターンＴ１で使用されない場合には、「(0:m)」として表す。

図２０に示す具体な対応関係情報
F2(T１,T2) = { (1:1),(2:3),(3:4,5),(5:6),(4:0),(0:2) }
について説明する。対応関係情報 F2(T1,T2) は、例文パターンT1で１番目に使用される文字列 a1 の表す意味が例文パターンT2で１番目に使用される文字列 b1 の意味と同じであり、これらは対応する。同様に、例文パターンT1で２番目に使用される文字列 a2 の表す意味が例文パターンT2で３番目に使用される文字列 b3 の意味と同じであり、例文パターンT1で３番目に使用される文字列 a3 の表す意味が例文パターンT2で４番目及び５番目に使用される文字列 b4 及び b5 の意味と同じであり、例文パターンT1で５番目に使用される文字列 a5 の表す意味が例文パターンT2で６番目に使用される文字列 b6 の意味と同じであり、それぞれ対応する。さらに例文パターンT1で４番目に使用されるa4 と同じ意味を表す文字列が例文パターンT2で使用されず、かつ例文パターンT2で２番目に使用される文字列 b2 と同じ意味を表す文字列が例文パターンT1で使用されないという対応関係を表す。対応関係さえ表現できれば、どのような表現でもよく、本発明に係る翻訳装置等は、以上述べた表現に限定されない。

図１７に示すように、例文マッチング翻訳部４７は、例文部分マッチング翻訳部７２が、例文対訳辞書６２を参照して入力部７１から入力される句を含む第１言語例文(対訳例文候補)を検索して保持部６２１に保持し、判断部７３で入力句と例文が完全に一致するどうかを判断する前段部分と、一致しない場合に例文パターン対訳辞書６３を参照して翻訳を行う後段部分とを含んで構成される。判断部７３で、完全に一致する場合は、その対訳例文候補の第２言語例文を入力句Pの訳文として出力部78より出力される。後段部分は、対訳例文候補を保持する第１保持部６２１、例文パターン対訳辞書６３、対訳例文パターンペア候補を保持する第２保持部６３１、例文パターン検索部７５、例文パターンマッチング部７６訳文抽出部７７および出力部７８を含んで構成される。

判断部７３で、一致しない場合に、形態素解析部７４で入力句を形態素解析した入力句Pに対して、保持部６２１で保持された対訳例文候補を用いて、例文パターン検索部７５が例文パターン対訳辞書６３を検索し、入力句Pを含む対訳例文パターンペア候補を取得し、保持部６３１に格納する。例文パターンマッチング部７６が、対訳例文候補および対訳例文パターンペア候補を用いてマッチングを行い、訳文抽出部７７がその結果を使って訳文を抽出し、訳文を出力部78により出力する。なお、図１７では、便宜上、形態素解析部７４は内部に記載されているが、入力部７１に入力される前などに形態素解析されるように外部にあってもよい。

次に、上述のように構成された例文マッチング翻訳部４７の翻訳処理動作について図２１および図２２のフローチャートを参照して説明する。

例文部分マッチング部７２は、前述のように第１言語の例文とその訳文である第２言語の例文のペア(組)からなる対訳例文が格納された例文対訳辞書６２に対して、入力部７１から入力された句Pを含む対訳例文候補Eset(P)を検索し、保持部６２１に保持する(Ｓ１)。判断部７３は対訳例文候補Eset(P)が空(ＮＵＬＬ)かどうかを判断し、空であれば、その結果を出力部７８から出力する(Ｓ２、Ｓ４)。空でなければ、対訳例文候補Eset(P)に入力句Pと等しい第1言語の例文Aがあるか判断し、あれば、第１言語の例文Aの対訳としての第２言語例文を入力句Pの翻訳結果として出力部７８より出力する(Ｓ３、Ｓ５)。ステップＳ３でなければ、次の後段部分での処理に進む。

例文パターン検索部７５は、保持部６２１に格納された対訳例文候補Eset(P)から一つの例文ペア(SC,SJ)を取り出し、第1言語の例文SCを用いて，例文パターン対訳辞書から対訳パターンペア候補Pset(P)を検索し、保持部６３１に保持する(Ｓ６、Ｓ７)。対訳パターンペア候補Pset(P)が空かどうかを例文パターンマッチング部７６が判断し、空でなければ、対訳パターンペア候補Pset(P)から一つの対訳パターンペア(AC,AJ)を取り出す(Ｓ８、Ｓ１１)。例文パターンマッチング部７６は、例文と例文パターンのマッチングとして、第１言語の例文SCと対訳パターンペアの第１言語のパターンAC間のマッチングと、第２言語の例文SJと対訳パターンペアの第２言語のパターンAJ間のマッチングをそれぞれ求める(Ｓ１２)。次に、第1言語の例文SCに含まれている句Pは対訳パターンペアの第1言語のパターンACの項目ACi,ACi+1,…ACi+hにマッチングしているか(h>=0)かどうかを判断する(Ｓ１３)。マッチングせず対応していなければ、ステップＳ９に進み、マッチングして対応していれば、第1言語のパターンACの項目ACi,ACi+1,…ACi+hは第2言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチングしている(k>=0)かを判断する(Ｓ１４)。マッチングせず対応していなければ、ステップＳ９に進み、マッチングして対応していれば、第２言語のパターンAJの項目AJj,AJj+1,…AJj+kは第2言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチングしている(s>=0)か判断する(Ｓ１５)。マッチングせず対応していなければ、ステップＳ９に進み、マッチングして対応していれば、訳文抽出部７７に処理を渡す。訳文抽出部７７では、第1言語の例文SCに含まれている入力句Pについて、対訳パターンペアの第１言語のパターンACの項目ACi,ACi+1,…ACi+hへのマッチング情報、第１言語のパターンACの項目ACi,ACi+1,…ACi+hについて第２言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチング情報、および第２言語のパターンAJの項目AJj,AJj+1,…AJj+kについて第２言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチング情報を用いて、入力句Pの訳文を求める(Ｓ１６)。訳文抽出部７７により、SJtからSJt+sまでの文字列が入力句Pの訳文として出力部７８から出力される(Ｓ１６)。

例文パターンマッチング部７６は、スッテプＳ８で対訳パターンペア候補Pset(P)が空と判断した場合には、対訳例文候補Eset(P)が空かどうか判断する(Ｓ９)。空でなければ、別の対訳例文ペアについてステップＳ６に戻って上述の処理を繰り返す。対訳例文候補Eset(P)が空の場合には、空の結果を訳文抽出部７７を介して出力部７８より出力する(Ｓ１０)。

次に具体例で上述の句翻訳処理について説明する。まず、入力句として、中国語から日本語へ翻訳する例について図２３を参照して説明する。入力句は、「FXの田中部長」を意味する中国語「FX的田中部▲長▼」である。スッテプ（１）で、例文対訳辞書６２から入力句を含む例文ペアを検索し抽出する。同図のＥ１およびＥ２が抽出結果である。ここでは、説明の簡単のためＥ１を使って翻訳できた場合について述べる。スッテプ（２）で、第１言語の例文SC1を用いて、例文パターン対訳辞書６３から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SC1,AC) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第１言語の例文SC1と、対訳パターンペアの第1言語例文パターンACとがマッチングが取られる。第１言語の例文SC1に含まれた句Pが第1言語例文パターンACの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第２言語の例文SJ1と対訳パターンペアの第２言語例文パターンAJ間のマッチングを求める。ステップ（３）において、第１言語の例文SC1の句Pが第1言語例文パターンACのNP2にマッチングしている。第1言語例文パターンACのNP2が第２言語例文パターンAJのNP2にマッチングしている。第２言語例文パターンAJのNP2が第２言語の例文SJ1の“FXの田中部長 ”にマッチングしている。これらより、入力句Pの訳文は第２言語の例文SJ1にある“FXの田中部長”である。

次に、入力句として、日本語から中国語へ翻訳する例について図２４を参照して説明する。入力句は「子供が食べ残したリンゴ」である。スッテプ（１）で、例文対訳辞書６２から入力句を含む例文ペアを検索し抽出する。同図のＥ１およびＥ２が抽出結果である。ここでも、Ｅ１を使って翻訳できた場合について述べる。スッテプ（２）で、第１言語の例文SJ1を用いて、例文パターン対訳辞書６３から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SJ1,AJ) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第１言語の例文SJ1と、対訳パターンペアの第1言語例文パターンAJとがマッチングが取られる。第１言語の例文SJ1に含まれた句Pが第1言語例文パターンAJの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第２言語の例文SC1と対訳パターンペアの第２言語例文パターンAC間のマッチングを求める。ステップ（３）において、第１言語の例文SJ1の句Pが第1言語例文パターンAJのNP2にマッチングしている。第1言語例文パターンAJのNP2が第２言語例文パターンACのNP2にマッチングしている。第２言語例文パターンACのNP2が第２言語の例文SC1の中国語“孩子吃剩下的苹果”にマッチングしている。これらより、入力句Pの訳文は第２言語の例文SC1にある“孩子吃剩下的苹果”である。

このように、例文マッチング翻訳部４７は、句翻訳装置４０が利用される例文パターンベース翻訳装置１６には，例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して，特別な辞書を設けることなく、句の翻訳を比較的容易に実現することができる。

例文マッチング翻訳部４７の説明の最後に、例文と例文パターンのマッチグ手段の一例について触れる。このようなマッチグ手段について図２５乃至図２８を参照して説明する。図２５の翻訳システム１０aの構成に含む翻訳装置１００１は、例文と例文パターンのマッチグ処理を行っている。図２６は翻訳装置１００１の主要部の構成を示す詳細ブロック図である。

まず、解析部１２００は、入力装置３０００から入力された第1言語の文書情報を形態素解析し、入力文を構成する単語を切り分け，単語の品詞を付与するなどの処理をする。

検索部１３００は、解析部１２００の解析結果および記憶部１１００の記憶内容を参照して、入力文と類似な第1言語の例文パターン候補（1または複数ある）を抽出する。

変換部１４０１は、第1言語の入力文と抽出された第1言語の例文パターンの候補を用いて，入力文の節を求める。第1言語入力文を第1言語例文パターンとの間の相違を求めるために，第1言語例文パターンに基づいて第1言語入力文を変換する。第1の実施例の変換部１４００との相違点は、後述する。

算出部１５００は変換部１４０１で変換された第1言語入力文の単語/節の列と第1言語例文パターンの候補間の相違として距離を求める。最小な相違を決める第1言語入力文の単語/節の列と、抽出された第1言語の例文パターン候補間の変換写像を求める。ここで，最小な相違値としての距離値を与える例文パターン候補が複数ある場合があるし、最小な相違値を決める例文パターン候補と入力文の単語/節の列間の変換写像が複数ある場合もある。

抽出部１６００は、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係(写像)を求める。抽出部１６００は、内部構成として、実抽出部１６１０(図示せず)、関係特定部１６２０(図示せず)および関係選択部１６３０を含む。実抽出部１６１０は、検索部１３００が検索した例文パターンから１つのパターンを抽出し、算出部１５００が計算した第２の指標である入力文と例文パターンとの距離が、最も近い例文パターンを抽出する。関係特定部１６２０は、入力文Ｓ’を構成する変換後の文字列と入力文Ｓを類別する例文パターンＡを構成する文字列との対応関係を特定する。最終段の関係選択部１６３０は第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係が複数ある場合は，適切な対応関係を選択する。即ち、関係特定部１６２０から、対応関係集合を取得すると共に、変換された入力文、例文パターン、対訳例文パターン、及び対応関係情報を取得する。取得した対応関係情報から、割り当てたスコアが最大の値をとる対応関係情報を選択する。

判定修正部１８００は、判定部１８１０、修正部１８２０および最適関係選択部１８３０を含んで構成される。判定修正部１８００は、関係選択部１６３０の選択結果および記憶部１１００の記憶内容を参照して、選択結果を判定し、修正が必要な場合は、修正して算出部１５００に戻すことにより、再度対応関係を得るものである。

判定部１８１０は、関係選択部１６３０の選択結果について、第１言語入力文の単語/節の列と第１言語例文パターン間の対応関係を再計算するかどうかを判定する。

修正部１８２０は、第1言語入力文の単語/節の列を修正して，修正後の第1言語入力文の単語/節の列と第1言語例文パターン間の相違をもう一度計算し，新しい距離値を定めるために第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。

最適関係選択部１８３０は、すべての例文パターンの候補と第1言語入力文の単語/節の列間の対応関係集合から，最適な対訳関係選択する。この選択により求められた例文パターン対訳ベアの番号と第1言語入力文の単語/節の列と抽出された第1言語の例文パターン間の対応関係を出力する。

記憶部１１００は、第１の実施例と同様なデータ構成を有し、記憶内容としては、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している．これを例文パターン対訳ペアと呼ぶ。

翻訳部１７００は、最適関係選択部１８３０で選択された第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語/節の列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。

次に図２７および図２８のフローチャートを参照して、翻訳装置１００１の要部の動作を説明する。

形態素解析済みの入力文Sが検索部１３００に入力されと、検索部１３００は、入力文ｓに対応する例文パターン候補Aset、即ち、Dmin, F1set(S)，F1set(S’), F1set(S’,A)などを初期化する（Ｓ３０１、Ｓ３０２）。更に例文パターン候補Asetから例文パターン候補Aが取り出され、変換部１４０１により、パターンAに対応する入力文SをS’とする（Ｓ３０３、Ｓ３０４）。この入力文S’とAの間の距離D１を算出部１５００により求める。求めた距離D1がDmin最小値より小さいかどうか判断する（Ｓ３０６）。小さい場合には、F1set(S’,A)およびF1set(S’)をヌル値（NULL）即ち空値とし、D1をDminとした後、抽出部１６００で文S’と例文パターンAの間の対応関係(写像)を求める（Ｓ３０７、Ｓ３０９）。

更に、求めた距離値Dimを定める写像をF1set(S’,A)に格納する。選択部１６３０で、F1set(S’,A)にある不適切な写像を削除する（Ｓ３１０）。得られたF1set(S’,A)をF1set(S’)に入れる。
即ち、F1set(S’)＝ F1set(S’)＋F1set(S’,A)

その後、または、ステップＳ３０６で大きいと判断した場合には、Asetの候補をすべて処理したかどうかを判断し、未処理があれば、候補Ａを取り出し上記処理を行い、すべて処理済みであれば、次のステップに進む。

次に、判定部１８１０で、F1set(S’)の中から一つの写像F1i(S’,A)を取り出し、F1i(S’,A)に対して，再計算する必要があるかどうかを判定する（Ｓ３１１、Ｓ３１２）。再計算する必要がある場合には、修正部１８２０で、F1i(S’,A)と候補Ａを参考して、文S’を修正し、これを修正後の文S’’とする（Ｓ３１３）。
即ち、F1set(S’,A)＝F1set(S’,A)-F1i(S’,A)

修正後の文S’’と候補Aの間の相違を算出部１５００で求める（Ｓ３１４）。求めた相違としての距離値をD2とする。距離値D2が最小値Dminより小さいかどうかを判断する（Ｓ３１５）。小さい場合には、文S’’と候補Aの間の対応関係(写像)F1set(S’’,A)を求める（Ｓ３１６）。その後、Dmin=D2であれば、F1set(S)=F1set(S)+F1set(S’’,A)とし、Dmin>D2であれば、F1set(S)=F1set(S’,A)およびDmin=D2とする（Ｓ３１７）。

ステップＳ３１７の処理の終了後、ステップＳ３１５で、大きいと判断した場合、およびステップＳ３１２で再計算の必要がないと判断した場合には、F1set(S’)の写像をすべて処理したかどうかを判断する（Ｓ３１８）。未処理があれば、ステップＳ３１２に戻り処理を行う。処理済であれば、F1set(S)がNULLであれば、F1set(S)= F1set(S’,A)とした後、最適関係選択部１８３０で、F1set(S)から最適な写像（対応関係）を求め、求めた写像をF1res(S,A)に入れる（Ｓ３１９、Ｓ３２０）。

以上述べたように、句翻訳装置４０(図４参照)において、入力部４２に入力された句は、その翻訳が得られるまで、順次翻訳部４４〜５６に段階的に入力されてそれらの翻訳処理を受けることとなる。各翻訳部の順位は、基本的により簡単な翻訳からより複雑な翻訳へ移行するよう配列されているので、翻訳の高速化および高精度化が図られる。

図２９は、句翻訳装置の一ハードウエア構成を示すブロック図である。句翻訳装置は、好ましくは、入力装置１７００、表示装置１７０２、主記憶装置１７０４、記憶装置１７０６、中央処理装置（ＣＰＵ）１７０８、これらを接続するバス１７１０を含んで構成される。

入力装置１７００は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置１７０２は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置１７０４は、ＲＯＭまたはＲＡＭを含み、図４に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置１７０６は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書６０〜６６等のデータを格納する。中央処理装置１７０８は、主記憶装置１７０４に記憶されたプログラムに従い各部を制御する。

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本発明に係る句翻訳装置は、機械翻訳システムにおける例文パターン翻訳装置において利用される。

例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。図１における例文パターンベース翻訳装置１６の構成を示すブロック図である。例文パターンベース翻訳装置１６における具体的な翻訳処理のプロセスを示した概念図である。本発明の実施例の句翻訳装置の構成を示すブロック図である。辞書ベース翻訳部４４における翻訳処理の手順を示したフローチャートである。単語／句対訳辞書６０のデータ構造の一例を示した図である。単語アライメント例文ベース翻訳部５０における翻訳処理の手順を示すフローチャートである。入力された句Pに対して例文e1とその対応訳文t１のペアが抽出された例を示す図である。入力された句Pに対して例文e2とその対応訳文t２のペアが抽出された例を示す図である。入力された句Pに対して例文e3とその対応訳文t３のペアが抽出された例を示す図である。例文集合ベース翻訳部５２の内部構成を簡略的に示すブロック図である。例文集合ベース翻訳部５２における翻訳処理の手順を示すフローチャートである。中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例を示したものである。選択された例文対訳ペアの共通部分における支持度を算出する具体例を示したものである。支持度の集計結果を表組みにして表した図である。例文集合ベース翻訳部５２において実施される具体的な翻訳処理を示した例である。句翻訳装置の一ハードウエア構成を示すブロック図である。例文対訳辞書のデータ構造を示す説明図である。例文パターンのデータ構造を示す説明図である。例文パターン対訳辞書のデータ構造を示す説明図である。例文マッチング翻訳部の処理手順前段を示すフローチャートである。例文マッチング翻訳部の処理手順後段を示すフローチャートである。中国語から日本語への翻訳例を示す説明図である。日本語から中国語への翻訳例を示す説明図である。例文と例文パターンのマッチングに利用可能な翻訳装置１００１を含む翻訳システムの全体構成を示すブロック図である。翻訳装置１００１の主要部の詳細構成を示すブロック図である。翻訳装置の主要部処理手順前段を示すフローチャートである。翻訳装置の主要部処理手順後段を示すフローチャートである。句翻訳装置の一ハードウエア構成を示すブロック図である。

符号の説明

１０：機械翻訳システム１２：原言語テキスト文入力部
１４：翻訳メモリ装置１６：例文パターンベース翻訳装置
１８：単語直訳翻訳装置２０：目的言語テキスト出力部
２２：翻訳不適切文自動回収部２４：学習装置
２６ｃ：例文パターン対訳辞書２６ａ：単語対訳辞書
２６ｂ：例文対訳辞書２６：形態素解析部
２６：翻訳辞書２８：写像変換部
３０：例文パターン対訳辞書３２：句翻訳部
３４：訳文生成部４０：句翻訳装置
４２：入力部４４：辞書ベース翻訳部
４７：例文マッチング翻訳部４８,７４：形態素解析部
５０：単語アライメント例文ベース翻訳部５２：例文集合ベース翻訳部
５４：例文ベース翻訳部５６：ルールベース翻訳部
５８：出力部６０：単語／句対訳辞書
６２：例文対訳辞書６２１：第１保持部
６３：例文パターン対訳辞書６３１：第２保持部
６４：単語アライメント対訳辞書
６６：例文対訳辞書７２：例文部分マッチング翻訳部
７３：判断部７５：例文パターン検索部
７６：例文パターンマッチング部７７：訳文抽出部
１１０２：例文対訳ペア選択部
１１０４：句ペア抽出部１１０６：支持度算出部
１１０８：訳文選択部１７００：入力装置
１７０２：表示装置１７０４：主記憶装置
１７０６：記憶装置１７０８：中央処理装置（ＣＰＵ）
１７１０：バス

Claims

第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として記憶する第１の辞書を検索して得られる入力句を含む例文対訳組を保持する保持手段と、
第１言語の例文パターンとその対訳である第２言語の対訳例文パターンを例文パターン対訳組として記憶する第２の辞書と、
前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第２の辞書から検索する検索手段と、
前記保持手段で保持された例文対訳組の第１言語の例文と前記検索手段で検索された例文パターン対訳組の第１言語の例文パターン間、および当該例文対訳組での第２言語の例文と当該例文パターン対訳組での第２言語の例文パターン間のマッチングを行うマッチング手段と、
前記マッチグ手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、
を備えた例文マッチング翻訳装置。
前記抽出手段が、第１言語の例文内の入力句が第１言語の例文パターンでの特定の可変部分に対応し、第１言語の例文パターンでの特定の可変部分が第２言語の例文パターンでの特定の可変部分に対応し、第２言語の例文パターンでの特定の可変部分が第１言語の例文に対応することにより、入力句の訳文として、当該第２言語の例文パターンでの特定の可変部分に対応する第１言語の例文の部分を抽出することを特徴とする請求項１記載の例文マッチング翻訳装置。
請求項１または２に記載の例文マッチング翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成した句翻訳装置。
前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、請求項１または２に記載の例文マッチング翻訳装置からなる例文マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、例文集合ベース翻訳方式による例文集合ベース翻訳部と、例文パターンベース翻訳方式による例文パターンベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成された請求項３に記載の句翻訳装置。
第１言語の例文とその対訳である第２言語の対訳例文を例文対訳組として記憶する第１の辞書、および第１言語の例文パターンとその対訳である第２言語の対訳例文パターンを例文パターン対訳組として記憶する第２の辞書を利用した例文マッチング翻訳プログラムであって、
前記第１の辞書を検索して得られる入力句を含む例文対訳組を保持する第１のステップと、
第１のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第２の辞書から検索する第２のステップと、
第１のステップで保持された例文対訳組の第１言語の例文と第２のステップで検索された例文パターン対訳組の第１言語の例文パターン間、および当該例文対訳組での第２言語の例文と当該例文パターン対訳組での第２言語の例文パターン間のマッチングを行う第３のステップと、
第３のステップのマッチング結果に基づいて入力句の訳文を抽出する第４のステップと
を備えた例文マッチング翻訳プログラム。