JP2010152420A - 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 - Google Patents

例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 Download PDF

Info

Publication number
JP2010152420A
JP2010152420A JP2008326704A JP2008326704A JP2010152420A JP 2010152420 A JP2010152420 A JP 2010152420A JP 2008326704 A JP2008326704 A JP 2008326704A JP 2008326704 A JP2008326704 A JP 2008326704A JP 2010152420 A JP2010152420 A JP 2010152420A
Authority
JP
Japan
Prior art keywords
translation
example sentence
language
phrase
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008326704A
Other languages
English (en)
Other versions
JP5298834B2 (ja
Inventor
Shaoming Liu
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008326704A priority Critical patent/JP5298834B2/ja
Publication of JP2010152420A publication Critical patent/JP2010152420A/ja
Application granted granted Critical
Publication of JP5298834B2 publication Critical patent/JP5298834B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 句翻訳装置における翻訳精度および速度を向上させる。
【解決手段】 句翻訳装置は、辞書ベース翻訳部、例文マッチング翻訳部、単語アライメント例文ベース翻訳部、例文集合ベース翻訳部、例文ベース翻訳部、ルールベース翻訳部を備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成される。例文マッチング翻訳部では、例文対訳辞書から、入力句を含む複数の例文対訳組が取り出され保持部に保持される。保持された例文対訳組に対応する例文パターン対訳組を例文パターン検索部が例文パターン対訳辞書から検索する。例文マッチング部が例文対訳組と例文パターン対訳組間での第1言語の例文と例文パターン間、および第2言語の例文と例文パターン間のマッチグを行い、これらのマッチグ結果に基づいて、訳文抽出部が入力句の訳文を抽出する。
【選択図】 図4

Description

本発明は、例文対訳辞書を利用した例文集合ベース翻訳装置、方法およびプログラム、並びに該例文集合ベース翻訳装置を含んで構成された句翻訳装置に関する。
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)統計ベース機械翻訳方式、3)例文ベース機械翻訳方式に大別することができる。
解析ベース機械翻訳方式は、第1言語の解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。
図1は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム10は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム10は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。
機械翻訳システム10は、原言語テキスト文入力部12から入力された文単位の文を翻訳する翻訳メモリ装置14、翻訳メモリ装置14において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された単語等の例文パターンを翻訳する例文パターンベース翻訳装置16と、例文パターンベース翻訳装置16で翻訳できなかった単語を不適切な単語として入力し、この単語を翻訳する単語直訳翻訳装置18と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部20を有している。
さらに機械翻訳システム10は、例文パターンベース翻訳装置16によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部22と、翻訳不適切文自動回収部22により作成された翻訳のチェックや修正を行う学習装置24と、翻訳辞書26とを備えている。翻訳辞書26は、第1の言語の単語とその対訳である第2の言語の単語を格納する単語対訳辞書26a、第1の言語の例文とその対訳である第2の言語の例文を格納する例文対訳辞書26b、第1の言語の例文パターンとその対訳である第2の言語の例文パターンを格納する例文パターン対訳辞書26cを含んでいる。翻訳辞書26は、翻訳メモリ装置14、例文パターンベース翻訳装置16、単語直訳翻訳装置18において利用される。なお、図1の機械翻訳システムは、一つの構成例であって、さらに他のチャンクベース等の翻訳エンジンを含むものもある。
図2は、図1における例文パターンベース翻訳装置16の構成を示すブロック図である。例文パターンベース翻訳装置16は、入力文を形態素解析する形態素解析部26、形態素解析された文に対して例文パターン対訳辞書30を用いて写像変換を行う写像変換部28、写像変換された文における各名詞句などの句を翻訳する句翻訳部32、および句翻訳部32で翻訳された句を写像変換された文に適用して最終的な訳文を生成する訳文生成部34を備えて構成される。例文パターン対訳辞書30には、文中の二つ以上の単語からなる句を一般化した多数の例文パターンとその対訳文が組となって格納されている。写像変換部28は、入力文における句を一般化した文を生成し、例文パターン対訳辞書30に対して検索を実行してこれと同じ例文パターンおよびその対訳文の組を抽出する。
図3は、例文パターンベース翻訳装置16における具体的な翻訳処理のプロセスを示した概念図である。ここでは日本語を第1言語として入力し、第2言語として中国語の訳文を得る例を示している。例文パターンベース翻訳装置16に入力された日本語文は、形態素解析部26で形態素解析され(図中の数字は各形態素に与えられる品詞のID)、写像変換部28に与えられる。写像変換部28では、形態素解析された文中の句(フレーズ)を一般化(図中のNP1、NP2、NP3)した文を生成し、これに一致する例文パターンを例文パターン対訳辞書30から抽出する。そしてその中国語対訳例文パターンを特定する。次に、写像変換部28でNP1〜NP3として一般化された句を、句翻訳部32に入力して、それらの対訳句を得る。訳文生成部34において、このようにして得られた対訳例文パターンに対訳句が埋め込まれ、入力された日本語文に対する中国語訳文が生成される。なお、句翻訳部32における句の翻訳精度は、最終的な翻訳文における翻訳精度に重大な影響を与える。
前述のような機械翻訳技術に関連するものとして、特許文献1〜4並びに非特許文献1および2が存在する。特許文献1には、連体修飾節を有する第1言語文を第2言語文に翻訳する際に、第2言語の翻訳辞書に連体修飾節の語順に関する情報を付与し、その情報を利用して第2言語の文法規則に従って第2言語文を生成することにより、正しい語順の名詞句を持つ翻訳結果を得ることが開示されている。特許文献2には、機械翻訳装置における並列名詞句処理において、正しい並列名詞句の処理を行なえるようにした並列名詞句処理方式が開示されている。特許文献3は、構造解析して複雑な構造を有する名詞句を抽出し、主名詞とそれ以外の構成要素に分割し、文法規則中の変換・生成規則を用いて訳文を生成する技術が開示されている。特許文献4は、例文対訳辞書を用いて、入力された句を含む例文とその訳文を抽出し、ユーザが抽出された情報から訳文を選択する技術が開示されている。
また、非特許文献1は、第1言語の例文とその例文の第2言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献2は、第1言語の例文とその例文の第2言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う技術を報告している。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。
特開平5ー120329号公報 特開平6ー68131号公報 特開平9ー282320号公報 特開2001ー195404号公報 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130.
Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.pp 490−497. Madrid Spain,1997.
しかしながら前記特許文献1〜3に開示の技術は、その翻訳精度が言語の解析技術に大きく依存しており、その解析精度が十分でない現状においては、その翻訳精度は要求されている水準には達していないという問題がある。また、特許文献4に開示の技術は翻訳支援技術であって、句の訳文を自動的に抽出する技術ではない。
また、非特許文献1に開示の技術は、単語アライメント技術を用いたものであるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献2に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。
本発明は、上記従来の課題を解決するものであり、機械翻訳システムにおける例文パターン翻訳装置に実装しうる高性能な句翻訳装置を提供するものであり、この句翻訳装置は、二つ以上の単語からなる句を高速、高精度に翻訳可能として、機械翻訳システムにおける最終的な翻訳文の翻訳精度を向上させることを目的としている。
なお、本書において「句」の語は、二つ以上の単語からなる句、句を内在する句を含むものとする。言語学上、文が節、句を含み、節が句を含む、句が句を含まない。本明細書には、句の定義が言語学上の定義ではない、二つ以上の単語からなる単語列、かつ、句が句を含んでもよいと定義する。例文パターンベースの翻訳装置には、例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して、句の翻訳を簡易に実現する。
本発明の請求項1に係る例文集合ベース翻訳装置は、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書を検索して得られる入力句を含む例文対訳組を保持する保持手段と、第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書と、前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する検索手段と、前記保持手段で保持された例文対訳組の第1言語の例文と前記検索手段で検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該各例文パターン対訳組での第2言語の例文パターン間のマッチングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、を備えたものである。
本発明の請求項2に係る例文集合ベース翻訳装置は、請求項1記載の構成に対して、前記抽出手段が、第1言語の例文内の入力句が第1言語の例文パターンでの特定の可変部分に対応し、第1言語の例文パターンでの特定の可変部分が第2言語の例文パターンでの特定の可変部分に対応し、第2言語の例文パターンでの特定の可変部分が第1言語の例文に対応することにより、入力句の訳文として、当該第2言語の例文パターンでの特定の可変部分に対応する第1言語の例文の部分を抽出することを特徴とするものである。
本発明の請求項3に係る句翻訳装置は、請求項1または2に記載の例文マッチング翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成したものである。
本発明の請求項4に係る句翻訳装置は、請求項3に記載の前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、請求項1または2に記載の例文マッチング翻訳装置からなる例文マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、例文集合ベース翻訳方式による例文集合ベース翻訳部と、例文ベース翻訳方式による例文ベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成されたものである。
本発明の請求項5に係る例文マッチング翻訳プログラムは、第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書、および第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書を利用した例文マッチング翻訳プログラムであって、前記第1の辞書を検索して得られる入力句を含む例文対訳組を保持する第1のステップと、第1のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する第2のステップと、
第1のステップで保持された例文対訳組の第1言語の例文と第2のステップで検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行う第3のステップと、第3のステップのマッチング結果に基づいて入力句の訳文を抽出する第4のステップと、を備えたものである。
請求項1の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。
請求項2の構成によれば、比較的容易にマッチング結果に基づいて容易に入力句の訳文を抽出できる。
請求項3の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、翻訳の高速化および高精度化が図られる。
請求項4の構成によれば、基本的により簡単な翻訳からより複雑な翻訳へ移行するように各翻訳部を配列しているので、既存技術も含めて比較的容易に翻訳の高速化および高精度化が図られる。
請求項5の構成によれば、その翻訳精度が極めて高くなり、かつ情報処理装置における高速処理に適した演算を行うので、高速に翻訳ができる。
以下本発明を実施するための最良の形態を、図に示す実施例を参照して説明する。
本実施例は、図1に示した機械翻訳システム10に用いられる例文パターンベース翻訳装置16に実装しうる句翻訳装置に係る。図4は、本実施例の句翻訳装置の構成を示すブロック図である。図に示すように句翻訳装置40は、異なる翻訳方式に基づく複数段の翻訳部44〜56、およびそれらで用いられる複数の対訳辞書60〜66を備えており、これは入力部42に入力される第1言語の句が、より簡単な翻訳からより複雑な翻訳へ移行するように構成されており、これによって翻訳の高速化および高精度化を図っている。つまり、前段の翻訳部において適切に翻訳された句は次段移行の翻訳部における翻訳を受けることなく出力部58から出力され、適切に翻訳されなかった句のみが次段の翻訳部に入力されるように構成されている。
具体的には、入力部に入力された第1言語の句は、最初に辞書ベース翻訳部44による翻訳処理に掛けられ、ここで適切な翻訳句が得られなかった場合に、次段の例文マッチング翻訳部47での翻訳処理に掛けられる。次いで例文マッチング翻訳部47においても適切な翻訳句が得られない場合、入力された句は形態素解析部48において形態素解析され、次段の単語アライメント例文ベース翻訳部50による翻訳処理に掛けられる。更に、単語アライメント例文ベース翻訳部50において適切な翻訳句が得られない場合、入力された句は例文集合ベース翻訳部52の翻訳処理に掛けられる。そして、例文集合ベース翻訳部52においても適切な翻訳句が得られない場合には、例文ベース翻訳部54の翻訳処理に掛けられ、ここでも適切な翻訳句が得られない場合に最終段のルールベース翻訳部56の翻訳処理に掛けられ、その結果は出力部58から出力される。
次に、各翻訳部44〜56の具体的な構成および処理手順について説明する。
辞書ベース翻訳部44は、入力された句に対して、単語/句対訳辞書60を検索し、一致する句が辞書内にある場合にその対訳句を出力するものである。単語/句対訳辞書60内には、第1言語による単語あるいは句をキーとし、第2言語によるその対訳語あるいは句を値とする辞書セットと、第2言語による単語あるいは句をキーとし、第1言語によるその対訳語あるいは句を値とする辞書セットが収められている。辞書ベース翻訳部44は、基本的には2段階の処理を行い、最初に第1言語による単語/句をキーとして検索を行ってその対訳句の抽出を行い、それが成功しなかった場合に、今度は第2言語による単語/句をキーとして検索を行ってその対訳句の抽出を行う。
図5は、辞書ベース翻訳部44における翻訳処理の手順を示したフローチャートである。図に示すように、入力された句Pに対して、最初のステップS501において、言語1から言語2への単語/句対訳辞書のセットが検索される。そして、この辞書セットに該当単語あるいは句が存在する場合、処理はステップS502からステップS503に移り、その該当単語あるいは句の対訳語あるいは対訳句が、入力された句Pの訳語として抽出され、出力部58から出力される。
一方、ステップS502で、この辞書セットに該当単語あるいは句が存在しないと判断された場合は、言語2から言語1への単語/句対訳辞書のセットが検索される。そして、この辞書セットにおける対訳データにおいて該当単語あるいは句が存在する場合、処理はステップS505からステップS506に移り、その該当単語あるいは句の原語が、入力された句Pの訳語として抽出され、出力部58から出力される。前記2つの辞書セットのいずれからも該当単語/句が得られない場合には、入力された句Pは次段の翻訳部である例文マッチング翻訳部46へ渡され、そこでの処理に掛けられる。
図6は、単語/句対訳辞書60のデータ構造の一例を示した図である。この例では、第1言語として日本語、第2言語として中国語を想定した場合の辞書を例としており、日本語を原語、中国語を訳語として構成された第1の辞書セット60a、中国語を原語、日本語を訳語として構成された第2の辞書セット60bが示されている。句翻訳装置40に入力された句Pが日本語である場合、最初に第1の辞書セット60aの原語のカラムが検索されて、該当フィールドの対応する中国語の訳語が句Pの訳語として抽出される。第1の辞書セット60aによる検索が失敗した場合、次に、第2の辞書セット60bの訳語のカラムが検索されて、該当フィールドの対応する中国語の原語が句Pの訳語として抽出される。
前記辞書ベース翻訳部44において、入力された句に対する訳語が得られなかった場合、その入力された句は例文マッチング翻訳部47の処理の対象になる。例文マッチング翻訳部47は、第1言語と言語2間の例文を対応させた例文対訳辞書62を用いて、入力された句Pと完全マッチングした例文があれば、その例文の訳文をPの第2言語の訳文として出力する.完全にマッチングした例文が存在しない場合は,入力された句Pを含む例文があれば,その対訳例文ペアと対応している対訳パターンペアを例文パターン対訳辞書63から取り出し、取り出した対訳パターンペアを用いて、句Pを翻訳する。この例文マッチング翻訳部47の詳細構成および動作については後述する。
次に、単語アライメント例文ベース翻訳部50の機能について説明する。例文マッチング翻訳部47で適切に翻訳できなかった句は、形態素解析部48において形態素解析、つまり、入力された句に含まれる単語と品詞をそれぞれ抽出してそれぞれに意味属性を与えられ、これが単語アライメント例文ベース翻訳部50の入力データとなる。単語アライメント例文ベース翻訳部50は、形態素解析された句に対する訳文候補を単語アライメント対訳辞書64を参照して得る。
単語アライメント対訳辞書64は、第1言語による例文とその第2言語による対訳文の組を格納したものであり、これらには単語アライメント情報、すなわち第1言語の例文における各単語と第2言語の対訳文における各単語の対応付け情報が付加されている。具体的な単語アライメント情報の生成方法については、ここでは説明しないが、既存の各種の単語アライメント情報の生成方法が本実施例においても利用できる。
図7は、単語アライメント例文ベース翻訳部50における翻訳処理の手順を示すフローチャートである。図のステップS701において、単語アライメント対訳辞書64の最初の例文ペアが抽出され、ステップS702でその第1言語の例文中に形態素解析された句Pが含まれているか判断される。この処理は句Pが含まれている例文ペアが出現するまで辞書内の全ての例文ペアに対して行われる。すなわち、抽出された例文ペアに句Pが含まれていないと判断された場合、ステップS703で辞書内の全ての例文ペアを取り出したかが判断され、取り出されていない場合には、ステップS704で次の例文ペアを取り出して、句Pとの対比を行う。
ステップS702において、抽出された例文ペアに句Pが含まれている判断された場合には、処理はステップS705に移り、その例文ペアの単語アライメント情報を参照して、例文中の句Pに該当する部分に対応する、訳文中の部分を、句Pの訳文候補として抽出する。次いで、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含むか判断される(ステップS706)。そして、そのような単語がない場合、すなわち、例文の句Pに該当する部分と訳文候補とのアライメントが完全に一致しているか、あるいは、訳文候補中に他の単語が含まれているがその単語は例文中の他の部分の単語とアライメントしないもの(空対応)である場合には、この訳文候補を、本翻訳部における句Pの訳文として出力する(ステップS707)。
一方、ステップS707において、この抽出された訳文候補中の単語が、元の例文における句Pに対応する部分以外の部分にアライメントされている単語を含んでいると判断された場合には、これを最終的な訳文とするのは不適切であると判断して、処理をステップS703に戻し、次の候補を検索する。全ての例文ペアとの対比が終了し、結果として対応訳文が得られなかった場合には、入力された句は、次段の翻訳部、すなわち例文集合ベース翻訳部52へ渡され、そこでの翻訳処理の対象となる。
図8〜図10は、図7のステップS707における具体的な判断の例を示した図である。図8および図9の例は句Pの対応訳文が得られる例を示しており、図10は得られない場合を示している。図8は、図中の入力された句Pに対して例文e1とその対応訳文t1のペアが抽出された例であり、ここでは、例文e1中の入力された句Pに該当する部分に対し、訳文t1中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1、p2、p3とアライメントするtg1、tg2、tg3のみによって構成されており、結果、図7のステップS707において、訳文のTg部分が最終的な訳文として出力されることとなる。
また、図9は、図中の入力された句Pに対して例文e2とその対応訳文t2のペアが抽出された例であり、ここでは、例文e2中の入力された句Pに該当する部分に対し、訳文t2中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p4とアライメントするtg1〜tg4以外にtg5を含んでいる。しかし、tg5は例文e2の他の部分とアライメントしない(空対応)ので、結果、図7のステップS707において、訳文のTg部分が最終的な訳文として出力されることとなる。
図10は、図中の入力された句Pに対して例文e3とその対応訳文t3のペアが抽出された例であり、ここでは、例文e3中の入力された句Pに該当する部分に対し、訳文t3中のTg部分が訳文候補として抽出されている。そして、この例では、訳文候補Tgは、入力された句Pを構成する単語p1〜p3とアライメントするtg1〜tg3以外にtg4およびtg5を含んでいる。ここで、tg4は例文e3の他の部分とアライメントしない(空対応)が、tg5は例文e3の他の部分の単語p4とアライメントするので、結果、図7のステップS707において、訳文のTg部分は訳文としては出力されない。
次に、例文集合ベース翻訳部52の機能について説明する。単語アライメント例文ベース翻訳部50で適切に翻訳できなかった句は、例文集合ベース翻訳部52の入力データとなる。例文集合ベース翻訳部52は、入力された句に対する訳文候補を例文対訳辞書66を参照して得る。例文対訳辞書66には、第1言語による例文とその第2言語による対訳文の組が多数格納される。本翻訳部における翻訳精度を向上させるためには、できるだけ多くの例文対訳組を例文対訳辞書66に登録しておくことが好ましい。
図11は、例文集合ベース翻訳部52の内部構成を機能的に示すブロック図である。図において、例文集合ベース翻訳部52は、例文対訳辞書66から入力された句を含む複数の例文対訳組を選択するための例文対訳ペア選択部1102と、各例文対訳組相互間の共通部分の組を抽出する句ペア抽出部1104と、抽出された複数の共通部分の組の、入力された句に対する支持度合を算出する支持度算出部1106と、前記算出された支持度合に基づいて訳文候補のなかから最終的な訳文を選択する訳文選択部1108を備えている。
前記例文対訳ペア選択部1102は、入力された句がPである場合に、例文対訳辞書66における第1言語の例文群を検索して、この句Pを含む例文とその対訳文の組を全て選択する。前記句ペア抽出部1104は、例文対訳ペア選択部1102で選択された各例文対訳組を相互に照合し、それらの共通部分の組を抽出する。具体的には、各例文対訳組における第1言語による例文同士を照合してその共通部分を抽出すると共に、第2言語による訳文同士を照合してその共通部分を抽出する。各例文対訳組中に複数の共通部分が存在する場合は、各共通部分の長さを比較し最長のものを対象とする。また、文例中に含まれる助詞などの汎用的に用いられる文字は、それらを禁止用文字集合として登録しておき、抽出すべき共通部分からは除外する。
前記支持度算出部1106は、前記抽出された共通部分の入力された句に対する支持度を算出する。具体的には、抽出された各第1言語による例文の組み合わせにおける共通部分と、入力された句の一致度合いを見て、それらが完全一致する場合(以下、これを強支持と呼ぶ)には、その対応訳文における共通部分を訳文候補とし、その支持度を加算していく。また、それらが完全一致しない場合で、共通部分が入力された句を含んでおり、かつその対応訳文における共通部分が訳文候補となっている場合(以下、これを弱支持と呼ぶ)にも、その対応訳文における共通部分を訳文候補とし、その支持度を加算する。この演算を、抽出された全ての共通部分に対して実施し、各共通部分の、入力された句に対する支持度を積算していく。このようにして、訳文候補の出現回数が計数される。
前記訳文選択部1108は、支持度算出部1106での演算結果に対して、所定の基準値に従って複数の訳文候補の中から出力すべき最終的な訳文を選択する。具体的には、支持度が最も高かった2つの訳文候補を抽出し、以下の基準に従ってその決定を行う。ここで、2つの訳文候補をT1、T2とし、それらの支持度をx, y(但し、x > y)とする。
(1)x < θ1 の場合、適切な候補が存在しないとして、翻訳不適切を出力する
(2)x >= θ1 かつ x - y > θ2 の場合、T1を訳文として出力する
(3)x >= θ1 かつ x / y > θ3の場合、T1を訳文として出力する
但し、θ1、θ2、θ3は非負の実数である。
次に、例文集合ベース翻訳部52における処理の手順について説明する。図12は、例文集合ベース翻訳部52における翻訳処理の手順を示すフローチャートである。例文集合ベース翻訳部52は、前段の翻訳部で適切な翻訳ができなかったとして出力された句を入力すると、例文対訳辞書66にアクセスし、そこから入力された句を含む複数の例文対訳組を選択する(ステップS1201)。
(ステップS1206)。また、訳文候補が所定の基準を満たさない場合は、本翻訳部における訳文は得られなかったとして、入力された句を次段の翻訳部に出力する。
次に、例文集合ベース翻訳部52における翻訳処理を数学的記述に従って説明する。以下では、例文対訳辞書66に収められた例文とその対訳文をそれぞれCSとJSと、例文対訳ペアをS=CS<->JSと、選択された対訳例文ペアの候補群をBSと表記する。ここで、例文CSと訳文JSは、文字の順序付き文字列で表現される。
Figure 2010152420
入力された句をPで表す。ここでPも文字の順序付き文字列で表現される。
Figure 2010152420
また、任意の例文対訳ペアをSk、Shとすると、これは次のように定義される。
Figure 2010152420
そして、その共通部分は次のように定義される。
Figure 2010152420
ここで、以下の各条件が満たされる。なお、CWSTOPは第1言語の禁止用文字列集合、JWSTOPは第2言語の禁止用文字列集合を表す。
Figure 2010152420
次に、入力された句の言語が第1言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを強支持すると表現し、この場合、TgはPの訳文候補となる。
Figure 2010152420
ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがP<->Tgを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(P<->Tg) = x と表現される。そして、支持度SV(P<->Tg)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。
Figure 2010152420
ここで、ShとSkの共通部分が次のようであれば、ShとSkがP<->Tgを弱支持すると表現し、この場合も、TgはPの訳文候補となる。
Figure 2010152420
なお、入力された句の言語が第2言語の場合において、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを強支持すると表現し、この場合、TgはPの訳文候補となる。
Figure 2010152420
ここで、対訳例文ペアの候補群BS中に、x個の例文ペアがTg<->Pを支持するなら、Tgが入力された句Pの訳文候補である支持度がxであると定義され、SV(Tg<->P) = x と表現される。そして、支持度SV(Tg<->P)が最大の訳文Tgを入力された句Pの訳文とし、次のように表される。
Figure 2010152420
ここで、ShとSkの共通部分が次のようであれば、ShとSkがTg<->Pを弱支持すると表現し、この場合も、TgはPの訳文候補となる。
Figure 2010152420
次に、例文集合ベース翻訳部52における翻訳処理の具体的な例を示す。例では、入力された中国語の句を日本語に翻訳する場合を示す。図13〜図16は、例文集合ベース翻訳部52において実施される具体的な翻訳処理を示した例である。
図13には、中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例(S1,S2,S3,S4,S5,...)が示されている。各例文対訳ペアの例文C1,C2,C3,C4,C5,...には、入力された句Pが含まれていることが分かる。
図14は、選択された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。
図15は、前記支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。
図16では、前記支持度の集計結果から、支持度の高かった2つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的な訳文として決定されている。
図4に戻り、例文集合ベース翻訳部52で適切に翻訳されなかった句は、次段の例文ベース翻訳部54へ渡され、ここでの翻訳処理を受ける。例文ベース翻訳部54は、例文対訳辞書66を検索して、入力された句に一致する例文を抽出して、その対訳文を入力された句の訳文として出力するものである。例文ベース翻訳部54の具体的な翻訳手法については、従来の各種の翻訳手法を採用することができる。
例文ベース翻訳部54で適切に翻訳されなかった句は、次段のルールベース翻訳部56へ渡され、ここでの翻訳処理を受ける。ルールベース翻訳部56は、第1言語の解析(形態素解析、構文・意味解析など)を行い、人手によって作成された大量のルールをベースとして、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成するものである。本実施例においてルールベース翻訳部56の具体的手法については、従来の各種の翻訳手法を採用することができる。
次に、図17を参照して例文マッチング翻訳部47の詳細構成について説明する。同図に示すように、例文マッチング翻訳部47は、例文対訳辞書62および例文パターン対訳辞書63を用いて入力された句について翻訳を行う。まず、これらの辞書のデータ構造について説明する。
図18に例文対訳辞書62のデータ構造例を示す。複数のレコードから成り、各レコードは、第1言語の例文T1と、この例文T1の訳文となる第2言語の例文T2とを含む。
次に例文パターン対訳辞書63のデータ構造について説明する。図19に例文パターンのデータ構造例を示す。同図において、例文パターンPEは、例文SE1から4を類別するパターンである。
例文パターンPEは、類別される例文に共通な単語、又は節で構成される固定部分PFと、固定部分PFではない単語又は節であるが、類別される例文間で品詞が共通する単語又は節で構成される可変部分PVとで構成される。可変部分PVは、それらの品詞が共通する単語又は節を、例えば、V1及びV2といった記号を用いて表す。
よって、例文パターンPEは類別される例文に共通な文字列で構成され、可変部分PVは類別される例文に共通しない文字列を表す記号(以下単に、非共通文字列という)で構成される。つまり、非共通文字列は、例文パターンを構成する共通文字列以外の文字列をいう。
ここで、節とは、文法上、従位接続詞や関係詞が導く文であって、主語と述語とが一組になり完結した文をいう。しかし本実施例では、動詞、形容詞、及び形容動詞である単語とそれらに付随して使用される助詞、助動詞、及び補助動詞である単語とを合わせて節といい、それぞれ動詞節、形容詞節、及び形容動詞節という。また、節の品詞とは、動詞節、形容詞節、及び形容動詞節のいずれかへ節を分類した区分けをいう。
具体的には、図19に示すように、「渡してください」という節SC1から4及びPCは、「渡す」という動詞である単語、「て」という接助詞である単語、及び「くださる」という補助動詞である単語で構成される。
また、動詞である単語「渡す」とそれに付随して使用される単語「て」及び「くださる」とで構成される節SC1から4及びPCの品詞を動詞節という。
固定部分PFは、例文に共通な単語又は節のみならず、その同義語を表すFIX内容情報、可変部分であるか固定部分であるかを表すTYPE情報、並びに固定部分を構成する単語の品詞を表す品詞情報、固定部分を構成する単語が属している語彙体系を表す情報である言語体系属性名等で構成される。
可変部分PVは、共通する品詞を表す情報である変数名情報、及び可変部分であるか固定部分であるかを表すTYPE情報、可変部分の語彙体系属性名等で構成される。語彙体系の言語としては、日本語語彙体系(J)、中国語語彙体系(C)などのように、挙げられる。
本記実施例において、変数名情報は、共通する品詞が名詞であることを表す名詞フレーズ(例えば、名詞句の変数名;NP、変数名ID;1)、形容詞であることを表す形容詞フレーズ(例えば、形容詞句の変数名;AP、変数名ID;2)、及び副詞であることを表す副詞フレーズ(例えば、副詞句の変数名;DP、変数名ID;3)を含む。
また、本実施例において、可変部分PVは、類別される例文間で品詞が共通する単語又は節で構成されるとして説明したが、これに限定される訳ではなく、共通する性質の内容を表す単語又は節で構成される実施例を採用できる。共通する性質の内容を表す単語又は節の具体例としては、例えば、時間、数量、地名、又は人名を表す単語又は節を挙げることができる。
次に例文パターン対訳辞書63のデータ構造例について図20を参照して説明する。同図に示すように、例文パターン対訳辞書63は、レコード1からnで構成される。レコード1からnは、第1言語で表された例文パターンT1と、例文パターンT1を第2言語に翻訳した訳文パターンとしての例文パターンT2と、例文パターンT1及び例文パターンT2のペア(組)を識別するIDと、例文パターンT1及びT2を構成する単語等である文字列の対応関係を表す対応関係情報F2とを関連付けて保存する。
レコード1からnが保存する対応関係情報F2について説明する。ここでは、例文パターンT1が単語等である5つの文字列 a1 から a5 で構成され、かつ例文パターンT2が単語等である6つの文字列 b1 から b6 で構成されている場合を例に挙げて説明を行う。
対応関係情報F2は、文字列が例文パターンT1及び対訳としての例文パターンT2において使用される順番を用いて文字列の対応関係を表す。
具体的には、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じである場合には、対応関係を「(n:m)」として表す。
また、例文パターンT1で n 番目に使用される文字列 an が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n:m,m+1)」として表す。
逆に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、対訳例文パターンT2で m 番目に使用される文字列 bm が表す意味とが同じ意味を表す場合には、「(n,n+1:m)」として表す。
同様に、例文パターンT1で n 番目及び n+1 番目に使用される2つの文字列 an 及び an+1が表す意味と、例文パターンT2で m 番目及び m+1 番目に使用される2つの文字列が表す意味とが同じ意味を表す場合には、「(n,n+1:m,m+1)」として表す。
本実施例では、例文パターンT1で使用される1つの文字列と例文パターンT2で使用される1つの文字列とが同じ意味を表す場合、1つの文字列と2つの文字列とが同じ意味を表す場合、2つの文字列と1つの文字列とが同じ意味を表す場合、2つの文字列と2つの文字列とが同じ意味を表す場合の対応関係を表す表記方法について説明したが、これに限定される訳ではない。
例えば、j個(j>=1)の文字列とk個(k>=1)の文字列とが同じ意味を表す場合には、一般的に、「(n,n+1,…,n+j:m,m+1,…,m+k)」として表す構成を採用できる。
更に、例文パターンT1で n 番目に使用される文字列 an が表す意味と同じ意味を表す文字列が例文パターンT2で使用されない場合には、「(n:0)」として表す。また逆に、例文パターンT2で m 番目に使用される文字列 bm が表す意味と同じ意味を表す文字列が例文パターンT1で使用されない場合には、「(0:m)」として表す。
図20に示す具体な対応関係情報
F2(T1,T2) = { (1:1),(2:3),(3:4,5),(5:6),(4:0),(0:2) }
について説明する。対応関係情報 F2(T1,T2) は、例文パターンT1で1番目に使用される文字列 a1 の表す意味が例文パターンT2で1番目に使用される文字列 b1 の意味と同じであり、これらは対応する。同様に、例文パターンT1で2番目に使用される文字列 a2 の表す意味が例文パターンT2で3番目に使用される文字列 b3 の意味と同じであり、例文パターンT1で3番目に使用される文字列 a3 の表す意味が例文パターンT2で4番目及び5番目に使用される文字列 b4 及び b5 の意味と同じであり、例文パターンT1で5番目に使用される文字列 a5 の表す意味が例文パターンT2で6番目に使用される文字列 b6 の意味と同じであり、それぞれ対応する。さらに例文パターンT1で4番目に使用されるa4 と同じ意味を表す文字列が例文パターンT2で使用されず、かつ例文パターンT2で2番目に使用される文字列 b2 と同じ意味を表す文字列が例文パターンT1で使用されないという対応関係を表す。対応関係さえ表現できれば、どのような表現でもよく、本発明に係る翻訳装置等は、以上述べた表現に限定されない。
図17に示すように、例文マッチング翻訳部47は、例文部分マッチング翻訳部72が、例文対訳辞書62を参照して入力部71から入力される句を含む第1言語例文(対訳例文候補)を検索して保持部621に保持し、判断部73で入力句と例文が完全に一致するどうかを判断する前段部分と、一致しない場合に例文パターン対訳辞書63を参照して翻訳を行う後段部分とを含んで構成される。判断部73で、完全に一致する場合は、その対訳例文候補の第2言語例文を入力句Pの訳文として出力部78より出力される。後段部分は、対訳例文候補を保持する第1保持部621、例文パターン対訳辞書63、対訳例文パターンペア候補を保持する第2保持部631、例文パターン検索部75、例文パターンマッチング部76訳文抽出部77および出力部78を含んで構成される。
判断部73で、一致しない場合に、形態素解析部74で入力句を形態素解析した入力句Pに対して、保持部621で保持された対訳例文候補を用いて、例文パターン検索部75が例文パターン対訳辞書63を検索し、入力句Pを含む対訳例文パターンペア候補を取得し、保持部631に格納する。例文パターンマッチング部76が、対訳例文候補および対訳例文パターンペア候補を用いてマッチングを行い、訳文抽出部77がその結果を使って訳文を抽出し、訳文を出力部78により出力する。なお、図17では、便宜上、形態素解析部74は内部に記載されているが、入力部71に入力される前などに形態素解析されるように外部にあってもよい。
次に、上述のように構成された例文マッチング翻訳部47の翻訳処理動作について図21および図22のフローチャートを参照して説明する。
例文部分マッチング部72は、前述のように第1言語の例文とその訳文である第2言語の例文のペア(組)からなる対訳例文が格納された例文対訳辞書62に対して、入力部71から入力された句Pを含む対訳例文候補Eset(P)を検索し、保持部621に保持する(S1)。判断部73は対訳例文候補Eset(P)が空(NULL)かどうかを判断し、空であれば、その結果を出力部78から出力する(S2、S4)。空でなければ、対訳例文候補Eset(P)に入力句Pと等しい第1言語の例文Aがあるか判断し、あれば、第1言語の例文Aの対訳としての第2言語例文を入力句Pの翻訳結果として出力部78より出力する(S3、S5)。ステップS3でなければ、次の後段部分での処理に進む。
例文パターン検索部75は、保持部621に格納された対訳例文候補Eset(P)から一つの例文ペア(SC,SJ)を取り出し、第1言語の例文SCを用いて,例文パターン対訳辞書から対訳パターンペア候補Pset(P)を検索し、保持部631に保持する(S6、S7)。対訳パターンペア候補Pset(P)が空かどうかを例文パターンマッチング部76が判断し、空でなければ、対訳パターンペア候補Pset(P)から一つの対訳パターンペア(AC,AJ)を取り出す(S8、S11)。例文パターンマッチング部76は、例文と例文パターンのマッチングとして、第1言語の例文SCと対訳パターンペアの第1言語のパターンAC間のマッチングと、第2言語の例文SJと対訳パターンペアの第2言語のパターンAJ間のマッチングをそれぞれ求める(S12)。次に、第1言語の例文SCに含まれている句Pは対訳パターンペアの第1言語のパターンACの項目ACi,ACi+1,…ACi+hにマッチングしているか(h>=0)かどうかを判断する(S13)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、第1言語のパターンACの項目ACi,ACi+1,…ACi+hは第2言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチングしている(k>=0)かを判断する(S14)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、第2言語のパターンAJの項目AJj,AJj+1,…AJj+kは第2言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチングしている(s>=0)か判断する(S15)。マッチングせず対応していなければ、ステップS9に進み、マッチングして対応していれば、訳文抽出部77に処理を渡す。訳文抽出部77では、第1言語の例文SCに含まれている入力句Pについて、対訳パターンペアの第1言語のパターンACの項目ACi,ACi+1,…ACi+hへのマッチング情報、第1言語のパターンACの項目ACi,ACi+1,…ACi+hについて第2言語のパターンAJの項目AJj,AJj+1,…AJj+kへのマッチング情報、および第2言語のパターンAJの項目AJj,AJj+1,…AJj+kについて第2言語の例文SJ間のSJt,SJt+1,…SJt+sへのマッチング情報を用いて、入力句Pの訳文を求める(S16)。訳文抽出部77により、SJtからSJt+sまでの文字列が入力句Pの訳文として出力部78から出力される(S16)。
例文パターンマッチング部76は、スッテプS8で対訳パターンペア候補Pset(P)が空と判断した場合には、対訳例文候補Eset(P)が空かどうか判断する(S9)。空でなければ、別の対訳例文ペアについてステップS6に戻って上述の処理を繰り返す。対訳例文候補Eset(P)が空の場合には、空の結果を訳文抽出部77を介して出力部78より出力する(S10)。
次に具体例で上述の句翻訳処理について説明する。まず、入力句として、中国語から日本語へ翻訳する例について図23を参照して説明する。入力句は、「FXの田中部長」を意味する中国語「FX的田中部▲長▼」である。スッテプ(1)で、例文対訳辞書62から入力句を含む例文ペアを検索し抽出する。同図のE1およびE2が抽出結果である。ここでは、説明の簡単のためE1を使って翻訳できた場合について述べる。スッテプ(2)で、第1言語の例文SC1を用いて、例文パターン対訳辞書63から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SC1,AC) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第1言語の例文SC1と、対訳パターンペアの第1言語例文パターンACとがマッチングが取られる。第1言語の例文SC1に含まれた句Pが第1言語例文パターンACの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第2言語の例文SJ1と対訳パターンペアの第2言語例文パターンAJ間のマッチングを求める。ステップ(3)において、第1言語の例文SC1の句Pが第1言語例文パターンACのNP2にマッチングしている。第1言語例文パターンACのNP2が第2言語例文パターンAJのNP2にマッチングしている。第2言語例文パターンAJのNP2が第2言語の例文SJ1の“FXの田中部長 ”にマッチングしている。これらより、入力句Pの訳文は第2言語の例文SJ1にある“FXの田中部長”である。
次に、入力句として、日本語から中国語へ翻訳する例について図24を参照して説明する。入力句は「子供が食べ残したリンゴ」である。スッテプ(1)で、例文対訳辞書62から入力句を含む例文ペアを検索し抽出する。同図のE1およびE2が抽出結果である。ここでも、E1を使って翻訳できた場合について述べる。スッテプ(2)で、第1言語の例文SJ1を用いて、例文パターン対訳辞書63から対応しているパターンペアを検索する。検索の結果は距離値Dは、D(SJ1,AJ) = 0.0である。対訳パターンペア(AC,AJ)が検索される。次に例文ペアの第1言語の例文SJ1と、対訳パターンペアの第1言語例文パターンAJとがマッチングが取られる。第1言語の例文SJ1に含まれた句Pが第1言語例文パターンAJの可変項目NP2にマッチングしている。従って、続いて、例文ペアの第2言語の例文SC1と対訳パターンペアの第2言語例文パターンAC間のマッチングを求める。ステップ(3)において、第1言語の例文SJ1の句Pが第1言語例文パターンAJのNP2にマッチングしている。第1言語例文パターンAJのNP2が第2言語例文パターンACのNP2にマッチングしている。第2言語例文パターンACのNP2が第2言語の例文SC1の中国語“孩子吃剩下的苹果”にマッチングしている。これらより、入力句Pの訳文は第2言語の例文SC1にある“孩子吃剩下的苹果”である。
このように、例文マッチング翻訳部47は、句翻訳装置40が利用される例文パターンベース翻訳装置16には,例文対訳辞書と例文パターン対訳辞書を備えているので、それらの言語資源を最大限に活用して,特別な辞書を設けることなく、句の翻訳を比較的容易に実現することができる。
例文マッチング翻訳部47の説明の最後に、例文と例文パターンのマッチグ手段の一例について触れる。このようなマッチグ手段について図25乃至図28を参照して説明する。図25の翻訳システム10aの構成に含む翻訳装置1001は、例文と例文パターンのマッチグ処理を行っている。図26は翻訳装置1001の主要部の構成を示す詳細ブロック図である。
まず、解析部1200は、入力装置3000から入力された第1言語の文書情報を形態素解析し、入力文を構成する単語を切り分け,単語の品詞を付与するなどの処理をする。
検索部1300は、解析部1200の解析結果および記憶部1100の記憶内容を参照して、入力文と類似な第1言語の例文パターン候補(1または複数ある)を抽出する。
変換部1401は、第1言語の入力文と抽出された第1言語の例文パターンの候補を用いて,入力文の節を求める。第1言語入力文を第1言語例文パターンとの間の相違を求めるために,第1言語例文パターンに基づいて第1言語入力文を変換する。第1の実施例の変換部1400との相違点は、後述する。
算出部1500は変換部1401で変換された第1言語入力文の単語/節の列と第1言語例文パターンの候補間の相違として距離を求める。最小な相違を決める第1言語入力文の単語/節の列と、抽出された第1言語の例文パターン候補間の変換写像を求める。ここで,最小な相違値としての距離値を与える例文パターン候補が複数ある場合があるし、最小な相違値を決める例文パターン候補と入力文の単語/節の列間の変換写像が複数ある場合もある。
抽出部1600は、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係(写像)を求める。抽出部1600は、内部構成として、実抽出部1610(図示せず)、関係特定部1620(図示せず)および関係選択部1630を含む。実抽出部1610は、検索部1300が検索した例文パターンから1つのパターンを抽出し、算出部1500が計算した第2の指標である入力文と例文パターンとの距離が、最も近い例文パターンを抽出する。関係特定部1620は、入力文S’を構成する変換後の文字列と入力文Sを類別する例文パターンAを構成する文字列との対応関係を特定する。最終段の関係選択部1630は第1言語入力文の単語/節の列と抽出された第1言語の例文パターン候補間の対応関係が複数ある場合は,適切な対応関係を選択する。即ち、関係特定部1620から、対応関係集合を取得すると共に、変換された入力文、例文パターン、対訳例文パターン、及び対応関係情報を取得する。取得した対応関係情報から、割り当てたスコアが最大の値をとる対応関係情報を選択する。
判定修正部1800は、判定部1810、修正部1820および最適関係選択部1830を含んで構成される。判定修正部1800は、関係選択部1630の選択結果および記憶部1100の記憶内容を参照して、選択結果を判定し、修正が必要な場合は、修正して算出部1500に戻すことにより、再度対応関係を得るものである。
判定部1810は、関係選択部1630の選択結果について、第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を再計算するかどうかを判定する。
修正部1820は、第1言語入力文の単語/節の列を修正して,修正後の第1言語入力文の単語/節の列と第1言語例文パターン間の相違をもう一度計算し,新しい距離値を定めるために第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係を求める。
最適関係選択部1830は、すべての例文パターンの候補と第1言語入力文の単語/節の列間の対応関係集合から,最適な対訳関係選択する。この選択により求められた例文パターン対訳ベアの番号と第1言語入力文の単語/節の列と抽出された第1言語の例文パターン間の対応関係を出力する。
記憶部1100は、第1の実施例と同様なデータ構成を有し、記憶内容としては、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している.これを例文パターン対訳ペアと呼ぶ。
翻訳部1700は、最適関係選択部1830で選択された第1言語入力文の単語/節の列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語/節の列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。
次に図27および図28のフローチャートを参照して、翻訳装置1001の要部の動作を説明する。
形態素解析済みの入力文Sが検索部1300に入力されと、検索部1300は、入力文sに対応する例文パターン候補Aset、即ち、Dmin, F1set(S),F1set(S’), F1set(S’,A)などを初期化する(S301、S302)。更に例文パターン候補Asetから例文パターン候補Aが取り出され、変換部1401により、パターンAに対応する入力文SをS’とする(S303、S304)。この入力文S’とAの間の距離D1を算出部1500により求める。求めた距離D1がDmin最小値より小さいかどうか判断する(S306)。小さい場合には、F1set(S’,A)およびF1set(S’)をヌル値(NULL)即ち空値とし、D1をDminとした後、抽出部1600で文S’と例文パターンAの間の対応関係(写像)を求める(S307、S309)。
更に、求めた距離値Dimを定める写像をF1set(S’,A)に格納する。選択部1630で、F1set(S’,A)にある不適切な写像を削除する(S310)。得られたF1set(S’,A)をF1set(S’)に入れる。
即ち、F1set(S’)= F1set(S’)+F1set(S’,A)
その後、または、ステップS306で大きいと判断した場合には、Asetの候補をすべて処理したかどうかを判断し、未処理があれば、候補Aを取り出し上記処理を行い、すべて処理済みであれば、次のステップに進む。
次に、判定部1810で、F1set(S’)の中から一つの写像F1i(S’,A)を取り出し、F1i(S’,A)に対して,再計算する必要があるかどうかを判定する(S311、S312)。再計算する必要がある場合には、修正部1820で、F1i(S’,A)と候補Aを参考して、文S’を修正し、これを修正後の文S’’とする(S313)。
即ち、F1set(S’,A)=F1set(S’,A)-F1i(S’,A)
修正後の文S’’と候補Aの間の相違を算出部1500で求める(S314)。求めた相違としての距離値をD2とする。距離値D2が最小値Dminより小さいかどうかを判断する(S315)。小さい場合には、文S’’と候補Aの間の対応関係(写像)F1set(S’’,A)を求める(S316)。その後、Dmin=D2であれば、F1set(S)=F1set(S)+F1set(S’’,A)とし、Dmin>D2であれば、F1set(S)=F1set(S’,A)およびDmin=D2とする(S317)。
ステップS317の処理の終了後、ステップS315で、大きいと判断した場合、およびステップS312で再計算の必要がないと判断した場合には、F1set(S’)の写像をすべて処理したかどうかを判断する(S318)。未処理があれば、ステップS312に戻り処理を行う。処理済であれば、F1set(S)がNULLであれば、F1set(S)= F1set(S’,A)とした後、最適関係選択部1830で、F1set(S)から最適な写像(対応関係)を求め、求めた写像をF1res(S,A)に入れる(S319、S320)。
以上述べたように、句翻訳装置40(図4参照)において、入力部42に入力された句は、その翻訳が得られるまで、順次翻訳部44〜56に段階的に入力されてそれらの翻訳処理を受けることとなる。各翻訳部の順位は、基本的により簡単な翻訳からより複雑な翻訳へ移行するよう配列されているので、翻訳の高速化および高精度化が図られる。
図29は、句翻訳装置の一ハードウエア構成を示すブロック図である。句翻訳装置は、好ましくは、入力装置1700、表示装置1702、主記憶装置1704、記憶装置1706、中央処理装置(CPU)1708、これらを接続するバス1710を含んで構成される。
入力装置1700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置1702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置1704は、ROMまたはRAMを含み、図4に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置1706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書60〜66等のデータを格納する。中央処理装置1708は、主記憶装置1704に記憶されたプログラムに従い各部を制御する。
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明に係る句翻訳装置は、機械翻訳システムにおける例文パターン翻訳装置において利用される。
例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。 図1における例文パターンベース翻訳装置16の構成を示すブロック図である。 例文パターンベース翻訳装置16における具体的な翻訳処理のプロセスを示した概念図である。 本発明の実施例の句翻訳装置の構成を示すブロック図である。 辞書ベース翻訳部44における翻訳処理の手順を示したフローチャートである。 単語/句対訳辞書60のデータ構造の一例を示した図である。 単語アライメント例文ベース翻訳部50における翻訳処理の手順を示すフローチャートである。 入力された句Pに対して例文e1とその対応訳文t1のペアが抽出された例を示す図である。 入力された句Pに対して例文e2とその対応訳文t2のペアが抽出された例を示す図である。 入力された句Pに対して例文e3とその対応訳文t3のペアが抽出された例を示す図である。 例文集合ベース翻訳部52の内部構成を簡略的に示すブロック図である。 例文集合ベース翻訳部52における翻訳処理の手順を示すフローチャートである。 中国語の句Pが例文集合ベース翻訳部に入力された場合の、例文対訳ペアの選択例を示したものである。 選択された例文対訳ペアの共通部分における支持度を算出する具体例を示したものである。 支持度の集計結果を表組みにして表した図である。 例文集合ベース翻訳部52において実施される具体的な翻訳処理を示した例である。 句翻訳装置の一ハードウエア構成を示すブロック図である。 例文対訳辞書のデータ構造を示す説明図である。 例文パターンのデータ構造を示す説明図である。 例文パターン対訳辞書のデータ構造を示す説明図である。 例文マッチング翻訳部の処理手順前段を示すフローチャートである。 例文マッチング翻訳部の処理手順後段を示すフローチャートである。 中国語から日本語への翻訳例を示す説明図である。 日本語から中国語への翻訳例を示す説明図である。 例文と例文パターンのマッチングに利用可能な翻訳装置1001を含む翻訳システムの全体構成を示すブロック図である。 翻訳装置1001の主要部の詳細構成を示すブロック図である。 翻訳装置の主要部処理手順前段を示すフローチャートである。 翻訳装置の主要部処理手順後段を示すフローチャートである。 句翻訳装置の一ハードウエア構成を示すブロック図である。
符号の説明
10:機械翻訳システム 12:原言語テキスト文入力部
14:翻訳メモリ装置 16:例文パターンベース翻訳装置
18:単語直訳翻訳装置 20:目的言語テキスト出力部
22:翻訳不適切文自動回収部 24:学習装置
26c:例文パターン対訳辞書 26a:単語対訳辞書
26b:例文対訳辞書 26:形態素解析部
26:翻訳辞書 28:写像変換部
30:例文パターン対訳辞書 32:句翻訳部
34:訳文生成部 40:句翻訳装置
42:入力部 44:辞書ベース翻訳部
47:例文マッチング翻訳部 48,74:形態素解析部
50:単語アライメント例文ベース翻訳部 52:例文集合ベース翻訳部
54:例文ベース翻訳部 56:ルールベース翻訳部
58:出力部 60:単語/句対訳辞書
62:例文対訳辞書 621:第1保持部
63:例文パターン対訳辞書 631:第2保持部
64:単語アライメント対訳辞書
66:例文対訳辞書 72:例文部分マッチング翻訳部
73:判断部 75:例文パターン検索部
76:例文パターンマッチング部 77:訳文抽出部
1102:例文対訳ペア選択部
1104:句ペア抽出部 1106:支持度算出部
1108:訳文選択部 1700:入力装置
1702:表示装置 1704:主記憶装置
1706:記憶装置 1708:中央処理装置(CPU)
1710:バス

Claims (5)

  1. 第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書を検索して得られる入力句を含む例文対訳組を保持する保持手段と、
    第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書と、
    前記保持手段に保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する検索手段と、
    前記保持手段で保持された例文対訳組の第1言語の例文と前記検索手段で検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行うマッチング手段と、
    前記マッチグ手段のマッチング結果に基づいて入力句の訳文を抽出する抽出手段と、
    を備えた例文マッチング翻訳装置。
  2. 前記抽出手段が、第1言語の例文内の入力句が第1言語の例文パターンでの特定の可変部分に対応し、第1言語の例文パターンでの特定の可変部分が第2言語の例文パターンでの特定の可変部分に対応し、第2言語の例文パターンでの特定の可変部分が第1言語の例文に対応することにより、入力句の訳文として、当該第2言語の例文パターンでの特定の可変部分に対応する第1言語の例文の部分を抽出することを特徴とする請求項1記載の例文マッチング翻訳装置。
  3. 請求項1または2に記載の例文マッチング翻訳装置を含み、複数の翻訳手法に基づく翻訳部を多段に構成した句翻訳装置。
  4. 前記句翻訳装置が、辞書ベース翻訳方式による辞書ベース翻訳部と、請求項1または2に記載の例文マッチング翻訳装置からなる例文マッチング翻訳部と、単語アライメント例文ベース翻訳方式による単語アライメント例文ベース翻訳部と、例文集合ベース翻訳方式による例文集合ベース翻訳部と、例文パターンベース翻訳方式による例文パターンベース翻訳部と、ルールベース翻訳方式によるルールベース翻訳部とを備え、入力された句が、順次これらの翻訳部に段階的に入力されるよう構成された請求項3に記載の句翻訳装置。
  5. 第1言語の例文とその対訳である第2言語の対訳例文を例文対訳組として記憶する第1の辞書、および第1言語の例文パターンとその対訳である第2言語の対訳例文パターンを例文パターン対訳組として記憶する第2の辞書を利用した例文マッチング翻訳プログラムであって、
    前記第1の辞書を検索して得られる入力句を含む例文対訳組を保持する第1のステップと、
    第1のステップで保持された入力句を含む例文対訳組に対応する例文パターン対訳組を第2の辞書から検索する第2のステップと、
    第1のステップで保持された例文対訳組の第1言語の例文と第2のステップで検索された例文パターン対訳組の第1言語の例文パターン間、および当該例文対訳組での第2言語の例文と当該例文パターン対訳組での第2言語の例文パターン間のマッチングを行う第3のステップと、
    第3のステップのマッチング結果に基づいて入力句の訳文を抽出する第4のステップと
    を備えた例文マッチング翻訳プログラム。
JP2008326704A 2008-12-23 2008-12-23 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 Expired - Fee Related JP5298834B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008326704A JP5298834B2 (ja) 2008-12-23 2008-12-23 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008326704A JP5298834B2 (ja) 2008-12-23 2008-12-23 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Publications (2)

Publication Number Publication Date
JP2010152420A true JP2010152420A (ja) 2010-07-08
JP5298834B2 JP5298834B2 (ja) 2013-09-25

Family

ID=42571479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008326704A Expired - Fee Related JP5298834B2 (ja) 2008-12-23 2008-12-23 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Country Status (1)

Country Link
JP (1) JP5298834B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591898A (zh) * 2011-01-05 2012-07-18 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
JP2018163629A (ja) * 2017-03-24 2018-10-18 世丞 莊 翻訳支援システム
KR20210045960A (ko) * 2020-07-15 2021-04-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 출력 방법, 장치, 기기 및 저장 매체

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001013863A (ja) * 1999-06-28 2001-01-19 San Furea:Kk 最適テンプレートパターン探索方法,探索装置および記録媒体
JP2006506692A (ja) * 2002-02-12 2006-02-23 株式会社サン・フレア テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001013863A (ja) * 1999-06-28 2001-01-19 San Furea:Kk 最適テンプレートパターン探索方法,探索装置および記録媒体
JP2006506692A (ja) * 2002-02-12 2006-02-23 株式会社サン・フレア テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591898A (zh) * 2011-01-05 2012-07-18 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
US8909511B2 (en) 2011-01-05 2014-12-09 Fuji Xerox Co., Ltd. Bilingual information retrieval apparatus, translation apparatus, and computer readable medium using evaluation information for translation
CN102591898B (zh) * 2011-01-05 2017-04-26 富士施乐株式会社 双语信息检索设备、翻译设备及双语信息检索方法
JP2018163629A (ja) * 2017-03-24 2018-10-18 世丞 莊 翻訳支援システム
KR20210045960A (ko) * 2020-07-15 2021-04-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 출력 방법, 장치, 기기 및 저장 매체
JP2022017173A (ja) * 2020-07-15 2022-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 情報を出力するための方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
KR102531507B1 (ko) * 2020-07-15 2023-05-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 출력 방법, 장치, 기기 및 저장 매체
US11687735B2 (en) 2020-07-15 2023-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and storage medium for outputting information

Also Published As

Publication number Publication date
JP5298834B2 (ja) 2013-09-25

Similar Documents

Publication Publication Date Title
JP3906356B2 (ja) 構文解析方法及び装置
US5895446A (en) Pattern-based translation method and system
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
WO2005073874A1 (ja) 他言語のテキスト生成方法及びテキスト生成装置
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2010519655A (ja) 名前照合システムの名前インデックス付け
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
Khairova et al. The aligned Kazakh-Russian parallel corpus focused on the criminal theme
Aswani et al. A hybrid approach to align sentences and words in English-Hindi parallel corpora
Wax Automated grammar engineering for verbal morphology
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Bakari et al. Logic-based approach for improving Arabic question answering
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
CN116306594A (zh) 一种医学ocr识别纠错方法
Stehouwer Statistical language models for alternative sequence selection
Lohar Machine translation of user-generated content
Chen et al. Semi-supervised dependency parsing
Steingrímsson Effectively compiling parallel corpora for machine translation in resource-scarce conditions
Naeem et al. Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning
Gupta et al. Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Ref document number: 5298834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees