JP2010027020A - 単語アライメント装置及び単語アライメントプログラム - Google Patents

単語アライメント装置及び単語アライメントプログラム Download PDF

Info

Publication number
JP2010027020A
JP2010027020A JP2008238736A JP2008238736A JP2010027020A JP 2010027020 A JP2010027020 A JP 2010027020A JP 2008238736 A JP2008238736 A JP 2008238736A JP 2008238736 A JP2008238736 A JP 2008238736A JP 2010027020 A JP2010027020 A JP 2010027020A
Authority
JP
Japan
Prior art keywords
language
word
words
alignment
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008238736A
Other languages
English (en)
Other versions
JP5439776B2 (ja
Inventor
Shaoming Liu
紹明 劉
Kumi Fujiwara
久美 藤原
Honglin Wu
ホンリン ウ
Gouryuu Sou
ゴウリュウ ソウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2010027020A publication Critical patent/JP2010027020A/ja
Application granted granted Critical
Publication of JP5439776B2 publication Critical patent/JP5439776B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 リコール率および精度を向上させた単語アライメント装置を提供する。
【解決手段】 単語アライメント装置200は、単語とその対訳、単語とその解説訳語を記憶する単語対訳辞書208と、例文とその対訳である例文対訳ペアを入力する入力部202と、入力された例文対訳ペアを形態素解析する形態素解析部204と、形態素解析により抽出された例文対訳ペアの単語を単語対訳辞書に基づきアライメントする辞書ベースアライメント部210と、辞書ベースアライメント部210でアライメントされていない単語についてのアライメントを行う単語表記ベースアライメント部214、多対多アライメント部218、2部グラフベースアライメント部220、および単語間のアライメント結果を出力する出力部222とを含んで構成される。
【選択図】 図7

Description

本発明は、単語アライメント装置及び単語アライメントプログラムに関し、特に単語アライメント例文対訳辞書の学習装置と例文ベース機械翻訳装置における訳語抽出に関する。
機械翻訳は、計算機を利用してある言語から別の言語に変換することであり、こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、1)解析ベース機械翻訳方式、2)統計ベース機械翻訳方式、3)例文ベース機械翻訳方式に大別することができる。
解析ベース機械翻訳方式は、第1言語の解析(形態素解析、構文・意味解析など)を行い、解析の結果を第2言語に変換し、さらに第2言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。
統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。
例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。1980年代にこの翻訳方式が提案され、その後、盛んに研究開発が行われている。例文ベース機械翻訳技術には、参照される対訳例文パターンの定義及び類似例文の参照方法により、翻訳メモリ翻訳技術、単語アライメント付きの対訳例文を用いた翻訳技術、文のパターンを用いた翻訳技術などがある。
図1は、例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。機械翻訳システム10は、より簡単な翻訳からより複雑な翻訳へ移行するように構成され、翻訳の高速化を図っている。また、機械翻訳システム10は、翻訳することができない部分を自動的に回収し、正確な対訳を付与する学習機能を備えている。
機械翻訳システム10は、原言語テキスト文入力部12から入力された文単位の文を翻訳する翻訳メモリ翻訳装置14、翻訳メモリ翻訳装置14において照合できなかった入力文、つまり不適切とされた入力文を入力しこれの形態素解析された入力文の単語列を翻訳する例文パターンベース翻訳装置16と、例文パターンベース翻訳装置16で翻訳できなかった入力文を不適切な文としてその形態素解析の結果単語列を入力し、この単語列を翻訳する単語直訳翻訳装置18と、上記の翻訳装置によって適切に翻訳された結果に基づき目的言語のテキスト文を作成しこれを出力する目的言語テキスト出力部20とを有している。
さらに機械翻訳システム10は、例文パターンベース翻訳装置16によって翻訳することができなかった文を回収し、回収された文に適切な翻訳を作成する翻訳不適切文自動回収部22と、翻訳不適切文自動回収部22により作成された翻訳のチェックや修正を行う学習装置24と、翻訳辞書26とを備えている。翻訳辞書26は、第1の言語の単語とその対訳である第2の言語の単語を格納する単語対訳辞書26a、第1の言語の例文とその対訳である第2の言語の例文を格納する例文対訳辞書26b、第1の言語の例文パターンとその対訳である第2の言語の例文パターンを格納する例文パターン対訳辞書26cを含んでいる。翻訳辞書26は、翻訳メモリ翻訳装置14、例文パターンベース翻訳装置16、単語直訳翻訳装置18において利用される。なお、図1の機械翻訳システムは、一つの構成例であって、さらに他の翻訳エンジンを含むものもある。
図2は、図1に示す例文パターンベース翻訳装置16を説明する図であり、ここでは、単語アライメント例文対訳辞書を用いた例文ベース翻訳装置を示している。この例文ベース翻訳装置は、単語アライメント例文対訳辞書を用いて翻訳を行うものであり、入力文とよく似ている例文を高精度に翻訳することを特徴とする。同図に示すように、中国語の入力文が形態素解析され、単語アライメント例文対訳辞書から類似な例文を検索する。そして、入力文と例文の違い、対応関係を算出し、単語対訳辞書を用いて日本語の訳文を生成する。
こうした翻訳に関する文献が幾つか報告されている。特許文献1は、第1言語の表現に対応する第2言語の訳語を第2言語の文章中から発音の類似度に基づき抽出する技術を開示している。特許文献2は、対訳テキストコーパスから訳語対を抽出する訳語対抽出装置に関し、第1言語、第2言語の単語の音韻を推定し、両者の音韻が一致する単語を単語対として出力するものである。非特許文献1は、第1言語の例文とその例文の第2言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献2は、第1言語の例文とその例文の第2言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。
特許文献3は、リコール率が高く、かつ精度良く単語のアライメントを行うことができる単語アライメント例文対訳辞書学習装置および訳語抽出装置を開示している。
特開平10−143514号公報 特開2005−258637号公報 特開2007−199793号公報 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130. Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.pp 490−497. Madrid Spain,1997.
上記した例文ベース翻訳装置には、第1言語の例文とその例文の第2言語の訳文間に、単語とその訳語間の対応関係(アライメント)を自動的に抽出し、これを付与する機能が要求される。
図3は、例文と訳文に含まれる単語間のアライメントを説明する図であり、同図(a)は、中国語とその訳文の日本語の入力例文対を示し、同図(b)は、それらの入力例文対を形態素解析して得られた中国語の単語と日本語の単語間の理想的なアライメントを示している。すべての例文と訳文の関係において、同図(b)に示すような正確な単語間のアライメントを人間の手作業により設定することは、非常に時間と手間を要し、現実的ではない。その一方で、単語間のアライメントを自動生成するためには、高いリコール(Recall)率と高精度を要求される。リコール率とは、例文と訳文から抽出されるべき単語のペア数と実際に抽出された単語のペア数との比であり、精度は、実際に抽出された単語のペア数と正解の単語のペア数との比であり、次式に示されている。
単語アライメントについて、特許文献3は、2部グラフ最適マッチング法を活用している。図4は、2部グラフ最適マッチングによる単語アライメント装置の全体構成である。単語アライメント100は、例文とその訳文の対訳例文対を入力する入力部102、アライメントの結果を出力する出力部104、例文及び訳文を形態素解析しそれらに含まれる単語と品詞をそれぞれ抽出し番号を付与する前処理部106、例文とその訳文の対を格納する例文対訳辞書108、例文対訳辞書108から入力された例文及び訳文対に対してそれぞれ例文と訳文の単語と品詞を抽出し、高速に検索できるコーパスインデックスを構築するコーパス前処理部110、単語とその対訳を格納する単語対訳辞書112、単語対訳辞書を用いて単語アライメントを行う類似度計算部114、コーパス前処理部110で構築された単語のインデックス表を格納する単語インデックス表116、単語インデックス表のコーパス統計情報を用いて、単語と訳語間の相関度を求める相関度計算部118、2部グラフマッチング方法により確認度の低いアライメント候補や多対応のアライメント問題を解消し単語間のアライメントの最適化を図る2部グラフベースアライメント部120を有している。
類似度計算部114および相関度計算部118は、図5(a)に示すように、上段の第1言語の単語と、下段の第2言語の単語間の、辞書類似度、単語間の意味上の類似度、単語間の形状類似度、品詞類似度、単語と訳語間の相関度などから信用性を計算し、この計算値で各枝の重み付けをする。2部グラフベースアライメント部120は、この重みを2部グラフマッチングすることで、図5(b)に示すように1対1に最適化された単語アライメントを求めている。
しかしながら、このような単語アライメント方法には、次のような3つの課題がある。
1)図4に示す単語対訳辞書112に正確な訳語が存在しないとき、単語の解説訳文を用いて訳語とする場合がある。図6(a)は、中国語の単語についての正確な日本語訳がないため、日本語の解説訳文を対訳としている。図6(b)は、その反対に、日本語の単語についての正確な中国語訳がないため、中国語の解説訳文を対訳としている。このような単語対訳辞書112を用いると、図4に示す類似度計算部114における辞書類似度SimDを用いたアライメント方法のカバー率に悪い影響を与えてしまう。
2)機械翻訳システムにおける単語の切り分け装置、特に中国語の単語切り分け装置(形態素解析など)は、翻訳の精度を高めるために、単語の単位(文字列の長さ)を大きく取る傾向がある。単語の単位を大きくすると、翻訳の精度は高まる反面、単語対訳辞書の単語と単語切り分け装置で得られた単語間に不整合性が生じてしまう。例えば、単語切り分け装置で得られた単語が“W1W2”の文字列を含むとき、単語対訳辞書には、“W1W2”の文字列を含む単語が存在しないが、その代わりに、“W1”と、“W2”という個々の二つの単語がそれぞれ存在する。
3)2部グラフによる最大最小重み付けをしたマッチングアライメント方法は、1対1の単語アライメントには非常に有効であるが、多対多の単語アライメントには必ずしも有効な手法ではない。
本発明は、こうした従来の課題を解決するものであり、従来の単語アライメント技術を改良し、リコール率および精度を向上させた単語アライメント装置および単語アライメントプログラムを提供することを目的とする。
さらに本発明は、1対多、多対1、多対多の単語アライメント機能を備えた単語アライメント装置および単語アライメントプログラムを提供することを目的とする。
さらに本発明は、単語アライメント技術を利用した単語アライメント例文対訳辞書や単語対訳辞書を生成し、これらの辞書を利用した翻訳装置、翻訳支援システムを提供することを目的とする。
本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の単語とその対訳である第2言語の単語、第1言語の単語についての第2言語の訳語、および第2言語の単語についての第1言語の訳語の対応関係を記憶する単語対訳辞書と、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が前記単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメント手段と、前記第1のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメント手段とを有する。
好ましくは単語アライメント装置はさらに、第2のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメント手段を有する。
好ましくは単語アライメント装置はさらに、第3のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と前記抽出された第2言語の単語の表記が一致するとき、当該第1言語の単語を前記抽出された第2言語の単語にアライメントする第4のアライメント手段を有する。例えば、表記の一致は、第1言語の単語と第2言語の単語のそれぞれの漢字の一致である。
好ましくは第1および第4のアライメント手段は、第1言語の1つの単語から第2言語の複数の連続した単語、あるいは第2言語の1つの単語から第1言語の複数の連続した単語へのアライメントを行う。
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の単語と第2言語間の単語について予めアライメントが付与された情報を用いて、連続している2つの単語の品詞の接続関係を示す品詞接続表を記憶する記憶手段と、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするアライメント手段とを有する。
好ましくは前記アライメント手段は、前記抽出された連続する複数の単語の一部が前記抽出された第2言語の単語にアライメントし、かつ残りの単語がアライメントされていないとき、前記連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された連続する第1言語の単語を第2言語の単語にアライメントする。
好ましくは前記品詞接続表は、単語アライメントが付与されたコーパスを用い、コーパスに含まれる全ての連続している2つの単語の数とコーパスの中でアライメントされている連続している2つの単語の数の割合から一定の出現頻度を有する品詞の接続を規定する。
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書と、前記抽出された第1言語の単語が前記アライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントする。
さらに本発明に係る単語アライメント装置は、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行うものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、第1言語の例文とその対訳である第2言語の訳文を記憶した例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択し、選択された例文対訳組相互間の共通部分の組を抽出し、前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出し、算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするアライメント手段とを有する。
好ましくは前記支持度の算出は、各組の共通部分が、前記連続している複数の単語に対して所定の一致度合にある場合に、第2言語の対応訳文の共通部分をアライメント候補として選出する手段と、前記選出されたアライメント候補の出現回数をその支持度を表すものとして計数する手段とを含む。
好ましくは最も出現回数が多いアライメント候補の該出現回数が第1の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第2の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第3の閾値を超える場合の何れかの場合に、該最も出現回数が多いアライメント候補を、前記連続している複数の単語のアライメントとする。
本発明に係る例文ベース翻訳装置は、上記した単語アライメント装置と、第1言語の例文とその対訳である第2言語の例文を格納する例文対訳辞書と、前記例文対訳辞書を参照し、入力された第1言語の例文の第2言語の訳語を生成する訳文生成手段とを有し、前記訳文生成手段は、前記単語アライメント装置によるアライメント結果を利用して訳文を生成する。
本発明に係る単語アライメントプログラムは、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行するものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメントステップと、第1のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメントするステップと、第2のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメントステップとを有する。
さらに本発明に係る単語アライメントプログラムは、第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行するものであって、第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が予め用意された連続している2つの単語の品詞の接続関係を示す品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするステップとを有する。
単語アライメントプログラムはさらに、前記抽出された第1言語の単語が、第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントするステップを有する、請求項16に記載の単語アライメントプログラム。
好ましくは単語アライメントプログラムはさらに、例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択するステップと、選択された例文対訳組相互間の共通部分の組を抽出するステップと、前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出するステップと、算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするステップとを有する。
本発明によれば、第1言語の単語と第2言語の単語間において1対多、多対1、または多対多のアライメントを可能にしたので、従来よりもリコール率および精度を改善することができる。また、単語対訳辞書が正確な対訳を含まず解説訳語を含むような場合であっても、カバー率を向上させることができる。さらに、アライメントされない単語について、これを分割することで、単語対訳辞書のカバー率を向上させることができる。
本発明によれば、高性能な単語アライメント方法を期待することができ、言語情報、類似情報、統計情報の活用、および2部グラフ間の最適マッチング方法により、高いリコール率と高精度な単語アライメント例文対訳辞書学習エンジンを実現可能である。
さらに本発明によれば、研究開発の効率性を高めることができる。例えば、例文対訳辞書から自動的に単語アライメント例文対訳辞書や単語対訳辞書を生成することができるので、翻訳システムに必要な対訳辞書構築の効率性を高めることができる。これにより、対訳辞書構築のコストの低減、構築時間の短縮、構築の自動化などを図ることが可能となる。
本発明を実施するための最良の形態を図に示す実施例を参照して説明する。
本実施の形態の単語アライメント装置の特徴は、次のようになる。
1)単語対訳辞書が単語の解説訳文を訳語に用いたとしても、辞書類似度SimDを用いた単語アライメントを可能にする。
2)単語切り分け装置(例えば形態素解析装置)で得られた単語が単語対訳辞書に存在しなくても、辞書類似度SimDを用いた単語アライメントを可能にする。
3)多対多の単語アライメントを可能にする。
多対多の単語アライメントの種類は、次の6種類に分類される。
S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは第1言語の例文、JSはCSの第2言語の訳文である。CS=<C1,C2,…,Cm>、JS=<J1,J2…,Jn>。ここで、ChとJkは、単語である。
1) 1-n連続型:Ch が、Jh,Jh+1,Jh+2,...のn個の連続している単語とアライメントする。
2) m-1連続型:Ch,Ch+1,Ch+2,・・・のm個の連続している単語が、Jyとアライメントする。
3) m-n連続型: Ch,Ch+1,Ch+2,・・・のm個の連続している単語が、Jh,Jh+1,Jh+2,...のn個の連続している単語とアライメントする。
4) 1-n非連続型:Ch が、Jh,Jx,Jy,...のn個の非連続している単語とアライメントする。
5) m-1非連続型:Ch,Cs,Ct,・・・のm個の非連続している単語が、Jyとアライメントする。
6) m-n非連続型: Ch,Cs,Ct,・・・のm個の非連続している単語が、Jh,Jx,Jy,...のn個の非連続している単語とアライメントする。
本実施例では、6番目のm-n非連続型のアライメントを除外する。このタイプの例は、非常に少ないためである。以下の実施例では、中国語と日本語の単語アライメントの例を説明する。
図7は、本実施例の単語アライメント装置の構成を示すブロック図である。本実施例の単語アライメント翻訳装置200は、第1言語の例文とその訳文である第2言語の例文を入力する入力部202、入力された例文を形態素解析する形態素解析部204、形態素解析された文字列または単語を前処理する前処理部206、第1言語の単語とその訳語である第2言語の単語との対応関係、第2言語の単語とその訳語である第1言語の単語との対応関係、および第1言語の単語についての第2言語の解説訳文、および第2言語の単語についての第1言語の解説訳文の対応関係を記憶する単語対訳辞書208、単語対訳辞書208を参照して第1言語の単語と第2言語の単語間のアライメントを行う辞書ベースアライメント部210、中国語の簡繁文字変換を行う中国語簡繁変換部212、中国語簡繁変換部212の変換結果を利用して単語表記のアライメントを行う単語表記ベースアライメント部214、後述する種々のアライメントに関する情報を記憶する記憶部(メモリ)216、記憶部216に記憶されたアライメント情報を利用して多対多の単語アライメントを行う多対多アライメント部218、2部グラフベースアライメントを行うBGMWMベースアライメント部220、単語間のアライメント結果を出力する出力部222とを含んで構成される。
本実施例の単語アライメント装置200は、好ましくは図1に示すような例文ベース翻訳装置16に含まれる。図1に示す翻訳メモリ翻訳装置14において適切に翻訳することができなかった例文は、例文ベース翻訳装置16に入力される。入力された例文は、図2に示すように、単語アライメント例文対訳辞書と比較され、例文と類似する例文とその訳語を対にした例文パターンが抽出される。好ましくは、このような例文対訳パターンが入力部202に入力される。
形態素解析部204は、入力された例文パターンを形態素解析により、例文および訳文を構成する単語を切り分け、単語の品詞を付与する。形態素解析の技術は、広く知られているが、例えば、日本語の形態素解析技術であればChasen、中国語形態素解析技術であれば、清華大学のSeg and POSツールや中国東北大学のCiPosSDKツールを用いることができる。図8は、中国語の形態素解析の例と、日本語の形態素解析の例を示している。
図9に前処理部の動作フローを示す。前処理部206は、形態素解析部204によって切り分けられた単語および品詞ID等(図8を参照)を受け取り(ステップS101)、この中から数値部分を抽出する(ステップS102)。次いで、数値部分と非数値部分に切り分け、数値部分を漢字で表現し(ステップS103、S104))、漢字で表現された数値部分と非数値部分とを合成する(ステップS105)。これにより、アルファベットや数字は漢字表現に変換される。
次に、辞書ベースアライメント部について説明する。S=CS<->JSは、一つの対訳例文ペアを表すものとする。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。よって、CS=<C1 C2 …Cm>、JS=<J1 J2 … Jn>で表され、ChとJkは、単語である。
辞書ベースアライメント部210は、単語対訳辞書208を参照して、以下のアルゴリズムを実行する。
1)DBA1アルゴリズム:SimD(Cx,Jy)=1になるすべての単語ペア(Cx, Jy)に対して、単語CxとJyにアライメントさせる。
2)DBA2アルゴリズム:アライメントされていない単語Chに対して,単語対訳辞書208にあるChのすべての訳語の集合をDict(Ch)={Jh1,Jh2, …,Jhx}とする。もし、次の条件1と条件2を満たすJSの部分文字列<Jk,Jk+1,…,Jk+y>が存在するなら、単語ChとJSの部分文字列<Jk,Jk+1,…,Jk+y>にアライメントさせる。
3)DBA3アルゴリズム:アライメントされていない単語Chに対して、単語対訳辞書208にあるChの訳語が存在していない場合は、単語対訳辞書208の第1言語の単語集合BiWordSet1を用いて、単語Chを分割する。分割した結果をCh=<Ch1,Ch2,…,Chz>とする。単語対訳辞書208のChiのすべての訳語集合をDict(Chi)={Jhi1,Jhi2,…,Jhix}とする。もし、次の条件1と条件2を満たすJSの単語Jkが存在するなら、単語ChとJSの単語Jkにアライメントさせる。
次に、単語表記ベースアライメント部について説明する。S=CS<->JSは、一つの対訳例文ペアを表す。CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2,…Cm>、JS=<J1,J2, … Jn>で表され、ChとJkは単語である。
単語表記ベースアライメント部212は、中国語簡繁文字変換部212による中国語の簡体字を参照し、すべてのアライメントされていない単語Chに対して、形状類似度SimM(Ch,Jy)=1、かつ、単語Jyがアライメントされていなかった場合は、単語CxとJyにアライメントさせる。SimM(Ch,Jy)=1は、漢字が同じ形状のとき、例えば“中国”と“中国”である。
次に、多対多アライメント部について説明する。多対多アライメント部218は、図10に示すように、1-n連続型とm-1連続型アライメント部230と、1-n非連続型とm-1非連続型アライメント部232と、m-n連続型アライメント部234とを含んでいる(n、mは、2以上の自然数である)。
n連続型とm-1連続型アライメント部230は、1つの単語と連続するn個の単語のアライメント、あるいは連続するm個の単語と1つの単語のアライメントを行う。
n連続型とm-1連続型アライメント部230は、事前に、単語アライメントコーパスを用いて、1-n連続型とm-1連続型のアライメントについて、連続している二つの単語の品詞接続表CPPS(Concomitance POS Pair Set)を構築する。例えば、単語C1が連続している単語J1,J2,J3にアライメントする場合は、J1とJ2、J2とJ3間の品詞接続を計算の対象にする。逆に、連続している単語C1,C2,C3が単語J1にアライメントする場合は、C1とC2,C2とC3間の品詞接続を計算の対象にする。CPPSは、次式によって求めることができる。ここで、CPPSの分母は、コーパスにおけるすべての2つの連続する品詞の数であり、分子は、コーパスにおけるアライメントされた品詞の数である。また、θは、閾値であり、0<θ<1である。
1-n連続型とm-1連続型アライメント部230は、品詞接続表を用いて次のようなアライメントを行う。
S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。
すべてのアライメントされた単語Jkに対して、
ケース1:単語ChがJkにアライメントし、かつ、Jk+1がまたアライメントされていないとき、もし、(POS(Jk),POS(Jk+1)) ∈ CPPSならば、ChをJk+1にアライメントさせる。
ケース2:単語ChがJkにアライメントし、かつ、Jk-1がまたアライメントされていないとき、もし、(POS(Jk-1),POS(Jk)) ∈ CPPSならば、ChをJk-1にアライメントさせる。図11(a)、(b)は、ケース1とケース2を例示している。
すべてのアライメントされた単語Chに対して、
ケース1:ChがJkにアライメントし、かつ、Ch+1がまたアライメントされていないとき、もし、(POS(Ch),POS(Ch+1)) ∈ CPPSならば、Ch+1をJkにアライメントさせる。
ケース2:ChがJkにアライメントし、かつ、Ch-1がまたアライメントされていないとき、もし、(POS(Ch-1),POS(Ch)) ∈ CPPSならば、Ch-1をJkにアライメントさせる。図12(a)、(b)は、ケース1とケース2を例示している。
次に、1-n非連続型とm-1非連続型アライメント部232について説明する。1-n非連続型とm-1非連続型のアライメントに対して、1に対応している単語の大部分が連結詞、前置詞、助詞であるため、それらの1-n非連続型とm-1非連続型のアライメントを事前に抽出して辞書化する。これを、多対多アライメント辞書MMADicと呼び、そのサンプルを図13に示す。ここには、中国語の1つの単語とこれに対応する日本語の非連続の複数の単語と、その反対に、日本語の1つの単語とこれに対応する中国語の非連続の複数の単語の例が示されている。
ここで、S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。
すべてのアライメントされた単語Chに対して、もし、
1)Chが多対多アライメント辞書MMADicにあること、
2)Chの対応している訳語集合がJk,Js,…,JSの単語であること、
3)訳語集合Jk,Js,…,がまたアライメントされていないこと、
を満たす場合は、単語ChがJk,Js,…,にアライメントされる。
すべてのアライメントされた単語Jkに対して、もし、
1)Jkが多対多アライメント辞書MMADicにあること、
2)Jkの対応している訳語集合がCh,Cs,…,がCSの単語であること、
3)訳語集合Ch,Cs,…,がまたアライメントされていないこと、
を満たす場合は,単語Ch,Cs,…,がJkにアライメントされる。
次に、m-n連続型アライメント部234について説明する。S=CS<->JSは、一つの対訳例文ペアを表す。ここで、CSは、第1言語の例文、JSは、CSの第2言語の訳文である。CS=<C1,C2, …,Cm>,JS=<J1,J2, …,Jn>、ChとJkは、単語である。
すべてのアライメントされた連続している二つの単語ChとCh+1に対して、P=<Ch,Ch+1>;MN-Alignment(P,Alignment(P))を用いて、Pのアライメント結果を求める。もし、Alignment(P) = <Jk,Jk+1>、かつ、JkとJk+1がまだアライメントされていなかった場合は、<Ch,Ch+1>を<Jk,Jk+1>にアライメントする。
すべてのアライメントされた連続している二つの単語JkとJk+1に対して、P=<Jk,Jk+1>;MN-Alignment(P,Alignment(P))を用いて、Pのアライメント結果を求める。もし、Alignment(P) = <Ch, Ch+1>、かつ、ChとCh+1がまだアライメントされていなかった場合は、 <Ch,Ch+1>を<Jk,Jk+1>にアライメントする。
定義:例文とその訳文をそれぞれCSとJSで表す。例文対訳ペアをS=CS<->JSで表し、対訳例文ペアの候補をBSで表す。例文とその訳文は、文字の順序付き文字列で表現する。即ち、CS、JS、Sは、数式(1)、(2)、(3)によって表される。
また、連続している複数の単語をPで表す。Pも文字の順序付き文字列で表現し、数式(4)で表される。
次に、例文訳文ペア(組)の共通部分の定義を説明する。例文訳文ペアSk,Shは、対訳例文ペアの候補BSに含まれ、これらの共通部分は、数式(5)、(6)で表される。
例文訳文ペアSk,Shの共通部分の求め方は、数式(7)、(8)、(9)、(10)、(11)によって行われる。ここで、CWSTOPは、言語1の禁止用文字集合、JWSTOPは、言語2の禁止用文字集合を表す。例えば、文書に高い頻度で出現する文字として、中国語の“的”、”地”、”得”など、日本語の“は”、“が”、“を”などが該当する。
次に、Pの言語が言語1の場合の処理を説明する。もし、ShとSkの共通部分が次式(12-1)であれば、ShとShがP<->Tgを強支持すると表現し、この場合、Tgは、Pのアライメント候補となる。
もし、例文対訳候補BSの中に、x個の例文ペアがP<->Tgを支持するなら、TgがPのアライメント候補である支持度がxであると定義され、SV(P<->Tg)=xと表現される。そして、支持度SV(P<->Tg)が最大のTgをPのアライメント結果とし、数式(13-1)のように表される。
もし、例文対訳ペアShとSkの共通部分が数式(14-1)であれば、ShとShがP<->Tgを弱支持すると表現し、この場合もTgは、Pのアライメント候補である。
他方、Pの言語が言語2の場合には、もし、ShとSkの共通部分が次式(12-2)であれば、ShとShがP<->Tgを強支持すると表現し、この場合、Tgは、Pのアライメント候補となる。
もし、例文対訳候補BSの中に、x個の例文ペアがP<->Tgを支持するなら、TgがPのアライメント候補である支持度がxであると定義され、SV(P<->Tg)=xと表現される。そして、支持度SV(P<->Tg)が最大のTgをPのアライメント結果とし、数式(13-2)のように表される。
もし、例文対訳ペアShとSkの共通部分が数式(14-2)であれば、ShとShがP<->Tgを弱支持すると表現し、この場合もTgは、Pのアライメント候補である。
次に、m-n連続型アライメント部の処理手順を説明する。図14は、m-n連続型アライメント部の処理フローを示す図である。m-n連続型アライメント部234は、例文対訳辞書26bをアクセスし、そこから、例えば連続している複数の単語Pを含む複数の例文対訳ペアの候補BSを求める(ステップS201)。求められた例文対訳ペア候補BSは、記憶部216に格納され、次いで、これらの各例文対訳組相互間の共通部分の組を抽出し、それらの全てのペア候補の支持度を算出する(ステップS202)。そして、支持度の高いものをアライメント候補に選択する(ステップS203)。
アライメント候補の選択は、例えば次にようにして行われる。
ここで、2つのアライメント候補をT1とT2とし、それらの支持度をx,y(但し、x > y)とする。すなわち、SV(P<->T1)=x, SV(P<->T2)=yとする。
もし、 x < θ1 ならば、適切な候補が存在しないとして、アライメント失敗とする。
もし、 x >= θ1 であり、かつ x-y > θ2 のならば、T1をアライメント結果として出力する。
もし、 x >= θ1 でり、かつ x / y > θ3 ならば、T1をアライメント結果として出力する。
但し、θ1、θ2、 θ3は、非負の実数である。
上記基準に従ってアライメント結果が存在するか否かを判定し(ステップS204)、アライメント結果が存在するときは、その結果を出力する(ステップS205)。ここでのアライメント結果が存在しないときは、次の処理、例えば2部グラフベースアライメント部220による処理が行われる。
図15は、m-n連続型アライメント部による中国語から日本語へ翻訳する具体例が示されている。連続する複数の単語Pが入力され、これに応答して、例文対訳辞書26bから入力Pを含む例文が抽出されている。S1,S2…、S5は、中主連れた例文対訳ペアであり、中国語の例文C1,C2,…C4は、連続した複数の単語Pを含んでいることがわかる。
図15により抽出された例文対訳ペアのすべてについての支持度が算出される。図16は、図15において抽出された例文対訳ペアの共通部分における支持度を算出する具体例を示している。各例文対訳ペア相互の共通部分における支持度が判断され、その結果として対応訳文の支持度が加算されていく。
図17は、図15で求めた支持度の集計結果を表組みにして表している。これより、各訳文候補に対する支持度が分かる。
図18では、支持度の集計結果から、支持度の高かった2つの訳文候補が抽出され、最終的にT1が所定の基準を超えていると判断されて、最終的なアライメント結果に決定されている。
次に、図7に戻り、多対多アライメント部218でアライメントされたかった場合には、BGMWMベースアライメント部220によってアライメントが行われる。
ここでのアライメントは、すべてのアライメントされていないCSの単語集合とJSの単語集合を用いて、重み2部グラフを作成し、図4、図5に示すような2部グラフベースアライメント部を用いてアライメントを行う。
図19は、本実施例の単語アライメント装置において、領域にスポーツ新聞記事を用い、15,405の例分対訳を格納した例文対訳辞書を用い、100例分対のテスト集合(Open test)で実験をしたときの結果を示している。F-Scoreは、F=(R+P)*2/(R+F)で定義される。実験結果から明らかなように、本実施例の自動単語アライメント装置による種々のアルゴリズムを実行したとき、従来の手法と比較して、リコール率、精度、F-Scoreが向上していることがわかる。
図20は、単語アライメント装置の一ハードウエア構成を示すブロック図である。翻訳メモリ翻訳装置は、好ましくは、入力装置700、表示装置702、主記憶装置704、記憶装置706、中央処理装置(CPU)708、これらを接続するバス710を含んで構成される。
入力装置700は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置702は、ユーザの入力および翻訳結果等を表示するディスプレイ等を含む。主記憶装置704は、ROMまたはRAMを含み、図7に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置706は、例えばハードディスク等の大容量記憶装置を含み、例文対訳辞書などの各種辞書26、124等のデータを格納する。中央処理装置708は、主記憶装置704に記憶されたプログラムに従い各部を制御する。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
例えば、上記実施例では、重みが非ゼロの置換が1つとなる例文候補を選択して訳文を生成する例を示したが、必ずしもこれに限らず、重みが非ゼロ置換が2つ、または3つ、あるいはそれ以上であってもよい。また、脱落の数も1つよりも大きくてもよい。置換や脱落の数が増えれば、それに応じて、翻訳の精度が低下する可能性はあるが、それを十分に考慮して翻訳システムに用いることができる。
本発明に係る翻訳メモリ翻訳装置は、機械翻訳システムや翻訳支援システムにおいて利用される。
例文ベース機械翻訳方式に係る機械翻訳システムの全体構成例を示す図である。 図1に示す例文パターンベース翻訳装置を説明する図である。 例文と訳文に含まれる単語間のアライメントを説明する図であり、図3(a)は、中国語とその訳文の日本語の入力例文対を示し、図3(b)は、中国語の単語と日本語の単語間の理想的なアライメントを示している。 2部グラフ最適マッチングによる単語アライメント装置の全体構成である。 2部グラフマッチングを説明する図である。 単語対訳辞書に記憶された単語と単語の解説訳文の例を示す図である。 本発明の実施例に係る単語アライメント装置の構成を示す図である。 中国語および日本語の形態素解析の例を示す図である。 図7に示す前処理部の動作フローを示す図である。 図7に示す多対多アライメント部の内部構成を示すブロック図である。 1-n連続型アライメントの例を示す図である m-1連続型アライメントの例を示す図である。 多対多アライメント辞書MMADicのサンプルを示す図である。 m-n連続型アライメント部の処理フローを示す図である。 m-n連続型アライメント部による中国語から日本語へ翻訳する具体例を示す図である。 図15において抽出された例文対訳ペアの共通部分における支持度を算出する具体例を示す図である。 図15で求めた支持度の集計結果を示す図である。 支持度の集計結果から、最終的なアライメント結果に決定する例を示す図である。 本実施例の単語アライメント装置における実験結果を示す図である。 単語アライメント装置の一ハードウエア構成を示すブロック図である。
符号の説明
10:機械翻訳システム 12:原言語テキスト文入力部
14:翻訳メモリ装置 16:例文パターンベース翻訳装置
18:単語直訳翻訳装置 20:目的言語テキスト出力部
22:翻訳不適切文自動回収部 24:学習装置
26a:単語対訳辞書 26b:例文対訳辞書
26c:例文パターン対訳辞書 200:単語アライメント装置
202:入力部 204:形態素解析部
206:前処理部 208:単語対訳辞書
210:辞書ベースアライメント部 212:中国語簡繁文字変換部
214:単語表記ベースアライメント部 216:記憶部
218:多対多アライメント部 220:BGMベースアライメント部
222:出力部
700:入力装置 702:表示装置
704:主記憶装置 706:記憶装置
708:中央処理装置(CPU) 710:バス

Claims (18)

  1. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
    第1言語の単語とその対訳である第2言語の単語、第1言語の単語についての第2言語の訳語、および第2言語の単語についての第1言語の訳語の対応関係を記憶する単語対訳辞書と、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、
    前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、
    前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が前記単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメント手段と、
    前記第1のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメント手段と、
    を有する単語アライメント装置。
  2. 単語アライメント装置はさらに、第2のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が前記単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメント手段を有する、請求項1に記載の単語アライメント装置。
  3. 単語アライメント装置はさらに、第3のアライメント手段によりアライメントされていない第1言語の単語について、当該第1言語の単語と前記抽出された第2言語の単語の表記が一致するとき、当該第1言語の単語を前記抽出された第2言語の単語にアライメントする第4のアライメント手段を有する、請求項2に記載の単語アライメント装置。
  4. 前記表記の一致は、第1言語の単語と第2言語の単語のそれぞれの漢字の一致である、請求項3に記載の単語アライメント装置。
  5. 第1および第4のアライメント手段は、第1言語の1つの単語から第2言語の複数の連続した単語、あるいは第2言語の1つの単語から第1言語の複数の連続した単語へのアライメントを行う、請求項1ないし4いずれか1つに記載の単語アライメント装置。
  6. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
    第1言語の単語と第2言語間の単語について予めアライメントが付与された情報を用いて、連続している2つの単語の品詞の接続関係を示す品詞接続表を記憶する記憶手段と、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、
    前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、
    前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするアライメント手段と、を有する単語アライメント装置。
  7. 前記アライメント手段は、前記抽出された連続する複数の単語の一部が前記抽出された第2言語の単語にアライメントし、かつ残りの単語がアライメントされていないとき、前記連続する複数の単語が前記品詞接続表に含まれる場合には、前記抽出された連続する第1言語の単語を第2言語の単語にアライメントする、請求項6に記載の単語アライメント装置。
  8. 前記品詞接続表は、単語アライメントが付与されたコーパスを用い、コーパスに含まれる全ての連続している2つの単語の数とコーパスの中でアライメントされている連続している2つの単語の数の割合から一定の出現頻度を有する品詞の接続を規定する、請求項6または7に記載の単語アライメント装置。
  9. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、
    前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、
    第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書と、
    前記抽出された第1言語の単語が前記アライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントする、単語アライメント装置。
  10. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力する入力手段と、
    前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出する単語抽出手段と、
    第1言語の例文とその対訳である第2言語の訳文を記憶した例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択し、選択された例文対訳組相互間の共通部分の組を抽出し、前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出し、算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするアライメント手段と、
    を有する単語アライメント装置。
  11. 前記支持度の算出は、各組の共通部分が、前記連続している複数の単語に対して所定の一致度合にある場合に、第2言語の対応訳文の共通部分をアライメント候補として選出する手段と、前記選出されたアライメント候補の出現回数をその支持度を表すものとして計数する手段とを含む、請求項10に記載の単語アライメント装置。
  12. 最も出現回数が多いアライメント候補の該出現回数が第1の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との差が第2の閾値を超える場合、または、該出現回数が第1の閾値以下、かつ該出現回数と次に出現回数の多い訳文候補の該出現回数との比が第3の閾値を超える場合の何れかの場合に、該最も出現回数が多いアライメント候補を、前記連続している複数の単語のアライメントとする、請求項11に記載の単語アライメント装置。
  13. 請求項1ないし12いずれか1つに記載の単語アライメント装置と、第1言語の例文とその対訳である第2言語の例文を格納する例文対訳辞書と、前記例文対訳辞書を参照し、入力された第1言語の例文の第2言語の訳語を生成する訳文生成手段とを有し、前記訳文生成手段は、前記単語アライメント装置によるアライメント結果を利用して訳文を生成する、例文ベース翻訳装置。
  14. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行する単語アライメントプログラムであって、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、
    入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、
    前記抽出された第1言語の単語と前記抽出された第2言語の単語の対応関係が単語対訳辞書に含まれているとき、前記抽出された第1言語の単語を前記抽出された第2言語の単語にアライメントする第1のアライメントステップと、
    第1のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、第1言語の単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第2のアライメントするステップと、
    第2のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語を分割し、分割された単語と第2言語の訳語の対応関係が単語対訳辞書に含まれているとき、分割された単語を、第2言語の訳語と共通している前記抽出された第2言語の複数の単語にアライメントする第3のアライメントステップと、
    を有する単語アライメントプログラム。
  15. 単語アライメントプログラムはさらに、第3のアライメントステップによりアライメントされていない第1言語の単語について、当該第1言語の単語と前記抽出された第2言語の単語の表記が一致するとき、当該第1言語の単語を前記抽出された第2言語の単語にアライメントする第4のアライメントステップを有する、請求項14に記載の単語アライメントプログラム。
  16. 第1言語の例文と当該例文の対訳である第2言語の例文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置が実行する単語アライメントプログラムであって、
    第1言語の例文と当該例文の対訳である第2言語の例文を入力するステップと、
    前記入力された第1言語および第2言語の例文から第1言語および第2言語の単語をそれぞれ抽出するステップと、
    前記抽出された第1言語の単語が前記抽出された第2言語の連続する複数の単語の一部にアライメントし、かつ、残りの単語がアライメントされていないとき、当該連続する複数の単語が予め用意された連続している2つの単語の品詞の接続関係を示す品詞接続表に含まれる場合には、前記抽出された第1言語の単語を第2言語の連続する複数の単語にアライメントするステップと、
    を有する単語アライメントプログラム。
  17. 単語アライメントプログラムはさらに、前記抽出された第1言語の単語が、第1言語の1の単語とその訳語である第2言語の非連続の複数の単語との対応関係を記憶するアライメント辞書に含まれており、かつ当該第1言語の単語の対訳である第2言語の非連続の複数の単語が第2言語の例文に含まれているとき、前記抽出された第1言語の単語を第2言語の前記非連続の複数の単語にアライメントするステップを有する、請求項16に記載の単語アライメントプログラム。
  18. 単語アライメントプログラムはさらに、
    例文対訳辞書から、前記抽出された第1言語の連続している複数の単語を含む例文とその対訳の組を選択するステップと、
    選択された例文対訳組相互間の共通部分の組を抽出するステップと、
    前記連続している複数の単語に対する前記抽出した共通部分の支持度を算出するステップと、
    算出された支持度に基づき前記連続している複数の単語を第2言語の共通部分である複数の単語にアライメントするステップと、
    を有する請求項16または17に記載の単語アライメントプログラム。
JP2008238736A 2008-07-18 2008-09-17 単語アライメント装置及び単語アライメントプログラム Expired - Fee Related JP5439776B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810133966A CN101630313A (zh) 2008-07-18 2008-07-18 单词对齐装置、例句对译词典及单词对齐方法
CN200810133966.7 2008-07-18

Publications (2)

Publication Number Publication Date
JP2010027020A true JP2010027020A (ja) 2010-02-04
JP5439776B2 JP5439776B2 (ja) 2014-03-12

Family

ID=41575423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008238736A Expired - Fee Related JP5439776B2 (ja) 2008-07-18 2008-09-17 単語アライメント装置及び単語アライメントプログラム

Country Status (2)

Country Link
JP (1) JP5439776B2 (ja)
CN (1) CN101630313A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733657B (zh) * 2017-04-17 2022-10-28 北京搜狗科技发展有限公司 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN109685059B (zh) * 2018-11-06 2024-06-28 平安科技(深圳)有限公司 文字图像标注方法、装置及计算机可读存储介质
CN114742078A (zh) * 2022-04-18 2022-07-12 新译信息科技(北京)有限公司 对照展示方法、终端设备及计算机可读存储介质
CN116436987B (zh) * 2023-06-12 2023-08-22 深圳舜昌自动化控制技术有限公司 一种IO-Link主站数据报文传输处理方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072841A (ja) * 2005-09-08 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、データベース構築方法、データベース構築装置、データベース構築プログラムおよび記録媒体
JP2007199793A (ja) * 2006-01-23 2007-08-09 Fuji Xerox Co Ltd 単語アライメント例文対訳辞書学習装置と訳語抽出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072841A (ja) * 2005-09-08 2007-03-22 Nippon Telegr & Teleph Corp <Ntt> 単語抽出方法、データベース構築方法、データベース構築装置、データベース構築プログラムおよび記録媒体
JP2007199793A (ja) * 2006-01-23 2007-08-09 Fuji Xerox Co Ltd 単語アライメント例文対訳辞書学習装置と訳語抽出装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200501097003; 張 玉潔 外2名: '英語を介した日中対訳辞書の自動構築' 自然言語処理 第12巻第2号, 20050331, p.63-85, 言語処理学会 *
JPN6012035727; 張 玉潔 外2名: '英語を介した日中対訳辞書の自動構築' 自然言語処理 第12巻第2号, 20050331, p.63-85, 言語処理学会 *

Also Published As

Publication number Publication date
JP5439776B2 (ja) 2014-03-12
CN101630313A (zh) 2010-01-20

Similar Documents

Publication Publication Date Title
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US9176936B2 (en) Transliteration pair matching
CN106844368B (zh) 用于人机对话的方法、神经网络系统和用户设备
CN105068997B (zh) 平行语料的构建方法及装置
JP2014078132A (ja) 機械翻訳装置、方法およびプログラム
JP5915326B2 (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP2009140499A (ja) 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
CN103189860A (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
JP5439776B2 (ja) 単語アライメント装置及び単語アライメントプログラム
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
Cathcart et al. In search of isoglosses: continuous and discrete language embeddings in Slavic historical phonology
JP2009289219A (ja) 翻訳メモリ翻訳装置および翻訳プログラム
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Malik et al. Urdu to English machine translation using bilingual evaluation understudy
JP5428199B2 (ja) 対訳文抽出装置及び対訳文抽出方法
Jäger et al. Statistical and computational elaborations of the classical comparative method
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP5544518B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Huang et al. Input method for human translators: a novel approach to integrate machine translation effectively and imperceptibly
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP5207016B2 (ja) 機械翻訳評価装置及び方法
Hossain et al. Inclusive bidirectional conversion system between Chittagonian and standard Bangla
JP6221339B2 (ja) 翻訳装置及び翻訳方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Ref document number: 5439776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees