JP2009064137A - 対訳表現アラインメント装置およびそのプログラム - Google Patents

対訳表現アラインメント装置およびそのプログラム Download PDF

Info

Publication number
JP2009064137A
JP2009064137A JP2007229863A JP2007229863A JP2009064137A JP 2009064137 A JP2009064137 A JP 2009064137A JP 2007229863 A JP2007229863 A JP 2007229863A JP 2007229863 A JP2007229863 A JP 2007229863A JP 2009064137 A JP2009064137 A JP 2009064137A
Authority
JP
Japan
Prior art keywords
expression
pair
bilingual
expression pair
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007229863A
Other languages
English (en)
Other versions
JP4939347B2 (ja
Inventor
Tadashi Kumano
正 熊野
Hideki Tanaka
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007229863A priority Critical patent/JP4939347B2/ja
Publication of JP2009064137A publication Critical patent/JP2009064137A/ja
Application granted granted Critical
Publication of JP4939347B2 publication Critical patent/JP4939347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】対訳文書対について、精度よくアラインメントを行うことが可能な対訳表現アラインメント装置を提供する。
【解決手段】対訳表現アラインメント装置1は、対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する初期表現対回数計算手段11と、表現対出現回数に基づいて、表現対が対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段13と、表現対同時確率に基づいて、対訳文書対のアラインメントを実施するアラインメント実施手段17と、を備えることを特徴とする。
【選択図】図2

Description

本発明は、対訳コーパスに対して、単語や単語の連なりからなる表現を対応付ける対訳表現アラインメント装置およびそのプログラムに関する。
文、段落、文書などの意味のある単位で対応付けられた2言語の対訳関係の対の集合である対訳コーパスにおいて、対訳対の各々に対し、単語や単語の連なりからなる表現(以下、単に「表現」という)の対応付け(アラインメント)を行うことは、統計機械翻訳(SMT:Statistical Machine Translation)の実現における翻訳知識の学習に必須である。また、対訳コーパスにおける表現のアラインメントは、対訳辞書の構築や対訳文書の解読支援などにも有用な技術である。
また、対訳コーパスにおける表現のアラインメントは、対訳対の各々を構成している単語列のうちで、どの部分を1つの表現と認定し、対訳関係にある言語の表現と対訳可能性を検討するかについて任意性があるため、単語のみをアラインメントの対象として処理する場合に比べて困難の度合いが高い。
従来、このような対訳コーパスにおける表現のアラインメントを行う手法として、対訳文対の一部としての対訳である表現対が同時に生起する確率を用いて統計機械翻訳をモデル化し、そのモデルに基づいて、表現のアラインメントを行う手法が開示されている(非特許文献1参照)。
この従来手法に用いる統計機械翻訳モデルは、対訳文対が、ある確率で生起する2言語表現対の組み合わせによって生成されるとみなしたモデルである。この統計機械翻訳モデルは、対訳文対が、ある2言語表現対集合によって過不足なく生成可能であるとき(表現対のうち、一方の言語側の表現のすべてが他の言語側の表現に対応し、他の言語側の表現のすべてが一方の言語側の表現に対応するとき)、この表現対集合が対訳文対を生成する確率を、各表現対の生起確率(以下、「表現対同時確率」という)の積と考える。そこで、統計機械翻訳モデルは、ある対訳文対が、何らかの表現対集合によって生成される確率を、その対訳文対を過不足なく生成し得るすべての可能な表現対集合の各々について計算した対訳文対生成確率の和と考える。
また、対訳コーパスのある対訳対に対し、ある表現対集合によって表現の対応付け(以下、「表現アラインメント」という)が与えられる確率は、その表現対集合による対訳文対生成確率を、その対訳対が何らかの表現対によって生成される確率である、すべての可能な表現対集合による対訳文対生成確率で除したものである。
このような統計機械翻訳モデルによれば、機械翻訳の実現は、ある文の存在に対して、その文を一方に持つ対訳文対のうち、対訳文対生成確率の和が最も高くなるような相手言語側の文を発見することであり、機械知識の学習は、学習元の対訳コーパスにおける各分対の生成確率の和が最も高くなるような各表現対同時確率を最適化することである。
そこで、従来手法は、表現アラインメントを行うために、EM(Expectation Maximization)法により、表現対同時確率の最適化を行っている。すなわち、従来手法は、各表現対同時確率に初期値を与え、対訳コーパスの各文対において、この文対を生成可能なすべての可能な表現対集合について、各々その文対の生成確率を計算する。これらの文対生成確率から前記した方法で計算できる、ある表現対集合によって表現アラインメントが与えられる確率は、この表現対集合の要素である各表現対が、この表現対集合の一員として、対訳文の構成要素として生起する回数の期待値である。
そして、従来手法は、この確率(表現対生起回数の期待値)を、各表現対についてすべての可能な表現対集合にわたって加算し、さらにこれを対訳コーパス全体にわたって収集し、正規化することで、更新された各表現対同時確率を求める。そして、従来手法は、各表現対同時確率が収束するまで、前記した処理を繰り返し、表現対同時確率を最適化する。この時、対訳コーパスの各文対における、対訳文対生成確率の最も高い表現対集合による表現アラインメントを、この文対に対する最適な表現アラインメントとして得ることができる。
このように、従来手法は、対訳文対が対訳表現対の組み合わせとして生成されるものとしてモデル化されており、文対の一方に存在するすべての単語が必ず相手言語側表現と対となるような表現の一部となるという仮定の元に表現対同時確率の最適化を行っている。そして、従来手法は、文対の一方に対訳でない表現が存在する場合であっても、相手言語側の本来別に正しい対訳表現が存在する表現を構成する単語の列を、強制的に対訳表現として割り当ててアラインメントを行っている。このため、従来手法は、非対訳表現が相当量存在する場合、表現対同時確率の最適化が適切に行われず、精度よくアラインメントを行うことができない。すなわち、従来手法は、処理の単位である文対が直訳でない、相手言語側の表現と対応付かない表現が存在している対訳コーパスについては、精度よくアラインメントを行うことができないという問題がある。
このような問題に対し、厳密な直訳でない対訳文書対からなる対訳コーパスから、対訳辞書などの情報を元に、直訳になっていると推測できる文対などを抽出し、この抽出結果に対してアラインメントを実施する、いわゆる対訳コーパスのクリーニングが自明のこととして行われてきた(非特許文献2参照)。
Daniel Marcu and William Wong."A Phrase-Based, Joint Probability Model for Statistical Machine Translation." Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP 2002). 2002. Dragos Stefan Munteanu and Daniel Marcu."Extracting Parallel Sub-Sentential Fragments from Non-Parallel Corpora."Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING-ACL 2006). 2006.
前記したように、非特許文献1に記載の表現アラインメント手法は、相手言語側の表現と対応付かない表現が存在している対訳コーパスについて、精度よくアラインメントを行うことができないという問題がある。
また、前記した非特許文献2に記載の対訳コーパスのクリーニングには、以下の2つの問題がある。1つ目の問題は、対訳コーパスを構成する各対訳文対には、多くの対訳表現が含まれているにも関わらず、文などの明確な単位で直訳対をなさない場合、対応付けが困難で、クリーニングによって処理に適した対訳対をほとんど取り出すことができない点である。これは、非特許文献2において、例えば、報道機関が発信する2つの異なる言語で書かれた同一話題に関するニュース記事から構築された対訳コーパスにおいて、文単位で直訳対を発見することが難しいことが報告されている。
これに対して、非特許文献2では、対訳辞書などの情報を元に、直訳でない文書対から文よりも小さな単位の単語列の対訳対を発見する手法を提案しているが、それでもなお、相当の長さの直訳部分が存在することが発見を可能とする前提となっており、どのような対訳コーパスに対しても汎用的に適用可能な手法ではない。
また、対訳コーパスのクリーニングにおける2つ目の問題は、クリーニングには品質のよい大規模な対訳辞書が必要である点である。このような対訳辞書は、一般には、品質のよい直訳の対訳コーパスを用い、従来のアラインメント手法によって構築される。このように、品質のよい直訳対を得るために別の品質のよい直訳対が(大量に)必要であるということは、このような手法の有用性を大きく損ねているといえる。
本発明は、以上のような問題を解決するためになされたものであり、直訳でない対訳文書対である対訳コーパスについて、精度よくアラインメントを行うことが可能な対訳表現アラインメント装置およびそのプログラムを提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の対訳表現アラインメント装置は、2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行う対訳表現アラインメント装置であって、初期表現対回数計算手段と、表現対出現回数記憶手段と、表現対同時確率計算手段と、アラインメント実施手段と、を備える構成とした。
かかる構成において、対訳表現アラインメント装置は、初期表現対回数計算手段によって、対訳文書対において、それぞれ1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する。この初期表現対回数計算手段における2言語表現対および単言語表現対(以下、両者を合わせて単に「表現対」と呼ぶ)出現回数は、対訳文書対のすべての表現対の組み合わせに対して、どれだけ出現するかを計算することで求めることができる。そして、対訳表現アラインメント装置は、計算した2言語表現対出現回数および単言語表現対出現回数を、表現対に対応付けて表現対出現回数記憶手段に記憶しておく。これによって、直訳とならない対訳文書対の場合に、他方の言語側の表現を対応付けられない表現については、その対訳表現として空単語列を割り当てることを可能とする。
そして、対訳表現アラインメント装置は、表現対同時確率計算手段によって、表現対出現回数および単言語表現対出現回数に基づいて、表現対が対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する。この表現対同時確率は、対訳文書対における表現対出現回数の全文書対にわたる総和を、全表現対の全文書対にわたる総和で除すことで求めることができる。
そして、対訳表現アラインメント装置は、アラインメント実施手段によって、表現対同時確率計算手段で計算された表現対同時確率に基づいて、対訳文書対を過不足なく生成し得る表現対集合(すなわち表現アラインメント)を探索(発見的に列挙)し、またこの表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求める。
そして、対訳表現アラインメント装置は、表現対出現回数更新手段によって、アラインメント実施手段が列挙した各表現対集合について、この表現対の各々がこの表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全文書対にわたって加算することで、表現対出現回数記憶手段に記憶されている表現対出現回数を更新する。
そして、対訳表現アラインメント装置は、アラインメント実施手段によって、更新された表現対出現回数により表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施する。このような、表現対同時確率の計算、アラインメントの実施、表現対出現回数の更新からなる一連の処理を繰り返し実行することにより、最適化された表現対同時確率を得ることができる。またこの際、各文書対に対して列挙された表現アラインメントのうち、その文書対生成確率が最も高いものとして、この文書対に対する最適な表現アラインメントを得ることができる。
また、請求項2に記載の対訳表現アラインメント装置は、請求項1に記載の対訳表現アラインメント装置において、独立性検定手段を備える構成とした。
かかる構成において、対訳表現アラインメント装置は、独立性検定手段によって、表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、表現対をそれぞれ対応付け可能、対応付け保留および非対応に分類する。
そして、対訳表現アラインメント装置は、アラインメント実施手段によって、表現対同時確率計算手段で計算された表現対同時確率、および、独立性検定手段で計算された2言語表現対分類結果に基づいて、単言語表現対および対応付け可能と分類された2言語表現対からなる表現対集合のうち、対訳文書対を過不足なく生成し得る表現対集合を発見的に列挙し、またこの表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求める。これによって、アラインメントに統計的に相関の低い表現対が含まれることを抑制する。
そして、対訳表現アラインメント装置は、表現対出現回数更新手段によって、アラインメント実施手段が列挙した、単言語表現対および対応付け可能と分類された2言語表現対からなる各表現対集合について、この表現対の各々がこの表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全文書対にわたって加算する。また、対応付け可能と分類された2言語表現対についてのこの加算結果を用いて、表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新する。また、単言語表現対についてのこの加算結果をさらに全単言語表現対について総和したもの(以下、「単言語表現対出現総数」と呼ぶ)、および、単言語表現対および対応付け保留に分類された2言語表現対について、表現対出現回数記憶手段にすでに記憶されている出現回数を総和したもの(以下、「単言語・保留表現対既出現総数」と呼ぶ)を用いて、表現対出現回数記憶手段に記憶されている単言語表現対および対応付け保留に分類された2言語表現対の出現回数の各々を、これに「単言語・保留表現対既出現総数」に対する「単言語表現対出現総数」の割合を乗ずることで更新する。
そして、対訳表現アラインメント装置は、独立性検定手段によって、更新された表現対出現回数により2言語表現対の分類を再実行し、さらに、アラインメント実施手段によって、更新された表現対出現回数により表現対同時確率計算手段が再計算した表現対同時確率および再実行した2言語表現対分類結果に基づいて、アラインメントを再実施する。このような、表現対同時確率の計算、2言語表現対の分類、アラインメントの実施、表現対出現回数の更新からなる一連の処理を繰り返し実行することにより、最適化された表現対同時確率を得ることができ、また同時に、より多くの2言語表現対を対応付け可能もしくは非対応に分類することができる。またこの際、各文書対に対して列挙された表現アラインメントのうち、その文書対生成確率が最も高いものとして、この文書対に対する最適な表現アラインメントを得ることができる。
また、請求項3に記載の対訳表現アラインメントプログラムは、2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、初期表現対回数計算手段、表現対同時確率計算手段、アラインメント実施手段、として機能させる構成とした。
かかる構成において、対訳表現アラインメントプログラムは、初期表現対回数計算手段によって、対訳文書対において、それぞれ1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する。そして、対訳表現アラインメントプログラムは、計算した2言語表現対表現対出現回数および単言語表現対出現回数を、表現対に対応付けて表現対出現回数記憶手段に記憶しておく。
さらに、対訳表現アラインメントプログラムは、表現対同時確率計算手段によって、表現対出現回数および単言語表現対出現回数に基づいて、表現対が対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する。
そして、対訳表現アラインメントプログラムは、アラインメント実施手段によって、表現対同時確率計算手段で計算された表現対同時確率に基づいて、対訳文書対を過不足なく生成し得る表現対集合(すなわち表現アラインメント)を探索し、またこの表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求める。
そして、対訳表現アラインメントプログラムは、表現対出現回数更新手段によって、アラインメント実施手段が列挙した各表現対集合について、この表現対の各々がこの表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全文書対にわたって加算することで、表現対出現回数記憶手段に記憶されている表現対出現回数を更新する。そして、対訳表現アラインメントプログラムは、アラインメント実施手段によって、更新された表現対出現回数により表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施する。
さらに、請求項4に記載の対訳表現アラインメントプログラムは、2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、初期表現対回数計算手段、表現対同時確率計算手段、独立性検定手段、アラインメント実施手段、として機能させる構成とした。
かかる構成において、対訳表現アラインメントプログラムは、初期表現対回数計算手段によって、対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する。そして、対訳表現アラインメントプログラムは、計算した表現対出現回数および単言語表現対出現回数を、表現対に対応付けて表現対出現回数記憶手段に記憶しておく。
さらに、対訳表現アラインメントプログラムは、表現対同時確率計算手段によって、表現対出現回数および単言語表現対出現回数に基づいて、表現対が対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する。
そして、対訳表現アラインメントプログラムは、独立性検定手段によって、表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、表現対をそれぞれ対応付け可能、対応付け保留および非対応に分類する。
そして、対訳表現アラインメントプログラムは、アラインメント実施手段によって、表現対同時確率計算手段で計算された表現対同時確率に基づいて、表現対が対訳文書対に出現する確率である文書対生成確率の総計が最大となる表現対を探索することで、対訳文書対のアラインメントを実施する。
さらに、対訳表現アラインメントプログラムは、アラインメント実施手段によって、表現対集合について、表現対の各々が表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、2言語表現対についての加算結果を用いて、表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新する。また、対訳表現アラインメントプログラムは、アラインメント実施手段によって、単言語表現対についての加算結果をさらに全単言語表現対について総和した数である単言語表現対出現総数、および、単言語表現対および前記対応付け保留に分類された2言語表現対について、表現対出現回数を総和した数である単言語・保留表現対既出現総数を用いて、表現対出現回数記憶手段に記憶されている単言語表現対および対応付け保留に分類された2言語表現対の出現回数の各々を、単言語・保留表現対既出現総数に対する単言語表現対出現総数の割合を乗ずることで更新する。
そして、対訳表現アラインメントプログラムは、アラインメント実施手段によって、順次、更新された表現対出現回数により表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施する。
本発明は、以下に示す優れた効果を奏するものである。
請求項1,3に記載の発明によれば、対訳のない表現を双方に含んだ対訳文書対であっても、一方の相手側の表現に空単語列を割り当てることで、対応付けに意味のない表現対を生成することがない。これによって、本発明は、品質のよい対訳辞書、あるいは、当該辞書を構築するための品質のよい対訳コーパスを別途用意することなく、また、対訳文書対が直訳されているか否かにかかわらず、対訳文書対のアラインメントを精度よく行うことができる。
請求項2,4に記載の発明によれば、表現対の相関の強度に応じて、表現対を再構成するため、相関の強い表現対を対応付けることができる。これによって、本発明は、単に表現対の出現回数のみでアラインメントを行った場合に比べて、精度よく、かつ、安定してアラインメントを行うことができる。
[表現アラインメント手法の概要]
最初に、図1を参照して、本発明におけるアラインメント(表現アラインメント)の手法の概要について説明する。図1は、本発明のアラインメント手法の概要を説明するための説明図であって、(a)は対訳コーパスの内容を模式的に示し、(b)は従来のアラインメント手法の概要、(c)は本発明のアラインメント手法の概要をそれぞれ示している。
図1(a)に示すように、対訳コーパスは、2言語(ここでは、A言語とB言語)の対訳文書が、それぞれ対応付けられたものである。それぞれの言語の文書は、単語や単語の連なりからなる表現で表される。ここでは、一例として、A言語の文書Aは、a〜aの単語で構成されている。また、B言語の文書Bは、b〜bの単語で構成されているものとする。
このとき、背景技術で説明した従来のアラインメント手法は、図1(b)に示すように、対訳コーパスにおいて、A言語側の表現と、B言語側の表現とで、表現対が同時に発生する確率に基づいて、強制的に過不足なく表現を対応付けて、アラインメントを行った表現対集合を生成している。
しかし、本発明のアラインメント手法は、図1(c)に示すように、一方の言語側の表現について、他方の言語側に空単語列(φ)を対応付ける概念を導入している。これによって、本発明は、直訳でない対訳コーパスにおいても、アラインメントを可能にしている。以下、本発明の実施の形態について説明する。
[対訳表現アラインメント装置の構成]
まず、図2を参照して、本発明の実施形態に係る対訳表現アラインメント装置の構成について説明する。図2は、本発明の実施形態に係る対訳表現アラインメント装置の構成を示すブロック図である。
対訳表現アラインメント装置1は、2言語の対訳文書対の集合である対訳コーパスに対して、対訳文書内の表現対の対応付け(アラインメント)を行うものである。ここでは、対訳表現アラインメント装置1は、対訳コーパス記憶手段10と、初期表現対出現回数計算手段11と、表現対出現回数記憶手段12と、表現対同時確率計算手段13と、表現対同時確率記憶手段14と、独立性検定手段15と、独立性検定結果記憶手段16と、アラインメント実施手段17と、アラインメント記憶手段18と、を備えている。
対訳コーパス記憶手段10は、2言語の対訳関係の対(対訳文書対)の集合である対訳コーパスを記憶しておくものであって、ハードディスクなどの記憶装置である。この対訳コーパスは、対訳文書対であれば、どの2言語であっても構わないが、単語の列として構成されている必要がある。例えば、日本語のように単語の境界が自明でない言語の場合、予め形態素解析装置などによって、文を単語の列に分解しておくこととする。
初期表現対出現回数計算手段11は、対訳コーパス記憶手段10に記憶されている対訳コーパスにおいて、表現対が出現する回数の初期値を計算するものである。ここでは、初期表現対出現回数計算手段11は、1単語以上の単語列である表現が対として出現する回数の期待値(2言語表現対出現回数)と、一方の言語側が空単語列(φ)であって、他方の言語側が1単語以上の単語列である表現が対(以下、「単言語表現対」という)として出現する回数の期待値(単言語表現対出現回数)とについて初期値を計算する。この初期表現対出現回数計算手段11で計算された表現対が出現する回数の期待値(2言語表現対出現回数および単言語表現対出現回数)の初期値は、表現対出現回数記憶手段12に記憶される。
ここで、初期表現対出現回数計算手段11が行う表現対出現回数(2言語表現対出現回数および単言語表現対出現回数)を計算する処理の一例を、数式を用いて説明する。なお、表現対出現回数の計算方法は、ここで説明された方法に限定されない。ある対訳文書対(E,F)において、文書Eがw単語およびs文で構成され、文書Fがw単語およびs文で構成されているとき、この対訳文書対の各々をいくつかに分割し、その結果出現した文書の断片で、かつ、文境界をまたがない表現のいくつかを、他方の言語側の表現のいずれかに対応付ける組み合わせは、以下の(1)式に示すA(w,s,w,s)通りである。
Figure 2009064137
このすべての組み合わせのうち、文書E側に存在する長さlの単語列eと、文書F側に存在する長さlの単語列fとがそれぞれ1つの表現を構成し、かつ、それらの表現が表現対として対応付けられているものの組み合わせは、各文書(E,F)から当該単語列を取り除いた残りの文書対に対して、前記(1)式と同様の計算を行うことで、A(w−l,s+δ,w−l,s+δ)通りとなる。ここで、δおよびδは、それぞれ文書E中および文書F中の当該単語列が、文の先頭や末尾の一端と接しているときは“0”、両端と接しているときは“1”、どちらとも接していないときは“−1”の値をとる。
そして、各文書中の単語または単語列の分割および文書対の対応の組み合わせである前記(1)式に示したA(w,s,w,s)通りのすべての組み合わせが、等しい確率で生起し得ると仮定すると、この文書対d中における当該表現対(e,f)の出現回数の期待値c(d,e,f)は、単語(単語列)の分割および文書対の組み合わせ結果に当該表現対を含んでいる確率に等しく、その値は、以下の(2)式で求めることができる。
Figure 2009064137
したがって、表現対(e,f)の出現回数の初期値c(e,f)は、前記c(d,e,f)をすべての文書対について合計したものとして計算できる。
表現対出現回数記憶手段12は、表現対が出現する回数の期待値(2言語表現対出現回数および単言語表現対出現回数)を記憶しておくものであって、ハードディスクなどの記憶装置である。この表現対出現回数記憶手段12には、初期表現対出現回数計算手段11によって、2言語表現対出現回数および単言語表現対出現回数の初期値が記憶され、後記するアラインメント実施手段17によって、表現対出現回数および単言語表現対出現回数が更新される。なお、表現対出現回数記憶手段12には、単言語表現対同時出現回数も合わせて記憶しておくこととする。
表現対同時確率計算手段13は、表現対出現回数記憶手段12に記憶されている表現対出現回数を用いて、表現対が対訳文書対の一部として同時に生起する確率(表現対同時確率)を計算するものである。ここでは、表現対同時確率計算手段13は、ある表現対(e,f)の表示対同時確率p(e,f)を、文書対dにおける全表現対の出現回数の総和c(d,・,・)=ΣΣc(d,e,f)とに基づいて、p(e,f)={Σd(c(d,e,f)/c(d,・,・))}/nにより計算する。なお、nは文書対の数を示す。
また、表現対同時確率計算手段13は、文書対dにおいて表現e,fが共に現れる(共起する)回数である表現共起回数o(d,e,f)を、o(d,e,f)=c(d,e,f)+cnull(d,e,f)として計算することができる。ここで、cnull(d,e,f)は、文書対dにおいて2つの単言語表現対(e,φ)および(φ,f)が同時に出現する回数(以下、単言語表現対同時出現回数と呼ぶ)である。また、cnull(d,e,f)の初期値は、c(d,e,f)の前記(2)式で示した初期値c(d,e,f)に等しい。なお、初期表現対出現回数計算手段11は、この単言語表現対同時出現回数を表現対出現回数記憶手段12に記憶しておくこととする。したがって、表現対(e,f)の共起回数o(e,f)は、前記o(d,e,f)をすべての文書対について合計したものとして計算できる。また、表現共起回数は、ある表現対(e,f)について、表現e以外の任意の表現(¬e)が表現fと共起する回数、表現eが表現f以外の任意の表現(¬f)と共起する回数、表現e以外(¬e)が表現f以外(¬f)と共起する回数も併せて計算しておくこととする。これらの回数は、後記する独立性検定手段15において独立性検定を行う際の計算に使用される。
そして、表現対同時確率計算手段13は、計算した表現対同時確率および表現共起回数を、表現対と対応付けて表現対同時確率記憶手段14に記憶する。なお、ここでは、表現対同時確率計算手段13は、アラインメント実施手段17からの指示に基づいて、表現対同時確率および表現共起回数の再計算を行う。
表現対同時確率記憶手段14は、表現対同時確率計算手段13で計算された表現対同時確率や表現共起回数を記憶しておくものであって、半導体メモリなどの一般的な記憶装置である。この表現対同時確率記憶手段14には、表現対と表現対同時確率および表現対同時出現回数とが対応付けて記憶される。
独立性検定手段15は、表現共起回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により表現対を分類するものである。
一般的な統計処理を用いると、ある事象xとある事象yとの出現が、ある信頼性確率を持って独立でない(何らかの相関を持っている)か、独立している(相関を持っていると判定できない)か、を分類することができる。また、独立でない事象については、さらに、それらの事象が正の相関を持つ(一方の事象が出現するときにはもう一方の事象が出現しやすく、一方の事象が出現しないときにはもう一方の事象も出現しにくい)か、負の相関を持つ(一方の事象が出現するときにはもう一方の事象が出現しにくく、一方の事象が出現しないときにはもう一方の事象が出現しやすい)かに分類することができる。
そこで、独立性検定手段15は、統計処理により、表現対が対訳文対の一部として同時に生起する際に、各表現対の関係を、表現対の独立性が弱く(相関が強く)対応付けが可能であることを示す「対応付け可能(正の相関)」、表現対の独立性が強く(相関が弱く)対応付けが適当でないことを示す「非対応(負の相関)」、そのいずれにも属さない「対応付け保留(相関判断不能)」の3種類に分類する。そして、独立性検定手段15は、その検定結果を、表現対と対応付けて独立性検定結果記憶手段16に記憶する。なお、この独立性検定には、カイ2乗検定、対数尤度比(LLR:Log-likelihood ratio)検定、フィッシャーの正確確率検定など、一般的な統計処理を用いることができる。
ここでは、一例として、対数尤度比検定を用いて、独立性検定を行う手法について説明する。ここで、ある表現対が出現する事象を事象x、事象yとし、事象xと事象yとが同時に出現する回数(表現共起回数)をa、事象xと事象y以外の表現(¬y)とが同時に出現する回数をb、事象x以外の表現(¬x)と事象yとが同時に出現する回数をc、事象x以外の表現(¬x)と事象y以外の表現(¬y)とが同時に出現する回数をdとしたとき、対数尤度比LLR(x,y)は、以下の(3)式により求めることができる。なお、本実施の形態においては、表現共起回数は、表現対出現回数記憶手段12に記憶されている表現対出現回数と単言語表現対同時出現回数とを加算したものである。
Figure 2009064137
そして、独立性検定手段15は、前記(3)式の対数尤度比LLR(x,y)が予め定めた閾値(正値)よりも大きく、かつ、「ad−bc>0」の場合、事象xと事象yとを「正の相関」に分類する。また、独立性検定手段15は、LLR(x,y)が予め定めた閾値(正値)よりも大きく、かつ、「ad−bc<0」の場合、事象xと事象yとを「負の相関」に分類する。さらに、独立性検定手段15は、それ以外の条件の場合、相関の判定を行うことができないと判定し、事象xと事象yとを「対応付け保留」に分類する。これによって、表現対が、相関の強さにより、「対応付け可能」、「非対応」、「対応付け保留」に分類される。
独立性検定結果記憶手段16は、独立性検定手段15における3種類の検定結果(「対応付け可能」、「対応付け保留」および「非対応」)を記憶しておくものであって、半導体メモリなどの一般的な記憶装置である。この独立性検定結果記憶手段16には、表現対と検定結果とが対応付けて記憶される。
アラインメント実施手段17は、表現対同時確率記憶手段14に記憶されている表現対同時確率に基づいて、対訳文書対を過不足なく生成し得る表現対集合(表現アラインメント)を探索することで、アラインメントを実施するものである。また、アラインメント実施手段17は、表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求める。さらに、アラインメント実施手段17は、独立性検定結果記憶手段16に記憶されている検定結果に基づいて、表現対出現回数記憶手段12に記憶されている表現対出現回数および単言語表現対出現回数を更新する。
ここで、図3を参照(適宜図2参照)して、アラインメント実施手段17の構成について詳細に説明する。図3は、本発明の実施形態に係る対訳表現アラインメント装置のアラインメント実施手段の構成を示すブロック図である。ここでは、アラインメント実施手段17は、処理対象文書対選択手段170と、処理対象文書対記憶手段171と、表現対選択手段172と、選択済表現対同時確率記憶手段173と、初期アラインメント生成手段174と、文書中表現対出現回数記憶手段175と、文書中表現対出現回数収集手段176と、アラインメント改善案探索手段177と、表現対出現回数更新手段178と、を備えている。
処理対象文書対選択手段170は、対訳コーパス記憶手段10に記憶されている対訳コーパスから、未選択の文書対を選択し、処理対象文書対記憶手段171に記憶するものである。ここでは、処理対象文書対選択手段170は、起動時に最初に文書対を選択した以降は、表現対出現回数更新手段178からの指示があるごとに、順次、未選択の文書対を選択する。
処理対象文書対記憶手段171は、処理対象文書対選択手段170で選択された文書対を記憶するものであって、半導体メモリなどの一般的な記憶装置である。
表現対選択手段172は、表現対同時確率記憶手段14に記憶されている対訳文書対の一部として同時に生起する表現対のうちで、処理対象文書対記憶手段171に記憶されている文書対の一部を構成するものであり、かつ、独立性検定結果記憶手段16で「対応付け可能」と分類されていたものをすべて選択するものである。すなわち、表現対選択手段172は、表現対の一方が文書対の一方に完全に含まれているものを選択する。そして、表現対選択手段172は、選択した表現対を、対応付けられている表現対同時確率とともに選択済表現対同時確率記憶手段173に記憶する。
選択済表現対同時確率記憶手段173は、処理対象の文書対において、同時に生起する表現対と同時確率(表現対同時確率)とを記憶するものであって、半導体メモリなどの一般的な記憶装置である。
初期アラインメント生成手段174は、選択済表現対同時確率記憶手段173に記憶されている表現対のいくつかを組み合わせることで、処理対象文書対記憶手段171に記憶されている文書対を過不足なく生成し得る表現対集合(表現アラインメント)を1通り生成するとともに、その表現対集合によって文書対が生成される確率(文書対生成確率)を計算するものである。
なお、この表現対集合の生成は、文書対を過不足なく生成し得る条件を満たせば、その手法を問わない。例えば、初期アラインメント生成手段174は、選択済表現対同時確率記憶手段173に記憶されている表現対のうちで、同時確率の高いものから順番に、処理対象の文書対を被覆し、被覆されていない単語が存在しなくなるまで繰り返すことで、表現対集合を生成する。また、初期アラインメント生成手段174は、表現対集合によって文書対が生成される確率を、各表現対の生起確率(表現対同時確率)の積を計算することで求める。そして、初期アラインメント生成手段174は、生成した表現対集合と文書対生成確率とを、アラインメント記憶手段18に記憶する。これによって、当該文書対におけるアラインメントの初期状態がアラインメント記憶手段18に記憶されたことになる。
文書中表現対出現回数記憶手段175は、処理対象の文書対における表現対出現回数と文書対生成確率の総計とを記憶するものであって、半導体メモリなどの一般的な記憶装置である。この文書中表現対出現回数記憶手段175に記憶される表現対出現回数と文書対生成確率の総計とは、後記する文書中表現対出現回数収集手段176によって、初期値として“0”が設定され、その後逐次加算される。
文書中表現対出現回数収集手段176は、アラインメント記憶手段18に記憶されている表現対集合と文書対生成確率とを用い、表現対の出現回数と文書対生成確率の総計とをそれぞれ収集するものである。ここでは、文書中表現対出現回数収集手段176は、表現対集合を構成する各表現対について、文書中表現対出現回数記憶手段175に記憶されている当該表現対の出現回数を1ずつ加算する。また、文書中表現対出現回数収集手段176は、文書中表現対出現回数記憶手段175に記憶されている文書対生成確率の総計に、アラインメント記憶手段18に記憶されている文書対生成確率を加算する。これによって、文書中表現対出現回数記憶手段175には、処理対象の文書対における表現対出現回数と文書対生成確率の総計とが記憶されることになる。
アラインメント改善案探索手段177は、アラインメント記憶手段18に記憶されている表現対集合(アラインメント)に対して、文書中表現対出現回数記憶手段175に記憶されている文書対生成確率よりも確率が高くなるような、文書対を過不足なく生成し得る表現対集合を探索するものである。
なお、この探索手法は、文書対を過不足なく生成し得る条件を満たせば、その手法を問わない。例えば、アラインメント改善案探索手段177は、以下の(A)〜(C)の場合について、文書対生成確率が高くなるような表現対集合を生成する。
<(A)表現対集合中の任意の1つの表現対を分割した場合>
例えば、「(単語1/単語2)−(単語a/単語b)」という、各々2単語以上からなる表現対に対して、アラインメント改善案探索手段177は、「(単語1)−(単語a)」と「(単語2)−(単語b)」の2表現対、あるいは、「(単語1)−(単語b)」と「(単語2)−(単語a)」の2表現対など、各表現を任意に分割した表現の任意の組み合わせからなる表現対を用いて、文書対生成確率を計算する。
<(B)任意の2つの表現対の対応関係を交換した場合>
例えば、「(単語1)−(単語a)」と「(単語2)−(単語b)」の2表現対に対して、アラインメント改善案探索手段177は、「(単語1)−(単語b)」と「(単語2)−(単語a)」の2表現対を用いて、文書対生成確率を計算する。
<(C)一方もしくは両方の言語側の2表現が連接しているような任意の2つの表現対の表現再構成を行った場合>
例えば、文書対の一方の言語側にある連続した4単語列「…/単語1/単語2/単語3/単語4/…」と、他方の言語側にある連続した4単語列「…/単語a/単語b/単語c/単語d/…」とが存在する場合、アラインメント改善案探索手段177は、「(単語1/単語2)−(単語a/単語b)」という各々2単語からなる表現対と、「(単語3/単語4)−(単語c/単語d)」という各々2単語からなる表現対とによって生成されている表現対集合において、両言語の単語列を過不足なく被覆する1つまたは2つの新たな表現対、例えば、「(単語1/単語2/単語3)−(単語d)」と、「(単語4)−(単語a/単語b/単語c)」の2表現対などを用いて、文書対生成確率を計算する。
このように、アラインメント改善案探索手段177は、計算した文書対生成確率が、文書中表現対出現回数記憶手段175に記憶されている文書対生成確率よりも高い場合に、改善された表現対集合が存在するものと判定し、改善結果の表現対集合とその文書対生成確率とを、アラインメント記憶手段18に記憶することで、アラインメントを更新する。
表現対出現回数更新手段178は、文書中表現対出現回数記憶手段175に記憶されている処理対象の文書対における表現対出現回数と文書対生成確率の総計とを用い、各表現対集合について、表現対の各々がこの表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全文書対にわたって加算することで、表現対出現回数記憶手段12に記憶されている表現対出現回数を更新するものである。
具体的には、表現対出現回数更新手段178は、文書中表現対出現回数記憶手段175に記憶されている表現対のうちで、独立性検定結果記憶手段16で「対応付け可能」または「非対応」と分類されている単言語表現対以外の表現対に関して、表現対出現回数記憶手段12に記憶されている表現対出現回数を、「(文書中表現対出現回数記憶手段175に記憶されている当該表現の対出現回数)/(文書中表現対出現回数記憶手段175に記憶されている文書対生成確率の総計)」により更新する。このとき、「非対応」に分類されている表現対の表現対出現回数は常に“0”であるため、更新後の表現対出現回数についても値は常に“0”となる。
一方、独立性検定結果記憶手段16で「対応付け保留」と分類されていた表現対と、単言語表現対については、以下の手順により表現対出現回数記憶手段12に記憶されている表現対出現回数更新を行う。すなわち、表現対出現回数更新手段178は、文書中表現対出現回数記憶手段175に記憶されている表現対のうち単言語表現対について、文書中表現対出現回数記憶手段175に記憶されている各当該表現対の出現回数の総和(単言語表現対出現総数)をc(d)、「対応付け保留」と分類された表現対および単言語表現対について、表現対出現回数記憶手段12に記憶されている各当該表現対の出現回数の総和(単言語・保留表現対既出現総数)をc′(d)としたとき、表現対出現回数記憶手段12に記憶されている当該表現対に対する表現対出現回数に対して、「c(d)/c′(d)」を乗ずることで、表現対出現回数を更新する。また、表現対出現回数記憶手段12に記憶されている単言語表現対出現回数についても、「c(d)/c′(d)」を乗ずることで更新する。さらに、表現対出現回数記憶手段12に記憶されている単言語表現対同時出現回数についても、「c(d)/c′(d)」を乗ずることで更新する。
このように、表現対出現回数更新手段178は、「対応付け可能」または「非対応」と分類されている単言語表現対でない表現対についてのみ、表現対出現回数をそのまま設定し(「非対応」については、表現対出現回数はすべて“0”)、一方が空単語列の表現対(単言語表現対)については、その総数を、単言語表現対および「対応付け保留」の表現対の出現回数に分配して設定する。
これによって、再度、独立性検定手段15において、独立性検定が行われる際に、「非対応」とされた表現対が処理対象から除外され、また、「対応付け保留」とされていた表現対のいくつかが「対応付け可能」または「非対応」に再分類されることになる。
なお、表現対出現回数更新手段178は、表現対出現回数の更新後、所定の終了条件を満たすまで、表現対同時確率計算手段13に繰り返しを指示する。この終了条件は、例えば、予め定めた回数であってもよいし、対訳コーパス全体の文書対生成確率の総計の平均改善率が予め定めた値以下に収束することを条件としてもよい。さらに、表現対出現回数更新手段178は、終了条件を満たした場合、処理対象文書対選択手段170に対して、処理を行っていない文書対に対する処理を行う旨を指示する。
図2に戻って、対訳表現アラインメント装置1の構成について説明を続ける。
アラインメント記憶手段18は、表現対集合を記憶するものであって、ハードディスクなどの一般的な記憶装置である。また、ここでは、アラインメント記憶手段18は、表現対集合によって文書対が生成される確率(文書対生成確率)も記憶している。このアラインメント記憶手段18に記憶された表現対集合は、対訳コーパスのアラインメントの結果を示すことになる。
以上説明したように対訳表現アラインメント装置1を構成することで、対訳表現アラインメント装置1は、表現対同時確率の計算、アラインメントの実施、表現対出現回数の更新からなる一連の処理を繰り返し実行することにより、最適化された表現対同時確率を得ることができる。そして、対訳表現アラインメント装置1は、各文書対に対して列挙された表現アラインメントのうち、その文書対生成確率が最も高いものとして、この文書対に対する最適な表現アラインメントを得ることができる。また、対訳表現アラインメント装置1は、一般的なコンピュータを、前記した各手段として機能させる対訳アラインメントプログラムによって動作させることができる。
なお、本発明は、この実施形態で説明した構成に限定されるものではない。例えば、対訳表現アラインメント装置1から、独立性検定手段15と独立性検定結果記憶手段16とを省略して構成してもよい。この場合であっても、表現対として、一方の言語側に空単語列(φ)を対応付けることで、直訳の対訳コーパスを用いなくてもアラインメントを行うことができる。しかし、アラインメントの精度を高めるためには、表現対の独立性検定を行うことが望ましい。
また、ここでは、対訳表現アラインメント装置1は、種々の記憶手段を個別に設けた構成としているが、それらを1つの記憶装置で構成し、記憶領域を分けて管理することとしてもよい。
[対訳表現アラインメント装置の動作]
次に、図4を参照(構成については、適宜図2参照)して、本発明の実施形態に係る対訳表現アラインメント装置の動作について説明する。図4は、本発明の実施形態に係る対訳表現アラインメント装置の動作を示すフローチャートである。
まず、対訳表現アラインメント装置1は、対訳コーパス記憶手段10に記憶されている対訳コーパス全体にわたって、2言語表現対が出現する回数の期待値(表現対出現回数および単言語表現対出現回数)を計算し、初期値として表現対出現回数記憶手段12に記憶する(ステップS1)。
そして、対訳表現アラインメント装置1は、表現対同時確率計算手段13によって、表現対出現回数記憶手段12に記憶されている表現対出現回数(単言語表現対出現回数を含む)を用いて、表現対が対訳文書対の一部として同時に生起する確率(表現対同時確率)と、同時に出現する回数(表現対同時出現回数)とを計算し、表現対同時確率記憶手段14に記憶する(ステップS2)。
さらに、対訳表現アラインメント装置1は、独立性検定手段15によって、統計処理により、表現対が対訳文対の一部として同時に生起する際に、各表現対の関係を、「対応付け可能」、「対応付け保留」および「非対応」の3種類に分類し、その結果(独立性検定結果)を、独立性検定結果記憶手段16に記憶する(ステップS3)。なお、表現対同時出現回数を、独立性検定手段15で計算することとし、ステップS2とステップS3との実行順序を変えても構わない。
そして、対訳表現アラインメント装置1は、アラインメント実施手段17によって、表現対同時確率記憶手段14に記憶されている表現対同時確率、および、独立性検定結果記憶手段16に記憶されている独立性検定結果に基づいて、アラインメントを実施するとともに、表現対出現回数記憶手段12に記憶されている表現対出現回数(単言語表現対出現回数を含む)を更新する(ステップS4)。なお、このステップS4の動作については、後で詳細に説明する。
その後、対訳表現アラインメント装置1は、アラインメント実施手段17によって、所定の終了条件(例えば、回数等)を満たすか否かを判定する(ステップS5)。そして、終了条件を満たさない場合(ステップS5でNo)、対訳表現アラインメント装置1は、ステップS2に戻って動作を継続する。一方、終了条件を満たした場合(ステップS5でYes)、対訳表現アラインメント装置1は、動作を終了する。
以上の動作によって、対訳表現アラインメント装置1は、対訳コーパスにおいて、一方の言語側のみに単語列を有する単言語表現対を許容したモデルを修正していくことで、アラインメントを実施する。
(アラインメント実施手段の動作)
次に、図5を参照(構成については、適宜図2および図3参照)して、本発明の実施形態に係る対訳表現アラインメント装置1のアラインメント実施手段17の動作について説明する。図5は、本発明の実施形態に係る対訳表現アラインメント装置のアラインメント実施手段の動作を示すフローチャートである。なお、図5に示した動作は、図4に示した対訳表現アラインメント装置1の動作のうち、ステップS4の動作に相当する。
まず、アラインメント実施手段17は、処理対象文書対選択手段170によって、対訳コーパス記憶手段10に記憶されている対訳コーパスから、処理を行っていない文書対(処理対象文書対)を選択し、処理対象文書対記憶手段171に記憶する(ステップS11)。
そして、アラインメント実施手段17は、表現対選択手段172によって、表現対同時確率記憶手段14に記憶されている対訳文書対の一部として同時に生起する表現対のうちで、処理対象文書対記憶手段171に記憶されている処理対象文書対の一部を構成するものであり、かつ、独立性検定結果記憶手段16で「対応付け可能」と分類されていたものをすべて選択し、その表現対と表現対同時確率とを選択済表現対同時確率記憶手段173に記憶する(ステップS12)。
そして、アラインメント実施手段17は、初期アラインメント生成手段174によって、選択済表現対同時確率記憶手段173に記憶されている表現対のいくつかを組み合わせることで、処理対象文書対記憶手段171に記憶されている文書対を過不足なく生成し得る表現対集合(アラインメント)を初期アラインメントとして生成する(ステップS13)。
さらに、アラインメント実施手段17は、初期アラインメント生成手段174によって、表現対集合によって文書対が生成される確率(文書対生成確率)を、各表現対の生起確率の積を計算することで求める(ステップS14)。なお、初期アラインメント生成手段174が生成した表現対集合(アラインメント)および文書対生成確率は、アラインメント記憶手段18に記憶される。
そして、アラインメント実施手段17は、文書中表現対出現回数収集手段176によって、表現対の出現回数と文書対生成確率の総計とをそれぞれ収集し、文書中表現対出現回数記憶手段175に記憶する(ステップS15)。
そして、アラインメント実施手段17は、アラインメント改善案探索手段177によって、アラインメント記憶手段18に記憶されている表現対集合(アラインメント)に対して、文書中表現対出現回数記憶手段175に記憶されている文書対生成確率よりも確率が高くなるような、文書対を過不足なく生成し得る表現対集合を探索する(ステップS16)。
ここで、アラインメント実施手段17は、ステップS16の探索結果を判定し(ステップS17)、確率の高い表現対集合が探索された場合(ステップS17でYes)、ステップS15に戻って動作を継続する。一方、確率の高い表現対集合が探索されなかった場合(ステップS17でNo)、アラインメント実施手段17は、ステップS18に動作を進める。
そして、アラインメント実施手段17は、表現対出現回数更新手段178によって、「対応付け可能」と分類された表現対の出現回数を、文書対生成確率の総計により除して、表現対出現回数記憶手段12に記憶されている表現対出現回数を更新する。さらに、アラインメント実施手段17は、表現対出現回数更新手段178によって、「対応付け保留」と分類された表現対出現回数と単言語表現対出現回数(単言語表現対同時出現回数を含む)とを、「対応付け保留」と分類された表現対出現回数と単言語表現対出現回数との総和に対する単言語表現対出現回数の割合を乗ずることで、表現対出現回数記憶手段12に記憶されている表現対出現回数を更新する(ステップS18)。
そして、アラインメント実施手段17は、処理対象文書対選択手段170によって、すべての文書対について処理を行ったか否かを判定する(ステップS19)。そして、未処理の文書対が存在する場合(ステップS19でNo)、アラインメント実施手段17は、ステップS11に戻って動作を継続する。一方、すべての文書対が処理済となった場合(ステップS19でYes)、アラインメント実施手段17は動作を終了する。
以上の動作によって、「対応付け保留」となった表現対が、順次「対応付け可能」または「非対応」のいずれかに割り振られ、相関の強い表現対でアラインメントが実施されることになる。
本発明のアラインメント手法の概要を説明するための説明図であって、(a)は対訳コーパスの内容を模式的に示し、(b)は従来のアラインメント手法の概要、(c)は本発明のアラインメント手法の概要をそれぞれ示している。 本発明の実施形態に係る対訳表現アラインメント装置の構成を示すブロック図である。 本発明の実施形態に係る対訳表現アラインメント装置のアラインメント実施手段の構成を示すブロック図である。 本発明の実施形態に係る対訳表現アラインメント装置の動作を示すフローチャートである。 本発明の実施形態に係る対訳表現アラインメント装置のアラインメント実施手段の動作を示すフローチャートである。
符号の説明
1 対訳表現アラインメント装置
10 対訳コーパス記憶手段
11 初期表現回数計算手段
12 表現対出現回数記憶手段
13 表現対同時確率計算手段
14 表現対同時確率記憶手段
15 独立性検定手段
16 独立性検定結果記憶手段
17 アラインメント実施手段
170 処理対象文書選択手段
171 処理対象文書対記憶手段
172 表現対選択手段
173 選択済表現対同時確率記憶手段
174 初期アラインメント生成手段
175 文書中表現対出現回数記憶手段
176 文書中出現回数収集手段
177 アラインメント改善案探索手段
178 表現対出現回数更新手段
18 アラインメント記憶手段

Claims (4)

  1. 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行う対訳表現アラインメント装置であって、
    前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算する初期表現対回数計算手段と、
    この初期表現対回数計算手段で計算された表現対出現回数および単言語表現対出現回数を前記表現対に対応付けて記憶する表現対出現回数記憶手段と、
    この表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段と、
    この表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段と、を備え、
    前記アラインメント実施手段は、
    前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、前記表現対出現回数を更新する表現対出現回数更新手段を備え、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメント装置。
  2. 前記表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、前記表現対を、それぞれ対応付け可能、対応付け保留および非対応に分類する独立性検定手段を備え、
    前記アラインメント実施手段は、前記表現対出現回数更新手段によって、2言語表現対についての前記加算結果を用いて、前記表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新するとともに、単言語表現対についての前記加算結果をさらに全単言語表現対について総和した数である単言語表現対出現総数、および、単言語表現対および前記対応付け保留に分類された2言語表現対について、前記表現対出現回数を総和した数である単言語・保留表現対既出現総数を用いて、前記表現対出現回数記憶手段に記憶されている単言語表現対および前記対応付け保留に分類された2言語表現対の出現回数の各々を、前記単言語・保留表現対既出現総数に対する前記単言語表現対出現総数の割合を乗ずることで更新することを特徴とする請求項1に記載の対訳表現アラインメント装置。
  3. 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、
    前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算して、表現対出現回数記憶手段に記憶させる初期表現対回数計算手段、
    前記表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段、
    この表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段、として機能させ、
    前記アラインメント実施手段は、
    前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、前記表現対出現回数を更新する表現対出現回数更新手段を備え、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメントプログラム。
  4. 2言語の対訳文書対において、単語や単語の連なりからなる表現ごとの対である表現対の対応付けを行うために、コンピュータを、
    前記対訳文書対において、1単語以上の単語列である表現が対として出現する回数の期待値である2言語表現対出現回数と、一方の言語側が空単語列であって、他方の言語側が1単語以上の単語列である表現が対として出現する回数の期待値である単言語表現対出現回数とを計算して、表現対出現回数記憶手段に記憶させる初期表現対回数計算手段、
    前記表現対出現回数記憶手段に記憶されている前記表現対出現回数および前記単言語表現対出現回数に基づいて、前記表現対が前記対訳文書対の一部として同時に生起する確率である表現対同時確率を計算する表現対同時確率計算手段、
    前記表現対出現回数記憶手段に記憶されている2言語表現対出現回数から、各2言語表現対が生成する2言語表現間の相関性を統計処理により求め、その相関の度合いに基づいて、予め定めた閾値により、前記表現対を、それぞれ対応付け可能、対応付け保留および非対応に分類する独立性検定手段、
    前記表現対同時確率計算手段で計算された表現対同時確率に基づいて、前記対訳文書対を過不足なく生成し得る表現対集合を探索するとともに、当該表現対集合の各々について、各表現対同時確率の積である文書対生成確率を求めるアラインメント実施手段、として機能させ、
    前記アラインメント実施手段は、
    前記表現対集合について、前記表現対の各々が前記表現対集合による文書対生成確率を出現回数の期待値として出現しているものとして、各表現対について全対訳文書対にわたって加算した加算結果により、2言語表現対についての前記加算結果を用いて、前記表現対出現回数記憶手段に記憶されている当該表現対の出現回数を更新するとともに、単言語表現対についての前記加算結果をさらに全単言語表現対について総和した数である単言語表現対出現総数、および、単言語表現対および前記対応付け保留に分類された2言語表現対について、前記表現対出現回数を総和した数である単言語・保留表現対既出現総数を用いて、前記表現対出現回数記憶手段に記憶されている単言語表現対および前記対応付け保留に分類された2言語表現対の出現回数の各々を、前記単言語・保留表現対既出現総数に対する前記単言語表現対出現総数の割合を乗ずることで更新し、順次、更新された表現対出現回数により前記表現対同時確率計算手段が再計算した表現対同時確率に基づいて、アラインメントを再実施することを特徴とする対訳表現アラインメントプログラム。
JP2007229863A 2007-09-05 2007-09-05 対訳表現アラインメント装置およびそのプログラム Expired - Fee Related JP4939347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007229863A JP4939347B2 (ja) 2007-09-05 2007-09-05 対訳表現アラインメント装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007229863A JP4939347B2 (ja) 2007-09-05 2007-09-05 対訳表現アラインメント装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2009064137A true JP2009064137A (ja) 2009-03-26
JP4939347B2 JP4939347B2 (ja) 2012-05-23

Family

ID=40558687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007229863A Expired - Fee Related JP4939347B2 (ja) 2007-09-05 2007-09-05 対訳表現アラインメント装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP4939347B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242654A (ja) * 2012-05-18 2013-12-05 Nippon Hoso Kyokai <Nhk> 句翻訳モデル学習装置およびそのプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127405A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP2007199793A (ja) * 2006-01-23 2007-08-09 Fuji Xerox Co Ltd 単語アライメント例文対訳辞書学習装置と訳語抽出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127405A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP2007199793A (ja) * 2006-01-23 2007-08-09 Fuji Xerox Co Ltd 単語アライメント例文対訳辞書学習装置と訳語抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242654A (ja) * 2012-05-18 2013-12-05 Nippon Hoso Kyokai <Nhk> 句翻訳モデル学習装置およびそのプログラム

Also Published As

Publication number Publication date
JP4939347B2 (ja) 2012-05-23

Similar Documents

Publication Publication Date Title
Kiyono et al. An empirical study of incorporating pseudo data into grammatical error correction
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
US8209665B2 (en) Identification of topics in source code
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
WO2017130434A1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Wang et al. Joint word alignment and bilingual named entity recognition using dual decomposition
WO2020233269A1 (zh) 由2d图像重建3d模型的方法、装置、设备及存储介质
Shi et al. Fast (er) exact decoding and global training for transition-based dependency parsing via a minimal feature set
US10990763B2 (en) Bias parameters for topic modeling
TW201419014A (zh) 從電子文件中之表結構提取語義關係
Chen et al. Omni-word feature and soft constraint for Chinese relation extraction
JP2023525731A (ja) テキストシーケンス生成方法、装置、機器及び媒体
JPWO2017130434A1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
CN110888876A (zh) 生成数据库脚本的方法、装置、存储介质及计算机设备
JP7197542B2 (ja) テキストワードセグメンテーションの方法、装置、デバイスおよび媒体
JP4939347B2 (ja) 対訳表現アラインメント装置およびそのプログラム
US20210263732A1 (en) Context-based word embedding for programming artifacts
US9146918B2 (en) Compressing data for natural language processing
CN105718441A (zh) 一种查找不同平台间功能相似ui组件的方法和装置
CN111597794B (zh) 一种基于依存关系的“是”字句关系抽取方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees