JP5889225B2 - 近似オラクル文選択装置、方法、及びプログラム - Google Patents

近似オラクル文選択装置、方法、及びプログラム Download PDF

Info

Publication number
JP5889225B2
JP5889225B2 JP2013017542A JP2013017542A JP5889225B2 JP 5889225 B2 JP5889225 B2 JP 5889225B2 JP 2013017542 A JP2013017542 A JP 2013017542A JP 2013017542 A JP2013017542 A JP 2013017542A JP 5889225 B2 JP5889225 B2 JP 5889225B2
Authority
JP
Japan
Prior art keywords
node
sentence
translation
candidate
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013017542A
Other languages
English (en)
Other versions
JP2014149637A (ja
Inventor
宜仁 安田
宜仁 安田
平尾 努
努 平尾
鈴木 潤
潤 鈴木
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013017542A priority Critical patent/JP5889225B2/ja
Publication of JP2014149637A publication Critical patent/JP2014149637A/ja
Application granted granted Critical
Publication of JP5889225B2 publication Critical patent/JP5889225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、近似オラクル文選択装置、方法、及びプログラムに係り、特に、複数の翻訳候補文から、近似オラクル文を選択する近似オラクル文選択装置、方法、及びプログラムに関する。
統計的機械翻訳は、いくつかの構成要素のスコアの線形和によって出力しようとしている翻訳候補を評価し、その値が最大となるような候補を、システムの翻訳文として出力するような技術と捉えることができる。
ここで、構成要素としては、単語と単語の繋がりの出現確率を表した言語モデルや、翻訳元の言語での単語やフレーズと翻訳先の言語での単語やフレーズでの翻訳関係になりやすさを表した翻訳モデル、あるいは翻訳元言語での単語やフレーズが、翻訳先言語でどのように並びやすいかを表した並び換えモデルといったものが広く使われている。
ところで、各翻訳候補は、計算機内部においては語と語の接続を示したグラフ構造で保持されることが一般的であり、本発明でもこのようなグラフ構造を前提とする。このグラフ構造を語ラティスと呼ぶ。例として、ドイツ語「Das ist ein haus.」に対応する英語翻訳候補を表した語ラティスを図2に示す。図中、「S」は文頭を示し、「E」は文末を示す。グラフの各パスが各翻訳候補に相当する。たとえば、図中太線で示したパスは、「this the is an house」という翻訳候補を示す。
翻訳の善し悪しは、事前に定めた翻訳の評価尺度によって計ることが一般的である。もし、評価尺度の値が最大となるような候補文(オラクル文と呼ぶ)を得ることができれば、その候補が選ばれやすいように、先に述べた各構成要素の線形和を得る際の重みを調整することができ、翻訳精度の向上が期待できる。
しかし厳密なオラクル文を得ることは計算量的に困難である。なぜなら、潜在的な候補の数は文中の単語数に対して指数関数的に増大するため、それらすべてを網羅的に確認することは事実上できないからである。例外的に、文の評価尺度が特殊条件を満たす場合、たとえば、単語列に対する局所的なスコアの和や平均になっているのであれば、当業者に広く知られている効率的な手法(たとえばダイクストラ法)によって文の評価尺度が最大となるような候補を得ることが可能であるものの、一般の文評価尺度、たとえば、統計機械翻訳で広く利用されている評価尺度であるBLEU(非特許文献1参照)やRIBES(非特許文献2参照)といった評価尺度ではこのような性質を満たさないので、効率的な手法を適用することはできない。
そこで、厳密に最大ではないけれども、なるべく評価尺度の値が高くなるような候補文(近似オラクル文)の探索を現実的な時間内で見つけだすことが必要となる。
この目的のために、従来より、本来考慮したい評価尺度を局所的なスコアの和として表現できるような評価尺度に変形することによって、その変形した評価尺度に対して最大のスコアとなるような候補文をオラクル文の代替として得る方法が知られている(非特許文献3)。
Papineni, K.; Roukos, S.; Ward, T.; Zhu, W. J. (2002). \BLEU: a method for automatic evaluation of machine translation". ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. pp. 311―318. 平尾努、磯崎秀樹、Kevin Duh、須藤克仁、塚田元、永田昌明RIBES:順位相関に基づく翻訳の自動評価法言語処理学会第17回年次大会発表論文集pp.1115{1118,Mar.2011. Markus Dreyer and Keith Hall and Sanjeev Khudanpur、\Com-paring Reordering Constraints for SMT Using Efficient BLEU Oracle Computation".SSST '07: Proceedings of the NAACL-HLT 2007/AMTA Workshop on Syntax and Structure in Statistical Translation. pp. 103-110.
しかしながら、変形後の評価尺度は、本来考慮したい評価尺度との間には大きな開きがある場合が多々ある。たとえば、上記の非特許文献2に記載のRIBESという評価尺度では、出力された文と、事前に作成した正解翻訳文との間での、単語の並び順を考慮する。この並び順に基づく値(順位相関)は、文全体の代わりに部分的に評価した値を用いたのでは本来の値と大きく異なってしまう、という問題がある。
したがって、従来法における、評価尺度の変形によって近似オラクル文を得たのでは、近似の精度が低い、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、計算量の増大を抑制して、近似オラクル文を精度よく得ることができる近似オラクル文選択装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る近似オラクル文選択装置は、入力された、翻訳元言語の文に対する翻訳処理に得られる翻訳先言語の複数の翻訳候補文を表わし、かつ、前記翻訳候補文の単語列の各単語に対応するノード及び連結される単語に対応するノードを結んだエッジからなる語ラティス、翻訳先言語の正解翻訳文、及び改善参考値αに基づいて、前記複数の翻訳候補文から、最高値に近い翻訳評価尺度が得られる翻訳候補文である近似オラクル文を選択する近似オラクル文選択装置であって、前記語ラティスの各ノードのうちの、文頭を示す文頭ノード及び文末を示す文末ノードを特定済みノードとして記憶した特定ノード記憶手段と、記特定済みノードのうち最も内側の2つのノードのうちの文頭側のノードA連結されている文末寄りのノード数と、前記特定済みノードのうち最も内側の2つのノードのうちの文末側のノードB連結されている文頭寄りのノード数とに基づいて、前記ノードA及び前記ノードBのうち、前記ノード数が少ない方を特定対象端ノードとして決定する特定対象端決定手段と、前記語ラティスから、前記ノードAと前記ノードBとを接続するノード及びエッジからなる部分ラティスを抽出し、前記特定対象端決定手段によって前記特定対象端ノードとして決定された前記ノードAに前記文頭ノードと反対側に連結されている各ノード、または前記特定対象端ノードとして決定された前記ノードBに前記文末ノードと反対側に連結されている各ノードを、次ノード候補とし、前記次ノード候補の各々について、前記部分ラティスにおいて、前記次ノード候補を経由し、かつ、前記ノードAから前記ノードBまでの部分パスを所定回生成し、所定回生成された部分パスの各々について、前記部分パス上の各ノードと前記特定ノード記憶手段に記憶された前記特定済みノードとで表わされる翻訳候補文の翻訳評価尺度を算出し、前記算出された翻訳評価尺度が前記改善参考値αを超えた回数を求め、求められた回数に基づいて前記次ノード候補の改善率を算出し、前記改善率が最も高い前記次ノード候補を、前記特定済みノードとして決定して前記特定ノード記憶手段に更に格納すると共に、前記改善参考値αを、前記算出された翻訳評価尺度の最高値に更新する次ノード決定手段と、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されるまで、前記特定対象端決定手段による決定及び前記次ノード決定手段による各処理を繰り返し、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されたときに、前記特定済みノードの各々で表わされる翻訳候補文を、前記近似オラクル文として出力する終了判定手段と、を含んで構成されている。
本発明に係る近似オラクル文選択方法は、入力された、翻訳元言語の文に対する翻訳処理に得られる翻訳先言語の複数の翻訳候補文を表わし、かつ、前記翻訳候補文の単語列の各単語に対応するノード及び連結される単語に対応するノードを結んだエッジからなる語ラティス、翻訳先言語の正解翻訳文、及び改善参考値αに基づいて、前記複数の翻訳候補文から、最高値に近い翻訳評価尺度が得られる翻訳候補文である近似オラクル文を選択する近似オラクル文選択方法であって、前記語ラティスの各ノードのうちの、文頭を示す文頭ノード及び文末を示す文末ノードを特定済みノードとして記憶した特定ノード記憶手段を含む近似オラクル文選択装置における近似オラクル文選択方法であって、特定対象端決定手段によって、記特定済みノードのうち最も内側の2つのノードのうちの文頭側のノードA連結されている文末寄りのノード数と、前記特定済みノードのうち最も内側の2つのノードのうちの文末側のノードB連結されている文頭寄りのノード数とに基づいて、前記ノードA及び前記ノードBのうち、前記ノード数が少ない方を特定対象端ノードとして決定し、次ノード決定手段によって、前記語ラティスから、前記ノードAと前記ノードBとを接続するノード及びエッジからなる部分ラティスを抽出し、前記特定対象端決定手段によって前記特定対象端ノードとして決定された前記ノードAに前記文頭ノードと反対側に連結されている各ノード、または前記特定対象端ノードとして決定された前記ノードBに前記文末ノードと反対側に連結されている各ノードを、次ノード候補とし、前記次ノード候補の各々について、前記部分ラティスにおいて、前記次ノード候補を経由し、かつ、前記ノードAから前記ノードBまでの部分パスを所定回生成し、所定回生成された部分パスの各々について、前記部分パス上の各ノードと前記特定ノード記憶手段に記憶された前記特定済みノードとで表わされる翻訳候補文の翻訳評価尺度を算出し、前記算出された翻訳評価尺度が前記改善参考値αを超えた回数を求め、求められた回数に基づいて前記次ノード候補の改善率を算出し、前記改善率が最も高い前記次ノード候補を、前記特定済みノードとして決定して前記特定ノード記憶手段に更に格納すると共に、前記改善参考値αを、前記算出された翻訳評価尺度の最高値に更新し、終了判定手段によって、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されるまで、前記特定対象端決定手段による決定及び前記次ノード決定手段による各処理を繰り返し、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されたときに、前記特定済みノードの各々で表わされる翻訳候補文を、前記近似オラクル文として出力する。
本発明に係るプログラムは、コンピュータを、上記の近似オラクル文選択装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の近似オラクル文選択装置、方法、及びプログラムによれば、語ラティスの文頭ノード及び文末ノードから順に、次ノード候補の各々について、次ノード候補を経由する部分パスを生成して部分パスの翻訳候補文の翻訳評価尺度を算出し、改善率が最も高い次ノード候補を、特定済みノードとして決定することを、特定済みノードによって文頭ノードから文末ノードまで接続されるまで繰り返し、特定済みノードの各々で表わされる翻訳候補文を、近似オラクル文として出力することにより、計算量の増大を抑制して、近似オラクル文を精度よく得ることができる、という効果が得られる。
本発明の第1の実施の形態に係る近似オラクル文選択装置の構成を示す概略図である。 語ラティスを示す図である。 特定済みノードを説明するための図である。 部分ラティスを示す図である。 本発明の第1の実施の形態に係る近似オラクル文選択装置における近似オラクル文選択処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る近似オラクル文選択装置における次ノードを決定する処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<第1の実施の形態>
<システム構成>
本発明の第1の実施の形態に係る近似オラクル文選択装置100は、翻訳元言語の入力文に対する機械翻訳処理で得られた翻訳先言語の複数の翻訳候補文を表す語ラティスと翻訳先言語の正解翻訳文と改善参考値パラメータαとが入力され、複数の翻訳候補文から、近似オラクル文を選択する。また、近似オラクル文選択装置100は、近似オラクル文に基づいて、複数の翻訳特徴モデルに対する重みを最適化する。この近似オラクル文選択装置100は、CPUと、RAMと、後述する近似オラクル文選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、近似オラクル文選択装置100は、入力部10と、演算部20と、出力部30を備えている。
入力部10は、入力されたデータとして、翻訳元言語の入力文に対する機械翻訳処理で得られた翻訳先言語の複数の翻訳候補文を表す語ラティスと、予め用意された翻訳先言語の正解翻訳文と、改善参考値パラメータαとを受け付ける。
語ラティスは、図2に示すように、翻訳元言語の文に対する機械翻訳処理で得られた翻訳先言語の複数の翻訳候補文を表わし、かつ、翻訳候補文の単語列の各単語に対応するノード及び連結される単語に対応するノードを結んだエッジからなるグラフ構造である。
演算部20は、特定対象端決定部21、次ノード決定部22、特定済みノード記憶部23、及び終了判定部24を備えている。
演算部20は、大まかな流れとして、語ラティスにおいて可能なさまざまなパスについて試行を繰り返し、その中でもっとも高い翻訳評価尺度のパスを出力する。ただ、やみくもに試行を繰り返したのでは高い翻訳評価尺度のパスを選択できる可能性が低いため、高い翻訳評価尺度を得られそうな単語を文頭と文末との各々から順に特定していき、次第にパスを決定していくという操作を行う。
特定済みノード記憶部23は、入力された語ラティスの各ノードのうち、既に特定済みのノードを記憶する。たとえば、図3において、網かけのノード(「S」)、ノード(「this」)、及びノード(「E」)は特定済みノードであるので、これらのノードが、特定済みノード記憶部23に特定済みノードとして記憶される。
近似オラクル文選択装置100の動作開始時に、初期状態として、文頭を示すノード(「S」)と文末を示すノード(「E」)とが、特定済みノードとして特定済みノード記憶部23に記憶される。
特定対象端決定部21は、特定済みノード記憶部23に記憶された特定済みノードに基づいて、入力された語ラティス中で、特定済みのノードのうち、最も内側の2つのノードを特定し、特定された2つのノードのうち、次候補の少ない方のノードを、特定対象端ノードとして決定する。
すなわち、文頭ノードに接続されている特定済みノードを辿って到達する最も文末寄りのノードA(文頭ノードからの距離(エッジ数)が最も遠いノード)と、文末ノードに接続されている特定済みノードを辿って到達する最も文頭寄りのノードB(文末ノードからの距離(エッジ数)が最も遠いノード)について、ノードAに連結されている文末寄りのノード数NAと、ノードBに連結されている文頭寄りのノード数NBとを比較し、NA<NBであれば、ノードAを、特定対象端ノードとしてノードAを出力し、そうでなければ特定対象端ノードとしてノードBを出力する。
次ノード決定部22は、特定対象端決定部21によって出力された特定対象端ノードA又はBに連結されている内側のノードの各々を、次ノード候補とし、次ノード候補のうちのひとつを次ノードとして選択し、特定済みノードとする。上記図3の例では、次ノード候補は、特定対象端ノードとして決定される特定済みノード(「this」)に連結されている文末寄りのノード(「is」)とノード(「the」)である。
次ノード決定部22は、試行結果生成部221と、ノード毎改善率記憶部222と、次ノード候補選択部223とを備えている。
試行結果生成部221は、まず、入力された語ラティスから、特定済みのノードのうちの最も内側の2つのノード(上述のノードA、B)の間を接続する各ノード及び各エッジからなる部分ラティスを抽出する(図4参照)。試行結果生成部221は、抽出された部分ラティスを対象に、次ノード候補のそれぞれについて、予め指定された回数k回の試行を繰り返して、部分ラティス中の次ノード候補を経由する部分パスをk回生成しながら、当該次ノード候補を経由した部分パスの試行回数を、ノード毎改善率記憶部222に格納する。
部分パスの生成では、次ノード候補が、文頭寄りのノードである場合には、部分ラティス中の次ノード候補から順に、文末寄りに連結されているノードをランダムに選択していき、部分ラティス中の末尾(上記のノードB)に到達するまで繰り返し、ランダムな部分パスを得る。次ノード候補が、文末寄りのノードである場合には、部分ラティス中の先頭(上記のノードA)から順に、文末寄りに連結されているノードをランダムに選択していき、部分ラティス中の次ノード候補に到達するまで繰り返し、ランダムな部分パスを得る。
また、試行結果生成部221は、生成した部分パス毎に、当該部分パスと、語ラティス中の各特定済みノードとを結合して、文頭から文末までのパスを得て、翻訳候補文を取得し、当該翻訳候補文について、入力された正解翻訳文に基づいて、翻訳評価尺度(例えば、BLEU)を算出し、算出した翻訳評価尺度が改善参考値パラメータαを超えている場合には、改善を示す「1」を出力し、そうでなければ「0」を出力する。
また、試行結果生成部221は、次ノード候補のそれぞれについて、「1」を返した回数(改善回数)を、ノード毎改善率記憶部222に格納する。
ノード毎改善率記憶部222は、次ノード候補それぞれについて、当該次候補ノードを経由したパスの試行回数と改善回数とを記憶する。
次ノード候補選択部223は、次ノード候補のそれぞれの改善率を、ノード毎改善率記憶部222を参照して、以下の式により算出する。
次ノード候補の改善率=改善回数/試行回数
次ノード候補選択部223は、改善率の最も高い次ノード候補を次ノードとして選択し、選択したノードを、特定済みノードとして、特定済みノード記憶部23に更に格納する。
また、次ノード候補選択部223は、次回以降の改善参考値パラメータαとして利用するために、改善参考値パラメータαを、(次ノード候補数×k)回の試行中で最も高かった翻訳評価尺度の値に更新する。
終了判定部24は、特定済みノード記憶部23に記憶されている特定済みノードに基づいて、語ラティスにおいて、文頭ノード及び文末ノードの各々から接続されている特定済みノードが隣接しているかを確認し、隣接していない場合は、特定済みノードによって文頭ノードから文末ノードまで接続されていないと判断し、特定対象端決定部21及び次ノード決定部22の処理を繰り返す。語ラティスにおいて、文頭ノード及び文末ノードの各々から接続されている特定済みノードが隣接している場合は、特定済みノードによって文頭ノードから文末ノードまで接続されていると判断し、文頭ノードから文末ノードまでの各特定済みノードの単語を結合して生成される翻訳候補文を、近似オラクル文として出力部30により出力する。
そして、統計翻訳処理で参照される複数の翻訳特徴モデル(例えば、翻訳モデル、言語モデル、及び並び替えモデル)の各々に対する重みを調整する場合には、翻訳元言語の当該入力文と、上述したように得られた近似オラクル文とのデータセットに基づいて、複数の翻訳特徴モデルの各々に対する重みを調整する。
例えば、近似オラクル文を含む複数の翻訳候補文の各々について、複数の翻訳特徴モデルの各々に対する特徴量を算出し、各翻訳特徴モデルの特徴量からなる特徴ベクトルF(=(f1、f2、f3))を算出する。各翻訳候補文について、各翻訳特徴モデルに対する重みからなる重みベクトルWを用いて、各翻訳特徴モデルの特徴量の重み付き加算値を、翻訳特徴スコアとして算出する。そして、近似オラクル文に、高い翻訳特徴スコアがつくように、各翻訳特徴モデルの重みを調整する。
<近似オラクル文選択装置の作用>
次に、第1の実施の形態に係る近似オラクル文選択装置100の作用について説明する。まず、翻訳元言語の入力文に対して機械翻訳処理を行って得られた複数の翻訳候補文を表わす語ラティスと、翻訳先言語の正解翻訳文と、改善参考値パラメータαとが、近似オラクル文選択装置100に入力されると、近似オラクル文選択装置100によって、図5に示す近似オラクル文選択処理ルーチンが実行される。
まず、ステップS101において、入力された語ラティスの中から、特定済みのノードのうち、最も内側の2つのノードを特定し、特定された2つのノードのうち、次候補の少ない方のノードを、特定対象端ノードとして決定する。
そして、ステップS102において、上記ステップS101で決定された特定対象端ノードに連結された内側のノードの各々を、次ノード候補とし、次ノード候補のうちのひとつを次ノードとして選択し、特定済みノードとする。
ここで、上記ステップS102は、図6に示す処理ルーチンによって実現される。
まず、ステップS1021において、入力された語ラティスから、特定済みノードのうちの最も内側の2つのノードA、Bを接続する部分ラティスを抽出する。
そして、次ノード候補の全てについて、ステップS1021〜S1022の処理をk回繰り返す処理を、繰り返し行う。
ステップS1022では、処理対象の次ノード候補に対する試行を行い、上記ステップS1021で生成された部分ラティスにおける、処理対象の次ノード候補を経由するパスを生成する。そして、ステップS1023において、上記ステップS1022で生成されたパスと、特定済みノードとを結合して、翻訳候補文を生成し、入力された正解翻訳文に基づいて、当該翻訳候補文の翻訳評価尺度を算出する。そして、算出した翻訳評価尺度と改善参考値パラメータαとを比較して、翻訳評価尺度が改善されたか否かを判定し、ノード毎改善率記憶部222に記憶されている、処理対象の次ノード候補に対する、改善回数と試行回数とを更新する。
そして、ステップS1024では、ノード毎改善率記憶部222に記憶されている、次ノード候補の各々に対する改善回数と試行回数とに基づいて、次ノード候補の各々に対する改善率を算出し、算出された改善率が最も高い次ノード候補を、次ノードとして選択し、当該次ノード候補を、特定済みノードとして特定済みノード記憶部23に更に格納する。
次のステップS1025では、改善参考値パラメータαを、上記ステップS1023で算出された翻訳評価尺度の最高値に更新し、当該処理ルーチンを終了する。
そして、ステップS103において、特定済みノード記憶部23に記憶されている特定済みノードに基づいて、特定済みノードによって文頭ノードから文末ノードまで接続されているか否かを判定する。特定済みノードによって文頭ノードから文末ノードまで接続されていない場合には、上記ステップS101へ戻り、特定対象端ノードを再度決定する。
一方、特定済みノードによって文頭ノードから文末ノードまで接続されている場合には、ステップS104において、文頭ノードから文末ノードまでの各特定済みノードの単語を結合して生成される翻訳候補文を、近似オラクル文として出力部30により出力して、近似オラクル文選択処理ルーチンを終了する。
そして、出力された近似オラクル文を用いて、翻訳特徴モデルの各々に対する重みが、近似オラクル文に対する翻訳スコアが高くなるように調整される。
以上説明したように、本実施の形態に係る近似オラクル文選択装置によれば、語ラティスの両端(文頭ノード及び文末ノード)から順に、次ノード候補の各々について、k回の試行により、当該次ノード候補を経由する部分パスをk回生成して各部分パスの翻訳候補文の翻訳評価尺度を算出し、改善参考値と比較して改善回数を求め、改善率が最も高い次ノード候補を、特定済みノードとして決定することを、特定済みノードによって文頭ノードから文末ノードまで接続されるまで繰り返し、特定済みノードの各々で表わされる翻訳候補文を、近似オラクル文として出力することにより、計算量の増大を抑制して、近似オラクル文を精度よく得ることができる。
また、本実施の形態に係る近似オラクル文選択装置によれば、翻訳評価尺度を変更することなく近似オラクル文を得るため、より高い精度での近似が可能となる。また、単純に試行を繰り返す方法に比べて、確度の高い部分(すなわち、改善率が高い部分)から順に特定していくことにより、無駄な試行が減るため、同じ試行回数であればより高い精度の近似が可能となる。
<第2の実施の形態>
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る近似オラクル文選択装置は、第1の実施の形態と同様の構成であるため、同一符号を付して説明を省略する。
第2の実施の形態では、語ラティスの各エッジに重みが付与されている点が、第1の実施の形態と異なっている。
第2の実施の形態に係る近似オラクル文選択装置に入力される語ラティスでは、各エッジに、機械翻訳処理で求められた重みが付与されている。例えば、連結される単語間の尤もらしさに応じた重みが、機械翻訳処理において求められ、語ラティスにおける当該単語間を示すエッジに、重みが付与される。
試行結果生成部221における部分パスの生成では、次ノード候補が、文頭寄りのノードである場合には、部分ラティス中の次ノード候補から順に、文末寄りに連結されているノードを、エッジに付与された重みに応じた確率で選択していき、部分ラティス中の末尾(上記のノードB)に到達するまで繰り返し、確率的に部分パスを得る。次ノード候補が、文末寄りのノードである場合には、部分ラティス中の先頭(上記のノードA)から順に、文末寄りに連結されているノードを、エッジに付与された重みに応じた確率で選択していき、部分ラティス中の次ノード候補に到達するまで繰り返し、確率的に部分パスを得る。
なお、第2の実施の形態に係る近似オラクル文選択装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
このように、語ラティスの各エッジに重みが付与されていても、翻訳評価尺度を変更することなく近似オラクル文を得るため、より高い精度での近似が可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、複数の翻訳候補文を得るための機械翻訳処理や、各翻訳特徴モデルに対する重みの調整処理を、近似オラクル文選択装置とは別の装置で行ってもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 特定対象端決定部
22 次ノード決定部
23 ノード記憶部
24 終了判定部
30 出力部
100 近似オラクル文選択装置
221 試行結果生成部
222 ノード毎改善率記憶部
223 次ノード候補選択部

Claims (7)

  1. 入力された、翻訳元言語の文に対する翻訳処理に得られる翻訳先言語の複数の翻訳候補文を表わし、かつ、前記翻訳候補文の単語列の各単語に対応するノード及び連結される単語に対応するノードを結んだエッジからなる語ラティス、翻訳先言語の正解翻訳文、及び改善参考値αに基づいて、前記複数の翻訳候補文から、最高値に近い翻訳評価尺度が得られる翻訳候補文である近似オラクル文を選択する近似オラクル文選択装置であって、
    前記語ラティスの各ノードのうちの、文頭を示す文頭ノード及び文末を示す文末ノードを特定済みノードとして記憶した特定ノード記憶手段と、
    記特定済みノードのうち最も内側の2つのノードのうちの文頭側のノードA連結されている文末寄りのノード数と、前記特定済みノードのうち最も内側の2つのノードのうちの文末側のノードB連結されている文頭寄りのノード数とに基づいて、前記ノードA及び前記ノードBのうち、前記ノード数が少ない方を特定対象端ノードとして決定する特定対象端決定手段と、
    前記語ラティスから、前記ノードAと前記ノードBとを接続するノード及びエッジからなる部分ラティスを抽出し、
    前記特定対象端決定手段によって前記特定対象端ノードとして決定された前記ノードAに前記文頭ノードと反対側に連結されている各ノード、または前記特定対象端ノードとして決定された前記ノードBに前記文末ノードと反対側に連結されている各ノードを、次ノード候補とし、
    前記次ノード候補の各々について、前記部分ラティスにおいて、前記次ノード候補を経由し、かつ、前記ノードAから前記ノードBまでの部分パスを所定回生成し、所定回生成された部分パスの各々について、前記部分パス上の各ノードと前記特定ノード記憶手段に記憶された前記特定済みノードとで表わされる翻訳候補文の翻訳評価尺度を算出し、前記算出された翻訳評価尺度が前記改善参考値αを超えた回数を求め、求められた回数に基づいて前記次ノード候補の改善率を算出し、
    前記改善率が最も高い前記次ノード候補を、前記特定済みノードとして決定して前記特定ノード記憶手段に更に格納すると共に、前記改善参考値αを、前記算出された翻訳評価尺度の最高値に更新する次ノード決定手段と、
    前記特定済みノードによって前記文頭ノードから文末ノードまで接続されるまで、前記特定対象端決定手段による決定及び前記次ノード決定手段による各処理を繰り返し、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されたときに、前記特定済みノードの各々で表わされる翻訳候補文を、前記近似オラクル文として出力する終了判定手段と、
    を含む近似オラクル文選択装置。
  2. 前記次ノード決定手段は、前記次ノード候補の各々について、前記ノードAに連結されている前記次ノード候補から順に隣接するノードを前記ノードBに到達するまでランダムに選択し、または前記ノードAから順に隣接するノードを前記ノードBに連結されている前記次ノード候補に到達するまでランダムに選択することにより前記次ノード候補を経由する前記部分パスを生成することを前記所定回行う請求項1記載の近似オラクル文選択装置。
  3. 前記語ラティスの各エッジに重みが付与されており、
    前記次ノード決定手段は、前記次ノード候補の各々について、前記ノードBに到達するまで、前記ノードAに連結されている前記次ノード候補から順に隣接するノードをエッジに付与された重みに応じた確率で選択し、または前記ノードBに連結されている前記次ノード候補に到達するまで、前記ノードAから順に隣接するノードをエッジに付与された重みに応じた確率で選択することにより前記次ノード候補を経由する前記部分パスを生成することを前記所定回行う請求項1記載の近似オラクル文選択装置。
  4. 入力された、翻訳元言語の文に対する翻訳処理に得られる翻訳先言語の複数の翻訳候補文を表わし、かつ、前記翻訳候補文の単語列の各単語に対応するノード及び連結される単語に対応するノードを結んだエッジからなる語ラティス、翻訳先言語の正解翻訳文、及び改善参考値αに基づいて、前記複数の翻訳候補文から、最高値に近い翻訳評価尺度が得られる翻訳候補文である近似オラクル文を選択する近似オラクル文選択方法であって、前記語ラティスの各ノードのうちの、文頭を示す文頭ノード及び文末を示す文末ノードを特定済みノードとして記憶した特定ノード記憶手段を含む近似オラクル文選択装置における近似オラクル文選択方法であって、
    特定対象端決定手段によって、前記特定済みノードのうち最も内側の2つのノードのうちの文頭側のノードA連結されている文末寄りのノード数と、前記特定済みノードのうち最も内側の2つのノードのうちの文末側のノードB連結されている文頭寄りのノード数とに基づいて、前記ノードA及び前記ノードBのうち、前記ノード数が少ない方を特定対象端ノードとして決定し、
    次ノード決定手段によって、前記語ラティスから、前記ノードAと前記ノードBとを接続するノード及びエッジからなる部分ラティスを抽出し、
    前記特定対象端決定手段によって前記特定対象端ノードとして決定された前記ノードAに前記文頭ノードと反対側に連結されている各ノード、または前記特定対象端ノードとして決定された前記ノードBに前記文末ノードと反対側に連結されている各ノードを、次ノード候補とし、
    前記次ノード候補の各々について、前記部分ラティスにおいて、前記次ノード候補を経由し、かつ、前記ノードAから前記ノードBまでの部分パスを所定回生成し、所定回生成された部分パスの各々について、前記部分パス上の各ノードと前記特定ノード記憶手段に記憶された前記特定済みノードとで表わされる翻訳候補文の翻訳評価尺度を算出し、前記算出された翻訳評価尺度が前記改善参考値αを超えた回数を求め、求められた回数に基づいて前記次ノード候補の改善率を算出し、
    前記改善率が最も高い前記次ノード候補を、前記特定済みノードとして決定して前記特定ノード記憶手段に更に格納すると共に、前記改善参考値αを、前記算出された翻訳評価尺度の最高値に更新し、
    終了判定手段によって、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されるまで、前記特定対象端決定手段による決定及び前記次ノード決定手段による各処理を繰り返し、前記特定済みノードによって前記文頭ノードから文末ノードまで接続されたときに、前記特定済みノードの各々で表わされる翻訳候補文を、前記近似オラクル文として出力する
    近似オラクル文選択方法。
  5. 前記次ノード決定手段によって前記部分パスを生成することは、前記次ノード候補の各々について、前記ノードAに連結されている前記次ノード候補から順に隣接するノードを前記ノードBに到達するまでランダムに選択し、または前記ノードAから順に隣接するノードを前記ノードBに連結されている前記次ノード候補に到達するまでランダムに選択することにより前記次ノード候補を経由する前記部分パスを生成することを前記所定回行う請求項4記載の近似オラクル文選択方法
  6. 前記語ラティスの各エッジに重みが付与されており、
    前記次ノード決定手段によって前記部分パスを生成することは、前記次ノード候補の各々について、前記ノードBに到達するまで、前記ノードAに連結されている前記次ノード候補から順に隣接するノードをエッジに付与された重みに応じた確率で選択し、または前記ノードBに連結されている前記次ノード候補に到達するまで、前記ノードAから順に隣接するノードをエッジに付与された重みに応じた確率で選択することにより前記次ノード候補を経由する前記部分パスを生成することを前記所定回行う請求項4記載の近似オラクル文選択方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の近似オラクル文選択装置の各手段として機能させるためのプログラム。
JP2013017542A 2013-01-31 2013-01-31 近似オラクル文選択装置、方法、及びプログラム Active JP5889225B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013017542A JP5889225B2 (ja) 2013-01-31 2013-01-31 近似オラクル文選択装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013017542A JP5889225B2 (ja) 2013-01-31 2013-01-31 近似オラクル文選択装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014149637A JP2014149637A (ja) 2014-08-21
JP5889225B2 true JP5889225B2 (ja) 2016-03-22

Family

ID=51572580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013017542A Active JP5889225B2 (ja) 2013-01-31 2013-01-31 近似オラクル文選択装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5889225B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3559479B2 (ja) * 1999-09-22 2004-09-02 日本電信電話株式会社 連続音声認識方法
CN102150156B (zh) * 2008-07-03 2015-06-10 谷歌公司 优化用于机器翻译的参数
JP2011180823A (ja) * 2010-03-01 2011-09-15 National Institute Of Information & Communication Technology 機械翻訳装置、機械翻訳方法、およびプログラム

Also Published As

Publication number Publication date
JP2014149637A (ja) 2014-08-21

Similar Documents

Publication Publication Date Title
US10515155B2 (en) Conversational agent
JP5377889B2 (ja) 言語処理装置およびプログラム
KR101939209B1 (ko) 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
JP6498095B2 (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
JP6794921B2 (ja) 興味判定装置、興味判定方法、及びプログラム
JPWO2008004666A1 (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
CN112800737B (zh) 自然语言文本生成方法和装置以及对话系统
CN106411683A (zh) 一种关键社交信息的确定方法及装置
JP2011164175A (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5851378B2 (ja) 時系列データ探索方法、装置、及びプログラム
JP6291440B2 (ja) パラメータ学習方法、装置、及びプログラム
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP5889225B2 (ja) 近似オラクル文選択装置、方法、及びプログラム
WO2020040255A1 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
JP5980142B2 (ja) 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP6712973B2 (ja) 文生成装置、文生成学習装置、文生成方法、及びプログラム
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6261669B2 (ja) クエリ校正システムおよび方法
US11704485B2 (en) Phrase vector learning device, method, and program
JP6550677B2 (ja) 符号化装置、復号化装置、離散系列変換装置、方法、及びプログラム
KR102436900B1 (ko) 양방향 언어 모델을 이용한 문장 평가 방법 및 장치
JP2018077677A (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
JP2013171330A (ja) テキスト要約装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160216

R150 Certificate of patent or registration of utility model

Ref document number: 5889225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150