JP2006053683A

JP2006053683A - 音声認識および機械翻訳装置

Info

Publication number: JP2006053683A
Application number: JP2004233687A
Authority: JP
Inventors: Ruiqiang Zhang; ルイチャン・ツァン; Genichiro Kikui; 玄一郎菊井; Hiroshi Yamamoto; 博史山本; Taro Watanabe; 太郎渡辺; Soong Frank; フランク・スーン; Kit Lo Wai; ワイ・キット・ロー
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-08-10
Filing date: 2004-08-10
Publication date: 2006-02-23

Abstract

【要約書】
【課題】第１の言語の音声をより高い信頼性をもって第２の言語の正しいテキストに翻訳する機械翻訳システムを提供する。
【解決手段】音声認識および機械翻訳装置２０は、Ｎベストの仮説を出力するための自動音声認識（ＡＳＲ）モジュール８０と、Ｎベスト仮説の各々に対しＫ個の訳文候補を引出すための統計的機械翻訳（ＳＭＴ）モジュール８４と、ＡＳＲモジュール８０とＳＭＴモジュール８４とから得られる特徴量を組合せて訳文候補の各々にスコアを割当てる再スコアリングモジュール５６とを含む。
【選択図】図１

Description

この発明は機械翻訳に関し、特に、音声認識と機械翻訳のカスケード構造を含むシステムに関する。

グローバルなセルラー電話およびいわゆるＩＰ（インターネットプロトコル）電話等の現代の通信システムが発展するにつれて、さらに現代の交通手段の発達につれて、より多くの人々が様々な国の同僚や、友人や仕事相手と直接会って、またはオーディオビジュアルな通信を介して、話す機会が増してくるであろう。残念ながら、多くの人にとって母国語以外の言語を話したり聴いたりすることは困難である。このため、スピーチ・ツー・スピーチ機械翻訳の重要性が増している。

このようなスピーチ・ツー・スピーチ機械翻訳の２つの重要な要素は、音声認識と機械翻訳である。現在の翻訳システムでは通常、音声認識に続いて機械翻訳が行なわれる。
ハーマンネイ、「音声翻訳：認識と翻訳との結合」、ＩＣＡＳＳＰ’１９９９予稿集、第１巻、５１７−５２０ページ、フェニックス、ＡＲ、１９９９年（Hermann Ney. 1999. Speech translation: Coupling of recognition and translation. In Proc. of ICASSP'1999, volume 1, pages 517-520, Phoenix, AR, March）ゲンイチロウキクイ、エイイチロウスミタ、トシユキタケザワ、およびセイイチヤマモト、「スピーチ・ツー・スピーチ翻訳のためのコーパスの作成」、ユーロスピーチ’２００３予稿集、３８１−３８４ページ、ジュネーブ、２００３年（Genichiro Kikui, Eiichiro Sumita, Toshiyuki Takezawa, and Seiichi Yamamoto. 2003. Creating corpora for speech-to-speech translation. In Proc. of EUROSPEECH'2003, pages 381-384, Geneva.）ピーターＦ．ブラウン、ビンセントＪ．デラピエトラ、スティーブンＡ．デラピエトラ、およびロバートＬ．マーサー、「統計的機械翻訳の数学：パラメータ推定」、コンピュータ言語学、１９（２）：２６３−３１１、１９９３年（Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263-311.）ダニエルマルクおよびウィリアムウォン、「統計的機械翻訳のための句ベースの結合確率モデル」、ＥＭＮＬＰ−２００２予稿集、フィラデルフィア、ＰＡ、２００２年（Daniel Marcu and William Wong. 2002. A phrase-based, joint probability model for statistical machine translation. In Proc. of EMNLP-2002, Philadelphia, PA, July.）タロウワタナベおよびエイイチロウスミタ、「統計的機械翻訳のための用例ベースのデコーディング」、機械翻訳サミットＩＸ、４１０−４１７ページ、ニューオリンズ、ルイジアナ、２００３年（Taro Watanabe and Eiichiro Sumita. 2003. Example-based decoding for statistical machine translation. In Machine Translation Summit IX, pages 410-417, New Orleans, Louisiana.）ウィリアムＨ．プレス、ソールＡ．トイコロスキー、ウィリアムＴ．ヴェタリングおよびブライアンＰ．フラネリー、「Ｃ＋＋におけるニューメリカルレシピ」、ケンブリッジ大学出版局、ケンブリッジ、ＵＫ、２０００年（William H. Press, Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery. 2000. Numerical Recipes in C++. Cambridge University Press, Cambridge, UK.）キショーレＡ．パピネニ、サリムロウコス、トッドウォードおよびウェイ−ジンシュー、「Ｂｌｅｕ：機械翻訳の自動評価方法」、ＡＣＬ’２００２予稿集、３１１−３１８ページ、フィラデルフィア、ＰＡ、２００２年（Kishore A. Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: A method for automatic evaluation of machine translation. In Proc. of ACL'2002, pages 311-318, Philadelphia, PA, July.）ソニアニーセン、フランツＪ．オク、グレゴールロイシュおよびヘルマンネイ、「機械翻訳の評価ツール：機械翻訳研究の高速評価」、ＬＲＥＣ（２０００）予稿集、３９−４５ページ、アテネ、ギリシャ、２０００年（Sonja Niessen, Franz J. Och, Gregor Leusch, and Hermann Ney. 2000. An evaluation tool for machine translation: Fast evaluation for machine translation research. In Proc. of the LREC (2000), pages 39-45, Athens, Greece, May.）フランツジョセフオク、「統計的機械翻訳における最小誤り率トレーニング」、ＡＣＬ’２００３予稿集、１６０−１６７ページ、２００３年（Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Proc. of ACL'2003, pages 160-167.）ニコラエッフィング、フランツジョセフオクおよびヘルマンネイ、「統計的機械翻訳におけ単語グラフの生成」、自然言語処理のための経験的方法会議（ＥＭＮＬＰ０２）予稿集、１５６−１６３ページ、フィラデルフィア、ＰＡ、２００２年（Nicola Ueffing, Franz Josef Och, and Hermann Ney. 2002. Generation of word graphs in statistical machine translation. In Proc. of the Conference on Empirical Methods for Natural Language Processing (EMNLP02), pages 156-163, Philadelphia, PA, July.）フランツジョセフオクおよびヘルマンネイ、「さまざまな統計的アライメントモデルの系統的比較」、コンピュータ言語学、２９（１）：１９−５１、２００３年（Franz Josef Och and Hermann Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-51.）

現在の音声認識および機械翻訳システムはかなり理解できる訳文を生成するが、依然改良の余地がある。音声認識と機械翻訳とがカスケードされているので、システムの精度は音声認識の精度とともに機械翻訳の性能にも依存する。認識されたテキストが正確でなければ、認識したテキストを翻訳しようとする機械翻訳も入力された発話の正しい訳文を生成することはできないであろう。

したがって、この発明の目的の一つは、第１の言語の音声をより高い信頼性をもって第２の言語の正しいテキストに翻訳する機械翻訳システムを提供することである。

この発明の別の目的は、音声認識の結果が信頼できない場合にも、第１の言語の音声をより高い信頼性をもって第２の言語の正しいテキストに翻訳する機械翻訳システムを提供することである。

この発明のさらに別の目的は、信頼できる認識されたテキストを生成する音声認識システムを提供することである。

この発明にしたがった音声認識および機械翻訳装置は、第１の統計的モデルを利用して第１の言語の入力された音声の観測量を認識し、最も高い尤度を有するＮベスト（Ｎは１より大きい整数）仮説を、Ｎベスト仮説の各々についてそれぞれの第１の尤度情報とともに出力するための音声認識手段と、第２の統計的モデルを利用してＮベスト仮説の各々から複数個の訳文候補とそれぞれの第２の尤度情報とを導出するための統計的機械翻訳手段と、訳文候補が導出された仮説の第１の尤度情報と、訳文候補の第２の尤度情報とを予め定められた関数で組合せることによって、訳文候補の各々にスコアを割当てるための再スコアリング手段と、再スコアリング手段によって、予め定められた条件を満足するスコアを割当てられた訳文候補を選択するための選択手段とを含む。

音声認識で得られる第１の尤度情報と統計的機械翻訳で得られる第２の尤度情報とが組合されて、訳文候補を再スコアする。訳文候補の各々に対し再スコアリング手段によって計算されたスコアは、音声認識と機械翻訳との精度を反映する。音声認識および機械翻訳の使用と、尤度情報の組合せとが統合されバランスをとられて、信頼性のある最適な訳を出力する。

好ましくは、再スコアリング手段は、音声認識および機械翻訳から訳文候補が導出された仮説を組合せることにより、第１の尤度情報の対数線形モデルにしたがって、訳文候補の各々のスコアを計算する手段を含む。

より好ましくは、第１の統計的モデルは、第１の言語の音響モデルを含み、第１の尤度情報は、音響モデルにしたがって計算された入力音声観測量の音響モデル尤度を含む。

さらに好ましくは、第１の統計的モデルはさらに、第１の言語の言語モデルを含み、第１の尤度情報はさらに、仮説の言語モデル尤度を含む。

第２の統計的モデルは複数のサブモデルを含み、第２の尤度情報はそれぞれのサブモデルにしたがって計算された訳文候補の複数のサブモデル尤度を含んでもよい。

複数のサブモデル尤度は、訳文候補の品詞言語モデル確率と、訳文候補の長さモデルと、訳文候補および訳文がそこから導出された仮説のセプトのジャンプ重みと、訳文候補の用例一致スコアと、訳文候補の動的用例一致スコアとの組合せを含んでもよい。

好ましくは、第１の尤度情報と第２の尤度情報とが、合計でＭ個（Ｍは整数）の特徴量を含み、計算するための手段は、各訳文候補のスコアＰ_Λ（Ｅ｜Ｘ）を以下の式にしたがって計算し、

ここでＸは音響的観測量を示し、ｆｉ（Ｘ，Ｅ）はｉ番目の特徴量の対数値を示し、Ｅは訳文候補を示し、λ_ｉ（１≦ｉ≦Ｍ）はｉ番目の特徴量の重みを示し、Λはλ_ｉ（１≦ｉ≦Ｍ）の組を示し、Ｅ’はいずれかの訳文候補を示す。

より好ましくは、音声認識および機械翻訳装置は第１の言語の既知の発話の開発用音響観測量の組と、各発話の参照訳文の組とを利用して、重みλ_ｉ（１≦ｉ≦Ｍ）を最適化するための手段をさらに含み、それによって再スコアリング手段が参照訳文にしたがった適切なスコアを開発用音響観測量の組から導出された訳文候補に割当てる。この動作において、訳文候補は音声認識手段および統計的機械翻訳手段により開発用音響観測量から導出される。

１はじめに
現在の翻訳システムは通常、カスケード構造である。すなわち、音声認識に機械翻訳が続く。この構造は分かりやすいものの、その性能には組合せに関する最適化が不足している。というのも、音声認識モジュールと機械翻訳モジュールとが、どちらかというと別々に動くからである。さらに、音声翻訳システムの翻訳モジュールは、テキスト入力ベースの翻訳システムをそのまま利用したものであるため、通常はシングルベストの認識仮説をテキスト化したものに対し標準的なテキストベースの翻訳を行なう。音声認識から得られる大量の補足的情報、例えば、Ｎベスト認識仮説、音響および言語モデルの尤度等は、翻訳プロセスで有効に利用されてはいない。この実施の形態は、この種の情報を用いて、翻訳の品質を効果的に改良するものである。

補足的情報は、音声認識と機械翻訳とを緊密に結合することによって（ネイ、１９９９：非特許文献１）、またはカスケード構造は不変のまま、統合モデル、対数線形モデル、を用いて訳文仮説を再スコアすることによって活用できる。この実施の形態では、明瞭さのために、最後で述べたアプローチを用いる。

この実施の形態は、音声認識プロセスで得られた上述の情報を活用することにより、音声翻訳を改良しようとするものである。さらに、モデルには、機械翻訳モジュールから得た新しい特徴が幾つか付加される。音声認識モジュールおよび機械翻訳モジュールからの全ての特徴量が、対数線形モデルによってシームレスに組合される。

この実施の形態の結果を概略的に試験するために、４つの自動翻訳評価指標、すなわちＢＬＥＵ、ＮＩＳＴ、複数単語誤り率、および位置独立な単語誤り率を用いて、訳文の改良を測定した。

以下のセクション２では、音声翻訳システム、その全体構造、そこで用いられるモデル、およびシステム全体の動作を説明する。セクション３では、対数線形モデルにおける重みパラメータを見出すために用いられる最適化アルゴリズムを説明する。セクション４では、音声翻訳実験でのこの実施の形態の効果を例示する。最後の２つのセクションでは結果と現時点での結論を述べる。

２音声翻訳における特徴量を用いた対数線形モデル
２．１実施の形態の構造と対数線形モデル
この実施の形態にしたがった音声翻訳システムを図１に示す。その一般性を失うことなく、この発明を日本語―英語翻訳システム２０を例として記載し、包括的な音声翻訳プロセスを説明する。このシステムは典型的な統計ベースのシステムである。図１を参照して、この実施の形態の音声翻訳システム２０は日本語の音声から英語のテキストへの翻訳システムであって、入力音声３０（日本語）を受けて入力音声３０の複数の英訳文を生成する音声認識および翻訳モジュール４２と；音声認識および翻訳モジュール４２によって用いられる日本語の発話に対する音響モデル６２、日本語言語モデル６３、英語言語モデル７２、および英語−日本語（Ｊ｜Ｅ）翻訳モデル７６を記憶するモデル記憶部４０と；学習データ３６から、音響モデル６２、言語モデル６３および７２、ならびに翻訳モデル７６を準備するためのモデル準備モジュール３８と；音声認識および翻訳モジュール４２が出力する複数の訳文を再スコアリングし、それらの内から最良の訳文５８を選択するための再スコアリングモジュール５６と；訳文の再スコアリングに用いられるパラメータΛ＝｛λ_１ ^Ｍ｝を記憶するための記憶部とを含む。

音声翻訳システム２０はさらに、パラメータΛ＝｛λ_１ ^Ｍ｝を最適化するのに用いられる開発データ３２を記憶する記憶部と；開発データ３２から人手による翻訳４４により準備された参照訳文を記憶するための記憶部５０と；パラメータΛ＝｛λ_１ ^Ｍ｝を最適化し、後に導入される対数線形等式が音声認識および翻訳モジュール４２によって翻訳された開発データ３２の音声訳文を参照訳文に対し適切に再スコアできるようにするパラメータ最適化モジュール５２とを含む。

動作の前に、開発データ３２を用いてパラメータΛ＝｛λ_１ ^Ｍ｝を最適化しなければならない。この目的で、音声翻訳システム２０はさらに、入力音声３０又は開発データ３２をモード選択信号２２に応答して音声認識および翻訳モジュール４２に選択的に与えるためのマルチプレクサ３４と；音声認識および翻訳モジュール４２から出力された訳文をモード選択信号２２に応答してパラメータ最適化モジュール５２または再スコアリングモジュール５６に与えるためのデマルチプレクサ４６とを含む。

モード選択信号２２は、パラメータを最適化するときにはハイレベル（Ｈレベル）となり、入力音声を認識し翻訳するときにはローレベル（Ｌレベル）となる。モード選択信号２２がＨレベルのとき、マルチプレクサ３４は開発データ３２を音声認識および翻訳モジュール４２に与え、デマルチプレクサ４６は音声認識および翻訳モジュール４２からの訳文をパラメータ最適化モジュール５２に与える。

モード選択信号２２がＬレベルのとき、マルチプレクサ３４は入力音声３０を音声認識および翻訳モジュール４２に与え、デマルチプレクサ４６は音声認識および翻訳モジュール４２からの訳文を再スコアリングモジュール５６に与える。

モデル準備モジュール３８は、学習データ３６中の音声データによって音響モデル６２をトレーニングするための音響モデルトレーニングモジュール６０と；日本語言語モデル６３をトレーニングするための日本語言語モデルトレーニングモジュール６１と；英語言語モデル７２をトレーニングするための英語言語モデルトレーニングモジュール７０と；翻訳モデル７６をトレーニングするための翻訳モデルトレーニングモジュール７４とを含む。

基本旅行者表現コーパス（ＴｈｅＢａｓｉｃＴｒａｖｅｌＥｘｐｒｅｓｓｉｏｎＣｏｒｐｕｓ：ＢＴＥＣ）（キクイら、２００３、非特許文献２）を開発データ３２および学習データ３６として用いる。このコーパスは旅行ガイドブックおよび旅行会話で一般に用いられる文章を含む。このコーパスは、多言語スピーチ・ツー・スピーチ翻訳システムを開発するために設計されたものである。これは４つの異なる言語を含む。中国語、日本語、韓国語および英語である。この実施の形態では日本語−英語のパラレルデータのみを用いる。

音声データは多くの話者によって録音されたもので、音響モデル６２をトレーニングするのに用いられ、テキストデータベースは言語モデル７２および翻訳モデル７６をトレーニングするのに用いられる。

標準的なＢＴＥＣトレーニングコーパス、ＢＴＥＣ標準テストコーパス＃０１の第１のファイルおよび第２のファイルが、それぞれ、トレーニング、開発およびテストに用いられる。コーパスの統計は表１に示すとおりである。

図１に示すように、音声認識および翻訳モジュール４２はカスケードされた２つの主たる構成要素を含む。入力音声を認識して入力音声の各々に対しＮベストの仮説を出力するための自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）モジュール８０と；入力された仮説を翻訳し入力された仮説の各々に対しＫ個の訳文候補を出力するための統計的機械翻訳（ＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＳＭＴ）モジュール８４とである。ＡＳＲモジュール８０は音響モデル６２と言語モデル６３とを用いて入力音声を認識し、最も高い確率を有するＮベストの仮説を、認識プロセスで得られた付随する情報と共に出力する。同様に、ＳＭＴモジュール８４は、各仮説に対し、言語モデル７２および翻訳モデル７６を用いて計算した最も高い確率のＫ個の訳文候補と付随する情報とを出力する。

音声認識および翻訳モジュール４２はさらに、ＡＳＲモジュール８０からのＮベスト仮説を記憶するための記憶部８２と、ＳＭＴモジュール８４から出力される訳文候補を記憶するための記憶部８６とを含む。Ｎベスト仮説８２はＳＭＴモジュール８４に与えられる。訳文候補８６はデマルチプレクサ４６に与えられる。

再スコアリングモジュール５６はシステム２０の鍵となる構成要素である。このモジュール５６は、ＡＳＲモジュール８０とＳＭＴモジュール８４とから得られる特徴量組合せ、訳文候補を再スコアリングするとともに、最も高いスコアの候補を選択する。

上述の通り、一般性を失うことなく、この実施の形態は日本語−英語翻訳システム２０について記載し、一般的な音声翻訳システムを説明する。Ｘは日本語の発話の音響的観測量を示すものとする。典型的には、１０ミリ秒ごとのフレームレートで受取られる短時間スペクトルのシーケンスである。これはまず、日本語の文Ｊとして認識される。認識された文はその後、ＳＭＴモジュール８４で対応の英語文Ｅに翻訳される。

ＸからＪへの変換はＡＳＲモジュール８０内で行なわれる。ベイズの定理に基づき、音響的観測量Ｘが与えられたときの文Ｊの確率、Ｐ（Ｊ｜Ｘ）は次のように書ける。
Ｐ（Ｊ｜Ｘ）＝Ｐ_ａｍ（Ｘ｜Ｊ）Ｐ_ｌｍ（Ｊ）／Ｐ（Ｘ）
ここでＰ_ａｍ（Ｘ｜Ｊ）は認識された文Ｊが与えられたときの観測量の音響モデル尤度であり、Ｐ_ｌｍ（Ｊ）は日本語言語モデル確率であり、Ｐ（Ｘ）は全ての音響観測量の確率である。

ＡＳＲモジュール８０はＮベスト仮説の組Ｊ_１ ^Ｎ＝｛Ｊ_１，Ｊ_２，…Ｊ_Ｎ｝を生成し、Ｊ_ｉの各々は次のように決定される。

ここでΩ_ｉはより高いランクのＪ_ｋを全て（すなわち１≦ｋ≦ｉ−１）除いた、可能な全てのソース文の組でである。

図１のＪからＥへの変換は機械翻訳プロセスである。統計的機械翻訳の定式化（ブラウンら、１９９３、非特許文献３）によれば、この翻訳プロセスは以下のようなベストの文＾Ｅ（記号「＾」は式中ではその直後の文字の直上に記載される。）を探索することであり、

ただしＰ（Ｊ｜Ｅ）はＥとＪとの対応を特徴づける翻訳モデルであり、Ｐ（Ｅ）は英語の言語モデル確率である。

ＩＢＭモデル４では、翻訳モデルＰ（Ｊ｜Ｅ）はさらに４個のサブモデルに分解される。
−レキシコンモデル−ｔ（ｊ｜ｅ）：日本語の単語ｊが英語の単語ｅに翻訳される確率
−ファーティリティーモデル−ｔ（ｊ｜ｅ）：英語の単語ｅがφの単語を生成する確率
−ディストーションモデル−ｄ：ディストーションの確率であって、先頭単語と先頭でない単語とのディストーション確率に分解される。
−ＮＵＬＬ翻訳モデル−ｐ_１：各英語の単語を決定した後にＮＵＬＬ単語を挿入する固定された確率

上記のうち、この実施の形態では７個の特徴量を用いる。ＡＳＲから２個（Ｐ_ａｍ（Ｘ｜Ｊ）、Ｐ_ｌｍ（Ｊ））、ＳＭＴから５個（Ｐ（Ｅ）、ｔ（ｊ｜ｅ）、ｎ（φ｜ｅ）、ｄ、ｐ_１）である。

図１の再スコアリングモジュール５６は、特徴量に基づく対数線形モデルを用いて、ＳＭＴモジュール８６からの訳文仮説を再スコアリングするものである。音声認識および翻訳モジュール４２から出力される全ての訳文候補は、関連の全特徴量を用いて再評価され、最も高いスコアのベスト訳文候補が探索される。

再スコアリングモジュール５６で用いられる対数線形モデル、Ｐ（Ｅ｜Ｘ）は以下で与えられる。

式（１）で、ｆ_ｉ（Ｘ，Ｅ）はｉ番目の特徴量の対数値である。λ_ｉはｉ番目の特徴量の重みである。等式中に異なる特徴量を統合すると異なるモデルが結果として得られる。セクション４で行なわれる実験では、特徴量の数を順次増加させることによって４個の異なるモデルをトレーニングし、異なる特徴量が音声翻訳の改良にどのような効果を及ぼすかを調査した。

上述の７個の特徴量に加えて、以下の特徴量もまた組込んだ。
−品詞言語モデル：英語の品詞言語モデルが用いられた。翻訳された英語文のＰＯＳ依存性は英語文候補の刈込みにおいて有効な制約である。以下で説明する実験では、８１個のＰＯＳタグと５グラムのＰＯＳ言語モデルが用いられる。
−長さモデルＰ（ｌ｜Ｅ；Ｊ）：ｌは翻訳された英語文の長さ（単語数）である。
−ジャンプ重み：モデル４における近接したセプト（単語チャンク）間のジャンプ幅（マルクおよびウォン、２００２、非特許文献４）。
−用例一致スコア：翻訳された英語文を句翻訳用例とマッチングさせる。一致の数に基づきスコアが導出される（ワタナベおよびスミタ、２００３、非特許文献５）。
−ダイナミック用例一致スコア：用例一致スコアに類似するが、句は文の用例からダイナミックに抽出される（ワタナベおよびスミタ、２００３、非特許文献５）。

この実施の形態では、全部でＭ（＝１２）個の異なる特徴量を用いる。セクション３では、種々の客観的な翻訳指標に基づき、モデルパラメータλ_１ ^Ｍを最適化するツールとして、パウエルのアルゴリズム（プレスら、２０００、非特許文献６）を検討する。

２．２音声翻訳システム２０の全体動作
音声翻訳システム２０は３つの動作段階を持つ。モデルトレーニング段階、パラメータ最適化段階、および音声認識および翻訳段階である。音声翻訳システム２０の、これら３段階の各々における動作を以下で説明する。

始めに、学習データ３６が準備される。この実施の形態では、標準ＢＴＥＣトレーニングコーパスをトレーニングに用いる。音響モデルトレーニングモジュール６０が学習データ３６中の音声データを用いて、ＨＭＭベースの音響モデル６２をトレーニングする。学習データ３６中のテキストデータベースが、言語モデルトレーニングモジュール６１および７０ならびに翻訳モデルトレーニングモジュール７４による言語モデル６３および７２ならびに翻訳モデル７６のトレーニングにそれぞれ用いられる。モデル６２、６３、７２および７６が準備されると、対数線形モデルのためのパラメータΛ＝｛λ_１ ^Ｍ｝が最適化される。

最適化に先だって、ＢＴＥＣ標準テストコーパス＃０１の第１ファイルが開発データ３２として準備される。人間の翻訳者が開発データ３２中の各発話について参照文を言換え、複数個の文にする。この実施の形態では、文は１６通りに言換えられる。

開発段階では、モード選択信号２２はＨレベルに設定される。マルチプレクサ３４は開発データ３２中の発話を選択し、その発話をＡＳＲモジュール８０に与える。ＡＳＲモジュール８０は各発話についてＮベスト仮説の組を生成する。Ｌ個の音声発話があると仮定する。この場合ＡＳＲモジュール８０はＬ×Ｎ個の仮説を生成し、これらは記憶部８２に記憶される。

認識仮説の各々に対し、ＳＭＴモジュール８４はＫ個の英語言語翻訳仮説を生成する。ｌ（エル）番目の入力音声発話には、この場合Ｃ_ｌ１＝｛＾Ｅ₁，…，Ｅ_ｌＮ×K}個の訳文ができることになる。全部でＬ個の音声発話で、合計Ｌ×Ｎ×Ｋ個の訳文候補が生成される。

デマルチプレクサ４６はＬ×Ｎ×Ｋ個の訳文候補を選択し、パラメータ最適化モジュール５２に与える。パラメータ最適化モジュール５２はパラメータΛ＝｛λ_１ ^Ｍ｝を最適化する。パラメータ最適化モジュール５２がパラメータを最適化する方法はセクション３で述べる。最適化されたパラメータは記憶部５４に記憶される。

パラメータΛ＝｛λ_１ ^Ｍ｝が最適化されると、音声翻訳システム２０は第３の段階で動作する準備が整う。すなわち、入力音声を英語テキストに翻訳する準備が整う。この第３の段階では、モード選択信号２２はＬレベルに設定される。マルチプレクサ３４は入力音声３０を選択し、これをＡＳＲモジュール８０に与える。ＡＳＲモジュール８０は入力音声３０の音響モデル６２を利用して、Ｎベスト仮説を生成する。Ｎベスト仮説の各々について、ＳＭＴモジュール８４はＫベスト訳文候補を生成する。したがって、ＳＭＴモジュールは合計Ｎ×Ｋ個の訳文候補を生成する。

デマルチプレクサ４６はＮ×Ｋ個の訳文候補とそれらに付随する情報を再スコアリングモジュール５６に与える。

Ｎ×Ｋ個の訳文候補と、翻訳プロセス中に得られたそれらに付随する情報と、Ｎベスト仮説と、ＡＳＲプロセス中に得られたそれらの情報とを与えられ、再スコアリングモジュール５６はＮ×Ｋ個の訳文候補の各々を再スコアする。最も高いスコアを達成する訳文がベスト訳文５８として再スコアリングモジュール５６から出力される。

３翻訳指標に基づくパラメータの最適化
このセクションでは、パラメータがパラメータ最適化モジュール５２でどのように最適化されるかを説明する。全ての仮説に等しく正規化が適用されるので、式（１）の分母は無視できる。したがって、可能な全ての訳文Ｅからベストの訳文＾Ｅを選択することは、分母に依存しない。

ここでは、特徴量ｆ_ｉ（Ｘ，Ｅ）を対数ｌｏｇＰ_ｉ（Ｘ，Ｅ）と明示的に書いている。

式（２）のモデルの有効性は、客観的に測定可能であり、かつ主観的に妥当な何らかの指標に対する、パラメータセットλ_１ ^Ｍのパラメータ最適化に依存する。

Ｌ個の音声発話があり、発話の各々に対しＮベストの音声認識仮説を生成すると仮定する。認識仮説の各々について、Ｋ個の英文言語翻訳仮説が生成される。ｌ（エル）番目の入力音声発話には、Ｃ_ｌ１＝｛＾Ｅ₁，…，Ｅ_ｌＮ×K}個の訳文がある。全部でＬ個の音声発話からは合計Ｌ×Ｎ×Ｋ個の訳文が生成される。

目標とされるのは、参照訳文Ｒと翻訳された文＾εとの翻訳のひずみ（ディストーション）を最小にすることである。

ここで＾ε＝｛＾Ｅ_１，…，＾Ｅ_Ｌ｝は全ての発話の訳文の組である。ｌ（エル）番目の発話の訳文＾Ｅ_ｌは式（２）から生成され、ここでＥ∈Ｃ_ｌである。

Ｒ＝｛＾Ｅ_１，…，＾Ｅ_Ｌ｝を全ての発話の参照訳の組とする。人間の翻訳者が各発話について１６の参照文を言換えた。すなわちＲ_ｌは、ｌ（エル）番目の発話について１６個の参照候補を含む。

Ｄ（＾ε、Ｒ）は客観的な訳文評価、翻訳ひずみ（ディストーション）である。この実施の形態では以下の４個の指標を特に用いる。
−ＢＬＥＵ（パピネニら、２００２、非特許文献７）：テスト文と参照文とのｎグラム一致の加重幾何平均に短文ペナルティを乗じたもの。これは短い訳文にペナルティを課す。
−ＮＩＳＴ：テスト文と参照文とのｎグラム一致の算術平均に長さによる係数を乗じたもの。これも短い訳文にペナルティを課す。
−ｍＷＥＲ：（ニーセンら、２０００、非特許文献８）：複数参照単語誤り率、テスト文と参照文との間の編集距離（挿入、削除および置換の最小数）を計算するもの。
−ｍＰＥＲ：複数参照位置独立単語誤り率、単語の順序を考慮せずに編集距離を計算するもの。

ＢＬＥＵスコアとＮＩＳＴスコアとはインターネット上で入手可能なツールを用いて計算される。

モデル（式（３））の目的関数は滑らかな関数ではないので、この実施の形態では、解を見出すためにパウエルの探索方法を用いた。この実施の形態で用いるパウエルのアルゴリズムは（プレスら、２０００、非特許文献６）で用いられるものと類似しているが、ここではパウエルのアルゴリズムのサブルーチンである線最適化コードを（オク、２００３、非特許文献９）を参照して修正した。

通常、高次元のベクトル空間では、グローバルな最適条件を見出すのは困難である。良好な局所的最適条件を確実に見出すために、さまざまな初期化を用いてアルゴリズムをリスタートし、最良の局所最適条件を最終解に用いた。

４実験
４．１コーパス＆システム
実験に用いた音声認識エンジンはＨＭＭベースの大語彙連続音声認識装置である。音響ＨＭＭは合計で２，１００の状態を持つトライフォンモデルであり、２５次元の短時間スペクトル特徴量を用いた。デコーディングの１回目と２回目のパスでは、３７，０００語辞書のマルチクラス単語バイグラムに加えて１０，０００個の複合語を用いた。単語トライグラムを用いて結果を再スコアした。

機械翻訳システムはグラフベースのデコーダである（エッフィングら、２００２、非特許文献１０）。デコーダの１回目のパスで単語グラフが生成されるが、これは択一的な訳文候補を簡潔に表したものであって、辞書と言語モデルとのスコアに基づくビーム探索を用いている。

２回目のパスでは、Ａ＊探索によりグラフを横断的に探す。単語グラフのエッジ、すなわち句訳文候補が逆辞書モデルから得られる単語訳のリストから生成される。トレーニングコーパスのビタビアライメントから抽出される句訳文もまた、エッジを構成する。同様に、対訳文からダイナミックに抽出された句訳文からもエッジが作られる（ワタナベおよびスミタ、２００３、非特許文献５）。デコーダは、トライグラム言語モデルと５グラム品詞言語モデルで、ＩＢＭモデル４を用いた。ＩＢＭモデル４のトレーニングはＧＩＺＡ＋＋パッケージ（オクおよびネイ、２００３、非特許文献１１）で実現した。

４．２モデルトレーニング
音声認識および機械翻訳のそれぞれの特徴量から訳文の改良を定量化するために、特徴量を順次増加させることによって４個の対数線形モデルを構築した。４個のモデルは、以下のとおりである。
−標準翻訳モデル（ｓｔｍ）：対数線形モデルで、セクション２で説明したＩＢＭモデル４（Ｍ＝５）の特徴量のみを用いた。このモデルではパラメータ最適化を行なわなかった。これはλ_１ ^Ｍを全て１に設定することと等しい。このモデルはほとんどの統計的機械翻訳システムで用いられる標準的なモデルである。これをベースラインモデルと呼ぶ。
−最適化標準翻訳モデル（ｏｓｔｍ）：このモデルは上述のモデル「ｓｔｍ」と同様の特徴量からなるが、パラメータはパウエルのアルゴリズムによって最適化される。このモデルをベースライン「ｓｔｍ」と比較することにより、パラメータ最適化の効果を示す。
−最適化改善翻訳モデル（ｏｅｔｍ）：モデル「ｏｓｔｍ」を充実させるために、セクション２で説明した付加的な翻訳特徴量を組入れた。このモデルでは特徴量の合計数Ｍは１０である。モデルパラメータは最適化した。これらの改善特徴量で翻訳の品質をどの程度上げられるかを示す。
−最適化改善音声翻訳モデル（ｏｅｓｔｍ）：モデル「ｏｅｔｍ」に音声認識からの特徴量と、音響モデルおよび言語モデルの尤度スコアとをさらに組入れた。セクション２で説明した１２の特徴量全てを用いた。モデルパラメータは最適化した。

対数線形モデルのλパラメータを最適化するために、５１０の音声発話の開発データ９２を用いた。λをトレーニングするために、Ｎベスト仮説アプローチ（オク、２００３、非特許文献９）を採用した。入力音声発話の各々につき、Ｎ×Ｍ個の候補訳文が生成され、ここでＮは生成された認識仮説の数であり、Ｋは訳文仮説の数である。翻訳モデルで用いられる多数の特徴量に対応する次元Ｍのベクトルが、訳文候補の各々について生成された。パラメータを最適化するために、パウエルのアルゴリズムを用いた。有望な訳文候補が刈込まれることがないように、大きなＫを用いた。トレーニングでは、Ｎ＝１００、Ｋ＝１，０００に設定した。

セクション３で説明した種々の客観的翻訳評価指標を用いて，モデルの各々についてそれぞれＢＬＥＵ、ＮＩＳＴ、ｍＷＥＲ、ｍＰＥＲ指標に関連して４組の最適化パラメータを得た。

４．３付加的特徴量による訳文の改善
テストデータ中の５０８個の発話全てをモデルの評価に用いた。開発データの処理と同様に、ＡＳＲモジュール８０は各テスト音声発話につきＮベスト（Ｎ＝１００）の認識仮説を生成した。表２はシングルベストおよびＮベスト仮説でのテストデータセットの音声認識結果を示す。

シングルベストの認識仮説に対し、Ｎベストの認識仮説では文精度の８％以上の改善が観察された。その後認識された文を対応する英文に翻訳した。認識仮説の各々に対しこのような訳文候補１，０００個が生成された。その後訳文候補を、それぞれトレーニングで得られた最適化されたパラメータの４個のセットで４個のモデルの各々について再スコアした。最良のスコアの候補を選択した。

モデルによって生成された最良の訳文を、開発の際にモデルパラメータを最適化するのに用いた訳文評価指標で評価した。実験結果を表３に示す。

実験では、Ｎが変わるにつれて翻訳性能がどのように変化するかを見るため、仮説の数Ｎを変えた。比較的小さな仮説数、Ｎ＝５を用いたときに、最良の翻訳がなされることがわかった。したがって、表３の値はＮを５に設定したときのものである。

各モデルを、シングルベスト認識仮説翻訳と、Ｎベスト認識仮説翻訳とを用いてテストした。シングルベスト翻訳は、音声認識のシングルベスト仮説の翻訳からであり、Ｎベスト仮説翻訳はＡＳＲモジュール８０によって生成された仮説全ての翻訳からのものである。

表３において、ベースラインモデル「ｓｔｍ」から最終モデル「ｏｅｓｔｍ」までで、大きな改善が観察される。ＢＬＥＵ、ＮＩＳＴ、ｍＷＥＲ、およびｍＰＥＲスコアはそれぞれ７．９％、２．７％、６．１％、５．４％改善された。ＢＬＥＵおよびＮＩＳＴスコアの高い値は良好な翻訳を示し、一方ｍＷＥＲおよびｍＰＥＲでは悪い翻訳を示すことに注意されたい。シングルベストおよびＮベスト認識仮説翻訳において一貫した性能の改良が達成された。

改良の理由は以下の通りであろうと考えられる。
−最適化パラメータを最適化したモデルではパラメータを最適化しなかったモデルよりも良好な訳文が得られた。これは、シングルベストおよびＮベストともに、モデル「ｓｔｍ」とモデル「ｏｓｔｍ」とを比較することでわかる。
−Ｎベスト認識仮説表３の大部分の項目で、Ｎベスト認識の翻訳性能はシングルベスト認識の対応のものより良好である。「ｏｓｔｍ」のＮベストＢＬＥＵスコアは、「ｏｓｔｍ」のシングルベストより２．１％改善されている。しかしながら、ＮＩＳＴスコアはこの変更には無関係である。ＮＩＳＴスコアはわずかな訳文の変更を検出する感度が低いように思われる。

−改善された特徴量対数線形モデルにより多くの特徴量を組入れるにつれて、翻訳性能は着々と改良された。モデル「ｏｅｔｍ」の翻訳性能は、モデル「ｏｓｔｍ」の性能よりも良好であるが、これはより多くの効果的な特徴量を用いたからである。モデル「ｏｅｓｔｍ」は音声認識特徴量が改善されているため、モデル「ｏｅｔｍ」より良好である。これによって、音声認識からの特徴量と翻訳の特徴量とを統合するこの発明の実施の形態のアプローチが非常にうまく働いたことが確認できた。

４．４不正確に認識された文の認識改良
これまでの実験では、本提案に係る改善された音声翻訳モデル「ｏｅｓｔｍ」によって音声翻訳の性能が改良されることを示した。このセクションでは、この改善が、Ｎベスト認識仮説を用いることで不正確に認識された文がかなり改良されたことによりもたらされたことを示す。

以下の実験を行なった。不正確に認識された文のみを翻訳用に抽出し、シングルベストの場合はモデル「ｏｅｔｍ」により、Ｎベストの場合はモデル「ｏｅｓｔｍ」により再スコアリングを行なった。翻訳結果を表４に示す。不正確に認識された文の翻訳が、この表に示すとおり大きく改善されている。

Ｎベスト認識仮説を用いたので、対数線形モデルはＮ個の仮説のうち最良の訳文を生成する認識仮説を選択した。この結果、翻訳により高い精度の認識仮説を選択すれば、音声認識を改善することができる。不正確に認識された文の選択された認識仮説を抽出すれば、この効果を明らかに観察することができる。

表５は翻訳モジュールによって選択された認識仮説の単語精度と文精度とを示す。不正確に認識された文の文精度は７．５％改善された。単語精度も改善された。

５議論
この実施の形態のアプローチはかなり一般的なものであり、実施が容易で柔軟に拡張できる。実験では音響モデルと言語モデルとから特徴量を組入れた。しかしながらこのフレームワークは柔軟であって、より効果的な特徴量を含めることができる。実際、提案された対数線形モデルの音声翻訳パラダイムは、多くの応用で有効であることが示されている。

音声認識の特徴を用いるためには、Ｎベスト音声認識仮説が必要である。Ｎベストを用いることは計算の負荷を増大させ得る。しかし、実験では、Ｎが小さくても、計算量をさほど増加させることなく訳文改良のほとんどを達成するのに適当であることが示されている。

６結論
この明細書では、音声認識および機械翻訳の特徴量を共に対数線形モデルに組入れて音声翻訳を改良するという発明のアプローチの一実施の形態を呈示した。

この新しいアプローチのもとでは、翻訳性能が著しく改良される。性能の改良は、一貫した実験結果で確認され、さまざまな客観的指標を用いて測定された。特に、ＢＬＥＵスコアは絶対値で７．９％改善した。

音声認識から導出される特徴量：音響モデルおよび言語モデルの尤度は音声翻訳の改善に有効であった。Ｎベスト認識仮説は翻訳に用いられる際にはシングルベストのものより良好である。Ｎベスト認識仮説の翻訳は、不正確に認識された文の音声認識精度を改善できる。

実験の成功は統計的機械翻訳と対数線形モデルとによるものであり、このためさまざまな効果的特徴量を合わせてバランスをとり、最適な翻訳結果を出力することができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

この発明の実施の形態にしたがった音声翻訳システム２０のブロック図である。

符号の説明

２０音声翻訳システム、２２モード選択信号、３０入力音声、３２開発データ、３４マルチプレクサ、３６学習データ、３８モデル準備モジュール、４２音声認識および翻訳モジュール、４６デマルチプレクサ、５０参照訳文、５２パラメータ最適化モジュール、５６再スコアリングモジュール、５８ベスト訳文、６２音響モデル、６３日本語言語モデル、７２英語言語モデル、７６翻訳モデル、８０ＡＳＲモジュール、８４ＳＭＴモジュール

Claims

音声認識および機械翻訳装置であって、
第１の統計的モデルを利用して第１の言語の入力音声の観測量を認識し、最も高い尤度を有するＮベスト（Ｎは１より大きい整数）仮説を、前記Ｎベスト仮説の各々についてそれぞれの第１の尤度情報とともに出力するための音声認識手段と、
第２の統計的モデルを利用して前記Ｎベスト仮説の各々から複数個の訳文候補とそれぞれの第２の尤度情報とを導出するための統計的機械翻訳手段と、
訳文候補が導出された仮説の第１の尤度情報と、訳文候補の第２の尤度情報とを予め定められた関数で組合せることによって、訳文候補の各々にスコアを割当てるための再スコアリング手段と、
前記再スコアリング手段によって、予め定められた条件を満足するスコアを割当てられた訳文候補を選択するための選択手段とを含む、音声認識および機械翻訳装置。
前記再スコアリング手段が、音声認識および機械翻訳から訳文候補が導出された仮説の第１の尤度情報と組合せることにより、対数線形モデルにしたがって、訳文候補の各々のスコアを計算するための手段を含む、請求項１に記載の音声認識および機械翻訳装置。
前記第１の統計的モデルが、前記第１の言語の音響モデルを含み、前記第１の尤度情報が、前記音響モデルにしたがって計算された入力音声観測量の音響モデル尤度を含む、請求項２に記載の音声認識および機械翻訳装置。
前記第１の統計的モデルがさらに、前記第１の言語の言語モデルを含み、前記第１の尤度情報がさらに、仮説の言語モデル尤度を含む、請求項３に記載の音声認識および機械翻訳装置。
前記第２の統計的モデルが複数のサブモデルを含み、前記第２の尤度情報がそれぞれのサブモデルにしたがって計算された訳文候補の複数のサブモデル尤度を含む、請求項３又は請求項４に記載の音声認識および機械翻訳装置。
前記複数のサブモデル尤度が、訳文候補の品詞言語モデル確率と、訳文候補の長さモデルと、訳文候補および訳文がそこから導出された仮説のセプトのジャンプ重みと、訳文候補の用例一致スコアと、訳文候補の動的用例一致スコアとの組合せを含む、請求項５に記載の音声認識および機械翻訳装置。
前記第１の尤度情報と前記第２の尤度情報とが、合計でＭ個（Ｍは整数）の特徴量を含み、前記計算するための手段が、各訳文候補のスコアＰ_Λ（Ｅ｜Ｘ）を以下の式にしたがって計算し、

ここでＸは音響的観測量を示し、ｆｉ（Ｘ，Ｅ）はｉ番目の特徴量の対数値を示し、Ｅは訳文候補を示し、λ_ｉ（１≦ｉ≦Ｍ）はｉ番目の特徴量の重みを示し、Λはλ_ｉ（１≦ｉ≦Ｍ）の組を示し、Ｅ’はいずれかの訳文候補を示す、請求項２に記載の音声認識および機械翻訳装置。
前記第１の言語の既知の発話の開発用音響観測量の組と、各発話の参照訳文の組とを利用して、重みλ_ｉ（１≦ｉ≦Ｍ）を最適化するための手段をさらに含み、それによって前記再スコアリング手段が参照訳文にしたがった適切なスコアを前記開発用音響観測量の組から導出された訳文候補に割当て、訳文候補は前記音声認識手段および統計的機械翻訳手段により前記開発用音響観測量から導出される、請求項７に記載の音声認識および機械翻訳装置。