JP2006053683A - 音声認識および機械翻訳装置 - Google Patents
音声認識および機械翻訳装置 Download PDFInfo
- Publication number
- JP2006053683A JP2006053683A JP2004233687A JP2004233687A JP2006053683A JP 2006053683 A JP2006053683 A JP 2006053683A JP 2004233687 A JP2004233687 A JP 2004233687A JP 2004233687 A JP2004233687 A JP 2004233687A JP 2006053683 A JP2006053683 A JP 2006053683A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- model
- speech recognition
- speech
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】第1の言語の音声をより高い信頼性をもって第2の言語の正しいテキストに翻訳する機械翻訳システムを提供する。
【解決手段】音声認識および機械翻訳装置20は、Nベストの仮説を出力するための自動音声認識(ASR)モジュール80と、Nベスト仮説の各々に対しK個の訳文候補を引出すための統計的機械翻訳(SMT)モジュール84と、ASRモジュール80とSMTモジュール84とから得られる特徴量を組合せて訳文候補の各々にスコアを割当てる再スコアリングモジュール56とを含む。
【選択図】 図1
Description
ハーマン ネイ、「音声翻訳:認識と翻訳との結合」、ICASSP’1999予稿集、第1巻、517−520ページ、フェニックス、AR、1999年(Hermann Ney. 1999. Speech translation: Coupling of recognition and translation. In Proc. of ICASSP'1999, volume 1, pages 517-520, Phoenix, AR, March) ゲンイチロウ キクイ、エイイチロウ スミタ、トシユキ タケザワ、およびセイイチ ヤマモト、「スピーチ・ツー・スピーチ翻訳のためのコーパスの作成」、ユーロスピーチ’2003予稿集、381−384ページ、ジュネーブ、2003年(Genichiro Kikui, Eiichiro Sumita, Toshiyuki Takezawa, and Seiichi Yamamoto. 2003. Creating corpora for speech-to-speech translation. In Proc. of EUROSPEECH'2003, pages 381-384, Geneva.) ピーター F.ブラウン、ビンセント J.デラ ピエトラ、スティーブン A.デラ ピエトラ、およびロバート L.マーサー、「統計的機械翻訳の数学:パラメータ推定」、コンピュータ言語学、19(2):263−311、1993年(Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263-311.) ダニエル マルク およびウィリアム ウォン、「統計的機械翻訳のための句ベースの結合確率モデル」、EMNLP−2002予稿集、フィラデルフィア、PA、2002年(Daniel Marcu and William Wong. 2002. A phrase-based, joint probability model for statistical machine translation. In Proc. of EMNLP-2002, Philadelphia, PA, July.) タロウ ワタナベおよびエイイチロウ スミタ、「統計的機械翻訳のための用例ベースのデコーディング」、機械翻訳サミットIX、410−417ページ、ニューオリンズ、ルイジアナ、2003年(Taro Watanabe and Eiichiro Sumita. 2003. Example-based decoding for statistical machine translation. In Machine Translation Summit IX, pages 410-417, New Orleans, Louisiana.) ウィリアム H.プレス、ソール A.トイコロスキー、ウィリアム T.ヴェタリングおよびブライアン P.フラネリー、「C++におけるニューメリカルレシピ」、ケンブリッジ大学出版局、ケンブリッジ、UK、2000年(William H. Press, Saul A. Teukolsky, William T. Vetterling, and Brian P. Flannery. 2000. Numerical Recipes in C++. Cambridge University Press, Cambridge, UK.) キショーレ A.パピネニ、サリム ロウコス、トッド ウォードおよびウェイ−ジン シュー、「Bleu:機械翻訳の自動評価方法」、ACL’2002予稿集、311−318ページ、フィラデルフィア、PA、2002年(Kishore A. Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: A method for automatic evaluation of machine translation. In Proc. of ACL'2002, pages 311-318, Philadelphia, PA, July.) ソニア ニーセン、フランツ J.オク、グレゴール ロイシュおよびヘルマン ネイ、「機械翻訳の評価ツール:機械翻訳研究の高速評価」、LREC(2000)予稿集、39−45ページ、アテネ、ギリシャ、2000年(Sonja Niessen, Franz J. Och, Gregor Leusch, and Hermann Ney. 2000. An evaluation tool for machine translation: Fast evaluation for machine translation research. In Proc. of the LREC (2000), pages 39-45, Athens, Greece, May.) フランツ ジョセフ オク、「統計的機械翻訳における最小誤り率トレーニング」、ACL’2003予稿集、160−167ページ、2003年(Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Proc. of ACL'2003, pages 160-167.) ニコラ エッフィング、フランツ ジョセフ オクおよびヘルマン ネイ、「統計的機械翻訳におけ単語グラフの生成」、自然言語処理のための経験的方法会議(EMNLP02)予稿集、156−163ページ、フィラデルフィア、PA、2002年(Nicola Ueffing, Franz Josef Och, and Hermann Ney. 2002. Generation of word graphs in statistical machine translation. In Proc. of the Conference on Empirical Methods for Natural Language Processing (EMNLP02), pages 156-163, Philadelphia, PA, July.) フランツ ジョセフ オクおよびヘルマン ネイ、「さまざまな統計的アライメントモデルの系統的比較」、コンピュータ言語学、29(1):19−51、2003年(Franz Josef Och and Hermann Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-51.)
現在の翻訳システムは通常、カスケード構造である。すなわち、音声認識に機械翻訳が続く。この構造は分かりやすいものの、その性能には組合せに関する最適化が不足している。というのも、音声認識モジュールと機械翻訳モジュールとが、どちらかというと別々に動くからである。さらに、音声翻訳システムの翻訳モジュールは、テキスト入力ベースの翻訳システムをそのまま利用したものであるため、通常はシングルベストの認識仮説をテキスト化したものに対し標準的なテキストベースの翻訳を行なう。音声認識から得られる大量の補足的情報、例えば、Nベスト認識仮説、音響および言語モデルの尤度等は、翻訳プロセスで有効に利用されてはいない。この実施の形態は、この種の情報を用いて、翻訳の品質を効果的に改良するものである。
2.1 実施の形態の構造と対数線形モデル
この実施の形態にしたがった音声翻訳システムを図1に示す。その一般性を失うことなく、この発明を日本語―英語翻訳システム20を例として記載し、包括的な音声翻訳プロセスを説明する。このシステムは典型的な統計ベースのシステムである。図1を参照して、この実施の形態の音声翻訳システム20は日本語の音声から英語のテキストへの翻訳システムであって、入力音声30(日本語)を受けて入力音声30の複数の英訳文を生成する音声認識および翻訳モジュール42と;音声認識および翻訳モジュール42によって用いられる日本語の発話に対する音響モデル62、日本語言語モデル63、英語言語モデル72、および英語−日本語(J|E)翻訳モデル76を記憶するモデル記憶部40と;学習データ36から、音響モデル62、言語モデル63および72、ならびに翻訳モデル76を準備するためのモデル準備モジュール38と;音声認識および翻訳モジュール42が出力する複数の訳文を再スコアリングし、それらの内から最良の訳文58を選択するための再スコアリングモジュール56と;訳文の再スコアリングに用いられるパラメータΛ={λ1 M}を記憶するための記憶部とを含む。
P(J|X)=Pam(X|J)Plm(J)/P(X)
ここでPam(X|J)は認識された文Jが与えられたときの観測量の音響モデル尤度であり、Plm(J)は日本語言語モデル確率であり、P(X)は全ての音響観測量の確率である。
−レキシコンモデル−t(j|e):日本語の単語jが英語の単語eに翻訳される確率
−ファーティリティーモデル−t(j|e):英語の単語eがφの単語を生成する確率
−ディストーションモデル−d:ディストーションの確率であって、先頭単語と先頭でない単語とのディストーション確率に分解される。
−NULL翻訳モデル−p1:各英語の単語を決定した後にNULL単語を挿入する固定された確率
−品詞言語モデル:英語の品詞言語モデルが用いられた。翻訳された英語文のPOS依存性は英語文候補の刈込みにおいて有効な制約である。以下で説明する実験では、81個のPOSタグと5グラムのPOS言語モデルが用いられる。
−長さモデルP(l|E;J):lは翻訳された英語文の長さ(単語数)である。
−ジャンプ重み:モデル4における近接したセプト(単語チャンク)間のジャンプ幅(マルクおよびウォン、2002、非特許文献4)。
−用例一致スコア:翻訳された英語文を句翻訳用例とマッチングさせる。一致の数に基づきスコアが導出される(ワタナベおよびスミタ、2003、非特許文献5)。
−ダイナミック用例一致スコア:用例一致スコアに類似するが、句は文の用例からダイナミックに抽出される(ワタナベおよびスミタ、2003、非特許文献5)。
音声翻訳システム20は3つの動作段階を持つ。モデルトレーニング段階、パラメータ最適化段階、および音声認識および翻訳段階である。音声翻訳システム20の、これら3段階の各々における動作を以下で説明する。
このセクションでは、パラメータがパラメータ最適化モジュール52でどのように最適化されるかを説明する。全ての仮説に等しく正規化が適用されるので、式(1)の分母は無視できる。したがって、可能な全ての訳文Eからベストの訳文^Eを選択することは、分母に依存しない。
−BLEU(パピネニら、2002、非特許文献7):テスト文と参照文とのnグラム一致の加重幾何平均に短文ペナルティを乗じたもの。これは短い訳文にペナルティを課す。
−NIST:テスト文と参照文とのnグラム一致の算術平均に長さによる係数を乗じたもの。これも短い訳文にペナルティを課す。
−mWER:(ニーセンら、2000、非特許文献8):複数参照単語誤り率、テスト文と参照文との間の編集距離(挿入、削除および置換の最小数)を計算するもの。
−mPER:複数参照位置独立単語誤り率、単語の順序を考慮せずに編集距離を計算するもの。
4.1 コーパス&システム
実験に用いた音声認識エンジンはHMMベースの大語彙連続音声認識装置である。音響HMMは合計で2,100の状態を持つトライフォンモデルであり、25次元の短時間スペクトル特徴量を用いた。デコーディングの1回目と2回目のパスでは、37,000語辞書のマルチクラス単語バイグラムに加えて10,000個の複合語を用いた。単語トライグラムを用いて結果を再スコアした。
音声認識および機械翻訳のそれぞれの特徴量から訳文の改良を定量化するために、特徴量を順次増加させることによって4個の対数線形モデルを構築した。4個のモデルは、以下のとおりである。
−標準翻訳モデル(stm):対数線形モデルで、セクション2で説明したIBMモデル4(M=5)の特徴量のみを用いた。このモデルではパラメータ最適化を行なわなかった。これはλ1 Mを全て1に設定することと等しい。このモデルはほとんどの統計的機械翻訳システムで用いられる標準的なモデルである。これをベースラインモデルと呼ぶ。
−最適化標準翻訳モデル(ostm):このモデルは上述のモデル「stm」と同様の特徴量からなるが、パラメータはパウエルのアルゴリズムによって最適化される。このモデルをベースライン「stm」と比較することにより、パラメータ最適化の効果を示す。
−最適化改善翻訳モデル(oetm):モデル「ostm」を充実させるために、セクション2で説明した付加的な翻訳特徴量を組入れた。このモデルでは特徴量の合計数Mは10である。モデルパラメータは最適化した。これらの改善特徴量で翻訳の品質をどの程度上げられるかを示す。
−最適化改善音声翻訳モデル(oestm):モデル「oetm」に音声認識からの特徴量と、音響モデルおよび言語モデルの尤度スコアとをさらに組入れた。セクション2で説明した12の特徴量全てを用いた。モデルパラメータは最適化した。
テストデータ中の508個の発話全てをモデルの評価に用いた。開発データの処理と同様に、ASRモジュール80は各テスト音声発話につきNベスト(N=100)の認識仮説を生成した。表2はシングルベストおよびNベスト仮説でのテストデータセットの音声認識結果を示す。
−最適化 パラメータを最適化したモデルではパラメータを最適化しなかったモデルよりも良好な訳文が得られた。これは、シングルベストおよびNベストともに、モデル「stm」とモデル「ostm」とを比較することでわかる。
−Nベスト認識仮説 表3の大部分の項目で、Nベスト認識の翻訳性能はシングルベスト認識の対応のものより良好である。「ostm」のNベストBLEUスコアは、「ostm」のシングルベストより2.1%改善されている。しかしながら、NISTスコアはこの変更には無関係である。NISTスコアはわずかな訳文の変更を検出する感度が低いように思われる。
これまでの実験では、本提案に係る改善された音声翻訳モデル「oestm」によって音声翻訳の性能が改良されることを示した。このセクションでは、この改善が、Nベスト認識仮説を用いることで不正確に認識された文がかなり改良されたことによりもたらされたことを示す。
この実施の形態のアプローチはかなり一般的なものであり、実施が容易で柔軟に拡張できる。実験では音響モデルと言語モデルとから特徴量を組入れた。しかしながらこのフレームワークは柔軟であって、より効果的な特徴量を含めることができる。実際、提案された対数線形モデルの音声翻訳パラダイムは、多くの応用で有効であることが示されている。
この明細書では、音声認識および機械翻訳の特徴量を共に対数線形モデルに組入れて音声翻訳を改良するという発明のアプローチの一実施の形態を呈示した。
Claims (8)
- 音声認識および機械翻訳装置であって、
第1の統計的モデルを利用して第1の言語の入力音声の観測量を認識し、最も高い尤度を有するNベスト(Nは1より大きい整数)仮説を、前記Nベスト仮説の各々についてそれぞれの第1の尤度情報とともに出力するための音声認識手段と、
第2の統計的モデルを利用して前記Nベスト仮説の各々から複数個の訳文候補とそれぞれの第2の尤度情報とを導出するための統計的機械翻訳手段と、
訳文候補が導出された仮説の第1の尤度情報と、訳文候補の第2の尤度情報とを予め定められた関数で組合せることによって、訳文候補の各々にスコアを割当てるための再スコアリング手段と、
前記再スコアリング手段によって、予め定められた条件を満足するスコアを割当てられた訳文候補を選択するための選択手段とを含む、音声認識および機械翻訳装置。 - 前記再スコアリング手段が、音声認識および機械翻訳から訳文候補が導出された仮説の第1の尤度情報と組合せることにより、対数線形モデルにしたがって、訳文候補の各々のスコアを計算するための手段を含む、請求項1に記載の音声認識および機械翻訳装置。
- 前記第1の統計的モデルが、前記第1の言語の音響モデルを含み、前記第1の尤度情報が、前記音響モデルにしたがって計算された入力音声観測量の音響モデル尤度を含む、請求項2に記載の音声認識および機械翻訳装置。
- 前記第1の統計的モデルがさらに、前記第1の言語の言語モデルを含み、前記第1の尤度情報がさらに、仮説の言語モデル尤度を含む、請求項3に記載の音声認識および機械翻訳装置。
- 前記第2の統計的モデルが複数のサブモデルを含み、前記第2の尤度情報がそれぞれのサブモデルにしたがって計算された訳文候補の複数のサブモデル尤度を含む、請求項3又は請求項4に記載の音声認識および機械翻訳装置。
- 前記複数のサブモデル尤度が、訳文候補の品詞言語モデル確率と、訳文候補の長さモデルと、訳文候補および訳文がそこから導出された仮説のセプトのジャンプ重みと、訳文候補の用例一致スコアと、訳文候補の動的用例一致スコアとの組合せを含む、請求項5に記載の音声認識および機械翻訳装置。
- 前記第1の言語の既知の発話の開発用音響観測量の組と、各発話の参照訳文の組とを利用して、重みλi(1≦i≦M)を最適化するための手段をさらに含み、それによって前記再スコアリング手段が参照訳文にしたがった適切なスコアを前記開発用音響観測量の組から導出された訳文候補に割当て、訳文候補は前記音声認識手段および統計的機械翻訳手段により前記開発用音響観測量から導出される、請求項7に記載の音声認識および機械翻訳装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004233687A JP2006053683A (ja) | 2004-08-10 | 2004-08-10 | 音声認識および機械翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004233687A JP2006053683A (ja) | 2004-08-10 | 2004-08-10 | 音声認識および機械翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006053683A true JP2006053683A (ja) | 2006-02-23 |
JP2006053683A5 JP2006053683A5 (ja) | 2007-09-06 |
Family
ID=36031137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004233687A Pending JP2006053683A (ja) | 2004-08-10 | 2004-08-10 | 音声認識および機械翻訳装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006053683A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058503A (ja) * | 2006-08-30 | 2008-03-13 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
KR100853173B1 (ko) * | 2007-01-22 | 2008-08-20 | 포항공과대학교 산학협력단 | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 |
JP2011527471A (ja) * | 2008-07-03 | 2011-10-27 | グーグル・インコーポレーテッド | 機械翻訳に対するパラメータの最適化 |
US9582502B2 (en) | 2014-09-26 | 2017-02-28 | Panasonic Intellectual Property Corporation Of America | Translation method and translation system for translating input expression into expression in another language |
JP2018005218A (ja) * | 2016-07-07 | 2018-01-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 自動通訳方法及び装置 |
JP2019061298A (ja) * | 2017-09-22 | 2019-04-18 | 大日本印刷株式会社 | 情報処理装置、コンピュータプログラム及び文章表示方法 |
CN110991194A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
US11631414B2 (en) | 2019-10-22 | 2023-04-18 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
-
2004
- 2004-08-10 JP JP2004233687A patent/JP2006053683A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058503A (ja) * | 2006-08-30 | 2008-03-13 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
KR100853173B1 (ko) * | 2007-01-22 | 2008-08-20 | 포항공과대학교 산학협력단 | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 |
JP2011527471A (ja) * | 2008-07-03 | 2011-10-27 | グーグル・インコーポレーテッド | 機械翻訳に対するパラメータの最適化 |
US8744834B2 (en) | 2008-07-03 | 2014-06-03 | Google Inc. | Optimizing parameters for machine translation |
KR101623891B1 (ko) | 2008-07-03 | 2016-05-24 | 구글 인코포레이티드 | 기계 번역을 위한 파라미터들의 최적화 |
US9582502B2 (en) | 2014-09-26 | 2017-02-28 | Panasonic Intellectual Property Corporation Of America | Translation method and translation system for translating input expression into expression in another language |
JP2018005218A (ja) * | 2016-07-07 | 2018-01-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 自動通訳方法及び装置 |
JP2019061298A (ja) * | 2017-09-22 | 2019-04-18 | 大日本印刷株式会社 | 情報処理装置、コンピュータプログラム及び文章表示方法 |
US11631414B2 (en) | 2019-10-22 | 2023-04-18 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
CN110991194A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
CN110991194B (zh) * | 2019-11-27 | 2023-05-16 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marino et al. | N-gram-based machine translation | |
Schwenk et al. | Continuous space language models for statistical machine translation | |
He et al. | Why word error rate is not a good metric for speech recognizer training for the speech translation task? | |
Stolcke et al. | Recent innovations in speech-to-text transcription at SRI-ICSI-UW | |
Ueffing et al. | Confidence measures for statistical machine translation | |
Bangalore et al. | Stochastic finite-state models for spoken language machine translation | |
Bertoldi et al. | Speech translation by confusion network decoding | |
Zhang et al. | A unified approach in speech-to-speech translation: integrating features of speech recognition and machine translation | |
Sak et al. | Morpholexical and discriminative language models for Turkish automatic speech recognition | |
Reddy et al. | Integration of statistical models for dictation of document translations in a machine-aided human translation task | |
Mathias et al. | Statistical phrase-based speech translation | |
Bertoldi et al. | A new decoder for spoken language translation based on confusion networks | |
US20150073796A1 (en) | Apparatus and method of generating language model for speech recognition | |
Paulik et al. | Document driven machine translation enhanced ASR. | |
JP2006053683A (ja) | 音声認識および機械翻訳装置 | |
Bender et al. | Alignment templates: the RWTH SMT system | |
Peter et al. | The qt21/himl combined machine translation system | |
Matusov et al. | Integrating speech recognition and machine translation: Where do we stand? | |
Khadivi et al. | Automatic text dictation in computer-assisted translation. | |
Khadivi et al. | Integration of speech to computer-assisted translation using finite-state automata | |
Akbacak et al. | Recent advances in SRI'S IraqComm™ Iraqi Arabic-English speech-to-speech translation system | |
Fu et al. | Improved large vocabulary continuous Chinese speech recognition by character-based consensus networks | |
Oba et al. | Round-robin duel discriminative language models in one-pass decoding with on-the-fly error correction | |
Puurula et al. | Vocabulary decomposition for Estonian open vocabulary speech recognition | |
Jan et al. | A novel approach for proper name transliteration verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070719 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100622 |