JP2007017548A

JP2007017548A - 音声認識結果の検証装置及びコンピュータプログラム

Info

Publication number: JP2007017548A
Application number: JP2005196887A
Authority: JP
Inventors: Lane Ian; イアン・レーン; Tatsuya Kawahara; 達也河原
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-07-05
Filing date: 2005-07-05
Publication date: 2007-01-25

Abstract

【課題】音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができる音声認識結果の検証装置を提供する。
【解決手段】音声認識結果の検証装置３８Ｊは、音声認識結果の妥当性を評価するための、音声認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する音声認識装置３６Ｊの出力６０Ｊとを比較することにより、ある発話の音声認識結果の妥当性を表す、ドメイン内信頼度又は談話整合性による信頼度をそれぞれ出力するためのドメイン内検証部５２Ｊ及び談話整合性検証部５６Ｊと、ドメイン内信頼度又は談話整合性による信頼度と、音声認識装置３６Ｊの出力する信頼度６２Ｊとを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合部５８Ｊとを含む。
【選択図】図１

Description

この発明は音声認識結果等の発話の信頼度尺度を算出するための装置に関し、特に音声認識結果等の発話を、音声情報及び言語情報以外の情報から算出される信頼度尺度を用いて検証するための音声認識結果の検証装置に関する。

音声認識技術は、人間と機械とのインターフェースを実現するための一つの重要なツールである。近年の研究の進展と、使用されるコンピュータの性能の向上とにより、実験室レベルでは、かなりの精度で音声認識を行なうことが可能となっている。しかし、種々の雑音、話者の変化、非文法的な発話等、実際の環境では音声認識の障害となる要因が多数あり、十分な音声認識の性能を達成することが難しい。

音声認識技術の実用化をさらに推進するためには、音声認識結果を利用する自然言語処理システムに音声認識結果を与える前に、音声認識装置における音声認識誤りを的確に検出し訂正することが重要である。

音声認識誤りの検出のためには、音声認識装置から出力される仮説（及び各仮説に含まれる単語）の信頼度を評価することが重要である。誤りを的確に検出することにより、音声認識装置は、誤りのタイプにしたがって的確なフィードバックをユーザに与え、音声認識の誤りを取り除くために適切な処置をとることができる。

例えば、音声認識結果のうち、現在のタスクに対して関連性の少ない単語のみについてユーザに確認したり（非特許文献１）、発話を繰り返させたり又は発話全体を別の表現で言い換えるように依頼したり（非特許文献２）することが、従来の技術では提案されている。

しかしこのような手段を採るためには、音声認識結果の信頼性について的確に評価するための技術が不可欠である。

こうした信頼度尺度の手法として例えば、特徴量を用いるものがある。例えば非特許文献３においては、特定の特徴量の組（例えば単語の持続時間、音響モデル及び言語モデルにおけるバックオフ、単語グラフの密度等）によって信頼度を評価している。モデルを明示的に用いた手法は、例えば非特許文献４に開示されており、尤度の比較というテストを行なう。すなわち、候補のモデルを参照モデルと比較したりすることにより、信頼度を評価する。事後確率を用いる手法として、非特許文献２又は非特許文献５に開示されたものがある。こうした手法では、Ｎ−ベスト又は単語グラフ内の全ての仮説内における、認識された対象（単語又は発話）についての事後確率を評価する。
Ｔ．ミス他、「音声対話インターフェースを持つ文書検索システムにおける確認手法」、ＩＣＳＬＰ予稿集、ｐｐ．４５−４８，２００４年（T. Misu, K. Komatani, and T. Kawahara, "Confirmation strategy for document retrieval systems with spoken dialog interface", in Proc. ICSLP, pp. 45-48, 2004) Ｗ．Ｋ．ロー他、「認識された文の検証の誤差を最小にするための一般化事後確率」、ＩＣＡＳＳＰ予稿集、ｐｐ．８５−８９、２００５年（W. K. Lo, and F. K. Soong, "Generalized posterior probability for minimum error verification of recognized sentences", in Proc. ICASSP, pp. 85-89, 2005) Ｔ．ケンプ他、「単語グラフを用いる信頼度評価」、ＥｕｒｏＳｐｅｅｃｈ予稿集、ｐｐ．８２７−８３０、１９９７年（T. Kemp, and T. Schaff, "Estimating confidence using word lattices", in Proc. EuroSpeech, pp. 827-830, 1997) Ｍ．Ｇ．ラヒム他、「連続数字認識のための弁別的発話検証」、ＩＥＥＥ音声処理トランザクション、第５巻、ｐｐ．２６６−２７７、１９９７年（M.G. Rahim, C.H. Lee, and B.H. Juang, "Discriminative utterance verification for connected digits recognition", IEEE Trans. SAP, vol. 5, pp. 266-277, 1997）Ｆ．ウェセル他、「大語彙連続音声認識のための信頼度尺度」、ＩＥＥＥ音声処理トランザクション、第９巻、ｐｐ．２８８−２９８、２００１年（F. Wessel, Ｒ. Schluter, K. Macherey, and N. Hermann, "Confidence measures for large vocabulary continuous speech recognition", IEEE Trans. SAP, vol. 9, pp. 288-298, 2001）Ｉ．レーン他、「複数トピック分類による信頼度尺度に基づくドメイン外検出」、ＩＣＡＳＳＰ予稿集、ｐｐ．７５７−７６０、２００４年（I. Lane, T. Kawahara, T. Matsui and S. Nakamura, "Out-of-domain detection based on confidence measures from multiple topic classification", in Proc. ICASSP, pp. 757-760, 2004）Ｔ．タケザワ他、「機械翻訳により補助された対話を収集するための実験的システム」、ＦＴＩ２００３予稿集、第２巻、ｐｐ．１６１−１６２、２００３年（T. Takezawa, A. Nishino, K. Takashima, T. Matsui, and G. Kikui, "An experimental system for collecting machine-translation aided dialogues", in Proc. FTI2003, Vol. 2, pp. 161-162, 2003)

しかし、従来の手法による信頼度尺度には未だ改善の余地がある。例えば、従来の手法はいずれも、音声認識の過程で得られる情報を用いるものであり、その結果得られる信頼度尺度の信頼性には限界がある。人間の言語生活を省みれば分かるように、人間が相手の発話を理解するときには、決して相手の発話から得られる音声的な情報しか使用していないわけではない。それ以外にも種々の情報を利用して相手の発話内容を理解している。例えば、前後の発話内容の関係、発話が主に関係しているドメインとの関係などを用いることにより、人間はほぼ完全に相手の発話内容を理解する。

従来の音声認識装置では、このような情報を音声認識結果の検証に用いることはなかった。音声認識装置の信頼度尺度の算出においても、単に音声認識の過程で得られる情報だけでなく、それ以外の情報を用いることにより、信頼度尺度の信頼性を高めることが可能になると思われる。

それゆえに本発明の目的は、音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することである。

本発明の他の目的は、発話又は対話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することである。

本発明の第１の局面にかかる音声認識結果の検証装置は、音声認識装置の出力する仮説の妥当性を検証するための、音声認識結果の検証装置である。音声認識装置は、音声認識の過程で各仮説に関して得られる信頼度を各仮説に付して出力するものである。この検証装置は、音声認識結果の妥当性を評価するための、音声認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する音声認識装置の出力とを比較することにより、ある発話の音声認識結果の妥当性を表す第１の尺度を出力するための第１の尺度出力手段と、第１の尺度と、ある発話に対して音声認識装置の出力する信頼度とを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む。

音声認識の過程で得られる信頼度とは異なる所定の基準を準備し、音声認識結果の妥当性をこの基準と比較することにより評価し、第１の尺度を算出する。この第１の尺度と、音声認識装置が出力する、音声認識の過程で得た信頼度とを統合してある発話に対する音声認識結果の信頼度を評価する。音声認識の過程で得られた信頼度だけでなく、外部の基準を用いて音声認識結果の妥当性を評価するため、統合により得られる信頼度尺度の信頼性はより高くなる。その結果、音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。

好ましくは、音声認識装置は、所定の発話のドメインを想定して設定されており、この発話のドメインは複数のトピックを含む。第１の尺度出力手段は、ある発話に対する音声認識装置の出力が、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出し、第１のトピック分類ベクトルとして出力するための第１のトピック分類手段と、第１のトピック分類手段から出力される第１のトピック分類ベクトルの所定の関数として、第１の尺度を算出するための尺度算出手段とを含む。

音声認識装置が想定している発話のドメインを複数のトピックに分け、トピックのいずれかに音声認識結果が属している可能性を評価して第１のトピック分類ベクトルを算出する。この第１のトピック分類ベクトルに対する所定の関数として第１の尺度を算出する。トピックのいずれにも属していない可能性の高い音声認識結果に対しては、第１の尺度による評価は低くなる。そのような音声認識結果を受理の対象から排除できる。その結果、発話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。

より好ましくは、尺度算出手段は、第１のトピック分類手段が出力する第１のトピック分類ベクトルの各要素の、非負の係数による線形和を算出するための手段と、線形和の値に対し、値域の限定された非線形変換を行なって第１の尺度を算出するための手段とを含む。

第１のトピック分類ベクトルの各要素の線形和を算出し、さらに値域の限定された非線形変換を行なって第１の尺度を算出する。その結果得られる値の値域は一定となるため、第１の尺度による音声認識結果の評価が明確になる。さらに、ベクトルの各要素の線形和を用いるため、その係数を適切に定めることにより、第１の尺度の値の精度を高めることができる。

さらに好ましくは、音声認識結果の検証装置はさらに、ある発話に先行する発話に対して、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出した値を要素とする第２のトピック分類ベクトルを準備するための手段と、ある発話に対して算出された第１のトピック分類ベクトルと、第２のトピック分類ベクトルとの間で定義される距離を算出するための距離算出手段と、距離算出手段により算出された距離に対し、値域が予め定められた範囲に限定された非線形変換を行なうことにより、ある発話の意味的妥当性を表す第２の尺度を出力するための第２の尺度出力手段とを含み、信頼度尺度統合手段は、第１及び第２の尺度と、ある発話に対して音声認識装置の出力する信頼度とを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む。

ある発話の内容は、会話においてその発話に先行する発話の内容と関連していることが多い。したがって、ある発話の音声認識結果と、それに先行する発話の内容との類似性を第１及び第２のトピック分類ベクトルの間の距離で評価することにより、互いの関連性を評価することができる。その結果、先行する発話の内容と関連が高い音声認識結果は妥当性が高いと判定できる。また、先行する発話の内容と関連が低い音声認識結果については、自然言語処理の対象から排除できる。その結果、対話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。

第２のトピック分類ベクトルを準備するための手段は、ある発話の直前の発話の音声認識結果が、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出し、第２のトピック分類ベクトルとして出力するための第２のトピック分類手段と、第２のトピック分類手段により算出されたトピック分類ベクトルを一時的に記憶し、距離算出手段に与えるための手段とを含んでもよい。

ある発話の内容は、特にその直前の発話の内容と最も強く関連している。したがって、直前の発話の内容との関連をトピック分類ベクトルとして表して記憶しておき、次の発話の音声認識結果に対して得られたトピック分類ベクトルとの間の距離を算出することにより、音声認識結果の妥当性を精度よく評価できる。

本発明の第２の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの音声認識結果の検証装置として動作させるものである。したがって、上記した音声認識結果の検証装置と同様の効果を得ることができる。

以下、本発明の一実施の形態に係る音声認識結果の検証装置の構成及び動作について説明する。なお、以下の説明及び図面において、同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。したがってそれらについての詳細な説明は繰返さない。また、以下の実施の形態における音声認識装置は、日本語及び英語の間の音声自動翻訳システムで使用されるものであり、基本的には日本語用と英語用との双方に共通した構成を持つ。使用する音響モデル及び言語モデルについては日本語用と英語用とで別である。ただし、説明を簡略にするために、以下の説明は、日本語の音声認識を行なうシステムに限定して行なう。

＜構成＞
図１に、本発明の一実施の形態に係る日本語音声認識結果の検証装置３８Ｊ及び英語音声認識結果の検証装置３８Ｅを用いた音声認識システム２０の構成をブロック図形式で示す。図１を参照して、音声認識システム２０は、図示しない音響モデル及び言語モデルを用い、入力される日本語の音声の音声認識を行ない、認識結果の仮説６０Ｊとそれぞれの事後確率６２Ｊとを出力するための音声認識装置３６Ｊと、音声認識装置３６Ｊの音声認識結果に対して後述するトピック分類を行なうためのＳＶＭ（Support Vector Machine）３４Ｊと、ＳＶＭ３４Ｊの学習に使用する、予め複数のトピックのいずれかに分類された日本語の発話データからなる学習データ３０Ｊと、学習データ３０Ｊを用いてＳＶＭ３４Ｊの学習を行ない、日本語の入力発話に対して各トピックに属する確率がどの程度の値かを出力するようにさせるためのＳＶＭ学習処理部３２Ｊと、ＳＶＭ学習処理部３２Ｊにより学習が行なわれたＳＶＭ３４Ｊを用いたトピック分類を用い、日本語音声認識装置３６Ｊの音声認識結果である認識結果の仮説６０Ｊに対して、後述するようなドメイン内信頼度尺度と、談話整合性信頼度尺度とを算出し、これらを統合した信頼度尺度（これを統合信頼度尺度と呼ぶ。）ＣＭ４０Ｊを算出して後続する日本語の自然言語処理部（図示せず）に与えるための日本語音声認識結果の検証装置３８Ｊとを含む。

音声認識システム２０はさらに、英語の音声認識装置３６Ｅと、英語の音声認識装置３６Ｅの出力に対して検証装置３８Ｊと同様の検証を行ない、日本語の統合信頼度尺度ＣＭ４０Ｊと同様の英語の統合信頼度尺度ＣＭ４０Ｅを英語の音声認識装置３６Ｅの認識結果に対して出力して後続する英語の自然言語処理部（図示せず）に与えるための英語音声認識結果の検証装置３８Ｅとを含む。音声認識システム２０はさらに、学習データ３０Ｊ、ＳＶＭ学習処理部３２Ｊ、及びＳＶＭ３４Ｊにそれぞれ対応して設けられた、英語音声認識結果の検証装置３８Ｅのための学習データ、ＳＶＭ学習処理部、及びＳＶＭを備えるが、図１においては図を簡略化するために省略してある。英語の音声認識装置３６Ｅは、後述するように音声認識装置３６Ｊと同様の構成を備えている。また、トピック分類は日本語と英語とで共通のものを用いる。

図２を参照して、学習データ３０Ｊに含まれる各文に対しては、予め手作業によりトピック付与が行われている。トピック付与は、予め定められた複数種類のトピックのいずれに文が属するかを示す情報を各文に付す作業である。ＳＶＭ学習処理部３２Ｊは、学習データ３０Ｊの各文から学習のための発話特徴ベクトルＷを作成するための発話特徴ベクトル作成部８０Ｊと、発話特徴ベクトル作成部８０Ｊにより作成された発話特徴ベクトルを、各文に対して付与されたトピック情報とともにＳＶＭ３４Ｊに与えることにより、ＳＶＭ３４Ｊの学習を行なうためのＳＶＭ学習部８２Ｊとを含む。

本実施の形態では、発話Ｘに対する発話特徴ベクトルＷは、発話Ｘ内の単語と、発話Ｘ内の単語対と、発話Ｘ内の単語３つ組との発生数をベクトル形式にしたものである。したがって、発話特徴ベクトルＷは、学習データ３０Ｊ内に登場する単語の全て、単語対の全て、及び単語の３つ組の全てに対応する要素を持つ。各要素は、各要素に対応する単語等が、一つの発話に登場するか否かをそれぞれ１及び０で表す値を持つ。したがって、発話特徴ベクトルの要素数は非常に多くなるが、その算出は簡単な処理で行なえる。なお、本実施の形態では、発話特徴ベクトル作成部８０Ｊが算出する発話特徴ベクトルは、上記した発話特徴ベクトルＷの末尾に、その発話が予め定められた複数のトピックのうちでどのトピックに属するかを示す情報を要素として含む。

再び図１を参照して、検証装置３８Ｊは、学習済のＳＶＭ３４Ｊを用い、音声認識装置３６Ｊからの認識結果の仮説６０Ｊが、予め定められた複数種類のトピックの各々に属していると考えられる確率がどの程度かをトピックごとに表す値を要素とするトピック分類ベクトル６４Ｊを算出するためのトピック分類部５０Ｊと、トピック分類部５０Ｊの出力するトピック分類ベクトル６４Ｊを受け、トピック分類ベクトル６４Ｊが、検証装置３８Ｊに後続する自然言語処理装置の適用分野に適合しているか否かを表す信頼度尺度（これをドメイン内信頼度尺度と呼ぶ。）ＣＭ_in-domain６７Ｊを算出するためのドメイン内検証部５２Ｊと、後述するように英語音声認識結果の検証装置３８Ｅが一つ前の英語音声に対して出力したトピック分類ベクトル６４Ｅを記憶するための記憶部５４Ｊと、トピック分類部５０Ｊの出力するトピック分類ベクトル６４Ｊを、記憶部５４Ｊに記憶された一つ前の発話に対するトピック分類ベクトル６６Ｊと比較することにより、談話整合性による信頼度尺度ＣＭ_discourse６８Ｊを算出するための談話整合性検証部５６Ｊと、ドメイン内検証部５２Ｊの出力するドメイン内信頼度尺度ＣＭ_in-domain６７Ｊ、談話整合性検証部５６Ｊの出力するＣＭ_discourse６８Ｊ、及び音声認識装置３６Ｊの出力する事後確率６２Ｊに対して所定の演算を行なうことにより、これら３つの信頼度尺度を総合して、音声認識された会話内容に対する日本語の統合信頼度尺度ＣＭ４０Ｊを算出するための信頼度尺度統合部５８Ｊとを含む。

図３に、トピック分類部５０Ｊの構成をブロック図形式で示す。図３を参照して、トピック分類部５０Ｊは、認識結果の仮説６０Ｊを受けて認識結果の仮説６０Ｊの単語特徴ベクトルＷを作成するための単語特徴ベクトル作成部９０Ｊと、単語特徴ベクトル作成部９０Ｊの出力する単語特徴ベクトルＷをＳＶＭ３４Ｊに与えることにより、ＳＶＭ３４Ｊから認識結果の仮説６０Ｊ（これをＸとする。）に対するトピックごとのトピック分類信頼度Ｃ（ｔi｜Ｘ）（ｉ＝１〜ｍ）を得て、トピック分類ベクトル６４Ｊを出力するためのＳＶＭによるトピック分類部９２Ｊとを含む。

トピック分類部５０Ｊの出力するトピック分類ベクトル６４Ｊは以下の形式を持つ。

ただしＸは発話、Ｖ_topic（Ｘ）は発話Ｘに対するトピック分類ベクトル、ｍはトピック数、ｔ_iはｉ番目のトピック、Ｃ（ｔ_i|Ｘ）は発話Ｘがｉ番目のトピックに属する確率、をそれぞれ表す。したがってトピック分類ベクトルＶ_topic（Ｘ）は、トピックの数と同じｍ個の要素を持つ。

ドメイン内検証部５２Ｊの算出するＣＭ_in-domain６７Ｊは、発話がいずれかのドメインに属するか否かの指標となり、この値が小さければドメイン外の発話として棄却することができる。ＣＭ_in-domain６７Ｊは以下のように算出される。まず、ドメイン内検証部５２Ｊは、トピック分類ベクトル６４Ｊに基づき、次の式によりドメイン内検証モデルＶ_in-domain（Ｘ）を算出する。

ここで、Ｗは入力発話Ｘに対する単語ベクトル、ｍはトピック数、λ_iは各トピックの線形識別重みを、それぞれ表す。線形識別重みλ_iは、予め各ドメインに属していることが分かっている発話のみを用い、削除補間法と勾配確率的降下法とを用いて学習しておく（非特許文献６を参照）。この値は非負である。

このドメイン内検証モデルＶ_in-model（Ｘ）に対し、以下のシグモイド関数を適用することにより、ＣＭ_in-domain６７Ｊが算出される。シグモイド関数は、値域が−１から１の範囲に限定された非線形変換を行なう関数である。

一方、談話整合性検証部５６Ｊが算出する談話整合性による信頼度尺度ＣＭ_discourse６８Ｊは、一つ前の発話内容と処理対称の発話の内容とが関連しているか否かの指標となる。通常、対話におけるユーザの発話は、その一つ前の発話内容に関連している。すなわち、機械とユーザとの音声対話システムでは機械からのプロンプト、二人のユーザの間の音声翻訳システムではもう一方のユーザの直前の発話、のいずれかと処理対称の発話とが関連していることが多い。したがって談話整合性検証部５６Ｊでは、以下のようにして談話整合性による信頼度尺度ＣＭ_discourse６８Ｊを算出する。

処理対象の発話をＸ_i、一つ前の発話（音声認識システム２０が対話システムなので、一つ前の英語の発話をＸ_i-1とする。まず、次の式にしたがいこの二つの発話間の発話間距離ｄｉｓｔ（Ｘ_i，Ｘ_i-1）を計算する。

日本語の談話整合性による信頼度尺度ＣＭ_discourse（Ｘ_i｜Ｘ_i-1）６８Ｊは、この値ｄｉｓｔ（Ｘ_i，Ｘ_i-1）に対して以下のようにシグモイド関数を適用することにより算出される。

このようにして算出された談話整合性による信頼度尺度ＣＭ_discourse６８Ｊの値は、直前の英語の発話のトピックと処理対象の日本語のトピックとが近いと大きくなり、遠いと小さくなる。

最後に、図１に示す信頼度尺度統合部５８Ｊの機能について説明する。信頼度尺度統合部５８Ｊは、以下の式にしたがい、上記した二つの信頼度尺度、すなわちドメイン内信頼度尺度ＣＭ_in-domain６７Ｊ及び談話整合性による信頼度尺度ＣＭ_discourse６８Ｊと、音声認識装置３６Ｊが出力する通常の一般化された事後確率Ｇｐｐ６２Ｊとを次の式によって組合せ、日本語の発話Ｘ_iに対する統合信頼度尺度ＣＭ４０Ｊを算出する。

ただしλ_gpp＋λ_in-domain＋λ_discourse＝１である。

このようにして算出された信頼度尺度ＣＭ（Ｘ_i）と予め定められたしきい値φとを比較し、信頼度尺度ＣＭ（Ｘ_i）がしきい値φ以上であれば音声認識結果が信頼できるものと判定し、しきい値φ未満であれば、信頼できないものと判定する。しきい値φと３つの係数（各モデルの重みに相当する。）λ_gpp、λ_in-domain及びλ_discourseについては、予め準備した開発用の日本語文のデータを用いて学習しておく。

英語音声認識結果の検証装置３８Ｅの構成も検証装置３８Ｊとほぼ同様である。すなわち、英語音声認識結果の検証装置３８Ｅは、トピック分類部５０Ｅと、ドメイン内検証部５２Ｅと、記憶部５４Ｅと、談話整合性検証部５６Ｅと、信頼度尺度統合部５８Ｅとを含む。これらの機能は、日本語と英語との違いを除き、トピック分類部５０Ｊ、ドメイン内検証部５２Ｊ、記憶部５４Ｊ、談話整合性検証部５６Ｊ、及び信頼度尺度統合部５８Ｊとそれぞれ同じである。また、各機能部の出力についても検証装置３８Ｊにおけるものと同じで参照符号の「Ｊ」を「Ｅ」に変えて示してある。したがって、英語音声認識結果の検証装置３８Ｅの構成の詳細については省略する。

＜動作＞
上に構成を説明した音声認識システム２０は以下のように動作する。予め、学習データ３０Ｊを用いてＳＶＭ３４Ｊの学習が行なわれていたものとする。さらに、ドメイン内検証部５２Ｊで使用する線形識別重みλ_i、及び信頼度尺度統合部５８Ｊでの各モデルの重みλ_gpp、λ_in-domain及びλ_discourseについても学習済であるものとする。同様に、英語音声認識結果の検証装置３８Ｅが使用するＳＶＭ３４Ｅ、ドメイン内検証部５２Ｅで使用する線形識別重み、及び信頼度尺度統合部５８Ｅでの各モデルの重みについても学習済であるものとする。

また、直前の英語の発話に対する英語の音声認識装置３６Ｅでの音声認識と、英語音声認識結果の検証装置３８Ｅでの英語の統合信頼度尺度ＣＭ４０Ｅの算出とが終了しているものとする。英語音声認識結果の検証装置３８Ｅでの処理中、トピック分類部５０Ｅが算出したトピック分類ベクトル６４Ｅは検証装置３８Ｊの記憶部５４Ｊに記憶されている。

日本語音声が音声認識装置３６Ｊに入力されると、音声認識装置３６Ｊは音声認識を行ない、認識結果の仮説６０Ｊをトピック分類部５０Ｊに、事後確率Ｇｐｐ６２Ｊを信頼度尺度統合部５８Ｊに、それぞれ与える。

トピック分類部５０Ｊは、ＳＶＭ３４Ｊを用いて式（１）で表されるトピック分類ベクトルＶ_topic６４Ｊを算出し、ドメイン内検証部５２Ｊ、談話整合性検証部５６Ｊ、及び英語音声認識結果の検証装置３８Ｅの記憶部５４Ｅに与える。

ドメイン内検証部５２Ｊは、トピック分類ベクトル６４Ｊを用いて前述した式（２）及び（３）にしたがいドメイン内信頼度尺度ＣＭ_in-domain６７Ｊを算出して信頼度尺度統合部５８Ｊに与える。談話整合性検証部５６Ｊは、トピック分類部５０Ｊからのトピック分類ベクトル６４Ｊと、記憶部５４Ｊに記憶されている、直前の英語の発話の信頼度算出の際に得られたトピック分類ベクトル６６J（６４Ｅ）との間で、前述した式（４）に従って発話間距離ｄｉｓｔ（Ｘ_i｜Ｘ_i-1）を算出し、さらに式（５）にしたがって談話整合性による信頼度尺度ＣＭ_discourse６８Ｊを算出して信頼度尺度統合部５８Ｊに与える。信頼度尺度統合部５８Ｊは、式（６）にしたがって、事後確率Ｇｐｐ６２Ｊ、ドメイン内信頼度尺度ＣＭ_in-domain６７Ｊ、及び談話整合性による信頼度尺度ＣＭ_discourse６８Ｊを統合し、日本語の統合信頼度尺度ＣＭ４０Ｊを出力する。

図示しない自然言語処理部は、この日本語の統合信頼度尺度ＣＭ４０Ｊの値が１であればその結果を用いて自然言語処理を行ない、０であれば何らかの形でエラー処理を行なう。

上記した日本語の音声認識結果の統合信頼度尺度ＣＭの算出において、トピック分類部５０Ｊから出力されたトピック分類ベクトル６４Ｊは英語音声認識結果の検証装置３８Ｅの記憶部５４Ｅに記憶される。次の英語の発話の音声認識結果の英語の統合信頼度尺度ＣＭ４０Ｅの算出において、談話整合性検証部５６Ｅが記憶部５４Ｅの記憶内容を用いて談話整合性による信頼度尺度ＣＭ_discourse６８Ｅを算出することができる。

こうして、本実施の形態では、日本語と英語の発話を交互に音声認識し、その信頼度をそれぞれ算出し、その値に応じて適宜エラー処理を行ないながら音声翻訳処理を行なうことができる。

＜コンピュータによる実現＞
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図４はこのコンピュータシステム３３０の外観を示し、図５はコンピュータシステム３３０の内部構成を示す。

図４を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図５を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、図示しないプリンタを含んでもよい。

コンピュータ３４０はさらに、ローカルエリアネットワーク（ＬＡＮ）を介してインターネット１４０への接続を提供するためのネットワークアダプタボード３６８を含んでもよい。

コンピュータシステム３３０に音声認識結果の検証装置としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムはインターネット及びネットワークアダプタボード３６８を介して他のコンピュータからコンピュータ３４０に送信され、ハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の音声認識結果の検証装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、またはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声認識結果の検証装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

＜実験結果＞
上記した実施の形態に係る音声認識システム２０の性能を以下のようにして評価した。評価には、出願人において作成したＡＴＲ音声翻訳システム（非特許文献７を参照）を介した自然な発話を用いた。このシステムは、旅行会話ドメインで動作し、英語と日本語との間の翻訳を行なうものである。

音声認識で使用される言語モデルと、認識結果の検証におけるトピック分類モデル及びドメイン内検証モデルとの学習には、出願人において作成した旅行会話表現コーパスを使用した。このコーパスは、１４のトピッククラスからなっている。具体的には、これらは宿泊、ショッピング、移動等、旅行において典型的に遭遇する場面にあわせたトピックに分類されている。このコーパスは、日本語と英語との双方において、学習用の４０万の文を含んでいる。

これとは別に、開発用セット及びテスト用セットを準備した。これらは英語を母語とする話者と日本語を母語とする話者との間の、上記した翻訳システムを介した自然な対話からなっている。この会話は、予め準備した、旅行に関連するいくつかのシナリオにしたがって収集された。

これらデータに含まれる文の数などを図６に示す。図６に示されるように、開発セットとテストセットとが有する対話数はそれぞれ２７０と９０とである。また、日本語について見ると、発話数は開発セットで２６７４、テストセットで１０１１である。英語について見ると、これらはそれぞれ３０９１と１００６とである。

通常の、「キーワードセット」を持たない音声翻訳タスクでは、音声認識誤りを処理する最も有効な方法は、発話全体の言いかえをするようにユーザに要求する方法である。したがって、実験における検証は、１以上の音声認識誤りがあれば認識結果を棄却するものとした。

システムの性能は以下の式（７）で示すＣＥＲ（信頼度誤り率：ｃｏｎｆｉｄｅｎｃｅｅｒｒｏｒｒａｔｅ）を用いた。

受理誤り数（以下「ＦＡ」）とは、本来棄却すべきものを誤って受理してしまった発話数をいう。棄却誤り数（以下「ＦＲ」）とは、本来受理すべきものを誤って棄却してしまった発話数をいう。

−ベースラインとなる音声認識性能−
最初に、英語及び日本語の音声認識装置の性能を評価した。音声認識装置としては、出願人において作成したものを用いた。日本語側及び英語側に、それぞれ２万及び１万６千の単語からなる辞書を適用した。音声認識時、最初にバイグラム言語モデルを適用することにより単語グラフを作成し、次にトライグラム言語モデルを用いて単語グラフを評価することにより最終的な音声認識結果を得た。日本語と英語とに対する音声認識性能については、図６にＷＥＲ（単語誤り率）及びＳＥＲ（文誤り率）として示してある。

−ベースライン−
次に、一般化された事後確率ＧＰＰのみを検証に用いたベースラインのシステムを評価した。このシステムでは、発話レベルでの音声認識装置の出力する事後確率ＧＰＰを、所定のしきい値と比較することにより発話の検証を行った。このしきい値は開発セットを用いて学習した。このシステムのＣＥＲと、全ての仮説を受理する基準時とを、図７に対比して示す。

図７を参照して、「ＡｃｃｅｐｔＡｌｌ（全て受理）」の場合の性能は、各音声認識装置のＳＥＲにほぼ一致する。これに対しＧＰＰのみによるシステムのＣＥＲは、日本語と英語との場合でそれぞれ１７．３％と１５．３％とである。

−ドメイン内信頼度尺度と会話による信頼度尺度−
さらに、上記した実施の形態で述べた、ドメイン内信頼度尺度と談話整合性による信頼度尺度とを用いたシステムの性能を同様に評価した。英語側と日本語側との双方において、ＧＰＰのみを用いたベースライン（ＧＰＰ）の結果と、ＧＰＰに加えてドメイン内信頼度尺度（ＩＣ）を用いて検証した結果（ＧＰＰ＋ＩＣ）と、ＧＰＰに加えて談話整合性による信頼度尺度（ＤＣ）を用いて検証した結果（ＧＰＰ＋ＤＣ）と、ＧＰＰにドメイン内信頼度尺度と談話整合性による信頼度尺度との双方を加えて検証した結果（ＧＰＰ＋ＩＣ＋ＤＣ）とを、図８に示す。なお、ＧＰＰ＋ＩＣ、ＧＰＰ＋ＤＣなどは、例えば式（６）においてλ_discourse及びλ_in-domainをそれぞれ０に設定することで実現できる。

日本語について検討すると、ＧＰＰにドメイン内信頼度尺度を加えた場合（ＧＰＰ＋ＩＣ）と、ＧＰＰに談話整合性による信頼度尺度を加えた場合（ＧＰＰ＋ＤＣ）とで、ＣＥＲはそれぞれ１６．３％及び１６．５％に低下した。ＧＰＰ単独ではＣＥＲは１７．３％である。この結果、それぞれの場合で相対的にＣＥＲは５．７％及び４．６％低下したことになる。

ＧＰＰにドメイン内信頼度尺度と談話整合性になる信頼度尺度との双方を加えて検証を行なうと、ＣＥＲは１５．９％となり、ＧＰＰのみの場合と比較して割合にして８％低下した。

図８の右側から分かるように、英語の場合についても同様の結果が得られた。すなわち、両方の尺度を検証の際に考慮することにより、ＣＥＲは１５．３％から１４．４％に、割合にして６．１％低下した。

＜結論＞
以上の実施の形態では、音声認識の過程で得られるＧＰＰ等の尺度だけでなく、会話のドメインと会話の内容という、人間による発話理解に用いられる情報により近いと思われる情報を用いて音声認識結果の信頼度尺度を評価した。ドメインによる信頼度尺度は、システムが想定している会話の場面に処理対象の発話が属していると思われる度合いを表す。会話の内容による信頼度尺度とは、処理対象の発話がその直前の発話と関連している度合いを表す。これら、音響情報のみではなく、より発話の意味内容に即した情報を用いて発話の検証を行なうことにより、音声認識結果の検証精度を高めることができる。その際、いずれか一方のみを用いても効果が得られ、双方を組合わせることによりより高い効果が得られた。

上記実施の形態では、トピック分類ベクトルの算出にあたり、ＳＶＭを用いている。しかし本発明はそのような実施の形態には限定されない。例えば多層パーセプトロン（ＭＬＰ）、又はニューラルネットワークを用いるようにしてもよい。

また、上記した実施の形態では、ドメイン内信頼度尺度と談話整合性による信頼度尺度とを用いたが、本発明はこの二つの信頼度尺度を用いる場合には限定されない。処理対象の発話と、その前の発話との関連を表す尺度、又は音声認識装置が処理の対象としているドメインと発話の内容との一致を表す尺度であれば、どのような形式のものを用いてもよい。また、こうした尺度を算出するにあたって、話者の使用する語彙の偏りなどを考慮して信頼度尺度を算出するようにしてもよい。また、処理対象の発話の直前の発話だけでなく、その２つ前、３つ前等、複数の発話に対する関連の高さを信頼度尺度の算出に用いてもよい。また、上記した実施の形態では、対話翻訳システムで、二つの言語の話者が交互に話すことを前提として談話整合性による信頼度尺度を算出した。しかし、ある話者の発話の音声認識結果を検証する際には、その前の、同一話者による発話内容との関連のみを調べるようにしてもよい。

さらに、上記した実施の形態では、談話整合性による信頼度尺度の算出にあたり、二つの発話のトピック分類ベクトルの間の距離として、ユークリッド距離を用いている。しかし本発明はそのような実施の形態には限定されない。たとえば、二つのベクトルの間のコサイン距離を用いてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の一実施の形態に係る検証装置３８Ｊ及び英語音声認識結果の検証装置３８Ｅを採用した音声認識システム２０のブロック図である。検証装置３８Ｊで使用するＳＶＭ３４Ｊの学習を行なうためのＳＶＭ学習処理部３２Ｊの構成を示すブロック図である。検証装置３８Ｊの一部を構成するトピック分類部５０Ｊのブロック図である。本発明の一実施の形態に係る信頼度算出装置を実現するコンピュータシステムの外観図である。図４に示すコンピュータのブロック図である。実験に用いたデータの概略と、ベースラインとなる音声認識装置の性能とを表形式で示す図である。ベースラインとなる、ＧＰＰのみを用いた検証装置の性能を示すグラフである。本発明の一実施の形態により、ドメイン内信頼度尺度と談話整合性による信頼度尺度とのいずれか一方又は双方を採用した検証装置の性能をＧＰＰのみを用いたものと対比して示すグラフである。

符号の説明

２０音声認識システム
３０Ｊ学習データ
３２ＪＳＶＭ学習処理部
３４Ｊ，３４ＥＳＶＭ
３６Ｊ，３６Ｅ音声認識装置
３８Ｊ，３８Ｅ検証装置
４０Ｊ，４０Ｅ統合信頼度尺度
５０Ｊ，５０Ｅトピック分類部
５２Ｊ，５２Ｅドメイン内検証部
５４Ｊ，５４Ｅ記憶部
５６Ｊ，５６Ｅ談話整合性検証部
５８Ｊ，５８Ｅ信頼度尺度統合部
６０Ｊ認識結果の仮説
６２Ｊ事後確率
６４Ｊ，６４Ｅトピック分類ベクトル
６６Ｊ一つ前の発話に対する日本語のトピック分類ベクトル
６６Ｅ一つ前の発話に対する英語のトピック分類ベクトル
６８Ｊ，６８Ｅ談話整合性による信頼度尺度

Claims

音声認識装置の出力する仮説の妥当性を検証するための、音声認識結果の検証装置であって、
前記音声認識装置は、音声認識の過程で各仮説に関して得られる信頼度を各仮説に付して出力するものであり、
前記検証装置は、
音声認識結果の妥当性を評価するための、前記認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する前記音声認識装置の出力とを比較することにより、前記ある発話の音声認識結果の妥当性を表す第１の尺度を出力するための第１の尺度出力手段と、
前記第１の尺度と、前記ある発話に対して前記音声認識装置の出力する前記信頼度とを所定の方法により統合し、前記ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む、音声認識結果の検証装置。
前記音声認識装置は、所定の発話のドメインを想定して設定されており、前記発話のドメインは複数のトピックを含み、
前記第１の尺度出力手段は、
前記ある発話に対する前記音声認識装置の前記出力が、前記複数のトピックのいずれかに分類される可能性を、前記複数のトピックの各々に対して算出し、第１のトピック分類ベクトルとして出力するための第１のトピック分類手段と、
前記第１のトピック分類手段から出力される前記第１のトピック分類ベクトルの所定の関数として、前記第１の尺度を算出するための尺度算出手段とを含む、請求項１に記載の音声認識結果の検証装置。
コンピュータにより実行されると、当該コンピュータを、請求項１〜請求項２のいずれかに記載の音声認識結果の検証装置として動作させる、コンピュータプログラム。