JP2007017548A - 音声認識結果の検証装置及びコンピュータプログラム - Google Patents

音声認識結果の検証装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007017548A
JP2007017548A JP2005196887A JP2005196887A JP2007017548A JP 2007017548 A JP2007017548 A JP 2007017548A JP 2005196887 A JP2005196887 A JP 2005196887A JP 2005196887 A JP2005196887 A JP 2005196887A JP 2007017548 A JP2007017548 A JP 2007017548A
Authority
JP
Japan
Prior art keywords
speech recognition
utterance
reliability
recognition result
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005196887A
Other languages
English (en)
Inventor
Lane Ian
イアン・レーン
Tatsuya Kawahara
達也 河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005196887A priority Critical patent/JP2007017548A/ja
Publication of JP2007017548A publication Critical patent/JP2007017548A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができる音声認識結果の検証装置を提供する。
【解決手段】音声認識結果の検証装置38Jは、音声認識結果の妥当性を評価するための、音声認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する音声認識装置36Jの出力60Jとを比較することにより、ある発話の音声認識結果の妥当性を表す、ドメイン内信頼度又は談話整合性による信頼度をそれぞれ出力するためのドメイン内検証部52J及び談話整合性検証部56Jと、ドメイン内信頼度又は談話整合性による信頼度と、音声認識装置36Jの出力する信頼度62Jとを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合部58Jとを含む。
【選択図】 図1

Description

この発明は音声認識結果等の発話の信頼度尺度を算出するための装置に関し、特に音声認識結果等の発話を、音声情報及び言語情報以外の情報から算出される信頼度尺度を用いて検証するための音声認識結果の検証装置に関する。
音声認識技術は、人間と機械とのインターフェースを実現するための一つの重要なツールである。近年の研究の進展と、使用されるコンピュータの性能の向上とにより、実験室レベルでは、かなりの精度で音声認識を行なうことが可能となっている。しかし、種々の雑音、話者の変化、非文法的な発話等、実際の環境では音声認識の障害となる要因が多数あり、十分な音声認識の性能を達成することが難しい。
音声認識技術の実用化をさらに推進するためには、音声認識結果を利用する自然言語処理システムに音声認識結果を与える前に、音声認識装置における音声認識誤りを的確に検出し訂正することが重要である。
音声認識誤りの検出のためには、音声認識装置から出力される仮説(及び各仮説に含まれる単語)の信頼度を評価することが重要である。誤りを的確に検出することにより、音声認識装置は、誤りのタイプにしたがって的確なフィードバックをユーザに与え、音声認識の誤りを取り除くために適切な処置をとることができる。
例えば、音声認識結果のうち、現在のタスクに対して関連性の少ない単語のみについてユーザに確認したり(非特許文献1)、発話を繰り返させたり又は発話全体を別の表現で言い換えるように依頼したり(非特許文献2)することが、従来の技術では提案されている。
しかしこのような手段を採るためには、音声認識結果の信頼性について的確に評価するための技術が不可欠である。
こうした信頼度尺度の手法として例えば、特徴量を用いるものがある。例えば非特許文献3においては、特定の特徴量の組(例えば単語の持続時間、音響モデル及び言語モデルにおけるバックオフ、単語グラフの密度等)によって信頼度を評価している。モデルを明示的に用いた手法は、例えば非特許文献4に開示されており、尤度の比較というテストを行なう。すなわち、候補のモデルを参照モデルと比較したりすることにより、信頼度を評価する。事後確率を用いる手法として、非特許文献2又は非特許文献5に開示されたものがある。こうした手法では、N−ベスト又は単語グラフ内の全ての仮説内における、認識された対象(単語又は発話)についての事後確率を評価する。
T.ミス他、「音声対話インターフェースを持つ文書検索システムにおける確認手法」、ICSLP予稿集、pp.45−48,2004年(T. Misu, K. Komatani, and T. Kawahara, "Confirmation strategy for document retrieval systems with spoken dialog interface", in Proc. ICSLP, pp. 45-48, 2004) W.K.ロー他、「認識された文の検証の誤差を最小にするための一般化事後確率」、ICASSP予稿集、pp.85−89、2005年(W. K. Lo, and F. K. Soong, "Generalized posterior probability for minimum error verification of recognized sentences", in Proc. ICASSP, pp. 85-89, 2005) T.ケンプ他、「単語グラフを用いる信頼度評価」、EuroSpeech予稿集、pp.827−830、1997年(T. Kemp, and T. Schaff, "Estimating confidence using word lattices", in Proc. EuroSpeech, pp. 827-830, 1997) M.G.ラヒム他、「連続数字認識のための弁別的発話検証」、IEEE音声処理トランザクション、第5巻、pp.266−277、1997年(M.G. Rahim, C.H. Lee, and B.H. Juang, "Discriminative utterance verification for connected digits recognition", IEEE Trans. SAP, vol. 5, pp. 266-277, 1997) F.ウェセル他、「大語彙連続音声認識のための信頼度尺度」、IEEE音声処理トランザクション、第9巻、pp.288−298、2001年(F. Wessel, R. Schluter, K. Macherey, and N. Hermann, "Confidence measures for large vocabulary continuous speech recognition", IEEE Trans. SAP, vol. 9, pp. 288-298, 2001) I.レーン他、「複数トピック分類による信頼度尺度に基づくドメイン外検出」、ICASSP予稿集、pp.757−760、2004年(I. Lane, T. Kawahara, T. Matsui and S. Nakamura, "Out-of-domain detection based on confidence measures from multiple topic classification", in Proc. ICASSP, pp. 757-760, 2004) T.タケザワ他、「機械翻訳により補助された対話を収集するための実験的システム」、FTI2003予稿集、第2巻、pp.161−162、2003年(T. Takezawa, A. Nishino, K. Takashima, T. Matsui, and G. Kikui, "An experimental system for collecting machine-translation aided dialogues", in Proc. FTI2003, Vol. 2, pp. 161-162, 2003)
しかし、従来の手法による信頼度尺度には未だ改善の余地がある。例えば、従来の手法はいずれも、音声認識の過程で得られる情報を用いるものであり、その結果得られる信頼度尺度の信頼性には限界がある。人間の言語生活を省みれば分かるように、人間が相手の発話を理解するときには、決して相手の発話から得られる音声的な情報しか使用していないわけではない。それ以外にも種々の情報を利用して相手の発話内容を理解している。例えば、前後の発話内容の関係、発話が主に関係しているドメインとの関係などを用いることにより、人間はほぼ完全に相手の発話内容を理解する。
従来の音声認識装置では、このような情報を音声認識結果の検証に用いることはなかった。音声認識装置の信頼度尺度の算出においても、単に音声認識の過程で得られる情報だけでなく、それ以外の情報を用いることにより、信頼度尺度の信頼性を高めることが可能になると思われる。
それゆえに本発明の目的は、音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することである。
本発明の他の目的は、発話又は対話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することである。
本発明の第1の局面にかかる音声認識結果の検証装置は、音声認識装置の出力する仮説の妥当性を検証するための、音声認識結果の検証装置である。音声認識装置は、音声認識の過程で各仮説に関して得られる信頼度を各仮説に付して出力するものである。この検証装置は、音声認識結果の妥当性を評価するための、音声認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する音声認識装置の出力とを比較することにより、ある発話の音声認識結果の妥当性を表す第1の尺度を出力するための第1の尺度出力手段と、第1の尺度と、ある発話に対して音声認識装置の出力する信頼度とを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む。
音声認識の過程で得られる信頼度とは異なる所定の基準を準備し、音声認識結果の妥当性をこの基準と比較することにより評価し、第1の尺度を算出する。この第1の尺度と、音声認識装置が出力する、音声認識の過程で得た信頼度とを統合してある発話に対する音声認識結果の信頼度を評価する。音声認識の過程で得られた信頼度だけでなく、外部の基準を用いて音声認識結果の妥当性を評価するため、統合により得られる信頼度尺度の信頼性はより高くなる。その結果、音声認識の過程で得られる情報以外の情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。
好ましくは、音声認識装置は、所定の発話のドメインを想定して設定されており、この発話のドメインは複数のトピックを含む。第1の尺度出力手段は、ある発話に対する音声認識装置の出力が、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出し、第1のトピック分類ベクトルとして出力するための第1のトピック分類手段と、第1のトピック分類手段から出力される第1のトピック分類ベクトルの所定の関数として、第1の尺度を算出するための尺度算出手段とを含む。
音声認識装置が想定している発話のドメインを複数のトピックに分け、トピックのいずれかに音声認識結果が属している可能性を評価して第1のトピック分類ベクトルを算出する。この第1のトピック分類ベクトルに対する所定の関数として第1の尺度を算出する。トピックのいずれにも属していない可能性の高い音声認識結果に対しては、第1の尺度による評価は低くなる。そのような音声認識結果を受理の対象から排除できる。その結果、発話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。
より好ましくは、尺度算出手段は、第1のトピック分類手段が出力する第1のトピック分類ベクトルの各要素の、非負の係数による線形和を算出するための手段と、線形和の値に対し、値域の限定された非線形変換を行なって第1の尺度を算出するための手段とを含む。
第1のトピック分類ベクトルの各要素の線形和を算出し、さらに値域の限定された非線形変換を行なって第1の尺度を算出する。その結果得られる値の値域は一定となるため、第1の尺度による音声認識結果の評価が明確になる。さらに、ベクトルの各要素の線形和を用いるため、その係数を適切に定めることにより、第1の尺度の値の精度を高めることができる。
さらに好ましくは、音声認識結果の検証装置はさらに、ある発話に先行する発話に対して、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出した値を要素とする第2のトピック分類ベクトルを準備するための手段と、ある発話に対して算出された第1のトピック分類ベクトルと、第2のトピック分類ベクトルとの間で定義される距離を算出するための距離算出手段と、距離算出手段により算出された距離に対し、値域が予め定められた範囲に限定された非線形変換を行なうことにより、ある発話の意味的妥当性を表す第2の尺度を出力するための第2の尺度出力手段とを含み、信頼度尺度統合手段は、第1及び第2の尺度と、ある発話に対して音声認識装置の出力する信頼度とを所定の方法により統合し、ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む。
ある発話の内容は、会話においてその発話に先行する発話の内容と関連していることが多い。したがって、ある発話の音声認識結果と、それに先行する発話の内容との類似性を第1及び第2のトピック分類ベクトルの間の距離で評価することにより、互いの関連性を評価することができる。その結果、先行する発話の内容と関連が高い音声認識結果は妥当性が高いと判定できる。また、先行する発話の内容と関連が低い音声認識結果については、自然言語処理の対象から排除できる。その結果、対話の内容に関する情報を用いて音声認識結果を検証することができるような音声認識結果の検証装置を提供することができる。
第2のトピック分類ベクトルを準備するための手段は、ある発話の直前の発話の音声認識結果が、複数のトピックのいずれかに分類される可能性を、複数のトピックの各々に対して算出し、第2のトピック分類ベクトルとして出力するための第2のトピック分類手段と、第2のトピック分類手段により算出されたトピック分類ベクトルを一時的に記憶し、距離算出手段に与えるための手段とを含んでもよい。
ある発話の内容は、特にその直前の発話の内容と最も強く関連している。したがって、直前の発話の内容との関連をトピック分類ベクトルとして表して記憶しておき、次の発話の音声認識結果に対して得られたトピック分類ベクトルとの間の距離を算出することにより、音声認識結果の妥当性を精度よく評価できる。
本発明の第2の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの音声認識結果の検証装置として動作させるものである。したがって、上記した音声認識結果の検証装置と同様の効果を得ることができる。
以下、本発明の一実施の形態に係る音声認識結果の検証装置の構成及び動作について説明する。なお、以下の説明及び図面において、同じ部品には同じ参照番号を付してある。それらの名称及び機能も同一である。したがってそれらについての詳細な説明は繰返さない。また、以下の実施の形態における音声認識装置は、日本語及び英語の間の音声自動翻訳システムで使用されるものであり、基本的には日本語用と英語用との双方に共通した構成を持つ。使用する音響モデル及び言語モデルについては日本語用と英語用とで別である。ただし、説明を簡略にするために、以下の説明は、日本語の音声認識を行なうシステムに限定して行なう。
<構成>
図1に、本発明の一実施の形態に係る日本語音声認識結果の検証装置38J及び英語音声認識結果の検証装置38Eを用いた音声認識システム20の構成をブロック図形式で示す。図1を参照して、音声認識システム20は、図示しない音響モデル及び言語モデルを用い、入力される日本語の音声の音声認識を行ない、認識結果の仮説60Jとそれぞれの事後確率62Jとを出力するための音声認識装置36Jと、音声認識装置36Jの音声認識結果に対して後述するトピック分類を行なうためのSVM(Support Vector Machine)34Jと、SVM34Jの学習に使用する、予め複数のトピックのいずれかに分類された日本語の発話データからなる学習データ30Jと、学習データ30Jを用いてSVM34Jの学習を行ない、日本語の入力発話に対して各トピックに属する確率がどの程度の値かを出力するようにさせるためのSVM学習処理部32Jと、SVM学習処理部32Jにより学習が行なわれたSVM34Jを用いたトピック分類を用い、日本語音声認識装置36Jの音声認識結果である認識結果の仮説60Jに対して、後述するようなドメイン内信頼度尺度と、談話整合性信頼度尺度とを算出し、これらを統合した信頼度尺度(これを統合信頼度尺度と呼ぶ。)CM40Jを算出して後続する日本語の自然言語処理部(図示せず)に与えるための日本語音声認識結果の検証装置38Jとを含む。
音声認識システム20はさらに、英語の音声認識装置36Eと、英語の音声認識装置36Eの出力に対して検証装置38Jと同様の検証を行ない、日本語の統合信頼度尺度CM40Jと同様の英語の統合信頼度尺度CM40Eを英語の音声認識装置36Eの認識結果に対して出力して後続する英語の自然言語処理部(図示せず)に与えるための英語音声認識結果の検証装置38Eとを含む。音声認識システム20はさらに、学習データ30J、SVM学習処理部32J、及びSVM34Jにそれぞれ対応して設けられた、英語音声認識結果の検証装置38Eのための学習データ、SVM学習処理部、及びSVMを備えるが、図1においては図を簡略化するために省略してある。英語の音声認識装置36Eは、後述するように音声認識装置36Jと同様の構成を備えている。また、トピック分類は日本語と英語とで共通のものを用いる。
図2を参照して、学習データ30Jに含まれる各文に対しては、予め手作業によりトピック付与が行われている。トピック付与は、予め定められた複数種類のトピックのいずれに文が属するかを示す情報を各文に付す作業である。SVM学習処理部32Jは、学習データ30Jの各文から学習のための発話特徴ベクトルWを作成するための発話特徴ベクトル作成部80Jと、発話特徴ベクトル作成部80Jにより作成された発話特徴ベクトルを、各文に対して付与されたトピック情報とともにSVM34Jに与えることにより、SVM34Jの学習を行なうためのSVM学習部82Jとを含む。
本実施の形態では、発話Xに対する発話特徴ベクトルWは、発話X内の単語と、発話X内の単語対と、発話X内の単語3つ組との発生数をベクトル形式にしたものである。したがって、発話特徴ベクトルWは、学習データ30J内に登場する単語の全て、単語対の全て、及び単語の3つ組の全てに対応する要素を持つ。各要素は、各要素に対応する単語等が、一つの発話に登場するか否かをそれぞれ1及び0で表す値を持つ。したがって、発話特徴ベクトルの要素数は非常に多くなるが、その算出は簡単な処理で行なえる。なお、本実施の形態では、発話特徴ベクトル作成部80Jが算出する発話特徴ベクトルは、上記した発話特徴ベクトルWの末尾に、その発話が予め定められた複数のトピックのうちでどのトピックに属するかを示す情報を要素として含む。
再び図1を参照して、検証装置38Jは、学習済のSVM34Jを用い、音声認識装置36Jからの認識結果の仮説60Jが、予め定められた複数種類のトピックの各々に属していると考えられる確率がどの程度かをトピックごとに表す値を要素とするトピック分類ベクトル64Jを算出するためのトピック分類部50Jと、トピック分類部50Jの出力するトピック分類ベクトル64Jを受け、トピック分類ベクトル64Jが、検証装置38Jに後続する自然言語処理装置の適用分野に適合しているか否かを表す信頼度尺度(これをドメイン内信頼度尺度と呼ぶ。)CMin-domain67Jを算出するためのドメイン内検証部52Jと、後述するように英語音声認識結果の検証装置38Eが一つ前の英語音声に対して出力したトピック分類ベクトル64Eを記憶するための記憶部54Jと、トピック分類部50Jの出力するトピック分類ベクトル64Jを、記憶部54Jに記憶された一つ前の発話に対するトピック分類ベクトル66Jと比較することにより、談話整合性による信頼度尺度CMdiscourse68Jを算出するための談話整合性検証部56Jと、ドメイン内検証部52Jの出力するドメイン内信頼度尺度CMin-domain67J、談話整合性検証部56Jの出力するCMdiscourse68J、及び音声認識装置36Jの出力する事後確率62Jに対して所定の演算を行なうことにより、これら3つの信頼度尺度を総合して、音声認識された会話内容に対する日本語の統合信頼度尺度CM40Jを算出するための信頼度尺度統合部58Jとを含む。
図3に、トピック分類部50Jの構成をブロック図形式で示す。図3を参照して、トピック分類部50Jは、認識結果の仮説60Jを受けて認識結果の仮説60Jの単語特徴ベクトルWを作成するための単語特徴ベクトル作成部90Jと、単語特徴ベクトル作成部90Jの出力する単語特徴ベクトルWをSVM34Jに与えることにより、SVM34Jから認識結果の仮説60J(これをXとする。)に対するトピックごとのトピック分類信頼度C(ti|X)(i=1〜m)を得て、トピック分類ベクトル64Jを出力するためのSVMによるトピック分類部92Jとを含む。
トピック分類部50Jの出力するトピック分類ベクトル64Jは以下の形式を持つ。
Figure 2007017548
ただしXは発話、Vtopic(X)は発話Xに対するトピック分類ベクトル、mはトピック数、tiはi番目のトピック、C(ti|X)は発話Xがi番目のトピックに属する確率、をそれぞれ表す。したがってトピック分類ベクトルVtopic(X)は、トピックの数と同じm個の要素を持つ。
ドメイン内検証部52Jの算出するCMin-domain67Jは、発話がいずれかのドメインに属するか否かの指標となり、この値が小さければドメイン外の発話として棄却することができる。CMin-domain67Jは以下のように算出される。まず、ドメイン内検証部52Jは、トピック分類ベクトル64Jに基づき、次の式によりドメイン内検証モデルVin-domain(X)を算出する。
Figure 2007017548
ここで、Wは入力発話Xに対する単語ベクトル、mはトピック数、λiは各トピックの線形識別重みを、それぞれ表す。線形識別重みλiは、予め各ドメインに属していることが分かっている発話のみを用い、削除補間法と勾配確率的降下法とを用いて学習しておく(非特許文献6を参照)。この値は非負である。
このドメイン内検証モデルVin-model(X)に対し、以下のシグモイド関数を適用することにより、CMin-domain67Jが算出される。シグモイド関数は、値域が−1から1の範囲に限定された非線形変換を行なう関数である。
Figure 2007017548
一方、談話整合性検証部56Jが算出する談話整合性による信頼度尺度CMdiscourse68Jは、一つ前の発話内容と処理対称の発話の内容とが関連しているか否かの指標となる。通常、対話におけるユーザの発話は、その一つ前の発話内容に関連している。すなわち、機械とユーザとの音声対話システムでは機械からのプロンプト、二人のユーザの間の音声翻訳システムではもう一方のユーザの直前の発話、のいずれかと処理対称の発話とが関連していることが多い。したがって談話整合性検証部56Jでは、以下のようにして談話整合性による信頼度尺度CMdiscourse68Jを算出する。
処理対象の発話をXi、一つ前の発話(音声認識システム20が対話システムなので、一つ前の英語の発話をXi-1とする。まず、次の式にしたがいこの二つの発話間の発話間距離dist(Xi,Xi-1)を計算する。
Figure 2007017548
日本語の談話整合性による信頼度尺度CMdiscourse(Xi|Xi-1)68Jは、この値dist(Xi,Xi-1)に対して以下のようにシグモイド関数を適用することにより算出される。
Figure 2007017548
このようにして算出された談話整合性による信頼度尺度CMdiscourse68Jの値は、直前の英語の発話のトピックと処理対象の日本語のトピックとが近いと大きくなり、遠いと小さくなる。
最後に、図1に示す信頼度尺度統合部58Jの機能について説明する。信頼度尺度統合部58Jは、以下の式にしたがい、上記した二つの信頼度尺度、すなわちドメイン内信頼度尺度CMin-domain67J及び談話整合性による信頼度尺度CMdiscourse68Jと、音声認識装置36Jが出力する通常の一般化された事後確率Gpp62Jとを次の式によって組合せ、日本語の発話Xiに対する統合信頼度尺度CM40Jを算出する。
Figure 2007017548
ただしλgpp+λin-domain+λdiscourse=1である。
このようにして算出された信頼度尺度CM(Xi)と予め定められたしきい値φとを比較し、信頼度尺度CM(Xi)がしきい値φ以上であれば音声認識結果が信頼できるものと判定し、しきい値φ未満であれば、信頼できないものと判定する。しきい値φと3つの係数(各モデルの重みに相当する。)λgpp、λin-domain及びλdiscourseについては、予め準備した開発用の日本語文のデータを用いて学習しておく。
英語音声認識結果の検証装置38Eの構成も検証装置38Jとほぼ同様である。すなわち、英語音声認識結果の検証装置38Eは、トピック分類部50Eと、ドメイン内検証部52Eと、記憶部54Eと、談話整合性検証部56Eと、信頼度尺度統合部58Eとを含む。これらの機能は、日本語と英語との違いを除き、トピック分類部50J、ドメイン内検証部52J、記憶部54J、談話整合性検証部56J、及び信頼度尺度統合部58Jとそれぞれ同じである。また、各機能部の出力についても検証装置38Jにおけるものと同じで参照符号の「J」を「E」に変えて示してある。したがって、英語音声認識結果の検証装置38Eの構成の詳細については省略する。
<動作>
上に構成を説明した音声認識システム20は以下のように動作する。予め、学習データ30Jを用いてSVM34Jの学習が行なわれていたものとする。さらに、ドメイン内検証部52Jで使用する線形識別重みλi、及び信頼度尺度統合部58Jでの各モデルの重みλgpp、λin-domain及びλdiscourseについても学習済であるものとする。同様に、英語音声認識結果の検証装置38Eが使用するSVM34E、ドメイン内検証部52Eで使用する線形識別重み、及び信頼度尺度統合部58Eでの各モデルの重みについても学習済であるものとする。
また、直前の英語の発話に対する英語の音声認識装置36Eでの音声認識と、英語音声認識結果の検証装置38Eでの英語の統合信頼度尺度CM40Eの算出とが終了しているものとする。英語音声認識結果の検証装置38Eでの処理中、トピック分類部50Eが算出したトピック分類ベクトル64Eは検証装置38Jの記憶部54Jに記憶されている。
日本語音声が音声認識装置36Jに入力されると、音声認識装置36Jは音声認識を行ない、認識結果の仮説60Jをトピック分類部50Jに、事後確率Gpp62Jを信頼度尺度統合部58Jに、それぞれ与える。
トピック分類部50Jは、SVM34Jを用いて式(1)で表されるトピック分類ベクトルVtopic64Jを算出し、ドメイン内検証部52J、談話整合性検証部56J、及び英語音声認識結果の検証装置38Eの記憶部54Eに与える。
ドメイン内検証部52Jは、トピック分類ベクトル64Jを用いて前述した式(2)及び(3)にしたがいドメイン内信頼度尺度CMin-domain67Jを算出して信頼度尺度統合部58Jに与える。談話整合性検証部56Jは、トピック分類部50Jからのトピック分類ベクトル64Jと、記憶部54Jに記憶されている、直前の英語の発話の信頼度算出の際に得られたトピック分類ベクトル66J(64E)との間で、前述した式(4)に従って発話間距離dist(Xi|Xi-1)を算出し、さらに式(5)にしたがって談話整合性による信頼度尺度CMdiscourse68Jを算出して信頼度尺度統合部58Jに与える。信頼度尺度統合部58Jは、式(6)にしたがって、事後確率Gpp62J、ドメイン内信頼度尺度CMin-domain67J、及び談話整合性による信頼度尺度CMdiscourse68Jを統合し、日本語の統合信頼度尺度CM40Jを出力する。
図示しない自然言語処理部は、この日本語の統合信頼度尺度CM40Jの値が1であればその結果を用いて自然言語処理を行ない、0であれば何らかの形でエラー処理を行なう。
上記した日本語の音声認識結果の統合信頼度尺度CMの算出において、トピック分類部50Jから出力されたトピック分類ベクトル64Jは英語音声認識結果の検証装置38Eの記憶部54Eに記憶される。次の英語の発話の音声認識結果の英語の統合信頼度尺度CM40Eの算出において、談話整合性検証部56Eが記憶部54Eの記憶内容を用いて談話整合性による信頼度尺度CMdiscourse68Eを算出することができる。
こうして、本実施の形態では、日本語と英語の発話を交互に音声認識し、その信頼度をそれぞれ算出し、その値に応じて適宜エラー処理を行ないながら音声翻訳処理を行なうことができる。
<コンピュータによる実現>
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図4はこのコンピュータシステム330の外観を示し、図5はコンピュータシステム330の内部構成を示す。
図4を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図5を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、図示しないプリンタを含んでもよい。
コンピュータ340はさらに、ローカルエリアネットワーク(LAN)を介してインターネット140への接続を提供するためのネットワークアダプタボード368を含んでもよい。
コンピュータシステム330に音声認識結果の検証装置としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムはインターネット及びネットワークアダプタボード368を介して他のコンピュータからコンピュータ340に送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の音声認識結果の検証装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、またはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声認識結果の検証装置としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
<実験結果>
上記した実施の形態に係る音声認識システム20の性能を以下のようにして評価した。評価には、出願人において作成したATR音声翻訳システム(非特許文献7を参照)を介した自然な発話を用いた。このシステムは、旅行会話ドメインで動作し、英語と日本語との間の翻訳を行なうものである。
音声認識で使用される言語モデルと、認識結果の検証におけるトピック分類モデル及びドメイン内検証モデルとの学習には、出願人において作成した旅行会話表現コーパスを使用した。このコーパスは、14のトピッククラスからなっている。具体的には、これらは宿泊、ショッピング、移動等、旅行において典型的に遭遇する場面にあわせたトピックに分類されている。このコーパスは、日本語と英語との双方において、学習用の40万の文を含んでいる。
これとは別に、開発用セット及びテスト用セットを準備した。これらは英語を母語とする話者と日本語を母語とする話者との間の、上記した翻訳システムを介した自然な対話からなっている。この会話は、予め準備した、旅行に関連するいくつかのシナリオにしたがって収集された。
これらデータに含まれる文の数などを図6に示す。図6に示されるように、開発セットとテストセットとが有する対話数はそれぞれ270と90とである。また、日本語について見ると、発話数は開発セットで2674、テストセットで1011である。英語について見ると、これらはそれぞれ3091と1006とである。
通常の、「キーワードセット」を持たない音声翻訳タスクでは、音声認識誤りを処理する最も有効な方法は、発話全体の言いかえをするようにユーザに要求する方法である。したがって、実験における検証は、1以上の音声認識誤りがあれば認識結果を棄却するものとした。
システムの性能は以下の式(7)で示すCER(信頼度誤り率:confidence error rate)を用いた。
Figure 2007017548
受理誤り数(以下「FA」)とは、本来棄却すべきものを誤って受理してしまった発話数をいう。棄却誤り数(以下「FR」)とは、本来受理すべきものを誤って棄却してしまった発話数をいう。
−ベースラインとなる音声認識性能−
最初に、英語及び日本語の音声認識装置の性能を評価した。音声認識装置としては、出願人において作成したものを用いた。日本語側及び英語側に、それぞれ2万及び1万6千の単語からなる辞書を適用した。音声認識時、最初にバイグラム言語モデルを適用することにより単語グラフを作成し、次にトライグラム言語モデルを用いて単語グラフを評価することにより最終的な音声認識結果を得た。日本語と英語とに対する音声認識性能については、図6にWER(単語誤り率)及びSER(文誤り率)として示してある。
−ベースライン−
次に、一般化された事後確率GPPのみを検証に用いたベースラインのシステムを評価した。このシステムでは、発話レベルでの音声認識装置の出力する事後確率GPPを、所定のしきい値と比較することにより発話の検証を行った。このしきい値は開発セットを用いて学習した。このシステムのCERと、全ての仮説を受理する基準時とを、図7に対比して示す。
図7を参照して、「Accept All(全て受理)」の場合の性能は、各音声認識装置のSERにほぼ一致する。これに対しGPPのみによるシステムのCERは、日本語と英語との場合でそれぞれ17.3%と15.3%とである。
−ドメイン内信頼度尺度と会話による信頼度尺度−
さらに、上記した実施の形態で述べた、ドメイン内信頼度尺度と談話整合性による信頼度尺度とを用いたシステムの性能を同様に評価した。英語側と日本語側との双方において、GPPのみを用いたベースライン(GPP)の結果と、GPPに加えてドメイン内信頼度尺度(IC)を用いて検証した結果(GPP+IC)と、GPPに加えて談話整合性による信頼度尺度(DC)を用いて検証した結果(GPP+DC)と、GPPにドメイン内信頼度尺度と談話整合性による信頼度尺度との双方を加えて検証した結果(GPP+IC+DC)とを、図8に示す。なお、GPP+IC、GPP+DCなどは、例えば式(6)においてλdiscourse及びλin-domainをそれぞれ0に設定することで実現できる。
日本語について検討すると、GPPにドメイン内信頼度尺度を加えた場合(GPP+IC)と、GPPに談話整合性による信頼度尺度を加えた場合(GPP+DC)とで、CERはそれぞれ16.3%及び16.5%に低下した。GPP単独ではCERは17.3%である。この結果、それぞれの場合で相対的にCERは5.7%及び4.6%低下したことになる。
GPPにドメイン内信頼度尺度と談話整合性になる信頼度尺度との双方を加えて検証を行なうと、CERは15.9%となり、GPPのみの場合と比較して割合にして8%低下した。
図8の右側から分かるように、英語の場合についても同様の結果が得られた。すなわち、両方の尺度を検証の際に考慮することにより、CERは15.3%から14.4%に、割合にして6.1%低下した。
<結論>
以上の実施の形態では、音声認識の過程で得られるGPP等の尺度だけでなく、会話のドメインと会話の内容という、人間による発話理解に用いられる情報により近いと思われる情報を用いて音声認識結果の信頼度尺度を評価した。ドメインによる信頼度尺度は、システムが想定している会話の場面に処理対象の発話が属していると思われる度合いを表す。会話の内容による信頼度尺度とは、処理対象の発話がその直前の発話と関連している度合いを表す。これら、音響情報のみではなく、より発話の意味内容に即した情報を用いて発話の検証を行なうことにより、音声認識結果の検証精度を高めることができる。その際、いずれか一方のみを用いても効果が得られ、双方を組合わせることによりより高い効果が得られた。
上記実施の形態では、トピック分類ベクトルの算出にあたり、SVMを用いている。しかし本発明はそのような実施の形態には限定されない。例えば多層パーセプトロン(MLP)、又はニューラルネットワークを用いるようにしてもよい。
また、上記した実施の形態では、ドメイン内信頼度尺度と談話整合性による信頼度尺度とを用いたが、本発明はこの二つの信頼度尺度を用いる場合には限定されない。処理対象の発話と、その前の発話との関連を表す尺度、又は音声認識装置が処理の対象としているドメインと発話の内容との一致を表す尺度であれば、どのような形式のものを用いてもよい。また、こうした尺度を算出するにあたって、話者の使用する語彙の偏りなどを考慮して信頼度尺度を算出するようにしてもよい。また、処理対象の発話の直前の発話だけでなく、その2つ前、3つ前等、複数の発話に対する関連の高さを信頼度尺度の算出に用いてもよい。また、上記した実施の形態では、対話翻訳システムで、二つの言語の話者が交互に話すことを前提として談話整合性による信頼度尺度を算出した。しかし、ある話者の発話の音声認識結果を検証する際には、その前の、同一話者による発話内容との関連のみを調べるようにしてもよい。
さらに、上記した実施の形態では、談話整合性による信頼度尺度の算出にあたり、二つの発話のトピック分類ベクトルの間の距離として、ユークリッド距離を用いている。しかし本発明はそのような実施の形態には限定されない。たとえば、二つのベクトルの間のコサイン距離を用いてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係る検証装置38J及び英語音声認識結果の検証装置38Eを採用した音声認識システム20のブロック図である。 検証装置38Jで使用するSVM34Jの学習を行なうためのSVM学習処理部32Jの構成を示すブロック図である。 検証装置38Jの一部を構成するトピック分類部50Jのブロック図である。 本発明の一実施の形態に係る信頼度算出装置を実現するコンピュータシステムの外観図である。 図4に示すコンピュータのブロック図である。 実験に用いたデータの概略と、ベースラインとなる音声認識装置の性能とを表形式で示す図である。 ベースラインとなる、GPPのみを用いた検証装置の性能を示すグラフである。 本発明の一実施の形態により、ドメイン内信頼度尺度と談話整合性による信頼度尺度とのいずれか一方又は双方を採用した検証装置の性能をGPPのみを用いたものと対比して示すグラフである。
符号の説明
20 音声認識システム
30J 学習データ
32J SVM学習処理部
34J,34E SVM
36J,36E 音声認識装置
38J,38E 検証装置
40J,40E 統合信頼度尺度
50J,50E トピック分類部
52J,52E ドメイン内検証部
54J,54E 記憶部
56J,56E 談話整合性検証部
58J,58E 信頼度尺度統合部
60J 認識結果の仮説
62J 事後確率
64J,64E トピック分類ベクトル
66J 一つ前の発話に対する日本語のトピック分類ベクトル
66E 一つ前の発話に対する英語のトピック分類ベクトル
68J,68E 談話整合性による信頼度尺度

Claims (3)

  1. 音声認識装置の出力する仮説の妥当性を検証するための、音声認識結果の検証装置であって、
    前記音声認識装置は、音声認識の過程で各仮説に関して得られる信頼度を各仮説に付して出力するものであり、
    前記検証装置は、
    音声認識結果の妥当性を評価するための、前記認識の過程で得られる信頼度とは異なる所定の基準と、ある発話に対する前記音声認識装置の出力とを比較することにより、前記ある発話の音声認識結果の妥当性を表す第1の尺度を出力するための第1の尺度出力手段と、
    前記第1の尺度と、前記ある発話に対して前記音声認識装置の出力する前記信頼度とを所定の方法により統合し、前記ある発話に対する統合された信頼度尺度を算出するための信頼度尺度統合手段とを含む、音声認識結果の検証装置。
  2. 前記音声認識装置は、所定の発話のドメインを想定して設定されており、前記発話のドメインは複数のトピックを含み、
    前記第1の尺度出力手段は、
    前記ある発話に対する前記音声認識装置の前記出力が、前記複数のトピックのいずれかに分類される可能性を、前記複数のトピックの各々に対して算出し、第1のトピック分類ベクトルとして出力するための第1のトピック分類手段と、
    前記第1のトピック分類手段から出力される前記第1のトピック分類ベクトルの所定の関数として、前記第1の尺度を算出するための尺度算出手段とを含む、請求項1に記載の音声認識結果の検証装置。
  3. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項2のいずれかに記載の音声認識結果の検証装置として動作させる、コンピュータプログラム。
JP2005196887A 2005-07-05 2005-07-05 音声認識結果の検証装置及びコンピュータプログラム Withdrawn JP2007017548A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005196887A JP2007017548A (ja) 2005-07-05 2005-07-05 音声認識結果の検証装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005196887A JP2007017548A (ja) 2005-07-05 2005-07-05 音声認識結果の検証装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007017548A true JP2007017548A (ja) 2007-01-25

Family

ID=37754797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005196887A Withdrawn JP2007017548A (ja) 2005-07-05 2005-07-05 音声認識結果の検証装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007017548A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
JP2010191046A (ja) * 2009-02-17 2010-09-02 Nec Corp 検出装置、音声認識装置、検出方法、及びプログラム
JP2010537321A (ja) * 2007-08-24 2010-12-02 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 統計的分類のための最適な選択方略の方法及びシステム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US8494847B2 (en) 2007-02-28 2013-07-23 Nec Corporation Weighting factor learning system and audio recognition system
JP5294086B2 (ja) * 2007-02-28 2013-09-18 日本電気株式会社 重み係数学習システム及び音声認識システム
JP2010537321A (ja) * 2007-08-24 2010-12-02 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 統計的分類のための最適な選択方略の方法及びシステム
JP2010191046A (ja) * 2009-02-17 2010-09-02 Nec Corp 検出装置、音声認識装置、検出方法、及びプログラム

Similar Documents

Publication Publication Date Title
US7603279B2 (en) Grammar update system and method for speech recognition
US7043422B2 (en) Method and apparatus for distribution-based language model adaptation
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
US8301450B2 (en) Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US6606597B1 (en) Augmented-word language model
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US20050182628A1 (en) Domain-based dialog speech recognition method and apparatus
Lane et al. Out-of-domain utterance detection using classification confidences of multiple topics
US9396726B2 (en) System and methods to create and determine when to use a minimal user specific language model
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Guo et al. A comparative study on various confidence measures in large vocabulary speech recognition
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2007017548A (ja) 音声認識結果の検証装置及びコンピュータプログラム
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
Duchateau et al. Confidence scoring based on backward language models
JP4191021B2 (ja) ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
Ramesh et al. Context dependent anti subword modeling for utterance verification.
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
Le et al. Automatic quality estimation for speech translation using joint ASR and MT features
Oyucu et al. Sessizliğin kaldırılması ve konuşmanın parçalara ayrılması işleminin Türkçe otomatik konuşma tanıma üzerindeki etkisi
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
KR100366703B1 (ko) 인간 반응형 음성인식장치
Lane et al. Utterance verification incorporating in-domain confidence and discourse coherence measures.
Macherey et al. Multi-level error handling for tree based dialogue course management

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221