JP2005084436A

JP2005084436A - 音声認識装置及びコンピュータプログラム

Info

Publication number: JP2005084436A
Application number: JP2003317559A
Authority: JP
Inventors: Tatsuhiko Yamaguchi; 辰彦山口; Shinji Sako; 慎司酒向; Hiroshi Yamamoto; 博史山本; Genichiro Kikui; 玄一郎菊井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-09-09
Filing date: 2003-09-09
Publication date: 2005-03-31

Abstract

【課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。
【解決手段】音声認識装置は、Ｎ−グラムモデルを用いて音声認識を行ない、Ｎ−グラム候補４４及び信頼度尺度を出力する音声認識部４０、音声認識部４０からのＮ−グラム候補４４に対し、正誤を判別するように最適化された予備判別部４６、予備判別部４６が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補５２と信頼度を算出する用例候補選択部５０、Ｎ−グラム候補４４を用例文候補５２で置換するか否かを判別し最終の音声認識結果２８を出力する最終判別部５４とを含み、予備判別部４６は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。
【選択図】図１

Description

この発明は音声認識技術に関し、特に、Ｎ−グラムモデル等、あるモデルを用いた音声認識の結果の誤りを、用例文モデルなどのほかのモデルを用いた認識結果で訂正することにより、最終的な音声認識の精度を高めるための技術に関する。

音声認識には、一般にＮ−グラムモデルと呼ばれる言語モデルが広く用いられている。Ｎ−グラムモデルは、単純なモデルでありながら高い認識性能を得られる事が知られている。しかし、Ｎ−グラムモデルは、近傍の単語との関係にのみ着目して制約を与えるモデルであるため、長距離の単語間関係や文の構造を考慮することができない。

これらのより高度な知識を表現したモデルとして、トリガーモデル、キャッシュモデルなどが提案されており、Ｎ−グラムモデルと線型補間や最大エントロピー法などを用いて同時に使用された結果が報告されているが、性能向上は必ずしも大きいものとは言えない。

Ｎ−グラムモデルでは表現できない広範囲の文脈に依存した高度な言語知識をモデル化するために、用例文を用いた新しい言語モデルである用例文モデルをＮ−グラムモデルとは別個に音声認識に適用することも提案されている。

しかし、高度なモデルを単独で用いた場合には、Ｎ−グラムモデルに比べてかえって認識精度が劣化することが予想される。そこで、このモデルの適用対象としては、Ｎ−グラムモデルで認識誤りを起こした単語のみに限定することにより、全体性能の劣化を防ぐことが提案されている。

この目的のためには、Ｎ−グラムモデルの認識結果の中での誤認識単語の推定が必要となってくる。しかしこれに対しても推定誤りの問題は避けることができない。すなわち、誤認識箇所の推定の再現率が低いならば用例文モデルが適用できる単語が減少し、大きな性能向上は見込めなくなる。一方、適合率が低いならば、Ｎ−グラムモデルにおける正解単語を、用例文モデルが逆に他の単語に置換えてしまう可能性が高まり、全体性能はかえって劣化する可能性が生ずる。

上記した問題点を解決するために以下のような方法が後掲の非特許文献１において提案されている。すなわち、認識結果のうち、誤り箇所である可能性が低い箇所には、用例文モデルを用いた代替候補が信頼性の高いものである場合のみこの単語による訂正を行なう。一方、誤り箇所である可能性が高い箇所には代替候補の信頼性が低い場合でも訂正を行なう。すなわち、この方法はＮ−グラムモデルによって認識された単語を用例文モデルによる代替候補で置換えるか否かを判別する問題であると言うことができる。

酒向慎司、山本博史、菊井玄一郎、「誤り単語の検出・訂正システムの統合と評価」、日本音響学会２００２年秋期研究発表会、ｖｏｌ．１、ｐｐ．２０１−２０２、２００２年９月

しかしこのような方法を用いても、依然として誤り箇所の訂正が不完全である場合が多い。そのため、誤りの訂正をより正確に行なうことができる音声認識装置が求められている。また、こうした問題はＮ−グラムモデルと用例文モデルとの組合せに限らず、他の種類のモデルを用いた音声認識でも生じ得る。

それゆえに本発明の目的は、あるモデルによる音声認識の結果の誤りを、他のモデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。

この発明の他の目的は、Ｎ−グラムモデルによる音声認識の結果の誤りを、他のモデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。

この発明のさらに他の目的は、Ｎ−グラムモデルによる音声認識の結果の誤りを、用例文モデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。

本発明の第１の局面に係る音声認識装置は、音声認識のための予め定める第１のモデルを用いて入力音声に対する音声認識を行ない、認識結果及びその信頼度尺度を出力するための第１の音声認識手段と、第１の音声認識手段により出力された認識結果の各々に対し、信頼度尺度を用いた学習により正誤を判別するように予め最適化された第１の判別手段と、入力音声に対して第１の判別手段が誤りと判定した箇所について、第１のモデルと異なる予め定める第２のモデルを用いて音声認識を行ない、認識結果及びその信頼度を算出するための第２の音声認識手段と、第１の音声認識手段により出力された認識結果の各々に対し、第１の音声認識手段の出力する信頼度尺度及び第２の音声認識手段の出力する信頼度を用いた学習により、第１の音声認識手段の認識結果を第２の音声認識手段の認識結果で置換するか否かを判別し、判別結果にしたがって最終の音声認識結果を出力するように最適化された第２の判別手段とを含み、第１の判別手段は、第１の音声認識手段により出力された認識結果の各々に対し、信頼度尺度を用いた学習により得られた正誤の判別基準に基づき、より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。

好ましくは、第１のモデルは、Ｎ−グラムモデルである。

さらに好ましくは、第２のモデルは、用例文モデルである。

第１の判別手段はＳＶＭを含んでもよい。当該ＳＶＭは、予め準備された学習データに対して第１の判別手段が出力する認識結果の正誤を表す情報、及び学習データに対して第１の判別手段が出力する信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、入力される音声に対し第１の判別手段が出力する信頼度尺度を要素とするベクトルを入力として、入力される音声に対し第１の判別手段が出力する認識結果の正誤を判別するように最適化され、かつ当該最適化により得られた判別基準は、入力音声に対する第１の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる。

又は、第１の判別手段はＭＬＰを含んでもよい。当該ＭＬＰは、予め準備された学習データに対して第１の判別手段が出力する認識結果の正誤を表す情報、及び学習データに対して第１の判別手段が出力する信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、入力される音声に対し第１の判別手段が出力する信頼度尺度を入力として、入力される音声に対し第１の判別手段が出力する認識結果の正誤を判別するように最適化され、かつ当該最適化により得られた判別基準は、入力音声に対する第１の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる。

好ましくは、信頼度尺度は、複数の個別の信頼度尺度を含む。

個別の信頼度尺度の各々は、次のいずれかを含む。すなわち、
第１の音声認識手段が入力される音声に対する音声認識を行なう際に得られる音響スコアを表す音響尤度、
第１の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第１位候補及び第２位候補の単語の音響スコアの差を表す音響尤度比、
第１の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第１位候補及び他の所定の音素認識手段により得られる第１位候補の単語の音響スコアを正規化したものの差を表す正規化音響尤度比、
第１の音声認識手段による音声認識において、予め定められる特定期間中に出現するモーラの種類数を表す音素仮説数、
第１の音声認識手段による第１位の音声認識結果に含まれる音素列と、他の所定の音素認識手段により得られた音素列との編集距離を、単語の音素数で平均したものを表す音素距離、
事前に求めた各音素の持続時間分布を基準とし、第１の音声認識手段の認識結果を構成する各音素の持続時間確率を表す音素持続時間確率、
第１の音声認識手段による音声認識結果に含まれる音素の数を表す単語音素長、
入力される音声に対する第１の音声認識手段による音声認識の際に得られる言語スコア、
入力される音声に対して第１の音声認識手段による音声認識の結果得られる第１位の候補の言語スコア及び第２位の候補の言語スコアの差を表す言語スコア差、
入力される音声に対して第１の音声認識手段による音声認識の結果に対し、後続の認識結果から先行する認識結果の確率を予測する後向きの言語モデルから得られる後向き言語スコア、
入力される音声に対して第１の音声認識手段により得られる音声認識結果の始端時刻に開始する単語仮説の数を表す語始端分岐数、
入力される音声に対して第１の音声認識手段により得られる音声認識結果の終端時刻に終端する単語仮説の数を表す終端合流数、及び
入力される音声に対して第１の音声認識手段により得られる音声認識結果の時間区間を通過する単語グラフ上の全ての部分パスを同一単語系列でマージした数を表す競合単語仮説数。

この発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声認識装置として動作させる。

以下、本発明の実施の形態の装置について図面を参照して説明する。以下の説明では、ＳＶＭ（サポートベクトルマシン）を用いた第１の実施の形態、多層パーセプトロン（Ｍｕｌｔｉ−ＬａｙｅｒｅｄＰｅｒｃｅｐｔｒｏｎ：以下「ＭＬＰ」と呼ぶ。）を用いた第２の実施の形態、これらを組み合わせた第３の実施の形態の順に説明する。これらに共通した考え方は、Ｎ−グラムモデルによる認識結果の中で、用例文モデルによる認識結果で置換する誤り箇所の候補を判別する際に、誤り箇所の候補の判別をできるだけ漏らさずに行なうということである。その上で、Ｎ−グラムモデルによる認識結果が誤りである可能性が高く、かつ用例文モデルによる認識結果が正解である可能性が高い場合だけに限って認識結果の置換を行なう。

以下の実施の形態では、Ｎ−グラムモデルの音声認識結果の信頼度尺度を、誤認識単語を検出するための尺度として用いる。認識結果の単語グラフから得られる複数の信頼度尺度を組み合わせて用いる。

以下で用いる種々の信頼度尺度についてここで予め述べる。誤認識単語の検出に利用される信頼度尺度は、（１）音響的な要因によると考えられる尺度、（２）言語的要因と考えられる尺度、及び（３）探索又は音響と言語の両方の要因によると考えられる尺度に分けられる。その３つについてそれぞれ簡単に述べる。

＜音響的要因による信頼度尺度＞
（１）音響尤度
音響スコアそのものはある程度、正解率と相関を持ち、このスコアが低い場合にはその単語の正解率は低いと考えられる。そこで、音響スコアを単語のフレーム長で正規化した値を信頼度尺度として利用する。

（２）音響尤度比
認識結果の１位候補の単語の音響スコアのフレーム平均と、同じ時間窓周辺に現れる２位候補の音響スコアのフレーム平均との差を信頼度尺度として利用する
（３）正規化音響尤度
音響尤度比同様に、単語の音響スコアを正規化したものを信頼度尺度として利用する。ただし、ここでは２位候補音響スコアを利用するのではなく、並列に走らせたモーラタイプライタを利用して、１位候補単語と同じ時間窓でのモーラタイプライタとの音響スコア差をフレーム平均した値を信頼度尺度として利用する。

（４）音素仮設数
尤度幅一定のビーム探索において、ビーム内に残る仮説数は１位候補の正解率とある程度相関があると考えられる。そこで単語の時間窓内で出現するモーラの種類数を信頼度尺度として用いる。具体的には、モーラタイプライタを尤度幅一定のビーム探索で走らせた結果の単語時間窓内のモーラ種類数をカウントし、フレーム数で平均したものを利用する。

（５）音素距離
１位候補の単語の音素列とモーラタイプライタの音素列との編集距離（一方を他方に変換するために必要な、単語の挿入／削除／置換の数の合計）を、単語の音素数で平均した値を信頼度尺度として利用する。

（６）音素持続時間確率
一般に音韻の持続時間は一定の分布を持つと考えることができる。したがってこの分布傾向から極端に逸脱した持続時間を持つ音韻は、モデルと整合していないと予想できる。このような意味を持つ尺度として、事前に求めた各音素の持続時間確率分布を利用し、候補単語を構成する各音素の持続時間確率について、その最小確率の対数を利用する。

（７）単語音素長
単語の長さを表す尺度として、単語に含まれる音素の数を信頼度尺度として利用する。

＜言語的要因による信頼度尺度＞
（１）言語スコア
言語スコアは、言語的連接の適性度を表す。このスコアは認識誤りによって生じる文中の言語的に不自然な単語連鎖を検出できると考えられるため信頼度尺度として利用する。

（２）言語スコア差
１位候補単語の言語スコアと２位候補の言語スコアとの差によって、誤り検出できると考えられる。したがってこの言語スコア差を信頼度尺度として利用する。

（３）後向き言語スコア
後向きの言語モデル、すなわち後続単語系列から先行する単語の確率を予測するモデルを用いて単語の妥当性を示す尺度とすることができる。ここでは後向き言語モデルによるスコアをそのまま信頼度尺度として利用する。

＜探索および音響と言語の両方の要因による信頼度尺度＞
（１）語始端分岐数、終端合流数
注目単語の始端時刻に開始する単語仮説の数、および終端時刻に終端する単語仮説の数を信頼度尺度として利用する。

（２）競合単語仮説数
注目単語の時間区間を通過する単語グラフ上の全ての部分パスを、同一単語系列でマージした数を信頼度尺度として利用する。この時、音響モデルのあいまい性によって候補の出現が時間的にゆらぎ、始端、終端位置に隣の単語が入りこむことがある。このため、音素系列の比較によってこれらの余分なリンクを削る。

［第１の実施の形態］
＜構成＞
図１に、第１の実施の形態に係る音声認識装置２２の構成をブロック図形式で示す。図２を参照して、この音声認識装置２２は、Ｎ−グラムモデルを記憶するＮ−グラムモデル記憶部４２と、入力音声２０に対しＮ−グラムモデル記憶部を用いた音声認識を行ない、Ｎ−グラムモデルによる音声認識結果であるＮ−グラム候補４４をそれぞれその信頼度尺度とともに出力するための音声認識部４０とを含む。

音声認識装置２２はさらに、用例文を多数含む用例コーパスを記憶する用例コーパス記憶部４８と、入力音声２０に対し、用例コーパス記憶部を用いた音声認識を行なって用例コーパスによる音声認識結果である用例文候補５２及びその信頼度を出力するための用例候補選択部５０とを含む。

原理的には、用例文候補５２およびその信頼度は、Ｎ−グラムモデルでの認識結果のすべての単語および単語列に対して求める必要がある。しかし、用例文モデルの計算時間はＮ−グラムモデルに比べ非常に大きいため、すべての単語および単語列に対して用例文候補を求めるのは現実的ではない。そこで、用例文モデルの結果が選択される可能性の極めて低い部分、すなわちＮ−グラムモデルの結果が極めて信頼性の高い部分に対しては用例文モデルの計算を省略し、常にＮ−グラムモデルの結果を選択することにする。

そのために、音声認識装置２２はさらに、Ｎ−グラム候補４４に含まれる各単語について、その単語に付随する信頼度尺度に基づいて、ＳＶＭを用いて、後述する用例に関する予備判別を行なうための予備判別部４６を含む。予備判別部４６は、音声認識装置２２とは別に準備された予備判別学習部２４を用いて予め学習される。

音声認識装置２２はさらに、Ｎ−グラム候補４４の各単語につき、用例文候補５２によって置換すべきか否かを選択するための最終判別部５４を含む。最終判別部５４の出力が最終認識結果である。最終判別部５４は、音声認識装置２２と別に準備された最終判別学習部２６により予め学習される。

＜用例候補選択部５０による用例文候補５２の推定＞
用例候補選択部５０は、Ｎ−グラムモデルでの認識結果であるＮ−グラム候補４４を元にして各単語に対し候補を再推定し、スコア付けする。この時、再推定候補に対して与えるスコアとして、文距離及び音韻距離の二つを用いる。以下に文距離と音韻距離について述べる。

（１）文距離
Ｎ−グラムモデルでの認識結果から得られる単語列のうち、再推定を行なう単語をワイルドカードとしてマスクする。これと、用例文コーパス中に含まれる各文との単語単位の編集距離を計算し、再推定単語に対応する単語を候補とし、その編集距離を文距離スコアとする。

（２）音韻距離
文距離計算で求められた再推定単語に対し、別途走らせたモーラタイプライタにより対応するモーラ列を得る。このモーラ列と再推定候補単語の読みから得られるモーラ列との音韻単位の編集距離を音韻距離スコアとする。モーラタイプライタを用いる理由は、言語的制約を持たないモーラタイプライタの方がより忠実に発声内容のモーラ列を表していると考えられるためである。

用例文モデルの具体的な適用例を挙げる。ここで挙げる例は、Ｎ−グラムモデルでの認識結果のうち「し」を用例文モデルで再推定する例である。

まず、対象箇所である「し」をワイルドカードとして覆い、その前の単語列「私はギターを」と後ろの単語列「ます」をもとに文距離の小さいものを用例コーパスから選ぶ。その時の文距離と音韻距離の値は次の表１のようになる。

この例の場合には、例文1 からは推定候補「弾き」が、例文2からは「発ち」が推定候補として得られる。

＜予備判別部４６の学習＞
図２に、図１の予備判別学習部２４の詳細を示す。図２を参照して、予備判別学習部２４は、学習コーパス６０と、学習コーパス６０の認識の正解ラベル６２とを用いて予備判別部４６の学習を行なうものである。予備判別学習部２４は、学習コーパス６０を用いてＮ−グラムモデルによる認識処理を行なう認識処理部７０と、認識処理部７０により得られた認識結果の単語グラフから、前記した複数通りの信頼度尺度を計算するための信頼度尺度計算部７２と、認識処理部７０による認識結果と正解ラベル６２とを照合した認識結果の正誤、及び信頼度尺度計算部７２により計算される複数の信頼度尺度の組を入力データとし、予備判別部４６に含まれるＳＶＭによる認識誤り箇所の判別器の学習を行なうための判別器学習部７４とを含む。

図３を参照して、ＳＶＭによる判別の原理について説明する。本実施の形態では、複数個の信頼度尺度とＮ−グラムモデルによる認識結果の正誤との間の関係をＳＶＭに学習させる。そのため、ＳＶＭの扱うベクトル空間は多次元空間となるが、図３では説明を簡単にするために２次元的に示してある。

認識結果の各単語には、複数個の信頼度尺度の値が与えられている。したがって各単語に対応して、これら信頼度尺度の値を要素として持つベクトルを対応付けることができる。また、認識結果と図２に示す正解ラベル６２との照合により、各単語が正しい認識結果か否かについて、その判定結果をこれらベクトルの要素に加える。

図３を参照して、ＳＶＭの扱うベクトル空間内に、これらベクトルに対応する点をプロットし、かつ各点が正解に対応するか、誤りに対応するかを表すようにすることができる。図３に示す例では、正解に対応する点は丸印で、誤りに対応する点は×印で示す。

ＳＶＭは、学習において認識結果の正誤及び複数の信頼度尺度の組を与えられると、このベクトル空間を、正しい認識結果が属する空間と、誤認識結果が属する空間との二つの空間に分割するような超平面（判別境界面と呼ぶ。）を定める。図３では、判別境界面を判別境界線９８として表している。

ＳＶＭでは、各点と判別境界線９８との間の距離（各点から判別境界線９８（超平面）におろした垂線の足と各点との間の距離（例えばユークリッド距離））９２，９４，９０，…に応じたスコア（ＳＶＭスコア）が各点に付与される。このＳＶＭスコアは、正解領域では符号が正、誤り領域では負となるように定められている。判別境界線９８上ではＳＶＭスコアは０となる。

予備判別部４６は、予備判別学習部２４による学習でこの判別境界線９８を定め、用例候補選択部５０のために、Ｎ−グラム候補４４の認識結果の誤り箇所の予備判別を行なう。つまり、ある点が、判別境界線９８により分けられた二つの領域のうち、正解領域に入るか、誤り領域に入るかに従って、その点に対応する認識結果が正解か否かを判定する。

ただしこの予備判別の際には、図５の矢印１２２により示すように、判別境界線９８を、ＳＶＭスコアが正となる方向に移動させた判別境界線１２４を用いる。その結果、予備判別により誤りと判定される点の数は、ＳＶＭスコア＝０となる位置に判別境界線９８を設定した場合よりも多くなる。つまり、上記した様に学習された判別境界が、より多くの誤りを検出できるような方向にバイアスされる。

＜最終判別部５４の学習＞
最終判別部５４の学習は、最終判別学習部２６により行なわれる。最終判別部５４は、予備判別部４６にて認識誤り箇所と判別された部分に対して用例文モデルより候補を検索し、推定結果を代替候補として決定する。ここで、Ｎ−グラムモデルでの結果と用例文モデルの代替候補の正誤の組合せとして、双方の正誤が一致する場合と、双方の正誤が異なる場合とがある。前者の場合、用例文モデルでの置き換えは認識率に何ら影響がないため無視しても良い。従って、Ｎ−グラムモデルでの結果が誤りで用例文モデルの代替候補が正解の場合とその逆の場合の判別を行なえばよいことになる。

このため、最終判別部５４の学習時には、前者に対しては「＋１」のラベルを、後者に対しては「−１」のラベルを、それぞれ付与する。このラベルと共に、その時のＮ−グラムモデルでの複数の信頼度尺度および用例文モデルでのスコアである文距離、音韻距離を入力とし、予備選択でも用いた手法であるＳＶＭにて最終判別部５４を学習する。

図４を参照して、最終判別学習部２６は、学習データを用いた予備判別部４６の予備選択で誤りと検出した箇所に対して求めた用例文モデルでの代替候補とそのスコアとを含む学習時予備選択結果１０２、Ｎ−グラムモデルでの結果と用例文モデルの代替候補の正誤が異なる結果について「＋１」又は「−１」を付与したデータからなるラベル１０４、及びＮ−グラムモデルに対して求められた複数の信頼度尺度１００を用いて最終判別部５４の学習を行なう。

最終判別学習部２６は、学習時予備選択結果１０２から用例文モデルでの代替候補とそのスコアとを計算する代替候補及びスコア計算部１１０と、ラベル１０４、代替候補及びスコア計算部１１０により算出された用例文モデルでの代替候補に対するスコア、及びＮ−グラムモデルでの複数の信頼度尺度１００を要素とするベクトルを入力として最終判別部５４に与えることで、最終判別部５４のＳＶＭの学習を行なうための判別器学習部１１２とを含む。ただし最終判別学習部２６を用いた実際の判別では、予備判別部４６と異なり判別境界線は移動させない。

＜動作＞
以上説明した音声認識装置２２は、以下のように動作する。まず、図２を参照して、予備判別部４６の学習について説明する。予備判別学習部２４は以下のように動作して予備判別部４６の学習を行なう。

（１）学習コーパス６０を用い、認識処理部７０によってＮ−グラムモデルを用いた認識を行ないその結果を得る。

（２）信頼度尺度計算部７２が、認識処理部７０から得られた認識結果の単語グラフから単語ごとに複数の信頼度尺度を計算する。

（３）判別器学習部７４が、認識処理部７０の認識結果に対して信頼度尺度計算部７２が計算した複数の信頼度尺度と、正解ラベル６２から読み出したその認識結果の正誤との組を入力データとして予備判別部４６のＳＶＭの学習を行なわせる。

このようにして、図３に示す判別境界線９８が予備判別部４６を構成するＳＶＭにおいて定められる。実際予備判別を行なう際には、判別境界線９８をＳＶＭスコアの正となる方向に移動させてＮ−グラムモデルによる認識結果の正誤の判別を行なう。

図１及び図４に示す最終判別学習部２６による最終判別部５４の学習は次のようにして行なわれる。

（１）上記のように準備した予備判別部４６を用い、Ｎ−グラムモデルによる認識結果に対する予備判別を行ない、学習時予備選択結果１０２を準備する。この予備判別で誤りと検出された箇所に対して、代替候補及びスコア計算部１１０により、用例文モデルでの代替候補とそのスコアとを求める。

（２）判別器学習部１１２が、Ｎ−グラムモデルでの結果と用例文モデルの代替候補との正誤が異なる結果を選択し、それに対し「＋１」または「−１」のラベルを付与する。

（３）このラベルと共に、用例文モデルでの代替候補に対するスコアと、Ｎ−グラムモデルに対する複数の信頼度尺度を要素とするベクトルを入力とし、最終判別部５４を構成するＳＶＭに与え、Ｎ−グラムモデルによる認識結果を置換すべきか否かを判別するための学習を行なう。

予備判別部４６及び最終判別部５４に関する以上の学習が全て終了すれば、音声認識装置２２による音声認識が実行できる。

図１を参照して、入力音声２０が与えられると、音声認識部４０がＮ−グラムモデル記憶部４２を用いて音声認識を行ない、Ｎ−グラム候補４４を複数の信頼度尺度とともに出力する。予備判別部４６は、学習が済んだＳＶＭを用いてＮ−グラム候補４４の各単語について、Ｎ−グラム候補４４の認識結果の誤り箇所の予備判別を行ない、その結果を用例候補選択部５０に与える。このとき予備判別部４６は、ＳＶＭの境界判別線をＳＶＭスコアの正の方向に移動させて判別を行なう。その結果、境界判別線がＳＶＭ＝０の位置にある場合よりも多くの箇所が予備判別部４６によって選択される。

用例候補選択部５０は、入力音声２０に対し、用例コーパス記憶部４８に記憶された用例コーパスを用いて用例候補及びその信頼度を求める。このとき用例候補選択部５０は、全ての単語及び単語列に対してこれらを求めることはせず、予備判別部４６により予備選択されたものについてのみこの処理を行なう。それ以外の単語及び単語列については、用例文モデルの計算を省略し、常にＮ−グラムモデルの結果を選択する。この用例候補選択部５０の処理により用例文候補５２がそのスコアとともに得られる。

最終判別部５４は、Ｎ−グラム候補４４に付随する複数の信頼度尺度と、用例文候補５２に付随する信頼度とを入力ベクトルとして受けることにより、ＳＶＭによってＮ−グラムモデルによる候補をそのまま出力するか、用例文モデルによる代替候補で置換するかについての判別を行なう。最終判別部５４は、その判別結果にしたがってＮ−グラムモデルによる候補をそのまま出力するか、又は用例文モデルによる代替候補で置換して最終認識結果２８を出力する。

＜実験結果＞
本実施の形態に係る装置を用いて以下に述べるような実験を行なった。この実験における実験条件を次のテーブル３及びテーブル４に示す。

データとして、出願人の作成した旅行会話表現集コーパス約７，０００文を準備し、それを各５００文からなる１４セットに分割して用いた。このうち４セットを学習コーパスとして、１０セットを評価コーパスとして用いた。学習コーパスの単語正解精度はテーブル３に示すように約９１%である。以上の条件のもと、まず用例文モデルによる置換の判定に対する予備選択を行った。

ＳＶＭにて学習して判別器を作成し、評価コーパスにてＮ−グラムモデルでの誤り箇所を判別した。判別境界面をＳＶＭスコア＝０（図６の半直線１３０）として判別した結果、評価コーパスの最初のセットに対する認識誤り箇所の予備選択結果の適合率は７８％であり、再現率は１８．９％であった。この時のＳＶＭ判別境界面と正解単語および誤り単語の関係は図６のようになる。この図から分かるように、判別境界面を０とした場合は、認識誤り単語をほとんど検出できていない。そこで、本実施の形態のように認識誤り箇所を多く検出するように境界線を正方向に変更する（図６の半直線１３２）ことが有効である。

境界線を正方向に変更した場合の誤り改善率と判別境界面との関係を、図７に示す。ここで、提案手法の評価基準としては、次の式（１）に示す誤り改善率を用いた。

式（１）において、Ｇ（ｎ）はＮ−グラムモデルでの認識誤り箇所に対して正解単語に置換した個数を表し、Ｂ（ｎ）はＮ−グラムモデルでの正解箇所に対して他の単語に置換した個数を表す。この誤り改善率を向上させることで認識精度も向上する。

図７のライン１４０及び１４２に示すように、境界線がＳＶＭスコア＝０．７〜１．１、さらに好ましくは０．９〜１．１でよい誤り改善率を得ることができ、ＳＶＭスコア＝１．０で最も良い誤り改善率を得ることができることが分かる。なお、ライン１４０は学習セットに対して得られた誤り改善率、ライン１４２は評価セットに対して得られた誤り改善率を、それぞれ示す。この時の評価コーパスでの誤り改善率は、平均約１９．８１％であり、この時の予備選択の適合率は約４０．８５％で再現率は約６１．２５％であった。ここでの適合率と再現率は、式（２）（３）にて求めた。

ただしＳ（ｎ）は予備選択にて認識誤りとした箇所を表し、Ｒ（ｎ）は実際の認識誤り箇所を表す。

［第２の実施の形態］
第１の実施の形態では、予備判別部４６の判別器としてＳＶＭを用いた。このＳＶＭに替えてＭＬＰを用いるのが第２の実施の形態の装置である。例えばＭＬＰとしては階層数が２のものを用いることができる。

一般に、ＭＬＰでは入力が正解のときには＋１、誤りのときには−１となるような出力が得られる。通常は正解か誤りかの判定のしきい値には０を用いる。しかし、本実施の形態では、第１の実施の形態の場合と同様、予備判別において認識誤り箇所をより多く検出するように移動させる。

予備判別部４６のＳＶＭに替えてＭＬＰを用いる点をのぞき、この第２の実施の形態の装置の構成は図１に示したものと同様である。したがってここではその詳細な説明は行なわない。

＜実験結果＞
第１の実施の形態と同様、この第２の実施の形態のＭＬＰを用いた装置において、ＭＬＰの学習を行ない、学習が済んだＭＬＰを使いＮ−グラムモデルに対する誤り箇所の予備判別をする実験を行なった。この時出力しきい値０．０における認識誤り箇所の適合率は６４．３％であり、認識誤り箇所の再現率は３３．６％であった。

第１の実施の形態と同様に、認識誤り箇所の再現率が増加するようにこのしきい値を変更し実験を行なった。その結果、評価コーパスでは出力しきい値０．６において誤り改善率平均約２０．１３%を得ることができ、予備判別の適合率は約４３．３４％で再現率は約６１．０３％であった。この時、学習コーパスにおける誤り改善率はＳＶＭに比べて高く、出力しきい値０．６の時では平均約２７．１２％となった。

［第３の実施の形態］
第３の実施の形態の装置では、ＳＶＭとＭＬＰとを組合せ、両者により得られる誤り推定箇所の論理和を用いることで誤り箇所の再現率を上げるようにする。これは、ＳＶＭとＭＬＰの検出結果に違いがあり、片方で検出できなかった誤り箇所を、もう片方で検出でき、再現率が向上する可能性があると考えられるためである。

図８にその構成を示す。図８に示す第３の実施の形態の音声認識装置１５０が図１に示す第１の実施の形態の音声認識装置２２と異なるのは、単独の予備判別部４６に替えて、第１の実施の形態で用いた予備判別部４６と同一構成のＳＶＭ予備判別部１５２と、第２の実施の形態で用いた予備判別部と同一構成のＭＬＰ予備判別部１５４と、ＳＶＭ予備判別部１５２の出力及びＭＬＰ予備判別部１５４の出力の論理和をとって用例候補選択部５０に与える論理和回路１５６とをさらに含む点である。

この音声認識装置１５０に含まれるＳＶＭ予備判別部１５２及びＭＬＰ予備判別部１５４の機能及び動作については、第１の実施の形態及び第２の実施の形態の説明より明らかである。したがってここではその詳細な説明は行なわない。

本実施の形態では、ＳＶＭ予備判別部１５２により置換候補と判別された箇所と、ＭＬＰ予備判別部１５４により置換候補と判別された箇所との和集合によって、用例文モデルによる認識候補と置換する箇所の候補を定める。したがって、ＳＶＭ予備判別部１５２又はＭＬＰ予備判別部１５４をそれぞれ単独で用いた場合と比較して、より多数の置換箇所の候補を見つけることができる。その結果、第１の実施の形態又は第２の実施の形態と比較してさらに誤り改善率が向上する。

＜実験結果＞
この第３の実施の形態の音声認識装置１５０に相当する構成の実験を行なった結果、得られた誤り改善率は評価コーパスにおいて平均約２０．５１％となった。予備選択の適合率は約３８．５８％、再現率は約６７．０３％であった。ＳＶＭおよびＭＬＰを個々に用いて誤り検出した場合に比べてそれぞれ約０．７％及び０．４％の誤り改善率の向上が得られた。
以上の結果をまとめてテーブル５及び６に示す。

テーブル５はＳＶＭ、ＭＬＰおよびＳＶＭとＭＬＰとの論理和、それぞれの評価コーパスにおける予備選択での再現数、Ｇ（ｎ）の総数、Ｂ（ｎ）の総数、および改善数を示し、テーブル６は、この時の予備選択での再現率、予備選択での適合率および誤り改善率を示す。この結果から分かる通り、ＳＶＭとＭＬＰとの予備選択結果の論理和を用いたことで、予備選択での再現率が増加し、誤り改善率を若干改善することができた。

なお、上記した実施の形態は、いずれも標準的なコンピュータとその上で実行されるコンピュータプログラムとにより実現することができる。ＳＶＭ，ＭＬＰなどについては適切な数値計算パッケージを利用することができる。また、音声認識部４０、５０などで行なわれる音声認識については、それぞれ標準的なものを使用することができる。ただし、それら認識処理では、判別の際に利用する信頼度尺度を生成できることが必要である。

上記した音声認識装置を実現するためのコンピュータプログラムについては、音声処理パッケージプログラムに関する知識を有する当業者であれば、容易に作成可能であると思われる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る音声認識装置の機能的ブロック図である。予備判別学習部２４の機能的ブロック図である。ＳＶＭによる判別の概念を説明するための図である。最終判別学習部２６の機能的ブロック図である。第１の実施の形態におけるＳＶＭの境界判別線の移動を模式的に示す図である。ＳＶＭ判別境界面と正解単語および誤り単語の関係を示すグラフである。境界線を正方向に変更した場合の誤り改善率と判別境界面との関係を示すグラフである。本発明の第３の実施の形態に係る音声認識装置の機能的ブロック図である。

符号の説明

２０入力音声、２２，１５０音声認識装置、２４予備判別学習部、２６最終判別学習部、２８，１５４最終認識結果、４０音声認識部、４２Ｎ−グラムモデル記憶部、４４Ｎ−グラム候補、４６予備判別部、４８用例コーパス記憶部、５０用例候補選択部、５２用例文候補、５４最終判別部、６０学習コーパス、６２正解ラベル、７０認識処理部、７２信頼度尺度計算部、７４判別器学習部、１００信頼度尺度、１０２学習時予備選択結果、１０４ラベル、１１０代替候補及びスコア計算部１１０、１１２判別器学習部、１５２ＳＶＭ予備判別部、１５４ＭＬＰ予備判別部、１５６論理和回路

Claims

音声認識のための予め定める第１のモデルを用いて入力音声に対する音声認識を行ない、認識結果及びその信頼度尺度を出力するための第１の音声認識手段と、
前記第１の音声認識手段により出力された認識結果の各々に対し、前記信頼度尺度を用いた学習により正誤を判別するように予め最適化された第１の判別手段と、
前記入力音声に対して前記第１の判別手段が誤りと判定した箇所について、前記第１のモデルと異なる予め定める第２のモデルを用いて音声認識を行ない、認識結果及びその信頼度を算出するための第２の音声認識手段と、
前記第１の音声認識手段により出力された認識結果の各々に対し、前記第１の音声認識手段の出力する前記信頼度尺度及び前記第２の音声認識手段の出力する前記信頼度を用いた学習により、前記第１の音声認識手段の認識結果を前記第２の音声認識手段の認識結果で置換するか否かを判別し、判別結果にしたがって最終の音声認識結果を出力するように最適化された第２の判別手段とを含み、
前記第１の判別手段は、前記第１の音声認識手段により出力された認識結果の各々に対し、前記信頼度尺度を用いた学習により得られた正誤の判別基準に基づき、より多くの誤りを検出するようにバイアスした判別基準を用いて判別する、音声認識装置。
前記第１のモデルは、Ｎ−グラムモデルである、請求項１に記載の音声認識装置。
前記第２のモデルは、用例文モデルである、請求項１又は請求項２に記載の音声認識装置。
前記第１の判別手段はサポートベクトルマシン（以下「ＳＶＭ」と呼ぶ。）を含み、
当該ＳＶＭは、
予め準備された学習データに対して前記第１の判別手段が出力する認識結果の正誤を表す情報、及び前記学習データに対して前記第１の判別手段が出力する前記信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、
入力される音声に対し前記第１の判別手段が出力する前記信頼度尺度を要素とするベクトルを入力として、前記入力される音声に対し前記第１の判別手段が出力する認識結果の正誤を判別するように最適化され、
かつ当該最適化により得られた判別基準は、前記入力音声に対する前記第１の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる、請求項１〜請求項３のいずれかに記載の音声認識装置。
前記第１の判別手段は多層パーセプトロン（以下「ＭＬＰ」と呼ぶ。）を含み、
当該ＭＬＰは、
予め準備された学習データに対して前記第１の判別手段が出力する認識結果の正誤を表す情報、及び前記学習データに対して前記第１の判別手段が出力する前記信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、
入力される音声に対し前記第１の判別手段が出力する前記信頼度尺度を入力として、前記入力される音声に対し前記第１の判別手段が出力する認識結果の正誤を判別するように最適化され、
かつ当該最適化により得られた判別基準は、前記入力音声に対する前記第１の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる、請求項１〜請求項３のいずれかに記載の音声認識装置。
前記信頼度尺度は、複数の個別の信頼度尺度を含む、請求項１〜請求項５のいずれかに記載の音声認識装置。
前記個別の信頼度尺度の各々は、
前記第１の音声認識手段が入力される音声に対する音声認識を行なう際に得られる音響スコアを表す音響尤度、
前記第１の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第１位候補及び第２位候補の単語の音響スコアの差を表す音響尤度比、
前記第１の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第１位候補及び他の所定の音素認識手段により得られる第１位候補の単語の音響スコアを正規化したものの差を表す正規化音響尤度比、
前記第１の音声認識手段による音声認識において、予め定められる特定期間中に出現するモーラの種類数を表す音素仮説数、
前記第１の音声認識手段による第１位の音声認識結果に含まれる音素列と、他の所定の音素認識手段により得られた音素列との編集距離を、単語の音素数で平均したものを表す音素距離、
事前に求めた各音素の持続時間分布を基準とし、前記第１の音声認識手段の認識結果を構成する各音素の持続時間確率を表す音素持続時間確率、
前記第１の音声認識手段による音声認識結果に含まれる音素の数を表す単語音素長、
入力される音声に対する前記第１の音声認識手段による音声認識の際に得られる言語スコア、
入力される音声に対して前記第１の音声認識手段による音声認識の結果得られる第１位の候補の言語スコア及び第２位の候補の言語スコアの差を表す言語スコア差、
入力される音声に対して前記第１の音声認識手段による音声認識の結果に対し、後続の認識結果から先行する認識結果の確率を予測する後向きの言語モデルから得られる後向き言語スコア、
入力される音声に対して前記第１の音声認識手段により得られる音声認識結果の始端時刻に開始する単語仮説の数を表す語始端分岐数、
入力される音声に対して前記第１の音声認識手段により得られる音声認識結果の終端時刻に終端する単語仮説の数を表す終端合流数、及び
入力される音声に対して前記第１の音声認識手段により得られる音声認識結果の時間区間を通過する単語グラフ上の全ての部分パスを同一単語系列でマージした数を表す競合単語仮説数、
のいずれかを含む、請求項１〜請求項６のいずれかに記載の音声認識装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項７のいずれかに記載の音声認識装置として動作させる、コンピュータで実行可能なコンピュータプログラム。