JP2005084436A - 音声認識装置及びコンピュータプログラム - Google Patents

音声認識装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2005084436A
JP2005084436A JP2003317559A JP2003317559A JP2005084436A JP 2005084436 A JP2005084436 A JP 2005084436A JP 2003317559 A JP2003317559 A JP 2003317559A JP 2003317559 A JP2003317559 A JP 2003317559A JP 2005084436 A JP2005084436 A JP 2005084436A
Authority
JP
Japan
Prior art keywords
speech recognition
speech
recognition
result
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003317559A
Other languages
English (en)
Inventor
Tatsuhiko Yamaguchi
辰彦 山口
Shinji Sako
慎司 酒向
Hiroshi Yamamoto
博史 山本
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003317559A priority Critical patent/JP2005084436A/ja
Publication of JP2005084436A publication Critical patent/JP2005084436A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。
【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用例文候補52で置換するか否かを判別し最終の音声認識結果28を出力する最終判別部54とを含み、予備判別部46は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。
【選択図】 図1

Description

この発明は音声認識技術に関し、特に、N−グラムモデル等、あるモデルを用いた音声認識の結果の誤りを、用例文モデルなどのほかのモデルを用いた認識結果で訂正することにより、最終的な音声認識の精度を高めるための技術に関する。
音声認識には、一般にN−グラムモデルと呼ばれる言語モデルが広く用いられている。N−グラムモデルは、単純なモデルでありながら高い認識性能を得られる事が知られている。しかし、N−グラムモデルは、近傍の単語との関係にのみ着目して制約を与えるモデルであるため、長距離の単語間関係や文の構造を考慮することができない。
これらのより高度な知識を表現したモデルとして、トリガーモデル、キャッシュモデルなどが提案されており、N−グラムモデルと線型補間や最大エントロピー法などを用いて同時に使用された結果が報告されているが、性能向上は必ずしも大きいものとは言えない。
N−グラムモデルでは表現できない広範囲の文脈に依存した高度な言語知識をモデル化するために、用例文を用いた新しい言語モデルである用例文モデルをN−グラムモデルとは別個に音声認識に適用することも提案されている。
しかし、高度なモデルを単独で用いた場合には、N−グラムモデルに比べてかえって認識精度が劣化することが予想される。そこで、このモデルの適用対象としては、N−グラムモデルで認識誤りを起こした単語のみに限定することにより、全体性能の劣化を防ぐことが提案されている。
この目的のためには、N−グラムモデルの認識結果の中での誤認識単語の推定が必要となってくる。しかしこれに対しても推定誤りの問題は避けることができない。すなわち、誤認識箇所の推定の再現率が低いならば用例文モデルが適用できる単語が減少し、大きな性能向上は見込めなくなる。一方、適合率が低いならば、N−グラムモデルにおける正解単語を、用例文モデルが逆に他の単語に置換えてしまう可能性が高まり、全体性能はかえって劣化する可能性が生ずる。
上記した問題点を解決するために以下のような方法が後掲の非特許文献1において提案されている。すなわち、認識結果のうち、誤り箇所である可能性が低い箇所には、用例文モデルを用いた代替候補が信頼性の高いものである場合のみこの単語による訂正を行なう。一方、誤り箇所である可能性が高い箇所には代替候補の信頼性が低い場合でも訂正を行なう。すなわち、この方法はN−グラムモデルによって認識された単語を用例文モデルによる代替候補で置換えるか否かを判別する問題であると言うことができる。
酒向慎司、山本博史、菊井玄一郎、「誤り単語の検出・訂正システムの統合と評価」、日本音響学会2002年秋期研究発表会、vol.1、pp.201−202、2002年9月
しかしこのような方法を用いても、依然として誤り箇所の訂正が不完全である場合が多い。そのため、誤りの訂正をより正確に行なうことができる音声認識装置が求められている。また、こうした問題はN−グラムモデルと用例文モデルとの組合せに限らず、他の種類のモデルを用いた音声認識でも生じ得る。
それゆえに本発明の目的は、あるモデルによる音声認識の結果の誤りを、他のモデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。
この発明の他の目的は、N−グラムモデルによる音声認識の結果の誤りを、他のモデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。
この発明のさらに他の目的は、N−グラムモデルによる音声認識の結果の誤りを、用例文モデルによる音声認識の結果で置換する際に、最終的な音声認識の精度を高めることが可能な音声認識装置を提供することである。
本発明の第1の局面に係る音声認識装置は、音声認識のための予め定める第1のモデルを用いて入力音声に対する音声認識を行ない、認識結果及びその信頼度尺度を出力するための第1の音声認識手段と、第1の音声認識手段により出力された認識結果の各々に対し、信頼度尺度を用いた学習により正誤を判別するように予め最適化された第1の判別手段と、入力音声に対して第1の判別手段が誤りと判定した箇所について、第1のモデルと異なる予め定める第2のモデルを用いて音声認識を行ない、認識結果及びその信頼度を算出するための第2の音声認識手段と、第1の音声認識手段により出力された認識結果の各々に対し、第1の音声認識手段の出力する信頼度尺度及び第2の音声認識手段の出力する信頼度を用いた学習により、第1の音声認識手段の認識結果を第2の音声認識手段の認識結果で置換するか否かを判別し、判別結果にしたがって最終の音声認識結果を出力するように最適化された第2の判別手段とを含み、第1の判別手段は、第1の音声認識手段により出力された認識結果の各々に対し、信頼度尺度を用いた学習により得られた正誤の判別基準に基づき、より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。
好ましくは、第1のモデルは、N−グラムモデルである。
さらに好ましくは、第2のモデルは、用例文モデルである。
第1の判別手段はSVMを含んでもよい。当該SVMは、予め準備された学習データに対して第1の判別手段が出力する認識結果の正誤を表す情報、及び学習データに対して第1の判別手段が出力する信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、入力される音声に対し第1の判別手段が出力する信頼度尺度を要素とするベクトルを入力として、入力される音声に対し第1の判別手段が出力する認識結果の正誤を判別するように最適化され、かつ当該最適化により得られた判別基準は、入力音声に対する第1の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる。
又は、第1の判別手段はMLPを含んでもよい。当該MLPは、予め準備された学習データに対して第1の判別手段が出力する認識結果の正誤を表す情報、及び学習データに対して第1の判別手段が出力する信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、入力される音声に対し第1の判別手段が出力する信頼度尺度を入力として、入力される音声に対し第1の判別手段が出力する認識結果の正誤を判別するように最適化され、かつ当該最適化により得られた判別基準は、入力音声に対する第1の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる。
好ましくは、信頼度尺度は、複数の個別の信頼度尺度を含む。
個別の信頼度尺度の各々は、次のいずれかを含む。すなわち、
第1の音声認識手段が入力される音声に対する音声認識を行なう際に得られる音響スコアを表す音響尤度、
第1の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第1位候補及び第2位候補の単語の音響スコアの差を表す音響尤度比、
第1の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第1位候補及び他の所定の音素認識手段により得られる第1位候補の単語の音響スコアを正規化したものの差を表す正規化音響尤度比、
第1の音声認識手段による音声認識において、予め定められる特定期間中に出現するモーラの種類数を表す音素仮説数、
第1の音声認識手段による第1位の音声認識結果に含まれる音素列と、他の所定の音素認識手段により得られた音素列との編集距離を、単語の音素数で平均したものを表す音素距離、
事前に求めた各音素の持続時間分布を基準とし、第1の音声認識手段の認識結果を構成する各音素の持続時間確率を表す音素持続時間確率、
第1の音声認識手段による音声認識結果に含まれる音素の数を表す単語音素長、
入力される音声に対する第1の音声認識手段による音声認識の際に得られる言語スコア、
入力される音声に対して第1の音声認識手段による音声認識の結果得られる第1位の候補の言語スコア及び第2位の候補の言語スコアの差を表す言語スコア差、
入力される音声に対して第1の音声認識手段による音声認識の結果に対し、後続の認識結果から先行する認識結果の確率を予測する後向きの言語モデルから得られる後向き言語スコア、
入力される音声に対して第1の音声認識手段により得られる音声認識結果の始端時刻に開始する単語仮説の数を表す語始端分岐数、
入力される音声に対して第1の音声認識手段により得られる音声認識結果の終端時刻に終端する単語仮説の数を表す終端合流数、及び
入力される音声に対して第1の音声認識手段により得られる音声認識結果の時間区間を通過する単語グラフ上の全ての部分パスを同一単語系列でマージした数を表す競合単語仮説数。
この発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの音声認識装置として動作させる。
以下、本発明の実施の形態の装置について図面を参照して説明する。以下の説明では、SVM(サポートベクトルマシン)を用いた第1の実施の形態、多層パーセプトロン(Multi−Layered Perceptron:以下「MLP」と呼ぶ。)を用いた第2の実施の形態、これらを組み合わせた第3の実施の形態の順に説明する。これらに共通した考え方は、N−グラムモデルによる認識結果の中で、用例文モデルによる認識結果で置換する誤り箇所の候補を判別する際に、誤り箇所の候補の判別をできるだけ漏らさずに行なうということである。その上で、N−グラムモデルによる認識結果が誤りである可能性が高く、かつ用例文モデルによる認識結果が正解である可能性が高い場合だけに限って認識結果の置換を行なう。
以下の実施の形態では、N−グラムモデルの音声認識結果の信頼度尺度を、誤認識単語を検出するための尺度として用いる。認識結果の単語グラフから得られる複数の信頼度尺度を組み合わせて用いる。
以下で用いる種々の信頼度尺度についてここで予め述べる。誤認識単語の検出に利用される信頼度尺度は、(1)音響的な要因によると考えられる尺度、(2)言語的要因と考えられる尺度、及び(3)探索又は音響と言語の両方の要因によると考えられる尺度に分けられる。その3つについてそれぞれ簡単に述べる。
<音響的要因による信頼度尺度>
(1)音響尤度
音響スコアそのものはある程度、正解率と相関を持ち、このスコアが低い場合にはその単語の正解率は低いと考えられる。そこで、音響スコアを単語のフレーム長で正規化した値を信頼度尺度として利用する。
(2)音響尤度比
認識結果の1位候補の単語の音響スコアのフレーム平均と、同じ時間窓周辺に現れる2位候補の音響スコアのフレーム平均との差を信頼度尺度として利用する
(3)正規化音響尤度
音響尤度比同様に、単語の音響スコアを正規化したものを信頼度尺度として利用する。ただし、ここでは2位候補音響スコアを利用するのではなく、並列に走らせたモーラタイプライタを利用して、1位候補単語と同じ時間窓でのモーラタイプライタとの音響スコア差をフレーム平均した値を信頼度尺度として利用する。
(4)音素仮設数
尤度幅一定のビーム探索において、ビーム内に残る仮説数は1位候補の正解率とある程度相関があると考えられる。そこで単語の時間窓内で出現するモーラの種類数を信頼度尺度として用いる。具体的には、モーラタイプライタを尤度幅一定のビーム探索で走らせた結果の単語時間窓内のモーラ種類数をカウントし、フレーム数で平均したものを利用する。
(5)音素距離
1位候補の単語の音素列とモーラタイプライタの音素列との編集距離(一方を他方に変換するために必要な、単語の挿入/削除/置換の数の合計)を、単語の音素数で平均した値を信頼度尺度として利用する。
(6)音素持続時間確率
一般に音韻の持続時間は一定の分布を持つと考えることができる。したがってこの分布傾向から極端に逸脱した持続時間を持つ音韻は、モデルと整合していないと予想できる。このような意味を持つ尺度として、事前に求めた各音素の持続時間確率分布を利用し、候補単語を構成する各音素の持続時間確率について、その最小確率の対数を利用する。
(7)単語音素長
単語の長さを表す尺度として、単語に含まれる音素の数を信頼度尺度として利用する。
<言語的要因による信頼度尺度>
(1)言語スコア
言語スコアは、言語的連接の適性度を表す。このスコアは認識誤りによって生じる文中の言語的に不自然な単語連鎖を検出できると考えられるため信頼度尺度として利用する。
(2)言語スコア差
1位候補単語の言語スコアと2位候補の言語スコアとの差によって、誤り検出できると考えられる。したがってこの言語スコア差を信頼度尺度として利用する。
(3)後向き言語スコア
後向きの言語モデル、すなわち後続単語系列から先行する単語の確率を予測するモデルを用いて単語の妥当性を示す尺度とすることができる。ここでは後向き言語モデルによるスコアをそのまま信頼度尺度として利用する。
<探索および音響と言語の両方の要因による信頼度尺度>
(1)語始端分岐数、終端合流数
注目単語の始端時刻に開始する単語仮説の数、および終端時刻に終端する単語仮説の数を信頼度尺度として利用する。
(2)競合単語仮説数
注目単語の時間区間を通過する単語グラフ上の全ての部分パスを、同一単語系列でマージした数を信頼度尺度として利用する。この時、音響モデルのあいまい性によって候補の出現が時間的にゆらぎ、始端、終端位置に隣の単語が入りこむことがある。このため、音素系列の比較によってこれらの余分なリンクを削る。
[第1の実施の形態]
<構成>
図1に、第1の実施の形態に係る音声認識装置22の構成をブロック図形式で示す。図2を参照して、この音声認識装置22は、N−グラムモデルを記憶するN−グラムモデル記憶部42と、入力音声20に対しN−グラムモデル記憶部を用いた音声認識を行ない、N−グラムモデルによる音声認識結果であるN−グラム候補44をそれぞれその信頼度尺度とともに出力するための音声認識部40とを含む。
音声認識装置22はさらに、用例文を多数含む用例コーパスを記憶する用例コーパス記憶部48と、入力音声20に対し、用例コーパス記憶部を用いた音声認識を行なって用例コーパスによる音声認識結果である用例文候補52及びその信頼度を出力するための用例候補選択部50とを含む。
原理的には、用例文候補52およびその信頼度は、N−グラムモデルでの認識結果のすべての単語および単語列に対して求める必要がある。しかし、用例文モデルの計算時間はN−グラムモデルに比べ非常に大きいため、すべての単語および単語列に対して用例文候補を求めるのは現実的ではない。そこで、用例文モデルの結果が選択される可能性の極めて低い部分、すなわちN−グラムモデルの結果が極めて信頼性の高い部分に対しては用例文モデルの計算を省略し、常にN−グラムモデルの結果を選択することにする。
そのために、音声認識装置22はさらに、N−グラム候補44に含まれる各単語について、その単語に付随する信頼度尺度に基づいて、SVMを用いて、後述する用例に関する予備判別を行なうための予備判別部46を含む。予備判別部46は、音声認識装置22とは別に準備された予備判別学習部24を用いて予め学習される。
音声認識装置22はさらに、N−グラム候補44の各単語につき、用例文候補52によって置換すべきか否かを選択するための最終判別部54を含む。最終判別部54の出力が最終認識結果である。最終判別部54は、音声認識装置22と別に準備された最終判別学習部26により予め学習される。
<用例候補選択部50による用例文候補52の推定>
用例候補選択部50は、N−グラムモデルでの認識結果であるN−グラム候補44を元にして各単語に対し候補を再推定し、スコア付けする。この時、再推定候補に対して与えるスコアとして、文距離及び音韻距離の二つを用いる。以下に文距離と音韻距離について述べる。
(1)文距離
N−グラムモデルでの認識結果から得られる単語列のうち、再推定を行なう単語をワイルドカードとしてマスクする。これと、用例文コーパス中に含まれる各文との単語単位の編集距離を計算し、再推定単語に対応する単語を候補とし、その編集距離を文距離スコアとする。
(2)音韻距離
文距離計算で求められた再推定単語に対し、別途走らせたモーラタイプライタにより対応するモーラ列を得る。このモーラ列と再推定候補単語の読みから得られるモーラ列との音韻単位の編集距離を音韻距離スコアとする。モーラタイプライタを用いる理由は、言語的制約を持たないモーラタイプライタの方がより忠実に発声内容のモーラ列を表していると考えられるためである。
用例文モデルの具体的な適用例を挙げる。ここで挙げる例は、N−グラムモデルでの認識結果のうち「し」を用例文モデルで再推定する例である。
Figure 2005084436
まず、対象箇所である「し」をワイルドカードとして覆い、その前の単語列「私はギターを」と後ろの単語列「ます」をもとに文距離の小さいものを用例コーパスから選ぶ。その時の文距離と音韻距離の値は次の表1のようになる。
Figure 2005084436
この例の場合には、例文1 からは推定候補「弾き」が、例文2からは「発ち」が推定候補として得られる。
<予備判別部46の学習>
図2に、図1の予備判別学習部24の詳細を示す。図2を参照して、予備判別学習部24は、学習コーパス60と、学習コーパス60の認識の正解ラベル62とを用いて予備判別部46の学習を行なうものである。予備判別学習部24は、学習コーパス60を用いてN−グラムモデルによる認識処理を行なう認識処理部70と、認識処理部70により得られた認識結果の単語グラフから、前記した複数通りの信頼度尺度を計算するための信頼度尺度計算部72と、認識処理部70による認識結果と正解ラベル62とを照合した認識結果の正誤、及び信頼度尺度計算部72により計算される複数の信頼度尺度の組を入力データとし、予備判別部46に含まれるSVMによる認識誤り箇所の判別器の学習を行なうための判別器学習部74とを含む。
図3を参照して、SVMによる判別の原理について説明する。本実施の形態では、複数個の信頼度尺度とN−グラムモデルによる認識結果の正誤との間の関係をSVMに学習させる。そのため、SVMの扱うベクトル空間は多次元空間となるが、図3では説明を簡単にするために2次元的に示してある。
認識結果の各単語には、複数個の信頼度尺度の値が与えられている。したがって各単語に対応して、これら信頼度尺度の値を要素として持つベクトルを対応付けることができる。また、認識結果と図2に示す正解ラベル62との照合により、各単語が正しい認識結果か否かについて、その判定結果をこれらベクトルの要素に加える。
図3を参照して、SVMの扱うベクトル空間内に、これらベクトルに対応する点をプロットし、かつ各点が正解に対応するか、誤りに対応するかを表すようにすることができる。図3に示す例では、正解に対応する点は丸印で、誤りに対応する点は×印で示す。
SVMは、学習において認識結果の正誤及び複数の信頼度尺度の組を与えられると、このベクトル空間を、正しい認識結果が属する空間と、誤認識結果が属する空間との二つの空間に分割するような超平面(判別境界面と呼ぶ。)を定める。図3では、判別境界面を判別境界線98として表している。
SVMでは、各点と判別境界線98との間の距離(各点から判別境界線98(超平面)におろした垂線の足と各点との間の距離(例えばユークリッド距離))92,94,90,…に応じたスコア(SVMスコア)が各点に付与される。このSVMスコアは、正解領域では符号が正、誤り領域では負となるように定められている。判別境界線98上ではSVMスコアは0となる。
予備判別部46は、予備判別学習部24による学習でこの判別境界線98を定め、用例候補選択部50のために、N−グラム候補44の認識結果の誤り箇所の予備判別を行なう。つまり、ある点が、判別境界線98により分けられた二つの領域のうち、正解領域に入るか、誤り領域に入るかに従って、その点に対応する認識結果が正解か否かを判定する。
ただしこの予備判別の際には、図5の矢印122により示すように、判別境界線98を、SVMスコアが正となる方向に移動させた判別境界線124を用いる。その結果、予備判別により誤りと判定される点の数は、SVMスコア=0となる位置に判別境界線98を設定した場合よりも多くなる。つまり、上記した様に学習された判別境界が、より多くの誤りを検出できるような方向にバイアスされる。
<最終判別部54の学習>
最終判別部54の学習は、最終判別学習部26により行なわれる。最終判別部54は、予備判別部46にて認識誤り箇所と判別された部分に対して用例文モデルより候補を検索し、推定結果を代替候補として決定する。ここで、N−グラムモデルでの結果と用例文モデルの代替候補の正誤の組合せとして、双方の正誤が一致する場合と、双方の正誤が異なる場合とがある。前者の場合、用例文モデルでの置き換えは認識率に何ら影響がないため無視しても良い。従って、N−グラムモデルでの結果が誤りで用例文モデルの代替候補が正解の場合とその逆の場合の判別を行なえばよいことになる。
このため、最終判別部54の学習時には、前者に対しては「+1」のラベルを、後者に対しては「−1」のラベルを、それぞれ付与する。このラベルと共に、その時のN−グラムモデルでの複数の信頼度尺度および用例文モデルでのスコアである文距離、音韻距離を入力とし、予備選択でも用いた手法であるSVMにて最終判別部54を学習する。
図4を参照して、最終判別学習部26は、学習データを用いた予備判別部46の予備選択で誤りと検出した箇所に対して求めた用例文モデルでの代替候補とそのスコアとを含む学習時予備選択結果102、N−グラムモデルでの結果と用例文モデルの代替候補の正誤が異なる結果について「+1」又は「−1」を付与したデータからなるラベル104、及びN−グラムモデルに対して求められた複数の信頼度尺度100を用いて最終判別部54の学習を行なう。
最終判別学習部26は、学習時予備選択結果102から用例文モデルでの代替候補とそのスコアとを計算する代替候補及びスコア計算部110と、ラベル104、代替候補及びスコア計算部110により算出された用例文モデルでの代替候補に対するスコア、及びN−グラムモデルでの複数の信頼度尺度100を要素とするベクトルを入力として最終判別部54に与えることで、最終判別部54のSVMの学習を行なうための判別器学習部112とを含む。ただし最終判別学習部26を用いた実際の判別では、予備判別部46と異なり判別境界線は移動させない。
<動作>
以上説明した音声認識装置22は、以下のように動作する。まず、図2を参照して、予備判別部46の学習について説明する。予備判別学習部24は以下のように動作して予備判別部46の学習を行なう。
(1)学習コーパス60を用い、認識処理部70によってN−グラムモデルを用いた認識を行ないその結果を得る。
(2)信頼度尺度計算部72が、認識処理部70から得られた認識結果の単語グラフから単語ごとに複数の信頼度尺度を計算する。
(3)判別器学習部74が、認識処理部70の認識結果に対して信頼度尺度計算部72が計算した複数の信頼度尺度と、正解ラベル62から読み出したその認識結果の正誤との組を入力データとして予備判別部46のSVMの学習を行なわせる。
このようにして、図3に示す判別境界線98が予備判別部46を構成するSVMにおいて定められる。実際予備判別を行なう際には、判別境界線98をSVMスコアの正となる方向に移動させてN−グラムモデルによる認識結果の正誤の判別を行なう。
図1及び図4に示す最終判別学習部26による最終判別部54の学習は次のようにして行なわれる。
(1) 上記のように準備した予備判別部46を用い、N−グラムモデルによる認識結果に対する予備判別を行ない、学習時予備選択結果102を準備する。この予備判別で誤りと検出された箇所に対して、代替候補及びスコア計算部110により、用例文モデルでの代替候補とそのスコアとを求める。
(2)判別器学習部112が、N−グラムモデルでの結果と用例文モデルの代替候補との正誤が異なる結果を選択し、それに対し「+1」または「−1」のラベルを付与する。
(3)このラベルと共に、用例文モデルでの代替候補に対するスコアと、N−グラムモデルに対する複数の信頼度尺度を要素とするベクトルを入力とし、最終判別部54を構成するSVMに与え、N−グラムモデルによる認識結果を置換すべきか否かを判別するための学習を行なう。
予備判別部46及び最終判別部54に関する以上の学習が全て終了すれば、音声認識装置22による音声認識が実行できる。
図1を参照して、入力音声20が与えられると、音声認識部40がN−グラムモデル記憶部42を用いて音声認識を行ない、N−グラム候補44を複数の信頼度尺度とともに出力する。予備判別部46は、学習が済んだSVMを用いてN−グラム候補44の各単語について、N−グラム候補44の認識結果の誤り箇所の予備判別を行ない、その結果を用例候補選択部50に与える。このとき予備判別部46は、SVMの境界判別線をSVMスコアの正の方向に移動させて判別を行なう。その結果、境界判別線がSVM=0の位置にある場合よりも多くの箇所が予備判別部46によって選択される。
用例候補選択部50は、入力音声20に対し、用例コーパス記憶部48に記憶された用例コーパスを用いて用例候補及びその信頼度を求める。このとき用例候補選択部50は、全ての単語及び単語列に対してこれらを求めることはせず、予備判別部46により予備選択されたものについてのみこの処理を行なう。それ以外の単語及び単語列については、用例文モデルの計算を省略し、常にN−グラムモデルの結果を選択する。この用例候補選択部50の処理により用例文候補52がそのスコアとともに得られる。
最終判別部54は、N−グラム候補44に付随する複数の信頼度尺度と、用例文候補52に付随する信頼度とを入力ベクトルとして受けることにより、SVMによってN−グラムモデルによる候補をそのまま出力するか、用例文モデルによる代替候補で置換するかについての判別を行なう。最終判別部54は、その判別結果にしたがってN−グラムモデルによる候補をそのまま出力するか、又は用例文モデルによる代替候補で置換して最終認識結果28を出力する。
<実験結果>
本実施の形態に係る装置を用いて以下に述べるような実験を行なった。この実験における実験条件を次のテーブル3及びテーブル4に示す。
Figure 2005084436
Figure 2005084436
データとして、出願人の作成した旅行会話表現集コーパス約7,000文を準備し、それを各500文からなる14セットに分割して用いた。このうち4セットを学習コーパスとして、10セットを評価コーパスとして用いた。学習コーパスの単語正解精度はテーブル3に示すように約91%である。以上の条件のもと、まず用例文モデルによる置換の判定に対する予備選択を行った。
SVMにて学習して判別器を作成し、評価コーパスにてN−グラムモデルでの誤り箇所を判別した。判別境界面をSVMスコア=0(図6の半直線130)として判別した結果、評価コーパスの最初のセットに対する認識誤り箇所の予備選択結果の適合率は78%であり、再現率は18.9%であった。この時のSVM判別境界面と正解単語および誤り単語の関係は図6のようになる。この図から分かるように、判別境界面を0とした場合は、認識誤り単語をほとんど検出できていない。そこで、本実施の形態のように認識誤り箇所を多く検出するように境界線を正方向に変更する(図6の半直線132)ことが有効である。
境界線を正方向に変更した場合の誤り改善率と判別境界面との関係を、図7に示す。ここで、提案手法の評価基準としては、次の式(1)に示す誤り改善率を用いた。
Figure 2005084436

式(1)において、G(n)はN−グラムモデルでの認識誤り箇所に対して正解単語に置換した個数を表し、B(n)はN−グラムモデルでの正解箇所に対して他の単語に置換した個数を表す。この誤り改善率を向上させることで認識精度も向上する。
図7のライン140及び142に示すように、境界線がSVMスコア=0.7〜1.1、さらに好ましくは0.9〜1.1でよい誤り改善率を得ることができ、SVMスコア=1.0で最も良い誤り改善率を得ることができることが分かる。なお、ライン140は学習セットに対して得られた誤り改善率、ライン142は評価セットに対して得られた誤り改善率を、それぞれ示す。この時の評価コーパスでの誤り改善率は、平均約19.81%であり、この時の予備選択の適合率は約40.85%で再現率は約61.25%であった。ここでの適合率と再現率は、式(2)(3)にて求めた。
Figure 2005084436
ただしS(n)は予備選択にて認識誤りとした箇所を表し、R(n)は実際の認識誤り箇所を表す。
[第2の実施の形態]
第1の実施の形態では、予備判別部46の判別器としてSVMを用いた。このSVMに替えてMLPを用いるのが第2の実施の形態の装置である。例えばMLPとしては階層数が2のものを用いることができる。
一般に、MLPでは入力が正解のときには+1、誤りのときには−1となるような出力が得られる。通常は正解か誤りかの判定のしきい値には0を用いる。しかし、本実施の形態では、第1の実施の形態の場合と同様、予備判別において認識誤り箇所をより多く検出するように移動させる。
予備判別部46のSVMに替えてMLPを用いる点をのぞき、この第2の実施の形態の装置の構成は図1に示したものと同様である。したがってここではその詳細な説明は行なわない。
<実験結果>
第1の実施の形態と同様、この第2の実施の形態のMLPを用いた装置において、MLPの学習を行ない、学習が済んだMLPを使いN−グラムモデルに対する誤り箇所の予備判別をする実験を行なった。この時出力しきい値0.0における認識誤り箇所の適合率は64.3%であり、認識誤り箇所の再現率は33.6%であった。
第1の実施の形態と同様に、認識誤り箇所の再現率が増加するようにこのしきい値を変更し実験を行なった。その結果、評価コーパスでは出力しきい値0.6において誤り改善率平均約20.13%を得ることができ、予備判別の適合率は約43.34%で再現率は約61.03%であった。この時、学習コーパスにおける誤り改善率はSVMに比べて高く、出力しきい値0.6の時では平均約27.12%となった。
[第3の実施の形態]
第3の実施の形態の装置では、SVMとMLPとを組合せ、両者により得られる誤り推定箇所の論理和を用いることで誤り箇所の再現率を上げるようにする。これは、SVMとMLPの検出結果に違いがあり、片方で検出できなかった誤り箇所を、もう片方で検出でき、再現率が向上する可能性があると考えられるためである。
図8にその構成を示す。図8に示す第3の実施の形態の音声認識装置150が図1に示す第1の実施の形態の音声認識装置22と異なるのは、単独の予備判別部46に替えて、第1の実施の形態で用いた予備判別部46と同一構成のSVM予備判別部152と、第2の実施の形態で用いた予備判別部と同一構成のMLP予備判別部154と、SVM予備判別部152の出力及びMLP予備判別部154の出力の論理和をとって用例候補選択部50に与える論理和回路156とをさらに含む点である。
この音声認識装置150に含まれるSVM予備判別部152及びMLP予備判別部154の機能及び動作については、第1の実施の形態及び第2の実施の形態の説明より明らかである。したがってここではその詳細な説明は行なわない。
本実施の形態では、SVM予備判別部152により置換候補と判別された箇所と、MLP予備判別部154により置換候補と判別された箇所との和集合によって、用例文モデルによる認識候補と置換する箇所の候補を定める。したがって、SVM予備判別部152又はMLP予備判別部154をそれぞれ単独で用いた場合と比較して、より多数の置換箇所の候補を見つけることができる。その結果、第1の実施の形態又は第2の実施の形態と比較してさらに誤り改善率が向上する。
<実験結果>
この第3の実施の形態の音声認識装置150に相当する構成の実験を行なった結果、得られた誤り改善率は評価コーパスにおいて平均約20.51%となった。予備選択の適合率は約38.58%、再現率は約67.03%であった。SVMおよびMLPを個々に用いて誤り検出した場合に比べてそれぞれ約0.7%及び0.4%の誤り改善率の向上が得られた。
以上の結果をまとめてテーブル5及び6に示す。
Figure 2005084436
Figure 2005084436
テーブル5はSVM、MLPおよびSVMとMLPとの論理和、それぞれの評価コーパスにおける予備選択での再現数、G(n)の総数、B(n)の総数、および改善数を示し、テーブル6は、この時の予備選択での再現率、予備選択での適合率および誤り改善率を示す。この結果から分かる通り、SVMとMLPとの予備選択結果の論理和を用いたことで、予備選択での再現率が増加し、誤り改善率を若干改善することができた。
なお、上記した実施の形態は、いずれも標準的なコンピュータとその上で実行されるコンピュータプログラムとにより実現することができる。SVM,MLPなどについては適切な数値計算パッケージを利用することができる。また、音声認識部40、50などで行なわれる音声認識については、それぞれ標準的なものを使用することができる。ただし、それら認識処理では、判別の際に利用する信頼度尺度を生成できることが必要である。
上記した音声認識装置を実現するためのコンピュータプログラムについては、音声処理パッケージプログラムに関する知識を有する当業者であれば、容易に作成可能であると思われる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る音声認識装置の機能的ブロック図である。 予備判別学習部24の機能的ブロック図である。 SVMによる判別の概念を説明するための図である。 最終判別学習部26の機能的ブロック図である。 第1の実施の形態におけるSVMの境界判別線の移動を模式的に示す図である。 SVM判別境界面と正解単語および誤り単語の関係を示すグラフである。 境界線を正方向に変更した場合の誤り改善率と判別境界面との関係を示すグラフである。 本発明の第3の実施の形態に係る音声認識装置の機能的ブロック図である。
符号の説明
20 入力音声、22,150 音声認識装置、24 予備判別学習部、26 最終判別学習部、28,154 最終認識結果、40 音声認識部、42 N−グラムモデル記憶部、44 N−グラム候補、46 予備判別部、48 用例コーパス記憶部、50 用例候補選択部、52 用例文候補、54 最終判別部、60 学習コーパス、62 正解ラベル、70 認識処理部、72 信頼度尺度計算部、74 判別器学習部、100 信頼度尺度、102 学習時予備選択結果、104 ラベル、110 代替候補及びスコア計算部110、112 判別器学習部、152 SVM予備判別部、154 MLP予備判別部、156 論理和回路

Claims (8)

  1. 音声認識のための予め定める第1のモデルを用いて入力音声に対する音声認識を行ない、認識結果及びその信頼度尺度を出力するための第1の音声認識手段と、
    前記第1の音声認識手段により出力された認識結果の各々に対し、前記信頼度尺度を用いた学習により正誤を判別するように予め最適化された第1の判別手段と、
    前記入力音声に対して前記第1の判別手段が誤りと判定した箇所について、前記第1のモデルと異なる予め定める第2のモデルを用いて音声認識を行ない、認識結果及びその信頼度を算出するための第2の音声認識手段と、
    前記第1の音声認識手段により出力された認識結果の各々に対し、前記第1の音声認識手段の出力する前記信頼度尺度及び前記第2の音声認識手段の出力する前記信頼度を用いた学習により、前記第1の音声認識手段の認識結果を前記第2の音声認識手段の認識結果で置換するか否かを判別し、判別結果にしたがって最終の音声認識結果を出力するように最適化された第2の判別手段とを含み、
    前記第1の判別手段は、前記第1の音声認識手段により出力された認識結果の各々に対し、前記信頼度尺度を用いた学習により得られた正誤の判別基準に基づき、より多くの誤りを検出するようにバイアスした判別基準を用いて判別する、音声認識装置。
  2. 前記第1のモデルは、N−グラムモデルである、請求項1に記載の音声認識装置。
  3. 前記第2のモデルは、用例文モデルである、請求項1又は請求項2に記載の音声認識装置。
  4. 前記第1の判別手段はサポートベクトルマシン(以下「SVM」と呼ぶ。)を含み、
    当該SVMは、
    予め準備された学習データに対して前記第1の判別手段が出力する認識結果の正誤を表す情報、及び前記学習データに対して前記第1の判別手段が出力する前記信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、
    入力される音声に対し前記第1の判別手段が出力する前記信頼度尺度を要素とするベクトルを入力として、前記入力される音声に対し前記第1の判別手段が出力する認識結果の正誤を判別するように最適化され、
    かつ当該最適化により得られた判別基準は、前記入力音声に対する前記第1の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる、請求項1〜請求項3のいずれかに記載の音声認識装置。
  5. 前記第1の判別手段は多層パーセプトロン(以下「MLP」と呼ぶ。)を含み、
    当該MLPは、
    予め準備された学習データに対して前記第1の判別手段が出力する認識結果の正誤を表す情報、及び前記学習データに対して前記第1の判別手段が出力する前記信頼度尺度を含む要素からなるベクトルを入力として学習を行なって、
    入力される音声に対し前記第1の判別手段が出力する前記信頼度尺度を入力として、前記入力される音声に対し前記第1の判別手段が出力する認識結果の正誤を判別するように最適化され、
    かつ当該最適化により得られた判別基準は、前記入力音声に対する前記第1の音声認識手段の認識結果の正誤の判別の際には、より多くの誤りが検出されるようにバイアスされる、請求項1〜請求項3のいずれかに記載の音声認識装置。
  6. 前記信頼度尺度は、複数の個別の信頼度尺度を含む、請求項1〜請求項5のいずれかに記載の音声認識装置。
  7. 前記個別の信頼度尺度の各々は、
    前記第1の音声認識手段が入力される音声に対する音声認識を行なう際に得られる音響スコアを表す音響尤度、
    前記第1の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第1位候補及び第2位候補の単語の音響スコアの差を表す音響尤度比、
    前記第1の音声認識手段が入力される音声に対する音声認識を行なった結果得られる第1位候補及び他の所定の音素認識手段により得られる第1位候補の単語の音響スコアを正規化したものの差を表す正規化音響尤度比、
    前記第1の音声認識手段による音声認識において、予め定められる特定期間中に出現するモーラの種類数を表す音素仮説数、
    前記第1の音声認識手段による第1位の音声認識結果に含まれる音素列と、他の所定の音素認識手段により得られた音素列との編集距離を、単語の音素数で平均したものを表す音素距離、
    事前に求めた各音素の持続時間分布を基準とし、前記第1の音声認識手段の認識結果を構成する各音素の持続時間確率を表す音素持続時間確率、
    前記第1の音声認識手段による音声認識結果に含まれる音素の数を表す単語音素長、
    入力される音声に対する前記第1の音声認識手段による音声認識の際に得られる言語スコア、
    入力される音声に対して前記第1の音声認識手段による音声認識の結果得られる第1位の候補の言語スコア及び第2位の候補の言語スコアの差を表す言語スコア差、
    入力される音声に対して前記第1の音声認識手段による音声認識の結果に対し、後続の認識結果から先行する認識結果の確率を予測する後向きの言語モデルから得られる後向き言語スコア、
    入力される音声に対して前記第1の音声認識手段により得られる音声認識結果の始端時刻に開始する単語仮説の数を表す語始端分岐数、
    入力される音声に対して前記第1の音声認識手段により得られる音声認識結果の終端時刻に終端する単語仮説の数を表す終端合流数、及び
    入力される音声に対して前記第1の音声認識手段により得られる音声認識結果の時間区間を通過する単語グラフ上の全ての部分パスを同一単語系列でマージした数を表す競合単語仮説数、
    のいずれかを含む、請求項1〜請求項6のいずれかに記載の音声認識装置。
  8. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項7のいずれかに記載の音声認識装置として動作させる、コンピュータで実行可能なコンピュータプログラム。
JP2003317559A 2003-09-09 2003-09-09 音声認識装置及びコンピュータプログラム Pending JP2005084436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003317559A JP2005084436A (ja) 2003-09-09 2003-09-09 音声認識装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003317559A JP2005084436A (ja) 2003-09-09 2003-09-09 音声認識装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2005084436A true JP2005084436A (ja) 2005-03-31

Family

ID=34417081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003317559A Pending JP2005084436A (ja) 2003-09-09 2003-09-09 音声認識装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2005084436A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
JP2009086063A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009229940A (ja) * 2008-03-24 2009-10-08 Mti Ltd 和音同定方法、和音同定装置、及び学習装置
JP2016091028A (ja) * 2014-10-31 2016-05-23 株式会社東芝 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
CN105654946A (zh) * 2014-12-02 2016-06-08 三星电子株式会社 用于语音识别的设备和方法
JP2016177377A (ja) * 2015-03-18 2016-10-06 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
JP2017514248A (ja) * 2014-04-04 2017-06-01 マイスクリプト 重畳された手書き文字認識技術システム及び重畳された手書き文字認識技術方法。
JP2019091418A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
JP2021177261A (ja) * 2018-02-19 2021-11-11 ヤフー株式会社 決定装置、決定方法、決定プログラム及びプログラム
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275348A (ja) * 2004-02-23 2005-10-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal
JPWO2008001486A1 (ja) * 2006-06-29 2009-11-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
JP5223673B2 (ja) * 2006-06-29 2013-06-26 日本電気株式会社 音声処理装置およびプログラム、並びに、音声処理方法
US8751226B2 (en) 2006-06-29 2014-06-10 Nec Corporation Learning a verification model for speech recognition based on extracted recognition and language feature information
JP2009086063A (ja) * 2007-09-28 2009-04-23 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009229940A (ja) * 2008-03-24 2009-10-08 Mti Ltd 和音同定方法、和音同定装置、及び学習装置
JP2017514248A (ja) * 2014-04-04 2017-06-01 マイスクリプト 重畳された手書き文字認識技術システム及び重畳された手書き文字認識技術方法。
JP2016091028A (ja) * 2014-10-31 2016-05-23 株式会社東芝 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
US9672817B2 (en) 2014-10-31 2017-06-06 Kabushiki Kaisha Toshiba Method and apparatus for optimizing a speech recognition result
JP2016110087A (ja) * 2014-12-02 2016-06-20 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置
KR20160066441A (ko) * 2014-12-02 2016-06-10 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105654946A (zh) * 2014-12-02 2016-06-08 三星电子株式会社 用于语音识别的设备和方法
US11176946B2 (en) 2014-12-02 2021-11-16 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP2016177377A (ja) * 2015-03-18 2016-10-06 ヤフー株式会社 学習装置、学習方法、及び学習プログラム
JP2019091418A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
JP2021177261A (ja) * 2018-02-19 2021-11-11 ヤフー株式会社 決定装置、決定方法、決定プログラム及びプログラム
JP7278340B2 (ja) 2018-02-19 2023-05-19 ヤフー株式会社 決定装置、決定方法、及び決定プログラム
US20210357588A1 (en) * 2020-05-15 2021-11-18 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph
US11947910B2 (en) * 2020-05-15 2024-04-02 Robert Bosch Gmbh Device and method for determining at least one part of a knowledge graph

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
WO2008004666A1 (fr) Dispositif, procédé et programme de reconnaissance vocale
US20040186714A1 (en) Speech recognition improvement through post-processsing
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
JP2009145853A (ja) 混同音の生成および検知の方法およびシステム
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2007041319A (ja) 音声認識装置および音声認識方法
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
JP2005084436A (ja) 音声認識装置及びコンピュータプログラム
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN112951211B (zh) 一种语音唤醒方法及装置
CN117875310A (zh) 一种基于前后缀词库与困惑度的垂域文本纠错方法
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP2002358097A (ja) 音声認識装置
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP2006208905A (ja) 音声対話装置及び音声対話方法
WO2023029220A1 (zh) 语音识别方法、装置、设备及存储介质
JP5113797B2 (ja) 相違度利用型識別的学習装置とその方法、そのプログラム
CN113205813B (zh) 语音识别文本的纠错方法
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム