JP2008083367A - 音声認識装置、音声認識方法及びプログラム - Google Patents
音声認識装置、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP2008083367A JP2008083367A JP2006263039A JP2006263039A JP2008083367A JP 2008083367 A JP2008083367 A JP 2008083367A JP 2006263039 A JP2006263039 A JP 2006263039A JP 2006263039 A JP2006263039 A JP 2006263039A JP 2008083367 A JP2008083367 A JP 2008083367A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- recognition result
- word
- sentence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Abstract
【課題】音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することのできる音声認識装置を提供すること。
【解決手段】音響特徴生成部102は、入力信号に対し音響分析を行って、フレーム毎に、入力信号の音声パワーと特徴ベクトルを生成する。音声検出部103は、音声パワーをもとに、少なくとも音声の終端フレームを検出し、計算区間決定部107は、検出された終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する。照合部105は、モデル格納部104に格納された音響モデル及び言語モデルを利用して、特徴ベクトルの時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求める。認識結果計算部108は、処理対象範囲に含まれる各フレームを終端としたときの認識結果候補をもとにして、最終的な認識結果を求める。
【選択図】 図1
【解決手段】音響特徴生成部102は、入力信号に対し音響分析を行って、フレーム毎に、入力信号の音声パワーと特徴ベクトルを生成する。音声検出部103は、音声パワーをもとに、少なくとも音声の終端フレームを検出し、計算区間決定部107は、検出された終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する。照合部105は、モデル格納部104に格納された音響モデル及び言語モデルを利用して、特徴ベクトルの時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求める。認識結果計算部108は、処理対象範囲に含まれる各フレームを終端としたときの認識結果候補をもとにして、最終的な認識結果を求める。
【選択図】 図1
Description
本発明は、音声認識装置、音声認識方法及びプログラムに関する。
従来の音声認識の基本的な方法について説明する。
従来の音声認識では、まず、入力信号から一定時間間隔(フレーム)ごとに音響特徴量(音声パワーなどの物理量や、一般にMFCCやΔMFCCなどを用いて生成される特徴ベクトルなど、音声の特徴を示す物理量)を生成すると同時に、入力信号から音声の開始時刻(始端フレーム)および音声終端時刻(終端フレーム)を検出するまで実行する。始端フレームから終端フレームまでの特徴ベクトルの時系列と、グラマーすなわち認識対象語彙を表現する音響モデルおよび認識対象文を表現する言語モデルとのマッチングを行い、各認識対象文(候補)の尤度を計算し、終端フレームにおいて、最も尤度の高い認識対象文(1位候補)を認識結果とする。
このように特徴ベクトルの時系列(始端フレームから終端フレームまでのフレーム区間の特徴ベクトル)とグラマーとのマッチングを行う音声認識技術では、通常、終端フレームの前後数フレームにおいて、入力音声が発した文が1位候補になることが多い。つまり、終端フレームの前後数フレームのどのフレームにおいても、そのフレームを終端フレームとした場合に、他のどの文よりも正解文の尤度が高いことが多い。なお、終端フレームより後のフレームにおける1位候補とは、仮に終端フレーム後もマッチングを継続した場合の、そのフレームにおける1位候補、という意味である。
しかし、音響モデルの不完全さや、音声と共に入力信号に混入する雑音などの影響により、終端フレーム付近において認識結果が揺らぐこと、すなわち、終端フレーム付近において、1位候補が正解文であったり不正解の文であったりして、正解文が安定して1位候補とならないことがある。極端な例としては、終端フレームのみにおいて非正解文が1位候補となり、その終端前後フレームにおいては全て正解文が1位候補である、という場合がある。このような認識結果の揺らぎにより、終端付近では正解文が1位候補であることが多いにもかかわらず、誤認識となることがある。
Lawrence R. Rabiner, "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition," Proceedings of the IEEE, vol. 77, no. 2, pp. 257-286, Feburuary 1989.
Lawrence R. Rabiner, "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition," Proceedings of the IEEE, vol. 77, no. 2, pp. 257-286, Feburuary 1989.
上述したように、従来の音声認識技術には、終端フレーム付近における認識結果の揺らぎにより誤認識が生じるという問題があった。
本発明は、上記事情を考慮してなされたもので、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することのできる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
本発明に係る音声認識装置は、入力音声から入力信号を生成する手段と、前記入力信号から、少なくとも音声の終端フレームを検出する検出手段と、前記入力信号から、マッチングに供するための音響特徴量を生成する生成手段と、検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する範囲決定手段と、予め用意された音響モデル及び言語モデルを利用して、前記第2の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるマッチング手段と、前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求める処理手段とを備えたことを特徴とする。
なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるための(あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための)プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
本発明によれば、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することが可能になる。
以下、図面を参照しながら本発明の実施形態について説明する。
(第1の実施形態)
図1に、本発明の第1の実施形態に係る音声認識装置の構成例を示す。
図1に、本発明の第1の実施形態に係る音声認識装置の構成例を示す。
図1に示されるように、本実施形態の音声認識装置は、音声入力部101、音響特徴生成部102、音声検出部103、モデル格納部104、照合部105、候補格納部106、計算区間決定部107、認識結果計算部108を備えている。
まず、本音声認識装置の各部の機能の概要について説明する。
音声入力部101は、例えばマイクロフォンなどの外部装置からの入力音声を逐次取り込み、A/D変換によりデジタル信号(入力信号)へ変換する。
音響特徴生成部102は、入力信号からフレーム単位で音響特徴量(例えば、特徴ベクトルや、入力信号のパワーなど)を生成し、格納する。
音声検出部103は、音響特徴生成部102において計算された音響特徴量から、音声の開始フレーム(始端フレーム)と終了フレーム(終端フレーム)を検出する。また、音声の始終端を照合部105に通知する。
モデル格納部104は、認識対象となる文の言語モデルおよび音響モデルを格納している。
照合部105は、音響特徴生成部102によって生成された特徴ベクトルの時系列について、音声の始端フレームから順に、モデル格納部104に格納された音響モデル、言語モデルとマッチングを行い、各認識対象文の尤度を計算する。すなわち、該時系列における音声の始端フレームに係る部分から終端フレームに係る部分までの範囲についてのみが認識対象とされるのではなく、フレームTを順にシフトして得られる、該時系列における音声の始端フレームからフレームTまでのフレーム区間のそれぞれが認識対象とされる(なお、少なくともフレームTが下記の認識結果計算区間の最終フレームに達するまで、処理が繰り返される)。
候補格納部106は、各フレームについて、そのフレームを終端としたときの認識結果候補が存在すれば、それらを格納する。
計算区間決定部107は、終端フレームが検出されると、認識結果計算部108において計算対象の範囲とする「終端フレームを含むフレーム区間」(認識結果計算区間)を、当該終端フレームをもとにして算出する。また、フレーム区間を照合部105に通知する。
認識結果計算部108は、照合部105において、上記の認識結果計算区間の全フレームのマッチングが完了すると、計算区間決定部107により算出された認識結果計算区間の各フレームを終端フレームとする認識結果候補を取得し、それら認識結果候補をもとにして認識結果を求め、出力する。
図2に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。
この動作例では、隠れマルコフモデル(HMM)を用いた単語認識の場合を例にとって説明する。
ここでは、音響モデルとして音素単位のleft−to−right型の隠れマルコフモデル(音素HMM)を使用する。図3に、3状態のleft−to−right型HMMを示す。初期状態(401)と最終状態(402)と3個の出力状態(403)とが存在し、各出力状態には、自己ループ(404)と次の状態への遷移アーク(405)とが付随する。なお、以下では、N状態HMMといった場合、N個の出力状態を持つleft−to−right型HMMを指すものとする。
認識対象語彙の各単語には音素列が対応しており、その音素列の順に左から音素HMMの連結することによって得られる単語モデル(単語HMM)を作成する。図4に、その一例として、音素列/A/O/からなる単語「青」の単語HMMを示す。単語HMMの初期状態(501)に続き、単語HMMを構成する音素/A/に対応する音素HMMの出力状態列(502)、単語HMMを構成する音素/O/に対応する音素HMMの出力状態列(503)、単語HMMの最終状態(504)が続く。
単語HMMと特徴ベクトルとのマッチングアルゴリズムとしては、例えば、よく知られたViterbiアルゴリズムを使用することができる(単語HMMを用いたViterbiアルゴリズムによるマッチングについては、非特許文献1に詳細な記述がある)。
なお、単語認識の場合、言語モデルは単なる認識対象単語の集合である。
まず、当該音声認識装置に入力音が与えられると、音声検出の状態SをS=音声前とし、PsとPeを所定のレベルに設定する(ステップS200)。
音声入力部101において入力音をA/D変換によってデジタル信号(入力信号)に変換し(ステップS201)、音響特徴生成部102において入力信号からフレーム単位で音響特徴量(ここでは、特徴ベクトルおよび入力信号のパワー)を計算する(ステップS202)。
音声検出部103においては、音響特徴生成部102で生成された入力信号のパワーを監視し、パワーが所定のレベルPs以上になれば音声開始(始端フレーム)と判断し(ステップS203)、S=音声中、かつ、所定のレベルPe以下になれば、音声終了(終端フレーム)と判断する(ステップS204−1〜S204−3)。
音声開始を検出すると、S=音声中、Ps=∞とし(これにより、以降、ステップS203ではすべてNoになる)、音声の始端フレームをT=1とし、終端フレームをTe=∞とするとともに、併せて後述する尤度計算の初期化を行う(ステップS205)。なお、実際には、上記の∞には、当該音声認識装置が表現可能な最大の若しくは十分大きい(符号付きの)数を用いればよい(後で用いる−∞についても、同様で、当該音声認識装置が表現可能な最小の若しくは十分小さい(符号付きの)数を用いればよい)。
続いて、ステップS206〜S211の一連の処理(特徴ベクトルと音響モデルとのマッチング)が、終端フレームが検出されるまで(ステップS211でYesとなるまで)、ステップS208でTを1増加しながら、繰り返し行われる。
ここでは、単語HMMを用いたViterbiアルゴリズムによるマッチングを具体例にとって説明する。
この繰り返し処理では、まず、照合部105において、マッチングを開始する前に、各値を初期化する。
具体例としては、初期化を次のように行う。
T=1のとき、尤度計算に先立って、認識対象語彙の各単語Wについて、
単語Wの初期状態S0について、
L(W,S0,0)=0
とし、また、S≠S0,T≠0である状態、時刻を持つ全ての(W,S,T)について、
L(W,S,T)=−∞
B(W,S0,T)=φ
とする。
T=1のとき、尤度計算に先立って、認識対象語彙の各単語Wについて、
単語Wの初期状態S0について、
L(W,S0,0)=0
とし、また、S≠S0,T≠0である状態、時刻を持つ全ての(W,S,T)について、
L(W,S,T)=−∞
B(W,S0,T)=φ
とする。
ここで、上記のL、Bは、それぞれ、非特許文献1などの一般の文献において、対数尤度、バックポインタと呼ばれている値である。以下では、対数尤度のみを扱うので、対数尤度を単に尤度と呼ぶものとする。
なお、本具体例において、バックポインタを計算、保持する方法を記述しているが、それは、後で説明する第11の実施形態においてバックポインタが必要となることから、説明の便宜上、併せて記述したものであり、本実施形態では、実際には、バックポインタは使用しないので、バックポインタの計算、保持は省いて構わない(第2〜第10の実施形態についても同様である)。
次に、T=1から順にフレームが生成される毎に、そのフレームに対し、各状態遷移に伴う尤度計算を行い(ステップS206)、そのフレームを終端としたときの認識結果候補が存在すれば候補格納部106に格納する(ステップS207)。
具体例としては、尤度計算を次のように行う。
L(W,S,T)=maxs’{L(W,S’,T-1)+log(f(W,S’,S,T))},
B(W,S,T)=(W,S*,T-1),
S*=argmaxs’{L(W,S’,T-1)+log(f(W,S’,S,T))}
とする。ただし、f(W,S’,S,T)は、状態S’から状態Sへ遷移するときの、フレームTの特徴ベクトルに対する出力確率である。また、maxs’とargmaxs’は、単語Wの状態Sに遷移可能な全ての状態S’に関してとるものとする。また、logは自然対数である。
L(W,S,T)=maxs’{L(W,S’,T-1)+log(f(W,S’,S,T))},
B(W,S,T)=(W,S*,T-1),
S*=argmaxs’{L(W,S’,T-1)+log(f(W,S’,S,T))}
とする。ただし、f(W,S’,S,T)は、状態S’から状態Sへ遷移するときの、フレームTの特徴ベクトルに対する出力確率である。また、maxs’とargmaxs’は、単語Wの状態Sに遷移可能な全ての状態S’に関してとるものとする。また、logは自然対数である。
ここで、上記尤度計算の際、Swが単語Wの単語HMMの最終状態であり、フレームTにおいてL(W,Sw,T)の値が初期値(−∞)でなければ、(W,T,L(W,Sw,T),B(W,Sw,T))の組を認識結果候補として候補格納部106に格納する(ステップS207)。
さて、ここで、本実施形態と従来法との違いを明確にするため、従来法での認識結果の求め方を示す。従来法では、上記の尤度計算をT=1から各フレームについて繰り返し、音声検出部103において終端フレームTeを検出すると、次式によって与えられる単語W*を認識結果として出力し、入力音声に対する認識が終了する。
W*=argmaxw L(W,Sw,Te)、Swは単語Wの最終状態
ただし、argmaxwは、認識対象単語W全てに関するargmaxである。
W*=argmaxw L(W,Sw,Te)、Swは単語Wの最終状態
ただし、argmaxwは、認識対象単語W全てに関するargmaxである。
これに対して本実施形態では、従来法と同様に尤度計算を繰り返すが、終端フレーム検出後の処理が異なっている点が従来法とは本質的に異なっている。
すなわち、本実施形態では、入力信号のパワーが所定のレベルPe以下となり終端を検出すると(ステップS204−1〜S204−3)、まず、Pe=∞、終端フレームTeをTe=T、S=音声後とする(ステップS209)。次に、計算区間決定部107において、その終端フレームTe=Tを含む認識結果計算区間[Ta,Tb]を計算する(ステップS210)。ここで、Taは認識結果計算区間における最初のフレームであり、Tbは最終のフレームである。
例えば、予め定められた整数T1、T2(T1≧0且つT2≧0。ただしT1=T2=0ではない。)によって、認識結果計算区間[Ta,Tb]を、Ta=Te−T1、Tb=Te+T2と計算する。ただし、Te−T1≦0の場合はTa=1とする。
続いて、計算区間決定部107は、算出された認識結果計算区間[Ta,Tb]の最終フレームTbまで(すなわち、ステップS211がNoの間)、上記の尤度計算のための一連の処理(ステップS206〜S211)を継続し、尤度計算が最終フレームTbまで完了すると(すなわち、ステップS211がYesになると)、認識結果計算部108では、候補格納部106に格納されている、認識結果計算区間[Ta,Tb]に含まれる各フレームを終端としたときの認識結果候補をもとにして認識結果を算出する(ステップS212)。
ここで、認識結果の算出方法の一例を示す。なお、認識結果の算出方法はこれに限定されるものではなく、様々な方法がある。
図5及び図6に、認識結果の算出方法の一例を表すフローチャートを示す。
まず、認識結果計算区間[Ta、Tb]の各フレームTにおいて、そのフレームTを終端フレームとする認識結果候補C=(W,T,L(W,Sw,T),B(W,Sw,T))のうちで、L(W,SW,T)が最大である認識結果候補(1位候補)を、候補格納部106から抽出する(ステップS301〜S305)。このように、各フレームから抽出された認識結果候補の集合{CT}(T=Ta,Ta+1,…,Tb)を認識結果候補群と呼ぶものとする。なお、認識結果候補が全く存在しないフレームがあれば、そのフレームは認識計算区間から除外し、認識結果候補が存在するフレームについて1位候補を求める。
次に、上記の認識結果候補群中の各認識結果候補が保持する単語について、相異なる単語をW1,W2,…,WNとし、各単語の認識結果候補群中の出現頻度(単語Wkを持つ認識結果候補の個数)をnk,k=1,2,…,Nとする(ステップS306)。また、認識結果候補の総数をn(=n1+n2+…+nN)とする(ステップS307)。ここで、特に、終端フレームTeにおける1位候補CTeが保持する単語をWeとし(ステップS308)、認識結果を次のように決定する。
(1)N=1の場合(ステップS309でNoとなる場合)は、認識結果候補群に1種類の単語Weしか存在しないので、Weを認識結果とする(ステップS312)。
(2)N>1であり、nm/n≧R1(ここで、R1は予め与えられたR1≦1を満たす定数である。)となる単語Wmが存在する場合(ステップS310でNoとなる場合)には、その中でnm/nが最大のもの、つまり最も出現頻度の高い候補を認識結果とする。なお、R1=0と設定した場合、これは出現頻度のみによって認識結果を決定することを意味する。
(3)上記1、2を満たさず、かつ、nk/n≧R2(ただし、R2は、予め定められた、0<R2<1、かつR2≦R1である定数である。なお、R2=R1の場合には、単に(3)の場合が不要になるだけである。)となる単語Wkが1個以上存在する場合(ステップS311でNoとなる場合)は、条件nk/n≧R2を満たす各単語Wkについて、単語スコアが最大のものを選択する(ステップS314)。
上記の単語スコアは、各単語の認識結果の優劣を定めるものであれば、いかなる値でもよいが、ここでは、最大平均尤度(MAL)と呼ぶ値を採用し、MALが最大となる単語を認識結果とする。
ここで、単語Wkの最大平均尤度MALは、
単語WkのMAL=maxcl(C)
l(C)=L(Wk,Swk,T)/T
C=(Wk,T,L(Wk,Swk,T),B(Wk,Swk,T))
と定義する。ただし、maxcは、単語Wkを保持する(がTの異なる)、認識結果候補群の全ての候補Cについての最大値である。
単語WkのMAL=maxcl(C)
l(C)=L(Wk,Swk,T)/T
C=(Wk,T,L(Wk,Swk,T),B(Wk,Swk,T))
と定義する。ただし、maxcは、単語Wkを保持する(がTの異なる)、認識結果候補群の全ての候補Cについての最大値である。
なお、l(C)を候補Cのフレーム平均尤度と呼び、上記MALはl(C)の最大値であるので、特にフレーム平均尤度に基づく最大平均尤度という。
(4)上記の(1)〜(3)以外の場合(ステップS311でYesとなる場合)は、単語W1,W2,…,WNのうちから、そのMALが最大のものを認識結果とする(ステップS315)。
なお、上記(2)の場合は、R1を例えば0.9〜0.8などの大きい値にしておけば、認識結果は揺らいでいるが、単語Wmが終端付近で頻繁に1位候補になっていることを意味するので、この場合にはWmを認識結果とする。なお、この場合、Wm=Weとは限らない。上記(3)の場合は、R2を例えば0.2〜0.3の値にすることにより、ある程度出現する候補の中から、それらのMALによって認識結果を決定する。上記(4)の場合には、認識結果の揺らぎが激しくどの候補も信頼性が低いとみなし、認識結果候補群内の出現頻度によらず、MALが最も高い候補を認識結果とする。上記(1)の場合は、認識結果が揺らいでいないので、特に何もする必要がない。
上記の認識結果計算部108では、必ずなんらかの認識結果を出力することを前提としているが、例えば、上記(4)の場合のように、どの候補の出現頻度も低く、認識結果の揺らぎが激しい場合には、認識結果としてはどの候補も選ばず、リジェクト(認識結果なし)としてもよい。
上記の認識結果計算部108では、必ずなんらかの認識結果を出力することを前提としているが、例えば、上記(4)の場合のように、どの候補の出現頻度も低く、認識結果の揺らぎが激しい場合には、認識結果としてはどの候補も選ばず、リジェクト(認識結果なし)としてもよい。
上記の計算方法では、認識結果候補群を認識結果計算区間の各フレームにおける1位候補の集合としたが、その代わりに、認識結果計算区間の各フレームにおいて、尤度の大きい上位X個(Xは、X≧1の整数であり、フレーム毎に異なる値であってもよい。)の候補の集合を認識結果候補群としてもよい。この場合、認識結果計算の手順上は、単に認識結果候補群内の候補単語が増えるだけであり、同じ計算手順によって認識結果を算出することが可能である。
このように、第1の実施形態に係る音声認識装置によれば、単純に終端フレームにおける1位候補を認識結果とするのではなく、終端フレームの前後のある幅を持ったフレーム区間における候補を利用し、認識結果の揺らぎを考慮して出力すべき認識結果を計算することにより、音声認識結果の揺らぎによる誤認識を軽減し、認識率を向上することが可能となる。
(第2の実施形態)
本発明の第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第2の実施形態について、第1の実施形態と相違する点を中心に説明する。
本実施形態は、認識結果計算部108における認識結果算出方法の他の例を示すものである。本実施形態において、認識結果計算部108以外の構成・動作は第1の実施形態と同様である。
第1の実施形態では認識結果の揺らぎがあるかないかを、認識結果候補群に含まれる各単語の個数、つまりその単語が1位候補となった頻度に基づいて判断したが、本実施形態では、認識結果の揺らぎの有無によらず一定の規則に従って計算するものである。
以下に、その一例を示す。
(i)まず、第1の実施形態と同じ方法により認識結果候補群を作成する。
(ii)次に、認識結果候補群から互いに異なる単語を抽出し、各単語のMALを計算する。
(iii)最後に、MALの最も高い単語を認識結果とする。
(i)まず、第1の実施形態と同じ方法により認識結果候補群を作成する。
(ii)次に、認識結果候補群から互いに異なる単語を抽出し、各単語のMALを計算する。
(iii)最後に、MALの最も高い単語を認識結果とする。
この方法は、第1の実施形態の認識結果計算部108において、無条件に(4)の場合を適用しているのと同じである。一見すると、これでは認識結果の揺らぎが考慮されていないように見える。しかし、認識結果が揺らいでいない場合には、認識結果候補群のどの候補も同一の単語を保持するため、認識結果は終端フレームの1位候補に帰着する。また、認識結果の揺らぎが少ない場合、つまり、ある1個の単語が終端フレーム付近において頻繁に1位候補となる場合には、出現頻度が高い分、あるフレームにおけるMALが最大とならなくても、他のフレームにおいて最大になるチャンスがあるため、認識結果となる可能性が高くなる。その意味で、本例は間接的に認識結果の揺らぎ(揺らぎの少なさ)を考慮した認識結果計算となっている。
(第3の実施形態)
本発明の第3の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第3の実施形態について、第1の実施形態と相違する点を中心に説明する。
第1、第2の実施形態においては、認識結果を計算する際の単語スコアとして、MALを採用したが、単語スコアはこれに限定されるものではない。本実施形態では、単語スコアとして、順位重み付き平均尤度(RWAL)を用いる場合について示す。
認識結果候補群には、認識結果計算区間の各フレームにおいて、尤度の大きい上位X個(ただし、XはX≧1である予め定められた整数)の認識結果候補を登録する。ただし、各認識結果候補Cは、フレームTにおける認識結果候補内での対数尤度による順位R(1≦R≦X)との対D=(R,C)=(R,W,T,L(W,Sw,T),B(W,Sw,T))として登録する。なお、この対Dのことも単に認識結果候補と呼ぶ。また、候補数がX個に満たないフレームにおいては、存在する認識結果候補だけでよい。
ここで、単語のRWALを、順位Rに依存する順位重みαR(R=1〜X)を用いて、次のように定義する。
単語WのRWAL=ΣD(W) αRl(D)
l(D)=L(W,Sw,T)/T
D=(R,W,T,L(W,Sw,T),B(W,Sw,T))
ただし、ΣD(W)は、認識結果候補群に登録された対Dのうち、単語Wを保持するものの和を表し、R、T、L(W,Sw,T)は、それぞれ対Dの保持する順位、フレーム、対数尤度である。また、αRは予め定められた定数であり、α1≧α2≧…≧αXを満たすものである。なお、l(D)を候補Dの平均尤度と呼ぶ。
単語WのRWAL=ΣD(W) αRl(D)
l(D)=L(W,Sw,T)/T
D=(R,W,T,L(W,Sw,T),B(W,Sw,T))
ただし、ΣD(W)は、認識結果候補群に登録された対Dのうち、単語Wを保持するものの和を表し、R、T、L(W,Sw,T)は、それぞれ対Dの保持する順位、フレーム、対数尤度である。また、αRは予め定められた定数であり、α1≧α2≧…≧αXを満たすものである。なお、l(D)を候補Dの平均尤度と呼ぶ。
MALは、一回だけ認識結果候補群内に出現した単語も、複数回出現した単語も、尤度の時間平均の最大値で評価されるため、1回しか出現しない単語が認識結果となる場合もある。しかし、RWALは認識結果候補群での出現回数が多いものほど値が大きくなり、また、各フレームにおける順位が高いものほど値が大きくなる。そのため、上位に頻繁に出現する単語と下位に稀にしか出現しない単語とでは、RWALの差が大きくなる。したがって、RWALは出現頻度と順位を考慮に入れた単語スコアとなっている。
(第4の実施形態)
本発明の第4の実施形態について、第3の実施形態と相違する点を中心に説明する。
本発明の第4の実施形態について、第3の実施形態と相違する点を中心に説明する。
本実施形態では、順位重みαRの他の例を示す。
認識結果計算区間内のあるフレームTにおける認識結果候補をC1、C2、…、CXとするとき、順位重みαRを、
αR=l(CR)/ΣR l(CR)
で定義する。ただし、l(CR)は候補CRのフレーム平均尤度であり、ΣRはR=1〜Xの和をとることを表す。
αR=l(CR)/ΣR l(CR)
で定義する。ただし、l(CR)は候補CRのフレーム平均尤度であり、ΣRはR=1〜Xの和をとることを表す。
このような順位重みを用いると、重みがフレーム平均尤度に比例するので、例えば、1位候補C1の尤度が残りの認識結果候補よりも突出して大きければ、1位候補の重みα1が他の認識結果候補の重みα2〜αXよりも突出して大きくなる。逆に、どの認識結果候補の尤度もほぼ等しければ、重みα1〜αXもほぼ等しくなる。順位重みが定数の場合と比べると、本例は各候補間の尤度差を考慮することが可能な単語スコアである。
なお、順位重みは以上で例示したものに限定されるものではなく、順位Rに応じた重みであり、α1≧α2≧…のように、順位が下がるに従って単調減少する、もしくは増加はしないような重みであれば、どのように決定されるものであってもよい。
(第5の実施形態)
本発明の第5の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第5の実施形態について、第1の実施形態と相違する点を中心に説明する。
本実施形態では、さらに他の単語スコアとして、フレーム重み付き平均尤度FWALを用いる場合について示す。
FWALでは、重みを次のように計算する。認識結果計算区間中の各フレームTにおいて、フレームTに依存する重みβT(フレーム重み)を用いて、次のように定義する。
単語WのFWAL=ΣC(W) βTl(C)
βT=1−|T−Te|/(1+max(T1,T2))
ただし、ΣC(W)は、認識結果候補群に登録された認識結果候補のうち、単語Wを保持するものの和を表し、l(C)は、単語Wを保持する認識結果候補Cのフレーム平均尤度であり、Teは終端フレームである。
単語WのFWAL=ΣC(W) βTl(C)
βT=1−|T−Te|/(1+max(T1,T2))
ただし、ΣC(W)は、認識結果候補群に登録された認識結果候補のうち、単語Wを保持するものの和を表し、l(C)は、単語Wを保持する認識結果候補Cのフレーム平均尤度であり、Teは終端フレームである。
上記のフレーム重みは、終端フレームに近い認識結果のスコアほど重視する、フレーム位置を考慮した単語スコアである。
(第6の実施形態)
本発明の第6の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第6の実施形態について、第1の実施形態と相違する点を中心に説明する。
本実施形態では、フレーム重みの他の例を示す。
認識結果計算区間内のあるフレームTにおける認識結果候補をC1、C2、…、CXとするとき、まず、フレームTにおける候補平均尤度lTを次のように定義する。
lT=ΣR l(CR)/XT
ただし、l(CR)は認識結果候補CRのフレーム平均尤度(R=1、2、…、XT)であり、ΣRはR=1〜XTの和をとることを表す。また、XTはフレームTに存在する候補数か予め定められた定数Xのうちの、大きくないほうの値である。なお、XT=0の場合は、そのフレームは認識結果計算区間から除外する。
lT=ΣR l(CR)/XT
ただし、l(CR)は認識結果候補CRのフレーム平均尤度(R=1、2、…、XT)であり、ΣRはR=1〜XTの和をとることを表す。また、XTはフレームTに存在する候補数か予め定められた定数Xのうちの、大きくないほうの値である。なお、XT=0の場合は、そのフレームは認識結果計算区間から除外する。
候補平均尤度lTを用いてフレーム重みβTを次のように定義する。
βT=lT/ΣT lT
ただし、ΣTは認識結果計算区間の全てのフレームについての和を表す。
βT=lT/ΣT lT
ただし、ΣTは認識結果計算区間の全てのフレームについての和を表す。
本例のフレーム重みは、そのフレームにおいて抽出された認識結果候補の平均尤度の平均値であり、フレームの位置ではなく、そのフレームの認識結果候補のスコアを重視した単語スコアである。
(第7の実施形態)
本発明の第7の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第7の実施形態について、第1の実施形態と相違する点を中心に説明する。
本実施形態は、フレーム重みの他の例として、終端確信度によるフレーム重みを用いる場合について示す。
終端確信度は、各フレームがどの程度終端フレームとして確信できるかを示す値であればどのようなものであってもよいが、ここでは、次のような例を示す。
本実施形態においては、モデル格納部104には、音素HMMのほかに、人間の音声全体をモデル化した音声HMMと雑音・非音声をモデル化した雑音HMMを格納している。ただし、本実施形態において、音声HMM、雑音HMMは、1状態のHMMとする。第1の実施形態の記法に従えば、Mを音声または雑音HMM、SをそのHMMの状態とするとf(M,S,S,T)のみである。以下では、f(M,T)=logf(M,S,S,T)と省略する。
フレームTの終端確信度ETを、シグモイド関数sigmoid(x)の微分sigmoid’(x)を用いて、次のように定義する。
ET=sigmoid’(f(音声HMM,T)−f(雑音HMM,T))
sigmoid’(x)=A・sigmoid(x)・(1−sigmoid(x))
sigmoid(x)=1/(1+exp(Ax+B))
ただし、A,Bは実験的に求められたパラメータである。
ET=sigmoid’(f(音声HMM,T)−f(雑音HMM,T))
sigmoid’(x)=A・sigmoid(x)・(1−sigmoid(x))
sigmoid(x)=1/(1+exp(Ax+B))
ただし、A,Bは実験的に求められたパラメータである。
このETを用いて、フレームTのフレーム重みβTをβT=ETとする。あるフレームが音声であれば、f(音声HMM,T)とf(雑音HMM,T)の差は大きくなる。音声終端付近では音声が次第に弱くなり、雑音の特徴が次第に強く現れるのでf(雑音HMM,T)とf(音声HMM,T)の値の差が小さくなる。そして、音声が終了し、雑音のフレームにおいて再びf(雑音HMM,T)とf(音声HMM,T)の差は大きくなる。ここで、音声がシグモイド関数はx=−B/Aに関して対称なグラフであり、かつ、x=−B/Aにおいて最大値をとるので、学習データから音声終端におけるf(音声HMM,T)−f(雑音HMM,T)の平均値を求め、−B/Aがその平均値になるようにA,Bを設定しておけば、終端付近においてETが大きくなり、逆に音声、雑音の場合には値が小さくなる。
以上のように、本例のフレーム重みは、そのフレームの終端として確信度が高いか否かを反映した重みとなっており、ひいては、このフレーム重みを用いたFWALは、終端として確信度の高いフレームの認識結果候補ほど重きをおいた単語スコアとなる。
なお、フレーム重みは以上で例示したものに限定されるものではなく、フレームTに応じて決定される値であれば、どのように決定されるものであってもよい。
(第8の実施形態)
本発明の第8の実施形態について、第1の実施形態と相違する点を中心に説明する。
本発明の第8の実施形態について、第1の実施形態と相違する点を中心に説明する。
単語スコアの例として、第3の実施形態では順位重み付き平均尤度(RWAL)を用いた場合を示し、第5の実施形態ではフレーム重み付き平均尤度FWALを用いた場合を示したが、本実施形態では、それらRWALとFWALを併用する場合について示す。なお、それらRWALとFWALを併用した平均尤度を、順位フレーム重み付き平均尤度(RFWAL)と呼ぶ。
RFWALは、次にように定義される。
単語WのRFWAL=ΣD(W) αR・βT・l(D)
ただし、ΣD(W)は、認識結果候補群に登録された認識結果候補のうち、単語Wを保持するものの和を表し、αRは順位重み、βTはフレーム重み、l(D)は候補Dのフレーム平均尤度であり、認識結果候補D=(R,W,T,L(W,Sw,T),B(W,Sw,T))である。
RFWALは、次にように定義される。
単語WのRFWAL=ΣD(W) αR・βT・l(D)
ただし、ΣD(W)は、認識結果候補群に登録された認識結果候補のうち、単語Wを保持するものの和を表し、αRは順位重み、βTはフレーム重み、l(D)は候補Dのフレーム平均尤度であり、認識結果候補D=(R,W,T,L(W,Sw,T),B(W,Sw,T))である。
(第9の実施形態)
本発明の第9の実施形態について、第1〜8の実施形態と相違する点を中心に説明する。
本発明の第9の実施形態について、第1〜8の実施形態と相違する点を中心に説明する。
第1〜8の実施形態では、MAL、RWAL、FWAL、RFWALは全て、認識結果候補のフレーム平均尤度に基づいて定義したが、本実施形態では、フレーム平均尤度以外の値に基づくMAL、RWAL、FWAL、RFWALを用いる場合について示す。
本実施形態では、認識対象語彙として雑音も1個の単語として登録してあるものとする。この雑音モデルは、雑音を表現する1個の音素HMM(雑音HMM)からなる単語HMMである。したがって、尤度計算は他の単語と同じように実行できる。
ここで、認識結果候補D=(R,W,T,L(W,Sw,T),B(W,Sw,T))に対し、その信頼度S(D)を
S(D)=L(W,Sw,T)−L(NZ,SNZ,T)
と定義する。ただし、NZは雑音であり、SNZは雑音モデルの最終状態である。
S(D)=L(W,Sw,T)−L(NZ,SNZ,T)
と定義する。ただし、NZは雑音であり、SNZは雑音モデルの最終状態である。
単語Wの、信頼度に基づくMAL、RWAL、FWAL、RFWALを以下のように定義する。
MAL=maxD(w)・S(D)
RWAL=ΣD(w) αR・S(D)
FWAL=ΣD(w) βT・S(D)
RFWAL=ΣD(w) αR・βT・S(D)
また、S(D)の代わりにフレーム平均信頼度AS(D)=S(D)/Tを用いてもよい。
MAL=maxD(w)・S(D)
RWAL=ΣD(w) αR・S(D)
FWAL=ΣD(w) βT・S(D)
RFWAL=ΣD(w) αR・βT・S(D)
また、S(D)の代わりにフレーム平均信頼度AS(D)=S(D)/Tを用いてもよい。
なお、フレーム平均尤度l(D)を用いた場合と区別する場合、特にS(D)に基づくMALを最大信頼度、RWALを順位重み付き信頼度、FWALをフレーム重み付き信頼度、RFWALを順位フレーム重み付き信頼度と呼ぶ。また、AS(D)に基づく場合、MALを最大平均信頼度、RWALを順位重み付き平均信頼度、FWALをフレーム重み付き平均信頼度、RFWALを順位フレーム重み付き平均信頼度と呼ぶ。
なお、認識結果計算部108における単語スコアは、MAL、RWAL、FWAL、RFWALに限定されるものではない。認識結果計算区間から認識結果候補群として選出された候補の中から、認識結果として信頼性の高い1個を選出することができれば、具体的な計算式はどのようなものであっても構わない。
(第10の実施形態)
本発明の第10の実施形態について、これまでの実施形態と相違する点を中心に説明する。
本発明の第10の実施形態について、これまでの実施形態と相違する点を中心に説明する。
これまでの実施形態では、始端フレームと終端フレームとをそれぞれ検出したが、終端フレームを確定することが重要であり、始端フレームは必ずしも確定しなくても構わない。そこで、本実施形態では、終端フレームのみを検出するようにしたものである。
本実施形態の音声認識装置の構成例は、基本的には、図1と同じであるが、音声検出部103は、終端フレームのみを検出し、照合部105は、音響特徴生成部102によって生成された特徴ベクトルの時系列について、音声の始端フレームからではなく、(該時系列における)最初のフレームから順に、モデル格納部104に格納された音響モデル、言語モデルとのマッチングを行い、各認識対象文の尤度を計算する。
図7に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。
本実施形態においては、単語モデルとして、雑音HMMと単語HMMを結合したモデルを使用する。これを雑音付き単語モデルと呼ぶ。図8に、雑音HMM、音素HMMとも、全て3状態HMMである、単語「青」を例とした雑音付き単語モデルを示す。また、雑音も認識対象語彙として登録する。ただし、雑音は雑音HMM1個からなる単語HMM(雑音モデル)である。
まず、入力音声を取り込む前に、T=1とし、Te=∞とするとともに、尤度計算に必要な初期化を行っておく。
初期化後、音声の取り込みを開始し、音声入力部101において入力音を逐次取り込み、入力音をデジタル信号に変換し(ステップS601)、音響特徴生成部102では、入力信号からフレーム単位で音響特徴量(ここでは、特徴ベクトルおよび入力信号のパワー)を計算する(ステップS602)。
音声検出部103においては、終端フレームかどうか判断する(ステップS603)。ここでは、音声検出部103は、音響特徴生成部102において計算された入力信号のパワーを監視し、パワーが所定のレベルPs以上となるフレームが、所定の長さZフレーム以上連続し、かつ、その後に、再びパワーが所定のレベルPe以下になったフレームを終端フレームとする。
続いて、ステップS604〜S609の一連の処理(特徴ベクトルと音響モデルとのマッチング)が、ステップS606でTを1増加しながら、終端フレームが検出されるまで(ステップS603でYesとなるまで)、繰り返し行われる。
照合部105では、現在のフレームの特徴ベクトルに対し、雑音付き単語モデルおよび雑音モデルとの尤度計算を行う(ステップS604)。
候補格納部106には、認識結果候補として、(W,T,L(W,Sw,T)−L(NZ,SNZ,T),B(W,SW,T))の組を登録する(ステップS605)。これは、認識結果候補は、尤度の代わりに第9の実施形態で示した信頼度を保持していることになる。
なお、ここでは単語モデルとして雑音付き単語モデルを用いているので、始端フレームを検出せずに、音声開始より前のフレーム(雑音区間)を含む特徴ベクトルの時系列とのマッチングを行っても、正しいマッチングが可能である。
さて、音声検出部103が終端を検出すると(ステップS603でYes)、まず、終端フレームTeをTe=Tとし(ステップS607)、計算区間決定部107では、第1の実施形態と同様にして認識結果計算区間[Ta,Tb]を算出する(ステップS608)。
なお、終端が検出された以降は、ステップS603ではすべてNoに進むものとする。
続いて、計算区間決定部107は、算出された認識結果計算区間[Ta,Tb]の最終フレームTbまで(すなわち、ステップS609がNoの間)、上記の尤度計算のための一連の処理(S604〜S609)を継続し、尤度計算が最終フレームTbまで完了すると(すなわち、ステップS609がYesになると)、認識結果計算部108では、候補格納部106に格納されている、認識結果計算区間[Ta,Tb]に含まれる各フレームを終端としたときの認識結果候補をもとにして認識結果を算出する(ステップS610)。
なお、計算区間決定部107および認識結果計算部108の動作は第1の実施形態と同じである。ただし、認識結果計算部108で使用する最大平均尤度MALは、各認識結果候補が尤度の代わりに、第9の実施形態において定義した信頼度L(W,Sw,T)−L(NZ,SNZ,T)を保持しているため、認識結果候補のフレーム平均尤度ではなく、第9の実施形態において定義したフレーム平均信頼度(L(W,Sw,T)−L(NZ,SNZ,T))/Tに基づくMALとなる。
この例から分かるように、照合部105におけるマッチング方式によっては、音声検出部103では始端フレームを必ずしも検出する必要はなく、終端フレームのみを検出できればよい。
なお、上記では第9の実施形態において終端フレームのみ検出する場合を例にとって説明したが、第1〜8の実施形態において終端フレームのみ検出する構成も可能である。
(第11の実施形態)
本発明の第11の実施形態について、これまでの実施形態と相違する点を中心に説明する。
本発明の第11の実施形態について、これまでの実施形態と相違する点を中心に説明する。
本実施形態は、計算区間決定部107において、認識結果候補の音素のセグメンテーション結果を用いて認識結果計算区間を決定する方法について示す。
認識結果候補の音素のセグメンテーション結果とは、ある認識結果候補が保持する単語の音素列を/A/B/C/とするとき、各音素A、B、Cとどのフレーム区間がマッチしたかの結果である。
図9に、本実施形態の音声認識装置の動作例を表すフローチャートを示す。
音声検出部103において、終端フレームTeが検出されると、フレームTeにおける認識結果候補を候補格納部106から尤度によって上位X個を選出し、それらをDR=(R,WR,Te,L(WR,SWR,Te),B(WR,SWR,Te))、R=1,2,…,Xとする(ステップS801)。ただし、Xは、予め与えられた所定の個数と終端フレームTeにおける全認識結果候補のうち、大きくないほうの値とする。ここで、第1の実施形態において示したように、B(WR,SWR,Te)は、時刻Teにおいて状態SWRに遷移する状態のうち尤度最大が最大となる状態をS*としたとき、B(WR,SWR,Te)=(WR,S*,Te−1)である。
各認識結果候補について、まず、それが保持する単語の語尾音素の音素HMMの出力状態数をsとする。
次に、(WR,SWR,Te)にBを繰り返しn回施したものを
Bn(WR,SWR,Te)=B(B(…B(B(WR,SWR,Te)))
と表すとき、
Bn(WR,SWR,Te)=(WR,Ss WR,Te−n)、かつ、
Bn+1(WR,SWR,Te)=(WR,Ss+1 WR,Te−n−1)
となるとき、単語HMMの最終状態SWRからs個(最終状態は含まない)前の状態Ss WRに遷移したフレームTRをTR=Te−nと定義し、これを求める(ステップS802)。なお、この記法ではS0 WR=SWRである。
Bn(WR,SWR,Te)=B(B(…B(B(WR,SWR,Te)))
と表すとき、
Bn(WR,SWR,Te)=(WR,Ss WR,Te−n)、かつ、
Bn+1(WR,SWR,Te)=(WR,Ss+1 WR,Te−n−1)
となるとき、単語HMMの最終状態SWRからs個(最終状態は含まない)前の状態Ss WRに遷移したフレームTRをTR=Te−nと定義し、これを求める(ステップS802)。なお、この記法ではS0 WR=SWRである。
上記のように求めたフレームTR、R=1,2,…,Xのうち、最小のものをTrとし、さらにd=p(Te−Tr)に最も近い正の整数とし、認識結果計算区間を[Te−d,Te+d]と決定する(ステップS803)。ただし、pは予め定められた0<p<1の定数である。
このように、sとして語尾音素の音韻HMMの出力状態数を取ると、認識結果計算区間が動的に計算でき、しかも、その区間を、語尾1音素程度という、音素を根拠とする区間に限定できるという利点がある。
なお、以上の各実施形態では、照合部105における単語HMM、Viterbiアルゴリズムを用いたマッチングに基づいた例を示したが、これに限定されるものではない。認識結果計算区間について、フレーム単位で認識結果候補が得られ、単語スコアのように、認識結果候補の優劣を定めるなんらかの評価尺度が定義できるような方法であれば、どのような方法でもよい(例えば、ニューラルネットワークを用いた方法でもよい)。
また、本音声認識装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声入力部101、音響特徴生成部102、音声検出部103、モデル格納部104、照合部105、候補格納部106、計算区間決定部107、認識結果計算部108は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声認識装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記各部は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
101…音声入力部、102…音響特徴生成部、103…音声検出部、104…モデル格納部、105…照合部、106…候補格納部、107…計算区間決定部、108…認識結果計算部
Claims (15)
- 入力音声から入力信号を生成する手段と、
前記入力信号から、少なくとも音声の終端フレームを検出する検出手段と、
前記入力信号から、マッチングに供するための音響特徴量を生成する生成手段と、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定する範囲決定手段と、
予め用意された音響モデル及び言語モデルを利用して、前記音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるマッチング手段と、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求める処理手段とを備えたことを特徴とする音声認識装置。 - 前記検出手段は、音声の終端フレームに加えて音声の始端フレームをも検出するものであり、
前記マッチング手段は、前記音響特徴量の時系列に対するマッチングを、該時系列のうち前記始端フレームに係る部分から順に行うものであることを特徴とする請求項1に記載の音声認識装置。 - 前記検出手段は、音声の終端フレームのみを検出するものであり、
前記マッチング手段は、前記音響特徴量の時系列に対する前記マッチングを、該時系列の最初の部分から行うものであることを特徴とする請求項1に記載の音声認識装置。 - 前記マッチング手段は、前記音響特徴量の時系列に対する前記マッチングを、該時系列のうち前記処理対象範囲の最終のフレームに係る部分まで行うことを特徴とする請求項1ないし3のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、該出現頻度に基づいて選択した単語又は文を、前記認識結果とすることを特徴とする請求項1ないし4のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合をもとに算出される単語又は文のスコアを求め、単語又は文のスコアに基づいて選択した単語を、前記認識結果とすることを特徴とする請求項1ないし4のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、出現頻度が基準値以上の単語又は文の中から、出現頻度が最も高いものを認識結果とし、また、抽出した全ての単語又は文について、求められた出現頻度が基準値より低い場合には、抽出した各単語又は文について、前記認識結果候補の集合をもとに算出される単語又は文のスコアを求め、単語又は文のスコアに基づいて選択した単語又は文を、前記認識結果とすることを特徴とする請求項1ないし4のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記処理対象範囲に含まれるフレームを終端としたときの前記認識結果候補に係る単語又は文について、相異なる単語又は文を抽出し、抽出した各単語又は文について、前記認識結果候補の集合における当該単語又は文を含む認識結果候補の出現頻度を求め、求められた出現頻度が基準値より低い場合には、リジェクト(認識結果なし)とすることを特徴とする請求項1ないし4のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記単語又は文のスコアとして、最大平均尤度若しくは順位重み付き平均尤度、最大信頼度若しくは順位重み付き信頼度、又は最大平均信頼度若しくは順位重み付き平均信頼度を用いることを特徴とする請求項6ないし8のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記単語又は文のスコアとして、フレーム重み付き平均尤度若しくは順位フレーム重み付き平均尤度、フレーム重み付き信頼度若しくは順位フレーム重み付き信頼度、又はフレーム重み付き平均信頼度若しくは順位フレーム重み付き平均信頼度を用いることを特徴とする請求項6ないし8のいずれか1項に記載の音声認識装置。
- 前記処理手段は、前記単語又は文のスコアを算出するにあたって用いる重みとして、終端確信度から計算された重みを用いることを特徴とする請求項10に記載の音声認識装置。
- 前記範囲決定手段は、前記処理対象範囲を決定するにあたって、検出された前記終端フレームより予め定められたフレーム幅だけ前のフレームを該処理対象範囲の最初のフレームと決定し、検出された前記終端フレームより予め定められたフレーム幅だけ後のフレームを該処理対象範囲の最終のフレームと決定することを特徴とする請求項1ないし11のいずれか1項に記載の音声認識装置。
- 前記範囲決定手段は、前記処理対象範囲を決定するにあたって、検出された前記終端フレームにおける1個以上の前記認識結果候補について、それらのセグメンテーション結果を求め、求めたセグメンテーション結果に基づいて前記処理対象範囲を決定することを特徴とする請求項1ないし11のいずれか1項に記載の音声認識装置。
- 入力音声から入力信号を生成するステップと、
前記入力信号から、少なくとも音声の終端フレームを検出するステップと、
前記入力信号から、マッチングに供するための音響特徴量を生成するステップと、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定するステップと、
予め用意された音響モデル及び言語モデルを利用して、前記第2の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるステップと、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求めるステップとを有することを特徴とする音声認識方法。 - 音声認識装置としてコンピュータを機能させるためのプログラムであって、
入力音声から入力信号を生成するステップと、
前記入力信号から、少なくとも音声の終端フレームを検出するステップと、
前記入力信号から、マッチングに供するための音響特徴量を生成するステップと、
検出された前記終端フレームをもとに、該終端フレームを包含する複数フレームからなる処理対象範囲を決定するステップと、
予め用意された音響モデル及び言語モデルを利用して、前記第2の音響特徴量の時系列に対するマッチングを行って、各フレームを終端としたときの認識結果候補をそれぞれ求めるステップと、
前記処理対象範囲に含まれる各フレームを終端としたときの前記認識結果候補をもとにして、最終的な認識結果を求めるステップとをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006263039A JP2008083367A (ja) | 2006-09-27 | 2006-09-27 | 音声認識装置、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006263039A JP2008083367A (ja) | 2006-09-27 | 2006-09-27 | 音声認識装置、音声認識方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008083367A true JP2008083367A (ja) | 2008-04-10 |
Family
ID=39354315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006263039A Abandoned JP2008083367A (ja) | 2006-09-27 | 2006-09-27 | 音声認識装置、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008083367A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
-
2006
- 2006-09-27 JP JP2006263039A patent/JP2008083367A/ja not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
CN112530417A (zh) * | 2019-08-29 | 2021-03-19 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN112530417B (zh) * | 2019-08-29 | 2024-01-26 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9292487B1 (en) | Discriminative language model pruning | |
JP5088701B2 (ja) | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6509694B2 (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
JPH11175090A (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
US10199037B1 (en) | Adaptive beam pruning for automatic speech recognition | |
KR20180038707A (ko) | 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법 | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
KR100915638B1 (ko) | 고속 음성 인식 방법 및 시스템 | |
JP2008083367A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP2019078857A (ja) | 音響モデルの学習方法及びコンピュータプログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20100201 |