JP4042176B2 - Speech recognition method - Google Patents
Speech recognition method Download PDFInfo
- Publication number
- JP4042176B2 JP4042176B2 JP05616297A JP5616297A JP4042176B2 JP 4042176 B2 JP4042176 B2 JP 4042176B2 JP 05616297 A JP05616297 A JP 05616297A JP 5616297 A JP5616297 A JP 5616297A JP 4042176 B2 JP4042176 B2 JP 4042176B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- adaptation
- frame
- likelihood
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、音声認識の精度改善と、探索量の削減に関する。
【0002】
【従来の技術】
従来、音声認識の探索量の削減の手法として、ビーム探索が行われている。
日本音響学会 平成元年度春季研究発表会 講演論文集I(平成元年3月)、5〜6頁「DPビームサーチの閾値を入力音声の途中で変更する方法の検討」には、フレーム同期型のDPマッチングにおいて、ビーム探索の閾値を入力音声の途中で変化させることで、探索量を減少させる方法が提案されている。
また、特開平6−282295号公報には、観測可能な特徴量を入力とする制御関数を用いてビーム探索の探索範囲を適応的に変化させることで、探索量を減少させる方法が開示されている。ここで、ビーム探索の閾値の制御関数には、ニューラルネットおよび重回帰分析を用いている。
【0003】
一方、日本音響学会 平成8年度秋季研究発表会 講演論文集I(平成8年9月)、117〜118頁「音声認識のためのN−bestに基づく話者適応化」には、教師なし話者適応化(即時適応化)の方法として、Nベストビタビ認識の結果から推定されたNベストのモデル系列に従って、音韻HMMを連結し、その連結した音韻HMMの入力音声に対する尤度が最大となるように、音韻HMMのパラメータを推定して、認識対象話者に適応化する方法が提案されている。
この方法での適応化は、次のステップからなる。
(1)適応化前の音韻HMMを用いて入力音声のNベスト認識を行い、入力音声に対するN個のモデル系列を求める。
(2)各モデル系列ごとに、音韻HMMのパラメータをその話者に適応化する。
(3)適応化後に、最大尤度を示したモデル系列を選択する。
(4)その適応化された音韻HMMのパラメータを用いて現在のHMMを更新する。
上記、ステップ(2)〜(4)を繰り返す。
従って、上記方法は、入力音声の途中でモデルを変更することができない。
【0004】
図14は従来のビーム探索を用いる音声認識方式の機能ブロック図である。
音声区間切出手段1によって、入力音声1001から切り出された音声区間の各フレームについて、分析手段2による音声分析を行い、特徴パラメータの時系列3を得る。
そして、モデル記憶手段51からパラメータ5aを、また構文情報格納手段4から入力音声に対応するモデルの系列を規定する構文情報をそれぞれ参照し、特徴パラメータの時系列3に対する最適なモデル系列を認識結果1003として、以下のようにして得る。
なお、10は入力音声の第1フレームから途中までのフレームに対応する部分モデル系列の仮説を格納する部分モデル系列格納手段である。
【0005】
最初のフレーム番号を1、最後のフレーム番号をTとする。まず、最初に、部分モデル系列の初期値を部分モデル系列格納手段10に格納する。次に入力音声のフレーム番号iを1とおく。
モデル演算手段7は部分モデル系列格納手段10から部分モデル系列の仮説(Hとする)をとり出す。
つぎに、構文情報格納手段4の構文情報から、部分モデル系列Hに連結可能なモデル(音韻モデルk、複数通りのときもある)を選択し、音韻モデルkに対応するフレーム番号iの特徴パラメータの尤度f(k,i)を計算する。
さらに、音韻モデルkを連結した1フレーム分成長した部分モデル系列の仮説を作成し、ビーム探索用の中間スタック1004に格納する。1フレーム分成長した部分モデル系列の仮説の累積尤度は成長前の種の部分モデル系列の累積尤度に音韻モデルkの尤度を加えたものである。
ビーム探索手段9はフレーム番号iについて、中間スタック1004内の部分モデル系列の仮説の累積尤度を相互に比較し、例えば、累積尤度の最大の仮説の尤度を上限とし、この上限からビーム幅8だけ引いた値を下限として、この範囲の累積尤度を有する部分モデル系列の仮説を部分モデル系列格納手段10に格納する。
【0006】
この場合、中間スタックからの仮説の選び方としては、例えば、累積尤度の大きい方からNb個の部分モデル系列を選ぶこともできる。ただし、Nbはビーム内に残す仮説の数の最大の数を表す。
以上の処理を入力音声の第1フレームから最後のフレームまで行うことによって、部分モデル系列格納手段10には、入力音声の全フレームに対応するモデル系列の仮説がその累積尤度とともに得られる。
その後、後向き探索手段1002は、例えば最適な累積尤度の仮説を選ぶことによって、認識結果1003を得る。
【0007】
【発明が解決しようとする課題】
入力音声の途中でビーム探索の閾値を変更する従来のビーム探索は、探索量を削減することができるが、認識に用いるモデルのパラメータは一定であり、このようなパラメータが一定のモデルで認識を行うため、認識精度の向上は得られない。
また、従来の教師なし適応化は、一定のパラメータのモデルでNベスト認識を行ってN個のモデル系列を求めた後に、認識結果からモデルのパラメータの入力音声への適応化を行う。
このため、精度のより高い認識結果を得るためには、適応化された音響モデルにより、再度の認識処理が必要であるという問題があった。
【0008】
この発明が解決しようとする課題は、ビーム探索を用いる音声認識において、入力音声の途中で音韻モデルおよび音韻境界のモデルを含むモデルを入力音声に適応化することで、認識の精度を向上させることである。
また、入力音声の途中でモデルの適応化を行うとともに、入力音声の途中で得られるモデルの精度改善の結果として、入力音声の途中でビーム探索の幅を絞ることで、探索量を削減することである。
【0009】
【課題を解決するための手段】
この発明に係る音声認識方式は、入力音声を複数のフレームに分割し、当該分割されたフレーム間をモデル間の接続点とするモデルの系列からなるモデル系列に対する入力音声の尤度を探索処理により求め、この尤度に基づき音声認識を行う音声認識方式において、上記探索処理としてビーム探索を用いるものであって、上記入力音声の各フレームで、そのフレームでビーム内に残る上記入力音声の途中までのフレームに対応する部分モデル系列から選択される上記モデルのパラメータを上記入力音声の途中までのフレームに対応する認識結果に基づいて適応化して、上記モデルのパラメータをフレームごとに置き換えるようにしたものである。
【0017】
【発明の実施の形態】
実施の形態1.
この実施形態は、モデルとして混合連続分布の音韻モデルを用いる場合を示す。
図1は、この実施形態における音声認識方式の機能ブロック図である。入力音声信号1001は音声切出手段1により、例えば10msの一定の分析周期で、例えば25.6msの信号区間であるフレームに分割される。
分析手段2は、これをフレームごとに特徴パラメータ3に変換する。フレーム番号tの特徴パラメータをXtと記す。図2はこれ以降の動作を示すフローチャートである。
ステップ21ではモデルの初期化を行う。すなわち適応化前のモデルである初期モデルを初期モデル記憶手段5からモデル記憶手段6にコピーする。また、フレームの番号tを1に設定する。
次に、t=1番から最終のt=T番のフレームについて、フレーム番号tを1づつ増加しながら、フレームごとに以下の処理を行う。
【0018】
構文情報格納手段4に格納された構文情報は、部分モデル系列のあとに接続可能なモデルを決めるための情報であり、状態をあらわすノードと、遷移をあらわす枝とから表わされる。これは例えば図3に示すようなグラフとして表現される。またこの構文情報は、構文情報格納手段4内においては図4に示すような表として格納されている。すなわち、ある部分モデル系列の現在の構文的な状態をあらわす番号から、次に接続可能なモデルと、そのモデルを選択したときに拡張された部分モデル系列の次の状態番号が、表として与えられている。図3に対応するグラフの構文状態の遷移表は図4のようになる。
【0019】
モデル演算手段7は、1フレーム分の入力を行い(ステップ22)、フレームごとに、構文情報に従ったモデルのパラメータを適用し(ステップ23)、入力される特徴パラメータ3の尤度を計算する(ステップ24)。モデルのパラメータは、音韻モデルkについて、M混合のガウス分布の平均、分散、分岐係数μm(k), Σm(k), λm(k) (m=1, 2, ..., M) からなる。
現在の構文状態がpのとき、構文情報から自己ループを含めて後続の遷移可能なすべての枝を検知し、このすべての枝について、その枝のモデルと遷移先の構文状態の組み合わせ<k,q>∈{<k1,q1>,<k2,q2>, ..., <kn,qn>}に対するモデルkの特徴パラメータxtの尤度f(t,k)を、混合分布の各分布の尤度N(xt,μm(k),Σm(k))の加重和として次式で計算する。
【0020】
【数1】
【0021】
ステップ25では、次のようにして、1フレーム前の部分モデル系列を1フレーム分拡張し、新しい部分モデル系列を生成する。種となる一フレーム前の部分モデル系列が S1,S2,...のとき、部分モデル系列を一つ選択し、Sとする。Sは構文状態δ(S)と、累積尤度α(S)と、最終モデルk(S)とを情報として保持している。Sの構文状態がpのとき、つぎの演算を行い、構文状態、選択されるモデルの組み合わせに応じて、新しい部分モデル系列の仮説U1,U2,...を生成する。
例えば、選択されるモデルがkで、次の構文状態がqのとき、これに対応して生成される新しい部分モデル系列をUとすると、Uの構文状態δ(U)はδ(U)=q、Uの累積尤度α(U)はα(U)=α(S)+f(t,k)、Uの最終モデルはk(U)=kである。
【0022】
ビーム探索手段9は、モデル演算手段7で生成された部分モデル系列U1,U2,...について、それらの累積尤度と、制御手段1000より与えられるビーム幅8とで決まる、ビーム幅範囲の中に入らない仮説を破棄することで、ビーム幅の中に入る仮説だけを残し、部分モデル系列として出力し、部分モデル系列格納手段10に格納する(ステップ26)。
ビーム幅8に基づくビーム幅範囲の設定は、U1,U2,...の累積尤度の中の最大値αmaxを上限として、αmaxからビーム幅8を減じた値を下限αminとすることで行う。
枝刈りは、U1,U2,...の中から、その累積尤度α(U1),α(U2),... が、αminからαmaxの間にある仮説を残し、それ以外を破棄することで行う。
【0023】
次に部分モデル系列選択手段11は、適応化手段13における適応化に用いる情報としての部分モデル系列を選択する(ステップ27)。例えば、部分モデル系列格納手段10の中の部分モデル系列で、累積尤度の大きい部分モデル系列から順番に探索し、異なるモデルを選択した部分モデル系列を最大でN個選択する。
【0024】
次に適応化手段13は、部分モデル系列選択手段11が現在のフレームで選択した部分モデル系列U1,U2,...(最大でN個)の、選択されたモデルk ∈ k(U1),k(U2), ... (最大でN個)について、適応化係数12に従って、パラメータの適応化を行う(ステップ28)。
この実施形態においては、モデルのパラメータは、音韻モデルkについて、M混合のガウス分布の平均、分散、分岐係数μm(k),Σm(k),λm(k) (m=1, 2, ...,
M)からなる。
適応化の対象は、M混合の各分布(正規密度関数)の尤度に対する分岐係数λm(k)と、M混合の各分布の平均μm(k)であり、従って、補正前のパラメータ14は、モデルkについてλm(k)と、μm(k)であり、その適応化は、次式で行う。
【0025】
【数2】
【0026】
なお、wは適応化係数12で0≦w<1。
分散の適応化は理論上は次式で可能であるが、適応化の対象となるパラメータ数を削減するため、この実施形態では行わない。
【0027】
【数3】
【0028】
全ての選択されたモデルについて、上記の適応化が終了した後、適応化手段13は適応化の結果得られたパラメータを補正後パラメータ15としてモデル記憶手段6のパラメータを補正後のパラメータ15に置き換える(ステップ29、30)。
そして、後向き探索手段1002による後向き探索を行い、認識結果1003を得る(ステップ31)。
なお、制御部1000はモデル記憶手段6の初期化から、入力のフレームに同期したモデル演算手段7の処理、ビーム探索手段9、適応化手段13の各処理の制御を行う。
【0029】
以上のように、t番目のフレームでの入力フレームの尤度計算に用いるモデルのパラメータは、一つ前のフレームで適応化処理により補正されたパラメータを用いている。これにより、次第に適応化が進んでいく。すなわち、認識結果が出たあとではなく、認識処理中に適応化が進められるものである。
また、構文情報を備えるビーム探索の過程の中で、構文情報で規定される部分モデル系列から、尤度の高い部分モデル系列のモデルを適応化の対象のモデルとして選択しているため、いわば過去の履歴で補正されたフレームごとの認識結果によるモデルの適応化が実現されることになっている。
このため、従来のビーム探索のビーム幅の制御による、探索量の減少の効果とともに、従来は得られなかった認識精度の改善の効果が期待できる。
また、部分モデル系列選択手段11において、累積尤度の大きい部分モデル系列から順番に探索し、異なるモデルを選択した部分モデル系列を最大でN個選択するようにしたので、安定した適応化が行える。
【0030】
実施形態2.
次に、モデルとしてセミ連続分布の音韻モデルを用いる実施形態を示す。この場合のブロック図は図1と同じであり、フローチャートは図2と同じである。モデルが異なるため、モデル演算と適応化部の動作が異なるが、それ以外は同じであり、説明を省略する。
【0031】
モデル演算手段7は、フレームごとに、構文情報4に従ったモデルのパラメータを適用し、入力の特徴パラメータ3の尤度を計算する。
この実施形態のモデルのパラメータは、すべての音韻について共通のM個のコードブックのガウス分布の平均、分散μm,Σm (m=1,2,...,M)と、音韻モデルkについての分岐係数λm(k)からなる。
現在の構文状態がpのとき、構文情報から自己ループを含めて後続の遷移可能なすべての枝を検知し、このすべての枝について、その枝のモデルと遷移先の構文状態の組み合わせ<k,q>∈{ <k1,q1>,<k2,q2>, ..., <kn,qn> }に対するモデルkの特徴パラメータxtの尤度f(t,k)を、混合分布の各分布の尤度N(xt,μm,Σm)の加重和として次式で計算する。
【0032】
【数4】
【0033】
種となる一フレーム前の部分モデル系列が S1,S2,...のとき、部分モデル系列を一つ選択し、Sとする。Sは構文状態δ(S)と、累積尤度α(S)と、最終モデルk(S)とを情報として保持している。Sの構文状態がpのとき、つぎの演算を行い、構文状態、選択されるモデルの組み合わせに応じて、新しい部分モデル系列の仮説U1,U2,...を生成する。
例えば、選択されるモデルがkで、次の構文状態がqのとき、これに対応して生成される新しい部分モデル系列をUとすると、Uの構文状態δ(U)はδ(U)=q、Uの累積尤度α(U)はα(U)=α(S)+f(t,k)、Uの最終モデルはk(U)=kである。
【0034】
適応化手段13は、部分モデル系列選択手段11が現在のフレームで選択した部分モデル系列U1,U2,...(最大でN個)の、選択されたモデルk∈ k(U1), k(U2), ...(最大でN個)について、適応化係数12に従ってパラメータの適応化を行う。
この実施形態のモデルkのパラメータは、すべての音韻について共通のM個のコードブック(いずれも正規密度関数で、平均、分散は、Σm,λm (m=1,2,...,M))である。適応化対象は音韻モデルkについての分岐係数λ m(k)である。従って、補正前のパラメータ14は、モデルkについてλm(k)であり、その適応化は次式で行う。
【0035】
【数5】
【0036】
なお、N(xt,μm,Σm)が第m番目のコードブックの尤度(正規密度関数の値)である。
λm=0なる分岐係数は、適応化してもλm=0のままである。
この実施形態では、したがって、λm=0なる係数についての適応化のための演算を省略することで、精度に影響を与えずに、演算量を削減することができる。
すべてのモデルについて、上記の適応化が終了した後、適応化手段13は、適応化の結果得られたパラメータを補正後パラメータ15としてモデル記憶手段6のパラメータを補正後のパラメータ15に置き換える。
【0037】
以上のように、実施形態1と同様、t番目のフレームでの入力フレームの尤度計算に用いるモデルのパラメータは、一つ前のフレームで適応化処理により補正されたパラメータを用いている。これにより、次第に適応化が進んでいく。すなわち、認識結果がでたあとではなく、認識処理中に適応化が進められるものである。
また、構文情報を備えるビーム探索の過程の中で、構文情報で規定される部分モデル系列から、尤度の高い部分モデル系列のモデルを、適応化の対象のモデルとして選択しているため、いわば過去の履歴で補正されたフレームごとの認識結果によるモデルの適応化が実現されることになっている。
このため、従来のビーム探索のビーム幅の制御による、探索量の減少の効果とともに、従来は得られなかった認識精度の改善の効果が期待できる。
この実施形態では、セミ連続分布を用いたため、分岐係数の適応化だけで精度が改善される。計算、適応化が容易である。
【0038】
実施形態3.
次に、音韻のモデルについて、フレームごとに適応化を行うもので、モデル系列の尤度に応じた適応化係数による適応化をする実施形態を示す。
【0039】
この場合のブロック図は図1と同じであり、フローチャートは図2と同じである。
音韻のモデルは、実施形態2と同様のセミ連続分布モデルである。
この実施形態では音韻モデルとしてセミ連続分布モデルについて説明したが、混合連続分布モデルでも、同様な効果が期待できる。
適応化手段13の動作が異なる以外は実施形態2と同様であり、説明を省略する。
【0040】
適応化手段13は、部分モデル系列選択手段11が現在のフレームで選択した部分モデル系列U1,U2,...(最大でN個)の、選択されたモデルk∈ k(U1), k(U2), ...(最大でN個)について、適応化係数12に従って、選択された部分系列の尤度に応じて、パラメータの適応化を行う。
モデルkについて、適応化係数w(k)の適応化を行う。
ここで、モデルkの適応化係数w(k)は、
【0041】
【数6】
【0042】
式中、U(k)は選択されたモデルkを選択するにあたって用いられた部分モデル系列である。
この実施形態のモデルkのパラメータは、すべての音韻について共通のM個のコードブック(正規密度関数、平均、分散μm,Σm (m=1,2,...,M))である。適応化対象は、音韻モデルkについての分岐係数λm(k)である。従って、補正前のパラメータ14は、モデルkについてλm(k)であり、その適応化は、次式で行う。
【0043】
【数7】
【0044】
なお、N(xt,μm,Σm)が第m番目のコードブックの尤度(正規密度関数の値)である。
λm=0なる分岐係数は、適応化してもλm=0のままである。
この実施形態では、したがって、λm=0なる係数についての適応化のための演算を省略することで、精度に影響を与えずに、演算量を削減することができる。
すべてのモデルについて、上記の適応化が終了した後、適応化手段13は、適応化の結果得られたパラメータを補正後パラメータ15としてモデル記憶手段6のパラメータを補正後のパラメータ15に置き換える。
【0045】
以上のように、実施形態1と同様、t番目のフレームでの入力フレームの尤度計算に用いるモデルのパラメータは、一つ前のフレームで適応化処理により補正されたパラメータを用いている。
これは、構文情報を備えるビーム探索の過程の中で、構文情報で規定される部分モデル系列から、尤度の高い部分モデル系列のモデルを、適応化の対象のモデルとして選択しているため、いわば過去の履歴で補正されたフレームごとの認識結果によるモデルの適応化が実現されることになっている。
このため、従来のビーム探索のビーム幅の制御による、探索量の減少の効果とともに、従来は得られなかった認識精度の改善の効果が期待できる。
この実施形態ではセミ連続分布を用いたため、分岐係数の適応化だけで精度が改善される。計算、適応化が容易である。また、部分系列の尤度を考慮するため、誤った方向の適応化を防止することが期待できる。
【0046】
実施形態4.
次に音韻境界のモデルについて、フレームごとに適応化を行うものを示す。
音韻境界のモデルは、音韻間の遷移に対応したモデル間の遷移を制御するためのモデルであり、次の尤度比が1より大きいときに音韻間の遷移が可能である。<尤度比>=<音韻境界である第1の確率密度>/<音韻境界でない第2の確率密度>
この実施形態では、第1の確率密度(Pr(Bt|境界))および第2の確率密度(Pr(Bt|非境界))は、コードブックの確率密度関数の次の多項式で与えられる。但し、Btはt番目及びその前後のフレームから作成した特徴量である。
【0047】
【数8】
【0048】
この実施形態での部分モデル系列選択手段11は、部分モデル系列格納手段10の部分モデル系列の中から、音韻境界の遷移が起こった部分モデル系列(即ち、自己ループに対応しないもの)を尤度の大きい方から、最大でN個選択する。これにより、特別な計算をすることなく選択が行える。
また、この実施形態での適応化手段13は、部分モデル系列選択手段11が現在のフレームで選択した部分モデル系列U1,U2,...(最大でN個)の、選択されたモデルk∈ k(U1), k(U2), ...(最大でN個)について、適応化係数12に従って、パラメータの適応化を行う。
この実施形態の音韻境界モデルkのパラメータは、コードブックの尤度に対する分子多項式係数Pm(k)であり、従って、補正前のパラメータ14はモデルkについてPm(k)であり、その適応化は次式で行う。
【0049】
【数9】
【0050】
なお、MBは音韻境界モデル用のコードブック(正規密度関数)の数、N(Bt,μm,Σm)は正規密度関数、μm,Σmはそれぞれ正規密度関数の平均および分散である。wは適応化係数である。Pm=0なる多項式係数は、適応化してもPm=0のままである。
この実施形態では、したがって、Pm=0なる係数についての適応化のための演算を省略することで、精度に影響を与えずに演算量を削減することができる。すべてのモデルについて、上記の適応化が終了した後、適応化手段13は、適応化の結果得られたパラメータを補正後パラメータ15としてモデル記憶手段6のパラメータを補正後のパラメータ15に置き換える。
【0051】
実施形態5.
次に、フレームごとのモデルの適応化処理とともに、ビーム探索の幅を、フレームに同期して、斬減させる例を示す。
図5にビーム探索の幅の変化を模式的に示す。フレームごとのモデルの適応化処理によって、尤度が高くなることが期待され、ビーム内における正解の仮説の順位が向上する。このため、ビーム幅をフレームごとに斬減させることで、探索量が削減される。ビーム幅8の更新は次式で行う。但し、θはビーム幅である。θ ← θ*(1−w)+<ビーム幅推定値>*w
【0052】
ここで、<ビーム幅推定値>は、数多くの例について認識実験を行い、最終入力フレームにおいて正解の部分モデル系列の尤度と、そのときの尤度が最大の部分モデル系列の尤度との差として求めた。
ビーム幅の初期値は、<ビーム幅推定値>に比べ、大きな値に設定する。
上の式でwはビーム幅をフレームごとに更新するときの度合いを決める適応化係数である。
【0053】
適応化係数をどのように設定するのが妥当かを実験的に決めるため評価実験を行った。音節の3連鎖の制約を構文情報とする。出力の仮説はグラフ構造になっている。グラフ構造の複雑さの減少の程度でフレームごとの適応化の効果を調べた。
図6は、音韻モデル(セミ連続分布モデル)の1フレームごとの適応化を行う実施形態2の適応化のため選択する仮説数Nと適応化係数wとの組み合わせ条件について、
(1)正解のモデル系列の尤度と最大の尤度を示したモデル系列の尤度との差(Δ)(2)出力グラフのノード数
(3)出力グラフのエッジ数(枝の数)
に基づいて作成した実験結果を示す。
【0054】
それぞれの数値は、(1)については、フレームごとの適応化なしの場合を0として、それに対するΔの増加分を、また、(2)と(3)については、フレームごとの適応化なしの場合を1として、それに対する比を、様々な不特定話者の入力音声を認識したときについて平均した数値を示す。
なお、評価に用いた入力音声は、次の20フレーズである。
【0055】
(話者):(フレーズの音韻記述)
ecl0009 :kaizjoowa dociradesuka
ecl0009 :kikaisiNkookaikaNnara tookjootawaano maedesu
ecl0009 :tookjootawaano maedesuka
etl1003 :tookjootawaano maedesu
etl1003 :tookjootawaano mae
fuj0003 :koNdono hujujasumini
fuj0003 :cukubani cuite osiete kudasai
fuj0003 :cukubawa
fuj0003 :zjeeaarude kuru baaiwa
kdd1005 :koNdo
kdd1005 :oNseekeNkjuukaiga aruNde soreo kikini ikitaiNdesukeredo
mac0003 :kikaisiNkookaikaNdesu
mat1003 :koNdo oNseekeNkjuukaiga aruNde
mat1003 :tookjootawaadesu
mit0003 :kanazawano rjokooaNnaisjodesjooka
mit0003 :sinainiwa cjuuooni keNrokueNga arimasu
nec1011 :kaNkoopuraNzukurio otasukesimasu
nec1011 :dokoka mite mitai tokorowa arimasuka
nec1011 :rakuhokuhoomeNto
【0056】
また図6の結果をグラフにして表現したものを図7、図8、図9に示す。それぞれX軸を適応化係数w、Y軸を適応化のため選択する仮説数Nとしたものであり、Z軸として図7は上記(1)のΔ、図8は上記(2)のノード数、図9は上記(3)のエッジ数をとったものである。なお、XY平面上にはZ軸の等高線を示している。
図6〜図9から、w=0.005かつN=1〜50、また、w=0.01かつN=1〜50、さらに、w=0.02かつN=1〜200、w=0.05かつN=50〜100にすれば、Δが減少かつノード数とエッジ数が減少することがわかる。
Δの減少は音声認識の精度の向上を示し、またノード数とエッジ数の減少は、音声認識の精度の向上によって、正解以外のモデル系列の生成が抑制されたことを示していると考えられる。
【0057】
図10は、音韻境界のモデル(セミ連続分布モデル)の1フレームごとの適応化を行う実施形態4の適応化のため選択する仮説数Nと適応化係数wとの組み合わせ条件について、
(1)正解のモデル系列の尤度と最大の尤度を示したモデル系列の尤度との差(Δ)(2)出力グラフのノード数
(3)出力グラフのエッジ数(枝の数)
に基づいて作成した実験結果を示す。
【0058】
それぞれの数値は、(1)については、フレームごとの適応化なしの場合を0として、それに対するΔの増加分を、また、(2)と(3)については、フレームごとの適応化なしの場合を1として、それに対する比を、様々な不特定話者の入力音声を認識したときについて平均した数値を示す。評価に用いた入力音声は、上記の20フレーズである。
また図10の結果をグラフにして表現したものを図11、図12、図13に示す。それぞれX軸を適応化係数w、Y軸を適応化のため選択する仮説数Nとしたものであり、Z軸として図11は上記(1)のΔ、図12は上記(2)のノード数、図13は上記(3)のエッジ数をとったものである。なお、XY平面上にはZ軸の等高線を示している。
【0059】
図10〜図13から、音韻境界モデルの適応化係数wと適応化する境界の種類数Nの適切な範囲としては、w=0.1かつN=100〜500、また、w=0.2かつN=100、さらに、w=0.3かつN=50〜500、w=0.4かつN=50〜500、w=0.5かつN=1〜500などで、Δが減少かつノード数とエッジ数が減少することがわかる。Δの減少は、音声認識の精度の向上を示し、また、ノード数とエッジ数の減少は、音声認識の精度の向上によって、正解以外のモデル系列の生成が抑制されたことを示していると考えられる。
【0060】
【発明の効果】
以上に説明したように、この発明によれば、入力音声を複数のフレームに分割し、当該分割されたフレーム間をモデル間の接続点とするモデルの系列からなるモデル系列に対する入力音声の尤度を探索処理により求め、この尤度に基づき音声認識を行う音声認識方式において、上記探索処理としてビーム探索を用いるものであって、上記入力音声の各フレームで、そのフレームでビーム内に残る上記入力音声の途中までのフレームに対応する部分モデル系列から選択される上記モデルのパラメータを上記入力音声の途中までのフレームに対応する認識結果に基づいて適応化して、上記モデルのパラメータをフレームごとに置き換えるようにしたので、過去の履歴で補正されたフレームごとの認識結果によるモデルの適応化が実現されることになり、探索量の減少の効果とともに認識精度の改善の効果がある。
【図面の簡単な説明】
【図1】 この発明の実施形態における音声認識方式の機能ブロック図である。
【図2】 この発明の実施形態における音声認識動作のフローチャートである。
【図3】 この発明の実施形態における構文制御情報の模式図である。
【図4】 この発明の実施形態における構文制御情報の構成の説明図である。
【図5】 この発明の実施形態におけるビーム探索の幅の変化を示す説明図である。
【図6】 この発明の実施形態における評価結果の説明図である。
【図7】 この発明の実施形態における評価結果をグラフ化して示す説明図である。
【図8】 この発明の実施形態における評価結果をグラフ化して示す説明図である。
【図9】 この発明の実施形態における評価結果をグラフ化して示す説明図である。
【図10】 この発明の実施形態における評価結果の説明図である。
【図11】 この発明の実施形態における評価結果をグラフ化して示す説明
図である。
【図12】 この発明の実施形態における評価結果をグラフ化して示す説明
図である。
【図13】 この発明の実施形態における評価結果をグラフ化して示す説明
図である。
【図14】 従来の音声認識方式の機能ブロック図である。
【符号の説明】
1 音声区間切出手段
2 分析手段
3 特徴パラメータ
4 構文情報格納手段
5 初期モデル記憶手段
6 モデル記憶手段
7 モデル演算手段
8 ビーム幅
9 ビーム探索手段
10 部分モデル系列格納手段
11 部分モデル系列選択手段
12 適応化係数
13 適応化手段
14 補正前パラメータ
15 補正後パラメータ
1000 制御手段
1001 入力音声
1002 後向き探索手段
1003 認識結果
1004 中間スタック[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an improvement in accuracy of speech recognition and a reduction in search amount.
[0002]
[Prior art]
Conventionally, beam search has been performed as a technique for reducing the search amount for speech recognition.
Acoustical Society of Japan Spring Meeting 1993 Proceedings I (March 1989), pages 5-6 “Examination of changing DP beam search threshold in the middle of input speech” In DP matching, there has been proposed a method for reducing the search amount by changing the beam search threshold in the middle of the input speech.
Japanese Patent Application Laid-Open No. 6-282295 discloses a method of reducing the search amount by adaptively changing the search range of the beam search using a control function having an observable feature amount as an input. Yes. Here, a neural network and multiple regression analysis are used for the beam search threshold control function.
[0003]
On the other hand, the Acoustical Society of Japan, Fall 2008 Presentation Meeting, Proceedings I (September 1996), pages 117-118, “N-best speaker adaptation for speech recognition” As a method of person adaptation (immediate adaptation), phoneme HMMs are connected according to the N-best model sequence estimated from the result of N-best Viterbi recognition, and the likelihood of the connected phoneme HMM for the input speech is maximized. Thus, a method for estimating the parameters of the phoneme HMM and adapting it to the recognition target speaker has been proposed.
Adaptation in this way consists of the following steps.
(1) N best recognition of input speech is performed using the phoneme HMM before adaptation, and N model sequences for the input speech are obtained.
(2) For each model series, the phoneme HMM parameters are adapted to the speaker.
(3) After adaptation, select the model series that shows the maximum likelihood.
(4) Update the current HMM using the parameters of the adapted phonological HMM.
The steps (2) to (4) are repeated.
Therefore, the above method cannot change the model in the middle of the input voice.
[0004]
FIG. 14 is a functional block diagram of a speech recognition method using a conventional beam search.
The voice analysis by the
Then, referring to the
[0005]
The first frame number is 1, and the last frame number is T. First, the initial value of the partial model series is stored in the partial model series storage means 10. Next, the frame number i of the input voice is set to 1.
The model calculating means 7 takes out a hypothesis (H) of the partial model series from the partial model series storage means 10.
Next, from the syntax information in the syntax
Further, a hypothesis of the partial model series grown for one frame connecting the phoneme model k is created and stored in the beam search
The beam search means 9 compares the cumulative likelihoods of the hypotheses of the partial model series in the
[0006]
In this case, as a method of selecting a hypothesis from the intermediate stack, for example, Nb partial model sequences can be selected from the one having the largest cumulative likelihood. However, Nb represents the maximum number of hypotheses left in the beam.
By performing the above processing from the first frame to the last frame of the input speech, the partial model sequence storage means 10 can obtain model model hypotheses corresponding to all frames of the input speech along with their cumulative likelihoods.
Thereafter, the backward search means 1002 obtains a
[0007]
[Problems to be solved by the invention]
The conventional beam search that changes the beam search threshold in the middle of the input speech can reduce the search amount, but the parameters of the model used for recognition are constant, and such parameters are recognized by a constant model. Therefore, the recognition accuracy cannot be improved.
In addition, in the conventional unsupervised adaptation, after performing N best recognition with a model of a constant parameter to obtain N model sequences, adaptation of the model parameter to the input speech is performed from the recognition result.
For this reason, in order to obtain a higher-accuracy recognition result, there is a problem that re-recognition processing is required by the adapted acoustic model.
[0008]
The problem to be solved by the present invention is to improve recognition accuracy by adapting a model including a phoneme model and a model of a phoneme boundary in the middle of an input speech in speech recognition using a beam search to the input speech. It is.
In addition to adapting the model in the middle of the input speech and reducing the beam search width in the middle of the input speech as a result of improving the accuracy of the model obtained in the middle of the input speech, the search amount can be reduced. It is.
[0009]
[Means for Solving the Problems]
The speech recognition method according to the present invention is:The input speech is divided into a plurality of frames, and the likelihood of the input speech for a model sequence consisting of a sequence of models having the divided frames as connection points between the models is obtained by search processing, and speech recognition is performed based on this likelihood. In the speech recognition method for performing the above, a beam search is used as the search processing, and in each frame of the input speech, from the partial model sequence corresponding to the frame of the input speech remaining in the beam in that frame. The parameters of the model to be selected are adapted based on the recognition result corresponding to the frame up to the middle of the input speech, and the parameters of the model are replaced for each frame.It is what I did.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
This embodiment shows a case where a phoneme model having a mixed continuous distribution is used as a model.
FIG. 1 is a functional block diagram of the speech recognition method in this embodiment. The
The
In
Next, for the frames from t = 1 to the final t = T, the following processing is performed for each frame while incrementing the frame number t by 1.
[0018]
The syntax information stored in the syntax information storage means 4 is information for determining a model that can be connected after the partial model series, and is represented by a node representing a state and a branch representing a transition. This is expressed, for example, as a graph as shown in FIG. The syntax information is stored in the syntax information storage means 4 as a table as shown in FIG. That is, from the number representing the current syntactic state of a partial model series, the next connectable model and the next state number of the partial model series expanded when that model is selected are given as a table. ing. The transition table of the syntax state of the graph corresponding to FIG. 3 is as shown in FIG.
[0019]
The model calculation means 7 inputs one frame (step 22), applies the model parameters according to the syntax information for each frame (step 23), and calculates the likelihood of the
When the current syntax state is p, all subsequent transitionable branches including the self-loop are detected from the syntax information, and the combination of the model of the branch and the syntax state of the transition destination <k, q> ∈ {<k1, q1>, <k2, q2>, ..., <kn, qn>}, the likelihood f (t, k) of the feature parameter xt of the model k is calculated for each distribution of the mixed distribution. The weighted sum of the likelihood N (xt, μm (k), Σm (k)) is calculated by the following equation.
[0020]
[Expression 1]
[0021]
In
For example, when the selected model is k and the next syntactic state is q, and U is a new partial model sequence generated corresponding to this, the syntactic state δ (U) of U is δ (U) = The cumulative likelihood α (U) of q and U is α (U) = α (S) + f (t, k), and the final model of U is k (U) = k.
[0022]
The beam search means 9 has a beam width range determined by the cumulative likelihood of the partial model series U1, U2,... Generated by the model calculation means 7 and the
The beam width range based on the
Pruning leaves the hypothesis that the cumulative likelihood α (U1), α (U2), ... is between αmin and αmax among U1, U2, ..., and discards the others Do that.
[0023]
Next, the partial model series selection means 11 selects a partial model series as information used for adaptation in the adaptation means 13 (step 27). For example, the partial model series in the partial model series storage means 10 are searched in order from the partial model series having the largest cumulative likelihood, and a maximum of N partial model series in which different models are selected are selected.
[0024]
Next, the adaptation means 13 selects the selected model k ∈ k (U1), of the partial model series U1, U2,... (Maximum N) selected by the partial model series selection means 11 in the current frame. Parameter adaptation is performed according to the
In this embodiment, the model parameters are the mean, variance, branching coefficient μm (k), Σm (k), λm (k) (m = 1, 2,. ..,
M).
The object of adaptation is the branching coefficient λm (k) for the likelihood of each distribution of M mixtures (normal density function) and the average μm (k) of each distribution of M mixtures. , Λm (k) and μm (k) for model k, and adaptation thereof is performed by the following equation.
[0025]
[Expression 2]
[0026]
Note that w is the
In theory, the adaptation of the variance is possible by the following equation, but is not performed in this embodiment in order to reduce the number of parameters to be adapted.
[0027]
[Equation 3]
[0028]
After the above-described adaptation is completed for all selected models, the
Then, a backward search is performed by the backward search means 1002, and a
Note that the
[0029]
As described above, the parameter of the model used for the likelihood calculation of the input frame in the t-th frame is the parameter corrected by the adaptation process in the previous frame. As a result, adaptation gradually proceeds. That is, the adaptation proceeds during the recognition process, not after the recognition result is output.
Also, in the process of beam search with syntactic information, the model of the partial model sequence with high likelihood is selected as the model to be adapted from the partial model sequences specified by the syntactic information. Adaptation of the model based on the recognition result for each frame corrected by this history is to be realized.
For this reason, in addition to the effect of reducing the search amount by controlling the beam width of the conventional beam search, the effect of improving the recognition accuracy that could not be obtained conventionally can be expected.
Further, the partial model series selection means 11 searches in order from the partial model series having the largest cumulative likelihood and selects up to N partial model series from which different models are selected, so that stable adaptation can be performed. .
[0030]
Next, an embodiment in which a phoneme model having a semi-continuous distribution is used as a model will be described. The block diagram in this case is the same as FIG. 1, and the flowchart is the same as FIG. Since the models are different, the model calculation and the operation of the adaptation unit are different, but the others are the same, and the description is omitted.
[0031]
The model calculation means 7 applies the parameter of the model according to the
The parameters of the model of this embodiment are the mean, variance μm, Σm (m = 1, 2,..., M) of M codebooks common to all phonemes, and the phoneme model k. It consists of a branching coefficient λm (k).
When the current syntax state is p, all subsequent transitionable branches including the self-loop are detected from the syntax information, and the combination of the model of the branch and the syntax state of the transition destination <k, q> ∈ {<k1, q1>, <k2, q2>,..., <kn, qn>}, the likelihood f (t, k) of the feature parameter xt of the model k is calculated for each distribution of the mixed distribution. The weighted sum of the likelihood N (xt, μm, Σm) is calculated by the following equation.
[0032]
[Expression 4]
[0033]
When the partial model sequence one frame before the seed is S1, S2,..., One partial model sequence is selected and set to S. S holds the syntax state δ (S), the cumulative likelihood α (S), and the final model k (S) as information. When the syntax state of S is p, the following operation is performed to generate new partial model series hypotheses U1, U2,... According to the combination of the syntax state and the selected model.
For example, when the selected model is k and the next syntax state is q, and U is a new partial model sequence generated corresponding to this, the syntax state δ (U) of U is δ (U) = The cumulative likelihood α (U) of q and U is α (U) = α (S) + f (t, k), and the final model of U is k (U) = k.
[0034]
The adapting means 13 selects the selected models kε k (U1), k () of the partial model series U1, U2,... (Maximum N) selected by the partial model series selecting means 11 in the current frame. The parameters are adapted according to the
The parameters of the model k in this embodiment are the M codebooks common to all phonemes (Both are normal density functions, mean and variance areΣm, λm (m = 1,2, ..., M)). The target of adaptation is the branching coefficient for the phoneme model kλ m (k)It is. Therefore, the
[0035]
[Equation 5]
[0036]
N (xt, μm, Σm) is the likelihood (value of the normal density function) of the mth codebook.
The branch coefficient of λm = 0 remains λm = 0 even if it is adapted.
In this embodiment, therefore, the calculation amount can be reduced without affecting the accuracy by omitting the calculation for adaptation with respect to the coefficient of λm = 0.
After the above-described adaptation is completed for all models, the
[0037]
As described above, as in the first embodiment, the parameters of the model used for calculating the likelihood of the input frame in the t-th frame are parameters corrected by the adaptation process in the previous frame. As a result, adaptation gradually proceeds. That is, the adaptation is advanced during the recognition process, not after the recognition result is obtained.
In addition, in the beam search process with syntactic information, a model of a partial model sequence having a high likelihood is selected as a model to be adapted from the partial model sequences specified by the syntactic information. Model adaptation based on the recognition result for each frame corrected in the past history is to be realized.
For this reason, in addition to the effect of reducing the search amount by controlling the beam width of the conventional beam search, the effect of improving the recognition accuracy that could not be obtained conventionally can be expected.
In this embodiment, since the semi-continuous distribution is used, the accuracy is improved only by adapting the branch coefficient. Easy to calculate and adapt.
[0038]
Next, an embodiment is described in which the phoneme model is adapted for each frame, and adaptation is performed using an adaptation coefficient corresponding to the likelihood of the model sequence.
[0039]
The block diagram in this case is the same as FIG. 1, and the flowchart is the same as FIG.
The phoneme model is a semi-continuous distribution model similar to that of the second embodiment.
In this embodiment, a semi-continuous distribution model has been described as a phonological model, but a similar effect can be expected with a mixed continuous distribution model.
Except for the difference in the operation of the adapting means 13, it is the same as in the second embodiment, and a description thereof will be omitted.
[0040]
The adapting means 13 selects the selected models kε k (U1), k (of the partial model series U1, U2,... (Maximum N) selected by the partial model series selecting means 11 in the current frame. For U2),... (Maximum N), parameters are adapted according to the likelihood of the selected partial sequence according to the
The adaptation coefficient w (k) is adapted for the model k.
Here, the adaptation coefficient w (k) of the model k is
[0041]
[Formula 6]
[0042]
In the equation, U (k) is a partial model sequence used in selecting the selected model k.
The parameters of the model k in this embodiment are M codebooks (normal density function, average, variance μm, Σm (m = 1, 2,..., M)) common to all phonemes. The adaptation target is the branching coefficient λm (k) for the phoneme model k. Therefore, the
[0043]
[Expression 7]
[0044]
N (xt, μm, Σm) is the likelihood (value of the normal density function) of the mth codebook.
The branch coefficient of λm = 0 remains λm = 0 even if it is adapted.
In this embodiment, therefore, the calculation amount can be reduced without affecting the accuracy by omitting the calculation for adaptation with respect to the coefficient of λm = 0.
After the above-described adaptation is completed for all models, the
[0045]
As described above, as in the first embodiment, the parameters of the model used for calculating the likelihood of the input frame in the t-th frame are parameters corrected by the adaptation process in the previous frame.
This is because the model of the partial model sequence with high likelihood is selected as the model to be adapted from the partial model sequence specified by the syntax information in the process of beam search with syntax information. In other words, the adaptation of the model is realized by the recognition result for each frame corrected in the past history.
For this reason, in addition to the effect of reducing the search amount by controlling the beam width of the conventional beam search, the effect of improving the recognition accuracy that could not be obtained conventionally can be expected.
Since the semi-continuous distribution is used in this embodiment, the accuracy is improved only by adapting the branch coefficient. Easy to calculate and adapt. Also, since the likelihood of the partial sequence is taken into account, it can be expected that adaptation in the wrong direction is prevented.
[0046]
Next, a phonetic boundary model that is adapted for each frame is shown.
The phoneme boundary model is a model for controlling the transition between models corresponding to the transition between phonemes. When the next likelihood ratio is larger than 1, transition between phonemes is possible. <Likelihood ratio> = <first probability density that is a phoneme boundary> / <second probability density that is not a phoneme boundary>
In this embodiment, the first probability density (Pr (Bt | boundary)) and the second probability density (Pr (Bt | nonboundary)) areProbability density functionIs given by the following polynomial: Here, Bt is a feature quantity created from the tth frame and the frames before and after it.
[0047]
[Equation 8]
[0048]
The partial model sequence selection means 11 in this embodiment is the likelihood of the partial model series in which the phoneme boundary transition occurred (that is, the one not corresponding to the self-loop) from the partial model series of the partial model series storage means 10. Select a maximum of N from the larger one. As a result, selection can be performed without any special calculation.
Further, the adaptation means 13 in this embodiment includes the selected model kε of the partial model series U1, U2,... (Maximum N) selected by the partial model series selection means 11 in the current frame. The parameters are adapted according to the
The parameter of the phoneme boundary model k in this embodiment is the numerator polynomial coefficient Pm (k) for the likelihood of the codebook, and therefore the
[0049]
[Equation 9]
[0050]
MB is the number of codebooks (normal density functions) for the phoneme boundary model, N (Bt, μm, Σm) is the normal density function, and μm, Σm are the mean and variance of the normal density function, respectively. w is an adaptation coefficient. The polynomial coefficient of Pm = 0 remains Pm = 0 even if it is adapted.
In this embodiment, therefore, the calculation amount can be reduced without affecting the accuracy by omitting the calculation for adaptation with respect to the coefficient Pm = 0. After the above-described adaptation is completed for all models, the
[0051]
Next, an example in which the beam search width is reduced in synchronization with the frame together with the model adaptation processing for each frame will be described.
FIG. 5 schematically shows changes in the beam search width. By the model adaptation process for each frame, it is expected that the likelihood is increased, and the order of correct hypotheses in the beam is improved. For this reason, the amount of search is reduced by reducing the beam width for each frame. The
[0052]
Here, <Beam Width Estimate> is a recognition experiment for a number of examples, and the likelihood of the correct partial model sequence in the final input frame and the likelihood of the partial model sequence with the maximum likelihood at that time Calculated as difference.
The initial value of the beam width is set to a larger value than the <beam width estimated value>.
In the above equation, w is an adaptation coefficient that determines the degree to which the beam width is updated for each frame.
[0053]
An evaluation experiment was conducted to experimentally determine how to set the adaptation coefficient. The three-chain restriction of syllable is syntactic information. The output hypothesis has a graph structure. The effect of frame-by-frame adaptation on the degree of reduction of the complexity of the graph structure was investigated.
FIG. 6 shows a combination condition of the hypothesis number N and the adaptation coefficient w to be selected for adaptation in the second embodiment in which adaptation for each frame of the phoneme model (semi-continuous distribution model) is performed.
(1) Difference between likelihood of correct model sequence and likelihood of model sequence showing maximum likelihood (Δ) (2) Number of nodes in output graph
(3) Number of edges in the output graph (number of branches)
The experimental result created based on this is shown.
[0054]
Each numerical value is 0 for the case of no adaptation for each frame for (1), and the increment of Δ with respect to it, and for (2) and (3), for no adaptation for each frame Assuming that the case is 1, a numerical value obtained by averaging the ratio with respect to the input voice of various unspecified speakers is shown.
The input speech used for the evaluation is the following 20 phrases.
[0055]
(Speaker): (Phonological description of phrase)
ecl0009: kaizjoowa dociradesuka
ecl0009: kikaisiNkookaikaNnara tookjootawaano maedesu
ecl0009: tookjootawaano maedesuka
etl1003: tookjootawaano maedesu
etl1003: tookjootawaano mae
fuj0003: koNdono hujujasumini
fuj0003: cukubani cuite osiete kudasai
fuj0003: cukubawa
fuj0003: zjeeaarude kuru baaiwa
kdd1005: koNdo
kdd1005: oNseekeNkjuukaiga aruNde soreo kikini ikitaiNdesukeredo
mac0003: kikaisiNkookaikaNdesu
mat1003: koNdo oNseekeNkjuukaiga aruNde
mat1003: tookjootawaadesu
mit0003: kanazawano rjokooaNnaisjodesjooka
mit0003: sinainiwa cjuuooni keNrokueNga arimasu
nec1011: kaNkoopuraNzukurio otasukesimasu
nec1011: dokoka mite mitai tokorowa arimasuka
nec1011: rakuhokuhoomeNto
[0056]
Moreover, what represented the result of FIG. 6 in the graph is shown in FIG. 7, FIG. 8, FIG. The X-axis is the adaptation coefficient w, and the Y-axis is the hypothesis number N to be selected for adaptation. FIG. 7 shows Δ of (1) above and FIG. 8 shows the number of nodes of (2) as Z-axis. FIG. 9 shows the number of edges in (3) above. A Z-axis contour line is shown on the XY plane.
From FIG. 6 to FIG. 9, w = 0.005 and N = 1-50, w = 0.01 and N = 1-50, w = 0.02 and N = 1-200, w = 0.05 and N = 50-100. In this case, it can be seen that Δ decreases and the number of nodes and the number of edges decrease.
A decrease in Δ indicates an improvement in the accuracy of speech recognition, and a decrease in the number of nodes and the number of edges is considered to indicate that the generation of model sequences other than correct answers is suppressed due to the improvement in the accuracy of speech recognition. .
[0057]
FIG. 10 shows a combination condition of the hypothesis number N and the adaptation coefficient w to be selected for adaptation in the fourth embodiment in which adaptation of each phoneme boundary model (semi-continuous distribution model) is performed.
(1) Difference between likelihood of correct model sequence and likelihood of model sequence showing maximum likelihood (Δ) (2) Number of nodes in output graph
(3) Number of edges in the output graph (number of branches)
The experimental result created based on this is shown.
[0058]
Each numerical value is 0 for the case of no adaptation for each frame for (1), and the increment of Δ with respect to it, and for (2) and (3), for no adaptation for each frame Assuming that the case is 1, a numerical value obtained by averaging the ratio with respect to the input voice of various unspecified speakers is shown. The input speech used for the evaluation is the above 20 phrases.
Moreover, what represented the result of FIG. 10 in the graph is shown in FIG. 11, FIG. 12, FIG. The X-axis is the adaptation coefficient w and the Y-axis is the hypothesis number N to be selected for adaptation. FIG. 11 shows the Δ in (1) above and FIG. 12 shows the number of nodes in (2) as the Z-axis. FIG. 13 shows the number of edges in (3) above. A Z-axis contour line is shown on the XY plane.
[0059]
From FIG. 10 to FIG. 13, as an appropriate range of the adaptation coefficient w of the phoneme boundary model and the number N of boundary types to be adapted, w = 0.1 and N = 100 to 500, and w = 0.2 and N = 100 Furthermore, it can be seen that when w = 0.3 and N = 50 to 500, w = 0.4 and N = 50 to 500, w = 0.5 and N = 1 to 500, Δ decreases and the number of nodes and edges decreases. . A decrease in Δ indicates an improvement in the accuracy of speech recognition, and a decrease in the number of nodes and the number of edges indicates that the generation of model sequences other than the correct answer is suppressed due to the improvement in the accuracy of speech recognition. Conceivable.
[0060]
【The invention's effect】
As explained above, according to the present invention,The input speech is divided into a plurality of frames, and the likelihood of the input speech for a model sequence consisting of a sequence of models having the divided frames as connection points between the models is obtained by search processing, and speech recognition is performed based on this likelihood. In the speech recognition method for performing the above, a beam search is used as the search processing, and in each frame of the input speech, from the partial model sequence corresponding to the frame of the input speech remaining in the beam in that frame. The parameters of the model to be selected are adapted based on the recognition result corresponding to the frame up to the middle of the input speech, and the parameters of the model are replaced for each frame.As a result, the adaptation of the model based on the recognition result for each frame corrected in the past history is realized, which has the effect of reducing the search amount and improving the recognition accuracy.
[Brief description of the drawings]
FIG. 1 is a functional block diagram of a speech recognition method according to an embodiment of the present invention.
FIG. 2 is a flowchart of a voice recognition operation in the embodiment of the present invention.
FIG. 3 is a schematic diagram of syntax control information according to the embodiment of the present invention.
FIG. 4 is an explanatory diagram of a structure of syntax control information in the embodiment of the present invention.
FIG. 5 is an explanatory diagram showing a change in the width of a beam search in the embodiment of the present invention.
FIG. 6 is an explanatory diagram of evaluation results in the embodiment of the present invention.
FIG. 7 is an explanatory diagram showing a graph of the evaluation result in the embodiment of the present invention.
FIG. 8 is an explanatory diagram showing a graph of the evaluation result in the embodiment of the present invention.
FIG. 9 is an explanatory diagram showing the evaluation results in the embodiment of the present invention in a graph.
FIG. 10 is an explanatory diagram of an evaluation result in the embodiment of the present invention.
FIG. 11 is a graph showing evaluation results in the embodiment of the present invention.
FIG.
FIG. 12 is a graph showing evaluation results in the embodiment of the present invention.
FIG.
FIG. 13 is a graph showing evaluation results in the embodiment of the present invention.
FIG.
FIG. 14 is a functional block diagram of a conventional speech recognition method.
[Explanation of symbols]
1 Voice segment extraction means
2 Analytical means
3 characteristic parameters
4 Syntax information storage means
5 Initial model storage means
6 Model storage means
7 Model calculation means
8 Beam width
9 Beam search means
10 Partial model series storage means
11 Partial model series selection means
12 Adaptation factor
13 Adaptation means
14 Pre-correction parameters
15 Parameter after correction
1000 Control means
1001 Input voice
1002 Backward search means
1003 Recognition result
1004 Intermediate stack
Claims (10)
上記探索処理としてビーム探索を用いるものであって、
上記入力音声の各フレームで、そのフレームでビーム内に残る上記入力音声の途中までのフレームに対応する部分モデル系列から選択される上記モデルのパラメータを上記入力音声の途中までのフレームに対応する認識結果に基づいて適応化して、上記モデルのパラメータをフレームごとに置き換えることを特徴とする音声認識方式。The input speech is divided into a plurality of frames, and the likelihood of the input speech for a model sequence consisting of a sequence of models having the divided frames as connection points between the models is obtained by search processing, and speech recognition is performed based on this likelihood. In the voice recognition method that performs
A beam search is used as the search process,
In each frame of the input speech, the parameters of the model selected from the partial model sequence corresponding to the frame up to the middle of the input speech remaining in the beam at that frame are recognized corresponding to the frame up to the middle of the input speech. A speech recognition method that is adapted based on the result and replaces the parameters of the model for each frame.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05616297A JP4042176B2 (en) | 1997-03-11 | 1997-03-11 | Speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05616297A JP4042176B2 (en) | 1997-03-11 | 1997-03-11 | Speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254496A JPH10254496A (en) | 1998-09-25 |
JP4042176B2 true JP4042176B2 (en) | 2008-02-06 |
Family
ID=13019410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05616297A Expired - Fee Related JP4042176B2 (en) | 1997-03-11 | 1997-03-11 | Speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4042176B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210366464A1 (en) * | 2020-03-27 | 2021-11-25 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215187A (en) | 2001-01-23 | 2002-07-31 | Matsushita Electric Ind Co Ltd | Speech recognition method and device for the same |
US7480615B2 (en) * | 2004-01-20 | 2009-01-20 | Microsoft Corporation | Method of speech recognition using multimodal variational inference with switching state space models |
JP4729078B2 (en) * | 2008-06-13 | 2011-07-20 | 日本電信電話株式会社 | Voice recognition apparatus and method, program, and recording medium |
US9047562B2 (en) | 2010-01-06 | 2015-06-02 | Nec Corporation | Data processing device, information storage medium storing computer program therefor and data processing method |
JP5538350B2 (en) * | 2011-11-30 | 2014-07-02 | 日本電信電話株式会社 | Speech recognition method, apparatus and program thereof |
CN112151020B (en) * | 2019-06-28 | 2024-06-18 | 北京声智科技有限公司 | Speech recognition method, device, electronic equipment and storage medium |
-
1997
- 1997-03-11 JP JP05616297A patent/JP4042176B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210366464A1 (en) * | 2020-03-27 | 2021-11-25 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
US11735164B2 (en) * | 2020-03-27 | 2023-08-22 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
Also Published As
Publication number | Publication date |
---|---|
JPH10254496A (en) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Valtchev et al. | MMIE training of large vocabulary recognition systems | |
EP0705473B1 (en) | Speech recognition method using a two-pass search | |
EP0691640B1 (en) | Adaptive training method for pattern recognition | |
EP0813735B1 (en) | Speech recognition | |
JP3913770B2 (en) | Speech synthesis apparatus and method | |
JPH11327592A (en) | Speaker normalizing processor and voice recognition device | |
JP4169921B2 (en) | Speech recognition system | |
Pylkkönen et al. | Duration modeling techniques for continuous speech recognition. | |
Schwartz et al. | Efficient, high-performance algorithms for n-best search | |
EP0241768A2 (en) | Synthesizing word baseforms used in speech recognition | |
US6253178B1 (en) | Search and rescoring method for a speech recognition system | |
EP1269464A2 (en) | Discriminatively trained mixture models in continuous speech recognition | |
JP4042176B2 (en) | Speech recognition method | |
JP2751856B2 (en) | Pattern adaptation method using tree structure | |
GB2347253A (en) | Selectively assigning a penalty to a probability associated with a voice recognition system | |
JPH1185186A (en) | Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus | |
Konig et al. | Remap: Recursive estimation and maximization of a posteriori probabilities-application to transition-based connectionist speech recognition | |
JP2004191705A (en) | Speech recognition device | |
JP2002091468A (en) | Voice recognition system | |
JPH08110792A (en) | Speaker adaptation device and speech recognition device | |
Yu et al. | Evaluation of a long-contextual-Span hidden trajectory model and phonetic recognizer using a* lattice search. | |
JP3532248B2 (en) | Speech recognition device using learning speech pattern model | |
JPH08328583A (en) | Speach recognition device | |
JPH0981178A (en) | Unspecified speaker model generating device and voice recognition device | |
JP3315565B2 (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040220 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040716 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111122 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |