JPH10254496A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH10254496A
JPH10254496A JP9056162A JP5616297A JPH10254496A JP H10254496 A JPH10254496 A JP H10254496A JP 9056162 A JP9056162 A JP 9056162A JP 5616297 A JP5616297 A JP 5616297A JP H10254496 A JPH10254496 A JP H10254496A
Authority
JP
Japan
Prior art keywords
model
adaptation
likelihood
frame
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9056162A
Other languages
English (en)
Other versions
JP4042176B2 (ja
Inventor
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP05616297A priority Critical patent/JP4042176B2/ja
Publication of JPH10254496A publication Critical patent/JPH10254496A/ja
Application granted granted Critical
Publication of JP4042176B2 publication Critical patent/JP4042176B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 探索を用いる音声認識において、入力音声の
途中でビーム探索の閾値を変更する従来のビーム探索
は、探索量を削減することができるが、認識に用いるモ
デルのパラメータは一定であり、このようなパラメータ
が一定のモデルで認識を行うため認識精度の向上は得ら
れない。この発明が解決しようとする課題は、探索量を
削減することができ、かつ認識の精度を向上させること
である。 【解決手段】 入力音声の各フレームで入力音声にモデ
ルを適応化し、この適応化されたモデルに対する入力音
声の尤度を探索処理により求め、この尤度に基づき音声
認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識の精度
改善と、探索量の削減に関する。
【0002】
【従来の技術】従来、音声認識の探索量の削減の手法と
して、ビーム探索が行われている。日本音響学会 平成
元年度春季研究発表会 講演論文集I(平成元年3
月)、5〜6頁「DPビームサーチの閾値を入力音声の
途中で変更する方法の検討」には、フレーム同期型のD
Pマッチングにおいて、ビーム探索の閾値を入力音声の
途中で変化させることで、探索量を減少させる方法が提
案されている。また、特開平6−282295号公報に
は、観測可能な特徴量を入力とする制御関数を用いてビ
ーム探索の探索範囲を適応的に変化させることで、探索
量を減少させる方法が開示されている。ここで、ビーム
探索の閾値の制御関数には、ニューラルネットおよび重
回帰分析を用いている。
【0003】一方、日本音響学会 平成8年度秋季研究
発表会 講演論文集I(平成8年9月)、117〜11
8頁「音声認識のためのN−bestに基づく話者適応
化」には、教師なし話者適応化(即時適応化)の方法と
して、Nベストビタビ認識の結果から推定されたNベス
トのモデル系列に従って、音韻HMMを連結し、その連
結した音韻HMMの入力音声に対する尤度が最大となる
ように、音韻HMMのパラメータを推定して、認識対象
話者に適応化する方法が提案されている。この方法での
適応化は、次のステップからなる。 (1)適応化前の音韻HMMを用いて入力音声のNベスト
認識を行い、入力音声に対するN個のモデル系列を求め
る。 (2)各モデル系列ごとに、音韻HMMのパラメータをそ
の話者に適応化する。 (3)適応化後に、最大尤度を示したモデル系列を選択す
る。 (4)その適応化された音韻HMMのパラメータを用いて
現在のHMMを更新する。 上記、ステップ(2)〜(4)を繰り返す。従って、上
記方法は、入力音声の途中でモデルを変更することがで
きない。
【0004】図14は従来のビーム探索を用いる音声認
識方式の機能ブロック図である。音声区間切出手段1に
よって、入力音声1001から切り出された音声区間の
各フレームについて、分析手段2による音声分析を行
い、特徴パラメータの時系列3を得る。そして、モデル
記憶手段51からパラメータ5aを、また構文情報格納
手段4から入力音声に対応するモデルの系列を規定する
構文情報をそれぞれ参照し、特徴パラメータの時系列3
に対する最適なモデル系列を認識結果1003として、
以下のようにして得る。なお、10は入力音声の第1フ
レームから途中までのフレームに対応する部分モデル系
列の仮説を格納する部分モデル系列格納手段である。
【0005】最初のフレーム番号を1、最後のフレーム
番号をTとする。まず、最初に、部分モデル系列の初期
値を部分モデル系列格納手段10に格納する。次に入力
音声のフレーム番号iを1とおく。モデル演算手段7は
部分モデル系列格納手段10から部分モデル系列の仮説
(Hとする)をとり出す。つぎに、構文情報格納手段4
の構文情報から、部分モデル系列Hに連結可能なモデル
(音韻モデルk、複数通りのときもある)を選択し、音
韻モデルkに対応するフレーム番号iの特徴パラメータ
の尤度f(k,i)を計算する。さらに、音韻モデルkを連結
した1フレーム分成長した部分モデル系列の仮説を作成
し、ビーム探索用の中間スタック1004に格納する。
1フレーム分成長した部分モデル系列の仮説の累積尤度
は成長前の種の部分モデル系列の累積尤度に音韻モデル
kの尤度を加えたものである。ビーム探索手段9はフレ
ーム番号iについて、中間スタック1004内の部分モ
デル系列の仮説の累積尤度を相互に比較し、例えば、累
積尤度の最大の仮説の尤度を上限とし、この上限からビ
ーム幅8だけ引いた値を下限として、この範囲の累積尤
度を有する部分モデル系列の仮説を部分モデル系列格納
手段10に格納する。
【0006】この場合、中間スタックからの仮説の選び
方としては、例えば、累積尤度の大きい方からNb個の
部分モデル系列を選ぶこともできる。ただし、Nbはビ
ーム内に残す仮説の数の最大の数を表す。以上の処理を
入力音声の第1フレームから最後のフレームまで行うこ
とによって、部分モデル系列格納手段10には、入力音
声の全フレームに対応するモデル系列の仮説がその累積
尤度とともに得られる。その後、後向き探索手段100
2は、例えば最適な累積尤度の仮説を選ぶことによっ
て、認識結果1003を得る。
【0007】
【発明が解決しようとする課題】入力音声の途中でビー
ム探索の閾値を変更する従来のビーム探索は、探索量を
削減することができるが、認識に用いるモデルのパラメ
ータは一定であり、このようなパラメータが一定のモデ
ルで認識を行うため、認識精度の向上は得られない。ま
た、従来の教師なし適応化は、一定のパラメータのモデ
ルでNベスト認識を行ってN個のモデル系列を求めた後
に、認識結果からモデルのパラメータの入力音声への適
応化を行う。このため、精度のより高い認識結果を得る
ためには、適応化された音響モデルにより、再度の認識
処理が必要であるという問題があった。
【0008】この発明が解決しようとする課題は、ビー
ム探索を用いる音声認識において、入力音声の途中で音
韻モデルおよび音韻境界のモデルを含むモデルを入力音
声に適応化することで、認識の精度を向上させることで
ある。また、入力音声の途中でモデルの適応化を行うと
ともに、入力音声の途中で得られるモデルの精度改善の
結果として、入力音声の途中でビーム探索の幅を絞るこ
とで、探索量を削減することである。
【0009】
【課題を解決するための手段】この発明に係る音声認識
方式は、入力音声の各フレームで入力音声にモデルを適
応化し、この適応化されたモデルの系列からなるモデル
系列に対する入力音声の尤度を探索処理により求め、こ
の尤度に基づき音声認識をするようにしたものである。
【0010】上記探索処理としてはビーム探索が用いら
れる。
【0011】また、入力音声の途中のビーム内の仮説の
尤度の大きい方からN個の仮説を用いて、上記モデルを
入力音声へ適応化するようにする。
【0012】また、入力音声の途中のビーム内の仮説の
尤度の大きい方からN個の仮説を用いるとともに、尤度
に応じた重みによる加重を用いて上記モデルを入力音声
へ適応化するようにする。
【0013】また、上記モデルとしては音韻のモデルあ
るいは音韻境界のモデルとする。
【0014】また、上記音韻のモデルあるいは音韻境界
のモデルをセミ連続分布のモデルとし、音韻のモデルの
分岐係数だけを適応化する。
【0015】また、上記音韻境界のモデルの入力音声へ
の適応化において、入力音声の途中のビーム内の仮説の
尤度の大きい方からN個の仮説を選択する際に、モデル
間の遷移を有する部分モデル系列の仮説を選択するよう
にする。
【0016】また、ビーム探索の探索の幅をフレームご
とに適応化係数を用いて変化させるようにする。
【0017】
【発明の実施の形態】
実施の形態1.この実施形態は、モデルとして混合連続
分布の音韻モデルを用いる場合を示す。図1は、この実
施形態における音声認識方式の機能ブロック図である。
入力音声信号1001は音声切出手段1により、例えば
10msの一定の分析周期で、例えば25.6msの信号区
間であるフレームに分割される。分析手段2は、これを
フレームごとに特徴パラメータ3に変換する。フレーム
番号tの特徴パラメータをXtと記す。図2はこれ以降の
動作を示すフローチャートである。ステップ21ではモ
デルの初期化を行う。すなわち適応化前のモデルである
初期モデルを初期モデル記憶手段5からモデル記憶手段
6にコピーする。また、フレームの番号tを1に設定す
る。次に、t=1番から最終のt=T番のフレームにつ
いて、フレーム番号tを1づつ増加しながら、フレーム
ごとに以下の処理を行う。
【0018】構文情報格納手段4に格納された構文情報
は、部分モデル系列のあとに接続可能なモデルを決める
ための情報であり、状態をあらわすノードと、遷移をあ
らわす枝とから表わされる。これは例えば図3に示すよ
うなグラフとして表現される。またこの構文情報は、構
文情報格納手段4内においては図4に示すような表とし
て格納されている。すなわち、ある部分モデル系列の現
在の構文的な状態をあらわす番号から、次に接続可能な
モデルと、そのモデルを選択したときに拡張された部分
モデル系列の次の状態番号が、表として与えられてい
る。図3に対応するグラフの構文状態の遷移表は図4の
ようになる。
【0019】モデル演算手段7は、1フレーム分の入力
を行い(ステップ22)、フレームごとに、構文情報に
従ったモデルのパラメータを適用し(ステップ23)、
入力される特徴パラメータ3の尤度を計算する(ステッ
プ24)。モデルのパラメータは、音韻モデルkについ
て、M混合のガウス分布の平均、分散、分岐係数μm
(k), Σm(k), λm(k) (m=1, 2, ..., M) からなる。
現在の構文状態がpのとき、構文情報から自己ループを
含めて後続の遷移可能なすべての枝を検知し、このすべ
ての枝について、その枝のモデルと遷移先の構文状態の
組み合わせ<k,q>∈{<k1,q1>,<k2,q2>, ..., <k
n,qn>}に対するモデルkの特徴パラメータxtの尤度f
(t,k)を、混合分布の各分布の尤度N(xt,μm(k),Σm
(k))の加重和として次式で計算する。
【0020】
【数1】
【0021】ステップ25では、次のようにして、1フ
レーム前の部分モデル系列を1フレーム分拡張し、新し
い部分モデル系列を生成する。種となる一フレーム前の
部分モデル系列が S1,S2,...のとき、部分モデル系列
を一つ選択し、Sとする。Sは構文状態δ(S)と、累積
尤度α(S)と、最終モデルk(S)とを情報として保持して
いる。Sの構文状態がpのとき、つぎの演算を行い、構
文状態、選択されるモデルの組み合わせに応じて、新し
い部分モデル系列の仮説U1,U2,...を生成する。例え
ば、選択されるモデルがkで、次の構文状態がqのと
き、これに対応して生成される新しい部分モデル系列を
Uとすると、Uの構文状態δ(U)はδ(U)=q、Uの累積
尤度α(U)はα(U)=α(S)+f(t,k)、Uの最終モデルはk
(U)=kである。
【0022】ビーム探索手段9は、モデル演算手段7で
生成された部分モデル系列U1,U2,...について、それ
らの累積尤度と、制御手段1000より与えられるビー
ム幅8とで決まる、ビーム幅範囲の中に入らない仮説を
破棄することで、ビーム幅の中に入る仮説だけを残し、
舶ェモデル系列として出力し、部分モデル系列格納手段
10に格納する(ステップ26)。ビーム幅8に基づく
ビーム幅範囲の設定は、U1,U2,...の累積尤度の中の
最大値αmaxを上限として、αmaxからビーム幅8を減じ
た値を下限αminとすることで行う。枝刈りは、U1,U
2,...の中から、その累積尤度α(U1),α(U2),... が、
αminからαmaxの間にある仮説を残し、それ以外を破棄
することで行う。
【0023】次に部分モデル系列選択手段11は、適応
化手段13における適応化に用いる情報としての部分モ
デル系列を選択する(ステップ27)。例えば、部分モ
デル系列格納手段10の中の部分モデル系列で、累積尤
度の大きい部分モデル系列から順番に探索し、異なるモ
デルを選択した部分モデル系列を最大でN個選択する。
【0024】次に適応化手段13は、部分モデル系列選
択手段11が現在のフレームで選択した部分モデル系列
U1,U2,...(最大でN個)の、選択されたモデルk ∈
k(U1),k(U2), ... (最大でN個)について、適応化
係数12に従って、パラメータの適応化を行う(ステッ
プ28)。この実施形態においては、モデルのパラメー
タは、音韻モデルkについて、M混合のガウス分布の平
均、分散、分岐係数μm(k),Σm(k),λm(k) (m=1, 2,
...,M)からなる。適応化の対象は、M混合の各分布
(正規密度関数)の尤度に対する分岐係数λm(k)と、M
混合の各分布の平均μm(k)であり、従って、補正前のパ
ラメータ14は、モデルkについてλm(k)と、μm(k)で
あり、その適応化は、次式で行う。
【0025】
【数2】
【0026】なお、wは適応化係数12で0≦w<1。
分散の適応化は理論上は次式で可能であるが、適応化の
対象となるパラメータ数を削減するため、この実施形態
では行わない。
【0027】
【数3】
【0028】全ての選択されたモデルについて、上記の
適応化が終了した後、適応化手段13は適応化の結果得
られたパラメータを補正後パラメータ15としてモデル
記憶手段6のパラメータを補正後のパラメータ15に置
き換える(ステップ29、30)。そして、後向き探索
手段1002による後向き探索を行い、認識結果100
3を得る(ステップ31)。なお、制御部1000はモ
デル記憶手段6の初期化から、入力のフレームに同期し
たモデル演算手段7の処理、ビーム探索手段9、適応化
手段13の各処理の制御を行う。
【0029】以上のように、t番目のフレームでの入力
フレームの尤度計算に用いるモデルのパラメータは、一
つ前のフレームで適応化処理により補正されたパラメー
タを用いている。これにより、次第に適応化が進んでい
く。すなわち、認識結果が出たあとではなく、認識処理
中に適応化が進められるものである。また、構文情報を
備えるビーム探索の過程の中で、構文情報で規定される
部分モデル系列から、尤度の高い部分モデル系列のモデ
ルを適応化の対象のモデルとして選択しているため、い
わば過去の履歴で補正されたフレームごとの認識結果に
よるモデルの適応化が実現されることになっている。こ
のため、従来のビーム探索のビーム幅の制御による、探
索量の減少の効果とともに、従来は得られなかった認識
精度の改善の効果が期待できる。また、部分モデル系列
選択手段11において、累積尤度の大きい部分モデル系
列から順番に探索し、異なるモデルを選択した部分モデ
ル系列を最大でN個選択するようにしたので、安定した
適応化が行える。
【0030】実施形態2.次に、モデルとしてセミ連続
分布の音韻モデルを用いる実施形態を示す。この場合の
ブロック図は図1と同じであり、フローチャートは図2
と同じである。モデルが異なるため、モデル演算と適応
化部の動作が異なるが、それ以外は同じであり、説明を
省略する。
【0031】モデル演算手段7は、フレームごとに、構
文情報4に従ったモデルのパラメータを適用し、入力の
特徴パラメータ3の尤度を計算する。この実施形態のモ
デルのパラメータは、すべての音韻について共通のM個
のコードブックのガウス分布の平均、分散μm,Σm (m=
1,2,...,M)と、音韻モデルkについての分岐係数λm(k)
からなる。現在の構文状態がpのとき、構文情報から自
己ループを含めて後続の遷移可能なすべての枝を検知
し、このすべての枝について、その枝のモデルと遷移先
の構文状態の組み合わせ<k,q>∈{ <k1,q1>,<k2,q
2>, ..., <kn,qn> }に対するモデルkの特徴パラメ
ータxtの尤度f(t,k)を、混合分布の各分布の尤度N(x
t,μm,Σm)の加重和として次式で計算する。
【0032】
【数4】
【0033】種となる一フレーム前の部分モデル系列が
S1,S2,...のとき、部分モデル系列を一つ選択し、S
とする。Sは構文状態δ(S)と、累積尤度α(S)と、最終
モデルk(S)とを情報として保持している。Sの構文状
態がpのとき、つぎの演算を行い、構文状態、選択され
るモデルの組み合わせに応じて、新しい部分モデル系列
の仮説U1,U2,...を生成する。例えば、選択されるモ
デルがkで、次の構文状態がqのとき、これに対応して
生成される新しい部分モデル系列をUとすると、Uの構
文状態δ(U)はδ(U)=q、Uの累積尤度α(U)はα(U)=α
(S)+f(t,k)、Uの最終モデルはk(U)=kである。
【0034】適応化手段13は、部分モデル系列選択手
段11が現在のフレームで選択した部分モデル系列U1,
U2,...(最大でN個)の、選択されたモデルk∈ k(U
1),k(U2), ...(最大でN個)について、適応化係数1
2に従ってパラメータの適応化を行う。この実施形態の
モデルkのパラメータは、すべての音韻について共通の
M個のコードブック(正規密度関数、平均、分散Σm,λ
m (m=1,2,...,M))である。適応化対象は音韻モデルk
についての分岐係数μm(k)である。従って、補正前のパ
ラメータ14は、モデルkについてλm(k)であり、その
適応化は次式で行う。
【0035】
【数5】
【0036】なお、N(xt,μm,Σm)が第m番目のコー
ドブックの尤度(正規密度関数の値)である。λm=0
なる分岐係数は、適応化してもλm=0のままである。
この実施形態では、したがって、λm=0なる係数につ
いての適応化のための演算を省略することで、精度に影
響を与えずに、演算量を削減することができる。すべて
のモデルについて、上記の適応化が終了した後、適応化
手段13は、適応化の結果得られたパラメータを補正後
パラメータ15としてモデル記憶手段6のパラメータを
補正後のパラメータ15に置き換える。
【0037】以上のように、実施形態1と同様、t番目
のフレームでの入力フレームの尤度計算に用いるモデル
のパラメータは、一つ前のフレームで適応化処理により
補正されたパラメータを用いている。これにより、次第
に適応化が進んでいく。すなわち、認識結果がでたあと
ではなく、認識処理中に適応化が進められるものであ
る。また、構文情報を備えるビーム探索の過程の中で、
構文情報で規定される部分モデル系列から、尤度の高い
部分モデル系列のモデルを、適応化の対象のモデルとし
て選択しているため、いわば過去の履歴で補正されたフ
レームごとの認識結果によるモデルの適応化が実現され
ることになっている。このため、従来のビーム探索のビ
ーム幅の制御による、探索量の減少の効果とともに、従
来は得られなかった認識精度の改善の効果が期待でき
る。この実施形態では、セミ連続分布を用いたため、分
岐係数の適応化だけで精度が改善される。計算、適応化
が容易である。
【0038】実施形態3.次に、音韻のモデルについ
て、フレームごとに適応化を行うもので、モデル系列の
尤度に応じた適応化係数による適応化をする実施形態を
示す。
【0039】この場合のブロック図は図1と同じであ
り、フローチャートは図2と同じである。音韻のモデル
は、実施形態2と同様のセミ連続分布モデルである。こ
の実施形態では音韻モデルとしてセミ連続分布モデルに
ついて説明したが、混合連続分布モデルでも、同様な効
果が期待できる。適応化手段13の動作が異なる以外は
実施形態2と同様であり、説明を省略する。
【0040】適応化手段13は、部分モデル系列選択手
段11が現在のフレームで選択した部分モデル系列U1,
U2,...(最大でN個)の、選択されたモデルk∈ k(U
1),k(U2), ...(最大でN個)について、適応化係数1
2に従って、選択された部分系列の尤度に応じて、パラ
メータの適応化を行う。モデルkについて、適応化係数
w(k)の適応化を行う。ここで、モデルkの適応化係数
w(k)は、
【0041】
【数6】
【0042】式中、U(k)は選択されたモデルkを選択
するにあたって用いられた部分モデル系列である。この
実施形態のモデルkのパラメータは、すべての音韻につ
いて共通のM個のコードブック(正規密度関数、平均、
分散μm,Σm (m=1,2,...,M))である。適応化対象は、
音韻モデルkについての分岐係数λm(k)である。従っ
て、補正前のパラメータ14は、モデルkについてλm
(k)であり、その適応化は、次式で行う。
【0043】
【数7】
【0044】なお、N(xt,μm,Σm)が第m番目のコー
ドブックの尤度(正規密度関数の値)である。λm=0
なる分岐係数は、適応化してもλm=0のままである。
この実施形態では、したがって、λm=0なる係数につ
いての適応化のための演算を省略することで、精度に影
響を与えずに、演算量を削減することができる。すべて
のモデルについて、上記の適応化が終了した後、適応化
手段13は、適応化の結果得られたパラメータを補正後
パラメータ15としてモデル記憶手段6のパラメータを
補正後のパラメータ15に置き換える。
【0045】以上のように、実施形態1と同様、t番目
のフレームでの入力フレームの尤度計算に用いるモデル
のパラメータは、一つ前のフレームで適応化処理により
補正されたパラメータを用いている。これは、構文情報
を備えるビーム探索の過程の中で、構文情報で規定され
る部分モデル系列から、尤度の高い部分モデル系列のモ
デルを、適応化の対象のモデルとして選択しているた
め、いわば過去の履歴で補正されたフレームごとの認識
結果によるモデルの適応化が実現されることになってい
る。このため、従来のビーム探索のビーム幅の制御によ
る、探索量の減少の効果とともに、従来は得られなかっ
た認識精度の改善の効果が期待できる。この実施形態で
はセミ連続分布を用いたため、分岐係数の適応化だけで
精度が改善される。計算、適応化が容易である。また、
部分系列の尤度を考慮するため、誤った方向の適応化を
防止することが期待できる。
【0046】実施形態4.次に音韻境界のモデルについ
て、フレームごとに適応化を行うものを示す。音韻境界
のモデルは、音韻間の遷移に対応したモデル間の遷移を
制御するためのモデルであり、次の尤度比が1より大き
いときに音韻間の遷移が可能である。 <尤度比>=<音韻境界である第1の確率密度>/<音
韻境界でない第2の確率密度> この実施形態では、第1の確率密度(Pr(Bt|境界))およ
び第2の確率密度(Pr(Bt|非境界))は、コードブックの
確率度密度関数の次の多項式で与えられる。但し、Bt
はt番目及びその前後のフレームから作成した特徴量で
ある。
【0047】
【数8】
【0048】この実施形態での部分モデル系列選択手段
11は、部分モデル系列格納手段10の部分モデル系列
の中から、音韻境界の遷移が起こった部分モデル系列
(即ち、自己ループに対応しないもの)を尤度の大きい
方から、最大でN個選択する。これにより、特別な計算
をすることなく選択が行える。また、この実施形態での
適応化手段13は、部分モデル系列選択手段11が現在
のフレームで選択した部分モデル系列U1,U2,...(最
大でN個)の、選択されたモデルk∈ k(U1), k(U2),
...(最大でN個)について、適応化係数12に従っ
て、パラメータの適応化を行う。この実施形態の音韻境
界モデルkのパラメータは、コードブックの尤度に対す
る分子多項式係数Pm(k)であり、従って、補正前のパラ
メータ14はモデルkについてPm(k)であり、その適応
化は次式で行う。
【0049】
【数9】
【0050】なお、MBは音韻境界モデル用のコードブ
ック(正規密度関数)の数、N(Bt,μm,Σm)は正規密
度関数、μm,Σmはそれぞれ正規密度関数の平均および
分散である。wは適応化係数である。Pm=0なる多項
式係数は、適応化してもPm=0のままである。この実
施形態では、したがって、Pm=0なる係数についての
適応化のための演算を省略することで、精度に影響を与
えずに演算量を削減することができる。すべてのモデル
について、上記の適応化が終了した後、適応化手段13
は、適応化の結果得られたパラメータを補正後パラメー
タ15としてモデル記憶手段6のパラメータを補正後の
パラメータ15に置き換える。
【0051】実施形態5.次に、フレームごとのモデル
の適応化処理とともに、ビーム探索の幅を、フレームに
同期して、斬減させる例を示す。図5にビーム探索の幅
の変化を模式的に示す。フレームごとのモデルの適応化
処理によって、尤度が高くなることが期待され、ビーム
内における正解の仮説の順位が向上する。このため、ビ
ーム幅をフレームごとに斬減させることで、探索量が削
減される。ビーム幅8の更新は次式で行う。但し、θは
ビーム幅である。 θ ← θ*(1−w)+<ビーム幅推定値>*w
【0052】ここで、<ビーム幅推定値>は、数多くの
例について認識実験を行い、最終入力フレームにおいて
正解の部分モデル系列の尤度と、そのときの尤度が最大
の部分モデル系列の尤度との差として求めた。ビーム幅
の初期値は、<ビーム幅推定値>に比べ、大きな値に設
定する。上の式でwはビーム幅をフレームごとに更新す
るときの度合いを決める適応化係数である。
【0053】適応化係数をどのように設定するのが妥当
かを実験的に決めるため評価実験を行った。音節の3連
鎖の制約を構文情報とする。出力の仮説はグラフ構造に
なっている。グラフ構造の複雑さの減少の程度でフレー
ムごとの適応化の効果を調べた。図6は、音韻モデル
(セミ連続分布モデル)の1フレームごとの適応化を行
う実施形態2の適応化のため選択する仮説数Nと適応化
係数wとの組み合わせ条件について、 (1)正解のモデル系列の尤度と最大の尤度を示したモデ
ル系列の尤度との差(Δ) (2)出力グラフのノード数 (3)出力グラフのエッジ数(枝の数) に基づいて作成した実験結果を示す。
【0054】それぞれの数値は、(1)については、フレ
ームごとの適応化なしの場合を0として、それに対する
Δの増加分を、また、(2)と(3)については、フレームご
との適応化なしの場合を1として、それに対する比を、
様々な不特定話者の入力音声を認識したときについて平
均した数値を示す。なお、評価に用いた入力音声は、次
の20フレーズである。
【0055】(話者):(フレーズの音韻記述) ecl0009 :kaizjoowa dociradesuka ecl0009 :kikaisiNkookaikaNnara tookjootawaano mae
desu ecl0009 :tookjootawaano maedesuka etl1003 :tookjootawaano maedesu etl1003 :tookjootawaano mae fuj0003 :koNdono hujujasumini fuj0003 :cukubani cuite osiete kudasai fuj0003 :cukubawa fuj0003 :zjeeaarude kuru baaiwa kdd1005 :koNdo kdd1005 :oNseekeNkjuukaiga aruNde soreo kikini ik
itaiNdesukeredo mac0003 :kikaisiNkookaikaNdesu mat1003 :koNdo oNseekeNkjuukaiga aruNde mat1003 :tookjootawaadesu mit0003 :kanazawano rjokooaNnaisjodesjooka mit0003 :sinainiwa cjuuooni keNrokueNga arimasu nec1011 :kaNkoopuraNzukurio otasukesimasu nec1011 :dokoka mite mitai tokorowa arimasuka nec1011 :rakuhokuhoomeNto
【0056】また図6の結果をグラフにして表現したも
のを図7、図8、図9に示す。それぞれX軸を適応化係
数w、Y軸を適応化のため選択する仮説数Nとしたもの
であり、Z軸として図7は上記(1)のΔ、図8は上記(2)
のノード数、図9は上記(3)のエッジ数をとったもので
ある。なお、XY平面上にはZ軸の等高線を示してい
る。図6〜図9から、w=0.005かつN=1〜50、また、
w=0.01かつN=1〜50、さらに、w=0.02かつN=1〜
200、w=0.05かつN=50〜100にすれば、Δが減少かつ
ノード数とエッジ数が減少することがわかる。Δの減少
は音声認識の精度の向上を示し、またノード数とエッジ
数の減少は、音声認識の精度の向上によって、正解以外
のモデル系列の生成が抑制されたことを示していると考
えられる。
【0057】図10は、音韻境界のモデル(セミ連続分
布モデル)の1フレームごとの適応化を行う実施形態4
の適応化のため選択する仮説数Nと適応化係数wとの組
み合わせ条件について、 (1)正解のモデル系列の尤度と最大の尤度を示したモデ
ル系列の尤度との差(Δ) (2)出力グラフのノード数 (3)出力グラフのエッジ数(枝の数) に基づいて作成した実験結果を示す。
【0058】それぞれの数値は、(1)については、フレ
ームごとの適応化なしの場合を0として、それに対する
Δの増加分を、また、(2)と(3)については、フレームご
との適応化なしの場合を1として、それに対する比を、
様々な不特定話者の入力音声を認識したときについて平
均した数値を示す。評価に用いた入力音声は、上記の2
0フレーズである。また図10の結果をグラフにして表
現したものを図11、図12、図13に示す。それぞれ
X軸を適応化係数w、Y軸を適応化のため選択する仮説
数Nとしたものであり、Z軸として図11は上記(1)の
Δ、図12は上記(2)のノード数、図13は上記(3)のエ
ッジ数をとったものである。なお、XY平面上にはZ軸
の等高線を示している。
【0059】図10〜図13から、音韻境界モデルの適
応化係数wと適応化する境界の種類数Nの適切な範囲と
しては、w=0.1かつN=100〜500、また、w=0.2かつ
N=100、さらに、w=0.3かつN=50〜500、w=0.4か
つN=50〜500、w=0.5かつN=1〜500などで、Δが減
少かつノード数とエッジ数が減少することがわかる。Δ
の減少は、音声認識の精度の向上を示し、また、ノード
数とエッジ数の減少は、音声認識の精度の向上によっ
て、正解以外のモデル系列の生成が抑制されたことを示
していると考えられる。
【0060】
【発明の効果】以上に説明したように、この発明によれ
ば、入力音声の各フレームで入力音声にモデルを適応化
し、この適応化されたモデルの系列からなるモデル系列
に対する入力音声の尤度を探索処理により求めるように
したので、過去の履歴で補正されたフレームごとの認識
結果によるモデルの適応化が実現されることになり、探
索量の減少の効果とともに認識精度の改善の効果があ
る。
【0061】また、入力音声の途中のビーム内の仮説の
尤度の大きい方からN個の仮説を用いて、上記モデルを
入力音声へ適応化することにより、安定した適応化が行
える。
【0062】また、入力音声の途中のビーム内の仮説の
尤度の大きい方からN個の仮説を用いるとともに、尤度
に応じた重みによる加重を用いて上記モデルを入力音声
へ適応化することにより、安定した適応化が行える。
【0063】また、上記モデルを音韻のモデルのセミ連
続分布のモデルとし、音韻のモデルの分岐係数だけを適
応化することにより、計算処理や適応化を容易に行うこ
とができる。
【0064】また、上記モデルを音韻境界のモデルのセ
ミ連続分布のモデルとし、音韻境界のモデルの分岐係数
だけを適応化することにより、計算処理や適応化を容易
に行うことができる。
【0065】また、音韻境界のモデルの入力音声への適
応化において、入力音声の途中のビーム内の仮説の尤度
の大きい方からN個の仮説を選択する際に、モデル間の
遷移を有する部分モデル系列の仮説を選択することによ
り、容易に選択を行える。
【0066】また、ビーム探索の探索の幅をフレームご
とに適応化係数を用いて変化させることにより、ビーム
の幅をモデルの適応の度合いに応じて絞り、探索量を削
減することができる。
【図面の簡単な説明】
【図1】 この発明の実施形態における音声認識方式の
機能ブロック図である。
【図2】 この発明の実施形態における音声認識動作の
フローチャートである。
【図3】 この発明の実施形態における構文制御情報の
模式図である。
【図4】 この発明の実施形態における構文制御情報の
構成の説明図である。
【図5】 この発明の実施形態におけるビーム探索の幅
の変化を示す説明図である。
【図6】 この発明の実施形態における評価結果の説明
図である。
【図7】 この発明の実施形態における評価結果をグラ
フ化して示す説明図である。
【図8】 この発明の実施形態における評価結果をグラ
フ化して示す説明図である。
【図9】 この発明の実施形態における評価結果をグラ
フ化して示す説明図である。
【図10】 この発明の実施形態における評価結果の説
明図である。
【図11】 この発明の実施形態における評価結果をグ
ラフ化して示す説明図である。
【図12】 この発明の実施形態における評価結果をグ
ラフ化して示す説明図である。
【図13】 この発明の実施形態における評価結果をグ
ラフ化して示す説明図である。
【図14】 従来の音声認識方式の機能ブロック図であ
る。
【符号の説明】
1 音声区間切出手段 2 分析手段 3 特徴パラメータ 4 構文情報格納手段 5 初期モデル記憶手段 6 モデル記憶手段 7 モデル演算手段 8 ビーム幅 9 ビーム探索手段 10 部分モデル系列格納手段 11 部分モデル系列選択手段 12 適応化係数 13 適応化手段 14 補正前パラメータ 15 補正後パラメータ 1000 制御手段 1001 入力音声 1002 後向き探索手段 1003 認識結果 1004 中間スタック

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の各フレームで入力音声にモデ
    ルを適応化し、この適応化されたモデルの系列からなる
    モデル系列に対する入力音声の尤度を探索処理により求
    め、この尤度に基づき音声認識を行うことを特徴とする
    音声認識方式。
  2. 【請求項2】 上記探索処理としてビーム探索を用いる
    ことを特徴とする請求項1記載の音声認識方式。
  3. 【請求項3】 入力音声の途中のビーム内の仮説の尤度
    の大きい方からN個の仮説を用いて、上記モデルを入力
    音声へ適応化することを特徴とする請求項2記載の音声
    認識方式。
  4. 【請求項4】 入力音声の途中のビーム内の仮説の尤度
    の大きい方からN個の仮説を用いるとともに、尤度に応
    じた重みによる加重を用いて上記モデルを入力音声へ適
    応化することを特徴とする請求項2記載の音声認識方
    式。
  5. 【請求項5】 上記モデルを音韻のモデルとしたことを
    特徴とする請求項1ないし4いずれかに記載の音声認識
    方式。
  6. 【請求項6】 上記モデルを音韻境界のモデルとしたこ
    とを特徴とする請求項1ないし4いずれかに記載の音声
    認識方式。
  7. 【請求項7】 上記モデルを音韻のモデルおよび音韻境
    界のモデルとしたことを特徴とする請求項1ないし4い
    ずれかに記載の音声認識方式。
  8. 【請求項8】 上記音韻のモデルをセミ連続分布のモデ
    ルとし、音韻のモデルの分岐係数だけを適応化すること
    を特徴とする請求項5または7いずれかに記載の音声認
    識方式。
  9. 【請求項9】 上記音韻境界のモデルをセミ連続分布の
    モデルとし、音韻境界のモデルの分岐係数だけを適応化
    することを特徴とする請求項6または7いずれかに記載
    の音声認識方式。
  10. 【請求項10】 上記音韻境界のモデルの入力音声への
    適応化において、入力音声の途中のビーム内の仮説の尤
    度の大きい方からN個の仮説を選択する際に、モデル間
    の遷移を有する部分モデル系列の仮説を選択することを
    特徴とする請求項6記載の音声認識方式。
  11. 【請求項11】 ビーム探索の探索の幅をフレームごと
    に適応化係数を用いて変化させることを特徴とする請求
    項2ないし4いずれかに記載の音声認識方式。
JP05616297A 1997-03-11 1997-03-11 音声認識方式 Expired - Fee Related JP4042176B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05616297A JP4042176B2 (ja) 1997-03-11 1997-03-11 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05616297A JP4042176B2 (ja) 1997-03-11 1997-03-11 音声認識方式

Publications (2)

Publication Number Publication Date
JPH10254496A true JPH10254496A (ja) 1998-09-25
JP4042176B2 JP4042176B2 (ja) 2008-02-06

Family

ID=13019410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05616297A Expired - Fee Related JP4042176B2 (ja) 1997-03-11 1997-03-11 音声認識方式

Country Status (1)

Country Link
JP (1) JP4042176B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005208648A (ja) * 2004-01-20 2005-08-04 Microsoft Corp スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
US7072835B2 (en) 2001-01-23 2006-07-04 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
WO2011083528A1 (ja) * 2010-01-06 2011-07-14 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
CN112151020A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072835B2 (en) 2001-01-23 2006-07-04 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JP2005208648A (ja) * 2004-01-20 2005-08-04 Microsoft Corp スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
JP4729078B2 (ja) * 2008-06-13 2011-07-20 日本電信電話株式会社 音声認識装置とその方法と、プログラムとその記録媒体
WO2011083528A1 (ja) * 2010-01-06 2011-07-14 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
US9047562B2 (en) 2010-01-06 2015-06-02 Nec Corporation Data processing device, information storage medium storing computer program therefor and data processing method
JP5786717B2 (ja) * 2010-01-06 2015-09-30 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム
CN112151020A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4042176B2 (ja) 2008-02-06

Similar Documents

Publication Publication Date Title
US5515475A (en) Speech recognition method using a two-pass search
EP0706171B1 (en) Speech recognition method and apparatus
KR100697961B1 (ko) 반-지시된 화자 적응
JP3913770B2 (ja) 音声合成装置および方法
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
JP2002108383A (ja) 音声認識システム
Schwartz et al. Efficient, high-performance algorithms for n-best search
JPH11327592A (ja) 話者正規化処理装置及び音声認識装置
JPH0372999B2 (ja)
US6253178B1 (en) Search and rescoring method for a speech recognition system
JPS62231995A (ja) 音声認識方法
CN112908317B (zh) 一种针对认知障碍的语音识别系统
JP4042176B2 (ja) 音声認識方式
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
US7337114B2 (en) Speech recognition using discriminant features
GB2347253A (en) Selectively assigning a penalty to a probability associated with a voice recognition system
Konig et al. Remap: Recursive estimation and maximization of a posteriori probabilities-application to transition-based connectionist speech recognition
JP2002091468A (ja) 音声認識システム
JPH0895592A (ja) パターン認識方法
JP3315565B2 (ja) 音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
Ketabdar et al. Developing and enhancing posterior based speech recognition systems
JP2888781B2 (ja) 話者適応化装置及び音声認識装置
Renals et al. Connectionist speech recognition: Status and prospects
JPH0822296A (ja) パターン認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040220

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees