JP3009640B2 - 音響モデル生成装置及び音声認識装置 - Google Patents
音響モデル生成装置及び音声認識装置Info
- Publication number
- JP3009640B2 JP3009640B2 JP9245206A JP24520697A JP3009640B2 JP 3009640 B2 JP3009640 B2 JP 3009640B2 JP 9245206 A JP9245206 A JP 9245206A JP 24520697 A JP24520697 A JP 24520697A JP 3009640 B2 JP3009640 B2 JP 3009640B2
- Authority
- JP
- Japan
- Prior art keywords
- gaussian
- distribution
- hmm
- likelihood
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
ル(以下、HMMという。)などの音響モデルを生成す
る音響モデル生成装置、並びに、生成された音響モデル
を用いて、入力される発声音声文の音声信号に基づいて
音声認識する音声認識装置に関する。
性能の向上のために音響モデルとしてのHMMに対して
は、精密性、頑健性の両方が求められる。精密性向上
は、個々の音響単位(例えば音素)毎の音響現象に対し
て、実際の音声サンプルに基づき、如何に忠実なモデリ
ングを行なうか、という問題である。しかしながら、実
際には、使用できる音声サンプル量の不足により、精密
性を追及しすぎると、その音声サンプルのみに特化した
極めて頑健性の低いモデリングが為されてしまう(過学
習)。そのため、音響モデルの頑健性を確保するため
に、しばしば、異なる音響単位間でのモデルパラメータ
の共有が行なわれる。モデルパラメータを共有すること
により、1パラメータ当りの音声サンプル量が増え、そ
の結果、特に音声サンプル中にあまり多く現れなかった
音響単位に対するパラメータ推定値が比較的高い信頼性
を持つことになり、モデリング全体としての頑健性が向
上する。ところが、モデルパラメータを共有するという
ことは、とりもなおさず、「パラメータを共有している
音響単位同士については、少なくとも部分的には、その
識別を行なわない」ということであり、場合によっては
モデリングとしての精密性を犠牲にする可能性がある。
及すればもう片方が損なわれるという関係にあり、両者
の平衡点を、音声サンプル量に応じて、出来るかぎり適
切に求めることが重要である。ところで、この平衡点
は、音響モデルと組み合わせる言語モデルの種類によっ
ても異なるであろう。例えば、言語モデルとして、音素
連接規則のみを言語モデルに用いた場合と、単語のN−
gramを用いた場合とでは、音響モデルの果たすべき
役割も異なるように思われる。
力、即ち精密性に対する要求が強くなるであろう。なぜ
なら音響モデルで択一的な識別が成功しなければ、音素
連接規則のみによってその誤りを復旧できる可能性は限
られているからである。一方、後者の場合、音響モデル
で必ずしも択一的な識別が成功しなくても、語彙として
許され得る音素並びや、単語の連接確率の制約等によ
り、前者に比べてその誤りを復旧できる可能性は大き
い。つまり、後者のような、比較的強い言語制約を用い
た場合には、緩い言語制約の場合にと比べて、音響モデ
ルに対して、精密性、つまり、「対応する音素に対して
最も高い尤度を与え、かつ他の音素に対しては低い尤度
を与えること」よりも、むしろ、頑健性、つまり、「よ
り多くの分布が、対応する音素に対して、それなりに高
い尤度を与えること」が求められ、そのために、「対応
する音素に対して最も高い尤度を与え、かつ他の音素に
対しては低い尤度を与えること」を多少犠牲にしても、
総合的にはよい結果をもたらすと考えられるのである。
分布間でのガウス分布共有の先行研究としては、例え
ば、従来技術文献1「X.D.Huang et al.,“Unified Tec
hniques for Vector Quantization and Hidden Markov
Modeling Using Semi-continuous models",Proceddings
of ICASSP'89,pp.639-642,1989年』等に見られる半連
続HMMの構成法(以下、第1の従来例という。)が代
表的である。また、音声サンプルに基づいて分布の共有
関係を決定する手法としては、逐次状態分割融合法(例
えば、従来技術文献2「鷹見淳一,“状態分割融合法に
よる高効率な隠れマルコフ網の自動作成”,電子情報通
信学会論文誌(D−II),J78−D−II,No.
5,pp.717−726,1995年5月」参照。)
(以下、第2の従来例という。)がある。
従来例の手法による共有関係は、「ガウス混合分布間の
パラメトリックな距離に基づいて決定されており、実際
の音声サンプルの特性が反映されない」という欠点があ
る。また、第2の従来例においては、 (a)ガウス混合分布間のパラメトリックな距離に基づ
いて共有関係を仮決定した後に、その最終的採否のみを
音声サンプルを用いて行なうために、必ずしも、音声サ
ンプルの特徴に基づく共有構造が形成される保証がな
い。 (b)ガウス分布の共有が、ガウス混合分布のコンポー
ネント全体を単位としてしか行なわれないため、分布の
表現力に欠ける。 (c)基本的に、一状態についての融合の決定毎にHM
M全体のパラメータ再推定を行なうため、共有関係の最
終的な決定までに長い時間を要する。という欠点があ
る。
声データの特性をより精密に反映することができるとと
もに、不特定話者音響モデルの表現力を従来例に比較し
て向上させることができ、しかもより高い音声認識率で
音声認識することができる音響モデルを生成するための
音響モデル生成装置、及び音声認識装置を提供すること
にある。
載の音響モデル生成装置は、所定の音声データの特徴パ
ラメータに基づいて、所定の学習アルゴリズムにより、
初期の隠れマルコフモデルを生成する第1の生成手段
と、上記音声データに対して初期の隠れマルコフモデル
が起こす、所定の時間のフレーム単位の識別誤りである
フレーム誤りの傾向に基づいて隠れマルコフモデルのガ
ウス混合分布のコンポーネントを追加することにより、
上記第1の生成手段によって生成された初期の隠れマル
コフモデルを再構成して、再構成された隠れマルコフモ
デルを生成する第2の生成手段と、上記音声データの特
徴パラメータに基づいて、所定の学習アルゴリズムによ
り、上記第2の生成手段によって生成された隠れマルコ
フモデルを再学習することにより、再学習された隠れマ
ルコフモデルである音響モデルを生成する第3の生成手
段とを備えたことを特徴とする。
は、請求項1記載の音響モデル生成装置において、上記
第2の生成手段は、上記初期の隠れマルコフモデルと上
記音声データとの間でビタビアラインメント処理を実行
することにより、(a)上記初期の隠れマルコフモデル
中に含まれるガウス混合分布のビタビ系列と、(b)上
記音声データの各フレームに対して最も高い尤度を与
え、上記初期の隠れマルコフモデル中に各ガウス混合分
布のコンポーネントとして含まれるガウス分布の最尤系
列とを得る第1の処理手段と、上記第1の処理手段によ
って得られた、ガウス混合分布のビタビ系列、及びガウ
ス分布の最尤系列における、時刻を同じくするガウス混
合分布と、ガウス分布の組み合わせのそれぞれの出現頻
度に基づいて、上記初期の隠れマルコフモデル中に含ま
れるガウス混合分布とガウス分布の全ての組み合わせに
ついて、各ガウス混合分布においてフレーム誤りが生じ
てかつそのときの最尤ガウス分布が当該組み合わせのガ
ウス分布であるときのフレーム誤り確率を演算し、演算
された各フレーム誤り確率が所定のしきい値を越えると
きに当該ガウス分布を、当該ガウス混合分布の新たなコ
ンポーネントとして追加する第2の処理手段とを備え、
上記第2の処理手段によって各ガウス混合分布の新たな
コンポーネントとして追加された各ガウス分布は、当該
ガウス分布が上記初期の隠れマルコフモデル中で、コン
ポーネントとして属していたガウス混合分布と、上記第
2の処理手段によって新たにコンポーネントとして属す
ることになったガウス混合分布との双方から共有される
コンポーネントとなることを特徴とする。
求項1又は2記載の音響モデル生成装置によって生成さ
れた音響モデルを用いて、入力される発声音声文の音声
信号に基づいて音声認識する音声認識手段を備えたこと
を特徴とする。
る実施形態について説明する。
認識装置のブロック図を示す。本実施形態においては、
単語単位のN−gramを用いた音声認識装置におい
て、既学習の音響モデル(HMM)が、緩い言語制約で
の音声認識向きの、精密性過多の状態にあるという仮定
の下に、その頑健性を増すべく、既学習HMMにおける
複数ガウス混合分布間でのガウス分布共有を行う。モデ
リングの観点からは、この共有構造が、音声サンプルに
基づいて決定されることが望ましい。本実施形態では、
従来技術の問題点を解決するために、(a)音声データ
のみに基づいてガウス分布の共有関係を決定する、
(b)ガウス分布の共有を各ガウス分布毎に行う、並び
に、(c)共有構造決定のためのパラメータ再推定が1
回しか行なわないために、短時間で共有関係の決定が可
能である複数ガウス混合分布間でのガウス分布共有の方
法を用いる。
ように、(a)音声データメモリ30に格納された所定
の音声データの特徴パラメータに基づいて、所定の学習
アルゴリズムにより、初期のHMMを生成する初期HM
M生成部21と、(b)上記音声データに対して初期の
HMMが起こす、所定の時間のフレーム単位の識別誤り
であるフレーム誤りの傾向に基づいてHMMのガウス混
合分布のコンポーネントを追加することにより、初期H
MM生成部21によって生成された初期のHMMを再構
成して、再構成されたHMMを生成するHMM再構成部
22と、(c)上記音声データの特徴パラメータに基づ
いて、所定の学習アルゴリズムにより、HMM再構成部
22によって生成されたHMMを再学習することによ
り、再学習されたHMMである音響モデルを生成する再
学習部23とを備えたことを特徴とする。
上記初期のHMMと上記音声データとの間でビタビアラ
イメント処理を実行することにより、上記初期のHMM
にそれぞれ含まれる複数のガウス混合分布の集合と複数
のガウス分布の集合を得た後、(b2)得られた複数の
ガウス混合分布と複数のガウス分布のすべての組み合わ
せについて、各ガウス混合分布においてフレーム誤りが
生じてかつそのときの最尤ガウス分布が当該組み合わせ
のガウス分布であるときのフレーム誤り確率を演算し、
演算された各フレーム誤り確率が所定のしきい値を超え
るときに当該ガウス分布を、当該ガウス混合分布の新た
なコンポーネントとして追加することを特徴とする。
23によって生成された音素HMMを用いて、入力され
る発声音声文の音声信号に基づいて音声認識する。ここ
で、本実施形態の音声認識装置は、公知のワン−パス・
ビタビ復号化法を用いて、入力される発声音声文の音声
信号の特徴パラメータに基づいて上記発声音声文の単語
仮説を検出し音響尤度を計算して出力する単語照合部4
を備えた連続音声認識装置において、単語照合部4から
バッファメモリ5を介して出力される、単語仮説に対し
て、当該単語の各音素の時間方向の中央部の音響尤度の
ピークを、当該中央部よりも遅延された時刻に移動する
ように遅延させて、当該単語仮説の音響尤度を補正する
尤度補正部7と、尤度補正部7から出力される音響尤度
を含む総合尤度を有する単語仮説に基づいて、当該単語
の先頭音素環境毎に、発声開始時刻から当該単語の終了
時刻に至る計算された総合尤度のうちの最も高い尤度を
有する1つの単語仮説で代表させるように単語仮説の絞
り込みを行う単語仮説絞込部6を備える。
る。音声データメモリ30には、不特定話者の音声デー
タの特徴パラメータが予め記憶され、ここで、特徴パラ
メータは、音声波形信号をフレーム単位でA/D変換し
た音声サンプルに対してLPC分析した得た、対数パワ
ー、16次LPCケプストラム係数、Δ対数パワー、及
び16次Δケプストラム係数を含む。初期HMM生成部
21は、音声データメモリ30に格納された所定の音声
データの特徴パラメータに基づいて、バーム・ウエルチ
(Baum−Welch)の学習アルゴリズムにより、
初期のHMMを生成して、初期HMMメモリ31に格納
する。
タメモリ30内の音声データに基づき、初期HMMに対
して本実施形態の方法によるガウス混合分布の再構成
(コンポーネント追加、共有)を行なって再構成された
HMMを再構成されたHMMメモリ32に格納する。さ
らに、再学習部23は、再構成後のHMMに対して、パ
ラメータを再推定し、最終的な音素HMMとして、音素
HMMメモリ11に格納する。本実施形態の再構成方法
及びパラメータ再推定においては、基本的に、初期モデ
ルの作成に用いた音声データをそのまま用いる。従っ
て、本処理のために、新たに音声サンプルを用意する必
要はないという利点を有する。
ーネント追加に関する考え方について述べる。本実施形
態の方法の本質は、音声データに対して初期HMMが起
こすフレーム単位の識別誤り(以下、フレーム誤り)の
傾向を考慮して、ガウス混合分布のコンポーネント追加
を行なうことにある。このフレーム誤りとは、初期HM
Mと音声サンプルによるビタビアライメント(Vite
rbi alignment)処理において、以下の条
件を満たす場合を指す。
ときに変数γ(ガウス混合分布)を変化したときに関数
値が最大となる値を示す関数である。また、 ot:時刻tにおける特徴ベクトル、 gt:ビタビアライメント処理によって時刻tに割り当
てられたガウス混合分布、Γ:初期HMM全体のガウス
混合分布の集合(すなわち、初期HMMの各状態におけ
る複数のガウス混合分布の集合である。)、 P(o│g):分布gから特徴ベクトルoが出力される
ことに対する尤度である。
の余事象をEcと書くことにする。特定の音響現象に対
して、このフレーム誤りを頻繁に起こすガウス混合分布
は、実際の音声認識において、正解経路上で当該音響現
象との照合を行なう際に音響尤度の落ち込みを起こしや
すい。今、時刻tについて、以下のガウス分布xtを考
える。
ξ(ガウス分布)を変化したときに関数値が最大となる
ときの変数ξを示す関数である。また、Ξ:初期HMM
全体のガウス分布の集合(すなわち、初期HMMにおけ
る各状態におけるガウス混合分布の元となるガウス分布
の集合である)である。
のガウス混合分布のコンポーネントであるが、ここでは
特徴ベクトルoiに対して最大の音響尤度を与える単独
のガウス分布として扱う。さらに、Γの元の時系列{g
t}とΞの元の時系列{xt}について、各元の出現頻度
を分析することにより、条件付きフレーム誤り確率、P
(E,ξ│γ)(γ∈Γ,ξ∈Ξ)が得られる。この条
件付きフレーム誤り確率P(E,ξ│γ)は、ガウス混
合分布ξにおいてフレーム誤りが生じてかつそのときの
最尤ガウス分布が当該ガウス分布γであるときのフレー
ム誤り確率である。フレーム誤り確率P(E,ξ│γ)
がある程度大きい値を持つならば、ガウス混合分布γ
は、ガウス分布ξの近傍の音響現象との照合を行なう際
に音響尤度の落ち込みを起こしやすいといえる。そこ
で、ガウス分布ξをガウス混合分布γのコンポーネント
として新たに追加することにより、その悪影響を抑止出
来ると考えられる。
について説明する。以下の、(ステップSS1)〜(ス
テップSS5)の処理を実行することにより、ガウス混
合分布のコンポーネント追加、共有が実現される。 (ステップSS1)初期HMMと音声サンプルの間でビ
タビアライメント処理を実行し、ガウス混合分布の集合
であるΓの元の時系列、すなわちビタビ系列{gt}、
及びガウス分布の集合であるΞの元の時系列、すなわち
ガウス分布の最尤系列{xt}をそれぞれ得る(図7参
照。)。 (ステップSS2)ステップSS1で得た時系列から、
ガウス混合分布γとガウス分布ξの全ての組合せについ
て、条件付きフレーム誤り確率P(E,ξ│γ)を得る
(図8参照。)。 (ステップSS3)全てのガウス混合分布γについてス
テップSS4を実行する。 (ステップSS4)全てのガウス分布ξについてステッ
プSS5を実行する。 (ステップSS5)条件付きフレーム誤り確率P(E,
ξ│γ)があらかじめ定めたしきい値を越える場合、ガ
ウス混合分布ξを、ガウス分布γの新たなコンポーネン
トとして追加する(図9参照。)。追加したコンポーネ
ントは、ガウス分布γと、ガウス混合分布ξが元々属し
ていたガウス混合分布との間で共有する。 上記ステップSS5のしきい値処理により、音声データ
中に含まれる偶発的な雑音等に起因するフレーム誤りに
対するコンポーネント追加を抑止することが出来る。す
なわち、上記HMM再構成処理は、(I)上記初期HM
Mと上記音声データとの間でビタビアラインメント処理
を実行することにより、(a)上記初期HMM中に含ま
れるガウス混合分布のビタビ系列と、(b)上記音声デ
ータの各フレームに対して最も高い尤度を与え、上記初
期HMM中に各ガウス混合分布のコンポーネントとして
含まれるガウス分布の最尤系列とを得る第1の処理と、
(II)上記第1の処理によって得られた、ガウス混合分
布のビタビ系列、及びガウス分布の最尤系列における、
時刻を同じくするガウス混合分布と、ガウス分布の組み
合わせのそれぞれの出現頻度に基づいて、上記初期HM
M中に含まれるガウス混合分布とガウス分布の全ての組
み合わせについて、各ガウス混合分布においてフレーム
誤りが生じてかつそのときの最尤ガウス分布が当該組み
合わせのガウス分布であるときのフレーム誤り確率を演
算し、演算された各フレーム誤り確率が所定のしきい値
を越えるときに当該ガウス分布を、当該ガウス混合分布
の新たなコンポーネントとして追加する第2の処理手段
とを含み、(III)上記第2の処理によって各ガウス混
合分布の新たなコンポーネントとして追加された各ガウ
ス分布は、当該ガウス分布が上記初期HMM中で、コン
ポーネントとして属していたガウス混合分布と、上記第
2の処理によって新たにコンポーネントとして属するこ
とになったガウス混合分布との双方から共有されるコン
ポーネントとなる。
2によって実行されるHMM再構成処理の詳細を示すフ
ローチャートである。まず、図3のステップS1で、音
声データ番号nのパラメータを0に初期化し、次いで、
ステップS2で音声データ#nと初期HMMとの間でビ
タビのアライメント処理を実行し、ガウス混合分布のビ
タビ系列{gnt}及びガウス分布の最尤系列{xnt}
を求める。そして、ステップS3で全データについてス
テップS2の処理を実施したか否かが判断され、NOの
ときステップS4でパラメータnを1だけインクリメン
トした後、ステップS2の処理を実行する。一方、ステ
ップS3でYESのときは、図4のステップS11に進
む。
C(・)を0に初期化し、ステップS12で、音声デー
タ番号nのパラメータを0に初期化し、ステップS13
でフレーム番号tのパラメータを0に初期化した後、ス
テップS14で、フレーム誤りが生じたか否かが判断さ
れ、フレーム誤りが生じたときは、ステップS15でフ
レーム誤りを計数する計数値C(E,gnt|xnt)を
1だけインクリメントしてステップS17に進む。一
方、ステップS14でフレーム誤りが生じていないとき
は、ステップS16で、フレーム誤りが生じていないこ
とを計数する計数値C(Ec|gnt)を1だけインクリ
メントしてステップS17に進む。ステップS17で
は、音声データ#nの全フレームについてステップS1
4の処理を実施したか否かが判断され、NOのときはス
テップS18でパラメータtを1だけインクリメントし
てステップS14に戻る。一方、ステップS17でYE
SのときはステップS19で、全音声データについてス
テップS14の処理を実施したか否かが判断され、NO
のときはステップS20でデータ番号nのパラメータを
1だけインクリメントしてステップS13に戻る。一
方、ステップS19でYESのときは、図5のステップ
S21に進む。
布の番号iのパラメータを0に初期化し、ステップS2
2でガウス分布の番号jのパラメータを0に初期化した
後、ステップS23で、次式を用いて条件付きフレーム
誤り確率P(E,γi|ξj)を計算する。
プS23の処理を実施したか否かが判断され、NOのと
きはステップS25でパラメータjを1だけインクリメ
ントしてステップS23に戻る。一方、ステップS24
でYESのときはステップS26で、全ガウス混合分布
についてステップS23の処理を実施したか否かが判断
され、NOのときはステップS27でパラメータiを1
だけインクリメントしてステップS22に戻る。一方、
ステップS26でYESのときは、図6のステップS3
1に進む。
布の番号iのパラメータを0に初期化し、ステップS3
2でガウス分布の番号jのパラメータを0に初期化した
後、ステップS33で、条件付きフレーム誤り確率P
(E,γi|ξj)がしきい値ρ(好ましい実施形態では
0.01である。)を超えるとき、ガウス混合分布ξを
ガウス分布γの新たなコンポーネントとして追加した
後、ステップS35に進み、一方、ステップS33でN
OであるときはそのままステップS35に進む。ステッ
プS35で、全ガウス分布についてステップS33の処
理を実施したか否かが判断され、NOのときはステップ
S36でパラメータjを1だけインクリメントしてステ
ップS33に戻る。一方、ステップS35でYESのと
きは、ステップS37で、全ガウス混合分布についてス
テップS33の処理を実施したか否かが判断され、NO
のときはステップS38でパラメータiを1だけインク
リメントしてステップS32に戻る。一方、ステップS
37でYESのときはステップS39で得られた再構成
HMMをメモリ32に格納して、当該HMM再構成処理
を終了する。
成の後、尤度最大、尤度比最大等の基準により、例え
ば、バーム・ウエルチの学習アルゴリズムを用いて、以
下の各パラメータを再推定して、再学習後の音素HMM
を音素HMMメモリ11に格納する。 (a)各ガウス分布の平均、 (b)各ガウス分布の分散 (c)各ガウス混合分布の混合重み (d)状態遷移確率
率については、初期HMMの値をそのまま初期値として
用いる。また、ガウス混合分布の混合重みについては、
フレーム誤り確率、及びコンポーネント追加実行のしき
い値を考慮して、以下のように初期値を定める。
新たなコンポーネントとして追加された場合の混合重み
初期値を、条件付きフレーム誤り確率の値をそのまま用
いて、次式とする。
初期HMMに元々含まれていたコンポーネントの混合重
みに対しても新たな初期値が必要となる。これらを、次
式により与える。
|γ)}・wγ ξ ただし、whγ ξは、初期HMMにおける、ガウス分布
ξのガウス混合分布γにおける混合重みである。ここ
で、Ξγ ρは、コンポーネント追加実行のしきい値がρ
のときに、ガウス混合分布γに対するコンポーネント追
加の対象とならないガウス分布の集合であり、以下によ
って与えられる。
尤度補正は、遅延決定(Delayed decision)のビーム探
索と呼ぶことができる。この遅延決定のビーム探索は、
第4の従来例のような尤度の先読みや、非線形関数によ
る尤度のマッピングによらずに、すでに探索を終えた経
路の尤度の評価を遅らせることによって、尤度の局所的
変動に対処する。なお、以下の計算において、尤度とは
対数尤度を指すものとする。本実施形態において、各符
号を尤度補正部7においてのみ以下のように定義する。 (a)t:時刻; (b)S:ビーム探索の経路; (c)qA(S,t):経路S,時刻tにおける音響尤
度; (d)QA(S,t):経路S,時刻tにおける文頭か
ら累積音響尤度; (e)QL(S,t):経路S,時刻tにおける文頭か
らの累積言語尤度。
て音素HMMメモリ11内の音素HMMを参照して計算
される尤度であり、言語尤度は、単語照合部4において
統計的言語モデルメモリ13内の言語モデルを参照して
計算される尤度である。以上のように定義したとき、一
般に、累積音響尤度は1フレーム毎の音響尤度を足し合
わせることによって次式で求められる。
累積総合尤度Qall(S,t)は、音響尤度QA(S,
t)と言語尤度QL(S,t)を用いて次式で計算され
る。
する重み係数であり、好ましい実施形態においては、α
=4.5である。本実施形態における、遅延決定のビー
ム探索では、次式に示すように、上記数2において、Q
A(S,t)の代わりにQA(S,t)から遅延音響尤度
QAd(S,t)を差し引いた尤度QA’(S,t)を使
用する。すなわち、時刻t−1では、次式に示すよう
に、QA(S,t−1)の代わりにQA(S,t−1)か
ら遅延音響尤度QAd(S,t−1)を差し引いた尤度Q
A’(S,t−1)を使用する。
は次式で計算される。
して書き換えると、次式を得る。
A’(S,t) ここで、尤度qA’(S,t)を次式により決定する。
−1)−QA’(S,t−1)}は、QAd(S,t−1)で
あり、本特許出願人による特許出願の特開平9−811
85号公報における実施形態と比較して1時刻前の過小
評価分であり、このデータは、尤度補正部7に接続され
る過小評価尤度メモリ14に順次記憶されて、次の時刻
tにおける音響尤度を補正して総合尤度を計算するため
に用いられる。従って、本実施形態においては、尤度補
正部7は、時刻(t−1)において、各単語仮説に対し
て、1時刻前の過小評価分データである上記数7におけ
る{QA(S,t−1)−QA’(S,t−1)}を計算し
て、過小評価尤度メモリ14に記憶し、次いで、時刻t
において、上記数12と上記数13とを用いて、過小評
価するように補正された音響尤度QA’(S,t)を計
算し、次いで、上記数8を書き換えた次式とを用いて、
累積尤度である総合尤度Q’all(S,t)を計算し、
当該計算された総合尤度Q’all(S,t)を有する単
語仮説をバッファメモリ5を介して単語仮説絞込部6に
出力する。
QL(S,t)
は、上記尤度xに対する遅延割合を求める第1の関数で
あり、例えば、関数xは、xが増加するにつれて、概
ね、関数f(x)の傾斜を小さくするように変化する関
数である。また、上記数11における関数F(D)は上
記第1の関数に関連し、尤度Dに対する遅延割合を求め
る第2の関数である。
び動作について説明する。図1において、音素HMMメ
モリ11は、単語照合部4に接続され、音素HMMを予
め記憶し、当該音素HMMは、各状態を含んで表され、
各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施例において用いる音素HMMは、各分布が
どの話者に由来するかを特定する必要があるため、所定
の話者混合HMMを変換して作成する。ここで、出力確
率密度関数は34次元の対角共分散行列をもつ混合ガウ
ス分布である。
4に接続され、単語辞書を予め記憶し、当該単語辞書
は、音素HMMメモリ11内の音素HMMの各単語毎に
シンボルで表した読みを示すシンボル列を格納する。さ
らに、統計的言語モデルメモリ13は、単語照合部4に
接続され、所定の統計的言語モデルを予め記憶する。こ
こで、統計的言語モデルは、例えば、従来技術文献6
「政瀧浩和ほか,“連続音声認識のための可変長連鎖統
計言語モデル”,電子通信情報学会技術報告,SP95
−73,1995年11月」において開示されている、
時間方向の長さが可変である可変長N−gramと呼ば
れる言語モデルを使用することができる。当該統計的言
語モデルは、品詞クラスと単語との可変長N−gram
であり、次の3種類のクラス間のバイグラムとして表現
する。 (a)品詞クラス、 (b)品詞クラスから分離した単語のクラス、及び、 (c)連接単語が結合してできたクラス。
出部2と、単語照合部4と、尤度補正部7と、単語仮説
絞込部6と、初期HMM生成部21と、HMM再構成部
22と、再学習部23とは、例えば、CPUを備えたデ
ジタル計算機で構成される。また、バッファメモリ3,
5と、音素HMMメモリ11と、単語辞書メモリ12
と、統計的言語モデルメモリ13と、過小評価尤度メモ
リ14と、音声データメモリ30と、初期HMMメモリ
31と、再構成されたHMMメモリ32とは、例えば、
ハードディスクメモリで構成される。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと、単語辞書メモリ12内の単語辞書
と、統計的言語モデルメモリ13内の統計的言語モデル
とを用いて単語仮説を検出し、音素HMMに基づいた音
響尤度と、統計的言語モデルに基づいた言語尤度とを計
算して、単語仮説とともに尤度補正部7に出力する。こ
こで、単語照合部4は、各時刻の各HMMの状態毎に、
単語内の尤度と発声開始からの音響尤度を計算する。音
響尤度及び言語尤度を含む尤度は、単語の識別番号、単
語の開始時刻、先行単語の違い毎に個別にもつ。また、
計算処理量の削減のために、音素HMM、単語辞書及び
統計的言語モデルとに基づいて計算される総合尤度のう
ちの低い総合尤度のグリッド仮説を削減する。単語照合
部4は、その結果の単語仮説と総合尤度の情報を発声開
始時刻からの時間情報(具体的には、例えばフレーム番
号)とともに尤度補正部7に出力する。
(t−1)において、各単語仮説に対して、1時刻前の
過小評価分データである上記数7における{QA(S,t
−1)−QA’(S,t−1)}を計算して、過小評価尤度
メモリ14に記憶し、次いで、時刻tにおいて、上記数
6と上記数7とを用いて、過小評価するように補正され
た音響尤度QA’(S,t)を計算し、次いで、上記数
8とを用いて、総合尤度Q’all(S,t)を計算し、
当該計算された総合尤度Q’all(S,t)を有する単
語仮説をバッファメモリ5を介して単語仮説絞込部6に
出力する。
ッファメモリ5を介して出力される総合尤度を有する単
語仮説に基づいて、終了時刻が等しく開始時刻が異なる
同一の単語の単語仮説に対して、当該単語の先頭音素環
境毎に、発声開始時刻から当該単語の終了時刻に至る計
算された総合尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総合尤度を有する仮説の単語列を認識結果として
出力する。本実施形態においては、好ましくは、処理す
べき当該単語の先頭音素環境とは、当該単語より先行す
る単語仮説の最終音素と、当該単語の単語仮説の最初の
2つの音素とを含む3つの音素並びをいう。
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総合尤度が最も高い仮説(例えば、図
2において1番上の仮説)以外を削除する。なお、上か
ら4番めの仮説は先頭音素環境が違うため、すなわち、
先行する単語仮説の最終音素がxではなくyであるの
で、上から4番めの仮説を削除しない。すなわち、先行
する単語仮説の最終音素毎に1つのみ仮説を残す。図2
の例では、最終音素/x/に対して1つの仮説を残し、
最終音素/y/に対して1つの仮説を残す。
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
確認するために、以下の実験を行った。上述の方法によ
り、既学習HMMのガウス混合分布再構成を行なった。
初期HMMとしては、特許出願人が所有する旅行設定の
コーパス(テキストデータ)の男性話者175名による
自然発話音声を学習用音声サンプルとし、公知のML−
SSSアルゴリズムによって作成した男性話者用不特定
話者HMnetを用いた。本HMnetは前後環境依存
の音素HMMを状態共有ネットワークによって表現して
いる。初期HMMに用いたHMnetについての条件を
表1及び表2に示す。
175名による自然発話音声を再び用い、コンポーネン
ト追加実行のしきい値r=0.01にて、ガウス混合分
布の再構成を行なった。その結果、初期HMMにおける
総コンポーネント数4000に対し、全体で2603回
のコンポーネント追加が行なわれ、初期HMMにおいて
一律10であった各ガウス混合分布の混合数が、10〜
36の範囲で分布することとなった(図10参照。)。
ウス分布の追加元と追加先の関係について調べてみる
と、コンポーネント追加の半数以上は、同じ中心音素を
表現する分布同士でが行なわれていることが分かった。
本実験で用いたHMnetは、中心音素毎の異音HMM
を環境方向、あるいは時間方向に逐次状態分割して得ら
れたものである。従って、同じ中心音素を表現する分布
同士でのコンポーネント追加は、主に、HMnet作成
過程の逐次状態分割により、いずれかの状態で表現不能
になった音響現象を再び表現可能とする働きをしている
と考えることができる。なお、このような、コンポーネ
ント追加が、環境方向、時間方向の両方について行なわ
れていることも確認した。
は、ガウス混合分布再構成後のHMMに対してパラメー
タの再推定を行なった。パラメータ推定にあたっては、
その基準を適切に選ぶことにより、再構成の効果を最大
限に引き出すことが期待できるが、本実験では、主に、
再構成によるガウス混合分布の構造の変化がもたらす効
果を評価することを目的とし、初期HMMの作成時と同
様の尤度最大基準を採用した。初期HMMの作成時、及
び分布再構成時と同様の男性話者175名による自然発
話音声を用い、バーム・ウエルチ(Baum−Welc
h)の学習アルゴリズムによって、以下のパラメータを
推定した。 (a)ガウス分布の平均、(b)ガウス分布の分散、
(c)ガウス混合分布の混合重み、及び(d)状態遷移
確率。
る。ガウス混合分布再構成とその後のパラメータ再推定
によって得られた再構成HMMを用いて、連続音声認識
実験を行い、初期HMMをそのまま用いた場合(以下、
比較例という。)とその認識率を比較した。実験条件を
以下に示す。 (a)連続音声認識器:マルチパス探索と単語グラフ出
力を特徴とする連続音声認識装置(図1参照。)。 (b)言語モデル:可変長単語クラスN−gram、 分離クラス数:500。 (c)単語辞書:語彙数6922 (d)テストデータ:男性オープン話者7名分の旅行会
話音声、特許出願人が所有する旅行設定のコーパス(テ
キストデータ)、81発声、延べ937単語。 (e)評価基準 次式で定義される、単語グラフ中の第一位認識候補に対
する単語アキュラシーと単語%コレクト。
度重みは、予備実験によって、初期HMMを用いた音声
認識において単語アキュラシーが最大になるように設定
した。初期HMMに対する最適設定から、上記で定義さ
れた、言語尤度の音響尤度に対する重み係数αのみを変
化させた際の認識結果を図11に示す。単語アキュラシ
ー、単語%コレクトいずれについても、再学習後の再構
成HMM(実施例)が、初期HMM(比較例)を上回っ
ていることが分かる。
み抑止を目的とした、既学習のガウス混合分布型不特定
話者HMMの表現力向上を、音声サンプルを用いたガウ
ス混合分布の再構成によって図る方法を発明した。既学
習HMMと音声サンプルとの照合によって得られる誤り
傾向に基づいて、コンポーネントの追加と共有を行なう
本方法により、音響尤度の局所的落ち込みを効果的に抑
えることができ、その結果、音声認識率が向上すること
を確認した。
後の再構成HMMの効果について以下に考察する。 (a)分布の表現力 分布の表現力は個々のガウス混合分布の混合数によって
決まる。逐次状態分割融合法においては、全てのガウス
混合分布に対して混合数が等しくなり、ガウス混合分布
毎に表現するべき対象の細かさに対応できる構造は生成
されない。本発明においては、実施例で、5混合(初期
モデルの混合数)から36混合に渡る、様々な混合数の
ガウス混合分布が生成されている。また分布の共有構造
によって、ガウス分布の総数はその適用前と変わらない
ので音響モデルとしての頑健性を保ちながら分布の表現
力を高めることが出来る。 (b)共有構造決定のための計算時間 最終的な共有構造の決定に要する時間のほとんどは、学
習データに対する音響モデルの尤度計算に要する時間が
占めている。第2の従来例の逐次状態分割融合法におい
ては、一状態についての融合の決定毎にHMM全体のパ
ラメータ再推定を行なうため、モデルの総状態数をNと
したとき、
は状態分割毎の尤度計算である。本発明の実施形態にお
いては、全ての状態に関する共有構造を一括して決定す
るため、共有構造そのものの決定に要する尤度計算は2
回である。従って、
分割毎の尤度計算である。通常Nは400から1000
に設定されるので、計算時間は、ほぼ半分に短縮される
と考えられる。
ば、初期HMMを上述のようにコンポーネントを追加し
て再構成した後再学習したHMMについては、初期HM
Mに比較して、音響モデルとしての頑健性を保ちながら
分布の表現力を高めることが出来る。従って、当該HM
Mを用いて音声認識することにより、従来技術に比較し
てより高い音声認識率で音声認識することができる。ま
た、共有構造決定のための計算時間については、第2の
従来例に比較して概ね半減することができ、より高速で
HMMを構築することができる。
1記載の音響モデル生成装置によれば、所定の音声デー
タの特徴パラメータに基づいて、所定の学習アルゴリズ
ムにより、初期の隠れマルコフモデルを生成する第1の
生成手段と、上記音声データに対して初期の隠れマルコ
フモデルが起こす、所定の時間のフレーム単位の識別誤
りであるフレーム誤りの傾向に基づいて隠れマルコフモ
デルのガウス混合分布のコンポーネントを追加すること
により、上記第1の生成手段によって生成された初期の
隠れマルコフモデルを再構成して、再構成された隠れマ
ルコフモデルを生成する第2の生成手段と、上記音声デ
ータの特徴パラメータに基づいて、所定の学習アルゴリ
ズムにより、上記第2の生成手段によって生成された隠
れマルコフモデルを再学習することにより、再学習され
た隠れマルコフモデルである音響モデルを生成する第3
の生成手段とを備える。従って、初期HMMを上述のよ
うにコンポーネントを追加して再構成した後再学習した
HMMについては、初期HMMに比較して、音響モデル
としての頑健性を保ちながら分布の表現力を高めること
が出来る。従って、当該HMMを用いて音声認識するこ
とにより、従来技術に比較してより高い音声認識率で音
声認識することができる。また、共有構造決定のための
計算時間については、第2の従来例に比較して概ね半減
することができ、より高速でHMMを構築することがで
きる。
においては、請求項1記載の音響モデル生成装置におい
て、上記第2の生成手段は、上記初期の隠れマルコフモ
デルと上記音声データとの間でビタビアラインメント処
理を実行することにより、(a)上記初期の隠れマルコ
フモデル中に含まれるガウス混合分布のビタビ系列と、
(b)上記音声データの各フレームに対して最も高い尤
度を与え、上記初期の隠れマルコフモデル中に各ガウス
混合分布のコンポーネントとして含まれるガウス分布の
最尤系列とを得る第1の処理手段と、上記第1の処理手
段によって得られた、ガウス混合分布のビタビ系列、及
びガウス分布の最尤系列における、時刻を同じくするガ
ウス混合分布と、ガウス分布の組み合わせのそれぞれの
出現頻度に基づいて、上記初期の隠れマルコフモデル中
に含まれるガウス混合分布とガウス分布の全ての組み合
わせについて、各ガウス混合分布においてフレーム誤り
が生じてかつそのときの最尤ガウス分布が当該組み合わ
せのガウス分布であるときのフレーム誤り確率を演算
し、演算された各フレーム誤り確率が所定のしきい値を
越えるときに当該ガウス分布を、当該ガウス混合分布の
新たなコンポーネントとして追加する第2の処理手段と
を備え、上記第2の処理手段によって各ガウス混合分布
の新たなコンポーネントとして追加された各ガウス分布
は、当該ガウス分布が上記初期の隠れマルコフモデル中
で、コンポーネントとして属していたガウス混合分布
と、上記第2の処理手段によって新たにコンポーネント
として属することになったガウス混合分布との双方から
共有されるコンポーネントとなる。従って、初期HMM
を上述のようにコンポーネントを追加して再構成した後
再学習したHMMについては、初期HMMに比較して、
音響モデルとしての頑健性を保ちながら分布の表現力を
高めることが出来る。従って、当該HMMを用いて音声
認識することにより、従来技術に比較してより高い音声
認識率で音声認識することができる。また、共有構造決
定のための計算時間については、第2の従来例に比較し
て概ね半減することができ、より高速でHMMを構築す
ることができる。
ては、請求項1又は2記載の音響モデル生成装置によっ
て生成された音響モデルを用いて、入力される発声音声
文の音声信号に基づいて音声認識する音声認識手段を備
える。従って、初期HMMを上述のようにコンポーネン
トを追加して再構成した後再学習したHMMについて
は、初期HMMに比較して、音響モデルとしての頑健性
を保ちながら分布の表現力を高めることが出来る。従っ
て、当該HMMを用いて音声認識することにより、従来
技術に比較してより高い音声認識率で音声認識すること
ができる。また、共有構造決定のための計算時間につい
ては、第2の従来例に比較して概ね半減することがで
き、より高速でHMMを構築することができる。
のブロック図である。
6の処理を示すタイミングチャートである。
るHMM再構成処理の第1の部分を示すフローチャート
である。
るHMM再構成処理の第2の部分を示すフローチャート
である。
るHMM再構成処理の第3の部分を示すフローチャート
である。
るHMM再構成処理の第4の部分を示すフローチャート
である。
るHMM再構成処理におけるビタビ系列と最尤系列の構
成の一例を示す図である。
るHMM再構成処理におけるフレーム誤り確率の算出の
一例を示す図である。
るHMM再構成処理における誤り確率に基づくコンポー
ネントの追加を示す図である。
れるHMM再構成処理後の混合数の分布の一例を示すグ
ラフである。
音声認識結果の比較を示すグラフである。
Claims (3)
- 【請求項1】 所定の音声データの特徴パラメータに基
づいて、所定の学習アルゴリズムにより、初期の隠れマ
ルコフモデルを生成する第1の生成手段と、 上記音声データに対して初期の隠れマルコフモデルが起
こす、所定の時間のフレーム単位の識別誤りであるフレ
ーム誤りの傾向に基づいて隠れマルコフモデルのガウス
混合分布のコンポーネントを追加することにより、上記
第1の生成手段によって生成された初期の隠れマルコフ
モデルを再構成して、再構成された隠れマルコフモデル
を生成する第2の生成手段と、 上記音声データの特徴パラメータに基づいて、所定の学
習アルゴリズムにより、上記第2の生成手段によって生
成された隠れマルコフモデルを再学習することにより、
再学習された隠れマルコフモデルである音響モデルを生
成する第3の生成手段とを備えたことを特徴とする音響
モデル生成装置。 - 【請求項2】 請求項1記載の音響モデル生成装置にお
いて、 上記第2の生成手段は、 上記初期の隠れマルコフモデルと上記音声データとの間
でビタビアラインメント処理を実行することにより、
(a)上記初期の隠れマルコフモデル中に含まれるガウ
ス混合分布のビタビ系列と、(b)上記音声データの各
フレームに対して最も高い尤度を与え、上記初期の隠れ
マルコフモデル中に各ガウス混合分布のコンポーネント
として含まれるガウス分布の最尤系列とを得る第1の処
理手段と、 上記第1の処理手段によって得られた、ガウス混合分布
のビタビ系列、及びガウス分布の最尤系列における、時
刻を同じくするガウス混合分布と、ガウス分布の組み合
わせのそれぞれの出現頻度に基づいて、上記初期の隠れ
マルコフモデル中に含まれるガウス混合分布とガウス分
布の全ての組み合わせについて、各ガウス混合分布にお
いてフレーム誤りが生じてかつそのときの最尤ガウス分
布が当該組み合わせのガウス分布であるときのフレーム
誤り確率を演算し、演算された各フレーム誤り確率が所
定のしきい値を越えるときに当該ガウス分布を、当該ガ
ウス混合分布の新たなコンポーネントとして追加する第
2の処理手段とを備え、 上記第2の処理手段によって各ガウス混合分布の新たな
コンポーネントとして追加された各ガウス分布は、 当該ガウス分布が上記初期の隠れマルコフモデル中で、
コンポーネントとして属していたガウス混合分布と、 上記第2の処理手段によって新たにコンポーネントとし
て属することになったガウス混合分布との双方から共有
されるコンポーネントとなることを特徴とする音響モデ
ル生成装置。 - 【請求項3】 請求項1又は2記載の音響モデル生成装
置によって生成された音響モデルを用いて、入力される
発声音声文の音声信号に基づいて音声認識する音声認識
手段を備えたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9245206A JP3009640B2 (ja) | 1997-09-10 | 1997-09-10 | 音響モデル生成装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9245206A JP3009640B2 (ja) | 1997-09-10 | 1997-09-10 | 音響モデル生成装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185187A JPH1185187A (ja) | 1999-03-30 |
JP3009640B2 true JP3009640B2 (ja) | 2000-02-14 |
Family
ID=17130211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9245206A Expired - Fee Related JP3009640B2 (ja) | 1997-09-10 | 1997-09-10 | 音響モデル生成装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3009640B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7437288B2 (en) | 2001-03-13 | 2008-10-14 | Nec Corporation | Speech recognition apparatus |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4738847B2 (ja) * | 2005-03-07 | 2011-08-03 | キヤノン株式会社 | データ検索装置および方法 |
-
1997
- 1997-09-10 JP JP9245206A patent/JP3009640B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
本多ら「誤り適応学習法を用いるHMMによる日本語音声認識」音講論平成8年春、pp129−130 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7437288B2 (en) | 2001-03-13 | 2008-10-14 | Nec Corporation | Speech recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPH1185187A (ja) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pearce et al. | Aurora working group: DSR front end LVCSR evaluation AU/384/02 | |
JP4354653B2 (ja) | ピッチ追跡方法および装置 | |
JP2965537B2 (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
US6275801B1 (en) | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
Macherey et al. | Investigations on error minimizing training criteria for discriminative training in automatic speech recognition. | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
JPS62231996A (ja) | 音声認識方法 | |
Ney et al. | The RWTH large vocabulary continuous speech recognition system | |
JP3061114B2 (ja) | 音声認識装置 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JPH07261789A (ja) | 音声認識の境界推定方法及び音声認識装置 | |
JP6580911B2 (ja) | 音声合成システムならびにその予測モデル学習方法および装置 | |
Huang et al. | Improved hidden Markov modeling for speaker-independent continuous speech recognition | |
JP3009640B2 (ja) | 音響モデル生成装置及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2004139033A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JPH0895592A (ja) | パターン認識方法 | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
JP3029803B2 (ja) | 音声認識のための単語モデル生成装置及び音声認識装置 | |
JP2000356997A (ja) | 統計的言語モデル生成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091203 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101203 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111203 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121203 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131203 Year of fee payment: 14 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |