JPH05333898A - 時系列信号処理装置 - Google Patents
時系列信号処理装置Info
- Publication number
- JPH05333898A JPH05333898A JP4142399A JP14239992A JPH05333898A JP H05333898 A JPH05333898 A JP H05333898A JP 4142399 A JP4142399 A JP 4142399A JP 14239992 A JP14239992 A JP 14239992A JP H05333898 A JPH05333898 A JP H05333898A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- equation
- probability
- cluster
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 107
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【目的】 HMMに基づく時系列パターンの処理装置で
あって、精度を落とさずに演算量を削減する。 【構成】 HMMの各状態における観測ベクトルの発生
確率の対数値を、該状態における各クラスタの発生確率
の対数値の荷重和とするものであって、該荷重和は前記
入力ベクトルの前記クラスタに対する帰属度に関連した
量を荷重係数とする。
あって、精度を落とさずに演算量を削減する。 【構成】 HMMの各状態における観測ベクトルの発生
確率の対数値を、該状態における各クラスタの発生確率
の対数値の荷重和とするものであって、該荷重和は前記
入力ベクトルの前記クラスタに対する帰属度に関連した
量を荷重係数とする。
Description
【0001】
【産業上の利用分野】音声認識等のパターン認識に適用
可能な新しいHMM(Hidden Markov Model、隠れマルコ
フモデル)、そのパラメータの推定方法、該HMMを用
いたパターンの認識方法、及び装置に関する。
可能な新しいHMM(Hidden Markov Model、隠れマルコ
フモデル)、そのパラメータの推定方法、該HMMを用
いたパターンの認識方法、及び装置に関する。
【0002】
【従来の技術】本発明は一般の時系列信号に適用可能な
ものであるが、説明の便宜のために、以下、音声認識を
例に説明する。
ものであるが、説明の便宜のために、以下、音声認識を
例に説明する。
【0003】先ずHMMを用いた音声認識装置について
説明する。(図2)は、HMMを用いた音声認識装置の
ブロック図である。201は音声分析部であって、入力
音声信号をフィルタバンク、フーリエ変換、LPC分析
等の周知の方法により、一定時間間隔(フレームと呼
ぶ)例えば10msec毎に特徴ベクトルに変換する。従っ
て、入力音声信号は特徴ベクトルの系列 Y=(y(1),
y(2),・・・,y(T))に変換される。Tはフレーム数であ
る。202はコードブックと呼ばれるもので、ラベル付
けされた代表ベクトルを保持している。203はベクト
ル量子化部であって、前記ベクトル系列Yのそれぞれの
ベクトルをそれに最も近い前記コードブックに登録され
ている代表ベクトルに対応するラベルに置き換えるもの
である。204はHMM作成部であって、訓練データか
ら認識語彙たる各単語に対応するHMMを作成するもの
である。即ち、単語wに対応するHMMを作るには、先
ず、HMMの構造(状態数やそれら状態の間に許される
遷移規則)を適当に定め、然る後に前記の如くして単語
wを多数回発声して得られたラベル系列から、それらラ
ベル系列の発生確率が出来るだけ高くなるように、前記
モデルにおける状態遷移確率や状態の遷移に伴って発生
するラベルの発生確率を求めるものである。205はH
MM記憶部であって、このようにして得られたHMMを
各単語毎に記憶するものである。206は尤度計算部で
あって、認識すべき未知入力音声のラベル系列に対し、
前記HMM記憶部205に記憶されているそれぞれのモ
デルの前記ラベル系列に対する尤度を計算するものであ
る。207は比較判定部であって尤度計算部206で得
られた前記それぞれのモデルの尤度の最大値を与えるモ
デルに対応する単語を認識結果として判定するものであ
る。
説明する。(図2)は、HMMを用いた音声認識装置の
ブロック図である。201は音声分析部であって、入力
音声信号をフィルタバンク、フーリエ変換、LPC分析
等の周知の方法により、一定時間間隔(フレームと呼
ぶ)例えば10msec毎に特徴ベクトルに変換する。従っ
て、入力音声信号は特徴ベクトルの系列 Y=(y(1),
y(2),・・・,y(T))に変換される。Tはフレーム数であ
る。202はコードブックと呼ばれるもので、ラベル付
けされた代表ベクトルを保持している。203はベクト
ル量子化部であって、前記ベクトル系列Yのそれぞれの
ベクトルをそれに最も近い前記コードブックに登録され
ている代表ベクトルに対応するラベルに置き換えるもの
である。204はHMM作成部であって、訓練データか
ら認識語彙たる各単語に対応するHMMを作成するもの
である。即ち、単語wに対応するHMMを作るには、先
ず、HMMの構造(状態数やそれら状態の間に許される
遷移規則)を適当に定め、然る後に前記の如くして単語
wを多数回発声して得られたラベル系列から、それらラ
ベル系列の発生確率が出来るだけ高くなるように、前記
モデルにおける状態遷移確率や状態の遷移に伴って発生
するラベルの発生確率を求めるものである。205はH
MM記憶部であって、このようにして得られたHMMを
各単語毎に記憶するものである。206は尤度計算部で
あって、認識すべき未知入力音声のラベル系列に対し、
前記HMM記憶部205に記憶されているそれぞれのモ
デルの前記ラベル系列に対する尤度を計算するものであ
る。207は比較判定部であって尤度計算部206で得
られた前記それぞれのモデルの尤度の最大値を与えるモ
デルに対応する単語を認識結果として判定するものであ
る。
【0004】(図3)は離散確率分布型HMMの一例で
ある。状態qiから状態qjへの遷移確率aijと、状態q
iにおけるラベルCmの発生確率bi(Cm)が定義されてい
る。観測されたラベル系列の、このHMMから発生する
確率は、Forward-Backward法やViterbi法により求めら
れる。
ある。状態qiから状態qjへの遷移確率aijと、状態q
iにおけるラベルCmの発生確率bi(Cm)が定義されてい
る。観測されたラベル系列の、このHMMから発生する
確率は、Forward-Backward法やViterbi法により求めら
れる。
【0005】HMMによる認識は具体的には次のように
して行われる。即ち、未知入力に対して得られたラベル
系列をO=(o(1),o(2),・・・,o(T))、単語wに対応
したモデルをλwとし、モデルλwにより発生される長さ
Tの任意の状態系列をX=(x(1),x(2),・・・,x(T))
とするとき、λwのラベル系列Oに対する尤度は 〔厳密解〕
して行われる。即ち、未知入力に対して得られたラベル
系列をO=(o(1),o(2),・・・,o(T))、単語wに対応
したモデルをλwとし、モデルλwにより発生される長さ
Tの任意の状態系列をX=(x(1),x(2),・・・,x(T))
とするとき、λwのラベル系列Oに対する尤度は 〔厳密解〕
【0006】
【数1】
【0007】〔近似解〕
【0008】
【数2】
【0009】または、対数をとって
【0010】
【数3】
【0011】等で定義される。ここで、P(x,y|λw)
は、モデルλwにおけるx,yの同時確率である。
は、モデルλwにおけるx,yの同時確率である。
【0012】従って、例えば、(数1)を用いれば
【0013】
【数4】
【0014】とするとき、w^が認識結果となる。(数
2),(数3)を用いるときも同様である。
2),(数3)を用いるときも同様である。
【0015】P(O,X|λ) は次のようにして求められ
る。いま、HMMλの状態qi(i=1〜I)毎に、ラベ
ルoの発生確率bi(o)と状態qi(i=1〜I)から状態
qj(j=1〜I+1)への遷移確率aijが与えられてい
るとき、状態系列X=(x(1),x(2),・・・,x(T+1))
とラベル系列O=(o(1),o(2),・・・,o(T))のHMM
λから発生する同時確率は
る。いま、HMMλの状態qi(i=1〜I)毎に、ラベ
ルoの発生確率bi(o)と状態qi(i=1〜I)から状態
qj(j=1〜I+1)への遷移確率aijが与えられてい
るとき、状態系列X=(x(1),x(2),・・・,x(T+1))
とラベル系列O=(o(1),o(2),・・・,o(T))のHMM
λから発生する同時確率は
【0016】
【数5】
【0017】と定義出来る。ここでπx(1)は状態x(1)
の初期確率である。また、x(T+1)=I+1は最終状
態であって、如何なるラベルも発生しないとする。
の初期確率である。また、x(T+1)=I+1は最終状
態であって、如何なるラベルも発生しないとする。
【0018】この例では入力の特徴ベクトルy(t)をラ
ベルo(t)に変換したが、各状態におけるラベルの発生
確率の代りに特徴ベクトルy(t)をそのまま用い、各状
態において特徴ベクトルy(t)の確率密度関数を与える
方法もある。このときは(数5)における前記ラベルo
(t)の状態qiにおける発生確率bi(o(t)) の代わり
に特徴ベクトルy(t)の確率密度bi(y(t))を用いる
ことになる(以後、zがラベルのときはbi(z)はzが
状態iにおいて生じる確率、zがベクトルのときはb
i(z)は状態iにおけるzの確率密度を意味するものと
する)。このときは、前記(数1)(数2)(数3)は
次のようになる。 〔厳密解〕
ベルo(t)に変換したが、各状態におけるラベルの発生
確率の代りに特徴ベクトルy(t)をそのまま用い、各状
態において特徴ベクトルy(t)の確率密度関数を与える
方法もある。このときは(数5)における前記ラベルo
(t)の状態qiにおける発生確率bi(o(t)) の代わり
に特徴ベクトルy(t)の確率密度bi(y(t))を用いる
ことになる(以後、zがラベルのときはbi(z)はzが
状態iにおいて生じる確率、zがベクトルのときはb
i(z)は状態iにおけるzの確率密度を意味するものと
する)。このときは、前記(数1)(数2)(数3)は
次のようになる。 〔厳密解〕
【0019】
【数6】
【0020】〔近似解〕
【0021】
【数7】
【0022】または、対数をとれば次式が得られる。
【0023】
【数8】
【0024】以上、何れの方式を用いるにしても最終的
な認識結果は、それぞれの単語wに対してHMMλwを
w=1〜W について準備しておけば、入力音声信号Y
に対して最大の尤度を与えるλwに対応するwが認識結
果となる。
な認識結果は、それぞれの単語wに対してHMMλwを
w=1〜W について準備しておけば、入力音声信号Y
に対して最大の尤度を与えるλwに対応するwが認識結
果となる。
【0025】
【発明が解決しようとする課題】前記従来例において、
入力特徴ベクトルをラベルに変換するものを離散確率分
布HMM、入力特徴ベクトルをそのまま用いるものを連
続確率分布HMMと呼ぶことにする。このとき、これら
両者の特徴は次のようである。
入力特徴ベクトルをラベルに変換するものを離散確率分
布HMM、入力特徴ベクトルをそのまま用いるものを連
続確率分布HMMと呼ぶことにする。このとき、これら
両者の特徴は次のようである。
【0026】離散確率分布HMMは、入力ラベル系列に
対するモデルの尤度の計算において、各状態でのラベル
Cm(m=1,・・・,M)の発生確率bi(Cm)はラベルに関
連して予め記憶されている記憶装置から読み出すことで
実行できるから計算量が非常に少ないと言う利点がある
反面、量子化に伴う誤差のため、認識精度が悪くなると
言う欠点がある。これを避けるためにラベル数(クラス
タ数)Mを多くする必要があるが、その増加に伴ってモ
デルを学習するために必要な学習パターン数が膨大にな
る。学習パターン数が不十分な場合は、前記bi(Cm)が
頻繁に0になることがあり、正しい推定が出来なくな
る。例えば、次のようなことが生じる。
対するモデルの尤度の計算において、各状態でのラベル
Cm(m=1,・・・,M)の発生確率bi(Cm)はラベルに関
連して予め記憶されている記憶装置から読み出すことで
実行できるから計算量が非常に少ないと言う利点がある
反面、量子化に伴う誤差のため、認識精度が悪くなると
言う欠点がある。これを避けるためにラベル数(クラス
タ数)Mを多くする必要があるが、その増加に伴ってモ
デルを学習するために必要な学習パターン数が膨大にな
る。学習パターン数が不十分な場合は、前記bi(Cm)が
頻繁に0になることがあり、正しい推定が出来なくな
る。例えば、次のようなことが生じる。
【0027】コードブックの作成は、認識すべき全ての
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。
単語について多数の話者の発声音声を特徴ベクトル系列
に変換し、この特徴ベクトルの集合をクラスタリング
し、それぞれのクラスタにラベリングすることによって
行われる。それぞれのクラスタは、セントロイドと呼ば
れるそのクラスタの代表ベクトルを持ち、通常これは各
々のクラスタに分類されたベクトルの期待値である。コ
ードブックは、これらセントロイドを前記ラベルで検索
可能な形で記憶したものである。
【0028】いま、前記認識語彙の中に、例えば「大
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドがその特徴ベクトルの量子化されたものと
なり、それに対応するラベルがその特徴ベクトルの符号
化出力となる。このようにして、前記「大阪」に対する
各々の音声サンプルは、ラベル系列に変換される。得ら
れたラベル系列から、それらラベル系列に対する尤度が
最大になるようにHMMのパラメータを推定することに
より、単語「大阪」に対応するモデルが出来上がる。こ
の推定には周知のBaum-Welch法等が用いられ得る。
阪」と言う単語があって、これに対応するモデルを作る
場合を考える。多数話者が発声した単語「大阪」に対応
する音声サンプルが特徴ベクトル列に変換され、各々の
特徴ベクトルが前記セントロイドと比較され、最近隣の
セントロイドがその特徴ベクトルの量子化されたものと
なり、それに対応するラベルがその特徴ベクトルの符号
化出力となる。このようにして、前記「大阪」に対する
各々の音声サンプルは、ラベル系列に変換される。得ら
れたラベル系列から、それらラベル系列に対する尤度が
最大になるようにHMMのパラメータを推定することに
より、単語「大阪」に対応するモデルが出来上がる。こ
の推定には周知のBaum-Welch法等が用いられ得る。
【0029】この場合、前記コードブックにあるラベル
の中には、単語「大阪」に対応する学習ラベル系列の中
には含まれていないラベルが有り得る。このような場合
は、この含まれていないラベルの発生確率は「大阪」に
対応するモデルにおいては学習の過程で“0”と推定さ
れてしまう。従って、認識の時に発声される「大阪」と
言う単語が変換されたラベル系列の中に、たまたま前記
「大阪」のモデルの作成に用いたラベル系列には含まれ
ていないラベルが存在することは十分有り得ることであ
り、その場合は、この認識時に発声された「大阪」のラ
ベル系列が前記「大阪」のモデルから発生する確率は
“0”になってしまう。ところが、このような場合で
も、ラベルとしては異なっていても、ラベルに変換され
る前の特徴ベクトルの段階ではモデルの学習に用いた音
声サンプルとかなり近く、ベクトルの段階で見れば十分
「大阪」と認識されても良い場合がある。もともと同じ
単語を発声しているのであるからベクトルのレベルでは
似通っているにも関わらず、ラベルのレベルでは僅かの
差で全く異なったラベルに変換されてしまうということ
は十分起こり得るのであって、このようなことが認識精
度に悪影響を及ぼすことは容易に想像がつく。クラスタ
数Mが増加する程、訓練データ数が少ない程このような
問題は頻繁に生じることになる。
の中には、単語「大阪」に対応する学習ラベル系列の中
には含まれていないラベルが有り得る。このような場合
は、この含まれていないラベルの発生確率は「大阪」に
対応するモデルにおいては学習の過程で“0”と推定さ
れてしまう。従って、認識の時に発声される「大阪」と
言う単語が変換されたラベル系列の中に、たまたま前記
「大阪」のモデルの作成に用いたラベル系列には含まれ
ていないラベルが存在することは十分有り得ることであ
り、その場合は、この認識時に発声された「大阪」のラ
ベル系列が前記「大阪」のモデルから発生する確率は
“0”になってしまう。ところが、このような場合で
も、ラベルとしては異なっていても、ラベルに変換され
る前の特徴ベクトルの段階ではモデルの学習に用いた音
声サンプルとかなり近く、ベクトルの段階で見れば十分
「大阪」と認識されても良い場合がある。もともと同じ
単語を発声しているのであるからベクトルのレベルでは
似通っているにも関わらず、ラベルのレベルでは僅かの
差で全く異なったラベルに変換されてしまうということ
は十分起こり得るのであって、このようなことが認識精
度に悪影響を及ぼすことは容易に想像がつく。クラスタ
数Mが増加する程、訓練データ数が少ない程このような
問題は頻繁に生じることになる。
【0030】この欠点を除去するためには、訓練集合に
は現れてこない(含まれていない)ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、0確率が推定される場合はそれを0にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されている。中でもファジ
ィベクトル量子化に基づくHMMは、ヒューリスティッ
クな要素が少なく、理論的にもすっきりしていて、アル
ゴリズミックに実現できる方法であるが、従来提案され
ているものは数学的な意味で近似的なものであった。
は現れてこない(含まれていない)ラベルに対して、平
滑化や補完を行う等の工夫が必要となる。「結び」と呼
ばれる概念を用いてパラメータ数を減少させる工夫をは
じめとして、0確率が推定される場合はそれを0にせず
に微小量に置き換えたり、ファジイベクトル量子化等の
ようにクラスタの境界をぼかしたりする方法等、平滑化
や補完を行う方法が種々提案されている。中でもファジ
ィベクトル量子化に基づくHMMは、ヒューリスティッ
クな要素が少なく、理論的にもすっきりしていて、アル
ゴリズミックに実現できる方法であるが、従来提案され
ているものは数学的な意味で近似的なものであった。
【0031】
【課題を解決するための手段】訓練ベクトル集合をクラ
スタリングして得られた各クラスタの発生確率を記憶す
るクラスタ発生確率記憶手段と、入力ベクトルの前記各
クラスタに対する帰属度ベクトルを算出する帰属度ベク
トル算出手段と、前記各クラスタ発生確率の対数値の、
前記入力ベクトルに対する前記帰属度による、荷重和を
算出する荷重和算出手段とを備え、該荷重和を前記入力
ベクトルの発生確率の対数値とすることを特徴とする構
成である。
スタリングして得られた各クラスタの発生確率を記憶す
るクラスタ発生確率記憶手段と、入力ベクトルの前記各
クラスタに対する帰属度ベクトルを算出する帰属度ベク
トル算出手段と、前記各クラスタ発生確率の対数値の、
前記入力ベクトルに対する前記帰属度による、荷重和を
算出する荷重和算出手段とを備え、該荷重和を前記入力
ベクトルの発生確率の対数値とすることを特徴とする構
成である。
【0032】
【作用】クラスタ発生確率記憶手段により訓練ベクトル
集合をクラスタリングして得られた各クラスタの発生確
率を記憶し、帰属度ベクトル算出手段により入力ベクト
ルの前記各クラスタに対する帰属度ベクトルを算出し、
荷重和算出手段により前記各クラスタ発生確率の対数値
の、前記入力ベクトルに対する前記帰属度による荷重和
を算出し、該荷重和を前記入力ベクトルの発生確率の対
数値とするものである。
集合をクラスタリングして得られた各クラスタの発生確
率を記憶し、帰属度ベクトル算出手段により入力ベクト
ルの前記各クラスタに対する帰属度ベクトルを算出し、
荷重和算出手段により前記各クラスタ発生確率の対数値
の、前記入力ベクトルに対する前記帰属度による荷重和
を算出し、該荷重和を前記入力ベクトルの発生確率の対
数値とするものである。
【0033】
【実施例】ここで、以後用いるべき記号の定義をまとめ
ておく。簡単のために、誤解を生じない限り、状態
qi,qj等は単にi,j等と表記することにする。ま
た、モデルの学習は1つの単語について行う場合を述べ
ることとし、モデル間で区別する必要のある場合は、モ
デルに対応する番号をパラメータの右肩に添字として付
加することとし、通常はこれを省くものとする。
ておく。簡単のために、誤解を生じない限り、状態
qi,qj等は単にi,j等と表記することにする。ま
た、モデルの学習は1つの単語について行う場合を述べ
ることとし、モデル間で区別する必要のある場合は、モ
デルに対応する番号をパラメータの右肩に添字として付
加することとし、通常はこれを省くものとする。
【0034】i=1,2,・・・,I+1:第i番の状態 [aij]:遷移マトリクス aij:状態iから状態jへの遷移確率 r:作成すべきモデルに対する訓練パターン番号(r=
1,・・・,R) y(r)(t):訓練パターンrの第tフレームにおける観
測ベクトル o(r)(t):訓練パターンrの第tフレームにおける観
測ラベル bi(y(r)(t)):訓練パターンrのフレームtの観測ベ
クトルy(r)(t)の状態iにおける確率密度 Y(r)=(y(r)(1),y(r)(2),・・・,y(r)(T(r))):訓
練パターンrのベクトル系列(ただし、r=1,2,・・・,
R) O(r)=(o(r)(1),o(r)(2),・・・,o(r)(T(r))):訓
練パターンrのラベル系列(ただし、r=1,2,・・・,R) X(r)=(x(r)(1),x(r)(2),・・・,x(r)(T(r)),x(r)
(T(r)+1)):X(r)またはO(r)に対応する状態系列 x(r)(t):単語wに対する第r番の訓練パターンの第
tフレームにおける状態 T(r):単語wに対する第r番の訓練パターンのフレー
ム数 λi=[{aij}j=1,・・・,I+1,{bi(Cm)}m=1,・・・,M]:状
態iのパラメータの集合 Sm:第mクラスターに含まれるベクトル集合 Cm:第m番のクラスター名(ラベル) cm:Cm従ってSmのセントロイド(Smの重心ベクト
ル) bi(Cm):訓練パターンrのフレームtの観測ラベルC
mの状態iにおける発生確率 λ={λi}:全パラメータの集合(λをパラメータとする
モデルをモデルλとも呼ぶ) P(Y|λ):観測ベクトル系列Yがモデルλから発生す
る確率密度 P(O|λ):観測ラベル系列Oがモデルλから発生する
確率 πi:状態iがt=1で生じる確率 先ず、離散確率分布HMMを学習する方法について述べ
る。
1,・・・,R) y(r)(t):訓練パターンrの第tフレームにおける観
測ベクトル o(r)(t):訓練パターンrの第tフレームにおける観
測ラベル bi(y(r)(t)):訓練パターンrのフレームtの観測ベ
クトルy(r)(t)の状態iにおける確率密度 Y(r)=(y(r)(1),y(r)(2),・・・,y(r)(T(r))):訓
練パターンrのベクトル系列(ただし、r=1,2,・・・,
R) O(r)=(o(r)(1),o(r)(2),・・・,o(r)(T(r))):訓
練パターンrのラベル系列(ただし、r=1,2,・・・,R) X(r)=(x(r)(1),x(r)(2),・・・,x(r)(T(r)),x(r)
(T(r)+1)):X(r)またはO(r)に対応する状態系列 x(r)(t):単語wに対する第r番の訓練パターンの第
tフレームにおける状態 T(r):単語wに対する第r番の訓練パターンのフレー
ム数 λi=[{aij}j=1,・・・,I+1,{bi(Cm)}m=1,・・・,M]:状
態iのパラメータの集合 Sm:第mクラスターに含まれるベクトル集合 Cm:第m番のクラスター名(ラベル) cm:Cm従ってSmのセントロイド(Smの重心ベクト
ル) bi(Cm):訓練パターンrのフレームtの観測ラベルC
mの状態iにおける発生確率 λ={λi}:全パラメータの集合(λをパラメータとする
モデルをモデルλとも呼ぶ) P(Y|λ):観測ベクトル系列Yがモデルλから発生す
る確率密度 P(O|λ):観測ラベル系列Oがモデルλから発生する
確率 πi:状態iがt=1で生じる確率 先ず、離散確率分布HMMを学習する方法について述べ
る。
【0035】離散確率分布HMMでは、ベクトル系列か
らなる訓練パターンを構成する各ベクトルはベクトル量
子化(Vector Quantize)され、ラベル系列に変換さ
れるそこで、先ず、VQについて簡単に説明する。
らなる訓練パターンを構成する各ベクトルはベクトル量
子化(Vector Quantize)され、ラベル系列に変換さ
れるそこで、先ず、VQについて簡単に説明する。
【0036】(1)コードブックの作成 取り扱うべき信号の多数の訓練集合から特徴抽出を行
い、特徴ベクトル集合を得(前記訓練パターンを構成す
るベクトル等)、この特徴ベクトル集合をクラスタリン
グし、M個のクラスタS1,・・・,SMと各々のクラスタの
重心ベクトル(セントロイド)c1,・・・,cMを得、m=
1,・・・,Mについて、mにより参照可能な形でcmを記憶
する。これをコードブックという。
い、特徴ベクトル集合を得(前記訓練パターンを構成す
るベクトル等)、この特徴ベクトル集合をクラスタリン
グし、M個のクラスタS1,・・・,SMと各々のクラスタの
重心ベクトル(セントロイド)c1,・・・,cMを得、m=
1,・・・,Mについて、mにより参照可能な形でcmを記憶
する。これをコードブックという。
【0037】(2)ベクトル量子化・符号化 符号化すべきベクトルyをベクトルc1,・・・,cMの何れ
かで近似することをベクトル量子化と言い、yがcmに
量子化されたとき、yをラベルCmに置き換えることを
yをCmに符号化すると言う。ベクトル系列y(1),・・・,
y(T)は通常次のような方法でラベル系列o(1),・・・,
o(T)に変換される。
かで近似することをベクトル量子化と言い、yがcmに
量子化されたとき、yをラベルCmに置き換えることを
yをCmに符号化すると言う。ベクトル系列y(1),・・・,
y(T)は通常次のような方法でラベル系列o(1),・・・,
o(T)に変換される。
【0038】符号化すべき信号から(1)で行ったのと
同様の方法により特徴抽出を行い、特徴ベクトル列y
(1),y(2),・・・,y(T)を得たとする。y(t)とcmと
の距離をd(y(t),cm)とするとき、
同様の方法により特徴抽出を行い、特徴ベクトル列y
(1),y(2),・・・,y(T)を得たとする。y(t)とcmと
の距離をd(y(t),cm)とするとき、
【0039】
【数9】
【0040】をy(t)の符号化出力であるとする(o
(t)∈{1,2,・・・,M})。d(y(t),cm)としては、
ユークリッドノルム等が用いられる。
(t)∈{1,2,・・・,M})。d(y(t),cm)としては、
ユークリッドノルム等が用いられる。
【0041】前記クラスタリングには、フルサーチクラ
スタリング、バイナリーツリークラスタリング等の方法
があり、それぞれについて種々の方法が考えられてい
る。例えば、フルサーチクラスタリングの一つとして、
次のようにして行うものがある。 訓練ベクトル集合を
v1,v2,・・・,vNとする。
スタリング、バイナリーツリークラスタリング等の方法
があり、それぞれについて種々の方法が考えられてい
る。例えば、フルサーチクラスタリングの一つとして、
次のようにして行うものがある。 訓練ベクトル集合を
v1,v2,・・・,vNとする。
【0042】(1)任意にM個のベクトルc1,・・・,cM
を定める。 (2)m=1,・・・,Mについて
を定める。 (2)m=1,・・・,Mについて
【0043】
【数10】
【0044】を計算する。 (3)m=1,・・・,Mについて、クラスタSmのセントロ
イドを求め、各々を各クラスタの新たなセントロイドと
してcmを更新する。即ち、
イドを求め、各々を各クラスタの新たなセントロイドと
してcmを更新する。即ち、
【0045】
【数11】
【0046】ただし、本式において、|Sm|はSmの要素
数を意味するものとする。 (4)収束条件を検査し、それが満たされていれば完了
し、満たされていない場合はステップ(2)に戻る。
数を意味するものとする。 (4)収束条件を検査し、それが満たされていれば完了
し、満たされていない場合はステップ(2)に戻る。
【0047】収束条件としては、a)歪の減少率がそれ
に関して設けた閾値ε以下になった場合、b)ステップ
(2)〜(4)の繰り返しの回数がそれに関して設けた
制限Iに到達した場合等が採用される。a)については
例えば次のように実行され得る。即ち、ステップ(2)
〜ステップ(4)の第i番の繰り返しにおいて得られる
歪量
に関して設けた閾値ε以下になった場合、b)ステップ
(2)〜(4)の繰り返しの回数がそれに関して設けた
制限Iに到達した場合等が採用される。a)については
例えば次のように実行され得る。即ち、ステップ(2)
〜ステップ(4)の第i番の繰り返しにおいて得られる
歪量
【0048】
【数12】
【0049】を定義し、予め定めた小さな数εに対して ε>|D(i−1)−D(i)|/D(i) となれば、収束したと見なす等である。
【0050】以上説明したクラスタリングは、後に説明
するファジィクラスタリングがソフトクラスタリングと
呼ばれるのに対してハードクラスタリングと呼ばれるこ
とがある。
するファジィクラスタリングがソフトクラスタリングと
呼ばれるのに対してハードクラスタリングと呼ばれるこ
とがある。
【0051】離散HMM作成の問題は、ある認識単位
(単語等)に対し、準備されたr=1〜Rの訓練パター
ンから尤度関数P(O(1),O(2),・・・,O(R)|λ)を最大に
する前記HMMを規定するパラメータλを推定すること
である。
(単語等)に対し、準備されたr=1〜Rの訓練パター
ンから尤度関数P(O(1),O(2),・・・,O(R)|λ)を最大に
する前記HMMを規定するパラメータλを推定すること
である。
【0052】O(r)が互いに独立であるとすれば、前記
尤度関数は
尤度関数は
【0053】
【数13】
【0054】で与えられる。ここで、次の補助関数Q
(λ,λ')を定義する。
(λ,λ')を定義する。
【0055】
【数14】
【0056】このとき、次のことが言える。「Q(λ,
λ')≧Q(λ,λ)なら、P(O(1),…,O(R)|λ')≧P(O
(1),…,O(R)|λ)であって、等号はλ'=λの時に成り
立つ。」故に、
λ')≧Q(λ,λ)なら、P(O(1),…,O(R)|λ')≧P(O
(1),…,O(R)|λ)であって、等号はλ'=λの時に成り
立つ。」故に、
【0057】
【数15】
【0058】を求めることが出来れば、λ*→λとして
(数15)を繰り返し適用することによって、λはP
(O(1),…,O(R)|λ)の停留点、即ち、P(O(1),…,O
(R)|λ)の極大値または鞍点を与える点に収束すること
になる。P(O(1),…,O(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。
(数15)を繰り返し適用することによって、λはP
(O(1),…,O(R)|λ)の停留点、即ち、P(O(1),…,O
(R)|λ)の極大値または鞍点を与える点に収束すること
になる。P(O(1),…,O(R)|λ)の変化率が予め定めた
閾値以下になるまでこの操作を繰り返すことにより局所
最適解が得られる。
【0059】このQ(λ,λ')を用いてパラメータを推定
する方法について説明する。(数14)を変形すれば、
次式が得られる。
する方法について説明する。(数14)を変形すれば、
次式が得られる。
【0060】
【数16】
【0061】前述の説明から、Q(λ,λ')をλ'の関数
と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなるが、P(O(1),・・・,O
(R)|λ)はλ'に関しては一定値となるから、これを取り
除いて
と見なしてQ(λ,λ')>Q(λ,λ)なるλ'を見出せば、
それはλの更新されたものとなるが、P(O(1),・・・,O
(R)|λ)はλ'に関しては一定値となるから、これを取り
除いて
【0062】
【数17】
【0063】とするとき、前記求むべきλ'を見出すこ
とはQ'(λ,λ')>Q'(λ,λ)なるλを見出すことと同
様である。
とはQ'(λ,λ')>Q'(λ,λ)なるλを見出すことと同
様である。
【0064】ここで
【0065】
【数18】
【0066】
【数19】
【0067】ここで、δ(i,j)はいわゆるクロネッカ
ーのデルタで、i=jのときδ(i,j)=1、i≠jの
ときδ(i,j)=0である。各パラメータの再推定値はL
agrangeの未定乗数法によって導かれる。
ーのデルタで、i=jのときδ(i,j)=1、i≠jの
ときδ(i,j)=0である。各パラメータの再推定値はL
agrangeの未定乗数法によって導かれる。
【0068】右辺第1項からπi'について
【0069】
【数20】
【0070】の条件のもとで最大化すればπiの再推定
値πi *は
値πi *は
【0071】
【数21】
【0072】右辺第2項からaij'について
【0073】
【数22】
【0074】なる条件のもとで最大化すればaijの再推
定値aij *は
定値aij *は
【0075】
【数23】
【0076】右辺第3項からbi(Cm)'について
【0077】
【数24】
【0078】の条件のもとに最大化すれば、bi(Cm)の
再推定値bi(Cm)*は
再推定値bi(Cm)*は
【0079】
【数25】
【0080】ここで、ξ(r) ij(t),γ(r) i(t)は次の
ように計算される。即ち、
ように計算される。即ち、
【0081】
【数26】
【0082】とおけば、
【0083】
【数27】
【0084】であって、
【0085】
【数28】
【0086】
【数29】
【0087】なる漸化式が成り立つから、α(r) 1(0)=
1としてパラメータλに適当な初期値を与え、t=1〜
T(r)+1,j=1〜I+1について(数28)に従っ
てα(r) j(t)を、β(r) I+1(T(r)+1)=1としてt=
T(r)+1〜1、i=I〜1について(数29)に従っ
てβ(r) i(t)をそれぞれ順次計算して行けば、(数2
7)が計算できる。
1としてパラメータλに適当な初期値を与え、t=1〜
T(r)+1,j=1〜I+1について(数28)に従っ
てα(r) j(t)を、β(r) I+1(T(r)+1)=1としてt=
T(r)+1〜1、i=I〜1について(数29)に従っ
てβ(r) i(t)をそれぞれ順次計算して行けば、(数2
7)が計算できる。
【0088】パラメータ推定の実際の計算手順は次のよ
うになる。 (1)L1=∞ (2)i=1〜I,j=1〜I+1,m=1〜Mについ
て λi=[{πi}i=1,・・・,I,{aij}j=1,・・・,I+1,{b
i(Cm)}m=1,・・・,M] に適当な初期値を与える。
うになる。 (1)L1=∞ (2)i=1〜I,j=1〜I+1,m=1〜Mについ
て λi=[{πi}i=1,・・・,I,{aij}j=1,・・・,I+1,{b
i(Cm)}m=1,・・・,M] に適当な初期値を与える。
【0089】(3)r=1〜R, t=2〜T(r), i=
1〜I,j=1〜I+1について (数28)(数29)に従ってα(r) i(t),β(r) i(t)
を(数27)に従ってξ(r) ij(t),γ(r) i(t)を求め
る。
1〜I,j=1〜I+1について (数28)(数29)に従ってα(r) i(t),β(r) i(t)
を(数27)に従ってξ(r) ij(t),γ(r) i(t)を求め
る。
【0090】(4)I=1〜Iについて (数21)に従ってπiの再推定値πi *を求める。
【0091】(5)i=1〜I,j=1〜I+1につい
て (数23)に従ってaijの再推定値aij *を求める。
て (数23)に従ってaijの再推定値aij *を求める。
【0092】(6)i=1〜I,m=1〜Mについて (数25)に従ってbi(Cm)の再推定値bi(Cm)*を求
める。
める。
【0093】(7)i=1〜I,j=1〜I+1,m=
1〜Mについて πi=πi *,aij=aij *, bi(Cm)=bi(Cm)*なる代
入を行うことによって、再推定されたパラメータ集合λ
={λi}を得る。
1〜Mについて πi=πi *,aij=aij *, bi(Cm)=bi(Cm)*なる代
入を行うことによって、再推定されたパラメータ集合λ
={λi}を得る。
【0094】(8)step(7)で得たパラメータ集合λ
に対して
に対して
【0095】
【数30】
【0096】を計算する。 (9)|L1−L2|/L1>εならば、L2=L1とおいて
ステップ(4)へ、そうでなければ終了。
ステップ(4)へ、そうでなければ終了。
【0097】前記ステップ(9)におけるεは収束の幅
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。
を決める適当に小さな正の数であって、その値は状況に
よって実用的な値が選ばれる。
【0098】以上のようにして、離散確率分布HMMが
得られるが、前述のごとき欠点を有している。次に、前
記離散確率分布HMMを基にしてファジィクラスタリン
グ(ファジィベクトル量子化)によるHMM(FVQH
MM)を説明する。
得られるが、前述のごとき欠点を有している。次に、前
記離散確率分布HMMを基にしてファジィクラスタリン
グ(ファジィベクトル量子化)によるHMM(FVQH
MM)を説明する。
【0099】先ず、ファジィクラスタリングについて説
明する。表記の簡単のために、学習に用いる全ての単語
音声を構成するベクトルについて通し番号をつけ、y1,
・・・,yNとし、ynのクラスタSmへの帰属度(メンバシ
ップ値)をumnとする。通常のクラスタリング法では、
あるベクトルynがクラスタSmに属している(umn=
1)か、属していないか(umn=0)だけを認めるのに
対して、ファジィクラスタリング法では、ynがいくつ
かのクラスタに異なる度合で帰属することを認めると言
うものである。
明する。表記の簡単のために、学習に用いる全ての単語
音声を構成するベクトルについて通し番号をつけ、y1,
・・・,yNとし、ynのクラスタSmへの帰属度(メンバシ
ップ値)をumnとする。通常のクラスタリング法では、
あるベクトルynがクラスタSmに属している(umn=
1)か、属していないか(umn=0)だけを認めるのに
対して、ファジィクラスタリング法では、ynがいくつ
かのクラスタに異なる度合で帰属することを認めると言
うものである。
【0100】具体的な方法の1つに、各クラスタSmの
セントロイド(中心ベクトル、平均ベクトル)をc
m(m=1,・・・,M)とし、ynとセントロイドcmの非類似
度をdmn=d(yn,cm)とするとき、
セントロイド(中心ベクトル、平均ベクトル)をc
m(m=1,・・・,M)とし、ynとセントロイドcmの非類似
度をdmn=d(yn,cm)とするとき、
【0101】
【数31】
【0102】を最小にするumnとcmを見出すものがあ
る。目的関数Jをcmとumnに関して偏微分し、条件
る。目的関数Jをcmとumnに関して偏微分し、条件
【0103】
【数32】
【0104】を用いれば、Jを局所的に最小化するため
の必要条件が次の(数30)(数31)のように示され
る。
の必要条件が次の(数30)(数31)のように示され
る。
【0105】
【数33】
【0106】
【数34】
【0107】ここで、Fはいわゆるファジィネスを表
し、1<Fである。F→∞のときは、m=1,・・・,Mに
ついて、umn→1/Mになり、F→1のときは、
し、1<Fである。F→∞のときは、m=1,・・・,Mに
ついて、umn→1/Mになり、F→1のときは、
【0108】
【数35】
【0109】であるから、
【0110】
【数36】
【0111】となる。即ち、Fが増加するにつれてyn
が何れのクラスタに属するかと言うことの曖昧性が増大
し、Fが1に近づくにつれて、ynの属するクラスタを
一意に決定するいわゆるハードクラスタリングに近づ
く。
が何れのクラスタに属するかと言うことの曖昧性が増大
し、Fが1に近づくにつれて、ynの属するクラスタを
一意に決定するいわゆるハードクラスタリングに近づ
く。
【0112】ファジィクラスタリングの実際の手順は次
のようになる。 (1)訓練ベクトル集合を適当にS1,・・・,SMに分割
し、初期クラスタとする。
のようになる。 (1)訓練ベクトル集合を適当にS1,・・・,SMに分割
し、初期クラスタとする。
【0113】umnを適当に初期化する。 (2)各クラスタの平均ベクトルcmを(数30)に従
って求める。
って求める。
【0114】(3)yn≠cmのとき、(数31)によっ
てステップ(2)の結果を用いてumnを更新する。yn
=cmのときは、m=nのときumn=1,m≠nのとき
umn=0とおく。
てステップ(2)の結果を用いてumnを更新する。yn
=cmのときは、m=nのときumn=1,m≠nのとき
umn=0とおく。
【0115】(4)収束条件を満足すれば処理を終了、
そうでなければステップ(2)へ戻る。
そうでなければステップ(2)へ戻る。
【0116】ステップ(4)における収束条件として
は、上記繰り返し計算において、繰り返し回数をkとし
て更新される前のJをJ(k)、更新された後のJをJ
(k+1)とするとき、|J(k)−J(k+1)|/J(k+
1)が予め定めた収束判定値ε以下になった場合、ある
いは、適当に定めた繰り返し回数の上限をKとしてk=
Kとなったときを収束、何れにも達しない場合を非収束
とする等が考えられる。
は、上記繰り返し計算において、繰り返し回数をkとし
て更新される前のJをJ(k)、更新された後のJをJ
(k+1)とするとき、|J(k)−J(k+1)|/J(k+
1)が予め定めた収束判定値ε以下になった場合、ある
いは、適当に定めた繰り返し回数の上限をKとしてk=
Kとなったときを収束、何れにも達しない場合を非収束
とする等が考えられる。
【0117】以上の結果を用いてFVQHMMを構成す
る従来法は次のようなものであった。即ち、状態iにお
けるy(r)(t)の生起確率をωi(y(r)(t))とすると
き、
る従来法は次のようなものであった。即ち、状態iにお
けるy(r)(t)の生起確率をωi(y(r)(t))とすると
き、
【0118】
【数37】
【0119】とおき、(数27)〜(数29)における
bi(o(r)(t))をωi(y(r)(t))で置き換え、(数2
5)を
bi(o(r)(t))をωi(y(r)(t))で置き換え、(数2
5)を
【0120】
【数38】
【0121】に置き換えたものである。この方法の問題
点は、結果的に
点は、結果的に
【0122】
【数39】
【0123】という近似を行っていることである。即
ち、後に述べるように(数37)の定義のもとに(数3
8)を導くには、(数39)でなければならない。とこ
ろが一般に凸関数の性質から
ち、後に述べるように(数37)の定義のもとに(数3
8)を導くには、(数39)でなければならない。とこ
ろが一般に凸関数の性質から
【0124】
【数40】
【0125】であって、等号が成立するのは、(1)は
あるmについてu(y(r)(t),Cm)=1、その他のmに
ついてはu(y(r)(t),Cm)=0の場合、(2)b
i(Cm)がmに関わらずすべて等しい場合の何れかであ
る。従って、上の近似が良くなるのは前記Fが1に近
い、即ち、クラスタリングが前記ハードクラスタリング
に近い場合か、クラスタ数が少なくて、bi(Cm)の値が
mに関してあまり変動が無い場合に限られる。
あるmについてu(y(r)(t),Cm)=1、その他のmに
ついてはu(y(r)(t),Cm)=0の場合、(2)b
i(Cm)がmに関わらずすべて等しい場合の何れかであ
る。従って、上の近似が良くなるのは前記Fが1に近
い、即ち、クラスタリングが前記ハードクラスタリング
に近い場合か、クラスタ数が少なくて、bi(Cm)の値が
mに関してあまり変動が無い場合に限られる。
【0126】本発明は以上の欠点を廃して、数学的に矛
盾の無いFVQHMMを提供するものである。即ち前記
ωi(y(r)(t))を次式で定義するものである。
盾の無いFVQHMMを提供するものである。即ち前記
ωi(y(r)(t))を次式で定義するものである。
【0127】
【数41】
【0128】このようにおけば、(数19)の右辺第3
項(Q3とおく)は、
項(Q3とおく)は、
【0129】
【数42】
【0130】の代わりにlog ωi(y(r)(t))を代入した
ものとなり
ものとなり
【0131】
【数43】
【0132】となる。即ち、(数41)のように定義す
ることにより、ハードクラスタリングにおけるδ(o(r)
(t),Cm)をu(y(r)(t),Cm)に置き代えたことにな
る。このとき、前記説明から
ることにより、ハードクラスタリングにおけるδ(o(r)
(t),Cm)をu(y(r)(t),Cm)に置き代えたことにな
る。このとき、前記説明から
【0133】
【数44】
【0134】が言えるから、本発明によるファジィクラ
スタリングは、ハードクラスタリングの自然な拡張とな
っていることがわかる。
スタリングは、ハードクラスタリングの自然な拡張とな
っていることがわかる。
【0135】bi(Cm)の再推定値はQ3をbi(Cm)'に関
して
して
【0136】
【数45】
【0137】の条件のもとで最大化することにより得ら
れる。この手順を少し詳しく述べれば次のようになる。
れる。この手順を少し詳しく述べれば次のようになる。
【0138】Lagrangeの未定乗数をθとすれば、
【0139】
【数46】
【0140】である。両辺をbi(Cm)'倍し、mについ
て総和をとる。u(o(r)(t),Cm)のmに関する総和は
1であるということにに注意すれば、
て総和をとる。u(o(r)(t),Cm)のmに関する総和は
1であるということにに注意すれば、
【0141】
【数47】
【0142】となる。(数47)を(数46)に代入し
て整理すれば、
て整理すれば、
【0143】
【数48】
【0144】が得られる。これは、(数38)と同じ形
をしているものであるが、(数41)のようにωi(y
(r)(t))を定義することによって導かれるべきものであ
り、(数37)の定義からは導くことは出来ない。この
意味で、ωi(y(t))を(数37)で定義し、bi(Cm)
の再推定値を(数38)で与えている従来例は(数3
9)の近似を行っていることになる。
をしているものであるが、(数41)のようにωi(y
(r)(t))を定義することによって導かれるべきものであ
り、(数37)の定義からは導くことは出来ない。この
意味で、ωi(y(t))を(数37)で定義し、bi(Cm)
の再推定値を(数38)で与えている従来例は(数3
9)の近似を行っていることになる。
【0145】本実施例では、観測ベクトルy(t)から算
出されるクラスタCmに対する荷重係数(帰属度)u(y
(r)(t),Cm)はファジィクラスタリングにおけるメンバ
シップ値として説明したが、例えば、クラスタCmにお
けるy(t)の条件付確率(密度)や前記メンバシップ値
のn乗(nは整数)等場合に応じて種々の定義が考えら
れる。この場合は、一般に、u(y(r)(t),Cm)のmに
関する総和は1ではなく、この条件を考慮しなければ、
(数48)は(数49)のようになるのは明かである。
出されるクラスタCmに対する荷重係数(帰属度)u(y
(r)(t),Cm)はファジィクラスタリングにおけるメンバ
シップ値として説明したが、例えば、クラスタCmにお
けるy(t)の条件付確率(密度)や前記メンバシップ値
のn乗(nは整数)等場合に応じて種々の定義が考えら
れる。この場合は、一般に、u(y(r)(t),Cm)のmに
関する総和は1ではなく、この条件を考慮しなければ、
(数48)は(数49)のようになるのは明かである。
【0146】
【数49】
【0147】他のパラメータの推定式は、ハードクラス
タリングの場合と同様であって、得られる結果も表記的
には(数21)(数23)と全く同じである。但し、
α,βの計算式(数28)(数29)が(数50)のよ
うに変更され、(数27)におけるξの計算式は(数5
1)のように変更される。
タリングの場合と同様であって、得られる結果も表記的
には(数21)(数23)と全く同じである。但し、
α,βの計算式(数28)(数29)が(数50)のよ
うに変更され、(数27)におけるξの計算式は(数5
1)のように変更される。
【0148】
【数50】
【0149】
【数51】
【0150】本発明による1つの単語に対するHMMの
パラメータ推定の実際の計算手順は次のようになる。た
だし、全単語に対する訓練パターン集合から、既に、フ
ァジィクラスタリングは行われており、各クラスタC1,
・・・,CMのセントロイドc1,・・・,cMは算出済みであると
する。
パラメータ推定の実際の計算手順は次のようになる。た
だし、全単語に対する訓練パターン集合から、既に、フ
ァジィクラスタリングは行われており、各クラスタC1,
・・・,CMのセントロイドc1,・・・,cMは算出済みであると
する。
【0151】(1)L1=∞ (2)i=1〜I,j=1〜I+1,m=1〜Mについ
て λi=[{πi}i=1,・・・,I,{aij}j=1,・・・,I+1,{b
i(Cm)}m=1,・・・,M] に適当な初期値を与える。
て λi=[{πi}i=1,・・・,I,{aij}j=1,・・・,I+1,{b
i(Cm)}m=1,・・・,M] に適当な初期値を与える。
【0152】(3)r=1〜R, t=2〜T(r),m=
1,・・・,Mについて u(y(r)(t),Cm)を求める。
1,・・・,Mについて u(y(r)(t),Cm)を求める。
【0153】(4)r=1〜R, t=2〜T(r),i=
1〜I+1について (数41)に従ってωi(y(r)(t))を求める。
1〜I+1について (数41)に従ってωi(y(r)(t))を求める。
【0154】(5)r=1〜R, t=2〜Tr, i=1
〜I,j=1〜I+1について α(r) i(t),β(r) i(t)を(数50),ξ(r) ij(t),
γ(r) i(t)を(数52)に従って計算する。
〜I,j=1〜I+1について α(r) i(t),β(r) i(t)を(数50),ξ(r) ij(t),
γ(r) i(t)を(数52)に従って計算する。
【0155】(6)i=1〜Iについて (数21)に従ってπiの再推定値πi *を求める。
【0156】(7)i=1〜I,j=1〜I+1につい
て (数23)に従ってaijの再推定値aij *を求める。
て (数23)に従ってaijの再推定値aij *を求める。
【0157】(8)i=1〜I,m=1〜Mについて (数49)に従ってbi(Cm)の再推定値bi(Cm)*を求
める。
める。
【0158】(9)i=1〜I,j=1〜I+1,m=
1〜Mについて πi=πi *,aij=aij *,bi(Cm)=bi(Cm)*なる代
入を行うことによって、再推定されたパラメータ集合λ
={λi}を得る。
1〜Mについて πi=πi *,aij=aij *,bi(Cm)=bi(Cm)*なる代
入を行うことによって、再推定されたパラメータ集合λ
={λi}を得る。
【0159】(10)step(9)で得たパラメータ集合
λに対して
λに対して
【0160】
【数52】
【0161】を計算する。 (9)|L1−L2|/L1>εならば、L2=L1とおいて
ステップ(4)へ、そうでなければ終了。
ステップ(4)へ、そうでなければ終了。
【0162】(図1)は、本発明のHMM作成装置の一
実施例である。以下図面に従って説明する。
実施例である。以下図面に従って説明する。
【0163】101は特徴抽出部であって、周知の方法
によって、単語w(=1,…,W)に対応するモデル作成の
ために準備された訓練単語r=1〜Rwの音声信号を特
徴ベクトルの系列Yw(r)=(yw(r)(1),yw(r)(2),…,
yw(r)(T(r)))に変換するものである。
によって、単語w(=1,…,W)に対応するモデル作成の
ために準備された訓練単語r=1〜Rwの音声信号を特
徴ベクトルの系列Yw(r)=(yw(r)(1),yw(r)(2),…,
yw(r)(T(r)))に変換するものである。
【0164】102は単語パターン記憶部であって、モ
デルλwを作成するための学習用単語を前記特徴ベクト
ル系列の形でRw個記憶するものである。
デルλwを作成するための学習用単語を前記特徴ベクト
ル系列の形でRw個記憶するものである。
【0165】103はファジィクラスタリング部であっ
て、訓練ベクトル集合から(数32)(数33)に従っ
てファジィクラスタリングするものである。
て、訓練ベクトル集合から(数32)(数33)に従っ
てファジィクラスタリングするものである。
【0166】104はセントロイド記憶部であって、前
記ファジィクラスタリングの結果得られた各クラスタの
セントロイドが記憶される。このセントロイドは入力ベ
クトルの各クラスタに対する帰属度を算出するのに用い
られる。
記ファジィクラスタリングの結果得られた各クラスタの
セントロイドが記憶される。このセントロイドは入力ベ
クトルの各クラスタに対する帰属度を算出するのに用い
られる。
【0167】105はバッファメモリであって、単語パ
ターン記憶部102に記憶されているwに対する単語パ
ターンをRw個取り出して一時的に記憶するものであ
る。
ターン記憶部102に記憶されているwに対する単語パ
ターンをRw個取り出して一時的に記憶するものであ
る。
【0168】106はベクトル帰属度算出・記憶部であ
って、セントロイド記憶部104に記憶されているセン
トロイドからバッファメモリ105の出力ベクトルの各
クラスタに対する帰属度を(数36)に従って算出する
ものである。
って、セントロイド記憶部104に記憶されているセン
トロイドからバッファメモリ105の出力ベクトルの各
クラスタに対する帰属度を(数36)に従って算出する
ものである。
【0169】107はパラメータ推定部であって、前記
モデルλwを作成するステップ(1)〜(10)を実行
し、単語wに対応するモデルλwを推定するものであ
る。
モデルλwを作成するステップ(1)〜(10)を実行
し、単語wに対応するモデルλwを推定するものであ
る。
【0170】108は第1のパラメータ記憶部であっ
て、前記ステップ(9)で得られたパラメータの再推定
値を一次的に記憶するものである。パラメータ推定部1
07はこのパラメータ記憶部108の値を用いて再推定
を行うものである。
て、前記ステップ(9)で得られたパラメータの再推定
値を一次的に記憶するものである。パラメータ推定部1
07はこのパラメータ記憶部108の値を用いて再推定
を行うものである。
【0171】109は単語w=1〜Wに対応するパラメ
ータを記憶する第2のパラメータ記憶部であって、前記
それぞれの単語w=1,・・・,Wに対応するパラメータ
が、パラメータ記憶部1,・・・,パラメータ記憶部Wにそ
れぞれ記憶される。即ち、それぞれの単語の各状態に対
応する遷移確率は、第1のパラメータ記憶部108から
読み出され、w,i,jで参照可能な形で記憶される。
ータを記憶する第2のパラメータ記憶部であって、前記
それぞれの単語w=1,・・・,Wに対応するパラメータ
が、パラメータ記憶部1,・・・,パラメータ記憶部Wにそ
れぞれ記憶される。即ち、それぞれの単語の各状態に対
応する遷移確率は、第1のパラメータ記憶部108から
読み出され、w,i,jで参照可能な形で記憶される。
【0172】以上のようにして、FVQHMMが作成さ
れる。次に、以上のようなモデルを用いて実際の入力音
声を認識する方法及び装置について説明する。
れる。次に、以上のようなモデルを用いて実際の入力音
声を認識する方法及び装置について説明する。
【0173】(図4)はその認識装置のブロック図であ
る。以下、本図に従って説明する。401は特徴抽出部
であって、(図1)101と全く同様の構成・機能を有
するものである。
る。以下、本図に従って説明する。401は特徴抽出部
であって、(図1)101と全く同様の構成・機能を有
するものである。
【0174】402はセントロイド記憶部であって、
(図1)のHMM作成装置のセントロイド記憶部に記憶
されている各クラスタのセントロイドが記憶されてい
る。
(図1)のHMM作成装置のセントロイド記憶部に記憶
されている各クラスタのセントロイドが記憶されてい
る。
【0175】403はベクトル帰属度算出部であって、
特徴抽出部401の出力の特徴ベクトルy(t)とセント
ロイド記憶部403に記憶されている前記それぞれのク
ラスタの代表ベクトルcm(m=1,…,M)から、y
(t)をファジィベクトル量子化するものである。即ち、
(数33)からy(t)のクラスタCmに対する帰属度u
(y(t),Cm)(m=1,・・・,M)を算出する。即ち、y
(t)は帰属度ベクトル(u(y(t),C1),・・・,u(y
(t),CM))Tに変換される。
特徴抽出部401の出力の特徴ベクトルy(t)とセント
ロイド記憶部403に記憶されている前記それぞれのク
ラスタの代表ベクトルcm(m=1,…,M)から、y
(t)をファジィベクトル量子化するものである。即ち、
(数33)からy(t)のクラスタCmに対する帰属度u
(y(t),Cm)(m=1,・・・,M)を算出する。即ち、y
(t)は帰属度ベクトル(u(y(t),C1),・・・,u(y
(t),CM))Tに変換される。
【0176】404はパラメータ記憶部であって、(図
1)109と全く同様の構成・機能を有するものであっ
て、パラメータ記憶部wには、単語w(=1,・・・,W)に
対応するモデルのパラメータ、πw i,aw ij,bw i(Cm)
が記憶されている。
1)109と全く同様の構成・機能を有するものであっ
て、パラメータ記憶部wには、単語w(=1,・・・,W)に
対応するモデルのパラメータ、πw i,aw ij,bw i(Cm)
が記憶されている。
【0177】405は尤度計算部であって、ベクトル帰
属度算出部403の出力に得られる帰属度ベクトル列に
対する各モデルの尤度をパラメータ記憶部404の内容
を用いて計算するものである。即ち、尤度計算部wでは
パラメータ記憶部wの内容が用いられる。尤度の計算
は、モデルλwの状態iにおけるy(t)の発生度合ω
w i(y(t))を(数41)に準じて
属度算出部403の出力に得られる帰属度ベクトル列に
対する各モデルの尤度をパラメータ記憶部404の内容
を用いて計算するものである。即ち、尤度計算部wでは
パラメータ記憶部wの内容が用いられる。尤度の計算
は、モデルλwの状態iにおけるy(t)の発生度合ω
w i(y(t))を(数41)に準じて
【0178】
【数53】
【0179】で与え、(数5)におけるbi(o(t))を
ωw i(y(t))、aijをaw ijとして、(数1)(数2)
(数3)等の何れかを用いて実行される。(数1)を計
算する場合は、(数26)におけるY(r)に対する
ωw i(y(t))、aijをaw ijとして、(数1)(数2)
(数3)等の何れかを用いて実行される。(数1)を計
算する場合は、(数26)におけるY(r)に対する
【0180】
【数54】
【0181】の計算と全く同様に、入力パターンYに対
するαw I+1(T+1)を計算することになる。TはYのフ
レーム数である。
するαw I+1(T+1)を計算することになる。TはYのフ
レーム数である。
【0182】(数2)(数3)を用いる場合は、周知の
Viterbi法によって尤度を求めることが出来る。漸化式
計算が足し算で済み、演算の途中でアンダーフロー等の
生じる心配の無い(数3)を用いる場合が普通であるの
で、ここでも、(数3)を用いる場合について説明す
る。
Viterbi法によって尤度を求めることが出来る。漸化式
計算が足し算で済み、演算の途中でアンダーフロー等の
生じる心配の無い(数3)を用いる場合が普通であるの
で、ここでも、(数3)を用いる場合について説明す
る。
【0183】(1)初期値設定 単語wの状態iの初期確率をπw iとし、i=1,・・・,I
について(数55)を実行
について(数55)を実行
【0184】
【数55】
【0185】(2)漸化式の計算 t=2,・・・,T,j=1,・・・,Iについて(数56)を実
行
行
【0186】
【数56】
【0187】ステップ(3)におけるφw I+1(T+1)が
Yに対するモデルw(単語w)の尤度である。
Yに対するモデルw(単語w)の尤度である。
【0188】406は比較判定部であって、尤度計算部
405に含まれる尤度計算部1,・・・,Wの何れの出力が
最大であるかを比較判定し、それに対応する単語を認識
結果として出力する。即ち、
405に含まれる尤度計算部1,・・・,Wの何れの出力が
最大であるかを比較判定し、それに対応する単語を認識
結果として出力する。即ち、
【0189】
【数57】
【0190】を見出すものであって、これは(数4)に
相当する計算である。
相当する計算である。
【0191】
【発明の効果】以上のように、本発明は、学習に用いた
パターン集合を形成するベクトルの集合をファジィクラ
スタリングし、クラスタCmの前記HMMの状態iにお
けるクラスタCmの発生確率bi(Cm)と、入力ベクトル
y(t)の各クラスタへの帰属度とからy(t)の状態iに
おける発生確率を算出するものであって、該発生確率の
対数値を前記bi(Cm)の対数値の前記帰属度の荷重和ま
たは荷重平均で表すところに特徴がある。このようにす
ることによって、離散型HMMにおける欠点である訓練
データの不足やその偏りによる推定誤差を解消し、離散
型HMMのもつ計算量が少ないというFVQHMMが本
来有している利点をもつモデルを、数学的に矛盾の無い
形で実現することが可能となった。
パターン集合を形成するベクトルの集合をファジィクラ
スタリングし、クラスタCmの前記HMMの状態iにお
けるクラスタCmの発生確率bi(Cm)と、入力ベクトル
y(t)の各クラスタへの帰属度とからy(t)の状態iに
おける発生確率を算出するものであって、該発生確率の
対数値を前記bi(Cm)の対数値の前記帰属度の荷重和ま
たは荷重平均で表すところに特徴がある。このようにす
ることによって、離散型HMMにおける欠点である訓練
データの不足やその偏りによる推定誤差を解消し、離散
型HMMのもつ計算量が少ないというFVQHMMが本
来有している利点をもつモデルを、数学的に矛盾の無い
形で実現することが可能となった。
【0192】なお、本実施例においては、単語を認識す
るとして述べたが、単語を音韻や音節等に置き換えても
勿論よく、また、本発明は音声以外のパターンにも適用
出来るものである。
るとして述べたが、単語を音韻や音節等に置き換えても
勿論よく、また、本発明は音声以外のパターンにも適用
出来るものである。
【図1】本発明によるHMMのパラメータ推定を行う装
置の一実施例を示すブロック図
置の一実施例を示すブロック図
【図2】HMMを用いた音声認識装置の従来例を説明す
るブロック図
るブロック図
【図3】離散確率分布型HMMの構成を示すHMMの構
成図
成図
【図4】本発明の原理により構成されたHMMを用いた
音声認識装置の一実施例を示すブロック図
音声認識装置の一実施例を示すブロック図
101 特徴抽出部 102 単語パターン記憶部 103 ファジィクラスタリング部 104 セントロイド記憶部 105 バッファメモリ 106 ベクトル帰属度・算出記憶部 107 パラメータ推定部 108 パラメータ記憶部 109 パラメータ記憶部
Claims (5)
- 【請求項1】訓練ベクトル集合をクラスタリングして得
られた各クラスタの発生確率を記憶するクラスタ発生確
率記憶手段と、入力ベクトルの前記各クラスタに対する
帰属度ベクトルを算出する帰属度ベクトル算出手段と、
前記各クラスタ発生確率の対数値の、前記入力ベクトル
に対する前記帰属度による、荷重和を算出する荷重和算
出手段とを備え、該荷重和を前記入力ベクトルの発生確
率または確率密度の対数値とすることを特徴とする時系
列信号処理装置。 - 【請求項2】請求項1記載の時系列信号処理装置により
得られるベクトルの発生確率に基づき、モデル化すべき
ベクトル系列からなるパターン集合の発生確率が最大に
なるように、該モデルのパラメータを推定するパラメー
タ推定手段を含むことを特徴とする隠れマルコフモデル
作成装置。 - 【請求項3】請求項1記載の時系列信号処理装置により
得られるベクトルの発生確率に基づき、モデル化すべき
ベクトル系列からなるパターン集合の発生確率が最大に
なるように、該モデルのパラメータを推定し、そのパラ
メータを記憶するモデルパラメータ記憶手段を備えたこ
とを特徴とする隠れマルコフモデル記憶装置。 - 【請求項4】請求項3記載のモデルパラメータ記憶手段
に記憶されている隠れマルコフモデルの、入力ベクトル
系列に対する尤度を算出することを特徴とする尤度計算
装置。 - 【請求項5】請求項3記載のモデルパラメータ記憶手段
を認識単位毎に設け、入力ベクトル系列に対する前記モ
デル毎の尤度を計算する請求項4記載の尤度計算手段
と、該尤度計算手段によって得られた前記モデル毎の尤
度を比較し、その最大値を与えるモデルに対応した認識
単位を認識結果とすることを特徴とする認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4142399A JP2795058B2 (ja) | 1992-06-03 | 1992-06-03 | 時系列信号処理装置 |
US08/071,656 US5608841A (en) | 1992-06-03 | 1993-06-03 | Method and apparatus for pattern recognition employing the hidden Markov model |
US08/478,351 US5608840A (en) | 1992-06-03 | 1995-06-07 | Method and apparatus for pattern recognition employing the hidden markov model |
US08/486,695 US5638489A (en) | 1992-06-03 | 1995-06-07 | Method and apparatus for pattern recognition employing the Hidden Markov Model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4142399A JP2795058B2 (ja) | 1992-06-03 | 1992-06-03 | 時系列信号処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05333898A true JPH05333898A (ja) | 1993-12-17 |
JP2795058B2 JP2795058B2 (ja) | 1998-09-10 |
Family
ID=15314452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4142399A Expired - Fee Related JP2795058B2 (ja) | 1992-06-03 | 1992-06-03 | 時系列信号処理装置 |
Country Status (2)
Country | Link |
---|---|
US (3) | US5608841A (ja) |
JP (1) | JP2795058B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
Families Citing this family (169)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3013698B2 (ja) * | 1994-04-20 | 2000-02-28 | 松下電器産業株式会社 | ベクトル量子化符号化装置と復号化装置 |
CN1159704C (zh) * | 1994-06-13 | 2004-07-28 | 松下电器产业株式会社 | 信号分析装置 |
JP2980228B2 (ja) * | 1994-10-25 | 1999-11-22 | 日本ビクター株式会社 | 音声認識用音響モデル生成方法 |
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
JP2751856B2 (ja) * | 1995-02-03 | 1998-05-18 | 日本電気株式会社 | 木構造を用いたパターン適応化方式 |
JP3703164B2 (ja) * | 1995-05-10 | 2005-10-05 | キヤノン株式会社 | パターン認識方法及びその装置 |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
US5842194A (en) * | 1995-07-28 | 1998-11-24 | Mitsubishi Denki Kabushiki Kaisha | Method of recognizing images of faces or general images using fuzzy combination of multiple resolutions |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US5822731A (en) * | 1995-09-15 | 1998-10-13 | Infonautics Corporation | Adjusting a hidden Markov model tagger for sentence fragments |
GB2306739B (en) * | 1995-10-17 | 1999-10-13 | Ibm | Improvements relating to computerized correction of numeric data |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
JPH11506230A (ja) * | 1996-03-28 | 1999-06-02 | フィリップス エレクトロニクス ネムローゼ フェンノートシャップ | シーケンシャルプロセッサにおいてデータ要素の組を処理する方法およびコンピュータシステム |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
US5835891A (en) * | 1997-02-06 | 1998-11-10 | Hewlett-Packard Company | Device modeling using non-parametric statistical determination of boundary data vectors |
JP3033514B2 (ja) * | 1997-03-31 | 2000-04-17 | 日本電気株式会社 | 大語彙音声認識方法及び装置 |
US5999893A (en) * | 1997-05-02 | 1999-12-07 | The United States Of America As Represented By The Secretary Of The Navy | Classification system and method using combined information testing |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
JP3584458B2 (ja) * | 1997-10-31 | 2004-11-04 | ソニー株式会社 | パターン認識装置およびパターン認識方法 |
GB9800427D0 (en) * | 1998-01-10 | 1998-03-04 | Ibm | Probabilistic data clustering |
US7016539B1 (en) | 1998-07-13 | 2006-03-21 | Cognex Corporation | Method for fast, robust, multi-dimensional pattern recognition |
GB9824552D0 (en) * | 1998-11-09 | 1999-01-06 | Royal Holloway University Of L | Data classification apparatus and method thereof |
WO2000051107A1 (en) * | 1999-02-25 | 2000-08-31 | Marius Calin Silaghi | Speech recognition and signal analysis by straight search of subsequences with maximal confidence measure |
AU2684100A (en) * | 1999-03-11 | 2000-09-28 | British Telecommunications Public Limited Company | Speaker recognition |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6779066B2 (en) * | 2000-05-01 | 2004-08-17 | Matsushita Electric Industrial Co., Ltd. | Module having application-specific program stored therein |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US20030055640A1 (en) * | 2001-05-01 | 2003-03-20 | Ramot University Authority For Applied Research & Industrial Development Ltd. | System and method for parameter estimation for pattern recognition |
WO2002091355A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | High-order entropy error functions for neural classifiers |
US7076427B2 (en) * | 2002-10-18 | 2006-07-11 | Ser Solutions, Inc. | Methods and apparatus for audio data monitoring and evaluation using speech recognition |
US7133828B2 (en) * | 2002-10-18 | 2006-11-07 | Ser Solutions, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US8055503B2 (en) * | 2002-10-18 | 2011-11-08 | Siemens Enterprise Communications, Inc. | Methods and apparatus for audio data analysis and data mining using speech recognition |
US7190834B2 (en) | 2003-07-22 | 2007-03-13 | Cognex Technology And Investment Corporation | Methods for finding and characterizing a deformed pattern in an image |
US8081820B2 (en) | 2003-07-22 | 2011-12-20 | Cognex Technology And Investment Corporation | Method for partitioning a pattern into optimized sub-patterns |
WO2005020209A2 (en) | 2003-08-22 | 2005-03-03 | Ser Solutions, Ic. | System for and method of automated quality monitoring |
US7542949B2 (en) * | 2004-05-12 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
US8437502B1 (en) | 2004-09-25 | 2013-05-07 | Cognex Technology And Investment Corporation | General pose refinement and tracking tool |
US7912717B1 (en) * | 2004-11-18 | 2011-03-22 | Albert Galick | Method for uncovering hidden Markov models |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US8121890B2 (en) * | 2006-06-09 | 2012-02-21 | International Business Machines Corporation | Method and system for automated service climate measurement based on social signals |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8103085B1 (en) | 2007-09-25 | 2012-01-24 | Cognex Corporation | System and method for detecting flaws in objects using machine vision |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
KR101607178B1 (ko) | 2008-10-23 | 2016-03-29 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 조작 수행, 데이터 품질 측정, 또는 데이터 요소 결합을 위한 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체 |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5633734B2 (ja) * | 2009-11-11 | 2014-12-03 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
US8630971B2 (en) * | 2009-11-20 | 2014-01-14 | Indian Institute Of Science | System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9336774B1 (en) * | 2012-04-20 | 2016-05-10 | Google Inc. | Pattern recognizing engine |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN103326731B (zh) * | 2013-04-16 | 2017-03-29 | 西北农林科技大学 | 一种基于分布式算术编码的隐马尔科夫相关信源编码方法 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US9679224B2 (en) | 2013-06-28 | 2017-06-13 | Cognex Corporation | Semi-supervised method for training multiple pattern recognition and registration tool models |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6453681B2 (ja) * | 2015-03-18 | 2019-01-16 | 株式会社東芝 | 演算装置、演算方法およびプログラム |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN111579731B (zh) * | 2020-06-28 | 2022-07-29 | 华侨大学 | 一种基于组合模型的变压器早期缺陷预警方法 |
CN115101063B (zh) * | 2022-08-23 | 2023-01-06 | 深圳市友杰智新科技有限公司 | 低算力语音识别方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
JPH01102599A (ja) * | 1987-10-12 | 1989-04-20 | Internatl Business Mach Corp <Ibm> | 音声認識方法 |
US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
-
1992
- 1992-06-03 JP JP4142399A patent/JP2795058B2/ja not_active Expired - Fee Related
-
1993
- 1993-06-03 US US08/071,656 patent/US5608841A/en not_active Expired - Fee Related
-
1995
- 1995-06-07 US US08/478,351 patent/US5608840A/en not_active Expired - Fee Related
- 1995-06-07 US US08/486,695 patent/US5638489A/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100434522B1 (ko) * | 1997-04-29 | 2004-07-16 | 삼성전자주식회사 | 시간축 상호관계를 이용한 음성인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
US5638489A (en) | 1997-06-10 |
JP2795058B2 (ja) | 1998-09-10 |
US5608841A (en) | 1997-03-04 |
US5608840A (en) | 1997-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2795058B2 (ja) | 時系列信号処理装置 | |
US6434522B1 (en) | Combined quantized and continuous feature vector HMM approach to speech recognition | |
Gauvain et al. | Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains | |
US5793891A (en) | Adaptive training method for pattern recognition | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
US5825978A (en) | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions | |
JP3003276B2 (ja) | 信号解析装置 | |
JPH05257492A (ja) | 音声認識方式 | |
WO1998040876A9 (en) | Speech recognition system employing discriminatively trained models | |
JPH0934486A (ja) | 音声認識方法、情報形成方法、音声認識装置および記録媒体 | |
US5924066A (en) | System and method for classifying a speech signal | |
Kurimo | Using self-organizing maps and learning vector quantization for mixture density hidden Markov models | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
Levinson et al. | Speaker independent isolated digit recognition using hidden Markov models | |
Rigoll et al. | A new hybrid system based on MMI-neural networks for the RM speech recognition task | |
JP3589044B2 (ja) | 話者適応化装置 | |
Juang et al. | Mixture autoregressive hidden Markov models for speaker independent isolated word recognition | |
JPH0895592A (ja) | パターン認識方法 | |
Lee et al. | Theory and applications of hybrid simulated annealing | |
JPH0695691A (ja) | 時系列信号処理装置 | |
JP2705537B2 (ja) | 話者学習装置 | |
KR100229438B1 (ko) | 계층적 피드백 구조를 갖는 음성인식시스템 | |
JPH0854893A (ja) | 帰属度算出装置およびhmm装置 | |
JPH05241593A (ja) | 時系列信号処理装置 | |
Yong et al. | An MLP/HMM hybrid model using nonlinear predictors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |