JPH0833739B2 - パターン表現モデル学習装置 - Google Patents

パターン表現モデル学習装置

Info

Publication number
JPH0833739B2
JPH0833739B2 JP2243225A JP24322590A JPH0833739B2 JP H0833739 B2 JPH0833739 B2 JP H0833739B2 JP 2243225 A JP2243225 A JP 2243225A JP 24322590 A JP24322590 A JP 24322590A JP H0833739 B2 JPH0833739 B2 JP H0833739B2
Authority
JP
Japan
Prior art keywords
hmm
category
probability
distribution
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2243225A
Other languages
English (en)
Other versions
JPH04122997A (ja
Inventor
忍 水田
邦男 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2243225A priority Critical patent/JPH0833739B2/ja
Priority to US07/674,069 priority patent/US5289562A/en
Publication of JPH04122997A publication Critical patent/JPH04122997A/ja
Publication of JPH0833739B2 publication Critical patent/JPH0833739B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声認識装置内などで使用する隠れマルコ
フモデル(Hidden Markov Model、以後HMMと略す)のパ
ラメータ学習に用いられるパターン表現モデル学習装置
に関するものである。
[従来の技術] HMMは系列長可変の特徴系列を確率的に表現するモデ
ルであり、複数の状態とその間の遷移により構成され、
状態間遷移の確率と、複数の状態又は状態遷移時に出力
される特徴の出力確率分布をパラメータとする。ここ
で、出力確率分布は特徴系列を構成する個々の特徴を表
し、遷移確率は系列に沿った特徴の変移を表すと考えて
良い。基本的なHMMの定式化は、文献1 中川聖一著
“確率モデルによる音声認識”(電子情報通信学会、昭
和63年7月1日初版発行)pp.33〜40に記述されるとお
りである。
HNMは一般に、離散分布HMMと連続分布HMMに大別され
る。離散分布HMMは、離散的なラベルで構成された特徴
系列を表現する。また、連続分布HMMは、通常連続的な
ベクトルで構成された特徴系列を表現する。このとき、
離散分布HMMの出力確率分布は、対応する状態遷移にお
いて各々のラベルが出力される確率であり、ラベル毎に
値が設定されている。また、連続分布HMMの出力確率分
布は、特徴ベクトルの出力される確率がガウス分布等の
連続的な分布で表されている。特に混合連続分布HMMの
場合、通常出力確率分布は複数のガウス分布により表現
されており、各々のガウス分布は中心ベクトルとパラメ
ータ間の分散共分散行列、及び分布間の重みに相当する
分岐確率によって規定される。ここで、あるベクトルに
対して混合連続分布を構成する各々のガウス分布が出力
する確率を部分確率と呼ぶ。混合連続分布HMMの定式化
は、文献2L.R.Rabiner、B.H.Juang、S.E.Levinson、M.
M.Sondhi著“Recognition of Isolated Digits Using H
idden Markov Models With Continuous Mixture Densit
ies"(AT&T Technical Journal Vol.64、No.6、July-A
ugust 1985)に記述されるとおりである。離散分布HMM
を用いてベクトル系列を表現する場合は、ベクトル量子
化法(Vector Quantizati-on、VQと略す)を用いてベク
トル列をラベル列に変換して用いる。VQの定式化は文献
1 pp.26〜28に記述されるとおりである。
HMMからなる特徴系列が出力される確率を生起確率と
呼ぶ。生起確率はTrellisアルゴリズム(前向きパスア
ルゴリズム)により算出できる。これは、特徴系列が表
現可能な全ての経路について、この経路に関して特徴系
列が出力される確率の緩和を求めるものである。Trelli
sアルゴリズムの詳細は文献1 pp.40〜42に記述されると
おりである。このとき、各経路に関して入力された特徴
系列に対応する遷移確率及び出力確率が大きいほど、得
られる生起確率は大きくなる。
他の方式として、特徴系列が出力される確率の最も高
いHMMの経路を求め、このとき得られる確率を生起確率
とするViterbiアルゴリズムがある。Viterbiアルゴリズ
ムの詳細は文献1 pp.44〜46に記述されるとおりであ
る。なお、ここで得られた経路は、特徴系列に対するHM
Mの最適経路と考えられ、通常これをViterbiパスと呼
ぶ。
HMMのパラメータは、一般に最尤推定法(Maximum Lik
elihood Estimation Method)により決定される。これ
は、1つ以上用意されたカテゴリ既知の学習用特徴系列
について、当該カテゴリのHMMに対するこれらの特徴系
列の生起確率がより大きくなるようにHMMのパラメータ
を逐次的に更新するものである。離散分布HMMに関する
最尤推定法としては、一般にBaum-Welchアルゴリズムを
用いる。Baum-Welch法の定式化は文献1 pp.55〜61に記
述されるとおりである。また、混合連続分布HMMにおけ
る最尤推定法によるパラメータ決定法としては、文献2
に記述されるようなものがある。
HMMを用いたパターン認識は、次の手順で行なう。ま
ず、認識対象となるカテゴリの各々について、予めパラ
メータ推定されたHMMを用意する。次に、入力されたカ
テゴリ未知の特徴系列の、各HMMに対する生起確率を求
める。そして、最も生起確率の高いHMMが属するカテゴ
リを認識結果として出力する。
HMMを用いてベクトル系列の認識を行なう場合、一般
に離散分布HMMの方が計算量が少なくて済み、認識装置
を構成した場合高速な認識が可能となる。しかし、離散
分布HMMを用いる場合、入力されるベクトル系列はVQに
より一旦ラベル列に変形されるため、特にベクトルの分
布が大きい場合はここでVQ歪と呼ばれるパターン情報の
欠落が生じ、認識性能の低下を招く。他方、連続分布HM
Mはベクトル系列が直接扱えるためVQ歪の影響を受け
ず、高い認識性能を得ることができる。一般に用いられ
る連続分布HMMとしては、混合連続分布HMMが最も表現性
が良く認識性能が高い。これらの点は、文献2の中で実
験的に確認されている。
HMMを学習する方式として最も一般的なものは、学習
に用いる特徴系列に対してHMMの出力する尤度が大きく
なるようにHMMのパラメータを設定する最尤推定法であ
る。
音声認識のための最尤推定法によるHMMの学習のう
ち、HMMの出力確率分布として混合連続分布を用いるも
のとしては、文献2に記述される様なものがある。混合
連続分布HMMは、離散分布HMMと比べ、特に多数話者など
音響的特徴の分散の大きなデータを表現する際に有効で
ある。しかし、この方法は既知の自己の音響的ベクトル
入力に対してだけ学習し、他の音響的ベクトル入力に対
し相対変化することがない。
第4図は文献2に記述されているHMM学習方式の構成
を図示したものである。図において、(1A)は初期混合
連続分布HMM、(2A)は音響的特徴ベクトル系列、(3
B)は最尤パラメータ推定手段、(4)は学習結果を示
す。本従来例において、音響的特徴ベクトル系列および
混合連続分布HMMの単位は単語である。
複数の単語カテゴリ毎に用意された初期混合連続分布
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。ま
た、前記複数の単語カテゴリのいずれかに属する音響的
特徴ベクトル系列(2A)は、音声信号から音響分析によ
り求める。最尤パラメータ推定手段(3B)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMMについて、
この音響的特徴ベクトル系列が生起する確率が高くなる
ようにHMMのパラメータを再推定する。再推定されたHMM
を初期混合連続分布HMMとし、同じまたは異なる前記音
響的特徴ベクトル系列について前記の処理を必要回数行
った後、得られた混合連続分布HMMを学習結果(4)と
して出力する。
最尤推定法によるHMMの学習は、モデル間の識別能力
を学習時に考慮していないため、得られたモデルによる
識別性能に限界がある。音声認識のための、離散分布HM
Mを用いたHMM学習方式についてこの問題を解決する目的
で提案されているものとしては、例えば文献3、L.R.Ba
hl,P.F.Brown,P.V.de Sousa,R.L.Mercer著“A New Algo
rithm for the Estimation of Hidden Markov Model Pa
rameters"(Proc.IEEE ICASSP88,S11.2)のようなもの
がある。
本従来例におけるHMM学習方式は、複数カテゴリにつ
いて用意された離散分布HMMを用いて学習用特徴系列に
対する認識評価を行い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
第5図は文献3に記述されている学習方式の構成を図
示したものである。図において、(1B)は初期離散分布
HMM、(2B)は音響的特徴ラベル系列、(5)は生起確
率計算手段、(6)は生起確率、(7)は選択手段、
(8)は選択結果、(3C)はラベル出現頻度制御手段、
(4)は学習結果を示す。本従来例において、音響的特
徴ラベル系列および離散分布HMMの単位は単語である。
複数の単語カテゴリ毎に用意された初期離散分布HMM
(1B)は、状態数・状態間遷移および遷移確率・出力確
率分布の各パラメータが予め設定されている。この例に
おいて、初期離散分布HMMのパラメータは最尤推定法に
より求めている。また、前記複数の単語カテゴリのいず
れかに属する音響的特徴ラベル系列(2B)は、音声信号
から音響分析及びVQにより求める。生起確率計算手段
(5)では、この音響的特徴ラベル系列の、前記複数の
初期離散分布HMMの各々からの生起確率(6)を出力す
る。選択手段(7)では、前記複数の初期離散分布HMM
のうち、生起確率計算手段に用いた前記音響的特徴ラベ
ル系列と異なるカテゴリに属し、前記生起確率計算手段
により得られた生起確率が最大となる最近傍他カテゴリ
のHMMを選択し、選択結果(8)を出力する。ラベル出
現頻度制御手段(3B)では、前記初期離散分布HMMのう
ち前記音響的特徴ベクトル系列と同じ単語カテゴリに属
する自カテゴリHMM、及び前記選択手段により選択され
た最近傍他カテゴリHMMについて、この音響的特徴ベク
トル系列が生起する確率が自カテゴリHMMでは高く、最
近傍他カテゴリHMMでは低くなるようにHMMのラベル出現
頻度パラメータを制御し、HMMのパラメータを再推定す
る。再推定されたHMMを初期離散分布HMMとし、同じまた
は異なる前記音響的特徴ベクトル系列について前記の処
理を必要回数行った後、得られた離散分布HMMを学習結
果(4)として出力する。
次に、ラベル出現頻度制御手段の本従来例における詳
細を述べる。6図にラベル出現頻度制御アルゴリズムを
示す。前記音響的特徴ラベル系列が、前記自カテゴリHM
M及び最近傍他カテゴリHMMから生起する確率をそれぞれ
PA,PBとする。PAがPBと比べ十分大きい場合(PA-PB>
δ,δ>0)、前記音響的特徴ラベル系列にたいして誤
認識は生じていないとしてHMMの更新は行なわない。PA
がPBより小さい場合(PA-PB≦0)誤認識が生じたとし
て次の処理を行なう。この音響的特徴ラベル系列の第f
フレームのラベルをL(f)、生起確率計算時に求まる
Viterbiパス(生起確率が最大となる様な、特徴系列とH
MMの状態との対応関係)により決定される、自カテゴリ
HMM及び最近傍他カテゴリHMMに関してL(f)に対応す
る状態をそれぞれSA(f),SB(f)として、各々の状
態におけるラベルL(f)の出現頻度c(SA(f),L
(f)),c(SB(f),L(f))を次の様に更新する。
c(SA(f),L(f))=c(SA(f),L(f))+β c(SB(f),L(f))=c(SB(f),L(f))−β
(β>0) ・・・・(1) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・(2) (εは十分小さい値) また、PAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述のラベル出現頻度を0≦γ≦βとなる値
γを用いて次のように更新する。
c(SA(f),L(f))=c(SA(f),L(f))+γ c(SB(f),L(f))=c(SB(f),L(f))−γ
・・・・(3) ここに、 γ=β(1−(PA-PB)/δ) ・・(4) ただし、c(SB(f),L(f))<0となった時 c(SB(f),L(f))=ε ・・・・(5) (εは十分小さい値) ラベル出現頻度の更新の概念を第7図に示す。図中に
示す通り、HMMの各状態におけるラベル出力確率は、そ
の状態におけるラベル出現頻度をラベル出現総量で正規
化したものと考えられるが、図より前記の出現頻度更新
によって自カテゴリHMMに対する生起確率は高くなり、
逆に近傍他カテゴリに対する生起確率は低下することが
わかる。前記ラベル出現頻度の操作により、SA(f)に
おけるL(f)の出力確率は大きくなり、SB(f)にお
けるL(f)の出力確率は小さくなることから、PAは増
加しPBは減少する方向にHMMは更新され、その結果前記
音響的特徴ラベル系列について生じた誤認識は減少す
る。このことから、HMM間の識別能力は向上したといえ
る。
[発明が解決しようとする課題] 文献2に示すHMM学習装置は、混合連続分布HMMを対象
としており高い識別性能が期待できるが、学習時にモデ
ル間の識別能力を考慮しないため、得られるHMMの識別
性能に限界がある。
一方、文献3に示すHMM学習装置は、モデル間の識別
能力の向上を意図した学習方式を用いており、最尤推定
法を用いた場合と比べ識別能力の高いHMMが得られる
が、離散分布HMMを対象としておりVQ歪に伴い性能低下
は避けられない。
文献3の従来例においてモデル間の識別能力を高める
ために採られた学習法は、ラベルの出現頻度を操作する
ものであり、ベクトル系列を直接扱う文献2の学習方式
に適用することはできない。
本発明は係る問題点を解決するためなされたもので、
高い認識性能を期待できる混合連続分布HMMを用い、モ
デル間の識別能力を考慮した認識精度の高いモデルを得
るHMM学習装置を提供することを目的とする。
[課題を解決するための手段] この発明は、複数の状態とその間の遷移により構成さ
れ、状態間遷移の確率と、遷移時に出力されるベクトル
の出力確率分布をパラメータとし、出力確率分布が中心
ベクトルにより決定される1つ以上の連続分布によって
表現されるHMMを複数のカテゴリについて用意し、これ
ら複数のHMMの各パラメータを、学習用ベクトル系列を
用いて学習するパターン表現モデル学習装置において、
あるカテゴリに属する前記学習用ベクトル系列が、前記
複数のHMMの各々から生起する確率を求める生起確率計
算手段と、この複数のHMMから、前記学習用ベクトル系
列と異なるカテゴリに属し、前記生起確率計算手段より
得られた生起確率が最大となる最近傍他カテゴリHMMを
選択する選択手段と、前記複数のHMMのうち、前記生起
確率計算手段に用いた学習用ベクトル系列のカテゴリと
同じカテゴリに属する自カテゴリHMM、および前記選択
手段により選択された前記最近傍他カテゴリHMMについ
て、これらのHMMの前記出力確率分布を構成する各連続
分布の中心ベクトルを動かす中心ベクトル制御手段を備
える。
[作用] この発明における中心ベクトル制御手段は、前記複数
のHMMのうち、前記生起確率計算手段に用いた学習用ベ
クトル系列と同じカテゴリに属する自カテゴリHMM、お
よび前記選択手段により選択された前記最近傍他カテゴ
リHMMについて、これらのHMMの前記出力確率分布を構成
する各連続分布の中心ベクトルを動かす。
[発明の実施例] 本実施例における学習方式は、複数カテゴリについて
用意された混合連続分布HMMを用いて学習用特徴系列に
対する認識評価を用い、この特徴系列に対する誤認識を
減少させる方向にHMMを更新することで、モデル間の識
別能力を向上させるものと考えることができる。
第1図は音声認識の為のHMM学習に係る本発明の一実
施例の構成図である。
図において、(1A)は初期混合連続分布HMM、(2A)
は音響的特徴ベクトル系列、(5)は生起確率計算手
段、(6)は生起確率、(7)は選択手段、(8)は選
択結果、(3A)は中心ベクトル制御手段、(4)は学習
結果を示す。本従来例において、音響的特徴ベクトル系
列及び混合連続分布HMMの単位は単語とする。
複数の単語カテゴリ毎に用意された初期混合連続分布
HMM(1A)は、状態数・状態間遷移および遷移確率・出
力確率分布の各パラメータが予め設定されている。この
例において、初期混合連続分布HMMのパラメータは最尤
推定法により求めている。また、前記複数の単語カテゴ
リのいずれかに属する音響的特徴ベクトル系列(2A)
は、音声信号から音響分析により求める。生起確率計算
手段(5)では、この音響的特徴ベクトル系列の、前記
複数の初期混合連続分布HMMの各々からの生起確率
(6)を出力する。選択手段(7)では、前記複数の初
期混合連続分布HMMのうち、生起確率計算手段に用いた
前記音響的特徴ベクトル系列と異なるカテゴリに属し、
前記生起確率計算手段により得られた生起確率が最大と
なる最近傍他カテゴリのHMMを選択し、選択結果(8)
を出力する。中心ベクトル制御手段(3A)では、前記初
期混合連続分布HMMのうち前記音響的特徴ベクトル系列
と同じ単語カテゴリに属する自カテゴリHMM、及び前記
選択手段により選択された最近傍他カテゴリHMMについ
て、この音響的特徴ベクトル系列が生起する確率が自カ
テゴリHMMでは高く、最近傍他カテゴリHMMでは低くなる
ようにHMMの出力確率分布の中心ベクトルを移動し、HMM
のパラメータを再推定する。再推定されたHMMを初期混
合連続分布HMMとし、同じまたは異なる前記音響的特徴
ベクトル系列について前記の処理を必要回数行った後、
得られた混合連続分布HMMを学習結果(4)として出力
する。
次に、中心ベクトル制御手段の本実施例における詳細
を述べる。
第2図に中心ベクトル制御アルゴリズムを示す。前記
音響的特徴ベクトル系列が、前記自カテゴリHMM及び最
近傍他カテゴリHMMから生起する確率をそれぞれPA,PBと
する。PAがPBと比べ十分大きい場合(PA-PB>δ,δ>
0)、前記音響的特徴ベクトル系列に対して誤認識は生
じていないとしてHMMの更新は行なわない。PAがPBより
小さい場合(PA-PB≦0)誤認識が生じたとして次の処
理を行う。まず、前記音響的特徴ベクトル系列の第fフ
レームの特徴ベクトルをV(f)、生起確率計算時に求
まるViterbiパルにより決定される、自カテゴリHMM及び
最近傍他カテゴリHMMに関してV(f)に対応する状態
をそれぞれSA(f),SB(f)とする。次に、各々の状
態における出力確率を表す分布数Mの混合連続分布に関
して、V(f)に対する部分確率が最大となる分布を選
択し、その中心ベクトルをそれぞれμ(SA(f),V
(f)),μ(SB(f),V(f))とする。そして、こ
れらの中心ベクトルを次の様に更新する。
μ(SA(f),V(f))=μ(SA(f),V(f))+β
(V(f)−μ(SA(f),V(f)) μ(SB(f),V(f))=μ(SB(f),V(f))−β
(V(f)−μ(SB(f),V(f)) ・・・(6) (β>0) またはPAはPBより大きいがその差が小さい場合(0<PA
-PB≦δ)前述の中心ベクトルを0≦γ≦βとなる値γ
を用いて次の様に更新する。
μ(SA(f),V(f))=μ(SA(f),V(f))+γ
(V(f)−μ(SA(f),V(f))) μ(SB(f),V(f))=μ(SB(f),V(f))−γ
(V(f)−μ(SB(f),V(f))) ・・・(7) ここに、γは(4)式により決定する。本実施例にお
いて、δ=3.0、β=0.075とする。
この操作により、μ(SA(f),V(f))はV(f)
に近づき、μ(SB(f),V(f))はV(f)から遠ざ
かる。これに伴い、SA(f)におけるV(f)の出力確
率は大きくなり、SB(f)におけるV(f)の出力確率
は小さくなることから、PAは増加しPBは減少する方向に
モデルは更新され、その結果前記音響的特徴系列につい
て生じた誤認識は減少する。このことから、HMMの識別
能力は向上したといえる。
本実施例におけるδ、βの値は他の値でも良い。ま
た、本実施例においてPAが増加しPBが減少する方向に中
心ベクトルを制御したが、いずれか一方のみの制御でも
良い。更に、中心ベクトルの制御式(6、7)は、例え
ば次のようなものでも良い。
μ(SA(f),V(f))=μ(SA(f),V(f))+β
V(f) μ(SB(f),V(f))=μ(SB(f),V(f))−β
V(f) ・・・(8) 本実施例においては学習の対象を音声としたが、画像な
ど他の対象に対して用いても良い。すなわち、これらの
条件は本発明を制限しない。
[発明の効果] 以上のように本発明によれば、複数の状態とその間の
遷移により構成され、状態間遷移の確率と、遷移時に出
力されるベクトルの出力確率分布をパラメータとし、出
力確率分布が中心ベクトルにより決定される1つ以上の
連続分布によって表現されるHMMを複数のカテゴリにつ
いて用意し、これら複数のHMMの各パラメータを、学習
用ベクトル系列を用いて学習するパターン表現モデル学
習装置において、あるカテゴリに属する前記学習用ベク
トル系列が、前記複数のHMMの各々から生起する確率を
求める生起確率計算手段と、この複数のHMMから、前記
学習用ベクトル系列と異なるカテゴリに属し、前記生起
確率計算手段より得られた生起確率が最大となる最近傍
他カテゴリHMMを選択する選択手段と、前記複数のHMMの
うち、前記生起確率計算手段に用いた学習用ベクトル系
列のカテゴリと同じカテゴリに属する自カテゴリHMM、
および前記選択手段により選択された前記最近傍他カテ
ゴリHMMについて、これらのHMMの前記出力確率分布を構
成する各連続分布の中心ベクトルを動かす中心ベクトル
制御手段を備えたので、識別性能の高い前記HMMについ
て、モデル間の識別能力を考慮した更に識別性能の高い
モデルを得るパターン表現モデル学習装置を提供するこ
とができる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識用HMM学習装
置を示す構成図、第2図は第1図の中心ベクトル制御手
段における制御アルゴリズムを示す図、第3図はこの中
心ベクトル制御手段における制御の概念図、第4図は従
来の音声認識用HMM学習装置を示す構成図、第5図は他
の従来の音声認識用HMM学習装置を示す構成図、第6図
は第5図のVQラベル出現頻度制御手段における制御アル
ゴリズムを示す図、第7図はこのVQラベル出現頻度制御
手段における制御の概念図である。 図中同一符号は同一または相当部分を示し、(1A)は音
響的特徴ベクトル系列、(1B)は音響的特徴ラベル系
列、(3A)は初期混合連続分布HMM、(2B)は初期離散
分布HMM、(3A)は中心ベクトル制御手段、(3B)は最
尤パラメータ推定手段、(3C)はラベル出現頻度制御手
段、(4)は学習結果、(5)は生起確率計算手段、
(6)は生起確率、(7)は選択手段、(8)は選択結
果である。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】複数の状態とその間の遷移により構成さ
    れ、状態間遷移の確率と、遷移時に出力されるベクトル
    の出力確率分布をパラメータとし、出力確率分布が中心
    ベクトルにより決定される1つ以上の連続分布によって
    表現される隠れマルコフモデルを複数のカテゴリについ
    て用意し、これら複数の隠れマルコフモデルの各パラメ
    ータを、学習用ベクトル系列を用いて学習するパターン
    表現モデル学習装置において、あるカテゴリに属する前
    記学習用ベクトル系列が、前記複数の隠れマルコフモデ
    ルの各々から生起する確率を求める生起確率計算手段
    と、この複数の隠れマルコフモデルから、前記学習用ベ
    クトル系列と異なるカテゴリに属し、前記生起確率計算
    手段より得られた生起確率が最大となる最近傍他カテゴ
    リ隠れマルコフモデルを選択する選択手段と、前記複数
    の隠れマルコフモデルのうち、前記生起確率計算手段に
    用いた学習用ベクトル系列のカテゴリと同じカテゴリに
    属する自カテゴリ隠れマルコフモデル、および前記選択
    手段により選択された前記最近傍他カテゴリ隠れマルコ
    フモデルについて、これらの隠れマルコフモデルの前記
    出力確率分布を構成する各連続分布の中心ベクトルを動
    かす中心ベクトル制御手段とを備えることを特徴とする
    パターン表現モデル学習装置。
JP2243225A 1990-09-13 1990-09-13 パターン表現モデル学習装置 Expired - Fee Related JPH0833739B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2243225A JPH0833739B2 (ja) 1990-09-13 1990-09-13 パターン表現モデル学習装置
US07/674,069 US5289562A (en) 1990-09-13 1991-03-21 Pattern representation model training apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2243225A JPH0833739B2 (ja) 1990-09-13 1990-09-13 パターン表現モデル学習装置

Publications (2)

Publication Number Publication Date
JPH04122997A JPH04122997A (ja) 1992-04-23
JPH0833739B2 true JPH0833739B2 (ja) 1996-03-29

Family

ID=17100699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2243225A Expired - Fee Related JPH0833739B2 (ja) 1990-09-13 1990-09-13 パターン表現モデル学習装置

Country Status (2)

Country Link
US (1) US5289562A (ja)
JP (1) JPH0833739B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
JPH064093A (ja) * 1992-06-18 1994-01-14 Matsushita Electric Ind Co Ltd Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
EP0694862A3 (en) * 1994-07-22 1996-07-24 At & T Corp Detection of degraded, grayscale documents using two-dimensional hidden pseudo-Markov models and N-best hypotheses
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US6263326B1 (en) 1998-05-13 2001-07-17 International Business Machines Corporation Method product ‘apparatus for modulations’
US6804648B1 (en) * 1999-03-25 2004-10-12 International Business Machines Corporation Impulsivity estimates of mixtures of the power exponential distrubutions in speech modeling
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR100446289B1 (ko) * 2000-10-13 2004-09-01 삼성전자주식회사 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치
US6801656B1 (en) 2000-11-06 2004-10-05 Koninklijke Philips Electronics N.V. Method and apparatus for determining a number of states for a hidden Markov model in a signal processing system
US6928409B2 (en) * 2001-05-31 2005-08-09 Freescale Semiconductor, Inc. Speech recognition using polynomial expansion and hidden markov models
JP3996428B2 (ja) * 2001-12-25 2007-10-24 松下電器産業株式会社 異常検知装置及び異常検知システム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8379794B2 (en) * 2008-09-05 2013-02-19 The Board Of Trustees Of The Leland Stanford Junior University Method to estimate position, motion and trajectory of a target with a single x-ray imager
US8218859B2 (en) * 2008-12-05 2012-07-10 Microsoft Corporation Transductive multi-label learning for video concept detection
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8515758B2 (en) 2010-04-14 2013-08-20 Microsoft Corporation Speech recognition including removal of irrelevant information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019020597A (ja) * 2017-07-18 2019-02-07 日本放送協会 エンドツーエンド日本語音声認識モデル学習装置およびプログラム

Also Published As

Publication number Publication date
JPH04122997A (ja) 1992-04-23
US5289562A (en) 1994-02-22

Similar Documents

Publication Publication Date Title
JPH0833739B2 (ja) パターン表現モデル学習装置
EP0705473B1 (en) Speech recognition method using a two-pass search
US5307444A (en) Voice analyzing system using hidden Markov model and having plural neural network predictors
CA1256562A (en) Speech recognition method
US5787396A (en) Speech recognition method
US5638489A (en) Method and apparatus for pattern recognition employing the Hidden Markov Model
US5050215A (en) Speech recognition method
EP0966736B1 (en) Method for discriminative training of speech recognition models
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
EP1241661A1 (en) Speech recognition apparatus
Pellom et al. Fast likelihood computation techniques in nearest-neighbor based search for continuous speech recognition
EP0720149A1 (en) Speech recognition bias equalisation method and apparatus
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
KR100366603B1 (ko) 벡터양자화기
CA2000033C (en) Continuous speech recognition unit
JPH08211889A (ja) 木構造を用いたパターン適応化方式
KR100321463B1 (ko) 음성 인식 시스템과 연관된 확률에 불이익을 선택적으로지정하는 방법
JP2003005785A (ja) 音源の分離方法および分離装置
JPH06266384A (ja) 音響モデル適応方式
JP2600871B2 (ja) Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置
JP3912089B2 (ja) 音声認識方法および音声認識装置
Mellouk et al. Discriminative training for improved neural prediction systems
Juang et al. Mixture autoregressive hidden Markov models for speaker independent isolated word recognition
JPH09258783A (ja) 音声認識装置
JP2531073B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees