JP2654539B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2654539B2 JP2654539B2 JP6129985A JP12998594A JP2654539B2 JP 2654539 B2 JP2654539 B2 JP 2654539B2 JP 6129985 A JP6129985 A JP 6129985A JP 12998594 A JP12998594 A JP 12998594A JP 2654539 B2 JP2654539 B2 JP 2654539B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- internal state
- hmm
- feature vector
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
【0001】
【産業上の利用分野】本発明は特徴ベクトルの時系列で
表された音声信号を自動認識するための音声認識装置に
関するものである。
表された音声信号を自動認識するための音声認識装置に
関するものである。
【0002】
【従来の技術】音声認識の標準パターンモデルとして隠
れマルコフモデル(HMM)が広く使われている。HM
Mについては文献1「書名:確率モデルによる音声認
識、著者:中川聖一、出版元:電子情報通信学会」に詳
しく解説されている。しかしHMMでは異なる状態の出
力確率分布は互いに独立で相関を持たないため、状態遷
移部分においてHMMがモデル化する音声パターンに不
可避的な不連続が生じてしまい、識別性能を低下させる
一因となっていた。図1はその様子を示している。図で
は各状態の出力確率分布としてガウス分布を用いた場合
を示した。その場合、HMMの表す音声パターンはガウ
ス分布の平均ベクトルのまわりに統計的に分布するが、
状態1から2への遷移、および状態2から3への遷移の
境界において、平均ベクトルに不連続があり、出力され
る音声パターンにもその不連続が現れてしまう。この問
題に対処するために、これまでに各状態に複数の出力確
率分布を対応させ、どの出力確率分布を使用するかを定
める係数を一時刻前に使用した出力確率分布に依存させ
る方法が提案されている(従来法1、文献2「著者:有
木、題名:二段階遷移混合分布型HMM、書名:日本音
響学会講演論文集I、85ページ、平成4年10
月」)。このような相関を導入することにより、平均ベ
クトルの大きく異なる出力確率分布が連続して用いられ
ることを抑制することができ、先に指摘したHMMの問
題点を除くことができる。しかし従来法1では必要な係
数の数が膨大になり、大量の音声データなしには学習が
困難で非実用的であった。また半連続型HMMの出力確
率分布の重み係数を、ベクトル量子化(VQ)した入力
音声の符号列の連鎖確率(バイグラム)を用いて一時刻
前に使用した出力確率分布に依存させる方法も提案され
ている(従来法2、文献3「著者:高橋他、題名:半連
続型Bigram制約HMMの連続音声による評価、書
名:日本音響学会講演論文集I、161ページ、平成4
年10月」)。しかし半連続型HMMの計算に加えて入
力音声をベクトル量子化し、重み係数を再計算する余分
な計算が必要になり、またその計算式も発見法的で統計
理論に基づいた最適な計算が行われていなかった。
れマルコフモデル(HMM)が広く使われている。HM
Mについては文献1「書名:確率モデルによる音声認
識、著者:中川聖一、出版元:電子情報通信学会」に詳
しく解説されている。しかしHMMでは異なる状態の出
力確率分布は互いに独立で相関を持たないため、状態遷
移部分においてHMMがモデル化する音声パターンに不
可避的な不連続が生じてしまい、識別性能を低下させる
一因となっていた。図1はその様子を示している。図で
は各状態の出力確率分布としてガウス分布を用いた場合
を示した。その場合、HMMの表す音声パターンはガウ
ス分布の平均ベクトルのまわりに統計的に分布するが、
状態1から2への遷移、および状態2から3への遷移の
境界において、平均ベクトルに不連続があり、出力され
る音声パターンにもその不連続が現れてしまう。この問
題に対処するために、これまでに各状態に複数の出力確
率分布を対応させ、どの出力確率分布を使用するかを定
める係数を一時刻前に使用した出力確率分布に依存させ
る方法が提案されている(従来法1、文献2「著者:有
木、題名:二段階遷移混合分布型HMM、書名:日本音
響学会講演論文集I、85ページ、平成4年10
月」)。このような相関を導入することにより、平均ベ
クトルの大きく異なる出力確率分布が連続して用いられ
ることを抑制することができ、先に指摘したHMMの問
題点を除くことができる。しかし従来法1では必要な係
数の数が膨大になり、大量の音声データなしには学習が
困難で非実用的であった。また半連続型HMMの出力確
率分布の重み係数を、ベクトル量子化(VQ)した入力
音声の符号列の連鎖確率(バイグラム)を用いて一時刻
前に使用した出力確率分布に依存させる方法も提案され
ている(従来法2、文献3「著者:高橋他、題名:半連
続型Bigram制約HMMの連続音声による評価、書
名:日本音響学会講演論文集I、161ページ、平成4
年10月」)。しかし半連続型HMMの計算に加えて入
力音声をベクトル量子化し、重み係数を再計算する余分
な計算が必要になり、またその計算式も発見法的で統計
理論に基づいた最適な計算が行われていなかった。
【0003】
【発明が解決しようとする課題】HMMにおいて状態遷
移境界で標準パターンに不連続が生じる問題点を解決す
る新しい音声認識装置を提案する。同じ問題点を解決す
るために「従来法1」と「従来法2」が知られている
が、本発明は「従来法1」のように膨大なパラメータを
必要とせず、また「従来法2」のように余分な計算も必
要とせず、かつ発見法的でない統計理論に裏付けられた
最適な認識・学習法に基づく音声認識装置を提案する。
移境界で標準パターンに不連続が生じる問題点を解決す
る新しい音声認識装置を提案する。同じ問題点を解決す
るために「従来法1」と「従来法2」が知られている
が、本発明は「従来法1」のように膨大なパラメータを
必要とせず、また「従来法2」のように余分な計算も必
要とせず、かつ発見法的でない統計理論に裏付けられた
最適な認識・学習法に基づく音声認識装置を提案する。
【0004】
【課題を解決するための手段】本発明の音声認識装置
は、入力された音声を一定の時間間隔で分析し、特徴ベ
クトルを抽出し、各認識対象カテゴリの標準パターンモ
デルの尤度値を算出して認識を行う音声認識装置におい
て、各認識対象カテゴリ毎に用意した、内部状態番号を
出力記号とする第一の隠れマルコフモデルが内部状態番
号を出力する確率を計算する第一の確率計算手段と、内
部状態番号間の遷移確率と内部状態番号毎の特徴ベクト
ル出力確率分布を有する第二の隠れマルコフモデルが特
徴ベクトルを出力する確率を計算する第二の確率計算手
段と、第一および第二の確率計算手段の出力を用いて、
各認識対象カテゴリの標準パターンモデルの尤度値を計
算する尤度値計算手段を有することを特徴とする。
は、入力された音声を一定の時間間隔で分析し、特徴ベ
クトルを抽出し、各認識対象カテゴリの標準パターンモ
デルの尤度値を算出して認識を行う音声認識装置におい
て、各認識対象カテゴリ毎に用意した、内部状態番号を
出力記号とする第一の隠れマルコフモデルが内部状態番
号を出力する確率を計算する第一の確率計算手段と、内
部状態番号間の遷移確率と内部状態番号毎の特徴ベクト
ル出力確率分布を有する第二の隠れマルコフモデルが特
徴ベクトルを出力する確率を計算する第二の確率計算手
段と、第一および第二の確率計算手段の出力を用いて、
各認識対象カテゴリの標準パターンモデルの尤度値を計
算する尤度値計算手段を有することを特徴とする。
【0005】また、本発明の音声認識装置は、前記尤度
値計算手段において、入力音声特徴ベクトル時系列の時
間軸上の各時刻と、各認識対象カテゴリの第一の隠れマ
ルコフモデルの各状態において、最大の尤度値を与える
内部状態番号のみを残して尤度値計算処理を進めること
を特徴とする。
値計算手段において、入力音声特徴ベクトル時系列の時
間軸上の各時刻と、各認識対象カテゴリの第一の隠れマ
ルコフモデルの各状態において、最大の尤度値を与える
内部状態番号のみを残して尤度値計算処理を進めること
を特徴とする。
【0006】
【作用】音声認識の認識対象カテゴリは、音韻や音節、
単語、文などがあるが、以下では単語の場合について詳
しく説明するが、他の場合についても同様である。
単語、文などがあるが、以下では単語の場合について詳
しく説明するが、他の場合についても同様である。
【0007】単語を確率変数W、入力音声(長さTの特
徴ベクトル時系列)を確率変数O=O1 …Ot …OT 、
内部状態番号の時系列を確率変数S=S1 …St …ST
とすると、単語Wの事後確率P(W|O)は次式で与え
られる。
徴ベクトル時系列)を確率変数O=O1 …Ot …OT 、
内部状態番号の時系列を確率変数S=S1 …St …ST
とすると、単語Wの事後確率P(W|O)は次式で与え
られる。
【0008】
【数1】
【0009】上式において和の記号は内部状態番号のす
べての可能な時系列Sに関する総和を表している。本発
明においては内部状態番号が1からKまでのK個の整数
値のどれかを取りうるものとする。下の式で変数sk が
内部状態番号を表す変数である。
べての可能な時系列Sに関する総和を表している。本発
明においては内部状態番号が1からKまでのK個の整数
値のどれかを取りうるものとする。下の式で変数sk が
内部状態番号を表す変数である。
【0010】
【数2】
【0011】単語Wにおいて内部状態番号列
【0012】
【数3】
【0013】が用いられる確率
【0014】
【数4】
【0015】は、可能な内部状態番号{1,…,K}を
出力記号とする離散HMMで表現することができる。以
下において、このHMMを第一のHMMの意味でHMM
−1と呼ぶ。単語WのHMM−1の状態数をN個とする
と、
出力記号とする離散HMMで表現することができる。以
下において、このHMMを第一のHMMの意味でHMM
−1と呼ぶ。単語WのHMM−1の状態数をN個とする
と、
【0016】
【数5】
【0017】ここで、amn (1) は状態mから状態nへの
遷移確率、bnk (1) は状態nにおいて出力記号sk を出
力する出力確率である。内部状態番号列
遷移確率、bnk (1) は状態nにおいて出力記号sk を出
力する出力確率である。内部状態番号列
【0018】
【数6】
【0019】から入力音声特徴ベクトル列O=o1 …o
t …oT が生成される確率
t …oT が生成される確率
【0020】
【数7】
【0021】は内部状態番号{1,…,K}を状態とす
る第二のHMMで表現することができる(HMM−
2)。以下ではHMM−1の状態と区別するためにHM
M−2の状態を「内部状態」と呼ぶことにする。
る第二のHMMで表現することができる(HMM−
2)。以下ではHMM−1の状態と区別するためにHM
M−2の状態を「内部状態」と呼ぶことにする。
【0022】
【数8】
【0023】ここでajk (2) は内部状態jから内部状態
kへの遷移確率、bk (2) (ot )は内部状態kにおい
て特徴ベクトルot を出力する出力確率である。以上を
まとめると
kへの遷移確率、bk (2) (ot )は内部状態kにおい
て特徴ベクトルot を出力する出力確率である。以上を
まとめると
【0024】
【数9】
【0025】時刻tに状態n、内部状態kに到達し、特
徴ベクトルot を出力する前向き確率を次式で定義す
る。
徴ベクトルot を出力する前向き確率を次式で定義す
る。
【0026】
【数10】
【0027】同様に時刻t+1に観測量ot+1 を出力し
て、時刻tに状態n、内部状態kに到達する後ろ向き確
率も定義することができる。
て、時刻tに状態n、内部状態kに到達する後ろ向き確
率も定義することができる。
【0028】
【数11】
【0029】結局、確率P(O|W)を求めるには、時
間t、状態n、内部状態kの3次元で指定されるトレリ
ス上で前向き確率の漸化式計算を行えばよいことがわか
る。従来のHMMでは時間tと状態nの2次元で指定さ
れるトレリス上でO(T・N)個の格子点の計算が必要
であったが、本方式では上の定式化通り計算する場合は
O(T・N・K)個の格子点の計算が必要になる(近似
法については後述)。
間t、状態n、内部状態kの3次元で指定されるトレリ
ス上で前向き確率の漸化式計算を行えばよいことがわか
る。従来のHMMでは時間tと状態nの2次元で指定さ
れるトレリス上でO(T・N)個の格子点の計算が必要
であったが、本方式では上の定式化通り計算する場合は
O(T・N・K)個の格子点の計算が必要になる(近似
法については後述)。
【0030】遷移確率や出力確率の学習による推定は、
3次元トレリス上で形式的に従来のHMMと同じ再推定
式を適用することによって可能である。以下に結果のみ
を示す。
3次元トレリス上で形式的に従来のHMMと同じ再推定
式を適用することによって可能である。以下に結果のみ
を示す。
【0031】
【数12】
【0032】上式においてμk とΣk は内部状態kにお
ける特徴ベクトルの出力確率をガウス分布で表したとき
の平均ベクトルと分散行列である。
ける特徴ベクトルの出力確率をガウス分布で表したとき
の平均ベクトルと分散行列である。
【0033】本発明による尤度の式(6)において以下
の書き換えを行う。
の書き換えを行う。
【0034】
【数13】
【0035】この式を半連続HMMと比較すると、係数
λnk,jは状態nにおいて第k番目の出力確率b
k (2) (O)が用いられる混合係数と考えることができ
る。ただし本発明では、その混合係数が前フレームにお
いて何番目(添字でjで指定)の出力確率が用いられた
かに依存している(マルコフ的相関をもつ)ことにな
る。この依存性がないと近似すれば(λnk,j=λnk)、
本発明は従来用いられている半連続HMMに一致する。
半連続HMMについては文献4「著者:X.D.Hua
ng他、題名:Semi−continuous Hi
dden Markov Models for Sp
eech Signals、書名:ComputerS
peech and Language、1989年第
3巻239ページ」に詳しく記されている。
λnk,jは状態nにおいて第k番目の出力確率b
k (2) (O)が用いられる混合係数と考えることができ
る。ただし本発明では、その混合係数が前フレームにお
いて何番目(添字でjで指定)の出力確率が用いられた
かに依存している(マルコフ的相関をもつ)ことにな
る。この依存性がないと近似すれば(λnk,j=λnk)、
本発明は従来用いられている半連続HMMに一致する。
半連続HMMについては文献4「著者:X.D.Hua
ng他、題名:Semi−continuous Hi
dden Markov Models for Sp
eech Signals、書名:ComputerS
peech and Language、1989年第
3巻239ページ」に詳しく記されている。
【0036】混合分布型HMMにおいて混合係数に前フ
レームとのマルコフ的な相関を導入する方法については
二段階遷移混合分布型HMMとして定式化されている
(従来法1)。この場合の尤度の表式は次式のように与
えられる。
レームとのマルコフ的な相関を導入する方法については
二段階遷移混合分布型HMMとして定式化されている
(従来法1)。この場合の尤度の表式は次式のように与
えられる。
【0037】
【数14】
【0038】本発明との第一の相違点は特徴ベクトルの
出力確率bnk(O)が状態nと内部状態kの両方に依存
している点である(本発明では内部状態kのみに依存す
る)。これは出力確率パラメータ数の大幅な増加を招
く。
出力確率bnk(O)が状態nと内部状態kの両方に依存
している点である(本発明では内部状態kのみに依存す
る)。これは出力確率パラメータ数の大幅な増加を招
く。
【0039】第二の相違点は従来法1では混合係数λ
nk,jのパラメータ数はN・K・K個となる。ところが式
(16)から明らかなように、本発明では混合係数λ
nk,jが出力確率bnk (1) と遷移確率ajk (2) の積に分解
されているため、パラメータ数はN・K+K・K個に削
減された。例えば状態数がN=210個、内部状態数がK
=28 個の場合には、従来法1で6400万個、本発明
では32万個となり、パラメータ数を1/200に削減
できることになる。本発明のパラメータ数は半連続HM
Mと同じオーダーである。
nk,jのパラメータ数はN・K・K個となる。ところが式
(16)から明らかなように、本発明では混合係数λ
nk,jが出力確率bnk (1) と遷移確率ajk (2) の積に分解
されているため、パラメータ数はN・K+K・K個に削
減された。例えば状態数がN=210個、内部状態数がK
=28 個の場合には、従来法1で6400万個、本発明
では32万個となり、パラメータ数を1/200に削減
できることになる。本発明のパラメータ数は半連続HM
Mと同じオーダーである。
【0040】他にベクトル量子化(VQ)によって得ら
れる符号(VQコード)の連接確率(バイグラム)を用
いて、半連続HMMの混合係数にフレーム相関を導入す
る発見法的な方式が提案されている(従来法2)。この
方式では半連続HMMの状態nにおける第k番目の出力
確率(内部状態k)の混合係数をλnk、学習データにお
けるVQコードの連接確率(VQコードjの次にVQコ
ードkが続く確率、バイグラム)をajkとすると、認識
時には次式で定義されるような変換を行って計算される
新しい混合係数
れる符号(VQコード)の連接確率(バイグラム)を用
いて、半連続HMMの混合係数にフレーム相関を導入す
る発見法的な方式が提案されている(従来法2)。この
方式では半連続HMMの状態nにおける第k番目の出力
確率(内部状態k)の混合係数をλnk、学習データにお
けるVQコードの連接確率(VQコードjの次にVQコ
ードkが続く確率、バイグラム)をajkとすると、認識
時には次式で定義されるような変換を行って計算される
新しい混合係数
【0041】
【外1】
【0042】を用いる。
【0043】
【数15】
【0044】この方式では認識時にベクトル量子化(V
Q)処理と上式による混合係数の再計算が必要になる。
本発明ではこのような余分な計算は生じない。また半連
続HMMとVQコードの連接確率という異質のものを組
み合わせたため、上の計算式は統計理論に基づく最適な
計算式ではなく、発見法的なものにとどまっている。
Q)処理と上式による混合係数の再計算が必要になる。
本発明ではこのような余分な計算は生じない。また半連
続HMMとVQコードの連接確率という異質のものを組
み合わせたため、上の計算式は統計理論に基づく最適な
計算式ではなく、発見法的なものにとどまっている。
【0045】以上を図2(従来法1)、図3(従来法
2)、図4(本発明)にまとめて図示した。比較すれ
ば、パラメータ数(必要な記憶領域)や計算手順の違い
がわかる。
2)、図4(本発明)にまとめて図示した。比較すれ
ば、パラメータ数(必要な記憶領域)や計算手順の違い
がわかる。
【0046】本発明では式(7)からわかるように、確
率P(O|W)を求めるには時間t、状態n、内部状態
kの3次元で指定されるトレリス上で前向き確率の漸化
式計算を行う。従来のHMMでは時間tと状態nの2次
元で指定されるトレリス上でO(T・N)個の格子点の
計算が必要であったが、本方式ではO(T・N・K)個
の格子点の計算が必要になる。この演算量・記憶量を削
減するため以下のような準最適近似を用いる(請求項2
に対応)。
率P(O|W)を求めるには時間t、状態n、内部状態
kの3次元で指定されるトレリス上で前向き確率の漸化
式計算を行う。従来のHMMでは時間tと状態nの2次
元で指定されるトレリス上でO(T・N)個の格子点の
計算が必要であったが、本方式ではO(T・N・K)個
の格子点の計算が必要になる。この演算量・記憶量を削
減するため以下のような準最適近似を用いる(請求項2
に対応)。
【0047】時間t、状態nで指定される2次元トレリ
ス上で内部状態kについて総和をとった前向き確率を次
式で定義する。
ス上で内部状態kについて総和をとった前向き確率を次
式で定義する。
【0048】
【数16】
【0049】以上の定義のもとに次の近似を導入する。
【0050】
【数17】
【0051】これは最大確率を与える内部状態
【0052】
【外2】
【0053】以外の内部状態における前向き確率が十分
小さいとする近似に相当する。この近似を用いると2次
元トレリス上での前向き確率の漸化式が得られる。
小さいとする近似に相当する。この近似を用いると2次
元トレリス上での前向き確率の漸化式が得られる。
【0054】
【数18】
【0055】以上をまとめると2次元トレリス上での準
最適漸化式計算アルゴリズムが次のように得られる。
最適漸化式計算アルゴリズムが次のように得られる。
【0056】
【数19】
【0057】時間(フレーム)同期に漸化式計算を行う
場合、各フレームにおいては前向き確率
場合、各フレームにおいては前向き確率
【0058】
【外3】
【0059】と最適内部状態
【0060】
【外4】
【0061】のみを記憶すればよく、演算量・記憶量共
に半連続HMMと同程度に削減される。
に半連続HMMと同程度に削減される。
【0062】
【実施例】図5は本発明を実施した単語音声認識装置の
ブロック図である。マイクロホン10より入力された音
声信号は分析部20によって標本化、デジタル化されて
から高速フーリエ変換などによって特徴ベクトルに変換
されマイクロプロセッサ30に送られる。このマイクロ
プロセッサにはメモリとしてHMM−1パラメータ記憶
部40と、HMM−2パラメータ記憶部50と、ワーク
メモリ60が接続されている。
ブロック図である。マイクロホン10より入力された音
声信号は分析部20によって標本化、デジタル化されて
から高速フーリエ変換などによって特徴ベクトルに変換
されマイクロプロセッサ30に送られる。このマイクロ
プロセッサにはメモリとしてHMM−1パラメータ記憶
部40と、HMM−2パラメータ記憶部50と、ワーク
メモリ60が接続されている。
【0063】HMM−1パラメータ記憶部40には各単
語wの第一のHMMパラメータとして、状態mから状態
nへの遷移確率amn (1) (m,n=1…Nw )と状態n
において出力記号sk を出力する確率bnk (1) (k=1
…K)が記憶されている。HMM−2パラメータ記憶部
50にはすべての単語に共通の第二のHMMのパラメー
タとして内部状態jから内部状態kへの遷移確率ajk
(2) (j,k=1…K)と内部状態kにおいて特徴ベク
トルot を出力する出力確率bk (2) (ot )を表す分
布関数のパラメータ(ガウス分布の場合は平均ベクトル
と分散行列)が記憶されている。ワークメモリ60は各
認識対象単語の標準パターンモデルによる尤度値を計算
する際に、出力確率や前向き確率を一時記憶しておくた
めの作業エリアである。これらのHMM−1パラメータ
記憶部40、HMM−2パラメータ記憶部50、ワーク
メモリ60はマイクロプロセッサの主記憶内にあって区
別されるメモリエリアとして定義されてもよい。
語wの第一のHMMパラメータとして、状態mから状態
nへの遷移確率amn (1) (m,n=1…Nw )と状態n
において出力記号sk を出力する確率bnk (1) (k=1
…K)が記憶されている。HMM−2パラメータ記憶部
50にはすべての単語に共通の第二のHMMのパラメー
タとして内部状態jから内部状態kへの遷移確率ajk
(2) (j,k=1…K)と内部状態kにおいて特徴ベク
トルot を出力する出力確率bk (2) (ot )を表す分
布関数のパラメータ(ガウス分布の場合は平均ベクトル
と分散行列)が記憶されている。ワークメモリ60は各
認識対象単語の標準パターンモデルによる尤度値を計算
する際に、出力確率や前向き確率を一時記憶しておくた
めの作業エリアである。これらのHMM−1パラメータ
記憶部40、HMM−2パラメータ記憶部50、ワーク
メモリ60はマイクロプロセッサの主記憶内にあって区
別されるメモリエリアとして定義されてもよい。
【0064】認識処理はマイクロプロセッサ30のプロ
グラムによって実行される。以下、入力信号の特徴ベク
トルot が入力される毎に図6のフローチャートに示す
処理がマイクロプロセッサ30によって実行される。図
中の101のブロックではHMM−2パラメータ記憶部
50に記憶された出力確率分布のパラメータに基づい
て、内部状態kにおいて特徴ベクトルot を出力する出
力確率bk (2) (ot )が算出され、ワークメモリ70
上の変数Bとして格納される。また前向き確率を計算す
るためのワークメモリ70上の配列変数A(w,t,
n,k)がクリアされる。102のブロックでは状態
m、内部状態jから状態n、内部状態kへ遷移して特徴
ベクトルot を出力した場合の前向き確率への寄与がH
MM−1パラメータ記憶部とHMM−2パラメータ記憶
部に記憶されたパラメータとワークメモリ70上の変数
から算出され、配列変数A(w,t,n,k)に加算さ
れる。
グラムによって実行される。以下、入力信号の特徴ベク
トルot が入力される毎に図6のフローチャートに示す
処理がマイクロプロセッサ30によって実行される。図
中の101のブロックではHMM−2パラメータ記憶部
50に記憶された出力確率分布のパラメータに基づい
て、内部状態kにおいて特徴ベクトルot を出力する出
力確率bk (2) (ot )が算出され、ワークメモリ70
上の変数Bとして格納される。また前向き確率を計算す
るためのワークメモリ70上の配列変数A(w,t,
n,k)がクリアされる。102のブロックでは状態
m、内部状態jから状態n、内部状態kへ遷移して特徴
ベクトルot を出力した場合の前向き確率への寄与がH
MM−1パラメータ記憶部とHMM−2パラメータ記憶
部に記憶されたパラメータとワークメモリ70上の変数
から算出され、配列変数A(w,t,n,k)に加算さ
れる。
【0065】以上の処理が終了すると、入力信号の時刻
が1時刻増加され、次の特徴ベクトルot の入力を待っ
て同様の処理が行われる。入力信号が終了して最後の特
徴ベクトルoT が処理された後、マイクロプロセッサ3
0の内部では次のような処理が行われる。ワークメモリ
70に記憶されている各単語w毎の前向き確率A(w,
T,n,k)は各単語の標準パターンモデルが入力信号
を出力する単語出力確率(尤度値)を与えている。これ
らを順次比較することによって最大値を求め、これに対
応する単語
が1時刻増加され、次の特徴ベクトルot の入力を待っ
て同様の処理が行われる。入力信号が終了して最後の特
徴ベクトルoT が処理された後、マイクロプロセッサ3
0の内部では次のような処理が行われる。ワークメモリ
70に記憶されている各単語w毎の前向き確率A(w,
T,n,k)は各単語の標準パターンモデルが入力信号
を出力する単語出力確率(尤度値)を与えている。これ
らを順次比較することによって最大値を求め、これに対
応する単語
【0066】
【外5】
【0067】を認識結果として出力する。
【0068】このプログラムにおいてワークメモリ70
に格納する配列変数A(w,t,n,k)はすべての時
刻tについて保存する必要はなく、ある時刻tにおいて
は時刻tと時刻t−1の分のみを保存してあればよい。
よって配列変数の格納領域の大きさは2・W・N・Kで
ある。
に格納する配列変数A(w,t,n,k)はすべての時
刻tについて保存する必要はなく、ある時刻tにおいて
は時刻tと時刻t−1の分のみを保存してあればよい。
よって配列変数の格納領域の大きさは2・W・N・Kで
ある。
【0069】格納領域の大きさは請求項2の方式に従え
ばさらに削減することができる。その場合のフローチャ
ートを図7に示す。計算に必要な配列変数はk
max (t,n)とA(w,t,n)である。どちらもあ
る時刻tにおいては時刻tと時刻t−1の分のみを保存
してあればよいので、必要な格納領域の大きさは2・N
+2・W・Nとなり、約1/Kに削減された。また演算
量についても図6と図7を比べると、図7では、変数j
に関する繰り返し計算がなくなった分だけ削減されてい
ることがわかる。
ばさらに削減することができる。その場合のフローチャ
ートを図7に示す。計算に必要な配列変数はk
max (t,n)とA(w,t,n)である。どちらもあ
る時刻tにおいては時刻tと時刻t−1の分のみを保存
してあればよいので、必要な格納領域の大きさは2・N
+2・W・Nとなり、約1/Kに削減された。また演算
量についても図6と図7を比べると、図7では、変数j
に関する繰り返し計算がなくなった分だけ削減されてい
ることがわかる。
【0070】
【発明の効果】以上述べたように、本発明によって従来
法1に比べて大幅に少ないパラメータ数で、従来法2に
比べてベクトル量子化や係数の発見法的な再計算なし
に、HMMの状態遷移境界における不連続の問題を解決
して高精度な信号のモデル化を行い、低コストかつ高性
能な音声認識装置の実現が可能となった。
法1に比べて大幅に少ないパラメータ数で、従来法2に
比べてベクトル量子化や係数の発見法的な再計算なし
に、HMMの状態遷移境界における不連続の問題を解決
して高精度な信号のモデル化を行い、低コストかつ高性
能な音声認識装置の実現が可能となった。
【図1】従来法を説明するための図
【図2】従来法1を示すブロック図
【図3】従来法2を示すブロック図
【図4】本発明の一実施例を示すブロック図
【図5】本発明を実現するための装置構成図
【図6】本発明の要部の処理を示すフローチャート
【図7】本発明の要部の処理を示すフローチャート
10 マイクロホン 20 分析部 30 マイクロプロセッサ 40 HMM−1パラメータ記憶部 50 HMM−2パラメータ記憶部 60 ワークメモリ
Claims (2)
- 【請求項1】入力された音声を一定の時間間隔で分析
し、特徴ベクトルを抽出し、各認識対象カテゴリの標準
パターンモデルの尤度値を算出して認識を行う音声認識
装置において、各認識対象カテゴリ毎に用意した、内部
状態番号を出力記号とする第一の隠れマルコフモデルが
内部状態番号を出力する確率を計算する第一の確率計算
手段と、内部状態番号間の遷移確率と内部状態番号毎の
特徴ベクトル出力確率分布を有する第二の隠れマルコフ
モデルが特徴ベクトルを出力する確率を計算する第二の
確率計算手段と、第一および第二の確率計算手段の出力
を用いて、各認識対象カテゴリの標準パターンモデルの
尤度値を計算する尤度値計算手段を有することを特徴と
する音声認識装置。 - 【請求項2】前記尤度値計算手段において、入力音声特
徴ベクトル時系列の時間軸上の各時刻と、各認識対象カ
テゴリの第一の隠れマルコフモデルの各状態において、
最大の尤度値を与える内部状態番号のみを残して尤度値
計算処理を進めることを特徴とする請求項1記載の音声
認識装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6129985A JP2654539B2 (ja) | 1994-06-13 | 1994-06-13 | 音声認識装置 |
US08/483,321 US5737488A (en) | 1994-06-13 | 1995-06-07 | Speech recognizer |
CA002151330A CA2151330C (en) | 1994-06-13 | 1995-06-08 | A speech recognizer |
EP95109134A EP0688012B1 (en) | 1994-06-13 | 1995-06-13 | A speech recognizer |
DE69514573T DE69514573T2 (de) | 1994-06-13 | 1995-06-13 | Vorrichtung zur Spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6129985A JP2654539B2 (ja) | 1994-06-13 | 1994-06-13 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07334187A JPH07334187A (ja) | 1995-12-22 |
JP2654539B2 true JP2654539B2 (ja) | 1997-09-17 |
Family
ID=15023311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6129985A Expired - Fee Related JP2654539B2 (ja) | 1994-06-13 | 1994-06-13 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5737488A (ja) |
EP (1) | EP0688012B1 (ja) |
JP (1) | JP2654539B2 (ja) |
CA (1) | CA2151330C (ja) |
DE (1) | DE69514573T2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1078355B1 (de) * | 1998-05-11 | 2002-10-02 | Siemens Aktiengesellschaft | Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung |
US6594392B2 (en) * | 1999-05-17 | 2003-07-15 | Intel Corporation | Pattern recognition based on piecewise linear probability density function |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6701305B1 (en) | 1999-06-09 | 2004-03-02 | The Boeing Company | Methods, apparatus and computer program products for information retrieval and document classification utilizing a multidimensional subspace |
US6837790B1 (en) | 2000-07-26 | 2005-01-04 | Igt | Gaming device with moving screen simulation |
KR100464428B1 (ko) * | 2002-08-12 | 2005-01-03 | 삼성전자주식회사 | 음성 인식 장치 |
NL1026254C2 (nl) | 2003-06-17 | 2005-05-02 | E Van Zanten Holding B V | Samenstel omvattende een plantvoet en een transportsysteem, alsmede plantvoet bestemd voor een dergelijk samenstel. |
TWI454955B (zh) * | 2006-12-29 | 2014-10-01 | Nuance Communications Inc | 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體 |
JP5243375B2 (ja) * | 2009-09-09 | 2013-07-24 | 日本光電工業株式会社 | 生体信号処理装置及び医療装置制御方法 |
US8515734B2 (en) * | 2010-02-08 | 2013-08-20 | Adacel Systems, Inc. | Integrated language model, related systems and methods |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
-
1994
- 1994-06-13 JP JP6129985A patent/JP2654539B2/ja not_active Expired - Fee Related
-
1995
- 1995-06-07 US US08/483,321 patent/US5737488A/en not_active Expired - Fee Related
- 1995-06-08 CA CA002151330A patent/CA2151330C/en not_active Expired - Fee Related
- 1995-06-13 EP EP95109134A patent/EP0688012B1/en not_active Expired - Lifetime
- 1995-06-13 DE DE69514573T patent/DE69514573T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0688012B1 (en) | 2000-01-19 |
US5737488A (en) | 1998-04-07 |
EP0688012A2 (en) | 1995-12-20 |
CA2151330A1 (en) | 1995-12-14 |
DE69514573D1 (de) | 2000-02-24 |
DE69514573T2 (de) | 2000-07-06 |
CA2151330C (en) | 2000-08-15 |
JPH07334187A (ja) | 1995-12-22 |
EP0688012A3 (en) | 1996-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0831461B1 (en) | Scheme for model adaptation in pattern recognition based on taylor expansion | |
US6041299A (en) | Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
Ortmanns et al. | Language-model look-ahead for large vocabulary speech recognition | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP3412496B2 (ja) | 話者適応化装置と音声認識装置 | |
US5596679A (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
EP0755046B1 (en) | Speech recogniser using a hierarchically structured dictionary | |
EP0706171A1 (en) | Speech recognition method and apparatus | |
EP0617827B1 (en) | Composite expert | |
US7587321B2 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system | |
JPH02238496A (ja) | 音声認識装置 | |
US6224636B1 (en) | Speech recognition using nonparametric speech models | |
JPH05257492A (ja) | 音声認識方式 | |
JP2654539B2 (ja) | 音声認識装置 | |
Sixtus et al. | High quality word graphs using forward-backward pruning | |
Zavaliagkos et al. | A hybrid continuous speech recognition system using segmental neural nets with hidden Markov models | |
US6901365B2 (en) | Method for calculating HMM output probability and speech recognition apparatus | |
Nadas et al. | Continuous speech recognition with automatically selected acoustic prototypes obtained by either bootstrapping or clustering | |
WO2021229643A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 | |
JPH11143486A (ja) | 話者適応装置および方法 | |
Takahashi et al. | Discrete mixture HMM | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19970401 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090530 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100530 Year of fee payment: 13 |
|
LAPS | Cancellation because of no payment of annual fees |