JPH0968996A - Voice recognition method - Google Patents
Voice recognition methodInfo
- Publication number
- JPH0968996A JPH0968996A JP7225224A JP22522495A JPH0968996A JP H0968996 A JPH0968996 A JP H0968996A JP 7225224 A JP7225224 A JP 7225224A JP 22522495 A JP22522495 A JP 22522495A JP H0968996 A JPH0968996 A JP H0968996A
- Authority
- JP
- Japan
- Prior art keywords
- ijm
- normal distribution
- logarithmic value
- feature vector
- maximum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】この発明は、隠れマルコフモ
デルを用いた音声認識方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method using a hidden Markov model.
【0002】[0002]
例えば文献:中川聖一”確率モデルによる音声認識”
電子情報通信学会(1988) ISBN−4−885
52−072−Xにも開示されているように、音声認識
では、音声標準パタンとして、隠れマルコフ・モデル
(HiddenMarkov Model。以下、HM
Mと呼ぶ)を広く用いている。音声標準パタンとなるH
MMは、いくつかの状態例えばS0 〜S3 と、状態Si
からSjに遷移する確率aij及びその遷移の際にある音
声シンボルベクトルVt が出力される確率bij(Vt)とで
表される。出力確率bij(Vt)は、一般に、複数個の正規
分布から成る無相関混合正規分布により表される。For example: Seiichi Nakagawa "Speech recognition by stochastic model"
IEICE (1988) ISBN-4-885
As disclosed in 52-072-X, in speech recognition, a hidden Markov model (HiddenMarkov Model) is used as a speech standard pattern.
(M is called) is widely used. H, which is the standard voice pattern
The MM has several states, eg S 0 -S 3 , and states S i.
Is represented by probability a ij of transition from S j to S j and probability b ij (V t ) of outputting a voice symbol vector V t at the time of the transition. The output probability b ij (V t ) is generally represented by an uncorrelated mixed normal distribution including a plurality of normal distributions.
【0003】HMMを用いた音声認識では、入力音声信
号から、音声区間の各フレーム毎に入力音声特徴ベクト
ルxt を抽出する。次いでHMMの無相関混合正規分布
を用いて、入力音声特徴ベクトルxt の出力確率bij(x
t)=Σ{λijm bijm(xt) }を算出する。ここで、λ
ijm は無相関混合正規分布における第m番目の正規分布
の重み、bijm は無相関混合正規分布における第m番目
の正規分布から求めた入力音声特徴ベクトルxt の重み
無し確率を示す。In voice recognition using an HMM, an input voice feature vector x t is extracted from an input voice signal for each frame of a voice section. Then using uncorrelated Gaussian mixture of HMM, the output probability b ij (x of the input speech feature vector x t
t ) = Σ {λ ijm b ijm (x t )} is calculated. Where λ
ijm represents the weight of the m-th normal distribution in the decorrelated mixed normal distribution, and b ijm represents the unweighted probability of the input speech feature vector x t obtained from the m-th normal distribution in the decorrelated mixed normal distribution.
【0004】次いで音声区間の始端フレームから終端フ
レームまでに抽出された入力音声特徴ベクトルxt の時
系列とHMMとの間の尤度を、これら各入力音声特徴ベ
クトルxt の出力確率bij(xt)を用いて求める。各HM
M毎に尤度を求め、最大の尤度を得たHMMに付与され
ているカテゴリ名を、その入力音声信号の認識結果とす
る。Then, the likelihood between the time series of the input voice feature vector x t extracted from the start frame to the end frame of the voice section and the HMM is calculated as the output probability b ij (of each input voice feature vector x t ). x t ). Each HM
The likelihood is calculated for each M, and the category name given to the HMM for which the maximum likelihood is obtained is used as the recognition result of the input speech signal.
【0005】[0005]
【発明が解決しようとする課題】しかしながら入力音声
特徴ベクトルxt の出力確率bij(xt)として、Σ{λ
ijm bijm(xt) }を求めるのでは、計算量が増大するた
め、入力音声特徴ベクトルxt の時系列とHMMとの間
の尤度を高速に計算することが難しい。従って出力確率
bij(xt)を、精度の低下を抑えつつ、より簡略に求める
ことが望まれていた。However, as the output probability b ij (x t ) of the input speech feature vector x t , Σ {λ
ijm b ijm (x t )} is difficult to calculate the likelihood between the time series of the input speech feature vector x t and the HMM because the calculation amount increases. Therefore, it has been desired to obtain the output probability b ij (x t ) more simply while suppressing the decrease in accuracy.
【0006】[0006]
【課題を解決するための手段】前述の課題を解決するた
め、この発明の音声認識方法は、隠れマルコフモデルを
音声標準パタンとし、この隠れマルコフモデルは、互い
に無相関な複数個の正規分布を有し当該モデルから出力
される音声シンボルベクトルの出力確率を表す無相関混
合正規分布を備え、音声区間内の始端フレームから終端
フレームまでに抽出された入力音声特徴ベクトルの時系
列と隠れマルコフモデルとの間の尤度を、各入力音声特
徴ベクトルの出力確率の対数値を用いて計算し、最大の
尤度を得た隠れマルコフモデルに付与されているカテゴ
リ名を、当該音声区間の入力音声信号に対する認識結果
とする音声認識方法において、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を、入力音声特徴ベクトルxt の出
力確率bij(xt)の対数値に用いて、隠れマルコフモデル
との間の尤度を計算するに当り、t≧2のときに第t番
目のフレームにおいて最大の対数値Gijm(xt) を検出す
るための最大値候補と、t≧2のときに第t−1番目の
フレームにおいて最大の対数値Gijm(xt) を得た正規分
布がいずれであるかを表すインデックスとを格納する参
照情報記憶部を設け、t=1では、総個数M個の全正規
分布について各正規分布毎に対数値Gijm(xt) を算出し
て、最大の対数値Gijm(xt) を検出し、該最大の対数値
Gijm(xt) を第1番目のフレームにおける入力音声特徴
ベクトルxt の出力確率bij(xt)の対数値とすると共に
該最大の対数値Gijm(xt) を得た正規分布に対応するイ
ンデックスを格納し、t≧2では、(1)まずインデッ
クスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部のインデックスを書換えると共に、当該最大値候補
を、出力確率bij(xt)の対数値に用いて、隠れマルコフ
モデルとの間の尤度を計算することを特徴とする。In order to solve the above-mentioned problems, the speech recognition method of the present invention uses a hidden Markov model as a speech standard pattern, and the hidden Markov model has a plurality of normal distributions that are uncorrelated with each other. Having a non-correlated mixed normal distribution that represents the output probability of the voice symbol vector output from the model, the time series of the input voice feature vector extracted from the start frame to the end frame in the voice section, and a hidden Markov model Between the input speech signal of the input speech signal of the relevant speech section, and the category name given to the Hidden Markov Model that has obtained the maximum likelihood is calculated by using the logarithmic value of the output probability of each input speech feature vector. in the speech recognition method the recognition result for, b ij (x t): the hidden Markov models with uncorrelated Gaussian mixture having a total number of M normal distribution The t-th output probability of the input extracted by the frame speech feature vector x t is output (1 ≦ t ≦ T. 1st frame start frame of the speech segment, and the T-th frame speech section , G ijm (x t ): Weighted probability of the input speech feature vector x t calculated from the m-th (1 ≦ m ≦ M.) Normal distribution in the total number M of normal distributions. (However, g ijm (x t ) = λ ijm b ijm (x t ), b ijm (x t ) =
(2π) -p / 2 | ρ ijm | -1/2 exp {-D ijmt 2/2},
D ijmt 2 = (x t −μ ijm ) ′ ρ ijm −1 (x t −μ
ijm ), λ ijm : weight of the m-th normal distribution, b ijm (x t ): unweighted probability of the input speech feature vector x t calculated from the m-th normal distribution, p: input speech feature vector x order of t , ρ ijm : variance-covariance matrix of the m-th normal distribution, μ ijm : mean vector of the m-th normal distribution, D ijmt : input speech feature vector x t and the m-th normal distribution Mahalavis general distance that represents the distance between. ), G ijm (x t) : logarithm of weighted probabilities g ijm (x t) (where, G ijm (x t) = E ijm -D ijmt 2/2, E ijm = ln (λ ijm) + ln {( 2π) -p / 2 | ρ ijm |
-1/2 }. ), Input the maximum logarithmic value G ijm (x t ) among the logarithmic values G ijm (x t ) of the weighted probabilities g ijm (x t ) calculated from each M normal distribution. When calculating the likelihood with the hidden Markov model using the logarithmic value of the output probability b ij (x t ) of the speech feature vector x t , when t ≧ 2, the maximum in the t-th frame is calculated. in either the maximum value candidate for detecting logarithm G ijm (x t), the normal distribution was obtained maximum logarithm G ijm the (x t) in the first t-1 th frame at t ≧ 2 is A reference information storage unit that stores an index indicating whether or not there is is provided, and at t = 1, the logarithmic value G ijm (x t ) is calculated for each normal distribution with respect to all normal distributions of the total number M, and the maximum value is calculated. detecting a logarithmic value G ijm (x t), outermost sized logarithm G ijm the (x t) of the input speech feature vector x t in the first frame Storing an index corresponding to a normal distribution was obtained outermost sized logarithm G ijm (x t) with the logarithm of the power probability b ij (x t), the t ≧ 2, (1) first corresponding to the index Logarithmic value G calculated using the normal distribution
ijm (x t ) is stored as the maximum value candidate, and (2) -D is calculated in calculating the logarithmic value G ijm (x t ) using the remaining normal distribution that does not correspond to the index among the M normal distributions. ijmt 2
The logarithmic value G ijm (x t ) in the process of calculation is compared with the maximum value candidate for each one or a plurality of calculation intervals for calculating the term of / 2, and (3-A) the logarithmic value in the process of calculation When G ijm (x t ) becomes smaller than the maximum value candidate, the calculation of the logarithmic value G ijm (x t ) is finished, and thereafter , the logarithmic value G for the remaining next normal distribution G
The calculation of ijm (x t ) is started, and (3-B) the calculation of the logarithmic value G ijm (x t ) is completed without the logarithmic value G ijm (x t ) being calculated being smaller than the maximum value candidate. Then, the maximum value candidate is rewritten to the logarithmic value G ijm (x t ), and after that, calculation of the logarithmic value G ijm (x t ) is started for the remaining next normal distribution, and (4)
When the calculation of the logarithmic value G ijm (x t ) is completed for all the normal distributions of the total number M, the index of the reference information storage unit is set to the index corresponding to the normal distribution that has obtained the maximum value candidate stored at this time. In addition to rewriting, the maximum value candidate is used for the logarithmic value of the output probability b ij (x t ) to calculate the likelihood with the hidden Markov model.
【0007】このような発明によれば、総個数M個の各
正規分布から算出される重み付け確率gijm(xt) の対数
値のなかで最大の対数値Gijm(xt) を、入力音声特徴ベ
クトルxt の出力確率bij(xt)の対数値に用いて、隠れ
マルコフモデルとの間の尤度を計算する。これは、総個
数M個の各正規分布から算出される重み付け確率g
ijm(xt) のなかで最大の重み付け確率gijm(xt) を、入
力音声特徴ベクトルxt の出力確率bij(xt)に用いるこ
とに、他ならない。According to such an invention, the maximum logarithmic value G ijm (x t ) among the logarithmic values of the weighting probability g ijm (x t ) calculated from each normal distribution of the total number M is input. The likelihood with respect to the hidden Markov model is calculated using the logarithmic value of the output probability b ij (x t ) of the speech feature vector x t . This is the weighted probability g calculated from each of the M normal distributions.
ijm maximum weighted probability g ijm (x t) among (x t), to be used for the output probability b ij of the input speech feature vector x t (x t), none other.
【0008】これに対し、従来において典型的に用いら
れていた音声特徴ベクトルxt の出力確率bij(xt)は、
無相関混合正規分布の各正規分布から求めた重み付け確
率gijm(xt) =λijm bijm(xt) の線形和Σ{λijm b
ijm(xt) }である。On the other hand, the output probability b ij (x t ) of the speech feature vector x t , which is typically used in the past, is
Linear sum Σ {λ ijm b of weighted probabilities g ijm (x t ) = λ ijm b ijm (x t ) obtained from each normal distribution of uncorrelated mixed normal distribution
ijm (x t )}.
【0009】ところで隠れマルコフモデルが備える総個
数M個の正規分布は互いに無相関であるので、重み付け
確率gijm(xt) が最大とならない正規分布と入力音声特
徴ベクトルxt との間の距離は、重み付け確率g
ijm(xt) が最大となる正規分布との距離よりも長くな
る。By the way, since the total number M of normal distributions included in the hidden Markov model are uncorrelated with each other, the distance between the normal distribution whose weighting probability g ijm (x t ) does not become maximum and the input speech feature vector x t. Is the weighted probability g
ijm (x t ) is longer than the distance from the maximum normal distribution.
【0010】これがため最大とならない重み付け確率g
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。Because of this, the maximum weighting probability g
Since ijm (x t ) is so small as to be negligible with respect to the maximum weighting probability g ijm (x t ), the maximum weighting output probability g ijm (x t ) in the present invention is set to the input speech feature vector x.
As the output probability b ij (x t ) of t , it is possible to obtain the output probability b ij (x t ) that is approximately equal to the conventional one.
【0011】また重み付け確率gijm(xt) の対数値G
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、λijm 及び|
ρijm |は一定であり従ってEijm は一定であるので、
算出途上の対数値Gijm(xt) はEijm をピークとして−
Dijmt 2 /2の演算の一演算間隔毎に減少してゆく。こ
こで−Dijm 2/2の演算の一演算間隔とは、−Dijmt 2
/2の算出過程において、入力音声特徴ベクトルxt の
一ベクトル成分について行なわれる演算の開始から終了
までの間隔を表す。The logarithmic value G of the weighting probability g ijm (x t )
ijm (x t) is expressed as G ijm (x t) = E ijm -D ijmt 2/2, and in the m-th normal distribution, lambda ijm and |
Since ρ ijm | is constant and thus E ijm is constant,
The logarithmic value G ijm (x t ) in the process of calculation has a peak at E ijm −
D ijmt 2/2 of the slide into reduced per one operation interval of the operation. Here as one calculation interval calculation -D ijm 2/2 is, -D ijmt 2
In the calculation process of / 2, it represents the interval from the start to the end of the calculation performed on one vector component of the input speech feature vector x t .
【0012】これがため、−Dijm 2/2の演算の、一又
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し(上記(2)の処理)、算出途上の
対数値Gijm(xt) が最大値候補よりも小さくなったら、
当該対数値Gijm(xt) の算出を算出途上で終了すること
により(上記(3−A)の処理)、最大の対数値G
ijm(xt) 検出に要する計算量を減少させることができ
る。[0012] This is because, the operation of -D ijm 2/2, the processing of each one or more of the operational interval, calculates developing the logarithm G ijm the (x t) as compared to the maximum value candidate (above (2) ), If the logarithmic value G ijm (x t ) under calculation becomes smaller than the maximum value candidate,
By ending the calculation of the logarithmic value G ijm (x t ) during calculation (processing of (3-A) above), the maximum logarithmic value G is obtained.
The amount of calculation required for ijm (x t ) detection can be reduced.
【0013】しかも第t−1番目のフレームの入力音声
特徴ベクトルxt-1 と第t番目のフレームの入力音声特
徴ベクトルxt とは、時間的に近接しているので、これ
らベクトルxt 及びxt-1 の成分は互いに類似する可能
性が高い。[0013] Moreover the input speech feature vector x t-1 of the t-1 th frame and the input speech feature vector x t of the t-th frame, since the temporal proximity, these vectors x t and The components of x t-1 are likely to be similar to each other.
【0014】従って第t−1番目のフレームにおいて第
I番目の正規分布から求めた重み付け確率gijI(xt-1)
の対数値GijI(xt-1) が最大の対数値Gijm(xt-1) とな
った場合、次の第t番目のフレームにおいても第I番目
の正規分布から求めた重み付け確率gijI(xt) の対数値
GijI(xt) が最大の対数値Gijm(xt) となる可能性が高
い。Therefore, the weighting probability g ijI (x t-1 ) obtained from the I-th normal distribution in the ( t-1 ) th frame
When the logarithmic value G ijI (x t-1 ) of is the maximum logarithmic value G ijm (x t-1 ), the weighting probability g obtained from the I-th normal distribution also in the next t-th frame. ijI (x t) of the logarithmic value G ijI (x t) is likely to be the largest logarithmic value G ijm (x t).
【0015】これがため、この第I番目の正規分布から
求めた対数値GijI(xt) を最大値候補の初期値として
(上記(1)の処理)、算出途上の対数値Gijm(xt) が
最大値候補よりも小さくなったら、当該対数値G
ijm(xt) の算出を算出途上で終了することにより(上記
(3−A)の処理)、最大の対数値Gijm(xt) 検出に要
する計算量を減少させることができる。For this reason, the logarithmic value G ijI (x t ) obtained from the I-th normal distribution is used as the initial value of the maximum value candidate (processing of (1) above), and the logarithmic value G ijm (x in the process of calculation is used. When t ) becomes smaller than the maximum value candidate, the logarithmic value G
(process of (3-A)) by finish calculating the ijm (x t) in calculating developing, it is possible to reduce the amount of calculation required to detect the largest logarithm G ijm (x t).
【0016】[0016]
【発明の実施の形態】図1はこの発明の音声認識方法の
実施に用いて好適な音声認識装置の一構成例を概略的に
示す機能ブロック図である。DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a functional block diagram schematically showing an example of the configuration of a voice recognition apparatus suitable for implementing the voice recognition method of the present invention.
【0017】同図に示す音声認識装置10は、辞書部1
2、音響処理部14、音声区間検出部16、HMM照合
部18及び参照情報記憶部20を備える。The speech recognition apparatus 10 shown in FIG.
2, a sound processing unit 14, a voice section detection unit 16, an HMM collation unit 18, and a reference information storage unit 20.
【0018】辞書部12は、音声標準パタンとして隠れ
マルコフモデルを格納する。隠れマルコフモデルは、互
いに無相関な複数個の正規分布を有し当該モデルから出
力される音声シンボルベクトルの出力確率を表す無相関
混合正規分布を備える。The dictionary unit 12 stores the hidden Markov model as a voice standard pattern. The hidden Markov model has a plurality of normal distributions that are uncorrelated with each other and has a non-correlated mixed normal distribution that represents the output probability of a speech symbol vector output from the model.
【0019】音響処理部14は、一定時間幅のフレーム
毎に、入力音声信号から入力音声特徴ベクトルを抽出す
る。音声区間検出部16は、入力音声信号から音声区間
を検出する。The sound processing unit 14 extracts an input voice feature vector from the input voice signal for each frame of a fixed time width. The voice section detection unit 16 detects a voice section from the input voice signal.
【0020】HMM照合部18は、音声区間の始端フレ
ームから終端フレームまでに抽出された入力音声特徴ベ
クトルの時系列と隠れマルコフモデルとの間の尤度を、
各入力音声特徴ベクトルの出力確率を用いて計算し、最
大の尤度を得た隠れマルコフモデルに付与されているカ
テゴリ名を、当該音声区間の入力音声信号に対する認識
結果とする。The HMM matching unit 18 calculates the likelihood between the time series of the input voice feature vector extracted from the start frame to the end frame of the voice section and the hidden Markov model,
The category name assigned to the hidden Markov model that has been calculated using the output probabilities of the input speech feature vectors and has the maximum likelihood is used as the recognition result for the input speech signal in the relevant speech section.
【0021】ここで、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、bijm(xt) =
(2π)-p/2|ρijm |-1/2exp {−Dijmt 2 /2}、
Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 (xt −μijm )’:(xt −μijm )’は(xt −μ
ijm )の転置行列を表す、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。) とするとき、隠れマルコフモデルとの間の尤度計算に用
いる入力音声特徴ベクトルxt の出力確率bij(xt)の対
数値として、総個数M個の各正規分布から算出される重
み付け確率gijm(xt) の対数値Gijm(xt) のなかで最大
の対数値Gijm(xt) を用いる。Here, b ij (x t ): an input speech feature vector x t extracted in the t-th frame from a hidden Markov model having an uncorrelated mixed normal distribution having a total number M of normal distributions. Output probability (1 ≦ t ≦ T. The first frame represents the start frame of the voice section and the T-th frame represents the end frame of the voice section), g ijm (x t ): The weighted probability of the input speech feature vector x t calculated from the m-th (1 ≦ m ≦ M.) Normal distribution in the total number M of normal distributions (where g ijm (x t ) = λ ijm b ijm ( x t ), b ijm (x t ) =
(2π) -p / 2 | ρ ijm | -1/2 exp {-D ijmt 2/2},
D ijmt 2 = (x t −μ ijm ) ′ ρ ijm −1 (x t −μ
ijm ), λ ijm : weight of the m-th normal distribution, b ijm (x t ): unweighted probability of the input speech feature vector x t calculated from the m-th normal distribution, p: input speech feature vector x order of t , ρ ijm : variance-covariance matrix of the m-th normal distribution, μ ijm : mean vector of the m-th normal distribution, D ijmt : input speech feature vector x t and the m-th normal distribution Mahalavis general distance that represents the distance between. ), (X t −μ ijm ) ′: (x t −μ ijm ) ′ is (x t −μ ijm ) '
represents the transposed matrix of ijm), G ijm (x t ): logarithm of weighted probabilities g ijm (x t) (where, G ijm (x t) = E ijm -D ijmt 2/2, E ijm = ln ( λ ijm ) + ln {(2π) -p / 2 │ρ ijm │
-1/2 }. ), The weighting calculated from each of the M normal distributions as the logarithmic value of the output probability b ij (x t ) of the input speech feature vector x t used for the likelihood calculation with the hidden Markov model. using the probability g ijm maximum logarithm value G ijm among (x t) of the logarithmic value G ijm (x t) (x t).
【0022】参照情報記憶部20は、t≧2のときに第
t番目のフレームにおいて最大の対数値Gijm(xt) を検
出するための最大値候補と、t≧2のときに第t−1番
目のフレームにおいて最大の対数値Gijm(xt) を得た正
規分布がいずれであるかを表すインデックスとを格納す
る。The reference information storage unit 20 stores the maximum value candidate for detecting the maximum logarithmic value G ijm (x t ) in the t-th frame when t ≧ 2, and the t-th candidate when t ≧ 2. The index indicating which is the normal distribution that has the largest logarithmic value G ijm (x t ) in the −1st frame is stored.
【0023】そしてHMM照合部18は、始端フレーム
から終端フレームまでに出力された入力音声特徴ベクト
ルxt の時系列と隠れマルコフモデルとの間の尤度を、
次の如くして行なう。The HMM matching unit 18 then calculates the likelihood between the time series of the input speech feature vector x t output from the start frame to the end frame and the hidden Markov model,
Do as follows.
【0024】すなわちt=1の場合は、総個数M個の全
正規分布について各正規分布毎に対数値Gijm(xt) を算
出して、最大の対数値Gijm(xt) を検出し、この最大の
対数値Gijm(xt) を第1番目のフレームにおける入力音
声特徴ベクトルxt の出力確率bij(xt)の対数値とする
と共にこの最大の対数値Gijm(xt) を得た正規分布に対
応するインデックスを格納する。That is, when t = 1, the logarithmic value G ijm (x t ) is calculated for each normal distribution with respect to the total number M of normal distributions, and the maximum logarithmic value G ijm (x t ) is detected. Then, the maximum logarithmic value G ijm (x t ) is set as the logarithmic value of the output probability b ij (x t ) of the input speech feature vector x t in the first frame, and the maximum logarithmic value G ijm (x Store the index corresponding to the normal distribution for which t ) was obtained.
【0025】そしてt≧2の場合には、(1)まずイン
デックスに対応する正規分布を用いて算出した対数値G
ijm(xt) を最大値候補として格納し、(2)総個数M個
の正規分布のうちインデックスに対応しない残りの正規
分布を用いた対数値Gijm(xt) の算出では、−Dijmt 2
/2の項を算出するための演算の一又は複数の演算間隔
毎に、算出途上の対数値Gijm(xt) を、最大値候補と比
較し、(3−A)算出途上の対数値Gijm(xt) が最大値
候補より小さくなったら、当該対数値Gijm(xt) の算出
を終了し、然る後、残りの次の正規分布につき対数値G
ijm (xt)の算出を開始し、(3−B)算出途上の対数値
Gijm(xt) が最大値候補より小さくなることなく、当該
対数値Gijm(xt) の算出を終了したら、最大値候補を当
該対数値Gijm (xt)に書き換え、然る後、残りの次の正
規分布につき対数値Gijm(xt) の算出を開始し、(4)
総個数M個の全正規分布について対数値Gijm(xt) の算
出を終了したら、このとき格納されている最大値候補を
得た正規分布に対応するインデックスに、参照情報記憶
部20のインデックスを書換えると共に、当該最大値候
補を、出力確率bij(xt)の対数値に用いて、隠れマルコ
フモデルとの間の尤度を計算する。When t ≧ 2, (1) First, the logarithmic value G calculated using the normal distribution corresponding to the index
ijm (x t ) is stored as the maximum value candidate, and (2) -D is calculated in calculating the logarithmic value G ijm (x t ) using the remaining normal distribution that does not correspond to the index among the M normal distributions. ijmt 2
The logarithmic value G ijm (x t ) in the process of calculation is compared with the maximum value candidate for each one or a plurality of calculation intervals for calculating the term of / 2, and (3-A) the logarithmic value in the process of calculation When G ijm (x t ) becomes smaller than the maximum value candidate, the calculation of the logarithmic value G ijm (x t ) is finished, and thereafter , the logarithmic value G for the remaining next normal distribution G
The calculation of ijm (x t ) is started, and (3-B) the calculation of the logarithmic value G ijm (x t ) is completed without the logarithmic value G ijm (x t ) being calculated being smaller than the maximum value candidate. Then, the maximum value candidate is rewritten to the logarithmic value G ijm (x t ), and after that, calculation of the logarithmic value G ijm (x t ) is started for the remaining next normal distribution, and (4)
When the calculation of the logarithmic value G ijm (x t ) is completed for all the normal distributions of the total number M, the index of the reference information storage unit 20 is added to the index corresponding to the normal distribution that has obtained the maximum value candidate stored at this time. And the maximum value candidate is used as the logarithmic value of the output probability b ij (x t ) to calculate the likelihood with the hidden Markov model.
【0026】図2は音声標準パタンに用いる隠れマルコ
フモデルの説明に供する図である。音声標準パタンに用
いる隠れマルコフモデル(以下、HMM)は、音声認識
一単位分ここでは単語1個分の音声信号であって、カテ
ゴリzを付与されている音声信号を表現している。各カ
テゴリ毎に個別に複数のHMMを用意し、HMMとカテ
ゴリzとを、相対応付けて辞書部12に格納する。FIG. 2 is a diagram for explaining the hidden Markov model used for the voice standard pattern. The Hidden Markov Model (hereinafter, HMM) used for the voice standard pattern is a voice signal for one unit of voice recognition, here, a voice signal for one word, and represents a voice signal to which a category z is added. A plurality of HMMs are prepared individually for each category, and the HMMs and categories z are stored in the dictionary unit 12 in association with each other.
【0027】HMMは、総個数I個の状態S1 〜SI か
ら成る状態の集合1と、音声シンボルベクトルxの集合
2と、状態遷移確率aijの集合3と、出力確率bij(x)
の集合4と、初期状態確率Фi の集合5と、最終状態F
の集合6とにより定義される。The HMM has a set 1 of states consisting of a total of I states S 1 to S I, a set 2 of speech symbol vectors x, a set 3 of state transition probabilities a ij , and an output probability b ij (x )
A set 4, a set 5 of the initial state probability .PHI i, final state F
And the set 6 of
【0028】[0028]
【数1】 [Equation 1]
【0029】例えば図2の例において、a12は状態S1
から状態S2 に遷移する確率及びb12(x) は状態S1 か
ら状態S2 に遷移したとき音声シンボルベクトルxが出
力される確率、またa22は状態S2 から状態S2 に遷移
する確率及びb22(x) は状態S2 から状態S2 に遷移し
たとき音声シンボルベクトルxが出力される確率を表
す。For example, in the example of FIG. 2, a 12 is the state S 1
The probability and b 12 (x) is the voice symbol vector x when a transition from the state S 1 to state S 2 transitions to a state S 2 is output from, also a 22 transitions from state S 2 to state S 2 probability and b 22 (x) represents the probability that speech symbol vector x is output when a transition from the state S 2 to state S 2.
【0030】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発生法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。The sets 1 to 6 for defining the HMM are individually obtained for each category z by a statistical method. That is, various voice signals are collected as voice signals corresponding to the category z, for example, voice signals are collected by age or sex, or voice signals of different generation methods are collected.
Sets 1 to 6 expressing the statistical properties of these audio signals are obtained.
【0031】出力確率bij(x) は、互いに無相関であり
かつそれぞれ音声シンボルベクトルxの関数である複数
個の正規分布から成る無相関混合正規分布(無相関連続
確率密度分布)により表現される。無相関混合正規分布
は、数学的取り扱いが簡単でしかも表現能力が高いとい
う利点を有する。The output probabilities b ij (x) are represented by an uncorrelated mixed normal distribution (uncorrelated continuous probability density distribution) consisting of a plurality of normal distributions that are uncorrelated with each other and are functions of the speech symbol vector x. It The decorrelated mixed normal distribution has the advantage of being easy to handle mathematically and having high expressiveness.
【0032】次に音声認識装置10の動作説明ととも
に、この実施例の音声認識方法の処理の流れにつき具体
的に説明する。Next, the flow of processing of the voice recognition method of this embodiment will be specifically described along with the description of the operation of the voice recognition apparatus 10.
【0033】音響処理部14は、入力音声信号から、各
フレーム毎に入力音声特徴ベクトルxt を抽出する。こ
の時点で入力音声特徴ベクトルxt に付与されるフレー
ム番号tは、音響処理開始時点のフレームを第t=1番
目のフレームとして、順次に付与された番号であり、こ
のフレーム番号tは、後述するHMM照合部18におい
て、音声区間の始端フレームを第1番目(t=1)のフ
レームとして、音声区間の始端フレームから終端フレー
ムまで順次に付与された番号に書き改められる。The sound processing section 14 extracts the input voice feature vector x t for each frame from the input voice signal. The frame number t given to the input speech feature vector x t at this point is a number sequentially given with the frame at the start of the acoustic processing as the t = 1th frame, and this frame number t will be described later. In the HMM matching unit 18, the start frame of the voice section is rewritten as the first (t = 1) frame into numbers sequentially assigned from the start frame to the end frame of the voice section.
【0034】入力音声特徴ベクトルxt は、xt =(x
t1、xt2、……、xtp)と表せる。pは入力音声特徴ベ
クトルxt の次数、及びxt1〜xtpは入力音声特徴ベク
トルxt のベクトル成分を表す。The input speech feature vector x t is x t = (x
t 1, x t 2, ..., X t p). p represents the order of the input speech feature vector x t , and x t1 to x t p represent vector components of the input speech feature vector x t .
【0035】入力音声特徴ベクトルxt のベクトル成分
としては、例えば、中心周波数が異なる複数のバンドパ
スフィルタから成る帯域フィルタ群に入力音声信号を入
力したときの各フィルタ出力から得たものや、入力音声
信号をフーリエ解析して得られるパワースペクトル成分
や、或は、入力音声信号の線形予測分析すなわちLPC
分析により求められるLPCケプストラム係数を、用い
ることができる。ここでは帯域フィルタ群を用いて入力
音声特徴ベクトルxt を抽出する例につき説明する。As the vector component of the input speech feature vector x t , for example, one obtained from each filter output when an input speech signal is input to a bandpass filter group consisting of a plurality of bandpass filters having different center frequencies, or an input A power spectrum component obtained by Fourier analysis of an audio signal, or a linear predictive analysis or LPC of an input audio signal
The LPC cepstrum coefficient determined by analysis can be used. Here, an example in which the input speech feature vector x t is extracted using a band filter group will be described.
【0036】音響処理部14は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、入力音声特徴ベクトルxt の成分xt1
として抽出する。同様にして、残りの信号成分x2 〜x
p から、入力音声特徴ベクトルxt の成分xt2〜xtpを
抽出する。The acoustic processing unit 14 converts the input audio signal from an analog signal to a digital signal, and outputs the converted input audio signal through a band filter group to a frequency band (channel) corresponding to each band pass filter. Separated into signal components,
The total number p of signal components x1 ...
Get xp. Next, the acoustic processing unit 14 rectifies the signal component x1 and obtains an average value of the rectified signal component x1 (absolute value of the signal component x1) in frame units. This average value is obtained by dividing the rectified signal component x1 by the time width of one frame. The average value of the signal component x1 obtained in the t-th frame, the components of the input speech feature vector x t x t 1
Extract as Similarly, the remaining signal components x2 to x
From p, it extracts the component x t 2~x t p of the input speech feature vector x t.
【0037】次に音声区間検出部16は、音響処理部1
4からの入力音声特徴ベクトルxtに基づいて、音声区
間の始端フレーム及び終端フレームを検出し、どのフレ
ームが音声区間の始端フレーム及び終端フレームである
かを表す区間情報を生成する。音声区間は、音声認識一
単位分の音声信号が含まれる区間である。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。Next, the voice section detecting section 16 includes the sound processing section 1
Based on the input voice feature vector x t from 4, the start frame and the end frame of the voice section are detected, and the section information indicating which frame is the start frame and the end frame of the voice section is generated. The voice section is a section including a voice signal for one unit of voice recognition. One unit of speech recognition can be a word unit, a phoneme unit, or another unit, but here, it is a word unit.
【0038】HMM照合部18は、区間情報と入力音声
特徴ベクトルxt とを音声区間検出部16から入力し
て、音声区間の始端フレームから終端フレームまでに抽
出された入力音声特徴ベクトルxt の時系列x1 〜xT
を生成する。ここで、フレーム番号tは、音声区間の始
端フレームを第1番目(t=1)のフレームとして、音
声区間の始端フレームから終端フレームまで順次に付与
された番号に書き改められる。The HMM collation unit 18 inputs the section information and the input voice feature vector x t from the voice section detection unit 16 and extracts the input voice feature vector x t from the start frame to the end frame of the voice section. Time series x 1 to x T
Generate Here, the frame number t is rewritten into a number sequentially assigned from the start frame to the end frame of the voice section with the start frame of the voice section as the first (t = 1) frame.
【0039】そしてHMM照合部18はベクトル時系列
x1 〜xT と辞書部12に格納されているHMMとの間
の尤度ln{P(x1 〜xT )}を求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。Then, the HMM matching unit 18 finds the likelihood ln {P (x 1 to x T )} between the vector time series x 1 to x T and the HMM stored in the dictionary unit 12, and determines the maximum likelihood. The category z assigned to the obtained HMM is output as the recognition result.
【0040】ここで、P(x1 〜xT )はHMMにおい
てベクトル時系列x1 〜xT が出現する確率であって、
次式(1)の如く表される。Here, P (x 1 to x T ) is the probability that the vector time series x 1 to x T will appear in the HMM, and
It is expressed as the following equation (1).
【0041】[0041]
【数2】 [Equation 2]
【0042】(1)式において、*iはSi ∈Fを満た
すi(最終状態Fに属する状態Siに付与されている番
号i)であって、従ってi=*iとなる前向き確率ciT
のなかで最大の前向き確率ciTを、出現確率P(x1 〜
xT )とするものである。In the equation (1), * i is i (the number i given to the state S i belonging to the final state F) that satisfies S i εF, and therefore the forward probability c that i = * i. iT
Among them, the maximum forward probability c iT is defined as the appearance probability P (x 1 ~
x T ).
【0043】前向き確率ciTは、ビタビアルゴリズムに
より、次式(2)〜(3)に示す漸化式を用いて近似的
に求められる。The forward probability c iT is approximately obtained by the Viterbi algorithm using the recurrence formulas shown in the following equations (2) to (3).
【0044】[0044]
【数3】 (Equation 3)
【0045】ここで、ln(aij)=Aij、ln{b
ij(xt)}=Bij(xt)、ln(cit)=Citと表せば(以
下、遷移対数値Aij、出力対数値Bij、前向き対数値C
iTと称する)、式(1)〜(3)を変形して、尤度ln
{P(x1 〜xt )}の算出に関する(4)〜(6)式
が得られる。Here, ln (a ij ) = A ij , ln {b
ij (x t )} = B ij (x t ), ln (c it ) = C it (hereinafter, transition logarithmic value A ij , output logarithmic value B ij , forward logarithmic value C
iT ), and the equations (1) to (3) are modified to obtain the likelihood ln
Expressions (4) to (6) regarding the calculation of {P (x 1 to x t )} are obtained.
【0046】[0046]
【数4】 (Equation 4)
【0047】(5)〜(6)式はtの漸化式であるか
ら、t=1、2、……、Tとなる場合の各前向き対数値
CiTを、次式の如く順次に計算できる。Since the equations (5) to (6) are recurrence equations of t, the forward logarithmic values C iT when t = 1, 2, ..., T are calculated sequentially as the following equation. it can.
【0048】[0048]
【数5】 (Equation 5)
【0049】HMMにおいて、初期状態からベクトル系
列x1 〜xt を生成して状態Si に至る遷移パスは一つ
又は複数存在し、ほとんどの場合に複数の遷移パスが存
在する。複数の遷移パスが存在する場合、各遷移パス毎
に前向き対数値CiTが求められ、従って各遷移パスに対
応した複数の前向き対数値CiTを得ることとなる。In the HMM, there is one or a plurality of transition paths from the initial state to generate the vector series x 1 to x t and reach the state S i . In most cases, there are a plurality of transition paths. When there are a plurality of transition paths, the forward logarithmic value C iT is obtained for each transition path, and therefore a plurality of forward logarithmic values C iT corresponding to the respective transition paths are obtained.
【0050】HMM照合部18は、カテゴリzを付与さ
れたHMMにおいて、前向き対数値CiTを求め、i=*
iとなる前向き対数値CiTのなかで最大の前向き対数値
CiTを、ベクトル時系列x1 〜xT と当該HMMとの間
の尤度ln{P(x1 〜xT )}として得る。そして辞書
部12に格納されているすべてのHMMについて、各H
MM毎に、尤度ln{P(x1 〜xT )}を求め、最大の
尤度ln{P(x1 〜xT )}を得たHMMに付与されて
いるカテゴリzを、ベクトル時系列x1 〜xTを得た入
力音声信号の認識結果として出力する。The HMM matching unit 18 obtains the forward logarithmic value C iT in the HMM assigned with the category z, and i = *
The maximum forward logarithmic value C iT among the forward logarithmic values C iT for i is obtained as the likelihood ln {P (x 1 to x T )} between the vector time series x 1 to x T and the HMM. . Then, for all HMMs stored in the dictionary unit 12,
For each MM, the likelihood ln {P (x 1 to x T )} is calculated, and the category z assigned to the HMM that has the maximum likelihood ln {P (x 1 to x T )} is calculated at vector time. The sequence x 1 to x T is output as the recognition result of the input speech signal.
【0051】上述の尤度ln{P(x1 〜xT )}を算出
する過程において、最も複雑な演算は、出力対数値Bij
(xt)を求める演算である。この演算を高速に行なうた
め、出力確率bij(xt)を次式(12)の如く定義する。
出力確率bij(xt)は、総個数M個の正規分布を有する無
相関混合正規分布を備えた隠れマルコフモデルから、入
力音声特徴ベクトルxt が出力される確率である。In the process of calculating the above-mentioned likelihood ln {P (x 1 to x T )}, the most complicated operation is the output logarithmic value B ij.
This is an operation for obtaining (x t ). In order to perform this calculation at high speed, the output probability b ij (x t ) is defined by the following equation (12).
The output probability b ij (x t ) is the probability that the input speech feature vector x t will be output from the hidden Markov model having a decorrelation mixed normal distribution having a total number M of normal distributions.
【0052】[0052]
【数6】 (Equation 6)
【0053】(12)式中のgijm(xt) は、総個数M個
の正規分布から成る無相関混合正規分布において第m番
目の正規分布から算出される入力音声特徴ベクトルxt
の重み付け確率であって、次式(13)〜(15)を用
いて表すことができる。G ijm (x t ) in the equation (12) is the input speech feature vector x t calculated from the m-th normal distribution in the uncorrelated mixed normal distribution consisting of a total of M normal distributions.
Is a weighted probability of and can be expressed using the following equations (13) to (15).
【0054】[0054]
【数7】 (Equation 7)
【0055】(13)式中のλijm は第m番目の正規分
布の重み、及びbijm(xt) は第m番目の正規分布から算
出される入力音声特徴ベクトルxt の重み無し確率であ
る。重み無し確率bijm(xt) は式(14)で表され、式
(14)中のpは入力音声特徴ベクトルxt の次数、ρ
ijm は第m番目の正規分布の分散・供分散行列、及びD
ijmtは入力音声特徴ベクトルxt と第m番目の正規分布
との間の距離を表すマハラビスの汎距離である。マハラ
ビスの汎距離Dijmtは式(15)で表され、式(15)
中のμijm は第m番目の正規分布の平均ベクトル、(x
t −μijm )’は(xt −μijm )の転置行列である。In equation (13), λ ijm is the weight of the m-th normal distribution, and b ijm (x t ) is the unweighted probability of the input speech feature vector x t calculated from the m-th normal distribution. is there. The unweighted probability b ijm (x t ) is expressed by Expression (14), and p in Expression (14) is the order of the input speech feature vector x t , ρ
ijm is the variance and covariance matrix of the mth normal distribution, and D
ijmt is a Mahalabis general distance that represents the distance between the input speech feature vector x t and the m-th normal distribution. The Mahalavis general distance D ijmt is expressed by Equation (15), and Equation (15)
Where μ ijm is the mean vector of the m-th normal distribution, (x
t −μ ijm ) ′ is the transposed matrix of (x t −μ ijm ).
【0056】(12)式は、総個数M個の正規分布から
成る無相関混合正規分布において個々の正規分布から得
られる重み付け確率gijm(xt) のうち最大となる重み付
け確率gijm(xt) を、入力音声特徴ベクトルxt の出力
確率bij(xt)として検出することを表す。[0056] (12) is weighted probability g ijm (x having the maximum of the weighted probability g ijm which the uncorrelated Gaussian Mixture consisting of the total number of M normal distributions obtained from the individual normal distribution (x t) the t), representative of the detected as the output probability b ij of the input speech feature vector x t (x t).
【0057】従来における典型的な出力確率bij(xt)は
重み付け確率gijm(xt) の線形和として表されるが、
(12)式の如く出力確率bij(xt)として最大の重み付
け確率gijm(xt) を用いても、従来の出力確率bij(xt)
と近似的に等しい出力確率bij(xt)を得ることができ
る。無相関混合正規分布においては総個数M個の正規分
布は互いに無相関であるので、最大とならなかった重み
付け確率gijm(xt) は最大の重み付け確率gijm(xt) に
比して微小な値となると考えられるからである。The conventional typical output probability b ij (x t ) is expressed as a linear sum of the weighting probabilities g ijm (x t ).
Even if the maximum weighted probability g ijm (x t ) is used as the output probability b ij (x t ) as in the equation (12), the conventional output probability b ij (x t )
Output probabilities b ij (x t ) approximately equal to can be obtained. In the uncorrelated mixed normal distribution, the total number M of normal distributions are uncorrelated with each other, so that the weighting probability g ijm (x t ) that is not the maximum is smaller than the maximum weighting probability g ijm (x t ). This is because it is considered to be a very small value.
【0058】そして出力確率bij(xt)の対数値Bij(xt)
(以下、出力対数値Bij(xt))は、式(12)を用い
て、次式(16)の如く表せる。[0058] and the logarithm B ij of the output probability b ij (x t) (x t)
(Hereinafter, the output logarithmic value B ij (x t )) can be expressed by the following expression (16) using the expression (12).
【0059】[0059]
【数8】 (Equation 8)
【0060】(16)式中の重み付け対数値Gijm(xt)
は、重み付け確率gijm(xt) の対数値であって、式(1
3)〜(15)を用いて次式(17)の如く表せる。Weighted logarithmic value G ijm (x t ) in the equation (16)
Is a logarithmic value of the weighted probability g ijm (x t ), and
It can be expressed by the following equation (17) using 3) to (15).
【0061】[0061]
【数9】 [Equation 9]
【0062】ここで重み付け対数値Gijm(xt) に着目す
る。HMMの無相関混合正規分布を構成する総個数M個
の正規分布は、全て無相関であるので、各正規分布の分
散・供分散行列ρijm は対角行列となる。 Attention is now paid to the weighted logarithmic value G ijm (x t ). Since all M normal distributions that form the HMM uncorrelated mixed normal distribution are uncorrelated, the variance / covariance matrix ρ ijm of each normal distribution is a diagonal matrix.
【0063】分散・供分散行列ρijm (無相関混合正規
分布の第m番目のρijm )の第r行第s列の要素をA
ijmrs 、入力音声特徴ベクトルxt の第r番目の成分を
Br 、及び、平均ベクトルμijm (無相関混合正規分布
の第m番目のμijm )の第r番目の成分をCijmrと表せ
ば、(15)式は次式(18)の如く変形できる。The element of the r-th row and the s-th column of the variance- sub- dispersion matrix ρ ijm (m-th ρ ijm of the uncorrelated mixed normal distribution) is A
ijm rs, represent the r-th component of the input speech feature vector x t as Br, and the r-th component of the mean vector μ ijm (m-th μ ijm of the uncorrelated mixed normal distribution) as C ijm r For example, the equation (15) can be transformed into the following equation (18).
【0064】[0064]
【数10】 (Equation 10)
【0065】分散・供分散行列ρijm は対角行列である
からr≠sではAijmrs =0であり従って(18)式は
次式(19)の如く変形できる。Since the variance / sub- dispersion matrix ρ ijm is a diagonal matrix, A ijm rs = 0 when r ≠ s. Therefore, the equation (18) can be transformed into the following equation (19).
【0066】[0066]
【数11】 [Equation 11]
【0067】しかも分散・供分散行列ρijm は逆相関行
列であるから、Aijmrr ≧0が成り立つので、(19)
式中のAijmrr ・(Br −Cijmr)2 の各項は非負であ
り従ってDijmt 2 ≧0である。Moreover, since the variance / sub- dispersion matrix ρ ijm is an inverse correlation matrix, A ijm rr ≧ 0 holds. Therefore, (19)
Each term of A ijm rr · (Br −C ijm r) 2 in the equation is non-negative and therefore D ijmt 2 ≧ 0.
【0068】従って(17)式において、Eijm は各正
規分布毎に定まる一定の値でありかつDijmt 2 ≧0であ
るので、算出途上の重み付け対数値Gijm(xt) は、E
ijm から(19)式中のAijmrr ・(Br −Cijmr)2
の各項を順次に減じた値なる。換言すれば、算出途上の
Gijm(xt) の値は、Eijm をピークとして、入力音声特
徴ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆく。Therefore, in the equation (17), E ijm is a constant value determined for each normal distribution and D ijmt 2 ≧ 0. Therefore, the weighted logarithmic value G ijm (x t ) in the calculation is E
From ijm , A ijm rr · (Br −C ijm r) 2 in the equation (19)
The value is obtained by sequentially subtracting each term of. In other words, the value of G ijm (x t ) in the process of calculation is A ijm rr ·, which is performed for one component of the input speech feature vector x t , with E ijm as the peak.
The value of (Br-C ijm r) 2 decreases with each calculation interval.
【0069】次に図3及び図4を参照して、HMM照合
部18が行なう尤度計算の流れについて説明する。図3
はt=1のとき最大の重み付け対数値Gijm(xt) を算出
する場合の動作フロー及び図4はt≧2のとき最大の重
み付け対数値Gijm(xt) を算出する場合の動作フローを
示す。Next, the flow of likelihood calculation performed by the HMM matching unit 18 will be described with reference to FIGS. 3 and 4. FIG.
Is an operation flow for calculating the maximum weighted logarithmic value G ijm (x t ) when t = 1, and FIG. 4 is an operation for calculating the maximum weighted logarithmic value G ijm (x t ) when t ≧ 2. The flow is shown.
【0070】まずHMM照合部18は、前向き対数値の
初期値Ci0を設定する。次にHMM照合部18は、t=
1のときの前向き対数値Cit、すなわち始端フレーム
(第1番目のフレーム)の入力音声特徴ベクトルxt に
ついて、前向き対数値Citを求める。First, the HMM matching unit 18 sets an initial value C i0 of the forward logarithmic value. Next, the HMM matching unit 18 sets t =
The forward logarithmic value C it when it is 1, that is, the forward logarithmic value C it for the input speech feature vector x t of the start frame (first frame) is obtained.
【0071】このためHMM照合部18は、HMMにお
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の各正
規分布から重み付け対数値Gijm(xt) を算出し、最大の
重み付け対数値Gijm(xt) を検出し(図3のS1)、そ
して最大の重み付け対数値Gijm(xt) を入力音声特徴ベ
クトルxt の出力対数値Bij(xt)として格納すると共
に、当該最大の重み付け対数値Gijm(xt) を得た正規分
布の番号mをインデックスQijとして格納する(図3の
S2)。対応する音声シンボルベクトルを出力する状態
遷移が複数存在する場合には、各状態遷移毎に、音声シ
ンボルベクトルの出力確率を表す無相関混合正規分布が
存在するので、これら各無相関混合正規分布をそれぞれ
入力音声特徴ベクトルxt の無相関混合正規分布に用い
て、各状態遷移毎に個別の出力対数値Bij(xt)及びイン
デックスQijを得て格納する。Therefore, the HMM matching unit 18 searches the HMM for a voice symbol vector corresponding to the input voice feature vector x t . The uncorrelated mixed normal distribution representing the output probability of the corresponding speech symbol vector is used as the uncorrelated mixed normal distribution representing the output probability b ij (x t ) of the input speech feature vector x t. calculating a weighted logarithmic value G ijm (x t) from each normal distribution, and detects the maximum weighted logarithmic value G ijm (x t) (S1 in FIG. 3), and the maximum of the weighted logarithmic value G ijm (x t ) Is stored as the output logarithmic value B ij (x t ) of the input speech feature vector x t , and the number m of the normal distribution that obtains the maximum weighted logarithmic value G ijm (x t ) is stored as the index Q ij . (S2 in FIG. 3). When there are multiple state transitions that output the corresponding speech symbol vector, there is an uncorrelated mixed normal distribution that represents the output probability of the speech symbol vector for each state transition. The output logarithmic value B ij (x t ) and the index Q ij are individually obtained and stored for each state transition by using the uncorrelated mixed normal distribution of the input speech feature vector x t .
【0072】次いでHMM照合部18は、算出し終えた
出力対数値Bij(xt)を用いて、t=1のときの前向き対
数値Citを算出する。Next, the HMM matching unit 18 calculates the forward logarithm value C it when t = 1 by using the calculated output logarithm value B ij (x t ).
【0073】次にHMM照合部18は、t≧2のときの
入力音声特徴ベクトルxt の前向き対数値Citを算出す
る。Next, the HMM matching unit 18 calculates the forward logarithmic value C it of the input speech feature vector x t when t ≧ 2.
【0074】このためHMM照合部18は、HMMにお
いて入力音声特徴ベクトルxt に対応する音声シンボル
ベクトルを検索する。そして対応する音声シンボルベク
トルの出力確率を表す無相関混合正規分布を、入力音声
特徴ベクトルxt の出力確率bij(xt)を表す無相関混合
正規分布として用いて、この無相関混合正規分布の正規
分布のなかからインデックスQijに対応する第Qij番目
の正規分布を検索し、この正規分布から重み付け対数値
Gijm(xt) を算出する。そして算出した重み付け対数値
Gijm(xt) を最大値候補GijQ(xt) として格納し、然る
後、正規分布の番号mをm=1に初期化する(図4のS
1)。Therefore, the HMM collation unit 18 searches the HMM for a voice symbol vector corresponding to the input voice feature vector x t . The uncorrelated mixed normal distribution representing the output probability of the corresponding speech symbol vector is used as the uncorrelated mixed normal distribution representing the output probability b ij (x t ) of the input speech feature vector x t. The Q ij -th normal distribution corresponding to the index Q ij is searched from among the normal distributions, and the weighted logarithmic value G ijm (x t ) is calculated from this normal distribution. Then, the calculated weighted logarithmic value G ijm (x t ) is stored as the maximum value candidate G ijQ (x t ), and then the number m of the normal distribution is initialized to m = 1 (S in FIG. 4).
1).
【0075】次いで正規分布の番号mがインデックスQ
ijと等しいか否かを判定する(図4のS2)。Next, the number m of the normal distribution is the index Q.
It is determined whether it is equal to ij (S2 in FIG. 4).
【0076】図4のS2で番号mがインデックスQijで
ない場合には、第m番目の正規分布を用いて、重み付け
対数値Gijm(xt) の算出を開始し(図4のS3)、まず
Gijm(xt) のEijm の項を算出し(図4のS4)、然る
後、Gijm(xt) のDijmt 2 の項の演算を、一演算間隔又
は複数演算間隔だけ、行なう(図4のS5)。一演算間
隔は入力音声特徴ベクトルxt の成分1個分について行
なわれる演算間隔である。次いで算出途上の重み付け対
数値Gijm(xt) が、最大値候補GijQ(xt) より大きいか
否かを判定する(図4のS6)。If the number m is not the index Q ij in S2 of FIG. 4, the calculation of the weighted logarithmic value G ijm (x t ) is started using the m-th normal distribution (S3 of FIG. 4). First, the term of E ijm of G ijm (x t ) is calculated (S4 in FIG. 4), and then the operation of the term of D ijmt 2 of G ijm (x t ) is performed by one operation interval or multiple operation intervals. , (S5 in FIG. 4). One calculation interval is a calculation interval performed for one component of the input speech feature vector x t . Next, it is determined whether or not the weighted logarithmic value G ijm (x t ) being calculated is larger than the maximum value candidate G ijQ (x t ) (S6 in FIG. 4).
【0077】図4のS6でGijm(xt) >GijQ(xt) であ
れば、Dijmt 2 の演算を入力音声特徴ベクトルxt のす
べての成分について終了したか否かを判定し(図4のS
7)、Dijmt 2 の演算を終了していなければS5の演算
に戻る。Dijmt 2 の演算を終了したならば、当該演算を
終了した重み付け対数値Gijm(xt) を、最大値候補G
ijQ(xt) として書換えると共に、当該演算を終了した重
み付け対数値Gijm(xt)を得た正規分布の番号mをイン
デックスQijとして書き換える(S8)。然る後、総個
数M個の正規分布すべてについて処理を終了したか否か
を判定し(S9)、終了していなければ正規分布の番号
mに1を加算し(S11)、然る後、S2の処理に戻
り、終了していればこのとき格納されている最大値候補
GijQ(xt) を入力音声信号xt の出力対数値Bij(xt)と
して格納する(S10)。図4のS6でGijm(xt) ≦G
ijQ(xt) であれば、S7〜S8の処理を行なわずに、S
9の処理を行なう。If G ijm (x t )> G ijQ (x t ) in S6 of FIG. 4, it is determined whether the calculation of D ijmt 2 has been completed for all the components of the input speech feature vector x t. (S in FIG. 4
7), if the calculation of D ijmt 2 is not completed, the process returns to S5. When the operation of D ijmt 2 is completed, the weighted logarithmic value G ijm (x t ) for which the operation is completed is set to the maximum value candidate G.
ijQ (x t ) is rewritten, and at the same time, the number m of the normal distribution that has obtained the weighted logarithmic value G ijm (x t ) for which the calculation has been completed is rewritten as an index Q ij (S8). After that, it is determined whether or not the processing has been completed for all of the M normal distributions (S9), and if not completed, 1 is added to the normal distribution number m (S11). Returning to the processing of S2, if completed, the maximum value candidate G ijQ (x t ) stored at this time is stored as the output logarithmic value B ij (x t ) of the input voice signal x t (S10). In step S6 of FIG. 4, G ijm (x t ) ≦ G
If it is ijQ (x t ), S7 to S8 are not processed and S
9 is performed.
【0078】またS2でm=Qijであれば、S3〜S8
の処理を行なわずに、S9の処理を行なう。If m = Q ij in S2, S3 to S8
The process of S9 is performed without performing the process of.
【0079】対応する音声シンボルベクトルを出力する
状態遷移が複数存在する場合には、各状態遷移毎に、音
声シンボルベクトルの出力確率を表す無相関混合正規分
布が存在するので、これら各無相関混合正規分布をそれ
ぞれ入力音声特徴ベクトルxt の無相関混合正規分布に
用いて、各状態遷移毎に個別に、図4のS1〜S11の
処理を行なう。When there are a plurality of state transitions that output the corresponding speech symbol vector, since there is a decorrelation mixture normal distribution that represents the output probability of the speech symbol vector for each state transition, each of these decorrelation mixture The normal distribution is used for the uncorrelated mixed normal distribution of the input speech feature vector x t , and the processes of S1 to S11 of FIG. 4 are individually performed for each state transition.
【0080】t=2〜Tの各入力音声特徴ベクトルxt
につき出力対数値Bij(xt)を得る毎に、前向き対数値C
itを求め、最終的に得た前向き対数値CiTを、入力音声
特徴ベクトルx1 〜xT とHMMとの間の尤度として得
る。Each input speech feature vector x t of t = 2 to T
Each time the output logarithmic value B ij (x t ) is obtained, the forward logarithmic value C
It is obtained, and the finally obtained forward logarithmic value C iT is obtained as the likelihood between the input speech feature vectors x 1 to x T and the HMM.
【0081】既に説明したように、算出途上のG
ijm(xt) の値は、Eijm をピークとして、入力音声特徴
ベクトルxt の一成分について行なわれるAijmrr ・
(Br −Cijmr)2 の演算の、一演算間隔毎に、減少し
てゆくので、図4のS6の判定においてGijm(xt) >G
ijQ(xt) となる場合に、当該算出途上のGijm(xt) の算
出を終了することにより、無駄な演算を省略して演算速
度を向上できる。As described above, G in the process of calculation
The value of ijm (x t ) is A ijm rr ·, which is performed for one component of the input speech feature vector x t , with E ijm as a peak.
Since the calculation of (Br-C ijm r) 2 decreases at each calculation interval, G ijm (x t )> G in the determination of S6 in FIG.
when the ijQ (x t), by ending the calculation of the calculation course of G ijm (x t), can be improved calculation speed by omitting wasteful operations.
【0082】また直前のフレームで最大の重み付け対数
値Gijm(xt) を得た正規分布の番号mすなわちインデッ
クスQijを格納し、次のフレームにおいてインデックス
Qijに対応する正規分布から求めた重み付け対数値G
ijm(xt) を最大値候補とすることにより、無駄な演算を
省略して演算速度を向上できる。これは直前のフレーム
と次のフレームとで入力音声特徴ベクトルxt は類似し
ているので、次のフレームにおいてもインデックスQij
に対応する正規分布から求めた重み付け対数値G
ijm(xt) が最大となる可能性が高いからである。Further, the number m of the normal distribution which has obtained the maximum weighted logarithmic value G ijm (x t ) in the immediately preceding frame, that is, the index Q ij is stored, and is calculated from the normal distribution corresponding to the index Q ij in the next frame. Weighted logarithmic value G
By using ijm (x t ) as the maximum value candidate, unnecessary calculation can be omitted and the calculation speed can be improved. This is because the input speech feature vector x t is similar between the previous frame and the next frame, and therefore the index Q ij is also used in the next frame.
Weighted logarithmic value G obtained from the normal distribution corresponding to
This is because there is a high possibility that ijm (x t ) will be the maximum.
【0083】[0083]
【発明の効果】上述した説明からも明らかなように、こ
の発明の音声認識方法によれば、隠れマルコフモデルが
備える総個数M個の正規分布は互いに無相関であるの
で、重み付け確率gijm(xt) が最大とならない正規分布
と入力音声特徴ベクトルxt との間の距離は、重み付け
確率gijm(xt) が最大となる正規分布との距離よりも長
くなる。これがため最大とならない重み付け確率g
ijm(xt) は、最大の重み付け確率gijm(xt) に対して無
視し得る程に微小となるので、この発明において最大の
重み付け出力確率gijm(xt) を入力音声特徴ベクトルx
t の出力確率bij(xt)としても、従来と近似的に等しい
出力確率bij(xt)を得ることができる。As is clear from the above description, according to the speech recognition method of the present invention, since the total number M of normal distributions included in the hidden Markov model are uncorrelated with each other, the weighting probability g ijm ( The distance between the normal distribution in which x t ) is not the maximum and the input speech feature vector x t is longer than the distance with the normal distribution in which the weighting probability g ijm (x t ) is the maximum. Because of this, the maximum weighting probability g
Since ijm (x t ) is so small as to be negligible with respect to the maximum weighting probability g ijm (x t ), the maximum weighting output probability g ijm (x t ) in the present invention is set to the input speech feature vector x.
As the output probability b ij (x t ) of t , it is possible to obtain the output probability b ij (x t ) that is approximately equal to the conventional one.
【0084】また重み付け確率gijm(xt) の対数値G
ijm(xt) はGijm(xt) =Eijm −Dijmt 2 /2と表さ
れ、そして第m番目の正規分布において、Eijm は一定
であるので、算出途上の対数値Gijm(xt) はEijm をピ
ークとして−Dijmt 2 /2の演算の一演算間隔毎に減少
してゆく。The logarithmic value G of the weighting probability g ijm (x t )
ijm (x t) is expressed as G ijm (x t) = E ijm -D ijmt 2/2, and in the m-th normal distribution, since E ijm is constant, calculating developing logarithmic values G ijm ( x t) is slide into reduced per one operation interval of the operation of -D ijmt 2/2 the E ijm a peak.
【0085】これがため、−Dijm 2/2の演算の、一又
は複数の演算間隔毎に、算出途上の対数値Gijm(xt) を
最大値候補と比較し、算出途上の対数値Gijm(xt) が最
大値候補よりも小さくなったら、当該対数値Gijm(xt)
の算出を算出途上で終了することにより、最大の対数値
Gijm(xt) 検出に要する計算量を減少させることができ
る。[0085] This is because, -D ijm 2/2 operations for each one or a plurality of calculation intervals, calculates developing logarithm G ijm the (x t) is compared with the maximum value candidate calculation developing logarithmic values G When ijm (x t ) becomes smaller than the maximum value candidate, the relevant logarithmic value G ijm (x t )
The calculation amount required for detecting the maximum logarithmic value G ijm (x t ) can be reduced by terminating the calculation of the calculation.
【0086】しかも直前のフレームの入力音声特徴ベク
トルxt-1 と次のフレームの入力音声特徴ベクトルxt
とは、時間的に近接しているので、これらベクトルxt
及びxt-1 の成分は互いに類似する可能性が高い。従っ
て第t−1番目のフレームにおいて第I番目の正規分布
から求めた重み付け確率gijI(xt-1) の対数値GijI(x
t-1) が最大の対数値Gijm(xt-1) となった場合、次の
第t番目のフレームにおいても第I番目の正規分布から
求めた重み付け確率gijI(xt) の対数値GijI(xt) が最
大の対数値Gijm(xt) となる可能性が高い。[0086] Moreover, the input speech feature vector of the immediately preceding frame x t-1 and the input speech feature of the next frame vector x t
And are close in time, these vectors x t
And the components of x t-1 are likely to be similar to each other. Therefore, the logarithmic value G ijI (x of the weighting probability g ijI (x t-1 ) obtained from the I-th normal distribution in the t-1 th frame
t-1 ) becomes the maximum logarithmic value G ijm (x t-1 ), the pair of weighting probabilities g ijI (x t ) obtained from the I-th normal distribution is calculated in the next t-th frame. It is highly possible that the numerical value G ijI (x t ) becomes the maximum logarithmic value G ijm (x t ).
【0087】これがため、この第I番目の正規分布から
求めた対数値GijI(xt) を最大値候補の初期値として、
算出途上の対数値Gijm(xt) が最大値候補よりも小さく
なったら、当該対数値Gijm(xt) の算出を算出途上で終
了することにより、最大の対数値Gijm(xt) 検出に要す
る計算量を減少させることができる。For this reason, the logarithmic value G ijI (x t ) obtained from the I-th normal distribution is set as the initial value of the maximum value candidate.
When calculating the course of the logarithmic value G ijm (x t) is smaller than the maximum value candidate, by ending the calculation of the logarithmic value G ijm (x t) in calculating developing, the largest logarithm G ijm (x t ) The amount of calculation required for detection can be reduced.
【図1】この発明の実施に用いて好適な音声認識装置の
構成を概略的に示す図である。FIG. 1 is a diagram schematically showing a configuration of a voice recognition device suitable for implementing the present invention.
【図2】HMMの説明に供する図である。FIG. 2 is a diagram for explaining an HMM.
【図3】t=1のときの重み付け対数値Gijm(xt) を算
出する場合の動作フローである。FIG. 3 is an operation flow for calculating a weighted logarithmic value G ijm (x t ) when t = 1.
【図4】t≧2のときの重み付け対数値Gijm(xt) を算
出する場合の動作フローである。FIG. 4 is an operation flow for calculating a weighted logarithmic value G ijm (x t ) when t ≧ 2.
10:音声認識装置 12:辞書部 14:音響処理部 16:音声区間検出部 18:HMM照合部 20:参照情報記憶部 10: Speech recognition device 12: Dictionary section 14: Sound processing section 16: Speech section detection section 18: HMM collation section 20: Reference information storage section
Claims (1)
し、該隠れマルコフモデルは、互いに無相関な複数個の
正規分布を有し当該モデルから出力される音声シンボル
ベクトルの出力確率を表す無相関混合正規分布を備え、
音声区間内の始端フレームから終端フレームまでに抽出
された入力音声特徴ベクトルの時系列と隠れマルコフモ
デルとの間の尤度を、各入力音声特徴ベクトルの出力確
率の対数値を用いて、計算し、最大の尤度を得た隠れマ
ルコフモデルに付与されているカテゴリ名を、当該音声
区間の入力音声信号に対する認識結果とする音声認識方
法において、 bij(xt):総個数M個の正規分布を有する無相関混合正
規分布を備えた隠れマルコフモデルから、第t番目のフ
レームで抽出された入力音声特徴ベクトルxt が出力さ
れる出力確率(1≦t≦T。第1番目のフレームは音声
区間の始端フレーム、及び、第T番目のフレームは音声
区間の終端フレームを表す。)、 gijm(xt) :総個数M個の正規分布において第m番目
(1≦m≦M。)の正規分布から算出される入力音声特
徴ベクトルxt の重み付け確率 (但し、gijm(xt) =λijm bijm(xt) 、 bijm(xt) =(2π)-p/2|ρijm |-1/2exp {−D
ijmt 2 /2}、 Dijmt 2 =(xt −μijm )’ρijm -1 (xt −μ
ijm )、 λijm :第m番目の正規分布の重み、 bijm(xt) :第m番目の正規分布から算出される入力音
声特徴ベクトルxt の重み無し確率、 p:入力音声特徴ベクトルxt の次数、 ρijm :第m番目の正規分布の分散・供分散行列、 μijm :第m番目の正規分布の平均ベクトル、 Dijmt:入力音声特徴ベクトルxt と第m番目の正規分
布との間の距離を表すマハラビスの汎距離。)、 Gijm(xt) :重み付け確率gijm(xt) の対数値 (但し、Gijm(xt) =Eijm −Dijmt 2 /2、 Eijm =ln(λijm )+ln{(2π)-p/2|ρijm |
-1/2}。)とするとき、総個数M個の各正規分布から算
出される重み付け確率gijm(xt) の対数値Gijm(xt) の
なかで最大の対数値Gijm(xt) を、入力音声特徴ベクト
ルxt の出力確率bij(xt)の対数値に用いて、隠れマル
コフモデルとの間の尤度を計算するに当り、 t≧2のときに第t番目のフレームにおいて最大の対数
値Gijm(xt) を検出するための最大値候補と、t≧2の
ときに第t−1番目のフレームにおいて最大の対数値G
ijm(xt) を得た正規分布がいずれであるかを表すインデ
ックスとを格納する参照情報記憶部を設け、 t=1では、 総個数M個の全正規分布について各正規分布毎に対数値
Gijm(xt) を算出して、最大の対数値Gijm(xt) を検出
し、該最大の対数値Gijm(xt) を第1番目のフレームに
おける入力音声特徴ベクトルxt の出力確率bij(xt)の
対数値とすると共に該最大の対数値Gijm(xt) を得た正
規分布に対応するインデックスを格納し、 t≧2では、(1)まずインデックスに対応する正規分
布を用いて算出した対数値Gijm(xt)を最大値候補とし
て格納し、(2)総個数M個の正規分布のうちインデッ
クスに対応しない残りの正規分布を用いた対数値G
ijm(xt) の算出では、−Dijmt 2 /2の項を算出するた
めの演算の一又は複数の演算間隔毎に、算出途上の対数
値Gijm(xt) を、最大値候補と比較し、(3−A)算出
途上の対数値Gijm(xt) が最大値候補より小さくなった
ら、当該対数値Gijm(xt) の算出を終了し、然る後、残
りの次の正規分布につき対数値Gijm (xt)の算出を開始
し、(3−B)算出途上の対数値Gijm(xt) が最大値候
補より小さくなることなく、当該対数値Gijm(xt) の算
出を終了したら、最大値候補を当該対数値Gijm
(xt)に書き換え、然る後、残りの次の正規分布につ
き対数値Gijm(xt) の算出を開始し、(4)総
個数M個の全正規分布について対数値Gijm(xt) の算出
を終了したら、このとき格納されている最大値候補を得
た正規分布に対応するインデックスに、参照情報記憶部
のインデックスを書換えると共に、当該最大値候補を、
出力確率bij(xt)の対数値に用いて、隠れマルコフモデ
ルとの間の尤度を計算することを特徴とする音声認識方
法。1. A hidden Markov model is used as a voice standard pattern, and the hidden Markov model has a plurality of normal distributions that are uncorrelated with each other and represents a non-correlated mixed normal representing an output probability of a voice symbol vector output from the model. With distribution,
The likelihood between the time series of the input speech feature vector extracted from the start frame to the end frame in the speech section and the hidden Markov model is calculated using the logarithmic value of the output probability of each input speech feature vector. , Ij (x t ): the total number of M normal patterns in the speech recognition method in which the category name given to the hidden Markov model that has the maximum likelihood is used as the recognition result for the input speech signal in the speech section. The output probability (1 ≦ t ≦ T. The output probability of the input speech feature vector x t extracted at the t-th frame is output from the hidden Markov model having the uncorrelated mixed normal distribution having the distribution. The beginning frame of the voice section and the T-th frame represent the end frame of the voice section.), G ijm (x t ): The m-th (1 ≦ m ≦ M.) In the total number M of normal distributions. Regular minutes of Weighting the probability of the input speech feature vector x t calculated from (where, g ijm (x t) = λ ijm b ijm (x t), b ijm (x t) = (2π) -p / 2 | ρ ijm | -1/2 exp {-D
ijmt 2/2}, D ijmt 2 = (x t -μ ijm) 'ρ ijm -1 (x t -μ
ijm ), λ ijm : weight of the m-th normal distribution, b ijm (x t ): unweighted probability of the input speech feature vector x t calculated from the m-th normal distribution, p: input speech feature vector x order of t , ρ ijm : variance-covariance matrix of the m-th normal distribution, μ ijm : mean vector of the m-th normal distribution, D ijmt : input speech feature vector x t and the m-th normal distribution Mahalavis general distance that represents the distance between. ), G ijm (x t) : logarithm of weighted probabilities g ijm (x t) (where, G ijm (x t) = E ijm -D ijmt 2/2, E ijm = ln (λ ijm) + ln {( 2π) -p / 2 | ρ ijm |
-1/2 }. ), Input the maximum logarithmic value G ijm (x t ) among the logarithmic values G ijm (x t ) of the weighted probabilities g ijm (x t ) calculated from each of the M normal distributions. In calculating the likelihood with the hidden Markov model by using the logarithmic value of the output probability b ij (x t ) of the speech feature vector x t , when t ≧ 2, the maximum value in the t-th frame is calculated. The maximum value candidate for detecting the logarithmic value G ijm (x t ) and the maximum logarithmic value G in the (t−1) th frame when t ≧ 2.
ijm (x t ) is provided with a reference information storage unit that stores an index that indicates which normal distribution is obtained, and at t = 1, for all normal distributions of the total number M, logarithmic values for each normal distribution calculates the G ijm (x t), detects the maximum logarithmic value G ijm (x t), outermost sized logarithm G ijm the (x t) of the input speech feature vector x t in the first frame The index corresponding to the normal distribution that obtains the maximum logarithmic value G ijm (x t ) is stored as the logarithmic value of the output probability b ij (x t ), and when t ≧ 2, (1) corresponds to the index first. The logarithmic value G ijm (x t ) calculated using the normal distribution is stored as the maximum value candidate, and (2) the logarithmic value G using the remaining normal distribution that does not correspond to the index among the total number M of normal distributions.
In the calculation of ijm (x t), for each one or a plurality of calculation intervals of the operation for calculating the term of -D ijmt 2/2, calculate developing logarithm G ijm the (x t), the maximum value candidate In comparison, (3-A) When the logarithmic value G ijm (x t ) in the process of calculation becomes smaller than the maximum value candidate, the calculation of the logarithmic value G ijm (x t ) ends, and then the remaining next value. It starts the calculation of the normal distribution per logarithmic value G ijm (x t), ( 3-B) calculating developing logarithmic values G ijm (x t) without becomes smaller than the maximum value candidate, the logarithmic value G ijm ( x t ), the maximum value candidate is set to the logarithmic value G ijm.
Rewriting to (x t ), after that, calculation of the logarithmic value G ijm (x t ) is started for the remaining next normal distribution, and (4) logarithmic value G ijm (x When the calculation of ( t ) is completed, the index of the reference information storage unit is rewritten to the index corresponding to the normal distribution for which the maximum value candidate stored at this time is obtained, and the maximum value candidate is
A speech recognition method characterized by calculating a likelihood with a hidden Markov model using a logarithmic value of an output probability b ij (x t ).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7225224A JPH0968996A (en) | 1995-09-01 | 1995-09-01 | Voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7225224A JPH0968996A (en) | 1995-09-01 | 1995-09-01 | Voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0968996A true JPH0968996A (en) | 1997-03-11 |
Family
ID=16825938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7225224A Withdrawn JPH0968996A (en) | 1995-09-01 | 1995-09-01 | Voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0968996A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011027A (en) * | 2005-06-30 | 2007-01-18 | Canon Inc | Voice recognition method and voice recognition device |
JP2015152705A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2015152704A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
-
1995
- 1995-09-01 JP JP7225224A patent/JPH0968996A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011027A (en) * | 2005-06-30 | 2007-01-18 | Canon Inc | Voice recognition method and voice recognition device |
JP4732030B2 (en) * | 2005-06-30 | 2011-07-27 | キヤノン株式会社 | Information processing apparatus and control method thereof |
JP2015152705A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
JP2015152704A (en) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | Signal processing device, method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US5072452A (en) | Automatic determination of labels and Markov word models in a speech recognition system | |
EP0314908B1 (en) | Automatic determination of labels and markov word models in a speech recognition system | |
AU665745B2 (en) | Methods and apparatus for verifying the originator of a sequence of operations | |
EP0617827B1 (en) | Composite expert | |
EP0715298B1 (en) | Reduction of search space in speech recognition using phone boundaries and phone ranking | |
US6493667B1 (en) | Enhanced likelihood computation using regression in a speech recognition system | |
JPH0372998B2 (en) | ||
JP2002500779A (en) | Speech recognition system using discriminatively trained model | |
JPH05216490A (en) | Apparatus and method for speech coding and apparatus and method for speech recognition | |
JPH06274200A (en) | Equipment and method for audio coding | |
JP2011065120A (en) | Voice recognition of all languages, and single letter input method utilizing voice recognition | |
EP0453649B1 (en) | Method and apparatus for modeling words with composite Markov models | |
JP2000099080A (en) | Voice recognizing method using evaluation of reliability scale | |
JP2000172295A (en) | Similarity method of division base for low complexity speech recognizer | |
US6393397B1 (en) | Cohort model selection apparatus and method | |
JPH11143486A (en) | Device and method adaptable for speaker | |
JPH0968996A (en) | Voice recognition method | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
Mistretta et al. | Model adaptation methods for speaker verification | |
EP0435336B1 (en) | Reference pattern learning system | |
US20220335928A1 (en) | Estimation device, estimation method, and estimation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20021105 |