JPH09127977A - Voice recognition method - Google Patents

Voice recognition method

Info

Publication number
JPH09127977A
JPH09127977A JP28031495A JP28031495A JPH09127977A JP H09127977 A JPH09127977 A JP H09127977A JP 28031495 A JP28031495 A JP 28031495A JP 28031495 A JP28031495 A JP 28031495A JP H09127977 A JPH09127977 A JP H09127977A
Authority
JP
Japan
Prior art keywords
probability
frame number
dts
feature vector
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP28031495A
Other languages
Japanese (ja)
Other versions
JP3251480B2 (en
Inventor
Takashi Miki
敬 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP28031495A priority Critical patent/JP3251480B2/en
Publication of JPH09127977A publication Critical patent/JPH09127977A/en
Application granted granted Critical
Publication of JP3251480B2 publication Critical patent/JP3251480B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To sharply reduce the calculation quantity by reading the reference probability, and obtaining the forward probability of the present frame number when the distance between the voice feature vector of the present frame number and the voice feature vector of the standard frame number becomes a threshold value or below. SOLUTION: When the present frame number (t) is the terminal frame number T or below, a collation section obtains the distance dts between voice feature vectors xt , xqs of the present frame number (t) and the standard frame number qs. When the distance dts is a threshold value DTS or below, the output probability Bji (xt ) of the present frame number (t) is approximately equal to the reference probability Bji, and the reference probability Bji is not rewritten. The output probability Bji is not calculated by an equation, each reference probability Bji is read out, and the logarithmic forward probability Cit is obtained. The forward probability Cit is obtained with the output probability Bji (xqs ) of the standard frame number qs.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、認識照合用の標
準パタンにヒドンマルコフモデルを用いた音声認識方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method using a Hidden Markov Model as a standard pattern for recognition and verification.

【0002】[0002]

【従来の技術】ヒドンマルコフモデル(Hidden
Markov Model。以下、HMM)は、音声パ
タンのような発声速度に伴う時間変動、発声の個人差や
調音結合などの揺らぎを含むパタンを適切に表現でき、
このため音声認識の分野において広く用いられている。
音声認識で用いるHMMは、いくつかの状態例えばS0
〜S3 と、状態Si から状態Sj に遷移する確率aij
びその遷移の際に出力される音声特徴ベクトルxの出力
確率bij(x) を有し、一般に、出力確率bij(x)を、複
数個の正規分布から成る無相関混合正規分布で表現す
る。
2. Description of the Related Art Hidden Markov Model (Hidden
Markov Model. Hereinafter, HMM) can appropriately express patterns including fluctuations such as voice patterns, which vary with vocalization speed, individual differences in vocalization, and articulatory coupling.
Therefore, it is widely used in the field of voice recognition.
HMMs used in speech recognition have several states, such as S 0.
˜S 3, and a probability a ij of transition from the state S i to the state S j and an output probability b ij (x) of the speech feature vector x output at the time of the transition, and generally, the output probability b ij ( x) is expressed as an uncorrelated mixed normal distribution composed of a plurality of normal distributions.

【0003】HMMを用いた音声認識方法では、音声信
号から、音声区間の各フレーム毎に音声特徴ベクトルx
t を抽出し、次いで音声特徴ベクトルxt の出力確率b
ij(xt)を求める。出力確率bij(xt)として、典型的に
は、bij(xt)=Σ{λijmijm(xt) }を算出する。こ
こで、λijm は無相関混合正規分布における第m番目の
正規分布の重み、bijm(xt) は無相関混合正規分布にお
ける第m番目の正規分布から求めた音声特徴ベクトルx
t の出力確率(重み付け無しの出力確率)を表す。
In the voice recognition method using the HMM, a voice feature vector x is calculated for each frame of a voice section from a voice signal.
t , and then output probability b of speech feature vector x t
Find ij (x t ). As the output probability b ij (x t ), typically b ij (x t ) = Σ {λ ijm b ijm (x t )} is calculated. Here, λ ijm is the weight of the m-th normal distribution in the uncorrelated mixed normal distribution, and b ijm (x t ) is the speech feature vector x obtained from the m-th normal distribution in the uncorrelated mixed normal distribution.
Indicates the output probability of t (output probability without weighting).

【0004】そして音声区間の始端フレームから終端フ
レームまでに抽出された音声特徴ベクトルxt の時系列
とHMMとの間の尤度を、各音声特徴ベクトルxt の出
力確率bij(xt)を用いて、求める。標準パタンとして用
意された各HMM毎に尤度を求め、最大の尤度を得たH
MMに付与されているカテゴリを認識結果とする。
Then, the likelihood between the time series of the voice feature vector x t extracted from the start frame to the end frame of the voice section and the HMM is calculated as the output probability b ij (x t ) of each voice feature vector x t. Use to find. The likelihood is calculated for each HMM prepared as a standard pattern, and the maximum likelihood H is obtained.
The category assigned to the MM is used as the recognition result.

【0005】[0005]

【発明が解決しようとする課題】しかしながら音声特徴
ベクトルxt の出力確率bij(xt)=Σ{λijm
ijm(xt) }を求めるには膨大な計算が必要であり、従っ
て音声特徴ベクトルxt の時系列とHMMとの尤度を高
速に求めることは難しい。
However, the output probability b ij (x t ) = Σ {λ ijm b of the speech feature vector x t.
ijm (x t )} requires enormous calculation, and thus it is difficult to quickly calculate the likelihood between the time series of the speech feature vector x t and the HMM.

【0006】このため、音声特徴ベクトルxt の出力確
率bij(xt)を、誤差を抑えつつ、より簡略に求めること
が望まれていた。
Therefore, it has been desired to more simply obtain the output probability b ij (x t ) of the voice feature vector x t while suppressing the error.

【0007】[0007]

【課題を解決するための手段】前述の課題を解決するた
め、請求項1〜8の発明の音声認識方法はそれぞれ、音
声区間の始端フレームから終端フレームまでに抽出され
た音声特徴ベクトルの時系列x1 、x2 、……、xT
ヒドンマルコフモデルとの間の尤度ln{P(x1 、x
2 、……、xT )}を求め、最大の尤度を得たヒドンマ
ルコフモデルに付与されているカテゴリを、当該音声区
間内の音声信号に対する認識結果とする音声認識方法に
おいて、
In order to solve the above-mentioned problems, the speech recognition method according to the inventions of claims 1 to 8 is a time series of speech feature vectors extracted from the start frame to the end frame of a voice section. The likelihood ln {P (x 1 , x, x between x 1 , x 2 , ..., X T and the Hidden Markov model
2, ..., seek x T)}, a category that is given to the hidden Markov model to obtain the maximum likelihood, the speech recognition method according to the recognition result for the speech signal in the speech segment,

【0008】[0008]

【数4】 (Equation 4)

【0009】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、次の如く処理を行なうこ
とを特徴とする。
However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that the initial state is S i in the Hidden Markov model a ji : Hidden Markov model At the state S j to the state S i in the above, x t : the speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, and the first frame corresponds to the speech section). The start frame and the T-th frame represent the end frame of the speech section) b ji (x t ): speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t and reaching state S i * i: Likelihood ln {P (x (x)) is obtained by using each equation represented by state number i given to state S i that is the final state in the Hidden Markov model. 1 , x 2 , ...
., X T )} is obtained, the following processing is performed.

【0010】<請求項1〜2の発明>すなわち、請求項
1の発明の音声認識方法にあっては、基準フレーム番号
qsと参照確率bjiとを格納する記憶部を設け、参照確
率bjiを用いて、t=1、2、……、Tの各場合の前向
き確率citを順次に求める。
<Invention of Claims 1 and 2> That is, in the speech recognition method of the invention of Claim 1, a storage unit for storing the reference frame number qs and the reference probability b ji is provided, and the reference probability b ji. , The forward probability c it in each case of t = 1, 2, ..., T is sequentially obtained.

【0011】そして(1).t=1のときは、基準フレ
ーム番号qsを1に初期化すると共に、全てのj、iに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求め当該出力確率bji(xt)を参照確率bjiの初期値とし
て書き込み、参照確率bjiの書込み終了後に各参照確率
jiを読み出して前向き確率citを求める処理(1A)
と、処理(1A)の終了後、現フレーム番号tに1を加
算する処理(1B)とを行なう。
And (1). When the t = 1, is initialized to 1 reference frame number qs, all j, for i, the output probability b ji the (x t) determined from the hidden Markov model the output probability b ji the (x t) writing the initial value of the reference probability b ji, after completion of writing of the reference probability b ji reads each reference probability b ji seek forward probability c it processes (1A)
Then, after the process (1A) is completed, the process (1B) of adding 1 to the current frame number t is performed.

【0012】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、該参照確率bjiの書換え
終了後に各参照確率bjiを読み出して前向き確率cit
求め、当該比較結果がdts≦DTSとなる場合に、参
照確率bjiの書き換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
(2). When 2 ≦ t ≦ T, the voice feature vector x t of the current frame number t and the reference frame number qs
Of the voice feature vector x qs of the
When S is compared with S and the comparison result is dts> DTS, the reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) for all j and i.
Rewriting the reference probability b ji determined from hidden Markov model to the output probability b ji (x t), determine the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji, the comparison If the result is dts ≦ DTS, reads each reference probability b ji without rewriting the reference probability b ji seek forward probability c it processing (1C), after the processing (1C), the current frame A process (1D) of adding 1 to the number t is performed.

【0013】このように請求項1の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とする。
As described above, in the first aspect of the invention, the initial value of the reference probability b ji is the output probability b ji (x 1 ) obtained from the Hidden Markov model in the starting frame, and the reference frame number q
The initial value of s is the frame number 1 of the start frame.

【0014】そして現フレーム番号tの音声特徴ベクト
ルxt と基準フレーム番号qsの音声特徴ベクトルxqs
との間の距離dtsを閾値DTSと比較する。dts>
DTSの場合は、基準フレーム番号qsの書換えと参照
確率bjiの書換えとを行ない、書き換えた参照確率bji
を読み出して前向き確率citを求める。dts≦DTS
の場合は、基準フレーム番号qsの書換えと参照確率b
jiの書換えとは行なわず、書換えを行なわなかった参照
確率bjiを読み出して前向き確率citを求める。
Then, the voice feature vector x t of the current frame number t and the voice feature vector x qs of the reference frame number qs
The distance dts between and is compared to a threshold DTS. dts>
In the case of DTS, the reference frame number qs and the reference probability b ji are rewritten, and the rewritten reference probability b ji is performed.
Is read to obtain the forward probability c it . dts ≦ DTS
In the case of, rewriting of the reference frame number qs and the reference probability b
The rewriting of ji is not performed, and the reference probability b ji that has not been rewritten is read to obtain the forward probability c it .

【0015】従って記憶部に格納される参照確率b
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
Therefore, the reference probability b stored in the storage unit
ji is the output probability b ji (x t ) obtained from the Hidden Markov model in the frame with the reference frame number qs.

【0016】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)は、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
ji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。
If dts> DTS, the distance dt
s is a case where since exceeding the threshold DTS audio feature vector x t of the current frame number t does not approximate to the speech feature vector x qs reference frame number qs before rewriting, thus the output probability b ji (x of the current frame number t t ) cannot be approximated by the output probability b ji (x qs ) of the reference frame number qs before rewriting, that is, the reference probability b ji . Therefore, the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, and the rewritten reference probability b ji is read to obtain the forward probability c it . Further, since the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, the standard frame number qs is rewritten to the current frame number t.

【0017】dts≦DTSの場合は、距離dtsが閾
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない基準フレーム番号qs
の音声特徴ベクトルxqsとが近似的に等しくなる場合で
あり、従って現フレーム番号tの出力確率bji(xt)は、
基準フレーム番号qsの出力確率bji(xqs) すなわち参
照確率bjiに近似的に等しくなる。そこで参照確率bji
の書換えを行なわずに、参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiの書換えを行な
わないので、基準フレーム番号qsの書換えを行なわな
い。
If dts≤DTS, the distance dts is less than or equal to the threshold value DTS, and therefore the voice feature vector x t of the current frame number t is not rewritten to the reference frame number qs.
Is approximately equal to the speech feature vector x qs of, and the output probability b ji (x t ) of the current frame number t is
It is approximately equal to the output probability b ji (x qs ) of the reference frame number qs, that is, the reference probability b ji . Therefore, the reference probability b ji
Without rewriting, the reference probability b ji is read to obtain the forward probability c it . Since the reference probability b ji is not rewritten, the reference frame number qs is not rewritten.

【0018】このようにdts>DTSの場合は、参照
確率bjiの書換えを行なった後に、従って現フレーム番
号tの出力確率bji(xt)をヒドンマルコフモデルから求
める演算を行なった後に、参照確率bjiを読み出して前
向き確率citを求める。さらに距離dts≦閾値DTS
の場合は、参照確率bjiの書換えを行なわずに、従って
現フレーム番号tの出力確率bji(xt)をヒドンマルコフ
モデルから求める演算を行なわずに、参照確率bjiを読
み出して前向き確率citを求めるので、前向き確率cit
の誤差を抑えつつ、演算量を減少させることができる。
In this way, in the case of dts> DTS, after the reference probability b ji is rewritten, therefore, after the output probability b ji (x t ) of the current frame number t is calculated from the Hidden Markov model, The reference probability b ji is read to obtain the forward probability c it . Furthermore, the distance dts ≦ threshold value DTS
In the case of, the reference probability b ji is not rewritten, and thus the reference probability b ji is read out without performing the calculation for obtaining the output probability b ji (x t ) of the current frame number t from the Hidden Markov model. Since c it is obtained, the forward probability c it
It is possible to reduce the calculation amount while suppressing the error of.

【0019】この場合の前向き確率citの誤差とは、d
ts≦DTSの場合に出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに得た前向き確率c
itと、そのような演算の簡略化を行なわずに得た前向き
確率citとの差である。
The error of the forward probability c it in this case is d
The forward probability c obtained without performing the calculation of the output probability b ji (x t ) from the Hidden Markov model when ts ≦ DTS
It is the difference between it and the forward probability c it obtained without such simplification of the operation.

【0020】閾値DTSを大きくするに従って、演算の
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
As the threshold value DTS is increased, the amount of calculation reduction increases, but the error of the forward probability c it increases. Therefore, the forward probability c is within the error range practically desired.
It is necessary to set the value of the threshold value DTS so that it can be obtained.

【0021】また請求項2の発明の音声認識方法にあっ
ては、請求項1の発明の音声認識方法において、次の如
く処理を行なう。
According to the speech recognition method of the second aspect of the invention, the following processing is performed in the speech recognition method of the first aspect of the invention.

【0022】(1).t=1のときは、基準フレーム番
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現フレーム番号tに1を加算する処理(1B)とを
行なう。
(1). When t = 1, the reference frame number qs is initialized to 1, the skip number skips is initialized to 0, and the output probabilities b ji (x
t ) is calculated from the Hidden Markov model and the output probability b ji (x
t ) is written as the initial value of the reference probability b ji , and the reference probability b
After the writing of ji is completed, each reference probability b ji is read out to obtain the forward probability c it (1A), and after the process (1A) is finished, a process (1B) of adding 1 to the current frame number t is performed.

【0023】(2).2≦t≦Tのときは、スキップ数
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、該参照確率bjiの書換え終了後に各参照確率
jiを読み出して前向き確率citを求め、当該比較結果
がskips≦NSKIPSかつdts≦DTSとなる
場合に、スキップ数skipsに1を加算すると共に、
参照確率bjiの書換えを行なわずに各参照確率bjiを読
み出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
(2). 2 ≦ t when the ≦ T, together with comparing the number of skips skips a threshold NSKIPS, threshold DTS distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t And the comparison result is skips> NSK.
When IPS or dts> DTS, the skip number skips is initialized to 0, the reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) are set for all j and i. hidden rewritten reference probability b ji determined from Markov model to the output probability b ji (x t), determine the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji, the comparison result Is skips ≦ NSKIPS and dts ≦ DTS, 1 is added to the skip number skips, and
Without rewriting the reference probability b ji reads each reference probability b ji seek forward probability c it processing (1C), after the processing (1C), the process of adding 1 to the current frame number t (1D ) And do.

【0024】このように請求項2の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とし、基準フレーム番号q
sの初期値を、始端フレームのフレーム番号1とし、ス
キップ数skipsの初期値を0とする。
As described above, in the second aspect of the present invention, the initial value of the reference probability b ji is set to the output probability b ji (x 1 ) obtained from the Hidden Markov model in the starting frame, and the reference frame number q
The initial value of s is the frame number 1 of the start frame, and the initial value of the skip number skips is 0.

【0025】そしてスキップ数skipsを閾値NSK
IPSと比較すると共に、現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを閾値DTSと比較する。s
kips>NSKIPS若しくはdts>DTSの場合
は、スキップ数skipsの初期化と基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、スキップ数skipsのカウントアップを行な
い、基準フレーム番号qsの書換えと参照確率bjiの書
換えとは行なわず、書換えを行なわなかった参照確率b
jiを読み出して前向き確率citを求める。
Then, the skip number skips is set to the threshold value NSK.
With comparison with IPS, comparing the distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t and the threshold DTS. s
If kips> NSKIPS or dts> DTS, the skip number skips is initialized, the reference frame number qs is rewritten, and the reference probability b ji is rewritten, and the rewritten reference probability b ji is read to obtain the forward probability c it . . When skips ≦ NSKIPS and dts ≦ DTS, the skip number skips is counted up, the reference frame number qs is not rewritten, and the reference probability b ji is not rewritten, but the reference probability b that is not rewritten.
ji is read to obtain the forward probability c it .

【0026】従って記憶部に格納される参照確率b
jiは、基準フレーム番号qsのフレームでヒドンマルコ
フモデルから求めた出力確率bji(xt)である。
Therefore, the reference probability b stored in the storage unit
ji is the output probability b ji (x t ) obtained from the Hidden Markov model in the frame with the reference frame number qs.

【0027】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt が書換え前の基準フレーム番号qsの音
声特徴ベクトルxqsに近似しない場合であり、従って現
フレーム番号tの出力確率bji(xt)を、書換え前の基準
フレーム番号qsの出力確率bji(xqs) すなわち参照確
率bjiで近似できない。そこで参照確率bjiを、現フレ
ーム番号tの出力確率bji(xt)に書き換え、この書き換
えた参照確率bjiを読み出して前向き確率citを求め
る。また参照確率bjiを、現フレーム番号tの出力確率
ji(xt)に書き換えるので、基準フレーム番号qsを現
フレーム番号tに書き換える。スキップ数skips
は、skips≦NSKIPSとなる範囲内で参照確率
jiの書換えを行なわなかった回数を表すものであるの
で、スキップ数skipsを初期化する。
If dts> DTS, the distance dt
s is a case where since exceeding the threshold DTS audio feature vector x t of the current frame number t does not approximate to the speech feature vector x qs reference frame number qs before rewriting, thus the output probability b ji (x of the current frame number t t ) cannot be approximated by the output probability b ji (x qs ) of the reference frame number qs before rewriting, that is, the reference probability b ji . Therefore, the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, and the rewritten reference probability b ji is read to obtain the forward probability c it . Further, since the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, the standard frame number qs is rewritten to the current frame number t. Number of skips skips
Represents the number of times the reference probability b ji was not rewritten within the range of skips ≦ NSKIPS, so the skip number skips is initialized.

【0028】skips>NSKIPSの場合は、参照
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと基準フ
レーム番号qsとの時間的隔たりが大きくなり、従って
誤差が増大する可能性が高い。そこで誤差を低減すべ
く、参照確率bjiの書換えを行なう。従って参照確率b
jiを、現フレーム番号tの出力確率bji(xt)に書き換え
るので、基準フレーム番号qsを現フレーム番号tに書
き換える。またスキップ数skipsは、skips≦
NSKIPSとなる範囲内で参照確率bjiの書換えを行
なわなかった回数を表すものであるので、スキップ数s
kipsを初期化する。
In the case of skips> NSKIPS, the number of times skips in which the reference probability b ji has not been rewritten exceeds the threshold value NSKIPS, so that the time gap between the current frame number t and the reference frame number qs becomes large, thus increasing the error. Is likely to. Therefore, the reference probability b ji is rewritten in order to reduce the error. Therefore, the reference probability b
Since ji is rewritten to the output probability b ji (x t ) of the current frame number t, the reference frame number qs is rewritten to the current frame number t. The skip number skips is skips ≦
Since it represents the number of times the reference probability b ji was not rewritten within the range of NSKIPS, the number of skips s
Initialize the kips.

【0029】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と書換えを行なわない基準
フレーム番号qsの音声特徴ベクトルxqsとが近似的に
等しくなる場合であり、従って現フレーム番号tの出力
確率bji(xt)は、書換えを行なわない基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiに近似
的に等しくなる。しかもskips≦NSKIPSであ
り、従って参照確率bjiの書換えを行なわなかった回数
skipsが閾値NSKIPS以下であるので現フレー
ム番号tと基準フレーム番号qsとの時間的隔たりが小
さく、従って誤差が増大する可能性は低い。そこで参照
確率bjiの書換えを行なわずに、参照確率bjiを読み出
して前向き確率citを求める。従って参照確率bjiの書
換えを行なわないので、基準フレーム番号qsの書換え
を行なわない。またスキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、スキップ
数skipsに1を加算してスキップ数skipsをカ
ウントアップする。
Skips ≦ NSKIPS and dts ≦ D
For TS, a case where the audio feature vector x qs reference frame number qs is not performed rewriting a speech feature vector x t of the current frame number t is equal to approximately since at dts ≦ DTS, therefore the current frame The output probability b ji (x t ) of the number t is approximately equal to the output probability b ji (x qs ) of the reference frame number qs that is not rewritten, that is, the reference probability b ji . Moreover, skips ≦ NSKIPS, and therefore the number of times skips at which the reference probability b ji has not been rewritten is less than or equal to the threshold value NSKIPS, so that the time gap between the current frame number t and the reference frame number qs is small, and thus the error can increase. The sex is low. So without rewriting the reference probability b ji, it reads the reference probability b ji by obtaining the forward probability c it. Therefore, since the reference probability b ji is not rewritten, the reference frame number qs is not rewritten. The skip number skips is skip
Since it represents the number of times the reference probability b ji was not rewritten within the range of s ≦ NSKIPS, 1 is added to the skip number skips to count up the skip number skips.

【0030】このようにskips>NSKIPS若し
くはdts>DTSの場合は、参照確率bjiの書換えを
行なった後に、従って現フレーム番号tの出力確率bji
(xt)をヒドンマルコフモデルから求める演算を行なった
後に、参照確率bjiを読み出して前向き確率citを求め
る。さらにskips≦NSKIPSかつdts≦DT
Sの場合は、参照確率bjiの書換えを行なわずに、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なわずに、参照確率bji
読み出して前向き確率citを求めるので、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
As described above, in the case of skips> NSKIPS or dts> DTS, after the reference probability b ji is rewritten, the output probability b ji of the current frame number t is accordingly.
After performing a calculation to obtain (x t ) from the Hidden Markov model, the reference probability b ji is read to obtain the forward probability c it . Furthermore, skips ≦ NSKIPS and dts ≦ DT
In the case of S, the reference probability b ji is read out without rewriting the reference probability b ji , and thus the output probability b ji (x t ) of the current frame number t is not calculated from the Hidden Markov model. Since the probability c it is obtained, the forward probability c
The amount of calculation can be reduced while suppressing the error of it .

【0031】この場合の前向き確率citの誤差とは、s
kips≦NSKIPSかつdts≦DTSの場合に出
力確率bji(xt)をヒドンマルコフモデルから求める演算
を行なわずに得た前向き確率citと、そのような演算の
簡略化を行なわずに得た前向き確率citとの差である。
The error of the forward probability c it in this case is s
In the case of kips ≦ NSKIPS and dts ≦ DTS, the output probability b ji (x t ) is obtained without performing the calculation for obtaining from the Hidden Markov model, and the forward probability c it is obtained without simplifying such calculation. This is the difference from the forward probability c it .

【0032】閾値DTSを大きくするに従って、演算の
削減量は増えるが、前向き確率citの誤差は大きくな
る。従って実用上望まれる誤差の範囲内で前向き確率c
itを求めることができるように、閾値DTSの値を定め
る必要がある。
As the threshold value DTS is increased, the amount of reduction in calculation increases, but the error of the forward probability c it increases. Therefore, the forward probability c is within the error range practically desired.
It is necessary to set the value of the threshold value DTS so that it can be obtained.

【0033】<請求項3〜6の発明>さらに請求項3の
発明の音声認識方法にあっては、ヒドンマルコフモデル
において遷移元となる状態Sj に、定常部及び過渡部の
いずれかの種別sを付与し、定常部基準フレーム番号q
s、過渡部基準フレーム番号qtと、参照確率bjiとを
格納する記憶部を設け、該参照確率bjiを用いて、t=
1、2、……、Tの各場合の前向き確率citを順次に求
める。
<Invention of Claims 3 to 6> Furthermore, in the speech recognition method of the invention of Claim 3, the state S j which is the transition source in the Hidden Markov model has one of a stationary part and a transient part. s is added to the reference frame number q
s, a transition part reference frame number qt, and a reference probability b ji are provided in a storage unit, and the reference probability b ji is used to t =
The forward probability c it for each of 1, 2, ..., T is sequentially obtained.

【0034】そして(1).t=1のときは、定常部基
準フレーム番号qs、過渡部基準フレーム番号qtをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、参照確率bjiの書込み終了後に各参照確率bjiを読
み出して前向き確率citを求める処理(2A)と、処理
(2A)の終了後、現フレーム番号tに1を加算する処
理(2B)とを行なう。
And (1). When t = 1, the constant part reference frame number qs and the transient part reference frame number qt are initialized to 1, and all j and i are
Output Write probabilities b ji (x t) the probability that output determined from Hidden Markov Models b ji the (x t) as the initial value of the reference probability b ji, after completion of writing of the reference probability b ji reads each reference probability b ji A process (2A) for obtaining the forward probability c it and a process (2B) for adding 1 to the current frame number t are performed after the process (2A) is completed.

【0035】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、比較結果がdts>DTSとなる場合
に、定常部基準フレーム番号qsを現フレーム番号tに
書き換える処理(2C)と、現フレーム番号tの音声特
徴ベクトルxt と過渡部基準フレーム番号qtの音声特
徴ベクトルxqtとの間の距離dttを閾値DTTと比較
し、当該比較結果がdtt>DTTとなる場合に、過渡
部基準フレーム番号qtを現フレーム番号tに書き換え
る処理(2D)と、処理(2C)及び(2D)の終了
後、j=1、2、……、Jの各j毎に、出力確率bji(x
t)を与える状態遷移の遷移元Sj に付与されている種別
sを判定する処理(2E)と、処理(2E)の種別判定
結果が定常部であった場合に、処理(2C)の比較結果
がdts>DTSであれば、当該種別判定結果を得たj
に関しては全てのiについて、出力確率bji(xt)をヒド
ンマルコフモデルから求めて参照確率bjiを当該出力確
率bji(xt)に書き換え、処理(2E)の種別判定結果が
定常部であった場合に、処理(2C)の比較判定結果が
dts≦DTSであれば、当該種別判定結果を得たjに
関しては参照確率bjiの書換えを行なわず、処理(2
E)の種別判定結果が過渡部であった場合に、処理(2
D)の比較結果がdtt>DTTであれば、当該種別判
定結果を得たjに関しては全てのiについて、出力確率
ji(xt)をヒドンマルコフモデルから求めて参照確率b
jiを当該出力確率bji(xt)に書き換え、処理(2E)の
種別判定結果が過渡部であった場合に、処理(2D)の
比較判定結果がdtt≦DTTであれば、当該種別判定
結果を得たjに関しては参照確率bjiの書換えを行なわ
ない処理(2F)と、j=1、2、……、Jの個々のj
毎に処理(2F)を行ない、全てのjにつき前記処理
(2F)を終了したら、各参照確率bjiを読み出して前
向き確率citを求める処理(2G)と、処理(2G)の
終了後、現フレーム番号tに1を加算する処理(2H)
とを行なう。
(2). When the 2 ≦ t ≦ T, the distance dts between the speech feature vector qs speech feature vector x t and the constant part reference frame number qs of the current frame number t is compared with a threshold DTS, the comparison result is dts> DTS between when made, processing of rewriting the constant part reference frame number qs to the current frame number t and (2C), an audio feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t The distance dtt of the threshold value DTT is compared with the threshold value DTT, and when the comparison result is dtt> DTT, the transition part reference frame number qt is rewritten to the current frame number t (2D) and the processes (2C) and (2D). After the end, the output probability b ji (x
t ) is compared with the process (2E) for determining the type s assigned to the transition source S j of the state transition and the process (2C) when the type determination result of the process (2E) is a stationary part. If the result is dts> DTS, the type determination result is obtained j
For, regarding all i, the output probability b ji (x t ) is obtained from the Hidden Markov model, and the reference probability b ji is rewritten to the output probability b ji (x t ), and the type determination result of the process (2E) is the stationary part. If the comparison determination result of the process (2C) is dts ≦ DTS, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and the process (2
When the type determination result of E) is the transition part, the process (2
If the comparison result of D) is dtt> DTT, the output probability b ji (x t ) is obtained from the Hidden Markov model for all i with respect to j for which the type determination result is obtained, and the reference probability b
If ji is rewritten to the output probability b ji (x t ), and the type determination result of the process (2E) is the transition part, and the comparison determination result of the process (2D) is dtt ≦ DTT, the type determination For j that has obtained the result, a process (2F) in which the reference probability b ji is not rewritten, and j = 1, 2, ...
The process (2F) is performed for each j, and when the process (2F) is completed for all j, the process (2G) of reading out each reference probability b ji to obtain the forward probability c it , and after the process (2G), Processing for adding 1 to the current frame number t (2H)
And.

【0036】このように請求項3の発明では、j=1、
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
As described above, in the invention of claim 3, j = 1,
For each j of 2, ..., J, the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ) is determined.

【0037】種別sが定常部である場合は、定常部に関
わる距離dtsが閾値DTSを越えれば、当該種別を得
たjに関しては、現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求めそして参照確率bji
当該出力確率bji(xt)に書き換え、然る後に、参照確率
jiを読み出して前向き確率citを求める。また定常部
に関わる距離dtsが閾値DTS以下であれば、当該種
別sを得たjに関しては、参照確率bjiの書換えを行な
わずに、従って現フレーム番号tの出力確率bji(xt)を
ヒドンマルコフモデルから求めずに、参照確率bjiを読
み出して前向き確率citを求める。これがため種別sが
定常部であるという判定結果を得たjに関し、前向き確
率citの誤差を抑えつつ、演算量を減少させることがで
きる。
When the type s is the stationary part, and the distance dts related to the stationary part exceeds the threshold value DTS, the output probability b ji (x t ) of the current frame number t is obtained for j that obtained the type.
From the Hidden Markov model, and the reference probability b ji is rewritten to the output probability b ji (x t ). After that, the reference probability b ji is read to obtain the forward probability c it . If the distance dts related to the stationary part is equal to or less than the threshold value DTS, the reference probability b ji is not rewritten for j for which the type s is obtained, and accordingly, the output probability b ji (x t ) of the current frame number t The reference probability b ji is read out and the forward probability c it is calculated without calculating H from the Hidden Markov model. Therefore, with respect to j for which the determination result that the type s is the stationary part is obtained, it is possible to reduce the amount of calculation while suppressing the error of the forward probability c it .

【0038】この場合の前向き確率citの誤差とは、種
別sが定常部であるという判定結果を得たjに関して、
dts≦DTSの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
itと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
The error of the forward probability c it in this case means that j is obtained as a result of the determination that the type s is a stationary part.
dts ≦ a forward probability c it got an output probability b ji (x t) without operation for obtaining the hidden Markov model in the case of DTS, such forward probability c it obtained without simplification of operation Is the difference between.

【0039】定常部に関わる距離dts、閾値DTSの
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdts>DTSであれば
定常部基準フレーム番号qsの書換えを行なうこととな
るが、dts>DTSであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の定常部基準フレー
ム番号qsの音声特徴ベクトルxqsに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は定常部基準
フレーム番号qsの音声特徴ベクトルxqsからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dts
≦閾値DTSであれば定常部基準フレーム番号qsの書
換えを行なわないこととなるが、dts≦DTSである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない定常部基準フレーム番号qsの音声特徴ベ
クトルxqsと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsからの変化が少ないので、
現フレーム番号tの出力確率bji(xt)を参照確率bji
近似することができる。
The reference probability b ji is rewritten according to the comparison result of the distance dts related to the stationary part and the threshold value DTS for the following reason. That is, if dts> DTS, the constant part reference frame number qs is rewritten. However, since dts> DTS, the voice feature vector x t of the current frame number t is the constant part reference frame number qs before the rewriting. not approximate the speech feature vector x qs, hence the speech feature vector x t of the current frame number t greater change from speech feature vector x qs constant region reference frame number qs, output probability b ji the current frame number t (x t ) cannot be approximated by the reference probability b ji . Also the distance dts
If ≦ threshold value DTS, the constant part reference frame number qs is not rewritten. However, since dts ≦ DTS, the voice feature vector x t of the current frame number t is the constant part reference frame number qs that is not rewritten. Since the speech feature vector x qs is approximately equal to the speech feature vector x qs, and therefore the speech feature vector x t of the current frame number t changes little from the speech feature vector x qs of the stationary part reference frame number qs,
The output probability b ji (x t ) of the current frame number t can be approximated by the reference probability b ji .

【0040】同様に種別sが過渡部である場合は、過渡
部に関わる距離dttが閾値DTTを越えれば、当該種
別sを得たjに関しては、現フレーム番号tの出力確率
ji(xt)をヒドンマルコフモデルから求めそして参照確
率bjiを当該出力確率bji(x t)に書き換え、然る後に、
参照確率bjiを読み出して前向き確率citを求める。ま
た過渡部に関わる距離dttが閾値DTT以下であれ
ば、当該種別sを得たjに関しては、参照確率bjiの書
換えを行なわずに、従って現フレーム番号tの出力確率
ji(xt)をヒドンマルコフモデルから求めずに、参照確
率bjiを読み出して前向き確率citを求める。これがた
め種別sが過渡部であるという判定結果を得たjに関
し、前向き確率citの誤差を抑えつつ、演算量を減少さ
せることができる。
Similarly, if the type s is the transient part, the transient
If the distance dtt related to the part exceeds the threshold value DTT,
The output probability of the current frame number t for j that has obtained another s
bji(xt) From the Hidden-Markov model and reference
Rate bjiIs the output probability bji(x t), And after that,
Reference probability bjiAnd the forward probability citAsk for. Ma
If the distance dtt related to the transition part is less than or equal to the threshold value DTT,
For example, for j that obtained the type s, the reference probability bjiBook of
Output probability of the current frame number t without changing
bji(xt) From the Hidden Markov model,
Rate bjiAnd the forward probability citAsk for. This
Therefore, regarding j that obtained the determination result that the type s is a transient part,
And the forward probability citError while suppressing the amount of calculation
Can be made.

【0041】この場合の前向き確率citの誤差とは、種
別sが過渡部であるという判定結果を得たjに関して、
dtt≦DTTの場合に出力確率bji(xt)をヒドンマル
コフモデルから求める演算を行なわずに得た前向き確率
itと、そのような演算の簡略化を行なわずに得た前向
き確率citとの間の差である。
The error of the forward probability c it in this case means that j is obtained as a result of the judgment that the type s is a transient part.
dtt ≦ a forward probability c it got an output probability b ji (x t) without operation for obtaining the hidden Markov model in the case of DTT, such forward probability c it obtained without simplification of operation Is the difference between.

【0042】過渡部に関わる距離dtt、閾値DTTの
比較結果に応じて、参照確率bjiの書換えを行なうの
は、次の理由による。すなわちdtt>DTTであれば
過渡部基準フレーム番号qtの書換えを行なうこととな
るが、dtt>DTTであるので現フレーム番号tの音
声特徴ベクトルxt はこの書換え前の過渡部基準フレー
ム番号qtの音声特徴ベクトルxqtに近似せず、従って
現フレーム番号tの音声特徴ベクトルxt は過渡部基準
フレーム番号qtの音声特徴ベクトルxqtからの変化が
大きいので、現フレーム番号tの出力確率bji(xt)を参
照確率bjiで近似することはできない。また距離dtt
≦閾値DTTであれば過渡部基準フレーム番号qtの書
換えを行なわないこととなるが、dtt≦DTTである
ので現フレーム番号tの音声特徴ベクトルxt は書換え
を行なわない過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtと近似的に等しくなり、従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率bji(xt)を参照確率bji
近似することができる。
The reason why the reference probability b ji is rewritten according to the comparison result of the distance dtt and the threshold value DTT relating to the transition part is as follows. That is, if dtt> DTT, the transient part reference frame number qt is rewritten. However, since dtt> DTT, the voice feature vector x t of the current frame number t is the transient part reference frame number qt before the rewriting. not approximate the speech feature vector x qt, hence the speech feature vector x t of the current frame number t greater change from speech feature vector x qt transient portion reference frame number qt, output probability b ji the current frame number t (x t ) cannot be approximated by the reference probability b ji . Also, the distance dtt
If ≦ threshold value DTT, the transient reference frame number qt is not rewritten. However, since dtt ≦ DTT, the voice feature vector x t of the current frame number t is the transient reference frame number qt of which rewriting is not performed. Since the voice feature vector x qt is approximately equal to the voice feature vector x qt, and therefore the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qt of the transition part reference frame number qt,
The output probability b ji (x t ) of the current frame number t can be approximated by the reference probability b ji .

【0043】さらに請求項3の発明において、種別sが
定常部である場合の閾値DTSと種別sが過渡部である
場合の閾値DTTとをそれぞれ個別に設定する理由は、
次の理由に依る。
Further, in the invention of claim 3, the reason why the threshold value DTS when the type s is a stationary part and the threshold value DTT when the type s is a transient part are individually set is as follows.
It depends on the following reasons.

【0044】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DTT
を小さくすることにより、前向き確率citの誤差を小さ
くすることが望まれる。
That is, since the change of the voice feature vector x t detected time-sequentially is large in the transition part of the voice signal, the threshold value DTT used when the type s is the transition part.
It is desired to reduce the error of the forward probability c it by reducing.

【0045】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
Sを大きくしても前向き確率citの誤差を小さくするこ
とができる。閾値DTSを大きくすることは、演算量の
削減に寄与する。
On the other hand, in the stationary part of the audio signal, since the change of the audio feature vector x t detected in time sequence is small, the threshold value DT used when the type s is the stationary part.
Even if S is increased, the error of the forward probability c it can be reduced. Increasing the threshold value DTS contributes to a reduction in the amount of calculation.

【0046】従って種別sが過渡部である場合に用いる
閾値DTTに値の小さいものを用いると共に、種別sが
定常部である場合に用いる閾値DTSに値の大きいもの
を用いることにより、より効果的に前向き確率citの誤
差を小さくしつつ、演算量を削減することができる。
Therefore, it is more effective to use a small value for the threshold value DTT used when the type s is a transient part and to use a large value for the threshold value DTS used when the type s is a stationary part. It is possible to reduce the calculation amount while reducing the error of the forward probability c it .

【0047】また請求項4の発明の音声認識方法にあっ
ては、請求項3の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
According to the voice recognition method of the invention of claim 4, in the voice recognition method of the invention of claim 3, the process (2E) is performed after the processes (2C) and (2D) are completed.

【0048】このように請求項4の発明では、dts、
DTSの比較結果に応じて定常部基準フレーム番号qs
を書き換える処理(2C)とdtc、DTCの比較結果
に応じて過渡部基準フレーム番号qcを書き換える処理
(2D)とを行ない、然る後、現フレーム番号tの出力
確率bji(xt)を与える状態遷移の、遷移元Sj に付与さ
れている種別sを判定する処理(2E)を行なう。従っ
て定常部基準フレーム番号qsの書換え処理(2C)と
過渡部基準フレーム番号qcの書換え処理(2D)と
を、種別sの判定処理(2E)を行なう前に終了して、
j=1、2、……、Jの個々のj毎には行なわないの
で、処理量を減らすことができる。種別sの判定処理
(2E)を行なった後に、これら書換え処理(2C)、
(2D)を行なうようにすると、個々のj毎に、これら
書換え処理(2C)、(2D)を行なうこととなり処理
量が増える。
As described above, in the invention of claim 4, dts,
Based on the comparison result of DTS, the reference frame number of the stationary part qs
Is performed (2C) and the transition part reference frame number qc is rewritten according to the comparison result of dtc and DTC (2D), and then the output probability b ji (x t ) of the current frame number t is calculated. A process (2E) of determining the type s assigned to the transition source S j of the given state transition is performed. Therefore, the rewriting process (2C) of the stationary part reference frame number qs and the rewriting process (2D) of the transition part reference frame number qc are completed before the determination process (2E) of the type s,
Since it is not performed for each j of j = 1, 2, ..., J, the processing amount can be reduced. After performing the determination process (2E) for the type s, the rewriting process (2C),
If (2D) is performed, these rewriting processes (2C) and (2D) are performed for each individual j, which increases the processing amount.

【0049】尚、処理量は増えるが、請求項3の発明に
おいて、処理(2E)の終了後に、処理(2C)及び
(2D)を行なうようにしても良い。
Although the processing amount increases, in the invention of claim 3, the processing (2C) and (2D) may be performed after the processing (2E) is completed.

【0050】また請求項5の発明の音声認識方法にあっ
ては、請求項3記載の音声認識方法において、ヒドンマ
ルコフモデルにおいて遷移元となる状態Sj に、定常部
及び過渡部のいずれかの種別sを付与し、定常部基準フ
レーム番号qs、過渡部基準フレーム番号qtと、参照
確率bjiとを格納する記憶部を設け、該参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを順次に求める。
According to the speech recognition method of the fifth aspect of the present invention, in the speech recognition method of the third aspect, the state S j that is the transition source in the Hidden Markov model is either a steady part or a transient part. A type s is given, and a storage unit is provided for storing a stationary part reference frame number qs, a transition part reference frame number qt, and a reference probability b ji, and using the reference probability b ji , t = 1, 2, ... ..., the forward probability c in each case of T
It is calculated sequentially.

【0051】そして(1).t=1のときは、定常部ス
キップ数skips、過渡部スキップ数skiptをそ
れぞれ0に、及び、定常部基準フレーム番号qs、過渡
部基準フレーム番号qtをそれぞれ1に初期化すると共
に、全てのj、iについて、出力確率bji(xt)をヒドン
マルコフモデルから求め当該出力確率bji(xt)を参照確
率bjiの初期値として書き込み、参照確率bjiの書込み
終了後に各参照確率bjiを読み出して前向き確率cit
求める処理(2A)と、処理(2A)の終了後、現フレ
ーム番号tに1を加算する処理(2B)とを行なう。
And (1). When t = 1, the constant part skip number skips and the transient part skip number skipt are initialized to 0, and the constant part reference frame number qs and the transient part reference frame number qt are initialized to 1 and all j are initialized. for i, the output probability b ji (x t) writes an initial value of the reference probability b ji the output probability b ji (x t) determined from the hidden Markov models, reference probability b each reference probability after completion of writing of ji b A process (2A) of reading ji to obtain the forward probability c it and a process (2B) of adding 1 to the current frame number t are performed after the process (2A) is completed.

【0052】(2).2≦t≦Tのときは、定常部スキ
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)と、処理(2C)、(2
D)の終了後、j=1、2、……、Jの各j毎に、出力
確率bji(xt)を与える状態遷移の遷移元Sj に付与され
ている種別sを判定する処理(2E)と、処理(2E)
の種別判定結果が定常部であった場合に、処理(2C)
の比較結果がskips>NSKIPS若しくはdts
>DTSであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(4E)の種別判定結果が定常部で
あった場合に、処理(2C)の比較結果がskips≦
NSKIPSかつdts≦DTSであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わず、処理(2E)の種別判定結果が過渡部であった場
合に、処理(2D)の比較結果がskipt>NSKI
PT若しくはdtt>DTTであれば、当該種別判定結
果を得たjに関しては全てのiについて、出力確率bji
(xt)をヒドンマルコフモデルから求めて参照確率bji
当該出力確率bji(xt)に書き換え、処理(2E)の種別
判定結果が過渡部であった場合に、処理(2D)の比較
結果がskipt≦NSKIPTかつdtt≦DTTで
あれば、当該種別判定結果を得たjに関しては参照確率
jiの書換えを行なわない処理(2F)と、j=1、
2、……、Jの個々のj毎に該処理(2F)を行ない、
全てのjにつき該処理(2F)を終了したら、各参照確
率bjiを読み出して前向き確率citを求める処理(2
G)と、処理(2G)の終了後、現フレーム番号tに1
を加算する処理(2H)とを行なう。
(2). When the 2 ≦ t ≦ T, as well as comparing the constant region skip number skips a threshold NSKIPS, the distance between the speech feature vector x qs speech feature vector x t and the constant part reference frame number qs of the current frame number t dts is compared with the threshold value DTS, and the comparison result is sk.
When ips> NSKIPS or dts> DTS, the constant part skip number skips is initialized to 0, and the constant part reference frame number qs is rewritten to the current frame number t, and the comparison result is skips ≦ NSKIPS and dts ≦ DTS. If, then the number of skips in the stationary part sk
1 and adds the process (2C) in ips, while comparing the transient portion skip number skipt a threshold NSKIPT, the speech feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t Distance d
tt is compared with the threshold value DTT, and the comparison result is skippt.
> NSKIPT or dtt> DTT,
The transition part skip number skipt is initialized to 0, and the transition part reference frame number qt is rewritten to the current frame number t, and the comparison result is skip≤NSKIPT and dt.
When t ≦ DTT, the number of skips in transition part skippt
Processing of adding 1 to (2D), processing (2C), (2
After the end of D), a process of determining the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ) for each j of j = 1, 2, ..., J. (2E) and processing (2E)
When the type determination result of is a stationary part, processing (2C)
Comparison result of skips> NSKIPS or dts
> DTS, for j for which the type determination result is obtained, the output probability b ji (x t ) is obtained from the Hidden Markov model for all i, and the reference probability b ji is set as the output probability b ji (x
t )) and the type determination result of the process (4E) is the stationary part, the comparison result of the process (2C) is skips ≦
If NSKIPS and dts ≦ DTS, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and if the type determination result of the process (2E) is a transient part, the process (2D) Comparison result of skip> NSKI
If PT or dtt> DTT, the output probability b ji for all i with respect to j for which the type determination result is obtained.
(x t ) is obtained from the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), and when the type determination result of the process (2E) is the transient part, the process (2D) If the comparison result is skipt ≦ NSKIPT and dtt ≦ DTT, a process (2F) in which the reference probability b ji is not rewritten for j for which the type determination result is obtained, and j = 1,
2, ..., Performing the processing (2F) for each j of J,
When the process (2F) is completed for all j, a process of reading the reference probabilities b ji to obtain the forward probability c it (2
G) and after the processing (2G) is finished, 1 is set to the current frame number t.
Is performed (2H).

【0053】このように請求項5の発明では、j=1、
2、……、Jの個々のj毎に、出力確率bji(xt)を与え
る状態遷移の、遷移元Sj に付与されている種別sを判
定する。
As described above, in the invention of claim 5, j = 1,
For each j of 2, ..., J, the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ) is determined.

【0054】種別sの判定結果が定常部である場合に、
定常部に関わるスキップ数skipsが閾値NSKIP
Sを越えるか若しくは定常部に関わる距離dtsが閾値
DTSを越えるかすれば、当該種別を得たjに関して
は、現フレーム番号tの出力確率bji(xt)をヒドンマル
コフモデルから求めそして参照確率bjiを当該出力確率
ji(xt)に書き換え、然る後に、参照確率bjiを読み出
して前向き確率citを求める。また種別sの判定結果が
定常部である場合に、定常部に関わるスキップ数ski
psが閾値NSKIPS以下となりかつ定常部に関わる
距離dtsが閾値DTS以下となれば、当該種別sを得
たjに関しては、参照確率bjiの書換えを行なわずに、
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求めずに、参照確率bjiを読み出して
前向き確率citを求める。これがため種別sが定常部で
あるという判定結果を得たjに関し、前向き確率cit
誤差を抑えつつ、演算量を減少させることができる。
When the determination result of the type s is the stationary part,
The skip number skips related to the stationary part is the threshold value NSKIP.
If S is exceeded or the distance dts related to the stationary part exceeds the threshold DTS, the output probability b ji (x t ) of the current frame number t is obtained from the Hidden-Markov model for j for which the type is obtained, and the reference probability b ji is rewritten to the output probability b ji (x t ), and after that, the reference probability b ji is read to obtain the forward probability c it . In addition, when the determination result of the type s is a stationary part, the skip number ski related to the stationary part
If ps is equal to or less than the threshold value NSKIPS and the distance dts related to the stationary part is equal to or less than the threshold value DTS, the reference probability b ji is not rewritten for j for which the type s is obtained.
Therefore, the output probability b ji (x t ) of the current frame number t is not obtained from the Hidden Markov model, but the reference probability b ji is read to obtain the forward probability c it . Therefore, with respect to j for which the determination result that the type s is the stationary part is obtained, it is possible to reduce the amount of calculation while suppressing the error of the forward probability c it .

【0055】この場合の前向き確率citの誤差とは、種
別sが定常部であるという判定結果を得たjに関して、
skips≦NSKIPSかつdts≦DTSの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
The error of the forward probability c it in this case means that j is obtained as a result of the judgment that the type s is a stationary part.
In the case of skips ≦ NSKIPS and dts ≦ DTS, the output probability b ji (x t ) was obtained without performing the calculation for obtaining from the Hidden Markov model, and the forward probability c it was obtained without performing such calculation simplification. This is the difference between the forward probability c it .

【0056】定常部に関わる距離dts、閾値DTSの
比較結果とスキップ数skips、閾値NSKIPSの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
The reference probability b ji is rewritten according to the comparison result of the distance dts related to the stationary part, the threshold value DTS and the comparison result of the skip number skips and the threshold value NSKIPS for the following reason.

【0057】dts>DTSの場合は、現フレーム番号
tの音声特徴ベクトルxt は、基準フレーム番号qsの
音声特徴ベクトルxqsに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
When dts> DTS, the voice feature vector x t of the current frame number t does not approximate to the voice feature vector x qs of the reference frame number qs, and therefore the voice feature vector x t of the current frame number t is the reference. the change from speech feature vector x qs frame number qs is large, can not be approximated by reference probability b ji the output probability b ji the current frame number t (x t). Therefore, the reference probability b ji is rewritten.

【0058】skips>NSKIPSの場合は、距離
dtsが閾値DTS以下となった回数skipsが閾値
NSKIPSを越えるので現フレーム番号tと基準フレ
ーム番号qsとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
In the case of skips> NSKIPS, the number of times skips when the distance dts becomes equal to or less than the threshold value DTS exceeds the threshold value NSKIPS, so that the time gap between the current frame number t and the reference frame number qs becomes large, and thus the error increases. Since the possibility is high, the reference probability b ji is rewritten in order to reduce the error.

【0059】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qs
の音声特徴ベクトルxqsに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qsの
音声特徴ベクトルxqsからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskips≦NSKIPSであ
り従って距離dtsが閾値DTS以下となった回数sk
ipsが閾値NSKIPS以下であるので現フレーム番
号tと基準フレーム番号qsとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
Skips ≦ NSKIPS and dts ≦ D
In the case of TS, since dts ≦ DTS, the voice feature vector x t of the current frame number t is the reference frame number qs.
Since the approximate speech feature vector x qs, hence speech feature vector x t of the current frame number t is less change from speech feature vector x qs reference frame number qs, output probability b ji (x of the current frame number t t ) can be approximated by the reference probability b ji . Moreover, skips ≦ NSKIPS, and thus the number of times the distance dts becomes equal to or less than the threshold value DTS sk
Since ips is less than or equal to the threshold value NSKIPS, the time gap between the current frame number t and the reference frame number qs is small, and therefore the error is unlikely to increase. Therefore, in order to reduce the calculation amount, the reference probability b ji is not rewritten.

【0060】同様に種別sの判定結果が過渡部である場
合に、過渡部に関わるスキップ数skiptが閾値NS
KIPTを越えるか若しくは過渡部に関わる距離dtt
が閾値DTTを越えるかすれば、当該種別を得たjに関
しては、現フレーム番号tの出力確率bji(xt)をヒドン
マルコフモデルから求めそして参照確率bjiを当該出力
確率bji(xt)に書き換え、然る後に、参照確率bjiを読
み出して前向き確率citを求める。また種別sの判定結
果が過渡部である場合に、過渡部に関わるスキップ数s
kiptが閾値NSKIPT以下となりかつ過渡部に関
わる距離dttが閾値DTT以下となれば、当該種別s
を得たjに関しては、参照確率bjiの書換えを行なわず
に、従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求めずに、参照確率bjiを読み出
して前向き確率citを求める。これがため種別sが過渡
部であるという判定結果を得たjに関し、前向き確率c
itの誤差を抑えつつ、演算量を減少させることができ
る。
Similarly, when the determination result of the type s is the transient part, the skip number skipt related to the transient part is the threshold NS.
Distance dtt that exceeds KIPT or is related to transition
Is greater than the threshold DTT, the output probability b ji (x t ) of the current frame number t is obtained from the Hidden-Markov model for j that has obtained the type, and the reference probability b ji is the output probability b ji (x t ), And after that, the reference probability b ji is read to obtain the forward probability c it . In addition, when the determination result of the type s is the transient part, the number of skips s related to the transient part
If kipt is less than or equal to the threshold value NSKIPT and the distance dtt related to the transition part is less than or equal to the threshold value DTT, the type s
For j obtained, the reference probability b ji is read out without rewriting the reference probability b ji , and thus the output probability b ji (x t ) of the current frame number t is not obtained from the Hidden Markov model. ask for it . For this reason, with respect to j for which the determination result that the type s is the transient part is obtained, the forward probability c
The amount of calculation can be reduced while suppressing the error of it .

【0061】この場合の前向き確率citの誤差とは、種
別sが過渡部であるという判定結果を得たjに関して、
skipt≦NSKIPTかつdtt≦DTTの場合に
出力確率bji(xt)をヒドンマルコフモデルから求める演
算を行なわずに得た前向き確率citと、そのような演算
の簡略化を行なわずに得た前向き確率citとの間の差で
ある。
The error of the forward probability c it in this case means that j is obtained as a result of judging that the type s is a transient part.
In the case of skipt ≤ NSKIPT and dtt ≤ DTT, the output probability b ji (x t ) is obtained without performing the operation for obtaining from the Hidden-Markov model, and the forward probability c it is obtained without performing such operation simplification. This is the difference between the forward probability c it .

【0062】過渡部に関わる距離dtt、閾値DTTの
比較結果とスキップ数skipt、閾値NSKIPTの
比較結果とに応じて、参照確率bjiの書き換えを行なう
のは次の理由による。
The reference probability b ji is rewritten according to the comparison result of the distance dtt related to the transitional part, the threshold value DTT and the comparison result of the skip number skipt and the threshold value NSKIPT for the following reason.

【0063】dtt>DTTの場合は、現フレーム番号
tの音声特徴ベクトルxt は、基準フレーム番号qtの
音声特徴ベクトルxqtに近似せず、従って現フレーム番
号tの音声特徴ベクトルxt は基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が大きいので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができない。そこで参照確率bjiの書き換えを行
なう。
When dtt> DTT, the voice feature vector x t of the current frame number t does not approximate to the voice feature vector x qt of the reference frame number qt, so the voice feature vector x t of the current frame number t is the reference. the change from speech feature vector x qt frame number qt is large, can not be approximated by reference probability b ji the output probability b ji the current frame number t (x t). Therefore, the reference probability b ji is rewritten.

【0064】skipt>NSKIPTの場合は、距離
dttが閾値DTT以下となった回数skiptが閾値
NSKIPTを越えるので現フレーム番号tと基準フレ
ーム番号qtとの時間的隔たりが大きくなり、従って誤
差が増大する可能性が高いので誤差を低減するべく、参
照確率bjiの書き換えを行なう。
In the case of skipt> NSKIPT, the number of times the distance dtt becomes the threshold value DTT or less skipt exceeds the threshold value NSKIPT, so that the time gap between the current frame number t and the reference frame number qt becomes large, and thus the error increases. Since the possibility is high, the reference probability b ji is rewritten in order to reduce the error.

【0065】skipt≦NSKIPTかつdtt≦D
TTの場合は、dtt≦DTTであるので現フレーム番
号tの音声特徴ベクトルxt は、基準フレーム番号qt
の音声特徴ベクトルxqtに近似し、従って現フレーム番
号tの音声特徴ベクトルxtは基準フレーム番号qtの
音声特徴ベクトルxqtからの変化が少ないので、現フレ
ーム番号tの出力確率bji(xt)を参照確率bjiで近似す
ることができる。しかもskipt≦NSKIPTであ
り従って距離dttが閾値DTT以下となった回数sk
iptが閾値NSKIPT以下であるので現フレーム番
号tと基準フレーム番号qtとの時間的隔たりが小さ
く、これがため誤差が増大する可能性が低い。そこで演
算量を低減すべく、参照確率bjiの書き換えを行なわな
い。
Skippt NSKIPT and dtt≤D
In the case of TT, since dtt ≦ DTT, the voice feature vector x t of the current frame number t is the reference frame number qt.
Since the approximate speech feature vector x qt, hence speech feature vector x t of the current frame number t is less change from speech feature vector x qt reference frame number qt, output probability b ji (x of the current frame number t t ) can be approximated by the reference probability b ji . In addition, skipt ≦ NSKIPT, and therefore the number of times the distance dtt becomes equal to or less than the threshold value DTT
Since ipt is less than or equal to the threshold value NSKIPT, the time gap between the current frame number t and the reference frame number qt is small, which reduces the possibility of increasing the error. Therefore, in order to reduce the calculation amount, the reference probability b ji is not rewritten.

【0066】さらに請求項5の発明において、種別sが
定常部である場合の閾値DTS、NSKIPSと種別s
が過渡部である場合の閾値DTT、NSKIPTとをそ
れぞれ個別に設定する理由は、次に述べる理由に依る。
Further, in the invention of claim 5, the thresholds DTS, NSKIPS and type s when the type s is a stationary part
The reason why the threshold values DTT and NSKIPT are individually set in the case where is a transition part depends on the following reason.

【0067】すなわち、音声信号の過渡部においては時
間順次に検出される音声特徴ベクトルxt の変化は大き
いので、種別sが過渡部である場合に用いる閾値DT
T、NSKIPTを小さくすることにより、前向き確率
itの誤差を小さくすることが望まれる。
That is, since the change of the voice feature vector x t detected in time sequence is large in the transition part of the voice signal, the threshold value DT used when the type s is the transition part.
It is desirable to reduce the error of the forward probability c it by reducing T and NSKIPT.

【0068】これに対し、音声信号の定常部においては
時間順次に検出される音声特徴ベクトルxt の変化は小
さいので、種別sが定常部である場合に用いる閾値DT
S、NSKIPSを大きくしても前向き確率citの誤差
を小さくすることができる。閾値DTS、NSKIPS
を大きくすることは、演算量の削減に寄与する。
On the other hand, in the stationary part of the audio signal, since the change of the audio feature vector x t detected in time sequence is small, the threshold value DT used when the type s is the stationary part.
Even if S and NSKIPS are increased, the error of the forward probability c it can be reduced. Threshold DTS, NSKIPS
Increasing the value contributes to the reduction of the calculation amount.

【0069】従って種別sが過渡部である場合に用いる
閾値DTT、NSKIPTに値の小さいものを用いると
共に、種別sが定常部である場合に用いる閾値DTS、
NSKIPSに値の大きいものを用いることにより、よ
り効果的に前向き確率citの誤差を小さくしつつ、演算
量を削減することができる。
Therefore, the thresholds DTT and NSKIPT having a small value are used when the type s is the transient part, and the threshold DTS used when the type s is the stationary part,
By using a large value for NSKIPS, it is possible to more effectively reduce the error of the forward probability c it and reduce the calculation amount.

【0070】また請求項6の発明の音声認識方法にあっ
ては、請求項5の発明の音声認識方法において、処理
(2C)及び(2D)の終了後、処理(2E)を行な
う。
Further, in the voice recognition method of the invention of claim 6, in the voice recognition method of the invention of claim 5, the process (2E) is performed after the processes (2C) and (2D) are completed.

【0071】このように請求項6の発明では、skip
s、NSKIPSの比較結果及びdts、DTSの比較
結果に応じて定常部スキップ数skipsの初期化若し
くはカウントアップと定常部基準フレーム番号qsの書
換えとを行なう処理(2C)と、skipt、NSKI
PTの比較結果及びdtt、DTTの比較結果に応じて
過渡部スキップ数skiptの初期化若しくはカウント
アップと過渡部基準フレーム番号qtの書換えとを行な
う処理(2D)とを行ない、然る後、現フレーム番号t
の出力確率bji(xt)を与える状態遷移の、遷移元Sj
付与されている種別sを判定する処理(2E)を行な
う。従ってこれらスキップ数、基準フレーム番号に関わ
る処理(2C)、(2D)を、種別sの判定処理(2
E)を行なう前に終了して、j=1、2、……、Jの個
々のj毎には行なわないので、処理量を減らすことがで
きる。種別sの判定処理(2E)を行なった後に、これ
らスキップ数、基準フレーム番号に関わる書換え処理
(2C)、(2D)を行なうようにすると、個々のj毎
に、これらスキップ数、基準フレーム番号に関わる処理
(2C)、(2D)を行なうこととなり処理量が増え
る。
As described above, in the invention of claim 6, the skip
A process (2C) of initializing or counting up the constant part skip number skips and rewriting the constant part reference frame number qs according to the comparison result of s, NSKIPS and the comparison result of dts, DTS, and skipt, NSKI.
Depending on the comparison result of PT and the comparison result of dtt and DTT, the process (2D) of initializing or counting up the transition part skip number skipt and rewriting the transition part reference frame number qt is performed. Frame number t
The process (2E) of determining the type s assigned to the transition source S j of the state transition giving the output probability b ji (x t ) of Therefore, the processes (2C) and (2D) related to the number of skips and the reference frame number are compared with the determination process (2
The processing amount can be reduced because the processing is finished before performing step E) and is not performed for each j of j = 1, 2, ..., J. When the rewriting process (2C) and (2D) relating to the skip number and the reference frame number are performed after the determination process (2E) of the type s, the skip number and the reference frame number are calculated for each j. Since the processes (2C) and (2D) related to are performed, the processing amount increases.

【0072】尚、処理量は増えるが、請求項5の発明に
おいて、処理(2E)の終了後に処理(2C)及び(2
D)を行なうようにしても良い。
Although the processing amount increases, in the invention of claim 5, after the processing (2E) is completed, the processing (2C) and (2) are performed.
You may make it perform D).

【0073】<請求項7〜8の発明>さらに請求項7の
発明の音声認識方法にあっては、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsと、参照確
率bjiとを格納する記憶部を設け、参照確率bjiを用い
て、t=1、2、……、Tの各場合の前向き確率cit
順次に求める。
<Invention of Claims 7 to 8> Further, in the voice recognition method of the invention of Claim 7, the forward probability reference frame number qc, the output probability reference frame number qs, and the reference probability b ji are stored. A storage unit is provided, and the forward probability c it in each case of t = 1, 2, ..., T is sequentially obtained using the reference probability b ji .

【0074】そして(1).t=1のときは、前向き確
率基準フレーム番号qc、出力確率基準フレーム番号q
sをそれぞれ1に初期化すると共に、全てのj、iにつ
いて、出力確率bji(xt)をヒドンマルコフモデルから求
め当該出力確率bji(xt)を参照確率bjiの初期値として
書き込み、参照確率bjiの書込み終了後に各参照確率b
jiを読み出して前向き確率citを求める処理(3A)
と、処理(3A)の終了後、現フレーム番号tに1を加
算する処理(3B)とを行なう。
And (1). When t = 1, the forward probability reference frame number qc and the output probability reference frame number q
Writing is initialized s to 1 in all j, for i, as the initial value of the reference probability b ji the output probability b ji (x t) the probability that output determined from Hidden Markov Models b ji (x t) , Each reference probability b after writing the reference probability b ji
Processing to read ji and obtain forward probability c it (3A)
Then, after the process (3A) is completed, the process (3B) of adding 1 to the current frame number t is performed.

【0075】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、処理(3C)
の比較結果がdtc≦DTCとなる場合に、前向き確率
itは直前フレームの前向き確率ci(t-1)に等しいもの
として前向き確率citを求める演算を終了する処理(3
D)と、処理(3C)の比較結果がdtc>DTCとな
る場合に、前向き確率基準フレーム番号qcを現フレー
ム番号tに書き換える処理(3E)と、処理(3E)の
終了後、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqs
の間の距離dtsを閾値DTSと比較し、当該比較結果
がdts>DTSとなる場合に、出力確率基準フレーム
番号qsを現フレーム番号tに書き換えると共に、全て
のj、iについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、参照確率bjiの書換え終了後に各参照確率
jiを読み出して前向き確率citを求め、当該比較結果
がdts≦DTSとなる場合に、参照確率bjiの書き換
えを行なわずに各参照確率bjiを読み出して前向き確率
itを求める処理(3F)と、処理(3D)若しくは
(3F)の終了後、現フレーム番号tに1を加算する処
理(3G)とを行なう。
(2). 2 ≦ t when the ≦ T, the distance between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t dtc
Processing (3C) for comparing the value with the threshold value DTC, and processing (3C)
When the result of comparison of dtc ≦ DTC is satisfied, the forward probability c it is assumed to be equal to the forward probability c i (t−1) of the immediately preceding frame, and the calculation for obtaining the forward probability c it is ended (3
D) and the process (3C) result in dtc> DTC, the forward probability reference frame number qc is rewritten to the current frame number t (3E), and the current frame number after the process (3E) is finished. The distance dts between the voice feature vector x t of t and the voice feature vector x qs of the output probability reference frame number qs is compared with the threshold DTS, and when the comparison result is dts> DTS, the output probability reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) are obtained from the Hidden Markov model for all j and i, and the reference probabilities b ji are output probabilities b ji (x t ).
, And each reference probability b ji is read after the reference probability b ji is rewritten to obtain the forward probability c it. When the comparison result is dts ≦ DTS, each reference probability b ji is not rewritten. A process (3F) of reading the probability b ji to obtain the forward probability c it and a process (3G) of adding 1 to the current frame number t after the process (3D) or (3F) are completed.

【0076】このように請求項7の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。
As described above, in the invention of claim 7, the initial value of the reference probability b ji is the output probability b ji (x 1 ) obtained from the Hidden-Markov model in the start frame. Then, the initial value of the forward probability reference frame number qc and the initial value of the output probability reference frame number qs are set as the frame number 1 of the start frame.

【0077】そして現フレーム番号tの音声特徴ベクト
ルxt と前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcとの間の距離dtcを閾値DTCと比較す
る。dtc≦DTCの場合は、現フレーム番号tの前向
き確率citは直前フレームの前向き確率ci(t-1)に等し
いものとして、前向き確率citを求める演算を終了す
る。
[0077] and compares the distance dtc between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t and the threshold DTC. If dtc ≦ DTC, the forward probability c it of the current frame number t is assumed to be equal to the forward probability c i (t−1) of the immediately preceding frame, and the calculation of the forward probability c it ends.

【0078】またdtc>DTCの場合は、前向き確率
基準フレーム番号qcを現フレーム番号tに書き換え、
然る後、現フレーム番号tの音声特徴ベクトルxt と基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。dts>DTSの場
合は、基準フレーム番号qsの書換えと参照確率bji
書換えとを行ない、書き換えた参照確率bjiを読み出し
て前向き確率citを求める。dts≦DTSの場合は、
基準フレーム番号qsの書換えと参照確率bjiの書換え
とは行なわず、書換えを行なわなかった参照確率bji
読み出して前向き確率citを求める。
If dtc> DTC, the forward probability reference frame number qc is rewritten to the current frame number t,
Thereafter, comparing the distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t and the threshold DTS. If dts> DTS, the reference frame number qs is rewritten and the reference probability b ji is rewritten, and the rewritten reference probability b ji is read to obtain the forward probability c it . If dts ≤ DTS,
The rewriting of the reference frame number qs and the rewriting of the reference probability b ji are not performed, but the reference probability b ji that has not been rewritten is read to obtain the forward probability c it .

【0079】dtc≦DTCの場合は、距離dtcが閾
値DTC以下となるので現フレーム番号tの音声特徴ベ
クトルxt と前向き確率基準フレーム番号qcの音声特
徴ベクトルxqcとが近似的に等しくなる場合であり、従
って現フレーム番号tの前向き確率citは前向き確率基
準フレーム番号qcの音声特徴ベクトルxqcからの変化
が小さくなるので、現フレーム番号tの前向き確率cit
は直前フレームの前向き確率ci(t-1)で近似できる。そ
こで現フレーム番号tの前向き確率citは直前フレーム
の前向き確率ci(t-1)に等しいものとして、前向き確率
itを求める演算を終了する。
[0079] dtc For ≦ DTC, when the distance dtc is equal to or less than the threshold DTC and the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t is equal to approximately Therefore, since the forward probability c it of the current frame number t changes from the voice feature vector x qc of the forward probability reference frame number qc, the forward probability c it of the current frame number t becomes.
Can be approximated by the forward probability c i (t-1) of the immediately preceding frame. So forward probability c it the current frame number t is as equal to the forward probability c i (t-1) of the previous frame, and terminates the operation for obtaining the forward probability c it.

【0080】dtc>DTCの場合は、距離dtcが閾
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率Ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。
[0080] The dtc> For DTC, distance dtc the case since exceeds a threshold DTC that the speech feature vector x t and forward probabilities reference frame number qc speech feature vector x qc of the current frame number t does not approximate, thus Since the speech feature vector x t of the current frame number t has a large change from the speech feature vector x qc of the forward probability reference frame number qc, the forward probability c it of the current frame number t is the forward probability C i (t -1) cannot be approximated. Therefore, since the reference probability b ji is read and the forward probability c it of the current frame number t is calculated, the forward probability reference frame number qc is rewritten to the current frame number t.

【0081】また記憶部に格納される参照確率bjiは、
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
The reference probability b ji stored in the storage unit is
The output probability is the output probability b ji (x t ) obtained from the Hidden Markov Model in the frame of the reference frame number qs.

【0082】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、従って現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
からの変化が大きくなるので、現フレーム番号tの出力
確率bji(xt)を、書換え前の出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できない。そこで現フレーム番号tの出力確率bji(xt)
をヒドンマルコフモデルから求め、参照確率bjiを当該
出力確率bji(xt)に書き換えた後に参照確率bjiを読み
出して前向き確率citを求める。また参照確率bjiを、
現フレーム番号tの出力確率bji(xt)に書き換えるの
で、出力確率基準フレーム番号qsを現フレーム番号t
に書き換える。
When dts> DTS, the distance dt
s is a case where since exceeding the threshold DTS audio feature vector x t of the current frame number t and the speech feature vector x qs for rewriting the previous output probabilities reference frame number qs is not approximate, hence speech feature vectors of the current frame number t x t is the speech feature vector x qs of the output probability reference frame number qs
Therefore, the output probability b ji (x t ) of the current frame number t cannot be approximated by the output probability b ji (x qs ) of the output probability reference frame number qs before rewriting, that is, the reference probability b ji . Therefore, the output probability b ji (x t ) of the current frame number t
From the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), and then the reference probability b ji is read to obtain the forward probability c it . The reference probability b ji is
Since the output probability b ji (x t ) of the current frame number t is rewritten, the output probability reference frame number qs is changed to the current frame number t.
Rewrite

【0083】dts≦DTSの場合は、距離dtsが閾
値DTS以下となるので現フレーム番号tの音声特徴ベ
クトルxt と書換えを行なわない出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとが近似的に等しくな
る場合であり、従って現フレーム番号tの音声特徴ベク
トルxt は出力確率基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さくなるので、現フレーム番
号tの出力確率bji(xt)を、出力確率基準フレーム番号
qsの出力確率bji(xqs) すなわち参照確率bjiで近似
できる。そこで参照確率bjiの書換えを行なわずに、参
照確率bjiを読み出して前向き確率citを求める。また
参照確率bjiの書換えを行なわないので、出力確率基準
フレーム番号qsの書換えを行なわない。
[0083] dts For ≦ DTS is the distance dts is equal to or less than the threshold DTS and speech feature vectors x qs output probabilities reference frame number qs is not performed rewriting a speech feature vector x t of the current frame number t approximate Therefore, the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qs of the output probability reference frame number qs, and thus the output probability b ji (x t ) can be approximated by the output probability b ji (x qs ) of the output probability reference frame number qs, that is, the reference probability b ji . So without rewriting the reference probability b ji, it reads the reference probability b ji by obtaining the forward probability c it. Since the reference probability b ji is not rewritten, the output probability reference frame number qs is not rewritten.

【0084】このようにdtc≦DTCの場合は、現フ
レーム番号tの前向き確率citは直前フレームの前向き
確率ci(t-1)に等しいものとして前向き確率citを求め
る演算を終了し、出力確率bji(xt)を求める演算を行な
わない。そしてdtc>DTCの場合にdts>DTS
であれば、参照確率bjiの書換えを行なった後に、従っ
て現フレーム番号tの出力確率bji(xt)をヒドンマルコ
フモデルから求める演算を行なった後に、参照確率bji
を読み出して前向き確率citを求める。またdtc>D
TCの場合にdts≦DTSであれば、参照確率bji
書換えを行なわずに、従って現フレーム番号tの出力確
率bji(xt)をヒドンマルコフモデルから求める演算を行
なわずに、参照確率bjiを読み出して前向き確率cit
求めるので、前向き確率citの誤差を抑えつつ、演算量
を減少させることができる。
Thus, in the case of dtc≤DTC, the forward probability c it of the current frame number t is assumed to be equal to the forward probability c i (t-1) of the immediately preceding frame, and the calculation of the forward probability c it is completed. The calculation for obtaining the output probability b ji (x t ) is not performed. And if dtc> DTC, dts> DTS
If so, after the reference probability b ji is rewritten, and accordingly, the output probability b ji (x t ) of the current frame number t is calculated from the Hidden Markov model, and then the reference probability b ji
Is read to obtain the forward probability c it . Also dtc> D
In the case of TC, if dts ≦ DTS, the reference probability b ji is not rewritten, and thus the output probability b ji (x t ) of the current frame number t is not calculated from the Hidden Markov model, and the reference probability since reads b ji seek forward probability c it, while suppressing the error of the forward probability c it, it is possible to reduce the amount of calculation.

【0085】この場合の前向き確率citの誤差とは、d
tc≦DTC若しくはdts≦DTSの場合に出力確率
ji(xt)をヒドンマルコフモデルから求める演算を行な
わずに得た前向き確率citと、そのような演算の簡略化
を行なわずに得た前向き確率citとの差である。
The error of the forward probability c it in this case is d
When tc ≦ DTC or dts ≦ DTS, the output probability b ji (x t ) is obtained without performing the calculation for obtaining from the Hidden Markov model, and the forward probability c it is obtained without simplifying such calculation. This is the difference from the forward probability c it .

【0086】閾値DTC、DTSを大きくするに従っ
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
As the threshold values DTC and DTS are increased, the amount of reduction in calculation increases, but the error in the forward probability c it increases. Therefore, the threshold DTC, so that the forward probability c it can be obtained within the error range practically desired,
It is necessary to determine the value of DTS.

【0087】また請求項8の発明の音声認識方法にあっ
ては、請求項7の発明の音声認識方法において、次の如
く処理を行なう。
In the voice recognition method of the eighth aspect of the invention, the following processing is performed in the voice recognition method of the seventh aspect of the invention.

【0088】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、該参照確率bji
の書込み終了後に各参照確率bjiを読み出して前向き確
率citを求める処理(3A)と、処理(3A)の終了
後、現フレーム番号tに1を加算する処理(3B)とを
行なう。
(1). When t = 1, the forward probability reference frame number qc and the output probability reference frame number qs are set to 1, respectively, and the forward probability skip number skipc,
Is initialized to output probability skip number skips to 0 respectively, all j, for i, the output probability b ji (x t) from hidden Markov model determined reference probability b ji the output probability b ji (x t) Write as an initial value, and the reference probability b ji
After the completion of the writing, the reference probability b ji is read out to obtain the forward probability c it (3A), and after the process (3A) is finished, the current frame number t is incremented by 1 (3B).

【0089】(2).2≦t≦Tのときは、前向き確率
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcを閾値DTCと比較する処理(3C)
と、処理(3C)の比較結果がskipc≦NSKIP
Cかつdtc≦DTCとなる場合に、前向き確率cit
直前フレームの前向き確率ci(t-1)に等しいものとして
前向き確率citを求める演算を終了すると共に、前向き
確率スキップ数skipc、出力確率スキップ数ski
psにそれぞれ1を加算する処理(3D)と、処理(3
C)の比較結果がskipc>NSKIPC若しくはd
tc>DTCとなる場合に、前向き確率スキップ数sk
ipcを0に初期化し、及び、前向き確率基準フレーム
番号qcを現フレーム番号tに書き換える処理(3E)
と、処理(3E)の終了後、出力確率スキップ数ski
psを閾値NSKIPSと比較すると共に、現フレーム
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がskips>NS
KIPS若しくはdts>DTSとなる場合に、出力確
率スキップ数skipsを0に初期化し、及び、出力確
率基準フレーム番号qsを現フレーム番号tに書き換え
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求めて参照確率bjiを当該出
力確率bji(xt)に書き換え、参照確率bjiの書換え終了
後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がskips≦NSKIPSかつdt
s≦DTSとなる場合に、出力確率スキップ数skip
sに1を加算すると共に、参照確率bji(xt)の書換えを
行なわずに各参照確率bjiを読み出して前向き確率cit
を求める処理(3F)と、処理(3D)若しくは(3
F)の終了後、現フレーム番号tに1を加算する処理
(3G)とを行なう。
(2). When the 2 ≦ t ≦ T, the forward probability skip number skipc with is compared with a threshold value NSKIPC, the distance between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t Process of comparing dtc with threshold DTC (3C)
And the comparison result of the processing (3C) is skipc ≦ NSKIP
When C and dtc ≦ DTC, the forward probability c it is assumed to be equal to the forward probability c i (t-1) of the immediately preceding frame, and the operation for obtaining the forward probability c it is ended, and the forward probability skip number skippc, output Probability skip number ski
The process (3D) of adding 1 to ps and the process (3D)
The comparison result of C) is skipc> NSKIPC or d
When tc> DTC, the forward probability skip number sk
A process of initializing ipc to 0 and rewriting the forward probability reference frame number qc to the current frame number t (3E)
And, after the processing (3E) ends, the output probability skip number ski
with comparing ps a threshold NSKIPS, the distance dts between the speech feature vector x qs output probabilities reference frame number qs with speech feature vectors x t of the current frame number t is compared with a threshold DTS, the comparison result is skips > NS
When KIPS or dts> DTS, the output probability skip number skips is initialized to 0, the output probability reference frame number qs is rewritten to the current frame number t, and the output probability b ji (for all j and i). x t ) is calculated from the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), each reference probability b ji is read out after the reference probability b ji is rewritten, and the forward probability c it is calculated. The comparison result is skips ≦ NSKIPS and dt.
Output probability skip number skip if s ≦ DTS
In addition to adding 1 to s, each reference probability b ji is read without rewriting the reference probability b ji (x t ) and the forward probability c it.
Process (3F) and process (3D) or (3
After the end of F), a process (3G) of adding 1 to the current frame number t is performed.

【0090】このように請求項8の発明では、参照確率
jiの初期値を、始端フレームでヒドンマルコフモデル
から求めた出力確率bji(x1)とする。そして前向き確率
基準フレーム番号qcの初期値と、出力確率基準フレー
ム番号qsの初期値とをそれぞれ、始端フレームのフレ
ーム番号1とする。また前向き確率スキップ数skip
cの初期値と、出力確率スキップ数skipsの初期値
とをそれぞれ、0とする。
As described above, in the invention of claim 8, the initial value of the reference probability b ji is the output probability b ji (x 1 ) obtained from the Hidden Markov model in the start frame. Then, the initial value of the forward probability reference frame number qc and the initial value of the output probability reference frame number qs are set as the frame number 1 of the start frame. Also, the forward probability skip number skip
The initial value of c and the initial value of the output probability skip number skips are set to 0, respectively.

【0091】そして前向き確率スキップ数skipcを
閾値NSKIPCと比較すると共に、現フレーム番号t
の音声特徴ベクトルxt と前向き確率基準フレーム番号
qcの音声特徴ベクトルxqcとの間の距離dtcを閾値
DTCと比較する。skipc≦NSKIPCかつdt
c≦DTCの場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に、前
向き確率スキップ数skipcのカウントアップと出力
確率スキップ数skipsのカウントアップとを行な
う。
Then, the forward probability skip number skippc is compared with the threshold value NSKIPC, and the current frame number t
The distance dtc between the voice feature vector x t of the above and the voice feature vector x qc of the forward probability reference frame number qc is compared with the threshold value DTC. skipc ≤ NSKIPC and dt
If c ≦ DTC, the forward probability c of the current frame number t
It is assumed that it is equal to the forward probability c i (t−1) of the immediately preceding frame, and the calculation of the forward probability c it is completed, and the forward probability skip number skippc and the output probability skip number skips are incremented. .

【0092】またskipc>NSKIPC若しくはd
tc>DTCの場合は、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換えると共に前向き確率ス
キップ数skipcを初期化し、然る後、出力確率スキ
ップ数skipsを閾値NSKIPSと比較すると共に
現フレーム番号tの音声特徴ベクトルxt と出力確率基
準フレーム番号qsの音声特徴ベクトルxqsとの間の距
離dtsを閾値DTSと比較する。skips>NSK
IPS若しくはdts>DTSの場合は、出力確率スキ
ップ数skipsの初期化と出力確率基準フレーム番号
qsの書換えと参照確率bjiの書換えとを行ない、書き
換えた参照確率bjiを読み出して前向き確率citを求め
る。skips≦NSKIPSかつdts≦DTSの場
合は、出力確率スキップ数skipsのカウントアップ
は行ない、出力確率基準フレーム番号qsの書換えと参
照確率bjiの書換えとは行なわずに、書換えを行なわな
かった参照確率bjiを読み出して前向き確率citを求め
る。
In addition, skippc> NSKIPC or d
When tc> DTC, the forward probability reference frame number q
c is rewritten to the current frame number t, the forward probability skip number skipc is initialized, and then the output probability skip number skips is compared with the threshold value NSKIPS, and the voice feature vector x t of the current frame number t and the output probability reference frame number are compared. The distance dts between qs and the voice feature vector x qs is compared with a threshold DTS. skips> NSK
In the case of IPS or dts> DTS, the output probability skip number skips is initialized, the output probability reference frame number qs is rewritten, and the reference probability b ji is rewritten, and the rewritten reference probability b ji is read and the forward probability c it. Ask for. In the case of skips ≦ NSKIPS and dts ≦ DTS, the output probability skip number skips is counted up, and the reference probability not rewritten without rewriting the output probability reference frame number qs and the reference probability b ji . Read b ji to obtain the forward probability c it .

【0093】skipc≦NSKIPCかつdtc≦D
TCの場合は、dtc≦DTCであるので現フレーム番
号tの音声特徴ベクトルxt は前向き確率基準フレーム
番号qcの音声特徴ベクトルxqcに近似し、従って現フ
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citは直前
フレームの前向き確率ci(t-1)で近似できる。しかもs
kipc≦NSKIPCであり従って直前フレームの前
向き確率ci(t-1)の書換えを行なわなかった回数ski
pcが閾値NSKIPC以下であるので現フレーム番号
tと前向き確率基準フレーム番号qcとの時間的隔たり
が小さくなる。従って誤差が増大する可能性が低いので
演算量を削減すべく、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して、前向き確率citを求める演算を終了する。従って
参照確率bjiを読み出して前向き確率citを求める演算
も出力確率bjiの書換えも行なわないので、前向き確率
基準フレーム番号qcの書換えも出力確率基準フレーム
番号qsの書換えも行なわない。また前向き確率スキッ
プ数skipcは、skipc≦NSKIPCとなる範
囲内で現フレーム番号tの前向き確率citを直前フレー
ムの前向き確率ci(t-1)で近似して前向き確率citの演
算を終了した回数を表すものであるので、前向き確率ス
キップ数qcに1を加算して前向き確率スキップ数qc
をカウントアップする。さらに出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsに1を加算し
て出力確率スキップ数skipsをカウントアップす
る。
Skipc≤NSKIPC and dtc≤D
In the case of TC, since dtc ≦ DTC, the voice feature vector x t of the current frame number t is close to the voice feature vector x qc of the forward probability reference frame number qc, and thus the voice feature vector x t of the current frame number t is Since the change in the forward probability reference frame number qc from the voice feature vector x qc is small, the forward probability c it of the current frame number t can be approximated by the forward probability c i (t-1) of the immediately preceding frame. Moreover, s
Since kipc ≦ NSKIPC, the number of times ski in which the forward probability c i (t-1) of the immediately preceding frame is not rewritten is ski.
Since pc is less than or equal to the threshold value NSKIPC, the time gap between the current frame number t and the forward probability reference frame number qc becomes small. Therefore, the error is unlikely to increase, so that the forward probability c of the current frame number t should be reduced in order to reduce the calculation amount.
It is assumed that it is equal to the forward probability c i (t-1) of the immediately preceding frame, and the calculation for obtaining the forward probability c it ends. Therefore, since neither the reference probability b ji is read out to obtain the forward probability c it nor the output probability b ji is rewritten, neither the forward probability reference frame number qc nor the output probability reference frame number qs is rewritten. The forward probability skip number Skipc is complete the calculation of the forward probability c it is approximated by the forward probability c i (t-1) of the immediately preceding frame forward probability c it the current frame number t in a range of a skipc ≦ NSKIPC The number of forward probability skips qc is calculated by adding 1 to the number of forward probability skips qc.
Count up. Further, the output probability skip number sk
Since ips represents the number of times the reference probability b ji was not rewritten within the range of skips ≦ NSKIPS, 1 is added to the output probability skip number skips to count up the output probability skip number skips.

【0094】dtc>DTCの場合は、距離dtcが閾
値DTCを越えるので現フレーム番号tの音声特徴ベク
トルxt と前向き確率基準フレーム番号qcの音声特徴
ベクトルxqcとが近似しない場合であり、従って現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcからの変化が大
きくなるので、現フレーム番号tの前向き確率citは直
前フレームの前向き確率ci(t-1)で近似できない。そこ
で参照確率bjiを読み出して現フレーム番号tの前向き
確率citを求める演算を行なうこととなるので、前向き
確率基準フレーム番号qcを現フレーム番号tに書き換
える。また前向き確率スキップ数skipcは、ski
pc≦NSKIPCとなる範囲内で現フレーム番号tの
前向き確率citを直前フレームの前向き確率ci(t-1)
近似して前向き確率citの演算を終了した回数を表すも
のであるので、前向き確率スキップ数skipcを0に
初期化する。
[0094] The dtc> For DTC, distance dtc the case since exceeds a threshold DTC that the speech feature vector x t and forward probabilities reference frame number qc speech feature vector x qc of the current frame number t does not approximate, thus Since the voice feature vector x t of the current frame number t has a large change from the voice feature vector x qc of the forward probability reference frame number qc, the forward probability c it of the current frame number t is the forward probability c i (t of the immediately preceding frame. -1) cannot be approximated. Therefore, since the reference probability b ji is read and the forward probability c it of the current frame number t is calculated, the forward probability reference frame number qc is rewritten to the current frame number t. In addition, the forward probability skip number skipc is
It represents the number of times that the forward probability c it of the current frame number t is approximated by the forward probability c i (t-1) of the immediately preceding frame within the range of pc ≦ NSKIPC to complete the calculation of the forward probability c it . , The forward probability skip number skipc is initialized to 0.

【0095】skipc>NSKIPCの場合は、現フ
レーム番号tの前向き確率citを直前フレームの前向き
確率ci(t-1)で近似して前向き確率citの演算を終了し
た回数skipcが閾値NSKIPCを越えるので現フ
レーム番号tと前向き確率基準フレーム番号qcとの時
間的隔たりが大きくなり、従って誤差が増大する可能性
が高いので誤差を低減するべく、参照確率bjiを読み出
して前向き確率citを求める演算を行なう。そこで前向
き確率基準フレーム番号qcを現フレーム番号tに書き
換える。また前向き確率スキップ数skipcは、sk
ipc≦NSKIPCとなる範囲内で現フレーム番号t
の前向き確率citを直前フレームの前向き確率ci(t-1)
で近似して前向き確率citの演算を終了した回数を表す
ものであるので、前向き確率スキップ数skipcを初
期化する。
If skippc> NSKIPC, the number of times skippc is the threshold NSKIPC when the forward probability c it of the current frame number t is approximated by the forward probability c i (t-1) of the immediately preceding frame and the calculation of the forward probability c it is completed. Since the current frame number t exceeds the forward probability reference frame number qc, the error is likely to increase. Therefore, in order to reduce the error, the reference probability b ji is read and the forward probability c it. Is performed. Therefore, the forward probability reference frame number qc is rewritten to the current frame number t. Further, the forward probability skip number skipc is sk
Current frame number t within the range of ipc ≦ NSKIPC
Forward probability c it of the previous frame forward probability c i (t-1)
Since it represents the number of times that the calculation of the forward probability c it is completed by approximating with, the forward probability skip number skippc is initialized.

【0096】また記憶部に格納される参照確率bjiは、
出力確率基準フレーム番号qsのフレームでヒドンマル
コフモデルから求めた出力確率bji(xt)である。
The reference probability b ji stored in the storage unit is
The output probability is the output probability b ji (x t ) obtained from the Hidden Markov Model in the frame of the reference frame number qs.

【0097】そしてdts>DTSの場合は、距離dt
sが閾値DTSを越えるので現フレーム番号tの音声特
徴ベクトルxt と書換え前の出力確率基準フレーム番号
qsの音声特徴ベクトルxqsとが近似しない場合であ
り、現フレーム番号tの音声特徴ベクトルxt は出力確
率基準フレーム番号qsの音声特徴ベクトルxqsからの
変化が大きいので、現フレーム番号tの出力確率bji(x
t)を、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiで近似できない。そこで参照
確率bjiを、現フレーム番号tの出力確率bji(xt)に書
き換え、この書き換えた参照確率bjiを読み出して前向
き確率citを求める。また参照確率bjiを、現フレーム
番号tの出力確率bji(xt)に書き換えるので、出力確率
基準フレーム番号qsを現フレーム番号tに書き換え
る。そして出力確率スキップ数skipsは、skip
s≦NSKIPSとなる範囲内で参照確率bjiの書換え
を行なわなかった回数を表すものであるので、出力確率
スキップ数skipsを初期化する。
If dts> DTS, the distance dt
s is the case where the audio feature vector x qs output probabilities reference frame number qs before rewriting the audio feature vector x t of the current frame number t since exceeding the threshold DTS is not approximate, the audio feature vector x of the current frame number t Since t has a large change from the voice feature vector x qs of the output probability reference frame number qs, the output probability b ji (x
t ) is the output probability b ji (x
qs ) That is, it cannot be approximated by the reference probability b ji . Therefore, the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, and the rewritten reference probability b ji is read to obtain the forward probability c it . Further, since the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, the output probability reference frame number qs is rewritten to the current frame number t. Then, the output probability skip number skips is skip
Since it represents the number of times the reference probability b ji was not rewritten within the range of s ≦ NSKIPS, the output probability skip number skips is initialized.

【0098】skips>NSKIPSの場合は、参照
確率bjiの書換えを行なわなかった回数skipsが閾
値NSKIPSを越えるので現フレーム番号tと出力確
率基準フレーム番号qsとの時間的隔たりが大きくな
り、従って誤差が増大する可能性が高いので誤差を低減
すべく、参照確率bjiの書換えを行なう。従って参照確
率bjiを、現フレーム番号tの出力確率bji(xt)に書き
換えるので、出力確率基準フレーム番号qsを現フレー
ム番号tに書き換える。そして出力確率スキップ数sk
ipsは、skips≦NSKIPSとなる範囲内で参
照確率bjiの書換えを行なわなかった回数を表すもので
あるので、出力確率スキップ数skipsを初期化す
る。
In the case of skips> NSKIPS, the number of times skips, in which the reference probability b ji is not rewritten, exceeds the threshold value NSKIPS, so that the time lag between the current frame number t and the output probability reference frame number qs becomes large, and thus the error occurs. Is likely to increase, the reference probability b ji is rewritten in order to reduce the error. Therefore, since the reference probability b ji is rewritten to the output probability b ji (x t ) of the current frame number t, the output probability reference frame number qs is rewritten to the current frame number t. And the output probability skip number sk
Since ips represents the number of times the reference probability b ji is not rewritten within the range of skips ≦ NSKIPS, the output probability skip number skips is initialized.

【0099】skips≦NSKIPSかつdts≦D
TSの場合は、dts≦DTSであるので現フレーム番
号tの音声特徴ベクトルxt と出力確率基準フレーム番
号qsの音声特徴ベクトルxqsとが近似的に等しくなる
場合であり、従って現フレーム番号tの出力確率bji(x
t)は、出力確率基準フレーム番号qsの出力確率bji(x
qs) すなわち参照確率bjiに近似的に等しくなる。しか
もskips≦NSKIPSであり従って参照確率bji
の書換えを行なわなかった回数skipsが閾値NSK
IPS以下であるので、現フレーム番号tと出力確率基
準フレーム番号qsとの時間的隔たりが小さく従って誤
差が増大する可能性は低い。そこで参照確率bjiの書換
えを行なわずに、参照確率bjiを読み出して前向き確率
itを求める。従って参照確率bjiの書換えを行なわな
かったので、出力確率基準フレーム番号qsの書換えを
行なわない。そして出力確率スキップ数skipsは、
skips≦NSKIPSとなる範囲内で参照確率bji
の書換えを行なわなかった回数を表すものであるので、
出力確率スキップ数skipsに1を加算してスキップ
数skipsをカウントアップする。
Skips ≦ NSKIPS and dts ≦ D
For TS, a case where the audio feature vector x t of the current frame number t and the speech feature vector x qs output probabilities reference frame number qs equal to approximately since at dts ≦ DTS, therefore the current frame number t Output probability b ji (x
t ) is the output probability b ji (x of the output probability reference frame number qs
qs ), that is, approximately equal to the reference probability b ji . Moreover, skips ≦ NSKIPS, and therefore the reference probability b ji
The number of times skips was not rewritten is the threshold value NSK
Since it is IPS or less, the time gap between the current frame number t and the output probability reference frame number qs is small, and therefore the possibility of increasing the error is low. So without rewriting the reference probability b ji, it reads the reference probability b ji by obtaining the forward probability c it. Therefore, since the reference probability b ji has not been rewritten, the output probability reference frame number qs is not rewritten. The output probability skip number skips is
Reference probability b ji within the range of skips ≦ NSKIPS
Since it represents the number of times that
The number of skips skips is incremented by adding 1 to the output probability skip number skips.

【0100】このようにskipc≦NSKIPCかつ
dtc≦DTCの場合は、現フレーム番号tの前向き確
率citは直前フレームの前向き確率ci(t-1)に等しいも
のとして前向き確率citを求める演算を終了し、出力確
率bji(xt)を求める演算を行なわない。またskipc
>NSKIPC若しくはdtc>DTCの場合に、sk
ips>NSKIPS若しくはdts>DTSであれ
ば、参照確率bjiの書換えを行なった後に、従って現フ
レーム番号tの出力確率bji(xt)をヒドンマルコフモデ
ルから求める演算を行なった後に、参照確率bjiを読み
出して前向き確率citを求める。さらにskipc>N
SKIPC若しくはdtc>DTCの場合に、skip
s≦NSKIPSかつdts≦DTSであれば、参照確
率bjiの書換えを行なわずに、従って現フレーム番号t
の出力確率bji(xt)をヒドンマルコフモデルから求める
演算を行なわずに、参照確率bjiを読み出して前向き確
率citを求めるので、前向き確率citの誤差を抑えつ
つ、演算量を減少させることができる。
As described above, in the case of skipc≤NSKIPC and dtc≤DTC, the forward probability c it of the current frame number t is equal to the forward probability c i (t-1) of the immediately preceding frame, and the forward probability c it is calculated. And the calculation for obtaining the output probability b ji (x t ) is not performed. See skipc
If> NSKIPC or dtc> DTC, sk
If ips> NSKIPS or dts> DTS, the reference probability is changed after the reference probability b ji is rewritten, and thus the output probability b ji (x t ) of the current frame number t is calculated from the Hidden-Markov model. Read b ji to obtain the forward probability c it . Furthermore, skipc> N
If SKIPC or dtc> DTC, skip
If s ≦ NSKIPS and dts ≦ DTS, the reference probability b ji is not rewritten, and accordingly the current frame number t
The reference probability b ji is read out to obtain the forward probability c it without performing the operation of obtaining the output probability b ji (x t ) of the forward probability c it from the Hidden Markov model. Therefore, the error of the forward probability c it is suppressed and the amount of calculation is reduced. Can be made.

【0101】この場合の前向き確率citの誤差とは、s
kipc≦NSKIPCかつdtc≦DTCの場合、若
しくは、skips≦NSKIPSかつdts≦DTS
の場合に出力確率bji(xt)をヒドンマルコフモデルから
求める演算を行なわずに得た前向き確率citと、そのよ
うな演算の簡略化を行なわずに得た前向き確率citとの
差である。
The error of the forward probability c it in this case is s
If kipc ≦ NSKIPC and dtc ≦ DTC, or skips ≦ NSKIPS and dts ≦ DTS
In the case of, the difference between the forward probability c it obtained without performing the calculation of the output probability b ji (x t ) from the Hidden Markov model and the forward probability c it obtained without such simplification of the calculation. Is.

【0102】閾値DTC、DTSを大きくするに従っ
て、演算の削減量は増えるが、前向き確率citの誤差は
大きくなる。従って実用上望まれる誤差の範囲内で前向
き確率citを求めることができるように、閾値DTC、
DTSの値を定める必要がある。
As the thresholds DTC and DTS are increased, the amount of reduction in calculation increases, but the error in the forward probability c it increases. Therefore, the threshold DTC, so that the forward probability c it can be obtained within the error range practically desired,
It is necessary to determine the value of DTS.

【0103】[0103]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

<請求項1の発明の第一実施形態>図1は請求項1の発
明の第一実施形態の実施に用いて好適な音声認識装置の
構成例を示す機能ブロック図である。
<First Embodiment of Invention of Claim 1> FIG. 1 is a functional block diagram showing a configuration example of a speech recognition apparatus suitable for use in implementing the first embodiment of the invention of Claim 1.

【0104】同図に示す音声認識装置10は、辞書部1
2、音響処理部14、音声区間検出部16、照合部18
及び参照情報記憶部20を備える。
The voice recognition apparatus 10 shown in FIG.
2, sound processing unit 14, voice section detection unit 16, collation unit 18
And a reference information storage unit 20.

【0105】辞書部12は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部20は、基準フレー
ム番号qsと参照確率bjiとを格納する。
The dictionary unit 12 stores a plurality of Hidden Markov models prepared for each category as standard patterns for recognition and matching. The reference information storage unit 20 stores the reference frame number qs and the reference probability b ji .

【0106】音響処理部14は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部16は、入力音声信号から音声区間を検
出する。
The sound processing section 14 extracts a voice feature vector from the input voice signal for each frame of a fixed time width.
The voice section detection unit 16 detects a voice section from the input voice signal.

【0107】照合部18は、請求項1の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
The collating unit 18 implements the first embodiment of the invention of claim 1, and is a time series x 1 and x 2 of the voice feature vectors extracted from the start frame to the end frame of the voice section. , ..., The likelihood ln {P (x 1 , x 2 , ..., x T )} between x T and the Hidden Markov model is
The category given to the Hidden Markov model that has been obtained using the following equations (1) to (3) and has the maximum likelihood is used as the recognition result for the voice signal in the voice section.

【0108】[0108]

【数5】 (Equation 5)

【0109】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部20に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次ぎの如くして順次に求める。
However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that the initial state is S i in the Hidden Markov model a ji : Hidden Markov model At the state S j to the state S i in the above, x t : the speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, and the first frame corresponds to the speech section). The start frame and the T-th frame represent the end frame of the speech section) b ji (x t ): speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t to the state S i * i: State number i given to the state S i that is the final state in the Hidden Markov model When storing the likelihood, it is stored in the reference information storage unit 20. Using the given reference probability b ji , the forward probability c it in each case of t = 1, 2, ..., T is sequentially obtained as follows.

【0110】(1).t=1のときは、基準フレーム番
号qsを1に初期化すると共に、全てのj、iについ
て、出力確率bji(xt)をヒドンマルコフモデルから求め
当該出力確率bji(xt)を参照確率bjiの初期値として書
き込み、参照確率bjiの書込み終了後に各参照確率bji
を読み出して前向き確率citを求める処理(1A)と、
処理(1A)の終了後、現フレーム番号tに1を加算す
る処理(1B)とを行なう。
(1). When the t = 1, is initialized to 1 reference frame number qs, all j, for i, the output probability b ji the (x t) determined from the hidden Markov model the output probability b ji the (x t) The reference probability b ji is written as an initial value, and each reference probability b ji is written after the reference probability b ji is written.
And a process (1A) for obtaining the forward probability c it ,
After the end of the process (1A), a process (1B) of adding 1 to the current frame number t is performed.

【0111】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と基準フレーム番号qs
の音声特徴ベクトルxqsとの間の距離dtsを閾値DT
Sと比較し、当該比較結果がdts>DTSとなる場合
に、基準フレーム番号qsを現フレーム番号tに書き換
えると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求めて参照確率bjiを当該
出力確率bji(xt)に書き換え、参照確率bjiの書換え終
了後に各参照確率bjiを読み出して前向き確率citを求
め、当該比較結果がdts≦DTSとなる場合に、参照
確率bjiの書き換えを行なわずに各参照確率bjiを読み
出して前向き確率citを求める処理(1C)と、処理
(1C)の終了後、現フレーム番号tに1を加算する処
理(1D)とを行なう。
(2). When 2 ≦ t ≦ T, the voice feature vector x t of the current frame number t and the reference frame number qs
Of the voice feature vector x qs of the
When S is compared with S and the comparison result is dts> DTS, the reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) for all j and i.
From the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), each reference probability b ji is read out after the reference probability b ji is rewritten, and the forward probability c it is calculated. If There where the dts ≦ DTS, without rewriting of the reference probability b ji reads each reference probability b ji seek forward probability c it processing (1C), after the processing (1C), the current frame number The process of adding 1 to t (1D) is performed.

【0112】図2はヒドンマルコフモデルの説明に供す
る図である。辞書部12に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部12に格納する。
FIG. 2 is a diagram for explaining the Hidden Markov Model. Hidden Markov Model (hereinafter, HMM) stored in the dictionary unit 12 is
Voice recognition Represents one unit of voice signal. One unit of speech recognition can be a word unit, a phoneme unit, or another unit, but here, it is a word unit. A plurality of HMMs are prepared for each category z, and the HMMs and the categories z are associated with each other and stored in the dictionary unit 12.

【0113】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
The HMM has a set 1 of states consisting of a total of I states S 1 to S I and a set 2 of speech feature vectors x.
, A set 3 of state transition probabilities a ji, a set 4 of output probabilities b ji (x), a set 5 of initial state probabilities Φ i , and a set 6 of final states F. However,

【0114】[0114]

【数6】 (Equation 6)

【0115】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。
I: i = 1, 2, ..., I j: j = 1, 2, ..., J a ji : Probability of transition from state S j to state S i b ji (x): state S j probability speech feature vector x is output in transition to state S i from .PHI i: initial state in the example of the probability for example FIG. 2 is a S i, a 12 state from the state S 1 is S 2
Transitions to probability and b 12 (x) The probability, speech feature vector x is output when a transition from the state S 1 to state S 2 is a 22 probability and b 22 transitions from state S 2 to state S 2 is
(x) represents the probability that the audio feature vector x is output when a transition from the state S 2 to state S 2.

【0116】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
The sets 1 to 6 for defining the HMM are individually obtained for each category z by a statistical method. That is, various voice signals are collected as voice signals corresponding to the category z, for example, voice signals are collected by age or sex, or voice signals having different voicing methods are collected.
Sets 1 to 6 expressing the statistical properties of these audio signals are obtained.

【0117】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
The output probability b ji (x) is expressed by using a non-correlated mixed normal distribution consisting of a plurality of normal distributions that are uncorrelated with each other, and each of these normal distributions is a function of the voice feature vector x. There is. The decorrelated mixed normal distribution has the advantage of being easy to handle mathematically and having high expressiveness.

【0118】次に音声認識装置10の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
Next, the operation of the voice recognition apparatus 10 will be described, and the flow of processing of the voice recognition method of this embodiment will be specifically described.

【0119】音響処理部14は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
The sound processing section 14 uses the input voice signal to output a voice feature vector x t = (x t 1, x t 2, ...) For each frame.
,, x t p) are extracted. Where p is the voice feature vector x
order and x t 1 to x t p to t represents a vector component of the speech feature vector x t. t is a number given to the frame from which the voice feature vector x t is extracted. HM described later
At the stage of matching with M, the frames are rewritten in ascending order with the frame number t of the starting frame of the voice section as 1, but at the time of the acoustic processing, the frame number t may be added so that each frame can be identified.

【0120】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
As the vector component of the voice feature vector x t , for example, the one obtained from each filter output when the input voice signal is input to the band filter group consisting of a plurality of band pass filters having different center frequencies, the input voice Power spectrum component obtained by Fourier analysis of the signal,
Alternatively, the LPC cepstrum coefficient obtained by the linear prediction analysis, that is, the LPC analysis of the input speech signal can be used. Here, an example of extracting the voice feature vector x t using a bandpass filter group will be described.

【0121】音響処理部14は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部14は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
The acoustic processing section 14 converts the input audio signal from an analog signal to a digital signal, and outputs the converted input audio signal through a band filter group to a frequency band (channel) corresponding to each band pass filter. Separated into signal components,
The total number p of signal components x1 ...
Get xp. Next, the acoustic processing unit 14 rectifies the signal component x1 and obtains an average value of the rectified signal component x1 (absolute value of the signal component x1) in frame units. This average value is obtained by dividing the rectified signal component x1 by the time width of one frame. The average value of the signal component x1 obtained in the t-th frame is extracted as component x t 1 of the audio feature vector x t. Similarly, from the remaining signal components x2 ~Xp, it extracts the component x t 2~x t p of a speech feature vector x t.

【0122】次に音声区間検出部16は、音響処理部1
4からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
Next, the voice section detecting section 16 includes the sound processing section 1
Based on the voice feature vector x t from 4, the start frame and the end frame of the voice section are detected, and the section information indicating which frame is the start frame and the end frame of the voice section is generated. The voice section is a section in which a voice signal for one unit of voice recognition is included here.

【0123】照合部18は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部16から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
The collation unit 18 inputs the section information and the speech feature vector x t from the speech section detection unit 16, and the time series x of the speech feature vector x t extracted from the start frame to the end frame of the speech section. Generate 1 , x 2 , ..., X T. At this time, the frame number t of the start frame is set to 1, and the frame numbers t from the start frame to the end frame of the voice section are rewritten in ascending order.

【0124】そして照合部18はベクトル時系列x1
2 、……、xT と辞書部12に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部12の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
The collation unit 18 then calculates the vector time series x 1 ,
x 2 , ..., X T and the HMM stored in the dictionary unit 12
And the likelihood ln {P (x 1 , x 2 , ..., X T )} between
The category z given to each HMM of the dictionary unit 12 is obtained individually, and the category z assigned to the HMM having the maximum likelihood is output as a recognition result.

【0125】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
Here, P (x 1 , x represented by the equation (1)
2 , ..., x T ) is the vector time series x in the HMM.
It is the probability that 1 , x 2 , ..., x T will appear.

【0126】[0126]

【数7】 (Equation 7)

【0127】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
The c iT in the equation (1) starts transition from the initial state in the HMM and the vector time series x 1 , x 2 , ...
..., the forward probability of outputting x T to reach the state S i , * i is i (the number i assigned to the state S i belonging to the final state F) that satisfies S i εF, and thus i = The maximum forward probability c iT among the forward probabilities c iT of * i is defined as the appearance probability P (x 1 , x 2 , ..., X T ).

【0128】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
The forward probability c iT is approximately obtained by the Viterbi algorithm using the recurrence formulas shown in equations (2) to (3). c i0 = Ф i (2)

【0129】[0129]

【数8】 (Equation 8)

【0130】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を前向き確率citとす
る。この計算法はビタビ法と呼ばれる。
In the HMM, there is one or more state transitions that output the voice feature vector x t . Therefore, there is one or a plurality of transition paths from the initial state to output the vector series x 1 to x t to reach the state S i , and in most cases, there are a plurality of transition paths. Therefore, as shown in Expression (3), the maximum c j (t-1) a ji b ji (x of the c j (t-1) a ji b ji (x t ) calculated for each transition path is obtained. Let t ) be the forward probability c it . This calculation method is called the Viterbi method.

【0131】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
The output probability b ji (x t ) in the equation (3) is defined as in the following equation (4).

【0132】[0132]

【数9】 (Equation 9)

【0133】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
However, m = 1, 2, ..., M g jim (x t ): A voice feature vector calculated from the m-th normal distribution in the uncorrelated mixed normal distribution consisting of M normal distributions. Weighting probability of x t The weighting probability g jim (x t ) in the expression (4) is expressed by the following expression (5)-
It is expressed using (7).

【0134】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gijm(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
G jim (x t ) = λ jim b jim (x t ) ... (5) b jim (x t ) = (2π) −p / 2 │ρ jim-1/2 exp {−D jimt 2/2} ...... (6) D jimt 2 = (x t -μ jim) 'ρ jim -1 (x t -μ jim) ...... (7) λ jim: weight b jim of the m-th normal distribution (x t ): Unweighted probability of the speech feature vector x t calculated from the m-th normal distribution ρ jim : Covariance / covariance matrix of the m-th normal distribution μ jim : Mean of the m-th normal distribution Vector D jimt : Mahalabis's general distance (x t −μ jim ) ′: transposed matrix of (x t −μ jim ), which represents the distance between the voice feature vector x t and the m-th normal distribution. Various types of b ji (x t ) can be used, and in addition to the formula (4), for example, a formula defined as the following formula (8) may be used. Equation (8) is the total number M
Number of regular weights probability in the distribution uncorrelated Gaussian Mixture consisting calculated from individual normal distribution g ijm largest weighted probability g jim (x t) of the (x t), the output probability b ji (x t)
It means to detect as.

【0135】[0135]

【数10】 (Equation 10)

【0136】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
Further logarithmic transition probability A ji = ln
(A ji ), logarithmic output probability B ji (x t ) = ln {b
ji (x t )} and the logarithmic forward probability C it = ln
When expressed as (c it ), the likelihoods are modified by modifying equations (1) to (3).
Equations (9) to (11) relating to the calculation of ln {P (x 1 , x 2 , ..., X t )} are obtained.

【0137】[0137]

【数11】 [Equation 11]

【0138】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
Since equations (9) to (11) are recurrence equations of t, the logarithmic forward probability C it when t = 1, 2, ..., T is expressed by the following equations (12) to (12). It can be calculated sequentially as in 16).

【0139】[0139]

【数12】 (Equation 12)

【0140】HMM照合部18は、i=1、2、……I
の全てのiについてt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部12に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
The HMM matching unit 18 uses i = 1, 2, ... I
Logarithmic forward probability C iT of t = T for all i in
, The maximum C iT among the logarithmic forward probabilities C iT with i = * i is calculated as the likelihood ln {P (x 1 , x 2 , ..., X
T )}. For all the HMMs stored in the dictionary unit 12, the likelihood ln {P (x 1 ,
x 2 , ..., x T )} is obtained and the maximum likelihood is obtained.
The category z given to the time series x 1 , x
2 , ..., x T is output as the recognition result for the input voice signal.

【0141】次に請求項1の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
3及び図4はこの1個のHMMに着目した処理の流れを
示す図である。この例では、出力確率bji(xt)、前向き
確率cit及び参照確率bjiをそれぞれ、対数化した出力
確率Bji(xt)、対数化した前向き確率Cit及び対数化し
た参照確率Bjiとし、i=j=1、2、……、Iとして
説明する。
Next, in the first embodiment of the invention of claim 1, time series x 1 , x 2 , ... Of HMM and speech feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. FIG. 3 and FIG. 4 are diagrams showing the flow of processing focusing on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0142】照合部18は、区間情報及び音声特徴ベク
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are input from the speech section detection unit 16, the collation unit 18 sets i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0143】次に照合部18は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collation unit 18 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0144】次に照合部18は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
Next, the collation unit 18 determines that j = 1, 2, ..., J.
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as the initial value of the logarithmic reference probability B ji (S4).

【0145】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
In the reference information storage section 32, j = 1, 2, ...
, J and i = 1, 2, ..., I are respectively provided with storage areas save B ji for storing the reference probabilities B ji . Therefore, the reference information storage unit 32 stores B 11 , B 12 , ...
..., B 1I, B 21, B 22, ......, B 2I, ......, B J1,
B J2 , ..., B JI respectively have J × I storage areas for individually storing. Therefore, in the figure, the reference probability B ji
The process of storing the initial value of is expressed as save B ji = B ji (x 1 ).

【0146】次に照合部18は、基準フレーム番号qs
を現フレーム番号1に初期化し(S5)、然る後、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Ci1を式(11)に従って求める(S6)。
Next, the collation unit 18 determines the reference frame number qs.
Is initialized to the current frame number 1 (S5), and then i =
Logarithmic forward probability C i1 is obtained for all i of 1, 2, ..., I according to equation (11) (S6).

【0147】次に照合部18は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collation unit 18 adds 1 to the current frame number t in order to process the next frame of the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame are compared. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0148】(1−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部18は現フレーム番号tの音声特徴
ベクトルxt と基準フレーム番号qsの音声特徴ベクト
ルxqsとの間の距離dtsを、次式(17)に従って求
める(S9)。
(1-1A: When t≤T in S8) If the current frame number t is equal to or less than the end frame number T in S8, the processing has not been completed for all the frames in the voice section, so the comparison is performed. part 18 a distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t, determined according to the following equation (17) (S9).

【0149】[0149]

【数13】 (Equation 13)

【0150】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部18は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S10)。
However, x t k: vector component of the voice feature vector x t of the current frame number t x qs k: voice feature vector x qs of the reference frame number qs
Next, the matching unit 18 compares the distance dts with the threshold value DTS and determines whether or not these vectors x t and x qs are approximately equal (S10).

【0151】S10で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこで基準フレーム番号qsを現
フレーム番号tに書き換える(S11)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを、当該出
力確率Bji(xt)に書き換える(S12)。この参照確率
jiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S13)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S12で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
[0151] When the S10 by the distance dts exceeds the threshold DTS, the output probability of the speech feature vector x t and the reference frame number qs speech feature vector x qs and does not approximate Thus current frame number t of the current frame number t since B ji (x t) can not be approximated by the reference probability B ji, so that the rewriting of the reference probability B ji. Therefore, the reference frame number qs is rewritten to the current frame number t (S11). After that, j =
, J, and i = 1, 2, ..., I, for all j and i, logarithmic output probabilities B ji (x t ) are obtained according to equations (4) to (7), The reference probability B ji is rewritten to the output probability B ji (x t ) (S12). After the reference probability B ji has been rewritten, each reference probability B ji is read, and i =
Forward probability C it for all i of 1, 2, ..., I
Is calculated according to the equation (11) (S13). After that, the process returns to S7 so as to perform the process for the next frame of the voice section. The process of rewriting the reference probability B ji in S12 is represented as save B ji = B ji (x t ) in the figure.

【0152】この場合のS13で読み出した参照確率B
jiは、S12において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS13では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
Reference probability B read in S13 in this case
ji is the output probability B ji (x t ) of the current frame number t obtained in S12. Therefore, in S13 of this case, the forward probability C is calculated using the output probability B ji (x t ) of the current frame number t.
It will ask for it.

【0153】またS10で距離dtsが閾値DTS以下
である場合には、現フレーム番号tの音声特徴ベクトル
t は基準フレーム番号qsの音声特徴ベクトルxqs
近似的に等しく従って現フレーム番号tの出力確率Bji
(xt)は参照確率Bjiに近似的に等しくなるので、参照確
率Bjiの書換えは行なわないこととなる。そこで出力確
率Bji(xt)を式(4)〜(7)を用いて算出せずに、各
参照確率Bjiを読み出し、i=1、2、……、Iの全て
のiについて、対数化した前向き確率Citを式(11)
に従って求める(S13)。然る後、音声区間の次のフ
レームにつき処理を行なうべくS7の処理に戻る。
If the distance dts is less than or equal to the threshold value DTS in S10, the voice feature vector x t of the current frame number t is approximately equal to the voice feature vector x qs of the reference frame number qs. Output probability B ji
Because (x t) is equal approximately to a reference probability B ji, rewriting of the reference probability B ji becomes not performed. Therefore, the reference probabilities B ji are read out without calculating the output probabilities B ji (x t ) using the equations (4) to (7), and all i of i = 1, 2, ... The forward probability C it which is logarithmized is expressed by the equation (11).
(S13). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0154】この場合のS13で読み出した参照確率B
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xqs) であり、従ってこの場合のS13では、基
準フレーム番号qsの出力確率Bji(xqs) を用いて前向
き確率Citを求めることとなる。
Reference probability B read in S13 in this case
ji is the output probability B ji (x qs ) obtained in the frame of the reference frame number qs. Therefore, in S13 in this case, the forward probability C it is used by using the output probability B ji (x qs ) of the reference frame number qs. Will be asked.

【0155】(1−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
(1-1B: When t> T in S8) When the current frame number t is larger than the frame number T of the end frame in S8, i = 1, 2, ... since finished sought forward probability C iT, wherein i = * i maximum forward probability C iT of the forward probability C iT comprising the following (9), the speech feature vector time series x 1, x 2, ......, x
Likelihood ln {P (x 1 , x 2 , ..., X between T and HMM
T )}, and after that, the process of calculating the likelihood for the HMM is ended (end).

【0156】照合部18は、辞書部12に格納されてい
る全てのHMMについて、各HMM毎に図3、図4に示
すS1〜S13の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
The collation unit 18 obtains the likelihood (forward probability C iT ) by performing the processes of S1 to S13 shown in FIGS. 3 and 4 for all HMMs stored in the dictionary unit 12. , And the category of the HMM having the maximum likelihood, the time series x 1 , x 2 , ... Of the speech feature vector.
, X T are output to a device (not shown) in the next stage as a recognition result for the extracted input voice signal.

【0157】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、距離dts
が閾値DTS以下となる場合に、出力確率Bji(xt)を式
(4)〜(7)から求める演算を行なわずに、前向き確
率Citを求めるので、演算量を大幅に削減できる。しか
もこのような演算の簡略化は、距離dtsが閾値DTS
以下となる場合に行なうので、演算の簡略化を行なって
も、前向き確率Citの誤差を小さくできる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT in the process of obtaining the distance dts
Is less than or equal to the threshold value DTS, the forward probability C it is calculated without performing the calculation of the output probabilities B ji (x t ) from the equations (4) to (7), so that the amount of calculation can be significantly reduced. Moreover, the simplification of such calculation is that the distance dts is the threshold value DTS.
Since it is performed in the following case, the error of the forward probability C it can be reduced even if the calculation is simplified.

【0158】この出願の発明者のシミュレーション結果
によれば、出力確率Bji(xt)を求めるための演算量を、
演算の簡略化を行なわない場合の約1/5となるよう
に、閾値DTSを定めた場合と、演算の簡略化を行なわ
ない場合とで、音声認識の認識精度に顕著な差を生じな
い例が数多く存在した。
According to the simulation result of the inventor of this application, the calculation amount for obtaining the output probability B ji (x t ) is
Example in which there is no significant difference in recognition accuracy of voice recognition between the case where the threshold value DTS is set to be about 1/5 of the case where the calculation is not simplified and the case where the calculation is not simplified There were many.

【0159】<請求項1の発明の第二実施形態>請求項
1の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部18を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
<Second Embodiment of the Invention of Claim 1> As a voice recognition apparatus suitable for carrying out the second embodiment of the invention of claim 1, the collating unit 18 is configured as follows. It is possible to use the voice recognition device 10 having the same configuration as that described above.

【0160】すなわち照合部18は、尤度を求める際
に、参照情報記憶部20に格納してある参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
That is, the collation unit 18 uses the reference probability b ji stored in the reference information storage unit 20 when calculating the likelihood, and the forward probability in each case of t = 1, 2, ..., T. c
It is calculated sequentially as follows.

【0161】(1).t=1のときは、基準フレーム番
号qsを1に、及び、スキップ数skipsを0に初期
化すると共に、全てのj、iについて、出力確率bji(x
t)をヒドンマルコフモデルから求め当該出力確率bji(x
t)を参照確率bjiの初期値として書き込み、参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(1A)と、処理(1A)の終了
後、現現フレーム番号tに1を加算する処理(1B)と
を行なう。
(1). When t = 1, the reference frame number qs is initialized to 1, the skip number skips is initialized to 0, and the output probabilities b ji (x
t ) is calculated from the Hidden Markov model and the output probability b ji (x
t ) is written as the initial value of the reference probability b ji , and the reference probability b
After the writing of ji is finished, a process (1A) of reading out each reference probability b ji to obtain a forward probability c it and a process (1B) of adding 1 to the current frame number t after the process (1A) are completed. .

【0162】(2).2≦t≦Tのときは、スキップ数
skipsを閾値NSKIPSと比較すると共に、現フ
レーム番号tの音声特徴ベクトルxt と基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、当該比較結果がskips>NSK
IPS若しくはdts>DTSとなる場合に、スキップ
数skipsを0に初期化し、及び、基準フレーム番号
qsを現フレーム番号tに書き換えると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求めて参照確率bjiを当該出力確率bji(xt)に
書き換え、この参照確率bjiの書換え終了後に各参照確
率bjiを読み出して前向き確率citを求め、当該比較結
果がskips≦NSKIPSかつdts≦DTSとな
る場合に、スキップ数skipsに1を加算すると共
に、参照確率bjiの書換えを行なわずに各参照確率bji
を読み出して前向き確率citを求める処理(1C)と、
処理(1C)の終了後、現フレーム番号tに1を加算す
る処理(1D)とを行なう。
(2). 2 ≦ t when the ≦ T, together with comparing the number of skips skips a threshold NSKIPS, threshold DTS distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t And the comparison result is skips> NSK.
When IPS or dts> DTS, the skip number skips is initialized to 0, the reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) are set for all j and i. the reference probability b ji determined from hidden Markov models rewritten to the output probability b ji (x t), determine the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji, the comparison result There when the skips ≦ NSKIPS and dts ≦ DTS, as well as adding 1 to the skip number skips, reference probability b ji each reference probability b ji without rewriting the
And a process (1C) for obtaining the forward probability c it ,
After the end of the process (1C), a process (1D) of adding 1 to the current frame number t is performed.

【0163】次に請求項1の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
5及び図6は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
Next, in the second embodiment of the invention as claimed in claim 1, time series x 1 , x 2 , ... Of HMM and voice feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. FIG. 5 and FIG. 6 are diagrams showing the flow of processing focusing on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0164】照合部18は、区間情報及び音声特徴ベク
トルxt を音声区間検出部16から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are input from the speech section detecting section 16, the collation section 18 sets i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0165】次に照合部18は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collation unit 18 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0166】次に照合部18は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した出力
確率Bjiの初期値として書き込む(S4)。
Next, the collation unit 18 uses j = 1, 2, ..., J.
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as an initial value of the logarithmic output probability B ji (S4).

【0167】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理をsave Bji=Bji(x1) と表して
いる。
In the reference information storage section 32, j = 1, 2, ...
, J and i = 1, 2, ..., I, respectively, save B ji is provided as a storage area for storing the reference probability B ji for each j and i. Therefore, the reference information storage unit 32 stores B 11 , B 12 , ...
..., B 1I, B 21, B 22, ......, B 2I, ......, B J1,
B J2 , ..., B JI respectively have J × I storage areas for individually storing. Therefore, in the figure, the reference probability B ji
The process of storing the initial value of is expressed as save B ji = B ji (x 1 ).

【0168】次に照合部18は、基準フレーム番号qs
を現フレーム番号1に初期化すると共にスキップ数sk
ipsを0に初期化する(S5)。然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
Next, the collating section 18 determines the reference frame number qs.
To the current frame number 1 and skip number sk
ips is initialized to 0 (S5). After that, i = 1,
The logarithmic forward probability C i1 is calculated for all i of 2, ..., I according to the equation (11) (S6).

【0169】次に照合部18は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collation unit 18 adds 1 to the current frame number t in order to process the next frame in the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0170】(1−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、スキップ数skipsと閾値NSKIPS
との比較判定を行なう(S9)。
(1-2A: When t ≦ T in S8) If the current frame number t is less than or equal to the end frame number T in S8, the processing has not been completed for all the frames in the voice section, so skip. Number skips and threshold NSKIPS
A comparison judgment with is performed (S9).

【0171】S9でスキップ数skipsが閾値NSK
IPSを越える場合は、現フレーム番号tと基準フレー
ム番号qsとの時間的隔たりが大きく従って誤差が増大
する可能性が高いので誤差を低減すべく、参照確率Bji
の書換えを行なうこととなる。そこでスキップ数ski
psを0に初期化すると共に基準フレーム番号qsを現
フレーム番号tに書き換える(S10)。然る後、j=
1、2、……、J及びi=1、2、……、Iの全ての
j、iについて、対数化した出力確率Bji(xt)を式
(4)〜(7)に従って求め、参照確率Bjiを当該出力
確率Bji(xt)に書き換える(S11)。この参照確率B
jiの書換え終了後に各参照確率Bjiを読み出し、i=
1、2、……、Iの全てのiについて、前向き確率Cit
を式(11)に従って求める(S12)。然る後、音声
区間の次のフレームにつき処理を行なうべくS7の処理
に戻る。尚、S11で参照確率Bjiを書き換える処理
を、図にあってはsave Bji=Bji(xt) と表している。
In S9, the skip number skips is the threshold NSK.
When the IPS is exceeded, the current frame number t and the reference frame number qs have a large time gap, and thus the error is likely to increase. Therefore, in order to reduce the error, the reference probability B ji is reduced.
Will be rewritten. Therefore skip number ski
The ps is initialized to 0 and the reference frame number qs is rewritten to the current frame number t (S10). After that, j =
, J, and i = 1, 2, ..., I, for all j and i, logarithmic output probabilities B ji (x t ) are obtained according to equations (4) to (7), The reference probability B ji is rewritten to the output probability B ji (x t ) (S11). This reference probability B
After the completion of rewriting ji , each reference probability B ji is read, and i =
Forward probability C it for all i of 1, 2, ..., I
Is calculated according to the equation (11) (S12). After that, the process returns to S7 so as to perform the process for the next frame of the voice section. The process of rewriting the reference probability B ji in S11 is represented as save B ji = B ji (x t ) in the figure.

【0172】この場合のS12で読み出した参照確率B
jiは、S11において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS12では、現フ
レーム番号tの出力確率Bji(xt)を用いて前向き確率C
itを求めることとなる。
Reference probability B read in S12 in this case
ji is the output probability B ji (x t ) of the current frame number t obtained in S11. Therefore, in S12 of this case, the forward probability C is calculated using the output probability B ji (x t ) of the current frame number t.
It will ask for it.

【0173】S9でスキップ数skipsが閾値NSK
IPS以下となる場合は、照合部18は、現フレーム番
号tの音声特徴ベクトルxt と基準フレーム番号qsの
音声特徴ベクトルxqsとの間の距離dtsを求め(S1
3)、求めた距離dtsを閾値DTSと比較してこれら
ベクトルxt 及びxqsが近似的に等しいか否かを判定す
る(S14)。
In step S9, the skip number skips is the threshold value NSK.
If the IPS or less, the matching unit 18 obtains the distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t (S1
3) The obtained distance dts is compared with the threshold value DTS to determine whether or not these vectors x t and x qs are approximately equal (S14).

【0174】S14で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
基準フレーム番号qsの音声特徴ベクトルxqsとが近似
せず従って現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できないので、参照確率Bjiの書き換え
を行なうこととなる。そこでS10〜S12の処理を行
ない、然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
[0174] When the S14 by the distance dts exceeds the threshold DTS, the output probability of the speech feature vector x t and the reference frame number qs speech feature vector x qs and does not approximate Thus current frame number t of the current frame number t since B ji (x t) can not be approximated by the reference probability B ji, so that the rewriting of the reference probability B ji. Therefore, the processes of S10 to S12 are performed, and thereafter, the process returns to the process of S7 to perform the process for the next frame of the voice section.

【0175】S14で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は基準フレーム番号qsの音声特徴ベクトルxqsに近似
的に等しく従って現フレーム番号tの出力確率Bji(xt)
は参照確率Bjiに近似的に等しくなるので、参照確率B
jiの書換えは行なわないこととなる。そこでスキップ数
skipsに1を加算してスキップ数skipsをカウ
ントアップし(S15)、然る後、出力確率Bji(xt)を
式(4)〜(7)を用いて算出せずに、参照確率Bji
読み出し、i=1、2、……、Iの全てのiについて、
対数化した前向き確率Citを式(11)に従って求める
(S12)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
If the distance dts is less than or equal to the threshold value DTS in S14, the voice feature vector x t of the current frame number t.
Is approximately equal to the speech feature vector x qs of the reference frame number qs, and thus the output probability B ji (x t ) of the current frame number t
Is approximately equal to the reference probability B ji , the reference probability B
ji will not be rewritten. Therefore, 1 is added to the skip number skips to count up the skip number skips (S15), and then the output probability B ji (x t ) is not calculated using the equations (4) to (7), Read out the reference probability B ji, and for all i of i = 1, 2, ..., I,
The logarithmic forward probability C it is calculated according to the equation (11) (S12). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0176】この場合のS12で読み出した参照確率B
jiは、基準フレーム番号qsのフレームで求めた出力確
率Bji(xt)であり、従ってこの場合のS12では、基準
フレーム番号qsの出力確率Bji(xqs) を用いて前向き
確率Citを求めることとなる。
Reference probability B read in S12 in this case
ji is the output probability B ji (x t ) obtained in the frame of the reference frame number qs. Therefore, in S12 in this case, the forward probability C it is used by using the output probability B ji (x qs ) of the reference frame number qs. Will be asked.

【0177】(1−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトルの時系列x1 、x2 、……、
T とHMMとの間の尤度ln{P(x1 、x2 、……、
T )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
(1-2B: When t> T in S8) When the current frame number t is larger than the frame number T of the end frame in S8, i = 1, 2, ... since finished sought forward probability C iT, the maximum forward probability C iT of i = * i consisting forward probability C iT according to equation (9), the time series x 1, x 2 of the speech feature vector, ...,
Likelihood ln {P (x 1 , x 2 , ..., Between x T and HMM
x T )}, and after that, the process of calculating the likelihood for the HMM is terminated (end).

【0178】照合部18は、辞書部12に格納されてい
る全てのHMMについて、各HMM毎に、図5、図6に
示すS1〜S15の処理を行なって尤度(前向き確率C
iT)を求め、求めた尤度のうち最大の尤度を検出する。
そして最大の尤度を得たHMMのカテゴリを、当該音声
特徴ベクトルの時系列x1 、x2 、……、xT を抽出し
た入力音声信号に対する認識結果として、次段の装置
(図示せず)へ出力する。
The collating unit 18 performs the processes of S1 to S15 shown in FIGS. 5 and 6 for all the HMMs stored in the dictionary unit 12 to calculate the likelihood (forward probability C).
iT ), and the maximum likelihood is detected from the calculated likelihoods.
The largest category of likelihood the resulting HMM, time series x 1, x 2 of the audio feature vector, ..., as the recognition result for the input speech signal obtained by extracting the x T, without the next stage of the device (shown ).

【0179】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、スキップ数
skipsが閾値NSKIPS以下となりかつ距離dt
sが閾値DTS以下となる場合に、出力確率Bji(xt)を
式(4)〜(7)から求める演算を行なわずに、前向き
確率Citを求めるので、大幅に演算量を削減できる。し
かもこのような演算の簡略化は、スキップ数skips
が閾値NSKIPS以下となりかつ距離dtsが閾値D
TS以下となる場合に行なうので、演算の簡略化を行な
っても、前向き確率Citの誤差を小さくできる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT , the number of skips skips becomes equal to or less than the threshold value NSKIPS and the distance dt
When s is equal to or less than the threshold value DTS, the forward probability C it is calculated without performing the calculation of the output probability B ji (x t ) from the equations (4) to (7), so that the calculation amount can be significantly reduced. . Moreover, such a simplification of the calculation is based on the skip number skips.
Is less than or equal to the threshold NSKIPS and the distance dts is the threshold D
Since it is performed when it is equal to or smaller than TS, the error of the forward probability C it can be reduced even if the calculation is simplified.

【0180】請求項1の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
The invention of claim 1 can be applied to all speech recognition apparatuses that perform matching processing in frame units.

【0181】<請求項3の発明の第一実施形態>図7は
請求項3の発明の第一実施形態の実施に用いて好適な音
声認識装置の構成例を示す機能ブロック図である。
<First Embodiment of Invention of Claim 3> FIG. 7 is a functional block diagram showing an example of the configuration of a voice recognition apparatus suitable for carrying out the first embodiment of the invention of Claim 3.

【0182】同図に示す音声認識装置22は、辞書部2
4、音響処理部26、音声区間検出部28、照合部30
及び参照情報記憶部32を備える。
The voice recognition device 22 shown in FIG.
4, sound processing unit 26, voice section detection unit 28, collation unit 30
And a reference information storage unit 32.

【0183】辞書部24は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。ヒドンマルコフモデルにおいて音声
特徴ベクトルxの出力確率bji(x) を与える状態遷移の
遷移元となる状態Sj には、定常部及び過渡部のいずれ
かの種別sを付与してある。参照情報記憶部32は、定
常部基準フレーム番号qs、過渡部基準フレーム番号q
tと、参照確率bjiとを格納する。
The dictionary unit 24 stores a plurality of Hidden Markov models prepared for each category as standard patterns for recognition and matching. In the Hidden Markov model, the state S j that is the transition source of the state transition that gives the output probability b ji (x) of the voice feature vector x is given a type s of either a stationary part or a transient part. The reference information storage unit 32 stores the reference frame number qs for the stationary part and the reference frame number q for the transient part.
Store t and the reference probability b ji .

【0184】音響処理部26は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部28は、入力音声信号から音声区間を検
出する。
The sound processing unit 26 extracts a voice feature vector from the input voice signal for each frame of a fixed time width.
The voice section detection unit 28 detects a voice section from the input voice signal.

【0185】照合部30は、請求項3の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
The collating unit 30 implements the first embodiment of the invention of claim 3, and is a time series x 1 and x 2 of the voice feature vectors extracted from the start frame to the end frame of the voice section. , ..., The likelihood ln {P (x 1 , x 2 , ..., x T )} between x T and the Hidden Markov model is
The category given to the Hidden Markov model that has been obtained using the following equations (1) to (3) and has the maximum likelihood is used as the recognition result for the voice signal in the voice section.

【0186】[0186]

【数14】 [Equation 14]

【0187】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部32に格納されて
いる参照確率bjiを用いて、t=1、2、……、Tの各
場合の前向き確率citを、次の如くして順次に求める。
However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that the initial state is S i in the Hidden Markov model a ji : Hidden Markov model At the state S j to the state S i in the above, x t : the speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, and the first frame corresponds to the speech section). The start frame and the T-th frame represent the end frame of the speech section) b ji (x t ): speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t to the state S i * i: State number i assigned to the state S i that is the final state in the Hidden Markov model When storing the likelihood, it is stored in the reference information storage unit 32. The forward probability c it in each case of t = 1, 2, ..., T is sequentially obtained using the reference probability b ji that has been described as follows.

【0188】(1).t=1のときは、定常部基準フレ
ーム番号qs、過渡部基準フレーム番号qtをそれぞれ
1に初期化すると共に、全てのj、iについて、出力確
率bji(xt)をヒドンマルコフモデルから求め当該出力確
率bji(xt)を参照確率bjiの初期値として書き込み、該
参照確率bjiの書込み終了後に各参照確率bjiを読み出
して前向き確率citを求める処理(2A)を行なう。そ
して処理(2A)の終了後、現フレーム番号tに1を加
算する処理(2B)を行なう。
(1). When t = 1, the stationary part reference frame number qs and the transient part reference frame number qt are initialized to 1, and the output probabilities b ji (x t ) are obtained from the Hidden Markov model for all j and i. writing the output probability b ji the (x t) as the initial value of the reference probability b ji, performs processing for calculating the forward probability c it reads each reference probability b ji after completion of writing of the reference probability b ji the (2A). After the processing (2A) is completed, processing (2B) for adding 1 to the current frame number t is performed.

【0189】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と定常部基準フレーム番
号qsの音声特徴ベクトルqsとの間の距離dtsを閾値
DTSと比較し、当該比較結果がdts>DTSとなる
場合に、定常部基準フレーム番号qsを現フレーム番号
tに書き換える処理(2C)と、現フレーム番号tの音
声特徴ベクトルxt と過渡部基準フレーム番号qtの音
声特徴ベクトルxqtとの間の距離dttを閾値DTTと
比較し、当該比較結果がdtt>DTTとなる場合に、
過渡部基準フレーム番号qtを現フレーム番号tに書き
換える処理(2D)とを行ない、これら処理(2C)及
び(2D)の終了後、j=1、2、……、Jの各j毎
に、出力確率bji(xt)を与える状態遷移の遷移元Sj
付与されている種別sを判定する処理(2E)を行な
う。
(2). When the 2 ≦ t ≦ T, the distance dts between the speech feature vector qs speech feature vector x t and the constant part reference frame number qs of the current frame number t is compared with a threshold DTS, the comparison result is dts> if the DTS, the process of rewriting the constant part reference frame number qs to the current frame number t and (2C), the speech feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t If the distance dtt is compared with the threshold value DTT and the comparison result is dtt> DTT,
A process (2D) for rewriting the transition part reference frame number qt to the current frame number t is performed, and after completion of these processes (2C) and (2D), j = 1, 2, ... A process (2E) of determining the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ) is performed.

【0190】そして処理(2E)の種別判定結果が定常
部であった場合に、処理(2C)の比較結果がdts>
DTSであれば、当該種別判定結果を得たjに関しては
全てのiについて、出力確率bji(xt)をヒドンマルコフ
モデルから求めて参照確率bjiを当該出力確率bji(xt)
に書き換え、処理(2E)の種別判定結果が定常部であ
った場合に、処理(2C)の比較結果がdts≦DTS
であれば、当該種別判定結果を得たjに関しては参照確
率bjiの書換えを行なわず、処理(2E)の種別判定結
果が過渡部であった場合に、処理(2D)の比較結果が
dtt>DTTであれば、当該種別判定結果を得たjに
関しては全てのiについて、出力確率bji(xt)をヒドン
マルコフモデルから求めて参照確率bjiを当該出力確率
ji(xt)に書き換え、処理(2E)の種別判定結果が過
渡部であった場合に、処理(2D)の比較結果がdtt
≦DTTであれば、当該種別判定結果を得たjに関して
は参照確率bjiの書換えを行なわない処理(2F)を行
なう。
When the type determination result of the process (2E) is the stationary part, the comparison result of the process (2C) is dts>
In the case of DTS, for j for which the type determination result is obtained, the output probability b ji (x t ) is obtained from the Hidden Markov model for all i, and the reference probability b ji is the output probability b ji (x t ).
When the type determination result of the process (2E) is a stationary part, the comparison result of the process (2C) is dts ≦ DTS.
In this case, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and when the type determination result of the process (2E) is the transition part, the comparison result of the process (2D) is dtt. > DTT, for j for which the type determination result is obtained, for all i, output probabilities b ji (x t ) are obtained from Hidden Markov models and reference probabilities b ji are output probabilities b ji (x t ). When the type determination result of the process (2E) is a transition part, the comparison result of the process (2D) is changed to dtt.
If ≦ DTT, a process (2F) of not rewriting the reference probability b ji is performed for j that has obtained the type determination result.

【0191】そしてj=1、2、……、Jの個々のj毎
に処理(2F)を行ない、全てのjにつき処理(2F)
を終了したら、各参照確率bjiを読み出して前向き確率
itを求める処理(2G)を行なう。処理(2G)の終
了後、現フレーム番号tに1を加算する処理(2H)を
行なう。
Then, the processing (2F) is performed for each j of j = 1, 2, ..., J, and the processing (2F) is performed for all j.
After the above, the reference probability b ji is read out and the forward probability c it is calculated (2G). After the processing (2G) is completed, the processing (2H) of adding 1 to the current frame number t is performed.

【0192】図8はヒドンマルコフモデルの説明に供す
る図である。辞書部24に格納されているヒドンマルコ
フモデル(Hidden Markov Model 。以下、HMM)は、
音声認識一単位分の音声信号を表現する。音声認識の一
単位は、単語単位、音素単位或はそのほかとすることが
できるが、ここでは単語単位とする。各カテゴリz毎に
複数のHMMを用意し、HMMとカテゴリzとを相対応
付けて辞書部24に格納する。
FIG. 8 is a diagram for explaining the Hidden Markov Model. The Hidden Markov Model (hereinafter, HMM) stored in the dictionary unit 24 is
Voice recognition Represents one unit of voice signal. One unit of speech recognition can be a word unit, a phoneme unit, or another unit, but here, it is a word unit. A plurality of HMMs are prepared for each category z, and the HMM and the category z are associated with each other and stored in the dictionary unit 24.

【0193】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。そしてHMMにおいて出力
確率bji(x) を与える状態遷移の遷移元Sj に対して
は、定常部及び過渡部のいずれかの種別sを付与してあ
る。但し、
The HMM has a set 1 of states consisting of a total of I states S 1 to S I and a set 2 of speech feature vectors x.
, A set 3 of state transition probabilities a ji, a set 4 of output probabilities b ji (x), a set 5 of initial state probabilities Φ i , and a set 6 of final states F. In the HMM, the transition source S j of the state transition that gives the output probability b ji (x) is given a type s of either a steady part or a transient part. However,

【0194】[0194]

【数15】 (Equation 15)

【0195】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図2の例において、a12は状態S1 から状態S2
に遷移する確率及びb12(x) は状態S1 から状態S2
遷移したとき音声特徴ベクトルxが出力される確率、ま
たa22は状態S2 から状態S2 に遷移する確率及びb22
(x) は状態S2から状態S2 に遷移したとき音声特徴ベ
クトルxが出力される確率を表す。さらに出力確率b11
(x) を与える状態遷移S1 →S1 の遷移元S1 に対して
は、種別sとして過渡部が、また出力確率b12(x) を与
える状態遷移S1 →S2 に対しては、種別sとして定常
部が付与してある。
I: i = 1, 2, ..., I j: j = 1, 2, ..., J a ji : Probability of transition from state S j to state S i b ji (x): state S j probability speech feature vector x is output in transition to state S i from .PHI i: initial state in the example of the probability for example FIG. 2 is a S i, a 12 state from the state S 1 is S 2
Transitions to probability and b 12 (x) The probability, speech feature vector x is output when a transition from the state S 1 to state S 2 is a 22 probability and b 22 transitions from state S 2 to state S 2 is
(x) represents the probability that the audio feature vector x is output when a transition from the state S 2 to state S 2. Furthermore, the output probability b 11
For the transition source S 1 of the state transition S 1 → S 1 that gives (x), the transient part as the type s, and for the state transition S 1 → S 2 that gives the output probability b 12 (x), , The stationary part is added as the type s.

【0196】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。この際、出力確率bji(x) を与える状態遷移が音
声信号の定常部及び過渡部のいずれであるかも調べて、
当該状態遷移の遷移元Sj に対し定常部及び過渡部のい
ずれかの種別sを付与する。
Sets 1 to 6 for defining the HMM are individually obtained for each category z by a statistical method. That is, various voice signals are collected as voice signals corresponding to the category z, for example, voice signals are collected by age or sex, or voice signals having different voicing methods are collected.
Sets 1 to 6 expressing the statistical properties of these audio signals are obtained. At this time, it is also checked whether the state transition that gives the output probability b ji (x) is the steady part or the transient part of the audio signal,
A type s of either a steady part or a transient part is given to the transition source S j of the state transition.

【0197】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
The output probability b ji (x) is expressed by using a non-correlated mixed normal distribution consisting of a plurality of normal distributions that are uncorrelated with each other, and each of these normal distributions is a function of the speech feature vector x. There is. The decorrelated mixed normal distribution has the advantage of being easy to handle mathematically and having high expressiveness.

【0198】次に音声認識装置22の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
Next, the operation of the voice recognition device 22 will be described, and the flow of processing of the voice recognition method of this embodiment will be specifically described.

【0199】音響処理部26は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
The sound processing unit 26, from the input speech signal, the speech feature vector x t = (x t 1, x t 2, ...) For each frame.
,, x t p) are extracted. Where p is the voice feature vector x
order and x t 1 to x t p to t represents a vector component of the speech feature vector x t. t is a number given to the frame from which the voice feature vector x t is extracted. HM described later
At the stage of matching with M, the frames are rewritten in ascending order with the frame number t of the starting frame of the voice section as 1, but at the time of the acoustic processing, the frame number t may be added so that each frame can be identified.

【0200】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
The vector component of the voice feature vector x t is, for example, one obtained from each filter output when an input voice signal is input to a band filter group consisting of a plurality of band pass filters having different center frequencies, or input voice signals. Power spectrum component obtained by Fourier analysis of the signal,
Alternatively, the LPC cepstrum coefficient obtained by the linear prediction analysis, that is, the LPC analysis of the input speech signal can be used. Here, an example of extracting the voice feature vector x t using a bandpass filter group will be described.

【0201】音響処理部26は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部26は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
The acoustic processing unit 26 converts the input audio signal from an analog signal to a digital signal, and outputs the converted input audio signal through a band filter group to a frequency band (channel) corresponding to each band pass filter. Separated into signal components,
The total number p of signal components x1 ...
Get xp. Next, the acoustic processing unit 26 rectifies the signal component x1 and obtains an average value of the rectified signal component x1 (absolute value of the signal component x1) in frame units. This average value is obtained by dividing the rectified signal component x1 by the time width of one frame. The average value of the signal component x1 obtained in the t-th frame is extracted as component x t 1 of the audio feature vector x t. Similarly, from the remaining signal components x2 ~Xp, it extracts the component x t 2~x t p of a speech feature vector x t.

【0202】次に音声区間検出部28は、音響処理部2
6からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
Next, the voice section detecting section 28 uses the sound processing section 2
Based on the voice feature vector x t from 6, the start frame and the end frame of the voice section are detected, and the section information indicating which frame is the start frame and the end frame of the voice section is generated. The voice section is a section in which a voice signal for one unit of voice recognition is included here.

【0203】照合部30は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部28から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
The collating unit 30 inputs the section information and the voice feature vector x t from the voice section detecting unit 28, and the time series x of the voice feature vector x t extracted from the start frame to the end frame of the voice section. Generate 1 , x 2 , ..., X T. At this time, the frame number t of the start frame is set to 1, and the frame numbers t from the start frame to the end frame of the voice section are rewritten in ascending order.

【0204】そして照合部30はベクトル時系列x1
2 、……、xT と辞書部24に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部24の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
Then, the matching unit 30 calculates the vector time series x 1 ,
x 2 , ..., X T and the HMM stored in the dictionary unit 24
And the likelihood ln {P (x 1 , x 2 , ..., X T )} between
The category z given to each HMM of the dictionary unit 24 is individually obtained, and the category z assigned to the HMM having the maximum likelihood is output as a recognition result.

【0205】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
Here, P (x 1 , x shown in equation (1)
2 , ..., x T ) is the vector time series x in the HMM.
It is the probability that 1 , x 2 , ..., x T will appear.

【0206】[0206]

【数16】 (Equation 16)

【0207】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
C iT in the equation (1) is a vector time series x 1 , x 2 , ...
..., the forward probability of outputting x T to reach the state S i , * i is i (the number i assigned to the state S i belonging to the final state F) that satisfies S i εF, and thus i = The maximum forward probability c iT among the forward probabilities c iT of * i is defined as the appearance probability P (x 1 , x 2 , ..., X T ).

【0208】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
The forward probability c iT is approximately obtained by the Viterbi algorithm using the recurrence formulas shown in the equations (2) to (3). c i0 = Ф i (2)

【0209】[0209]

【数17】 [Equation 17]

【0210】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を、前向き確率cit
する。この計算法はビタビ法と呼ばれる。
In the HMM, there are one or more state transitions that output the voice feature vector x t . Therefore, there is one or a plurality of transition paths from the initial state to output the vector series x 1 to x t to reach the state S i , and in most cases, there are a plurality of transition paths. Therefore, as shown in Expression (3), the maximum c j (t-1) a ji b ji (x of the c j (t-1) a ji b ji (x t ) calculated for each transition path is obtained. Let t ) be the forward probability c it . This calculation method is called the Viterbi method.

【0211】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
The output probability b ji (x t ) in the equation (3) is defined as the following equation (4).

【0212】[0212]

【数18】 (Equation 18)

【0213】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
However, m = 1, 2, ..., M g jim (x t ): A speech feature vector calculated from the m-th normal distribution in the uncorrelated mixed normal distribution consisting of M normal distributions. Weighting probability of x t The weighting probability g jim (x t ) in the expression (4) is expressed by the following expression (5)-
It is expressed using (7).

【0214】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
G jim (x t ) = λ jim b jim (x t ) ... (5) b jim (x t ) = (2π) −p / 2 │ρ jim-1/2 exp {−D jimt 2/2} ...... (6) D jimt 2 = (x t -μ jim) 'ρ jim -1 (x t -μ jim) ...... (7) λ jim: weight b jim of the m-th normal distribution (x t ): Unweighted probability of the speech feature vector x t calculated from the m-th normal distribution ρ jim : Covariance / covariance matrix of the m-th normal distribution μ jim : Mean of the m-th normal distribution Vector D jimt : Mahalabis's general distance (x t −μ jim ) ′: transposed matrix of (x t −μ jim ), which represents the distance between the voice feature vector x t and the m-th normal distribution. Various types of b ji (x t ) can be used, and in addition to the formula (4), for example, a formula defined as the following formula (8) may be used. Equation (8) is the total number M
Number of regular weights probability in the distribution uncorrelated Gaussian Mixture consisting calculated from individual normal distribution g jim largest weighted probability g jim (x t) of the (x t), the output probability b ji (x t)
It means to detect as.

【0215】[0215]

【数19】 [Equation 19]

【0216】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
Further logarithmic transition probability A ji = ln
(A ji ), logarithmic output probability B ji (x t ) = ln {b
ji (x t )} and the logarithmic forward probability C it = ln
When expressed as (c it ), the likelihoods are modified by modifying equations (1) to (3).
Equations (9) to (11) relating to the calculation of ln {P (x 1 , x 2 , ..., X t )} are obtained.

【0217】[0219]

【数20】 (Equation 20)

【0218】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
Since equations (9) to (11) are recurrence equations of t, the logarithmic forward probability C it when t = 1, 2, ... It can be calculated sequentially as in 16).

【0219】[0219]

【数21】 (Equation 21)

【0220】HMM照合部30は、i=1、2、……、
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部24に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
The HMM matching unit 30 uses i = 1, 2, ...,
Logarithmic forward probability C iT of t = T for all i in I
, The maximum C iT among the logarithmic forward probabilities C iT with i = * i is calculated as the likelihood ln {P (x 1 , x 2 , ..., X
T )}. For all the HMMs stored in the dictionary unit 24, the likelihood ln {P (x 1 ,
x 2 , ..., x T )} is obtained and the maximum likelihood is obtained.
The category z given to the time series x 1 , x
2 , ..., x T is output as the recognition result for the input voice signal.

【0221】次に請求項3の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
9〜図11は、この1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
Next, in the first embodiment of the invention of claim 3, time series x 1 , x 2 , ... Of HMM and speech feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. 9 to 11 are diagrams showing the flow of processing focused on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0222】照合部30は、区間情報及び音声特徴ベク
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are inputted from the speech section detecting section 28, the collating section 30 receives i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0223】次に照合部30は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collating unit 30 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0224】次に照合部30は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
Next, the matching unit 30 determines that j = 1, 2, ..., J.
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as the initial value of the logarithmic reference probability B ji (S4).

【0225】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
In the reference information storage section 32, j = 1, 2, ...
, J and i = 1, 2, ..., I are respectively provided with storage areas save B ji for storing the reference probabilities B ji . Therefore, the reference information storage unit 32 stores B 11 , B 12 , ...
..., B 1I, B 21, B 22, ......, B 2I, ......, B J1,
B J2 , ..., B JI respectively have J × I storage areas for individually storing. Therefore, in the figure, the reference probability B ji
The process of storing the initial value of is expressed as save B ji = B ji (x 1 ).

【0226】次に照合部30は、定常部基準フレーム番
号qs、過渡部基準フレーム番号qtをそれぞれ、現フ
レーム番号1に初期化し(S5)、然る後、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Ci1を式(11)に従って求める(S6)。
Next, the collating unit 30 initializes the stationary part reference frame number qs and the transient part reference frame number qt to the current frame number 1 (S5), and after that, i = 1,
The logarithmic forward probability C i1 is calculated for all i of 2, ..., I according to the equation (11) (S6).

【0227】次に照合部30は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collating unit 30 adds 1 to the current frame number t in order to process the next frame of the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame are compared. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0228】(2−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部30は現フレーム番号tの音声特徴
ベクトルxt と定常部基準フレーム番号qsの音声特徴
ベクトルxqsとの間の距離dtsを、次式(17)に従
って求める(S9)。
(2-1A: When t ≦ T in S8) If the current frame number t is equal to or less than the end frame number T in S8, the processing has not been completed for all the frames in the voice section, so the comparison is performed. part 30 a distance dts between the speech feature vector x qs speech feature vector x t and the constant part reference frame number qs of the current frame number t, determined according to the following equation (17) (S9).

【0229】[0229]

【数22】 (Equation 22)

【0230】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :定常部基準フレーム番号qsの音声特徴ベクト
ルxqsのベクトル成分 次に照合部30は、定常部に関わる距離dtsと閾値D
TSとを比較してこれらベクトルxt 及びxqsが近似的
に等しいか否かを判定する(S10)。
However, x t k: vector component of the voice feature vector x t of the current frame number t x qs k: vector component of the voice feature vector x qs of the constant part reference frame number qs Dts and threshold D related to
It is determined whether these vectors x t and x qs are approximately equal by comparing with TS (S10).

【0231】S10で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
定常部基準フレーム番号qsの音声特徴ベクトルxqs
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きいので、定常部基準フレーム番号q
sを現フレーム番号tに書き換えると共に定常部に関わ
る比較結果mode sとして、dts>DTSを表す情報TR
UEを書き込む(S11)。
If the distance dts exceeds the threshold value DTS in S10, the voice feature vector x t of the current frame number t does not approximate to the voice feature vector x qs of the stationary part reference frame number qs, and thus the voice of the current frame number t is Feature vector x
t is the voice feature vector x of the stationary part reference frame number qs
Since the change from qs is large, the reference frame number q
s is rewritten to the current frame number t and the comparison result mode related to the stationary part Information TR representing dts> DTS as s
Write the UE (S11).

【0232】S10で距離dtsが閾値DTS以下とな
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は定常部基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、定常部基準フ
レーム番号qsの書換えは行なわないと共に定常部に関
わる比較結果mode sとして、dts≦DTSを表す情報
FALSE を書き込む(S12)。
If the distance dts is less than or equal to the threshold value DTS in S10, the voice feature vector x t of the current frame number t.
Is the voice feature vector x qs of the stationary part reference frame number qs
Therefore, since the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qs of the stationary part reference frame number qs, the stationary part reference frame number qs is not rewritten and the stationary part reference frame number qs is not rewritten. Comparison result mode related to department Information indicating dts ≦ DTS as s
Write FALSE (S12).

【0233】S11若しくはS12の処理を終了した
ら、次に照合部30は現フレーム番号tの音声特徴ベク
トルxt と過渡部基準フレーム番号qtの音声特徴ベク
トルxqtとの間の距離dttを、次式(18)に従って
求める(S13)。
[0233] Once finished the process of S11 or S12, then matching unit 30 a distance dtt between the speech feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t, the following It is obtained according to the equation (18) (S13).

【0234】[0234]

【数23】 (Equation 23)

【0235】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqtk :過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtのベクトル成分 次に照合部30は、過渡部に関わる距離dttと閾値D
TTとを比較してこれらベクトルxt 及びxqtが近似的
に等しいか否かを判定する(S14)。
However, x t k: vector component of the voice feature vector x t of the current frame number t x qt k: vector component of the voice feature vector x qt of the transition part reference frame number qt Next, the matching unit 30 determines the transition part. Distance dtt and threshold D related to
It is compared with TT to determine whether these vectors x t and x qt are approximately equal (S14).

【0236】S14で距離dttが閾値DTTを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
過渡部基準フレーム番号qtの音声特徴ベクトルxqt
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きいので、過渡部基準フレーム番号q
tを現フレーム番号tに書き換えると共に過渡部に関わ
る比較結果mode tとして、dtt>DTTを表す情報TR
UEを書き込む(S15)。
If the distance dtt exceeds the threshold value DTT in S14, the voice feature vector x t of the current frame number t is not approximated to the voice feature vector x qt of the transition part reference frame number qt, and thus the voice of the current frame number t is Feature vector x
t is the speech feature vector x of the transition part reference frame number qt
Since the change from qt is large, the reference frame number of the transition part q
t is rewritten to the current frame number t and the comparison result mode related to the transient part Information TR representing dtt> DTT as t
Write the UE (S15).

【0237】S14で距離dttが閾値DTT以下とな
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しくなり従って現フレーム番号tの音声特
徴ベクトルxt は過渡部基準フレーム番号qtの音声特
徴ベクトルxqtからの変化が小さいので、過渡部基準フ
レーム番号qtの書換えは行なわないと共に過渡部に関
わる比較結果mode tとして、dtt≦DTTを表す情報
FALSE を書き込む(S16)。
If the distance dtt becomes less than or equal to the threshold value DTT in S14, the voice feature vector x t of the current frame number t.
Is the speech feature vector x qt of the reference frame number qt
Therefore, since the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qt of the reference frame number qt of the transient part, the transition reference frame number qt of the transient part is not rewritten and the transient reference frame number qt is not changed. Comparison result mode related to department Information representing dtt ≦ DTT as t
FALSE is written (S16).

【0238】S15若しくはS16の処理を終了した
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj
付与されている番号)を初期値1に設定し(S17)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S18)。
[0238] Once finished the step S15 or S16, then matching unit 30, the transition number j of the original S j (number j is a number that is given to the transition source S j state transition in hidden Markov models) Initial and Set the value to 1 (S17),
Then, it is determined whether or not the number j of the transition source S j exceeds the maximum number J (J = I here) (S18).

【0239】S18でj≦Jであれば、次に照合部30
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S19)。
If j ≦ J in S18, the collating unit 30
Determines whether the type s assigned to the transition source S j is a steady part or a transient part (S19).

【0240】S19の種別判定結果が定常部である場合
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わる距離dtsが閾値DTSを越
えていたか否かを判定する(S20)。
If the type determination result in S19 is the stationary part, the collating unit 30 next compares the comparison result mode related to the stationary part. By referring to s, it is determined whether or not the distance dts related to the stationary part exceeds the threshold value DTS (S20).

【0241】S20で比較結果mode sがdts>DTS
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt が定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
尚、S21で参照確率Bjiを書き換える処理を、図にあ
ってはsave Bji=Bji(xt) と表している。
The comparison result mode in S20 s is dts> DTS
If the information TRUE indicating that the current frame number is t, the voice feature vector x t of the current frame number t is the stationary part reference frame number q
the change from speech feature vector x qs speech feature vector x t is the constant part reference frame number qs of s speech feature vector x qs not approximate the thus current frame number t is large, the output probability B of the current frame number t ji (x t ) is the reference probability B
It cannot be approximated by ji . Therefore, the matching unit 30 uses j = 1, 2,
.., J and i = 1, 2, ..., For all j and i of I, logarithmicized output probabilities B ji (x t ) are expressed by equations (4) to (7).
According to the reference probability B ji , and the output probability B ji (x t )
(S21). Next, the collation unit 30 adds 1 to the number j of the transition source S j in order to process the next number j (S22), and thereafter performs the process of S18.
The process of rewriting the reference probability B ji in S21 is represented by save B ji = B ji (x t ) in the figure.

【0242】S20で比較結果mode sがdts≦DTS
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は定常部基準フレーム番号
qsの音声特徴ベクトルxqsに近似的に等しく従って現
フレーム番号tの音声特徴ベクトルxt は定常部基準フ
レーム番号qsの音声特徴ベクトルxqsからの変化が小
さいので、現フレーム番号tの出力確率Bji(xt)は参照
確率Bjiで近似できる。そこで照合部30は、S21の
処理を行なわずに、従って出力確率Bji(xt)を式(4)
〜(7)に従って求める処理も参照確率Bjiを書き換え
る処理も行なわずに、次の番号jにつき処理を行なうべ
く、遷移元Sj の番号jに1を加算し(S22)、然る
後、S18の処理を行なう。
The comparison result mode in S20 s is dts ≦ DTS
If the information FALSE is that the voice feature vector x t of the current frame number t is approximately equal to the voice feature vector x qs of the stationary part reference frame number qs, the voice feature vector x of the current frame number t is Since t has a small change from the speech feature vector x qs of the stationary part reference frame number qs, the output probability B ji (x t ) of the current frame number t can be approximated by the reference probability B ji . Therefore, the matching unit 30 does not perform the process of S21, and therefore the output probability B ji (x t ) is calculated by the equation (4).
~ (7) is not performed and the process of rewriting the reference probability B ji is not performed, 1 is added to the number j of the transition source S j to perform the process for the next number j (S22), and thereafter, The process of S18 is performed.

【0243】S19の種別判定結果が過渡部である場合
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わる距離dttが閾値DTTを越
えていたか否かを判定する(S23)。
If the type determination result of S19 is the transient part, the collating part 30 next determines the comparison result mode relating to the transient part. With reference to t, it is determined whether or not the distance dtt related to the transition portion has exceeded the threshold value DTT (S23).

【0244】S23で比較結果mode tがdtt>DTT
であったことを表す情報TRUEであれば、現フレーム番号
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで照合部30は、j=1、2、
……、J及びi=1、2、……、Iの全てのj、iにつ
いて、対数化した出力確率Bji(xt)を式(4)〜(7)
に従って求め、参照確率Bjiを、当該出力確率Bji(xt)
に書き換える(S21)。次に照合部30は、次の番号
jにつき処理を行なうべく、遷移元Sj の番号jに1を
加算し(S22)、然る後、S18の処理を行なう。
In S23, the comparison result mode t is dtt> DTT
If the information TRUE indicating that the current frame number is t, the speech feature vector x t of the current frame number t is the transition part reference frame number q.
Since t is speech feature vector x t speech feature vector x qt without approximation therefore current frame number t of large changes from speech feature vector x qt transient portion reference frame number qt, output probability B of the current frame number t ji (x t ) is the reference probability B
It cannot be approximated by ji . Therefore, the matching unit 30 uses j = 1, 2,
.., J and i = 1, 2, ..., For all j and i of I, logarithmic output probabilities B ji (x t ) are expressed by equations (4) to (7).
According to the reference probability B ji , and the output probability B ji (x t )
(S21). Next, the collation unit 30 adds 1 to the number j of the transition source S j in order to process the next number j (S22), and thereafter performs the process of S18.

【0245】S23で比較結果mode tがdtt≦DTT
であったことを表す情報FALSE であれば、現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtに近似的に等しくなり従っ
て現フレーム番号tの音声特徴ベクトルxt は過渡部基
準フレーム番号qtの音声特徴ベクトルxqtからの変化
が小さいので、現フレーム番号tの出力確率Bji(xt)は
参照確率Bjiで近似できる。そこで照合部30は、S2
1の処理を行なわずに、従って出力確率Bji(xt)を式
(4)〜(7)に従って求める処理も参照確率Bjiを書
き換える処理も行なわずに、次の番号jにつき処理を行
なうべく、遷移元Sj の番号jに1を加算し(S2
2)、然る後、S18の処理を行なう。
Comparison result mode in S23 t is dtt ≦ DTT
If the information FALSE is that the voice feature vector x t of the current frame number t is approximately equal to the voice feature vector x qt of the transition part reference frame number qt, the voice feature vector of the current frame number t is Since x t has a small change from the speech feature vector x qt of the transition part reference frame number qt, the output probability B ji (x t ) of the current frame number t can be approximated by the reference probability B ji . Therefore, the matching unit 30 uses S2
Therefore, the process for the next number j is performed without performing the process of 1 and thus without performing the process of obtaining the output probability B ji (x t ) according to the equations (4) to (7) and the process of rewriting the reference probability B ji. Therefore, 1 is added to the number j of the transition source S j (S2
2) Then, the process of S18 is performed.

【0246】そしてj=1、2、……、Jの全てのjに
つきS19〜S23の処理を終了すると、S18の処理
でj>J(ここではJ=I)との判定結果を得るので、
S18でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S24)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
When the processing of S19 to S23 is completed for all j of j = 1, 2, ..., J, the determination result of j> J (here J = I) is obtained in the processing of S18.
If j> J in S18, then the matching unit 30 reads out the reference probabilities B ji and calculates the forward probability C it for all i of i = 1, 2, ..., I according to the equation (11). Ask (S24). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0247】(2−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
(2-1B: When t> T in S8) If the current frame number t is larger than the frame number T of the terminating frame in S8, i = 1, 2, ... since finished sought forward probability C iT, wherein i = * i maximum forward probability C iT of the forward probability C iT comprising the following (9), the speech feature vector time series x 1, x 2, ......, x
Likelihood ln {P (x 1 , x 2 , ..., X between T and HMM
T )}, and after that, the process of calculating the likelihood for the HMM is ended (end).

【0248】照合部30は、辞書部24に格納されてい
る全てのHMMについて、各HMM毎に図9〜図11に
示すS1〜S23の処理を行なって尤度(前向き確率C
iT)を求め、そして最大の尤度を得たHMMのカテゴリ
を、当該音声特徴ベクトルの時系列x1 、x2 、……、
T を抽出した入力音声信号に対する認識結果として、
次段の装置(図示せず)へ出力する。
The collating unit 30 performs the processes of S1 to S23 shown in FIGS. 9 to 11 for all the HMMs stored in the dictionary unit 24 to calculate the likelihood (forward probability C).
iT ), and the category of the HMM for which the maximum likelihood is obtained is set to the time series x 1 , x 2 , ..., Of the speech feature vector.
As a recognition result for the input speech signal in which x T is extracted,
Output to the next-stage device (not shown).

【0249】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか、若しくは、遷移元Sj が過渡部である場合に距離
dttが閾値DTT以下となるかした場合に、出力確率
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、演算量を大幅に削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合に距離dtsが閾値DTS以下とな
るか若しくは遷移元Sj が過渡部である場合に距離dt
tが閾値DTT以下となるかした場合に、行なうので、
演算の簡略化を行なっても、前向き確率Citの誤差を小
さくできる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT in the process of transition Sj
If the distance dts is less than or equal to the threshold value DTS when is a stationary portion, or if the distance dtt is less than or equal to the threshold value DTT when the transition source S j is a transient portion, the output probability B ji (x t Since the forward probability C it is calculated without performing the calculation of () from equations (4) to (7), the amount of calculation can be significantly reduced. Moreover, simplification of such an operation is based on the transition source S j
Is a stationary part, the distance dts is less than or equal to the threshold value DTS, or the transition source S j is a transient part, the distance dt is
If t is less than or equal to the threshold value DTT, it is performed.
Even if the calculation is simplified, the error of the forward probability C it can be reduced.

【0250】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値DTTを小さく設定することにより前向き確
率Citの誤差を小さくすることが望まれる。
Further, since the change of the voice feature vector x t that is extracted in time sequence in the transient portion of the voice signal is large,
When the type s of the transition source S j is a transient part, it is desired to reduce the error of the forward probability C it by setting the threshold value DTT related to the transient part to be small.

【0251】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値DTSを大きくしても前向き確率C
itの誤差を小さくすることができる。
On the other hand, since the change of the voice feature vector x t which is extracted in time series in the stationary part of the audio signal is small, when the type s of the transition source S j is the stationary part,
Forward probability C even if the threshold value DTS related to the stationary part is increased
it is possible to reduce the error of it.

【0252】従って定常部に関わる閾値DTSとして値
の大きなものを用いると共に、過渡部に関わる閾値DT
Tとして値の小さなものを用いることにより、前向き確
率Citの誤差をなるべく小さくしつつ、演算量を削減す
ることができる。
Therefore, a large value is used as the threshold value DTS related to the steady part, and the threshold value DT related to the transient part is used.
By using T having a small value, it is possible to reduce the amount of calculation while minimizing the error of the forward probability C it .

【0253】この出願の発明者のシミュレーション結果
によれば、図9〜図11に示すこの例において、前向き
確率Citを求めるための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、定常部に関わる閾
値DTS及び過渡部に関わる閾値DTTを定めても、図
9〜図11に示すこの例と、演算の簡略化を行なわない
場合とで、音声認識の認識精度に顕著な差を生じないば
かりか、むしろ認識精度が向上する例が数多く存在し
た。
According to the simulation result of the inventor of this application, in this example shown in FIGS. 9 to 11, the amount of calculation for obtaining the forward probability C it is about 1 / third that when the calculation is not simplified. Even if the threshold value DTS related to the stationary part and the threshold value DTT related to the transient part are determined so as to be 5, the recognition of the voice recognition is performed in this example shown in FIG. 9 to FIG. 11 and the case where the calculation is not simplified. There were many cases where not only the accuracy did not differ significantly, but rather the recognition accuracy improved.

【0254】<請求項3の発明の第二実施形態>請求項
3の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部30を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置10を
用いることができる。
<Second Embodiment of the Invention of Claim 3> As a voice recognition apparatus suitable for carrying out the second embodiment of the invention of claim 3, the collating unit 30 is configured as follows. It is possible to use the voice recognition device 10 having the same configuration as that described above.

【0255】すなわち照合部30は、尤度を求める際
に、参照情報記憶部32に格納されている参照確率bji
を用いて、t=1、2、……、Tの各場合の前向き確率
itを、次ぎの如くして順次に求める。
That is, the matching unit 30 determines the reference probability b ji stored in the reference information storage unit 32 when obtaining the likelihood.
, The forward probability c it in each case of t = 1, 2, ..., T is sequentially obtained as follows.

【0256】(1).t=1のときは、定常部スキップ
数skips、過渡部スキップ数skiptをそれぞれ
0に、及び、定常部基準フレーム番号qs、過渡部基準
フレーム番号qtをそれぞれ1に初期化すると共に、全
てのj、iについて、出力確率bji(xt)をヒドンマルコ
フモデルから求め当該出力確率bji(xt)を参照確率bji
の初期値として書き込み、参照確率bjiの書込み終了後
に各参照確率bjiを読み出して前向き確率citを求める
処理(2A)を行なう。
(1). When t = 1, the constant part skip number skips and the transient part skip number skipt are initialized to 0, and the constant part reference frame number qs and the transient part reference frame number qt are initialized to 1 and all j are initialized. , I, the output probability b ji (x t ) is obtained from the Hidden Markov model, and the output probability b ji (x t ) is referred to as the reference probability b ji.
Writing the initial value, it reads out the reference probability b ji after completion of writing of the reference probability b ji by obtaining the forward probability c it process performs (2A).

【0257】そして処理(2A)の終了後、現フレーム
番号tに1を加算する処理(2B)を行なう。
After the end of the process (2A), a process (2B) of adding 1 to the current frame number t is performed.

【0258】(2).2≦t≦Tのときは、定常部スキ
ップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と定常部
基準フレーム番号qsの音声特徴ベクトルxqsとの間の
距離dtsを閾値DTSと比較し、当該比較結果がsk
ips>NSKIPS若しくはdts>DTSとなる場
合に、定常部スキップ数skipsを0に初期化し、及
び、定常部基準フレーム番号qsを現フレーム番号tに
書き換え、当該比較結果がskips≦NSKIPSか
つdts≦DTSとなる場合に、定常部スキップ数sk
ipsに1を加算する処理(2C)と、過渡部スキップ
数skiptを閾値NSKIPTと比較すると共に、現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを閾値DTTと比較し、当該比較結果がskipt
>NSKIPT若しくはdtt>DTTとなる場合に、
過渡部スキップ数skiptを0に初期化し、及び、過
渡部基準フレーム番号qtを現フレーム番号tに書き換
え、当該比較結果がskipt≦NSKIPTかつdt
t≦DTTとなる場合に、過渡部スキップ数skipt
に1を加算する処理(2D)とを行なう。
(2). When the 2 ≦ t ≦ T, as well as comparing the constant region skip number skips a threshold NSKIPS, the distance between the speech feature vector x qs speech feature vector x t and the constant part reference frame number qs of the current frame number t dts is compared with the threshold value DTS, and the comparison result is sk.
When ips> NSKIPS or dts> DTS, the constant part skip number skips is initialized to 0, and the constant part reference frame number qs is rewritten to the current frame number t, and the comparison result is skips ≦ NSKIPS and dts ≦ DTS. If, then the number of skips in the stationary part sk
1 and adds the process (2C) in ips, while comparing the transient portion skip number skipt a threshold NSKIPT, the speech feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t Distance d
tt is compared with the threshold value DTT, and the comparison result is skippt.
> NSKIPT or dtt> DTT,
The transition part skip number skipt is initialized to 0, and the transition part reference frame number qt is rewritten to the current frame number t, and the comparison result is skip≤NSKIPT and dt.
When t ≦ DTT, the number of skips in transition part skippt
The process of adding 1 to (2D) is performed.

【0259】そして処理(2C)、(2D)の終了後、
j=1、2、……、Jの各j毎に、出力確率bji(xt)を
与える状態遷移の遷移元Sj に付与されている種別sを
判定する処理(2E)を行なう。
After the processes (2C) and (2D) are completed,
For each j of j = 1, 2, ..., J, a process (2E) of determining the type s given to the transition source S j of the state transition giving the output probability b ji (x t ) is performed.

【0260】そして処理(2E)の種別判定結果が定常
部であった場合に、処理(2C)の比較結果がskip
s>NSKIPS若しくはdts>DTSであれば、当
該種別判定結果を得たjに関しては全てのiについて、
出力確率bji(xt)をヒドンマルコフモデルから求めて参
照確率bjiを当該出力確率bji(xt)に書き換え、処理
(2E)の種別判定結果が定常部であった場合に、処理
(2C)の比較結果がskips≦NSKIPSかつd
ts≦DTSであれば、当該種別判定結果を得たjに関
しては参照確率bjiの書換えを行なわず、処理(2E)
の種別判定結果が過渡部であった場合に、処理(2D)
の比較結果がskipt>NSKIPT若しくはdtt
>DTTであれば、当該種別判定結果を得たjに関して
は全てのiについて、出力確率bji(xt)をヒドンマルコ
フモデルから求めて参照確率bjiを当該出力確率bji(x
t)に書き換え、処理(2E)の種別判定結果が過渡部で
あった場合に、処理(2D)の比較結果がskipt≦
NSKIPTかつdtt≦DTTであれば、当該種別判
定結果を得たjに関しては参照確率bjiの書換えを行な
わない処理(2F)を行なう。
When the type determination result of the process (2E) is the stationary part, the comparison result of the process (2C) is skip.
If s> NSKIPS or dts> DTS, for j for which the type determination result is obtained, for all i,
When the output probability b ji (x t ) is obtained from the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), and when the type determination result of the process (2E) is the stationary part, the process The comparison result of (2C) is skips ≦ NSKIPS and d
If ts ≦ DTS, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and the process (2E) is performed.
When the type determination result of is a transition part, processing (2D)
Comparison result of skip> NSKIPT or dtt
If> DTT, for j for which the type determination result is obtained, for all i, output probabilities b ji (x t ) are obtained from Hidden Markov models and reference probabilities b ji are output probabilities b ji (x
t ), and when the type determination result of the process (2E) is the transition part, the comparison result of the process (2D) is skip≤
If NSKIPT and dtt ≦ DTT, the process (2F) of not rewriting the reference probability b ji is performed for j that has obtained the type determination result.

【0261】そしてj=1、2、……、Jの個々のj毎
に該処理(2F)を行ない、全てのjにつき処理(2
F)を終了したら、各参照確率bjiを読み出して前向き
確率citを求める処理(2G)を行なう。
Then, the process (2F) is performed for each j of j = 1, 2, ..., J, and the process (2F) is performed for all j.
After the step F) is completed, each reference probability b ji is read out and the forward probability c it is calculated (2G).

【0262】そして処理(2G)の終了後、現フレーム
番号tに1を加算する処理(2H)を行なう。
After the processing (2G) is completed, processing (2H) is performed to add 1 to the current frame number t.

【0263】次に請求項3の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
12〜図14は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
Next, in the second embodiment of the invention of claim 3, the time series x 1 , x 2 , ... Of HMM and speech feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. 12 to 14 are diagrams showing the flow of processing focusing on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0264】照合部30は、区間情報及び音声特徴ベク
トルxt を音声区間検出部28から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are input from the speech section detection unit 28, the matching unit 30 receives i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0265】次に照合部30は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collating unit 30 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0266】次に照合部30は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を対数化した参照
確率Bjiの初期値として書き込む(S4)。
Next, the collating unit 30 determines that j = 1, 2, ..., J.
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as the initial value of the logarithmic reference probability B ji (S4).

【0267】参照情報記憶部32には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部32は、B11、B12、…
…、B1I、B21、B22、……、B2I、……、BJ1
J2、……、BJIをそれぞれ個別に格納するJ×I個の
格納領域を有する。そこで図にあっては、参照確率Bji
の初期値を格納する処理を、save Bji=Bji(x1) と表し
ている。
In the reference information storage section 32, j = 1, 2, ...
, J and i = 1, 2, ..., I are respectively provided with storage areas save B ji for storing the reference probabilities B ji . Therefore, the reference information storage unit 32 stores B 11 , B 12 , ...
..., B 1I, B 21, B 22, ......, B 2I, ......, B J1,
B J2 , ..., B JI respectively have J × I storage areas for individually storing. Therefore, in the figure, the reference probability B ji
The process of storing the initial value of is expressed as save B ji = B ji (x 1 ).

【0268】次に照合部30は、定常部スキップ数sk
ips、過渡部スキップ数skiptをそれぞれ、0に
初期化すると共に定常部基準フレーム番号qs、過渡部
基準フレーム番号qtをそれぞれ、現フレーム番号1に
初期化し(S5)、然る後、i=1、2、……、Iの全
てのiについて、対数化した前向き確率Ci1を式(1
1)に従って求める(S6)。
Next, the matching unit 30 determines the number of regular part skips sk.
ips and the number of skips in the transition part skipt are initialized to 0, and the reference frame number qs of the stationary part and the reference frame number qt of the transition part are initialized to the current frame number 1 (S5), and then i = 1. , ..., For all i in I, the forward probability C i1 which is logarithmized is expressed by the formula (1
It is obtained according to 1) (S6).

【0269】次に照合部30は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collating unit 30 adds 1 to the current frame number t in order to process the next frame of the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame are added. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0270】(2−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、定常部スキップ数skipsと閾値NSK
IPSとの比較判定を行なう(S9)。
(2-2A: When t ≦ T in S8) If the current frame number t is less than or equal to the end frame number T in S8, the processing is not completed for all the frames in the voice section, so that the steady state is performed. Copy skip number skips and threshold NSK
A comparison judgment with IPS is performed (S9).

【0271】S9で定常部スキップ数skipsが閾値
NSKIPSを越える場合は、定常部に関わる距離dt
sが閾値DTS以下となった回数skipsが閾値NS
KIPSを越え従って現フレーム番号tと定常部基準フ
レーム番号qsとの時間的隔たりが大きくなるので、誤
差が増大する可能性が高い。そこで定常部スキップ数s
kipsを0に初期化すると共に定常部基準フレーム番
号qsを現フレーム番号tに書き換え、さらに定常部に
関わる比較結果mode sとして、skips>NSKIP
S若しくはdts>DTSであったことを表す情報TRUE
を書き込む(S10)。
If the skip count skips of the stationary part exceeds the threshold value NSKIPS in S9, the distance dt related to the stationary part
The number of times s is less than or equal to the threshold DTS skips is the threshold NS
Since the time gap between the current frame number t and the constant part reference frame number qs is increased beyond KIPS, the error is likely to increase. Therefore, the number of regular part skips s
Initialize kips to 0, rewrite the constant part reference frame number qs to the current frame number t, and compare the result As s, skips> NSKIP
Information TRUE indicating that S or dts> DTS was true
Is written (S10).

【0272】S9で定常部スキップ数skipsが閾値
NSKIPS以下である場合は、次に照合部30は現フ
レーム番号tの音声特徴ベクトルxt と定常部基準フレ
ーム番号qsの音声特徴ベクトルxqsとの間の距離dt
sを式(17)に従って求め(S11)、然る後、定常
部に関わる距離dtsを閾値DTSと比較してこれらベ
クトルxt 及びxqsが近似的に等しいか否かを判定する
(S12)。
[0272] When the constant region skip number skips is equal to or less than the threshold NSKIPS in S9, then matching unit 30 of the audio feature vector x qs speech feature vector x t and the constant part reference frame number qs of the current frame number t Distance dt
s is obtained according to the equation (17) (S11), and then the distance dts related to the stationary part is compared with the threshold value DTS to determine whether or not these vectors x t and x qs are approximately equal (S12). .

【0273】S12で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
定常部基準フレーム番号qsの音声特徴ベクトルxqs
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は定常部基準フレーム番号qsの音声特徴ベクトルx
qsからの変化が大きい。そこで定常部スキップ数ski
psを0に初期化すると共に定常部基準フレーム番号q
sを現フレーム番号tに書き換え、さらに定常部に関わ
る比較結果mode sとして、skips>NSKIPS若
しくはdts>DTSであったことを表す情報TRUEを書
き込む(S10)。
If the distance dts exceeds the threshold value DTS in S12, the voice feature vector x t of the current frame number t does not approximate to the voice feature vector x qs of the stationary part reference frame number qs, and therefore the voice of the current frame number t Feature vector x
t is the voice feature vector x of the stationary part reference frame number qs
The change from qs is large. Therefore, the number of skips in the steady part ski
ps is initialized to 0 and the reference frame number q of the stationary part
s is rewritten to the current frame number t, and the comparison result mode related to the stationary part Information s indicating that skips> NSKIPS or dts> DTS is written as s (S10).

【0274】S12で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は定常部基準フレーム番号qsの音声特徴ベクトルxqs
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は定常部基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さい。そこで定常部スキップ
数skipsに1を加算して定常部スキップ数skip
sをカウントアップすると共に、定常部に関わる比較結
果mode sとして、skips≦NSKIPTかつdts
≦DTSであったことを表す情報FALSE を書き込む(S
13)。
If the distance dts is less than or equal to the threshold DTS in S12, the voice feature vector x t of the current frame number t
Is the voice feature vector x qs of the stationary part reference frame number qs
Speech feature vector x t of approximately equal therefore current frame number t is small variation from the speech feature vector x qs constant region reference frame number qs to. Then, 1 is added to the number of skips in the steady part skips to skip the number of skips in the steady part
s is counted up and the comparison result mode related to the stationary part As s, skips ≦ NSKIPT and dts
Write information FALSE indicating that ≤ DTS (S
13).

【0275】S10若しくはS13の処理を終了した
ら、次に照合部30は過渡部スキップ数skiptと閾
値NSKIPTとの比較判定を行なう(S14)。
After the processing of S10 or S13 is completed, the collating unit 30 next makes a comparison judgment between the transient part skip number skipt and the threshold value NSKIPT (S14).

【0276】S14で過渡部スキップ数skiptが閾
値NSKIPTを越える場合は、過渡部に関わる距離d
ttが閾値DTT以下となった回数skiptが閾値N
SKIPTを越え従って現フレーム番号tと過渡部基準
フレーム番号qtとの時間的隔たりが大きくなるので、
誤差が増大する可能性が高い。そこで過渡部スキップ数
skiptを0に初期化すると共に過渡部基準フレーム
番号qtを現フレーム番号tに書き換え、さらに過渡部
に関わる比較結果mode tとして、skipt>NSKI
PT若しくはdtt>DTTであったことを表す情報TR
UEを書き込む(S15)。
If the number of skips in the transitional part skip exceeds the threshold value NSKIPT in S14, the distance d related to the transitional part
The number of times tt becomes equal to or less than the threshold DTT, skipt is the threshold N
Since the time frame between the current frame number t and the transitional section reference frame number qt becomes larger than the SKIPT,
The error is likely to increase. Therefore, the transition part skip number skipt is initialized to 0, the transition part reference frame number qt is rewritten to the current frame number t, and the comparison result mode relating to the transition part is set. As t, skippt> NSKI
Information TR showing that PT or dtt> DTT
Write the UE (S15).

【0277】S14で過渡部スキップ数skiptが閾
値NSKIPT以下である場合は、次に照合部30は現
フレーム番号tの音声特徴ベクトルxt と過渡部基準フ
レーム番号qtの音声特徴ベクトルxqtとの間の距離d
ttを式(18)に従って求め(S16)、然る後、過
渡部に関わる距離dttを閾値DTTと比較してこれら
ベクトルxt 及びxqtが近似的に等しいか否かを判定す
る(S17)。
If the number of skips in the transitional part skip is less than or equal to the threshold value NSKIPT in S14, the collation unit 30 next determines the speech feature vector x t of the current frame number t and the speech feature vector x qt of the reference frame number of the transitional part qt . Distance d
tt is obtained according to the equation (18) (S16), and then the distance dtt related to the transient part is compared with the threshold value DTT to determine whether or not these vectors x t and x qt are approximately equal (S17). .

【0278】S17で距離dttが閾値DTTを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
過渡部基準フレーム番号qtの音声特徴ベクトルxqt
近似せず従って現フレーム番号tの音声特徴ベクトルx
t は過渡部基準フレーム番号qtの音声特徴ベクトルx
qtからの変化が大きい。そこで過渡部スキップ数ski
ptを0に初期化すると共に過渡部基準フレーム番号q
tを現フレーム番号tに書き換え、さらに過渡部に関わ
る比較結果mode tとして、skipt>NSKIPT若
しくはdtt>DTTであったことを表す情報TRUEを書
き込む(S15)。
If the distance dtt exceeds the threshold value DTT in S17, the voice feature vector x t of the current frame number t is not approximated to the voice feature vector x qt of the transition part reference frame number qt, and therefore the voice of the current frame number t. Feature vector x
t is the speech feature vector x of the transition part reference frame number qt
The change from qt is large. Therefore, the number of skips in the transition part ski
pt is initialized to 0 and the transition part reference frame number q
t is rewritten to the current frame number t, and the comparison result mode related to the transition part Information t indicating that skip> NSKIPT or dtt> DTT is written as t is written (S15).

【0279】S17で距離dttが閾値DTT以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は過渡部基準フレーム番号qtの音声特徴ベクトルxqt
に近似的に等しく従って現フレーム番号tの音声特徴ベ
クトルxt は過渡部基準フレーム番号qtの音声特徴ベ
クトルxqtからの変化が小さい。そこで過渡部スキップ
数skiptに1を加算して過渡部スキップ数skip
tをカウントアップすると共に、過渡部に関わる比較結
果mode tとして、skipt≦NSKIPTかつdtt
≦DTTであったことを表す情報FALSE を書き込む(S
18)。
If the distance dtt is less than or equal to the threshold value DTT in S17, the voice feature vector x t of the current frame number t.
Is the speech feature vector x qt of the reference frame number qt
Speech feature vector x t of approximately equal therefore current frame number t is small variation from the speech feature vector x qt transient portion reference frame numbers qt to. Therefore, 1 is added to the number of skips in the transition part skip, and the number of skips in the transition part skip
t is counted up and the comparison result mode related to the transient part As t, skipt ≦ NSKIPT and dtt
Write information FALSE indicating that ≦ DTT (S
18).

【0280】S15若しくはS18の処理を終了した
ら、次に照合部30は、遷移元Sj の番号j(番号jは
ヒドンマルコフモデルにおいて状態遷移の遷移元Sj
付与されている番号)を初期値1に設定し(S19)、
然る後、遷移元Sj の番号jが最大の番号J(ここでは
J=I)を越えるか否かを判定する(S20)。
[0280] Once finished the step S15 or S18, then matching unit 30, the transition number j of the original S j (number j is a number that is given to the transition source S j state transition in hidden Markov models) Initial and Set the value to 1 (S19),
Then, it is determined whether or not the number j of the transition source S j exceeds the maximum number J (J = I here) (S20).

【0281】S20でj≦Jであれば、次に照合部30
は、遷移元Sj に付与されている種別sが定常部及び過
渡部のいずれであるかを判定する(S21)。
If j ≦ J in S20, the collating unit 30
Determines whether the type s assigned to the transition source S j is a steady part or a transient part (S21).

【0282】S21の種別判定結果が定常部である場合
は、次に照合部30は定常部に関わる比較結果mode sを
参照して、定常部に関わるスキップ数skips、閾値
NSKIPSの比較結果及び距離dts、閾値DTSの
比較結果がどのようになっているかを判定する(S2
2)。
If the type determination result in S21 is the stationary part, the collating part 30 next compares the comparison result mode related to the stationary part. By referring to s, it is determined what the skip number skips related to the stationary part, the comparison result of the threshold NSKIPS and the distance dts, and the comparison result of the threshold DTS are (S2).
2).

【0283】S22で比較結果mode sがskips>N
SKIPS若しくはdts>DTSであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後、S20の処理を行なう。尚、S2
3で参照確率Bjiを書き換える処理を、図にあってはsa
ve Bji=Bji(xt) と表している。
Comparison result mode in S22 s is skips> N
If the information is TRUE indicating that SKIPS or dts> DTS, the collation unit 30 determines that j = 1, 2, ...
For all j and i of J and i = 1, 2, ..., I,
The logarithmic output probability B ji (x t ) is obtained according to equations (4) to (7), and the reference probability B ji is rewritten to the output probability B ji (x t ) (S23). Next, the collation unit 30 adds 1 to the number j of the transition source S j in order to process the next number j (S24), and thereafter performs the process of S20. S2
The process of rewriting the reference probability B ji in 3 is sa in the figure.
It is expressed as ve B ji = B ji (x t ).

【0284】skips>NSKIPSであれば、定常
部に関わる距離dtsが閾値DTS以下となった回数s
kipsが閾値NSKIPSを越えたので現フレーム番
号tと定常部基準フレーム番号qsとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために、参照確率Bjiを書き換える。
If skips> NSKIPS, the number of times s that the distance dts related to the stationary part becomes equal to or less than the threshold value DTS.
Since the kips exceeds the threshold value NSKIPS, there is a large time gap between the current frame number t and the constant part reference frame number qs, and thus the error is likely to increase. Therefore, in order to reduce the error, the reference probability B ji is rewritten.

【0285】dts>DTSであれば、現フレーム番号
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は定常部基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで参照確率Bjiを書き換える。
If dts> DTS, the voice feature vector x t of the current frame number t is the stationary part reference frame number q.
the change from speech feature vector x qs speech feature vector x t is the constant part reference frame number qs of s speech feature vector x qs not approximate the thus current frame number t is large, the output probability B of the current frame number t ji (x t ) is the reference probability B
It cannot be approximated by ji . Therefore, the reference probability B ji is rewritten.

【0286】S22で比較結果mode sがskips≦N
SKIPSかつdts≦DTSであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率B jiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
Comparison result mode in S22 s is skips ≤ N
Information indicating that SKIPS and dts ≦ DTS were satisfied
If it is FALSE, the collation unit 30 performs the process of S23.
Without, and therefore output probability Bji(xt) According to equations (4)-(7)
The processing to obtain is also the reference probability B jiAlso rewrite
Instead of performing the process for the next number j, the transition source S
j 1 is added to the number j of (S24), and then S20
Perform processing.

【0287】skips≦NSKIPSかつdts≦D
TSであれば、skips≦NSKIPSなので定常部
に関わる距離dtsが閾値DTS以下となった回数sk
ipsは閾値NSKIPSを越えず、従って現フレーム
番号tと定常部基準フレーム番号qsとの時間的隔たり
は小さくなるので誤差が増大する可能性は低い。しかも
dts≦DTSなので現フレーム番号tの音声特徴ベク
トルxt は定常部基準フレーム番号qsの音声特徴ベク
トルxqsに近似的に等しくなり従って現フレーム番号t
の音声特徴ベクトルxt は定常部基準フレーム番号qs
の音声特徴ベクトルxqsからの変化が小さいので、現フ
レーム番号tの出力確率Bji(xt)は参照確率Bjiで近似
的できる。そこで参照確率Bjiを書き換えずに読み出し
て、前向き確率Citを求める。
Skips ≦ NSKIPS and dts ≦ D
If TS, skips ≦ NSKIPS, so the number of times the distance dts related to the stationary part is equal to or less than the threshold value DTS sk
Since ips does not exceed the threshold value NSKIPS, and therefore the time gap between the current frame number t and the constant part reference frame number qs is small, the error is unlikely to increase. Moreover, since dts ≦ DTS, the voice feature vector x t of the current frame number t becomes approximately equal to the voice feature vector x qs of the stationary part reference frame number qs, and therefore the current frame number t
Voice feature vector x t of the stationary part reference frame number qs
The change from speech feature vector x qs is small, the output probability B ji (x t) of the current frame number t may be approximated by the reference probability B ji. Therefore, the reference probability B ji is read out without being rewritten to obtain the forward probability C it .

【0288】S21の種別判定結果が過渡部である場合
は、次に照合部30は過渡部に関わる比較結果mode tを
参照して、過渡部に関わるスキップ数skipt、閾値
NSKIPTの比較結果及び距離dtt、閾値DTTの
比較結果がどのようになっているかを判定する(S2
5)。
If the type determination result of S21 is the transitional part, the collation unit 30 next determines the comparison result mode related to the transitional part. With reference to t, it is determined what the skip number skipt related to the transition part, the comparison result of the threshold value NSKIPT, the distance dtt, and the comparison result of the threshold value DTT are (S2).
5).

【0289】S25で比較結果mode tがskipt>N
SKIPT若しくはdtt>DTTであったことを表す
情報TRUEであれば、照合部30は、j=1、2、……、
J及びi=1、2、……、Iの全てのj、iについて、
対数化した出力確率Bji(xt)を式(4)〜(7)に従っ
て求め、参照確率Bjiを、当該出力確率Bji(xt)に書き
換える(S23)。次に照合部30は、次の番号jにつ
き処理を行なうべく、遷移元Sj の番号jに1を加算し
(S24)、然る後S20の処理を行なう。
Comparison result mode in S25 t is skippt> N
If the information is TRUE indicating that SKIPT or dtt> DTT, the collation unit 30 determines that j = 1, 2, ...
For all j and i of J and i = 1, 2, ..., I,
The logarithmic output probability B ji (x t ) is obtained according to equations (4) to (7), and the reference probability B ji is rewritten to the output probability B ji (x t ) (S23). Next, the collation unit 30 adds 1 to the number j of the transition source S j in order to process the next number j (S24), and then performs the process of S20.

【0290】skipt>NSKIPTであれば、過渡
部に関わる距離dttが閾値DTT以下となった回数s
kiptが閾値NSKIPTを越えたので現フレーム番
号tと過渡部基準フレーム番号qtとの時間的隔たりが
大きく、従って誤差が増大する可能性が高い。そこで誤
差を低減するために参照確率Bjiを書き換える。
If skipt> NSKIPT, the number of times s that the distance dtt related to the transient portion becomes equal to or less than the threshold value DTT.
Since kipt exceeds the threshold value NSKIPT, there is a large time gap between the current frame number t and the transition part reference frame number qt, and thus the error is likely to increase. Therefore, the reference probability B ji is rewritten in order to reduce the error.

【0291】dtt>DTTであれば、現フレーム番号
tの音声特徴ベクトルxt は過渡部基準フレーム番号q
tの音声特徴ベクトルxqtに近似せず従って現フレーム
番号tの音声特徴ベクトルxt は過渡部基準フレーム番
号qtの音声特徴ベクトルxqtからの変化が大きいの
で、現フレーム番号tの出力確率Bji(xt)は参照確率B
jiで近似できない。そこで誤差を低減するために参照確
率Bjiを書き換える。
If dtt> DTT, the voice feature vector x t of the current frame number t is the transition part reference frame number q.
Since t is speech feature vector x t speech feature vector x qt without approximation therefore current frame number t of large changes from speech feature vector x qt transient portion reference frame number qt, output probability B of the current frame number t ji (x t ) is the reference probability B
It cannot be approximated by ji . Therefore, the reference probability B ji is rewritten in order to reduce the error.

【0292】S25で比較結果mode tがskipt≦N
SKIPTかつdtt≦DTTであったことを表す情報
FALSE であれば、照合部30は、S23の処理を行なわ
ずに、従って出力確率Bji(xt)を式(4)〜(7)に従
って求める処理も参照確率Bjiを書き換える処理も行な
わずに、次の番号jにつき処理を行なうべく、遷移元S
j の番号jに1を加算し(S24)、然る後、S20の
処理を行なう。
In S25, the comparison result mode t is skip ≦ N
Information indicating that SKIPT and dtt ≦ DTT
If it is FALSE, the matching unit 30 does not perform the process of S23, and therefore does not perform the process of obtaining the output probability B ji (x t ) according to the equations (4) to (7) or the process of rewriting the reference probability B ji. In order to perform processing for the next number j, the transition source S
adds 1 to j number j (S24), thereafter, it performs the processing of S20.

【0293】skipt≦NSKIPTかつdtt≦D
TTであれば、skipt≦NSKIPTなので過渡部
に関わる距離dttが閾値DTT以下となった回数sk
iptは閾値NSKIPTを越えず、従って現フレーム
番号tと過渡部基準フレーム番号qtとの時間的隔たり
が小さくなるので誤差が増大する可能性は低い。しかも
dtt≦DTTであるので現フレーム番号tの音声特徴
ベクトルxt は過渡部基準フレーム番号qtの音声特徴
ベクトルxqtに近似的に等しくなり従って現フレーム番
号tの音声特徴ベクトルxt は過渡部基準フレーム番号
qtの音声特徴ベクトルxqtからの変化が小さいので、
現フレーム番号tの出力確率Bji(xt)は参照確率Bji
近似できる。そこで参照確率Bjiの書き換えを行なわな
い。
Skipt ≤ NSKIPT and dtt ≤ D
If TT, then skip ≦ NSKIPT, so the number of times sk that the distance dtt related to the transition part is equal to or less than the threshold value DTT
Since ipt does not exceed the threshold value NSKIPT, and therefore the time gap between the current frame number t and the transition part reference frame number qt becomes small, the possibility of increasing the error is low. Moreover, since dtt ≦ DTT, the voice feature vector x t of the current frame number t becomes approximately equal to the voice feature vector x qt of the reference frame number qt of the transition part, and thus the voice feature vector x t of the current frame number t is the transition part. the change from speech feature vector x qt reference frame number qt is small,
The output probability B ji (x t ) of the current frame number t can be approximated by the reference probability B ji . Therefore, the reference probability B ji is not rewritten.

【0294】そしてj=1、2、……、Jの全てのjに
つきS20〜S25の処理を終了すると、S20の処理
でj>J(ここではJ=I)との判定結果を得るので、
S20でj>Jであれば、次に照合部30は、各参照確
率Bjiを読み出し、i=1、2、……、Iの全てのiに
ついて、前向き確率Citを式(11)に従って求める
(S26)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。
When the processing of S20 to S25 is completed for all j of j = 1, 2, ..., J, the determination result of j> J (here J = I) is obtained in the processing of S20.
If j> J in S20, then the matching unit 30 reads out the reference probabilities B ji and calculates the forward probability C it for all i of i = 1, 2, ..., I according to the equation (11). Ask (S26). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0295】(2−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
(2-2B: When t> T in S8) When the current frame number t is larger than the frame number T of the end frame in S8, i = 1, 2, ... since finished sought forward probability C iT, wherein i = * i maximum forward probability C iT of the forward probability C iT comprising the following (9), the speech feature vector time series x 1, x 2, ......, x
Likelihood ln {P (x 1 , x 2 , ..., X between T and HMM
T )}, and after that, the process of calculating the likelihood for the HMM is ended (end).

【0296】照合部30は、辞書部24に格納されてい
る全てのHMMについて、各HMM毎に図12〜図14
に示すS1〜S26の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
The collating unit 30 detects all the HMMs stored in the dictionary unit 24 for each HMM as shown in FIGS.
, The likelihood (forward probability C iT ) is obtained by performing the processes of S1 to S26, and the category of the HMM for which the maximum likelihood is obtained is the time series x 1 , x 2 , ... Of the speech feature vector.
, X T are output to a device (not shown) in the next stage as a recognition result for the extracted input voice signal.

【0297】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下で
あれば、出力確率Bji(xt)を式(4)〜(7)から求め
る演算を行なわずに、参照確率Bjiを読み出して前向き
確率Citを求める。また遷移元Sj が過渡部である場合
にスキップ数skiptが閾値NSKIPT以下となり
かつ距離dttが閾値DTT以下であれば、出力確率B
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、前向き確率Citを求めるので、大幅に演算量を削減
できる。しかもこのような演算の簡略化は、遷移元Sj
が定常部である場合にスキップ数skipsが閾値NS
KIPS以下となりかつ距離dtsが閾値DTS以下と
なるか、遷移元Sj が過渡部である場合にスキップ数s
kiptが閾値NSKIPT以下となりかつ距離dtt
が閾値DTT以下となる場合かのいずれかの場合に行な
うので、演算の簡略化を行なっても、前向き確率Cit
誤差を小さくできる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT in the process of transition Sj
Is a stationary part, the skip number skips is the threshold NS
If KIPS or less and the distance dts is less than or equal to the threshold DTS, the reference probability B ji is read out without performing the calculation of the output probability B ji (x t ) from the equations (4) to (7), and the forward probability C it. Ask for. If the number of skips skip is less than or equal to the threshold value NSKIPT and the distance dtt is less than or equal to the threshold value DTT when the transition source S j is the transition portion, the output probability B
Since the forward probability C it is calculated without performing the calculation of ji (x t ) from the equations (4) to (7), the calculation amount can be significantly reduced. Moreover, simplification of such an operation is based on the transition source S j
Is a stationary part, the skip number skips is the threshold NS
The number of skips s when the distance dts is less than or equal to KIPS and the distance dts is less than or equal to the threshold value DTS, or the transition source S j is a transition part.
kipt is less than or equal to the threshold value NSKIPT and the distance dtt
Is less than or equal to the threshold DTT, the error in the forward probability C it can be reduced even if the calculation is simplified.

【0298】また音声信号の過渡部において時間順次に
抽出される音声特徴ベクトルxt の変化は大きいので、
遷移元Sj の種別sが過渡部である場合には、過渡部に
関わる閾値NSKIPT、DTTを小さく設定すること
により前向き確率Citの誤差を小さくすることが望まれ
る。
Further, since the change of the voice feature vector x t extracted in time sequence in the transient portion of the voice signal is large,
When the type s of the transition source S j is the transient part, it is desired to reduce the error of the forward probability C it by setting the thresholds NSKIPT and DTT related to the transient part to be small.

【0299】これに対し、音声信号の定常部において時
間順次に抽出される音声特徴ベクトルxt の変化は小さ
いので、遷移元Sj の種別sが定常部である場合には、
定常部に関わる閾値NSKIPS、DTSを大きくして
も前向き確率Citの誤差を小さくすることができる。
On the other hand, since the change in the voice feature vector x t extracted in time-sequential order in the stationary part of the audio signal is small, when the type s of the transition source S j is the stationary part,
Even if the thresholds NSKIPS and DTS related to the stationary part are increased, the error of the forward probability C it can be reduced.

【0300】従って定常部に関わる閾値NSKIPS、
DTSに値の大きいものを用いると共に、過渡部に関わ
る閾値NSKIPT、DTTに値の小さなものを用いる
ことにより、前向き確率Citの誤差をなるべく小さくし
つつ、演算量を削減することができる。
Therefore, the threshold value NSKIPS relating to the stationary part,
By using a large value for DTS and a small value for the threshold values NSKIPT and DTT related to the transient part, it is possible to reduce the amount of calculation while minimizing the error of the forward probability C it .

【0301】請求項3の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
The invention of claim 3 can be applied to all speech recognition apparatuses that perform matching processing in frame units.

【0302】尚、遷移元Sj に対し付与される定常部、
過渡部の種別sは、例えば以下に述べるようにして定め
ることができる。
The stationary part given to the transition source S j ,
The type s of the transitional part can be determined as described below, for example.

【0303】第一の例は、出力確率bji(xt)を定めるパ
ラメータのひとつbjim(xt) に着目するものである。
(6)式にも示すように、bjim(xt) =(2π)-p/2
ρjim-1/2 exp{Djimt 2 /2}であって、この式
(6)中の分散・供分散行列の大きさ|ρjim |が、任
意好適に定めた閾値THLを越える場合に、当該出力確
率bji(xt)を与える遷移元Sj の種別sを過渡部と判定
し、また分散・供分散行列の大きさ|ρjim |が閾値T
HL以下となる場合に、当該出力確率bji(xt)を与える
遷移元Sj の種別sを定常部と判定する。従ってこの場
合には、分散・供分散行列の大きさ|ρjim |が種別s
を表し、この|ρjim |と閾値THLとの比較判定が、
種別sの判定ということになる。
The first example focuses on one parameter b jim (x t ) that determines the output probability b ji (x t ).
As shown in the equation (6), b jim (x t ) = (2π) −p / 2 |
A -1/2 exp {D jimt 2/2 }, the magnitude of the dispersion and test covariance matrix in the equation (6) | | ρ jim when a exceeds the threshold value THL which defines any suitably | [rho jim , The type s of the transition source S j that gives the output probability b ji (x t ) is determined to be the transient part, and the size | ρ jim | of the variance-covariance matrix is the threshold T.
When it becomes HL or less, the type s of the transition source S j that gives the output probability b ji (x t ) is determined to be a stationary part. Therefore, in this case, the size of the variance / covariance matrix | ρ jim |
And the comparison judgment between this | ρ jim | and the threshold value THL is
This means the determination of the type s.

【0304】第二の例は、出力確率bji(xt)を与える状
態遷移が母音の状態遷移に対応する場合に、当該状態遷
移の遷移元Sj に対し定常部であることを表す情報を、
また出力確率bji(xt)を与える状態遷移が子音の状態遷
移に対応する場合に、当該状態遷移の遷移元Sj に対し
過渡部であることを表す情報を、予め付与しておくとい
うものである。
In the second example, when the state transition giving the output probability b ji (x t ) corresponds to the state transition of the vowel, the information indicating that it is a stationary part for the transition source S j of the state transition. To
In addition, when the state transition giving the output probability b ji (x t ) corresponds to the state transition of a consonant, information indicating that it is a transition part is given to the transition source S j of the state transition in advance. It is a thing.

【0305】第三の例は、出力確率bji(xt)を与える状
態遷移が、母音の状態遷移及びp、t、k、r以外の子
音の状態遷移に対応する場合に、当該状態遷移の遷移元
jに対し定常部であることを表す情報を、また出力確
率bji(xt)を与える状態遷移が子音p、t、k、rの状
態遷移に対応する場合に、当該状態遷移の遷移元Sj
対し過渡部であることを表す情報を、予め付与しておく
というものである。
The third example is the case where the state transition giving the output probability b ji (x t ) corresponds to the state transition of a vowel and the state transition of a consonant other than p, t, k and r. If the state transition that gives the information indicating that the transition source S j is a stationary part and that the output probability b ji (x t ) corresponds to the state transition of the consonants p, t, k, and r, Information indicating that it is a transitional part is added in advance to the transition source S j of the transition.

【0306】<請求項7の発明の第一実施形態>図15
は請求項7の発明の第一実施形態の実施に用いて好適な
音声認識装置の構成例を示す機能ブロック図である。
<First Embodiment of the Invention of Claim 7> FIG.
FIG. 8 is a functional block diagram showing a configuration example of a voice recognition device suitable for use in carrying out the first embodiment of the invention of claim 7.

【0307】同図に示す音声認識装置34は、辞書部3
6、音響処理部38、音声区間検出部40、照合部42
及び参照情報記憶部44を備える。
The voice recognition device 34 shown in FIG.
6, sound processing unit 38, voice section detection unit 40, collation unit 42
And a reference information storage unit 44.

【0308】辞書部36は、認識照合用の標準パタンと
して各カテゴリ毎に用意された複数個のヒドンマルコフ
モデルを格納する。参照情報記憶部44は、前向き確率
基準フレーム番号qc、出力確率基準フレーム番号qs
と、参照確率bjiとを格納する。
The dictionary unit 36 stores a plurality of Hidden Markov models prepared for each category as standard patterns for recognition and matching. The reference information storage unit 44 stores the forward probability reference frame number qc and the output probability reference frame number qs.
And the reference probability b ji are stored.

【0309】音響処理部38は、一定時間幅のフレーム
毎に、入力音声信号から音声特徴ベクトルを抽出する。
音声区間検出部40は、入力音声信号から音声区間を検
出する。
The sound processing unit 38 extracts a voice feature vector from the input voice signal for each frame of a fixed time width.
The voice section detection unit 40 detects a voice section from the input voice signal.

【0310】照合部42は、請求項7の発明の第一実施
形態を実施するものであって、音声区間の始端フレーム
から終端フレームまでに抽出された音声特徴ベクトルの
時系列x1 、x2 、……、xT とヒドンマルコフモデル
との間の尤度ln{P(x1 、x2 、……、xT )}を、
次式(1)〜(3)を用いて求め、最大の尤度を得たヒ
ドンマルコフモデルに付与されているカテゴリを、当該
音声区間内の音声信号に対する認識結果とする。
The collation unit 42 implements the first embodiment of the invention of claim 7, and is the time series x 1 , x 2 of the voice feature vectors extracted from the start frame to the end frame of the voice section. , ..., The likelihood ln {P (x 1 , x 2 , ..., x T )} between x T and the Hidden Markov model is
The category given to the Hidden Markov model that has been obtained using the following equations (1) to (3) and has the maximum likelihood is used as the recognition result for the voice signal in the voice section.

【0311】[0311]

【数24】 (Equation 24)

【0312】但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i 尤度を求める際には、参照情報記憶部44に格納してあ
る参照確率bjiを用いて、t=1、2、……、Tの各場
合の前向き確率citを、次の如くして順次に求める。
However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that the initial state is S i in the Hidden Markov model a ji : Hidden Markov model At the state S j to the state S i in the above, x t : the speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, and the first frame corresponds to the speech section). The start frame and the T-th frame represent the end frame of the speech section) b ji (x t ): speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t to the state S i * i: State number i assigned to the state S i that is the final state in the Hidden Markov model When storing the likelihood, it is stored in the reference information storage unit 44. Using the given reference probability b ji , the forward probability c it for each case of t = 1, 2, ..., T is sequentially obtained as follows.

【0313】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、該参照確率bjiの書込み終了後に各参照確率bji
読み出して前向き確率citを求める処理(3A)を行な
う。そして処理(3A)の終了後、現フレーム番号tに
1を加算する処理(3B)を行なう。
(1). When t = 1, the forward probability reference frame number qc and the output probability reference frame number qs are initialized to 1, and all j and i are
Writing output probability b ji (x t) the probability that output determined from Hidden Markov Models b ji the (x t) as the initial value of the reference probability b ji, reads out the reference probability b ji after completion of writing of the reference probability b ji Processing (3A) for obtaining the forward probability c it . After the processing (3A) is completed, processing (3B) for adding 1 to the current frame number t is performed.

【0314】(2).2≦t≦Tのときは、現フレーム
番号tの音声特徴ベクトルxt と前向き確率基準フレー
ム番号qcの音声特徴ベクトルxqcとの間の距離dtc
を閾値DTCと比較する処理(3C)と、この処理(3
C)の比較結果がdtc≦DTCとなる場合に、前向き
確率citは直前フレームの前向き確率ci(t-1)に等しい
ものとして前向き確率citを求める演算を終了する処理
(3D)と、この処理(3C)の比較結果がdtc>D
TCとなる場合に、前向き確率基準フレーム番号qcを
現フレーム番号tに書き換える処理(3E)とを行な
う。
(2). 2 ≦ t when the ≦ T, the distance between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t dtc
Is compared with the threshold value DTC (3C), and this processing (3C)
When the comparison result of C) is dtc ≦ DTC, the forward probability c it is regarded as equal to the forward probability c i (t-1) of the immediately preceding frame, and the process of terminating the forward probability c it is finished (3D). , The comparison result of this process (3C) is dtc> D
If it becomes TC, the forward probability reference frame number qc is rewritten to the current frame number t (3E).

【0315】そして処理(3E)の終了後、現フレーム
番号tの音声特徴ベクトルxt と出力確率基準フレーム
番号qsの音声特徴ベクトルxqsとの間の距離dtsを
閾値DTSと比較し、当該比較結果がdts>DTSと
なる場合に、出力確率基準フレーム番号qsをフレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、参照確率
jiの書換え終了後に各参照確率bjiを読み出して前向
き確率citを求め、当該比較結果がdts≦DTSとな
る場合に、参照確率bjiの書き換えを行なわずに各参照
確率bjiを読み出して前向き確率citを求める処理(3
F)を行なう。
[0315] Then after the processing (3E), the distance dts between the speech feature vector x qs output probabilities reference frame number qs with speech feature vectors x t of the current frame number t is compared with a threshold DTS, the comparison When the result is dts> DTS, the output probability reference frame number qs is rewritten to the frame number t, and the output probabilities b ji (x t ) are obtained from the Hidden Markov model for all j and i, and the reference probabilities b ji are obtained. To the output probability b ji (x t ), read the reference probabilities b ji after the reference probabilities b ji have been rewritten, obtain the forward probabilities c it, and when the comparison result is dts ≦ DTS, the reference probabilities are without rewriting b ji reads each reference probability b ji seek forward probability c it processes (3
F).

【0316】そして処理(3D)若しくは(3F)の終
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
After the processing (3D) or (3F), the processing (3G) of adding 1 to the current frame number t is performed.

【0317】図16はヒドンマルコフモデルの説明に供
する図である。辞書部36に格納されているヒドンマル
コフモデル(Hidden Markov Model 。以下、HMM)
は、音声認識一単位分の音声信号を表現する。音声認識
の一単位は、単語単位、音素単位或はそのほかとするこ
とができるが、ここでは単語単位とする。各カテゴリz
毎に複数のHMMを用意し、HMMとカテゴリzとを相
対応付けて辞書部36に格納する。
FIG. 16 is a diagram for explaining the Hidden Markov Model. Hidden Markov Model (HMM) stored in the dictionary unit 36
Represents a voice signal for one unit of voice recognition. One unit of speech recognition can be a word unit, a phoneme unit, or another unit, but here, it is a word unit. Each category z
A plurality of HMMs are prepared for each, and the HMM and the category z are associated with each other and stored in the dictionary unit 36.

【0318】HMMは、総個数I個の状態S1 〜SI
ら成る状態の集合1と、音声特徴ベクトルxの集合2
と、状態遷移確率ajiの集合3と、出力確率bji(x) の
集合4と、初期状態確率Фi の集合5と、最終状態Fの
集合6とにより定義される。但し、
The HMM has a set 1 of states consisting of a total of I states S 1 to S I and a set 2 of speech feature vectors x.
, A set 3 of state transition probabilities a ji, a set 4 of output probabilities b ji (x), a set 5 of initial state probabilities Φ i , and a set 6 of final states F. However,

【0319】[0319]

【数25】 (Equation 25)

【0320】 i:i=1、2、……、I j:j=1、2、……、J aji:状態Sj から状態Si に遷移する確率 bji(x) :状態Sj から状態Si に遷移する際に音声特
徴ベクトルxが出力される確率 Фi :初期状態がSi である確率 例えば図14の例において、a12は状態S1 から状態S
2 に遷移する確率及びb12(x) は状態S1 から状態S2
に遷移したとき音声特徴ベクトルxが出力される確率、
またa22は状態S2 から状態S2 に遷移する確率及びb
22(x) は状態S 2 から状態S2 に遷移したとき音声特徴
ベクトルxが出力される確率を表す。
I: i = 1, 2, ..., I j: j = 1, 2, ..., J aji: State Sj To state Si Probability of transition to bji(x): State Sj To state Si When switching to
Probability that characteristic vector x is output Фi : Initial state is Si For example, in the example of FIG. 14, a12Is state S1 To state S
Two Probability of transition to and b12(x) is state S1 To state STwo 
The probability that the speech feature vector x is output when the transition to
Also atwenty twoIs state STwo To state STwo Probability of transition to and b
twenty two(x) is state S Two To state STwo Voice features when transitioning to
It represents the probability that the vector x will be output.

【0321】HMMを定義するための集合1〜6は、統
計的手法によって、各カテゴリz毎に個別に求められ
る。すなわちカテゴリzに対応する音声信号として種々
の音声信号を集め、例えば年齢別にもしくは性別毎に音
声信号を集め、或は、発声法の異なる音声信号を集め、
これら音声信号の統計的性質を表現する集合1〜6を求
める。
Sets 1 to 6 for defining the HMM are individually obtained for each category z by a statistical method. That is, various voice signals are collected as voice signals corresponding to the category z, for example, voice signals are collected by age or sex, or voice signals having different voicing methods are collected.
Sets 1 to 6 expressing the statistical properties of these audio signals are obtained.

【0322】出力確率bji(x) は、互いに無相関な複数
個の正規分布から成る無相関混合正規分布を用いて表現
されており、これら正規分布はそれぞれ音声特徴ベクト
ルxの関数となっている。無相関混合正規分布は、数学
的取り扱いが簡単でしかも表現能力が高いという利点を
有する。
The output probability b ji (x) is expressed by using a non-correlated mixed normal distribution consisting of a plurality of normal distributions that are uncorrelated with each other, and each of these normal distributions is a function of the speech feature vector x. There is. The decorrelated mixed normal distribution has the advantage of being easy to handle mathematically and having high expressiveness.

【0323】次に音声認識装置34の動作説明ととも
に、この実施形態の音声認識方法の処理の流れにつき具
体的に説明する。
Next, the operation flow of the voice recognition device 34 will be described, and the flow of processing of the voice recognition method of this embodiment will be specifically described.

【0324】音響処理部38は、入力音声信号から、各
フレーム毎に音声特徴ベクトルxt=(xt1、xt2、…
…、xtp)を抽出する。ここでpは音声特徴ベクトルx
t の次数及びxt1〜xtpは音声特徴ベクトルxt のベク
トル成分を表す。tは音声特徴ベクトルxt が抽出され
たフレームに付与されている番号である。後述するHM
Mとの照合の段階では音声区間の始端フレームのフレー
ム番号tを1として昇順に書き改められるが、音響処理
の時点では各フレームを識別できるようにフレーム番号
tを付与してあれば良い。
The sound processing unit 38 uses the input voice signal to output a voice feature vector x t = (x t 1, x t 2, ...) For each frame.
,, x t p) are extracted. Where p is the voice feature vector x
order and x t 1 to x t p to t represents a vector component of the speech feature vector x t. t is a number given to the frame from which the voice feature vector x t is extracted. HM described later
At the stage of matching with M, the frames are rewritten in ascending order with the frame number t of the starting frame of the voice section as 1, but at the time of the acoustic processing, the frame number t may be added so that each frame can be identified.

【0325】音声特徴ベクトルxt のベクトル成分とし
ては、例えば、中心周波数が異なる複数のバンドパスフ
ィルタから成る帯域フィルタ群に入力音声信号を入力し
たときの各フィルタ出力から得たものや、入力音声信号
をフーリエ解析して得られるパワースペクトル成分や、
或は、入力音声信号の線形予測分析すなわちLPC分析
により求められるLPCケプストラム係数を、用いるこ
とができる。ここでは帯域フィルタ群を用いて音声特徴
ベクトルxt を抽出する例につき説明する。
The vector component of the voice feature vector x t is, for example, one obtained from each filter output when an input voice signal is input to a band filter group consisting of a plurality of band pass filters having different center frequencies, or input voice signals. Power spectrum component obtained by Fourier analysis of the signal,
Alternatively, the LPC cepstrum coefficient obtained by the linear prediction analysis, that is, the LPC analysis of the input speech signal can be used. Here, an example of extracting the voice feature vector x t using a bandpass filter group will be described.

【0326】音響処理部38は、入力音声信号をアナロ
グ信号からデジタル信号に変換し、変換後の入力音声信
号を、帯域フィルタ群を介して、各バンドパスフィルタ
に対応した周波数帯(チャネル)の信号成分に分離し、
それぞれ周波数帯が異なる総個数p個の信号成分x1 〜
xp を得る。次いで音響処理部38は、信号成分x1を
整流し、フレーム単位に、整流した信号成分x1 (信号
成分x1 の絶対値)の平均値を得る。この平均値は、整
流した信号成分x1 を1フレーム分の時間幅で除して得
られる。第t番目のフレームにおいて得られる信号成分
x1 の平均値を、音声特徴ベクトルxt の成分xt1とし
て抽出する。同様にして、残りの信号成分x2 〜xp か
ら、音声特徴ベクトルxt の成分xt2〜xtpを抽出す
る。
The acoustic processing unit 38 converts the input audio signal from an analog signal into a digital signal, and outputs the converted input audio signal through a band filter group to a frequency band (channel) corresponding to each band pass filter. Separated into signal components,
The total number p of signal components x1 ...
Get xp. Next, the acoustic processing unit 38 rectifies the signal component x1 and obtains an average value of the rectified signal component x1 (absolute value of the signal component x1) in frame units. This average value is obtained by dividing the rectified signal component x1 by the time width of one frame. The average value of the signal component x1 obtained in the t-th frame is extracted as component x t 1 of the audio feature vector x t. Similarly, from the remaining signal components x2 ~Xp, it extracts the component x t 2~x t p of a speech feature vector x t.

【0327】次に音声区間検出部40は、音響処理部3
8からの音声特徴ベクトルxt に基づいて、音声区間の
始端フレーム及び終端フレームを検出し、どのフレーム
が音声区間の始端フレーム及び終端フレームであるかを
表す区間情報を生成する。音声区間は、音声認識一単位
分の音声信号ここでは単語1個分の音声信号が含まれる
区間である。
Next, the voice section detecting section 40 includes the sound processing section 3
Based on the voice feature vector x t from 8, the start frame and the end frame of the voice section are detected, and the section information indicating which frame is the start frame and the end frame of the voice section is generated. The voice section is a section in which a voice signal for one unit of voice recognition is included here.

【0328】照合部42は、区間情報と音声特徴ベクト
ルxt とを音声区間検出部40から入力して、音声区間
の始端フレームから終端フレームまでに抽出された音声
特徴ベクトルxt の時系列x1 、x2 、……、xT を生
成する。この際、始端フレームのフレーム番号tを1と
して、音声区間の始端フレームから終端フレームまでの
フレーム番号tを昇順に書き改める。
The collation unit 42 inputs the section information and the voice feature vector x t from the voice section detection unit 40, and the time series x of the voice feature vector x t extracted from the start frame to the end frame of the voice section. Generate 1 , x 2 , ..., X T. At this time, the frame number t of the start frame is set to 1, and the frame numbers t from the start frame to the end frame of the voice section are rewritten in ascending order.

【0329】そして照合部42はベクトル時系列x1
2 、……、xT と辞書部36に格納されているHMM
との間の尤度ln{P(x1 、x2 、……、xT )}を、
辞書部36の各HMM毎に個別に求め、最大の尤度を得
たHMMに対し付与されているカテゴリzを、認識結果
として出力する。
The collating unit 42 then calculates the vector time series x 1 ,
x 2 , ..., X T and the HMM stored in the dictionary unit 36
And the likelihood ln {P (x 1 , x 2 , ..., X T )} between
The category z given to each HMM of the dictionary unit 36 is individually obtained and the maximum likelihood is obtained, and the category z is output as the recognition result.

【0330】ここで、式(1)で示されるP(x1 、x
2 、……、xT )は、HMMにおいてベクトル時系列x
1 、x2 、……、xT が出現する確率である。
Here, P (x 1 , x represented by the equation (1)
2 , ..., x T ) is the vector time series x in the HMM.
It is the probability that 1 , x 2 , ..., x T will appear.

【0331】[0331]

【数26】 (Equation 26)

【0332】(1)式中のciTは、HMMにおいて初期
状態から遷移を開始しベクトル時系列x1 、x2 、…
…、xT を出力して状態Si に至る前向き確率、*iは
i ∈Fを満たすi(最終状態Fに属する状態Si に付
与されている番号i)であって、従ってi=*iとなる
前向き確率ciTのなかで最大の前向き確率ciTを、出現
確率P(x1 、x2 、……、xT )とするものである。
C iT in the equation (1) is a vector time series x 1 , x 2 , ...
..., the forward probability of outputting x T to reach the state S i , * i is i (the number i assigned to the state S i belonging to the final state F) that satisfies S i εF, and thus i = The maximum forward probability c iT among the forward probabilities c iT of * i is defined as the appearance probability P (x 1 , x 2 , ..., X T ).

【0333】前向き確率ciTは、ビタビアルゴリズムに
より、式(2)〜(3)に示す漸化式を用いて近似的に
求められる。 ci0=Фi ……(2)
The forward probability c iT is approximately obtained by the Viterbi algorithm using the recurrence formulas shown in the equations (2) to (3). c i0 = Ф i (2)

【0334】[0334]

【数27】 [Equation 27]

【0335】HMMにおいて、音声特徴ベクトルxt
出力する状態遷移は一又は複数存在する。従って初期状
態からベクトル系列x1 〜xt を出力して状態Si に至
る遷移パスは一つ又は複数存在し、ほとんどの場合に複
数の遷移パスが存在する。そこで式(3)に示されるよ
うに、各遷移パス毎に計算したcj(t-1)jiji(xt)の
うち最大のcj(t-1)jiji(xt)を前向き確率citとす
る。この計算方法は、ビタビ法と呼ばれている。
In the HMM, there are one or more state transitions that output the voice feature vector x t . Therefore, there is one or a plurality of transition paths from the initial state to output the vector series x 1 to x t to reach the state S i , and in most cases, there are a plurality of transition paths. Therefore, as shown in Expression (3), the maximum c j (t-1) a ji b ji (x of the c j (t-1) a ji b ji (x t ) calculated for each transition path is obtained. Let t ) be the forward probability c it . This calculation method is called the Viterbi method.

【0336】(3)式中の出力確率bji(xt)を、ここで
は次式(4)の如く定義する。
The output probability b ji (x t ) in the equation (3) is defined as in the following equation (4).

【0337】[0337]

【数28】 [Equation 28]

【0338】但し、 m=1、2、……、M gjim(xt) :総個数M個の正規分布から成る無相関混合
正規分布において第m番目の正規分布から算出される音
声特徴ベクトルxt の重み付け確率 (4)式中の重み付け確率gjim(xt) は、次式(5)〜
(7)を用いて表される。
However, m = 1, 2, ..., M g jim (x t ): A speech feature vector calculated from the m-th normal distribution in the uncorrelated mixed normal distribution consisting of M normal distributions. Weighting probability of x t The weighting probability g jim (x t ) in the expression (4) is expressed by the following expression (5)-
It is expressed using (7).

【0339】 gjim(xt) =λjimjim(xt) ……(5) bjim(xt) =(2π)-p/2|ρjim-1/2 exp{−Djimt 2 /2} ……(6) Djimt 2 =(xt −μjim )’ρjim -1(xt −μjim ) ……(7) λjim :第m番目の正規分布の重み bjim(xt) :第m番目の正規分布から算出される音声特
徴ベクトルxt の重み無し確率 ρjim :第m番目の正規分布の分散・供分散行列 μjim :第m番目の正規分布の平均ベクトル Djimt:音声特徴ベクトルxt と第m番目の正規分布と
の間の距離を表すマハラビスの汎距離 (xt −μjim )’:(xt −μjim )の転置行列 尚、出力確率bji(xt)としては種々のものを用いること
ができ、(4)式のもののほか例えば、次式(8)の如
く定義したものを用いても良い。(8)式は、総個数M
個の正規分布から成る無相関混合正規分布において個々
の正規分布から算出される重み付け確率gjim(xt) のう
ち最大の重み付け確率gjim(xt) を、出力確率bji(xt)
として検出することを表す。
G jim (x t ) = λ jim b jim (x t ) ... (5) b jim (x t ) = (2π) −p / 2 │ρ jim-1/2 exp {−D jimt 2/2} ...... (6) D jimt 2 = (x t -μ jim) 'ρ jim -1 (x t -μ jim) ...... (7) λ jim: weight b jim of the m-th normal distribution (x t ): Unweighted probability of the speech feature vector x t calculated from the m-th normal distribution ρ jim : Covariance / covariance matrix of the m-th normal distribution μ jim : Mean of the m-th normal distribution Vector D jimt : Mahalabis's general distance (x t −μ jim ) ′: transposed matrix of (x t −μ jim ), which represents the distance between the voice feature vector x t and the m-th normal distribution. Various types of b ji (x t ) can be used, and in addition to the formula (4), for example, a formula defined as the following formula (8) may be used. Equation (8) is the total number M
Number of regular weights probability in the distribution uncorrelated Gaussian Mixture consisting calculated from individual normal distribution g jim largest weighted probability g jim (x t) of the (x t), the output probability b ji (x t)
It means to detect as.

【0340】[0340]

【数29】 (Equation 29)

【0341】さらに対数化した遷移確率Aji=ln
(aji)、対数化した出力確率Bji(xt)=ln{b
ji(xt)}、及び、対数化した前向き確率Cit=ln
(cit)と表せば、式(1)〜(3)を変形して、尤度
ln{P(x1 、x2 、……、xt )}の算出に関する
(9)〜(11)式が得られる。
Further logarithmic transition probability A ji = ln
(A ji ), logarithmic output probability B ji (x t ) = ln {b
ji (x t )} and the logarithmic forward probability C it = ln
When expressed as (c it ), the likelihoods are modified by modifying equations (1) to (3).
Equations (9) to (11) relating to the calculation of ln {P (x 1 , x 2 , ..., X t )} are obtained.

【0342】[0342]

【数30】 [Equation 30]

【0343】(9)〜(11)式はtの漸化式であるか
ら、t=1、2、……、Tのときの対数化した前向き確
率Citを、次式(12)〜(16)の如く順次に計算で
きる。
Since the expressions (9) to (11) are recurrence expressions of t, the logarithmized forward probability C it when t = 1, 2, ..., T is expressed by the following expressions (12) to (12). It can be calculated sequentially as in 16).

【0344】[0344]

【数31】 (Equation 31)

【0345】HMM照合部42は、i=1、2、……、
Iの全てのiにつきt=Tの対数化した前向き確率CiT
を得ると、i=*iなる対数化した前向き確率CiTのな
かで最大のCiTを、尤度ln{P(x1 、x2 、……、x
T )}として得る。辞書部36に格納されているすべて
のHMMについて、各HMM毎に、尤度ln{P(x1
2 、……、xT )}を求め、最大の尤度を得たHMM
に付与されているカテゴリzを、当該時系列x1 、x
2 、……、xT を得た入力音声信号に対する認識結果と
して出力する。
The HMM matching unit 42 uses i = 1, 2, ...,
Logarithmic forward probability C iT of t = T for all i in I
, The maximum C iT among the logarithmic forward probabilities C iT with i = * i is calculated as the likelihood ln {P (x 1 , x 2 , ..., X
T )}. For all HMMs stored in the dictionary unit 36, the likelihood ln {P (x 1 ,
x 2 , ..., x T )} is obtained and the maximum likelihood is obtained.
The category z given to the time series x 1 , x
2 , ..., x T is output as the recognition result for the input voice signal.

【0346】次に請求項7の発明の第一実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
17〜図19はこの1個のHMMに着目した処理の流れ
を示す図である。この例では、出力確率bji(xt)、前向
き確率cit及び参照確率bjiをそれぞれ、対数化した出
力確率Bji(xt)、対数化した前向き確率Cit及び対数化
した参照確率Bjiとし、i=j=1、2、……、Iとし
て説明する。
Next, in the first embodiment of the invention as claimed in claim 7, time series x 1 , x 2 , ... Of HMM and voice feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. 17 to 19 are diagrams showing the flow of processing focusing on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0347】照合部42は、区間情報及び音声特徴ベク
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are inputted from the speech section detecting section 40, the collating section 42 receives i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0348】次に照合部42は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collation unit 42 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0349】次に照合部42は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した参
照確率Bjiの初期値として書き込む(S4)。
Next, the collation unit 42 determines that j = 1, 2, ..., J
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as the initial value of the logarithmic reference probability B ji (S4).

【0350】参照情報記憶部44には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域save Bjiを設けて
ある。従って参照情報記憶部44は、参照確率B11、B
12、……、B1I、B21、B22、……、B2I、……、
J1、BJ2、……、BJIをそれぞれ個別に格納するJ×
I個の格納領域を有する。そこで図にあっては、参照確
率Bjiの初期値を格納する処理を、save Bji=Bji(x1)
と表している。
In the reference information storage section 44, j = 1, 2, ...
, J and i = 1, 2, ..., I are respectively provided with storage areas save B ji for storing the reference probabilities B ji . Therefore, the reference information storage unit 44 stores the reference probabilities B 11 , B
12 , ……, B 1I , B 21 , B 22 , ……, B 2I , ……,
B J1 , B J2 , ..., B JI are stored separately J ×
It has I storage areas. Therefore, in the figure, the process of storing the initial value of the reference probability B ji is performed as save B ji = B ji (x 1 )
It is expressed as

【0351】次に照合部42は、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化する(S5)。
Next, the collation unit 42 initializes the forward probability reference frame number qc and the output probability reference frame number qs to the current frame number 1 (S5).

【0352】然る後、i=1、2、……、Iの全てのi
について、対数化した前向き確率Ci1を式(11)に従
って求める(S6)。
After that, all i in i = 1, 2, ..., I
The logarithmic forward probability C i1 is calculated according to the equation (11) (S6).

【0353】次に照合部42は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collation unit 42 adds 1 to the current frame number t in order to process the next frame in the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame are added. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0354】(3−1A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、照合部42は現フレーム番号tの音声特徴
ベクトルxt と前向き確率基準フレーム番号qcの音声
特徴ベクトルxqcとの間の距離dtcを、次式(19)
に従って求める(S9)。
(3-1A: When t ≦ T in S8) If the current frame number t is equal to or smaller than the end frame number T in S8, the processing has not been completed for all the frames in the voice section, and thus the comparison is performed. part 42 a distance dtc between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t, the following equation (19)
(S9).

【0355】[0355]

【数32】 (Equation 32)

【0356】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqck :前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcのベクトル成分 次に照合部42は、距離dtcと閾値DTCとを比較し
てこれらベクトルxt及びxqcが近似的に等しいか否か
を判定する(S10)。
However, x t k: vector component of the voice feature vector x t of the current frame number t x qc k: vector component of the voice feature vector x qc of the forward probability reference frame number qc Next, the matching unit 42 determines the distance dtc. And the threshold value DTC are compared to determine whether or not these vectors x t and x qc are approximately equal (S10).

【0357】S10で距離dtcが閾値DTC以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は前向き確率基準フレーム番号qcの音声特徴ベクトル
qcに近似し従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が小さいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できる。そこで現フレーム番号tの前向き確率C
itは直前フレームの前向き確率Ci(t-1)に等しいものと
して、前向き確率Citを求める演算を終了する(S1
1)。然る後、音声区間の次のフレームにつき処理を行
なうべくS7の処理に戻る。
If the distance dtc is less than or equal to the threshold value DTC in S10, the voice feature vector x t of the current frame number t.
Is close to the voice feature vector x qc of the forward probability reference frame number qc, and therefore the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qc of the forward probability reference frame number qc. t
The forward probability C it of is the forward probability C i (t-1) of the immediately preceding frame.
Can be approximated by Therefore, the forward probability C of the current frame number t
It is assumed that it is equal to the forward probability C i (t-1) of the immediately preceding frame, and the calculation for obtaining the forward probability C it is completed (S1).
1). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0358】S10で距離dtcが閾値DTCを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
前向き確率基準フレーム番号qcの音声特徴ベクトルx
qcに近似せず従って現フレーム番号tの音声特徴ベクト
ルxt は前向き確率基準フレーム番号qcの音声特徴ベ
クトルxqcからの変化が大きいので、現フレーム番号t
の前向き確率Citは直前フレームの前向き確率Ci(t-1)
で近似できない。そこで前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S12)。
When the distance dtc exceeds the threshold value DTC in S10, the voice feature vector x t of the current frame number t is the voice feature vector x t of the forward probability reference frame number qc.
Since the speech feature vector x t approximation without therefore current frame number t in qc large change from the speech feature vector x qc of forward probabilities reference frame number qc, the current frame number t
The forward probability C it of is the forward probability C i (t-1) of the immediately preceding frame.
Cannot be approximated with. Therefore, the forward probability reference frame number q
c is rewritten to the current frame number t (S12).

【0359】そしてS12の終了後、照合部42は現フ
レーム番号tの音声特徴ベクトルxt と出力確率基準フ
レーム番号qsの音声特徴ベクトルxqsとの間の距離d
tsを、次式(17)に従って求める(S13)。
[0359] Then, after completion of S12, the distance between the matching unit 42 speech feature vectors x t and the output probability reference frame number qs speech feature vector x qs of the current frame number t d
ts is calculated according to the following equation (17) (S13).

【0360】[0360]

【数33】 [Equation 33]

【0361】但し、 xtk:現フレーム番号tの音声特徴ベクトルxt のベク
トル成分 xqsk :基準フレーム番号qsの音声特徴ベクトルxqs
のベクトル成分 次に照合部42は、距離dtsと閾値DTSとを比較し
てこれらベクトルxt及びxqsが近似的に等しいか否か
を判定する(S14)。
However, x t k: vector component of the voice feature vector x t of the current frame number t x qs k: voice feature vector x qs of the reference frame number qs
Next, the matching unit 42 compares the distance dts with the threshold value DTS and determines whether or not these vectors x t and x qs are approximately equal (S14).

【0362】S14で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)を参照確率Bjiで近似できない。そこで
出力確率基準フレーム番号qsを現フレーム番号tに書
き換える(S15)。然る後、j=1、2、……、J及
びi=1、2、……、Iの全てのj、iについて、対数
化した出力確率Bji(xt)を式(4)〜(7)に従って求
め、参照確率Bjiを、当該出力確率Bji(xt)に書き換え
る(S16)。この参照確率Bjiの書換え終了後に各参
照確率Bjiを読み出し、i=1、2、……、Iの全ての
iについて、前向き確率Citを式(11)に従って求め
る(S13)。然る後、音声区間の次のフレームにつき
処理を行なうべくS7の処理に戻る。尚、S16で参照
確率Bjiを書き換える処理を、図にあってはsave Bji
Bji(xt) と表している。
If the distance dts exceeds the threshold value DTS in S14, the voice feature vector x t of the current frame number t is the voice feature vector x qs of the output probability reference frame number qs.
Therefore, since the voice feature vector x t of the current frame number t has a large change from the voice feature vector x qs of the output probability reference frame number qs, refer to the output probability B ji (x t ) of the current frame number t. It cannot be approximated with the probability B ji . Therefore, the output probability reference frame number qs is rewritten to the current frame number t (S15). After that, logarithmized output probabilities B ji (x t ) for all j and i of j = 1, 2, ..., J and i = 1, 2 ,. Obtained according to (7), the reference probability B ji is rewritten to the output probability B ji (x t ) (S16). After the rewriting of the reference probabilities B ji, the reference probabilities B ji are read out, and the forward probabilities C it for all i of i = 1, 2, ..., I are calculated according to the equation (11) (S13). After that, the process returns to S7 so as to perform the process for the next frame of the voice section. The process of rewriting the reference probability B ji in S16 is save B ji =
It is expressed as B ji (x t ).

【0363】この場合のS17で読み出した参照確率B
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では、現フ
レーム番号tの出力確率Bji(xt)を用いて、前向き確率
itを求めることとなる。
Reference probability B read in S17 in this case
ji is the output probability B ji (x t ) of the current frame number t obtained in S16. Therefore, in S17 of this case, the forward probability C is calculated using the output probability B ji (x t ) of the current frame number t. It will ask for it.

【0364】またS14で距離dtsが閾値DTS以下
である場合には、現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsに近似的に等しく従って現フレーム番号tの音声
特徴ベクトルxt は出力確率基準フレーム番号qsの音
声特徴ベクトルxqsからの変化が小さいので、現フレー
ム番号tの出力確率Bji(xt)は参照確率Bjiで近似でき
る。そこで出力確率Bji(xt)を式(4)〜(7)を用い
て算出せずに、各参照確率Bjiを読み出し、i=1、
2、……、Iの全てのiについて、対数化した前向き確
率Citを式(11)に従って求める(S17)。然る
後、音声区間の次のフレームにつき処理を行なうべくS
7の処理に戻る。
If the distance dts is less than or equal to the threshold value DTS in S14, the voice feature vector x t of the current frame number t is approximately equal to the voice feature vector x qs of the output probability reference frame number qs, and therefore the current frame number. Since the voice feature vector x t of t has a small change from the voice feature vector x qs of the output probability reference frame number qs, the output probability B ji (x t ) of the current frame number t can be approximated by the reference probability B ji . Therefore, each reference probability B ji is read out without calculating the output probability B ji (x t ) using the equations (4) to (7), and i = 1,
The logarithmic forward probability C it is calculated for all i of 2, ..., I according to the equation (11) (S17). After that, S is executed to process the next frame of the voice section.
It returns to the process of 7.

【0365】この場合のS17で読み出した参照確率B
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xqs) であり、従ってこの場合のS17
では、出力確率基準フレーム番号qsの出力確率Bji(x
qs) を用いて前向き確率Citを求めることとなる。
Reference probability B read in S17 in this case
ji is the output probability B ji (x qs ) obtained in the frame of the output probability reference frame number qs, and thus S17 in this case.
Then, the output probability B ji (x of the output probability reference frame number qs
The forward probability C it is calculated using qs ).

【0366】(3−1B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトル時系列x1 、x2 、……、x
T とHMMとの間の尤度ln{P(x1 、x2 、……、x
T )}として得、然る後、当該HMMにつき尤度を求め
る処理を終了する(終了)。
(3-1B: When t> T in S8) When the current frame number t is larger than the frame number T of the end frame in S8, i = 1, 2, ... since finished sought forward probability C iT, wherein i = * i maximum forward probability C iT of the forward probability C iT comprising the following (9), the speech feature vector time series x 1, x 2, ......, x
Likelihood ln {P (x 1 , x 2 , ..., X between T and HMM
T )}, and after that, the process of calculating the likelihood for the HMM is ended (end).

【0367】照合部42は、辞書部36に格納されてい
る全てのHMMについて、各HMM毎に図17〜図19
に示すS1〜S17の処理を行なって尤度(前向き確率
iT)を求め、そして最大の尤度を得たHMMのカテゴ
リを、当該音声特徴ベクトルの時系列x1 、x2 、…
…、xT を抽出した入力音声信号に対する認識結果とし
て、次段の装置(図示せず)へ出力する。
The collation unit 42, for all the HMMs stored in the dictionary unit 36, is shown in FIGS.
, The likelihood (forward probability C iT ) is obtained by performing the processes of S1 to S17, and the category of the HMM for which the maximum likelihood is obtained is the time series x 1 , x 2 , ... Of the speech feature vector.
, X T are output to a device (not shown) in the next stage as a recognition result for the extracted input voice signal.

【0368】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、前向き確率
itに関わる距離dtcが閾値DTCとなる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算も前
向き確率Citを式(3)若しくは式(11)から求める
演算も行なわずに、前向き確率Citは直前フレームの前
向き確率Ci(t-1)に等しいものとして前向き確率Cit
求める演算を終了する。さらに出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に、出力確率
ji(xt)を式(4)〜(7)から求める演算を行なわず
に、参照確率Bjiを用いて前向き確率Citを求めるの
で、演算量を大幅に削減できる。しかもこのような演算
の簡略化は、前向き確率Citに関わる距離dtcが閾値
DTC以下となる場合若しくは出力確率Bji(xt)に関わ
る距離dtsが閾値DTS以下となる場合に行なうの
で、演算を簡略化しても、前向き確率Citの誤差を小さ
くすることができる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT In the process of obtaining C iT , when the distance dtc related to the forward probability C it becomes the threshold value DTC, the output probability B ji (x t ) is calculated from the equations (4) to (7). even without also calculation for obtaining the forward probability C it from equation (3) or formula (11), the forward probability C it obtains the forward probability C it as equal to forward immediately preceding frame probability C i (t-1) The calculation ends. If the further distance dts is equal to or less than the threshold DTS associated with the output probability B ji (x t), without calculation for obtaining the output probabilities B ji the (x t) from equation (4) to (7), the reference probability B Since the forward probability C it is calculated using ji , the amount of calculation can be significantly reduced. Moreover, such simplification of the calculation is performed when the distance dtc related to the forward probability C it is less than or equal to the threshold DTC or when the distance dts related to the output probability B ji (x t ) is less than or equal to the threshold DTS. Even if is simplified, the error of the forward probability C it can be reduced.

【0369】この出願の発明者のシミュレーション結果
によれば、前向き確率Citを得るための演算量が、演算
の簡略化を行なわない場合の約1/2となるように、前
向き確率Citに関わる閾値DTCを定め、かつ、出力確
率Bji(xt)を得るための演算量が、演算の簡略化を行な
わない場合の約1/5となるように、出力確率Bji(xt)
に関わる閾値DTSを定めても、音声認識の精度低下は
ほとんど見られなかった。
[0369] According to the inventor of the simulation results of this application, as the amount of calculation for obtaining the forward probability C it is approximately 1/2 of the case of not performing the simplification of calculation, the forward probability C it defining a threshold DTC involved, and the output probability B ji (x t) calculation amount for obtaining the found to be about 1/5 of the case of not performing the simplification of the operation, the output probability B ji (x t)
Even if the threshold value DTS related to is determined, the accuracy of voice recognition is hardly decreased.

【0370】<請求項7の発明の第二実施形態>請求項
7の発明の第二実施形態の実施に用いて好適な音声認識
装置としては、照合部42を次に述べる如く構成するほ
かは、上述した構成と同様の構成の音声認識装置34を
用いることができる。
<Second Embodiment of the Invention of Claim 7> As a voice recognition apparatus suitable for carrying out the second embodiment of the invention of claim 7, the collation unit 42 is configured as follows. The voice recognition device 34 having the same configuration as the above can be used.

【0371】すなわち照合部42は、尤度を求める際
に、参照情報記憶部44に格納してある参照確率bji
用いて、t=1、2、……、Tの各場合の前向き確率c
itを、次ぎの如くして順次に求める。
That is, the collation unit 42 uses the reference probability b ji stored in the reference information storage unit 44 when obtaining the likelihood, and the forward probability in each case of t = 1, 2, ..., T. c
It is calculated sequentially as follows.

【0372】(1).t=1のときは、前向き確率基準
フレーム番号qc、出力確率基準フレーム番号qsをそ
れぞれ1に、及び、前向き確率スキップ数skipc、
出力確率スキップ数skipsをそれぞれ0に初期化す
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求め当該出力確率bji(xt)を
参照確率bjiの初期値として書き込み、この参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(3A)を行なう。そして処理
(3A)の終了後、現フレーム番号tに1を加算する処
理(3B)を行なう。
(1). When t = 1, the forward probability reference frame number qc and the output probability reference frame number qs are set to 1, respectively, and the forward probability skip number skipc,
Is initialized to output probability skip number skips to 0 respectively, all j, for i, the output probability b ji (x t) from hidden Markov model determined reference probability b ji the output probability b ji (x t) The reference probability b is written as the initial value.
After the writing of ji is finished, the reference probability b ji is read out and the forward probability c it is calculated (3A). After the processing (3A) is completed, processing (3B) for adding 1 to the current frame number t is performed.

【0373】(2).2≦t≦Tのときは、前向き確率
スキップ数skipcを閾値NSKIPCと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcを閾値DTCと比較する処理(3C)
と、この処理(3C)の比較結果がskipc≦NSK
IPCかつdtc≦DTCとなる場合に、前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了すると共に前向
き確率スキップ数skipc、出力確率スキップ数sk
ipsにそれぞれ、1を加算する処理(3D)と、この
処理(3C)の比較結果がskipc>NSKIPC若
しくはdtc>DTCとなる場合に、前向き確率スキッ
プ数skipcを0に初期化し、及び、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える処理
(3E)とを行なう。
(2). When the 2 ≦ t ≦ T, the forward probability skip number skipc with is compared with a threshold value NSKIPC, the distance between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t Process of comparing dtc with threshold DTC (3C)
And the comparison result of this processing (3C) is skipc ≦ NSK
Forward probability c when IPC and dtc ≦ DTC
It is assumed that it is equal to the forward probability c i (t−1) of the immediately preceding frame, and the calculation of the forward probability c it is completed, and the forward probability skip number skippc and the output probability skip number sk
When the comparison result of the process (3D) of adding 1 to ips and the process (3C) is skipc> NSKIPC or dtc> DTC, the forward probability skip number skippc is initialized to 0, and the forward probability. A process (3E) of rewriting the reference frame number qc to the current frame number t is performed.

【0374】そして処理(3E)の終了後、出力確率ス
キップ数skipsを閾値NSKIPSと比較すると共
に、現フレーム番号tの音声特徴ベクトルxt と出力確
率基準フレーム番号qsの音声特徴ベクトルxqsとの間
の距離dtsを閾値DTSと比較し、当該比較結果がs
kips>NSKIPS若しくはdts>DTSとなる
場合に、出力確率スキップ数skipsを0に初期化
し、及び、出力確率基準フレーム番号qsを現フレーム
番号tに書き換えると共に、全てのj、iについて、出
力確率bji(xt)をヒドンマルコフモデルから求めて参照
確率bjiを当該出力確率bji(xt)に書き換え、この参照
確率bjiの書換え終了後に各参照確率bjiを読み出して
前向き確率citを求め、当該比較結果がskips≦N
SKIPSかつdts≦DTSとなる場合に、出力確率
スキップ数skipsに1を加算すると共に、参照確率
ji(xt)の書換えを行なわずに各参照確率bjiを読み出
して前向き確率citを求める処理(3F)を行なう。
[0374] Then after the processing (3E), together with comparing the output probability skip number skips a threshold NSKIPS, the speech feature vector x t and the output probability reference frame number qs of the current frame number t of the audio feature vector x qs The distance dts between them is compared with the threshold value DTS, and the comparison result is s.
When kips> NSKIPS or dts> DTS, the output probability skip number skips is initialized to 0, the output probability reference frame number qs is rewritten to the current frame number t, and the output probability b is set for all j and i. ji (x t) rewriting the reference probability b ji determined from hidden Markov model to the output probability b ji (x t), the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji And the comparison result is skips ≦ N.
When SKIPS and dts ≦ DTS are satisfied, 1 is added to the output probability skip number skips, and each reference probability b ji is read without rewriting the reference probability b ji (x t ) to obtain the forward probability c it . Process (3F) is performed.

【0375】そして処理(3D)若しくは(3F)の終
了後、現フレーム番号tに1を加算する処理(3G)を
行なう。
After the processing (3D) or (3F), the processing (3G) of adding 1 to the current frame number t is performed.

【0376】次に請求項7の発明の第二実施形態におい
て、HMMと音声特徴ベクトルの時系列x1 、x2 、…
…、xT との間の尤度を求める処理の流れであって、1
個のHMMに着目した処理の流れについて説明する。図
20〜図22は、この1個のHMMに着目した処理の流
れを示す図である。この例では、出力確率bji(xt)、前
向き確率cit及び参照確率bjiをそれぞれ、対数化した
出力確率Bji(xt)、対数化した前向き確率Cit及び対数
化した参照確率Bjiとし、i=j=1、2、……、Iと
して説明する。
Next, in the second embodiment of the invention of claim 7, the time series x 1 , x 2 , ... Of the HMM and the voice feature vector.
,, the flow of the process of obtaining the likelihood between x T and 1
The flow of processing focused on individual HMMs will be described. 20 to 22 are diagrams showing the flow of processing focusing on this one HMM. In this example, the output probability b ji (x t ), the forward probability c it, and the reference probability b ji are logarithmized output probability B ji (x t ), logarithmic forward probability C it, and logarithmic reference probability, respectively. B ji and i = j = 1, 2, ..., I.

【0377】照合部42は、区間情報及び音声特徴ベク
トルxt を音声区間検出部40から入力すると、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率の初期値Ci0を式(10)に従って設定する(S
1)。
When the section information and the speech feature vector x t are input from the speech section detecting section 40, the collating section 42 receives i =
For all i of 1, 2, ..., I, the initial value C i0 of the forward probability logarithmized is set according to the equation (10) (S).
1).

【0378】次に照合部42は、音声区間の始端フレー
ムにつき処理を行なうべく現フレーム番号tをt=1に
初期化する(S2)。
Next, the collating unit 42 initializes the current frame number t to t = 1 in order to process the start frame of the voice section (S2).

【0379】次に照合部42は、j=1、2、……、J
及びi=1、2、……、Iの全てのj、iについて、対
数化した出力確率Bji(x1)を式(4)〜(7)に従って
求め(S3)、当該出力確率Bji(x1)を、対数化した出
力確率Bjiの初期値として書き込む(S4)。
Next, the collation unit 42 determines that j = 1, 2, ..., J
And i = 1, 2, ..., I, logarithmized output probabilities B ji (x 1 ) are obtained according to equations (4) to (7) (S3), and the output probabilities B ji are obtained. (x 1 ) is written as the initial value of the logarithmic output probability B ji (S4).

【0380】参照情報記憶部44には、j=1、2、…
…、J及びi=1、2、……、Iの各j、i毎に個別
に、参照確率Bjiを格納する格納領域をsave Bjiを設け
てある。従って参照情報記憶部44は、出力参照確率B
11、B12、……、B1I、B21、B22、……、B2I、…
…、BJ1、BJ2、……、BJIをそれぞれ個別に格納する
J×I個の格納領域を有する。そこで図にあっては、参
照確率Bjiの初期値を格納する処理を、save Bji=B
ji(x1) と表している。
In the reference information storage section 44, j = 1, 2, ...
, J and i = 1, 2, ..., I, respectively, save B ji is provided as a storage area for storing the reference probability B ji for each j and i. Therefore, the reference information storage unit 44 determines that the output reference probability B
11 , B 12 , ..., B 1I , B 21 , B 22 , ..., B 2I , ...
, B J1 , B J2 , ..., B JI are respectively stored in J × I storage areas. Therefore, in the figure, the process of storing the initial value of the reference probability B ji is performed as save B ji = B
It is expressed as ji (x 1 ).

【0381】次に照合部42は、前向き確率基準フレー
ム番号qc、出力確率基準フレーム番号qsをそれぞれ
現フレーム番号1に初期化すると共に、前向き確率スキ
ップ数skipc、出力確率スキップ数skipsをそ
れぞれ0に初期化する(S5)。然る後、照合部42
は、i=1、2、……、Iの全てのiについて、対数化
した前向き確率Ci1を式(11)に従って求める(S
6)。
Next, the collation unit 42 initializes the forward probability reference frame number qc and the output probability reference frame number qs to the current frame number 1, and sets the forward probability skip number skipc and the output probability skip number skips to 0, respectively. Initialize (S5). After that, the collating unit 42
Calculates the logarithmic forward probability C i1 according to the equation (11) for all i = 1, 2, ..., I (S
6).

【0382】次に照合部42は、音声区間の次のフレー
ムにつき処理を行なうべく現フレーム番号tに1を加算
し(S7)、然る後、現フレーム番号tと終端フレーム
のフレーム番号Tとを比較して音声区間内の全てのフレ
ームにつき処理を終了したか否かを判定する(S8)。
Next, the collation unit 42 adds 1 to the current frame number t in order to process the next frame of the voice section (S7), and thereafter, the current frame number t and the frame number T of the end frame are compared. Are compared to determine whether the processing has been completed for all the frames in the voice section (S8).

【0383】(3−2A:S8でt≦Tの場合)S8で
現フレーム番号tが終端フレームの番号T以下である場
合は、音声区間の全てのフレームにつき処理を終了して
いないので、前向き確率スキップ数skipcと閾値N
SKIPCとの比較判定を行なう(S9)。
(3-2A: When t ≦ T in S8) If the current frame number t is equal to or less than the end frame number T in S8, the processing has not been completed for all the frames in the voice section, so that it is forward-looking. Probability skip number skipc and threshold N
A comparison determination with SKIPC is performed (S9).

【0384】S9で前向き確率スキップ数skipcが
閾値NSKIPCを越える場合は、現フレーム番号tの
前向き確率Citを直前フレームの前向き確率Ci(t-1)
近似して前向き確率Citを求める演算を終了した回数s
kipcが閾値NSKIPCを越えるので現フレーム番
号tと前向き確率基準フレーム番号qcとの時間的隔た
りが大きくなり、従って誤差が増大する可能性が高い。
そこで参照確率Bjiを読み出して前向き確率Citを求め
ることとなるので、前向き確率スキップ数skipcを
0に初期化すると共に、前向き確率基準フレーム番号q
cを現フレーム番号tに書き換える(S10)。
If the number of forward probability skips skippc exceeds the threshold value NSKIPC in S9, the forward probability C it of the current frame number t is approximated by the forward probability C i (t-1) of the immediately preceding frame to obtain the forward probability C it . Number of times the calculation is completed s
Since kipc exceeds the threshold value NSKIPC, the time gap between the current frame number t and the forward probability reference frame number qc becomes large, and thus the error is likely to increase.
Therefore, since the reference probability B ji is read to obtain the forward probability C it , the forward probability skip number skipc is initialized to 0 and the forward probability reference frame number q is set.
c is rewritten to the current frame number t (S10).

【0385】またS9で前向き確率スキップ数skip
cが閾値NSKIPC以下となる場合は、照合部42
は、現フレーム番号tの音声特徴ベクトルxt と前向き
確率基準フレーム番号qcの音声特徴ベクトルxqcとの
間の距離dtcを式(19)に従って求め(S11)、
求めた距離dtcを閾値DTCと比較してこれらベクト
ルxt 及びxqcが近似的に等しいか否かを判定する(S
12)。
Further, in S9, the number of forward probability skips skip
If c is less than or equal to the threshold value NSKIPC, the matching unit 42
Is determined according to equation (19) the distance dtc between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t (S11),
The obtained distance dtc is compared with a threshold value DTC to determine whether or not these vectors x t and x qc are approximately equal (S
12).

【0386】S12で距離dtcが閾値DTCを越える
場合は、現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は前向き確率基準フレーム番号qcの音声特徴ベク
トルxqcからの変化が大きいので、現フレーム番号tの
前向き確率Citは直前フレームの前向き確率Ci(t-1)
近似できない。そこで参照確率Bjiを読み出して前向き
確率Citを求めることとなるので、前向き確率スキップ
数skipcを0に初期化すると共に、前向き確率基準
フレーム番号qcを現フレーム番号tに書き換える(S
10)。
If the distance dtc exceeds the threshold value DTC in S12, the voice feature vector x t of the current frame number t is the voice feature vector x qc of the forward probability reference frame number qc.
Therefore, since the voice feature vector x t of the current frame number t has a large change from the voice feature vector x qc of the forward probability reference frame number qc, the forward probability C it of the current frame number t is the forward probability of the immediately preceding frame. It cannot be approximated by C i (t-1) . Therefore, since the reference probability B ji is read to obtain the forward probability C it , the forward probability skip number skipc is initialized to 0 and the forward probability reference frame number qc is rewritten to the current frame number t (S
10).

【0387】またS12で距離dtcが閾値DTC以下
である場合は、skipc≦NSKIPCかつdtc≦
DTCである場合である。skipc≦NSKIPCの
場合、現フレーム番号tの前向き確率Citを直前フレー
ムの前向き確率Ci(t-1)で近似して前向き確率Citの演
算を終了した回数skipcが閾値NSKIPCを越え
たので、現フレーム番号tと前向き確率基準フレーム番
号qcとの時間的隔たりが小さく、従って誤差が増大す
る可能性は低い。しかもdtc≦DTCの場合、現フレ
ーム番号tの音声特徴ベクトルxt は前向き確率基準フ
レーム番号qcの音声特徴ベクトルxqcに近似的に等し
く従って現フレーム番号tの音声特徴ベクトルxt は前
向き確率基準フレーム番号qcの音声特徴ベクトルxqc
からの変化が小さいので、現フレーム番号tの前向き確
率Citは直前フレームの前向き確率Ci(t-1)で近似でき
る。従って参照確率Bjiを読み出して前向き確率Cit
求める演算も参照確率Bjiの書換えも行なわない。そこ
で現フレーム番号tの前向き確率Citは直前フレームの
前向き確率Ci(t-1)に等しいものとして現フレーム番号
tの前向き確率Citを求める演算を終了すると共に、前
向き確率スキップ数skipc、出力確率スキップ数s
kipsにそれぞれ1を加算してこれらスキップ数sk
ipc、skipsをそれぞれカウントアップする(S
13)。然る後、音声区間の次のフレームにつき処理を
行なうべくS7の処理に戻る。
If the distance dtc is less than or equal to the threshold DTC in S12, skippc≤NSKIPC and dtc≤
This is the case of DTC. For skipc ≦ NSKIPC, since the number of times Skipc completing the calculation of forward probabilities C it is approximated by the forward probability C i (t-1) of the immediately preceding frame forward probability C it the current frame number t exceeds the threshold NSKIPC , The time gap between the current frame number t and the forward probability reference frame number qc is small, and therefore the error is unlikely to increase. Moreover, when dtc ≦ DTC, the voice feature vector x t of the current frame number t is approximately equal to the voice feature vector x qc of the forward probability reference frame number qc, and thus the voice feature vector x t of the current frame number t is the forward probability reference. Voice feature vector x qc of frame number qc
Since the change from is small, the forward probability C it of the current frame number t can be approximated by the forward probability C i (t-1) of the immediately preceding frame. Therefore, neither the reference probability B ji is read out to obtain the forward probability C it nor the reference probability B ji is rewritten. Therefore, the forward probability C it of the current frame number t is assumed to be equal to the forward probability C i (t-1) of the immediately preceding frame, and the calculation for obtaining the forward probability C it of the current frame number t is completed, and the forward probability skip number skippc, Output probability skip number s
These skip numbers sk are obtained by adding 1 to each of the skips.
Count up ipc and skips respectively (S
13). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0388】前向き確率スキップ数skipcが閾値N
SKIPCを越えるか若しくは距離dtcが閾値DTC
を越えるかした場合にS10を行なったら、次に出力確
率スキップ数skipsと閾値NSKIPSとの比較判
定を行なう(S14)。
The number of forward probability skips skipc is a threshold N.
Exceeds SKIPC or distance dtc is threshold DTC
If S10 is performed when the value exceeds the threshold, then the output probability skip number skips and the threshold value NSKIPS are compared and determined (S14).

【0389】S14で出力確率スキップ数skipsが
閾値NSKIPSを越える場合は、参照確率Bjiの書換
えを行なわなかった回数skipsが閾値NSKIPS
を越えるので現フレーム番号tと出力確率基準フレーム
番号qsとの時間的隔たりが大きくなり、従って誤差が
増大する可能性が高い。そこで誤差を低減すべく、参照
確率Bjiの書換えを行なうこととなる。そこで出力確率
スキップ数skipsを0に初期化すると共に出力確率
基準フレーム番号qsを現フレーム番号tに書き換える
(S15)。然る後、j=1、2、……、J及びi=
1、2、……、Iの全てのj、iについて、対数化した
出力確率Bji(xt)を式(4)〜(7)に従って求め、参
照確率Bjiを当該出力確率Bji(xt)に書き換える(S1
6)。そしてこの参照確率Bjiの書換え終了後に各参照
確率Bjiを読み出し、i=1、2、……、Iの全てのi
について、前向き確率Citを式(11)に従って求める
(S17)。然る後、音声区間の次のフレームにつき処
理を行なうべくS7の処理に戻る。尚、図にあっては、
S16で参照確率Bjiを書き換える処理をsave Bji=B
ji(xt) と表す。
If the output probability skip number skips exceeds the threshold value NSKIPS in S14, the number of times skips at which the reference probability B ji is not rewritten is the threshold value NSKIPS.
Since the current frame number t exceeds the output probability reference frame number qs, there is a high possibility that the error increases. Therefore, in order to reduce the error, the reference probability B ji is rewritten. Therefore, the output probability skip number skips is initialized to 0 and the output probability reference frame number qs is rewritten to the current frame number t (S15). Then, j = 1, 2, ..., J and i =
For all j, i of 1, 2, ..., I, logarithmic output probabilities B ji (x t ) are obtained according to equations (4) to (7), and reference probabilities B ji are output probabilities B ji ( x t ) (S1
6). Then, after the reference probabilities B ji have been rewritten, the reference probabilities B ji are read out, and all i values of i = 1, 2, ..., I are read.
Then, the forward probability C it is calculated according to the equation (11) (S17). After that, the process returns to S7 so as to perform the process for the next frame of the voice section. In the figure,
The process of rewriting the reference probability B ji in S16 is save B ji = B
Expressed as ji (x t ).

【0390】この場合のS17で読み出した参照確率B
jiは、S16において求めた現フレーム番号tの出力確
率Bji(xt)であり、従ってこの場合のS17では現フレ
ーム番号tの出力確率Bji(xt)を用いて前向き確率Cit
を求めることとなる。
Reference probability B read in S17 in this case
ji is the output probability B ji (x t ) of the current frame number t obtained in S16. Therefore, in S17 in this case, the forward probability C it is used by using the output probability B ji (x t ) of the current frame number t.
Will be asked.

【0391】S14で出力確率スキップ数skipsが
閾値NSKIPS以下となる場合は、照合部42は、現
フレーム番号tの音声特徴ベクトルxt と出力確率基準
フレーム番号qsの音声特徴ベクトルxqsとの間の距離
dtsを求め(S18)、求めた距離dtsを閾値DT
Sと比較してこれらベクトルxt 及びxqsが近似的に等
しいか否かを判定する(S19)。
[0391] If S14 in output probability skip number skips is equal to or less than the threshold NSKIPS is, the matching unit 42, between the speech feature vector x qs speech feature vector x t and the output probability reference frame number qs of the current frame number t Of the calculated distance dts (S18)
It is determined by comparing with S whether these vectors x t and x qs are approximately equal (S19).

【0392】S19で距離dtsが閾値DTSを越える
場合には、現フレーム番号tの音声特徴ベクトルxt
出力確率基準フレーム番号qsの音声特徴ベクトルxqs
に近似せず従って現フレーム番号tの音声特徴ベクトル
t は出力確率基準フレーム番号qsの音声特徴ベクト
ルxqsからの変化が大きいので、現フレーム番号tの出
力確率Bji(xt)は参照確率Bjiで近似できない。従って
参照確率Bjiの書き換えを行なうこととなる。そこでS
15〜S17の処理を行ない、然る後、音声区間の次の
フレームにつき処理を行なうべくS7の処理に戻る。
When the distance dts exceeds the threshold DTS in S19, the voice feature vector x t of the current frame number t is the voice feature vector x qs of the output probability reference frame number qs.
Therefore, since the voice feature vector x t of the current frame number t has a large change from the voice feature vector x qs of the output probability reference frame number qs, the output probability B ji (x t ) of the current frame number t is referred to. It cannot be approximated with the probability B ji . Therefore, the reference probability B ji is rewritten. So S
The processes of 15 to S17 are performed, and thereafter, the process returns to the process of S7 to perform the process for the next frame of the voice section.

【0393】S19で距離dtsが閾値DTS以下であ
る場合には、現フレーム番号tの音声特徴ベクトルxt
は出力確率基準フレーム番号qsの音声特徴ベクトルx
qsに近似的に等しく従って現フレーム番号tの音声特徴
ベクトルxt は出力確率基準フレーム番号qsの音声特
徴ベクトルxqsからの変化が小さいので、現フレーム番
号tの出力確率Bji(xt)は参照確率Bjiで近似できる。
従って参照確率Bjiの書換えは行なわないこととなる。
そこで出力確率スキップ数skipsに1を加算して出
力確率スキップ数skipsをカウントアップする(S
20)。然る後、出力確率Bji(xt)を式(4)〜(7)
を用いて算出せずに参照確率Bjiを読み出して、i=
1、2、……、Iの全てのiについて、対数化した前向
き確率Citを式(11)に従って求める(S17)。然
る後、音声区間の次のフレームにつき処理を行なうべく
S7の処理に戻る。
If the distance dts is less than or equal to the threshold value DTS in S19, the voice feature vector x t of the current frame number t.
Is the voice feature vector x of the output probability reference frame number qs
Since the speech feature vector x t of approximately equal therefore current frame number t to qs small changes from speech feature vector x qs output probabilities reference frame number qs, output probability B ji of the current frame number t (x t) Can be approximated by the reference probability B ji .
Therefore, the reference probability B ji is not rewritten.
Therefore, 1 is added to the output probability skip number skips to count up the output probability skip number skips (S
20). After that, the output probability B ji (x t ) is calculated by the equations (4) to (7).
The reference probability B ji is read out without calculation using
The logarithmic forward probability C it is calculated for all i of 1, 2, ..., I according to the equation (11) (S17). After that, the process returns to S7 so as to perform the process for the next frame of the voice section.

【0394】この場合のS17で読み出した参照確率B
jiは、出力確率基準フレーム番号qsのフレームで求め
た出力確率Bji(xt)であり、従ってこの場合のS17で
は出力確率基準フレーム番号qsの出力確率Bji(xqs)
を用いて前向き確率Citを求めることとなる。
Reference probability B read in S17 in this case
ji is the output probability B ji (x t ) obtained in the frame of the output probability reference frame number qs. Therefore, in S17 in this case, the output probability B ji (x qs ) of the output probability reference frame number qs is obtained.
Then, the forward probability C it is obtained.

【0395】(3−2B:S8でt>Tの場合)S8で
現フレーム番号tが終端フレームのフレーム番号Tより
も大きい場合は、i=1、2、……、Iの全てのiにつ
いて前向き確率CiTを求め終えたので、式(9)に従っ
てi=*i成る前向き確率CiTのうち最大の前向き確率
iTを、音声特徴ベクトルの時系列x1 、x2 、……、
T とHMMとの間の尤度ln{P(x1 、x2 、……、
T )}として得、然る後、当該HMMにつき尤度を求
める処理を終了する(終了)。
(3-2B: When t> T in S8) When the current frame number t is larger than the frame number T of the end frame in S8, i = 1, 2, ... since finished sought forward probability C iT, the maximum forward probability C iT of i = * i consisting forward probability C iT according to equation (9), the time series x 1, x 2 of the speech feature vector, ...,
Likelihood ln {P (x 1 , x 2 , ..., Between x T and HMM
x T )}, and after that, the process of calculating the likelihood for the HMM is terminated (end).

【0396】照合部42は、辞書部36に格納されてい
る全てのHMMについて、各HMM毎に、図20〜図2
2に示すS1〜S20の処理を行なって尤度(前向き確
率CiT)を求め、求めた尤度のうち最大の尤度を検出す
る。そして最大の尤度を得たHMMのカテゴリを、当該
音声特徴ベクトルの時系列x1 、x2 、……、xT を抽
出した入力音声信号に対する認識結果として、次段の装
置(図示せず)へ出力する。
The collating unit 42, for all HMMs stored in the dictionary unit 36, for each HMM, see FIG.
The likelihood (forward probability C iT ) is obtained by performing the processes of S1 to S20 shown in FIG. 2, and the maximum likelihood is detected from the obtained likelihoods. The largest category of likelihood the resulting HMM, time series x 1, x 2 of the audio feature vector, ..., as the recognition result for the input speech signal obtained by extracting the x T, without the next stage of the device (shown ).

【0397】上述のように尤度ln{P(x1 、x2 、…
…、xT )}=CiTを求める過程において、前向き確率
itに関わるスキップ数skipcが閾値NSKIPC
以下となりかつ距離dtcが閾値DTS以下となる場合
に、出力確率Bji(xt)を式(4)〜(7)から求める演
算も前向き確率Citを式(3)若しくは式(11)から
求める演算も行なわずに、前向き確率Citは直前フレー
ムの前向き確率Ci(t-1)に等しいものとして前向き確率
itを求める演算を終了する。また出力確率Bji(xt)に
関わるスキップ数skipsが閾値NSKIPS以下と
なりかつ距離dtsが閾値DTS以下となる場合に、出
力確率Bji(xt)を式(4)〜(7)から求める演算を行
なわずに、前向き確率Citを求めるので、大幅に演算量
を削減できる。しかもこのような演算の簡略化は、前向
き確率Citに関わるスキップ数skipcが閾値NSK
IPC以下となりかつ距離dtcが閾値DTC以下とな
る場合か出力確率Bji(xt)に関わるスキップ数skip
sが閾値NSKIPS以下となりかつ距離dtsが閾値
DTS以下となる場合かのいずれかの場合に行なうの
で、演算の簡略化を行なっても、前向き確率Citの誤差
を小さくできる。
As described above, the likelihood ln {P (x 1 , x 2 , ...
, X T )} = C iT In the process of obtaining C iT , the number of skips skipc related to the forward probability C it is a threshold value NSKIPC.
When the distance dtc is equal to or less than and the distance dtc is equal to or less than the threshold DTS, the calculation of obtaining the output probability B ji (x t ) from the equations (4) to (7) is also performed using the forward probability C it from the equation (3) or the equation (11). Without performing the calculation, the forward probability C it is assumed to be equal to the forward probability C i (t-1) of the immediately preceding frame, and the calculation of the forward probability C it ends. Further, when the skip number skips related to the output probability B ji (x t ) is less than or equal to the threshold value NSKIPS and the distance dts is less than or equal to the threshold value DTS, the output probability B ji (x t ) is obtained from the equations (4) to (7). Since the forward probability C it is calculated without performing calculation, the amount of calculation can be significantly reduced. Moreover, such a simplification of the calculation is performed by setting the skip number skipc related to the forward probability C it to be the threshold value NSK.
When the distance is less than IPC and the distance dtc is less than the threshold DTC, or the skip number skip related to the output probability B ji (x t ).
Since s is equal to or less than the threshold value NSKIPS and the distance dts is equal to or less than the threshold value DTS, the error of the forward probability C it can be reduced even if the calculation is simplified.

【0398】請求項7の発明は、フレーム単位でマッチ
ング処理を行なう音声認識装置の全てに適用できる。
The invention of claim 7 can be applied to all speech recognition apparatuses that perform matching processing in frame units.

【0399】[0399]

【発明の効果】上述した説明からも明らかなように、請
求項1の発明の音声認識方法によれば、現フレーム番号
tの音声特徴ベクトルxt と基準フレーム番号qsの音
声特徴ベクトルxqsとの間の距離dtsが閾値DTS以
下(dts≦DTS)となる場合は、参照確率bjiの書
換えを行なわずに従って現フレーム番号tの出力確率b
ji(xt)をヒドンマルコフモデルから求める演算を行なわ
ずに、参照確率bjiを読み出して現フレーム番号tの前
向き確率citを求めるので、演算量を大幅に削減でき
る。
As is apparent from the above description, according to the voice recognition method of the invention of claim 1, the voice feature vector x t of the current frame number t and the voice feature vector x qs of the reference frame number qs are used. When the distance dts between them is equal to or smaller than the threshold value DTS (dts ≦ DTS), the output probability b of the current frame number t is calculated without rewriting the reference probability b ji.
Since the reference probability b ji is read out and the forward probability c it of the current frame number t is calculated without performing the calculation for obtaining ji (x t ) from the Hidden Markov model, the amount of calculation can be greatly reduced.

【0400】しかもdts≦DTSとなる場合に、現フ
レーム番号tの音声特徴ベクトルxt は基準フレーム番
号qsの音声特徴ベクトルxqsからの変化が小さいの
で、現フレーム番号tの出力確率bji(xt)を参照確率b
jiで近似できる。従ってこのようにdts≦DTSとな
る場合に演算を簡略化して前向き確率citを求めても、
前向き確率citの誤差を小さくできる。
[0400] Moreover if the dts ≦ DTS, since speech feature vector x t of the current frame number t is the change in the speech feature vector x qs reference frame number qs is small, the output probability b ji the current frame number t ( x t ) is the reference probability b
It can be approximated by ji . Therefore, even if the forward probability c it is calculated by simplifying the calculation when dts ≦ DTS,
The error of the forward probability c it can be reduced.

【0401】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
Therefore, the likelihood ln when performing speech recognition
In the process of obtaining {P (x 1 , x 2 , ..., X T )} = C iT , it is possible to reduce the error of the forward probability c it and simplify the calculation. Can perform voice recognition.

【0402】さらに請求項3の発明の音声認識方法によ
れば、現フレーム番号tの出力確率bji(xt)を与える遷
移元Sj の種別sが定常部である場合に、現フレーム番
号tの音声特徴ベクトルxt と定常部基準フレーム番号
qsの音声特徴ベクトルxqsとの間の距離dtsが閾値
DTS以下(dts≦DTS)であれば、当該種別sを
得たjに関しては、参照確率bjiの書換えを行なわずに
従って現フレーム番号tの出力確率bji(xt)をヒドンマ
ルコフモデルから求める演算を行なわずに、参照確率b
jiを読み出して現フレーム番号tの前向き確率citを求
める。また現フレーム番号tの出力確率bji(xt)を与え
る遷移元Sj の種別sが過渡部である場合に、現フレー
ム番号tの音声特徴ベクトルxt と過渡部基準フレーム
番号qtの音声特徴ベクトルxqtとの間の距離dttが
閾値DTT以下(dtt≦DTT)であれば、当該種別
sを得たjに関しては、参照確率bjiの書換えを行なわ
ずに従って現フレーム番号tの出力確率bji(xt)をヒド
ンマルコフモデルから求める演算を行なわずに、参照確
率bjiを読み出して現フレーム番号tの前向き確率cit
を求める。このように定常部の場合はdts≦DTS及
び過渡部の場合はdtt≦DTTであれば、参照確率b
jiの書換えを行なわずに前向き確率citを求めるので、
演算量を大幅に低減できる。
Further, according to the speech recognition method of the present invention, when the type s of the transition source S j that gives the output probability b ji (x t ) of the current frame number t is a stationary part, the current frame number is If the distance dts between the voice feature vector x t of t and the voice feature vector x qs of the stationary part reference frame number qs is less than or equal to the threshold DTS (dts ≦ DTS), refer to j for which the type s is obtained. The reference probability b ji is calculated without performing the calculation of the output probability b ji (x t ) of the current frame number t from the Hidden Markov model according to the rewriting of the probability b ji.
ji is read to obtain the forward probability c it of the current frame number t. Further, when the type s of the transition source S j that gives the output probability b ji (x t ) of the current frame number t is the transition part, the voice feature vector x t of the current frame number t and the voice of the transition part reference frame number qt If the distance dtt from the feature vector x qt is less than or equal to the threshold value DTT (dtt ≦ DTT), the output probability of the current frame number t according to the reference probability b ji is not rewritten for j that obtained the type s. The forward probability c it of the current frame number t is read out by reading out the reference probability b ji without performing the operation of obtaining b ji (x t ) from the Hidden Markov model.
Ask for. As described above, if dts ≦ DTS in the case of the stationary part and dtt ≦ DTT in the case of the transient part, the reference probability b
Since the forward probability c it is calculated without rewriting ji ,
The amount of calculation can be greatly reduced.

【0403】dts≦DTSであれば、現フレーム番号
tの音声特徴ベクトルxt は定常部基準フレーム番号q
sの音声特徴ベクトルxqsからの変化が小さいので、当
該種別sを得たjに関しては、現フレーム番号tの出力
確率bji(xt)を参照確率bjiで近似できる。またdtt
≦DTTであれば、現フレーム番号tの音声特徴ベクト
ルxt は過渡部基準フレーム番号qtの音声特徴ベクト
ルxqtからの変化が小さいので、当該種別sを得たjに
関して、現フレーム番号tの出力確率bji(x)を
参照確率bjiで近似できる。従ってこのようにdts
≦DTS若しくはdtt≦DTTの場合に演算を簡略化
して前向き確率citを求めても、前向き確率citの誤差
を小さくできる。
If dts≤DTS, the voice feature vector x t of the current frame number t is the stationary part reference frame number q.
Since the change of the voice feature vector x of s from the voice feature vector x qs is small, the output probability b ji (x t ) of the current frame number t can be approximated by the reference probability b ji for j having obtained the type s. Also dtt
If ≦ DTT, since speech feature vector x t of the current frame number t is small variation from the speech feature vector x qt transient portion reference frame number qt, with respect to j that give the type s, the current frame number t The output probability b ji (x t ) can be approximated by the reference probability b ji . Therefore, dts
Also it is determined ≦ DTS or forward probability c it to simplify the operation in the case of dtt ≦ DTT, can reduce an error of the forward probability c it.

【0404】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
Because of this, the likelihood ln at the time of performing speech recognition
In the process of obtaining {P (x 1 , x 2 , ..., X T )} = C iT , it is possible to reduce the error of the forward probability c it and simplify the calculation. Can perform voice recognition.

【0405】さらに請求項7の発明の音声認識方法によ
れば、現フレーム番号tの音声特徴ベクトルxt と前向
き確率基準フレーム番号qcの音声特徴ベクトルxqc
の間の距離dtcが閾値DTC以下となる(dtc≦D
TCとなる)場合は、現フレーム番号tの前向き確率c
itは直前フレームの前向き確率ci(t-1)に等しいものと
して前向き確率citを求める演算を終了する。また距離
dtcが閾値DTCを越える(dtc>DTCとなる)
場合に、現フレーム番号tの音声特徴ベクトルxt と出
力確率基準フレーム番号qsの音声特徴ベクトルxqs
の間の距離dtsが閾値DTS以下(dts≦DTS)
となれば、参照確率bjiの書換えを行なわずに従って現
フレーム番号tの出力確率bji(xt)をヒドンマルコフモ
デルから求める演算を行なわずに、参照確率bjiを読み
出して現フレーム番号tの前向き確率citを求める。こ
のようにdtc≦DTC若しくはdts≦DTSとなる
場合に、参照確率bjiの書換えを行なわずに前向き確率
itを求めるので、演算量を大幅に削減できる。
[0405] Further according to the speech recognition method of the invention of claim 7, the following distance dtc threshold DTC between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t (Dtc ≦ D
TC), the forward probability c of the current frame number t
It is assumed that it is equal to the forward probability c i (t-1) of the immediately preceding frame, and the calculation for obtaining the forward probability c it ends. In addition, the distance dtc exceeds the threshold value DTC (dtc> DTC).
If the following distance dts threshold DTS between speech feature vector x qs speech feature vector x t and the output probability reference frame number qs of the current frame number t (dts ≦ DTS)
If the reference probability b ji the output probability b ji the current frame number t in accordance without rewriting (x t) of without operation for obtaining from Hidden Markov Models, reference probability b ji reads in the current frame number t The forward probability c it of is calculated. In this way, when dtc ≦ DTC or dts ≦ DTS, the forward probability c it is obtained without rewriting the reference probability b ji , so the amount of calculation can be greatly reduced.

【0406】しかもdtc≦DTCとなる場合に、現フ
レーム番号tの音声特徴ベクトルxt は前向き確率基準
フレーム番号qcの音声特徴ベクトルxqcからの変化が
小さいので、現フレーム番号tの前向き確率citを直前
フレームの前向き確率ci(t-1)で近似できる。またdt
s≦DTS以下となる場合に、現フレーム番号tの音声
特徴ベクトルxt は基準フレーム番号qsの音声特徴ベ
クトルxqsからの変化が小さいので、現フレーム番号t
の出力確率bji(xt)を参照確率bjiで近似できる。従っ
てこのようにdtc≦DTC若しくはdts≦DTSの
場合に演算を簡略化して前向き確率citを求めても、前
向き確率citの誤差を小さくできる。
[0406] Moreover when the dtc ≦ DTC, the change from speech feature vector x qc speech feature vector x t is the forward probability reference frame number qc of the current frame number t is small, the forward probability c of the current frame number t It can be approximated by the forward probability c i (t-1) of the immediately preceding frame. Also dt
When s ≦ DTS or less, since the voice feature vector x t of the current frame number t has a small change from the voice feature vector x qs of the reference frame number qs, the current frame number t
The output probability b ji (x t ) can be approximated by the reference probability b ji . Therefore, even when the forward probability c it is obtained by simplifying the calculation in the case of dtc ≦ DTC or dts ≦ DTS, the error of the forward probability c it can be reduced.

【0407】これがため音声認識を行なう際の、尤度ln
{P(x1 、x2 、……、xT )}=CiTを求める過程
において、前向き確率citの誤差を低減しつつ、演算を
簡略化できるので、認識精度の低下を避けつつ高速に音
声認識を行なえる。
Because of this, the likelihood ln when performing speech recognition
In the process of obtaining {P (x 1 , x 2 , ..., X T )} = C iT , it is possible to reduce the error of the forward probability c it and simplify the calculation. Can perform voice recognition.

【図面の簡単な説明】[Brief description of the drawings]

【図1】請求項1の発明の実施に用いて好適な装置構成
の一例を示す図である。
FIG. 1 is a diagram showing an example of a device configuration suitable for use in carrying out the invention of claim 1;

【図2】ヒドンマルコフモデルの説明に供する図であ
る。
FIG. 2 is a diagram for explaining a Hidden Markov model.

【図3】請求項1の発明の第一実施形態の説明に供する
流れ図である。
FIG. 3 is a flowchart for explaining the first embodiment of the invention of claim 1;

【図4】請求項1の発明の第一実施形態の説明に供する
流れ図である。
FIG. 4 is a flowchart for explaining the first embodiment of the invention of claim 1;

【図5】請求項1の発明の第二実施形態の説明に供する
流れ図である。
FIG. 5 is a flowchart for explaining the second embodiment of the invention of claim 1;

【図6】請求項1の発明の第二実施形態の説明に供する
流れ図である。
FIG. 6 is a flowchart for explaining the second embodiment of the invention of claim 1;

【図7】請求項3の発明の実施に用いて好適な装置構成
の一例を示す図である。
FIG. 7 is a diagram showing an example of a device configuration suitable for use in carrying out the invention of claim 3;

【図8】ヒドンマルコフモデルの説明に供する図であ
る。
FIG. 8 is a diagram for explaining a Hidden Markov model.

【図9】請求項3の発明の第一実施形態の説明に供する
流れ図である。
FIG. 9 is a flowchart for explaining the first embodiment of the invention of claim 3;

【図10】請求項3の発明の第一実施形態の説明に供す
る流れ図である。
FIG. 10 is a flowchart for explaining the first embodiment of the invention of claim 3;

【図11】請求項3の発明の第一実施形態の説明に供す
る流れ図である。
FIG. 11 is a flowchart for explaining the first embodiment of the invention of claim 3;

【図12】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 12 is a flowchart for explaining the second embodiment of the invention of claim 3;

【図13】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 13 is a flowchart for explaining the second embodiment of the invention of claim 3;

【図14】請求項3の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 14 is a flowchart for explaining the second embodiment of the invention of claim 3;

【図15】請求項7の発明の実施に用いて好適な装置構
成の一例を示す図である。
FIG. 15 is a diagram showing an example of a device configuration suitable for use in implementing the invention of claim 7;

【図16】ヒドンマルコフモデルの説明に供する図であ
る。
FIG. 16 is a diagram for explaining a Hidden Markov model.

【図17】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
FIG. 17 is a flowchart for explaining the first embodiment of the invention of claim 7;

【図18】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
FIG. 18 is a flowchart for explaining the first embodiment of the invention of claim 7;

【図19】請求項7の発明の第一実施形態の説明に供す
る流れ図である。
FIG. 19 is a flowchart for explaining the first embodiment of the invention of claim 7;

【図20】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 20 is a flowchart for explaining the second embodiment of the invention of claim 7;

【図21】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 21 is a flowchart for explaining the second embodiment of the invention of claim 7;

【図22】請求項7の発明の第二実施形態の説明に供す
る流れ図である。
FIG. 22 is a flow chart for explanation of a second embodiment of the invention of claim 7;

【符号の説明】[Explanation of symbols]

10、22、34:音声認識装置 12、24、36:辞書部 14、26、38:音響処理部 16、28、40:音声区間検出部 18、30、42:照合部 20、32、44:参照情報記憶部 10, 22, 34: Speech recognition device 12, 24, 36: Dictionary section 14, 26, 38: Sound processing section 16, 28, 40: Speech section detection section 18, 30, 42: Collation section 20, 32, 44: Reference information storage

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数1】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 基準フレーム番号qsと参照確率bjiとを格納する記憶
部を設け、該参照確率bjiを用いて、t=1、2、…
…、Tの各場合の前向き確率citを順次に求め、
(1).t=1のときは、 基準フレーム番号qsを1に初期化すると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求め当該出力確率bji(xt)を参照確率bjiの初
期値として書き込み、該参照確率bjiの書込み終了後に
各参照確率bjiを読み出して前向き確率citを求める処
理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
する処理(1B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と基準フレー
ム番号qsの音声特徴ベクトルxqsとの間の距離dts
を閾値DTSと比較し、該比較結果がdts>DTSと
なる場合に、基準フレーム番号qsを現フレーム番号t
に書き換えると共に、全てのj、iについて、出力確率
ji(xt)をヒドンマルコフモデルから求めて参照確率b
jiを当該出力確率bji(xt)に書き換え、該参照確率bji
の書換え終了後に各参照確率bjiを読み出して前向き確
率citを求め、該比較結果がdts≦DTSとなる場合
に、参照確率bjiの書き換えを行なわずに各参照確率b
jiを読み出して前向き確率citを求める処理(1C)
と、 該処理(1C)の終了後、現フレーム番号tに1を加算
する処理(1D)とを行なうことを特徴とする音声認識
方法。
1. A time series x 1 , x of voice feature vectors extracted from a start frame to an end frame of a voice section.
2 , ……, the likelihood ln between x T and Hidden Markov model
{P (x 1 , x 2 , ..., X T )} is calculated, and the category assigned to the Hidden-Markov model that has the maximum likelihood is used as the recognition result for the speech signal in the speech section. In the recognition method, However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that initial state is S i in Hidden Markov model a ji : State S in Hidden Markov model Probability of transition from j to state S i x t : speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, the first frame is the start frame of the speech section) And the T-th frame represents the end frame of the speech section) b ji (x t ): Speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t and reaching state S i * i: Likelihood ln {P (x (x)) is obtained by using each equation represented by state number i given to state S i that is the final state in the Hidden Markov model. 1 , x 2 , ...
, X T )}, a storage unit for storing the reference frame number qs and the reference probability b ji is provided, and using the reference probability b ji , t = 1, 2, ...
, The forward probability c it in each case of T is sequentially obtained,
(1). When the t = 1, is initialized to 1 reference frame number qs, all j, for i, the output probability b ji the (x t) determined from the hidden Markov model the output probability b ji the (x t) writing the initial value of the reference probability b ji, reads each reference probability b ji after completion of writing of the reference probability b ji seek forward probability c it processing (1A), after the end of the process (1A), the current frame The process (1B) of adding 1 to the number t is performed, and (2). 2 ≦ t when the ≦ T, the distance between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t dts
Is compared with a threshold DTS, and when the comparison result is dts> DTS, the reference frame number qs is set to the current frame number t.
And the output probability b ji (x t ) for all j and i is calculated from the Hidden Markov model and the reference probability b
ji is rewritten to the output probability b ji (x t ) and the reference probability b ji
After the end of rewriting, each reference probability b ji is read out to obtain the forward probability c it , and when the comparison result is dts ≦ DTS, each reference probability b ji is not rewritten.
Processing to read ji and obtain forward probability c it (1C)
And a process (1D) of adding 1 to the current frame number t after the process (1C) is completed.
【請求項2】 請求項1記載の音声認識方法において、
(1).t=1のときは、 基準フレーム番号qsを1に、及び、スキップ数ski
psを0に初期化すると共に、全てのj、iについて、
出力確率bji(xt)をヒドンマルコフモデルから求め当該
出力確率bji(xt)を参照確率bjiの初期値として書き込
み、該参照確率bjiの書込み終了後に各参照確率bji
読み出して前向き確率citを求める処理(1A)と、 該処理(1A)の終了後、現フレーム番号tに1を加算
する処理(1B)とを行ない、(2).2≦t≦Tのと
きは、 スキップ数skipsを閾値NSKIPSと比較すると
共に、現フレーム番号tの音声特徴ベクトルxt と基準
フレーム番号qsの音声特徴ベクトルxqsとの間の距離
dtsを閾値DTSと比較し、該比較結果がskips
>NSKIPS若しくはdts>DTSとなる場合に、
スキップ数skipsを0に初期化し、及び、基準フレ
ーム番号qsを現フレーム番号tに書き換えると共に、
全てのj、iについて、出力確率bji(xt)をヒドンマル
コフモデルから求めて参照確率bjiを当該出力確率bji
(xt)に書き換え、該参照確率bjiの書換え終了後に各参
照確率bjiを読み出して前向き確率citを求め、該比較
結果がskips≦NSKIPSかつdts≦DTSと
なる場合に、スキップ数skipsに1を加算すると共
に、参照確率bjiの書換えを行なわずに各参照確率bji
を読み出して前向き確率citを求める処理(1C)と、 該処理(1C)の終了後、現フレーム番号tに1を加算
する処理(1D)とを行なうことを特徴とする音声認識
方法。
2. The voice recognition method according to claim 1, wherein
(1). When t = 1, the reference frame number qs is set to 1 and the skip number ski
Initialize ps to 0, and for all j, i,
Writing output probability b ji (x t) the probability that output determined from Hidden Markov Models b ji the (x t) as the initial value of the reference probability b ji, reads out the reference probability b ji after completion of writing of the reference probability b ji Processing (1A) for obtaining the forward probability c it , and processing (1B) for adding 1 to the current frame number t after completion of the processing (1A), (2). 2 ≦ t when the ≦ T, together with comparing the number of skips skips a threshold NSKIPS, threshold DTS distance dts between the speech feature vector x qs speech feature vector x t and the reference frame number qs of the current frame number t And the comparison result is skips.
> NSKIPS or dts> DTS,
The skip number skips is initialized to 0, the reference frame number qs is rewritten to the current frame number t, and
For all j and i, the output probability b ji (x t ) is obtained from the Hidden Markov model, and the reference probability b ji is set as the output probability b ji.
rewritten (x t), determine the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji, if the comparison result is skips ≦ NSKIPS and dts ≦ DTS, skip number Skips in conjunction with adding 1, reference probability b ji each reference probability b ji without rewriting the
And a process (1C) for obtaining the forward probability c it and a process (1D) for adding 1 to the current frame number t after completion of the process (1C).
【請求項3】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数2】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率 *i:ヒドンマルコフモデルにおいて最終状態となる状
態Si に付与されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 ヒドンマルコフモデルにおいて遷移元となる状態Sj
に、定常部及び過渡部のいずれかの種別sを付与し、 定常部基準フレーム番号qs、過渡部基準フレーム番号
qtと、参照確率bjiとを格納する記憶部を設け、該参
照確率bjiを用いて、t=1、2、……、Tの各場合の
前向き確率citを順次に求め、(1).t=1のとき
は、 定常部基準フレーム番号qs、過渡部基準フレーム番号
qtをそれぞれ1に初期化すると共に、全てのj、iに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求め当該出力確率bji(xt)を参照確率bjiの初期値とし
て書き込み、該参照確率bjiの書込み終了後に各参照確
率bjiを読み出して前向き確率citを求める処理(2
A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
する処理(2B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と定常部基準
フレーム番号qsの音声特徴ベクトルqsとの間の距離d
tsを閾値DTSと比較し、該比較結果がdts>DT
Sとなる場合に、定常部基準フレーム番号qsを現フレ
ーム番号tに書き換える処理(2C)と、 現フレーム番号tの音声特徴ベクトルxt と過渡部基準
フレーム番号qtの音声特徴ベクトルxqtとの間の距離
dttを閾値DTTと比較し、該比較結果がdtt>D
TTとなる場合に、過渡部基準フレーム番号qtを現フ
レーム番号tに書き換える処理(2D)と、 前記処理(2C)及び(2D)の終了後、j=1、2、
……、Jの各j毎に、出力確率bji(xt)を与える状態遷
移の遷移元Sj に付与されている種別sを判定する処理
(2E)と、 該処理(2E)の種別判定結果が定常部であった場合
に、前記処理(2C)の比較結果がdts>DTSであ
れば、当該種別判定結果を得たjに関しては全てのiに
ついて、出力確率bji(xt)をヒドンマルコフモデルから
求めて参照確率bjiを当該出力確率bji(xt)に書き換
え、該処理(2E)の種別判定結果が定常部であった場
合に、前記処理(2C)の比較結果がdts≦DTSで
あれば、当該種別判定結果を得たjに関しては参照確率
jiの書換えを行なわず、該処理(2E)の種別判定結
果が過渡部であった場合に、前記処理(2D)の比較結
果がdtt>DTTであれば、当該種別判定結果を得た
jに関しては全てのiについて、出力確率bji(xt)をヒ
ドンマルコフモデルから求めて参照確率bjiを当該出力
確率bji(xt)に書き換え、該処理(2E)の種別判定結
果が過渡部であった場合に、前記処理(2D)の比較結
果がdtt≦DTTであれば、当該種別判定結果を得た
jに関しては参照確率bjiの書換えを行なわない処理
(2F)と、 j=1、2、……、Jの個々のj毎に前記処理(2F)
を行ない、全てのjにつき前記処理(2F)を終了した
ら、各参照確率bjiを読み出して前向き確率citを求め
る処理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
する処理(2H)とを行なうことを特徴とする音声認識
方法。
3. A time series x 1 , x of voice feature vectors extracted from the start frame to the end frame of a voice section.
2 , ……, the likelihood ln between x T and Hidden Markov model
{P (x 1 , x 2 , ..., X T )} is calculated, and the category assigned to the Hidden-Markov model that has the maximum likelihood is used as the recognition result for the speech signal in the speech section. In the recognition method, However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that initial state is S i in Hidden Markov model a ji : State S in Hidden Markov model Probability of transition from j to state S i x t : speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, the first frame is the start frame of the speech section) And the T-th frame represents the end frame of the speech section) b ji (x t ): Speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability of outputting x t and reaching state S i * i: Likelihood ln {P (x (x)) is obtained by using each equation represented by state number i given to state S i that is the final state in the Hidden Markov model. 1 , x 2 , ...
,, x T )}, the state S j that is the transition source in the Hidden Markov model
Is provided with a stationary part or transient part type s, a stationary part reference frame number qs, a transient part reference frame number qt, and a reference probability b ji are provided, and the reference probability b ji is provided. , The forward probability c it for each case of t = 1, 2, ..., T is sequentially obtained, and (1). When t = 1, the stationary part reference frame number qs and the transient part reference frame number qt are initialized to 1, and the output probabilities b ji (x t ) are calculated from the Hidden Markov model for all j and i. writing the output probability b ji the (x t) as the initial value of the reference probability b ji, reads each reference probability b ji after completion of writing of the reference probability b ji seek forward probability c it processes (2
A) and a process (2B) of adding 1 to the current frame number t after completion of the process (2A), (2). 2 ≦ t ≦ T when the distance d between the speech feature vector qs speech feature vector x t and the constant part reference frame number qs of the current frame number t
ts is compared with the threshold value DTS, and the comparison result is dts> DT
When the S, processing of rewriting the constant part reference frame number qs to the current frame number t and (2C), the speech feature vector x qt speech feature vector x t and the transient portion reference frame number qt the current frame number t The distance dtt between them is compared with the threshold value DTT, and the comparison result shows that dtt> D.
In the case of TT, the process (2D) of rewriting the transition part reference frame number qt to the current frame number t, and j = 1, 2, after the processes (2C) and (2D) are finished.
.., for each j of J, a process (2E) of determining the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ), and the type of the process (2E) When the determination result is the stationary part and the comparison result of the process (2C) is dts> DTS, the output probabilities b ji (x t ) for all i with respect to j for which the type determination result is obtained. From the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), and when the type determination result of the process (2E) is a stationary part, the comparison result of the process (2C) Is dts ≦ DTS, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and if the type determination result of the process (2E) is a transient part, the process (2D If the comparison result of) is dtt> DTT, it is related to j that has obtained the type determination result. For all Te is the i, rewritten to the output probability b ji (x t) The hidden Markov model reference probability b ji determined from the output probability b ji (x t), type determination result of the processing (2E) transient If the comparison result of the process (2D) is dtt ≦ DTT, the process (2F) in which the reference probability b ji is not rewritten for j that has obtained the type determination result, and j = The above process (2F) for each j of 1, 2, ..., J
When the process (2F) is completed for all j, the reference probability b ji is read to obtain the forward probability c it (2G), and after the process (2G) is completed, the current frame number t is set. A voice recognition method characterized by performing a process of adding 1 (2H).
【請求項4】 請求項3記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
なうことを特徴とする音声認識方法。
4. The voice recognition method according to claim 3, wherein the process (2E) is performed after the processes (2C) and (2D) are completed.
【請求項5】 請求項3記載の音声認識方法において、
(1).t=1のときは、 定常部スキップ数skips、過渡部スキップ数ski
ptをそれぞれ0に、及び、定常部基準フレーム番号q
s、過渡部基準フレーム番号qtをそれぞれ1に初期化
すると共に、全てのj、iについて、出力確率bji(xt)
をヒドンマルコフモデルから求め当該出力確率bji(xt)
を参照確率bjiの初期値として書き込み、該参照確率b
jiの書込み終了後に各参照確率bjiを読み出して前向き
確率citを求める処理(2A)と、 該処理(2A)の終了後、現フレーム番号tに1を加算
する処理(2B)とを行ない、(2).2≦t≦Tのと
きは、 定常部スキップ数skipsを閾値NSKIPSと比較
すると共に、現フレーム番号tの音声特徴ベクトルxt
と定常部基準フレーム番号qsの音声特徴ベクトルxqs
との間の距離dtsを閾値DTSと比較し、該比較結果
がskips>NSKIPS若しくはdts>DTSと
なる場合に、定常部スキップ数skipsを0に初期化
し、及び、定常部基準フレーム番号qsを現フレーム番
号tに書き換え、該比較結果がskips≦NSKIP
Sかつdts≦DTSとなる場合に、定常部スキップ数
skipsに1を加算する処理(2C)と、 過渡部スキップ数skiptを閾値NSKIPTと比較
すると共に、現フレーム番号tの音声特徴ベクトルxt
と過渡部基準フレーム番号qtの音声特徴ベクトルxqt
との間の距離dttを閾値DTTと比較し、該比較結果
がskipt>NSKIPT若しくはdtt>DTTと
なる場合に、過渡部スキップ数skiptを0に初期化
し、及び、過渡部基準フレーム番号qtを現フレーム番
号tに書き換え、該比較結果がskipt≦NSKIP
Tかつdtt≦DTTとなる場合に、過渡部スキップ数
skiptに1を加算する処理(2D)と、 前記処理(2C)、(2D)の終了後、j=1、2、…
…、Jの各j毎に、出力確率bji(xt)を与える状態遷移
の遷移元Sj に付与されている種別sを判定する処理
(2E)と、 該処理(2E)の種別判定結果が定常部であった場合
に、前記処理(2C)の比較結果がskips>NSK
IPS若しくはdts>DTSであれば、当該種別判定
結果を得たjに関しては全てのiについて、出力確率b
ji(xt)をヒドンマルコフモデルから求めて参照確率bji
を当該出力確率bji(xt)に書き換え、該処理(2E)の
種別判定結果が定常部であった場合に、前記処理(2
C)の比較結果がskips≦NSKIPSかつdts
≦DTSであれば、当該種別判定結果を得たjに関して
は参照確率bjiの書換えを行なわず、該処理(2E)の
種別判定結果が過渡部であった場合に、前記処理(2
D)の比較結果がskipt>NSKIPT若しくはd
tt>DTTであれば、当該種別判定結果を得たjに関
しては全てのiについて、出力確率bji(xt)をヒドンマ
ルコフモデルから求めて参照確率bjiを当該出力確率b
ji(xt)に書き換え、該処理(2E)の種別判定結果が過
渡部であった場合に、前記処理(2D)の比較結果がs
kipt≦NSKIPTかつdtt≦DTTであれば、
当該種別判定結果を得たjに関しては参照確率bjiの書
換えを行なわない処理(2F)と、 j=1、2、……、Jの個々のj毎に該処理(2F)を
行ない、全てのjにつき該処理(2F)を終了したら、
各参照確率bjiを読み出して前向き確率citを求める処
理(2G)と、 該処理(2G)の終了後、現フレーム番号tに1を加算
する処理(2H)とを行なうことを特徴とする音声認識
方法。
5. The voice recognition method according to claim 3,
(1). When t = 1, the number of skips in the steady part skips and the number of skips in the transient part ski
pt to 0 and the reference frame number q of the stationary part
s and the transition part reference frame number qt are initialized to 1, respectively, and the output probabilities b ji (x t ) for all j and i.
From the Hidden Markov model, the output probability b ji (x t )
Is written as the initial value of the reference probability b ji , and the reference probability b
After the writing of ji , each reference probability b ji is read out to obtain the forward probability c it (2A), and after the completion of the process (2A), a process of adding 1 to the current frame number t (2B) is performed. , (2). When 2 ≦ t ≦ T, the constant part skip number skips is compared with the threshold value NSKIPS, and the voice feature vector x t of the current frame number t
And the voice feature vector x qs of the stationary part reference frame number qs
When the comparison result is skips> NSKIPS or dts> DTS, the constant part skip number skips is initialized to 0, and the constant part reference frame number qs is calculated. The frame number t is rewritten, and the comparison result is skips ≦ NSKIP.
When S and dts ≦ DTS, the process (2C) of adding 1 to the constant part skip number skips is compared with the transient part skip number skipt and the threshold NSKIPT, and the voice feature vector x t of the current frame number t
And the voice feature vector x qt of the transition part reference frame number qt
When the comparison result is skip> NSKIPT or dtt> DTT, the transition skip number skippt is initialized to 0, and the transition reference frame number qt is calculated. Rewrite to frame number t, and the comparison result is skipt ≦ NSKIP
When T and dtt ≦ DTT, the process (2D) of adding 1 to the transition part skip number skipt, and j = 1, 2, ... After the processes (2C) and (2D) are finished.
, Processing for determining the type s assigned to the transition source S j of the state transition that gives the output probability b ji (x t ) for each j of J, and type determination for this processing (2E) When the result is the stationary part, the comparison result of the process (2C) is skips> NSK.
If IPS or dts> DTS, for j for which the type determination result is obtained, output probability b for all i
ji (x t ) is calculated from Hidden Markov model and the reference probability is b ji
To the output probability b ji (x t ), and if the type determination result of the process (2E) is the stationary part, the process (2
The comparison result of C) is skips ≦ NSKIPS and dts
If ≦ DTS, the reference probability b ji is not rewritten for j for which the type determination result is obtained, and if the type determination result of the process (2E) is a transient part, the process (2
The comparison result of D) is skip> NSKIPT or d
If tt> DTT, the output probability b ji (x t ) is obtained from the Hidden-Markov model for all i for j for which the type determination result is obtained, and the reference probability b ji is set for the output probability b ji.
rewritten ji (x t), when the type determination result of the processing (2E) was a transient portion, the comparison result of the processing (2D) is s
If kipt ≦ NSKIPT and dtt ≦ DTT,
For j for which the type determination result has been obtained, the processing (2F) in which the reference probability b ji is not rewritten and the processing (2F) is performed for each j of j = 1, 2, ... When the processing (2F) is completed for j,
It is characterized by performing processing (2G) for reading out each reference probability b ji to obtain a forward probability c it , and processing (2H) for adding 1 to the current frame number t after the processing (2G) is completed. Speech recognition method.
【請求項6】 請求項5記載の音声認識方法において、 処理(2C)及び(2D)の終了後、処理(2E)を行
なうことを特徴とする音声認識方法。
6. The voice recognition method according to claim 5, wherein the process (2E) is performed after the processes (2C) and (2D) are completed.
【請求項7】 音声区間の始端フレームから終端フレー
ムまでに抽出された音声特徴ベクトルの時系列x1 、x
2 、……、xT とヒドンマルコフモデルとの間の尤度ln
{P(x1 、x2 、……、xT )}を求め、最大の尤度
を得たヒドンマルコフモデルに付与されているカテゴリ
を、当該音声区間内の音声信号に対する認識結果とする
音声認識方法において、 【数3】 但し、 i:i=1、2、……、I j:j=1、2、……、J Фi :ヒドンマルコフモデルにおいて初期状態がSi
ある確率 aji:ヒドンマルコフモデルにおいて状態Sj から状態
i に遷移する確率 xt :音声区間内の第t番目のフレームで抽出された音
声特徴ベクトル(1≦t≦Tであって、第1番目のフレ
ームは音声区間の始端フレームを及び第T番目のフレー
ムは音声区間の終端フレームを表す) bji(xt):ヒドンマルコフモデルにおいて状態Sj から
状態Si に遷移するとき出力される音声特徴ベクトルx
t の出力確率 cit:ヒドンマルコフモデルにおいて初期状態から遷移
を開始し音声特徴ベクトルの時系列x1 、x2 、……、
t を出力して状態Si に至る前向き確率*i:ヒドン
マルコフモデルにおいて最終状態となる状態Si に付与
されている状態番号i で示される各式を用いて尤度ln{P(x1 、x2 、…
…、xT )}を求めるに当り、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsと、参照確率bjiとを格納する記憶部を設
け、該参照確率bjiを用いて、t=1、2、……、Tの
各場合の前向き確率citを順次に求め、(1).t=1
のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsをそれぞれ1に初期化すると共に、全ての
j、iについて、出力確率bji(xt)をヒドンマルコフモ
デルから求め当該出力確率bji(xt)を参照確率bjiの初
期値として書き込み、該参照確率bjiの書込み終了後に
各参照確率bjiを読み出して前向き確率citを求める処
理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
する処理(3B)とを行ない、(2).2≦t≦Tのと
きは、 現フレーム番号tの音声特徴ベクトルxt と前向き確率
基準フレーム番号qcの音声特徴ベクトルxqcとの間の
距離dtcを閾値DTCと比較する処理(3C)と、 該処理(3C)の比較結果がdtc≦DTCとなる場合
に、前向き確率citは直前フレームの前向き確率c
i(t-1)に等しいものとして前向き確率citを求める演算
を終了する処理(3D)と、 該処理(3C)の比較結果がdtc>DTCとなる場合
に、前向き確率基準フレーム番号qcを現フレーム番号
tに書き換える処理(3E)と、 該処理(3E)の終了後、現フレーム番号tの音声特徴
ベクトルxt と出力確率基準フレーム番号qsの音声特
徴ベクトルxqsとの間の距離dtsを閾値DTSと比較
し、該比較結果がdts>DTSとなる場合に、出力確
率基準フレーム番号qsを現フレーム番号tに書き換え
ると共に、全てのj、iについて、出力確率bji(xt)を
ヒドンマルコフモデルから求めて参照確率bjiを当該出
力確率bji(xt)に書き換え、該参照確率bjiの書換え終
了後に各参照確率bjiを読み出して前向き確率citを求
め、該比較結果がdts≦DTSとなる場合に、参照確
率bjiの書き換えを行なわずに各参照確率bjiを読み出
して前向き確率citを求める処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
ム番号tに1を加算する処理(3G)とを行なうことを
特徴とする音声認識方法。
7. A time series x 1 , x of voice feature vectors extracted from the start frame to the end frame of a voice section.
2 , ……, the likelihood ln between x T and Hidden Markov model
{P (x 1 , x 2 , ..., X T )} is calculated, and the category assigned to the Hidden-Markov model that has the maximum likelihood is used as the recognition result for the speech signal in the speech section. In the recognition method, However, i: i = 1, 2, ..., I j: j = 1, 2, ..., J Φ i : Probability that initial state is S i in Hidden Markov model a ji : State S in Hidden Markov model Probability of transition from j to state S i x t : speech feature vector extracted in the t-th frame in the speech section (1 ≦ t ≦ T, the first frame is the start frame of the speech section) And the T-th frame represents the end frame of the speech section) b ji (x t ): Speech feature vector x output when transitioning from state S j to state S i in the Hidden Markov model
Output probability of t c it : Time series of speech feature vector x 1 , x 2 , ..., Which starts transition from the initial state in Hidden Markov model
Forward probability * i that outputs x t and reaches the state S i : Likelihood ln {P (x (x) is obtained by using each equation represented by the state number i assigned to the final state S i in the Hidden Markov model. 1 , x 2 , ...
, X T )}, a storage unit for storing the forward probability reference frame number qc, the output probability reference frame number qs, and the reference probability b ji is provided, and using the reference probability b ji , t = Forward probabilities c it for each case of 1, 2, ..., T are sequentially obtained, and (1). t = 1
, The forward probability reference frame number qc and the output probability reference frame number qs are initialized to 1, and the output probabilities b ji (x t ) for all j and i are calculated from the Hidden Markov model. write b ji the (x t) as the initial value of the reference probability b ji, reads each reference probability b ji after completion of writing of the reference probability b ji seek forward probability c it processing (3A), the processing (3A After the end of (), the process of adding 1 to the current frame number t (3B) is performed, and (2). When the 2 ≦ t ≦ T, the process of comparing with a threshold DTC distance dtc between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t (3C), When the comparison result of the processing (3C) is dtc ≦ DTC, the forward probability c it is the forward probability c of the immediately preceding frame.
When the comparison result of the processing (3D) for terminating the calculation of the forward probability c it as equal to i (t-1) and the processing (3C) is dtc> DTC, the forward probability reference frame number qc is set. and processing (3E) for rewriting the current frame number t, after the end of the process (3E), the distance between the speech feature vector x qs speech feature vector x t and the output probability reference frame number qs of the current frame number t dts Is compared with the threshold DTS, and when the comparison result is dts> DTS, the output probability reference frame number qs is rewritten to the current frame number t, and the output probabilities b ji (x t ) are calculated for all j and i. hidden rewritten reference probability b ji determined from Markov model to the output probability b ji (x t), determine the forward probability c it reads each reference probability b ji after rewriting completion of the reference probability b ji, the comparison If the result is dts ≦ DTS, without rewriting of the reference probability b ji reads each reference probability b ji seek forward probability c it processing (3F), the processing (3D) or (3F) A voice recognition method characterized by performing a process (3G) of adding 1 to the current frame number t after the end.
【請求項8】 請求項7記載の音声認識方法において、
(1).t=1のときは、 前向き確率基準フレーム番号qc、出力確率基準フレー
ム番号qsをそれぞれ1に、及び、前向き確率ステップ
数skipc、出力確率ステップ数skipsをそれぞ
れ0に初期化すると共に、全てのj、iについて、出力
確率bji(xt)をヒドンマルコフモデルから求め当該出力
確率bji(xt)を参照確率bjiの初期値として書き込み、
該参照確率bjiの書込み終了後に各参照確率bjiを読み
出して前向き確率citを求める処理(3A)と、 該処理(3A)の終了後、現フレーム番号tに1を加算
する処理(3B)とを行ない、(2).2≦t≦Tのと
きは、 前向き確率スキップ数skipcを閾値NSKIPCと
比較すると共に、現フレーム番号tの音声特徴ベクトル
t と前向き確率基準フレーム番号qcの音声特徴ベク
トルxqcとの間の距離dtcを閾値DTCと比較する処
理(3C)と、 該処理(3C)の比較結果がskipc≦NSKIPC
かつdtc≦DTCとなる場合に、前向き確率citは直
前フレームの前向き確率ci(t-1)に等しいものとして前
向き確率citを求める演算を終了すると共に、前向き確
率スキップ数skipc、出力確率スキップ数skip
sにそれぞれ1を加算する処理(3D)と、 該処理(3C)の比較結果がskipc>NSKIPC
若しくはdtc>DTCとなる場合に、前向き確率スキ
ップ数skipcを0に初期化し、及び、前向き確率基
準フレーム番号qcを現フレーム番号tに書き換える処
理(3E)と、 該処理(3E)の終了後、出力確率スキップ数skip
sを閾値NSKIPSと比較すると共に、現フレーム番
号tの音声特徴ベクトルxt と出力確率基準フレーム番
号qsの音声特徴ベクトルxqsとの間の距離dtsを閾
値DTSと比較し、該比較結果がskips>NSKI
PS若しくはdts>DTSとなる場合に、出力確率ス
キップ数skipsを0に初期化し、及び、出力確率基
準フレーム番号qsを現フレーム番号tに書き換えると
共に、全てのj、iについて、出力確率bji(xt)をヒド
ンマルコフモデルから求めて参照確率bjiを当該出力確
率bji(xt)に書き換え、該参照確率bjiの書換え終了後
に各参照確率bjiを読み出して前向き確率citを求め、
該比較結果がskips≦NSKIPSかつdts≦D
TSとなる場合に、出力確率スキップ数skipsに1
を加算すると共に、参照確率bji(xt)の書換えを行なわ
ずに各参照確率bjiを読み出して前向き確率citを求め
る処理(3F)と、 前記処理(3D)若しくは(3F)の終了後、現フレー
ム番号tに1を加算する処理(3G)とを行なうことを
特徴とする音声認識方法。
8. The voice recognition method according to claim 7, wherein
(1). When t = 1, the forward probability reference frame number qc and the output probability reference frame number qs are initialized to 1, and the forward probability step number skipc and the output probability step number skips are initialized to 0, and all j are initialized. , I, the output probability b ji (x t ) is obtained from the Hidden Markov model, and the output probability b ji (x t ) is written as the initial value of the reference probability b ji ,
And processing (3A) for obtaining the forward probability c it reads each reference probability b ji after completion of writing of the reference probability b ji, after completion of the process (3A), the process of adding 1 to the current frame number t (3B ) And (2). When the 2 ≦ t ≦ T, the forward probability skip number skipc with is compared with a threshold value NSKIPC, the distance between the speech feature vector x qc of forward probabilities reference frame number qc and speech feature vectors x t of the current frame number t The process (3C) of comparing dtc with the threshold value DTC and the comparison result of the process (3C) are skipc ≦ NSKIPC.
When dtc ≦ DTC, the forward probability c it is assumed to be equal to the forward probability c i (t-1) of the immediately preceding frame, and the calculation of the forward probability c it is completed, and the forward probability skip number skippc, the output probability Skip number skip
The comparison result of the process (3D) of adding 1 to s and the process (3C) is skippc> NSKIPC.
Alternatively, when dtc> DTC, the forward probability skip number skippc is initialized to 0, and the forward probability reference frame number qc is rewritten to the current frame number t (3E), and after the process (3E), Output probability skip number skip
s with a comparison with a threshold NSKIPS, the distance dts between the speech feature vector x qs output probabilities reference frame number qs with speech feature vectors x t of the current frame number t is compared with a threshold DTS, the comparison result is skips > NSKI
When PS or dts> DTS, the output probability skip number skips is initialized to 0, the output probability reference frame number qs is rewritten to the current frame number t, and the output probability b ji (for all j and i). x t ) is calculated from the Hidden Markov model, the reference probability b ji is rewritten to the output probability b ji (x t ), and each reference probability b ji is read out after the reference probability b ji is rewritten to obtain the forward probability c it . ,
The comparison result is skips ≦ NSKIPS and dts ≦ D.
If TS, the output probability skip count is 1 in skips
Is added and the reference probability b ji (x t ) is not rewritten and each reference probability b ji is read to obtain the forward probability c it (3F), and the process (3D) or (3F) ends. Then, a process (3G) of adding 1 to the current frame number t is performed.
JP28031495A 1995-10-27 1995-10-27 Voice recognition method Expired - Fee Related JP3251480B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28031495A JP3251480B2 (en) 1995-10-27 1995-10-27 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28031495A JP3251480B2 (en) 1995-10-27 1995-10-27 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH09127977A true JPH09127977A (en) 1997-05-16
JP3251480B2 JP3251480B2 (en) 2002-01-28

Family

ID=17623274

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28031495A Expired - Fee Related JP3251480B2 (en) 1995-10-27 1995-10-27 Voice recognition method

Country Status (1)

Country Link
JP (1) JP3251480B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011027A (en) * 2005-06-30 2007-01-18 Canon Inc Voice recognition method and voice recognition device
JP2008015120A (en) * 2006-07-04 2008-01-24 Toshiba Corp Voice recognition apparatus and its method
US7813925B2 (en) 2005-04-11 2010-10-12 Canon Kabushiki Kaisha State output probability calculating method and apparatus for mixture distribution HMM

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813925B2 (en) 2005-04-11 2010-10-12 Canon Kabushiki Kaisha State output probability calculating method and apparatus for mixture distribution HMM
JP2007011027A (en) * 2005-06-30 2007-01-18 Canon Inc Voice recognition method and voice recognition device
JP4732030B2 (en) * 2005-06-30 2011-07-27 キヤノン株式会社 Information processing apparatus and control method thereof
JP2008015120A (en) * 2006-07-04 2008-01-24 Toshiba Corp Voice recognition apparatus and its method

Also Published As

Publication number Publication date
JP3251480B2 (en) 2002-01-28

Similar Documents

Publication Publication Date Title
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
US5625749A (en) Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
JP3114468B2 (en) Voice recognition method
CN106875936B (en) Voice recognition method and device
KR101618512B1 (en) Gaussian mixture model based speaker recognition system and the selection method of additional training utterance
AU744678B2 (en) Pattern recognition using multiple reference models
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Poorjam et al. A parametric approach for classification of distortions in pathological voices
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
JP3444108B2 (en) Voice recognition device
JP4666129B2 (en) Speech recognition system using speech normalization analysis
JP3251480B2 (en) Voice recognition method
JP2006201265A (en) Voice recognition device
Gas et al. Discriminant neural predictive coding applied to phoneme recognition
JP2011033879A (en) Identifying method capable of identifying all languages without using samples
JPH0823758B2 (en) Speaker-adaptive speech recognizer
JP2000259198A (en) Device and method for recognizing pattern and providing medium
Zheng et al. Improved maximum mutual information estimation training of continuous density HMMs.
Indumathi et al. Speaker identification using bagging techniques
Silva et al. A novel intelligent system for speech recognition
CN112614510B (en) Audio quality assessment method and device
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
JP2002244697A (en) Device and method for voice authentication, and program
JP2658426B2 (en) Voice recognition method
Curatelli et al. Competitive learning methods for efficient vector quantizations in a speech recognition environment

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091116

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees