JPH07160288A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH07160288A
JPH07160288A JP5305104A JP30510493A JPH07160288A JP H07160288 A JPH07160288 A JP H07160288A JP 5305104 A JP5305104 A JP 5305104A JP 30510493 A JP30510493 A JP 30510493A JP H07160288 A JPH07160288 A JP H07160288A
Authority
JP
Japan
Prior art keywords
vector
feature vector
degree
occurrence
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5305104A
Other languages
Japanese (ja)
Inventor
Junichi Nakabashi
順一 中橋
Hidekazu Tsuboka
英一 坪香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5305104A priority Critical patent/JPH07160288A/en
Publication of JPH07160288A publication Critical patent/JPH07160288A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve recognizing performance by making a code vector suitable to an input voice. CONSTITUTION:This device is provided with a code book storage means 406, a fuzzy vector quantization means 405 which converts each vector of a feature vector group to a group (vector of attribution factor) corresponding to each label by a code book and converts the feature vector group to an attribution factor vector group, a HMM storage means 407 which stores HMM in which occurrence probability of a label defined is defined for each state, a feature vector group occurrence rate calculating means which calculates occurrence rate from the HMM of the feature vector group by label occurrence probability and an attribution factor vector, and a code book correcting means 408 which corrects each code vector.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明はパターン認識、特に時系
列標準モデルにヒドゥンマルコフモデル(HMM:Hidd
en Markov Model)を用いた音声認識における、ベクト
ル空間の有限個の代表点(以下、単にコードベクトルと
いう)を修正するための装置および入力特徴ベクトルを
正規化する装置に関する。
BACKGROUND OF THE INVENTION The present invention relates to pattern recognition, and in particular to a time series standard model using Hidden Markov Model (HMM: Hidd).
An apparatus for correcting a finite number of representative points in a vector space (hereinafter, simply referred to as a code vector) and an apparatus for normalizing an input feature vector in speech recognition using en Markov Model).

【0002】本発明は一般の時系列信号に適用可能なも
のであるが、説明の便宜のために、以下、従来の技術及
び本発明については、音声認識を例に説明する。
The present invention is applicable to general time-series signals, but for convenience of explanation, the prior art and the present invention will be described below by taking speech recognition as an example.

【0003】[0003]

【従来の技術】一般に、音声認識装置は、未知の音声信
号を定められた特徴ベクトルの系列に変換し、該特徴ベ
クトルと前もって記憶されている識別された参照モデル
とを比較するように構成されている。比較の結果とし
て、前記音声信号は、定められた認識基準に従って最も
よく適合する(尤度が最大となる)参照モデルとして識
別される。現在、最も性能の良いとされる参照モデル
は、統計的推定に基づく状態と状態遷移との集合を利用
したHMMであり、以下、参照モデルを代表してHMM
を用いる。
BACKGROUND OF THE INVENTION In general, speech recognizers are configured to convert an unknown speech signal into a sequence of defined feature vectors and compare the feature vectors with a previously stored identified reference model. ing. As a result of the comparison, the speech signal is identified as the best matching (maximum likelihood) reference model according to defined recognition criteria. At present, the reference model that is considered to have the best performance is an HMM that uses a set of states and state transitions based on statistical estimation.
To use.

【0004】HMMに基づく音声認識では、尤度を算出
するために、以下の操作を行う。まず、未知の音声信号
は線形予測コーディング(LPC:Linear PredictiveC
oding)分析等の周知の方法を用いて特徴ベクトルの系列
(特徴ベクトル系列)に変換され、次に、該特徴ベクト
ルは、ベクトル間距離の最も近いコードベクトルを表す
ラベル(コードベクトルに付された番号または記号)に
変換され、前記特徴ベクトルの系列はラベルの系列(ラ
ベル系列)となり、予め作成され記憶されているHMM
が該ラベル系列を発生する確率(尤度)を算出し、尤度
が最大となるHMMを認識結果とする。
In HMM-based voice recognition, the following operations are performed in order to calculate the likelihood. First, unknown speech signals are subjected to linear predictive coding (LPC).
The feature vector is converted into a series of feature vectors (feature vector series) by using a well-known method such as oding analysis, and the feature vector is then labeled (labeled to the code vector indicating the code vector with the shortest inter-vector distance). Number or symbol), the feature vector series becomes a label series (label series), and the HMM is created and stored in advance.
Calculates the probability (likelihood) of generating the label sequence, and sets the HMM with the maximum likelihood as the recognition result.

【0005】ここで、コードベクトルとは、特徴ベクト
ルの多次元空間において、予めLBGアルゴリズム等の
周知の方法を用いて作成した有限個の代表点を表すベク
トルであり、ラベルによって検索可能な形で記憶されて
いる。
Here, the code vector is a vector representing a finite number of representative points created in advance by a well-known method such as the LBG algorithm in a multidimensional space of feature vectors, and can be searched by a label. Remembered

【0006】次に、HMMについて説明する。HMM
は、各観測が有限個Mのラベルの中のどれかであるよう
な観測ラベル系列O=o1,o2,…,oTを評価するの
に用いられる。図1はこのようなHMMを説明するため
の図である。
Next, the HMM will be described. HMM
Is used to evaluate an observation label sequence O = o 1 , o 2 , ..., O T such that each observation is one of a finite number of M labels. FIG. 1 is a diagram for explaining such an HMM.

【0007】図1では、状態数N=3、ラベルの有限個
数M=4を例としてある。状態1,2,3間の遷移は状
態遷移確率行列A=[aij]として表され、状態遷移確
率aijは状態iにいる場合には次に状態jに遷移を生ず
る確率である。HMMからラベルの発生する確率はラベ
ル発生確率行列B=[bij(k)]で表わされ、ラベル発
生確率bij(k)は状態iから状態jに遷移した場合にラ
ベルkを発生する確率である。HMMは、各語彙に対し
て1つずつ作成しておき、各HMMがラベル系列を発生
する確率(尤度)に基づいて該ラベル系列を分類するた
めに用いられる。
In FIG. 1, the number of states N = 3 and the finite number of labels M = 4 are taken as an example. The transition between states 1, 2, and 3 is represented as a state transition probability matrix A = [a ij ], and the state transition probability a ij is the probability that a transition will occur next in state j when in state i. The label occurrence probability from the HMM is represented by a label occurrence probability matrix B = [b ij (k)], and the label occurrence probability b ij (k) generates a label k when the state i transits to the state j. It is a probability. One HMM is created for each vocabulary and used to classify the label series based on the probability (likelihood) of each HMM generating a label series.

【0008】未知の音声信号の特徴ベクトル系列Y=y
1,y2, …,yt,…,yTに対して得られるラベル系
列をO=o1,o2,…,oT、HMMλが発生できる長
さTの任意の状態系列をS=s1,s2,…,sTとする
とき、HMMλがラベル系列Oを発生する確率(尤度)
は、(数1)のように示される。
Feature vector sequence Y = y of unknown voice signal
1 , y 2 , ..., Y t , ..., y T are label sequences obtained for O = o 1 , o 2 , ..., O T , and an arbitrary state sequence of length T capable of generating HMMλ is S = When s 1 , s 2 , ..., S T , the probability (likelihood) that the HMMλ generates the label sequence O
Is expressed as in (Equation 1).

【0009】[0009]

【数1】 [Equation 1]

【0010】以上は、特徴ベクトルytを唯一のラベル
tに変換する場合の説明であるが、M個のラベルのう
ち特徴ベクトルytに対して近傍のK個(ベクトル間距
離の近いものからK個に制限)のラベルの組ot1
t2,…,otKと、特徴ベクトルy tの該ラベルの組で
検索される各々のコードベクトルに対する特徴ベクトル
tの帰属度の組ut1,ut2,…,utKを用いて、ラベ
ルベクトルot=(ot1,ot2,…,otK)と帰属度ベ
クトルut=(ut1,ut2,…,utK)に変換するファ
ジィベクトル量子化と呼ばれる方法がある。該ファジィ
ベクトル量子化は、特徴ベクトル系列Yをラベルベクト
ル系列O=o1,o2,…,oTと帰属度ベクトル系列U
=u1,u2,…,uTに変換し、HMMλが前記特徴ベ
クトル系列を発生する確率(尤度)は、ラベル発生確率
imの変わりに特徴ベクトルの発生度合ω i(t)を用い
て、(数2)のように示される。
The above is the feature vector ytThe only label
otThis is an explanation of the case of converting to
Chi feature vector ytIn the vicinity of K (distance between vectors)
A set of labels (limited to K from the closest one)t1
ot2,, otKAnd the feature vector y tIn the label set of
Feature vector for each code vector searched
ytThe degree of membership ut1, Ut2, ..., utKUsing the
Le vector ot= (Ot1, Ot2,, otK) And the degree of membership
Cutle ut= (Ut1, Ut2, ..., utK) To convert
There is a method called Z vector quantization. The fuzzy
The vector quantization is performed by labeling the feature vector sequence Y
Le series O = o1, O2,, oTAnd membership vector series U
= U1, U2, ..., uTHMMλ is converted to
The probability (likelihood) of generating a Kuttle sequence is the label occurrence probability.
bimInstead of, the degree of occurrence of the feature vector ω iusing (t)
Is shown as (Equation 2).

【0011】[0011]

【数2】 [Equation 2]

【0012】ここで、Kの取り得る値は1からMの整数
であり、計算量の削減の為に小さな値Kに制限される
(K=3が適当)。1の場合は前記唯一のラベルを発生
する場合に対応する。
Here, the possible value of K is an integer from 1 to M, and is limited to a small value K (K = 3 is appropriate) in order to reduce the calculation amount. The case of 1 corresponds to the case where the unique label is generated.

【0013】上記のようにして得られる各HMMの尤度
(特徴ベクトル系列Yを各語彙のHMMが発生する確
率)を比較し、該尤度が最大のものを選択することによ
り認識は行われる。
Recognition is performed by comparing the likelihoods (probabilities that HMMs of each vocabulary occur in the feature vector series Y) of the HMMs obtained as described above and selecting the one having the maximum likelihood. .

【0014】例えば、語彙数Wの場合、未知の特徴ベク
トル系列Yに対するw番目の語彙のHMMλwの尤度を
L(Y|λw)とする場合、その認識結果wは(数3)
である。
For example, if the number of vocabularies is W , and the likelihood of HMMλ w of the w-th vocabulary with respect to the unknown feature vector sequence Y is L (Y | λ w ), the recognition result w is (Equation 3).
Is.

【0015】[0015]

【数3】 [Equation 3]

【0016】従って、得られた尤度の相対的比較により
認識結果が求められる。図2は、コードブックの一構成
例を示すものであり、各行の1カラム目にラベルをそれ
以降にコードベクトルの値を格納する形、すなわち、ラ
ベルによってコードベクトルが検索可能な形で構成され
ている。
Therefore, the recognition result is obtained by the relative comparison of the obtained likelihoods. FIG. 2 shows an example of the structure of the codebook. The codebook is constructed in such a form that a label is stored in the first column of each row and the value of the codevector is stored thereafter, that is, the codevector can be searched by the label. ing.

【0017】以上のような構成の音声認識装置のブロッ
ク図は図3に示す形となる。301は特徴抽出部であ
り、LPC分析等の周知の方法を用いて、未知の音声信
号を一定時間間隔毎に特徴ベクトルに変換し、特徴ベク
トルの系列Y=y1,y2, …,yt,…,yTを得る。
ここでTは、未知の音声信号に対する特徴ベクトル系列
Yの長さである。
A block diagram of the speech recognition apparatus having the above-described structure is shown in FIG. A feature extraction unit 301 converts an unknown speech signal into a feature vector at regular time intervals using a well-known method such as LPC analysis, and outputs a sequence of feature vectors Y = y 1 , y 2 , ..., Y. Get t , ..., y T.
Here, T is the length of the feature vector sequence Y with respect to the unknown voice signal.

【0018】302はコードブック記憶部であり、コー
ドベクトルをそれに付されたラベルによって検索可能な
形で記憶している。
A codebook storage unit 302 stores a code vector in a searchable form by a label attached to the code vector.

【0019】303はファジィベクトル量子化部であ
り、前記特徴抽出部301で抽出された前記特徴ベクト
ルytと前記コードブック記憶部302に記憶されてい
るコードベクトルとのベクトル間距離の最も近い順にK
個のラベルと、特徴ベクトルy tの該ラベルの組で検索
される各々のコードベクトルに対する特徴ベクトルyt
の帰属度に置き換え、ラベルベクトルot=(ot1,o
t2,…,otK)と帰属度ベクトルut=(ut1,ut2
…,utK)に変換し、前記特徴ベクトルytの系列Yを
ラベルベクトル系列O=o1,o2,…,oTと帰属度ベ
クトル系列U=u1,u 2,…,uTに変換するものであ
る。
Reference numeral 303 is a fuzzy vector quantizer.
The feature vector extracted by the feature extraction unit 301.
RytAnd stored in the codebook storage unit 302
K in order of the distance between the vector and the code vector
Labels and feature vector y tSearch with the label set of
Feature vector y for each code vectort
Label vector ot= (Ot1, O
t2,, otK) And the membership vector ut= (Ut1, Ut2
…, UtK), And the feature vector ytThe series Y of
Label vector series O = o1, O2,, oTAnd degree of membership
Kuturu series U = u1, U 2, ..., uTTo convert to
It

【0020】304はHMM記憶部であり、既に作成さ
れているHMMλw(w=1〜W)を認識すべき各語彙毎に
前記状態遷移確率行列Aと前記ラベル発生確率行列Bを
語彙数Wだけ記憶しておく。従って、w番目のHMM
は、λw={Aw,Bw}w=1〜Wと表される。
An HMM storage unit 304 stores the state transition probability matrix A and the label occurrence probability matrix B for each vocabulary for recognizing already created HMMλ w (w = 1 to W). Just remember. Therefore, the wth HMM
Is expressed as λ w = {A w , B w } w = 1 to W.

【0021】305は特徴ベクトル系列発生度合算出部
であり前記ファジィベクトル量子化部303で求められ
た前記ラベルベクトル系列Oと前記帰属度ベクトル系列
Uと前記HMM記憶部304に記憶されているw番目の
語彙のラベル発生確率行列B wを用いて、HMMλwに対
する特徴ベクトル系列の発生度合行列Ωw={ωw it}を
(数4)または(数5)に従い算出するものである。
Reference numeral 305 is a feature vector sequence occurrence degree calculation unit.
And is obtained by the fuzzy vector quantizer 303.
The label vector series O and the degree of membership vector series
U and the w-th stored in the HMM storage unit 304
Vocabulary label occurrence probability matrix B wUsing HMMλwAgainst
Occurrence matrix of feature vector sequence Ωw= {Ωw it}
It is calculated according to (Equation 4) or (Equation 5).

【0022】[0022]

【数4】 [Equation 4]

【0023】[0023]

【数5】 [Equation 5]

【0024】ここで、ラベル発生確率bitkは、時刻
tの特徴ベクトルytをファジィベクトル量子化したと
きのk番目のラベルotkがHMMの状態iから発生する
ラベル発生確率である。
Here, the label occurrence probability b i o tk is the label occurrence probability that the k-th label o tk when the feature vector y t at time t is fuzzy vector quantized occurs from the state i of the HMM.

【0025】306は尤度算出部であり、前記特徴ベク
トル系列発生度合算出部305で算出されたHMMλw
に対する前記特徴ベクトル系列発生度合行列Ωwと前記
HMM記憶部304に記憶されているHMMλwの状態
遷移確率行列Awを用い、尤度L(Y|λw)を算出する
ものである。
A likelihood calculation unit 306 calculates the HMMλ w calculated by the feature vector sequence generation degree calculation unit 305.
Using a state transition probability matrix A w of the feature vector series occurrence rate matrix Omega w wherein stored in the HMM storage unit 304 and HMMramuda w relative likelihood L | and calculates the (Y λ w).

【0026】307は尤度記憶部であり、前記尤度算出
部306で算出された特徴ベクトル系列Yに対する各単
語HMMλwの尤度L(Y|λw)を比較のために記憶す
る。
A likelihood storage unit 307 stores the likelihood L (Y | λ w ) of each word HMMλ w for the feature vector series Y calculated by the likelihood calculation unit 306 for comparison.

【0027】308は比較判定部であり、前記尤度記憶
部307に記憶されている各HMMの尤度のうち最大値
を与えるHMMに対応する語彙を認識結果として判定す
るものである。
A comparison / determination unit 308 determines, as a recognition result, a vocabulary corresponding to the HMM that gives the maximum value among the likelihoods of the HMMs stored in the likelihood storage unit 307.

【0028】前記305から307は各語彙のHMMλ
wにつき一度ずつ行い、w=1〜Wまで繰り返され、その結
果を前記比較判定部308で評価する。
305 to 307 are HMMλ of each vocabulary
It is performed once for w and repeated from w = 1 to W, and the result is evaluated by the comparison and determination unit 308.

【0029】以上が、従来のコードブック、HMMを用
いた音声認識装置の構成である。以上のようなHMMを
用いた音声認識を行うためには、HMMの学習と呼ばれ
る、大量のHMM作成用音声データ(以後、HMMの学
習データと呼ぶ)を用いたHMMの作成手続きが必要で
ある。
The above is the configuration of the speech recognition apparatus using the conventional codebook and HMM. In order to perform the voice recognition using the HMM as described above, an HMM creating procedure using a large amount of HMM creating voice data (hereinafter referred to as HMM learning data), called HMM learning, is required. .

【0030】HMMの学習データが、ある特定の一人の
話者で認識時も同一の話者が入力する場合を特定話者音
声認識と呼び、不特定多数の話者を用いてHMMの学習
を行い、認識時の話者は未知である場合を不特定話者音
声認識と呼ぶ。
When the HMM learning data is input by the same speaker even when it is recognized by one specific speaker, it is called specific speaker voice recognition, and HMM learning is performed by using an unspecified number of speakers. If the speaker at the time of recognition is unknown, it is called unspecified speaker voice recognition.

【0031】[0031]

【発明が解決しようとする課題】特定話者音声認識の場
合は、性能はよいが一人の話者から膨大なHMMの学習
データを集める必要があり、実現性に乏しい。
In the case of specific speaker voice recognition, performance is good, but enormous amount of HMM learning data needs to be collected from one speaker, which is not practical.

【0032】不特定話者音声認識の場合は、HMMの学
習データの収集は容易であり、データが多ければ多いほ
ど、HMMの統計的信頼性が上がる。しかし、特定話者
の性能を超えることはなく、該HMMでは、認識性能の
極端に悪い特異な話者がいる。
In the case of unspecified speaker speech recognition, it is easy to collect the learning data of the HMM, and the more data, the higher the statistical reliability of the HMM. However, the performance of the specific speaker is not exceeded, and in the HMM, there is a specific speaker whose recognition performance is extremely poor.

【0033】また、HMMを音節や音韻のように単語よ
り小さい単位で記憶しておく場合には、学習用語彙と認
識用語彙の間に、文脈(音節、音韻等の並ぶ順序)の差
異の影響により性能の劣下が起こる。
Further, when the HMM is stored in units smaller than words such as syllables and phonemes, there is a difference in context (order of syllables, phonemes, etc.) between the learning vocabulary and the recognition vocabulary. Poor performance occurs due to the effect.

【0034】また、認識時の周囲の環境が、学習用デー
タを収録した場合と違うときなども、その差異により性
能の劣化が起こる。
Also, when the surrounding environment at the time of recognition is different from the case where the learning data is recorded, the difference causes deterioration in performance.

【0035】以上のように従来の音声認識では、学習時
と認識時の話者の差異及び文脈の差異により性能の劣下
が起きるという課題があった。
As described above, in the conventional speech recognition, there is a problem in that the performance is degraded due to the difference between the speakers at the time of learning and the recognition and the difference in the context.

【0036】[0036]

【課題を解決するための手段】[Means for Solving the Problems]

(1)本課題を解決するために本発明は、修正用音声の
発声内容がシステム側に既知(どの様な単語を発声した
かが分かっている)場合に、特徴ベクトル空間の有限個
の代表点(コードベクトル)をそれに付されたラベルに
よって検索可能な形で記憶するコードブック記憶手段
と、該コードブックによって特徴ベクトル系列の各ベク
トルを各ラベルに対応した帰属度の組(帰属度ベクト
ル)に変換し、前記特徴ベクトル系列を帰属度ベクトル
系列に変換するファジィベクトル量子化手段と、前記ラ
ベルの発生確率(ラベル発生確率)が状態毎に定義され
たHMMを記憶するHMM記憶手段と、前記ラベル発生
確率と前記帰属度ベクトルにより前記特徴ベクトル系列
の前記HMMからの発生度合を算出する特徴ベクトル系
列発生度合算出手段と、前記各コードベクトルを修正す
るコードブック修正手段を備え、該コードブック修正手
段は前記特徴ベクトル系列が前記HMMから発生する度
合を最大にするように前記コードベクトルを修正する修
正ベクトル算出手段を含み、前記コードベクトルを修正
するように構成されている。 (2)本課題を解決するために本発明は、修正用音声の
発声内容がシステム側に既知(どの様な単語を発声した
かが分かっている)場合に、 特徴ベクトル空間の有限
個の代表点(コードベクトル)をそれに付されたラベル
によって検索可能な形で記憶するコードブック記憶手段
と、該コードブックによって特徴ベクトル系列の各ベク
トルを各ラベルに対応した帰属度の組(帰属度ベクト
ル)に変換し、前記特徴ベクトル系列を帰属度ベクトル
系列に変換するファジィベクトル量子化手段と、前記ラ
ベルの発生確率(ラベル発生確率)が状態毎に定義され
たHMMを記憶するHMM記憶手段と、前記ラベル発生
確率と前記帰属度ベクトルにより前記特徴ベクトル系列
の前記HMMからの発生度合を算出する特徴ベクトル系
列発生度合算出手段と、前記特徴ベクトルを修正する特
徴ベクトル修正手段を備え、該特徴ベクトル修正手段は
前記特徴ベクトル系列が前記HMMから発生する度合を
最大にするように前記特徴ベクトルを修正する修正ベク
トル算出手段を含み、前記特徴ベクトルを修正するよう
に構成されている。
(1) In order to solve this problem, the present invention provides a finite number of representatives of the feature vector space when the utterance content of the correction voice is known to the system side (what kind of word is uttered is known). Codebook storage means for storing points (code vectors) in a searchable form by labels attached to the points, and a set of membership degrees (membership vectors) for each vector of the feature vector series by the codebook Fuzzy vector quantization means for converting the feature vector sequence into a membership vector sequence, HMM storage means for storing an HMM in which the label occurrence probability (label occurrence probability) is defined for each state, Feature vector sequence occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the belonging degree vector. Codebook modifying means for modifying each of the codevectors, the codebook modifying means including modification vector calculating means for modifying the codevectors so as to maximize the degree of occurrence of the feature vector sequence from the HMM, It is configured to modify the code vector. (2) In order to solve this problem, the present invention provides a finite number of representatives of the feature vector space when the utterance content of the correction voice is known to the system side (which word is known). Codebook storage means for storing points (code vectors) in a searchable form by labels attached to the points, and a set of membership degrees (membership vectors) for each vector of the feature vector series by the codebook Fuzzy vector quantization means for converting the feature vector sequence into a membership vector sequence, HMM storage means for storing an HMM in which the label occurrence probability (label occurrence probability) is defined for each state, Feature vector sequence occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the belonging degree vector. A correction vector calculating means for correcting the feature vector, the feature vector correcting means including a correction vector calculating means for correcting the feature vector so as to maximize the degree of occurrence of the feature vector series from the HMM, It is configured to modify the feature vector.

【0037】[0037]

【作用】[Action]

(1)本発明の効果は、修正用音声の発声内容がシステ
ム側に既知(どの様な単語を発声したかが分かってい
る)場合に、該音声に対応するHMMの尤度が最大にな
るようにコードベクトルの修正ベクトルを算出し、コー
ドベクトルを修正することにより、上記修正用音声に適
したコードベクトルを作成し、認識性能の向上を図るこ
とである。。 (2)本発明の効果は、修正用音声の発声内容がシステ
ム側に既知(どの様な単語を発声したかが分かってい
る)場合に、該音声に対応するHMMの尤度が最大にな
るように特徴ベクトルの修正ベクトルを算出し、認識時
に前記修正ベクトルを用いて未知の入力音声の特徴ベク
トル系列を正規化することにより、認識性能の向上を図
ることである。
(1) The effect of the present invention is that, when the utterance content of the correction voice is known to the system side (which word is uttered is known), the likelihood of the HMM corresponding to the voice is maximized. Thus, the correction vector of the code vector is calculated, and the code vector is corrected, thereby creating a code vector suitable for the correction voice and improving the recognition performance. . (2) The effect of the present invention is that, when the utterance content of the correction voice is known to the system side (which word is uttered is known), the likelihood of the HMM corresponding to the voice is maximized. Thus, the correction vector of the feature vector is calculated, and at the time of recognition, the correction vector is used to normalize the feature vector sequence of the unknown input voice, thereby improving the recognition performance.

【0038】[0038]

【実施例】本発明は、HMMの学習時と認識時との間の
条件の差異の修正に対して適用可能であるが、以下、H
MMの学習用データを発声した話者と認識装置を使用す
る話者が違う場合に、その話者間の差異の修正を例に、
本発明を説明する。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention can be applied to the correction of the difference in condition between the time of learning and the time of recognition of HMM.
When the speaker who uttered the MM learning data is different from the speaker who uses the recognition device, the correction of the difference between the speakers is taken as an example.
The present invention will be described.

【0039】また、特徴ベクトル系列発生度合算出式の
積和またはべき乗積の計算の制限範囲は1からコードブ
ックサイズに等しい値Mまでの整数値を取り得るが、計
算量の削減のために小さな値を用いる場合が多く、本実
施例では、該制限範囲をKという文字で表す。
The limit range for calculating the sum of products or the exponentiation product of the feature vector sequence generation degree calculation formula can be an integer value from 1 to a value M equal to the codebook size, but it is small to reduce the calculation amount. In many cases, a value is used, and in this embodiment, the limit range is represented by the letter K.

【0040】図4は、本発明であるコードブック修正装
置の概要を表すブロック図である。401は修正用音声
記憶部であり、コードブックをその人用に修正したい話
者(以後、修正話者と呼ぶ)すなわち音声認識システム
を使用する話者が発声した内容既知(コードブック修正
装置に発声の内容が事前に分かっている)の音声S
r(以後、修正用音声と呼ぶ)を発声数R(r=1〜
R)記憶しており、以降のコードブックの修正に用いら
れる。該修正用音声は、発声内容が既知であればいかな
る単語、文章でも良い。
FIG. 4 shows a codebook correction device according to the present invention.
It is a block diagram showing the outline of an arrangement. 401 is a correction voice
It's a memory section, and I want to modify the codebook for that person
Person (hereinafter referred to as a modified speaker), that is, a voice recognition system
Known content spoken by the speaker using
Voice content of the device is known in advance)
r(Hereinafter, referred to as correction voice) is the number of utterances R (r = 1 to 1)
R) I remember it and use it to modify the codebook after that.
Be done. If the utterance content is known, what is the correction voice?
You can use words and sentences.

【0041】402は特徴抽出部であり、前記図3に示
した認識装置で用いる特徴抽出手法と同様の手法を用
い、修正用音声Srを一定時間間隔毎に特徴ベクトルの
系列Yr=y1 r,y2 r, …,yt r,…,yT rに変換す
る。ここでTrは、修正用音声Srを特徴ベクトル系列に
変換したときのデータのフレーム数である。
Reference numeral 402 denotes a feature extraction unit, which uses a technique similar to the feature extraction technique used in the recognition apparatus shown in FIG. 3 and outputs the correction speech S r at a fixed time interval Y r = y. 1 r, y 2 r, ... , y t r, ..., it is converted to y T r. Here, T r is the number of data frames when the correction voice S r is converted into a feature vector sequence.

【0042】403は修正用特徴ベクトル記憶部であ
り、前記401に記憶されている修正用音声信号Sr
前記特徴抽出部402で特徴抽出した特徴ベクトル系列
rをr=1〜Rについて記憶している。
A correction feature vector storage unit 403 stores a feature vector sequence Y r obtained by feature extraction of the correction voice signal S r stored in the 401 by the feature extraction unit 402 for r = 1 to R. is doing.

【0043】404はデータ制御部であり、現在R発声
のうち第r番目の発声を扱っているか、そのr番目の発
声内容は何かを用いて、以下の処理を制御する。ここ
で、word(r)とは、第r番目の発声内容(該発声内容の
HMMの番号w)を示す。
A data control unit 404 controls the following processes by using the r-th utterance of the R utterances at present or by using the content of the r-th utterance. Here, word (r) indicates the r-th utterance content (HMM number w of the utterance content).

【0044】405はファジィベクトル量子化部であ
り、前記データ制御部404より送られた発声番号rを
用いて前記修正用特徴ベクトル記憶部403より特徴ベ
クトル系列Yrを読みだし、各時刻tの特徴ベクトルyt
rに対して、後述するコードブック記憶部406に記憶
されているC1〜CMのコードベクトルとのベクトル間距
離の最も近い順に1位からK位のラベルと、特徴ベクト
ルytの該ラベルの組で検索される各々のコードベクト
ルに対する特徴ベクトルytの帰属度に置き換え、ラベ
ルベクトルot r=(ot1,ot2,…,otK)と帰属度ベ
クトルut r=(u t1,ut2,…,utK)に変換し、前記
特徴ベクトルyt rの系列Yrをラベルベクトル系列Or
1 r,o2 r,…,oT rと帰属度ベクトル系列Ur
1 r,u2 r,…,uT rに変換するものである。
Reference numeral 405 is a fuzzy vector quantizer.
The vocalization number r sent from the data control unit 404.
Using the correction feature vector storage unit 403,
Cuttle series YrAnd the feature vector y at each time tt
rIn the codebook storage unit 406 described later.
Is C1~ CMDistance between code vector and
Labels from 1st to Kth in order of closest separation, and feature vectors
RytEach code vector searched for in the label set of
Feature vector y fortReplaced with the degree of
Le vector ot r= (Ot1, Ot2,, otK) And the degree of membership
Cutle ut r= (U t1, Ut2, ..., utK) To the above
Feature vector yt rSeries YrLabel vector series Or=
o1 r, O2 r,, oT rAnd membership vector series Ur=
u1 r, U2 r, ..., uT rIs to be converted to.

【0045】406はコードブック記憶部であり、コー
ドベクトルCmをそれに付されたラベルmによって検索
可能な形で記憶しており、前記ファジィベクトル量子化
部405で、ベクトル量子化時に用いられる。
A codebook storage unit 406 stores the code vector C m in a searchable form by the label m attached thereto, and is used by the fuzzy vector quantization unit 405 during vector quantization.

【0046】407はHMM記憶部であり、既に作成さ
れているHMMを認識すべき各語彙毎に前記図1に示し
たように状態遷移確率行列Aとラベル発生確率行列Bを
語彙数Wだけ記憶しておく。従って、w番目のHMMλ
wは、λw ={Aw,Bw}と表される。
Reference numeral 407 denotes an HMM storage unit, which stores the state transition probability matrix A and the label occurrence probability matrix B for each vocabulary of which the number of vocabularies is W as shown in FIG. I'll do it. Therefore, the wth HMMλ
w is expressed as λ w = {A w , B w }.

【0047】408はコードブック修正部であり、前記
コードブック記憶部406におけるコードベクトルCm
の値を修正用音声と前記HMM記憶部407に記憶され
ている修正用音声の発声内容に対応するHMMを用い
て、該HMMが前記修正用音声を発生する確率(尤度)
が最大になるように、コードベクトル値を修正し、修正
した新しいコードベクトルC' mを前記コードブック記憶
部406に転送するものである。
Reference numeral 408 denotes a codebook correction unit, which is a code vector C m in the codebook storage unit 406.
Value of the correction voice and the probability that the HMM generates the correction voice by using the HMM corresponding to the utterance content of the correction voice stored in the HMM storage unit 407.
The code vector value is modified so that the maximum value of C becomes the maximum, and the modified new code vector C m is transferred to the codebook storage unit 406.

【0048】409は修正収束判定部であり、修正用音
声を用いてコードベクトルを修正したときの収束状況を
判定するものであり、予め定められた収束条件を満足す
れば修正動作を終了し、満足しなければ満足するまで、
コードベクトルの修正を繰り返す。
Reference numeral 409 denotes a correction convergence determination unit, which determines the convergence status when the code vector is corrected using the correction voice. If the predetermined convergence condition is satisfied, the correction operation is terminated, If not satisfied, until satisfied,
Repeat the modification of the code vector.

【0049】本発明の特徴は前記コードブック修正部4
08の構成にあり、発声内容が既知であることを条件
に、その発声内容に対応するHMMがその音声を発生す
る確率(尤度)が最大になるようにコードベクトルの修
正を行うことである。コードブック修正部の具体的な構
成を示したブロック図を図5に示す。
A feature of the present invention is that the codebook correction unit 4
In the configuration of No. 08, the code vector is modified so that the probability (likelihood) that the HMM corresponding to the utterance content generates the voice is maximized, provided that the utterance content is known. . FIG. 5 is a block diagram showing a specific configuration of the codebook correction unit.

【0050】各々の端子1〜8は前記図4と接続されて
おり、端子1、6は前記コードブック記憶部406と接
続されており、端子1はコードブックCを受信し、端子
6は修正後のコードブックC'を送信する。端子4、5
は前記HMM記憶部407と接続されており、端子4が
r番目の音声に対応するHMMの状態遷移確率行列A
word(r)を、端子5が同じくラベル発生確率行列B
word(r)を受信する。端子2、3は前記ファジィベクト
ル量子化部405と接続されており、r番目の音声に対
するラベルベクトル系列Orと帰属度ベクトル系列Ur
受信する。端子7は前記修正収束判定部409と接続さ
れており、収束の判定に用いられる平均尤度Lav eを送
信する。端子8は前記データ制御部404と接続してお
り、現在の修正用音声データが第r番目であるかの情報
を受信し、r=Rとなったら、修正ベクトル△Cと平均
尤度Laveを算出する。
Each terminal 1-8 is connected to FIG.
Terminals 1 and 6 are connected to the codebook storage unit 406.
And terminal 1 receives codebook C,
6 is the modified codebook C'To send. Terminals 4, 5
Is connected to the HMM storage unit 407, and the terminal 4 is
State transition probability matrix A of HMM corresponding to r-th speech
word (r)And the terminal 5 has the same label occurrence probability matrix B
word (r)To receive. Terminals 2 and 3 are the fuzzy vector
Connected to the audio quantizer 405,
Label vector series OrAnd membership vector series UrTo
To receive. The terminal 7 is connected to the correction convergence determination unit 409.
And the average likelihood L used for the convergence determinationav eSend
Believe. The terminal 8 is connected to the data control unit 404.
Information that the current correction voice data is the rth
When r = R is received, the correction vector ΔC and the average
Likelihood LaveTo calculate.

【0051】上記のような情報のやり取りを行いなが
ら、前記コードブック修正部408すなわち図5は実行
される。
While exchanging the information as described above, the codebook correction unit 408, that is, FIG. 5 is executed.

【0052】501は特徴ベクトル系列発生度合算出部
であり、端子2、3、5より受信した前記ラベル発生確
率行列、ラベルベクトル系列、帰属度ベクトル系列をも
とに帰属度とラベル発生確率から特徴ベクトル発生度合
ωi(t)を全ての時刻t、HMMの全ての状態iについて
算出し、特徴ベクトル発生度合行列Ωを求める。この特
徴ベクトル発生度合の算出式の与え方により後述する修
正ベクトルの算出式が異なる。
Numeral 501 is a feature vector sequence occurrence degree calculation unit, which is based on the attribution degree and the label occurrence probability based on the label occurrence probability matrix, the label vector series, and the attribution degree vector series received from the terminals 2, 3, and 5. The vector generation degree ω i (t) is calculated for all times t and all states i of the HMM to obtain the feature vector generation degree matrix Ω. The correction vector calculation formula, which will be described later, differs depending on how the calculation formula of the feature vector generation degree is given.

【0053】502は経路確率算出部であり、ある時刻
tにHMMのある状態iに存在する経路確率γi(t)を全
ての時刻t、HMMの全ての状態iについて算出し、経
路確率行列Γを求める。また、r番目の発声内容に対応
するHMMがその音声が発生する確率(尤度)L
(Or,Ur|λword(r))を算出し、収束判定のために
後述する尤度記憶部に送る。
Reference numeral 502 denotes a route probability calculating unit, which calculates a route probability γ i (t) existing in a state i of the HMM at a certain time t for all times t and all states i of the HMM to obtain a route probability matrix. Find Γ. Also, the probability (likelihood) L that the HMM corresponding to the r-th utterance content generates the voice is L.
(O r , U r | λ word (r) ) is calculated and sent to a likelihood storage unit described later for convergence determination.

【0054】503は修正ベクトル分母分子算出部であ
り、前記特徴ベクトル系列発生度合算出部501におけ
る前記特徴ベクトル発生度合ωi(t)の算出式に対応する
修正ベクトル算出式の分母および分子を算出する。
Reference numeral 503 is a correction vector denominator / numerator calculation unit that calculates the denominator and numerator of the correction vector calculation formula corresponding to the calculation formula of the feature vector generation ratio ω i (t) in the feature vector sequence generation ratio calculation unit 501. To do.

【0055】504は修正ベクトル分母分子記憶部であ
り、前記修正ベクトル分母分子算出部503で算出され
た修正ベクトル算出式の分母および分子の値を後述する
修正ベクトル算出部で用いるために記憶する。
A correction vector denominator / numerator storage unit 504 stores the denominator and numerator values of the correction vector calculation formula calculated by the correction vector denominator / numerator calculation unit 503 for use in the correction vector calculation unit described later.

【0056】505は尤度記憶部であり、前記経路確率
記憶部502から送られた尤度L(Y|λw)の全修正
用単語分R個を記憶する。
A likelihood storage unit 505 stores R words for all correction words of the likelihood L (Y | λ w ) sent from the route probability storage unit 502.

【0057】以上の動作を修正用音声R個に対して行っ
た(前記端子7からの信号がRになった)後、後述する
動作を行う。
After the above operation is performed for R correction voices (the signal from the terminal 7 becomes R), the operation described later is performed.

【0058】506は修正ベクトル算出部であり、前記
特徴ベクトル系列発生度合算出部501における特徴ベ
クトル発生度合ωi(t)の算出式に対応する修正ベクトル
算出式に基づき、前記修正ベクトル分母分子記憶部50
4に記憶されている修正ベクトルの分母および分子より
修正ベクトルの集合△Cを求める。
A correction vector calculation unit 506 stores the correction vector denominator / numerator memory based on a correction vector calculation formula corresponding to the calculation formula of the feature vector generation degree ω i (t) in the feature vector sequence generation degree calculation unit 501. Part 50
A correction vector set ΔC is obtained from the denominator and numerator of the correction vector stored in 4.

【0059】507は修正後コードベクトル算出部であ
り、前記端子1より受信した修正前のコードブックCの
コードベクトル値と前記修正ベクトル算出部507で求
めた修正ベクトルの集合△Cを用いて、修正後のコード
ブックC’のコードベクトル値を算出し、前記端子6よ
り前記コードベクトル記憶部406に送信する。
Reference numeral 507 denotes a corrected code vector calculation unit, which uses the code vector value of the uncorrected codebook C received from the terminal 1 and the correction vector set ΔC obtained by the correction vector calculation unit 507. The code vector value of the corrected code book C ′ is calculated and transmitted from the terminal 6 to the code vector storage unit 406.

【0060】508は平均尤度算出部であり、前記修正
収束判定部409に前記端子7を通じて送信するために
全尤度を平均して、平均尤度Laveを算出する。
An average likelihood calculator 508 averages all likelihoods to be transmitted to the modified convergence determiner 409 through the terminal 7, and calculates an average likelihood L ave .

【0061】以上が、本発明におけるコードブック修正
部の構成であるが、この構成には大きく2つの場合が考
えられる。一方は、コードブックのコードベクトルを修
正するときに、修正前と後のコードベクトル間の修正ベ
クトルを各クラスタ毎に個別に求める方法、他方はその
修正ベクトルを全クラスタ共通に求める方法である。
The above is the configuration of the codebook correction unit in the present invention, but there are roughly two cases in this configuration. One is a method of individually obtaining the correction vector between the code vectors before and after the correction when correcting the code vector of the codebook, and the other is a method of obtaining the correction vector common to all the clusters.

【0062】まず、前者の修正ベクトルを各クラスタ毎
に個別に求める場合を、図6から図9のコードブックの
修正動作の実行を表すフローチャートを用いて説明す
る。
First, the case where the former correction vector is individually obtained for each cluster will be described with reference to the flowcharts of FIG. 6 to FIG.

【0063】601で修正話者の発声内容既知の音声S
rが前記修正用音声記憶部401に記憶されているか確
認する。記憶されていれば次に進み、されていなければ
602に示すように修正用音声を発声し記憶する。60
3はその修正用音声Srを前記特徴抽出部402で周知
の特徴ベクトル抽出手段を用いて特徴ベクトルYrに変
換することに対応しており、r=1〜Rについて実行
し、604に示すようにそれらを前記修正用特徴ベクト
ル記憶部403に記憶する。
At S 601, a voice S whose voicing content of the modified speaker is known
It is confirmed whether r is stored in the correction voice storage unit 401. If it is stored, the process proceeds to the next step, and if not, a correction voice is uttered and stored as indicated by 602. 60
3 corresponds to converting the correction speech S r into a feature vector Y r by the feature extraction unit 402 using a well-known feature vector extraction means, which is executed for r = 1 to R and is shown at 604. Thus, they are stored in the correction feature vector storage unit 403.

【0064】以下の動作は、修正が収束したと判断され
るまで繰り返し行われる。まず、605で修正ベクトル
の分母用および分子用のバッファをゼロクリアし、以降
の準備をする。606または607で修正用音声データ
の特徴ベクトル系列Yrを読み込み、608では、前記
ファジィベクトル量子化部405と前記コードベクトル
記憶部406においてファジィベクトル量子化を周知の
方法により実行し、前記帰属度ベクトル系列Urと前記
ラベルベクトル系列Orを算出する。
The following operation is repeated until it is determined that the correction has converged. First, in 605, the buffers for the denominator and the numerator of the correction vector are cleared to zero, and the subsequent preparations are made. At 606 or 607, the feature vector series Y r of the correction voice data is read, and at 608, fuzzy vector quantization is executed in the fuzzy vector quantization unit 405 and the code vector storage unit 406 by a well-known method, and the degree of membership is calculated. The vector series U r and the label vector series O r are calculated.

【0065】609すなわち図7では、前記特徴ベクト
ル系列発生度合算出部501における特徴ベクトル発生
度合ωi(t)の算出をt=1〜Tr,i=1〜Iについて
707で前記算出式(数4)に従い行う。
609, that is, in FIG. 7, the calculation of the characteristic vector generation degree ω i (t) in the characteristic vector sequence generation degree calculation unit 501 is performed by the calculation formula (7) for t = 1 to Tr , i = 1 to I. Perform according to equation 4).

【0066】610では前記経路確率算出部502の経
路確率γi(t)を周知のフォワード・バックワードアルゴ
リズムを用いて算出する。
At 610, the route probability γ i (t) of the route probability calculating unit 502 is calculated by using a well-known forward / backward algorithm.

【0067】611すなわち図8では、前記修正ベクト
ル分母分子算出部503の動作を、803でr番目の特
徴ベクトル系列Yrのフレーム長Trが終了するまで、ま
た806でそのr番目の発声内容に対応するHMMの状
態数Iが終了するまで全てのコードベクトルCm(m=
1〜M)に対して(809の条件を満足)、810で分
母については(数6)、分子については(数7)でそれ
ぞれ修正ベクトル算出式の分母および分子を算出する。
ただし、前記(数6)および(数7)は前記特徴ベクト
ル発生度合の算出式(数4)に対応するラベルmごとの
修正ベクトル算出式(数8)の分母および分子の式であ
る。
611, that is, in FIG. 8, the operation of the correction vector denominator / numerator calculation unit 503 is performed until the frame length T r of the r-th feature vector sequence Y r ends at 803 and at the r-th utterance content at 806. Until all the code vectors C m (m =
1 to M) (satisfies the condition of 809), 810 calculates the denominator and the numerator of the correction vector calculation formula by (Equation 6) for the denominator and (Equation 7) for the numerator.
However, (Formula 6) and (Formula 7) are denominator and numerator formulas of the correction vector calculation formula (Formula 8) for each label m corresponding to the calculation formula (Formula 4) of the feature vector generation degree.

【0068】[0068]

【数6】 [Equation 6]

【0069】[0069]

【数7】 [Equation 7]

【0070】[0070]

【数8】 [Equation 8]

【0071】ここで、△Cm r _denomおよび△Cm r _numer
はr番目の単語、m番目のクラスタに対する修正ベクト
ル△Cmの算出式の各々分母および分子を表す。
Here, ΔC m r _denom and ΔC m r _numer
Represents the denominator and numerator of the calculation formula of the correction vector ΔC m for the rth word and the mth cluster, respectively.

【0072】全てのTr、Iが終了して(806、80
3の条件を満足)、811で修正ベクトル算出式の分母
および分子の値を尤度で正規化する。
When all T r , I have been completed (806, 80
The condition of 3) is satisfied), and in 811 the values of the denominator and the numerator of the correction vector calculation formula are normalized by likelihood.

【0073】612で最後の特徴ベクトル系列YRを選
択したかという条件が満たされるまで、すなわち全ての
特徴ベクトル系列Yr(r=1〜R)に対して608か
ら611の動作を繰り返し、全ての修正用音声に対する
コードベクトル毎の修正ベクトル算出式の分母および分
子を算出し終わると、613から615すなわち図9に
おいて修正ベクトルの集合△C={△C1,△C2,…,
△CM)の算出と修正後のコードブックC'={C1 ',C
2 ',…,CM ')の算出が行われる。
Until the condition that the last feature vector sequence Y R is selected in 612 is satisfied, that is, the operations from 608 to 611 are repeated for all feature vector sequences Y r (r = 1 to R), When the denominator and the numerator of the correction vector calculation formula for each code vector for the correction voice of are finished, 613 to 615, that is, the set of correction vectors ΔC = {ΔC 1 , ΔC 2 , ..., In FIG.
Calculation of ΔC M ) and the corrected codebook C = {C 1 , C
2 ' , ..., CM ' ) is calculated.

【0074】903に示すように全てのコードベクトル
に対して、前記修正ベクトル算出式の分母および分子を
用いて(数9)に従い613すなわち904で各クラス
タに対する前記修正ベクトル△Cmを求める。
As shown in 903, the correction vector ΔC m for each cluster is obtained by 613, that is, 904 according to (Equation 9) using the denominator and numerator of the correction vector calculation formula for all code vectors.

【0075】[0075]

【数9】 [Equation 9]

【0076】前記修正ベクトルの集合△Cが求まれば、
後はそれを修正前の前記コードブックCのコードベクト
ルに加え(614すなわち905)、修正後のコードブ
ックC'を新しくコードブックCとして置き換える(6
15すなわち906)。
Once the correction vector set ΔC is obtained,
After addition to the code vector of the codebook C before modify it (614 ie 905), replaces the codebook C 'after correction as the new codebook C (6
15 or 906).

【0077】616で修正が予め定められた収束条件に
対して収束したかどうかを判定し、収束すると判断され
れば終了し、その時点でのコードブックを修正話者に対
するコードブックとする。また、収束していないと判断
された場合は605に戻り、収束するまで繰り返す。
At 616, it is determined whether or not the correction has converged to a predetermined convergence condition. If it is determined that the correction has converged, the process ends, and the codebook at that time is set as the codebook for the corrected speaker. Further, when it is determined that it has not converged, the process returns to 605 and is repeated until it converges.

【0078】次に、後者の場合すなわち修正ベクトルを
全クラスタ共通に求める場合を、図6、図7と図10、
図11のコードブックの修正動作の実行を表すフローチ
ャートを用いて説明する。
Next, in the latter case, that is, in the case of obtaining the correction vector commonly to all the clusters, FIG. 6, FIG. 7 and FIG.
This will be described with reference to the flowchart of FIG.

【0079】601で修正話者の発声内容既知の音声S
rが前記修正用音声記憶部401に記憶されているか確
認する。記憶されていれば次に進み、されていなければ
602に示すように修正用音声を発声し記憶する。60
3はその修正用音声Srを前記特徴抽出部402で周知
の特徴ベクトル抽出手段を用いて特徴ベクトルYrに変
換することに対応しており、r=1〜Rについて実行
し、604に示すようにそれらを前記修正用特徴ベクト
ル記憶部403に記憶する。
At S 601, the voice S whose utterance content of the modified speaker is known
It is confirmed whether r is stored in the correction voice storage unit 401. If it is stored, the process proceeds to the next step, and if not, a correction voice is uttered and stored as indicated by 602. 60
3 corresponds to converting the correction speech S r into a feature vector Y r by the feature extraction unit 402 using a well-known feature vector extraction means, which is executed for r = 1 to R and is shown at 604. Thus, they are stored in the correction feature vector storage unit 403.

【0080】以下の動作は、修正が収束したと判断され
るまで繰り返し行われる。まず、605で修正ベクトル
の分母用および分子用のバッファをゼロクリアし、以降
の準備をする。606または607で修正用音声データ
の特徴ベクトル系列Yrを読み込み、608では、前記
ファジィベクトル量子化部405と前記コードベクトル
記憶部406においてファジィベクトル量子化を周知の
方法により実行し、前記帰属度ベクトル系列Urと前記
ラベルベクトル系列Orを算出する。
The following operation is repeated until it is determined that the correction has converged. First, in 605, the buffers for the denominator and the numerator of the correction vector are cleared to zero, and the subsequent preparations are made. At 606 or 607, the feature vector series Y r of the correction voice data is read, and at 608, fuzzy vector quantization is executed in the fuzzy vector quantization unit 405 and the code vector storage unit 406 by a well-known method, and the degree of membership is calculated. The vector series U r and the label vector series O r are calculated.

【0081】609すなわち図7では、前記特徴ベクト
ル系列発生度合算出部501における特徴ベクトル発生
度合ωi(t)の算出をt=1〜Tr,i=1〜Iについて
707で前記算出式(数4)に従い行う。
609, that is, in FIG. 7, the calculation of the characteristic vector generation degree ω i (t) in the characteristic vector sequence generation degree calculation unit 501 is performed at 707 for t = 1 to Tr , i = 1 to I. Perform according to equation 4).

【0082】610では前記経路確率算出部502の経
路確率γi(t)を周知のフォワード・バックワードアルゴ
リズムを用いて算出する。
At 610, the route probability γ i (t) of the route probability calculating unit 502 is calculated using a well-known forward / backward algorithm.

【0083】611すなわち図10では、前記修正ベク
トル分母分子算出部503の動作を、1003でr番目
の特徴ベクトルYrのフレーム長Trが終了するまで、ま
た1006でそのr番目の発声内容に対応するHMMの
状態数Iが終了するまで全てのコードベクトルCm(m
=1〜M)に対して(1009の条件を満足)、101
0で分母については(数10)、分子については(数1
1)で修正ベクトル算出式の分母および分子を算出す
る。ただし、前記(数10)および(数11)は前記特
徴ベクトル発生度合の算出式(数4)に対応する全ラベ
ル共通の修正ベクトル算出式(数12)の分母および分
子の式である。
In 611, that is, in FIG. 10, the operation of the correction vector denominator / numerator calculation unit 503 is performed until the frame length T r of the r-th feature vector Y r ends at 1003, and the r-th speech content at 1006. All the code vectors C m (m
= 1 to M) (satisfies the condition of 1009), 101
0 for the denominator (Equation 10) and for the numerator (Equation 1)
In 1), the denominator and numerator of the correction vector calculation formula are calculated. However, (Formula 10) and (Formula 11) are denominator and numerator formulas of the correction vector calculation formula (Formula 12) common to all the labels corresponding to the calculation formula (Formula 4) of the feature vector generation degree.

【0084】[0084]

【数10】 [Equation 10]

【0085】[0085]

【数11】 [Equation 11]

【0086】[0086]

【数12】 [Equation 12]

【0087】ここで、△Cr _denomおよび△Cr _numer
r番目の単語の全クラスタ共通の修正ベクトル△Cの算
出式の各々分母および分子を表す。
Here, ΔC r _denom and ΔC r _numer represent the denominator and the numerator of the calculation formula of the correction vector ΔC common to all clusters of the r-th word.

【0088】全てのTr、Iが終了して(1006、1
003の条件を満足)、1011で修正ベクトル算出式
の分母および分子の値を尤度で正規化する。
When all T r , I have finished (1006, 1
(The condition of 003 is satisfied.) At 1011, the values of the denominator and the numerator of the correction vector calculation formula are normalized by the likelihood.

【0089】612で最後の特徴ベクトル系列YRを選
択したかという条件が満たされるまで、すなわち全ての
特徴ベクトルYr(r=1〜R)に対して608から6
11の動作を繰り返し、全ての修正用音声に対する全コ
ードベクトル共通の修正ベクトル算出式の分母および分
子を算出し終わると、613から615すなわち図11
において共通修正ベクトル△Cの算出と修正後のコード
ブックC'={C1 ',C2 ',…,CM ')の算出が行われ
る。
Until the condition that the last feature vector sequence Y R has been selected in 612 is satisfied, that is, 608 to 6 for all feature vectors Y r (r = 1 to R).
11 is repeated, and when the denominator and the numerator of the correction vector calculation formula common to all code vectors for all the correction voices are calculated, 613 to 615, that is, FIG.
In, the common correction vector ΔC and the corrected codebook C = {C 1 , C 2 , ..., C M ) are calculated.

【0090】前記修正ベクトル算出式の分母および分子
を用いて(数13)に従い613すなわち1101で全
クラスタ共通の前記修正ベクトル△Cを求める。
Using the denominator and the numerator of the correction vector calculation formula, the correction vector ΔC common to all clusters is obtained at 613, that is, 1101 according to (Equation 13).

【0091】[0091]

【数13】 [Equation 13]

【0092】前記修正ベクトル△Cが求まれば、後はそ
れを修正前の前記コードブックCに加え(614すなわ
ち1105)、修正後のコードブックC'を新しくコー
ドブックCとして置き換える(615すなわち110
6)。
[0092] If the correction vector △ C is obtained, after the addition to the codebook C before modify it (614 i.e. 1105), replaces the codebook C 'after correction as the new codebook C (615 ie 110
6).

【0093】616で修正が予め定められた収束条件に
対して収束したかどうかを判定し、収束すると判断され
れば終了し、その時点でのコードブックを修正話者に対
するコードブックとする。また、収束していないと判断
された場合は605に戻り、収束するまで繰り返す。
At 616, it is determined whether or not the correction has converged to a predetermined convergence condition. If it is determined that the correction has converged, the process ends, and the codebook at that time is set as the codebook for the corrected speaker. Further, when it is determined that it has not converged, the process returns to 605 and is repeated until it converges.

【0094】以上は、前記図5の特徴ベクトル系列発生
度合算出部501および前記図6の609および前記図
7の707における特徴ベクトル発生度合ωi(t)の算出
を前記算出式(数4)に従って与え、尤度最大化の条件
のもとに修正ベクトルの算出式を、HMMの推定式導出
に良く用いられる周知のBaum−Welchのアルゴ
リズムを用いて導出し、各クラスタ毎に求める場合は前
記(数8)で、全クラスタ共通の場合は前記(数12)
で与えた場合である。
In the above, the calculation of the characteristic vector generation degree ω i (t) in the characteristic vector sequence generation degree calculation unit 501 of FIG. 5 and 609 of FIG. 6 and 707 of FIG. 7 is performed by the calculation formula (Equation 4). According to the above equation, the correction vector calculation formula is derived using the well-known Baum-Welch algorithm that is often used for deriving the estimation formula of the HMM under the condition of likelihood maximization, and the calculation is performed for each cluster as described above. In (Equation 8), if all clusters are common, the above (Equation 12)
When given in.

【0095】当然のことではあるが、修正ベクトルの算
出式の導出には、尤度最大の条件のもとではBaum−
Welchのアルゴリズムを用いずに最急降下法を用い
ることも可能であり、また、尤度最大でなくコードベク
トルの歪最小の条件のもとでも考えられる。
As a matter of course, in deriving the formula for calculating the correction vector, under the condition of maximum likelihood, Baum-
It is also possible to use the steepest descent method without using the Welch's algorithm, and it can be considered under the condition that the code vector distortion is minimum, not the maximum likelihood.

【0096】次に、前記図5の特徴ベクトル系列発生度
合算出部501および前記図6の609における特徴ベ
クトル発生度合ωi(t)の算出を前記算出式(数5)に従
って与えることにより、全体の構成を変えることなく、
一部分の構成を変えることにより、違った効果を与える
修正装置を与えることができる。
Next, the calculation of the feature vector occurrence degree ω i (t) in the feature vector sequence occurrence degree calculation unit 501 in FIG. 5 and the calculation result in 609 in FIG. Without changing the configuration of
By modifying the configuration of one part, it is possible to provide a correction device that gives different effects.

【0097】図12は、特徴ベクトル発生度合ωi(t)の
算出を前記算出式(数5)とした場合の前記特徴ベクト
ル系列発生度合算出部501および前記フローチャート
図6の609の動作を示すフローチャートであり、特徴
ベクトル発生度合ωi(t)の算出を前記算出式(数4)と
した場合の前記図7に対応するものである。前記図7と
基本的な動作は同じであり、1207における算出式が
違う。
FIG. 12 shows the operations of the characteristic vector sequence generation degree calculation unit 501 and the flowchart 609 of FIG. 6 when the calculation of the characteristic vector generation degree ω i (t) is performed by the calculation formula (Equation 5). 9 is a flowchart and corresponds to FIG. 7 in the case where the calculation of the feature vector generation degree ω i (t) is performed by the calculation formula (Equation 4). The basic operation is the same as that of FIG. 7, and the calculation formula in 1207 is different.

【0098】この場合も、修正ベクトルを各コードベク
トルに対して求める場合と、全コードベクトルに対して
共通にする場合があり、尤度最大化の条件のもとに修正
ベクトルの算出式を各クラスタ毎に求める場合は(数1
4)となり、全クラスタ共通の場合は(数15)とな
る。
Also in this case, the correction vector may be obtained for each code vector or may be common to all code vectors, and the correction vector calculation formulas may be set under the likelihood maximization condition. When calculating for each cluster (Equation 1
4), and when all clusters are common, (Equation 15) is obtained.

【0099】[0099]

【数14】 [Equation 14]

【0100】[0100]

【数15】 [Equation 15]

【0101】修正ベクトルの算出式が変わることによっ
て、前記コードブック修正部408の構成、特に前記修
正ベクトル分母分子算出部503の構成すなわち前記フ
ローチャート図6の611の手順のみが変わる。その構
成の変更を修正ベクトルを各クラスタに対して求める場
合と全クラスタ共通に求める場合に分けて説明する。
By changing the calculation formula of the correction vector, only the structure of the codebook correction unit 408, especially the structure of the correction vector denominator / numerator calculation unit 503, that is, the procedure of 611 in the flowchart of FIG. 6 is changed. The change in the configuration will be described separately for the case where the correction vector is obtained for each cluster and the case where it is obtained for all clusters.

【0102】まず、各クラスタ毎に個別に修正ベクトル
を求める場合は、前記修正ベクトル分母分子算出部50
3の動作が、前記修正ベクトル算出式(数14)に従
い、前記図8の810における各クラスタに個別な修正
ベクトル算出式の分母および分子の算出式が、それぞれ
分母は(数16)、分子は(数17)となる。
First, when the correction vector is individually obtained for each cluster, the correction vector denominator / numerator 50 is used.
According to the correction vector calculation formula (Formula 14), the denominator and the numerator calculation formula of the correction vector calculation formula individual to each cluster in 810 of FIG. 8 are as follows. (Equation 17)

【0103】[0103]

【数16】 [Equation 16]

【0104】[0104]

【数17】 [Equation 17]

【0105】各クラスタに個別な修正ベクトル算出式の
分母および分子が求まれば、全てのコードベクトルに対
して前記(数11)に従い613すなわち904で各ク
ラスタに個別な前記修正ベクトル△Cmを求め、それを
修正前の前記コードブックCに加え(614すなわち9
05)、修正後のコードブックC'を新しくコードブッ
クCとして置き換える(615すなわち906)。
When the denominator and the numerator of the correction vector calculation formula unique to each cluster are obtained, the correction vector ΔC m unique to each cluster is calculated 613, that is, 904, according to (Equation 11) for all code vectors. And add it to the codebook C before modification (614, ie 9
05), the corrected codebook C is replaced with a new codebook C (615 or 906).

【0106】次に、全クラスタに共通な修正ベクトルを
求める場合は、前記修正ベクトル分母分子算出部503
の動作が、前記修正ベクトル算出式(数15)に従い、
前記図10の1010における全クラスタに共通な修正
ベクトル算出式の分母および分子の算出式が、それぞれ
分母は(数18)、分子は(数19)となる。
Next, when a correction vector common to all clusters is to be obtained, the correction vector denominator / numerator calculation unit 503.
Is performed according to the modified vector calculation formula (Equation 15),
The denominator and numerator calculation formulas of the correction vector calculation formula common to all clusters in 1010 of FIG. 10 are (numerical formula 18) and numerator (numeral 19), respectively.

【0107】[0107]

【数18】 [Equation 18]

【0108】[0108]

【数19】 [Formula 19]

【0109】全クラスタに共通な修正ベクトル算出式の
分母および分子が求まれば、前記(数13)に従い61
3すなわち1101で全クラスタ共通の前記修正ベクト
ル△Cを求め、それを修正前の前記コードブックCに加
え(614すなわち1105)、修正後のコードブック
'を新しくコードブックCとして置き換える(615
すなわち1106)。
If the denominator and numerator of the correction vector calculation formula common to all clusters are obtained, 61 according to (Equation 13) above.
3 or 1101 obtains the correction vector ΔC common to all clusters, adds it to the codebook C before correction (614 or 1105), and replaces the corrected codebook C as a new codebook C (615).
That is, 1106).

【0110】上記実施例は、一度修正ベクトルと呼ばれ
る修正前後のコードブックの写像ベクトルを求めた後、
修正後のコードブックを求めているが、当然のことであ
るが、同様に修正用音声に対するHMMの尤度を最大に
するように、直接修正後のコードブックのコードベクト
ルを求めることも可能である。
In the above embodiment, once the mapping vector of the codebook before and after the modification called the modification vector is obtained,
Although the corrected codebook is sought, it goes without saying that it is also possible to directly obtain the code vector of the corrected codebook so as to maximize the likelihood of the HMM for the correction speech. is there.

【0111】上記実施例で得られた修正後のコードブッ
クを前記従来例図3のような音声認識装置のコードブッ
ク記憶装置302の値と置き換えることのみで、音声認
識が実行できる。
The voice recognition can be executed only by replacing the corrected codebook obtained in the above embodiment with the value in the codebook storage device 302 of the voice recognition device as shown in FIG.

【0112】上記のことも本発明の特徴であり、コード
ブックの変更をHMMの尤度最大で実行しており、HM
Mのラベル発生確率との対応関係が保持される。例え
ば、コードブックのみを別の条件で修正した場合には、
コードブックとラベル発生確率との対応関係が崩れてし
まう場合があり、認識率を低下させる場合が考えられる
が、本発明では問題がない。
The above is also a feature of the present invention, in which the codebook is changed with the maximum likelihood of the HMM.
The correspondence with the label occurrence probability of M is retained. For example, if you modify only the codebook under different conditions,
The correspondence between the codebook and the label occurrence probability may be broken, and the recognition rate may be reduced, but the present invention does not pose a problem.

【0113】上記実施例は、前記特徴ベクトル発生度合
ωi(t)の算出を前記算出式(数4)で与えた場合も前記
算出式(数5)で与えた場合も、修正ベクトル△Cをコ
ードベクトルCに加えるて更新することによりコードベ
クトルの修正を行ったが、修正ベクトル△Cをもとにし
て得られた一定のベクトル△H(以後、正規化ベクトル
と呼ぶ。)を入力話者の音声の特徴ベクトルytから
(数20)のように減じることにより、入力音声におけ
る話者による差異を除き、話者正規化できる。
In the above embodiment, the correction vector ΔC is obtained regardless of whether the calculation of the feature vector generation degree ω i (t) is given by the calculation formula (Formula 4) or the calculation formula (Formula 5). Was added to the code vector C to update the code vector, and a constant vector ΔH (hereinafter referred to as a normalization vector) obtained based on the correction vector ΔC was input. By subtracting from the feature vector y t of the person's voice as in (Equation 20), the speaker can be normalized by removing the difference in the input voice depending on the speaker.

【0114】[0114]

【数20】 [Equation 20]

【0115】この場合、コードベクトル値はそのまま
で、正規化ベクトルを記憶しておき、認識時に特徴ベク
トル系列の各フレームの特徴ベクトルからその正規化ベ
クトルを減じれば良い。 図13は、そのような話者正
規化のための正規化ベクトル△H)を作成する装置に関
するブロック図である。
In this case, the normalization vector may be stored with the code vector value as it is, and the normalization vector may be subtracted from the feature vector of each frame of the feature vector series at the time of recognition. FIG. 13 is a block diagram of an apparatus for creating a normalization vector ΔH) for such speaker normalization.

【0116】1301は修正用音声記憶部であり、正規
化ベクトルを求めたい話者(以後、修正話者)すなわち
音声認識システムをし要する話者が発声した発声内容既
知(特徴ベクトル正規化装置に発生の内容が事前に分か
っている)の音声Sr(以後、修正用音声と呼ぶ)を発
生数R(r=1〜R)記憶しており、以降の修正に用い
られる。
Reference numeral 1301 denotes a correction voice storage unit, which is a known speaker (hereinafter referred to as a corrected speaker) who wants to obtain a normalized vector, that is, a known voice uttered by a speaker who needs a voice recognition system (in the feature vector normalization device). The number of occurrences R (r = 1 to R) of a voice S r (hereinafter referred to as a correction voice) of which the content of the generation is known) is stored and used for the subsequent correction.

【0117】1302は特徴抽出部であり、前記図3に
示した認識装置で用いる特徴抽出手法と同様の手法を用
い、修正用音声Srを一定時間間隔毎に特徴ベクトルの
系列Yr=y1 r,y2 r, …,yt r,…,yT rに変換す
る。ここでTrは、修正用音声Srを特徴ベクトル系列に
変換したときのデータのフレーム数である。
Reference numeral 1302 denotes a feature extraction unit, which uses a technique similar to the feature extraction technique used in the recognition apparatus shown in FIG. 3 to output the correction speech S r at a constant time interval Y r = y. 1 r, y 2 r, ... , y t r, ..., it is converted to y T r. Here, T r is the number of data frames when the correction voice S r is converted into a feature vector sequence.

【0118】1303は修正用特徴ベクトル記憶部であ
り、前記1301に記憶されている修正用音声信号Sr
を前記特徴抽出部1302で特徴抽出した特徴ベクトル
系列Yrをr=1〜Rについて記憶している。
Reference numeral 1303 denotes a correction feature vector storage unit, which is the correction voice signal S r stored in the above 1301.
The feature vector series Y r extracted by the feature extraction unit 1302 is stored for r = 1 to R.

【0119】1304はデータ制御部であり、現在R発
声のうち第r番目の発声を扱っているのか、そのr番目
の発声内容は何かを用いて、以下の処理を制御する。こ
こで、word(r)とは、第r番目の発声内容(該発声内容
のHMMの番号w)を示す。
A data control unit 1304 controls the following processing by using whether the r-th utterance of the R utterances is currently handled or what the r-th utterance content is. Here, word (r) indicates the r-th utterance content (HMM number w of the utterance content).

【0120】1305は正規化ベクトル記憶部であり、
前記特徴ベクトルを修正するための正規化ベクトルを記
憶するものである。
Reference numeral 1305 denotes a normalized vector storage unit,
A normalization vector for correcting the feature vector is stored.

【0121】1306は特徴ベクトル正規化部であり、
前記正規化ベクトル記憶部1305に記憶されている正
規化ベクトル△Hを用いて、特徴ベクトルの各時刻tの
値y tを修正することにより修正後の特徴ベクトルを得
るものである。
Reference numeral 1306 is a feature vector normalization unit,
The positive vector stored in the normalized vector storage unit 1305.
Using the normalization vector ΔH, at each time t of the feature vector
Value y tTo obtain the modified feature vector by modifying
It is something.

【0122】1307はファジィベクトル量子化部であ
り、前記データ制御部1304より送られた発声番号r
を用いて前記修正用特徴ベクトル記憶部1303より特
徴ベクトル系列Yrを読みだし、各時刻tの特徴ベクト
ルyt rを、前記正規化ベクトル記憶部1305に記憶さ
れている正規化ベクトルを用いて前記特徴ベクトル正規
化部で特徴ベクトルの修正を行い、得られた修正後の特
徴ベクトルに対して、後述するコードブック記憶部13
08に記憶されているC1〜CMのコードベクトルとのベ
クトル間距離の最も近い順に1位からK位のラベルと、
特徴ベクトルy tの該ラベルの組で検索される各々のコ
ードベクトルに対する特徴ベクトルytの帰属度に置き
換え、ラベルベクトルot r=(ot1,ot2,…,otK
と帰属度ベクトルut r=(ut1,ut2,…,utK)に変
換し、前記修正後の特徴ベクトルy t r’の系列Yr’を
ラベルベクトル系列Or=o1 r,o2 r,…,oT rと帰属
度ベクトル系列Ur=u1 r,u2 r,…,uT rに変換する
ものである。ここで、Kは1からコードブックサイズM
を取り得るものであり、後述する特徴ベクトル発声度合
の算出の演算回数を制限するものである。
Reference numeral 1307 denotes a fuzzy vector quantizer.
Voice number r sent from the data control unit 1304.
By using the correction feature vector storage unit 1303.
Characteristic vector series YrAnd read the characteristic vector at each time t
Ryt rIs stored in the normalized vector storage unit 1305.
Using the normalized vector
The feature vector is modified by the digitization unit, and the resulting modified feature is
The codebook storage unit 13 to be described later with respect to the characteristic vector.
C stored in 081~ CMWith code vector
Labels from 1st to Kth in order of the closest distance between the coutres,
Feature vector y tEach label found in the label set of
Feature vector y for the code vectortThe degree of belonging
Instead, the label vector ot r= (Ot1, Ot2,, otK)
And the membership vector ut r= (Ut1, Ut2, ..., utK)
In other words, the modified feature vector y t r’Series Yr
Label vector series Or= O1 r, O2 r,, oT rAnd attribution
Degree vector series Ur= U1 r, U2 r, ..., uT rConvert to
It is a thing. Where K is 1 to codebook size M
And the feature vector voicing degree described later.
Is to limit the number of calculation times.

【0123】1308はコードブック記憶部であり、コ
ードベクトルCmをそれに付されたラベルmによって検
索可能な形で記憶しており、前記ファジィベクトル量子
化部1307で、ベクトル量子化時に用いられる。
A codebook storage unit 1308 stores the code vector C m in a searchable form by the label m attached thereto, and is used by the fuzzy vector quantization unit 1307 during vector quantization.

【0124】1309はHMM記憶部であり、既に作成
されているHMMを認識すべき各語彙毎に前記図1に示
したように状態遷移確率行列Aとラベル発生確率行列B
を語彙数Wだけ記憶しておく。従って、w番目のHMM
は、λw ={Aw,Bw}と表される。
Reference numeral 1309 denotes an HMM storage unit, which has a state transition probability matrix A and a label occurrence probability matrix B as shown in FIG.
Is stored for the number of vocabulary W. Therefore, the wth HMM
Is expressed as λ w = {A w , B w }.

【0125】1310は正規化ベクトル調整部であり、
前記正規化ベクトル記憶部1305における正規化ベク
トル△Hの値を修正用音声と前記HMM記憶部1309
に記憶されている修正用音声の発声内容に対応するHM
Mを用いて、該HMMが前記修正用音声を発生する確率
(尤度)が最大になるように、正規化ベクトルを調整
し、調整した新しい正規化ベクトル△H'を前記正規化
ベクトル記憶部1305に転送するものである。
Reference numeral 1310 is a normalization vector adjustment unit,
The value of the normalization vector ΔH in the normalization vector storage unit 1305 is used as the correction voice and the HMM storage unit 1309.
Corresponding to the utterance content of the correction voice stored in
Using M, the normalization vector is adjusted so that the probability (likelihood) that the HMM generates the correction speech is maximized, and a new adjusted normalization vector ΔH is stored in the normalization vector storage unit. It is transferred to 1305.

【0126】1311は修正収束判定部であり、修正用
音声を用いて正規化ベクトルを修正したときの収束状況
を判定するものであり、予め定められた収束条件を満足
すれば修正動作を終了し、満足しなければ満足するま
で、逐次、正規化ベクトルを更新しながら同じ修正用音
声を用いて修正を繰り返す。
Reference numeral 1311 denotes a correction convergence determination unit which determines the convergence status when the normalization vector is corrected using the correction voice, and ends the correction operation when the predetermined convergence condition is satisfied. If not satisfied, the normalization vector is updated and the correction is repeated using the same correction voice until the satisfaction is satisfied.

【0127】本発明の特徴は前記正規化ベクトル調整部
1310の構成にあり、発声内容が既知であることを条
件に、特徴ベクトルを正規化ベクトルにより修正した修
正後の特徴ベクトルに対する、その発声内容に対応する
HMMによる尤度が最大になるように正規化ベクトルを
調整することである。
The feature of the present invention resides in the configuration of the normalization vector adjusting unit 1310, and on the condition that the utterance content is known, the utterance content for the modified feature vector obtained by modifying the feature vector with the normalization vector. Is to adjust the normalization vector so that the likelihood by the HMM corresponding to

【0128】正規化ベクトル調整部の具体的な構成を示
したブロック図を図14に示す。各々の端子1〜9は前
記図13と接続されており、端子1は前記コードベクト
ル記憶部1308と接続され、コードブックCを受信す
る。。端子4、5は前記HMM記憶部1309と接続さ
れており、端子4がr番目の音声に対応するHMMの状
態遷移確率行列Aword(r)を、端子5が同じくラベル発
生確率行列Bword( r)を受信する。端子2、3は前記フ
ァジィベクトル量子化部1307と接続されており、r
番目の音声に対するラベルベクトル系列Orと帰属度ベ
クトル系列Urを受信する。端子6、9は前記正規化ベ
クトル記憶部1305と接続されており、端子6は正規
化ベクトル△Hを受信し、端子9は修正後の正規化ベク
トル△H’を送信する。端子7は前記修正収束判定部1
311と接続されており、収束の判定に用いられる平均
尤度Laveを送信する。端子8は前記データ制御部13
04と接続しており、現在の修正用音声データが第r番
目であるかの情報を受け取り、r=Rとなったら、正規
化ベクトル△Hと平均尤度Laveを算出する。
FIG. 14 is a block diagram showing the specific structure of the normalization vector adjustment unit. Each of terminals 1 to 9 is connected to FIG. 13 and terminal 1 is connected to the code vector storage unit 1308 to receive the codebook C. . The terminals 4 and 5 are connected to the HMM storage unit 1309. The terminal 4 outputs the state transition probability matrix A word (r) of the HMM corresponding to the r-th speech, and the terminal 5 also outputs the label occurrence probability matrix B word ( r). r) is received. Terminals 2 and 3 are connected to the fuzzy vector quantizer 1307, and r
The label vector sequence O r and the membership vector sequence U r for the th speech are received. The terminals 6 and 9 are connected to the normalized vector storage unit 1305, the terminal 6 receives the normalized vector ΔH, and the terminal 9 transmits the corrected normalized vector ΔH ′. The terminal 7 is the correction convergence determination unit 1
It is connected to 311 and transmits the average likelihood L ave used for the determination of convergence. The terminal 8 is the data control unit 13
04, and receives information as to whether the current correction speech data is the r-th, and when r = R, calculates a normalized vector ΔH and an average likelihood L ave .

【0129】上記のような情報のやり取りを行いなが
ら、前記コードブック修正部1310すなわち前記図1
4は実行される。
While exchanging the information as described above, the codebook correction unit 1310, that is, FIG.
4 is executed.

【0130】1401は特徴ベクトル系列発生度合算出
部であり、端子2、3、5より受信した前記ラベル発生
確率行列、ラベルベクトル系列、帰属度ベクトル系列を
もとに帰属度とラベル発生確率から特徴ベクトル発生度
合ωi(t)を全ての時刻t、HMMの全ての状態iについ
て算出し、特徴ベクトル発生度合行列Ωを求める。この
特徴ベクトル発生度合の算出式の与え方により後述する
修正ベクトルの算出式が違う。
Reference numeral 1401 is a feature vector sequence occurrence degree calculation unit, which is based on the attribution degree and the label occurrence probability based on the label occurrence probability matrix, label vector series, and attribution degree vector series received from terminals 2, 3, and 5. The vector generation degree ω i (t) is calculated for all times t and all states i of the HMM to obtain the feature vector generation degree matrix Ω. The correction vector calculation formula, which will be described later, differs depending on how the calculation formula of the feature vector generation degree is given.

【0131】1402は経路確率算出部であり、ある時
刻tにHMMのある状態iに存在する経路確率γi(t)を
全ての時刻t、HMMの全ての状態iについて算出し、
経路確率行列Γを求める。また、r番目の発声内容に対
応するHMMがその音声が発生する確率(尤度)L(O
r,Ur|λword(r))を算出し、収束判定のために後述
する尤度記憶部に送る。
Reference numeral 1402 denotes a path probability calculating unit which calculates a path probability γ i (t) existing in a state i of the HMM at a time t for all times t and all states i of the HMM.
Obtain the path probability matrix Γ. Further, the probability (likelihood) L (O) that the HMM corresponding to the r-th utterance content generates the voice is
r , U r | λ word (r) ) is calculated and sent to a likelihood storage unit described later for convergence determination.

【0132】1403は修正ベクトル分母分子算出部で
あり、前記特徴ベクトル系列発生度合算出部1401に
おける前記特徴ベクトル発生度合ωi(t)に対応する修正
ベクトル算出式の分母および分子を算出する。
A correction vector denominator / numerator 1403 calculates the denominator and numerator of the correction vector calculation formula corresponding to the characteristic vector generation degree ω i (t) in the characteristic vector sequence generation degree calculation section 1401.

【0133】1404は修正ベクトル分母分子記憶部で
あり、前記修正ベクトル分母分子算出部1403で算出
された修正ベクトル算出式の分母および分子の値を後述
する修正ベクトル算出部で用いるために記憶する。
A correction vector denominator / numerator storage unit 1404 stores the values of the denominator and the numerator of the correction vector calculation formula calculated by the correction vector denominator / numerator calculation unit 1403 for use in the correction vector calculation unit described later.

【0134】1405は尤度記憶部であり、前記経路確
率記憶部1402から送られた尤度L(Y|λw)の全
修正用単語分R個を記憶する。
A likelihood storage unit 1405 stores R words for all correction words of the likelihood L (Y | λ w ) sent from the path probability storage unit 1402.

【0135】以上の動作を修正用音声R個に対して行っ
た(前記端子7からの信号がRになった)後、後述する
動作を行う。
After the above operation is performed for R correction voices (the signal from the terminal 7 becomes R), the operation described later is performed.

【0136】1406は修正ベクトル算出部であり、前
記特徴ベクトル系列発生度合算出部1401における発
生度合ωi(t)に対応する修正ベクトル算出式に基づき、
前記修正ベクトル分母分子記憶部1404に記憶されて
いる修正ベクトルの分母分子より修正ベクトル値△Cを
求め、端子9より前記修正ベクトル記憶部1305に送
り出す。
Reference numeral 1406 denotes a correction vector calculation unit, which is based on a correction vector calculation formula corresponding to the generation degree ω i (t) in the feature vector sequence generation degree calculation unit 1401.
The correction vector value ΔC is obtained from the denominator / numerator of the correction vector stored in the correction vector denominator / numerator storage unit 1404, and is sent to the correction vector storage unit 1305 from the terminal 9.

【0137】1407は正規化ベクトル算出部であり、
前記修正ベクトル算出部で求められた修正ベクトル△C
と端子6で受信した修正前の正規化ベクトル△Hによ
り、新しい正規化ベクトル△H’を得ることができる。
Reference numeral 1407 is a normalized vector calculation unit,
The correction vector ΔC obtained by the correction vector calculation unit
A new normalized vector ΔH ′ can be obtained from the uncorrected normalized vector ΔH received at the terminal 6.

【0138】1408は平均尤度算出部であり、前記修
正収束判定部1311に前記端子7を通じて送り出すた
めに全尤度を平均して、平均尤度Laveを算出する。
Reference numeral 1408 denotes an average likelihood calculating section, which averages all likelihoods to send it to the correction convergence determining section 1311 through the terminal 7 to calculate an average likelihood L ave .

【0139】上記の特徴ベクトル正規化装置において
も、前記コードブック修正装置と同様に発生度合ωi(t)
が前記(数4)で定義される場合と、前記(数5)で定
義される場合があり、修正ベクトルの算出式は、前者の
場合が前記(数12)であり、後者の場合が前記(数1
5)と同様である。
In the above-described feature vector normalizing apparatus, the occurrence degree ω i (t) is also the same as in the codebook correcting apparatus.
May be defined by the above (Formula 4) or may be defined by the above (Formula 5). The correction vector calculation formula is the above (Formula 12) and the latter case is the above (Equation 1
Same as 5).

【0140】以上が、本発明のコードブック修正装置と
特徴ベクトル正規化装置の実施例であるが、以上の場
合、修正用音声はあらかじめ発声されたものとしていた
が、発声内容既知という観点から考えると、認識結果の
信頼性が高い場合は、該認識結果をその発声内容と考え
ることができ、音声認識システムを使用する話者が、事
前に修正用音声を発声する必要がない。
The above is an embodiment of the codebook correction device and the feature vector normalization device of the present invention. In the above case, the correction voice is supposed to be uttered in advance, but it is considered from the viewpoint that the utterance content is known. When the reliability of the recognition result is high, the recognition result can be considered as the utterance content, and the speaker using the voice recognition system does not need to utter the correction voice in advance.

【0141】この場合、認識結果の信頼性は、その尤度
そのものが大きいときや第1候補と第2候補の尤度差が
大きいときは認識結果の信頼度が高く、そうでない場合
は認識結果の信頼性が低いと考えられるから、それぞれ
に適当に閾値を設けておき、その閾値を超えたときはコ
ードブックの修正を行い、そうでない場合は修正を行わ
ないというようにすれば発声内容が未知の場合でも認識
結果を発声内容とすることにより,コードブックの修正
が行える。
In this case, the reliability of the recognition result is high if the likelihood itself is large or the likelihood difference between the first candidate and the second candidate is large, and the reliability of the recognition result is otherwise. Since it is considered that the reliability of the code is low, an appropriate threshold value is set for each, and if the threshold value is exceeded, the codebook is corrected, and if not, the correction is not performed. Even if it is unknown, the codebook can be modified by using the recognition result as the utterance content.

【0142】この場合ような音声認識装置のブロック図
を図15を用いて説明する。1501は特徴抽出部であ
り、LPC分析等の周知の方法を用いて、未知の音声信
号を一定時間間隔毎に特徴ベクトルに変換し、特徴ベク
トルの系列Y=y1,y2, …,yt,…,yTを得る。
ここでTは、未知の音声信号に対する特徴ベクトル系列
Yの長さである。
A block diagram of such a voice recognition device will be described with reference to FIG. A feature extraction unit 1501 converts an unknown voice signal into a feature vector at regular time intervals using a well-known method such as LPC analysis, and outputs a sequence of feature vectors Y = y 1 , y 2 , ..., Y. Get t , ..., y T.
Here, T is the length of the feature vector sequence Y with respect to the unknown voice signal.

【0143】1502はコードブック記憶部であり、コ
ードベクトルをそれに付されたラベルによって検索可能
な形で記憶している。
Reference numeral 1502 denotes a codebook storage unit which stores the code vector in a searchable form by the label attached to the code vector.

【0144】1503はファジィベクトル量子化部であ
り、前記特徴抽出部1501で抽出された前記特徴ベク
トルytと前記コードブック記憶部1502に記憶され
ているコードベクトルとのベクトル間距離の最も近い順
にK個のラベルと、特徴ベクトルytの該ラベルの組で
検索される各々のコードベクトルに対する特徴ベクトル
tの帰属度に置き換え、ラベルベクトルot=(ot1
t2,…,otK)と帰属度ベクトルut=(ut1
t2,…,utK)に変換し、前記特徴ベクトルytの系
列Yをラベルベクトル系列O=o1,o2,…,oTと帰
属度ベクトル系列U=u1,u2,…,uTに変換するも
のである。
Reference numeral 1503 denotes a fuzzy vector quantizing unit, which is arranged in the order of closest inter-vector distance between the feature vector y t extracted by the feature extracting unit 1501 and the code vector stored in the codebook storage unit 1502. and the K label, replaces the membership of the feature vector y t for each of the code vectors searched by the label of the set of feature vectors y t, label vector o t = (o t1,
o t2 , ..., o tK ) and the membership vector u t = (u t1 ,
u t2, ..., is converted into u tK), the feature vector y series Y label vector series t O = o 1, o 2 , ..., o T a membership vector series U = u 1, u 2, ... , U T.

【0145】1504はHMM記憶部であり、既に作成
されているHMMλw(w=1〜W)を認識すべき各語彙毎
に前記状態遷移確率行列Aと前記ラベル発生確率行列B
を語彙数Wだけ記憶しておく。従って、w番目のHMM
は、λw={Aw,Bw}w=1〜W と表される。
Reference numeral 1504 denotes an HMM storage unit, which has the state transition probability matrix A and the label occurrence probability matrix B for each vocabulary to recognize the already created HMMλ w (w = 1 to W).
Is stored for the number of vocabulary W. Therefore, the wth HMM
Is expressed as λ w = {A w , B w } w = 1 to W.

【0146】1505は特徴ベクトル系列発生度合算出
部であり前記ファジィベクトル量子化部1503で求め
られた前記ラベルベクトル系列Oと前記帰属度ベクトル
系列Uと前記HMM記憶部1504に記憶されているw
番目の語彙のラベル発生確率行列Bwを用いて、HMM
λwに対する特徴ベクトル系列の発生度合行列Ωw={ω w
it}を前記(数4)または前記(数5)に従い算出するも
のである。
Reference numeral 1505 is a feature vector sequence generation degree calculation
And the fuzzy vector quantizer 1503
The label vector series O and the degree of membership vector
Sequence U and w stored in the HMM storage unit 1504
Label occurrence probability matrix B of the th vocabularywUsing the HMM
λwThe occurrence degree matrix Ω of the feature vector sequence forw= {Ω w
itIs calculated according to the above (Equation 4) or the above (Equation 5)
Of.

【0147】ここで、ラベル発生確率bitkは、時刻
tの特徴ベクトルytをファジィベクトル量子化したと
きのk番目のラベルotkがHMMの状態iから発生する
ラベル発生確率である。
Here, the label occurrence probability b i o tk is the label occurrence probability that the k-th label o tk when the feature vector y t at time t is fuzzy vector quantized occurs from the state i of the HMM.

【0148】1506は尤度算出部であり、前記特徴ベ
クトル系列発生度合算出部1505で算出されたHMM
λwに対する前記特徴ベクトル系列発生度合行列Ωwと前
記HMM記憶部1504に記憶されているHMMλw
状態遷移確率行列Awを用い、尤度L(Y|λw)を算出
するものである。
Reference numeral 1506 denotes a likelihood calculating unit, which is the HMM calculated by the feature vector sequence generation degree calculating unit 1505.
using the feature vector series occurrence rate matrix Omega w a state transition probability matrix A w of HMMramuda w stored in the HMM storage section 1504 for lambda w, likelihood L | and calculates the (Y lambda w) .

【0149】1507は尤度記憶部であり、前記尤度算
出部1506で算出された特徴ベクトル系列Yに対する
各単語HMMλwの尤度L(Y|λw)を比較のために記
憶する。
[0149] 1507 is a likelihood storage unit, the likelihood L of each word HMMramuda w for the feature vector sequence Y calculated by the likelihood calculation unit 1506 | stores (Y lambda w) for comparison.

【0150】1508は比較判定部であり、前記尤度記
憶部1507に記憶されている各HMMの尤度のうち最
大値を与えるHMMに対応する語彙を認識候補として判
定するものである。
A comparison / determination unit 1508 determines the vocabulary corresponding to the HMM giving the maximum value among the likelihoods of each HMM stored in the likelihood storage unit 1507 as a recognition candidate.

【0151】前記1505から1507は各語彙のHM
Mλwにつき一度ずつ行い、w=1〜Wまで繰り返され、そ
の結果を前記比較判定部1508で評価する。
The above 1505 to 1507 are HM of each vocabulary
It is performed once for each Mλ w , repeated from w = 1 to W, and the result is evaluated by the comparison / determination unit 1508.

【0152】1509は認識候補信頼性算出部であり,
前記比較判定部1508で選ばれた認識候補の信頼性を
前記尤度記憶部1507に記憶されている該認識候補の
尤度等を用いて算出するものである。
Reference numeral 1509 denotes a recognition candidate reliability calculation unit,
The reliability of the recognition candidate selected by the comparison determination unit 1508 is calculated using the likelihood of the recognition candidate stored in the likelihood storage unit 1507.

【0153】1510はコードブック修正実行判定部で
あり,前記認識候補信頼度算出部1509より得られた
前記認識候補の信頼性が,予め定められた閾値以上であ
ればコードブック修正信号を後述するコードブック修正
部に送り,コードブックの修正を実行させる。
Reference numeral 1510 is a codebook correction execution determination unit, and if the reliability of the recognition candidate obtained from the recognition candidate reliability calculation unit 1509 is a predetermined threshold value or more, a codebook correction signal will be described later. Send to the codebook modification section to execute the codebook modification.

【0154】1511はコードブック修正部であり,前
記コードブック修正実行判定部からの前記コードブック
修正信号を受けて,前記コードブック記憶部1502に
記憶されている前記コードブックと前記ファジィベクト
ル量子化部1503で得られた前記ラベルベクトル系列
Oと前記帰属度ベクトル系列Uと前記HMM記憶部に記
憶されている前記認識候補に対応するHMMとを用い
て,コードブックの修正を行い,修正後のコードブック
をコードブック記憶部に送るものである。
Reference numeral 1511 denotes a codebook correction unit, which receives the codebook correction signal from the codebook correction execution determination unit and receives the codebook and the fuzzy vector quantization stored in the codebook storage unit 1502. The codebook is corrected using the label vector series O, the belonging degree vector series U, and the HMM corresponding to the recognition candidate stored in the HMM storage unit obtained by the unit 1503. The codebook is sent to the codebook storage unit.

【0155】同様に、閾値を超えたときは正規化ベクト
ルの調整を行い、そうでない場合は調整を行わないとい
うようにすれば発声内容が未知の場合でも認識結果を発
声内容とすることにより,正規化ベクトルの修正が行え
る。
Similarly, if the normalization vector is adjusted when the threshold value is exceeded and adjustment is not made otherwise, the recognition result is used as the utterance content even if the utterance content is unknown. The normalization vector can be modified.

【0156】この場合ような音声認識装置のブロック図
を図16を用いて説明する。1601は特徴抽出部であ
り、LPC分析等の周知の方法を用いて、未知の音声信
号を一定時間間隔毎に特徴ベクトルに変換し、特徴ベク
トルの系列Y=y1,y2, …,yt,…,yTを得る。
ここでTは、未知の音声信号に対する特徴ベクトル系列
Yの長さである。
A block diagram of such a voice recognition device will be described with reference to FIG. Reference numeral 1601 denotes a feature extraction unit that converts an unknown voice signal into a feature vector at regular time intervals using a well-known method such as LPC analysis, and outputs a sequence of feature vectors Y = y 1 , y 2 , ..., Y. Get t , ..., y T.
Here, T is the length of the feature vector sequence Y with respect to the unknown voice signal.

【0157】1602は正規化ベクトル記憶部であり,
前記特徴ベクトルを正規化するための正規化ベクトルを
記憶するものである。
Reference numeral 1602 denotes a normalized vector storage section,
A normalization vector for normalizing the feature vector is stored.

【0158】1603は特徴ベクトル正規化部であり,
前記特徴ベクトルを前記正規化ベクトルのより正規化す
るものである。
Reference numeral 1603 is a feature vector normalization unit,
The feature vector is further normalized by the normalization vector.

【0159】1604はコードブック記憶部であり、コ
ードベクトルをそれに付されたラベルによって検索可能
な形で記憶している。
A codebook storage unit 1604 stores the code vector in a searchable form by the label attached to the code vector.

【0160】1605はファジィベクトル量子化部であ
り、前記特徴ベクトル正規化部で正規化された正規化後
の特徴ベクトルy'tと前記コードブック記憶部1604
に記憶されているコードベクトルとのベクトル間距離の
最も近い順にK個のラベルと、正規化後の特徴ベクトル
y'tの該ラベルの組で検索される各々のコードベクトル
に対する正規化後の特徴ベクトルy'tの帰属度に置き換
え、ラベルベクトルo t=(ot1,ot2,…,otK)と
帰属度ベクトルut=(ut1,ut2,…,utK)に変換
し、前記正規化後の特徴ベクトルy'tの系列Y'をラベ
ルベクトル系列O=o1,o2,…,oTと帰属度ベクト
ル系列U=u1,u2,…,uTに変換するものである。
Reference numeral 1605 is a fuzzy vector quantizer.
After the normalization by the feature vector normalization unit
Feature vector y'oftAnd the codebook storage unit 1604
Of the distance between the vector and the code vector stored in
K labels in the closest order and the feature vector after normalization
y 'tEach code vector searched for in the label set of
The normalized feature vector y ′ fortReplaced with
E, label vector o t= (Ot1, Ot2,, otK)When
Membership vector ut= (Ut1, Ut2, ..., utK)Conversion to
Then, the normalized feature vector y ′tThe series Y'of
Le vector series O = o1, O2,, oTAnd degree of membership
Le series U = u1, U2, ..., uTIs to be converted to.

【0161】1606はHMM記憶部であり、既に作成
されているHMMλw(w=1〜W)を認識すべき各語彙毎
に前記状態遷移確率行列Aと前記ラベル発生確率行列B
を語彙数Wだけ記憶しておく。従って、w番目のHMM
は、λw={Aw,Bw}w=1〜W と表される。
Reference numeral 1606 denotes an HMM storage unit, which has the state transition probability matrix A and the label occurrence probability matrix B for each vocabulary to recognize the already created HMMλ w (w = 1 to W).
Is stored for the number of vocabulary W. Therefore, the wth HMM
Is expressed as λ w = {A w , B w } w = 1 to W.

【0162】1607は特徴ベクトル系列発生度合算出
部であり前記ファジィベクトル量子化部1605で求め
られた前記ラベルベクトル系列Oと前記帰属度ベクトル
系列Uと前記HMM記憶部1606に記憶されているw
番目の語彙のラベル発生確率行列Bwを用いて、HMM
λwに対する正規化後の特徴ベクトル系列の発生度合行
列Ωw={ωw it}を前記(数4)または前記(数5)に従
い算出するものである。
Reference numeral 1607 denotes a feature vector sequence generation degree calculation unit, which is stored in the HMM storage unit 1606 and the label vector sequence O obtained by the fuzzy vector quantization unit 1605 and the membership degree vector sequence U.
Using the label occurrence probability matrix B w of the th vocabulary, the HMM
The occurrence degree matrix Ω w = {ω w it } of the normalized feature vector series for λ w is calculated according to the (Equation 4) or the (Equation 5).

【0163】ここで、ラベル発生確率bitkは、時刻
tの特徴ベクトルy'tをファジィベクトル量子化したと
きのk番目のラベルotkがHMMの状態iから発生する
ラベル発生確率である。
Here, the label occurrence probability b i o tk is the label occurrence probability that the k-th label o tk when the feature vector y ′ t at time t is fuzzy vector quantized occurs from the state i of the HMM. .

【0164】1608は尤度算出部であり、前記特徴ベ
クトル系列発生度合算出部1607で算出されたHMM
λwに対する前記特徴ベクトル系列発生度合行列Ωwと前
記HMM記憶部1606に記憶されているHMMλw
状態遷移確率行列Awを用い、尤度L(Y'|λw)を算
出するものである。
Reference numeral 1608 denotes a likelihood calculating unit, which is the HMM calculated by the feature vector sequence generation degree calculating unit 1607.
calculates a | (λ w Y ') λ w using a state transition probability matrix A w of the feature vector series occurrence rate matrix Omega w wherein stored in the HMM storage unit 1606 and HMMramuda w relative likelihood L is there.

【0165】1609は尤度記憶部であり、前記尤度算
出部1608で算出された特徴ベクトル系列Yに対する
各単語HMMλwの尤度L(Y'|λw)を比較のために
記憶する。
A likelihood storage unit 1609 stores the likelihood L (Y '| λ w ) of each word HMMλ w for the feature vector series Y calculated by the likelihood calculation unit 1608 for comparison.

【0166】1610は比較判定部であり、前記尤度記
憶部1609に記憶されている各HMMの尤度のうち最
大値を与えるHMMに対応する語彙を認識候補として判
定するものである。
A comparison / determination unit 1610 determines the vocabulary corresponding to the HMM giving the maximum value among the likelihoods of each HMM stored in the likelihood storage unit 1609 as a recognition candidate.

【0167】前記1607から1609は各語彙のHM
Mλwにつき一度ずつ行い、w=1〜Wまで繰り返され、そ
の結果を前記比較判定部1610で評価する。
Numerals 1607 to 1609 are HM of each vocabulary
It is performed once for each Mλ w , repeated from w = 1 to W, and the result is evaluated by the comparison / determination unit 1610.

【0168】1611は認識候補信頼性算出部であり,
前記比較判定部1610で選ばれた認識候補の信頼性を
前記尤度記憶部1609に記憶されている該認識候補の
尤度等を用いて算出するものである。
Reference numeral 1611 is a recognition candidate reliability calculation unit,
The reliability of the recognition candidate selected by the comparison determination unit 1610 is calculated using the likelihood of the recognition candidate stored in the likelihood storage unit 1609.

【0169】1612は正規化ベクトル調整実行判定部
であり,前記認識候補信頼度算出部1611より得られ
た前記認識候補の信頼性が,予め定められた閾値以上で
あれば正規化ベクトル調整信号を後述する正規化ベクト
ル調整部に送り,正規化ベクトルの調整を実行させる。
Reference numeral 1612 denotes a normalization vector adjustment execution determination unit, which outputs a normalization vector adjustment signal if the reliability of the recognition candidate obtained from the recognition candidate reliability calculation unit 1611 is a predetermined threshold value or more. It is sent to the normalization vector adjustment unit described later to execute the normalization vector adjustment.

【0170】1613は正規化ベクトル調整部であり,
前記正規化ベクトル調整実行判定部からの前記正規化ベ
クトル調整信号を受けて,前記正規化ベクトル記憶部1
602に記憶されている前記正規化ベクトルと前記ファ
ジィベクトル量子化部1605で得られた前記ラベルベ
クトル系列Oと前記帰属度ベクトル系列Uと前記HMM
記憶部に記憶されている前記認識候補に対応するHMM
とを用いて,正規化ベクトルの調整を行い,修正後の正
規化ベクトルを正規化ベクトル記憶部に送るものであ
る。
Reference numeral 1613 is a normalization vector adjustment unit,
Upon receiving the normalization vector adjustment signal from the normalization vector adjustment execution determination unit, the normalization vector storage unit 1
The normalization vector stored in 602, the label vector sequence O obtained by the fuzzy vector quantization unit 1605, the membership vector sequence U, and the HMM.
HMM corresponding to the recognition candidate stored in the storage unit
And are used to adjust the normalization vector, and the corrected normalization vector is sent to the normalization vector storage unit.

【0171】[0171]

【発明の効果】【The invention's effect】

(1)本発明によれば、発声内容が既知の音声を用い、
該音声に対するHMMの尤度が最大になるように求めた
修正ベクトルを用いてコードブックを修正することによ
り、HMM作成時と認識時における環境の差異を修正
し、環境の変化に強い音声認識装置を構成することが可
能となる。 (2)本発明によれば、発声内容が既知の音声を用い、
該音声に対するHMMの尤度が最大になるように求めた
正規化ベクトルを用いて特徴ベクトルを修正することに
より、HMM作成時と認識時における環境の差異を修正
し、環境の変化に強い音声認識装置を構成することが可
能となる。
(1) According to the present invention, a voice whose utterance content is known is used,
By correcting the codebook using the correction vector obtained so as to maximize the likelihood of the HMM for the voice, the difference between the environments at the time of creating the HMM and at the time of recognition is corrected, and the voice recognition device is resistant to the changes in the environment. Can be configured. (2) According to the present invention, a voice whose utterance content is known is used,
By correcting the feature vector using the normalized vector obtained so as to maximize the likelihood of the HMM for the voice, the difference in the environment between when the HMM is created and when the recognition is performed is corrected, and the voice recognition is robust against the change in the environment. It is possible to configure the device.

【図面の簡単な説明】[Brief description of drawings]

【図1】Hidden Markov Model(HMM)を説明するため
のHMMの構成図
FIG. 1 is a block diagram of an HMM for explaining a Hidden Markov Model (HMM).

【図2】コードブックの構成を説明する図FIG. 2 is a diagram illustrating the configuration of a codebook.

【図3】音声認識装置の従来例を説明するブロック図FIG. 3 is a block diagram illustrating a conventional example of a voice recognition device.

【図4】本発明のコードブック修正装置の概要の一実施
例を説明するブロック図
FIG. 4 is a block diagram illustrating an example of an outline of a codebook correction device according to the present invention.

【図5】本発明のコードブック修正装置の主要部である
コードブック修正部の一実施例を説明するブロック図
FIG. 5 is a block diagram illustrating an embodiment of a codebook correction unit which is a main part of the codebook correction device of the present invention.

【図6】本発明の動作を説明するフローチャートFIG. 6 is a flowchart illustrating the operation of the present invention.

【図7】図6における発生度合の算出式が(数4)で表
される場合の動作を説明するフローチャート
FIG. 7 is a flowchart for explaining the operation when the occurrence degree calculation formula in FIG. 6 is expressed by (Equation 4).

【図8】図6における修正ベクトルが各クラスタ毎に求
められる場合の修正ベクトル分母分子の算出の動作を説
明するフローチャート
FIG. 8 is a flowchart illustrating an operation of calculating a correction vector denominator / numerator when the correction vector in FIG. 6 is obtained for each cluster.

【図9】図6における修正ベクトルが各クラスタ毎に求
められる場合の動作を説明するフローチャート
9 is a flowchart illustrating an operation when a correction vector in FIG. 6 is obtained for each cluster.

【図10】図6における修正ベクトルが全クラスタ共通
に求められる場合の修正ベクトル分母分子の算出の動作
を説明するフローチャート
FIG. 10 is a flowchart illustrating an operation of calculating a correction vector denominator / numerator when the correction vector in FIG. 6 is commonly found in all clusters.

【図11】図6における修正ベクトルが全クラスタ共通
に求められる場合の動作を説明するフローチャート
FIG. 11 is a flowchart for explaining the operation when the correction vector in FIG. 6 is obtained commonly to all clusters.

【図12】図6における発生度合の算出式が前記(数
5)で表される場合の動作を説明するフローチャート
FIG. 12 is a flowchart for explaining the operation when the expression for calculating the degree of occurrence in FIG. 6 is expressed by (Equation 5).

【図13】本発明の特徴ベクトル正規化装置の概要の一
実施例を説明するブロック図
FIG. 13 is a block diagram illustrating an example of an outline of a feature vector normalization device of the present invention.

【図14】本発明の特徴ベクトル正規化装置の主要部で
ある修正ベクトル修正部の一実施例を説明するブロック
FIG. 14 is a block diagram illustrating an embodiment of a correction vector correction unit which is a main part of the feature vector normalization device of the present invention.

【図15】コードブック正規化手段を組み込んだ音声認
識装置の一実施例を説明するブロック図
FIG. 15 is a block diagram illustrating an embodiment of a voice recognition device incorporating a codebook normalizing means.

【図16】正規化ベクトル調整手段を組み込んだ音声認
識装置の一実施例を説明するブロック図
FIG. 16 is a block diagram illustrating an embodiment of a voice recognition device incorporating a normalization vector adjustment means.

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】特徴ベクトル空間の有限個の代表点(コー
ドベクトル)をそれに付されたラベルによって検索可能
な形で記憶するコードブック記憶手段と、該コードブッ
クによって特徴ベクトル系列の各ベクトルを各ラベルに
対応した帰属度の組(帰属度ベクトル)に変換し、前記
特徴ベクトル系列を帰属度ベクトル系列に変換するファ
ジィベクトル量子化手段と、前記ラベルの発生確率(ラ
ベル発生確率)が状態毎に定義されたHMMを記憶する
HMM記憶手段と、前記ラベル発生確率と前記帰属度ベ
クトルにより前記特徴ベクトル系列の前記HMMからの
発生度合を算出する特徴ベクトル系列発生度合算出手段
と、前記各コードベクトルを修正するコードブック修正
手段を備え、該コードブック修正手段は前記特徴ベクト
ル系列が前記HMMから発生する度合を最大にするよう
に前記コードベクトルを修正する修正ベクトル算出手段
を含み、前記コードベクトルを修正するように構成され
ていることを特徴とするコードブック修正装置。
1. A codebook storage means for storing a finite number of representative points (code vectors) in a feature vector space in a searchable form by labels attached thereto, and each vector of a feature vector series by the codebook. Fuzzy vector quantizing means for converting to a set of degree of membership corresponding to a label (degree of membership vector) and converting the feature vector series into a degree of membership vector series, and the probability of occurrence of the label (probability of occurrence of label) for each state. HMM storage means for storing the defined HMM, feature vector series occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the degree of membership vector, and each of the code vectors A codebook modifying means for modifying, wherein the codebook modifying means uses the HM as the feature vector sequence; It includes modification vector calculation means for modifying the code vector to maximize the degree generated from codebook adjustment device also being configured to modify the code vector.
【請求項2】修正ベクトル算出手段は、修正ベクトルの
値をコードブックのコードベクトル毎に個別に算出する
ことを特徴とする請求項1記載のコードブック修正装
置。
2. The codebook correction device according to claim 1, wherein the correction vector calculation means individually calculates the value of the correction vector for each code vector of the codebook.
【請求項3】修正ベクトル算出手段は、修正ベクトルの
値をコードブックの全コードベクトルに共通に算出する
ことを特徴とする請求項1記載のコードブック修正装
置。
3. The codebook correction device according to claim 1, wherein the correction vector calculation means calculates the value of the correction vector in common to all codevectors of the codebook.
【請求項4】特徴ベクトル系列の発生度合がラベル発生
確率と帰属度のべき乗積または発生度合の対数がラベル
発生確率の対数と帰属度の積和で定義されることを特徴
とする請求項1記載のコードブック修正装置。
4. The feature vector sequence occurrence degree is defined as a power product of the label occurrence probability and the membership degree, or the logarithm of the occurrence degree is defined by a sum of products of the logarithm of the label occurrence probability and the membership degree. Codebook correction device described.
【請求項5】特徴ベクトル系列の発生度合がラベル発生
確率と帰属度の積和で定義されることを特徴とする請求
項第1記載のコードブック修正装置。
5. The codebook correction device according to claim 1, wherein the degree of occurrence of the feature vector series is defined by the sum of products of the label occurrence probability and the degree of membership.
【請求項6】特徴ベクトル空間の有限個の代表点(コー
ドベクトル)をそれに付されたラベルによって検索可能
な形で記憶するコードブック記憶手段と、該コードブッ
クによって特徴ベクトル系列の各ベクトルを各ラベルに
対応した帰属度の組(帰属度ベクトル)に変換し、前記
特徴ベクトル系列を帰属度ベクトル系列に変換するファ
ジィベクトル量子化手段と、前記ラベルの発生確率(ラ
ベル発生確率)が状態毎に定義されたHMMを記憶する
HMM記憶手段と、前記ラベル発生確率と前記帰属度ベ
クトルにより前記特徴ベクトル系列の前記HMMからの
発生度合を算出する特徴ベクトル系列発生度合算出手段
と、前記特徴ベクトルを修正する特徴ベクトル修正手段
と、前記特徴ベクトルを修正するための正規化ベクトル
を算出する正規化ベクトル調整手段を備え、該正規化ベ
クトル調整手段は前記特徴ベクトル系列が前記HMMか
ら発生する度合を最大にするように前記特徴ベクトルを
修正する修正ベクトル算出手段を含み、前記特徴ベクト
ルを修正するように構成されていることを特徴とする特
徴ベクトル正規化装置。
6. A codebook storage means for storing a finite number of representative points (code vectors) in a feature vector space in a searchable form by labels attached thereto, and each vector of the feature vector series by the codebook. Fuzzy vector quantizing means for converting to a set of degree of membership corresponding to a label (degree of membership vector) and converting the feature vector series into a degree of membership vector series, and the probability of occurrence of the label (probability of occurrence of label) for each state. HMM storage means for storing the defined HMM, feature vector series occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the membership degree vector, and the feature vector is modified And a normalization vector for calculating a normalization vector for correcting the feature vector And a correction vector calculating means for correcting the feature vector so as to maximize the degree of occurrence of the feature vector sequence from the HMM. A feature vector normalization device having the following configuration.
【請求項7】特徴ベクトル系列の発生度合はラベル発生
確率と帰属度のべき乗積または発生度合の対数がラベル
発生確率の対数と帰属度の積和で定義されることを特徴
とする請求項6記載の特徴ベクトル正規化装置。
7. The degree of occurrence of the feature vector sequence is characterized in that the power product of the label occurrence probability and the degree of membership or the logarithm of the degree of occurrence is defined by the sum of products of the log of the label occurrence probability and the degree of membership. The described feature vector normalizer.
【請求項8】特徴ベクトル系列の発生度合はラベル発生
確率と帰属度の積和で定義されることを特徴とする請求
項6記載の特徴ベクトル正規化装置。
8. The feature vector normalization apparatus according to claim 6, wherein the occurrence degree of the feature vector series is defined by the sum of products of the label occurrence probability and the membership degree.
【請求項9】請求項4または請求項5記載のコードブッ
ク修正装置は特徴ベクトル系列発生度合算出手段のべき
乗積の範囲または積和の範囲を制限することを特徴とす
るコードブック修正装置。
9. The codebook correction device according to claim 4 or 5, wherein the range of exponentiation products or the range of product sums of the feature vector sequence generation degree calculation means is limited.
【請求項10】請求項7または請求項8記載の特徴ベク
トル正規化装置は特徴ベクトル系列発生度合算出手段の
べき乗積の範囲または積和の範囲を制限することを特徴
とする特徴ベクトル正規化装置。
10. The feature vector normalizing apparatus according to claim 7 or 8, wherein the range of exponentiation products or the range of product sums of the feature vector sequence generation degree calculating means is limited. .
【請求項11】特徴ベクトル空間の有限個の代表点(コ
ードベクトル)をそれに付されたラベルによって検索可
能な形で記憶するコードブック記憶手段と、該コードブ
ックによって特徴ベクトル系列の各ベクトルを各ラベル
に対応した帰属度の組(帰属度ベクトル)に変換し、前
記特徴ベクトル系列を帰属度ベクトル系列に変換するフ
ァジィベクトル量子化手段と、前記ラベルの発生確率
(ラベル発生確率)が状態毎に定義されたHMMを記憶
するHMM記憶手段と、前記ラベル発生確率と前記帰属
度ベクトルにより前記特徴ベクトル系列の前記HMMか
らの発生度合を算出する特徴ベクトル系列発生度合算出
手段と、前記特徴ベクトル系列に対する前記各語彙のH
MMの尤度を算出する尤度算出手段と,認識結果を判定
する比較判定手段と,前記比較判定手段から得られた認
識候補の信頼性を算出する認識候補信頼性算出手段と,
前記認識候補の信頼性が一定閾値を超えていればコード
ブックの修正を実行する命令を出すコードブック修正実
行判定手段と,前記各コードベクトルを修正するコード
ブック修正手段を備え、該コードブック修正手段は前記
特徴ベクトル系列が前記認識候補に対応するHMMから
発生する度合を最大にするように前記コードベクトルを
修正する修正ベクトル算出手段を含み、発声内容が予め
未知の場合に認識候補を発声内容とすることにより前記
コードベクトルを修正するように構成されていることを
特徴とする音声認識装置。
11. A codebook storage means for storing a finite number of representative points (code vectors) in a feature vector space in a searchable form by labels attached thereto, and each vector of the feature vector series by the codebook. Fuzzy vector quantizing means for converting to a set of degree of membership corresponding to a label (degree of membership vector) and converting the feature vector series into a degree of membership vector series, and the probability of occurrence of the label (probability of occurrence of label) for each state. HMM storage means for storing the defined HMM, feature vector series occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the membership degree vector, and the feature vector series H of each vocabulary
Likelihood calculation means for calculating the likelihood of MM, comparison judgment means for judging the recognition result, recognition candidate reliability calculation means for calculating the reliability of the recognition candidates obtained from the comparison judgment means,
If the reliability of the recognition candidate exceeds a certain threshold, a codebook correction execution determination means for issuing an instruction to execute a codebook correction and a codebook correction means for correcting each code vector are provided. The means includes correction vector calculation means for correcting the code vector so as to maximize the degree of occurrence of the feature vector sequence from the HMM corresponding to the recognition candidate, and the recognition candidate is uttered when the utterance content is unknown in advance. A voice recognition device characterized in that the code vector is modified by the following.
【請求項12】特徴ベクトル空間の有限個の代表点(コ
ードベクトル)をそれに付されたラベルによって検索可
能な形で記憶するコードブック記憶手段と、該コードブ
ックによって特徴ベクトル系列の各ベクトルを各ラベル
に対応した帰属度の組(帰属度ベクトル)に変換し、前
記特徴ベクトル系列を帰属度ベクトル系列に変換するフ
ァジィベクトル量子化手段と、前記ラベルの発生確率
(ラベル発生確率)が状態毎に定義されたHMMを記憶
するHMM記憶手段と、前記ラベル発生確率と前記帰属
度ベクトルにより前記特徴ベクトル系列の前記HMMか
らの発生度合を算出する特徴ベクトル系列発生度合算出
手段と、前記特徴ベクトル系列に対する前記各語彙のH
MMの尤度を算出する尤度算出手段と,認識結果を判定
する比較判定手段と,前記比較判定手段から得られた認
識候補の信頼性を算出する認識候補信頼性算出手段と,
前記認識候補の信頼性が一定閾値を超えていればコード
ブックの修正を実行する命令を出すコードブック修正実
行判定手段と,前記特徴ベクトルを修正する特徴ベクト
ル修正手段と、前記特徴ベクトルを修正するための正規
化ベクトルを算出する正規化ベクトル調整手段を備え、
該正規化ベクトル調整手段は前記特徴ベクトル系列が前
記HMMから発生する度合を最大にするように前記特徴
ベクトルを修正する修正ベクトル算出手段を含み、発声
内容が予め未知の場合に認識候補を発声内容とすること
により前記特徴ベクトルを修正するように構成されてい
ることを特徴とする音声認識装置。
12. A codebook storage means for storing a finite number of representative points (code vectors) in a feature vector space in a searchable form by labels attached thereto, and each vector of the feature vector series by the codebook. Fuzzy vector quantizing means for converting to a set of degree of membership corresponding to a label (degree of membership vector) and converting the feature vector series into a degree of membership vector series, and the probability of occurrence of the label (probability of occurrence of label) for each state. HMM storage means for storing the defined HMM, feature vector series occurrence degree calculation means for calculating the occurrence degree of the feature vector series from the HMM based on the label occurrence probability and the membership degree vector, and the feature vector series H of each vocabulary
Likelihood calculation means for calculating the likelihood of MM, comparison judgment means for judging the recognition result, recognition candidate reliability calculation means for calculating the reliability of the recognition candidates obtained from the comparison judgment means,
If the reliability of the recognition candidate exceeds a certain threshold, a codebook correction execution determining means for issuing an instruction to execute a codebook correction, a feature vector correcting means for correcting the feature vector, and the feature vector are corrected. A normalization vector adjustment means for calculating a normalization vector for
The normalization vector adjustment means includes a correction vector calculation means for correcting the feature vector so as to maximize the degree of occurrence of the feature vector sequence from the HMM, and when the utterance content is previously unknown, the recognition candidate is uttered. The voice recognition device is configured to correct the feature vector according to the above.
JP5305104A 1993-12-06 1993-12-06 Voice recognizing device Pending JPH07160288A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5305104A JPH07160288A (en) 1993-12-06 1993-12-06 Voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5305104A JPH07160288A (en) 1993-12-06 1993-12-06 Voice recognizing device

Publications (1)

Publication Number Publication Date
JPH07160288A true JPH07160288A (en) 1995-06-23

Family

ID=17941151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5305104A Pending JPH07160288A (en) 1993-12-06 1993-12-06 Voice recognizing device

Country Status (1)

Country Link
JP (1) JPH07160288A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058576B2 (en) 2001-07-24 2006-06-06 Seiko Epson Corporation Method of calculating HMM output probability and speech recognition apparatus
JP2010230868A (en) * 2009-03-26 2010-10-14 Toshiba Corp Pattern recognition device, pattern recognition method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7058576B2 (en) 2001-07-24 2006-06-06 Seiko Epson Corporation Method of calculating HMM output probability and speech recognition apparatus
JP2010230868A (en) * 2009-03-26 2010-10-14 Toshiba Corp Pattern recognition device, pattern recognition method, and program
US9147133B2 (en) 2009-03-26 2015-09-29 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method and computer program product

Similar Documents

Publication Publication Date Title
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
WO1998040876A9 (en) Speech recognition system employing discriminatively trained models
JPH05257492A (en) Voice recognizing system
Li et al. Large margin HMMs for speech recognition
KR100366603B1 (en) Vector quantizer
JPH0372997B2 (en)
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
JP2751856B2 (en) Pattern adaptation method using tree structure
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
JPH1185186A (en) Nonspecific speaker acoustic model forming apparatus and speech recognition apparatus
JP2545914B2 (en) Speech recognition method
JPH07160288A (en) Voice recognizing device
JP2000075886A (en) Statistical language model generator and voice recognition device
JP3039399B2 (en) Non-native speech recognition device
JPH0895592A (en) Pattern recognition method
Picone On modeling duration in context in speech recognition
JPH07261790A (en) Voice recognition device
EP0238693B1 (en) Speech recognition system and method using statistical models for words
JP2005091504A (en) Voice recognition device
JP3144203B2 (en) Vector quantizer
JP3420908B2 (en) Learning Hidden Markov Model
JPH10149189A (en) Word model generator for voice recognition and voice recognizing device
JPH10207485A (en) Speech recognition system and method of speaker adaptation
JP3105708B2 (en) Voice recognition device