JP3035239B2 - Speaker normalization device, speaker adaptation device, and speech recognition device - Google Patents
Speaker normalization device, speaker adaptation device, and speech recognition deviceInfo
- Publication number
- JP3035239B2 JP3035239B2 JP9054596A JP5459697A JP3035239B2 JP 3035239 B2 JP3035239 B2 JP 3035239B2 JP 9054596 A JP9054596 A JP 9054596A JP 5459697 A JP5459697 A JP 5459697A JP 3035239 B2 JP3035239 B2 JP 3035239B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- model
- vector
- hmm
- hidden markov
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、初期話者モデルに
対して話者依存の音声データの特徴パラメータを用いて
話者正規化を行って、話者正規化された隠れマルコフモ
デル(以下、HMMという。)を作成する話者正規化装
置、話者正規化されたHMMに対して話者適応用学習デ
ータを用いて話者適応化を行って、話者適応化されたH
MMを作成する話者適応化装置、及び、話者正規化又は
話者適応化されたHMMを用いて音声認識する音声認識
装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speaker-normalized hidden Markov model (hereinafter, referred to as a speaker-normalized model) by performing speaker normalization on an initial speaker model using speaker-dependent speech data feature parameters. A speaker normalizing device that creates HMM), performs speaker adaptation on the speaker-normalized HMM using the speaker adaptation learning data, and performs speaker-adapted H.
The present invention relates to a speaker adaptation device that creates an MM, and a speech recognition device that recognizes speech using a speaker-normalized or speaker-adapted HMM.
【0002】[0002]
【従来の技術】音声認識のアプリケーションを考えた場
合、事前の話者登録無しに使用が可能の不特定話者音声
認識システムの要望が高い。しかしながら、現状の不特
定話者音声認識の性能は、特定話者音声認識よりも低
く、その差は、誤り率で2〜3倍程度である。不特定話
者音声認識の性能を向上されるため、特定話者が発声し
た少量の適応データを用い、不特定話者音声認識の音響
モデルを特定話者へ近づける話者適応化処理(例えば、
従来技術文献1「C.L.Leggetter et al.,“MaximumLike
lihood Linear Regression for Speaker Adaptation of
Continuous Density Hidden Markov Models",Computer
Speech and Language,Vol.9,pp.171-185,1995年」参
照。)の研究が行なわれているが、特定話者音声認識と
同等の性能を示すまでには、多量の学習用適応化データ
が必要となっている。2. Description of the Related Art When considering a speech recognition application, there is a strong demand for an unspecified speaker speech recognition system that can be used without prior speaker registration. However, the current unspecified speaker speech recognition performance is lower than that of the specific speaker speech recognition, and the difference is about two to three times the error rate. In order to improve the performance of the speaker-independent speaker recognition, a speaker adaptation process (for example, using a small amount of adaptation data uttered by a particular speaker) to bring the acoustic model of the speaker-independent speaker recognition closer to the particular speaker.
Prior art document 1 “CLLeggetter et al.,“ MaximumLike
lihood Linear Regression for Speaker Adaptation of
Continuous Density Hidden Markov Models ", Computer
Speech and Language, Vol. 9, pp. 171-185, 1995. " However, a large amount of training adaptation data is required until the performance is equivalent to that of the specific speaker speech recognition.
【0003】[0003]
【発明が解決しようとする課題】一般に、話者に対して
独立な不特定話者HMM(以下、SI−HMMとい
う。)の学習は複数の話者の音声データを用いて行う。
学習データには話者による違いだけでなく、学習対象の
単位の置かれた状況(コンテキスト)等の違いが混在す
るにも関わらず、特定話者音声認識の音響モデル(話者
に依存するHMM(以下、SD−HMMという。)であ
る。)の学習と同様に処理する。これにより、SI−H
MMには話者の違いに起因する変動と音韻コンテキスト
の変動の両方が混在し、広がりの大きなモデルになって
しまう。これが識別性能劣化の要因の1つなっていると
考えられる。連続混合分布型HMMを基本とした音声認
識システムの場合では、ガウス分布の分散が大きくなる
現象であり、認識単位間の重なりが発生し、識別を困難
となるという問題点があった。Generally, learning of an independent speaker-independent HMM (hereinafter, SI-HMM) independent of a speaker is performed using voice data of a plurality of speakers.
In spite of the fact that the learning data contains not only differences depending on speakers, but also differences such as situations (contexts) where units to be learned are placed, an acoustic model for specific speaker speech recognition (HMM depending on speakers) (Hereinafter referred to as SD-HMM).). Thereby, SI-H
In the MM, both the variation caused by the difference of the speaker and the variation of the phonemic context coexist, resulting in a model having a large spread. This is considered to be one of the factors of the degradation of the identification performance. In the case of a speech recognition system based on a continuous mixture distribution type HMM, the variance of the Gaussian distribution is large, and there is a problem in that recognition units are overlapped with each other, making identification difficult.
【0004】特に、従来技術文献1において開示され
た、従来例の重回帰写像モデルを用いて話者適応化した
場合に、学習用適応化データが少量であるときに、適応
化のパラメータの推定精度が比較的悪く、音声認識率が
比較的低いという問題点があった。[0004] In particular, when speaker adaptation is performed using the conventional multiple regression mapping model disclosed in the prior art document 1, when the adaptation data for learning is small, estimation of adaptation parameters is performed. There is a problem that the accuracy is relatively poor and the speech recognition rate is relatively low.
【0005】本発明の目的は以上の問題点を解決し、従
来例に比較して適応化のパラメータの推定精度を改善す
ることができ、しかも音声認識率を改善することができ
る話者正規化装置、話者適応化装置及び音声認識装置を
提供することにある。SUMMARY OF THE INVENTION An object of the present invention is to solve the above problems and to improve the estimation accuracy of adaptation parameters as compared with the prior art, and to improve the speech recognition rate. A device, a speaker adaptation device, and a speech recognition device.
【0006】[0006]
【課題を解決するための手段】本発明に係る請求項1記
載の話者正規化装置は、所定の隠れマルコフモデルの初
期モデルを学習するための学習データであり、複数の話
者にそれぞれ依存する音声データの特徴ベクトルを記憶
する記憶装置と、上記記憶装置に記憶された音声データ
の特徴ベクトルに基づいて、上記隠れマルコフモデルの
初期モデルに対して、最尤線形回帰法により、重回帰写
像モデルに基づく平均ベクトルの変換のための変換行列
と、スペクトルに共通する個人差を表す定数項ベクトル
とを含む第1の変換係数を上記各話者毎に演算する第1
の演算手段と、上記記憶装置に記憶された音声データの
特徴ベクトルから上記各話者毎に、上記第1の演算手段
によって演算された定数項ベクトルを減算して正規化さ
れた音声データの特徴ベクトルを演算する第2の演算手
段と、上記第2の演算手段によって演算された正規化さ
れた音声データの特徴ベクトルに基づいて、上記隠れマ
ルコフモデルの初期モデルを、所定の学習アルゴリズム
を用いて学習することにより、話者正規化された隠れマ
ルコフモデルのモデルパラメータを演算する第3の演算
手段とを備えたことを特徴とする。According to a first aspect of the present invention, there is provided a speaker normalizing apparatus which is training data for learning an initial model of a predetermined hidden Markov model, and which depends on a plurality of speakers. A storage device for storing a feature vector of speech data to be processed, and a multiple regression mapping for the initial model of the hidden Markov model based on the feature vector of the speech data stored in the storage device by a maximum likelihood linear regression method. A first transform coefficient for each speaker is calculated, the first transform coefficient including a transform matrix for transforming an average vector based on a model and a constant term vector representing an individual difference common to spectra.
And the characteristic of the voice data normalized by subtracting the constant term vector calculated by the first calculating means for each speaker from the feature vector of the voice data stored in the storage device. A second calculating means for calculating the vector, and an initial model of the hidden Markov model based on a feature vector of the normalized speech data calculated by the second calculating means, using a predetermined learning algorithm. And a third calculating means for calculating model parameters of the speaker-normalized hidden Markov model by learning.
【0007】また、本発明に係る請求項2記載の話者適
応化装置は、話者適応化する話者の音声データの特徴ベ
クトルに基づいて、請求項1記載の話者正規化装置の第
3の演算手段によって演算された隠れマルコフモデルに
対して、最尤線形回帰法により、重回帰写像モデルに基
づく平均ベクトルの変換のための変換行列と定数項ベク
トルを含む第2の変換係数を演算する第4の演算手段
と、上記第4の演算手段によって演算された変換行列と
定数項ベクトルを含む第2の変換係数に基づいて、最大
事後確率推定法により、話者適応化された重回帰写像モ
デルに基づく平均ベクトルの変換のための変換行列と定
数項ベクトルを含む第3の変換係数を演算する第5の演
算手段と、上記第5の演算手段によって演算された変換
行列と定数項ベクトルを含む第3の変換係数に対して、
所定の線形変換処理を実行することにより、話者適応化
後の隠れマルコフモデルの平均ベクトルを演算する第6
の演算手段とを備えたことを特徴とする。According to a second aspect of the present invention, there is provided a speaker normalizing apparatus according to the first aspect, based on a feature vector of voice data of a speaker to be speaker-adapted. A second transformation coefficient including a transformation matrix and a constant term vector for transforming an average vector based on the multiple regression mapping model is calculated by the maximum likelihood linear regression method for the Hidden Markov Model calculated by the third calculation means. Multiple regression speaker-adapted by a maximum a posteriori probability estimating method based on a fourth calculating means, and a second conversion coefficient including a conversion matrix and a constant term vector calculated by the fourth calculating means. Fifth computing means for computing a third transformation coefficient including a transformation matrix for transforming an average vector based on a mapping model and a constant term vector, and a transformation matrix computed by the fifth computing means and a constant term vector For the third transform coefficient including,
By performing a predetermined linear transformation process, a sixth vector for calculating an average vector of the hidden Markov model after speaker adaptation is calculated.
And arithmetic means.
【0008】さらに、請求項3記載の音声認識装置は、
請求項1記載の話者正規化装置の第3の演算手段によっ
て演算された隠れマルコフモデルを用いて、入力された
発声音声文の音声信号に基づいて、音声認識して音声認
識結果を出力する音声認識手段とを備えたことを特徴と
する。[0008] Further, the speech recognition apparatus according to claim 3 is
Using the hidden Markov model calculated by the third calculation means of the speaker normalization apparatus according to claim 1, perform voice recognition based on the voice signal of the input uttered voice sentence and output a voice recognition result. Voice recognition means.
【0009】さらに、請求項4記載の音声認識装置は、
請求項2記載の話者適応化装置の第6の演算手段によっ
て演算された隠れマルコフモデルの平均ベクトルを含む
隠れマルコフモデルを用いて、入力された発声音声文の
音声信号に基づいて、音声認識して音声認識結果を出力
する音声認識手段とを備えたことを特徴とする。Further, the voice recognition device according to the fourth aspect of the present invention,
Speech recognition based on a speech signal of an input uttered speech sentence, using a hidden Markov model including an average vector of the hidden Markov model calculated by the sixth calculation means of the speaker adaptation apparatus according to claim 2. And voice recognition means for outputting a voice recognition result.
【0010】[0010]
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は本発明に係る一実
施形態である音声認識装置のブロック図である。この実
施形態は、話者正規化制御部20と、話者適応化制御部
21とを備えたことを特徴とする。Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a speech recognition device according to one embodiment of the present invention. This embodiment is characterized in that a speaker normalization control unit 20 and a speaker adaptation control unit 21 are provided.
【0011】ここで、話者正規化制御部20は、(a)
複数M人の話者にそれぞれ依存する音声データ32−1
乃至32−Mの特徴ベクトルに基づいて、所定のHMM
の初期モデル(以下、初期HMMという。)31に対し
て、最尤線形回帰法により、重回帰写像モデルに基づく
平均ベクトルの変換のための変換行列と定数項ベクトル
を含む第1の変換係数Ac (m),bc ( m)を、後述する数6
乃至数11を用いて各話者m(m=1,2,…,M)毎
に演算し、(b)後述する数12を用いて、上記複数M
人の話者にそれぞれ依存する音声データ32−1乃至3
2−Mの特徴ベクトルot (m)から上記各話者m毎に、上
記演算された定数項ベクトルbc (m)を減算して正規化さ
れた音声データの特徴ベクトルohtを演算し、(c)
上記演算された正規化された音声データの特徴ベクトル
ohtに基づいて、隠れマルコフモデルの初期モデル3
1を、所定の学習アルゴリズムを用いて学習することに
より、話者正規化されたHMM33のモデルパラメータ
を演算することを特徴とする。ここで、モデルパラメー
タは、平均ベクトル、ガウス分布の分散、状態遷移確率
などのHMMのモデルパラメータを含む。In this case, the speaker normalization control section 20 has the following steps:
Speech data 32-1 depending on each of a plurality of M speakers
Based on the feature vectors of
Of the initial model (hereinafter referred to as an initial HMM) 31 by a maximum likelihood linear regression method, a first conversion coefficient A including a conversion matrix for converting an average vector based on a multiple regression mapping model and a constant term vector. c (m) and b c ( m) are expressed by the following equation ( 6).
, M is calculated for each speaker m (m = 1, 2,..., M) by using Equation 11;
Speech data 32-1 to 32-depending on human speakers
The calculated constant term vector b c (m) is subtracted for each speaker m from the 2-M feature vector o t (m) to calculate a normalized speech data feature vector oh t. , (C)
Based on the computed normalized feature vectors oh t of the audio data, the initial model 3 of Hidden Markov Models
1 by using a predetermined learning algorithm to calculate speaker-normalized model parameters of the HMM 33. Here, the model parameters include HMM model parameters such as mean vector, variance of Gaussian distribution, and state transition probability.
【0012】また、話者適応化制御部21は、(d)話
者適応化する音声データである話者適応用学習データ3
4の特徴ベクトルに基づいて、話者正規化装置20によ
って演算された話者正規化されたHMM33に対して、
最尤線形回帰法により、後述する数6を用いて、重回帰
写像モデルに基づく平均ベクトルの変換のための変換行
列と定数項ベクトルを含む第2の変換係数Ac,bcを演
算し、(e)上記演算された変換行列と定数項ベクトル
を含む第2の変換係数Ac,bcに基づいて、最大事後確
率推定法により、後述する数14及び数15を用いて、
話者適応化された重回帰写像モデルに基づく平均ベクト
ルの変換のための変換行列と定数項ベクトルを含む第3
の変換係数Ac,k MAP,bc,k MAPを演算し、(f)上記演
算された変換行列と定数項ベクトルを含む第3の変換係
数Ac,k MAP,bc,k MAPに対して、後述する数13を用い
て所定の線形変換処理を実行することにより、話者適応
化後のHMMの平均ベクトルμhk, MAPを演算すること
を特徴とする。The speaker adaptation control unit 21 further comprises (d) speaker adaptation learning data 3 which is speech data for speaker adaptation.
Based on the feature vector of No. 4, the speaker-normalized HMM 33 calculated by the speaker normalization device 20 is:
Using the maximum likelihood linear regression method, a second conversion coefficient A c , b c including a constant matrix and a conversion matrix for conversion of an average vector based on the multiple regression mapping model is calculated using Equation 6 described below, (E) On the basis of the calculated transformation matrix and the second transformation coefficients A c and b c including the constant term vector, the maximum posterior probability estimation method is used to obtain the following equations 14 and 15,
A third matrix including a transformation matrix and a constant term vector for transformation of an average vector based on a speaker-adapted multiple regression mapping model
The coefficients of the transformed A c, k MAP, b c, calculates the k MAP, the third conversion coefficient A c containing (f) the calculated transformation matrix and the constant term vector, k MAP, b c, the k MAP On the other hand, by performing a predetermined linear conversion process using Expression 13 described later, the average vector μh k, MAP of the HMM after speaker adaptation is calculated.
【0013】さらに、図1の音声認識装置は、上記話者
適応化されたHMM11を用いて、入力された発声音声
文の音声信号に基づいて、音声認識して音声認識結果を
出力する。また、話者正規化されたHMM33を用い
て、入力された発声音声文の音声信号に基づいて、音声
認識して音声認識結果を出力してもよい。Further, the speech recognition apparatus shown in FIG. 1 uses the above-described speaker-adapted HMM 11 to perform speech recognition based on the speech signal of the input uttered speech sentence, and outputs a speech recognition result. Further, using the speaker-normalized HMM 33, speech recognition may be performed based on the speech signal of the input uttered speech sentence, and the speech recognition result may be output.
【0014】本発明に係る実施形態においては、話者性
を取り除く話者正規化手法によって音響モデルを生成す
ることを検討した。話者正規化を行なうことでモデルの
広がりが小さくなり、識別性能の向上が期待できる。ま
た、このような話者正規化により、変動分が音韻コンテ
キストを主としているものとみなせるモデルが得られる
ならば、話者適応の初期モデルとしても有効であると考
えられる。正規化処理は、重回帰写像モデルの定数項を
用いる。定数項は声帯音源スペクトルの概形や回線特性
のような広範囲のスペクトルに共通する個人差を表すと
考えられる。定数項を個人差ベクトルと考え、定数項を
学習データから引くことで正規化を行なう。さらにここ
では、話者正規化を施した音声データによって学習した
話者正規化されたHMMを初期モデルとする話者適応化
を、重回帰写像モデルによる話者適応と最大事後確率推
定法(以下、MAP推定法という。)を組み合わせた方
法を用いる。In the embodiment according to the present invention, generation of an acoustic model by a speaker normalization method for removing speakerness has been studied. By performing speaker normalization, the spread of the model is reduced, and an improvement in discrimination performance can be expected. Also, if a model is obtained by such speaker normalization in which the variation can be considered to be mainly based on the phonemic context, it is considered to be effective as an initial model for speaker adaptation. The normalization process uses a constant term of the multiple regression mapping model. The constant term is considered to represent an individual difference common to a wide range of spectrums such as an outline of a vocal cord sound source spectrum and line characteristics. The constant term is considered as an individual difference vector, and normalization is performed by subtracting the constant term from the learning data. Further, here, the speaker adaptation using the speaker-normalized HMM trained by the speaker-normalized speech data as the initial model is performed by using the speaker adaptation by the multiple regression mapping model and the maximum posterior probability estimating method (hereinafter, referred to as “the maximum posterior probability estimation method”). , MAP estimation method).
【0015】まず、本実施形態において用いる重回帰写
像モデルについて説明する。重回帰写像モデルによる話
者適応化は初期モデルのk番目のガウス分布の平均ベク
トルμk(次元数n)を、次式によって、話者適応化モ
デルに基づく平均ベクトルμhkに変換することで行な
われる。First, a multiple regression mapping model used in the present embodiment will be described. The speaker adaptation by the multiple regression mapping model is performed by converting the average vector μ k (the number of dimensions n) of the k-th Gaussian distribution of the initial model into the average vector μh k based on the speaker adaptation model by the following equation. Done.
【0016】[0016]
【数1】μhk=Acμk+bc Μh k = A c μ k + b c
【0017】ここで、Acはn×nの変換行列であり、
bcはn次元の定数項ベクトルであり、共有化されたガ
ウス分布のクラスΩc毎に求める。ここでは、学習用適
応化データに関して最尤を基準に変換係数Ac,bcを推
定する最尤線形回帰法(Maximum likelihood linear re
gression;以下、MLLR方法という。;例えば、従来
技術文献1参照。)を用いて推定する方法について述べ
る。MLLR法では時刻tにk番目のガウス分布(以
下、ガウス分布kという。)において入力ベクトルot
観測される確率密度関数bk(ot)を次式の通り仮定す
る。Where A c is an n × n transformation matrix,
b c is an n-dimensional constant term vector, which is obtained for each class Ω c of the shared Gaussian distribution. Here, a maximum likelihood linear regression method (Maximum likelihood linear regression) for estimating the conversion coefficients A c and b c on the learning adaptation data based on the maximum likelihood is used.
gression; hereinafter, referred to as the MLLR method. See, for example, Prior Art Document 1. ) Will be described. In the MLLR method, an input vector o t in a k-th Gaussian distribution (hereinafter, referred to as a Gaussian distribution k) at time t.
The observed probability density function b k a (o t) Suppose as follows.
【0018】[0018]
【数2】bk(ot)=1/{(2π)n/2|Σk|1/2}
×exp[−(1/2){ot−(Acμk+bc)}'Σk -1{ot
−(Acμk+bc)}][Number 2] b k (o t) = 1 / {(2π) n / 2 | Σ k | 1/2}
× exp [- (1/2) { o t - (A c μ k + b c)} 'Σ k -1 {o t
− (A c μ k + b c )}]
【0019】ここで、Σkは対角共分散行列diag
[σ2 k1,σ2 k2,…,σ2 kn]である。また、’は転置
行列を表わす。さらに、Σk -1は行列Σkの逆行列を表わ
す。変換係数は次式のバーム(Baum)の補助関数を
最大にすることによって得る。Where Σ k is the diagonal covariance matrix diag
[Σ 2 k1 , σ 2 k2 ,..., Σ 2 kn ]. 'Represents a transposed matrix. Further, Σ k -1 represents an inverse matrix of the matrix Σ k . The transform coefficients are obtained by maximizing the Baum auxiliary function:
【0020】[0020]
【数3】 (Equation 3)
【0021】ここで、Oはフレーム長がTの適応化デー
タの特徴ベクトルの系列(o1,o2,…,oT)を表し
ている。また、λ,λbは適応化前後のモデルパラメー
タである。θは状態系列(θ1,θ2,…,θT)であ
り、Θは可能な全ての状態系列の集合を表している。F
(O,θ│λ),F(O,θ│λb)はそれぞれ状態系
列θにおける適応前後の尤度である。Here, O represents a sequence (o 1 , o 2 ,..., O T ) of feature vectors of the adaptation data having the frame length T. Λ and λb are model parameters before and after adaptation. θ is a state sequence (θ 1 , θ 2 ,..., θ T ), and Θ represents a set of all possible state sequences. F
(O, θ | λ) and F (O, θ | λb) are likelihoods before and after adaptation in the state sequence θ, respectively.
【0022】補助関数が最大値を示す変換係数Ac,bc
は、次式のように、補助関数をAc,bcで偏微分し、偏
微分したものを共有化クラスΩcにおいて零とすること
で得られる。Conversion coefficients A c , b c at which the auxiliary function indicates the maximum value
Is obtained by partially differentiating the auxiliary function with A c and b c , and setting the partially differentiated value to zero in the shared class Ω c as in the following equation.
【0023】[0023]
【数4】 (Equation 4)
【数5】 (Equation 5)
【0024】ここで、γk(t)はガウス分布kにおい
て時刻tに入力ベクトルが観測される期待値である。ま
た、μk’は平均ベクトルμkの転置行列である。従っ
て、数4及び数5から、変換行列Acのp行目の要素a
cp,i,及び定数項bcのp番目の要素bcpは次式で与え
られる。Here, γ k (t) is an expected value at which an input vector is observed at time t in Gaussian distribution k. Μ k ′ is a transposed matrix of the average vector μ k . Therefore, from Equations 4 and 5, the element a in the p-th row of the transformation matrix A c
cp, i, and p th element b cp constant term b c is given by the following equation.
【0025】[0025]
【数6】 (Equation 6)
【0026】ここで、Here,
【数7】 (Equation 7)
【数8】 (Equation 8)
【数9】 (Equation 9)
【数10】 (Equation 10)
【数11】 [Equation 11]
【0027】ここで、μkiは平均ベクトルのi番目の要
素であり、σkpは対角共分散行列の(p,p)要素であ
り、otpは時刻tの入力ベクトルのp番目の要素を表し
ている。以上が重回帰写像モデルについての説明であ
る。Here, μ ki is the i-th element of the mean vector, σ kp is the (p, p) element of the diagonal covariance matrix, and o tp is the p-th element of the input vector at time t. Is represented. The above is the description of the multiple regression mapping model.
【0028】次いで、重回帰写像モデルを用いた話者正
規化による音響モデル作成について説明する。重回帰写
像モデルの定数項bcは声帯音源スペクトルの概形や回
線特性のような広範囲のスペクトルに共通する個人差を
表すと考えられる。そこで、本実施形態では定数項bc
を個人差ベクトルと仮定し、話者正規化を行なう。図4
及び図5は発明した話者正規化方法の概念図である。ま
た、図2は、図1の話者正規化制御部20によって実行
される、M人の話者の音声データを用いて話者正規化モ
デルを作成する話者正規化処理のフローチャートであ
り、図7はそのブロック図である。図1において、話者
正規化制御部20、話者適応化制御部21、特徴抽出部
2、音素照合部4、LRパーザ5は例えば、デジタル計
算機などの演算制御装置で構成され、バッファメモリ3
は例えばハードディスクメモリであり、初期HMM31
及び各話者1乃至Mの音声データの特徴パラメータベク
トル、話者正規化されたHMM33、話者適応用学習デ
ータ34、話者適応化されたHMM11、LRテーブル
12及び文脈自由文法13は例えばハードディスクメモ
リに記憶される。なお、各話者の音声データ32−1乃
至32−Mは各話者の音声波形信号から特徴抽出した特
徴パラメータのベクトル、すなわち特徴ベクトルであ
る。本明細書において、音声データとは、特徴ベクトル
をいう。以下に、図2及び図7を参照して、話者正規化
モデルの作成手順を述べる。Next, the creation of an acoustic model by speaker normalization using a multiple regression mapping model will be described. Constant term b c multiple regression mapping model is considered to represent the individual differences that are common to a wide range of the spectrum, such as general shape and line characteristics of glottal source spectrum. Therefore, in the present embodiment, the constant term b c
Is a personal difference vector, and speaker normalization is performed. FIG.
5 and 5 are conceptual diagrams of the invented speaker normalization method. FIG. 2 is a flowchart of a speaker normalization process executed by the speaker normalization control unit 20 of FIG. 1 to create a speaker normalization model using the voice data of M speakers. FIG. 7 is a block diagram thereof. In FIG. 1, a speaker normalization control unit 20, a speaker adaptation control unit 21, a feature extraction unit 2, a phoneme collation unit 4, and an LR parser 5 are configured by an arithmetic and control unit such as a digital computer, for example.
Is, for example, a hard disk memory, and the initial HMM 31
The feature parameter vectors of the voice data of the speakers 1 to M, the speaker-normalized HMM 33, the speaker adaptation learning data 34, the speaker-adapted HMM 11, the LR table 12, and the context-free grammar 13 are, for example, a hard disk. Stored in memory. The speech data 32-1 to 32-M of each speaker is a vector of feature parameters extracted from the speech waveform signal of each speaker, that is, a feature vector. In this specification, audio data refers to a feature vector. Hereinafter, the procedure for creating the speaker normalization model will be described with reference to FIGS.
【0029】図1、図2及び図7を参照すれば、まず、
図2のステップS1で、不特定話者HMMである初期H
MM(HMMの初期モデル)31を読み出して処理対象
のHMMとする。次いで、ステップS2で、図4に示す
ように、処理対象のHMMに対してMLLR法により数
6乃至数11を用いて各話者1乃至M毎に重回帰写像モ
デルの変換係数Ac (m),bc (m),m=1,2,…,Mを
演算する。さらに、ステップS3で、図5に示すよう
に、数12を用いて各話者1乃至Mの音声データot (m)
32−1乃至32−Mから重回帰写像モデルの定数項ベ
クトルbc (m)を減算することにより正規化音声データo
htを演算する。Referring to FIGS. 1, 2 and 7, first,
In step S1 of FIG. 2, an initial H which is an unspecified speaker HMM
The MM (initial model of the HMM) 31 is read out and set as the HMM to be processed. Next, in step S2, as shown in FIG. 4, the conversion coefficient A c (m of the multiple regression mapping model for each of the speakers 1 to M using the MLLR method with respect to the processing target HMM by using the equations 6 to 11. ) , B c (m) , m = 1, 2,..., M. Further, in step S3, as shown in FIG. 5, the voice data o t (m) of each of the speakers 1 to M is obtained by using Expression 12.
By subtracting the constant term vector b c (m) of the multiple regression mapping model from 32-1 to 32-M, the normalized speech data o
ht is calculated.
【数12】oht=ot (m)−bc (m), 1≦m≦MEquation 12] oh t = o t (m) -b c (m), 1 ≦ m ≦ M
【0030】次いで、ステップS4でテキストデータ付
き正規化音声データohtに対してバーム・ウエルチ
(Baum−Welch)の学習アルゴリズムを用いて
再学習を行う。そして、ステップS5で所定の繰り返し
回数となったか否かが判断され、なっていないときは、
ステップS6で再学習後のHMMを処理対象のHMMと
して、再び、ステップS2に戻り、上記の処理を実行す
る。一方、ステップS5で、所定の繰り返し回数(好ま
しい実施例においては、3回)となったときは、ステッ
プS7で再学習後のHMMを話者正規化HMM33とし
てメモリに記憶する。そして当該話者正規化処理を終了
する。[0030] Next, the re-trained using a learning algorithm Balm Welch (Baum-Welch) for text data-normalization audio data oh t in step S4. Then, in step S5, it is determined whether or not a predetermined number of repetitions has been reached.
In step S6, the HMM after the re-learning is set as the processing target HMM, and the process returns to step S2 again to execute the above processing. On the other hand, when the predetermined number of repetitions is reached (three in the preferred embodiment) in step S5, the HMM after the re-learning is stored in the memory as the speaker-normalized HMM 33 in step S7. Then, the speaker normalization processing ends.
【0031】次いで、MAP推定法を用いたMLLR法
の話者適応化処理について説明する。MLLR法は学習
用適応データに対して最尤を基準に平均ベクトルの推定
を行うため、初期モデルの事前知識を有効に利用した話
者適応化ではない。従って、話者正規化モデルが良い事
前知識を持っていても、十分に活用できない可能性があ
る。そこで、事前知識を有効に利用する方法であるMA
P推定法(例えば、従来技術文献2「C.H.Lee et al.,
“A Study on Speaker Adaptation of the Parameters
of Continuous Density Hidden Markov Models",IEEE T
ransactions onSignal Processing,Vol.39,No.4,pp.806
-814,1991年」参照。)をMLLR法に適用した手法
(以下、MAP−MLLR法という。また、MAP−M
LLR法による処理をMAP−MLLR処理という。)
によって話者適応を行なうことを以下のように発明し
た。ここで、MAP−MLLR法による話者適応化後の
ガウス分布kの平均ベクトルμhk MAPは下式で与えられ
る。Next, the speaker adaptation processing of the MLLR method using the MAP estimation method will be described. Since the MLLR method estimates the average vector for the learning adaptation data on the basis of the maximum likelihood, it is not speaker adaptation that effectively uses prior knowledge of the initial model. Therefore, even if the speaker normalization model has good prior knowledge, there is a possibility that it cannot be fully utilized. Therefore, MA, which is a method to effectively use prior knowledge,
P estimation method (for example, see Prior Art Document 2 “CHLee et al.,
“A Study on Speaker Adaptation of the Parameters
of Continuous Density Hidden Markov Models ", IEEE T
ransactions onSignal Processing, Vol.39, No.4, pp.806
-814, 1991. " ) Applied to the MLLR method (hereinafter referred to as the MAP-MLLR method.
Processing by the LLR method is called MAP-MLLR processing. )
We have invented the following speaker adaptation. Here, the average vector μh k MAP of the Gaussian distribution k after speaker adaptation by the MAP-MLLR method is given by the following equation.
【0032】[0032]
【数13】μhk MAP=Ac,k MAPμk+bc,k MAP Μh k MAP = A c, k MAP μ k + b c, k MAP
【数15】 (Equation 15)
【0033】ここで、Iはn×nの単位行列であり、τ
kは事前知識の確からしさに関する定数である。好まし
い実施例においては、τk=4.0に設定される。Here, I is an n × n unit matrix, and τ
k is a constant related to the certainty of prior knowledge. In the preferred embodiment, τ k = 4.0 is set.
【0034】MAP推定法による平均ベクトルの推定は
初期モデルに基づく平均ベクトル(事前知識)と最尤推
定による平均ベクトルとの線形結合になっている。図6
はMAP推定法を用いたMLLR法による平均ベクトル
の推定についての概念図である。図6における矢印の太
さは、ガウス分布において学習データが観測される期待
値の大きさを示している。図6の例のように、学習デー
タが観測される期待値が大きいガウス分布は、MLLR
法によって推定される平均ベクトル付近に推定される。
また反対に、観測される期待値が小さいガウス分布では
初期モデルに基づく平均ベクトル付近への推定となる。
このようにMAP推定法を導入することで、MLLR法
により話者適応化による平均ベクトル推定の信頼性を考
慮して、適切に事前知識の情報を用いる話者適応化が行
なわれる。ここで、本実施形態の方法は、すべての係数
を推定し、ガウス分布個々に変換係数を求める。このた
め、本実施形態の方法は、従来例に比較して精密な話者
適応を行なうことが可能である。The estimation of the average vector by the MAP estimation method is a linear combination of the average vector (prior knowledge) based on the initial model and the average vector based on the maximum likelihood estimation. FIG.
FIG. 3 is a conceptual diagram of estimation of an average vector by an MLLR method using a MAP estimation method. The thickness of the arrow in FIG. 6 indicates the magnitude of the expected value at which the learning data is observed in the Gaussian distribution. As in the example of FIG. 6, a Gaussian distribution having a large expected value at which learning data is observed is represented by the MLLR
It is estimated around the average vector estimated by the method.
Conversely, in the Gaussian distribution where the observed expected value is small, the value is estimated near the average vector based on the initial model.
By introducing the MAP estimation method in this manner, speaker adaptation using information of prior knowledge is appropriately performed in consideration of the reliability of average vector estimation by speaker adaptation by the MLLR method. Here, the method of the present embodiment estimates all coefficients and obtains transform coefficients for each Gaussian distribution. For this reason, the method of the present embodiment can perform speaker adaptation more precisely than the conventional example.
【0035】図3は、図1の話者適応化制御部21によ
って実行される話者適応化処理のフローチャートであ
り、図8はそのブロック図である。図3において、ステ
ップS11でまず、話者正規化されたHMM33と、話
者適応化する話者の音声データの特徴ベクトルを含む話
者適応化用学習データ34を読み出す。次いで、ステッ
プS12でMLLR法により数6乃至数11を用いて変
換係数Ac,bcを演算する。そして、ステップS13
で、MAP法により数14及び数15を用いて変換係数
Ac,k MAP,bc,k MAPを演算する。さらに、数13を用い
て線形変換処理を行って話者適応化されたHMM11を
得る。最後に、話者適応化されたHMM11をメモリに
記憶する。以上で、MAP−MLLR法による当該話者
適応化処理が終了する。FIG. 3 is a flowchart of the speaker adaptation process executed by the speaker adaptation control unit 21 of FIG. 1, and FIG. 8 is a block diagram thereof. In FIG. 3, first, in step S11, the speaker-normalized HMM 33 and the speaker adaptation learning data 34 including the feature vector of the speech data of the speaker to be speaker-adapted are read. Next, in step S12, the conversion coefficients A c and b c are calculated by the MLLR method using the equations 6 to 11. Then, step S13
Then, the conversion coefficients A c, k MAP and b c, k MAP are calculated by the MAP method using Expressions 14 and 15. Further, a linear transformation process is performed using Expression 13 to obtain a speaker-adapted HMM 11. Finally, the speaker-adapted HMM 11 is stored in the memory. Thus, the speaker adaptation processing by the MAP-MLLR method ends.
【0036】話者適応化されたHMM11は、音素照合
部4に接続され、HM網として複数の状態のネットワー
クとして表すこともできる。HMM11内の個々の状態
は、音声空間上の1つの確率的定常信号源と見なすこと
ができ、それぞれ以下の情報を保有している。(a)状
態番号、(b)受理可能なコンテキストクラス、(c)
先行する状態および後続する状態のリスト、(d)音声
の特徴空間上に割り当てられた確率分布のパラメータ、
(e)自己遷移確率および後続状態への遷移確率。話者
適応化されたHMM11では、入力データとそのコンテ
キスト情報が与えられた場合、そのコンテキストを受理
することができる状態を先行および後続状態リストの制
約内で連結することによって、入力データに対するモデ
ルを一意に決定することができる。ここで、出力確率密
度関数は34次元の対角共分散行列をもつ混合ガウス分
布(本明細書において、ガウス分布という。)であり、
各ガウス分布は、初期HMM31を用いて話者正規化制
御部20により話者正規化されかつ、話者正規化された
HMM33を用いて話者適応化制御部21により話者適
応化されている。なお、話者正規化されたHMM33を
音素照合部4に接続して音素検出に用いてもよい。The speaker-adapted HMM 11 is connected to the phoneme matching unit 4 and can be represented as an HM network as a network in a plurality of states. Each state in the HMM 11 can be regarded as one stochastic stationary signal source in the sound space, and each has the following information. (A) state number, (b) acceptable context class, (c)
A list of preceding and following states, (d) probability distribution parameters assigned on the speech feature space,
(E) Self transition probability and transition probability to the succeeding state. In the speaker-adaptive HMM 11, when input data and its context information are given, a model for the input data is connected by concatenating states capable of accepting the context within constraints of the preceding and succeeding state lists. It can be determined uniquely. Here, the output probability density function is a Gaussian mixture distribution having a 34-dimensional diagonal covariance matrix (hereinafter, referred to as a Gaussian distribution).
Each Gaussian distribution is speaker-normalized by the speaker normalization control unit 20 using the initial HMM 31, and is speaker-adapted by the speaker adaptation control unit 21 by using the speaker-normalized HMM 33. . Note that the speaker-normalized HMM 33 may be connected to the phoneme matching unit 4 and used for phoneme detection.
【0037】一般に連続分布型HMMによるモデルに対
して少量の適応データにより話者適応を行なう場合、ガ
ウス分布の平均値の適応は他のパラメータの適応に比べ
て効果が大きいことが知られている(例えば、従来技術
文献3「大倉計美ほか,“混合連続分布HMMを用いた
移動ベクトル場平滑化話者適応方式”,音響学会講演論
文集,2−Q−17,pp.191−192,1992
年3月」参照。)。本実施形態においては、各ガウス分
布の平均値のみの適応を行ない、分散値、状態遷移確率
及び、混合ガウス分布の重み係数の適応は行なわない。It is generally known that when speaker adaptation is performed on a model based on a continuous distribution type HMM with a small amount of adaptation data, adaptation of the average value of the Gaussian distribution is more effective than adaptation of other parameters. (For example, Prior Art Document 3, "Kumi Okura et al.," Moving vector field smoothing speaker adaptation method using mixed continuous distribution HMM ", Proc. Of the Acoustical Society of Japan, 2-Q-17, pp. 191-192, 1992
March ". ). In the present embodiment, only the average value of each Gaussian distribution is applied, and the variance, the state transition probability, and the weight coefficient of the mixed Gaussian distribution are not applied.
【0038】次いで、上述の本実施形態の話者正規化方
法及び話者適応化方法を用いた、SSS−LR(left-t
o-right rightmost型)不特定話者連続音声認識装置に
ついて説明する。この装置は、HMM11を含むHM網
のメモリに格納された音素環境依存型の効率のよいHM
Mの表現形式を用いている。また、上記SSSにおいて
は、音素の特徴空間上に割り当てられた確率的定常信号
源(状態)の間の確率的な遷移により音声パラメータの
時間的な推移を表現した確率モデルに対して、尤度最大
化の基準に基づいて個々の状態をコンテキスト方向又は
時間方向へ分割するという操作を繰り返すことによっ
て、モデルの精密化を逐次的に実行する。Next, an SSS-LR (left-t) using the above-described speaker normalization method and speaker adaptation method of the present embodiment.
An o-right rightmost type) speaker-independent continuous speech recognition device will be described. This device is a phoneme environment-dependent efficient HM stored in the memory of the HM network including the HMM 11.
M expression format is used. In the SSS, the likelihood of a stochastic model expressing a temporal transition of a speech parameter by a stochastic transition between stochastic stationary signal sources (states) assigned to a feature space of a phoneme is calculated. The refinement of the model is performed sequentially by repeating the operation of dividing each state in the context direction or the time direction based on the criterion of maximization.
【0039】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。In FIG. 1, a speaker's uttered voice is input to a microphone 1 and converted into a voice signal, and then input to a feature extracting unit 2. After performing A / D conversion on the input audio signal, the feature extraction unit 2 performs, for example, LPC analysis, and performs 34-dimensional feature parameters including logarithmic power, 16th-order cepstrum coefficient, Δlogarithmic power, and 16th-order Δcepstrum coefficient. Is extracted. The time series of the extracted feature parameters is input to the phoneme matching unit 4 via the buffer memory 3.
【0040】音素照合部4は、音素コンテキスト依存型
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、話者適応化されたHMM11のメ
モリに格納された音素HMMの話者モデルを用いて音素
照合区間内のデータに対する尤度が計算され、この尤度
の値が音素照合スコアとしてLRパーザ5に返される。
このとき、前向きパスアルゴリズムを使用する。The phoneme matching unit 4 executes a phoneme matching process in response to a phoneme matching request from the phoneme context-dependent LR parser 5. Then, the likelihood for the data in the phoneme matching section is calculated using the speaker model of the phoneme HMM stored in the memory of the speaker-adapted HMM 11, and the value of the likelihood is used as the phoneme matching score in the LR parser 5. Is returned to
At this time, a forward path algorithm is used.
【0041】一方、文脈自由文法データベース13内の
所定の文脈自由文法(CFG)を公知の通り自動的に変
換してLRテーブル12を作成してそのメモリに格納さ
れる。LRパーザ5は、上記LRテーブル12を参照し
て、入力された音素予測データについて左から右方向
に、後戻りなしに処理する。構文的にあいまいさがある
場合は、スタックを分割してすべての候補の解析が平行
して処理される。LRパーザ5は、上記LRテーブル1
2から次にくる音素を予測して音素予測データを音素照
合部4に出力する。これに応答して、音素照合部4は、
その音素に対応するHMM11内の情報を参照して照合
し、その尤度を音声認識スコアとしてLRパーザ5に戻
し、順次音素を連接していくことにより、連続音声の認
識を行う。上記連続音声の認識において、複数の音素が
予測された場合は、これらすべての存在をチェックし、
ビームサーチの方法により、部分的な音声認識の尤度の
高い部分木を残すという枝刈りを行って高速処理を実現
する。On the other hand, a predetermined context-free grammar (CFG) in the context-free grammar database 13 is automatically converted, as is well known, to create an LR table 12, which is stored in its memory. The LR parser 5 refers to the LR table 12 and processes the input phoneme prediction data from left to right without regression. If there is syntactic ambiguity, the stack is split and the analysis of all candidates is processed in parallel. The LR parser 5 uses the LR table 1
It predicts the next phoneme from 2 and outputs phoneme prediction data to the phoneme matching unit 4. In response, the phoneme matching unit 4
The matching is performed with reference to the information in the HMM 11 corresponding to the phoneme, the likelihood is returned to the LR parser 5 as a voice recognition score, and the continuous voice recognition is performed by sequentially connecting the phonemes. If multiple phonemes are predicted in the above continuous speech recognition, check for the presence of all of them,
By the beam search method, high-speed processing is realized by performing pruning to leave a partial tree having a high likelihood of partial speech recognition.
【0042】[0042]
【実施例】本発明者は、以上のように構成された音声認
識装置について、評価実験を以下の如く行った。評価実
験として26音素を対象とした言語制約を用いない音素
タイプライター型の音素認識実験を行なった。表1に音
響分析条件、使用した音声データを示す。DESCRIPTION OF THE PREFERRED EMBODIMENTS The present inventor conducted an evaluation experiment on a speech recognition apparatus having the above-described configuration as follows. As an evaluation experiment, a phoneme typewriter-type phoneme recognition experiment for 26 phonemes without using language constraints was performed. Table 1 shows the acoustic analysis conditions and the audio data used.
【0043】[0043]
【表1】 実験条件 ─────────────────────────────────── 分析条件 サンプリング周波数12KHz 20msハミング窓 フレーム周期5ms ─────────────────────────────────── 使用パラメータ 16次LPCケプストラム+16次Δケプストラム +logパワー+Δlogパワー ─────────────────────────────────── 学習データ 男性146名、女性139名から選択した 男性9名、女性6名(各50文章) ─────────────────────────────────── 適応/認識データ 話者 男性3名(MAU,MMY,MTM) 女性3名(FAF,FMS,FYM) 適応データ 598文節(SB1,SB2,SB4タスク)から ランダムに取り出したn個の文節 認識データ 279文節(SB3タスク) ───────────────────────────────────[Table 1] Experimental conditions ─────────────────────────────────── Analysis conditions Sampling frequency 12 kHz 20 ms Hamming window Frame Period 5 ms 使用 Parameter used 16th order LPC cepstrum + 16th order cepstrum + log power + Δlog Power ─────────────────────────────────── Learning data 9 men selected from 146 men and 139 women Name, 6 women (50 sentences each) 適 応 Adaptation / recognition data Person 3 men (MAU, MMY, MTM) 3 women (FAF, FMS, FYM) Adaptation data 598 clauses (SB1 , Clauses SB2, SB4 tasks) n clauses randomly extracted from the recognition data 279 clauses (SB3 task) ─────────────────────────── ────────
【0044】適応前の音響モデルの状態の共有構造(H
M網)は、男性話者1名の単語発声を用い、逐次状態分
割法(例えば、従来技術文献4「J.Takami et al.,A Su
ccessive State Splitting Algorithm for Efficient A
llophone Modeling",Proceedings of CASSP'92,pp.573-
576,1992年」参照。)によって決定した。状態数は20
0とし(各5混合)、1状態(10混合)の無音モデル
を付加したモデルを使用した。話者正規化、及び話者適
応に用いるMLLR法の共有化クラスの数は1とした。
すなわち全てのガウス分布を共有化して変換係数の推定
を行う。The shared structure of the state of the acoustic model before adaptation (H
The M network uses the word utterance of one male speaker and uses the sequential state division method (for example, the prior art document 4 “J. Takami et al., A Su
ccessive State Splitting Algorithm for Efficient A
llophone Modeling ", Proceedings of CASSP'92, pp.573-
576, 1992 ". ). 20 states
A model to which a silence model of 1 state (5 mixtures) and 1 state (10 mixtures) was added was used. The number of shared classes of the MLLR method used for speaker normalization and speaker adaptation was set to one.
That is, all the Gaussian distributions are shared, and the transform coefficients are estimated.
【0045】話者正規化モデル、及び比較のための従来
例のSI−HMMモデルの作成は、15話者の音声デー
タを用い、バーム・ウエルチ(Baum−Welch)
アルゴリズムで学習を行なった。この15話者は285
人のモデルから代表となる話者としてクラスタリング法
(例えば、従来技術文献5「T.Kosaka et al.,“Tree-S
tructured Speaker Clustering For Fast Speaker Adap
tation",Proceedingsof ICASSP'94,pp.245-248,1994
年」参照。)により選択した。上述のステップS5にお
ける話者正規化処理の繰り返し回数は3回とした。さら
に、話者適応化処理においては、MAP推定法の事前知
識の確からしさに関する定数τkは全てのガウス分布で
同一の値とし、実験的定めた4.0を用いた。図3及び
図8に示されている手順で教師あり話者適応を行ない、
各適応文節数に対して選択文節を変えた評価をそれぞれ
3回繰り返した平均の音素認識率を求めた。A speaker normalization model and a conventional SI-HMM model for comparison are prepared using speech data of 15 speakers, and are created by Baum-Welch.
Learning was performed with the algorithm. These 15 speakers are 285
As a representative speaker from a human model, a clustering method (for example, see Prior Art Document 5 “T.Kosaka et al.,“ Tree-S
tructured Speaker Clustering For Fast Speaker Adap
tation ", Proceedingsof ICASSP'94, pp.245-248,1994
See year. ). The number of repetitions of the speaker normalization process in step S5 is three. Further, in the speaker adaptation processing, the constant τ k relating to the certainty of the prior knowledge of the MAP estimation method was set to the same value in all Gaussian distributions, and an experimentally determined value of 4.0 was used. Supervised speaker adaptation is performed according to the procedures shown in FIGS.
The average phoneme recognition rate was obtained by repeating the evaluation in which the selected phrase was changed for each number of adaptive phrases three times.
【0046】まず、話者正規化による識別性能向上を確
かめるために、話者正規化HMM33を用い、適応処理
なしで音素認識実験を行なった。表2に結果を示す。比
較として従来例のSI−HMMモデルの認識結果も合わ
せて記述している。First, in order to confirm the improvement of the discrimination performance by the speaker normalization, a phoneme recognition experiment was performed using the speaker normalized HMM 33 without any adaptive processing. Table 2 shows the results. For comparison, the recognition result of the conventional SI-HMM model is also described.
【0047】[0047]
【表2】話者正規化されたHMMを用いた音声認識結果 音素誤り率(%) 上段:話者正規化モデル、下段:不特定話者モデル ─────────────────────────────────── MAU MMY MTM FAF FMS FYM 平 均 ─────────────────────────────────── 15.2 15.2 12.0 20.2 18.4 29.5 18.4 15.5 17.0 13.3 21.9 25.2 33.4 21.1 ───────────────────────────────────[Table 2] Speech recognition results using speaker-normalized HMM Phoneme error rate (%) Upper: Speaker normalized model, Lower: Unspecified speaker model ─────────────────────── MAU MMY MTM FAF FMS FYM average ─────────────────── 15 15.2 15.2 12.0 20.2 18.4 29.5 18.4 15.5 17.0 13.3 21.9 25 .2 33.4 21.1}
【0048】表2から明らかなように、評価話者6名全
てにおいて話者正規化モデルの認識率が高く、平均音素
誤り率が21.1%から18.4%に減少(12.8%
の誤り削減率)した。特に、従来例のSI−HMMモデ
ルでの認識率が低い話者(FMS,FYM)における改
善効果が大きい。話者正規化により、ガウス分布の分散
が小さくなり、認識単位間の識別が明確となり性能が向
上した結果と考えられる。As is clear from Table 2, the recognition rate of the speaker-normalized model is high in all six evaluation speakers, and the average phoneme error rate decreases from 21.1% to 18.4% (12.8%).
Error reduction rate). In particular, the improvement effect is large for speakers (FMS, FYM) with a low recognition rate in the conventional SI-HMM model. It is considered that the speaker normalization reduces the variance of the Gaussian distribution, clarifies the discrimination between recognition units, and improves the performance.
【0049】次いで、表3に初期モデルとして話者正規
化されたHMM33を用いた場合と、従来例のSI−H
MMモデルを用いた場合のMAP−MLLR法による話
者適応の認識結果を示す。Next, Table 3 shows the case where the speaker-normalized HMM 33 is used as the initial model and the conventional SI-H
4 shows recognition results of speaker adaptation by the MAP-MLLR method when the MM model is used.
【0050】[0050]
【表3】話者適応化されたHMMを用いた音声認識結果 音素誤り率(%) 上段:話者正規化モデル、下段:不特定話者モデル ────────────────────────────── 話者 適応文節数 3 5 7 10 20 ────────────────────────────── MAU 15.8 15.0 14.9 15.2 13.7 16.4 15.7 14.9 15.3 14.3 ────────────────────────────── MMY 15.3 14.6 14.4 14.2 13.6 17.3 16.0 16.0 15.3 14.6 ────────────────────────────── MTM 11.8 11.8 11.0 10.9 9.9 13.3 13.2 12.8 12.3 10.6 ────────────────────────────── FAF 19.0 16.8 15.6 14.9 14.1 21.8 19.8 18.5 16.5 15.1 ────────────────────────────── FMS 19.5 18.5 17.7 16.6 13.9 26.3 23.9 22.4 20.0 15.6 ────────────────────────────── FYM 26.6 23.9 23.2 21.4 19.4 29.6 24.0 25.4 24.2 19.6 ────────────────────────────── 平 均 18.0 16.8 16.1 15.6 14.1 20.8 18.8 18.3 17.2 14.9 ──────────────────────────────[Table 3] Speech recognition result using speaker-adapted HMM Phoneme error rate (%) Upper: Speaker normalized model, Lower: Unspecified speaker model {Speaker adaptation number of clauses 3 5 7 10 20} {MAU 15.8 15.0 14.9 15.2 13.7 16.4 15.7 14.9 15.3 14.3} MM MMY 15.3 14.6 14.4 14.2 13.6 17.3 16.0 16.0 15.3 14.6 M MTM 11.8 11.8 11.0 10.9 9.9 13.3 13 .2 12.8 12.3 10.6 ───────────────────────────── FAF 19.0 16.8 15.6 14.9 14.1 21.8 19. 8 18.5 16.5 15.1 FMS 19.5 18.5 17.7 16.6 13.9 26.3 23.9 22.4 20.0 15.6 {FYM 26.6 23.9 23.2 21.4 19.4 29.6 24.0 25.4 24.2 19.6} {Average 18.0 16.8 16.1 15.6 14.1 20.8 18.8 18.3 17.2 14.9} ──────────────────── ───
【0051】表3から明らかなように、全ての話者、文
節数において、話者正規化されたHMM33を初期モデ
ルとした話者適応が高い認識率を示している。話者正規
化モデルは、話者適応に適した事前知識を有する初期モ
デルであり、正確な話者適応を実現している。As is apparent from Table 3, the speaker adaptation using the speaker-normalized HMM 33 as the initial model shows a high recognition rate for all speakers and the number of phrases. The speaker normalization model is an initial model having prior knowledge suitable for speaker adaptation, and realizes accurate speaker adaptation.
【0052】以上説明したように、本実施形態によれ
ば、重回帰写像モデルを用い、話者正規化モデルを作成
する方法を発明した。この話者正規化方法によって作成
した音響モデル33は、従来例のSI−HMMモデルよ
りも音素認識で高い性能が得られた。また、話者正規化
されたHMM33を初期モデルとし、MAP−MLLR
法によって話者適応化を行なった場合においても、初期
モデルの事前知識が反映され、正確な話者適応が実現で
きた。また、学習用適用データが少量であっても、話者
正規化又は話者適応化されたHMMのパラメータの推定
精度を従来例に比較して大幅に改善することができる。As described above, according to the present embodiment, a method for creating a speaker normalization model using a multiple regression mapping model has been invented. The acoustic model 33 created by this speaker normalization method obtained higher performance in phoneme recognition than the conventional SI-HMM model. Also, the speaker-normalized HMM 33 is used as an initial model, and MAP-MLLR
Even when speaker adaptation was performed by the method, the prior knowledge of the initial model was reflected and accurate speaker adaptation was realized. Further, even when the amount of training application data is small, the accuracy of estimating the parameters of the speaker-normalized or speaker-adapted HMM can be greatly improved as compared with the conventional example.
【0053】[0053]
【発明の効果】以上詳述したように、本発明に係る請求
項1記載の話者正規化装置によれば、所定の隠れマルコ
フモデルの初期モデルを学習するための学習データであ
り、複数の話者にそれぞれ依存する音声データの特徴ベ
クトルを記憶する記憶装置と、上記記憶装置に記憶され
た音声データの特徴ベクトルに基づいて、上記隠れマル
コフモデルの初期モデルに対して、最尤線形回帰法によ
り、重回帰写像モデルに基づく平均ベクトルの変換のた
めの変換行列と、スペクトルに共通する個人差を表す定
数項ベクトルとを含む第1の変換係数を上記各話者毎に
演算する第1の演算手段と、上記記憶装置に記憶された
音声データの特徴ベクトルから上記各話者毎に、上記第
1の演算手段によって演算された定数項ベクトルを減算
して正規化された音声データの特徴ベクトルを演算する
第2の演算手段と、上記第2の演算手段によって演算さ
れた正規化された音声データの特徴ベクトルに基づい
て、上記隠れマルコフモデルの初期モデルを、所定の学
習アルゴリズムを用いて学習することにより、話者正規
化された隠れマルコフモデルのモデルパラメータを演算
する第3の演算手段とを備える。従って、当該話者正規
化装置によって、隠れマルコフモデルのパラメータの推
定精度を従来例に比較して大幅に改善することができ、
当該話者正規化装置によって得られた、話者正規化され
た隠れマルコフモデルを用いて音声認識することによ
り、従来例に比較して高い音声認識率で音声認識するこ
とができる。As described above in detail, according to the speaker normalizing apparatus of the first aspect of the present invention, the learning data for learning the initial model of a predetermined hidden Markov model is a plurality of learning data. A storage device for storing a feature vector of voice data depending on a speaker, and a maximum likelihood linear regression method for an initial model of the hidden Markov model based on the feature vector of the voice data stored in the storage device. A first conversion coefficient including a conversion matrix for converting the average vector based on the multiple regression mapping model and a constant term vector representing an individual difference common to the spectrum is calculated for each speaker. The constant vector obtained by subtracting the constant term vector calculated by the first calculating means for each speaker from the calculating means and the feature vector of the voice data stored in the storage device is normalized. A second calculating means for calculating a feature vector of the voice data, and an initial model of the hidden Markov model based on a normalized feature vector of the voice data calculated by the second calculating means, the predetermined model A third calculating means for calculating model parameters of the speaker-normalized hidden Markov model by learning using an algorithm. Therefore, the estimation accuracy of the parameters of the Hidden Markov Model can be greatly improved by the speaker normalization device as compared with the conventional example.
By performing speech recognition using the speaker-normalized hidden Markov model obtained by the speaker normalization device, speech recognition can be performed at a higher speech recognition rate than in the related art.
【0054】また、本発明に係る請求項2記載の話者適
応化装置によれば、話者適応化する話者の音声データの
特徴ベクトルに基づいて、請求項1記載の話者正規化装
置の第3の演算手段によって演算された隠れマルコフモ
デルに対して、最尤線形回帰法により、重回帰写像モデ
ルに基づく平均ベクトルの変換のための変換行列と定数
項ベクトルを含む第2の変換係数を演算する第4の演算
手段と、上記第4の演算手段によって演算された変換行
列と定数項ベクトルを含む第2の変換係数に基づいて、
最大事後確率推定法により、話者適応化された重回帰写
像モデルに基づく平均ベクトルの変換のための変換行列
と定数項ベクトルを含む第3の変換係数を演算する第5
の演算手段と、上記第5の演算手段によって演算された
変換行列と定数項ベクトルを含む第3の変換係数に対し
て、所定の線形変換処理を実行することにより、話者適
応化後の隠れマルコフモデルの平均ベクトルを演算する
第6の演算手段とを備える。従って、当該話者適応化装
置によって、話者適応化のパラメータの推定精度を従来
例に比較して大幅に改善することができ、当該話者適応
化装置によって得られた、話者適応化された隠れマルコ
フモデルを用いて音声認識することにより、従来例に比
較して高い音声認識率で音声認識することができる。According to the speaker adapting apparatus according to the second aspect of the present invention, the speaker normalizing apparatus according to the first aspect is based on the feature vector of the voice data of the speaker to be speaker-adapted. A second transformation coefficient including a transformation matrix for transforming an average vector based on a multiple regression mapping model and a constant term vector by a maximum likelihood linear regression method on the hidden Markov model calculated by the third calculation means. And a second conversion coefficient including a conversion matrix and a constant term vector calculated by the fourth calculation means,
A fifth transformation coefficient including a transformation matrix for transforming an average vector based on a speaker-adapted multiple regression mapping model and a constant term vector is calculated by a maximum posterior probability estimation method.
By performing a predetermined linear transformation process on the third transformation coefficient including the transformation matrix and the constant term vector computed by the fifth computing means, the hidden matrix after speaker adaptation is obtained. A sixth calculating means for calculating an average vector of the Markov model. Therefore, the estimation accuracy of the parameters of the speaker adaptation can be greatly improved by the speaker adaptation device as compared with the conventional example, and the speaker adaptation obtained by the speaker adaptation device can be improved. By performing voice recognition using the hidden Markov model, voice recognition can be performed with a higher voice recognition rate than the conventional example.
【0055】さらに、請求項3記載の音声認識装置によ
れば、請求項1記載の話者正規化装置の第3の演算手段
によって演算された隠れマルコフモデルを用いて、入力
された発声音声文の音声信号に基づいて、音声認識して
音声認識結果を出力する音声認識手段とを備える。従っ
て、上記話者正規化装置によって得られた、話者正規化
された隠れマルコフモデルを用いて音声認識することに
より、従来例に比較して高い音声認識率で音声認識する
ことができる。According to a third aspect of the present invention, an input uttered voice sentence is obtained by using the hidden Markov model calculated by the third calculating means of the speaker normalizing device according to the first aspect. Voice recognition means for performing voice recognition on the basis of the voice signal and outputting a voice recognition result. Therefore, by performing the speech recognition using the speaker-normalized hidden Markov model obtained by the above-described speaker normalization apparatus, speech recognition can be performed at a higher speech recognition rate than the conventional example.
【0056】さらに、請求項4記載の音声認識装置によ
れば、請求項2記載の話者適応化装置の第6の演算手段
によって演算された隠れマルコフモデルの平均ベクトル
を含む隠れマルコフモデルを用いて、入力された発声音
声文の音声信号に基づいて、音声認識して音声認識結果
を出力する音声認識手段とを備える。従って、上記話者
適応化装置によって得られた、話者適応化された隠れマ
ルコフモデルを用いて音声認識することにより、従来例
に比較して高い音声認識率で音声認識することができ
る。Further, according to the speech recognition apparatus of the fourth aspect, the hidden Markov model including the average vector of the hidden Markov model calculated by the sixth calculation means of the speaker adaptation apparatus of the second aspect is used. Voice recognition means for performing voice recognition based on the voice signal of the input uttered voice sentence and outputting a voice recognition result. Therefore, by performing speech recognition using the speaker-adapted hidden Markov model obtained by the speaker adaptation apparatus, speech recognition can be performed at a higher speech recognition rate than the conventional example.
【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention.
【図2】 図1の話者正規化制御部によって実行される
話者正規化処理を示すフローチャートである。FIG. 2 is a flowchart illustrating a speaker normalization process performed by a speaker normalization control unit in FIG. 1;
【図3】 図1の話者適応化制御部によって実行される
話者適応化処理を示すフローチャートである。FIG. 3 is a flowchart illustrating a speaker adaptation process performed by a speaker adaptation control unit in FIG. 1;
【図4】 図1の話者正規化制御部によって実行される
MLLR処理を示す図である。FIG. 4 is a diagram illustrating an MLLR process executed by a speaker normalization control unit in FIG. 1;
【図5】 図1の話者正規化制御部によって実行される
話者正規化処理を示す図である。FIG. 5 is a diagram illustrating a speaker normalization process performed by a speaker normalization control unit in FIG. 1;
【図6】 図1の話者適応化制御部によって実行される
話者適応化処理を示す図である。FIG. 6 is a diagram illustrating a speaker adaptation process performed by a speaker adaptation control unit in FIG. 1;
【図7】 図1の話者正規化制御部によって実行される
話者正規化処理を示すブロック図である。FIG. 7 is a block diagram illustrating a speaker normalization process performed by a speaker normalization control unit in FIG. 1;
【図8】 図1の話者適応化制御部によって実行される
話者適応化処理を示すブロック図である。FIG. 8 is a block diagram illustrating a speaker adaptation process performed by the speaker adaptation control unit in FIG. 1;
【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11…話者適応化されたHMM、 12…LRテーブル、 13…文脈自由文法データベース、 20…話者正規化制御部、 21…話者適応化制御部、 31…初期HMM、 32−1乃至32−M…話者1乃至Mの音声データ、 33…話者正規化されたHMM、 34…話者適応用学習データ。[Description of Signs] 1 ... Microphone, 2 ... Feature extraction unit, 3 ... Buffer memory, 4 ... Phoneme collation unit, 5 ... LR parser, 11 ... HMM with speaker adaptation, 12 ... LR table, 13 ... Context free Grammar database, 20: speaker normalization control unit, 21: speaker adaptation control unit, 31: initial HMM, 32-1 to 32-M: voice data of speakers 1 to M, 33: speaker normalized HMM, 34... Learning data for speaker adaptation.
フロントページの続き (56)参考文献 日本音響学会平成8年度秋季研究発表 会講演論文集▲I▼ 3−3−17「重回 帰モデルに基づく話者適応方式の検討」 p.119−120(平成8年9月25日) Proceedings of 1995 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1”Speaker Ad aptation based on Spectral Normal iz ation and Dynamic HMM Parameter adap taion”p.704−707 日本音響学会平成9年度春季研究発表 会講演論文集▲I▼ 2−6−16「重回 帰モデルを用いた話者適応のための話者 正規化方式」p.75−76(平成9年3月 17日) 日本音響学会平成7年度秋季研究発表 会講演論文集▲I▼ 3−2−9「状態 別話者クラスタリングを用いた不特定話 者モデルの検討」p.123−124(平成7 年9月) 日本音響学会平成7年度春季研究発表 会講演論文集▲I▼ 2−5−6「MA P−VFS話者適応法における平滑化係 数制御の効果」p.41−42(平成7年3 月) 電子情報通信学会技術研究報告[音声 ]Vol.94 No.271 SP94−51 「最大事後確率推定法と移動ベクトル場 平滑法を統合した話者適応方式」p.25 −30(1994/10/13) 日本音響学会平成8年度春季研究発表 会講演論文集▲I▼ 1−5−22「制限 付き重回帰モデルによる話者適応の検 討」p.51−52(平成8年3月26日発 行) Proceedings of 1996 IEEE Internationa l Conference on Sp oken Language Proc essing,”Novel Trai ning Method for Cl assifiers used in Speaker Adaptatio n”,p.2119−2122,1996 Proceedings of 1996 IEEE Internationa l Conference on Sp oken Language Proc essing,”Compact Mo del for Speaker−Ad aptive Training”, p.1137−1140,1996 Proceedings of 1996 IEEE Internationa l Conference on Ac oustics,Speech and Signal Procesing Vol.2,”Normalized Discriminant Analy sis with Applicati on to a Hybrid Spe aker−Verification System”p.681−684 Proceedings of 1996 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processing Vol.1,”Speaker Ba ckground Models fo r Connected Digit Password Speker Ve rification”p.81−84 Proceedings of 1981 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processing Vol.1/3,”Speaker Identification and Verification Comb ined with Speaker Independent Word R ecognition”p.184−187 Proceedings of 1997 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processing Vol.2,”Speaker−Ad apted Training on the Switchboard Co rpus”p.1059−1062 Proceedings of 1997 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processing Vol.2,”Speaker−Ad aptive Training:A Maximum Likelihood Approach to Speak er Normalization" p.1043−1046 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 G10L 15/10 JICSTファイル(JOIS)Continuation of the front page (56) References Acoustical Society of Japan Autumn Research Conference 1996 Annual Meeting I-3-3-17 “Study of speaker adaptation method based on multiple regression model” p. 119-120 (September 25, 1996) Proceedings of 1995 IEEE International Conference on Acoustics, Speech and Signal Processing, Vol. 1 "Speaker Adoption based on Spectral Normalization and Dynamic HMM Parameter adaptation" p. 704-707 Proceedings of the Acoustical Society of Japan 1997 Spring Meeting, ▲ I ▼ 2-6-16, "Speaker normalization method for speaker adaptation using multiple regression models" p. 75-76 (March 17, 1997) Proceedings of the Fall Meeting of the Acoustical Society of Japan in 1995 (I) 3-2-9 “Examination of unspecified speaker model using state-based speaker clustering” p. 123-124 (September, 1995) Proceedings of the Acoustical Society of Japan Spring Meeting, 1995, I, 2-5-6, "Effect of smoothing coefficient control on MA P-VFS speaker adaptation method" p . 41-42 (March 1995) IEICE Technical Report [Voice] Vol. 94 No. 271 SP94-51 "Speaker adaptation method integrating maximum a posteriori probability estimation method and moving vector field smoothing method" p. 25-30 (October 13, 1994) Proceedings of the Acoustical Society of Japan Spring Meeting, 1996, I, 1-5-22, "Study on speaker adaptation using restricted multiple regression model" p. 51-52 (issued on March 26, 1996) Proceedings of 1996 IEEE International Conference on Spokane Language Processing, "Novell Training Technology Association for Associates Classification for Associates." 2119-2122, 1996 Proceedings of 1996 IEEE International Conference on Spokane Language Processing, "Compact Model for Speaker-Adaptive Training." 1137-1140, 1996 Proceedings of 1996 IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 2, "Normalized Discriminant Analysis with Application to a Hybrid Speed Maker-Verification System", p. 681-684 Processings of 1996 IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 1, "Speaker Backpack Model Models for Connected Digit Password Speaker Verification" p. 81-84 Proceedings of 1981 IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 1/3, "Speaker Identification and Verification Combined with Speaker Independent Word Recognition" p. 184-187 Proceedings of 1997 IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 2, "Speaker-Adapted Training on the Switchboard Corpus" p. 1059-1062 Proceedings of 1997 IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 2, "Speaker-Adactive Training: A Maximum Likelihood Approach to Speaker Normalization" p. 1043-1046 (58) Field surveyed (Int. Cl. 7 , DB name) G10L 15/14 G10L 15/06 G10L 15/10 JICST file (JOIS)
Claims (4)
を学習するための学習データであり、複数の話者にそれ
ぞれ依存する音声データの特徴ベクトルを記憶する記憶
装置と、 上記記憶装置に記憶された音声データの特徴ベクトルに
基づいて、上記隠れマルコフモデルの初期モデルに対し
て、最尤線形回帰法により、重回帰写像モデルに基づく
平均ベクトルの変換のための変換行列と、スペクトルに
共通する個人差を表す定数項ベクトルとを含む第1の変
換係数を上記各話者毎に演算する第1の演算手段と、 上記記憶装置に記憶された音声データの特徴ベクトルか
ら上記各話者毎に、上記第1の演算手段によって演算さ
れた定数項ベクトルを減算して正規化された音声データ
の特徴ベクトルを演算する第2の演算手段と、 上記第2の演算手段によって演算された正規化された音
声データの特徴ベクトルに基づいて、上記隠れマルコフ
モデルの初期モデルを、所定の学習アルゴリズムを用い
て学習することにより、話者正規化された隠れマルコフ
モデルのモデルパラメータを演算する第3の演算手段と
を備えたことを特徴とする話者正規化装置。1. A storage device for storing an initial model of a predetermined Hidden Markov Model, wherein the storage device stores a feature vector of voice data dependent on each of a plurality of speakers. Based on the feature vector of the voice data, the initial model of the Hidden Markov Model is subjected to the maximum likelihood linear regression method, using a transformation matrix for transforming the average vector based on the multiple regression mapping model, and individual differences common to the spectrum. A first calculating means for calculating, for each of the speakers, a first conversion coefficient including a constant term vector representing the following, and for each of the speakers from the feature vector of the voice data stored in the storage device: A second computing means for subtracting the constant term vector computed by the first computing means to compute a feature vector of the speech data normalized, and the second computing means By learning the initial model of the hidden Markov model using a predetermined learning algorithm based on the feature vector of the normalized speech data calculated by the above, model parameters of the speaker-normalized hidden Markov model And a third calculating means for calculating the following.
ベクトルに基づいて、請求項1記載の話者正規化装置の
第3の演算手段によって演算された隠れマルコフモデル
に対して、最尤線形回帰法により、重回帰写像モデルに
基づく平均ベクトルの変換のための変換行列と定数項ベ
クトルを含む第2の変換係数を演算する第4の演算手段
と、 上記第4の演算手段によって演算された変換行列と定数
項ベクトルを含む第2の変換係数に基づいて、最大事後
確率推定法により、話者適応化された重回帰写像モデル
に基づく平均ベクトルの変換のための変換行列と定数項
ベクトルを含む第3の変換係数を演算する第5の演算手
段と、 上記第5の演算手段によって演算された変換行列と定数
項ベクトルを含む第3の変換係数に対して、所定の線形
変換処理を実行することにより、話者適応化後の隠れマ
ルコフモデルの平均ベクトルを演算する第6の演算手段
とを備えたことを特徴とする話者適応化装置。2. A hidden Markov model calculated by the third calculating means of the speaker normalization apparatus according to claim 1, based on a feature vector of the voice data of the speaker to be speaker-adapted. Fourth arithmetic means for calculating a second conversion coefficient including a conversion matrix and a constant term vector for conversion of an average vector based on the multiple regression mapping model by a likelihood linear regression method; A transformation matrix and a constant term for transforming an average vector based on a speaker-adapted multiple regression mapping model by a maximum posterior probability estimation method based on the transformed transformation matrix and a second transformation coefficient including a constant term vector A fifth calculating means for calculating a third conversion coefficient including the vector, and a predetermined linear conversion processing for the third conversion coefficient including the conversion matrix and the constant term vector calculated by the fifth calculating means. The by executing speaker adaptation apparatus characterized by comprising a sixth calculating means for calculating an average vector of the hidden Markov model after speaker adaptation.
演算手段によって演算された隠れマルコフモデルを用い
て、入力された発声音声文の音声信号に基づいて、音声
認識して音声認識結果を出力する音声認識手段とを備え
たことを特徴とする音声認識装置。3. A speech recognition apparatus using the hidden Markov model computed by the third computation means of the speaker normalization apparatus according to claim 1, and performing speech recognition based on the speech signal of the input uttered speech sentence. And a voice recognition unit for outputting a recognition result.
演算手段によって演算された隠れマルコフモデルの平均
ベクトルを含む隠れマルコフモデルを用いて、入力され
た発声音声文の音声信号に基づいて、音声認識して音声
認識結果を出力する音声認識手段とを備えたことを特徴
とする音声認識装置。4. A speech signal of an input uttered speech sentence using a hidden Markov model including an average vector of a hidden Markov model computed by the sixth computing means of the speaker adaptation apparatus according to claim 2. And a voice recognition unit for performing voice recognition based on the voice recognition result and outputting a voice recognition result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9054596A JP3035239B2 (en) | 1997-03-10 | 1997-03-10 | Speaker normalization device, speaker adaptation device, and speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9054596A JP3035239B2 (en) | 1997-03-10 | 1997-03-10 | Speaker normalization device, speaker adaptation device, and speech recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254485A JPH10254485A (en) | 1998-09-25 |
JP3035239B2 true JP3035239B2 (en) | 2000-04-24 |
Family
ID=12975124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9054596A Expired - Fee Related JP3035239B2 (en) | 1997-03-10 | 1997-03-10 | Speaker normalization device, speaker adaptation device, and speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3035239B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088357B2 (en) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Unspecified speaker acoustic model generation device and speech recognition device |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366187A (en) * | 2001-06-08 | 2002-12-20 | Sony Corp | Device and method for recognizing voice, program and recording medium |
CN111462762B (en) * | 2020-03-25 | 2023-02-24 | 清华大学 | Speaker vector regularization method and device, electronic equipment and storage medium |
-
1997
- 1997-03-10 JP JP9054596A patent/JP3035239B2/en not_active Expired - Fee Related
Non-Patent Citations (14)
Title |
---|
Proceedings of 1981 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.1/3,"Speaker Identification and Verification Combined with Speaker Independent Word Recognition"p.184−187 |
Proceedings of 1995 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1"Speaker Adaptation based on Spectral Normal ization and Dynamic HMM Parameter adaptaion"p.704−707 |
Proceedings of 1996 IEEE International Conference on Acoustics,Speech and Signal Procesing Vol.2,"Normalized Discriminant Analysis with Application to a Hybrid Speaker−Verification System"p.681−684 |
Proceedings of 1996 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.1,"Speaker Background Models for Connected Digit Password Speker Verification"p.81−84 |
Proceedings of 1996 IEEE International Conference on Spoken Language Processing,"Compact Model for Speaker−Adaptive Training",p.1137−1140,1996 |
Proceedings of 1996 IEEE International Conference on Spoken Language Processing,"Novel Training Method for Classifiers used in Speaker Adaptation",p.2119−2122,1996 |
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.2,"Speaker−Adapted Training on the Switchboard Corpus"p.1059−1062 |
Proceedings of 1997 IEEE International Conference on Acoustics,Speech and Signal Processing Vol.2,"Speaker−Adaptive Training:A Maximum Likelihood Approach to Speaker Normalization"p.1043−1046 |
日本音響学会平成7年度春季研究発表会講演論文集▲I▼ 2−5−6「MAP−VFS話者適応法における平滑化係数制御の効果」p.41−42(平成7年3月) |
日本音響学会平成7年度秋季研究発表会講演論文集▲I▼ 3−2−9「状態別話者クラスタリングを用いた不特定話者モデルの検討」p.123−124(平成7年9月) |
日本音響学会平成8年度春季研究発表会講演論文集▲I▼ 1−5−22「制限付き重回帰モデルによる話者適応の検討」p.51−52(平成8年3月26日発行) |
日本音響学会平成8年度秋季研究発表会講演論文集▲I▼ 3−3−17「重回帰モデルに基づく話者適応方式の検討」p.119−120(平成8年9月25日) |
日本音響学会平成9年度春季研究発表会講演論文集▲I▼ 2−6−16「重回帰モデルを用いた話者適応のための話者正規化方式」p.75−76(平成9年3月17日) |
電子情報通信学会技術研究報告[音声]Vol.94 No.271 SP94−51「最大事後確率推定法と移動ベクトル場平滑法を統合した話者適応方式」p.25−30(1994/10/13) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088357B2 (en) | 1997-09-08 | 2000-09-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Unspecified speaker acoustic model generation device and speech recognition device |
Also Published As
Publication number | Publication date |
---|---|
JPH10254485A (en) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP2965537B2 (en) | Speaker clustering processing device and speech recognition device | |
JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
JP2986792B2 (en) | Speaker normalization processing device and speech recognition device | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
EP1701337B1 (en) | Method of speech recognition | |
EP2888669B1 (en) | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems | |
Kadyan et al. | A comparative study of deep neural network based Punjabi-ASR system | |
JP3088357B2 (en) | Unspecified speaker acoustic model generation device and speech recognition device | |
Robinson | The 1994 ABBOT hybrid connectionist-HMM large-vocabulary recognition system | |
JP3027544B2 (en) | Statistical language model generation device and speech recognition device | |
Cui et al. | Stereo hidden Markov modeling for noise robust speech recognition | |
JP3035239B2 (en) | Speaker normalization device, speaker adaptation device, and speech recognition device | |
JP2938866B1 (en) | Statistical language model generation device and speech recognition device | |
JP3088364B2 (en) | Spoken language understanding device and spoken language understanding system | |
JP2905674B2 (en) | Unspecified speaker continuous speech recognition method | |
JP2852210B2 (en) | Unspecified speaker model creation device and speech recognition device | |
US6275799B1 (en) | Reference pattern learning system | |
Young | Acoustic modelling for large vocabulary continuous speech recognition | |
Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition | |
JPH08110792A (en) | Speaker adaptation device and speech recognition device | |
JP2996925B2 (en) | Phoneme boundary detection device and speech recognition device | |
JP3029803B2 (en) | Word model generation device for speech recognition and speech recognition device | |
Kaur et al. | Speech based retrieval system for Punjabi language | |
JP2888781B2 (en) | Speaker adaptation device and speech recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090218 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100218 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110218 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120218 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130218 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 14 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |