JP3448371B2 - HMM learning device - Google Patents

HMM learning device

Info

Publication number
JP3448371B2
JP3448371B2 JP26395894A JP26395894A JP3448371B2 JP 3448371 B2 JP3448371 B2 JP 3448371B2 JP 26395894 A JP26395894 A JP 26395894A JP 26395894 A JP26395894 A JP 26395894A JP 3448371 B2 JP3448371 B2 JP 3448371B2
Authority
JP
Japan
Prior art keywords
speaker
vector
subspace
hmm
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26395894A
Other languages
Japanese (ja)
Other versions
JPH07306690A (en
Inventor
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP26395894A priority Critical patent/JP3448371B2/en
Publication of JPH07306690A publication Critical patent/JPH07306690A/en
Application granted granted Critical
Publication of JP3448371B2 publication Critical patent/JP3448371B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声の統計的特徴をガ
ウス分布等の分布により近似的に表現する確率モデルで
あるHidden Markov Model(以下、
HMMという。)の学習装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a Hidden Markov Model (hereinafter, referred to as a probabilistic model) which is a probabilistic model that approximately expresses statistical characteristics of speech by a distribution such as Gaussian distribution.
It is called HMM. ) Learning device.

【0002】 〔発明の詳細な説明〕[0002] [Detailed Description of the Invention]

【0003】[0003]

【従来の技術】近年、HMMを用いた音声認識装置の開
発が盛んに行われている。このHMMは大量の音声デー
タから得られる音声の統計的特徴をモデル化したもので
あり、このモデルは、(1)発声の揺らぎを分布という
形で統計的に処理できる、(2)話者による発声時間長
の違いを吸収できる、といった利点を備えている。
2. Description of the Related Art In recent years, a voice recognition device using an HMM has been actively developed. This HMM is a model of statistical characteristics of speech obtained from a large amount of speech data. This model can (1) statistically process fluctuations of utterance in the form of distribution, (2) depending on the speaker It has the advantage of being able to absorb differences in utterance duration.

【0004】これらの利点を備えた音素HMMを用いて
単語の音声認識を行なう場合を例に挙げて説明する。
A case will be described as an example where voice recognition of a word is performed using a phoneme HMM having these advantages.

【0005】一般的に、単語はそれより小さい単位、例
えば音素が繋ぎ合わさって成立しているように、音素単
位でHMMを作成しておくと、その音素HMMの連結に
より任意の単語に対する単語認識を行なうことができ
る。図4は音素HMMに基づいて単語認識を行なうため
の概念図である。
Generally, when an HMM is created in units of phonemes so that a word is formed by a unit smaller than that, for example, phonemes are connected, the word recognition for an arbitrary word is performed by connecting the phoneme HMMs. Can be done. FIG. 4 is a conceptual diagram for performing word recognition based on the phoneme HMM.

【0006】今、辞書に登録されている認識対象が「う
ちけす(U/CH/I/K/E/S/U)」、「うちあ
わせ(U/CH/I/A/W/A/S/E)」及び「う
る(U/R/U)」の3単語である場合、作成する必要
がある音素HMMは辞書中に出現する「U/CH/I/
K/E/S/A/W/R」の9種類のみでよいことが分
かる。
[0006] Now, the recognition targets registered in the dictionary are "Ukesu (U / CH / I / K / E / S / U)" and "Uchidake (U / CH / I / A / W / A / S / E) ”and“ Uru (U / R / U) ”are three words, the phoneme HMM that needs to be created is“ U / CH / I / ”that appears in the dictionary.
It is understood that only 9 types of "K / E / S / A / W / R" are sufficient.

【0007】したがって、単語認識に際しては、音素H
MMを連結することにより辞書内に存在する単語に対応
する単語HMMを作成し、入力音声(単語)と近いもの
を確率的尤度(確からしさ)として得ることができるよ
うな構成となっている。
Therefore, in word recognition, the phoneme H
The word HMM corresponding to the word existing in the dictionary is created by connecting the MMs, and the one close to the input speech (word) can be obtained as the stochastic likelihood (probability). .

【0008】このように、予め多数話者の音声情報を学
習して音素HMMを作成しておくことによって、入力音
声が単語の場合であっても認識することが可能であり、
以上がHMMについての概要である。
As described above, by learning the voice information of a large number of speakers and creating the phoneme HMM in advance, it is possible to recognize even when the input voice is a word,
The above is the outline of the HMM.

【0009】ところで、斯かるHMMは、一般的に数百
語の学習用単語等を用いて作成される。しかし、使用者
に数百語もの単語を発声させるのは、使用者の負担を考
えると現実的ではない。かかる点を回避するために少数
の学習単語を用いてHMMを使用者の音声特徴にチュー
ニングする方法として話者適応法があり、この話者適応
法が電子情報通信学会論文誌 D−2 Vol.J76
−D−2 No.121993年12月 2469乃至
2476頁に開示されている。
By the way, such an HMM is generally created by using several hundred words for learning. However, uttering hundreds of words by the user is not realistic considering the burden on the user. In order to avoid such a point, there is a speaker adaptation method as a method of tuning the HMM to a user's voice feature by using a small number of learning words, and this speaker adaptation method is based on the Institute of Electronics, Information and Communication Engineers D-2 Vol. J76
-D-2 No. 12 December 1993, pp. 2469-2476.

【0010】以下にそのHMMを用いた音声認識方法を
図5乃至図9を用いて以下に説明する。
A speech recognition method using the HMM will be described below with reference to FIGS. 5 to 9.

【0011】図5は入力音声“ば(b a)”、及び
“ぶ(b u)”の対数パワー(以下、単にパワーとい
う。)と時間との関係を表した音声パターンである。こ
の音声パターンは入力音声の音声帯域を、例えば16個
の帯域フィルタで分割し、音声の周波数分析を行なった
後、時間毎の対数パワーをとることによって得られるも
のである。この図5(b)をみると分かるように同じ音
素/b/の区間でも、パワー変化に違いがあり、音素/
b/の区間のパワー変化を見ると、/b/の最初の部分
のパワー変化は少なく、徐々に大きくなっていってお
り、そのパワー変化に着目すると、音素/b/を、 区間1;パワー変化は少ないが、揺らぎの多い部分、 区間2;パワーの立ち上がり部分、 区間3;パワーの急峻な立ち上がり部分、 のように、3区間に大きく分けることができる。
FIG. 5 is a voice pattern showing the relationship between the logarithmic power (hereinafter simply referred to as power) of the input voices "ba (ba)" and "bu (bu)" and time. This voice pattern is obtained by dividing the voice band of the input voice by, for example, 16 band filters, performing frequency analysis of the voice, and then taking logarithmic power for each time. As can be seen from FIG. 5 (b), there is a difference in power change even in the same phoneme / b / section,
Looking at the power change in the section b /, the power change in the first part of / b / is small and gradually increasing. Focusing on the power change, the phoneme / b / There are few changes, but there are many fluctuations: section 2; power rising portion; section 3; steep power rising portion;

【0012】一方、図6(a)は図5(b)の 音素/
b/の区間を区間1乃至区間3に分割した図である。ま
た、図6(b)は図6(a)の 音素/b/の区間1乃
至区間3に夫々対応して、パワー変化量をヒストグラム
で表したものをガウス分布によって近似したものであ
る。一般的にHMMでは、音声の特徴を斯かる分布1乃
至分布3のように表現するのである。例えば、16チャ
ネルの帯域フィルタ等で音声を分析した場合は、各々の
チャネルに対応して1つのガウス分布が求められる。こ
こで、斯かる16個のガウス分布を1つのコンポーネン
トと見做すことにより、このコンポーネントに含まれる
16個の各々のガウス分布の平均値をベクトルとして表
現でき、以下斯かるベクトルを平均ベクトルという。
On the other hand, FIG. 6A shows the phonemes of FIG.
It is the figure which divided the section of b / into the section 1 to the section 3. Further, FIG. 6B corresponds to the phoneme / b / sections 1 to 3 in FIG. 6A, respectively, and shows a histogram of the power change amount, which is approximated by a Gaussian distribution. Generally, in the HMM, the characteristics of the voice are expressed as such distributions 1 to 3. For example, when a voice is analyzed by a 16-channel bandpass filter or the like, one Gaussian distribution is obtained for each channel. Here, by considering these 16 Gaussian distributions as one component, the average value of each of the 16 Gaussian distributions included in this component can be expressed as a vector, and such a vector will be referred to as an average vector hereinafter. .

【0013】ところで、図7は従来のHMMの話者適応
に基づくHMMの学習装置、及びこの学習装置を用いた
音声認識装置の概略構成図である。
By the way, FIG. 7 is a schematic configuration diagram of a conventional HMM learning device based on speaker adaptation of the HMM, and a speech recognition device using this learning device.

【0014】図7において、1は入力音声の特徴を周波
数帯域毎に分析する音声分析部、2は学習することによ
りHMMの初期モデルを記憶する初期モデル記憶部であ
り、斯かる初期モデルは特定の話者の音声を用いて作成
した特定話者のHMMでも良いし、多数の話者音声を用
いて学習した不特定話者のHMMでも良い。具体的な学
習方法としては、周知のフォワードバックワードアルゴ
リズムやビタビアライメントに基づく学習則等を用いれ
ばよい。
In FIG. 7, reference numeral 1 is a voice analysis unit for analyzing the characteristics of the input voice for each frequency band, and 2 is an initial model storage unit for storing an initial model of the HMM by learning, and the initial model is specified. It may be an HMM of a specific speaker created by using the voices of the speakers, or an HMM of an unspecified speaker learned by using a large number of speaker voices. As a specific learning method, a well-known forward backward algorithm or a learning rule based on Viterbi alignment may be used.

【0015】3は、上述の初期モデルを入力音声を用い
て再学習する学習部であり、この学習部3では、HMM
を表すパラメータの内、平均ベクトルのみを学習するも
のとする。
A learning unit 3 re-learns the above-mentioned initial model by using an input voice.
It is assumed that only the average vector is learned from among the parameters expressing.

【0016】以下に、学習部3における平均ベクトルの
学習について説明する。
The learning of the average vector in the learning section 3 will be described below.

【0017】HMMの初期モデル中のコンポーネントの
平均ベクトルの組をCR(CR=(c 1 R,・・・,ck R,・・
・,cm R)、ここでmは全てのコンポーネントの個数を
表す。)とすると、この平均ベクトルの組CRは、学習
部3において音声分析部1により分析された分析結果を
用いて再学習され、再学習後の平均ベクトルCIが得ら
れる。ここで、CI=(c1 I,・・・,ck I・・・,cm I )で
ある。ここで、ck Rとc k Iは対応しているものとする。
つまり、ck Rは学習後にck Iになる。
Of the components in the initial model of the HMM
The set of average vectors is CR(CR= (C 1 R,,, ck R・ ・ ・
., Cm R), Where m is the number of all components
Represent ), This average vector set CRIs learning
The analysis result analyzed by the voice analysis unit 1 in the unit 3
Re-learned using the average vector C after re-learningIGot
Be done. Where CI= (C1 I,,, ck I..., cm I )so
is there. Where ck RAnd c k IShall correspond.
That is, ck RIs c after learningk Ibecome.

【0018】4は学習部3において再学習したHMMを
より高精度なモデルにするための話者適応部であり、こ
の話者適応部4は移動ベクトルの計算、及び学習されな
かった音素HMMに関する平均ベクトルcn Rに関する移
動ベクトルvnに対して内挿・補間処理をしたり、更に
は全ての移動ベクトルに対して平滑化処理を行ない、平
均ベクトルの適応化を行う部分である。
Reference numeral 4 denotes a speaker adaptation unit for making the HMM re-learned in the learning unit 3 into a more accurate model. This speaker adaptation unit 4 calculates the movement vector and relates to a phoneme HMM that has not been learned. This is a part that performs interpolation / interpolation processing on the moving vector v n related to the average vector c n R , and further performs smoothing processing on all the moving vectors to adapt the average vector.

【0019】5は話者適応部4にて適応化を行った後の
HMMを記憶しておく適応後モデル記憶部である。
Reference numeral 5 denotes a post-adaptation model storage unit for storing the HMM after the adaptation by the speaker adaptation unit 4.

【0020】上述が従来のHMMの学習装置の構成であ
り、ここでは話者適応部4での処理について説明する。 (A)移動ベクトルvkの計算 初期モデルCRと再学習後のCI中の各コンポーネントの
平均ベクトルの差分を次式に従い求める。以降、これを
移動ベクトルトという。
The above is the configuration of the conventional HMM learning apparatus, and the processing in the speaker adaptation unit 4 will be described here. (A) Calculation of movement vector v k The difference between the initial model C R and the average vector of each component in C I after re-learning is calculated according to the following equation. Hereinafter, this is called a movement vector.

【0021】 vk=ck I−ck R (但し、k=1,2,・・・・・,m) (B)移動ベクトルvnの内挿・補間処理 図8(a)は、初期モデルの平均ベクトル(c1 R
2 R,c3 R)が再学習され、この再学習後に平均ベクト
ル(c1 I,c2 I,c3 I)となったことを示している図で
ある。また、平均ベクトルcn Rは、学習音声中にcn R
関する音素が存在しなかった為に、学習されなかったこ
とを表している。図中の(v1,v2,v3)は、学習で
きたコンポーネントから求められた移動ベクトルであ
る。
V k = c k I −c k R (where k = 1, 2, ..., M ) (B) Interpolation / interpolation processing of the movement vector v n FIG. The mean vector of the initial model (c 1 R ,
c 2 R , c 3 R ) is re-learned, and after this re-learning, it becomes a mean vector (c 1 I , c 2 I , c 3 I ). Further, the average vector c n R represents that learning has not been performed because there is no phoneme related to c n R in the learned speech. (V 1 , v 2 , v 3 ) in the figure are movement vectors obtained from the learned components.

【0022】ここで、移動ベクトルの内挿・補間処理と
は、学習されなかった平均ベクトルcn Rに関する移動ベ
クトルvnを図8(b)のように求めるものである。
Here, the movement vector interpolation / interpolation processing is to obtain the movement vector v n related to the unlearned average vector c n R as shown in FIG. 8B.

【0023】図8(b)は、移動ベクトルvnを算出す
るための概念図であり、この移動ベクトルvnは移動ベ
クトルv1,v2,及びv3に基づいて内挿することによ
って算出され、移動ベクトルvnは移動ベクトルv1,v
2,及びv3の重み付き平均で表すことができる。 (C)移動ベクトルの平滑化処理 図9は上述の(B)移動ベクトルvnの内挿・補間処理
の後に行なう移動ベクトルの平滑化処理についての概念
図である。
FIG. 8B is a conceptual diagram for calculating the movement vector v n . This movement vector v n is calculated by interpolating based on the movement vectors v 1 , v 2 and v 3. And the movement vector v n is the movement vector v 1 , v
It can be represented by a weighted average of 2 and v 3 . (C) Movement Vector Smoothing Process FIG. 9 is a conceptual diagram of (B) movement vector smoothing process performed after the interpolation / interpolation process of the movement vector v n .

【0024】上述の如く、推定算出された移動ベクトル
は、十分な語数によって学習が行われていない場合に
は、多量の推定誤差を含んでいると考えられる。従っ
て、このような推定誤差を含むものから算出された移動
ベクトルの方向は非連続的な動きをしていると考えられ
る。ここでいう非連続的な動きとは、図9において、移
動ベクトルv1,v2,及びv3は共に略同方向を向いて
いるが、vkは斯かる3つの移動ベクトルとは違う方向
を向いていることをいう。
As described above, the estimated and calculated movement vector is considered to include a large amount of estimation error when the learning is not performed with a sufficient number of words. Therefore, it is considered that the direction of the movement vector calculated from the one including such an estimation error has a discontinuous movement. In FIG. 9, the discontinuous movements here mean that the movement vectors v 1 , v 2 , and v 3 are all in substantially the same direction, but v k is a direction different from those three movement vectors. That is facing.

【0025】そこで、平均ベクトルck Rとその近傍にあ
る平均ベクトルに関する移動ベクトルv1,v2,及びv
3に基づいて、修正を加えることによって、平滑化移動
ベクトルvk Sが算出される。つまり、移動ベクトルvk
は移動ベクトルv1,v2,及びv3の影響を受けて左方
向に若干修正される。この修正処理を平滑化処理とい
う。 (D)平均ベクトル適応化処理 上述の(C)で求められた平滑化移動ベクトルvk S、及
び平均ベクトルCk Rを用いて次式に従って、話者適応後
のHMMの平均ベクトルCk S(k=1,・・・・・,m)を
算出する。
Therefore, the moving vectors v 1 , v 2 , and v with respect to the mean vector c k R and the mean vectors in the vicinity thereof are
Based on 3 , the smoothed motion vector v k S is calculated by making a correction. That is, the movement vector v k
Is slightly corrected to the left under the influence of the movement vectors v 1 , v 2 and v 3 . This correction processing is called smoothing processing. (D) Average vector adaptation processing Using the smoothed movement vector v k S and the average vector C k R obtained in the above (C), the average vector C k S of the HMM after speaker adaptation according to the following equation. Calculate (k = 1, ..., m).

【0026】Ck S=Ck R+vk S C k S = C k R + v k S

【0027】[0027]

【発明が解決しようとする課題】然し乍ら、上述の如
く、従来のHMMの作成においては、(B)移動ベクト
ルの内挿による補間処理、及び(C)移動ベクトルの平
滑化処理が行われているが、学習用音声資料つまり単語
音声が少数の場合、学習部3において学習される平均ベ
クトルは少数であり、かかる学習された少数の平均ベク
トルから求められる移動ベクトルもまた少数である。こ
のような場合、即ち移動ベクトルv1,v2,及びv3,・
・・・・が少ない場合には、その移動ベクトルv1,v2,及
びv3,・・・・・を用いて内挿するベクトルが多くなり、ま
た平滑化処理では、学習で得られた少ないベクトルから
平滑化処理を行うため、入力話者のモデルとして不適切
なモデルしか得られないという問題点があった。
However, as described above, in the conventional HMM creation, (B) interpolation processing by interpolation of the moving vector and (C) smoothing processing of the moving vector are performed. However, when the learning audio material, that is, the word speech is small in number, the average vector learned by the learning unit 3 is small, and the movement vector obtained from the learned small average vector is also small. In such a case, that is, movement vectors v 1 , v 2 , and v 3 ,.
.. is small, the number of vectors to be interpolated using the movement vectors v 1 , v 2 , and v 3 , ... is large, and in the smoothing process, it is obtained by learning. Since the smoothing process is performed from a small number of vectors, there is a problem that only an inappropriate model can be obtained as a model of the input speaker.

【0028】[0028]

【課題を解決するための手段】そこで、本発明は上述の
問題点に鑑み為されたものであり、複数の代表話者の話
者部分空間移動ベクトルvism nから、少量の入力話
者の学習用音声資料から得られた入力話者の話者部分空
間移動ベクトルvism inpに距離的に近い代表話者の
話者部分空間移動ベクトルvism spnoを選択し、該
代表話者の話者部分空間移動ベクトルvism spno
修正することにより不特定話者HMMを入力話者に適応
させることを特徴とする。
Therefore, the present invention has been made in view of the above problems, and a small amount of the speaker subspace movement vectors v i , s , m n of a plurality of representative speakers can be obtained. input speaker of the speaker subspace movement vector v i of the input speaker obtained from the learning audio material, s, m inp to the distance to close representative speaker of the speaker subspace movement vector v i, s, m select SPNO, characterized in that to adapt the surrogate table speaker speaker subspace movement vector v i, s, to the input talker the unspecified speaker HMM by modifying the m SPNO.

【0029】更に、本発明は入力音声の特徴を分析する
音声分析部(1)と、HMMの初期モデルを記憶する初期
モデル記憶部(2)と、上記音声分析部(1)において入力話
者の音声を分析した結果を用いて初期モデル記憶部(2)
に記憶されたHMMを学習する学習部(3)と、該学習部
(3)において学習された入力話者のHMMの平均ベクト
ルμism inpと初期モデル記憶部(2)に記憶されてい
るHMMの平均ベクトルμismの差分から求められ
る差分ベクトルを用いて計算される入力話者の話者部分
空間移動ベクトルvism inpを計算する入力話者の話
者部分空間移動ベクトル計算部(10a)と、該入力話者の
話者部分空間移動ベクトル計算部(10a)にて求められた
入力話者の話者部分空間移動ベクトルvism inpを記
憶する入力話者の話者部分空間移動ベクトル記憶部(10
b)と、代表話者の話者部分空間移動ベクトルvism n
を記憶する代表話者の話者部分空間移動ベクトル記憶部
(12)と、上記入力話者の話者部分空間移動ベクトル記憶
部(10b)に記憶された入力話者の話者部分空間移動ベク
トルvism inpと距離的に近い代表話者の話者部分空
間移動ベクトルvism spnoを選択する代表話者選択
部(10c)と、該代表話者選択部(10c)にて得られた代表話
者の話者部分空間移動ベクトルvism spno、入力話
者の話者部分空間移動ベクトルvism inp、及び初期
モデルの平均ベクトルμismを用いて、話者適応後
の平均ベクトルμism inpを求める話者適応後モデル
構築部(10d)と、話者適応後の平均ベクトルμism
inpを記憶する適応後モデル記憶部(14)と、を具備する
ことを特徴とする。
Further, according to the present invention, a voice analysis unit (1) for analyzing characteristics of an input voice, an initial model storage unit (2) for storing an initial model of an HMM, and an input speaker in the voice analysis unit (1). Initial model storage unit using the results of analyzing the human voice (2)
A learning unit (3) for learning the HMM stored in
(3) mean vector mu i, s of the HMM input speaker learned in, m inp and initial model mean vector mu i, s of the HMM stored in the storage unit (2) is determined from the difference between m input speaker of the speaker subspace movement vector v i is calculated using the difference vector, s, speaker subspace movement vector calculating unit input speaker calculating the m inp and (10a), of the input speaker speaker subspace moving vector calculation unit speaker subspace of the input speaker obtained by (10a) movement vector v i, s, speaker subspace motion vector storage unit of the input speaker for storing m inp (10
b) and the speaker subspace movement vector v i , s , m n of the representative speaker
Speaker subspace movement vector memory of the representative speaker
(12) and said input speaker of the speaker subspace motion vector storage unit (10b) to store the input speaker of the speaker subspace movement vector v i, s, m inp and distance to close representative speaker Speaker subspace movement vector v i , s , m spno of the representative speaker, and the speaker subspace movement of the representative speaker obtained by the representative speaker selection unit (10 c). vector v i, with s, m SPNO, speaker subspace movement vector v i of the input speaker, s, m inp, and mean vector mu i, s of the initial model, the m, the average vector after the speaker adaptation mu i, s, speaker adaptation after model construction unit for determining the m inp and (10d), the mean vector mu i, s after the speaker adaptation, m
and a post-adaptation model storage unit (14) for storing inp .

【0030】[0030]

【作用】HMMの初期モデル中のコンポーネントの平均
ベクトルを、音声分析部(1)において分析された入力音
声の分析結果を用いて学習する。
The average vector of the components in the initial model of the HMM is learned by using the analysis result of the input voice analyzed by the voice analysis unit (1).

【0031】この後、初期モデル中のコンポーネントの
平均ベクトルとこの平均ベクトルに対応する再学習後の
平均ベクトルとの差分を用いて、入力話者の話者部分空
間移動ベクトルvism inpを計算する。
After that, by using the difference between the average vector of the components in the initial model and the average vector after retraining corresponding to this average vector, the speaker subspace movement vectors v i , s , m of the input speaker are used. Calculate inp .

【0032】入力話者の話者部分空間移動ベクトル記憶
部(10b)に記憶された入力話者の話者部分空間移動ベク
トルvismと距離的に近い代表話者の話者部分空間
移動ベクトルvism spnoを選択する。
The speaker part of the representative speaker, which is distance-wise close to the speaker subspace movement vector v i , s , m of the input speaker stored in the speaker subspace movement vector storage unit (10b) of the input speaker. Select spatial movement vectors v i , s , m spno .

【0033】代表話者選択部(10c)にて得られた代表話
者の話者部分空間移動ベクトルvi sm spno、入力話
者の話者部分空間移動ベクトルvism inp、及び初期
モデルの平均ベクトルμismを用いて、話者適応後
の平均ベクトルμism inpを話者適応後モデル構築部
(10d)にて求める。
Representative talk obtained by the representative talker selection unit (10c)
Speaker's subspace movement vector vi sm spnoInput story
Speaker's subspace movement vector vism inp, And early
Model mean vector μismAfter speaker adaptation using
Mean vector ofism inpAfter speaker adaptation model building department
Find in (10d).

【0034】最後に、話者適応後の平均ベクトル
μism inpを適応後モデル記憶部(14)に記憶させる。
[0034] Finally, the mean vector mu i, s after the speaker adaptation, and stores the m inp adaptive after the model storage unit (14).

【0035】[0035]

【実施例】本発明の実施例を図1乃至図3に基づいて説
明する。HMMには対角共分散行列の混合ガウス分布型
を用いるものとする。
Embodiments of the present invention will be described with reference to FIGS. A mixed Gaussian distribution type of a diagonal covariance matrix is used for the HMM.

【0036】図1は本発明に係るHMMの学習装置の概
略構成図であり、また図2は本発明に係るHMMの学習
装置の話者適応部10を中心とした詳細な構成図であ
り、従来のHMMの学習装置と同一構成については同一
番号を付している。
FIG. 1 is a schematic configuration diagram of an HMM learning device according to the present invention, and FIG. 2 is a detailed configuration diagram centering on a speaker adaptation unit 10 of the HMM learning device according to the present invention. The same components as those of the conventional HMM learning device are designated by the same reference numerals.

【0037】本発明のHMMの学習装置の構成が従来の
それと異なる第一の点は、話者適応部4に代えて話者適
応部10を設けたことであり、この話者適応部10は入
力話者の話者部分空間移動ベクトル計算部10a、入力
話者の話者部分空間移動ベクトル記憶部10b、代表話
者選択部10c、及び適応後モデル構築部10dから構
成されている。
The first difference in the configuration of the learning device for the HMM of the present invention from the conventional one is that a speaker adaptation unit 10 is provided instead of the speaker adaptation unit 4, and this speaker adaptation unit 10 is The input speaker includes a speaker subspace movement vector calculation unit 10a, an input speaker speaker subspace movement vector storage unit 10b, a representative speaker selection unit 10c, and a post-adaptation model construction unit 10d.

【0038】本発明のHMMの学習装置の構成が従来の
それと異なる第二の点は、代表話者選択部10cに接続
して代表話者の話者部分空間移動ベクトル記憶部12、
及び代表話者の話者部分空間移動ベクトル計算部11を
設けたことである。
The second difference in the configuration of the learning device of the HMM of the present invention from that of the conventional one is that the speaker subspace movement vector storage unit 12 of the representative speaker is connected to the representative speaker selection unit 10c.
And the speaker subspace movement vector calculation unit 11 of the representative speaker.

【0039】本発明のHMMの学習装置の構成が従来の
それと異なる第三の点は、初期モデル記憶部2、代表話
者の話者部分空間移動ベクトル記憶部12、及び話者適
応部10に基づいてHMMを作成する適応後モデル作成
部13、並びにこのHMMを記憶する適応後モデル記憶
部14を設けたことである。
The third point in which the configuration of the learning device of the HMM of the present invention is different from the conventional one is that the initial model storage unit 2, the speaker subspace movement vector storage unit 12 of the representative speaker, and the speaker adaptation unit 10 are provided. That is, the post-adaptation model creation unit 13 that creates an HMM based on the HMM and the post-adaptation model storage unit 14 that stores the HMM are provided.

【0040】ここで、本発明の代表的な構成要件であ
る、(A)代表話者の話者部分空間移動ベクトル計算部
11、(B)代表話者の話者部分空間移動ベクトル記憶
部12、(C)入力話者の話者部分空間移動ベクトル計
算部10a、(D)入力話者の話者部分空間移動ベクト
ル記憶部10b、(E)代表話者選択部10c、(F)
話者適応後モデル構築部10d、(G)適応後モデル作
成部13、(H)適応後モデル記憶部14、の夫々の機
能について詳述する。 (A)代表話者の話者部分空間移動ベクトル計算部11 この計算部11は、複数の代表話者の話者部分空間移動
ベクトルを求める機能を有する。ここで、話者部分空間
移動ベクトルとは、初期モデルと斯かる初期モデルを再
学習した後のHMMのガウス分布の平均ベクトルの差分
を用いて求められるものであり、以下のステップで話者
部分空間移動ベクトルを求めることができる。
Here, (A) a speaker subspace movement vector calculation unit 11 of a representative speaker and (B) a speaker subspace movement vector storage unit 12 of a representative speaker, which are typical constituent features of the present invention. , (C) speaker subspace movement vector calculation unit 10a of the input speaker, (D) speaker subspace movement vector storage unit 10b of the input speaker, (E) representative speaker selection unit 10c, (F)
Functions of the speaker-adapted model construction unit 10d, the (G) -adapted model creation unit 13, and the (H) -adapted model storage unit 14 will be described in detail. (A) Speaker Subspace Movement Vector Calculation Unit 11 of Representative Speaker This calculation unit 11 has a function of obtaining speaker subspace movement vectors of a plurality of representative speakers. Here, the speaker subspace movement vector is obtained by using the difference between the initial model and the mean vector of the Gaussian distribution of the HMM after retraining the initial model, and the speaker part is calculated in the following steps. The spatial movement vector can be obtained.

【0041】ステップ1;初期モデル記憶部に記憶され
ている初期モデル(λ)を各代表話者の音素HMMの初
期モデルとする。ここで、Iは音素HMMの番号を示し
ており、本実施例では39個の音素HMMを用いている
ため、I=39である。また、λiはi番目の音素HM
Mを示している。
Step 1: The initial model (λ) stored in the initial model storage unit is used as the initial model of the phoneme HMM of each representative speaker. Here, I represents the number of the phoneme HMM, and since 39 phoneme HMMs are used in this embodiment, I = 39. Λ i is the i-th phoneme HM
M is shown.

【0042】λ={λ1,・・・,λi,・・・,λI} また、λiはλi={wism,ais1s2,μis
m,σism}で表される。
Λ = {λ 1 , ..., λ i , ..., λ I } In addition, λ i is λ i = {w i , s , m , a i , s1 , s2 , μ i , s
It is represented by m , σ i , s , m }.

【0043】尚、wism、μism、及びσis
mはi番目の音素HMMの第s状態のm番目のガウス分
布に関する重み、平均ベクトル、分散値のベクトルを夫
々表している。ais1s2はi番目の音素HMMの第
s1状態から第s2状態への遷移確率を示しており、本
実施例では特徴量として33次元ベクトルを用いたの
で、μism、σismは33次元のベクトルとな
る。
Note that w i , s , m , μ i , s , m , and σ i , s ,
m represents a weight, a mean vector, and a vector of variance values for the m-th Gaussian distribution in the s-th state of the i-th phoneme HMM, respectively. a i , s1 , and s2 represent the transition probabilities from the s1th state to the s2th state of the i-th phoneme HMM. Since a 33-dimensional vector is used as the feature quantity in this embodiment, μ i , s , and m , Σ i , s , and m are 33-dimensional vectors.

【0044】ここで、初期モデルとしては、特定話者モ
デルを用いても良いし、また不特定話者モデルを用いて
も良い。
Here, a specific speaker model or an unspecified speaker model may be used as the initial model.

【0045】ところで、μismは従来例で示したCk
Rと同じものであり、本実施例での説明の便宜上、以降
μismという記号を用いる。
By the way, μ i , s , and m are C k shown in the conventional example.
It is the same as R, and the symbols μ i , s , and m are used hereinafter for convenience of description in the present embodiment.

【0046】ステップ2;代表話者の入力音声の音素系
列に対応するように代表話者のHMMを連結し学習を行
なう。学習はwism及びμismのみ行ないn番目
の話者モデルとしてλi n={wi nsm
is1s2,μi nsm,σism}を得る。ここ
で、nは代表話者の番号を表し、n=1,2,・・・・・,
Nであり、本実施例では30名の代表話者を用いたので
N=30である。
Step 2; The HMMs of the representative speaker are connected so as to correspond to the phoneme sequence of the input voice of the representative speaker, and learning is performed. Learning is performed only for w i , s , m and μ i , s , m , and λ i n = {w i n , s , m , as an nth speaker model.
a i , s1 , s2 , μ i n , s , m , σ i , s , m } are obtained. Here, n represents the number of the representative speaker, n = 1, 2, ...
N, and in this embodiment, 30 representative speakers were used, so N = 30.

【0047】ステップ3;各代表話者について、平均値
の差分ti nsmを求める。
[0047] Step 3: For each representative speaker, the difference t i n of the average value, s, a m ask.

【0048】∀ism∈Ω tism n = μis
m n−μism (n=1,2,・・・・・,N) ここで、Ωはλに含まれる平均ベクトルμismの添
ismの組を表す。
i , s , m ∈Ωt i , s , m n = μ i , s ,
m n −μ i , s , m (n = 1, 2, ..., N) where Ω is a set of subscripts i , s , and m of the average vector μ i , s , m included in λ. Represents

【0049】ここで、平均値の差分ti nsmとは、従
来例で示した移動ベクトルと同じものである。
[0049] Here, the difference t i n of the mean, s, and m is the same as the motion vector shown in the conventional example.

【0050】ステップ4;数1に従い、代表話者の話者
部分空間移動ベクトルvism nを求める。ここでは、
μismの距離的に近くにあるK個の平均ベクトルを
用いて、部分空間毎に話者部分空間移動ベクトルを求め
るものとする。
Step 4; According to equation 1, the speaker subspace movement vectors v i , s , m n of the representative speaker are obtained. here,
It is assumed that a speaker subspace movement vector is obtained for each subspace by using K average vectors that are close in distance to μ i , s , and m .

【0051】[0051]

【数1】 [Equation 1]

【0052】ここで、Kismはμismの近傍にあ
るK個の平均ベクトルに関する添字の組である。また、
D(a,b)はベクトルa,b間の距離を表す。fはフ
ァジネスと呼ばれるファジイ級関数の値を制御する変数
である。また、ファジイ級関数以外に三角窓や矩形窓、
ガウス分布等の関数等を用いることも可能である。
Here, K i , s , m is a set of subscripts relating to K average vectors in the vicinity of μ i , s , m . Also,
D (a, b) represents the distance between the vectors a and b. f is a variable that controls the value of a fuzzy class function called fuzzyness. In addition to the fuzzy class functions, triangular windows, rectangular windows,
It is also possible to use a function such as Gaussian distribution.

【0053】一方、ti nsmを代表話者の話者部分空
間移動ベクトルとしてもよい。
[0053] On the other hand, t i n, s, may be used as the speaker subspace movement vector of the representative speaker m.

【0054】また、学習は{wism,ais1s2
μism,σism}のうち、少なくともμism
を含むように学習すれば良い。当然、{wism
is1s2,μism,σism}の全てを学習し
ても良い。 (B)代表話者の話者部分空間移動ベクトル記憶部12 代表話者の話者部分空間移動ベクトル記憶部12 は代
表話者の話者部分空間移動ベクトル計算部11にて算出
された、複数の代表話者の話者部分空間移動ベクトルv
ism nを記憶する。 (C)入力話者の話者部分空間移動ベクトル計算部10
a 学習部3により学習されたモデルに基づいて、入力話者
の話者部分空間移動ベクトルvism inpを以下のステ
ップで求める。尚、ここで、inpは入力話者を表して
いる。
Further, the learning is {w i , s , m , a i , s1 , s2 ,
Of μ i , s , m , σ i , s , m }, at least μ i , s , m
You only have to learn to include. Of course, {w i, s, m ,
All of a i , s1 , s2 , μ i , s , m , σ i , s , m } may be learned. (B) Speaker subspace movement vector storage unit 12 of representative speaker The speaker subspace movement vector storage unit 12 of the representative speaker is a plurality of speaker subspace movement vector calculation units 11 of the representative speaker. Speaker subspace movement vector v of the representative speaker of
Memorize i , s , and m n . (C) Speaker subspace movement vector calculator 10 of the input speaker
Based on the learned model by a learning unit 3, obtains speaker subspace movement vector v i of the input speaker, s, the m inp the following steps. Here, inp represents the input speaker.

【0055】ステップ1;平均値の差分tism inp
算出する。
[0055] Step 1: calculate the difference t i of the average value, s, a m inp.

【0056】[0056]

【数2】 [Equation 2]

【0057】ステップ2;数3に従い、入力話者部分空
間移動ベクトルvism inpを求める。
[0057] Step 2: As the number 3, the input speaker subspace movement vector v i, s, a m inp determined.

【0058】[0058]

【数3】 [Equation 3]

【0059】ここで、Eは学習音声資料中に現れた音素
に対応した音素HMMの平均ベクトルの添字の組を表
す。 (D)入力話者の話者部分空間移動ベクトル記憶部10
b 入力話者の話者部分空間移動ベクトル記憶部10bは入
力話者の話者部分空間移動ベクトル計算部10aで算出
した入力話者部分空間移動ベクトルvism i npを記憶
する。 (E)代表話者選択部10c 音素HMMの各コンポーネントの分岐確率を考慮して、
数4に従い、入力話者部分空間移動ベクトルvism
inpと距離的に近い代表話者の部分空間移動ベクトル
ism nをもつ代表話者の番号(spno)、及びこ
の代表話者の番号(spno)を有する代表話者の部分
空間移動ベクトルvism spnoを選択する。
Here, E represents a set of subscripts of the average vector of the phoneme HMM corresponding to the phonemes appearing in the learning speech material. (D) Speaker subspace movement vector storage unit 10 of the input speaker
b Input speaker speaker subspaces motion vector storage unit 10b stores the input speaker of the speaker subspace movement vector calculating unit input speaker subspaces motion vector calculated at 10a v i, s, m i np. (E) Representative speaker selection unit 10c Considering the branch probability of each component of the phoneme HMM,
According to Equation 4, the input speaker subspace movement vector v i , s , m
inp and distance to close representative speaker subspaces movement vector v i, s, representatives speaker numbers with m n (spno), and subspace representative speaker having a number (SPNO) of the representative speaker Select the movement vectors v i , s , m spno .

【0060】[0060]

【数4】 [Equation 4]

【0061】(F)話者適応後モデル構築部10d 話者適応後モデル構築部10dでは、代表話者選択部1
0cにて得られた代表話者の話者部分空間移動ベクトル
ism spno、入力話者の話者部分空間移動ベクトル
ism inp、及び初期モデルの平均ベクトルμis
mを用いて、話者適応後の平均ベクトルμism inp
求める。
(F) Speaker-adapted model construction unit 10d In the speaker-adapted model construction unit 10d, the representative speaker selection unit 1 is used.
Speaker subspace movement vector representative speaker obtained in 0c v i, s, m spno , speaker subspace movement vector v i of the input speaker, s, m inp, and mean vector of the initial model mu i , S ,
with m, the average vector mu i, s after the speaker adaptation, seek m inp.

【0062】[0062]

【数5】 [Equation 5]

【0063】ここで、本実施例ではW=0.5に設定し
た。 (G)適応後モデル作成部13 適応後モデル作成部13では、話者適応後モデル構築部
10dで構築された話者適応後の平均ベクトルμis
m inp、並びに初期モデル記憶部2に記憶されている初期
モデルのガウス分布に関する重みwism、遷移確率
is1s2及び分散値ベクトルσism又は入力話者
のガウス分布に関する重みwism inp、遷移確率
is1s2 inp及び分散値ベクトルσism inp又は代
表話者の話者空間移動ベクトル記憶部12に記憶されて
いるガウス分布に関する重みwis m spno、遷移確率
is1s2 spno及び分散値ベクトルσism spnoを用
いて、適応後のモデルを作成する。 (H)適応後モデル記憶部14 適応後モデル記憶部14は適応後モデル作成部13で作
成された適応後モデルを記憶する。
In this embodiment, W = 0.5 is set.
It was (G) Adaptation model creation unit 13 In the post-adaptation model creation unit 13, the speaker post-adaptation model construction unit
Mean vector μ after speaker adaptation constructed in 10dis
m inp, And the initial values stored in the initial model storage unit 2.
Weight w for the Gaussian distribution of the modelism, Transition probability
ais1s2And the variance value vector σismOr input speaker
Weight w for the Gaussian distribution ofism inp, Transition probability
ais1s2 inpAnd the variance value vector σism inpOr generation
Stored in the speaker space movement vector storage unit 12 of the speaker
Weight w for Gaussian distributionis m spno, Transition probability
ais1s2 spnoAnd the variance value vector σism spnoFor
And create a model after adaptation. (H) Adapted model storage unit 14 The post-adaptation model storage unit 14 is created by the post-adaptation model creation unit 13.
Store the created post-adaptation model.

【0064】上述の本発明の構成を用いて、話者適応後
モデル構築部10dにおいて話者適応後のモデルを構築
するに際しての学習処理、及び話者適応処理を図3に示
すフローチャートに基づいて図1、及び図2を参照し乍
ら、以下ステップ毎に説明する。
Based on the flowchart shown in FIG. 3, learning processing and speaker adaptation processing for constructing a model after speaker adaptation in the speaker adaptation model construction unit 10d using the above-described configuration of the present invention are performed. Each step will be described below with reference to FIGS. 1 and 2.

【0065】図3に示すフローチャートは大きく前段の
学習処理(ステップS1〜S5)と、後段の話者適応処
理(ステップS6〜S9)に分けることができる。
The flowchart shown in FIG. 3 can be roughly divided into a learning process in the first stage (steps S1 to S5) and a speaker adaptation process in the second stage (steps S6 to S9).

【0066】まず、ステップS1において、初期モデル
記憶部2に記憶されている音素HMMを入力話者の初期
モデルとする。ステップS2では、初期モデル記憶部2
に記憶されている音素HMMを連結し単語HMMを作成
する。ステップS3では、学習用音声資料を用いて学習
部3で単語HMMを学習する。ステップS4において、
学習部3では単語HMMを分解し、音素HMMとする。
ステップS5では、繰り返し学習することによって、例
えば、学習用音声資料中の音素HMMの平均ベクトルが
収束する終了条件を満たすか、否かを判定し、終了条件
を満足すればステップS6に進み、一方終了条件を満足
しなければステップS2に戻る。
First, in step S1, the phoneme HMM stored in the initial model storage unit 2 is used as the initial model of the input speaker. In step S2, the initial model storage unit 2
The word HMMs are created by concatenating the phoneme HMMs stored in. In step S3, the learning unit 3 learns the word HMM using the learning audio material. In step S4,
The learning unit 3 decomposes the word HMM into a phoneme HMM.
In step S5, by repeating learning, for example, it is determined whether or not a termination condition for converging the average vector of the phoneme HMMs in the learning speech material is satisfied, and if the termination condition is satisfied, the process proceeds to step S6. If the ending condition is not satisfied, the process returns to step S2.

【0067】ステップS6では、入力話者の話者空間移
動ベクトル計算部10aにおいて、初期モデルのコンポ
ーネントの平均ベクトルと学習後の音素HMMの平均ベ
クトル間の差分ベクトルtism inpを求める。ステッ
プS7では、入力話者の話者部分空間移動ベクトル計算
部10aにおいて、入力話者の話者部分空間移動ベクト
ルvism inpを求める。
[0067] In step S6, the speaker space motion vector calculation section 10a of the input speaker, obtains an average vector of the components of the initial model and the difference vector t i between the mean vector of the phoneme HMM after learning, s, the m inp . In step S7, the speaker subspace movement vector calculating portion 10a of the input speaker, speaker subspace movement vector v i of the input speaker, s, the m inp determined.

【0068】ステップS8では、代表話者選択部10c
において入力話者の話者部分空間移動ベクトルvis
m inpと近い代表話者の部分空間移動ベクトルvism n
をもつ代表話者の番号(spno)を選択する。ステッ
プS9では、話者適応後モデル構築部10dにおいて、
代表話者選択部10cにて得られた代表話者の話者部分
空間移動ベクトルvism spno、入力話者の話者部分
空間移動ベクトルvi sm inp、及び初期モデルの平均
ベクトルμismを用いて、話者適応後の平均ベクト
ルμism inpを求める。
In step S8, the representative speaker selection unit 10c
At the speaker subspace movement vector v of the input speaker atis
m inpSubspace movement vector v of the representative speaker close toism n
Select the number (spno) of the representative speaker with. Step
In step S9, in the speaker-adapted model building unit 10d,
Speaker portion of the representative speaker obtained by the representative speaker selection unit 10c
Space movement vector vism spno, The speaker part of the input speaker
Space movement vector vi sm inp, And the average of the initial model
Vector μism, The average vector after speaker adaptation
Le μism inpAsk for.

【0069】ここで、本発明のHMMの学習装置によっ
て学習を行ない、その評価試験を行った。
Here, learning was performed by the HMM learning device of the present invention, and the evaluation test was conducted.

【0070】初期モデルには、日本音響学会連続音声デ
ータベースの男性話者30名の音声資料の一部から作成
した不特定話者モデルを用いた。代表話者モデルの作成
には、同一データベースの男性話者30名を用いた。評
価は電子協日本語共通音声データに含まれる男性話者7
0名の地名100単語を用いた。分析条件はサンプリン
グ周波数12kHz、ハミング窓長21.3ms、16
次LPC分析、フレーム周期5msである。特徴量に
は、16次LPCケプストラム、16次Δケプストラ
ム、Δ対数パワーの33次元ベクトルを用いた。HMM
は4状態3ループ、対角共分散行列の混合ガウス分布型
であり、各状態からのアークはタイドアークとした。ま
た、モデル数は39種とした。
As the initial model, an unspecified speaker model created from a part of audio data of 30 male speakers in the ASJ continuous speech database was used. 30 male speakers from the same database were used to create the representative speaker model. Evaluation was done by a male speaker 7 included in the Japanese common voice data of Jkyo.
100 words of 0 place names were used. Analysis conditions are sampling frequency 12 kHz, Hamming window length 21.3 ms, 16
Next LPC analysis, frame period 5 ms. A 16th-order LPC cepstrum, a 16th-order Δ cepstrum, and a 33-dimensional vector of Δ logarithmic power were used as the feature amount. HMM
Is a 4-state 3-loop, mixed Gaussian distribution type of diagonal covariance matrix, and the arc from each state is a tide arc. The number of models was 39.

【0071】話者適応用音声資料には、100地名のう
ちの一部(1〜10地名)を用いた。評価音声資料に
は、話者適応に用いた音声資料以外の地名を用いた。ま
た、評価は話者適応用単語セットを変え、2回行った。
認識用単語辞書は100地名とした。
A part of 100 place names (1 to 10 place names) was used as the speaker adaptation audio material. The place name other than the voice material used for speaker adaptation was used as the evaluation voice material. In addition, the evaluation was performed twice by changing the speaker adaptation word set.
The recognition word dictionary was 100 place names.

【0072】表1は本発明の学習装置を用いた単語認識
結果、話者適応法を用いない従来の単語認識結果、及び
不特定話者モデル(初期モデル)を用いた従来の単語認
識結果を夫々適応単語数毎に示したものである。
Table 1 shows word recognition results using the learning device of the present invention, conventional word recognition results that do not use the speaker adaptation method, and conventional word recognition results that use an unspecified speaker model (initial model). It is shown for each number of adaptive words.

【0073】[0073]

【表1】 [Table 1]

【0074】この表から分かるように、本発明の学習装
置を用いた単語認識結果は従来の単語認識結果より認識
率は向上しており、本発明のHMMの学習装置は有効的
であることが分かる。
As can be seen from this table, the recognition rate of the word recognition result using the learning device of the present invention is higher than that of the conventional word recognition result, indicating that the HMM learning device of the present invention is effective. I understand.

【0075】尚、本実施例の学習部3では、従来の学習
部3と同様に、未知話者の音素HMMのガウス分布の平
均ベクトルμism inpを再学習しているが、これには
限られず、ガウス分布に関する重みwism、分散値
のベクトルσism、又は遷移確率ais1s2を含む
任意の組み合わせに関して再学習してよい。
[0075] In the learning unit 3 of this embodiment, as in the conventional learning unit 3, the mean vector mu i, s of the Gaussian distribution of the phoneme HMM unknown speaker, although relearn m inp, However, the present invention is not limited to this, and the weights w i , s , m regarding the Gaussian distribution, the vector of variance values σ i , s , m , or any combination including the transition probabilities a i , s1 , s2 may be retrained.

【0076】ところで、図3に示すステップS8では、
代表話者選択部10cにおいて入力話者の話者部分空間
移動ベクトルvism inpと近い代表話者の部分空間移
動ベクトルvism nをもつ代表話者の番号(spn
o)を選択する概念を述べたが、本発明者は具体的な代
表話者選択手法として以下の2つの手法を提案する。即
ち、第1番目の手法は、(1)話者空間移動ベクトル間の
距離に基づく手法であり、また第2番目の手法は、(2)
学習用音声に対するHMMの尤度に基づく手法であり、
以下でそれぞれの手法を詳説する。 (1)話者空間移動ベクトル間の距離に基づく手法 (a)話者空間移動ベクトル間の距離 この話者空間移動ベクトルを用いる手法には、(a−
1)全ての話者空間移動ベクトルを使用する場合、及び
(a−2)学習された音素HMMに関する話者空間移動
ベクトルのみを使用する場合、があり、それぞれ以下の
数式を用いて、代表話者を選択する。
By the way, in step S8 shown in FIG.
Representative speaker selection section speaker subspace of the input speaker movement vector in 10c v i, s, m inp and close representative speaker subspaces movement vector v i, s, representatives speaker numbers with m n (spn
Although the concept of selecting o) has been described, the present inventor proposes the following two methods as specific representative speaker selecting methods. That is, the first method is (1) a method based on the distance between speaker space movement vectors, and the second method is (2)
It is a method based on the likelihood of HMM for learning speech,
Each method is explained in detail below. (1) Method based on distance between speaker space movement vectors (a) Distance between speaker space movement vectors Methods using this speaker space movement vector include (a-
1) There is a case where all the speaker space movement vectors are used, and (a-2) a case where only the speaker space movement vector related to the learned phoneme HMM is used. Select the person.

【0077】(a−1)全ての話者空間移動ベクトルを
使用する場合
(A-1) When all the speaker space movement vectors are used

【0078】[0078]

【数6】 [Equation 6]

【0079】(a−2)学習された音素HMMに関する
話者空間移動ベクトルのみを使用する場合
(A-2) When only the speaker space movement vector regarding the learned phoneme HMM is used

【0080】[0080]

【数7】 [Equation 7]

【0081】ここで、daは数8で表される距離尺度で
ある。
Here, d a is a distance measure expressed by equation (8).

【0082】[0082]

【数8】 [Equation 8]

【0083】但し、vismd inpはvism inp
おける特徴パラメータの第d要素に関する平均値を表
し、本実施例では特徴量として33次元ベクトルを用い
たので、1≦d≦33となる。また、Wdはその重みを
表す。 (b)ガウス分布の分散を考慮した話者空間移動ベクト
ル間の距離に基づく手法 この手法においても上述と同様に、(b−1)全ての話
者空間移動ベクトルを使用する場合と、(b−2)学習
された音素HMMに関する話者空間移動ベクトルのみを
使用する場合があり、それぞれ以下の式を用いて代表話
者を選択した。
However, v i , s , m , and d inp represent the average value of the d-th element of the characteristic parameter in v i , s , and m inp , and since a 33-dimensional vector is used as the characteristic amount in this embodiment, 1 ≦ d ≦ 33. W d represents the weight. (B) Method Based on Distance Between Speaker Space Movement Vectors Considering Gaussian Distribution Variance Also in this method, (b-1) when all speaker space movement vectors are used and (b) -2) In some cases, only the speaker space movement vector related to the learned phoneme HMM is used, and the representative speaker is selected using the following formulas.

【0084】(b−1)全ての話者空間移動ベクトルを
使用する場合
(B-1) When all the speaker space movement vectors are used

【0085】[0085]

【数9】 [Equation 9]

【0086】(b−2)学習された音素HMMに関する
話者空間移動ベクトルのみを使用する場合
(B-2) When only the speaker space movement vector related to the learned phoneme HMM is used

【0087】[0087]

【数10】 [Equation 10]

【0088】ここで、dbは数11で表される距離尺度
である。
Here, d b is a distance measure expressed by the equation 11.

【0089】[0089]

【数11】 [Equation 11]

【0090】当然各代表話者の初期モデルおよび入力話
者の初期モデルを再学習する時に分散を再学習した場
合、数9、10、および11はそれぞれ数12、13、
および14となる。
Naturally, if the variance is re-learned when the initial model of each representative speaker and the initial model of the input speaker are re-learned, then Equations 9, 10 and 11 are respectively Equations 12, 13 and
And 14, respectively.

【0091】[0091]

【数12】 [Equation 12]

【0092】[0092]

【数13】 [Equation 13]

【0093】[0093]

【数14】 [Equation 14]

【0094】但し、σismd inpはσism inp
おける特徴パラメータの第d要素に関する分散値を表
し、本実施例では特徴量として33次元ベクトルを用い
たので、上述と同様に、1≦d≦33となる。
However, σ i , s , m , and d inp represent the variance value regarding the d-th element of the characteristic parameter in σ i , s , and m inp , and since a 33-dimensional vector is used as the characteristic amount in this embodiment, Similar to the above, 1 ≦ d ≦ 33.

【0095】(2)学習用音声に対するHMMの尤度に
基づく手法 この手法は、学習用音声資料(O)を音素HMM
(λ’)を用いて認識した場合の尤度L(Λ
j(λ’),oj)により代表話者を選択する手法であ
る。ここで、Λj(λ’)はj番目の学習用音声ojに対
応したワードモデルを表す。音素HMMとしては以下の
2種類を用い、それぞれ尤度を求めた。まず最初に、n
番目の代表話者の話者空間移動ベクトルvism nによ
りλnの平均ベクトルμism nを移動したHMM
(λn’)を用いて尤度L(Λj n(λn’),oj)を求
める。ここで、λn’のi番目の音素HMMはλn’=
{wism,aisjsk,μism n’,
σism 2}として表される。また、μism n’=v
ism n+μismであり、以下の数15に従い、累
積尤度が計算される。
(2) HMM-likelihood-based method for learning speech In this method, learning speech material (O) is converted into a phoneme HMM.
Likelihood L (Λ when recognition is performed using (λ ′)
This is a method of selecting a representative speaker by j (λ '), o j ). Here, Λ j (λ ′) represents a word model corresponding to the j-th learning voice o j . The following two types were used as the phoneme HMM, and the likelihood was calculated for each. First of all, n
An HMM obtained by moving the mean vector μ i , s , m n of λ n by the speaker space movement vectors v i , s , m n of the th representative speaker
n ') using the likelihood L (Λ j n (λ n '), o j) seek. Here, λ n 'i-th phoneme HMM of λ n' =
{W i , s , m , a i , sj , sk , μ i , s , m n ',
σ i , s , m 2 }. Also, μ i , s , m n '= v
i , s , m n + μ i , s , m , and the cumulative likelihood is calculated according to the following Expression 15.

【0096】[0096]

【数15】 [Equation 15]

【0097】次に、n番目の代表話者をベースにして話
者適応を行った適応後HMM(λad apt(n))を用い
て尤度L(Λj n(λadapt(n)),oj)を求める。こ
こで、λadapt(n)のi番目の音素HMMはλi adapt
(n)={wism,ais jsk,μis
m adapt(n),σism 2}として表される。また、μ
ism adapt(n)=Wvism inp+(1.0−W)
ism n+μismであり、以下の数16に従い、
累積尤度が計算される。
Next, based on the nth representative speaker,
Post-adaptation HMM (λad apt(N))
Likelihood L (Λj nadapt(N)), oj). This
Where λadaptThe i-th phoneme HMM in (n) is λi adapt
(N) = {wism, Ais jsk, Μis
m adapt(N), σism 2} Is represented. Also, μ
ism adapt(N) = Wvism inp+ (1.0-W)
vism n+ ΜismAnd according to the following equation 16,
Cumulative likelihood is calculated.

【0098】[0098]

【数16】 [Equation 16]

【0099】このように、上述の如き代表話者選択手法
によって代表話者の選択を行った後は図3のステップS
9と同様な処理が施される。
As described above, after the representative speaker is selected by the representative speaker selection method as described above, step S in FIG.
Processing similar to that of 9 is performed.

【0100】ここで、今回提案した代表話者選択手法に
よって選択した代表話者を用いて認識した結果を図10
に示す。
FIG. 10 shows the result of recognition using the representative speaker selected by the representative speaker selection method proposed this time.
Shown in.

【0101】図10をみれば明らかなように、(1)話者
空間移動ベクトル間の距離に基づく手法において、分散
を考慮する方(上述のDb1、Db2が該当)が話者空間移
動ベクトル間の距離を用いる場合(上述のDa1、Da2
該当)より認識率が向上していることが分かる。また、
その中でも、学習された音素のみに関する話者空間移動
ベクトル間の距離(上述のDb2が該当)を用いる方が、
全ての話者空間移動ベクトルに基づく距離(上述のDb1
が該当)を用いる場合より若干高い認識性能が得られて
いる。これは学習されなかった音素に関する移動ベクト
ルの内挿誤差が原因であると考えられる。
As is apparent from FIG. 10, (1) In the method based on the distance between the speaker space movement vectors, the one considering the variance (the above-mentioned D b1 and D b2 correspond) is the speaker space movement. It can be seen that the recognition rate is improved as compared with the case of using the distance between the vectors (corresponding to D a1 and D a2 described above). Also,
Among them, it is better to use the distance between the speaker space movement vectors related to only the learned phonemes (corresponding to D b2 described above).
Distance based on all speaker space movement vectors (D b1 above
A slightly higher recognition performance is obtained compared to the case where (is applicable). It is considered that this is due to the interpolation error of the movement vector regarding the unlearned phoneme.

【0102】一方、ガウス分布の分散を考慮した話者空
間移動ベクトル間の距離に基づく手法(上述のDb1、D
b2が該当)は、学習用音声に対するHMMの尤度に基づ
く手法(上述のL1、L2が該当)とほぼ同等の性能であ
ることが分かる。また、話者空間移動ベクトル間の距離
に基づく手法は、学習用音声に対するHMMの尤度に基
づく手法よりも演算量が少ないという利点がある。
On the other hand, a method based on the distance between the speaker space movement vectors in consideration of the variance of the Gaussian distribution (the above-mentioned D b1 , D
It can be seen that b2 is applicable) and the performance is almost the same as the method based on the likelihood of HMM for learning speech (the above L 1 and L 2 are applicable). Further, the method based on the distance between the speaker space movement vectors has an advantage that the amount of calculation is smaller than the method based on the likelihood of the HMM for the learning voice.

【0103】以上の結果より、話者空間移動ベクトル間
の距離に基づく手法においては、ガウス分布の分散を考
慮した方が認識率が良いことが分かった。
From the above results, it was found that the recognition rate is better when the variance of the Gaussian distribution is considered in the method based on the distance between the speaker space movement vectors.

【0104】更に、ファジイ級関数(例えば、数1に示
すFi’,s’,m’)で用いている距離尺度Dも分散を
考慮した距離尺度dを用いる方が認識率が良くなると考
えられる。
[0104] Furthermore, fuzzy grade function (e.g., F i indicating the number 1 ', s', m' ) with even distance measure D is used considered better to use a distance measure d in consideration of dispersion becomes better recognition rate To be

【0105】[0105]

【発明の効果】以上の説明から明らかなように本発明に
よれば、代表話者選択部にて得られた代表話者の話者部
分空間移動ベクトルvism spon、入力話者の話者部
分空間移動ベクトルvism inp、及び初期モデルの平
均ベクトルμismを用いて、話者適応後の平均ベク
トルμism inpを求めることによって、少数の学習用
モデルによる学習であっても、話者にとって適切なモデ
ルを得ることができる。
As is apparent from the above description, according to the present invention, the speaker subspace movement vectors v i , s , m spon , and the input speaker of the representative speaker obtained by the representative speaker selection unit. speaker subspace movement vector v i, s, m inp, and mean vector mu i, s of the initial model, with m, the average vector mu i, s after the speaker adaptation, by determining the m inp, Even with learning using a small number of learning models, a model suitable for the speaker can be obtained.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係るHMMの学習装置の概略構成図で
ある。
FIG. 1 is a schematic configuration diagram of an HMM learning device according to the present invention.

【図2】本発明に係るHMMの学習装置の話者適応部を
中心とした構成図である。
FIG. 2 is a configuration diagram centering on a speaker adaptation unit of a learning device for an HMM according to the present invention.

【図3】本発明に係る学習処理、及び話者適応化処理に
関するフローチャートである。
FIG. 3 is a flowchart relating to a learning process and a speaker adaptation process according to the present invention.

【図4】従来における音素HMMに基づいて単語認識を
行なうための概念図である。
FIG. 4 is a conceptual diagram for performing word recognition based on a conventional phoneme HMM.

【図5】入力音声“ば(b a)”、及び“ぶ(b
u)”のパワーと時間との関係を表した音声パターンで
ある。
FIG. 5: Input voices “ba (ba)” and “bu (b)
u) ”is a voice pattern showing the relationship between power and time.

【図6】音素/b/の区間分割図、並びに夫々の区間を
ガウス分布によって近似した図である。
FIG. 6 is a segment division diagram of phoneme / b /, and a diagram in which each segment is approximated by a Gaussian distribution.

【図7】従来のHMMの話者適応に基づくHMMの学習
装置、及びこの学習装置を用いた音声認識装置の概略構
成図である。
FIG. 7 is a schematic configuration diagram of a conventional HMM learning device based on speaker adaptation of an HMM, and a speech recognition device using this learning device.

【図8】初期モデルの平均ベクトルの再学習前後の対応
を示す図である。
FIG. 8 is a diagram showing a correspondence before and after re-learning of an average vector of an initial model.

【図9】移動ベクトルの平滑化処理を行なう際の概念図
である。
FIG. 9 is a conceptual diagram when performing a smoothing process of a moving vector.

【図10】本発明において、各代表話者選択手法の認識
率の比較結果を示した図である。
FIG. 10 is a diagram showing a comparison result of recognition rates of respective representative speaker selection methods in the present invention.

【符号の説明】 1・・・・・・音声分析部 2・・・・・・初期モデル記憶部 3・・・・・・学習部 4・・・・・・話者適応部 5・・・・・・適応後モデル記憶部 10a・・入力話者の話者部分空間移動ベクトル計算部 10b・・入力話者の話者部分空間移動ベクトル記憶部 10c・・代表話者選択部 10d・・話者適応後モデル構築部 11・・・・代表話者の話者部分空間移動ベクトル計算部 12・・・・代表話者の話者部分空間移動ベクトル記憶部 13・・・・適応後モデル作成部 14・・・・適応後モデル記憶部[Explanation of symbols] 1 ... Voice analysis unit 2 ... Initial model storage 3 ・ ・ Learning department 4 ・ ・ Speaker adaptation department 5 ... ・ Adapted model storage 10a ... Speaker subspace movement vector calculation unit of input speaker 10b .. Speaker subspace movement vector storage unit of input speaker 10c ... Representative speaker selection unit 10d ... Model building unit after speaker adaptation 11 ··· Speaker subspace movement vector calculator of representative speaker 12 ··· Speaker subspace movement vector storage unit for representative speaker 13 ··· After adaptation model creation unit 14 ... Model storage after adaptation

フロントページの続き (56)参考文献 大倉,大西,飯田,複数代表話者の話 者空間移動ベクトルに基づく不特定話者 HMMの話者適応,電子情報通信学会技 術研究報告[音声],日本,1994年 6 月16日,Vol.94,No.90,SP94 −21,Pages 53−60 大倉,大西,飯田,話者空間移動ベク トルに基づく話者適応法における代表話 者選択手法,日本音響学会平成6年度秋 季研究発表会講演論文集,日本,1994年 10月31日,2−8−22,Pages 81 −82 大倉,大西,飯田,話者空間移動ベク トルに基づく不特定話者モデルの話者適 応,日本音響学会平成6年度春季研究発 表会講演論文集,日本,1994年 3月23 日,3−7−9,Pages 105−106 宮永,嵯峨山,移動ベクトル場平滑化 話者適応方式における標準話者選択方式 の検討,日本音響学会平成4年度秋季研 究発表会講演論文集,日本,1992年10月 5日,2−5−2,Pages 121 −122 大倉,杉山,嵯峨山,混合連続分布H MM移動ベクトル場平滑化話者適応方 式,電子情報通信学会論文誌D−II, 日本,1993年12月,Vol.J76−D− II,No.12,Pages 2469− 2476 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 JICSTファイル(JOIS)Continuation of front page (56) References Okura, Onishi, Iida, Speaker adaptation of unspecified speaker HMM based on speaker space movement vector of multiple representative speakers, IEICE Technical Report [Speech], Japan , June 16, 1994, Vol. 94, No. 90, SP94-21, Pages 53-60 Okura, Onishi, Iida, Representative speaker selection method in speaker adaptation method based on speaker space movement vector, Acoustical Society of Japan 1994 Autumn Research Conference, Japan, October 31, 1994, 2-8-22, Pages 81-82 Okura, Onishi, Iida, Speaker adaptation of speaker-independent speaker model based on speaker space movement vector, ASJ 1994 Proceedings of Spring Meeting, Japan, March 23, 1994, 3-7-9, Pages 105-106 Miyanaga, Sagayama, Moving Vector Field Smoothing Examination of standard speaker selection method in speaker adaptation method , Proceedings of the 1994 Autumn Research Conference of the Acoustical Society of Japan, Japan, October 5, 1992, 2-5-2, Pages 121-122 Okura, Sugiyama, Sagayama, mixed continuous distribution H MM moving vector field Smoothing speaker adaptation method, IEICE Transactions DI , Japan, December 1993, Vol. J76-D-II, No. 12, Pages 2469-2476 (58) Fields investigated (Int.Cl. 7 , DB name) G10L 15/06 JISST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 複数の代表話者の話者部分空間移動ベク
トルvism nから、少量の入力話者の学習用音声資料
から得られた入力話者の話者部分空間移動ベクトル
ism inpに距離的に近い代表話者の話者部分空間移
動ベクトルvism spnoを選択し、該代表話者の話者
部分空間移動ベクトルvism spnoを修正することに
より不特定話者HMMを入力話者に適応させることを特
徴とするHMMの学習装置。
1. A speaker subspace movement vector of an input speaker obtained from a small amount of input speaker learning audio material from speaker subspace movement vectors v i , s , m n of a plurality of representative speakers. The speaker subspace movement vectors v i , s , m spno of the representative speaker, which are close to v i , s , m inp in distance, are selected, and the speaker subspace movement vectors v i , s , m of the representative speaker are selected. An HMM learning device characterized by adapting an unspecified speaker HMM to an input speaker by modifying spno .
【請求項2】 入力音声の特徴を分析する音声分析部
(1)と、HMMの初期モデルを記憶する初期モデル記憶
部(2)と、上記音声分析部(1)において入力話者の音声を
分析した結果を用いて初期モデル記憶部(2)に記憶され
たHMMを学習する学習部(3)と、該学習部(3)において
学習された入力話者のHMMの平均ベクトルμism
inpと初期モデル記憶部(2)に記憶されているHMMの平
均ベクトルμismの差分から求められる差分ベクト
ルを用いて計算される入力話者の話者部分空間移動ベク
トルvism inpを計算する入力話者の話者部分空間移
動ベクトル計算部(10a)と、該入力話者の話者部分空間
移動ベクトル計算部(10a)にて求められた入力話者の話
者部分空間移動ベクトルvism inpを記憶する入力話
者の話者部分空間移動ベクトル記憶部(10b)と、代表話
者の話者部分空間移動ベクトルvism nを記憶する代
表話者の話者部分空間移動ベクトル記憶部(12)と、上記
入力話者の話者部分空間移動ベクトル記憶部(10b)に記
憶された入力話者の話者部分空間移動ベクトルvis
m inpと距離的に近い代表話者の話者部分空間移動ベクト
ルvism spnoを選択する代表話者選択部(10c)と、該
代表話者選択部(10c)にて得られた代表話者の話者部分
空間移動ベクトルvism spno、入力話者の話者部分
空間移動ベクトルvism inp、及び初期モデルの平均
ベクトルμismを用いて、話者適応後の平均ベクト
ルμism inpを求める話者適応後モデル構築部(10d)
と、話者適応後の平均ベクトルμism inpを記憶する
適応後モデル記憶部(14)と、を具備することを特徴とす
るHMMの学習装置。
2. A voice analysis unit for analyzing characteristics of input voice.
(1), an initial model storage unit (2) for storing an initial model of the HMM, and a result of analyzing the voice of the input speaker in the voice analysis unit (1), and stored in the initial model storage unit (2) A learning unit (3) for learning the learned HMM, and an average vector μ i , s , m of the HMM of the input speaker learned in the learning unit (3).
Inp and the speaker subspace movement vector v i of the input speaker, which is calculated using the difference vector obtained from the difference between the HMM average vectors μ i , s , and m stored in the initial model storage unit (2), s, speaker subspace movement vector calculating unit input speaker calculating the m inp and (10a), the input speaker talking determined by speaker subspace moving vector calculation unit of the input speaker (10a) Speaker subspace movement vector v i , s , m inp , and the speaker subspace movement vector v i , s , m n of the representative speaker. The speaker subspace movement vector storage unit (12) of the representative speaker to be stored and the speaker subspace movement vector v of the input speaker stored in the speaker subspace movement vector storage unit (10b) of the input speaker. i , s ,
It is obtained by the representative speaker selecting unit (10c) that selects the speaker subspace movement vectors v i , s , and m spno of the representative speaker that are close to m inp in distance, and the representative speaker selecting unit (10c). The representative speaker's speaker subspace movement vectors v i , s , m spno , the input speaker's speaker subspace movement vectors v i , s , m inp , and the initial model mean vectors μ i , s , m . used, the mean vector mu i, s after the speaker adaptation, speaker adaptation after model construction unit for determining the m inp (10d)
If, HMM learning device characterized by comprising a mean vector mu i, s after speaker adaptation, adaptive post-model storage unit for storing the m inp (14), the.
JP26395894A 1994-03-18 1994-10-27 HMM learning device Expired - Fee Related JP3448371B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26395894A JP3448371B2 (en) 1994-03-18 1994-10-27 HMM learning device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4936794 1994-03-18
JP6-49367 1994-03-18
JP26395894A JP3448371B2 (en) 1994-03-18 1994-10-27 HMM learning device

Publications (2)

Publication Number Publication Date
JPH07306690A JPH07306690A (en) 1995-11-21
JP3448371B2 true JP3448371B2 (en) 2003-09-22

Family

ID=26389751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26395894A Expired - Fee Related JP3448371B2 (en) 1994-03-18 1994-10-27 HMM learning device

Country Status (1)

Country Link
JP (1) JP3448371B2 (en)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
大倉,大西,飯田,複数代表話者の話者空間移動ベクトルに基づく不特定話者HMMの話者適応,電子情報通信学会技術研究報告[音声],日本,1994年 6月16日,Vol.94,No.90,SP94−21,Pages 53−60
大倉,大西,飯田,話者空間移動ベクトルに基づく不特定話者モデルの話者適応,日本音響学会平成6年度春季研究発表会講演論文集,日本,1994年 3月23日,3−7−9,Pages 105−106
大倉,大西,飯田,話者空間移動ベクトルに基づく話者適応法における代表話者選択手法,日本音響学会平成6年度秋季研究発表会講演論文集,日本,1994年10月31日,2−8−22,Pages 81−82
大倉,杉山,嵯峨山,混合連続分布HMM移動ベクトル場平滑化話者適応方式,電子情報通信学会論文誌D−II,日本,1993年12月,Vol.J76−D−II,No.12,Pages 2469−2476
宮永,嵯峨山,移動ベクトル場平滑化話者適応方式における標準話者選択方式の検討,日本音響学会平成4年度秋季研究発表会講演論文集,日本,1992年10月 5日,2−5−2,Pages 121−122

Also Published As

Publication number Publication date
JPH07306690A (en) 1995-11-21

Similar Documents

Publication Publication Date Title
US5440662A (en) Keyword/non-keyword classification in isolated word speech recognition
US5793891A (en) Adaptive training method for pattern recognition
JP5418223B2 (en) Speech classification device, speech classification method, and speech classification program
US6151574A (en) Technique for adaptation of hidden markov models for speech recognition
US5509103A (en) Method of training neural networks used for speech recognition
JP2733955B2 (en) Adaptive speech recognition device
JP4531166B2 (en) Speech recognition method using reliability measure evaluation
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP2002500779A (en) Speech recognition system using discriminatively trained model
JPH07334184A (en) Calculating device for acoustic category mean value and adapting device therefor
US5129001A (en) Method and apparatus for modeling words with multi-arc markov models
US5956676A (en) Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system
JP2002358096A (en) Method and device for training parameters of pattern recognition system exactly associated with one implemented transform example of one pattern from list
JP3130524B2 (en) Speech signal recognition method and apparatus for implementing the method
JP2751856B2 (en) Pattern adaptation method using tree structure
JP3536471B2 (en) Identification device and identification method, and speech recognition device and speech recognition method
JPH064097A (en) Speaker recognizing method
JP3448371B2 (en) HMM learning device
JP3589044B2 (en) Speaker adaptation device
JPH08110792A (en) Speaker adaptation device and speech recognition device
Takahashi et al. Tied-structure HMM based on parameter correlation for efficient model training
JP3044741B2 (en) Standard pattern learning method
Lee On the use of some robust modeling techniques for speech recognition
Ney et al. Acoustic-phonetic modeling in the SPICOS system
JP2705537B2 (en) Speaker learning device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080704

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees