JP3256979B2 - A method for finding the likelihood of an acoustic model for input speech - Google Patents

A method for finding the likelihood of an acoustic model for input speech

Info

Publication number
JP3256979B2
JP3256979B2 JP09693591A JP9693591A JP3256979B2 JP 3256979 B2 JP3256979 B2 JP 3256979B2 JP 09693591 A JP09693591 A JP 09693591A JP 9693591 A JP9693591 A JP 9693591A JP 3256979 B2 JP3256979 B2 JP 3256979B2
Authority
JP
Japan
Prior art keywords
speech
model
learning
likelihood
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP09693591A
Other languages
Japanese (ja)
Other versions
JPH04326400A (en
Inventor
達雄 松岡
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP09693591A priority Critical patent/JP3256979B2/en
Publication of JPH04326400A publication Critical patent/JPH04326400A/en
Application granted granted Critical
Publication of JP3256979B2 publication Critical patent/JP3256979B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は音声認識方式における
モデルとして用いられ、音声の音響的特徴量を抽出し、
その特徴量を統計的にモデル化した音響モデルの入力音
声に対する尤度を求める方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is used as a model in a speech recognition system, and extracts acoustic features of speech.
Input sound of an acoustic model whose features are statistically modeled
The present invention relates to a method for calculating likelihood for a voice .

【0002】[0002]

【従来の技術】音声の音響的特徴を確率的、統計的にモ
デル化する手法である隠れマルコフ法(Hidden
Markov Model:HMM)を用いた音声認識
システムでは、一認識対象カテゴリ、つまり音節、単
語、文節などの語彙(あるいは認識対象単位)ごとに、
ひとつ、あるいは複数のHMMを設定し、学習用音声を
用いて学習する。認識時には、音声認識システムの入力
音声がそれらのモデルから観測される確率を計算し、尤
度(尤もらしさ)の最も高いモデルのカテゴリを入力音
声のカテゴリと判定する、あるいは、尤度の高い順に認
識カテゴリ候補としている。HMMは、統計的なモデル
であるから学習用音声中に現われた頻度に従って、ある
カテゴリとある音響的特徴とを関連づける強さを内部に
確率分布として蓄積する。
2. Description of the Related Art Hidden Markov method (Hidden method), which is a technique for stochastically and statistically modeling acoustic features of speech.
In a speech recognition system using a Markov Model (HMM), for each recognition target category, that is, for each vocabulary (or recognition target unit) such as a syllable, a word, and a phrase,
One or a plurality of HMMs are set, and learning is performed using a learning voice. At the time of recognition, the probability that the input speech of the speech recognition system is observed from those models is calculated, and the category of the model having the highest likelihood (likelihood) is determined as the category of the input speech, or in the order of the highest likelihood. It is a recognition category candidate. Since the HMM is a statistical model, the strength of associating a certain category with a certain acoustic feature is stored therein as a probability distribution according to the frequency of appearance in the learning speech.

【0003】一方、音声認識システムでは、認識対象と
なる音声は、しばしば学習用音声とは違った発話様式
(例えば、速い、遅い、大きい、小さいなど)、収音条
件(マイクロホン、伝送特性など)、周囲雑音環境など
で発声され、これが認識率の低下を招いている。不特定
話者音声認識では話者の違いも認識率を低下させる。H
MMは学習音声中に現われた音響的特徴については、非
常によくモデル化を行なうことができるが、学習音声中
に出現頻度が少ない、あるいは全く出現しない音響的特
徴についてはうまくモデル化することができない。した
がって、HMMを用いた音声認識システムで、さまざま
な発話様式(例えは、速い、遅い、大きい、小さい、質
問口調など)の音声に対しても高い認識率を得るために
いくつかの方法が提案されてきた。
On the other hand, in a speech recognition system, the speech to be recognized is often an utterance style (eg, fast, slow, loud, small, etc.) different from the learning speech, and sound collecting conditions (microphone, transmission characteristics, etc.). Is uttered in an ambient noise environment or the like, which causes a reduction in the recognition rate. In speaker-independent speech recognition, differences in speakers also reduce the recognition rate. H
MM can model very well the acoustic features that appear in the training speech, but can model well the acoustic features that appear infrequently or not at all in the training speech. Can not. Therefore, in the speech recognition system using the HMM, several methods are proposed to obtain a high recognition rate even for speech of various utterance styles (for example, fast, slow, large, small, question tone, etc.). It has been.

【0004】そのひとつの方法は、通常の発声の他に、
意図的に、さまざまな発話様式の発声も学習用音声とし
て集め、その学習用音声を用いてHMMを学習し、モデ
ルがさまざまな発話様式の音声に対して頑健に構成され
ることを図った方法(1)(2)である。しかしながら、現実
には、さまざまな発話様式の音声を集めることは非常に
困難であるし、発話様式や、収音条件、周囲雑音条件な
どあらゆる異なった条件を網羅することは不可能である
ため、この方法によって対応できる認識対象音声には限
りがある。また、学習用音声の増加に伴ってHMMの学
習に必要な計算時間が膨大になっていくことが大きな問
題であった。
[0004] One of the methods is, in addition to ordinary utterances,
A method that intentionally collects utterances of various utterance styles as learning sounds, learns the HMM using the learning utterances, and attempts to construct a model robustly for various utterance styles. (1) and (2) . However, in reality, it is very difficult to collect voices of various utterance styles, and it is impossible to cover all different conditions such as utterance styles, sound pickup conditions, and ambient noise conditions. There is a limit to the recognition target speech that can be handled by this method. Another major problem is that the computation time required for HMM learning becomes enormous as the number of learning voices increases.

【0005】もうひとつの方法は、HMMが離散確率分
布モデルの場合にのみ適用可能な方法である。HMMが
離散確率分布モデルの場合には、音声信号の系列を符号
化して表現するので、その符号化のためのコードブック
をコードブックマッピングと呼ばれる方法(3) により変
換することにより学習済みのモデルを他の発話様式に適
応化する方法(2) である。この方法について、普通の速
度で発声された音声で学習したモデルを速い発声の音声
に適応化する場合を例として説明する。普通の速度の発
声と速い発声の音声とがあるとき、普通の発声速度の音
声を用いてコードブック1を、速い発声の音声を用いて
コードブック2を、設計する。そして、普通の速度の発
声の音声をコードブック1を用いてベクトル量子化し、
その結果のコードブック1のコードワードの系列をHM
Mで学習する。つぎに、発声内容が同じで発声速度が普
通の音声と速い音声を、それぞれコードブック1、コー
ドブック2を用いてベクトル量子化し、コードブック1
とコードブック2の各コードワードの対応関係をDPマ
ッチングにより求める。発声速度の速い音声を認識対象
とするときには、コードブック2でベクトル量子化を行
ない、その結果を、コードブック1とコードブック2の
対応関係からコードブック1のコードワード系列に変換
し、コードブック1を用いて学習したHMMを用いて速
い発声速度の音声を認識することが可能になる。しかし
ながら、この方法も、さまざまな発話様式の音声を学習
用音声として持っていることが前提となっている。すな
わち、先の例では、普通の速度の発声と、速い速度の発
声の両方の音声をそれぞれコードブックが設計できるほ
ど大量に持っていなければならない。また、発声内容が
同じで発声速度の異なる音声が得られなければコードブ
ックマッピングは行なえない。さらに、速い速度の音声
によってコードブックが設計できるほどであれば、速い
発声速度の音声でHMM自体を学習することが可能であ
る。したがって、この方法は、先の方法と同様に学習用
音声の収集の問題を含んでいる。また、HMMは一通り
の発声について学習すればよいが、コードブックを各発
話様式に対応して設計する必要があるため、HMMを学
習するのと同じくらいの計算時間を必要とすることが問
題であった。 参考文献 (1)Lippmann,R.,et al.,”Mu
lti−style Training for ro
bust isolated−word speech
recognition,”Proceedings
of International Confere
nce on Acoustics,Speech a
nd Signal Processing ’87,
17.4,pp.705−708,1987 (2)三樹、他、”発話変動への適応化手法を用いた音
声認識”、電子情報通信学会技術研究報告、SP90−
19、1990.6 (3)Shikano,K.,et al.,”Spe
aker−Adaptation through V
ector Quantization,”Proce
edings of International C
onference on Acoustics,Sp
eech and Signal Processin
g ’86,pp.2643−2646,1986 本発明の目的は、さまざまな発話様式の音声に対して高
い認識性能を得ようとするときに大きな問題であった学
習用音声の収集の労力を大幅に削減し、さらに、HMM
のパラメータの再推定や、コードブックの再設計など膨
大な計算時間を必要とした処理を不要とし、限られた学
習用音声と計算時間を使って、学習用音声には含まれて
いなかった発話様式の音声に対しても高い認識性能を得
ることのできる音響モデルの入力音声に対する尤度を求
める方法を提供することにある。
Another method is a method applicable only when the HMM is a discrete probability distribution model. In the case where the HMM is a discrete probability distribution model, a sequence of speech signals is encoded and represented. Therefore, a codebook for the encoding is converted by a method called codebook mapping (3), and the learned model is converted. Is a method (2) for adapting to other utterance styles. This method will be described by taking as an example a case where a model learned with a voice uttered at a normal speed is adapted to a voice uttered at a high speed. When there is a normal utterance rate and a fast utterance rate, a codebook 1 is designed using a normal utterance rate voice, and a codebook 2 is designed using a fast utterance rate. Then, the speech of the utterance at a normal speed is vector-quantized using the codebook 1, and
The resulting codeword 1 codebook sequence is HM
Learn with M. Next, the speech having the same utterance content and the normal utterance speed and the fast utterance speed are vector-quantized using the codebook 1 and the codebook 2, respectively.
And the corresponding relationship between each codeword of the codebook 2 and the corresponding codeword are obtained by DP matching. When a speech having a high utterance speed is to be recognized, vector quantization is performed in the codebook 2 and the result is converted into a codeword sequence of the codebook 1 from the correspondence between the codebook 1 and the codebook 2. 1 can be used to recognize a speech with a high utterance speed. However, this method is also based on the premise that voices of various utterance styles are provided as learning voices. That is, in the above example, both normal-speed utterances and high-speed utterances must be provided in such a large amount that a codebook can be designed. Codebook mapping cannot be performed unless voices with the same voice content but different voice speeds are obtained. Furthermore, if the codebook can be designed with a high-speed voice, it is possible to learn the HMM itself with a high-speed voice. Therefore, this method involves the problem of collecting learning speech as in the previous method. In addition, the HMM only needs to learn one utterance, but since the codebook needs to be designed for each utterance style, it takes a similar amount of calculation time as learning the HMM. Met. References (1) Lippmann, R .; , Et al. , "Mu
lti-style Training for ro
bus isolated-word speech
recognition, "Proceedings
of International Conference
nice on Acoustics, Speech a
nd Signal Processing '87,
17.4, pp. 705-708, 1987 (2) Miki, et al., "Speech Recognition Using Adaptation to Utterance Variation", IEICE Technical Report, SP90-
19, 1990.6 (3) Shikano, K .; , Et al. , "Spe
aker-Adaptation through V
vector Quantization, "Proce
edings of International C
onence on Acoustics, Sp
ech and Signal Processin
g '86, pp. 2643-2646, 1986 An object of the present invention is to significantly reduce the labor of collecting learning speech, which is a major problem when trying to obtain high recognition performance for speech of various utterance styles. HMM
Speech that was not included in the training speech using limited training speech and computation time, eliminating the need for enormous computation time, such as re-estimation of parameters and codebook redesign. Finding the likelihood of an acoustic model that can achieve high recognition performance even for speech of a style
It is to provide a method for optimizing .

【0006】[0006]

【課題を解決するための手段】この発明によれば各一認
識対象カテゴリについて、それぞれ統計的性質の異なる
n個(nは2以上の整数)の学習用音声セットを用い
て、それぞれと対応するn個の音響モデルを作成し、こ
れらn個の音響モデルをそれぞれ結合係数で重み付けて
結合して上記一認識対象カテゴリに対する一つの音響モ
デルとする。
According to the present invention, for each recognition target category, n (n is an integer of 2 or more) learning voice sets having different statistical properties are used to correspond to each category. The n acoustic models are created, and the n acoustic models are weighted by coupling coefficients and combined to form one acoustic model for the one recognition target category.

【0007】更に高い認識率を上げるには、認識対象音
声の一部を用いて学習することにより、結合係数を適応
化する。この学習は学習音声の一部を用いて学習し、そ
の残りの学習音声を評価し、その一部を代えて同様のこ
とを繰り返し、最適な結合係数を求めることにより行
う。このようにして認識対象音声に対して高い認識性能
をもつモデルを従来法より、数分の一から数十分の一の
学習用音声、計算時間で構成することができる。従来の
技術に対し、(1)HMM自体の再学習を必要としな
い、(2)コードブックの再設計を必要としない、
(3)認識対象と同様の統計的性質を持つ学習用音声を
従来法の数十分の一から、数分の一程度しか必要としな
い、などの利益がある。
In order to further increase the recognition rate, the coupling coefficient is adapted by learning using a part of the speech to be recognized. This learning is performed by learning using a part of the learning voice, evaluating the remaining learning voice, repeating the same operation by replacing a part of the learning voice, and obtaining an optimum coupling coefficient. In this way, a model having a high recognition performance for the recognition target speech can be constituted by a fraction to one-tenth of the learning speech and the calculation time by the conventional method. Compared to the prior art, (1) no re-learning of the HMM itself is required, (2) no re-design of the codebook is required,
(3) There is an advantage in that a learning voice having the same statistical properties as the recognition target is required to be only about one tenth to several tenths of the conventional method.

【0008】[0008]

【実施例】【Example】

実施例1 以下この発明の一実施例として、統計的性質の異なる学
習用音声セットから作成した2個の音響モデルとして、
単語ごとに区切って発声された音声で学習したHMM
と、文節ごとに区切って発声された音声で学習したHM
Mとを用いて、自由に発声された連続音声に適応化した
モデルを構成する場合について、図面を参照して説明す
る。
Embodiment 1 Hereinafter, as one embodiment of the present invention, two acoustic models created from learning speech sets having different statistical properties will be described.
HMMs learned from voices uttered separately for each word
And HM learned with voices uttered in sections
A case in which a model adapted to a freely uttered continuous voice using M and a model configured will be described with reference to the drawings.

【0009】図1にこの発明を適用した音声認識装置を
示す。音声入力部1でアナログ音声信号Aがディジタル
音声信号Bに変換され、そのディジタル音声信号Bから
音響特徴量(例えば、ケプストラム、Δケプストラム、
Δパワーなど)Cが音響特徴量抽出部2で抽出される。
結合係数や、モデルの尤度などが演算部3で計算され、
HMMのパラメータや、結合係数などがメモリ4に格納
され、演算部3からは認識結果Eが出力される。音響特
徴量抽出部2は、ハードウェアにより実現しても、ある
いは、ソフトウェアにより実現してもよい。ソフトウェ
アにより実現する場合には、演算部3の演算能力が十分
にあれば演算部3で実現しても差しつかえない。
FIG. 1 shows a speech recognition apparatus to which the present invention is applied. The analog audio signal A is converted into a digital audio signal B by the audio input unit 1, and the digital audio signal B is used to convert acoustic features (for example, cepstrum, Δ cepstrum,
C is extracted by the acoustic feature quantity extraction unit 2.
The coupling coefficient, the likelihood of the model, and the like are calculated by the calculation unit 3,
HMM parameters, coupling coefficients, and the like are stored in the memory 4, and the calculation unit 3 outputs a recognition result E. The acoustic feature quantity extraction unit 2 may be realized by hardware or may be realized by software. In the case of realization by software, it can be realized by the arithmetic unit 3 if the arithmetic capability of the arithmetic unit 3 is sufficient.

【0010】図2にこれら二つのHMMを結合させた音
響モデルを示し、かつそのモデルの尤度計算の演算手順
を示す。この図に示す演算は図1の演算部3において行
なわれる。組み合わせモデルは認識対象カテゴリ(語
彙)ごとに設ける。認識対象とする自由に発声された連
続音声の音響特徴量Cは、単語ごとに区切って発声され
た音声で学習された当該語彙に対するHMM(モデル
1)の尤度の計算5と、同じく文節ごとに区切って発声
された音声で学習された当該語彙に対するHMM(モデ
ル2)の尤度の計算6とがなされ、モデル1、モデル2
から観測される尤度の各計算結果に対し結合係数λ1
λ2 乗算7,8がそれぞれなされ、これらモデル1、
モデル2の各尤度にそれぞれ結合係数を乗じた値の加算
9がなされ、その加算値が、この組み合わせモデルの入
力音声に対する尤度Dである。つまりこの組み合わせモ
デルがこの語彙に対する一つの音響モデルであり、この
音響モデルから音響特徴量ベクトルx が出力される尤度
P(x) は、モデル1、モデル2からその音響特徴量ベク
トルx が出力される尤度をそれぞれP1 (x) 、P2 (x)
とすると(1)式で表される。つまりモデル1とモデル
2とは線形結合されている。
FIG. 2 shows an acoustic model in which these two HMMs are combined, and shows a calculation procedure of likelihood calculation of the model. The calculation shown in this figure is performed in the calculation unit 3 of FIG. A combination model is provided for each recognition target category (vocabulary). The acoustic feature value C of the freely uttered continuous speech to be recognized is calculated by calculating the likelihood of the HMM (model 1) for the vocabulary learned from the uttered speech divided into words 5 and similarly for each phrase. HMM is a calculation 6 likelihood of (model 2) made for that vocabulary learned speech uttered separated, the model 1, model 2
For each calculation result of the likelihood observed from, the coupling coefficient λ 1 ,
lambda 2 multiplication 7,8 is made, respectively, of these models 1,
The addition 9 of the value obtained by multiplying each likelihood of the model 2 by the coupling coefficient is performed, and the added value is the likelihood D of the combination model with respect to the input speech. That is, this combination model is one acoustic model for this vocabulary, and the likelihood P (x) from which the acoustic feature vector x is output from this acoustic model is the output of the acoustic feature vector x from model 1 and model 2. Let P 1 (x) and P 2 (x) be the likelihoods
Then, it is expressed by equation (1). That is, the model 1 and the model 2 are linearly combined.

【0011】 P(x) =λ1 1 (x) +λ2 2 (x) (1) ここで、λ1 +λ2 =1 (1)式の結合係数λ1 ,λ2 はモデル1,2の性質か
ら予め固定的に決めてもよいが、認識対象となる連続発
声の学習用音声を用いて、学習することによりその認識
対象に適するように決定してもよい。その適応化は例え
ば(2)式、(3)式を繰り返し計算することにより求
める。
[0011] P (x) = λ 1 P 1 (x) + λ 2 P 2 (x) (1) Here, λ 1 + λ 2 = 1 (1) the coupling coefficient of the equation lambda 1, lambda 2 is the model 1, Although it may be fixedly determined in advance from the second property, it may be determined so as to be suitable for the recognition target by learning using a continuous utterance learning voice to be recognized. The adaptation is obtained, for example, by repeatedly calculating the equations (2) and (3).

【0012】 cj =Σ{λj j (xi ) /P(xi ) } (j=1,2;i=1,2,3, …,N) (2) λ′j =cj /Σcj (3) ただし、Nは適応化学習音声中の当該語彙のトークンの
数である。これは学習データを二つに分け、半分でモデ
ルを学習し、残りのデータで、λを推定するheld
−out−interpolation”と呼ばれる方
法である。この方法に限らず、例えばdeleted
−interpolation”を用いてλを推定して
もよい。この場合(2)′式、(3)′式の漸化式によ
り再推定を繰り返すことにより求められる。
C j = {λ j P j (x i ) / P (x i )} (j = 1,2; i = 1,2,3,..., N) (2) λ ′ j = c j / Σc j (3) where N is the number of tokens of the vocabulary in the adaptive learning speech. This is divided into the learning data to two, to learn the model in half, the rest of the data, to estimate the λ "held
-Out-interpolation ". Not limited to this method, for example, " deleted
Λ may be estimated using “−interpolation”. In this case, the λ is obtained by repeating re-estimation using the recurrence formulas (2) ′ and (3) ′.

【0013】 cj =Σ{λj i j (xi ) /Pi (xi ) } (2)′ λ′j =cj /Σcj (3)′ Pi j (xi ) ,Pi (xi ) はi番目のデータxi を除い
て学習したモデルによるxi の尤度である。λ′を
(1)、(2)′式に代入して値が収束するまで再推定
を繰り返す。
C j = Σ {λ j P i j (x i ) / P i (x i )} (2) ′ λ ′ j = c j / jc j (3) ′ P i j (x i ), P i (x i ) is the likelihood of x i by the model learned except for the i-th data x i . Substituting λ ′ into the expressions (1) and (2) ′ and repeating re-estimation until the values converge.

【0014】図3に認識時における認識結果の判定方法
を示す。ここでは、一例として、認識語彙数が5の場合
を示している。語彙1〜語彙5の図に示した音響モデ
ル111 〜115 の入力音声の音響特徴量に対する尤
度がそれぞれD1 〜D5 となったことを示す。認識時に
はこの尤度D1 〜D5 のうち最大となる語彙を認識結果
とする、あるいは、尤度の高い順に認識結果候補とす
る。
FIG. 3 shows a method of judging a recognition result at the time of recognition. Here, as an example, a case where the number of recognized words is five is shown. It indicates that the likelihood for the acoustic feature quantity C of the input speech acoustic model 11 1 to 11 5 shown in FIG. 3 vocabulary 1 vocabulary 5 becomes D 1 to D 5, respectively. At the time of recognition, the vocabulary having the maximum of the likelihoods D 1 to D 5 is set as a recognition result, or as a recognition result candidate in the order of higher likelihood.

【0015】この実施例の方法を用いて、単語ごとに区
切って発声された音声を用いて学習したモデルと、文節
ごとに区切って発声された音声を用いて学習したモデル
とを線形結合し、更にそれを連続発声された認識対象音
声に適応化したモデルで、日本語18子音の音素認識実
験を行なった結果を図4に示す。一括学習モデルは、単
語発声、文節発声、連続発声を同時に用いて学習したモ
デルを用いた結果であり、組み合わせモデルは、前記実
施例のモデル、つまり、単語発声で学習したモデルと文
節発声で学習したモデルを線形結合したモデルの結合係
数を連続発声の音声を用いて学習したモデルを用いた結
果であるが、(3)の学習なしは、連続発声の音声を用
いて結合係数を学習適応化していない場合である。
(1)は単語発声と文節発声の音声に加えて連続発声の
音声を20文章用いた場合、(2)は単語発声と文節発
声の音声に加えて連続発声の音声を10文章用いた場
合、そして、(3)は単語発声と文節発声だけを用い
て、連続発声を用いなかった場合を示している。
(a)、(b)、(c)は評価音声の種類を示してい
る。この図4に示す結果から、(1)、(2)、(3)
のどの場合にも、連続発声の音声に対しては、組み合わ
せモデル、つまりこの発明の実施例の方が高い認識率を
示しており、特に結合係数の適応化学習をしなくても高
い認識率を示し、この発明の手法の有効性を実証してい
る。 実施例2 次にこの発明の実施例2として、統計的性質が異なる学
習用音声セットを用いたモデルとして、コンテキスト独
立型HMMとコンテキスト依存型HMMとを用い、これ
らを組み合わせることにより音響モデルを発話様式の変
動に対して頑健にする場合について説明する。例えば、
音素/a/の音響的性質(あるいは音響的様態)はその
前後の音素が何であるかにより異なる。前後の音素の違
いによって異なるHMMを設ける場合にそのHMMをコ
ンテキスト依存型HMMと言う。例えば、/akai/
という語の1番目の/a/は語頭にあって直後が/k/
である。2番目の/a/は直前が/k/で直後が/i/
である。1番目の/a/を#−a−kというHMMで表
現し、2番目の/a/をk−a−iというHMMで表現
して、それぞれのモデルの学習にはコンテキストが一致
する/a/だけを学習音声として用いるとき、これらの
HMMをコンテキスト依存型HMMという。コンテキス
ト依存型HMMのコンテキストを前後1音素ずつ考えた
場合をトリホンベース(triphone−base)
と言う。前後どちらか一つを考慮に入れる場合をバイホ
ンベース(biphone−base)と言う。前後の
音素数を多く選べばそれだけ音響的な環境条件の制約を
厳しくすることになり、モデルは詳細なものになるが、
出現頻度が少なくなり学習用音声を収集するのが困難に
なる。一方、前後がどのような音素であっても/a/に
ついてはすべて/a/というHMMで表現する場合この
HMMをコンテキスト独立型HMMと言う。コンテキス
ト独立型HMMの場合には、さまざまな音素環境の/a
/を学習用音声として用いるため、学習用音声の音響的
性質に関する分散は大きいが、出現頻度は多くなるの
で、多くの学習用音声を使うことができる。
By using the method of this embodiment, a model trained by using the voice uttered by separating each word and a model learned by using the voice uttered by separating each phrase are linearly combined, Further, FIG. 4 shows the result of a phoneme recognition experiment of 18 consonants in Japanese with a model adapted to the continuously uttered recognition target speech. The collective learning model is a result of using a model learned by simultaneously using word utterance, phrase utterance, and continuous utterance, and the combination model is a model of the above-described embodiment, that is, a model trained by word utterance and a model learned by phrase utterance. The results obtained by using a model obtained by learning the coupling coefficients of a model obtained by linearly combining the models obtained using continuous uttered voices. In the case of (3) without learning, the coupling coefficients are learned and adapted using continuous uttered voices. If not.
(1) When 20 sentences of continuous speech are used in addition to the words and phrases, and (2) When 10 sentences of continuous speech are used in addition to the words and phrases. (3) shows a case where only word utterance and phrase utterance are used, and continuous utterance is not used.
(A), (b), and (c) show types of evaluation voice. From the results shown in FIG. 4, (1), (2), (3)
In all cases, the combination model, that is, the embodiment of the present invention, has a higher recognition rate for continuous utterance speech, and particularly has a higher recognition rate without performing the adaptation learning of the coupling coefficient. To demonstrate the effectiveness of the technique of the present invention. Second Embodiment Next, as a second embodiment of the present invention, a context-independent HMM and a context-dependent HMM are used as models using learning speech sets having different statistical properties, and an acoustic model is uttered by combining these. A case where the system is made robust against a change in style will be described. For example,
The acoustic properties (or acoustic aspects) of the phoneme / a / differ depending on what the preceding and following phonemes are. When a different HMM is provided depending on the difference between the preceding and succeeding phonemes, the HMM is called a context-dependent HMM. For example, / akai /
The first / a / in the word is at the beginning of the word and immediately after / k /
It is. The second / a / is immediately before / k / and immediately after / i /
It is. The first / a / is represented by an HMM # -ak, and the second / a / is represented by an HMM k-a-i. When only / is used as a learning speech, these HMMs are called context-dependent HMMs. Triphone-base is a case where the context of a context-dependent HMM is considered one phoneme before and after.
Say A case in which one of the front and the back is taken into account is called a biphone-base. The more phonemes you choose before and after, the more restrictive the acoustic environmental conditions will be and the more detailed your model will be.
The frequency of appearance decreases, and it becomes difficult to collect learning sounds. On the other hand, when all the / a / are expressed by the HMM of / a / regardless of the phonemes before and after, this HMM is called a context-independent HMM. In the case of a context-independent HMM, / a of various phonemic environments
Since / is used as the learning voice, the variance of the acoustic properties of the learning voice is large, but the frequency of appearance is high, so that many learning voices can be used.

【0016】図5に、コンテキスト独立型HMMとコン
テキスト依存型HMMとを線形結合したモデルの尤度を
計算する処理を示している。モデル121 はコンテキス
ト独立型HMMで、モデル122 〜モデル12M は(M
−1)個のコンテキスト依存型HMMである。例えばM
=3の時、モデル122 をbiphone−base
の、モデル123 をtriphone−baseのコン
テキスト依存型HMMとする。さらにクオドラホンベー
ス(quadraphone−base4連鎖)、クウ
ンホンベース(quintphone−base5連
鎖)などのより詳細なコンテキスト依存型HMMを考え
てもよい。実施例1と同様に、組み合わせモデルから音
響特徴量ベクトルxが出力される尤度P(x) は、音響特
徴ベクトルxがそれぞれモデル121 〜モデル12M
ら出力され尤度をP1 (x) 〜PM (x)とし、これらそれ
ぞれ131 〜13M で乗ずる結合係数をλ1 〜λM とす
るとき、次式で表わされる。
FIG. 5 shows a process for calculating the likelihood of a model obtained by linearly combining a context-independent HMM and a context-dependent HMM. Model 12 1 in the context independent HMM, model 12 2-model 12 M is (M
-1) context-dependent HMMs. For example, M
= Time of 3, the model 12 2 biphone-base
Of the model 12 3 and context-dependent HMM for triphone-base. Further, more detailed context-dependent HMMs such as quadraphone base (quadraphone-base 4 chain) and quadraphone base (quintphone-base 5 chain) may be considered. As in Example 1, the likelihood P of acoustic feature vectors x of a combination model is output (x) is the acoustic feature vector x is output from the model 12 1 to model 12 M, respectively likelihood P 1 (x ) to P and M (x), when the coupling coefficient to be multiplied by their respective 13 1 to 13 M and lambda 1 to [lambda] M, is expressed by the following equation.

【0017】 P(x) =λ1 1 (x) +λ2 2 (x) +…+λM M (x) (4) ここで、λ1 +λ2 +…+λM =1 (4)式のλ1 〜λM は、次の(5)(6)式を繰り返
し計算することにより求める。 cj =Σ{λj j (xi ) /P(xi ) } (5) λ′j =cj /Σcj (6) ここで、M=3として、P1 (xi ) をコンテキスト独立
型HMM、P2 (xi )をbiphone−baseのコ
ンテキスト依存型HMM、P3 (xi ) をtriphon
e−baseのコンテキスト依存型HMMとするとこれ
らを組み合わせたモデルの観測ベクトルxi に対する尤
度P(xi ) は(7)式で表される。
[0017] P (x) = λ 1 P 1 (x) + λ 2 P 2 (x) + ... + λ M P M (x) (4) Here, λ 1 + λ 2 + ... + λ M = 1 (4) Λ 1 to λ M in the equations are obtained by repeatedly calculating the following equations (5) and (6). c j = Σ {λ j P j (x i ) / P (x i )} (5) λ ′ j = c j / Σc j (6) Here, assuming M = 3, P 1 (x i ) is A context-independent HMM, P 2 (x i ) is a biphone-base context-dependent HMM, and P 3 (x i ) is a triphon.
Assuming that the e-base context-dependent HMM is used, the likelihood P (x i ) for the observation vector x i of a model combining these is expressed by equation (7).

【0018】 P(xi ) =λ1 1 (xi ) +λ2 2 (xi ) +λ3 3 (xi ) (7) ただし、λ1 +λ2 +λ3 =1 このモデルを、認識対象とする音声の一部を用いて
λ1 、λ2 、λ3 を学習することにより、認識対象音声
に適応化する。 実施例3 統計的性質が異なる学習用音声セットからそれぞれ求め
たHMMとして、話者ごとに学習したHMMを用い、こ
れらを組み合わせて新たな話者の発声に適応化すること
ができる。それぞれ異なる話者の音声で学習したモデル
を図5に示したように組み合わせて、その結合係数を認
識対象話者の音声で適応化学習する。適応化学習におけ
る結合係数の学習方法は、実施例2に示した方法と同様
である。 実施例4 音響モデルを学習音声を用いて学習するHMMベースの
音声認識手法では、学習音声と実際の認識対象音声との
収音系の違いによる影響を受けやすい。音声の収音系の
違いに対して耐性の高い認識システムを構成するため、
この発明の方法により、統計的性質の異なる学習用音声
セットとして複数の異なる収音系で収音した音声を用い
てそれぞれ学習したモデルを線形結合し、その結合係数
を認識対象音声の収音系で収音した音声で適応化学習す
ることにより、収音系の影響を少なくすることができ
る。
P (x i ) = λ 1 P 1 (x i ) + λ 2 P 2 (x i ) + λ 3 P 3 (x i ) (7) where λ 1 + λ 2 + λ 3 = 1 By learning λ 1 , λ 2 , and λ 3 using a part of the speech to be recognized, the speech is adapted to the speech to be recognized. Embodiment 3 HMMs learned for each speaker are used as HMMs obtained from learning speech sets having different statistical properties, and these can be combined to adapt to a new speaker's utterance. The models learned with the voices of the different speakers are combined as shown in FIG. 5, and the coupling coefficient is adaptively learned with the voice of the recognition target speaker. The method of learning the coupling coefficient in the adaptive learning is the same as the method described in the second embodiment. Embodiment 4 In an HMM-based speech recognition method of learning an acoustic model using a learning speech, the acoustic model is easily affected by a difference in a sound collection system between the learning speech and the actual speech to be recognized. In order to construct a recognition system that is highly resistant to differences in sound collection systems,
According to the method of the present invention, models learned individually by using sounds collected by a plurality of different sound collection systems as learning sound sets having different statistical properties are linearly combined, and their coupling coefficients are determined by the sound collection system of the recognition target sound. By performing the adaptive learning using the voice collected by the above, the influence of the voice collection system can be reduced.

【0019】[0019]

【発明の効果】この発明によれば、統計的性質が異なる
学習音声セットからそれのHMM音響モデルを作り、こ
れら音響モデルを同一カテゴリについて結合係数で重み
付けして組み合わせてそのカテゴリに対する1つの音響
モデルとすることにより、認識率を高くすることができ
る。特にその結合係数を認識対象音声で適応化すること
で、学習音声とは統計性質の異なる認識対象音声に適応
化したHMM音響モデルが構成できる。適応化学習で
は、HMM自体のパラメータは学習せず結合係数だけを
学習するため、学習すべきパラメータ数が非常に少な
く、よって、少ない学習用音声と短い計算時間で適応化
が可能である。
According to the present invention, HMM acoustic models are created from learning speech sets having different statistical properties, and these acoustic models are weighted by the coupling coefficient for the same category and combined to form one acoustic model for that category. By doing so, the recognition rate can be increased. In particular, by adapting the coupling coefficient with the recognition target speech, an HMM acoustic model adapted to the recognition target speech having a statistical property different from that of the learning speech can be configured. In the adaptive learning, since only the coupling coefficient is learned without learning the parameters of the HMM itself, the number of parameters to be learned is very small. Therefore, the adaptation can be performed with a small learning voice and a short calculation time.

【図面の簡単な説明】[Brief description of the drawings]

【図1】音声認識システムの一般的構成を示すブロック
図。
FIG. 1 is a block diagram showing a general configuration of a speech recognition system.

【図2】この発明の一例における二つのモデルの線形結
合の様子を示す図。
FIG. 2 is a diagram showing a state of a linear combination of two models in an example of the present invention.

【図3】図2で得られた結合モデルを用いた認識時にお
ける認識結果の判定方法を説明する図。
FIG. 3 is a view for explaining a method of determining a recognition result at the time of recognition using the combined model obtained in FIG. 2;

【図4】日本語18子音に対する認識結果を示す図。FIG. 4 is a diagram showing recognition results for 18 Japanese consonants.

【図5】この発明による複数のモデルの線形結合の様子
を一般的な場合について示す図。
FIG. 5 is a diagram showing a state of linear combination of a plurality of models according to the present invention in a general case.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−183696(JP,A) 特開 昭62−5300(JP,A) 特開 昭61−180298(JP,A) 特開 昭61−121093(JP,A) 電子情報通信学会技術研究報告(SP 89 46−53)17−24頁 連続出力分布型 HMMによる日本語音韻認識の検討 (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 G10L 15/06 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-61-183696 (JP, A) JP-A-62-5300 (JP, A) JP-A-61-180298 (JP, A) JP-A-61-180298 121093 (JP, A) IEICE Technical Report (SP 89 46-53) pp. 17-24 Examination of Japanese Phoneme Recognition by Continuous Output Distribution HMM (58) Fields Investigated (Int. Cl. 7 , DB G10L 15/14 G10L 15/06

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声の音響的特徴量を統計的にモデル化
した音響モデルの入力音声に対する尤度を求める方法に
おいて、各一認識対象カテゴリについて、それぞれ統計
的性質の異なるn個(nは2以上の整数)の学習用音声
セットを用いてそれぞれ作成したn個の個別音響モデル
の上記入力音声に対する尤度をそれぞれ求め、これらの
個別尤度に対し、上記各音響モデルの性質に応じて予め
決められた結合係数で重み付けをして結合することによ
り目的とする尤度を求めることを特徴とする音響モデル
の入力音声に対する尤度を求める方法。
1. Statistical modeling of acoustic features of speech
The likelihood of the input acoustic model for the input speech
In each of the categories to be recognized,
(N is an integer of 2 or more) learning sounds with different statistical properties
N individual acoustic models created using sets
Of each of the above-mentioned input voices is obtained.
The individual likelihood is determined in advance according to the properties of each of the above acoustic models.
By weighting with the determined coupling coefficient and combining
Acoustic model characterized by finding desired likelihood
A method to find the likelihood of the input speech .
【請求項2】 上記結合係数を認識対象音声の一部を用
いて、学習することにより適応化することを特徴とする
請求項1記載の音響モデルの入力音声に対する尤度を求
める方法。
2. The likelihood of an acoustic model for an input speech according to claim 1, wherein the coupling coefficient is adapted by learning using a part of the speech to be recognized.
Mel method.
JP09693591A 1991-04-26 1991-04-26 A method for finding the likelihood of an acoustic model for input speech Expired - Lifetime JP3256979B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09693591A JP3256979B2 (en) 1991-04-26 1991-04-26 A method for finding the likelihood of an acoustic model for input speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09693591A JP3256979B2 (en) 1991-04-26 1991-04-26 A method for finding the likelihood of an acoustic model for input speech

Publications (2)

Publication Number Publication Date
JPH04326400A JPH04326400A (en) 1992-11-16
JP3256979B2 true JP3256979B2 (en) 2002-02-18

Family

ID=14178198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09693591A Expired - Lifetime JP3256979B2 (en) 1991-04-26 1991-04-26 A method for finding the likelihood of an acoustic model for input speech

Country Status (1)

Country Link
JP (1) JP3256979B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393740B (en) * 2008-10-31 2011-01-19 清华大学 Computer speech recognition modeling method for Mandarin with multiple dialect backgrounds

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告(SP89 46−53)17−24頁 連続出力分布型HMMによる日本語音韻認識の検討

Also Published As

Publication number Publication date
JPH04326400A (en) 1992-11-16

Similar Documents

Publication Publication Date Title
JP2733955B2 (en) Adaptive speech recognition device
US5865626A (en) Multi-dialect speech recognition method and apparatus
Weintraub et al. Effect of speaking style on LVCSR performance
JPH0772840B2 (en) Speech model configuration method, speech recognition method, speech recognition device, and speech model training method
US5129001A (en) Method and apparatus for modeling words with multi-arc markov models
JP2015064554A (en) Speech processing device, speech processing method, and speech processing program
JPH075892A (en) Voice recognition method
US7346497B2 (en) High-order entropy error functions for neural classifiers
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
JPH09160584A (en) Voice adaptation device and voice recognition device
JP3130524B2 (en) Speech signal recognition method and apparatus for implementing the method
US5943647A (en) Speech recognition based on HMMs
CN117043857A (en) Method, apparatus and computer program product for English pronunciation assessment
JP2001083986A (en) Method for forming statistical model
JP3256979B2 (en) A method for finding the likelihood of an acoustic model for input speech
JPH06289891A (en) Speech recognition device
JP4779239B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program thereof
JPH10254473A (en) Method and device for voice conversion
JP4391179B2 (en) Speaker recognition system and method
JP2000122689A (en) Speaker adopting device, and speech reconizer
JP3100180B2 (en) Voice recognition method
JPH05232989A (en) Method for adapting speaker to acoustic model
JP3532248B2 (en) Speech recognition device using learning speech pattern model
Raghavan Speaker and environment adaptation in continuous speech recognition
JP3036706B2 (en) Voice recognition method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071207

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081207

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091207

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10