JPH1185187A - Acoustic model generating device and speech recognition device - Google Patents

Acoustic model generating device and speech recognition device

Info

Publication number
JPH1185187A
JPH1185187A JP9245206A JP24520697A JPH1185187A JP H1185187 A JPH1185187 A JP H1185187A JP 9245206 A JP9245206 A JP 9245206A JP 24520697 A JP24520697 A JP 24520697A JP H1185187 A JPH1185187 A JP H1185187A
Authority
JP
Japan
Prior art keywords
hmm
gaussian
distribution
hidden markov
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9245206A
Other languages
Japanese (ja)
Other versions
JP3009640B2 (en
Inventor
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9245206A priority Critical patent/JP3009640B2/en
Publication of JPH1185187A publication Critical patent/JPH1185187A/en
Application granted granted Critical
Publication of JP3009640B2 publication Critical patent/JP3009640B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide the acoustic model generating device and the speech recog nition device in which the characteristics of voice data are more precisely reflected, the power of expression of a general speaker acoustic model is im proved compared with a conventional example and voice is recognized with a higher voice recognition rate. SOLUTION: An initial hidden Markov model(HMM) generating section 21 generates an initial HMM by a prescribed learning algorithm based on the feature parameter of the voice data. An HMM reconstituting section 22 reconstitutes an initial HMM by adding the components having an HMM Gauss mixed distribution based on the tendency of the frame errors which are discrimination errors of the frame unit caused by an initial HMM concerning the voice data and generates the reconstituted HMM. A relearning section 23 relearns the reconstituted HMM, which is relearned by a prescribed learning algorithm, based on the feature parameter of the voice data and generates the acoustic model which is the relearned HMM.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、隠れマルコフモデ
ル(以下、HMMという。)などの音響モデルを生成す
る音響モデル生成装置、並びに、生成された音響モデル
を用いて、入力される発声音声文の音声信号に基づいて
音声認識する音声認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an acoustic model generating apparatus for generating an acoustic model such as a Hidden Markov Model (hereinafter, referred to as HMM), and an uttered speech sentence input using the generated acoustic model. The present invention relates to a speech recognition device for recognizing speech based on a speech signal.

【0002】[0002]

【従来の技術】不特定話者音声認識装置において、認識
性能の向上のために音響モデルとしてのHMMに対して
は、精密性、頑健性の両方が求められる。精密性向上
は、個々の音響単位(例えば音素)毎の音響現象に対し
て、実際の音声サンプルに基づき、如何に忠実なモデリ
ングを行なうか、という問題である。しかしながら、実
際には、使用できる音声サンプル量の不足により、精密
性を追及しすぎると、その音声サンプルのみに特化した
極めて頑健性の低いモデリングが為されてしまう(過学
習)。そのため、音響モデルの頑健性を確保するため
に、しばしば、異なる音響単位間でのモデルパラメータ
の共有が行なわれる。モデルパラメータを共有すること
により、1パラメータ当りの音声サンプル量が増え、そ
の結果、特に音声サンプル中にあまり多く現れなかった
音響単位に対するパラメータ推定値が比較的高い信頼性
を持つことになり、モデリング全体としての頑健性が向
上する。ところが、モデルパラメータを共有するという
ことは、とりもなおさず、「パラメータを共有している
音響単位同士については、少なくとも部分的には、その
識別を行なわない」ということであり、場合によっては
モデリングとしての精密性を犠牲にする可能性がある。
2. Description of the Related Art In an unspecified speaker's speech recognition apparatus, HMM as an acoustic model is required to have both precision and robustness in order to improve recognition performance. Improvement of precision is a problem of how to faithfully model an acoustic phenomenon for each acoustic unit (for example, phoneme) based on an actual speech sample. However, in practice, if the precision is sought too much due to a shortage of usable audio samples, modeling with extremely low robustness specialized for only that audio sample is performed (over-learning). Therefore, in order to ensure the robustness of the acoustic model, model parameters are often shared between different acoustic units. The sharing of model parameters increases the amount of speech samples per parameter, resulting in relatively high reliability of parameter estimates, especially for acoustic units that do not appear very often in speech samples. Robustness as a whole is improved. However, sharing the model parameters means, for the most part, that acoustic units sharing parameters are not identified at least in part. May sacrifice precision.

【0003】このように、精密性と頑健性は、片方を追
及すればもう片方が損なわれるという関係にあり、両者
の平衡点を、音声サンプル量に応じて、出来るかぎり適
切に求めることが重要である。ところで、この平衡点
は、音響モデルと組み合わせる言語モデルの種類によっ
ても異なるであろう。例えば、言語モデルとして、音素
連接規則のみを言語モデルに用いた場合と、単語のN−
gramを用いた場合とでは、音響モデルの果たすべき
役割も異なるように思われる。
[0003] As described above, precision and robustness have a relationship in that if one is pursued, the other will be impaired, and it is important to find the equilibrium point between the two as appropriately as possible in accordance with the amount of audio samples. It is. By the way, this equilibrium point will also differ depending on the type of language model combined with the acoustic model. For example, a case where only a phoneme connection rule is used as a language model and a case where a word N-
It seems that the role of the acoustic model should be different from the case where the gram is used.

【0004】前者の場合は、音響モデルの音素識別能
力、即ち精密性に対する要求が強くなるであろう。なぜ
なら音響モデルで択一的な識別が成功しなければ、音素
連接規則のみによってその誤りを復旧できる可能性は限
られているからである。一方、後者の場合、音響モデル
で必ずしも択一的な識別が成功しなくても、語彙として
許され得る音素並びや、単語の連接確率の制約等によ
り、前者に比べてその誤りを復旧できる可能性は大き
い。つまり、後者のような、比較的強い言語制約を用い
た場合には、緩い言語制約の場合にと比べて、音響モデ
ルに対して、精密性、つまり、「対応する音素に対して
最も高い尤度を与え、かつ他の音素に対しては低い尤度
を与えること」よりも、むしろ、頑健性、つまり、「よ
り多くの分布が、対応する音素に対して、それなりに高
い尤度を与えること」が求められ、そのために、「対応
する音素に対して最も高い尤度を与え、かつ他の音素に
対しては低い尤度を与えること」を多少犠牲にしても、
総合的にはよい結果をもたらすと考えられるのである。
In the former case, the demand for the phoneme identification capability of the acoustic model, that is, the precision, will increase. This is because if the alternative identification is not successful in the acoustic model, the possibility of recovering the error only by the phoneme connection rule is limited. On the other hand, in the latter case, even if alternative identification is not necessarily successful in the acoustic model, the error can be recovered compared to the former, due to the phoneme arrangement that can be accepted as a vocabulary, the restriction on the word connection probability, etc. Sex is big. In other words, when relatively strong language constraints such as the latter are used, the acoustic model has higher precision, that is, “the highest likelihood for the corresponding phoneme,” as compared to the case of loose language constraints. Rather than "giving degree and giving low likelihood to other phonemes", i.e. "more distribution gives a reasonably high likelihood for the corresponding phoneme That is, it is sought, and therefore, at the expense of "giving the highest likelihood to the corresponding phoneme and giving low likelihood to other phonemes",
Overall, it is thought to give good results.

【0005】ところで、HMMにおける複数ガウス混合
分布間でのガウス分布共有の先行研究としては、例え
ば、従来技術文献1「X.D.Huang et al.,“Unified Tec
hniques for Vector Quantization and Hidden Markov
Modeling Using Semi-continuous models",Proceddings
of ICASSP'89,pp.639-642,1989年』等に見られる半連
続HMMの構成法(以下、第1の従来例という。)が代
表的である。また、音声サンプルに基づいて分布の共有
関係を決定する手法としては、逐次状態分割融合法(例
えば、従来技術文献2「鷹見淳一,“状態分割融合法に
よる高効率な隠れマルコフ網の自動作成”,電子情報通
信学会論文誌(D−II),J78−D−II,No.
5,pp.717−726,1995年5月」参照。)
(以下、第2の従来例という。)がある。
[0005] Meanwhile, as a prior study of sharing a Gaussian distribution among a plurality of Gaussian mixture distributions in an HMM, for example, in prior art document 1, "XDHuang et al.," Unified Tec "
hniques for Vector Quantization and Hidden Markov
Modeling Using Semi-continuous models ", Proceddings
of ICASSP'89, pp. 639-642, 1989, etc. (hereinafter referred to as a first conventional example) is representative. In addition, as a method of determining the distribution sharing relationship based on a voice sample, a sequential state-division fusion method (for example, Prior Art Document 2 “Junichi Takami,“ Automatic creation of a highly efficient hidden Markov network by the state-division fusion method ”) , IEICE Transactions (D-II), J78-D-II, No.
5, pp. 717-726, May 1995 ". )
(Hereinafter referred to as a second conventional example).

【0006】[0006]

【発明が解決しようとする課題】しかしながら、第1の
従来例の手法による共有関係は、「ガウス混合分布間の
パラメトリックな距離に基づいて決定されており、実際
の音声サンプルの特性が反映されない」という欠点があ
る。また、第2の従来例においては、 (a)ガウス混合分布間のパラメトリックな距離に基づ
いて共有関係を仮決定した後に、その最終的採否のみを
音声サンプルを用いて行なうために、必ずしも、音声サ
ンプルの特徴に基づく共有構造が形成される保証がな
い。 (b)ガウス分布の共有が、ガウス混合分布のコンポー
ネント全体を単位としてしか行なわれないため、分布の
表現力に欠ける。 (c)基本的に、一状態についての融合の決定毎にHM
M全体のパラメータ再推定を行なうため、共有関係の最
終的な決定までに長い時間を要する。という欠点があ
る。
However, the sharing relationship according to the first conventional technique is "determined based on a parametric distance between Gaussian mixture distributions, and does not reflect the characteristics of actual speech samples." There is a disadvantage that. Further, in the second conventional example, (a) after temporarily determining a sharing relationship based on a parametric distance between Gaussian mixture distributions and then performing only final adoption or rejection using a voice sample, the voice is not necessarily used. There is no guarantee that a shared structure based on sample characteristics will be formed. (B) Since the sharing of the Gaussian distribution is performed only in units of the entire component of the Gaussian mixture distribution, the expression of the distribution lacks. (C) Basically, each time a fusion decision for a state
Since the parameters of the entire M are re-estimated, it takes a long time to finally determine the sharing relationship. There is a disadvantage that.

【0007】本発明の目的は以上の問題点を解決し、音
声データの特性をより精密に反映することができるとと
もに、不特定話者音響モデルの表現力を従来例に比較し
て向上させることができ、しかもより高い音声認識率で
音声認識することができる音響モデルを生成するための
音響モデル生成装置、及び音声認識装置を提供すること
にある。
SUMMARY OF THE INVENTION It is an object of the present invention to solve the above-mentioned problems, to more accurately reflect the characteristics of voice data, and to improve the expressive power of an unspecified speaker acoustic model as compared with a conventional example. Another object of the present invention is to provide an acoustic model generation device and a speech recognition device for generating an acoustic model capable of performing speech recognition at a higher speech recognition rate.

【0008】[0008]

【課題を解決するための手段】本発明に係る請求項1記
載の音響モデル生成装置は、所定の音声データの特徴パ
ラメータに基づいて、所定の学習アルゴリズムにより、
初期の隠れマルコフモデルを生成する第1の生成手段
と、上記音声データに対して初期の隠れマルコフモデル
が起こす、所定の時間のフレーム単位の識別誤りである
フレーム誤りの傾向に基づいて隠れマルコフモデルのガ
ウス混合分布のコンポーネントを追加することにより、
上記第1の生成手段によって生成された初期の隠れマル
コフモデルを再構成して、再構成された隠れマルコフモ
デルを生成する第2の生成手段と、上記音声データの特
徴パラメータに基づいて、所定の学習アルゴリズムによ
り、上記第2の生成手段によって生成された隠れマルコ
フモデルを再学習することにより、再学習された隠れマ
ルコフモデルである音響モデルを生成する第3の生成手
段とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided an acoustic model generating apparatus which performs a predetermined learning algorithm based on a characteristic parameter of predetermined voice data.
First generating means for generating an initial Hidden Markov Model; and a Hidden Markov Model based on a tendency of a frame error, which is an identification error of a frame unit at a predetermined time, caused by the initial Hidden Markov Model for the audio data. By adding the components of the Gaussian mixture of
A second generation unit configured to reconstruct an initial hidden Markov model generated by the first generation unit and generate a reconstructed hidden Markov model; And a third generation unit configured to re-learn the hidden Markov model generated by the second generation unit by a learning algorithm, thereby generating an acoustic model that is a re-learned hidden Markov model. And

【0009】また、請求項2記載の音響モデル生成装置
は、請求項1記載の音響モデル生成装置において、上記
第2の生成手段は、上記初期の隠れマルコフモデルと上
記音声データとの間でビタビアラインメント処理を実行
することにより、(a)上記初期の隠れマルコフモデル
中に含まれるガウス混合分布のビタビ系列と、(b)上
記音声データの各フレームに対して最も高い尤度を与
え、上記初期の隠れマルコフモデル中に各ガウス混合分
布のコンポーネントとして含まれるガウス分布の最尤系
列とを得る第1の処理手段と、上記第1の処理手段によ
って得られた、ガウス混合分布のビタビ系列、及びガウ
ス分布の最尤系列における、時刻を同じくするガウス混
合分布と、ガウス分布の組み合わせのそれぞれの出現頻
度に基づいて、上記初期の隠れマルコフモデル中に含ま
れるガウス混合分布とガウス分布の全ての組み合わせに
ついて、各ガウス混合分布においてフレーム誤りが生じ
てかつそのときの最尤ガウス分布が当該組み合わせのガ
ウス分布であるときのフレーム誤り確率を演算し、演算
された各フレーム誤り確率が所定のしきい値を越えると
きに当該ガウス分布を、当該ガウス混合分布の新たなコ
ンポーネントとして追加する第2の処理手段とを備え、
上記第2の処理手段によって各ガウス混合分布の新たな
コンポーネントとして追加された各ガウス分布は、当該
ガウス分布が上記初期の隠れマルコフモデル中で、コン
ポーネントとして属していたガウス混合分布と、上記第
2の処理手段によって新たにコンポーネントとして属す
ることになったガウス混合分布との双方から共有される
コンポーネントとなることを特徴とする。
According to a second aspect of the present invention, in the acoustic model generating apparatus according to the first aspect of the present invention, the second generating means includes a Viterbi between the initial hidden Markov model and the audio data. By executing the alignment processing, the highest likelihood is given to (a) the Viterbi sequence of the Gaussian mixture distribution included in the initial hidden Markov model and (b) each frame of the audio data, and First processing means for obtaining a maximum likelihood sequence of a Gaussian distribution included as a component of each Gaussian mixture distribution in the hidden Markov model of, and a Viterbi sequence of a Gaussian mixture distribution obtained by the first processing means; In the maximum likelihood sequence of the Gaussian distribution, based on the respective appearance frequencies of the Gaussian mixture distribution at the same time and the combination of the Gaussian distributions, For all combinations of the Gaussian mixture distribution and the Gaussian distribution included in the hidden Markov model of the period, when a frame error occurs in each Gaussian mixture distribution and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution of the combination Second processing means for calculating an error probability, and adding the Gaussian distribution as a new component of the Gaussian mixture distribution when each calculated frame error probability exceeds a predetermined threshold value,
Each Gaussian distribution added as a new component of each Gaussian mixture distribution by the second processing means includes a Gaussian mixture distribution whose Gaussian distribution belongs as a component in the initial hidden Markov model and the second Gaussian distribution. And a Gaussian mixture distribution newly assigned as a component by the processing means.

【0010】さらに、本発明に係る音声認識装置は、請
求項1又は2記載の音響モデル生成装置によって生成さ
れた音響モデルを用いて、入力される発声音声文の音声
信号に基づいて音声認識する音声認識手段を備えたこと
を特徴とする。
Further, a speech recognition apparatus according to the present invention uses the acoustic model generated by the acoustic model generation apparatus according to claim 1 or 2 to perform speech recognition based on a speech signal of an input uttered speech sentence. It is characterized by having voice recognition means.

【0011】[0011]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0012】図1に本発明に係る一実施形態の連続音声
認識装置のブロック図を示す。本実施形態においては、
単語単位のN−gramを用いた音声認識装置におい
て、既学習の音響モデル(HMM)が、緩い言語制約で
の音声認識向きの、精密性過多の状態にあるという仮定
の下に、その頑健性を増すべく、既学習HMMにおける
複数ガウス混合分布間でのガウス分布共有を行う。モデ
リングの観点からは、この共有構造が、音声サンプルに
基づいて決定されることが望ましい。本実施形態では、
従来技術の問題点を解決するために、(a)音声データ
のみに基づいてガウス分布の共有関係を決定する、
(b)ガウス分布の共有を各ガウス分布毎に行う、並び
に、(c)共有構造決定のためのパラメータ再推定が1
回しか行なわないために、短時間で共有関係の決定が可
能である複数ガウス混合分布間でのガウス分布共有の方
法を用いる。
FIG. 1 is a block diagram showing a continuous speech recognition apparatus according to an embodiment of the present invention. In the present embodiment,
In a speech recognizer using a word-unit N-gram, its robustness is based on the assumption that a trained acoustic model (HMM) is in a state of excessive precision in speech recognition direction with loose language constraints. , The Gaussian distribution is shared among a plurality of Gaussian mixture distributions in the learned HMM. From a modeling standpoint, it is desirable that this shared structure be determined based on audio samples. In this embodiment,
In order to solve the problems of the prior art, (a) determining a Gaussian distribution sharing relationship based only on audio data,
(B) The Gaussian distribution is shared for each Gaussian distribution, and (c) the parameter reestimation for determining the shared structure is 1
A method of sharing a Gaussian distribution among a plurality of Gaussian mixture distributions, which can determine a sharing relationship in a short time, is used because the sharing is performed only once.

【0013】本実施形態の音声認識装置は、図1に示す
ように、(a)音声データメモリ30に格納された所定
の音声データの特徴パラメータに基づいて、所定の学習
アルゴリズムにより、初期のHMMを生成する初期HM
M生成部21と、(b)上記音声データに対して初期の
HMMが起こす、所定の時間のフレーム単位の識別誤り
であるフレーム誤りの傾向に基づいてHMMのガウス混
合分布のコンポーネントを追加することにより、初期H
MM生成部21によって生成された初期のHMMを再構
成して、再構成されたHMMを生成するHMM再構成部
22と、(c)上記音声データの特徴パラメータに基づ
いて、所定の学習アルゴリズムにより、HMM再構成部
22によって生成されたHMMを再学習することによ
り、再学習されたHMMである音響モデルを生成する再
学習部23とを備えたことを特徴とする。
As shown in FIG. 1, the speech recognition apparatus according to the present embodiment comprises: (a) an initial HMM using a predetermined learning algorithm based on characteristic parameters of predetermined voice data stored in a voice data memory 30; Initial HM that generates
(B) adding a component of the Gaussian mixture distribution of the HMM based on the tendency of a frame error, which is an identification error in a frame unit at a predetermined time, caused by an initial HMM to the audio data; The initial H
An HMM reconstructing unit 22 that reconstructs the initial HMM generated by the MM generating unit 21 and generates a reconstructed HMM; and (c) a predetermined learning algorithm based on the feature parameter of the audio data. , A re-learning unit 23 that re-learns the HMM generated by the HMM reconstructing unit 22 to generate an acoustic model that is the re-learned HMM.

【0014】ここで、HMM再構成部22は、(b1)
上記初期のHMMと上記音声データとの間でビタビアラ
イメント処理を実行することにより、上記初期のHMM
にそれぞれ含まれる複数のガウス混合分布の集合と複数
のガウス分布の集合を得た後、(b2)得られた複数の
ガウス混合分布と複数のガウス分布のすべての組み合わ
せについて、各ガウス混合分布においてフレーム誤りが
生じてかつそのときの最尤ガウス分布が当該組み合わせ
のガウス分布であるときのフレーム誤り確率を演算し、
演算された各フレーム誤り確率が所定のしきい値を超え
るときに当該ガウス分布を、当該ガウス混合分布の新た
なコンポーネントとして追加することを特徴とする。
Here, the HMM reconstructing unit 22 calculates (b1)
By performing a Viterbi alignment process between the initial HMM and the audio data, the initial HMM
After obtaining a set of a plurality of Gaussian mixture distributions and a set of a plurality of Gaussian distributions respectively included in (b2), for each combination of the obtained plurality of Gaussian mixture distributions and the plurality of Gaussian distributions, Calculate the frame error probability when a frame error occurs and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution of the combination,
When each of the calculated frame error probabilities exceeds a predetermined threshold value, the Gaussian distribution is added as a new component of the Gaussian mixture distribution.

【0015】そして、図1の音声認識装置は、再学習部
23によって生成された音素HMMを用いて、入力され
る発声音声文の音声信号に基づいて音声認識する。ここ
で、本実施形態の音声認識装置は、公知のワン−パス・
ビタビ復号化法を用いて、入力される発声音声文の音声
信号の特徴パラメータに基づいて上記発声音声文の単語
仮説を検出し音響尤度を計算して出力する単語照合部4
を備えた連続音声認識装置において、単語照合部4から
バッファメモリ5を介して出力される、単語仮説に対し
て、当該単語の各音素の時間方向の中央部の音響尤度の
ピークを、当該中央部よりも遅延された時刻に移動する
ように遅延させて、当該単語仮説の音響尤度を補正する
尤度補正部7と、尤度補正部7から出力される音響尤度
を含む総合尤度を有する単語仮説に基づいて、当該単語
の先頭音素環境毎に、発声開始時刻から当該単語の終了
時刻に至る計算された総合尤度のうちの最も高い尤度を
有する1つの単語仮説で代表させるように単語仮説の絞
り込みを行う単語仮説絞込部6を備える。
The speech recognition apparatus shown in FIG. 1 uses the phoneme HMM generated by the relearning unit 23 to perform speech recognition based on the speech signal of the input uttered speech sentence. Here, the speech recognition device of the present embodiment is a known one-pass
A word collating unit 4 for detecting the word hypothesis of the uttered speech sentence based on the feature parameter of the speech signal of the input uttered speech sentence and calculating and outputting the acoustic likelihood using the Viterbi decoding method.
In the continuous speech recognition device provided with the above, for the word hypothesis output from the word matching unit 4 via the buffer memory 5, the peak of the acoustic likelihood of the central part of each phoneme of the word in the time direction is calculated. A likelihood correction unit 7 that delays the movement to a time delayed from the center to correct the acoustic likelihood of the word hypothesis, and a total likelihood including the acoustic likelihood output from the likelihood correction unit 7. Based on a word hypothesis having a degree, for each head phoneme environment of the word, one word hypothesis having the highest likelihood among the total likelihoods calculated from the utterance start time to the end time of the word is represented. A word hypothesis narrowing unit 6 that narrows down word hypotheses so as to cause the word hypothesis to be provided.

【0016】以下、HMMの生成処理について詳述す
る。音声データメモリ30には、不特定話者の音声デー
タの特徴パラメータが予め記憶され、ここで、特徴パラ
メータは、音声波形信号をフレーム単位でA/D変換し
た音声サンプルに対してLPC分析した得た、対数パワ
ー、16次LPCケプストラム係数、Δ対数パワー、及
び16次Δケプストラム係数を含む。初期HMM生成部
21は、音声データメモリ30に格納された所定の音声
データの特徴パラメータに基づいて、バーム・ウエルチ
(Baum−Welch)の学習アルゴリズムにより、
初期のHMMを生成して、初期HMMメモリ31に格納
する。
Hereinafter, the HMM generation processing will be described in detail. The voice data memory 30 previously stores feature parameters of voice data of an unspecified speaker, and the feature parameters are obtained by LPC analysis of voice samples obtained by A / D conversion of a voice waveform signal on a frame basis. Log power, 16th-order LPC cepstrum coefficient, Δlogarithmic power, and 16th-order Δcepstrum coefficient. The initial HMM generation unit 21 uses a Baum-Welch learning algorithm based on the characteristic parameters of the predetermined voice data stored in the voice data memory 30.
An initial HMM is generated and stored in the initial HMM memory 31.

【0017】次いで、HMM再構成部22は、音声デー
タメモリ30内の音声データに基づき、初期HMMに対
して本実施形態の方法によるガウス混合分布の再構成
(コンポーネント追加、共有)を行なって再構成された
HMMを再構成されたHMMメモリ32に格納する。さ
らに、再学習部23は、再構成後のHMMに対して、パ
ラメータを再推定し、最終的な音素HMMとして、音素
HMMメモリ11に格納する。本実施形態の再構成方法
及びパラメータ再推定においては、基本的に、初期モデ
ルの作成に用いた音声データをそのまま用いる。従っ
て、本処理のために、新たに音声サンプルを用意する必
要はないという利点を有する。
Next, the HMM reconstructing unit 22 reconstructs the Gaussian mixture distribution (component addition and sharing) of the initial HMM based on the speech data in the speech data memory 30 by the method of the present embodiment, and reconstructs the HMM. The configured HMM is stored in the reconfigured HMM memory 32. Further, the re-learning unit 23 re-estimates the parameters of the reconstructed HMM, and stores the parameters in the phoneme HMM memory 11 as the final phoneme HMM. In the reconstruction method and parameter re-estimation of the present embodiment, basically, the speech data used for creating the initial model is used as it is. Therefore, there is an advantage that it is not necessary to prepare a new audio sample for this processing.

【0018】さらに、HMM再構成処理におけるコンポ
ーネント追加に関する考え方について述べる。本実施形
態の方法の本質は、音声データに対して初期HMMが起
こすフレーム単位の識別誤り(以下、フレーム誤り)の
傾向を考慮して、ガウス混合分布のコンポーネント追加
を行なうことにある。このフレーム誤りとは、初期HM
Mと音声サンプルによるビタビアライメント(Vite
rbi alignment)処理において、以下の条
件を満たす場合を指す。
Further, the concept of adding a component in the HMM reconfiguration processing will be described. The essence of the method of the present embodiment is to add components of the Gaussian mixture distribution in consideration of the tendency of frame-by-frame identification errors (hereinafter, frame errors) caused by the initial HMM for voice data. This frame error is the initial HM
Viterbi alignment (Vite
rbi alignment) processing when the following conditions are satisfied.

【数1】 (Equation 1)

【0019】ここで、関数max(・)はγ∈Γである
ときに変数γ(ガウス混合分布)を変化したときに関数
値が最大となる値を示す関数である。また、 ot:時刻tにおける特徴ベクトル、 gt:ビタビアライメント処理によって時刻tに割り当
てられたガウス混合分布、Γ:初期HMM全体のガウス
混合分布の集合(すなわち、初期HMMの各状態におけ
る複数のガウス混合分布の集合である。)、 P(o│g):分布gから特徴ベクトルoが出力される
ことに対する尤度である。
Here, the function max (·) is a function indicating the value at which the function value becomes maximum when the variable γ (Gaussian mixture distribution) changes when γ∈Γ. Further, o t: feature vector at time t, g t: Gaussian mixture distribution assigned to the time t by the Viterbi alignment process, gamma: set of initial HMM entire Gaussian mixture (i.e., a plurality in each state of the initial HMM It is a set of Gaussian mixture distributions.), P (o│g): Likelihood that the feature vector o is output from the distribution g.

【0020】以下、フレーム誤りを事象Eで表わし、E
の余事象をEcと書くことにする。特定の音響現象に対
して、このフレーム誤りを頻繁に起こすガウス混合分布
は、実際の音声認識において、正解経路上で当該音響現
象との照合を行なう際に音響尤度の落ち込みを起こしや
すい。今、時刻tについて、以下のガウス分布xtを考
える。
Hereinafter, a frame error is represented by an event E.
Is written as E c . The Gaussian mixture distribution that frequently causes frame errors for a specific acoustic phenomenon tends to cause a drop in acoustic likelihood when performing matching with the acoustic phenomenon on the correct path in actual speech recognition. Consider the following Gaussian distribution x t at time t.

【数2】 ここで、関数argmaxは、ξ∈Ξであるときに変数
ξ(ガウス分布)を変化したときに関数値が最大となる
ときの変数ξを示す関数である。また、Ξ:初期HMM
全体のガウス分布の集合(すなわち、初期HMMにおけ
る各状態におけるガウス混合分布の元となるガウス分布
の集合である)である。
(Equation 2) Here, the function argmax is a function indicating the variable の when the function value becomes maximum when the variable ξ (Gaussian distribution) changes when ξ∈Ξ. Ξ: Initial HMM
This is a set of the entire Gaussian distribution (that is, a set of Gaussian distributions that are the basis of the Gaussian mixture distribution in each state in the initial HMM).

【0021】xtは、本来、HMM全体の中のいずれか
のガウス混合分布のコンポーネントであるが、ここでは
特徴ベクトルoiに対して最大の音響尤度を与える単独
のガウス分布として扱う。さらに、Γの元の時系列{g
t}とΞの元の時系列{xt}について、各元の出現頻度
を分析することにより、条件付きフレーム誤り確率、P
(E,ξ│γ)(γ∈Γ,ξ∈Ξ)が得られる。この条
件付きフレーム誤り確率P(E,ξ│γ)は、ガウス混
合分布ξにおいてフレーム誤りが生じてかつそのときの
最尤ガウス分布が当該ガウス分布γであるときのフレー
ム誤り確率である。フレーム誤り確率P(E,ξ│γ)
がある程度大きい値を持つならば、ガウス混合分布γ
は、ガウス分布ξの近傍の音響現象との照合を行なう際
に音響尤度の落ち込みを起こしやすいといえる。そこ
で、ガウス分布ξをガウス混合分布γのコンポーネント
として新たに追加することにより、その悪影響を抑止出
来ると考えられる。
X t is originally a component of any Gaussian mixture distribution in the entire HMM, but is treated here as a single Gaussian distribution that gives the maximum acoustic likelihood to the feature vector o i . Furthermore, the original time series Γg of Γ
For the time series {x t} of the original t} and .XI, by analyzing the frequency of occurrence of each element, the conditional frame error probability, P
(E, ξ | γ) (γ∈Γ, ξ∈Ξ) is obtained. The conditional frame error probability P (E, ξ | γ) is a frame error probability when a frame error occurs in the Gaussian mixture distribution ξ and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution γ. Frame error probability P (E, ξ | γ)
Has a somewhat large value, the Gaussian mixture distribution γ
Is likely to cause a drop in acoustic likelihood when performing matching with acoustic phenomena near the Gaussian distribution ξ. Therefore, it is considered that the adverse effect can be suppressed by newly adding the Gaussian distribution ξ as a component of the Gaussian mixture distribution γ.

【0022】次いで、HMM再構成処理のアルゴリズム
について説明する。以下の、(ステップSS1)〜(ス
テップSS5)の処理を実行することにより、ガウス混
合分布のコンポーネント追加、共有が実現される。 (ステップSS1)初期HMMと音声サンプルの間でビ
タビアライメント処理を実行し、ガウス混合分布の集合
であるΓの元の時系列、すなわちビタビ系列{gt}、
及びガウス分布の集合であるΞの元の時系列、すなわち
ガウス分布の最尤系列{xt}をそれぞれ得る(図7参
照。)。 (ステップSS2)ステップSS1で得た時系列から、
ガウス混合分布γとガウス分布ξの全ての組合せについ
て、条件付きフレーム誤り確率P(E,ξ│γ)を得る
(図8参照。)。 (ステップSS3)全てのガウス混合分布γについてス
テップSS4を実行する。 (ステップSS4)全てのガウス分布ξについてステッ
プSS5を実行する。 (ステップSS5)条件付きフレーム誤り確率P(E,
ξ│γ)があらかじめ定めたしきい値を越える場合、ガ
ウス混合分布ξを、ガウス分布γの新たなコンポーネン
トとして追加する(図9参照。)。追加したコンポーネ
ントは、ガウス分布γと、ガウス混合分布ξが元々属し
ていたガウス混合分布との間で共有する。 上記ステップSS5のしきい値処理により、音声データ
中に含まれる偶発的な雑音等に起因するフレーム誤りに
対するコンポーネント追加を抑止することが出来る。す
なわち、上記HMM再構成処理は、(I)上記初期HM
Mと上記音声データとの間でビタビアラインメント処理
を実行することにより、(a)上記初期HMM中に含ま
れるガウス混合分布のビタビ系列と、(b)上記音声デ
ータの各フレームに対して最も高い尤度を与え、上記初
期HMM中に各ガウス混合分布のコンポーネントとして
含まれるガウス分布の最尤系列とを得る第1の処理と、
(II)上記第1の処理によって得られた、ガウス混合分
布のビタビ系列、及びガウス分布の最尤系列における、
時刻を同じくするガウス混合分布と、ガウス分布の組み
合わせのそれぞれの出現頻度に基づいて、上記初期HM
M中に含まれるガウス混合分布とガウス分布の全ての組
み合わせについて、各ガウス混合分布においてフレーム
誤りが生じてかつそのときの最尤ガウス分布が当該組み
合わせのガウス分布であるときのフレーム誤り確率を演
算し、演算された各フレーム誤り確率が所定のしきい値
を越えるときに当該ガウス分布を、当該ガウス混合分布
の新たなコンポーネントとして追加する第2の処理手段
とを含み、(III)上記第2の処理によって各ガウス混
合分布の新たなコンポーネントとして追加された各ガウ
ス分布は、当該ガウス分布が上記初期HMM中で、コン
ポーネントとして属していたガウス混合分布と、上記第
2の処理によって新たにコンポーネントとして属するこ
とになったガウス混合分布との双方から共有されるコン
ポーネントとなる。
Next, the algorithm of the HMM reconstruction processing will be described. By executing the following processes of (Step SS1) to (Step SS5), addition and sharing of components of the Gaussian mixture distribution are realized. (Step SS1) perform Viterbi alignment process between the initial HMM and the voice sample, the time series of the original Γ is a set of Gaussian mixture distributions, i.e. Viterbi sequence {g t},
And the original time series of Ξ which is a set of Gaussian distributions, that is, the maximum likelihood sequence {x t } of the Gaussian distribution, respectively (see FIG. 7). (Step SS2) From the time series obtained in step SS1,
The conditional frame error probability P (E, ξ | γ) is obtained for all combinations of the Gaussian mixture γ and the Gaussian ξ (see FIG. 8). (Step SS3) Step SS4 is executed for all Gaussian mixture distributions γ. (Step SS4) Step SS5 is executed for all Gaussian distributions ξ. (Step SS5) Conditional frame error probability P (E,
If ξ | γ) exceeds a predetermined threshold value, the Gaussian mixture distribution ξ is added as a new component of the Gaussian distribution γ (see FIG. 9). The added component is shared between the Gaussian distribution γ and the Gaussian mixture distribution to which the Gaussian mixture distribution ξ originally belonged. By the threshold processing in step SS5, it is possible to suppress the addition of components for frame errors caused by accidental noise or the like included in audio data. That is, the HMM reconstruction processing is performed by (I) the initial HM
By executing the Viterbi alignment process between M and the audio data, the highest Viterbi sequence of (a) the Gaussian mixture distribution included in the initial HMM and (b) each frame of the audio data are obtained. A first process of giving a likelihood and obtaining a maximum likelihood sequence of a Gaussian distribution included as a component of each Gaussian mixture distribution in the initial HMM;
(II) In the Viterbi sequence of the Gaussian mixture distribution and the maximum likelihood sequence of the Gaussian distribution obtained by the first processing,
Based on the appearance frequency of each combination of the Gaussian mixture distribution and the Gaussian distribution at the same time, the initial HM
For all combinations of Gaussian mixture distribution and Gaussian distribution included in M, calculate the frame error probability when a frame error occurs in each Gaussian mixture distribution and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution of the combination. And second processing means for adding the Gaussian distribution as a new component of the Gaussian mixture distribution when each of the calculated frame error probabilities exceeds a predetermined threshold value, and (III) the second processing means The Gaussian distribution added as a new component of each Gaussian mixture distribution by the above process is the Gaussian mixture distribution that the Gaussian distribution belonged to as a component in the initial HMM, and the Gaussian mixture distribution newly added as a component by the second process. It is a component that is shared by both the Gaussian mixture distribution that came to belong.

【0023】図3乃至図6は、図1のHMM再構成部2
2によって実行されるHMM再構成処理の詳細を示すフ
ローチャートである。まず、図3のステップS1で、音
声データ番号nのパラメータを0に初期化し、次いで、
ステップS2で音声データ#nと初期HMMとの間でビ
タビのアライメント処理を実行し、ガウス混合分布のビ
タビ系列{gnt}及びガウス分布の最尤系列{xnt}
を求める。そして、ステップS3で全データについてス
テップS2の処理を実施したか否かが判断され、NOの
ときステップS4でパラメータnを1だけインクリメン
トした後、ステップS2の処理を実行する。一方、ステ
ップS3でYESのときは、図4のステップS11に進
む。
FIGS. 3 to 6 show the HMM reconstructing unit 2 shown in FIG.
6 is a flowchart illustrating details of an HMM reconfiguration process performed by the HMM 2. First, in step S1 of FIG. 3, the parameter of the audio data number n is initialized to 0.
In step S2, Viterbi alignment processing is performed between the audio data #n and the initial HMM, and a Viterbi sequence {g n t} of a Gaussian mixture distribution and a maximum likelihood sequence {x n t} of a Gaussian distribution.
Ask for. Then, in step S3, it is determined whether or not the processing of step S2 has been performed for all data. If NO, the parameter n is incremented by 1 in step S4, and then the processing of step S2 is executed. On the other hand, if YES in step S3, the process proceeds to step S11 in FIG.

【0024】図4のステップS11で、すべての計数値
C(・)を0に初期化し、ステップS12で、音声デー
タ番号nのパラメータを0に初期化し、ステップS13
でフレーム番号tのパラメータを0に初期化した後、ス
テップS14で、フレーム誤りが生じたか否かが判断さ
れ、フレーム誤りが生じたときは、ステップS15でフ
レーム誤りを計数する計数値C(E,gnt|xnt)を
1だけインクリメントしてステップS17に進む。一
方、ステップS14でフレーム誤りが生じていないとき
は、ステップS16で、フレーム誤りが生じていないこ
とを計数する計数値C(Ec|gnt)を1だけインクリ
メントしてステップS17に進む。ステップS17で
は、音声データ#nの全フレームについてステップS1
4の処理を実施したか否かが判断され、NOのときはス
テップS18でパラメータtを1だけインクリメントし
てステップS14に戻る。一方、ステップS17でYE
SのときはステップS19で、全音声データについてス
テップS14の処理を実施したか否かが判断され、NO
のときはステップS20でデータ番号nのパラメータを
1だけインクリメントしてステップS13に戻る。一
方、ステップS19でYESのときは、図5のステップ
S21に進む。
In step S11 of FIG. 4, all the count values C (•) are initialized to 0. In step S12, the parameter of the audio data number n is initialized to 0.
After the parameter of the frame number t is initialized to 0 in step S14, it is determined in step S14 whether or not a frame error has occurred. If a frame error has occurred, the count value C (E) for counting the frame error in step S15. , G n t | x n t) is incremented by one, and the process proceeds to step S17. On the other hand, if no frame error has occurred in step S14, the count value C (E c | g n t) for counting that no frame error has occurred is incremented by one in step S16, and the flow proceeds to step S17. In step S17, step S1 is performed for all frames of the audio data #n.
It is determined whether or not the process of step 4 has been performed. If the determination is NO, the parameter t is incremented by 1 in step S18, and the process returns to step S14. On the other hand, in step S17, YE
In the case of S, it is determined in step S19 whether or not the processing of step S14 has been performed for all the audio data.
In the case of, the parameter of the data number n is incremented by 1 in step S20, and the process returns to step S13. On the other hand, if YES in step S19, the process proceeds to step S21 in FIG.

【0025】図5のステップS21では、ガウス混合分
布の番号iのパラメータを0に初期化し、ステップS2
2でガウス分布の番号jのパラメータを0に初期化した
後、ステップS23で、次式を用いて条件付きフレーム
誤り確率P(E,γij)を計算する。
In step S21 of FIG. 5, the parameter of the number i of the Gaussian mixture distribution is initialized to 0, and step S2
After the parameter of the Gaussian distribution number j is initialized to 0 in step 2, the conditional frame error probability P (E, γ i | ξ j ) is calculated in step S23 using the following equation.

【数3】 そして、ステップS24で全ガウス分布についてステッ
プS23の処理を実施したか否かが判断され、NOのと
きはステップS25でパラメータjを1だけインクリメ
ントしてステップS23に戻る。一方、ステップS24
でYESのときはステップS26で、全ガウス混合分布
についてステップS23の処理を実施したか否かが判断
され、NOのときはステップS27でパラメータiを1
だけインクリメントしてステップS22に戻る。一方、
ステップS26でYESのときは、図6のステップS3
1に進む。
(Equation 3) Then, in step S24, it is determined whether or not the processing in step S23 has been performed for all Gaussian distributions. If NO, the parameter j is incremented by 1 in step S25, and the process returns to step S23. On the other hand, step S24
If YES in step S26, it is determined in step S26 whether or not the processing in step S23 has been performed for all Gaussian mixture distributions. If NO, the parameter i is set to 1 in step S27.
And the process returns to step S22. on the other hand,
If YES in step S26, the process proceeds to step S3 in FIG.
Proceed to 1.

【0026】図6のステップS31では、ガウス混合分
布の番号iのパラメータを0に初期化し、ステップS3
2でガウス分布の番号jのパラメータを0に初期化した
後、ステップS33で、条件付きフレーム誤り確率P
(E,γij)がしきい値ρ(好ましい実施形態では
0.01である。)を超えるとき、ガウス混合分布ξを
ガウス分布γの新たなコンポーネントとして追加した
後、ステップS35に進み、一方、ステップS33でN
OであるときはそのままステップS35に進む。ステッ
プS35で、全ガウス分布についてステップS33の処
理を実施したか否かが判断され、NOのときはステップ
S36でパラメータjを1だけインクリメントしてステ
ップS33に戻る。一方、ステップS35でYESのと
きは、ステップS37で、全ガウス混合分布についてス
テップS33の処理を実施したか否かが判断され、NO
のときはステップS38でパラメータiを1だけインク
リメントしてステップS32に戻る。一方、ステップS
37でYESのときはステップS39で得られた再構成
HMMをメモリ32に格納して、当該HMM再構成処理
を終了する。
In step S31 of FIG. 6, the parameter of the number i of the Gaussian mixture distribution is initialized to 0, and step S3
After the parameter of the number j of the Gaussian distribution is initialized to 0 in step 2, in step S33, the conditional frame error probability P
When (E, γ i | ξ j ) exceeds the threshold value ρ (0.01 in the preferred embodiment), the Gaussian mixture distribution ξ is added as a new component of the Gaussian distribution γ. Proceeds, while N is determined in step S33.
If it is O, the process proceeds directly to step S35. In step S35, it is determined whether or not the process in step S33 has been performed for all Gaussian distributions. If NO, the parameter j is incremented by 1 in step S36, and the process returns to step S33. On the other hand, if YES is determined in the step S35, it is determined in a step S37 whether or not the process of the step S33 is performed for all Gaussian mixture distributions.
In step S38, the parameter i is incremented by 1 in step S38, and the process returns to step S32. On the other hand, step S
If YES in step S37, the reconfigured HMM obtained in step S39 is stored in the memory 32, and the HMM reconfiguration processing ends.

【0027】さらに、再学習部23では、HMMの再構
成の後、尤度最大、尤度比最大等の基準により、例え
ば、バーム・ウエルチの学習アルゴリズムを用いて、以
下の各パラメータを再推定して、再学習後の音素HMM
を音素HMMメモリ11に格納する。 (a)各ガウス分布の平均、 (b)各ガウス分布の分散 (c)各ガウス混合分布の混合重み (d)状態遷移確率
Further, after reconstructing the HMM, the re-learning unit 23 re-estimates the following parameters based on criteria such as maximum likelihood and maximum likelihood ratio using, for example, a Balm-Welch learning algorithm. And the phoneme HMM after re-learning
Is stored in the phoneme HMM memory 11. (A) Average of each Gaussian distribution, (b) Variance of each Gaussian distribution, (c) Mixing weight of each Gaussian mixture distribution, (d) State transition probability

【0028】ガウス分布の平均、分散、及び状態遷移確
率については、初期HMMの値をそのまま初期値として
用いる。また、ガウス混合分布の混合重みについては、
フレーム誤り確率、及びコンポーネント追加実行のしき
い値を考慮して、以下のように初期値を定める。
As for the mean, variance, and state transition probability of the Gaussian distribution, the values of the initial HMM are used as they are as initial values. For the mixture weight of the Gaussian mixture distribution,
Considering the frame error probability and the threshold value of the component addition execution, the initial value is determined as follows.

【0029】まず、ガウス混合分布γにガウス分布ξが
新たなコンポーネントとして追加された場合の混合重み
初期値を、条件付きフレーム誤り確率の値をそのまま用
いて、次式とする。
First, the initial value of the mixture weight when the Gaussian distribution ξ is added as a new component to the Gaussian mixture distribution γ is expressed by the following equation using the value of the conditional frame error probability as it is.

【数4】whγ ξ=P(E,ξ|γ)## EQU4 ## wh γ ξ = P (E, ξ | γ)

【0030】コンポーネントが追加されたことにより、
初期HMMに元々含まれていたコンポーネントの混合重
みに対しても新たな初期値が必要となる。これらを、次
式により与える。
With the addition of the component,
A new initial value is also required for the mixture weight of the components originally included in the initial HMM. These are given by the following equations.

【数5】whγ ξ={P(Ec|γ)+P(E,Ξγ ρ
|γ)}・wγ ξ ただし、whγ ξは、初期HMMにおける、ガウス分布
ξのガウス混合分布γにおける混合重みである。ここ
で、Ξγ ρは、コンポーネント追加実行のしきい値がρ
のときに、ガウス混合分布γに対するコンポーネント追
加の対象とならないガウス分布の集合であり、以下によ
って与えられる。
Wh γ ξ = P (E c | γ) + P (E, Ξ γ ρ
| Γ)} · w γ ξ However, wh gamma xi], in the initial HMM, a mixture weights in the Gaussian mixture distributions gamma Gaussian xi]. Here, Ξ γ ρ is determined when the threshold for component addition execution is ρ
Is a set of Gaussian distributions not subject to component addition to the Gaussian mixture distribution γ, given by

【数6】 Ξγ ρ={ξ|P(E,ξ|γ)<ρ;ξ∈Ξ}γ ρ = {ξ | P (E, ξ | γ) <ρ; ξ∈Ξ}

【0031】本実施形態において用いる尤度補正部7の
尤度補正は、遅延決定(Delayed decision)のビーム探
索と呼ぶことができる。この遅延決定のビーム探索は、
第4の従来例のような尤度の先読みや、非線形関数によ
る尤度のマッピングによらずに、すでに探索を終えた経
路の尤度の評価を遅らせることによって、尤度の局所的
変動に対処する。なお、以下の計算において、尤度とは
対数尤度を指すものとする。本実施形態において、各符
号を尤度補正部7においてのみ以下のように定義する。 (a)t:時刻; (b)S:ビーム探索の経路; (c)qA(S,t):経路S,時刻tにおける音響尤
度; (d)QA(S,t):経路S,時刻tにおける文頭か
ら累積音響尤度; (e)QL(S,t):経路S,時刻tにおける文頭か
らの累積言語尤度。
The likelihood correction of the likelihood correction unit 7 used in this embodiment can be called a beam search of a delayed decision. The beam search for this delay determination is
The local variation of likelihood is dealt with by delaying the evaluation of the likelihood of a route that has already been searched, without relying on likelihood look-ahead and the likelihood mapping by a nonlinear function as in the fourth conventional example. I do. In the following calculation, the likelihood indicates the log likelihood. In the present embodiment, each code is defined only in the likelihood correction unit 7 as follows. (A) t: time; (b) S: path of beam search; (c) q A (S, t): path S, acoustic likelihood at time t; (d) Q A (S, t): path S, cumulative acoustic likelihood from beginning of a sentence at time t; (e) Q L ( S, t): path S, the cumulative language likelihood from beginning of a sentence at time t.

【0032】ここで、音響尤度は、単語照合部4におい
て音素HMMメモリ11内の音素HMMを参照して計算
される尤度であり、言語尤度は、単語照合部4において
統計的言語モデルメモリ13内の言語モデルを参照して
計算される尤度である。以上のように定義したとき、一
般に、累積音響尤度は1フレーム毎の音響尤度を足し合
わせることによって次式で求められる。
Here, the acoustic likelihood is a likelihood calculated by the word matching unit 4 with reference to the phoneme HMM in the phoneme HMM memory 11, and the language likelihood is calculated by the statistical language model in the word matching unit 4. The likelihood is calculated with reference to the language model in the memory 13. When defined as described above, generally, the cumulative acoustic likelihood is obtained by adding the acoustic likelihood for each frame by the following equation.

【数7】 QA(S,t)=QA(S,t−1)+qA(S,t)Q A (S, t) = Q A (S, t−1) + q A (S, t)

【0033】そして、ビーム探索に使用する文頭からの
累積総合尤度Qall(S,t)は、音響尤度QA(S,
t)と言語尤度QL(S,t)を用いて次式で計算され
る。
The cumulative total likelihood Q all (S, t) from the head of the sentence used for beam search is the acoustic likelihood Q A (S,
t) and the language likelihood Q L (S, t) are calculated by the following equation.

【数8】 Qall(S,t)=QA(S,t)+α・QL(S,t)[Equation 8] Q all (S, t) = Q A (S, t) + α · Q L (S, t)

【0034】ここで、定数αは言語尤度の音響尤度に対
する重み係数であり、好ましい実施形態においては、α
=4.5である。本実施形態における、遅延決定のビー
ム探索では、次式に示すように、上記数2において、Q
A(S,t)の代わりにQA(S,t)から遅延音響尤度
Ad(S,t)を差し引いた尤度QA’(S,t)を使
用する。すなわち、時刻t−1では、次式に示すよう
に、QA(S,t−1)の代わりにQA(S,t−1)か
ら遅延音響尤度QAd(S,t−1)を差し引いた尤度Q
A’(S,t−1)を使用する。
Here, the constant α is a weight coefficient for the sound likelihood of the language likelihood, and in a preferred embodiment, α
= 4.5. In the beam search for delay determination in the present embodiment, as shown in the following equation,
Using the A (S, t) likelihood Q A '(S, t) obtained by subtracting the Q A (S, t) delayed from the acoustic likelihood Q Ad (S, t) instead of. That is, at time t-1, as shown in the following equation, the delayed acoustic likelihood Q Ad (S, t-1) is obtained from Q A (S, t-1) instead of Q A (S, t-1). Likelihood Q minus
A ′ (S, t−1) is used.

【0035】[0035]

【数9】 QA’(S,t)=QA(S,t)−QAd(S,t) ここで、上記数9の右辺の第2項の尤度QAd(S,t)
は次式で計算される。
Q A ′ (S, t) = Q A (S, t) −Q Ad (S, t) Here, the likelihood Q Ad (S, t) of the second term on the right side of the above equation 9
Is calculated by the following equation.

【数10】D=QAd(S,t−1)+qA(S,t)D = Q Ad (S, t-1) + q A (S, t)

【数11】QAd(S,t)=F(D)・D## EQU11 ## Q Ad (S, t) = F (D) .D

【0036】上記数9を書き換えると、上記数7を参照
して書き換えると、次式を得る。
By rewriting equation 9 and rewriting with reference to equation 7, the following equation is obtained.

【数12】QA’(S,t)=QA’(S,t−1)+q
A’(S,t) ここで、尤度qA’(S,t)を次式により決定する。
[Number 12] Q A '(S, t) = Q A' (S, t-1) + q
A ′ (S, t) Here, the likelihood q A ′ (S, t) is determined by the following equation.

【数13】 qA’(S,t) =f(x) =f(qA(S,t)+QA(S,t−1)−QA’(S,t−1)Equation 13] q A '(S, t) = f (x) = f (q A (S, t) + Q A (S, t-1) -Q A' (S, t-1)

【0037】ここで、上記数13における{QA(S,t
−1)−QA’(S,t−1)}は、QAd(S,t−1)で
あり、本特許出願人による特許出願の特開平9−811
85号公報における実施形態と比較して1時刻前の過小
評価分であり、このデータは、尤度補正部7に接続され
る過小評価尤度メモリ14に順次記憶されて、次の時刻
tにおける音響尤度を補正して総合尤度を計算するため
に用いられる。従って、本実施形態においては、尤度補
正部7は、時刻(t−1)において、各単語仮説に対し
て、1時刻前の過小評価分データである上記数7におけ
る{QA(S,t−1)−QA’(S,t−1)}を計算し
て、過小評価尤度メモリ14に記憶し、次いで、時刻t
において、上記数12と上記数13とを用いて、過小評
価するように補正された音響尤度QA’(S,t)を計
算し、次いで、上記数8を書き換えた次式とを用いて、
累積尤度である総合尤度Q’all(S,t)を計算し、
当該計算された総合尤度Q’all(S,t)を有する単
語仮説をバッファメモリ5を介して単語仮説絞込部6に
出力する。
Here, {Q A (S, t) in the above equation (13)
-1) -Q A '(S, t-1)} is Q Ad (S, t-1), which is disclosed in Japanese Patent Application Laid-Open No. 9-811 by the present applicant.
This data is an underestimated value one time earlier than that of the embodiment of JP-A-85-85, and this data is sequentially stored in an underestimated likelihood memory 14 connected to the likelihood correction unit 7, and is stored at the next time t. It is used to calculate the total likelihood by correcting the acoustic likelihood. Therefore, in the present embodiment, at time (t−1), the likelihood correction unit 7 calculates the {Q A (S, t-1) -Q A '(S, t-1)} is calculated and stored in the underestimated likelihood memory 14, and then at time t
In the above, the acoustic likelihood Q A ′ (S, t) corrected so as to be underestimated is calculated using the above equations 12 and 13, and then the following equation obtained by rewriting the above equation 8 is used. hand,
Calculate the total likelihood Q ′ all (S, t), which is the cumulative likelihood,
The word hypothesis having the calculated overall likelihood Q ′ all (S, t) is output to the word hypothesis narrowing unit 6 via the buffer memory 5.

【数14】Q’all(S,t)=QA’(S,t)+α・
L(S,t)
Q ′ all (S, t) = Q A ′ (S, t) + α ·
Q L (S, t)

【0038】なお、上記数13において、関数f(x)
は、上記尤度xに対する遅延割合を求める第1の関数で
あり、例えば、関数xは、xが増加するにつれて、概
ね、関数f(x)の傾斜を小さくするように変化する関
数である。また、上記数11における関数F(D)は上
記第1の関数に関連し、尤度Dに対する遅延割合を求め
る第2の関数である。
In the above equation (13), the function f (x)
Is a first function for calculating a delay ratio with respect to the likelihood x. For example, the function x is a function that generally changes so as to decrease the slope of the function f (x) as x increases. Further, the function F (D) in the above equation 11 is a second function related to the first function and for calculating a delay ratio with respect to the likelihood D.

【0039】次いで、図1の連続音声認識装置の構成及
び動作について説明する。図1において、音素HMMメ
モリ11は、単語照合部4に接続され、音素HMMを予
め記憶し、当該音素HMMは、各状態を含んで表され、
各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施例において用いる音素HMMは、各分布が
どの話者に由来するかを特定する必要があるため、所定
の話者混合HMMを変換して作成する。ここで、出力確
率密度関数は34次元の対角共分散行列をもつ混合ガウ
ス分布である。
Next, the configuration and operation of the continuous speech recognition apparatus of FIG. 1 will be described. In FIG. 1, a phoneme HMM memory 11 is connected to the word matching unit 4 and stores a phoneme HMM in advance, and the phoneme HMM is represented including each state,
Each state has the following information. (A) State number (b) Acceptable context class (c) List of preceding state and succeeding state (d) Parameter of output probability density distribution (e) Self transition probability and transition probability to succeeding state The phoneme HMM used in the example is created by converting a predetermined speaker mixed HMM because it is necessary to specify which speaker each distribution originates from. Here, the output probability density function is a Gaussian mixture distribution having a 34-dimensional diagonal covariance matrix.

【0040】また、単語辞書メモリ12は、単語照合部
4に接続され、単語辞書を予め記憶し、当該単語辞書
は、音素HMMメモリ11内の音素HMMの各単語毎に
シンボルで表した読みを示すシンボル列を格納する。さ
らに、統計的言語モデルメモリ13は、単語照合部4に
接続され、所定の統計的言語モデルを予め記憶する。こ
こで、統計的言語モデルは、例えば、従来技術文献6
「政瀧浩和ほか,“連続音声認識のための可変長連鎖統
計言語モデル”,電子通信情報学会技術報告,SP95
−73,1995年11月」において開示されている、
時間方向の長さが可変である可変長N−gramと呼ば
れる言語モデルを使用することができる。当該統計的言
語モデルは、品詞クラスと単語との可変長N−gram
であり、次の3種類のクラス間のバイグラムとして表現
する。 (a)品詞クラス、 (b)品詞クラスから分離した単語のクラス、及び、 (c)連接単語が結合してできたクラス。
The word dictionary memory 12 is connected to the word collating unit 4 and stores a word dictionary in advance. The word dictionary stores a reading of each phoneme HMM in the phoneme HMM memory 11 represented by a symbol for each word. The symbol string shown is stored. Further, the statistical language model memory 13 is connected to the word matching unit 4 and stores a predetermined statistical language model in advance. Here, the statistical language model is described in, for example, the related art document 6
"Hirokazu Masataki et al.," Variable Length Statistical Language Model for Continuous Speech Recognition ", IEICE Technical Report, SP95
-73, November 1995 ".
A language model called variable length N-gram whose length in the time direction is variable can be used. The statistical language model includes a variable length N-gram of a part of speech class and a word.
And expressed as a bigram between the following three types of classes. (A) part-of-speech class, (b) class of word separated from part-of-speech class, and (c) class formed by connecting connected words.

【0041】図1の連続音声認識装置において、特徴抽
出部2と、単語照合部4と、尤度補正部7と、単語仮説
絞込部6と、初期HMM生成部21と、HMM再構成部
22と、再学習部23とは、例えば、CPUを備えたデ
ジタル計算機で構成される。また、バッファメモリ3,
5と、音素HMMメモリ11と、単語辞書メモリ12
と、統計的言語モデルメモリ13と、過小評価尤度メモ
リ14と、音声データメモリ30と、初期HMMメモリ
31と、再構成されたHMMメモリ32とは、例えば、
ハードディスクメモリで構成される。
In the continuous speech recognition apparatus of FIG. 1, the feature extracting unit 2, the word matching unit 4, the likelihood correcting unit 7, the word hypothesis narrowing unit 6, the initial HMM generating unit 21, and the HMM reconstructing unit The re-learning unit 23 and the re-learning unit 23 are configured by, for example, a digital computer including a CPU. Also, the buffer memory 3,
5, phoneme HMM memory 11, and word dictionary memory 12
, A statistical language model memory 13, an underestimated likelihood memory 14, a voice data memory 30, an initial HMM memory 31, and a reconstructed HMM memory 32,
It consists of a hard disk memory.

【0042】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
In FIG. 1, a uttered voice of a speaker is input to a microphone 1 and converted into a voice signal, and then input to a feature extracting unit 2. After performing A / D conversion on the input audio signal, the feature extraction unit 2 performs, for example, LPC analysis, and performs 34-dimensional feature parameters including logarithmic power, 16th-order cepstrum coefficient, Δlogarithmic power, and 16th-order Δcepstrum coefficient. Is extracted. The time series of the extracted feature parameters is input to the word matching unit 4 via the buffer memory 3.

【0043】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと、単語辞書メモリ12内の単語辞書
と、統計的言語モデルメモリ13内の統計的言語モデル
とを用いて単語仮説を検出し、音素HMMに基づいた音
響尤度と、統計的言語モデルに基づいた言語尤度とを計
算して、単語仮説とともに尤度補正部7に出力する。こ
こで、単語照合部4は、各時刻の各HMMの状態毎に、
単語内の尤度と発声開始からの音響尤度を計算する。音
響尤度及び言語尤度を含む尤度は、単語の識別番号、単
語の開始時刻、先行単語の違い毎に個別にもつ。また、
計算処理量の削減のために、音素HMM、単語辞書及び
統計的言語モデルとに基づいて計算される総合尤度のう
ちの低い総合尤度のグリッド仮説を削減する。単語照合
部4は、その結果の単語仮説と総合尤度の情報を発声開
始時刻からの時間情報(具体的には、例えばフレーム番
号)とともに尤度補正部7に出力する。
The word collating unit 4 uses the one-pass Viterbi decoding method to store the phoneme HMM memory 1 based on the characteristic parameter data input via the buffer memory 3.
1, a word hypothesis is detected using the word dictionary in the word dictionary memory 12, and the statistical language model in the statistical language model memory 13, and the acoustic likelihood based on the phoneme HMM, And calculates the linguistic likelihood based on the statistical language model, and outputs the linguistic likelihood together with the word hypothesis to the likelihood correcting unit 7. Here, the word matching unit 4 determines, for each state of each HMM at each time,
The likelihood within a word and the acoustic likelihood from the start of utterance are calculated. The likelihood including the acoustic likelihood and the linguistic likelihood is individually provided for each word identification number, word start time, and preceding word difference. Also,
In order to reduce the amount of calculation processing, the grid hypothesis of a low total likelihood among the total likelihoods calculated based on the phoneme HMM, the word dictionary, and the statistical language model is reduced. The word matching unit 4 outputs the resulting word hypothesis and information on the overall likelihood to the likelihood correction unit 7 together with time information (specifically, for example, a frame number) from the utterance start time.

【0044】これに応答して、尤度補正部7は、時刻
(t−1)において、各単語仮説に対して、1時刻前の
過小評価分データである上記数7における{QA(S,t
−1)−QA’(S,t−1)}を計算して、過小評価尤度
メモリ14に記憶し、次いで、時刻tにおいて、上記数
6と上記数7とを用いて、過小評価するように補正され
た音響尤度QA’(S,t)を計算し、次いで、上記数
8とを用いて、総合尤度Q’all(S,t)を計算し、
当該計算された総合尤度Q’all(S,t)を有する単
語仮説をバッファメモリ5を介して単語仮説絞込部6に
出力する。
In response, at time (t-1), likelihood correction section 7 calculates the {Q A (S , T
-1) -Q A ′ (S, t−1)} is stored in the underestimated likelihood memory 14, and at time t, the underestimated is calculated using the above equations 6 and 7. The sound likelihood Q A ′ (S, t) corrected so as to calculate the total likelihood Q ′ all (S, t) by using the above equation (8),
The word hypothesis having the calculated overall likelihood Q ′ all (S, t) is output to the word hypothesis narrowing unit 6 via the buffer memory 5.

【0045】単語仮説絞込部6は、尤度補正部7からバ
ッファメモリ5を介して出力される総合尤度を有する単
語仮説に基づいて、終了時刻が等しく開始時刻が異なる
同一の単語の単語仮説に対して、当該単語の先頭音素環
境毎に、発声開始時刻から当該単語の終了時刻に至る計
算された総合尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総合尤度を有する仮説の単語列を認識結果として
出力する。本実施形態においては、好ましくは、処理す
べき当該単語の先頭音素環境とは、当該単語より先行す
る単語仮説の最終音素と、当該単語の単語仮説の最初の
2つの音素とを含む3つの音素並びをいう。
The word hypothesis narrowing section 6 is based on a word hypothesis having an overall likelihood output from the likelihood correction section 7 via the buffer memory 5, and is configured to select words having the same end time but different start times from each other. With respect to the hypothesis, the word is represented by one word hypothesis having the highest likelihood among the calculated total likelihoods from the utterance start time to the end time of the word for each head phoneme environment of the word. After narrowing down hypotheses, of the word strings of all the narrowed word hypotheses,
A word string of a hypothesis having the maximum overall likelihood is output as a recognition result. In the present embodiment, preferably, the first phoneme environment of the word to be processed is three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. I mean a line.

【0046】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総合尤度が最も高い仮説(例えば、図
2において1番上の仮説)以外を削除する。なお、上か
ら4番めの仮説は先頭音素環境が違うため、すなわち、
先行する単語仮説の最終音素がxではなくyであるの
で、上から4番めの仮説を削除しない。すなわち、先行
する単語仮説の最終音素毎に1つのみ仮説を残す。図2
の例では、最終音素/x/に対して1つの仮説を残し、
最終音素/y/に対して1つの仮説を残す。
[0046] For example, as shown in FIG. 2, the (i-1) th word W i-1 of the following phoneme string a 1, a 2, ..., come i th word W i consisting a n Sometimes, six hypotheses Wa, Wb, Wc, Wd, We, and Wf are assumed as the word hypotheses of the word Wi -1.
Exists. Here, the former three word hypotheses Wa, W
It is assumed that the final phonemes of b and Wc are / x /, and the final phonemes of the latter three word hypotheses Wd, We and Wf are / y /. Of the hypotheses in which the end time t e is equal to the head phoneme environment (in FIG. 2, the top three word hypotheses whose head phoneme environment is “x / a 1 / a 2 ”), the hypothesis with the highest overall likelihood (for example, FIG. 2 except for the top hypothesis). Note that the fourth hypothesis from the top has a different phoneme environment, that is,
Since the last phoneme of the preceding word hypothesis is y instead of x, the fourth hypothesis from the top is not deleted. That is, only one hypothesis is left for each final phoneme of the preceding word hypothesis. FIG.
In the example, leave one hypothesis for the final phoneme / x /
Leave one hypothesis for the final phoneme / y /.

【0047】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
In the above embodiment, the head phoneme environment of the word is defined as a sequence of three phonemes including the last phoneme of the word hypothesis preceding the word and the first two phonemes of the word hypothesis of the word. Although defined, the present invention is not limited to this. The phoneme sequence of the preceding word hypothesis including the final phoneme of the preceding word hypothesis, and at least one phoneme of the preceding word hypothesis that is continuous with the final phoneme, And a phoneme sequence that includes a phoneme sequence that includes the first phoneme of the word hypothesis.

【0048】[0048]

【実施例】本発明者は、図1の音声認識装置の有効性を
確認するために、以下の実験を行った。上述の方法によ
り、既学習HMMのガウス混合分布再構成を行なった。
初期HMMとしては、特許出願人が所有する旅行設定の
コーパス(テキストデータ)の男性話者175名による
自然発話音声を学習用音声サンプルとし、公知のML−
SSSアルゴリズムによって作成した男性話者用不特定
話者HMnetを用いた。本HMnetは前後環境依存
の音素HMMを状態共有ネットワークによって表現して
いる。初期HMMに用いたHMnetについての条件を
表1及び表2に示す。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present inventor conducted the following experiment in order to confirm the effectiveness of the speech recognition apparatus shown in FIG. The Gaussian mixture distribution reconstruction of the learned HMM was performed by the above method.
As the initial HMM, a naturally spoken voice of 175 male speakers in a corpus (text data) of a travel setting owned by the patent applicant is used as a learning voice sample, and a known ML-
The unspecified speaker HMNet for male speakers created by the SSS algorithm was used. This HMNet expresses the phoneme HMM depending on the environment before and after by a state sharing network. Tables 1 and 2 show the conditions for HMNet used in the initial HMM.

【0049】[0049]

【表1】 音響分析条件 ───────────────────────────── サンプリング周波数:12kHz 量子化:16ビット線形 プリエンファシス:1−0.97z-1 ウインドウ:20msハミング フレームシフト:10ms 特徴ベクトル:対数パワー+16次LPCケプストラム係数 +Δ対数パワー+16次Δケプストラム係数 ─────────────────────────────[Table 1] Acoustic analysis conditions サ ン プ リ ン グ Sampling frequency: 12 kHz Quantization: 16-bit linear Pre-emphasis: 1 −0.97z −1 window: 20 ms Hamming frame shift: 10 ms Feature vector: log power + 16th order LPC cepstrum coefficient + Δlog power + 16th order Δcepstrum coefficient ────────────────── ───────────

【0050】[0050]

【表2】 HMnetの構造に関する条件 ───────────────────────────── (a)401状態の男性話者独立HMnet 状態分割された複数の音素HMMに対する400状態 (3つのコンテキスト依存型HMM) 無音HMMに対する1状態 (b)音響単位:日本語25音素+無音 (c)混合サイズ:10混合/状態 (d)共分散タイプ:直交 ─────────────────────────────Table 2 Conditions for the structure of HMNet ───────────────────────────── (a) Male speaker independent HMet state in 401 state 400 states for a plurality of divided phoneme HMMs (3 context-dependent HMMs) 1 state for a silence HMM (b) Acoustic unit: 25 Japanese phonemes + silence (c) Mixed size: 10 mixtures / state (d) Covariance Type: orthogonal ─────────────────────────────

【0051】このHMnetに対して、上記の男性話者
175名による自然発話音声を再び用い、コンポーネン
ト追加実行のしきい値r=0.01にて、ガウス混合分
布の再構成を行なった。その結果、初期HMMにおける
総コンポーネント数4000に対し、全体で2603回
のコンポーネント追加が行なわれ、初期HMMにおいて
一律10であった各ガウス混合分布の混合数が、10〜
36の範囲で分布することとなった(図10参照。)。
For this HMNet, the Gaussian mixture distribution was reconstructed at the threshold value r = 0.01 of the component addition execution using the natural speech voice of the 175 male speakers described above. As a result, a total of 2603 components are added to the total number of components 4000 in the initial HMM, and the mixture number of each Gaussian mixture distribution, which was uniformly 10 in the initial HMM, is 10 to 10.
It was distributed in a range of 36 (see FIG. 10).

【0052】次に、コンポーネント追加における混合ガ
ウス分布の追加元と追加先の関係について調べてみる
と、コンポーネント追加の半数以上は、同じ中心音素を
表現する分布同士でが行なわれていることが分かった。
本実験で用いたHMnetは、中心音素毎の異音HMM
を環境方向、あるいは時間方向に逐次状態分割して得ら
れたものである。従って、同じ中心音素を表現する分布
同士でのコンポーネント追加は、主に、HMnet作成
過程の逐次状態分割により、いずれかの状態で表現不能
になった音響現象を再び表現可能とする働きをしている
と考えることができる。なお、このような、コンポーネ
ント追加が、環境方向、時間方向の両方について行なわ
れていることも確認した。
Next, when examining the relationship between the addition source and the addition destination of the Gaussian mixture distribution in component addition, it is found that distributions expressing the same central phoneme are performed for more than half of the component addition. Was.
HMNet used in this experiment is an allophone HMM for each central phoneme.
Are sequentially divided in the environmental direction or the time direction. Therefore, the addition of components between distributions expressing the same central phoneme mainly serves to make it possible to express again an acoustic phenomenon that cannot be expressed in any state due to sequential state division in the HMNet creation process. Can be considered. It was also confirmed that such component addition was performed in both the environment direction and the time direction.

【0053】また、パラメータの再推定処理において
は、ガウス混合分布再構成後のHMMに対してパラメー
タの再推定を行なった。パラメータ推定にあたっては、
その基準を適切に選ぶことにより、再構成の効果を最大
限に引き出すことが期待できるが、本実験では、主に、
再構成によるガウス混合分布の構造の変化がもたらす効
果を評価することを目的とし、初期HMMの作成時と同
様の尤度最大基準を採用した。初期HMMの作成時、及
び分布再構成時と同様の男性話者175名による自然発
話音声を用い、バーム・ウエルチ(Baum−Welc
h)の学習アルゴリズムによって、以下のパラメータを
推定した。 (a)ガウス分布の平均、(b)ガウス分布の分散、
(c)ガウス混合分布の混合重み、及び(d)状態遷移
確率。
In the parameter re-estimation process, the parameters of the HMM after the Gaussian mixture distribution reconstruction were re-estimated. When estimating parameters,
By properly selecting the criterion, it can be expected to maximize the effect of the reconstruction, but in this experiment,
In order to evaluate the effect of the change in the structure of the Gaussian mixture distribution due to the reconstruction, the maximum likelihood criterion used when the initial HMM was created was adopted. Using the spontaneously uttered speech by 175 male speakers as in the creation of the initial HMM and the distribution reconstruction, Baum-Welc
The following parameters were estimated by the learning algorithm of h). (A) mean of Gaussian distribution, (b) variance of Gaussian distribution,
(C) Gaussian mixture distribution mixture weight, and (d) state transition probability.

【0054】さらに、連続音声認識実験について述べ
る。ガウス混合分布再構成とその後のパラメータ再推定
によって得られた再構成HMMを用いて、連続音声認識
実験を行い、初期HMMをそのまま用いた場合(以下、
比較例という。)とその認識率を比較した。実験条件を
以下に示す。 (a)連続音声認識器:マルチパス探索と単語グラフ出
力を特徴とする連続音声認識装置(図1参照。)。 (b)言語モデル:可変長単語クラスN−gram、 分離クラス数:500。 (c)単語辞書:語彙数6922 (d)テストデータ:男性オープン話者7名分の旅行会
話音声、特許出願人が所有する旅行設定のコーパス(テ
キストデータ)、81発声、延べ937単語。 (e)評価基準 次式で定義される、単語グラフ中の第一位認識候補に対
する単語アキュラシーと単語%コレクト。
Next, a continuous speech recognition experiment will be described. A continuous speech recognition experiment was performed using a reconstructed HMM obtained by Gaussian mixture distribution reconstruction and subsequent parameter re-estimation.
It is called a comparative example. ) And their recognition rates. The experimental conditions are shown below. (A) Continuous speech recognizer: A continuous speech recognizer characterized by multipath search and word graph output (see FIG. 1). (B) Language model: variable-length word class N-gram, number of separated classes: 500. (C) Word dictionary: 6922 vocabulary words (d) Test data: travel conversation voices for seven male open speakers, corpus (text data) of travel settings owned by the patent applicant, 81 utterances, 937 words in total. (E) Evaluation Criteria Word accuracy and word% correct for the first recognition candidate in the word graph, defined by the following equation.

【数15】単語アキュラシー=(N−I−D−S)/N## EQU15 ## Word accuracy = (NIDS) / N

【数16】単語%コレクト=(N−D−S)/N ここで、 N:正解単語数、 I:挿入誤り数、 D:脱落誤り数、 S:置換誤り数。Where: N: number of correct words, I: number of insertion errors, D: number of missing errors, S: number of replacement errors.

【0055】連続音声認識装置のビーム幅、及び言語尤
度重みは、予備実験によって、初期HMMを用いた音声
認識において単語アキュラシーが最大になるように設定
した。初期HMMに対する最適設定から、上記で定義さ
れた、言語尤度の音響尤度に対する重み係数αのみを変
化させた際の認識結果を図11に示す。単語アキュラシ
ー、単語%コレクトいずれについても、再学習後の再構
成HMM(実施例)が、初期HMM(比較例)を上回っ
ていることが分かる。
The beam width and the linguistic likelihood weight of the continuous speech recognition apparatus were set by a preliminary experiment so that the word accuracy was maximized in the speech recognition using the initial HMM. FIG. 11 shows a recognition result when only the weight coefficient α for the acoustic likelihood of the language likelihood defined above is changed from the optimal setting for the initial HMM. It can be seen that the reconstructed HMM (Example) after re-learning exceeds the initial HMM (Comparative Example) for both word accuracy and word% correct.

【0056】本実施形態では、音響尤度の局所的落ち込
み抑止を目的とした、既学習のガウス混合分布型不特定
話者HMMの表現力向上を、音声サンプルを用いたガウ
ス混合分布の再構成によって図る方法を発明した。既学
習HMMと音声サンプルとの照合によって得られる誤り
傾向に基づいて、コンポーネントの追加と共有を行なう
本方法により、音響尤度の局所的落ち込みを効果的に抑
えることができ、その結果、音声認識率が向上すること
を確認した。
In the present embodiment, the expression power of the learned Gaussian mixture distribution type unspecified speaker HMM for the purpose of suppressing the local drop of the acoustic likelihood is determined by reconstructing the Gaussian mixture distribution using speech samples. Invented a method to achieve this. This method of adding and sharing a component based on the error tendency obtained by matching a learned HMM with a speech sample can effectively suppress a local drop in acoustic likelihood, and as a result, speech recognition It was confirmed that the rate improved.

【0057】さらに、本発明に係る本実施形態の再学習
後の再構成HMMの効果について以下に考察する。 (a)分布の表現力 分布の表現力は個々のガウス混合分布の混合数によって
決まる。逐次状態分割融合法においては、全てのガウス
混合分布に対して混合数が等しくなり、ガウス混合分布
毎に表現するべき対象の細かさに対応できる構造は生成
されない。本発明においては、実施例で、5混合(初期
モデルの混合数)から36混合に渡る、様々な混合数の
ガウス混合分布が生成されている。また分布の共有構造
によって、ガウス分布の総数はその適用前と変わらない
ので音響モデルとしての頑健性を保ちながら分布の表現
力を高めることが出来る。 (b)共有構造決定のための計算時間 最終的な共有構造の決定に要する時間のほとんどは、学
習データに対する音響モデルの尤度計算に要する時間が
占めている。第2の従来例の逐次状態分割融合法におい
ては、一状態についての融合の決定毎にHMM全体のパ
ラメータ再推定を行なうため、モデルの総状態数をNと
したとき、
Further, the effect of the reconstructed HMM after relearning of the present embodiment according to the present invention will be considered below. (A) Expressive power of distribution The expressive power of a distribution is determined by the number of mixtures of each Gaussian mixture distribution. In the successive state division fusion method, the number of mixtures becomes equal for all Gaussian mixture distributions, and a structure that can correspond to the fineness of an object to be expressed for each Gaussian mixture distribution is not generated. In the present invention, various mixtures of Gaussian mixture distributions ranging from 5 mixtures (the number of mixtures in the initial model) to 36 mixtures are generated in the embodiment. In addition, since the total number of Gaussian distributions is the same as before the application by the shared structure of distribution, the expressiveness of the distribution can be enhanced while maintaining the robustness as an acoustic model. (B) Calculation Time for Determining the Shared Structure Most of the time required for determining the final shared structure occupies the time required for calculating the likelihood of the acoustic model for the learning data. In the sequential state division fusion method of the second conventional example, in order to re-estimate the parameters of the entire HMM every time fusion of one state is determined, when the total number of states of the model is N,

【数17】N+N=2×N(回) の尤度計算が必要となる。ここで、数17の左辺第1項
は状態分割毎の尤度計算である。本発明の実施形態にお
いては、全ての状態に関する共有構造を一括して決定す
るため、共有構造そのものの決定に要する尤度計算は2
回である。従って、
[Mathematical formula-see original document] The likelihood calculation of N + N = 2 * N (times) is required. Here, the first term on the left side of Expression 17 is a likelihood calculation for each state division. In the embodiment of the present invention, since the shared structure for all states is determined collectively, the likelihood calculation required for determining the shared structure itself is 2
Times. Therefore,

【数18】N+2(回) の尤度計算となる。ここで、数18の左辺第1項は状態
分割毎の尤度計算である。通常Nは400から1000
に設定されるので、計算時間は、ほぼ半分に短縮される
と考えられる。
## EQU18 ## The likelihood calculation is N + 2 (times). Here, the first term on the left side of Expression 18 is a likelihood calculation for each state division. Usually N is 400 to 1000
, The calculation time is expected to be reduced by almost half.

【0058】以上説明したように、本実施形態によれ
ば、初期HMMを上述のようにコンポーネントを追加し
て再構成した後再学習したHMMについては、初期HM
Mに比較して、音響モデルとしての頑健性を保ちながら
分布の表現力を高めることが出来る。従って、当該HM
Mを用いて音声認識することにより、従来技術に比較し
てより高い音声認識率で音声認識することができる。ま
た、共有構造決定のための計算時間については、第2の
従来例に比較して概ね半減することができ、より高速で
HMMを構築することができる。
As described above, according to the present embodiment, for the HMM that has been re-learned after the initial HMM has been reconfigured by adding components as described above, the initial HM
Compared with M, the expression power of the distribution can be enhanced while maintaining the robustness as an acoustic model. Therefore, the HM
By performing voice recognition using M, voice recognition can be performed at a higher voice recognition rate than in the related art. Further, the calculation time for determining the shared structure can be reduced to almost half as compared with the second conventional example, and the HMM can be constructed at a higher speed.

【0059】[0059]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の音響モデル生成装置によれば、所定の音声デー
タの特徴パラメータに基づいて、所定の学習アルゴリズ
ムにより、初期の隠れマルコフモデルを生成する第1の
生成手段と、上記音声データに対して初期の隠れマルコ
フモデルが起こす、所定の時間のフレーム単位の識別誤
りであるフレーム誤りの傾向に基づいて隠れマルコフモ
デルのガウス混合分布のコンポーネントを追加すること
により、上記第1の生成手段によって生成された初期の
隠れマルコフモデルを再構成して、再構成された隠れマ
ルコフモデルを生成する第2の生成手段と、上記音声デ
ータの特徴パラメータに基づいて、所定の学習アルゴリ
ズムにより、上記第2の生成手段によって生成された隠
れマルコフモデルを再学習することにより、再学習され
た隠れマルコフモデルである音響モデルを生成する第3
の生成手段とを備える。従って、初期HMMを上述のよ
うにコンポーネントを追加して再構成した後再学習した
HMMについては、初期HMMに比較して、音響モデル
としての頑健性を保ちながら分布の表現力を高めること
が出来る。従って、当該HMMを用いて音声認識するこ
とにより、従来技術に比較してより高い音声認識率で音
声認識することができる。また、共有構造決定のための
計算時間については、第2の従来例に比較して概ね半減
することができ、より高速でHMMを構築することがで
きる。
As described above in detail, according to the acoustic model generating apparatus according to the first aspect of the present invention, an initial hidden Markov model is obtained by a predetermined learning algorithm based on a characteristic parameter of predetermined speech data. And a Gaussian mixture distribution of the Hidden Markov Model based on a tendency of a frame error, which is an identification error of a frame unit at a predetermined time, caused by an initial Hidden Markov Model for the audio data. Second generating means for reconstructing the initial hidden Markov model generated by the first generating means by adding components to generate a reconstructed hidden Markov model; and characteristics of the audio data The hidden Markov model generated by the second generation unit based on the parameters and by a predetermined learning algorithm By relearning, third generating an acoustic model is re-learned HMM
Generating means. Therefore, as for the HMM obtained by reconstructing the initial HMM by adding components as described above and then re-learning, the expression power of the distribution can be enhanced while maintaining the robustness as an acoustic model, as compared with the initial HMM. . Therefore, by performing voice recognition using the HMM, voice recognition can be performed at a higher voice recognition rate than in the related art. Further, the calculation time for determining the shared structure can be reduced to almost half as compared with the second conventional example, and the HMM can be constructed at a higher speed.

【0060】また、請求項2記載の音響モデル生成装置
においては、請求項1記載の音響モデル生成装置におい
て、上記第2の生成手段は、上記初期の隠れマルコフモ
デルと上記音声データとの間でビタビアラインメント処
理を実行することにより、(a)上記初期の隠れマルコ
フモデル中に含まれるガウス混合分布のビタビ系列と、
(b)上記音声データの各フレームに対して最も高い尤
度を与え、上記初期の隠れマルコフモデル中に各ガウス
混合分布のコンポーネントとして含まれるガウス分布の
最尤系列とを得る第1の処理手段と、上記第1の処理手
段によって得られた、ガウス混合分布のビタビ系列、及
びガウス分布の最尤系列における、時刻を同じくするガ
ウス混合分布と、ガウス分布の組み合わせのそれぞれの
出現頻度に基づいて、上記初期の隠れマルコフモデル中
に含まれるガウス混合分布とガウス分布の全ての組み合
わせについて、各ガウス混合分布においてフレーム誤り
が生じてかつそのときの最尤ガウス分布が当該組み合わ
せのガウス分布であるときのフレーム誤り確率を演算
し、演算された各フレーム誤り確率が所定のしきい値を
越えるときに当該ガウス分布を、当該ガウス混合分布の
新たなコンポーネントとして追加する第2の処理手段と
を備え、上記第2の処理手段によって各ガウス混合分布
の新たなコンポーネントとして追加された各ガウス分布
は、当該ガウス分布が上記初期の隠れマルコフモデル中
で、コンポーネントとして属していたガウス混合分布
と、上記第2の処理手段によって新たにコンポーネント
として属することになったガウス混合分布との双方から
共有されるコンポーネントとなる。従って、初期HMM
を上述のようにコンポーネントを追加して再構成した後
再学習したHMMについては、初期HMMに比較して、
音響モデルとしての頑健性を保ちながら分布の表現力を
高めることが出来る。従って、当該HMMを用いて音声
認識することにより、従来技術に比較してより高い音声
認識率で音声認識することができる。また、共有構造決
定のための計算時間については、第2の従来例に比較し
て概ね半減することができ、より高速でHMMを構築す
ることができる。
According to a second aspect of the present invention, in the acoustic model generating apparatus as set forth in the first aspect, the second generating means is configured to perform a process between the initial hidden Markov model and the audio data. By executing the Viterbi alignment processing, (a) a Viterbi sequence having a Gaussian mixture distribution included in the initial hidden Markov model,
(B) first processing means for giving the highest likelihood to each frame of the audio data and obtaining a Gaussian maximum likelihood sequence included as a component of each Gaussian mixture distribution in the initial hidden Markov model; And the frequency of occurrence of a combination of a Gaussian mixture distribution having the same time and a Gaussian distribution in the Viterbi sequence of the Gaussian mixture distribution and the maximum likelihood sequence of the Gaussian distribution obtained by the first processing means. For all combinations of the Gaussian mixture distribution and the Gaussian distribution included in the initial hidden Markov model, when a frame error occurs in each Gaussian mixture distribution and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution of the combination Is calculated, and when each calculated frame error probability exceeds a predetermined threshold value, A second processing means for adding a Gaussian distribution as a new component of the Gaussian mixture distribution, wherein each Gaussian distribution added as a new component of each Gaussian mixture distribution by the second processing means is a Gaussian mixture. In the initial hidden Markov model, the distribution is a component shared by both the Gaussian mixture distribution belonging to the component and the Gaussian mixture distribution newly belonging to the component by the second processing means. . Therefore, the initial HMM
Is re-learned after adding and reconfiguring components as described above, compared to the initial HMM,
It is possible to enhance the expressive power of the distribution while maintaining the robustness as an acoustic model. Therefore, by performing voice recognition using the HMM, voice recognition can be performed at a higher voice recognition rate than in the related art. Further, the calculation time for determining the shared structure can be reduced to almost half as compared with the second conventional example, and the HMM can be constructed at a higher speed.

【0061】さらに、本発明に係る音声認識装置におい
ては、請求項1又は2記載の音響モデル生成装置によっ
て生成された音響モデルを用いて、入力される発声音声
文の音声信号に基づいて音声認識する音声認識手段を備
える。従って、初期HMMを上述のようにコンポーネン
トを追加して再構成した後再学習したHMMについて
は、初期HMMに比較して、音響モデルとしての頑健性
を保ちながら分布の表現力を高めることが出来る。従っ
て、当該HMMを用いて音声認識することにより、従来
技術に比較してより高い音声認識率で音声認識すること
ができる。また、共有構造決定のための計算時間につい
ては、第2の従来例に比較して概ね半減することがで
き、より高速でHMMを構築することができる。
Further, in the speech recognition apparatus according to the present invention, the speech recognition is performed based on the speech signal of the uttered speech sentence using the acoustic model generated by the acoustic model generation apparatus according to claim 1 or 2. Voice recognition means for performing the operation. Therefore, as for the HMM obtained by reconstructing the initial HMM by adding components as described above and then re-learning, the expression power of the distribution can be enhanced while maintaining the robustness as an acoustic model, as compared with the initial HMM. . Therefore, by performing voice recognition using the HMM, voice recognition can be performed at a higher voice recognition rate than in the related art. Further, the calculation time for determining the shared structure can be reduced to almost half as compared with the second conventional example, and the HMM can be constructed at a higher speed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である音声認識装置
のブロック図である。
FIG. 1 is a block diagram of a voice recognition device according to an embodiment of the present invention.

【図2】 図1の音声認識装置における単語仮説絞込部
6の処理を示すタイミングチャートである。
FIG. 2 is a timing chart showing processing of a word hypothesis narrowing section 6 in the voice recognition device of FIG.

【図3】 図1のHMM再構成部22によって実行され
るHMM再構成処理の第1の部分を示すフローチャート
である。
FIG. 3 is a flowchart illustrating a first part of the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 of FIG. 1;

【図4】 図1のHMM再構成部22によって実行され
るHMM再構成処理の第2の部分を示すフローチャート
である。
FIG. 4 is a flowchart illustrating a second part of the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 of FIG. 1;

【図5】 図1のHMM再構成部22によって実行され
るHMM再構成処理の第3の部分を示すフローチャート
である。
FIG. 5 is a flowchart illustrating a third part of the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 of FIG. 1;

【図6】 図1のHMM再構成部22によって実行され
るHMM再構成処理の第4の部分を示すフローチャート
である。
FIG. 6 is a flowchart illustrating a fourth part of the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 in FIG. 1;

【図7】 図1のHMM再構成部22によって実行され
るHMM再構成処理におけるビタビ系列と最尤系列の構
成の一例を示す図である。
FIG. 7 is a diagram illustrating an example of the configuration of a Viterbi sequence and a maximum likelihood sequence in the HMM reconfiguration processing performed by the HMM reconfiguration unit 22 in FIG. 1;

【図8】 図1のHMM再構成部22によって実行され
るHMM再構成処理におけるフレーム誤り確率の算出の
一例を示す図である。
FIG. 8 is a diagram illustrating an example of calculation of a frame error probability in the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 in FIG. 1;

【図9】 図1のHMM再構成部22によって実行され
るHMM再構成処理における誤り確率に基づくコンポー
ネントの追加を示す図である。
9 is a diagram illustrating addition of a component based on an error probability in the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 in FIG. 1;

【図10】 図1のHMM再構成部22によって実行さ
れるHMM再構成処理後の混合数の分布の一例を示すグ
ラフである。
FIG. 10 is a graph showing an example of the distribution of the number of mixtures after the HMM reconfiguration processing executed by the HMM reconfiguration unit 22 in FIG. 1;

【図11】 図1の音声認識装置の実験結果であって、
音声認識結果の比較を示すグラフである。
11 is an experimental result of the voice recognition device of FIG. 1,
It is a graph which shows a comparison of a speech recognition result.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 7…尤度補正部、 11…音素HMMメモリ、 12…単語辞書メモリ、 13…統計的言語モデル、 14…過小評価尤度メモリ、 21…初期HMM生成部、 22…HMM再構成部、 23…再学習部、 30…音声データメモリ、 31…初期HMMメモリ、 32…再構成されたHMMメモリ。 DESCRIPTION OF SYMBOLS 1 ... microphone, 2 ... feature extraction part, 3, 5 ... buffer memory, 4 ... word collation part, 6 ... word hypothesis narrowing part, 7 ... likelihood correction part, 11 ... phoneme HMM memory, 12 ... word dictionary memory, 13: Statistical language model, 14: Underestimated likelihood memory, 21: Initial HMM generating unit, 22: HMM reconstructing unit, 23: Re-learning unit, 30: Voice data memory, 31: Initial HMM memory, 32: Re Configured HMM memory.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 所定の音声データの特徴パラメータに基
づいて、所定の学習アルゴリズムにより、初期の隠れマ
ルコフモデルを生成する第1の生成手段と、 上記音声データに対して初期の隠れマルコフモデルが起
こす、所定の時間のフレーム単位の識別誤りであるフレ
ーム誤りの傾向に基づいて隠れマルコフモデルのガウス
混合分布のコンポーネントを追加することにより、上記
第1の生成手段によって生成された初期の隠れマルコフ
モデルを再構成して、再構成された隠れマルコフモデル
を生成する第2の生成手段と、 上記音声データの特徴パラメータに基づいて、所定の学
習アルゴリズムにより、上記第2の生成手段によって生
成された隠れマルコフモデルを再学習することにより、
再学習された隠れマルコフモデルである音響モデルを生
成する第3の生成手段とを備えたことを特徴とする音響
モデル生成装置。
1. A first generating means for generating an initial hidden Markov model by a predetermined learning algorithm based on a characteristic parameter of predetermined audio data, and an initial hidden Markov model is generated for the audio data. By adding a component of the Gaussian mixture distribution of the Hidden Markov Model based on the tendency of a frame error, which is an identification error of a frame unit at a predetermined time, the initial Hidden Markov Model generated by the first generation unit is obtained. A second generation unit configured to generate a reconstructed hidden Markov model, and a hidden Markov model generated by the second generation unit by a predetermined learning algorithm based on the feature parameter of the audio data. By retraining the model,
An acoustic model generation device, comprising: a third generation unit configured to generate an acoustic model that is a re-learned hidden Markov model.
【請求項2】 請求項1記載の音響モデル生成装置にお
いて、 上記第2の生成手段は、 上記初期の隠れマルコフモデルと上記音声データとの間
でビタビアラインメント処理を実行することにより、
(a)上記初期の隠れマルコフモデル中に含まれるガウ
ス混合分布のビタビ系列と、(b)上記音声データの各
フレームに対して最も高い尤度を与え、上記初期の隠れ
マルコフモデル中に各ガウス混合分布のコンポーネント
として含まれるガウス分布の最尤系列とを得る第1の処
理手段と、 上記第1の処理手段によって得られた、ガウス混合分布
のビタビ系列、及びガウス分布の最尤系列における、時
刻を同じくするガウス混合分布と、ガウス分布の組み合
わせのそれぞれの出現頻度に基づいて、上記初期の隠れ
マルコフモデル中に含まれるガウス混合分布とガウス分
布の全ての組み合わせについて、各ガウス混合分布にお
いてフレーム誤りが生じてかつそのときの最尤ガウス分
布が当該組み合わせのガウス分布であるときのフレーム
誤り確率を演算し、演算された各フレーム誤り確率が所
定のしきい値を越えるときに当該ガウス分布を、当該ガ
ウス混合分布の新たなコンポーネントとして追加する第
2の処理手段とを備え、 上記第2の処理手段によって各ガウス混合分布の新たな
コンポーネントとして追加された各ガウス分布は、 当該ガウス分布が上記初期の隠れマルコフモデル中で、
コンポーネントとして属していたガウス混合分布と、 上記第2の処理手段によって新たにコンポーネントとし
て属することになったガウス混合分布との双方から共有
されるコンポーネントとなることを特徴とする音響モデ
ル生成装置。
2. The acoustic model generation device according to claim 1, wherein the second generation unit executes a Viterbi alignment process between the initial hidden Markov model and the audio data.
(A) the Viterbi sequence of the Gaussian mixture distribution included in the initial hidden Markov model, and (b) the highest likelihood is given to each frame of the audio data, and each Gaussian is included in the initial hidden Markov model. First processing means for obtaining a maximum likelihood sequence of a Gaussian distribution included as a component of a mixture distribution, and a Viterbi sequence of a Gaussian mixture distribution obtained by the first processing means, and a maximum likelihood sequence of a Gaussian distribution, Based on the Gaussian mixture distribution at the same time and the frequency of each of the combinations of the Gaussian distributions, for all combinations of the Gaussian mixture distribution and the Gaussian distribution included in the initial hidden Markov model, the frame in each Gaussian mixture distribution When an error occurs and the maximum likelihood Gaussian distribution at that time is the Gaussian distribution of the combination, the frame error probability A second processing means for calculating a rate and adding the Gaussian distribution as a new component of the Gaussian mixture distribution when each of the calculated frame error probabilities exceeds a predetermined threshold value. Each Gaussian distribution added as a new component of each Gaussian mixture distribution by the processing means of the above, the Gaussian distribution in the initial hidden Markov model,
An acoustic model generation apparatus characterized in that the component is a component shared by both the Gaussian mixture distribution belonging to the component and the Gaussian mixture distribution newly belonging to the component by the second processing means.
【請求項3】 請求項1又は2記載の音響モデル生成装
置によって生成された音響モデルを用いて、入力される
発声音声文の音声信号に基づいて音声認識する音声認識
手段を備えたことを特徴とする音声認識装置。
3. A voice recognition device comprising: a voice recognition unit configured to recognize a voice based on a voice signal of an input utterance voice sentence, using a voice model generated by the voice model generation device according to claim 1 or 2. Speech recognition device.
JP9245206A 1997-09-10 1997-09-10 Acoustic model generation device and speech recognition device Expired - Fee Related JP3009640B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9245206A JP3009640B2 (en) 1997-09-10 1997-09-10 Acoustic model generation device and speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9245206A JP3009640B2 (en) 1997-09-10 1997-09-10 Acoustic model generation device and speech recognition device

Publications (2)

Publication Number Publication Date
JPH1185187A true JPH1185187A (en) 1999-03-30
JP3009640B2 JP3009640B2 (en) 2000-02-14

Family

ID=17130211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9245206A Expired - Fee Related JP3009640B2 (en) 1997-09-10 1997-09-10 Acoustic model generation device and speech recognition device

Country Status (1)

Country Link
JP (1) JP3009640B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (en) * 2005-03-07 2006-09-14 Canon Inc Data retrieval device and method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4336865B2 (en) 2001-03-13 2009-09-30 日本電気株式会社 Voice recognition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243673A (en) * 2005-03-07 2006-09-14 Canon Inc Data retrieval device and method

Also Published As

Publication number Publication date
JP3009640B2 (en) 2000-02-14

Similar Documents

Publication Publication Date Title
Pearce et al. Aurora working group: DSR front end LVCSR evaluation AU/384/02
JP4354653B2 (en) Pitch tracking method and apparatus
JP4450991B2 (en) Dynamically configurable acoustic model for speech recognition systems
JP4322815B2 (en) Speech recognition system and method
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US6275801B1 (en) Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
EP1055226B1 (en) System for using silence in speech recognition
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JPS62231996A (en) Allowance evaluation of word corresponding to voice input
JPH11175090A (en) Speaker clustering processor and voice recognition device
KR101014086B1 (en) Voice processing device and method, and recording medium
Ponting et al. The use of variable frame rate analysis in speech recognition
JP3061114B2 (en) Voice recognition device
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
JP6580911B2 (en) Speech synthesis system and prediction model learning method and apparatus thereof
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JP2938866B1 (en) Statistical language model generation device and speech recognition device
JP3176210B2 (en) Voice recognition method and voice recognition device
JP3009640B2 (en) Acoustic model generation device and speech recognition device
JP2852210B2 (en) Unspecified speaker model creation device and speech recognition device
JPH09134192A (en) Statistical language model forming device and speech recognition device
JPH0895592A (en) Pattern recognition method
KR100586045B1 (en) Recursive Speaker Adaptation Automation Speech Recognition System and Method using EigenVoice Speaker Adaptation
JP2968792B1 (en) Statistical language model generation device and speech recognition device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111203

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121203

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees