JP2001249681A - Device and method for adapting model, recording medium, and pattern recognition device - Google Patents

Device and method for adapting model, recording medium, and pattern recognition device

Info

Publication number
JP2001249681A
JP2001249681A JP2000276856A JP2000276856A JP2001249681A JP 2001249681 A JP2001249681 A JP 2001249681A JP 2000276856 A JP2000276856 A JP 2000276856A JP 2000276856 A JP2000276856 A JP 2000276856A JP 2001249681 A JP2001249681 A JP 2001249681A
Authority
JP
Japan
Prior art keywords
function
model
freshness
equation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000276856A
Other languages
Japanese (ja)
Inventor
Kouchiyo Nakatsuka
洪長 中塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000276856A priority Critical patent/JP2001249681A/en
Publication of JP2001249681A publication Critical patent/JP2001249681A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve recognition performance. SOLUTION: A voiceless acoustic model correction part 7 performs adaptation of a voiceless acoustic model, which is an acoustic model presenting a voiceless state, based on voice data observed in a section immediately before a voice recognition section to be voice-recognized, and the degree of freshness showing freshness of the acoustic data.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、モデル適応装置お
よびモデル適応方法、記録媒体、並びにパターン認識装
置に関し、特に、例えば、音声認識等を行う場合に用い
て好適なモデル適応装置およびモデル適応方法、記録媒
体、並びにパターン認識装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a model adaptation apparatus, a model adaptation method, a recording medium, and a pattern recognition apparatus, and more particularly, to a model adaptation apparatus and a model adaptation method suitable for performing, for example, speech recognition. , A recording medium, and a pattern recognition device.

【0002】[0002]

【従来の技術】従来より、ノイズ環境下において発話さ
れた単語等を認識する方法が知られており、その代表的
な方法としては、PMC(Parallel Model Combination)
法、SS/NSS(Spectral Subtraction/Nonlinear Spectral
Subtraction)法、SFE(StochasticFeature Extraction)
法等がある。
2. Description of the Related Art Conventionally, there has been known a method of recognizing a word or the like uttered in a noise environment. A typical method is a PMC (Parallel Model Combination).
Method, SS / NSS (Spectral Subtraction / Nonlinear Spectral
Subtraction) method, SFE (Stochastic Feature Extraction)
There is a law.

【0003】PMC法は、環境ノイズの情報を直接的に音
響モデルに取り込んでいるため、認識性能は良いが、そ
の反面、計算コストが高い。即ち、PHC法では、高度な
演算を必要とするので、装置の規模が大型化し、処理に
要する時間が長くなる。SS/NSS法では、音声データの特
徴量を抽出する段階において、環境ノイズが除去される
ので、PMC法よりも計算コストが低く、そのため現在、
広く用いられている。SFE法では、SS/NSS法と同様に、
環境ノイズを含む音声信号の特徴量を抽出する段階にお
いて、環境ノイズが除去されるが、特徴量として、確率
分布で表されるものが抽出される。SFE法では、このよ
うに、音声の特徴量が、特徴空間上の分布として抽出さ
れる点で、音声の特徴量が、特徴空間上の点として抽出
されるSS/NSS法や、PMC法と異なる。
[0003] Since the PMC method directly incorporates information of environmental noise into an acoustic model, the recognition performance is good, but the calculation cost is high. That is, in the PHC method, since a high-level operation is required, the scale of the apparatus is increased, and the time required for the processing is increased. In the SS / NSS method, the environmental noise is removed at the stage of extracting the feature amount of the voice data, so the calculation cost is lower than the PMC method.
Widely used. In the SFE method, similar to the SS / NSS method,
At the stage of extracting the feature amount of the audio signal including the environmental noise, the environmental noise is removed, and a feature amount represented by a probability distribution is extracted. In the SFE method, the feature of speech is extracted as a distribution in the feature space. Thus, the SS / NSS method in which the feature of speech is extracted as a point in the feature space, and the PMC method. different.

【0004】上述したいずれの方法においても、音声の
特徴量の抽出後は、その特徴量が、予め登録されている
複数の単語等に対応する音響モデルのうちのいずれに最
も適合するかが判定され、最も適合する音響モデルに対
応する単語が認識結果として出力される。
In any of the above-described methods, after the feature amount of the voice is extracted, it is determined which of the acoustic models corresponding to a plurality of words or the like registered in advance is most suitable. Then, a word corresponding to the most suitable acoustic model is output as a recognition result.

【0005】なお、SFE法については、本件出願人が先
に出願した特開平11-133992号(特願平9-300979号)等
に、その詳細が記載されている。また、PMC法、SS/NSS
法、およびSFE法の性能比較等については、例えば、"H.
Pao, H.Honda, K.Minamino, M.Omote, H.Ogawa and N.I
wahashi, Stochastic Feature Extraction for Improvi
ng Noise Robustness in Speech Recognition, Proceed
ings of the 8th Sony Research Forum, SRF98-234, p
p.9-14, October 1998", "N.Iwahashi, H.Pao, H.Hond
a, K.Minamino and M.Omote, Stochastic Features for
Noise Robust in Speech Recognition, ICASSP'98 Pro
ceedings, pp.633-636, May, 1998", "N.Iwahashi, H.P
ao(presented), H.Honda, K.Minamino and M.Omote, No
ise Robust Speech Recognition Using Stochastic Rep
resentation of Features, ASJ'98-Spring Proceeding
s, pp.91-92, March, 1998", "N.iwahashi, H.Pao H.Ho
nda, K.Minamino and M.Omote, Stochastic Represetat
ion of Feature for Noise Robust Speech Recognitio
n, Technical Report of IEICE, pp.19-24, SP97-97(19
98-01)等に、その詳細が記載されている。
The details of the SFE method are described in Japanese Patent Application Laid-Open No. Hei 11-133992 (Japanese Patent Application No. 9-300979) previously filed by the present applicant. PMC method, SS / NSS
For comparison of the performance of the SFE method and the SFE method, see, for example, "H.
Pao, H. Honda, K. Minamino, M. Omote, H. Ogawa and NI
wahashi, Stochastic Feature Extraction for Improvi
ng Noise Robustness in Speech Recognition, Proceed
ings of the 8th Sony Research Forum, SRF98-234, p
p. 9-14, October 1998 "," N. Iwahashi, H. Pao, H. Hond
a, K. Minamino and M. Omote, Stochastic Features for
Noise Robust in Speech Recognition, ICASSP'98 Pro
ceedings, pp.633-636, May, 1998 "," N. Iwahashi, HP
ao (presented), H.Honda, K.Minamino and M.Omote, No
ise Robust Speech Recognition Using Stochastic Rep
resentation of Features, ASJ'98-Spring Proceeding
s, pp.91-92, March, 1998 "," N.iwahashi, H.Pao H.Ho
nda, K. Minamino and M. Omote, Stochastic Represetat
ion of Feature for Noise Robust Speech Recognitio
n, Technical Report of IEICE, pp.19-24, SP97-97 (19
98-01) and the like.

【0006】[0006]

【発明が解決しようとする課題】ところで、上述のSFE
法等においては、音声認識の段階で環境ノイズが直接的
に反映されていない、すなわち、環境ノイズの情報が直
接的に無音音響モデルに取り込まれていないので、声音
認識の対象としている区間において無音の区間が存在す
ると、その無音の区間に起因して、認識性能が低下する
課題があった。
However, the above-mentioned SFE
In the law, etc., the environmental noise is not directly reflected in the speech recognition stage, that is, since the information of the environmental noise is not directly taken into the silent acoustic model, the silent When there is a section, there is a problem that the recognition performance is reduced due to the silent section.

【0007】具体的には、環境ノイズの情報が直接的に
無音音響モデルに取り込まれていないことに起因して、
音声認識が開始された時点から発話が開始されるまでの
時間が長くなると、認識性能が低下する課題があった。
More specifically, because information on environmental noise is not directly taken into the silent acoustic model,
If the time from the start of the speech recognition to the start of the utterance becomes long, there is a problem that the recognition performance is reduced.

【0008】本発明はこのような状況に鑑みてなされた
ものであり、環境ノイズの情報を用いて無音音響モデル
を更新(補正)することにより、音声認識が開始された
時から発話が開始される時までの時間が長くなるに伴っ
て認識性能が低下することを抑止することができるよう
にするものである。
The present invention has been made in view of such a situation. By updating (correcting) a silent acoustic model using information of environmental noise, utterance is started from the time when speech recognition is started. It is possible to prevent the recognition performance from deteriorating as the time until the time becomes longer.

【0009】[0009]

【課題を解決するための手段】本発明のモデル適応装置
は、所定区間における抽出データと、その抽出データの
新しさを表す新鮮度に基づいて、パターン認識に用いる
所定のモデルの適応を行うモデル適応手段を備えること
を特徴とする。
According to the present invention, there is provided a model adapting apparatus for adapting a predetermined model used for pattern recognition based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data. It is characterized by having an adaptation means.

【0010】本発明のモデル適応方法は、所定区間にお
ける抽出データと、その抽出データの新しさを表す新鮮
度に基づいて、所定のモデルの適応を行うモデル適応ス
テップを備えることを特徴とする。
[0010] The model adaptation method of the present invention is characterized by comprising a model adapting step of adapting a predetermined model based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data.

【0011】本発明の記録媒体は、所定区間における抽
出データと、その抽出データの新しさを表す新鮮度に基
づいて、所定のモデルの適応を行うモデル適応ステップ
を備えるプログラムが記録されていることを特徴とす
る。
[0011] The recording medium of the present invention stores a program having a model adaptation step of adapting a predetermined model based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data. It is characterized by.

【0012】本発明のパターン認識装置は、所定区間に
おける抽出データと、その抽出データの新しさを表す新
鮮度に基づいて、所定のモデルの適応を行うモデル適応
手段を備えることを特徴とする。
[0012] The pattern recognition apparatus of the present invention is characterized by comprising model adaptation means for adapting a predetermined model based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data.

【0013】本発明のモデル適応装置およびモデル適応
方法、記録媒体、並びにパターン認識装置においては、
所定区間における抽出データと、その抽出データの新し
さを表す新鮮度に基づいて、所定のモデルの適応が行わ
れる。
[0013] In the model adaptation apparatus and model adaptation method, recording medium, and pattern recognition apparatus of the present invention,
A predetermined model is adapted based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data.

【0014】[0014]

【発明の実施の形態】図1は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。 この音
声認識装置において、マイクロフォン1は、認識対象で
ある発話音声を、環境ノイズとともに集音し、フレーム
化部2に出力する。フレーム化部2は、マイクロフォン
1から入力される音声データを、所定の時間間隔(例え
ば、10ms)で取り出し、その取り出したデータを、1
フレームのデータとして出力する。フレーム化部2が出
力する1フレーム単位の音声データは、そのフレームを
構成する時系列の音声データそれぞれをコンポーネント
とする観測ベクトルaとして、ノイズ観測区間抽出部
3、および特徴抽出部5に供給される。
FIG. 1 shows a configuration example of an embodiment of a speech recognition apparatus to which the present invention is applied. In this voice recognition device, the microphone 1 collects the uttered voice to be recognized together with the environmental noise and outputs it to the framing unit 2. The framing unit 2 extracts audio data input from the microphone 1 at a predetermined time interval (for example, 10 ms), and
Output as frame data. The audio data in units of one frame output from the framing unit 2 is supplied to the noise observation section extraction unit 3 and the feature extraction unit 5 as an observation vector a having each of the time-series audio data constituting the frame as a component. You.

【0015】ここで、以下、適宜、第tフレームの音声
データである観測ベクトルを、a(t)と表す。
Here, the observation vector, which is the audio data of the t-th frame, is represented as a (t).

【0016】ノイズ観測区間抽出部3は、フレーム化部
2から入力されるフレーム単位の音声データを所定の時
間(2Mフレーム分以上)だけバッファリングし、図2
に示すように、発話スイッチ4がオンとされたタイミン
グtbからMフレーム分だけ以前のタイミングtaまでを
ノイズ観測区間Tnとして、そのノイズ観測区間Tnに
おける2Mフレーム分の観測ベクトルaを抽出して、特
徴抽出部5、および無音音響モデル補正部7に出力す
る。なお、本実施の形態では、ノイズ観測区間は、後述
する特徴分布を抽出するためのノイズ観測区間Tmと、
音響モデルの適応を行うためのノイズ観測区間Tnの2
つに分けられており、ノイズ観測区間TmとTnのいず
れも、Mフレームとされている。但し、ノイズ観測区間
TmとTnのフレーム数は、同一である必要はない。
The noise observation section extraction unit 3 buffers the audio data in frame units input from the framing unit 2 for a predetermined time (2M frames or more).
As shown in, the from the timing t b of the speech switch 4 is turned on until the M frames only previous timing t a as a noise observation interval Tn, extracts the observation vector a of 2M frames in the noise observation interval Tn Then, it outputs to the feature extraction unit 5 and the silent acoustic model correction unit 7. In the present embodiment, the noise observation section includes a noise observation section Tm for extracting a feature distribution described later,
2 of the noise observation section Tn for adapting the acoustic model
Each of the noise observation sections Tm and Tn is an M frame. However, the number of frames in the noise observation sections Tm and Tn does not need to be the same.

【0017】発話スイッチ4は、ユーザが発話を開始す
るときにユーザによってオンとされ、発話を終了すると
きにオフとされる。したがって、発話スイッチ4がオン
とされたタイミングtb以前(ノイズ観測区間Tn)の
音声データには、発話音声は含まれず、環境ノイズだけ
が存在する。また、発話スイッチ4がオンとされたタイ
ミングtbから発話スイッチ4がオフとされるタイミン
グtdまでは、音声認識区間とされて、その音声認識区
間の音声データが音声認識の対象とされる。
The utterance switch 4 is turned on by the user when the user starts uttering, and is turned off when ending the utterance. Therefore, the speech switch 4 is in the voice data on the timing t b before (noise observation interval Tn), speech is not included, only ambient noise is present. Further, from the timing t b of the speech switch 4 is turned on until the timing t d the speech switch 4 is turned off, is a voice recognition section, the audio data in the speech recognition section is subjected to speech recognition .

【0018】特徴抽出部5は、ノイズ観測区間抽出部3
から入力されるノイズ観測区間TmとTnのうちの前半
のノイズ観測区間Tmの環境ノイズだけが存在する音声
データに基づいて、フレーム化部2から入力される、タ
イミングtb以降の音声認識区間の観測ベクトルaから
環境ノイズ成分を除去して、その特徴量を抽出する。す
なわち、特徴抽出部5は、例えば、観測ベクトルaとし
ての音声データをフーリエ変換し、そのパワースペクト
ラムを求め、そのパワースペクトラムの各周波数成分を
コンポーネントとする特徴ベクトルyを算出する。な
お、パワースペクトラムの算出方法は、フーリエ変換に
よるものに限定されるものではない。すなわち、パワー
スペクトラムは、その他、例えば、いわゆるフィルタバ
ンク法などによって求めることも可能である。
The feature extraction unit 5 includes a noise observation section extraction unit 3
Based on the audio data only ambient noise in the first half of the noise observation interval Tm of the noise observation interval Tm and Tn to be input exists from input from the framing section 2, after the timing t b of the speech recognition section The environmental noise component is removed from the observation vector a, and the feature amount is extracted. That is, the feature extraction unit 5 performs, for example, Fourier transform on the audio data as the observation vector a, obtains a power spectrum, and calculates a feature vector y having each frequency component of the power spectrum as a component. The method for calculating the power spectrum is not limited to the method based on the Fourier transform. That is, the power spectrum can also be obtained by, for example, the so-called filter bank method.

【0019】さらに、特徴抽出部5は、観測ベクトルa
としての音声データに含まれる音声を、その特徴量の空
間(特徴ベクトル空間)に写像したときに得られる、そ
の特徴ベクトル空間上の分布を表すパラメータ(以下、
特徴分布パラメータと記述する)Zを、特徴ベクトルy
とノイズ観測区間Tmの環境ノイズに基づいて算出し、
音声認識部6に供給する。
Further, the feature extraction unit 5 calculates the observation vector a
A parameter representing the distribution in the feature vector space obtained when the speech included in the speech data as is mapped to the space of the feature amount (feature vector space) (hereinafter, referred to as
Z is described as a feature vector y
And the environmental noise of the noise observation section Tm,
It is supplied to the voice recognition unit 6.

【0020】図3は、図1の特徴抽出部5の詳細な構成
例を示している。フレーム化部2から入力される観測ベ
クトルaは、特徴抽出部5において、パワースペクトラ
ム分析部11に供給される。パワースペクトラム分析部
11では、観測ベクトルaが、例えば、FFT(高速フー
リエ変換)によってフーリエ変換され、これにより、音
声のパワースペクトラムが、特徴ベクトルとして抽出さ
れる。なお、ここでは、1フレームの音声データとして
の観測ベクトルaが、D個のコンポーネントからなる特
徴ベクトル(D次元の特徴ベクトル)に変換されるもの
とする。
FIG. 3 shows a detailed configuration example of the feature extraction unit 5 of FIG. The observation vector a input from the framing unit 2 is supplied to the power spectrum analysis unit 11 in the feature extraction unit 5. In the power spectrum analysis unit 11, the observation vector a is Fourier-transformed by, for example, FFT (Fast Fourier Transform), whereby the power spectrum of the voice is extracted as a feature vector. Here, it is assumed that the observation vector a as the audio data of one frame is converted into a feature vector (D-dimensional feature vector) including D components.

【0021】ここで、第tフレームの観測ベクトルa
(t)から得られる特徴ベクトルをy(t)と表す。ま
た、特徴ベクトルy(t)のうち、真の音声のスペクト
ル成分をx(t)と、環境ノイズのスペクトル成分をu
(t)と表す。この場合、真の音声のスペクトル成分x
(t)は、次式(1)で表される。
Here, the observation vector a of the t-th frame
The feature vector obtained from (t) is represented as y (t). In the feature vector y (t), the spectral component of the true voice is x (t), and the spectral component of the environmental noise is u.
(T). In this case, the spectral component x of the true voice
(T) is represented by the following equation (1).

【数1】 ただし、ここでは、環境ノイズが不規則な特性を有し、
また、観測ベクトルa(t)としての音声データは、真
の音声成分に環境ノイズを加算したものであると仮定し
ている。
(Equation 1) However, here, the environmental noise has irregular characteristics,
Also, it is assumed that the audio data as the observation vector a (t) is obtained by adding environmental noise to a true audio component.

【0022】一方、ノイズ観測区間抽出部3から入力さ
れる音声データとしてのノイズ観測区間Tmにおける環
境ノイズは、特徴検出部5において、ノイズ特性算出部
13に入力される。ノイズ特性算出部13では、ノイズ
観測区間Tmにおける環境ノイズの特性が求められる。
On the other hand, environmental noise in the noise observation section Tm as speech data input from the noise observation section extraction section 3 is input to the noise characteristic calculation section 13 in the feature detection section 5. The noise characteristic calculation unit 13 obtains environmental noise characteristics in the noise observation section Tm.

【0023】すなわち、ここでは、音声認識区間におけ
る環境ノイズのパワースペクトラムu(t)の分布が、
その音声認識区間の直前のノイズ観測区間Tmにおける
環境ノイズと同一であり、かつ、その分布が正規分布で
あると仮定して、ノイズ特性算出部13において、その
正規分布を規定する、環境ノイズの平均値(平均ベクト
ル)と分散(分散マトリクス)が求められる。
That is, here, the distribution of the power spectrum u (t) of the environmental noise in the speech recognition section is:
Assuming that the noise distribution is the same as the environmental noise in the noise observation section Tm immediately before the speech recognition section, and that the distribution is a normal distribution, the noise characteristic calculating section 13 defines the normal noise of the environmental noise. An average value (average vector) and a variance (variance matrix) are obtained.

【0024】なお、平均ベクトルμ’と分散マトリクス
Σ’は、次式(2)にしたがって求めることができる。
The mean vector μ ′ and the variance matrix Σ ′ can be obtained according to the following equation (2).

【数2】 ただし、μ’(i)は、平均ベクトルμ’のi番目のコ
ンポーネントを表す(i=1,2,・・・,D)。ま
た、y(t)(i)は、第tフレームの特徴ベクトルの
i番目のコンポーネントを表す。さらに、Σ’(i,
j)は、分散マトリクスΣ’の、第i行、第j列のコン
ポーネントを表す(j=1,2,・・・,D)。
(Equation 2) Here, μ ′ (i) represents the i-th component of the average vector μ ′ (i = 1, 2,..., D). Further, y (t) (i) represents the i-th component of the feature vector of the t-th frame. Furthermore, Σ ′ (i,
j) represents the component of the ith row and the jth column of the variance matrix Σ ′ (j = 1, 2,..., D).

【0025】ここで、計算量の低減のために、環境ノイ
ズについては、特徴ベクトルyの各コンポーネントが、
互いに無相関であると仮定する。この場合、次式に示す
ように、分散マトリクスΣ’は、対角成分以外は0とな
る。
Here, in order to reduce the amount of calculation, regarding environmental noise, each component of the feature vector y
Assume that they are uncorrelated with each other. In this case, as shown in the following equation, the variance matrix Σ ′ is 0 except for the diagonal components.

【数3】 (Equation 3)

【0026】ノイズ特性算出部13では、以上のように
して、環境ノイズの特性としての、正規分布を規定する
平均ベクトルμ’および平均値Σ’が求められ、特徴分
布パラメータ算出部12に供給される。
In the noise characteristic calculation section 13, the average vector μ ′ and the average value Σ ′ that define the normal distribution as the environmental noise characteristics are obtained as described above, and are supplied to the characteristic distribution parameter calculation section 12. You.

【0027】一方、パワースペクトラム分析部11の出
力、すなわち、環境ノイズを含む発話音声の特徴ベクト
ルyは、特徴分布パラメータ算出部12に供給される。
特徴分布パラメータ算出部12では、パワースペクトラ
ム分析部11からの特徴ベクトルy、およびノイズ特性
算出部13からの環境ノイズの特性に基づいて、真の音
声のパワースペクトラムの分布(推定値の分布)を表す
特徴分布パラメータが算出される。
On the other hand, the output of the power spectrum analyzer 11, that is, the feature vector y of the uttered voice including environmental noise is supplied to the feature distribution parameter calculator 12.
The characteristic distribution parameter calculation unit 12 calculates the distribution of the power spectrum of the true voice (the distribution of the estimated values) based on the characteristic vector y from the power spectrum analysis unit 11 and the environmental noise characteristics from the noise characteristic calculation unit 13. A characteristic distribution parameter to be represented is calculated.

【0028】すなわち、特徴分布パラメータ算出部12
では、真の音声のパワースペクトラムの分布が正規分布
であるとして、その平均ベクトルξと分散マトリクスΨ
が、特徴分布パラメータとして、次式(4)乃至(7)
にしたがって計算される。
That is, the feature distribution parameter calculator 12
Then, assuming that the distribution of the power spectrum of a true voice is a normal distribution, its average vector ξ and variance matrix Ψ
Are the following as the feature distribution parameters:
Is calculated according to

【数4】 (Equation 4)

【数5】 (Equation 5)

【数6】 (Equation 6)

【数7】 (Equation 7)

【0029】ここで、ξ(t)(i)は、第tフレーム
における平均ベクトルξ(t)のi番目のコンポーネン
トを表す。また、E[]は、[]内の平均値を意味す
る。x(t)(i)は、第tフレームにおける真の音声
のパワースペクトラムx(t)のi番目のコンポーネン
トを表す。さらに、u(t)(i)は、第tフレームに
おける環境ノイズのパワースペクトラムのi番目のコン
ポーネントを表し、P(u(t)(i))は、第tフレ
ームにおける環境ノイズのパワースペクトラムのi番目
のコンポーネントがu(t)(i)である確率を表す。
ここでは、環境ノイズの分布として正規分布を仮定して
いるので、P(u(t)(i))は、式(7)に示した
ように表される。
Here, ξ (t) (i) represents the ith component of the average vector ξ (t) in the t-th frame. E [] means an average value in []. x (t) (i) represents the ith component of the true speech power spectrum x (t) in the t-th frame. Further, u (t) (i) represents the ith component of the environmental noise power spectrum at the t-th frame, and P (u (t) (i)) represents the environmental noise power spectrum at the t-th frame. Represents the probability that the i-th component is u (t) (i).
Here, since a normal distribution is assumed as the distribution of the environmental noise, P (u (t) (i)) is expressed as shown in Expression (7).

【0030】また、Ψ(t)(i,j)は、第tフレー
ムにおける分散Ψ(t)の、第i行、第j列のコンポー
ネントを表す。さらに、V[]は、[]内の分散を表
す。
Ψ (t) (i, j) represents the component of the ith row and jth column of the variance Ψ (t) in the tth frame. Further, V [] represents the variance in [].

【0031】特徴分布パラメータ算出部12では、以上
のようにして、各フレームごとに、平均ベクトルξおよ
び分散マトリクスΨが、真の音声の特徴ベクトル空間上
での分布(ここでは、真の音声の特徴ベクトル空間上で
の分布が正規分布であると仮定した場合の、その分布)
を表す特徴分布パラメータとして求められる。
In the feature distribution parameter calculation unit 12, as described above, the average vector ξ and the variance matrix 、 are distributed for each frame in the feature vector space of the true speech (here, the true speech Distribution assuming normal distribution in feature vector space)
Is obtained as a feature distribution parameter representing

【0032】その後、音声認識区間の各フレームにおい
て求めた特徴分布パラメータは、音声認識部6に出力さ
れる。すなわち、いま、音声認識区間がTフレームであ
ったとし、そのTフレームそれぞれにおいて求められた
特徴分布パラメータを、z(t)={ξ(t),Ψ
(t)}(t=1,2,・・・,T)と表すと、特徴分
布パラメータ算出部12は、特徴分布パラメータ(系
列)Z={z(1),z(2),・・・,z(T)}
を、音声認識部6に供給する。
Thereafter, the feature distribution parameters obtained in each frame of the speech recognition section are output to the speech recognition unit 6. That is, it is now assumed that the speech recognition section is a T frame, and the characteristic distribution parameters obtained in each of the T frames are represented by z (t) = {(t), Ψ
(T)} (t = 1, 2,..., T), the feature distribution parameter calculation unit 12 calculates the feature distribution parameter (series) Z = Zz (1), z (2),.・, Z (T)}
Is supplied to the voice recognition unit 6.

【0033】図1に戻り、音声認識部6は、特徴抽出部
5から入力される特徴分布パラメータZを、所定数Kの
音響モデルと1個の無音音響モデルのうちのいずれかに
分類し、その分類結果を、入力された音声の認識結果と
して出力する。すなわち、音声認識部6は、例えば、無
音区間に対応する識別関数(特徴パラメータZが無音音
響モデルに分類されるかを識別するための関数)と、所
定数Kの単語それぞれに対応する識別関数(特徴パラメ
ータZがいずれの音響モデルに分類されるかを識別する
ための関数)とを記憶しており、各音響モデルの識別関
数の値を、特徴抽出部5からの特徴分布パラメータZを
引数として計算する。そして、その関数値(いわゆるス
コア)が最大である音響モデル(単語、または無音(ノ
イズ))が認識結果として出力される。
Returning to FIG. 1, the speech recognition unit 6 classifies the feature distribution parameter Z input from the feature extraction unit 5 into one of a predetermined number K of acoustic models and one silent acoustic model. The classification result is output as a recognition result of the input speech. That is, the speech recognition unit 6 includes, for example, an identification function corresponding to a silent section (a function for identifying whether the feature parameter Z is classified as a silent acoustic model) and an identification function corresponding to each of the predetermined number K of words. (A function for identifying which acoustic model the feature parameter Z is classified into), and the value of the identification function of each acoustic model is used as an argument with the feature distribution parameter Z from the feature extraction unit 5 as an argument. Is calculated as Then, an acoustic model (word or silence (noise)) having the largest function value (so-called score) is output as a recognition result.

【0034】即ち、図4は、図1の音声認識部6の詳細
な構成例を示している。特徴抽出部5の特徴分布パラメ
ータ算出部12から入力される特徴分布パラメータZ
は、識別関数演算部21−1乃至21−k、および識別
関数演算部21−sに供給される。識別関数演算部21
−k(k=1,2,・・・,K)は、K個の音響モデル
のうちのk番目に対応する単語を識別するための識別関
数Gk(Z)を記憶しており、特徴抽出部5からの特徴
分布パラメータZを引数として、識別関数Gk(Z)を
演算する。識別関数演算部21−sは、無音音響モデル
に対応する無音区間を識別するための識別関数G
s(Z)を記憶しており、特徴抽出部5からの特徴分布
パラメータZを引数として、識別関数Gs(Z)を演算
する。
FIG. 4 shows a detailed configuration example of the voice recognition section 6 of FIG. The feature distribution parameter Z input from the feature distribution parameter calculation unit 12 of the feature extraction unit 5
Are supplied to the identification function operation units 21-1 to 21-k and the identification function operation unit 21-s. Discriminant function operation unit 21
−k (k = 1, 2,..., K) stores an identification function G k (Z) for identifying the word corresponding to the k-th of the K acoustic models. The discrimination function G k (Z) is calculated using the feature distribution parameter Z from the extraction unit 5 as an argument. The identification function calculation unit 21-s identifies the identification function G for identifying a silent section corresponding to the silent acoustic model.
s (Z) is stored, and the discrimination function G s (Z) is calculated using the feature distribution parameter Z from the feature extraction unit 5 as an argument.

【0035】なお、音声認識部6では、例えば、HMM(Hi
dden Markov Model)法を用いて、クラスとしての単語ま
たは無音の識別(認識)が行われる。
In the speech recognition unit 6, for example, HMM (Hi
Using the dden Markov Model) method, a word or silence as a class is identified (recognized).

【0036】HMM法について、図5を参照して説明す
る。同図において、HMMは、H個の状態q1乃至qHを有
しており、状態の遷移は、自身への遷移と、右隣の状態
への遷移のみが許されている。また、初期状態は、最も
左の状態q1とされ、最終状態は、最も右の状態qHとさ
れており、最終状態qHからの状態遷移は禁止されてい
る。このように、自身よりも左にある状態への遷移のな
いモデルは、left-to-rightモデルと呼ばれ、音声認識
では、一般に、left-to-rightモデルが用いられる。
The HMM method will be described with reference to FIG. In the figure, the HMM has H states q 1 to q H , and as for the state transition, only the transition to itself and the transition to the state on the right are permitted. The initial state is the leftmost state q 1, the final state is the rightmost state q H, the state transition from the final state q H is prohibited. As described above, a model having no transition to a state located to the left of itself is called a left-to-right model, and in speech recognition, a left-to-right model is generally used.

【0037】いま、HMMのkクラスを識別するためのモ
デルを、kクラスモデルというとすると、kクラスモデ
ルは、例えば、最初に状態qhにいる確率(初期状態確
率)πk(qh)、ある時刻(フレーム)tにおいて、状
態qiにいて、次の時刻t+1において、状態qjに状態
遷移する確率(遷移確率)ak(qi,qj)、および状
態qiから状態遷移が生じるときに、その状態qiが、特
徴ベクトルOを出力する確率(出力確率)bk(qi
(O)によって規定される(h=1,2,・・・,
H)。
Now, assuming that a model for identifying the k class of the HMM is a k class model, the k class model is, for example, a probability of being initially in the state q h (initial state probability) π k (q h ). , At a certain time (frame) t, the state q i , and at the next time t + 1, the probability of transition to the state q j (transition probability) a k (q i , q j ) and the state transition from the state q i Occurs, the state q i is the probability (output probability) b k (q i ) of outputting the feature vector O
(H) (h = 1, 2,...,
H).

【0038】そして、ある特徴ベクトル系列O1,O2
・・・が与えられた場合、例えば、そのような特徴ベク
トル系列が観測される確率(観測確率)が最も高いモデ
ルのクラスが、その特徴ベクトル系列の認識結果とされ
る。
Then, certain feature vector sequences O 1 , O 2 ,
.. Are given, for example, the class of the model having the highest probability of observing such a feature vector sequence (observation probability) is taken as the recognition result of the feature vector sequence.

【0039】ここでは、この観測確率が、識別関数Gk
(Z)によって求められる。すなわち、識別関数G
k(Z)は、特徴分布パラメータ(系列)Z={z1,z
2,・・・,zT}に対する最適状態系列(最適な状態の
遷移のしていき方)において、そのような特徴分布パラ
メータ(系列)Z={z1,z2,・・・,zT}が観測
される確率を求めるものとして、次式(8)で与えられ
る。
Here, the observation probability is determined by the discriminant function G k
(Z). That is, the discriminant function G
k (Z) is a feature distribution parameter (series) Z = {z 1 , z
2 ,..., Z T }, such a feature distribution parameter (sequence) Z = {z 1 , z 2 ,. T } is given by the following equation (8) to determine the probability of being observed.

【数8】 (Equation 8)

【0040】ここで、bk’(qi)(zj)は、出力が
jで表される分布であるときの出力確率を表す。状態
遷移時に各特徴ベクトルを出力する確率である出力確率
k(s)(Ot)には、ここでは、例えば、特徴ベクト
ル空間上のコンポーネントに相関がないものとして、正
規分布関数が用いられている。この場合、入力がzt
表される分布であるとき、出力確率bk’(s)(zt
は、平均ベクトルμk(s)と分散マトリクスΣk(s)
とによって規定される確率密度関数Pk m(s)(x)、
および第tフレームの特徴ベクトル(ここでは、パワー
スペクトラム)xの分布を表す確率密度関数Pf(t)
(x)を用いて、次式(9)により求めることができ
る。
Here, b k ′ (q i ) (z j ) represents the output probability when the output is a distribution represented by z j . For the output probability b k (s) (O t ), which is the probability of outputting each feature vector at the time of state transition, for example, a normal distribution function is used assuming that components on the feature vector space have no correlation. ing. In this case, when the input has a distribution represented by z t , the output probability b k ′ (s) (z t )
Is the mean vector μ k (s) and the variance matrix Σ k (s)
The probability density is defined by a function P k m (s) (x ),
And a probability density function P f (t) representing the distribution of the feature vector (here, the power spectrum) x of the t-th frame
Using (x), it can be obtained by the following equation (9).

【数9】 ただし、式(9)における積分の積分区間は、D次元の
特徴ベクトル空間(ここでは、パワースペクトラム空
間)の全体である。
(Equation 9) However, the integration interval of the integration in Expression (9) is the entirety of the D-dimensional feature vector space (here, the power spectrum space).

【0041】また、式(9)において、P(s)(i)
(ξ(t)(i),Ψ(t)(i,i))は、次式(1
0)で表される。
In equation (9), P (s) (i)
(Ξ (t) (i), Ψ (t) (i, i)) is given by the following equation (1)
0).

【数10】 ただし、μk(s)(i)は、平均ベクトルμk(s)の
i番目のコンポーネントを、Σk(s)(i,i)は、
分散マトリクスΣk(s)の、第i行第i列のコンポー
ネントを、それぞれ表す。そして、kクラスモデルの出
力確率は、これらによって規定される。
(Equation 10) Where μ k (s) (i) is the ith component of the mean vector μ k (s), and Σ k (s) (i, i) is
The components in the ith row and the ith column of the variance matrix Σ k (s) are respectively represented. The output probability of the k-class model is defined by these.

【0042】なお、HMMは、上述したように、初期状態
確率πk(qh)、遷移確率ak(qi,qj)、および出
力確率bk(qi)(O)によって規定されるが、これら
は、学習用の音声データから特徴ベクトルを算出し、そ
の特徴ベクトルを用いて、予め求めることとする。
As described above, the HMM is defined by the initial state probability π k (q h ), transition probability a k (q i , q j ), and output probability b k (q i ) (O). However, these are calculated in advance by calculating a feature vector from the speech data for learning, and using the feature vector.

【0043】ここで、HMMとして、図5に示したものを
用いる場合には、常に、最も左の状態q1から遷移が始
まるので、状態q1に対応する初期状態確率だけが1と
され、他の状態に対応する初期状態確率はすべて0とさ
れる。また、出力確率は、式(9),(10)から明ら
かなように、Ψ(t)(i,i)を0とすると、特徴ベ
クトルの分散を考慮しない場合の連続HMMにおける出力
確率に一致する。
[0043] Here, as HMM, when used as shown in FIG. 5 is always so leftmost transition from the state q 1 of starts, only the initial state probability corresponding to the state q 1 is 1, The initial state probabilities corresponding to other states are all set to 0. Further, as is apparent from equations (9) and (10), when Ψ (t) (i, i) is set to 0, the output probability matches the output probability in the continuous HMM when the variance of the feature vector is not considered. I do.

【0044】なお、HMMの学習方法としては、例えば、B
aum-Welchの再推定法などが知られている。
As an HMM learning method, for example, B
Aum-Welch re-estimation method and the like are known.

【0045】図4に戻る。識別関数演算部21−k(k
=1,2,・・・,K)は、kクラスモデルについて、
あらかじめ学習により求められている初期状態確率πk
(qh)、遷移確率ak(qi,qj)、および出力確率b
k(qi)(O)によって規定される式(8)の識別関数
k(Z)を記憶しており、特徴抽出部2からの特徴分
布パラメータZを引数として、識別関数Gk(Z)を演
算し、その関数値(上述した観測確率)Gk(Z)を、
決定部22に出力する。識別関数演算部21−sは、無
音音響モデル補正部7から供給される初期状態確率πs
(qh)、遷移確率as(qi,qj)、および出力確率b
s(qi)(O)によって規定される、式(8)の識別関
数Gk(Z)と同様の識別関数Gs(Z)を記憶してお
り、特徴抽出部2からの特徴分布パラメータZを引数と
して、識別関数Gs(Z)を演算し、その関数値(上述
した観測確率)Gs(Z)を、決定部22に出力する。
Returning to FIG. Discriminant function operation unit 21-k (k
= 1, 2,..., K)
Initial state probability π k previously obtained by learning
(Q h ), transition probability a k (q i , q j ), and output probability b
k (q i) expression defined by (O) stores a discriminant function G k (Z) of (8), the feature distribution parameter Z from the feature extraction section 2 as an argument, the identification function G k (Z ), And the function value (the above-described observation probability) G k (Z) is calculated as
Output to the determination unit 22. The discrimination function calculation unit 21-s calculates the initial state probability π s supplied from the silent acoustic model correction unit 7.
(Q h ), transition probability a s (q i , q j ), and output probability b
s (q i ) (O), which stores a discriminant function G s (Z) similar to the discriminant function G k (Z) in equation (8), and stores a feature distribution parameter from the feature extracting unit 2. The identification function G s (Z) is calculated using Z as an argument, and the function value (the above-described observation probability) G s (Z) is output to the determination unit 22.

【0046】決定部22では、識別関数演算部21−1
乃至21−k、および識別関数演算部21−sそれぞれ
からの関数値Gk(Z)(ここでは、関数値Gs(Z)を
含むものとする)に対して、例えば、次式(11)に示
す決定規則を用いて、特徴分布パラメータZ、すなわ
ち、入力された音声が属するクラス(音響モデル)が識
別される。
In the decision unit 22, the discriminant function operation unit 21-1
With respect to the function values G k (Z) (here, the function values G s (Z) are included here) from the individual function units 21 to k and the discriminant function operation unit 21-s, for example, the following expression (11) is used. Using the decision rule shown, the feature distribution parameter Z, that is, the class (acoustic model) to which the input speech belongs is identified.

【数11】 ただし、C(Z)は、特徴分布パラメータZが属するク
ラスを識別する識別操作(処理)を行う関数を表す。ま
た、式(11)の第2式の右辺におけるmaxは、それに
続く関数値Gi(Z)(ただし、ここでは、i=s,
1,2,・・・,K)の最大値を表す。
[Equation 11] Here, C (Z) represents a function for performing an identification operation (processing) for identifying a class to which the feature distribution parameter Z belongs. Further, max on the right side of the second equation of the equation (11) is a function value G i (Z) (where i = s,
1, 2,..., K).

【0047】決定部22は、式(11)にしたがって、
クラスを決定すると、それを、入力された音声の認識結
果として出力する。
The deciding unit 22 calculates according to the equation (11)
When the class is determined, it is output as a recognition result of the input speech.

【0048】図1に戻り、無音音響モデル補正部7は、
ノイズ観測区間抽出部3から入力されるノイズ観測区間
TmとTnのうちの後半のノイズ観測区間Tnにおける
音声データとしての環境ノイズに基づいて、音声認識部
6に記憶されている無音音響モデルに対応する識別関数
s(Z)を生成し、この識別関数Gs(Z)によって、
音声認識部6に記憶されている無音音響モデルの適応を
行う。
Returning to FIG. 1, the silent acoustic model correction unit 7
Based on the environmental noise as speech data in the latter half of the noise observation section Tn of the noise observation section Tm and Tn input from the noise observation section extraction section 3, corresponding to the silent acoustic model stored in the speech recognition section 6. to generate a discriminant function G s (Z), this identification function G s (Z),
The silent acoustic model stored in the speech recognition unit 6 is adapted.

【0049】具体的には、無音音響モデル補正部7で
は、ノイズ観測区間抽出部3から入力されるノイズ観測
区間Tnの音声データ(環境ノイズ)のM個のフレーム
の各フレームについて、特徴ベクトルyが観測され、さ
らに、特徴抽出部5における場合と同様にして、次式で
示す特徴分布の系列が生成される。
More specifically, the silent sound model correction unit 7 calculates a feature vector y for each of M frames of speech data (environmental noise) in the noise observation section Tn input from the noise observation section extraction unit 3. Are observed, and a sequence of feature distribution represented by the following equation is generated in the same manner as in the case of the feature extraction unit 5.

【数12】 なお、特徴分布{Fi(y),i=1,2,・・・,
M}は、確率密度関数(Probabilistic Density Functio
n)であり、以下、無音特徴分布PDFとも記述する。ま
た、無音特徴分布Fi(y)におけるサフィックスi
は、ノイズ観測区間Tnの先頭フレームからのフレーム
数を表す。
(Equation 12) Note that the feature distribution {F i (y), i = 1, 2,.
M} is the probability density function (Probabilistic Density Functio
n), and is also hereinafter referred to as a silent feature distribution PDF. Also, the suffix i in the silent feature distribution F i (y)
Represents the number of frames from the first frame of the noise observation section Tn.

【0050】次に、無音特徴分布PDFを、次式(13)
に従い、無音音響モデルに対応する確率分布Fs(y)
に写像する。
Next, the silence feature distribution PDF is calculated by the following equation (13).
According to the probability distribution F s (y) corresponding to the silent acoustic model
Map to

【数13】 ただし、Vは無音特徴分布PDF{Fi(y),i=1,
2,・・・,M}を無音音響モデルFs(y)に写像す
る補正関数(写像関数)である。
(Equation 13) Here, V is a silent feature distribution PDF {F i (y), i = 1,
, M} is a correction function (mapping function) for mapping the silent acoustic model F s (y).

【0051】この写像は、無音特徴分布PDFの記述によ
って様々な方法が考えられるが、例えば、次式を採用す
ることができる。
Various methods can be used for this mapping depending on the description of the silence feature distribution PDF. For example, the following equation can be adopted.

【数14】 ただし、βi(F1(y),F2(y),・・・,F
M(y),M)は、ノイズ観測区間Tnの第1フレーム
から得られる無音特徴分布に対する重み関数であり、以
下、βiと記述する。なお、重み関数βiは、次式(1
6)の条件を満足するものである。
[Equation 14] Where β i (F 1 (y), F 2 (y),..., F
M (y), M) is a weighting function for the silent feature distribution obtained from the first frame of the noise observation section Tn, and is hereinafter referred to as β i . The weighting function β i is given by the following equation (1)
This satisfies the condition of 6).

【数15】 (Equation 15)

【0052】ここで、無音音響モデルの確率分布F
s(y)が正規分布であると仮定し、また、各フレーム
の特徴ベクトルを構成するコンポーネントが無相関であ
ると仮定すれば、無音特徴分布PDF{Fi(y),i=
1,2,・・・,M}の共分散行列Σiは対角線行列と
なる。ただし、この仮定の前提条件として、無音音響モ
デルの共分散行列も対角線行列であることが必要であ
る。
Here, the probability distribution F of the silent acoustic model
Assuming that s (y) is a normal distribution, and that the components constituting the feature vector of each frame are uncorrelated, the silent feature distribution PDF @ F i (y), i =
The covariance matrix Σ i of 1, 2,..., M} is a diagonal matrix. However, as a precondition for this assumption, the covariance matrix of the silent acoustic model must also be a diagonal matrix.

【0053】ノイズ観測区間Tnにおける各フレームの
特徴ベクトルyを構成するコンポーネントが無相関であ
れば、無音特徴分布PDF{Fi(y),i=1,2,・・
・,M}は、各コンポーネントに対応する平均と分散を
持つ正規分布G(Ei,Σi)となる。但し、EiはF
i(y)の平均値(期待値)であり、ΣiはFi(y)の
共分散行列である。即ち、ノイズ観測区間Tnの各フレ
ームから得られる無音特徴分布の平均をμi、分散をσi
2と表すことにすれば、無音特徴分布の確率密度関数
は、正規分布G(μi,σi 2)(i=1,2,・・・,
M)で表すことができる。
If the components constituting the feature vector y of each frame in the noise observation section Tn are uncorrelated, the silent feature distribution PDF @ F i (y), i = 1, 2,.
·, M} becomes the normal distribution G with mean and variance corresponding to each component (E i, Σ i). Where E i is F
i (y) is the average value (expected value), and Σ i is the covariance matrix of F i (y). That is, the average of the silent feature distribution obtained from each frame in the noise observation section Tn is μ i , and the variance is σ i
2 , the probability density function of the silent feature distribution is represented by a normal distribution G (μ i , σ i 2 ) (i = 1, 2,...,
M).

【0054】以上の仮定により、各フレームに対応する
平均μi、および分散σi 2を用い、以下に示す様々な方
法によって、無音音響モデルFs(X)を近似する正規
分布G(μs,σs 2)(上述したGs(Z)に相当する)
を演算することができる。
Based on the above assumption, the normal distribution G (μ s ) approximating the silent acoustic model F s (X) by the following various methods using the average μ i and the variance σ i 2 corresponding to each frame. , Σ s 2 ) (corresponding to G s (Z) described above)
Can be calculated.

【0055】無音音響モデルの正規分布G(μs
σs 2)を演算する第1の方法は、無音特徴分布{G(μ
i,σi 2),i=1,2,・・・,M}を用い、式(1
7)に示すように、全てのμiの平均を無音音響モデル
の平均値μsとするとともに、式(18)に示すよう
に、全てのσi 2の平均を無音音響モデルの分散σi 2とす
る方法である。
The normal distribution G (μ s ,
A first method of calculating σ s 2 ) is a silent feature distribution {G (μ
i , σ i 2 ), i = 1, 2,.
As shown in 7), the average of all μ i is taken as the average value μ s of the silent acoustic model, and as shown in equation (18), the average of all σ i 2 is taken as the variance σ i of the silent acoustic model. It is a method to be 2 .

【数16】 ここで、aおよびbは、シミュレーションにより最適な
値が決定される係数である。
(Equation 16) Here, a and b are coefficients for which an optimal value is determined by simulation.

【0056】無音音響モデルの正規分布G(μs
σs 2)を演算する第2の方法は、無音特徴分布{G(μ
i,σi 2),i=1,2,・・・,M}の期待値μiだけ
を用い、次式(19),(20)に従って、無音音響モ
デルの平均値μsと、分散σi 2を演算する方法である。
The normal distribution G (μ s ,
A second method for calculating σ s 2 ) is a silent feature distribution {G (μ
i , σ i 2 ), i = 1, 2,..., M}, using only the expected value μ i , and according to the following equations (19) and (20), the average value μ s of the silent acoustic model and the variance This is a method of calculating σ i 2 .

【数17】 ここで、aおよびbは、シミュレーションにより最適な
値が決定される係数である。
[Equation 17] Here, a and b are coefficients for which an optimal value is determined by simulation.

【0057】無音音響モデルの正規分布G(μs
σs 2)を演算する第3の方法は、無音特徴分布{G(μ
i,σi 2),i=1,2,・・・,M}の組み合わせに
よって、無音音響モデルの平均値μsと、分散σs 2を演
算する方法である。
The normal distribution G (μ s ,
A third method for calculating σ s 2 ) is a silent feature distribution {G (μ
i , σ i 2 ), i = 1, 2,..., M}, to calculate the average μ s and the variance σ s 2 of the silent acoustic model.

【0058】この方法においては、各無音特徴分布G
(μi,σi 2)の確率統計量をXiとする。
In this method, each silent feature distribution G
Let X i be the probability statistic of (μ i , σ i 2 ).

【数18】 (Equation 18)

【0059】ここで、無音音響モデルの正規分布G(μ
s,σs 2)の確率統計量をXsとすれば、確率統計量Xs
は、次式(22)に示すように、確率統計量Xiと重み
関数β iの線形結合で表すことができる。なお、重み関
数βiは式(16)の条件を満足している。
Here, the normal distribution G (μ
s, Σs Two) Is the probability statistic XsThen the probability statistic Xs
Is a probability statistic X as shown in the following equation (22).iAnd weight
Function β iCan be represented by a linear combination of Note that the weights
Number βiSatisfies the condition of equation (16).

【数19】 [Equation 19]

【0060】そして、無音音響モデルの正規分布G(μ
s,σs 2)は、次式(23)に示すように表される。
Then, the normal distribution G (μ
s , σ s 2 ) is expressed as shown in the following equation (23).

【数20】 (Equation 20)

【0061】なお、式(23)において、重み関数βi
は、一般には、例えば、1/Mとすることができ、この
場合、式(23)の平均値μsと分散σs 2は、例えば、
次式で示すように、所定の係数を用いて求められる。
In equation (23), the weight function β i
Can be generally set to, for example, 1 / M. In this case, the average value μ s and the variance σ s 2 of the equation (23) are, for example,
As shown by the following equation, it is obtained by using a predetermined coefficient.

【数21】 ここで、aおよびbは、シミュレーションにより最適な
値が決定される係数である。
(Equation 21) Here, a and b are coefficients for which an optimal value is determined by simulation.

【0062】無音音響モデルの正規分布G(μs
σs 2)を演算する第4の方法では、無音特徴分布{G
(μi,σi 2),i=1,2,・・・,M}の確率統計
量Xiに対応する統計母集団Ωi={fi,j}を仮定す
る。ここで、
The normal distribution G (μ s ,
In the fourth method for calculating σ s 2 ), the silent feature distribution {G
Assume a statistical population Ω i = {f i, j } corresponding to the probability statistic X i of (μ i , σ i 2 ), i = 1, 2,. here,

【数22】 とすれば、平均値μiは、次式(26)によって得るこ
とができ、分散σi 2は、次式(28)によって得ること
ができる。
(Equation 22) Then, the average value μ i can be obtained by the following equation (26), and the variance σ i 2 can be obtained by the following equation (28).

【数23】 (Equation 23)

【0063】式(28)を変形すれば、次式(29)の
関係が成立する。
By modifying equation (28), the following equation (29) holds.

【数24】 (Equation 24)

【0064】ここで、統計母集団の和ΩHere, the sum Ω of the statistical population

【数25】 を考慮すれば、式(26)から次式(30),(31)
が導かれ、式(29)から次式(32)乃至(34)が
導かれる。
(Equation 25) In consideration of the following, the following Expressions (30) and (31) are obtained from Expression (26).
Is derived, and the following expressions (32) to (34) are derived from the expression (29).

【数26】 (Equation 26)

【0065】なお、実際には、式(31)と式(34)
は、次式に示すように、係数が乗算されて用いられる。
In practice, the equations (31) and (34)
Is used after being multiplied by a coefficient as shown in the following equation.

【数27】 ここで、aおよびbは、シミュレーションにより最適な
値が決定される係数である。
[Equation 27] Here, a and b are coefficients for which an optimal value is determined by simulation.

【0066】また、次式(37)を採用することも可能
である。なお、式(37)では、分散σi 2に対してだ
け、係数bが乗算されている。
The following equation (37) can also be employed. In the equation (37), only the variance σ i 2 is multiplied by the coefficient b.

【数28】 [Equation 28]

【0067】次に、図1の音声認識装置の動作について
説明する。
Next, the operation of the speech recognition apparatus of FIG. 1 will be described.

【0068】フレーム化部2には、マイクロフォン1で
集音された音声データ(環境ノイズを含む認識対象の発
話音声)が入力され、そこでは、音声データがフレーム
化され、各フレームの音声データは、観測ベクトルaと
して、ノイズ観測区間抽出部3、および特徴抽出部5に
順次供給される。ノイズ観測区間抽出部3では、発話ス
イッチ4がオンとされたタイミングtb以前のノイズ観
測区間TmとTnの音声データ(環境ノイズ)が抽出さ
れて、特徴抽出部5および無音音響モデル補正部7に供
給される。
The framing unit 2 receives the voice data collected by the microphone 1 (the uttered voice to be recognized including environmental noise), where the voice data is framed, and the voice data of each frame is , And the observation vector a are sequentially supplied to the noise observation section extraction unit 3 and the feature extraction unit 5. The noise observation interval extraction section 3, a timing t b previous noise observation interval Tm and Tn of audio data speech switch 4 is turned on (environmental noise) is extracted, the feature extraction unit 5 and the silence acoustic model correction section 7 Supplied to

【0069】無音音響モデル補正部7では、ノイズ観測
区間Tmの音声データとしての環境ノイズに基づいて、
ノイズ観測区間Tnの各フレームから無音特徴分布PDF
が求められる。さらに、無音音響モデル補正部7では、
特徴分布PDFに基づいて、上述した第1乃至第4の方法
のうちのいずれかによって、無音音響モデルの更新(適
応)が行われ、音声認識部6に供給される。音声認識部
6では、無音音響モデル補正部7から供給される無音音
響モデルとしての識別関数によって、それまで記憶され
ていた無音音響モデルに対応する識別関数が更新され
る。即ち、無音音響モデルの適応が行われる。
The silent acoustic model correcting section 7 calculates the noise based on the environmental noise as the voice data in the noise observation section Tm.
Silence feature distribution from each frame of noise observation section Tn PDF
Is required. Further, in the silent sound model correcting unit 7,
Based on the feature distribution PDF, the silence acoustic model is updated (adapted) by any one of the above-described first to fourth methods, and is supplied to the speech recognition unit 6. In the speech recognition unit 6, the identification function corresponding to the silence acoustic model that has been stored is updated by the identification function as the silence acoustic model supplied from the silence acoustic model correction unit 7. That is, adaptation of the silent acoustic model is performed.

【0070】一方、特徴抽出部5では、フレーム化部2
からの観測ベクトルaとしての音声データが音響分析さ
れ、その特徴ベクトルyが求められる。さらに、特徴抽
出部5では、求められた特徴ベクトルyに基づいて、特
徴ベクトル空間における分布を表す特徴分布パラメータ
Zが算出され、音声認識部6に供給される。音声認識部
6では、特徴抽出部5からの特徴分布パラメータを用い
て、無音および所定数Kの単語それぞれに対応する音響
モデルの識別関数の値が演算され、その関数値が最大と
なる音響モデルが、音声の認識結果として出力される。
On the other hand, in the feature extracting unit 5, the framing unit 2
The audio data as the observation vector a from the audio data is acoustically analyzed, and its feature vector y is obtained. Further, the feature extraction unit 5 calculates a feature distribution parameter Z representing a distribution in a feature vector space based on the obtained feature vector y, and supplies the calculated feature distribution parameter Z to the speech recognition unit 6. The speech recognition unit 6 calculates the values of the identification functions of the acoustic models corresponding to the silence and the predetermined number K of words using the feature distribution parameters from the feature extraction unit 5, and the acoustic model in which the function value is maximized. Is output as a speech recognition result.

【0071】以上のように、観測ベクトルaとしての音
声データが、その特徴量の空間である特徴ベクトル空間
における分布を表す特徴分布パラメータZに変換される
ので、その特徴分布パラメータは、音声データに含まれ
るノイズの分布特性を考慮したものとなっており、ま
た、無音を識別(認識)するための無音音響モデルに対
応する識別関数が、発話直前のノイズ観測区間Tnの音
声データに基づいて更新されているので、音声認識率を
大きく向上させることが可能となる。
As described above, the speech data as the observation vector a is converted into the feature distribution parameter Z representing the distribution in the feature vector space which is the space of the feature quantity, and the feature distribution parameter is converted into the speech data. The distribution function of the noise included is taken into consideration, and the identification function corresponding to the silent acoustic model for identifying (recognizing) silence is updated based on the voice data of the noise observation section Tn immediately before the utterance. Therefore, it is possible to greatly improve the speech recognition rate.

【0072】次に、図6は、発話スイッチ4がオンとさ
れてから発話が開始されるまでの無音区間Ts(図2)
を変化させたときの音声認識率の変化を測定した実験
(シミュレーション)の結果を示している。
Next, FIG. 6 shows a silent period Ts from when the utterance switch 4 is turned on until the start of utterance (FIG. 2).
4 shows the results of an experiment (simulation) in which a change in the speech recognition rate when the value was changed was measured.

【0073】なお、図6において、曲線aは無音音響モ
デルを補正しない(無音音響モデルの適応を行わない)
従来の方法による結果を、曲線bは第1の方法による結
果を、曲線cは第2の方法による結果を、曲線dは第3
の方法による結果を、曲線eは、第4の方法による結果
を、それぞれ示している。
In FIG. 6, the curve a does not correct the silent acoustic model (no adaptation of the silent acoustic model).
Curve b shows the result of the first method, curve c shows the result of the second method, and curve d shows the result of the third method.
The curve e shows the result by the fourth method, and the curve e shows the result by the fourth method.

【0074】実験の条件は、以下の通りである。即ち、
認識に用いた音声データは、高速道路を走行中の車内で
集音されたものである。ノイズ観測区間Tnは、20フ
レームで約0.2秒である。無音区間Tsは、0.05
秒、0.1秒、0.2秒、0.3秒、0.5秒とした。
音声データの特徴抽出においては、MFCC(Mel-Frequency
Cepstral Coefficients)ドメインで分析を実施した
(MFCC分析により、特徴量を得た)。認識の対象と
する音声の発話者は、男女4人ずつ計8人であり、一人
当たり303個の単語を、個別に発話してもらった。認
識を行った単語数は、日本語の5000単語である。音
響モデルは、HMMであり、学習用に用意した音声データ
を用いて予め学習を行った。音声認識においては、Vite
rbiサーチ法を用い、そのビーム幅は3000とした。
The experimental conditions are as follows. That is,
The voice data used for recognition is data collected in a vehicle traveling on a highway. The noise observation section Tn is about 0.2 seconds in 20 frames. The silent section Ts is 0.05
Seconds, 0.1 seconds, 0.2 seconds, 0.3 seconds, and 0.5 seconds.
MFCC (Mel-Frequency)
Analysis was performed in the Cepstral Coefficients domain (features were obtained by MFCC analysis). A total of eight speakers, four men and women, were to be recognized, and 303 words were uttered individually per person. The number of recognized words is 5000 words in Japanese. The acoustic model was an HMM, and learning was performed in advance using voice data prepared for learning. For voice recognition, Vite
The beam width was set to 3000 using the rbi search method.

【0075】なお、第1、第2、および第4の方法にお
いては、係数aを1.0とし、係数bを0.1とした。
第3の方法においては、係数aおよびbのいずれも、
1.0とした。
In the first, second and fourth methods, the coefficient a was set to 1.0 and the coefficient b was set to 0.1.
In a third method, both coefficients a and b are:
1.0.

【0076】図6から明らかなように、従来の方法(曲
線a)では、無音区間Tsが長くなるのに伴って音声認
識率が著しく低下しているが、第1乃至4の方法(曲線
b乃至e)では、無音区間Tsが長くなっても、音声認
識率は、わずかしか低下しない。従って、無音音響モデ
ルの適応を行うことにより、無音区間Tsが変化して
も、認識性能を維持することが可能である。
As is clear from FIG. 6, in the conventional method (curve a), the speech recognition rate is remarkably reduced as the silent section Ts becomes longer, but the first to fourth methods (curve b) are used. In steps (e) to (e), even when the silent section Ts becomes longer, the speech recognition rate decreases only slightly. Accordingly, by adapting the silent acoustic model, it is possible to maintain the recognition performance even when the silent section Ts changes.

【0077】なお、上述の第1乃至第4のいずれの方法
においても、無音音響モデルの正規分布G(μs
σs 2)を規定する平均値μsは、無音特徴分布G(μi
σi 2)の平均値μiの平均値となる。従って、例えば、
いま、無音特徴分布G(μi,σi 2)の平均値μiの平均
値を、μと表すとともに、第1乃至第4の方法によって
求められる無音音響モデルの正規分布を、それぞれ、G
s1(μ,σs1 2),Gs2(μ,σs2 2),Gs3(μ,σs3
2),Gs4(μ,σs4 2)と表すと、これらは、図7に示
すように、特徴空間において、平均値μを中心(重心)
とする分布となる。
In each of the first to fourth methods described above, the normal distribution G (μ s ,
The average value μ s defining σ s 2 ) is a silent feature distribution G (μ i ,
σ i 2 ) is the average value of μ i . So, for example,
Now, the average value of the average value μ i of the silent feature distribution G (μ i , σ i 2 ) is represented as μ, and the normal distribution of the silent acoustic model obtained by the first to fourth methods is G, respectively.
s1 (μ, σ s1 2) , G s2 (μ, σ s2 2), G s3 (μ, σ s3
2 ) and G s4 (μ, σ s4 2 ), these are centered on the average value μ (centroid) in the feature space, as shown in FIG.
Distribution.

【0078】ところで、無音特徴分布G(μi,σi 2
に基づく、上述の第1乃至第4の方法による無音音響モ
デルの適応は、写像Vを用いて、次の式(38)で定義
することができる。なお、以下、適宜、G(μi
σi 2)をGiと、G(μs,σs 2)をGsと、それぞれ記
述する。
By the way, the silent feature distribution G (μ i , σ i 2 )
The adaptation of the silent acoustic model according to the above-described first to fourth methods based on the above can be defined by the following equation (38) using the mapping V. Hereinafter, G (μ i ,
σ i 2 ) is described as G i , and G (μ s , σ s 2 ) is described as G s .

【0079】[0079]

【数29】 (Equation 29)

【0080】また、ここでは、無音音響モデルGsとし
て、正規分布を仮定しており、正規分布は、平均値と分
散で規定されるから、無音音響モデルGsの正規分布を
規定する平均値と分散を、上述のように、μsとσs 2
表せば、式(38)の定義は、平均値と分散の写像Vμ
とVσ 2とをそれぞれ用いて、式(39)および(4
0)で表すこともできる。
[0080] Further, here, as silence acoustic model G s, and assuming a normal distribution, normal distribution, since is defined by the mean value and variance, the mean value for defining the normal distribution of the silence acoustic model G s And variance are represented by μ s and σ s 2 , as described above, the definition of equation (38) defines the average and variance mapping V μ
And V σ 2 , respectively, using equations (39) and (4)
0).

【0081】[0081]

【数30】 [Equation 30]

【0082】上述の写像V(VμおよびVσ 2)で表さ
れる第1乃至第4の方法では、ノイズ観測区間Tn(図
2)におけるMフレームそれぞれから得られる時系列の
無音特徴分布G1,G2,・・・,GMを平等に取り扱っ
ている。
In the first to fourth methods represented by the above-described mappings V (V μ and V σ 2 ), the time-series silence feature distribution G obtained from each of the M frames in the noise observation section Tn (FIG. 2). 1, G 2, ···, are handled equally G M.

【0083】しかしながら、音声認識区間における環境
ノイズは、厳密には、音声認識区間の直前のノイズ観測
区間Tnにおける環境ノイズと同一ではなく、さらに、
一般には、ノイズ観測区間Tnにおける環境ノイズは、
音声認識区間(の開始時刻t c)から離れるほど、音声
認識区間における環境ノイズとは異なるものとなると推
測される。
However, the environment in the speech recognition section
Strictly speaking, the noise observation just before the speech recognition section
It is not the same as the environmental noise in the section Tn.
Generally, environmental noise in the noise observation section Tn is:
Start time t of the speech recognition section ( c)
It is expected that this will be different from the environmental noise in the recognition section.
Measured.

【0084】従って、ノイズ観測区間Tn(図2)にお
けるMフレームそれぞれから得られる時系列の無音特徴
分布G1,G2,・・・,GMは、平等に扱うのではな
く、音声認識区間に近いものほど重みをおいて扱うべき
であり(音声認識区間から遠いものほど重みをおかずに
扱うべきであり)、そのようにすることで、音声認識精
度をより向上させる無音音響モデルの適応(補正および
更新)が可能となる。
Therefore, the time-series silent feature distributions G 1 , G 2 ,..., G M obtained from each of the M frames in the noise observation section Tn (FIG. 2) are not treated equally, but are not treated equally. Should be treated with weights closer to (the ones farther from the speech recognition section should be treated without weight), and by doing so, adaptation of a silent acoustic model that further improves speech recognition accuracy ( Correction and update) are possible.

【0085】そこで、ノイズ観測区間Tnにおいて得ら
れる無音特徴分布G1,G2,・・・,GMについて、そ
の新しさ(ここでは、音声認識区間への近さに相当す
る)を表す新鮮度を導入することとし、この新鮮度を考
慮して、無音音響モデルの適応を行う方法について説明
する。
[0085] Therefore, the silence feature obtained in the noise observation interval Tn distribution G 1, G 2, · · ·, for G M, the freshness (here corresponds to proximity to the speech recognition section) fresh representing the A method of adapting a silent acoustic model in consideration of the freshness will be described.

【0086】図8は、新鮮度を考慮して、無音音響モデ
ルの適応を行う、図1の無音音響モデル補正部7の構成
例を示している。
FIG. 8 shows an example of the structure of the silent acoustic model correction unit 7 shown in FIG. 1 for adapting a silent acoustic model in consideration of freshness.

【0087】新鮮度関数記憶部31は、上述したような
新鮮度を表す関数である新鮮度関数(を規定するパラメ
ータ)を記憶している。
The freshness function storage section 31 stores a freshness function (a parameter defining the above) which is a function representing the freshness as described above.

【0088】補正部32には、ノイズ観測区間抽出部3
が出力する、ノイズ観測区間TmとTnにおける音声デ
ータ(ノイズ)としての観測ベクトルの系列(ここで
は、2Mフレームの音声データ)が入力されるようにな
っており、補正部32は、この観測ベクトルから、無音
特徴分布G1,G2,・・・,GMを得て、これらと、新
鮮度関数記憶部31に記憶されている新鮮度関数に基づ
いて、無音音響モデルの適応を行う。
The correction section 32 includes a noise observation section extraction section 3
Is output as a series of observation vectors (here, 2M-frame audio data) as audio data (noise) in the noise observation sections Tm and Tn, and the correction unit 32 from silence feature distribution G 1, G 2, · · ·, to obtain G M, and these, on the basis of the freshness function stored in freshness function storage unit 31 performs adaptive silence acoustic model.

【0089】ここで、無音特徴分布G1,G2,・・・,
Mは、ノイズ観測区間TnにおけるMフレームそれぞ
れで観測される離散値であり、無音音響モデル補正部7
が、離散値を処理するシステムであれば、離散値である
無音特徴分布G1,G2,・・・,GMをそのまま用いる
ことができる。しかしながら、無音音響モデル補正部7
が、連続値を処理するシステムである場合には、例え
ば、図9に示すように、離散値である無音特徴分布
1,G2,・・・,GMを、連続変換器で連続値に変換
してから、無音音響モデル補正部7で処理する必要があ
る。離散値を連続値に変換する方法としては、例えば、
スプライン関数(Spline Function)によって近似を行う
方法がある。
Here, the silent feature distributions G 1 , G 2 ,.
G M is a discrete value observed in each of the M frames in the noise observation section Tn.
But if the system for processing discrete values, the silence feature distribution G 1, G 2 is a discrete value, ..., it can be used as it is G M. However, the silent acoustic model correction unit 7
But if a system for processing a continuous value, for example, as shown in FIG. 9, the silence feature distribution G 1, G 2 is a discrete value, ..., a G M, continuous values in continuous transducers , And then need to be processed by the silent acoustic model correction unit 7. As a method of converting a discrete value into a continuous value, for example,
There is a method of performing approximation using a spline function.

【0090】なお、離散値とは、ある有限の観測区間に
おいて、離散的な時刻で観測される有限個の観測値であ
り、連続値とは、ある有限(または無限)の観測区間の
任意の時刻で観測される無限個の観測値であり、ある関
数によって表現される。
Note that a discrete value is a finite number of observation values observed at discrete times in a certain finite observation section, and a continuous value is an arbitrary value in a certain finite (or infinite) observation section. It is an infinite number of observations observed at time, and is represented by a certain function.

【0091】無音音響モデルの適応に用いる無音特徴分
布が離散値である場合には、新鮮度関数も離散値の関数
となり、無音特徴分布が連続値である場合には、新鮮度
関数も連続値の関数となる。
When the silent feature distribution used for adapting the silent acoustic model is a discrete value, the freshness function is also a discrete value function. When the silent feature distribution is a continuous value, the freshness function is also a continuous value. Is a function of

【0092】次に、新鮮度関数、およびそれを用いた無
音音響モデルの適応について、新鮮度関数が離散値であ
る場合と、連続値である場合とに分けて説明する。
Next, the freshness function and the adaptation of the silent acoustic model using the function will be described separately for a case where the freshness function is a discrete value and a case where the freshness function is a continuous value.

【0093】まず、新鮮度関数g(t)は、例えば、式
(41)乃至(43)に示すように定義することができ
る。
First, the freshness function g (t) can be defined, for example, as shown in equations (41) to (43).

【0094】[0094]

【数31】 但し、Ωobsは、無音特徴分布の観測区間を表し、本実
施の形態では、ノイズ観測区間Tnに相当する。
(Equation 31) Here, Ω obs represents an observation section of the silent feature distribution, and corresponds to a noise observation section Tn in the present embodiment.

【0095】式(41)により、新鮮度関数g(t)
は、観測区間Ωobs以外では0となる。また、式(4
2)により、新鮮度関数g(t)は、観測区間Ωobs
おいて、時間の経過とともに増加するか、または変化し
ない関数(本明細書において、単調増加関数という)で
あり、従って、新鮮度関数g(t)は、基本的に、音声
認識区間(図2)に近づくほど、大きな値となる。さら
に、式(43)により、新鮮度関数g(t)は、観測区
間Ωobsに亘って積分した場合に、その積分値が1とな
る関数である。式(41)乃至(43)から、新鮮度関
数g(t)は、例えば、図10に示すようになる。
From equation (41), the freshness function g (t)
Is 0 outside the observation interval Ω obs . Equation (4)
According to 2), the freshness function g (t) is a function that increases or does not change with the passage of time in the observation interval Ω obs (referred to as a monotonically increasing function in the present specification). g (t) basically becomes larger as it approaches the voice recognition section (FIG. 2). Further, according to equation (43), the freshness function g (t) is a function whose integral value is 1 when integrated over the observation interval Ω obs . From equations (41) to (43), the freshness function g (t) is, for example, as shown in FIG.

【0096】ここで、本実施の形態では、新鮮度関数g
(t)は、後述するように、無音特徴分布に乗算する乗
数として用いられる。従って、新鮮度関数g(t)は、
その値が正または負のときには、それが乗数として乗算
される無音特徴分布に対する重みとして作用する。ま
た、新鮮度関数g(t)は、その値が0のときは、それ
が乗数として乗算される無音特徴分布を無効とし、無音
音響モデルの適応に影響を与えないように作用する。
Here, in the present embodiment, the freshness function g
(T) is used as a multiplier for multiplying the silent feature distribution as described later. Therefore, the freshness function g (t) is
When its value is positive or negative, it acts as a weight for the silent feature distribution that is multiplied as a multiplier. When the value of the freshness function g (t) is 0, the silence feature distribution multiplied by the multiplier is invalidated, and acts so as not to affect the adaptation of the silence acoustic model.

【0097】図8の補正部32では、以上のような新鮮
度関数g(t)と、無音特徴分布G 1,G2,・・・,G
Mとを用いて、基本的には、式(44)にしたがって、
適応後の無音音響モデルGsが求められる。
The correction unit 32 shown in FIG.
Degree function g (t) and silence feature distribution G 1, GTwo, ..., G
MAnd basically, according to equation (44),
Silent acoustic model G after adaptationsIs required.

【0098】[0098]

【数32】 (Equation 32)

【0099】式(44)によれば、無音特徴分布が、音
声認識区間に近いものほど重みをおいて扱われて、無音
音響モデルの適応が行われ、その結果、音声認識精度を
より向上させることが可能となる。
According to equation (44), the closer the silence feature distribution is to the speech recognition section, the higher the weight is treated, and the silence acoustic model is adapted. As a result, the speech recognition accuracy is further improved. It becomes possible.

【0100】次に、新鮮度関数F(x)の具体例と、そ
れを用いた無音音響モデルの適応について説明する。な
お、以下では、無音特徴分布の観測区間Ωobs(本実施
の形態では、ノイズ観測区間Tn)を、tが0からtM
までの区間とする。また、新鮮度関数g(t)の関数値
としては、観測区間Ωobsのみの値を考えることとする
(式(41)に示したように、新鮮度関数g(t)の関
数値は、観測区間Ωob s以外では0であるので、以下で
は、その点については言及しない)。
Next, a specific example of the freshness function F (x) and adaptation of the silent acoustic model using the function will be described. In the following, the observation interval Ω obs (in the present embodiment, the noise observation interval Tn) of the silent feature distribution is defined as t from 0 to t M
The section up to. As a function value of the freshness function g (t), a value of only the observation section Ω obs is considered (as shown in Expression (41), the function value of the freshness function g (t) is Since it is 0 outside the observation section Ω ob s , that point will not be described below).

【0101】新鮮度関数g(t)としては、例えば、線
形の関数を用いることができ、関数値として連続値をと
る場合には、新鮮度関数g(t)は、例えば、式(4
5)で表される。
As the freshness function g (t), for example, a linear function can be used. When a continuous value is taken as the function value, the freshness function g (t) can be expressed by, for example, the equation (4)
5).

【0102】[0102]

【数33】 [Equation 33]

【0103】式(45)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義か
ら、2/tM 2となる。従って、式(45)の新鮮度関数
g(t)は、式(46)で表されることになる。
Α in Equation (45) is a predetermined constant, and this constant α is 2 / t M 2 from the definition of the freshness function in Equation (43). Therefore, the freshness function g (t) in Expression (45) is expressed by Expression (46).

【0104】[0104]

【数34】 (Equation 34)

【0105】ここで、式(46)で表される新鮮度関数
g(t)を、図11に示す。
Here, the freshness function g (t) represented by the equation (46) is shown in FIG.

【0106】この場合、適応後の無音音響モデルG
sは、式(47)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (47).

【0107】[0107]

【数35】 なお、Gx(μx,σx 2)は、時刻xにおける無音特徴分
布を表し、μxとσx 2は、それぞれ、その無音特徴分布
を表す正規分布を規定する平均値と分散である。
(Equation 35) Note that G xx , σ x 2 ) represents a silent feature distribution at time x, and μ x and σ x 2 are an average value and a variance defining a normal distribution representing the silent feature distribution, respectively. .

【0108】次に、新鮮度関数F(x)としては、例え
ば、線形の、離散値をとる関数を用いることができ、こ
の場合、新鮮度関数F(x)は、例えば、式(48)で
表される。
Next, as the freshness function F (x), for example, a function taking a linear, discrete value can be used. In this case, the freshness function F (x) can be obtained by, for example, the equation (48) It is represented by

【0109】[0109]

【数36】 [Equation 36]

【0110】式(48)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義か
ら、2/(tM(tM+1))となる。従って、式(4
8)の新鮮度関数g(t)は、式(49)で表されるこ
とになる。
Α in Expression (48) is a predetermined constant, and this constant α is 2 / (t M (t M +1)) from the definition of the freshness function in Expression (43). Therefore, equation (4)
The freshness function g (t) of 8) is expressed by Expression (49).

【0111】[0111]

【数37】 (37)

【0112】ここで、式(49)で表される新鮮度関数
g(t)を、図12に示す。
Here, the freshness function g (t) represented by the equation (49) is shown in FIG.

【0113】この場合、適応後の無音音響モデルG
sは、式(50)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (50).

【0114】[0114]

【数38】 なお、Gtは、サンプル点(サンプル時刻)tにおける
無音特徴分布を表す。
(38) Gt represents a silent feature distribution at a sample point (sample time) t.

【0115】次に、新鮮度関数g(t)としては、例え
ば、指数関数や、高次2項関数、対数関数等の非線形の
関数を用いることができる。新鮮度関数g(t)とし
て、例えば、連続値をとる、高次関数としての2次関数
を用いる場合には、新鮮度関数g(t)は、例えば、式
(51)で表される。
Next, as the freshness function g (t), for example, a non-linear function such as an exponential function, a higher-order binomial function, or a logarithmic function can be used. For example, when a quadratic function as a higher-order function that takes a continuous value is used as the freshness function g (t), the freshness function g (t) is expressed by, for example, Expression (51).

【0116】[0116]

【数39】 [Equation 39]

【0117】式(51)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義か
ら、3/tM 3となる。従って、式(51)の新鮮度関数
g(t)は、式(52)で表されることになる。
Α in Expression (51) is a predetermined constant, and this constant α is 3 / t M 3 from the definition of the freshness function in Expression (43). Therefore, the freshness function g (t) of Expression (51) is expressed by Expression (52).

【0118】[0118]

【数40】 (Equation 40)

【0119】ここで、式(52)で表される新鮮度関数
g(t)を、図13に示す。
Here, the freshness function g (t) represented by the equation (52) is shown in FIG.

【0120】この場合、適応後の無音音響モデルG
sは、式(53)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (53).

【0121】[0121]

【数41】 [Equation 41]

【0122】次に、新鮮度関数g(t)としては、例え
ば、離散値をとる、高次関数としての2次関数を用いる
ことができ、この場合、新鮮度関数g(t)は、例え
ば、式(54)で表される。
Next, as the freshness function g (t), for example, a quadratic function as a higher-order function taking a discrete value can be used. In this case, the freshness function g (t) is, for example, , (54).

【0123】[0123]

【数42】 (Equation 42)

【0124】式(54)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義か
ら、6/(tM(tM+1)(2tM+1))となる。従
って、式(54)の新鮮度関数g(t)は、式(55)
で表されることになる。
In the equation (54), α is a predetermined constant. The constant α is 6 / (t M (t M +1) (2t M +1)) from the definition of the freshness function in the equation (43). Becomes Therefore, the freshness function g (t) of the equation (54) is obtained by the equation (55).
Will be represented by

【0125】[0125]

【数43】 [Equation 43]

【0126】ここで、式(55)で表される新鮮度関数
g(t)を、図14に示す。
Here, the freshness function g (t) represented by the equation (55) is shown in FIG.

【0127】この場合、適応後の無音音響モデルG
sは、式(56)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (56).

【0128】[0128]

【数44】 [Equation 44]

【0129】次に、新鮮度関数g(t)として、例え
ば、連続値をとる対数関数を用いる場合には、新鮮度関
数g(t)は、例えば、式(57)で表される。
Next, when a logarithmic function having a continuous value is used as the freshness function g (t), the freshness function g (t) is expressed by, for example, equation (57).

【0130】[0130]

【数45】 [Equation 45]

【0131】式(57)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義か
ら、1/((tM+1)log(tM+1)−tM)とな
る。従って、式(57)の新鮮度関数g(t)は、式
(58)で表されることになる。
In the equation (57), α is a predetermined constant. From the definition of the freshness function in the equation (43), the constant α is 1 / ((t M +1) log (t M +1) -t M ). Therefore, the freshness function g (t) of Expression (57) is expressed by Expression (58).

【0132】[0132]

【数46】 [Equation 46]

【0133】ここで、式(58)で表される新鮮度関数
g(t)を、図15に示す。
Here, the freshness function g (t) represented by the equation (58) is shown in FIG.

【0134】この場合、適応後の無音音響モデルG
sは、式(59)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (59).

【0135】[0135]

【数47】 [Equation 47]

【0136】次に、新鮮度関数g(t)としては、例え
ば、離散値をとる対数関数を用いることができ、この場
合、新鮮度関数g(t)は、例えば、式(60)で表さ
れる。
Next, as the freshness function g (t), for example, a logarithmic function having a discrete value can be used. In this case, the freshness function g (t) can be expressed by, for example, an equation (60). Is done.

【0137】[0137]

【数48】 [Equation 48]

【0138】式(60)におけるαは、所定の定数であ
り、この定数αは、式(43)の新鮮度関数の定義から
求められ、従って、式(60)の新鮮度関数g(t)
は、式(61)で表されることになる。
Α in Expression (60) is a predetermined constant, and this constant α is obtained from the definition of the freshness function in Expression (43). Therefore, the freshness function g (t) in Expression (60) is obtained.
Is represented by Expression (61).

【0139】[0139]

【数49】 [Equation 49]

【0140】ここで、式(61)で表される新鮮度関数
g(t)を、図16に示す。
Here, the freshness function g (t) represented by the equation (61) is shown in FIG.

【0141】この場合、適応後の無音音響モデルG
sは、式(62)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (62).

【0142】[0142]

【数50】 [Equation 50]

【0143】次に、新鮮度関数g(t)として、例え
ば、連続値をとる、一般的な高次関数を用いる場合に
は、新鮮度関数g(t)は、例えば、式(63)で表さ
れる。
Next, when a general higher-order function that takes a continuous value, for example, is used as the freshness function g (t), the freshness function g (t) is expressed by, for example, the equation (63). expressed.

【0144】[0144]

【数51】 (Equation 51)

【0145】式(63)におけるαは、所定の定数であ
り、また、pによって、新鮮度関数g(t)の次数が決
まる。
Α in equation (63) is a predetermined constant, and the order of the freshness function g (t) is determined by p.

【0146】定数αは、式(43)の新鮮度関数の定義
から求めることができ、従って、式(63)の新鮮度関
数g(t)は、式(64)で表されることになる。
The constant α can be obtained from the definition of the freshness function in the equation (43). Therefore, the freshness function g (t) in the equation (63) is represented by the equation (64). .

【0147】[0147]

【数52】 (Equation 52)

【0148】この場合、適応後の無音音響モデルG
sは、式(65)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (65).

【0149】[0149]

【数53】 (Equation 53)

【0150】なお、式(64)において、例えば、pが
1または2の場合は、新鮮度関数g(t)は、連続値を
とる、線形の関数または2次関数となり、式(46)ま
たは(52)に示したように、それぞれ表される。
In the equation (64), for example, when p is 1 or 2, the freshness function g (t) is a linear function or a quadratic function that takes a continuous value. Each is represented as shown in (52).

【0151】また、式(64)において、例えば、pが
3の場合は、新鮮度関数g(t)は、連続値をとる3次
関数となり、式(66)に示すように表される。
In equation (64), for example, when p is 3, the freshness function g (t) is a cubic function having a continuous value and is expressed as shown in equation (66).

【0152】[0152]

【数54】 (Equation 54)

【0153】さらに、式(64)において、例えば、p
が4の場合は、新鮮度関数g(t)は、連続値をとる4
次関数となり、式(67)に示すように表される。
Further, in the equation (64), for example, p
Is 4, the freshness function g (t) takes a continuous value 4
It becomes the following function and is expressed as shown in equation (67).

【0154】[0154]

【数55】 [Equation 55]

【0155】次に、新鮮度関数g(t)として、例え
ば、離散値をとる、一般的な高次関数を用いる場合に
は、新鮮度関数g(t)は、例えば、式(68)で表さ
れる。
Next, when a general higher-order function that takes a discrete value, for example, is used as the freshness function g (t), the freshness function g (t) can be expressed by, for example, the equation (68). expressed.

【0156】[0156]

【数56】 [Equation 56]

【0157】式(68)におけるαは、所定の定数であ
り、また、pによって、新鮮度関数F(x)の次数が決
まる。
Α in Expression (68) is a predetermined constant, and the order of the freshness function F (x) is determined by p.

【0158】定数αは、式(43)の新鮮度関数の定義
から求めることができ、従って、式(68)の新鮮度関
数g(t)は、式(69)で表されることになる。
The constant α can be obtained from the definition of the freshness function in the equation (43). Therefore, the freshness function g (t) in the equation (68) is represented by the equation (69). .

【0159】[0159]

【数57】 [Equation 57]

【0160】この場合、適応後の無音音響モデルG
sは、式(70)にしたがって求められる。
In this case, the silence acoustic model G after the adaptation
s is obtained according to equation (70).

【0161】[0161]

【数58】 [Equation 58]

【0162】なお、式(69)において、例えば、pが
1または2の場合は、新鮮度関数g(t)は、離散値を
とる、線形の関数または2次関数となり、式(49)ま
たは(55)に示したように、それぞれ表される。
In equation (69), for example, when p is 1 or 2, the freshness function g (t) is a linear function or a quadratic function that takes a discrete value. Each is represented as shown in (55).

【0163】また、式(69)において、例えば、pが
3の場合は、新鮮度関数g(t)は、離散値値をとる3
次関数となり、式(71)に示すように表される。
In equation (69), for example, if p is 3, the freshness function g (t) takes a discrete value 3
It becomes the following function and is expressed as shown in Expression (71).

【0164】[0164]

【数59】 [Equation 59]

【0165】さらに、式(69)において、例えば、p
が4の場合は、新鮮度関数g(t)は、離散値をとる4
次関数となり、式(72)に示すように表される。
Further, in the equation (69), for example, p
Is 4, the freshness function g (t) takes a discrete value 4
It becomes the following function and is expressed as shown in equation (72).

【0166】[0166]

【数60】 [Equation 60]

【0167】なお、新鮮度関数g(t)の概念は、無音
音響モデルの適応の他、ノイズ環境下における話者適用
や、無音音響モデル以外の音響モデルの適応にも応用す
ることができる。さらに、音声検出や、非定常ノイズ検
出にも応用することが可能である。また、音響信号処理
や、画像信号処理、通信の分野でも、新鮮度関数F
(x)の概念を用いることで、環境ノイズに対するロバ
スト性(頑健性)を向上させ、システム性能の改善を図
ることが可能となる。
Note that the concept of the freshness function g (t) can be applied not only to the adaptation of a silent acoustic model, but also to the application of a speaker under a noise environment and the adaptation of acoustic models other than the silent acoustic model. Furthermore, it can be applied to voice detection and non-stationary noise detection. Also, in the field of sound signal processing, image signal processing, and communication, the freshness function F
By using the concept of (x), it is possible to improve robustness (robustness) against environmental noise and improve system performance.

【0168】以上、本発明を適用した音声認識装置につ
いて説明したが、このような音声認識装置は、例えば、
音声入力可能なカーナビゲーション装置、その他各種の
装置に適用可能である。
The speech recognition apparatus to which the present invention is applied has been described above. Such a speech recognition apparatus, for example,
The present invention is applicable to a car navigation device capable of voice input and other various devices.

【0169】なお、本実施の形態では、ノイズの分布特
性を考慮した特徴分布パラメータを求めるようにした
が、このノイズには、例えば、発話を行う環境下におけ
る外部からのノイズの他、例えば、電話回線その他の通
信回線を介して送信されてくる音声の認識を行う場合に
は、その通信回線の特性なども含まれる。
In the present embodiment, the characteristic distribution parameter is determined in consideration of the noise distribution characteristic. However, this noise includes, for example, external noise in an environment where speech is made, and When recognizing voice transmitted via a telephone line or other communication lines, the characteristics of the communication line are also included.

【0170】また、本発明は、音声認識の他、画像認識
その他のパターン認識を行う場合にも適用可能である。
The present invention can be applied to the case of performing image recognition and other pattern recognition in addition to voice recognition.

【0171】さらに、本実施の形態では、特徴空間にお
ける分布として表される無音特徴分布を用いて、無音音
響モデルの適応を行うようにしたが、無音音響モデルの
適応は、特徴空間における点として表されるノイズの特
徴量を用いて行うことも可能である。
Further, in the present embodiment, the silence acoustic model is adapted by using the silence feature distribution represented as the distribution in the feature space. However, the adaptation of the silence acoustic model is performed as points in the feature space. It is also possible to perform this by using the feature amount of the expressed noise.

【0172】また、本発明は、無音音響モデル以外の音
響モデルの適応に用いることも可能である。
The present invention can also be used for adapting acoustic models other than the silent acoustic model.

【0173】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
Next, the above-described series of processing can be performed by hardware or software. When a series of processing is performed by software, a program constituting the software is
Installed on a general-purpose computer.

【0174】そこで、図17は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
FIG. 17 shows an example of the configuration of an embodiment of a computer in which a program for executing the above-described series of processing is installed.

【0175】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
The program is stored in a hard disk 105 or a ROM 1 as a recording medium built in the computer.
03 can be recorded in advance.

【0176】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
Alternatively, the program may be a floppy (registered trademark) disk, a CD-ROM (Compact Disc Read Onl
y Memory), MO (Magneto optical) disc, DVD (Digita
l Versatile Disc), a magnetic disk, a semiconductor memory, etc., can be temporarily or permanently stored (recorded) in a removable recording medium 111. Such a removable recording medium 111 can be provided as so-called package software.

【0177】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
The program can be installed in the computer from the removable recording medium 111 as described above, can be wirelessly transferred from the download site to the computer via a digital satellite broadcasting artificial satellite, or can be transmitted to a LAN (Local Area Area Network). Network), the Internet, and the like, and can be transferred to a computer by wire. In the computer, the transferred program can be received by the communication unit 108 and installed on the built-in hard disk 105.

【0178】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードやマウス等で構成
される入力部107が操作されることにより指令が入力
されると、それにしたがって、ROM(Read Only Memory)
103に格納されているプログラムを実行する。あるい
は、また、CPU102は、ハードディスク105に格納
されているプログラム、衛星若しくはネットワークから
転送され、通信部108で受信されてハードディスク1
05にインストールされたプログラム、またはドライブ
109に装着されたリムーバブル記録媒体111から読
み出されてハードディスク105にインストールされた
プログラムを、RAM(Random Access Memory)104にロ
ードして実行する。これにより、CPU102は、上述し
たブロック図の構成により行われる処理を行う。そし
て、CPU102は、その処理結果を、必要に応じて、例
えば、入出力インタフェース110を介して、LCD(Liqu
id CryStal Display)やスピーカ等で構成される出力部
106から出力、あるいは、通信部108から送信、さ
らには、ハードディスク105に記録等させる。
The computer has a CPU (Central Processing).
Unit) 102. The CPU 102 has a bus 1
01, an input / output interface 110 is connected. The CPU 102 receives a command via the input / output interface 110 by operating the input unit 107 including a keyboard, a mouse, and the like. Then, according to it, ROM (Read Only Memory)
The program stored in 103 is executed. Alternatively, the CPU 102 transmits the program stored in the hard disk 105, a satellite, or a network, receives the program by the communication unit 108, and
The program installed in the hard disk 105 is read from the removable recording medium 111 installed in the drive 109 and loaded into the RAM (Random Access Memory) 104 and executed. As a result, the CPU 102 performs processing performed by the configuration of the above-described block diagram. Then, the CPU 102 transmits the processing result to an LCD (Liquor
output from an output unit 106 composed of an id CryStal Display) or a speaker, or transmitted from the communication unit 108, and further recorded on the hard disk 105.

【0179】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
Here, in this specification, processing steps for writing a program for causing a computer to perform various processes do not necessarily have to be processed in chronological order in the order described in the flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).

【0180】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
The program may be processed by one computer or may be processed by a plurality of computers in a distributed manner. Further, the program may be transferred to a remote computer and executed.

【0181】[0181]

【発明の効果】本発明のモデル適応装置およびモデル適
応方法、記録媒体、並びにパターン認識装置によれば、
所定区間における抽出データと、その抽出データの新し
さを表す新鮮度に基づいて、所定のモデルの適応が行わ
れる。従って、そのモデルを用いてパターン認識を行う
ことで、認識性能を向上させることが可能となる。
According to the model adapting apparatus, the model adapting method, the recording medium, and the pattern recognition apparatus of the present invention,
A predetermined model is adapted based on extracted data in a predetermined section and freshness indicating the freshness of the extracted data. Therefore, by performing pattern recognition using the model, it is possible to improve recognition performance.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した音声認識装置の構成例を示す
ブロック図である。
FIG. 1 is a block diagram illustrating a configuration example of a speech recognition device to which the present invention has been applied.

【図2】図1のノイズ観測区間抽出部3の動作を説明す
るための図である。
FIG. 2 is a diagram for explaining an operation of a noise observation section extraction unit 3 of FIG.

【図3】図1の特徴抽出部5の詳細な構成例を示すブロ
ック図である。
FIG. 3 is a block diagram illustrating a detailed configuration example of a feature extraction unit 5 of FIG. 1;

【図4】図1の音声認識部6の詳細な構成例を示すブロ
ック図である。
FIG. 4 is a block diagram illustrating a detailed configuration example of a speech recognition unit 6 in FIG. 1;

【図5】HMMを示す図である。FIG. 5 is a diagram showing an HMM.

【図6】シミュレーション結果を示す図である。FIG. 6 is a diagram showing a simulation result.

【図7】無音音響モデルの正規分布を示す図である。FIG. 7 is a diagram showing a normal distribution of a silent acoustic model.

【図8】図1の無音音響モデル補正部7の構成例を示す
ブロック図である。
FIG. 8 is a block diagram illustrating a configuration example of a silent acoustic model correction unit 7 in FIG. 1;

【図9】離散値を連続値に変換する様子を示す図であ
る。
FIG. 9 is a diagram showing how discrete values are converted into continuous values.

【図10】一般的な新鮮度関数g(t)を示す図であ
る。
FIG. 10 is a diagram showing a general freshness function g (t).

【図11】新鮮度関数g(t)の第1の例を示す図であ
る。
FIG. 11 is a diagram illustrating a first example of a freshness function g (t).

【図12】新鮮度関数g(t)の第2の例を示す図であ
る。
FIG. 12 is a diagram illustrating a second example of the freshness function g (t).

【図13】新鮮度関数g(t)の第3の例を示す図であ
る。
FIG. 13 is a diagram illustrating a third example of the freshness function g (t).

【図14】新鮮度関数g(t)の第4の例を示す図であ
る。
FIG. 14 is a diagram illustrating a fourth example of the freshness function g (t).

【図15】新鮮度関数g(t)の第5の例を示す図であ
る。
FIG. 15 is a diagram illustrating a fifth example of the freshness function g (t).

【図16】新鮮度関数g(t)の第6の例を示す図であ
る。
FIG. 16 is a diagram illustrating a sixth example of the freshness function g (t).

【図17】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
And FIG. 17 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 マイクロフォン, 2 フレーム化部, 3 ノイ
ズ観測区間抽出部,4 発話スイッチ, 5 特徴抽出
部, 6 音声認識部, 7 無音音響モデル補正部,
31 新鮮度関数記憶部, 32 補正部, 101
バス, 102 CPU, 103 ROM, 104 RA
M, 105 ハードディスク, 106 出力部,
107 入力部, 108 通信部, 109 ドライ
ブ,110 入出力インタフェース, 111 リムー
バブル記録媒体
1 microphone, 2 framing unit, 3 noise observation section extraction unit, 4 speech switch, 5 feature extraction unit, 6 speech recognition unit, 7 silent acoustic model correction unit,
31 freshness function storage unit, 32 correction unit, 101
Bus, 102 CPU, 103 ROM, 104 RA
M, 105 hard disk, 106 output unit,
107 input unit, 108 communication unit, 109 drive, 110 input / output interface, 111 removable recording medium

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 時系列の入力データを、所定数のモデル
のうちのいずれかに分類するパターン認識に用いられる
前記モデルの適応を行うモデル適応装置であって、 所定のモデルに対応する、所定区間で観測される前記入
力データを抽出し、抽出データとして出力するデータ抽
出手段と、 前記所定区間における抽出データと、その抽出データの
新しさを表す新鮮度に基づいて、前記所定のモデルの適
応を行うモデル適応手段とを備えることを特徴とするモ
デル適応装置。
1. A model adapting apparatus for adapting a model used for pattern recognition for classifying time-series input data into one of a predetermined number of models, comprising: Data extraction means for extracting the input data observed in the section and outputting the extracted data as extracted data; and adapting the predetermined model based on the extracted data in the predetermined section and freshness indicating the freshness of the extracted data. And a model adapting means for performing the following.
【請求項2】 前記パターン認識は、前記入力データの
特徴空間における特徴分布に基づいて行われることを特
徴とする請求項1に記載のモデル適応装置。
2. The model adaptation apparatus according to claim 1, wherein the pattern recognition is performed based on a feature distribution of the input data in a feature space.
【請求項3】 前記モデル適応手段は、前記所定区間に
おける抽出データの時間的位置に対応して値が変化する
関数を、前記新鮮度として用いて、前記所定のモデルの
適応を行うことを特徴とする請求項1に記載のモデル適
応装置。
3. The method according to claim 2, wherein the model adapting means adapts the predetermined model using a function whose value changes in accordance with a temporal position of the extracted data in the predetermined section as the freshness. The model adaptation apparatus according to claim 1, wherein
【請求項4】 前記関数は、時間の経過とともに増加す
る単調増加関数であることを特徴とする請求項3に記載
のモデル適応装置。
4. The model adaptation apparatus according to claim 3, wherein the function is a monotonically increasing function that increases with time.
【請求項5】 前記関数は、線形または非線形の関数で
あることを特徴とする請求項4に記載のモデル適応装
置。
5. The model adaptation apparatus according to claim 4, wherein the function is a linear or non-linear function.
【請求項6】 前記関数は、離散値または連続値をとる
ことを特徴とする請求項4に記載のモデル適応装置。
6. The model adaptation apparatus according to claim 4, wherein said function takes a discrete value or a continuous value.
【請求項7】 前記関数は、2次関数または3次以上の
高次関数であることを特徴とする請求項4に記載のモデ
ル適応装置。
7. The model adaptation apparatus according to claim 4, wherein the function is a quadratic function or a higher-order function of third or higher order.
【請求項8】 前記関数は、対数関数であることを特徴
とする請求項4に記載のモデル適応装置。
8. The apparatus according to claim 4, wherein the function is a logarithmic function.
【請求項9】 前記入力データは、音声データであるこ
とを特徴とする請求項1に記載のモデル適応装置。
9. The model adaptation apparatus according to claim 1, wherein the input data is audio data.
【請求項10】 前記所定のモデルは、音声区間でない
区間におけるノイズを表す音響モデルであることを特徴
とする請求項9に記載のモデル適応装置。
10. The model adaptation apparatus according to claim 9, wherein the predetermined model is an acoustic model representing noise in a section other than a speech section.
【請求項11】 時系列の入力データを、所定数のモデ
ルのうちのいずれかに分類するパターン認識に用いられ
る前記モデルの適応を行うモデル適応方法であって、 所定のモデルに対応する、所定区間で観測される前記入
力データを抽出し、抽出データとして出力するデータ抽
出ステップと、 前記所定区間における抽出データと、その抽出データの
新しさを表す新鮮度に基づいて、前記所定のモデルの適
応を行うモデル適応ステップとを備えることを特徴とす
るモデル適応方法。
11. A model adaptation method for adapting a model used for pattern recognition for classifying time-series input data into one of a predetermined number of models, the method comprising: A data extraction step of extracting the input data observed in the section and outputting the extracted data as extracted data; and adapting the predetermined model based on the extracted data in the predetermined section and the freshness indicating the freshness of the extracted data. Performing a model adaptation step.
【請求項12】 時系列の入力データを、所定数のモデ
ルのうちのいずれかに分類するパターン認識に用いられ
る前記モデルの適応を、コンピュータに行わせるプログ
ラムが記録されている記録媒体であって、 所定のモデルに対応する、所定区間で観測される前記入
力データを抽出し、抽出データとして出力するデータ抽
出ステップと、 前記所定区間における抽出データと、その抽出データの
新しさを表す新鮮度に基づいて、前記所定のモデルの適
応を行うモデル適応ステップとを備えるプログラムが記
録されていることを特徴とする記録媒体。
12. A recording medium storing a program for causing a computer to adapt the model used for pattern recognition for classifying time-series input data into one of a predetermined number of models. A data extraction step of extracting the input data observed in a predetermined section corresponding to a predetermined model and outputting the extracted data as extracted data; and extracting data in the predetermined section and freshness representing the freshness of the extracted data. And a model adaptation step of adapting the predetermined model based on the program.
【請求項13】 時系列の入力データを、所定数のモデ
ルのうちのいずれかに分類するパターン認識装置であっ
て、 前記入力データの特徴量を抽出する特徴抽出手段と、 前記所定数のモデルを記憶する記憶手段と、 前記入力データの特徴量を、前記所定数のモデルのうち
のいずれかに分類する分類手段と、 所定のモデルに対応する、所定区間で観測される前記入
力データを抽出し、抽出データとして出力するデータ抽
出手段と、 前記所定区間における抽出データと、その抽出データの
新しさを表す新鮮度に基づいて、前記所定のモデルの適
応を行うモデル適応手段とを備えることを特徴とするパ
ターン認識装置。
13. A pattern recognition apparatus for classifying time-series input data into one of a predetermined number of models, wherein: a feature extraction unit for extracting a feature amount of the input data; A classifying unit that classifies a feature amount of the input data into one of the predetermined number of models; and extracts the input data observed in a predetermined section corresponding to a predetermined model. Data extracting means for outputting as extracted data, and model adapting means for adapting the predetermined model based on the extracted data in the predetermined section and freshness indicating the freshness of the extracted data. Characteristic pattern recognition device.
JP2000276856A 1999-12-28 2000-09-12 Device and method for adapting model, recording medium, and pattern recognition device Withdrawn JP2001249681A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000276856A JP2001249681A (en) 1999-12-28 2000-09-12 Device and method for adapting model, recording medium, and pattern recognition device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-375766 1999-12-28
JP37576699 1999-12-28
JP2000276856A JP2001249681A (en) 1999-12-28 2000-09-12 Device and method for adapting model, recording medium, and pattern recognition device

Publications (1)

Publication Number Publication Date
JP2001249681A true JP2001249681A (en) 2001-09-14

Family

ID=26582737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000276856A Withdrawn JP2001249681A (en) 1999-12-28 2000-09-12 Device and method for adapting model, recording medium, and pattern recognition device

Country Status (1)

Country Link
JP (1) JP2001249681A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126254A1 (en) * 2007-03-30 2008-10-23 Pioneer Corporation Speaker recognition device, acoustic model update method, and acoustic model update process program
CN112908309A (en) * 2021-02-06 2021-06-04 漳州立达信光电子科技有限公司 Voice recognition method, device and equipment and massage sofa

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126254A1 (en) * 2007-03-30 2008-10-23 Pioneer Corporation Speaker recognition device, acoustic model update method, and acoustic model update process program
JP4847581B2 (en) * 2007-03-30 2011-12-28 パイオニア株式会社 Speaker recognition device, acoustic model update method, and acoustic model update processing program
CN112908309A (en) * 2021-02-06 2021-06-04 漳州立达信光电子科技有限公司 Voice recognition method, device and equipment and massage sofa

Similar Documents

Publication Publication Date Title
EP1113419B1 (en) Model adaptive apparatus and model adaptive method, recording medium, and pattern recognition apparatus
JP2002073072A (en) Device and method for adapting model, recording medium and pattern recognition device
JP3584458B2 (en) Pattern recognition device and pattern recognition method
US8515758B2 (en) Speech recognition including removal of irrelevant information
JP2006510933A (en) Sensor-based speech recognition device selection, adaptation, and combination
US7571095B2 (en) Method and apparatus for recognizing speech in a noisy environment
US6182036B1 (en) Method of extracting features in a voice recognition system
EP1557823A2 (en) Method of setting posterior probability parameters for a switching state space model and method of speech recognition
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
KR101065188B1 (en) Apparatus and method for speaker adaptation by evolutional learning, and speech recognition system using thereof
KR20040088368A (en) Method of speech recognition using variational inference with switching state space models
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
US20030036902A1 (en) Method and apparatus for recognizing speech in a noisy environment
JP4577543B2 (en) Model adaptation apparatus and model adaptation method, recording medium, and speech recognition apparatus
Loh et al. Speech recognition interactive system for vehicle
EP1083544B1 (en) Pattern recognizing device and method, and providing medium
JP2001249681A (en) Device and method for adapting model, recording medium, and pattern recognition device
JP3493849B2 (en) Voice recognition device
JP2002123285A (en) Speaker adaptation apparatus and speaker adaptation method, recording medium and speech recognizing device
JP4856526B2 (en) Acoustic model parameter update processing method, acoustic model parameter update processing device, program, and recording medium
KR20240076960A (en) Method of classifying surrounding environment using adaptive codebook
JPH10149190A (en) Method and device for recognizing sound
JP3871774B2 (en) Voice recognition apparatus, voice recognition method, and recording medium recording voice recognition program
JP5626558B2 (en) Speaker selection device, speaker adaptive model creation device, speaker selection method, and speaker selection program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071204