JPH035595B2 - - Google Patents

Info

Publication number
JPH035595B2
JPH035595B2 JP55038747A JP3874780A JPH035595B2 JP H035595 B2 JPH035595 B2 JP H035595B2 JP 55038747 A JP55038747 A JP 55038747A JP 3874780 A JP3874780 A JP 3874780A JP H035595 B2 JPH035595 B2 JP H035595B2
Authority
JP
Japan
Prior art keywords
feature vector
speech
standard pattern
vector
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55038747A
Other languages
Japanese (ja)
Other versions
JPS56133800A (en
Inventor
Atsuo Tanaka
Shinji Kanehara
Kazumi Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP3874780A priority Critical patent/JPS56133800A/en
Publication of JPS56133800A publication Critical patent/JPS56133800A/en
Publication of JPH035595B2 publication Critical patent/JPH035595B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声の動的特徴を利用した音声認識方
法に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech recognition method using dynamic features of speech.

音声認識において、従来、音声の動的特徴を用
いたパターンマツチングとしては動的計画法を用
いた方法が多く行われている。この方法によれ
ば、入力パターンと標準パターンを比べる際に通
常発声スピードが異なつているため、パターン間
の類似度を最大にするべく、まず入力パターンを
伸縮させるなど時間伸縮の処理を施し、このよう
な処理がされた後にパターン間の類似度を求める
ものである。
In speech recognition, methods using dynamic programming have conventionally been widely used for pattern matching using dynamic features of speech. According to this method, when comparing the input pattern and the standard pattern, the speaking speed is usually different, so in order to maximize the similarity between the patterns, the input pattern is first subjected to time stretching processing such as stretching or contracting. After such processing is performed, the degree of similarity between patterns is determined.

本発明は、上記音声の動的特徴を利用した認識
方法を更に改良することを目的とし、特に特徴ベ
クトルにおける動的モデルを用いることによつて
音声の動的特徴を利用し、更に所定の特性をもつ
評価関数を用いて最適推定を行なうことにより、
入力音声から直接得られる特徴ベクトルの値のゆ
らぎの影響を軽減して、各音声のカテゴリ間にお
ける分離の度合を高め、標準パターンとの照合を
容易することができる音声認識方式を提供する。
次に実施例を挙げて本発明を詳細に説明する。
The present invention aims to further improve the above-mentioned recognition method using the dynamic features of speech. In particular, the present invention utilizes the dynamic features of speech by using a dynamic model in the feature vector, and further improves the recognition method using the dynamic features of speech. By performing optimal estimation using an evaluation function with
To provide a speech recognition method that can reduce the influence of fluctuations in the values of feature vectors directly obtained from input speech, increase the degree of separation between categories of each speech, and facilitate matching with standard patterns.
Next, the present invention will be explained in detail with reference to Examples.

入力された音声情報は標準パターンと照合され
るに先立つて、特徴ベクトの値のゆらぎを鈍らせ
るために、入力音声スペクトルの時間変化をダイ
ナミツクス(第4頁の一式)で表現し、この表現
された値からカルマンフイルタなる評価関数によ
つてフレーム毎に最適なスペクトルを推定し、こ
の推定されたスペクトルを実際測定されたスペク
トルの代りに用いてパターンマツチングが実行さ
れるが、次にまず入力音声から最適推定値を得る
ための原理について説明する。
Before the input audio information is compared with a standard pattern, the temporal changes in the input audio spectrum are expressed using dynamics (set on page 4) in order to dampen the fluctuations in the value of the feature vector. The optimal spectrum is estimated for each frame using an evaluation function called a Kalman filter, and pattern matching is performed using this estimated spectrum in place of the actually measured spectrum. The principle for obtaining the optimal estimate from input speech will be explained.

尚、従来方法と同様に、測定された入力音声に
対して標準パターンとのマツチングをとるための
時間伸縮処理を予め行つておく。
Note that, similarly to the conventional method, time expansion/contraction processing is performed in advance on the measured input audio in order to match it with the standard pattern.

マイクロフオン等の音声入力部に与えられた音
声入力は分析部に与えられ、所定区間にサンプリ
ングされてデイジタル信号に変換され、音声の特
徴パターンが形成される。ここでパターンとは特
徴ベクトルの時系列であり、一般に多次元空間の
時系列として表現することができる。例えば入力
された音声波形をバンドパスフイルタ等を介して
周波数分析した出力は、各周波数帯域での出力値
を要素としてもつベクトルで表わすことができ、
これが上記特徴ベクトルとなる。従つて周波数領
域をn帯域(本実施例ではn=24)で分割すれば
特徴ベクトルはn次元になり、パターンはn次元
の特徴ベクトルの時系列X1X2…Xkとなる。以下
肉太の字体はベクトルを表わしているものとす
る。
Audio input applied to an audio input unit such as a microphone is applied to an analysis unit, where it is sampled in a predetermined interval and converted into a digital signal to form a characteristic pattern of the audio. Here, a pattern is a time series of feature vectors, and can generally be expressed as a time series in a multidimensional space. For example, the output of frequency analysis of an input audio waveform via a bandpass filter or the like can be expressed as a vector having output values in each frequency band as elements,
This becomes the feature vector described above. Therefore, if the frequency domain is divided into n bands (n=24 in this embodiment), the feature vector becomes n-dimensional, and the pattern becomes a time series of n-dimensional feature vectors X 1 X 2 . . . In the following, bold fonts represent vectors.

パターン内のiフレームにおける特徴ベクトル
は(i−1)フレームに対する時間変化として次
のような差分方程式で表わすことができる。
The feature vector in the i frame in the pattern can be expressed as a time change with respect to the (i-1) frame by the following difference equation.

Xi=Ai-1Xi-1+Ui-1 (1) ここでパラメータAi-1はXi-1の時間変化を記述
する行列で、簡単のために対角行列とする。また
Uiは励振源で後述する滑らかなスペクトル概形の
時間変化量として表わされる。
X i =A i-1 X i-1 +U i-1 (1) Here, the parameter A i-1 is a matrix that describes the time change of X i-1 , and is assumed to be a diagonal matrix for simplicity. Also
U i is an excitation source and is expressed as a time variation of a smooth spectral outline, which will be described later.

上記のような真の特徴ベクトル〓iに対して実
際に測定値から得られるベクトル〓iは誤差〓i
含み次式のように表わされる。
For the true feature vector 〓 i as described above, the vector 〓 i actually obtained from the measured values 〓 i includes an error 〓 i and is expressed as follows.

Yi=Xi+Wi (2) 尚上(1)及び(2)式の表現は一例であつて本発明の
応用分野を限定するものではない。
Y i =X i +W i (2) The expressions in equations (1) and (2) above are merely examples and do not limit the field of application of the present invention.

音声認識の過程においては上記測定値Yiを得
て、この測定値Yiから所定のアルゴリズムをもつ
評価関数を用いてXiの最適推定値X^iが求められ
る。上記評価関数としてカルマンフイルタを用い
る。
In the process of speech recognition, the above-mentioned measured value Y i is obtained, and an optimal estimated value X^ i of X i is determined from this measured value Y i using an evaluation function having a predetermined algorithm. A Kalman filter is used as the above evaluation function.

今カルマンフイルタを用いていることから評価
関数は自乗誤差であり、上記最適推定値X^iは自乗
誤差を最小にする推定値のベクトルで、最小自乗
推定値X^iは以下のアルゴリズムに従つて求められ
る。
Since we are currently using a Kalman filter, the evaluation function is a squared error, and the above optimal estimate X^ i is a vector of estimated values that minimizes the squared error, and the least squares estimated value X^ i is calculated according to the following algorithm. It is required.

X^i=X〓i+PiWi -1(Yi−X〓i) (3) X〓i=Ai-1X^i-1i-1 (4) Pi=(Mi -1+Wi -1-1 (5) Mi=Ai-1Pi-1Ai-1+Ui-1 (6) ただしWiはWiの共分散行列で、簡単のために
Wiの平均値を零とし、Wiの各要素の分散は時間
に無関係に一定でσ2とする。またWi=σ2I(Iは単
位行列)とし、UiはUiの共分散行列で、Uiの平均
値(Ui=gi+1−gi)をUiとし、Piは推定誤差の共
分散行列である。
X^ i =X〓 i +P i W i -1 (Y i −X〓 i ) (3) X〓 i =A i-1 X^ i-1 + i-1 (4) P i = (M i -1 +W i -1 ) -1 (5) M i =A i-1 P i-1 A i-1 +U i-1 (6) where W i is the covariance matrix of W i , and for simplicity
The average value of W i is set to zero, and the variance of each element of W i is constant regardless of time and is set to σ 2 . Also, let W i = σ 2 I (I is the identity matrix), U i is the covariance matrix of U i , the average value of U i (U i = g i +1 − g i ) is U i , and P i is the covariance matrix of estimation errors.

第1図はフレームi、i+1、i+2における
特徴ベクトルXi、Xi+1、Xi+2の動的モデルを示
し、特徴ベクトルは24帯域の出力値からなるベク
トルで、各要素値は夫々のフレーム毎に白丸で示
されている。同図から励振源Uiは、破線で示され
ているスペクトル概形giの時間変化を用いること
によつて、Ui=gi+1−giから求められ特徴ベクト
ルの時系列を(1)式に従つて矛盾なく表わすことが
できる。
Figure 1 shows a dynamic model of feature vectors X i , X i+1 , and X i+2 in frames i, i+1 , and i+2 . The feature vectors are vectors consisting of output values of 24 bands, and each element value is Each frame is indicated by a white circle. From the figure, the excitation source U i is determined from U i = g i +1 − g i by using the time change of the spectral outline g i shown by the broken line, and the time series of the feature vector is ( 1) It can be expressed without contradiction according to Eq.

第2図には、上記特徴ベクトルXiとスペクトル
概形giを求める処理手順が示されている。
FIG. 2 shows the processing procedure for obtaining the feature vector X i and the spectral outline g i .

まず、サンプリングされデイジタル化された音
声波形は一定時間区間(フレーム)毎に分割され
て(例えば10〜20ms)その区間データ毎に分析
される。各フレームのデータには窓かけ処理によ
りデータの時間位置に応じた重み(ここでは、ハ
ニング窓と呼ばれる重みの係数)がかけられる。
First, a sampled and digitized audio waveform is divided into predetermined time intervals (frames) (for example, 10 to 20 ms) and analyzed for each interval data. A weight (here, a weighting coefficient called a Hanning window) is applied to the data of each frame according to the time position of the data by windowing processing.

その後、デイジタルフーリエ変換(DFT)し
てパワースペクトルを計算し、各スペクトル成分
毎に対数化(LOG)して、対数スペクトル
(LOG SPECTRUM)を得る。このスペクトル
をバンド毎に分けて(PASSBAND WINDOW)
(ここでは、24チヤンネル)少数のスペクトル成
分に圧縮することにより、特徴ベクトルXiが得ら
れる。
Thereafter, a power spectrum is calculated by digital Fourier transform (DFT), and logarithmization (LOG) is performed for each spectral component to obtain a logarithmic spectrum (LOG SPECTRUM). Divide this spectrum into bands (PASSBAND WINDOW)
By compressing it into a small number of spectral components (here, 24 channels), a feature vector X i is obtained.

一方、対数スペクトルから逆フーリエ変換
(IDET)によつてケプストラム係数
(CEPSTRUM)を計算し、その低次の係数のみ
(ここでは5次)を用いて(WINDOW)更にデ
イジタルフーリエ変換(DFT)を行ない、対数
スペクトルの包絡スペクトルを得る。この包絡ス
ペクトルをバンド毎に分けて(PASS BAND
WINDOW)(ここでは24チヤンネル)、なだらか
な特性をもつ概形ベクトルgiを得る。
On the other hand, cepstrum coefficients (CEPSTRUM) are calculated from the logarithmic spectrum by inverse Fourier transform (IDET), and then digital Fourier transform (DFT) is performed using only the low-order coefficients (in this case, 5th order) (WINDOW). , obtain the envelope spectrum of the logarithmic spectrum. Divide this envelope spectrum into bands (PASS BAND
WINDOW) (here 24 channels), we obtain an approximate vector g i with smooth characteristics.

今ある音声カテゴリαの特徴ベクトルの時系列
(X〓1、X〓2…X〓k)ベクトル時系列(〓1、〓2

k-1)が標準パターンとして予め求められている
ものとする。この状態でこのカテゴリαに関する
パラメータA〓iの時系列を(1)式から求めることが
できる。
Time series of feature vectors of the current speech category α ( X〓 1 , X〓 2 ...

〓k -1 ) is obtained in advance as a standard pattern. In this state, the time series of the parameter A〓 i regarding this category α can be obtained from equation (1).

一方入力音声からは測定によつて特徴ベクトル
の時系列(Y1、Y2…Yk)と励振源(U1、U2
Uk-1)を求めることができ、これ等の値及びカ
テゴリαに関する(〓12…〓k-1)(A〓1 A〓
2
A〓k-1)から上記(3)、(4)、(5)及び(6)式のアルゴリ
ズムにより推定値のベクトル(X^1X^2…X^k)を求
めることができる。
On the other hand, from the input speech, the time series of feature vectors (Y 1 , Y 2 ... Y k ) and excitation sources (U 1 , U 2 ...
U k-1 ) can be found, and (〓 12 …〓 k-1 ) (A〓 1 A〓
2 ...
A vector of estimated values (X^ 1 X ^ 2 . . .

上記のようにして測定値(Y1Y2…Yk)及び
(U1U2…Uk-1)から最適推定された特徴ベクトル
の時系列(X^1X^2…X^k)が測定値(Y1Y2…Yk
の代りに用いられて、標準パターン(X〓1X〓2
X〓k)とのパターンマツチングが実行される。該
パターンマツチングによれば測定値Yiと標準パタ
ーンを直接照合する方式に比べて、入力音声のゆ
らぎが予め軽減されているためパターン間の分離
がよくなり照合動作が迅速に且つ効率的に行われ
る。
Time series of feature vectors ( X ^ 1 is the measured value (Y 1 Y 2 …Y k )
used in place of the standard pattern (X〓 1 X〓 2
Pattern matching with X〓k ) is performed. According to this pattern matching, compared to the method of directly matching the measured value Y i with the standard pattern, the fluctuation of the input audio is reduced in advance, so the separation between patterns is better, and the matching operation is faster and more efficient. It will be done.

第3図及び第4図は、上記入力音声から最適推
定された時系列スペクトルを形成するための処理
回路を示すブロツク図である。
FIGS. 3 and 4 are block diagrams showing a processing circuit for forming a time-series spectrum optimally estimated from the input speech.

同図において、M1は第1メモリで、標準パタ
ーンを格納する役目を果たし、上記ベクトル
(X〓1X〓2…X〓k)及び(〓12…〓k-1)が記
録され
ている。M2は第2メモリでマイクロフオン等の
入力部から導入された測定パターン(Y1Y2
Yk)、(U1U2…Uk-1)が格納されている。動的モ
デル(標準パターンの時間変化)のパラメータと
なる行列A〓1A〓2…A〓k-1はメモリM4に格納される
が、第3図の実施例は上記パラメータA〓iが順次
計算される場合が、第4図は予め求められた値が
メモリM4に既に格納されている場合を示す。従
つて第4図実施例においてはメモリM4には音声
の各カテゴリα、β、γ…について夫々の行列の
時系列が(カテゴリー別の変換マトリツクス
〔A〓〕、〔A〓〕、…すなわち、A〓1、A〓2、…Ai〓…

A〓1、A〓2、…A〓i…、A〓1、A〓2、…A〓i…)が
格納されていることになる。第3図実施例ではメ
モリM1に格納されている標準パターンを用いて
計算部C3において、順次行列Aiが計算され、そ
の都度メモリM4に転送されて記憶される。主計
算部C1はカルマンフイルタを含んで構成され、
第5図に示す演算回路を備え、上記アルゴリズム
(3)、(4)、(5)及び(6)式に基いた計算が実行される。
計算は時系列に従つて順次行われるが、時系列の
中の第i番目の段階で計算が実行されている状態
では、前段階で得られたPi-1、X^i-1の各値がメモ
リM3に既に格納されている。初期段階において
は、メモリM5には夫々の初期値P0、X^0が格納さ
れている。従つて上記主計算部C1においては、
各メモリM1,M2,M3及びM4に格納されている
値を用いて各段階毎に特徴ベクトルの推定ベクト
ルX^iが計算され、その値は順次メモリM4及びM5
に格納されてゆく。すなわち、メモリM5には最
終的には、最終フレームの推定ベクトルが格納さ
れる。計算部C2では求められた推定ベクトルX^i
と標準パターンの特徴ベクトルX〓i、X〓i…との距
離が計算され、メモリM6に加算されて格納され
てゆく。Dは判定部でメモリM6に標準パターン
毎に格納されている距離を比較して判定結果を出
力する。即ち入力された音声がいずれのカテゴリ
のものであるかの照合が行われる。
In the figure, M1 is the first memory, which serves to store the standard pattern , and the vectors ( X〓 1 X〓 2 ... ing. M 2 is the second memory and contains the measurement pattern (Y 1 Y 2 ...) introduced from the input section such as a microphone.
Y k ), (U 1 U 2 ...U k-1 ) are stored. The matrix A〓 1 A〓 2 ...A〓 k-1 , which is a parameter of the dynamic model (time change of standard pattern), is stored in the memory M4 , but in the embodiment shown in Fig. 3, the above parameter A〓 i is In the case where the values are calculated sequentially, FIG. 4 shows the case where the predetermined values are already stored in the memory M4 . Therefore, in the embodiment shown in FIG. 4, the memory M4 stores the time series of matrices for each of the voice categories α, β, γ, etc. (conversion matrices for each category [A〓], [A〓], . , A〓 1 , A〓 2 ,…Ai〓…
,
A〓 1 , A〓 2 , ...A〓i ..., A〓 1 , A〓 2 , ...A〓i ...) are stored. In the embodiment of FIG. 3, the matrix A i is sequentially calculated in the calculation unit C 3 using the standard pattern stored in the memory M 1 and is transferred and stored in the memory M 4 each time. The main calculation unit C1 is configured including a Kalman filter,
Equipped with the arithmetic circuit shown in Fig. 5, the above algorithm
Calculations based on equations (3), (4), (5) and (6) are performed.
Calculations are performed sequentially according to the time series, but when the calculation is performed at the i-th stage in the time series, each of P i-1 and X^ i-1 obtained in the previous stage The value is already stored in memory M3 . At the initial stage, the memory M 5 stores initial values P 0 and X^ 0 , respectively. Therefore, in the main calculation section C1 ,
An estimated vector X^ i of the feature vector is calculated at each stage using the values stored in the memories M 1 , M 2 , M 3 and M 4 , and the values are sequentially stored in the memories M 4 and M 5 .
will be stored in. That is, the estimated vector of the final frame is finally stored in the memory M5 . In calculation section C2 , the estimated vector X^ i
The distance between the standard pattern feature vectors X〓 i , X〓 i . . . is calculated, added to the memory M6 , and stored. D is a determination unit that compares the distances stored for each standard pattern in the memory M6 and outputs a determination result. That is, it is checked to see which category the input voice belongs to.

以上本発明によれば、測定された音声から音声
の動的特徴を考慮したカルマンフイルタなる評価
関数を用いて最適に推定された特徴ベクトルを得
て、該特徴ベクトルと標準パターンとのマツチン
グをとつて認識を行うため、カルマンフイルタを
使用せずに測定された音声の特徴ベクトルを得る
場合に比べ特徴ベクトルの値の揺らぎが軽減さ
れ、パターンの照合効率を高め、各音声カテゴリ
間の分離の精度を向上することができる。
As described above, according to the present invention, an optimally estimated feature vector is obtained from the measured speech using an evaluation function called a Kalman filter that takes into account the dynamic characteristics of the speech, and the feature vector is matched with a standard pattern. This reduces the fluctuation in the value of the feature vector compared to when obtaining the feature vector of the measured speech without using a Kalman filter, increases the efficiency of pattern matching, and improves the accuracy of separation between each speech category. can be improved.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明による特徴ベクトルの動的モデ
ルを示す図、第2図は本発明の動作を説明するた
めのフローチヤート、第3図及び第4図は本発明
による実施例を説明するためのブロツク図、第5
図は同ブロツク図の要部を詳細に示すブロツク図
である。 Xi:特徴ベクトル、Yi:測定された特徴ベクト
ル、M1,M2,M3,M4,M5,M6:メモリ、
C1:主計算部、C2:計算部、D:判定部。
FIG. 1 is a diagram showing a dynamic model of a feature vector according to the present invention, FIG. 2 is a flowchart for explaining the operation of the present invention, and FIGS. 3 and 4 are for explaining an embodiment according to the present invention. Block diagram, No. 5
The figure is a block diagram showing the main parts of the same block diagram in detail. X i : Feature vector, Y i : Measured feature vector, M 1 , M 2 , M 3 , M 4 , M 5 , M 6 : Memory,
C1 : Main calculation section, C2 : Calculation section, D: Judgment section.

Claims (1)

【特許請求の範囲】 1 区分されるカテゴリ毎に、音声信号から抽出
される特徴ベクトルが、所定の時系列をもつて変
化する標準パターンの時間変化として予め設定さ
れ、入力音声情報から抽出された測定値に対して
上記標準パターンの時間変化に基づいた評価関数 X^i=X〓i+PiWi -1(Yi−X〓i) X〓i=Ai-1X^i-1i-1 Pi=(Mi -1+Wi -1-1 Mi=Ai-1Pi-1Ai-1+Ui-1 (X^i;推定特徴ベクトル、Yi;測定値によるベク
トル、Ai;時間変化を記述する行列、Wi;測定
誤差の共分散行列、Ui;励振源の共分散行列、
Pi;推定誤差の共分散行列、i;Uiの平均値、
i;フレーム番号)を用いて入力音声の特徴ベク
トルを推定し、該推定された特徴ベクトルを予め
登録されている標準パターンと比較して音声信号
のパターンマツチングをとることを特徴とする音
声認識方法。
[Claims] 1. For each category, the feature vector extracted from the audio signal is set in advance as a standard pattern of time changes that changes in a predetermined time series, and is extracted from input audio information. Evaluation function based on the time change of the above standard pattern for measured values X^ i =X〓 i +P i W i -1 (Y i −X〓 i ) + i-1 P i = (M i -1 +W i -1 ) -1 M i =A i-1 P i-1 A i-1 +U i-1 (X^ i ; estimated feature vector, Y i ; Vector by measured values, A i ; Matrix describing time change, W i ; Covariance matrix of measurement error, U i ; Covariance matrix of excitation source,
P i :Covariance matrix of estimation error, i :Mean value of U i ,
i; frame number) to estimate a feature vector of input speech, and compare the estimated feature vector with a standard pattern registered in advance to perform pattern matching of the speech signal. Method.
JP3874780A 1980-03-25 1980-03-25 Voice recognition system Granted JPS56133800A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3874780A JPS56133800A (en) 1980-03-25 1980-03-25 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3874780A JPS56133800A (en) 1980-03-25 1980-03-25 Voice recognition system

Publications (2)

Publication Number Publication Date
JPS56133800A JPS56133800A (en) 1981-10-20
JPH035595B2 true JPH035595B2 (en) 1991-01-25

Family

ID=12533893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3874780A Granted JPS56133800A (en) 1980-03-25 1980-03-25 Voice recognition system

Country Status (1)

Country Link
JP (1) JPS56133800A (en)

Also Published As

Publication number Publication date
JPS56133800A (en) 1981-10-20

Similar Documents

Publication Publication Date Title
US4918735A (en) Speech recognition apparatus for recognizing the category of an input speech pattern
US4283601A (en) Preprocessing method and device for speech recognition device
US5749068A (en) Speech recognition apparatus and method in noisy circumstances
EP0077558B1 (en) Method and apparatus for speech recognition and reproduction
US5651094A (en) Acoustic category mean value calculating apparatus and adaptation apparatus
US6178399B1 (en) Time series signal recognition with signal variation proof learning
US4516215A (en) Recognition of speech or speech-like sounds
US5890113A (en) Speech adaptation system and speech recognizer
US4991216A (en) Method for speech recognition
US4426551A (en) Speech recognition method and device
US5864807A (en) Method and apparatus for training a speaker recognition system
CA1164569A (en) System for extraction of pole/zero parameter values
EP0240329A2 (en) Noise compensation in speech recognition
JP2002268698A (en) Voice recognition device, device and method for standard pattern generation, and program
JP3102195B2 (en) Voice recognition device
JPH035595B2 (en)
JP2019132948A (en) Voice conversion model learning device, voice conversion device, method, and program
Lalitha et al. An encapsulation of vital non-linear frequency features for various speech applications
JP3905620B2 (en) Voice recognition device
JPS6097400A (en) Voice recognition equipment
JPH0556520B2 (en)
JP3083855B2 (en) Voice recognition method and apparatus
JPS61215596A (en) Voice recognition
JPS60160489A (en) Framing system of standard pattern in pattern recognition
JPS58176698A (en) Pattern matching system