JP2514986B2 - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JP2514986B2
JP2514986B2 JP62252109A JP25210987A JP2514986B2 JP 2514986 B2 JP2514986 B2 JP 2514986B2 JP 62252109 A JP62252109 A JP 62252109A JP 25210987 A JP25210987 A JP 25210987A JP 2514986 B2 JP2514986 B2 JP 2514986B2
Authority
JP
Japan
Prior art keywords
dictionary
pattern
orthogonalization
axis direction
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62252109A
Other languages
Japanese (ja)
Other versions
JPH0194397A (en
Inventor
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP62252109A priority Critical patent/JP2514986B2/en
Priority to EP88116414A priority patent/EP0311022B1/en
Priority to DE3888777T priority patent/DE3888777T2/en
Priority to KR1019880013005A priority patent/KR910007530B1/en
Priority to US07/254,110 priority patent/US5001760A/en
Publication of JPH0194397A publication Critical patent/JPH0194397A/en
Priority to SG123594A priority patent/SG123594G/en
Priority claimed from SG123594A external-priority patent/SG123594G/en
Priority to HK110794A priority patent/HK110794A/en
Application granted granted Critical
Publication of JP2514986B2 publication Critical patent/JP2514986B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は少ない学習パターンで高い認識性能を得るこ
とのできる音声認識方式に関する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Field of Industrial Application) The present invention relates to a speech recognition method capable of obtaining high recognition performance with a small number of learning patterns.

(従来の技術) 音声により情報の入出力は人間にとって自然性が高
く、マン・マシン・インターフェースとして優れてお
り、従来より種々研究されている。現在、実用化されて
いる音声認識装置の殆んどは単語音声を認識する方式の
もので、一般的には第2図に示すように構成されてい
る。
(Prior Art) Input / output of information by voice is highly natural to humans and is excellent as a man-machine interface, and has been variously studied so far. Most of the voice recognition devices that have been put into practical use at present are of the type that recognizes word voices, and are generally configured as shown in FIG.

この装置は、発声入力された音声を電気信号に変換し
て取込み、バンド・パス・フィルタ等からなる音響分析
部1にて音響分析し、始端・終端検出部2にてその単語
音声区間を検出する。そして入力音声の上記単語音声区
間の音響分析データ(特徴情報;音声パターン)と、標
準パターン辞書3に予め登録されている認識対象単語の
各標準パターンとの類似度や距離等をパターン・マッチ
ング部4にて計算し、その計算結果を判定部5にて判定
して、例えば類似度値の最も高い標準パターンのカテゴ
リ名を前記入力音声に対する認識結果として求めるもの
となっている。
In this device, the voice input is converted into an electric signal, captured, and acoustically analyzed by an acoustic analysis unit 1 including a band pass filter and the like, and a start / end detection unit 2 detects the word voice section. To do. Then, the pattern matching unit calculates the similarity and distance between the acoustic analysis data (feature information; voice pattern) of the word voice section of the input voice and each standard pattern of the recognition target word registered in the standard pattern dictionary 3 in advance. 4, the determination result is determined by the determination unit 5, and for example, the category name of the standard pattern having the highest similarity value is obtained as the recognition result for the input voice.

しかしこのようにパターン・マッチング法による音声
認識では入力音声パターンと予め登録されている標準パ
ターンとの時間軸方向のずれ(パターン変形)が問題と
なる。そこで従来では、専ら線形伸縮や、動的計画法
(DP)に代表される非線形伸縮等により、上述した時間
軸方向のずれに対する課題を解消している。
However, as described above, in the voice recognition by the pattern matching method, a shift (pattern deformation) in the time axis direction between the input voice pattern and the standard pattern registered in advance becomes a problem. Therefore, in the past, the above-mentioned problem with respect to the shift in the time axis direction has been solved by linear expansion and contraction, nonlinear expansion and contraction represented by dynamic programming (DP), and the like.

一方、このようなパターン・マッチング法とは別に、
予め収集された学習パターンから直交化辞書を作成し、
この直交化辞書を用いて音声認識する方式(部分空間
法)が提唱されている。この方式は第3図にその構成例
を示すように、音響分析されて音声区間検出された音声
パターンから、標本点抽出部6にて上記音声区間を等分
割した所定点数の標本点を抽出し、(特徴ベクトルの数
×標本点数)で示される標本パターンを求める。このよ
うな標本パターンを認識対象とするカテゴリ毎に所定数
ずつ収集してパターン蓄積部7に格納する。そしてグラ
ム・シュミット(GS)直交化部8において、上記パター
ン蓄積部7に収集された所定数(3個以上)の標本パタ
ーンを用いて以下に示す手順で直交化辞書9を作成す
る。
On the other hand, apart from such a pattern matching method,
Create an orthogonalization dictionary from the learning patterns collected in advance,
A method of recognizing speech (subspace method) using this orthogonalization dictionary has been proposed. In this method, as shown in the configuration example in FIG. 3, a predetermined number of sample points obtained by equally dividing the voice section by the sample point extraction unit 6 are extracted from the voice pattern subjected to acoustic analysis and voice section detection. , (The number of feature vectors × the number of sample points) is obtained. A predetermined number of such sample patterns are collected for each category to be recognized and stored in the pattern storage unit 7. Then, the Gram-Schmidt (GS) orthogonalization unit 8 creates an orthogonalization dictionary 9 by the following procedure using a predetermined number (three or more) of sample patterns collected in the pattern storage unit 7.

即ち、上記直交化辞書9の作成は、各カテゴリ毎にそ
のカテゴリのm回目の学習パターンをamとし、3回発声
された学習パターンを用いる場合には、 1回目の学習データa1を第1軸の辞書b1とし、 b1=a1 …(1) これを直交化辞書9に登録する。
That is, the creation of the orthogonalization dictionary 9 is such that, for each category, the m-th learning pattern of the category is a m, and when the learning pattern uttered three times is used, the first learning data a 1 is A one-axis dictionary b 1 is set and b 1 = a 1 (1) This is registered in the orthogonalization dictionary 9.

2回目の学習データa2からグラム・シュミットの直
交化式を用い、 なる計算を行い、‖b2‖が一定値より大きい場合、これ
を第2軸の辞書b2として前記直交化辞書9に登録する。
但し、(・)は内積、Tは転置、‖ ‖はノルムを示
す。
Using the Gram-Schmidt orthogonalization formula from the second learning data a 2 , Then, when ‖b 2 ‖ is larger than a certain value, this is registered in the orthogonal dictionary 9 as the second axis dictionary b 2 .
However, (•) is the dot product, T is the transpose, and ‖ ‖ is the norm.

そして3回目の学習データa3から、 なる計算を行い、‖b3‖が一定値より大きい場合、これ
を第3軸の辞書b3として前記直交化辞書9に登録する。
但し、第2軸の辞書が求められていない場合には、上記
(2)式の計算を行う。
And from the third learning data a 3 , Then, when ‖b 3 ‖ is larger than a certain value, this is registered in the orthogonal dictionary 9 as the third axis dictionary b 3 .
However, when the dictionary of the second axis is not obtained, the calculation of the above formula (2) is performed.

以上の〜の処理を各カテゴリについて繰返し実行
して直交化辞書9を予め形成しておく。
The above processes (1) to (3) are repeatedly executed for each category to form the orthogonalization dictionary 9 in advance.

類似度計算部10は上述した如く作成された直交化辞書
9と、入力音声パターンXとの間で として、カテゴリiの直交化辞書bi,rとの間の類似度を
計算するもので、この類似度値に従って上記入力音声パ
ターンXが認識される。尚、上記カテゴリiの直交化辞
書bi,rは予め正規化されたものであり、Kiはカテゴリi
の辞書の個数(軸数)を示している。
The similarity calculation unit 10 is provided between the orthogonalization dictionary 9 created as described above and the input voice pattern X. , The similarity between the category i and the orthogonalization dictionary b i, r is calculated, and the input speech pattern X is recognized according to the similarity value. Note that the orthogonal dictionary b i, r of the category i is normalized in advance, and K i is the category i.
Shows the number of dictionaries (number of axes).

ところがこのようなGS直交化を用いる方式にあって
は、上述した各直交軸が担うパターン変動量が明確でな
いと云う問題がある。この為、上述した如くして計算さ
れた直交化辞書9のカテゴリiの標本パターン{ai,1
ai,2,ai,3}が、そのカテゴリiの本来の標準的なパタ
ーンを良く表現しているとは何等保障されないと云う不
具合がある。
However, in such a method using the GS orthogonalization, there is a problem in that the amount of pattern variation carried by each orthogonal axis is not clear. Therefore, the sample pattern {a i, 1 , of the category i of the orthogonalization dictionary 9 calculated as described above is obtained.
There is a problem in that it cannot be guaranteed that a i, 2 , a i, 3 } expresses the original standard pattern of the category i well.

(発明が解決しようとする問題点) このように従来のGS直交化を用いた部分空間法による
音声認識にあっては、直交化された辞書自体に、例えば
収集した学習パターンの時間軸方向や周波数軸方向の変
動に起因する問題があり、その標準パターンを良く表現
しているか否かと云う点で課題が残されている。またこ
のような問題を解消するには、相当大量の学習パターン
を収集する必要がある等の不具合がある。
(Problems to be Solved by the Invention) As described above, in the conventional speech recognition by the subspace method using GS orthogonalization, the orthogonalized dictionary itself includes, for example, the time axis direction of collected learning patterns and There is a problem caused by fluctuations in the frequency axis direction, and there remains a problem in that the standard pattern is well expressed. Further, in order to solve such a problem, there is a problem that it is necessary to collect a considerably large amount of learning patterns.

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、少ない学習パターンにてその
標準パターンを良く表現した、パターン変動に十分対処
することのできる直交化辞書を作成し、認識性能の向上
を図ることのできる音声認識方式を提供することにあ
る。
The present invention has been made in consideration of such circumstances.
The purpose is to provide a speech recognition method that can improve the recognition performance by creating an orthogonalization dictionary that can sufficiently cope with pattern fluctuations that well expresses the standard pattern with few learning patterns. To do.

[発明の構成] (問題点を解決するための手段) 本発明は入力音声を分析処理して求められる入力音声
パターンと予め収集された学習パターンに基いて作成さ
れている直交化辞書との間で類似度を計算して上記入力
音声を認識する音声認識方式において、 予め収集された学習パターンに対して少なくとも平滑
処理と微分処理とを施す3種以上のフィルタを用い、例
えば収集された学習パターンの平均パターンを求め、こ
の平均パターンを時間軸方向および周波数軸方向にそれ
ぞれ平滑化して第1軸の辞書を求め、更に上記平均パタ
ーンを時間軸方向に微分して第2軸の辞書を求めると共
に、上記平均パターンを周波数軸方向方向に微分して第
3軸の辞書を求める等して前記直交化辞書を作成し、更
に、例えばグラムシュミットの直交化等によって上記直
交化辞書に直交する付加辞書を作成し、この付加辞書を
上記直交化辞書に付加することを特徴とするものであ
る。
[Structure of the Invention] (Means for Solving Problems) The present invention relates to an input speech pattern obtained by analyzing input speech and an orthogonalization dictionary created based on learning patterns collected in advance. In the voice recognition method for recognizing the input voice by calculating the degree of similarity by using three or more types of filters that perform at least smoothing processing and differentiation processing on the learning patterns collected in advance, for example, the collected learning patterns Is obtained, the average pattern is smoothed in the time axis direction and the frequency axis direction to obtain the first axis dictionary, and the average pattern is differentiated in the time axis direction to obtain the second axis dictionary. , The average pattern is differentiated in the direction of the frequency axis to obtain the dictionary of the third axis, and the orthogonal dictionary is created, and further, for example, for Gram-Schmidt orthogonalization. What creates additional dictionary orthogonal to the orthogonalized dictionary, the additional dictionary is characterized in adding to the orthogonalization dictionary.

(作用) 3種以上のフィルタを用いて収集された学習パターン
の平均パターンを求め、この平均パターンを時間軸方向
および周波数軸方向にそれぞれ平滑化して第1軸の辞書
を求めるので音声パターンの時間軸方向の変動を、およ
び周波数軸方向の変動を効果的に吸収することができ
る。更には上記平均パターンを時間軸方向に微分して第
2軸の辞書を求めるので時間軸方向に対する音声パター
ンの位置ずれを効果的に吸収することができ、また上記
平均パターンを周波数軸方向に微分して第3軸の辞書を
求めるので周波数軸方向に対する音声パターンの位置ず
れを効果的に吸収することができる。
(Operation) The average pattern of the learning patterns collected by using three or more kinds of filters is obtained, and the average pattern is smoothed in the time axis direction and the frequency axis direction to obtain the dictionary of the first axis. Axial fluctuations and frequency axial fluctuations can be effectively absorbed. Furthermore, since the average pattern is differentiated in the time axis direction to obtain the dictionary of the second axis, it is possible to effectively absorb the positional deviation of the voice pattern with respect to the time axis direction, and the average pattern is differentiated in the frequency axis direction. Then, since the dictionary of the third axis is obtained, it is possible to effectively absorb the positional deviation of the voice pattern in the frequency axis direction.

このようにして時間軸方向および周波数軸方向に対す
るパターン変動をそれぞれ吸収した直交化辞書が作成さ
れるので、直交化辞書の各辞書パターンをその変動によ
る位置ずれに対応し得るものとすることができ、認識性
能の向上に大きく寄与する。しかも時間軸方向および周
波数軸方向のパターン変動を吸収した平均パターンから
生成される辞書パターン(第1軸)をベースとして第2
軸および第3軸の辞書を求めてその直交化辞書が生成さ
れていくので、従来のように直交化辞書自体の各直交軸
が担うパターン変動量が不明確になることがなく、少な
い学習パターンを有効に用いて性能の高い直交化辞書を
効果的に作成することが可能となる。
In this way, since the orthogonalization dictionary that absorbs the pattern fluctuations in the time axis direction and the frequency axis direction is created, each dictionary pattern of the orthogonalization dictionary can correspond to the positional deviation due to the fluctuation. , Greatly contributes to the improvement of recognition performance. Moreover, the dictionary pattern (first axis) generated from the average pattern that absorbs the pattern fluctuations in the time axis direction and the frequency axis direction is used as the second
Since the orthogonalization dictionary is generated by obtaining the dictionaries for the first axis and the third axis, the pattern variation amount that each orthogonal axis of the orthogonalization dictionary itself does not become unclear as in the conventional art, and there are few learning patterns. It becomes possible to effectively create a high-performance orthogonalization dictionary by effectively using.

更には上記直交化辞書に直交する付加辞書が作成され
て上記直交化辞書に付加されているので、この付加辞書
にて上述した時間軸方向および周波数軸方向以外のパタ
ーン変動をも効果的に吸収して認識処理を行わせること
が可能となり、その認識性能の向上に大きく寄与する。
Furthermore, since an additional dictionary that is orthogonal to the orthogonal dictionary is created and added to the orthogonal dictionary, pattern fluctuations other than the time axis direction and the frequency axis direction described above can be effectively absorbed by this additional dictionary. Then, the recognition process can be performed, which greatly contributes to the improvement of the recognition performance.

(実施例) 以下、図面を参照して本発明の一実施例につき説明す
る。
Embodiment An embodiment of the present invention will be described below with reference to the drawings.

第1図は本発明に係る一実施例方式を適用して構成さ
れる音声認識装置の概略構成図で、第3図に示した従来
装置と同一部分には同一符号を付して示してある。
FIG. 1 is a schematic configuration diagram of a speech recognition apparatus configured by applying an embodiment system according to the present invention. The same parts as those of the conventional apparatus shown in FIG. 3 are designated by the same reference numerals. .

この実施例装置が特徴とするところは、パターン蓄積
部7に蓄積された学習パターンを用いて直交化辞書9を
作成する手段として、従来のGS直交化部8に代えて少な
くとも平滑処理と微分処理とを実行する3種以上のフィ
ルタ、例えば直交化時間・周波数フィルタからなる直交
化時間・周波数フィルタ部11を用いた点にある。そして
更には、例えば上記GS直交化部8を用いて、上記直交化
時間・周波数フィルタ部11にて作成された直交化辞書に
直交する辞書を付加辞書として作成し、この付加辞書を
上記直交化辞書9に付加するようにしたことを特徴とし
ている。
The device of this embodiment is characterized in that, as a means for creating the orthogonalization dictionary 9 using the learning patterns accumulated in the pattern accumulating unit 7, at least the smoothing process and the differential process are performed in place of the conventional GS orthogonalizing unit 8. The point is that three or more types of filters for executing the above are used, for example, the orthogonalization time / frequency filter unit 11 including the orthogonalization time / frequency filter. Further, for example, by using the GS orthogonalization unit 8, a dictionary orthogonal to the orthogonalization dictionary created by the orthogonalization time / frequency filter unit 11 is created as an additional dictionary, and the additional dictionary is created by the orthogonalization. The feature is that it is added to the dictionary 9.

尚、ここではパターン蓄積部7に収集される学習パタ
ーンとしては、例えばj(=1,2,〜16)で示される16点
の音響分析された特徴ベクトルからなり、その音声区間
をk(=0,1,2,〜17)として17等分する18個の標本点に
亙って採取したデータ系列として与えられるものとして
説明する。
Here, the learning pattern collected in the pattern accumulating unit 7 is composed of, for example, 16 acoustically analyzed feature vectors indicated by j (= 1, 2, 16), and its speech section is k (= (0, 1, 2, ... 17) is given as a data series collected over 18 sample points that are equally divided into 17 parts.

しかして前記直交化時間・周波数フィルタ部11は、カ
テゴリiについて、例えば3個ずつ収集されたm番目の
学習パターンをam(j,k)としたとき、次のようにして直
交化辞書9を作成している。
Then, the orthogonalization time / frequency filter unit 11 makes the orthogonalization dictionary 9 as follows when the m-th learning pattern collected for each category i is set to a m (j, k) for the category i. Are being created.

先ず、カテゴリiの学習パターンam(j,k)から、そ
の平均パターンA(j,k)として求める。
First, the average pattern A (j, k) is calculated from the learning pattern a m (j, k) of category i. Ask as.

しかる後、上述した如くして求めた平均パターンA
(j,k)を用いて、 b1(j,k) =A(j-1,k-1)+A(j-1,k)+A(j-1,k+1) +A(j,k-1)+2*A(j,k)+A(j,k+1) +A(j+1,k-1)+A(j+1,k)+A(j+1,k+1) [j=1,2,〜14,k=1,2,〜16] …(6) なる演算にて第1軸の辞書b1(j,k)を求め、これを直交
化辞書9に登録する。この辞書b1(j,k)は前記平均パタ
ーンA(j,k)を時間軸方向および周波数軸方向にそれぞれ
平滑化したものとして求められ、直交化辞書9の基準と
なる第1軸の辞書データとして登録される。
After that, the average pattern A obtained as described above
Using (j, k) , b 1 (j, k) = A (j-1, k-1) + A (j-1, k) + A (j-1, k + 1) + A (j, k) -1) + 2 * A (j, k) + A (j, k + 1) + A (j + 1, k-1) + A (j + 1, k) + A (j + 1, k + 1) [j = 1,2, to 14, k = 1,2, to 16] (6) The first axis dictionary b 1 (j, k) is obtained by the following operation, and this is registered in the orthogonalization dictionary 9. The dictionary b 1 (j, k) is obtained by smoothing the average pattern A (j, k) in the time axis direction and the frequency axis direction, and the dictionary of the first axis which is the reference of the orthogonalization dictionary 9 is obtained. Registered as data.

しかる後、前記平均パターンA(j,k)を用い、 b2(j,k)=-A(j-1,k-1)+A(j-1,k+1) +{−A(j,k-1)+A(j,k+1)} +{−A(j+1,k-1)+A(j+1,k+1)} [j=1,2,〜14,k=1,2,〜16] …(7) なる演算にて第2軸の辞書b2(j,k)を求め、これを正規
化した後、前記直交化辞書9に登録する。この辞書b
2(j,k)は前記平均パターンA(j,k)を時間軸方向に微分し
たものとして求められる。
Then, using the average pattern A (j, k) , b 2 (j, k) = -A (j-1, k-1) + A (j-1, k + 1) + {-A (j , k-1) + A (j, k + 1) } + {-A (j + 1, k-1) + A (j + 1, k + 1) } [j = 1,2, to 14, k = 1, 2 to 16] (7) The second axis dictionary b 2 (j, k) is obtained by the following operation, and this is normalized and then registered in the orthogonal dictionary 9. This dictionary b
2 (j, k) is obtained by differentiating the average pattern A (j, k) in the time axis direction.

尚、このようにして計算される第2軸の辞書b2(j,k)
は、前記第1軸の辞書b1(j,k)に対して完全には直交し
ていないことから、必要に応じて B2(j,k)=b2(j,k) −(b2(j,k)・b1(j,k))b1(j,k) なる再直交化処理を施し、この再直交化された辞書デー
タB2(j,k)を正規化した後、新たな第2軸の辞書b2(j,k)
として前記直交化辞書9に登録するようにしても良い。
しかし、このような再直交化を行わなくても、上述した
如く求められる第2軸の辞書b2(j,k)にて十分なる認識
性能を得ることが可能である。
The second axis dictionary b 2 (j, k) calculated in this way
Is not completely orthogonal to the dictionary b 1 (j, k) of the first axis, B 2 (j, k) = b 2 (j, k) − (b 2 (j, k)・ b 1 (j, k) ) b 1 (j, k) is re-orthogonalized, and the re-orthogonalized dictionary data B 2 (j, k) is normalized. , The new second axis dictionary b 2 (j, k)
Alternatively, it may be registered in the orthogonal dictionary 9.
However, even if such re-orthogonalization is not performed, it is possible to obtain sufficient recognition performance with the second axis dictionary b 2 (j, k) obtained as described above.

また前記平均パターンA(j,k)を用い、 b3(j,k)=−A(j-1,k-1)−A(j-1,k) −A(j-1,k+1)+A(j+1,k-1) +A(j+1,k)+A(j+1,k+1) [j=1,2,〜14,k=1,2,〜16] …(8) なる演算にて第3軸の辞書b3(j,k)を求め、これを正規
化した後、前記直交化辞書9に登録する。この辞書b
3(j,k)は前記平均パターンA(j,k)を周波数軸方向に微分
したものとして求められる。
Further, using the average pattern A (j, k) , b 3 (j, k) = -A (j-1, k-1) -A (j-1, k) -A (j-1, k + 1) + A (j + 1, k-1) + A (j + 1, k) + A (j + 1, k + 1) [j = 1,2, ~ 14, k = 1,2, ~ 16] ... (8) The third axis dictionary b 3 (j, k) is obtained by the following operation, and this is normalized and then registered in the orthogonal dictionary 9. This dictionary b
3 (j, k) is obtained by differentiating the average pattern A (j, k) in the frequency axis direction.

以上の〜の処理を各カテゴリ毎に繰返し実行する
ことによって前記直交化辞書9が作成される。
The orthogonalization dictionary 9 is created by repeatedly performing the above-described processes (1) to (5) for each category.

尚、上述した説明では直交辞書9として3軸までを求
める例について示したが、更に2次微分を行う等して4
軸以降の辞書を作成するようにしても良い。この場合に
は、学習パターンとして前述した18点ではなく、例えば
20点以上の標本点を抽出したものを用いるようにすれば
良い。
In the above description, an example in which up to three axes are obtained as the orthogonal dictionary 9 has been shown, but it is possible to obtain a 4th order by further performing a second derivative.
You may make it create the dictionary after an axis. In this case, instead of the 18 points described above as the learning pattern, for example,
It suffices to use a sampled point of 20 points or more.

一方、GS直交化部8は前記パターン蓄積部7に収集さ
れた学習パターンから、上記直交辞書に直交する付加辞
書を次のようにして作成している。即ち、GS直交化部8
は、パターン蓄積部7に収集された学習パターンa
m(j,k)について、既に求められている直交化辞書の軸数
をPとしたとき、 なるグラムシュミットの直交化式を演算している。そし
て上記‖bP+m‖が所定値よりも大きい場合、これを付加
辞書として前記直交化辞書9に登録している。この付加
辞書の作成は、パターン蓄積部7に格納された学習パタ
ーンam(j,k)について順に行われる。
On the other hand, the GS orthogonalization unit 8 creates an additional dictionary orthogonal to the orthogonal dictionary from the learning patterns collected in the pattern storage unit 7 as follows. That is, the GS orthogonalization unit 8
Is the learning pattern a collected in the pattern storage unit 7.
For m (j, k), where P is the number of axes of the orthogonalization dictionary already obtained, The Gram-Schmidt orthogonalization formula is calculated. When the above-mentioned ‖b P + m‖ is larger than a predetermined value, this is registered in the orthogonal dictionary 9 as an additional dictionary. The additional dictionary is created in order for the learning patterns a m (j, k) stored in the pattern storage unit 7.

このようにして直交化時間・周波数フィルタによる平
滑・微分により作成された直交化辞書、およびこの直交
化辞書をベースとしてグラムシュミットの直交化により
求められた付加辞書とからなる直交化辞書セットを作成
して入力音声パターンを認識処理する本装置によれば、
その直交化辞書9が音声パターンの時間軸方向および周
波数軸方向への変動を吸収したものとなっており、更に
はその他のパターン変動をも吸収したものとなっている
ので、入力音声パターンの時間軸方向および周波数軸方
向の変動に左右されることなく音声認識することが可能
となり、その認識性能を高めることが可能となる。また
直交化時間・周波数フィルタを用いて直交化辞書9を作
成している、少ない学習パターンにて性能の高い直交化
辞書を効率的に構築することが可能となり、実用的効果
が多大である。
In this way, an orthogonalization dictionary set consisting of the orthogonalization dictionary created by smoothing / differentiation by the orthogonalization time / frequency filter and the additional dictionary obtained by the orthogonalization of Gram-Schmidt based on this orthogonalization dictionary is created. According to the present device which recognizes and processes the input voice pattern,
Since the orthogonalization dictionary 9 absorbs the fluctuations of the voice pattern in the time axis direction and the frequency axis direction, and also absorbs other pattern fluctuations, the time of the input voice pattern is changed. It becomes possible to recognize the voice without being influenced by the fluctuations in the axial direction and the frequency axis direction, and the recognition performance can be improved. Further, it becomes possible to efficiently construct a high-performance orthogonal dictionary with a small number of learning patterns, which creates the orthogonal dictionary 9 using the orthogonal time / frequency filter, and the practical effect is great.

このように時間軸方向および周波数軸方向の位置ずれ
を補償する微分フィルタと、2次元パターンの変動を吸
収する直交化フィルタとを用いて直交化辞書を作成して
音声認識を行う本方式によれば、少ない学習パターンに
よって高い認識性能が得られることがわかる。しかも付
加辞書によって上述したパターン変動以外のパターン変
動をも効果的に吸収して音声認識することができる。故
に、本方式は音声認識性能の向上を図る上で多大な効果
を奏すると云える。
As described above, according to the present method, an orthogonalization dictionary is created by using a differential filter that compensates for positional deviations in the time axis direction and the frequency axis direction and an orthogonalization filter that absorbs fluctuations in a two-dimensional pattern, and speech recognition is performed. For example, it can be seen that high recognition performance can be obtained with few learning patterns. In addition, the additional dictionary can effectively absorb pattern variations other than the above-described pattern variations and perform voice recognition. Therefore, it can be said that this method has a great effect on improving the voice recognition performance.

尚、本発明は上述した実施例に限定されるものではな
い。ここでは3軸の直交化辞書を作成する例について説
明したが、更に多くの軸数の直交化辞書を作成すること
も可能である。この場合、直交化時間・周波数フィルタ
の係数としては幾つかのバリエーションが考えられる
が、要は学習パターンを時間軸方向および周波数軸方向
に平滑,1次微分,2次微分,…すれば良いものであり、種
々変形して実施することができる。更には上記直交化辞
書に付加する付加辞書の数(軸数)も特に制限されるも
のではない。また辞書の作成に供される学習パターンの
次元数等も特に限定されるものでもない。更にはグラム
シュミットの直交化以外の直交化法を用いて付加辞書を
作成することも可能である。その他、本発明はその要旨
を逸脱しない範囲で変形して実施可能である。
The present invention is not limited to the above embodiment. Here, an example of creating a three-axis orthogonalization dictionary has been described, but it is also possible to create an orthogonalization dictionary with a larger number of axes. In this case, some variations can be considered as the coefficient of the orthogonalization time / frequency filter, but the point is to smooth the learning pattern in the time axis direction and the frequency axis direction, first derivative, second derivative, ... Therefore, various modifications can be implemented. Furthermore, the number of additional dictionaries (the number of axes) added to the orthogonalization dictionary is not particularly limited. Also, the number of dimensions of the learning pattern used for creating the dictionary is not particularly limited. Furthermore, it is also possible to create the additional dictionary by using an orthogonalization method other than the Gram-Schmidt orthogonalization. In addition, the present invention can be modified and implemented without departing from the scope of the invention.

[発明の効果] 以上説明したように本発明によれば3種以上のフィル
タを用いて時間軸方向のパターン変動および周波数軸方
向のパターン変動を吸収した直交化辞書を作成し、更に
この直交化辞書に直交する付加辞書を作成するので、少
ない学習パターンでそのパターンの変動を効果的に表現
した辞書を得ることができ、その認識性能の向上を図り
得る等の実用上多大なる効果を奏する。
[Effect of the Invention] As described above, according to the present invention, an orthogonalization dictionary that absorbs pattern variations in the time axis direction and pattern variations in the frequency axis direction is created using three or more types of filters, and the orthogonalization dictionary is further created. Since the additional dictionary that is orthogonal to the dictionary is created, it is possible to obtain a dictionary that effectively expresses the variation of the pattern with a small number of learning patterns, and it is possible to achieve a great practical effect such that the recognition performance can be improved.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例方式を適用して構成される音
声認識装置の概略構成図、第2図および第3図はそれぞ
れ従来の音声認識装置の概略構成を示す図である。 1…音響分析部、2…始端・終端検出部、5…判定部、
6…標本点抽出部、7…パターン蓄積部、8…GS直交化
部、9…直交化辞書、10…類似度演算部、11…直交化時
間・周波数フィルタ。
FIG. 1 is a schematic configuration diagram of a voice recognition device configured by applying an embodiment system of the present invention, and FIGS. 2 and 3 are diagrams showing a schematic configuration of a conventional voice recognition device, respectively. 1 ... Acoustic analysis unit, 2 ... Start / end detection unit, 5 ... Judgment unit,
6 ... Sample point extracting unit, 7 ... Pattern accumulating unit, 8 ... GS orthogonalizing unit, 9 ... Orthogonalizing dictionary, 10 ... Similarity calculating unit, 11 ... Orthogonalizing time / frequency filter.

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力音声を分析処理して求められる入力音
声パターンと予め収集された学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識方式において、 予め収集された学習パターンに対して少なくとも時間軸
方向および周波数軸方向への平滑処理と微分処理とを施
す3種以上のフィルタを用いて上記直交化辞書を作成す
る手段と、 上記直交化辞書と直交する付加辞書を作成する手段とを
具備したことを特徴とする音声認識方式。
1. The input voice pattern is recognized by analyzing the input voice pattern obtained by analyzing the input voice and a degree of similarity between an orthogonalization dictionary created based on a learning pattern collected in advance. In the voice recognition method, means for creating the orthogonalization dictionary by using three or more types of filters that perform smoothing processing and differentiation processing in at least the time axis direction and the frequency axis direction on the learning patterns collected in advance, A speech recognition method, comprising: means for creating an additional dictionary orthogonal to the orthogonalization dictionary.
【請求項2】上記フィルタは、収集された学習パターン
の平均パターンを求め、この平均パターンを時間軸方向
および周波数軸方向に平滑化して第1軸の辞書を求める
手段と、 上記平均パターンを時間軸方向に微分して第2軸の辞書
を求める手段と、 上記平均パターンを周波数軸方向に微分して第3軸の辞
書を求める手段とを備えたものである特許請求の範囲第
1項記載の音声認識方式。
2. The filter obtains an average pattern of the collected learning patterns, and smoothes the average pattern in the time axis direction and the frequency axis direction to obtain a dictionary of the first axis, and the average pattern is obtained as a function of time. The method according to claim 1, further comprising means for differentiating in the axial direction to obtain a dictionary for the second axis, and means for differentiating the average pattern in the frequency axis direction to obtain a dictionary for the third axis. Voice recognition method.
【請求項3】上記付加辞書を作成する手段は、グラムシ
ュミットの直交化により上記直交化辞書に直交する付加
辞書を作成するものである特許請求の範囲第1項記載の
音声認識方式。
3. The speech recognition system according to claim 1, wherein the means for creating the additional dictionary creates an additional dictionary that is orthogonal to the orthogonal dictionary by orthogonalizing Gram-Schmidt.
JP62252109A 1987-10-06 1987-10-06 Voice recognition system Expired - Lifetime JP2514986B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP62252109A JP2514986B2 (en) 1987-10-06 1987-10-06 Voice recognition system
DE3888777T DE3888777T2 (en) 1987-10-06 1988-10-04 Method and device for speech recognition.
EP88116414A EP0311022B1 (en) 1987-10-06 1988-10-04 Speech recognition apparatus and method thereof
US07/254,110 US5001760A (en) 1987-10-06 1988-10-06 Speech recognition apparatus and method utilizing an orthogonalized dictionary
KR1019880013005A KR910007530B1 (en) 1987-10-06 1988-10-06 Voice recognition device and there method
SG123594A SG123594G (en) 1987-10-06 1994-08-25 Speech recognition apparatus and method thereof
HK110794A HK110794A (en) 1987-10-06 1994-10-12 Speech recognition apparatus and method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP62252109A JP2514986B2 (en) 1987-10-06 1987-10-06 Voice recognition system
SG123594A SG123594G (en) 1987-10-06 1994-08-25 Speech recognition apparatus and method thereof

Publications (2)

Publication Number Publication Date
JPH0194397A JPH0194397A (en) 1989-04-13
JP2514986B2 true JP2514986B2 (en) 1996-07-10

Family

ID=26540555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62252109A Expired - Lifetime JP2514986B2 (en) 1987-10-06 1987-10-06 Voice recognition system

Country Status (1)

Country Link
JP (1) JP2514986B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3015477B2 (en) 1991-02-20 2000-03-06 株式会社東芝 Voice recognition method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3015477B2 (en) 1991-02-20 2000-03-06 株式会社東芝 Voice recognition method

Also Published As

Publication number Publication date
JPH0194397A (en) 1989-04-13

Similar Documents

Publication Publication Date Title
Rabiner et al. Some performance benchmarks for isolated work speech recognition systems
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
JP2514986B2 (en) Voice recognition system
JP2514984B2 (en) Voice recognition system
JP2514985B2 (en) Voice recognition system
JP2514983B2 (en) Voice recognition system
Goyal et al. Issues and challenges of voice recognition in pervasive environment
JPH0225898A (en) Voice recognizing device
Na et al. Penetration feature extraction and modeling of arc sound signal in GTAW based on wavelet analysis and hidden Markov model
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
Semary et al. Using Voice Technologies to Support Disabled People
Asakawa et al. Automatic recognition of connected vowels only using speaker-invariant representation of speech dynamics
JP2856429B2 (en) Voice recognition method
CN106373562A (en) Robot voice recognition method based on natural language processing
Abed et al. Design and implementation of wireless voice controlled mobile robot
JP2502880B2 (en) Speech recognition method
EP0311022B1 (en) Speech recognition apparatus and method thereof
KR910007530B1 (en) Voice recognition device and there method
JP3283971B2 (en) Voice recognition method
Aggarwal Analysis of various features using different temporal derivatives from speech signals
JP2710045B2 (en) Voice recognition method
JPH01277297A (en) Sound recognizing device
JPS60121499A (en) Voice collation system
Velasco-Hernandez et al. Voice control for a gripper using mel-frequency cepstral coefficients and gaussian mixture models
CN114242042A (en) Intelligent voice recognition method and device based on classification identification and related equipment