JPS6273298A - Voice recognition system - Google Patents

Voice recognition system

Info

Publication number
JPS6273298A
JPS6273298A JP60213417A JP21341785A JPS6273298A JP S6273298 A JPS6273298 A JP S6273298A JP 60213417 A JP60213417 A JP 60213417A JP 21341785 A JP21341785 A JP 21341785A JP S6273298 A JPS6273298 A JP S6273298A
Authority
JP
Japan
Prior art keywords
pattern
speech
input
audio
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60213417A
Other languages
Japanese (ja)
Inventor
森戸 誠
田部井 幸雄
山田 興三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60213417A priority Critical patent/JPS6273298A/en
Priority to US06/909,957 priority patent/US4852181A/en
Priority to DE8686113175T priority patent/DE3683343D1/en
Priority to EP86113175A priority patent/EP0219712B1/en
Publication of JPS6273298A publication Critical patent/JPS6273298A/en
Priority to US07/295,194 priority patent/US4918735A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は認識精度の良い音声認識方式に関する。[Detailed description of the invention] (Industrial application field) The present invention relates to a speech recognition method with high recognition accuracy.

(従来の技術) 従来より、情報及び通信機器の入力の効率化、システム
機能の向上等を図る目的のため、音声認識に関しての研
究開発が進められている。この音声認識を行う一般的な
方法にパタンマツチング法がある。
(Prior Art) Research and development regarding speech recognition has been progressing for the purpose of increasing the efficiency of inputting information and communication equipment and improving system functions. A common method for performing this speech recognition is the pattern matching method.

先ず、この発明の説明に先立ち、第7図を参照して従来
のパタンマツチング法につき説明する。
First, prior to explaining the present invention, a conventional pattern matching method will be explained with reference to FIG.

第7図において、lOは音声入力端子、11は音声分析
部、12は区間検出部、13は入力メモリ部、14は比
較パタンメモリ部、15は類似度計算部、16は判定部
、17は出力端子である。
In FIG. 7, lO is a voice input terminal, 11 is a voice analysis section, 12 is a section detection section, 13 is an input memory section, 14 is a comparison pattern memory section, 15 is a similarity calculation section, 16 is a judgment section, and 17 is a It is an output terminal.

この従来の認識方式においては、音声入力端子IOに入
力した入力音声を音声分析部!■において特徴を表わす
ベクトルの時系列パタン(以下、音声パタンと称する)
に変換する。この音声パタンは、一般に、中心周波数の
異る2個のバンドパスフィルタ群によって抽出された帯
域内周波数成分を時間間隔To(例えば8ミリ秒)毎に
標本化(以下、サンプリングと称する)することによっ
て得ている。一方、この音戸分析部11において。
In this conventional recognition method, the input voice input to the voice input terminal IO is input to the voice analysis unit! Time-series pattern of vectors representing characteristics in ■ (hereinafter referred to as audio pattern)
Convert to This audio pattern is generally created by sampling (hereinafter referred to as sampling) in-band frequency components extracted by two band-pass filter groups with different center frequencies at time intervals To (for example, 8 milliseconds). obtained by. On the other hand, in this Ondo analysis section 11.

音声パタンに対応する時間点における音声パワーを算出
する。この音声分析部11において算出された音声パタ
ンを入力メモリ部13に逐次格納すると共に、音声パワ
ーを区間検出部12へ出力する。
Calculate the audio power at a time point corresponding to the audio pattern. The voice patterns calculated in the voice analysis section 11 are sequentially stored in the input memory section 13, and the voice power is outputted to the section detection section 12.

区間検出部12では、音声分析部11からの音声パワー
に基づき、音声区間すなわちに声の始端及び終端を決定
する。この音声パワーによる音声の始端及び終端の決定
アルゴリズムについては、特願昭59−108668号
に開示されているような複雑なアルゴリズム、音声パワ
ーが閾値以上となった時点を音声の始端、閾値未満とな
った時点を音声の終端と考える簡易なアルゴリズムその
他のアルゴリズム等があり、いずれかの適切なアルゴリ
ズムで区間検出を行っている。この区間検出部12で決
定された始端及び終端間の音声パタンを入力メモリ部か
ら読出して類似度計算部15へ送る。一方、この類似度
計算部15には比較パタンメモリ14から比較パタンを
別途入力させている。この比較パタンは認識対象となる
単語(以後カテゴリと称する)に対し音声パタンと同一
な音声分析処理を施したベクトルの時系列パタンであり
、予め比較パタンメモリ部14に格納しておく。
The section detecting section 12 determines a voice section, that is, the start and end of the voice, based on the voice power from the voice analysis section 11. The algorithm for determining the start and end of the voice based on the voice power is a complex algorithm as disclosed in Japanese Patent Application No. 108668/1982, and the time when the voice power exceeds the threshold is determined as the start and end of the voice. There are simple algorithms and other algorithms that consider the point at which the sound ends as the end of the voice, and any suitable algorithm is used to detect the section. The audio pattern between the start and end points determined by the section detection section 12 is read out from the input memory section and sent to the similarity calculation section 15. On the other hand, a comparison pattern is separately inputted to the similarity calculation unit 15 from the comparison pattern memory 14. This comparison pattern is a time-series pattern of vectors obtained by subjecting words to be recognized (hereinafter referred to as categories) to the same speech analysis process as speech patterns, and is stored in the comparison pattern memory section 14 in advance.

この格納に当り、比較パタンを作成するが、その作成は
認識目的によって異る。例えば、話者を限定した認識方
式の場合には、限定された話者が発声した音声を周波数
分析部11を用いて又はこれと同等な音声分析処理を施
して得られた音声パタンを比較パタンとして比較パタン
メモリ部】4に格納する。
For this storage, a comparison pattern is created, but the creation method differs depending on the purpose of recognition. For example, in the case of a recognition method that limits speakers, the comparison pattern is a voice pattern obtained by using the frequency analysis unit 11 or an equivalent voice analysis process on the voice uttered by the limited speakers. 4 in the comparison pattern memory section]4.

類似度計算部15では、音声パタンと比較パタンとの間
の類似度計算を行う。この類似度計算には、例えば特公
昭50−23941号に開示されているいわゆるDPマ
ツチングと呼ばれている方法、すなわち発声速度の変動
等による時間軸方向の歪を最適化する方法又はその他の
適切な方法を用いている。
The similarity calculation unit 15 calculates the similarity between the speech pattern and the comparison pattern. This similarity calculation may be carried out using, for example, a method called DP matching disclosed in Japanese Patent Publication No. 50-23941, a method that optimizes distortion in the time axis direction due to fluctuations in speech rate, or other suitable methods. A method is used.

この類似度計算部15から出力されるカテゴリ毎の類似
度を用いて、判定部16では、その最大類似度をケーえ
る比較パタンに与えられたカテゴリ名を認識結果として
出力する。
Using the similarity for each category outputted from the similarity calculating section 15, the determining section 16 outputs the category name given to the comparison pattern that can achieve the maximum similarity as a recognition result.

以上が従来のパタンマツチング法による音声認識方式の
概略である。
The above is an outline of the conventional speech recognition method using the pattern matching method.

(発明が解決しようとする問題点) 上述した従来の認識方式は、音声のスペクトルの形状を
与える音声パタンと、予め同一分析処理によって算出さ
れた比較パタンとの相違を類似度という尺度から評価し
、最大の類似度を与える比較パタンのカテゴリ名を認識
結果とする方法であった。従って、音声パタンのカテゴ
リと比較パタンのカテゴリとが同じ場合はその類似度は
大きく、異なる場合にはその類似度は小さくなるもので
あった。
(Problems to be Solved by the Invention) The conventional recognition method described above evaluates the difference between a speech pattern that gives the shape of the speech spectrum and a comparison pattern calculated in advance by the same analysis process using a measure of similarity. , the recognition result was the category name of the comparison pattern that gave the greatest degree of similarity. Therefore, when the voice pattern category and the comparison pattern category are the same, the degree of similarity is large, and when they are different, the degree of similarity is small.

しかしながら、音声のスペクトルの形状が音声以外の要
因例えば外部の雑音により歪んだ場合にはたとえ同一カ
テゴリといえどもその両者の類似度が大きくなるとはい
えなくなる。
However, if the shape of the speech spectrum is distorted by factors other than speech, such as external noise, the degree of similarity between the two cannot be said to be large, even if they are in the same category.

また、従来の認識方式では、演算処理に時間が掛り、し
かも、大きな記憶容量を必要とするので、これを実施す
る装置の構造が大型となるという問題点があった。
Further, in the conventional recognition method, the calculation process takes time and requires a large storage capacity, so there is a problem that the structure of the device implementing this method becomes large.

この発明の目的はこのような従来の問題点に鑑み、雑音
環境下でも認識精度の良い音声認識方式を提供すること
にある。
SUMMARY OF THE INVENTION In view of these conventional problems, it is an object of the present invention to provide a speech recognition method with good recognition accuracy even in a noisy environment.

この発明の他の目的は、装置として構成する場合、構造
が簡単かつ小型となるように、演算処理速度が速く、し
かも、記憶容量が小さくて済む音声認識方式を提供する
ことにある。
Another object of the present invention is to provide a speech recognition system which, when configured as a device, has a simple and compact structure, has a high calculation processing speed, and requires a small storage capacity.

(問題点を解決するための手段) 上述した目的の達成を図るため、この発明の音声認識方
式においては次のような手段を採る。
(Means for Solving the Problems) In order to achieve the above-mentioned object, the speech recognition system of the present invention takes the following measures.

(a)先ず、入力音声の周波数成分を複数のバンドパス
フィルタによって抽出し、その出力を一定時間間隔To
(音声フレームと称する)で標本化して特徴ベクトルを
算出する。
(a) First, the frequency components of the input audio are extracted by multiple bandpass filters, and the output is
(referred to as audio frames) and calculates a feature vector.

(b)また、予め雑音のみと分っている所定の雑音区間
における特徴ベクトルを時間平均して得られる雑音パタ
ンを算出する。
(b) Also, calculate a noise pattern obtained by time-averaging feature vectors in a predetermined noise section that is known in advance to be only noise.

(C)この雑音パタン抽出以後は特徴ベクトルから雑音
パタンを減じて音声特徴ベクトルを算出する。
(C) After this noise pattern extraction, a speech feature vector is calculated by subtracting the noise pattern from the feature vector.

(d)音声フレーム毎に前述の音声特徴ベクトルから最
小二乗近似直線を算出し、この最小二乗近似直線をス(
準にして周波数軸方向で極大となるチャネルに対応する
成分を1にして得られるローカルピークベクトルを算出
する。
(d) Calculate the least squares approximation straight line from the above audio feature vector for each audio frame, and convert this least squares approximation straight line (
A local peak vector is calculated by setting the component corresponding to the maximum channel in the frequency axis direction to 1.

(e)この音声特徴ベクトルから当該音声フレームにお
けるフレーム電力を算出し、このフレーム電力の始端と
終端とを算出する。
(e) Calculate the frame power in the audio frame from this audio feature vector, and calculate the start and end of this frame power.

(f)一方、認識対象語の音声毎に対し、入力音声に対
して行われる前述の(a)〜(e)項の各処理に対応す
る処理を行って比較パタンを作成する(登録処理と称す
る)。
(f) On the other hand, for each voice of the recognition target word, a comparison pattern is created by performing processes corresponding to each of the above-mentioned processes (a) to (e) performed on the input voice (registration process and ).

(g)認識処理後に発声した音声に対して前述の(a)
〜(e)項までの処理によって求められた入力パタンと
比較パタンとの間で非線型なマツチング処理を行って比
較パタンと入力パタンとのパタン類似度を算出する。
(g) The above (a) for the voice uttered after recognition processing.
A non-linear matching process is performed between the input pattern obtained through the processes up to (e) and the comparison pattern to calculate the degree of pattern similarity between the comparison pattern and the input pattern.

(h)この比較パタン毎に算出されるパタン類似度の中
で最大の類似度を与える比較パタンに付加されたカテゴ
リ名を認識結果とする処理を行う。
(h) A process is performed in which the category name added to the comparison pattern that provides the maximum similarity among the pattern similarities calculated for each comparison pattern is used as a recognition result.

以上のようにして、入力音声を認識した結果が得られる
In the manner described above, the result of recognizing input speech is obtained.

上述した(a) 、 (b) 、 (C)項の処理は高
雑音化における入力に対して音声のみを抽出するための
処理であり、かつ、高雑音fにおいて困難とされている
(e)項の音声区間検出処理を容易ならしめる処理であ
る。
The above-mentioned processes (a), (b), and (C) are processes for extracting only speech from an input with high noise, and are considered difficult at high noise f (e) This is a process that facilitates the process of detecting the voice section of a term.

また、(d)項によって算出したローカルピークベクト
ルを(g)項、(h)項の類似度算出に用いることによ
り、高雑音環境下における認識性能を向上させている。
Furthermore, recognition performance in a high noise environment is improved by using the local peak vector calculated in section (d) to calculate the similarity between sections (g) and (h).

それは、従来のようなスペクトルの形状を与えるベクト
ルを類似度算出に用いずに、音声スペクトルのピークを
与える位置によって算出されるローカルピークベクトル
を類似度算出に用いているからである。従って、雑音が
混入した場合、スペクトルの形状は大きく変わるがスペ
クトルのピークの位置は変わらないことに基づいている
This is because a local peak vector calculated based on a position giving a peak of the audio spectrum is used for similarity calculation, instead of using a vector giving the shape of the spectrum as in the conventional method. Therefore, it is based on the fact that when noise is mixed, the shape of the spectrum changes significantly, but the position of the peak of the spectrum does not change.

(作用) 次に、この発明の作用につき説明する。(effect) Next, the operation of this invention will be explained.

この発明の音声認識方式を達成するための機能は第1図
に示す各処理部によって構成される。
The functions for achieving the speech recognition method of the present invention are constituted by each processing section shown in FIG.

以下、その詳細な処理につき説明する。The detailed processing will be explained below.

音声はマイクロフォンを通じて電気信号に変換し、増幅
器(図示せず)、ローパスフィルタ(図示せず)を経て
A/D変換器(図示せず)に送り、そこで例えば83マ
イクロ秒毎に標本化(サンプリング)した後、入力端子
21に入力させる。
The sound is converted into an electrical signal through a microphone, passed through an amplifier (not shown), a low-pass filter (not shown), and sent to an A/D converter (not shown), where it is sampled every 83 microseconds. ), then input to the input terminal 21.

以下、前述の各項につき説明する。Each of the above-mentioned items will be explained below.

[(a)項の特徴ベクトル算出処理] 入力端子21に入力した音声のデータの周波数分析を特
徴ベクトル算出部22によって行い、音声フレーム時系
列の特徴ベクトルに変換する。
[Feature vector calculation process in section (a)] Frequency analysis of audio data input to the input terminal 21 is performed by the feature vector calculation unit 22, and the data is converted into audio frame time series feature vectors.

この特徴ベクトル算出部22には、周波数分析のための
、第2図に示すような夫々中心周波数が異なる特性を個
々に有する複数のバンドパスフィルタと、ローパスフィ
ルタと、音声フレーム毎にサンプリングを行うサンプリ
ング手段(それぞれ図に示していない)とを具えている
The feature vector calculation unit 22 includes a plurality of band-pass filters each having characteristics with different center frequencies as shown in FIG. 2 for frequency analysis, a low-pass filter, and sampling for each audio frame. sampling means (each not shown in the figure).

各バンドフィルタによって音声からその中心周波数の成
分のみを抽出する。このようにして各バンドフィルタに
よって分けられたデータの系列をチャネルと称する。各
チャネル毎のバンドパスの出力に対して絶対値化演算を
施した後、ローパスフィルタに入力させる。各チャネル
毎のローパスフィルタ出力をサンプリング手段によって
音声フレームの周期毎に再サンプルして特徴ベクトルの
成分を得る。
Each band filter extracts only the center frequency component from the voice. The data series separated by each band filter in this way is called a channel. After performing an absolute value calculation on the bandpass output of each channel, the output is input to a low-pass filter. The low-pass filter output for each channel is resampled by a sampling means every audio frame period to obtain the components of the feature vector.

今i番目の音声フレームにおけるにチャネルのローパス
フィルタの出力をa′ とすると、1番目の音声フレー
ムにおける特徴ベクトルa1  は・ −(・1.4置
・、・蕾、・・・、・眉)と表現することが出来る。こ
こで、Kはチャネル数である。
Now, if the output of the low-pass filter of the channel in the i-th audio frame is a', the feature vector a1 in the first audio frame is... It can be expressed as Here, K is the number of channels.

[(b)項の雑音パタン算出処理] この処理は雑音パタン算出部23で行う、雑音のみが入
力されていて音声が入力されていない区間を例えば連続
して10音声フレーム(音声フレー゛ム数は木質ではな
い)設定し、これを雑音期間と称する。
[Noise pattern calculation process in section (b)] This process is performed by the noise pattern calculation unit 23. For example, 10 consecutive audio frames (the number of audio frames) are is not woody), and this is called the noise period.

雑音区間の特徴ベクトルは雑音のスペクトル形状を表わ
すもので、これを特に雑音ベクトルと称し、町 と表現
する。
The feature vector of the noise section represents the spectral shape of the noise, and is especially called a noise vector and expressed as a town.

ところで、雑音区間内における雑音のスペクトルの平均
値を によって算出し、この平均値を雑音パタンと称する。
By the way, the average value of the noise spectrum within the noise section is calculated by , and this average value is called a noise pattern.

雑音パタン〆の成分をNk  とすると、ざ= (Nl
 、 N2.・・・ Hk、・・・ NK 1となる。
If the component of the noise pattern is Nk, then Z = (Nl
, N2. ... Hk, ... NK becomes 1.

[(C)項のa声特徴ベクトル算出処理]この処理を音
声特徴ベクトル算出部24で行う。
[Section (C) A voice feature vector calculation process] This process is performed by the voice feature vector calculation unit 24.

雑音区間以降、すなわち雑音パタン算出以降は特徴ベク
トル算出部22から出力される特徴ベクトルaj  か
ら雑音パタン算出部23からの雑音パタン画を減じ、音
声特徴ベクトル を次式によって算出する。
After the noise section, that is, after the noise pattern calculation, the noise pattern image from the noise pattern calculation section 23 is subtracted from the feature vector aj output from the feature vector calculation section 22, and the speech feature vector is calculated using the following equation.

この処理部24における処理は高雑音環境化における音
声認識の性能を向上するための手法であり、雑音が比較
的に定常的に続いている場合に効果を発揮する。
This processing in the processing unit 24 is a method for improving speech recognition performance in a high-noise environment, and is effective when noise continues relatively steadily.

[(d)’ffのローカルピークベクトル算出処理〕こ
の処理をローカルビーク算出部25で行う。
[(d) Local peak vector calculation process for 'ff] This process is performed by the local peak calculation unit 25.

音声特徴ベクトル算出部24から送出される音声特徴ベ
クトルIbi  をローカルピークベクトル算出部25
においてローカルピークベクトルfi  に変換する。
The audio feature vector Ibi sent from the audio feature vector calculator 24 is calculated by the local peak vector calculator 25.
is converted into a local peak vector fi at .

この変換処理につき第3図(A)〜(C)を参照して説
明する。
This conversion process will be explained with reference to FIGS. 3(A) to 3(C).

音声特徴ベクトルToi の各成分bエ は次式により
対数変換される。
Each component b of the audio feature vector Toi is logarithmically transformed using the following equation.

第3図(A)にこの音声特徴ベクトル成分の対数変換x
i(k)の例を示し、横軸にチャネル番号kを及び縦軸
にXi  (k)をそれぞれプロットして示す、この図
により、i番目の音声フレームにおける音声の対数スペ
クトルの形状が表わされている。
Figure 3 (A) shows the logarithmic transformation x of this voice feature vector component.
An example of i(k) is shown, and the channel number k is plotted on the horizontal axis and Xi(k) is plotted on the vertical axis. This figure represents the shape of the logarithmic spectrum of the audio in the i-th audio frame. has been done.

次に1次式によって榮えられる最小二乗近似直線 を用いて正規化を行う。Next, the least squares approximation straight line obtained by the linear equation Perform normalization using .

2工(k) = x□(k) −y工(k)= x・(
k) −ui(k) −k −v、(k)      
(51この正規化された音声特徴ベクトル成分ZL (
k)の例を第3図(B)に示す、第3図(B)において
横軸にチャネル番号を及び縦軸に21 (k)をそれぞ
れプロットして示す。
2 k (k) = x □ (k) - y k (k) = x・(
k) −ui(k) −k −v, (k)
(51 This normalized speech feature vector component ZL (
An example of k) is shown in FIG. 3(B), in which the channel number is plotted on the horizontal axis and 21(k) is plotted on the vertical axis.

次に、次式(6)のような判断に基づいて、このz4(
k)を用いてローカルピークベクトルlr4を算出する
Next, this z4(
k) to calculate the local peak vector lr4.

この(8)式の判断条件を満たすkに対してはr4=1
.満たさないkに対してはr□ =0なる値を成分とし
て有するベクトルri を算出する。このベクトルtri  をローカルピーク
ベクトルと称する。このローカルピークベクトルtri
  の例を第3図(C)に示す。
For k that satisfies the judgment condition of equation (8), r4=1
.. For k that is not satisfied, a vector ri having the value r□=0 as a component is calculated. This vector tri is called a local peak vector. This local peak vector tri
An example of this is shown in FIG. 3(C).

[(e)項の音声区間検出処理] この処理を音声区間検出部26で行う。[Voice section detection processing in section (e)] This process is performed by the voice section detection section 26.

音声フレーム毎に音声特徴ベクトル算出部24より算出
される音声特徴ベクトルlbi  を用いて、当該音声
フレームのフレーム電力P1 を 算 出 する。
Using the audio feature vector lbi calculated by the audio feature vector calculation unit 24 for each audio frame, the frame power P1 of the audio frame is calculated.

音声区間検出部2Bにおいては、音声特徴ベクトルlb
i  から得られたフレーム電力Pi を用いて音声区
間検出を行う。
In the speech section detection unit 2B, the speech feature vector lb
Voice section detection is performed using the frame power Pi obtained from i.

音声区間検出のアルゴリズムについては前述したように
各種のものが提案されているが、この発明はそのアルゴ
リズム自体を目的とするものではなく、音声区間検出に
特徴ベクトルai から雑音パタンNを減じて得られた
音声特徴ベクトルlbiを用いることを目的としている
ため、ここでは説明の便宜上、フレーム電力Pi が定
められた閾値Ps以上となった音声フレームを音声の始
端、音声の始端からフレーム電力Pi が閾値Ps未満
となった音声フレームを音声の終端と考える。
As mentioned above, various algorithms have been proposed for detecting speech intervals, but the purpose of this invention is not to use the algorithms themselves, but to detect speech intervals by subtracting the noise pattern N from the feature vector Therefore, for convenience of explanation, here, for convenience of explanation, the voice frame in which the frame power Pi is equal to or higher than the predetermined threshold Ps is defined as the start of the voice, and the frame power Pi from the start of the voice is defined as the threshold value. A voice frame that is less than Ps is considered to be the end of voice.

第4図(A)及び(B)は入力音声を[サラポロ」とし
、これに雑音として自動車騒音を付加してS/Nを10
dBとした場合のフレーム電力特性を示す、第4図(A
)は無雑音環境下において音声特徴ベクトルToi か
ら算出したフレーム電力Piであり、(B)図は雑音環
境下において、同様な手法により特徴ベクトルaiから
算出したフレーム電力P1′である。それぞれ横軸に時
間を及び縦軸にフレーム電力をプロットして示しである
In Figure 4 (A) and (B), the input voice is [Sarapolo], and car noise is added as noise to this to reduce the S/N to 10.
Figure 4 (A
) is the frame power Pi calculated from the voice feature vector Toi in a no-noise environment, and (B) is the frame power P1' calculated from the feature vector ai by the same method in a noisy environment. The graph shows time plotted on the horizontal axis and frame power plotted on the vertical axis.

第4図(A)及び(B)から理解出来るように、雑音パ
タンを減じている音声特徴ベクトルlbi  から得ら
れるフレーム電力P1  の変化は、音声の発せられて
いる区間と、音−の発せられていない区間との明確な区
別を有している。そのため、雑音環境下においても音声
区間検出が容易に行える。
As can be understood from FIGS. 4(A) and (B), the change in frame power P1 obtained from the speech feature vector lbi that reduces the noise pattern varies depending on the period in which the speech is produced and the period in which the sound is produced. It has a clear distinction from areas where it is not. Therefore, voice section detection can be easily performed even in a noisy environment.

[(f)項の比較パタン算出及び格納処理]この処理を
比較パタン格納部27で行う。
[Comparison pattern calculation and storage processing in section (f)] This processing is performed in the comparison pattern storage section 27.

話者を限定する特定話者認識方式においては、認識対象
となる単語(以下、カテゴリと称する)を予め発声し、
その単語を表現するためのパタン(比較パタンと称する
)を予め格納しておく必要がある。比較パタン格納部2
7では、このような比較パタンか格納されている。以下
、この比較パタンの作成方法につき説明する。この比較
パタンを作成する処理を登録処理と称する。
In the specific speaker recognition method that limits speakers, words to be recognized (hereinafter referred to as categories) are uttered in advance,
It is necessary to store in advance a pattern (referred to as a comparison pattern) for expressing the word. Comparison pattern storage section 2
7, such comparison patterns are stored. The method for creating this comparison pattern will be explained below. The process of creating this comparison pattern is called registration process.

ここで説明のためカテゴリの数をM個とする。Here, for the sake of explanation, the number of categories is assumed to be M.

また、同一カテゴリを数回発声し、それぞれのパタンの
乎均をとることにより比較パタンを作成する方法もある
が、この発明では一回のカテゴリの発声に対して比較パ
タンを作成するものとする。
There is also a method of creating a comparison pattern by uttering the same category several times and taking the average of each pattern, but in this invention, a comparison pattern is created for one utterance of the category. .

比較パタンを作成するために用いられる音声を学習音声
と称する。
The voice used to create the comparison pattern is called a learning voice.

今、ディジタル化されたm番目の学習音声を入力端T−
21から特徴ベクトル算出部22へと送り学習音声の特
徴ベクトルを算出する。一方、雑音、<タン算出部23
には、前もって学習音声が入力されていないときの雑音
パタンか抽出されている。従って、音声特徴ベクトル算
出部24において、特徴ベクトル算出部22からの特徴
ベクトルから雑音パタン算出部23からの雑音パタンを
減算し、学習音声の音声特徴ベクトルを算出する。
Now, the m-th learning voice that has been digitized is input to the input terminal T-
21 to a feature vector calculation unit 22 to calculate a feature vector of the learning speech. On the other hand, noise, <Tan calculation unit 23
The noise pattern when no training speech has been input is extracted in advance. Therefore, the speech feature vector calculation section 24 subtracts the noise pattern from the noise pattern calculation section 23 from the feature vector from the feature vector calculation section 22 to calculate the speech feature vector of the learning speech.

さらに、音声区間検出部2Bにおいて、学習音声の電力
を計算し、学習音声の始端と、終端とを決定する。ここ
で、説明を容易にするため、学習音声の始端を1とし、
終端をJl とする。
Furthermore, the speech section detection unit 2B calculates the power of the learning speech and determines the start and end of the learning speech. Here, to make the explanation easier, the starting point of the learning voice is set as 1,
Let the terminal point be Jl.

学習音声の音声特徴ベクトルはローカルピークベクトル
算出部25においてローカルピークベクトル!Sj  
に変換される。
The audio feature vector of the learning audio is determined by the local peak vector calculation unit 25 as a local peak vector! Sj
is converted to

Sj =(mSa + mSa +・・・ 3に、、・
・ sJmJ       mj この学習音声のローカルピークベクトルを特に比較ロー
カルピークベクトルと称する。
Sj = (mSa + mSa +... 3,...
- sJmJ mj This local peak vector of the learning speech is particularly referred to as a comparison local peak vector.

さらに、始端1から終端J1  までの比較ローカルピ
ークベクトルの時系列によって表わされる)くタンを比
較パタンと称しS+?l と表わす。
Furthermore, the pattern represented by the time series of comparison local peak vectors from the start point 1 to the end point J1 is referred to as a comparison pattern, and S+? It is expressed as l.

このようにして得られた各カテゴリ毎の比較パタンS□
 をその長さJl と、対応するカテゴリ名C,fI 
 と−緒に比較パタン格納部27の記憶領域に格納する
Comparison pattern S□ for each category obtained in this way
its length Jl and the corresponding category name C, fI
It is also stored in the storage area of the comparison pattern storage section 27.

[(g)項のパタン類似度算出処理] この処理をパタン類似度算出部28で行う。[Pattern similarity calculation process in section (g)] This process is performed by the pattern similarity calculation unit 28.

上述したような比較パタンを作成する登録処理に対して
、認識動作を行うときの処理を認識処理と称する。そこ
で、認識処理時に入力される音声を入力音声と称する。
In contrast to the registration process of creating a comparison pattern as described above, the process of performing a recognition operation is called a recognition process. Therefore, the voice input during recognition processing is referred to as input voice.

この入力音声に対して音声区間検出部2Bで算出される
始端を1とし、終端を■とする。
The starting point calculated by the speech section detecting section 2B for this input voice is set to 1, and the ending point is set to ■.

また、入力音声に対しても前述した(a)項から(d)
項と同一又は類似の処理を行ってローカルピークベクト
ルrr4  (入力ローカルピークベクトルと称する)
を求める。
In addition, the above-mentioned items (a) to (d) are also applied to the input audio.
The same or similar processing is performed to obtain the local peak vector rr4 (referred to as input local peak vector).
seek.

このようにして、始端lから終端■まで入力ローカルピ
ークベクトルの時系列によって表現される入力音声のパ
タンを入力パタンと称し、これをRで表現する。
In this way, the input speech pattern expressed by the time series of input local peak vectors from the start point l to the end point ■ is called an input pattern, and is expressed by R.

また、既に説明したように、m番目の比較パタンSyn
が始端1から終端Jy11 までの時系列として表現さ
れ、比較パタン格納部27に格納されている。
Moreover, as already explained, the m-th comparison pattern Syn
is expressed as a time series from the start point 1 to the end point Jy11, and is stored in the comparison pattern storage section 27.

次に、入力パタンRと、比較パタンS、、l  との類
似性を算出する処理につき説明する。
Next, a process for calculating the similarity between the input pattern R and the comparison patterns S, , l will be explained.

第5図は、類似性算出処理を行うに当って入力パタンと
比較パタンとの時間的な対応をとるための説明図であり
、横軸は入力パタンのフレーム時間点Iを表わし、縦軸
は比較パタンのフレーム時間点jを採って示しである。
FIG. 5 is an explanatory diagram for establishing temporal correspondence between an input pattern and a comparison pattern when performing similarity calculation processing, where the horizontal axis represents the frame time point I of the input pattern, and the vertical axis represents the frame time point I of the input pattern. The frame time point j of the comparison pattern is taken and shown.

そこで、便宜」−1入カパタンのi番目のフレーム時間
点で、かつ、比較パタンの5番目のフレーム時間点につ
いて論する場合、単に゛格子点(i 、 j)において
°という表現を用いる。
Therefore, when discussing the i-th frame time point of the '-1 input pattern and the fifth frame time point of the comparison pattern, we simply use the expression 'at grid point (i, j)'.

格子点(i 、 j)における入力ローカルピークベク
トルlr1  と、比較ローカルピークベクトル、ll
5j  との類似度dr1  (il J)をで定義す
る。ここで、右肩添字tはベクトルの転置を表わしてい
る。
Input local peak vector lr1 at grid point (i, j) and comparison local peak vector, ll
The degree of similarity dr1 (il J) with 5j is defined as follows. Here, the right-hand subscript t represents the transposition of the vector.

通常この(8)式で表わされる類似度の算出に当っては
、複雑な演算を必要とするが、この発明における各ベク
トルrri、 5j  はローカルピークベクトルであ
るため、その要素はO又はlであり、従って類似度演算
が極めて簡易となる。この意味においてローカルピーク
ベクトルにおける音声パタンの表現方法に重要な意義が
ある。
Normally, complex calculations are required to calculate the degree of similarity expressed by equation (8), but since each vector ri, 5j in this invention is a local peak vector, its elements are O or l. Therefore, similarity calculation becomes extremely simple. In this sense, the method of expressing speech patterns in local peak vectors has important significance.

また、演算簡略のために、(8)式の類似度の計算を第
5図に示す範囲にのみ限定し、それ以外の範囲では強制
的にd+n(i、j)=Oとする処理も行われるが、木
質的でないので、その説明を省略する。ここで、dyn
(i、j)を強制的に0にしない範囲を整合窓内と呼ぶ
In addition, to simplify the calculation, we limited the calculation of the similarity in equation (8) to the range shown in Figure 5, and forced d + n (i, j) = O in other ranges. However, since it is not woody, its explanation will be omitted. Here, dyn
The range in which (i, j) is not forcibly set to 0 is called within the matching window.

次に、格子点(i 、 j)における累積類似度111
m(i、j)と、パス長Q、(i、j)とをと定める。
Next, the cumulative similarity 111 at the grid point (i, j)
Let m(i, j) and path length Q, (i, j) be .

ここで、格子点(i 、 j)における累積類似度Dm
  (i l J )を求めるためには格子点(i 、
 j)、(i−1,j)、(i、j−1)、における類
似度と、格子点(i−2,j−1)、(+−1,j−1
)、(+−1,j−2)における累積類似度が必要とな
る。この意味において、(8)式は漸化式である。従っ
て、初期値が必要となる。
Here, the cumulative similarity Dm at the grid point (i, j)
In order to find (i l J ), lattice points (i ,
j), (i-1, j), (i, j-1), and grid points (i-2, j-1), (+-1, j-1
), (+-1, j-2) is required. In this sense, equation (8) is a recurrence equation. Therefore, an initial value is required.

この場合に必要となる初期値をあげると、下記のように
なる。
The initial values required in this case are as follows.

となる。becomes.

累積類似度Dyn(i、j)の算出には(9)式。Equation (9) is used to calculate the cumulative similarity Dyn (i, j).

(lO)式で与えられる算出方法以外にも種々の方法が
ある。ここでその他の代表的な方法を次に示しておく。
There are various calculation methods other than the calculation method given by the formula (lO). Other typical methods are shown below.

漸化式 この手法の場合、パス長Q、(i、j)はQm(i、j
)=i となり、Qyl(i、j)を特別に演算する必要がなく
なる。
Recurrence Formula For this method, the path length Q, (i, j) is Qm (i, j
)=i, and there is no need to specially calculate Qyl(i, j).

このようにして得られた格子点(i 、 j)における
累積類似度のうちから整合窓内でかつ(i=I又はj=
J)である累積類似度の中で最大をゲえる累積類似度D
max  (II)を算出し、これをパタン類似度と称
する。
Among the cumulative similarities at the grid point (i, j) obtained in this way, within the matching window and (i=I or j=
J) is the maximum cumulative similarity D among the cumulative similarities that are
max (II) is calculated, and this is called pattern similarity.

以上の演算をM個の比較音声パタン全てにおいて行い、
M個のパタン類似度DITfax(曹)を求める。
Perform the above calculations on all M comparison speech patterns,
Find M pattern similarities DITfax.

このようにして求められる最終的なパスの予想例を第5
図に曲線Xで示しである。
The fifth example of the prediction of the final path obtained in this way is
This is indicated by a curve X in the figure.

[(h)項の判定処理] M個のパタン累積類似度り1醜(■)により再び最大値
判定を行う。
[Determination process in section (h)] The maximum value is determined again based on the cumulative similarity of M patterns.

mmax= tsrg  max  D、nax(m)
         (12)l≦m≦M その最大値を榮える比較パタンの番号m□d×に対応す
るカテゴリ名Cm 、酢が認識結果として出力端子30
から出力する。
mmax = tsrg max D, nax (m)
(12) l≦m≦M The category name Cm corresponding to the number m□d× of the comparison pattern whose maximum value is achieved, the vinegar outputs the recognition result to the terminal 30.
Output from.

以上説明したところからも明らかなように、この発明の
音声認識方式においては、入力音声から雑音パタンを除
去した音声特徴ベクトルを用いてフレーム電力を算出し
、音声区間検出を行っているため、第4図(A)及び(
B)に示した、音声特徴ベクトルにより算出したフレー
ム電力Pi  及び無処理の特徴ベクトルにより算出し
たフレーム電力Pl’の比較からも明らかなように、音
声区間検出誤りが少ない、このように、雑音環境下にお
いても入力音声を高精度で認識することが出来る。
As is clear from the above explanation, in the speech recognition method of the present invention, frame power is calculated using a speech feature vector obtained by removing noise patterns from input speech, and speech section detection is performed. Figure 4 (A) and (
As is clear from the comparison of the frame power Pi calculated using the voice feature vector and the frame power Pl' calculated using the unprocessed feature vector shown in B), there are fewer voice section detection errors, and in a noisy environment. It is possible to recognize the input voice with high accuracy even at the bottom.

また、音声特徴ベクトルから算出した、ベクトル成分が
O又はlのみであるローカルピークベクトルを用いてパ
タン類似度算出処理を行っているため、演算処理が極あ
て簡易である。
Further, since the pattern similarity calculation process is performed using a local peak vector whose vector component is only O or I, which is calculated from the audio feature vector, the calculation process is extremely simple.

さらに、比較パタンに関しても比較ローカルピークベク
トルを用いているため、その記憶容量を極めて少なくす
ることが出来、音声認識システムの小型化を図れる。
Furthermore, since the comparison local peak vector is used for the comparison pattern, the storage capacity thereof can be extremely reduced, and the speech recognition system can be downsized.

(実施例) 以下、この発明の実施例につき第6図を参照して説明す
る。
(Example) Hereinafter, an example of the present invention will be described with reference to FIG. 6.

第6図はこの発明の音声認識方式の一実施例を実施する
ための具体的な回路構成を示すブロック図である。
FIG. 6 is a block diagram showing a specific circuit configuration for implementing an embodiment of the speech recognition method of the present invention.

第6図において、41はマイクロフォン、42は音声信
号を増幅するための増幅器、43はローパスフィルタ、
44は音声をディジタル信号に変換するA/D変換器、
45は特徴ベクトルを算出する信号処理プロセッサ、4
Bはプロセッサ、47はプロセッサのプログラムが格納
されているプログラムメモリ、48は比較パタンを格納
するための比較パタンメモリ、49は作業メモリ、50
は雑音パタンを格納するための雑音パタンメモリ、51
は認識結果を外部に出力するためのインタフェースであ
る。ただし、それぞれの構成要素間には厳密な意味では
インタフェース回路が必要であるが、ここではこれを省
略する。
In FIG. 6, 41 is a microphone, 42 is an amplifier for amplifying the audio signal, 43 is a low-pass filter,
44 is an A/D converter that converts audio into a digital signal;
45 is a signal processing processor that calculates a feature vector;
B is a processor; 47 is a program memory in which a processor program is stored; 48 is a comparison pattern memory for storing comparison patterns; 49 is a working memory;
is a noise pattern memory for storing noise patterns, 51
is an interface for outputting recognition results to the outside. However, although in a strict sense an interface circuit is required between each component, this is omitted here.

次に、この第6図を参照してこの発明の音声認識方式の
一例を説明する。
Next, an example of the speech recognition method of the present invention will be explained with reference to FIG.

マイクロフォン41からの入力音声を増幅器42で増幅
した後、ローパスフィルタ(LPF)43においてその
低周波数成分を除去する。
After input audio from a microphone 41 is amplified by an amplifier 42, a low-pass filter (LPF) 43 removes its low frequency components.

次に、低周波成分が除去された入力音声をA/D変換器
44によって例えば12kHzのサンプリング周波数で
12ビツトにサンプリングする。前述のローパスフィル
タ43での処理はこのサンプリングのために必要な処理
で、従って、このフィルタとしては例えば5kHzの遮
断周波数をもつ減衰48 d B / o c tのロ
ーパスフィルタを用いる。
Next, the input audio from which low frequency components have been removed is sampled into 12 bits by the A/D converter 44 at a sampling frequency of, for example, 12 kHz. The processing in the low-pass filter 43 described above is necessary for this sampling, and therefore, for example, a low-pass filter with a cutoff frequency of 5 kHz and an attenuation of 48 dB/oct is used.

A/D変換器44によってサンプリングされた音声のデ
ィジタルデータを信号処理プロセッサ45によって、特
徴ベクトルに変換する。この信号処理プロセッサ45と
して例えばTI社製の32010を用いることが出来る
The audio digital data sampled by the A/D converter 44 is converted into a feature vector by the signal processor 45. As this signal processing processor 45, for example, 32010 manufactured by TI can be used.

プロセッサ46は音声フレーム周期毎に信号処理プロセ
ッサ45から出力される特徴ベクトルを用いて処理を行
うが、その処理の内容は ■ 登録処理 ■ 認識処理 とに分けられる。以下、これらの処理についてそれぞれ
説明をする。
The processor 46 performs processing using the feature vector output from the signal processing processor 45 for each audio frame period, and the contents of the processing are divided into (1) registration processing (2) and recognition processing. Each of these processes will be explained below.

[登録処理] この処理は次の処理に分けられる。[registration process] This process is divided into the following processes.

雑音パタンの算出処理 音声特徴ベクトルの算出処理 比較ローカルピークベクトル算出処理 音声区間検出処理 比較パタン格納処理 以下、これらの各処理につき説明する。Noise pattern calculation process Audio feature vector calculation process Comparison local peak vector calculation process Voice section detection processing Comparison pattern storage processing Each of these processes will be explained below.

(雑音パタン算出処理) 登録処理のため、例えば、10音声フレームを雑音区間
と定める。このとき、話者は発声しないで、まわりの雑
音のみをマイクロフォン41から入力するようにする。
(Noise pattern calculation process) For the registration process, for example, 10 audio frames are determined as a noise section. At this time, the speaker does not speak, and only ambient noise is input from the microphone 41.

この雑音入力を信号経路(42,43,44)を経て信
号処理プロセッサ45に送り、これより雑音ベクトルを
生じさせ、この雑音ベクトルを作業メモリ48に逐次格
納する。このメモリ49にlO音声フレーム分の雑音ベ
クトルが格納されると、これら雑音ベクトルを平均化し
てその平均値を雑音パタンメモリ50に格納する。
This noise input is sent via signal paths (42, 43, 44) to a signal processing processor 45 from which a noise vector is generated which is sequentially stored in working memory 48. When noise vectors for 10 audio frames are stored in this memory 49, these noise vectors are averaged and the average value is stored in the noise pattern memory 50.

(音声特徴ベクトル算出処理) 雑音区間終了後、信号処理プロセッサ45から入力され
る特徴ベクトルから雑音パタンメモリ50中の雑音パタ
ンを減じることによって、音声特徴ベクトルを算出し、
これを作業メモリ48内に格納する。
(Voice feature vector calculation process) After the end of the noise section, a speech feature vector is calculated by subtracting the noise pattern in the noise pattern memory 50 from the feature vector input from the signal processing processor 45,
This is stored in working memory 48.

この処理は音声フレーム周期毎に行われるが、音声区間
検出処理によって始端が検出されるまでの音声特徴ベク
トルは不必要であり、従って、作業メモリ49を効果的
に使用するためには適当に捨てていく。
Although this processing is performed for each audio frame period, the audio feature vectors until the start point is detected by the audio section detection processing are unnecessary, and therefore, in order to use the working memory 49 effectively, they can be discarded appropriately. To go.

(比較ローカルピークベクトルの算出処理)作業メモリ
49に格納されている音声特徴ベクトルを、前述した(
d)項の処理により、比較ローカルピークベクトルに変
換して作業メモリ48に格納する。この処理も、音声フ
レーム周期毎に行われる。また、始端検出以前の比較ロ
ーカルピークベクトルも適宜に捨てていく。
(Comparison local peak vector calculation process) The audio feature vectors stored in the working memory 49 are
Through the processing in section d), it is converted into a comparison local peak vector and stored in the working memory 48. This process is also performed every audio frame period. In addition, comparison local peak vectors before the start edge detection are also discarded as appropriate.

(音声区間検出処理) 作業メモリ48に格納されている音声特徴ベクトルから
フレーム電力を算出する。
(Voice section detection process) Frame power is calculated from the voice feature vector stored in the working memory 48.

このフレーム電力と閾値とを比較しながら音声の始端と
終端とを決定する。
The start and end of audio are determined by comparing this frame power with a threshold value.

(比較パタン格納処理) 作業メモリ49に格納されている比較ローカルピークベ
クトルのうち始端から終端までの比較ローカルピークベ
クトルを、比較パタンとして、比較パタンメモリ48に
格納する。
(Comparison pattern storage process) Among the comparison local peak vectors stored in the working memory 49, the comparison local peak vectors from the start end to the end end are stored in the comparison pattern memory 48 as a comparison pattern.

[認識処理] この処理はさらに次の処理に分けられる。[Recognition processing] This process is further divided into the following processes.

雑音パタンの算出処理 音声特徴ベクトルの算出処理 入力ローカルピークベクトルの算出処理音声区間検出処
理 パタン類似度算出処理 判定処理 (雑音パタンの算出処理) 登録時と認定時とでは雑音の状況が変化していることも
考えられるため、雑音パタンの算出を再度行う。
Noise pattern calculation processing Speech feature vector calculation processing Input local peak vector calculation processing Speech section detection processing Pattern similarity calculation processing Judgment processing (Noise pattern calculation processing) The noise situation has changed between the time of registration and the time of certification. Therefore, the noise pattern calculation is performed again.

この雑音パタンの算出に関しては単語入力の前イσに行
うのが良いが、中詰の入力速度が遅くなったり或いは3
1音測定中に発声し易いなどの点から、特に特別な雑音
区間を適宜設けてその区間で雑音パタンを測定する方が
現実的であろう。
It is best to calculate this noise pattern at σ before inputting a word, but it may slow down the input speed for inputting words, or
From the viewpoint of ease of utterance during the measurement of a single sound, it would be more practical to appropriately set up a special noise section and measure the noise pattern in that section.

登録時と同様に、ある10音声フレームを雑音区間と定
め、このとき話者は発声しないようにする。この状態で
、まわりからの雑音のみをマイクロフォン41から入力
させて、前述と同様に信号処理プロセッサ45に送り、
これより生ずる雑音ベクトルを作業メモリ49に逐次格
納する。10音声フレーム分の雑音ベクトルを格納した
とき、これら雑音ベクトルの平均を取って、この平均雑
音ベクトルを雑音パタンメモリ50に格納する。
As in the case of registration, certain 10 audio frames are defined as a noise section, and the speaker is prevented from speaking at this time. In this state, only ambient noise is input from the microphone 41 and sent to the signal processing processor 45 in the same manner as described above.
The noise vectors generated from this are sequentially stored in the working memory 49. When the noise vectors for 10 audio frames are stored, the average of these noise vectors is taken and this average noise vector is stored in the noise pattern memory 50.

(音声特徴ベクトル抽出処理) 雑音区間終了後から音声特徴ベクトルの算出は新しい雑
音パタンを用いて行われる。
(Speech feature vector extraction process) After the end of the noise section, the speech feature vector is calculated using a new noise pattern.

信号処理プロセッサ45から入力される特徴ベクトルか
ら雑音パタンメモリ50に格納されている雑音パタンを
減じることによって音声特徴ベクトルを算出し、これを
作業メモリ49に格納する。この処理は音声フレーム周
期毎に行われる。また、後述する始端検出以前の音声特
徴ベクトルは不必要であるため適宜捨てていく。
A voice feature vector is calculated by subtracting the noise pattern stored in the noise pattern memory 50 from the feature vector input from the signal processor 45, and is stored in the working memory 49. This process is performed every audio frame period. Furthermore, since the speech feature vectors before the start edge detection, which will be described later, are unnecessary, they are discarded as appropriate.

(入力ローカルピークベクトル算出処理)作業メモリ4
8に格納されている音声特徴ベクトルを前述した(d)
項の処理により入力ローカルピークベクトルに変換して
作業メモリ48に格納する。
(Input local peak vector calculation process) Working memory 4
(d)
By processing the terms, the input local peak vector is converted into an input local peak vector and stored in the working memory 48.

この処理も音声フレーム周期毎に行われる。また、始端
検出以前の入力ローカルピークベクトルも適宜捨ててい
く。
This process is also performed every audio frame period. In addition, input local peak vectors before the start edge detection are also discarded as appropriate.

(音声区間検出処理) 作業メモリ48に格納された音声特徴ベクトルからフレ
ーム電力P1  を算出する。このフレーム電力Pi 
 と閾値とを比シしながら音声の始端及び終端を決定す
る。
(Voice section detection process) Frame power P1 is calculated from the voice feature vector stored in the working memory 48. This frame power Pi
The start and end of the audio are determined by comparing the threshold and the threshold.

(パタン類似度算出処理) 作業メモリ49に格納されている入力ローカルピークベ
クトルのうち始端から終端までの入力ローカルピークベ
クトルを入力パタンとし、この入力パタンと、比較パタ
ンメモリ48に格納されている比較パタンとの間で、前
述した(g)項におけるパタン類似度算出処理を行い、
その結果としてD□Δ、(m)を作業メモリ49に格納
する。
(Pattern similarity calculation process) Among the input local peak vectors stored in the working memory 49, the input local peak vectors from the start end to the end end are used as an input pattern, and this input pattern is compared with the input local peak vectors stored in the comparison pattern memory 48. Perform the pattern similarity calculation process in the above-mentioned (g) with the pattern,
As a result, D□Δ,(m) is stored in the working memory 49.

(判定処理) 作業メモリ49に格納されているパタン類似度D wa
x (m )を用いて、前述した(h)項における判定
処理を行って、その結果として得られたカテゴリ名Cm
、IIaχをインタフェース51に通して外部に出力さ
せる。
(Determination process) Pattern similarity degree D wa stored in the working memory 49
x (m), perform the determination process in the above-mentioned section (h), and the category name Cm obtained as a result.
, IIaχ are outputted to the outside through the interface 51.

裏職亙】 次に、この発明による効果を確認するための実験結果を
示す。
Next, the results of an experiment to confirm the effects of this invention will be shown.

この実験は男性話者−名が100都市名を発声した場合
の音声データを用いたシミュレーションにより行った。
This experiment was conducted through a simulation using audio data obtained when a male speaker uttered 100 city names.

シミュレーション実験は、100都市名の音声データに
自動車騒音をS/N I OdBとなるように付加した
入力音声と、同一話者による100都市名の別の発声に
より作成した学習音声とを用いて、次の4つの場合につ
き行った。
The simulation experiment used input audio in which vehicle noise was added to the audio data of 100 city names so that S/N I OdB was achieved, and training audio created by different utterances of 100 city names by the same speaker. We conducted the following four cases.

(実験l) この発明による音声認識方式 入力パタンは入力ローカルピークベクトルから作成。(Experiment I) Speech recognition method according to this invention The input pattern is created from the input local peak vector.

(実験2) 入力パタンは入力音声の特徴ベクトルから直接得たロー
カルピークベクトルから作成。
(Experiment 2) The input pattern was created from local peak vectors obtained directly from the feature vectors of the input speech.

(実験3) 入力パタンは入力音声の音声特徴ベクトルを用いる。(Experiment 3) The input pattern uses the audio feature vector of the input audio.

(実験4) 入力パタンは入力音声の特徴ベクトルを用いる。尚、比
較パタンは学習に対して入力パタンと同一の処理によっ
て作成され、パタン類似度算出処理はこの発明の前述し
た(g)項、判定処理はこの発明の前述した(h)項の
処理を用いて行った。
(Experiment 4) The input pattern uses the feature vector of the input voice. The comparison pattern is created by the same process as the input pattern for learning, and the pattern similarity calculation process is performed by the above-mentioned item (g) of this invention, and the determination process is performed by the process of the above-mentioned item (h) of this invention. I used it.

以上の結果を下記の表に示す。The above results are shown in the table below.

実験1 (この発明):  95% 実験2        85% 実験3        87% 実験4        35% この実験結果から、音声特徴ベクトルから算出したロー
カルピークベクトルを用いたこの発明による認識方式に
よれば、雑音環境下であっても、従来よりも音声認識を
高精確に行えるというこの発明の効果が確認された。
Experiment 1 (this invention): 95% Experiment 2 85% Experiment 3 87% Experiment 4 35% From the results of this experiment, it is clear that the recognition method of this invention, which uses local peak vectors calculated from voice feature vectors, is effective in noisy environments. However, it was confirmed that the present invention is effective in that voice recognition can be performed more accurately than before.

(発明の効果) 上述した説明からも明らかなように、この発明によれば
1次のような効果が得られる。
(Effects of the Invention) As is clear from the above description, the present invention provides the following effects.

■入力に対して雑音パタンを除去した音声特徴ベクトル
を用いてフレーム電力を算出し音声区間検出を行ってい
るため、音声区間検出誤りが少なく、従って、雑音環境
下においても入力音声の認識精度が従来よりも向上する
■Since the frame power is calculated using the speech feature vector from which the noise pattern has been removed from the input and the speech section is detected, there are fewer errors in speech section detection, and therefore the recognition accuracy of the input speech is improved even in noisy environments. Improved than before.

■音声特徴ベクトルから算出され、成分がO又はlのみ
であるローカルピークベクトルを用いてパタン類似度算
出処理を行っているため、この発明の音声認識方式を実
施する際の演算処理が極めて簡易となる。
■Since the pattern similarity calculation process is performed using a local peak vector that is calculated from the voice feature vector and whose components are only O or l, the calculation process when implementing the voice recognition method of this invention is extremely simple. Become.

■比較パタンに関しても比較ローカルピークベクトルを
用いているため、その記憶容量は極めて小さい、従って
、上述した■の効果と合せて、この発明の認識方式を実
施するための装置の構造が簡単かつ小型となる。
■Since the comparison local peak vector is also used for the comparison pattern, its storage capacity is extremely small. Therefore, in addition to the above-mentioned effect (■), the structure of the device for implementing the recognition method of this invention is simple and compact. becomes.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の音声認識方式の認識処理な説明する
ためのブロック図、 第2図は音声分析処理に用いるバンドパスフィルタの特
性を示す図、 第3図はローカルピークベクトル算出を説明するための
説明図。 第4図はフレーム電力の様子を示す図、第5図は累積類
似度算出のアルゴリズムを説明するための説明図、 第6図はこの発明の実施例を示すブロック図、第7図は
従来の音声認識方式を説明するための。 ブロック図である。 21・・・入力端子、    22・・・特徴ベクトル
算出部23・・・雑音パタン算出部 24・・・音声特徴ベクトル算出部 25・・・ローカルピークベクトル算出部2B・・・音
声区間検出部 27・・・比較パタン格納部 28・・・パタン類似度算出部 29・・・判定部、30・・・出力端子41・・・マイ
クロフォン、 42・・・増幅器43・・・ローパスフ
ィルタ、44・・・A/D変m器45・・・信号処理プ
ロセッサ 46・・・プロセッサ、   47・・・プログラムメ
モリ48・・・比較パタンメモリ、49・・・作業メモ
リ50・・・雑音パタンメモリ 51・・・インタフェース。 特許出願人    沖電気工業株式会社手続補正書 昭和61年6月25日
Fig. 1 is a block diagram for explaining the recognition processing of the speech recognition method of the present invention, Fig. 2 is a diagram showing the characteristics of the bandpass filter used for speech analysis processing, and Fig. 3 is for explaining local peak vector calculation. An explanatory diagram for. Fig. 4 is a diagram showing the state of frame power, Fig. 5 is an explanatory diagram for explaining the algorithm for calculating cumulative similarity, Fig. 6 is a block diagram showing an embodiment of the present invention, and Fig. 7 is a diagram showing the conventional To explain the speech recognition method. It is a block diagram. 21... Input terminal 22... Feature vector calculation unit 23... Noise pattern calculation unit 24... Voice feature vector calculation unit 25... Local peak vector calculation unit 2B... Voice section detection unit 27 ... Comparison pattern storage section 28 ... Pattern similarity calculation section 29 ... Judgment section, 30 ... Output terminal 41 ... Microphone, 42 ... Amplifier 43 ... Low pass filter, 44 ...・A/D converter 45...signal processing processor 46...processor, 47...program memory 48...comparison pattern memory, 49...working memory 50...noise pattern memory 51... ·interface. Patent applicant: Oki Electric Industry Co., Ltd. Procedural amendment June 25, 1986

Claims (1)

【特許請求の範囲】[Claims] (1)(a)入力音声を周波数分析し、該入力音声の周
波数成分のベクトルである特徴ベクトルを音声フレーム
と称する一定時間間隔で算出する処理と、 (b)予め雑音のみと分かっている所定の雑音区間にお
ける前記特徴ベクトルを時間平均して得られる雑音パタ
ンを算出する処理と、 (c)前記音声フレーム毎に算出される前記特徴ベクト
ルから前記雑音パタンを減じて音声特徴ベクトルを算出
する処理と、 (d)前記音声フレーム毎に、前記音声特徴ベクトルか
ら最小二乗近似直線を算出し、最小二乗近似直線を基準
にして周波数方向で極大となるチャネルに対応する成分
を1にしかつその他の成分は0にして得られるローカル
ピークベクトルを算出する処理と、 (e)前記音声特徴ベクトルから当該音声フレームにお
けるフレーム電力を算出し、前記フレーム電力を用いて
音声の始端と終端とを検出する処理と、 (f)予め認識対象語毎に一回もしくは複数回の発声の
学習音声に対し前記(a)項から(e)項までの処理と
同一又は類似した処理によって比較パタンを算出し、該
比較パタンを格納する処理と、(g)認識させようとす
る入力音声に対して前記(a)項から(e)項までの処
理により求めた入力パタンと前記比較パタンとの間で非
線形なマッチング処理を行うことにより、前記入力パタ
ンと比較パタンとの間のパタン類似度を算出する処理と
、(h)前記比較パタン毎に算出されるパタン類似度の
中で最大を与える比較パタンに付加されたカテゴリ名を
結果として出力する処理と を具えることを特徴とする音声認識方式。
(1) (a) A process of frequency-analyzing input speech and calculating feature vectors, which are vectors of frequency components of the input speech, at fixed time intervals called speech frames, and (b) A predetermined process that is known in advance to be only noise. (c) a process of calculating a voice feature vector by subtracting the noise pattern from the feature vector calculated for each voice frame; (d) For each audio frame, calculate a least squares approximation straight line from the audio feature vector, set the component corresponding to the channel that is maximum in the frequency direction based on the least squares approximation straight line to 1, and set the other components to 1. (e) calculating a frame power in the audio frame from the audio feature vector and detecting the start and end of the audio using the frame power; , (f) Calculate a comparison pattern in advance using the same or similar processing as the above-mentioned (a) to (e) for the training speech uttered once or multiple times for each recognition target word, and perform the comparison. (g) Non-linear matching processing between the input pattern obtained by the processing of the above (a) to (e) for the input speech to be recognized and the comparison pattern. (h) calculating the pattern similarity between the input pattern and the comparison pattern by performing A speech recognition method characterized by comprising a process of outputting a category name as a result.
JP60213417A 1985-09-26 1985-09-26 Voice recognition system Pending JPS6273298A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP60213417A JPS6273298A (en) 1985-09-26 1985-09-26 Voice recognition system
US06/909,957 US4852181A (en) 1985-09-26 1986-09-22 Speech recognition for recognizing the catagory of an input speech pattern
DE8686113175T DE3683343D1 (en) 1985-09-26 1986-09-25 METHOD AND DEVICE FOR VOICE RECOGNITION.
EP86113175A EP0219712B1 (en) 1985-09-26 1986-09-25 Method of and system for speech recognition
US07/295,194 US4918735A (en) 1985-09-26 1989-01-09 Speech recognition apparatus for recognizing the category of an input speech pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60213417A JPS6273298A (en) 1985-09-26 1985-09-26 Voice recognition system

Publications (1)

Publication Number Publication Date
JPS6273298A true JPS6273298A (en) 1987-04-03

Family

ID=16638878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60213417A Pending JPS6273298A (en) 1985-09-26 1985-09-26 Voice recognition system

Country Status (1)

Country Link
JP (1) JPS6273298A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (en) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド System and method for recognizing sound / musical signal under high noise / distortion environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61228500A (en) * 1985-04-03 1986-10-11 沖電気工業株式会社 Voice recognition
JPS61230199A (en) * 1985-04-04 1986-10-14 沖電気工業株式会社 Voice recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61228500A (en) * 1985-04-03 1986-10-11 沖電気工業株式会社 Voice recognition
JPS61230199A (en) * 1985-04-04 1986-10-14 沖電気工業株式会社 Voice recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505328A (en) * 2000-07-31 2004-02-19 シャザム エンターテインメント リミテッド System and method for recognizing sound / musical signal under high noise / distortion environment

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
JP2692581B2 (en) Acoustic category average value calculation device and adaptation device
JPH07271394A (en) Removal of signal bias for sure recognition of telephone voice
US20120203549A1 (en) Noise rejection apparatus, noise rejection method and noise rejection program
CN111243617B (en) Speech enhancement method for reducing MFCC feature distortion based on deep learning
JP3493033B2 (en) Circuit device for voice recognition
US8423360B2 (en) Speech recognition apparatus, method and computer program product
US20020035472A1 (en) Voice recognition system
JP2002268698A (en) Voice recognition device, device and method for standard pattern generation, and program
JPS6273298A (en) Voice recognition system
JP3270866B2 (en) Noise removal method and noise removal device
CN107919136B (en) Digital voice sampling frequency estimation method based on Gaussian mixture model
JPH02157800A (en) Feature extracting system
JPH04184400A (en) Noise removing device
JPS62159195A (en) Voice pattern generation
JPS6273299A (en) Voice recognition system
US7155387B2 (en) Noise spectrum subtraction method and system
JP3091504B2 (en) Speech recognition method using neural network model
JP2863214B2 (en) Noise removal device and speech recognition device using the device
JPS62262897A (en) Voice recognition system
JPS6229799B2 (en)
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)
JPS61137199A (en) Recognition of word voice
JPS61228500A (en) Voice recognition
JPS5999500A (en) Voice recognition method