JPH02118699A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH02118699A
JPH02118699A JP63273560A JP27356088A JPH02118699A JP H02118699 A JPH02118699 A JP H02118699A JP 63273560 A JP63273560 A JP 63273560A JP 27356088 A JP27356088 A JP 27356088A JP H02118699 A JPH02118699 A JP H02118699A
Authority
JP
Japan
Prior art keywords
spectrum
time
memory
speech
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63273560A
Other languages
Japanese (ja)
Inventor
Masahiro Hamada
正宏 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63273560A priority Critical patent/JPH02118699A/en
Publication of JPH02118699A publication Critical patent/JPH02118699A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To prevent the lowering of a recognition rate even when a background noise is fluctuated by inputting the contents of a template memory to store a first feature parameter and a second feature parameter and calculating the similarity of the voice. CONSTITUTION:In a first spectral memory 2, the time serial spectrum of a registered voice to be registered when the background noise is sufficiently small, and in a second spectral memory 3, the time serial spectrum of the noise just before a recognition subject voice input time is stored. When the voice and background noise are statistically independent, an additionality is realized between both in the dimension of the spectrum and a simultaneously, the background noise is fluctuated, by adding the two time serial spectral by means of an adding part 4, the real time serial spectrum is limited. By using the time serial spectrum imitated in such as way as the template, the background noise conditions at the time of preparing the template can be approximated. Thus, the wide lowering of the recognition rate can be prevented.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は話者の声を予め登録しておく登録型音声認識装
置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION FIELD OF INDUSTRIAL APPLICATION The present invention relates to a registration type speech recognition device in which the voice of a speaker is registered in advance.

従来の技術 近年、登録型音声認識装置が産業界において徐々に利用
されるようになってきた。
BACKGROUND OF THE INVENTION In recent years, registered speech recognition devices have been increasingly used in industry.

以下図面を参照しながら、従来の登録型音声認識装置に
つい−C説明する。第2図は従来の登録型音声認識装置
を示すブロック図である。第2図においてスペクトル計
算部1′の出力は分析部2′に接続され、分析部2′の
出力はスイッチ5′を経てテンプレートメモリ3′と照
合部4′とに接続されている。またテンプレートメモリ
3”の出力は照合部4′に接続されている。
A conventional registration type speech recognition device will be described below with reference to the drawings. FIG. 2 is a block diagram showing a conventional registration type speech recognition device. In FIG. 2, the output of the spectrum calculation section 1' is connected to the analysis section 2', and the output of the analysis section 2' is connected to the template memory 3' and the collation section 4' via a switch 5'. Further, the output of the template memory 3'' is connected to a matching section 4'.

以−トのように構成された登録型音声認識装置に関し、
以下にその動作について説明する。
Regarding the registration type speech recognition device configured as shown below,
The operation will be explained below.

スペクトル計算部1′は使用者の発した音声から時系列
スペクトルを計算し、この結果を分析部2′に入力する
。分析部2′はこの入力を受けでfめ定められた分析を
行い、得られた特徴パラメータをスイッチ5′に出力す
る。スイッチ5゛は、上記発声音声が登録時のものであ
れば、上記特徴パラメータを第1の出力としてテンプレ
ートメモリ3゛ここ入力し、上記発声音声が認識時のも
のであれは、−1−記特徴パラメータを第2の出力とし
て照合部4′に出力する。照合部4′は、認識時にはテ
ンプレートメモリ3′の出力とスイッチ5′の第2の出
力とを受けてテンプレートマツチングを行い、複数の登
録単語テンプレートの中から最適な認識結果を決定する
The spectrum calculation section 1' calculates a time-series spectrum from the voice uttered by the user, and inputs the result to the analysis section 2'. The analysis section 2' receives this input, performs a predetermined analysis, and outputs the obtained characteristic parameters to the switch 5'. The switch 5' inputs the characteristic parameters as the first output to the template memory 3' if the uttered voice is the one at the time of registration, and -1- records if the uttered voice is the one at the time of recognition. The feature parameters are output as second outputs to the matching section 4'. During recognition, the matching unit 4' receives the output of the template memory 3' and the second output of the switch 5', performs template matching, and determines the optimal recognition result from among a plurality of registered word templates.

発明が解決しようとする課題 テンプレートマツチング型の音声認識においては、テン
ブレー1・登録時の背景雑音条件と認識対象音声入力時
の背景雑音条件とか同一であることが望ましい。しかし
ながら」−記のような構成では、背景雑音が変動してい
るような場合には、テンプレート登録時の背景雑音条件
と認識対象音声入力時の背景雑音条件とが同一でなくな
り、しはしば認識率の大幅な低Fを招くという問題点が
あった。
Problems to be Solved by the Invention In template matching type speech recognition, it is desirable that the background noise conditions at the time of template 1 registration and the background noise conditions at the time of inputting the speech to be recognized are the same. However, in the configuration described above, if the background noise is fluctuating, the background noise conditions at the time of template registration and the background noise conditions at the time of inputting the recognition target speech are no longer the same, and There was a problem in that the recognition rate was significantly low.

本発明は上記従来の音声認識装置の課題に鑑み、背景雑
音が変動しているような場合にも、音声登録時にさえ背
景雑音が十分に小さいことが仮定できさえすれは良好な
認識率を確保することのできる音声認識装置を提供する
ことを目的とするものある。
In view of the above problems of conventional speech recognition devices, the present invention ensures a good recognition rate even when the background noise is fluctuating, as long as it can be assumed that the background noise is sufficiently small even during speech registration. The purpose of the present invention is to provide a speech recognition device that can perform the following tasks.

課題を解決するための手段 本発明の登録型音声認識装置は、入力信号から時系列ス
ペクトルを求めるスペクトル計算部と、前記スペクトル
計算部から得られた登録音声の時系列スペクトルを記憶
する第1のスペクトルメモリと、前記スペクトル計算部
から得られた雑音の時系列スペクトルを記憶する第2の
スペクトルメモリと、前記第1のスペクトルメモリの内
容と前記第2のスペクトルメモリの内容とを加算する加
算部と、前記加算部から出力された時系列スペクトル加
算結果を分析して第1の特徴パラメータを抽出し、或は
前記スベク)・ル計算部から得られた認識対象音声の時
系列スペクトルを分析して第2の特徴パラメータを抽出
する分析部と、前記第1の特徴パラメータを記憶するテ
ンプレートメモリと、前記テンプレートメモリの内容と
前記第2の特徴パラメータとを入力し音声の類似度を算
出する音声照合部とから構成されでいる。
Means for Solving the Problems The registration type speech recognition device of the present invention includes a spectrum calculation unit that calculates a time-series spectrum from an input signal, and a first storage unit that stores the time-series spectrum of registered speech obtained from the spectrum calculation unit. a spectrum memory; a second spectrum memory that stores the time-series spectrum of noise obtained from the spectrum calculation unit; and an addition unit that adds the contents of the first spectrum memory and the second spectrum memory. and extracting the first feature parameter by analyzing the time-series spectrum addition result output from the adding section, or analyzing the time-series spectrum of the recognition target speech obtained from the subekle calculation section. a template memory that stores the first feature parameter; and a speech analyzer that inputs the contents of the template memory and the second feature parameter to calculate the similarity of speech. It consists of a collation section.

作用 本発明では上記した構成によって、前記第1のスペクト
ルメモリには背景雑音が十分に小さい時に登録された登
録音声の時系列スペクI・ルを記憶し、前記第2のスペ
クトルメモリには認識対象音声入力時点の直前における
雑音の時系列スペクトルを記憶し、音声と背景雑音とが
統計的に独立でスペクトルの次元で両者の間に加法性が
成立しており、かつ背景雑音が認識対象単語長に比へC
上り大きな時定数で変動している場合にはこれら二つの
時系列スペクトルな加算することによって認識対象音声
入力時点における真の時系列スペクトルを模擬し、この
様にして模擬された時系列スペクトルをテンプレートと
して使用することによりテンプレート作成時の背景雑音
条件と認識対象音声入力時の背景雑音条件とを近似させ
ることができ、認識率の大幅な低下を防ぐことができる
In the present invention, with the above-described configuration, the first spectral memory stores a time-series spectrum of registered speech registered when the background noise is sufficiently small, and the second spectral memory stores a recognition target. The time-series spectrum of noise immediately before the speech input point is memorized, and the speech and background noise are statistically independent, additivity exists between them in the dimension of the spectrum, and the background noise is the length of the word to be recognized. to ratio to C
If the uplink is fluctuating with a large time constant, the true time-series spectrum at the time of inputting the speech to be recognized is simulated by adding these two time-series spectra, and the time-series spectrum simulated in this way is used as a template. By using this as a template, it is possible to approximate the background noise conditions at the time of creating the template and the background noise conditions at the time of inputting the speech to be recognized, and it is possible to prevent a significant drop in the recognition rate.

実施例 以下に、本発明の実施例について、図面を参照しながら
説明する。
Examples Examples of the present invention will be described below with reference to the drawings.

第1図は本発明の一実施例における登録型音声認識装置
を示すブロック図である。第1図において、lは入力信
号から時系列スペクトルを求めるスペクトル計算部であ
り、2は第1のスペクトルメモリであり、3は第2のス
ペクトルメモリであり、スペクトル計算部1の出力は第
1のスペクトルメモリ2と第2のスペクトルメモリ3と
スイッチ8の第1の入力端子とに入力されている。第1
のスペクトルメモリ2の出力と第2のスペクトルメモリ
3の出力とは加算部4に入力され、加算部4から出力さ
れた時系列スペクトル加算結果はスイッチ8の第2の入
力端子に入力されている。スイッチ8の出力は分析部5
に入力され、分析部5の出力はスイッチ90入力となっ
ている。また、スイッチ9の第1の出力はテンプレート
メモリ6に入力され、テンプレートメモリ6の出力とス
イッチ9の第2の出力とは、いずれも照合部7へ入力さ
れている。
FIG. 1 is a block diagram showing a registration type speech recognition device in one embodiment of the present invention. In FIG. 1, l is a spectrum calculation unit that calculates a time-series spectrum from an input signal, 2 is a first spectrum memory, 3 is a second spectrum memory, and the output of spectrum calculation unit 1 is is input to the spectrum memory 2, the second spectrum memory 3, and the first input terminal of the switch 8. 1st
The output of the spectrum memory 2 and the output of the second spectrum memory 3 are input to the adder 4, and the time-series spectrum addition result output from the adder 4 is input to the second input terminal of the switch 8. . The output of switch 8 is sent to analysis section 5
The output of the analysis section 5 is input to the switch 90. Further, the first output of the switch 9 is input to the template memory 6, and the output of the template memory 6 and the second output of the switch 9 are both input to the matching section 7.

以1−のように構成された登録型音声認識装置について
、以下にその動作について説明する。
The operation of the registration type speech recognition device configured as described in 1- above will be explained below.

背景雑音が十分に小さいときに発声された登録音声はス
ペクトル計算部1て時系列スペクトルに変換され、第1
のスペクトルメモリ2に記憶される。音声認識時には、
スペクトル計算部lは背凌雑音の統計的性質が変化する
毎に背景雑音の時系列スペクトルを計算し直し、第2の
スペクトルメモリ3を更新する。加算部4は前記更新が
行われる毎に第1のスペクトルメモリ2の出力と第2の
スペクトルメモリ3の出力とを加算し直して前記登録音
声に背景雑音が重畳した場合を模擬した時系列スペクト
ル(この時系列スペクトルを今後模擬登録時系列スペク
トルと呼称する)を算出し、この信号をスイッチ8への
第2の入力とする。スイッチ8は認識対象音声が入力さ
れるとき以外は常に第2の入力を出力するように動作し
、分析部5はこのスイッチ8の働きにより認識対象音声
が入力されるとき以外は常に前記模擬登録時系列スペク
トルを分析する。スイッチ9では認識対象音声が入力さ
れる時以外は常に第1の出力端子が選択され、スイッチ
8およびスイッチ9の働きによりテンプレートメモリ6
には認識対象音声が入力される時以外は常に更新された
前記模擬登録時系列スペクトルが入力される。
The registered speech uttered when the background noise is sufficiently small is converted into a time series spectrum by the spectrum calculation unit 1, and the first
is stored in the spectrum memory 2 of. During voice recognition,
The spectrum calculation unit l recalculates the time-series spectrum of the background noise every time the statistical properties of the background noise change, and updates the second spectrum memory 3. The adder 4 re-adds the output of the first spectrum memory 2 and the output of the second spectrum memory 3 each time the update is performed, and generates a time-series spectrum simulating the case where background noise is superimposed on the registered voice. (This time series spectrum will be referred to as a simulated registered time series spectrum from now on) and this signal is used as the second input to the switch 8. The switch 8 always operates to output the second input except when the recognition target voice is input, and the analysis unit 5 always outputs the second input except when the recognition target voice is input due to the function of the switch 8. Analyze time series spectra. The switch 9 always selects the first output terminal except when the speech to be recognized is input.
The updated simulated registration time-series spectrum is always inputted to the input device 1, except when the speech to be recognized is inputted.

一方、認識対象音声が入力された時にはスイッチ8ては
第1の入力端rが選択されスイッチ9では第2の出力端
子が選択され、この動作によって認識対象音声の時系列
スペクトルは照合部7へ入力される。照合部7はスイッ
チ9の第2の出力とテンプレートメモリ6の出力とを受
け、認識対象音声の時系列スベクI・ルから分析された
特徴パラメータと複数の前記模擬登録時系列スペクトル
から分析された複数の特徴パラメータとの間でテンプレ
ートマツチングを行い、最適な認識結果を出力する。
On the other hand, when the speech to be recognized is input, the switch 8 selects the first input terminal r, and the switch 9 selects the second output terminal, and by this operation, the time-series spectrum of the speech to be recognized is sent to the matching section 7. is input. The collation unit 7 receives the second output of the switch 9 and the output of the template memory 6, and compares the characteristic parameters analyzed from the time-series spectra of the speech to be recognized and the plurality of simulated registered time-series spectra. Performs template matching between multiple feature parameters and outputs the optimal recognition result.

なお、スペクトルとしては加法性が成立しさえずれば本
発明の効果に変わりはないが、本実施例ではフーリエ・
オートパワースペクトルを用いるものとする。また分析
部5における処理内容としても種々の方法が考えられる
が、本実施例では聴覚特性を考慮したものとして最も−
・船釣なスペクトルパワーの対数化を行なう。HH<合
部7てはチエビシエフ距離を用いたDPマツチング法を
用いる。
Note that the effect of the present invention remains the same as long as additivity holds true for the spectrum, but in this example, the Fourier
Auto power spectrum shall be used. Also, various methods can be considered for the processing content in the analysis section 5, but in this embodiment, the most -
・Perform logarithmization of spectral power. In the case of HH<joint 7, a DP matching method using the Thiebishev distance is used.

ところて5teven Bolt (スjイーフーン*
−ル)氏によっans’a’c’t、io”ns ;=
;  /rc’o’u”st!’cs、  岸e5h、
 論’ S’T20、 April 1979 )はノ
イズ除去の方法として良く知られているところであり、
スペクトルの処理過程において線形性が保たれている限
りにおいては、Bolt氏のスペクトル減算法と本発明
のスペクトル加算法とは等価になる。他方、スペクトル
の処理過程において非線形性が存在する場合には、この
両者の間には相違が生じる。一般に音声認識装置におい
ては聴覚特性を考慮した分析法が採用されることが多く
、本実施例においても分析部5で対数化処理を行なって
いるため、前記スペクトル減算法に基づく処理と本発明
におけるスペクトル加算法に基づく処理とは非等価であ
る。スペクトル減算法を用いた場合には、ノイズの混入
した入力音声信号から推定ノイズを減算する際に減算結
果が負となることがあり、この結果を対数化する場合に
問題が発生ずる。前述の文献中ではこのような場合の対
策として負となった周波数領域のスペクトルを強制的に
ゼロとしているが、これはあくまでも便法に過ぎず、処
理後のスペクトルには歪が生じている。他方、本発明に
おけるスペクトル加算法においてはL記のような負数の
対数化の問題は発生せず、歪のないスペクトルが以降の
処理に利用できる。
Tokorotte 5teven Bolt
-L) by Mr. ans'a'c't, io"ns ;=
;/rc'o'u"st!'cs, shore e5h,
'S'T20, April 1979) is a well-known noise removal method.
As long as linearity is maintained in the spectral processing process, Bolt's spectral subtraction method and the spectral addition method of the present invention are equivalent. On the other hand, if nonlinearity exists in the spectrum processing process, a difference will occur between the two. In general, speech recognition devices often employ analysis methods that take auditory characteristics into consideration, and in this embodiment, logarithmization processing is also performed in the analysis section 5. This is not equivalent to processing based on the spectral addition method. When the spectral subtraction method is used, the subtraction result may be negative when the estimated noise is subtracted from the noise-containing input audio signal, and a problem occurs when the result is logarithmized. In the above-mentioned literature, as a countermeasure against such a case, the spectrum in the negative frequency domain is forcibly set to zero, but this is just a convenient method, and the spectrum after processing is distorted. On the other hand, in the spectral addition method of the present invention, the problem of logarithmization of negative numbers as in the case of L does not occur, and a spectrum without distortion can be used for subsequent processing.

以−にのように本実施例によれは、入力信号から時系列
スペクトルを求めるスペクトル計算部1と、スペクトル
計算部lから得られた登録音声の時系列スペクトルを記
憶する第1のスペクトルメモリ2と、スペクトル計算部
1から得られた雑音の時系列スペクトルを記憶する第2
のスペクトルメモリ3と、第1のスペクトルメモリ2の
内容と第2のスペクトルメモリ3の内容とを加算する加
算部4と、スペクトル計算部lの出力を第1の入力とし
加算部4の出力を第2の入力とするスイッチ8と、スイ
ッチ8の出力を分析して特徴パラメータを抽出する分析
部5と、分析部5の出力を入力とし第1及び第2の出力
をもつスイッチ9と、スイッチ9の第1の出力である模
擬登録時系列スペクトルを入力とするテンプレートメモ
リ6と、スイッチ9の第2の出力である認識対象音声の
時系列スペクトルとテンプレートメモリ6の出力とを入
力とする音声照合部7とを設けることにより、第1のス
ペクトルメモリ2には背景雑音が十分に小さい時に登録
された登録音声の時系列スペクトルを記憶し、第2のス
ペクトルメモリ3には認識対象音声入力時点の直前にお
ける雑音の時系列スペクトルを記憶し、音声と背景雑音
とが統計的に独立でスペクトルの次元で両者の間に加法
性が成立しており、かつ背景雑音が認識対象単語長に比
へてより大きな時定数で変動している場合にはこれ+1
− ら二つの時系列スペクトルを加算することによって認識
対象音声入力時点における真の時系列スペクトルを模擬
し、この様にして模擬された時系列スペクトルをテンプ
レートとして使用することによりテンプレート作成時の
背景雑音条件と認識対象音声入力時の背景雑音条件とを
近似させることができ、認識率の大幅な低下を防ぐこと
ができる。
As described above, this embodiment includes a spectrum calculation section 1 that calculates a time-series spectrum from an input signal, and a first spectrum memory 2 that stores the time-series spectrum of registered speech obtained from the spectrum calculation section 1. and a second section that stores the time-series spectrum of noise obtained from the spectrum calculation section 1.
a spectrum memory 3, an adder 4 that adds the contents of the first spectrum memory 2 and the contents of the second spectrum memory 3, and the output of the spectrum calculator l as the first input, and the output of the adder 4 as the first input. A switch 8 which takes the second input, an analysis section 5 which analyzes the output of the switch 8 and extracts feature parameters, a switch 9 which takes the output of the analysis section 5 as an input and has first and second outputs, and a switch A template memory 6 receives as an input the simulated registered time-series spectrum which is the first output of the switch 9, and a time-series spectrum of the speech to be recognized which is the second output of the switch 9 and the output of the template memory 6. By providing the matching section 7, the first spectrum memory 2 stores the time-series spectrum of the registered speech registered when the background noise is sufficiently small, and the second spectrum memory 3 stores the time-series spectrum of the registered speech registered when the background noise is sufficiently small, and the second spectrum memory 3 stores the time-series spectrum of the registered speech registered when the background noise is sufficiently small. The time-series spectrum of the noise immediately before is memorized, and the speech and background noise are statistically independent, additivity exists between them in the spectral dimension, and the background noise is proportional to the length of the word to be recognized. +1 if the fluctuation is with a larger time constant than
− The true time-series spectrum at the time of inputting the speech to be recognized is simulated by adding the two time-series spectra, and by using the time-series spectrum simulated in this way as a template, background noise at the time of template creation is It is possible to approximate the conditions and the background noise conditions at the time of inputting the speech to be recognized, and it is possible to prevent a significant drop in the recognition rate.

また、登録音声と背景雑音との情報を時間波形でなくス
ペクトルの次元で保持しているため、分析部5が予め定
められた分析を行うには第1のスペクトルメモリ2、第
2のスペクトルメモリ3共に少量で済む。10kHzで
信号を標本化し、256標本毎に20次のスペクトル分
析を行うという平均的な分析条件を例示すると、時間波
形で登録音声あるいは背景雑音を保持するには一時点当
り256語のメモリを必要とするが、スペクトルの場合
には20詔で済む。
In addition, since the information on the registered speech and background noise is held in the dimension of spectrum rather than the time waveform, in order for the analysis section 5 to perform a predetermined analysis, the first spectrum memory 2 and the second spectrum memory are used. You only need a small amount of all three. To illustrate the average analysis conditions of sampling the signal at 10 kHz and performing 20th order spectrum analysis every 256 samples, 256 words of memory are required per point in time to hold the registered speech or background noise in the time waveform. However, in the case of spectrum, it only takes 20 edicts.

さらに、スペクトル計算部1における計算量は分析部5
における計算量に比較して通常多大であることが多く、
時間波形で登録音声を保持すると、背景雑音の統計的性
質が変動する毎に複数の登録音声に対してそれぞれ時系
列スペクトルを計算し直す必要が生じ、装置全体の動作
速度が低下する。
Furthermore, the amount of calculation in the spectrum calculation section 1 is calculated by the analysis section 5.
Usually, the amount of calculation is large compared to the amount of calculation in
If registered voices are held in the form of time waveforms, it becomes necessary to recalculate time-series spectra for each of a plurality of registered voices each time the statistical properties of the background noise change, which reduces the operating speed of the entire apparatus.

これに対し時系列スペクトルによる保持を行うと、背景
雑音の統計的性質が変動する毎に計算し直す必要のある
ものはその時点の背景雑音の時系列スペクトルのみであ
り、装置全体の動作速度が低下することがない。
On the other hand, if the time-series spectrum is retained, the only thing that needs to be recalculated every time the statistical properties of the background noise change is the time-series spectrum of the background noise at that point, which reduces the operating speed of the entire device. It never declines.

発明の効果 以」二のように本発明は、入力音声から時系列スペクト
ルを求めるスペクトル計算部と、前記スペクトル計算部
から得られた登録音声の時系列スペクトルを記憶する第
1のスペクトルメモリと、前記スペクトル計算部から得
られた雑音の時系列スペクトルを記憶する第2のスペク
トルメモリと、前記第1のスペクトルメモリの内容と前
記第2のスペクトルメモリの内容とを加算する加算部と
、前記加算部から出力された時系列スペクトル加算結果
を分析して第1の特徴パラメータを抽出し、或は前記ス
ペクトル計算部から得られた認識対象音声の時系列スペ
クトルを分析して第2の特徴パラメータを抽出する分析
部と、前記第1の特徴パラメータを記憶するテンプレー
トメモリと、前記テンプレートメモリの内容と前記第2
の特徴パラメータとを入力し音声の類似度を算出する音
声照合部とを備えているので、背景雑音の統計的性質が
変動する場合でもテンプレート作成時の背景雑音条件と
認識対象音声入力時の背景雑音条件とを近似させること
ができ認識率の大幅な低下を防ぐことができるばかりで
なく、登録音声及び背景雑音の情報をスペクトルの形で
保持することにより、これら両者を時間波形で保持する
場合に比較してより少ないメモリ容量とより少ない計算
量とで所望の目的を達成することができる優れた登録型
音声認識装置を提供することができるものである。
Effects of the Invention As described in 2., the present invention comprises: a spectrum calculation unit that calculates a time-series spectrum from an input voice; a first spectrum memory that stores the time-series spectrum of the registered voice obtained from the spectrum calculation unit; a second spectrum memory that stores a time-series spectrum of noise obtained from the spectrum calculation section; an addition section that adds the contents of the first spectrum memory and the second spectrum memory; and the addition section that adds the contents of the first spectrum memory and the second spectrum memory. Analyzing the time-series spectrum addition result output from the spectrum calculation unit to extract the first feature parameter, or analyzing the time-series spectrum of the recognition target speech obtained from the spectrum calculation unit to extract the second feature parameter. an analysis unit for extracting, a template memory for storing the first feature parameter, and a template memory for storing the content of the template memory and the second feature parameter;
Since it is equipped with a speech matching unit that calculates the similarity of speech by inputting the feature parameters of Not only can it approximate the noise condition and prevent a significant drop in the recognition rate, but it can also retain information on the registered speech and background noise in the form of a spectrum, thereby retaining both in the form of a temporal waveform. It is possible to provide an excellent registration type speech recognition device that can achieve the desired purpose with a smaller memory capacity and a smaller amount of calculation compared to the previous example.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例における登録型音声認識装置
のブロック図、第2図は、従来の登録型音声認識装置の
ブロック図である。 1・・・スペクトル計算部、2・・・第1のス+4− ペクI・ルメモリ、3・・・第2のスペクトルメモリ、
4・・・加算部、5・・・分析部、6・・・テンプレー
トメモリ、7・・・照合部、8・・・スイッチ、9・・
・スイッチ、1′・・・スペクトル計算部、2′・・・
分析部、3′・・・テンプレートメモリ、4′・・・照
合部、5′・・・メイツ汎
FIG. 1 is a block diagram of a registered speech recognition device according to an embodiment of the present invention, and FIG. 2 is a block diagram of a conventional registered speech recognition device. DESCRIPTION OF SYMBOLS 1... Spectrum calculation unit, 2... First spectrum memory, 3... Second spectrum memory,
4... Addition unit, 5... Analysis unit, 6... Template memory, 7... Collation unit, 8... Switch, 9...
・Switch, 1'...spectrum calculation section, 2'...
Analysis section, 3'...template memory, 4'...verification section, 5'...Mates general

Claims (1)

【特許請求の範囲】[Claims] 入力信号から時系列スペクトルを求めるスペクトル計算
部と、前記スペクトル計算部から得られた登録音声の時
系列スペクトルを記憶する第1のスペクトルメモリと、
前記スペクトル計算部から得られた雑音の時系列スペク
トルを記憶する第2のスペクトルメモリと、前記第1の
スペクトルメモリの内容と前記第2のスペクトルメモリ
の内容とを加算する加算部と、前記加算部から出力され
た時系列スペクトル加算結果を分析して第1の特徴パラ
メータを抽出し、或は前記スペクトル計算部から得られ
た認識対象音声の時系列スペクトルを分析して第2の特
徴パラメータを抽出する分析部と、前記第1の特徴パラ
メータを記憶するテンプレートメモリと、前記テンプレ
ートメモリの内容と前記第2の特徴パラメータとを入力
し音声の類似度を算出する音声照合部とから成る音声認
識装置。
a spectrum calculation unit that calculates a time-series spectrum from an input signal; a first spectrum memory that stores the time-series spectrum of registered speech obtained from the spectrum calculation unit;
a second spectrum memory that stores a time-series spectrum of noise obtained from the spectrum calculation section; an addition section that adds the contents of the first spectrum memory and the second spectrum memory; and the addition section that adds the contents of the first spectrum memory and the second spectrum memory. Analyzing the time-series spectrum addition result output from the spectrum calculation unit to extract the first feature parameter, or analyzing the time-series spectrum of the recognition target speech obtained from the spectrum calculation unit to extract the second feature parameter. Speech recognition consisting of an analysis section that extracts, a template memory that stores the first feature parameter, and a speech matching section that inputs the contents of the template memory and the second feature parameter and calculates the similarity of speech. Device.
JP63273560A 1988-10-28 1988-10-28 Voice recognizing device Pending JPH02118699A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63273560A JPH02118699A (en) 1988-10-28 1988-10-28 Voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63273560A JPH02118699A (en) 1988-10-28 1988-10-28 Voice recognizing device

Publications (1)

Publication Number Publication Date
JPH02118699A true JPH02118699A (en) 1990-05-02

Family

ID=17529507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63273560A Pending JPH02118699A (en) 1988-10-28 1988-10-28 Voice recognizing device

Country Status (1)

Country Link
JP (1) JPH02118699A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS612960A (en) * 1984-05-24 1986-01-08 ホエルマン カーゲー アントリープス ウント シユトイエルングステヒニク Gear device for converting rotary motion into linear motion
JPS6265088A (en) * 1985-09-17 1987-03-24 株式会社リコー Unspecified speaker voice recognition equipment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS612960A (en) * 1984-05-24 1986-01-08 ホエルマン カーゲー アントリープス ウント シユトイエルングステヒニク Gear device for converting rotary motion into linear motion
JPS6265088A (en) * 1985-09-17 1987-03-24 株式会社リコー Unspecified speaker voice recognition equipment

Similar Documents

Publication Publication Date Title
Mohan Speech recognition using MFCC and DTW
EP1901285B1 (en) Voice authentification apparatus
US11611581B2 (en) Methods and devices for detecting a spoofing attack
Chang et al. Spectro-temporal features for noise-robust speech recognition using power-law nonlinearity and power-bias subtraction
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH02118699A (en) Voice recognizing device
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
CN116229987B (en) Campus voice recognition method, device and storage medium
JP3352144B2 (en) Voice recognition device
JP2966452B2 (en) Noise reduction system for speech recognizer
JPS61180297A (en) Speaker collator
Solé-Casals et al. Score function for voice activity detection
JP2602271B2 (en) Consonant identification method in continuous speech
JPH01319099A (en) Voice recognizing device
JPH04267300A (en) Voice recognition device with function for noise removal and speaker adaptation
CN113571054A (en) Speech recognition signal preprocessing method, device, equipment and computer storage medium
JPH05313695A (en) Voice analyzing device
JPH0316038B2 (en)
JP2002287781A (en) Voice recognition system
JPS58176699A (en) Voice standard pattern registration system
JPH0389400A (en) Formant locus extracting system
JPS61262798A (en) Voice section detector
JPH08320698A (en) Speech voice recognition device
JPS6243698A (en) Voice recognition equipment