JPH0146080B2 - - Google Patents

Info

Publication number
JPH0146080B2
JPH0146080B2 JP57229279A JP22927982A JPH0146080B2 JP H0146080 B2 JPH0146080 B2 JP H0146080B2 JP 57229279 A JP57229279 A JP 57229279A JP 22927982 A JP22927982 A JP 22927982A JP H0146080 B2 JPH0146080 B2 JP H0146080B2
Authority
JP
Japan
Prior art keywords
band
logarithmic
spectral power
average value
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57229279A
Other languages
Japanese (ja)
Other versions
JPS59123897A (en
Inventor
Takayuki Fujimoto
Yasuo Sato
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57229279A priority Critical patent/JPS59123897A/en
Publication of JPS59123897A publication Critical patent/JPS59123897A/en
Publication of JPH0146080B2 publication Critical patent/JPH0146080B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

(A) 発明の技術分野 本発明は音声認識装置、特に帯域フイルタ群を
用いて入力音声の周波数分析を行い、単音節また
は単語等の音声認識を行う音声認識装置におい
て、音声認識率を低下させることなく、照合すべ
き特徴パラメータ時系列のパラメータ量を削減可
能とした音声認識装置に関するものである。 (B) 技術の背景と問題点 音声認識方式として、広帯域の音声周波数分析
を行うため、多数チヤネルの帯域通過フイルタを
使用し、各フイルタの出力を整流積分等によつて
帯域別スペクトル電力を求め、スペクトルの正規
化のため、全チヤネルの平均値が零となるように
帯域別対数スペクトル電力を変換した後、正規化
されたすべての帯域別対数スペクトル電力を照合
用特徴パラメータ時系列として使用し、予め辞書
に登録された標準特徴パラメータ時系列と、例え
ばダイナミツクプログラミング(DP)マツチン
グ法等により照合して、単音節または単語等の音
声認識を行う方式が知られている。 上記音声認識方式において、音声の認識率を高
めるためには、帯域フイルタの数、すなわちチヤ
ネル数を多くする必要がある。しかし、チヤネル
数を増加させると、音声周波数を分析するための
ハードウエア量が多く必要になるだけでなく、特
徴パラメータの要素を増えることから、照合に用
いるメモリ量が多く必要になり、また辞書に格納
する標準特徴パラメータ時系列の格納領域も多く
必要になる。さらに、照合のための演算処理時間
も多くかかることになる。 しかし、チヤネル数を減らせば、必要とするメ
モリ量等を少なくすることができるが、音声認識
率が劣化することになる。 (C) 発明の目的と構成 本発明は上記問題点の解決を図り、音声認識率
を低下させることなく、照合すべき特徴パラメー
タ量を減少させて、メモリ量等の削減を可能とす
ることを目的としている。換言すれば、従来と同
じ特徴パラメータ量であれば、音声の認識率がさ
らに向上するようにすることを目的としている。 本発明者等は、本発明の完成に先立つて、多く
の実験・研究を積み重ねた結果、音声認識におけ
る次のような特性を発見した。音声周波数分析
は、高周波数帯域部分も含めて、広帯域にわたつ
て行つたほうが良好な結果が得られるが、特に高
周波数帯域部分については、各サンプリングごと
のパワースペクトルの相対的な音声エネルギー量
が重要であり、例えば、そのパワースペクトルの
ピークが、5KHzの周波数部分にあるか、7KHzの
周波数部分にあるかは、音声認識上それ程重要で
はないということである。これは、人間の耳で
は、おそらく高周波数帯域における周波数のわず
かな違いは、認識が困難であるためと考えられ
る。 本発明は、上記の点に鑑み、高周波数帯域部分
も含めた複数の帯域フイルターで分析したパラメ
ータを正規化した後、高域部分の複数チヤネルの
パラメータを除去するようにして、本発明の目的
を達成するようにしたものである。すなわち、本
発明の音声認識装置は、音声を周波数分析して得
られる特徴パラメータ時系列の照合を行い音声を
認識する音声認識装置において、所定の帯域特性
をもつ多数チヤネルの帯域フイルタと、上記各帯
域フイルタの出力を帯域別のスペクトル電力に変
換する回路と、上記帯域別スペクトル電力を対数
変換して帯域別対数スペクトル電力を算出する対
数変換部と、全チヤネルについての上記帯域別対
数スペクトル電力の平均値を算出する平均値算出
部と、該平均値算出部の出力結果に基づいて上記
全チヤネルのうち高周波数帯域部分の1または複
数チヤネルを除く低域部分の上記帯域別対数スペ
クトル電力について正規化の変換を行う変換部と
をそなえ、照合用特徴パラメータ時系列として、
上記変換後の帯域別対数スペクトル電力を使用す
ることを特徴としている。以下、図面を参照しつ
つ説明する。 (D) 発明の実施例 図は本発明の一実施例構成を示す。 図中、1は音声入力部、2はパラメータ抽出
部、3−1ないし3−nは帯域通過フイルタ、4
−1ないし4−nは整流器、5−1ないし5−n
はアナログ・デイジタル変換器、6−1ないし6
−nは対数変換部、7は平均値算出部、8−1な
いし8−mは減算器、9は音声認識部、10は辞
書を表わす。 音声入力部1から入力された単音節または単語
からなる音声のアナログ信号は、パラメータ抽出
部2に入力される。パラメータ抽出部2は、音声
アナログ信号の周波数分析を行い、認識すべき入
力音声の特徴パラメータ時系列を抽出生成するも
のである。そのため、帯域別に複数(n個)の帯
域通過フイルタ3−1〜3−nを有している。図
において、上部の帯域通過フイルタ3−1から順
に下位に向うに従つて、通過周波数が高くなつて
いる。帯域通過フイルタ3−1〜3−nは、例え
ば隣接する帯域通過フイルタの3dBの減衰点が一
致するように配置され、例えば180Hzから7.8KHz
までの広帯域にわたつてカバーするようにされ
る。 以下に本発明者等が用いた帯域通過フイルタの
構成例を示す。帯域通過フイルタ3−1〜3−n
として、19個のフイルタを用いている。
(A) Technical Field of the Invention The present invention is directed to reducing the speech recognition rate in a speech recognition device, particularly in a speech recognition device that performs frequency analysis of input speech using a group of bandpass filters to recognize monosyllables, words, etc. The present invention relates to a speech recognition device that is capable of reducing the amount of parameters in a time series of feature parameters to be compared without any problems. (B) Technical background and issues As a speech recognition method, in order to perform wideband speech frequency analysis, band-pass filters with multiple channels are used, and the spectral power for each band is determined by rectifying and integrating the output of each filter. In order to normalize the spectrum, the logarithmic spectral power of each band is converted so that the average value of all channels is zero, and then all the normalized logarithmic spectral powers of each band are used as the feature parameter time series for matching. A method is known in which speech recognition, such as a single syllable or a word, is performed by comparing standard feature parameter time series registered in advance in a dictionary using, for example, a dynamic programming (DP) matching method. In the above speech recognition method, in order to increase the speech recognition rate, it is necessary to increase the number of band filters, that is, the number of channels. However, increasing the number of channels not only requires a large amount of hardware to analyze audio frequencies, but also increases the number of feature parameter elements, which requires a large amount of memory for matching. A large amount of storage space is also required for the standard feature parameter time series stored in the . Furthermore, it takes a lot of time to process the computation for verification. However, if the number of channels is reduced, the amount of memory required can be reduced, but the speech recognition rate will deteriorate. (C) Purpose and Structure of the Invention The present invention aims to solve the above-mentioned problems, and aims to reduce the amount of feature parameters to be compared without reducing the speech recognition rate, thereby making it possible to reduce the amount of memory, etc. The purpose is In other words, the objective is to further improve the speech recognition rate with the same amount of feature parameters as before. The inventors of the present invention, as a result of numerous experiments and studies prior to completing the present invention, discovered the following characteristics in speech recognition. Better results can be obtained when audio frequency analysis is performed over a wide band, including the high frequency band, but especially for the high frequency band, the relative amount of audio energy in the power spectrum for each sampling is For example, whether the peak of the power spectrum is in the 5KHz frequency region or the 7KHz frequency region is not that important for speech recognition. This is probably because it is difficult for the human ear to recognize slight differences in frequencies in high frequency bands. In view of the above points, the present invention normalizes the parameters analyzed by multiple band filters including the high frequency band portion, and then removes the parameters of multiple channels in the high frequency portion. It was designed to achieve the following. That is, the speech recognition device of the present invention is a speech recognition device that recognizes speech by collating feature parameter time series obtained by frequency analysis of speech, and includes a multi-channel band filter having predetermined band characteristics, and each of the above-mentioned devices. a circuit for converting the output of the band filter into spectrum power for each band; a logarithmic conversion section for calculating the logarithmic spectrum power for each band by logarithmically converting the spectrum power for each band; An average value calculation unit that calculates an average value, and a normalization of the logarithmic spectral power for each band in the low frequency band excluding one or more channels in the high frequency band portion of all the channels based on the output result of the average value calculation unit. It is equipped with a conversion unit that performs the conversion of
It is characterized by using the logarithmic spectral power for each band after the above conversion. This will be explained below with reference to the drawings. (D) Embodiment of the invention The figure shows the configuration of an embodiment of the invention. In the figure, 1 is an audio input section, 2 is a parameter extraction section, 3-1 to 3-n are band pass filters, 4
-1 to 4-n are rectifiers, 5-1 to 5-n
is an analog-to-digital converter, 6-1 to 6
-n is a logarithmic conversion unit, 7 is an average value calculation unit, 8-1 to 8-m are subtracters, 9 is a speech recognition unit, and 10 is a dictionary. A voice analog signal consisting of a single syllable or word inputted from the voice input section 1 is inputted to the parameter extraction section 2 . The parameter extraction unit 2 performs frequency analysis of the audio analog signal and extracts and generates a time series of characteristic parameters of the input audio to be recognized. Therefore, a plurality (n) of bandpass filters 3-1 to 3-n are provided for each band. In the figure, the passing frequency increases from the bandpass filter 3-1 at the top to the bottom. The bandpass filters 3-1 to 3-n are arranged such that, for example, the 3dB attenuation points of adjacent bandpass filters coincide, and the bandpass filters 3-1 to 3-n are arranged, for example, from 180Hz to 7.8KHz.
It is designed to cover a wide range of up to An example of the configuration of a bandpass filter used by the present inventors is shown below. Bandpass filters 3-1 to 3-n
As a result, 19 filters are used.

【表】【table】

【表】 音声入力部1からの音声信号は、帯域通過フイ
ルタ3−1〜3−nによつて帯域別にろ波され、
それぞれ整流器4−1〜4−nに入力される。各
整流器4−1〜4−nは、例えば10msの整流積
分時定数でもつて、入力信号の整流平滑化を行
う。整流器4−1〜4−nの出力は、アナログ・
デイジタル変換器5−1〜5−nに入力され、帯
域別スペクトル電力をデイジタル量として表わし
たものが求められる。 この帯域別スペクトル電力は、人間が感じる音
の強弱に合わせるために、対数変換部6−1〜6
−nによつて、対数変換されて、帯域別対数スペ
クトル電力が求められる。次に、この帯域別対数
スペクトル電力は、大きな声であつても、小さな
声であつても同じ特徴パラメータとして表われる
ようにするために、正規化が行われる。 そのため、まず平均値算出部7によつて、全チ
ヤネルについての帯域別対数スペクトル電力の平
均値が算出される。ここで、従来方式によれば、
n個の対数変換部6−1〜6−nからの帯域別対
数スペクトル電力から、それぞれ上記平均値算出
部7によつて求められた平均値の減算を行い、そ
の結果正規化されたn個の帯域別対数スペクトル
電力を特徴パラメータP1,P2,P3,…,Poとし
て、使用するようにされていた。 本発明においては、高域部分の1または複数チ
ヤネルについての帯域別対数スペクトル電力は、
平均値算出部7において平均値算出のためには用
いるが、音声の特徴パラメータとしては、用いな
いようにされ、除去される。すなわち、(m+1)
番目の対数変換部から、n番目の最高周波数帯域
の対数変換部6−nまでの出力は、平均値算出の
ためにだけ用いられ、平均値算出後は除去され
る。そして、求められた平均値を帯域別対数スペ
クトル電力から減算するための減算器8−1〜8
−mは、図示の如く、低域部のチヤネルに対応し
てm個用意される。対数変換部6−1〜6−mの
出力である帯域別対数スペクトル電力は、各減算
器8−1〜8−mによつて平均値が減算され、そ
の結果が特徴パラメータP1,P2,…,Pnとして、
音声認識部9に伝達される。 音声認識部9は、m個の特徴パラメータの組か
らなる特徴パラメータ時系列によつて、予め辞書
10に登録された標準特徴パラメータ時系列と、
例えばDPマツチング法により照合することによ
り入力音声の認識を行う。すなわち、簡単に言え
ば時間軸の正規化を行い、対応する時点における
m個の入力特徴パラメータPiと標準特徴パラメー
タP′iとの距離(Pi−P′i)をi=1からi=mま
で加算し、これを一連の時系列について加えた結
果が最小になる標準特徴パラメータに対応する単
音節または単語を認識結果とする。 本発明者等は、上述した19個の帯域通過フイル
タを用いて周波数分析を行い、全チヤネルの帯域
別対数スペクトル電力についての平均値を算出し
た後、上述のチヤネル(CH)番号が17から19ま
でのもの、すなわち4.8KHzから7.8KHzに対応す
る帯域別対数スペクトル電力を除いた16個の帯域
別対数スペクトル電力について、上記平均値によ
る補正を行つて、その補正された16個の帯域別対
数スペクトル電力を照合用特徴パラメータとし
て、音声認識を行つた。これと、19個の全チヤネ
ルから19個の特徴パラメータを抽出して音声認識
を行つた結果とを比較したが、音声認識率の低下
は見られなかつた。 一方、高周波数帯域のチヤネル番号17から19ま
でのものを除いた16個の帯域通過フイルタを用い
て16チヤネルについての周波数分析を行い、16個
の特徴パラメータを抽出して音声認識を試みた
が、この場合には、4.8KHzから7.8KHzまでの高
域部分の情報が全く特徴パラメータに加味されな
いため、明らかに音声認識率が劣化することとな
つた。 なお、周波数分析を行うチヤネル数、帯域幅お
よび抽出する特徴パラメータ時系列の数は、上記
実施例の場合に限定されるわけではなく、要求さ
れる音声認識率、および用意できるメモリ量、演
算機構、辞書サイズ、許容できる照合処理時間等
によつて適宜選択してよい。 (E) 発明の効果 以上説明した如く本発明によれば、簡単な手段
によつて、音声認識率を低下させることなく、照
合/格納特徴パラメータ量を削減することがで
き、メモリ量、演算機構等を節減し、認識処理時
間を短縮することができる。また、従来と同数の
特徴パラメータ量で音声認識を行うものとすれ
ば、音声認識率が向上することとなる。
[Table] The audio signal from the audio input section 1 is filtered by band by bandpass filters 3-1 to 3-n.
The signals are respectively input to rectifiers 4-1 to 4-n. Each of the rectifiers 4-1 to 4-n performs rectification and smoothing of the input signal with a rectification and integration time constant of, for example, 10 ms. The outputs of the rectifiers 4-1 to 4-n are analog
The signal is input to digital converters 5-1 to 5-n, and the spectrum power for each band is expressed as a digital quantity. This band-specific spectral power is converted into logarithmic conversion units 6-1 to 6-6 in order to match the strength of sound felt by humans.
-n, logarithmic transformation is performed to obtain the logarithmic spectral power for each band. Next, this band-specific logarithmic spectral power is normalized so that it appears as the same characteristic parameter regardless of whether the voice is loud or soft. Therefore, first, the average value calculation unit 7 calculates the average value of the logarithmic spectral power by band for all channels. Here, according to the conventional method,
The average value calculated by the average value calculation unit 7 is subtracted from the band-specific logarithmic spectrum powers from the n logarithmic conversion units 6-1 to 6-n, and as a result, the normalized n The logarithmic spectral power of each band was used as the characteristic parameters P 1 , P 2 , P 3 , ..., Po . In the present invention, the logarithmic spectral power of each band for one or more channels of the high frequency portion is as follows:
Although it is used to calculate the average value in the average value calculation unit 7, it is not used as a voice characteristic parameter and is removed. That is, (m+1)
The output from the logarithmic conversion unit 6-n of the nth highest frequency band is used only for calculating the average value, and is removed after calculating the average value. And subtractors 8-1 to 8 for subtracting the obtained average value from the logarithmic spectral power by band.
As shown in the figure, m -m are prepared corresponding to the channels of the low frequency region. The average value of the band-specific logarithmic spectrum power output from the logarithmic conversion units 6-1 to 6-m is subtracted by each subtractor 8-1 to 8-m, and the results are used as feature parameters P 1 , P 2 As ,…,P n ,
It is transmitted to the speech recognition section 9. The speech recognition unit 9 uses a standard feature parameter time series registered in advance in the dictionary 10 using a feature parameter time series consisting of a set of m feature parameters;
For example, input speech is recognized by matching using the DP matching method. That is, to put it simply, the time axis is normalized, and the distance (P i - P' i ) between the m input feature parameters P i and the standard feature parameter P' i at the corresponding time point is calculated from i = 1 to i = m, and the monosyllable or word corresponding to the standard feature parameter for which the result of adding this for a series of time series is the minimum is set as the recognition result. The present inventors performed frequency analysis using the above-mentioned 19 band-pass filters, calculated the average value of the band-specific logarithmic spectral power of all channels, and found that the above-mentioned channel (CH) numbers 17 to 19 For the 16 band-specific log spectral powers excluding the band-specific log spectral power corresponding to 4.8KHz to 7.8KHz, the corrected 16 band-specific logarithms are calculated using the above average value. Speech recognition was performed using spectral power as a feature parameter for matching. We compared this with the results obtained by extracting 19 feature parameters from all 19 channels and performing speech recognition, and found no decrease in the speech recognition rate. On the other hand, frequency analysis was performed on 16 channels using 16 band-pass filters excluding those from channel numbers 17 to 19 in the high frequency band, and 16 feature parameters were extracted and speech recognition was attempted. In this case, the information in the high frequency range from 4.8KHz to 7.8KHz was not taken into account at all in the feature parameters, so the speech recognition rate clearly deteriorated. Note that the number of channels for frequency analysis, the bandwidth, and the number of feature parameter time series to be extracted are not limited to those in the above embodiment, but may vary depending on the required speech recognition rate, the amount of memory that can be prepared, and the calculation mechanism. , dictionary size, allowable matching processing time, etc., may be selected as appropriate. (E) Effects of the Invention As explained above, according to the present invention, the amount of matching/storing feature parameters can be reduced by simple means without reducing the speech recognition rate, and the amount of memory and calculation mechanism can be reduced. etc., and the recognition processing time can be shortened. Furthermore, if speech recognition is performed using the same number of feature parameters as in the past, the speech recognition rate will improve.

【図面の簡単な説明】[Brief explanation of drawings]

図は本発明の一実施例構成を示す。 図中、1は音声入力部、2はパラメータ抽出
部、3−1ないし3−nは帯域通過フイルタ、4
−1ないし4−nは整流器、5−1ないし5−n
はアナログ・デイジタル変換器、6−1ないし6
−nは対数変換部、7は平均値算出部、8−1な
いし8−mは減算器、9は音声認識部、10は辞
書を表わす。
The figure shows the configuration of an embodiment of the present invention. In the figure, 1 is an audio input section, 2 is a parameter extraction section, 3-1 to 3-n are band pass filters, 4
-1 to 4-n are rectifiers, 5-1 to 5-n
is an analog-to-digital converter, 6-1 to 6
-n is a logarithmic conversion unit, 7 is an average value calculation unit, 8-1 to 8-m are subtracters, 9 is a speech recognition unit, and 10 is a dictionary.

Claims (1)

【特許請求の範囲】 1 音声を周波数分析して得られる特徴パラメー
タ時系列の照合を行い音声を認識する音声認識装
置において、 所定の帯域特性をもつ多数チヤネルの帯域フイ
ルタと、 上記各帯域フイルタの出力を帯域別のスペクト
ル電力に変換する回路と、 上記帯域別スペクトル電力を対数変換して帯域
別対数スペクトル電力を算出する対数変換部と、 全チヤネルについての上記帯域別対数スペクト
ル電力の平均値を算出する平均値算出部と、 該平均値算出部の出力結果に基づいて上記全チ
ヤネルのうち高周波数帯域部分の1または複数チ
ヤネルを除く低域部分の上記帯域別対数スペクト
ル電力について正規化の変換を行う変換部とをそ
なえ、 照合用特徴パラメータ時系列として、上記変換
後の帯域別対数スペクトル電力を使用することを
特徴とする音声認識装置。
[Claims] 1. A speech recognition device that recognizes speech by collating feature parameter time series obtained by frequency analysis of speech, comprising: a multi-channel band filter having predetermined band characteristics; and a band filter of each of the above band filters. a circuit that converts the output into spectral power for each band; a logarithmic conversion unit that performs logarithmic transformation of the spectral power for each band to calculate logarithmic spectral power for each band; and an average value of the logarithmic spectral power for each band for all channels. an average value calculation unit that calculates the average value calculation unit; and normalization conversion for the logarithmic spectral power of each band in the low frequency band excluding one or more channels in the high frequency band area among all the channels based on the output result of the average value calculation unit. A speech recognition device, comprising: a conversion unit that performs the above conversion, and uses the band-specific logarithmic spectral power after the conversion as the feature parameter time series for matching.
JP57229279A 1982-12-29 1982-12-29 Voice recognition system Granted JPS59123897A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57229279A JPS59123897A (en) 1982-12-29 1982-12-29 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57229279A JPS59123897A (en) 1982-12-29 1982-12-29 Voice recognition system

Publications (2)

Publication Number Publication Date
JPS59123897A JPS59123897A (en) 1984-07-17
JPH0146080B2 true JPH0146080B2 (en) 1989-10-05

Family

ID=16889618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57229279A Granted JPS59123897A (en) 1982-12-29 1982-12-29 Voice recognition system

Country Status (1)

Country Link
JP (1) JPS59123897A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61278899A (en) * 1985-06-05 1986-12-09 株式会社東芝 Filter for collation of speaker

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS565597A (en) * 1979-06-26 1981-01-21 Sanyo Electric Co Voice identifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS565597A (en) * 1979-06-26 1981-01-21 Sanyo Electric Co Voice identifier

Also Published As

Publication number Publication date
JPS59123897A (en) 1984-07-17

Similar Documents

Publication Publication Date Title
JPS63503487A (en) audio processing device
CN112017658A (en) Operation control system based on intelligent human-computer interaction
Elenius et al. Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system
Li et al. A high-performance auditory feature for robust speech recognition.
JPH0146080B2 (en)
JPH0146079B2 (en)
JPS59172695A (en) Voice parameter extraction system
JPH0146078B2 (en)
Flynn et al. A comparative study of auditory-based front-ends for robust speech recognition using the Aurora 2 database
US4833711A (en) Speech recognition system with generation of logarithmic values of feature parameters
JPS6229798B2 (en)
JPH0461359B2 (en)
JP3023135B2 (en) Voice recognition device
JPS61206000A (en) Voice recognition equipment
Hernando Pericás et al. Speaker verification on the polycost database using frequency filtered spectral energies
JPS61281300A (en) Voice recognition equipment
JPS61228500A (en) Voice recognition
JPH0410080B2 (en)
JPS59116700A (en) Voice recognition equipment
JPH0814760B2 (en) Spectrum normalizer
JP3002211B2 (en) Unspecified speaker speech recognition device
Umakanthan et al. A perceptual masking based feature set for speech recognition
JPS6315298A (en) Pattern generation system
CN115602190A (en) Forged voice detection algorithm and system based on main body filtering
Carey Robust speech recognition using non-linear spectral smoothing.