JPH0844390A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH0844390A
JPH0844390A JP6173990A JP17399094A JPH0844390A JP H0844390 A JPH0844390 A JP H0844390A JP 6173990 A JP6173990 A JP 6173990A JP 17399094 A JP17399094 A JP 17399094A JP H0844390 A JPH0844390 A JP H0844390A
Authority
JP
Japan
Prior art keywords
noise
spectrum
frequency
voice
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6173990A
Other languages
Japanese (ja)
Inventor
Kenichi Taniguchi
賢一 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6173990A priority Critical patent/JPH0844390A/en
Publication of JPH0844390A publication Critical patent/JPH0844390A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To provide a voice recognition device capable of recognizing a voice in which a noise is superposed as an input by estimating an environmental noise in a frequency area so as to follow up an input noise. CONSTITUTION:This device is constituted of a noise eliminating/feature extracting part 32 inputting and updating always the environmental noise and obtaining feature values obtained by subtracting the spectrum of a noise from the spectrum of the noise in which the noise is superposed, a standard pattern dictionary 36 in which feature values of standard patterns are stored, a similarity degree comparison part 34 comparing the feature values of an input with the feature values of the standard patterns and a decision processing part 35 deciding a final recognition result, and the recognition performance in the voice in which the noise is superposed is improved by updating an estimated noise so as to follow up the timewise change of frequency characteristic of the noise.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、雑音除去処理部を備え
た音声認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device having a noise elimination processing section.

【0002】[0002]

【従来の技術】近年、より良いマンマシンインタフェー
スが要求されるようになってきたこと、DSP(デジタ
ルシグナルプロセッサ)などのハードウェア能力の向上
により安価なものが作れるようになったことにより、各
種の機器のマンマシンインタフェースとして音声認識装
置が採用されるようになってきた。以下、図面を参照し
ながら従来の音声認識装置について説明を行う。
2. Description of the Related Art In recent years, a better man-machine interface has been demanded, and cheap ones have been made possible by improving hardware capabilities such as DSP (digital signal processor). The voice recognition device has come to be adopted as a man-machine interface of the device. Hereinafter, a conventional voice recognition device will be described with reference to the drawings.

【0003】図6は従来の音声認識装置の構成を示すブ
ロック図であり、図中、1はマイク、2は雑音除去処理
部、3は特徴抽出部、4は類似度比較部、5は判定処理
部、6は標準パタン辞書である。
FIG. 6 is a block diagram showing the structure of a conventional speech recognition apparatus. In the figure, 1 is a microphone, 2 is a noise removal processing section, 3 is a feature extraction section, 4 is a similarity comparison section, and 5 is a judgment. The processing unit 6 is a standard pattern dictionary.

【0004】以上のように構成された従来の音声認識装
置について、以下その動作を説明する。マイク1から入
力された音声は、雑音除去処理部2で周囲雑音が除かれ
た信号となり、特徴抽出部3で10ms程度の周期で線
形予測分析あるいはフーリエ分析などの方法で周波数分
析され、かつ、音声の始端、終端の検知を行い、音声区
間の周波数分析結果が得られる。類似度計算部4では特
徴抽出部3からの音声区間の周波数分析結果と標準パタ
ン辞書6に登録されている複数の単語の音声区間の周波
数分析結果を比較し、最も類似した単語の周波数分析結
果の類似度を得る。判定処理部5では類似度計算部4か
らの類似度がある閾値よりも似ているか判定し、似てい
ればその単語を認識結果として出力する。
The operation of the conventional speech recognition apparatus configured as described above will be described below. The voice input from the microphone 1 becomes a signal from which ambient noise is removed by the noise removal processing unit 2, is frequency-analyzed by the feature extraction unit 3 at a period of about 10 ms by a method such as linear prediction analysis or Fourier analysis, and The start and end of the voice are detected, and the frequency analysis result of the voice section is obtained. The similarity calculation unit 4 compares the frequency analysis result of the voice section from the feature extraction unit 3 with the frequency analysis result of the voice section of a plurality of words registered in the standard pattern dictionary 6, and the frequency analysis result of the most similar word. To obtain the similarity. The determination processing unit 5 determines whether the similarity from the similarity calculation unit 4 is more similar than a threshold value, and if similar, outputs the word as a recognition result.

【0005】さらに、従来の音声認識装置で行われてい
る雑音除去処理部2について動作を説明する。従来の雑
音除去処理部の手法として主なものが2種類ある。一つ
は1979年4月に発表されたIEEE Transa
cion on Acoustics,speech,
and signal processing vo
l.ASSP−27 No.2pp.113−120
「Supressionof Acoustic No
ise Speech Using Spectral
Subtraction」で示されるスペクトルサブ
トラクション法であり、もう一つは1988年5月に発
表された電子情報通信学会論文誌A vol.J71−
A No.5 pp.1100−1108「雑音環境下
の単語音声認識の性能改善」で示される適応コムフィル
タ法である。
Further, the operation of the noise removal processing unit 2 which is performed in the conventional voice recognition apparatus will be described. There are two main types of conventional noise removal processing methods. One is the IEEE Transa announced in April 1979.
cion on Acoustics, speech,
and signal processing vo
l. ASSP-27 No. 2 pp. 113-120
"Supression of Acoustic No
is Speech Using Spectral
Subtraction "is the spectral subtraction method, and the other is the spectral subtraction method, which is published in May 1988, the Institute of Electronics, Information and Communication Engineers, A volume. J71-
A No. 5 pp. 1100-1108 "Adaptive comb filter method" shown in "Improving performance of word speech recognition in noisy environment".

【0006】まず、スペクトルサブトラクション法につ
いて説明する。図7は従来の音声認識装置の雑音除去部
のブロック図である。雑音の重畳した音声信号はフーリ
エ分析部11と音声区間検知部15に入力される。フー
リエ分析部11では入力信号である雑音の重畳した音声
信号に対して10ms程度の周期で20ms程度の区間
の信号を用いてフーリエ分析する。フーリエ分析した結
果は実数部と虚数部から構成されるため、これを振幅と
位相に変換する。各周波数に対応する振幅情報は振幅引
算部12と雑音記憶部16に出力される。また、各周波
数に対応する位相情報は逆フーリエ処理部14に出力さ
れる。音声区間検知部15では入力される雑音信号の重
畳した音声信号及び音声のない区間での雑音信号から音
声のある区間のみを判別する。これは入力信号のパワー
情報を用いてパワーの大きいところでは音声のある区間
として、また、パワーの小さいところでは音声のない区
間とする。この音声のあり/なしの情報は雑音記憶部1
6に出力される。雑音記憶部16では音声区間検知部1
5から音声なしの信号がきたとき、フーリエ分析部11
からの各周波数に対応する振幅情報を雑音の振幅情報と
して記憶する。振幅引算部12ではフーリエ分析部11
からの雑音の重畳した音声信号の各周波数に対応する振
幅から雑音記憶部16で記憶している各周波数に対する
雑音の振幅を各々の周波数について引き算し、音声のみ
の振幅を計算する。半波整流部13では振幅引算部12
での雑音の重畳した音声の振幅から雑音のみの振幅を引
き算した結果、振幅が負になる周波数についてその振幅
を0にする。逆フーリエ処理部14では半波整流部13
からの各周波数に対応する振幅とフーリエ分析部11か
らの各信号に対応する位相から雑音が除かれた音声波形
を合成することにより、雑音のない音声波形が得られ
る。
First, the spectral subtraction method will be described. FIG. 7 is a block diagram of a noise removing unit of a conventional voice recognition device. The voice signal on which noise is superimposed is input to the Fourier analysis unit 11 and the voice section detection unit 15. The Fourier analysis unit 11 performs a Fourier analysis on the speech signal on which noise, which is an input signal, is superimposed using a signal in a section of about 20 ms at a cycle of about 10 ms. Since the result of the Fourier analysis is composed of a real part and an imaginary part, it is converted into an amplitude and a phase. Amplitude information corresponding to each frequency is output to the amplitude subtraction unit 12 and the noise storage unit 16. In addition, the phase information corresponding to each frequency is output to the inverse Fourier processing unit 14. The voice section detector 15 discriminates only the section having voice from the voice signal in which the noise signal is superimposed and the noise signal in the section having no voice. This is performed by using the power information of the input signal, where there is a voice when the power is high and there is no voice when the power is low. The information regarding the presence / absence of this voice is the noise storage unit 1.
6 is output. In the noise storage unit 16, the voice section detection unit 1
When a voiceless signal comes from 5, the Fourier analysis unit 11
The amplitude information corresponding to each frequency from is stored as noise amplitude information. In the amplitude subtraction unit 12, the Fourier analysis unit 11
The amplitude of noise for each frequency stored in the noise storage unit 16 is subtracted for each frequency from the amplitude corresponding to each frequency of the voice signal on which the noise is superposed, and the amplitude of only the voice is calculated. In the half-wave rectification unit 13, the amplitude subtraction unit 12
As a result of subtracting the amplitude of only the noise from the amplitude of the voice on which the noise is superimposed, the amplitude is set to 0 for the frequency at which the amplitude becomes negative. In the inverse Fourier processing unit 14, the half-wave rectification unit 13
A noise-free voice waveform is obtained by synthesizing a voice waveform from which noise has been removed from the amplitude corresponding to each frequency from 1 to and the phase corresponding to each signal from the Fourier analysis unit 11.

【0007】次に、適応コムフィルタ法について説明す
る。図8は従来の音声認識装置の雑音除去部のブロック
図である。雑音の重畳した音声信号はフーリエ分析部2
1とピッチ周波数抽出部26に入力される。フーリエ分
析部21では入力信号である雑音の重畳した音声信号に
対して10ms程度の周期で20ms程度の区間の信号
を用いてフーリエ分析する。フーリエ分析した結果は実
数部と虚数部から構成されるため、これを振幅と位相に
変換する。各周波数に対する振幅情報は線スペクトル列
抽出処理部22と雑音バイアス推定処理部23と雑音引
算処理部24に出力される。また、各周波数に対応する
位相情報は逆フーリエ処理部25に出力される。ピッチ
周波数抽出部26では入力された雑音の重畳した音声信
号から音声ピッチ周波数の抽出を行う。ピッチ周波数の
抽出は雑音の重畳した音声信号および線形予測分析後の
残差信号の自己相関関数のうち最大値を示すものの遅延
時間をピッチの周期とする。ここでピッチ周波数は線ス
ペクトル列抽出処理部22に、最大値の自己相関関数の
値を雑音引算処理部24に出力する。線スペクトル列抽
出処理部22ではフーリエ分析部21からの各周波数に
対応する振幅からピッチ周波数抽出部26で抽出された
ピッチ周波数の整数倍の周波数に対応する周波数の振幅
情報のみを抜き出す。抜き出された後の振幅情報はピッ
チ周波数の整数倍の部分のみに成分がある櫛形になる。
このピッチ周波数の整数倍の部分のみからなる振幅デー
タは雑音バイアス推定処理部23と雑音引算処理部24
に出力される。雑音バイアス推定処理部23では、フー
リエ分析部21からの雑音の重畳した音声のスペクトル
から線スペクトル列抽出処理部22で抽出した音声のピ
ッチの整数倍の成分を除いた雑音のみの成分を抽出す
る。抽出した雑音成分のスペクトルは一定帯域幅のいく
つかの帯域に分割され、各帯域毎に平均スペクトルを求
め、雑音のスペクトルとする。求めた雑音のスペクトル
は雑音引算処理部24に出力される。雑音引算処理部2
4では、ピッチ周波数抽出部26からの最大値の自己相
関関数の値が閾値より大きい時は入力の音声が有声音で
あると判定し、線スペクトル列抽出処理部22で抽出し
た音声の線スペクトル列から雑音バイアス推定処理部2
3で求めた雑音のスペクトルを引き算する。スペクトル
が負の部分はスペクトルを零とする。ピッチ周波数抽出
部26からの最大値の自己相関関数の値が閾値より小さ
い時は入力の音声が無声音であると判定し、フーリエ分
析部21からの雑音重畳した音声のスペクトルから雑音
バイアス推定処理部23で求めた雑音のスペクトルを引
き算する。この引き算の結果を逆フーリエ処理部25に
出力する。逆フーリエ処理部25では雑音引算処理部2
4からの各周波数に対応する振幅とフーリエ分析部21
からの各信号に対応する位相から雑音が除かれた音声波
形を合成することにより、雑音のない音声波形が得られ
る。
Next, the adaptive comb filter method will be described. FIG. 8 is a block diagram of a noise removing unit of a conventional voice recognition device. The voice signal on which noise is superimposed is the Fourier analysis unit 2
1 is input to the pitch frequency extraction unit 26. The Fourier analysis unit 21 performs a Fourier analysis on the speech signal on which noise, which is an input signal, is superimposed using a signal in a section of about 20 ms at a cycle of about 10 ms. Since the result of the Fourier analysis is composed of a real part and an imaginary part, it is converted into an amplitude and a phase. The amplitude information for each frequency is output to the line spectrum sequence extraction processing unit 22, the noise bias estimation processing unit 23, and the noise subtraction processing unit 24. The phase information corresponding to each frequency is output to the inverse Fourier processing unit 25. The pitch frequency extraction unit 26 extracts a voice pitch frequency from the input voice signal on which noise is superimposed. To extract the pitch frequency, the delay time of the maximum value of the autocorrelation functions of the speech signal with noise and the residual signal after the linear prediction analysis is used as the pitch period. Here, the pitch frequency is output to the line spectrum sequence extraction processing unit 22 and the maximum value of the autocorrelation function is output to the noise subtraction processing unit 24. The line spectrum sequence extraction processing unit 22 extracts only the amplitude information of the frequency corresponding to the frequency that is an integral multiple of the pitch frequency extracted by the pitch frequency extraction unit 26 from the amplitude corresponding to each frequency from the Fourier analysis unit 21. The amplitude information after being extracted has a comb shape in which the component is present only at a portion of an integral multiple of the pitch frequency.
Amplitude data consisting of only an integral multiple of the pitch frequency is used for the noise bias estimation processing unit 23 and the noise subtraction processing unit 24.
Is output to The noise bias estimation processing unit 23 extracts the noise-only component from the spectrum of the voice on which the noise is superimposed from the Fourier analysis unit 21, excluding the component that is an integer multiple of the pitch of the voice extracted by the line spectrum sequence extraction processing unit 22. . The extracted spectrum of the noise component is divided into several bands having a constant bandwidth, and an average spectrum is obtained for each band, which is used as the noise spectrum. The obtained noise spectrum is output to the noise subtraction processing unit 24. Noise subtraction processing unit 2
In 4, when the value of the maximum autocorrelation function from the pitch frequency extraction unit 26 is larger than the threshold value, it is determined that the input voice is voiced sound, and the line spectrum of the voice extracted by the line spectrum sequence extraction processing unit 22. Column to noise bias estimation processing unit 2
Subtract the noise spectrum obtained in 3. The part where the spectrum is negative is set to zero. When the value of the maximum autocorrelation function from the pitch frequency extraction unit 26 is smaller than the threshold value, it is determined that the input voice is unvoiced sound, and the noise bias estimation processing unit determines from the spectrum of the voice with noise superimposed from the Fourier analysis unit 21. The noise spectrum obtained in step 23 is subtracted. The result of this subtraction is output to the inverse Fourier processing unit 25. In the inverse Fourier processing unit 25, the noise subtraction processing unit 2
Amplitude corresponding to each frequency from 4 and Fourier analysis unit 21
A noise-free voice waveform is obtained by synthesizing a voice waveform from which noise has been removed from the phase corresponding to each signal from.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、上記し
た従来の音声認識装置の雑音除去処理部では、スペクト
ルサブトラクション法の場合については雑音の推定量を
計算するためにどれだけ過去にまでさかのぼり、何フレ
ーム分の周波数特徴量の平均をとれば最大の効果が得ら
れるかを求めるための明確な手段がないという問題点、
適応コムフィルタについては音声の基本周波数を求めな
ければならず、雑音の混じった音声について音声の基本
周波数を求めることが難しく、良い性能が得られないと
いう問題点を有していた。
However, in the noise removal processing unit of the conventional speech recognition apparatus described above, in the case of the spectral subtraction method, how many frames are traced back to the past in order to calculate the estimated amount of noise. The problem that there is no clear means to find out if the maximum effect is obtained by averaging the frequency feature amount of minutes,
For the adaptive comb filter, it is necessary to obtain the fundamental frequency of the voice, and it is difficult to obtain the fundamental frequency of the voice for a voice with noise, and there is a problem that good performance cannot be obtained.

【0009】本発明は、上記課題を解決し、雑音の重畳
した音声から雑音を除去する最大の効果を得るための明
確な手段を提供し、雑音の混じった音声でも効果的に動
作することが可能な音声認識装置を提供することを目的
とする。
The present invention solves the above-mentioned problems and provides a clear means for obtaining the maximum effect of removing noise from a voice on which noise is superimposed, and can effectively operate even in a voice with noise. An object is to provide a possible voice recognition device.

【0010】[0010]

【課題を解決するための手段】本発明は上記目的を達成
するために、所定時間間隔のフレーム毎に環境雑音及び
入力音声の分析をし、雑音を除去した特徴量の時系列を
抽出する雑音除去・特徴抽出部と、あらかじめ発声され
た単語音声から特徴を抽出した特徴量の時系列を格納し
た辞書と、入力された特徴量の時系列と辞書の複数の単
語の特徴量の時系列を比較し、各単語の類似度を計算す
る類似度計算部と、各単語の類似度から最も類似した単
語を選択する判定処理部とを備え、雑音除去・特徴抽出
部において、環境雑音を常時入力し、特徴分析する分析
部と雑音及び雑音の重畳した音声のスペクトルを時間方
向に平滑化するスペクトル平滑化処理部と、入力雑音の
雑音スペクトルを記憶する雑音スペクトル記憶部と、入
力雑音に追従するように雑音スペクトルを更新する雑音
スペクトル更新部を有し、平滑化処理部から出力される
スペクトルから雑音スペクトル記憶部において入力雑音
に追従するように更新されている雑音スペクトルを減算
するようにしたものである。
In order to achieve the above-mentioned object, the present invention analyzes the environmental noise and the input voice for each frame at a predetermined time interval, and extracts the noise-removed feature time series. A removal / feature extraction unit, a dictionary that stores a time series of feature quantities in which features are extracted from pre-vocalized word speech, a time series of input feature quantities and a time series of feature quantities of multiple words in the dictionary. Equipped with a similarity calculation unit that compares and calculates the similarity of each word, and a determination processing unit that selects the most similar word from the similarity of each word.Environmental noise is constantly input in the noise removal / feature extraction unit. Then, an analysis unit for feature analysis, a spectrum smoothing processing unit for smoothing the spectrum of noise and a voice on which noise is superimposed, a noise spectrum storage unit for storing the noise spectrum of the input noise, and tracking the input noise. As described above, the noise spectrum updating unit for updating the noise spectrum is provided, and the noise spectrum updated so as to follow the input noise in the noise spectrum storage unit is subtracted from the spectrum output from the smoothing processing unit. is there.

【0011】また、構成において、スペクトル平滑化処
理部の処理後、所定時間間隔のフレーム毎に求めたスペ
クトルの各周波数について、該当周波数のスペクトル成
分に対応するマスキングパタンを求め、該当周波数に隣
接する周波数のスペクトルを計算し、全周波数について
各周波数に対応するマスキングパタンによる総和を用い
て入力雑音の推定を行うことと雑音の重畳した音声から
雑音スペクトル記憶部に記憶されている雑音スペクトル
の減算を行うようにしたものである。
Further, in the configuration, after the processing of the spectrum smoothing processing unit, for each frequency of the spectrum obtained for each frame at a predetermined time interval, a masking pattern corresponding to the spectrum component of the relevant frequency is obtained and is adjacent to the relevant frequency. The frequency spectrum is calculated, the input noise is estimated using the sum of the masking patterns corresponding to each frequency for all frequencies, and the noise spectrum stored in the noise spectrum storage unit is subtracted from the speech with noise superimposed. It's something that you do.

【0012】[0012]

【作用】本発明は上記した構成により、特徴量抽出部の
前に入力雑音に自動的に追従する雑音除去部を設け、雑
音除去部により雑音の混じった音声から音声信号のみを
抽出する。
According to the present invention having the above-described structure, the noise removing unit that automatically follows the input noise is provided before the feature amount extracting unit, and the noise removing unit extracts only the voice signal from the noise-containing voice.

【0013】[0013]

【実施例】以下、本発明の一実施例について、図面を参
照しながら説明する。図1は本発明の一実施例の音声認
識装置の構成を示すブロック図であり、図中、31はマ
イク、32は雑音除去・特徴抽出部、34は類似度比較
部、35は判定処理部、36は標準パタン辞書である。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of a speech recognition apparatus according to an embodiment of the present invention. In the figure, 31 is a microphone, 32 is a noise removal / feature extraction unit, 34 is a similarity comparison unit, and 35 is a determination processing unit. , 36 are standard pattern dictionaries.

【0014】以上のように構成された音声認識装置につ
いて、以下その動作を説明する。マイク31から入力さ
れた音声は、雑音除去・特徴抽出部32で10ms程度
の周期でフーリエ分析され、後に述べる雑音除去方法に
より周囲雑音が除かれた周波数分析結果が得られる。ま
た、同時に音声の始端、終端の検知を行い音声区間を検
知する。類似度比較部34では雑音除去・特徴抽出部3
2からの音声区間の周波数分析結果と標準パタン辞書3
6に登録されている複数の単語の音声区間の周波数分析
結果を比較し、最も類似した単語の周波数分析結果の類
似度を得る。判定処理部35では類似度比較部34から
の類似度がある閾値よりも似ているか判定し、似ていれ
ばその単語を認識結果として出力する。
The operation of the speech recognition apparatus configured as described above will be described below. The voice input from the microphone 31 is Fourier-analyzed by the noise removal / feature extraction unit 32 in a cycle of about 10 ms, and a frequency analysis result in which ambient noise is removed by a noise removal method described later is obtained. At the same time, the start and end of the voice are detected to detect the voice section. In the similarity comparison unit 34, the noise removal / feature extraction unit 3
Frequency analysis result of voice section from 2 and standard pattern dictionary 3
The frequency analysis results of the voice sections of the plurality of words registered in No. 6 are compared, and the similarity of the frequency analysis results of the most similar word is obtained. The determination processing unit 35 determines whether the similarity from the similarity comparing unit 34 is more similar than a certain threshold, and if similar, outputs the word as a recognition result.

【0015】図2は本発明の一実施例の音声認識装置の
雑音除去・特徴抽出部のブロック図であり、図3は同動
作のフローチャートである。図2において41はフーリ
エ分析部、42はフーリエ係数バッファ、43はスペク
トル平滑化処理部、45はケプストラム処理部、46は
雑音スペクトル記憶部、47は雑音スペクトル更新部、
48は音声区間検出部である。
FIG. 2 is a block diagram of the noise removal / feature extraction unit of the speech recognition apparatus according to one embodiment of the present invention, and FIG. 3 is a flowchart of the same operation. In FIG. 2, 41 is a Fourier analysis unit, 42 is a Fourier coefficient buffer, 43 is a spectrum smoothing processing unit, 45 is a cepstrum processing unit, 46 is a noise spectrum storage unit, 47 is a noise spectrum updating unit,
Reference numeral 48 is a voice section detection unit.

【0016】以上のように構成された雑音除去・特徴抽
出部について、以下その動作を図2と図3を参照して説
明する。雑音の重畳した音声信号はステップ1で入力さ
れ、、フーリエ分析部41に入力される。ステップ2に
おいて、フーリエ分析部41では入力信号である雑音の
重畳した音声信号に対して10ms程度の周期で20m
s程度の区間の信号を用いてフーリエ分析する。フーリ
エ分析した結果は実数部と虚数部からなる複素数で構成
されるため、これを振幅と位相に変換する。フーリエ分
析での各周波数に対応する振幅情報はフーリエ係数バッ
ファ42に出力される。ステップ3において、フーリエ
係数バッファ42では、入力された過去3フレーム程度
の振幅情報を記憶しておく。記憶の際にはバッファの容
量が有限のため、一番過去の振幅情報を消去して、最新
の振幅情報を記憶することで最新から3フレーム程度の
振幅情報を記憶する。スペクトル平滑化処理部43では
(数1)のようにフーリエ係数バッファ42に記憶され
ている最新Kフレーム分の各周波数に対応する振幅情報
X(i,k)の平均をとり、雑音が重畳する音声信号か
ら雑音がランダムに変化することを利用して変動のない
雑音の重畳した音声信号Xd(i)を推定する。
The operation of the noise removal / feature extraction unit configured as described above will be described below with reference to FIGS. 2 and 3. The voice signal on which noise is superimposed is input in step 1 and input to the Fourier analysis unit 41. In step 2, in the Fourier analysis unit 41, the noise signal which is the input signal is superimposed on the speech signal by 20 m at a cycle of about 10 ms.
Fourier analysis is performed using the signal in the section of about s. The result of the Fourier analysis is composed of a complex number consisting of a real number part and an imaginary number part, so this is converted into an amplitude and a phase. Amplitude information corresponding to each frequency in the Fourier analysis is output to the Fourier coefficient buffer 42. In step 3, the Fourier coefficient buffer 42 stores the inputted amplitude information of the past three frames or so. Since the capacity of the buffer is limited during storage, the earliest amplitude information is erased and the latest amplitude information is stored, so that the amplitude information of about 3 frames from the latest is stored. The spectrum smoothing processing unit 43 averages the amplitude information X (i, k) corresponding to each frequency for the latest K frames stored in the Fourier coefficient buffer 42 as shown in (Equation 1), and noise is superimposed. The noise varying randomly from the voice signal is used to estimate the voice signal Xd (i) on which the noise having no fluctuation is superimposed.

【0017】[0017]

【数1】 [Equation 1]

【0018】ステップ4では、音声区間検出部48にお
いて、現在の分析データが音声であるか、雑音であるか
の判定を、現在の入力信号のパワーの時間的変化から求
める。(数2)に示すように前の分析フレームのパワー
と現在の分析フレームのパワーの比がパワー比の閾値T
Hpよりも大きい時、音声が始まったと判定する。
In step 4, the voice section detector 48 determines from the temporal change in the power of the current input signal whether the current analysis data is voice or noise. As shown in (Equation 2), the ratio of the power of the previous analysis frame and the power of the current analysis frame is the threshold value T of the power ratio.
When it is larger than Hp, it is determined that the voice has started.

【0019】[0019]

【数2】 [Equation 2]

【0020】また、(数3)に示すように、閾値よりも
小さい状態が(数4)に示すように継続時間の閾値TH
dより続いた時に、音声の終了と判断する。
Further, as shown in (Equation 3), a state smaller than the threshold value is represented by (Equation 4).
When it continues from d, it is judged that the voice has ended.

【0021】[0021]

【数3】 (Equation 3)

【0022】[0022]

【数4】 [Equation 4]

【0023】ステップ5において、雑音スペクトル記憶
部46で記憶している雑音信号N(i)は雑音スペクト
ル更新部47により更新される。雑音信号N(i)は
(数5)のようにスペクトル平滑化処理部43の出力の
各周波数に対応する振幅情報Xd(i)と、後で示すE
(i)を用いて計算される。
In step 5, the noise signal N (i) stored in the noise spectrum storage unit 46 is updated by the noise spectrum updating unit 47. The noise signal N (i) is amplitude information Xd (i) corresponding to each frequency of the output of the spectrum smoothing processing unit 43 as shown in (Equation 5), and E shown later.
Calculated using (i).

【0024】[0024]

【数5】 (Equation 5)

【0025】ステップ5において、雑音スペクトル更新
部47で用いている値μは音声区間検出部48の結果に
より(数6)に従って変化する。(数5)のように雑音
信号N(i)は雑音が入力されている間は入力雑音に適
応して変化し、雑音の重畳した音声が入力されている間
は、直前までに適応した雑音信号を保持するように、音
声区間検出部48で入力信号が雑音であると判定された
時にはゼロでない定数を、音声が入力された時にはゼロ
とする。
In step 5, the value μ used in the noise spectrum updating section 47 changes according to (Equation 6) according to the result of the voice section detecting section 48. As shown in (Equation 5), the noise signal N (i) changes adaptively to the input noise while noise is being input, and while the noise-superimposed speech is being input, the noise signal that has been applied until immediately before is input. In order to hold the signal, a constant that is not zero when the input signal is determined to be noise by the voice section detection unit 48 is set to zero when voice is input.

【0026】[0026]

【数6】 (Equation 6)

【0027】音声区間検出部48において、音声と判定
されたときは、ケプストラム処理部45では、ステップ
6において(数7)のようにスペクトル平滑化処理部4
3からの音声信号Xd(i)から雑音スペクトル記憶部
46に記憶さている雑音信号N(i)を引いた値E
(i)を求め、ステップ7でケプストラム分析する。
When the voice section detecting unit 48 determines that the voice is a voice, the cepstrum processing unit 45 calculates the spectrum smoothing processing unit 4 in step 6 as shown in (Equation 7).
A value E obtained by subtracting the noise signal N (i) stored in the noise spectrum storage unit 46 from the voice signal Xd (i)
(I) is obtained and cepstrum analysis is performed in step 7.

【0028】[0028]

【数7】 (Equation 7)

【0029】ケプストラム係数c(i)は(数8)のよ
うに複素数E(i)の大きさを求め、その対数をとって
逆フーリエ変換することにより求め、ステップ8で雑音
除去・特徴抽出部32の出力とする。
The cepstrum coefficient c (i) is obtained by obtaining the magnitude of the complex number E (i) as shown in (Equation 8), and taking the logarithm thereof and performing the inverse Fourier transform, and at step 8, the noise elimination / feature extraction unit 32 output.

【0030】[0030]

【数8】 (Equation 8)

【0031】以上のようにして、図1における雑音除去
・特徴抽出部32において、音声の始端、終端の検知を
行い、雑音の重畳した音声から周囲雑音が除かれた信号
の周波数分析結果としてケプストラム係数が得られる。
As described above, the noise removal / feature extraction unit 32 in FIG. 1 detects the start and end of a voice, and the cepstrum is obtained as a frequency analysis result of a signal in which ambient noise is removed from a voice on which noise is superimposed. The coefficient is obtained.

【0032】さらに、音声のスペクトルの同時マスキン
グによる効果を考慮にいれた雑音除去部の構成を図4に
示す。図4は本発明の一実施例の音声認識装置の雑音除
去部のブロック図、図5は同音声認識装置のマスキング
効果を示す図である。図4において、同時マスキング処
理部54が追加されている。同時マスキング処理部54
ではスペクトル平滑化処理部53の出力の各周波数に対
応する振幅情報Xd(i)を入力とし、以下に述べる同
時マスキング処理を行った出力を雑音スペクトル記憶部
56で記憶している各周波数に対応する振幅情報N
(i)との差をとる。同時マスキング処理は図5に示す
ような同時マスキング効果を実現する。その根拠は聴覚
器官である耳のうち、最も末端で周波数分析を行う基底
膜上の音を検知する有毛細胞の興奮パターンである。単
一の音に対して図5に相当するような各周波数に対応す
る有毛細胞の興奮を行うことがわかっている。これに対
応して、周波数フーリエ分析した各周波数の振幅に対し
て、同時マスキングにより中心周波数に隣接する周波数
の振幅もある割合で入力されたものとみなし、同時マス
キング効果を実現することができる。毎フレームのスペ
クトル平滑化処理部53の出力の各周波数に対応する振
幅情報Xd(i)に対して、それぞれの周波数の成分に
ついて図5に相当する範囲で隣接する各周波数の振幅を
計算する。(数9)に示すように、それぞれの周波数の
成分について求めたものを全部加算し、同時マスキング
の影響による各周波数に対応する振幅情報Xd’(i)
とする。
Further, FIG. 4 shows the configuration of the noise removing unit in consideration of the effect of simultaneous masking of the voice spectrum. FIG. 4 is a block diagram of the noise removing unit of the voice recognition apparatus according to the embodiment of the present invention, and FIG. 5 is a diagram showing a masking effect of the voice recognition apparatus. In FIG. 4, a simultaneous masking processing unit 54 is added. Simultaneous masking processing unit 54
Then, the amplitude information Xd (i) corresponding to each frequency of the output of the spectrum smoothing processing unit 53 is input, and the output subjected to the simultaneous masking process described below corresponds to each frequency stored in the noise spectrum storage unit 56. Amplitude information N
Take the difference from (i). The simultaneous masking process realizes the simultaneous masking effect as shown in FIG. The basis for this is the excitation pattern of hair cells that detect sounds on the basilar membrane of the ear, which is the auditory organ, for which frequency analysis is performed at the extreme ends. It is known that a single sound excites hair cells corresponding to each frequency as shown in FIG. Correspondingly, the amplitude of each frequency subjected to the frequency Fourier analysis can be regarded as having been input at a certain ratio to the amplitude of the frequency adjacent to the center frequency by the simultaneous masking, and the simultaneous masking effect can be realized. With respect to the amplitude information Xd (i) corresponding to each frequency of the output of the spectrum smoothing processing unit 53 for each frame, the amplitude of each frequency adjacent to each frequency component in the range corresponding to FIG. 5 is calculated. As shown in (Equation 9), the amplitude information Xd '(i) corresponding to each frequency due to the effect of simultaneous masking is added up by adding all the values obtained for the respective frequency components.
And

【0033】[0033]

【数9】 [Equation 9]

【0034】ここで、P(i,j)は中心周波数をiと
するマスキングパタンにおいて、中心周波数のマスキン
グレベルに対する周波数jのマスキングレベルの比であ
る。これ以降の処理は先に述べたXd(i)の代わりに
Xd’(i)を用いて処理を行うことになる。
Here, P (i, j) is the ratio of the masking level of frequency j to the masking level of the center frequency in the masking pattern with the center frequency being i. Subsequent processing will be performed using Xd '(i) instead of Xd (i) described above.

【0035】[0035]

【発明の効果】以上のように本発明は、雑音の推定量を
計算するための明確な手段を提供することができ、音声
の基本周波数を求める必要のない音声認識装置を実現で
きる。さらに従来の雑音除去部では、フーリエ分析し、
周波数領域で雑音除去処理を行い、次に逆フーリエ変換
で雑音の除去波形を求めてから特徴抽出していたのに対
し、本発明ではフーリエ変換し、雑音除去処理をした周
波数特徴量を波形に戻さずに特徴抽出することにより、
雑音除去処理と特徴抽出処理の削減を図ることができ
る。
As described above, the present invention can provide a clear means for calculating the estimated amount of noise, and can realize a voice recognition device that does not need to obtain the fundamental frequency of voice. Furthermore, in the conventional noise eliminator, Fourier analysis is performed,
Whereas the noise removal processing is performed in the frequency domain, and then the noise removal waveform is obtained by the inverse Fourier transform and then the feature extraction is performed, in the present invention, the Fourier transform is performed and the noise-removed frequency feature amount is converted into a waveform. By extracting the features without returning,
It is possible to reduce noise removal processing and feature extraction processing.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の音声認識装置の構成を示す
ブロック図
FIG. 1 is a block diagram showing the configuration of a voice recognition device according to an embodiment of the present invention.

【図2】本発明の一実施例の音声認識装置の雑音除去・
特徴抽出部のブロック図
FIG. 2 is a diagram showing a speech recognition device according to an embodiment of the present invention;
Block diagram of feature extraction unit

【図3】本発明の一実施例の音声認識装置の雑音除去・
特徴抽出部の動作のフローチャート
FIG. 3 is a diagram illustrating a noise removing unit of a voice recognition device according to an embodiment of the present invention.
Flowchart of operation of feature extraction unit

【図4】本発明の一実施例の音声認識装置の雑音除去部
のブロック図
FIG. 4 is a block diagram of a noise removing unit of the speech recognition apparatus according to the exemplary embodiment of the present invention.

【図5】本発明の一実施例の音声認識装置のマスキング
効果を示す図
FIG. 5 is a diagram showing a masking effect of the voice recognition device according to the embodiment of the present invention.

【図6】従来の音声認識装置の構成を示すブロック図FIG. 6 is a block diagram showing a configuration of a conventional voice recognition device.

【図7】従来の音声認識装置の雑音除去部のブロック図FIG. 7 is a block diagram of a noise removal unit of a conventional voice recognition device.

【図8】従来の音声認識装置の雑音除去部のブロック図FIG. 8 is a block diagram of a noise removal unit of a conventional voice recognition device.

【符号の説明】[Explanation of symbols]

32 雑音除去・特徴抽出部 34 類似度比較部 35 判定処理部 36 標準パタン辞書 41 フーリエ分析部 42,52 フーリエ係数バッファ 43,53 スペクトル平滑化処理部 54 同時マスキング処理部 45,55 ケプストラム処理部 46,56 雑音スペクトル記憶部 47,57 雑音スペクトル更新部 48,58 音声区間検出部 32 noise removal / feature extraction unit 34 similarity comparison unit 35 determination processing unit 36 standard pattern dictionary 41 Fourier analysis unit 42, 52 Fourier coefficient buffer 43, 53 spectrum smoothing processing unit 54 simultaneous masking processing unit 45, 55 cepstrum processing unit 46 , 56 Noise spectrum storage unit 47, 57 Noise spectrum update unit 48, 58 Voice section detection unit

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】音声認識において、所定時間間隔のフレー
ム毎に環境雑音及び入力音声の分析をし、雑音を除去し
た特徴量の時系列を抽出する雑音除去・特徴抽出部と、
あらかじめ発声された単語音声から特徴を抽出した特徴
量の時系列を格納した辞書と、入力された特徴量の時系
列と辞書の複数の単語の特徴量の時系列を比較し、各単
語の類似度を計算する類似度計算部と、各単語の類似度
から最も類似した単語を選択する判定処理部とを備え、 前記雑音除去・特徴抽出部において、環境雑音を常時入
力し、特徴分析する分析部と雑音及び雑音の重畳した音
声のスペクトルを時間方向に平滑化するスペクトル平滑
化処理部と、入力雑音の雑音スペクトルを記憶する雑音
スペクトル記憶部と、入力雑音に追従するように雑音ス
ペクトルを更新する雑音スペクトル更新部を有し、前記
平滑化処理部から出力されるスペクトルから前記雑音ス
ペクトル記憶部において入力雑音に追従するように更新
されている雑音スペクトルを減算することを特徴とする
音声認識装置。
1. In speech recognition, a noise removal / feature extraction unit that analyzes environmental noise and input speech for each frame at predetermined time intervals and extracts a time series of noise-removed feature quantities.
Similarity of each word is compared by comparing the time series of the input feature quantity with the time series of the feature quantity of multiple words in the dictionary, which stores the time series of the feature quantity in which the features are extracted from the spoken word speech in advance. And a similarity processing unit that calculates the degree of similarity, and a determination processing unit that selects the most similar word from the degrees of similarity of each word.In the noise removal / feature extraction unit, environmental noise is constantly input and analysis is performed for feature analysis. Section, noise and a spectrum smoothing processing unit that smoothes the spectrum of speech with noise superimposed in the time direction, a noise spectrum storage unit that stores the noise spectrum of the input noise, and the noise spectrum is updated to follow the input noise. And a noise spectrum updated from the spectrum output from the smoothing processing section so as to follow the input noise in the noise spectrum storage section. A speech recognition device characterized by subtracting a vector.
【請求項2】前記スペクトル平滑化処理の処理後、所定
時間間隔のフレーム毎に求めたスペクトルの各周波数に
ついて、該当周波数のスペクトル成分に対応するマスキ
ングパタンを求め、該当周波数に隣接する周波数のスペ
クトルを計算し、全周波数について各周波数に対応する
マスキングパタンによる総和を用いて入力雑音の推定を
行うことと雑音の重畳した音声から前記雑音スペクトル
記憶部に記憶されている雑音スペクトルの減算を行うこ
とを特徴とする請求項1記載の音声認識装置。
2. After the spectrum smoothing processing, a masking pattern corresponding to a spectrum component of the relevant frequency is obtained for each frequency of the spectrum obtained for each frame at a predetermined time interval, and a spectrum of a frequency adjacent to the relevant frequency is obtained. To estimate the input noise using the sum of the masking patterns corresponding to each frequency for all frequencies, and to subtract the noise spectrum stored in the noise spectrum storage unit from the noise-superimposed speech. The voice recognition device according to claim 1, wherein
JP6173990A 1994-07-26 1994-07-26 Voice recognition device Pending JPH0844390A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6173990A JPH0844390A (en) 1994-07-26 1994-07-26 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6173990A JPH0844390A (en) 1994-07-26 1994-07-26 Voice recognition device

Publications (1)

Publication Number Publication Date
JPH0844390A true JPH0844390A (en) 1996-02-16

Family

ID=15970733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6173990A Pending JPH0844390A (en) 1994-07-26 1994-07-26 Voice recognition device

Country Status (1)

Country Link
JP (1) JPH0844390A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100393196B1 (en) * 1996-10-23 2004-01-28 삼성전자주식회사 Apparatus and method for recognizing speech
JP2013015606A (en) * 2011-07-01 2013-01-24 Clarion Co Ltd Direct sound extraction device and reverberation sound extraction device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100393196B1 (en) * 1996-10-23 2004-01-28 삼성전자주식회사 Apparatus and method for recognizing speech
JP2013015606A (en) * 2011-07-01 2013-01-24 Clarion Co Ltd Direct sound extraction device and reverberation sound extraction device

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
JP5666444B2 (en) Apparatus and method for processing an audio signal for speech enhancement using feature extraction
KR101247652B1 (en) Apparatus and method for eliminating noise
JP3451146B2 (en) Denoising system and method using spectral subtraction
KR100713366B1 (en) Pitch information extracting method of audio signal using morphology and the apparatus therefor
CN110232933B (en) Audio detection method and device, storage medium and electronic equipment
JP5156043B2 (en) Voice discrimination device
US20090177468A1 (en) Speech recognition with non-linear noise reduction on mel-frequency ceptra
KR101892733B1 (en) Voice recognition apparatus based on cepstrum feature vector and method thereof
JP5752324B2 (en) Single channel suppression of impulsive interference in noisy speech signals.
CN111292758B (en) Voice activity detection method and device and readable storage medium
US6826528B1 (en) Weighted frequency-channel background noise suppressor
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
JP4965891B2 (en) Signal processing apparatus and method
US7966179B2 (en) Method and apparatus for detecting voice region
KR100784456B1 (en) Voice Enhancement System using GMM
JP2007093635A (en) Known noise removing device
JPH0844390A (en) Voice recognition device
JP4325044B2 (en) Speech recognition system
CN111226278B (en) Low complexity voiced speech detection and pitch estimation
JP4537821B2 (en) Audio signal analysis method, audio signal recognition method using the method, audio signal section detection method, apparatus, program and recording medium thereof
JP2000259198A (en) Device and method for recognizing pattern and providing medium
JP3761497B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
KR20040073145A (en) Performance enhancement method of speech recognition system