JP2966452B2 - Noise reduction system for speech recognizer - Google Patents

Noise reduction system for speech recognizer

Info

Publication number
JP2966452B2
JP2966452B2 JP1321753A JP32175389A JP2966452B2 JP 2966452 B2 JP2966452 B2 JP 2966452B2 JP 1321753 A JP1321753 A JP 1321753A JP 32175389 A JP32175389 A JP 32175389A JP 2966452 B2 JP2966452 B2 JP 2966452B2
Authority
JP
Japan
Prior art keywords
noise
section
speech
pattern
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1321753A
Other languages
Japanese (ja)
Other versions
JPH03180900A (en
Inventor
計美 大倉
正一 亀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Denki Co Ltd
Original Assignee
Sanyo Denki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Denki Co Ltd filed Critical Sanyo Denki Co Ltd
Priority to JP1321753A priority Critical patent/JP2966452B2/en
Publication of JPH03180900A publication Critical patent/JPH03180900A/en
Application granted granted Critical
Publication of JP2966452B2 publication Critical patent/JP2966452B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は音声認識装置の雑音除去システムに関する。The present invention relates to a noise removal system for a speech recognition device.

(ロ)従来の技術 現存する音声認識装置では、音声の特徴を有効に保持
した音声パタンを作成し、これをパタンマッチングする
ことで音声の識別を行うものが一般的である。
(B) Conventional technology In general, existing speech recognition apparatuses generally create a speech pattern that effectively retains the characteristics of speech, and identify the speech by pattern matching.

しかしながら、この種音声認識装置は無音響下で使用
されることはむしろ稀であるため、背景雑音下でも精度
の高い音声パタンを作成できないと実用に供することは
できない。
However, since this type of speech recognition device is rarely used under no sound, it cannot be put to practical use unless a highly accurate speech pattern can be created even under background noise.

このような雑音対策としては、従来は特公昭61−2960
号公報に開示の如く、入力の音声の音響パラメータ(例
えば、スペクトルパラメータ)時系列の各サンプルから
既知の雑音音響パラメータを差し引いて、雑音の影響の
ない音響パラメータ時系列を得、これに基づいて雑音が
除去された音声パタンを作成していた。
As a countermeasure against such noise, a conventional method has been known in Japanese Patent Publication No.
As disclosed in Japanese Unexamined Patent Application Publication, the known noise acoustic parameter is subtracted from each sample of the acoustic parameter (for example, spectrum parameter) time series of the input speech to obtain an acoustic parameter time series free from noise. A voice pattern from which noise was removed was created.

このような従来の雑音除去システムに於ては、雑音が
重畳した音声信号の第iサンプル(第iフレーム)の音
響パラメータをKi、既知の雑音音響パラメータをN、雑
音除去後の第iサンプルの音響パラメータをKiとした
場合、これらの関係は以下の式(1)となる。
In such a conventional noise removal system, the acoustic parameter of the i-th sample (i-th frame) of the audio signal on which noise is superimposed is Ki, the known noise acoustic parameter is N, and the i-th sample of the i-th sample after the noise removal is performed. Assuming that the acoustic parameter is * Ki, these relationships are represented by the following equation (1).

Ki=Ki−N ‥‥‥(1) これらのパラメータの時系列サンプルKp、Kp、Nは
16チャネルのスペクトルパラメータの場合、夫々16次元
のベクトルで表される。
* Ki = Ki-N ‥‥‥ (1) Time series sample of these parameters * Kp, Kp, N are
In the case of 16 channel spectral parameters, each is represented by a 16-dimensional vector.

しかしながら、このような音音響パラメータNとして
は、雑音区間の数サンプルの平均値が用いられるため
に、雑音のパワーの変動の程度(パワー分散)は全く考
慮されていない。
However, since the average value of several samples in the noise section is used as such a sound acoustic parameter N, the degree of fluctuation (power variance) of noise power is not considered at all.

即ち、雑音のパワー分散が大きい時には、音声区間の
音響パラメータの中で、パワーが著しく大きい雑音を含
むサンプルとそれが著しく小さい雑音を含むサンプルと
が存在する。従って、これらサンプルから上述の如く一
律に雑音音響パラメータNを差し引いても、相当な大き
さの雑音成分が残存することになり、有効な雑音除去に
は限界があった。
That is, when the power variance of the noise is large, there are a sample including noise with extremely large power and a sample including noise with extremely small power among the acoustic parameters of the voice section. Therefore, even if the noise acoustic parameter N is uniformly subtracted from these samples as described above, a considerable amount of noise component remains, and effective noise removal is limited.

第3図(a)及び(b)に音響パラメータであるスペ
クトルパラメータの特定周波数のスペクトルレベル信号
を模式的に示し、該模式図に用いて上述の雑音除去動作
について説明する。
3 (a) and 3 (b) schematically show a spectrum level signal of a specific frequency of a spectrum parameter which is an acoustic parameter, and the above-described noise removing operation will be described with reference to the schematic diagram.

例えば雑音のパワーが同図(a)の如く、極大値と極
小値との間にΔPの差をもって変動している場合は、式
(1)に基づく雑音除去システムによれば、同図(b)
の如く、ΔEレベルを持つ雑音が残存する。この残存雑
音レベルΔEは雑音のパワー分散が大きいほど大きくな
り、音声区間にもこのレベルの雑音の存在することにな
り、このようなスペクトルパラメータレベル信号に基づ
く音声パタンは残存雑音レベルΔE分だけ歪むことにな
る。
For example, when the power of the noise fluctuates with a difference of ΔP between the maximum value and the minimum value as shown in FIG. )
The noise having the ΔE level remains. The residual noise level ΔE increases as the power variance of the noise increases, and this level of noise also exists in the voice section. A voice pattern based on such a spectrum parameter level signal is distorted by the residual noise level ΔE. Will be.

また、このように雑音のパワー分散を考慮しない場合
には、雑音音響パラメータNのパワーの音声区間の音響
パラメータのそれに対する比率が大きい時、即ちパワー
S/N比が小さい時、上述のパワー分散の程度に応じた音
声パタンの歪みを回避することはできなかった。
In addition, when the power variance of noise is not taken into consideration, when the ratio of the power of the noise acoustic parameter N to that of the acoustic parameter in the voice section is large, that is, the power
When the S / N ratio is small, the distortion of the voice pattern according to the degree of the power dispersion described above cannot be avoided.

(ハ)発明か解決すべき課題 本発明は上述の点に鑑みてなされたものであって、雑
音のパワー分散の度合いによる悪影響を低減して有効な
雑音除去を可能とした音声認識装置の雑音除去システム
を実現するものである。
(C) Problems to be Solved by the Invention The present invention has been made in view of the above points, and has been made in consideration of the above-described problems. This implements a removal system.

(ニ)課題を解決するための手段 第1の本発明音声認識装置の雑音除去システムは、雑
音中に音声が存在する音響信号から音声の存在時間領域
を音声区間として検出する音声区間検出手段、該検出手
段で検出された音声区間外の雑音区間音響信号のパワー
成分の分散を算出する分散算出手段、雑音区間音響信号
から抽出した音響パラメータを時間軸正規化した雑音パ
タンを得る雑音パタン作成手段、該雑音パタンの重み付
けを上記分散値に基づいて制御し、該重み付け制御され
た雑音パタンを音声区間音響信号の音響パラメータから
差し引く雑音除去手段を備えるものである。
(D) Means for Solving the Problems A first aspect of the present invention provides a noise removal system for a voice recognition device, comprising: a voice section detecting means for detecting a voice existence time region from a voice signal in which voice exists in noise as a voice section; Variance calculating means for calculating the variance of the power component of the noise section sound signal outside the voice section detected by the detection means, and noise pattern creation means for obtaining a noise pattern obtained by time-axis normalizing the sound parameters extracted from the noise section sound signal , Noise control means for controlling the weighting of the noise pattern based on the variance value and subtracting the weighted and controlled noise pattern from the acoustic parameters of the audio signal of the voice section.

第2の本発明音声認識装置の雑音除去システムは、雑
音中に音声が存在する音響信号から音声の存在時間領域
を音声区間として検出する音声区間検出手段、該検出手
段で検出された音声区間音響信号のパワー成分と音声区
間外の雑音区間音響信号のパワー成分とを比較してS/N
比を算出するS/N比算出手段、雑音区間音響信号から抽
出した音響パラメータを時間軸正規化した雑音パタンを
得る雑音パタン作成手段、該雑音パタンの重み付けを上
記S/N比の逆数に比例するように制御し、該重み付け制
御された雑音パタンを音声区間音響信号の音響パラメー
タから差し引く雑音除去手段を備えるものである。
According to a second aspect of the present invention, there is provided a noise removal system for a voice recognition apparatus, comprising: a voice section detecting means for detecting a voice existence time region as a voice section from a voice signal in which voice is present in noise; and a voice section sound detected by the detection means. S / N by comparing the power component of the signal with the power component of the audio signal in the noise section outside the voice section
S / N ratio calculating means for calculating the ratio, noise pattern creating means for obtaining a noise pattern obtained by normalizing the acoustic parameters extracted from the noise section audio signal on the time axis, and weighting the noise pattern in proportion to the reciprocal of the S / N ratio And a noise removing means for subtracting the weighted and controlled noise pattern from the acoustic parameters of the audio segment audio signal.

(ホ)作用 本発明の音声認識装置の雑音除去システムによれば、
上述の式(1)は下記の式(2)に拡張される。
(E) Function According to the noise removal system of the speech recognition device of the present invention,
The above equation (1) is extended to the following equation (2).

Ki=Ki−βN ‥‥‥(2) 同式(2)のβは、従来の式(1)では定数β=1に
固定されていたものを変数として処理するものである。
即ち、第1の本発明ではこれを雑音のパワー分散の関数
とし、第2の本発明ではこれをS/N比の関数とすること
ができる。
* Ki = Ki−βN ‥‥‥ (2) In the equation (2), β is a variable that is fixed to a constant β = 1 in the conventional equation (1).
That is, in the first invention, this can be a function of noise power variance, and in the second invention, this can be a function of S / N ratio.

従って、第1の本発明では、雑音のパワー分散の大き
さに応じて式(2)の変数βを適応的に変更することに
より、Kiのサンプル列に基づく音声認識用音声パタン
の雑音による歪みを有効に低減することが可能となる。
Therefore, in the first aspect of the present invention, by adaptively changing the variable β in the equation (2) according to the magnitude of the power variance of the noise, the noise of the voice pattern for voice recognition based on the sample sequence of * Ki Distortion can be effectively reduced.

更に第2の本発明では、S/N比の逆数に比例して式
(2)の変数βを適応的に変更することにより、Kiの
サンプル列に基づく音声認識用音声パタンの雑音による
歪みを有効に低減することが可能となる。
Further, in the second aspect of the present invention, the distortion β due to noise of the speech pattern for speech recognition based on the sample sequence of * Ki is adaptively changed in proportion to the reciprocal of the S / N ratio. Can be effectively reduced.

(ヘ)実施例 第1図に第1の本発明音声認識装置の雑音除去システ
ムの構成を示す。
(F) Embodiment FIG. 1 shows the configuration of the noise removal system of the first speech recognition apparatus of the present invention.

同図に於て、1はマイクロホン。 In the figure, 1 is a microphone.

2はマイクロホン1から得られる音響信号を周波数分
析してスペクトルパラメータのサンプル時系列を抽出す
る分析部であり、例えば16チャンネルのバンドパスフィ
ルター構成からなる。
Reference numeral 2 denotes an analysis unit for frequency-analyzing an acoustic signal obtained from the microphone 1 to extract a sample time series of spectrum parameters, and is configured by, for example, a band-pass filter configuration of 16 channels.

3は音響信号からその音声区間を検出する音声区間検
出部であり、この場合、上記分析部2のスペクトルパラ
メータのサンプル時系列出力の各スペクトルレベルの平
均値を音響信号のレベルと見做して、音声が存在する場
合の最低レベルに相当する特定の敷値と比較し、この敷
値以上の時間領域が特定時間以上連続する区間を音声区
間と判定する。従って、この音声区間以外の区間は背景
雑音のみが存在する雑音区間と判定される。
Reference numeral 3 denotes a voice section detection unit for detecting the voice section from the audio signal. In this case, the average value of each spectrum level of the sample time series output of the spectrum parameter of the analysis unit 2 is regarded as the level of the audio signal. Then, a section in which a time region equal to or higher than the threshold value is continuous for a specific time or longer is determined as an audio section by comparing with a specific threshold value corresponding to the lowest level when a voice is present. Therefore, a section other than the voice section is determined to be a noise section in which only the background noise exists.

4は雑音区間のスペクトルパラメータの1サンプル、
或は特定数サンプル時系列を時間平均した平均サンプル
のいずれかからなる正規化パタンを雑音スペクトルパタ
ンとして作成する雑音パタン作成部であり、この場合音
声区間検出部から音声区間前の雑音区間に得られる雑音
スペクトルパラメータに基づいて雑音パタンNが作成さ
れる。
4 is one sample of the spectrum parameter of the noise section,
Alternatively, a noise pattern creation unit for creating a normalized pattern composed of any of averaged samples obtained by time-averaging a specific number of sample time series as a noise spectrum pattern. A noise pattern N is created based on the noise spectrum parameters obtained.

5は雑音スペクトルパラメータのサンプル時系列に対
してそのパワー分散を計算する分散算出部であり、上記
雑音パタン作成部4での雑音パタン作成時の雑音区間に
於いて上記音声区間検出部3から得られる雑音スペクト
ルパラメータからそのパワー分散を算出する。更に該分
散算出部5では算出された分散結果に基づき、上述の式
(2)の変数βを決定する。
Reference numeral 5 denotes a variance calculator for calculating the power variance of the sample time series of the noise spectrum parameter. The variance calculator 5 obtains the noise interval when the noise pattern is created by the noise pattern creator 4 from the speech interval detector 3. The power variance is calculated from the noise spectrum parameters obtained. Further, the variance calculation unit 5 determines the variable β of the above-described equation (2) based on the calculated variance result.

この場合の分散とは、雑音スペクトルパラメータの評
価サンプル数をJ、サンプル番号をjとした時、例え
ば、 V=Σ|Kj−M|2、但しM=(ΣKj)/J で表され、例えばこの値Vに比例した重み付け係数β
(V)が得られる。
The variance in this case is represented by, for example, V = Σ | Kj−M | 2 , where M = (ΣKj) / J, where J is the number of evaluation samples of the noise spectrum parameter and j is the sample number. Weighting coefficient β proportional to this value V
(V) is obtained.

6は音声区間検出部3から得られる音声区間のスペク
トルパラメータのサンプル時系列Kiの夫々からβで重み
付けされた雑音パタンβNを差し引く雑音除去部であ
り、式(2)を実現する。
Reference numeral 6 denotes a noise removing unit that subtracts a noise pattern βN weighted by β from each of the sample time series Ki of the spectral parameters of the voice section obtained from the voice section detection unit 3, and realizes Expression (2).

7は音声認識用の標準パタン記憶部であり、標準的な
音声のスペクトルパラメータの時間軸正規化(例えば32
サンプル)した音声パタンを複数の音声について予じめ
記憶している。この記憶処理は、特定話者を対称とする
場合には、音声の登録処理と呼ばれ、この登録処理は音
声認識処理に先だって、特定話者がマイクロホン1に発
声した音声から上記各処理部2〜6の動作によって雑音
除去された音声パタンを得、このパタンが該標準パタン
記憶部7に記憶されることになる。
Reference numeral 7 denotes a standard pattern storage unit for speech recognition, which normalizes the time axis of standard speech spectral parameters (for example, 32
The sampled voice pattern is stored in advance for a plurality of voices. When the specific speaker is symmetric, this storage processing is called voice registration processing. This registration processing is performed prior to the voice recognition processing from the voice uttered to the microphone 1 by the specific speaker. The voice pattern from which noise has been removed is obtained by the operations of (1) to (6), and this pattern is stored in the standard pattern storage unit 7.

8は上記雑音除去部6から得られる式(2)の音声区
間全領域に亘たるKiのサンプル時系列に基づき、これ
を上記標準パタン記憶部7のパタン同様に時間軸正規化
した音声パタンを得、更にこの音声パタンと上記標準パ
タン記憶部7の各標準音声パタンとをパタンマッチング
するマッチング部であり、最もマッチング誤差の小さい
標準音声パタンに対応した認識結果信号を出力する。
Reference numeral 8 denotes an audio pattern obtained by normalizing the time axis in the same manner as the pattern of the standard pattern storage unit 7 based on the sample time series of * Ki over the entire audio section of Equation (2) obtained from the noise removal unit 6. And a matching unit that performs pattern matching between the voice pattern and each of the standard voice patterns in the standard pattern storage unit 7, and outputs a recognition result signal corresponding to the standard voice pattern with the smallest matching error.

上述の構成の音声認識装置の雑音除去システムによれ
ば、第3図(a)のΔPが大きい時には、分散算出部5
で算出される分散値Vが大きくなるので、β(V)も大
きくなり、βNレベルが高くなるため、雑音除去部6で
は式(2)に従って、同図(b)の残存雑音ΔEが低減
されたKi時系列が得られる。従って、雑音成分が適切
に除去された音声パタンが得られることになり、標準パ
タン記憶部7並びにマッチング部8の音声認識処理によ
って背景雑音に影響されない有効な音声認識が行われ
る。
According to the noise removal system of the speech recognition device having the above-described configuration, when ΔP in FIG.
Since the variance value V calculated by the equation (2) increases, β (V) also increases, and the βN level increases, so that the noise elimination unit 6 reduces the residual noise ΔE in FIG. * Ki time series is obtained. Accordingly, a speech pattern from which noise components have been appropriately removed is obtained, and effective speech recognition that is not affected by background noise is performed by the speech recognition processing of the standard pattern storage unit 7 and the matching unit 8.

次に、第2の本発明音声認識装置の雑音除去システム
の構成を第2図に従って以下に解説する。
Next, the configuration of the noise elimination system of the speech recognition apparatus according to the second embodiment of the present invention will be described below with reference to FIG.

本発明システムは上述の雑音パワーの分散Vが大きい
時には、雑音のパワー自体も大きくなっていることに着
目したものであって、第1図の分散算出部5に代えてS/
N算出部9を備えることで適切な雑音除去を実現するも
のである。
The system of the present invention focuses on the fact that when the variance V of the noise power is large, the power of the noise itself is also large, and instead of the variance calculation unit 5 in FIG.
Providing the N calculating section 9 realizes appropriate noise removal.

該S/N算出部9は音声区間検出部3から得られる音声
区間のスペクトルパラメータKiと予じめ作成された雑音
パタン作成部4の雑音パタンNとに基づいてS/N算出部
9がS/N比を算出するものであり、更にこのS/N比の逆数
に比例して式(2)の変数βを決定する。
The S / N calculation unit 9 performs S / N calculation based on the spectrum parameter Ki of the voice section obtained from the voice section detection unit 3 and the noise pattern N of the noise pattern creation unit 4 created in advance. / N ratio is calculated, and the variable β in equation (2) is determined in proportion to the reciprocal of the S / N ratio.

なお、一時記憶部10は、S/N算出部9がS/N比を算出し
ている間に、上記音声区間検出部3から得られる音声区
間のスペクトルパラメータを一時記憶しておくために備
えられている。従って、雑音除去部6では上記分散算出
部5で重み付けされた雑音パタンβNを算出した後、こ
のパタンβNを該一時記憶部10の音声区間スペクトルパ
ラメータのサンプル時系列Siから差し引く式(2)の雑
音除去処理を実行できる。
The temporary storage unit 10 is provided to temporarily store the spectrum parameters of the voice section obtained from the voice section detection unit 3 while the S / N calculation unit 9 calculates the S / N ratio. Have been. Therefore, the noise removing unit 6 calculates the weighted noise pattern βN by the variance calculating unit 5, and then subtracts the pattern βN from the sample time series Si of the speech section spectral parameters in the temporary storage unit 10. Noise removal processing can be performed.

このような構成の第2の本発明システムによれば、S/
N算出部9で算出したS/N比が小さい時、第3図(a)の
ΔPが大きくなるが、これに応じて式(2)の変数βが
大きくなり、βNレベルが高くなる。従って、雑音除去
部6では、式(2)に従い、同図(b)の残存雑音ΔE
が低減されたサンプルSi時系列が得られるので、前述
の第1の本発明同様に雑音成分が適切に除去された音声
パタンが得られることになり、標準パタン記憶部7並び
にマッチング部8の音声認識処理によって背景雑音に影
響されない有効な音声認識が行われる。
According to the second system of the present invention having such a configuration, S /
When the S / N ratio calculated by the N calculator 9 is small, ΔP in FIG. 3A increases, but the variable β in equation (2) increases accordingly, and the βN level increases. Therefore, in the noise removing unit 6, the residual noise ΔE shown in FIG.
Because There is reduced sample * Si time series obtained will be the voice pattern first invention likewise noise component described above has been properly removed is obtained, the standard pattern storage section 7 and the matching portion 8 Effective speech recognition not affected by background noise is performed by the speech recognition processing.

以下の説明に於ては、変数βについて、第1の発明で
は雑音のパワー分散Vに比例する場合、並びに第2の発
明ではS/Nの逆数に比例する場合について示したが、こ
の場合の比例は線形な比例関係に限定されず、また比例
定数も固定的なものでなくても良い。即ち、この変数β
は経験的に求められた関数β(V)並びにβ(N/S)で
適宜設定され得る。
In the following description, the variable β is shown in the first invention in the case of being proportional to the power variance V of noise and in the second invention in the case of being proportional to the reciprocal of S / N. The proportionality is not limited to a linear proportional relationship, and the proportionality constant does not have to be fixed. That is, this variable β
Can be set as appropriate with the functions β (V) and β (N / S) obtained empirically.

(ト)発明の効果 本発明の音声認識装置の雑音除去システムは、パタン
化されさ雑音音響パラメータNに対して、雑音のパワー
分散或いはS/N比の逆数に比例した重み付けを行ったパ
タンβNを得、これを音声区間の音響パラメータ時系列
から差し引くことにより、雑音のパワー分散の度合いに
よる悪影響を低減した音声パタンを作成できるので、認
識率の高い音声認識装置を実現することができる。
(G) Effects of the Invention The noise elimination system of the speech recognition apparatus according to the present invention provides a pattern βN in which the pattern noise noise parameter N is weighted in proportion to the power variance of noise or the reciprocal of the S / N ratio. By subtracting this from the acoustic parameter time series of the speech section, a speech pattern with reduced adverse effects due to the degree of noise power dispersion can be created, so that a speech recognition device with a high recognition rate can be realized.

【図面の簡単な説明】[Brief description of the drawings]

第1図は第1の本発明の雑音除去システムの一実施例を
示す構成図、第2図は第2の本発明の雑音除去システム
の一実施例を示す構成図、第3図(a)及び(b)は特
定周波数のスペクトルレベル信号図である。 1……マイクロホン、2……分析部、3……音声区間検
出部、4……雑音パタン作成部、5……分散算出部、6
……雑音除去部、7……標準パタン記憶部、8……マッ
チング部、9……S/N算出部、10……一時記憶部。
FIG. 1 is a block diagram showing one embodiment of the noise removal system of the first invention, FIG. 2 is a block diagram showing one embodiment of the noise removal system of the second invention, and FIG. 3 (a). (B) is a spectrum level signal diagram of a specific frequency. 1 microphone 2 analysis unit 3 voice section detection unit 4 noise pattern creation unit 5 variance calculation unit 6
... Noise removing unit, 7 standard pattern storage unit, 8 matching unit, 9 S / N calculation unit, 10 temporary storage unit.

フロントページの続き (56)参考文献 特開 昭60−191300(JP,A) 特開 昭63−77097(JP,A) 特開 昭58−85498(JP,A) 特公 昭63−36000(JP,B2) 特公 平4−49715(JP,B2) 特公 昭63−67197(JP,B2) 特公 昭61−2960(JP,B2) 特公 平7−54434(JP,B2) (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 JICSTファイル(JOIS)Continuation of front page (56) References JP-A-60-191300 (JP, A) JP-A-63-77097 (JP, A) JP-A-58-85498 (JP, A) JP-B-63-36000 (JP) JP-B4-49715 (JP, B2) JP-B-63-67197 (JP, B2) JP-B-61-2960 (JP, B2) JP-B-7-54434 (JP, B2) (58) Surveyed field (Int.Cl. 6 , DB name) G10L 3/02 JICST file (JOIS)

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】雑音中に音声が存在する音響信号から音声
の存在時間領域を音声区間として検出する音声区間検出
手段、該検出手段で検出された音声区間外の雑音区間音
響信号のパワー成分の分散を算出する分散算出手段、雑
音区間音響信号から抽出した音響パラメータを時間軸正
規化した雑音パタンを得る雑音パタン作成手段、該雑音
パタンの重み付けを上記分散値に基づいて制御し、該重
み付け制御された雑音パタンを音声区間音響信号の音響
パラメータから差し引く雑音除去手段を備え、 該雑音除去手段によって雑音が除去された音響パラメー
タに基づいて音声認識に供する音声パタンを得ることを
特徴とした音声認識装置の雑音除去システム。
1. A speech section detecting means for detecting a speech existence time region as a speech section from an acoustic signal in which speech exists in noise, and a power component of a noise section acoustic signal outside the speech section detected by the detecting means. Variance calculating means for calculating variance, noise pattern creating means for obtaining a noise pattern obtained by normalizing the acoustic parameters extracted from the noise section audio signal on the time axis, weighting of the noise pattern is controlled based on the variance value, and the weighting control is performed. Speech removing means for subtracting the obtained noise pattern from the acoustic parameters of the speech section acoustic signal, and obtaining a speech pattern to be used for speech recognition based on the acoustic parameters from which noise has been removed by the noise removing means. Equipment noise removal system.
【請求項2】雑音中に音声が存在する音響信号から音声
の存在時間領域を音声区間として検出する音声区間検出
手段、該検出手段で検出された音声区間音響信号のパワ
ー成分と音声区間外の雑音区間音響信号のパワー成分と
を比較してS/N比を算出するS/N比算出手段、雑音区間音
響信号から抽出した音響パラメータを時間軸正規化した
雑音パタンを得る雑音パタン作成手段、該雑音パタンの
重み付けを上記S/N比の逆数に比例するように制御し、
該重み付け制御された雑音パタンを音声区間音響信号の
音響パラメータから差し引く雑音除去手段を備え、 該雑音除去手段によって雑音が除去された音響パラメー
タに基づいて音声認識に供する音声パタンを得ることを
特徴とした音声認識装置の雑音除去システム。
2. A voice section detecting means for detecting a voice existence time region as a voice section from a voice signal in which a voice exists in noise, and a power component of the voice section voice signal detected by the detecting means and a power component outside the voice section. S / N ratio calculating means for calculating the S / N ratio by comparing with the power component of the noise section sound signal, noise pattern creation means for obtaining a noise pattern obtained by time-axis normalized sound parameters extracted from the noise section sound signal, Controlling the weight of the noise pattern to be proportional to the reciprocal of the S / N ratio,
Noise removing means for subtracting the weighted controlled noise pattern from the acoustic parameters of the speech section acoustic signal, and obtaining a speech pattern to be used for speech recognition based on the acoustic parameters from which noise has been removed by the noise removing means. Noise reduction system for a speech recognition device.
JP1321753A 1989-12-11 1989-12-11 Noise reduction system for speech recognizer Expired - Fee Related JP2966452B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1321753A JP2966452B2 (en) 1989-12-11 1989-12-11 Noise reduction system for speech recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1321753A JP2966452B2 (en) 1989-12-11 1989-12-11 Noise reduction system for speech recognizer

Publications (2)

Publication Number Publication Date
JPH03180900A JPH03180900A (en) 1991-08-06
JP2966452B2 true JP2966452B2 (en) 1999-10-25

Family

ID=18136063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1321753A Expired - Fee Related JP2966452B2 (en) 1989-12-11 1989-12-11 Noise reduction system for speech recognizer

Country Status (1)

Country Link
JP (1) JP2966452B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
CN106571146B (en) * 2015-10-13 2019-10-15 阿里巴巴集团控股有限公司 Noise signal determines method, speech de-noising method and device

Also Published As

Publication number Publication date
JPH03180900A (en) 1991-08-06

Similar Documents

Publication Publication Date Title
JP4764995B2 (en) Improve the quality of acoustic signals including noise
US6266633B1 (en) Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
CN103827965B (en) Adaptive voice intelligibility processor
JP2561850B2 (en) Voice processor
JP4177755B2 (en) Utterance feature extraction system
US6820053B1 (en) Method and apparatus for suppressing audible noise in speech transmission
US8891778B2 (en) Speech enhancement
US7418379B2 (en) Circuit for improving the intelligibility of audio signals containing speech
IL125649A (en) Method and device for recognizing a sampled sound signal in noise
JPH08110793A (en) Method and system for improvement of voice recognition by front-end normalization of characteristic vector
MX2008013753A (en) Audio gain control using specific-loudness-based auditory event detection.
JPH03500347A (en) Improved noise suppression system
CA2192397C (en) Method and system for performing speech recognition
US6826528B1 (en) Weighted frequency-channel background noise suppressor
JP2966452B2 (en) Noise reduction system for speech recognizer
US6373953B1 (en) Apparatus and method for De-esser using adaptive filtering algorithms
JPS6257040B2 (en)
JP3118023B2 (en) Voice section detection method and voice recognition device
JP2642694B2 (en) Noise removal method
JPH0449952B2 (en)
JP3393532B2 (en) Method for normalizing volume of recorded voice and apparatus for implementing the method
JPH08250944A (en) Automatic sound volume control method and device executing this method
KR100381372B1 (en) Apparatus for feature extraction of speech signals
KR102017261B1 (en) Improvement system for audio sound quality of automobile by noise pattern analysis and improvement method therefor
JPH0461359B2 (en)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070813

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080813

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090813

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees