JP2003316381A - Method and program for restricting noise - Google Patents

Method and program for restricting noise

Info

Publication number
JP2003316381A
JP2003316381A JP2002121072A JP2002121072A JP2003316381A JP 2003316381 A JP2003316381 A JP 2003316381A JP 2002121072 A JP2002121072 A JP 2002121072A JP 2002121072 A JP2002121072 A JP 2002121072A JP 2003316381 A JP2003316381 A JP 2003316381A
Authority
JP
Japan
Prior art keywords
noise
input signal
spectrum
standard deviation
noise suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002121072A
Other languages
Japanese (ja)
Inventor
Mitsuyoshi Tatemori
三慶 舘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002121072A priority Critical patent/JP2003316381A/en
Publication of JP2003316381A publication Critical patent/JP2003316381A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To obtain a noise restricting effect with high precision by reducing a spectrum residual. <P>SOLUTION: Noise spectrums of each frame from a first frame to a T-th frame are obtained in a step S1. Then an average spectrum N and a standard deviation V are obtained in the noise in a step S3. In a step S4, a noise restriction amount D(ω, t) is calculated concerning each frequency ω by defining a present frame as the t-th frame (t>T). In this case, the noise restriction amount D(ω, t) is calculated based on a present input spectrum X(t), and the average value N and the standard deviation V of the noise. In a step S5, a voice spectrum is estimated through the use of S(t)=X(t)-D(t). The noise restriction amount D(ω, t) is calculated based on not only the present input spectrum X(t) and the noise average value N but the noise standard deviation (the square root of a variance) V. Thus, the restriction amount D(ω, t) is made to correspond further to an actual environmental noise, so that the spectrum residual is sufficiently reduced. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、雑音環境下で発声
された音声から高精度に雑音を抑圧するための雑音抑圧
方法及び雑音抑圧プログラムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a noise suppression method and a noise suppression program for highly accurately suppressing noise from a voice uttered in a noise environment.

【0002】[0002]

【従来の技術】近年、音声認識技術の性能向上に伴い、
実環境における音声認識エンジンの実用化が活発になっ
てきている。特に、カーナビゲーションシステムやモバ
イル機器など入力装置が限定されるような状況におい
て、音声認識への期待は大きい。
2. Description of the Related Art In recent years, as the performance of voice recognition technology has improved,
Practical application of voice recognition engine in real environment is becoming active. Especially, in a situation where input devices such as a car navigation system and a mobile device are limited, expectations for voice recognition are great.

【0003】音声認識処理は、マイクロホンから取込ん
だ入力音声を、認識対象語彙と比較することで音声認識
結果を得る。実環境下においては、種々の雑音源がある
ことから、マイクロホンで取込んだ音声信号には、環境
雑音が混入する。音声認識処理においては、耐雑音性が
認識精度に大きな影響を与える。
In the voice recognition process, the voice recognition result is obtained by comparing the input voice taken from the microphone with the vocabulary to be recognized. In a real environment, since there are various noise sources, environmental noise is mixed in the voice signal captured by the microphone. In speech recognition processing, noise resistance greatly affects recognition accuracy.

【0004】このような雑音環境下で発声された音声信
号(スペクトル)に対する雑音抑圧方法として、スペク
トルサブトラクション(以下、SSともいう)が広く用
いられている。
Spectral subtraction (hereinafter also referred to as SS) is widely used as a noise suppression method for a voice signal (spectrum) uttered in such a noise environment.

【0005】SSによる雑音抑圧の最も基本的なアルゴ
リズムを以下に示す。基本的には、SSは、観測した雑
音の平均レベルに応じて、予め雑音レベルを予測する。
そして、入力信号から予測した雑音レベルを減算するこ
とで、雑音を抑圧するようになっている。
The most basic algorithm for noise suppression by SS is shown below. Basically, the SS predicts the noise level in advance according to the average level of the observed noise.
Then, the noise level is suppressed by subtracting the predicted noise level from the input signal.

【0006】即ち、先ず、雑音抑圧に先立って、全く音
声を含まない雑音スペクトルの時系列{N(t) }、N
(t) =(N(ω1,t) ,N(ω2,t) ,…,N(ωd,t))
(ωは周波数、tは時刻、すなわちフレーム番号を表
す)から、下記(1)式によって、雑音の平均ベクトル
ave を求める。
That is, first, prior to noise suppression, a time series {N (t)}, N of a noise spectrum containing no speech at all.
(t) = (N (ω 1 , t), N (ω 2 , t), ..., N (ω d , t))
From (where ω is the frequency and t is the time, that is, the frame number), the average vector N ave of noise is calculated by the following equation (1).

【0007】Nave =Σt N(t) / T …(1) ここで、Σt は適当な時間区間での和を意味し、Tはそ
の時間区間の長さ(フレーム数)である。
[0007] N ave = Σ t N (t ) / T ... (1) where, sigma t denotes the sum of a suitable time interval, T is the length of the time interval (number of frames).

【0008】次に、雑音が混入した音声スペクトルの時
系列{X(t) }をX(t) =(X(ω1,t) ,X(ω2,t) ,
…,X(ωd,t) )とし、雑音を含まない音声スペクトル
の推定量S(t) をS(t) =(S(ω1,t) ,S(ω2,t) ,
…,S(ωd,t) )として、抑圧係数αを用いて、下記
(2)式に示すように、雑音が混入した入力信号X(ω,
t)から雑音成分を抑圧した音声パワスペクトルの推定値
S(ω, t)を求める。
Next, the time series {X (t)} of the voice spectrum in which noise is mixed is expressed as X (t) = (X (ω 1 , t), X (ω 2 , t),
, X (ω d , t)), and the estimated amount S (t) of the speech spectrum containing no noise is S (t) = (S (ω 1 , t), S (ω 2 , t),
, S (ω d , t)) using the suppression coefficient α as shown in the following equation (2), the input signal X (ω,
The estimated value S (ω, t) of the speech power spectrum in which the noise component is suppressed is calculated from t).

【0009】 S(ω, t) = X(ω, t)−αNave(ω) (X(ω, t)−αNave(ω)>0 の場合) =0 (X(ω, t)−αNave(ω) ≦ 0 の場合 ) …(2) なお、SSについては、文献1(Jean-Claude Janqua,
Jean-Paul Haton著『ROBUSTNESS IN AUTOMATIC SPEECH
RECOGNITION』Kluwer Academic Publishers )に詳述さ
れている。
S (ω, t) = X (ω, t) −αN ave (ω) (when X (ω, t) −αN ave (ω)> 0) = 0 (X (ω, t) − In the case of α N ave (ω) ≤ 0) (2) Regarding SS, reference 1 (Jean-Claude Janqua,
ROBUSTNESS IN AUTOMATIC SPEECH by Jean-Paul Haton
RECOGNITION ”Kluwer Academic Publishers).

【0010】[0010]

【発明が解決しようとする課題】ところで、上述したS
Sアルゴリズムにおいては、環境雑音が一定であるもの
として処理を行っている。即ち、上記(2)式の抑圧係
数αが固定値であるものとして処理している。ところ
が、一般に雑音のスペクトルは一定ではないことから、
抑圧係数αは環境に応じて可変とした方が高い雑音抑圧
効果を得ることができる。下記(3)式はこの理由を示
したものである。
By the way, the above-mentioned S
In the S algorithm, processing is performed assuming that the environmental noise is constant. That is, the suppression coefficient α in the above equation (2) is processed as a fixed value. However, since the spectrum of noise is not constant in general,
It is possible to obtain a higher noise suppression effect by making the suppression coefficient α variable according to the environment. The following formula (3) shows the reason for this.

【0011】即ち、上述したSSによる音声スペクトル
の推定値S(ω, t)は、より詳細には、下記(3)式に
示すことができる。
That is, the above-mentioned estimated value S (ω, t) of the voice spectrum by SS can be shown in more detail by the following equation (3).

【0012】 S(ω, t) = X(ω, t)−αNave(ω) = S0(ω, t) + NR(ω,t)−αNave(ω) = S0(ω, t) + (R(ω,t)−aNave(ω))+(N(ω)−(1+b)Nave(ω)) …(3) なお、 X(ω, t) = S0 (ω, t)+NR (ω, t)=S0(ω, t)+N
(ω, t)+R(ω, t) NR (ω, t) =X(ω, t)−S0(ω, t)=R(ω, t)+ N
(ω, t) R(ω, t) = 2((S0N)1/2)cosθ(ω, t) α = 1+a+b であり、また、 X(ω, t)…入力信号のスペクトル S0(ω, t)…真の音声スペクトル NR (ω, t)…入力信号の非音声成分(雑音と、雑音と
音声の相関から成る) N(ω, t)…雑音スペクトル R(ω, t)…音声信号と雑音信号の相関 である。
S (ω, t) = X (ω, t) -αN ave (ω) = S 0 (ω, t) + N R (ω, t) -αN ave (ω) = S 0 (ω, t) + (R (ω, t) −aN ave (ω)) + (N (ω) − (1 + b) N ave (ω)) (3) Note that X (ω, t) = S 0 (ω, t) + N R (ω, t) = S 0 (ω, t) + N
(ω, t) + R (ω, t) N R (ω, t) = X (ω, t) −S 0 (ω, t) = R (ω, t) + N
(ω, t) R (ω, t) = 2 ((S 0 N) 1/2 ) cos θ (ω, t) α = 1 + a + b, and X (ω, t) ... Input signal spectrum S 0 (ω, t) ... True voice spectrum N R (ω, t) ... Non-voice component of input signal (consisting of noise and correlation between noise and voice) N (ω, t) ... Noise spectrum R (ω, t) ) ... It is the correlation between the voice signal and the noise signal.

【0013】なお、例えば特開2001−228892
号公報(以下、文献2という)に記載されているよう
に、一般的には、抑圧係数αとして定数を用いる場合に
は、抑圧係数αは、(3)式に示すように、(a+b)
の分だけ1より大きな値に設定するとよいことが知られ
ている。
Incidentally, for example, Japanese Patent Laid-Open No. 2001-228892
As described in Japanese Patent Publication (hereinafter referred to as Document 2), generally, when a constant is used as the suppression coefficient α, the suppression coefficient α is (a + b) as shown in Expression (3).
It is known that a value larger than 1 should be set by the amount of.

【0014】上記(3)式のNR(ω,t)−αNave(ω)
は雑音成分の引き残り分であるスペクトル残差を示して
いる。スペクトルサブトラクション技術は、環境雑音が
一定であることを前提として処理することにより、簡単
な構成で高速な処理を可能にしている。しかしながら、
実際には環境雑音は変動する。このため、抑圧係数αを
定数にすると、スペクトル残差NR(ω, t)−αN
ave(ω)が、時間に応じて変動することになり、十分な
雑音抑圧精度が得られない。
NR (ω, t) -αN ave (ω) in the above equation (3)
Indicates the spectral residual which is the residual of the noise component. The spectral subtraction technique enables high-speed processing with a simple configuration by processing on the assumption that environmental noise is constant. However,
In reality, environmental noise fluctuates. Therefore, if the suppression coefficient α is a constant, the spectrum residual N R (ω, t) −αN
Since ave (ω) varies with time, sufficient noise suppression accuracy cannot be obtained.

【0015】そこで、上記文献1においては、スペクト
ル残差の項をより0に近い値とするために、抑圧係数α
を可変にする方法が考えられている。即ち、文献1にお
いては、雑音と音声のS/N比(Signal to Noise Rati
o)に応じて抑圧係数αを決定するようになっている。
しかし、この方法ではまだ十分な雑音抑圧精度は得られ
ない。
Therefore, in Reference 1, the suppression coefficient α is set in order to make the term of the spectrum residual closer to 0.
The method of making variable is considered. That is, in Document 1, noise to speech S / N ratio (Signal to Noise Rati
The suppression coefficient α is determined according to o).
However, this method still does not provide sufficient noise suppression accuracy.

【0016】また、文献2においても、抑圧係数αを可
変とする方法が開示されているが、この文献2の方法に
おいても十分な雑音抑圧精度は得られていない。
[0016] Also, in Document 2, a method of varying the suppression coefficient α is disclosed, but even in the method of Document 2, sufficient noise suppression accuracy is not obtained.

【0017】本発明は、雑音抑圧係数を雑音の分散に応
じて可変にすることにより雑音抑圧精度を向上させるこ
とができる雑音抑圧方法及び雑音抑圧プログラムを提供
することを目的とする。
It is an object of the present invention to provide a noise suppression method and a noise suppression program that can improve noise suppression accuracy by making the noise suppression coefficient variable according to the variance of noise.

【0018】[0018]

【課題を解決するための手段】本発明の請求項1に係る
雑音抑圧方法は、雑音のみの入力信号のスペクトル時系
列から、雑音の平均ベクトル及び標準偏差を求める手順
と、スペクトルサブトラクションにおけるスペクトル残
差を低減するように、雑音が混入した入力信号と前記雑
音の平均ベクトル及び標準偏差とに基づいて雑音抑圧量
を決定する雑音抑圧量決定手順と、雑音が混入した入力
信号から前記雑音抑圧量を減算することで前記入力信号
の雑音を抑圧する手順とを具備したものであり、本発明
の請求項2に係る雑音抑圧方法は、雑音のみの入力信号
のスペクトル時系列を所定クラスタ数の複数のクラスタ
に分割する手順と、前記雑音のみの入力信号から、各ク
ラスタ毎に雑音の平均ベクトル及び標準偏差を求める手
順と、雑音が混入した入力信号の入力スペクトルから所
定の距離尺度を用いて前記入力スペクトルに最も近似し
たクラスタを選択し、選択したクラスタの平均ベクトル
及び標準偏差を求める手順と、スペクトルサブトラクシ
ョンにおけるスペクトル残差を低減するように、雑音が
混入した入力信号と前記選択したクラスタの平均ベクト
ル及び標準偏差とに基づいて雑音抑圧量を決定する雑音
抑圧量決定手順と、雑音が混入した入力信号から前記雑
音抑圧量を減算することで前記入力信号の雑音を抑圧す
る手順とを具備したものである。
According to a first aspect of the present invention, there is provided a noise suppression method, wherein a noise mean vector and standard deviation are determined from a spectral time series of a noise-only input signal, and a spectral residual in spectral subtraction. A noise suppression amount determining procedure for determining an amount of noise suppression based on an input signal mixed with noise and an average vector and standard deviation of the noise so as to reduce the difference, and the noise suppression amount from the input signal mixed with noise. And a step of suppressing the noise of the input signal by subtracting the noise. The noise suppression method according to claim 2 of the present invention comprises: , A procedure for dividing the noise into a cluster, a procedure for obtaining a noise average vector and a standard deviation for each cluster from the noise-only input signal, and noise A cluster that most closely approximates the input spectrum using a predetermined distance measure from the input spectrum of the input signal, a procedure for obtaining the average vector and standard deviation of the selected cluster, and reducing the spectral residual in the spectral subtraction. , A noise suppression amount determining procedure for determining an amount of noise suppression based on an input signal containing noise, and an average vector and standard deviation of the selected clusters, and subtracting the amount of noise suppression from the input signal containing noise. Therefore, a procedure for suppressing the noise of the input signal is provided.

【0019】本発明の請求項1においては、先ず、入力
信号に対する雑音の抑圧に先だって、雑音のみの入力信
号のスペクトル時系列から、雑音の平均ベクトル及び標
準偏差が求められる。スペクトルサブトラクションにお
ける雑音抑圧量は、雑音が混入した入力信号と前記雑音
の平均ベクトル及び標準偏差とに基づいて決定される。
雑音混入した入力信号から決定した雑音抑圧量を減算す
ることにより入力信号の雑音を抑圧する。雑音抑圧量が
雑音の標準偏差を用いて決定されており、スペクトルサ
ブトラクションにおけるスペクトル残差は低減される。
In the first aspect of the present invention, first, prior to suppression of noise with respect to the input signal, the average vector and standard deviation of noise are obtained from the spectral time series of the input signal containing only noise. The amount of noise suppression in the spectral subtraction is determined based on the input signal in which noise is mixed and the average vector and standard deviation of the noise.
The noise of the input signal is suppressed by subtracting the determined noise suppression amount from the noise-containing input signal. The amount of noise suppression is determined using the standard deviation of noise, and the spectral residual in spectral subtraction is reduced.

【0020】本発明の請求項2において、雑音のみの入
力信号のスペクトル時系列は、所定クラスタ数の複数の
クラスタに分割される。そして、各クラスタ毎に雑音の
平均ベクトル及び標準偏差が求められる。所定の距離尺
度を用いて、各クラスタのうち、雑音が混入した入力信
号の入力スペクトルに最も近似したクラスタが選択さ
れ、選択されたクラスタの平均ベクトル及び標準偏差が
求められる。スペクトルサブトラクションにおける雑音
抑圧量は、雑音が混入した入力信号と選択したクラスタ
の平均ベクトル及び標準偏差とに基づいて決定される。
雑音が混入した入力信号から雑音抑圧量を減算すること
で入力信号の雑音を抑圧する。雑音はクラスタに分割さ
れ、入力スペクトルに最も近似したクラスタが選択され
て、平均ベクトル及び標準偏差が求められており、雑音
抑圧量は一層実際の雑音環境に適応したものとなり、ス
ペクトル残差は一層低減される。
In claim 2 of the present invention, the spectral time series of the noise-only input signal is divided into a plurality of clusters of a predetermined number of clusters. Then, the average vector and standard deviation of noise are obtained for each cluster. Among the clusters, the cluster closest to the input spectrum of the noise-containing input signal is selected using a predetermined distance measure, and the average vector and standard deviation of the selected clusters are obtained. The amount of noise suppression in spectral subtraction is determined based on the input signal containing noise and the average vector and standard deviation of the selected clusters.
The noise of the input signal is suppressed by subtracting the noise suppression amount from the input signal containing the noise. The noise is divided into clusters, the cluster closest to the input spectrum is selected, the average vector and standard deviation are obtained, and the noise suppression amount is more adapted to the actual noise environment, and the spectral residual is more Will be reduced.

【0021】なお、方法に係る本発明は、コンピュータ
に当該発明に相当する処理を実行させるためのプログラ
ムとしても成立する。
The present invention relating to the method is also realized as a program for causing a computer to execute the processing corresponding to the present invention.

【0022】[0022]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について詳細に説明する。図1は本発明の一実
施の形態に係る雑音抑圧方法を示すフローチャートであ
る。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 is a flowchart showing a noise suppression method according to an embodiment of the present invention.

【0023】本実施の形態は音声認識等に採用されるス
ペクトルサブトラクションを用いた雑音抑圧に適用した
ものである。スペクトルサブトラクションにおける音声
スペクトルの推定値S(ω, t)を示す上記(3)式は、
抑圧係数αを適宜設定することによってスペクトル残差
を小さくすることができる可能性を示している。
The present embodiment is applied to noise suppression using spectral subtraction adopted for voice recognition and the like. The above equation (3) showing the estimated value S (ω, t) of the speech spectrum in the spectral subtraction is
It shows the possibility of reducing the spectrum residual by setting the suppression coefficient α appropriately.

【0024】ここで、議論を明確にするために、相関項
R(ω,t)−aNave(ω)をほとんど無視することができ、
bが0であるような場合を考えると、音声スペクトルの
推定値S(ω, t)は下記(4)式によって示すことがで
きる。
Here, to clarify the argument, the correlation term R (ω, t) -aN ave (ω) can be almost ignored,
Considering the case where b is 0, the estimated value S (ω, t) of the speech spectrum can be expressed by the following equation (4).

【0025】 S(ω, t) = S0(ω, t) + (N(ω, t)−Nave(ω) ) …(4) この(4)式の変動項N(ω,t)−Nave(ω)は、現在の
フレームtにおける雑音成分の平均値からのずれを意味
している。従って、変動項は、雑音の統計的性質の1つ
である分散と強い相関があることが分かる。つまり、分
散が小さい雑音の場合には、平均的に変動項の絶対値も
小さく、また、逆に分散が大きい雑音の場合には、変動
項の絶対値は平均的に大きくなる。
S (ω, t) = S 0 (ω, t) + (N (ω, t) -N ave (ω)) (4) The variation term N (ω, t) in the equation (4) −N ave (ω) means a deviation from the average value of the noise component in the current frame t. Therefore, it can be seen that the variation term has a strong correlation with the variance, which is one of the statistical properties of noise. That is, in the case of noise with small variance, the absolute value of the variation term is small on average, and conversely, in the case of noise with large variance, the absolute value of the variation term is averagely large.

【0026】これを(3)式に適用すると、分散が小さ
い雑音に対しては抑圧係数αを1に近い値にとり、逆
に、分散が大きい場合にはαを大きくし、抑圧量を増や
すほうが好ましいことが推測される。なお、この時、分
散が大きい雑音に対してαを大きくすると、N(ω, t)
がNave(ω)より大きい場合には変動項が小さくなる
が、逆の場合には変動項は負のほうに大きくなるため、
かえって悪影響を及ぼす虞がある。しかし、先に述べた
ように、αとして定数を使用するSSの場合には、その
値を1より大きくして雑音抑圧量を大きくする方がよい
ことが知られている。それゆえ、変動項が負になる場合
にはデメリットはあるものの、やはりαを大きくするほ
うが良いことが予想できる。
When this is applied to the equation (3), it is better to set the suppression coefficient α to a value close to 1 for noise with small variance, and conversely, to increase the suppression amount by increasing α when the variance is large. It is speculated that it is preferable. At this time, if α is increased for noise with large variance, N (ω, t)
When N is larger than N ave (ω), the variation term becomes smaller, but in the opposite case, the variation term becomes larger in the negative direction.
On the contrary, there is a risk of adverse effects. However, as described above, in the case of SS that uses a constant as α, it is known that it is better to make the value larger than 1 to increase the noise suppression amount. Therefore, although there is a disadvantage when the variation term becomes negative, it can be expected that it is better to increase α.

【0027】これらの理由から、本実施の形態において
は、αを雑音の分散に応じて可変にし、残差(変動項)
を小さくするようになっている。なお、本実施の形態に
おいては、雑音の抑圧量を分散の平方根である標準偏差
に応じて可変にしている。
For these reasons, in the present embodiment, α is made variable according to the variance of noise, and the residual (variation term) is changed.
Is designed to be small. In the present embodiment, the amount of noise suppression is variable according to the standard deviation which is the square root of the variance.

【0028】図1は雑音抑圧処理全体のアルゴリズムを
示している。
FIG. 1 shows the algorithm of the entire noise suppression process.

【0029】いま、入力スペクトルの時系列を{X(t)
}とする。なお、tはフレーム番号であり、t=1,2,
3,…である。また、ωは周波数を表すものとする。ここ
で、入力信号の第1フレームから、少なくとも第Tフレ
ーム(Tは所定の定数)までには音声が混入せず、雑音
のみが入力されることが保証されているものとする。図
2は横軸にフレーム単位の時間をとり縦軸に周波数をと
って、このような条件を満たす入力スペクトル時系列を
示すスペクトル図である。
Now, let the time series of the input spectrum be {X (t)
}. Note that t is a frame number, and t = 1,2,
3, ... Further, ω represents the frequency. Here, it is assumed that voice is not mixed and only noise is input from the first frame of the input signal to at least the T-th frame (T is a predetermined constant). FIG. 2 is a spectrum diagram showing an input spectrum time series that satisfies such a condition, where the horizontal axis represents time in frame units and the vertical axis represents frequency.

【0030】図2は濃淡によって各フレーム毎の各周波
数帯域における信号レベルを示しており、濃い部分は信
号レベルが高いことを示し、淡い部分は信号レベルが低
いことを示している。
FIG. 2 shows the signal level in each frequency band for each frame by shading. The dark part shows that the signal level is high, and the light part shows that the signal level is low.

【0031】図2の時間0〜Tフレームの間は、入力信
号が雑音のみであることが保証されたフレームを示して
おり、Tフレーム以降のフレームが雑音抑圧の対象とな
るフレームである。なお、図2の中央の比較的濃い部分
を有する時間帯は、実際に「はちのへ」と発声した場合
の入力音声のスペクトルを示している。
From time 0 to T frame in FIG. 2, frames in which the input signal is guaranteed to be only noise are shown, and the frames after T frame are the frames to be subjected to noise suppression. Note that the time zone having a relatively dark portion in the center of FIG. 2 shows the spectrum of the input voice when “Hachinohe” is actually uttered.

【0032】先ず、フレーム番号tを1に初期化し、図
1のステップS1 において第1フレームの雑音スペクト
ルを取得する。ステップS212 においてtをインクリメ
ントしながらtがTに到達したか否かを判定することで
(ステップS2 )、第1フレームから第Tフレームまで
の各フレームの雑音スペクトルを取得する。
First, the frame number t is initialized to 1, and the noise spectrum of the first frame is acquired in step S1 of FIG. The noise spectrum of each frame from the first frame to the T-th frame is acquired by determining whether t has reached T while incrementing t in step S212 (step S2).

【0033】次に、ステップS3 において、雑音の平均
スペクトルN=( N(ω1), N(ω2),…, N(ωd) )及
び標準偏差V=( V(ω1), V(ω2),…, V(ωd) )を
下記(5)式及び(6)式によって求める。
Next, in step S3, the average spectrum N = (N (ω 1 ), N (ω 2 ), ..., N (ω d )) of noise and the standard deviation V = (V (ω 1 ), V (ω 2 ), ..., V (ω d )) is obtained by the following equations (5) and (6).

【0034】 N(ω) =Σt X(ω,t) /T …(5) V(ω) ={Σt X(ω, t)2 / T − N(ω) 2 1/2 …(6) 第1乃至第Tフレームは雑音の統計量を計算するための
フレームであり、雑音抑圧の対象とはならないフレーム
である。第(T+1)フレーム以降に対して、雑音抑圧
処理によって推定した音声スペクトル{S(t)}t=T
+1,T+2,…を出力する。
[0034] N (ω) = Σ t X (ω, t) / T ... (5) V (ω) = {Σ t X (ω, t) 2 / T - N (ω) 2} 1/2 ... (6) The first to T-th frames are frames for calculating noise statistics, and are frames that are not the target of noise suppression. The speech spectrum {S (t)} t = T estimated by the noise suppression processing for the (T + 1) th frame and thereafter.
+1, T + 2, ... Are output.

【0035】現在のフレームを第tフレーム(t>T)
とし、各周波数ωについて、雑音抑圧量D(ω,t)を計算
する(ステップS4 )。本実施の形態においては、雑音
抑圧量D(ω,t)は、現在の入力スペクトルX(t) と雑音
の平均値Nと標準偏差Vとに基づいて算出するようにな
っている。
The current frame is the t-th frame (t> T)
Then, the noise suppression amount D (ω, t) is calculated for each frequency ω (step S4). In the present embodiment, the noise suppression amount D (ω, t) is calculated based on the current input spectrum X (t), the average value N of noise, and the standard deviation V.

【0036】次に、ステップS5 において、下記(7)
式から音声スペクトルS(t)を推定する。
Next, in step S5, the following (7)
The speech spectrum S (t) is estimated from the equation.

【0037】S(t) = X(t) −D(t) …(7) 次にステップS6 において、tをインクリメントして、
ステップS7 で入力の終了を確認するまで、入力音声に
対してステップS3 乃至S5 の雑音抑圧処理を繰返す。
S (t) = X (t) -D (t) (7) Next, at step S6, t is incremented by
The noise suppression process of steps S3 to S5 is repeated for the input voice until the end of the input is confirmed in step S7.

【0038】このように構成された実施の形態において
は、雑音抑圧量D(ω,t)を、現在の入力スペクトルX
(t) と雑音の平均値Nだけでなく、雑音の標準偏差(分
散の平方根)Vに基づいて算出する。これにより、雑音
抑圧量D(ω,t)は、実際の環境雑音に一層対応したもの
となり、スペクトル残差を十分に低減することができ
る。
In the embodiment configured as above, the noise suppression amount D (ω, t) is calculated as the current input spectrum X.
It is calculated based on not only (t) and the average value N of noise, but also the standard deviation (square root of variance) V of noise. As a result, the noise suppression amount D (ω, t) further corresponds to the actual environmental noise, and the spectrum residual can be sufficiently reduced.

【0039】このように、本実施の形態においては、雑
音の分散に応じた雑音抑圧量を設定していることから、
雑音抑圧効果を十分に向上させることができるという効
果を有する。
As described above, in this embodiment, since the noise suppression amount is set according to the noise variance,
It has an effect that the noise suppression effect can be sufficiently improved.

【0040】図3は本発明の他の実施の形態を示すフロ
ーチャートである。図3において図1と同一の手順には
同一符号を付して説明を省略する。
FIG. 3 is a flow chart showing another embodiment of the present invention. In FIG. 3, the same steps as those in FIG.

【0041】本実施の形態は、雑音スペクトルのクラス
タリングを行うことにより、雑音抑圧の精度を向上させ
ることを可能にしたものである。
The present embodiment is capable of improving the accuracy of noise suppression by performing noise spectrum clustering.

【0042】本実施の形態においても、入力スペクトル
の時系列を{X(t) }とし、入力信号の第1フレームか
ら、少なくとも第Tフレームまでには音声が混入せず、
雑音のみが入力されることが保証されているものとす
る。
Also in the present embodiment, the time series of the input spectrum is {X (t)}, and no voice is mixed from the first frame of the input signal to at least the Tth frame,
It is assumed that only noise is input.

【0043】図3のステップS1 ,S2 ,S212 におい
て、第1フレームから第Tフレームまでの各フレームの
雑音スペクトルを取得する。次に、図3のステップS1
1,S12において、第1フレームから第Tフレームまで
の雑音に対して雑音スペクトルのクラスタリングを行
う。推定する雑音のクラスタ数は、Meであり、各クラ
スタ毎に標準偏差を求める。各クラスタ毎の雑音の平均
値N(ω)及び標準偏差V(ω)の算出は、上記(5)式及
び(6)式と同様に求める。
In steps S1, S2 and S212 of FIG. 3, the noise spectrum of each frame from the first frame to the Tth frame is acquired. Next, step S1 in FIG.
In S1 and S12, noise spectrum clustering is performed on the noise from the first frame to the Tth frame. The number of noise clusters to be estimated is M e , and the standard deviation is obtained for each cluster. The average value N (ω) of noise and the standard deviation V (ω) of each cluster are calculated in the same manner as the above equations (5) and (6).

【0044】図4は図3中の処理S11〜S13におけるク
ラスタリングの具体的な処理を説明するためのフローチ
ャートである。
FIG. 4 is a flow chart for explaining a concrete process of clustering in the processes S11 to S13 in FIG.

【0045】雑音クラスタ数が最大M(≧2)個まで許さ
れている場合におけるクラスタ計算方法の一例を示して
いる。
An example of the cluster calculation method when the maximum number of noise clusters is M (≧ 2) is shown.

【0046】先ず、第1フレームから第Tフレームの入
力(雑音)スペクトルを適宜のバッファに格納しておく
(ステップS21,S211 ,S212 )。第Tフレームのス
ペクトルを格納した後、ステップS21から処理をステッ
プS22に移行して、T個の雑音スペクトルのクラスタリ
ングを行う。
First, the input (noise) spectra from the first frame to the Tth frame are stored in an appropriate buffer (steps S21, S211, S212). After the spectrum of the T-th frame is stored, the process proceeds from step S21 to step S22 to cluster T noise spectra.

【0047】クラスタリングの方法としては、例えば、
テレビジョン学会編『認識工学』コロナ社 に詳述され
ているk-means法を用いる。この方法では、先ず、所定
のM個のクラスタC={N1, 2,…, N}、N
(N1), N2), …, N(ωd) ), m=1,
2,…,Mを作成する。
As a clustering method, for example,
The k-means method described in detail in "Cognitive Engineering", Corona Publishing, edited by the Television Society is used. In this method, first, predetermined M clusters C = {N 1, N 2, ..., N M }, N m =
(N m1 ), N m2 ), ..., N (ω d )), m = 1
2, ..., M are created.

【0048】次に、適当に決めたクラスタリングの数が
妥当であるか否かを所定の距離尺度をL(例えばユーク
リッド距離)を用いて調べる。任意の2個のクラスタの
距離が所定の閾値よりも小さい場合には、これらのクラ
スタは本来1つのクラスタとすべきであるものと判断す
る。
Next, a predetermined distance measure is examined by using L (for example, Euclidean distance) to determine whether or not the number of clusterings determined appropriately is appropriate. When the distance between any two clusters is smaller than a predetermined threshold value, it is determined that these clusters should originally be one cluster.

【0049】即ち、所定の距離尺度をL(例えばユーク
リッド距離)とし、クラスタC中の合い異なる2個のセ
ントロイド(雑音の平均ベクトル)の、全ての組み合わ
せの中で最もLの距離が小さい組を求める(ステップS
24)。ここでは距離最小の組み合わせをNk、Nlとす
る。
That is, assuming that a predetermined distance measure is L (for example, Euclidean distance), a pair of two different centroids (mean vectors of noise) in the cluster C having the smallest distance L among all combinations. (Step S
twenty four). Here, the minimum distance combination is N k and N l .

【0050】距離L(Nk、Nl)が所定の値以下の場合に
は、ステップS26において、この2つの組み合わせの重
心を次式 Nh =(nkk+nll )/(nk+nl ) nk 、nlは、それぞれ、セントロイドNkに属す雑音スペ
クトルの数によって計算し、これら2つのセントロイド
をマージして(ステップS26)、クラスタCからNk
lを削除すると共に、新たにNhを追加する(ステップ
S27)。
If the distance L (N k , N l ) is less than or equal to a predetermined value, the center of gravity of these two combinations is calculated by the following equation N h = (n k N k + n l N l ) / ( n k + n l ) n k and n l are respectively calculated by the number of noise spectra belonging to the centroid N k , and these two centroids are merged (step S26) to obtain clusters C to N k ,
N l is deleted and N h is newly added (step S27).

【0051】この時、Cのセントロイド(Cの要素)数
はM−1に減る。また、これまでN k、Nl に属してい
たベクトルはNhに属すベクトルとなり、その数は nh
= nk+nlである。
At this time, the number of centroids of C (elements of C)
Is reduced to M-1. Also, until now N k, Nl Belongs to
Vector is NhAnd the number of them is nh
= Nk+ NlIs.

【0052】以下同様に、新たなクラスタに対してセン
トロイドが1個になるか、又は、最も近いセントロイド
間の距離が所定の値以上に大きくなるまで、ステップS
23,S25で判断しながら、上記の処理を繰り返す。
Similarly, step S is repeated until there is one centroid for the new cluster or the distance between the nearest centroids becomes larger than a predetermined value.
The above process is repeated while making a determination in S23 and S25.

【0053】逆に、距離L(Nk、Nl)が所定の値よりも
大きい場合には、クラスタCが求める雑音の平均ベクト
ルの集合となる。この場合には、ステップS25からステ
ップS28に処理を移行して各クラスタの標準偏差Vm を
計算する。
On the contrary, when the distance L (N k , N l ) is larger than a predetermined value, the cluster C is a set of average vectors of noise. In this case, the process shifts from step S25 to step S28 to calculate the standard deviation Vm of each cluster.

【0054】即ち、求めたクラスタに対して、各クラス
タに属するノイズベクトルから、 Vm(ω) = { Στ(N(ω,τ)−Nm(ω)) 2/nm 1/2 τはクラスタmに属する雑音スペクトルのフレーム番号
を表すによって、各クラスタの標準偏差V=(V
1), V2), …, V(ωd))を求める(ステップ
S28)。
That is, V m (ω) = {Σ τ (N (ω, τ) -N m (ω)) 2 / n m } 1 / 2 τ represents the frame number of the noise spectrum belonging to the cluster m, so that the standard deviation V m = (V
m1 ), V m2 ), ..., V (ω d )) are obtained (step S 28).

【0055】入力ベクトルX(t) に対する雑音抑圧量を
計算する際の平均ベクトルNと標準偏差Vの選択におい
ては、以上のように求めたクラスタから、 e = argmin(L(X(t) , N) ) として、N = Ne、V = Veとし、これらを用いて抑
圧量D(t)を計算する。
When selecting the average vector N and the standard deviation V when calculating the noise suppression amount for the input vector X (t), e = argmin m (L (X (t) , N m )), N = N e , V = V e, and the suppression amount D (t) is calculated using these.

【0056】このように、本実施の形態においては、雑
音スペクトルをクラスタリングし、入力信号のスペクト
ルパターンがいずれのクラスタに最も近似しているかに
基づいて標準偏差算出に用いるクラスタを決定してい
る。これにより、雑音抑圧量の算出精度を向上させるこ
とができ、雑音抑圧効果を一層向上させることができ
る。
As described above, in this embodiment, the noise spectrum is clustered, and the cluster used for calculating the standard deviation is determined based on which cluster the spectral pattern of the input signal is most similar to. Thereby, the calculation accuracy of the noise suppression amount can be improved, and the noise suppression effect can be further improved.

【0057】次に、本発明の第3の実施の形態について
説明する。
Next, a third embodiment of the present invention will be described.

【0058】第1及び第2の実施の形態においては、雑
音抑圧量D(ω,t)は、現在の入力スペクトルX(t) と雑
音の平均値Nだけでなく、雑音の標準偏差(分散の平方
根)Vに基づいて算出する点を説明した。第1及び第2
の実施の形態においては、スペクトル残差を低減可能で
あれば、雑音抑圧量の算出方法としてはいずれの方法も
採用することができる。
In the first and second embodiments, the noise suppression amount D (ω, t) is not limited to the current input spectrum X (t) and the noise mean value N, but also the noise standard deviation (variance). The point calculated based on the (square root of) V. First and second
In the embodiment, any method can be adopted as the method of calculating the noise suppression amount as long as the spectrum residual can be reduced.

【0059】本実施の形態は、雑音抑圧量D(ω, t)の
具体的な計算式として下記(8)式を採用したものであ
る。
In this embodiment, the following equation (8) is adopted as a concrete calculation equation of the noise suppression amount D (ω, t).

【0060】 D(ω,t)= α(ω,t)V(ω) + βN(ω) (X(ω,t)>α(ω,t)V(ω) + βN(ω)の場合) = X(ω,t) (X(ω,t)≦α(ω,t)V(ω) + βN(ω)の場合) …(8) 上記(8)式では、入力信号X(ω,t)と雑音の平均値の
β倍であるβN(ω)との差が標準偏差のα(ω,t)倍以下
であれば、D(ω,t)=X(ω,t)とする。即ち、S(ω,
t) = X(ω,t)−D(ω,t) = X(ω,t)−X(ω,t) =
0なので、その入力信号の音声成分は0と推定すること
を意味している。
D (ω, t) = α (ω, t) V (ω) + βN (ω) (when X (ω, t)> α (ω, t) V (ω) + βN (ω) ) = X (ω, t) (when X (ω, t) ≦ α (ω, t) V (ω) + βN (ω)) (8) In the above equation (8), the input signal X (ω , t) and βN (ω), which is β times the average value of noise, are less than or equal to α (ω, t) times the standard deviation, D (ω, t) = X (ω, t) To do. That is, S (ω,
t) = X (ω, t) -D (ω, t) = X (ω, t) -X (ω, t) =
Since it is 0, it means that the voice component of the input signal is estimated to be 0.

【0061】一方、入力信号が十分大きく、雑音の平均
値のβ倍であるβN(ω)との差が標準偏差のα(ω,t)倍
以上の時には、推定音声スペクトルS(ω, t)は下記
(9)式で表すことができる。
On the other hand, when the input signal is sufficiently large and the difference from βN (ω), which is β times the average value of noise, is α (ω, t) times the standard deviation or more, the estimated speech spectrum S (ω, t) ) Can be expressed by the following equation (9).

【0062】 S(ω, t) = X(ω,t) −βN(ω) − α(ω,t)V(ω) …(9) 即ち、この場合には、雑音抑圧量は標準偏差V(ω)に関
して比例している。
S (ω, t) = X (ω, t) -βN (ω) -α (ω, t) V (ω) (9) That is, in this case, the noise suppression amount is the standard deviation V It is proportional with respect to (ω).

【0063】従って、雑音の分散(=標準偏差の2乗)
が大きい場合には雑音抑圧量を大きくし、小さい場合に
は抑圧量を小さくするという目的を明確に実現した雑音
抑圧方法となっている。
Therefore, the variance of noise (= square of standard deviation)
This is a noise suppression method that clearly realizes the purpose of increasing the noise suppression amount when is large, and decreasing the suppression amount when is small.

【0064】なお、ここでα(ω,t)として、 α(ω,t) = F(ω,t)/V(ω) …(10) F(ω,t)はV(ω)には依存しない関数または定数という
形式は除外されることに注意する。なぜなら、このα
(ω,t)を上記(8)式に代入すると、 D(ω,t)= βN(ω)+F(ω,t) (X(ω,t)>βN(ω)+F(ω,t)の場合) = X(ω,t) (X(ω,t)≦βN(ω)+F(ω,t)の場合) …(11) となり、雑音抑圧量が標準偏差V(ω)には依存しなくな
るからである。
Here, as α (ω, t), α (ω, t) = F (ω, t) / V (ω) (10) F (ω, t) is V (ω) Note that the form of independent functions or constants is excluded. Because this α
Substituting (ω, t) into the above equation (8), D (ω, t) = βN (ω) + F (ω, t) (X (ω, t)> βN (ω) + F (ω, t) ) = X (ω, t) (X (ω, t) ≦ βN (ω) + F (ω, t)) (11), and the noise suppression amount depends on the standard deviation V (ω). Because it will not do.

【0065】この(11)式による雑音抑圧方法は、雑
音抑圧量が雑音の標準偏差に比例しているという点で、
最も簡単に雑音の分散(標準偏差の2乗)に依存した雑
音抑圧量を実現している。
The noise suppression method based on the equation (11) is that the noise suppression amount is proportional to the standard deviation of noise.
The noise suppression amount that depends on the variance of noise (square of standard deviation) is most easily realized.

【0066】図5及び図6は本発明の第4の実施の形態
を示すグラフである。図5は横軸にxをとり縦軸にD
(ω,t)をとって雑音抑圧量D(ω,t)を示すグラフであ
り、図6は横軸にX(ω,t)をとり縦軸にS(ω,t)をとっ
て、音声スペクトルS(ω, t)を示すグラフである。
FIGS. 5 and 6 are graphs showing the fourth embodiment of the present invention. In FIG. 5, x is on the horizontal axis and D is on the vertical axis.
7 is a graph showing the noise suppression amount D (ω, t) by taking (ω, t), and FIG. 6 shows X (ω, t) on the horizontal axis and S (ω, t) on the vertical axis. 6 is a graph showing a speech spectrum S (ω, t).

【0067】本実施の形態は第1の実施の形態と同様の
雑音抑圧アルゴリズムを採用すると共に、上記(8)式
に示す雑音抑圧量D(ω, t)の計算方法及び下記(1
2)式に示す計算式を採用したものである。
This embodiment adopts the same noise suppression algorithm as that of the first embodiment, and calculates the noise suppression amount D (ω, t) shown in the above equation (8) and the following (1
The calculation formula shown in Formula 2) is adopted.

【0068】 上記(8)式及び(12)式を採用した場合における雑
音抑圧量D(ω, t)及び推定音声スペクトルS(ω, t)
は、夫々下記(13)式及び(14)式によって表すこ
とができる。
[0068] The noise suppression amount D (ω, t) and the estimated speech spectrum S (ω, t) when the above equations (8) and (12) are adopted.
Can be expressed by the following equations (13) and (14), respectively.

【0069】 D(ω,t) = βN(ω)+kV(ω) (x≦kの場合 ) = βN(ω)+(k+a)V(ω) (x≧k+bの場合) = βN(ω)+(a(x−k)/b+k)V(ω) (その他の場合) ただし、x = (X(ω,t)−βN(ω) )/V(ω) …(13) S(ω, t) =0 (X(ω, t)<βN(ω)+kV(ω) の場合 ) = X(ω,t)−βN(ω)−(k+a)V(ω) (X(ω, t)>βN(ω)+(k+b)V(ω) の場合 ) = X(ω,t)−βN(ω)−(a(x−k)/b + k)V(ω) (その他の場合 ) …(14) ここで、k,a,bは実験的に求めた定数であり、a,
bは非負値である。
D (ω, t) = βN (ω) + kV (ω) (when x ≦ k) = βN (ω) + (k + a) V (ω) (when x ≧ k + b) = βN (ω) + (A (x−k) / b + k) V (ω) (other cases) where x = (X (ω, t) −βN (ω)) / V (ω) (13) S (ω, t) = 0 (when X (ω, t) <βN (ω) + kV (ω)) = X (ω, t) −βN (ω) − (k + a) V (ω) (X (ω, t) > ΒN (ω) + (k + b) V (ω)) = X (ω, t) −βN (ω) − (a (x−k) / b + k) V (ω) (other cases) (14) Here, k, a, and b are constants obtained experimentally, and a,
b is a non-negative value.

【0070】図5の太線は上記(13)式に基づく雑音
抑圧量D(ω,t)を示し、図6の太線は上記(14)式に
基づく音声スペクトルS(ω, t)を示している。
The thick line in FIG. 5 indicates the noise suppression amount D (ω, t) based on the above equation (13), and the thick line in FIG. 6 indicates the speech spectrum S (ω, t) based on the above equation (14). There is.

【0071】上記(14)式は、入力信号X(ω,t)と雑
音の平均値N(ω)との差の値に応じて3つの場合に場合
分けする。第1の場合、即ち、入力信号X(ω,t)と雑音
の平均値N(ω)との差が、標準偏差V(ω)のk倍以下で
あれば、S(ω,t)=0となることを示している。これ
は、入力信号と雑音の平均値の差は雑音のゆらぎ(時間
変動)に由来するものと考えて、入力信号の音声成分は
0と推定することを意味する。
The above equation (14) is classified into three cases according to the value of the difference between the input signal X (ω, t) and the noise average value N (ω). In the first case, that is, when the difference between the input signal X (ω, t) and the average value N (ω) of noise is less than or equal to k times the standard deviation V (ω), S (ω, t) = It has become 0. This means that the difference between the average value of the input signal and the noise originates from the noise fluctuation (time fluctuation), and the voice component of the input signal is estimated to be zero.

【0072】第2の場合、即ち、入力信号が平均値から
の分散の(k+b)倍以上大きくなれば、その信号は、突
発的に雑音が大きくなった可能性がないとは言えない
が、雑音信号に大きな音声信号が加わった可能性が高い
と判定し、比較的大きめの値N(ω)+(k+b)V(ω)
を減算する。
In the second case, that is, when the input signal becomes (k + b) times larger than the variance from the average value, it cannot be said that the signal may have suddenly become large in noise. It is determined that there is a high possibility that a large voice signal has been added to the noise signal, and a relatively large value N (ω) + (k + b) V (ω)
Subtract.

【0073】第3の場合、即ち、入力信号X(ω,t)が雑
音の平均値よりも標準偏差のk倍以上大きいが、(k+
b)倍よりも小さい場合には、雑音信号に弱い音声雑音
が混入した可能性が高いとして、入力信号と雑音の平均
値の差に応じた、いわば程々の雑音抑圧量を減算するこ
とを意味する。
In the third case, that is, the input signal X (ω, t) is larger than the average value of noise by k times the standard deviation, but (k +
If it is smaller than b) times, it means that weak voice noise is likely to be mixed in the noise signal, which means that a so-called moderate noise suppression amount is subtracted according to the difference between the average value of the input signal and the noise. To do.

【0074】このように、本実施の形態においては、上
記(8)式を最も単純な形式で具体化することができ
る。従って、実用上も簡単に実装可能であり、計算量も
少ないという利点がある。
As described above, in the present embodiment, the above equation (8) can be embodied in the simplest form. Therefore, there is an advantage that it can be easily implemented in practice and the amount of calculation is small.

【0075】[0075]

【発明の効果】以上説明したように本発明によれば、抑
圧係数を雑音の分散に応じて可変にすることにより雑音
抑圧精度を向上させることができるという効果を有す
る。
As described above, according to the present invention, the noise suppression precision can be improved by making the suppression coefficient variable according to the variance of noise.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施の形態に係る雑音抑圧方法を示
すフローチャート。
FIG. 1 is a flowchart showing a noise suppression method according to an embodiment of the present invention.

【図2】横軸にフレーム単位の時間をとり縦軸に周波数
をとって、入力スペクトル時系列の一例を示すスペクト
ル図。
FIG. 2 is a spectrum diagram showing an example of an input spectrum time series in which the horizontal axis represents time in frame units and the vertical axis represents frequency.

【図3】本発明の他の実施の形態を示すフローチャー
ト。
FIG. 3 is a flowchart showing another embodiment of the present invention.

【図4】図3中の処理S11〜S13におけるクラスタリン
グの具体的な処理を説明するためのフローチャート。
FIG. 4 is a flowchart for explaining a specific process of clustering in processes S11 to S13 in FIG.

【図5】本発明の第4の実施の形態を示すグラフ。FIG. 5 is a graph showing a fourth embodiment of the present invention.

【図6】本発明の第4の実施の形態を示すグラフ。FIG. 6 is a graph showing a fourth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

S1 …雑音スペクトルの取得処理、S3 …平均スペクト
ル及び標準偏差算出処理、S4 …雑音抑圧量算出、S5
…音声スペクトルの推定。代理人 弁理士 伊
藤 進
S1 ... Noise spectrum acquisition processing, S3 ... Average spectrum and standard deviation calculation processing, S4 ... Noise suppression amount calculation, S5
... estimation of the speech spectrum. Proxy Patent Attorney Susumu Ito

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 雑音のみの入力信号のスペクトル時系列
から、雑音の平均ベクトル及び標準偏差を求める手順
と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、雑音が混入した入力信号と前記雑音の
平均ベクトル及び標準偏差とに基づいて雑音抑圧量を決
定する雑音抑圧量決定手順と、 雑音が混入した入力信号から前記雑音抑圧量を減算する
ことで前記入力信号の雑音を抑圧する手順とを具備した
ことを特徴とする雑音抑圧方法。
1. A procedure for obtaining an average vector and standard deviation of noise from a spectral time series of an input signal containing only noise, and an input signal containing noise and the noise so as to reduce a spectral residual in spectral subtraction. A noise suppression amount determining procedure for determining a noise suppression amount based on an average vector and a standard deviation, and a procedure for suppressing noise of the input signal by subtracting the noise suppression amount from an input signal mixed with noise. A noise suppression method characterized by the above.
【請求項2】 雑音のみの入力信号のスペクトル時系列
を所定クラスタ数の複数のクラスタに分割する手順と、 前記雑音のみの入力信号から、各クラスタ毎に雑音の平
均ベクトル及び標準偏差を求める手順と、 雑音が混入した入力信号の入力スペクトルから所定の距
離尺度を用いて前記入力スペクトルに最も近似したクラ
スタを選択し、選択したクラスタの平均ベクトル及び標
準偏差を求める手順と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、雑音が混入した入力信号と前記選択し
たクラスタの平均ベクトル及び標準偏差とに基づいて雑
音抑圧量を決定する雑音抑圧量決定手順と、 雑音が混入した入力信号から前記雑音抑圧量を減算する
ことで前記入力信号の雑音を抑圧する手順とを具備した
ことを特徴とする雑音抑圧方法。
2. A step of dividing a spectral time series of a noise-only input signal into a plurality of clusters of a predetermined number of clusters, and a step of obtaining an average vector and standard deviation of noise for each cluster from the noise-only input signal. And a procedure for selecting a cluster that is the closest to the input spectrum using a predetermined distance measure from the input spectrum of the input signal containing noise, and obtaining the average vector and standard deviation of the selected cluster, and the spectrum residual in the spectral subtraction. A noise suppression amount determining procedure for determining a noise suppression amount based on an input signal containing noise and an average vector and standard deviation of the selected clusters so as to reduce the difference; And a step of suppressing the noise of the input signal by subtracting the suppression amount. Noise suppression method.
【請求項3】 入力信号の雑音抑圧に先立って、雑音の
みの信号のスペクトル時系列{N(t)} t=1,2,…、N
(t)=( N(ω1,t) , N(ω2,t) ,…, N(ωd,t) )(d次
元ベクトルであり、ω12等は周波数に対応するベク
トルの成分を表す)から、 雑音スペクトル時系列{N(t)}の平均ベクトルN=( N
1) , N(ω2) ,…,N(ωd) ) 及び各周波数毎の標準
偏差ベクトルV=( V(ω1) , V(ω2) ,…, V(ωd) )
を求める手順と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、現在の入力スペクトルX(t) =( X
1,t) , X(ω2,t) ,…, X(ωd,t) )と、前記平均ベク
トルN及び標準偏差ベクトルVとに基づいて現在のフレ
ームtに対する雑音抑圧量D(t)=( D(ω1,t), D(ω2,
t),…, D(ωd,t) )を決定する手順と、 雑音が混入した入力信号のスペクトルS(t) =( S(ω1,
t) , S(ω2,t) ,…,S(ωd,t) )を、S(t) = X(t)
− D(t)によって推定する手順とを具備したことを特徴
とする雑音抑圧方法。
3. A spectral time series {N (t)} t = 1,2, ..., N of a noise-only signal prior to noise suppression of an input signal.
(t) = (N (ω 1 , t), N (ω 2 , t), ..., N (ω d , t)) (d-dimensional vector, where ω 1 , ω 2 etc. are vectors corresponding to frequencies The average vector N = (N of the noise spectrum time series {N (t)}
1 ), N (ω 2 ), ..., N (ω d )) and the standard deviation vector V = (V (ω 1 ), V (ω 2 ), ..., V (ω d )) for each frequency
, And the current input spectrum X (t) = (X
1 , t), X (ω 2 , t), ..., X (ω d , t)) and the noise suppression amount D (for the current frame t based on the average vector N and the standard deviation vector V t) = (D (ω 1 , t), D (ω 2 ,
t), ..., D (ω d , t)), and the spectrum of the input signal S (t) = (S (ω 1 ,
t), S (ω 2 , t), ..., S (ω d , t)), where S (t) = X (t)
A noise suppression method comprising: a procedure of estimating by D (t).
【請求項4】 入力信号の雑音抑圧に先立って、雑音の
みの信号のスペクトル時系列{N(t)} t=1,2,…、N
(t)=( N(ω1,t) , N(ω2,t) ,…, N(ωd,t) )(d次
元ベクトルであり、ω12等は周波数に対応するベク
トルの成分を表す)から、雑音スペクトル時系列{N
(t)}を、所定の個数Mを超えないMe個のクラスタに分
割し、各クラスタm(m=1,2,…, Me(≦M))について、
雑音の平均ベクトル(セントロイド)Nm=( Nm1) ,
m2) ,…, Nmd) ) および各周波数ごとの標準
偏差ベクトルVm=( Vm1) , Vm2) ,…, V
md) )を推定する手順と、 Nm (m=1,2,…, Me )のうち、所定の距離尺度に関し
て、現在の入力スペクトルX(t) =( X(ω1,t) , X(ω2,
t) ,…, X(ωd,t) )に最も近い雑音の平均ベクトルN
と、それに対応する標準偏差Vとを求める手順と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、現在の入力スペクトルX(t) =( X
1,t) , X(ω2,t) ,…, X(ωd,t) )と、前記平均ベク
トルN及び標準偏差ベクトルVとに基づいて現在のフレ
ームtに対する雑音抑圧量D(t)=( D(ω1,t), D(ω2,
t),…, D(ωd,t) )を決定する手順と、 雑音が混入した入力信号のスペクトルS(t) =( S(ω1,
t) , S(ω2,t) ,…,S(ωd,t) )を、S(t) = X(t)
− D(t)によって推定する手順とを具備したことを特徴
とする雑音抑圧方法。
4. A spectral time series {N (t)} t = 1,2, ..., N of a noise-only signal prior to noise suppression of an input signal.
(t) = (N (ω 1 , t), N (ω 2 , t), ..., N (ω d , t)) (d-dimensional vector, where ω 1 , ω 2 etc. are vectors corresponding to frequencies Of the noise spectrum time series {N
(t)} is divided into M e clusters that do not exceed a predetermined number M, and for each cluster m (m = 1,2, ..., M e (≦ M)),
Average vector of noise (centroid) N m = (N m1 ),
N m2 ), ..., N md )) and the standard deviation vector V m = (V m1 ), V m2 ), ..., V
Of the procedure for estimating md )) and N m (m = 1,2, ..., M e ), the current input spectrum X (t) = (X (ω 1 , t), X (ω 2 ,
t), ..., X (ω d , t))
And a corresponding standard deviation V, and the current input spectrum X (t) = (X
1 , t), X (ω 2 , t), ..., X (ω d , t)) and the noise suppression amount D (for the current frame t based on the average vector N and the standard deviation vector V t) = (D (ω 1 , t), D (ω 2 ,
t), ..., D (ω d , t)), and the spectrum of the input signal S (t) = (S (ω 1 ,
t), S (ω 2 , t), ..., S (ω d , t)), where S (t) = X (t)
A noise suppression method comprising: a procedure of estimating by D (t).
【請求項5】 前記雑音抑圧量D(t)を、 現在のフレームの入力スペクトルX(t) と、求めた雑音
の平均スペクトルNm(m=1,2,…, Me )の中で、所定の
距離尺度に関してX(t) に最も近い雑音の平均ベクトル
N、およびNに対応する標準偏差Vとから算出される係
数α(t) =( α(ω1,t) , α(ω2,t) ,…, α(ωd,t) )
と、所定の定数β、γにより、 D(ω,t) = α(ω,t)V(ω) + βN(ω) ( X(ω,t)>α(ω,t )V(ω) + βN(ω)の場合) = X(ω,t) ( X(ω,t)≦α(ω,t)V( ω) + βN(ω)の場合) により決定することを特徴とする請求項3又は4のいず
れか一方に記載の雑音抑圧方法。
5. The noise suppression amount D (t) in the input spectrum X (t) of the current frame and the obtained average spectrum N m (m = 1, 2, ..., Me ) of the noise. , A coefficient α (t) = (α (ω 1 , t), α (ω) calculated from the average vector N of noises closest to X (t) and the standard deviation V corresponding to N for a predetermined distance measure. 2 , t),…, α (ω d , t))
And by the predetermined constants β and γ, D (ω, t) = α (ω, t) V (ω) + βN (ω) (X (ω, t)> α (ω, t) V (ω) + βN (ω)) = X (ω, t) (X (ω, t) ≤ α (ω, t) V (ω) + βN (ω)) Item 5. The noise suppression method described in either item 3 or 4.
【請求項6】 前記係数α(ω,t)は、予め定めた定数
k、非負の定数a及び非負の定数bを用いて、 により決定することを特徴とする請求項5に記載の雑音
抑圧方法。
6. The coefficient α (ω, t) is calculated by using a predetermined constant k, a non-negative constant a and a non-negative constant b, The noise suppression method according to claim 5, wherein the noise suppression method is determined by
【請求項7】 コンピュータに、 雑音のみの入力信号のスペクトル時系列から、雑音の平
均ベクトル及び標準偏差を求める処理と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、雑音が混入した入力信号と前記雑音の
平均ベクトル及び標準偏差とに基づいて雑音抑圧量を決
定する雑音抑圧量決定処理と、 雑音が混入した入力信号から前記雑音抑圧量を減算する
ことで前記入力信号の雑音を抑圧する処理とを実行させ
るための雑音抑圧プログラム。
7. A process for calculating a mean vector and standard deviation of noise from a spectral time series of an input signal containing only noise, and an input signal containing noise so as to reduce a spectral residual in spectral subtraction. Noise suppression amount determination processing for determining a noise suppression amount based on the average vector and standard deviation of the noise, and processing for suppressing the noise of the input signal by subtracting the noise suppression amount from an input signal containing noise A noise suppression program for executing and.
【請求項8】 コンピュータに、 雑音のみの入力信号のスペクトル時系列を所定クラスタ
数の複数のクラスタに分割する処理と、 前記雑音のみの入力信号から、各クラスタ毎に雑音の平
均ベクトル及び標準偏差を求める処理と、 雑音が混入した入力信号の入力スペクトルから所定の距
離尺度を用いて前記入力スペクトルに最も近似したクラ
スタを選択し、選択したクラスタの平均ベクトル及び標
準偏差を求める処理と、 スペクトルサブトラクションにおけるスペクトル残差を
低減するように、雑音が混入した入力信号と前記選択し
たクラスタの平均ベクトル及び標準偏差とに基づいて雑
音抑圧量を決定する雑音抑圧量決定処理と、 雑音が混入した入力信号から前記雑音抑圧量を減算する
ことで前記入力信号の雑音を抑圧する処理とを実行させ
るための雑音抑圧プログラム。
8. A process for causing a computer to divide a spectral time series of a noise-only input signal into a plurality of clusters having a predetermined number of clusters, and an average vector and standard deviation of noise for each cluster from the noise-only input signal. And a process of selecting a cluster that is the closest to the input spectrum using a predetermined distance measure from the input spectrum of the input signal containing noise, and calculating the average vector and standard deviation of the selected cluster, and spectral subtraction. Noise suppression amount determination processing for determining the noise suppression amount based on the input signal mixed with noise and the average vector and standard deviation of the selected clusters so as to reduce the spectrum residual in the input signal mixed with noise. And a process of suppressing the noise of the input signal by subtracting the noise suppression amount from Because of the noise suppression program.
JP2002121072A 2002-04-23 2002-04-23 Method and program for restricting noise Pending JP2003316381A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002121072A JP2003316381A (en) 2002-04-23 2002-04-23 Method and program for restricting noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002121072A JP2003316381A (en) 2002-04-23 2002-04-23 Method and program for restricting noise

Publications (1)

Publication Number Publication Date
JP2003316381A true JP2003316381A (en) 2003-11-07

Family

ID=29537118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002121072A Pending JP2003316381A (en) 2002-04-23 2002-04-23 Method and program for restricting noise

Country Status (1)

Country Link
JP (1) JP2003316381A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657948B1 (en) 2005-02-03 2006-12-14 삼성전자주식회사 Speech enhancement apparatus and method
US7729680B2 (en) 2004-11-02 2010-06-01 Panasonic Corporation Noise suppresser
CN102187388A (en) * 2008-10-15 2011-09-14 高通股份有限公司 Methods and apparatus for noise estimation in audio signals
JP2011191682A (en) * 2010-03-16 2011-09-29 Nec Corp Speech recognition device, speech recognition method and speech recognition program
CN108618879A (en) * 2017-03-20 2018-10-09 中国矿业大学 A kind of device for preventing snoring for distinguishing sound, generating vibrations
CN117665935A (en) * 2024-01-30 2024-03-08 山东鑫国矿业技术开发有限公司 Monitoring data processing method for broken rock mass supporting construction process

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7729680B2 (en) 2004-11-02 2010-06-01 Panasonic Corporation Noise suppresser
KR100657948B1 (en) 2005-02-03 2006-12-14 삼성전자주식회사 Speech enhancement apparatus and method
CN102187388A (en) * 2008-10-15 2011-09-14 高通股份有限公司 Methods and apparatus for noise estimation in audio signals
JP2012506073A (en) * 2008-10-15 2012-03-08 クゥアルコム・インコーポレイテッド Method and apparatus for noise estimation in audio signals
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
KR101246954B1 (en) 2008-10-15 2013-03-25 퀄컴 인코포레이티드 Methods and apparatus for noise estimation in audio signals
JP2011191682A (en) * 2010-03-16 2011-09-29 Nec Corp Speech recognition device, speech recognition method and speech recognition program
CN108618879A (en) * 2017-03-20 2018-10-09 中国矿业大学 A kind of device for preventing snoring for distinguishing sound, generating vibrations
CN117665935A (en) * 2024-01-30 2024-03-08 山东鑫国矿业技术开发有限公司 Monitoring data processing method for broken rock mass supporting construction process
CN117665935B (en) * 2024-01-30 2024-04-19 山东鑫国矿业技术开发有限公司 Monitoring data processing method for broken rock mass supporting construction process

Similar Documents

Publication Publication Date Title
CN110634497B (en) Noise reduction method and device, terminal equipment and storage medium
US10924849B2 (en) Sound source separation device and method
KR101120679B1 (en) Gain-constrained noise suppression
EP1403855B1 (en) Noise suppressor
US20170178664A1 (en) Apparatus, systems and methods for providing cloud based blind source separation services
US8346551B2 (en) Method for adapting a codebook for speech recognition
US20020038211A1 (en) Speech processing system
JP6361156B2 (en) Noise estimation apparatus, method and program
JP6195548B2 (en) Signal analysis apparatus, method, and program
CN110600051B (en) Method for selecting output beams of a microphone array
US20200349444A1 (en) Data processing system and data processing method
US10013997B2 (en) Adaptive interchannel discriminative rescaling filter
JP2003316381A (en) Method and program for restricting noise
SE513892C2 (en) Spectral power density estimation of speech signal Method and device with LPC analysis
Menard et al. Quantization mode opportunities in fixed-point system design
KR20170088165A (en) Method and apparatus for speech recognition using deep neural network
CN112289337A (en) Method and device for filtering residual noise after machine learning voice enhancement
US5953699A (en) Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence
JP7077645B2 (en) Speech recognition device
US11984132B2 (en) Noise suppression device, noise suppression method, and storage medium storing noise suppression program
JPWO2020049681A1 (en) Information processing equipment, methods and programs
Gang et al. Towards automated single channel source separation using neural networks
JP2001067094A (en) Voice recognizing device and its method
WO2020039598A1 (en) Signal processing device, signal processing method, and signal processing program
US20210174820A1 (en) Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060620