CN101727912A

CN101727912A - 噪声抑制装置及噪声抑制方法

Info

Publication number: CN101727912A
Application number: CN200910207125A
Authority: CN
Inventors: 刘恩彩
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-10-24
Filing date: 2009-10-23
Publication date: 2010-06-09
Anticipated expiration: 2029-10-23
Also published as: US20100104113A1; KR20100045935A; EP2180465B1; JP5071346B2; CN101727912B; US8515098B2; JP2010102204A; EP2180465A3; EP2180465A2

Abstract

本发明公开了一种噪声抑制装置和噪声抑制方法。在噪声抑制装置中，音频检测器检测输入信号中是否存在音频。第一噪声谱估计器基于输入信号和音频检测器的检测结果来估计包含于输入信号中的噪声谱。第二噪声谱估计器基于输入信号来估计噪声谱，而不管音频检测器的检测结果。噪声谱计算器根据音频检测器连续检测到音频的检测时间长度并且基于第一和第二噪声谱估计器所获得的作为估计结果的第一和第二噪声谱估计值来计算出最终的噪声谱估计值。增益计算器基于最终的噪声谱估计值来计算噪声抑制增益。噪声抑制器通过将噪声抑制增益应用于输入信号来抑制包含于输入信号中的噪声。

Description

噪声抑制装置及噪声抑制方法

技术领域

本发明涉及一种噪声抑制装置和一种噪声抑制方法。

背景技术

人们已经开发出了多种音频装置，其中包括根据输入信号驱动诸如扬声器之类的负载的音频重放装置、用于在远距离之间进行话音通信的话音通信装置、以及通过确认和识别话音的类型等来确定话音含义的话音识别装置。为了使得这些装置中的每个都能正确地再现、传输、或识别音频，优选的是去除包含于该音频中噪声的影响。

这种噪声抑制技术的示例包括在以下专利参考文献1和2、以及非专利参考文献1和2所述的技术。

[专利参考文献1]专利申请公开No.2006-126859；

[专利参考文献2]美国专利No.5572621；

[非专利参考文献1]Boll，S.，“Suppression of acoustic noise inspeech using spectral subtraction”，IEEE Trans.Vol.ASSP-27，No.2，PP.113-120，1979；

[非专利参考文献2]Doblinger G.，“Computationally efficientspeech enhancement by spectral minima tracking in subbands”，Proc.ofEurospeech EUROSPEECH’95，pp.1513-1516。

这些参考文献中所描述的技术涉及所谓的谱减法方法，其中通过采用适当技术从输入信号频域的振幅谱电平中减去噪声来抑制噪声。这些技术都实现了一定的噪声抑制效果。

然而，这些参考文献存在着未公开和未解决的问题。

例如，该谱抑制方法基于以下方案：对包含于输入信号中的噪声谱进行估计，并且从振幅谱中减去噪声谱估计值。在这种情况下，存在一个问题：很难确保噪声谱估计值的准确性。即，由于噪声谱估计值仅仅只是一个估计，所以其不一定能反映出真实的噪声谱。因此，在应当进行更多抑制的位置没有足够地进行抑制，或者相反地，在不应当进行抑制的位置过度地进行抑制。因此，该谱抑制方法存在一个问题，即不能实现正确的噪声抑制。

专利参考文献1公开了一种方法，其中，检测输入信号中是否包含音频，并且估计不包含音频的间隔的平均谱作为噪声谱。专利参考文献2和非专利参考文献2公开了一种方法，其中，直接从输入信号估计噪声谱，而不进行音频检测。

然而，基本上，这些参考文献均没有提供能确定地克服上述问题的装置，这是由于在所有参考文献中噪声谱仍然只是“估计”。

另外，每个参考文献各自具有以下问题。首先，在专利参考文献2中，在通过在有限时窗内对输入信号谱进行平滑处理而获得的值中寻找最小的值，并且将找到的最小值用作噪声谱。然而，该方法存在一个问题，即，用于存储该谱的存储容量相对较大，并且用于获得最小值的计算量也很大。

在专利参考文献2中，由于采用最小值来估计噪声谱，所以在输入信号仅包括噪声的情况下具有低估噪声谱值的趋势。由于同样的原因，在输入信号包括音频信号的情况下，即使采用了最小值也存在着高估噪声谱值的趋势。在前一种情况下，输出了抑制很少的噪声，在后一种情况下，存在由于过度减去噪声谱而导致的声音质量退化的问题。非专利参考文献2也存在这些问题。

专利参考文献1存在一个问题，即，不一定能很好地处理噪声电平快速变化的情况。即，在专利参考文献1中，假设该信号包含音频，在输入信号电平已经发生了快速变化的情况下，噪声谱估计值未被更新。然而，如果快速变化的电平与音频(即，信号)无关，而是与噪声相关时，则存在一个问题。如果这种情况继续下去，则噪声谱估计值也不会被更新，从而导致了一个问题，即，保持和再现了电平快速变化的噪声。

发明内容

本发明的一个目的是提供一种能克服至少一个上述问题的噪声抑制装置和噪声抑制方法。

为了实现本发明的上述目的，根据本发明的噪声抑制装置包括：音频检测装置，其检测输入信号中是否存在音频；第一噪声谱估计装置，其基于输入信号和音频检测装置的检测结果来估计包含于输入信号中的噪声谱，从而获得第一噪声谱估计值；第二噪声谱估计装置，其基于输入信号来估计噪声谱，而不管且独立于音频检测装置的检测结果，从而获得第二噪声谱估计值；噪声谱计算装置，其根据音频检测装置连续检测到音频的检测时间长度并且基于第一和第二噪声谱估计装置所获得的作为估计结果的第一和第二噪声谱估计值来计算最终的噪声谱估计值；增益计算装置，其基于最终的噪声谱估计值来计算噪声抑制增益；以及噪声抑制装置，其通过将噪声抑制增益应用到输入信号来抑制包含于输入信号中的噪声。

根据本发明，第一和第二噪声谱估计装置基于音频检测装置的检测结果来获得第一噪声谱估计值，以及获得了与检测结果不相关的第二噪声谱估计值。由于第一噪声谱估计值是基于音频检测的估计值，所以其具有高可靠性，以及由于要使用的噪声谱(从而，噪声抑制处理模式)能根据是否存在音频信号来选取，所以第一噪声谱估计值在噪声抑制效果方面更加有效。另一方面，虽然第二噪声谱估计值具有最小的噪声抑制效果，但是能仅仅基于输入信号来对其进行估计，从而它更有可能非常接近并且迅速地跟随输入信号电平的变化。

在仅使用第一噪声谱估计值的情况下，当如上所述的噪声电平快速增大时，很难有效地抑制噪声，在仅使用第二噪声谱估计值的情况下，可能低估或者过高估计噪声谱。

然而，在本发明中，噪声谱计算装置根据连续检测到音频的检测时间长度来计算最终的噪声谱估计值。

在此，术语“检测时间的长度”指的是连续检测到音频的持续时间。然而，因为人们在说话时需要呼吸，所以包含于输入信号中的音频信号的持续时间非常长的可能性非常低，考虑到这一事实，则存在检测到“音频”的时间包括只存在“噪声”的时间的可能性，即存在“音频”的检测仅仅是“噪声电平增大”的检测的可能性。而且，据估计这种可能性随着“检测时间的长度”增大将增大。

本发明适当地处理了这种情况。即，本发明通过如上所述的根据“检测时间的长度”计算“最终的噪声谱估计值”来处理这种情况。例如，在检测时间长度非常长的情况下，通过增大第二噪声谱估计值的影响来计算最终的噪声谱估计值，从而有效地抑制噪声，这是由于存在虽然“音频”检测的时间在持续、但是输入信号仅仅是噪声信号的可能性。

在任何一种情况下，根据本发明，可以根据“检测时间的长度”选择第一和第二噪声谱估计值的多种使用模式(包括简单的使用形式)中的一种，因此，可以基于一些考虑从而在一些情况下获得与第一噪声谱估计值相关的上述优点(或者抑制其缺点)、并且在一些情况下获得与第二噪声谱估计值相关的上述优点(或者抑制其缺点)，从而计算最终的噪声谱估计值。

在根据本发明的噪声抑制装置中，噪声谱计算装置可包括因子计算单元，其计算要与第一和第二噪声谱估计值相乘的加权因子，该加权因子具有根据检测时间长度变化的值，并且噪声谱计算装置可通过使用加权因子计算第一和第二噪声谱估计值的加权平均来计算最终的噪声谱估计值。

在这方面，适当地执行最终的噪声谱估计值的计算。

具体地讲，由于采用根据连续检测到音频的检测时间长度的“加权因子”来获得“加权平均”，所以能以“重叠”方式实现本发明的上述优点(即，获得第一和第二噪声谱估计值的优点和抑制缺点)。在此，从品质上讲，术语“重叠方式”表示计算由第一和第二噪声谱估计值二者影响的最终的噪声谱估计值以便等量地实现第一和第二噪声谱估计值的优点。这同样适用于以下描述。

在根据本发明的噪声抑制装置中，噪声谱计算装置可包括积分器，其根据检测时间的长度来进行运算、将第一噪声谱估计值用作初始值、以及在接收到第二噪声谱估计值时启动。

根据这方面，适当地执行最终的噪声谱估计值的计算。

具体地讲，在这方面，由于包括了积分器，所以根据检测时间的长度例如可以实现从第一噪声谱估计值到第二噪声谱估计值的连续转变。这个方面还以这种重叠方式实现了本发明的上述优点。

在根据本发明的噪声抑制装置中，当检测时间的长度等于或者小于第一预定值时，噪声谱计算装置可计算出第一噪声谱估计值，直接作为最终的噪声谱估计值；当检测时间的长度等于或大于第二预定值时，噪声谱计算装置可计算出第二噪声谱估计值，直接作为最终的噪声谱估计值；以及当检测时间的长度大于第一预定值并且小于第二预定值时，噪声谱计算装置可计算出介于第一和第二噪声谱估计值之间的中间噪声谱估计值，作为最终的噪声谱估计值。

根据这方面，适当地执行最终的噪声谱估计值的计算。

具体地讲，在这方面，由于最终的噪声谱估计值是根据检测时间的长度和每个预定值之间的大小关系计算出来的，所以可以适当地处理例如如上所述的其中错误地检测到“音频”的情况。

另外，在这方面使用的“中间噪声谱估计值”的概念不仅表示可取仅仅一个值的常数，也可以表示如后面描述的具有连续值的一组数，而且在一些情况下可以表示具有步进值的一组数。严格地讲，术语“中间”所指的也不是位于连接第一和第二噪声谱估计值的线段上并且距离第一和第二噪声谱估计值相等的中点。

在根据本发明的噪声抑制装置中，中间噪声谱估计值可具有根据检测时间的长度发生变化从而在第一和第二噪声谱估计值之间进行转变的值。

根据这方面，适当地表征中间噪声谱估计值。然而，在这种情况下，如上所述，由于“中间噪声谱估计值”被定义为当“检测时间的长度”大于第一预定值并且小于第二预定值时使用的一个值，所以在这方面，在中间噪声谱估计值具有根据检测时间的长度发生变化的值的情况下，“检测时间的长度”的下限是第一预定值，上限是第二预定值。

因此，这方面的“中间噪声谱估计值”取在当检测时间长度等于或者小于第一预定值时应用的第一噪声谱估计值和当检测时间长度等于或者大于第二预定值时应用的第二噪声谱估计值之间连续变化的一个值(或一组值)。这个“中间噪声谱估计值”可被视为一个适当地结合了第一和第二噪声谱估计值的性质的值。

因此，这方面还以这种重叠方式实现了本发明的上述优点。

在根据本发明的噪声抑制装置中，音频检测装置可检测输入信号的属于输入信号的预定频带的部分是否存在音频。

根据这方面，可以更准确地执行音频检测或者改善与音频检测等相关的计算速度，这是因为在这方面提到的“频带”可包括例如明显预计出包括音频的频带。

为了实现本发明的上述目的，根据本发明的噪声抑制方法包括：音频检测过程，用于检测输入信号中是否存在音频；第一噪声谱估计过程，用于基于输入信号和音频检测过程的检测结果来估计包含于输入信号中的噪声谱，从而获得第一噪声谱估计值；第二噪声谱估计过程，用于基于输入信号来估计噪声谱，而不管音频检测过程的检测结果，从而获得第二噪声谱估计值；噪声谱计算过程，其根据在音频检测过程中连续检测到音频的检测时间的长度并基于在第一和第二噪声谱估计过程中所获得的作为估计结果的第一和第二噪声谱估计值来计算最终的噪声谱估计值；增益计算过程，用于基于最终的噪声谱估计值来计算噪声抑制增益；以及噪声抑制过程，其通过将噪声抑制增益应用到输入信号来抑制包含于输入信号中的噪声。

显然的是，本发明能够获得在本质上与上述的与根据本发明的噪声抑制装置相关的优点相同的优点。

在根据本发明的噪声抑制方法中，噪声谱计算过程可包括因子计算过程，其计算要与第一和第二噪声谱估计值相乘的加权因子，该加权因子具有一个根据检测时间的长度发生变化的值，以及，噪声谱计算过程可通过采用加权因子计算第一和第二噪声谱估计值的加权平均来计算最终的噪声谱估计值。

附图说明

图1示出了根据本发明的第一实施例的噪声抑制装置的配置的框图。

图2是在图1所示的噪声抑制增益计数器中获得的加权因子w的图示。

图3示出了根据第一实施例的噪声抑制过程的流程图。

图4示出了输入信号的示例波形图。

图5示出了作为示例的所计算出来的输入信号的功率谱的图。

图6仅示出了图5中的曲线S1(第一噪声谱估计值N1_t(n))的图。

图7仅示出了图5中的曲线S2(第二噪声谱估计值N2_t(n))的图。

图8仅示出了图5中的曲线Sf(最终的噪声谱估计值N_t(n))的图。

图9示出了根据本发明的第二实施例的噪声抑制装置的配置的框图。

具体实施方式

从以下的实施例描述将清楚地看出本发明的更详细的方面及其优点。

<第一实施例>

以下参照图1和2来描述本发明的第一实施例。以下所参照的包括图1和2在内的每个附图(例如与图4)的一些部件的尺寸的比例相对于真实部件的尺寸的比例会有适当的变化。

如图1所示，噪声抑制装置1包括时频转换器10、谱计算器15、第一噪声谱估计器21、第二噪声谱估计器23、加权平均器30、噪声抑制增益计算器60、频时转换器70、音频检测器80、计数器单元85、以及加权因子计算器90。

时频转换器10在时域对输入信号执行傅立叶变换，以将输入信号变换为频域信号。优选的是，通过将输入信号在时间上划分为预定数量的帧并且通过用适当的窗乘以每个帧来执行该傅里叶变换。

谱计算器15计算频域信号将要被划分成为的振幅谱、相位谱和功率谱。具体地讲，在第一实施例中，基于以下的等式(1)来计算功率谱。

p (n) = {Y_{r}}^{2} (n) + {Y_{i}}^{2} (n) - - - (1)

其中，p(n)是输入信号的功率谱，Y_r(n)是通过输入信号的傅里叶变化所获得的值的实部，Y_i(n)通过输入信号的傅里叶变化所获的值的虚部，以及n是频带。具体地讲，n是一个分配给频域被划分成的N个频带中的每个频带的编号。

音频检测器80是检测输入信号中是否存在音频的音频检测装置。当如上所述输入信号被划分为多个帧时，对每个帧执行音频检测。在第一实施例中，假设执行了该音频检测过程。在此，术语“音频”特别指的是对人类有意义的声音，诸如谈话、发言、音乐声、或者各种信号等。即，可以认为，当使用适当的重放装置再现输入信号时，通过再现包含于输入信号中的“音频”信号来产生这种声音。然而，关于这一点，第一实施例考虑到其中实际上为噪声的信号被识别为“音频”的情况。从后面的描述中可以清楚地看出这方面的详情。

采用下列等式(2)来检测该音频信号。

SNR = 10 \log (\frac{PS}{PN}) - - - (2)

分别通过下列的等式(3)和(4)来表达等式(2)中的PS和PN。

PS = Σ_{n = N 1}^{N 2} P (n) - - - (3)

PN = Σ_{n = N 1}^{N 2} N_{t - 1} (n) - - - (4)

其中，N1和N2是频带号，因此，是小于如上所述的N的整数。P(n)是输入信号的功率谱(见等式(1))，N_t-1(n)是通过处理当前时间点之前的一个时间点而估计得出的噪声的功率谱。

因此，PS是输入信号从频带N1至频带N2的总功率谱，同样，PN是从频带N1至频带N2估计出来的总噪声功率谱。从上面的等式(3)和(4)可以看出，等式(2)的SNR表示输入信号的总功率谱和估计的总噪声功率谱之间的电平差。

例如，当等式2所计算出来的SNR等于或大于例如预定值TH1(即，SNR≥TH1)时，音频检测器80确定输入信号是音频，而当所计算出来的SNR小于预定值TH1(即，SNR≤TH1)时，确定输入信号不是音频。预定值TH1是音频检测的阈值。具体地讲，预定值TH1例如被设置为6[dB]。

音频检测器80保持有指示通过这种确定所获得的是否存在音频信号的信息。例如，音频检测器80具有一个音频检测标志sp_flg，该标志根据是否存在音频信号而被设置为1或0(当sp_flg＝1时，表示“存在音频信号”，而当sp_flg＝0时，表示“不存在音频信号”)。这使得音频检测器80在当前时间点的处理期间总能知道输入信号中是否含有音频信号。

第一噪声谱估计器21是基于输入信号来估计第一噪声谱的第一噪声谱估计装置。特别地，在第一实施例中，第一噪声谱是基于下列等式(5)计算出来的。

{N 1}_{t} (n) = \{\begin{matrix} {μN}_{t - 1} (n) + (1 - μ) P (n); & case \cdot A \\ N_{t - 1} (n); & case \cdot B \end{matrix} - - - (5)

其中，N1_t(n)是当前正在处理中的帧的第一噪声谱估计值，N_t-1(n)是刚刚处理过的帧的噪声谱估计值(因此，“t”是表示当前正在处理中的帧的下标)，μ是平滑因子。在等式(5)中，case·A表示其中标志sp_flg＝0(即，在当前时间点的输入信号不是音频)的情况，而case·B表示其中标志sp_flg＝1(即，在当前时间点的输入信号是音频)的情况。

以此方式，第一噪声谱估计器21根据音频检测器80在当前时间点是否已经检测到音频信号来改变用来获得第一噪声谱估计值N1_t(n)的等式。即，当sp_flg＝1时，第一噪声谱估计器21使用没有变化的前一噪声谱估计值N_t-1(n)来获得第一噪声谱估计值N1_t(n)，当sp_flg＝0时，通过对时间轴上的输入功率谱进行平滑处理来获得第一噪声谱估计值N1_t(n)。

第二噪声谱估计器23是一种基于输入信号来估计第二噪声谱的第二噪声谱估计装置。特别地，在第一实施例中，第二噪声谱是基于下列等式(6)和(7)计算出来的。

PA_t(n)＝αPA_t-1(n)+(1-α)P(n) (6)

{N 2}_{t} (n) = \{\begin{matrix} γN 2_{t - 1} (n - 1) + \frac{1 - γ}{1 - β} ({PA}_{t} (n) - βP A_{t - 1} (n)); & case \cdot C \\ {PA}_{t} (n); & case \cdot D \end{matrix} - - - (7)

其中，PA_t(n)是当前正在处理中的帧的平滑功率谱，PA_t-1(n)是前一帧的平滑功率谱，α是平滑因子。

N2_t(n)是当前正在处理中的帧的第二噪声谱估计值，N2_t-1(n)是刚刚处理过的帧的第二噪声谱估计值，γ和β是控制参数。在等式(7)中，case·C表示满足PA_t(n)＞N2_t-1(n)的情况，case·D表示不满足PA_t(n)＞N2_t-1(n)的情况。

在这种情况下，等式(7)中表示case·D的等式与等式(6)的结合实质上等同于上面的等式(5)中表示case·A的等式。

另一方面，在上面的等式(5)中没有与等式(7)中表示case·C的等式对应的情况。然而，由于如上所述的当满足PA_t(n)＞N2_t-1(n)时，即在当前正在处理中的帧的功率谱超过了前一帧中的第二噪声谱估计值的情况下，该等式有效，则还可以认为case·C“隐含着”当前处理中的帧包括音频信号的可能性。如果多个频带(n＝0，1，2，3，...)都满足这个条件，则将增大这种可能性。然而，这种可能性仅仅是“隐含”。

在这一点上，等式(6)和(7)与上面的等式(5)具有共同点。

与等式(5)相比，等式(6)和(7)的一个重要特征是：与等式(5)不同，可以在不需要音频检测结果的情况下计算噪声谱估计值。后面将对此再次进行讨论。

如下列等式所示，加权平均器30是一种噪声抑制装置，其使用第一噪声谱估计值N1_t(n)、第二噪声谱估计值N2_t(n)和加权因子来获得估计值的加权平均，其中如以下所述，加权因子是通过加权因子计算器90计算得到的。

N_t(n)＝w·N1_t(n)+(1-w)N2_t(n) (8)

该加权平均N_t是要最终应用的噪声谱估计值。

计数器单元85对音频检测器80针对每个帧而检测到音频的次数进行计数。即，计数器单元85使用一个变量，每当音频检测标志sp_flg变为1时该变量增大1。当该变量由CNT表示时，当sp_flg＝1时CNT＝CNT+1，当sp_flg＝0时CNT＝0。因此，计数器单元85提供了音频检测的持续时间。

加权因子计算器90计算加权因子w，该加权因子w用于加权平均器30的计算。特别地，在第一实施例中，加权因子计算器90基于以下等式(9)来计算加权因子w。

w = \{\begin{matrix} 1; & case \cdot E \\ 1 - \frac{CNT - TJ 2}{TH 3 - Th 2}; & case \cdot F \\ 0; & case \cdot G \end{matrix} - - - (9)

其中，TH2是加权因子调整下限，TH3是加权因子调整上限。在等式(9)中，case·E表示CNT≤TH2的情况；case·F表示TH2＜CNT＜TH3的情况；以及case·G表示CNT≥TH3的情况。值TH2和TH3被分别称为“加权因子调整下限”和“加权因子调整上限”，这是因为当TH2＜CNT＜TH3时，等式(9)中表示case·F的等式有效。

例如通过图2所示的图来表达通过等式(9)计算出来的加权因子w。在图2中，示出了TH2对应于水平时间轴上的0.5[s]的点(虽然TH2最初表示次数)，还示出了TH3对应于水平时间轴上的1.0[s]的点。虽然CNT表示如上所述的由音频检测器80连续检测到音频的次数，但是可以唯一地确定对应于CNT值的时间长度。在任意一种情况下，能以相同的度量(相同的“次数”或“时间”)来比较CNT和TH2或TH3。

因此，当时间从0.5[s]的点开始增大(即，变量CNT增大)时，图2所示的加权因子w减小。加权因子w的调整时限示为1.0[s](等式(9)的case·F)。当CNT表示小于或等于0.5[s]的时间时，w＝1.0(等式(9)的case·E)，当CNT表示等于或者大于1.0[s]的时间时，w＝0(等式(9)的case·G)。在图2中，还用虚线示出了当加权因子w变化时1-w的变化。

因此，从该描述和上面的等式(8)的表述中可以看出，加权因子计算器90确定了一个当CNT增大时减小第一噪声谱估计值N1_t(n)的影响并增大第二噪声谱估计值N2_t(n)的影响的加权因子w。

噪声抑制增益计算器60是基于振幅谱和使用等式(8)获得的噪声谱估计值N_t(n)来计算噪声抑制增益的增益计算装置。特别地，在第一实施例中，使用下列等式(10)来计算噪声抑制增益。

G (n) = \max (0, \frac{Y (n) - N_{t} (n)}{Y (n)}) - - - (10)

其中，max(a，b)表示输出a和b中较大值的函数。

根据等式(10)，当输入振幅谱Y(n)和噪声谱估计值N_t(n)之间的关系是Y(n)＜N_t(n)时，G(n)＝0；当Y(n)＞N_t(n)时，G(n)＝(Y(n)-N_t(n))/Y(n)。

图1所示的乘法器11是用如上获得的噪声抑制增益G(n)乘以振幅谱Y(n)的噪声抑制装置。即，乘法器11执行S(n)＝G(n)·Y(n)的计算，以获得噪声抑制的振幅谱S(n)，该噪声抑制的振幅谱S(n)是要最终获得的一个值。

最后，频时转换器70基于如上所述获得的噪声抑制的振幅谱S(n)和从时频转换器10直接提供的相位谱来产生时域输出信号。在第一实施例中，由于时频转换器10已经执行了傅里叶变换，所以频时转换器70执行傅里叶逆变换。

除了上述已经参考的图1和2之外，将参照图3至8来描述与上述第一实施例相关的噪声抑制装置1的操作和优点。

首先，时频转换器10对输入信号执行傅里叶变换，以将输入信号转换为频域信号(图3中的步骤S101)。在此，如上所述，时频转换器10对每个帧执行处理。谱计算器15然后根据上面的等式(1)来计算功率谱P(n)(图3的步骤S102)。

然后，音频检测器80基于所获得的功率谱P(n)和等式(2)至等式(4)来确定输入信号中是否包含音频信号(图2中的步骤S201)。

在这种情况下，可以为很多目的适当地设置等式(3)和(4)中的N1和N2，例如提高音频检测准确性的目的。即，当预测到可能包括音频信号的频带局限于特定频带内时，通过将N1和N2设置为覆盖该特定频带来确定是否存在音频信号比为所有频带确定是否存在音频信号更加合理。在这种情况下，可以实现诸如提高音频检测的准确性和提高计算速度之类的优点。然而，还可以将N1和N2设置为覆盖所有的频带。

以上述方式确定频带N1和N2之间是否包含音频信号，当确定包含音频信号时，设置音频检测标志sp_flg(即，sp_flg＝1)，而当确定不包含音频信号时，对音频检测标志sp_flg进行复位(即，sp_flg＝0)。

只要在音频检测器80的音频检测操作中满足sp_flg＝1，计数器单元85就继续增大变量CNT(见图3的步骤S202和S203)。

与上述的音频检测过程同时进行的是，噪声抑制装置1通过第一噪声谱估计器21和第二噪声谱估计器23来计算第一噪声谱估计值N1_t(n)和第二噪声谱估计值N2_t(n)(图3中的步骤S103和S104)。

首先，第一噪声谱估计器21基于上面的等式(5)来计算第一噪声谱估计值N1_t(n)。该计算过程根据如上所述的sp_flg的值发生变化。即，当满足sp_flg＝0时，第一噪声谱估计器21使用等式(5)中表示case·A的等式通过在时间轴上执行平滑过程来计算第一噪声谱估计值N1_t(n)。另一方面，当满足sp_flg＝1时，第一噪声谱估计器21根据等式(5)中表示case·B的等式来确定当前帧的第一噪声谱估计值N1_t(n)等于前一帧的噪声谱估计值N_t-1(n)。

另外，第二噪声谱估计器23基于上面的等式(6)和(7)来计算第二噪声谱估计值N2_t(n)。该计算过程根据当前正在处理且已经进行了如上所述的平滑过程的帧的功率谱PA_t(n)大于还是小于刚刚处理过的帧的第二噪声谱估计值N2_t-1(n)而发生变化。即，当满足PA_t(n)＞N2_t-1(n)时，第二噪声谱估计器23采用等式(7)中表示case·C的等式来获得第二噪声谱估计值N2_t(n)，而当PA_t(n)≤N2_t-1(n)时，采用等式(7)中表示case·D的等式来获得第二噪声谱估计值N2_t(n)。

例如图4和5示出了以上述方式计算出来的第一和第二噪声谱估计值N1_t(n)和N2_t(n)。

图4示出了示例输入信号波形，图5示出了基于图4所示的输入信号计算出来的示例功率谱。即，图4示出了“真实的”信号，而图5示出了根据等式(1)的计算之后(或者图3中的步骤S102的处理之后)的功率谱P(n)。图5特别地示出了250[Hz]频率附近的频带。图5的左上侧的虚箭头线表示省略了对电平增大超过显示极限的显示。

在图4和5的示例中，图5中的曲线S1示出了第一噪声谱估计值N1_t(n)，曲线S2示出了第二噪声谱估计值N2_t(n)。在这种情况下，应当注意两点。

要注意的第一点是：虽然如在图4中符号M1所示出的那样存在具有突变噪声信号电平的部分(将被称作“噪声电平突变部分M1”)，但是第一噪声谱估计值N1_t(n)或曲线S1不会表现出跟随噪声电平突变部分M1的性能。这是使用等式(5)中表示case·B的等式的结果。

最初，当sp_flg＝1时，即存在音频时，定义该等式有效。然而，当应用根据上面的等式(2)至(4)的音频检测方法或音频检测器80时，不可能排除在噪声信号电平如在图4中的噪声电平突变部分M1中一样迅速变化的点处错误地识别存在音频信号的可能性。由于这个原因，曲线S1具有图5所示的形状。即，由于虽然噪声电平突变部分M1是要被抑制的噪声信号，但是它被错误地识别为音频信号并且没有跟随噪声电平突变部分M1的电平，所以第一噪声谱估计值N1_t(n)保持在前一噪声谱估计值N_t(n)上。

以下是要注意的第二点。第二噪声谱估计值N2_t(n)不存在上述的第一噪声谱估计值N1_t(n)的问题，并且能令人满意地(即，紧密地)跟随如图5所示的功率谱P(n)的变化。然而，例如，针对图5中存在的由符号M2表示的音频信号的部分(将被称作“音频信号部分M2”)而估计出来的第二噪声谱估计值N2_t(n)的值有些过量。

这些结果都是由上面的等式(6)和(7)的固有特征造成的。即，由于第二噪声谱估计值N2_t(n)是基于不需要音频检测结果的计算原理而获得的，并且该计算几乎完全基于功率谱P(n)，所以第二噪声谱估计值N2_t(n)存在可能被功率谱P(n)的值过高估计的风险，虽然第二噪声谱估计值N2_t(n)能令人满意地跟随功率谱P(n)的变化。

如果对音频信号部分M2执行噪声抑制过程，而同时使用没有变化的被过高估计的第二噪声谱估计值N2_t(n)，则将比所需更多地抑制噪声，这将造成声音质量的恶化。

在如上所述获得第一和第二噪声谱估计值N1_t(n)和N2_t(n)之后，根据变量CNT的值来设置加权因子w(见图3中的步骤S106至S110)。具体地讲，图1中的加权因子计算器90在CNT等于或小于加权因子调整下限TH2时将加权因子w设置为1(即，w＝1)(图3的步骤S108)，在CNT等于或大于加权因子调整上限TH3时将加权因子w设置为0(即，w＝0)(图3的步骤S109)。在其他情况下，即，当满足TH2＜CNT＜TH3时，加权因子计算器90将加权因子w设置为p(即，w＝p)(图3中的步骤S110)。在此，“p”对应于如上所述的等式(9)中表示case·F的等式的右侧，例如由根据图2的方法来确定。

加权平均器30根据加权因子w和如上所述的等式(8)来获得噪声谱估计值N_t(n)(图3中的步骤S301)。

在这种情况下，重要的一点是：由于加权因子w是根据CNT值的大小来确定的，所以噪声谱估计值N_t(n)也是根据CNT值的大小来确定的。即，当CNT较小，即当音频持续时间不是很长时，噪声谱估计值N_t(n)等于第一噪声谱估计值N1_t(n)的值，并且当CNT较大，即当音频持续时间很长时，噪声谱估计值N_t(n)等于第二噪声谱估计值N2_t(n)的值。

当CNT介于中间时，噪声谱估计值N_t(n)等于通过适当地结合第一噪声谱估计值N1_t(n)和第二噪声谱估计值N2_t(n)而获得的值。在这种情况下，随着CNT值增大，第一噪声谱估计值N1_t(n)对于确定噪声谱估计值N_t(n)的影响减小，而第二噪声谱估计值N2_t(n)的影响增大。

在以上参照的图5中示出了通过执行如上所述的程序而获得的要最终应用的噪声谱估计值N_t(n)。具体地讲，在图5中，曲线Sf显示了噪声谱估计值N_t(n)。由于噪声谱估计值N_t(n)或曲线Sf经过了如上所述的加权平均过程，所以如图5所示，在音频信号部分M2中没有估计出过量的谱值，而在一定程度上又保持了跟随功率谱P(n)变化的性质。为了容易地查看图5中的曲线S1、S2和Sf，在图6至8中分别单独地示出了曲线S1、S2和Sf。

最后，噪声抑制增益计算器60根据上面的等式(10)使用所获得的噪声谱估计值N_t(n)来计算噪声抑制增益G(n)。然后，噪声抑制增益G(n)(通过图1所示的乘法器11)乘以初始的振幅谱Y(n)，来计算经过噪声抑制的振幅谱S(n)(在图3的步骤S302)。

具有如上所述的配置和操作的噪声抑制装置1具有以下优点。

(1)根据第一实施例的噪声抑制装置1，噪声谱估计值N_t(n)更准确地反映了实际上包含于输入信号中的噪声谱，从而更适当地抑制了输入信号中的噪声。这是因为噪声谱估计值N_t(n)的设置是如上所述地根据CNT的大小来执行的。

通常，在很长的时间内输入信号中包含有音频信号的可能性是非常小的。这种估计具有合理的基础，这是因为，(例如)在人们彼此之间进行交谈的情况下，在诸如扬声器切换之类的情景中通常包括无声间隔，或者这是因为，在谈话期间，甚至在单个人连续说话时，呼吸等是必须的。

因此，CNT具有非常大的值是不正常的。因此，当CNT增大时，出现不应当被确定为音频信号的情景(或部分)(即噪声信号被错误地识别为音频信号)的可能性很高。

图3中从步骤S107的“是”到步骤S109的程序中考虑了这种情况。具体地讲，在CNT超过预定值TH3的情况下，加权因子w被设置为0，这是因为出现上述有问题的情况的可能性很高。即，在这种情况下，根据等式(8)或者图2的方法，通过将噪声谱估计值N_t(n)设置为等于第二噪声谱估计值N2_t(n)来“忽略”音频检测结果。因此，根据能令人满意地跟随功率谱P(n)的第二噪声谱估计值N₂t(n)来执行噪声抑制过程，从而获得了针对噪声信号的适当措施(即，噪声信号的有效抑制)。

该程序用作针对异常情况的适当措施，而在这一点上，图3中从步骤S106的“是”到步骤S108的程序(即，将加权因子w设置为1的程序)用作“正常程序”。实际上，使用音频检测结果的噪声谱估计比不使用音频检测结果的估计具有更高的稳定性。另外，在第一实施例中，如等式(5)所示，确定第一噪声谱估计值N1_t(n)的值的方法根据是否存在音频信号是不同的，而且还根据是否存在音频信号来执行各自的适当噪声抑制程序，从而增大实现更有效的噪声抑制的可能性。因此，该程序被认为“正常程序”是合理的。当然，术语“异常”或“正常”仅仅与是否存在“错误检测音频的可能性”相关，而不意味着任何其他重要情况。

(2)另一方面，从与上述描述的比较可以清楚地看出，图3中从步骤S107的“否”到步骤S110的程序用作适用于上述两种情况的中间情况的程序。即，根据第一实施例，针对具有一个值的区域，(虽然CNT不是很大，但是根据上述观点该值具有错误识别的可能性)来执行上述两种情况的程序的“折衷”程序。另外，在第一实施例中，在这种情况下，不会均等地使用为该区域自动获得的特定中间噪声谱估计值，而是根据CNT的值来调整加权因子w(见图2)，并且每当调整加权因子w时，试图计算噪声谱估计值N_t(n)。

因为这种处理方法不受剧烈处理变化的影响，所以是更加实际的措施，并且也是非常有效的，这是因为以平衡的方式实现了上述的两个优点，即抑制了具有快速变化的电平的噪声、和通过避免噪声谱的过高估计而避免了声音质量恶化。这是第一实施例的一个重要优点。

<第二实施例>

以下参照图9来描述本发明的第二实施例。第二实施例具有与第一实施例不同的特征，该不同的特征与用于混合第一和第二噪声谱估计值N1_t(n)和N2_t(n)的过程有关。第二实施例的其他特征均与第一实施例的相同，除非另外指出。因此，以下描述将关注不同的特征，而简单描述或者不描述其他特征。在图9中，用同第一实施例相同的参考标号表示除了与不同特征有关的元件之外的元件。

如图9所示，第二实施例的噪声抑制装置1’包括积分器40、开关45和开关信号发生器95。开关信号发生器95产生用于控制开关45的开关信号sw_flg。开关信号sw_flg是根据来自如图1所示的计数器单元85的输入来产生的。即，开关信号发生器95基于表示音频检测持续时间的CNT值来产生或不产生开关信号sw_flg。优选地，可以设置一个标准，例如，当CNT≥TH4时产生开关信号sw_flg(即，sw_flg＝1)，而当CNT＜TH4不产生开关信号sw_flg(即，sw_flg＝0)。基于该标准进行以下描述。

在此，假设，如图9所示开关45正常地连接至第一噪声谱估计器21，并且当开关信号sw_flg被设置为1(即，sw_flg＝1)时，开关45切换至在相对侧上的第二噪声谱估计器23。当开关信号sw_flg被设置为0时，开关45连接回到第一噪声谱估计器21。

积分器40例如包括运算放大器、电容元件和电阻元件(均未示出)。在第一实施例中，如图1所示，积分器40接受第一噪声谱估计器21和第二噪声谱估计器23两者的输出。积分器40根据下列等式(11)进行操作。

{Ni}_{t} (n) = \{\begin{matrix} {N 1}_{t} (n); & case \cdot H \\ λ {Ni}_{t - 1} (n) + (1 - λ) {N 2}_{t} (n); & case \cdot I \end{matrix} - - - (11)

其中，Ni_t(n)是积分器40当前时间点的输出，Ni_t-1(n)是积分器40前一时间点的输出，λ是平滑因子。在等式(11)中，case·H表示CNT＝TH4的情况，case·I表示CNT＞TH4的情况。在等式(11)中，虽然TH4用作阈值，基于该阈值来确定是否启动积分器40，但是从以下描述中可以明白，TH4实际上用作第一实施例的预定值TH2。

由于等式(11)中的N1_t(n)和N2_t(n)是如上所述的第一噪声谱估计值和第二噪声谱估计值，所以实际上，仅在“case·I”，即当CNT＞TH4，的情况下积分器40才启动，并且根据t的增大来输出用于实现从第一噪声谱估计值N1_t(n)到第二噪声谱估计值N2_t(n)的平滑连接(或者平滑转变)的每个值。

上述的第二实施例的噪声抑制装置1’以下列方式进行操作。

首先，图3的步骤S101至S104和步骤S201至S203与第一实施例中的对应步骤相同。

差别在于如何使用CNT。即，在第一实施例中，CNT用来确定通过调整加权因子w而最终获得的噪声谱估计值N_t(n)，而在第二实施例中，CNT提供了用于启动积分器40的基准。

即，首先，当CNT连续增大到TH4时，开关信号发生器95将开关信号sw_flg设置为1。这导致开关45切换至第二噪声谱估计器23侧，即切换至积分器40。

同时，积分器40使等式(11)中表示case·H的等式有效。在此，从积分器40输出N1_t(n)(即，Nit(n)＝N1_t(n))几乎等同于使积分器40具有一个初始值。

之后，当CNT继续增大时，sw_flg保持为1，以及开关45保持与积分器40的连接，从而积分器40使等式(11)中表示case·I的等式有效。因此，在积分器40最初输出N1_t(n)时，积分器40连续输出逐渐接近第二噪声谱估计值N2_t(n)的值。

因此，第一噪声谱估计值N1_t(n)被输入到图9所示的噪声抑制增益计算器60，直到CNT达到TH4为止，在CNT到达TH4之后，最初向噪声抑制增益计算器60输入第一噪声谱估计值N1_t(n)，而最终向噪声抑制增益计算器60输入第二噪声谱估计值N2_t(n)。优选地，可以例如通过向上述的运算放大器等输入第二噪声谱估计值N2_t(n)来实现最终向噪声抑制增益计算器60输入第二噪声谱估计值N2_t(n)，从而输出在N2_t(n)时达到饱和。

从这可以看出，阈值TH4用作从第一噪声谱估计值N1_t(n)切换到第二噪声谱估计值N2_t(n)的参考点。从功能的观点来看，阈值TH4实质上等于第一实施例的TH2。

与此相关的是，等式(11)的平滑因子λ可被设置为对应于例如0.5[s]的时间常数的一个值。因此，在与第二实施例相关的图9的示例中也能实现一个过程，该过程几乎等同于以上参照图2所述的在直到连续检测到音频的0.5[s]开始的“加权因子调整”过程。

后续程序与第一实施例的相同。即，噪声抑制增益计算器60根据上面的等式(10)计算噪声抑制增益G(n)。然后，噪声抑制增益G(n)与初始振幅谱Y(n)相乘，以计算出经过噪声抑制的振幅谱S(n)(见图3的步骤S302)。

第二实施例具有以下优点。

首先，显然的是，第二实施例具有基本上与第一实施例的相同的操作和优点。因此，第二实施例具有与上述的与第一实施例相关的优点(1)和(2)相同的优点。

另外，根据第二实施例，由于使用了积分器40，所以能够实现从第一噪声谱估计值N1_t(n)到第二噪声谱估计值N2_t(n)的平滑连接(或转变)，并且上述的与第一实施例相关的优点(2)更加有效。

虽然以上描述了本发明的实施例，但是根据本发明的噪声抑制装置不限于上述的实施例，并且各种变型都是可行的。

(1)虽然在第一和第二实施例中音频检测是基于等式(2)至(4)来执行的，但是本发明不限于这种检测方法。

例如，本发明可以采用一种其中仅仅基于输入信号的电平是否超过预定阈值来检测音频的方法。本发明还可以采用其中使用概率和统计方法来估计出现音频信号的可能性的方法。本发明还可以采用一种方法，其与上述实施例中傅立叶变换之后的输入信号被用作检测目标不同的是，该方法中傅立叶变换之前的信号被用作检测目标。

(2)虽然在第一实施例所述的示例中加权因子w线性地增大，但是本发明不限于该示例。例如，加权因子w可以非线性地增大，即，可以以曲线方式增大。

与此相关的是，加权因子w不需要连续增大。例如，加权因子w还可以以w＝0.1，0.2...的步进方式增大。

更具体地讲，当CNT超过预定值的情况出现时，还可以将噪声谱估计值计算成为基于第一噪声谱估计值N1_t(n)和第二噪声谱估计值N2_t(n)确定的特定值。

(3)虽然在第一和第二实施例中噪声抑制增益G(n)是使用等式(10)计算出来的，但是本发明不限于该计算方法。例如，本发明可使用其它方法，诸如维纳滤波方法或最小均方误差(MMSE)方法(例如，见Lim&Oppenheim，“Enhancement and Bandwidth Compression ofNoisy Speech，”Proc.IEEE，Vol.67，No.12，PP.1586-1640，1979或者Y.Ephraim and D.Malah，“Speech Enhancement Using a MinimumMean-Square Error Short-Time Spectral Amplitude Estimator，”IEEETrans.Vol.ASSP-32，No.6，PP.1109-1121，1984)。另外，可以估计信号(音频)噪声比(SNR)，然后可以基于所估计的SNR来获得噪声抑制增益G(n)。

Claims

1.一种噪声抑制装置，包括：

音频检测部件，其检测输入信号中是否存在音频；

第一噪声谱估计部件，其基于输入信号和音频检测部件的检测结果来对包含于输入信号中的噪声谱进行估计，从而获得第一噪声谱估计值；

第二噪声谱估计部件，其基于输入信号来对噪声谱进行估计，而不管音频检测部件的检测结果，从而获得第二噪声谱估计值；

噪声谱计算部件，其根据音频检测部件连续检测到音频的检测时间长度并且基于第一噪声谱估计部件和第二噪声谱估计部件所获得的作为估计结果的第一噪声谱估计值和第二噪声谱估计值来计算最终的噪声谱估计值；

增益计算部件，其基于所述最终的噪声谱估计值来计算噪声抑制增益；以及

噪声抑制部件，其通过将噪声抑制增益应用于输入信号来对包含于输入信号中的噪声进行抑制。

2.根据权利要求1所述的噪声抑制装置，其中所述噪声谱计算部件包括因子计算单元，该因子计算单元对要与第一噪声谱估计值和第二噪声谱估计值相乘的加权因子进行计算，所述加权因子具有根据检测时间长度进行变化的值，以及其中

噪声谱计算部件通过利用加权因子计算第一噪声谱估计值和第二噪声谱估计值的加权平均来计算最终的噪声谱估计值。

3.根据权利要求1或2所述的噪声抑制装置，其中噪声谱计算部件包括积分器，其根据检测时间长度来进行操作、将第一噪声谱估计值用作初始值、以及在接收到第二噪声谱估计值时启动。

4.根据权利要求1至3中任一权利要求所述的噪声抑制装置，其中当检测时间长度等于或小于第一预定值时，噪声谱计算部件计算出第一噪声谱估计值，直接作为最终的噪声谱估计值；当检测时间长度等于或大于第二预定值时，噪声谱计算部件计算出第二噪声谱估计值，直接作为最终的噪声谱估计值；以及，当检测时间长度大于第一预定值并且小于第二预定值时，噪声谱计算部件计算出介于第一噪声谱估计值和第二噪声谱估计值之间的中间噪声谱估计值，作为最终的噪声谱估计值。

5.根据权利要求4所述的噪声抑制装置，其中，中间噪声谱估计值具有一个值，该值根据检测时间长度的变化而发生变化，从而在第一噪声谱估计值和第二噪声谱估计值之间转变。

6.根据权利要求1至5中任一权利要求所述的噪声抑制装置，其中，音频检测部件针对属于输入信号中的预定频带的部分进行输入信号是否存在音频的检测。

7.一种噪声抑制方法，包括：

音频检测步骤，用于检测输入信号中是否存在音频；

第一噪声谱估计过程，用于基于输入信号和音频检测过程的检测结果来对包含于输入信号中的噪声谱进行估计，从而获得第一噪声谱估计值；

第二噪声谱估计过程，用于基于输入信号来估计噪声谱，而不管音频检测过程的检测结果，从而获得第二噪声谱估计值；

噪声谱计算过程，用于根据在音频检测过程中连续检测到音频的检测时间长度并且基于在第一噪声谱估计过程和第二噪声谱估计过程中所获得的作为估计结果的第一噪声谱估计值和第二噪声谱估计值来计算最终的噪声谱估计值；

增益计算过程，用于基于最终的噪声谱估计值来计算噪声抑制增益；以及

噪声抑制过程，用于通过将噪声抑制增益应用到输入信号来抑制包含于输入信号中的噪声。

8.根据权利要求7所述的噪声抑制方法，其中，噪声谱计算过程包括因子计算过程，用于计算要与第一噪声谱估计值和第二噪声谱估计值相乘的加权因子，该加权因子具有一个根据检测时间长度而进行变化的值，以及其中

噪声谱计算过程通过使用所述加权因子计算第一噪声谱估计值和第二噪声谱估计值的加权平均来计算最终的噪声谱估计值。