CN102612711B

CN102612711B - 信号处理方法、信息处理装置

Info

Publication number: CN102612711B
Application number: CN201080050832.4A
Authority: CN
Inventors: 杉山昭彦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-11-09
Filing date: 2010-11-02
Publication date: 2016-07-06
Anticipated expiration: 2030-11-02
Also published as: US20120224718A1; EP2500902B1; JP5310494B2; EP2500902A1; WO2011055830A1; EP2500902A4; CN102612711A; US9042576B2; JP2011100082A

Abstract

公开了能够充分抑制劣化信号中的冲击噪声的信号处理方法、信息处理器和信号处理程序。为了抑制劣化信号中的冲击噪声，检测劣化信号中的冲击噪声。然后，利用与劣化信号中的除冲击噪声以外的信号有关的相位信息来处理与检测到的冲击噪声有关的相位信息，以使得与冲击噪声有关的相位信息中的变化量被减小。

Description

信号处理方法、信息处理装置

技术领域

本发明涉及抑制有噪信号(noisysignal)中的噪声以增强目标信号的信号处理技术。

背景技术

已知作为部分或完全抑制有噪信号(包含噪声和目标信号的混合的信号)中的噪声并输出增强信号(通过增强目标信号而获得的信号)的信号处理技术的噪声抑制技术。例如，噪声抑制器是抑制混合在目标音频信号中的噪声的系统。噪声抑制器被用在诸如移动电话之类的各种音频终端中。

关于这种类型的技术，专利文献1公开了一种通过将输入信号乘以小于1的抑制系数来抑制噪声的方法。专利文献2公开了一种通过从有噪信号中直接减去估计的噪声来抑制噪声的方法。然而，专利文献1和2中描述的技术在噪声估计中包括平均操作。因此，无法充分抑制诸如冲击音之类的以非预期方式发生的噪声。

与之不同，非专利文献1公开了一种噪声抑制系统，其基于有噪信号的功率谱的平坦性和相对于过去的增量来检测冲击音。非专利文献1中公开的系统当在非语音区间中未检测到冲击音时估计背景噪声。非专利文献1中公开的系统当在非语音区间中检测到冲击音时通过用背景噪声的估计替换有噪信号来抑制冲击音并且利用有噪信号和背景噪声之间的差异来更新冲击音估计。非专利文献1中系统当在语音区间中检测到冲击音时通过从有噪信号中减去冲击音估计来抑制冲击音。

[引文列表]

[专利文献]

[专利文献1]日本专利No.4282227

[专利文献2]日本专利早期公布No.8-221092

[非专利文献]

[非专利文献1]A.Sugiyama，Single-channelimpact-noisesuppressionwithnoauxiliaryinformationforitsdetection，″ProceedingsofWASPAA2007，pp.127to130，Oct.2007(2007年10月)

发明内容

然而，在上述非专利文献1中公开的布置中，没有对相位应用冲击音抑制处理。因此，相位的不连续性仍存在。结果，发生用户不觉得冲击音被充分抑制的情况。

通过考虑上述问题，本发明的一个目的是提供一种能够解决上述问题的信号处理技术。

为了实现上述目的，在根据本发明的信号处理方法中，为了抑制有噪信号中的冲击音，在有噪信号中检测冲击音，并且利用有噪信号中的除上述冲击音以外的有噪信号的相位信息来处理检测到的冲击音的相位信息以使得该相位信息的变化量被减小。

为了实现上述目的，根据本发明的一种抑制有噪信号中的冲击音的信息处理装置包括：检测装置，用于检测上述有噪信号中的冲击音，以及相位处理装置，用于利用有噪信号中的除冲击音以外的有噪信号的相位信息来处理检测到的冲击音的相位信息。

为了实现上述目的，根据本发明的程序记录介质中存储的信号处理程序，即用于抑制有噪信号中的冲击音的信号处理程序，使得计算机执行：用于检测有噪信号中的冲击音的步骤，以及用于利用有噪信号中的除冲击音以外的有噪信号的相位信息来处理检测到的冲击音的相位信息的步骤。本发明的有利效果

利用本发明，通过向有噪信号中的相位信息应用冲击音抑制处理，可以减轻由相位引起的信号不连续并且可以充分的减轻冲击音。

附图说明

图1是示出根据本发明的第一示例性实施例的噪声抑制装置100的示意性布置的框图；

图2是示出根据本发明的第一示例性实施例的噪声抑制装置100中包括的FFT(快速傅立叶变换)单元2的布置的框图；

图3是示出根据本发明的第一示例性实施例的噪声抑制装置100中包括的IFFT(逆快速傅立叶变换)单元4的布置的框图；

图4是示出根据本发明的第一示例性实施例的噪声抑制装置100中包括的冲击音估计单元11的布置的框图。

图5是示出根据本发明的第二示例性实施例的噪声抑制装置100中包括的冲击音检测单元10的布置的框图。

图6是示出根据本发明的第三示例性实施例的噪声抑制装置300的示意性布置的框图；

图7是示出根据本发明的第三示例性实施例的噪声抑制装置300中包括的冲击音抑制单元12的布置的框图。

图8是示出根据本发明的第四示例性实施例的噪声抑制装置400的示意性布置的框图；

图9是示出根据本发明的第五示例性实施例的噪声抑制装置中包括的冲击音抑制单元52的布置的框图。

图10A是示出根据本发明的第六示例性实施例的噪声抑制装置的示意性布置的框图。

图10B是示出根据本发明的第六示例性实施例的噪声抑制装置中包括的冲击音抑制单元62的布置的框图。

图11是示出根据本发明的第七示例性实施例的噪声抑制装置中包括的冲击音抑制单元72的布置的框图。

图12是示出根据本发明的第八示例性实施例的噪声抑制装置800的示意性布置的框图。

图13是示出根据本发明的第九示例性实施例的噪声抑制装置900的示意性布置的框图。

图14是示出根据本发明的第十示例性实施例的噪声抑制装置1000的示意性布置的框图。

图15是执行根据本发明的另外的示例性实施例的信号处理程序的计算机1100的示意性布置图。

图16是示出噪声抑制装置100的另外的布置的示例的框图。

具体实施方式

现在将参考附图通过示例详细描述示例性实施例。注意，示例性实施例中描述的构成元素只是示例，并且技术范围不受以下示例性实施例限制。

此外，本说明书中的“噪声”一般是指除了作为处理对象的信息以外的不必要信息，并且不限于声音。本说明书中的“冲击音”(impactsound)是一种噪声。它指的是在短时间中迅速变化的信息。它不限于声音。

(第一示例性实施例)

<整体布置>

作为用于实现根据本发明的信号处理方法的第一示例性实施例，将说明噪声抑制装置。图1是示出噪声抑制装置100的整体布置的框图。图16是示出噪声抑制装置100的另外的布置的示例的框图。噪声抑制装置100充当诸如数码相机、膝上型计算机、移动电话等等之类的装置的一部分。然而，本发明的使用并不限于这些装置，而是可以应用到需要从输入信号中去除噪声的所有信息处理装置。

有噪信号(包含目标信号和噪声的混合的信号)作为样本值序列被提供到输入端子1。在FFT单元2中对提供到输入端子1的有噪信号应用诸如傅立叶变换之类的变换，并将有噪信号分割成多个频率成分。多个频率成分的幅度被复用为幅度谱并且其被传送到冲击音检测单元10和IFFT单元4。另一方面，其相位作为相位谱被提供给冲击音抑制单元11。

冲击音检测单元10基于有噪信号谱的频率特性和时间特性来检测冲击音的存在。冲击音检测单元10在进行检测时可使用频率特性和时间特性之一或它们两者。当使用它们两者时，冲击音检测单元10可使用两种特性的评估结果的加权和或者由更复杂函数表达的综合结果。冲击音抑制单元11对于由FFT单元2提供的有噪信号，基于由冲击音检测单元10提供的冲击音检测信息，抑制每个频率上的冲击音，并将冲击音抑制结果作为增强信号相位谱提供给IFFT单元4。

IFFT单元4对从冲击音抑制单元11提供的增强信号幅度谱和从FFT单元2提供的有噪信号相位的组合进行逆变换，并将增强信号样本提供到输出端子5。

<FFT单元2的布置>

图2是示出FFT单元2的布置的框图。如图2中所示，FFT单元2包括帧分割单元21、加窗单元22和傅立叶变换单元23。帧分割单元21接收有噪信号样本并将其分割成与K/2样本相对应的帧，其中K是偶数。被分割成帧的有噪信号样本被提供给加窗单元22并被乘以窗口函数w(t)。通过用w(t)对第n帧输入信号yn(t)(t＝0，1，...，K/2-1)加窗而获得的信号由下式给出：

{\overset{&OverBar;}{y}}_{n} (t) = w (t) y_{n} (t) \cdot \cdot \cdot (1)

另外广泛进行的是对彼此部分重叠(交迭)的两个连续帧加窗。假定交迭长度是帧长度的50％。对于t＝0，1，...，K/2-1，加窗单元22输出由下式给出的和

\{\begin{matrix} {\overset{&OverBar;}{y}}_{n} (t) = w (t) y_{n - 1} (t + K / 2) \\ {\overset{&OverBar;}{y}}_{n} (t + K / 2) = w (t + K / 2) y_{n} (t) \end{matrix} \cdot \cdot \cdot (2)

对于实数信号使用对称窗口函数。当在MMSESTSA方法中将谱增益设定到1或者在SS方法中减去零时，窗口函数使得输入信号与输出信号匹配，除了一误差以外。这意味着w(t)＝w(t+K/2)＝1。

下面将继续描述对50％交迭的两个连续帧加窗的示例。加窗单元22可使用例如由下式给出的汉宁(hanning)窗：

或者，加窗单元22可使用诸如汉明(hamming)窗、凯泽(Kaiser)窗和布莱克曼(Blackman)窗之类的各种窗口函数。经加窗的输出被提供到傅立叶变换单元23并被变换成有噪信号谱Y_n(k)。有噪信号谱Y_n(k)被分离成相位和幅度。有噪信号相位谱argY_n(k)被提供到冲击音抑制单元11，而有噪信号幅度谱|Y_n(k)|被提供到冲击音检测单元10和IFFT单元4。如前所述，FFT单元2可使用功率谱来取代幅度谱。

<IFFT单元4的布置>

图3是示出IFFT单元4的布置的框图。如图3中所示，IFFT单元4包括逆傅立叶变换单元43、加窗单元42和帧重建单元41。逆傅立叶变换单元43把从冲击音抑制单元11提供来的增强信号相位谱与从FFT单元2提供来的有噪信号幅度谱argY_n(k)相组合以获得由下式给出的增强信号(下式(4)的左侧)：

{\overset{&OverBar;}{X}}_{n} (k) = | Y_{n} (k) | \cdot \arg {\overset{&OverBar;}{X}}_{n} (k) \cdot \cdot \cdot (4)

逆傅立叶变换单元43对所得到的增强信号进行逆傅立叶变换。经逆傅立叶变换的增强信号作为其中一个帧包括K个样本的一系列时域样本x_n(t)(t＝0，1，..，K-1)被提供到加窗单元42并被乘以窗口函数w(t)。通过用w(t)对第n帧输入信号x_n(t)(t＝0，1，...，K/2-1)加窗而获得的信号由下式给出：

{\overset{&OverBar;}{x}}_{n} (t) = w (t) x_{n} (t) \cdot \cdot \cdot (5)

另外广泛进行的是对彼此部分重叠(交迭)的两个连续帧加窗。假定交迭长度是帧长度的50％。对于t＝0，1，...，K/2-1，加窗单元42输出由下式给出的和并将它们提供给帧重建单元41：

\begin{matrix} {\overset{&OverBar;}{x}}_{n} (t) = w (t) x_{n - 1} (t + K / 2) \\ {\overset{&OverBar;}{x}}_{n} (t + K / 2) = w (t + K / 2) x_{n} (t) \end{matrix}\} \cdot \cdot \cdot (6)

帧重建单元41每K/2样本地提取来自加窗单元42的两个相邻帧的输出，重叠它们，并且获得对于t＝0，1，...，K-1由下式给出的输出信号

{\hat{x}}_{n} (t) = {\overset{&OverBar;}{x}}_{n - 1} (t + K / 2) + {\overset{&OverBar;}{x}}_{n} (t) \cdot \cdot \cdot (7)

帧重建单元41向输出端子5提供所得到的输出信号。

注意，以上将图2和3中的FFT单元2和IFFT单元4中的变换描述为傅立叶变换。然而，FFT单元2和IFFT单元4可使用任何其他变换，例如余弦变换、修正型离散余弦变换(MDCT)、哈达马(Hadamard)变换、哈尔(Haar)变换或小波变换，来取代傅立叶变换。例如，余弦变换或修正型余弦变换仅获得幅度作为变换结果。这消除了图1中从FFT单元2到IFFT单元4的路径的必要。此外，临时存储单元6中记录的噪声信息只需要包括幅度(或功率)，这有助于减小存储器大小和噪声抑制处理的计算数。哈尔变换允许省略乘法，并减小了LSI芯片的面积。由于小波变换取决于频率可改变时间分辨率，所以预期会有更好的噪声抑制。

或者，在FFT单元2已综合多个频率成分之后，冲击音抑制单元11可执行实际抑制。在此情况下，FFT单元2可通过从听觉特性的辨别能力较高的低频率范围到具有较差能力的高频率范围综合更多频率成分，来实现高声音质量。当在综合多个频率成分之后执行噪声抑制时，应用了噪声抑制的频率成分的数目减少了。噪声抑制装置100从而可减少计算总数。

<冲击音抑制单元11的布置>

图4是示出冲击音抑制单元11的内部布置的框图。如图4中所示，冲击音抑制单元11包括延迟单元111和组合单元112。延迟单元111延迟作为输入的有噪信号相位谱。可使用多个延迟量。延迟单元111可通过利用多个延迟量延迟输入来生成多个延迟信号。组合单元112组合有噪信号相位谱和由延迟单元111提供的经延迟的有噪信号相位谱以生成增强信号相位谱。

组合单元112仅在从冲击音检测单元10传送来对冲击音的检测时才执行相位处理。组合单元112可利用过去(发生冲击音之前)的值向相位应用由以下式(8)表示的处理作为相位处理。

\arg {\overset{&OverBar;}{X}}_{n} (k) = \frac{1}{NM} Σ_{l = n}^{n - M + 1} Σ_{p = k - N / 2}^{k + N / 2} c_{lp} \arg Y_{l} (p) \cdot \cdot \cdot (8)

其中，N是频率范围，M是帧号码的范围，并且c_lp是对频率为p、帧为1帧以前的有噪信号相位谱的系数。

即，组合单元112通过在从k-N/2到k+N/2的频率范围中和从n到n-M+1的帧号码范围中的有噪信号相位谱的线性耦合来计算增强信号的相位。最简单的示例是每个频率处的当前相位和一帧以前的帧的过去相位的平均。此外，组合单元112可应用(替换)与一帧以前的帧的相位相同的相位。结果，因为相对于过去相位的差异与当前相位本身相比变得较小，所以变得很难察觉为冲击音。当扩展此想法时，冲击音抑制单元11延迟整个信号，像过去信号的成分的相位一样使用冲击音之后的将来信号的成分的相位，并且抑制相位的变化。从而，可以改善冲击音抑制效果。通过此相位处理可获得很大的冲击音抑制效果。可通过仅执行相位处理、而不执行功率控制或幅度控制来获得冲击音抑制效果。

冲击音抑制单元11可向相位添加与过去值无关的成分。这种成分的一个示例是随机相位。此外，冲击音抑制单元11可限制该随机相位的范围，例如，随机相位的范围是45度以下。冲击音抑制单元11通过向相位添加与过去值无关的成分可有效的抑制冲击音。

如上所述，在此示例性实施例中，噪声抑制装置100在抑制有噪信号中的冲击音时检测有噪信号中的冲击音并且利用有噪信号中的除冲击音以外的有噪信号的相位成分来处理检测到的冲击音的相位成分。结果，噪声抑制装置100可以更有效地抑制冲击音。

(第二示例性实施例)

接下来，将参考图5来描述本发明的第二示例性实施例。此示例性实施例涉及使用了特有的冲击音检测方法的冲击音抑制装置和方法。通过传统的冲击音检测方法无法获得充分的检测精确度。然而，当根据此示例性实施例的方法检测冲击音时，可以以很高的精确度检测有噪信号中的冲击音。

此示例性实施例中的冲击音检测单元10基于有噪信号幅度谱的频率特性和时间特性来检测冲击音的存在。冲击音检测单元10在执行检测时可使用频率特性和时间特性之一或它们两者。当冲击音检测单元10使用两种特性时，其可使用两种特性的评估值的加权结果或者由更复杂的函数表达的综合结果。

<冲击音检测单元的布置>

图5是示出冲击音检测单元10的布置的框图。参考图5，冲击音检测单元10包括谱频率特性评估单元101、谱时间特性评估单元102以及综合单元103。

谱频率特性评估单元101评估关于谱的频率方向变化的特性并将其提供给综合单元103。谱频率特性评估单元101评估频率方向上谱的平坦度作为关于谱的频率方向变化的特性。谱频率特性评估单元101可使用相邻频率点处谱的差分绝对值的总和作为谱平坦度。通过使用频率k处帧n中的有噪信号幅度谱|Y_n(k)|，谱频率特性评估单元101可利用以下式(9)来计算帧n中的谱平坦度F_mf(n)。

F_{mf} (n) = Σ_{k = 1}^{N - 1} | | Y_{n} (k) | - | Y_{n} (k - 1) | | \cdot \cdot \cdot (9)

谱频率特性评估单元101可使用平均谱的差分绝对值的总和作为谱平坦度。通过使用帧n中的平均有噪信号幅度谱的均值，谱频率特性评估单元101可利用以下式(10)来计算帧n中的谱平坦度F_mf(n)。

F_{mf} (n) = Σ_{k = 0}^{N - 1} | \overset{&OverBar;}{| Y_{n} |} - | Y_{n} (k) | | \cdot \cdot \cdot (10)

谱频率特性评估单元101可利用k来限制执行平坦度计算的频率范围。具体地，因为冲击音谱在高频率范围较强，而传统信号的谱在低频率范围较强，所以当谱频率特性评估单元101将k的范围限制到高频率范围时，可以实现高检测精确度。谱频率特性评估单元101可对每个子带获得平坦度并且通过这些平坦度的线性或非线性耦合获得总平坦度。谱频率特性评估单元101可利用子带处理来区分冲击音与摩擦音(frictionalsound)。冲击音和摩擦音都在较宽范围上具有平坦的谱特性，但一般来说，摩擦音的带宽比冲击音的窄，并且在低频率范围摩擦音的功率比冲击音的低。为了区分这种特性之间的差异，将子带处理与多个子带平坦度相耦合是有效的。

谱频率特性评估单元101将每个获得的平坦度与阈值相比较并且计算平坦度的得分。平坦度的得分是表示平坦性的指标。例如，其可被表示为被正规化到0和1之间的值。谱频率特性评估单元101可利用式(11)来确定平坦度的得分S_f(n)。其中，σ_H是平坦度的上限阈值，σ_L是其下限阈值，并且FH和FL是分别与这些阈值σ_H和σ_L相对应的平坦度。

S_{f} (n) = \{\begin{matrix} 1 & F_{mf} (n) > σ_{H} \\ \frac{F_{H} - F_{L}}{σ_{H} - σ_{L}} F_{mf} (n) + \frac{σ_{H} F_{L} - σ_{L} F_{H}}{σ_{H} - σ_{L}} & σ_{H} &GreaterEqual; F_{mf} (n) &GreaterEqual; σ_{L} \\ 0 & F_{mf} (n) < σ_{L} \end{matrix} \cdot \cdot \cdot (11)

在式(11)中，在上限阈值和下限阈值之间使用了线性插值，但可以应用使用任意函数、多项式等等的插值。

例如，除了预先确定为阈值的值以外，还可以使用平坦度的过去平均值或过去中央值、基于这些值计算出的值，等等。多个阈值是预先提供的，并且谱频率特性评估单元101可基于对有噪信号谱的分析结果来选择性地使用它们。有噪信号幅度谱、功率谱、这些谱的统计量(平均值、中央值、最大值、最小值和方差)等等是分析结果的示例。

另一方面，谱时间特性评估单元102评估关于谱的时间方向变化的特性并将其提供给综合单元103。谱时间特性评估单元102可使用幅度或功率谱的增量作为谱的时间方向变化。谱时间特性评估单元102评估每个频率点处的时间方向变化。谱时间特性评估单元102可通过这些评估结果的线性或非线性耦合来获得整体变化。谱时间特性评估单元102可获得子带中的时间方向变化。例如，谱时间特性评估单元102可通过以下式(12)来获得一个子带中的时间方向变化F_mt(n)。

F_{mt} (n) = Σ_{k = 1}^{N - 1} {| Y_{n} (k) | - | Y_{n - 1} (k) |} \cdot \cdot \cdot (12)

子带的下限由k的值决定。谱时间特性评估单元102可利用特定频率号码取代N-1来指定子带的上限。谱时间特性评估单元102可对于每个子带获得时间方向变化并且通过这些时间方向变化的线性或非线性耦合来获得整体时间方向变化。因为冲击音谱在高频区域较强，而传统信号的谱在低频区域较强，所以谱时间特性评估单元102仅在高频区域评估该变化，从而可以实现较高的检测精确度。

谱时间特性评估单元102可使用这些幅度或功率谱在频率方向上的统计量(平均值、中央值、最大值、最小值或方差)或这些值的组合。例如，当谱时间特性评估单元102使用最小值时，其可利用以下式(13)来计算时间变化。

F_mt(n)＝min{|Y_n(k)|}-min{|Y_n-1(k)|}…(13)

当谱时间特性评估单元102使用这种最小值的时间变化时，冲击音检测单元10可非常精确地检测到冲击音。这是因为通常，有噪信号在频率方向上的统计量可以取很宽范围的值，而对于冲击音，有频率方向上的最小值较大的趋势。

具体地，当这些统计量中的任何一个具有小方差时，谱时间特性评估单元102可利用具有小方差的统计量来实现高检测精确度。

此外，对于式(9)至(12)，可取代有噪信号幅度谱|Y_n(k)|使用功率谱|Y_n(k)|²。

谱时间特性评估单元102将这样获得的时间变化与阈值相比较并且获得时间变化的得分。时间变化的得分是表示时间变化的存在度的指标。例如，其可被表达为被正规化到0和1之间的值。与式(11)一样，谱时间特性评估单元102可利用时间变化的上限阈值、其下限阈值和与这些值相对应的时间变化量来确定时间变化的得分S_t(n)。与平坦度的得分一样，谱时间特性评估单元102可应用其中使用任意函数、多项式等等的插值来取代线性插值。

除了预先确定为阈值的值以外，谱时间特性评估单元102还可以使用时间变化的过去平均值或过去中央值、基于这些值计算出的值，等等。多个阈值是预先提供的，并且谱时间特性评估单元102可基于对有噪信号幅度谱的分析结果来选择性地使用它们。有噪信号幅度谱、功率谱、这些谱的统计量(平均值、中央值、最大值、最小值和方差)等等是分析结果的示例。

综合单元103综合由谱频率特性评估单元101提供的关于谱的频率方向变化的特性和由谱时间特性评估单元102提供的关于谱的时间方向变化的特性，生成冲击音数据，并将其输出。冲击音数据例如指示被正规化到0和1之间的与冲击音的相似度。例如，当冲击音数据是“1”时，其指的是以100％的确信度判定为冲击音，而当冲击音数据是“0.8”时，其指的是以20％的不确定度判定为冲击音。

综合特性的最简单方法是获得平坦度的得分和时间变化的得分的逻辑积。当两个得分都是“1”时，综合单元103将冲击音数据设定到“1”。综合单元103可使用逻辑和来取代逻辑积。当两个得分之一是“1”时，综合单元103将冲击音数据设定到“1”。

综合单元103可利用综合了这些得分的综合得分来计算冲击音数据。例如，当这些得分的和被用作冲击音数据时，即使其与逻辑积或逻辑和相比不确定，综合单元103也可将冲击音设定到“1”以上。得分的综合不仅可通过两个得分的简单相加来实现，还可通过包括线性函数或非线性函数在内的各种综合方法来实现。对频率特性的强调程度或对时间特性的强调程度可由用于此综合的函数来调节。

当通过这种方法获得的冲击音数据是“1”以上时，噪声抑制装置判定冲击音确实存在并且完全抑制冲击音。当冲击音数据小于“1”时，噪声抑制装置根据该值降低冲击音抑制程度。

如上所述，在此示例性实施例中，当噪声抑制装置抑制有噪信号中的冲击音时，其从有噪信号中提取幅度成分或功率成分并且利用幅度成分或功率成分的时间方向变化的统计量来检测冲击音。结果，噪声抑制装置可更正确地检测冲击音。

另外，在此示例性实施例中，说明了作为第一示例性实施例的一部分的冲击音检测单元10。然而，用于此示例性实施例的冲击音检测方法不限于第一示例性实施例中描述的冲击音抑制方法，而是可以使用用于抑制冲击音的任意方法。即，噪声抑制装置可如第一示例性实施例中所述通过对由此示例性实施例的方法检测到的冲击音执行相位处理或控制幅度或功率来抑制冲击音。

(第三示例性实施例)

这里，将描述根据本发明的第三示例性实施例的噪声抑制装置。图6是示出根据此示例性实施例的噪声抑制装置300的示图。噪声抑制装置300包括第一冲击音抑制单元11和第二冲击音抑制单元12。有噪信号幅度谱|Y_n(k)|被从FFT单元2提供到冲击音检测单元10和第二冲击音抑制单元12。增强信号相位谱的平均值被从第一冲击音抑制单元提供到IFFT单元4，并且增强信号幅度谱的平均值被从第二冲击音抑制单元12提供到IFFT单元4。因为第一冲击音抑制单元11的布置与第一示例性实施例中描述的冲击音抑制单元的相同，所以这里省略详细描述。

图7是示出第二冲击音抑制单元12的内部布置的框图。如图7所示，第二冲击音抑制单元12包括延迟单元121和组合单元122。延迟单元121延迟作为输入的有噪信号幅度谱。不一定使用一个延迟量。延迟单元121可具有多个延迟量以生成多个延迟信号。组合单元122组合输入的有噪信号幅度谱和由延迟单元121提供的经延迟的有噪信号幅度谱以生成增强信号幅度谱。组合单元122仅在冲击音检测单元10检测到冲击音时才执行与延迟信号相组合的处理。

与在第一示例性实施例中由式(8)指示的使用过去值的处理被应用作为组合处理的情况一样，组合单元122可应用由以下式(14)指示的处理。

| {\overset{&OverBar;}{X}}_{n} (k) | = \frac{1}{NM} Σ_{l = n}^{n - M + 1} Σ_{p = k - N / 2}^{k + N / 2} c_{lp} | Y_{l} (p) | \cdot \cdot \cdot (14)

在式(14)中，“c_lp”是对频率为p的被延迟1帧的有噪信号幅度谱的系数。即，组合单元122通过在从k-N/2到k+N/2的频率范围中和从n到n-M+1的帧号码范围中的有噪信号幅度谱的线性耦合来计算增强信号幅度谱。最简单的示例是每个频率处的当前样本和一帧以前的样本的平均。利用该平均，因为相对于过去样本的差异与只使用当前样本的情况相比变得较小，所以变得很难察觉为冲击音。

作为组合的另一示例，组合单元122可对当前样本施加限制，其中从过去样本获得的值(例如平均值或最大值)被用作上限。当使用此组合方法时，因为相对于过去样本的差异与只使用当前样本的情况相比变得较小，所以变得很难察觉为冲击音。此外，第二冲击音抑制单元12像对相位的处理那样延迟整个信号，并且像过去信号的成分的幅度谱那样利用冲击音之后的将来信号的成分的幅度谱来抑制幅度谱的变化。从而，可以改善冲击音抑制效果。此外，在这些谱的组合中，如以上说明中所述，可以取代有噪信号幅度谱使用有噪信号功率谱。

如上所述，在此示例性实施例中，通过使用有噪信号中的除冲击音以外的有噪信号来执行处理，以降低检测到的冲击音的幅度或功率成分。从而，通过对于相位和幅度或功率两者处理冲击音，噪声抑制装置300可更有效地抑制冲击音。

(第四示例性实施例)

接下来，将利用图8来描述根据本发明的第四示例性实施例的噪声抑制装置400。除了第一示例性实施例的噪声抑制装置100以外，此示例性实施例的噪声抑制装置400还具有输入端子9，噪声存在信息被输入到该输入端子9。图8中所示的冲击音抑制单元31通过利用从输入端子9提供来的噪声存在信息在每个频率执行第一示例性实施例中描述的相位处理来抑制冲击音。冲击音抑制单元31将冲击音抑制结果作为增强信号谱传送到IFFT单元4。当噪声存在信息表明存在噪声时，增强信号相位谱成为了其中通过对有噪信号相位谱执行第一示例性实施例中说明的相位处理而抑制了冲击音的谱。另一方面，当噪声存在信息表明不存在噪声时，其就成为了有噪信号相位谱本身。

结果，可以更高效地执行冲击音抑制。

(第五示例性实施例)

接下来，将描述根据本发明的第五示例性实施例的噪声抑制装置。根据此示例性实施例的噪声抑制装置是基于利用图6描述的根据第三示例性实施例的噪声抑制装置配置的，并且此示例性实施例的第二冲击音抑制单元12的内部布置与第三示例性实施例的不同。除了第二冲击音抑制单元12的内部布置以外的布置和操作与第三示例性实施例的相同。因此，这里将省略详细描述。

根据此示例性实施例的第二冲击音抑制单元52的内部布置在图9中示出。图9是示出第二冲击音抑制单元52的布置的框图。如图9中所示，第二冲击音抑制单元52除了延迟单元121和组合单元124以外还包括重要度评估单元123。因为延迟单元121的布置已在第三示例性实施例中利用图7说明，所以这里将省略对其的描述。

重要度评估单元123生成用于根据重要度执行处理的信息(重要度信息)并将其提供给组合单元124。组合单元124除了增强信号谱组合处理以外还基于由重要度评估单元123提供的重要度信息执行根据重要度的处理。

由重要度评估单元123生成的重要度信息的第一示例是有噪信号幅度谱的峰。重要度评估单元123可通过将每个频率点处的谱与相邻频率点处的谱相比较并且评估它们之间的差异是否足够大来检测谱的峰。在最简单的示例中，执行每个频率点处的谱与两个相邻侧(低侧和高侧)中的每一侧的谱之间的比较，并且当它们之间的差异大于阈值时，则其被判定为峰。不一定对两侧的比较使用相同的阈值。在日本工业标准JIS×4332-3“CodingofAcousticVideo0bject-thirdpartAcousmato-”March，2002(2002年3月)中描述了，当高侧的差异阈值小于低侧的差异阈值时，可获得与实际特性的良好匹配。类似地，重要度评估单元123可通过获得低侧和高侧的多个频率点处的差异并综合所获得的信息来检测峰。即，当检测到如下频率点时，其被判定为峰：在该频率点处，该频率点处的谱与紧邻的频率点处的谱之间的差异较大，但位置远离紧邻的频率点的两个相邻频率点处的谱之间的差异较小。重要度评估单元123将通过这种方法检测到的峰的位置(频率)和幅度(重要度)提供给组合单元124。

由重要度评估单元123生成的重要度信息的第二示例是有噪信号幅度谱的幅度。即使当没有谱峰时，重要度评估单元123也在该值较大时将该频率检测为大幅度。例如，当在频率方向上连续存在具有大值的谱时，这些谱不被检测为峰。然而，这样的部分影响听觉感受。从而，重要度评估单元123将检测到的大幅度的位置(频率)和幅度(重要度)提供给组合单元124。

由重要度评估单元123生成的重要度信息的第三示例是与有噪信号幅度谱的噪声的相似度。在通过峰检测而检测到的峰之中存在于特别是低侧的峰被判定为噪声的可能性较低。在谱值较小并且不是峰的位置处与噪声的相似度较高。即，峰与噪声具有较低的相似度，而谱值较小的非峰与噪声具有较高的相似度。重要度评估单元123将这些峰的位置(频率)和幅度(重要度)提供给组合单元124。

由重要度评估单元123生成的重要度信息可通过适当地组合已经说明的峰、大幅度和与噪声的相似度来创建。例如，执行控制以使得对于具有大幅度的谱的峰检测使用低阈值并且在其幅度较大的频带中检测到小峰。这是示例之一。重要度评估单元123可通过组合这些指标并使用它来获得更正确的重要度信息。如上所述，重要度评估单元123可应用处理限于特定频率带中的子带处理等等。

具体而言，组合单元124在除了由重要度评估单元123提供的频率点以外的频率点执行与利用图7说明的组合单元122执行的处理相同的增强信号谱组合处理。重要信号成分存在于由重要度评估单元123提供的频率点处并且它们对于增强信号的声音质量起着重要作用。从而，冲击音抑制单元52根据这些频率点处的重要度应用抑制。换言之，当重要度较高时，冲击音抑制单元52应用弱抑制，而当重要度较低时，其应用强抑制。

如上所述，通过使用此示例性实施例，可以对噪声的幅度或功率谱执行考虑了重要度的抑制，并且可获得更高质量的输出。

(第六示例性实施例)

接下来，将描述根据本发明的第六示例性实施例的噪声抑制装置。根据此示例性实施例的噪声抑制装置是基于利用图6说明的根据第三示例性实施例的噪声抑制装置配置的，并且此示例性实施例的第二冲击音抑制单元12的内部布置与第三示例性实施例的不同。除了第二冲击音抑制单元12的内部布置以外的布置和操作与第三示例性实施例的相同。因此，这里将省略详细描述。

图10A是根据此示例性实施例的噪声抑制装置的整体框图。此布置与图6所示的布置相似。然而，噪声存在信息被从输入端子9提供到第二冲击音抑制单元62。这是它们之间的差异。除了这个差异点以外的布置和操作与第三示例性实施例的相同。因此，这里将省略详细描述。

图10B是示出第二冲击音抑制单元62的内部布置的框图。如图10B中所示，冲击音抑制单元62包括延迟单元121、组合单元134和背景噪声估计单元125。延迟单元121与图7中说明的延迟单元相同。因此，这里将省略对其的说明。背景噪声估计单元125从FFT单元2接收有噪信号幅度谱，估计背景噪声水平，并且将其作为背景噪声水平估计提供给组合单元134。背景噪声估计单元125在有噪信号幅度谱被提供为输入时获得作为背景噪声幅度谱的估计的背景噪声水平估计，并且在有噪信号功率谱被提供时获得作为背景噪声功率谱的估计的背景噪声水平估计。背景噪声估计单元125仅在噪声存在信息表明存在噪声时估计背景噪声并且更新背景噪声的估计。组合单元134除了与在组合单元122中执行的处理相同的增强信号谱组合处理以外，还执行根据由背景噪声估计单元125提供的背景噪声估计的不同处理。

当从输入端子9提供来的噪声存在信息表明存在噪声时，组合单元134执行抑制，其中由背景噪声估计单元125提供的背景噪声估计被用作下限。即，当组合的结果小于背景噪声估计时，组合单元134使得抑制较弱以等于背景噪声估计并将其作为增强信号谱输出。当组合的结果等于或大于背景噪声估计时，组合单元134将组合的结果不作改变地输出作为增强信号谱。当从输入端子9提供来的噪声存在信息表明不存在噪声时，组合单元134不执行使用背景噪声估计作为下限的处理并且将组合的结果不作改变地输出作为增强信号谱。

如上所述，冲击音抑制单元62执行使用背景噪声估计作为下限的抑制，从而可以避免过度的抑制并且可以获得给出自然的听觉感受的增强信号。

(第七示例性实施例)

接下来，将利用图11来描述根据本发明的第七示例性实施例的噪声抑制装置。根据此示例性实施例的噪声抑制装置是基于利用图6说明的根据第三示例性实施例的噪声抑制装置配置的，并且此示例性实施例的第二冲击音抑制单元72的内部布置与第三示例性实施例的不同。除了第二冲击音抑制单元72的内部布置以外的布置和操作与第三示例性实施例的相同。因此，这里将省略详细描述。

图11是示出第二冲击音抑制单元72的内部布置的框图。如图11中所示，第二冲击音抑制单元72包括延迟单元121、组合单元122和白化处理单元127。延迟单元121与组合单元122之间的关系已在图5至7中说明。因此，这里将省略描述。白化处理单元127从组合单元122接收增强信号谱，对其进行白化，并且将其作为经白化的增强信号谱输出。

白化处理单元127计算增强信号幅度谱的平均值并且使得相对于此平均值的方差小于或等于基准值。具体而言，白化处理单元127用平均值+ε替换超过平均值+ε的幅度谱。此外，白化处理单元127用平均值-ε替换小于平均值-ε的幅度谱。白化处理单元127不改变除了上述增强信号幅度谱以外的增强信号幅度谱的幅度谱值。白化处理单元127可以执行利用平均值+-ε的范围内的随机数的替换，而不是利用平均值+-ε的替换。例如，白化处理单元127利用从平均值+ε到平均值的范围内的随机数来替换超过平均值+ε的幅度谱值。此外，白化处理单元127利用从平均值-ε到平均值的范围内的随机数来替换小于平均值-ε的幅度谱值。幅度谱值通过白化处理被均衡，从而噪声变得很难察觉。

此外，除了图11中所示的布置以外，还可以使用利用图9说明的重要度评估单元123。在该情况下，白化处理单元127可将重要度评估单元123的输出用于白化处理。重要度评估单元123获得与噪声的相似度并且仅当与噪声的相似度较高时，白化处理单元127才执行白化处理。通过此手段，当存在很少几个期望信号成分时，增强信号变得与白信号相似，从而变得难以察觉为噪声。

白化处理单元127在这些白化处理中可在多个子带中分别执行处理。可以不在特定子带中执行由白化处理单元127执行的白化处理。在此情况下，因为白化处理单元127对于每个子带使用不同的平均值，所以可以获得给出自然的听觉感受的增强信号。

(第八示例性实施例)

图12是示出根据本发明的第八示例性实施例的噪声抑制装置的布置的框图。在此示例性实施例中，使用噪声抑制单元3。这是此示例性实施例与第一示例性实施例之间的差异。从而，对于具有与上述示例性实施例相同的功能的单元使用相同的标号，并且省略对这些单元的说明。

噪声抑制单元3利用由FFT单元2提供的有噪信号幅度谱和输入的噪声信息(从外界提供的关于噪声的信息)来抑制每个频率处的噪声，并且将作为噪声抑制结果的增强信号幅度谱传送到IFFT单元4。

利用上述布置，噪声抑制装置可以适当地抑制除冲击音以外的噪声。(第九示例性实施例)

图13是示出根据本发明的第九示例性实施例的噪声抑制装置的布置的框图。在此示例性实施例中，冲击音检测单元90利用噪声抑制单元3抑制噪声的结果来检测冲击音。这是此示例性实施例与第八示例性实施例之间的差异。因此，对于具有与上述示例性实施例相同的功能的单元使用相同的标号，并且省略对这些单元的说明。

噪声抑制单元3的输出被输入到冲击音检测单元90。因为冲击音检测单元90的布置与在第一示例性实施例中说明的冲击音检测单元10的布置相同，所以这里将省略详细描述。

利用上述布置，冲击音检测单元90可通过使用噪声抑制单元3抑制了噪声的结果来更正确地检测冲击音。

(第十示例性实施例)

图14是示出根据本发明的第十示例性实施例的噪声抑制装置的布置的框图。在此示例性实施例中，冲击音检测单元91利用噪声信息来检测冲击音。这是此示例性实施例与第八示例性实施例之间的差异。冲击音检测单元91利用所提供的噪声信息(例如，包括指示噪声的存在性的信息(噪声存在信息)和关于谱形状等等的信息在内的噪声信息)来检测冲击音。此示例性实施例的其他单元的布置与第八示例性实施例的相同。因此，对于具有与上述示例性实施例相同的功能的单元使用相同的标号，并且省略对这些单元的说明。

当噪声信息表明存在噪声时，冲击音检测单元91利用由FFT单元2提供的有噪信号幅度谱和输入的噪声信息来检测冲击音。

利用上述布置，噪声抑制装置可正确地检测冲击音并对其进行抑制。

(其他示例性实施例)

以上已经描述了关于具有不同特性特征的噪声抑制装置的第一至第十示例性实施例。示例性实施例还包含通过以任何方式组合这些特性特征而形成的噪声抑制装置。

本发明可应用到包括多个设备的系统或单个装置。当用于实现示例性实施例的功能的软件的信号处理程序被直接或从远程地点提供到系统或装置时，本发明也适用。因此，本发明还包含被安装在计算机中以使得计算机实现本发明的功能的程序、存储该程序的介质以及从其下载该程序的WWW服务器。

图15是执行被配置为第一至第十示例性实施例的信号处理程序的计算机1100的框图。计算机1100包括输入单元1101、CPU1102、输出单元1103、存储器1104和通信控制单元1106。

CPU1102通过读取信号处理程序来控制计算机1100的操作。即，执行信号处理程序的CPU1102检测有噪信号中的冲击音(S801)。接下来，CPU1102利用除冲击音以外的有噪信号的相位信息来处理在有噪信号中检测到的冲击音的相位信息(S802)。

这使得可获得与第一示例性实施例中相同的有利效果。

虽然以上已参考示例性实施例描述了本发明，但本发明并不限于这些示例性实施例。如本领域技术人员将会理解的，在不脱离本发明的精神和范围的情况下，可以各种方式修改本发明的布置和细节。

本申请基于2009年11月9日提交的日本专利申请No.2009-256596并要求其优先权，这里通过引用将该日本专利申请全部并入。

Claims

1.一种用于抑制有噪信号中的冲击音的信号处理方法，包括以下步骤：

将所述有噪信号分割成多个频率成分；

检测所述有噪信号中的所述冲击音；以及

通过利用冲击音检测时以及冲击音检测前的有噪信号在所述多个频率成分中的相位信息来处理所述有噪信号的相位信息，使得该相位信息的变化量被减小。

2.如权利要求1中所述的信号处理方法，其中，用所述冲击音发生前的过去有噪信号在所述多个频率成分中的相位信息来替换所述冲击音的相位信息。

3.如权利要求1中所述的信号处理方法，其中，用当前有噪信号和过去有噪信号在所述多个频率成分中的相位信息的平均值来替换所述冲击音的相位信息。

4.如权利要求1中所述的信号处理方法，其中，延迟所述有噪信号并且利用过去和当前帧的有噪信号在所述多个频率成分中的相位信息来处理所述冲击音的相位信息。

5.如权利要求1至4中任一项所述的信号处理方法，其中，将所述有噪信号分离成所述相位信息，并且

幅度或功率信息用来检测所述有噪信号中的冲击音。

6.如权利要求5中所述的信号处理方法，其中，处理除所述有噪信号中的所述冲击音以外的所述有噪信号的幅度或功率信息以使得检测到的冲击音的幅度或功率信息较小。

7.如权利要求6中所述的信号处理方法，其中，将所述检测到的冲击音的幅度或功率信息与过去有噪信号的幅度或功率信息相耦合。

8.如权利要求6中所述的信号处理方法，其中，将过去有噪信号的幅度或功率信息与所述冲击音的幅度或功率信息进行平均。

9.如权利要求5中所述的信号处理方法，其中，利用过去有噪信号的幅度或功率信息来限制检测到的冲击音的幅度或功率信息。

10.如权利要求7至9中任一项所述的信号处理方法，其中，延迟所述有噪信号并且利用过去和当前有噪信号的幅度或功率信息处理所述冲击音的幅度或功率信息。

11.如权利要求1至3、权利要求6至9中任一项所述的信号处理方法，其中，输入噪声存在信息并且当所述噪声存在信息表明存在噪声时抑制所述冲击音。

12.如权利要求1至3、权利要求6至9中任一项所述的信号处理方法，其中，评估所述有噪信号中的重要度，并且

在所述有噪信号中，对于高重要度对所述冲击音进行弱抑制，否则进行强抑制。

13.如权利要求1至3、权利要求6至9中任一项所述的信号处理方法，其中，估计所述有噪信号中的背景噪声，并且

根据作为下限的估计的背景噪声值抑制冲击音。

14.如权利要求5中所述的信号处理方法，其中，获得所述幅度或功率信息的平均值并且使得相对于该平均值的方差小于或等于基准值。

15.如权利要求11中所述的信号处理方法，其中，利用噪声存在信息来抑制幅度或功率信息中的噪声并且利用抑制所述幅度或功率信息中的噪声的结果来检测所述冲击音。

16.如权利要求11中所述的信号处理方法，其中，利用噪声存在信息来抑制幅度或功率信息中的噪声，并且

利用所述噪声存在信息来检测所述冲击音。

17.一种抑制有噪信号中的冲击音的信号处理装置，包括：

用于将所述有噪信号分割成多个频率成分的装置；

用于检测所述有噪信号中的所述冲击音的装置；以及

用于通过利用冲击音检测时以及冲击音检测前的有噪信号在所述多个频率成分中的相位信息来处理所述有噪信号的相位信息，使得该相位信息的变化量被减小的装置。

18.如权利要求17中所述的信号处理装置，其中，用所述冲击音发生前的过去有噪信号在所述多个频率成分中的相位信息来替换所述冲击音的相位信息。

19.如权利要求17中所述的信号处理装置，其中，用当前有噪信号和过去有噪信号在所述多个频率成分中的相位信息的平均值来替换所述冲击音的相位信息。

20.如权利要求17中所述的信号处理装置，其中，延迟所述有噪信号并且利用过去和当前帧的有噪信号在所述多个频率成分中的相位信息来处理所述冲击音的相位信息。

21.如权利要求17至20中任一项所述的信号处理装置，其中，将所述有噪信号分离成所述相位信息，并且

幅度或功率信息用来检测所述有噪信号中的冲击音。

22.如权利要求21中所述的信号处理装置，其中，处理除所述有噪信号中的所述冲击音以外的所述有噪信号的幅度或功率信息以使得检测到的冲击音的幅度或功率信息较小。

23.如权利要求22中所述的信号处理装置，其中，将所述检测到的冲击音的幅度或功率信息与过去有噪信号的幅度或功率信息相耦合。

24.如权利要求22中所述的信号处理装置，其中，将过去有噪信号的幅度或功率信息与所述冲击音的幅度或功率信息进行平均。

25.如权利要求21中所述的信号处理装置，其中，利用过去有噪信号的幅度或功率信息来限制检测到的冲击音的幅度或功率信息。

26.如权利要求23至25中任一项所述的信号处理装置，其中，延迟所述有噪信号并且利用过去和当前有噪信号的幅度或功率信息处理所述冲击音的幅度或功率信息。

27.如权利要求17至19、权利要求22至25中任一项所述的信号处理装置，其中，输入噪声存在信息并且当所述噪声存在信息表明存在噪声时抑制所述冲击音。

28.如权利要求17至19、权利要求22至25中任一项所述的信号处理装置，其中，评估所述有噪信号中的重要度，并且

29.如权利要求17至19、权利要求22至25中任一项所述的信号处理装置，其中，估计所述有噪信号中的背景噪声，并且

根据作为下限的估计的背景噪声值抑制冲击音。

30.如权利要求21中所述的信号处理装置，其中，获得所述幅度或功率信息的平均值并且使得相对于该平均值的方差小于或等于基准值。

31.如权利要求27中所述的信号处理装置，其中，利用噪声存在信息来抑制幅度或功率信息中的噪声并且利用抑制所述幅度或功率信息中的噪声的结果来检测所述冲击音。

32.如权利要求27中所述的信号处理装置，其中，利用噪声存在信息来抑制幅度或功率信息中的噪声，并且

利用所述噪声存在信息来检测所述冲击音。