CN102404671A

CN102404671A - 噪音去除装置与噪音去除方法

Info

Publication number: CN102404671A
Application number: CN2011102558235A
Authority: CN
Inventors: 大迫庆一; 关矢俊之; 难波隆一; 安部素嗣
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-09-07
Filing date: 2011-08-31
Publication date: 2012-04-04
Anticipated expiration: 2031-08-31
Also published as: US20120057722A1; JP5573517B2; US9113241B2; CN102404671B; JP2012058360A

Abstract

本发明涉及一种噪音去除装置，包括：目标声音加重部件，其适合于针对第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；噪音估计部件，其适合于针对观察信号执行噪音估计过程，以产生噪音估计信号；后过滤部件，其适合于使用噪音估计信号去除余留在目标声音估计信号中的噪音分量；校正系数计算部件，其适合于针对每一频率，根据目标声音估计信号和噪音估计信号计算校正后过滤过程的校正系数；以及校正系数改变部件，其适合于改变校正系数中属于遭受空间假频的频带的校正系数，以致能够抑制在某一特定频率出现的峰值。

Description

噪音去除装置与噪音去除方法

技术领域

本发明涉及一种噪音去除装置与噪音去除方法，更具体地讲，本发明涉及一种通过目标声音的加重和后过滤过程去除噪音的噪音去除装置与噪音去除方法。

背景技术

假设用户有时使用噪音取消耳机欣赏所复制的音乐，例如，通过便携式电话机、个人计算机等装置。在这种情况下，如果接收到电话呼叫或者聊天呼叫等，则对于用户来说，非常麻烦的是，每次都要先准备好麦克风，然后才能开始对话。用户所希望的是，无需准备麦克风，腾下双手，开始对话。

在相应于耳朵的噪音取消耳机的部分安装用于噪音取消的麦克风，然后利用麦克风进行对话可能是理想的。于是，用户可以在佩戴着耳机的同时立即进行对话。在这一情况下，周围噪音引发了问题，即人们需要抑制噪音，仅传输话音。

例如，序号为2009-49998的日本专利公开物(以下，将其称为专利文档1)中公开了一种通过目标声音的加重和后过滤过程去除噪音的技术。图31描述了专利文档1中所公开的噪音去除装置的配置实例。参照图31，所述噪音去除装置包括加重话音的束形成器部件(11)和加重噪音的封锁矩阵部件(12)。由于不能通过话音的加重完全取消噪音，所以噪音减少机制(13)使用封锁矩阵部件(12)所加重的噪音降低噪音分量。

另外，在噪音去除装置中，后过滤机制(14)去除余留噪音。在这一情况下，尽管使用了噪音减少机制(13)和处理机制(15)的输出，但过滤器的特性会导致频谱误差。因此，要通过适应部件(16)进行校正。

在这一情况下，这样地进行校正：在其中不存在目标声音，而仅存在噪音的间隔中，使噪音减少机制(13)的输出S1和适应部件(16)的输出S2变得互相相等。这可由下列表达式(1)加以表示：

E {{\tilde{A}}_{n} (e^{j Ω_{μ}}, k)} = E {{| A (e^{j Ω_{μ}}, k) |}^{2} A_{s} (e^{j Ω_{μ}}, k) = 0} . . . (1)

其中，在其中不存在目标声音的间隔中，左侧表示适应部件(16)的输出S2的期望值，而右侧表示噪音减少机制(13)的输出S1的期望值。

通过这样的校正，在其中仅存在噪音的间隔中，S1和S2之间不会出现误差，而且后过滤机制(14)可以完全去除噪音，但在其中既存在话音又存在噪音的间隔中，后过滤机制(14)可以仅去除噪音分量，而保留话音。

可以这样解释：所述校正校正了过滤器的方向特性。图32A说明了校正之前过滤器的方向特性的实例，图32B说明了校正之后过滤器的方向特性的实例。在图32A和32B中，坐标轴表示增益，向上增益增加。

在图32A中，实线曲线a表示加重束形成器部件(11)所产生的加重目标声音的方向特性。根据这一方向特性，加重前方的目标声音，同时降低来自任何其它方向的声音的增益。另外，在图32A中，虚线曲线b表示封锁矩阵部件(12)所产生的方向特性。根据这一方向特性，降低目标声音方向的增益，并且估计噪音。

在校正之前，沿实线曲线a所表示的目标声音加重的方向特性和虚线曲线b所表示的方向特性之间的噪音的方向存在增益误差。因此，当后过滤机制(14)从目标声音估计信号减去噪音估计信号时，出现噪音的不充分的取消或者过度取消。

与此同时，在图32B中，实线曲线a′表示校正之后目标声音加重的方向特性。另外，在图32B中，虚线曲线b′表示校正之后噪音估计的方向特性。使用校正系数，沿目标声音加重的方向特性和噪音估计的方向特性中的噪音方向的增益针对对方互相加以调整。于是，当后过滤机制(14)从目标声音估计信号减去噪音估计信号时，可以缓解噪音的不充分的取消或者过度取消。

发明内容

以上所描述的专利文档1中所公开的噪音抑制技术具有未考虑麦克风之间的距离的问题。具体地讲，在专利文档1中所公开的噪音抑制技术中，有时不能依据麦克风之间的距离正确地计算校正系数。如果不能正确地计算校正系数，则存在着目标声音失真的可能。在麦克风之间的距离偏大的情况下，会导致其中方向特性曲线皱褶的空间假频，因此，放大或者衰减了非预期方向的增益。

图33说明了出现空间假频情况下过滤器的方向特性的实例。在图33中，实线曲线a表示束形成器部件(11)所产生的目标声音加重的方向特性，而虚线曲线b表示封锁矩阵部件(12)所产生的噪音估计的方向特性。在图33中所说明的方向特性的例子中，也随同目标声音放大了噪音。在这一情况下，即使确定了校正系数，也是无意义的，从而噪音抑制性能下降。

在以上所描述的专利文档1中所公开的噪音抑制技术中，假设预先知道麦克风之间的距离，而且不存在麦克风距离所导致的空间假频。这一假设进行了相当大的限制。例如，当在电话机的频带中对频率(8000Hz)进行取样时，不导致空间假频的麦克风距离约为4.3cm。

为了防止这样的空间假频，必须预先设置麦克风之间的距离，即，设备之间的距离。在由c表示声音速度，由d表示麦克风之间的距离，即设备之间的距离，以及由f表示频率的情况下，为了防止空间假频，需满足下列表达式(2)：

d＜c/2f ...(2)

例如，在噪音取消耳机中安装了噪音取消麦克风的情况下，麦克风距离d为左右耳之间的距离。简而言之，在这一情况下，不能使用以上所描述的不导致空间假频的大约4.3cm的麦克风距离。

以上所描述的专利文档1中所公开的噪音抑制技术还存在未考虑周围噪音声源数目的问题。具体地讲，在目标声源周围存在大量噪音源的情况下，在不同帧之间以及在不同频率之间随机地输入了周围声音。在这一情况下，在其处应该在目标声音加重的方向特性和噪音估计的方向特性之间针对对方互相调整增益的位置，在不同帧之间以及在不同频率之间不尽相同。因此，校正系数总是随时间一起变化，而且不稳定，这对输出声音具有不良影响。

图34说明了目标声源周围存在大量噪音源的情况。参照图34，实线曲线a表示目标声音加重的方向特性，其与图32中的实线曲线a的情况相类似，虚线曲线b表示噪音估计的方向特性，其与图32中的实线曲线b的情况相类似。当目标声源周围存在大量噪音源时，必须在多个位置处把两个方向特性中的增益针对对方互相加以调整。在实际环境中，在这一方式下，目标声源周围存在着大量噪音源，以上所描述的专利文档1中所公开的噪音抑制技术不针对这样的实际环境。

因此，人们希望提供一种能够在不依赖麦克风之间距离的情况下执行噪音去除过程的噪音去除装置与噪音去除方法。另外，人们还希望提供一种能够针对周围噪音情况执行适当噪音去除过程的噪音去除装置与噪音去除方法。

根据所公开技术的实施例，提供了一种噪音去除装置，包含：目标声音加重部件，其适合于针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；噪音估计部件，其适合于针对所述第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号；后过滤部件，其适合于使用所述噪音估计部件所产生的噪音估计信号通过后过滤过程去除余留在所述目标声音加重部件所产生的目标声音估计信号中的噪音分量；校正系数计算部件，其适合于针对每一频率，根据所述目标声音加重部件所产生的目标声音估计信号和所述噪音估计部件所产生的噪音估计信号，计算校正系数，用于校正将由所述后过滤部件执行的后过滤过程；以及校正系数改变部件，其适合于改变所述校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数，以便在某一特定频率出现的峰值得到抑制。

在噪音去除装置中，目标声音估计部件针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号。作为目标声音加重过程，例如，可以使用已为人们所熟悉的DS(延迟与求和)方法、自适应束形成器过程等。另外，噪音估计部件还针对第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号。作为噪音估计过程，例如，可以使用已为人们所熟悉的NBF(空束形成器)过程、自适应束形成器过程等。

后过滤部件使用噪音估计部件所产生的噪音估计信号，通过后过滤过程去除余留在目标声音加重部件所产生的目标声音估计信号中的噪音分量。作为后过滤过程，例如，可以使用已为人们所熟悉的频谱缩减方法、MMSE-STSA(最小均方差短时频谱幅度估计器)方法等。另外，校正系数计算部件还针对每一频率，根据目标声音加重部件所产生的目标声音估计信号和噪音估计部件所产生的噪音估计信号计算后过滤部件加以执行的校正后过滤过程的校正系数。

校正系数改变部件改变校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数，以致能够抑制在特定频率出现的峰值。例如，在遭受空间假频的频带中，校正系数改变部件沿频率方向平滑校正系数计算部件所计算的校正系数，以产生针对各频率的被改变的校正系数。或者，校正系数改变部件把遭受空间假频的频带中的频率的校正系数改变为1。

在第一和第二麦克风之间的距离(即，麦克风距离)偏大的情况下，出现空间假频，目标声音加重指的是这样方向特性：也加重来自除目标声源方向之外任何其它方向的声音。在校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数中，在特定频率出现峰值。因此，如果照原样使用这一校正系数，则在特定频率出现的峰值对输出声音具有不良影响，从而劣化了声音质量，如以上所描述的。

在所述噪音去除装置中，把遭受空间假频的频带中的校正系数改变为能够抑制出现在某一特定频率的峰值。因此，可以缓解峰值对输出声音的不良影响，并且能够抑制声音质量的劣化。于是，可以实现不依赖于麦克风距离的噪音去除过程。

噪音去除过程还可以包括目标声音间隔检测部件，该目标声音间隔检测部件适合于根据目标声音加重部件所产生的目标声音估计信号和噪音估计部件所产生的噪音估计信号检测其中存在目标声音的间隔，根据目标声音间隔检测部件所产生的目标声音间隔信息和噪音估计部件所产生的噪音估计信号在其中不存在目标声音的间隔中进行校正系数的计算。在这一情况下，由于仅把噪音分量包括在目标声音估计信号中，所以能够在不受目标声音影响的情况下高精度地计算校正系数。

例如，目标声音检测部件确定目标声音估计信号和噪音估计信号之间的能量比率，当能量比率高于极限值时，其断定当前间隔为目标声音间隔。

校正系数计算部件可以根据下列表达式，使用针对第f频率的帧t的目标声音估计信号Z(f，t)和噪音估计信号N(f，t)以及针对第f频率的帧t-1的校正系数β(f，t-1)，计算第f频率的帧t的校正系数β(f，t)：

β (f, t) = {α \cdot β (f, t - 1)} + {(1 - α) \cdot \frac{Z (f, t)}{N (f, t)}}

其中，α为平滑系数。

根据所公开技术的另实施例，提供了一种噪音去除装置，包含：目标声音加重部件，其适合于针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；噪音估计部件，其适合于针对所述第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号；后过滤部件，其适合于使用所述噪音估计部件所产生的噪音估计信号通过后过滤过程去除余留在所述目标声音加重部件所产生的目标声音估计信号中的噪音分量；校正系数计算部件，其适合于针对每一频率，根据所述目标声音加重部件所产生的目标声音估计信号和所述噪音估计部件所产生的噪音估计信号，计算校正系数，用于校正将由所述后过滤部件执行的后过滤过程；以及周围噪音状态估计部件，其适合于处理所述第一和第二麦克风的观察信号，以产生周围噪音的声源数目信息；以及校正系数改变部件，其适合于根据所述周围噪音状态估计部件所产生的周围噪音的声源数目信息，沿帧方向平滑所述校正系数计算部件所计算的校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的改变的校正系数。

在噪音去除装置中，目标声音加重部件针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号。作为目标声音加重过程，例如，可以使用已为人们所熟悉的DS(延迟与求和)方法、自适应束形成器过程等。另外，噪音估计部件还针对第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号。作为噪音估计过程，例如，可以使用已为人们所熟悉的NBF(空束形成器)过程、自适应束形成器过程等。

后过滤部件使用噪音估计部件所产生的噪音估计信号，通过后过滤过程去除余留在目标声音加重部件所产生的目标声音估计信号中的噪音分量。作为后过滤过程，例如，可以使用已为人们所熟悉的频谱缩减方法、MMSE-STSA方法等。另外，所述校正系数计算部件还针对每一频率，根据目标声音加重部件所产生的目标声音估计信号和噪音估计部件所产生的噪音估计信号计算后过滤部件加以执行的校正后过滤过程的校正系数。

周围噪音状态估计部件处理第一和第二麦克风的观察信号，以产生周围噪音的声源数目信息。例如，周围噪音状态估计部件计算第一和第二麦克风的观察信号的相关系数，并且把所计算的相关系数用作周围噪音的声源数目信息。然后，根据周围噪音状态估计部件所产生的周围噪音的声源数目信息，沿帧方向平滑校正系数计算部件所计算的校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的被改变的校正系数。

在目标声源周围存在大量噪音源的情况下，会针对每一频率、针对每一帧随机地输入来自周围噪音源的声音，而且在其处把针对目标声音加重的方向特性和噪音估计的方向特性的增益针对对方互相加以调整的位置，在不同帧之间的不同频率之间差异显著。简而言之，校正系数计算部件所计算的校正系数通常随时间一起变化，而且不稳定，这对输出声音具有不良影响。

在噪音去除装置中，随着周围噪音的声源数目的增加，被平滑的帧的数目增加，作为每一帧的校正系数，使用沿帧方向进行平滑所获得的校正系数。因此，在目标声源周围存在大量噪音源的情况下，为了减少对输出声音的影响，可以抑制沿时间方向校正系数的变化。于是，可期望一种适合于周围噪音状况，即适合于其中目标声源周围存在大量噪音源的实际环境的噪音去除过程。

根据所公开技术的另实施例，提供了一种噪音去除装置，包含：目标声音加重部件，其适合于针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；噪音估计部件，其适合于针对所述第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号；后过滤部件，其适合于使用所述噪音估计部件所产生的噪音估计信号通过后过滤过程去除余留在所述目标声音加重部件所产生的目标声音估计信号中的噪音分量；校正系数计算部件，其适合于针对每一频率，根据所述目标声音加重部件所产生的目标声音估计信号和所述噪音估计部件所产生的噪音估计信号，计算校正系数，用于校正将由所述后过滤部件执行的后过滤过程；以及第一校正系数改变部件，其适合于改变所述校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数，以便在某一特定频率出现的峰值得到抑制；周围噪音状态估计部件，其适合于处理所述第一和第二麦克风的观察信号，以产生周围噪音的声源数目信息；以及第二校正系数改变部件，其适合于根据所述周围噪音状态估计部件所产生的周围噪音的声源数目信息，沿帧方向平滑所述校正系数计算部件所计算的校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的改变的校正系数。

总之，使用所述噪音去除装置，把其中出现空间假频的频带中的校正系数改变为能够抑制出现在某一特定频率的峰值。因此，可以缓解峰值对输出声音的不良影响，并且能够抑制声音质量的劣化。于是，可以实现不依赖于麦克风距离的噪音去除过程。另外，使用所述噪音去除装置，随着周围噪音的声源数目的增加，被平滑的帧的数目增加，作为针对每一帧的校正系数，使用沿帧方向进行平滑所获得的校正系数。因此，在目标声源周围存在大量噪音源的情况下，为了减少对输出声音的影响，可以抑制沿时间方向校正系数的变化。于是，可期望一种适合于周围噪音状况的噪音去除过程。

通过以下结合附图的描述以及所附权利要求，所述技术的上述与其它特性以及优点将会变得十分明显，在所述附图中，以相同的参照字符表示相同的部分或者图元。。

附图说明

图1为描述根据此处所公开技术第一实施例的声音输入系统的配置实例的结构图；

图2为描述了图1中所示目标声音加重部件的结构图；

图3为描述图1中所示噪音估计部件的结构图；

图4为描述图1中所示后过滤部件的结构图；

图5为描述图1中所示校正系数计算部件的结构图；

图6说明了针对图5的校正系数计算部件所计算的每一频率的校正系数的实例，其中，麦克风距离为2cm，不存在空间假频；

图7说明了针对图5的校正系数计算部件所计算的每一频率的校正系数的实例，其中，麦克风距离为20cm，存在空间假频；

图8概要性地说明了沿45°方向存在为一位女性讲话者的噪音源；

图9说明了针对图5的校正系数计算部件所计算的每一频率的校正系数的实例，其中，麦克风距离为2cm，不存在空间假频，而且存在2个噪音源；

图10说明了针对图5的校正系数计算部件所计算的每一频率的校正系数的实例，其中，麦克风距离为20cm，存在空间假频，而且存在2个噪音源；

图11概要性地说明了沿45°方向存在为一位女性讲话者的噪音源，并且沿-30°方向存在为一位男性讲话者的另噪音源；

图12和图13说明了第一方法，其中，为把系数改变为能够抑制出现在某一特定频率的峰值，沿频率方向平滑其中出现空间假频的频带中的系数；

图14说明了第二方法，其中，为把系数改变为能够抑制出现在某一特定频率的峰值，把其中出现空间假频的频带中的系数置换为1；

图15为流程图，说明了图1中所示校正系数计算部件的处理规程；

图16为描述根据此处所公开技术第二实施例的声音输入系统的配置实例的结构图；

图17为条形图，说明了噪音的声源数目与相关系数之间关系的实例；

图18说明了针对图16中所示相关系数计算部件所计算的每一频率的校正系数的实例，其中，沿45°方向存在噪音源，麦克风距离为2cm；

图19概要性地说明了沿45°方向存在的噪音源；

图20说明了针对图16中所示相关系数计算部件所计算的每一频率的校正系数的实例，其中，沿不同方向存在多个噪音源，麦克风距离为2cm；

图21概要性地描述了沿不同方向存在的多个噪音源；

图22说明了针对图16中所示相关系数计算部件所计算的每一频率的校正系数在不同的帧之间随机变化的情况；

图23说明了根据作为周围噪音声源数目信息的相关系数确定被平滑帧数目时所使用的被平滑帧数目计算函数的实例；

图24说明了沿帧或者时间方向平滑针对图16中所示校正系数计算部件所计算的校正系数，以获得被改变的校正系数的情况；

图25为流程图，说明了图16中所示周围噪音状态估计部件和校正系数改变部件的处理规程；

图26为描述根据此处所公开技术第三实施例的声音输入系统的配置实例的结构图；

图27为流程图，说明了图26中所示校正系数改变部件、周围噪音状态估计部件以及校正系数改变部件的处理规程；

图28为描述根据此处所公开技术第四实施例的声音输入系统的配置实例的结构图；

图29为描述图28中所示目标声音检测部件的结构图；

图30说明了图29的目标声音检测部件的动作原理；

图31为描述以往噪音去除装置的配置实例的结构图；

图32A和32B说明了图31的噪音去除装置校正之前和之后针对目标声音加重的方向特性和针对噪音估计的方向特性的实例；

图33说明了出现空间假频情况下过滤器的方向特性的实例；

图34说明了目标声源周围存在大量噪音源的情况。

具体实施方式

以下，将描述所公开技术的优选实施例。应该加以注意的是，将按下列次序进行描述。

1.第一实施例

2.第二实施例

3.第三实施例

4.第四实施例

5.修改

<1.第一实施例>

声音输入系统的配置实例

图1描述了根据所公开技术第一实施例的声音输入系统的配置实例。参照图1，所示的声音输入系统100使用安装在噪音取消耳机左右耳机部分中的用于噪音取消的麦克风，执行声音输入。

声音输入系统100包括一对儿麦克风101a和101b、模拟到数字(A/D)转换器102、帧划分部件103、快速傅里叶变换(FFT)部件104、目标声音加重部件105、以及噪音估计部件或者目标声音抑制部件106。声音输入系统100还包括校正系数计算部件107、校正系数改变部件108、后过滤部件109、反快速傅里叶变换(IFFT)部件110、以及波形合成部件111。

麦克风101a和101b收集周围声音，以产生相应的观察信号。根据一段预定的距离、按麦克风101a和101b之间相互并列的关系设置麦克风101a和101b。在本实施例中，麦克风101a和101b为安装在噪音取消耳机的左右耳机部分中的噪音取消麦克风。

A/D转换器102把麦克风101a和101b所产生的观察信号从模拟信号转换为数字信号。为了允许针对每一帧对观察信号进行处理，帧划分部件103把转换为数字信号之后的观察信号划分为具有预定的长度的帧，即，分帧观察信号。快速傅里叶变换(FFT)部件104针对帧划分部件103所产生的分帧信号执行快速傅里叶变换(FFT)过程，以将它们转换为频率域中的频谱X(f，t)。此处，(f，t)代表第f个频率的帧t的频率频谱。具体地讲，f代表频率，t代表时间索引。

目标声音加重部件105执行针对麦克风101a和101b的观察信号的目标声音加重过程，以针对每一帧、针对每一频率生成相应的目标声音估计信号。参照图2，目标声音加重部件105产生其中由X1(f，t)表示麦克风101a的观察信号和由X2(f，t)表示麦克风101b的观察信号的目标声音估计信号Z(f，t)。作为目标声音加重过程，例如，目标声音加重部件105可以使用已为人们所熟悉的DS(延迟与求和)方法、自适应束形成器过程。

DS是一种用于把输入于麦克风101a和101b的信号的相位调整至目标声源方向的技术。麦克风101a和101b的提供旨在用于噪音取消耳机左右耳机部分中的噪音取消，当从麦克风101b看过去时，可以看出把用户的嘴无误地导向了前方。

为此，在使用DS过程的情况下，目标声音加重部件105执行观察信号X1(f，t)和观察信号X2(f，t)的加法过程，然后根据以下给出的表达式(3)对所得之和做除法，以产生目标声音估计信号Z(f，t)：

Z(f，t)＝{X₁(f，t)+X₂(f，t)}/2 ...(3)

应该加以注意的是，DS是一种称为固定束形成器的技术，其改变输入信号的相位，以控制方向特性。如果预先知道麦克风距离，则为产生以上所描述的目标声音估计信号Z(f，t)，目标声音加重部件105也可以使用诸如自适应束形成器过程等的过程取代DS过程。

参照图1，噪音估计部件或者目标声音抑制部件106针对麦克风101a和101b的观察信号执行噪音估计过程，以针对每一帧中的每一频率产生噪音估计信号。噪音估计部件106估计除为用户的话音的目标声音之外的、为噪音的声音。换句话说，噪音估计部件106执行仅去除目标声音同时保留噪音的过程。

参照图3，噪音估计部件106确定其中由X1(f，t)表示麦克风101a的观察信号和由X2(f，t)表示麦克风101b的观察信号的噪音估计信号N(f，t)。作为其噪音估计过程，噪音估计部件106使用空束形成器(NBF)过程、自适应束形成器过程。

如以上所描述的，麦克风101a和101b为以上所描述的安装在噪音取消耳机的左右耳机部分中的噪音取消麦克风，当从麦克风101a和101b看过去时，可以看出把用户的嘴无误地导向了前方。因此，在使用NBF过程的情况下，噪音估计部件106执行观察信号X1(f，t)和观察信号X2(f，t)之间的减法过程，然后根据以下给出的表达式(4)把所得之差除以2，以产生噪音估计信号N(f，t)：

N(f，t)＝{X1(f，t)-X2(f，t)}/2 ...(4)

应该加以注意的是，NBF是一种称为固定束形成器的技术，其改变输入信号的相位，以控制方向特性。在预先知道麦克风距离的情况下，为产生以上所描述的噪音估计信号N(f，t)，噪音估计部件106也可以使用诸如自适应束形成器过程的过程取代NBF过程。

回过头来参照图1，后过滤部件109使用噪音估计部件106所获得的噪音估计信号N(f，t)，通过后过滤过程，去除余留在目标声音加重部件105所获得的目标声音估计信号Z(f，t)中的噪音分量。换句话说，后过滤部件109根据目标声音估计信号Z(f，t)和噪音估计信号N(f，t)，产生噪音抑制信号Y(f，t)如在图4中所看到的。

后过滤部件109使用诸如频谱缩减方法或者MMSE-STSA方法的已知技术产生噪音抑制信号Y(f，t)。例如，S.F.Boll的“Suppression of acoustic noisein speech using spectral subtraction”(IEEE论文集，Acoustics，Speech，and SignalProcessing，卷27，编号2，第113～120页，1979年)中公开了所述频谱缩减方法。而Y.Ephraim和D.Malah的“Speech enhancement using a minimummean-square error short-time spectral amplitude estimator”(IEEE论文集，Acoustics，Speech，and Signal Processing，卷32，编号6，第1109～1121页，1984年)中公开了MMSE-STSA方法。

回过头来参照图1，校正系数计算部件107针对每一帧中的每一频率计算校正系数β(f，t)。这一校正系数β(f，t)用于校正以上所描述的后过滤部件109所执行的后过滤过程，即，把余留在目标声音估计信号Z(f，t)中的噪音分量的增益和噪音估计信号N(f，t)的增益针对对方互相加以调整。参照图5，校正系数计算部件107根据目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)，针对每一帧中的每一频率计算校正系数β(f，t)。

在本实施例中，校正系数计算部件107根据下列表达式(5)计算校正系数β(f，t)：

β (f, t) = {α \cdot β (f, t - 1)} + {(1 - α) \cdot \frac{Z (f, t)}{N (f, t)}} . . . (5)

校正系数计算部件107不仅使用针对当前帧的计算系数，而且还使用针对紧前帧的校正系数β(f，t-1)执行平滑操作，从而可确定稳定的校正系数β(f，t)，因为如果仅使用针对当前帧的计算系数，则对于每一帧，校正系数差异显著。表达式(5)右侧第一项表示针对紧前帧的校正系数β(f，t-1)，表达式(5)右侧第二项用于计算针对当前帧的系数。应该加以注意的是，α是平滑系数，其为固定的值，例如，0.9或者0.95，以致可以把权重放置在紧前帧上。

在使用频谱缩减方法的已知技术产生噪音抑制信号Y(f，t)的情况下，以上所描述的后过滤部件109使用诸如下列表达式(6)所给出的校正系数β(f，t)：

Y(f，t)＝Z(f，t)-β(f，t)*N(f，t) ...(6)

具体地讲，后过滤部件109把噪音估计信号N(f，t)乘以校正系数β(f，t)，以执行噪音估计信号N(f，t)的校正。在以上的表达式(6)中，在校正系数β(f，t)等于1的情况下，不进行校正。

校正系数改变部件108针对每一帧改变校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)，以致能够抑制在某一特定频率出现的峰值。后过滤部件109实际上不使用校正系数计算部件107所计算的校正系数β(f，t)本身，而使用如此改变之后的校正系数β′(f，t)。

如以上所描述的，在麦克风距离偏大的情况下，会出现其中方向特性曲线向回皱褶的空间假频，针对目标声音加重的方向特性变为这样方向特性：也通过其加重来自除目标声源方向之外的方向的声音。在针对校正系数计算部件107所计算的频率的校正系数中属于其中遭受空间假频的频带的频率的校正系数中，在特定频率出现峰值。如果照原样使用这一校正系数，则在特定频率出现的峰值对输出声音具有不良影响，并且劣化了声音质量。

图6和7说明了在沿45°方向存在为一位女性讲话者的噪音源的情况下(如在图8中所看到的)校正系数的实例。更具体地讲，图6说明了其中麦克风距离d为2cm，不存在空间假频的实例。而图7说明了其中麦克风距离d为20cm，存在空间假频的实例。

在图6和7的校正系数的例子中，噪音源的数目为1。然而，在实际环境中，噪音源的数目并不仅为1。图9和10说明了在沿45°方向存在为一位女性讲话者的噪音源以及沿-30°方向存在另为一位男性讲话者的噪音源的情况下(如在图11中所看到的)校正系数的实例。

具体地讲，图9说明了其中麦克风距离d为2cm，不存在空间假频的实例。而图10说明了其中麦克风距离d为20cm，存在空间假频，而且在某一特定频率出现峰值的实例。在这一情况下，尽管与其中存在噪音源的情况(如图7中所看到的)相比，所述系数的值表现出复杂的峰值，但与噪音源的数目为1的情况相类似，系数的值在某些频率表现为下降。

校正系数改变部件108检查校正系数计算部件107所计算的校正系数β(f，t)，以找出在其处系数的值表现为下降的较低频带侧的第一频率Fa(t)。校正系数改变部件108断定在高于频率Fa(t)的频率中出现空间假频，如在图7或者10中所看到的。然后，校正系数改变部件108改变校正系数计算部件107所计算的校正系数β(f，t)中属于其中遭受如此空间假频的频带的校正系数β(f，t)，以抑制在特定频率出现的峰值。

例如，校正系数改变部件108使用第一方法和第二方法改变遭受空间假频的频带中的校正系数。在使用第一方法的情况下，校正系数改变部件108按下列方式针对每一频率产生被改变的校正系数β′(f，t)。具体地讲，校正系数改变部件108沿频率方向对校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)加以平滑，以针对各频率产生被改变的校正系数β′(f，t)，如在图12或者13中所看到的。

通过沿频率方向进行如此的平滑，可以抑制过度出现的系数的峰值。应该加以注意的是，可以随意地设置用于平滑的间隔的长度，在图12中显示了短箭头标记，令其表示把间隔长度设置为短。而在图13中显示了长箭头标记，令其表示把间隔长度设置为长。

另一方面，在使用第二方法的情况下，校正系数改变部件108把校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)置换为1，以产生被改变的校正系数β′(f，t)，如在图14中所看到的。应该加以注意的是，由于图14由指数形式加以表示，所以1的位置表示0。所述第二方法利用了这样事实：在第一方法中使用极端平滑的情况下，校正系数接近1。第二方法的优点在于可以省略平滑的运算操作。

图15说明了校正系数改变部件108针对帧的处理规程。参照图15，校正系数改变部件108开始在步骤ST1其处理，然后把处理前进至步骤ST2。在步骤ST2，校正系数改变部件108从校正系数计算部件107采集校正系数β(f，t)。接下来，在步骤ST3，校正系数改变部件108针对当前帧t从低频区域中搜寻针对每一频率f的系数，并且于在其处系数的值表现为下降的较低频率侧找出第一频率Fa(t)。

然后，在步骤ST4，校正系数改变部件108检查代表频带是否应该平滑高于频率Fa(t)(即，检查是否应该平滑遭受空间假频的频带)的标志。应该加以注意的是，根据用户的操作，预先设置这一标志。如果标志为ON，则校正系数改变部件108在步骤ST5沿频率方向平滑校正系数计算部件107所计算的校正系数β(f，t)中高于频率Fa(t)的频带中的系数，以产生频率f的被改变的校正系数β′(f，t)。在步骤ST5的处理之后，校正系数改变部件108在步骤ST6结束处理。

另一方面，如果在步骤ST4所述标志为OFF，则校正系数改变部件108在步骤ST7把校正系数计算部件107所计算的校正系数β(f，t)中高于频率Fa(t)的频带中的校正系数置换为“1”，以产生校正系数β′(f，t)。在步骤ST7的处理之后，校正系数改变部件108在步骤ST6结束处理。

回过头来参照图1，反快速傅里叶变换(IFFT)部件110针对每一帧、针对从后过滤部件109所输出的噪音抑制信号Y(f，t)，执行反快速傅里叶变换过程。具体地讲，反快速傅里叶变换(IFFT)部件110执行与以上所描述的快速傅里叶变换部件104的处理相反的处理，快速傅里叶变换部件104把频率域信号转换为时间域信号，以产生分帧信号。

波形合成部件111合成反快速傅里叶变换部件110所产生的帧的分帧信号，以恢复在时间序列上连续的声音信号。波形合成部件111配置了帧合成部件。波形合成部件111输出作为声音输入系统100的输出的抑制了噪音的声音信号SAout。

将简要描述图1中所示声音输入系统100的动作。根据一段预定的距离、按麦克风101a和101b之间相互并列的关系设置的麦克风101a和101b收集周围声音，以产生观察信号。A/D转换器102把麦克风101a和101b所产生的观察信号从模拟信号转换为数字信号，然后把它们提交于帧划分部件103。接下来，帧划分部件103把来自麦克风101a和101b的观察信号划分为具有预定时间长度的帧。

把帧划分部件103分帧(framing)所产生的帧的分帧信号相继提交于快速傅里叶变换部件104。快速傅里叶变换部件104针对分帧信号执行快速傅里叶变换(FFT)过程，以产生作为频率域中信号的麦克风101a的观察信号X1(f，t)和麦克风101b的观察信号X2(f，t)。

把快速傅里叶变换部件104所产生的观察信号X1(f，t)和X2(f，t)提交于目标声音加重部件105。目标声音加重部件105针对观察信号X1(f，t)和X2(f，t)执行已为人们所熟悉的DS过程或者自适应束形成器过程，以针对每一帧、针对每一频率产生目标声音估计信号Z(f，t)。例如，在使用DS过程的情况下，首先把观察信号X1(f，t)和观察信号X2(f，t)相加，然后把所得之和除以2，以产生目标声音估计信号Z(f，t)(参照以上给出的表达式(3))。

另外，还把快速傅里叶变换104所产生的观察信号X1(f，t)和X2(f，t)提交于噪音估计部件106。噪音估计部件106针对观察信号X1(f，t)和X2(f，t)执行已为人们所熟悉的NBF过程或者自适应束形成器过程，以针对每一帧、针对每一频率产生噪音估计信号N(f，t)。例如，如果使用NBF过程，则首先把观察信号X1(f，t)和观察信号X2(f，t)相加，然后把所得之和除以2，以产生目标声音估计信号N(f，t)(参照以上给出的表达式(4))。

把目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)提交于校正系数计算部件107。校正系数计算部件107根据目标声音估计信号Z(f，t)和噪音估计信号N(f，t)，针对每一帧、针对每一频率计算校正后过滤过程的校正系数β(f，t)(参照以上给出的表达式(5))。

把校正系数计算部件107所计算的校正系数β(f，t)提交于校正系数改变部件108。校正系数改变部件108改变校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)，以致能够抑制在某一特定频率出现的峰值，从而可以产生被改变的校正系数β′(f，t)。

校正系数改变部件108检查校正系数计算部件107所计算的校正系数β(f，t)，以找出在其处系数的值表现为下降的较低频带侧的第一频率Fa(t)，并且断定频带高于遭受空间假频的频率Fa(t)。然后，校正系数改变部件108改变校正系数计算部件107所计算的校正系数β(f，t)中属于高于频率Fa(t)的频带的校正系数β(f，t)，以致能够抑制在某一特定频率出现的峰值。

例如，校正系数改变部件108沿频率方向对校正系数计算部件107所计算的校正系数β(f，t)中属于高于频率Fa(t)的频带的校正系数β(f，t)，加以平滑，以针对各频率产生被改变的校正系数β′(f，t)(参照图12和13)。或者，校正系数改变部件108把校正系数计算部件107所计算的校正系数β(f，t)中属于高于频率Fa(t)的频带的校正系数β(f，t)置换为1，以产生被改变的校正系数β′(f，t)(参照图14)。

把目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)提交于后过滤部件109。另外，还把校正系数改变部件108所改变的校正系数β′(f，t)提交于后过滤部件109。后过滤部件109使用噪音估计信号N(f，t)执行后过滤过程，以去除余留在目标声音估计信号Z(f，t)中的噪音分量。使用校正系数β′(f，t)校正这一后过滤过程，即把余留在目标声音估计信号Z(f，t)和噪音估计信号N(f，t)中的噪音分量针对对方互相加以调整。

后过滤部件109使用已为人们所熟悉的技术，例如，频谱缩减方法或者MMSE-STSA方法产生噪音抑制信号Y(f，t)。例如，在使用频谱缩减方法的情况下，根据下列表达式(7)确定噪音抑制信号Y(f，t)：

Y(f，t)＝Z(f，t)-β′(f，t)*N(f，t) ...(7)

把从后过滤部件109针对每一帧输出的噪音抑制信号Y(f，t)提交于反快速傅里叶变换部件110。反快速傅里叶变换部件110针对每一帧的各频率的噪音抑制信号Y(f，t)执行反快速傅里叶变换过程，以产生被转换为时间域信号的分帧信号。把针对每一帧的分帧信号相继地提交于波形合成部件111。波形合成部件111针对每一帧合成分帧信号，以产生作为声音输入系统100的输出的、在时间序列上连续的抑制了噪音的声音信号SAout。

如以上所描述的，在图1中所示的声音输入系统100中，校正系数改变部件108改变校正系数计算部件107所计算的校正系数β(f，t)。在这一情况下，改变校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)，即，改变属于高于频率Fa(t)的频带的校正系数β(f，t)，以致可抑制在某一特定频率出现的峰值，以产生被改变的校正系数β′(f，t)。后过滤部件109使用被改变的校正系数β′(f，t)。

因此，能够减轻否则出现在遭受空间假频的频带中特定频率的系数峰值对输出声音的可能的不良影响，并且能够抑制声音质量的劣化。于是，可以实现不依赖于麦克风距离的噪音去除过程。因此，即使麦克风101a和101b为安装在耳机中的噪音取消麦克风，而且麦克风之间的距离偏大，也可以有效执行对噪音的校正，并且能够期望具有很小失真的良好噪音去除过程。

<2.第二实施例>

声音输入系统的配置实例

图16描述了根据第二实施例的声音输入系统100A的配置实例。声音输入系统100A也使用安装在噪音取消耳机的左右耳机部分中的用于噪音取消的麦克风执行声音输入。

参照图1，声音输入系统100A包括一对儿麦克风101a和101b、A/D转换器102、帧划分部件103、快速傅里叶变换(FFT)部件104、目标声音加重部件105、以及噪音估计部件106。声音输入系统100A还包括校正系数计算部件107、后过滤部件109、反快速傅里叶变换(IFFT)部件110、周围噪音状态估计部件112、以及校正系数改变部件113。

周围噪音状态估计部件112处理麦克风101a和101b的观察信号，以产生周围噪音的声源数目信息。具体地讲，周围噪音状态估计部件112根据以下给出的表达式(8)，针对每一帧，计算麦克风101a的观察信号和麦克风101b的观察信号的相关系数corr，并且把相关系数corr确定为周围噪音的声源数目信息。

corr = \frac{Σ_{n = 1}^{N} {x_{1} (n) - {\overset{&OverBar;}{x}}_{1}} {x_{2} (n) - {\overset{&OverBar;}{x}}_{2}}}{\sqrt{Σ_{n = 1}^{N} {x_{1} (n) - {\overset{&OverBar;}{x}}_{1}}^{2}} \sqrt{Σ_{n = 1}^{N} {x_{2} (n) - {\overset{&OverBar;}{x}}_{2}}^{2}}} . . . (8)

其中，x1(n)代表麦克风101a的时间轴数据，x2(n)代表麦克风101b的时间轴数据，N代表样本数目。

图17的条形图说明了噪音的声源数目和相关系数corr之间关系的实例。通常情况下，随着声源数目的增加，麦克风101a和101b的观察信号之间的关联度下降。理论上讲，随着声源数目的增加，相关系数corr趋近于0。因此，可以根据相关系数corr估计周围噪音声源的数目。

回过头来参照图16，校正系数改变部件113针对每一帧，根据周围噪音状态估计部件112所产生的作为周围噪音声源数目信息的相关系数corr，改变校正系数计算部件107所计算的校正系数β(f，t)。具体地讲，随着声源数目的增加，校正系数改变部件113增加被平滑帧数目，以沿帧方向平滑校正系数计算部件107所计算的系数，以产生被改变的校正系数β′(f，t)。后过滤部件109实际上不使用校正系数计算部件107所计算的被改变的校正系数β(f，t)本身，而使用被改变的校正系数β′(f，t)。

图18说明了沿45°方向存在噪音源，而且麦克风距离d为2cm的情况下校正系数的实例。相比之下，图20说明了沿不同方向存在多个噪音源，而且麦克风距离d为2cm的情况下的校正系数的实例。在这一方式下，即使麦克风距离为不会因其出现空间假频的适当的距离，但随着噪音的声源数目的增加，校正系数也难以变得稳定。因此，校正系数在各帧之间随机变化，如在图22所看到的。如果照原样使用这一校正系数，则其对输出声音具有不良影响，并且劣化了声音质量。

校正系数改变部件113根据周围噪音状态估计部件112所产生的作为周围噪音的声源数目信息的相关系数corr计算被平滑帧数目γ。具体地讲，例如，校正系数改变部件113使用诸如图23中所说明的被平滑帧数目计算函数确定被平滑帧数目γ。在这一情况下，当麦克风101a和101b的观察信号之间的关联度为高时，换句话说，当相关系数corr的值为高时，被平滑帧数目γ为小。

另一方面，当麦克风101a和101b的观察信号之间的关联度为低时，即，当相关系数corr的值为低时，被平滑帧数目γ为大。应该加以注意的是，校正系数改变部件113不需要实际执行运算操作过程，而可以根据相关系数corr，从一张其中存储了相关系数corr和被平滑帧数目γ之间相应关系的表中读出被平滑帧数目γ。

校正系数改变部件113沿帧方向，即沿时间方向，针对每一帧平滑校正系数计算部件107所计算的校正系数β(f，t)，如在图24中所看到的，以针对每一帧产生被改变的校正系数β′(f，t)。在这一情况下，利用按诸如以上所描述的方式所确定的被平滑帧数目γ执行平滑，按这一方式改变的针对各帧的校正系数β′(f，t)表现出沿帧方向，即沿时间方向的适度的变化。

图25的流程图说明了周围噪音状态估计部件112和校正系数改变部件113针对每一帧的处理规程。参照图25，周围噪音状态估计部件112和校正系数改变部件113在步骤ST11开始它们的处理。然后，在步骤ST12，周围噪音状态估计部件112采集麦克风101a和101b的观察信号的数据帧x1(t)和x2(t)。接下来，在步骤ST13，周围噪音状态估计部件112计算代表麦克风101a和101b的观察信号之间的相关度的相关系数corr(t)(参照以上所给出的表达式(8))。

然后，在步骤ST14，校正系数改变部件113根据被平滑帧数目计算函数，使用周围噪音状态估计部件112在步骤ST13所计算的相关系数corr(t)，计算被平滑帧数目γ(参见图23)。接下来，在步骤ST15，校正系数改变部件113使用在步骤ST14所计算的被平滑帧数目γ平滑校正系数计算部件107所计算的校正系数β(f，t)。在步骤ST15的处理之后，周围噪音状态估计部件112和校正系数改变部件113结束处理。

尽管此处省略了详细的描述，然而所示声音输入系统100A的其它部分的配置类似于以上参照图1所描述的声音输入系统100的其它部分的配置。

简要描述了图16中所示声音输入系统100A的动作。根据一段预定的距离、按麦克风101a和101b之间相互并列的关系设置的麦克风101a和101b收集周围声音，以产生观察信号。A/D转换器102把麦克风101a和101b所产生的观察信号从模拟信号转换为数字信号，并且把它们提交于帧划分部件103。帧划分部件103把来自麦克风101a和101b的观察信号划分为具有预定时间长度的帧。

把帧划分部件103分帧所产生的帧的分帧信号相继地提交于快速傅里叶变换部件104。快速傅里叶变换部件104针对分帧信号执行快速傅里叶变换(FFT)过程，以产生作为频率域中的信号的麦克风101a的观察信号X1(f，t)和麦克风101b的观察信号X2(f，t)。

把快速傅里叶变换部件104所产生的观察信号X1(f，t)和X2(f，t)提交于目标声音加重部件105。目标声音加重部件105针对观察信号X1(f，t)和X2(f，t)执行已为人们所熟悉的DS过程、自适应束形成器过程等，以针对每一帧、针对每一频率产生目标声音估计信号Z(f，t)。例如，在使用DS过程的情况下，目标声音加重部件105执行观察信号X1(f，t)和观察信号X2(f，t)的加法过程，然后把所得之和除以2，以产生目标声音估计信号Z(f，t)(参照以上给出的表达式(3))。

另外，还把快速傅里叶变换部件104所产生的观察信号X1(f，t)和X2(f，t)提交于噪音估计部件106。噪音估计部件106执行已知的NBF过程或者自适应束形成器过程等，以针对每一帧、针对每一频率产生噪音估计信号N(f，t)。例如，在使用NBF过程的情况下，噪音估计部件106执行观察信号X1(f，t)和X2(f，t)之间的减法过程，然后把所得之差除以2，以产生噪音估计信号N(f，t)(参照以上给出的表达式(4))。

把帧划分部件103分帧所产生的帧的分帧信号相继地提交于周围噪音状态估计部件112，即把麦克风101a和101b的观察信号x1(f，t)和x2(f，t)提交于周围噪音状态估计部件112。周围噪音状态估计部件112确定作为周围噪音的声音源信息的麦克风101a和101b的观察信号x1(f，t)和x2(f，t)之间的相关系数corr(参照表达式(8))。

把校正系数计算部件107所计算的校正系数β(f，t)提交于校正系数改变部件113。把周围噪音状态估计部件112所产生的相关系数corr也提交于校正系数改变部件113。校正系数改变部件113根据周围噪音状态估计部件112所产生的相关系数corr，即根据周围噪音的声源数目信息，针对每一帧，改变校正系数计算部件107所计算的校正系数β(f，t)。

首先，校正系数改变部件113根据相关系数corr确定被平滑帧数目。在这一情况下，这样地确定被平滑帧数目γ：当相关系数corr的值为高时，被平滑帧数目γ为小，而当相关系数corr的值为低时，被平滑帧数目γ为大(参照图23)。然后，校正系数改变部件113使用被平滑帧数目γ，沿帧方向，即沿时间方向，平滑校正系数计算部件107所计算的校正系数β(f，t)，以产生每一帧的被改变的校正系数β′(f，t)(参照图24)。

把目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)提交于后过滤部件109。另外，还把校正系数改变部件113所改变的校正系数β′(f，t)提交于后过滤部件109。后过滤部件109使用噪音估计信号N(f，t)，通过后过滤过程去除余留在目标声音估计信号Z(f，t)中的噪音分量。使用校正系数β′(f，t)校正这一后过滤过程，即把余留在目标声音估计信号Z(f，t)中的噪音分量的增益和噪音估计信号N(f，t)的增益针对对方互相加以调整。

后过滤部件109使用已为人们所熟悉的技术，例如频谱缩减方法或者MMSE-STSA方法，产生噪音抑制信号Y(f，t)。例如，在使用频谱缩减方法的情况下，根据下列表达式(9)确定噪音抑制信号Y(f，t)：

Y(f，t)＝Z(f，t)-β′(f，t)*N(f，t) ...(9)

把针对每一帧从后过滤部件109输出的每一频率的噪音抑制信号Y(f，t)提交于反快速傅里叶变换部件110。反快速傅里叶变换部件110针对每一帧、针对各频率的噪音抑制信号Y(f，t)执行反快速傅里叶变换过程，以产生被转换为时间域信号的分帧信号。把针对每一帧的分帧信号相继地提交于波形合成部件111。波形合成部件111合成每一帧的分帧信号，以产生作为声音输入系统100的输出的、在时间序列上连续的抑制了噪音的声音信号SAout。

如以上所描述的，在图16中所示的声音输入系统100A中，校正系数改变部件113改变校正系数计算部件107所计算的校正系数β(f，t)。在这一情况下，周围噪音状态估计部件112产生作为周围噪音的声源数目信息的麦克风101a和101b的观察信号x1(f，t)和x2(f，t)的相关系数corr。然后，校正系数改变部件113根据声源信息确定被平滑帧数目γ，以致被平滑帧数目γ变得随声源数目的增加而增大。接下来，沿帧方向平滑校正系数β(f，t)，以针对每一帧产生被改变的校正系数β′(f，t)。后过滤部件109使用被改变的校正系数β′(f，t)。

因此，在目标声源周围存在多个噪音源的情况下，沿帧方向，即沿时间方向抑制校正系数的变化，以减少对输出的信号的影响。于是，可以期望适合于周围噪音的情况的噪音去除过程。因此，甚至是在麦克风101a和101b为安装在耳机中的噪音取消麦克风以及目标声源周围存在多个噪音源的情况下，也能够有效执行对噪音的校正，并且能够执行具有很小失真的良好噪音去除过程。

<3.第三实施例>

声音输入系统的配置实例

图26描述了根据第三实施例的声音输入系统100B的配置实例。所述声音输入系统100B也使用安装在噪音取消耳机的左右耳机部分中的用于噪音取消的麦克风执行声音输入，类似于以上分别参照图1和16所描述的声音输入系统100和声音输入系统100A。

参照图26，声音输入系统100B包括一对儿麦克风101a和101b、A/D转换器102、帧划分部件103、快速傅里叶变换(FFT)部件104、目标声音加重部件105、噪音估计部件106、以及校正系数计算部件107。声音输入系统100B还包括校正系数改变部件108、后过滤部件109、反快速傅里叶变换(IFFT)部件110、波形合成部件111、周围噪音状态估计部件112、以及校正系数改变部件113。

校正系数改变部件108针对每一帧，改变校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)，从而能够抑制在某一特定频率出现的峰值，以产生被改变的校正系数β′(f，t)。尽管此处省略了详细的描述，然而校正系数改变部件108类似于以上参照图1所描述的声音输入系统100中的校正系数改变部件108。校正系数改变部件108配置了第一校正系数改变部件。

周围噪音状态估计部件112针对每一帧计算作为周围噪音的声源数目信息的麦克风101a的观察信号和麦克风101b的观察信号之间的相关系数corr。周围噪音状态估计部件112类似于以上参照图16所描述的声音输入系统100A中的周围噪音状态估计部件112。

校正系数改变部件113根据周围噪音状态估计部件112所产生的作为周围噪音的声源数目信息的相关系数corr，进一步改变校正系数改变部件108所改变的校正系数β′(f，t)，以产生校正系数β″(f，t)。尽管此处省略了详细的描述，然而校正系数改变部件113类似于以上参照图16所描述的声音输入系统100A中的校正系数改变部件113。校正系数改变部件113配置了第二校正系数改变部件。后过滤部件109实际上不使用校正系数计算部件107所计算的校正系数β(f，t)，而使用被改变的校正系数β″(f，t)。

尽管此处省略了对图26中所示声音输入系统100B的其它部分的详细描述，然而其配置类似于以上分别参照图1和16所描述的声音输入系统100和声音输入系统100A中的配置。

图27的流程图说明了校正系数改变部件108、周围噪音状态估计部件112以及校正系数改变部件113针对帧的处理规程。参照图27，校正系数改变部件108、周围噪音状态估计部件112以及校正系数改变部件113在步骤ST21开始它们的处理。然后，在步骤ST22，校正系数改变部件108从校正系数计算部件107采集校正系数β(f，t)。接下来，在步骤ST23，校正系数改变部件108从低频区域中搜寻当前帧t中的频率f的系数，以找出在其处系数的值表现为下降的较低频率侧上的第一频率Fa(t)。

然后，在步骤ST24，校正系数改变部件108检查代表是否应该平滑高于频率Fa(t)的频带(即，遭受空间假频的频带)的标志。应该加以注意的是，根据用户的操作，预先设置这一标志。如果该标志为ON，则校正系数改变部件108在步骤ST25沿频率方向平滑校正系数计算部件107所计算的校正系数β(f，t)中高于频率Fa(t)的频带中的系数，以产生频率f的被改变的校正系数β′(f，t)。另一方面，如果在步骤ST24所述标志为OFF，则校正系数改变部件108在步骤ST27把校正系数计算部件107所计算的校正系数β(f，t)中属于高于频率Fa(t)的频带的校正系数β(f，t)置换为“1”，以产生被改变的校正系数β′(f，t)。

在步骤ST25或者步骤ST26的处理之后，周围噪音状态估计部件112在步骤ST27采集麦克风101a和101b的观察信号的数据帧x1(t)和x2(t)。接下来，在步骤ST28，周围噪音状态估计部件112计算指示麦克风101a和101b的观察信号之间的相关度的相关系数corr(t)(参照以上所给出的表达式(8))。

然后，在步骤ST29，校正系数改变部件113根据被平滑帧数目计算函数，使用周围噪音状态估计部件112在步骤ST28所计算的相关系数corr(t)计算被平滑帧数目γ(参见图23)。接下来，在步骤ST30，校正系数改变部件113使用在步骤ST29所计算的被平滑帧数目γ平滑校正系数改变部件108所改变的校正系数β′(f，t)，以产生校正系数β″(f，t)。在步骤ST30的处理之后，周围噪音状态估计部件112和校正系数改变部件113在步骤ST31结束处理。

简要描述了图26中所示声音输入系统100B的动作。根据一段预定的距离、按麦克风101a和101b之间相互并列的关系设置的麦克风101a和101b收集周围声音，以产生观察信号。A/D转换器102把麦克风101a和101b所产生的观察信号从模拟信号转换为数字信号，然后把它们提交于帧划分部件103。帧划分部件103把来自麦克风101a和101b的观察信号划分为具有预定时间长度的帧。

把快速傅里叶变换部件104所产生的观察信号X1(f，t)和X2(f，t)提交于噪音估计部件106。噪音估计部件106执行已为人们所熟悉的NBF过程或者自适应束形成器过程，以针对每一帧、针对每一频率产生噪音估计信号N(f，t)。例如，在使用NBF过程的情况下，噪音估计部件106执行把观察信号X1(f，t)和观察信号X2(f，t)相减的过程，然后把所得之差除以2，以产生噪音估计信号N(f，t)(参照以上给出的表达式(4))。

把目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)提交于校正系数计算部件107。校正系数计算部件107根据目标声音估计信号Z(f，t)和噪音估计信号N(f，t)，针对每一帧、针对每一频率计算校正后过滤过程的校正系数β(f，t)(参照表达式(5))。

另外，还把帧划分部件103分帧所产生的帧的分帧信号相继地提交于外部噪音状态估计部件112。周围噪音状态估计部件112确定作为周围噪音的声音源信息的麦克风101a和101b的观察信号x1(f，t)和x2(f，t)的相关系数corr(参照表达式(8))。

进一步把校正系数改变部件108所产生的被改变的校正系数β′(f，t)提交于校正系数改变部件113。还把周围噪音状态估计部件112所产生的相关系数corr提交于校正系数改变部件113。校正系数改变部件113根据周围噪音状态估计部件112所产生的作为周围噪音的声源数目信息的相关系数corr，针对每一帧，进一步改变校正系数改变部件108所改变的校正系数β′(f，t)。

首先，校正系数改变部件113根据相关系数corr确定被平滑帧数目。在这一情况下，当相关系数corr的值为高时，被平滑帧数目γ为小，而当相关系数corr的值为低时，被平滑帧数目γ为大(参照图23)。然后，校正系数改变部件108使用被平滑帧数目γ，沿帧方向，即沿时间方向，平滑校正系数改变部件113所改变的校正系数β′(f，t)，以产生针对各帧的校正系数β″(f，t)(参照图24)。

把目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)提交于后过滤部件109。另外，还把校正系数改变部件113所改变的校正系数β″(f，t)提交于后过滤部件109。后过滤部件109使用噪音估计信号N(f，t)，通过后过滤过程去除余留在目标声音估计信号Z(f，t)中的噪音分量。使用校正系数β″(f，t)校正后过滤过程，即把余留在目标声音估计信号Z(f，t)中的噪音分量的增益和噪音估计信号N(f，t)的增益针对对方互相加以调整。

后过滤部件109使用已知的技术，例如，频谱缩减方法或者MMSE-STSA方法产生噪音抑制信号Y(f，t)。例如，在使用频谱缩减方法的情况下，例如，根据下列表达式(10)确定噪音抑制信号Y(f，t)：

Y(f，t)＝Z(f，t)-β″(f，t)*N(f，t) ...(10)

把针对每一帧从后过滤部件109输出的针对每一频率的噪音抑制信号Y(f，t)提交于反快速傅里叶变换部件110。反快速傅里叶变换部件110针对每一帧、针对每一频率的噪音抑制信号Y(f，t)执行反快速傅里叶变换过程，以产生被转换为时间域信号的分帧信号。把每一帧的分帧信号相继地提交于波形合成部件111。波形合成部件111针对每一帧合成分帧信号，以产生作为声音输入系统100的输出的、在时间序列上连续的抑制了噪音的声音信号SAout。

如以上所描述的，在图26中所示的声音输入系统100B中，校正系数改变部件108改变校正系数计算部件107所计算的校正系数β(f，t)。在这一情况下，改变校正系数计算部件107所计算的校正系数β(f，t)中属于遭受空间假频的频带的校正系数β(f，t)，即属于高于频率Fa(t)的频带的校正系数β(f，t)，以致能够抑制在某一特定频率出现的峰值，从而可以产生被改变的校正系数β′(f，t)。

另外，在图26中所示的声音输入系统100B中，校正系数改变部件113进一步改变校正系数改变部件108所改变的校正系数β′(f，t)。在这一情况下，周围噪音状态估计部件112产生作为周围噪音声源数目信息的麦克风101a和101b的观察信号x1(n)和x2(n)的相关系数corr。然后，校正系数改变部件113根据声源数目信息确定被平滑帧数目γ，以致当声源数目增加时被平滑帧数目γ可具有较高的值。接下来，沿帧方向，使用被平滑帧数目γ平滑校正系数β′(f，t)，以产生各帧的被改变的校正系数β″(f，t)。后过滤部件109使用被改变的校正系数β″(f，t)。

因此，能够减轻出现在遭受空间假频的频带中某一特定频率的系数的峰值对输出声音的不良影响，并且能够抑制声音质量的劣化。于是，可以期望不依赖于麦克风距离的噪音去除过程。于是，即使在麦克风101a和101b为安装在耳机中的噪音取消麦克风，而且麦克风距离偏大的情况下，也可以有效执行对噪音的校正，并且能够执行具有很小失真的良好噪音去除过程。

另外，在目标声源周围存在大量噪音源的情况下，可以沿帧方向，即沿时间方向抑制校正系数的变化，以减少对输出声音的影响。于是，可以实现适合于周围噪音情况的噪音去除过程。因此，甚至是在麦克风101a和101b为安装在耳机中的噪音取消麦克风以及目标声源周围存在多个噪音源的情况下，也能够有效执行对噪音的校正，并且能够执行具有很小失真的良好噪音去除过程。

<4.第四实施例>

声音输入系统的配置实例

图28描述了根据第四实施例的声音输入系统100C的配置实例。声音输入系统100C也是使用安装在噪音取消耳机的左右耳机部分中的噪音取消麦克风执行声音输入的系统，类似于以上分别参照图1、16以及26所描述的声音输入系统100、100A以及100B。

参照图28，声音输入系统100C包括一对儿麦克风101a和101b、A/D转换器102、帧划分部件103、快速傅里叶变换(FFT)部件104、目标声音加重部件105、噪音估计部件106、以及校正系数计算部件107C。声音输入系统100C还包括校正系数改变部件108和113、后过滤部件109、反快速傅里叶变换(IFFT)部件110、波形合成部件111、周围噪音状态估计部件112、以及目标声音间隔检测部件114。

目标声音间隔检测部件114检测包括目标声音的间隔。具体地讲，目标声音间隔检测部件114针对每一帧，根据目标声音加重部件105所产生的目标声音估计信号Z(f，t)和噪音估计部件106所产生的噪音估计信号N(f，t)判断当前间隔是否为目标声音间隔，如在图29中所看到的，然后输出目标声音间隔信息。

目标声音间隔检测部件114确定目标声音估计信号Z(f，t)和噪音估计信号N(f，t)之间的能量比率，表达式(11)代表了所述能量比率：

Σ_{f = 0}^{f_{s} / 2} {Z (f, t)}^{2} / Σ_{f = 0}^{f_{s} / 2} {N (f, t)}^{2} . . . (11)

于是，目标声音间隔检测部件114判断所述能量比率是否高于极限值。接下来，如果能量比率高于极限值，则目标声音间隔检测部件114断定当前间隔为目标声音间隔，并且输出作为目标声音间隔检测信息的“1”，然而，在任何其它情况下，目标声音间隔检测部件114断定当前间隔不是目标声音间隔，并且输出下列表达式(12)所表示的“0”：

\{\begin{matrix} 1 : & Σ_{f = 0}^{f_{s} / 2} {Z (f, t)}^{2} / Σ_{f = 0}^{f_{s} / 2} {N (f, t)}^{2} > threshold \\ 0 : & otherwise \end{matrix} . . . (12)

在这一情况下，利用了这样事实：把目标声源定位在前方，如在图30中所看到的，如果存在目标声音，则目标声音估计信号Z(f，t)和噪音估计信号N(f，t)的增益之间的差偏大，但如果仅存在噪音源，则所述增益之间的差偏小。应该加以注意的是，在已知麦克风距离，并且未把目标声源定位在前方，而是定位在任意位置的情况下，也可以使用类似的处理。

与以上分别参照图1、16以及26所描述的声音输入系统100、100A以及100B的校正系数计算部件107相类似，校正系数计算部件107C计算校正系数β(f，t)。然而，与校正系数计算部件107不同，校正系数计算部件107C判断是否应该根据来自目标声音间隔检测部件114的目标声音间隔信息计算校正系数β(f，t)。具体地讲，在其中不存在目标声音的帧中，新计算校正系数β(f，t)，并且加以输出，但在任何其它帧中，在不计算校正系数β(f，t)的情况下，照它们原来的样子输出与紧前帧中的校正系数β(f，t)相同的校正系数β(f，t)。

尽管此处省略了详细的描述，然而把图28中所示声音输入系统100C的其它部分配置为类似于以上参照图26所描述的声音输入系统100B中的其它部分，并且类似地进行操作。因此，声音输入系统100C可以实现与以上参照图26所描述的声音输入系统100B所实现的效果相类似的效果。

另外，在声音输入系统100C中，校正系数计算部件107在其中不存在目标声音的间隔中计算校正系数β(f，t)。在这一情况下，由于仅把噪音分量包括在目标声音估计信号Z(f，t)中，所以能够在不受目标声音影响的情况下，高精度计算校正系数β(f，t)。因此，能够执行良好的噪音去除过程。

<5.修改>

应该加以注意的是，在以上所描述的实施例中，麦克风101a和101b为安装在噪音取消耳机的左右耳机部分中的噪音取消的麦克风。然而，也可以把麦克风101a和101b安装在个人计算机主体中。

在以上分别参照图1和16所描述的声音输入系统100和100A中，也可以提供目标声音间隔检测部件114，而校正系数计算部件107仅在其中不存在目标声音的帧中进行校正系数β(f，t)的计算，类似于以上参照图28所描述的声音输入系统100C中。

可以把此处所公开的技术应用于其中能够利用安装在噪音取消耳机中的噪音取消的麦克风或者安装在个人计算机等中的麦克风进行对话的系统。

本公开专利包含与2010年9月7日向日本申请专利局提出的日本优先专利申请JP 2010-199517中所公开的主题相关的主题，特将其全部内容并入此处，以作参考。

这一技术领域中的熟练技术人员将会意识到：可以依据设计要求和其它因素，对本发明进行多方面的修改、组合、局部组合、以及变动，只要这些修改、组合、局部组合、以及变动处于所附权利要求或者其等效要求的范围内即可。

Claims

1.一种噪音去除装置，包含：

目标声音加重部件，其适合于针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；

噪音估计部件，其适合于针对所述第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号；

后过滤部件，其适合于使用所述噪音估计部件所产生的噪音估计信号通过后过滤过程去除余留在所述目标声音加重部件所产生的目标声音估计信号中的噪音分量；

校正系数计算部件，其适合于针对每一频率，根据所述目标声音加重部件所产生的目标声音估计信号和所述噪音估计部件所产生的噪音估计信号，计算校正系数，用于校正将由所述后过滤部件执行的后过滤过程；以及

校正系数改变部件，其适合于改变所述校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数，以便在某一特定频率出现的峰值得到抑制。

2.根据权利要求1所述的噪音去除装置，其中，在遭受空间假频的频带中，所述校正系数改变部件沿频率方向平滑所述校正系数计算部件所计算的校正系数，以产生针对这些频率的改变的校正系数。

3.根据权利要求1所述的噪音去除装置，其中，所述校正系数改变部件将所述遭受空间假频的频带中的这些频率的校正系数改变为1。

4.根据权利要求1所述的噪音去除装置，还包含：

目标声音间隔检测部件，其适合于根据所述目标声音加重部件所产生的目标声音估计信号和所述噪音估计部件所产生的噪音估计信号检测其中存在目标声音的间隔；

根据所述目标声音间隔检测部件所产生的目标声音间隔信息，在其中不存在目标声音的间隔中进行校正系数的计算。

5.根据权利要求4所述的噪音去除装置，其中，所述目标声音检测部件确定目标声音估计信号和噪音估计信号之间的能量比率，并且在所述能量比率高于一极限值时，断定当前间隔为目标声音间隔。

6.根据权利要求1所述的噪音去除装置，其中，所述校正系数计算部件根据下列表达式，使用针对第f频率的帧t的目标声音估计信号Z(f，t)和噪音估计信号N(f，t)以及针对第f频率的帧t-1的校正系数β(f，t-1)，计算第f频率的帧t的校正系数β(f，t)：

β (f, t) = [α \cdot β (f, t - 1)} + {(1 - α) \cdot \frac{Z (f, t)}{N (f, t)}}

其中，α为平滑系数。

7.一种噪音去除方法，包含：

针对按互相之间预定的空间关系设置的第一和第二麦克风的观察信号执行目标声音加重过程，以产生目标声音估计信号；

针对所述第一和第二麦克风的观察信号执行噪音估计过程，以产生噪音估计信号；

使用所述噪音估计信号通过后过滤过程去除余留在目标声音估计信号中的噪音分量；

针对每一频率，根据所述目标声音估计信号和所述噪音估计信号，计算校正系数，用于校正将被执行的后过滤过程；以及

改变所述校正系数中属于遭受空间假频的频带的校正系数，以便在某一特定频率出现的峰值得到抑制。

8.一种噪音去除装置，包含：

周围噪音状态估计部件，其适合于处理所述第一和第二麦克风的观察信号，以产生周围噪音的声源数目信息；以及

校正系数改变部件，其适合于根据所述周围噪音状态估计部件所产生的周围噪音的声源数目信息，沿帧方向平滑所述校正系数计算部件所计算的校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的改变的校正系数。

9.根据权利要求8所述的噪音去除装置，其中，所述周围噪音状态估计部件计算所述第一和第二麦克风的观察信号的相关系数，并且把所计算的相关系数用作周围噪音的声源数目信息。

10.根据权利要求8所述的噪音去除装置，还包含

校正系数计算部件，根据所述目标声音间隔检测部件所产生的目标声音间隔信息，执行在其中不存在目标声音的间隔中的校正系数的计算。

11.根据权利要求10所述的噪音去除装置，其中，所述目标声音检测部件确定目标声音估计信号和噪音估计信号之间的能量比率，并且在所述能量比率高于一极限值时，断定当前间隔为目标声音间隔。

12.根据权利要求8所述的噪音去除装置，其中，所述校正系数计算部件根据下列表达式，使用针对第f频率的帧t的目标声音估计信号Z(f，t)和噪音估计信号N(f，t)以及针对第f频率的帧t-1的校正系数β(f，t-1)，计算第f频率的帧t的校正系数β(f，t)：

β (f, t) = {α \cdot β (f, t - 1)} + {(1 - α) \cdot \frac{Z (f, t)}{N (f, t)}}

其中，α为平滑系数。

13.一种噪音去除方法，包含：

处理所述第一和第二麦克风的观察信号，以产生周围噪音的声源数目信息；以及

根据所述周围噪音的声源数目信息，沿帧方向平滑所述校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的改变的校正系数。

14.一种噪音去除装置，包含：

第一校正系数改变部件，其适合于改变所述校正系数计算部件所计算的校正系数中属于遭受空间假频的频带的校正系数，以便在某一特定频率出现的峰值得到抑制；

第二校正系数改变部件，其适合于根据所述周围噪音状态估计部件所产生的周围噪音的声源数目信息，沿帧方向平滑所述校正系数计算部件所计算的校正系数，以致被平滑的帧的数目随声源的数目的增加而增加，以产生针对各帧的改变的校正系数。

15.根据权利要求14所述的噪音去除装置，其中，在遭受空间假频的频带中，所述校正系数改变部件沿频率方向平滑所述校正系数计算部件所计算的校正系数，以产生针对这些频率的改变的校正系数。

16.根据权利要求14所述的噪音去除装置，其中，所述校正系数改变部件将所述遭受空间假频的频带中的这些频率的校正系数改变为1。

17.根据权利要求14所述的噪音去除装置，所述周围噪音状态估计部件计算所述第一和第二麦克风的观察信号的相关系数，并且把所计算的相关系数用作周围噪音的声源数目信息。

18.根据权利要求14所述的噪音去除装置，还包含

19.根据权利要求18所述的噪音去除装置，其中，所述目标声音检测部件确定目标声音估计信号和噪音估计信号之间的能量比率，并且在所述能量比率高于一极限值时，断定当前间隔为目标声音间隔。

20.根据权利要求14所述的噪音去除装置，其中，所述校正系数计算部件根据下列表达式，使用针对第f频率的帧t的目标声音估计信号Z(f，t)和噪音估计信号N(f，t)以及针对第f频率的帧t-1的校正系数β(f，t-1)，计算第f频率的帧t的校正系数β(f，t)：

β (f, t) = {α \cdot β (f, t - 1)} + {(1 - α) \cdot \frac{Z (f, t)}{N (f, t)}}

其中，α为平滑系数。