CN108352818A

CN108352818A - 用于增强声音信号的声音信号处理装置和方法

Info

Publication number: CN108352818A
Application number: CN201580084540.5A
Authority: CN
Inventors: 彼得·格罗舍; 卡里姆·赫尔旺尼; 克里斯蒂安·斯格科胡贝尔; 弗朗茨·佐特; 罗伯特·赫尔德瑞吉; 马蒂亚斯·弗兰克
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2018-07-31
Anticipated expiration: 2035-11-18
Also published as: CN108352818B; EP3360250A1; KR102070965B1; WO2017084704A1; US20180262832A1; US10602267B2; JP6636633B2; EP3360250B1; JP2019503107A; KR20180073664A

Abstract

本发明涉及一种用于增强来自目标源的声音信号的声音信号处理装置(100)。所述声音信号处理装置(100)包括：多个麦克风(101a–f)，其中每个麦克风(101a–f)用于接收来自所述目标源的所述声音信号；估计器(103)，用于基于所述多个麦克风(101a–f)的第一麦克风(101a–f)接收的来自目标源的声音信号估计第一功率测量，基于所述多个麦克风(101a–f)的至少一个第二麦克风(101a–f)接收的来自目标源的声音信号估计第二功率测量，其中所述至少一个第二麦克风比所述第一麦克风(101a–f)距离所述目标源更远，所述估计器(103)还用于基于所述第二功率测量与所述第一功率测量之间的比值确定增益因子；放大器(105)，用于将所述增益因子应用于所述第一麦克风(101a–f)接收的来自所述目标源的所述声音信号。

Description

用于增强声音信号的声音信号处理装置和方法

技术领域

本发明通常涉及音频信号处理和重现领域。更具体地，本发明涉及一种用于增强声音信号的声音信号处理装置和方法。

背景技术

自动增益控制(automatic gain control，简称AGC)目的在于均衡录音中的电平变化，以确保语音信号的恒定电平。麦克风记录的语音信号分析表明录音中电平变化的原因可分为两种独立原因，即蓄意的语音电平变化以及，例如，说话者和麦克风之间的距离改变造成的非蓄意的变化。

若干种自动增益控制(automatic gain control，简称AGC)系统被开发来均衡电平变化。美国专利8121835以及2014年IEEE国际会议上S.Braun等人的E.A.P.(2014)《声学、语音和信号处理(ICASSP)中通用空间滤波器的自动空间增益控制》(第830–834页)中描述了目前开发的AGC解决方案。然而，这些解决方案对发射的语音能量的蓄意和非蓄意的信号电平波动都起作用。

因此，为了能够传达逼真的声场印象，如浸入式电话会议系统中，检测电平变化原因尤为重要。这样可完全均衡距离波动造成的非蓄意变化，同时保留了语音信号的蓄意(自然)动态变化。

最近从诸多角度研究了区分蓄意和非蓄意信号电平变化和仅均衡非蓄意信号电平变化的概念。提出的一种解决方案是通过声源定位(acoustic source localization，简称ASL)估计说话者到麦克风的距离。已开发了若干种ASL方法来均衡具有处于已知位置的同步麦克风且同时没有活跃说话者的系统中声源和麦克风之间的距离波动引起的电平变化。此类系统在，例如，美国专利7924655以及2007年IEEE声学、语音和信号处理国际会议ICASSP 2007上Z.Liu等人在IEEE第2卷《特殊麦克风阵列的基于能量的声源定位和增益归一化》中进行描述。然而，传统的ASL方法表现出至少一个以下缺陷。在一些传统的ASL方法中，麦克风必须同步和/或其位置必须已知。一些传统的ASL方法无法同时处理活跃的说话者。在一些传统的ASL方法中，较大的估计误差不允许均衡近距离交谈电平变化。一些传统的ASL方法计算较为复杂。

因此，需要一种尤其允许自动增益控制的改进的声音信号处理装置和方法。

发明内容

本发明目的在于提供一种尤其允许自动增益控制的改进的声音信号处理装置和方法。

上述和其他目的通过独立权利要求的主题来实现。结合从属权利要求、说明书和附图，具体实现形式显而易见。

第一方面，本发明涉及一种用于增强来自目标源的声音信号的声音信号处理装置。所述声音信号处理装置包括：多个麦克风，其中每个麦克风用于接收来自所述目标源的所述声音信号；估计器，用于基于所述多个麦克风的第一麦克风接收的来自目标源的声音信号估计第一功率测量，基于所述多个麦克风的至少一个第二麦克风接收的来自目标源的声音信号估计第二功率测量，其中所述至少一个第二麦克风比所述第一麦克风距离所述目标源更远，所述估计器还用于基于所述第二功率测量与所述第一功率测量之间的比值确定增益因子；放大器，用于将所述增益因子应用于所述第一麦克风接收的来自所述目标源的所述声音信号。

这样，提供了一种改进的声音信号处理装置，通过高效计算均衡目标源和麦克风之间的距离改变造成的声音信号电平波动，从而允许自动增益控制。

根据本发明第一方面，在所述声音信号处理装置的第一种可能的实现方式中，所述估计器用于基于所述第一麦克风接收的来自所述目标源的所述声音信号的多个频带中的多个频带受限功率测量和定义目标源活跃在所述多个频带中的可能性的多个概率估计所述第一功率测量。这样，提供了目标源和第一麦克风之间的距离改变造成的声音信号电平波动的更鲁棒的均衡。根据本发明第一方面或其第一种实现方式，在所述声音信号处理装置的第二种可能的实现方式中，所述估计器还用于基于以下等式估计所述第一功率测量：

其中S_ii表示所述第一功率测量，w表示定义所述多个频带的多个权重的权重向量，x_i表示定义在n时刻所述第一麦克风接收的来自所述目标源的所述声音信号的所述多个频带中的所述多个频带受限功率测量的功率测量向量，p_i(n)表示基于以下等式定义在n时刻的所述多个概率的概率向量：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

其中p_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风处的概率，K表示频带数量。这样，考虑到不同麦克风活跃的可能性，提供了目标源和第一麦克风之间的距离改变造成的声音信号电平波动的更鲁棒的均衡。根据特定频带的重要性，多个权重允许对不同频带进行不同加权。

定义在n时刻第一麦克风接收的来自目标源的声音信号的多个频带中的多个频带受限功率测量的功率测量向量可以通过以下等式定义：

x_i(n)＝[|X_i(n，1)|²，|X_i(n，2)|²，...，|X_i(n，K)|²]^T，

其中X_i(n，k)表示在n时刻频带k中第一麦克风接收的来自目标源的声音信号的强度，K表示频带数量。

根据第一方面第一种或第二种实现方式，在所述声音信号处理装置的第三种可能的实现方式中，所述估计器用于基于第一麦克风接收的来自目标源的声音信号的第一功率测量和第二麦克风接收的来自目标源的声音信号的第二功率测量之间的差异为每个频带确定定义目标源活跃在所述多个频带中的可能性的所述多个概率。

这样，考虑到目标源活跃的可能性，提供了更可靠的增益控制，从而更好地将来自目标源的信号与竞争声源分离。

根据第一方面第二种或第三种实现方式，在所述声音信号处理装置的第四种可能的实现方式中，所述估计器还用于通过以下等式定义的多个概率估计所述第一功率测量：

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风处的概率，X_i(n，k)表示在n时刻频带k中第一麦克风接收的来自目标源的声音信号的强度，X_j(n，k)表示在n时刻频带k中第j麦克风接收的来自目标源的声音信号的强度。

这样，考虑到目标源活跃的可能性，提供了更可靠的增益增强，从而更好地将来自目标源的信号与竞争声源分离。

根据本发明第一方面或其第一种至第四种实现方式中的任意一种，在所述声音信号处理装置的第五种可能的实现方式中，所述估计器还用于基于所述第一麦克风接收的声音信号、所述第二麦克风接收的声音信号和所述多个麦克风中的至少一个其他麦克风接收的声音信号估计所述第二功率测量。

考虑到更多麦克风，从而允许获得第二功率测量的更可靠估计以及增益因子的改进值。

根据本发明第一方面或其第五种实现方式，在所述声音信号处理装置的第六种可能的实现方式中，所述估计器还用于基于多个麦克风可靠性测量估计所述第二功率测量，其中所述多个麦克风的每个麦克风的麦克风可靠性测量取决于麦克风到目标源的距离和麦克风接收的来自目标源的声音信号与噪声和/或干扰信号的比值。

通过可靠性测量对每个麦克风进行加权，从而获得第二功率测量进一步改进的估计以及增益因子。

根据本发明第一方面或其第一种至第六种实现方式中的任意一种，在所述声音信号处理装置的第七种可能的实现方式中，所述第二功率测量与所述第一功率测量之间的比值通过针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量来加权。

这样，提高了增益控制的鲁棒性和平滑性。

根据本发明第一方面或其第七种实现方式，在所述声音信号处理装置的第八种可能的实现方式中，所述在n时刻目标源活跃在第一麦克风处的概率基于针对多个频带在n时刻所述目标源活跃在第一麦克风处的多个概率。

这样，提高了目标源活跃的概率的估计的鲁棒性。

根据本发明第一方面或其第八种实现方式，在所述声音信号处理装置的第九种可能的实现方式中，所述估计器用于基于以下等式，确定针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量：

其中μ_i(n)表示针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量，W表示定义所述多个频带的多个权重的权重向量，p_i(n)表示定义针对多个频带在n时刻目标源活跃在第一麦克风处的多个概率的概率向量。

这样，提供了有利的增益因子平滑。

根据本发明第一方面或其第九种实现方式，在所述声音信号处理装置的第十种可能的实现方式中，所述概率向量p_i(n)通过以下等式定义：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

其中p_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风处的概率，K表示频带数量，所述概率p_i(n，k)基于以下等式确定：

其中X_i(n，k)表示在n时刻频带k中第一麦克风接收的来自目标源的声音信号的强度，X_j(n，k)表示在n时刻频带k中第j麦克风接收的来自目标源的声音信号的强度。

这样，通过考虑声音信号强度，高效且鲁棒地估计了目标源活跃的概率。

根据本发明第一方面或其第一种至第十种实现方式中的任意一种，在所述声音信号处理装置的第十一种可能的实现方式中，如果针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量小于预定义的阈值，所述放大器用于将单位增益因子应用于第一麦克风接收的来自目标源的声音信号。

这样，如果目标源活跃的可能性过低，则提供了单位增益因子。

根据本发明第一方面或其第一种至第十一种实现方式中的任意一种，在所述声音信号处理装置的第十二种可能的实现方式中，如果针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量小于预定义的概率阈值，所述放大器用于将门函数、低通滤波器和/或施密特触发器应用于针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量，从而将单位增益因子应用于第一麦克风接收的来自目标源的声音信号。

第二方面，本发明涉及一种用于增强来自目标源的声音信号的声音信号处理方法。所述声音信号处理方法包括如下步骤：多个麦克风接收来自所述目标源的所述声音信号；基于所述多个麦克风的第一麦克风接收的来自目标源的声音信号估计第一功率测量，基于所述多个麦克风的至少一个第二麦克风接收的来自目标源的声音信号估计第二功率测量，其中所述至少一个第二麦克风比所述第一麦克风距离所述目标源更远；基于所述第二功率测量与所述第一功率测量之间的比值确定增益因子；将所述增益因子应用于所述第一麦克风接收的来自所述目标源的所述声音信号。

根据本发明第二方面，在所述声音信号处理方法的第一种可能的实现方式中，所述估计步骤包括：基于所述第一麦克风接收的来自所述目标源的所述声音信号的多个频带中的多个频带受限功率测量和定义目标源活跃在所述多个频带中的可能性的多个概率估计所述第一功率测量。

根据本发明第二方面或其第一种实现方式，在所述声音信号处理方法的第二种可能的实现方式中，所述估计步骤包括：基于以下等式估计所述第一功率测量：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风处的概率，K表示频带数量。定义在n时刻第一麦克风接收的来自目标源的声音信号的多个频带中的多个频带受限功率测量的功率测量向量可以通过以下等式定义：

x_i(n)＝[|X_i(n，1)|²，|X_i(n，2)|²，...，|X_i(n，K)|²]^T，

根据第二方面第一种或第二种实现方式，在所述声音信号处理方法的第三种可能的实现方式中，基于第一麦克风接收的来自目标源的声音信号的第一功率测量和第二麦克风接收的来自目标源的声音信号的第二功率测量之间的差异为每个频带确定定义目标源活跃在所述多个频带中的可能性的所述多个概率。

根据第二方面第二种或第三种实现方式，在所述声音信号处理方法的第四种可能的实现方式中，所述估计步骤包括：通过以下等式定义的多个概率估计所述第一功率测量：

根据本发明第二方面或其第一种至第四种实现方式中的任意一种，在所述声音信号处理方法的第五种可能的实现方式中，所述估计步骤包括：基于所述第一麦克风接收的声音信号、所述第二麦克风接收的声音信号和所述多个麦克风中的至少一个其他麦克风接收的声音信号估计所述第二功率测量。

根据本发明第二方面或其第五种实现方式，在所述声音信号处理方法的第六种可能的实现方式中，所述估计步骤包括：基于多个麦克风可靠性测量估计所述第二功率测量，其中所述多个麦克风的每个麦克风的麦克风可靠性测量取决于麦克风到目标源的距离和麦克风接收的来自目标源的声音信号与噪声和/或干扰信号的比值。

根据本发明第二方面或其第一种至第六种实现方式中的任意一种，在所述声音信号处理方法的第七种可能的实现方式中，所述步骤基于所述第二功率测量与所述第一功率测量之间的比值确定增益因子包括：所述比值通过针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量来加权。

根据本发明第二方面或其第七种实现方式，在所述声音信号处理方法的第八种可能的实现方式中，所述在n时刻目标源活跃在第一麦克风处的概率基于针对多个频带在n时刻所述目标源活跃在第一麦克风处的多个概率。

根据本发明第二方面或其第八种实现方式，在所述声音信号处理方法的第九种可能的实现方式中，基于以下等式，确定针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量：

根据本发明第二方面或其第九种实现方式，在所述声音信号处理方法的第十种可能的实现方式中，所述概率向量p_i(n)通过以下等式定义：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

根据本发明第二方面或其第一种至第十种实现方式中的任意一种，在所述声音信号处理方法的第十一种可能的实现方式中，如果针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量小于预定义的阈值，所述将所述增益因子应用于所述声音信号的步骤包括：将单位增益因子应用于第一麦克风接收的来自目标源的声音信号。

根据本发明第二方面或其第一种至第十一种实现方式中的任意一种，在所述声音信号处理方法的第十二种可能的实现方式中，如果针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量小于预定义的概率阈值，所述将所述增益因子应用于所述声音信号的步骤包括：将门函数、低通滤波器和/或施密特触发器应用于针对在n时刻目标源活跃在第一麦克风处的概率的归一化测量，从而将单位增益因子应用于第一麦克风接收的来自目标源的声音信号。

根据本发明第二方面所述的声音信号处理方法可以由根据本发明第一方面所述的声音信号处理装置执行。根据本发明第二方面所述的声音信号处理方法的进一步特征可以直接从根据本发明第一方面及其不同实现方式所述的声音信号处理装置的功能中得到，反之亦然。

第三方面，本发明涉及一种计算机程序，包括：程序代码，用于在计算机上执行时，执行根据本发明第二方面或其任意一种实现方式所述的声音信号处理方法。

本发明可以以硬件和/或软件形式来实现。

附图说明

本发明的具体实施方式将结合以下附图进行描述，其中：

图1示出了一实施例提供的一种用于增强来自目标源的声音信号的声音信号处理装置的示意图；

图2示出了一实施例提供的包括具有四个麦克风和具有不同目标源到麦克风距离的一个目标源的一种声音信号处理装置的示例性场景示意图；

图3示出了一实施例提供的声音信号处理装置的麦克风接收的信号能量变化分解为蓄意电平变化和非蓄意电平变化的示意图；

图4示出了一实施例提供的声音信号处理装置的位于距目标源不同距离处的麦克风接收的信号能量的短时波动的示意图；

图5示出了一实施例提供的声音信号处理装置的靠近目标源的麦克风与远距离麦克风之间的功率测量比值的示意图；

图6示出了一实施例提供的包括具有三个麦克风和三个不同目标源的声音信号处理装置的示例性场景示意图；

图7示出了一实施例提供的声音信号处理装置的估计器进行增益因子估计的示意图；

图8示出了一实施例提供的包括具有六个麦克风和两个活跃目标源的声音信号处理装置的示例性场景的麦克风可靠性分布示意图；

图9示出了一实施例提供的声音信号处理装置的估计器的具有后续增益因子更新阶段的增益因子估计阶段的示意图；

图10示出了一实施例提供的声音信号处理装置的估计器和附加近距离说话者检测阶段的示意图；

图11示出了一实施例提供的一种声音信号处理装置的示意图；

图12示出了一实施例提供的一种用于增强来自目标源的声音信号的信号处理方法的示意图。在各附图中，相同的或至少功能等同的特征使用相同的参考标号。

具体实现形式

以下结合附图进行描述，所述附图是描述的一部分，并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是，在不脱离本发明范围的情况下，可以利用其它方面，并做出结构或逻辑上的改变。因此，以下详细的描述并不视为具有限制意义，因为本发明的范围由所附权利要求书界定。

例如，可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用，反之亦然。例如，如果描述了特定方法步骤，则对应设备可以包括用于执行所描述的方法步骤的单元，即使此类单元没有在图中明确描述或图示。此外，应理解，本文所描述的各种示例性方面的特征可以相互组合，除非另外明确说明。

图1示出了一种用于增强或均衡来自目标源，如说话者的声音信号的声音信号处理装置100的示意图。所述声音信号处理装置100包括：第一麦克风101a，用于接收来自目标源的声音信号；第二麦克风101b，用于接收来自目标源的声音信号。如图1所示，第二麦克风101b比第一麦克风101a距离目标源更远。

所述声音信号处理装置100还包括估计器103，用于基于第一麦克风101a接收的来自目标源的声音信号估计第一功率测量，基于第二麦克风101b接收的来自目标源的声音信号估计第二功率测量。这里使用的术语“功率测量”应理解为允许量化从目标源接收的声音信号的强度的任何测量，例如声音信号的强度、能量和/或功率的测量。例如，功率测量可基于声音信号的平方大小、大小或均方根来确定。而且，确定功率测量可能涉及时间平均运算。

所述估计器103还用于基于第二功率测量与第一功率测量之间的比值确定增益因子。

所述声音信号处理装置100还包括放大器105，用于将增益因子应用于第一麦克风101a接收的来自目标源的声音信号。

图2示出了一实施例提供的包括具有四个麦克风101a–d和具有不同源到麦克风距离的一个目标源的一种声音信号处理装置100的示例性场景示意图。例如，第一麦克风101a是距离目标源最近的麦克风，第二麦克风101d距离目标源最远。已经发现的是，每个麦克风101a–d记录的信号的短时变化可分解为例如语音的语调或语气变化等蓄意的信号变化和例如目标源和麦克风101a–d之间的距离波动造成的非蓄意的信号变化。

图3示出了第一麦克风101a接收的声音信号的短时信号能量波动如何能分解为声音信号的短时能量波动和目标源和第一麦克风101a之间的距离改变造成的时变增益的示意图。例如，在图3和以下一些图中，第一功率测量和第二功率测量基于声音信号的能量。

图4示出了图2所示的声音信号处理装置的位于距目标源不同距离处的所有四个麦克风101a–d监测到的信号能量的短时信号波动的示意图。对应实线表示记录的语音能量，对应虚线表示目标源和对应的麦克风101a–d之间的距离改变造成的时变增益。从图4可以看出，不同麦克风101a–d接收的声音信号的能量(或不同的功率测量)随到目标源距离的增加而减小。第一麦克风101a接收的信号能量最高，麦克风101d获得的信号能量最低。但是，信号的蓄意短期波动(以实线表示)相同。

另一方面，不同麦克风101a–d接收的声音信号的例如距离改变造成的非蓄意短期波动随到目标源距离的增加而减小，因为相比于目标源和对应麦克风101a–d之间的总体距离，距离的相对变化或波动，即目标源和对应麦克风101a–d之间的距离的变化(或差异)的比值随目标源和对应麦克风101a–d之间的距离的增加而减小。因此，从图4可以看出，不同麦克风101a–d接收的语音信号的例如距离改变(目标源首先远离麦克风101a–d然后再次靠近)造成的非蓄意短期波动在离目标源最近的第一麦克风101a处最强，在离目标源较远的其他麦克风101b–d处较小。

由于靠近目标源的第一麦克风101a处的信号和离目标源较远的其他麦克风101b–d处的信号具有大致相同的蓄意波动且仅在非蓄意(距离)波动方面不同，因此本发明实施例基于第一麦克风101a处的信号的第一功率测量与较远处的麦克风101b–d中的一个麦克风处的信号的第二功率测量之间的比值应用增益因子，从而均衡非蓄意电平变化。

图5示出了靠近目标源的第一麦克风101a与较远麦克风101d之间的功率测量比值的示意图。虽然理论上时间同步有利于补偿靠近目标源的第一麦克风101a处的和较远麦克风101d处的声音信号的到达之间的时间差，但已经发现的是，实际上这并不影响结果，因为典型时延非常小(如大约100个样本)，而短时信号功率测量是在更长时间段(如大约2000个样本)估计的。

本发明实施例允许对第一功率测量，如近距离短时语音能量，和第二功率测量，如远距离短时语音能量，进行鲁棒和高效估计，甚至是在有多个说话者的场景中。图6示出了包括具有三个麦克风101a–c和三个目标源(在图6中称为t1、t2和t3)的声音信号处理装置100的示例性场景。在所述示例性场景中可以有靠近每个麦克风101a–c的活跃目标源。可以假设每个麦克风101a–c处的短时信号能量可分解为不同目标源对应的声音能量和噪声加干扰项，例如m₁＝s₁₁+s₂₁+s₃₁+n₁，其中m₁为第一麦克风101a监测到的总短时信号能量，s_ij为麦克风j接收的目标源i对应的短时语音能量(即功率测量)，n₁为麦克风本身噪声、漫射噪声和干扰源的总短时能量。

第一功率测量s_ii(n)(其中n表示时刻)是由声音信号处理装置100的估计器103基于第i麦克风101a–c接收的来自第i目标源的声音信号估计的，第二功率测量是基于比第i麦克风101a–c距离第i目标源更远的另一麦克风101a–c接收的来自第i目标源的声音信号估计的。

图7示出了一实施例提供的声音信号处理装置100的估计器103估计针对第i麦克风101a–c的增益因子的示意图。增益因子的计算基于功率测量s_ii(n)和s_ii(n)。一实施例提供的声音信号处理装置100的估计器103用于确定针对第i麦克风101a–c的增益因子为第二功率测量与第一功率测量s_ii(n)之间的比值。

由于声音信号处理装置的估计器103确定的增益因子取决于第二功率测量本发明不同实施例提供不同方式来选择“远距离麦克风”和估计第二功率测量选择的远距离麦克风应远离目标源，以减少非蓄意距离改变的影响，同时允许精确估计第二功率测量以便能够获得显示蓄意波动的有意义的参考信号。

这样，如果专用远距离麦克风可用，应由声音信号处理装置100的估计器103使用该麦克风，以估计第二功率测量然而，在其他实施例中，例如这种专用远距离麦克风不可用时，声音信号处理装置100的估计器103用于基于所有麦克风的估计的功率测量使用(可能加权的)统计估计器估计第二功率测量具体将在下文详细描述。基于这种统计估计器确定第二功率测量允许，例如，在目标源和/或麦克风位置变化时考虑到突然的增益变化，且使得第二功率测量的估计更加鲁棒，因为在噪声或混响条件下基于单个远距离麦克风估计第二功率测量容易出错。

在一实施例中，针对第二功率测量的统计估计器是一个目标源对应的所有估计的功率测量的平均值或中值。然而，平均值容易因为异常值而出错，而使用中间值可导致第二功率测量突然变化。为获得第二功率测量的平滑估计，本发明实施例使用两个百分位测量的平均值，具体将在下文详细描述。当大量空间分布合理的麦克风可用时，这些估计统计器不会被一些离所需目标源太近或太远的麦克风破坏。然而，如果只有少数麦克风可用，本发明实施例可通过加权统计估计器提高估计第二功率测量的鲁棒性。在一实施例中，针对每个估计，估计每个麦克风的可靠性系数(也称为点可靠性)。具有低点可靠性的麦克风的功率测量对估计器103估计的第二功率测量值的贡献小于具有更高点可靠性的麦克风的功率测量。

如图6所示示例，即使有多个目标源，但并非所有目标源都同时处于活跃状态。因此，在一实施例中，估计器103还用于基于第一麦克风101a接收的来自目标源的声音信号的多个频带中的多个频带受限功率测量和定义目标源活跃在多个频带中的可能性的多个概率估计第一功率测量。

在一实施例中，估计器103还用于基于以下等式估计第一功率测量s_ii：

其中s_ii表示第一功率测量，w表示定义多个频带的多个权重的权重向量，x_i表示定义在n时刻第一麦克风101a–c接收的来自目标源的声音信号的多个频带中的多个频带受限功率测量的功率测量向量，p_i(n)表示基于以下等式定义在n时刻的多个概率的概率向量：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T， (2)

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风101a–c处的概率，K表示频带数量。此处概率P_i(n，k)也称为“近距离说话者概率”。

在一实施例中，定义在n时刻第一麦克风101a–c接收的来自目标源的声音信号的多个频带中的多个频带受限功率测量的功率测量向量x_i(n)可以通过以下等式定义：

x_i(n)＝[|X_i(n，1)|²，|X_i(n，2)|²，...，|X_i(n，K)|²]^T， (3)

其中X_i(n，k)表示在n时刻频带k中第一麦克风101a接收的来自目标源的声音信号的强度，K表示频带数量。在一实施例中，X_j(n，k)可以是在n时刻频率子带k中的滤波器组的一般复值输出(如通过短时傅里叶变换获得)。

在一实施例中，估计器103用于基于第一麦克风101a接收的来自目标源的声音信号的第一功率测量和第二麦克风101b–c接收的来自目标源的声音信号的第二功率测量之间的差异为每个频带确定定义目标源活跃在多个频带中的可能性的多个概率。

在一实施例中，估计器103还用于通过以下等式定义的多个概率估计第一功率测量s_ii：

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风101a处的概率，X_i(n，k)表示在n时刻频带k中第一麦克风101a接收的来自目标源的声音信号的强度，X_i(n，k)表示在n时刻频带k中第j麦克风101b–c接收的来自目标源的声音信号的强度。

假设来自目标源的声音信号近似频谱不相交，即每个时频隙主要由单个目标源支配，则之前定义的概率P_i(n，k)可用于在上述定义第一功率测量s_ii的等式4中将所需第i目标源的功率测量与竞争目标源的功率测量分开。上述等式1中的权重向量W可用于强调某些频率范围。如前所述，第二功率测量可通过一个比第i麦克风101a距离第i目标源更远的远距离麦克风101b–c的估计的功率测量计算。因此，如前所述，如果与所有目标源有足够距离的专用单个麦克风或麦克风阵列可用，则可使用这些麦克风估计第二功率测量

在一实施例中，估计器103还用于基于第一麦克风101a接收的声音信号、第二麦克风101b–c接收的声音信号和多个麦克风101a–c中的至少一个其他麦克风101b–c接收的声音信号估计第二功率测量。

在一实施例中，估计器103还用于基于多个麦克风可靠性测量估计第二功率测量其中多个麦克风101a–c的每个麦克风101a–c的麦克风可靠性测量取决于麦克风101a–c到目标源的距离和来自目标源的声音信号强度与噪声和/或干扰信号强度的比值。

在一实施例中，第二功率测量可由估计器103基于以下等式确定：

其中s_i：(n)表示第i目标源对应的功率测量的向量，且通过以下等式定义：

s_i：(n)＝[s_i1(n)，s_i2(n)，...，s_iM(n)]^T， (6)

λ_i：(n)表示麦克风可靠性测量的向量，且通过以下等式定义：

λ_i：(n)＝[λ_i1(n)，λ_i2(n)，...，λ_iM(n)]^T， (7)

其中λ_ij(n)表示相对于第i目标源的第j麦克风101a–c的麦克风可靠性测量，M表示麦克风101a–c总数量。

在一实施例中，函数G{·}通过以下等式给定：

其中表示向量q权重给定时向量v中的项的第R加权百分位。

使用相对于第i目标源的第j麦克风101a–c的麦克风可靠性测量λ_ij(n)允许给予更可靠的麦克风101a–c更多权重。例如，可以从远离第i目标源的麦克风101a–c预期功率测量的最可靠估计，且仍然显示出合理的信号噪声干扰比。也就是说，麦克风可靠性测量λ_ij(n)为低，若

s_ij(n)/s_jj(n)＜δ₁或s_ii(n)/s_ij(n)＜δ₂， (9)

其中δ₁和δ₂为经验常数。δ₁可选为接近1的值，δ₂可选为4到10之间的值。

图8示出了包括六个麦克风101a–f和六个目标源的场景的麦克风可靠性测量λ_ij(n)的示例性分布，其中两个目标源处于活跃状态。图8中，黑暗区域对应低点可靠性，而明亮区域对应高点可靠性。

如前所述，在一实施例中，假设每个麦克风101a–c对应一个靠近对应麦克风的活跃信号目标源时，估计一个(或多个)增益因子然而，当第i麦克风101a–f处的目标源的信号为低时，对应的增益因子应平滑适应。因此，在一实施例中，声音信号处理装置100的估计器103还用于基于第二功率测量和第一功率测量之间的比值，通过针对在n时刻目标源活跃在第一麦克风101a–f处的概率的归一化测量的比值加权，确定增益因子，该归一化测量此处称为帧可靠性μ_i(n)。

在一实施例中，在n时刻目标源活跃在第一麦克风101a处的概率基于针对多个频带在n时刻目标源活跃在第一麦克风101a处的多个概率。

在一实施例中，估计器103还用于基于以下等式确定帧可靠性μ_i(n)，即针对在n时刻目标源活跃在第一麦克风101a–c处的概率的归一化测量：

其中w表示定义多个频带的多个权重的权重向量，p_i(n)表示定义针对多个频带在n时刻目标源活跃在第一麦克风101a处的多个概率的概率向量。在一实施例中，概率向量p_i(n)通过上述等式(3)和(4)定义。

可选择权重向量w来强调重要的频率区域，且可以写成如下：

w＝[w(1)，w(2)，...，w(K)]^T (11)

其中不同权重w(k)位于0和1之间，即0≤w(k)≤1。

在一实施例中，如图9所示，帧可靠性μ_i(n)可用作在声音信号处理装置100的估计器103的增益因子更新阶段103b中使用的适配步长。除了增益因子更新阶段103b，图9所示的估计器包括增益因子估计阶段103a。图9用作以上描述的估计器103的增益因子估计阶段103a和增益因子更新阶段103b的组件的总结。

如果目标源不活跃，基于这样的目标源的增益因子估计可能是错误的。因此，在一实施例中，如果帧可靠性μ_i(n)，即针对在n时刻目标源活跃在第一麦克风101a处的概率的归一化测量小于预定义的阈值，放大器105用于将单位增益因子应用于第一麦克风101a接收的来自目标源的声音信号。对应实施例如图10所示。

除了图9所示组件，图10所示的声音处理装置100包括近距离说话者检测阶段107。该近距离说话者检测阶段107可实现为放大器105的一部分，用于检测帧可靠性μ_i(n)，即针对在n时刻目标源活跃在第一麦克风101a处的概率的归一化测量是否小于预定义的阈值。这种情况下，可以将放大器105切换到单位或非活跃增益108。为执行其功能，近距离说话者检测阶段107可以包括门函数107a、低通滤波器107b和/或施密特触发器107c。

图11示出了一实施例提供的一种声音信号处理装置100的示意图。所述声音信号处理装置100包括多个麦克风101a–f、用于对目标源声音信号进行频谱分割的多声道滤波器组102、估计器103和放大器105。估计器103和放大器105可通过与前述实施例相同或相似的方式配置。

图12示出了一种用于增强来自目标源的声音信号的声音信号处理方法1200的示意图。

所述声音信号处理方法1200包括步骤：步骤1201、多个麦克风101a–c接收来自目标源的声音信号；步骤1203、基于多个麦克风101a–c的第一麦克风101a接收的来自目标源的声音信号估计第一功率测量，基于多个麦克风101a–c的至少一个第二麦克风101b–c接收的来自目标源的声音信号估计第二功率测量，其中至少一个第二麦克风比第一麦克风101a距离目标源更远；步骤1205、基于第二功率测量与第一功率测量之间的比值确定增益因子；步骤1205、将增益因子应用于第一麦克风101a接收的来自目标源的声音信号。

本发明实施例实现了不同优点。声音信号处理装置100和声音信号处理方法1200提供了均衡例如目标源和麦克风之间的距离改变造成的非蓄意信号变化同时保留蓄意信号变化的方法。本发明实施例可应用于不同场景，例如目标源和麦克风数量不同、目标源数量未知、目标源位置未知、麦克风位置未知或麦克风不同步。

本发明实施例允许根据目标源和麦克风的活动和/或位置进行高效增益因子估计和更新。

本发明例如可以在多麦克风会议场景、同一房间多个说话者的电话会议等中实现。本发明允许均衡说话者位置变化造成的信号电平变化同时保留语音信号的自然(动态)变化。

尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开，但此类特征或方面可以和其它实施方式或实施例中的一个或多个特征或方面相结合，只要对于任何给定或特定的应用是有需要或有利。而且，在一定程度上，术语“包括”、“有”、“具有”或这些词的其他变形在详细的说明书或权利要求书中使用，这类术语和所述术语“包含”是类似的，都是表示包括的含义。同样，术语“示例性地”，“例如”仅表示为示例，而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解，这些术语可以用于指示两个元件彼此协作或交互，而不管它们是直接物理接触还是电接触，或者它们彼此不直接接触。

尽管本文中已说明和描述特定方面，但所属领域的技术人员应了解，多种替代和/或等效实施方式可在不脱离本发明的范围的情况下所示和描述的特定方面。该申请旨在覆盖本文论述的特定方面的任何修改或变更。

尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的，除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序，否则这些元件不必限于以所述特定顺序来实施。

通过以上启示，对于本领域技术人员来说，许多替代、修改和变化是显而易见的。当然，本领域普通技术人员容易认识到除本文所述的应用之外，还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明，但本领域普通技术人员将认识到在不偏离本发明的范围的前提下，仍可对本发明作出许多改变。因此，应理解，只要是在所附权利要求书及其等效物的范围内，可以用不同于本文具体描述的方式来实践本发明。

Claims

1.一种用于增强来自目标源的声音信号的声音信号处理装置(100)，其特征在于，所述声音信号处理装置(100)包括：

多个麦克风(101a–f)，其中每个麦克风(101a–f)用于接收来自所述目标源的所述声音信号；估计器(103)，用于基于所述多个麦克风(101a–f)的第一麦克风(101a–f)接收的来自目标源的声音信号估计第一功率测量，基于所述多个麦克风(101a–f)的至少一个第二麦克风(101a–f)接收的来自目标源的声音信号估计第二功率测量，其中所述至少一个第二麦克风比所述第一麦克风(101a–f)距离所述目标源更远，所述估计器(103)还用于基于所述第二功率测量与所述第一功率测量之间的比值确定增益因子；

放大器(105)，用于将所述增益因子应用于所述第一麦克风(101a–f)接收的来自所述目标源的所述声音信号。

2.根据权利要求1所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于基于所述第一麦克风(101a–f)接收的来自所述目标源的所述声音信号的多个频带中的多个频带受限功率测量和定义目标源活跃在所述多个频带中的可能性的多个概率估计所述第一功率测量。

3.根据权利要求1或2所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于基于以下等式估计所述第一功率测量：

其中S_ii表示所述第一功率测量，w表示定义所述多个频带的多个权重的权重向量，x_i表示定义在n时刻所述第一麦克风(101a–f)接收的来自所述目标源的所述声音信号的所述多个频带中的所述多个频带受限功率测量的功率测量向量，p_i(n)表示基于以下等式定义在n时刻的所述多个概率的概率向量：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风(101a–f)处的概率，K表示频带数量。

4.根据权利要求2或3所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于基于第一麦克风接收的来自目标源的声音信号的第一功率测量和第二麦克风接收的来自目标源的声音信号的第二功率测量之间的差异为每个频带确定定义目标源活跃在所述多个频带中的可能性的所述多个概率。

5.根据权利要求3或4所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于通过以下等式定义的多个概率估计所述第一功率测量：

其中P_i(n，k)表示在n时刻目标源(103a–f)活跃在频带k中第一麦克风(101a–f)处的概率，X_i(n，k)表示在n时刻频带k中第一麦克风(101a–f)接收的来自目标源的声音信号的强度，X_j(n，k)表示在n时刻频带k中第j麦克风(101a–f)接收的来自目标源的声音信号的强度。

6.根据前述权利要求中任一项所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于基于所述第一麦克风(101a–f)接收的声音信号、所述第二麦克风(101a–f)接收的声音信号和所述多个麦克风(101a–f)中的至少一个其他麦克风(101a–f)接收的声音信号估计所述第二功率测量。

7.根据权利要求6所述的声音信号处理装置(100)，其特征在于，所述估计器(103)还用于基于多个麦克风可靠性测量估计所述第二功率测量，其中所述多个麦克风(101a–f)的每个麦克风(101a–f)的麦克风可靠性测量取决于麦克风(101a–f)到目标源的距离和麦克风(101a–f)接收的来自目标源的声音信号与噪声和/或干扰信号的比值。

8.根据前述权利要求中任一项所述的声音信号处理装置(100)，其特征在于，所述第二功率测量与所述第一功率测量之间的比值通过针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量来加权。

9.根据权利要求8所述的声音信号处理装置(100)，其特征在于，所述在n时刻目标源活跃在第一麦克风(101a–f)处的概率基于针对多个频带在n时刻所述目标源活跃在第一麦克风(101a–f)处的多个概率。

10.根据权利要求9所述的声音信号处理装置(100)，其特征在于，所述估计器(103)用于基于以下等式，确定针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量：

其中μ_i(n)表示针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量，w表示定义所述多个频带的多个权重的权重向量，p_i(n)表示定义针对多个频带在n时刻目标源活跃在第一麦克风(101a–f)处的多个概率的概率向量。

11.根据权利要求10所述的声音信号处理装置(100)，其特征在于，所述概率向量p_i(n)通过以下等式定义：

p_i(n)＝[P_i(n，1)，P_i(n，2)，...，P_i(n，K)]^T，

其中P_i(n，k)表示在n时刻目标源活跃在频带k中第一麦克风(101a–f)处的概率，K表示频带数量，所述概率P_i(n，k)基于以下等式确定：

其中X_i(n，k)表示在n时刻频带k中第一麦克风(101a–f)接收的来自目标源的声音信号的强度，X_j(n，k)表示在n时刻频带k中第j麦克风(101a–f)接收的来自目标源的声音信号的强度。

12.根据前述权利要求中任一项所述的声音信号处理装置(100)，其特征在于，如果针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量小于预定义的阈值，所述放大器(105)用于将单位增益因子应用于第一麦克风(101a–f)接收的来自目标源的声音信号。

13.根据前述权利要求中任一项所述的声音信号处理装置(100)，其特征在于，如果针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量小于预定义的概率阈值，所述放大器(105)用于将门函数(107a)、低通滤波器(107b)和/或施密特触发器(107c)应用于针对在n时刻目标源活跃在第一麦克风(101a–f)处的概率的归一化测量，从而将单位增益因子应用于第一麦克风(101a–f)接收的来自目标源的声音信号。

14.一种用于增强来自目标源(101a–c)的声音信号的声音信号处理方法(1200)，其特征在于，所述声音信号处理方法(1200)包括：

多个麦克风(101a–f)接收(1201)来自所述目标源的所述声音信号；

基于所述多个麦克风(101a–f)的第一麦克风(101a–f)接收的来自目标源的声音信号估计(1203)第一功率测量，基于所述多个麦克风(101a–f)的至少一个第二麦克风(101a–f)接收的来自目标源的声音信号估计(1203)第二功率测量，其中所述至少一个第二麦克风比所述第一麦克风(101a–f)距离所述目标源更远；

基于所述第二功率测量与所述第一功率测量之间的比值确定(1205)增益因子；

将所述增益因子应用(1207)于所述第一麦克风(101a–f)接收的来自所述目标源的所述声音信号。

15.一种计算机程序，其特征在于，包括：程序代码，用于在计算机上执行时执行根据权利要求14所述的声音信号处理方法。