CN102447993A

CN102447993A - 声音场景操纵

Info

Publication number: CN102447993A
Application number: CN2011103036497A
Authority: CN
Inventors: 图恩·范沃特斯库特; 沃特·约斯·蒂瑞; 马克·穆尼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-09-30
Filing date: 2011-09-29
Publication date: 2012-05-09
Also published as: US20120082322A1

Abstract

提供了一种音频处理设备，包括：音频输入，接收音频信号，每个音频信号包括多个分量的混合，每个分量与声源相对应；控制输入，针对每个声源接收与所述声源相关联的期望放大相应分量的期望增益因子；辅助信号发生器，根据音频信号产生辅助信号，辅助信号与音频信号中的基准音频信号相比包括分量的不同混合；缩放系数计算器，根据期望增益因子和所述不同混合的参数来计算缩放系数集合，每个缩放系数与辅助信号和可选地基准音频信号中的一个相关联；音频合成单元，通过对辅助信号和基准音频信号施加缩放系数并组合结果来合成输出音频信号。根据期望增益因子和所述不同混合的参数计算缩放系数，使得合成的输出信号为每个分量提供期望增益因子。

Description

声音场景操纵

技术领域

本发明涉及对包括多个声源的声音场景的操纵。本发明具体涉及多个麦克风对音频的同时记录的情况。

背景技术

大多数已有的声音场景操纵方法以两级方式进行操作：在第一级，从一个或多个麦克风记录中提取单独的声源；在第二级，根据期望的声音场景操纵将分离的声源重新组合。当操纵包括改变单独声源的期望级别时(这是常见的情况)，一旦已执行第一级，那么第二级就是没有意义的。实际上，第二级中的重新组合缩减为对从第一级获得的分离的声源的简单线性组合。不幸地，从记录的麦克风信号中提取单独的声源是很困难的，对此已经进行了许多研究。广泛来说，声源提取技术的状态可以分类为三种方法：

1、盲源分离(BSS，blind source separation)：该方法允许通过采用单独声源的统计独立性从多个观察到的混合信号来估计多个单独的声源分量。传统的BSS方法依赖于以下假设：源的数目小于或等于观察到的混合信号的数目，这意味着需要数目非常多的麦克风。未确定(underdetermined)的BSS方法能够避免这种情况，然而这些未确定的BSS方法依赖于与单独声源有关的大量先验知识。由于BSS方法的计算量大，所以通常不适于实时应用。

2、计算听觉场景分析(CASA，computational auditory sceneanalysis)：CASA的目的是通过从观察到的混合信号中识别和分组感知属性，来以模仿人类听觉系统的方式分析声音场景。由于CASA对两个(双耳)麦克风记录进行操作，所以只要声源包括多于两个源，那么CASA就实质上是未确定的BSS方法。尽管CASA已经吸引了许多研究者的兴趣，然而仍然被认为用在实际应用中尚不够成熟。此外，CASA的计算量需求也非常高。

3、波束形成：该方法依赖于对两个或多个观察到的混合信号施加空间上选择性的滤波操作。对于分离给定数目的声源所需的观察次数没有严格的限制，此外大多数波束形成实现方式所需的计算量小于BSS或CASA方法。然而波束形成既依赖于与声源位置有关的先验知识(在这种情况下，可以应用固定波束形成器)，又需要大量的附加处理来实现“监管(supervision)”(在自适应波束形成器的情况下)。

发明内容

根据本发明的一方面，提供了一种音频处理设备，包括：

音频输入，用于接收在相应麦克风处检测到的一个或多个音频信号，每个音频信号包括多个分量的混合，每个分量与声源相对应；

控制输入，用于针对每个声源接收与所述声源相关联的期望增益因子，期望通过所述期望增益因子来放大相应分量；

辅助信号发生器，适于从所述一个或多个音频信号中产生至少一个辅助信号，其中，与所述一个或多个音频信号中的基准音频信号相比，所述至少一个辅助信号包括分量的不同混合；

缩放系数计算器，适于根据期望增益因子和所述不同混合的参数来计算缩放系数集合，每个缩放系数与所述至少一个辅助信号和可选地基准音频信号中的一个相关联；以及

音频合成单元，适于通过对所述至少一个辅助信号和可选地基准音频信号施加缩放系数并将结果相组合，来合成输出音频信号；

其中，缩放系数是根据期望增益因子和所述不同混合的参数来计算的，使得合成的输出信号为每个分量提供了期望增益因子。

根据本发明实施例的设备从根本上不同的观点解决了声音场景操纵的问题，具体在于根据本发明实施例的设备允许针对观察到的一个或多个混合信号中的每个单独声源分量执行任何指定的级别变化，而不依赖于显式的声源分离。通过考虑以上强调的三种方法中的每一种方法，可以说明本发明的设备与现有技术相比所克服的缺陷：

1、相对于BBS方法的优点：类似于传统的BBS方法，设备所实现的处理方法需要许多不同的混合信号，所需的混合信号的数目等于需要单独改变的声源级别的数目。然而可以从更少数目的麦克风记录中产生这些混合信号。例如，可以通过将一个麦克风记录与一个或多个其他麦克风记录相组合，来产生辅助混合信号。因此，方法还可以用在麦克风数目少于声源数目的场景中，而不显著提高计算量。所提出的方法降低了计算复杂度，计算复杂度仅随观察到的麦克风信号样本的数目而线性地提高。因此，方法尤为适于实时应用。最后，方法不依赖于与单独声源的统计有关的任何先验知识。

2、相对于CASA方法的优点：CASA方法对声源的听觉特征的采集进行操作，而本发明的处理方法直接对观察到的麦克风信号以及从这些麦克风信号得到的多个辅助信号进行操作。因此，本发明的方法不需要估计和检测听觉特征，这在鲁棒性方面和计算复杂度方面均是有利的。

3、相对于波束形成方法的优点：波束形成方法仅对观察到的麦克风信号进行操作，而本发明的方法对多个辅助信号以及麦克风信号进行操作。可以通过将观察到的麦克风信号相组合来得到这些辅助信号。然而，对于从观察到的麦克风信号到辅助信号的映射并没有限制，因此本发明提出的方法比波束形成方法更灵活。如下文中指出的，本发明的一个实施例可以包括用于根据麦克风信号产生辅助信号的固定波束形成器和自适应波束形成器。

根据实施例的方法和设备的一个应用是诸如语音或音乐等声学信号的增强。在这种情况下，声音场景由期望的声音和不期望的声源构成，声音场景操纵的目的包括相对于期望声源的级别来降低不期望声源的级别。

根据本发明的另一方面，提供了一种手持个人电子设备，手持个人电子设备包括多个麦克风以及上述音频处理设备。

本发明尤为适于移动、手持应用，这是因为本发明具有相对小的计算量需求。因此，本发明可以与具有有限处理资源的移动设备一起使用，或者可以使得能够降低功耗。

优选地，移动或手持设备合并了具有视觉缩放(zoom)能力的视频记录装置，并且优选地音频处理设备适于根据视觉缩放的配置来修改期望增益因子。这使得设备能够实现声学缩放功能。

优选地，麦克风是全向麦克风。

本发明的设备可以在这些情况下尤为有利，这是因为在使用全向麦克风时源分离问题本身要困难得多。如果麦克风是单向的，则在多种音频信号当中，在源之间有很大的选择性(在信号功率方面)。这可以使操纵任务更容易。本发明的设备还可以与全向麦克风一起工作，其中在原始音频信号中将有更小的选择性。因此本发明的设备更灵活。例如，本发明的设备可以利用波束形成技术来使用空间选择性，然而通过使用单向麦克风，本发明的设备不限于空间选择性。

根据本发明的另一方面，提供了一种处理音频信号的方法，包括：

接收在相应麦克风处检测到的一个或多个音频信号，每个音频信号包括多个分量的混合，每个分量与声源相对应；

针对每个声源接收与所述声源相关联的期望增益因子，期望通过所述期望增益因子来放大相应分量；

从所述一个或多个音频信号中产生至少一个辅助信号，其中，与所述一个或多个音频信号中的基准音频信号相比，所述至少一个辅助信号包括分量的不同混合；

根据期望增益因子和所述不同混合的参数来计算缩放系数集合，每个缩放系数与所述至少一个辅助信号和可选地基准音频信号中的一个相关联；以及

通过对所述至少一个辅助信号和可选地基准音频信号施加缩放系数并将结果相组合，来合成输出音频信号；

所述不同混合的参数可以是重新加权因子，所述重新加权因子将所述至少一个辅助信号中分量的级别与基准音频信号中所述分量的相应级别相关。

该方法与具有多于一个麦克风的配置尤为相关。在每个麦克风处检测来自所有声源的声音。因此，每个声源在每个音频信号中产生相应的分量。声源的数目可以小于、等于或大于音频信号的数目(音频信号的数目等于麦克风的数目)。音频信号的数目与辅助信号的数目之和应当至少等于期望单独控制的源的数目。

每个辅助信号包含分量的不同组合。即，在每个辅助信号中，(根据重新加权因子)分量以不同的幅度出现。换言之，辅助信号和音频信号应当线性无关；将信号分量与每个辅助信号相关的重新加权因子集合也应当彼此线性无关。

显式的源分离不是必须的。优选地，相对于基准音频信号中源信号分量的级别，辅助信号中源信号分量的级别变化了-40dB到+60dB范围内的功率比，更优选地所述功率比在-30dB到0dB的范围内，甚至更优选地在25dB到0dB范围内。

在合成输出信号的步骤中，优选地向基准原始音频信号施加缩放系数并将结果与缩放后的辅助信号相组合。

可以通过求和来组合缩放后的辅助信号和/或缩放后的音频信号。

通常，在实践中缩放系数和期望增益因子会具有不同的值(并且可以在数目上不同)。只有在辅助信号用于实现源的理想分离的情况下缩放系数和期望增益因子的值才相同，而这在实际中通常是不可能的。每个期望增益因子与相应的一个声源的期望音量(幅度)相对应。另一方面，缩放系数与辅助信号和/或输入音频信号相对应。重新加权因子的数目等于信号分量的数目与辅助信号的数目的乘积，这是因为通常每个辅助信号包括所有音频分量的混合。

优选地，通过线性方程组使期望增益因子、重新加权因子和缩放系数相关；并且计算缩放系数集合的步骤包括对方程组求解

例如，计算缩放系数集合的步骤可以包括：计算重新加权因子的矩阵的逆；以及将期望增益因子与该逆计算的结果相乘。

可以用重新加权因子构成矩阵，并显式地计算该矩阵的逆。备选地，可以通过等同的线性代数计算来隐式地计算逆。逆计算的结果可以表示为矩阵，然而这并不是必须的。

所述至少一个辅助信号可以是以下信号中任何信号的线性组合：音频信号中的一个或多个；音频信号的一个或多个偏移版本；以及音频信号的一个或多个滤波版本。

所述至少一个辅助信号可以是通过以下操作中的至少一个操作来产生的：固定波束形成；自适应波束形成；以及自适应谱修改。

因此，固定波束形成意味着具有时不变空间响应的空间选择性信号处理操作。自适应波束形成意味着具有时变空间响应的空间选择性信号处理操作。自适应谱修改意味着具有时变频率响应的频率选择性信号处理操作，例如，现有技术中已知为自适应谱衰减或自适应谱减小的方法类型。自适应谱修改过程典型地不使用空间分集(spatialdiversity)，而是仅使用信号分量之中的频率分集。

上述是创建辅助信号的方式的有利示例。当预先期望一个或多个声源局限于沿着相对于麦克风集合的预定方向并且沿该预定方向定位时，则固定波束形成可以是有利的。固定波束形成将相对于其他信号分量而修改相应信号分量的功率。

当期望定位的声源但不知道该声源相对于麦克风的方位时，自适应波束形成可以是有利的。

当可以在某种程度上按照声源的谱特性来区别声源时，自适应谱修改(例如，通过衰减)可以是有用的。例如，这种情况可以适用于扩散噪声源。

优选地，根据给定应用中的期望声音环境，来选择产生一个或多个辅助信号的方法。例如，如果期望沿已知方向的若干源，则使用多个固定波束形成器可以是合适的。如果期望多个移动的声源，则多个自适应波束形成器可以是有利的。这样，对于本领域技术人员显而易见的是，在实施例中，产生辅助信号的不同装置的一个或多个实例是可以相组合的。

可选地，通过第一种方法来产生第一辅助信号；通过不同的第二种方法产生第二辅助信号；以及基于第一种方法的输出来产生第二辅助信号。

例如，固定波束形成可以适于强调直接在麦克风或麦克风阵列前方产生的源。例如，这在麦克风与摄像机一起使用的情况下可以是有用的，因为摄像机可能瞄准作为声源之一的目标(因此麦克风也可能瞄准作为声源之一的目标)。

可以将固定波束形成器的输出输入至自适应波束形成器。这可以是固定波束形成器的噪声基准输出，其中，减小来自固定方向的分量相对于其他分量的功率比。有利地，在自适应波束形成器中使用该信号，以寻找方向未知的(其余的)定位源，这是因为可以减小自适应波束形成器抑制固定信号的负担。

可以将自适应波束形成器的输出输入至自适应谱修改。

典型地，波束形成器和自适应谱衰减器的选择性都不足以从混合信号中分离出单独的源。在这种情况下，本发明的方法可以被看作是一种灵活的架构，以将弱分离器相组合，从而允许对声源进行任意的期望的加权。优选地，波束形成或谱修改的单独操作引起单独声源分量的信号功率在-25dB到0dB范围内的变化。这涉及每个操作的输入/输出功率比，而忽略了由于一个单元的输出与另一个单元的输入相连而引起的级联效应。

可选地，该方法可以包括：通过对第一基准音频信号和至少一个第一辅助信号施加缩放系数并将结果相组合，来合成第一输出音频信号；以及通过对不同的第二基准音频信号和至少一个第二辅助信号施加缩放因子并将结果相组合，来合成第二输出音频信号。

这对于产生双耳(例如，立体声)输出来说是尤为有用的。所述至少一个第一辅助信号和至少一个第二辅助信号可以是相同或不同的信号。应当从合适地布置的麦克风中选择两个不同的基准音频信号，以实现期望的立体声效果。

以类似的方式，方法可以扩展为根据任何具体应用的需要，合成任意的更多数目的输出。

声源可以包括一个或多个定位声源以及扩散噪声场。

期望增益因子可以是时变的。

方法尤为适于实时实现方式，这意味着可以动态地调节期望增益因子。这例如对于动态平衡变化的声源或者对于声学缩放而言是有用的。

在由多个期望的声源组成的声音场景中，通常遇到的问题是，在麦克风记录中没有充分地平衡不同声源的级别，例如，在一个声源距离麦克风阵列比其他声源都近的情况下。在静态场景中，可以使用时不变增益因子来平衡声音场景，而在动态场景中(即，具有运动的或时间调制的声源的场景中)，使用时变增益因子更为合适。

可以根据视觉缩放功能的状态来选择期望增益因子。

在进行联合音频与视频记录的应用中(例如，摄像放像机(camcorder)或视频电话应用)，可以有利的是，对记录中的听觉和视觉线索(auditory and visual cues)进行匹配，以获得更容易和/或更快速的多种感觉整合(multisensory integration)。关键的示例是操纵声音场景使得声音场景与视频缩放操作适当地匹配的过程。例如，当对具体对象进行放大时，该对象的声级应当相应地提高，而其他声源的级别保持不变。在这种情况下，与摄像器前方的声源相对应的期望增益因子将会随时间而增大，而其他增益因子是时不变的。

还提供了一种包括计算机程序代码装置的计算机程序，所述计算机程序代码装置适于在所述程序运行于计算机上时执行上述方法的所有步骤，这种计算机程序体现在计算机可读介质上。

附图说明

现在将参考附图通过示例来描述本发明，其中：

图1示出了根据实施例的音频处理设备的框图；

图2更详细示出了适合于图1的实施例的单耳实现方式的辅助信号发生器和音频合成单元；

图3更详细示出了适于图1的实施例的双耳实现方式的辅助信号发生器和音频合成单元；以及

图4是根据实施例的方法的流程图。

具体实施方式

在下文中，首先将给出根据实施例的方法的理论说明，并指出了该理论可以用于声音场景操纵的条件。

考虑在三维平面中由沿不同方向布置的M个定位声源组成的声音场景s_m(t)，m＝1，...，M(由方位-仰角对(θ_m，φ_m)，m＝1，...，M来表征)以及不能由单个声源或方向引起的扩散声场。除此之外，考虑由N个麦克风(N≥2)组成的具有任意三维几何结构的麦克风阵列。每个麦克风具有不同的频率相关和角度相关响应，如由以下等式定义的：

A_{n} (ω, θ, φ) = a_{n} (ω, θ, φ) e^{- j ψ_{m} (ω, θ, φ)}, n = 0, . . ., N - 1 . - - - (1)

与每个麦克风成角度(θ，φ)的声源的声学响应(包括直接路径时间延迟和混响的效果)由以下等式给出：

F_{n} (ω, θ, φ) = f_{n} (ω, θ, φ) e^{- j ξ_{n} (ω, θ, φ)},

n＝0，...，N-1. (2)

为了易于符号表示，给出了由以下等式定义的联合声学和麦克风响应：

G_n(ω，θ，φ)＝A_n(ω，θ，φ)F_n(ω，θ，φ)，n＝0，...，N-1.(3)

通过使用上述定义，可以如下根据定位声源和频域中的扩散声场来表示在麦克风处检测到的N个音频信号U_n(ω)中的每一个：

其中

表示扩散噪声分量。上述关系式可以等效地在时域中写成如下形式：

u_{n} (t) = u_{n}^{(0)} (t) + Σ_{m = 1}^{M} u_{n}^{(m)} (t) . - - - (5)

预想的声音场景操纵的目的是产生N个操纵信号或音频输出信号ζ_n(t)，其中单独声源分量的每个级别相对于第n麦克风信号中的各个级别以用户指定的方式改变。数学上，目的是产生以下信号：

ζ_{n} (t) = g_{n}^{(0)} (t) u_{n}^{(0)} (t) + Σ_{m = 1}^{M} g_{n}^{(m)} (t) u_{n}^{(m)} (t), n = 0, . . ., N - 1 - - - (6)

其中

m＝0，...，M表示针对不同声源分量的用户指定的时变增益。下文中，这些时变增益称作“期望增益因子”。

假定可以产生M个辅助信号

p＝1，...，M，其中相对于麦克风信号u_n(t)中的相应分量对不同声源分量进行任意地重新加权，即：

x_{n}^{(p)} (t) = Σ_{m = 0}^{M} γ_{n}^{(p, m)} u_{n}^{(m)} (t) - - - (7)

本文中，将每个重新加权因子定义为等于相应声源分量的功率比的平方根，即：

γ_{n}^{(p, m)} = \frac{σ_{x_{n}^{(p)}}}{σ_{u_{n}^{(m)}}} = \sqrt{\frac{E {{(x_{n}^{(p)})}^{2}}}{E {{(u_{n}^{(m)})}^{2}}}} . - - - (8)

现在可以将第n操纵信号(输出音频信号)计算为第n麦克风信号与以上定义的辅助信号

p＝1，...，M的加权和，即：

ζ_{n} (t) = a_{n}^{(0)} (t) u_{n} (t) + Σ_{p = 1}^{M} a_{n}^{(p)} (t) x_{n}^{(p)} (t) . - - - (9)

通过使用等式(5)和(7)中的关系，如果权重

p＝0，...，M满足以下关系，则等式(9)中计算出的第n操纵信号的表达式可以被示为等同于针对等式(6)中期望的第n操纵信号的表达式：

这意味着可以计算出独有的权重轨迹集合

p＝0，...，M，

所述独有的权重轨迹集合精确地产生了期望的声音场景操纵。本文中，权重轨迹

p＝0，...，M，

也称作“缩放系数”。

根据等式(10)，精确再现任意的期望增益因子集合g_n ^(m)(t)有两个条件：

1、重新加权矩阵Γ应当是满秩的，

2、重新加权因子

应当是已知的。

一般来说，第一条件需要麦克风信号u_n(t)和辅助信号

p＝1，...，M应当是线性无关的(这导致了在Γ中的线性无关列)并且需要每个辅助信号p＝1，...，M中的不同声源分量应当是线性无关的(这导致了在Γ中的线性无关行)。如以下更详细描述的，根据本发明实施例，可以计算或估计重新加权因子。

注意，上述等式(7)是通常在实际中仅近似地满足的辅助信号的模型。在以下描述的实施例中，辅助信号将得自于各个麦克风信号。因此，辅助信号将由声源分量的滤波后版本组成，而不是由等式(7)推荐的未滤波的(“干(dry)”)声源分量组成。

如果可以精确满足等式(7)的模型，则(通过适当地选择期望的增益因子)可以实现单个声源分量的精确恢复。在以下描述的实施例中，这将需要理想的波束形成器的设计，并且需要扩散噪声与感兴趣的声源分量之间没有谱交叠，其中所述理想的波束形成器在感兴趣的声源分量的带宽内具有平坦的频率响应。实际上，通常不能满足这些限制，因此辅助信号将是原始声源分量的滤波后版本(具有非均匀频率响应)的线性组合，而不是原始声源分量的线性组合。这使得无法实现单个声源分量的精确恢复，然而这是实际实施例的缺陷，而非理论方法的缺陷。

在下文中，在不失一般性的前提下，将考虑一种示例场景，其中，假定声学环境中的声场由来自不同方位角方向的四个贡献构成：

1)前声源s_F(t)，被看做是期望的声源，(根据定义)以角度θ_F＝0位于摄像机的前方；

2)后声源s_B(t)，可以是期望的声源或者可以不是期望的声源，对应于由摄像机操作者(如果有的话)以角度θ_B＝180度产生的声音；

3)多个定位干扰声源

被看做是非期望的，源自与前向和后向不同的(未知的)方向θ_I ⁽ⁱ⁾；以及

4)扩散噪声场，并不能由单个声源或方向产生，也被看做是非期望的。

为了说明的目的，以1作为定位干扰声源的数目。此外，在该示例中，假定捕获设备配备有两个或更多个麦克风。本领域技术人员将理解，这些假设都不应构成对本发明范围的限制。

如果第n麦克风信号u_n(t)在时域中分解为：

u_{n} (t) = u_{n}^{F} (t) + u_{n}^{(B)} (t) + u_{n}^{(I)} (t) + u_{n}^{(N)} (t)

则算法的相应的期望输出可以写成如下形式：

ζ_{n} (t) = g_{F} (t) u_{n}^{(F)} (t) + g_{B} (t) u_{n}^{(B)} (t) + g_{I} (t) u_{n}^{(I)} (t) + g_{N} (t) u_{n}^{(N)} (t)

其中g_F(t)、g_B(t)、g_I(t)和g_N(t)表示针对不同声源分量的期望增益因子。注意，不必须对算法的计算N个输出信号感兴趣。典型地，关注获得单声道或立体声输出，这意味着仅需要对于n的一个或两个特定值(即n₁(和n₂))考虑以上关系。然而，典型地所有N个麦克风信号都将用于获得对两个输出信号

的估计。还应注意，在以上等式中，增益因子的符号表示中并没有包含输出信号索引n，这是因为典型地相同的增益因子将用于算法的不同输出信号。(当然，这不是必要的)。

传统上，预期算法需要执行某种源分离以隔离不同的声源分量。然而，由于并不对分离的声源分量感兴趣，而是对混合信号感兴趣，在混合信号中这些分量的级别相对于麦克风信号已被调节，所以不需要显式的源分离。将三个辅助信号表示为x_n(t)、y_n(t)和z_n(t)，其中相对于麦克风信号u_n(t)中的相应分量对不同声源分量进行任意的重新加权(利用加权因子γ)，即：

x_{n} (t) = γ_{x_{n}, u_{n}}^{(F)} u_{n}^{(F)} (t) + γ_{x_{n}, u_{n}}^{(B)} u_{n}^{(B)} (t) + γ_{x_{n}, u_{n}}^{(I)} u_{n}^{(I)} (t) + γ_{x_{n}, u_{n}}^{(N)} u_{n}^{(N)} (t)

y_{n} (t) = γ_{y_{n}, u_{n}}^{(F)} u_{n}^{(F)} (t) + γ_{y_{n}, u_{n}}^{(B)} u_{n}^{(B)} (t) + γ_{y_{n}, u_{n}}^{(I)} u_{n}^{(I)} (t) + γ_{y_{n}, u_{n}}^{(N)} u_{n}^{(N)} (t)

z_{n} (t) = γ_{z_{n}, u_{n}}^{(F)} u_{n}^{(F)} (t) + γ_{z_{n}, u_{n}}^{(B)} u_{n}^{(B)} (t) + γ_{z_{n}, u_{n}}^{(I)} u_{n}^{(I)} (t) + γ_{z_{n}, u_{n}}^{(N)} u_{n}^{(N)} (t) .

现在可以计算第n麦克风信号和以上定义的辅助信号x_n(t)、y_n(t)和z_n(t)的线性组合作为算法的输出信号，即：

ζ_{n} (t) = a_{n}^{(0)} (t) u_{n} (t) + a_{n}^{(1)} (t) x_{n} (t) + a_{n}^{(2)} (t) y_{n} (t) + a_{n}^{(3)} (t) z_{n} (t) .

这对应于以上等式(9)。等式(10)的对应形式是：

在已知重新加权因子的情况下，这使得可以计算缩放因子a。以下将更详细地描述重新加权因子的估计。在此之前，将描述本发明的两个实施例。

这两个实施例均具有图1框图中所示的一般结构。麦克风阵列4产生相应的多个音频信号6。将这些音频信号作为输入馈送至辅助信号发生器10。辅助信号发生器产生辅助信号，每个辅助信号包括由麦克风4检测到的相同声源分量的混合，但是混合中存在的分量具有不同的相对强度(与这些分量在原始音频信号6中的级别相比)。在以下描述的实施例中，通过以多种方式处理音频信号6的组合，来得到这些辅助信号。将辅助信号和输入音频信号6作为输入馈送至音频合成单元20。该单元20对信号施加缩放系数并求和，以产生输出信号40。在输出信号40中，存在具有期望强度的声源分量。这些期望强度由增益因子8来表示，增益因子8被输入至缩放系数计算器30。缩放因子计数器30将期望的增益{g(t)}转换成缩放系数集合{a(t)}。每个期望的增益与在麦克风4处可检测的声源相关联；而每个缩放系数与辅助信号之一相关联。缩放系数计算器30利用与辅助信号的参数有关的指示将期望增益{g(t)}变换成合适的缩放系数{a(t)}。

在第一实施例中，目的是获得单耳(单声道)输出信号。图2示出了算法中所需的辅助信号x_n(t)、y_n(t)和z_n(t)的计算的框图结构。

在图2中，辅助信号发生器10由三个功能块210、212、214构成：

1)固定波束形成器210：该模块的用途是对先验获知源方向(即，前声源和后声源)的声源分量执行重新加权。固定波束形成器改变这些分量相对于彼此并且相对于其他声源分量的功率比。

2)自适应波束形成器212：该模块用于对一个或多个定位干扰声源执行重新加权。这需要自适应波束形成算法，因为干扰声源方向是未知的。

3)自适应谱衰减214：该模块利用扩散噪声场关于定位声源分量的谱分集(diversity)，来对扩散噪声场进行重新加权。

音频合成单元20由虚线框220来指示。音频合成单元20产生输出信号ζ₀(t)作为辅助信号x₀、y₀和z₀以及基准音频信号u₀的加权和。权重是由缩放因子计算器30(图2中未示出)得到的缩放系数a。

注意，在图2的单声道输出情况下，一些辅助信号(更具体地，对于n＞0的x_n(t)和y_n(t))并没有显式地用于计算输出信号。然而，这些信号内部地用在自适应波束形成器和自适应谱衰减算法中。更具体地，在固定波束形成器的输出处的信号x_n(t)，n＞0将被构造为“噪声基准信号”：即，以下信号：所述信号中期望的声源(前声源和可选地后声源)已被抑制，并且所述信号随后用在自适应波束形成器中以估计固定波束形成器的初级(primary)输出信号x₀(t)中的定位干扰声源分量。然后信号y₁(t)被构造为“扩散噪声基准”，自适应谱衰减算法使用该“扩散噪声基准”来估计固定波束形成器的初级输出信号y₀(t)中的扩散噪声分量。

由于初级波束形成器输出信号x₀(t)和y₀(t)与其他波束形成器输出信号x_n(t)和y_n(t)(其中n＞0)之间的上述区别，优选地立体声输出信号应当不是通过使用这些辅助信号计算ζ₀(t)和ζ₁(t)而产生的。

相反，在第二实施例中，图3所示的框图结构用于立体声情况。本文中，如下计算立体声输出信号：

ζ_{0} (t) = a_{0}^{(0)} (t) u_{0} (t) + a_{0}^{(1)} (t) x_{0} (t) + a_{0}^{(2)} (t) y_{0} (t) a_{0}^{(3)} (t) z_{0} (t)

ζ_{1} (t) = a_{1}^{(0)} (t) u_{1} (t) + a_{1}^{(1)} (t) x_{0} (t) + a_{1}^{(2)} (t) y_{0} (t) + a_{1}^{(3)} (t) z_{0} (t)

即，使用相同的辅助信号集合来产生两个立体声输出，而在每种情况下使用不同的基准音频信号u_n(t)。这种计算由虚线框所指示的音频合成单元320来执行。

在N＞2的情况下(即，当阵列由多于两个麦克风组成时)，应当选择作为最适于传递立体声像(stereo image)的两个麦克风信号。本领域技术人员应清楚，这典型地取决于麦克风的放置。

注意，由于图5所示的特定结构，针对次级输出信号的权重计算应当略微改变，变为：

同时，对于n＝0的情况，可以如之前一样计算用于初级输出信号ζ₁(t)的权重。

如以上等式表明的，缩放系数计算器30使用与重新加权因子

有关的知识，从期望的增益g(t)得到扫描系数a(t)。在当前描述的实施例中，利用与辅助信号发生器中的不同模块210、212、214的特性有关的信息，得到重新加权因子。优选地，离线确定重新加权因子。

以下将描述对重新加权因子的计算的示例。这些示例依赖于辅助信号发生器模块210、212、214的频域特性。

如下可以在频域中描述模块结构中三个功能块的输入-输出关系。固定波束形成器可以由N×N传递函数矩阵W₁(ω)来指定，即：

X (ω) = W_{1}^{H} (ω) U (ω)

其中，

X(ω)＝[X₀(ω)...X_N-1(ω)]^T

U(ω)被定义为：

U(ω)＝[U₀(ω)...U_N-1(ω)]^T

自适应波束形成器可以由N×1传递函数向量W₂(ω)来指定，所述传递函数向量W₂(ω)定义了自适应波束形成器输入和自适应波束形成器初级输出信号之间的关系：

Y_{0} (ω) = W_{2}^{H} (ω) X (ω)

其中，

W₂(ω)＝[W_2，(1)(ω)...W_2，(N)(ω)]^T

如上所述，次级自适应波束形成器输出信号应当理想地是初级自适应波束形成器输出信号中的扩散噪声分量的估计。最直接的方法是，选择等于固定波束形成器的输出处的噪声基准之一的次级输出信号例如，Y₁(ω)＝X₁(ω)。备选地，可以尝试从次级自适应波束形成器输出信号去除定位干扰声源分量，然而本实施例中没有使用这种方法。最终可以使用标量传递函数(scalar transfer function)W₃(ω)来指定自适应谱衰减，即：

Z₀(ω)＝W₃(ω)Y₀(ω)

利用上述输入-输出关系，可以根据相应的干(dry)声源信号S_F(ω)、S_B(ω)和S₁(ω)，得出针对初级辅助信号X₀(ω)、Y₀(ω)和Z₀(ω)中不同定位声源分量的表达式，

X_{0}^{(c)} (ω) = W_{1, (: 1)}^{H} (ω) G (ω, θ_{c}) S_{c} (ω)

Y_{0}^{(c)} (ω) = W_{2}^{H} (ω) W_{1}^{H} (ω) G (ω, θ_{c}) S_{c} (ω)

Z_{0}^{(c)} (ω) = W_{3} (ω) W_{2}^{H} (ω) W_{1}^{H} (ω) G (ω, θ_{c}) S_{c} (ω)

其中c表示分量F、B或I，W_{1，(：，1)}(ω)表示W₁(ω)的第一列。类似地，可以根据麦克风信号中的扩散噪声分量来表示初级辅助信号中的扩散噪声分量，

X_{0}^{(N)} (ω) = W_{1, (: 1)}^{H} (ω) U^{(N)} (ω)

Y_{0}^{(N)} (ω) = W_{2}^{H} (ω) W_{1}^{H} (ω) U^{(N)} (ω)

Z_{0}^{(N)} (ω) = W_{3} (ω) W_{2}^{H} (ω) W_{1}^{H} (ω) U^{(N)} (ω)

现在将作出以下假设，以简化重新加权因子的计算：

1)在不同声源分量的带宽内，沿着所述不同声源分量的方向，联合声学和麦克风响应具有平坦的幅度响应(magnitude response)，即：

&ForAll; ω : S_{c} (ω) &NotEqual; 0, U_{n}^{(N)} (ω) &NotEqual; 0 &DoubleRightArrow; | G_{n} (ω, θ_{c}) | &equiv; | G_{n} (θ_{c}) |,

n＝0，...，N-1，c＝F，B，I

2)在不同声源分量的带宽内，沿着所述不同声源分量的方向，固定波束形成器和自适应波束形成器具有平坦的幅度响应，即：

&ForAll; ω : S_{c} (ω) &NotEqual; 0, U_{n}^{(N)} (ω) &NotEqual; 0 &DoubleRightArrow; \{\begin{matrix} | W_{1, (m, n)} (ω) | &equiv; | W_{1, (m, n)} |, \\ | W_{2, (n)} (ω) | &equiv; | W_{2, (n)} |, \end{matrix}

m＝1，...，N，n＝1，...，N，c＝F，B，I

3)扩散噪声频谱与不同的定位声源的频谱不交叠，

4)在定位声源的带宽内，以及在扩散噪声的带宽内，自适应谱衰减幅度响应是平坦的，

&ForAll; ω : S_{c} (ω) &NotEqual; 0 &DoubleRightArrow; | W_{3} (ω) | &equiv; | W_{3}^{(c)} |, c = F, B, I

&ForAll; ω : U_{n}^{(N)} (ω) &NotEqual; 0 &DoubleRightArrow; | W_{3} (ω) | &equiv; | W_{3}^{(N)} |, n = 0, . . ., N - 1

5)每个个麦克风信号中的扩散噪声功率相等，

σ_{u_{0}^{(N)}}^{2} = . . . = σ_{u_{N - 1}^{(N)}}^{2}

在这些假设下，如下可以估计麦克风中的不同声源分量和辅助信号的信号功率，

σ_{u_{n}^{(c)}}^{2} = {| G_{n} (θ_{c}) |}^{2} σ_{s_{c}}^{2}, n = 0, . . ., N - 1, c = F, B, I

σ_{x_{0}^{(c)}}^{2} = {| W_{1, (:, 1)}^{H} G (θ_{c}) |}^{2} σ_{s_{c}}^{2}, c = F, B, I

σ_{y_{0}^{(c)}}^{2} = {| W_{2}^{H} W_{1}^{H} G (θ_{c}) |}^{2} σ_{s_{c}}^{2}, c = F, B, I

σ_{z_{0}^{(c)}}^{2} = {| W_{3}^{(c)} |}^{2} {| W_{2}^{H} W_{1}^{H} G (θ_{c}) |}^{2} σ_{s_{c}}^{2}, c = F, B, I

σ_{x_{0}^{(N)}}^{2} = {| | W_{1, (: 1)} | |}_{2}^{2} σ_{u_{0}^{(N)}}^{2}

σ_{y_{0}^{(N)}}^{2} = {| | W_{1} W_{2} | |}_{2}^{2} σ_{u_{0}^{(N)}}^{2}

σ_{x_{0}^{(N)}}^{2} {= | W_{3}^{(N)} |}^{2} {| | W_{1} W_{2} | |}_{2}^{2} σ_{u_{0}^{(N)}}^{2}

从而可以如下计算重新加权因子：

γ_{x_{0}, u_{n}}^{(c)} = \frac{| W_{1, (:, 1)}^{H} G (θ_{c}) |}{| G_{n} (θ_{c}) |}, n = 0, . . ., N - 1, c = F, B, I

γ_{y_{0}, u_{n}}^{(c)} = \frac{| W_{2}^{H} W_{1}^{H} G (θ_{c}) |}{| G_{n} (θ_{c}) |}, n = 0, . . ., N - 1, c = F, B, I

γ_{z_{0}, u_{n}}^{(c)} = \frac{| W_{3}^{(c)} | | W_{2}^{H} W_{1}^{H} G (θ_{c}) |}{| G_{n} (θ_{c}) |}, n = 0, . . ., N - 1, c = F, B, I

γ_{x_{0}, u_{n}}^{(N)} = {| | W_{1, (:, 1)} | |}_{2}, n = 0, . . ., N - 1

γ_{y_{0}, u_{n}}^{(N)} = {| | W_{1} W_{2} | |}_{2}, n = 0, . . ., N - 1

γ_{z_{0}, u_{n}}^{(N)} = | W_{3}^{(N)} | {| | W_{1} W_{2} | |}_{2}, n = 0, . . ., N - 1

最后，从计算的角度注意到，在一些应用中，可能不希望使用先前的公式来在线(实时)计算重新加权因子。更有效的方法包括：利用固定波束形成器响应(先验知道的)以及与自适应波束形成器的行为和谱衰减响应有关的启发(heuristics)，来离线(提前)设置重新加权因子的值。所述值可以被选择为对上述等式预测的理论值的近似。例如，可以启发式地以5dB步长(step)设置所述值。在许多应用中，该方法对于与精确理论值的5dB或10dB偏差很不敏感。

现在将描述示例实施例中的固定波束形成器的设计。

如上所述，固定波束形成器产生初级输出信号X₀(ω)以及多个其他输出信号X_n(ω)(其中n＞0)，所述初级输出信号X₀(ω)空间上增强前声源信号，所述多个其他输出信号X_n(ω)(其中n＞0)用作自适应波束形成器的“噪声基准”。本文中，首先讨论所谓的前源波束形成器(FSB)的设计，然后说明所谓的分块矩阵(BM，blocking matrix)的设计。

根据想要针对前声源实现的空间增强类型，可以对FSB采用不同的固定波束形成器设计方法；例如，阵列模式合成(arrary patternsynthesis)方法，或者差分或超方向性(superdirective)设计方法。这些方法自身是现有技术中已知的。在本实施例中，采用超方向性(SD)设计方法，当目的是在存在扩散噪声场的情况下使麦克风阵列的方向性因子最大化(即，使阵列增益最大化)时，超方向性(SD)设计方法是值得推荐的。对于FSB的频域SD设计等式可以参见S.Doclo和M.Moonen的(“Superdirective beamforming robust against microphonemismatch，”IEEE Trans.Audio Speech Lang.Process.，vol.15，no.2，pp.617-631，Feb.2007)：

W_{1, (:, 1)} (ω) = \frac{{({\tilde{Φ}}_{U}^{(N)} + μ I_{N})}^{- 1} G (ω, θ_{F})}{G^{H} (ω, θ_{F}) {({\tilde{Φ}}_{U}^{(N)} + μ I_{N})}^{- 1} G (ω, θ_{F})}

其中G(ω，θ_F)表示前声源导引向量(steering vector)，

G(ω，θ)＝[G₀(ω，θ)...G_N-1(ω，θ)]^T

I_N表示N×N单位矩阵，μ是正则化参数(regularization parameter)，

表示归一化扩散噪声相关矩阵，可以如下根据联合声学和麦克风响应来计算

其中

{\tilde{Φ}}_{U_{m}, U_{n}}^{(N)} = \frac{1}{2 π} {&Integral;}_{0}^{2 π} G_{m} (ω, θ) G_{n}^{*} (ω, θ) dθ

如下定义SD波束形成器的方向性因子(DF)和前后响应比(FBRR，ratio of the front and back response)：

DF [dB] = 10 \log_{10} (\frac{1}{2 π} {&Integral;}_{0}^{2 π} \frac{{| W_{1, (: 1)}^{H} (ω) G (ω, θ_{F}) |}^{2}}{W_{1, (:, 1)}^{H} (ω) {\tilde{Φ}}_{U}^{(N)} W_{1, (:, 1)} (ω)} dω)

FBRR [dB] = 10 \log_{10} (\frac{{&Integral;}_{0}^{2 π} {| W_{1, (:, 1)}^{H} (ω) G (ω, θ_{F}) |}^{2} dω}{{&Integral;}_{0}^{2 π} {| W_{1, (:, 1)}^{H} (ω) G (ω, θ_{B}) |}^{2} dω}) .

DF相对于FSB滤波器长度而言是近似恒定的，FBRR随着滤波器长度的变大而增大，并且对于大于或等于128的长度而近似饱和。注意，在以奈奎斯特间隔均匀分布的L_FSB/2频率下执行频域SD设计，此后将频域FSB系数变换到长度-L_FSB时域滤波器。示例还示出了2-麦克风配置与麦克风数量大于2的其他配置之间在方向性和FBRR这两方面的显著性能差异(performance gap)。

固定波束形成器中的BM由多个滤波与求和波束形成器(filter-and-sum beamformer)组成，其中每个滤波与求和波束形成器对麦克风信号的一个特定的子集进行操作。这样，产生多个噪声基准信号，其中，相对于麦克风信号中分量的功率，最大地减小了期望信号分量的功率。典型地，在N-麦克风配置中，通过设计N-1个不同的滤波与求和波束形成器来产生N-1个噪声基准。然而，在一些情况下，可以优选地产生少于N-1个噪声基准，这可以使得针对自适应波束形成器的输入信号x_n(t)的数目减小。实际上，在该实施例中，采用由仅一个滤波与求和波束形成器组成的BM，其中使用可用麦克风信号的完全集来设计所述仅一个滤波与求和波束形成器。这样，可以显著地减小自适应滤波器的数目，从而显著降低自适应波束形成器的计算复杂度。

关于BM设计，将后声源(如果有的话)看作是不期望的信号(可以由自适应波束形成器消除)；因此BM设计缩减为前消除波束形成器(FCB，front-cancelling beamformer)设计。同样，可以采用若干不同的固定波束形成器设计方法中的一种方法。在该实施例中，使用与已有方法不同的阵列模式合成方法。

通常，利用以下线性方程组以角度集合{θ₀，...，θ_M-1}指定频域FCB设计：

其中P_m(ω)，m＝0，...，M-1表示在频率ω和角度θ_m下的期望的响应。最小平方(LS)优化方案由以下等式给出：

W_{1, (:, 2)} (ω) = {[\overset{&OverBar;}{G} (ω) {\overset{&OverBar;}{G}}^{H} (ω)]}^{- 1} \overset{&OverBar;}{G} (ω) P^{*} (ω)

更具体地，为了获得FCB设计，应当指定沿前向的零响应和沿任何其他方向的非零响应。优选地，所述任何其他方向应当是后向，以避免设计实际上对应于前后消除波束形成器(front-back-cancellingbeamformer)设计。因此，以上线性方程组中方程的数目是M＝2，规定角度(specification angle)对应于θ₀＝θ_F和θ₁＝θ_B。最后，期望的响应向量等于P^*(ω)＝[0，1]^H。

采用这种设计，对于大多数麦克风配置和滤波器长度值，后响应(back response)接近单位响应。然而，前源响应随着所使用的麦克风配置和滤波器长度而变化显著。重要的是，优选地阵列中应当包含端射式(endfire)配置下的至少一个麦克风对，以获得令人满意的前声源分量功率的降低。关于BM滤波器长度的选择，经验表明并不存在清晰的阈值效应，即，沿前向的响应以近似恒定的斜率减小(假定包含端射式麦克风对)。因此，优选地，应当根据期望的前声源功率减小来选择BM滤波器长度。

现在将描述示例实施例中自适应波束形成器的设计。

可以使用通用旁瓣消除器(GSC，generalized sidelobe canceller)算法、多通道维纳滤波(MWF)算法、或任何其他自适应算法来实现方框图中的自适应波束形成器。在该实施例中，采用语音失真加权多通道维纳滤波(SDW-MWF，speech-distortion-weighted multi-channelWiener filtering)，SDW-MWF包括GSC和MWF作为特殊情况。方法的详细描述可以参见S.Doclo，A.Spriet，J.Wouters和M.Moonen的(“Frequency-domain criterion for the speech distortion weightedmultichannel wiener filter for robust noise reduction，”Speech Commun.，vol.49，no.7-8，pp.636-656，Jul.-Aug.2007，special Issue on SpeechEnhancement)。

SDW-MWF的目的是同时减小增强信号Y₀(ω)中的不期望分量(B，I，N)的能量和期望分量(F)的失真。即，

\min_{W_{2} (ω)} E {| W_{2}^{H} (ω) [X^{(B)} (ω) + X^{(I)} (ω) + X^{(N)} (ω) {] |}^{2}} + \frac{1}{μ} E {{| X_{0}^{(F)} (ω) - W_{2}^{H} (ω) X^{(F)} (ω) |}^{2}}

从而产生自适应波束形成器估计：

W₂(ω)＝[Φ_x ^(F)(ω)+μΦ_x ^(B，I，N)(ω)]^-1Φ_x ^(F)(ω)e₀

其中，如下定义自适应波束形成器输入信号的期望分量和不期望分量的相关矩阵：

Φ_x ^(F)(ω)＝E{[X^(F)(ω)][X^(F)(ω)]^H}

Φ_x ^(B，I，N)(ω)＝E{[X^(B)(ω)+X^(I)(ω)+X^(N)(ω)][X^(B)(ω)+X^(I)(ω)+X^(N)(ω)]^H}

可以调谐参数μ，以在不期望分量的能量减小与期望分量的失真之间加以权衡。提出了SDW-MWF滤波器估计的多种递归实现方式，其中自适应SDW-MWF滤波器更新基于广义奇异值分解(GSVD，generalized singular value decomposition)、QR分解(QRD)、时域随机梯度方法(time-domain stochastic gradient method)、或频域随机梯度方法。这些实现方式的共同特征是，在计算SDW-MWF滤波器估计之前显式地估计相关矩阵Φ_x ^(F)(ω)和Φ_x ^(B，I，N)(ω)。

在具有两个定位声源的情况下评估了SDW-MWF自适应波束形成器所提供的信噪比(SNR)改善，所述两个定位声源是：由男性语音信号(θ_F＝0)组成的前声源，以及由音乐信号(θ_I＝90度)组成的定位干扰声源。

麦克风处的平均SNR等于10dB。利用针对FSB的SD设计和针对BM的前消除设计来实现固定波束形成器，并且针对L_FSB＝L_BM＝64以及L_FSB＝L_BM＝128来进行评估。SDM-MWF算法的适应基于随机梯度频域实现方式，通过理想的(手动的)话音活动性检测(VAD，voice activitydetection)来控制SDM-MWF算法的适应。评估了SDM-MWF的两个特征：

1)前馈滤波器W_2，(1)(ω)的使用，以在自适应波束形成器中包括固定波束形成器初级输出信号X₀(ω)作为附加噪声基准；以及

2)SDW-MWF权衡参数1/μ的值(其中1/μ＝0意味着没有惩罚(penalization)期望分量失真)。

应注意，在没有惩罚期望分量失真的情况下(1/μ＝0)，没有采用前馈滤波器的算法对应于GSC算法，而由于不可容忍的语音失真，采用前馈滤波器的算法是不恰当的。评估表明，GSC算法和具有较小权衡参数(1/μ＝0.01)的SDW-MWF算法非常适合于减小定位干扰声源功率。此外，麦克风的数目以及FSB和BM滤波器长度看似对自适应波束形成性能没有显著影响。

现在将描述示例实施例中自适应谱衰减过程的设计。

G_{inst} (ω_{k}, l) = \frac{| U_{0} (ω_{k}, l) | - β_{n} \hat{C} (ω_{k}, l) | {\hat{Y}}_{1} (ω_{k}, l) |}{| {\hat{Y}}_{0} (ω_{k}, l) | + ϵ}

其中减法因子β_n∈[0，1]确定谱衰减的量，正则化因子ε是防止被零除的小常数。由于次级自适应波束形成器输出信号Y₁(ω)等于固定波束形成器的输出处的噪声基准X₁(ω)，所以需要估计将初级和次级固定波束形成器输出信号中的扩散噪声分量的幅度谱相关的谱相干函数C(ω_k，l)，并在等式中考虑该谱相干函数C(ω_k，l)。然后在将等式的瞬时增益函数应用于语音估计之前，对等式的瞬时增益函数进行低通滤波和限幅，即：

G_1p(ω_k，l)＝(1-α)G_1p(ω_k，l-1)+αG_inst(ω_k，l)

G(ω_k，l)＝max{G_1p(ω_k，l)，ξ_n}

|Z(ω_k，l)|＝G(ω_k，l)|Y₀(ω_k，l)|

其中α表示低通滤波器极点，ξ_n＝1-β_n是限幅级别。通过应用逆DFT(IDFT)，以及通过使用初级自适应波束形成器输出信号Y₀(ω_k，l)的相位谱，将增强的信号幅度谱|Z(ω_k，l)|实质上变换回时域。

现在将描述声学缩放(AZ，Acoustic Zoom)应用中实施例的示例使用。

1)时变增益因子的规定：在AZ应用中，目的是使不期望的声源的级别保持恒定，而期望声源的级别应当适于摄像机缩放状态。因此，应当如下设置针对定位干扰声源和扩散噪声的增益因子：

g_I(t)≡1

θ_N(t)≡1

根据前声源级别的上述放大轨迹的初步结果，注意可以设计在感知上更良好的轨迹。更具体地，期望在放大操作的起始处级别提高得更快，最终在关闭处收敛至相同的最终级别。发现感知上更吸引人的级别轨迹是：

g_{F} (t) = 1 + \frac{2^{d_{zoom}} - 1}{\sqrt{1.2 d_{zoom}}} \sqrt{1.2 {&upsi;}_{zoom} t}, 0 \leq t \leq \frac{d_{zoom}}{{&upsi;}_{zoom}}

关于后声源增益因子的规定，存在多种可能性。第一种可能性是将后声源看做是不期望的声源，在这种情况下，后声源的级别应当保持恒定。然而由于后声源典型地非常靠近摄像机，所以后声源的级别应当通常被减小以获得后声源与其他声源之间的可接受的平衡。第二种可能性是使后声源增益因子遵循前声源增益因子的逆向轨迹，可以伴随固定后声源级别降低。尽管这种逆向级别轨迹从物理的观点来看显然是有意义的，然而可能在某种程度上让人感觉太假，这是因为视觉线索(visual cues)支持前声源级别变化，但不支持后声源变化。

已进行了实验来验证AZ算法的性能。在两种实验中，前声源是对应于摄像机记录的男性语音信号，所述摄像机记录包括远距离拍摄阶段(5s)、放大阶段(10s)和关闭阶段(11s)。此外，声场包括扩散多路串扰噪声(diffuse babble noise)和在θ_I＝90度处的定位干扰音乐源。在第一仿真中不存在后声源，而在第二仿真中，在后向方向上(θ_B＝180度)存在女性语音信号。

使用3-麦克风阵列，所述3-麦克风阵列采用图1所示的麦克风1、3和4。固定波束形成器包括超方向性FSB和单噪声基准前消除(single-noise-reference front-cancelling)BM，二者均具有滤波器长度64。使用GSC算法来计算自适应波束形成器，所述自适应波束形成器具有滤波器长度128。期望的AZ效应在于，根据上述感知上最优的轨迹，使不期望的声源(在第二仿真中，包括后声源)的级别保持不变，而在放大阶段期间提高前声源的级别。

在这些实施例中，经验地预先确定重新加权因子的值，而不是在运行时间确定(如上所述)。

本领域技术人员应清楚，方法的性能部分地取决于重新加权因子可以被估计到的精度。精度越高，操纵的性能将越好。

图4示出了概述根据实施例的方法的流程图。在步骤410，从麦克风4接收音频信号6。在步骤420，输入期望的增益因子8。在步骤430，辅助信号发生器产生辅助信号。在步骤440，缩放系数计算器30计算缩放系数a(t)。最后，在步骤450，音频合成单元20对产生的辅助信号和基准音频信号施加缩放系数，以合成输出音频信号40。

尽管在附图和以上描述中详细示出和描述了本发明，然而这种示出和描述应当被看作是说明性的或示例性的，而非限制性的；本发明不限于所公开的实施例。

例如，本发明可以用在使用不同模块来产生辅助信号的实施例中。上述示例模块(固定或自适应波束形成、或自适应谱修改)可以由其他方法来替代或补充。实际上，辅助信号计算应当使得可以利用声音场景中各个单独声源的分集。当使用多个麦克风时，利用空间分集通常是最直接的选择，在上述实施例中波束形成器利用这种空间分集。然而同样可以利用不同类型的分集，例如：在时域中的分集(如果并不是所有声源都同时在用的话；在统计上的分集(这使得可以使用维纳滤波、单独分量分析、等等)；或者在稳定性(非稳定性)程度的分集。辅助信号发生器的最优选择将根据应用和音频环境的特性而改变。

本文的实施例中描述的和附图中示出的模块的顺序也不限制本发明的范围。模块可以被去除、重新排序或复制。

同样，尽管本文中描述的实施例集中于单耳或立体声实现方式，然而本发明必然可以利用数目多于仅一个或两个的音频输出信号来实现。本领域技术人员根据以上描述容易想到提供任意数目的期望输出。这例如对于多通道或环绕声音频应用而言是有用的。

通过阅读附图、说明书和所附的权利要求，本领域技术人员在实践要求保护的本发明的过程中，可以理解和实现所公开的实施例的其他变型。在权利要求中，词语“包括”并不排除其他元件或步骤，不定冠词“一种”或“一”不排除多个。单个处理器或其他单元可以实现权利要求中所列的若干项目的功能。在互不相同的从属权利要求中阐述特定的措施并不表明不能有利地使用这些措施的组合。可以在与其他硬件一起提供或作为其他硬件的一部分的合适介质(例如，光学存储介质或固态介质)上存储/分布计算机程序，计算机程序也可以以其他形式分布，例如经由互联网或其他有线或无线电信系统来分布。权利要求中的任何参考标记都不应构成对范围的限制。

Claims

1.一种音频处理设备，包括：

其中，缩放系数是根据期望增益因子和所述不同混合的参数来计算的，使得合成的输出信号为每个分量提供期望增益因子。

2.一种手持个人电子设备，包括：

多个麦克风；以及

根据权利要求1所述的音频处理设备。

3.根据权利要求2所述的移动或手持设备，其中，麦克风是全向麦克风。

4.一种处理音频信号的方法，包括：

5.根据权利要求4所述的方法，其中，所述不同混合的参数是重新加权因子，所述重新加权因子将所述至少一个辅助信号中分量的级别与基准音频信号中所述分量的相应级别相关。

6.根据权利要求5所述的方法，其中：

通过线性方程组将期望增益因子、重新加权因子和缩放系数相关；以及

计算缩放系数集合的步骤包括对方程组求解。

7.根据权利要求4至6中任一项所述的方法，其中，所述至少一个辅助信号是以下信号中任何信号的线性组合：

一个或多个音频信号；

音频信号的一个或多个时移版本；以及

音频信号的一个或多个滤波版本。

8.根据权利要求4至7中任一项所述的方法，其中，所述至少一个辅助信号是通过以下操作中的至少一个操作来产生的：

固定波束形成；

自适应波束形成；以及

自适应谱修改。

9.根据权利要求4至8中任一项所述的方法，其中：

通过第一方法产生第一辅助信号；

通过不同的第二方法产生第二辅助信号；以及

基于第一方法的输出来产生第二辅助信号。

10.根据权利要求4至9中任一项所述的方法，包括：

通过对第一基准音频信号和至少一个第一辅助信号施加缩放系数并将结果相组合，来合成第一输出音频信号；以及

通过对不同的第二基准音频信号和至少一个第二辅助信号施加缩放因子并将结果相组合，来合成第二输出音频信号。

11.根据权利要求4至10任一项所述的方法，其中，声源包括一个或多个定位声源和扩散噪声场。

12.根据权利要求4至11中任一项所述的方法，其中，期望增益因子是时变的。

13.根据权利要求4至12中任一项所述的方法，其中，期望增益因子是根据视觉缩放功能的状态来选择的。

14.一种计算机程序，包括计算机程序代码装置，所述计算机程序代码装置适于在所述程序运行于计算机上时执行权利要求4至13中任一项所述的所有步骤。

15.根据权利要求14所述的计算机程序，所述计算机程序具体实现在计算机可读介质上。