CN112313524A

CN112313524A - 给定声学环境中声源的定位

Info

Publication number: CN112313524A
Application number: CN201980039526.1A
Authority: CN
Inventors: A.盖林; S.卡蒂克; A.莱福特
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2018-06-13
Filing date: 2019-06-07
Publication date: 2021-02-02
Also published as: US20210256990A1; FR3081641A1; WO2019239043A1; EP3807669B1; US11646048B2; EP3807669A1

Abstract

本发明涉及声学信号的处理，以便检测声音场景中的一个或多个声源，所述方法包括：‑获得由预定义位置处的多个麦克风所捕获的表示声音场景的多个信号，‑基于由麦克风捕获的信号和麦克风的位置，应用对声强的方向测量的量化，并在声源定位空间中建立对应的声学活动图，所述空间具有维度N。具体地，该方法还包括：‑构造维度小于N的至少一个矢量基，‑将声学活动图投影到所述矢量基的至少一个轴上，以及‑在所述图投影中搜索声学活动的至少一个局部峰值，标识的局部峰值对应于所述场景中声源的存在。

Description

给定声学环境中声源的定位

技术领域

本发明涉及音频或声学信号处理的领域。

更具体地说，其涉及在至少两个维度(方位/俯仰)上对同时声源的定位，或者如下所述的“声音映射”。

背景技术

可以基于多通道声音捕获来执行这种定位，该多通道声音捕获可以采用平面或球面栅格的形式。

存在对于声音场景的映射的许多应用。

这些应用包括，例如家庭语音助手，其中扬声器的定位对于通过利用天线的聚焦能力来清理语音命令信号是至关重要的。(多个)噪声源的同时定位将允许通过使用合适的空间频率滤波器来进一步改进噪声抑制处理。

对于虚拟现实内容(例如360/VR)，根据已知为“环绕声”或“立体混响声(ambisonic)”的技术来执行用于创建这种内容的优选声音捕获。其允许提供声场的3D表示，并因此保证用户移动期间的视听一致性。创建此内容需要编辑，这基于知道源在内容中的位置，以便增强/减弱这些源、移动这些源、或采取其他行动。

此外，新一代音频编码器必须支持环绕声(3D球面)格式的数据，以下称为“立体混响声”格式。类似地，(用于沉浸式语音和音频服务的)3GPP EVS未来编解码器IVAS必须能够压缩立体混响声格式的数据。可以使用实时映射来更有效或更忠实地原生(natively)压缩这些3D场景，例如通过聚焦于感兴趣的源。

此外，在视频会议中，麦克风阵列与一个或多个广角摄像机耦合。麦克风阵列可以用于空间地捕获声音场景，以便经由扬声器集合在远程站点再现该声音场景。麦克风阵列还可以用于通过检测和定位活动声源，来控制摄像机对说话方进行放大。因此，期望具有对声学条件鲁棒的近瞬时检测，以及在空间内对说话方的跟踪，这将使得在视觉上跟随所述说话方成为可能。另一方面，对几个同时源的检测也使得使行为适应声音场景的复杂性成为可能，诸如如果几个源同时活动，则激活广角视图。最后，对源的定位使得(例如通过已知为“波束形成”的技术)计算空间滤波器以通过降低环境噪声来清理有用的源成为可能。

因此，我们更一般地考虑由I个源组成的声音场景，其发射信号s_i(t),1≤i≤I。使用C个传感器(通常是麦克风)的阵列来定位声源，对于所述C个传感器，捕获的信号x_j(t),1≤j≤C由下式给出：

其中，根据定义，a_ij(τ)是将源i链接到传感器j的脉冲响应，其表示例如由声音环境的声学生成的反射。

如果我们对从源到阵列的距离不感兴趣，则可以由源相对于阵列的极坐标(方位，俯仰)来标识每个源，这些坐标表示为

如图1所示，其中麦克风阵列被引用为ANT。

定位方法基于多通道声音捕获，采用由几个麦克风组成的阵列的形式。取决于应用，阵列可以是线性的(仅在半平面内定位)、平面的(在半空间内定位)、或球面的。

第一类(family)定位方法利用传感器之间的到达时间差(或TDOA)，以推导主波的上升沿的到达方向(或DOA)，该方向直接链接到所选观测时间窗口中的主要源的位置。

通常通过传感器间互相关计算(被称为“GCC(广义互相关)”的方法)来估计这些TDOA。

限于单个源的定位，GCC方法已经被扩展到通过在频率子带中操作、利用源的频率简约性(parsimony)、并因此假设一个源在每个子带中占优势，来同时定位几个源。

被称为“MUSIC(多信号分类)”的技术允许除了其他方面之外，同时标识不同源的到达方向，前提是源的数目小于传感器的数目。通过假设可以先验地估计源的数目，MUSIC方法在最小化与噪声的矢量子空间的相关性的准则的同时，执行对到达方向的穷尽搜索。

诸如“SRP-Phat(可控响应功率相位变换)”的其他方案利用捕获阵列的波束形成能力以通过在所有空间方向上的穷尽搜索，来估计最大能量来自的方向，这些方向通常对应于源的位置。

最后，诸如“DUET(退化解混估计技术)”或DEMIX(混合矩阵的方向估计)的方法在短时间帧上计算物理定位准则。通常在应用短时快速傅立叶变换(FTT)后由子带来估计此准则，这使得利用声源的谱简约性成为可能，并因此作出在每个子带中仅存在一个源的假设。

将几个连续帧的索引集中在一起，并然后在空间栅格上进行量化，以便产生表示每个空间方向的激活图的直方图。然后通过分组或“聚类”技术(例如使用K均值算法)来处理此直方图，聚类的中心表示源的位置。

现有技术的主要限制链接到计算成本和对混响的鲁棒性之间的折衷，这使得这些技术难以在真实声学条件下实时使用。

由于其本身构造，GCC方法限于一次标识来自一个源的DOA(声音的到达方向)。但是，其对于声学条件非常敏感。事实上，混响严重干扰对传感器之间时延的估计。该方法需要(约一秒的)大窗口尺寸，来估计阵列传感器之间的互相关性。通过细分为子带而扩展到同时多源需要合理的谱分辨率，使得满足率简约性的假设(实际上小于100Hz)。

实际上，这相当于对几秒的窗口起作用，这既与移动(甚至轻微移动)中的源不兼容，又与需要对诸如语音的间歇源进行近瞬时检测的应用不兼容。

理论上，SRP类型的方法能够标识几个同时源。虽然在消声环境中的表现是可接受的，但是在混响环境中的情况大大不同。事实上，反射和混响被视为近各向同性噪声的源。因此，即使在弱混响环境中，由SRP型方法生成的能量图也是“满”的，并使得难以标识与发射源相对应的区域。由于混响，这些方法的角度分辨率低，并且即使利用高空间分辨率的阵列，也仅在各源之间的角度差大时，才可能检测到同时源。

诸如DUET或DEMIX的基于子带定位准则的直方图的方法，由于实现分组或“聚类”的处理，特别是在二维或三维中，变得相对复杂。此计算成本因源的数目未知的事实而被放大。实际上，有必要在关于源的数目的不同假设下执行聚类，以便后验判定最可能的配置，因此增加了算法的复杂度。

需要一种低复杂度的快速技术。

发明内容

本发明改进了此情况。

为此，本发明提出了一种用于处理声学信号以便检测声音场景中的一个或多个声源的方法，该方法包括：

-获得由预定义位置的多个麦克风所捕获的表示声音场景的多个信号，

-基于由麦克风捕获的信号和麦克风的位置，应用对声强的方向测量的量化，并在声源定位空间中建立对应的声学活动图，所述空间具有维度N。

具体地，该方法还包括：

-构造维度小于N的至少一个矢量基，

-将声学活动图投影到所述矢量基的至少一个轴上，以及

-在图投影中搜索声学活动的至少一个局部峰值，标识的局部峰值对应于场景中声源的存在。

因此，由于所述投影，本发明使得有可能将声学活动图的维度N减少至为减少维度N-P的研究主体，这有利地使得降低处理的复杂度和节约处理所需的计算机资源成为可能。

例如，可以使用上述DUET或DEMIX技术来获得直方图，以用于构造所述声学活动图，并具有如下所述的对增加用于源的检测或者甚至定位的处理的鲁棒性的一些改进。

通常，在图投影中搜索声学活动的局部峰值可以包括处理通过如上所述的聚类技术的那些分组，但是仅处理(多个)图投影而不是完整的图，然后将聚类中心标识为源的可能位置。

在一个实施例中，在连续帧上获得信号，其中每个帧的持续时间对应于预定观测周期，并且声学活动图的建立包括：

-收集几个连续帧的索引，以及

-在N维空间的栅格上量化所述索引。

在几个连续帧上的这种实施例使得通常在几个观测周期(或帧持续时间)上检测活动源成为可能。

例如，可以选择10ms和50ms之间的观测周期。

除了检测(多个)源之外，还可能确定源的到达方向，如下所示：

-从局部峰值的至少一个坐标(或者如果矢量基的维度大于1，则从局部峰值的几个坐标)，我们在所述矢量基上估计来自对应于此局部峰值的声源的声音的至少第一到达方向(“第一”在此用于表示“初始”)。

正如我们将在下面通过由麦克风初始捕获的信号的立体混响声表示的示例进一步看到的，可能在同样多的矢量基上进行图的几个投影。在下面所示的示例中，这些基可以具有维度1(方位角或俯仰角)。下面还进一步说明了为什么在诸如大厅的声学环境中，基于方位角的投影比基于俯仰角的投影更可靠(由于地板和天花板上的声学混响)。

因此，具体在此情况下，这可以基于在特定矢量基(维度为N-P)上的图投影中搜索局部峰值，用于源的第一粗略定位，然后在对应于此第一粗略定位的区域中的完整声学图(维度为N)中更精确地搜索源。

因此，该方法还可以包括：

-从矢量基上的局部峰值的坐标，通过处理在N维空间中的包括所述第一到达方向的仅一个扇区中的声学活动图，来细化对声音到达方向的估计。

在一个实施例中，该方法包括将由麦克风捕获的信号细分为频率子带。

这种实施例已经使得有可能具有更多的数据，并且特别是利用源的简约性，以便(希望)在每个带中仅具有一个源(因此关于声音到达方向的信息来自噪声较低的源)。

在一个实施例中，以与针对待量化的每个测量所估计的声能成比例的方式，对声强的方向测量的量化应用加权。

这种实施例使得有可能偏向于具有高能量(这说明了源的存在)的高能量频带和/或连续观测时间(从而帧)。

例如，我们可以估计每帧的声能，并对来自具有最高能量的帧的声强的方向测量的量化应用更高权重的加权。在此情况下，应用“时间加权”。

附加地或替代地，我们可以估计每个子带的能量，以便标识具有最高声能的子带，并对在具有最高能量的子带中具有更大表示的声强的方向测量的量化应用更高权重的加权。在此情况下，应用“频率加权”。

如上所述，麦克风可以被布置为捕获在立体混响声表示中以球面谐波为基础所定义的声音信号。然后我们构造至少一个一维的矢量基，其中：

-第一基，定义声音到达方向的方位角的值，并且包括方位角轴，声学活动图被投影到该方位角轴上，以及

-第二基，定义声音到达方向的俯仰角的值，并且包括俯仰角轴，声学活动图被投影到该俯仰角轴上。

这种实施例已经使得有可能进行鲁棒的检测，特别是在方位上，如下面的示例中所呈现的。具体地，如下面的示例性实施例中所呈现的，为了实现这种实施例，立体混响声表示的阶数不需要很高。

具体地，立体混响声表示可以是一阶(或更高阶)，并且在第一阶，方位角和俯仰角分别被定义为四个一阶立体混响声分量W、X、Y、Z的函数，如下：

这里f和g是下列可能的函数：恒等式、(统计)期望、复数的实部、或者这些函数中的一些或全部的组合。

通常，在时域中的分量的情况下，我们具有f(x)＝E{x}：通过应用遍历性假设，对然后表示所考虑的帧的样本的变量x的时间样本计算期望E。

在从傅立叶变换产生的复分量的情况下，我们具有f(x)＝Re{x}：对于给定的频率，样本x来自不同的帧，并且我们对样本x应用“实部”运算符，以便估计携带所考虑的频率处的声场的传播信息的强度矢量中的有效部分。

当然，如果有必要，还可以对期望和实部这两个函数进行组合。

此外，以上的基(方位角和俯仰角)中表示的函数f和g可以分别相同或不同。例如，函数f可以是从傅立叶变换产生的复样本中的实部Re{}，而函数g可以是组合E{Re{}}，其中期望是在不同的帧上，以便降低原来可能有噪声的观测中的方差，特别是由于地板和天花板上的反射。

为了避免对混响和对应的扩散场给予太多的重要性，我们还可以将来自源的声波的平面性准则估计为立体混响声分量X、Y、Z和W的函数，如下：

其中f是以上所定义的类型的函数。

此外，可以以与针对待量化的每个测量的平面性准则c_op成比例的方式，对声强的方向测量的量化应用加权。

提供低通频率滤波器应用于声学活动图的投影也是可能的。

事实上，由于在存在混响的情况下图投影通常是有噪声的，因此避免例如多个源的错误检测。

因为示例性实施例能够表明沿着方位角的检测比沿着俯仰角的检测更鲁棒，所以在一个实施例中，可以基于在定义方位角值的第一基中所标识的局部峰值的坐标，来细化对声音到达方向的估计(然后我们在其中图投影示出局部峰值的方位坐标周围的扇区中搜索源的更精确的位置)。

本发明还涉及一种计算机程序，包括指令，当这些指令由处理器执行时，用于实现以上方法。

本发明还涉及一种装置，包括：

-输入接口，用于接收由预定位置的麦克风捕获的信号，

-处理单元，用于实现以上方法，以及输出接口，用于传送至少一个源检测信号。

附图说明

根据阅读以下对一些非限制性实施例的详细描述，以及根据查看各附图，其他特征和优点将变得清楚，其中：

-图1图示了源和麦克风阵列的相对位置、以及关联的坐标(具体是方位和俯仰)的标记；

-图2图示了球面谐波函数，此处是从第0阶(顶部的第一行：球体)到第3阶(底部的最后一行)，正值为亮，负值为暗；

-图3表示图示了到达方向

的声学活动图，此处是在对于两个不同声学(持续时间为0.375s和0.7s的混响率TR60)的位置(0,0)和(90,10)处的两个源的情况下；

-图4图示了：

ο左上：在矢量基

中以2D投影的图(x轴上为方位-y轴上为俯仰)；

ο底部：对应于在方位角基h_θ上的图的1D投影的直方图；

ο右边：对应于在俯仰角基

上的图的1D投影的直方图；

-图5图示了总结本发明含义内的处理的示例；

-图6图示了本发明含义内的装置的处理单元UT。

具体实施方式

以下集中于维度M≥2的空间中的定位，其使用与下面所呈现的诸如DUET或DEMIX的基于直方图的方法相同的原理，但是大大降低了它们的复杂度。

对于持续时间T的给定的观测时间窗，计算D个描述符的集合。优选地，在应用时间-频率变换(通常是FFT)以利用信号(例如语音信号)的频率简约性之后，基于分解成子带，在短时间帧上计算这些描述符。

与对声场中存在的声源的定位相关的这些描述符，使得获得对源s_i，1≤i≤I，的到达方向(DOA)的一系列估计(通常有噪声)成为可能。

然后根据包含源的空间的大小为K的栅格，对这些估计进行量化。例如在立体混响声捕获的情况下，其涉及根据源的极坐标(方位，俯仰)来定位源，(通常基于多边形)产生在方位和俯仰上具有一定分辨率的球体的栅格是可能的，可能由关联的多边形的“中心”来表示每个像元(cell)，并由角度对

来标识该像元。

在此栅格的基础上，推导估计位置的直方图h。

例如，在立体混响声类型阵列的情况下，描述符的计算产生D对

由此推导直方图

实际上D＞＞K。

然后，不是如在传统DUET或DEMIX技术(通常被证明为是复杂的操作)中一样在此M维空间中直接应用聚类处理，我们在此处提出将此直方图投影到对应于定位空间的基的一维轴上。在立体混响声的情况下，可以将此直方图沿着例如两个轴Θ和

进行投影。

基于沿着不同的轴的投影，搜索投影直方图的局部最大值，这是简单的一维函数。

此投影的优点在于：

-与在至少二维中的搜索相比，降低了算法的复杂度，以及

-改进了检测对于噪声和混响的鲁棒性：通过沿着空间的轴投影源的位置，事实上更大数量的数据可用于单个方向上搜索，这具有减小DOA估计器在此方向上的方差的效果。

实际上，可以利用此数据的“过剩”来改进系统对源的检测的响应能力。在恒定方差下，人们事实上可以使用大小为T′<T的窗口来估计相对于在M维中的搜索的到达方向。

最后，一旦已经找到每个方向上的最大值(在球面阵列的情况下表示为

和

)，利用多维(M维，在此示例中M＝2)直方图作为概率测量的选择步骤使得可能确定最相关的对

(或一般情况下的M元组)。

为了促进选择的鲁棒性或复杂性，可以设想不同的选择方法。

下面描述用于球面阵列的实现方式，其允许获得声场的环绕声类型表示(或如下面使用的“立体混响声”)。但是，该方法可以很容易地应用于任何其他类型的麦克风阵列，诸如矩形栅格的至少2D、或者甚至3D(在体积内分布有传感器)：这些被称为n维“声学阵列”。

如图2所示，立体混响声表示包括将声场投影到球面谐波函数的基上，以获得声音场景的空间表示。函数

是阶数为m且索引为nσ的球面谐波，其取决于球坐标

由以下公式定义：

其中

是包含勒让德多项式的极函数：

对n≥1，∈₀＝1且∈₀＝2，以及

理论上，在自由场中传播的入射

的源s(t)的表示为y(t)的立体混响声捕获(例如按照SID/N3D归一化格式)由以下矩阵乘积给出：

在此等式中，前四个分量(W,X,Y,Z)(称为“一阶立体混响声”或“B格式”)与声场直接相关：

-W是全向分量，并且测量声场p(t)，以及

-分量X、Y和Z测量沿三个空间维度定向的压力梯度(对应于图2的前两行)，并因此测量粒子速度

的分量。

声场p(t)和粒子速度

是允许量化声场的两个数字。具体地，它们的乘积表示声能通过基础表面的瞬时流动，也称为声强

我们可以表明，对于在自由场中移动的平面波，此声强矢量

与波前正交，并指向发射该声波的源的方向。因此，对此矢量的测量使得有可能直接估计声场所起源于的源的“位置”(更准确地说，实际上是与发射源相关的声波的到达方向)。

根据定义，一阶立体混响声使得通过将全向通道W乘以压力梯度(X,Y,Z)中的每一个来直接估计声强成为可能：

在单个声波在自由场中(无障碍地)在空中传播的理论情况下，此声强矢量可以直接从等式(1)和(3)中推导如下：

从等式(4)中，我们可以容易地从以下简单的三角函数关系中导出声波的入射角

通常，由于信号s(t)是随机的，因为s²(t)的大可变性使得由等式(4)定义的瞬时强度矢量的噪声特别大，其结果是也给由等式(5)估计的到达方向增加了噪声。此外，在此情况下，可优选地使得到达方向的估计基于具有更大空间稳定性的“平均”强度矢量：

其中E{}是“期望”运算符。实际上，应用遍历性假设，通过在以下窗口上对不同的时间样本求平均来计算此期望，该窗口的大小是系统的期望响应能力和估计的方差之间的折衷。

在由几个同时源生成的场的情况下，叠加定理(将与每个源相关联的场相加以形成总场)暗示该声强是等式(4)的加权混合。

但是，原则上此混合从不对应于平面波的编码(除非在非常特殊的情况下，其中所有源都来自相同方向，或者其中一个源比其他源具有多得多的能量)。此外，为了尝试对不同声波的到达方向进行最佳估计，我们利用声源的频率简约性，其假设在短期内各源具有不相交的频率支持。

只要源的数目不是太大，并且在大量的频带中存在“强加”其到达方向的优势(preponderant)源，此假设就是有效的。

实际上，然后可以将立体混响声信号分解成一连串的帧，对这些帧应用时间-频率变换(通常为快速傅立叶变换(下面表示为“FFT”))，使得：

其中n是帧号，并且t是帧n中的样本的索引，T是样本中的帧的大小，并且win(t)是切趾窗口(通常是汉恩或汉明窗口)。

帧大小的选择取决于所分析信号的固定持续时间：将选择持续几十毫秒(对于语音信号通常为10ms到50ms)的帧。

此处我们假设变量p(t)和

遵循窄带模型，类型为：p(t)＝pcos(2πft+a_p)和

在此形式下，我们表明声强的实部(也称为“主动强度”)因此在频域中携带声场传播信息，并根据以下等式表示为立体混响声分量的函数：

其中

表示复数的实数部分。

如果我们假设完美简约性(于是信号的频率支持不相交)，则在每个频带中只有一个源是活动的，此源的声强代表其空间编码。然后可以从等式(5)和(8)在每个频带中确定主要源的到达方向：

因此，对于给定的一系列n帧，我们获得一批角度对

由此我们构造代表所观测场的到达角度的分布的直方图

可以以不同的方式执行3D球体

的量化，例如在“矩形”基础上，诸如：

在其中具有不相交的频率支持的点源在自由或消声场(无反射)中传播的理想情况下，这些角度的分布理论上纯粹是“稀疏的”：在对应于每个源的到达方向的空间位置中的每一个处观测到峰值。

另一方面，在具有反射壁的真实声学环境中，每个源可以生成由非常大量的反射和扩散场所组成的复杂声场，这些分量取决于壁的性质和声学环境的维度。这些反射和扩散场可被视为无穷多的次级能量源和可变的到达方向，主要结果是每个源的编码不再精确遵循等式(4)，而是此等式的噪声版本。

在真实情况下，强度矢量I(n,f)有效地指向频带f中的优势源的方向，但只是“平均地”。

图3表示到达角度

的直方图。我们观测这些角度在源的位置周围的分布，具有取决于地点的声学性质(此处或多或少是反射壁)而或大或小的方差。

等式(10)给定的直方图实际上是有噪声的，尤其是在其中混响占主导的低能量区域。此混响可以看作没有来自特定方向的固定场。就到达方向而言，其表现为扩散噪声。为了限制此扩散场的影响，可以应用与所考虑的频带中的能量成比例的加权，如下所示：

其中g(x)通常是半空间x≤0(递减)和x≥0(递增)上的正单调函数：例如|x|、x²、或对数标度的能量10.log(1+x²)。

这允许将优先级给予高能量频带，其通常指示移动声波的存在。

对直方图进行加权(或图投影)的另一方式是考虑此频带中的场的扩散性质。在立体混响声处理中，通常由声场与等式(1)所给定的平面波的相似性(或不相似性)来定义声场的扩散性质。如果我们定义以下准则c_op：

对于由在自由场中传播的平面波所生成的场，此准则等于1，并且如果波不是平面波，则该准则偏离1：这在存在几个平面波或明显混响的情况下尤其如此。我们还可以通过以下准则来对直方图进行加权：

其中r(x)是测量与1的偏离的函数。我们可以选择例如以1为中心的高斯分布，换句话说即

其中作为存在混响的情况下c_op的离差(dispersion)的函数，来选择参数σ²。

此加权使得有可能排除场扩散的时间-频率矩，并且不给出关于方向波的存在的可靠信息。

在另一实现方式中，我们可以通过能量g(W)和平面波r(c_op)准则的组合、或使得有可能测量所观测场的方向性的任何其他准则，来对直方图进行加权。

接下来，源的检测和定位包括在此2D空间

中对此分布

的重新分组或“聚类”处理，该组或“聚类”的中心表示源的位置。

此处，一种实现方式包括沿着轴θ和

对此直方图进行投影，以构造1D直方图h_θ和

如下：

其中

是对变量x的“期望”运算符。于是对源及其位置的搜索包括对直方图h_θ和

中的局部最大值进行搜索。

可以以不同的方式执行对局部最大值的搜索。我们可以通过在1D直方图的每一个中执行对局部最大值的搜索的分析方案来进行。由于在存在混响的情况下，1D直方图通常是有噪声的，所以首先对直方图中的每一个应用滤波器(优选地，低通滤波器)，以避免检测到多个源：

其中滤波器f_θ和

的参数(即截止频率和长度)可取决于维度而不同。

由于方位是周期为2π的循环变量，所以应用循环卷积而不是经典卷积以避免末端的滤波问题是有意义的，这可以通过FFT来计算以降低复杂度。

对最大值的搜索还可以通过概率方案进行，将直方图考虑为遵循给定概率定律的变量的混合。根据此定律，寻找代表源的位置的参数。通常，我们可以将直方图考虑为高斯分布的混合(或“GMM(高斯混合模型)”)，或更适合于诸如方位的循环变量的冯米塞斯分布。通过期望-最大化类型的迭代方案，我们寻求最小化概率距离，从而通常找到最大似然，以便估计每个分布的参数，其中平均值提供了源的位置。

然后，此搜索在每个方向上产生两个角度集合：

图4示出了在中等(moderately)混响室中在位置(0,0)和(90,10)处存在两个源的情况下所获得的直方图的示例(0.375秒的TR60：此处“TR60”被定义为与第一反射相比，之后的反射经历60dB的衰减所必需的时间)。

该搜索产生集合

和

因此表征了在轴θ(2个峰)和

(1个峰)上观测到的峰的数目。

从这些角度集合，下一步骤包括重新创建U个角度对

通过将方位

与俯仰

相关联来定位声场中存在的源。在此处所给的示例中，源的数目U由下式给出：

U＝max(K,Q)

对于对的此搜索，选择优选的方向(通常是检测到最多源的方向)。在图4的情况下，这是方位的维度。对于对的搜索使用2D直方图作为相关性的度量。在第一种方案中，对于每个

在检测到的俯仰集合中搜索具有最高概率的俯仰

此概率由

表示，即：

在图4所提出的情况下，这相当于形成源的对：(6,-6)和(90,-6)。

在此方案中，人们会注意到朝向理论位置(0,0)和(90,10)的偏差，尤其是在俯仰上。由于混响、以及不同源的俯仰实际上相对接近(诸如语音或乐器的声源通常处于相似的高度)的事实，投影混合了不同的源的分布，使得难以检测多个源。

为了改进鲁棒性并减少此定位偏差，另一更复杂的方案包括忽略检测到的俯仰，但是在围绕

的切片中穷尽搜索使得

最大化的对

即：

其中Δ固定围绕检测的方位所量化的邻域。

实际上，我们可以允许大约十度或甚至更多的邻域。尽管比等式(16)所给出的先前方案稍微复杂一些，但是此方案确保正确地检测到2D中的局部最大值。在图4所提出的情况下，这相当于形成对(0,-6)和(90,15)，与先前方案相比，这使得减少偏差成为可能。

在其中每个方向上所检测到的源的数目相等(并且大于或等于两个)、因此K＝Q的情况下，不能根据源的数目来进行优选轴的选择。在此情况下，第一种方案包括找到对

的最可能的组合。这相当于在集合{1,…,K}中找到使得概率测量最大化的排列

例如测量

的范数L1：

于是检测到的源的集合为

在另一实施例中，优选轴可以被选择为具有最小“平坦”形状的轴，这意味着具有最容易检测的局部最大值的分布。此方案使得选择对混响最不敏感且先验地具有最低定位偏差的分布成为可能。实际上，我们可以使用从由随机变量X的几何平均值和算术平均值之间的比率给出的谱平坦度中所导出的测量：

其中(x₁,…,x_S)是变量X的样本。

通常用于基于其谱来测量声音信号的音调特性的此测量使得对变量X的样本值的集中进行量化成为可能，这相当于给出对变量X的分布的“平坦度”的测量。接近1的值指示完全平坦的变量(均匀白噪声的情况)，而接近0的值指示集中于几个值的变量(用于狄拉克的0)。在本发明的一个实施例中，在每个方向上找到相等数目的角度的情况下，选择例如具有最低平坦度的优选轴，然后取决于所选择的模式，根据等式(16)或(17)来执行对于对的搜索。

在简化的实现方式中，我们可以选择方位作为优选轴，因为：

-该源统计地示出了更显著的方位差异，

-由于到达方向周围更多各向同性的分布，方位遭受偏差更小，并且

-由于地面上的强反射，俯仰通常呈现出更加分散的分布，具有朝向更低俯仰的偏差。

最后，平坦度测量还可以是用于判定混合中是否存在点源的准则。事实上，所述方法通常检测一个或多个局部最大值，尽管该场可能是完全扩散的并且不包含传播波。平坦度测量允许表征扩散环境，并用作对声音活动的检测。因此，平坦度测量是检测声场中源的存在或不存在的可靠辅助手段，其允许随后触发对源位置的标识。

图5总结了上面给出的示例性实施例中的方法的步骤。在第一步骤S0期间，麦克风阵列获取在声学环境中所捕获的连续帧形式的信号。优选地，麦克风可以以适于声音场景的立体混响声表示的方式布置在阵列中，并且在步骤S1中可以从中推导出一阶分量X、Y、Z、W。然后，在步骤S2中对这些信号应用FFT类型的快速傅立叶变换。在上述示例中，我们已经选择了在方位和俯仰上的二维矢量基，来执行对声学活动图的投影(步骤S3)。遵循相同的形式，此实施例可以直接应用于产生声场及其主要特性的表示的任何阵列：这尤其是平面阵列和关联的声学全息技术的情况，其允许估计导致声强矢量的诸如压力场和粒子速度的某些数字。利用某些声学阵列还将可能获得3D矢量基上的表示：例如在半径r、方位、和俯仰上，以将图投影到每个对应的轴r上，然后是方位上，再然后是俯仰上。这种实现方式将使得进一步丰富检测和定位(同时失去处理的简单性，要处理三个投影坐标而不是之前的两个)成为可能。一旦声学活动图由其在步骤S3中的矢量基的“方位”和“俯仰”轴上的投影来表示，就可以在步骤S4中应用加权来向更高能量的帧给予更大的重要性(“时间加权”)，或者(在应用FFT并分解成子带之后)向更高能量的频带给予更大的重要性(“频率加权”)。

还可以在步骤S5中应用加权，以促进根据上述准则Cop来检测平面波传播。然后，可以在步骤S6中利用聚类技术来实现在(多个)图投影中对局部最大值的搜索。如果在步骤S7中标识出峰值(例如在沿着如上所述的方位角的最鲁棒的投影中)，则在此检测步骤S8之后，有可能在接下来的步骤S9中，继续更精确地搜索此方位位置周围的(多个)源的位置。

接下来，对一个或多个源的位置的标识可以增加渲染的虚拟现实。例如在视频会议的情况下，将说话方的图像放大至他或她的面部可能是有利的，然后这可以被检测为声源(嘴部)的位置。

图6非常示意性地图示了用于实现以上方法的装置DIS。具体地，该装置包括：

-适用于从麦克风阵列ANT接收信号的输入接口INT，

-处理单元，包括：

*存储器MEM，适用于存储本发明含义上的计算机程序的指令数据，和用于实现以上方法的可能其他的暂时或非暂时的数据，以及

*处理器PROC，能够与存储器MEM和输入接口INT一起工作，以读取存储器MEM中的程序指令并应用上述方法，以及

-输出接口OUT，用于例如传送表征源的存在、以及可能其在声音环境中的位置的信号。

Claims

1.一种用于处理声学信号以便检测声音场景中的一个或多个声源的方法，所述方法包括：

-获得由预定义位置的多个麦克风所捕获的表示所述声音场景的多个(D个)信号，

-基于由所述麦克风捕获的所述信号和所述麦克风的位置，应用对声强的方向测量的量化，并在声源定位空间中建立对应的声学活动图，所述空间的维度为N，

其特征在于，所述方法还包括：

-构造维度小于N的至少一个矢量基，

-将所述声学活动图投影到所述矢量基的至少一个轴上，以及

-在所述图投影中搜索声学活动的至少一个局部峰值，标识的局部峰值对应于所述场景中声源的存在。

2.根据权利要求1所述的方法，其中所述信号是在连续帧上获得的，每个帧的持续时间对应于预定观测周期，并且其中所述声学活动图的建立包括：

-收集几个连续帧的索引，以及

-在所述N维空间的栅格上量化所述索引。

3.根据权利要求2所述的方法，其中所述观测周期在10ms和50ms之间。

4.根据前述权利要求中任一项所述的方法，其中在所述图投影中搜索声学活动的局部峰值包括：

-使用聚类技术来处理所述图投影，以及

-将聚类中心标识为源的位置。

5.根据前述权利要求中任一项所述的方法，其中所述方法还包括：

-从所述局部峰值的至少一个坐标，在所述矢量基上估计来自对应于所述局部峰值的声源的声音的至少第一到达方向。

6.根据权利要求5所述的方法，其中所述方法还包括：

-从所述矢量基上的所述局部峰值的坐标，通过处理在所述N维空间中的包括所述第一到达方向的仅一个扇区中的声学活动图，来细化对所述声音到达方向的估计。

7.根据前述权利要求中任一项所述的方法，其中所述方法包括应用将由所述麦克风捕获的所述信号细分为频率子带。

8.根据前述权利要求中任一项所述的方法，其中所述方法还包括以与针对待量化的每个测量所估计的声能成比例的方式，对声强的方向测量的所述量化应用加权。

9.根据权利要求8并结合权利要求2所述的方法，其中估计每帧的声能，并对来自具有最高能量的帧的声强的方向测量的所述量化应用更高权重的加权。

10.根据权利要求8并结合权利要求7所述的方法，其中估计每个子带的能量，以便标识具有最高声能的子带，并且其中对在具有最高能量的所述子带中具有更大表示的声强的方向测量的所述量化应用更高权重的加权。

11.根据前述权利要求中任一项所述的方法，其中所述麦克风被布置为捕获在立体混响声表示中以球面谐波为基础所定义的声音信号，并且其中在以下各项中构造至少一个一维的矢量基：

-第一基，定义所述声音到达方向的方位角的值，并且包括方位角轴，所述声学活动图被投影到所述方位角轴上，以及

-第二基，定义所述声音到达方向的俯仰角的值，并且包括俯仰角轴，所述声学活动图被投影到所述俯仰角轴上。

12.根据权利要求11所述的方法，其中所述立体混响声表示包括至少一阶，并且其中所述方位角和所述俯仰角根据表示为W、X、Y、Z的四个一阶立体混响声分量被分别定义，如下：

f和g是下列可能的函数：恒等式、统计期望、复数的实部、或者这些函数中的一些或全部的组合。

13.根据权利要求12所述的方法，其中根据所述立体混响声分量X、Y、Z和W来估计来自源的声波的平面性准则：

并且其中所述方法还包括以与针对待量化的每个测量的所述平面性准则c_op成比例的方式，对声强的方向测量的所述量化应用加权。

14.根据权利要求11至13中任一项结合权利要求5所述的方法，其中基于在定义所述方位角值的所述第一基中所标识的所述局部峰值的坐标，来细化对所述声音到达方向的估计。

15.根据前述权利要求中任一项所述的方法，其中所述方法还包括将低通频率滤波器应用于所述声学活动图的投影。

16.一种计算机程序，包括指令，当所述指令由处理器执行时，用于实现根据权利要求1至15中任一项所述的方法。

17.一种装置，包括：输入接口，用于接收由预定位置的麦克风捕获的信号；处理单元，用于实现根据权利要求1至15中任一项所述的方法；以及输出接口，用于传送至少一个源检测信号。