CN110709929B

CN110709929B - 处理声音数据以分离多声道信号中的声源

Info

Publication number: CN110709929B
Application number: CN201880037758.9A
Authority: CN
Inventors: M.巴奎; A.格林
Original assignee: Ao Lanzhi
Current assignee: Ao Lanzhi
Priority date: 2017-06-09
Filing date: 2018-05-24
Publication date: 2023-08-15
Anticipated expiration: 2038-05-24
Also published as: EP3635718B1; EP3635718A1; US11081126B2; FR3067511A1; US20200152222A1; CN110709929A; WO2018224739A1

Abstract

本发明涉及一种用于处理声音数据以分离在真实介质中感测到的多声道声音信号的N个声源的方法。该方法包括以下步骤：将源分离处理应用(E310)于所感测到的多声道信号，并获得分离矩阵和一组M个声音分量，其中，M≥N；计算(E320)一组所谓的双变量第一描述符，该组所谓的双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系；计算(E320)一组所谓的单变量第二描述符，该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；以及根据该组第一描述符和该组第二描述符、通过对属于两个类别之一中的成员的概率的计算(E330)、根据分量的这两个类别来将该组M个分量中的分量进行分类(E340)，第一类别具有对应于这N个直接声源的N个所谓的直接分量，并且第二类别具有M‑N个所谓的混响分量。本发明还涉及一种实施比如所描述的方法的处理设备。

Description

处理声音数据以分离多声道信号中的声源

技术领域

本发明涉及音频信号或声学信号处理领域，并且更具体地涉及对真实的多声道声音内容进行处理以便分离声源。

背景技术

分离多声道声音信号中的源可以实现许多应用。例如，其可以用于：

ο娱乐(卡拉OK：语音抑制)，

ο音乐(混合多声道内容中的不同源)，

ο远程通信(语音增强、噪声消除)，

ο家庭自动化(语音控制)，

ο多声道音频编码，

ο成像中的源定位和制图。

在N个源正在发射信号s_i的空间E中，基于来自分布在该空间E中的传感器的M个观测结果，对这些源进行盲分离在于对这N个源进行计数和提取。在实践中，每个观测结果都是使用传感器获得的，该传感器记录已到达空间中的该传感器所在的点的信号。所记录的信号则由信号s_i的混合以及这些信号在空间E中的传播产生，并且因此受到特定于所经历的环境的各种扰动(如例如噪声、混响、干扰)的影响。

对在自由场条件下传播并被认为是多个点的N个声源s_i的多声道捕获被形式化为矩阵运算：

其中，x是M个所记录声道的向量，s是N个源的向量，并且A是大小为M×N的被称为“混合矩阵”的矩阵，该矩阵包含每个源对每个观测结果的贡献，并且符号*表示线性卷积。取决于传播环境和天线的格式，矩阵A可以采用各种形式。在天线重合的情况下(天线的所有麦克风集中在空间中的同一点上)，在消声环境中，A是简单的增益矩阵。在天线非重合的情况下，在消声环境或混响环境中，矩阵A变为滤波矩阵。在这种情况下，这种关系在频域中通常被表示为x(f)＝As(f)，其中，A被表示为复系数矩阵。

如果在消声环境中捕获声音信号，并采用源的数量N小于观测结果的数量M的情境，则可以联合使用独立分量分析(或在下文中称为“ICA”)算法来轻松实现分析场景(即，识别源的数量及其位置)以及将该场景分解为多个对象(即，源)。这些算法使得可以识别维度为N×M的分离矩阵B(A的伪逆矩阵)，该矩阵使得可以使用以下方程从观测结果推导出源：

s＝Bx

通常，估计问题的维度、即估计分离矩阵的大小(即，源的数量N)的预备步骤通过计算观测结果的协方差矩阵Co＝E{xx^T}的秩来执行，在这种消声情况下，该协方差矩阵的秩等于源的数量：

N＝rank(Co)。

关于对源的定位，这可以根据编码矩阵A＝B^-1并根据所使用的天线的空间性质、特别是传感器之间的距离及其方向性的知识推导出。

在最著名的ICA算法中，由J.F Cardoso和A.Souloumiac提出了JADE(“Blindbeamforming for non-gaussian signals[用于非高斯信号的盲波束成形]”,“IEEProceedings F-Radar and Signal Processing[IEE会议录F-雷达和信号处理]”,第140卷,第6期,1993年12月)或Amari等人提出了Infomax(”A new learning algorithm forblind signal separation[用于信号盲分离的新学习算法]”,“Advances in neuralinformation processing systems[神经信息处理系统的进展]”,1996年)。

在实践中，在某些条件下，分离步骤s＝Bx相当于波束成形：由矩阵B给出的各种信道的组合在于应用如下空间滤波器：其方向性相当于在期望提取的源的方向上施加单位增益，而在干扰源的方向上施加零增益。图1展示了用于提取分别以方位角0°、90°和-120°定位的三个源的波束成形的一个示例。所形成的方向性中的每一个都对应于对源s之一进行的提取。

在存在在真实条件下捕获到的源的混合的情况下，室内效应将产生所谓的混响声场，表示为x_r，该混响声场将被添加到源的直接场中：

x＝As+x_r

总声学场可以建模为感兴趣源的直接场(图2中的1处所示)、第一反射(二次源，图2中的2处所示)和漫射场(图2中的3处所示)的总和。于是，无论混合中有效源的真实数量如何，观测结果的协方差矩阵都会满秩：这意味着不再可能使用Co的秩来估计源的数量。

因此，当使用SAS算法分离混响环境中的源时，获得大小为M×M的分离矩阵B，从而使用如下矩阵运算在输出处生成M个源而不是所期望的N个源，最后的M-N个分量实质上包含混响场：

这些附加分量带来了许多问题：

-对于场景分析：不能先验地知道哪些分量与源相关以及哪些分量是由室内效应引起的。

-对于通过波束成形来分离源：每个附加分量都会对所形成的方向性产生约束，并且通常使方向性因子降级，从而导致所提取的信号中的混响水平升高。

现有的用于多声道内容的源计数方法通常基于时频域中的简约性假设，即，基于以下事实：对于每个时频仓(bin)，单个源或有限数量的源将具有不可忽略的贡献力量。对于其中的大多数，针对每个仓执行对影响力最大的源进行定位的步骤，然后聚合仓(称为“聚类”步骤)，以重建每个源的总贡献。

例如在由作者A.Jourjine，S.Rickard和O.Yilmaz于2000年在ICASSP’00上发表的文献“Blind separation of disjoint orthogonal signals:Demixing n sources from2mixtures.[不相交正交信号的盲分离：从2个混合中分离n个源]”中描述的DUET(代表“退化分离估计技术”)方法通过假设源具有不同的频率支持，使得可以在消声条件下仅基于两个不一致的观测结果来定位并提取N个源，其中，不同的频率支持即

S_i(f)S_j(f)＝0

对于f的所有值，条件是i≠j。

在将观测结果分解成频率子带(通常经由短时傅里叶变换来执行)之后，基于理论混合方程针对每个子带估计幅度a_i和延迟t_i：

在每个频带f中，与有效源i相对应的对(a_i，t_i)被估计如下：

假设源的真实位置周围的每个仓的估计位置符合高斯分布，以直方图的形式执行所有对(a_i，t_i)在空间上的表示，然后根据仓的位置以及相关联源的假设位置，借助于似然最大值在直方图上执行“聚类”。

在实践中，时频域中源的简约性假设常常不成立，因此对这些源计数方法构成显著限制，因为每个仓所指向的到达方向是由多个源的贡献的组合产生的，并且不再能正确执行“聚类”。另外，对于分析在真实条件下捕获的内容，混响的存在可能首先使对源的定位降级，其次当第一反射达到足以被感知为二次源的高功率电平时会导致对真实源的数量的过高估计。

发明内容

本发明的目的是改善这种情况。

为此，本发明提出了一种用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法。该方法为使得其包括以下步骤：

-将源分离处理应用于所捕获的多声道信号，并获得分离矩阵和一组M个声音分量，其中，M≥N；

-计算一组所谓的双变量第一描述符，该组双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系；

-计算一组所谓的单变量第二描述符，该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；

-根据该组第一描述符和该组第二描述符，通过计算属于两个类别之一的概率来将该组M个分量分类为这两个类别的分量，第一类别具有被称为直接分量的、对应于这N个直接声源的N个分量，并且第二类别具有被称为混响分量的M-N个分量。

因此，该方法使得可以当在混响环境中(即，在具有室内效应下的情况下)捕获多声道声音信号时，辨别来源于直接源的分量和来源于源的混响的分量。因此，该组双变量第一描述符使得可以首先确定在源分离步骤之后获得的一组分量的对中的分量是否形成同一类别的分量或不同类别的一部分，而该组单变量第二描述符使得可以针对某个分量来限定其是否更有可能属于特定类别。因此，这使得可以确定分量属于两个类别之一的概率，并且因此确定与被分类为第一类别的N个分量相对应的N个直接声源。

下文中提及的各个具体实施例可以被单独地或彼此组合地添加至以上所定义的处理方法的步骤中。

在一个特定实施例中，计算双变量描述符包括计算两个分量之间的相干性得分。该描述符计算使得可以以相关的方式确定分量对是否对应于两个直接分量(2个源)、或者分量中的至少一个是否源于混响效应。

根据一个实施例，计算双变量描述符包括确定该对中的这两个分量之间的延迟。确定延迟以及与该延迟相关联的符号使得可以确定分量对中的哪个分量更可能对应于直接信号，而哪个分量更可能对应于混响信号。

根据该描述符计算的一种可能实施方式，两个分量之间的延迟是通过考虑使该对中的这两个分量之间的互相关函数最大化的延迟来确定的。

这种用于获得延迟的方法使得可以确定可靠的双变量描述符。

在一个特定实施例中，一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联，该指标取决于该对中的分量之间的相干性。

在一个变体实施例中，一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联，该指标取决于具有相反符号的延迟的互相关函数的最大值的比率。

这些可靠性指标使得可以针对属于不同类别的一对分量而使该对中的每个分量是直接分量或混响分量的概率更加可靠。

根据一个实施例，对单变量描述符的计算取决于基于源分离步骤所估计的混合矩阵的混合系数与平面波源的编码特征之间的匹配。该描述符计算使得可以针对单个分量估计该分量是直接的或混响的概率。

在一个实施例中，该组M个分量中的分量是通过考虑该组M个分量并通过计算这M个分量的分类的最可能组合来分类的。

在该总体方法的一种可能实施方式中，该最可能组合是通过针对这M个分量的可能分类组合确定被表达为与这些描述符相关联的条件概率的乘积的似然值的最大值来计算的。

在一个特定实施例中，在计算该最可能组合的步骤之前，仅基于这些单变量描述符来执行这些可能组合的预选择步骤。

因此，这减少了要对可能的组合执行的似然性计算，因为该组合的数量受到该预先选择步骤的限制。

在一个变体实施例中，在计算这些双变量描述符的步骤之前，仅基于这些单变量描述符来执行这些分量的预选择步骤。

因此，要计算的双变量描述符的数量受到限制，从而降低了该方法的复杂性。

在一个示例性实施例中，多声道信号是高保真立体声(ambisonic)信号。

如此描述的这种处理方法完全适用于这种类型的信号。

本发明还涉及一种声音数据处理设备，该声音数据处理设备被实施以对在真实环境中由多个传感器捕获的多声道声音信号的N个声源进行分离处理。该设备为使得其包括：

-输入接口，该输入接口用于接收该多声道声音信号的信号，这些信号是由多个传感器捕获的；

-处理电路，该处理电路包含处理器并且能够实施：

o源分离处理模块，该源分离处理模块被应用于所捕获的多声道信号以获得分离矩阵和一组M个声音分量，其中，M≥N；

o计算器，该计算器能够计算一组所谓的双变量第一描述符和一组所谓的单变量第二描述符，该组所谓的双变量第一描述表示所获得的该组M个分量的对中的分量之间的统计关系，并且该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；

o用于根据该组第一描述符和该组第二描述符、通过计算属于两个类别之一的概率来将该组M个分量分类为这两个类别的分量的模块，第一类别具有被称为直接分量的、对应于这N个直接声源的N个分量，并且第二类别具有被称为混响分量的M-N个分量；

-输出接口，该输出接口用于传递这些分量的分类信息。

本发明还适用于一种包含代码指令的计算机程序，当这些指令由处理器执行时，这些指令用于实施上文描述的处理方法的步骤，并且适用于一种可由处理器读取的存储介质，在该存储介质上记录有包括代码指令的计算机程序，这些代码指令用于执行如所描述的处理方法的步骤。

该设备、程序和存储介质具有与其所实施的上述方法相同的优点。

附图说明

通过阅读以下仅通过非限制性示例并参照这些附图所给出的说明，本发明的其他特征和优点将变得更加清晰明显，在附图中：

-图1展示了用于使用根据如上所述的现有技术的源分离方法提取三个源的波束成形；

-图2展示了如上所述的在室内效应情况下的脉冲响应；

-图3以流程图的形式展示了根据本发明的一个实施例的处理方法的主要步骤；

-图4根据本发明的一个实施例并且使用各种分量对展示了作为频率的函数的相干函数，这些相干函数来表示两个分量之间的双变量描述符；

-图5根据本发明的一个实施例并且针对各种分量对和各种数量的源展示了表示双变量描述符的平均相干性的概率密度；

-图6根据本发明的一个实施例并且根据源的数量展示了不同类别的两个分量之间的互相关函数；

-图7展示了针对本发明的一个特定实施例的随分量的类别、高保真立体声阶数和源的数量而变化的平面波准则的概率密度；

-图8展示了根据本发明的一个实施例的实施根据本发明的一个实施例的处理方法的处理设备的硬件表示；并且

-图9展示了根据本发明的一个实施例的计算针对直接分量与混响分量之间的相干性准则的概率定律的一个示例。

具体实施方式

图3展示了在本发明的一个实施例中的用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法的主要步骤。

因此，从由放置在真实环境(即，混响环境)中的多个传感器捕获的多声道信号并从这些传感器(x(x₁,…,x_M))传递M个观测结果开始，该方法实施盲分离声源(SAS)的步骤E310。在此，在本实施例中，假设观测结果的数量等于或大于有效源的数量。

在混响环境的情况下，使用应用于M个观测结果的盲源分离算法使得可以通过波束成形来提取与所估计的混合矩阵A_M×M相关联的M个声音分量，即：

s＝Bx，其中，x是M个观测结果的向量，B是通过盲分离源估计出的维度为M×M的分离矩阵，并且s是M个所提取的声音分量的向量。在理论上，这些声音分量包括N个声源和与混响相对应的M-N个残留分量。

为了获得分离矩阵B，可以例如使用独立分量分析(简称“ICA”)算法或主分量分析算法来实施盲源分离步骤。

在一个示例性实施例中，感兴趣的是高保真立体声多声道信号。

高保真立体声在于，将声学场投影到球谐函数的基上以获得声音场景的空间化表示。函数是依赖于球坐标(θ,φ)、阶数为m、索引为nσ的球谐函数，其使用以下公式来定义：

其中，是涉及勒让德多项式(Legendre polynomial)的极函数：

其中，对于n≥1，∈₀＝1且∈₀＝2

并且

在实践中，真实的高保真立体声编码基于通常分布在球体上的传感器的网络来执行。组合所捕获的信号以合成高保真立体声内容，该高保真立体声内容的声道尽可能地符合球形谐波的方向性。高保真立体声编码的基本原理如下所述。

最初局限于表示1阶球谐函数的高保真立体声形式自那以后已经扩展到更高阶。具有更多分量的高保真立体声形式通常被称为“高阶高保真立体声”(或以下简称“HOA”)。

2m+1个球谐函数对应于每个阶m。因此，m阶的内容包含总共(m+1)2个声道(1阶4个声道，2阶9个声道，3阶16个声道，以此类推)。

在下文中，参考向量基中将由每个球谐函数形成的“向量分量”，将“高保真立体声分量”理解为每个高保真立体声声道中的高保真立体声信号。因此，例如，可以计数：

-m＝0阶为一个高保真立体声分量，

-m＝1阶为三个高保真立体声分量，

-m＝2阶为五个高保真立体声分量，

-m＝3阶为七个高保真立体声分量，等等。

然后，将针对这些各种分量捕获的高保真立体声信号分布在由要在声音场景中捕获的最大m阶产生的M个声道上。例如，如果使用具有20个压电振膜舱的高保真立体声麦克风捕获声音场景，则所捕获的最大的高保真立体声阶数为m＝3，使得存在不超过20个声道M＝(m+1)2，即,所考虑的高保真立体声分量的数量为7+5+3+1＝16，并且声道的数量M为M＝16(也由关系式M＝(m+1)2给出，其中，m＝3)。

因此，在多声道信号是高保真立体声信号的示例性实施方式中，步骤E310接收由真实麦克风在混响环境中捕获的信号x(x₁,…,x₁,…,x_M)，该混响环境接收在M＝(m+1)²个声道上并包含N个源的高保真立体声声音内容的帧。

因此，如上文所解释的，在步骤E310中对源进行盲分离。

该步骤使得可以同时提取M个分量和所估计的混合矩阵。在源分离步骤的输出处获得的分量可以被分类为两个类别的分量：第一类别的分量被称为直接分量、对应于直接声源，并且第二类别的分量被称为混响分量、对应于源的反射。

在步骤E320中，计算来自源分离步骤的M个分量(s₁,s₂,…,s_M)的描述符，这些描述符使得可以将与每个所提取的分量相对应的类别(直接分量或混响分量)与该分量相关联。

在此，计算两种类型的描述符：涉及分量对(s_j，s_i)的双变量描述符以及针对一个分量s_i计算的单变量描述符。

因此计算出一组双变量第一描述符。这些描述符表示所获得的该组M个分量的对中的分量之间的统计关系。

可以根据分量的相应类别对三种情况进行建模：

-这两个分量是直接场，

-这两个分量中的一个是直接的，而另一个是混响的，

-这两个分量均是混响的。

根据一个实施例，在这种情况下，计算两个分量之间的平均相干性。这种类型的描述符表示一对中的分量之间的统计关系，并提供关于一对分量中存在至少一个混响分量的指示。

具体地，每个直接分量主要由源的直接场(与平面波类似)加上功率贡献小于直接场的功率贡献的残留混响组成。由于源本质上在统计上是独立的，因此所提取的直接分量之间的相关性较低。

相比而言，每个混响分量都由第一反射(一个或多个直接场的经延迟和滤波版本)和经延迟的混响组成。因此，混响分量与直接分量具有显著的相关性，并且通常能够相对于直接分量识别出群延迟。

相干函数提供关于两个信号s_j与s_l之间是否存在相关性的信息，并且使用以下公式进行表达：

其中，Γ_jl(f)是s_j与s_l之间的互谱，并且Γ_j(f)和Γ_l(f)是s_j和s_l各自的自谱。

理想地，当s_j是s_l是独立源的直接场时，相干性为零，但是当s_j和s_l是来自同一个源的两个贡献(直接场和第一反射、或者是两个反射)时，相干性取较高值。

因此，这样的相干函数指示具有两个直接分量或具有来自同一个源的两个贡献(直接/混响或第一反射/后续反射)的概率。

在实践中，互谱和自谱可以通过以下操作来计算：将所提取的分量分为K帧(相邻或重叠)，对这K帧中的每帧k进行短时傅里叶变换以产生瞬时谱_j(k,f)，并对K帧上的观测结果求平均：

用于宽带信号的描述符是两个分量之间相干函数在所有频率上的平均值，即：

由于相干性界定在0到1之间，因此平均相干性也将被包含在此区间内，对于完全独立的信号，相干性趋向于0，而对于高度相关的信号，相干性趋向于1。

图4给出了针对以下情况作为频率的函数的相干性值的概况：

-情况1：相干性值是针对来自2个不同的源的两个直接分量获得的。

-情况2：相干性值是针对单个有效源的一对直接分量和混响分量获得的。

-情况3：相干性值是针对一对直接分量和混响分量但是是在同时有两个源有效的情况下获得的。

应当注意，在第一种情况下，相干性值^γ小于0.3，而在第二种情况下，d^γ在存在单个有效源时达到0.7。这些值很容易反映直接信号的独立性、以及在不存在干扰的情况下将直接信号与相同混响信号链接的关系。然而，通过将第二有效源结合到初始混合中(情况3)，直接/混响情况的平均相干性下降至0.55，并且与各种源的谱含量和功率水平高度相关。在这种情况下，各种源之间的竞争会导致在低频时相干性下降，而在高于5500Hz时由于干扰源的贡献较小这些值较高。

因此，应当注意，确定一对分量属于同一类别或不同类别的概率可以根据先验有效的源的数量。针对下文中描述的分类步骤E340，在一个特定实施例中，可以考虑该参数。

在图3的步骤E330中，从如此描述的描述符中推导出概率计算结果。

在实践中，下文中描述的图5和图7中的概率密度、以及更一般地描述符的所有概率密度是从包括各种声学条件(混响/沉闷)和各种源(男性/女性语音、法语/英语/等语言)的数据库中统计地学习的。以所获知的方式对分量进行分类：在空间上最接近的所提取分量与每个源相关联，其余分量被分类为混响分量。为了计算分量的位置，使用了该分量的来自矩阵A(分离矩阵B的逆矩阵)的混合向量中的4个第一系数(即，1阶)。假设此向量符合平面波的编码规则，即：

其中，表示源的球坐标(方位角/仰角)，可以使用以下方程组通过简单的三角计算来推导所提取的分量的位置：

其中，arctan2是使得可以去除关于反正切函数的符号的不确定性的反正切函数。

一旦已经对信号进行分类，就能计算出各种描述符。针对给定的类别，从点云(来自数据库)中提取描述符的值的直方图，根据该直方图，基于距离(通常为Kullback-Leibler散度)从概率密度集合中选择一个概率密度。图9示出了计算直接分量与混响分量之间的相干性准则的定律的一个示例：已从约十条定律中选择了对数正态定律，因为该定律使Kullback-Leibler散度最小化。

针对高保真立体声信号的示例，图5示出了与两个分量之间的平均相干性的值相关联的分布(概率密度，简称pdf，代表“概率密度函数”)。

在此示出的概率定律是在同时有一个或两个源有效的情况下针对4声道(1阶高保真立体声)或9声道(2阶高保真立体声)麦克风捕获来呈现的。首先观测到，与分量中的至少一个是混响的情况相比，直接分量对的平均相干性^γ取显著更低的值，并且高保真立体声阶数越高，这一观测结果越明显。这是由于当声道的数量更多时，波束成形的选择性提高了，并且因此对所提取分量的分离也得到了改进。

还观测到，在存在两个有效源的情况下，无论相干性估计量是直接/混响对还是混响/混响对(在存在单个源的情况下，不存在直接/直接对)，这些相干性估计量都会降级。

最终，看起来概率密度在很大程度上取决于混合中的源的数量和可用传感器的数量。

因此，该描述符对于检测所提取的分量对是否对应于两个直接分量(2个实际源)或者这两个分量中的至少一个是否来自室内效应是有意义的。

在本发明的一个实施例中，在步骤E320中计算另一种类型的双变量描述符。该描述符是代替上文中描述的相干性描述符或者作为该相干性描述符的补充来计算的。

该描述符将使得可以基于第一反射是经延迟并衰减的直接信号的简单假设来确定(直接/混响)对的哪个分量更可能是直接信号，而哪个分量对应于混响信号。

该描述符基于分量之间的另一种统计关系，即，一对中的两个分量之间的延迟。延迟τ_jl,最大被定义为使分量对s_j和s_l中的分量之间的互相关函数r_jl(τ)＝E_t{s_j(t)s_l(t-τ)}最大化的延迟：

当s_j是直接信号而s_l是相关联的反射时，互相关函数的轨迹将通常产生负的τ_jl,最大。因此，如果已知存在直接/混响分量对，则因此在理论上可以借助于τ_jl,最大的符号来将类别指派给每个分量。

在实践中，对τ_jl,最大的符号的估计通常会受到噪音的严重影响，或者甚至有时会被颠倒：

-当场景由单个源组成时，如果混响场是由多个反射和经延迟混响形成的，则不一定会存在任何单独出现的群延迟。此外，通过SAS提取的直接分量仍然包含将向延迟的测量结果中添加噪声的较大或较小的残留室内效应。

-当存在多个源时，如果分析帧较短并且所有直接场未被完全分离，则干扰会在更大程度上妨碍测量。

出于这些原因，可以选择将τ_jl,最大的符号用作凭借鲁棒性而可靠的描述符或可靠性指标。

分量之间的平均相干性使得可以如上所见地评估直接/混响对的相关性。如果该相关性很高，则可能希望群延迟将是可靠的描述符。

另一方面，互相关峰值τ_jl,最大的相对于互相关函数r_jl(τ)的其他值的相对值还提供了关于群延迟的可靠性的信息。图6展示了直接分量与混响分量之间的自相关峰值的出现特性。在图6的存在单个源的上部分(1)中，互相关最大值清楚地从互相关的其余部分中出现，从而可靠地表明这些分量中的一个分量相对于另一个分量被延迟。该互相关最大值特别是相对于具有与τ_jl,最大的符号(图6中的正τ的符号)相反符号的自相关函数的非常低的值而出现，而无论τ的值如何。

在一个特定实施例中，通过计算τ_最大处的互相关的绝对值与具有与τ_jl,最大的符号相反符号的τ的相关最大值的绝对值之间的比率来定义延迟的符号的可靠性的第二指标(称为出现率(emergence))：

其中，被定义为：

此比率(其被称为出现率)是特殊的准则，其相关性已在实践中得到证明：对于独立信号(即，2个直接分量)，其取接近1的值，而对于相关信号(比如直接分量和混响分量)则取更高的值。在图6中的曲线(1)的上述情况下，出现率值为4。

因此，针对每个假设的直接/混响对，存在确定该对中的每个分量是直接分量或者混响分量的概率的描述符d^τ。此描述符取决于τ_最大的符号、分量之间的平均相干性以及互相关最大值的出现率。

应当注意，该描述符对噪声敏感、特别是对同时存在多个源敏感，如图6的曲线(2)所示：在存在2个源的情况下，即使相关最大值仍然出现，但由于存在会降低所提取分量之间的相关性的干扰源，该相关最大值的相对值(2.6)也较低。在一个特定实施例中，将根据出现率的值来测量延迟的符号的可靠性，该出现率的值将由要检测的源的先验数量进行加权。

在步骤E330中，使用该描述符，针对分量对来计算属于第一类别直接分量或第二类别混响分量的概率。针对被识别为在s_l之前的s_j，使用二维定律来估计s_j是直接的且s_l是混响的概率。

在逻辑上，即使s_j的相位在前，也然后将s_j是混响的且s_l是直接的概率估计为直接/混响情况下的1的补码：

p(c_j＝c^r，c_l＝c^dd^T)＝1-p(c_j＝c^d，C_l＝c^r|d^T)

其中，C_j和C_l是分量s_j和s_l的相应类别，C^d是第一类别，具有被称为直接分量、对应于N个直接声源的分量，而C^r是第二类别，具有被称为混响分量的M-N个分量。

该描述符只能够用于直接/混响对。该描述符未考虑直接/直接对和混响/混响对，并且因此它们被认为是同等可能的：

当相干性和出现率两者都具有中值或高值时，延迟的符号是可靠的指标。较低的出现率或较低的相干性将使直接/混响对或混响/直接对同等可能。

在步骤E320中，还计算一组所谓的单变量第二描述符，其表示所获得的该组M个分量中的分量的编码特性。

利用所使用的捕获系统的知识，使用尤其取决于传感器的方向性的混合系数来对来自给定方向的源进行编码。如果能够将源视为点，并且如果与天线的尺寸相比波长较长，则可以将源视为平面波。在小高保真立体声麦克风的情况下，如果源距麦克风足够远(在实践中一米就足够了)，则通常证明这种情境。

对于通过SAS提取的分量s_j，通过对分离矩阵B求逆而获得的所估计混合矩阵A的第j列将包含与该分量相关联的混合系数。如果该分量是直接的，即，其对应于单个源，则列Aj的混合系数将趋向于平面波的麦克风编码的特性。在混响分量(其是多个反射与漫射场的总和)的情况下，所估计的混合系数将更加随机，并且将不对应于对具有精确到达方向的单个源的编码。

因此，可以使用单个源的所估计混合系数与理论混合系数之间的一致性来估计该分量是直接的或是混响的概率。

在1阶混响高保真立体声麦克风捕获的情况下，使用以下公式对采用所谓的N3D高保真立体声格式的入射(θ_j,φ_j)的平面波s_j进行编码：

x_j＝A_js_j

其中，

具体地，存在特别是依据阶数分组的各种分量的归一化进行区分的若干高保真立体声格式。在此考虑已知的N3D格式。例如，以下链接处描述了各种格式：

https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats。

因此，可以从源的编码系数中推导出被称为平面波准则的准则，该准则说明了所估计混合系数与单个经编码的平面波的理论方程之间的一致性：

该准则c_op根据定义在平面波的情况下等于1。在存在正确识别的直接场的情况下，平面波准则将保持非常接近值1。相比而言，在混响分量的情况下，具有等效功率水平的多个贡献(第一反射和经延迟的混响)通常会使平面波准则偏离其理想值。

对于该描述符(如同对于其他描述符)，在E330处计算出的相关联分布具体地取决于所提取的分量中存在的噪声水平而具有一定的可变性。该噪声主要由残留混响和不会被完全消除的来自干扰源的贡献组成。因此，为了改善分析，可以选择根据以下各项来估计描述符的分布：

-所使用的声道的数量(因此，在这种情况下为高保真立体声阶数)，这会影响波束成形的选择性，并因此影响残留噪声水平，

-混合中所包含的源的数量(如同先前的描述符)，其增加会机械地导致噪声水平提高，并导致对分离矩阵B并因此A的估计的方差更大。

图7示出了与该描述符相关联的概率定律(概率密度)，其取决于同时有效的源的数量(1或2)和所分析内容的高保真立体声阶数(1阶到2阶)。根据最初的假设，对于直接分量，平面波准则的值集中在值1周围。对于混响分量，由于描述符本身是不对称的、具有1/x的形式，因此分布更均匀，但具有稍微不对称的形式。

这两种类别的分布之间的距离允许在平面波分量与扩散程度更大的分量之间进行相对可靠的辨别。

因此，在步骤E320中计算出并在此披露的描述符既基于所提取分量的统计信息(平均相干性和群延迟)，又基于所估计的混合矩阵(平面波准则)。这些使得可以确定分量属于这两个类别C^d或C^r之一的条件概率。

然后，根据这些概率的计算结果，可以在步骤E340中确定将一组M个分量中的分量分类为两个类别。

C_j表示分量s_j的相应类别。对于对所提取的一组M个分量进行分类，“配置”是赋予维度为1×M的类别C的向量的名称，使得：

C＝[C₁,C₂,…,C_M]，其中，C_j∈{C^d,C^r}

已知每个分量存在两种可能的类别，最终问题相当于从假设为同等可能的总共2^M种潜在配置中进行选择。为了实现这一点，应用后验最大值的规则：已知L(C_i)是第i个配置的似然性，则所使用的配置将是具有最大似然性的配置，即：

所选择的方法可以是详尽的，并且然后在于基于在步骤E320中确定的描述符以及在步骤E330中计算出的与这些描述符相关联的分布来估计所有可能配置的似然性。

根据另一种方法，可以预先选择配置，以减少要测试的配置的数量，并且因此减少实施解决方案的复杂性。例如，如果一些分量的准则c_op的值足够远离平面波的理论值1，则可以单独使用平面波准则、通过将这些分量分类到类别C^r中来执行此预先选择：在高保真立体声信号的情况下，可以在图7的分布中看到，无论配置(源的阶数或数量)如何，都可以先验地在不损失鲁棒性的情况下将其c_op满足以下不等式之一的分量分类到类别C^r中：

这种预先选择使得可以通过对某些分量进行预先分类、从而排除将类别C^d强加于经预先分类的分量的配置来减少要测试的配置的数量。

甚至进一步降低复杂度的另一种可能性是从双变量描述符的计算结果和似然性计算结果中排除经预先分类的分量，从而减少要计算的双变量准则的数量，并且因此甚至进一步降低处理复杂性。

可以使用朴素贝叶斯方法以使用计算出的描述符来估计每种配置的似然性。在这种类型的方法中，为每个分量s_j提供了一组描述符d_k。针对每个描述符，使用贝叶斯定律来用公式表示分量s_j属于类别Cα(α＝d或r)的概率：

假设这两个类别C^r和C^d是同等可能的，则这意味着：

并且

于是获得：

其中，项Cj＝Cα被缩写为Cα以简化符号。因为在这种情况下这涉及寻找似然最大值，所以无论所评估的配置如何，每个条件概率的分母上的项都是常数。因此，可以然后将其表达式简化为：

p(c^d|d_k)∝p(d_k|c^α)

对于涉及两个分量s_j和s_l以及它们各自的假设类别的双变量描述符(如例如，相干性)，先前的表达式被扩展：

p(c_j＝C^d，C_l＝C^βd_k)∝p(d_k|c^α，c^β)

以此类推。

如果假设K个描述符是独立的，则似然性被表达为与这些描述符中的每一个相关联的条件概率的乘积：

其中，d是描述符的向量，并且C是表示配置的向量(即，M个分量的假设类别的组合)，如上文所定义的。

更精确地，K₁个单变量描述符用于每个分量，而K₂个的双变量描述符用于每个分量对。由于描述符的概率定律是基于假设的源数量和声道的数量而建立的(索引m表示在这种类型的捕获的情况下的高保真立体声阶数)，因此似然性的最终表达式用公式表示如下：

其中，

-d_k(j)是分量s_j的索引为k的描述符的值；

-d_k(j,l)是分量s_j和s_l的索引为k的双变量描述符的值；

-C_jl是分量j和l的假设类别；

-N是与被评估的配置相关联的有效源的数量：

出于基于计算的原因，优先考虑似然性的对数形式(对数似然性)而不是似然性：

该方程式是最终用于确定在此针对该实施例描述的贝叶斯分类器中的最可能配置的方程式。

在此呈现的贝叶斯分类器仅仅是一个示例性实施方式，并且它尤其可以由支持向量机或神经网络代替。

最终，使用具有似然最大值的配置，从而指示与M个分量C(C₁,…,C_i,…,C_M)中的每一个相关联的直接类别或混响类别。

因此，在该组合中，推导出与N个有效直接源相对应的N个分量。

在此描述的处理在时域中执行，但是在一个变体实施例中，也可以在经变换域中应用。

在所捕获的信号改变到经变换域之后，然后在频率子带中实施参照图3所描述的方法。

此外，取决于捕获系统在高频(存在空间混叠)或低频(无法找到麦克风编码的理论方向性)时的潜在缺陷，可用带宽可能会减少。

图8在这种情况下示出了根据本发明的一个实施例的处理设备(DIS)的一个实施例。

此处以球形麦克风MIC形式示出的传感器Ca₁至Ca_M使得可以在真实并因此混响的介质中、从多声道信号中获取M个混合信号x(x₁,…,x_i,…,x_M)。

当然，可以提供其他形式的麦克风或传感器。这些传感器可以集成到设备DIS中或在设备外部，然后由此产生的信号被传输到处理设备，该处理设备然后经由其输入接口840接收这些信号。在一种变体中，这些信号可以简单地提前获得并导入设备DIS的存储器中。

然后，由处理电路和计算机化的装置(比如860处的处理器PROC和870处的工作存储器MEM)对这M个信号进行处理。该存储器可以包含计算机程序，该计算机程序包含代码指令，这些代码指令用于实施例如参照图3描述的处理方法的步骤、并且具体地是以下步骤：将源分离处理应用于所捕获的多声道信号并获得一组M个声音分量，其中，M≥N；计算一组所谓的双变量第一描述符和一组所谓的单变量第二描述符，该组所谓的双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系，并且该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；以及根据该组第一描述符和该组第二描述符，通过计算属于两个类别之一的概率来将该组M个分量分类为这两个类别的分量，第一类别具有被称为直接分量的、对应于N个直接声源的N个分量，并且第二类别具有被称为混响分量的M-N个分量。

因此，设备包含源分离处理模块810，该源分离处理模块被应用于所捕获的多声道信号以获得一组M个声音分量s(s₁,…,s_i,…,s_M)，其中，M≥N。在计算器820的输入处提供这M个分量，该计算器能够计算一组所谓的双变量第一描述符和一组所谓的单变量第二描述符，该组所谓的双变量第一描述表示所获得的该组M个分量的对中的分量之间的统计关系，并且该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性。

这些描述符由分类模块830或分类器使用，该分类模块或分类器能够将该组M个分量中的分量分类为两个类别的分量，第一类别具有被称为直接分量的、对应于N个直接声源的N个分量，并且第二类别具有被称为混响分量的M-N个分量。

为此目的，分类模块包含模块831，该模块用于根据该组第一描述符和该组第二描述符的来计算该组M个分量属于这两个类别之一的概率。

分类器使用链接到分量之间的相关性的描述符来确定哪些是直接信号(即，实际源)以及哪些是混响残留。分类器还使用链接到通过SAS估计的混合系数的描述符来评估单个源的理论编码与每个分量的所估计编码之间的一致性。因此，这些描述符中的一些描述符与分量对相关(以获得相关性)，而其他描述符与单个分量相关(以获得所估计的麦克风编码的一致性)。

在一个实施例中，似然性计算模块832使得可以根据在模块831处计算出的可能组合的概率、借助于似然值计算来确定M个分量的分类的最可能组合。

最后，设备包含输出接口850，该输出接口用于将分量的分类信息传递到例如另一处理设备，该另一处理设备可以使用该信息来增强所辨别的源的声音，以消除来自这些源的噪声或混合多个所辨别的源。另一种可能的处理操作还可以是分析或定位源以优化对语音命令的处理的处理操作。

因此，使用如此确定的分类信息的许多其他应用是可能的。

设备DIS可以集成到麦克风天线中，以便例如捕获声音场景或记录语音命令。设备还可以集成到通信终端中，该通信终端能够处理由集成到该终端中或远离该终端的多个传感器捕获的信号。

Claims

1.一种用于处理声音数据以分离在真实环境中捕获的多声道声音信号的N个声源的方法，其特征在于，该方法包括以下步骤：

-将源分离处理应用(E310)于所捕获的多声道声音信号，并获得分离矩阵和一组M个声音分量，其中，M≥N；

-计算(E320)一组所谓的双变量第一描述符，该组双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系；

-计算(E320)一组所谓的单变量第二描述符，该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；

-根据该组第一描述符和该组第二描述符，使用对属于两个类别之一的概率的计算(E330)来将该组M个分量分类(E340)为这两个类别的分量，第一类别具有被称为直接分量的、对应于这N个直接声源的N个分量，并且第二类别具有被称为混响分量的M-N个分量。

2.如权利要求1所述的方法，其中，计算双变量第一描述符包括计算两个分量之间的相干性得分。

3.如权利要求1和2中任一项所述的方法，其中，计算双变量第一描述符包括确定一对中的两个分量之间的延迟。

4.如权利要求3所述的方法，其中，两个分量之间的延迟是通过考虑使该对中的这两个分量之间的互相关函数最大化的延迟来确定的。

5.如权利要求3所述的方法，其中，一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联，该指标取决于该对中的分量之间的相干性。

6.如权利要求3所述的方法，其中，一对中的两个分量之间的延迟的确定与该延迟的符号的可靠性指标相关联，该指标取决于具有相反符号的延迟的互相关函数的最大值的比率。

7.如权利要求1和2中任一项所述的方法，其中，对单变量第二描述符的计算取决于基于源分离步骤所估计的混合矩阵的混合系数与平面波源的编码特征之间的匹配。

8.如权利要求1和2中任一项所述的方法，其中，该组M个分量中的分量是通过考虑该组M个分量并通过计算这M个分量的分类的最可能组合来分类的。

9.如权利要求8所述的方法，其中，该最可能组合是通过针对这M个分量的可能分类组合确定被表达为与所述双变量第一描述符和所述单变量第二描述符相关联的条件概率的乘积的似然值的最大值来计算的。

10.如权利要求8所述的方法，其中，在计算该最可能组合的步骤之前，仅基于这些单变量第二描述符来执行这些可能组合的预选择步骤。

11.如权利要求1和2中任一项所述的方法，其中，在计算这些双变量第一描述符的步骤之前，仅基于这些单变量第二描述符来执行这些分量的预选择步骤。

12.如权利要求1和2中任一项所述的方法，其中，该多声道声音信号是高保真立体声信号。

13.一种声音数据处理设备，该声音数据处理设备被实施以对在真实环境中由多个传感器捕获的多声道声音信号的N个声源进行分离处理，其特征在于，该声音数据处理设备包括：

-输入接口，该输入接口用于接收由多个传感器捕获的该多声道声音信号；

-处理电路，该处理电路包含处理器并且能够控制：

o源分离处理模块，该源分离处理模块被应用于所捕获的多声道声音信号以获得分离矩阵和一组M个声音分量，其中，M≥N；

o计算器，该计算器能够计算一组所谓的双变量第一描述符和一组所谓的单变量第二描述符，该组所谓的双变量第一描述符表示所获得的该组M个分量的对中的分量之间的统计关系，并且该组所谓的单变量第二描述符表示所获得的该组M个分量中的分量的编码特性；

-输出接口，该输出接口用于传递这些分量的分类信息。

14.一种可由处理器读取的存储介质，在该存储介质上记录有包括代码指令的计算机程序，这些代码指令用于执行如权利要求1至12之一所述的处理方法的步骤。