CN110088835A

CN110088835A - 使用相似性测度的盲源分离

Info

Publication number: CN110088835A
Application number: CN201780058185.3A
Authority: CN
Inventors: 威廉·巴斯蒂安·克雷杰; 林施杰
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-28
Filing date: 2017-09-01
Publication date: 2019-08-02
Anticipated expiration: 2037-09-01
Also published as: WO2018125308A1; US20180182412A1; US10770091B2; EP3501026B1; CN110088835B; EP3501026A1

Abstract

一种方法包括：接收位于位置的一组麦克风产生音频信号的时刻；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用所述确定的失真测度来确定所述频率分量的相似性测度；以及基于确定的相似性测度来处理所述音频信号。

Description

使用相似性测度的盲源分离

相关申请的交叉引用

本申请要求2017年1月23日提交的标题为“BLIND SOURCE SEPARATION USINGSIMILARITY MEASURE(使用相似性测度的盲源分离)”的美国专利申请第15/412,812号的优先权，并且是该申请的继续申请，该申请要求2016年12月28日提交的标题为“BLIND SOURCESEPARATION USING SIMILARITY MEASURE(使用相似性测度的盲源分离)”的美国临时专利申请第62/439,824号的优先权，这两个申请的内容通过引用的方式并入本文。

本申请还要求2016年12月28日提交的美国临时专利申请第62/439,824号的优先权，其公开内容通过引用的方式全部并入本文。

技术领域

本文大体上涉及使用相似性测度的盲源分离。

背景技术

有时对由在会议中(诸如，在专用会议室中)谈话的一组谈话者产生的信号执行基于计算机的音频处理和管理。能够分离与单独的谈话者相关联的语音是有用的。例如，结合语音识别，这将允许完全自动地创建会议的书面记录。结合其它现有技术，这还可以允许了解到特定人员具有特别的心情(例如，快乐、愤怒、悲伤)。该方法将促进减少记录中的噪声。例如，该方法可以具有低计算复杂度和高可靠性。

发明内容

在第一方面中，一种方法包括：接收位于位置的一组麦克风产生音频信号的时刻；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度，该相似性测度测量针对频率在不同的时刻音频信号的相似性；以及基于确定的相似性测度来处理音频信号。

实施方式可以包括以下特征中的任何或者所有特征。确定失真测度包括：在不同的时间确定涉及事件的向量方向性的相关性测度。该相关性测度包括基于内积的距离计算。相似性测度包括内核化相似性测度。该方法进一步包括：向相似性测度应用加权，该加权对应于针对时间对遍及频率分量的带的相对重要性。确定多个相似性测度，该方法进一步包括：基于确定的相似性测度来生成频率分量的相似性矩阵。该方法进一步包括：通过使用生成的相似性矩阵来执行聚类，该聚类指示特定集群是活动的时间段，集群与位于该位置处的声源对应。执行聚类包括：执行基于质心的聚类。执行聚类包括：执行基于范例的聚类。该方法进一步包括：使用聚类在时间上执行解混合。该方法进一步包括：使用聚类作为预处理步骤。该方法进一步包括：为每个频率计算混合矩阵，并且然后通过该混合矩阵来确定解混合矩阵。确定解混合矩阵包括：使用混合矩阵的伪逆。确定解混合矩阵包括：使用最小方差解混合。处理音频信号包括：对参与者进行语音识别。处理音频信号包括：针对来自参与者的音频内容对音频信号执行搜索。

在第二方面中，一种计算机程序产品有形地体现在非暂时性存储介质中，该计算机程序产品包括指令，该指令在被执行时使处理器执行操作，这些操作包括：接收位于位置的一组麦克风产生音频信号的时刻；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度，该相似性测度测量针对频率在不同的时刻音频信号的相似性；以及基于确定的相似性测度来处理音频信号。

在第三方面中，一种系统包括：处理器；以及有形地体现在非暂时性存储介质中的计算机程序产品，该计算机程序产品包括指令，该指令在被执行时使处理器执行操作，这些操作包括：接收位于位置的一组麦克风产生音频信号的时刻；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度，该相似性测度测量针对频率在不同的时刻音频信号的相似性；以及基于确定的相似性测度来处理音频信号。

实施方式可以包括以下特征。相似性测度包括内核化相似性测度。

附图说明

图1示出了系统的示例。

图2示出了盲源分离组件的示例。

图3示出了内核化相似性测度的示例。

图4A示出了聚类和解混合的示例。

图4B示出了解混合矩阵的示例。

图5示出了可以用于实施此处所描述的技术的计算机装置和移动计算机装置的示例。

各个附图中的类似附图标记表示类似的元件。

具体实施方式

本文描述通过使用相似性测度来使音频源分离的示例。一些实施方式为源混合在时间上相对稀疏的典型会议场景提供对一组麦克风信号中的声源的稳健、低复杂度解混合。相似性矩阵可以被定义成表征在频带内在不同时刻的观测值的空间签名的相似性。相似性矩阵的每个条目可以是时频变换的系数对的一组内核化相似性测度的总和。对于相似的时频对，内核化会引起高相似性分辨率，而对于不相似的时频对，内核化会引起低相似性分辨率。借助于近邻传播的聚类可以提供谈话者的分离。在一些实施方式中，单个频带通常可以很好地工作，从而以低计算复杂度提供稳健的性能。集群可以直接用于分离，或者再举一例，集群可以用作针对自适应解混合过程识别源的全局预处理方法，对于随后的较短时间段，考虑到在该时间段内存在对该源的干扰，该自适应解混合过程提取在该段内活动的每个识别到的源。

有时使用传感器来观察源信号的混合。盲源分离(BSS)是分离出源信号的技术，其唯一的假设是：这些信号在统计上是独立的。在大多数BSS算法中，附加的假设是：混合是线性的。在一些实施方式中，做出了该假设。例如，使是描述在长度为M的时间段内的P个未知离散时间源信号的复合矩阵。对于Q个麦克风，观测值然后可以被写为：

x＝As，　　(1)

其中，A是混合矩阵。方程式(1)可以描述任何线性时不变混合过程，包括卷积混合。对于由麦克风观察的声信号，可以针对时频表示的每个频点(frequency bin)单独编写方程式(1)，并且可以激励使用复杂信号。

图1示出了系统100的示例。在会议位置102处，若干谈话者104聚集在桌子106周围。可以通过使用传感装置108(诸如，麦克风阵列)来捕获来自一个或者多个谈话者的声音。装置108可以向盲源分离(BSS)模块110传递信号。例如，BSS模块110执行BSS。来自BSS模块110的输出可以被提供至处理模块112。例如，处理模块112可以对音频信号执行音频处理，包括但不限于：语音识别和/或搜索一个或者多个谈话者展示出的特点。可以将处理模块112的输出提供至输出装置114。例如但不限于：可以在监视器上显示有关处理的音频的数据或者其它信息，可以在一个或者多个扬声器上播放该数据或者其它信息，或者可以按照数字形式来存储该数据或者其它信息。

用于BSS的一种已知方法是：独立组件分析(ICA)。目的在于在源信号是活动时同时提取独立的源。这种密集活动场景导致相对具有挑战性的分离任务，并且需要许多数据点。对于常用的时频表示，其中，针对每个频点单独对方程式(1)进行求解，密集活动场景通常导致置换模糊：在频率上对分离的信号进行分组的方式是不确定的。ICA方法的缺点尤其在于：其不能处理高斯信号。

对于许多应用，可能适当的是：引入除了独立性和线性之外的假设，从而降低分离任务的难度。这促进使用更少的传感器和数据，或者提供提高的稳健性。常用的是：假设混合由非负变量(如用于非负矩阵分解)组成以及假设信号是稀疏的。一些实施方式可以利用稀疏性假设，因为其可以允许找到用于以低计算复杂度使语音信号分离的实用算法。

对稀疏性的假设可以一般地应用。为此，可以选择适当的信号表示，因为稀疏性强烈依赖于信号表示。例如，浊音语音的时频表示是稀疏的，从而引起在很大程度上不相交的混合，但是其时域表示不是稀疏的。可以执行稀疏分量分析(SCA)。一种方法是：将源信号编写为s＝cΦ，其中，c是稀疏矩阵，c的特定行的非零系数从字典矩阵Φ中选择特定行。更一般地，s自身的稀疏性用于求解方程式(1)。

基于稀疏性的BSS的示例是：混合的时频比(TIFROM)算法。对于特定频点，比向量被定义为按照第一条目归一化的观测值的向量。在声系统识别的上下文中，比向量通常被称为相对传递函数。每当比向量在时间段内相对恒定时，很可能单个源是活动的。这然后允许计算与该源对应的A矩阵的行。可以放宽针对在时间上对特定源连续采样的TIFROM要求。一旦已知矩阵A，就可以利用A的伪逆通过观测值来确定信号s。

一些实施方式可以使用内核化相似性测度来识别属于不同源的时频观测值。内核化方法可以促进使不同的源分离的相似性测度的灵活性，并且允许在频带而不是单个频点上进行操作。可以利用这来提高性能。基于该原理，可以在单信道语音分离的上下文中以及多信道布置中使用谱聚类(一种特定的内核化方法)。一些实施方式的特征在于：其内核定义、使用向量观测值以及聚类方法。

下文概述和例示实施方式的推动。使x(k，m)是在频率k和时间m下的观测值向量。在用于一些实施方式中的BSS的方法中，可以首先将定义为x(k，m₁)，x(k，m₂)之间的内核化相似性测度。通过在频带上聚合相似性测度，可以将该带的相似性矩阵定位为：

可以使用相似性矩阵在时间上聚类频带的观测值，例如，通过使用现有的聚类过程。一旦已经提取了集群，对应的时间段就可以直接用作提取的信号，或者对于带中的所有离散频率k，它们可以用于找到与源对应的混合矩阵A(k)的行。然后可以通过伪逆或者另一合适的矩阵求逆方法来直接通过混合矩阵确定解混合矩阵。可替代地，可以将混合矩阵视为全局描述，并且然后，例如，如下面描述的，对于连续的短信号块，通过使用将局部剩余信号描述为干扰的方法来提取识别到的源(当存在于块中时)中的每个源。

一些实施方式可以提供优于用于找到混合矩阵的现有的基于稀疏性的方法的至少三个优点。首先，一种方法可以组合在用于聚类的频带内的频点以获得提高的稳健性。这可以不假设对于带内的所有频点k，混合矩阵A(k)是相同的。当麦克风在空间上不靠近时，传递函数会根据频率快速改变，不准确地渲染对在频带上的单个混合矩阵的假设。与第一个优点相关联的是第二个优点。如果在执行聚类之前在频带上聚合频点，则该方法可以具有低计算成本，尽管事实上，不必假设混合矩阵在频率上是恒定的。第三个优点可以是：可以不包含相关信号功率的频点可以被包括，而不会对性能产生负面影响。这可以是相似性系数的相似性测度的内核化直接结果。由于源的空间签名很大程度上由向量的分量的相对相位确定，因此，这可以引起稳健的性能。至少在原理上，可以通过如下面概述的那样使相似性测度成为信号功率的函数来进一步提高该稳健性。

一些实施方式可以用于分离会议室中的谈话者的语音。然后，可以将解混合的语音信号归因于特定人员，并且可以使用语音识别来产生转录，该转录显示出根据在需要时结束相关联的声信号的选项，谁说了什么内容。该方法可以形成用于添加附加能力的平台，诸如，在特定谈话者表现出特定情绪的时间段内进行搜索，该搜索会是有价值的，例如，对于分析辩论的新闻记者而言。

下文描述了至少一些实施方式的理论。图2示出了盲源分离组件200的示例。考虑具有频率的离散集的时频向量信号。可以将向量信号编写为其中，Q描述观测值维度。向量信号是用向量表示的源信号集合的线性时不变混合，其中，P是源信号集合。对于每个时频点(k,m)，可以编写：

x(k，m)＝A(k)s(k，m). (3)

其中，是频率相关混合矩阵，k是频率，并且m是时间。目的可以是：从x(k,m)的观测值找到A(k)，以及向量信号s(k,m)的分量在统计上是独立的并且在时频表示中是稀疏的知识。

对于如在会议环境中说出的语音的时频表示，稀疏性假设可以是自然的。浊音语音由于谐度而在频率上是稀疏的。更重要的是，语音具有较大的动态范围，这意味着：即使在多个谈话者同时谈话时，在特定时频点中，特定谈话者也几乎总是占支配地位。因此，当考虑频点的空间签名时，通常可以将空间签名归因于特定谈话者。如果使用频带，则该性质也可以适用，但是程度较小。在一些实施方式中，在用于BSS的方法中，正是利用了该性质。

下文描述相似性矩阵的定义的示例。信号段的相似性矩阵的目的可以是：识别带内的哪些信号段由相同的源信号(谈话者)支配。对相似性矩阵进行操作的聚类算法识别一组适当的源以及它们是活动的时间。在定义相似性矩阵时的主要任务可以是：在特定频点内定义不同时间的观察值向量之间的良好距离测度。对相似性矩阵的选择可以是灵活的，并且除了此处选择的相似性矩阵之外的其它相似性矩阵可能提供更好的性能。

可以首先在单个频点内定义两个观测值的相似性测度该相似性度量旨在解析由第一源生成的信号向量和由任何第二源生成的信号向量之间的区别。总体相似性矩阵(方程式(2))是项的相加。为了获得稳健的整体性能，异常值不应该支配该求和。可以通过恰当地设计要构建的相似性测度使得不会出现异常值来完成这一点。向量方向性的自然测度可以是相关性。虽然针对实际向量明确定义了相关性，但是实际向量对复杂情况的解析开拓允许不同的选择。可以使用|x^H(k，m₁)，x(k，m₂)|，其中，.H是共轭转置。该选择具有两种需要的性质：i)参数是可交换的，以及ii)参数中的每个参数的整体相位不变，该整体相位根据源信号发生变化。一种可能的替代方案是然而，虽然符合欧几里德距离测度

，

但是源相位不是不变的。BSS组件200可以包括执行上述计算中的一些或者全部计算的相关性组件210。

假设x(k,m)被归一化为具有单位范数，则可以定义失真测度：

D(x(k，m₁)，x(k，m₂))＝1-|x^H(k，m₁)，x(k，m₂)|. (4)

BSS组件200可以包括执行上述计算中的一些或者全部计算的失真组件220。

利用归一化，可以通过使用高斯内核来获得在方程式(2)的项中没有异常值的期望行为：

其中，方差σ²是确定相似性测度的衰减行为的参数，并且其中，α(k，m₁，m₂)是可以进一步提高稳健性的可选加权。

在基本实施方式中，可以设置α(k，m₁，m₂)＝1。同时，方程式(5)和(2)可以定义与频带中的时刻有关的相似性矩阵。BSS组件200可以包括用于上述计算中的一些或者全部计算的相似性矩阵230。

方程式(5)中的相似性测度可以是任何合适的内核，包括但不限于：如在方程式(5)中使用的标准高斯内核，可以在谱聚类的上下文中使用该标准高斯内核。可以将该方法解释为针对高维特征空间的映射以及该特征空间中传统的基于内积的距离计算。在一些实施方式中，选择高斯内核，但是可以使用其它内核。

当如在方程式(2)中定义的那样在频带的上下文中使用高斯内核时，可以通过在某个时间对(m₁，m₂)内使用加权α(k，m₁，m₂)作为在频率分量的带上的相对重要性的测度来增强方程式(5)。时频向量的重要性通常与该时频向量的相对响度有关。相对重要性的一种测度可以对于相对于某一噪声功率水平γ²具有显著功率的所有向量对提供相似的贡献。可以将噪声水平调整或者设置为某一固定值。这种相对重要性测度的有效示例是sigmoid：

其中，可以使用适当的范数。方程式(7)中的信号未被归一化，但是可以按照Qγ²来将其归一化。

下文涉及聚类。可以执行观测值在时间上的聚类，其中，是后续时间指数的序列。基于相似性矩阵，每个集群聚集中的时刻，其中，特定源在带中是活动的。

方程式(2)中的相似性矩阵的定义可以被视为相似性度量的整体内核化。内核化可以允许选择适当的相似性度量，并且形成聚类算法的重要属性。下一步骤可以是：决定对相似性矩阵进行操作的聚类算法。

一种用于基于相似性矩阵的聚类的方法是谱聚类。在一些实施方式中，可以使用这一点。谱聚类方法不使用集群的范例或者质心的概念，而是通过具有相对较低数据密度的区域来分离具有相对较高数据密度的区域。

对于一些实施方式，可能不需要谱聚类的通过低数据密度区域来分离集群的性质。虽然这种情况由于语音的较大动态范围而较少发生，但是多个源的同时活动会产生一些观测值，其中，相对传递函数是不同源的传递函数具有相似大小的贡献的线性混合。这种数据点可以“桥接”单独的源的密集型相对传递函数区域。因此，谱聚类有时将不同的声源组合成单个集群。该缺点可能超过谱聚类的可以追踪缓慢移动的源的优点。

为了避免链接不同的源的问题，可以使用基于范例或者质心的聚类方法。然而，可能希望保持相似性度量的灵活性，并且因此，将基于范例或者质心的方法与早先的内核化相似性测度结合。存在基于质心的内核化方法，并且基于范例的内核化方法是马尔可夫聚类算法和近邻传播。在马尔可夫聚类算法和近邻传播中，不需要规定集群(源)的数量。与BSS无关的一些实施方式使用近邻传播方法，但是至少在一些情况下，马尔可夫聚类算法可以更好地执行。

聚类过程的结果是针对频带的指示符函数指示在哪些时刻内集群是活动的。由于每一个带执行聚类，因此，如果带的数量较小，则计算工作量较低。在许多场景中，仅单个带用于计算聚类就足够了。如下面讨论的，如果使用多个带，则可以通过对指示符函数执行互相关来将带集群链接在一起以定义宽带源。BSS组件200可以包括执行上述计算中的一些或者全部计算的聚类组件240。

图3示出了内核化相似性测度300的示例。在一些实施方式中，测度300可以用于相似性确定，诸如，通过使用方程式(5)。例如，可以向测度300提供与x(k，m₁)对应的输入310和与x(k，m₂)对应的输入320。在一些实施方式中，通过对k进行求和来组合内核化相似性测度300的多个实例以获得整个频带的时刻的相似性测度。

以下描述涉及解混合信号。可以按照至少两种方式来使用聚类的结果。第一种方法直接使用聚类结果来仅在时间上进行解混合。图4A示出了聚类和解混合的示例。聚类组件400可以执行聚类，例如，如本文描述的那样执行。解混合组件410可以基于来自聚类组件400的输入来执行解混合。

第二种方法使用聚类过程作为预处理步骤。例如，其首先针对每个频率k计算混合矩阵，并且然后通过使用伪逆或者更复杂的方法(诸如，下面描述的一种方法)来通过混合矩阵确定解混合矩阵。在需要时，可以通过后处理来进一步改进第二种方法。

图4B示出了解混合矩阵420的示例。例如，聚类组件430可以向混合矩阵440提供预处理，从该混合矩阵440确定解混合矩阵420。

下文涉及在时间上的非线性解混合。如果仅使用单个频带则可以通过使用指示符函数关联时间段m，时间段m对应于属于与特定声源p相关联的集群的时间观测值的序列。掩蔽观测值的序列：

对于每个频点k，然后可以将具有特定声源(集群)p放置在单个流中。然后，可以对该流执行逆时频变换并且放出(play out)向量信号：的特定标量信道i，其中，n是时间。这将源p表示为由麦克风i在时间样本n观察的。单个源的多信道信号的可用性促进对去混响算法的应用。

当源信号在时间上不重叠时，在时间上的非线性解混合的质量可以是极好的。因此，在会议场景中，该方法可以很好地执行。对于谈话者同时谈话的时间段，系统及时快速切换。然后，性能会根据谈话者的数量而快速劣化。

下文及找到频点的混合矩阵：可以为每个频点找到混合矩阵。此处，可以假设所有点都必须被单独考虑，如果麦克风十分远，则是这种情况。或许可以利用频率中的度量之间的关系。在L个不相交的带的集合中的每个频带中，可以首先通过使用上面描述的聚类方法来处理信号。每个频点k都必须被分配给带将点k与点k包括在其中的带或者点k最接近的带相关联是自然的。再次注意，单个频带可能就足够了。下面描述了用于计算混合矩阵的三种方法。

下面描述可以有利使用的基于范例的混合矩阵。带中的每个集群p的范例包括在内的每个频点k的观测值向量。将该向量共轭和归一化到单位长度提供了混合矩阵A(k)的行p。对于与相关联但是不在中的频点，可以采取与对应于集群p的范例的时刻相关联的观测值向量。对于源p在范例中具有低信号功率的频点，对混合矩阵的基于范例的确定将不准确。

下文描述基于奇异值分解(SVD)的混合矩阵。对于与带相关联的频点k，可以识别与特定源对应的时频观测值。使是与带中的集群p相关联的时刻的集合。可以对频点k的级联观测值向量的矩阵执行奇异值分解，以获得该特定源的混合矩阵A(k)的行。如由相似性矩阵指示的，或许可以通过省略与范例具有相对较低的相似性的时刻来改进结果。

通过省略频率和带相关索引以简化记号，可以将奇异值分解编写为：

X^(p)＝U^(p)D^(p)V^(p)H， (9)

其中，和是单位的，其中，绝对值符号|·|表示集合的基数，并且是对角的。使是D^(v)的最大系数。然后，U^(p)和V^(p)的第一列(此处，被表示为和)指定X^(p)的最佳秩-1近似：

其中，可以将解释为相对传递函数，并且可以将解释为集群的驱动信号。现在，可以将频点k的混合矩阵的共轭转置构建为：

其中，已经省略了所有频率和带索引。

下文描述基于归一化平均的混合矩阵。用于获得集群p的相对传递函数的没那么准确但是计算复杂度较低的替代方案是：

其中，是具有参数化α₀的S型(sigmoidal)函数，并且其中，按照观测值的第一系数x₁(k，m)来将观测值归一化，并且其中，使用适当的范数。

下面描述基于伪逆的线性解混合。可以借助于伪逆通过混合矩阵A(k)来计算频点k的解混合矩阵W(k)。对于在该示例中考虑到的超定情况伪逆将观测值向量X(k，m)中未解释的方差最小化。因此，可以获得源信号集合每个源信号与带相关联。现在，可以将频点k的源信号确定为：

s(k，m)＝W(k)x(k，m). (13)

如果真实导向向量不与混合矩阵的估计的行对准，则伪逆会导致不好的结果。可以通过将解混合矩阵的行重新缩放到单位范数来消除该问题。所得到的方法可以被解释为：投影在混合矩阵的与其它源的其它行(即，估计的导向向量)正交的行的分量上，然后是再归一化。

可以通过考虑局部时间场景来进一步单独地增强解混合信号。考虑在会议场景中在特定时间段内提取一名特定谈话者。在该时间段内，可能不存在大多数其他谈话者。试图基于全局估计来抑制干扰源是对可用资源的低效使用。相反，可以考虑局部噪声和干扰物位置的变化。

可以考虑在时间上局部存在的干扰。在一些滥用记号的情况下，使描述局部时间段。某些实施方式的一些方面类似于广义旁瓣相消，并且因此，类似于在广义波束成形方法中使用的最终阶段。类似于广义旁瓣相消器，可以将位于源p的广义导向向量A_p.的零空间中的信号定义为干扰。因此，已经获得了维局部时间干扰信号然后通过在该时间段内去除与维推断过程相关的信号分量，找到在局部时间段内的增强的源信s(s)(k，m)：

其中

干扰过程的低方差可以识别由于实际的和估计的导向向量未对准因此干扰过程被期望源的泄漏支配的情况。当干扰过程具有低方差时，可以省略方程式(14)中的第二项。

可以基于相似性矩阵的行为来选择用于增强方法的时间段的边界。相似性矩阵可以显示出不同源和源的组合是活动的时间，并且这种区域的边界可以用于选择时间段。不能直接使用集合因为其不标记混合。

下文涉及基于最小方差无失真响应的线性解混合，这是与刚刚在上面描述的方法不同的方法。当根据提取的源的信号干扰比来对简单的基于伪逆的线性解混合的性能进行评估时，该性能会相对较差。在一些实施方式中，方法可以更好地执行，特别是当出现以下条件中的一个或者多个条件时：i)源P的数量较小，并且观测值维度Q较高、ii)源是间歇活动的(例如，会议中的谈话者或者歌曲中的乐器)、iii)背景噪声具有不均匀的空间轮廓。

作为示例，考虑在特定时间段内提取一个特定源。在所选择的时间段内，干扰源中的一些干扰源可能不存在。抑制不存在的源会是对资源(解混合向量中的自由度，该自由度与麦克风的数量减去期望源所用完的一个自由度线性相关)的低效使用。

考虑特定时间段、特定源p和频点k。令R_N(k)是麦克风的经验协方差矩阵，而源p在该段内没有贡献。令R_X(k)是麦克风在该段内的经验协方差矩阵。因此，有然后，线性最小方差无失真响应(MVDR)估计器用于源p，

方程式(15)和(16)相等遵循Woodbury矩阵等式(Woodbury matrix identity)。方程式(15)和(16)都可以用于在给定特定源的相对传递函数的情况下提取特定源。该原理与广义旁瓣相消器应用于波束成形器中的相对传递函数相似。

对R_X(k)进行评估会很简单，并且可以针对基于MVDR的源分离使方程式(15)一般化

其中，G是具有元素的对角矩阵。此处，方程式(17)与A(k)的标准伪逆不同。此外，在一些实施方式中，在较长的间隔内有利地估计混合矩阵A(k)，而在较短的时间间隔内对协方差矩阵R_X(k)和方程式(17)进行评估。解混合矩阵可以用于通过使用方程式(13)来获得源。

可以基于相似性矩阵的行为来选择时间段。当源的混合发生改变时，相似性矩阵通常可以清楚地显示出来。

下文涉及非线性后处理。可以通过使用后处理操作来改进线性解混合方法(无论该线性解混合方法是利用伪逆还是MVDR范式获得的)。后处理操作旨在在源p不活动时减少或者消除对该源的提取的信号的信号泄漏。通常存在泄漏，因为W的第p’行W_p'不完全与活动的源的相对传递函数正交。

考虑时刻m和带令是集群(源)p的范例。然后，如下增加方程式(13)中的解混合：

其中，是先前引入的具有不同参数化α₁的S型函数，并且其中，编写了针对源p的解混合。方程式(18)中的最后一个因子应该仅在源p的指示符函数消失的时刻的子集内(即，在不属于集群p的时刻内)抑制信道p的输出。

方程式(18)将后处理的效果限制在带中类似于范例的时刻。对于复杂形状的集群，可以用集群中的最近邻时刻来代替方程式(18)中的范例。

其中，

下文描述在带上的源置换。如果使用超过一个频带，则必须将在不同的频带中识别到的源的对应关系确定为需要被知道。这相对简单。对于提供可靠的源识别的带可以选择随后的源(集群)p并且使其指示符函数与其它带中的源q的指示符函数互相关；最大互相关识别正确的置换对(p，q)。如果其它带具有较少的源，则可以简单地忽略来自这些带的信号。如果存在更多的源，则这些源被认为是噪声，并且在分离过程中不考虑这些源。

下文描述递归处理。上面已经描述了数据块的源分离。在一些场景中，需要以最小延迟获得分离的源信号。在其它情况下，场景是动态的，并且需要随着时间的推移进行调整。简单的调整促进这种可能性。

此处首先描述了使上述基本聚类过程一般化以将延迟最小化。考虑在带中的聚类。对数据的子集执行聚类可以是合理的。使用数据的子集来进行聚类会引起聚类操作的两个扩展。第一，必须能够将数据点与现有范例相关联，即使该数据点在对应的聚类操作中未使用。第二，必须能够链接与相同源对应的不同聚类操作的范例。

此处首先讨论新数据点与集群的关联。利用基于最近邻的聚类方法，是简单地选择最近的质心。然而，对于基于范例的算法(诸如，马尔可夫聚类算法和近邻传播算法)，该方法可能不准确。对于基于范例的算法而不是寻找最近的质心，在这种情况下保留整个集群并且在集群中寻找最近的邻居会是适当的。集群需要具有足够的大小。

接下来讨论不同聚类操作之间的范例的链接。用于将现有的范例链接至新的聚类操作的最简单的方法会是：将范例包括在新的聚类操作中作为数据点并且找到它们被包括在其中的集群。由于未在马尔可夫聚类算法或者近邻传播算法中预先设置集群的数量，因此，可以添加与之前在数据集中未出现的源对应的新集群。事实上，如果可以利用聚类操作的相关联的数据点(集群)以及不同聚类操作的范例之间的链路，则会自然保留范例。可能发生不一致的链接：通过其它子集中的集群来链接子集内的集群。然后，可能自然地根据对应的相似性矩阵中的相似性测度破坏集群之间最弱的链路。

使用数据的子集的能力允许为子集引入时间约束。即，可以确定选择用于在寻找集群关联的每个后续时刻t内的聚类的时间间隔[t₀，t₁]的更新规则，其中，t₀≤t≤t₁。对于一系列后续时刻，共享单个聚类操作以节省计算量是自然的。算法延迟是被处理的所有t中差值t₁-t的最大值。增加的延迟和适当的间隔长度将提高分离系统处理不是时不变的场景(移动的源、源出现和消失)的能力。

因此，可以如上面描述的那样将在时间上的分离一般化为递归处理。该分离方法可以只使用一个频带，并且时频表示的每个时刻都可以与特定范例相关联。因此，只剩下对(8)的应用。在具有或者没有如上面描述的后处理和去置换的情况下将线性解混合一般化为递归处理也可以是简单的。一旦将频带的时刻与带中的集群相关联，就已知解混合矩阵和去置换。为了获得后处理加权，可以计算与范例对应的“等效”相似性矩阵条目。

图5示出了可以与此处描述的技术一起使用的通用计算机装置500和通用移动计算机装置550的示例。计算装置500旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、平板、工作台、个人数字助理、电视机、服务器、刀片式服务器、大型计算机和其它适合的计算装置。计算装置550旨在表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话和其它类似的计算装置。此处所示出的组件、其连接和关系以及其功能仅仅旨在是示例性的，并且不旨在限制本文中描述的和/或者要求保护的本发明的实施方式。

计算装置500包括：处理器502、存储器504、存储装置506、连接至存储器504和高速扩展端口510的高速接口508和连接至低速总线514和存储装置506的低速接口512。处理器502可以是基于半导体的处理器。存储器504可以是基于半导体的存储器。各个组件502、504、506、508、510和512利用不同的总线互相连接，并且可以安装在公共主板上或者根据需要以其它的方式安装。处理器502可以对在计算装置500内执行的指令进行处理，包括存储在存储器504中或者存储装置506上以在外部输入/输出装置(诸如，耦合至高速接口508的显示器516)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多种存储器一起使用。同样，可以连接多个计算装置500，各个装置提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器或者多处理器系统)。

存储器504储存在计算装置500内的信息。在一种实施方式中，存储器504是一个或者多个易失性存储器单元。在另一实施方式中，存储器504是一个或者多个非易失性存储器单元。存储器504还可以是另一种形式的计算机可读介质，诸如，磁盘或者光盘。

存储装置506能够为计算装置500提供大容量存储。在一种实施方式中，存储装置506可以是或者可以包括计算机可读介质，诸如，软盘装置、硬盘装置、光盘装置或者磁带装置、闪速存储器或者其它类似的固态存储器装置或者装置的阵列(包括存储区域网络或者其它配置的装置)。计算机程序产品可以有形地体现为信息载体。计算机程序产品还可以包括指令，该指令在被执行时执行一种或者多种方法，诸如，上文描述的那些方法。信息载体是计算机或者机器可读介质，诸如，存储器504、存储装置506、或者在处理器502上的存储器。

高速控制器508管理计算装置500的带宽密集型操作，而低速控制器512管理较低的带宽密集型操作。这种功能分配仅仅是示例性的。在一种实施方式中，高速控制器508耦合至存储器504、显示器516(例如，通过图形处理器或者加速器)和高速扩展端口510，该高速扩展端口710可以接受各种扩展卡(未示出)。在实施方式中，低速控制器512耦合至存储装置506和低速扩展端口514。可以例如，通过网络适配器来将可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口耦合至一个或者多个输入/输出装置，诸如，键盘、指向装置、扫描器、或者网络装置(诸如，交换机或者路由器)。

如图所示，可以利用多种不同的形式来实施计算装置500。例如，可以将计算装置500实施为标准服务器520、或者多次实施在一组这种服务器中。还可以将计算装置500实施为机架服务器系统524的一部分。另外，计算装置500可以实施在个人计算机(诸如，膝上型计算机1022)中。可替代地，来自计算装置500的组件可以与移动装置(未示出)(诸如，装置550)中的其它组件结合。各个这种装置可以包括一个或者多个计算装置900和550，并且整个系统可以由彼此通信的多个计算装置500和550组成。

除了其它组件之外，计算装置550包括处理器552、存储器564、输入/输出装置(诸如，显示器554)、通信接口566、和收发器568。装置550还可以设置有用于提供额外的存储的存储装置，诸如，微型硬盘或者其它装置。各个组件550、552、564、554、566、和568通过使用各种总线相互连接，并且一些组件可以安装在公共主板上或者根据需要以其它方式安装。

处理器552可以执行在计算装置550内的指令，包括存储在存储器564中的指令。可以将处理器实施为包括单独的和多个模拟和数字处理器的芯片的芯片集。处理器可以提供，例如，对装置550的其它组件的协调，诸如，用户界面的控制、由装置550运行的应用、和通过装置550进行的无线通信。

处理器552可以通过耦合至显示器1054的控制接口558和显示接口556来与用户进行通信。例如，显示器554可以是TFT LCD(薄膜晶体管液晶显示屏)或者OLED(有机发光二极管)显示器，或者其它合适的显示技术。显示接口556可以包括用于驱动显示器554向用户呈现图形和其它信息的合适的电路系统。控制接口558可以接收来自用户的命令并且对该命令进行转换以提交至处理器552。另外，外部接口562可以提供与处理器552的通信，以便使装置550能够与其它装置进行邻近区域通信。在一些实施方式中，外部接口562可以提供，例如，有线通信，或者在一些实施方式中可以提供无线通信，并且还可以使用多个接口。

存储器564存储在计算装置550内的信息。可以将存储器564实施为一个或者多个计算机可读介质、一个或者多个易失性存储器单元、或者一个或者多个非易失性存储器单元。还可以提供扩展存储器574并且通过扩展接口572将扩展存储器974连接至装置550，该扩展接口972可以包括，例如，SIMM(单线存储器模块)卡接口。这种扩展存储器574可以为装置550提供附加存储空间，或者还可以存储装置550的应用或者其它信息。具体地，扩展存储器574可以包括用于执行或者补充上文描述的过程的指令，并且还可以包括安全信息。因此，例如，可以将扩展存储器574提供为装置550的安全模块，并且可以用允许安全使用装置550的指令来对其进行编程。另外，可以经由SIMM卡与附加信息(诸如，将识别信息通过不可侵入的方式放在SIMM卡上)一起来提供安全应用。

如下面讨论的，存储器可以包括：例如，闪速存储器和/或NVRAM存储器。在一种实施方式中，计算机程序产品有形地体现为信息载体。计算机程序产品包括指令，该指令在被执行时执行一种或者多种方法，诸如，上文描述的那些方法。信息载体是计算机或者机器可读介质，诸如，存储器564、扩展存储器574或者在处理器552上的存储器，可以例如，通过收发器568或者外部接口562来接收该信息载体。

装置550可以通过通信接口566来无线地进行通信，若需要，该通信接口566可以包括数字信号处理电路系统。通信接口566可以提供在各种模式或者协议下的通信，诸如，GSM语音通话、SMS、EMS、或者MMS短信发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或者GPRS等。这种通信可以例如，通过射频收发器568发生。另外，短程通信可以诸如，通过使用蓝牙、WiFi或者其它这种收发器(未示出)发生。另外，GPS(全球定位系统)接收器模块570可以向装置550提供附加的与导航或者位置有关的无线数据，若合适，该无线数据可以供在装置550上运行的应用使用。

装置550还可以通过使用音频编解码器560来进行可听地通信，该音频编解码器560可以接收来自用户的口头信息，并且将口头信息转换为可用的数字信息。音频编解码器560还可以为用户生成可听见的声音，诸如，通过扬声器，例如，在装置550的听筒中的扬声器。这种声音可以包括来自语音电话的声音，可以包括录制的声音(例如，语音消息、音乐文件等)，并且还可以包括通过在装置550上操作的应用生成的声音。

如图所示，可以利用多种不同的形式来实施计算装置550。例如，可以将计算装置550实施为蜂窝电话580。还可以将计算装置550实施为智能电话582、个人数字助理或者其它类似的移动装置的一部分。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向物体的编程语言和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来向计算机提供输入。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台组件的计算系统(例如，作为数据服务器)或者包括中间件组件的计算系统(例如，应用服务器)或者包括前端组件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)或者包括这种后台组件、中间件组件或者前端组件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的组件相互连接。通信网络的示例包括：局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

已经描述了若干实施例。然而，要明白，在不脱离本发明的精神和范围的情况下，可以进行各种修改。

在下面的示例中总结进一步实施方式：

示例1：一种方法，该方法包括：接收位于位置的一组麦克风产生音频信号的时刻；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度，该相似性测度测量针对频率在不同的时刻音频信号的相似性；以及基于确定的相似性测度来处理音频信号。

示例2：根据示例1的方法，其中，确定失真测度包括：在不同的时间确定涉及事件的向量方向性的相关性测度。

示例3：根据示例2的方法，其中，相关性测度包括基于内积的距离计算。

示例4：根据示例1至3中任一项的方法，其中，相似性测度包括内核化距离测度。

示例5：根据示例1至4中任一项的方法，进一步包括：向相似性测度应用加权，该加权对应于针对时间对遍及频率分量的带的相对重要性。

示例6：根据例1至5中任一项的方法，其中，确定多个相似性测度，该方法进一步包括：基于确定的相似性测度来生成频率分量的相似性矩阵。

示例7：根据示例6的方法，进一步包括：通过使用生成的相似性矩阵来执行聚类，该聚类指示特定集群是活动的时间段，集群与位于该位置处的声源对应。

示例8：根据示例7的方法，其中，执行聚类包括：执行基于质心的聚类。

示例9：根据示例7的方法，其中，执行聚类包括：执行基于范例的聚类。

示例10：根据示例7的方法，进一步包括：使用聚类在时间上执行解混合。

示例11：根据示例7的方法，进一步包括：使用聚类作为预处理步骤。

示例12：根据示例11的方法，其中，执行聚类包括：为每个频率计算混合矩阵，并且然后通过该混合矩阵来确定解混合矩阵。

示例13：根据示例12的方法，其中，确定解混合矩阵包括：使用混合矩阵的伪逆。

示例14：根据示例12的方法，其中，确定解混合矩阵包括：使用最小方差解混合。

示例15：根据示例1至14中任一项的方法，其中，处理音频信号包括：对参与者进行语音识别。

示例16：根据示例1至15中任一项的方法，其中，处理音频信号包括：针对来自参与者的音频内容对音频信号执行搜索。

示例17：一种有形地体现在非暂时性存储介质中的计算机程序产品，该计算机程序产品包括指令，该指令在被执行时使处理器执行操作，这些操作包括：接收由位于位置的一组麦克风产生的音频信号；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度；以及基于确定的相似性测度来处理音频信号。

示例18：根据示例17的计算机程序产品，其中，相似性测度包括内核化距离测度。

示例19：根据示例17的计算机程序产品，其中，该计算机程序产品在被执行时使处理器执行包括根据示例1至3以及5至16的方法中的一种方法的步骤的操作。

示例20：一种系统，该系统包括：处理器；以及有形地体现在非暂时性存储介质中的计算机程序产品，该计算机程序产品包括指令，该指令在被执行时使处理器执行操作，这些操作包括：接收由位于位置的一组麦克风产生的音频信号；确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；通过使用确定的失真测度来确定频率分量的相似性测度；以及基于确定的相似性测度来处理音频信号。

示例21：根据示例20的系统，其中，相似性测度包括内核化距离测度。

示例22：根据示例20的系统，其中，计算机程序产品包括指令，该指令在被执行时使处理器执行包括根据示例1至3以及5至16的方法中的一种方法的步骤的操作。

另外，附图中所描绘的逻辑流程不需要所示出的特定顺序或者相继顺序以实现期望的结果。另外，可以提供其它步骤，或者可以从所描述的流程删除步骤，并且可以向所描述的系统添加其它组件，或者从所描述的系统去除其它组件。因此，其它实施例在以下权利要求书的范围内。

Claims

1.一种方法，包括：

接收位于位置处的一组麦克风产生的音频信号的时刻；

确定接收的音频信号中的至少一些音频信号的频率分量之间的失真测度；

通过使用确定的失真测度来确定所述频率分量的相似性测度，所述相似性测度测量针对频率在不同的时刻的所述音频信号的相似性；以及

基于确定的相似性测度来处理所述音频信号。

2.根据权利要求1所述的方法，其中，确定所述失真测度包括：在不同的时间确定涉及事件的向量方向性的相关性测度。

3.根据权利要求2所述的方法，其中，所述相关性测度包括基于内积的距离计算。

4.根据权利要求1所述的方法，其中，所述相似性测度包括内核化相似性测度。

5.根据权利要求1所述的方法，进一步包括：向所述相似性测度应用加权，所述加权对应于针对时间对遍及频率分量的带的相对重要性。

6.根据权利要求1所述的方法，其中，确定多个相似性测度，所述方法进一步包括：基于所确定的相似性测度来生成所述频率分量的相似性矩阵。

7.根据权利要求6所述的方法，进一步包括：通过使用生成的相似性矩阵来执行聚类，所述聚类指示特定集群是活动的时间段，所述集群与位于所述位置处的声源对应。

8.根据权利要求7所述的方法，其中，执行所述聚类包括：执行基于质心的聚类。

9.根据权利要求7所述的方法，其中，执行所述聚类包括：执行基于范例的聚类。

10.根据权利要求7所述的方法，进一步包括：使用所述聚类在时间上执行解混合。

11.根据权利要求7所述的方法，进一步包括：使用所述聚类作为预处理步骤。

12.根据权利要求11所述的方法，进一步包括：为每个频率计算混合矩阵，并且然后通过所述混合矩阵来确定解混合矩阵。

13.根据权利要求12所述的方法，其中，确定所述解混合矩阵包括：使用所述混合矩阵的伪逆。

14.根据权利要求12所述的方法，其中，确定所述解混合矩阵包括：使用最小方差解混合。

15.根据权利要求1所述的方法，其中，处理所述音频信号包括：对参与者进行语音识别。

16.根据权利要求1所述的方法，其中，处理所述音频信号包括：针对来自参与者的音频内容对所述音频信号执行搜索。

17.一种有形地体现在非暂时性存储介质中的计算机程序产品，所述计算机程序产品包括指令，所述指令在被执行时使处理器执行操作，所述操作包括：

接收位于位置处的一组麦克风产生的音频信号的时刻；

确定接收到的音频信号中的至少一些音频信号的频率分量之间的失真测度；

基于确定的相似性测度来处理所述音频信号。

18.根据权利要求17所述的计算机程序产品，其中，所述相似性测度包括内核化相似性测度。

19.一种系统，包括：

处理器；以及

有形地体现在非暂时性存储介质中的计算机程序产品，所述计算机程序产品包括指令，所述指令在被执行时使处理器执行操作，所述操作包括：

接收位于位置处的一组麦克风产生的音频信号的时刻；

基于确定的相似性测度来处理所述音频信号。

20.根据权利要求19所述的系统，其中，所述相似性测度包括内核化相似性测度。