CN111133511A

CN111133511A - 声源分离系统

Info

Publication number: CN111133511A
Application number: CN201780094920.6A
Authority: CN
Inventors: 大卫·贝茨
Original assignee: Yinzhi Co Ltd
Current assignee: Yinzhi Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2020-05-08
Anticipated expiration: 2037-07-19
Also published as: EP3655949B1; WO2019016494A1; DK3655949T3; US11354536B2; EP3655949A1; CN111133511B; US20200167602A1

Abstract

本申请描述一种声源分离的方法。该方法包括：输入来自多个声学传感器的声学数据，该声学数据包括由多个声源组合生成的声学信号；将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及生成多通道滤波器，以通过作用于所述时频数据帧而从所述声源中分离信号，其中，所述生成包括：确定一组解混矩阵(W_f)，该组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，其中，所述确定包括：以各个频率下的梯度值(G；G′)来分别修改相应的所述解混矩阵，所述梯度值取决于用于度量相应解混矩阵实现声源分离的成本函数的梯度，各个频率下的相应的梯度值是根据对所述时频数据帧的随机选择来进行计算的。

Description

声源分离系统

技术领域

本发明涉及用于声源分离的方法、装置及计算机程序代码，其一种例示用途为例如辅助听力受损之人将多个同时说话的不同说话者相互区别开来的盲源分离，另一例示用途为辅助车载语音控制系统或数字助理设备的自动语音识别功能在噪音存在的条件下进行语音识别。

背景技术

许多人在身处饭店、会议室等嘈杂环境中时，其语音理解能力会大大降低。这便是与年龄相关的听力受损的初始征兆之一，其将严重限制此类人员在正常社交情景中的互动能力。对于患有此类听力受损的人员，其听力阈值并不一定发生任何退化，而且在不存在干扰噪声时，能够很好地理解语音。出于这一原因，许多此类人员可能本身并不会意识到其存在听力问题，而且传统的助听器也没有多大效果。盲源分离能够将目标说话者与产生干扰的其他说话者分离开来，从而有助于解决上述和其他问题。

类似地，自动语音识别系统在嘈杂环境，尤其有多个人同时说话的此类环境中会因无法识别命令而不能正常工作。盲源分离能够通过将音频输入分为多个可供分析是否存在语音命令的源而有助于解决这一问题。

盲源分离涉及对来自一组混合信号，尤其事先不知混合参数的一组混合信号的一组源信号进行分离。目前，已经存在已知的盲源分离技术，例如将独立成分分析(ICA)与麦克风阵列结合使用的技术。从广义上讲，此类技术很大程度上作为一种波束成形技术，将零点转向非所需的源。更具体而言，此类技术将信号源看作在统计意义上相互独立的源，并生成尽可能相互独立的信号输出。其中，先将输入信号分成多个频段，每一频段独立处理后，再将不同频率下的结果重新组合。

然而，此类技术的计算成本相对较高，而且在某些情况下，结果并不理想。Zhao等人在arXiv:1401.2753，2014中描述了一种“采用重要性抽样法的随机优化”技术。然而，由于该技术旨在提高数学收敛速度，因此每次只能选择一个训练样例。此外，由于该技术依赖于对所要解决的优化问题的形式作出一些限制性的约束条件(第3章的定义部分)，因此并不适用于某些类型的问题。这些问题使得该技术不能为本发明所要解决的盲源分离问题带来显著改善效果。

因此，本文中将描述对盲源分离和相关技术的改进。

发明内容

相应地，根据本发明的一个方面，提供一种声源分离方法，该方法包括：：输入来自多个声学传感器的声学数据，该声学数据包括由多个声源组合生成的声学信号；将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及生成多通道滤波器，以通过作用于所述时频数据帧而从所述声源中分离信号，其中，所述生成包括：确定一组解混矩阵(W_f)，该组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，其中，所述确定包括：以各个频率下的梯度值(G；G′)来分别修改相应的所述解混矩阵，所述梯度值取决于用于度量相应解混矩阵实现声源分离的成本函数的梯度，各个频率下的相应的梯度值是根据对所述时频数据帧的随机选择来进行计算的。

该方法的实施方式能够将生成所述用于声源分离的多通道滤波器的计算负担降低3～5倍，从而相应提高该过程的速度。在一种典型实施方式中，该方法通过假设声学环境的变化相对较慢而以准静态进行盲源分离，也就是说，以一定的时间间隔，根据传入的数据生成多通道滤波器，并在新的滤波器生成之前一直使用当前的滤波器。所述滤波器通过应用至时频域数据而确定表示相互分离的声源的解混后时频数据。随后，表示各源当中的至少一者的解混后时域数据可从解混后时频数据恢复。

在一些实施方式中，表示各源当中的至少一者的解混后时域数据可由数字助理系统或语音命令系统处理。

本领域技术人员可理解的是，该技术的实施方式可用于各种基于梯度的优化方法，包括但不限于，基于最陡上升/下降梯度、自然梯度及共轭梯度的方法(取决于所使用的梯度值)。每一此类方法均具有等同的随机解释。

在该方法的各实施方式中，时频数据帧的随机选择通过如下方式实现：从这些帧中随机选择多个(或一组)用于计算解混矩阵更新所用梯度值的帧，其中，被选帧可以为传入帧，或者更优选地，来自数据缓冲器。本领域技术人员可理解的是，每一频率通道均存在一个相应的解混矩阵(因此为一组解混矩阵)，而且每一频率通道优选(但非必须)使用相同的随机选择帧。

在各实施方式中，通过多个随机选择帧计算梯度。具体而言，对于一组帧的随机选择基于各帧的相应选择概率λ_t，其中，下标t表示各帧的时刻(时间间隔)t。在各实施方式中，所述选择概率取决于时刻t下的帧的重要性度量值，如此可以实现向重要程度更高的帧赋予更大的权重值/选择概率，而向重要程度更低的帧赋予更低的权重值/选择概率。本领域技术人员可以理解的是，许多不同的参数可分别单独或相互组合用于确定所述重要性度量值，以下将给出这方面的若干示例。

本领域技术人员还可理解的是，每当(此处及其他各处)提及确定各帧的概率或权重值时，一般(但非必须)均指每一频率均可使用相同概率/权重值。因此，当确定各帧的概率或权重值时，通常先确定每一时刻t下的概率/权重值，然后将其应用至所有相关频率即可，无需针对每一时频组合分别确定概率/权重值。

在一些优选实施方式中，传入的时频数据帧以与其相应重要性度量值，即权重值/选择概率相关联的方式存储于缓冲器中。因此，在各实施方式中，通过对转换至时频域之前或之后传入的声学数据进行处理而确定各帧的重要性度量值。其中，通过处理所述声学数据可例如确定以下的一者或多者：源数；一个或多个源的位置；以及一个或多个源的活度(例如，该源产生的声学信号水平是否大于阈值)。总体而言，确定此类源的表征数据的难度远低于源分离的难度，而且包括波达方向估算技术在内，此方面可以采用的多种技术已为本领域技术人员所知。作为增补或替代方案，源分离方法的输出可本身用于定位及/或表征一个或多个源。

在各实施方式中，各声源处于活动状态下的声源活动帧的数目不同，并且确定重要性度量值的目的可在于均衡这些具有不同声源活动帧数的声源的贡献度。其中，含有纳入该过程的声源的帧的重要性度量值可与该源所在帧的数目成反比(以为含活度低于均值的目标源的帧设定相对较高的重要性)。如此，从广义上讲，可向含仅间歇性或短时间内活动的目标源的帧赋予相对较高的权重值，从而均衡各帧的贡献度。可以理解的是，所述均衡可无须为确切均衡。

在上述方法的各实施方式中，频率通道的解混矩阵以相应梯度值迭代更新，而所述梯度值则如上所述，根据随机选择的时频数据帧计算得出。在该方法的一种改进实施方式中，作为所述梯度值依据的帧的数目可在不同迭代步骤之间发生变化。例如，越晚的迭代更新的梯度计算中可使用越多的帧，而越早的迭代更新的梯度计算中可使用越少的帧。广义上而言，解混矩阵越逼近其最优值，可通过使用更多的帧计算出更为精确的解混矩阵更新梯度。然而，由于使用的帧越多，计算过程越慢，因此起初可使用较少的帧。如此，可进一步实现计算负担的总体下降/计算速度的总体提升。

本领域技术人员可以理解的是，在数学上，解混矩阵(W_f)的总体规模与其源分离能力并无关联，也就是说，缩放后的解混矩阵可实现相同的源分离操作(缩放不确定性可另外解决)。在另一可选改进实施方式中，可例如在每次迭代步骤中将解混矩阵预先缩放，以尤其提高用于确定解混矩阵的该迭代过程的稳定性。在各实施方式中，该技术通过将解混矩阵预缩放而使得替代成本函数最小化，所述替代成本函数为最小值与解混矩阵(W_f)下分离后信号的固定似然度值对应的成本函数。在各实施方式中，预缩放的目的在于使梯度值矩阵G与单位矩阵I之差(即

(其中F表示弗罗贝尼乌斯范数(Frobenius norm)))的度量值最小化，而非使得似然度最大化，这是因为前者在理论上能够保证更佳的稳定性。

在一种方法中，可通过标量预缩放有效地将所有源(通道)同时预缩放。在另一种方法中，可通过向解混矩阵应用对角预缩放矩阵而实现各源(通道)的独立缩放。这一方法对于各源/输入通道之间存在音量失衡的情形尤为有效。

在一个相关方面中，本发明提供一种声源分离装置，该装置包括：用于从多个声学传感器接收声学数据的一个或多个输入端，所述声学数据包括由多个声源组合生成的声学信号；以及与所述一个或多个输入端连接的音频信号处理器，该音频信号处理器包括：用于将所述声学数据转换为时频域数据的时频域转换器，所述时频域数据包括多个时刻和频率下的多个时频数据帧；以及通过作用于所述时频数据帧而从所述声源中分离信号的多通道滤波器模块，其中，所述音频信号处理器还用于：确定一组解混矩阵(W_f)，所述一组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，所述一组解混矩阵通过以各个频率下的梯度值(G；G′)来分别修改相应的解混矩阵的方式确定，所述梯度值取决于用于度量通过通过相应解混矩阵实现声源分离的成本函数的梯度；根据对所述时频数据帧的随机选择，计算针对各个频率的相应的梯度值。

本发明还提供一种声源分离或自适应波束成形方法，该方法包括：从多个声学传感器输入声学数据，该声学数据包括由多个声源组合生成的声学信号；将所述声学数据转换为含多个时刻和频率下的多个时频数据帧的时频域数据；以及生成多通道滤波器，通过作用于所述时频数据帧以实施声源分离或自适应波束成形，其中，通过确定待一一应用至相应时频数据帧的一组矩阵，并向一组时频数据帧当中的每一个分配权重值的方式来生成所述多通道滤波器。

本领域技术人员可以理解的是，虽然该方法的实施方式参考盲源分离进行描述，但是该技术的应用不限于此，其还可应用至MVDR(最小方差无失真响应)等的频域自适应波束成形技术以及其他波束成形技术。在这些应用中，先选择用于确定空间协方差矩阵的帧，然后通过处理空间协方差矩阵(例如，在MVDR技术中对其进行求逆)而确定一个或多个波束方向。

然而，在声源分离实施方式中，该方法还确定一组解混矩阵，该组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应时频数据帧而确定分离后输出向量。所述确定包括以相应频率下的梯度值分别迭代更新所述解混矩阵，所述梯度值取决于按照相应解的混矩阵度量声源分离的成本函数的梯度。解混矩阵的梯度值通过将该解混矩阵作用于所述一组时频数据帧当中的部分或全部时频数据帧而获得的估算值相加来确定。所述相加为以分配给所述一组时频数据帧的权重值进行的加权。

在一些实施方式中，所述一组时频数据帧包括按时间顺序排列的一系列帧，其中的每一帧均带有相应权重值。可选地，所述权重值也可随频率的不同而变。在其他实施方式中，所述加权通过从所述组内随机选择帧的方式实现，其中，选择概率取决于为各帧分配的权重值。

如上所述，在一些实施方式中，在为各帧分配权重值/概率时，可在每一频率下使用相同的权重值/概率。在此类实施方式中，先确定每一时刻t下的权重值/概率，然后将其施加至所有相关频率即可，无需针对每一时频组合分别确定概率/权重值。

在优选实施方式中，各帧按照与其相应权重值相关联的方式存储于缓冲器中。所述缓冲器可以为先进先出(FIFO)缓冲器，例如其可实施为环形缓冲器。但是，这一方式隐含时间上较早的帧的重要性较低的假设，但实际上却并不总是如此。因此，所述缓冲器优选通过将按相应权重值确定的重要性最低的帧覆盖(其中，权重值越低，对应的重要性越低)的方式更新。在该方式下，各帧可不存在固定的存储时长，而且尤其在舍弃时间上较早的帧的方面不存在任何时间上限。在一种可能的实施方式中，可根据新帧(来自新的声学数据)与重要性最低的现有帧之间的权重值之差更新所述缓冲器，从而使得该缓冲器仅在当新帧优于所有现有帧时才实施更新。此外，在计算用于更新解混矩阵的梯度时，可从所述缓冲器随机选择帧，其中，帧的随机选择概率取决于帧的权重值。

在各实施方式中，各帧分配的权重值可随帧缓冲器的更新而动态改变。此外，从所述缓冲器中选择待替代的帧时使用的权重值与计算滤波器系数时使用的权重值既可相同，也可不一定相同。

如上所述，各种方法可用于为帧分配权重值/概率/重要性。以下，将描述更多的此类技术，这些技术即可用作本发明上述各方面的补充方案，也可作为其替代方案。

相应地，在另一方法中，与直觉想法相反的是，可向含音频干扰源的帧分配相对较高的权重值。这一做法的目的在于，在此类源解混后，可将其有效地“调节除去”。类似地，可以向含一个或多个目标源的帧分配相对较高的权重值。如此，用于该滤波器的“必要源”可同时包括一个或多个目标源和一个或多个干扰源。这些帧能够与非解混问题所需的其他帧(可称为“无关”帧)区别开来。后一类型的帧也可包括一个或多个干扰源，而这些干扰源可在解混后有效地在解混后各源之间“抹平”。这一做法可用于白噪声类型的干扰，其原因在于，这种干扰摊派方式相对较为无害。

在另一方法中，可向声源数大于声学传感器(麦克风)数的帧分配相对较低的权重值。这是因为，在此类情形下，解混易于因缺乏足以正确分离声源的信息而失败，而且此类帧的最佳结果充其量为无助于事(需要注意的是，由于声源分离并不逐帧发生变化，而是仅在当多通道滤波器系数更新时才起变化，因此不仅是单独的帧，当整个帧缓冲器内的声源数大于传感器数时，也会发生此类声源数超出传感器数的问题。在该情形下，可以将某些源指定为“无关源”，并向含有此类无关源的帧赋予零权重值或极低的权重值。)

在又一方法中，可以向所含声源最近时间内无活动的帧分配相对较低的权重值。该方法建立在时间上较早的源不太可能在当前再次活动的这一启发式假设上。

同样地，上述技术的某些优选实施方式的目的在于盲源分离，即通过将多通道滤波器应用于时频域数据而确定表示(解混后)声源的解混后时频数据。该解混后时频数据随后可转换至时域，以恢复出一个或多个源的解混后时域(声学)数据。

在所述本发明的一个相关方面，提供一种声源分离或自适应波束成形装置，该装置包括：一个或多个输入端，用于从多个声学传感器接收声学数据，所述声学数据包括由多个声源组合生成的声学信号；以及与所述一个或多个输入端连接的音频信号处理器，该音频信号处理器包括：时频域转换器，用于将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及多通道滤波器模块，通过作用于所述时频数据帧以实施声源分离或自适应波束成形，通过确定待一一应用至相应时频数据帧的一组矩阵，并向一组时频数据帧当中的每一个分配权重值的方式来生成所述多通道滤波器。

同样地，该系统的各实施方式可应用至源分离或MVDR等波束成形领域。上述方法的优选特征同样可在该装置的情形中实施。

此外，在各实施方式中，所述装置可进一步包括至少两个帧缓冲器。其中的第一帧缓冲器用于存储来自各声学传感器的待通过处理而获得所述矩阵的时频数据，其中的第二帧缓冲器小于所述第一帧缓冲器，所述第二帧缓冲器用于存储在所述处理过程中从各声学传感器传入的时频数据；以及包括更新机制的帧缓冲管理器，以根据所述权重值从所述第二帧缓冲器选择一个数据子集来更新所述第一帧缓冲器。

可以理解的是，在本发明的所有上述方面/实施方式中，所述声学数据既可为模拟数据，也可以为数字数据。在各实施方式中，将输入音频从时域转换至时频域的一种优选方法为采用STFT(短时傅里叶变换)。也就是说，重叠的时域帧可例如通过离散傅里叶变换转换至时频域。然而，本领域技术人员可以理解的是，还可采用多种其他替代技术，尤其基于小波的方法。

还可以理解的是，本发明的上述方面和实施方式可以相互组合。

本领域技术人员可以理解的是，上述技术可用于各种不同类型的源分离多通道滤波、自适应波束成形等的技术(总之，各类型的信号分离算法)。因此，虽然下述各实施方式以最大似然独立成分分析(ML-ICA)为例，但该技术还可例如应用于快速ICA等的其他类型的ICA，独立向量分析(IVA)，基于波谱的波束成形方法等的技术。

一般情况下，所有此类方法均采用解混矩阵，该解混矩阵在应用至多通道时频观测值时，以生成(时频域内的)解混后输出，其中，各频率通道的解混矩阵均通过迭代更新的方式确定。所述更新包括确定成本函数，该成本函数从广义上讲，表示输入的声学观测值与基于未知源和解混矩阵的模型的匹配程度如何。因此，在ML-ICA中，所述成本函数表示观测值在假设的解混矩阵(及未知声源)下的似然度。此外，还可采用其他成本函数，而且更具体而言，此类成本函数可视为源分离中的解混矩阵有效性的一种度量手段。如此，该成本函数的梯度(或正或负)即可有效地确定解混矩阵元素应该朝哪个“方向”调节，才能斜上(或斜下)式地逼近使源之间的分离程度最优化(最大化)的结果。总体而言，该优化为一种使所述成本函数的斜率朝能够获得解的方向逐步上偏(或下偏)的迭代过程。本领域技术人员可以理解的是，本申请技术能够应用至任何按照上述方式生成信号分离多通道滤波器的方法的情形中。

一般情况下，在本申请方法的实施方式中，音频源分配于通道。然而，如果通道数目过多，该方法可在多个通道之间分割声源，但需要避免分割物理上实际存在的声源。因此，在各实施方式中，该方法可通过预处理所述声学数据而将有效声学传感器数减小至目标“虚拟”传感器数，从而将所述数据的维度有效减少至与实际源的数目相匹配。这一点既可根据已知目标源的数目实现，也可根据对可能源的数目的某种启发或假设实现。数据维数的缩减可通过舍弃部分声学传感器的数据或采用主成分分析的方式实现。

在各实施方式中，通过将输入时频观测值(x_ft)与非方阵缩维矩阵D_f相乘的方式缩减维度，从而使得输出向量的长度小于输入向量的长度(x_ft←D_fx_ft)。作为替代方案，也可在多通道滤波器生成过程中利用W_f←W_fD_f这一转换进行维度缩减，从而使得W从方阵转为长方矩阵(如此，D_f实际上为向所述过程的运行子空间转换的投影矩阵)。虽然，后一方法因矩阵W较大而看似计算成本较高，但例如对于SIMD架构而言，其成本实际上相同。

在各实施方式中，本发明方法还可对解混矩阵的缩放不确定性进行补偿。总体而言，虽然独立成分分析可能将该方法的输出(源估算值)基本视为相互独立的量，但各个频段还可能经任意缩放处理。从概念上讲，缩放不确定性的补偿可通过例如以其中的一个(在立体声输出信号情形中为两个)声学传感器(麦克风)为参照物确立特定源在一个或多个声学传感器处(或甚至在根据原本麦克风建立的虚拟参照声学传感器处)的声音形态的方式实现。在实际应用中，仅需知悉解混矩阵(该矩阵的伪逆矩阵可使得各源在映射回麦克风时的失真最小化)，便可解决缩放不确定性问题。其中，用户或方法可例如通过选择输出数据y_f(s)中与基于源(通道)s的信号估算结果相应的元素的方式选择待“听取”的源。

该方法实施方式以一定的间隔对前后相继且按时间排列的各系列声学数据进行盲源分离。然而，各源的标识信息(例如以s为索引号)可例如在W以随机方式初始化而非按照之前的计算结果初始化时，随间隔的不同而不同。如此，有助于识别各间隔当中实际源与源标识信息(索引号s)之间的对应关系，从而能够部分或完全消除源的排列不确定性。本领域技术人员可理解的是，这一目的可通过各种不同的技术实现。例如，在某些应用中(例如，当需要将麦克风内置于仪表盘中的车辆内的驾驶员或乘客的语音输出指向目标时)，所需目标源与声学传感器(麦克风阵列)之间可具有基本确定或固定的空间关系。在另一种方法中，可将响度最大的源(即音频功率最大方向上的源)视为目标源——例如，需要在视频会议等场景中将说话者的声音与空调设备背景音区分开来。由于本发明技术的优选实施方式本身通过预处理对源进行表征，以例如实现确定源的活度及方向/位置的目的，因此这一信息可用于将实际源与源标识信息配对，从而在解混过程中消除任何源的识别方面的不确定性。

可选地，上述系统或用户可先选择用于选择目标源的目标方向，然后可由上述方法找出与所选方向最佳匹配的源。这一操作可例如通过选择上述所选方向上的麦克风阵列相位响应与所述一组解混矩阵中的对应部分(行)之间的相位关联度最高的源的方式实现。

本领域技术人员可理解的是，本发明方法的各实施方式直接获得源估算值(y)或选定源的估算值(y(s))，但是该估算值为时频域内的值。该源估算值既可直接在时频域内使用，也可转换回时域。此外，作为替代方案，也可通过例如以逆傅里叶变换将解混矩阵W从时频域转换至时域以确定时域解混滤波器，然后通过将该时域解混滤波器应用至时域输入数据从而实现时域内的解混操作。

总体而言，所述多通道滤波器的参数无论是处于时频域或时域中，均可供存储、传输(例如经网络或其他传输链路传输)或用于显示等的其他某些用途；而且/或者这些参数也可应用于输入数据(无论是时频域数据，还是时域数据)，所得滤波后(源分离后)的数据可供听取、存储、传输或用于显示等的其他某些用途。

上述盲源分离技术中的计算可能相对较为耗时，与该方法的实施方式可能需要以基本实时的方式运行这一需求相悖。为了实现这一目标，该方法可按一定间隔对成块捕获声学数据进行处理，以确定解混滤波器系数，即确定解混矩阵W_f，并随后可按一定间隔将所述系数下载至可进行相应配置的滤波器，以令其对声学传感器的声学数据进行实时处理。

解混后的音频信号输出(一般来自自动或手段选择的源)可随用途的不同而以多种不同方式输出和/或使用。例如，当上述系统用作助听器时，所述音频输出可提供给耳机、耳塞等设备，或者还可提供给传统的助听器。或者，所述音频输出也可提供给其他电子设备，如视频会议系统、固定电话或移动电话(如带有车载通信系统的此类设备)。

本领域技术人员可以理解的是，在上述装置中，所述音频信号处理器可实施为专用数字信号处理器或膝上型计算机、平板电脑、智能手机等通用计算系统的硬件(如专用电子电路)、固件，软件或其组合。

本领域技术人员还可理解的是，上述各方法的各实施方式既可本地实施(例如，在通用或专用计算机或信号处理器、电话或其他消费计算设备上实施)，也可部分或全部远程实施(例如，以膝上型计算机、电话等装置的通信构件在云上实施)。

本发明还提供一种例如在通用计算机系统或数字信号处理器(DSP)上实施上述方法和装置的处理器控制代码。该代码提供于盘片、CD-ROM、DVD-ROM等非暂时性物理数据载体，非易失性存储器(如闪存)等编程存储器或只读存储器(固件)上。用于实施本发明实施方式的代码(和/或数据)可包括以C语言等传统编程语言(解释或编译)写成的源代码、目标代码或可执行代码，汇编码或硬件描述语言代码。本领域技术人员可理解的是，此类代码和/或数据可分布于多个相互连接和彼此通信的部件之间。

附图说明

以下，参考附图，仅以举例方式进一步说明本发明的上述和其他方面。附图中：

图1所示为用于说明根据本发明实施方式的系统的操作的声学环境一例；

图2所示为音频信号盲源分离装置的例示结构；

图3a和图3b所示分别为用于图2装置的例示空间滤波器以及根据本发明实施方式的帧缓冲管理的一种例示实现形式；

图4所示为图2装置中时频域滤波器确定系统的各模块；

图5为本发明一种实施方式的盲源分离方法的流程图；

图6所示为编程为用于实现根据本发明实施方式的盲源分离的通用计算系统。

具体实施方式

总体而言，本文将对盲源分离技术进行描述，这些技术在其实施方式中作用于小型麦克风阵列的音频输出，以将目标源与一个或多个干扰源分离开来。在一种应用中，用户可通过耳机或助听器实时听取目标源。然而，该技术并不仅限用于助听领域，还可用于任何由传感器阵列对以线性卷积方式混合的信号源进行测量的应用。在音频领域，这些应用包括电话会议和机器听觉等用途。

以图1声学场景为例，该场景包括四个各自具有音频通道h₁～h₄的源s₁～s₄，这些音频通道与(在该例中)含8个麦克风的麦克风阵列10相连。本发明的目的在于，通过对麦克风信号进行解混而对原本的各源进行估算，即实施盲源分离(BSS)，也称盲信号分离(BSS)。其中，假设关于各源和麦克风位置的信息知之甚少。在一些应用中，所述麦克风阵列可置于社交场合或会议中使用的桌椅上，本发明系统的各实施方式用于将正在说话的人等目标源与其他说话者和/或无关噪音源等的非所需的声音区别开来。

对于多通道观测值x，本发明的目标例如在于设计一种用于获得源估算值y的多通道线性滤波器w。

y _t′＝∑_τw_τx_t′-τ (1)

此处，我们假设麦克风/传感器/输入通道的数目为M个，音频源的数目为S个。在实际应用中，传感器的数目可能大于源的数目。在该情形中，最好能够有效降低传感器的数目(“维度缩减”)，从而例如无需将同一个实际源分成两个不同的重构源。如果源的数目大于传感器的数目，则可以忽略这一情形，或者更优选地，预先选择不含无关源的帧来进行处理。

下文中，首先描述向时频域的转换，然后描述用于盲源分离的独立成分分析，最后描述各种既可单独使用也可组合使用的改进点。

STFT机制

本发明在时频域中进行音频处理。音频样例在时域和时频域之间的转换存在多种方式，本发明所述的技术可在任何此类机制中应用。在本发明实施方式中，采用短时傅里叶变换(STFT)机制。在多通道音频中，STFT分别独立应用于每一通道。

在该机制中，作如下定义：

·M：麦克风的数目

·S：源的数目，而且假设S≤M

·F：STFT频率的数目

·T：STFT帧的数目

在STFT域中，源估算值卷积式(1)变换为矩阵乘法表达式。

在每一频率下，均存在M×T观测值矩阵X_f和未知解混矩阵W_f，因此解混后的输出Y_f表示为：

Y_f＝W_fX_f (2)

该式中，解混后的输出Y_f为S×T矩阵(其中，s表示源)，而解混矩阵W_f为S×M矩阵。下文中，所述各矩阵还同等地称为长度为M的观测值向量x _ft(时频域中的输入音频数据)以及长度为S的解混后输出向量y _ft(时频域内的解混后输出音频数据)。因此：

y _ft＝W_f x _ft (3)

ML-ICA

最大似然独立成分分析(ML-ICA)为可应用于盲源分离问题的频域ICA算法。以下，将描述能够在该问题方面提高性能且降低计算复杂度的技术。

STFT域中的ML-ICA通过作用于多通道时频观测值x _ft而计算出一组解混矩阵W，每一该矩阵对应一个频率。其中，“多通道”指多个(声学)传感器通道，一般为麦克风通道；而“频率”为“频率通道”的简称。所述多通道观测值存于T×F的帧缓冲器X中。该帧缓冲器可随新帧的接收而更新，并同时伴随解混矩阵的重新计算。

因此，对于每一个频率，ML-ICA均设计出一个使得分离后的输出由下式表示的解混矩阵W_f：

y _ft＝W_f x _ft

解混后的输出表示取决于排列及缩放不确定性的原本音频源，所述不确定性可分别求解。

每一个频率的ML-ICA对数似然度表示为：

(其中，假设解混后输出y得自拉普拉斯分布；下标“1”表示L1范数)

该式的目的在于找出使似然度最大化的W_f。

由于运算在复数域中进行，因此使用维廷格(Wirtinger)导数

当将sign(…)定义为逐元素复数符号算子时，可得：

该式通过以自然梯度对W_f估算值进行迭代更新的方式求解。所述自然梯度为投影至相应黎曼流形(Riemannian Manifold)时L的最陡上升梯度。在本发明情形中，使用可逆矩阵流形，且自然梯度δW_f表示为：

当每次迭代的步长为

时，可得：

对于每一个频率，ML-ICA执行如下算法：

1.初始化W_f；

2.对于每次迭代k∈1：K

a.针对每一帧，计算y _ft＝W_f x _ft；

b.

c.W_f←((1+μ_k)I-μ_kG)W_f

该算法在G＝I时收敛。在此处及下文中，G均为与成本函数梯度相关且与所述自然梯度密切相关的梯度值。迭代次数K既可为固定次数，也可由

(其中，F表示弗罗贝尼乌斯范数(Frobenius norm))等收敛准则确定。

W_f可通过任何S秩矩阵初始化。当不存在任何预知信息时，通过主成分分析将W_f初始化至S个最主要的成分是一项不错的选择。可以理解的是，该算法用于每一频率f，以确定一组解混矩阵W。

该算法的主要计算负担为步骤2a和步骤2b，两者均为O(SMT)。

计算G时的

这一系数仅影响最终结果的缩放，而且在实际使用时可忽略。

以T表示的步长

仅出于在数学上较为便利的考量。该步长也可随迭代次数变化(减小)，但这不是必要的。实际应用中发现，采用固定值μ＝0.5即可获得良好结果。

重要性加权

并非所有的帧均具有同等的价值。举例而言，较为重要的源可能仅有数帧为有效帧，或者一些帧可被关门声等不重要的源破坏。虽然可认为时间上越近的帧越有价值，但事实上却并非总是如此。因此，为了提高声源分离质量，本发明实施方式系统根据各帧的重要性(取决于具体问题/应用)对其进行加权。

假设存在能够为每一帧λ_t(λ_t≥0)确定合适权重的过程，则可利用下式对ML-ICA进行修改：

其中，可以假设∑_tλ_t＝1(类似于概率，但由于本发明仅需找到使似然度最大化的W_f，因此和值并不需要一定为1)，但是这一假设并不会对该式的通用性构成任何限制。

相应地，每一频率的自然梯度算法即变为：

1.初始化W_f

2.对于每一k∈1：K

a.针对每一帧，计算y _ft＝W_f x _ft

b.

c.W_f←((1+μ_k)I-μ_kG)W_f

其中，t上的和值为所有T帧的和值。收敛准则与标准ML-ICA一致(当设置

时，即获得如上所述的未加权ML-ICA)。可选地，权重值也可随频率及帧的不同而变化，下文中将对一些例示权重分配技术进行描述。

基于随机梯度的改进

可通过随机梯度递增(或递减)法改善过程性能。

当以“在线”方式进行随机梯度递增(或递减)时，针对每一个新的接收帧，均根据相对于该帧的梯度，对梯度

进行近似估算。以ML-ICA为例，即：

相应算法为：

1.初始化W_f

2.针对每一帧：

a.y _ft＝W_f x _ft

b.

c.W_f←((1+μ)I-μG′)W_f

需要注意的是，G′根据单个帧(一般为最近一帧)的数据，而非多个帧的数据的和值确定。因此，t表示最近一帧的时间，而且该过程依赖于

的近似估算结果，而非通过对所有帧进行求和而获得的“真”值。

重要性二次抽样随机梯度ICA(ISSG-ICA)

以下，对采用重要性二次抽样随机梯度ICA的改进进行描述。在该技术中，通过重要性抽样，(随机)选择一组具有相应概率λ_t的帧，以用来以更高的计算效率(即与提高收敛速度的方案相比，计算量更少)估算W_f。

假设R为用于选择具有概率λ_t的随机过程：

·初始化W_f

·对于每一k∈1：K

a.通过R选择L_k个帧

b.针对每一选择的帧，y _fl＝W_f x _fR(l)

c.

d.W_f←((1+μ_k)I-μ_kG′)W_f

在步骤c中，所述和值为随机过程R确定的L_k个被选帧的和。下标k表示L可(但并非一定需要)随迭代步骤k的不同而变化。例如，可以通过在不同迭代步骤之间调节L_k而使得该过程的预期收敛速度最大化。

对于每次迭代，可以证明，在给定的W_f下，G′的预期值与重要性加权ICA算法的G相同，从而使得该过程得到验证。

对于一组非常弱势的假设，可以证明，该过程的均值收敛至重要性加权目标函数的最大值(也就是说，广义上讲，收敛至针对观测值的最佳解混拟合结果)。

该过程的主要计算负担为步骤2b和步骤2c，两者均为O(S²L_k)。

该过程的高效性缘于如下原因：

·每次迭代中，L_k可远小于T(虽然可能需要更多次的迭代)

·计算G′时，无需与λ_t相乘

·R的选择成本可在所有频率之间摊销(假设所有频率下的权重值不变)，也就是说，针对每一频率，可使用相同的随机选择帧。

为了获得统一的权重，可将R替代为从T中选择L_k个帧的过程，以避免为了完全相同的被选帧而计算更新。在实际应用中，这一做法也可应用至非统一的权重，但是在该情形中，当L_k逼近T时，将引入趋向所述统一加权解的偏差。

L_k的调整

L_k可通过培训数据集(可选得自各种不同的环境)进行调节，其目的在于以尽可能高的计算效率实现良好的性能。

为了实现这一目标，一种做法为在开始阶段考察首次迭代，以选择能够在每一计算中以最佳方式提高总体性能的L₁值。在固定L₁后，可以继续选择L₂，并依此类推。为了加快调整过程，可以将迭代次数的递增步长从1增大至5。L_k的确切值取决于麦克风阵列和目标性能。

以8通道麦克风阵列为例，实验结果说明，为了实现目标性能，加权ML-ICA法需要对120个帧进行30次迭代，而调整之后的随机梯度ICA法仅需在L_k＝20时进行15次迭代，然后在L_k＝28时进行25次迭代，便可达到同等性能。因此，与加权ML-ICA法相比，调整之后的随机梯度ICA法可将计算负担降低3倍。

通过缩放实现稳定性

利用该过程的缩放及排列不确定性，可以提高算法的稳定性，并促进对固定步长参数μ的使用。通过展开至ICA更新式的方式，能够有效地实现可使所述似然度最大化的W_f预缩放。然而，本发明提出采用可使替换成本函数

最小化的预缩放。其中，替换成本函数定义为最小化因数对应于原方程固定点的函数。

需要注意的是，在本发明情形中，

对应于相应黎曼流形中ICA步骤的范数，并一般能够比似然度更好地表示与最优值的接近程度。虽然

并不总能直接最小化，但是在预缩放的情形中，其也可以通过能够展开至ICA更新式的方式有效实现。因此，与使得似然度最大化的预缩放方式相比，能够使

最小化的这一预缩放方式可实现更好的收敛特性和稳定性。

预缩放方式有两种：对角缩放和标量缩放。这两种预缩放方式均可使用固定步长(如μ≈0.5)，并实现良好的收敛稳定性。此外，此两预缩放方式的额外成本O(S²)均小于其他算法。

以下，将通过ISSG-ICA，对缩放算法进行描述。然而，预缩放还可以以类似方式应用至ML-ICA、加权ML-ICA及其他方法。

对角缩放

当以非负实数对角矩阵C分析W_f预缩放的效果时，可得：

W_f←CW_f

y _ft←Cy _ft

G′←G′C

如此，可在无需实行预缩放的情况下计算G′，然后相对于C的对角元素将

最小化。需要注意的是，G′的对角元素为非负实数，而且可得：

相应地，每一频率的更新算法将为：

1.初始化W_f

2.对于每一k∈1：K

a.利用R，选择含L_k个帧的子组

b.对于每一被选帧，y _fl＝W_f x _fRf(l)

c.

d.对于每一i：

e.W_f←((1+μ)I-μG′C)CW_f

标量缩放

当相对于标量C最小化

时，可得：

除了C的计算之外，该算法与对角缩放算法相同。

对角缩放算法在输入通道之间存在显著音量失衡时最为有用。因此，通过在最初几次迭代中使用对角缩放，然后切换至标量缩放，可以稍微提高计算效率。

如果输入数据已经通过某种方式进行了归一化(例如，作为维度缩减步骤的一环)，则可以免于实施对角缩放。

维度缩减

需要注意的是，当源的数目小于麦克风的数目时，ML-ICA算法将被约束至由W_f的初始估算值确定的子空间内。

作为一种可选的替代方案，可以使用维度缩减技术。在该技术中，先例如通过主成分分析(PCA)将输入数据投影至子空间内，然后对投影数据实施ICA分析。最简单的维度缩减形式为舍弃部分麦克风，但PCA的效果更佳(减小失真)。在PCA中，可将M×S投影矩阵D_f设置为与

的最大特征值对应的一组特征向量。

也就是说，当源的数目小于麦克风的数目时，可通过行数小于列数的多通道线性滤波器D_f对麦克风观测值x_f进行预处理：

随后，可利用上述任何一种ML-ICA算法，根据X′_f算出S×S的ICA方阵W′_f，并将其应用至以下投影数据：

Y_f＝W′_fX′_f

如此，可通过下式获得原始解混矩阵：

虽然以上两方法在数学上等效，但维度缩减法一般具有更高的计算效率。此外，当存在如下情况时，非方阵ICA可能更为有利：

1.整个帧集非常大，而且随机二次抽样ICA可能无法在所有迭代步骤中对给定的帧进行一次以上的处理；或者

2.计算架构矢量化至可以自由进行非方阵的乘法(例如，5×5矩阵/矢量的乘积不比5×8矩阵/矢量的乘积更有效)。

帧的选择/加权

通过独立于盲源分离的过程，可以例如从存储于下述帧缓冲器的已捕获帧中获得与源相关的元数据。此类元数据可包括源活度包络和位置等的信息：与实施盲源分离(BSS)相比，此类信息的获得一般在技术上更加易于实现。

在优选实施方式中，其基本原理在于，利用此类元数据，计算每一帧的“重要性”值。以下，将描述可通过帧的元数据确定帧的重要性度量值的若干启发式方法的示例，其中，一种或多种此类方法既可独立使用，也可结合使用。当定义重要性(“较高”或“较低”)时，指相对于各帧的重要性度量值的平均值。

a)含有关门声等的高响度冲击事件的帧可分配相对较低的重要性度量值。

b)非常寂静的帧不太可能含有有用的盲源分离信息，因此可分配相对较低的重要性度量值。

c)时间上较早的帧可分配相对较低的重要性度量值。

d)当源的数目超出盲源分离过程能够分离的最大的源的数目(即当源的数目大于传感器的数目时)，可以使用下述的一项或多项技术：

源可分类为“必要源”和“无关源”。其中，“必要源”是指实现目标源与其他源分离这一目的所需的源，其中，所述其他源既可为其他潜在目标源，也可为一个或多个干扰源。由此可见，干扰源可以为盲源分离过程中待“调节除去”(即与一个或多个其他源分离)的必要源。相比之下，无关源为既不作为目标源也不作为待消除的干扰源的非必要源。对于盲源分离问题，往往应该将关注点置于有意义的源的分离，并摒弃无关源。当在盲源分离问题中纳入无关源时，可能会影响有意义源的分离效果，而摒弃无关源的后果仅不过是使得每一输出成为未考虑无关源情况下的结果。虽然并不总能实现干净利落的无关源排除，但这一做法往往是一项优选做法。对于某个源，可例如按照以下一者或多者，将其分类为“必要源”和“无关源”：

i.用户选择位置/具体位置等的已知信息；

ii.通过认定常见高响度源(如持续存在的风扇噪音)可有助于确定“必要源”；

iii.通过认定最近活跃源可有助于确定“必要源”(最近活跃源为最可能在后续再次活跃的源)

完成分类后，可向含有一个或多个必要源的帧分配比含有一个或多个无关源的帧更高的重要性度量值。

e)可将(必要)源的贡献均衡化：如果不实施均衡化，则常见源对盲源分离算法的影响程度会大于非常见源的影响程度。

完成各帧的重要性度量值或权重值的分配后，可利用这些重要性值更新存有以往帧(见下)的帧缓冲器。具体而言，与覆盖时间上最早的帧的做法不同，该方法可选择覆盖重要性较低的帧(即重要性度量值低于阈值的帧，以及/或者重要性度量值低于传入的新帧的存储帧)。如此，该系统的实施方式能够最大程度地利用帧缓冲器存储与源分离问题相关的历史记录。优选地，帧缓冲器的更新伴随对重要性值的重新计算。

缩放不确定性

上述方法的各实施方式将源估算值提取至任意的对角缩放矩阵B_f。由于每一频率均存在B_f值，因此所述矩阵构成任意滤波器(可从低音或高音的变化并不会影响各源的独立性这一点看出)。该任意滤波器可通过对特定麦克风处源的声音形态加以考虑的方式除去。

在一种方法中，此类缩放不确定性可在概念上通过如下方式解决：选择一个源；解除其解混作用，以检视其在一个或多个麦克风处的声音形态；然后利用该检视结果调节解混矩阵的缩放，以使其与实际接收到的(听到的)声音相匹配——即采用最小失真原则。然而，虽然该做法为一种概念上的方案，但是其中仅需知悉解混矩阵即可，而且实际上并不需要解除所述解混作用。

上述方法中对麦克风处接收的声源进行估算时采用的最小失真原则如下：

设

为囊括任何维度缩减或其他预处理的组合解混滤波器；

设

为

的伪逆矩阵，该矩阵为从源估算值向麦克风反向投影时的最小失真投影矩阵；

设S(s)为除对角线S(s)_ss＝1上的一个元素之外其余元素均为零的选择矩阵；

源估算值向麦克风的反向投影表示为：

矩阵S(s)用于选择一个源，而式(25)和式(26)表示所选源在所有麦克风处的估算值。在式(26)中，由于仍然存在(未知的)空间传递函数，因此

表示所选源在麦克风处声音形态的估算结果，而非源本身的估算值。

频率排列

在本发明技术的实施方式中，输入信号被分割为频段，每一频段独立处理后，将不同频率下的结果对齐排列。因此，矩阵W_f的每一行均对应于一个源，并且与所述各频率有关的矩阵W_f的行的排列目标在于使得某一行始终对应于同一个源(行1＝源1，如此等等)。本领域中有许多已公布的技术用于解决排列不确定性。例如，在一种已知方法中，可通过作如下假设而实现排列不确定性的解决：当某个源在一个频率下产生功率时，其在其他频率下也可能为有效源。

源的选择

在很多情况下，在各源当中，仅部分源为必要源。由于可能存在全局排列，因此可能需要对哪些源为必要源进行评估——也就是说，虽然已将各源分离为独立的成分，但是在各源的对应关系上(例如，当一群说话的人围于麦克风周围时，哪个源s与哪个说话者对应)仍然存在不确定性。此外，由于本方法的各实施方式作用于音频的时间切片(前后相继的各组STFT帧)，因此无法保证某一组帧当中标记为如s＝1的“物理”源与下一组帧当中标记为s＝1的“物理”源相同(不同组之间的标记方式取决于W的初始化，而该初始化可例如随机过程，或取决于前一组帧)。

源的选择可通过多种不同方式实现，例如，可根据语音(或其他音频)识别结果，或通过与用户选择的方向匹配而实现源的选择。其他用于选择源的方法包括：选择响度最大的源(该方法可包括选择最大功率的来源的方向)；以及根据具体应用的固定(预设)方向进行选择。例如，目标源可以为相对于麦克风处于已知方向上的说话者。还有一种方法为，假设与同一源相应的滤波器彼此类似，并通过找出与相邻时频分组内的滤波器类似的滤波器而选择特定声源。此类方法能够在不同时频分组之间确定出连贯一致的全局排列矩阵(P)。

在各实施方式中，在与用户选择的方向匹配时，可使用指定方向上的预期麦克风相位响应θ_jf这一信息。该信息既可通过测量获得，也可根据相对于任意原点的给定麦克风几何形状下的简单消声模型推导得出。按照如下方式，可以构建简单的麦克风j响应模型：

假设每一麦克风的几何形状已知，则可以定义：

·c为所述音速

·x _j为麦克风j相对于真实空间内任意原点的位置

·d为与朝向与x _j处于同一坐标系内的目标源的选定方向对应的单位向量

·f_Hz为与STFT分组f关联的频率(单位：Hz)

如此，相对于所述原点的远场麦克风时间延迟τ_j(单位：秒)表示为：

该时间延迟导致的麦克风j的相位偏移量为：

其中，相位响应θ_jf为已确定的量，所选的源s为在

中的相应行使得相位关联度最大化的源：

其中，和值j为所有麦克风的和值，θ_jf为麦克风j在所选方向上的(复数)频率/相位响应。原则上，该方法可用于选择多个源方向。

本领域技术人员可理解的是，还可通过类似方法从

中确定一个或多个源方向，以例如根据源方向对(必要或无关)源进行加权。

低延迟实施方式

在上述方法的实施方式中，该方法的输出可以为Y_f或

在此基础上，或作为替代方案，该方法还可输出解混滤波器W_f或W′_f(s)。当输出中含有解混滤波器时，该滤波器既可应用于时频域，也可转换回时域(如上式(1)所示)后应用于时域数据x_t。当在时域中进行滤波时，时域数据的延迟可能会使得该滤波操作实际应用至导出该时域数据的时域数据上，或者(由于相应计算较为耗时)使得该滤波操作实际应用至当前时域数据上(从而导致所使用的系数比所述数据略有延迟)。

在助听器等的某些实时应用中，需要实现低延迟。在该情形中，可以在采用式(1)的时域中进行上述滤波操作。其中，滤波器系数w通过W′_f(s)表达式(以上“缩放不确定性”部分)更新，以在STFT域中异步生成滤波器系数。举例而言，当所述滤波器系数的计算能够例如以每秒一次的频度进行时，则所得系数的延迟大约为1秒左右。这一程度的延迟在声学场景处于合理静态时(说话者并不大范围移动)，并不会存在任何问题，从而使得所得滤波器系数适合用于后续样例。当不需要低延迟时，该方法可采用通过在

表达式(以上“缩放不确定性”部分)上进行逆STFT后获得的系数。

立体声滤波操作

通过选择W′_f(s)表达式(以上“缩放不确定性”部分)中W′_f的一对对应行时，可以获得立体声输出信号，从而使得输出的声音仍然保留声源的一些空间声学特性，显得更加自然。

例示实施方式

参考图2，该图所示为通过盲源分离提高音频信号的可听度的装置200的结构，其中，通过时域滤波操作来实现低延迟。该装置包括包含有麦克风202a～n的麦克风阵列202，该阵列与多通道模数转换器204连接，以向空间滤波器206和滤波器系数确定器208提供数字化的多通道音频输出205，所述空间滤波器可实施为多通道线性卷积滤波器。滤波器系数确定器208确定解混滤波器系数，空间滤波器206通过应用解混滤波器系数从一个(或多个)选定源中提取音频，从而提供解混后音频输出210。滤波器系数确定器208接收可选提供的用户输入(例如，用于选择某个源的输入)，并且其具有含有针对选定源的解混滤波器系数的输出212。解混后的音频210提供至数模转换器214，以令其提供时域音频输出216，该输出例如可提供给耳机等物，或者用于存储/后续处理(如语音识别)、传输(例如，经手机网络和/或互联网等的有线或无线网络传输)等的其他用途。图2中，音频信号路径以粗线表示。

在各实施方式中，假设声学场景为可供滤波器系数确定器208和空间滤波器206并行操作的准静态声学场景。如此，延迟即由主声学路径(粗线显示)决定，并取决于滤波器系数的群延迟、空间滤波器实施方式的延迟以及输入/输出传输延迟。其中，可以使用多种不同类型的空间滤波器，如采用直接卷积的低延迟滤波器，或者Gardener,WG(1995),“没有延迟的高效卷积”,音频工程学会杂志,43(3),127-136中描述的具有更高计算效率的滤波器。

本领域技术人员可理解的是，图2结构所示的信号处理可通过多种不同的方式实现。举例而言，可以通过手机、平板电脑、膝上型计算机或个人电脑等通用计算设备实现滤波器设计器(优选具有用户界面)、和/或空间滤波器和/或DAC214。在各实施方式中，上述麦克风阵列和ADC 204可含有此类通用计算设备的一部分。所述作为替代方案，图2结构的部分或全部可通过专用硬件(如ASIC)等专用设备，并且/或者通过数字信号处理器(DSP)实现。此外，可通过专用方法减小主声学路径上的延迟，另外主声学路径与通用计算设备的输入/输出有关。然而，如此可使得通用设备的使用便利性有所下降。

图3a所示为图2装置所用的空间滤波器206的一例。图中示例为多通道线性离散卷积滤波器，其输出为分别与相应滤波器系数按式(1)方式进行卷积运算的音频输入通道之和。在各实施方式中，该滤波器提供多通道输出，如立体声输出。为了实现立体声输出，可将所述空间滤波器的输出复制至所有输出通道，或者更加优选地，如图3a所示，为每一输出通道分别单独设置空间滤波器。后一方法可使两耳听到的声源彼此接近(由于麦克风彼此间隔开来)，因此更为优选。如此，可使得输出的声音仍然保留声源的一些空间声学特性，显得更加自然。

图3b所示为本发明实施方式中帧缓冲管理的一种例示实现方式。图3b还示出图2的频域滤波器系数确定器208的时频域转换和频时域转换(图2中未示出)。在各实施方式中，每一音频通道均可设有STFT(短时傅里叶变换)模块207a～n，每一该模块均用于在音频通道中实施一系列先后相继且相互重叠的离散傅里叶变换，以生成一系列按时间顺序排列的波谱。滤波器系数向时域的反向转换可由一组逆离散傅里叶变换209完成。

离散傅里叶变换(DFT)为一种将数据块在时域表示方式和频域表示方式之间转换的方法。STFT为一种通过DFT将重叠的时域帧转换至时频域的可逆方法。STFT用于在时频域实施滤波操作，在各实施方式中，在处理每一音频通道时，帧内的每一通道均通过DFT独立转换。可选地，也可在时频域内执行空间滤波操作，然而由于这一做法将导致处理延迟，因此更加优选地，先在时频域内确定滤波器系数，然后将其逆向转换至时域。时域的卷积运算对应于频域的乘法运算。

图3b所示为针对每一麦克风1…M均含有T×F帧缓冲器X的帧缓冲系统。如上所述，各矩阵分别存有与帧的权重/概率数据关联的时频数据帧。在各实施方式中，由于麦克风STFT数据相互交织，因此每一帧缓冲器含M×F×T个STFT数据点。帧缓冲管理器302在本发明方法的控制下读取矩阵内存储的权重值，以供帧的选择/加权之用。在各实施方式中，帧缓冲管理器302还通过控制一个或多个指针而指定一个或多个将新(传入的)数据写入缓冲器的位置，以例如以重要性相对较高的帧覆盖重要性相对较低的帧。可选地，帧缓冲系统300可包括两组帧缓冲器(用于每一个麦克风)，其中的一组在第二缓冲器中的累积数据被处理的同时累积新数据，然后可对第二缓冲器进行更新。在各实施方式中，帧缓冲器的规模可能较大——例如，帧之间的重叠率为50％的16kHz单精度浮点STFT数据相当于每个麦克风每分钟的帧缓冲数据约为8MB。然而，该系统也可在计算滤波器系数的同时将新帧累积于临时缓冲器内，然后在下一更新周期开始时，利用所述临时缓冲区的数据跟新帧缓冲器(如此，无需设置另一完全相同的帧缓冲器)。

各帧的权重由源表征模块304确定。在各实施方式中，所述模块按照一种或多种上述启发式方法确定各帧的权重。如图所示，这一操作既可在时域内执行，也可(更优选地)在时频域内执行。更具体而言，在各实施方式中，所述操作可通过多源波达方向(DOA)估计方法实现。许多合适的多源DOA估计方法已为本领域技术人员所知，这些方法例如包括MVDR(最小方差无失真响应)波束成形法，MUSIC(多信号分类)法或傅里叶法(从通过将传感器阵列响应和观测值X相结合而获得的声学信号角度傅里叶谱中寻找峰值)。

此类方法的输出数据可含有指示源活度(幅度)和源方向的时间序列数据。此类方法的时域或时频域数据或输出还可用于找出含冲击事件的帧和/或声音响度小于阈值水平的帧，并且/或者用于对声音进行分类，例如分类为空调声等等。

现在参考图4，该图所示为用于本发明实施方式的频域滤波器系数确定器208的一种例示实现形式的模块。图4各模块按照以上所述方法操作。其中，该滤波器系数确定系统从图3b中的STFT模块207a～n接收来自多个音频通道的时频表示形式的数字化音频数据，这些数据表示上述观测值x_f。该数据提供给可选设置的维度缩减模块402，而该模块按照维度缩减矩阵D_f减少有效音频通道的数目。在步骤406中，所述维度缩减矩阵既可响应指明待解混的源的数目的用户输入确定(模块404)，也可响应系统对待解混的源的数目的确定结果确定(模块404)。该方法可例如按照以下依据确定源的数目：已知信息；或DOA类型的技术；或针对输出的某种启发式度量值；或针对解混后输出质量的用户反馈。在一种简单的实施方式中，所述维度缩减矩阵可仅舍弃部分音频输入通道即可，但是在其他方法中，可例如通过上述PCA法，将输入通道映射至更少数目的通道。所述完整或缩减的一组音频通道提供至盲源分离模块410，以令其通过执行上述方法而完成重要性加权盲源分离或基于随机梯度的盲源分离。如图中虚线所示，可选地，维度缩减可实际上作为盲源分离410的一环。

盲源分离模块410提供一组解混矩阵，以作为其输出，所述矩阵指明频域滤波器系数W_f。在各实施方式中，所述一组矩阵提供给模块412，以令其按照上述方式消除缩放不确定性，从而在所有麦克风(或数目缩减后的一组麦克风)处提供源s的滤波器系数。随后，用户或该方法从上述麦克风中选择一个或多个麦克风(通过选择W_f(s)的一行或多行中的数据实现)，并将其转换回时域后输出，以供所述空间滤波器使用。

源选择模块416通过根据所述麦克风的相位响应对所述解混矩阵的伪逆矩阵执行操作而选择源s。该源的选择418既可由用户完成(例如，由用户指明目标源的方向)，也可由该方法完成(例如根据源方向的已知信息)。

图5为本发明实施方式的盲源分离方法的流程图，该方法可用于实现图4中的盲源分离模块410和维度缩减402。其中，在步骤S100中，该方法先输入音频数据，然后将其转换至时频域，从而可选地减少音频通道的数目(S102)。随后，该方法反复实施上文所述的重要性加权/随机梯度盲源分离更新步骤(S106)，直至实现收敛(S104)。其中，所述收敛准则可以为达到固定的迭代次数。在实现收敛后，优选地，该方法例如按照上文所述方式解决缩放及排列不确定性问题(S108，由图4模块412执行)，并可选地将滤波器系数转换回时域(S110)。

图6所示为通用计算系统600一例，该通用计算系统通过编程实现上述利用本发明实施方式的盲源分离方法提高音频信号可听度的系统。其中，该计算系统包括处理器602，该处理器连接至工作存储器604，程序存储器606以及硬盘等的存储装置608。程序存储器606内含有用于实现本发明各实施方式的代码，如操作系统代码、时频域转换代码、频时域转换代码、源表征代码、帧缓冲管理代码、维度缩减代码(可选)、盲源分离代码、缩放/排列代码、源选择代码以及空间(时域)滤波器代码。工作存储器604/存储装置608存储有用于上述方法的数据，并还用于实现上述帧缓冲器。处理器602还与用户界面612、网络/通信接口610以及(模拟或数字)音频输入/输出模块614连接。本领域技术人员可理解的是，由于音频数据还可例如经网络/通信接口610获得，或者从存储装置608获得，因此音频输入/输出模块614为可选设置的模块。

虽然在某些优选实施方式中，上述技术应用于含语音的音频，但是该技术并不限于此类应用，而且还可用于其他声源分离问题，如地震数据的处理。一般情况下，被选的源包括说话的人，以达到助听效果，或者为电话会议、机器听觉、语音识别或其他应用(如在车载电话应用中，选择地捕获车内驾驶员或乘客的语音)提供辅助。然而，在一些应用中，本技术的实施方式还可用于识别类似于噪音的源(例如，可用于选择特性上与噪音最为类似的源)，在该情况下，所述被选源可用于消除处于活动状态下的噪音。

原则上，本申请描述的技术可用于音频/声学之外的领域，例如应用于混合源电信号数据，此类数据例如为实验室或医疗设备等的感测装置或仪器仪表的数据，例如包括EEG(脑电图)数据以及光谱分析仪、质谱分析仪等的波谱分析仪的混合源波谱数据。

毋庸置疑，本领域技术人员还可获得许多其他有效替代方案。可以理解的是，本发明并不限于上述实施方式，并且涵盖对于本领域技术人员而言容易理解且处于权利要求书精神和范围之内的改动方案。

Claims

1.一种声源分离方法，其特征在于，所述方法包括：

输入来自多个声学传感器的声学数据，所述声学数据包括由多个声源组合生成的声学信号；

将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及

生成多通道滤波器，以通过作用于所述时频数据帧而从所述声源中分离信号，

其中，所述生成包括：

确定一组解混矩阵(W_f)，所述一组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，其中，所述确定包括：以各个频率下的梯度值(G；G′)来分别修改相应的解混矩阵，所述梯度值取决于用于度量通过相应解混矩阵实现声源分离的成本函数的梯度，以及

各个频率下的相应的梯度值是根据对所述时频数据帧的随机选择来进行计算的。

2.如权利要求1所述的方法，其特征在于，对所述时频数据帧的所述随机选择包括随机选择多个(L个)所述时频数据帧，以确定每一个所述解混矩阵(W_f)。

3.如权利要求2所述的方法，其特征在于，使用相同的L值来确定所述多个频率下的多个或所有解混矩阵(W_f)。

4.如权利要求2或3所述的方法，其特征在于，还包括根据与每一帧有关的选择概率λ_t来选择所述时频数据帧，其中，λ_t表示选择时刻t下的时频数据帧的概率。

5.如权利要求4所述的方法，其特征在于，还包括根据时刻t下的时频数据帧的重要性度量值确定λ_t的值。

6.如权利要求5所述的方法，其特征在于，还包括从所述声学数据确定声源活度数据，并根据所述声源活度数据确定时频数据帧的所述重要性度量值λ_t。

7.如权利要求6所述的方法，其特征在于，所述重要性度量值用于均衡具有不同声源活动帧数的声源的贡献度。

8.如权利要求2至7当中任一项所述的方法，其特征在于，包括：以相应的梯度值分别迭代修改各解混矩阵；在各次迭代中，改变随机选择的时频数据帧的数目L。

9.如权利要求1至8当中任一项所述的方法，其特征在于，还包括在生成所述多通道滤波器之前，通过对所述一组解混矩阵(W_f)进行预缩放而使得替换成本函数最小化。

10.一种利用上述任一项权利要求所述的方法来生成多通道滤波器的盲源分离方法，其特征在于，包括：

通过将所述多通道滤波器应用至所述时频域数据而确定表示所述声源的解混后时频数据；以及

将所述解混后时频数据转换至时域，以恢复至少一个所述声源的解混后时域数据。

11.一种非暂时性存储介质，存储有用于实施上述任一项权利要求所述的方法的处理器控制代码。

12.一种声源分离装置，其特征在于，所述装置包括：

用于从多个声学传感器接收声学数据的一个或多个输入端，所述声学数据包括由多个声源组合生成的声学信号；以及

与所述一个或多个输入端连接的音频信号处理器，所述音频信号处理器包括：

用于将所述声学数据转换为时频域数据的时频域转换器，所述时频域数据包括多个时刻和频率下的多个时频数据帧；以及

通过作用于所述时频数据帧而从所述声源中分离信号的多通道滤波器模块，其中，所述音频信号处理器还用于：

确定一组解混矩阵(W_f)，所述一组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，所述一组解混矩阵通过以各个频率下的梯度值(G；G′)来分别修改相应的解混矩阵的方式确定，所述梯度值取决于用于度量通过通过相应解混矩阵实现声源分离的成本函数的梯度；以及

根据对所述时频数据帧的随机选择，计算针对各个频率的相应的梯度值。

13.一种声源分离或自适应波束成形方法，其特征在于，所述方法包括：

生成多通道滤波器，通过作用于所述时频数据帧以实施声源分离或自适应波束成形，其中，通过确定待一一应用至相应时频数据帧的一组矩阵，并向一组时频数据帧当中的每一个分配权重值的方式来生成所述多通道滤波器。

14.如权利要求13所述的方法，其特征在于，所述加权包括随机选择用于生成所述多通道滤波器的帧。

15.如权利要求13或14所述的方法，其特征在于，包括：将获得自所述声学数据的时频数据帧以与相应的权重值相关联的方式存储于缓冲器内；通过响应权重值以选择对存储帧进行覆盖的方式来更新所述缓冲器。

16.如权利要求15所述的方法，其特征在于，还包括选择用于以取决于相应权重值的概率进行相加的存储帧。

17.如权利要求15或16所述的方法，其特征在于，还包括确定各声源的声源活度数据，并根据所述声源活度数据确定时频数据帧的权重值。

18.如权利要求17所述的方法，其特征在于，所述权重值用于均衡具有不同声源活动帧数的声源的贡献度。

19.如权利要求15至18中任一项所述的方法，其特征在于，所述声源包括至少一个必要源和至少一个干扰源，所述方法还包括向含所述目标源和所述干扰源当中的一者或同时含所述两者的帧分配分别比其他帧更高的权重值。

20.如权利要求15至19当中任一项所述的方法，其特征在于，包括向所含声源数多于声学传感器数的帧分配相对较低的权重值。

21.如权利要求13至20当中任一项所述的方法，其特征在于，包括向所含声源最近时间内无活动的帧分配相对较低的权重值。

22.如权利要求13至21当中任一项所述的方法，其特征在于：所述方法包括声源分离方法；所述生成包括：

确定一组解混矩阵(W_f)，所述一组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，其中，所述确定包括：通过各个频率下的梯度值(G；G′)来迭代更新每个相应的解混矩阵，所述梯度值取决于用于度量通过相应解混矩阵来实现声源分离的成本函数的梯度；

所述方法还包括：通过将解混矩阵作用于所述一组时频数据帧(x _ft)当中的部分或全部时频数据帧而获得的估算值相加来计算所述解混矩阵的梯度值，

其中，所述相加为以分配给所述一组时频数据帧的权重值进行的加权。

23.如权利要求22所述的方法，其特征在于，所述一组时频数据帧包括按时序排列的一系列帧，所述方法包括以分配给所述按时序排列的一系列帧的权重值对所述估算值进行加权。

24.如权利要求22所述的方法，其特征在于，以取决于为各帧分配的相应权重值的概率从所述一组时频数据帧中选择用于所述相加的帧以实现对所述相加进行随机加权。

25.一种非暂时性存储介质，存储有用于实施权利要求13至24当中任一项所述的方法的处理器控制代码。

26.一种声源分离或自适应波束成形装置，其特征在于，所述装置包括：

一个或多个输入端，用于从多个声学传感器接收声学数据，所述声学数据包括由多个声源组合生成的声学信号；以及

时频域转换器，用于将所述声学数据转换为包括多个时刻和频率下的多个时频数据帧的时频域数据；以及

多通道滤波器模块，通过作用于所述时频数据帧以实施声源分离或自适应波束成形，其中通过确定待一一应用至相应时频数据帧的一组矩阵，并向一组时频数据帧当中的每一个分配权重值的方式来生成所述多通道滤波器。

27.如权利要求26所述的装置，其特征在于，所述装置用于实施声源分离，其中，所述音频信号处理器还用于：

确定一组解混矩阵(W_f)，所述一组解混矩阵内的矩阵与所述多个频率一一对应，并通过一一应用至相应的时频数据帧来确定分离后输出向量(y _ft)，其中通过以各个频率下的梯度值(G；G′)来分别修改相应的解混矩阵的方式来确定所述一组解混矩阵，所述梯度值取决于用于度量通过相应解混矩阵来实现声源分离的成本函数的梯度；

向所述一组时频数据帧当中的每一个分配权重值；以及

通过将解混矩阵作用于所述一组时频数据帧(x _ft)当中的部分或全部而获得的估算值相加来计算所述解混矩阵的梯度值，

28.如权利要求26或27所述的装置，其特征在于，还包括：至少两个帧缓冲器，其中的第一帧缓冲器用于存储来自各声学传感器的待通过处理而获得所述矩阵的时频数据，其中的第二帧缓冲器小于所述第一帧缓冲器，所述第二帧缓冲器用于存储在所述处理过程中从各声学传感器传入的时频数据；以及包括更新机制的帧缓冲管理器，以根据所述权重值从所述第二帧缓冲器选择一个数据子集来更新所述第一帧缓冲器。