CN103426436A

CN103426436A - 结合声学回声消除的优化通过独立分量分析的源分离

Info

Publication number: CN103426436A
Application number: CN2013103269994A
Authority: CN
Inventors: J·允; R·陈
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-05-04
Filing date: 2013-05-06
Publication date: 2013-12-04
Also published as: US20130294611A1

Abstract

公开一种用于信号处理的方法和设备。可以执行源分离以便从源信号的混合中提取源信号并且执行声学回声消除。独立分量分析可以被用于对时频域混合信号执行结合声学回声消除的源分离，以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号。需要强调的是提供本摘要以便遵守需要将允许搜索者或其他读者快速查明本技术公开的主题的摘要的规则。应理解本摘要将不用于解释或限制权利要求的范围或含义而提交本摘要。

Description

结合声学回声消除的优化通过独立分量分析的源分离

相关申请的交叉引用

本申请涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCE SEPARATION USING INDEPENDENT COMPONENTANALYSIS WITH MIXED MULTI-VARIATE PROBABILITY DENSITYFUNCTION(代理人案号No.SCEA11030US00)的、与本申请同一天提交的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCESEPARATION BY INDEPENDENT COMPONENT ANALYSIS INCONJUNCTION WITH DIRECTION INFORMATION(代理人案号No.SCEA11032US00)的、与本申请同一天提交的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和RuxinChen、共同未决的、名称为SOURCE SEPARATION BY INDEPENDENTCOMPONENT ANALYSIS WITH MONING CONSTRAINT(代理人案号No.SCEA11033US00)的、与本申请同一天提交的申请号，其全部公开通过引用合并于此。

技术领域

本发明的实施例针对信号处理。更具体地，本发明的实施例针对使用结合声学回声消除(AEC)的独立分量分析(ICA)的音频信号处理及源分离方法和设备。

背景技术

源分离已引起希望从混合信号观测结果的集合中提取原始源信号的集合的各种应用的关注。

源分离可以在各种信号处理应用中得到使用，所述信号处理应用是例如音频信号处理、光信号处理、语音分离、神经成像、股票市场预测、电信系统、和面部识别等。在产生混合信号的原始信号的混合过程的知识不是已知的情况下，所述问题通常被称为盲源分离(BSS)。

独立分量分析(ICA)是一种将混合过程建模为原始源信号的线性混合，并应用试图逆转混合过程以便产生与原始源信号对应的估算的信号的集合的去混合运算的对于源分离问题的方法。基本ICA假设非高斯源信号的线性瞬时混合，其中混合的数量等于源信号的数量。因为原始源信号被假设为独立的，因此ICA通过使用统计方法从混合中提取独立的(或者至少最大限度地独立的)信号的集合来估算原始源信号。

虽然在没有噪声的情况下用于简化的、瞬时混合的常规ICA方法可以给出非常好的结果，但现实世界的源分离应用通常需要解决由现实世界环境造成的更复杂的混合过程。由公知的“鸡尾酒会问题”说明当源分离应用于语音分离时源分离问题的常见示例，在所述“鸡尾酒会问题”中几个人正在房间中谈话，并且麦克风阵列被用来检测来自不同的说话者的语音信号。ICA的目的是从由麦克风检测到的混合观测结果中提取说话者的个人语音信号；然而，各种因素可以使混合过程变得复杂，所述因素包括噪声、音乐、移动源、室内混响、和回声等。以这种方式，阵列中的每个麦克风可以检测到包含原始源信号的混合的唯一混合信号(即，由阵列中的每个麦克风检测到的混合信号包括不同的说话者的语音的混合)，但混合信号可能不只是所述源的简单瞬时混合。相反，所述混合可以是由室内混响和回声(例如从房间墙壁反弹的语音信号)产生的卷积混合，并且可以包括上述混合过程的复杂因素中的任意一个。

将用于源分离的混合信号最初可以是混合观测结果的时域表示(例如在上述鸡尾酒会问题中，它们将是作为时间的函数的混合音频信号)。已改良ICA过程以便对来自卷积混合信号的时域信号进行源分离，并且所述ICA过程可以给出良好的结果；然而，时域信号的卷积混合的分离可能是非常计算密集的，需要大量时间和处理资源，从而阻止它在许多常见的现实世界的ICA应用中的有效利用。

可以通过从观测到的时域信号中提取频率数据来实现计算上高效得多的算法。在这样做时，由频域中计算上更高效的乘法运算代替时域中的卷积运算。可以对时域数据进行例如短时傅里叶变换(STFT)的傅里叶相关变换，以便生成观测到的混合信号的频率表示并加载频率区(frequency bin)，由此STFT将时域信号转换为时频域。STFT可以为所分析的每个时间段生成频谱图，以在给定时间段中的每个时刻提供关于每个频率区的强度的信息。

频域ICA的传统方法包括，在每个频率区执行独立分量分析(即，将最大化不同信号之间的相同频率区的独立性)。不幸的是，这种方法固有地遭受可以使得源信号的估算的频率区数据被分组在错误的源中的公知的置换问题。同样地，当从频域信号再现得到的时域信号(例如通过逆STFT)时，从分离过程产生的每个估算的时域信号可能包含来自错误的源的频率数据。

已提出解决通过频域ICA的源分离中的频率区的未对准(misalignment)的各种方法。然而，到目前为止，这些方法中没有一个在现实世界的噪声环境中实现足够高的性能以便使得它们成为声学源分离应用的有吸引力的解决方案。

常规方法包括如上所述地在每个频率区执行频域ICA，并应用包括通过各种方法校正频率区的对准(alignment)的后处理。然而，这些方法可能遭受校正步骤中的不精确和不良性能。此外，因为这些过程在初始ICA分离之后需要额外的处理步骤，因此大大增加产生所估算的源信号所需的处理时间和计算资源。

到目前为止，用于频域ICA的已知方法遭受下列缺点中的一个或多个：不能精确地将频率区与适当的源对准，要求需要额外的时间和处理资源的后处理，不良的性能(即，不良的信噪比)，不能高效地分析多源语音，需要麦克风的位置信息，以及需要分析有限时间帧。

除了上面提及的置换问题以外，另外的复杂因素可能出现在麦克风和扬声器足够靠近使得麦克风检测从扬声器发出的声音的音频信号处理应用中。当这种情况发生时，扬声器和麦克风之间可能出现不希望的耦合，使得扬声器信号干扰由麦克风检测到的本地源信号。通常被认为是声学回声消除(AEC)技术的技术通常被用来处理这个问题。

声学回声消除具有对音频信号处理技术的各种应用，包括电话会议、视频会议、视频游戏、移动电话、和免提车载配件等。声学回声消除对于允许同时在两个方向上通信的全双工通信系统，即点对点通信系统具有特定适应性。

通过考虑在两个远距离房间之间的简单、单信道、双向电话会议应用作为示例，可以最佳地理解AEC的原理。每个位置包含用于检测源自本地房间的本地语音信号的麦克风以及用于传送源自远距离房间的语音信号的扬声器。在这种情况下，远距离房间通常被称为“远端”，而本地房间被称为“近端”。不希望的耦合的问题可能出现在位于相同房间中的扬声器和麦克风之间，使得远端扬声器信号包含最初来自远端的、由检测近端扬声器中重新播放的那些信号的近端麦克风引起的声音的重复回声。换句话说，因为在远距离位置中的麦克风当在远距离房间中重新播放信号时检测到该信号，因此位于房间中的人可能听到他自己的声音的重复回声。

为了移除干扰希望的信号的这些回声，AEC技术结合已知的基准信号使用滤波器来对需要移除的回声信号建模。通常，基准信号是最初产生回声的传送信号，并且滤波器被用于对房间的脉冲响应建模，以便对在麦克风中检测到的实际回声干扰建模。此外，滤波器通常需要能够适应房间中的不断改变的混响条件，例如当本地扬声器在房间中改变位置时，改变房间的脉冲响应，并需要新的模型来确定需要消除的回声信号。为了精确地对房间的脉冲响应建模，通常通过基于麦克风上接收到的数据的迭代过程来优化AEC滤波器，直到它们收敛于可接受的等级内。相应地，当自适应滤波器对房间的脉冲响应建模时，可以通过将自适应滤波器应用于已知的基准信号并从麦克风信号中移除这个信号，来从麦克风信号中消除回声。

当将声学回声消除应用于多信道信号时，出现复杂因素，所述多信道信号是例如麦克风阵列中接收的或从多个扬声器传送的那些信号，并希望具有可以有效地处理多信道信号中的声学回声，同时从它们的混合观测结果中提取源信号的技术。

使用盲源分离和声学回声消除执行阵列处理的已知的流行的方法包括在另外的情况下独立的BSS和AEC过程的级联。例如，首先可以对多信道阵列信号数据执行AEC，并且得到的回声消除的多信道输出阵列数据可以作为BSS的输入，反之亦然。

发明内容

在这样的上下文内出现对本发明的需要。

附图说明

通过结合附图考虑下列详细描述可以容易地理解本发明的教导，其中：

图1A是源分离过程的示意图。

图1B是源分离过程的混合和去混合模型的示意图。

图2是根据本发明的实施例的使用ICA的源分离的实现方式的流程图。

图3是根据本发明的实施例的组合的源分离和声学回声消除的示意图。

图4A是说明单一概率密度函数和混合概率密度函数之间的差异的图。

图4B是说明单一概率密度函数和混合概率密度函数之间的差异的频谱图。

图5是根据本发明的实施例的源分离设备的框图。

具体实施方式

本发明的实施例将通过独立分量分析的源分离与声学回声消除相结合，以便联合地解决源分离和多信道声学回声消除问题。因此，本发明的实施例可以被用于从混合观测信号的集合中提取源信号，其中在声学环境中混合源信号，所述声学环境在混合观测信号中产生干扰回声。这种联合的ICA和AEC解决方案可以产生没有回声的干净的分离的音频信号。

在本发明的实施例中，通过优化联合地获得声学回声消除和源分离运算的解。联合的优化可以在同一解法中产生独立分量分析去混合运算(即，ICA去混合矩阵)和声学回声消除滤波器运算(即，AEC滤波器)的解。当实现联合的优化问题的收敛时，对在这里描述的组合的信号处理技术的解法可以产生与原始源信号对应的、没有回声的干净估算的信号。

本发明的实施例可以具有在环境中混合希望的源信号和产生声学回声的干扰信号的应用。可以由传感器阵列检测信号，其产生将被用作组合的源分离和声学回声消除问题的输入的源信号的多个不同的混合。

为了解决上述的置换问题，在这里描述的组合的模型的ICA分量可以根据多元概率密度函数定义频率区之间的关系。以这种方式，通过在源分离过程中解决频率区之间的关系并且从而防止如上所述的频率区的未对准，可以实质上避免置换问题。

适当地估算频率区之间的关系的每个多元PDF的参数不仅可以取决于与其对应的源信号，还可以取决于将被分析的时间帧(即，给定源信号的PDF的参数将取决于该被分析的信号的时间帧)。同样地，适当地对频率区之间的关系建模的多元PDF的参数可以被认为是时间相关的和源相关的。然而，注意，对于相同类型的源，多元PDF的一般形式可以是相同的，而不管与多元PDF对应的是哪个源或时间段。例如，所有时间段上的所有源可以具有多元PDF，所述多元PDF具有与语音信号对应的超高斯形式，但对于每个源和时间段参数可以是不同的。

本发明的实施例可以通过使用在ICA计算中具有不同的参数的分量多元概率密度函数的加权混合来解决不同源以及不同时间段上的相同源的不同的统计特性。对于不同源信号、不同时间段、或它们的某种组合，可以加杈这些多元概率密度函数的混合的参数，或混合多元PDF的参数。换句话说，混合多元PDF中的分量概率密度函数的参数可以与将被分析的不同源和/或不同时间段的频率分量对应。使用概率密度函数来对频率区之间的关系建模的频域ICA的方法未能通过对ICA计算中的单个多元PDF建模来解决这些不同的参数。因此，使用混合多元PDF的本发明的实施例能够比使用单一多元PDF的实施例以更好的性能分析更宽的时间帧，并且能够解决在同一时间同一位置中的多个扬声器(即，多源语音)。

本发明的方面

即使对于非混合情况，本发明的某些方面与声学回声消除和独立分量分析的已知方法不同。这些方面包括下列内容。

(1)使用多元(MV)概率密度函数或MV-PDF。

在本发明的实施例中，可以在频率域中的独立分量分析的框架中优化AEC和阵列处理。通过使用PDF的新的多元形式，本发明的实施例不会遭受置换问题。本发明的实施例被认为通过使用MV-PDF来实现AEC和ICA的联合的优化的第一方法。作为结果，联合的优化问题的公式和最终优化的解与之前不同。由下面的等式(14)描述这种MV-PDF的示例。

(2)根据MV-PDF的成本函数

本发明的实施例被认为首先实现最大化负熵的成本函数的联合的优化。由下面的等式(26)描述这种情况的示例。

(3)额外的约束等式(34)或(35)被用于得到最终解。

可以应用本发明的实施例结合源分离和AEC问题使用等式(34)来获得所有本地源。还可以应用本发明的实施例结合源提取和AEC问题通过使用等式(35)来获得单一源。

源分离问题设置

首先，将参考图1说明源分离运算的基本模型。参考图1A，描述具有N个独立的信号源102的源分离过程的基本示意图。可以用列向量s＝[s₁，s₂，...，s_N]^T表示来自源102的信号。注意，上标T仅表示列向量s仅仅是行向量[s₁，s₂，…，s_N]的转置。注意，每个源信号可以是被建模为连续随机变量的函数(例如，语音信号作为时间的函数)，但现在为了简单而省略函数变量。由M个不同的传感器104(即，具有M个信道的多信道传感器)观测源102，以产生可以由向量x＝[x₁，x₂，...，x_M]^T表示的M个不同的混合信号。源分离106分离从传感器104接收的混合信号x＝[x₁，x₂，...，x_M]^T，以便产生可以由向量y＝[y₁，y₂，...，y_N]^T表示的并与来自信号源102的源信号对应的估算的源信号108。图1A中总地示出的源分离在没有产生由传感器观测到的混合信号x＝[x₁，x₂，...，x_M]^T的混合过程的信息的情况下可以产生与原始源102对应的所估算的源信号y＝[y₁，y₂，...，y_N]^T。

参考图1B，描述执行图1A中示出的源分离的总体ICA运算的基本示意图。在基本ICA过程中，源102的数量等于传感器104的数量，使得M＝N，并且观测到的混合信号的数量等于将再现的不同的源信号的数量。在被传感器104观测到之前，从源102发出的源信号s遭受环境中的未知混合110。可以通过如下的混合矩阵A将这个混合过程110表示为线性运算：

将混合矩阵A与源信号向量s相乘而产生由传感器观测到的混合信号x，使得每个混合信号x_i是源向量s的分量的线性组合，并且：

ICA的目的是确定作为混合过程的逆的去混合矩阵W112，使得W＝A^-1。去混合矩阵112可以应用于混合信号x＝[x₁，χ₂，...，x_M]^T，以便产生等于置换和缩放输出的估算的源y＝[y₁，y₂，...，y_N]^T，使得，

y = Wx = WAs &cong; PDs - - - (3)

其中P和D分别表示置换矩阵和缩放矩阵，所述置换矩阵和缩放矩阵中的每一个仅具有对角线分量。

流程图说明

现在参考图2，描述根据本发明的实施例的信号处理200的方法的流程图。信号处理200可以包括接收M个混合信号202。可以通过使用M个传感器或换能器的阵列观测感兴趣的信号来实现接收混合信号202，所述M个传感器或换能器的阵列例如是具有将观测到的音频信号转换为用于由信号处理装置处理的电子形式的M个麦克风的麦克风阵列。所述信号处理装置可以执行在这里描述的方法的实施例，并且通过示例的方式，所述信号处理装置可以是电子通信装置，例如计算机、手持式电子装置、视频游戏控制台、或电子处理装置。麦克风阵列可以产生可以由时域混合信号向量x(t)表示的混合信号x₁(t)，...，x_M(t)。混合信号向量x_m(t)的每个分量可以包括将被分离的音频源信号的卷积混合，所述音频源信号可以包括本地来源和远距离来源两者，其中由检测信号的环境的混响条件引起卷积混合过程。

如果数字地执行信号处理200，则信号处理200可以包括使用模数转换器(ADC)将混合信号x(t)转换为数字形式。模数转换203将使用足够高的采样率来使得能够处理底层的源信号中感兴趣的最高频率分量。模数转换203可以包括定义采样窗口，所述采样窗口定义将被输入到ICA分离过程的信号的时间段长度。通过示例的方式，滚动采样窗口可以用于生成将被转换为时频域的一系列时间段。可以根据各种应用的特定需求以及可用资源、处理功率等选择采样窗口。

为了执行根据本发明的实施例的结合声学回声消除的频域独立分量分析，可以对时域信号进行傅里叶相关变换204，优选地STFT，以便将它们转换为用于通过信号处理200处理的时频表示。STFT将为将执行频域ICA的每个时间段和混合信号加载频率区204。加载的频率区可以与每个时间段的每个时频域混合信号的频谱图表示对应。

虽然在这里STFT被称为傅里叶相关变换的一个示例，但是术语“傅里叶相关变换，，不限于此。通常，术语“傅里叶相关变换”指代与傅里叶分析有关的函数的线性变换。这样的变换将函数映射到基础函数的系数的集合，所述基础函数通常是正弦曲线，从而强烈地局限于(stronglylocalized)频谱中。应用于连续自变量的傅里叶相关变换的示例包括拉普拉斯(Laplace)变换、双边拉普拉斯变换、Mellin变换、包括傅里叶级数和正弦及余弦变换的傅里叶变换、短时傅里叶变换(STFT)、分数傅里叶变换、Hartley变换、Chirplet变换和Hankel变换。应用于离散自变量的傅里叶相关变换的示例包括离散傅里叶变换(DFT)、离散时间傅里叶变换(DTFT)、离散正弦变换(DST)、离散余弦变换(DCT)、回归离散傅里叶级数、离散Chebyshev变换、广义离散傅里叶变换(GDFT)、Z-变换、改进的离散余弦变换、离散Hartley变换、离散的STFT、Hadamard变换(或Walsh函数)、和被应用于一维时域语音的小波分析或功能分析。

为了简化将在频域ICA中执行的数学运算，在本发明的实施例中，信号处理200可以包括时频域信号X(f，t)的预处理205，所述预处理205可以包括公知的预处理运算，例如居中(centering)、白化等。预处理可以包括在执行源分离206之前，通过主分量分析(PCA)将混合信号去相关，其可以被用于提高收敛速度和稳定性。

结合联合的优化208，可以迭代执行结合AEC206通过频域ICA的信号分离，其在同一运算中联合地得到多信道分离问题和多信道声学回声问题的解。组合的源分离和声学回声消除206包括设置去混合矩阵运算W，当将所述去混合矩阵应用于与由202接收的那些信号对应的混合信号X时，所述去混合矩阵运算W产生原始源信号S的最大限度地独立的估算的源信号Y。组合的ICA和AEC206还包括联合地并在同一运算中设置滤除可以与远距离来源的信号对应的回声的AEC滤波器。组合的ICA和AEC206结合联合的优化过程208，以便迭代更新处理混合信号所包括的去混合矩阵和AEC滤波器，直到去混合矩阵收敛于可接受的等级内的解，所述解产生足以不含干扰回声信号的源信号的最大限度地独立的估算。联合的优化208结合定义直到去混合矩阵和AEC滤波器收敛于可接受的解的迭代过程的优化算法或学习规则。通过示例的方式，结合优化208组合的源分离和声学回声消除206可以使用期望最大化算法(EM算法)来估算分量概率密度函数的参数。

在一些实施方式中，可以使用例如最大后验概率(MAP)或最大似然(ML)的估算方法来定义成本函数。然后，可以使用例如EM、和梯度法等的方法得到信号分离问题的解。通过示例的方式，并且不通过限制的方式，可以使用ML定义独立性的成本函数，并使用EM对其进行优化。

一旦由分离过程产生源信号的估算(例如，在收敛之后)，就可以执行重新缩放216和可选的单信道频谱域语音增强210，以便产生由于简化预处理步骤205所需的估算的源信号的精确的时频表示。

为了产生与原始时域源信号s(t)直接对应的时域中的估算的源信号y(t)，信号处理200还可以包括对时频域估算的源信号Y(f，t)执行逆傅里叶变换212(例如，逆STFT)，以便产生时域估算的源信号y(t)。在数模转换214之后，可以在各种应用中再现或使用估算的时域源信号。通过示例的方式，在数模转换之后，可以由扬声器、耳机等再现估算的时域源信号，或者在非临时计算机可读介质中数字地存储所述估算的时域源信号用于其他用途。例如，如果重新缩放216和可选的单信道频谱域语音增强210的频谱输出被直接转换为语音识别特征，则傅里叶变换过程212和数模转换过程是可选的，并且不需要实施。

图3描绘根据本发明的实施例的将声学回声消除与通过独立分量分析的源分离相结合的信号处理的示例。联合的信号处理模型300产生作为源分离和声学回声消除问题两者的解的信号。注意，例如当为了输入到频域ICA或AEC运算中而转换为麦克风或扬声器信号或从麦克风或扬声器信号转换时，在联合的模型300中的不同点处可能需要向时域转换和从时域转换，但是为了简单，在图3中没有描绘这些转换。

在图3中，描绘可以被认为是声学回声消除的近端房间的房间301。房间301可以包含影响房间混响条件从而影响房间中音频信号的房间脉冲响应的墙壁和其他对象。麦克风阵列302被用于检测源信号s＝s₁，s₂，s₃，s₄，源信号根据混合过程310在房间环境中混合，以便产生混合的麦克风信号x＝x₁，x₂，x₃，x₄。为了简单，图3中描绘只具有4个麦克风和4个源信号的确定情况，但是注意，本发明的实施例可以包括任何数量的源或麦克风，并可以应用于超定(overdetermined)和欠定(underdetermined)的源分离情况。多个麦克风和多个扬声器(即，多输入多输出，或者“MIMO”)造成多信道源分离和多信道声学回声消除问题。

分离的源信号s包括扬声器信号304和本地源信号306两者，其中扬声器信号304与源自不同位置的远端信号R(f，t)对应，并在联合的ACE和去混合运算308中的AEC滤波器C(f，t)中被用作基准信号。本地源信号306源自房间301的近端，并且可以是例如源自位于房间301中的人的语音信号。根据未知混合过程310将源信号s混入近端环境，所述未知混合过程310可以包括使得由麦克风阵列302检测扬声器信号304和本地信号306的回声的混响条件。以这种方式，混合信号x可以是源信号s的卷积混合。

联合的模型300的源分离分量包括通过将ICA去混合运算312应用于从麦克风阵列302获得的混合信号X(f，t)来执行独立分量分析，其中可以用矩阵W(f，t)表示去混合运算。源分离分量的目的是从由麦克风阵列402观测到的混合x中产生与源信号s的估算对应的最大限度地独立的信号。

联合模型300还包括通过将自适应AEC滤波器308C(f，t)应用于基准信号R(f，t)来执行声学回声消除，其中基准信号与由扬声器304播放的信号对应。基于从麦克302接收到的数据，AEC滤波器C(f，t)可以连续适用于近端房间301的混响条件，以便精确地对房间脉冲响应建模，所述房间脉冲响应可以基于房间301中的不断改变的条件而改变，例如房间中的人四处移动并改变位置。声学回声消除的目的是当将自适应滤波器应用于基准信号R(f，t)时，为AEC滤波器308创建与存在于麦克风信号X(f，t)中的基准信号的回声相匹配的信号。同样地，可以从由麦克风阵列检测到的信号中减去这些估算的回声信号，以便产生具有消除干扰声学回声的干净信号。

如由接合点314所示，联合模型300可以包括分离本地源信号和减去AEC分量，同时执行去混合运算(例如，由去混合矩阵B(f，t)表示)，以便产生阵列处理解当由联合解的AEC分量消除扬声器源信号304时，所述阵列处理解

与本地源信号306的估算对应。如从图3可见，例如，如在扬声器304中再现的基准信号R(f，t)可以被认为本质上是源分离问题的解(即，混合运算310的去混合可以产生扬声器源信号304以及本地源信号306的估算)。

为了得到AEC滤波器C(f，t)和去混合矩阵B(f，t)的精确解，需要对AEC滤波器和ICA去混合矩阵执行优化函数(即，返回参考图2中所述的优化208)，以便产生具有消除到可接受的误差等级内的声学回声的源信号的最大限度地独立的估算。优化可以包括迭代更新滤波器C(f，t)和去混合矩阵B(f，t)，直到它们都收敛于在可接受等级内的解。在本发明的实施例中，可以在同一解中联合执行去混合运算和AEC滤波器的优化。

联合优化可以包括最大化定义联合问题300的解Y(f，t)之间的独立性的成本函数。最大化成本函数可以包括关于源信号和具有与源信号相同的均值和方差的高斯信号之间的非高斯的测量进行最大化。成本函数的最大化包括源的非高斯，使得所述最大化将产生源的最大限度地独立的估算。具体地，负熵可被用作独立性的测量。在信息论和统计学中，术语负熵指代到正态性的距离的测量。在具有给定的方差的所有分布之外，正态或高斯分布是具有最高熵的分布。负熵测量在具有相同方差的给定的分布和高斯分布之间的熵的差。源分离中使用的ICA可以使用多元概率密度函数来保持频率区之间的对准并解决等式(3)中被描述为置换矩阵P的置换问题。通过示例的方式，成本函数可以包括源信号和具有与源信号相同的均值及方差的高斯信号之间的KL-散度作为联合源分离和声学回声消除问题的解Y之间的独立性的测量。下面的等式(29)是这种成本函数的示例。

在本发明的实施例中，可以根据最大化非高斯，具体地最大化负熵，来定义独立性的成本函数。理论上，这可以被认为是等价于最小化互信息用于从混合获得独立的源。当应用于源提取问题时，最大化非高斯具有优势。具体地，通过最大化非高斯，即使存在许多源和麦克风，也可以提取单一源。

模型

如上所述的使用结合AEC206和联合优化208的频率域ICA的信号处理200可以包括根据本发明的实施例的将由信号处理装置执行的算术运算的适当模型。在下列描述中，首先，将描述在没有使用混合多元PDF或AEC的情况下在频域ICA运算中使用多元PDF的模型。其次，将随后描述在ICA计算中使用混合多元PDF的模型。然后，将描述根据本发明的实施例的使用在这里描述的多元PDF的在同一运算中结合与AEC相结合的ICA的模型。虽然为了本发明的实施例的完整和清楚的公开而提供在这里描述的模型，但注意本领域普通技术人员可以构想下列模型的各种改变，而不脱离本发明的范围。

使用多元PDF的ICA模型

为了执行频域ICA，必须从时域混合信号中提取频域数据，并且这可以通过对混合信号数据执行傅里叶相关变换来实现。例如，短时傅里叶变换(STFT)可以将时域信号x(t)转换为时频域信号，使得，

X_m(f，t)＝STFT(χ_m(t)) (4)

并且对于F个频率区，第m个麦克风的频谱将是，

X_m(t)＝[X_m(1，t)...X_m(F，t)] (5)

对于M个麦克风，可以由向量X(t)表示混合信号数据，使得，

X(t)＝[X₁(t)...X_M(t)]^T (6)

在上面的表达式中，向量的每个分量与所有频率区1到F上的第m个麦克风的频谱对应。同样地，对于估算的源信号Y(t)，

Y_m(t)＝[Y_m(1，t)...Y_m(F，t)] (7)

Y(t)＝[Y₁(t)...Y_m(t)]^T (8)

因此，ICA的目的可以是设置从混合信号X(t)中产生估算的源信号Y(t)的矩阵运算，其中W(t)是去混合矩阵。所述矩阵运算可以表达为，

Y(t)＝W(t)X(t) (9)

其中可以设置W(t)以便分离整个频谱图，使得矩阵W(t)的每个元素W_ii(t)对于所有频率区展开如下，

现在，假设存在与麦克风相同数量的源(即，源的数量＝M)。本发明的实施例可以使用ICA模型用于超定或欠定(underdetemined)情况，其中源的数量大于麦克风的数量，但现在为了说明的清楚及简洁，将说明限制为源的数量等于麦克风的数量的情况。

可以通过循环过程求解去混合矩阵W(t)，所述循环过程包括为去混合矩阵W(t)提供初步估算，并迭代更新去混合矩阵直到它收敛于提供最大限度地独立的估算的源信号Y的解为止。迭代的优化过程包括定义直到收敛为止(即，直到去混合矩阵收敛于产生最大限度地独立的估算的源信号的解为止)将执行的迭代的优化算法或学习规则。

优化可以包括被定义为对于估算的源最大化非高斯的成本函数。所述成本函数可以使用Kullback-Leibler散度作为源信号和具有与源信号相同的均值和方差的高斯信号之间的独立性的测量。使用球形分布作为一种类型的PDF，第m个源的频谱的PDF

可以被表示为，

P_{Y_{m}} (Y_{m} (t)) = h . ψ ({| | Y_{m} (t) | |}_{2}) - - - (12)

{| | Y_{m} (t) | |}_{2} \overset{Δ}{=} {(\underset{f}{Σ} {| Y_{m} (f, t) |}^{2})}^{\frac{1}{2}} - - - (13)

其中，ψ(χ)＝exp{-Ω|x|}，Ω是适当的常数，并且h是上面的表达式中的归一化因子。因此，第m个源的最终多元PDF是，

P_{Y_{m}} (Y_{m} (t)) = h \cdot ψ ({| | Y_{m} (t) | |}_{2}) = hexp {- Ω {| | Y_{m} (t) | |}_{2}} = hexp {- Ω {(Σ_{f} {| Y_{m} (f, t) |}^{2})}^{\frac{1}{2}}} - - - (14)

上述PDF模型可以被用于实现结合图2的AEC206或图3的联合AEC和去混合运算308的频率域ICA，以便提供置换问题的解。

使用混合多元PDF的ICA模型

已对在频域ICA中使用单一多元PDF的方法建模后，将描述使用混合多元PDF的模型。

根据本发明的实施例，语音分离系统可以使用包括作为具有不同参数的L个分量多元概率密度函数的混合的混合多元概率密度函数的独立分量分析。注意，可以预计独立的源信号拥有具有相同一般形式的PDF(例如，可以预计独立的语音信号具有超高斯形式的PDF)，但可以预计来自不同源信号的参数是不同的。此外，因为来自特定源的信号将随时间改变，可以预计对于来自相同源的信号，PDF的参数在不同的时间段具有不同的参数。因此，本发明的实施例可以使用作为对于不同源和/或不同时间段加权的PDF的混合的混合多元PDF。因此，本发明的实施例可以使用可以解决不同源信号的不同统计特性以及信号的统计特性随时间的改变的混合多元PDF。

同样地，对于L个不同分量多元PDF的混合，L通常可以被理解为加权混合的PDF的时间段的数量与源的数量的乘积(例如，L＝源的数量×时间段的数量)。

本发明的实施例可以使用预训练的特征向量估算去混合矩阵。其中V(t)表示预训练的特征向量，并且E(t)是特征值，去混合可以被表示为，

Y(t)＝V(t)E(t)＝W(t)X(t) (15)

V(t)可以是干净语音、音乐、和噪声的预训练的特征向量(即，对于将被分离的多种类型的原始源可以预训练V(t))。可以执行优化以便得到E(t)和W(t)两者。当选择V(t)≡I时，则估算的源等于特征值，使得Y(t)＝E(t)。

根据本发明的实施例的优化可以包括使用期望最大化算法(EM算法)来估算用于ICA计算的混合多元PDF的参数。

根据本发明的实施例，概率密度函数

被假设为作为多元分量PDF的混合的混合多元PDF。混合相同可以被表示为，

X (f, t) = Σ_{l = 0}^{L} A (f, l) S (f, t - l) - - - (16)

同样地，去混合系统可以被表示为，

Y (f, t) = Σ_{l = 0}^{L} W (f, l) X (f, t - l) = Σ_{l = 0}^{L} Y_{m, l} (f, t) - - - (17)

其中A(f，l)是时间依赖的混合条件。

其中为PDF选择球形分布，混合多元PDF变为，

P_{Y_{m}} (Y_{m, l} (t)) \overset{Δ}{=} Σ_{l}^{L} b_{l} (t) P_{Y_{m, l}} (Y_{m} (t)), t &Proportional; [t 1, t 2] - - - (18)

P_{Y_{m}} (Y_{m} (t)) = Σ_{l} b_{l} (t) h_{l} f_{l} ({| | Y_{m} (t) | |}_{2}), t &Proportional; [t 1, t 2] - - - (19)

在上面的表达式中，t1指代处理信号段(例如，语音段)的开始时间，并且t2指代处理所述段的结束时间。

其中为PDF选择多元广义高斯，混合多元PDF变为，

P_{Y_{m, l}} (Y_{m, l} (t)) \overset{Δ}{=} Σ_{l}^{T} b_{l} (t) h_{l} Σ_{c} ρ (c_{l} (m, t)) Π_{f} N_{c} (Y_{m} (f, t) | 0, v_{Ym}^{f} (f, t)),t&Proportional;[t1+t2]

(20a)

其中ρ(c)是不同的第c个分量多元广义高斯之间的加权，并且b_l(t)是不同的时间段之间的加权。可以使用离线数据预训练

并进一步使用运行时数据训练。

上述PDF模型可以被用于提供置换问题的解。

在一些实施例中，可以使用预训练的特征向量来迭代求解去混合矩阵W。具体地，估算的源信号可以被写作(t)＝V(t)E(t)＝W(t)X(t)，其中V(t)可以是例如语音、音乐、或其他声音的干净信号的预训练的特征向量，

并且E(t)代表特征值。→

其中特征向量V(t)是预训练的。

E(t)或

(t)的维数可以小于X(t)的维数。

优化是为了得到{V(t)，E(t)，W(t)}。数据集1通常包括训练数据或校准数据。数据集2通常包括测试数据或实时数据。如果选择(t)≡I，则Y(t)＝E(t)，公式退回到单个等式的普通情况。

a)当数据集1是单信道纯训练数据时，Y(t)是已知的，

X(t)＝Y(t)。最优解V(t)是Y(t)的特征向量。

b)给定数据集1和数据集2，任务是在给定麦克风阵列数据X(t)和已知特征向量V(t)的情况下得到最优的{E(t)，W(t)}。即求解下列等式：

V(t)E(t)＝W(t)X(t)

如果V(t)是矩形矩阵，则

E(t)＝V(t)^-lW(t)X(t)

如果V(t)不是矩形矩阵，则

E(t)＝(V(t)^TV(t))^-1V(t)^TW(t)X(t)

或

E(t)＝V(t)^T(V(t)^TV(t))^-1W(t)X(t))

被假设为麦克风“m”和PDF混合分量“1”的多元PDF的混合。

b)新的去混合

E(f，t)＝V^-1(f，t)W(f)X(f，t)

E (f, t) = Σ_{l = 0}^{L} V^{- 1} (f, t) W (f, l) X (f, t - l) = Σ_{l = 0}^{L} E_{m, l} (f, t) - - - (20 b)

注意，可以从上面的表达式(16)到(20b)推导出用于欠定情况(即，其中源的数量大于麦克风的数量)的模型，并且这些欠定情况在本发明的范围内。

在本发明的实施例中使用的ICA模型可以使用每个混合信号的倒谱(cepstrum)，其中X_m(f，t)可以是x_m(t)的倒谱加上基音(pitch)的对数(log)值(或标准值)，如下，

X_{m} (f, t) = STFT (\log ({| | x_{m} (t) | |}^{2})), f = 1,2, . . ., F - 1 - - - (21)

X_{m} (F, t) \overset{Δ}{=} \log (f_{0} (t)) - - - (22)

X_m(t)＝[X_m(1，t)...X_F-1(F-1，t)X_F(F，t)] (23)

注意，可以将时域语音信号的倒谱定义为时域信号的傅里叶变换的对数(使用展开的相位)的傅里叶变换。时域信号S(t)的倒谱可以在数学上被表示为FT(log(FT(S(t)))+j2πq)，其中q是适当展开复数对数函数的角或虚数部分所需的整数。在算法上，可以通过对信号执行傅里叶变换、取得到的变换的对数、展开所述变换的相位、以及对所述变换进行傅里叶变换而生成倒谱。这个运算的顺序可以被表示为：信号→FT→对数→相位展开→FT→倒谱。

为了在时域中产生估算的源信号，在得到Y(t)的解后，基音+倒谱只需被转换为频谱图，并且从频谱图转换为时域，以便在时域中产生估算的源信号。优化的其余部分保持与上面描述的相同。

对于根据本发明的实施例的源分离中使用的模型，取决于各种应用的特定需求可以选择不同形式的PDF。通过示例的方式，选择的PDF的形式可以是球形的。更具体地，取决于各种应用的特定需求，所述形式可以是超高斯、拉普拉斯算子、或高斯。注意，每个混合多元PDF是分量PDF的混合，并且混合中的每个分量PDF可以具有相同的形式，但是不同的参数。

图4A-4B演示根据如在这里描述的单一PDF和混合多元PDF之间的差异。如图4A中所示，混合多元PDF可以导致具有与每个分量PDF对应的多个模式的概率密度函数。在图4A中的单一PDF402中，作为给定变量的函数的概率密度是单峰的，即，对于给定变量PDF402的曲线图仅具有一个峰值。在混合PDF404中，作为给定变量的函数的概率密度是多峰的，即，对于给定变量，混合PDF404的曲线图具有一个以上的峰值。注意，作为单一PDF402和混合PDF404之间的差异的示范而提供图4A。然而，注意图4A中描绘的PDF是一元PDF，并且仅为了示范单一PDF和混合PDF之间的差异而提供。在混合多元PDF中，将存在一个以上的变量，并且对于那些变量中的一个或多个，PDF将是多峰的。换句换说，对于变量中的至少一个，PDF的曲线图中将存在一个以上的峰值。

参考图4B，描绘频谱图以便示范单一多元PDF和混合多元PDF之间的差异，以及对于不同时间段可以如何加权混合多元PDF。如由虚线示出的与时间段406对应的单一多元PDF可以与如上所述的

对应。相反，如图4B中的虚线矩形所示，与时间段帧408对应的混合多元PDF可以覆盖跨越多个不同时间段的时间帧。混合多元PDF可以与如上所述的

对应。

组合通过独立公量分析的源分离和声学回声消除

描述完使用多元PDF来保持频率域之间的对准的源分离技术，将描述将独立分量分析与声学回声消除相结合的信号处理模型。

传统AEC

在传统的多信道AEC模型中，将滤波器C(f)应用于基准信号R(f，t)，并且从麦克风信号X(f，t)中移除那些信号，使得多信道AEC的解是如下的信号Y(f，t)，

Y(f，t)＝X(f，t)-C(f)R(f，t)

其中

X(f，t)＝[X₁(f，t)...X_M(f，t)]^T，

R(f，t)＝[R₁(f，t)...R_L(f，t)]^T以及

再次参考结合声学回声消除的麦克风阵列源分离的示例，M是麦克风的数量，并且L是回声信号的数量(即，基准信号的数量)。

大多数AEC技术通过设置对自适应滤波器使用最小均方(LMS)准则的成本函数对AEC滤波器求解，其中传统的AEC成本函数J_LMS可以表示为，

J_LMS＝E(||Y（f，t)||²)

其中E()是期望值。注意，在传统的AEC模型中，与任何源分离无关，可以直接从麦克风信号中移除声学回声。

组合独立分量分析和声学回声消除

在本发明的实施例中，声学回声消除可以与通过独立分量分析的源分离相结合，以便产生没有干扰回声的分离的源信号。可以联合优化AEC滤波器(C(f))和ICA去混合矩阵(B(f))，直到产生可接受的误差容限内的干净的无回声的信号的滤波器收敛并且产生最大限度地独立的源的去混合运算收敛。因此，联合优化可以在同一解法中得到多信道声学回声消除和多信道源分离问题的解。包括麦克风信号的源分离和声学回声消除两者的联合模型可以如下进行设置，

\hat{Y} (f, t) = B (f) X (f, t) - C (f) R (f, t) - - - (24)

其中

X(f，t)＝[X₁(f，t)...X_M(f，t)]^T，

R(f，t)＝[R₁(f，t)...R_L(f，t)]^T

以及

此外，在结合声学回声消除的麦克风阵列源分离的示例中，M是麦克风的数量，并且L是回声信号的数量(基准信号的数量)。

再次转向图3，可以看出等式(24)与产生

的接合点314处的运算对应。

在等式(24)中，

是从源分离问题的解中移除与基准信号相匹配的信号并同时分离本地源信号的解。注意，基准信号可以与希望作为源分离问题的解的一部分的源信号对应(例如，其中如上面关于图3所述的基准信号的扬声器再现与本地信号相混合)。在基准信号是源分离问题的希望的解的源的方面来说，由上面的表达式的AEC分量本质上消除那些源。因此，可以设置矩阵运算，以便联合得到多信道分离和多信道AEC问题的解，所述解包括如下作为源分离解的一部分的基准信号，

\hat{Y} (f, t) = B (f) X (f, t) - C (f) R (f, t)

Y (f, t) = [\begin{matrix} \hat{Y} (f, t) \\ R (f, t) \end{matrix}] = [\begin{matrix} B (f) & - C (f) \\ 0 & I \end{matrix}] [\begin{matrix} X (f, t) \\ R (f, t) \end{matrix}] = \begin{matrix}  \end{matrix} [\begin{matrix} W_{11} (f) & W_{12} (f) \\ W_{21} (f) & W_{22} (f) \end{matrix}] [\begin{matrix} X (f, t) \\ R (f, t) \end{matrix}]

(25)

在等式(25)中，I是单位矩阵，并且0是零矩阵。

可以如下设置用于独立性准则的使用负熵的最大化的新的成本函数，

N (Y (t)) = KLD (P_{Y (t)} (Y (t)) | | P_{Y_{gauss}} (Y_{gauss})) - - - (26)

在等式(26)中，表达式N(Y(t))被认为是负熵。理论上，独立性准则等价于互信息的最小化或负熵的最大化。

在等式(26)中，Y_gauss指代具有与Y(f，t)相同的方差的高斯分布的源信号。

等式(26)的成本函数服从已为单位方差归一化Y(f，t)的约束，即

E{(Y(f，t))^HY(f，t)}＝W(f)^HW(F)＝1 (27)

通过使用熵函数，可以如下安排负熵H(X)，其被定义为

H(X)＝-∫P_X(X)logP_X(X)dX (28)

其中，X＝[X(1，t)，...，X(F，t)]^T，并且P_X(X)是概率密度函数，所述概率密度函数可以是多元PDF或混合多元PDF。

根据(26)和(28)，当使用多元PDF时，可以如下改写成本函数。

N (Y (t)) = KLD (P_{Y (t)} (Y (t)) | | P_{Y_{gauss}} (Y_{gauss})) = H (Y_{gauss}) - H (Y (t))

(29)

因为等式(29)中的成本函数服从根据等式(27)的已为单位方差归一化Y(f，t)的约束，因此H(Y_gauss)是常数。通过将等式(14)代入(28)和(29)，我们可以得到如下等式

N (Y (t)) &cong; - H (Y (t)) - E (\log P_{Y (t)} (Y (t))) = E (G (Σ_{f} {| Y (f, t) |}^{2})) - - - (30)

在等式(30)中，当如等式(14)使用P_Y(t)(Y(t))时，表达式E()指代括号中的量的期望值，并且表达式G()指代平方根函数。通过示例的方式，并且不通过限制的方式，可以在美国专利7，797，153(其通过引用合并于此)中的第13栏第3行到第13栏第45行处描述的技术中的任意一个中使用P_Y(t)(Y(t))。

其于如下梯度上升，我们可以导出学习规则：

\frac{&PartialD; N (Y (t))}{{&PartialD; W}_{11} (f)} = E ((Y (f, t)) g (Σ_{f} {| Y (f, t) |}^{2}) X_{1} (f, t)) - - - (31)

\frac{&PartialD; N (Y (t))}{{&PartialD; W}_{12} (f)} =

E ((Y (f, t)) g (Σ_{f} {| Y (f, t) |}^{2}) X_{2} (f, t)) - E ((Y (f, t)) g (Σ_{f} {| Y (f, t) |}^{2}) R (f, t)) - - - (32)

其中g是关于W₁₁(f)和W₁₂(f)的G的第一导数，并且*是共轭运算。

最后更新的规则可以表达如下：

[W_{11} (f) W_{12} (f)] = [W_{11} (f) W_{12} (f)] + η [\frac{&PartialD; N (Y (t))}{&PartialD; W_{11} (f)} \frac{&PartialD; N (Y (t))}{{&PartialD; W}_{12} (f)}] - - - (33)

其中η是学习率。

在最后更新中，不需要计算W₂₁(f)和W₂₂(f)的梯度，因为它们与基准信号对应。

对于每次迭代，如下所述使用等式(42)、(43)、(44)重新缩放B(f)。

对于每次迭代，取决于源分离问题的性质，应使用下列两种正交化方法中的一个来归一化滤波器，以便满足下面的条件E{(Y(f，t))^HY(f，t)}＝W(f)^HW(F)＝1。

例如，如下面的等式(34)所示，当希望分离每个源时，对称正交化可以被用于归一化滤波器。

W (f) &LeftArrow; {(W (f) W {(f)}^{H})}^{- \frac{1}{2}} W (f) - - - (34)

例如，如下面的等式(35)所示，当希望一个接一个地提取源时，收缩正交化可以被用于归一化滤波器。

W_{i} (f) &LeftArrow; W_{i} (f) - Σ_{j = 1}^{M - 1} (W_{i} {(f)}^{H} W_{j} (f)) W_{j} (f) - - - (35)

例如，如果存在若干源信号，但存在一个希望的源，则可以使用收缩正交化提取希望的源，而不必要提取其他的源信号。作为结果，可以降低源信号提取的计算复杂度。选择哪种归一化方法的决定可以是单纯地应用选择，或者可以使用视频输入来确定在监视器前面是否只存在一个主扬声器。

注意，可以将学习规则的上述推导扩展到使用混合多元PDF的实施方式。

因此，联合模型的解法可以包括最小化使用独立性准则的成本函数，其中所述成本函数包括如上所述的声学回声消除。注意，概率密度函数可以包括上述的单一多元PDF或混合多元PDF。

重新缩放过程和可选的单信道频谱域语音(图2，216)

在图2的216表示的重新缩放过程在频谱图的频率区之间调整在等式(3)中描述的缩放矩阵。此外，重新缩放过程216消除预处理的影响。

通过示例的方式，并且不通过限制的方式，可以使用美国专利7,797,153(通过引用将其合并于此)中在第18栏第31行到第19栏第67行描述的技术中的任意一个来实现在216表示的重新缩放过程，下面将简要地论述所述技术。

根据第一技术，可以通过从估算的源信号Y_k(f，t)(其比例不是统一的)中产生具有单输入多输出的信号来重新缩放估算的源信号Y_k(f，t)中的每一个。可以通过使用去混合矩阵W(f)和预处理矩阵Q(f)的乘积的逆对估算的源信号进行运算来实现这种类型的重新缩放以便产生如下给出的缩放输出X_yk(f，t)：

X_{yk} (f, t) = {(W (f) Q (f))}^{- 1} [\begin{matrix} 0 \\ . \\ . \\ . \\ Y_{k} (f, t) \\ . \\ . \\ . \\ 0 \end{matrix}] - - - (42)

其中X_yk(f，t)表示在来自第k个源的在第y个输出的信号。Q(f)表示预处理矩阵，其可以被实现为在图2的205表示的预处理的一部分。预处理矩阵Q(f)可以被配置为使混合输入信号X(f，t)在每个频率区具有零均值和单位方差。

Q(f)可以是给出去相关输出的任何函数。通过示例的方式，并且不通过限制的方式，例如，可以使用如下面的等式中所示的去相关过程。

可以如下计算预处理矩阵Q(f)：

R(f)＝E(X(f，t)X(f，t)^H) (43)

R(f)q_n(f)＝λ_n(f)q_n(f) (44)

其中，q_n(f)是特征向量，并且λ_n(f)是特征值。

Q′(f)＝[q₁(f)...q_N(f)] (45)

Q(f)＝diag(λ₁(f)^-1/2，...，λ_N(f)^-1/2)Q′(f)^H (46)

在第二重新缩放技术中，基于最小失真原理，可以根据下列等式重新计算去混合矩阵W(f)：

W(f)←diag(W(f)Q(f)^-1)W(f)Q(f) (47)

在等式(47)中，Q(f)再次表示用于预处理在图2的205的输入信号X(f，t)的预处理矩阵，使得它们在每个频率区具有零均值和单位方差。Q(f)^-1表示预处理矩阵Q(f)的逆。然后，可以将重新计算的去混合矩阵W(f)应用于原始输入信号X(f，t)以便产生重新缩放的估算的源信号Y_k(f，t)。

第三技术使用估算的源信号Y_k(f，t)和残留信号的独立性。可以通过将第k个源和第f个频率区的源信号Y_k(f，t)与适当的缩放系数α_k(f)相乘来获得重新缩放的估算的源信号。残留信号是原始混合信号X_k(f，t)和重新缩放的源信号之间的差。如果α_k(f)具有恰当的值(correct value)，则因子Y_k(f，t)从残留信号中完全消失，并且乘积α_k(f)·Y_k(f，t)表示原始观测信号。可以通过求解下列等式来获得缩放系数：

E [f (X_{k} (f, t) - α_{k} (f) Y_{k} (f, t) \overset{&OverBar;}{g (Y_{k} (f, t))}] - E [f (X_{k} (f, t) - α_{k} (f) Y_{k} (f, t)] E [\overset{&OverBar;}{g (Y_{k} (f, t))}]

= 0

(48)

在等式(48)中，函数f(.)和g(.)是任意标量函数。上覆线表示共轭复数运算，并且E[]表示方括号内的表达式的期望值的计算。作为结果，可以由计算缩放的输出。

信号处理装置描述

为了执行如上所述的根据本发明的实施例的源分离，信号处理装置可以被配置为执行实现本发明的实施例所需的算术运算。信号处理装置可以是各种通信装置中的任何一个。例如，根据本发明的实施例的信号处理装置可以是计算机、个人计算机、膝上型计算机、手持式电子装置、蜂窝电话、视频游戏控制台等。

参考图5，描绘根据本发明的实施例的能够执行源分离的信号处理装置500的示例。设备500可以包括处理器501和存储器502(例如，RAM、DRAM、和ROM等)。此外，如果将实现并行处理，则信号处理设备500可以具有多个处理器501。此外，信号处理设备500可以使用多核处理器，例如双核处理器、四核处理器或其他多核处理器。存储器502包括被配置为执行如上所述的源分离的数据和代码。具体地，存储器502可以包括信号数据506和代码，所述信号数据506可以包括输入信号x的数字表示(在图2中所示的模数转换之后)，所述代码用于使用如上所述的混合多元PDF来实现源分离以便估算在混合信号x的数字表示中包含的源信号。

设备500还可以包括公知的支持功能元件510，例如输入/输出(I/O)元件511、电源(P/S)512、时钟(CLK)513和高速缓冲存储器514。设备500可以包括大容量存储装置515，例如盘驱动器、CD-ROM驱动器、或磁带驱动器等以便存储程序和/或数据。设备500还可以包括显示单元516和用户接口单元518，以便促进设备500和用户之间的交互。显示单元516可以是显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口518可以包括键盘、鼠标、操纵杆、光笔或其他装置。此外，用户接口518可以包括麦克风、摄像机或其他信号换能装置以便提供将被分析的信号的直接捕获。如图5所示，系统500的处理器501、存储器502和其他组件可以经由系统总线520彼此交换信号(例如，代码指令和数据)。

麦克风阵列522可以通过I/O功能元件511耦接到设备500。麦克风阵列可以包括两个或多个麦克风。麦克风阵列可以优选地包括至少与将被分离的原始源的一样多的麦克风；然而，对于如上所述的欠定情况，麦克风阵列可以包括比源的数量更少或更多的麦克风。麦克风阵列522的每个麦克风可以包括将声学信号转换为电信号的声学换能器。设备500可以被配置为将来自麦克风的模拟电信号转换为数字信号数据506。

设备500可以包括网络接口524以便经由电子通信网络526促进通信。网络接口524可以被配置为经由局域网和例如因特网的广域网实现有线或无线通信。设备500可以通过网络526经由一个或多个消息分组527发送和接收数据和/或文件请求。麦克风阵列522还可以被连接到例如游戏控制器的外围装置，而非经由I/O元件511直接耦接。外围装置可以通过有线或无线方法向处理器501发送阵列数据。还可以在外围装置中进行阵列处理，并且向处理器501发送处理后的干净语音或语音特征。

还应注意，在一些实现方式中，一个或多个声音源519可以例如经由I/O元件或例如游戏控制器的外围装置耦接到设备500。此外，一个或多个图像捕获设备530可以例如经由I/O元件511或例如游戏控制器的外围装置被耦接到设备500。

如在这里使用的，术语I/O通常涉及将数据传输到系统500或从系统500传输数据以及将数据传输到外围装置或从外围装置传输数据的任何程序、操作或装置。每一次数据传输都可以被认为是来自一个装置的输出和到另一装置中的输入。外围装置包括例如键盘和鼠标的仅输入装置、例如打印机的仅输出装置、以及可以用作输入和输出装置两者的例如可写CD-ROM的装置。术语“外围装置”包括外部装置，例如鼠标、键盘、打印机、监视器、麦克风、游戏控制器、相机、外部Zip驱动器或扫描仪，以及内部装置，例如CD-ROM驱动器、CD-R驱动器或内部调制解调器或例如闪存读取器/写入器、硬盘的其他外围装置。

如上所述，处理器501可以响应于由存储器502存储及获取并由处理器模块501运行的数据506和程序504的程序代码指令，对信号数据506执行数字信号处理。程序504的代码部分可以遵照许多不同编程语言中的任何一个，例如，汇编、C++、JAVA或许多其他语言。处理器模块501形成当运行例如程序代码504的程序时变为专用计算机的通用计算机。虽然程序代码504在这里被描述为被实现为软件并在通用计算机上运行，但是本领域技术人员可以认识到可以使用例如专用集成电路(ASIC)或其他硬件电路的硬件来可替换地实现任务管理的方法。同样地，可以全部或部分地以软件、硬件或软件和硬件两者的某种组合实现本发明的实施例。

本发明的实施例可以包括具有实现如上所述的源分离方法的处理器可读指令集的程序代码504。程序代码504通常可以包括引导处理器对多个时域混合信号执行源分离的指令，其中混合信号包括将通过在这里描述的源分离方法提取的原始源信号的混合。所述指令可以引导信号处理装置500对多个时域混合信号执行傅里叶相关变换(例如，STFT)，以便生成与时域混合信号对应的时频域混合信号，从而加载频率区。所述指令可以引导信号处理装置对时频域混合信号执行如上所述的独立分量分析，以便生成与原始源信号对应的估算的源信号。独立分量分析将使用作为与不同源信号和/或不同时间段对应的频率区的分量概率密度函数的加权混合的混合多元概率密度函数。

注意，在这里描述的源分离的方法通常应用于从由信号处理装置接收的混合信号估算多个源信号。然而，在特定应用中感兴趣的唯一源信号可以是单个源信号，例如与作为噪声的其他源信号混合的单一语音信号。通过示例的方式，由本发明的音频信号处理实施例估算的源信号可以是语音信号、音乐信号、或噪声。同样地，本发明的实施例可以使用如上所述的ICA，以便从多个原始源信号的混合中估算至少一个源信号。

虽然为了说明的目的，这里的详细描述包含许多具体细节，但是本领域普通技术人员中的任何一个将理解对在这里描述的细节的许多变化和改变在本发明的范围内。因此，在所要求保护的发明不失任何一般性并且没有对所要求保护的发明强加限制的情况下阐述在这里描述的本发明的示例实施例。

虽然以上是本发明的优选实施例的完整说明，但是可以使用各种改变、修改和等价物。因此，不应该参考上面的描述来确定本发明的范围，相反，应该参考所附权利要求连同它们的等效物的整个范围来确定本发明的范围。在这里描述的任何特征(不管是不是优选的)都可以与在这里描述的任何其他特征(不管是不是优选的)相结合。在随后的权利要求中，当在包含例如“包括，”的开放式过渡短语的权利要求中使用时，除非另有明确说明，不定冠词“一”或“一个”指代所述冠词后的项目中的一个或多个的数量。此外，随后使用词语“上述”或“所述”来重新提及相同的权利要求术语不改变这个含义，而仅是重新援引该非单一的含义。所附权利要求将不被解释为包括设备加功能限制或步骤加功能限制，除非在给定权利要求中使用短语“用于......的设备”或“用于......的步骤”来明确地描述这种限定。

Claims

1.一种使用信号处理装置处理信号的方法，包括：

在信号处理装置中接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

将所述时域混合信号转换为时频域，从而生成与所述时域混合信号对应的时频域混合信号；以及

对所述时频域混合信号执行结合声学回声消除的独立分量分析，以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号，

其中所述执行结合声学回声消除的独立分量分析包括，同时联合优化声学回声消除滤波器和独立分量分析去混合矩阵的解，以及

其中所述独立分量分析使用多元概率密度函数，以便保持所述至少一个估算的源信号中的频率区的对准。

2.如权利要求1所述的方法，其中原始源信号的混合包括通过声学回声消除而消除的远端源信号和本地源信号。

3.如权利要求1所述的方法，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音信号对应。

4.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

5.如权利要求1所述的方法，其中所述执行结合声学回声消除的独立分量分析包括，最小化被配置为最大化估算的源信号的负熵的成本函数。

6.如权利要求1所述的方法，其中所述执行傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

7.如权利要求1所述的方法，其中所述执行结合声学回声消除的独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

8.如权利要求1所述的方法，其中，所述执行独立分量分析包括，在分量概率密度函数的参数的估算中，使用预训练的干净语音的特征向量。

9.如权利要求8所述的方法，其中所述执行独立分量分析还包括使用预训练的特征向量。

10.如权利要求8所述的方法，其中所述执行独立分量分析还包括使用运行时数据训练特征向量。

11.如权利要求1所述的方法，其中联合优化声学回声消除滤波器和独立分量分析去混合矩阵的解包括，使用对称正交化来归一化滤波器。

12.如权利要求1所述的方法，其中联合优化声学回声消除滤波器和独立分量分析去混合矩阵的解包括，使用收缩正交化来归一化滤波器，以便提取所述源信号中的一个，而不必要提取其他。

13.如权利要求1所述的方法，其中所述概率密度函数具有球形分布。

14.如权利要求13所述的方法，其中所述概率密度函数具有拉普拉斯分布。

15.如权利要求13所述的方法，其中所述概率密度函数具有超高斯分布。

16.如权利要求1所述的方法，其中所述概率密度函数具有多元广义高斯分布。

17.如权利要求1所述的方法，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

18.如权利要求1所述的方法，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加杈混合。

19.如权利要求1所述的方法，还包括在信号处理装置中接收所述时域混合信号之前，使用麦克风阵列观测所述时域混合信号。

20.一种信号处理装置，包括：

处理器；

存储器；以及

计算机编码指令，在所述存储器中包含所述计算机编码指令并且可以由所述处理器执行所述计算机编码指令，其中所述指令被配置为实现信号处理的方法，所述方法包括：

接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

所述独立分量分析使用多元概率密度函数，以便保持所述至少一个估算的源信号中的频率区的对准。

21.如权利要求20所述的装置，还包括麦克风阵列，用于检测所述时域混合信号。

22.如权利要求20所述的装置，其中所述处理器是多核处理器。

23.如权利要求20所述的装置，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音信号对应。

24.如权利要求20所述的装置，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

25.如权利要求24所述的装置，其中所述执行结合声学回声消除的独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

26.如权利要求24所述的装置，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

27.如权利要求24所述的装置，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。

28.如权利要求20所述的装置，其中所述执行结合声学回声消除的独立分量分析包括，最小化被配置为最大化估算的源信号的负熵的成本函数。

29.如权利要求20所述的装置，其中所述执行傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

30.如权利要求20所述的装置，其中所述执行独立分量分析包括，在分量概率密度函数的参数的估算中，使用干净语音的预训练的特征向量。

31.如权利要求30所述的装置，其中所述执行独立分量分析还包括使用预训练的特征向量。

32.如权利要求30所述的装置，其中所述执行独立分量分析还包括使用运行时数据训练特征向量。

33.如权利要求20所述的装置，其中联合优化声学回声消除滤波器和独立分量分析去混合矩阵的解包括，使用对称正交化来归一化滤波器。

34.如权利要求20所述的装置，其中联合优化声学回声消除滤波器和独立分量分析去混合矩阵的解包括，使用收缩正交化来归一化滤波器，以便提取所述源信号中的一个，而不必要提取其他。

35.如权利要求20所述的装置，其中所述概率密度函数具有球形分布。

36.如权利要求35所述的装置，其中所述概率密度函数具有拉普拉斯分布。

37.如权利要求35所述的装置，其中所述概率密度函数具有超高斯分布。

38.如权利要求20所述的装置，其中所述概率密度函数具有多元广义高斯分布。

39.一种包括非临时计算机可读介质的计算机程序产品，其具有在所述介质中包含的计算机可读程序代码，可运行所述程序代码以便执行信号处理操作，所述操作包括：