CN103426434A

CN103426434A - 结合源方向信息通过独立分量分析的源分离

Info

Publication number: CN103426434A
Application number: CN2013102870654A
Authority: CN
Inventors: J·允; R·陈
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-05-04
Filing date: 2013-05-06
Publication date: 2013-12-04
Anticipated expiration: 2033-05-06
Also published as: US20130297296A1; US8880395B2; CN103426434B

Abstract

公开一种用于信号处理的方法和设备。可以执行源分离以便经由独立分量分析从源信号的混合中提取源信号。在分离过程中使用源方向信息，并且在这里描述的独立分量分析技术使用多元概率密度函数来保持源分离过程中频率区的对准。需要强调的是提供本摘要以便遵守需要将允许搜索者或其他读者快速查明本技术公开的主题的摘要的规则。应理解本摘要将不用于解释或限制权利要求的范围或含义而提交本摘要。

Description

结合源方向信息通过独立分量分析的源分离

相关申请的交叉引用

本申请涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCE SEPARATION USING INDEPENDENT COMPONENTANALYSIS WITH MIXED MULTI-VARIATE PROBABILITY DENSITYFUNCTION(代理人案号No.SCEA11030US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCESEPARATION BY INDEPENDENT COMPONENT ANALYSIS INCONJUNCTION WITH OPTIMIZATION OF ACOUSTIC ECHOCANCELLATION(代理人案号No.SCEA11031US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCESEPAR ATION BY INDEPENDENT COMPONENT ANALYSIS WITHMOVING CONSTRAINT(代理人案号No.SCEA11033US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。

技术领域

本发明的实施例针对信号处理。更具体地，本发明的实施例针对结合源方向信息使用独立分量分析(ICA)的音频信号处理及源分离方法和设备。

背景技术

源分离已引起希望从混合信号观测结果的集合中提取原始源信号的集合的各种应用的关注。

源分离可以在各种信号处理应用中得到使用，所述信号处理应用是例如音频信号处理、光信号处理、语音分离、神经成像、股票市场预测、电信系统、和面部识别等。在产生混合信号的原始信号的混合过程的知识不是已知的情况下，所述问题通常被称为盲源分离(BSS)。

独立分量分析(ICA)是一种将混合过程建模为原始源信号的线性混合，并应用试图逆转混合过程以便产生与原始源信号对应的估算的信号的集合的去混合运算的对于源分离问题的方法。基本ICA假设非高斯源信号的线性瞬时混合，其中混合的数量等于源信号的数量。因为原始源信号被假设为独立的，因此ICA通过使用统计方法从混合中提取独立的(或者至少最大限度地独立的)信号的集合来估算原始源信号。

虽然在没有噪声的情况下用于简化的、瞬时混合的常规ICA方法可以给出非常好的结果，但现实世界的源分离应用通常需要解决由现实环境造成的更复杂的混合过程。由公知的“鸡尾酒会问题”说明当源分离应用于语音分离时源分离问题的常见示例，在所述“鸡尾酒会问题”中几个人正在房间中谈话，并且麦克风阵列被用来检测来自不同的说话者的语音信号。ICA的目的是从由麦克风检测到的混合观测结果中提取说话者的个人语音信号。可以由ICA过程中的混合矩阵在数学上表示混合过程。然而，各种因素可以使混合过程变得复杂，所述因素包括噪声、音乐、移动源、室内混响、和回声等。以这种方式，阵列中的每个麦克风可以检测到包含原始源信号的混合的唯一混合信号(即，由阵列中的每个麦克风检测到的混合信号包括不同的说话者的语音的混合)，但混合信号可能不只是所述源的简单瞬时混合。相反，所述混合可以是由至内混响和回声(例如从房间墙壁反弹的语音信号)产生的卷积混合，并且可以包括上述混合过程的复杂因素中的任意一个。

将用于源分离的混合信号最初可以是混合观测结果的时域表示(例如在上述鸡尾酒会问题中，它们将是作为时间的函数的混合音频信号)。已改良ICA过程以便对来自卷积混合信号的时域信号进行源分离，并且所述ICA过程可以给出良好的结果；然而，时域信号的卷积混合的分离可以是非常计算密集的，需要大量时间和处理资源，从而阻止它在许多常见的现实世界的ICA应用中的有效利用。

可以通过从观测到的时域信号中提取频率数据来实现计算上更高效的算法。在这样做时，由频域中计算上更高效的乘法运算代替时域中的卷积运算。可以对时域数据进行例如短时傅里叶变换(STFT)的傅里叶相关变换，以便生成观测到的混合信号的频率表示并加载频率区(frequency bin)，由此STFT将时域信号转换为时频域。STFT可以为所分析的每个时间段生成频谱图，所述频谱图在给定时间段中的每个时刻提供关于每个频率区的强度的信息。

频域ICA的传统方法包括，在没有来自先前的信息的任何约束的情况下在每个频率区执行独立分量分析(即，将最大化不同信号之间的相同频率区的独立性)。不幸的是，这种方法固有地遭受可以使得源信号的估算的频率区数据被分组在错误的源中的公知的置换问题。同样地，当从频域信号再现得到的时域信号(例如通过逆STFT)时，从分离过程产生的每个估算的时域信号可能包含来自错误的源的频率数据。此外，传统方法通常依赖未能解决与源信号有关的附加信息的未约束的模型。然而，在许多现实世界的应用中，附加的信息可以被用于改进分离过程，并且传统ICA技术通常未能理解可以使用与源有关的先前的信息简化底层的处理运算的复杂度的方式。

已提出解决通过频域ICA的源分离中的频率区的未对准的各种方法。然而，到目前为止，这些方法中没有一个在现实世界的噪声环境中实现足够高的性能以便使得它们成为声源分离应用的有吸引力的解决方案。

常规方法包括如上所述地在每个频率区执行频域ICA，并应用包括通过各种方法校正频率区的对准的后处理。然而，这些方法可能遭受校正步骤中的不精确和不良性能。此外，因为这些过程在初始ICA分离之后需要额外的处理步骤，因此大大增加产生所估算的源信号所需的处理时间和计算资源。

到目前为止，用于频域ICA的已知方法遭受下列缺点中的一个或多个：不能精确地将频率区与适当的源对准，要求需要额外的时间和处理资源的后处理，不良的性能(即，不良的信噪比)，不能高效地分析多源语音，消耗处理资源的复杂优化功能，以及需要分析有限时间帧。

发明内容

由于上述原因，需要一种没有上述缺点的、可以高效地实现频域独立分量分析以便从混合信号的集合中产生估算的源信号的方法和设备。在这样的上下文内出现对本发明的需要。

附图说明

通过结合附图考虑下列详细描述可以容易地理解本发明的教导，其中：

图1A是源分离过程的示意图。

图1B是源分离过程的混合和去混合模型的示意图。

图2是根据本发明的实施例的使用ICA的源分离的实现方式的流程图。

图3A是说明单一概率密度函数和混合概率密度函数之间的区别的图。

图3B是说明单一概率密度函数和混合概率密度函数之间的区别的频谱图。

图4是根据本发明的实施例的源分离设备的框图。

具体实施方式

下列描述将主要关于由麦克风阵列检测到的音频信号的处理来描述本发明的实施例。更具体地，将关于从由麦克风阵列检测到的混合音频信号中分离包括语音信号和音乐信号的音频源信号来描述本发明的实施例。然而，应理解ICA在各种技术中具有许多影响深远的应用，包括光信号处理、神经成像、股票市场预测、电信系统、和面部识别等。可以通过从传感器或换能器阵列观测来从各种源中获得混合信号，所述传感器或换能器阵列能够将感兴趣的信号观测为用于由通信装置或其他信号处理装置处理的电子形式。因此，除了权利要求中明确记载的以外，所附权利要求不限于语音分离应用或麦克风阵列。

本发明的实施例通过使用在相对于用于检测原始混合的传感器阵列的已知方向上的源的方向信息来改进已知的独立分量分析技术。因此，根据本发明的实施例的ICA模型可以结合源分离模型中的方向约束，其大大简化涉及的底层的运算，从而减少源分离的复杂度并使用较少的处理时间和计算资源提供更精确的估算的源信号。当由传感器阵列观测源信号时，由于传感器的位置不同，在传感器阵列中的每个传感器处发生的不同的混合过程之间将存在相位差。在关于源的方向信息已知的情况下，可以从已知的方向信息中提取这个相位信息。本发明的实施例利用这些相位差和对在每个传感器处的混合过程建模的混合滤波器中对应的相位差，从而减少涉及的运算的复杂度并改进源分离过程。

本发明的实施例可以通过设置包括与未约束的独立分量分析对应的函数以及与来自关于希望的源信号的方向的先前的信息的方向约束对应的函数的成本函数来利用相位信息。方向约束可以基于传感器阵列中的每个传感器的混合滤波器中的相位差，从而大大简化在最小化成本函数以便产生最大限度地独立的源信号作为源分离问题的解时涉及的复杂度。

注意，在使源方向信息进入信号处理运算之前，可以以许多方式获得希望的源信号的方向信息。本发明可以被应用于已知或可以通过已知的方式容易地获得关于源相对于传感器阵列的方向的信息的任何源分离技术，而不管如何获得源方向信息。同样地，注意获得已知方向的方法不是本发明的中心。可以以许多不同的方式获得源方向信息。例如，在使用麦克风阵列和数码相机两者来追踪源的系统的情况下，方向信息可以来自使用相机获得的信号源的图像。可替换地，可以使用多麦克风技术获得到达方向(DOA)的信息，所述多麦克风技术是例如MUSIC(多重信号分类)、GCC-PHAT(使用相位变换处理器的广义互相关)、SRP-PHAT(使用相位变换处理器的可控响应功率)、和基于零交叉信息的DOA估算等。在一些实施方式中，例如，可以通过指示说话者一直站在麦克风-相机的右前方来假设源的方向。还可以从游戏控制器获得位置信息，并且所述位置信息可以被用于推导目标源的方向。此外，上面类型的信息的组合可以被用于推导源方向信息。

通过示例的方式，并且不通过限制的方式，在共同持有的美国专利号7,809,145中描述了使用离阵列已知方向处的源预校核麦克风阵列的收听方向的示例，所述申请通过引用合并于此。这个示例包括使用主分量分析(PCA)分解从校核信号中生成的校核协方差矩阵，以便生成对应的特征矩阵。每个特征矩阵的逆可以认为是已知“收听方向”的表示。特征矩阵的逆可以被用于对角线化混合矩阵。

此外，为了解决上述置换问题，使用ICA的分离过程可以根据多元概率密度函数定义频率区之间的关系。以这种方式，可以通过在源分离过程中解决频率区之间的关系基本上消除置换问题，从而防止如上所述的频率区的未对准。

适当地估算频率区之间的关系的每个多元PDF的参数不仅可以取决于与其对应的源信号，还可以取决于将被分析的时间帧(即，给定源信号的PDF的参数将取决于该被分析的信号的时间帧)。同样地，适当地对频率区之间的关系建模的多元PDF的参数可以被认为是时间相关的和源相关的。然而，注意到对于同一类型的源，多元PDF的一般形式可以是相同的，而不管与多元PDF对应的是哪个源或时间段。例如，所有时间段上的所有源可以具有多元PDF，所述多元PDF具有与语音信号对应的超高斯形式，但对于每个源和时间段参数可以是不同的。

本发明的实施例可以通过使用在ICA计算中具有不同的参数的分量多元概率密度函数的加权混合来解决不同源以及不同时间段上的相同源的不同的统计特性。对于不同源信号、不同时间段、或它们的某种组合，可以加权这些多元概率密度函数的混合的参数，或混合多元PDF的参数。换句话说，混合多元PDF中的分量概率密度函数的参数可以与将被分析的不同源和/或不同时间段的频率分量对应。使用概率密度函数来对频率区之间的关系建模的频域ICA的方法未能通过对ICA计算中的单个多元PDF建模来解决这些不同的参数。因此，使用混合多元PDF的本发明的实施例能够比使用单一多元PDF的实施例以更好的性能分析更宽的时间帧，并且能够解决在同一时间同一位置中的多个扬声器(即，多源语音)。因此，注意到在本发明的实施例中为ICA运算使用与单一多元PDF相对的混合多元PDF是优选的，但不是必需的。

在下列描述中，将首先说明与在ICA计算中使用单一多元PDF和混合多元PDF的ICA过程对应的模型。然后，将描述执行具有方向约束的独立分量分析的模型。

源分离问题设置

参考图1A，描述具有N个不同的信号源102的源分离过程的基本示意图。可以用列向量s＝[s₁，s₂，…，s_N]^T表示来自源102的信号。注意，上标T仅表示列向量s仅仅是行向量[s₁，s₂，…，s_N]的转置。注意，每个源信号可以是被建模为连续随机变量的函数(例如，语音信号作为时间的函数)，但现在为了简单而省略函数变量。由M个不同的传感器104(即，具有M个信道的多信道传感器)观测源102，产生可以由向量x＝[x₁，x₂，…，x_M]^T表示的M个不同的混合信号。源分离106分离从传感器104接收的混合信号x＝[x₁，x₂，…，x_M]^T，以便产生可以由向量y＝[y₁，y₂，…，y_N]^T表示的并与来自信号源102的源信号对应的估算的源信号108。图1A中总地示出的源分离在没有产生由传感器观测到的混合信号x＝[x₁，x₂，…，x_M]^T的混合过程的信息的情况下可以产生与原始源102对应的所估算的源信号y＝[y₁，y₂，…，y_N]^T。

参考图1B，描述执行图1A中示出的源分离的总体ICA运算的基本示意图。在基本ICA过程中，源102的数量等于传感器104的数量，使得M＝N，并且观测到的混合信号的数量等于将再现的不同的源信号的数量。在被传感器104观测到之前，从源102发出的源信号s遭受环境中的未知混合110。可以通过如下的混合矩阵A将这个混合过程110表示为线性运算：

将混合矩阵A与源信号向量s相乘而产生由传感器观测到的混合信号x，使得每个混合信号x_i是源向量s的分量的线性组合，并且：

ICA的目的是确定作为混合过程的逆的去混合矩阵W112，使得W＝A^-1。去混合矩阵112可以应用于混合信号x＝[x₁，x₂，…，x_M]^T，以便产生等于置换和缩放输出的估算的源y＝[y₁，y₂，…，y_N]^T，使得，

其中P和D分别表示置换矩阵和缩放矩阵，所述置换矩阵和缩放矩阵中的每一个仅具有对角线分量。

流程图说明

现在参考图2，描述根据本发明的实施例的信号处理200的方法的流程图。信号处理200可以包括接收M个混合信号202。可以通过使用M个传感器或换能器的阵列观测感兴趣的信号来实现接收混合信号202，所述M个传感器或换能器的阵列例如是具有将观测到的音频信号转换为用于由信号处理装置处理的电子形式的M个麦克风的麦克风阵列。所述信号处理装置可以执行在这里描述的方法的实施例，并且通过示例的方式，所述信号处理装置可以是电子通信装置，例如计算机、手持式电子装置、视频游戏控制台、或电子处理装置。麦克风阵列可以产生可以由时域混合信号向量x(t)表示的混合信号x₁(t)，…，x_M(t)。混合信号向量x_m(t)的每个分量可以包括将被分离的音频源信号的卷积混合，其中由回声、混响、时间延迟等引起卷积混合过程。

如果数字地执行信号处理200，则信号处理200可以包括使用模数转换器(ADC)将混合信号x(t)转换为数字形式。模数转换203将使用足够高的采样率来使得能够处理底层的源信号中感兴趣的最高频率分量。模数转换203可以包括定义采样窗口，所述采样窗口定义将被输入到ICA分离过程的信号的时间段长度。通过示例的方式，滚动采样窗口可以用于生成将被转换为时频域的一系列时间段。可以根据各种应用的特定需求以及可用资源、处理功率等选择采样窗口。

为了执行根据本发明的实施例的频域独立分量分析，可以对时域信号进行傅里叶相关变换204，优选地STFT，以便将它们转换为用于通过信号处理200处理的时频表示。STFT将为将执行频域ICA的每个时间段和混合信号加载频率区204。加载的频率区可以与每个时间段的每个时频域混合信号的频谱图表示对应。

虽然在这里STFT被称为傅里叶相关变换的一个示例，但是术语“傅里叶相关变换，，不限于此。通常，术语“傅里叶相关变换”指代与傅里叶分析有关的函数的线性变换。这样的变换将函数映射到基础函数的系数的集合，所述基础函数通常是正弦曲线，从而强烈地局限于(stronglylocalized)频谱中。应用于连续自变量的傅里叶相关变换的示例包括拉普拉斯(Laplace)变换、双边拉普拉斯变换、Mellin变换、包括傅里叶级数和正弦及余弦变换的傅里叶变换、短时傅里叶变换(STFT)、分数傅里叶变换、Hartley变换、Chirplet变换和Hankel变换。应用于离散自变量的傅里叶相关变换的示例包括离散傅里叶变换(DFT)、离散时间傅里叶变换(DTFT)、离散正弦变换(DST)、离散余弦变换(DCT)、回归离散傅里叶级数、离散Chebyshev变换、广义离散傅里叶变换(GDFT)、Z-变换、改进的离散余弦变换、离散Hartley变换、离散的STFT、和Hadamard变换(或Walsh函数)。还可以通过应用于一维时域语音信号的小波分析或函数分析来完成时域信号到频谱域表示的变换，为了本专利的简单，我们将仍然将所述变换称为傅里叶相关变换。

为了简化将在频域ICA中执行的数学运算，在本发明的实施例中，信号处理200可以包括时频域信号X(f，t)的预处理205，所述预处理205可以包括公知的预处理运算，例如居中(centering)、白化等。预处理可以包括在执行源分离206之前，通过主分量分析(PCA)将混合信号去相关，以便改进分离性能。

结合优化208，可以迭代执行结合方向约束通过频域ICA的信号分离206。源分离206包括设置去混合矩阵运算W，当所述去混合矩阵被应用于与由202接收的那些信号对应的混合信号X时，所述去混合矩阵运算W产生原始源信号S的最大限度地独立的估算的源信号Y。源分离206使用关于希望的源信号相对于检测混合信号的传感器阵列的方向的先前的信息207。此外，注意如果已知一个以上的源的方向，则源方向信息207可以包括一个以上的源的方向信息。因此，如在这里描述的，本发明的实施例可以使用仅仅一个源或一个以上的源的方向约束。

源分离206结合优化过程208以便迭代更新源分离206中包括的去混合矩阵，直到去混合矩阵收敛到产生源信号的最大限度地独立的估算的解。结合优化208的源分离206可以包括设置成本函数，所述成本函数包括来自源方向信息207的希望的源的方向约束，以及使用多元概率密度函数来对频率区之间的关系建模的ICA运算。优化208结合定义直到去混合矩阵收敛到可接受的解的迭代过程的优化算法或学习规则。通过示例的方式，结合优化208的源分离206可以使用期望最大化算法(EM算法)来估算混合多元PDF中分量概率密度函数的参数。

在一些实施方式中，可以使用例如最大后验概率(MAP)或最大似然(ML)的估算方法来定义成本函数。然后，可以使用例如EM、和梯度法等的方法得到信号分离问题的解。通过示例的方式，并且不通过限制的方式，可以使用ML定义独立性的成本函数，并使用EM对其进行优化。

一旦由分离过程产生源信号的估算(例如，在去混合矩阵收敛之后)，就可以执行重新缩放和可能的附加的单信道频谱域语音增强(后处理)210，以便产生由于简化预处理步骤205所需的估算的源信号的精确的时频表示。

为了产生与原始时域源信号s(t)直接对应的时域中的估算的源信号y(t)，信号处理200还可以包括对时频域估算的源信号Y(f，t)执行逆傅里叶变换212(例如，逆STFT)，以便产生时域估算的源信号y(t)。在数模转换214之后，可以在各种应用中再现或使用估算的时域源信号。通过示例的方式，在数模转换之后，可以由扬声器、耳机等再现估算的时域源信号，或者在非临时计算机可读介质中数字地存储所述估算的时域源信号用于其他用途。例如，如果重新缩放216和可选的单信道频谱域语音增强210的频谱输出被直接转换为语音识别特征，则傅里叶变换过程212和数模转换过程是可选的，并且不需要实施。

模型

如上所述的通过频域ICA使用源分离206和优化208的信号处理200可以包括根据本发明的实施例的将由信号处理装置执行的算术运算的适当模型。在下列描述中，首先将描述在频域ICA运算中使用多元PDF的模型，其中多元PDF不是混合多元PDF(在这里被称为“单个多元PDF”或“单一多元PDF”)。然后，将描述使用作为分量多元PDF的混合的混合多元PDF的模型。然后，将描述根据本发明的实施例的执行结合方向约束的ICA的新的模型，所述新的模型使用在这里描述的多元PDF。虽然为了本发明的实施例的完整和清楚的公开而提供在这里描述的模型，但注意本领域普通技术人员可以构想下列模型的各种改变，而不脱离本发明的范围。

使用多元PDF的模型

首先，将根据使用单一多元PDF的方法描述如图2中所示的用于使用频域ICA执行源分离206和优化208的模型。

为了执行频域ICA，必须从时域混合信号中提取频域数据，并且这可以通过对混合信号数据执行傅里叶相关变换来实现。例如，短时傅里叶变换(STFT)可以将时域信号x(t)转换为时频域信号，使得，

X_m(f，t)＝STFT(x_m(t)) (4)

并且对于F个频率区，第m个麦克风的频谱将是，

X_m(t)＝[X_m(1，t)...X_m(F，t)] (5)

对于M个麦克风，可以由向量X(t)表示混合信号数据，使得，

X(t)＝[X₁(t)...X_M(t)]^T (6)

在上面的表达式中，向量的每个分量与所有频率区1到F上的第m个麦克风的频谱对应。同样地，对于估算的源信号Y(t)，

Y_m(t)＝[Y_m(1，t)...Y_m(F，t)] (7)

Y(t)＝[Y₁(t)...Y_M(t)]^T (8)

因此，ICA的目的可以是设置从混合信号X(t)中产生估算的源信号Y(t)的矩阵运算，其中W(t)是去混合矩阵。所述矩阵运算可以表达为，

Y(t)＝W(t)X(t) (9)

其中可以设置W(t)以便分离整个频谱图，使得矩阵W(t)的每个元素W_ij(t)对于所有频率区展开如下，

现在，假设存在与麦克风相同数量的源(即，源的数量＝M)。本发明的实施例可以使用ICA模型用于欠定(underdetemined)情况，其中源的数量大于麦克风的数量，但现在为了说明的清楚及简洁，将说明限制为源的数量等于麦克风的数量的情况。

可以通过循环过程求解去混合矩阵W(t)，所述循环过程包括为去混合矩阵W(t)提供初步估算，并迭代更新去混合矩阵直到它收敛于提供最大限度地独立的估算的源信号Y的解为止。迭代的优化过程包括定义直到收敛为止(即，直到去混合矩阵收敛于产生最大限度地独立的估算的源信号的解为止)将执行的迭代的优化算法或学习规则。

优化可以包括成本函数，并且可以定义所述优化来最小化估算的源的互信息。所述成本函数可以使用Kullback-Leibler散度作为源之间的独立性的自然测量，其为每个源测量联合概率密度函数和边缘概率密度函数之间的差。使用球形分布作为一种类型的PDF，第m个源的频谱的PDF

可以是，

P_{Y_{m}} (Y_{m} (t)) = h \cdot ψ ({| | Y_{m} (t) | |}_{2}) - - - (12)

{| | Y_{m} (t) | |}_{2} \overset{Δ}{=} {(\underset{f}{Σ} {| Y_{m} (f, t) |}^{2})}^{\frac{1}{2}} - - - (13)

其中，ψ(x)＝exp{-Ω|x|}，Ω是适当的常数，并且h是上面的表达式中的归一化因子。因此，第m个源的最终多元PDF是，

P_{Y_{m}} (Y_{m} (t)) = h \cdot ψ ({| | Y_{m} (t) | |}_{2}) = hexp {- Ω {| | Y_{m} (t) | |}_{2}} = hexp {- Ω {(Σ_{f} {| Y_{m} (f, t) |}^{2})}^{\frac{1}{2}}} - - - (14)

可以如下定义成本函数，所述成本函数使用上面的表达式中提及的PDF，

KLD (Y) \overset{Δ}{=} \underset{m}{Σ} - E_{t} (\log (P_{Y_{m}} (Y_{m} (t)))) - \log | \det (W) | - H (X)

(15)

其中，上面的表达式中的E_t是帧上的平均期望，并且H是熵。

以上描述的模型采用成本函数解决置换问题，该模型使用多元PDF来对频率区之间的关系建模。去混合矩阵的解决包括最小化上述的成本函数，这可以最小化交互信息，以产生最大独立估算的源信号。

以上描述的模型采用使用多元PDF来对频率区之间的关系建模的成本函数来解决置换问题。去混合矩阵的求解包括最小化上面的成本函数，所述成本函数将最小化互信息以便产生最大限度地独立的估算的源信号。

使用混合多元PDF的模型

已对在频域ICA中使用单一多元PDF的已知方法建模后，将描述使用混合多元PDF的模型。

语音分离系统可以使用包括作为具有不同参数的L个分量多元概率密度函数的混合的混合多元概率密度函数的独立分量分析。注意，可以预计不同的源信号拥有具有相同一般形式的PDF(例如，可以预计不同的语音信号具有超高斯形式的PDF)，但可以预计来自不同源信号的参数是不同的。此外，因为来自特定源的信号将随时间改变，可以预计对于来自相同源的信号，PDF的参数在不同的时间段具有不同的参数。因此，可以使用作为对于不同源和/或不同时间段加权的PDF的混合的混合多元PDF。因此，本发明的实施例可以使用解决不同源信号的不同统计特性以及信号的统计特性随时间的改变的混合多元PDF。

同样地，对于L个不同分量多元PDF的混合，L通常可以被理解为加权混合的PDF的时间段的数量与源的数量的乘积(例如，L＝源的数量×时间段的数量)。

本发明的实施例可以使用预训练的特征向量估算去混合矩阵。其中V(t)表示预训练的特征向量，并且E(t)表示特征值，去混合可以被表示为，

Y(t)＝V(t)E(t)＝W(t)X(t) (21)

V(t)可以是干净信号的预训练的特征向量，所述干净信号是例如语音、音乐、和在输入音频信号的情况下的已知声音。换句话说，可以为将被分离的多种类型的原始源预训练V(t)。可以执行优化以便得到E(t)和W(t)两者。当选定V(t)≡I时，则估算的源等于特征值，使得Y(t)＝E(t)。

根据本发明的实施例的优化可以包括使用期望最大化算法(EM算法)来估算用于ICA计算的混合多元PDF的参数。

根据本发明的实施例，概率密度函数被假设为作为多元分量PDF的混合的混合多元PDF。其中由X(f，t)＝A(f)S(f，t)表示使用单一多元PDF的混合系统，混合多元PDF的混合系统变为，

X (f, t) = Σ_{l = 0}^{L} A (f, l) S (f, t - l) - - - (22)

同样地，其中由Y(f，t)＝W(f)X(f，t)表示单一多元PDF的去混合系统，混合多元PDF的去混合系统变为，

Y (f, t) = Σ_{l = 0}^{L} W (f, l) X (f, t - l) = Σ_{l = 0}^{L} Y_{m, l} (f, t) - - - (23)

其中A(f，l)是时间依赖的混合条件，并且还可以表示长时间混响混合条件。其中为PDF选择球形分布，混合多元PDF变为，

P_{Y_{m}} (Y_{m, l} (t)) \overset{Δ}{=} Σ_{l}^{L} b_{l} (t) P_{Y_{m, l}} (Y_{m} (t)), t &Proportional; [t 1, t 2] - - - (24)

P_{Y_{m}} (Y_{m} (t)) = Σ_{l} b_{l} (t) h_{l} f_{l} ({| | Y_{m} (t) | |}_{2}), t &Proportional; [t 1, t 2] - - - (25)

其中为PDF选择多元广义高斯，混合多元PDF变为，

P_{Y_{m, l}} (Y_{m, l} (t)) \overset{Δ}{=} Σ_{l}^{L} b_{l} (t) h_{l} Σ_{c} ρ (c_{l} (m, t)) Π_{f} N_{c} (Y_{m} (f, t) | 0, v_{Y_{m} (f, t)}^{f}), t &Proportional; [t 1, t 2]

(26)

其中ρ(c)是不同的第c个分量多元广义高斯之间的加权，并且b_l(t)是不同的时间段之间的加权。可以使用离线数据预训练

并进一步使用运行时数据训练。

注意，可以从上面的表达式(22)到(26)推导出用于欠定情况(即，其中源的数量大于麦克风的数量)的模型，并且这些欠定情况在本发明的范围内。

在本发明的实施例中使用的ICA模型可以使用每个混合信号的倒谱(cepstrum)，其中X_m(f，t)可以是x_m(t)的倒谱加上基音(pitch)的对数(log)值(或标准值)，如下，

X_m(f，t)＝STFT(log(||x_m(t)||²))，f＝1，2，...，F-1 (27)

X_{m} (F, t) \overset{Δ}{=} \log (f_{0} (t)) - - - (28)

X_m(t)＝[X_m(1，t)...X_F-1(F-1，t)X_F(F，t)] (29)

注意，可以将时域语音信号的倒谱定义为时域信号的傅里叶变换的对数(使用展开的相位)的傅里叶变换。时域信号S(t)的倒谱可以在数学上被表示为FT(log(FT(S)t)))+j2πq)，其中q是完全展开复数对数函数的角或虚数部分所需的整数。在算法上，可以通过对信号执行傅里叶变换、取得到的变换的对数、展开所述变换的相位、以及对所述变换进行傅里叶变换而生成倒谱。这个运算的顺序可以被表示为：信号→FT→对数→相位展开→FT→倒谱。

为了在时域中产生估算的源信号，在得到Y(t)的解后，基音+倒谱只需被转换为频谱图，并且从频谱图转换为时域，以便在时域中产生估算的源信号。优化的其余部分保持与上面描述的相同。

对于根据本发明的实施例的源分离中使用的模型，取决于各种应用的特定需求可以选择不同形式的PDF。通过示例的方式，选择的PDF的形式可以是球形的。更具体地，取决于各种应用的特定需求，所述形式可以是超高斯、拉普拉斯算子、或高斯。注意，在选定混合多元PDF的情况下，每个混合多元PDF是分量PDF的混合，并且混合中的每个分量PDF可以具有相同的形式，但是不同的参数。

如图3A-3B中所示，混合多元PDF可以导致具有与每个分量PDF对应的多个模式的概率密度函数。在图3A中的单一PDF302中，作为给定变量的函数的概率密度是单峰的，即，对于给定变量PDF302的曲线图仅具有一个峰值。在混合PDF304中，作为给定变量的函数的概率密度是多峰的，即，对于给定变量，混合PDF304的曲线图具有一个以上的峰值。注意，作为单一PDF302和混合PDF304之间的区别的示范而提供图3。然而，注意图3A中描绘的PDF是一元PDF，并且仅为了示范单一PDF和混合PDF之间的区别而提供。在混合多元PDF中，将存在一个以上的变量，并且对于那些变量中的一个或多个，PDF将是多峰的。换句换说，对于变量中的至少一个，PDF的曲线图中将存在一个以上的峰值。

参考图3B，描绘频谱图以便示范单一多元PDF和混合多元PDF之间的区别，以及对于不同时间段可以如何加权混合多元PDF。如由虚线示出的与时间段306对应的单一多元PDF可以与如上所述的

对应。相反，如图3B中的虚线矩形所示，与时间段帧308对应的混合多元PDF可以覆盖跨越多个不同时间段的时间帧。混合多元PDF可以与如上所述的对应。

具有方向约束的模型

描述完使用多元概率密度函数来保持估算的源信号中的频率区的对准的ICA技术，现在将根据本发明的实施例描述通过结合方向约束与底层的ICA而使用与源有关的先前的方向信息的模型。执行根据本发明的实施例的具有方向约束的独立分量分析可以通常被理解为依赖与希望的源的方向有关的两个假设。首先，假设关于希望的源信号的方向的先前的信息，并且这个假设提供关于如由阵列中的不同传感器检测到的源信号的相位信息。其次，假设在混合滤波器之间仅存在相位差，所述混合滤波器为已知方向上的源对在每个传感器处的混合过程建模。注意，虽然下列示例涉及源信号与麦克风的数量相同的情况，但是本发明实施例也可以用于超定情况(即，存在比源多的麦克风)或欠定情况(即，存在比麦克风多的源)。源与麦克风的数量相等的假设简化说明。对于给定的假设，本发明的实施例有效地工作。

首先，将假设源与麦克风数量相同来设置问题，使得源信号S、麦克风信号X和与原始源信号对应的估算的信号Y的数量都等于M。

S(f，t)＝[S₁(f，t)...S_M(f，t)]^T (30)

X(f，t)＝[X₁(f，t)...X_M(f，t)]^T (31)

Y(f，t)＝[Y₁(f，t)...Y_M(f，t)]^T (32)

因此，可以由下列矩阵表示混合滤波器，

并且，由下列矩阵表示去混合滤波器，

使得由下列等式表示混合模型，

(35)

同样地，每个混合信号X_i被如下建模为源信号S的线性混合，

X_{i} (f, t) = Σ_{j = 1}^{M} A_{ij} (f) S_{j} (f, t) - - - (36)

同样地，可以将去混合模型表示为，

(37)

因此，可以通过如下将混合和去混合应用于源信号的矩阵运算来对作为原始源信号S的估算的输出信号Y建模，

Y(f，t)＝W(f)A(f)S(f，t) (38)

最终，可以使用如下的表达式(39)来设置与在已知方向上的希望的源信号对应的希望的输出，

Y_{d} (f, t) = Σ_{j = 1}^{M} W_{dj} (f) X_{j} (f, t) + \underset{k &NotEqual; d}{Σ} Σ_{k = 1}^{M} W_{ik} (f) X_{k} (f, t) - - - (39)

给定源方向信息的假设，可以由下列等式描述在每个传感器j处的相位信息τ_jd，

τ_{jd} = \frac{({dist}_{jd} - {dist}_{1 d})}{c} Fs - - - (40)

其中，d是希望的源的指数，dist_1d是从希望的源到第1个传感器的距离，c是从源到传感器的信号速度(例如，在麦克风情况下是声音的速度)，并且Fs是采样频率。假设在混合滤波器之间仅存在相位差，给出，

A_jd(f)＝exp(-j2πτ_jd)A_1d(f) (41)

对于位于已知方向的源，对应的输出的指数被表示为d。因此，使用上面的等式(39)，与d的源信号对应的估算的信号可以如下结合源方向信息，

Y_{d} (f, t) = (Σ_{j = 1}^{M} W_{dj} (f) A_{jd} (f)) S_{d} (f, t) + \underset{k &NotEqual; d}{Σ} (Σ_{j = 1}^{M} W_{kj} (f) A_{jk} (f)) S_{k} (f, t)

= (Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd})) A_{1 d} (f) S_{d} (f, t) + \underset{k &NotEqual; d}{Σ} (Σ_{j = 1}^{M} W_{kj} (f) A_{jk} (f)) S_{k} (f, t)

(42)

方向约束的成本函数变为，

J_{D} (W_{d}) = (Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd})) A_{1 d} (f) \overset{Δ}{=} Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd})

(43)

注意，A_1d(f)与W无关，从而对于与W有关的导数，A_1d(f)变为零。最终成本函数J_new(W)是如前所述的ICA成本函数和方向约束的成本函数的组合，使得，

J_new(W)＝KLD(Y)+λJ_D(W_d) (44)

其中，λ是常数，并且KLD(Y)可以与先前描述的成本函数对应，所述成本函数使用多元PDF来定义频率区之间的关系。成本函数中使用的多元PDF可以是如上所述的单一多元PDF或者混合多元PDF。

可以如下说明通过结合混合和去混合的详细解法。

通过结合等式(35)和(37)，我们将得到下列等式

在将上面的表达式改写为二次方程之后，获得下列等式，其可以将Y_d(f，t)分成希望的源及其他源的表达式。

Y_{d} (f, t) = (Σ_{j = 1}^{M} W_{dj} (f) A_{jd} (f)) S_{d} (f, t) + \underset{k &NotEqual; d}{Σ} (Σ_{j = 1}^{M} W_{kj} (f) A_{jk} (f)) S_{k} (f, t) - - - (46)

理想地，如果匹配下列条件，

\underset{k &NotEqual; d}{Σ} (Σ_{j = 1}^{M} W_{kj} (f) A_{jk} (f)) = 0

则可以获得希望的源Y_d(f，t)＝C(f)S_d(f，t)，其中

C (f) = (Σ_{j = 1}^{M} W_{dj} (f) A_{jd} (f)) - - - (47)

在ICA的理想解的观点中，ICA得到使不同源的输出变为零的解。换句话说，ICA得到等于由每个频率区中的分量C(f)表示的混响信号的解。

在C(f)中，W_dj(f)和A_jd(f)两者组成混响分量。

可以如下说明使用方向约束的详细解法：

a)使用用于等式(40)的假设，我们可以得到希望的输出的下列等式。

Y_{d} (f, t) = (Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd})) A_{1 d} (f) S_{d} (f, t) + \underset{k &NotEqual; d}{Σ} (Σ_{j = 1}^{M} W_{kj} (f) A_{jk} (f)) S_{k} (f, t)

C (f) = (Σ_{j = 1}^{M} W_{dj} (f) A_{jd} (f)) = (Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd})) A_{1 d} (f) - - - (48)

如果我们最小化的结果，则即使不能获得输出Y_d(f，t)＝S_d(f，t)，在没有C(f)中的

的情况下，也可以得到解Y_d(f，t)＝A_1d(f，t)S_d(f，t)。

b)成本函数

为了最小化取决于不同频率区的

的结果，可以利用W_dj(f)的频谱平坦度。

首先，我们如下定义新的变量W_d(f)，

W_{d} (f) \overset{Δ}{=} Σ_{j = 1}^{M} W_{dj} (f) \exp (- j 2 π τ_{jd}) - - - (49)

使用给定的方向信息选定方向约束的成本函数J_D(W_d(f))，以便使得去混合滤波器具有平坦的频谱响应，成本函数可以被表示如下，

J_D(W_d(f))＝SF(|W_d(f)|) (50)

在等式(50)中，运算|·|是复数变量的绝对值运算。运算SF(·)可以是用于测量频谱平坦度的任何函数。通过示例的方式，并且不通过限制的方式，例如，如在下面的等式(51)中所示，可以使用方差函数的对数作为运算SF(·)。

J_{D} (W_{d} (f)) = SF (| W_{d} (f) |) = \log (var (| W_{d} (f) |)) = \log (\frac{1}{F} Σ_{f = 1}^{F} {| W_{d} (f) |}^{2}) - - - (51)

可以如下实现最终学习规则的详细解法。

通过使用等式(44)中定义的成本函数，可以如下计算成本函数的梯度：

\frac{{&PartialD; J}_{D} (W_{d} (f))}{{&PartialD; W}_{dj} (f)} = (\frac{1}{var (| W_{d} (f) |)} (\frac{1}{F} W_{d} (f) - \frac{1}{F} \frac{W_{d} (f)}{| W_{d} (f) |} Σ_{f = 1}^{F} | W_{d} (f) |)) \exp (- j 2 π τ_{jd})

(52)

最终的基于梯度的学习规则将是如下，

对于i≠d，

W_{ij} (f) = W_{ij} (f) + η (\frac{&PartialD; KLD (Y)}{{&PartialD; W}_{ij} (f)})

对于i＝d，

W_{dj} (f) = W_{dj} (f) + η (\frac{&PartialD; KLD (Y)}{{&PartialD; W}_{dj} (f)} + λ \frac{{&PartialD; J}_{D} (W_{d} (f))}{{&PartialD; W}_{dj} (f)}) - - - (53)

其中η是学习速率。

在完成源分离之后，可以实现源选择以便从M个输出中选择希望的源。方向约束可以被用于选择具有方向约束的最大成本函数J_D(W_d(f))的希望的源：

J_D(W_d(f))＝SF(|W_d(f)|) (54)

可以如下实现使用预训练的特征向量的W的闭合形式的解。

Y(t)＝V(t)E(t)＝W(t)X(t)，其中V(t)可以是干净语音、音乐和噪声的预训练的特征向量。E(t)是特征值。→

V(t)是预训练的 (55)

E(t)或

(t)的维数可以小于X(t)。

优化是为了得到{V(t)，E(t)，W(t)}。数据集1是训练数据或校核数据。数据集2是测试数据或实时数据。当选定s(t)≡I时，则Y(t)＝E(t)，方程退回到单个等式的普通情况。当数据集1是单信道纯训练数据时，Y(t)是已知的，

X(t)＝Y(t)。最优解V(t)是Y(t)的特征向量。

对于等式(55)，任务是对于给定的混合输入数据集X(t)和已知特征向量V(t)得到最优的{E(t)，W(t)}。即求解下列等式：

V(t)E(t)＝W(t)X(t)

如果V(t)是矩形矩阵，则

E(t)＝V(t)^-1W(t)X(t)

如果V(t)不是矩形矩阵，则

E(t)＝(V(t)^TV(t))^-1V(t)^TW(t)X(t)

或

E(t)＝V(t)^T(V(t)^TV(t))^-1W(t)X(t) (56)

被假设为麦克风“m”和PDF混合分量“l”的多元PDF的混合。新的去混合系统变为：

E(f，t)＝V^-1(f，t)W(f)X(f，t)

E (f, t) = Σ_{l = 0}^{L} V^{- 1} (f, t) W (f, l) X (f, t - l) = Σ_{l = 0}^{L} E_{m, l} (f, t) - - - (57)

重新缩放过程(图2，216)

在图2的216表示的重新缩放过程在频谱图的频率区之间调整在等式(3)中描述的缩放矩阵。此外，重新缩放过程216消除预处理的影响。

通过示例的方式，并且不通过限制的方式，可以使用美国专利7,797,153(通过引用将其合并于此)中在第18栏第31行到第19栏第67行描述的技术中的任意一个来实现在216表示的重新缩放过程，下面将简要地论述所述技术。

根据第一技术，可以通过从估算的源信号Y_k(f，t)(其比例不是统一的)中产生具有单输入多输出的信号来重新缩放估算的源信号Y_k(f，t)中的每一个。可以通过使用去混合矩阵W(f)和预处理矩阵Q(f)的乘积的逆对估算的源信号进行运算来实现这种类型的重新缩放以便产生如下给出的缩放输出X_yk(f，t)：

X_{yk} (f, t) = {(W (f) Q (f))}^{- 1} [\begin{matrix} 0 \\ . \\ . \\ . \\ Y_{k} (f, t) \\ . \\ . \\ . \\ 0 \end{matrix}] - - - (58)

其中X_yk(f，t)表示在来自第k个源的在第y个输出的信号。Q(f)表示预处理矩阵，其可以被实现为在图2的205表示的预处理的一部分。预处理矩阵Q(f)可以被配置为使混合输入信号X(f，t)在每个频率区具有零均值和单位方差。

Q(f)可以是给出去相关输出的任何函数。通过示例的方式，并且不通过限制的方式，例如，可以使用如下面的等式中所示的过程。

可以如下计算预处理矩阵Q(f)：

R(f)＝E(X(f，t)X(f，t)^H) (59)

R(f)q_n(f)＝λ_n(f)q_n(f) (60)

其中，q_n(f)是特征向量，并且λ_n(f)是特征值。

Q′(f)＝[q₁(f)...q_N(f)] (61)

Q(f)＝diag(λ₁(f)^-1/2，...，λ_N(f)^-1/2)Q′(f)^H (62)

在第二重新缩放技术中，基于最小失真原理，可以根据下列等式重新计算去混合矩阵W(f)：

W(f)←diag(W(f)Q(f)^-1)W(f)Q(f) (63)

在等式(63)中，Q(f)再次表示用于预处理在图2的205的输入信号X(f，t)的预处理矩阵，使得它们在每个频率区具有零均值和单位方差。Q(f)^-1表示预处理矩阵Q(f)的逆。然后，可以将重新计算的去混合矩阵W(f)应用于原始输入信号X(f，t)以便产生重新缩放的估算的源信号Y_k(f，t)。

第三技术使用估算的源信号Y_k(f，t)和残留信号的独立性。可以通过将第k个源和第f个频率区的源信号Y_k(f，t)与适当的缩放系数相乘来获得重新缩放的估算的源信号。残留信号是原始混合信号X_k(f，t)和重新缩放的源信号之间的差。如果具有恰当的值(correct value)，则因子Y_k(f，t)从残留信号中完全消失，并且乘积表示原始观测信号。可以通过求解下列等式来获得缩放系数：

E [f (X_{k} (f, t) - α_{k} (f) Y_{k} (f, t) \overset{&OverBar;}{g (Y_{k} (f, t))}] - E [f (X_{k} (f, t) - α_{k} (f) Y_{k} (f, t)] E [\overset{&OverBar;}{g (Y_{k} (f, t))}] = 0

(64)

在等式(64)中，函数f(.)和g(.)是任意标量函数。上覆线表示共轭复数运算，并且E[]表示方括号内的表达式的期望值的计算。

信号处理装置描述

为了执行如上所述的根据本发明的实施例的源分离，信号处理装置可以被配置为执行实现本发明的实施例所需的算术运算。信号处理装置可以是各种通信装置中的任何一个。例如，根据本发明的实施例的信号处理装置可以是计算机、个人计算机、膝上型计算机、手持式电子装置、蜂窝电话、视频游戏控制台等。

参考图4，描绘根据本发明的实施例的能够执行源分离的信号处理装置400的示例。设备400可以包括处理器401和存储器402(例如，RAM，DRAM，和ROM等)。此外，如果将实现并行处理，则信号处理设备400可以具有多个处理器401。此外，信号处理设备400可以使用多核处理器，例如双核处理器、四核处理器或其他多核处理器。存储器402包括被配置为执行如上所述的源分离的数据和代码。具体地，存储器402可以包括信号数据406和代码，所述信号数据406可以包括输入信号x的数字表示(例如，在上面的图2中所示的模数转换之后)，所述代码用于使用如上所述的混合多元PDF来实现源分离以便估算在混合信号x的数字表示中包含的源信号。

设备400还可以包括公知的支持功能元件410，例如输入/输出(I/O)元件411、电源(P/S)412、时钟(CLK)413和高速缓冲存储器414。设备400可以包括大容量存储装置415，例如盘驱动器、CD-ROM驱动器、或磁带驱动器等以便存储程序和/或数据。设备400还可以包括显示单元416和用户接口单元418，以便促进设备400和用户之间的交互。显示单元416可以是显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口418可以包括键盘、鼠标、操纵杆、光笔或其他装置。此外，用户接口418可以包括麦克风、摄像机或其他信号换能装置以便提供将被分析的信号的直接捕获。如图4所示，处理器401、存储器402和系统400的其他组件可以经由系统总线420彼此交换信号(例如，代码指令和数据)。

麦克风阵列422可以通过I/O功能元件411耦接到设备400。麦克风阵列可以包括两个或多个麦克风。麦克风阵列可以优选地包括至少与将被分离的原始源的一样多的麦克风；然而，对于如上所述的欠定和超定(overdetemined)情况，麦克风阵列可以包括比源的数量更少或更多的麦克风。麦克风阵列422的每个麦克风可以包括将声信号转换为电信号的声换能器。设备400可以被配置为将来自麦克风的模拟电信号转换为数字信号数据406。

设备400可以包括网络接口424以便经由电子通信网络426促进通信。网络接口424可以被配置为经由局域网和例如因特网的广域网实现有线或无线通信。设备400可以通过网络426经由一个或多个消息分组427发送和接收数据和/或文件请求。麦克风阵列422还可以被连接到例如游戏控制器的外围装置，而非经由I/O元件411直接耦接。外围装置可以通过有线或无线方法向处理器401发送阵列数据。还可以在外围装置中进行阵列处理，并且向处理器401发送处理后的干净语音或语音特征。

还应注意，在一些实现方式中，一个或多个声音源419可以例如经由I/O元件或例如游戏控制器的外围装置耦接到设备400。此外，一个或多个图像捕获设备430可以例如经由I/O元件411或例如游戏控制器的外围装置被耦接到设备400。

如在这里使用的，术语I/O通常涉及将数据传输到系统400或从系统400传输数据以及将数据传输到外围装置或从外围装置传输数据的任何程序、操作或装置。每一次数据传输都可以被认为是来自一个装置的输出和到另一装置中的输入。外围装置包括例如键盘和鼠标的仅输入装置、例如打印机的仅输出装置、以及可以用作输入和输出装置两者的例如可写CD-ROM的装置。术语“外围装置”包括外部装置，例如鼠标、键盘、打印机、监视器、麦克风、游戏控制器、相机、外部Zip驱动器或扫描仪，以及内部装置，例如CD-ROM驱动器、CD-R驱动器或内部调制解调器或例如闪存读取器/写入器、硬盘的其他外围装置。通过示例的方式，并且不通过限制的方式，可以在大容量存储装置415上、在CD-ROM上存储、或经由网络426从远程服务器下载一些麦克风阵列422的初始参数、校核数据、以及多元PDF和混合及去混合数据的部分参数。

如上所述，处理器401可以响应于由存储器402存储及获取并由处理器模块401运行的数据406和程序404的程序代码指令，对信号数据406执行数字信号处理。程序404的代码部分可以遵照许多不同编程语言中的任何一个，例如，汇编、C++、JAVA或许多其他语言。处理器模块401形成当运行例如程序代码404的程序时变为专用计算机的通用计算机。虽然程序代码404在这里被描述为被实现为软件并在通用计算机上运行，但是本领域技术人员可以认识到可以使用例如专用集成电路(ASIC)或其他硬件电路的硬件来可替换地实现任务管理的方法。同样地，可以全部或部分地以软件、硬件或软件和硬件两者的某种组合实现本发明的实施例。

本发明的实施例可以包括具有实现如上所述的源分离方法的处理器可读指令集的程序代码404。程序代码404通常可以包括引导处理器对多个时域混合信号执行源分离的指令，其中混合信号包括将通过在这里描述的源分离方法提取的原始源信号的混合。所述指令可以引导信号处理装置400对多个时域混合信号执行傅里叶相关变换(例如，STFT)，以便生成与时域混合信号对应的时频域混合信号，从而加载频率区。所述指令可以引导信号处理装置对时频域混合信号执行如上所述的独立分量分析，以便生成与原始源信号对应的估算的源信号。独立分量分析可以使用单一概率密度函数或混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量概率密度函数的加权混合。将结合方向约束执行独立分量分析，其中方向约束基于与期望的源信号相对于传感器阵列的方向有关的先前的信息。

注意，在这里描述的源分离的方法通常应用于从由信号处理装置接收的混合信号估算多个源信号。然而，在特定应用中感兴趣的唯一源信号可以是单个源信号，例如与作为噪声的其他源信号混合的单一语音信号。通过示例的方式，由本发明的音频信号处理实施例估算的源信号可以是语音信号、音乐信号、或噪声。同样地，本发明的实施例可以使用如上所述的ICA，以便从多个原始源信号的混合中估算至少一个源信号。

因为通过将关于源方向的先前的信息结合到频域ICA中，在完成源分离之后可以选择希望的源，可以减少在不同的源的混响效应，并可以增加收敛速度，因此本发明的实施例尤其有利。虽然为了说明的目的，这里的详细描述包含许多具体细节，但是本领域普通技术人员中的任何一个将理解对在这里描述的细节的许多变化和改变在本发明的范围内。因此，在所要求保护的发明不失任何一般性并且没有对所要求保护的发明强加限制的情况下阐述在这里描述的本发明的示例实施例。

虽然以上是本发明的优选实施例的完整说明，但是可以使用各种改变、修改和等价物。因此，不应该参考上面的描述来确定本发明的范围，相反，应该参考所附权利要求连同它们的等效物的整个范围来确定本发明的范围。在这里描述的任何特征(不管是不是优选的)都可以与在这里描述的任何其他特征(不管是不是优选的)相结合。在随后的权利要求中，当在包含例如“包括，”的开放式过渡短语的权利要求中使用时，除非另有明确说明，不定冠词“一”或“一个”指代所述冠词后的项目中的一个或多个的数量。此外，随后使用词语“上述”或“所述”来重新提及相同的权利要求术语不改变这个含义，而仅是重新援引该非单一的含义。所附权利要求将不被解释为包括设备加功能限制或步骤加功能限制，除非在给定权利要求中使用短语“用于......的设备”或“用于......的步骤”来明确地描述这种限定。

Claims

1.一种使用信号处理装置处理信号的方法，包括：

在信号处理装置中接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

使用所述信号处理装置对每个时域混合信号执行傅里叶相关变换，以便生成与所述时域混合信号对应的时频域混合信号；以及

对所述时频域混合信号执行独立分量分析，以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号，

其中结合方向约束执行所述独立分量分析，所述方向约束基于原始源信号相对于检测所述时域混合信号的传感器阵列的已知方向，以及

其中所述独立分量分析使用多元概率密度函数，以便保持至少一个估算的源信号中的频率区的对准。

2.如权利要求1所述的方法，其中所述混合信号是音频信号。

3.如权利要求1所述的方法，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音信号对应。

4.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

5.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合，其中所述执行独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

6.如权利要求1所述的方法，其中所述方向约束基于混合滤波器之间的相位差，每个混合滤波器对在所述传感器阵列的每个传感器处的原始源信号的混合过程建模。

7.如权利要求1所述的方法，其中执行所述独立分量分析包括使用成本函数，所述成本函数包括与未约束的独立分量分析对应的函数以及与方向约束对应的函数，其中选定所述方向约束以便使去混合矩阵的去混合滤波器具有平坦的频谱响应。

8.如权利要求1所述的方法，其中所述执行傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

9.如权利要求1所述的方法，其中所述执行独立分量分析包括，在分量概率密度函数的参数的估算中，使用干净语音的预训练的特征向量。

10.如权利要求1所述的方法，其中所述执行独立分量分析还包括使用音乐和噪声的预训练的特征向量。

11.如权利要求1所述的方法，其中所述执行独立分量分析还包括使用运行时数据训练特征向量。

12.如权利要求1所述的方法，还包括在所述执行傅里叶相关变换之前，使用模数转换器将所述混合信号转换为数字形式。

13.如权利要求1所述的方法，还包括对所述至少一个估算的时频域源信号进行逆STFT，以便产生与原始时域源信号对应的至少一个估算的时域源信号。

14.如权利要求1所述的方法，其中所述多元概率密度函数包括球形分布。

15.如权利要求1所述的方法，其中所述多元概率密度函数包括拉普拉斯分布。

16.如权利要求1所述的方法，其中所述多元概率密度函数包括超高斯分布。

17.如权利要求1所述的方法，其中所述多元概率密度函数包括多元广义高斯分布。

18.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

19.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。

20.如权利要求1所述的方法，其中所述传感器阵列是麦克风阵列，并且所述方法还包括，在信号处理装置中接收所述时域混合信号之前，使用所述麦克风阵列观测所述时域混合信号。

21.一种信号处理装置，包括：

处理器；

存储器；以及

计算机编码指令，在所述存储器中包含所述计算机编码指令并且可以由所述处理器执行所述计算机编码指令，其中所述指令被配置为实现信号处理的方法，所述方法包括：

接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

对每个时域混合信号执行傅里叶相关变换，以便生成与所述时域混合信号对应的时频域混合信号；以及

所述独立分量分析使用多元概率密度函数，以便保持至少一个估算的源信号中的频率区的对准。

22.如权利要求21所述的装置，还包括所述传感器阵列。

23.如权利要求21所述的装置，其中所述传感器阵列是麦克风阵列。

24.如权利要求21所述的装置，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音信号对应。

25.如权利要求21所述的装置，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

26.如权利要求21所述的装置，其中所述方向约束基于混合滤波器中的相位差，每个滤波器对传感器阵列中的每个传感器处原始源信号的混合过程建模。

27.如权利要求21所述的装置，其中所述执行傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

28.如权利要求21所述的装置，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合，其中所述执行独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

29.如权利要求21所述的装置，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合，其中所述执行独立分量分析包括，在分量概率密度函数的参数的估算中，使用干净信号的预训练的特征向量。

30.如权利要求29所述的装置，其中所述执行独立分量分析还包括使用音乐和噪声的预训练的特征向量。

31.如权利要求29所述的装置，其中所述执行独立分量分析还包括用运行时数据训练特征向量。

32.如权利要求21所述的装置，还包括模数转换器，其中所述信号处理的方法还包括，在所述执行傅里叶相关变换之前，使用模数转换器将所述混合信号转换为数字形式。

33.如权利要求21所述的装置，所述方法还包括对所估算的时频域源信号进行逆STFT，以便产生与原始时域源信号对应的估算的时域源信号。

34.如权利要求21所述的装置，其中所述多元概率密度函数包括球形分布。

35.如权利要求34所述的装置，其中所述多元概率密度函数包括拉普拉斯分布。

36.如权利要求34所述的装置，其中所述多元概率密度函数包括超高斯分布。

37.如权利要求21所述的装置，其中所述多元概率密度函数包括多元广义高斯分布。

38.如权利要求21所述的装置，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

39.如权利要求21所述的装置，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。

40.一种包括非临时计算机可读介质的计算机程序产品，其具有在所述介质中包含的计算机可读程序代码，可运行所述程序代码以便执行信号处理操作，所述操作包括：