CN103426435B

CN103426435B - 具有移动约束的通过独立分量分析的源分离

Info

Publication number: CN103426435B
Application number: CN201310287566.2A
Authority: CN
Inventors: J·允; R·陈
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2012-05-04
Filing date: 2013-05-06
Publication date: 2018-01-23
Anticipated expiration: 2033-05-06
Also published as: US20130294608A1; US9099096B2; CN103426435A

Abstract

公开一种用于信号处理的方法和设备。可以执行源分离以便经由独立分量分析从源信号的混合中提取移动源信号。在分离过程中由直接混响比对源运动建模，并且在这里描述的独立分量分析技术使用多元概率密度函数以便保持源分离过程中的频率区的对准。

Description

具有移动约束的通过独立分量分析的源分离

相关申请的交叉引用

本申请涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCESEPARATION USING INDEPENDENT COMPONENT ANALYSIS WITH MIXED MULTI-VARIATEPROBABILITY DENSITY FUNCTION(代理人案号No.SCEA11030US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和RuxinChen、共同未决的、名称为SOURCE SEPARATION BY INDEPENDENT COMPONENT ANALYSIS INCONJUNCTION WITH OPTIMIZATION OF ACOUSTIC ECHO CANCELLATION(代理人案号No.SCEA11031US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。本申请还涉及共同转让于Jaekwon Yoo和Ruxin Chen、共同未决的、名称为SOURCESEPARATION BY INDEPENDENT COMPONENT ANALYSIS IN CONJUNCTION WITH SOURCEDIRECTION INFORMATION(代理人案号No.SCEA11032US00)的、与本申请同一天提出的申请号，其全部公开通过引用合并于此。

技术领域

本发明的实施例针对信号处理。更具体地，本发明的实施例针对结合移动约束使用独立分量分析(ICA)的音频信号处理及源分离方法和设备。

背景技术

源分离已引起希望从混合信号观测结果的集合中提取原始源信号的集合的各种应用的关注。

源分离可以在各种信号处理应用中得到使用，所述信号处理应用是例如音频信号处理、光信号处理、语音分离、神经成像、股票市场预测、电信系统、和面部识别等。在产生混合信号的原始信号的混合过程的知识不是已知的情况下，所述问题通常被称为盲源分离(BSS)。

独立分量分析(ICA)是一种将混合过程建模为原始源信号的线性混合，并应用试图逆转混合过程以便产生与原始源信号对应的估算的信号的集合的去混合运算的对于源分离问题的方法。基本ICA假设非高斯源信号的线性瞬时混合，其中混合的数量等于源信号的数量。因为原始源信号被假设为独立的，因此ICA通过使用统计方法从混合中提取独立的(或者至少最大限度地独立的)信号的集合来估算原始源信号。

虽然在没有噪声的情况下用于简化的、瞬时混合的常规ICA方法可以给出非常好的结果，但现实世界的源分离应用通常需要解决由现实环境造成的更复杂的混合过程。由公知的“鸡尾酒会问题”说明当源分离应用于语音分离时源分离问题的常见示例，在所述“鸡尾酒会问题”中几个人正在房间中谈话，并且麦克风阵列被用来检测来自不同的说话者的语音信号。ICA的目的是从由麦克风检测到的混合观测结果中提取说话者的个人语音信号；然而，各种因素可以使混合过程变得复杂，所述因素包括噪声、音乐、移动源、室内混响、和回声等。以这种方式，阵列中的每个麦克风可以检测到包含原始源信号的混合的唯一混合信号(即，由阵列中的每个麦克风检测到的混合信号包括不同的说话者的语音的混合)，但混合信号可能不只是所述源的简单瞬时混合。相反，所述混合可以是由室内混响和回声(例如从房间墙壁反弹的语音信号)产生的卷积混合，并且可以包括上述混合过程的复杂因素中的任意一个。

将用于源分离的混合信号最初可以是混合观测结果的时域表示(例如在上述鸡尾酒会问题中，它们将是作为时间的函数的混合音频信号)。已改良ICA过程以便对来自卷积混合信号的时域信号进行源分离，并且所述ICA过程可以给出良好的结果；然而，时域信号的卷积混合的分离可以是非常计算密集的，需要大量时间和处理资源，从而阻止它在许多常见的现实世界的ICA应用中的有效利用。

可以通过从观测到的时域信号中提取频率数据来实现计算上更高效的算法。在这样做时，由频域中计算上更高效的乘法运算代替时域中的卷积运算。可以对时域数据进行例如短时傅里叶变换(STFT)的傅里叶相关变换，以便生成观测到的混合信号的频率表示并加载频率区(frequency bin)，由此STFT将时域信号转换为时频域。STFT可以为所分析的每个时间段生成频谱图，所述频谱图在给定时间段中的每个时刻提供关于每个频率区的强度的信息。

频域ICA的传统方法包括，在没有来自先前的信息的任何约束的情况下在每个频率区执行独立分量分析(即，将最大化不同信号之间的相同频率区的独立性)。不幸的是，这种方法固有地遭受可以使得源信号的估算的频率区数据被分组在错误的源中的公知的置换问题。同样地，当从频域信号再现得到的时域信号(例如通过逆STFT)时，从分离过程产生的每个估算的时域信号可能包含来自错误的源的频率数据。

已提出解决通过频域ICA的源分离中的频率区的未对准的各种方法。然而，到目前为止，这些方法中没有一个在现实世界的噪声环境中实现足够高的性能以便使得它们成为声源分离应用的有吸引力的解决方案。

常规方法包括如上所述地在每个频率区执行频域ICA，并应用包括通过各种方法校正频率区的对准的后处理。然而，这些方法可能遭受校正步骤中的不精确和不良性能。此外，因为这些过程在初始ICA分离之后需要额外的处理步骤，因此大大增加产生所估算的源信号所需的处理时间和计算资源。

此外，因为在被观测到之前运动改变了混合不同的源信号的混合过程，使得在分离过程中使用的底层的混合模型随时间改变，因此移动源可以使源分离格外复杂。同样地，源分离过程必须解决新的混合模型，并且为移动源的源分离使用ICA通常需要在每次源中的任何一个改变位置时估算新的混合模型。当在没有任何进一步约束的情况下使用这种方法时，需要极大量的数据来根据实时数据产生精确的源分离模型，使得源分离过程低效和不切实际。

到目前为止，用于频域ICA的已知方法遭受下列缺点中的一个或多个：不能精确地将频率区与适当的源对准，要求需要额外的时间和处理资源的后处理，不良的性能(即，不良的信噪比)，不能高效地分析多源语音，消耗处理资源的复杂优化功能，以及需要分析有限时间帧。

发明内容

由于上述原因，需要一种没有上述缺点的、可以高效地实现频域独立分量分析以便从混合信号的集合中产生估算的源信号的方法和设备。在这样的上下文内出现对本发明的需要。

附图说明

通过结合附图考虑下列详细描述可以容易地理解本发明的教导，其中：

图1A是源分离过程的示意图。

图1B是源分离过程的混合和去混合模型的示意图。

图2是根据本发明的实施例的使用ICA的源分离的实现方式的流程图。

图3A是说明单一概率密度函数和混合概率密度函数之间的区别的图。

图3B是说明单一概率密度函数和混合概率密度函数之间的区别的频谱图。

图4A是描述在不同位置中的源信号的直接混响比(direct to reverberantratio)的示意图。

图4B是描述可以如何将直接混响比用作移动源的模型的示意图。

图5是根据本发明的实施例的源分离设备的框图。

具体实施方式

下列描述将主要关于由麦克风阵列检测到的音频信号的处理来描述本发明的实施例。更具体地，将关于从由麦克风阵列检测到的混合音频信号中分离包括语音信号和音乐信号的音频源信号来描述本发明的实施例。然而，应理解ICA在各种技术中具有许多影响深远的应用，包括光信号处理、神经成像、股票市场预测、电信系统、和面部识别等。可以通过从传感器或换能器阵列观测来从各种源中获得混合信号，所述传感器或换能器阵列能够将感兴趣的信号观测为用于由通信装置或其他信号处理装置处理的电子形式。因此，除了权利要求中明确记载的以外，所附权利要求不限于语音分离应用或麦克风阵列。

如上所述，源运动改变不同的源信号的底层的混合过程，需要新的混合模型来解决混合过程的改变。通常，当通过独立分量分析来执行源分离时，需要新的去混合滤波器与每个源运动一起解决混合过程中的对应的改变。本发明的实施例可以通过与通过独立分量分析进行的源分离相结合使用源运动的模型为具有移动源的信号提供改进的源分离。源运动的模型可以用于改进分离过程的效率，并允许从更小的数据集估算未来的去混合运算。

在本发明的实施例中，可以从去混合滤波器中提取关于源的运动的信息以便更精确地预测将在源分离过程中使用的未来的去混合运算。在本发明的实施例中，可以使用源的直接混响比(DRR)来对源运动建模。DRR测量信号中存在的直接能与混响能的比。例如，对于由麦克风在房间中检测到的声音源，DRR将测量直接传播到麦克风的信号与在某些混响(例如通过房间墙壁的反射)之后到达麦克风的信号的比。DRR依靠房间脉冲响应取决于源相对于麦克风阵列的位置的事实，其中越大的DRR通常表示越接近麦克风阵列。在运动期间，源到麦克风阵列的角度和距离改变，同样地，可以通过DRR的改变来对从源到麦克风的距离的改变建模。与独立分量分析相结合使用这样的源运动的模型可以允许从更小的数据集估算未来的去混合运算。在本发明的实施例中，可以从用于分离每个源的去混合滤波器的系数中估算DRR，而非直接测量DRR。

此外，为了解决上述置换问题，使用ICA的分离过程可以根据多元概率密度函数定义频率区之间的关系。以这种方式，可以通过在源分离过程中解决频率区之间的关系基本上消除置换问题，从而防止如上所述的频率区的未对准。

适当地估算频率区之间的关系的每个多元PDF的参数不仅可以取决于与其对应的源信号，还可以取决于将被分析的时间帧(即，给定源信号的PDF的参数将取决于该被分析的信号的时间帧)。同样地，适当地对频率区之间的关系建模的多元PDF的参数可以被认为是时间相关的和源相关的。然而，注意到对于同一类型的源，多元PDF的一般形式可以是相同的，而不管与多元PDF对应的是哪个源或时间段。例如，所有时间段上的所有源可以具有多元PDF，所述多元PDF具有与语音信号对应的超高斯形式，但对于每个源和时间段参数可以是不同的。

本发明的实施例可以通过使用在ICA计算中具有不同的参数的分量多元概率密度函数的加权混合来解决不同源以及不同时间段上的相同源的不同的统计特性。对于不同源信号、不同时间段、或它们的某种组合，可以加权这些多元概率密度函数的混合的参数，或混合多元PDF的参数。换句话说，混合多元PDF中的分量概率密度函数的参数可以与将被分析的不同源和/或不同时间段的频率分量对应。使用概率密度函数来对频率区之间的关系建模的频域ICA的方法未能通过对ICA计算中的单个多元PDF建模来解决这些不同的参数。因此，使用混合多元PDF的本发明的实施例能够比使用单一多元PDF的实施例以更好的性能分析更宽的时间帧，并且能够解决在同一时间同一位置中的多个扬声器(即，多源语音)。因此，注意到在本发明的实施例中为ICA运算使用与单一多元PDF相对的混合多元PDF是优选的，但不是必需的。

在下列描述中，将首先说明与在ICA计算中使用单一多元PDF和混合多元PDF的ICA过程对应的模型。然后，将描述执行具有运动约束的独立分量分析的模型，所述运动约束使用去混合滤波器的DRR对源运动建模。

源分离问题设置

参考图1A，描述具有N个不同的信号源102的源分离过程的基本示意图。可以用列向量s＝[s₁，s₂，...，s_N]^T表示来自源102的信号。注意，上标T仅表示列向量s仅仅是行向量[s₁，s₂，...，s_N]的转置。注意，每个源信号可以是被建模为连续随机变量的函数(例如，语音信号作为时间的函数)，但现在为了简单而省略函数变量。由M个不同的传感器104(即，具有M个信道的多信道传感器)观测源102，产生可以由向量x＝[x₁，x₂，...，x_M]^T表示的M个不同的混合信号。源分离106分离从传感器104接收的混合信号x＝[x₁，x₂，...，x_M]^T，以便产生可以由向量y＝[y₁，y₂，...，y_N]^T表示的并与来自信号源102的源信号对应的估算的源信号108。图1A中总地示出的源分离在没有产生由传感器观测到的混合信号x＝[x₁，x₂，...，x_M]^T的混合过程的信息的情况下可以产生与原始源102对应的所估算的源信号y＝[y₁，y₂，...，y_N]^T。

参考图1B，描述执行图1A中示出的源分离的总体ICA运算的基本示意图。在基本ICA过程中，源102的数量等于传感器104的数量，使得M＝N，并且观测到的混合信号的数量等于将再现的不同的源信号的数量。在被传感器104观测到之前，从源102发出的源信号s遭受环境中的未知混合110。可以通过如下的混合矩阵A将这个混合过程110表示为线性运算：

将混合矩阵A与源信号向量s相乘而产生由传感器观测到的混合信号x，使得每个混合信号x_i是源向量s的分量的线性组合，并且：

ICA的目的是确定作为混合过程的逆的去混合矩阵W112，使得W＝A^-1。去混合矩阵112可以应用于混合信号x＝[x₁，x₂，...，x_M]^T，以便产生等于置换和缩放输出的估算的源y＝[y₁，y₂，...，y_N]^T，使得，

其中P和D分别表示仅具有对角线分量的置换矩阵和缩放矩阵。

流程图说明

现在参考图2，描述根据本发明的实施例的信号处理200的方法的流程图。信号处理200可以包括接收M个混合信号202。可以通过使用M个传感器或换能器的阵列观测感兴趣的信号来实现接收混合信号202，所述M个传感器或换能器的阵列例如是具有将观测到的音频信号转换为用于由信号处理装置处理的电子形式的M个麦克风的麦克风阵列。所述信号处理装置可以执行在这里描述的方法的实施例，并且通过示例的方式，所述信号处理装置可以是电子通信装置，例如计算机、手持式电子装置、视频游戏控制台、或电子处理装置。麦克风阵列可以产生可以由时域混合信号向量x(t)表示的混合信号x₁(t)，...，x_M(t)。混合信号向量x_m(t)的每个分量可以包括将被分离的音频源信号的卷积混合，其中由回声、混响、时间延迟等引起卷积混合过程。

如果数字地执行信号处理200，则信号处理200可以包括使用模数转换器(ADC)将混合信号x(t)转换为数字形式。模数转换203将使用足够高的采样率来使得能够处理底层的源信号中感兴趣的最高频率分量。模数转换203可以包括定义采样窗口，所述采样窗口定义将被输入到ICA分离过程的信号的时间段长度。通过示例的方式，滚动采样窗口可以用于生成将被转换为时频域的一系列时间段。可以根据各种应用的特定需求以及可用资源、处理功率等选择采样窗口。

为了执行根据本发明的实施例的频域独立分量分析，可以对时域信号进行傅里叶相关变换204，优选地STFT，以便将它们转换为用于通过信号处理200处理的时频表示。STFT将为将执行频域ICA的每个时间段和混合信号加载频率区204。加载的频率区可以与每个时间段的每个时频域混合信号的频谱图表示对应。

虽然在这里STFT被称为傅里叶相关变换的一个示例，但是术语“傅里叶相关变换”不限于此。通常，术语“傅里叶相关变换”指代与傅里叶分析有关的函数的线性变换。这样的变换将函数映射到基础函数的系数的集合，所述基础函数通常是正弦曲线，从而强烈地局限于(strongly localized)频谱中。应用于连续自变量的傅里叶相关变换的示例包括拉普拉斯(Laplace)变换、双边拉普拉斯变换、Mellin变换、包括傅里叶级数和正弦及余弦变换的傅里叶变换、短时傅里叶变换(STFT)、分数傅里叶变换、Hartley变换、Chirplet变换和Hankel变换。应用于离散自变量的傅里叶相关变换的示例包括离散傅里叶变换(DFT)、离散时间傅里叶变换(DTFT)、离散正弦变换(DST)、离散余弦变换(DCT)、回归离散傅里叶级数、离散Chebyshev变换、广义离散傅里叶变换(GDFT)、Z-变换、改进的离散余弦变换、离散Hartley变换、离散的STFT、和Hadamard变换(或Walsh函数)。还可以通过应用于一维时域语音信号的小波分析或函数分析来完成时域信号到频谱域表示的变换。为了方便这种变换在这里被称为傅里叶相关变换。

为了简化将在频域ICA中执行的数学运算，在本发明的实施例中，信号处理200可以包括时频域信号X(f，t)的预处理205，所述预处理205可以包括公知的预处理运算，例如居中(centering)、白化等。预处理205可以包括在执行源分离206之前，通过主分量分析(PCA)将混合信号去相关，这可以用于提高收敛速度和稳定性。

结合优化208，可以迭代执行结合运动约束通过频域ICA的信号分离206。源分离206包括设置去混合矩阵运算W，当所述去混合矩阵被应用于与由202接收的那些信号对应的混合信号X时，所述去混合矩阵运算W产生原始源信号S的最大限度地独立的估算的源信号Y。源分离206使用去混合滤波器的直接混响比来对源的距离改变建模并估算源运动。

源分离206结合优化过程208以便迭代更新源分离206中包括的去混合矩阵，直到去混合矩阵收敛到产生源信号的最大限度地独立的估算的解。结合优化208的源分离206可以包括最小化成本函数，所述成本函数包括使用多元概率密度函数来对频率区之间的关系建模的ICA运算，以及根据去混合滤波器的DRR对源和传感器之间的距离改变建模以便估算源运动的移动约束。优化208结合定义直到去混合矩阵收敛到可接受的解的迭代过程的优化算法或学习规则。通过示例的方式，结合优化208的源分离206可以使用期望最大化算法(EM算法)来估算混合多元PDF中分量概率密度函数的参数。为了改良算法的目的，可以使用最大先验估算(MAP)和最大似然(ML)估算等来定义成本函数。然后，可以使用像EM、和梯度法等的优化方法得到解。通过示例的方式，并且不通过限制的方式，可以使用ML定义独立性的成本函数，并使用EM来优化它。

一旦由分离过程产生源信号的估算(例如，在去混合矩阵收敛之后)，就可以执行重新缩放216和可能的附加的单信道频谱域语音增强(后处理)210，以便产生由于简化预处理步骤205所需的估算的源信号的精确的时频表示。

为了产生与原始时域源信号s(t)直接对应的时域中的估算的源信号y(t)，信号处理200还可以包括对时频域估算的源信号Y(f，t)执行逆傅里叶变换212(例如，逆STFT)，以便产生时域估算的源信号y(t)。在数模转换214之后，可以在各种应用中再现或使用估算的时域源信号。通过示例的方式，在数模转换之后，可以由扬声器、耳机等再现估算的时域源信号，或者在非临时计算机可读介质中数字地存储所述估算的时域源信号用于其他用途。

模型

如上所述的通过频域ICA使用源分离206和优化208的信号处理200可以包括根据本发明的实施例的将由信号处理装置执行的算术运算的适当模型。在下列描述中，首先将描述在频域ICA运算中使用多元PDF的模型，其中多元PDF不是混合多元PDF(在这里被称为“单个多元PDF”或“单一多元PDF”)。然后，将描述使用作为分量多元PDF的混合的混合多元PDF的模型。然后，将描述根据本发明的实施例的执行结合运动约束的ICA的新的模型，所述新的模型使用在这里描述的多元PDF。虽然为了本发明的实施例的完整和清楚的公开而提供在这里描述的模型，但注意本领域普通技术人员可以构想下列模型的各种改变，而不脱离本发明的范围。

使用多元PDF的模型

首先，将根据使用单一多元PDF的方法描述如图2中所示的用于使用频域ICA执行源分离206和优化208的模型。

为了执行频域ICA，必须从时域混合信号中提取频域数据，并且这可以通过对混合信号数据执行傅里叶相关变换来实现。例如，短时傅里叶变换(STFT)可以将时域信号x(t)转换为时频域信号，使得，

X_m(f，t)＝STFT(x_m(t)) (4)

并且对于F个频率区，第m个麦克风的频谱将是，

X_m(t)＝[X_m(1，t) ... X_m(F，t)] (5)

对于M个麦克风，可以由向量X(t)表示混合信号数据，使得，

X(t)＝[X₁(t) ... X_M(t)]^T (6)

在上面的表达式中，向量的每个分量与所有频率区1到F上的第m个麦克风的频谱对应。同样地，对于估算的源信号Y(t)，

Y_m(t)＝[Y_m(1，t) ... Y_m(F，t)] (7)

Y(t)＝[Y₁(t) ... Y_M(t)]^T (8)

因此，ICA的目的可以是设置从混合信号X(t)中产生估算的源信号Y(t)的矩阵运算，其中W(t)是去混合矩阵。所述矩阵运算可以表达为，

Y(t)＝W(t)X(t) (9)

其中可以设置W(t)以便分离整个频谱图，使得矩阵W(t)的每个元素W_ij(t)对于所有频率区展开如下，

现在，假设存在与麦克风相同数量的源(即，源的数量＝M)。本发明的实施例可以使用ICA模型用于欠定(underdetemined)情况，其中源的数量大于麦克风的数量，但现在为了说明的清楚及简洁，将说明限制为源的数量等于麦克风的数量的情况。

可以通过循环过程求解去混合矩阵W(t)，所述循环过程包括为去混合矩阵W(t)提供初步估算，并迭代更新去混合矩阵直到它收敛于提供最大限度地独立的估算的源信号Y的解为止。迭代的优化过程包括定义直到收敛为止(即，直到去混合矩阵收敛于产生最大限度地独立的估算的源信号的解为止)将执行的迭代的优化算法或学习规则。

优化可以包括通过使用如下的互信息和非高斯来定义的独立性的成本函数：

a)互信息(MI)：

其中由作为两个概率密度函数之间的距离测量的Kullback-Leibler散度表示KLD，并且被定义为

b)使用负熵的非高斯(NG)：

使用球形分布作为一种类型的PDF，第m个源的频谱的PDF可以是，

其中ψ(x)＝exp{-Ω|x|}，在上面的表达式中Ω是合适的常数，并且h是归一化因子。因此，第m个源的最终多元PDF是，

(17)

以上描述的模型采用使用多元PDF来对频率区之间的关系建模的成本函数来求解置换问题的解，置换问题在等式(3)中被描述为置换矩阵。去混合矩阵的求解包括产生没有置换问题的最大限度地独立的估算的源信号的上面的成本函数和多元PDF。

使用混合多元PDF的模型

已对在频域ICA中使用单一多元PDF的已知方法建模后，将描述使用混合多元PDF的模型。

语音分离系统可以使用包括作为具有不同参数的L个分量多元概率密度函数的混合的混合多元概率密度函数的独立分量分析。注意，可以预计不同的源信号拥有具有相同一般形式的PDF(例如，可以预计不同的语音信号具有超高斯形式的PDF)，但可以预计来自不同源信号的参数是不同的。此外，因为来自特定源的信号将随时间改变，可以预计对于来自相同源的信号，PDF的参数在不同的时间段具有不同的参数。因此，可以使用作为对于不同源和/或不同时间段加权的PDF的混合的混合多元PDF。因此，本发明的实施例可以使用解决不同源信号的不同统计特性以及信号的统计特性随时间的改变的混合多元PDF。

同样地，对于L个不同分量多元PDF的混合，L通常可以被理解为加权混合的PDF的时间段的数量与源的数量的乘积(例如，L＝源的数量×时间段的数量)。

本发明的实施例可以使用预训练的特征向量估算去混合矩阵。其中V(t)表示预训练的特征向量，并且E(t)是特征值，去混合可以被表示为，

Y(t)＝V(t)E(t)＝W(t)X(t) (18)

V(t)可以是干净语音、音乐和噪声的预训练的特征向量(即，可以为将被分离的多种类型的原始源预训练V(t))。可以执行优化以便得到E(t)和W(t)两者。当选定V(t)≡I时，则估算的源等于特征值，使得Y(t)＝E(t)。

根据本发明的实施例的优化可以包括使用期望最大化算法(EM算法)来估算用于ICA计算的混合多元PDF的参数。

根据本发明的实施例，概率密度函数被假设为作为多元分量PDF的混合的混合多元PDF。其中由X(f，t)＝A(f)S(f，t)表示使用单一多元PDF的混合系统，混合多元PDF的混合系统变为，

同样地，其中由Y(f，t)＝W(f)X(f，t)表示单一多元PDF的去混合系统，混合多元PDF的去混合系统变为，

其中A(f，l)是时间依赖的混合条件，并且还可以表示长时间混响混合条件。其中为PDF选择球形分布，混合多元PDF变为，

其中为PDF选择多元广义高斯，混合多元PDF变为，

其中ρ(c)是不同的第c个分量多元广义高斯之间的加权，并且b_l(t)是不同的时间段之间的加权。可以使用离线数据预训练并进一步使用运行时数据训练。

注意，可以从上面的表达式(19)到(23)推导出用于欠定情况(即，其中源的数量大于麦克风的数量)的模型，并且这些欠定情况在本发明的范围内。

在本发明的实施例中使用的ICA模型可以使用每个混合信号的倒谱(cepstrum)，其中X_m(f，t)可以是x_m(t)的倒谱加上基音(pitch)的对数(log)值(或标准值)，如下，

X_m(f，t)＝STFT(log(||x_m(t)||²))，f＝1，2，...，F-1 (24)

X_m(t)＝[X_m(1，t) ... X_F-1(F-1，t)X_F(F，t)] (26)

注意，可以将时域语音信号的倒谱定义为时域信号的傅里叶变换的对数(使用展开的相位)的傅里叶变换。时域信号S(t)的倒谱可以在数学上被表示为其中q是完全展开复数对数函数的角或虚数部分所需的整数。在算法上，可以通过对信号执行傅里叶变换、取得到的变换的对数、展开所述变换的相位、以及对所述变换进行傅里叶变换而生成倒谱。这个运算的顺序可以被表示为：信号→FT→对数→相位展开→FT→倒谱。

为了在时域中产生估算的源信号，在得到Y(t)的解后，基音+倒谱只需被转换为频谱图，并且从频谱图转换为时域，以便在时域中产生估算的源信号。优化的其余部分保持与上面描述的相同。

对于根据本发明的实施例的源分离中使用的模型，取决于各种应用的特定需求可以选择不同形式的PDF。通过示例的方式，选择的PDF的形式可以是球形的。更具体地，取决于各种应用的特定需求，所述形式可以是超高斯、拉普拉斯算子、或高斯。注意，在选定混合多元PDF的情况下，每个混合多元PDF是分量PDF的混合，并且混合中的每个分量PDF可以具有相同的形式，但是不同的参数。

如图3A-3B中所示，混合多元PDF可以导致具有与每个分量PDF对应的多个模式的概率密度函数。在图3A中的单一PDF302中，作为给定变量的函数的概率密度是单峰的，即，对于给定变量PDF302的曲线图仅具有一个峰值。在混合PDF304中，作为给定变量的函数的概率密度是多峰的，即，对于给定变量，混合PDF304的曲线图具有一个以上的峰值。注意，作为单一PDF302和混合PDF304之间的区别的示范而提供图3。然而，注意图3A中描绘的PDF是一元PDF，并且仅为了示范单一PDF和混合PDF之间的区别而提供。在混合多元PDF中，将存在一个以上的变量，并且对于那些变量中的一个或多个，PDF将是多峰的。换句换说，对于变量中的至少一个，PDF的曲线图中将存在一个以上的峰值。

参考图3B，描绘频谱图以便示范单一多元PDF和混合多元PDF之间的区别，以及对于不同时间段可以如何加权混合多元PDF。如由虚线示出的与时间段306对应的单一多元PDF可以与如上所述的对应。相反，如图3B中的虚线矩形所示，与时间段帧308对应的混合多元PDF可以覆盖跨越多个不同时间段的时间帧。混合多元PDF可以与如上所述的对应。

具有运动约束的模型

参考图4，描绘示范DRR如何受源到检测它的信号的传感器的接近度的影响的图。在图4A中，在房间402中描绘源s_n，其中房间的墙壁反射从源传播的声音信号，并导致房间混响。由于房间402中的声音信号的这些混响，由麦克风阵列403检测到的音频信号将包括直接能分量和混响能分量两者，在直接能分量中信号沿直接路径传播到麦克风，混响能分量是在某些混响之后，即在房间墙壁402上某些反射之后，检测到的信号。在图4A中，为距麦克风阵列403最近的源406和较远的源408的频谱描绘曲线图，并且从图示的曲线图中可以看出，对于最近的源406，DRR大得多。图4B示范可以如何将这个相同的原理用于对源运动建模。在图4B中，在时间t1由414表示源的位置，并且在某些运动之后，在时间t2由416表示它的位置，所述位置比在时间t1更远离麦克风阵列403。作为结果，可以预计源s的DRR在时间t1大于在时间t2，并且可以相应地对源的运动建模。

为了对具有移动约束的问题建模，获得t1和t2处的去混合滤波器。在获得去混合滤波器并计算DRR和DRR中的变化之后，可以确定源是否移动及移动的程度。因为在观测到之前移动改变混合不同的源信号的混合过程，因此给定相对少量的数据，可以通过检测移动并预测去混合滤波器来改进性能。

描述完使用多元概率密度函数来保持估算的源信号中的频率区的对准的ICA技术，现在将根据本发明的实施例描述通过将运动约束与底层的ICA结合来使用如上所述的源运动的源模型的模型。

在从t1到t2的分析时间段期间，目标源可以从点a移动到点b。因此，可以由在时间t1和t2源和传感器之间的方向和距离的改变来对源的移动建模。如上所述，可以由DRR对距离建模。可以由去混合滤波器的幅度响应的方差来对频域中的直接混响分量能的比建模。运算DRR(.)可以是用于测量幅度响应的方差的任何函数。通过示例的方式，并不通过限制的方式，例如，如下面的等式(28)中所示，可以使用方差函数的对数作为运算DRR(.)。

其中，|·|是复数变量的绝对值运算，W_i(f，t)是来自所有麦克风j上的源i的去混合滤波器的和，使得，

其中τ_ji是阵列中的第j个传感器处第i个源的相位。

可以由下列等式描述在每个传感器j处的相位

其中，dist_ji是第i个源和第j个传感器之间的距离，dist_li是第i个源和第1个传感器之间的距离，c是从源到传感器的信号速度(例如，在麦克风的情况下声音的速度)，以及Fs是采样频率。

因此，其中将去混合过程如下表示为将去混合滤波器应用于混合信号的矩阵运算，

可以如下定义结合去混合过程的输出和源移动的预测输出的新的成本函数。

其中是常数，是如下由预测去混合滤波器获得预测输出，

值得注意的是，和包含结合移动约束的当前和先前帧的信息。作为结果，等式(29)给出当源正在移动时源移动的解。此外，因为当源是固定的时，变为W_ij(f，t-1)，等式(29)变为与J_ICA(Y(t))完全相同。

通过在t-1帧将去混合滤波器分为幅度和相位部分，可以如下写出预测的去混合滤波器，

(31)

其中是由方向和距离信息计算的新的去混合滤波器。量ε_i(f，t)使用正实数值表示混响分量的程度，并使用来自当前帧(在时间t)和前一帧(在时间t-1)的去混合滤波器的DRR来计算量ε_i(f，t)，并且可以通过在共同转让、共同未决的申请号13/，代理人案号SCEA11032US00中描述的方向估算方法计算所述申请通过上面的引用合并于此。

ε_i(f，t)＝g(|DRR(W_i(f，t))|)-DRR(W_i(f，t-1))|) (32)

其中，g()可以是以受限的幅度为特征的任何函数，并且|·|是绝对值运算。通过示例的方式，并且不通过限制的方式，例如，如下面的等式(33)中所示，可以使用下列等式作为幅度的限制，

其中，a是正常数。

我们如下使用梯度法更新去混合滤波器，

为了计算梯度向量，我们使用在等式(12)、(14)中描述的J_ICA(Y(t))的定义。例如，如在等式(12)中定义的互信息(MI)被用于置换问题的独立性和非混合多元PDF，梯度向量如下

(36)

其中，ζ是学习速率，Y′(t-1)＝W(f，t-1)X(f，t)和E()是期望运算。

因此，上面的成本函数包括可以与独立性的成本函数相结合以便通过移动源的独立分量分析执行改进的源分离的移动约束。通过优化过程最小化或最大化上面的成本函数可以提供最大限度地独立的源信号，由此运动约束允许从较小的数据集预测未来的去混合滤波器。

重新缩放过程(图2，216)

在图2的216表示的重新缩放过程在频谱图的频率区之间调整在等式(3)中描述的缩放矩阵。此外，重新缩放过程216消除预处理的影响。

通过示例的方式，并且不通过限制的方式，可以使用美国专利7,797,153(通过引用将其合并于此)中在第18栏第31行到第19栏第67行描述的技术中的任意一个来实现在216表示的重新缩放过程，下面将简要地论述所述技术。

根据第一技术，可以通过从估算的源信号Y_k(f，t)(其比例不是统一的)中产生具有单输入多输出的信号来重新缩放估算的源信号Y_k(f，t)中的每一个。可以通过使用去混合矩阵W(f)和预处理矩阵Q(f)的乘积的逆对估算的源信号进行运算来实现这种类型的重新缩放以便产生如下给出的缩放输出X_yk(f，t)：

其中X_yk(f，t)表示在来自第k个源的在第y个输出的信号。Q(f)表示预处理矩阵，其可以被实现为在图2的205表示的预处理的一部分。预处理矩阵Q(f)可以被配置为使混合输入信号X(f，t)在每个频率区具有零均值和单位方差。

Q(f)可以是给出去相关输出的任何函数。通过示例的方式，并且不通过限制的方式，例如，如下面的等式中所示，可以使用下列等式作为去相关过程

我们可以如下计算预处理矩阵Q(f)

R(f)＝E(X(f，t)X(f，t)^H) (38)

R(f)q_n(f)＝λ_n(f)q_n(f) (39)

其中，q_n(f)是特征向量，并且λ_n(f)是特征值。

Q′(f)＝[q₁(f) ... q_N(f)] (40)

Q(f)＝diag(λ₁(f)^-1/2，...，λ_N(f)^-1/2)Q′(f)^H (41)

在第二重新缩放技术中，基于最小失真原理，可以根据下列等式重新计算去混合矩阵W(f)：

W(f)←diag(W(f)Q(f)^-1)W(f)Q(f) (42)

在等式(42)中，Q(f)再次表示用于预处理在图2的205的输入信号X(f，t)的预处理矩阵，使得它们在每个频率区具有零均值和单位方差。Q(f)^-1表示预处理矩阵Q(f)的逆。然后，可以将重新计算的去混合矩阵W(f)应用于原始输入信号X(f，t)以便产生重新缩放的估算的源信号Y_k(f，t)。

第三技术使用估算的源信号Y_k(f，t)和残留信号的独立性。可以通过将第k个源和第f个频率区的源信号Y_k(f，t)与适当的缩放系数á_k(f)相乘来获得重新缩放的估算的源信号。残留信号是原始混合信号X_k(f，t)和重新缩放的源信号之间的差。如果á_k(f)具有恰当的值(correct value)，则因子Y_k(f，t)从残留信号中完全消失，并且乘积á_k(f)·Y_k(f，t)表示原始观测信号。可以通过求解下列等式来获得缩放系数：

在等式(43)中，函数f(.)和g(.)是任意标量函数。上覆线表示共轭复数运算，并且E[]表示方括号内的表达式的期望值的计算。作为结果，由计算缩放输出。

信号处理装置描述

为了执行如上所述的根据本发明的实施例的源分离，信号处理装置可以被配置为执行实现本发明的实施例所需的算术运算。信号处理装置可以是各种通信装置中的任何一个。例如，根据本发明的实施例的信号处理装置可以是计算机、个人计算机、膝上型计算机、手持式电子装置、蜂窝电话、视频游戏控制台等。

参考图5，描绘根据本发明的实施例的能够执行源分离的信号处理装置500的示例。设备500可以包括处理器501和存储器502(例如，RAM，DRAM，和ROM等)。此外，如果将实现并行处理，则信号处理设备500可以具有多个处理器501。此外，信号处理设备500可以使用多核处理器，例如双核处理器、四核处理器或其他多核处理器。存储器502包括被配置为执行如上所述的源分离的数据和代码。具体地，存储器502可以包括信号数据506和代码，所述信号数据506可以包括输入信号x的数字表示(例如，在图2中的203所示的模数转换之后)，所述代码用于使用如上所述的混合多元PDF来实现源分离以便估算在混合信号x的数字表示中包含的源信号。

设备500还可以包括公知的支持功能元件510，例如输入/输出(I/O)元件511、电源(P/S)512、时钟(CLK)513和高速缓冲存储器514。设备500可以包括大容量存储装置515，例如盘驱动器、CD-ROM驱动器、或磁带驱动器等以便存储程序和/或数据。设备500还可以包括显示单元516和用户接口单元518，以便促进设备500和用户之间的交互。显示单元516可以是显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口518可以包括键盘、鼠标、操纵杆、光笔或其他装置。此外，用户接口518可以包括麦克风、摄像机或其他信号换能装置以便提供将被分析的信号的直接捕获。如图5所示，处理器501、存储器502和系统500的其他组件可以经由系统总线520彼此交换信号(例如，代码指令和数据)。

例如麦克风阵列522的传感器阵列可以通过I/O功能元件511耦接到设备500。麦克风阵列可以包括两个或多个麦克风。麦克风阵列可以优选地包括至少与将被分离的原始源的一样多的麦克风；然而，对于如上所述的欠定和超定(overdetemined)情况，麦克风阵列可以包括比源的数量更少或更多的麦克风。麦克风阵列522的每个麦克风可以包括将声信号转换为电信号的声换能器。设备500可以被配置为将来自麦克风的模拟电信号转换为数字信号数据506。

还应注意，在一些实现方式中，一个或多个声音源519可以例如经由I/O元件或例如游戏控制器的外围装置耦接到设备500。此外，一个或多个图像捕获设备530可以例如经由I/O元件511或例如游戏控制器的外围装置被耦接到设备500。

如在这里使用的，术语I/O通常涉及将数据传输到系统500或从系统500传输数据以及将数据传输到外围装置或从外围装置传输数据的任何程序、操作或装置。每一次数据传输都可以被认为是来自一个装置的输出和到另一装置中的输入。外围装置包括例如键盘和鼠标的仅输入装置、例如打印机的仅输出装置、以及可以用作输入和输出装置两者的例如可写CD-ROM的装置。术语“外围装置”包括外部装置，例如鼠标、键盘、打印机、监视器、麦克风、游戏控制器、相机、外部Zip驱动器或扫描仪，以及内部装置，例如CD-ROM驱动器、CD-R驱动器或内部调制解调器或例如闪存读取器/写入器、硬盘的其他外围装置。

设备500可以包括网络接口524以便经由电子通信网络526促进通信。网络接口524可以被配置为经由局域网和例如因特网的广域网实现有线或无线通信。设备500可以通过网络526经由一个或多个消息分组527发送和接收数据和/或文件请求。

如上所述，处理器501可以响应于由存储器502存储及获取并由处理器模块501运行的数据506和程序504的程序代码指令，对信号数据506执行数字信号处理。程序504的代码部分可以遵照许多不同编程语言中的任何一个，例如，汇编、C++、JAVA或许多其他语言。处理器模块501形成当运行例如程序代码504的程序时变为专用计算机的通用计算机。虽然程序代码504在这里被描述为被实现为软件并在通用计算机上运行，但是本领域技术人员可以认识到可以使用例如专用集成电路(ASIC)或其他硬件电路的硬件来可替换地实现任务管理的方法。同样地，可以全部或部分地以软件、硬件或软件和硬件两者的某种组合实现本发明的实施例。

本发明的实施例可以包括具有实现如上所述的源分离方法的处理器可读指令集的程序代码504。程序代码504通常可以包括引导处理器对多个时域混合信号执行源分离的指令，其中混合信号包括将通过在这里描述的源分离方法提取的原始源信号的混合。所述指令可以引导信号处理装置500对多个时域混合信号执行傅里叶相关变换(例如，STFT)，以便生成与时域混合信号对应的时频域混合信号，从而加载频率区。所述指令可以引导信号处理装置对时频域混合信号执行如上所述的独立分量分析，以便生成与原始源信号对应的估算的源信号。独立分量分析可以使用单一概率密度函数或混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量概率密度函数的加权混合。可以结合方向约束执行独立分量分析，其中方向约束基于与期望的源信号相对于传感器阵列的方向有关的先前的信息。独立分量分析可以通过分析由阵列中的传感器接收的信号中的直接混响比的改变来考虑移动约束。

注意，在这里描述的源分离的方法通常应用于从由信号处理装置接收的混合信号估算多个源信号。然而，在特定应用中感兴趣的唯一源信号可以是单个源信号，例如与作为噪声的其他源信号混合的单一语音信号。通过示例的方式，由本发明的音频信号处理实施例估算的源信号可以是语音信号、音乐信号、或噪声。同样地，本发明的实施例可以使用如上所述的ICA，以便从多个原始源信号的混合中估算至少一个源信号。

虽然为了说明的目的，这里的详细描述包含许多具体细节，但是本领域普通技术人员中的任何一个将理解对在这里描述的细节的许多变化和改变在本发明的范围内。因此，在所要求保护的发明不失任何一般性并且没有对所要求保护的发明强加限制的情况下阐述在这里描述的本发明的示例实施例。

虽然以上是本发明的优选实施例的完整说明，但是可以使用各种改变、修改和等价物。因此，不应该参考上面的描述来确定本发明的范围，相反，应该参考所附权利要求连同它们的等效物的整个范围来确定本发明的范围。在这里描述的任何特征(不管是不是优选的)都可以与在这里描述的任何其他特征(不管是不是优选的)相结合。在随后的权利要求中，当在包含例如“包括，”的开放式过渡短语的权利要求中使用时，除非另有明确说明，不定冠词“一”或“一个”指代所述冠词后的项目中的一个或多个的数量。此外，随后使用词语“上述”或“所述”来重新提及相同的权利要求术语不改变这个含义，而仅是重新援引该非单一的含义。所附权利要求将不被解释为包括设备加功能限制或步骤加功能限制，除非在给定权利要求中使用短语“用于......的设备”或“用于......的步骤”来明确地描述这种限定。

Claims

1.一种使用信号处理装置处理信号的方法，包括：

在信号处理装置中接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

将所述时域混合信号转换为时频域，从而生成与所述时域混合信号对应的时频域混合信号；以及

对所述时频域混合信号执行独立分量分析，以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号，

其中结合移动约束执行所述独立分量分析，由根据源信号的直接混响比的方向和源运动来对所述移动约束建模，从所述独立分量分析中使用的去混合滤波器获得所述直接混响比，以及

所述独立分量分析使用多元概率密度函数，以便保持所述至少一个估算的源信号中的频率区的对准。

2.如权利要求1所述的方法，其中所述混合信号是音频信号。

3.如权利要求2所述的方法，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音源信号对应。

4.如权利要求1所述的方法，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

5.如权利要求1所述的方法，其中所述执行独立分量分析包括，最小化或最大化包括Kullback-Leibler散度表达式的成本函数，以便定义源信号和与所述移动约束对应的表达式之间的独立性。

6.如权利要求1所述的方法，其中所述将所述时域混合信号转换为时频域包括执行傅里叶相关变换，其中所述傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

7.如权利要求4所述的方法，其中所述执行独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

8.如权利要求4所述的方法，其中所述执行独立分量分析包括，在分量概率密度函数的参数的估算中使用干净语音的预训练的特征向量。

9.如权利要求7所述的方法，其中所述执行独立分量分析还包括，使用音乐和噪声的预训练的特征向量。

10.如权利要求7所述的方法，其中所述执行独立分量分析还包括，使用运行时数据训练特征向量。

11.如权利要求3所述的方法，还包括在所述执行傅里叶相关变换之前，使用模数转换器将所述混合信号转换为数字形式。

12.如权利要求3所述的方法，还包括对所述至少一个估算的时频域源信号执行逆STFT，以便产生与原始时域源信号对应的至少一个估算的时域源信号。

13.如权利要求3所述的方法，其中所述概率密度函数具有球形分布。

14.如权利要求11所述的方法，其中所述概率密度函数具有拉普拉斯分布。

15.如权利要求11所述的方法，其中所述概率密度函数具有超高斯分布。

16.如权利要求3所述的方法，其中所述概率密度函数具有多元广义高斯分布。

17.如权利要求4所述的方法，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

18.如权利要求4所述的方法，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。

19.如权利要求3所述的方法，还包括，在信号处理装置中接收所述时域混合信号之前，使用传感器阵列观测所述时域混合信号，其中所述传感器阵列是麦克风阵列。

20.一种信号处理装置，包括：

处理器；

存储器；以及

计算机编码指令，在所述存储器中包含所述计算机编码指令并且由所述处理器执行所述计算机编码指令，其中所述指令被配置为实现信号处理的方法，所述方法包括：

接收多个时域混合信号，每个时域混合信号包括原始源信号的混合；

其中结合移动约束执行所述独立分量分析，所述移动约束根据源信号的直接混响比对源运动建模，从所述独立分量分析中使用的去混合滤波器获得所述直接混响比，以及

21.如权利要求20所述的装置，还包括传感器阵列。

22.如权利要求20所述的装置，其中所述处理器是多核处理器。

23.如权利要求21所述的装置，其中所述传感器阵列是麦克风阵列，并且所述混合信号是音频信号。

24.如权利要求23所述的装置，其中所述混合信号包括至少一个语音源信号，并且所述至少一个估算的源信号与所述至少一个语音源信号对应。

25.如权利要求24所述的装置，其中所述多元概率密度函数是混合多元概率密度函数，所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。

26.如权利要求20所述的装置，其中所述执行独立分量分析包括，最小化或最大化包括Kullback-Leibler散度表达式的成本函数，以便定义源信号和与所述移动约束对应的表达式之间的独立性。

27.如权利要求20所述的装置，其中所述将所述时域混合信号转换为时频域包括执行傅里叶相关变换，其中所述执行傅里叶相关变换包括，在多个离散时间段上执行短时傅里叶变换(STFT)。

28.如权利要求25所述的装置，其中所述执行独立分量分析包括，使用期望最大化算法来估算分量多元概率密度函数的参数。

29.如权利要求24所述的装置，其中所述执行独立分量分析包括，在分量概率密度函数的参数的估算中使用干净语音的预训练的特征向量。

30.如权利要求29所述的装置，其中所述执行独立分量分析还包括使用音乐和噪声的预训练的特征向量。

31.如权利要求29所述的装置，其中所述执行独立分量分析还包括使用运行时数据训练特征向量。

32.如权利要求24所述的装置，还包括模数转换器，其中所述方法还包括在所述执行傅里叶相关变换之前，使用所述模数转换器将所述混合信号转换为数字形式。

33.如权利要求24所述的装置，其中所述方法还包括对所述估算的时频域源信号执行逆STFT，以便产生与原始时域源信号对应的估算的时域源信号。

34.如权利要求24所述的装置，其中所述概率密度函数具有球形分布。

35.如权利要求34所述的装置，其中所述概率密度函数具有拉普拉斯分布。

36.如权利要求34所述的装置，其中所述概率密度函数具有超高斯分布。

37.如权利要求24所述的装置，其中所述概率密度函数具有多元广义高斯分布。

38.如权利要求25所述的装置，其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。

39.如权利要求25所述的装置，其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。

40.一种非临时计算机可读介质，其具有在所述介质中包含的计算机可读程序代码，可运行所述程序代码以便执行信号处理操作，所述操作包括：