CN103426437A - 使用利用混合多元概率密度函数的独立分量分析的源分离 - Google Patents

使用利用混合多元概率密度函数的独立分量分析的源分离 Download PDF

Info

Publication number
CN103426437A
CN103426437A CN2013103270012A CN201310327001A CN103426437A CN 103426437 A CN103426437 A CN 103426437A CN 2013103270012 A CN2013103270012 A CN 2013103270012A CN 201310327001 A CN201310327001 A CN 201310327001A CN 103426437 A CN103426437 A CN 103426437A
Authority
CN
China
Prior art keywords
signal
probability density
density function
source
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103270012A
Other languages
English (en)
Other versions
CN103426437B (zh
Inventor
R·陈
J·允
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN103426437A publication Critical patent/CN103426437A/zh
Application granted granted Critical
Publication of CN103426437B publication Critical patent/CN103426437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)

Abstract

公开一种用于信号处理的方法和设备。可以执行源分离以便经由独立分量分析从源信号的混合中提取源信号。在这里描述的源分离包括混合多元概率密度函数,所述混合多元概率密度函数是具有与不同源、不同时间段、或其某些组合对应的不同参数的分量密度函数的混合。

Description

使用利用混合多元概率密度函数的独立分量分析的源分离
相关申请的交叉引用
本申请涉及共同转让于Ruxin Chen、共同未决的、名称为SOURCESEPARATION BY INDEPENDENT COMPONENT ANALYSIS INCONJUNCTION WITH OPTIMIZATION OF ACOUSTIC ECHOCANCELLATION(代理人案号No.SCEA11031US00)的、与本申请同一天提交的申请号,其全部公开通过引用合并于此。本申请还涉及共同转让于Ruxin Chen、共同未决的、名称为SOURCE SEPARATION BYINDEPENDENT COMPONENT ANALYSIS IN CONJUNCTION WITHSOURCE DIRECTION INFORMATION(代理人案号No.SCEA11032US00)的、与本申请同一天提交的申请号,其全部公开通过引用合并于此。本申请还涉及共同转让于Ruxin Chen、共同未决的、名称为SOURCE SEPARATI0N BY INDEPENDENT COMPONENTANALYSIS WITH MOVING CONSTRAINT(代理人案号No.SCEA11033US00)的、与本申请同一天提交的申请号,其全部公开通过引用合并于此。
技术领域
本发明的实施例针对信号处理。更具体地,本发明的实施例针对使用独立分量分析(ICA)的音频信号处理及源分离方法和设备。
背景技术
源分离已引起希望从混合信号观测结果的集合中提取原始源信号的集合的各种应用的关注。
源分离可以在各种信号处理应用中得到使用,所述信号处理应用是例如音频信号处理、光信号处理、语音分离、神经成像、股票市场预测、电信系统、和面部识别等。在产生混合信号的原始信号的混合过程的知识不是已知的情况下,所述问题通常被称为盲源分离(BSS)。
独立分量分析(ICA)是一种将混合过程建模为原始源信号的线性混合,并应用试图逆转混合过程以便产生与原始源信号对应的估算的信号的集合的去混合运算的对于源分离问题的方法。基本ICA假设非高斯源信号的线性瞬时混合,其中混合的数量等于源信号的数量。因为原始源信号被假设为独立的,因此ICA通过使用统计方法从混合中提取独立的(或者至少最大限度地独立的)信号的集合来估算原始源信号。
虽然在没有噪声的情况下用于简化的、瞬时混合的常规ICA方法可以给出非常好的结果,但现实世界的源分离应用通常需要解决由现实世界环境造成的更复杂的混合过程。由公知的“鸡尾酒会问题”说明当源分离应用于语音分离时源分离问题的常见示例,在所述“鸡尾酒会问题”中几个人正在房间中谈话,并且麦克风阵列被用来检测来自不同的说话者的语音信号。ICA的目的是从由麦克风检测到的混合观测结果中提取说话者的个人语音信号;然而,各种因素可以使混合过程变得复杂,所述因素包括噪声、音乐、移动源、室内混响、和回声等。以这种方式,阵列中的每个麦克风可以检测到包含原始源信号的混合的唯一混合信号(即,由阵列中的每个麦克风检测到的混合信号包括单独的说话者的语音的混合),但混合信号可能不只是所述源的简单瞬时混合。相反,所述混合可以是由室内混响和回声(例如从房间墙壁反弹的语音信号)产生的卷积混合,并且可以包括上述混合过程的复杂因素中的任意一个。
将用于源分离的混合信号最初可以是混合观测结果的时域表示(例如在上述鸡尾酒会问题中,它们将是作为时间的函数的混合音频信号)。已改良ICA过程以便对来自卷积混合信号的时域信号进行源分离,并且所述ICA过程可以给出良好的结果;然而,时域信号的卷积混合的分离可能是非常计算密集的,需要大量时间和处理资源,从而阻止它在许多常见的现实世界的ICA应用中的有效利用。
可以通过从观测到的时域信号中提取频率数据来实现计算上高效得多的算法。在这样做时,由频域中计算上更高效的乘法运算代替时域中的卷积运算。可以对时域数据进行例如短时傅里叶变换(STFT)的傅里叶相关变换,以便生成观测到的混合信号的频率表示并加载频率区(frequency bin),由此STFT将时域信号转换为时频域。STFT可以为所分析的每个时间段生成频谱图,以在给定时间段中的每个时刻提供关于每个频率区的强度的信息。
虽然在这里STFT被称为傅里叶相关变换的一个示例,但是术语“傅里叶相关变换,,不限于此。通常,术语“傅里叶相关变换”指代与傅里叶分析有关的函数的线性变换。这样的变换将函数映射到基础函数的系数的集合,所述基础函数通常是正弦曲线,从而强烈地局限于(stronglylocalized)频谱中。应用于连续自变量的傅里叶相关变换的示例包括拉普拉斯(Laplace)变换、双边拉普拉斯变换、Mellin变换、包括傅里叶级数和正弦及余弦变换的傅里叶变换、短时傅里叶变换(STFT)、分数傅里叶变换、Hartley变换、Chirplet变换和Hankel变换。应用于离散自变量的傅里叶相关变换的示例包括离散傅里叶变换(DFT)、离散时间傅里叶变换(DTFT)、离散正弦变换(DST)、离散余弦变换(DCT)、回归离散傅里叶级数、离散Chebyshev变换、广义离散傅里叶变换(GDFT)、Z-变换、改进的离散余弦变换、离散Hartley变换、离散的STFT、和Hadamard变换(或Walsh函数)。还可以通过应用于一维时域语音信号的小波分析或函数分析来完成时域信号到频谱域表示的变换,为了专利的简单,我们将仍然将所述变换称为傅里叶相关变换。频域ICA的传统方法包括,在每个频率区执行独立分量分析(即,将最大化不同信号之间的相同频率区的独立性)。不幸的是,这种方法固有地遭受可以使得源信号的估算的频率区数据被分组在错误的源中的公知的置换问题。同样地,当从频域信号再现得到的时域信号(例如通过逆STFT)时,从分离过程产生的每个估算的时域信号可能包含来自错误的源的频率数据。
已提出解决通过频域ICA的源分离中的频率区的未对准(misalignment)的各种方法。然而,到目前为止,这些方法中没有一个在现实世界的噪声环境中实现足够高的性能以便使得它们成为声源分离应用的有吸引力的解决方案。
常规方法包括如上所述地在每个频率区执行频域ICA,并应用包括通过各种方法校正频率区的对准(alignment)的后处理。然而,这些方法可能遭受校正步骤中的不精确和不良性能。此外,因为这些过程在初始ICA分离之后需要额外的处理步骤,因此大大增加产生所估算的源信号所需的处理时间和计算资源。
其他方法试图通过在所有频率区共同地执行ICA来更直接地解决置换问题。在通过引用合并于此的美国专利号7,797,153的Hiroe中(下文中为Hiroe)公开了一种这样的方法。Hiroe公开一种方法,其中相对于各个频率区对整个频谱图执行ICA计算,从而试图防止当在每个频率区执行ICA时发生的置换问题。Hiroe设置使用多元概率密度函数(PDF)的计分函数以便解决分离过程中频率区之间的关系。
然而,因为上面的Hiroe的方法使用单一多元PDF来对频率区之间的关系建模,它们未能解决不同源的不同统计特性以及源信号的统计特征随时间的改变。作为结果,当试图分析宽时间帧时,它们遭受不良性能。此外,所述方法通常不能有效地分析多源语音信号(即,同时在同一位置中的多个扬声器),因为底层的单一PDF对两个源是不足的。
到目前为止,用于频域ICA的已知方法遭受下列缺点中的一个或多个:不能精确地将频率区与适当的源对准,要求需要额外的时间和处理资源的后处理,不良的性能(即,不良的信噪比),不能高效地分析多源语音,需要麦克风的位置信息,以及需要分析有限时间帧。
发明内容
由于上述原因,需要一种没有上述缺点的、可以高效地实现频域独立分量分析以便从混合信号的集合中产生估算的源信号的方法和设备。在这样的上下文内出现对本发明的需要。
附图说明
通过结合附图考虑下列详细描述可以容易地理解本发明的教导,其中:
图1A是源分离过程的示意图。
图1B是源分离过程的混合和去混合模型的示意图。
图2是根据本发明的实施例的使用ICA的源分离的实现方式的流程图。
图3A是说明单一概率密度函数和混合概率密度函数之间的差异的图。
图3B是图示单一概率密度函数和混合概率密度函数对语音信号的频谱图的作用的频谱图表。
图4是根据本发明的实施例的源分离设备的框图。
具体实施方式
下列描述将主要关于由麦克风阵列检测到的音频信号的处理来描述本发明的实施例。更具体地,将关于从由麦克风阵列检测到的混合音频信号中分离语音源信号或其他音频源信号来描述本发明的实施例。然而,应理解ICA在各种技术中具有许多影响深远的应用,包括光信号处理、神经成像、股票市场预测、电信系统、和面部识别等。优选地,可以通过从传感器或换能器阵列观测来从各种源中获得混合信号,所述传感器或换能器阵列能够将感兴趣的信号观测为用于由通信装置或其他信号处理装置处理的电子形式。因此,除了权利要求中明确记载的以外,所附权利要求不限于语音分离应用或麦克风阵列。
为了解决上述置换问题,使用ICA的分离过程可以根据多元概率密度函数定义频率区之间的关系。以这种方式,可以通过在源分离过程中解决频率区之间的关系并且从而防止如上所述的频率区的未对准,基本上消除置换问题。
适当地估算频率区之间的关系的每个多元PDF的参数不仅可以取决于与其对应的源信号,还可以取决于将被分析的时间帧(即,给定源信号的PDF的参数将取决于该被分析的信号的时间帧)。同样地,适当地对频率区之间的关系建模的多元PDF的参数可以被认为是时间相关的和源相关的。然而,注意到对于相同类型的源,多元PDF的一般形式可以是相同的,而不管与多元PDF对应的是哪个源或时间段。例如,所有时间段上的所有源可以具有多元PDF,所述多元PDF具有与语音信号对应的超高斯形式,但对于每个源和时间段参数可以是不同的。使用概率密度函数对频率区之间的关系建模的频域ICA的已知方法未能通过对ICA计算中的单一多元PDF建模来解决这些不同的参数。
本发明的实施例可以通过使用在ICA计算中具有不同的参数的分量多元概率密度函数的加权混合来解决不同源以及不同时间段上的相同源的不同的统计特性。对于不同源信号、不同时间段、或它们的某种组合,可以加权这些多元概率密度函数的混合的参数,或混合多元PDF的参数。换句话说,混合多元PDF中的分量概率密度函数的参数可以与将被分析的不同源和/或不同时间段的频率分量对应。因此,本发明的实施例能够比已知过程以更好的性能分析宽得多的时间帧,以及同时能够解决在同一位置中的多个扬声器(即,多源语音)。
在下列描述中,将首先说明与在ICA计算中使用单一多元PDF的已知ICA过程对应的模型,以便帮助理解本发明,并且提供与本发明的实施例对应的模型的合适的设置。然后,将描述根据本发明的实施例的使用混合多元PDF的新的模型。
源分离问题设置
参考图1A,描述具有N个独立的信号源102的源分离过程的基本示意图。可以用列向量s=[s1,s2,...,sN]T表示来自源102的信号。注意,上标T仅表示列向量s仅仅是行向量[s1,s2,...,sN]的转置。注意,每个源信号可以是被建模为连续随机变量的函数(例如,语音信号作为时间的函数),但现在为了简单而省略函数变量。由M个独立的传感器104观测源102,产生可以由向量x=[x1,x2,...,xM]T表示的M个不同的混合信号。源分离106分离从传感器104接收到的混合信号x=[x1,x2,...,xM]T,以便产生可以由向量y=[y1,y2,...,yN]T表示的并与来自信号源102的源信号对应的估算的源信号108。图1A中总地示出的源分离在没有产生由传感器观测到的混合信号x=[x1,x2,...,xM]T的混合过程的信息的情况下可以产生与原始源102对应的所估算的源信号y=[y1,y2,...,yN]T
参考图1B,描述执行图1A中示出的源分离的总体ICA运算的基本示意图。在基本ICA过程中,源102的数量等于传感器104的数量,使得M=N,并且观测到的混合信号的数量等于将再现的单独的源信号的数量。在被传感器104观测到之前,从源102发出的源信号s遭受环境中的未知混合110。可以通过如下的混合矩阵A将这个混合过程11O表示为线性运算:
Figure BSA0000093242510000071
将混合矩阵A与源信号向量s相乘而产生由传感器观测到的混合信号x,使得每个混合信号xi是源向量s的分量的线性组合,并且:
ICA的目的是确定作为混合过程的逆的去混合矩阵W112,使得W=A-1。去混合矩阵112可以应用于混合信号x=[x1,x2,...,xM]T,以便产生估算的源y=[y1,y2,...,yN]T,使得,
y = Wx = WAs ≅ s - - - ( 3 )
流程图说明
现在参考图2,描述根据本发明的实施例的信号处理200的方法的流程图。信号处理200可以包括接收M个混合信号202。可以通过使用M个传感器或换能器的阵列观测感兴趣的信号来实现接收混合信号202,所述M个传感器或换能器的阵列例如是具有将观测到的音频信号转换为用于由信号处理装置处理的电子形式的M个麦克风的麦克风阵列。所述信号处理装置可以执行在这里描述的方法的实施例,并且通过示例的方式,所述信号处理装置可以是电子通信装置,例如计算机、手持式电子装置、视频游戏控制台、或电子处理装置。麦克风阵列可以产生可以由时域混合信号向量x(t)表示的混合信号x1(t),...,xM(t)。混合信号向量xm(t)的每个分量可以包括将被分离的音频源信号的卷积混合,其中由回声、混响、时间延迟等引起卷积混合过程。
如果数字地执行信号处理200,则信号处理200可以包括使用模数转换器(ADC)将混合信号x(t)转换为数字形式。模数转换205将使用足够高的采样率来使得能够处理底层的源信号中感兴趣的最高频率分量。模数转换203可以包括定义采样窗口,所述采样窗口定义将被输入到ICA分离过程的信号的时间段长度。通过示例的方式,滚动采样窗口可以用于生成被转换为时频域的一系列时间段。可以根据各种应用的特定需求以及可用资源、处理功率等选择采样窗口。
为了执行根据本发明的实施例的频域独立分量分析,可以对时域信号进行傅里叶相关变换204,优选地STFT,以便将它们转换为用于通过信号处理200处理的时频表示。STFT将为将对其执行频域ICA的每个时间段和混合信号加载频率区204。加载的频率区可以与每个时间段的每个时频域混合信号的频谱图表示对应。
为了简化将在频域ICA中执行的数学运算,在本发明的实施例中,信号处理200可以包括时频域信号X(f,t)的预处理205,所述预处理205可以包括公知的预处理运算,例如居中(centering)、白化等。预处理可以包括在执行源分离206之前,通过主分量分析(PCA)将混合信号去相关。
结合优化208,可以迭代执行通过频域ICA的信号分离206。源分离206包括设置去混合矩阵运算W,当所述去混合矩阵被应用于与由202接收的那些信号对应的混合信号X时,所述去混合矩阵运算W产生原始源信号S的最大限度地独立的估算的源信号Y。源分离206结合优化过程208以便迭代更新在源分离206中包括的去混合矩阵,直到所述去混合矩阵收敛于产生最大限度地独立的源信号的估算的解为止。优化208结合定义直到去混合矩阵收敛的迭代过程的优化算法或学习规则。通过示例的方式,结合优化208的源分离206可以使用期望最大化算法(EM算法)来估算分量概率密度函数的参数。
在一些实施方式中,可以使用例如最大后验概率(MAP)或最大似然(ML)的估算方法来定义成本函数。然后,可以使用例如EM、和梯度法等的方法得到信号分离问题的解。通过示例的方式,并且不通过限制的方式,可以使用ML定义独立性的成本函数,并使用EM对其进行优化。一旦由分离过程产生源信号的估算(例如,在去混合矩阵收敛之后),就可以执行重新缩放和可能的附加的单信道频谱域语音增强(后处理)210,以便产生由于简化预处理步骤205所需的估算的源信号的精确的时频表示。
为了产生与原始时域源信号s(t)直接对应的时域中的估算的源信号y(t),信号处理200还可以包括对时频域估算的源信号Y(f,t)执行逆傅里叶变换212(例如,逆STFT),以便产生时域估算的源信号y(t)。在数模转换214之后,可以在各种应用中再现或使用估算的时域源信号。通过示例的方式,在数模转换之后,可以由扬声器、耳机等再现估算的时域源信号,或者在非临时计算机可读介质中数字地存储所述估算的时域源信号用于其他用途。
模型
如上所述的通过频域ICA使用源分离206和优化208的信号处理200可以包括根据本发明的实施例的将由信号处理装置执行的算术运算的适当模型。在下列描述中,首先将描述在频域ICA运算中使用多元PDF但不使用混合多元PDF的旧的模型。然后,将描述根据本发明的实施例的使用混合多元PDF的新的模型。虽然为了本发明的实施例的完整和清楚的公开而提供在这里描述的模型,但本领域普通技术人员可以构想下列模型的各种改变,而不脱离本发明的范围。
使用多元PDF的模型
首先,将根据使用单一多元PDF的已知方法描述如图2中所示的用于使用频域ICA执行源分离206和优化208的模型。
为了执行频域ICA,必须从时域混合信号中提取频域数据,并且这可以通过对混合信号数据执行傅里叶相关变换来实现。例如,短时傅里叶变换(STFT)可以将时域信号x(t)转换为时频域信号,使得,
Xm(f,t)=STFT(xm(t))          (4)
并且对于F个频率区,第m个麦克风的频谱将是,
Xm(t)=[Xm(1,t)...Xm(F,t)]         (5)
对于M个麦克风,可以由向量X(t)表示混合信号数据,使得,
X(t)=[X1(t)...XM(t)]T             (6)
在上面的表达式中,向量的每个分量与所有频率区1到F上的第m个麦克风的频谱对应。同样地,对于估算的源信号Y(t),
Ym(t)=[Ym(1,t)...Ym(F,t)]         (7)
Y(t)=[Y1(t)...YM(t)]T           (8)
因此,ICA的目的可以是设置从混合信号X(t)中产生估算的源信号Y(t)的矩阵运算,其中W(t)是去混合矩阵。所述矩阵运算可以表达为,
Y(t)=W(t)X(t)             (9)
其中可以设置W(t)以便分离整个频谱图,使得矩阵W(t)的每个元素Wij(t)对于所有频率区展开如下,
Figure BSA0000093242510000101
Figure BSA0000093242510000102
现在,假设存在与麦克风相同数量的源(即,源的数量=M)。本发明的实施例可以使用ICA模型用于欠定(underdetemined)情况,其中源的数量大于麦克风的数量,但现在为了说明的清楚及简洁,将说明限制为源的数量等于麦克风的数量的情况。
注意,本发明的实施例还可被应用于过高估算的情况,例如,麦克风比源多的情况。注意,如果使用单一多元PDF,则可以求解确定和超定情况,但通常不能求解欠定情况。但是,如果使用混合多元PDF,则可以将混合多元PDF应用于每一种情况,包括确定、超定和欠定情况。
可以通过循环过程求解去混合矩阵W(t),所述循环过程包括为去混合矩阵W(t)提供初步估算,并迭代更新去混合矩阵直到它收敛于提供最大限度地独立的估算的源信号Y的解为止。迭代的优化过程包括定义直到收敛为止(即,直到去混合矩阵收敛于产生最大限度地独立的估算的源信号的解为止)将执行的迭代的优化算法或学习规则。
优化可以包括成本函数,并且可以被定义为最小化估算的源的互信息。所述成本函数可以使用Kullback-Leibler散度作为源之间的独立性的自然测量(natural measure),其为每个源测量联合概率密度函数和边缘概率密度函数之间的差。使用球形分布作为一种类型的PDF,第m个源的频谱的PDF 
Figure BSA0000093242510000115
可以是,
P Y m ( Y m ( t ) ) = h · ψ ( | | Y m ( t ) | | 2 ) - - - ( 12 )
| | Y m ( t ) | | 2 = Δ ( Σ t | Y m ( f , t ) | 2 ) 1 2 - - - ( 13 )
其中,ψ(x)=exp{-Ω|x|},Ω是适当的常数,并且h是上面的表达式中的归一化因子。因此,第m个源的最终多元PDF是,
P Y m ( Y m ( t ) ) = h · ψ ( | | Y m ( t ) | | 2 ) = h exp { - Ω | | Y m ( t ) | | 2 } = h exp { - Ω ( Σ f | Y m ( f , t ) | 2 ) 1 2 } - - - ( 14 )
可以如下定义成本函数,所述成本函数使用上面的表达式中提及的PDF,
KLD ( Y ) = Δ Σ m - E t ( log ( P Y m ( Y m ( t ) ) ) ) - log | det ( W ) | - H ( X ) - - - ( 15 )
其中,上面的表达式中的Et是帧上的平均期望,并且H是熵。
以上描述的模型采用成本函数解决置换问题,该模型使用多元PDF来对频率区之间的关系建模。去混合矩阵的解决包括最小化上述的成本函数,这可以最小化交互信息,以产生最大独立估算的源信号。
以上描述的模型试图采用使用多元PDF来对频率区之间的关系建模的成本函数来解决置换问题。去混合矩阵的求解包括最小化上面的成本函数,所述成本函数将最小化互信息以便产生最大限度地独立的估算的源信号。然而,在成本函数中仅使用单一多元PDF,从而遭受上面描述的缺陷。
使用混合多元PDF的新的模型
已对在频域ICA中使用单一多元PDF的已知方法建模后,将描述根据本发明的实施例的使用混合多元PDF的新的模型。
根据本发明的实施例,语音分离系统可以使用包括作为具有不同参数的L个分量多元概率密度函数的混合的混合多元概率密度函数的独立分量分析。注意,可以预计独立的源信号拥有具有相同一般形式的PDF(例如,可以预计独立的语音信号具有超高斯形式的PDF),但可以预计来自不同源信号的参数是不同的。此外,因为来自特定源的信号将随时间改变,可以预计对于来自相同源的信号,PDF的参数在不同的时间段具有不同的参数。因此,本发明的实施例可以使用作为对于不同源和/或不同时间段加权的PDF的混合的混合多元PDF。因此,本发明的实施例可以使用可以解决不同源信号的不同统计特性以及信号的统计特性随时间的改变的混合多元PDF。
同样地,对于L个不同分量多元PDF的混合,L通常可以被理解为对于其加权混合的PDF的时间段的数量与源的数量的乘积(例如,L=源的数量×时间段的数量)。
本发明的实施例可以使用预训练的特征向量估算去混合矩阵。其中V(t)表示预训练的特征向量,并且E(t)是特征值,去混合可以被表示为,
Y(t)=V(t)E(t)=W(t)X(t)          (16)
V(t)可以是干净语音、音乐和噪声的预训练的特征向量(即,可以为将被分离的多种类型的原始源预训练V(t))。可以执行优化以便得到E(t)和W(t)两者。当选择V(t)≡I时,则估算的源等于特征值,使得Y(t)=E(t)。
根据本发明的实施例的优化可以包括使用期望最大化算法(EM算法)来估算用于ICA计算的混合多元PDF的参数。
根据本发明的实施例,概率密度函数
Figure BSA0000093242510000123
(Ym,l(t))被假设为作为多元分量PDF的混合的混合多元PDF。其中由X(f,t)=A(f)S(f,t)表示旧的混合系统,新的混合系绕变为,
X ( f , t ) = Σ l = 0 L A ( f , l ) S ( f , t - l ) - - - ( 17 )
同样地,其中由Y(f,t)=W(f)X(f,t)表示旧的的去混合系统,新的去混合系统变为,
Y ( f , t ) = Σ l = 0 L W ( f , l ) X ( f , t - l ) = Σ l = 0 L Y m , l ( f , t ) - - - ( 18 )
其中A(f,1)是时间依赖的混合条件,并且还可以表示长时间混响混合条件。其中为PDF选择球形分布,新的混合多元PDF变为,
P Y m ( Y m , l ( t ) ) = Δ Σ l L b l ( t ) P Y m , l ( Y m ( t ) ) , t ∝ [ t 1 , t 2 ] - - - ( 19 )
P Y m ( Y m ( t ) ) = Σ l b l ( t ) h l f l ( | | Y m ( t ) | | 2 ) , t ∝ [ t 1 , t 2 ] - - - ( 20 )
其中为PDF选择多元广义高斯,新的混合多元PDF变为,
P Y m , l ( Y m , l ( t ) ) = Δ Σ l L b l ( t ) h l Σ c p ( c l ( m , t ) ) Π f N c ( Y m ( f , t ) | 0 , v Y m f ) , t ∝ [ t 1 , t 2 ] - - - ( 21 )
其中ρ(c)是不同的第c个分量多元广义高斯之间的加权,并且bl(t)是不同的时间段之间的加权。可以使用离线数据预训练
Figure BSA00000932425100001310
并进一步使用运行时数据对其训练。
对于“球形分布,,的
Figure BSA00000932425100001311
的W的迭代解法:
为了简化符号,可以从等式22到等式24中省略用于频域表示的“t”。例如,我们可以使用Yn代替Yn(t)。可以将使用KL散度的互信息I定义为,
l = Δ KLD ( p ( Y 1 . . . , Y M ) | | Π i = 1 M p ( Y i ) ) = ∫ p ( Y 1 . . . , Y M ) log p ( Y 1 . . . , Y M ) Π i = 1 N p ( Y i ) d Y 1 . . . d Y M
= ∫ p ( X 1 . . . X M ) log p ( X 1 . . . X M ) d X 1 . . . dX M - Σ k = 1 K log | det W ( k ) |
- Σ i = 1 M log p ( Y i ) - - - ( 22 )
通过使用自然梯度法的最终学习规则变为如下,
∂ I ∂ W ( k ) ( W ( k ) ) T W ( k ) = Δ Δ W ( k ) ∝ { [ ( W ( k ) ) T ] - 1 - φ ( Y ( k ) ) ( x ( k ) ) T } ( W ( k ) ) T W ( k )
= [ I - φ ( Y ( k ) ) ( Y ( k ) ) T ] W ( k )
其中,I是单位矩阵(N×N),并且
Figure BSA0000093242510000139
(23)
在学习过程的每次迭代中,我们使用如下的梯度下降法更新去混合滤波器,
W(k)=W(k)+ηΔW(k)
其中η是学习速率。
对于“多元高斯分布,,的
Figure BSA00000932425100001411
的W的迭代解法:
由互信息定义的似然函数可以变为如下:
L ′ = KLD ( p ( Y l . . . , Y M ) | | Π i = 1 M p ( Y i ) ) = ∫ p ( Y l . . . , Y M ) log p ( Y l . . . , Y M ) Π m = 1 M p ( Y m ) d Y l . . . dY M
= ∫ p ( X 1 . . . X M ) log p ( X 1 . . . X M ) d X 1 . . . dX M - Σ k = 1 K log | det W ( k ) |
- Σ m = 1 M log p ( Y m )
因为∫p(X1...XM)log p(X1...XM)dX1...dXM是麦克风信号的熵并且是常数,因此通过Jensen不等式可以获得下列等式并省略第一项。
L ′ ≥ Σ k = l K log | det W ( k ) | - Σ l = 1 L Σ m = 1 M γ ( θ m , l ) log p ( y m , Q = l | θ m , l ) γ ( θ m , l ) = L
其中p(Y1,Q=l|θm,l)是由隐藏变量集θm,l给出的条件概率函数,对于所有的m,并且我们将所述等式定义为L。
我们将边缘PDF定义为具有如下零均值的多元高斯分布(MMGD)的混合
P Y m ( Y m , Q = l | θ m ) = Σ i = 1 L α i ( Σ j = 1 N β i , j N ( Y m , i , j | 0 , v Y m , i , j ( f , t ) ) ) = Σ i = 1 L α i P Y m , i ( Y m , i | θ i )
其中αi是不同语音时间段之间的权重。
为了简化,我们将 Σ j = 1 N β i , j N ( Y m , i , j | 0 , v Y m , i , j ( f , t ) ) 定义为
Figure BSA0000093242510000148
P Y m , i ( Y m , i | θ i ) = Σ J = 1 N β i , j P S m , i , j ( Y m , i , j | θ i , j ) = Σ j = 1 N β i , j N ( Y m , i , j | 0 , v Y m , i , j )
其中βi,j是不同的多元广义高斯之间的权重。
可以使用以E步骤和M步骤在γ(θn,l)上迭代最大化L(θ)直到收敛的EM算法来更新参数。
在E步骤中,最大化γ(θm,l),使得
γ ( θ m , l ) = p ( Y m , Q = l | θ m , l ) π m , l ξ m , l
其中ξm,l可以被确定为保证对于所有的m,
Figure BSA0000093242510000151
所需的值。
P ( Y m , Q = l | θ m , l ) = Σ i = 1 L α i ( Σ j = 1 N β i , j N ( Y m , i , j | 0 , v Y m , i , , j ) )
在M步骤中,
v Y m , i , j = E ( N ( Y m , i , j | 0 , v Y m , i , j ) Y m , i , j Y m , i , j H ) E ( N ( Y m , i , j | 0 , v Y m , i , j ) )
β i , j = E ( ( Σ J = 1 N β i , j N ( Y m , i , j | 0 , v Y m , i , j ) ) )
α i = E ( N ( Y m , i , j | 0 , v Y m , i , j ) )
π m , l = Σ m = 1 M γ ( θ m , l ) E ( Σ l = 1 L γ ( θ m , l ) ) - - - ( 24 )
可以如下实现使用预训练的特征向量的W的闭合解:
Y(t)=V(t)E(t)=W(t)X(t),其中V(t)可以是干净语音、音乐和噪声的预训练的特征向量。E(t)是特征值。→
Figure BSA0000093242510000157
V(t)是预训练的。
E(t)或
Figure BSA00000932425100001510
的维数可以小于X(t)。
优化是为了得到{V(t),E(t),W(t)}。数据集1是训练数据或校准数据。数据集2是测试数据或实时数据。当选择V(t)≡I时,则Y(t)=E(t),方程退回到单个等式的普通情况。
a)当数据集1是单信道纯训练数据时,Y(t)是已知的,
Figure BSA0000093242510000159
X(t)=Y(t)。最优解V(t)是Y(t)的特征向量。
b)对于等式#2.4,任务是在给定麦克风阵列数据X(t)和已知特征向量V(t)的情况下得到最优的{E(t),W(t)}。即求解下列等式
V(t)E(t)=W(t)X(t)
如果V(t)是矩形矩阵,则
E(t)=V(t)-1W(t)X(t)
如果V(t)不是矩形矩阵,则
E(t)=(V(t)TV(t))-1V(t)TW(t)X(t)
E(t)=V(t)T(V(t)TV(t))-1W(t)X(t)
Figure BSA0000093242510000162
被假设为麦克风“m”和PDF混合分量“1”的多元PDF的混合。
b)新的去混合系统
E(f,t)=V-1(f,t)W(f)X(f,t)
E ( f , t ) = Σ l = 0 L V - 1 ( f , t ) W ( f , l ) X ( f , t - l ) = Σ l = 0 L E m , l ( f , t ) - - - ( 25 )
注意,可以从上面的表达式(22)到(26)推导出用于欠定情况(即,其中源的数量大于麦克风的数量)的模型,并且这些欠定情况在本发明的范围内。
在本发明的实施例中使用的ICA模型可以使用每个混合信号的倒谱(cepstrum),其中Xm(f,t)可以是xm(t)的倒谱加上基音(pitch)的对数(l0g)值(或标准值),如下,
Xm(f,t)=STFT(log(||xm(t)||2))f=1,2,...,F-1          (26)
X m ( F , t ) = Δ log ( f 0 ( t ) ) - - - ( 27 )
Xm(t)=[Xm(1,t)...XF-1(F-1,t)XF(F,t)]         (28)
注意,可以将时域语音信号的倒谱定义为时域信号的傅里叶变换的对数(使用展开的相位)的傅里叶变换。时域信号S(t)的倒谱可以在数学上被表示为FT(log(FT(S(t)))+j2πq),其中q是适当展开复数对数函数的角或虚数部分所需的整数。在算法上,可以通过对信号执行傅里叶变换、取得到的变换的对数、展开所述变换的相位、以及对所述变换进行傅里叶变换而生成倒谱。这个运算的顺序可以被表示为:信号→FT→对数→相位展开→FT→倒谱。
为了在时域中产生估算的源信号,在得到Y(t)的解后,基音+倒谱只需被转换为频谱图,并且从频谱图转换为时域,以便在时域中产生估算的源信号。优化的其余部分保持与上面讨论的相同。
对于根据本发明的实施例的源分离中使用的模型,取决于各种应用的特定需求可以选择不同形式的PDF。通过示例的方式,选择的PDF的形式可以是球形的。更具体地,取决于各种应用的特定需求,所述形式可以是超高斯、拉普拉斯算子、或高斯。注意,每个混合多元PDF是分量PDF的混合,并且混合中的每个分量PDF可以具有相同的形式,但是不同的参数。
如图3A中所示,混合多元PDF可以导致具有与每个分量PDF对应的多个模式的概率密度函数。在图3A中的单一PDF302中,作为给定变量的函数的概率密度是单峰的,即,对于给定变量PDF302的曲线图仅具有一个峰值。在混合PDF304中,作为给定变量的函数的概率密度是多峰的,即,对于给定变量,混合PDF304的曲线图具有一个以上的峰值。注意,作为单一PDF302和混合PDF304之间的差异的示范而提供图3A。然而,注意图3A中描绘的PDF是一元PDF,并且仅为了示范单一PDF和混合PDF之间的差异而提供。在混合多元PDF中,将存在一个以上的变量,并且对于那些变量中的一个或多个,PDF将是多峰的。换句话说,对于变量中的至少一个,PDF的曲线图中将存在一个以上的峰值。图3B图示展示单一多元PDF和混合多元PDF之间的差异的另一方式,在所绘制的频谱图表中示出所述差异。在图3B中,单一多元PDFa)被表示为并且混合多元PDF b)被表示为
Figure BSA0000093242510000172
在这个示例中,单一多元PDF覆盖单个时间实例,而混合多元PDF覆盖一系列时间实例。
重新缩放过程(图2,210)
通过示例的方式,并且不通过限制的方式,可以使用美国专利7,797,153(通过引用将其合并于此)中在第18栏第31行到第19栏第67行描述的技术中的任意一个来实现在210表示的重新缩放过程,下面将简要地论述所述技术。
根据第一技术,可以通过从估算的源信号Yk(f,t)(其比例不是统一的)中产生具有单输入多输出的信号来重新缩放估算的源信号Yk(f,t)中的每一个。可以通过使用去混合矩阵W(f)和预处理矩阵Q(f)的乘积的逆对估算的源信号进行运算来实现这种类型的重新缩放以便产生如下给出的缩放输出Xyk(f,t):
X yk ( f , t ) = ( W ( f ) Q ( f ) ) - 1 0 · · · Y k ( f , t ) · · · 0 - - - ( 29 )
其中Xyk(f,t)表示在来自第k个源的在第y个输出的信号。Q(f)表示预处理矩阵,其可以被实现为在图2的205表示的预处理的一部分。预处理矩阵Q(f)可以被配置为使混合输入信号X(f,t)在每个频率区具有零均值和单位方差。
在第二重新缩放技术中,基于最小失真原理,可以根据下列等式重新计算去混合矩阵W(f):
W(f)←diag(W(f)Q(f)-1)W(f)Q(f)           (30)
在等式(30)中,Q(f)再次表示用于预处理在图2的205的输入信号X(f,t)的预处理矩阵,使得它们在每个频率区具有零均值和单位方差。Q(f)-1表示预处理矩阵Q(f)的逆。然后,可以将重新计算的去混合矩阵W(f)应用于原始输入信号X(f,t)以便产生重新缩放的估算的源信号Yk(f,t)。
第三技术使用估算的源信号Yk(f,t)和残留信号的独立性。可以通过将第k个源和第f个频率区的源信号Yk(f,t)与适当的缩放系数αk(f)相乘来获得重新缩放的估算的源信号。残留信号是原始混合信号Xk(f,t)和重新缩放的源信号之间的差。如果αk(f)具有恰当的值(correct Value),则因子Yk(f,t)从残留信号中完全消失,并且乘积αk(f)·Yk(f,t)表示原始观测信号。可以通过求解下列等式来获得缩放系数:
E [ f ( X k ( f , t ) - α k ( f ) Y k ( f , t ) g ( Y k ( f , t ) ) ‾ ] - E [ f ( X k ( f , t ) - α k ( f ) Y k ( f , t ) ] E [ g ( Y k ( f , t ) ) ‾ ]
= 0 - - - ( 31 )
在等式(31)中,函数f(.)和g(.)是任意标量函数。上覆线表示共轭复数运算,并且E[]表示方括号内的表达式的期望值的计算。
信号处理装置描述
为了执行如上所述的根据本发明的实施例的源分离,信号处理装置可以被配置为执行实现本发明的实施例所需的算术运算。信号处理装置可以是各种通信装置中的任何一个。例如,根据本发明的实施例的信号处理装置可以是计算机、个人计算机、膝上型计算机、手持式电子装置、蜂窝电话、视频游戏控制台等。
参考图4,描绘根据本发明的实施例的能够执行源分离的信号处理装置400的示例。设备400可以包括处理器401和存储器402(例如,RAM,DRAM,和ROM等)。此外,如果将实现并行处理,则信号处理设备400可以具有多个处理器401。此外,信号处理设备400可以使用多核处理器,例如双核处理器、四核处理器或其他多核处理器。存储器402包括被配置为执行如上所述的源分离的数据和代码。具体地,存储器402可以包括信号数据406和代码,所述信号数据406可以包括输入信号x的数字表示(例如,在图2中所示的模数转换之后),所述代码用于使用如上所述的混合多元PDF来实现源分离以便估算在混合信号x的数字表示中包含的源信号。
设备400还可以包括公知的支持功能元件410,例如输入/输出(I/O)元件411、电源(P/S)412、时钟(CLK)413和高速缓冲存储器414。设备400可以包括大容量存储装置415,例如盘驱动器、CD-ROM驱动器、或磁带驱动器等以便存储程序和/或数据。设备400还可以包括显示单元416和用户接口单元418,以便促进设备400和用户之间的交互。显示单元416可以是显示文本、数字、图形符号或图像的阴极射线管(CRT)或平板屏幕的形式。用户接口418可以包括键盘、鼠标、操纵杆、光笔或其他装置。此外,用户接口418可以包括麦克风、摄像机或其他信号换能装置以便提供将被分析的信号的直接捕获。如图4所示,系统400的处理器401、存储器402和其他组件可以经由系统总线420彼此交换信号(例如,代码指令和数据)。
麦克风阵列422可以通过I/O功能元件411耦接到设备400。麦克风阵列可以包括两个或多个麦克风。麦克风阵列可以优选地包括至少与将被分离的原始源的一样多的麦克风;然而,对于如上所述的欠定情况,麦克风阵列可以包括比源的数量更少或更多的麦克风。麦克风阵列422的每个麦克风可以包括将声信号转换为电信号的声换能器。设备400可以被配置为将来自麦克风的模拟电信号转换为数字信号数据406。
设备400可以包括网络接口424以便经由电子通信网络426促进通信。网络接口424可以被配置为经由局域网和例如因特网的广域网实现有线或无线通信。设备400可以通过网络426经由一个或多个消息分组427发送和接收数据和/或文件请求。麦克风阵列422还可以被连接到例如游戏控制器的外围装置,而非经由I/O元件411直接耦接。外围装置可以通过有线或无线方法向处理器401发送阵列数据。还可以在外围装置中进行阵列处理,并且向处理器401发送处理后的干净语音或语音特征。
还应注意,在一些实现方式中,一个或多个声音源419可以例如经由I/O元件或例如游戏控制器的外围装置耦接到设备400。此外,一个或多个图像捕获设备420可以例如经由I/O元件411或例如游戏控制器的外围装置被耦接到设备400。
如在这里使用的,术语I/O通常涉及将数据传输到系统400或从系统400传输数据以及将数据传输到外围装置或从外围装置传输数据的任何程序、操作或装置。每一次数据传输都可以被认为是来自一个装置的输出和到另一装置中的输入。外围装置包括例如键盘和鼠标的仅输入装置、例如打印机的仅输出装置、以及可以用作输入和输出装置两者的例如可写CD-ROM的装置。术语“外围装置”包括外部装置,例如鼠标、键盘、打印机、监视器、麦克风、游戏控制器、相机、外部Zip驱动器或扫描仪,以及内部装置,例如CD-ROM驱动器、CD-R驱动器或内部调制解调器或例如闪存读取器/写入器、硬盘的其他外围装置。通过示例的方式,并且不通过限制的方式,可以在大容量存储装置415上、在CD-ROM上存储、或经由网络426从远程服务器下载一些麦克风阵列422的初始参数、校准数据、以及多元PDF的部分参数和混合及去混合数据。
如上所述,处理器401可以响应于由存储器402存储及获取并由处理器模块401运行的数据406和程序404的程序代码指令,对信号数据406执行数字信号处理。程序404的代码部分可以遵照许多不同编程语言中的任何一个,例如,汇编、C++、JAVA或许多其他语言。处理器模块401形成当运行例如程序代码404的程序时变为专用计算机的通用计算机。虽然程序代码404在这里被描述为被实现为软件并在通用计算机上运行,但是本领域技术人员可以认识到可以使用例如专用集成电路(ASIC)或其他硬件电路的硬件来可替换地实现任务管理的方法。同样地,可以全部或部分地以软件、硬件或软件和硬件两者的某种组合实现本发明的实施例。
本发明的实施例可以包括具有实现如上所述的源分离方法的处理器可读指令集的程序代码404。程序代码404通常可以包括引导处理器对多个时域混合信号执行源分离的指令,其中混合信号包括将通过在这里描述的源分离方法提取的原始源信号的混合。所述指令可以引导信号处理装置400对多个时域混合信号执行傅里叶相关变换(例如,STFT),以便生成与时域混合信号对应的时频域混合信号,从而加载频率区。所述指令可以引导信号处理装置对时频域混合信号执行如上所述的独立分量分析,以便生成与原始源信号对应的估算的源信号。独立分量分析将使用混合多元概率密度函数,所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量概率密度函数的加权混合。
注意,在这里描述的源分离的方法通常应用于从由信号处理装置接收的混合信号估算多个源信号。然而,在特定应用中感兴趣的唯一源信号可以是单个源信号,例如与作为噪声的其他源信号混合的单一语音信号。通过示例的方式,由本发明的音频信号处理实施例估算的源信号可以是语音信号、音乐信号、或噪声。同样地,本发明的实施例可以使用如上所述的ICA,以便从多个原始源信号的混合中估算至少一个源信号。
虽然为了说明的目的,这里的详细描述包含许多具体细节,但是本领域普通技术人员中的任何一个将理解对在这里描述的细节的许多变化和改变在本发明的范围内。因此,在所要求保护的发明不失任何一般性并且没有对所要求保护的发明强加限制的情况下阐述在这里描述的本发明的示例实施例。
虽然以上是本发明的优选实施例的完整说明,但是可以使用各种改变、修改和等价物。因此,不应该参考上面的描述来确定本发明的范围,相反,应该参考所附权利要求连同它们的等效物的整个范围来确定本发明的范围。在这里描述的任何特征(不管是不是优选的)都可以与在这里描述的任何其他特征(不管是不是优选的)相结合。在随后的权利要求中,当在包含例如“包括,”的开放式过渡短语的权利要求中使用时,除非另有明确说明,不定冠词“一”或“一个”指代所述冠词后的项目中的一个或多个的数量。此外,随后使用词语“上述”或“所述”来重新提及相同的权利要求术语不改变这个含义,而仅是重新援引该非单一的含义。所附权利要求将不被解释为包括设备加功能限制或步骤加功能限制,除非在给定权利要求中使用短语“用于......的设备”或“用于......的步骤”来明确地描述这种限定。

Claims (36)

1.一种使用信号处理装置处理信号的方法,包括:
在信号处理装置中接收多个时域混合信号,每个时域混合信号包括原始源信号的混合;
使用所述信号处理装置对每个时域混合信号执行傅里叶相关变换,以便生成与所述时域混合信号对应的时频域混合信号;以及
对所述时频域混合信号执行独立分量分析,以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号,
其中所述独立分量分析使用混合多元概率密度函数,所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。
2.如权利要求1所述的方法,其中所述混合信号是音频信号。
3.如权利要求2所述的方法,其中所述混合信号包括至少一个语音源信号,并且所述至少一个估算的源信号与所述至少一个语音信号对应。
4.如权利要求1所述的方法,其中所述执行傅里叶相关变换包括,在多个离散时间段上执行短时傅里叶变换(STFT)。
5.如权利要求3所述的方法,其中所述执行独立分量分析包括,使用期望最大化算法来估算分量多元概率密度函数的参数。
6.如权利要求3所述的方法,其中所述执行独立分量分析包括,在分量概率密度函数的参数的估算中,使用干净语音的预训练的特征向量。
7.如权利要求6所述的方法,其中所述执行独立分量分析还包括使用音乐和噪声的预训练的特征向量。
8.如权利要求6所述的方法,其中所述执行独立分量分析还包括使用运行时数据训练特征向量。
9.如权利要求2所述的方法,还包括在所述执行傅里叶相关变换之前,使用模数转换器将所述混合信号转换为数字形式。
10.如权利要求2所述的方法,还包括对所述估算的时频域源信号执行逆STFT,以便产生与原始时域源信号对应的估算的时域源信号。
11.如权利要求3所述的方法,其中所述分量概率密度函数具有球形分布。
12.如权利要求11所述的方法,其中所述分量概率密度函数具有拉普拉斯分布。
13.如权利要求11所述的方法,其中所述分量概率密度函数具有超高斯分布。
14.如权利要求3所述的方法,其中所述分量概率密度函数具有多元广义高斯分布。
15.如权利要求2所述的方法,其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。
16.如权利要求2所述的方法,其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。
17.如权利要求3所述的方法,其中从麦克风阵列接收所述混合信号。
18.一种信号处理装置,包括:
处理器;
存储器;以及
计算机编码指令,在所述存储器中包含所述计算机编码指令并且可以由所述处理器执行所述计算机编码指令,其中所述指令被配置为实现信号处理的方法,所述方法包括:
接收多个时域混合信号,每个时域混合信号包括原始源信号的混合;
对每个时域混合信号执行傅里叶相关变换,以便生成与所述时域混合信号对应的时频域混合信号;以及
对所述时频域混合信号执行独立分量分析,以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号,
其中所述独立分量分析使用混合多元概率密度函数,所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。
19.如权利要求18所述的装置,还包括用于观测所述时域混合信号的麦克风阵列。
20.如权利要求18所述的装置,其中所述处理器是多核处理器。
21.如权利要求18所述的装置,其中所述混合信号是音频信号。
22.如权利要求21所述的装置,其中所述混合信号包括至少一个语音源信号,并且所述至少一个估算的源信号与所述至少一个语音信号对应。
23.如权利要求18所述的装置,其中所述执行傅里叶相关变换包括,在多个离散时间段上执行短时傅里叶变换(STFT)。
24.如权利要求22所述的装置,其中所述执行独立分量分析包括,使用期望最大化算法来估算分量多元概率密度函数的参数。
25.如权利要求22所述的装置,其中所述执行独立分量分析包括,在分量概率密度函数的参数的估算中,使用干净语音的预训练的特征向量。
26.如权利要求25所述的装置,其中所述执行独立分量分析还包括使用音乐和噪声的预训练的特征向量。
27.如权利要求25所述的装置,其中所述执行独立分量分析还包括使用运行时数据训练特征向量。
28.如权利要求22所述的装置,还包括模数转换器,其中所述方法还包括,在所述执行傅里叶相关变换之前,使用模数转换器将所述混合信号转换为数字形式。
29.如权利要求22所述的装置,所述方法还包括,对所述估算的时频域源信号执行逆STFT,以便产生与原始时域源信号对应的估算的时域源信号。
30.如权利要求22所述的装置,其中所述分量概率密度函数具有球形分布。
31.如权利要求30所述的装置,其中所述分量概率密度函数具有拉普拉斯分布。
32.如权利要求30所述的装置,其中所述分量概率密度函数具有超高斯分布。
33.如权利要求22所述的装置,其中所述分量概率密度函数具有多元广义高斯分布。
34.如权利要求22所述的装置,其中所述混合多元概率密度函数是与不同源对应的频率区的分量概率密度函数的加权混合。
35.如权利要求22所述的装置,其中所述混合多元概率密度函数是与不同时间段对应的频率区的分量概率密度函数的加权混合。
36.一种包括非临时计算机可读介质的计算机程序产品,其具有在所述介质中包含的计算机可读程序代码,可运行所述程序代码以便执行信号处理操作,所述操作包括:
接收多个时域混合信号,每个时域混合信号包括原始源信号的混合;
对每个时域混合信号执行傅里叶相关变换,以便生成与所述时域混合信号对应的时频域混合信号;以及
对所述时频域混合信号执行独立分量分析,以便生成与所述原始源信号中的至少一个对应的至少一个估算的源信号,
其中所述独立分量分析使用混合多元概率密度函数,所述混合多元概率密度函数是与不同源信号和/或不同时间段对应的频率区的分量多元概率密度函数的加权混合。
CN201310327001.2A 2012-05-04 2013-05-06 使用利用混合多元概率密度函数的独立分量分析的源分离 Active CN103426437B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/464,833 2012-05-04
US13/464,833 US8886526B2 (en) 2012-05-04 2012-05-04 Source separation using independent component analysis with mixed multi-variate probability density function

Publications (2)

Publication Number Publication Date
CN103426437A true CN103426437A (zh) 2013-12-04
CN103426437B CN103426437B (zh) 2016-06-08

Family

ID=49513276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310327001.2A Active CN103426437B (zh) 2012-05-04 2013-05-06 使用利用混合多元概率密度函数的独立分量分析的源分离

Country Status (2)

Country Link
US (1) US8886526B2 (zh)
CN (1) CN103426437B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN107563300A (zh) * 2017-08-08 2018-01-09 浙江上风高科专风实业有限公司 基于预白化方法的降噪预处理技术
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置
CN109074818A (zh) * 2016-04-08 2018-12-21 杜比实验室特许公司 音频源参数化
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9099096B2 (en) 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US10473628B2 (en) * 2012-06-29 2019-11-12 Speech Technology & Applied Research Corporation Signal source separation partially based on non-sensor information
US10540992B2 (en) 2012-06-29 2020-01-21 Richard S. Goldhor Deflation and decomposition of data signals using reference signals
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US9788109B2 (en) 2015-09-09 2017-10-10 Microsoft Technology Licensing, Llc Microphone placement for sound source direction estimation
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
CN105931648B (zh) * 2016-06-24 2019-05-03 百度在线网络技术(北京)有限公司 音频信号解混响方法和装置
EP3923269B1 (en) 2016-07-22 2023-11-08 Dolby Laboratories Licensing Corporation Server-based processing and distribution of multimedia content of a live musical performance
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
US10587979B2 (en) 2018-02-06 2020-03-10 Sony Interactive Entertainment Inc. Localization of sound in a speaker system
CN113223553B (zh) * 2020-02-05 2023-01-17 北京小米移动软件有限公司 分离语音信号的方法、装置及介质
CN112786067B (zh) * 2020-12-30 2024-04-19 西安讯飞超脑信息科技有限公司 残留回声概率预测方法、模型训练方法、设备及存储装置
CN115290130B (zh) * 2022-10-08 2022-12-16 香港中文大学(深圳) 一种基于多元概率量化的分布式信息估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897113A (zh) * 2005-06-03 2007-01-17 索尼株式会社 音频信号分离设备及其方法
CN101256715A (zh) * 2008-03-05 2008-09-03 中科院嘉兴中心微系统所分中心 无线传感器网络中基于粒子滤波的多车辆声信号分离方法
CN101604012A (zh) * 2008-06-11 2009-12-16 索尼株式会社 信号处理装置、信号处理方法以及程序
US20110002473A1 (en) * 2008-03-03 2011-01-06 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
JP2011164468A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム
CN102257401A (zh) * 2008-12-16 2011-11-23 皇家飞利浦电子股份有限公司 使用粒子滤波估计声源地点

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254486A (ja) 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
WO2006067857A1 (ja) 2004-12-24 2006-06-29 Fujitsu Limited 到来方向推定装置及びプログラム
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
US8275120B2 (en) 2006-05-30 2012-09-25 Microsoft Corp. Adaptive acoustic echo cancellation
US8126161B2 (en) * 2006-11-02 2012-02-28 Hitachi, Ltd. Acoustic echo canceller system
JP4410265B2 (ja) 2007-02-19 2010-02-03 株式会社東芝 音声認識装置及び方法
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
WO2008112538A1 (en) * 2007-03-09 2008-09-18 Fortemedia, Inc. Acoustic echo cancellation system
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
JP5320792B2 (ja) 2008-03-28 2013-10-23 富士通株式会社 到来方向推定装置、到来方向推定方法および到来方向推定プログラム
US8411847B2 (en) 2008-06-10 2013-04-02 Conexant Systems, Inc. Acoustic echo canceller
JP2011215317A (ja) * 2010-03-31 2011-10-27 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
US9214157B2 (en) * 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US8712073B2 (en) * 2011-12-16 2014-04-29 Korea Advanced Institute Of Science And Technology Method and apparatus for blind signal extraction
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897113A (zh) * 2005-06-03 2007-01-17 索尼株式会社 音频信号分离设备及其方法
US20110002473A1 (en) * 2008-03-03 2011-01-06 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
CN101256715A (zh) * 2008-03-05 2008-09-03 中科院嘉兴中心微系统所分中心 无线传感器网络中基于粒子滤波的多车辆声信号分离方法
CN101604012A (zh) * 2008-06-11 2009-12-16 索尼株式会社 信号处理装置、信号处理方法以及程序
CN102257401A (zh) * 2008-12-16 2011-11-23 皇家飞利浦电子股份有限公司 使用粒子滤波估计声源地点
JP2011164468A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 音源パラメータ推定方法と音源分離方法と、それらの装置と、プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN106796803B (zh) * 2014-10-14 2023-09-19 交互数字麦迪逊专利控股公司 用于在音频通信中将语音数据与背景数据分离的方法和装置
CN109074818A (zh) * 2016-04-08 2018-12-21 杜比实验室特许公司 音频源参数化
CN109074818B (zh) * 2016-04-08 2023-05-05 杜比实验室特许公司 音频源参数化
CN107563300A (zh) * 2017-08-08 2018-01-09 浙江上风高科专风实业有限公司 基于预白化方法的降噪预处理技术
CN108769874A (zh) * 2018-06-13 2018-11-06 广州国音科技有限公司 一种实时分离音频的方法和装置

Also Published As

Publication number Publication date
CN103426437B (zh) 2016-06-08
US20130297298A1 (en) 2013-11-07
US8886526B2 (en) 2014-11-11

Similar Documents

Publication Publication Date Title
CN103426437A (zh) 使用利用混合多元概率密度函数的独立分量分析的源分离
CN103426434B (zh) 结合源方向信息通过独立分量分析的源分离
CN103426435A (zh) 具有移动约束的通过独立分量分析的源分离
CN103426436A (zh) 结合声学回声消除的优化通过独立分量分析的源分离
US20210089967A1 (en) Data training in multi-sensor setups
CN108564963B (zh) 用于增强语音的方法和装置
CN106658343B (zh) 用于渲染音频声场表示以供音频回放的方法和设备
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US9215539B2 (en) Sound data identification
US20210319802A1 (en) Method for processing speech signal, electronic device and storage medium
EP3392883A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
CN108962277A (zh) 语音信号分离方法、装置、计算机设备以及存储介质
US9318106B2 (en) Joint sound model generation techniques
CN112951263B (zh) 语音增强方法、装置、设备和存储介质
KR20110012946A (ko) 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
Zheng et al. Noise-robust blind reverberation time estimation using noise-aware time–frequency masking
Casebeer et al. Deep tensor factorization for spatially-aware scene decomposition
JP6087856B2 (ja) 音場収音再生装置、システム、方法及びプログラム
KR101356039B1 (ko) 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
Gao et al. Multi-variant consistency based self-supervised learning for robust automatic speech recognition
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
CN113707163B (zh) 语音处理方法及其装置和模型训练方法及其装置
Bao et al. Lightweight Dual-channel Target Speaker Separation for Mobile Voice Communication
Zhang et al. UnderwaterImage2IR: Underwater impulse response generation via dual‐path pre‐trained networks and conditional generative adversarial networks
Kanan et al. A GPU Implementation of FastICA in Audio Applications for Small Number of Components

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant