CN1855227A - 用于分离音频信号的装置和方法 - Google Patents

用于分离音频信号的装置和方法 Download PDF

Info

Publication number
CN1855227A
CN1855227A CNA2006100711988A CN200610071198A CN1855227A CN 1855227 A CN1855227 A CN 1855227A CN A2006100711988 A CNA2006100711988 A CN A2006100711988A CN 200610071198 A CN200610071198 A CN 200610071198A CN 1855227 A CN1855227 A CN 1855227A
Authority
CN
China
Prior art keywords
signal
formula
centerdot
time
frequency zone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100711988A
Other languages
English (en)
Other versions
CN1855227B (zh
Inventor
广江厚夫
山田敬一
赫尔穆特·卢克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1855227A publication Critical patent/CN1855227A/zh
Application granted granted Critical
Publication of CN1855227B publication Critical patent/CN1855227B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04GSCAFFOLDING; FORMS; SHUTTERING; BUILDING IMPLEMENTS OR AIDS, OR THEIR USE; HANDLING BUILDING MATERIALS ON THE SITE; REPAIRING, BREAKING-UP OR OTHER WORK ON EXISTING BUILDINGS
    • E04G17/00Connecting or other auxiliary members for forms, falsework structures, or shutterings
    • E04G17/14Bracing or strutting arrangements for formwalls; Devices for aligning forms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Architecture (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种用于分离音频信号的装置,该装置可以解决在通过独立分量分析分离多个混合信号时的置换问题。提供了一种音频信号分离装置,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离为独立的信号以产生隔离信号,该装置包括:第一转换部分,用于将时域内的观测信号转换为时-频域内的观测信号;分离部分,用于从时-频域内的观测信号中产生时-频域内的隔离信号;以及第二转换部分,用于将时-频域内的隔离信号转换为时域内的隔离信号,该分离部分适于从时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号。

Description

用于分离音频信号的装置和方法
技术领域
本发明涉及一种通过独立分量分析(ICA)来分离音频信号的分量信号的装置和方法,该音频信号是多个分量信号的混合体。
背景技术
仅使用统计独立性来分离和恢复通过未知系数线性混合的多个原始信号的独立分量分析(ICA)技术已经在信号处理领域中引起关注。那么,在扬声器与麦克风互相分离并且该麦克风采集除该扬声器的语音之外的声音的情况下,就有可能通过应用独立分量分析技术来分离和恢复音频信号。
现在,下面将讨论音频信号的分量信号是如何在时-频域内通过独立分量分析被分离和恢复的,其中所述音频信号是多个分量信号的混合体。
假设一种情况,如附图中的图1所示,N个不同的声音从N个音频源被发出并且被n个麦克风观测到。由于从音频源发出的声音(原始声音)在它们到达麦克风之前要经历时延和反射,所以,在第k个麦克风(1≤k≤n)处所观测到的信号(观测信号)Xk(t)通过下面所示的公式(1)被表示为原始信号的卷积操作和传递函数(transfer function)的总和。然后,所有麦克风的观测信号通过下面所示的单独公式(2)来表示。应注意到,在公式(1)和(2)中,x(t)和s(t)分别表示具有相应元素xk(t)和sk(t)的列向量,而A表示n行和N列的具有aij(t)个元素的矩阵。还应当注意的是,在下面描述中假设N=n。
[公式1]
x k ( t ) = Σ j = 1 N Σ τ = 0 ∞ a kj ( τ ) s j ( t - τ ) = Σ j = 1 N { a kj * s j ( t ) } · · · ( 1 )
x(t)=A*s(t)    ……(2)
其中
s ( t ) = s 1 ( t ) · · · s N ( t )
x ( t ) = x 1 ( t ) · · · x n ( t )
在时间(temporal)上的独立分量分析中,A和s(t)并没有被直接估计,而x(t)被转换为在时-频域中的信号,以及对应于A和s(t)的信号在时-频域中被估计。要用于该分析的技术将在下面被描述。
信号向量x(t)和s(t)被在长度为L的窗口里经过短时间傅里叶变换以产生X(ω,t)和S(ω,t)。类似地,矩阵A(t)经过短时间傅里叶变换以产生A(ω)。然后,上面用于时域的公式(2)可通过下面的公式(3)来表示。应注意到ω代表频率槽(bin)的数目(1≤ω≤M),而t代表帧的数目(1≤t≤T)。利用时-频域中的独立分量分析,S(ω,t)和A(ω)在时-频域中被估计:
[公式2]
X(ω,t)=A(ω)S(ω,t)    ……(3)
其中,
X ( ω , t ) = X 1 ( ω , t ) · · · X n ( ω , t )
S ( ω , t ) = S 1 ( ω , t ) · · · S n ( ω , t )
在某种合理的意义上来说频率槽的数目与窗口的长度L相同,以及每一个频率槽代表在-R/2和R/2(其中R是取样频率)之间的范围被平等分成L个部分时产生的频率分量。由于负的频率分量分别是正的频率分量的复共轭(complex conjugate),所以它们可以被表示为X(-ω)=conj(X(ω))(其中conj(·)是复共轭,只有从0到R/2(频率槽的数目等于L/2+1)的非负频率分量才被考虑,以及将从1到M(M=L/2+1)的数字分配给这些频率分量)。
当在时-频域中估计S(ω,t)和A(ω)时,在下面所示的公式(4)首先被考虑。在公式(4)中,Y(ω,t)代表通过在长度为L的窗口中对Yk(t)的短时间傅里叶变换所得到的具有元素Yk(ω,t)的列向量,而W(ω)代表具有元素Wij(ω)的具有n行和n列的矩阵(分离矩阵)
[公式3]
Y(ω,t)=W(ω,t)X(ω,t)       ……(4)
其中,
Y ( ω , t ) = Y 1 ( ω , t ) · · · Y n ( ω , t )
Figure A20061007119800062
然后,当保持ω为固定值时,使得Y1(ω,t)到Yn(ω,t)在统计上独立(这样最大化了它们的独立性以达到更准确)的W(ω)通过改变t而被确定。就像在下文中将要详细描述的那样,由于在时-频域中的独立分量分析中出现的置换和不稳定的缩放比例(scaling),可以存在除了W(ω)=A(ω)-1以外的解决方案。当在统计上独立的Y1(ω,t)到Yn(ω,t)被获得来用于ω的所有值时,有可能通过将它们经过反向傅里叶变换(inverse Fourier transformation)而得到隔离信号(分量信号)y(t)。
附图中的图2概要地图示了现有技术中在时-频域中的独立分量分析。假设从n个音频源发出的并互相独立的原始信号是s1到sn,并且具有它们作为元素的向量为s。在各个麦克风处观测到的观测信号x通过在上面的公式(2)中执行卷积/混合操作而获得。附图中的图3A显示了当麦克风的数目n等于2并且因此信道的数目也等于2时所获得的示例性的观测信号。然后,观测信号x被经过短时间傅里叶变换以获得时-频域的信号X。如果X的元素被表示为Xk(ω,t),那么Xk(ω,t)具有复数值。使用颜色的阴影对Xk(ω,t)的绝对值|Xk(ω,t)|进行的图解表示被称为光谱图。附图中的图3B显示了作为例子的光谱图。在图3B中,水平轴代表t(帧数目),而垂直轴代表ω(频率槽数目)。在下面的描述中,在时-频域中的信号本身(在被绝对值表示之前的信号)也被称为“光谱图”。接下来,如图3C中所示的隔离信号Y通过将信号X的每个频率槽乘以W(ω)而获得。如图3D中所示的时域中的隔离信号y通过将隔离信号Y经过反向傅里叶变换而获得。
用于表示独立性的范围和用于最大化独立性的算法存在很多变形。举例而言,在下面的描述中,独立性通过Kullback-Leibler信息量(在下文中被称作为“KL信息量”)来表示并且自然梯度方法被用于最大化独立性的算法。
如图4中所示的频率槽。如果使Yk(ω,t)的帧数目t在1和T之间变化并被表示为Yk(ω),那么用于表示隔离信号Y1(ω)到Yn(ω)的范围的KL信息量I就被下面的公式(5)所定义。换句话说,该KL信息量I被定义为从用于单独信道的频率槽(=ω)的熵(entropy)H(Yk(ω))的总和中减去用于全部信道的单独频率槽(=ω)的联立熵(simultaneous entropy)H(Y(ω))所得到的值。图5图示了当n=2时在H(Yk(ω))与H(Y(ω))之间的关系。在公式(5)中,由于对熵的定义,当H(Y(ω))可以被扩展以从上面的公式(4)作为第二和第三条件读取到公式(6)中时,H(Yk(ω))可以被重写以被下面的公式(6)作为第一条件读取。在公式(6)中,PYk(ω)(·)表示Yk(ω,t)的概率密度函数,而H(X(ω))表示观测信号X(ω)的联立熵。
[公式4]
I ( Y ( ω ) ) = Σ k = 1 n H ( Y k ( ω ) ) - H ( Y ( ω ) ) · · · ( 5 )
= Σ k = 1 n E t [ - log P Y k ( ω ) ( Y k ( ω , t ) ) ] - log | det ( W ( ω ) ) | - H ( X ( ω ) ) · · · ( 6 )
其中,
Yk(ω)=[Yk(ω,1)…Yk(ω,T)]
Y ( ω ) = Y 1 ( ω ) · · · Y n ( ω )
X(ω)=[X(ω,1)…X(ω,T)]
当Y1(ω)到Yn(ω)为独立的时候,KL信息量I(Y(ω))变得最小(理想地等于0)。自然梯度方法被用于用来确定使KL信息量I(Y(ω))最小化的分离矩阵W(ω)的算法。通过该自然梯度方法,用于最小化I(Y(ω))的方向通过下面的公式(7)被确定,并且W(ω)通过下面的公式(9)所示的那样在那个方向上逐渐被改变以用于收敛。在公式(7)中,W(ω)T显示了W(w)的转置矩阵。在公式(9)中,η代表学习系数(非常小的正值)。
[公式5]
ΔW ( ω ) = - ∂ I ( Y ( ω ) ) ∂ W ( ω ) W ( ω ) T W ( ω ) · · · ( 7 )
= - { E t [ - φ ( Y ( ω , t ) ) X ( ω , t ) T ] - ( W ( ω ) T ) - 1 } W ( ω ) T W ( ω )
= { I n + E t [ φ ( Y ( ω , t ) ) Y ( ω , t ) T ] } W ( ω ) · · · ( 8 )
W(ω))←W(ω)+η·ΔW(ω)       ……(9)
其中,
Y ( ω , t ) = Y 1 ( ω , t ) · · · Y n ( ω , t )
φ ( Y ( ω , t ) ) = φ 1 ( Y 1 ( ω , t ) ) · · · φ n ( Y n ( ω , t ) )
φ k ( Y k ( ω , t ) ) = ∂ ∂ Y k ( ω , t ) log P Y k ( ω ) ( Y k ( ω , t ) ) = ∂ ∂ Y k ( ω , t ) P Y k ( ω ) ( Y k ( ω , t ) ) P Y k ( ω ) ( Y k ( ω , t ) )
上面的公式(7)可以被修改以读取为上面的公式(8)。在公式(8)中,Et[·]代表在时间方向(temporal direction)中的平均值,而φ(·)代表被称作记分(score)函数(或“激活函数”)的概率密度函数的对数的微分。虽然记分函数包括Yk(ω)的概率密度函数,但已经知道没有必要将真实的概率密度函数使用于确定KL信息量的最小值的目的,并且如表1中所显示的两种不同类型的概率密度函数可以依靠Yk(ω)的分布是超高斯或子高斯而以交换的方式被使用。
表1
  Yk(ω)的分布   记分函数   概率密度函数
  超高斯   -thna[Yk(ω,t)]   h/cosh[Yk(ω,t)]
  子高斯   -Yk(ω,t)3   h exp[-Yk(ω,t)4/4]
或者,如表2中所示的两种不同类型的概率密度函数可以以交换的方式被使用作为延伸的infomax方法。
表2
  Yk(ω)的分布   记分函数   概率密度函数
  超高斯   -[Yk(ω,t)+tank[Yk(ω,t)]]   h exp[-Yk(ω,t)2/2]/cosh[Yk(ω,t)]
  子高斯 -[Yk(ω,t)-tank[Yk(ω,t)]]  h exp[-Yk(ω,t)2/2]cosh[Yk(ω,t)]
在表1和2中,h代表常数,其使得在-∞到+∞之间的概率密度函数的积分值等于1。Yk(ω)的分布是否是超高斯或子高斯是根据第四度(the forthdegree)κ4(=Et[Yk(ω,t)4]-3Et[Yk(ω,t)2]2)的累积量的数值是正或是负来确定的。当κ4是正时,是超高斯,而当κ4是负时,是子高斯。
图6是使用上面的公式(8)和(9)的分离过程的流程图。参考图6,首先在步骤S 101中,分离矩阵W(ω)被准备用于每个频率槽并被初始值(例如,单位矩阵)所代替。然后,在下一个步骤,或步骤S102中,确定W(ω)是否对于所有的频率槽收敛,如果其收敛,那么进程就被终止,而如果其没有收敛,那么就继续进行步骤S103。在步骤S103中,Y(ω,t)通过上面的公式(4)被定义,以及在步骤S104中,用于最小化KL信息量I(Y(ω))的方向通过上面的公式(8)而确定。然后,在下一步骤,或步骤S105中,W(ω)根据上面的公式(9)在用于最小化KL信息量I(Y(ω))的方向上被更新并返回到步骤S102。步骤S102到S105中的处理操作被重复进行,直到Y(ω)的独立性级别被充分提升以用于每个频率槽并且W(ω)充分收敛为止。
发明内容
同时,对于在时-频域中的独立分量分析,信号分离过程被处理以用于每个频率槽,而频率槽之间的关系并不被考虑。因此,如果信号分离过程成功地完成,那么可能出现缩放比例不统一以及频率槽之间的隔离信号的目的地也不统一的问题。缩放比例不统一的问题可以通过为每个音频源估计一个观测的方法来解决。另一方面,隔离信号的目的地不统一的问题涉及一个现象,例如,从S1来的信号呈现为Y1对应ω=1,而从S2来的信号呈现为Y2对应ω=2。这也称为置换问题。
图7图示了一个置换发生的例子。其作为通过延伸的informax方法在时-频域中对在WEB网页(http://www.ism.ac.jp/shiro/research/blindsep.html)中找到的“X rms2.wav”文件的初始32,000个取样中的两个信号尝试进行分离的结果而发生。原始信号之一是在说“一、二、三”的语音,而另一个是音乐。当上行的光谱图被经过反向傅里叶变换以便获得时域中的信号时,在下行中所示的两个信号的混合体的波形均出现在两个信道中。当对每个频率槽进行信号分离处理时,依照观测信号的类型和分离矩阵W(ω)的初始值,类似于图7中的结果不可避免的出现。
适于作为后处理(post-processing)使用的交换方法是众所周知的用于解决置换问题的方法。利用该后处理方法,图7中所示的光谱图通过分离被获得以用于每个频率槽,而没有置换的光谱图通过根据一个特定的或其它的标准将信道之间的隔离信号进行交换而获得。可用于该交换方法的标准包括:(a)类似于包络的使用(参见非专利文献1:Noboru Murata,“IndependentComponent Analysis for Beginners(用于初学者的独立分量分析)”,东京Denki大学出版);(b)估计的音频源的方向的使用(参见专利文献1的“相关技术描述”:Jpn.Pat.Appln.Laid-Open公开号2004-145172);以及(c)为(a)和(b)的组合(参见专利文献1)。
然而,当包络之间的差别依照频率槽并不清楚时,(a)就会引起交换错误。一旦交换错误发生,在所有随后的频率槽中隔离信号的目的地都可能是错误的。另一方面,(b)伴随有估计方向的准确性问题并需要关于麦克风的位置信息。最后,虽然作为(a)和(b)的组合的(c)而显示出改善的准确性,但它也需要关于麦克风的位置信息。另外,所有上面引用的方法都包括两个步骤,即一个步骤为分离,一个步骤为交换,因此需要较长的处理时间。从处理时间的角度看,虽然所期望的是当信号分离完成时置换问题被解决,但是包括后处理操作的方法不允许这么早解决问题。
非专利文献2(Mike Davies,“Audio Source Separation(音频源分离)”,牛津大学出版,2002( http://www.elec.qmul.ac.uk/staffinfo/miked/publications/IMA.ps)和非专利文献3(Nikolaos Mitianoudis和Mike Davies,“A fixed point solution for convolvedaudio source separation(用于对音频源分离进行卷积的固定点解决方案)”,IEEE WASPAA01,2001( http://egnatia.ee.auth.gr/mitia/pdf/waspaa01.pdf)提出了一种频率耦合方法用于将频率槽之间的关系反射到分离矩阵W的更新表达式中。利用该方法,如下面公式(10)所表示的概率密度函数和如下面公式(11)所表示的分离矩阵W的更新表达式被使用(应注意到于该说明书中相同的符号被使用于公式的变量)。在公式(10)和(11)中,βk(t)代表Yk(ω,t)的分量的绝对值的平均值,而β(t)代表具有β1(t),…,βn(t)作为对角线元素的对角矩阵。由于βk(t)的引入,可能将频率槽之间的关系反射到ΔW(ω)。
[公式6]
P(Yk(ω,t))∝βk(t)-1 exp{-h(Yk(ω,t)/βk(t))}     ……(10)
ΔW(ω)={In-β(t)-1φ(Y(ω,t))Y(ω,t)H}W(ω)      ……(11)
其中,
β(t)=diag(β1(t),…,βn(t))
β k ( t ) = 1 M Σ ω = 1 M | Y k ( ω , t ) |
φ ( Y ( ω , t ) ) = φ 1 ( Y 1 ( ω , t ) ) · · · φ n ( Y n ( ω , t ) )
φ k ( Y k ( ω , t ) ) = Y k ( ω , t ) | Y k ( ω , t ) |
然而,通过重复应用上面的公式(11)而使之收敛的分离矩阵W并不能必然地解决置换的问题。换句话说,并不能保证没有置换发生时的KL信息量小于有置换发生时的KL信息量。图8示出了通过信号分离操作对上面引用的“X_rms2.wav”文件的初始32,000个取样进行处理而获得的结果。就象图7,在每个频率槽中的分离是成功的,但是置换仍然存在,尽管如果与图7进行比较,图8中的置换问题已经没有那么显著。
本发明就是已经考虑到上述确认的现有技术中的问题而产生的,并且其期望提供一种用于分离音频信号的装置和方法,其能在分离多个混合信号时通过独立分量分析来解决置换问题,而不需要在信号分离之后执行后处理操作。
根据本发明,提供了一种音频信号分离装置,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离为独立的信号以产生隔离信号,该装置包括:第一转换装置,用于将时域内的观测信号转换成时-频域内的观测信号;分离装置,用于从所述时-频域内的观测信号中产生时-频域内的隔离信号;第二转换装置,用于将所述时-频域内的隔离信号转换成时域内的隔离信号;所述分离装置适用于从所述时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号,通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值,通过使用所述修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止以及通过使用该充分收敛的分离矩阵来产生时-频域内的隔离信号。
根据本发明,提供了一种音频信号分离方法,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离为独立的信号以产生隔离信号,所述方法包括如下步骤:将时域内的观测信号转换为时-频域内的观测信号;从所述时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号;通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值;通过使用所述修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止;以及将通过使用所述充分收敛的分离矩阵产生的所述时-频域内的隔离信号转换成时域内的隔离信号。
因此,利用根据本发明的用于分离音频信号的装置和方法,当通过独立分量分析将包括音频信号的多个信号的混合体的时域内的观测信号分离成独立的信号以产生隔离信号时,可能通过从被初始值代替的分离矩阵中产生时-频域内的隔离信号、通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值、通过使用所述修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止、以及将通过使用所述充分收敛的分离矩阵产生的所述时-频域内的隔离信号转换成时域内的隔离信号,来解决置换问题,而不需要在音频信号分离之后执行任何后处理操作。
附图说明
图1是从N个音频源输出的原始信号被n个麦克风观测到的情况的示意图;
图2是现有技术中的在时-频域内的独立分量分析的示意图;
图3A到3D是观测信号及其光谱图、隔离信号及其光谱图的示意图;
图4是通过关注频率槽而获得的观测信号和隔离信号的示意图;
图5是现有技术中的熵和联立熵的示意图;
图6是现有技术中的分离过程的流程图;
图7是使用一维概率密度函数的信号分离的结果的示意图;
图8是使用频率耦合和一维概率密度函数的信号分离的结果的示意图;
图9是用于通过使用多维概率密度函数解决置换问题的理论的逻辑基础的示意图;
图10A和10B是与现有技术相比,根据本发明的置换的出现与未出现之间的KL信息量的差别的示意图;
图11是本发明的一个实施例的熵和联立熵的示意图;
图12是将分离矩阵W(ω)的修改的值ΔW(ω)的行向量ΔWk(ω)分解为垂直于行向量Wk(ω)的分量ΔWk(ω)[C]和平行于该分离矩阵的行向量Wk(ω)的分量ΔWk(ω)[P]的示意图;
图13是依据本发明的音频信号分离装置的一个实施例的示意性方块图;
图14是音频信号分离装置的实施例的处理操作的流程图,概要图示了该操作;
图15是音频信号分离装置的实施例的处理操作的流程图,详细图示了当执行批处理时的操作;
图16是音频信号分离装置的实施例的处理操作的流程图,详细图示了当执行在线处理时的操作;
图17是音频信号分离装置的实施例的处理操作的流程图,详细图示了当执行重定比例处理的操作;
图18是信号分离处理的结果的示意图,其使用基于球状分布的多维概率密度函数;
图19A和19B是信号分离处理的结果的示意图,其使用基于LN范数的记分函数;
图20是信号分离处理的结果的示意图,其使用基于联项(Copula)模型的多维概率密度函数;
图21A至21E是当用于所获得的分离信号的置换是人工产生的时候所观测到的光谱图的变化的示意图;以及
图22是图示当用于所获得的分离信号的置换是人工产生的时侯所观测到的KL信息量的变化的曲线图。
具体实施方式
现在,将通过参考图示了本发明的优选实施例的附图对本发明做更加详细的描述。图示的实施例是一种用于通过独立分量分析来分离音频信号的分量信号的音频信号分离装置,其中该音频信号是多个分量信号的混合体。特别地,该音频信号分离装置的实施例可以通过多维概率密度函数计算性地确定光谱图的熵而不是像现有技术那样通过一维概率密度函数计算性地确定每个频率槽的熵,来解决置换问题从而不需要后处理。下面,通过使用多维概率密度函数来解决置换问题的理论的逻辑基础和用于该实施例的特定公式将首先被描述,然后该实施例的音频信号分离装置的特定配置将被描述。
首先,通过使用多维概率密度函数来解决置换问题的理论的逻辑基础将参考图9被描述。为了简单起见,在图9中,信道的数目被设定为等于2(n=2),而频率槽的总数被设定为等于3(M=3)。然而,应当理解是以下描述对于任何n和M的数目都是适用的。
参考图9,其中频率槽被成功分离而且没有置换发生的情况被称为情况1,相反,其中频率槽被成功地分离而置换发生于ω=2时的情况被称为情况2。
当从每个频率槽计算性地确定的KL信息量I(Y(ω))被根据现有技术最小化时,I(Y(2))对于情况1和情况2两者都显示相同的值,尽管置换发生在情况2中ω=2时。图10A示例性地图示了现有技术中KL信息量I(Y(ω))和分离矩阵W(ω)(尽管不可能通过单独的轴来表示W(ω))之间的关系。由于最小化的KL信息量均被使用于情况1和情况2这两者,所以不可能区分这两种情况。这里列出了当使用现有技术时置换的发生的本质原因。
相反地,利用本实施例的音频信号分离装置,每个信道的熵被通过多维概率密度函数而计算,然后用于所有信道的单个KL信息量被计算性地确定(用于计算的公式将在下文中被更加详细地描述)。由于在该实施例中用于所有信道的单个KL信息量被计算性地确定,所以在情况1和情况2之间的KL信息量是不同的。有可能通过使用合适的多维概率密度函数使情况1的KL信息量小于情况2的KL信息量。图10B示意性地图示了本实施例的KL信息量I(Y)和分离矩阵W(ω)之间的关系,从而可能区分这两种情况。因此,与现有技术不同,利用本实施例有可能分离信号,并且与此同时,简单地通过最小化KL信息量来阻止置换的发生,而不需要像后处理那样的交换操作。
利用本实施例,当存在信号对于所有频率槽被利用Y1=S2和Y2=S1分离的情况时(下文中被称作情况3),就不可能区分情况1和情况3,这是因为用于这两种情况的KL信息量是相同的。然而,如果分离的结果是情况3,那么就不会产生问题,这是因为置换发生在情况3中。
当在时-频域的独立分量分析中引入多维概率密度函数时,有必要回答三个问题,其包括:(a)什么公式被使用于更新该分离矩阵;(b)如何处理复数;以及(c)什么样的多维概率密度函数将被使用。这三个问题将在下面被依次讨论,然后(d)修改的回答将被描述。
(a)用于更新分离矩阵W的公式
由于在上面描述的公式(5)到(9)中一维概率密度函数被使用,所以它们不可能没有修改就被应用到多维概率密度函数。在这个实施例中,用于使用多维概率密度函数来更新分离矩阵W的公式被列出,其过程如下所述。
用于定义观测信号X和隔离信号Y之间的关系的公式(4)被用于产生用于所有ω(1≤ω≤M)值的关系的表达式,然后这些表达式被代入到单独的公式(12)或(15)中(但是公式(12)在下文中被选择和使用)。下面的公式(13)是使用用于公式(12)的向量和矩阵的单个变量的表达式。下面的公式(14)是得自相同信道的使用用于公式(12)的向量和矩阵的单个变量的表达式。在公式(14)中,Yk(t)表示通过从光谱图中切掉一帧而形成的列向量,而Wij表示具有元素Wij(1),…,Wij(M)的对角矩阵。
[公式7]
Figure A20061007119800171
Y(t)=WX(t)     ……(13)
Figure A20061007119800172
其中
Y k ( t ) = Y k ( 1 , t ) · · · Y k ( M , t )
Wij=diag(wij(1),…,wij(M))
X k ( t ) = X k ( 1 , t ) · · · X k ( M , t )
[公式8]
Figure A20061007119800175
在这个实施例中,KL信息量I(Y)通过下面的公式(16)来定义,其使用公式(12)到(14)中的Yk(t)和Y(t)。在公式(16)中,H(Yk)表示每个信道的光谱图的熵,而H(Y)表示所有信道的光谱图的联立熵。图11图示了n=2时H(Yk)和H(Y)之间的关系。在公式(16)中,H(Yk)被重写以由于熵的定义而被下面的公式(17)作为第一条件读取。由于上面的公式(13),H(Y)可以被展开(develop)以便被下面的公式(17)作为第二和第三条件读取。在公式(17)中,PYk(·)表示Yk(1,t),…,Yk(M,t)的M维概率密度函数,而H(x)表示观测信号X的联立熵。
[公式9]
I ( Y ) = Σ k = 1 n H ( Y k ) - H ( Y ) · · · ( 16 )
= Σ k = 1 n E t [ - log P Y k ( Y k ( t ) ) ] - log | det ( W ) | - H ( X ) · · · ( 17 )
其中,
Yk=[Yk(1)…Yk(T)]
Y = Y 1 · · · Y n
X=[X(1)…X(T)]
为了分离观测信号X,只需要确定用于最小化KL信息量I(Y)的分离矩阵W。这样的分离矩阵W可以根据下面所示的公式(18)和(19)逐渐地更新W来确定。
[公式10]
ΔW = - ∂ I ( Y ) ∂ W W T W · · · ( 18 )
W←W+η·ΔW    ……(19)
应注意到只需要更新上面公式(12)中的非零元素来更新W。分别从ΔW和W中只提出频率槽=ω的分量而形成的矩阵ΔW(ω)和W(ω)通过下面的公式(20)和(21)被定义,并且ΔW(ω)被根据下面的公式(22)计算性地确定。ΔW的所有非零元素被通过对ω的所有值计算公式(22)而确定。在公式(22)中,φω(·)表示对应于多维概率密度函数的记分函数,而下面的公式(24)可以通过下面的公式(23)来获得。换句话说,其可以通过第ω个幅角来计算多维概率密度函数的对数的偏微分来获得。
[公式11]
Figure A20061007119800191
Figure A20061007119800192
ΔW(ω)={In+Elω(Y(t))Y(ω,t)T]}W(ω)    ……(22)
其中,
φ ω ( Y ( t ) ) = φ 1 ω ( Y 1 ( t ) ) · · · φ nω ( Y n ( t ) ) · · · ( 23 )
φ kω ( Y k ( t ) ) = ∂ ∂ Y k ( ω , t ) log P Y k ( Y k ( t ) ) = ∂ ∂ Y k ( ω , t ) P Y k ( Y k ( t ) ) P Y k ( Y k ( t ) ) · · · ( 24 )
上面所示的公式(8)和公式(22)之间的区别在于记分函数的幅角。由于上面公式(8)的φ(·)的幅角只包括频率槽=ω的元素,所以不可能反映与其它频率槽的相关性。另一方面,上面公式(22)的φω(·)的幅角包括所有频率槽的元素,其有可能反映与其它频率槽的相关性。
就像在下文中将要更加详细描述的那样,Y是复数的信号,因此与复数相匹配的公式将实际上被使用,来代替上面的公式(22)。
由于分离矩阵W被重复更新,所以元素的值可能溢出,这依赖于要使用的多维概率密度函数的类型。
因此,公式(22)中ΔW的等式可以像下面所示的那样被改变以便防止分离矩阵W的元素的值溢出。
通过在上面的公式(20)和(21)中取出矩阵ΔW(ω)和W(ω)的第k行而形成的行向量ΔWk(ω)和Wk(ω)分别通过下面所示的公式(25)和(26)被定义。
[公式12]
ΔWk(ω)=[Δwk1(ω)…Δwkn(ω)]  ……(25)
Wk(ω)=[wk1(ω)…wkn(ω)]……(26)
Wk(ω)表示用于从观测信号X的第ω个频率槽中产生信道k的隔离信号Y和频率槽=ω的向量,但是信号是否被隔离是由Wk(ω)的元素的比率(观测信号的比率)来确定的,而且与Wk(ω)的大小无关。例如,以-1∶2的比率混合观测信号和以-2∶4的比率混合观测信号从信号隔离的角度来看是一样的。当ΔWk(ω)被分解为垂直于Wk(ω)的分量ΔWk(ω)[C]和平行于Wk(ω)的分量ΔWk(ω)[P]时,如图12中所示,ΔWk(ω)[C]对信号的隔离作出贡献,但是ΔWk(ω)[P]只会使Wk(ω)变大并且不会对信号的隔离作出贡献。像前面指出的,溢出问题在Wk(ω)变得太大时可能会发生。
因此,可能防止溢出的发生,并且可能仅通过只使用ΔWk(ω)[C]对Wk(ω)进行更新来隔离信号,而不使用ΔWk(ω)来更新Wk(ω)。
更明确地说,ΔWk(ω)[C]通过下面的公式(27)被计算性地确定,而W(ω)通过使用通过下面的公式(28)中所示的ΔWk(ω)[C]所形成的矩阵ΔW(ω)[C]来更新。
[公式13]
Δ W k ( ω ) [ C ] = Δ W k ( ω ) - Δ W k ( ω ) [ P ] = Δ W k ( ω ) - Δ W k ( ω ) W k ( ω ) H W k ( ω ) W k ( ω ) H W k ( ω ) · · · ( 27 )
W(ω)←W(ω)+η·ΔW(ω)[C]  ……(28)
其中,
Figure A20061007119800202
当然,W可以通过使用垂直于下面的公式(29)中所示的W的分量ΔW[C]来更新。而且,W也可以不完全忽视平行于W的分量ΔW[P]而更新,并可以通过将ΔW[C]和ΔW[P]分别乘以互不相同的系数η1和η21>η2>0)来更新。
[公式14]
W←W+η·ΔW[C]      ……(29)
W(ω)←W(ω)+η1·ΔW(ω)[C]2·ΔW(ω)[P]  ……(30)
(b)如何处理复数
为了在时-频域中利用独立分量分析来处理复数的信号,需要使W的更新公式能够处理复数。对于已知的使用一维概率密度函数的方法,下面所示的用来能够使用上面描述的公式(8)来处理复数的公式(31)已经被提出(参见Jpn.Pat.Appln.Laid-Open公开号2003-84793)。在公式(31)中,上标“H”表示共轭的共轭转置(利用共轭复数对向量的转置和对元素的替换)。
[公式15]
ΔW ( ω ) = { I n + E t [ φ ^ ( Y ( ω , t ) ) Y ( ω , t ) H ] } W ( ω ) · · · ( 31 )
其中,
φ ^ ( Y ( ω , t ) ) = φ 1 ^ ( Y 1 ( ω , t ) ) · · · φ n ^ ( Y n ( ω , t ) )
φ k ^ ( Y k ( ω , t ) ) = φ k ( | Y k ( ω , t ) | ) = Y k ( ω , t ) | Y k ( ω , t ) |
然而,上面的公式(31)不能被应用于使用多维概率密度函数的方法。因此,在这个实施例中,下面所示的公式(32)被设计出来以及分离矩阵W基于公式(32)被更新。应当注意到当φkω(·)被表示为下面所示的公式(33)中选取M幅角的函数时,其与上面描述的公式(24)的φkω(Yk(t))(选取M维向量作为幅角的函数)等价。像公式(33)中所示的那样通过替换幅角的绝对值并将函数的返回值乘以第ω个幅角的相位分量Yk(ω,t)/|Yk(ω,t)|来使记分函数能够处理复数是可能的。
[公式16]
ΔW ( ω ) = { I n + E t [ φ ω ^ ( Y ( t ) ) Y ( ω , t ) H ] } W ( ω ) · · · ( 32 )
其中,
φ ω ^ ( Y ( t ) ) = φ 1 ω ^ ( Y 1 ( t ) ) · · · φ nω ^ ( Y n ( t ) )
Figure A20061007119800223
在公式(32)中,也许没有必要说明在上面描述的公式(27)的情况下垂直于W(ω)的分量ΔW(ω)[C]可被用于计算。
像下文中将要讨论的那样,特定的多维概率密度函数和记分函数可以从一开始就处理复数的输入(幅角)。上面的公式(33)的变换对这种函数是不必要的。那么,头上带有(^)的φ被认为与φ相同。
(c)什么样的多维概率密度函数将被使用
被下面的公式(34)所表示的多维(多元)正态分布是众所周知的多维概率密度函数。在公式(34)中,x表示x1,…,Xd的列向量,而μ表示x的平均值向量,以及Σ代表x的方差/协方差矩阵。
[公式17]
P ( x ) = 1 ( 2 π ) d | Σ | exp ( - 1 2 ( x - μ ) T Σ - 1 ( x - μ ) ) · · · ( 34 )
其中,
x = x 1 · · · x d
μ = E [ x 1 ] · · · E [ x d ]
然而,已经知道当正态分布被用作为用于独立分量分析的概率密度函数时,信号不能被分离。因此,有必要使用多维概率密度函数而不是正态分布。在这个实施例中,多维概率密度函数基于(i)球形分布、(ii)LN范数、(iii)椭圆形分布、以及(iv)联项模型(copula model)被设计。
(i)球形分布
球形分布涉及的概率密度函数是通过将任意选择的非负函数f(x)(其中x是标量)替换为向量的L2范数而使其成为多维的。L2范数涉及元素的绝对值的平方的总和的平方根。在这个实施例中,一维概率密度函数(例如指数分布,1/cosh(x)等)被主要用作为f(x)。因此,基于球形分布的概率密度函数通过下面的公式(35)被表示。在下面的公式(35)中,h表示用于调整对-∞和+∞之间的所有幅角的有限积分的结果的常数。然而,当确定记分函数时其被约分而消掉了,因此没有必要确定它的特定值。应注意到f(x)的导出函数被表示为下面的f’(x)。
[公式18]
P(x)=hf(‖x‖)      ……(35)
与上面的表达式(35)的概率密度函数相对应的记分函数可以通过下面描述的过程而确定。下面所示的公式(36)的函数g(x)(其中x代表向量)是通过用向量x对概率密度函数的对数进行偏微分而获得的。那么,将g(x)中的x替换为Yk(t)而获得的g(Yk(t))就包括了所有频率槽的记分函数。换句话说,存在g(Yk(t))=[k1(Yk(t)),…,kM(Yk(t))]T的关系。因此,记分函数φ(Yk(t))是通过从下面的公式(37)所表示的g(Yk(t))中提取出第ω行的元素而获得的。应注意的是没有必要变换上面的公式(33),这是因为其可以从一开始就处理复数的输入,这是由于元素的绝对值被使用在球形分布中。
[公式19]
g ( x ) = f ′ ( | | x | | ) f ( | | x | | ) x | | x | | · · · ( 36 )
φ(Yk(t))=(ω-th row of g(Yk(t))    ……(37)
作为一个例子,f(x)的(x)将被特定公式所替换。
假设f(x)被像下面所示的公式(38)那样的一维指数分布所表示。在公式(38)中,K表示对应于标量变量x的分布范围的常数,但是其可以等于1,或K=1。可选地,K的值可以根据Yk(t)的L2范数‖Yk(t)‖2的分布范围而改变。如下面的公式(39)所表示的概率密度函数是通过使用球形分布将公式(38)多维化而得到的。那么,相应的g(Yk(t))被表示为下面的公式(40)。
[公式20]
f(x)=exp(-|Kx|)    ……(38)
P Y k ( Y k ( t ) ) = hexp ( - K | | Y k ( t ) | | 2 ) · · · ( 39 )
g ( Y k ( t ) ) = - K Y k ( t ) | | Y k ( t ) | | 2 · · · ( 40 )
假设f(x)被下面的公式(41)所表示。在公式(41)中,d是正值。像下面的公式(42)所表示的概率密度函数是通过使用球形分布将公式(41)多维化而得到的。那么,相应的g(Yk(t))被表示为下面的公式(43)。
[公式21]
f ( x ) = 1 cos h d ( Kx ) · · · ( 41 )
P Y k ( Y k ( t ) ) = h cos h d ( K | | Y k ( t ) | | 2 ) · · · ( 42 )
g ( Y k ( t ) ) = - dK tanh ( K | | Y k ( t ) | | 2 ) Y k ( t ) | | Y k ( t ) | | 2 · · · ( 43 )
(ii)LN范数
多维概率密度函数可以通过将任选的非负函数f(x)(其中x是标量)替换为LN范数而建立在LN范数的基础之上。LN范数涉及元素的绝对值的N次幂的总和的N次幂根。例如下面的公式(44)的多维概率密度函数是通过将非负函数f(x)替换为Yk(t)的LN范数‖Yk(t)‖N并使其多维化而获得的。在下面的公式(44)中,h表示用于调整-∞和+∞之间间隔内的所有幅角的有限积分的结果的常数。然而,当确定记分函数时其被约分而消掉了,因此没有必要确定它的特定值。以上描述的对应于N=2的情况的球形分布被选择用于建立基于LN范数的多维概率密度函数。
[公式22]
PYK(Yk(t))=hf(‖Yk(t)‖N)     ……(44)
下面所示的公式(45)可以从上面的公式(44)中作为可以处理复数的记分函数而获得。
[公式23]
φ kω ^ ( Y k ( t ) ) = f ′ ( | | Y k ( t ) | | N ) f ( | | Y k ( t ) | | N ) | | Y k ( t ) | | N 1 - N | Y k ( ω , t ) | N - 2 Y k ( ω , t ) · · · ( 45 )
如果f(x)被表示为下面的呈现一维指数分布的公式(46),那么像被下面公式(47)所表示的记分函数被从上面公式(45)中获得。另一方面,如果f(x)被下面的公式(48)所表示,那么像下面的公式(49)所表示的记分函数被从上面的公式(45)中获得。在公式(46)和(48)中,K代表正实数,而d、m分别表示自然数。
[公式24]
f(x)=exp(-Kxm)(K>0)    ……(46)
φ kω ^ ( Y k ( t ) ) = - Km | | Y k ( t ) | | N m - N | Y k ( ω , t ) | N - 2 Y k ( ω , t ) · · · ( 47 )
f ( x ) = 1 cosh d ( Kx m ) - - ( K , d , m > 0 ) · · · ( 48 )
φ kω ^ ( Y k ( t ) ) = - dKm tanh ( K | | Y k ( t ) | | N m ) | | Y k ( t ) | | N m - N | Y k ( ω , t ) | N - 2 Y k ( ω , t ) · · · ( 49 )
如果在上面的公式(47)和(49)中N=2并且m=1,那么与上面描述的球形分布一样的记分函数被获得,并且将在下文中讨论观测信号可以在没有引起置换的情况下被分离。然而,应当注意,当上面的公式(47)和(49)中N=1并且m=1时,置换会作为分离的结果发生。这是因为当N=m并且频率槽之间的相关性没有被有效地反映到那里时,上面公式(47)和(49)中的条件‖Yk(t)‖N(m-N)会消失。另外,当N≠m并且‖Yk(t)‖N=0时,在计算性的操作中会引起除以零(nil)的问题,并因此没有信号存在于第t帧中。
考虑到这些问题,记分函数φ(Yk(t))的表达式在这个实施例中被修改以满足返回值代表无量纲的数量并且其相位相对于第ω个相位相反的要求。
记分函数φ(Yk(t))的返回值表示无量纲的数量的意思是当Yk(ω,t)的单位(unit)为[x]时,[x]在记分函数的分子和分母之间抵消,并且返回值不包括[x]的维数(被描述为[xn]的th单位,其中n是非零值)。
返回值的相位相对于第ω个相位相反的意思是说对于任何的Yk(ω,t),arg{φ(Yk(t))}=-arg{Yk(ωt)}都成立,其中arg{z}表示复数z的相位分量。例如,当使用量值r和相位角θ将z表示为z=r·exp(iθ)时,arg{z}=θ。
应注意到在这个实施例中如上面描述的公示(22)和(32)所显示的ΔW(ω)={In+Et[]}W(ω),也就是记分函数要满足的要求是返回值的相位相对于第ω个相位应该是“相反的”。然而,当ΔW(ω)={In-Et[]}W(ω)时,记分函数的符号颠倒了,所以记分函数应满足的要求是返回值的相位应当与第ω个相位“相同”。在任意一种情况中,仅仅需要记分函数的返回值的相位只依赖于第ω个相位。
上面描述的要求是上面公式(33)的概括表达式,也就是记分函数的返回值代表无量纲的数量并且其相位相对于第ω个相位相反。因此,当记分函数满足这些要求时用于上面公式(33)对复数的测量就没有必要了。
现在,该实施例将通过特定的例子被描述。
像上面描述的,上面公式(47)和(49)表示了由基于LN范数建立的多维概率密度函数导出的记分函数。这些记分函数满足返回值表示个无量纲数量并且其相位相对于第ω个相位相反的要求。因此,有可能在N≠m时分离观测信号而不会引起任何置换。然而,就像前面指出的,当N=m时条件‖Yk(t)‖N(m-N)消失了,因此在分离的结果中可能出现置换。另外,当N≠m并且‖Yk(t)‖N=0时,在计算性的操作中会引起除以零的问题,并因此没有信号存在于第t帧中。
因此,上面描述的公式(47)和(49)被修改以作为下面所示的公式(50)和(51)读取以便满足返回值表示无量纲的数量并且其相位即使当N=m时也相对于第ω个相位相反的要求以及排除了除以零问题。在公式(50)和(51)中,L是正的常数,其典型值可为L=1,a是非负的常数,用于防止除以零的发生。
[公式25]
φ kω ( Y k ( t ) ) = - K ( | Y k ( ω , t ) | | | Y k ( t ) | | N + a ) L Y k ( ω , t ) | Y k ( ω , t ) | · · · ( 50 )
(L>0)
φ kω ( Y k ( t ) ) = - dKm tanh ( K | | Y k ( t ) | | N m ) ( | Y k ( ω , t ) | | | Y k ( t ) | | N + a ) L Y k ( ω , t ) | Y k ( ω , t ) | · · · ( 51 )
(L>0,a≥0)
在上面的公式(50)和(51)中,即使当N=m时,条件‖Yk(t)‖N也保留了下来而没有消失。另外,当条件‖Yk(t)‖N=0时,没有除以零的问题发生。
如果在上面的公式(50)和(51)中Yk(ω,t)的单位是[x],那么[x]的数量在分子和分母中的倍数(L+1倍)呈现相同的数目,所以它们被彼此抵消以产生表示无量纲数量的记分函数作为一个整体(tan h被认为是无量纲的数量)。另外,由于这些公式中的每一个的返回值的相位与-Yk(ω,t)的相位相等,所以返回值的相位相对于Yk(ω,t)的相位相反。因此,被上面的公式(50)和(51)表示的记分函数满足返回值表示无量纲的数量并且其相位相对于第ω个相位相反的要求。
当计算Yk(t)的LN范数‖Yk(t)‖N时,有必要确定复数的绝对值。然而,如下面的公式(52)和(53)所示,复数的绝对值可以近似为实部的绝对值或虚部的绝对值。可选地,如在下面的公式(54)中所示,其可以被近似为实部的绝对值和虚部的绝对值的和。
[公式26]
|Yk(ω,t)|≈|Re(Yk(ω,t))|  ……(52)
|Yk(ω,t)|≈|Im(Yk(ω,t))|  ……(53)
|Yk(ω,t)|≈|Re(Yk(ω,t))|+|Im(Yk(ω,t))|  ……(54)
在复数的实部和虚部被分离和保持的系统中,表示为z=x+iy(其中x和y是实数,i是虚数的单位)的复数z的绝对值通过下面的公式(55)所表示的方式被计算。另一方面,实部和虚部的绝对值分别通过公式(56)和(57)所表示的方式被计算,所以计算的数量被减少了。特别地,在L1范数的情况下,可能仅使用实部的绝对值和一个和来计算而不需要使用平方和开方,因此计算可以非常简单。
[公式27]
| z | = x 2 + y 2 · · · ( 55 )
|Re(z)|=|x|   ……(56)
|Im(z)|=|y|   ……(57)
此外,由于LN范数的值实际上由Yk(t)中具有较大绝对值的分量来确定,所以LN范数可以仅使用具有用绝对值表示的较高阶x%的分量来计算,而不需要使用Yk(t)的全部分量。较高阶x%可以事先从观测信号的光谱图中确定。
(iii)椭圆形分布
椭圆形分布涉及多维概率密度函数,如下面的公式(58)所示其通过将任选的非负函数f(x)(其中x是缩放比例)替换为列向量x的Mahalanobis间距sqt(xT-1x)来产生。如下面的公式(59)所表示的多维概率密度函数是通过将非负函数f(x)替换为Yk(t)并使其多维而获得的。在公式(59)中,∑k表示Yk(t)的方差/协方差矩阵。
[公式28]
P ( x ) = hf ( x T Σ - 1 x ) · · · ( 58 )
P Yk ( Y k ( t ) ) = hf ( Y k ( t ) H Σ k - 1 Y k ( t ) ) · · · ( 59 )
其中,
E k = E t [ Y k ( t ) Y k ( t ) H ] = 1 T - 1 Y k Y k H
如下所示的公式(60)是在从上面的公式(59)中导出记分函数时获得的。在公式(60)中,(·)ω指示向量的开方和括号中的矩阵的第ω行。在椭圆形分布的情况下,如果Yk(t)的元素包括复数,那么Mahalanobis间距仅取一个非负的实数,因此用于上面公式(33)的用于复数的措施就没有必要了。
[公式29]
φ kω ( Y k ( t ) ) = f ′ ( Y k ( t ) H Σ k - 1 Y k ( t ) ) f ( Y k ( t ) H Σ k - 1 Y k ( t ) ) ( Σ k - 1 Y k ( t ) ) ω Y k ( t ) H Σ k - 1 Y k ( t ) · · · ( 60 )
如果在上面描述的公式(60)中f(x)用下面的公式(61)表示,则如下面的公式(62)所表示的记分函数被导出。在公式(61)中,K表示正实数,而d和m分别表示自然数。
[公式30]
f ( x ) = 1 cos h d ( Kx ) - - ( d , K > 0 ) · · · ( 61 )
φ kω ( Y k ( t ) ) = - dK tanh ( K Y k ( t ) H Σ k - 1 Y k ( t ) ) ( Σ k - 1 Y k ( t ) ) ω Y k ( t ) H Σ k - 1 Y k ( t ) · · · ( 62 )
然而,当试图通过上面的公式(62)来分离信号时,一些元素的值由于更新分离矩阵W的操作被重复而溢出。这是因为如果W←αW(α>1)(新的W是就在其前面的W的缩放比例倍)的更新操作一旦发生,所有随后的W都是相似地扩展并最终超出计算机所能处理的值的极限。
考虑到这个问题,记分函数φ(Yk(t))的表达式被修改以便满足返回值表示无量纲的数量并且其相位相对于第ω个相位相反的要求。
应当意识到的是上面公式(62)所表示的记分函数不满足返回值表示无量纲数量并且其相位相对于第ω个相位相反的要求。换句话说,如果Yk(ω,t)的单位是[x],那么方差/协方差矩阵Σk的单位就是[x2],所以记分函数具有[1/x]的维数作为一个整体。另外,在分子中出现的(∑k -1Yk(t))ω的计算性操作中,Yk(t)中除了Yk(ω,t)之外的分量被相加,因此返回值的相位将不同于-Yk(ω,t)。
因此,上面的公式(62)被修改为下面的公式(63)以便满足返回值表示无量纲数量并且其相位相对于第ω个相位相反的要求。在公式(63)中,L是正的常数,其可以典型地为L=1,而a是非负的常数,用于防止除以零的发生。
[公式31]
φ kω ( Y k ( t ) ) = f ′ ( Y k ( t ) H Σ k - 1 Y k ( t ) ) f ( Y k ( t ) H Σ k - 1 Y k ( t ) ) ( | Y k ( ω , t ) | | | Y k ( t ) | | N + a ) L Y k ( ω , t ) | Y k ( ω , t ) | · · · ( 63 )
特别地,当f(x)被表示为上面的公式(61)并且L=1时,所导出的记分函数被表示为下面的公式(64)。
[公式32]
φ kω ( Y k ( t ) ) = - dK tanh ( K Y k ( t ) H Σ k - 1 Y k ( t ) ) Y k ( ω , t ) | | Y k ( t ) | | N + a · · · ( 64 )
根据Yk(t)的分布,方差/协方差矩阵∑k的逆矩阵可能不存在。因此,diag(∑k)(由∑k的对角元素形成的矩阵)可以被使用在∑k的位置并且广义逆矩阵(general inverse matrix)(例如,Moore-Penrose类型广义逆矩阵)可以被使用在逆矩阵∑k -1的位置。
(iv)联项模型
根据Sklar定理,任选的多维积累分布函数F(x1,…,xd)通过使用具有特定特性的d幅角函数C(x1,…,xd)和每个幅角的边缘分布函数Fx(xk)被转换为下面所示的公式(65)的右边。该C(x1,,xd)被称为联项。换句话说,通过组合联项C(x1,,xd)和边缘分布函数Fk(xk)有可能建立各种多维积累分布函数。联项和其它的事物在例如[“COPULAS”( http://gompertz.math.ualberta.ca/copula.pdf)”],[“The Shape of Neural Dependence”( http://wavelet.psych.wisc.edu/Jenison Reale Copula.pdf)],以及[“Estimationand Model Selection of Semiparametric Copula-Based Multivariate DynamicModels Under Copula Misspecifcation”(http://www.nd.edu/meg/MEG2004/Chen-Xiaohong.pdf)]的文件中被描述。
[公式33]
F(x1,…,xd)=C(F1(x1),…,Fd(xd))   ……(65)
现在,使用联项来建立多维概率密度函数的方法和用于更新分离矩阵W的公式将在以下被描述。
如下面的公式(65)所表示的概率密度函数是通过所有的幅角对上面的积累分布函数(CDF)的公式(65)求偏微分而获得的。在公式(66)中,Pj(xj)表示幅角xj的概率密度函数,而c’表示通过所有幅角对联项求偏微分的结果。
[公式34]
P ( x 1 , · · · , x d ) = ∂ ∂ x 1 · · · ∂ ∂ x d F ( x 1 , · · · , x d )
= c ′ ( F 1 ( x 1 ) , · · · , F d ( x d ) ) Π j = 1 d P j ( x j ) · · · ( 66 )
其中,
c ′ ( x 1 , · · · , x d ) = ∂ ∂ x 1 · · · ∂ ∂ x d C ( x 1 , · · · , x d )
如下面公式(67)所表示的记分函数是通过第ω个幅角对概率密度函数的对数求偏微分而获得的。其是使用联项对多维记分函数的一般表达式。在公式(67)中,FYk(ω)(·)表示Yk(ω,t)的积累分布函数,而PYk(ω)(·)表示Yk(ω,t)的概率密度函数。各种多维记分函数可以通过将公式(67)中的c’(·)、FYk(ω)(·)和PYk(ω)(·)替换为特定的公式来建立。
[公式35]
φ kω ( Y k ( t ) ) = ∂ ∂ Y k ( ω , t ) log P ( Y k ( t ) )
= ∂ ∂ F Y k ( ω ) ( Y k ( ω , t ) ) c ′ ( F Y k ( 1 ) ( Y k ( 1 , t ) ) , · · · , F Y k ( M ) ( Y k ( M , t ) ) ) c ′ ( F Y k ( 1 ) ( Y k ( 1 , t ) ) , · · · , F Y k ( M ) ( Y k ( M . , t ) ) ) P Y k ( ω ) ( Y k ( ω , t ) )
+ ∂ ∂ Y k ( ω , t ) P Y k ( ω ) ( Y k ( ω , t ) ) P Y k ( ω ) ( Y k ( ω , t ) )
……(67)
其中,
F Y k ( ω ) ( x ) = ∫ - ∞ x P Y k ( ω ) ( x ) dx
P Y k ( ω ) ( x ) = ∂ ∂ x F Y k ( ω ) ( x )
例如,下面公式(68)所表示的联项的类型,也就是Clayton联项,是公知的。在公式(68)中,α是显示幅角之间的相关性的参数。下面所示的公式(69)是通过所有的幅角对公式(68)求偏微分而获得的,而下面所示的公式(70),也就是记分函数,是通过将上面描述的公式(67)替换为公式(69)而获得的。事实上,可以处理复数的记分函数是通过应用上面描述的公式(33)而获得的。
[公式36]
C ( x 1 , · · · , x d ) = 1 ( Σ j = 1 d x j - α - d + 1 ) 1 α · · · ( 68 )
c ′ ( x 1 , · · · , x d ) = Π j = 1 d 1 + ( j - 1 ) α x j α + 1 ( Σ j = 1 d x j - α - d + 1 ) 1 α + d · · · ( 69 )
φ kω ( Y k ( t ) ) = P Y k ( ω ) ( Y k ( ω , t ) ) F Y k ( ω ) ( Y k ( ω , t ) ) { α + 1 - 1 + αM F Y k ( ω ) ( Y k ( ω , t ) ) α 1 Σ j = 1 M F Y k ( j ) ( Y k ( j , t ) ) - α - M + 1 }
- ∂ ∂ Y k ( ω , t ) P Y k ( ω ) ( Y k ( ω , t ) ) P Y k ( ω ) ( Y k ( ω , t ) ) · · · ( 70 )
通过将FYk(ω)(·)和PYk(ω)(·)替换为特定表达式而获得的公式的例子被显示在下面。
假设每个频率槽的分布都是指数分布。那么,概率密度函数可以被表示为下面的公式(71)。在公式(71)中,K是对应于分布范围的变量,但可以使其等于1,或K=1。指数分布的积累分布函数可以被表示为下面的公式(72)。由于上面描述的公式(33)所采取的用于处理复数的措施,公式(72)的幅角可以被定义为非负。下面的公式(73),也就是记分函数,是通过将上面的公式(70)的相关元素替换为公式(71)和(72)而获得的。
[公式37]
P Y k ( ω ) ( x ) = K 2 exp ( - | Kx | ) · · · ( 71 )
F Y k ( ω ) ( x ) = 1 - 1 2 exp ( - Kx ) (当x≥0)    ……(72)
φ kω ( Y k ( t ) ) = K 2 exp ( - KY k ( ω , t ) ) 1 - 1 2 exp ( - K Y k ( ω , t ) ) { α + 1 - 1 + αM ( 1 - 1 2 exp ( - K Y k ( ω , t ) ) ) α 1 Σ j = 1 M ( 1 - 1 2 exp ( - K Y k ( j , t ) ) ) - α - M + 1 }
+K  ……(73)
与使用球形分布、LN范数或椭圆形分布的记分函数不同,在使用联项的记分函数中将不同的分布应用到不同的频率槽中是有可能的。例如,依据如果频率槽中的信号分布是超高斯或子高斯,那么以交换的方式使用概率密度函数和积累分布函数是有可能的。这对应于使用上面描述的扩展的infomax方法以交换的方式使用-[Yk(ω,t)+tanh{Yk(ω,t)}]和-[Yk(ω,t)-tanh{Yk(ω,t)}]用于记分函数。
更特别地,通过下面所示的公式(74)所表示的指数分布被提供作为概率密度函数,而下面所示的公式(75)被提供作为用于超高斯分布的积累分布函数。另一方面,下面所示的公式(76)被提供作为概率密度函数,而下面所示的公式(77),也被称为Williams近似,被提供作为用于子高斯分布的积累分布函数。因此,当频率槽分布是超高斯时,公式(74)和(76)被使用,而当频率槽分布是子高斯时,公式(75)和(77)被使用。
[公式38]
Figure A20061007119800332
其中,
κ4=El[|Yk(ω,t)|4]-3El[|Yk(ω,t)|2]2
(d)修改的例子
当在上面的(c)(ii)和(iii)中的LN范数或椭圆分布的基础上导出记分函数后,记分函数的公式被修改以便满足返回值表示无量纲数量并且其相位相对于第ω个相位相反的要求时,满足这两个要求的记分函数可以直接被建立。
下面所示的公式(78)表示了以这种方式建立的记分函数。在公式(78)中,g(x)是满足下面列出的i)至iv)的要求的函数。
i)对于x≥0,g(x)≥0。
ii)对于x≥0的单调递增函数或单调递减函数,g(x)是常数。
iii)当g(x)是单调递增函数或单调递减函数时,对于x→∞,g(x)收敛为定位值(position value)。
iV)对于x,g(x)是无量纲数量。
[公式39]
φ kω ( Y k ( t ) ) = - mg ( K | | Y k ( t ) | | N ) ( | Y k ( ω , t ) | + a 2 | | Y k ( t ) | | N + a 1 ) L Y k ( ω , t ) | Y k ( ω , t ) | + a 3 · · · ( 78 )
(m>0,L,a1,a2,a3≥0)
公式(79)至(83)是可以被成功地用于观测信号的分离的g(x)的例子。在公式(79)至(83)中,常数条件被定义以便满足上面的要求i)至iii)。
[公式40]
g(x)=b±tanh(Kx)    ……(79)
g(x)=1     ……(80)
g ( x ) = x + b 2 x + b 1 , ( b 1 , b 2 ≥ 0 ) · · · ( 81 )
g(x)=1±h exp(-Kx)(0<h<1)       ……(82)
g(x)=b±arctan(Kx)    ……(83)
下面的公式(84)表示了更广义的记分函数。该记分函数是被表示为用于确定返回值的相位的将函数f(Yk(t))、函数g(Yk(ω,t))和条件-Yk(ω,t)相乘的乘积的函数,其中向量Yk(t)表示幅角,标量Yk(ω,t)表示幅角。应注意到f(Yk(t))和g(Yk(ω,t))被这样定义以使它们相乘的乘积对任何的Yk(t)和Yk(ω,t)都满足下面列出的v)和vi)的要求。
V)f(Yk(t))和g(Yk(ω,t))都是非负的实数。
Vi)f(Yk(t))和g(Yk(ω,t))的维数都是[1/x](其中x是Yk(ω,t)的单位)
[公式41]
φ(Yk(t))=-f(Yk(t))g(Yk(ω,t))Yk(ω,t)  ……(84)
由于上面的要求v),记分函数的相位和-Yk(ω,t)相同以使对记分函数的返回值的相位的要求相对于第ω个相位相反。另外,由于要求vi),维数被Yk(ω,t)抵消,因此记分函数表示无量纲数量的要求被满足。
多维概率密度函数和记分函数的特定公式在上面被描述。现在,这个实施例的音频信号分离装置的特定配置将在以下被描述。
图13是根据本发明的音频信号分离装置的实施例的示意性方块图。在音频信号分离装置1中,n个麦克风101至10n被适配于观测从n个音频源发出的独立声音,A/D(模拟/数字)转换器部分11对独立声音的信号执行A/D转换以获得观测信号。短时间傅里叶转换部分12对观测信号执行短时间傅里叶转换以产生观测信号的光谱图。信号分离器部分13通过利用保存在信号模型保存器部分14中的信号模型将观测信号的光谱图分离为基于独立信号的光谱图。信号模型涉及上面描述的多维概率密度函数并被使用于计算性地确定在分离过程中的每个隔离信号的熵。然而应当注意,对于信号模型保存器部分14来说,没有必要保存多维概率密度函数,并且保存通过幅角对概率密度函数的对数进行偏微分而获得的记分函数对其来说就足够了。
比例改变部分15进行操作以为隔离信号的光谱图的每个频率槽提供统一的比例。如果在分离处理之前对观测信号已经执行了标准化处理(平均和/或不一致调整处理),那么其进行操作以取消该处理。逆傅里叶转换部分16通过逆傅里叶转换将隔离信号的光谱图转换为时域中的隔离信号。D/A转换器部分17对时域中的隔离信号执行D/A转换,n个扬声器181至18n独立地再现声音。
当音频信号分离装置1被适配以通过n个扬声器181至18n再现声音时,也有可能输出隔离的信号以用于语音识别或用于一些其它的目的。那么,如果合适,逆傅里叶转换可以被省略。
现在,音频信号分离装置的处理操作将在下面参考图14的流程图被概要地描述。首先,在步骤S1,该装置通过麦克风观测音频信号,以及在步骤S2,对观测信号执行短时间傅里叶转换以获得光谱图。然后,在下一步骤中,或步骤S3,该装置对观测信号的光谱图进行标准化以用于每个信道的频率槽。该标准化就是使频率槽的平均值和标准偏差分别等于0和1的操作。通过对每个频率槽的平均值的减法可以使得平均值等于0,而通过标准偏差对平均值的分割可以使标准偏差等于1。当球形分布被使用作为多维概率密度函数时,使用一些其它技术用于标准化目的是有可能的。更具体地说,在使每个频率槽的平均值都等于0之后,标准化偏差在向量范数‖Yk(t)‖的1≤t≤T中被确定,而Yk除以确定的值以进行标准化。如果标准化之后的观测信号被表示为X’,那么所有的标准化可以被表示为X’=P(X-μ),其中P表示标准偏差的倒数的对角矩阵,而μ表示每个频率槽的平均值的向量。
在下一步骤,或步骤S4,对标准化的观测信号执行分离处理。更具体地说,分离矩阵W和隔离信号Y被确定。步骤S4的处理操作将在下文中做更详细的描述。当在步骤S4中获得的隔离信号Y没有置换时,它们对于频率槽显示出不同的比例。因此,比例改变操作在步骤S5中被执行以统一比例来为每一个频率槽提供统一的比例。对在标准化处理中被修改的平均值和标准偏差的恢复操作也在这里被执行。步骤S5的处理操作也将在下文中做详细的描述。然后,紧接着比例改变操作,隔离信号通过步骤S6中的逆傅里叶转换被转换为时域内的隔离信号,并在步骤S7中通过扬声器被再现。
步骤S4(在图14中)的分离处理将参考图15和16被更加详细地描述。图15显示了批处理的流程图,而图16显示了在线处理的流程图。所有的信号在批处理中被共同处理,而每个取样(在时-频域中独立分量分析中的一帧)在连续的基础上被输入时被处理。应注意到图15和16中的X(t)表示标准化的信号并对应于图14中的X’(t)。
首先,分离处理将通过参考图15以批处理的方式被描述。开始时,在步骤S11,分离矩阵W被初始值代替。其可以被单位矩阵代替或所有上面描述的公式(21)的W(ω)都可以被普通矩阵代替。在下一步骤,或步骤S12,W是否收敛被确定,并且如果其收敛,那么处理被终止,而如果其没有收敛,那么进入步骤S13。
在下一步骤,或步骤S13,当前的隔离信号Y被计算性地确定,并且在步骤S14,ΔW被根据上面的公式(32)而确定。由于为每一个频率槽计算ΔW,所以接下来是ω的循环(loop)并且上面的公式(32)被应用到每个ω。在确定了ΔW之后,W在步骤S15被更新并且处理操作回到步骤S12。
当在图15中的步骤S13和S15中频率槽循环的外部被假设时,这些步骤中的处理操作可以被移动到频率槽循环的内部,而且前面描述的图6中的计算性操作步骤S103和S105可以被选择性地使用。当在图15中更新W的处理操作被执行直到W收敛时,其可选地可被重复进行足够大的预定数目的次数。
现在,分离处理将通过参考图16以在线处理的方式被描述。其与批处理基础上的分离过程的区别在于每次取样被给定时ΔW被计算性地确定并且平均化操作Et[·]从用于更新ΔW的公式中除去。更具体地,开始时,在步骤S21,分离矩阵W被替换为初始值。在下一步骤,或步骤S22,W是否收敛被确定,并且如果其收敛,那么处理被终止,如果其没有收敛,那么进入步骤S23。
在下一步骤,或步骤S23,当前的隔离信号Y被计算性地确定,并且在步骤S24,ΔW被计算性地确定。像上面指出的,平均操作Et[·]从用于更新ΔW的公式中被除去。在确定了ΔW之后,W在步骤S25中被更新。紧接着用于每一帧的ω循环,从步骤S22到步骤S25的处理操作被重复用于所有帧。
应注意到步骤S24中的η具有固定值(例如,0.1)。可选地,其可以被调整在帧数目t增长时变得更小。如果其被调整为随着帧数目的增长而变得更小,优选地W收敛的速率通过为用于更小的帧数目的η选择较大的值(例如,1)而被提高,但是较小的值被选择用于较大帧数目的η以阻止隔离信号中突然的波动。
现在,上面描述的步骤S5(图14)中的比例改变过程将进一步通过参考图17而描述。通常,比例改变过程被处理用于每个频率槽。然而,在这个实施例中,比例改变操作通过使用上面描述的公式(13)中的W、X、Y及类似内容被执行用于所有的频率槽。
分离矩阵W在步骤S4(图14)的分离过程完成时被确定。因此,在步骤S31中,W被乘以观测信号X’(t)以获得隔离信号Y’(t)。步骤S31中的P表示方差标准化矩阵。Pμ被加到X’(t)上以恢复原始观测信号,其平均数在步骤S3(图14)中被设为等于0。缩放比例问题在这个阶段没有被解决。
在下一步骤,或步骤S32,缩放比例问题通过对来自隔离信号的每个音频源的观测信号进行估计而得到解决。现在,操作的原理将在下面被描述。
假设如图1所示的情况并且只有音频源k在输出声音(原始信号k)。在每个麦克风处被观测到的信号(每个音频源的观测信号)通过卷积关于音频源k的信号的传递函数到每一个麦克风而获得。应注意到,与估计原始信号的情况不同,每个音频源的观测信号由于下面的原因而不存在缩放比例的不确定。当估计原始信号时,区别最初的较小原始信号没有被削弱而到达麦克风的情况和最初的较大原始信号在到达麦克风之前的过程中被削弱的情况是不可能的。然而,并没有必要对每个音频源的观测信号区别这两种不同的情况。
从估计的原始信号的隔离信号Y’中估计每个音频源的观测信号的处理通过以下描述的方式进行。首先,信号Y’使用上面描述的公式(14)左边显示的每个信道的向量Y1(t)至Yn(t)来表示。然后,向量通过将Y’中除Yk(t)以外的所有元素替换为0向量而被准备。它们表示为YYk(t)。YYk(t)对应于图1中只有音频源k在发声的情况。每个音频源的观测信号通过计算XYk(t)=(WP)-1YYk(t)而获得。这个计算被重复用于所有的信道。应注意到XYk(t)包括像上面描述的公式(14)的右边第二条件的所有麦克风的观测信号。
在接下来的处理操作中,XYk(t)可以被使用或只有特定麦克风(例如,第一麦克风)的观测信号被提取。可选地,每个麦克风的信号功率可以被计算性地确定,并且具有最大功率的信号可以被提取出来。所有这些操作都随后对应于在位于音频源最近的麦克风处使用观测的信号的使用。
如以上详细描述的,通过该实施例的音频信号分离装置1,通过多维概率密度函数的方式来计算信号光谱图的熵而不是通过单维概率密度函数的方式来计算每一个频率槽的熵以解决置换问题又不需要在信号分离之后进行后处理操作是有可能的。
现在,将在以下描述根据本发明通过信号分离过程来获得特定结果。
图18图示了当K=π/2、d=1和h=1被使用于公式(42)时通过信号分离过程而获得的结果,其中公式(42)是定义在球形分布基础上的多维概率密度函数。观测信号是文件“X_rms2.wav”的原始32,000取样并且其取样频率为16kHz。此外,长度为1,024的汉宁窗与128的偏移宽度一起被用于短时间傅里叶变换中。因此,频率槽的数目M为1,024/2+1=513,而帧T的总数目为(32,000-1024)/128+1=243。当使用如图7所示的传统扩展infomax方法而在分离过程的结果中出现置换时,事实上从图18中可以看出分离的结果中并没有置换是可观察到的,尽管没有包括后处理操作。
图19A图示了当N=K=d=m=1被使用于公式(49)时通过信号分离过程而获得的结果,其中公式(49)是基于LN范数的记分函数,而图19B图示了当N=K=d=m=1被使用于公式(51)时通过信号分离过程而获得的结果。该观测信号是文件“X_rms2.wav”的初始40,000取样并且取样频率是16kHz。此外,长度为512的汉宁窗被与128的偏移宽度一起使用在短时间傅里叶变换中。当公式(49)—其不满足返回值表示无量纲数量并且其相位相对于第ω个相位相反的要求—被使用时,如图19A中的箭头所指示的那样,分离过程的结果中出现了置换,而当满足这两个要求的上面公式(51)被使用时,实际上从图19B中可以看出分离过程的结果中并没有置换是可观察到的,尽管没有包括后处理操作。
图20图示了当K=1并且α=1被使用于公式(73)时通过信号分离过程而获得的结果,其中公式(73)是基于联项模型的多维概率密度函数。该观测信号、取样频率以及其它因素都与图18中的相同。还是在这种情况中,事实上在分离过程的结果中并没有置换是可观察到的,尽管没有包括后处理操作。
现在,验证过程的结果,也就是是否产生像图9和10那样的状态,使用上面描述的多维概率密度函数而被检查,观测信号和分离过程的结果将在以下被描述。换句话说,在这个验证过程中,置换发生的状态和置换没有发生的状态被比较,并且后一个状态是否显示了减少的KL信息量被检查。
验证过程以如下方式进行。首先,图18中所显示的光谱图被准备,并且图18中每个状态的KL信息量用上面公式(17)计算性地确定。在这个试验中,公式(17)的第二和第三条件可被认为是很多常数,并因此不受置换存在与否的影响,所以它们在该试验中被减小为零。然后,一个频率槽被任意选定并且该频率槽的数据在信道之间交换。换句话说,置换被人工地产生。在数据交换之后,KL信息量使用上面公式(17)计算性地确定。由于该操作被重复多个次而不是对相同计算的复制,其中重复次数等于频率槽的总数,所以所有的信号都在信道之间最终交换。图21A至21E图示了五个不同步骤的过程。图21A至21E显示了频率槽的数据分别被交换了0%、25%、50%、75%和100%时的状态。
图22所显示的曲线图是在处理操作之后通过为操作次数的每个数目(也就是交换的频率槽的数目)绘制KL信息量而获得的。在图22中,垂直轴指示KL信息量,而水平轴指示操作次数的数目。然而应注意到,由于频率槽被选择的顺序可以被任意确定,所以包括:(a)信号分量的大小的递减顺序,(b)从ω=1开始的连续顺序,以及(c)和(d)任意顺序的四个顺序被使用在该实验中。(a)的信号分量的大小的递减次序涉及通过下面所示的公式(85)为每个频率槽(每个ω)计算的D(ω)的值的量级。还应注意到图21是通过依照这个次序而获得的。
[公式42]
D ( ω ) = Σ k = 1 n Σ t = 1 T | Y k ( ω , t ) | 2 · · · ( 85 )
图22的曲线图中的所有四个标绘图都显示了在对端的最小值。因此,就像在这个实施例中这样,通过多维概率密度函数来分离信号使得没有置换发生时(在对端)产生的KL信息量的曲线图痕迹的真实数据小于有置换发生时所产生的任何KL信息量。
换句话说,当置换的范围和通过多维概率密度函数计算性地确定的KL信息量之间的关系被绘制并且该KL信息量显示了对端的最小值时(并因此没有置换发生时),不引起置换的发生而分离观测信号是有可能的。
本发明绝不局限于上面描述的实施例,这些实施例可以在不脱离本发明的精神和范围的情况下被以多种不同的方式修改。
例如,贯穿所有信道实际上都没有信号存在(并因此只有接近于零的分量存在)的频率槽实际上并不影响时域内的信号分离,无论分离的成功与否。因此,这些频率槽可以被省略以减少光谱图的数据的量级以及计算性的复杂性并提升分离过程的速度。
通过可以用于减少光谱图的数据的量级的技术的一个例子,在准备了观测信号的光谱图之后,每个频率槽的每个信号的绝对值可以被确定是否大于预定的阈值,并且在信号的绝对值小于用于所有帧和所有信道的阈值的情况下判断是否有任何频率槽没有任何信号并将其从光谱图中除去。然而,每一个被除去的频率槽都要按照安排的次序被记录以在任何需要的时候将其恢复。因此,如果有m个频率槽没有任何信号,那么在除去这些频率槽之后产生的光谱图具有M-m个频率槽。
通过可以被使用于减少光谱图的数据的量级的技术的另一个例子,对于每个频率槽的信号密度典型地通过上面公式(59)计算性地确定,而M-m个最强频率槽被适用(而m个弱频率槽被除去)。
在减少了光谱图的数据的量级后,得到的光谱图被经过标准化过程、分离过程和比例改变过程。然后,除去的频率槽被往后移。具有分量都等于0的向量被使用来替代将除去的信号往后移。然后,隔离信号可以通过使信号经过傅里叶转换而在时域内获得。
尽管在上面对实施例的描述中麦克风的数目等于音频源的数目,本发明也可应用于麦克风数目大于音频源数目的情况。在这种情况下,麦克风的数目典型地通过使用例如主分量分析(PCA)的技术可以被减少到等于音频源的数目。
尽管在上面对本实施例的描述中自然梯度方法被使用于用于确定分离矩阵的ΔW(ω)的修改的值的对数,但是ΔW(ω)可选地也可以通过适于本发明目的的非完整对数来确定。用于计算ΔW(ω)的公式可被表示为ΔW(ω)=B·W(ω),其中B是合适的方矩阵。如果使得B的对角成分不变地等于0的公式被使用,那么使用该公式的更新公式被称为非完整对数。参见‘Iwanami-Shoten的“The Frontier of Statistical Science 5:Development ofMultivariate Analysis”关于非完整的内容及其它内容。
下面的公式(86)是基于非完整对数的ΔW(ω)的更新公式。在计算W的操作中阻止任何溢出的发生是有可能的,因为W被确定为只能在正交方向上改变。
[公式43]
ΔW(ω)={Elω(Y(t))Y(ω,t)H-diag(φω(Y(t))Y(ω,t)H)]}W(ω)    ……(86)
本领域技术人员应当理解的是,各种修改、组合、部分组合和改变都可以在所附的权利要求及其等同体的范围内根据设计需要和其它因素而产生。
本发明包含与在日本专利局提交的申请日为2005年01月26日的日本专利申请JP 2005-018822和在日本专利局提交的申请日为2005年09月15日的日本专利申请JP 2005-269128有关的主题,这里引用其整个公开内容作为参考。

Claims (7)

1.一种音频信号分离装置,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离成独立的信号以产生隔离信号,该装置包括:
第一转换装置,用于将时域内的观测信号转换成时-频域内的观测信号;
分离装置,用于从所述时-频域内的观测信号中产生时-频域内的隔离信号;以及
第二转换装置,用于将所述时-频域内的隔离信号转换成时域内的隔离信号;
所述分离装置适用于从所述时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号,通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值,通过使用所述修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止以及通过使用该充分收敛的分离矩阵来产生时-频域内的隔离信号。
2.根据权利要求1所述的装置,其中
所述时-频域内的隔离信号是复合信号,以及
将适用于从单个幅角中计算返回值的相位分量以及从一个或多于一个幅角中计算返回值的绝对值的记分函数用作为所述记分函数。
3.根据权利要求1所述的装置,其中,所述记分函数是这样的,其返回值表示无量纲数量并且该返回值的相位只依赖于单个幅角。
4.一种音频信号分离方法,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离成独立的信号以产生隔离信号,所述方法包括如下步骤:
将时域内的观测信号转换成时-频域内的观测信号;
从所述时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号;
通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值;
通过使用所述修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止;以及
将通过使用所述充分收敛的分离矩阵产生的所述时-频域内的隔离信号转换成时域内的隔离信号。
5.根据权利要求4所述的方法,其中
所述时-频域内的隔离信号是复合信号,以及
将适用于从单个幅角中计算返回值的相位分量以及从一个或多于一个幅角中计算返回值的绝对值的记分函数用作为所述记分函数。
6.根据权利要求4所述的方法,其中,所述记分函数是这样的,其返回值表示无量纲数量并且该返回值的相位只依赖于单个幅角。
7.一种音频信号分离装置,用于通过独立分量分析将多个包括音频信号的信号的混合体构成的时域内的观测信号分离为独立的信号以产生隔离信号,所述装置包括:
第一转换部分,用于将所述时域内的观测信号转换成时-频域内的观测信号;
分离部分,用于从所述时-频域内的观测信号中产生时-频域内的隔离信号;以及
第二转换部分,用于将所述时-频域内的隔离信号转换成时域内的隔离信号,
所述分离部分适用于从所述时-频域内的观测信号和被初始值代替的分离矩阵中产生时-频域内的隔离信号,通过利用使用所述时-频域内的隔离信号的记分函数和多维概率密度函数以及所述分离矩阵来计算所述分离矩阵的修改值,通过使用该修改值来修改所述分离矩阵直到所述分离矩阵充分收敛为止以及通过使用所述充分收敛的分离矩阵来产生时-频域内的隔离信号。
CN2006100711988A 2005-01-26 2006-01-26 用于分离音频信号的装置和方法 Expired - Fee Related CN1855227B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP018822/05 2005-01-26
JP2005018822 2005-01-26
JP269128/05 2005-09-15
JP2005269128A JP4449871B2 (ja) 2005-01-26 2005-09-15 音声信号分離装置及び方法

Publications (2)

Publication Number Publication Date
CN1855227A true CN1855227A (zh) 2006-11-01
CN1855227B CN1855227B (zh) 2010-08-11

Family

ID=36218181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100711988A Expired - Fee Related CN1855227B (zh) 2005-01-26 2006-01-26 用于分离音频信号的装置和方法

Country Status (5)

Country Link
US (1) US8139788B2 (zh)
EP (1) EP1686831A3 (zh)
JP (1) JP4449871B2 (zh)
KR (1) KR101197407B1 (zh)
CN (1) CN1855227B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075831A (zh) * 2009-11-20 2011-05-25 索尼公司 信号处理设备、信号处理方法及其程序
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN110059757A (zh) * 2019-04-23 2019-07-26 北京邮电大学 混合信号的分类方法、装置及电子设备
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558765B2 (en) 2005-01-14 2009-07-07 Ultra-Scan Corporation Multimodal fusion decision logic system using copula model
US8190540B2 (en) * 2005-01-14 2012-05-29 Ultra-Scan Corporation Multimodal fusion decision logic system for determining whether to accept a specimen
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
WO2007108492A1 (ja) * 2006-03-21 2007-09-27 Advantest Corporation 確率密度関数分離装置、確率密度関数分離方法、ノイズ分離装置、ノイズ分離方法、試験装置、試験方法、算出装置、算出方法、プログラム、及び記録媒体
JP4946330B2 (ja) * 2006-10-03 2012-06-06 ソニー株式会社 信号分離装置及び方法
JP5070860B2 (ja) 2007-01-31 2012-11-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
GB2465716A (en) * 2007-09-07 2010-06-02 Ultra Scan Corp Multimodal fusion decision logic system using copula model
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
JP5229053B2 (ja) 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5129794B2 (ja) * 2009-08-11 2013-01-30 日本電信電話株式会社 目的信号強調装置とその方法と、プログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
PT105880B (pt) * 2011-09-06 2014-04-17 Univ Do Algarve Cancelamento controlado de ruído predominantemente multiplicativo em sinais no espaço tempo-frequência
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
KR101474321B1 (ko) * 2012-06-29 2014-12-30 한국과학기술원 암묵신호 분리에서의 순열/비례 문제 해결장치 및 그 방법
JP6005443B2 (ja) 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US9420368B2 (en) * 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
CN106297820A (zh) 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
CN107894965A (zh) * 2017-11-30 2018-04-10 陕西师范大学 一种用于两组不同类型信号的耦合处理方法
KR101940548B1 (ko) 2018-04-03 2019-01-21 (주)성림산업 컨테이너 백
CN112697270B (zh) * 2020-12-07 2023-07-18 广州极飞科技股份有限公司 故障检测方法、装置、无人设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706402A (en) * 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US5959966A (en) * 1997-06-02 1999-09-28 Motorola, Inc. Methods and apparatus for blind separation of radio signals
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
US6691073B1 (en) * 1998-06-18 2004-02-10 Clarity Technologies Inc. Adaptive state space signal separation, discrimination and recovery
JP3887192B2 (ja) 2001-09-14 2007-02-28 日本電信電話株式会社 独立成分分析方法及び装置並びに独立成分分析プログラム及びそのプログラムを記録した記録媒体
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
JP3949074B2 (ja) 2003-03-31 2007-07-25 日本電信電話株式会社 目的信号抽出方法及びその装置、目的信号抽出プログラム及びその記録媒体
JP4496379B2 (ja) 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075831A (zh) * 2009-11-20 2011-05-25 索尼公司 信号处理设备、信号处理方法及其程序
CN102075831B (zh) * 2009-11-20 2013-10-23 索尼公司 信号处理设备、信号处理方法及其程序
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
CN105989851A (zh) * 2015-02-15 2016-10-05 杜比实验室特许公司 音频源分离
CN105989851B (zh) * 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN110059757A (zh) * 2019-04-23 2019-07-26 北京邮电大学 混合信号的分类方法、装置及电子设备
CN110059757B (zh) * 2019-04-23 2021-04-09 北京邮电大学 混合信号的分类方法、装置及电子设备
US11816180B2 (en) 2019-04-23 2023-11-14 Beijing University Of Posts And Telecommunications Method and apparatus for classifying mixed signals, and electronic device
CN111009256A (zh) * 2019-12-17 2020-04-14 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
US11284190B2 (en) 2019-12-17 2022-03-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for processing audio signal with frequency-domain estimation, and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
EP1686831A2 (en) 2006-08-02
JP4449871B2 (ja) 2010-04-14
CN1855227B (zh) 2010-08-11
US20060206315A1 (en) 2006-09-14
KR101197407B1 (ko) 2012-11-05
US8139788B2 (en) 2012-03-20
EP1686831A3 (en) 2012-10-31
JP2006238409A (ja) 2006-09-07
KR20060086303A (ko) 2006-07-31

Similar Documents

Publication Publication Date Title
CN1855227A (zh) 用于分离音频信号的装置和方法
CN1323789C (zh) 焊接评估
CN1159704C (zh) 信号分析装置
CN1156822C (zh) 音频信号编码方法、解码方法,及音频信号编码装置、解码装置
CN1541456A (zh) 多通道回声消除方法、多通道声音传送方法、立体回声消除器、立体声音传送装置和传递函数计算装置
CN1263229C (zh) 啸叫检测和抑制设备及方法
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1242308C (zh) 定位伺服控制器
CN1723453A (zh) 用于处理声场表现的方法和系统
CN1839411A (zh) 图像相关方法、图像相关设备、以及程序
CN1770864A (zh) 基于avs的4×4离散余弦变换的快速并行装置及其方法
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN1926607A (zh) 多信道音频编码
CN1643982A (zh) 用于控制声场再现单元的方法和器件
CN1316083A (zh) 使用语音识别模型的自动的语言评估
CN1947150A (zh) 虹彩注册方法、虹彩注册装置及虹彩注册程序
CN101040324A (zh) 混合声音分离装置
CN1755709A (zh) 图像匹配装置、匹配图像方法及计算机程序产品
CN1460227A (zh) 信号处理设备
CN1238969C (zh) 将多个输入信号分离成多个输出信号的系统
CN1744459A (zh) 使用中继节点的通信系统和方法
CN1955956A (zh) 基于bpel的图形与xml文档相互转换的方法
CN1925597A (zh) 图像处理设备、图像处理方法及程序
CN1808380A (zh) 信号处理装置,信息处理方法及记录介质
CN1659926A (zh) 表示声场的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100811

Termination date: 20160126

EXPY Termination of patent right or utility model