CN103236264B

CN103236264B - 一种用于声源分离的编解码方法

Info

Publication number: CN103236264B
Application number: CN201310160493.0A
Authority: CN
Inventors: 吴钊
Original assignee: Hubei University of Arts and Science
Current assignee: Hubei University of Arts and Science
Priority date: 2013-05-03
Filing date: 2013-05-03
Publication date: 2015-07-29
Anticipated expiration: 2033-05-03
Also published as: CN103236264A

Abstract

本发明公开了一种用于声源分离的编解码方法，通过提取实际信号的分布参数并结合心理声学模型，可以在无参考信息或有参考信息的条件下实现音频信号的声源分离，不仅提高了分离后声源的音质而且可以适应广泛的带宽条件，从而提高了声源分离系统的实用性。

Description

一种用于声源分离的编解码方法

技术领域

本发明涉及多媒体领域，具体涉及一种声源分离技术方案，从单声道、立体声、或者多声道音频信号中分离出独立的声源。

背景技术

音频信号，特别是音乐信号，通常包含多个声源，例如人声、各个伴奏乐器声、以及环境声。如何有效的从混合的音频信号中提取各个独立的声源是一个重要的理论问题，也是一个重要的应用问题。在卡拉OK中，人声部分需要被部分或完全消除；在移动通话中，环境噪音需要被尽可能的消除以提高通话质量；在主动音乐欣赏(Active Listening of Music)中，各个乐器声需要不同的增益和相位调整以合成用户期待的空间音场。在上述应用中，声源分离都是关键性的技术。

声源分离系统可以分为两大类，一类是盲声源分离(Blind Source Separation)系统，另一类是有参考信息的声源分离(Informed Source Separation)系统。前者一般仅基于对声源统计特性的基本假设，例如高斯分布或者稀疏分布，而不需要参考信息协助分离声源。后者则需要占据一定带宽（比特率）的参考信息以协助分离声源。盲声源分离系统相对有参考信息的声源分离系统具有更广泛的适应性并且节约带宽，但其缺点是声源分离效果较差，具体反映在分离后的声源失真大，并且声源间的串扰大。

从信号处理的角度看，声源分离问题是一类特定信号估计问题：观察到的信号为混合信号，这个信号是各个独立声源的某种叠加，例如加权或非加权、线性或非线性、时变或非时变、卷积或非卷积（瞬时）；待估计的信号是各个独立声源。在数学上，声源分离通常是不定解问题，即存在若个（有限或无限）组解，每组解作为待定的独立声源都可以得到给定的混合信号。因此，声源分离的关键是基于一个合理的假设从所有可能的解中找到最可能的解。

音频信号，特别是语音和音乐信号，在离散傅立叶变换(Discrete Fourier Transform,DFT)域、离散余弦变换(Discrete Cosine Transform,DCT)域、等变换域通常呈现一定的稀疏性，即所有的变换系数中，只有少量系数具有较大的绝对值，而其余系数为0或绝对值较小。利用这个特性，首先遍历所有可能的解，然后从中选择最稀疏的解即可作为盲声源分离问题的解。现有技术中，一般利用1-范数，即各分量的绝对值之和，衡量稀疏的程度：1-范数越小，稀疏度越高。在数学上，如果信号服从拉普拉斯分布，那么1-范数越小就对应着概率密度越高。

有参考信息的声源分离也可以利用音频信号在特定变换域的稀疏性。例如5个独立声源线性下混为双声道（即立体声，包括左右两个声道）混合信号。如果在同一时刻同一频率（变换系数指标）下，最多有两个声源非零，那么只要知道5个声源里哪两个非零这个参考信息就可以通过求解2元一次线性方程组确定唯一的声源分离的解。

然而基于信号稀疏性的声源分离技术，如上所述，不是基于待分离信号特定的概率分布，而是一般性的假定为拉普拉斯分布，或者直接假定在每个时频点某些声源一定为0，这种假设与实际的不匹配降低了声源分离的性能；另一方面，盲声源分离技术受制于不能使用参考信息的约束，分离后声源的音质受到极大的限制；而有参考信息的声源分离技术在参考信息超过信道带宽时又无法工作。这些问题都限制了声源分离系统在实际场合的应用。

发明内容

本发明需要解决的技术问题是，基于音频信号实际分布特性的声源分离，辅助声源分离的参考信息的带宽可以在0到一定范围内连续调整。

本发明的技术方案为一种用于声源分离的编码方法，对参考信息进行编码，包括获取每个声源和下混信号每个声道的时频变换系数，并按帧和频率排列构成二维时频图；根据活跃声源数遍历每一种活跃声源的组合方案并求得对应的备选解；计算各备选解的失真，取失真最小的备选解所对应的组合的标号作为声源分离的参考信息；根据下混信号判定参考信息的重要性；根据重要性重新组织参考信息；最后对重新组织的参考信息进行熵编码得到参考信息码流。

而且，根据活跃声源数遍历每一种活跃声源的组合并求得对应的备选解，实现方法如下，

首先，根据事先设定的活跃声源数K，V≤K≤U，且V＜U，遍历在U个声源中选出K个活跃声源所有的

W = (\begin{matrix} K \\ U \end{matrix})

种组合方案，并记这W个组合方案为O_1,O_2,...,O_W，其下标采用的标号称为活跃声源组合指标；

然后，在时频点(t,f)处求所有组合方案O_1,O_2,...,O_W下声源分离问题的解S_w(t,f)，w＝1,2,...,W，S_w(t,f)是一个U维声源矢量，分三种情况求解，

(a)K＝V，在每个组合方案O_w下，声源混合方程A(t,f)S(t,f)^T=X(t,f)^T有唯一的解，这个解为S_w(t,f)，通过线性方程组解法得到，其中A(t,f)为下混矩阵，S(t,f)为待求的声源矢量，X(t,f)为下混信号矢量，^T表示转秩；

(b)V＜K＜U，在每个组合方案O_w下，声源混合方程A(t,f)S(t,f)^T=X(t,f)^T有无穷多解，从中选取一个解作为S_w(t,f)，选取S_w(t,f)=E[S(t,f)|X(t,f)]时，E[S(t,f)|X(t,f)]表示满足下混方程解S(t,f)在后验概率分布P(S(t,f)|X(t,f))下数学期望；

(c)K＝U，此时W＝1，仅有一个组合方案，声源混合方程A(t,f)S(t,f)^T=X(t,f)^T有无穷多解，从中选取一个解作为S_w(t,f)，选取S_w(t,f)=E[S(t,f)|X(t,f)]时，E[S(t,f)|X(t,f)]表示满足下混方程解S(t,f)在后验概率分布P(S(t,f)|X(t,f))下数学期望。

而且，计算各备选解的失真包括以下两种方式，

（1）根据以下2-范数公式计算，

d_{w} (t, f) = {| | S_{w} (t, f) - S (t, f) | |}_{2} = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2}}^{1 / 2},

其中，和S_u(t,f)分别为备选声源矢量S_w(t,f)和实际声源矢量S(t,f)的第u维分量，

（2）根据心理声学掩蔽门限计算噪掩比，

{NMR}_{w} (t, f) = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2} / {Mask}_{u} (t, f)}^{1 / 2},

其中，Mask_u(t,f)是声源的在时频点处的掩蔽门限。

本发明相应提供一种用于声源分离的解码方法，对参考信息进行解码进行声源分离，包括从参考信息码流进行熵解码得到重新组织后的参考信息；根据下混信号判定参考信息的重要性；根据重要性将参考信息映射到相应的频率上，其余频率标定为无参考信息；对每帧每个频率根据有无参考信息实施声源分离；最后将分离后每个声源的时频变换系数通过时频逆变换得到分离后声源的时域样点。

而且，对每帧每个频率根据有无参考信息实施声源分离的实现方式为，

(a)有参考信息w_min(t,f)，当活跃声源数K=V时，求组合方案O_wmin(t,f)下唯一的声源分离解当活跃声源数V<K<U时，求后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解

(b)无参考信息，设定活跃声源数K=U，求后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解S₁(t,f)。

通过上述对技术方案的描述可知，本发明通过提取实际信号的分布参数并结合心理声学模型，可以在无参考信息或有参考信息的条件下实现音频信号的声源分离，不仅提高了分离后声源的音质而且可以适应广泛的带宽条件，从而提高了声源分离系统的实用性。

附图说明

图1是本发明实施例的声源分离参考信息提取流程示意图；

图2是本发明实施例的时频变换系数的二维排列方式示意图；

图3是本发明实施例的分离声源流程示意图。

具体实施方式

本发明实施方式通过提取实际信号的概率分布参数并结合心理声学模型，实现无参考信息到有参考信息的声源分离，提高了分离的音质并且适应不同的带宽条件。

本发明所提供用于声源分离的编码方法对参考信息进行编码，包括获取每个声源和下混信号每个声道的时频变换系数，并按帧和频率排列构成二维时频图；根据活跃声源数遍历每一种活跃声源的组合方案并求得对应的备选解；计算各备选解的失真，取失真最小的备选解所对应的组合的标号作为声源分离的参考信息；根据下混信号判定参考信息的重要性；根据重要性重新组织参考信息；最后对重新组织的参考信息进行熵编码得到参考信息码流。具体实施时可采用软件技术实现自动运行流程，下面结合图1首先对本发明实施例提供的声源分离参考信息提取方法进行说明。流程包括以下步骤：

步骤101：时频变换。获取各个声源s₁[n],s₂[n],...,s_U[n]以及下混信号每个声道x₁[n],...,x_V[n]的变换系数，所述变换系数为DFT（离散傅里叶变换）系数，MDCT（离散余弦变换）系数，或其它时频变换系数，这里n是时域样点指标，U是声源数，V是下混信号的声道数，一般的

U>V (1)

而V=2即是立体声下混的情况。本发明实施时可以采用现有的多种方法获取DFT系数或MDCT系数。例如，预设数值M，在时域将声源划分为相继的帧，每帧包含连续的2M个时域样点，相继的两帧间有50%即M点重叠。然后对每帧信号施加正弦窗、Kaiser-Bessel-Derived(KBD)窗、汉明(Hamming)窗等窗函数。加窗后每帧再进行DFT变换或MDCT变换，得到变换系数。

步骤102：排列变换系数。实施例将每个声源s_u[n]和下混信号每个声道x_v[n]的变换系数在平面上按所属帧序号t和频率f排列，构成二维时频图，如图2所示：横坐标为帧序号t=0、1、2、3、4、5、6、7…，纵坐标为谱线序号(也称为频率)f=0、1、2、3、4、5、6、7、8、9…。在帧t谱线序号f处（也称为时频点(t,f)处）第u个声源s_u[n]的变换系数表示为S_u(t,f)，u的取值为1，2…U，第v个下混信号声道x_v[n]的变换系数表示为X_v(t,f)，v的取值为1，2…V。下混信号和声源存在确定的关系，在变换域，这种关系表现为矢量乘法：

A(t,f)S(t,f)^T=X(t,f)^T (2)

这里上标^T表示矩阵转置，A(t,f)称为下混矩阵，大小为V×U(V行U列)，

S(t,f)为声源矢量，大小为U×1，由声源的变换系数S₁(t,f),S₂(t,f),…,S_U(t,f)]构成，

S(t,f)≡[S₁(t,f),S₂(t,f),…,S_U(t,f)]^T (2.1)

X(t,f)为下混信号矢量，大小为V×1，由下混信号的变换系数X₁(t,f),…,X_V(t,f)构成，

X(t,f)≡[X₁(t,f),…,X_V(t,f)]^T (2.2)

如果下混为线性非卷积的，A(t,f)则与(t,f)均无关，表现为常数矩阵A；如果下混为线性卷积的，A(t,f)则与t无关，表现为以频率为参数的矩阵A(f)；如果下混为时变或非线性的，那么A(t,f)既依赖帧序号t也依赖频率f。由方程(2)，声源分离问题就是给定下混信号的变换系数X₁(t,f),…,X_V(t,f)和A(t,f)，求解声源的变换系数S₁(t,f),S₂(t,f),…,S_U(t,f)。由于U>V，解不是唯一的，需要附加处理才能得到唯一的解。

步骤103：获得备选解。求每个时频点(t,f)处的有限个备选解，首先根据事先设定的活跃声源数K，这里

V≤K≤U (3)

遍历在U个声源中选出K个活跃声源所有的

W = (\begin{matrix} K \\ U \end{matrix})

种组合方案，并记这W个组合方案为O₁,O₂,...,O_W，其下标称为活跃声源组合指标。例如5个声源下混为双声道立体声信号，并且设定活跃声源数为2，那么在每个时频点就有

W = (\begin{matrix} 2 \\ 5 \end{matrix}) = 10

个组合方案O₁,O₂,...,O₁₀。在组合方案O_w下K个活跃声源记为这里w的取值是1,2…W，其中声源序号1≤u₁<u₂<…<u_K≤U。非活跃声源共有U–K个，在(t,f)处均为0。

其次在时频点(t,f)处，求所有组合方案O₁,O₂,...,O_W下声源分离问题的解。下面分K=V,V<K<U,K=U,三种情况分别讨论。

(a)K=V。在组合方案O_w下，活跃声源有V个：(1≤u₁<u₂<…<u_V≤U)，恰等于下混信号声道数V，根据线性方程组理论，方程(2)唯一的确定了时频点(t,f)处所有声源的变换系数，构成声源的变换系数矢量S_w(t,f)：

S_w(t,f)≡[S₁(t,f),S₂(t,f),…,S_U(t,f)]^T (4.1)

其中U–V声源（分量）为0，非0的V个声源（分量）在时频点(t,f)处的变换系数为

\begin{matrix} S_{u_{1}} (t, f) & S_{u_{2}} (t, f) & . . . & S_{u_{V}} (t, f), \end{matrix}

记为如下矢量：

{[\begin{matrix} S_{u_{1}} (t, f) & S_{u_{2}} (t, f) & . . . & S_{u_{V}} (t, f) \end{matrix}]}^{T} = A_{w} {(t, f)}^{- 1} X (t, f) - - - (4.2)

这里A_w(t,f)是下混矩阵A(t,f)的一个V×V的子矩阵,各列依次是A(t,f)的u₁,u_2,…,u_V列。遍历所有的W个组合方案，这样就可以得到W组解，作为备选解。

(b)V<K<U。在组合方案O_w下，活跃声源K个：(1≤u₁<u₂<…<u_K≤U)，超过下混声道数V，根据线性方程组理论，方程(2)有多个解，从中选出一个解作为备选解。具体选择方式可由本领域技术人员设定。

例如，一种选取的方法是贝叶斯估计(Bayesian Estimation)，取均方差作为失真准则，此时贝叶斯估计就是最小均方差(Minimum Mean Square Error,MMSE)估计，其解为给定下混信号的变换系数X₁(t,f),…,X_V(t,f)下关于声源的变换系数S₁(t,f),S₂(t,f),…,S_U(t,f)的后验概率密度函数P(S(t,f)|X(t,f))的平均值：

S_w(t,f)=E[S(t,f)|X(t,f)] (5)

这里E[]表示期望（平均值）。声源的变换系数矢量S_w(t,f)依赖于声源的先验分布，一个合理分布就是声源u的变换系数S_u(t,f)服从广义拉普拉斯(Laplace)分布

其中σ_u和r_u是广义拉普拉斯分布的参数，均大于0，Γ()是伽马(Gamma)函数。通过统计声源u的变换系数的分布可以得到σ_u和r_u这两个参数。对于音乐信号，典型情况下有σ_u=1.5×10^–4和r_u=0.25。一般的，只要0<r_u<1，公式(6)的分布就是稀疏的，且r_u越小，稀疏性越高。在广义拉普拉斯分布下，由于设计非初等函数的积分，期望E[S(t,f)|X(t,f)]没有解析解。一种方法是通过数值积分求解，缺点是计算复杂度高。另一种方法根据稀疏分布的特性是近似求解，下面详细说明。

由于广义拉普拉斯分布(6)的稀疏性的，结合声源相互独立的基本假设，在给定下混信号矢量X(t,f)的约束下，后验概率密度函数P(S(t,f)|X(t,f))近似的呈现离散性的分布：P(S(t,f)|X(t,f))仅在有限个离散的集聚点附近有较显著的值，其余各处概率密度可以忽略不计。这样期望E[S(t,f)|X(t,f)]就近似等于所有集聚点的加权平均：

E [S (t, f) | X (t, f] = \frac{Σ_{q &Element; Q} S_{q} P_{q}}{Σ_{q &Element; Q} P_{q}} - - - (7)

这里Q是集聚点的集合。对于Q中元素q，S_q表示集聚点q对应的U维声源矢量，P_q表示集聚点q的权重。根据稀疏分布特性，每个集聚点q对应的声源矢量S_q的K个活跃分量（声源）都存在K–V个0分量（声源）和V个非0分量（声源）。记这V个非0声源为q₁,q₂,…,q_V并且取下混矩阵A(t,f)对应V列得到V×V的方阵，记为A_q(t,f)。于是S_q中V个非零分量

[\begin{matrix} S_{q_{1}} & S_{q_{2}} & . . . & S_{q_{v}} \end{matrix}]

可以通过矩阵逆求得：

{[\begin{matrix} S_{q_{1}} & S_{q_{2}} & . . . & S_{q_{v}} \end{matrix}]}^{T} {= A}_{q}^{- 1} (t, f) X (t, f) - - - (8)

这样就可以得到S_q。另一方面，集聚点q的权重P_q就是该点对应区域的概率（后验概率密度函数P(S(t,f)|X(t,f)在此区域上的积分)。由广义拉普拉斯分布(6)，这个概率近似为

P_{q} \approx | \det A_{q}^{- 1} (t, f) | \exp [- Σ_{v = 1}^{V} {| \frac{S_{q_{v}} (t, f)}{σ_{q_{v}}} |}^{r_{q_{v}}}] - - - (9)

其中det表示矩阵的秩，和为声源q_v的Laplace分布(6)的参数。而集聚点的集合Q就是K个活跃分量取V个非0分量的所有组合，共有

(\begin{matrix} V \\ K \end{matrix})

个。这样当V<K<U时，通过公式(8),(9),和(7)就可以得到组合方案下的基于广义拉普拉斯分布的最小均方差声源分离解S_w(t,f)。

(c)K=U。此时W=1，即只有一种组合方案。同样的，可以通过公式(8),(9),和(7)得到广义拉普拉斯分布下的最小均方差声源分离解S₁(t,f)。特别的，此时每个声源都是活跃的，集聚点共有

(\begin{matrix} V \\ U \end{matrix})

个。

这样在K=V,V<K<U,K=U这三种情况下，都得到了声源分离问题(2)的

W = (\begin{matrix} K \\ U \end{matrix})

个备选解：

S₁(t,f),S₂(t,f),…,S_W(t,f). (10)

步骤104：获得备选解失真。计算步骤103得到的所有备选解的失真度量。可以使用2-范数或者依据心理声学理论得到的噪掩比(Noise-to-Mask Ratio,NMR)度量失真。

使用2-范数度量时，对于活跃声源组合方案O_w和相应的解S_w(t,f)，失真定义为

d_{w} (t, f) = {| | S_{w} (t, f) - S (t, f) | |}_{2} = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2}}^{1 / 2}, - - - (11)

这里和S_u(t,f)分别为备选声源矢量S_w(t,f)和实际声源矢量S(t,f)的第u维分量。使用噪掩比时，首先要计算时频点(t,f)处的掩蔽门限Mask(t,f)。这个掩蔽门限反映了听觉系统在(t,f)处的灵敏度，如果一个信号在(t,f)处强度高于Mask(t,f)，那么听觉系统就可以察觉这个信号，如果一个信号在(t,f)处强度等于或低于Mask(t,f)，那么听觉系统就无法察觉这个信号。遮蔽门限依赖与听觉系统的固有特性，例如绝对静音门限(Absolute Quiet Threshold,AQT)，非线性频率分辨率，遮蔽函数等，同时也依赖于声源。可以利用现有的心理声学模型，例如MP3和AAC编码器中的心理声学模型，计算声源u在(t,f)处的掩蔽门限Mask_u(t,f)。在此基础上就可以计算噪掩比NMR_w(t,f)如下：

{NMR}_{w} (t, f) = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2} / {Mask}_{u} (t, f)}^{1 / 2} . - - - (12)

步骤105：获得参考信息。将具有最小失真度量的备选解对应的的标号（即活跃声源组合指标）作为时频点(t,f)处的辅助声源分离的参考信息。这个参考信息记为w_min(t,f),且w_min(t,f)∈{1,2,…,W}。特别的，当K=U时，W=1,因此w_min(t,f)≡1。此时不需要传送参考信息，带参考信息的声源分离问题退化为盲声源分离问题。

步骤106：判定参考信息重要性。在同一帧t里，获得所有频率f处声源分离参考信息w_min(t,f)的重要性指标。首先，同一帧里，不同频率处的参考信息可以有不同的重要性，例如若在(t,f)处，所有声源均为0，此时w_min(t,f)对声源分离的结果没有影响；另一方面，若在(t,f)处声源能量大，此时w_min(t,f)对声源分离的结果有很大的影响。建议如实施例中，采用(t,f)处下混信号所有V个声道信遮比(Signal-to-Mask Ratio,SMR)SMR₁(t,f),SMR₂(t,f),…,SMR_V(t,f)的最大值衡量参考信息w_min(t,f)的重要性：

g(t,f)=max{SMR₁(t,f),SMR₂(t,f),…,SMR_V(t,f)} (13)

这里SMR_v(t,f),v=1,2,…,V,是下混信号X(t,f)声道v的信遮比：

SMR_v(t,f)≡|Xv(t,f)|/Mask_v(t,f) (14)

这里Mask_v(t,f)是声道v在(t,f)处的遮蔽门限。

步骤107：重新组织参考信息。在同一帧t里，按重要性指标g(t,f)重新组织声源分离参考信息w_min(t,f)。

具体实施时，重新组织参考信息的有多种方法，下面给出两个例子：

(a)门限法。根据音质或者参考信息带宽预先设定一个重要性指标门限G，如果g(t,f)＜G则舍弃声源分离参考信息w_min(t,f)，否则保留。所有保留的参考信息在一帧内按照频率f从低到高排列。

(b)排序法。按照重要性指标g(t,f)在帧t内从高到低重新排列声源分离参考信息w_min(t,f)，适用于不等保护(Unequal Error Protection,UEP)和分级丢包机制的网络里。在不等保护信道里，将前面的（重要性高的）参考信息置于高保护等级子码流或子信道，将后面的（重要性低的）参考信息置于低保护等级子码流或子信道，这样在信道发生错误是，仍然可以尽可能的恢复重要的声源分离参考信息。在分级丢包机制的网络里，也是将前面的参考信息置于高保护等级的传输包，将后面的参考信息置于低保护等级的传输包，当网络发生拥塞时，首先丢弃的传输包对声源分离的影响最小，从而最大程度的保护分离后声源的音质。

步骤108：熵编码。对步骤107重新组织后的声源分离参考信息w_min(t,f)进行熵编码以降低参考信息码率或传输带宽。可以使用多种现有的熵编码(Entropy Encoding)方法，如哈夫曼编码(Huffman Coding)、算术编码(Arithmetic Coding)、游程长度编码(Run-Length Coding)等方法。这样就得到了参考信息码流，供声源分离使用。

本发明所提供一种用于声源分离的解码方法，对参考信息进行解码进行声源分离，包括从参考信息码流进行熵解码得到重新组织后的参考信息；根据下混信号判定参考信息的重要性；根据重要性将参考信息映射到相应的频率上，其余频率标定为无参考信息；对每帧每个频率根据有无参考信息实施声源分离；最后将分离后每个声源的时频变换系数通过时频逆变换得到分离后声源的时域样点。在描述了本发明实施例提供的声源分离参考信息提取方法后，下面结合图3对本发明实施例根据参考信号的声源分离方法进行说明。流程包括以下步骤：

步骤401：熵解码。从参考信息码流通过熵解码(Entropy Decoding)获得重新组织后的参考信息。熵解码的方法与步骤108的熵编码对应，例如哈夫曼解码(Huffman Decoding)对应哈夫曼编码、算术解码(Arithmetic Decoding)对应算术编码、游程长度解码(Run-Length Decoding)对应游程长度编码。

步骤402：判定参考信息重要性。与编码过程相应，实施例在同一帧t内，根据下混信号使用依据步骤106，即公式(13)和(14)计算参考信息的重要性指标g(t,f)。

步骤403：映射参考信息。这是步骤107的逆过程，同样也分为两种情况，下面分别说明。

(a)门限法。根据重要性指标门限G，将步骤401解码得到的重新组织后的参考信息按频率由低到高依次映射到满足g(t,f)≥G的频率f上，其余频率标定为无参考信息。

(b)排序法。在一帧内按照g(t,f)从高到底排列各个频率，然后将步骤401解码得到的重新组织后的参考信息依次映射到排列后的频率上。如果有剩余频率没有映射到参考信息，则这些频率标定为无参考信息。

步骤404：分离声源。在时频点(t,f)处根据下混信号矢量X(t,f)≡[X₁(t,f),…,X_V(t,f)]^T求解声源矢量S(t,f)≡[S₁(t,f),S₂(t,f),…,S_U(t,f)]^T。下面根据时频点(t,f)处有无参考信息分两种情况分别说明。

(a)有参考信息w_min(t,f)。当活跃声源数K=V时，按照公式(4.1)和(4.2)求得组合方案O_wmin(t,f)下唯一的声源分离解当活跃声源数V＜K＜U时，按公式(8)、(9)、和(7)求得后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解

(b)无参考信息。此时设定活跃声源数K=U，按公式(8)、(9)、和(7)求得后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解S₁(t,f)。

上述两种情况得到的解均记为

S(t,f)≡[S₁(t,f),S₂(t,f),…,S_U(t,f)]^T (15)

步骤405：时频逆变换。对分离后的声源S_u(t,f)一帧内所有频率上的时频变换系数施加与步骤101对应的逆变换，如果在步骤101采用DFT变换，那么这里采用逆DFT变换(Inverse DFT,IDFT)；如果步骤101采用MDCT变换，那么这里采用逆MDCT变换(Inverse MDCT,IMDCT)。变换后的时域样点经过加窗和重叠相加得到时域输出s_u[n]。这样就得到分离后各个声源在时域的样点：

s₁[n],s₂[n],…,s_U[n] (16)

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种用于声源分离的编码方法，其特征在于：对参考信息进行编码，包括获取每个声源和下混信号每个声道的时频变换系数，并按帧和频率排列构成二维时频图；根据活跃声源数遍历每一种活跃声源的组合方案并求得对应的备选解；计算各备选解的失真，取失真最小的备选解所对应的组合的标号作为声源分离的参考信息；根据下混信号判定参考信息的重要性；根据重要性重新组织参考信息；最后对重新组织的参考信息进行熵编码得到参考信息码流；所述根据活跃声源数遍历每一种活跃声源的组合并求得对应的备选解，实现方法如下，

首先，根据事先设定的活跃声源数K，V≤K≤U，且V＜U，遍历在U个声源中选出K个活跃声源所有的种组合方案，并记这W个组合方案为O₁,O₂,...,O_W，其下标采用的标号称为活跃声源组合指标；

然后，在时频点(t,f)处求所有组合方案O₁,O₂,...,O_W下声源分离问题的解S_w(t,f)，w＝1,2,...,W，S_w(t,f)是一个U维声源矢量，分三种情况求解，

(a)K＝V，在每个组合方案O_w下，声源混合方程A(t,f)S(t,f)^T＝X(t,f)^T有唯一的解，这个解为S_w(t,f)，通过线性方程组解法得到，其中A(t,f)为下混矩阵，S(t,f)为待求的声源矢量，X(t,f)为下混信号矢量，^T表示转秩；

(b)V＜K＜U，在每个组合方案O_w下，声源混合方程A(t,f)S(t,f)^T＝X(t,f)^T有无穷多解，从中选取一个解作为S_w(t,f)，选取S_w(t,f)＝E[S(t,f)|X(t,f)]时，E[S(t,f)|X(t,f)]表示满足下混方程解S(t,f)在后验概率分布P(S(t,f)|X(t,f))下数学期望；

(c)K＝U，此时W＝1，仅有一个组合方案，声源混合方程A(t,f)S(t,f)^T＝X(t,f)^T有无穷多解，从中选取一个解作为S_w(t,f)，选取S_w(t,f)＝E[S(t,f)|X(t,f)]时，E[S(t,f)|X(t,f)]表示满足下混方程解S(t,f)在后验概率分布P(S(t,f)|X(t,f))下数学期望；

所述根据下混信号判定参考信息的重要性，包括采用(t,f)处下混信号所有V个声道信遮比SMR₁(t,f),SMR₂(t,f),…,SMR_V(t,f)的最大值衡量参考信息w_min(t,f)的重要性，得到重要性指标g(t,f)；其中，SMR_v(t,f),v＝1,2,…,V,是下混信号X(t,f)声道v的信遮比，SMR_v(t,f)≡|X_v(t,f)|/Mask_v(t,f)，Mask_v(t,f)是声道v在(t,f)处的遮蔽门限；

所述根据重要性重新组织参考信息，包括在同一帧t里，按重要性指标g(t,f)重新组织声源分离参考信息w_min(t,f)。

2.根据权利要求1所述用于声源分离的编码方法，其特征在于：计算各备选解的失真包括以下两种方式，

(1)根据以下2-范数公式计算，

d_{w} (t, f) = {| | S_{w} (t, f) - S (t, f) | |}_{2} = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2}}^{1 / 2},

其中，S_wu(t,f)和S_u(t,f)分别为备选声源矢量S_w(t,f)和实际声源矢量S(t,f)的第u维分量，

(2)根据心理声学掩蔽门限计算噪掩比，

{NMR}_{w} (t, f) = {Σ_{u = 1}^{U} {(S_{w_{u}} (t, f) - S_{u} (t, f))}^{2} / {Mask}_{u} (t, f)}^{1 / 2},

其中，Mask_u(t,f)是声源的在时频点处的掩蔽门限。

3.一种用于声源分离的解码方法，其特征在于：对参考信息进行解码进行声源分离，包括从参考信息码流进行熵解码得到重新组织后的参考信息；根据下混信号判定参考信息的重要性；根据重要性将参考信息映射到相应的频率上，其余频率标定为无参考信息；对每帧每个频率根据有无参考信息实施声源分离；最后将分离后每个声源的时频变换系数通过时频逆变换得到分离后声源的时域样点；

所述根据下混信号判定参考信息的重要性，包括在同一帧t内，根据下混信号计算参考信息的重要性指标g(t,f)，计算公式为SMR_v(t,f),v＝1,2,…,V,是下混信号X(t,f)声道v的信遮比，SMR_v(t,f)≡|X_v(t,f)|/Mask_v(t,f)，Mask_v(t,f)是声道v在(t,f)处的遮蔽门限；

所述对每帧每个频率根据有无参考信息实施声源分离的实现方式为，

(a)有参考信息w_min(t,f)，当活跃声源数K＝V时，求组合方案O_wmin(t,f)下唯一的声源分离解当活跃声源数V<K<U时，求后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解

(b)无参考信息，设定活跃声源数K＝U，求后验条件概率密度函数P(S(t,f)|X(t,f))下最小均方差估计解S₁(t,f)。