CN110010148B

CN110010148B - 一种低复杂度的频域盲分离方法及系统

Info

Publication number: CN110010148B
Application number: CN201910207390.2A
Authority: CN
Inventors: 康坊; 杨飞然; 杨军
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2021-03-16
Anticipated expiration: 2039-03-19
Also published as: CN110010148A

Abstract

本发明公开了一种低复杂度的频域盲分离方法及系统，所述方法包括：获取麦克风阵列采集的频域分离信号；将当前频点与前一个频点的分离信号做相关性分析，完成每一个频点的分离信号的局部排序；将局部排序后的每个频点的分离信号与全局中心点做相关性分析，完成每一个频点的分离信号的全局排序；对全局排序后的分离信号进行幅度调整；将调整后的分离信号进行傅里叶变换得到时域的分离信号。采用本发明的局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性，同时减少了排序过程的迭代次数，具有较低的计算复杂度。

Description

一种低复杂度的频域盲分离方法及系统

技术领域

本发明涉及盲信号处理领域，特别涉及一种低复杂度的频域盲分离方法及系统。

背景技术

盲源分离是在传输信道特性未知，输入信息未知或者仅有少量先验信息的情况下，从系统的输出信号中分离或者估计源信号的波形。盲源分离根据信号混合方式，可以分为瞬时混合和卷积混合两种情况，前者仅仅是简单的线性叠加，迄今为止，线性瞬时混合盲分离算法是最成熟的一类盲分离算法；而卷积混合模型则需要考虑信源到麦克风之间的冲激响应。在很多实际应用中，例如房间中的声信号分离是卷积混合模型，线性瞬时混合算法并不适用。如何解决卷积混合盲分离问题是一个具有挑战性的问题。卷积混合盲分离算法可分为时域和频域求解。由于时域算法计算复杂度高，收敛速度慢等缺点，更多的学者将问题转化到频域解决，将成熟的瞬时混合盲分离算法应用到频域中，充分利用其优点，但是带来的排序模糊问题却直接影响分离结果。解决排序模糊性问题是频域盲分离算法研究中最重要的问题之一。

针对排序模糊性问题，解决方法主要概括为三类：

第一类方法是利用声源位置信息，采用波达方向(DOA)或者波达时间差(TDOA)的方法。这类方法通过分离矩阵估计方位角或者时延对分离声源进行分类，在低混响情况以及声源位置相距较远时有较好的分离效果，但是当声源位置靠近或者混响时间变长时，分离效果明显下降。

第二类方法是对分离矩阵平滑处理，在频域对相邻频点的分离矩阵进行加权平滑，从而来校正频点间的分离矩阵。这类方法计算量小、原理简单，但平滑后的分离矩阵与原分离矩阵有所差别，数值的改变影响分离效果。

第三类方法是利用频间相关性对分离后的声源进行排序调整，该类算法精确度高，要比前两类算法更适用于声源位置近以及混响严重的情况。但其缺点是当其中某一频点排序出错，可能会导致错误传播到其他频点，因此分离效果稳定性较差。

综上所述，利用频间相关性对分离后的声源进行排序调整算法是一种有效的主流算法。但仅依赖于同一声源相邻频点间的相关性高的特性进行分离时，某一频点判断有误可能会引起后面频点大面积的排列出错，而且同一声源不同频点间相关性高的这一特性并不一直成立。当声源为非平稳信号时，信号本身谱结构变化可能导致相邻频点的能量分布不同。此外前期分离过程中如果没有将混合信号完全分离出来，此时的频间相关性也会减弱。因此，如何有效地防止排序错误传播，提高分离稳定性并尽可能的降低运算量成是一个重要的问题。

发明内容

本发明的目的在于解决上述问题，提出一种低复杂度的频域盲分离方法，该方法在保证分离性能的同时加快排序方法的收敛速度，降低了计算复杂度。

为实现上述发明目的，本发明提出了一种低复杂度的频域盲分离方法，所述方法包括：

获取麦克风阵列采集的频域分离信号；

将当前频点与前一个频点的分离信号做相关性分析，完成每一个频点的分离信号的局部排序；

将局部排序后的每个频点的分离信号与全局中心点做相关性分析，完成每一个频点的分离信号的全局排序；

对全局排序后的分离信号进行幅度调整；

将调整后的分离信号进行傅里叶变换得到时域的分离信号。

作为上述方法的一种改进，所述方法具体包括：

步骤1)对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号，在每一个频点独立利用复数ICA算法对声源进行分离；得到每个频点的分离信号；

步骤2)将当前频点f的各个分离信号的能量占比序列按照不同的顺序排列组合，与前一频点已确定顺序的分离信号的能量占比序列对应位置依次计算相关系数，并确定一组均值最大的相关系数ρ_max及对应的排列顺序；如果ρ_max＞ε，则将ρ_max所对应的排列顺序作为当前频点新的声源顺序；如果ρ_max≤ε，则在当前频点之前的所有已排序的频点中挑选出ρ_max＞0.7的频点组成集合，并计算该集合中各分离信号的能量占比序列的中心点，将当前频点的各分离信号以不同的顺序与该中心点计算相关系数，选择均值最大的相关系数所对应的排列顺序作为当前频点新的声源顺序；重复该步骤，完成每一个频点的分离信号的局部排序；

步骤3)计算局部排序后的分离信号的全频带的全局能量占比序列中心点；依次计算局部排序后各个频点的分离信号的能量占比序列按不同的排列顺序与全局能量占比序列中心点的相关系数，并将均值最大的相关系数对应的顺序作为各频点新的声源顺序；重复该步骤，直至所有频点上的声源顺序均不再改变；完成每一个频点的分离信号的全局排序；

步骤4)对全局排序后的分离信号的分离信号进行幅度调整，得到幅度调整后的分离信号；

步骤5)将步骤4)幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)将M个麦克风接收到观测信号x_j(t)经过窗长为Q点的短时傅里叶变换得到频域信号X_j(l,f)，t为时刻；1≤j≤M，l为时间索引，1≤l≤B，B表示为混合数据分帧处理的总帧数；f为频率索引，

f_s为采样频率；x(l,f)＝[X₁(l,f),X₂(l,f),...,X_M(l,f)]^T是观测信号频域向量；

步骤1-2)采用频域ICA算法在每个频点独立地分离出每个声源信号，得到当前频点f的分离信号向量y(l,f)：

y(l,f)＝W(f)x(l,f) (3)

其中，W(f)为N×M的分离矩阵，y(l,f)＝[y₁(l,f),y₂(l,f),...,y_N(l,f)]^T，N为声源的数量，y_i(l,f)表示第i个分离信号，1≤i≤N。

作为上述方法的一种改进，所述频域ICA算法为：基于负熵最大化法、互信息最小法或最大似然函数估计。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)计算当前频点f的分离信号向量y(l,f)的能量占比序列向量v(l,f)＝[v₁(l,f),v₂(l,f),...,v_N(l,f)]^T：

其中，v_i(l,f)表示第i个分离信号第l时间帧的能量占比，a_i＝[a_1i,a_2i,...,a_Mi]表示分离矩阵W(f)的逆矩阵Α(f)＝W^-1(f)＝[a₁(f),...,a_N(f)]的第i列向量；

步骤2-2)根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f)：

其中，第i列表示第i个分离信号的时间序列；将当前频点f的能量占比时间序列

V(f)的列向量按不同的顺序重新组合，然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ，并选取均值最大的相关系ρ_max及对应的声源顺序；

步骤2-3)如果ρ_max大于设定的阈值ε，进入步骤2-6)，否则，进入步骤2-4)；阈值ε的取值范围0.5≤ε≤0.7；

步骤2-4)计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点m_k的相关系数，局部中心点m_k为：

其中，v_k(f)为V(f)的第k个列向量，表示第k个分离信号的能量占比时间序列；N_F表示局部频点的集合，该集合元素的选择方法为：从[1,...,f-2,f-1]中选取可信度高的频点；|N_F|表示集合的长度；所述的可靠度高是指相关系数大于0.7；

步骤2-5)从步骤2-4)的相关系数中寻找一组均值最大的相关系数及对应的声源顺序；

步骤2-6)根据均值最大的相关系数ρ_max对应的声源顺序得到置换矩阵P(f)，对分离信号向量y(l,f)进行调整，得到局部排序的分离信号向量y_p(l,f)：

y_p(l,f)＝P(f)y(l,f) (12)

对每个频点f重复步骤2-1)至步骤2-6)，直至每一个频点的分离信号完成局部排序。

作为上述方法的一种改进，所述步骤3)具体包括：

步骤3-1)计算步骤2)局部排序后的每个频点的分离信号的能量占比时间序列

然后在整个频带计算全局中心点C_k：

其中，

为

的第k个列向量；F表示所有频点的集合，|F|表示集合的长度；

步骤3-2)将每一个频点的分离信号的能量占比时间序列

的每一列向量按不同的顺序组合与C_k做相关性分析，计算相关系数；

步骤3-3)根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f)，对声源顺序及对应的能量占比序列进行调整；转入步骤3-1)；直到顺序不再发生变化；全局排序后的每一个频点的分离信号向量为

作为上述方法的一种改进，所述步骤4)具体包括：通过对角矩阵Λ(f)对全局排序后的分离信号向量

进行幅度调整：

利用最小失真准则计算幅度调整矩阵Λ(f)：

Λ(f)＝diag(A(f)) (6)

其中Α(f)＝W^-1(f)＝[a₁(f),...,a_N(f)]，(·)^-1表示矩阵的逆或伪逆。

本发明还提供了一种低复杂度的频域盲分离系统，所述系统包括：短时傅里叶变换模块，ICA分离模块，局部排序模块，全局排序模块，幅度调整模块和逆短时傅里叶变换模块，

所述短时傅里叶变换模块，用于对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号；

所述ICA分离模块，用于在每一个频点独立利用复数ICA算法对声源进行分离；得到每个频点的分离信号；

所述局部排序模块，用于将当前频点与前一个频点的分离信号做相关性分析，完成每一个频点的分离信号的局部排序；

所述全局排序模块，用于将局部排序后的每个频点的分离信号与全局中心点做相关性分析，完成每一个频点的分离信号的全局排序；

所述的幅度调整模块，用于对全局排序后的分离信号进行幅度调整；

所述逆短时傅里叶变换模块，用于对幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号。

作为上述系统的一种改进，所述局部排序模块进一步包括：计算能量占比序列单元、相邻频点相关性分析单元、当前频点与局部中心点相关性分析单元和声源顺序局部调整单元；

所述计算能量占比序列单元，用于对当前频点f的分离信号y(l,f)计算能量占比序列v(l,f)，其中v(l,f)的第i个元素表示第i个分离信号第l时间帧的能量占比，计算方法为：

其中，y(l,f)＝[y₁(l,f),y₂(l,f),...,y_N(l,f)]^T；N为声源的数量，y_i(l,f)表示第i个分离信号，1≤i≤N；l为时间索引，1≤l≤B，B表示为混合数据分帧处理的总帧数；f为频率索引，

f_s为采样频率；

所述相邻频点相关性分析单元，用于根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f)：

将当前频点f的能量占比时间序列V(f)的列向量按不同的顺序重新组合，然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ，并选取均值最大的相关系ρ_max及对应的声源顺序；如果ρ_max大于设定的阈值ε，进入声源顺序局部调整单元，否则，进入当前频点与局部中心点相关性分析单元；阈值ε的取值范围0.5≤ε≤0.7；

所述当前频点与局部中心点相关性分析单元，用于计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点m_k的相关系数，局部中心点m_k为：

所述声源顺序局部调整单元，用于根据均值最大的相关系数ρ_max对应的声源顺序得到置换矩阵P(f)，对分离信号向量y(l,f)进行调整，得到局部排序后的分离信号向量y_p(l,f)：

y_p(l,f)＝P(f)y(l,f) (12)。

作为上述系统的一种改进，所述全局排序模块包括：全局中心点计算单元、全局中心点相关性分析单元和声源顺序全局调整单元；

所述全局中心点计算单元，用于计算局部排序后的每个频点的分离信号的能量占比时间序列

然后在整个频带计算全局中心点C_k：

其中，

为

所述全局中心点相关性分析单元，用于将每一个频点的分离信号的能量占比时间序列

所述声源顺序全局调整单元，用于根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f)，对声源顺序及对应的能量占比序列进行调整；转入全局中心点计算单元；直到顺序不再发生变化；全局排序后的每一个频点的分离信号向量为

本发明的优点在于：

1、本发明采用的局部排序中，对频间相关性进行二次判决的方法，尽可能地保证了声源顺序的准确性，且为全局中心点聚类排序提供了很好的初始化，极大地降低了全局排序所需的迭代次数，降低了计算复杂度；此外，全局排序保证了每个频点的声源顺序是最优组合；

2、本发明的方法能够有效地分离在不同环境下的卷积混合信号，减少了排序过程的迭代次数，具有较低的计算复杂度；

3、采用本发明的方法，局部排序后声源顺序基本统一，能够为全局中心点校正提供很好的初始化，降低了全局排序的收敛速度；

4、采用本发明的局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性。

附图说明

图1为本发明的实施例1的信号混合和分离系统框图；

图2为本发明的频域盲分离方法的流程图；

图3为本发明的解决频域盲分离中顺序模糊性问题的排序方法框图；

图4为未经排序的声源顺序图；

图5为经过相邻频点相关性判断后的声源顺序图；

图6为局部排序完成后声源顺序图；

图7为全局排序完成后声源顺序图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

实施例1

本发明的实施例1提供了一种低复杂度的频域盲分离系统，所述系统具体包括：

如图1所示，图1为信号混合和分离系统框图，包括混合系统模块101和分离系统模块102。各声源信号通过不同的传递路径到达麦克风，麦克风接收到混合之后的观测信号，再经过分离系统得到声源的估计。

所述的混合系统模块101是将N个声源信号s₁(t),s₂(t),...,s_N(t)与房间脉冲响应h_ji(t)(表示第i个声源到第j个麦克风之间的长度为P的FIR脉冲响应)卷积并组合得到M个观测信号x₁(t),x₂(t),...,x_M(t)。

所述的分离系统模块102是通过分离滤波器W(t)对观测信号x₁(t),x₂(t),...,x_M(t)进行滤波得到最后的分离信号y₁(t),y₂(t),...,y_N(t)。

如图2所示，图2为分离系统模块102采用的频域盲分离方法的流程图，所述的分离系统模块102进一步包括：

短时傅里叶变换模块201，所述的短时傅里叶变换模块201是将麦克风接收到观测信号x_j(t)经过窗长为Q点的短时傅里叶变换得到频域信号，可得到如下表达方式：

其中j∈[1,2,...,M]，l为时间索引，f为频率索引，

f_s为采样频率，H_ji(f)与S_i(l,f)分别为h_ji(t)和s_i(t)的频域表示。将(1)表示为向量形式为：

x(l,f)＝H(f)s(l,f) (2)

其中x(l,f)＝[X₁(l,f),X₂(l,f),...,X_M(l,f)]^T是观测信号频域向量，s(l,f)＝[S₁(l,f),S₂(l,f),...,S_M(l,f)]^T是声源信号频域向量，[·]^T表示矩阵转置，H(f)为M×N的混合矩阵其第i列是h_i＝[H_1i,H_2i,...,H_Mi]^T。

ICA分离模块202，所述的ICA分离模块202是指采用频域ICA算法是在每个频点独立的分离出每个声源信号的成分，也就是将恢复信号表示为频域观测信号的线性叠加的形式

y(l,f)＝W(f)x(l,f) (3)

其中W(f)为的分离矩阵。可以利用复数瞬时ICA算法来估计分离矩阵W(f)，比如快速独立成分分析，最大似然估计等。

顺序调整模块203，所述的顺序调整模块203是解决ICA分离后的各个频点的分离信号存在的顺序模糊性问题，需通过置换矩阵P(f)对分离信号进行顺序调整：

幅度调整模块204，所述的幅度调整模块204是解决ICA分离后的各个频点的分离信号存在的幅度模糊性问题，需通过对角矩阵Λ(f)对分离信号进行幅度调整：

幅度模糊性可以利用最小失真准则解决。计算幅度调整矩阵Λ(f)，得到

Λ(f)＝diag(A(f)) (6)

逆短时傅里叶变换模块205，所述的逆短时傅里叶变换模块205是将经过顺序调整和幅度调整后的频域分离信号经过逆短时傅里叶变换得到第i个时域声源的估计信号

其中w_ij是分离矩阵W(f)的时域表示。

如图3所示，所述的顺序调整模块203进一步包括：

计算能量占比序列单元301，所述的计算能量占比序列单元301是对当前频点f的分离信号y(l,f)计算能量占比序列v(l,f)，其中v(l,f)的第i个元素表示第i个分离信号第l时间帧的能量占比，计算方法为：

相邻频点相关性分析单元302，所述的相邻频点相关性分析单元302是根据每个时间帧计算的v(l,f)组成时间序列V(f)。

对V(f)和前一频点V(f-1)做相关性分析，具体的分析方法为计算皮尔逊相关系数ρ。两个随机变量x₁和x₂的皮尔逊相关系数的计算方法为：

其中cov(x₁,x₂)表示两个变量之间的协方差，σ₁和σ₂表示两个变量的标准差。

假定相邻频点的声源顺序已知且确定，将当前频点f的能量占比序列V(f)的列向量按不同的顺序重新组合，然后与V(f-1)的每一列向量对应地求相关系数，并选取均值最大的相关系ρ_max及对应的声源顺序组合，将此时的相关系数ρ_max作为该频点相关性分析的结果。

在得到ρ_max后对其进行阈值判断，如果大于设定的阈值ε，则直接跳声源顺序局部调整单元304，否则进入当前频点与局部中心点相关性分析单元303。阈值ε的取值范围0.5≤ε≤0.7。

当前频点与局部中心点相关性分析单元303，所述的当前频点与局部中心点相关性分析单元303是计算当前频点f下V(f)的不同列向量组合与局部中心点m_k的相关系数，并寻找一组均值最大的相关系数及对应的声源顺序组合。局部中心点m_k的计算方法为：

其中v_k为V(f)的第k个列向量，表示第k个分离信号的能量占比时间序列；N_F表示局部频点的集合，该集合元素的选择方法为：从[1,...,f-2,f-1]中选取可信度高(即相关系数为强相关ρ＞0.7)的频点；|N_F|表示集合的长度。

声源顺序局部调整单元304，所述的声源顺序局部调整单元304是根据均值最大的相关系数ρ_max及对应的声源顺序得到置换矩阵P(f)，对声源顺序进行调整，

y_p(l,f)＝P(f)y(l,f) (12)

同时相应地更新能量占比序列的顺序

全局中心点计算单元305，所述的全局中心点计算单元305是在每个频点均完成声源顺序局部调整单元304之后，在整个频带计算全局中心点C_k，计算方法为

其中F表示所有频点的集合，|F|表示集合的长度。

全局中心点相关性分析单元306，所述的全局中心点相关性分析单元306是将每一个频点的能量占比序列

的每一列向量按不同的顺序组合与C_k的做相关性分析，计算相关系数并得到均值最大的相关系数所对应的顺序组合。

声源顺序全局调整单元307，所述的声源顺序全局调整单元307根据得到的均值最大的相关系数所对应的顺序组合确定置换矩阵P(f)，对声源顺序及对应的能量占比序列进行调整。

重复全局中心点计算单元305、全局中心点相关性分析单元306和声源顺序全局调整单元307直到声源顺序不再变化。

局部排序模块308，所述的局部排序模块308是指声源顺序调整只用到了相邻频点和f频点之前的部分频点，此为局部排序。局部排序模块308包含相邻频点相关性分析单元302，当前频点与局部中心点相关性分析单元303，声源顺序局部调整单元304。

全局排序模块309，所述的全局排序模块309是指声源顺序根据全频带的中心点进行调整，并判断声源顺序是否改变，若改变，继续进入全局中心点计算单元305、全局中心点相关性分析单元306和声源顺序全局调整单元307，更新全局中心点并做相关性分析，根据全局中心点相关性调整声源顺序，若不再改变，则排序结束。

如图4所示，图4为复数ICA分离后，未经排序的各频点声源顺序。所述的声源顺序的获取由以下计算方法得到：

J(f)＝W(f)H(f) (14)

其中perm_i表示第i个分离信号所属的声源号。J_ij(f)表示J(f)中第i行第j列元素。通过图3的结果可以看出，未经排序的声源顺序杂乱无章，每个分离信号均包含了多个声源的频率成分，信号没有分离开。

图5～图7分别为排序过程中的声源顺序结果。如图5所示，图5为仅经过相邻频点排序后的声源顺序。此时的声源顺序以区域的方式呈现出统一的趋势，但频带间的声源顺序并不统一。如图6所示，图6为对相关性低的频点再次经过局部中心点重排后的声源顺序，相关性判决阈值ε＝0.7，对相关系数低的频点经过再次重排后，除了少部分低频成分存在排错的情况，绝大部分频点的声源顺序均能统一。如图7所示，图7为经过全局中心点校正后的声源顺序，在全局排序之后，除了个别某些ICA分离失败的频点，局部排序无法确定的声源顺序均能正确校正。

通过分析图4、图5、图6和图7可以得出以下结论：

首先，采用本发明技术后，频域盲分离中存在的顺序模糊性问题得以解决；

其次，采用本发明技术后，局部排序后声源顺序基本统一，能够为全局中心点校正提供很好的初始化，降低了全局排序的收敛速度；

最后，采用本发明技术后，局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性。

实施例2

本发明的实施例2提供了一种低复杂度的频域盲分离方法，所述方法具体包括：

y(l,f)＝W(f)x(l,f) (3)

所述频域ICA算法为：基于负熵最大化法、互信息最小法或最大似然函数估计。

所述步骤2)具体包括：

其中，v_i(l,f)表示第i个分离信号第l时间帧的能量占比；

y_p(l,f)＝P(f)y(l,f) (12)

然后在整个频带计算全局中心点C_k：

其中，

为

步骤3-2)将每一个频点的分离信号的能量占比时间序列

步骤4)对全局排序后的分离信号的分离信号进行幅度调整；得到幅度调整后的分离信号；

通过对角矩阵Λ(f)对全局排序后的分离信号向量

进行幅度调整：

利用最小失真准则计算幅度调整矩阵Λ(f)：

Λ(f)＝diag(A(f)) (6)

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。