CN110010148B - 一种低复杂度的频域盲分离方法及系统 - Google Patents

一种低复杂度的频域盲分离方法及系统 Download PDF

Info

Publication number
CN110010148B
CN110010148B CN201910207390.2A CN201910207390A CN110010148B CN 110010148 B CN110010148 B CN 110010148B CN 201910207390 A CN201910207390 A CN 201910207390A CN 110010148 B CN110010148 B CN 110010148B
Authority
CN
China
Prior art keywords
frequency point
separation
sequence
signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910207390.2A
Other languages
English (en)
Other versions
CN110010148A (zh
Inventor
康坊
杨飞然
杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201910207390.2A priority Critical patent/CN110010148B/zh
Publication of CN110010148A publication Critical patent/CN110010148A/zh
Application granted granted Critical
Publication of CN110010148B publication Critical patent/CN110010148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

本发明公开了一种低复杂度的频域盲分离方法及系统,所述方法包括:获取麦克风阵列采集的频域分离信号;将当前频点与前一个频点的分离信号做相关性分析,完成每一个频点的分离信号的局部排序;将局部排序后的每个频点的分离信号与全局中心点做相关性分析,完成每一个频点的分离信号的全局排序;对全局排序后的分离信号进行幅度调整;将调整后的分离信号进行傅里叶变换得到时域的分离信号。采用本发明的局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性,同时减少了排序过程的迭代次数,具有较低的计算复杂度。

Description

一种低复杂度的频域盲分离方法及系统
技术领域
本发明涉及盲信号处理领域,特别涉及一种低复杂度的频域盲分离方法及系统。
背景技术
盲源分离是在传输信道特性未知,输入信息未知或者仅有少量先验信息的情况下,从系统的输出信号中分离或者估计源信号的波形。盲源分离根据信号混合方式,可以分为瞬时混合和卷积混合两种情况,前者仅仅是简单的线性叠加,迄今为止,线性瞬时混合盲分离算法是最成熟的一类盲分离算法;而卷积混合模型则需要考虑信源到麦克风之间的冲激响应。在很多实际应用中,例如房间中的声信号分离是卷积混合模型,线性瞬时混合算法并不适用。如何解决卷积混合盲分离问题是一个具有挑战性的问题。卷积混合盲分离算法可分为时域和频域求解。由于时域算法计算复杂度高,收敛速度慢等缺点,更多的学者将问题转化到频域解决,将成熟的瞬时混合盲分离算法应用到频域中,充分利用其优点,但是带来的排序模糊问题却直接影响分离结果。解决排序模糊性问题是频域盲分离算法研究中最重要的问题之一。
针对排序模糊性问题,解决方法主要概括为三类:
第一类方法是利用声源位置信息,采用波达方向(DOA)或者波达时间差(TDOA)的方法。这类方法通过分离矩阵估计方位角或者时延对分离声源进行分类,在低混响情况以及声源位置相距较远时有较好的分离效果,但是当声源位置靠近或者混响时间变长时,分离效果明显下降。
第二类方法是对分离矩阵平滑处理,在频域对相邻频点的分离矩阵进行加权平滑,从而来校正频点间的分离矩阵。这类方法计算量小、原理简单,但平滑后的分离矩阵与原分离矩阵有所差别,数值的改变影响分离效果。
第三类方法是利用频间相关性对分离后的声源进行排序调整,该类算法精确度高,要比前两类算法更适用于声源位置近以及混响严重的情况。但其缺点是当其中某一频点排序出错,可能会导致错误传播到其他频点,因此分离效果稳定性较差。
综上所述,利用频间相关性对分离后的声源进行排序调整算法是一种有效的主流算法。但仅依赖于同一声源相邻频点间的相关性高的特性进行分离时,某一频点判断有误可能会引起后面频点大面积的排列出错,而且同一声源不同频点间相关性高的这一特性并不一直成立。当声源为非平稳信号时,信号本身谱结构变化可能导致相邻频点的能量分布不同。此外前期分离过程中如果没有将混合信号完全分离出来,此时的频间相关性也会减弱。因此,如何有效地防止排序错误传播,提高分离稳定性并尽可能的降低运算量成是一个重要的问题。
发明内容
本发明的目的在于解决上述问题,提出一种低复杂度的频域盲分离方法,该方法在保证分离性能的同时加快排序方法的收敛速度,降低了计算复杂度。
为实现上述发明目的,本发明提出了一种低复杂度的频域盲分离方法,所述方法包括:
获取麦克风阵列采集的频域分离信号;
将当前频点与前一个频点的分离信号做相关性分析,完成每一个频点的分离信号的局部排序;
将局部排序后的每个频点的分离信号与全局中心点做相关性分析,完成每一个频点的分离信号的全局排序;
对全局排序后的分离信号进行幅度调整;
将调整后的分离信号进行傅里叶变换得到时域的分离信号。
作为上述方法的一种改进,所述方法具体包括:
步骤1)对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号,在每一个频点独立利用复数ICA算法对声源进行分离;得到每个频点的分离信号;
步骤2)将当前频点f的各个分离信号的能量占比序列按照不同的顺序排列组合,与前一频点已确定顺序的分离信号的能量占比序列对应位置依次计算相关系数,并确定一组均值最大的相关系数ρmax及对应的排列顺序;如果ρmax>ε,则将ρmax所对应的排列顺序作为当前频点新的声源顺序;如果ρmax≤ε,则在当前频点之前的所有已排序的频点中挑选出ρmax>0.7的频点组成集合,并计算该集合中各分离信号的能量占比序列的中心点,将当前频点的各分离信号以不同的顺序与该中心点计算相关系数,选择均值最大的相关系数所对应的排列顺序作为当前频点新的声源顺序;重复该步骤,完成每一个频点的分离信号的局部排序;
步骤3)计算局部排序后的分离信号的全频带的全局能量占比序列中心点;依次计算局部排序后各个频点的分离信号的能量占比序列按不同的排列顺序与全局能量占比序列中心点的相关系数,并将均值最大的相关系数对应的顺序作为各频点新的声源顺序;重复该步骤,直至所有频点上的声源顺序均不再改变;完成每一个频点的分离信号的全局排序;
步骤4)对全局排序后的分离信号的分离信号进行幅度调整,得到幅度调整后的分离信号;
步骤5)将步骤4)幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)将M个麦克风接收到观测信号xj(t)经过窗长为Q点的短时傅里叶变换得到频域信号Xj(l,f),t为时刻;1≤j≤M,l为时间索引,1≤l≤B,B表示为混合数据分帧处理的总帧数;f为频率索引,
Figure BDA0001999431020000031
fs为采样频率;x(l,f)=[X1(l,f),X2(l,f),...,XM(l,f)]T是观测信号频域向量;
步骤1-2)采用频域ICA算法在每个频点独立地分离出每个声源信号,得到当前频点f的分离信号向量y(l,f):
y(l,f)=W(f)x(l,f) (3)
其中,W(f)为N×M的分离矩阵,y(l,f)=[y1(l,f),y2(l,f),...,yN(l,f)]T,N为声源的数量,yi(l,f)表示第i个分离信号,1≤i≤N。
作为上述方法的一种改进,所述频域ICA算法为:基于负熵最大化法、互信息最小法或最大似然函数估计。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤2-1)计算当前频点f的分离信号向量y(l,f)的能量占比序列向量v(l,f)=[v1(l,f),v2(l,f),...,vN(l,f)]T
Figure BDA0001999431020000032
其中,vi(l,f)表示第i个分离信号第l时间帧的能量占比,ai=[a1i,a2i,...,aMi]表示分离矩阵W(f)的逆矩阵Α(f)=W-1(f)=[a1(f),...,aN(f)]的第i列向量;
步骤2-2)根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f):
Figure BDA0001999431020000041
其中,第i列表示第i个分离信号的时间序列;将当前频点f的能量占比时间序列
V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ,并选取均值最大的相关系ρmax及对应的声源顺序;
步骤2-3)如果ρmax大于设定的阈值ε,进入步骤2-6),否则,进入步骤2-4);阈值ε的取值范围0.5≤ε≤0.7;
步骤2-4)计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点mk的相关系数,局部中心点mk为:
Figure BDA0001999431020000042
其中,vk(f)为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高的频点;|NF|表示集合的长度;所述的可靠度高是指相关系数大于0.7;
步骤2-5)从步骤2-4)的相关系数中寻找一组均值最大的相关系数及对应的声源顺序;
步骤2-6)根据均值最大的相关系数ρmax对应的声源顺序得到置换矩阵P(f),对分离信号向量y(l,f)进行调整,得到局部排序的分离信号向量yp(l,f):
yp(l,f)=P(f)y(l,f) (12)
对每个频点f重复步骤2-1)至步骤2-6),直至每一个频点的分离信号完成局部排序。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤3-1)计算步骤2)局部排序后的每个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000043
然后在整个频带计算全局中心点Ck
Figure BDA0001999431020000051
其中,
Figure BDA0001999431020000052
Figure BDA0001999431020000053
的第k个列向量;F表示所有频点的集合,|F|表示集合的长度;
步骤3-2)将每一个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000054
的每一列向量按不同的顺序组合与Ck做相关性分析,计算相关系数;
步骤3-3)根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整;转入步骤3-1);直到顺序不再发生变化;全局排序后的每一个频点的分离信号向量为
Figure BDA0001999431020000055
作为上述方法的一种改进,所述步骤4)具体包括:通过对角矩阵Λ(f)对全局排序后的分离信号向量
Figure BDA0001999431020000056
进行幅度调整:
Figure BDA0001999431020000057
利用最小失真准则计算幅度调整矩阵Λ(f):
Λ(f)=diag(A(f)) (6)
其中Α(f)=W-1(f)=[a1(f),...,aN(f)],(·)-1表示矩阵的逆或伪逆。
本发明还提供了一种低复杂度的频域盲分离系统,所述系统包括:短时傅里叶变换模块,ICA分离模块,局部排序模块,全局排序模块,幅度调整模块和逆短时傅里叶变换模块,
所述短时傅里叶变换模块,用于对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号;
所述ICA分离模块,用于在每一个频点独立利用复数ICA算法对声源进行分离;得到每个频点的分离信号;
所述局部排序模块,用于将当前频点与前一个频点的分离信号做相关性分析,完成每一个频点的分离信号的局部排序;
所述全局排序模块,用于将局部排序后的每个频点的分离信号与全局中心点做相关性分析,完成每一个频点的分离信号的全局排序;
所述的幅度调整模块,用于对全局排序后的分离信号进行幅度调整;
所述逆短时傅里叶变换模块,用于对幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号。
作为上述系统的一种改进,所述局部排序模块进一步包括:计算能量占比序列单元、相邻频点相关性分析单元、当前频点与局部中心点相关性分析单元和声源顺序局部调整单元;
所述计算能量占比序列单元,用于对当前频点f的分离信号y(l,f)计算能量占比序列v(l,f),其中v(l,f)的第i个元素表示第i个分离信号第l时间帧的能量占比,计算方法为:
Figure BDA0001999431020000061
其中,y(l,f)=[y1(l,f),y2(l,f),...,yN(l,f)]T;N为声源的数量,yi(l,f)表示第i个分离信号,1≤i≤N;l为时间索引,1≤l≤B,B表示为混合数据分帧处理的总帧数;f为频率索引,
Figure BDA0001999431020000062
fs为采样频率;
所述相邻频点相关性分析单元,用于根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f):
Figure BDA0001999431020000063
将当前频点f的能量占比时间序列V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ,并选取均值最大的相关系ρmax及对应的声源顺序;如果ρmax大于设定的阈值ε,进入声源顺序局部调整单元,否则,进入当前频点与局部中心点相关性分析单元;阈值ε的取值范围0.5≤ε≤0.7;
所述当前频点与局部中心点相关性分析单元,用于计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点mk的相关系数,局部中心点mk为:
Figure BDA0001999431020000071
其中,vk(f)为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高的频点;|NF|表示集合的长度;所述的可靠度高是指相关系数大于0.7;
所述声源顺序局部调整单元,用于根据均值最大的相关系数ρmax对应的声源顺序得到置换矩阵P(f),对分离信号向量y(l,f)进行调整,得到局部排序后的分离信号向量yp(l,f):
yp(l,f)=P(f)y(l,f) (12)。
作为上述系统的一种改进,所述全局排序模块包括:全局中心点计算单元、全局中心点相关性分析单元和声源顺序全局调整单元;
所述全局中心点计算单元,用于计算局部排序后的每个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000072
然后在整个频带计算全局中心点Ck
Figure BDA0001999431020000073
其中,
Figure BDA0001999431020000074
Figure BDA0001999431020000075
的第k个列向量;F表示所有频点的集合,|F|表示集合的长度;
所述全局中心点相关性分析单元,用于将每一个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000076
的每一列向量按不同的顺序组合与Ck做相关性分析,计算相关系数;
所述声源顺序全局调整单元,用于根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整;转入全局中心点计算单元;直到顺序不再发生变化;全局排序后的每一个频点的分离信号向量为
Figure BDA0001999431020000077
本发明的优点在于:
1、本发明采用的局部排序中,对频间相关性进行二次判决的方法,尽可能地保证了声源顺序的准确性,且为全局中心点聚类排序提供了很好的初始化,极大地降低了全局排序所需的迭代次数,降低了计算复杂度;此外,全局排序保证了每个频点的声源顺序是最优组合;
2、本发明的方法能够有效地分离在不同环境下的卷积混合信号,减少了排序过程的迭代次数,具有较低的计算复杂度;
3、采用本发明的方法,局部排序后声源顺序基本统一,能够为全局中心点校正提供很好的初始化,降低了全局排序的收敛速度;
4、采用本发明的局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性。
附图说明
图1为本发明的实施例1的信号混合和分离系统框图;
图2为本发明的频域盲分离方法的流程图;
图3为本发明的解决频域盲分离中顺序模糊性问题的排序方法框图;
图4为未经排序的声源顺序图;
图5为经过相邻频点相关性判断后的声源顺序图;
图6为局部排序完成后声源顺序图;
图7为全局排序完成后声源顺序图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
实施例1
本发明的实施例1提供了一种低复杂度的频域盲分离系统,所述系统具体包括:
如图1所示,图1为信号混合和分离系统框图,包括混合系统模块101和分离系统模块102。各声源信号通过不同的传递路径到达麦克风,麦克风接收到混合之后的观测信号,再经过分离系统得到声源的估计。
所述的混合系统模块101是将N个声源信号s1(t),s2(t),...,sN(t)与房间脉冲响应hji(t)(表示第i个声源到第j个麦克风之间的长度为P的FIR脉冲响应)卷积并组合得到M个观测信号x1(t),x2(t),...,xM(t)。
所述的分离系统模块102是通过分离滤波器W(t)对观测信号x1(t),x2(t),...,xM(t)进行滤波得到最后的分离信号y1(t),y2(t),...,yN(t)。
如图2所示,图2为分离系统模块102采用的频域盲分离方法的流程图,所述的分离系统模块102进一步包括:
短时傅里叶变换模块201,所述的短时傅里叶变换模块201是将麦克风接收到观测信号xj(t)经过窗长为Q点的短时傅里叶变换得到频域信号,可得到如下表达方式:
Figure BDA0001999431020000091
其中j∈[1,2,...,M],l为时间索引,f为频率索引,
Figure BDA0001999431020000092
fs为采样频率,Hji(f)与Si(l,f)分别为hji(t)和si(t)的频域表示。将(1)表示为向量形式为:
x(l,f)=H(f)s(l,f) (2)
其中x(l,f)=[X1(l,f),X2(l,f),...,XM(l,f)]T是观测信号频域向量,s(l,f)=[S1(l,f),S2(l,f),...,SM(l,f)]T是声源信号频域向量,[·]T表示矩阵转置,H(f)为M×N的混合矩阵其第i列是hi=[H1i,H2i,...,HMi]T
ICA分离模块202,所述的ICA分离模块202是指采用频域ICA算法是在每个频点独立的分离出每个声源信号的成分,也就是将恢复信号表示为频域观测信号的线性叠加的形式
y(l,f)=W(f)x(l,f) (3)
其中W(f)为的分离矩阵。可以利用复数瞬时ICA算法来估计分离矩阵W(f),比如快速独立成分分析,最大似然估计等。
顺序调整模块203,所述的顺序调整模块203是解决ICA分离后的各个频点的分离信号存在的顺序模糊性问题,需通过置换矩阵P(f)对分离信号进行顺序调整:
Figure BDA0001999431020000093
幅度调整模块204,所述的幅度调整模块204是解决ICA分离后的各个频点的分离信号存在的幅度模糊性问题,需通过对角矩阵Λ(f)对分离信号进行幅度调整:
Figure BDA0001999431020000101
幅度模糊性可以利用最小失真准则解决。计算幅度调整矩阵Λ(f),得到
Λ(f)=diag(A(f)) (6)
其中Α(f)=W-1(f)=[a1(f),...,aN(f)],(·)-1表示矩阵的逆或伪逆。
逆短时傅里叶变换模块205,所述的逆短时傅里叶变换模块205是将经过顺序调整和幅度调整后的频域分离信号经过逆短时傅里叶变换得到第i个时域声源的估计信号
Figure BDA0001999431020000102
Figure BDA0001999431020000103
其中wij是分离矩阵W(f)的时域表示。
如图3所示,所述的顺序调整模块203进一步包括:
计算能量占比序列单元301,所述的计算能量占比序列单元301是对当前频点f的分离信号y(l,f)计算能量占比序列v(l,f),其中v(l,f)的第i个元素表示第i个分离信号第l时间帧的能量占比,计算方法为:
Figure BDA0001999431020000104
相邻频点相关性分析单元302,所述的相邻频点相关性分析单元302是根据每个时间帧计算的v(l,f)组成时间序列V(f)。
Figure BDA0001999431020000105
对V(f)和前一频点V(f-1)做相关性分析,具体的分析方法为计算皮尔逊相关系数ρ。两个随机变量x1和x2的皮尔逊相关系数的计算方法为:
Figure BDA0001999431020000106
其中cov(x1,x2)表示两个变量之间的协方差,σ1和σ2表示两个变量的标准差。
假定相邻频点的声源顺序已知且确定,将当前频点f的能量占比序列V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求相关系数,并选取均值最大的相关系ρmax及对应的声源顺序组合,将此时的相关系数ρmax作为该频点相关性分析的结果。
在得到ρmax后对其进行阈值判断,如果大于设定的阈值ε,则直接跳声源顺序局部调整单元304,否则进入当前频点与局部中心点相关性分析单元303。阈值ε的取值范围0.5≤ε≤0.7。
当前频点与局部中心点相关性分析单元303,所述的当前频点与局部中心点相关性分析单元303是计算当前频点f下V(f)的不同列向量组合与局部中心点mk的相关系数,并寻找一组均值最大的相关系数及对应的声源顺序组合。局部中心点mk的计算方法为:
Figure BDA0001999431020000111
其中vk为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高(即相关系数为强相关ρ>0.7)的频点;|NF|表示集合的长度。
声源顺序局部调整单元304,所述的声源顺序局部调整单元304是根据均值最大的相关系数ρmax及对应的声源顺序得到置换矩阵P(f),对声源顺序进行调整,
yp(l,f)=P(f)y(l,f) (12)
同时相应地更新能量占比序列的顺序
Figure BDA0001999431020000112
全局中心点计算单元305,所述的全局中心点计算单元305是在每个频点均完成声源顺序局部调整单元304之后,在整个频带计算全局中心点Ck,计算方法为
Figure BDA0001999431020000113
其中F表示所有频点的集合,|F|表示集合的长度。
全局中心点相关性分析单元306,所述的全局中心点相关性分析单元306是将每一个频点的能量占比序列
Figure BDA0001999431020000122
的每一列向量按不同的顺序组合与Ck的做相关性分析,计算相关系数并得到均值最大的相关系数所对应的顺序组合。
声源顺序全局调整单元307,所述的声源顺序全局调整单元307根据得到的均值最大的相关系数所对应的顺序组合确定置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整。
重复全局中心点计算单元305、全局中心点相关性分析单元306和声源顺序全局调整单元307直到声源顺序不再变化。
局部排序模块308,所述的局部排序模块308是指声源顺序调整只用到了相邻频点和f频点之前的部分频点,此为局部排序。局部排序模块308包含相邻频点相关性分析单元302,当前频点与局部中心点相关性分析单元303,声源顺序局部调整单元304。
全局排序模块309,所述的全局排序模块309是指声源顺序根据全频带的中心点进行调整,并判断声源顺序是否改变,若改变,继续进入全局中心点计算单元305、全局中心点相关性分析单元306和声源顺序全局调整单元307,更新全局中心点并做相关性分析,根据全局中心点相关性调整声源顺序,若不再改变,则排序结束。
如图4所示,图4为复数ICA分离后,未经排序的各频点声源顺序。所述的声源顺序的获取由以下计算方法得到:
J(f)=W(f)H(f) (14)
Figure BDA0001999431020000121
其中permi表示第i个分离信号所属的声源号。Jij(f)表示J(f)中第i行第j列元素。通过图3的结果可以看出,未经排序的声源顺序杂乱无章,每个分离信号均包含了多个声源的频率成分,信号没有分离开。
图5~图7分别为排序过程中的声源顺序结果。如图5所示,图5为仅经过相邻频点排序后的声源顺序。此时的声源顺序以区域的方式呈现出统一的趋势,但频带间的声源顺序并不统一。如图6所示,图6为对相关性低的频点再次经过局部中心点重排后的声源顺序,相关性判决阈值ε=0.7,对相关系数低的频点经过再次重排后,除了少部分低频成分存在排错的情况,绝大部分频点的声源顺序均能统一。如图7所示,图7为经过全局中心点校正后的声源顺序,在全局排序之后,除了个别某些ICA分离失败的频点,局部排序无法确定的声源顺序均能正确校正。
通过分析图4、图5、图6和图7可以得出以下结论:
首先,采用本发明技术后,频域盲分离中存在的顺序模糊性问题得以解决;
其次,采用本发明技术后,局部排序后声源顺序基本统一,能够为全局中心点校正提供很好的初始化,降低了全局排序的收敛速度;
最后,采用本发明技术后,局部排序和全局排序相结合的方法能够提高分离的准确性和稳健性。
实施例2
本发明的实施例2提供了一种低复杂度的频域盲分离方法,所述方法具体包括:
步骤1)对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号,在每一个频点独立利用复数ICA算法对声源进行分离;得到每个频点的分离信号;
步骤1-1)将M个麦克风接收到观测信号xj(t)经过窗长为Q点的短时傅里叶变换得到频域信号Xj(l,f),t为时刻;1≤j≤M,l为时间索引,1≤l≤B,B表示为混合数据分帧处理的总帧数;f为频率索引,
Figure BDA0001999431020000131
fs为采样频率;x(l,f)=[X1(l,f),X2(l,f),...,XM(l,f)]T是观测信号频域向量;
步骤1-2)采用频域ICA算法在每个频点独立地分离出每个声源信号,得到当前频点f的分离信号向量y(l,f):
y(l,f)=W(f)x(l,f) (3)
其中,W(f)为N×M的分离矩阵,y(l,f)=[y1(l,f),y2(l,f),...,yN(l,f)]T,N为声源的数量,yi(l,f)表示第i个分离信号,1≤i≤N。
所述频域ICA算法为:基于负熵最大化法、互信息最小法或最大似然函数估计。
步骤2)将当前频点f的各个分离信号的能量占比序列按照不同的顺序排列组合,与前一频点已确定顺序的分离信号的能量占比序列对应位置依次计算相关系数,并确定一组均值最大的相关系数ρmax及对应的排列顺序;如果ρmax>ε,则将ρmax所对应的排列顺序作为当前频点新的声源顺序;如果ρmax≤ε,则在当前频点之前的所有已排序的频点中挑选出ρmax>0.7的频点组成集合,并计算该集合中各分离信号的能量占比序列的中心点,将当前频点的各分离信号以不同的顺序与该中心点计算相关系数,选择均值最大的相关系数所对应的排列顺序作为当前频点新的声源顺序;重复该步骤,完成每一个频点的分离信号的局部排序;
所述步骤2)具体包括:
步骤2-1)计算当前频点f的分离信号向量y(l,f)的能量占比序列向量v(l,f)=[v1(l,f),v2(l,f),...,vN(l,f)]T
Figure BDA0001999431020000141
其中,vi(l,f)表示第i个分离信号第l时间帧的能量占比;
步骤2-2)根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f):
Figure BDA0001999431020000142
其中,第i列表示第i个分离信号的时间序列;将当前频点f的能量占比时间序列
V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ,并选取均值最大的相关系ρmax及对应的声源顺序;
步骤2-3)如果ρmax大于设定的阈值ε,进入步骤2-6),否则,进入步骤2-4);阈值ε的取值范围0.5≤ε≤0.7;
步骤2-4)计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点mk的相关系数,局部中心点mk为:
Figure BDA0001999431020000143
其中,vk(f)为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高的频点;|NF|表示集合的长度;所述的可靠度高是指相关系数大于0.7;
步骤2-5)从步骤2-4)的相关系数中寻找一组均值最大的相关系数及对应的声源顺序;
步骤2-6)根据均值最大的相关系数ρmax对应的声源顺序得到置换矩阵P(f),对分离信号向量y(l,f)进行调整,得到局部排序的分离信号向量yp(l,f):
yp(l,f)=P(f)y(l,f) (12)
对每个频点f重复步骤2-1)至步骤2-6),直至每一个频点的分离信号完成局部排序。
步骤3)计算局部排序后的分离信号的全频带的全局能量占比序列中心点;依次计算局部排序后各个频点的分离信号的能量占比序列按不同的排列顺序与全局能量占比序列中心点的相关系数,并将均值最大的相关系数对应的顺序作为各频点新的声源顺序;重复该步骤,直至所有频点上的声源顺序均不再改变;完成每一个频点的分离信号的全局排序;
步骤3-1)计算步骤2)局部排序后的每个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000151
然后在整个频带计算全局中心点Ck
Figure BDA0001999431020000152
其中,
Figure BDA0001999431020000153
Figure BDA0001999431020000154
的第k个列向量;F表示所有频点的集合,|F|表示集合的长度;
步骤3-2)将每一个频点的分离信号的能量占比时间序列
Figure BDA0001999431020000155
的每一列向量按不同的顺序组合与Ck做相关性分析,计算相关系数;
步骤3-3)根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整;转入步骤3-1);直到顺序不再发生变化;全局排序后的每一个频点的分离信号向量为
Figure BDA0001999431020000156
步骤4)对全局排序后的分离信号的分离信号进行幅度调整;得到幅度调整后的分离信号;
通过对角矩阵Λ(f)对全局排序后的分离信号向量
Figure BDA0001999431020000157
进行幅度调整:
Figure BDA0001999431020000161
利用最小失真准则计算幅度调整矩阵Λ(f):
Λ(f)=diag(A(f)) (6)
其中Α(f)=W-1(f)=[a1(f),...,aN(f)],(·)-1表示矩阵的逆或伪逆。
步骤5)将步骤4)幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种低复杂度的频域盲分离方法,所述方法包括:
获取麦克风阵列采集的频域分离信号;
将当前频点与前一个频点的分离信号做相关性分析,完成每一个频点的分离信号的局部排序;
将局部排序后的每个频点的分离信号与全局中心点做相关性分析,完成每一个频点的分离信号的全局排序;
对全局排序后的分离信号进行幅度调整;
将调整后的分离信号进行傅里叶变换得到时域的分离信号;
所述方法具体包括:
步骤1)对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号,在每一个频点独立利用复数ICA算法对声源进行分离;得到每个频点的分离信号;
步骤2)将当前频点f的各个分离信号的能量占比序列按照不同的顺序排列组合,与前一频点已确定顺序的分离信号的能量占比序列对应位置依次计算相关系数,并确定一组均值最大的相关系数ρmax及对应的排列顺序;如果ρmax>ε,则将ρmax所对应的排列顺序作为当前频点新的声源顺序;如果ρmax≤ε,则在当前频点之前的所有已排序的频点中挑选出ρmax>0.7的频点组成集合,并计算该集合中各分离信号的能量占比序列的中心点,将当前频点的各分离信号以不同的顺序与该中心点计算相关系数,选择均值最大的相关系数所对应的排列顺序作为当前频点新的声源顺序;重复该步骤,完成每一个频点的分离信号的局部排序;
步骤3)计算局部排序后的分离信号的全频带的全局能量占比序列中心点;依次计算局部排序后各个频点的分离信号的能量占比序列按不同的排列顺序与全局能量占比序列中心点的相关系数,并将均值最大的相关系数对应的顺序作为各频点新的声源顺序;重复该步骤,直至所有频点上的声源顺序均不再改变;完成每一个频点的分离信号的全局排序;
步骤4)对全局排序后的分离信号的分离信号进行幅度调整,得到幅度调整后的分离信号;
步骤5)将步骤4)幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号;
所述步骤1)具体包括:
步骤1-1)将M个麦克风接收到观测信号xj(t)经过窗长为Q点的短时傅里叶变换得到频域信号Xj(l,f),t为时刻;1≤j≤M,l为时间索引,1≤l≤B,B表示为混合数据分帧处理的总帧数;f为频率索引,
Figure FDA0002784219830000021
fs为采样频率;x(l,f)=[X1(l,f),X2(l,f),...,XM(l,f)]T是观测信号频域向量;
步骤1-2)采用频域ICA算法在每个频点独立地分离出每个声源信号,得到当前频点f的分离信号向量y(l,f):
y(l,f)=W(f)x(l,f) (3)
其中,W(f)为N×M的分离矩阵,y(l,f)=[y1(l,f),y2(l,f),...,yN(l,f)]T,N为声源的数量,yi(l,f)表示第i个分离信号,1≤i≤N;
所述步骤2)具体包括:
步骤2-1)计算当前频点f的分离信号向量y(l,f)的能量占比序列向量v(l,f)=[v1(l,f),v2(l,f),...,vN(l,f)]T
Figure FDA0002784219830000022
其中,vi(l,f)表示第i个分离信号第l时间帧的能量占比,ai(f)=[a1i,a2i,...,aMi]表示分离矩阵W(f)的逆矩阵Α(f)=W-1(f)=[a1(f),...,aN(f)]的第i列向量;
步骤2-2)根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f):
Figure FDA0002784219830000023
其中,第i列表示第i个分离信号的时间序列;将当前频点f的能量占比时间序列V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ,并选取均值最大的相关系ρmax及对应的声源顺序;
步骤2-3)如果ρmax大于设定的阈值ε,进入步骤2-6),否则,进入步骤2-4);阈值ε的取值范围0.5≤ε≤0.7;
步骤2-4)计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点mk的相关系数,局部中心点mk为:
Figure FDA0002784219830000031
其中,vk(f)为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高的频点;|NF|表示集合的长度;所述的可靠度高是指相关系数大于0.7;
步骤2-5)从步骤2-4)的相关系数中寻找一组均值最大的相关系数及对应的声源顺序;
步骤2-6)根据均值最大的相关系数ρmax对应的声源顺序得到置换矩阵P(f),对分离信号向量y(l,f)进行调整,得到局部排序的分离信号向量yp(l,f):
yp(l,f)=P(f)y(l,f) (12)
对每个频点f重复步骤2-1)至步骤2-6),直至每一个频点的分离信号完成局部排序;
所述步骤3)具体包括:
步骤3-1)计算步骤2)局部排序后的每个频点的分离信号的能量占比时间序列
Figure FDA0002784219830000032
然后在整个频带计算全局中心点Ck
Figure FDA0002784219830000033
其中,
Figure FDA0002784219830000034
Figure FDA0002784219830000035
的第k个列向量;F表示所有频点的集合,|F|表示集合的长度;
步骤3-2)将每一个频点的分离信号的能量占比时间序列
Figure FDA0002784219830000036
的每一列向量按不同的顺序组合与Ck做相关性分析,计算相关系数;
步骤3-3)根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整;转入步骤3-1);直到顺序不再发生变化;全局排序后的每一个频点的分离信号向量为
Figure FDA0002784219830000041
2.根据权利要求1所述的低复杂度的频域盲分离方法,其特征在于,所述频域ICA算法为:基于负熵最大化法、互信息最小法或最大似然函数估计。
3.根据权利要求1所述的低复杂度的频域盲分离方法,其特征在于,所述步骤4)具体包括:通过对角矩阵Λ(f)对全局排序后的分离信号向量
Figure FDA0002784219830000042
进行幅度调整:
Figure FDA0002784219830000043
利用最小失真准则计算幅度调整矩阵Λ(f):
Λ(f)=diag(A(f)) (6)
其中Α(f)=W-1(f)=[a1(f),...,aN(f)],(·)-1表示矩阵的逆或伪逆。
4.一种低复杂度的频域盲分离系统,其特征在于,所述系统包括:短时傅里叶变换模块,ICA分离模块,局部排序模块,全局排序模块,幅度调整模块和逆短时傅里叶变换模块,
所述短时傅里叶变换模块,用于对麦克风阵列采集得到的混合信号进行短时傅里叶变换得到频域信号;
所述ICA分离模块,用于在每一个频点独立利用复数ICA算法对声源进行分离;得到每个频点的分离信号;
所述局部排序模块,用于将当前频点与前一个频点的分离信号做相关性分析,完成每一个频点的分离信号的局部排序;
所述全局排序模块,用于将局部排序后的每个频点的分离信号与全局中心点做相关性分析,完成每一个频点的分离信号的全局排序;
所述的幅度调整模块,用于对全局排序后的分离信号进行幅度调整;
所述逆短时傅里叶变换模块,用于对幅度调整后的分离信号进行逆短时傅里叶变换得到声源信号的时域估计信号;
所述局部排序模块进一步包括:计算能量占比序列单元、相邻频点相关性分析单元、当前频点与局部中心点相关性分析单元和声源顺序局部调整单元;
所述计算能量占比序列单元,用于对当前频点f的分离信号y(l,f)计算能量占比序列v(l,f),其中v(l,f)的第i个元素表示第i个分离信号第l时间帧的能量占比,计算方法为:
Figure FDA0002784219830000051
其中,y(l,f)=[y1(l,f),y2(l,f),...,yN(l,f)]T;N为声源的数量,yi(l,f)表示第i个分离信号,1≤i≤N;l为时间索引,1≤l≤B,B表示为混合数据分帧处理的总帧数;f为频率索引,
Figure FDA0002784219830000052
fs为采样频率;ai(f)=[a1i,a2i,...,aMi]表示分离矩阵W(f)的逆矩阵Α(f)=W-1(f)=[a1(f),...,aN(f)]的第i列向量;
所述相邻频点相关性分析单元,用于根据每个时间帧计算的v(l,f)组成能量占比时间序列V(f):
Figure FDA0002784219830000053
将当前频点f的能量占比时间序列V(f)的列向量按不同的顺序重新组合,然后与V(f-1)的每一列向量对应地求皮尔逊相关系数ρ,并选取均值最大的相关系ρmax及对应的声源顺序;如果ρmax大于设定的阈值ε,进入声源顺序局部调整单元,否则,进入当前频点与局部中心点相关性分析单元;阈值ε的取值范围0.5≤ε≤0.7;
所述当前频点与局部中心点相关性分析单元,用于计算当前频点f的能量占比时间序列V(f)的不同列向量组合与局部中心点mk的相关系数,局部中心点mk为:
Figure FDA0002784219830000054
其中,vk(f)为V(f)的第k个列向量,表示第k个分离信号的能量占比时间序列;NF表示局部频点的集合,该集合元素的选择方法为:从[1,...,f-2,f-1]中选取可信度高的频点;|NF|表示集合的长度;所述的可靠度高是指相关系数大于0.7;
所述声源顺序局部调整单元,用于根据均值最大的相关系数ρmax对应的声源顺序得到置换矩阵P(f),对分离信号向量y(l,f)进行调整,得到局部排序后的分离信号向量yp(l,f):
yp(l,f)=P(f)y(l,f) (12)
所述全局排序模块包括:全局中心点计算单元、全局中心点相关性分析单元和声源顺序全局调整单元;
所述全局中心点计算单元,用于计算局部排序后的每个频点的分离信号的能量占比时间序列
Figure FDA0002784219830000061
然后在整个频带计算全局中心点Ck
Figure FDA0002784219830000062
其中,
Figure FDA0002784219830000063
Figure FDA0002784219830000064
的第k个列向量;F表示所有频点的集合,|F|表示集合的长度;
所述全局中心点相关性分析单元,用于将每一个频点的分离信号的能量占比时间序列
Figure FDA0002784219830000065
的每一列向量按不同的顺序组合与Ck做相关性分析,计算相关系数;
所述声源顺序全局调整单元,用于根据均值最大的相关系数所对应的声源顺序得到置换矩阵P(f),对声源顺序及对应的能量占比序列进行调整;转入全局中心点计算单元;直到顺序不再发生变化;全局排序后的每一个频点的分离信号向量为
Figure FDA0002784219830000066
CN201910207390.2A 2019-03-19 2019-03-19 一种低复杂度的频域盲分离方法及系统 Active CN110010148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910207390.2A CN110010148B (zh) 2019-03-19 2019-03-19 一种低复杂度的频域盲分离方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910207390.2A CN110010148B (zh) 2019-03-19 2019-03-19 一种低复杂度的频域盲分离方法及系统

Publications (2)

Publication Number Publication Date
CN110010148A CN110010148A (zh) 2019-07-12
CN110010148B true CN110010148B (zh) 2021-03-16

Family

ID=67167604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910207390.2A Active CN110010148B (zh) 2019-03-19 2019-03-19 一种低复杂度的频域盲分离方法及系统

Country Status (1)

Country Link
CN (1) CN110010148B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111009257B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
CN111179960B (zh) * 2020-03-06 2022-10-18 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质
CN111429933B (zh) * 2020-03-06 2022-09-30 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN111415676B (zh) * 2020-03-10 2022-10-18 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN111477233B (zh) * 2020-04-09 2021-02-09 北京声智科技有限公司 一种音频信号的处理方法、装置、设备及介质
CN112037813B (zh) * 2020-08-28 2023-10-13 南京大学 一种针对大功率目标信号的语音提取方法
CN113362847A (zh) * 2021-05-26 2021-09-07 北京小米移动软件有限公司 音频信号处理方法及装置、存储介质
CN113823316B (zh) * 2021-09-26 2023-09-12 南京大学 一种针对位置靠近声源的语音信号分离方法
CN115295000B (zh) * 2022-10-08 2023-01-03 深圳通联金融网络科技服务有限公司 提高多对象说话场景下语音识别准确性的方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845148A (zh) * 2016-03-16 2016-08-10 重庆邮电大学 基于频点修正的卷积盲源分离方法
CN106057210A (zh) * 2016-07-01 2016-10-26 山东大学 双耳间距下基于频点选择的快速语音盲源分离方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5509481B2 (ja) * 2009-09-14 2014-06-04 晋哉 齋藤 ブラインド信号分離方法およびその装置
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法
CN102231280B (zh) * 2011-05-06 2013-04-03 山东大学 卷积语音信号的频域盲分离排序算法
CN102543098B (zh) * 2012-02-01 2013-04-10 大连理工大学 一种分频段切换cmn非线性函数的频域语音盲分离方法
CN103281269B (zh) * 2013-05-09 2015-11-04 合肥工业大学 基于改进的排序算法的频域盲源分离算法
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法
CN108986838B (zh) * 2018-09-18 2023-01-20 东北大学 一种基于声源定位的自适应语音分离方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845148A (zh) * 2016-03-16 2016-08-10 重庆邮电大学 基于频点修正的卷积盲源分离方法
CN106057210A (zh) * 2016-07-01 2016-10-26 山东大学 双耳间距下基于频点选择的快速语音盲源分离方法

Also Published As

Publication number Publication date
CN110010148A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110010148B (zh) 一种低复杂度的频域盲分离方法及系统
CN108364659B (zh) 基于多目标优化的频域卷积盲信号分离方法
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
Mitianoudis et al. Audio source separation of convolutive mixtures
CN105845148A (zh) 基于频点修正的卷积盲源分离方法
CN106887238A (zh) 一种基于改进独立向量分析算法的声信号盲分离方法
CN105654963B (zh) 频谱校正及数据密度聚类法语音欠定盲识别方法和装置
CN110321401B (zh) 时空数据关联深度学习方法
CN102222508A (zh) 一种基于矩阵变换的欠定盲分离方法
CN101667425A (zh) 一种对卷积混叠语音信号进行盲源分离的方法
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN112259120A (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
CN109977914A (zh) 基于vmd的自适应降噪方法
CN109884591A (zh) 一种基于麦克风阵列的多旋翼无人机声信号增强方法
CN111986695A (zh) 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
Mazur et al. An approach for solving the permutation problem of convolutive blind source separation based on statistical signal models
CN104616665A (zh) 基于语音类似度的混音方法
Douglas Blind separation of acoustic signals
CN105959049A (zh) 一种信号处理方法和装置
CN110233687B (zh) 一种多路数据信号联合判决检测方法
CN111695444A (zh) 一种基于波原子变换的辐射源个体特征提取方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN113362853B (zh) 一种基于lstm网络emd端点效应抑制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant