CN112435685B - 强混响环境的盲源分离方法、装置、语音设备和存储介质 - Google Patents
强混响环境的盲源分离方法、装置、语音设备和存储介质 Download PDFInfo
- Publication number
- CN112435685B CN112435685B CN202011330723.XA CN202011330723A CN112435685B CN 112435685 B CN112435685 B CN 112435685B CN 202011330723 A CN202011330723 A CN 202011330723A CN 112435685 B CN112435685 B CN 112435685B
- Authority
- CN
- China
- Prior art keywords
- blind source
- source separation
- matrix
- dereverberated
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 116
- 239000011159 matrix material Substances 0.000 claims abstract description 67
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims description 39
- 238000001914 filtration Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 230000021615 conjugation Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 13
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本申请涉及语音分离技术领域,提供了一种强混响环境的盲源分离方法、装置、计算机设备和存储介质,包括:获取强混响的语音信号;对所述语音信息进行去混响处理,得到去混响语音信号;基于OverIVA算法,对所述去混响语音信号进行盲源分离,提升盲源分离效果;同时,在进行盲源分离过程中,采用平滑方式计算辅助参数矩阵,可以实现流式的方式实现盲源分离。本申请不仅提升盲源分离的效果,而且实现在线流式分离。
Description
技术领域
本申请涉及语音分离技术领域,特别涉及一种强混响环境的盲源分离方法、装置、计算机设备和存储介质。
背景技术
在市面的产品中,应用盲源分离技术的语音设备越来越广泛,例如智能音箱、机器人、会议通话设备等。上述设备应用在一些相对封闭的环境中时,若声源距离设备上的麦克风较远,环境对语音的反射作用会导致麦克风所接收的语音信号存在混响,而盲源分离算法在强混响环境下,盲源分离效果会大幅降低。
发明内容
本申请的主要目的为提供一种强混响环境的盲源分离方法、装置、计算机设备和存储介质,旨在解决在强混响环境下盲源分离效果差的缺陷。
为实现上述目的,本申请提供了一种强混响环境的盲源分离方法,包括以下步骤:
获取强混响的语音信号;
对所述语音信息进行去混响处理,得到去混响语音信号;
基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵。
进一步地,所述强混响的语音信号的通道数量为M,所述盲源分离语音信号的声源数量为N;其中N≤M。
进一步地,所述辅助参数矩阵为V(l,k),V(l,k)=[V1(l,k),V2(l,k),...,Vn(l,k),...,VN(l,k)];n=1,2,...,N;
其中,l为帧索引,k为频率索引,a为取值在0-1之间的遗忘因子,E(l,k)为所述去混响语音信号,(·)H表示共轭转置,rn(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量。
进一步地,所述盲源分离语音信号为Y(l,k);
所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的过程,包括:
Wbp(l,k)为/>的第一行到第N行组成,为N×M的矩阵;
是一个M×M的矩阵,且/>其中,/>为总分离矩阵,为M×M的矩阵;A(l,k)为M×M的对角矩阵,其对角线元素为对/>求逆后的对角线元素;
W(l,k)为N×M的矩阵,初值W(0,k)的对角线元素为1,其它位置的元素为零,W(l,k)=[W1(l,k);W2(l,k);...Wn(l,k);...;WN(l,k)];
U(l,k)是一个(M-N)×M的矩阵,其中,U(l,k)=[J(l,k),-IM-N];J(l,k)=(A2C(l,k)WH(l,k))(A1C(l,k)WH(l,k))-1,A1=[IN,ON×M-N],A2=[OM-N×N,IM-N],I*为*行*列的单位矩阵,O*×·为*行·列的零矩阵;
C(l,k)是M×M的方阵,C(l,k)=αC(l-1,k)+(1-α)E(l,k)EH(l,k),C(l,k)初值C(0,k),设置为零矩阵;
Vn(l,k)的初值Vn(0,k)的对角线元素为1,其它位置的元素为零。
进一步地,所述对所述语音信息进行去混响处理,得到去混响语音信号的步骤,包括:
对所述语音信号进行短时傅里叶变换,得到频域信号Xi;其中,i是通道索引,i=1,2,...,M;第l帧第k个频率的频域信号表示为Xi(l,k);
基于NLMS算法进行多通道去混响得到去混响语音信号,具体为:
Ei(l,k)=Xi(l,k)-XT(l-D,k)G(l,k);其中,(·)T表示转置,X(l-D,k)为缓存的历史值;Ei(l,k)为第i个通道的去混响语音信号;上述去混响语音信号表示为E(l,k)=[E1(l,k),E2(l,k),...,EM(l,k)];
X(l-D,k)=[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]T,
X(l-D,k)=[X1(l-D,k),X2(l-D,k),...,XM(l-D,k)]T;
其中,D是预测延时,ORD是预测阶数;
其中,G(l,k)是一个M×ORD行,M列的矩阵,其初值G(0,k)的所有元素可以设置为0;μ是步长调节因子;·*表示共轭。
进一步地,所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的步骤之后,还包括:
基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号。
进一步地,N=2,所述盲源分离语音信号表示为Y(l,k)=[Y1(l,k);Y2(l,k)];
所述基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号的步骤,包括:
根据两个盲源分离语音信号,计算误差信号;
对所述误差信号进行逆傅里叶变换,得到所述滤波语音信号;
其中,误差信号表示为Yout(l,k);
Yout(l,k)=Y1(l,k)-Y 2(l,k)G2(l,k);l是帧索引,k是频率索引,且k=1,2,...,K,K是快速傅里叶变换的点数,Y 2(l,k)是Y2(l,k)的历史缓存值;
Y 2(l,k)=[Y2(l,k),Y2(l-1,k),...,Y2(l-ORD2+1,k)],ORD2是缓存的帧数;G2(l,k)为滤波器系数;
其中,μ2是滤波器步长调节因子,·*表示共轭。
本申请还提供了一种基于去混响的盲源分离装置,包括:
获取单元,用于获取强混响的语音信号;
去混响单元,用于对所述语音信息进行去混响处理,得到去混响语音信号;
分离单元,用于基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的强混响环境的盲源分离方法、装置、计算机设备和存储介质,针对强混响的语音信号,对其进行去混响处理,得到去混响语音信号;再基于OverIVA算法,对所述去混响语音信号进行盲源分离,提升盲源分离效果;同时,在进行盲源分离过程中,采用平滑方式计算辅助参数矩阵,可以实现流式的方式实现盲源分离。
附图说明
图1是本申请一实施例中强混响环境的盲源分离方法步骤示意图;
图2是本申请一实施例中基于去混响的盲源分离装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种强混响环境的盲源分离方法,包括以下步骤:
步骤S1,获取强混响的语音信号;
步骤S2,对所述语音信息进行去混响处理,得到去混响语音信号;
步骤S3,基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵。
在本实施例中,上述强混响环境的盲源分离方法应用于语音设备上进行盲源分离。该语音设备具有麦克风阵列,上述语音设备用于采集环境中的语音信号。当环境相对封闭时,且声源距离上述语音设备的麦克风较远,由于声源发出的语音在环境中的反射作用,使得上述语音设备的麦克风采集到的语音信号存在混响;当语音信号中存在强混响时,若直接使用盲源分离算法进行声源分离时,分离效果很差。
因此,在本实施例中,在获取到强混响的语音信号不会直接进行盲源分离算法的处理,而是如上述步骤S2所述的,对所述语音信息进行去混响处理,得到去混响语音信号。去混响算法可以有效地去除混响,保留直达语音,适用于远场拾音的场景。在对强混响的语音信号进行去混响处理之后,再如上述步骤S3所述的,进行盲源分离处理,可以显著提升盲源分离的效果。
对于上述去混响的算法,目前常用的有谱减法、SPENDRED算法、WPE算法;其中,谱减法及SPENDRED对语音有一定程度的损伤,听感不自然。离线形式的WPE算法可以保证不失真的前提下很好地去除混响,然而它不能应用于实时处理的场景,因而难以实用化。基于RLS的WPE去混响算法,能够自适应地去除混响,在稳态情况下,设定足够大的阶数,能够接近离线WPE算法的性能,是一种实用性比较高的去混响算法。然而该算法需要的参数比基于LMS的WPE算法多,其跟踪性能以及对干扰变化的鲁棒性也不如基于LMS的WPE算法。基于LMS的WPE去混响算法,虽然鲁棒性高,但是步长固定,难以根据输入信号调整收敛。因此,在本实施例中,采用了基于NLMS的多通道WPE去混响算法作为盲源分离前的去混响处理,该去混响算法能够根据所处混响环境以及收敛情况,自动改变步长。
针对上述盲源分离算法,常见效果较好的方法有AuxICA、AuxIVA、OverIVA等。
其中AuxIVA相比AuxICA,不需要考虑频点排序的问题,使用起来更加方便。AuxIVA已经有流式的算法形式,然而它规定输出个数必须等于输入个数,而OverIVA的输出个数可以小于或者等于输入个数,具有更强的灵活性。然而,OverIVA算法是离线形式,没法做到流式完成,即无法在线完成。在本实施例中,则是以流式迭代的方法来实现OverIVA算法,使它能够实时运行,更加适用于产品端侧。具体地,采用上述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵,而目前只能采用求平均的方式计算辅助参数矩阵;显然求平均的方式需要获取到所有帧的数据之后才可以计算,即只能离线计算;而本实施例中采用平滑方式计算,无需获取到所有帧的数据,只需获取到上一帧的信号数据进行迭代计算,便可以得到上辅助参数矩阵,即可以实时计算,实现OverIVA算法的在线流式计算。
在一实施例中,所述强混响的语音信号的通道数量为M,所述盲源分离语音信号的声源数量为N;其中N≤M。
在一具体实施例中,上述辅助参数矩阵为V(l,k),V(l,k)=[V1(l,k),V2(l,k),...,Vn(l,k),...,VN(l,k)];n=1,2,...,N;
其中,l为帧索引,k为频率索引,a为取值在0-1之间的遗忘因子,E(l,k)为所述去混响语音信号,(·)H表示共轭转置,rn(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量。由上式可知,上述辅助参数矩阵的计算可以实现OverIVA算法的在线流式迭代计算。
在一实施例中,上述a取0.95。Vn(l,k)的初值Vn(0,k)的对角线元素为1,其它位置的元素为零。
在一实施例中,所述盲源分离语音信号为Y(l,k);
所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的过程,具体包括:
Wbp(l,k)为/>的第一行到第N行组成,为N×M的矩阵;Y(l,k)是一个元素个数为N的列向量。
是一个M×M的矩阵,且/>其中,/>为总分离矩阵,为M×M的矩阵;A(l,k)为M×M的对角矩阵,其对角线元素为对/>求逆后的对角线元素;
W(l,k)为N×M的矩阵,表示为目标声源子空间;
W(l,k)的初值W(0,k)的对角线元素为1,其它位置的元素为零,W(l,k)矩阵的作用是对M个输入分离出N个目标声源。因此:
W(l,k)=[W1(l,k);W2(l,k);...Wn(l,k);...;WN(l,k)];n=1,2,...,N。
U(l,k)是一个(M-N)×M的矩阵,其中,U(l,k)=[J(l,k),-IM-N];J(l,k)=(A2C(l,k)WH(l,k))(A1C(l,k)WH(l,k))-1,其中,J(l,k)表示噪声子空间,其与上述目标声源子空间W(l,k)正交。
A2=[OM-N×N,IM-N],I*为*行*列的单位矩阵,O*×·为*行·列的零矩阵;
C(l,k)是M×M的方阵,C(l,k)=αC(l-1,k)+(1-α)E(l,k)EH(l,k),C(l,k)的初值C(0,k)设置为零矩阵;上述a即为上述辅助参数矩阵中的遗忘因子。在本实施例中,a为0.95。上述C(l,k)的计算过程中,采用的也是平滑方式,即不需要采用求平均的方式进行计算,因此可以实现OverIVA算法的在线流式迭代计算。
在本实施例中,Vn(l,k)的初值Vn(0,k)的对角线元素为1,其它位置的元素为零。
在一实施例中,利用语音设备上的麦克风获得M个通道的模拟信号,然后通过模数转换将模拟信号转换为M个通道的数字信号。进而采用基于NLMS的多通道WPE去混响算法,该去混响算法能够根据所处混响环境以及收敛情况,自动改变步长。
因此,所述对所述语音信息进行去混响处理,得到去混响语音信号的步骤S2,包括:
对所述语音信号进行短时傅里叶变换,得到频域信号Xi;其中,i是通道索引,i=1,2,...,M;第l帧第k个频率的频域信号表示为Xi(l,k);
基于NLMS算法进行多通道去混响得到去混响语音信号,具体为:
Ei(l,k)=Xi(l,k)-XT(l-D,k)G(l,k);其中,(·)T表示转置,X(l-D,k)为缓存的历史值;Ei(l,k)为第i个通道的去混响语音信号;上述去混响语音信号表示为E(l,k)=[E1(l,k),E2(l,k),...,EM(l,k)];
X(l-D,k)=[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]T,
X(l-D,k)=[X1(l-D,k),X2(l-D,k),...,XM(l-D,k)]T;
其中,D是预测延时,ORD是预测阶数;上述D是为了防止处理的语音被过度白化。
其中,G(l,k)是一个M×ORD行,M列的矩阵,其初值G(0,k)的所有元素可以设置为0;μ是步长调节因子;·*表示共轭。在本实施例中,上述去混响算法中的步长根据所处混响环境以及收敛情况,自动改变。
在一实施例中,所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的步骤S3之后,还包括:
基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号。
在本实施例中,由于分离出的盲源分离语音信号中仍然受背景噪声串扰的影响,因此为了进一步地提升效果,需要利用自适应滤波算法对盲源分离语音信号中的背景噪声进行对消处理,消除背景噪声。
具体地,N=2,所述盲源分离语音信号表示为Y(l,k)=[Y1(l,k);Y2(l,k)];即分离出语音Y1(l,k)和背景噪声Y2(l,k)。此时,语音Y1(l,k)中仍受背景噪声串扰的影响,本实施例中即是对其进行自适应滤波处理。
所述基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号的步骤S4,包括:
根据两个盲源分离语音信号,计算误差信号;
对所述误差信号进行逆傅里叶变换,得到所述滤波语音信号;
其中,误差信号表示为Yout(l,k);以Y1为期望信号,Y2为输入信号做自适应滤波;
Yout(l,k)=Y1(l,k)-Y 2(l,k)G2(l,k);l是帧索引,k是频率索引,且k=1,2,...,K,K是快速傅里叶变换的点数,Y 2(l,k)是Y2(l,k)的历史缓存值;
Y 2(l,k)=[Y2(l,k),Y2(l-1,k),...,Y2(l-ORD2+1,k)],ORD2是缓存的帧数;G2(l,k)为滤波器系数;
其中,μ2是滤波器步长调节因子,·*表示共轭。
在本实施例中,对上述误差信号Yout(l)进行逆傅里叶变换后,得到时域信号yout(l),即作为本申请的最终语音输出结果,本实施例中,不仅基于去混响处理强混响的语音信号之后进行盲源分离,且在盲源分离之后再进行自适应滤波处理,可显著提升语音分离效果。
参照图2,本申请一实施例中还提供了一种强混响环境的盲源分离装置,包括:
获取单元10,用于获取强混响的语音信号;
去混响单元20,用于对所述语音信息进行去混响处理,得到去混响语音信号;
分离单元30,用于基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵。
在一实施例中,所述强混响的语音信号的通道数量为M,所述盲源分离语音信号的声源数量为N;其中N≤M。
在一实施例中,所述辅助参数矩阵为V(l,k),V(l,k)=[V1(l,k),V2(l,k),...,Vn(l,k),...,VN(l,k)];n=1,2,...,N;
其中,l为帧索引,k为频率索引,a为取值在0-1之间的遗忘因子,E(l,k)为所述去混响语音信号,(·)H表示共轭转置,rn(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量。
在一实施例中,所述盲源分离语音信号为Y(l,k);
所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的过程,包括:
Wbp(l,k)为/>的第一行到第N行组成,为N×M的矩阵;
是一个M×M的矩阵,且/>其中,/>为总分离矩阵,为M×M的矩阵;A(l,k)为M×M的对角矩阵,其对角线元素为对/>求逆后的对角线元素;
W(l,k)为N×M的矩阵,其初值W(0,k)的对角线元素为1,其它位置的元素为零,W(l,k)=[W1(l,k);W2(l,k);...Wn(l,k);...;WN(l,k)];
U(l,k)是一个(M-N)×M的矩阵,其中,U(l,k)=[J(l,k),-IM-N];J(l,k)=(A2C(l,k)WH(l,k))(A1C(l,k)WH(l,k))-1,A1=[IN,ON×M-N],A2=[OM-N×N,IM-N],I*为*行*列的单位矩阵,O*×·为*行·列的零矩阵;
C(l,k)是M×M的方阵,C(l,k)=αC(l-1,k)+(1-α)E(l,k)EH(l,k),C(l,k)初值C(0,k),设置为零矩阵;
Vn(l,k)的初值Vn(0,k)的对角线元素为1,其它位置的元素为零。
在一实施例中,所述去混响单元20,具体用于:
对所述语音信号进行短时傅里叶变换,得到频域信号Xi;其中,i是通道索引,i=1,2,...,M;第l帧第k个频率的频域信号表示为Xi(l,k);
基于NLMS算法进行多通道去混响得到去混响语音信号,具体为:
Ei(l,k)=Xi(l,k)-XT(l-D,k)G(l,k);其中,(·)T表示转置,X(l-D,k)为缓存的历史值;Ei(l,k)为第i个通道的去混响语音信号;上述去混响语音信号表示为E(l,k)=[E1(l,k),E2(l,k),...,EM(l,k)];
X(l-D,k)=[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]T,
X(l-D,k)=[X1(l-D,k),X2(l-D,k),...,XM(l-D,k)]T;
其中,D是预测延时,ORD是预测阶数;
其中,G(l,k)是一个M×ORD行,M列的矩阵,其初值G(0,k)的所有元素可以设置为0;μ是步长调节因子;·*表示共轭。
在一实施例中,上述强混响环境的盲源分离装置,还包括:
滤波单元40,用于基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号。
在一实施例中,N=2,所述盲源分离语音信号表示为Y(l,k)=[Y1(l,k);Y2(l,k)];
所述滤波单元40,具体用于:
根据两个盲源分离语音信号,计算误差信号;
对所述误差信号进行逆傅里叶变换,得到所述滤波语音信号;
其中,误差信号表示为Yout(l,k);
Yout(l,k)=Y1(l,k)-Y 2(l,k)G2(l,k);l是帧索引,k是频率索引,且k=1,2,...,K,K是快速傅里叶变换的点数,Y 2(l,k)是Y2(l,k)的历史缓存值;
Y 2(l,k)=[Y2(l,k),Y2(l-1,k),...,Y2(l-ORD2+1,k)],ORD2是缓存的帧数;G2(l,k)为滤波器系数;
其中,μ2是滤波器步长调节因子,·*表示共轭。
在本实施例中,上述装置实施例中的各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种强混响环境的盲源分离方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种强混响环境的盲源分离方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的强混响环境的盲源分离方法、装置、计算机设备和存储介质,针对强混响的语音信号,对其进行去混响处理,得到去混响语音信号;再基于OverIVA算法,对所述去混响语音信号进行盲源分离,提升盲源分离效果;同时,在进行盲源分离过程中,采用平滑方式计算辅助参数矩阵,可以实现流式的方式实现盲源分离。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种强混响环境的盲源分离方法,其特征在于,包括以下步骤:
获取强混响的语音信号;
对所述语音信号进行去混响处理,得到去混响语音信号;
基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵;
所述辅助参数矩阵为V(l,k),V(l,k)=[V1(l,k),V2(l,k),...,Vn(l,k),...,VN(l,k)];n=1,2,...,N;
其中,l为帧索引,k为频率索引,a为取值在0-1之间的遗忘因子,E(l,k)为所述去混响语音信号,(·)H表示共轭转置,rn(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量;
所述盲源分离语音信号为Y(l,k);
所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的过程,包括:
Wbp(l,k)为/>的第一行到第N行组成,为N×M的矩阵;
是一个M×M的矩阵,且/>其中,/>为总分离矩阵,为M×M的矩阵;A(l,k)为M×M的对角矩阵,其对角线元素为对/>求逆后的对角线元素;
W(l,k)为N×M的矩阵,初值W(0,k)的对角线元素为1,其它位置的元素为零,W(l,k)=[W1(l,k);W2(l,k);...Wn(l,k);...;WN(l,k)];
U(l,k)是一个(M-N)×M的矩阵,其中,U(l,k)=[J(l,k),-IM-N];J(l,k)=(A2C(l,k)WH(l,k))(A1C(l,k)WH(l,k))-1,A1=[IN,ON×M-N],A2=[OM-N×N,IM-N],I*为*行*列的单位矩阵,O*×·为*行·列的零矩阵;
C(l,k)是M×M的方阵,C(l,k)=αC(l-1,k)+(1-α)E(l,k)EH(l,k),C(l,k)初值C(0,k),设置为零矩阵;
Vn(l,k)的初值Vn(0,k)的对角线元素为1,其它位置的元素为零。
2.根据权利要求1所述的强混响环境的盲源分离方法,其特征在于,所述强混响的语音信号的通道数量为M,所述盲源分离语音信号的声源数量为N;其中N≤M。
3.根据权利要求1所述的强混响环境的盲源分离方法,其特征在于,所述对所述语音信号进行去混响处理,得到去混响语音信号的步骤,包括:
对所述语音信号进行短时傅里叶变换,得到频域信号Xi;其中,i是通道索引,i=1,2,...,M;第l帧第k个频率的频域信号表示为Xi(l,k);
基于NLMS算法进行多通道去混响得到去混响语音信号,具体为:
Ei(l,k)=Xi(l,k)-XT(l-D,k)G(l,k);其中,(·)T表示转置,X(l-D,k)为缓存的历史值;Ei(l,k)为第i个通道的去混响语音信号;上述去混响语音信号表示为E(l,k)=[E1(l,k),E2(l,k),...,EM(l,k)];
X(l-D,k)=[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]T,
X(l-D,k)=[X1(l-D,k),X2(l-D,k),...,XM(l-D,k)]T;
其中,D是预测延时,ORD是预测阶数;
其中,G(l,k)是一个M×ORD行,M列的矩阵,其初值G(0,k)的所有元素设置为0;μ是步长调节因子;·*表示共轭。
4.根据权利要求2所述的强混响环境的盲源分离方法,其特征在于,所述基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号的步骤之后,还包括:
基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号。
5.根据权利要求4所述的强混响环境的盲源分离方法,其特征在于,N=2,所述盲源分离语音信号表示为Y(l,k)=[Y1(l,k);Y2(l,k)];
所述基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理,得到滤波语音信号的步骤,包括:
根据两个盲源分离语音信号,计算误差信号;
对所述误差信号进行逆傅里叶变换,得到所述滤波语音信号;
其中,误差信号表示为Yout(l,k);
Yout(l,k)=Y1(l,k)-Y 2(l,k)G2(l,k);l是帧索引,k是频率索引,且k=1,2,...,K,K是快速傅里叶变换的点数,Y 2(l,k)是Y2(l,k)的历史缓存值;
Y 2(l,k)=[Y2(l,k),Y2(l-1,k),...,Y2(l-ORD2+1,k)],ORD2是缓存的帧数;G2(l,k)为滤波器系数;
其中,μ2是滤波器步长调节因子,·*表示共轭。
6.一种基于去混响的盲源分离装置,用于实现权利要求1-5中任意一项所述的方法,其特征在于,包括:
获取单元,用于获取强混响的语音信号;
去混响单元,用于对所述语音信号进行去混响处理,得到去混响语音信号;
分离单元,用于基于OverIVA算法,对所述去混响语音信号进行盲源分离,得到盲源分离语音信号;其中,所述OverIVA算法进行盲源分离过程中,采用平滑方式计算辅助参数矩阵。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011330723.XA CN112435685B (zh) | 2020-11-24 | 2020-11-24 | 强混响环境的盲源分离方法、装置、语音设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011330723.XA CN112435685B (zh) | 2020-11-24 | 2020-11-24 | 强混响环境的盲源分离方法、装置、语音设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112435685A CN112435685A (zh) | 2021-03-02 |
CN112435685B true CN112435685B (zh) | 2024-04-12 |
Family
ID=74692947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011330723.XA Active CN112435685B (zh) | 2020-11-24 | 2020-11-24 | 强混响环境的盲源分离方法、装置、语音设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112435685B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223543B (zh) * | 2021-06-10 | 2023-04-28 | 北京小米移动软件有限公司 | 语音增强方法、装置和存储介质 |
CN113488066A (zh) * | 2021-06-18 | 2021-10-08 | 北京小米移动软件有限公司 | 音频信号处理方法、音频信号处理装置及存储介质 |
CN114333876B (zh) * | 2021-11-25 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 信号处理的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011029103A1 (en) * | 2009-09-07 | 2011-03-10 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal |
WO2018136144A1 (en) * | 2017-01-18 | 2018-07-26 | Hrl Laboratories, Llc | Cognitive signal processor for simultaneous denoising and blind source separation |
US10484043B1 (en) * | 2015-03-19 | 2019-11-19 | Hrl Laboratories, Llc | Adaptive blind source separator for ultra-wide bandwidth signal tracking |
CN110827846A (zh) * | 2019-11-14 | 2020-02-21 | 深圳市友杰智新科技有限公司 | 采用加权叠加合成波束的语音降噪方法及装置 |
CN111667846A (zh) * | 2020-05-14 | 2020-09-15 | 北京声智科技有限公司 | 一种盲源分离方法及装置 |
-
2020
- 2020-11-24 CN CN202011330723.XA patent/CN112435685B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011029103A1 (en) * | 2009-09-07 | 2011-03-10 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal |
US10484043B1 (en) * | 2015-03-19 | 2019-11-19 | Hrl Laboratories, Llc | Adaptive blind source separator for ultra-wide bandwidth signal tracking |
WO2018136144A1 (en) * | 2017-01-18 | 2018-07-26 | Hrl Laboratories, Llc | Cognitive signal processor for simultaneous denoising and blind source separation |
CN110827846A (zh) * | 2019-11-14 | 2020-02-21 | 深圳市友杰智新科技有限公司 | 采用加权叠加合成波束的语音降噪方法及装置 |
CN111667846A (zh) * | 2020-05-14 | 2020-09-15 | 北京声智科技有限公司 | 一种盲源分离方法及装置 |
Non-Patent Citations (2)
Title |
---|
A blind source separation approach based on IVA for convolutive speech mixtures;Tariqullah Jan et al.;2016 8th Computer Science and Electronic Engineering(CEEC);20170130;第140-145页 * |
Rintaro Ikeshita et al..Overdetermined Independent Vector Analysis.2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).2020,第591-595页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112435685A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435685B (zh) | 强混响环境的盲源分离方法、装置、语音设备和存储介质 | |
CN111128220B (zh) | 去混响方法、装置、设备及存储介质 | |
CN109686381B (zh) | 用于信号增强的信号处理器和相关方法 | |
US10403299B2 (en) | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition | |
EP0709999B1 (en) | Method and apparatus for multi-channel acoustic echo cancellation | |
WO2018119470A1 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
CN111128210B (zh) | 具有声学回声消除的音频信号处理的方法和系统 | |
CN109285557B (zh) | 一种定向拾音方法、装置及电子设备 | |
US20140025374A1 (en) | Speech enhancement to improve speech intelligibility and automatic speech recognition | |
WO2015065682A1 (en) | Selective audio source enhancement | |
US11373667B2 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
WO2013009949A1 (en) | Microphone array processing system | |
US20130322655A1 (en) | Method and device for microphone selection | |
KR102076760B1 (ko) | 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법 | |
CN112951261B (zh) | 声源定位方法、装置及语音设备 | |
US10896674B2 (en) | Adaptive enhancement of speech signals | |
KR20190136940A (ko) | 음성 제어를 갖는 낮은 복잡도의 다중 채널 스마트 라우드스피커 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN112331226A (zh) | 一种针对主动降噪系统的语音增强系统及方法 | |
CN113903353A (zh) | 一种基于空间区分性检测的定向噪声消除方法及装置 | |
CN112929506B (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
CN112242145A (zh) | 语音滤波方法、装置、介质和电子设备 | |
CN113362846B (zh) | 一种基于广义旁瓣相消结构的语音增强方法 | |
CN111341338B (zh) | 消除回声的方法、装置和计算机设备 | |
JP2000106700A (ja) | 立体音響生成方法および仮想現実実現システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |