CN112435685B

CN112435685B - 强混响环境的盲源分离方法、装置、语音设备和存储介质

Info

Publication number: CN112435685B
Application number: CN202011330723.XA
Authority: CN
Inventors: 陈俊彬; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-04-12
Anticipated expiration: 2040-11-24
Also published as: CN112435685A

Abstract

本申请涉及语音分离技术领域，提供了一种强混响环境的盲源分离方法、装置、计算机设备和存储介质，包括：获取强混响的语音信号；对所述语音信息进行去混响处理，得到去混响语音信号；基于OverIVA算法，对所述去混响语音信号进行盲源分离，提升盲源分离效果；同时，在进行盲源分离过程中，采用平滑方式计算辅助参数矩阵，可以实现流式的方式实现盲源分离。本申请不仅提升盲源分离的效果，而且实现在线流式分离。

Description

强混响环境的盲源分离方法、装置、语音设备和存储介质

技术领域

本申请涉及语音分离技术领域，特别涉及一种强混响环境的盲源分离方法、装置、计算机设备和存储介质。

背景技术

在市面的产品中，应用盲源分离技术的语音设备越来越广泛，例如智能音箱、机器人、会议通话设备等。上述设备应用在一些相对封闭的环境中时，若声源距离设备上的麦克风较远，环境对语音的反射作用会导致麦克风所接收的语音信号存在混响，而盲源分离算法在强混响环境下，盲源分离效果会大幅降低。

发明内容

本申请的主要目的为提供一种强混响环境的盲源分离方法、装置、计算机设备和存储介质，旨在解决在强混响环境下盲源分离效果差的缺陷。

为实现上述目的，本申请提供了一种强混响环境的盲源分离方法，包括以下步骤：

获取强混响的语音信号；

对所述语音信息进行去混响处理，得到去混响语音信号；

基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号；其中，所述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵。

进一步地，所述强混响的语音信号的通道数量为M，所述盲源分离语音信号的声源数量为N；其中N≤M。

进一步地，所述辅助参数矩阵为V(l,k)，V(l,k)＝[V₁(l,k),V₂(l,k),...,V_n(l,k),...,V_N(l,k)]；n＝1，2，...，N；

其中，l为帧索引，k为频率索引，a为取值在0-1之间的遗忘因子，E(l,k)为所述去混响语音信号，(·)^H表示共轭转置，r_n(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量。

进一步地，所述盲源分离语音信号为Y(l,k)；

所述基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号的过程，包括：

W_bp(l,k)为/>的第一行到第N行组成，为N×M的矩阵；

是一个M×M的矩阵，且/>其中，/>为总分离矩阵，为M×M的矩阵；A(l,k)为M×M的对角矩阵，其对角线元素为对/>求逆后的对角线元素；

W(l,k)为N×M的矩阵，初值W(0,k)的对角线元素为1，其它位置的元素为零，W(l,k)＝[W₁(l,k)；W₂(l,k)；...W_n(l,k)；...；W_N(l,k)]；

U(l,k)是一个(M-N)×M的矩阵，其中，U(l,k)＝[J(l,k),-I_M-N]；J(l,k)＝(A₂C(l,k)W^H(l,k))(A₁C(l,k)W^H(l,k))^-1，A₁＝[I_N,O_N×M-N]，A₂＝[O_M-N×N,I_M-N]，I_*为*行*列的单位矩阵，O_*×·为*行·列的零矩阵；

C(l,k)是M×M的方阵，C(l,k)＝αC(l-1,k)+(1-α)E(l,k)E^H(l,k)，C(l,k)初值C(0,k)，设置为零矩阵；

V_n(l,k)的初值V_n(0,k)的对角线元素为1，其它位置的元素为零。

进一步地，所述对所述语音信息进行去混响处理，得到去混响语音信号的步骤，包括：

对所述语音信号进行短时傅里叶变换，得到频域信号X_i；其中，i是通道索引，i＝1,2,...,M；第l帧第k个频率的频域信号表示为X_i(l,k)；

基于NLMS算法进行多通道去混响得到去混响语音信号，具体为：

E_i(l,k)＝X_i(l,k)-X^T(l-D,k)G(l,k)；其中，(·)^T表示转置，X(l-D,k)为缓存的历史值；E_i(l,k)为第i个通道的去混响语音信号；上述去混响语音信号表示为E(l,k)＝[E₁(l,k),E₂(l,k),...,E_M(l,k)]；

X(l-D,k)＝[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]^T，

X(l-D,k)＝[X₁(l-D,k),X₂(l-D,k),...,X_M(l-D,k)]^T；

其中，D是预测延时，ORD是预测阶数；

其中，G(l,k)是一个M×ORD行，M列的矩阵，其初值G(0,k)的所有元素可以设置为0；μ是步长调节因子；·^*表示共轭。

进一步地，所述基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号的步骤之后，还包括：

基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理，得到滤波语音信号。

进一步地，N＝2，所述盲源分离语音信号表示为Y(l,k)＝[Y₁(l,k)；Y₂(l,k)]；

所述基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理，得到滤波语音信号的步骤，包括：

根据两个盲源分离语音信号，计算误差信号；

对所述误差信号进行逆傅里叶变换，得到所述滤波语音信号；

其中，误差信号表示为Y_out(l,k)；

Y_out(l,k)＝Y₁(l,k)-Y ₂(l,k)G₂(l,k)；l是帧索引，k是频率索引，且k＝1,2,...,K，K是快速傅里叶变换的点数，Y ₂(l,k)是Y₂(l,k)的历史缓存值；

Y ₂(l,k)＝[Y₂(l,k),Y₂(l-1,k),...,Y₂(l-ORD₂+1,k)]，ORD₂是缓存的帧数；G₂(l,k)为滤波器系数；

其中，μ₂是滤波器步长调节因子，·^*表示共轭。

本申请还提供了一种基于去混响的盲源分离装置，包括：

获取单元，用于获取强混响的语音信号；

去混响单元，用于对所述语音信息进行去混响处理，得到去混响语音信号；

分离单元，用于基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号；其中，所述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的强混响环境的盲源分离方法、装置、计算机设备和存储介质，针对强混响的语音信号，对其进行去混响处理，得到去混响语音信号；再基于OverIVA算法，对所述去混响语音信号进行盲源分离，提升盲源分离效果；同时，在进行盲源分离过程中，采用平滑方式计算辅助参数矩阵，可以实现流式的方式实现盲源分离。

附图说明

图1是本申请一实施例中强混响环境的盲源分离方法步骤示意图；

图2是本申请一实施例中基于去混响的盲源分离装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种强混响环境的盲源分离方法，包括以下步骤：

步骤S1，获取强混响的语音信号；

步骤S2，对所述语音信息进行去混响处理，得到去混响语音信号；

步骤S3，基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号；其中，所述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵。

在本实施例中，上述强混响环境的盲源分离方法应用于语音设备上进行盲源分离。该语音设备具有麦克风阵列，上述语音设备用于采集环境中的语音信号。当环境相对封闭时，且声源距离上述语音设备的麦克风较远，由于声源发出的语音在环境中的反射作用，使得上述语音设备的麦克风采集到的语音信号存在混响；当语音信号中存在强混响时，若直接使用盲源分离算法进行声源分离时，分离效果很差。

因此，在本实施例中，在获取到强混响的语音信号不会直接进行盲源分离算法的处理，而是如上述步骤S2所述的，对所述语音信息进行去混响处理，得到去混响语音信号。去混响算法可以有效地去除混响，保留直达语音，适用于远场拾音的场景。在对强混响的语音信号进行去混响处理之后，再如上述步骤S3所述的，进行盲源分离处理，可以显著提升盲源分离的效果。

对于上述去混响的算法，目前常用的有谱减法、SPENDRED算法、WPE算法；其中，谱减法及SPENDRED对语音有一定程度的损伤，听感不自然。离线形式的WPE算法可以保证不失真的前提下很好地去除混响，然而它不能应用于实时处理的场景，因而难以实用化。基于RLS的WPE去混响算法，能够自适应地去除混响，在稳态情况下，设定足够大的阶数，能够接近离线WPE算法的性能，是一种实用性比较高的去混响算法。然而该算法需要的参数比基于LMS的WPE算法多，其跟踪性能以及对干扰变化的鲁棒性也不如基于LMS的WPE算法。基于LMS的WPE去混响算法，虽然鲁棒性高，但是步长固定，难以根据输入信号调整收敛。因此，在本实施例中，采用了基于NLMS的多通道WPE去混响算法作为盲源分离前的去混响处理，该去混响算法能够根据所处混响环境以及收敛情况，自动改变步长。

针对上述盲源分离算法，常见效果较好的方法有AuxICA、AuxIVA、OverIVA等。

其中AuxIVA相比AuxICA，不需要考虑频点排序的问题，使用起来更加方便。AuxIVA已经有流式的算法形式，然而它规定输出个数必须等于输入个数，而OverIVA的输出个数可以小于或者等于输入个数，具有更强的灵活性。然而，OverIVA算法是离线形式，没法做到流式完成，即无法在线完成。在本实施例中，则是以流式迭代的方法来实现OverIVA算法，使它能够实时运行，更加适用于产品端侧。具体地，采用上述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵，而目前只能采用求平均的方式计算辅助参数矩阵；显然求平均的方式需要获取到所有帧的数据之后才可以计算，即只能离线计算；而本实施例中采用平滑方式计算，无需获取到所有帧的数据，只需获取到上一帧的信号数据进行迭代计算，便可以得到上辅助参数矩阵，即可以实时计算，实现OverIVA算法的在线流式计算。

在一实施例中，所述强混响的语音信号的通道数量为M，所述盲源分离语音信号的声源数量为N；其中N≤M。

在一具体实施例中，上述辅助参数矩阵为V(l,k)，V(l,k)＝[V₁(l,k),V₂(l,k),...,V_n(l,k),...,V_N(l,k)]；n＝1，2，...，N；

其中，l为帧索引，k为频率索引，a为取值在0-1之间的遗忘因子，E(l,k)为所述去混响语音信号，(·)^H表示共轭转置，r_n(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量。由上式可知，上述辅助参数矩阵的计算可以实现OverIVA算法的在线流式迭代计算。

在一实施例中，上述a取0.95。V_n(l,k)的初值V_n(0,k)的对角线元素为1，其它位置的元素为零。

在一实施例中，所述盲源分离语音信号为Y(l,k)；

所述基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号的过程，具体包括：

W_bp(l,k)为/>的第一行到第N行组成，为N×M的矩阵；Y(l,k)是一个元素个数为N的列向量。

W(l,k)为N×M的矩阵，表示为目标声源子空间；

W(l,k)的初值W(0,k)的对角线元素为1，其它位置的元素为零，W(l,k)矩阵的作用是对M个输入分离出N个目标声源。因此：

W(l,k)＝[W₁(l,k)；W₂(l,k)；...W_n(l,k)；...；W_N(l,k)]；n＝1,2,...,N。

U(l,k)是一个(M-N)×M的矩阵，其中，U(l,k)＝[J(l,k),-I_M-N]；J(l,k)＝(A₂C(l,k)W^H(l,k))(A₁C(l,k)W^H(l,k))^-1，其中，J(l,k)表示噪声子空间，其与上述目标声源子空间W(l,k)正交。

A₂＝[O_M-N×N,I_M-N]，I_*为*行*列的单位矩阵，O_*×·为*行·列的零矩阵；

C(l,k)是M×M的方阵，C(l,k)＝αC(l-1,k)+(1-α)E(l,k)E^H(l,k)，C(l,k)的初值C(0,k)设置为零矩阵；上述a即为上述辅助参数矩阵中的遗忘因子。在本实施例中，a为0.95。上述C(l,k)的计算过程中，采用的也是平滑方式，即不需要采用求平均的方式进行计算，因此可以实现OverIVA算法的在线流式迭代计算。

在本实施例中，V_n(l,k)的初值V_n(0,k)的对角线元素为1，其它位置的元素为零。

在一实施例中，利用语音设备上的麦克风获得M个通道的模拟信号，然后通过模数转换将模拟信号转换为M个通道的数字信号。进而采用基于NLMS的多通道WPE去混响算法，该去混响算法能够根据所处混响环境以及收敛情况，自动改变步长。

因此，所述对所述语音信息进行去混响处理，得到去混响语音信号的步骤S2，包括：

X(l-D,k)＝[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]^T，

X(l-D,k)＝[X₁(l-D,k),X₂(l-D,k),...,X_M(l-D,k)]^T；

其中，D是预测延时，ORD是预测阶数；上述D是为了防止处理的语音被过度白化。

其中，G(l,k)是一个M×ORD行，M列的矩阵，其初值G(0,k)的所有元素可以设置为0；μ是步长调节因子；·^*表示共轭。在本实施例中，上述去混响算法中的步长根据所处混响环境以及收敛情况，自动改变。

在一实施例中，所述基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号的步骤S3之后，还包括：

在本实施例中，由于分离出的盲源分离语音信号中仍然受背景噪声串扰的影响，因此为了进一步地提升效果，需要利用自适应滤波算法对盲源分离语音信号中的背景噪声进行对消处理，消除背景噪声。

具体地，N＝2，所述盲源分离语音信号表示为Y(l,k)＝[Y₁(l,k)；Y₂(l,k)]；即分离出语音Y₁(l,k)和背景噪声Y₂(l,k)。此时，语音Y₁(l,k)中仍受背景噪声串扰的影响，本实施例中即是对其进行自适应滤波处理。

所述基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理，得到滤波语音信号的步骤S4，包括：

根据两个盲源分离语音信号，计算误差信号；

其中，误差信号表示为Y_out(l,k)；以Y₁为期望信号，Y₂为输入信号做自适应滤波；

其中，μ₂是滤波器步长调节因子，·^*表示共轭。

在本实施例中，对上述误差信号Y_out(l)进行逆傅里叶变换后，得到时域信号y_out(l)，即作为本申请的最终语音输出结果，本实施例中，不仅基于去混响处理强混响的语音信号之后进行盲源分离，且在盲源分离之后再进行自适应滤波处理，可显著提升语音分离效果。

参照图2，本申请一实施例中还提供了一种强混响环境的盲源分离装置，包括：

获取单元10，用于获取强混响的语音信号；

去混响单元20，用于对所述语音信息进行去混响处理，得到去混响语音信号；

分离单元30，用于基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号；其中，所述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵。

在一实施例中，所述辅助参数矩阵为V(l,k)，V(l,k)＝[V₁(l,k),V₂(l,k),...,V_n(l,k),...,V_N(l,k)]；n＝1，2，...，N；

在一实施例中，所述盲源分离语音信号为Y(l,k)；

W_bp(l,k)为/>的第一行到第N行组成，为N×M的矩阵；

W(l,k)为N×M的矩阵，其初值W(0,k)的对角线元素为1，其它位置的元素为零，W(l,k)＝[W₁(l,k)；W₂(l,k)；...W_n(l,k)；...；W_N(l,k)]；

在一实施例中，所述去混响单元20，具体用于：

X(l-D,k)＝[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]^T，

X(l-D,k)＝[X₁(l-D,k),X₂(l-D,k),...,X_M(l-D,k)]^T；

其中，D是预测延时，ORD是预测阶数；

在一实施例中，上述强混响环境的盲源分离装置，还包括：

滤波单元40，用于基于自适应滤波算法对所述盲源分离语音信号中的背景噪声进行滤波处理，得到滤波语音信号。

在一实施例中，N＝2，所述盲源分离语音信号表示为Y(l,k)＝[Y₁(l,k)；Y₂(l,k)]；

所述滤波单元40，具体用于：

根据两个盲源分离语音信号，计算误差信号；

其中，误差信号表示为Y_out(l,k)；

其中，μ₂是滤波器步长调节因子，·^*表示共轭。

在本实施例中，上述装置实施例中的各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种强混响环境的盲源分离方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种强混响环境的盲源分离方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的强混响环境的盲源分离方法、装置、计算机设备和存储介质，针对强混响的语音信号，对其进行去混响处理，得到去混响语音信号；再基于OverIVA算法，对所述去混响语音信号进行盲源分离，提升盲源分离效果；同时，在进行盲源分离过程中，采用平滑方式计算辅助参数矩阵，可以实现流式的方式实现盲源分离。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种强混响环境的盲源分离方法，其特征在于，包括以下步骤：

获取强混响的语音信号；

对所述语音信号进行去混响处理，得到去混响语音信号；

基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号；其中，所述OverIVA算法进行盲源分离过程中，采用平滑方式计算辅助参数矩阵；

所述辅助参数矩阵为V(l,k)，V(l,k)＝[V₁(l,k),V₂(l,k),...,V_n(l,k),...,V_N(l,k)]；n＝1，2，...，N；

其中，l为帧索引，k为频率索引，a为取值在0-1之间的遗忘因子，E(l,k)为所述去混响语音信号，(·)^H表示共轭转置，rn(l,k)为上一帧去混响语音信号输出的第n个目标声源的能量；

所述盲源分离语音信号为Y(l,k)；

W_bp(l,k)为/>的第一行到第N行组成，为N×M的矩阵；

2.根据权利要求1所述的强混响环境的盲源分离方法，其特征在于，所述强混响的语音信号的通道数量为M，所述盲源分离语音信号的声源数量为N；其中N≤M。

3.根据权利要求1所述的强混响环境的盲源分离方法，其特征在于，所述对所述语音信号进行去混响处理，得到去混响语音信号的步骤，包括：

X(l-D,k)＝[X(l-D,k),X(l-1-D,k),...,X(l-ORD+1-D,k)]^T，

X(l-D,k)＝[X₁(l-D,k),X₂(l-D,k),...,X_M(l-D,k)]^T；

其中，D是预测延时，ORD是预测阶数；

其中，G(l,k)是一个M×ORD行，M列的矩阵，其初值G(0,k)的所有元素设置为0；μ是步长调节因子；·^*表示共轭。

4.根据权利要求2所述的强混响环境的盲源分离方法，其特征在于，所述基于OverIVA算法，对所述去混响语音信号进行盲源分离，得到盲源分离语音信号的步骤之后，还包括：

5.根据权利要求4所述的强混响环境的盲源分离方法，其特征在于，N＝2，所述盲源分离语音信号表示为Y(l,k)＝[Y₁(l,k)；Y₂(l,k)]；

根据两个盲源分离语音信号，计算误差信号；

其中，误差信号表示为Y_out(l,k)；

其中，μ₂是滤波器步长调节因子，·^*表示共轭。

6.一种基于去混响的盲源分离装置，用于实现权利要求1-5中任意一项所述的方法，其特征在于，包括：

获取单元，用于获取强混响的语音信号；

去混响单元，用于对所述语音信号进行去混响处理，得到去混响语音信号；

7.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。