CN113393858A

CN113393858A - 语音分离方法和系统、电子设备及可读存储介质

Info

Publication number: CN113393858A
Application number: CN202110587646.4A
Authority: CN
Inventors: 陈孝良; 李智勇
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-14
Anticipated expiration: 2041-05-27
Also published as: CN113393858B

Abstract

本申请实施例提供一种语音分离方法和系统、电子设备及可读存储介质，其中该方法包括：对输入的多通道语音进行特征提取，得到语音特征；将语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，波束集合包括基于麦克风阵列确定的若干个第一波束系数；其中，语音分离模型是基于混合语音样本数据、波束集合以及预先确定的干净语音标签进行训练后得到。本申请实施例通过对输入的多通道语音进行特征提取，再将语音特征和波束集合分别输入到经过训练后的语音分离模型，得到分离后的语音，训练过程中对第一波束系数进行优化，利用优化后的波束系数以提高性能，可以有效地提高语音分离的效果，保证分离后的语音的质量。

Description

语音分离方法和系统、电子设备及可读存储介质

技术领域

本申请涉及语音分离领域，尤其涉及一种语音分离方法和系统、电子设备及可读存储介质。

背景技术

在实际的应用场景中，由于麦克风中的信号可能包含目标讲话人的声音，其他人讲话的声音，噪声和混响等干扰，不采用语音分离技术的话，会影响后期语音识别或者唤醒的准确率。因此利用语音分离技术，将目标讲话人的信号从麦克风采集到的信号中分离出来，就可以提升语音识别或唤醒系统的鲁棒性。

目前，语音分离技术存在语音分离效果不佳、分离后的语音质量较差的问题。相关技术中一般都是采用提取所述目标讲话人的声纹信息或者其他特征信息，连续净化混合语音，以获取分离语音，上述方法仍存在语音分离效果不佳的技术问题。

发明内容

本申请提供一种语音分离方法和系统、电子设备及可读存储介质，用以解决现有技术中存在的技术缺陷。

本申请提供一种语音分离方法，包括：

对输入的多通道语音进行特征提取，得到语音特征；

将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，所述波束集合包括基于麦克风阵列确定的若干个第一波束系数；

其中，所述语音分离模型是基于混合语音样本数据、所述波束集合以及预先确定的干净语音标签进行训练后得到。

根据本申请实施例所述的语音分离方法，所述语音分离模型包括分离子模型和注意力选择机制子模型，相应地，所述将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音包括：

将所述语音特征输入到分离子模型，得到目标语音的Mask；

将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型，得到融合后的第二波束系数；

基于所述语音特征和所述第二波束系数，得到分离后的语音；

其中，所述分离子模型是基于混合语音样本数据以及所述目标语音的Mask进行训练后得到；所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。

根据本申请实施例所述的语音分离方法，所述注意力选择机制子模型包括第一映射层和第二映射层，相应地，所述将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型，得到融合后的第二波束系数包括：

将所述目标语音的Mask输入到所述第一映射层，得到映射后的Mask；

将所述波束集合输入到所述第二映射层，得到若干个映射后的第一波束系数，每一个映射后的第一波束系数与映射后的Mask在同一维度；

基于每一个映射后的第一波束系数和映射后的Mask，进行多类别分类，并基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数，得到融合后的第二波束系数。

根据本申请实施例所述的语音分离方法，所述进行多类别分类包括：

按照每一个映射后的第一波束系数作为一个类别进行分类，各个映射后的第一波束系数类别值的概率和为1。

根据本申请实施例所述的语音分离方法，所述将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音之后，还包括：

对所述分离后的语音进行滤波处理，得到目标语音。

根据本申请实施例所述的语音分离方法，所述语音分离模型采用以下损失函数进行训练：

Loss＝α*MSE(Mask-True Label)+β*SI_SNR(Beam_out-Clean)

其中，所述MSE表示最小均方误差函数，Mask表示目标语音的Mask，Mask的数值介于[0，1]，α和β分别是平衡标量，True Label表示由混合语音样本数据计算得到的样本Mask，SI_SNR表示尺度不变的信噪比函数，Beam_out表示分离后的语音，Clean表示预先确定的干净语音标签。

本申请还提供了一种语音分离系统，包括；

语音特征提取模块，用于对输入的多通道语音进行特征提取，得到语音特征；

语音分离模块，用于将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，所述波束集合包括基于麦克风阵列确定的若干个第一波束系数；

根据本申请实施例所述的语音分离系统，所述语音分离模型包括分离子模型和注意力选择机制子模型，相应地，所述语音分离模块包括：

Mask确定单元，用于将所述语音特征输入到分离子模型，得到目标语音的Mask；

第二波束系数确定单元，用于将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型，得到融合后的第二波束系数；

分离单元，用于基于所述语音特征和所述第二波束系数，得到分离后的语音；

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音分离方法的步骤。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音分离方法的步骤。

本申请实施例通过对输入的多通道语音进行特征提取，得到语音特征，再将语音特征和波束集合分别输入到经过训练后的语音分离模型，得到分离后的语音，波束集合包括基于麦克风阵列确定的若干个第一波束系数，训练过程中对第一波束系数进行优化，针对语音分离的任务，利用优化后的波束系数以提高性能，可以有效地提高语音分离的效果，保证分离后的语音的质量。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音分离方法之一的流程示意图；

图2是本申请实施例提供的语音分离方法之二的流程示意图；

图3是本申请实施例提供的语音分离系统的结构示意图；

图4是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种语音分离方法，参见图1，包括：一种语音分离方法，包括：

S1:对输入的多通道语音进行特征提取，得到语音特征；

S1中，输入的多通道语音，就是麦克风阵列拾音直接得到的数据，可以通过对多通道语音进行短时傅里叶变换提取频域特征和IPD(microphone phase difference，麦克风间的相位差)特征，或提取多通道语音的其他特征。

S2:将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，所述波束集合包括基于麦克风阵列确定的若干个第一波束系数；

波束集合包括若干个事先求解得到的第一波束系数，第一波束系数是与对应麦克风阵列相关的，可以根据事先设计的约束，求解而得，例如360度拾音空间，以20度间隔，生成18个第一波束系数，组成该波束集合。波束集合与输入的多通道语音没有关系，波束集合仅仅与对应的麦克风阵列相关。不同的麦克风阵列对应的波束集合可能不同。

在语音分离模型训练过程中，利用混合语音样本数据、波束集合作为输入，预先确定的干净语音标签作为输出，不断执行S1-S2进行优化，直到优化达到一定的条件，这里优化达到一定的条件，可以为训练200轮后停止，或者loss小于某一个阈值停止，此时模型已经训练好，可以进入到实用阶段。其中，干净语音加上噪声语音，也就是音频相加之后，得到混合语音后，再提取语音特征，得到混合语音样本数据。对于不同的麦克风阵列，对其对应的不同的波束集合，需要将不同的波束集合作为输入，分别进行训练。最终使得一个波束集合可以使用与其相匹配的训练好的语音分离模型，不同的波束集合所对应的语音分离模型中的参数会不同。当麦克风阵列确定时，波束集合一般也可以确定，当麦克风阵列变化时，波束集合也会随之变化。实用的波束集合与应用时训练时使用的波束集合是一致的。

当语音分离模型训练好之后就可以直接进行语音分离实用阶段，在实际应用的过程中，无需继续优化，可以在接下来的应用中反复使用。

将所述语音特征输入到分离子模型，得到目标语音的Mask(掩模)；

基于所述语音特征和所述第二波束系数，得到分离后的语音为：将语音特征值和所述第二波束系数相乘，得到分离后的语音特征值。

其中，所述分离子模型是基于混合语音样本数据以及所述目标语音的Mask进行训练后得到；所述注意力选择机制子模型是基于所述分离后的语音、所述波束集合以及预先确定的干净语音标签进行训练后得到。将波束集合与分离子模型输出的Mask结合，通过注意力选择机制子模型获得融合后的第二波束系数，也就是，这两个子模型可以分别进行训练。

将所述波束集合输入到所述第二映射层，得到若干个映射后的第一波束系数，其中每一个映射后的第一波束系数与映射后的Mask在同一维度；

基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数，得到融合后的第二波束系数为：将得到的各个映射后的第一波束系数的概率值与对应的各个波束系数相乘后相加，得到融合后的第二波束系数，得到的融合后的第二波束系数还是一个系数。然后将融合后的第二波束系数与语音特征值相乘，就可以得到分离后的语音特征值。

其中，第一映射层和第二映射层实现的就是注意力选择功能。

对所述分离后的语音进行滤波处理，得到目标语音。

在训练语音分离模型时，可以将注意力选择机制子模型与分离子模型两个子模型总体协作一起训练，能明显提升语音分离的性能。

可选的，采用总体协作一起训练，此时，总体的损失函数Loss如下,其中分离模型部分的Mask与True Label(由训练数据计算而得的掩膜作为模型的模型训练时需要学习的目标)进行MSE Loss(最小均方误差在模型训练时的优化函数)优化，分离后的语音Beam_out与干净语音标签Clean进行SI_SNR Loss(尺度不变的信噪比在模型训练时的优化函数)优化：

Loss＝α*MSE(Mask-True Label)+β*SI_SNR(Beam_out-Clean)

其中，所述MSE表示最小均方误差函数；Mask表示目标语音的Mask，也就是掩模，Mask的数值介于[0，1]；α和β分别是平衡标量，α和β的取值为正数即可，这是模型训练时手动调的参数，无数值限制；True Lab表示由混合语音样本数据计算得到的样本Mask，TrueLabel作为模型的Label，Label是指模型训练时需要学习的目标；SI_SNR表示尺度不变的信噪比函数；Beam_out表示分离后的语音；Clean表示预先确定的干净语音标签。

为了进一步说明本申请实施例的语音分离方法，参见图2，提供了一个具体实施例，包括：

首先对输入的多通道语音通过进行短时傅里叶变换提取频域特征和IPD特征，得到语音特征；

将所述语音特征输入到分离子模型，得到目标语音(也就是目标主讲人的语音)的Mask；

将所述目标语音的Mask输入到所述注意力选择机制子模型的第一映射层，得到映射后的Mask；

将所述波束集合(波束集合包括基于麦克风阵列确定的若干个第一波束系数)输入到所述注意力选择机制子模型的第二映射层，得到若干个映射后的第一波束系数，每一个映射后的第一波束系数与映射后的Mask在同一维度，可以标记为Mask_p(目标语音映射后的Mask)和Beam_pi(波束集合中第i个波束系数映射后的Beam)，例如对于M麦阵列，每一个波束系数维度为M*257，目标主讲人Mask维度为1*257，通过各自映射层(可以为全连接网络FC或者其他结构)，可映射为1*D。其中，M就是一个数，泛指多麦阵列，数值可以为1，2，3…；D是根据映射层的设计得到的与映射层相关的参数。

对于每一个Beam_pi与Mask_p相乘并累加取平均，再进行softmax(多类别分类方法，各个类别的概率和为1)，得到各波束系数的概率值后与各个波束系数相乘，得到融合后的第二波束系数Beam_mix(是基于各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数分别相乘后相加，最终得到一个融合后的第二波束系数)，将输入的语音特征与Beam_mix相乘，得到分离后的语音Beam_out，最后再进行滤波处理(可以采用归一化最小均方算法NLMS等滤波处理)，输出最终结果，也就是目标语音。

本申请实施例通过对输入的多通道语音进行特征提取，得到语音特征，再将语音特征和波束集合分别输入到经过训练后的语音分离模型，得到分离后的语音，波束集合包括基于麦克风阵列确定的若干个第一波束系数，训练过程中对语音分离模型进行优化，针对语音分离的任务，本申请利用注意力选择机制，得到融合后的第二波束系数，将其融入到语音分离流程中。可以有效地提高语音分离的效果，保证分离后的语音的质量。

本申请实施例公开了一种语音分离系统，参见图3，

语音特征提取模块10，用于对输入的多通道语音进行特征提取，得到语音特征；

语音分离模块20，用于将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，所述波束集合包括基于麦克风阵列确定的若干个第一波束系数；

在语音分离模型训练过程中，利用混合语音样本数据、波束集合作为输入，预先确定的干净语音标签作为输出，不断执行S1-S2进行优化，直到优化达到一定的条件，那么可以进入到实用阶段。其中，混合语音样本数据是在干净语音标签中添加了一些已知的噪音。对于不同的麦克风阵列，对其对应的不同的波束集合，需要将不同的波束集合作为输入，分别进行训练，一个波束集合可以使用与其相匹配的训练好的语音分离模型，不同的波束集合所对应的语音分离模型中的参数会不同。

当语音分离模型训练好之后就可以直接进行语音分离应用，在应用的过程中，无需继续优化，可以在接下来的应用中反复使用。

进一步的，所述注意力选择机制模型包括第一映射层、第二映射层，相应地，所述第二波束系数确定单元包括：

第一映射单元，用于将所述目标语音的Mask输入到所述第一映射层，得到映射后的Mask；

第二映射映射单元，用于将所述波束集合输入到所述第二映射层，得到若干个映射后的第一波束系数，每一个映射后的第一波束系数与映射后的Mask在同一维度；

分类融合单元，用于基于每一个映射后的第一波束系数和映射后的Mask，进行多类别分类，并基于所得到的各个映射后的第一波束系数的概率值及其所对应的所述若干个第一波束系数，得到融合后的第二波束系数。

所述进行多类别分类包括：

还包括滤波处理模块，用于对所述分离后的语音进行滤波处理，得到目标语音。

所述语音分离模型采用以下损失函数进行训练：

Loss＝α*MSE(Mask-True Label)+β*SI_SNR(Beam_out-Clean)

其中，所述MSE表示最小均方误差函数，Mask表示目标语音的Mask，Mask的数值介于[0，1]，α和β分别是平衡标量，True Label表示混合语音样本数据，SI_SNR表示尺度不变的信噪比函数，Beam_out表示分离后的语音，Clean表示预先确定的干净语音标签。

图4示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行一种语音分离方法，该方法包括：

S1:对输入的多通道语音进行特征提取，得到语音特征；

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行一种语音分离方法，该方法包括：

S1:对输入的多通道语音进行特征提取，得到语音特征；

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行一种语音分离方法，该方法包括：

S1:对输入的多通道语音进行特征提取，得到语音特征；

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音分离方法，其特征在于，包括：

对输入的多通道语音进行特征提取，得到语音特征；

2.根据权利要求1所述的语音分离方法，其特征在于，所述语音分离模型包括分离子模型和注意力选择机制子模型；

所述将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音，包括：

将所述语音特征输入到分离子模型，得到目标语音的Mask；

3.根据权利要求2所述的语音分离方法，其特征在于，所述注意力选择机制子模型包括第一映射层和第二映射层；

所述将波束集合和所述目标语音的Mask分别输入到注意力选择机制子模型，得到融合后的第二波束系数，包括：

4.根据权利要求3所述的语音分离方法，其特征在于，所述进行多类别分类包括：

5.根据权利要求1所述的语音分离方法，其特征在于，所述将所述语音特征和波束集合分别输入到语音分离模型，得到分离后的语音之后，还包括：

对所述分离后的语音进行滤波处理，得到目标语音。

6.根据权利要求1所述的语音分离方法，其特征在于，所述语音分离模型采用以下损失函数进行训练：

Loss＝α*MSE(Mask-True Label)+β*SI_SNR(Beam_out-Clean)

7.一种语音分离系统，其特征在于，包括；

8.根据权利要求7所述的语音分离系统，其特征在于，所述语音分离模型包括分离子模型和注意力选择机制子模型，所述语音分离模块包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的语音分离方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的语音分离方法的步骤。