CN111370032B

CN111370032B - 语音分离方法、系统、移动终端及存储介质

Info

Publication number: CN111370032B
Application number: CN202010106054.1A
Authority: CN
Inventors: 曾志先; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-02-14
Anticipated expiration: 2040-02-20
Also published as: CN111370032A

Abstract

本发明提供了一种语音分离方法、系统、移动终端及存储介质，该方法包括：获取左声道样本音频和右声道样本音频进行合并，得到组合样本音频；构建编码网络，将组合频谱的频谱特征输入编码网络进行降维编码，得到降维特征；采用注意力机制对降维特征进行注意力计算，得到注意力概率值，将注意力概率值输入解码网络进行解码，得到频谱解码结果；计算频谱解码结果与样本音频的频谱特征之间的损失值，根据损失值对编码网络和解码网络进行模型迭代训练，得到语音分离模型；将待识别语音输入语音分离模型进行语音分离，得到左声道音频文件和右声道音频文件。本发明通过采用端到端模型实现语音数据中的人声分离效果，提高了语音分离的准确性。

Description

语音分离方法、系统、移动终端及存储介质

技术领域

本发明属于语音分离技术领域，尤其涉及一种语音分离方法、系统、移动终端及存储介质。

背景技术

现在越来越多的人通过电话来进行沟通与交流,但是沟通双方在电话中交流的语音通常是合在同一个音频通道当中,所以需要将两个人的音频从单通道分别提取出来,以方便后续对应的进行语音识别和声纹识别。

现有的语音离方法是通过切分语音中静音段,将当前整段音频切分为多个独立的音频片段,然后对所有的音频片段进行聚类,聚类的类别数量为两类,聚类完成后再将两类音频的对应音频片段拼接成完整的音频,从而进行语音识别或声纹识别。

现有的语音分离方法使用过程中，静音段切分难度较大,通常会受到噪声的干扰导致误判,最终聚类的效果也会收到很大程度的影响，进而导致语音分离效果较差,仅适用于质量较高的电话通话音频。

发明内容

本发明实施例的目的在于提供一种语音分离方法、系统、移动终端及存储介质，旨在解决现有的语音分离过程中语音分离效果差的问题。

本发明实施例是这样实现的，一种语音分离方法，所述方法包括：

获取左声道样本音频和右声道样本音频，并将所述左声道样本音频和所述右声道样本音频进行合并，得到组合样本音频；

构建编码网络，将所述组合样本音频的频谱特征输入所述编码网络进行降维编码，得到降维特征；

采用注意力机制对所述降维特征进行注意力计算，得到注意力概率值，并构建解码网络，将所述注意力概率值输入所述解码网络进行解码，得到频谱解码结果；

计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值，并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练，以得到语音分离模型；

将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件。

更进一步的，所述构建编码网络的步骤包括：

构建prenet网络，并在所述prenet网络后构建CBHG网络，所述prenet网络包括三个全连接层，所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层，所述第二卷积层和第三卷积层均为一维卷积层，且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu，所述第三卷积层未采用激活函数。

更进一步的，所述将所述组合样本音频的频谱特征输入所述编码网络进行降维编码的步骤包括：

将所述组合样本音频的频谱特征输入所述全连接层进行处理，并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理，得到卷积输出结果；

对所述卷积输出结果进行残余连接处理，并将处理结果输入双向RNN网络，以得到所述降维特征。

更进一步的，所述对所述卷积输出结果进行残余连接处理的步骤包括：

对所述卷积输出结果进行序列相加，并将相加结果输入到两个一层的全连接网络中进行处理，所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数。

更进一步的，所述采用注意力机制对所述降维特征进行注意力计算的步骤包括：

构建GRU循环网络，并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装；

将所述降维特征输入封装后的所述GRU循环网络进行数据计算，得到注意力概率值。

更进一步的，所述解码网络包括pre-net、Attention-RNN和Decoder-RNN，pre-net用于通过全连接网络对输入数据进行非线性变换；

Attention-RNN的结构为一层包含256个GRU的RNN,Attention-RNN用于将pre-net的输出和Attention的输出作为输入,并将输入经过GRU单元后输出到Decoder-RNN中；

Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和，每层residual GRU均包含256个GRU单元。

更进一步的，所述计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值的步骤包括：

根据MATLAB函数对所述频谱解码结果进行维度转换，得到左声道预测特征和右声道预测特征；

根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算，以得到所述损失值。

本发明实施例的另一目的在于提供一种语音分离系统，所述系统包括：

样本音频获取模块，用于获取左声道样本音频和右声道样本音频，并将所述左声道样本音频和所述右声道样本音频进行合并，得到组合样本音频；

特征降维模块，用于构建编码网络，将所述组合样本音频的频谱特征输入所述编码网络进行降维编码，得到降维特征；

特征解码模块，用于采用注意力机制对所述降维特征进行注意力计算，得到注意力概率值，并构建解码网络，将所述注意力概率值输入所述解码网络进行解码，得到频谱解码结果；

迭代训练模块，用于计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值，并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练，以得到语音分离模型；

语音分离模块，用于将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音分离方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音分离方法的步骤。

本发明实施例，通过基于编码网络-解码网络的设计，以采用端到端模型实现语音数据中的人声分离效果，提高了语音分离的准确性，简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果，提高了用户的使用体验。

附图说明

图1是本发明第一实施例提供的语音分离方法的流程图；

图2是本发明第二实施例提供的语音分离方法的流程图；

图3是本发明第三实施例提供的语音分离系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的语音分离方法的流程图，包括步骤：

步骤S10，获取左声道样本音频和右声道样本音频，并将所述左声道样本音频和所述右声道样本音频进行合并，得到组合样本音频；

其中，通过采集真实场景中的电话音频以得到左声道样本音频和右声道样本音频，该步骤中，通过电话的录音功能将电话通话音频进行保存,但是要求保存到的通话音频为双声道的,即左声道为一个人的通话,右声道为另一个人的通话,并录制1万条的通话音频,每条通话音频为2分钟左右；

具体的，该步骤中，将所有的双通道通话音频合并为单通道音频,即将两个人的各自的通话合并在一起,将合并后的音频存放到一个目录中,接着将所有的双通道音频的各个通道拆分开进行保存,所有的左通道音频保存到一个目录当中,所有的右通道音频保存到一个目录当中,因此，能够拿到3种音频,分别为双通道合并之后的组合样本音频、通道拆解后保存的左声道样本音频和通道拆解后保存的右声道样本音频,该组合样本音频将会作为模型训练过程中的输入数据,左声道样本音频和右声道样本音频将会作为模型训练过程中的标签数据；

步骤S20，构建编码网络，将所述组合样本音频的频谱特征输入所述编码网络进行降维编码，得到降维特征；

其中，通过对该组合频谱进行频谱特征提取，以得到频谱图特征数据，并将该频谱图特征数据输入编码网络进行降维编码，以得到降维特征，该编码网络的作用在于创建输入数据特征,即对组合样本音频的频谱图特征进行编码的操作,并将原始的组合样本音频的频谱图特征的维度转为特定的低维特征；

具体的，该步骤中，通过使用Python的matplotlib库进行音频频谱图特征的转换,将组合样本音频通过matplotlib库来转为频谱图特征数据，该频谱图特征数据用于进行模型的训练数据；

优选的，该步骤中，通过对组合频谱的频谱图特征数据进行数据集的分类，以得到训练集和测试集，具体的，本实施例中，将1万条频谱图特征数据中随机取80％的特征数据作为训练集,剩下的20％特征数据作为测试集,测试数据集用于作为训练模型完成之后的准确率测试；

步骤S30，采用注意力机制对所述降维特征进行注意力计算，得到注意力概率值，并构建解码网络，将所述注意力概率值输入所述解码网络进行解码，得到频谱解码结果；

其中，通过采用注意力机制对所述降维特征进行注意力计算的设计，以使将计算编码网络中不同的Cell需要的注意力,并且以0-1范围的概率方式进行呈现；

具体的，该步骤中，解码网络用于将编码网络的输出信息解码为需要的结果信息,解码网络的结果为两个特征数据,这两个特征数据分别表征模型网络预测出来的左通道音频特征数据,以及右通道音频特征数据,这两个特征数据用于与之前从电话双通道音频提取出来的左声道样本音频和右声道样本音频进行比较；

步骤S40，计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值；

其中，通过计算频谱解码结果与左声道样本音频和右声道样本音频的频谱特征之间的损失值设计，以使能有效的对编码网络和解码网络进行参数更新；

即该步骤中，通过分别进行左通道音频特征数据与左声道样本音频中频谱图特征之间,以及右通道音频特征数据与右声道样本音频中频谱图特征之间的损失计算，以得到该损失值；

步骤S50，根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练，以得到语音分离模型；

其中，模型迭代训练过程中的迭代次数可以根据需求进行设置，通过根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练的设计，能有效的对该语音分离模型进行参数更新，直至该语音分离模型收敛；

具体的，该步骤中，当该语音分离模型收敛后，根据测试集对该语音分离模型进行测试，当判断到该语音分离模型的测试结果满足合格条件时，将该语音分离模型进行输出；

优选的，当判断该语音分离模型的测试结果未满足合格条件时，对该语音分离模型进行参数优化；

步骤S60，将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件；

其中，当得到训练拟合之后的语音分离模型时,将电话两人声音未分离的待识别语音作为语音分离模型的输入数据,模型的输出结果即为分离后的左通道频谱图特征,以及右通道频谱图特征数据,然后通过转换网络,将预测的两个通道的频谱图转为音频波形文件,至即得到该左声道音频文件和右声道音频文件；

本实施例，通过基于编码网络-解码网络的设计，以采用端到端模型实现语音数据中的人声分离效果，提高了语音分离的准确性，简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果，提高了用户的使用体验。

实施例二

请参阅图2，是本发明第二实施例提供的语音分离方法的流程图，包括步骤：

步骤S11，获取左声道样本音频和右声道样本音频，并将所述左声道样本音频和所述右声道样本音频进行合并，得到组合样本音频；

步骤S21，构建prenet网络，在所述prenet网络后构建CBHG网络；

其中，所述prenet网络包括三个全连接层，所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层，所述第二卷积层和第三卷积层均为一维卷积层，且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu，所述第三卷积层未采用激活函数；

步骤S31，将所述组合样本音频的频谱特征输入所述全连接层进行处理，并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理，得到卷积输出结果；

步骤S41，对所述卷积输出结果进行残余连接处理，并将处理结果输入双向RNN网络，以得到所述降维特征；

其中，所述对所述卷积输出结果进行残余连接处理的步骤包括：

对所述卷积输出结果进行序列相加，并将相加结果输入到两个一层的全连接网络中进行处理，所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数；

该步骤中，对所述卷积输出结果进行残余连接处理的步骤用于将卷积层输出的和embedding之后序列相加起来,并输入到highwaylayers中,highwaynets的每一层结构为:把输入同时放入到两个一层的全连接网络当中,这两个网络的激活函数分别采用了ReLu和sigmoid函数；

假定输入为input,ReLu的输出为output1,sigmoid的输出为output2,那么highwaylayer的输出为:output＝output1*output2+input*(1-output2),该步骤中使用了4层的highwaylayer；

接下来就是双向RNN网络部分,将前面的highwaylayers的输出结果作为双向RNN网络的输入,输出结果将会为正向RNN的结果以及反向RNN的结果；

步骤S51，构建GRU循环网络，并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装，并将所述降维特征输入封装后的所述GRU循环网络进行数据计算，得到注意力概率值；

步骤S61，构建解码网络，将所述注意力概率值输入所述解码网络进行解码，得到频谱解码结果；

其中，所述解码网络包括pre-net、Attention-RNN和Decoder-RNN，pre-net用于通过全连接网络对输入数据进行非线性变换；

Decoder-RNN为两层residual GRU,Decoder-RNN的输出为输入与经过GRU单元输出之间的和，每层residual GRU均包含256个GRU单元；

步骤S71，根据MATLAB函数对所述频谱解码结果进行维度转换，得到左声道预测特征和右声道预测特征；

其中，由于得到的频谱解码结果中的特征数据还是低维的特征数据,需要将其转为高维的频谱图特征数据,接着需要完成的就是将频谱解码结果转为频谱Spectrogram,该步骤可以使用神经网络维度转换的方式或者通过一个RNN将解码网络的输出维度转为Spectrogram的维度；

步骤S81，根据欧式距离公式分别进行所述左声道预测特征与所述左声道样本音频的频谱特征之间、所述右声道预测特征与所述右声道样本音频的频谱特征之间的损失计算，以得到所述损失值；

步骤S91，根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练，以得到语音分离模型；

步骤S101，将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件；

本实施例中，通过基于编码网络-解码网络的设计，以采用端到端模型实现语音数据中的人声分离效果，提高了语音分离的准确性，简化了语音分离的步骤,实现了输入原始语音数据,输出即为分开后的两个声道音频数据的效果，提高了用户的使用体验。

实施例三

请参阅图3，是本发明第三实施例提供的语音分离系统100的结构示意图，包括：样本音频获取模块10、特征降维模块11、特征解码模块12、迭代训练模块13和语音分离模块14，其中：

样本音频获取模块10，用于获取左声道样本音频和右声道样本音频，并将所述左声道样本音频和所述右声道样本音频进行合并，得到组合样本音频。

特征降维模块11，用于构建编码网络，将所述组合样本音频的频谱特征输入所述编码网络进行降维编码，得到降维特征。

其中，所述特征降维模块11还用于：构建prenet网络，并在所述prenet网络后构建CBHG网络，所述prenet网络包括三个全连接层，所述CBHG网络依序包括第一卷积层、池化层、第二卷积层和第三卷积层，所述第二卷积层和第三卷积层均为一维卷积层，且所述第二卷积层和所述第三卷积层的filter大小为3,stride为1,所述第二卷积层采用的激活函数为ReLu，所述第三卷积层未采用激活函数。

优选的，所述特征降维模块11还用于：将所述组合样本音频的频谱特征输入所述全连接层进行处理，并将处理结果依序通过所述第一卷积层、所述池化层、所述第二卷积层和所述第三卷积层处理，得到卷积输出结果；

进一步的，所述特征降维模块11还用于：对所述卷积输出结果进行序列相加，并将相加结果输入到两个一层的全连接网络中进行处理，所述两个一层的全连接网络的激活函数分别采用了ReLu和sigmoid函数。

特征解码模块12，用于采用注意力机制对所述降维特征进行注意力计算，得到注意力概率值，并构建解码网络，将所述注意力概率值输入所述解码网络进行解码，得到频谱解码结果。

更进一步的，所述特征解码模块12还用于：构建GRU循环网络，并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装；将所述降维特征输入封装后的所述GRU循环网络进行数据计算，得到注意力概率值。

具体的，所述解码网络包括pre-net、Attention-RNN和Decoder-RNN，pre-net用于通过全连接网络对输入数据进行非线性变换；

迭代训练模块13，用于计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值，并根据所述损失值对所述编码网络和所述解码网络进行模型迭代训练，以得到语音分离模型。

其中，所述迭代训练模块13还用于：根据MATLAB函数对所述频谱解码结果进行维度转换，得到左声道预测特征和右声道预测特征；

语音分离模块14，用于将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音分离方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的语音分离系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的语音分离方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音分离系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语音分离系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音分离方法，其特征在于，所述方法包括：

将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件；

所述采用注意力机制对所述降维特征进行注意力计算的步骤包括：

将所述降维特征输入封装后的所述GRU循环网络进行数据计算，得到注意力概率值；

所述计算所述频谱解码结果与所述左声道样本音频和所述右声道样本音频的频谱特征之间的损失值的步骤包括：

2.如权利要求1所述的语音分离方法，其特征在于，所述构建编码网络的步骤包括：

3.如权利要求2所述的语音分离方法，其特征在于，所述将所述组合样本音频的频谱特征输入所述编码网络进行降维编码的步骤包括：

4.如权利要求3所述的语音分离方法，其特征在于，所述对所述卷积输出结果进行残余连接处理的步骤包括：

5.如权利要求1所述的语音分离方法，其特征在于，所述解码网络包括pre-net、Attention-RNN和Decoder-RNN，pre-net用于通过全连接网络对输入数据进行非线性变换；

6.一种语音分离系统，其特征在于，所述系统包括：

语音分离模块，用于将待识别语音输入所述语音分离模型进行语音分离，以得到左声道音频文件和右声道音频文件；

所述特征解码模块还用于：构建GRU循环网络，并根据AttentionWrapper函数对所述GRU循环网络进行自注意力封装；

所述迭代训练模块还用于：根据MATLAB函数对所述频谱解码结果进行维度转换，得到左声道预测特征和右声道预测特征；

7.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至5任一项所述的语音分离方法。

8.一种存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至5任一项所述的语音分离方法的步骤。