CN107680611B

CN107680611B - 基于卷积神经网络的单通道声音分离方法

Info

Publication number: CN107680611B
Application number: CN201710821803.7A
Authority: CN
Inventors: 段惠萍; 梁瀚明; 张新月; 方俊
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2020-06-16
Anticipated expiration: 2037-09-13
Also published as: CN107680611A

Abstract

本发明公开了一种基于卷积神经网络的单通道声音分离方法，属于声音信号处理、人工智能技术领域。本发明首先提出了基于卷积神经网络的单通道声音分离方法的处理框架，该框架由短时傅里叶变换、卷积神经网络、时频掩膜、逆短时傅里叶变换组成。其中卷积神经网络包含卷积层、池化层、融合层以及上采样层。本发明利用卷积神经网络擅长于挖掘二维数据空间特征的特性，在神经网络层数方面，增加模型的层数；在神经网络结构方面，本发明提出一个包含编码阶段和解码阶段的卷积神经网络结构。在单通道声音分离领域，本发明较之基线模型在分离指标上得到了极大提升，同时大大降低了神经网络参数的数目。

Description

基于卷积神经网络的单通道声音分离方法

技术领域

本发明属于声音信号处理、人工智能技术领域，具体涉及单通道声音分离方法。

背景技术

单通道声音分离问题是指从单通道混合声音信号中分离出混合前的原始声音信号。在卡拉OK游戏中，声音分离算法能够从音乐中分离出伴奏；在助听器中，从混合信号中分离出人声能够提高声音的可懂度；在语音识别算法中，从混合信号中分离出人声能够降低语音识别的错字率，因此单通道声音分离有极其重要的研究和实用价值。

卷积神经网络于20世纪90年代提出，直到2012年在ImageNet大规模图像识别竞赛获得成功，卷积神经网络才被广泛应用到图像、语音等各个领域。在图像数据中，局部图像往往具有很高的相关性，能够构成可鉴别的基本图案。卷积神经网络充分利用了这一特性，每一层只与前一层一小块神经元链接。局部连接大大降低了神经网络参数的数量，并具有更好的泛化性能。声音信号经过短时傅里叶变换以后得到时频图，时频图也是一种类似于图像的二维数据，因此同样可以使用卷积神经网络来实现单通道声音分离。

在单通道语音分离领域，最常用的方法是非负矩阵分解和稳健主成分分析。基于非负矩阵分解的方法会假设声音信号的时频图是低秩的；基于稳健主成分分析的方法会假设一种原始声音信号的时频图是低秩的，另一种原始声音信号的时频图是稀疏的。然而在真实的复杂环境中，这些假设并不完全准确。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于卷积神经网络的声音分离方法，来提升声音分离的效果，以解决当前实际应用场景下声音分离的问题。

本发明首先提出了一个全新的基于卷积神经网络的声音分离框架，此框架能够充分利用声音信号在时频图中的重复性。

本发明提出的声音分离方法，采用上述基于卷积神经网络的框架，首先对声音信号进行预处理得到时频图，使用时频图构建训练数据，然后训练卷积神经网络模型，最后通过卷积神经网络模型预测原始声音信号的时频图，从预测的原始声音信号的时频图中恢复出原始声音信号。具体包括3个过程：构建训练数据、训练卷积神经网络、使用已训练模型进行分离。

本发明的基于卷积神经网络的声音分离方法，包括下列步骤：

步骤1、构建训练数据：

101：对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f)，其中t表示时间，f表示频率；

102：对原始声音信号进行混合得到混合声音信号，并对混合声音信号进行短时傅里叶变换得到混合声音信号时频图Y(t,f)；

103：由原始声音信号时频图和混合声音信号时频图构建理想二值掩膜：

步骤2、训练卷积神经网络模型：

201：构建用于单声道声音分离的卷积神经网络模型，所述卷积神经网络模型从输入层INPUT开始，依次经过卷积层CONV1_1，卷积层CONV1_2，池化层POOL1，卷积层CONV2_1，卷积层CONV2_2，池化层POOL2，卷积层CONV3_1，卷积层CONV3_2，池化层POOL3，卷积层CONV4_1，卷积层CONV4_2，上采样层UP5、融合层CONCAT5、卷积层CONV5_1、卷积层CONV5_2、上采样层UP6、融合层CONCAT6、卷积层CONV6_1、卷积层CONV6_2、上采样层UP7、融合层CONCAT7、卷积层CONV7_1、卷积层CONV7_2和卷积层CONV_8，且融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加，融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加，融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加；

202：设置训练参数，其中训练参数包括模型学习优化方式、学习率及最大迭代次数；例如模型学习优化方式采用Adam优化，初始学习率设置为0.001，若交叉验证集分数在5次迭代内不下降，则学习率下降为0.1倍，最大迭代次数设置为100。

203：将混合声音信号时频图Y(t,f)幅度输入卷积神经网络模型，前向传播计算交叉墒损失；

204：将交叉墒损失反向传播更新神经元权重，其初始值为预设值；

205：重复步骤203和204，直至模型收敛，得到训练好的卷积神经网络模型，保存最后一次更新的模型参数。

模型收敛的条件为达到最大迭代次数或损失收敛，其中认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降。epoch表示使用训练集中的全部训练样本训练1次。

步骤3、使用训练好的卷积神经网络模型进行声音分离处理：

301：对待分离的混合声音信号进行短时傅里叶变换得到待分离的混合声音信号时频图；

302：将待分离的混合声音信号时频图幅度输入训练好的卷积神经网络模型，输出估计时频掩膜；

303：使用估计时频掩膜和待分离的混合声音信号时频图合成估计的原始声音信号时频图；

304：对估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。

本发明无需对时频图的特征做出任何假设，只需要足够的训练数据就能够学习出合适的神经元权重。相比于普通的全连接神经网络，卷积神经网络充分利用了时频图在时间轴和频率轴上的重复性，具有参数更少、泛化性能更强的特点。

综上所述，由于采用了上述技术方案，本发明的有益效果是：模型训练数据少，仅使用105分钟的音频作为训练数据；分离速度快，例如在3.4GHz两核的CPU上，分离60秒的音频仅需20秒。

附图说明

图1一种基于卷积神经网络单声道声音分离方法的流程图；

图2本发明提出的卷积神经网络模型结构图；

图3对比不同声音分离方法的GNSDR，其中图(a)为不同声音分离方法的人声GNSDR；(b)为不同声音分离方法的伴奏GNSDR。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，将本发明用于人声与伴奏分离时，其具体处理步骤如下：

1、构建训练数据：

训练本发明提出的卷积神经网络模型所使用的数据集是iKala数据集。iKala数据集包含252段长度为30秒的中文流行歌曲片段，每一个片段包含两个声道，左声道为人声，右声道为伴奏。首先将人声信号与伴奏信号进行一比一混合得到混合声音信号。然后分别对人声信号、伴奏信号和混合声音信号进行短时傅里叶变换得到相应的时频图。最后由人声信号时频图、伴奏信号时频图和混合声音信号时频图构建理想二值掩膜。

2、搭建卷积神经网络模型：

利用深度学习框架Keras，搭建本发明提出的卷积神经网络模型，如图2所示。此模型由卷积层、池化层、融合层和上采样层组成；

其中，输入层的大小为1024×8×1；

卷积层CONV1_1～CONV7_2(即除卷积层CONV8外的所有卷积层)的卷积方式和卷积核尺寸均相同：卷积核大小为5×3，卷积核的个数为32，滑动步长为1，边缘填充为1；卷积层CONV8的卷积核大小为1×1，卷积核的个数为1，滑动步长为1，边缘填充为0；

池化层POOL1和POOL2均为：最大值池化，池化核大小为4×2，滑动步长为4×2，边缘填充为0；池化层POOL3为：最大值池化，池化核大小为2×1，滑动步长为2×1，边缘填充为0；

上采样层UP5：最近邻上采样，大小为2×1；上采样层UP6和UP7为：最近邻上采样，上采样因子为4×2；

融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加，融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加，融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加。

3、训练卷积神经网络模型：

训练数据前向传播并计算交叉熵损失，将损失反向传播并更新模型参数。重复前向传播与反向传播直至模型收敛，认定模型收敛的条件是交叉验证集分数在10个epoch内不下降。训练完成后，模型参数保存到文件中。

4、使用已训练模型进行分离：

首先搭建卷积神经网络模型并加载训练好的模型参数。然后对待分离的混合声音信号进行短时傅里叶变换得到时频图，将待分离的混合声音信号时频图幅度输入到卷积神经网络模型得到估计的二值掩膜。将估计的二值掩膜与带分离的混合声音信号时频图相乘得到估计的原始声音信号时频图。最后将估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。

5、在iKala数据集上对本发明的模型进行评估：

评估所使用的指标是BSS-EVAL所定义的三个评价指标：信号失真比(SDR)、信号干扰比(SIR)和信号伪影比(SAR)，其中SIR反映模型抑制干扰的能力，SAR反映模型对引入的误差的抑制能力，SDR反映模型的整体分离性能。信号失真比、信号干扰比和信号伪影比均为越大越好。评估结果如下表1所示，可以看出本发明所提出的卷积神经网络模型性能优越。

为了衡量本发明的分离方法在整个数据集上的分离效果，对每一首歌曲的评价指标进行加权求和，权重为歌曲的长度。最终的评价指标为全局归一化SDR(GNSDR)、全局SIR(GSIR)、全局SAR(GSAR)，具体如表1所示。

表1、本发明方法在iKala数据集上，人声与伴奏分离的评价指标(dB)

其中RP1为文献“Rafii Z,Pardo B.REpeating Pattern Extraction Technique(REPET):A Simple Method for Music/Voice Separation[J].IEEE Transactions onAudio Speech&Language Processing,2012,21(1):73-84.”中提出的分离方式；IIY4为文献“Huang P S,Chen S D,Smaragdis P,et al.Singing-voice separation frommonaural recordings using robust principal component analysis[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing.IEEE,2012:57-60.”中提出的分离方式；LCP2为文献“Luo Y,Chen Z,Hershey J R,et al.DeepClustering and Conventional Networks for Music Separation:Stronger Together[J].2016.”中提出的分离方式；MC3为文献“Chandna P,Miron M,Janer J,etal.Monoaural Audio Source Separation Using Deep Convolutional Neural Networks[J].2017:258-266”中提出的分离方式。

图3为对应表1的柱状图，其中图(a)为不同声音分离方法的人声GNSDR；(b)为不同声音分离方法的伴奏GNSDR。。

综上，本发明方法利用了卷积神经网络善于挖掘二维数据空间特征的特性，在iKala数据集上取得了很高的信号失真比。相比于传统的声音分离方法，本发明方法利用了卷积神经网络结构，充分拟合输入数据的特征，同时具有很好的泛化性能，在非训练数据上也有很好的效果。与基于全连接神经网络的方法相比，基于卷积神经网络的方法具有更少的参数，在训练的过程中不容易出现过拟合。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于卷积神经网络的单通道声音分离方法，其特征在于，包括下列步骤：

步骤1、构建训练数据：

101：对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f)；

步骤2、训练卷积神经网络模型：

其中，输入层的大小为1024×8×1；

除卷积层CONV_8外，所有卷积层的卷积核尺寸和卷积方式相同：卷积核大小为5×3，卷积核的个数为32，滑动步长为1，边缘填充为1；卷积层CONV_8的卷积核大小为1×1，卷积核的个数为1，滑动步长为1，边缘填充为0；

池化层POOL1和POOL2的池化方式和池化核尺寸相同：池化核大小为4×2，最大值池化，滑动步长为4×2，边缘填充为0；池化层POOL3为：最大值池化，池化核大小为2×1，滑动步长为2×1，边缘填充为0；

上采样层UP5～UP7的采样方式均为最近邻上采样，其中上采样层UP6和UP7的上采样因子均为4×2，上采样层UP5的上采样因子为2×1；

202：设置训练参数；所述训练参数包括模型学习优化方式、学习率及最大迭代次数；

204：将交叉墒损失反向传播更新神经元权重，其中神经元权重的初始值为预设值；

205：重复步骤203和204，直至模型收敛，得到训练好的卷积神经网络模型；

步骤3、使用训练好的卷积神经网络模型进行声音分离处理：

2.如权利要求1所述的方法，其特征在于，模型学习优化方式采用Adam优化，初始学习率设置为0.001，若交叉验证集分数在5次迭代内不下降，则学习率下降为0.1倍，最大迭代次数设置为100。

3.如权利要求1所述的方法，其特征在于，模型收敛的条件为达到最大迭代次数或损失收敛，其中，认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降，epoch表示使用训练集中的全部训练样本训练1次。