CN110782915A

CN110782915A - 一种基于深度学习的波形音乐成分分离方法

Info

Publication number: CN110782915A
Application number: CN201911055168.1A
Authority: CN
Inventors: 黄颂国; 杨淦; 张叶君; 姚文清; 周鹏
Original assignee: Guangzhou Aisong Intelligent Technology Co ltd
Current assignee: Guangzhou Aisong Intelligent Technology Co ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-11

Abstract

本发明属于音频处理技术领域，公开了一种基于深度学习的波形音乐成分分离方法。本发明包括以下步骤：获取多个原始波形音乐后进行分类处理及预处理，得到多个不同成分的时频谱样本；依次使用每个原始波形音乐及对应的时频谱样本分别对神经网络进行训练，得到分离模型；将目标波形音乐依次进行分类处理及预处理后，得到目标时频谱并输入分离模型中，得到独立成分的目标波形音乐。本发明能够有效提高波形音乐中独立成分分离的准确性，同时本发明可对任意风格歌曲进行独立成分分离，且通过不断将新分离出的独立成分加入训练集中，分离模型自身能够得到优化，适于推广使用。

Description

一种基于深度学习的波形音乐成分分离方法

技术领域

本发明属于音频处理技术领域，具体涉及一种基于深度学习的波形音乐成分分离方法。

背景技术

音频分离技术是从多个混合语音信号中，分别提取出每一个特定种类的信号，该技术对音频检测、音频识别等具有重要意义。

具体的，在音乐成分分离领域，由于音乐音频信号的复杂性和不稳定性，传统的分离方法达不到很好的分离效果，并且以往的分离中只对目标音乐的频谱幅度进行估计。目前基于深度学习算法在波形音乐成分分离方面处于研究阶段，

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

a.部分分离算法仅可对特定歌曲进行成分分离，不具备普适性；

b.不同风格的歌曲中相同独立成分的数据表现也有所不同，由于数据杂乱，单独使用深度学习算法无法高效准确地分离独立成分；

c.目前单独使用深度学习进行独立成分分离，无法保证分离出的独立成分的纯净度，容易混杂入其他成分的数据，影响分离效果。

发明内容

本发明旨在于至少在一定程度上解决上述技术问题之一。

为此，本发明目的在于提供一种基于深度学习的波形音乐成分分离方法，能够有效提高波形音乐中独立成分分离的准确性，同时本发明可对任意风格歌曲进行独立成分分离，且通过不断将新分离出的独立成分加入训练集中，分离模型自身能够得到优化。

本发明所采用的技术方案为：

一种基于深度学习的波形音乐成分分离方法，包括以下步骤：

获取多个原始波形音乐，然后对多个原始波形音乐分别依次进行分类处理及预处理，得到多个不同成分的时频谱样本，其中，每个成分对应多个原始波形音乐，每个原始波形音乐对应一时频谱样本；

依次使用每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本分别对神经网络进行训练，得到分离模型；

将目标波形音乐依次进行分类处理及预处理后，得到目标时频谱；

将目标时频谱输入分离模型中，得到独立成分的目标波形音乐。

作为优选，所述的神经网络为使用Pytorch深度学习框架搭建的3层deepLSTM深层神经网络。

作为优选，得到分离模型时，每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本，逐一通过神经网络对任一成分进行训练后，分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。

作为优选，对原始波形音乐进行分类处理时，具体步骤如下：

对原始波形音乐进行音乐风格分类，然后将每种音乐风格的原始波形音乐进行成分分类，其中，成分分类时包括人声、打击乐、贝斯、弦乐及其他；

获取成分分类后每个成分的原始波形音乐，形成每个成分对应的原始波形音乐样本集，然后对每个原始波形音乐样本集中的每个原始音乐波形样本进行预处理。

作为优选，对原始波形音乐样本或目标波形音乐进行预处理时，对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作。

作为优选，对原始波形音乐样本或目标波形音乐进行归一化操作时，将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz，并设置每个原始波形音乐样本或目标波形音乐的时长为30s，且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。

作为优选，对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时，具体步骤如下：

取每32ms采样点为一帧信号，则采样频率为16kHz时对应为512个采样点，若任一采样点长度不足32ms则先将采样点补零到512个；

对每一帧信号进行加窗操作，得到波形信号，其中，加窗操作时采用的加窗函数为汉明窗或汉宁窗；

对波形信号进行短时傅里叶变换操作，将波形信号转换为时频谱。

作为优选，将目标时频谱输入分离模型中，得到独立成分的目标波形音乐时，具体步骤如下：

将目标时频谱输入分离模型中，然后通过Pytorch深度学习框架预测目标独立成分时频谱；

将目标独立成分时频谱进行维纳滤波转换为时域波形，然后将时域波形通过逆短时傅里叶变换转换为波形音乐，由此即可得到独立成分的目标波形音乐。

本发明的有益效果为：

本发明基于深度神经网络，能够有效提高波形音乐中独立成分分离的准确性，同时本发明可对任意风格歌曲进行独立成分分离，且通过不断将新分离出的独立成分加入训练集中，分离模型自身能够得到优化；本发明具有较强的可扩展性和普适性，可针对任一风格的歌曲进行独立成分提取，适于推广使用。

本发明的其他有益效果将在具体实施方式中详细说明。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例1的流程框图。

图2是将目标时频谱输入分离模型后得到目标独立成分时频谱的流程框图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本发明公开的功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本发明阐述的实施例中。

应当理解，本发明使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若术语“包括”、“包括了”、“包含”和/或“包含了”在本发明中被使用时，指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性，并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如，取决于所涉及的功能/动作，实际上可以实质上并发地执行，或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

如图1所示，本实施例提供一种基于深度学习的波形音乐成分分离方法，包括以下步骤：

获取多个原始波形音乐，然后对多个原始波形音乐分别依次进行分类处理及预处理，得到多个不同成分的时频谱样本，其中，每个成分对应多个原始波形音乐，每个原始波形音乐对应一时频谱样本；多个原始波形音乐即为原始训练样本集；通过对原始波形音乐进行分类处理及预处理，保证了训练样本集的高质量；由于在神经网络训练中拟合的对象是时-频域的时频谱(spectrogram)，因此需要将位于时域的波形进行预处理得到时频谱。

依次使用每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本分别对神经网络进行训练，得到分离模型；应用深度学习算法进行波形音乐成分分离，提高了数据分类准确性，避免原始数据基础参数一致性等因素影响成分分离的准确性；其中，得到分离模型时，每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本，逐一通过神经网络对任一成分进行训练后，分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。

实施例2

本实施例提供的技术方案是在实施例1的技术方案基础上作出的进一步改进，本实施例与实施例1的区别技术特征在于：

本实施例中，神经网络为使用Pytorch深度学习框架搭建的3层deep LSTM(长短期记忆网络模型)深层神经网络，由于其具有递归性，用来训练和评估任意时间长度的音频信号相比较其它类型的神经网络更加合适。举例说明，首先输入混合时频谱，混合时频谱的维度信息是帧序列、每帧采样序列、音频频道数及频率序列，其中，帧序列和频率序列是由之前对时域波形进行短时傅里叶变换得到；对于位于每一帧的每一个离散频率，采用全局平均和标准差进行输入数据的标准化，这样可以减少冗余信息，加快模型的收敛，减少训练的时间。并且在神经网络的多层直接，多次采用批量归一化(batch normalization)，增强训练的鲁棒性。

如图2所示，首先输入待分离的波形音乐的时频谱(即混合时频谱)，对其每一帧的每一个离散频率利用均值与标准差映射到同一正态分布中，得到线性模型1，接近对采样频率、时长以及增幅进行归一化处理，接着通过激励函数tanh对线性模型1加入非线性因素，提高模型健壮性，得到的线性模型进入某一目标独立成分的LSTM模型中进行训练，得到线性模型2，再对线性模型2进行两次归一化操作与两次ReLu激励函数的计算，得到目标独立成分的时频谱(即目标时频谱)。

使用基于LSTM深层神经网络和PyTorch深度学习框架对多个原始波形音乐及其对应的时频谱样本进行训练提升了提取原始单独成分特征的准确性，使得分离模型提取目标波形音乐的准确性更高，同时大大提高了分离出的独立成分的目标波形音乐质量。

从原始波形音乐样本中选取原始混合波形音乐及其五种独立成分波形音乐对应的时频谱，使用Pytorch框架搭建LSTM深层神经网络，逐一通过LSTM深层神经网络对某一特定独立成分进行训练后分别得到M(target1)、M(target2)、M(target3)等模型，即每种独立成分波形音乐的时频谱各自通过LSTM深层神经网络进行训练得到各自的模型，如：bass独立成分进行训练后得到M(Bass)模型，这些模型用于与训练提取出的目标波形文件对应。

实施例3

本实施例提供的技术方案是在实施例1或2的技术方案基础上作出的进一步改进，本实施例与实施例1或2的区别技术特征在于：

本实施例中，对原始波形音乐进行分类处理时，具体步骤如下：

对原始波形音乐进行音乐风格分类，然后将每种音乐风格的原始波形音乐进行成分分类，其中，成分分类时包括人声、打击乐、贝斯、弦乐及其他；其中，其他为不属于前四种成分的所有音乐；由此可以基于LSTM深层神经网络，从原始波形音乐文件中分离出人声(vocals)、打击乐(drums)、贝斯(bass)、弦乐(strings)以及其他(others)单独成分中一种或多种成分。

实施例4

本实施例提供的技术方案是在实施例3的技术方案基础上作出的进一步改进，本实施例与实施例3的区别技术特征在于：

本实施例中，对原始波形音乐样本或目标波形音乐进行预处理时，对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作；其中，对原始波形音乐样本或目标波形音乐进行归一化处理，可以保证信号的完整性，提高了深度学习的训练质量。

需要说明的是，分帧操作的意义在于可以得到尽可能平稳的波形信号；加窗操作可以减少波形信号中的干扰、噪声和抖动，减少频谱泄露。

实施例5

本实施例提供的技术方案是在实施例4的技术方案基础上作出的进一步改进，本实施例与实施例4的区别技术特征在于：

本实施例中，对原始波形音乐样本或目标波形音乐进行归一化操作时，将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz，并设置每个原始波形音乐样本或目标波形音乐的时长为30s，且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。，由此可以降低因数据波动造成训练误差较多的情况。

实施例6

本实施例提供的技术方案是在实施例4或5的技术方案基础上作出的进一步改进，本实施例与实施例4或5的区别技术特征在于：

本实施例中，对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时，具体步骤如下：

实施例7

本实施例提供的技术方案是在实施例2至6任一的技术方案基础上作出的进一步改进，本实施例与实施例2至6任一的区别技术特征在于：

本实施例中，将目标时频谱输入分离模型中，得到独立成分的目标波形音乐时，具体步骤如下：

具体应用中，首先从网络中筛选大量波形文件进行实验，得到原始混合波形音乐后对其按照人声(vocals)、打击乐(drums)、贝斯(bass)、弦乐(strings)以及其他(others)这五个成分进行分离得到每个成分对应的原始训练集，进而建立每个成分的单独成分数据模型；然后选择入参，即输入目标独立成分，这里的目标独立成分可以为多个，根据选择的独立成分从原始训练集中取出所有混合波形音乐及其对应的独立成分；接着将取出的原始波形音乐通过分帧操作、加窗操作及短时傅里叶变换操作后得到时频谱，使用PyTorch深度学习框架搭建LSTM深层神经网络训练模型，针对各独立成分分别训练得到各成分的单独成分提取模型；接着将待分离的目标波形音乐通过分帧、加窗、短时傅里，逆短时傅里叶变换得到目标独立成分波形音乐；其中，在实验过程中，发明人采用的实验数据超过150个混合波形音乐及700个独立成分波形音乐，其中140个为训练集，10个为测试集，通过构建分离模型，该10个测试集中分离成分的准确率达到96％以上，存在极少量因噪点干扰而出现的某一小段波形的多提取或缺提取，整体上基本提取成功。

以上所描述的实施例仅仅是示意性的，若涉及到作为分离部件说明的单元，其可以是或者也可以不是物理上分开的；若涉及到作为单元显示的部件，其可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于深度学习的波形音乐成分分离方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的分离方法，其特征在于：所述的神经网络为使用Pytorch深度学习框架搭建的3层deep LSTM深层神经网络。

3.根据权利要求2所述的分离方法，其特征在于：得到分离模型时，每个成分对应的多个原始波形音乐及每个原始波形音乐对应的时频谱样本，逐一通过神经网络对任一成分进行训练后，分别得到神经网络训练模型、每个成分单独的数据模型及每个成分单独的提取模型。

4.根据权利要求3所述的分离方法，其特征在于：对原始波形音乐进行分类处理时，具体步骤如下：

5.根据权利要求4所述的分离方法，其特征在于：对原始波形音乐样本或目标波形音乐进行预处理时，对原始波形音乐样本或目标波形音乐依次进行归一化操作、分帧操作、加窗操作及短时傅里叶变换操作。

6.根据权利要求5所述的分离方法，其特征在于：对原始波形音乐样本或目标波形音乐进行归一化操作时，将原始波形音乐样本或目标波形音乐的采样频率设置为16kHz，并设置每个原始波形音乐样本或目标波形音乐的时长为30s，且将每个原始波形音乐样本或目标波形音乐的幅值范围设置为-1至1。

7.根据权利要求6所述的分离方法，其特征在于：对经过了归一化处理的原始波形音乐样本或目标波形音乐进行分帧操作、加窗操作及短时傅里叶变换操作时，具体步骤如下：

8.根据权利要求2-7任一所述的分离方法，其特征在于：将目标时频谱输入分离模型中，得到独立成分的目标波形音乐时，具体步骤如下：