CN104464727A

CN104464727A - 一种基于深度信念网络的单通道音乐的歌声分离方法

Info

Publication number: CN104464727A
Application number: CN201410755098.1A
Authority: CN
Inventors: 余春艳; 林明安; 滕保强; 张栋; 刘灵辉; 叶东毅
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-03-25
Anticipated expiration: 2034-12-11
Also published as: CN104464727B

Abstract

本发明涉及一种基于深度信念网络的单通道音乐的歌声分离方法：先利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征，紧接着利用Back-Propagation 神经网络分离出伴奏声和歌声的特征，最后利用重叠相加法得到时域的伴奏声和歌声信号。该方法将待分离的混合音乐分成很短的片段，从而弥补DBN在处理不同时间尺度音乐信号上的缺陷，同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据，在处理高维输入和高维输出问题上神经网络有着其特有的处理能力，所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。该方法简单灵活，具有较强的实用性。

Description

一种基于深度信念网络的单通道音乐的歌声分离方法

技术领域

本发明涉及单通道音乐的伴奏声和人声分离领域，特别是一种基于深度信念网络的单通道音乐的歌声分离方法。

背景技术

随着计算机信号处理技术和互联网技术的不断发展，单通道音乐的歌声分离越来越受人们重视。单通道音乐人声分离技术在很多系统都会用到，如KTV系统中音乐伴奏的获得；音乐检索系统中根据音乐内容来检索的系统特别是根据歌唱者的声音特质检索音乐、音乐推荐系统中利用歌唱者声音特质来推荐音乐等等。不管是KTV系统中的伴奏获得、还是基于歌唱者声音的音乐检索系统、抑或是基于歌唱者声音的音乐推荐系统；为了保证这些系统有较好的性能，必须得到较为纯净的伴奏声或者歌声。而现实中人们能够获得的音乐信号大部分是单通道音乐信号，所以单通道音乐人声分离技术在这些系统中能够得到广泛的应用。然而，现在针对单通道音乐的歌声分离技术还远远不能达到人耳系统的性能，因此对于该领域的研究还有很大的步伐要走。

由于单通道音乐信号是极度欠定的，所以在对其进行歌声分离时可用的信息非常少，这使得针对单通道音乐的歌声分离具有很大的挑战性。尽管，针对单通道语音的分离已经有很大的成功，但由于歌声的特殊性，很多单通道语音分离技术并不能很好的应用到单通道音乐歌声分离中。直到2007年Y.Li才首次提出利用人声的音高周期进行单通道音乐的歌声分离。此后，基于谱分解的方法也相继被提出，如基于非负矩阵分解、稀疏矩阵分解等等。这些方法都取得了一定的成功，但都不能取得如愿的效果。如基于音高周期的方法，其本身音高周期检测就是一个学术难题；而基于谱分解的方法又有太多的假设前提。

2006年由Hinton等人提出的针对深度信念网络（DBN）的快速学习方法，使得深度神经网络重新引起科研工作者的关注。由于深度神经网络以其特有的强大特征抽取能力，使得其在并在图像处理和语音处理这两个领域率先得到应用，并且取得了很好的效果。但由于DBN并不是专门用来解决时间序列问题的，所以本专利同时提出了针对该问题的DBN输入数据构造方法。本专利基于对单通道音乐信号和深度学习的认识，提出了一种新的单通道音乐歌声分离方法，特别是一种基于深度信念网络的单通道音乐的歌声分离方法。

发明内容

有鉴于此，本发明的目的是在于提供一种基于深度信念网络的单通道音乐的歌声分离方法，以实现针对单通道音乐特性的歌声分离问题。

本发明采用以下方案实现：一种基于深度信念网络的单通道音乐的歌声分离方法，利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征，紧接着利用Back-Propagation 神经网络（BP神经网络）分离出伴奏声和歌声特征，最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤：

S1：利用傅里叶变换从待分离的单通道音乐片段获得特征；

S2：将从步骤S1得到的特征作为已经训练得到的DBN特征抽取模型的输入，利用所述DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征；其中所述DBN为深度信念网络；

S3：利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征；由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声；其中BP神经网络为Back-Propagation神经网络。

进一步地，所述步骤S1中的特征为通过傅里叶变换得到的长度为的单通道音乐片段归一化后的幅度谱；其中设输入为，则是大小为的行向量，其中Fs是所述音乐片段的采样频率。

进一步地，所述的可取16ms至512ms。

进一步地，所述DBN由若干个RBM堆叠而成，其中每个RBM的输入为上一个RBM的输出；所述的RBM为受限玻尔兹曼机。特别的，具体节点数设置为：所述的RBM由一层可见层和一层隐藏层构成；其中所述的可见层为每个RBM的输入层，第一个RBM的可见层节点数为，其余的RBM可见层节点数均为；所述的隐藏层为每个RBM的输出，每个RBM的输出作为下一个RBM的输入，所有RBM的隐藏层节点数均为。

具体的，所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤：

步骤S21：构建训练样本，其中表示所有的训练样本的输入特征，表示纯净的伴奏声和纯净的歌声归一化后的振幅谱；

步骤S22：无监督贪心逐层训练DBN；设所述的DBN由个受限玻尔兹曼机RBM堆叠而成，则整个DBN共有层；其中对第（）层训练过程为：由第层和第层构成的RBM通过Contractive Divergence算法训练；其中第1层为输入层；

步骤S23：对DBN进行有监督微调；将步骤S22中通过无监督贪心训练的DBN翻折，得到层数为的自动编码机；利用BP算法对该编码机进行训练，用以微调DBN。

具体地，所述的步骤S21具体包括以下步骤：

步骤S211：构建；给定单通道音乐混合信号其中为所述给定单通道音乐混合信号的个数，其中每个信号的长度可以不一样；使用长度为，偏移量为的窗函数，对每个信号进行分割，得到个长度为的小片段1，其中为所述给定单通道音乐混合信号的长度，为所述给定单通道音乐混合信号的时长；对所述小片段1进行傅里叶变换得到振幅谱，将振幅谱归一化，构建出大小为的，其中，；

步骤S212：构建；给定伴奏信号和歌声信号，其中为信号的个数，所述给定伴奏信号和歌声信号的长度均与所述给定单通道音乐混合信号一样；使用长度为，偏移量为的窗函数将所述伴奏信号和歌声信号额分别分割成个长度为的小片段2；其中为所述给定单通道音乐混合信号的长度，为所述给定单通道音乐混合信号的时长；对所述小片段2进行傅里叶变换得到振幅谱，将振幅谱归一化；将同一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为的，其中前大小的为所述伴奏信号的归一化振幅谱，后大小的为所述歌声信号的归一化振幅谱，进而得到大小为的，其中，。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：获得训练样本。将所述的训练样本中的通过已经训练好的DBN进行处理，得到大小为的，其中，；获得训练样本，其中所述与所述的训练样本中的相同；

步骤S32：有监督训练BP神经网络；将步骤S31中所述的作为BP神经网络的输入数据，将步骤S31中所述的作为监督标签数据；

步骤S23：利用训练好的BP神经网络进行人声分离；将步骤S2中得到的高层抽象特征作为BP神经网络的输入，由BP神经网络得到人声和伴奏声的特征，并将所述的人声和伴奏声的特征作为BP神经网络的输出。

较佳地，由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱，本发明先对该振幅谱去归一化，然后使用重叠相加法得到时域伴奏声和歌声。

相较于现有技术，本发明具有以下有益效果：本发明提出了一种基于深度信念网络的单通道音乐的歌声分离方法，利用深度神经网络以其特有的强大特征抽取能力，本发明基于对单通道音乐信号和深度学习的认识，提出针对DBN用于解决单通道音乐歌声分离的输入数据构造方法，最后得到一种新的针对单通道音乐的歌声分离方法，特别是一种基于深度信念网络的单通道音乐的歌声分离方法。该方法简单，实现灵活，实用性较强。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施提供一种基于深度信念网络的单通道音乐的歌声分离方法，利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征，紧接着利用Back-Propagation 神经网络（BP神经网络）分离出伴奏声和歌声特征，最后利用重叠相加法得到伴奏声和歌声。具体包括以下步骤：

S1：利用傅里叶变换从待分离的单通道音乐片段获得特征；

在本实施例中，所述步骤S1中的特征为通过傅里叶变换得到的长度为的单通道音乐片段归一化后的幅度谱；其中设输入为，则是大小为的行向量，其中Fs是所述音乐片段的采样频率。

在本实施例中，所述的可取16ms至512ms。

在本实施例中，所述DBN由若干个RBM堆叠而成，其中每个RBM的输入为上一个RBM的输出；其中所述的RBM为受限玻尔兹曼机。特别的，具体节点数设置为：所述的RBM由一层可见层和一层隐藏层构成；其中所述的可见层为每个RBM的输入层，第一个RBM的可见层节点数为，其余的RBM可见层节点数均为；所述的隐藏层为每个RBM的输出，每个RBM的输出作为下一个RBM的输入，所有RBM的隐藏层节点数均为。

具体的，在本实施例中，所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤：

具体地，在本实施例中，所述的步骤S21具体包括以下步骤：

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31：获得训练样本。将所述的训练样本中的通过已经训练好的DBN进行处理，得到大小为的，其中，；获得训练样本，其中所述与所述的的训练样本中的相同；

较佳地，在本实施例中，由于BP神经网络输出的伴奏声和歌声的特征为归一化后的振幅谱，本发明先对该振幅谱去归一化，然后使用重叠相加法得到时域伴奏声和歌声。

综上所述，本发明将待分离的混合音乐分成很短的片段，从而弥补DBN在处理不同时间尺度音乐信号上的缺陷，同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据，在处理高维输入和高维输出问题上神经网络有着其特有的处理能力，所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。本发明方法简单灵活，具有较强的实用性。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于深度信念网络的单通道音乐的歌声分离方法，其特征在于包括以下步骤：

S1：利用傅里叶变换从待分离的单通道音乐片段获得特征；

S3：将步骤S2中得到的有利于分离伴奏声和歌声的高层抽象特征作为已训练得到的BP神经网络分离模型的输入，利用所述已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征；由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声；其中BP神经网络为Back-Propagation神经网络。

2.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法，其特征在于：所述步骤S1中的特征为通过傅里叶变换得到的长度为的单通道音乐片段归一化后的幅度谱，其中取值范围为32ms-512ms；其中设输入为，则是大小为的行向量，其中Fs是所述音乐片段的采样频率。

3.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法，所述DBN由若干个RBM堆叠而成，其中每个RBM的输入为上一个RBM的输出，所述的RBM为受限玻尔兹曼机；其特征在于：具体节点数设置为：所述的RBM由一层可见层和一层隐藏层构成；其中所述的可见层为每个RBM的输入层，第一个RBM的可见层节点数为，其余的RBM可见层节点数均为；所述的隐藏层为每个RBM的输出，每个RBM的输出作为下一个RBM的输入，所有RBM的隐藏层节点数均为。

4.根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法，其特在于：所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤：

5.根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法，其特征在于：所述的步骤S21具体包括以下步骤：

步骤S211：构建；给定单通道音乐混合信号其中为所述给定单通道音乐混合信号的个数；使用长度为，偏移量为的窗函数，对每个信号进行分割，得到个长度为的小片段1，其中为所述给定单通道音乐混合信号的长度，为所述给定单通道音乐混合信号的时长；对所述小片段1进行傅里叶变换得到振幅谱，将振幅谱归一化，构建出大小为的，其中，；

6.根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法，其特征在于：所述步骤S3具体包括以下步骤：

步骤S31：获得训练样本；将所述训练样本中的通过已经训练好的DBN进行处理，得到大小为的，其中，；获得训练样本，其中所述与所述的训练样本中的相同；