CN106328121B

CN106328121B - 基于深度置信网络的中国传统乐器分类方法

Info

Publication number: CN106328121B
Application number: CN201610790284.8A
Authority: CN
Inventors: 李彧晟; 王芳; 朱雨倩; 季文韬; 周志强; 洪弘; 顾陈
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-06-27
Anticipated expiration: 2036-08-30
Also published as: CN106328121A

Abstract

本发明公开了一种基于深度置信网络的中国传统乐器分类方法，在进行中国传统乐器音乐的特征提取时，首先利用语音信号处理方法提取中国传统乐器的声学特征作为初级特征，根据深度置信网络来构建深度学习的网络，之后利用深度学习网络从中国传统乐器的初级特征中提取出更抽象的特征；然后将中国传统乐器的重构抽象特征输入至softmax层预测对应演奏乐器所属的类型。本发明的方法简单易行，提高了中国传统乐器的分类准确率，为音乐信息检索领域提供更有效的信息。

Description

基于深度置信网络的中国传统乐器分类方法

技术领域

本发明属于乐器分类和深度学习领域，特别是一种基于深度置信网络的中国传统乐器的分类方法。

背景技术

随着计算机网络和数字音乐的发展，近年来音乐数据分析和检索是一个较热的研究领域，有很多基于内容的音乐信息检索，比如音乐流派分类、歌手识别等。其中，乐器分类也是音乐信息检索的一个很重要的领域，它对于音乐流派、情绪、场景等的识别分类至关重要。比如，在进行音乐流派分类时，若音乐文件使用的乐器已知，利用此信息可以提高音乐流派的分类准确率。

尽管乐器分类非常重要，但是大部分人研究的都是西方乐器，很少有人研究中国传统乐器。华语音乐作为世界音乐不可分割的一部分，因此中国传统乐器也值得研究。音频文件分类的传统处理方法是先特征提取，再进行有监督或无监督的分类。因此，提取能反应乐器不同的特征对乐器的分类尤为重要，之后再用分类器进行分类识别。目前大部分的乐器分类都是基于人工选取的声学特征进行的，人工选取特征费时费力，而且特征具有多样性，很难找到统一的且适用于不同对象的模型进行分类。

发明内容

本发明的目的在于提供一种基于深度置信网络的中国传统乐器的分类方法，以获得更有效的抽象特征，从而提高中国传统乐器的分类准确率。

实现本发明目的的技术解决方案为：一种基于深度置信网络的中国传统乐器分类方法，包括以下步骤：

步骤1、对中国传统乐器的原始音频文件进行预处理，然后分帧，再对每帧音频文件提取用于输入深度置信网络的初级特征，并对每帧音频文件加对应中国传统乐器种类的标签；具体步骤为：

步骤1-1、将中国传统乐器的原始音频文件去除静音段；

步骤1-2、将去除静音段的音频文件分割成a秒一段，并将每段统一为采样率是bKHz的单声道文件；其中a为中国传统乐器的片段，可取10～50间的整数，b为中国传统乐器的采样率，可取11.025、22.05、44.1中之一；

步骤1-3、对每个片段预加重后进行分帧处理，其中帧长c秒，帧移0.5c秒，其中c为中国传统乐器音频文件的帧长，可取0.05～3间的实数；

步骤1-4、分帧后，对每帧音频文件提取d维的特征，包括梅尔频率倒谱系数、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量中的一种或几种，之后按维度对各帧特征进行均值为0，方差为1的标准化，得到最后用于输入深度置信网络的d维初级特征，其中d为中国传统乐器的特征，可取大于10的正整数；

步骤1-5、将每帧音频文件看作一个样本，给每个样本加标签0,1,2…,n-1，其中n为中国传统乐器的种类数。

步骤2、将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入，逐层无监督预训练深度置信网络构建的模型，得到深度置信网络模型，用于提取中国传统乐器音频文件的抽象特征；具体步骤为：

步骤2-1、假设用于提取中国传统乐器音频文件抽象特征的深度置信网络DBN由l个受限玻尔兹曼机RBM堆叠而成，则整个DBN共有l+1层，其中第一层为输入层，l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数，取不小于3的正整数；每个RBM都由一层可见层和一层隐含层构成，其中所述的可见层为每个RBM的输入层，第一个RBM的输入层为无标签的d维中国传统乐器的初级特征，则第一个RBM的输入节点数为d，其余的RBM可见层节点数根据测试结果调整对应层的单元数确定；所述隐含层为每个RBM的输出层，每个RBM的输出作为下一个RBM的输入，则每个RBM的隐含层节点数为下一个RBM的可见层节点数；

步骤2-2、对隐含层选取激活函数，通过对比散度CD算法和吉布斯采样对每层多次迭代预训练来更新模型参数，进而得到深度置信网络模型，各个参数的更新公式如下：

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝ε(<v_i>_data-<v_i>_recon)

Δa_j＝ε(<h_j>_data-<h_j>_recon)

其中，Δw_ij表示连接第i层和第j层的权值矩阵的更新量，Δb_i表示第i个可见层偏置的更新量，Δa_j表示第j个隐含层偏置的更新量，ε表示学习率，<·>_data表示实际数据分布情况，<·>_recon表示重构后模型分布情况。

步骤3、在步骤2预训练后的深度置信网络模型后加一层softmax回归，对整个网络进行反向微调，将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层，输出的结果为每个音频文件对应的演奏乐器类型的标签，并将输出的预测标签对应的乐器类型与实际的乐器类型相比较，得到中国传统乐器的分类准确率。具体步骤为：

步骤3-1、在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层，计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率，将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器；对于输入样本x，其划分到某一中国传统乐器类别m的概率公式为：

则该输入对应的预测标签为概率最大值对应的标签，其公式为：

y_pred＝argmax_mP(Y＝m|x,W,b)

其中W表示softmax层的权值矩阵，b表示softmax层的偏置，Y表示每个概率对应的识别标签，y_pred表示最大概率对应的预测标签，p取中国传统乐器种类数；

步骤3-2、对有中国传统乐器类别标签的数据，利用反向传播和梯度下降方法微调整个网络的参数，通过逐层最小化损失函数，即最小化重构误差，求得整个网络的最优参数，进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型，基于该模型测试每个音频文件对应的演奏乐器类型，并与实际的乐器类型相比较，得到中国传统乐器的分类准确率。

本发明与现有技术相比，其显著优点为：1)本发明利用深度学习网络通过构建多个隐含层的模型和大量训练数据(可以是无标签数据)来自动学习更有用、更抽象的特征，从而最终提升分类的准确性；2)本发明的方法简单易行，便于实施，分类准确；3)本发明的方法简单易行，提高了中国传统乐器的分类准确率，为音乐信息检索领域提供更有效的信息。

下面结合附图对本发明做进一步详细说明。

附图说明

图1为本发明基于深度置信网络的中国传统乐器的分类方法的流程图。

图2为本发明中RBM的结构图。

图3为本发明中DBN的结构图。

图4为本发明中所用模型的整体结构图。

具体实施方式

结合图1，本发明的基于深度置信网络的中国传统乐器的分类方法，包括以下步骤：

步骤1，对中国传统乐器的原始音频文件进行预处理，然后分帧，再对每帧音频文件提取用于输入深度置信网络的初级特征，并对每帧音频文件加对应中国传统乐器种类的标签；具体步骤为：

步骤1-1，将中国传统乐器的原始音频文件去除静音段；

步骤1-2，将去除静音段的音频文件分割成a秒一段，并将每段统一为采样率是bKHz的单声道文件。其中a为中国传统乐器的片段，可取10～50间的整数，b为中国传统乐器的采样率，可取11.025、22.05、44.1中之一；

步骤1-3，对每个片段预加重后进行分帧处理，其中帧长c秒，帧移0.5c秒，其中c为中国传统乐器音频文件的帧长，可取0.05～3间的实数；

步骤1-4，分帧后，对每帧音频文件提取d维的特征，包括梅尔频率倒谱系数、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量等其中的一种或几种，为了使每帧数据更有效，需按维度对各帧特征进行均值为0，方差为1的标准化，得到最后用于输入深度置信网络的d维初级特征，其中d为中国传统乐器的特征，可取大于10的正整数；

步骤1-5，将每帧音频文件看作一个样本，给每个样本加标签0,1,2…,n-1，其中n为中国传统乐器的种类数。

步骤2，将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入，逐层无监督预训练深度置信网络构建的模型，得到参数较优的深度置信网络模型，用于提取中国传统乐器音频文件的抽象特征；具体步骤为：

步骤2-1，用于提取中国传统乐器音频文件抽象特征的深度置信网络(DeepBelief Network，DBN)由l个受限玻尔兹曼机(Restricted Boltzmann Machines，RBM)堆叠而成，则整个DBN共有l+1层，其中第一层为输入层。l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数，可取不小于3的正整数。每个RBM都由一层可见层和一层隐含层构成，其中所述的可见层为每个RBM的输入层，第一个RBM的输入层为无标签的d维中国传统乐器的初级特征，则第一个RBM的输入节点数为d，其余的RBM可见层节点数根据经验信息和测试结果人工调整对应层的单元数确定；所述的隐含层为每个RBM的输出层，每个RBM的输出作为下一个RBM的输入，则每个RBM的隐含层节点数为下一个RBM的可见层节点数；

步骤2-2，对隐含层选取合适的激活函数，通过对比散度(ContractiveDivergence，CD)算法和吉布斯采样对每层多次迭代预训练来更新模型参数，进而得到参数较优的深度置信网络模型，各个参数的更新公式如下：

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝ε(<v_i>_data-<v_i>_recon)

Δa_j＝ε(<h_j>_data-<h_j>_recon)

其中Δw_ij表示连接第i层和第j层的权值矩阵的更新量，Δb_i表示第i个可见层偏置的更新量，Δa_j表示第j个隐含层偏置的更新量，ε表示学习率，<·>_data表示实际数据分布情况，<·>_recon表示重构后模型分布情况；

步骤3，在步骤2预训练后的深度置信网络模型后加一层softmax回归，对整个网络进行反向微调，将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层，输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较，得到中国传统乐器的分类准确率。具体步骤为：

步骤3-1，在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层，计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率，将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器。对于输入样本x，其划分到某一中国传统乐器类别m的概率公式为：

y_pred＝argmax_m P(Y＝m|x,W,b)

步骤3-2，对有中国传统乐器类别标签的数据，利用反向传播和梯度下降方法微调整个网络的参数，通过逐层最小化损失函数，即最小化重构误差，求得整个网络的最优参数，进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型，基于该模型测试每个音频文件对应的演奏乐器类型，并与实际的乐器类型相比较，得到中国传统乐器的分类准确率。

下面结合实施例对本发明做进一步详细的描述。

结合图1，本发明基于深度置信网络的中国传统乐器的分类方法，利用深度置信网络(DBN)抽取出有利于中国传统乐器分类的高层抽象特征，紧接着利用反向传播法和随机梯度下降法微调网络，并利用调整好的网络和softmax回归将中国传统乐器分类，得出分类准确率。具体包括以下步骤：

步骤1，对中国传统乐器的原始音频文件进行预处理，然后分帧，再对每帧音频文件提取用于输入深度置信网络的初级特征，并对每帧音频文件加对应中国传统乐器种类的标签；包括如下步骤：

步骤1-1，将中国传统乐器的原始音频文件去除静音段；

步骤1-2，将去除静音段的音频文件分割成a秒一段，并将每段统一为采样率是bKHz的单声道文件，其中a为中国传统乐器的片段，可取10～50间的整数，b为中国传统乐器的采样率，可取11.025、22.05、44.1中之一；

此实施例中，假设a＝30，b＝22.05，则将去除了静音段的音频文件分割成30s一段，将每一段统一为采样率是22.05KHz的单声道wav文件；

此实施例中，预加重使用的是一阶FIR高通滤波器h(z)＝1-0.9375z^-1，用以补偿高频部分，使信号的频谱变得平坦，保证整个频带能采用相同的信噪比求频谱；假设c＝2，d＝39，则预加重后分帧处理的帧长取2s，帧移为帧长的一半；

步骤1-4，分帧后，对每帧音频文件提取d维的特征，包括梅尔频率倒谱系数(MFCC)、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量等其中的一种或几种，为了使每帧数据更有效，需按维度对各帧特征进行均值为0，方差为1的标准化，得到最后用于输入深度置信网络的d维初级特征，其中d为中国传统乐器的特征，可取大于10的正整数；

此实施例中，对每帧音频文件提取39维MFCC系数，并对其按维度进行均值为0，方差为1的标准化，得到最后用于输入深度置信网络的39维初级特征；

步骤1-5，将每帧音频文件看作一个样本，给每个样本加标签0,1,2…,n-1，其中n为中国传统乐器的种类数；

此实施例中，共有古筝、琵琶、二胡、笛子、葫芦丝和唢呐这6类中国传统乐器需要分类，则n＝6，分别对每类乐器的每一个样本人工加标签，即将古筝演奏的样本标记为0，将琵琶演奏的样本标记为1，将二胡演奏的样本标记2，将笛子演奏的样本标记3，将葫芦丝演奏的样本标记4，将唢呐演奏的样本标记5；

步骤2，将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入，逐层无监督预训练深度置信网络构建的模型，得到参数较优的深度置信网络模型，用于提取中国传统乐器音频文件的抽象特征，具体步骤为：

此实施例中，结合图3，此处l＝3，即实际的用于提取中国传统乐器抽象特征的深度置信网络(Deep Belief Network，DBN)由3个受限玻尔兹曼机(Restricted BoltzmannMachines，RBM)堆叠而成，则整个DBN共有4层，其中第1层为输入层；由于中国传统乐器的初级特征选的是39维MFCC，则输入节点数为39，共用了3个隐含层，各隐含层的节点数分别为120、80和40；

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝ε(<v_i>_data-<v_i>_recon)

Δa_j＝ε(<h_j>_data-<h_j>_recon)

此实施例中，选取的激活函数是sigmoid，使用一步的对比散度算法(即一步吉布斯采样)利用学习率0.001对每层迭代10次来更新参数w、b和a的；

步骤3，在步骤2预训练后的深度置信网络模型后加一层softmax回归，对整个网络进行反向微调，将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层，输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较，得到中国传统乐器的分类准确率，具体步骤为：

y_pred＝argmax_m P(Y＝m x,W,b)

此实施例中，softmax层的输入节点数为深度置信网络最后一个隐含层的输出节点数40，输出节点数为所需分类的中国传统乐器类型数6；

步骤3-2，对有中国传统乐器类别标签的数据，利用反向传播和梯度下降方法微调整个网络的参数，通过逐层最小化损失函数，即最小化重构误差，求得整个网络的最优参数，进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型，基于该模型测试每个音频文件对应的演奏乐器类型，并与实际的乐器类型相比较，得到中国传统乐器的分类准确率；

此实施例中，微调使用的学习率为0.1，经过100次的迭代，利用early-stop准则防止过拟合，最后得到的中国传统乐器分类准确率为99％(见表1)，与只把中国传统乐器的初级特征作为输入的传统分类方法的分类结果相比，性能更优。

表1 本发明分类结果与传统方法分类结果的对比表

分类方法	准确率
		Softmax	91.30％
DBN+Softmax	99.00％

综上所述，本发明通过深度置信网络提取中国传统乐器音乐更抽象的特征，利用该特征分类，从而提高了中国传统乐器的分类准确率，为音乐信息检索领域提供了更有效的信息。

Claims

1.一种基于深度置信网络的中国传统乐器分类方法，其特征在于，包括以下步骤：

步骤1-1、将中国传统乐器的原始音频文件去除静音段；

步骤1-5、将每帧音频文件看作一个样本，给每个样本加标签0,1,2…,n-1，其中n为中国传统乐器的种类数；

步骤2、将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入，逐层无监督预训练深度置信网络构建的模型，得到深度置信网络模型，用于提取中国传统乐器音频文件的抽象特征；

步骤3、在步骤2预训练后的深度置信网络模型后加一层softmax回归，对整个网络进行反向微调，将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层，输出的结果为每个音频文件对应的演奏乐器类型的标签，并将输出的预测标签对应的乐器类型与实际的乐器类型相比较，得到中国传统乐器的分类准确率。

2.根据权利要求书1所述的基于深度置信网络的中国传统乐器分类方法，其特征在于，步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入，逐层无监督预训练深度置信网络构建的模型，得到深度置信网络模型，用于提取中国传统乐器音频文件的抽象特征，具体步骤为：

Δw_ij＝ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝ε(<v_i>_data-<v_i>_recon)

Δa_j＝ε(<h_j>_data-<h_j>_recon)

3.根据权利要求1所述的基于深度置信网络的中国传统乐器分类方法，其特征在于，步骤3中在深度置信网络模型后加一层softmax回归，对整个网络进行反向微调，将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层，输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较，得到中国传统乐器的分类准确率具体步骤为：

P (Y = m | x, W, b) = {softmax}_{m} (W x + b) = \frac{e^{W_{m} x + b_{m}}}{\underset{p}{Σ} e^{W_{p} x + b_{p}}}

y_pred＝arg max_m P(Y＝m|x,W,b)