CN106328121B - 基于深度置信网络的中国传统乐器分类方法 - Google Patents

基于深度置信网络的中国传统乐器分类方法 Download PDF

Info

Publication number
CN106328121B
CN106328121B CN201610790284.8A CN201610790284A CN106328121B CN 106328121 B CN106328121 B CN 106328121B CN 201610790284 A CN201610790284 A CN 201610790284A CN 106328121 B CN106328121 B CN 106328121B
Authority
CN
China
Prior art keywords
chinese traditional
traditional instruments
layer
depth confidence
audio file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610790284.8A
Other languages
English (en)
Other versions
CN106328121A (zh
Inventor
李彧晟
王芳
朱雨倩
季文韬
周志强
洪弘
顾陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610790284.8A priority Critical patent/CN106328121B/zh
Publication of CN106328121A publication Critical patent/CN106328121A/zh
Application granted granted Critical
Publication of CN106328121B publication Critical patent/CN106328121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明公开了一种基于深度置信网络的中国传统乐器分类方法,在进行中国传统乐器音乐的特征提取时,首先利用语音信号处理方法提取中国传统乐器的声学特征作为初级特征,根据深度置信网络来构建深度学习的网络,之后利用深度学习网络从中国传统乐器的初级特征中提取出更抽象的特征;然后将中国传统乐器的重构抽象特征输入至softmax层预测对应演奏乐器所属的类型。本发明的方法简单易行,提高了中国传统乐器的分类准确率,为音乐信息检索领域提供更有效的信息。

Description

基于深度置信网络的中国传统乐器分类方法
技术领域
本发明属于乐器分类和深度学习领域,特别是一种基于深度置信网络的中国传统乐器的分类方法。
背景技术
随着计算机网络和数字音乐的发展,近年来音乐数据分析和检索是一个较热的研究领域,有很多基于内容的音乐信息检索,比如音乐流派分类、歌手识别等。其中,乐器分类也是音乐信息检索的一个很重要的领域,它对于音乐流派、情绪、场景等的识别分类至关重要。比如,在进行音乐流派分类时,若音乐文件使用的乐器已知,利用此信息可以提高音乐流派的分类准确率。
尽管乐器分类非常重要,但是大部分人研究的都是西方乐器,很少有人研究中国传统乐器。华语音乐作为世界音乐不可分割的一部分,因此中国传统乐器也值得研究。音频文件分类的传统处理方法是先特征提取,再进行有监督或无监督的分类。因此,提取能反应乐器不同的特征对乐器的分类尤为重要,之后再用分类器进行分类识别。目前大部分的乐器分类都是基于人工选取的声学特征进行的,人工选取特征费时费力,而且特征具有多样性,很难找到统一的且适用于不同对象的模型进行分类。
发明内容
本发明的目的在于提供一种基于深度置信网络的中国传统乐器的分类方法,以获得更有效的抽象特征,从而提高中国传统乐器的分类准确率。
实现本发明目的的技术解决方案为:一种基于深度置信网络的中国传统乐器分类方法,包括以下步骤:
步骤1、对中国传统乐器的原始音频文件进行预处理,然后分帧,再对每帧音频文件提取用于输入深度置信网络的初级特征,并对每帧音频文件加对应中国传统乐器种类的标签;具体步骤为:
步骤1-1、将中国传统乐器的原始音频文件去除静音段;
步骤1-2、将去除静音段的音频文件分割成a秒一段,并将每段统一为采样率是bKHz的单声道文件;其中a为中国传统乐器的片段,可取10~50间的整数,b为中国传统乐器的采样率,可取11.025、22.05、44.1中之一;
步骤1-3、对每个片段预加重后进行分帧处理,其中帧长c秒,帧移0.5c秒,其中c为中国传统乐器音频文件的帧长,可取0.05~3间的实数;
步骤1-4、分帧后,对每帧音频文件提取d维的特征,包括梅尔频率倒谱系数、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量中的一种或几种,之后按维度对各帧特征进行均值为0,方差为1的标准化,得到最后用于输入深度置信网络的d维初级特征,其中d为中国传统乐器的特征,可取大于10的正整数;
步骤1-5、将每帧音频文件看作一个样本,给每个样本加标签0,1,2…,n-1,其中n为中国传统乐器的种类数。
步骤2、将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入,逐层无监督预训练深度置信网络构建的模型,得到深度置信网络模型,用于提取中国传统乐器音频文件的抽象特征;具体步骤为:
步骤2-1、假设用于提取中国传统乐器音频文件抽象特征的深度置信网络DBN由l个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有l+1层,其中第一层为输入层,l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数,取不小于3的正整数;每个RBM都由一层可见层和一层隐含层构成,其中所述的可见层为每个RBM的输入层,第一个RBM的输入层为无标签的d维中国传统乐器的初级特征,则第一个RBM的输入节点数为d,其余的RBM可见层节点数根据测试结果调整对应层的单元数确定;所述隐含层为每个RBM的输出层,每个RBM的输出作为下一个RBM的输入,则每个RBM的隐含层节点数为下一个RBM的可见层节点数;
步骤2-2、对隐含层选取激活函数,通过对比散度CD算法和吉布斯采样对每层多次迭代预训练来更新模型参数,进而得到深度置信网络模型,各个参数的更新公式如下:
Δwij=ε(<vihj>data-<vihj>recon)
Δbi=ε(<vi>data-<vi>recon)
Δaj=ε(<hj>data-<hj>recon)
其中,Δwij表示连接第i层和第j层的权值矩阵的更新量,Δbi表示第i个可见层偏置的更新量,Δaj表示第j个隐含层偏置的更新量,ε表示学习率,<·>data表示实际数据分布情况,<·>recon表示重构后模型分布情况。
步骤3、在步骤2预训练后的深度置信网络模型后加一层softmax回归,对整个网络进行反向微调,将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层,输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较,得到中国传统乐器的分类准确率。具体步骤为:
步骤3-1、在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层,计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率,将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器;对于输入样本x,其划分到某一中国传统乐器类别m的概率公式为:
则该输入对应的预测标签为概率最大值对应的标签,其公式为:
ypred=argmaxmP(Y=m|x,W,b)
其中W表示softmax层的权值矩阵,b表示softmax层的偏置,Y表示每个概率对应的识别标签,ypred表示最大概率对应的预测标签,p取中国传统乐器种类数;
步骤3-2、对有中国传统乐器类别标签的数据,利用反向传播和梯度下降方法微调整个网络的参数,通过逐层最小化损失函数,即最小化重构误差,求得整个网络的最优参数,进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型,基于该模型测试每个音频文件对应的演奏乐器类型,并与实际的乐器类型相比较,得到中国传统乐器的分类准确率。
本发明与现有技术相比,其显著优点为:1)本发明利用深度学习网络通过构建多个隐含层的模型和大量训练数据(可以是无标签数据)来自动学习更有用、更抽象的特征,从而最终提升分类的准确性;2)本发明的方法简单易行,便于实施,分类准确;3)本发明的方法简单易行,提高了中国传统乐器的分类准确率,为音乐信息检索领域提供更有效的信息。
下面结合附图对本发明做进一步详细说明。
附图说明
图1为本发明基于深度置信网络的中国传统乐器的分类方法的流程图。
图2为本发明中RBM的结构图。
图3为本发明中DBN的结构图。
图4为本发明中所用模型的整体结构图。
具体实施方式
结合图1,本发明的基于深度置信网络的中国传统乐器的分类方法,包括以下步骤:
步骤1,对中国传统乐器的原始音频文件进行预处理,然后分帧,再对每帧音频文件提取用于输入深度置信网络的初级特征,并对每帧音频文件加对应中国传统乐器种类的标签;具体步骤为:
步骤1-1,将中国传统乐器的原始音频文件去除静音段;
步骤1-2,将去除静音段的音频文件分割成a秒一段,并将每段统一为采样率是bKHz的单声道文件。其中a为中国传统乐器的片段,可取10~50间的整数,b为中国传统乐器的采样率,可取11.025、22.05、44.1中之一;
步骤1-3,对每个片段预加重后进行分帧处理,其中帧长c秒,帧移0.5c秒,其中c为中国传统乐器音频文件的帧长,可取0.05~3间的实数;
步骤1-4,分帧后,对每帧音频文件提取d维的特征,包括梅尔频率倒谱系数、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量等其中的一种或几种,为了使每帧数据更有效,需按维度对各帧特征进行均值为0,方差为1的标准化,得到最后用于输入深度置信网络的d维初级特征,其中d为中国传统乐器的特征,可取大于10的正整数;
步骤1-5,将每帧音频文件看作一个样本,给每个样本加标签0,1,2…,n-1,其中n为中国传统乐器的种类数。
步骤2,将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入,逐层无监督预训练深度置信网络构建的模型,得到参数较优的深度置信网络模型,用于提取中国传统乐器音频文件的抽象特征;具体步骤为:
步骤2-1,用于提取中国传统乐器音频文件抽象特征的深度置信网络(DeepBelief Network,DBN)由l个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)堆叠而成,则整个DBN共有l+1层,其中第一层为输入层。l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数,可取不小于3的正整数。每个RBM都由一层可见层和一层隐含层构成,其中所述的可见层为每个RBM的输入层,第一个RBM的输入层为无标签的d维中国传统乐器的初级特征,则第一个RBM的输入节点数为d,其余的RBM可见层节点数根据经验信息和测试结果人工调整对应层的单元数确定;所述的隐含层为每个RBM的输出层,每个RBM的输出作为下一个RBM的输入,则每个RBM的隐含层节点数为下一个RBM的可见层节点数;
步骤2-2,对隐含层选取合适的激活函数,通过对比散度(ContractiveDivergence,CD)算法和吉布斯采样对每层多次迭代预训练来更新模型参数,进而得到参数较优的深度置信网络模型,各个参数的更新公式如下:
Δwij=ε(<vihj>data-<vihj>recon)
Δbi=ε(<vi>data-<vi>recon)
Δaj=ε(<hj>data-<hj>recon)
其中Δwij表示连接第i层和第j层的权值矩阵的更新量,Δbi表示第i个可见层偏置的更新量,Δaj表示第j个隐含层偏置的更新量,ε表示学习率,<·>data表示实际数据分布情况,<·>recon表示重构后模型分布情况;
步骤3,在步骤2预训练后的深度置信网络模型后加一层softmax回归,对整个网络进行反向微调,将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层,输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较,得到中国传统乐器的分类准确率。具体步骤为:
步骤3-1,在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层,计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率,将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器。对于输入样本x,其划分到某一中国传统乐器类别m的概率公式为:
则该输入对应的预测标签为概率最大值对应的标签,其公式为:
ypred=argmaxm P(Y=m|x,W,b)
其中W表示softmax层的权值矩阵,b表示softmax层的偏置,Y表示每个概率对应的识别标签,ypred表示最大概率对应的预测标签,p取中国传统乐器种类数;
步骤3-2,对有中国传统乐器类别标签的数据,利用反向传播和梯度下降方法微调整个网络的参数,通过逐层最小化损失函数,即最小化重构误差,求得整个网络的最优参数,进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型,基于该模型测试每个音频文件对应的演奏乐器类型,并与实际的乐器类型相比较,得到中国传统乐器的分类准确率。
下面结合实施例对本发明做进一步详细的描述。
结合图1,本发明基于深度置信网络的中国传统乐器的分类方法,利用深度置信网络(DBN)抽取出有利于中国传统乐器分类的高层抽象特征,紧接着利用反向传播法和随机梯度下降法微调网络,并利用调整好的网络和softmax回归将中国传统乐器分类,得出分类准确率。具体包括以下步骤:
步骤1,对中国传统乐器的原始音频文件进行预处理,然后分帧,再对每帧音频文件提取用于输入深度置信网络的初级特征,并对每帧音频文件加对应中国传统乐器种类的标签;包括如下步骤:
步骤1-1,将中国传统乐器的原始音频文件去除静音段;
步骤1-2,将去除静音段的音频文件分割成a秒一段,并将每段统一为采样率是bKHz的单声道文件,其中a为中国传统乐器的片段,可取10~50间的整数,b为中国传统乐器的采样率,可取11.025、22.05、44.1中之一;
此实施例中,假设a=30,b=22.05,则将去除了静音段的音频文件分割成30s一段,将每一段统一为采样率是22.05KHz的单声道wav文件;
步骤1-3,对每个片段预加重后进行分帧处理,其中帧长c秒,帧移0.5c秒,其中c为中国传统乐器音频文件的帧长,可取0.05~3间的实数;
此实施例中,预加重使用的是一阶FIR高通滤波器h(z)=1-0.9375z-1,用以补偿高频部分,使信号的频谱变得平坦,保证整个频带能采用相同的信噪比求频谱;假设c=2,d=39,则预加重后分帧处理的帧长取2s,帧移为帧长的一半;
步骤1-4,分帧后,对每帧音频文件提取d维的特征,包括梅尔频率倒谱系数(MFCC)、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量等其中的一种或几种,为了使每帧数据更有效,需按维度对各帧特征进行均值为0,方差为1的标准化,得到最后用于输入深度置信网络的d维初级特征,其中d为中国传统乐器的特征,可取大于10的正整数;
此实施例中,对每帧音频文件提取39维MFCC系数,并对其按维度进行均值为0,方差为1的标准化,得到最后用于输入深度置信网络的39维初级特征;
步骤1-5,将每帧音频文件看作一个样本,给每个样本加标签0,1,2…,n-1,其中n为中国传统乐器的种类数;
此实施例中,共有古筝、琵琶、二胡、笛子、葫芦丝和唢呐这6类中国传统乐器需要分类,则n=6,分别对每类乐器的每一个样本人工加标签,即将古筝演奏的样本标记为0,将琵琶演奏的样本标记为1,将二胡演奏的样本标记2,将笛子演奏的样本标记3,将葫芦丝演奏的样本标记4,将唢呐演奏的样本标记5;
步骤2,将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入,逐层无监督预训练深度置信网络构建的模型,得到参数较优的深度置信网络模型,用于提取中国传统乐器音频文件的抽象特征,具体步骤为:
步骤2-1,用于提取中国传统乐器音频文件抽象特征的深度置信网络(DeepBelief Network,DBN)由l个受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)堆叠而成,则整个DBN共有l+1层,其中第一层为输入层。l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数,可取不小于3的正整数。每个RBM都由一层可见层和一层隐含层构成,其中所述的可见层为每个RBM的输入层,第一个RBM的输入层为无标签的d维中国传统乐器的初级特征,则第一个RBM的输入节点数为d,其余的RBM可见层节点数根据经验信息和测试结果人工调整对应层的单元数确定;所述的隐含层为每个RBM的输出层,每个RBM的输出作为下一个RBM的输入,则每个RBM的隐含层节点数为下一个RBM的可见层节点数;
此实施例中,结合图3,此处l=3,即实际的用于提取中国传统乐器抽象特征的深度置信网络(Deep Belief Network,DBN)由3个受限玻尔兹曼机(Restricted BoltzmannMachines,RBM)堆叠而成,则整个DBN共有4层,其中第1层为输入层;由于中国传统乐器的初级特征选的是39维MFCC,则输入节点数为39,共用了3个隐含层,各隐含层的节点数分别为120、80和40;
步骤2-2,对隐含层选取合适的激活函数,通过对比散度(ContractiveDivergence,CD)算法和吉布斯采样对每层多次迭代预训练来更新模型参数,进而得到参数较优的深度置信网络模型,各个参数的更新公式如下:
Δwij=ε(<vihj>data-<vihj>recon)
Δbi=ε(<vi>data-<vi>recon)
Δaj=ε(<hj>data-<hj>recon)
其中Δwij表示连接第i层和第j层的权值矩阵的更新量,Δbi表示第i个可见层偏置的更新量,Δaj表示第j个隐含层偏置的更新量,ε表示学习率,<·>data表示实际数据分布情况,<·>recon表示重构后模型分布情况;
此实施例中,选取的激活函数是sigmoid,使用一步的对比散度算法(即一步吉布斯采样)利用学习率0.001对每层迭代10次来更新参数w、b和a的;
步骤3,在步骤2预训练后的深度置信网络模型后加一层softmax回归,对整个网络进行反向微调,将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层,输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较,得到中国传统乐器的分类准确率,具体步骤为:
步骤3-1,在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层,计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率,将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器。对于输入样本x,其划分到某一中国传统乐器类别m的概率公式为:
则该输入对应的预测标签为概率最大值对应的标签,其公式为:
ypred=argmaxm P(Y=m x,W,b)
其中W表示softmax层的权值矩阵,b表示softmax层的偏置,Y表示每个概率对应的识别标签,ypred表示最大概率对应的预测标签,p取中国传统乐器种类数;
此实施例中,softmax层的输入节点数为深度置信网络最后一个隐含层的输出节点数40,输出节点数为所需分类的中国传统乐器类型数6;
步骤3-2,对有中国传统乐器类别标签的数据,利用反向传播和梯度下降方法微调整个网络的参数,通过逐层最小化损失函数,即最小化重构误差,求得整个网络的最优参数,进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型,基于该模型测试每个音频文件对应的演奏乐器类型,并与实际的乐器类型相比较,得到中国传统乐器的分类准确率;
此实施例中,微调使用的学习率为0.1,经过100次的迭代,利用early-stop准则防止过拟合,最后得到的中国传统乐器分类准确率为99%(见表1),与只把中国传统乐器的初级特征作为输入的传统分类方法的分类结果相比,性能更优。
表1 本发明分类结果与传统方法分类结果的对比表
分类方法 准确率
Softmax 91.30%
DBN+Softmax 99.00%
综上所述,本发明通过深度置信网络提取中国传统乐器音乐更抽象的特征,利用该特征分类,从而提高了中国传统乐器的分类准确率,为音乐信息检索领域提供了更有效的信息。

Claims (3)

1.一种基于深度置信网络的中国传统乐器分类方法,其特征在于,包括以下步骤:
步骤1、对中国传统乐器的原始音频文件进行预处理,然后分帧,再对每帧音频文件提取用于输入深度置信网络的初级特征,并对每帧音频文件加对应中国传统乐器种类的标签;具体步骤为:
步骤1-1、将中国传统乐器的原始音频文件去除静音段;
步骤1-2、将去除静音段的音频文件分割成a秒一段,并将每段统一为采样率是bKHz的单声道文件;其中a为中国传统乐器的片段,可取10~50间的整数,b为中国传统乐器的采样率,可取11.025、22.05、44.1中之一;
步骤1-3、对每个片段预加重后进行分帧处理,其中帧长c秒,帧移0.5c秒,其中c为中国传统乐器音频文件的帧长,可取0.05~3间的实数;
步骤1-4、分帧后,对每帧音频文件提取d维的特征,包括梅尔频率倒谱系数、线性预测倒谱系数、短时过零率、短时能量、频谱质心、频谱能量中的一种或几种,之后按维度对各帧特征进行均值为0,方差为1的标准化,得到最后用于输入深度置信网络的d维初级特征,其中d为中国传统乐器的特征,可取大于10的正整数;
步骤1-5、将每帧音频文件看作一个样本,给每个样本加标签0,1,2…,n-1,其中n为中国传统乐器的种类数;
步骤2、将步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入,逐层无监督预训练深度置信网络构建的模型,得到深度置信网络模型,用于提取中国传统乐器音频文件的抽象特征;
步骤3、在步骤2预训练后的深度置信网络模型后加一层softmax回归,对整个网络进行反向微调,将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层,输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较,得到中国传统乐器的分类准确率。
2.根据权利要求书1所述的基于深度置信网络的中国传统乐器分类方法,其特征在于,步骤1得到的中国传统乐器音频文件的初级特征作为深度置信网络的输入,逐层无监督预训练深度置信网络构建的模型,得到深度置信网络模型,用于提取中国传统乐器音频文件的抽象特征,具体步骤为:
步骤2-1、假设用于提取中国传统乐器音频文件抽象特征的深度置信网络DBN由l个受限玻尔兹曼机RBM堆叠而成,则整个DBN共有l+1层,其中第一层为输入层,l为用于提取中国传统乐器更抽象特征的深度置信网络的隐含层数,取不小于3的正整数;每个RBM都由一层可见层和一层隐含层构成,其中所述的可见层为每个RBM的输入层,第一个RBM的输入层为无标签的d维中国传统乐器的初级特征,则第一个RBM的输入节点数为d,其余的RBM可见层节点数根据测试结果调整对应层的单元数确定;所述隐含层为每个RBM的输出层,每个RBM的输出作为下一个RBM的输入,则每个RBM的隐含层节点数为下一个RBM的可见层节点数;
步骤2-2、对隐含层选取激活函数,通过对比散度CD算法和吉布斯采样对每层多次迭代预训练来更新模型参数,进而得到深度置信网络模型,各个参数的更新公式如下:
Δwij=ε(<vihj>data-<vihj>recon)
Δbi=ε(<vi>data-<vi>recon)
Δaj=ε(<hj>data-<hj>recon)
其中,Δwij表示连接第i层和第j层的权值矩阵的更新量,Δbi表示第i个可见层偏置的更新量,Δaj表示第j个隐含层偏置的更新量,ε表示学习率,<·>data表示实际数据分布情况,<·>recon表示重构后模型分布情况。
3.根据权利要求1所述的基于深度置信网络的中国传统乐器分类方法,其特征在于,步骤3中在深度置信网络模型后加一层softmax回归,对整个网络进行反向微调,将深度置信网络最后一个隐含层输出的中国传统乐器音频文件的抽象特征输入至softmax回归层,输出的结果为每个音频文件对应的演奏乐器类型的标签,并将输出的预测标签对应的乐器类型与实际的乐器类型相比较,得到中国传统乐器的分类准确率具体步骤为:
步骤3-1、在预训练后的深度置信网络的最后一个隐含层后增加一个softmax层作为输出层,计算每个中国传统乐器音乐样本划分到某一类中国传统乐器的概率,将音乐样本划分到对应概率最大的标签中,则演奏该音乐样本的乐器即为标签对应的中国传统乐器;对于输入样本x,其划分到某一中国传统乐器类别m的概率公式为:
P ( Y = m | x , W , b ) = softmax m ( W x + b ) = e W m x + b m &Sigma; p e W p x + b p
则该输入对应的预测标签为概率最大值对应的标签,其公式为:
ypred=arg maxm P(Y=m|x,W,b)
其中W表示softmax层的权值矩阵,b表示softmax层的偏置,Y表示每个概率对应的识别标签,ypred表示最大概率对应的预测标签,p取中国传统乐器种类数;
步骤3-2、对有中国传统乐器类别标签的数据,利用反向传播和梯度下降方法微调整个网络的参数,通过逐层最小化损失函数,即最小化重构误差,求得整个网络的最优参数,进而得到提取中国传统乐器音频文件抽象特征的最佳深度置信网络模型,基于该模型测试每个音频文件对应的演奏乐器类型,并与实际的乐器类型相比较,得到中国传统乐器的分类准确率。
CN201610790284.8A 2016-08-30 2016-08-30 基于深度置信网络的中国传统乐器分类方法 Active CN106328121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610790284.8A CN106328121B (zh) 2016-08-30 2016-08-30 基于深度置信网络的中国传统乐器分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610790284.8A CN106328121B (zh) 2016-08-30 2016-08-30 基于深度置信网络的中国传统乐器分类方法

Publications (2)

Publication Number Publication Date
CN106328121A CN106328121A (zh) 2017-01-11
CN106328121B true CN106328121B (zh) 2017-06-27

Family

ID=57789142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610790284.8A Active CN106328121B (zh) 2016-08-30 2016-08-30 基于深度置信网络的中国传统乐器分类方法

Country Status (1)

Country Link
CN (1) CN106328121B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203777A (zh) * 2017-04-19 2017-09-26 北京协同创新研究院 音频场景分类方法及装置
CN107240397A (zh) * 2017-08-14 2017-10-10 广东工业大学 一种基于声纹识别的智能锁及其语音识别方法和系统
CN107808663B (zh) * 2017-10-25 2021-04-27 重庆大学 基于dbn和rf算法的帕金森病语音数据分类系统
CN108304494A (zh) * 2018-01-10 2018-07-20 腾讯科技(深圳)有限公司 文件分类处理方法、装置及终端、服务器、存储介质
CN108417228B (zh) * 2018-02-02 2021-03-30 福州大学 乐器音色迁移下的人声音色相似性度量方法
CN109171756A (zh) * 2018-06-18 2019-01-11 广州普麦健康咨询有限公司 基于深度置信网络模型的糖尿病指标预测方法及其系统
CN108962279A (zh) * 2018-07-05 2018-12-07 平安科技(深圳)有限公司 音频数据的乐器识别方法及装置、电子设备、存储介质
CN109034246B (zh) * 2018-07-27 2021-04-16 中国矿业大学(北京) 一种路基含水状态的确定方法及确定系统
CN109065076B (zh) * 2018-09-05 2020-11-27 深圳追一科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN109065075A (zh) * 2018-09-26 2018-12-21 广州势必可赢网络科技有限公司 一种语音处理方法、装置、系统及计算机可读存储介质
CN111259189B (zh) * 2018-11-30 2023-04-18 马上消费金融股份有限公司 一种音乐分类方法及装置
CN109815801A (zh) * 2018-12-18 2019-05-28 北京英索科技发展有限公司 基于深度学习的人脸识别方法及装置
CN110111773B (zh) * 2019-04-01 2021-03-30 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法
CN110189768B (zh) * 2019-05-13 2021-02-02 西安交通大学 一种基于条件随机场的中国民歌地域分类方法
CN110310666B (zh) * 2019-06-27 2021-07-23 成都潜在人工智能科技有限公司 一种基于se卷积网络的乐器识别方法及系统
CN110782915A (zh) * 2019-10-31 2020-02-11 广州艾颂智能科技有限公司 一种基于深度学习的波形音乐成分分离方法
CN111128236B (zh) * 2019-12-17 2022-05-03 电子科技大学 一种基于辅助分类深度神经网络的主乐器识别方法
CN112687294A (zh) * 2020-12-21 2021-04-20 重庆科技学院 一种车载噪音识别方法
CN113781989A (zh) * 2021-09-23 2021-12-10 广州酷狗计算机科技有限公司 一种音频的动画播放、节奏卡点识别方法及相关装置
CN115910099B (zh) * 2022-11-08 2023-08-04 中国矿业大学 一种基于深度概率图神经网络的乐器自动识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
CN105809198A (zh) * 2016-03-10 2016-07-27 西安电子科技大学 基于深度置信网络的sar图像目标识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140032570A1 (en) * 2012-07-30 2014-01-30 International Business Machines Corporation Discriminative Learning Via Hierarchical Transformations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325382A (zh) * 2013-06-07 2013-09-25 大连民族学院 一种自动识别中国少数民族传统乐器音频数据的方法
CN105809198A (zh) * 2016-03-10 2016-07-27 西安电子科技大学 基于深度置信网络的sar图像目标识别方法

Also Published As

Publication number Publication date
CN106328121A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106328121B (zh) 基于深度置信网络的中国传统乐器分类方法
CN101599271B (zh) 一种数字音乐情感的识别方法
Levy et al. Music information retrieval using social tags and audio
CN102893326B (zh) 结合情感点的汉语语音情感提取及建模方法
CN103177722B (zh) 一种基于音色相似度的歌曲检索方法
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN106504772B (zh) 基于重要性权重支持向量机分类器的语音情感识别方法
CN105810212B (zh) 一种复杂噪声环境下的列车鸣笛识别方法
CN111400469A (zh) 针对语音问答的智能生成系统及其方法
CN105719661A (zh) 一种弦乐器演奏音质自动判别方法
CN110060701A (zh) 基于vawgan-ac的多对多语音转换方法
CN112562741A (zh) 一种基于点积自注意力卷积神经网络的歌声检测方法
CN110399522A (zh) 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
Shi et al. Symmetry in computer-aided music composition system with social network analysis and artificial neural network methods
CN115762533A (zh) 一种鸟鸣声分类识别方法及装置
Langlois et al. A Music Classification Method based on Timbral Features.
CN102841932A (zh) 一种基于内容的音频语义特征相似度比较方法
Nagavi et al. Overview of automatic Indian music information recognition, classification and retrieval systems
CN113192471A (zh) 一种基于神经网络的乐曲主旋律音轨识别方法
Kayis et al. Artificial Intelligence-Based Classification with Classical Turkish Music Makams: Possibilities to Turkish Music Education.
CN208422152U (zh) 智能化乐谱识别与显示装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant