CN111370023A

CN111370023A - 一种基于gru的乐器识别方法及系统

Info

Publication number: CN111370023A
Application number: CN202010097479.0A
Authority: CN
Inventors: 白坤; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-07-03

Abstract

本发明公开了一种基于GRU的乐器识别方法，包括以下步骤：S11.将待识别音频的音频数据进行vad处理，切除静音段，得vad处理音频；S12.提取vad处理音频的声学特征，得待识别声学特征；S13.将待识别声学特征输入GRU神经网络识别模型的输入层进行识别，GRU神经网络识别模型的输出层输出预测结果，根据预测结果判定待识别音频的演奏乐器。本发明还公开了一种采用上述方法的基于GRU的乐器识别系统。本发明可以识别出一段音频中包含的演奏乐器种类。

Description

一种基于GRU的乐器识别方法及系统

技术领域

本发明涉及音频识别技术领域，特别是一种基于GRU的乐器识别方法及系统。

背景技术

人们听到一首好听的乐曲时，不仅会反复品鉴，很多时候也想知道他是由哪些乐器弹奏出的。但是对于大多不熟悉乐器的人，单凭人耳很难能够识别得出。

发明内容

本发明为解决上述问题，提供了一种基于GRU的乐器识别方法及系统，可以识别出一段音频中包含的演奏乐器种类。

为实现上述目的，本发明采用的技术方案为：

一种基于GRU的乐器识别方法，包括以下步骤：

S11.将待识别音频的音频数据进行vad处理，切除静音段，得vad处理音频；

S12.提取所述vad处理音频的声学特征，得待识别声学特征；

S13.将所述待识别声学特征输入GRU神经网络识别模型的输入层进行识别，所述GRU神经网络识别模型的输出层输出预测结果，根据所述预测结果判定所述待识别音频的演奏乐器。

优选的，所述预测结果为独热码，用于表示演奏乐器的种类。

优选的，所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数，共计39维特征。

进一步优选的，所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层，其中所述GRU层的输入尺寸为N*(500*39)，所述输出层为N个节点的softmax层，其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。

优选的，所述GRU神经网络识别模型的构建方法，包括以下步骤：

S21.采集不同乐器的演奏音频，根据演奏乐器的种类进行分类，得训练集音频；

S22.将所述训练集音频的音频数据进行vad处理，切除静音段，得训练集vad处理音频；

S23.将所述训练集vad处理音频进行截取，得训练集截取音频；

S24.提取所述训练集截取音频的声学特征，得训练集声学特征；

S25.将所述训练集声纹特征数据输入到所述GRU神经网络识别模型中，所述GRU神经网络识别模型输出所述预测结果；

S26.使用交叉熵损失作为损失函数，通过Adam算法优化所述GRU神经网络识别模型至趋于稳定后完成训练。

进一步优选的，训练时，所述GRU神经网络识别模型添加dropout参数。

基于同样的发明构思，本发明还提供了一种基于GRU的乐器识别系统，包括：

音频输入终端，用于输入所述待识别音频；

识别模块，用于对所述待识别音频的音频数据进行识别，判定待识别音频的演奏乐器。

本发明的有益效果是：

(1)构建多分类的GRU模型，根据乐器演奏声的声学特征差异进行分类；

(2)使用声音特征的组合作为模型的输入，并训练出分类器；

(3)训练时在模型中加入了dropout操作，防止过拟合。

附图说明

图1为本发明一实施例所提供的一种GRU神经网络识别模型构建的流程图；

图2为本发明一实施例所提供的一种提取声学特征的流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例提供一种基于GRU的乐器识别系统，该系统可以集成于手机APP中，用于对输入的音频的演奏乐器的种类进行识别。

该系统包括音频输入终端和识别模块。

其中，识别模块中加载有GRU神经网络识别模型。

该模型的构建方法，包括以下步骤：

S1.采集钢琴、笛子、笙箫、吉他、小提琴5种乐器的演奏音频作为训练集音频，并根据演奏乐器的种类分为5个类别。

每个类别80％的训练集音频用于对模型进行训练，20％用于对模型进行测试。

S2.将训练集音频的音频数据进行vad处理，切除静音段，得训练集vad处理音频。

S3.将训练集vad处理音频截取为每段时长为5s的训练集截取音频。

S4.提取训练集截取音频的声学特征，得训练集声学特征。

由于乐器演奏声的声学特征会有所不同，比如在某一个频率段声音的能量，基频等，所以使用不同声学特征的组合作为模型的输入。在该系统中使用的组合为：13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数，共计39维特征。

如图2所示，提取声学特征的流程包括对训练集截取音频的连续语音的预加重、分帧、加窗、傅立叶变换(FFT)、Mel滤波、对数运算和离散余弦变换(DCT)处理。

S5.将训练集声纹特征数据输入到GRU神经网络识别模型中，对分类器进行训练。

该模型的网络结构包括3个GRU层、1个全连接层和一个输出层，其中输入尺寸为5*(500*39)，输出层为5个节点的softmax层。

输出层的预测结果使用独热码one-hot表示所属语种(比如方言排列顺序为：钢琴、笛子、笙箫、吉他、小提琴，则钢琴表示为：10000；笛子表示为：01000；吉他表示为：00100；...)。

训练时，添加dropout参数，防止模型过拟合。

S6.使用交叉熵损失作为损失函数，损失值为输入模型的对应独热码和模型输出的独热码的差值，通过Adam算法优化GRU神经网络识别模型至趋于稳定后完成模型的构建。

使用该系统时，通过音频输入终端输入一段包含有乐器演奏声的音频，音频输入终端提取待识别音频的声学特征至识别模块。识别模块基于上述模型进行识别，输出预测结果，并根据其独热码判定对应的演奏乐器种类。

本发明使用端到端的网络结构进行识别，系统直接输出音频中包含的演奏乐器种类，识别速度快，可以满足用户对乐曲全方位鉴赏的需求，有效提高用户的鉴赏水平。

本领域技术人员可以理解，实现上述音频数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在1个存储介质中，包括若干指令用以使得1个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于GRU的乐器识别方法，其特征在于，包括以下步骤：

S12.提取所述vad处理音频的声学特征，得待识别声学特征；

2.根据权利要求1所述的一种基于GRU的乐器识别方法，其特征在于，所述预测结果为独热码，用于表示演奏乐器的种类。

3.根据权利要求1所述的一种基于GRU的乐器识别方法，其特征在于，所述声学特征包括13维的MFCC特征、13维的MFCC特征一阶导数和13维的MFCC特征二阶导数，共计39维特征。

4.根据权利要求3所述的一种基于GRU的乐器识别方法，其特征在于，所述GRU神经网络识别模型的网络结构包括3个GRU层、1个全连接层和一个输出层，其中所述GRU层的输入尺寸为N*(500*39)，所述输出层为N个节点的softmax层，其中N为所述GRU神经网络识别模型能够识别的演奏乐器的种类数。

5.根据权利要求1所述的一种基于GRU的乐器识别方法，其特征在于，所述GRU神经网络识别模型的构建方法，包括以下步骤：

S23.将所述训练集vad处理音频进行截取，得训练集截取音频；

6.根据权利要求5所述的一种基于GRU的乐器识别方法，其特征在于，训练时，所述GRU神经网络识别模型添加dropout参数。

7.一种采用如权利要求1～6任一项所述方法的基于GRU的乐器识别系统，其特征在于，包括：

音频输入终端，用于输入所述待识别音频；