CN108229659A

CN108229659A - 基于深度学习的钢琴单键音识别方法

Info

Publication number: CN108229659A
Application number: CN201711472065.6A
Authority: CN
Inventors: 齐勇; 刘浩哲; 张立泽清; 赵智健; 雷凯; 来浩东; 王妮; 陈坤
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-29

Abstract

本发明公开了一种基于深度学习的钢琴单键音识别方法，步骤1，对钢琴88个单键音信号进行采集，获得一组具有88个单键音信号的样本数据，共采集n+1组，对每组的每个数据进行类别标号，然后通过信号合成系统生成得到时域信号，将时域信号进行傅里叶变换成频域信号，再将频域信号进行正则化处理，得到1组实验样本和n组训练样本；步骤2，将n组训练样本的数据放进神经网络模型中进行训练；步骤3，将1组实验样本数据的参数传入到训练完成的神经网络中，神经网络对该组的每个数据的参数进行拟合，获取神经网络所判断出的该组的类别，将类别与其标记的类别标号进行一一比对，得到识别率。解决了现有技术中存在的靠人耳识别误差大的问题。

Description

基于深度学习的钢琴单键音识别方法

技术领域

本发明属于声音处理方法技术领域，涉及一种基于深度学习的钢琴单键音识别方法。

背景技术

钢琴有着“音乐之王”的美称，由88个琴键和金属弦音板组成。钢琴音域范围从A2(27.5Hz)至c5(4186Hz)，几乎囊括了音乐体系中的全部音乐。随着人民的生活水平不断提高，国内开始出现越来越多的家长注重孩子在音乐特别是钢琴方面发展，但是目前我国的钢琴教育行业却面临着种种困难，钢琴音的调整校准主要还是靠人耳识别，存在着较大的误差，调音师从业人员数量稀少，调音师每次调音的费用每次高达600-900元不等，这些问题都在各种不同程度上影响着我国钢琴教育行业的持续发展。

发明内容

本发明的目的是提供一种基于深度学习的钢琴单键音识别方法，解决了现有技术中存在的靠人耳识别误差大的问题。

本发明所采用的技术方案是，基于深度学习的钢琴单键音识别方法，具体按照以下步骤实施：

步骤1，通过信号采集系统对钢琴88个单键音信号进行采集，获得一组具有88个单键音信号的样本数据，样本为2050维，共采集n+1组，对每组的每个数据进行类别标号，然后将每组88个单键音信号通过信号合成系统生成得到时域信号，将时域信号进行傅里叶变换成频域信号，再将获得的频域信号的数据进行正则化处理，保留频域信号的形状，得到经正则化处理的频域信号；

步骤2，将经步骤1处理的前n组数据放进神经网络模型中进行训练，该神经网络模型包括依次级联的输入层、第一全连接层、第一Dropout层、第二全连接层、第二Dropout层和输出层。

步骤3，将步骤1中经处理的最后一组频域信号数据的参数传入到经步骤2训练完成的神经网络中，神经网络对该组的每个数据的参数进行拟合，在输出层获取神经网络所判断出的最后一组的类别，将最后一组的类别与其标记的类别标号进行一一比对，得到识别率m为所对比的正确数量，M为该组样本总数。

本发明的特征还在于，

步骤2具体为：

步骤2.1，将经处理完成的前n组频域信号，共2050维传入输入层进行加权求和操作，然后输入第一全连接层；

步骤2.1，在第一全连接层进行tanh激活操作，然后进入第一Dropout层；

步骤2.3，在第一Dropout层进行防过拟合处理，然后进入第二全连接层；

步骤2.4，在第二全连接层进行relu激活操作，然后进入第二Dropout层；

步骤2.5，在第二Dropout层进行防过拟合处理，然后进入输出层；

步骤2.6，在输出层进行softmax分类，共分为88类。

在进行softmax分类后，该神经网络会根据损失函数计算出相应的训练集的误差，通过梯度下降的方法反向传播误差，从而更新权重与阈值，使整个神经网络的准确率更高。

relu激活采用的激活函数为f(x)＝max(x,0)；tanh激活采用的激活函数为softmax分类采用的分类函数为其中j＝1,2,...,K，分类函数将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)_j，使得每一个元素的范围都在{0，1}之间，并且所有元素的和为1。

步骤2.1中加权求和操作的计算公式如下所示：其中H_j为第一全连接层的输入，ω_ij为输入层到第一全连接层的权重，a_i为输入层到全连接层的偏置，H_j代表该层第j个神经元的输出，x_i代表上一个神经元的输入，ω_ij表示上一层第i个神经元与该层第j个神经元之间连接的权重。

第一全连接层共6000个神经元。

第二全连接层共3000个神经元。

步骤2.3和步骤2.5中在第一Dropout层、第二Dropout层进行防过拟合处理的过程为：随机先择50％的神经元进行断开操作。

本发明的有益效果是，本发明首先通过对不同的单键音信号进行快速傅里叶变换等一系列处理，然后将处理好的数据放进神经网络中进行训练，在该神经网络模型中有效的解决了各种梯度消失以及过拟合现象的发生，从而保证了整个网络的高效快速准确的运行，所得出的实验结果更是达到了97.53％。

附图说明

图1是本发明基于深度学习的钢琴单键音识别方法的流程图；

图2是本发明在神经网络模型中进行训练的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于深度学习的钢琴单键音识别方法，如图1所示，具体按照以下步骤实施：

步骤1，通过信号采集系统对钢琴88个单键音信号进行采集，获得一组具有88个单键音信号的样本数据，样本为2050维，共采集n+1组，对每组的每个数据进行类别标号，然后将每组88个单键音信号通过信号合成系统生成得到时域信号，将时域信号进行傅里叶变换成频域信号，再将获得的频域信号的数据进行正则化处理，保留频域信号的形状，得到经正则化处理的频域信号；其中傅里叶变换的公式如下：公式中F(ω)为f(t)的像函数，f(t)为F(ω)的元像函数；时域信号转换成频域信号的过程中，将钢琴不同音域发出的复杂信号分解成简单的信号(正弦信号)的叠加，从而更加精准的还原钢琴音最根本的信号结构。在线性系统中采用线性叠加原理，将单一的频率的正弦波作为输出，获取输出信号，从而得到频率响应关系，对信号的频域分析的结果推到出任意复杂信号的输入时的输出；

如图2所示，步骤2具体为：

步骤2.1，将经处理完成的前n组频域信号，共2050维传入输入层进行加权求和操作，权求和操作的计算公式如下所示：其中H_j为第一全连接层的输入，ω_ij为输入层到第一全连接层的权重，a_i为输入层到全连接层的偏置H_j代表该层第j个神经元的输出，x_i代表上一个神经元的输入，ω_ij表示上一层第i个神经元与该层第j个神经元之间连接的权重，n＝2050，然后输入第一全连接层；

步骤2.1，在第一全连接层进行tanh激活操作，该层共6000个神经元，tanh激活采用的激活函数为则第一全连接层的激活操作为然后进入第一Dropout层；

步骤2.3，在第一Dropout层进行防过拟合处理，随机先择50％的神经元进行断开操作，然后进入第二全连接层；经过交叉验证，隐含节点dropout率等于0.5时的效果最好，因为0.5时Dropout随机生成的网络结构最多；

步骤2.4，在第二全连接层进行relu激活操作，该层共3000个神经元，relu激活采用的激活函数为f(x)＝max(x,0)，然后进入第二Dropout层；relu激活函数再反向传播过程中减轻了梯度弥散的问题，同时在神经网络中前几层的参数可以以更快的更新，在正向传播过程中relu只需要设置阈值，也加快了正确传播的计算速度；

步骤2.6，在输出层进行softmax分类，softmax分类采用的分类函数为共分为88类，其中j＝1,2,...,K，分类函数将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)_j，使得每一个元素的范围都在{0，1}之间，并且所有元素的和为1。

在进行softmax分类后，该神经网络会根据损失函数计算出相应的训练集的误差，通过梯度下降的方法反向传播误差，从而更新权重与阈值，使整个神经网络的准确率更高，其中，损失函数为：categorical_crossentropy，即交叉熵损失函数，其交叉熵损失函数标准形式为：L(Y,P(Y|X))＝-logP(Y|X)，损失函数是每个钢琴单键音频域信号数据的损失，L(Y,P(Y|X))是指分类为Y的情况下，使P(Y|X)达到最大，我们这里使用最大概率的分类做预测，Y代表钢琴单键音结果为正确的分类结果，P(Y|X)则是代表正确分类的概率，那么对于对数取反就会使P(Y|X)越大，损失函数就越小。

本发明的整个神经网络模型采用的优化器为adam优化，adam优化为随机梯度下降算法的扩展式，它能基于训练数据迭代的更新神经网络权重，十分高效的实现了更快速的计算与更少的内存使用。

实施例

本实施例选择Python2.7和Keras以及Tensorflow作为实现平台，编程实现本发明方案的设计。实施过程是选取88个钢琴单键音时域信号作为实验对象。通过信号采集系统对钢琴88个单键音信号进行采集，获得一组具有88个单键音信号的样本数据，样本为2050维，共采集8组。其中前7组作为训练样本，最后1组作为测试样本。

具体操作步骤如下：

(1)将每组钢琴的88个单键音进行合成，并通过专业的信号采集系统(采集范围包含A2(27.5Hz)至c5(4186Hz))获取时域信号。

(2)通过快速傅里叶变换，将这些钢琴单键音从时域信号变为频域信号。从时域来看时域信号中，很多的信号是叠加在一起的，不好分离出需要的特征信号，然而从频域来看，会发现信号都是分开的，我们可以很容易从中将信号分离开来，这个信号的转换过程就需要快速傅里叶变换：

(3)神经网络的训练与测试：

a)将处理完成前7组训练样本的频域信号传入输入层进行加权求和操作，在第一全连接层的输出(共6000个神经元)：

b)进入Dropout层进行防过拟合处理，随机先择50％的神经元进行断开操作；经过交叉验证，隐含节点dropout率等于0.5时的效果最好，因为0.5时Dropout随机生成的网络结构最多。

c)再次进入第二全连接层，该第二全连接层使用relu作为激活函数，该层共3000个神经元。

e)第二全连接层的输出数据再次进行b步操作，该层输出的数据为可以交由softmax分类器进行分类(共88类)。

f)以上为神经网络的正向传播具体操作，在由softmax分类器分类后，该网络会根据损失函数计算出相应的训练集的误差，通过梯度下降的方法反向传播误差，从而更新权重与阈值，从而使整个神经网络达到更高的准确率。

该过程为神经网络的训练过程，通过输出可视误差以及增加训练次数，整个神经网络最终会达到预期效果。

g)将最后1组测试样本数据的参数传入到训练完成的神经网络，神经网络对该组的每一个数据的参数进行拟合，最终在softmax分类层获取神经网络所判断出的该组类别，该组类别与提前进行标记的类别标号进行一一比对：m为所对比的正确数量，M为该组样本总数。识别率为97.53％，通过输出对比数据，可以看出，测试样本的预测输出和目标输出基本相同，虽然部分出现偏差，但总体上十分接近。

Claims

1.基于深度学习的钢琴单键音识别方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述步骤2具体为：

步骤2.6，在输出层进行softmax分类，共分为88类。

3.根据权利要求2所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述在进行softmax分类后，该神经网络会根据损失函数计算出相应的训练集的误差，通过梯度下降的方法反向传播误差，更新权重与阈值。

5.根据权利要求2所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述relu激活采用的激活函数为f(x)＝max(x,0)；tanh激活采用的激活函数为softmax分类采用的分类函数为其中j＝1,2,...,K，分类函数是将神经网络处理过后的K维的钢琴单键音频域信号向量z压缩到另一个K维实向量σ(z)_j，使得每一个元素的范围都在{0，1}之间，并且所有元素的和为1。

6.根据权利要求2所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述步骤2.1中加权求和操作的计算公式如下所示：其中H_j为第一全连接层的输入，ω_ij为输入层到第一全连接层的权重，a_i为输入层到全连接层的偏置，H_j代表该层第j个神经元的输出，x_i代表上一个神经元的输入，ω_ij表示上一层第i个神经元与该层第j个神经元之间连接的权重。

7.根据权利要求2所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述第一全连接层共6000个神经元。

8.根据权利要求7所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述第二全连接层共3000个神经元。

9.根据权利要求8所述的基于深度学习的钢琴单键音识别方法，其特征在于，所述步骤2.3和步骤2.5中在第一Dropout层、第二Dropout层进行防过拟合处理的过程为：随机先择50％的神经元进行断开操作。