CN110310666B

CN110310666B - 一种基于se卷积网络的乐器识别方法及系统

Info

Publication number: CN110310666B
Application number: CN201910569242.5A
Authority: CN
Inventors: 尹学渊; 祁松茂; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu potential Artificial Intelligence Technology Co.,Ltd.
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2021-07-23
Anticipated expiration: 2039-06-27
Also published as: CN110310666A

Abstract

本发明公开了一种基于SE卷积网络的乐器识别方法及系统，方法包括如下步骤：待识别数据预处理，将待识别音频文件转换为待识别自相关谱图；待识别数据识别，将待识别自相关谱图输入预先构建的乐器识别模型进行识别，得到输出结果矩阵；乐器解析，将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。该方法将待识别音频文件转换为自相关谱图，自相关谱图采用自相关算法，能够有效克服短时傅里叶变换的不足，利用预先构建的乐器识别模型对自相关谱图进行处理，能够识别出音频数据所使用的乐器种类，对真实场景的复调音乐有着较高的识别率，且识别速度较快，可以极大地降低人工成本，节省时间，提升效率。

Description

一种基于SE卷积网络的乐器识别方法及系统

技术领域

本发明属于计算机软件技术领域，具体地说，涉及一种基于SE卷积网络的乐器识别方法及系统。

背景技术

随着我国小康水平的提高，人们的物质生活基本达到满足，越来越多的人开始追求精神生活上的提升，娱乐是提升精神生活的一种方式，越来越多的人们开始关注音乐，关注乐器。乐器按一定的旋律进行组合发声形成音乐，不同的乐器发出的声音的特征不一样。乐器识别是音乐内容分析的一个中要问题，它可以为其他声源识别技术提供有效的参考。

申请号为2018107298471的发明专利公开了音频数据的乐器识别方法及装置、电子设备、存储介质，包括：对待识别音频数据进行预处理；通过短时傅里叶变换将待识别音频数据从时域信号转换成预设窗口数量的频域信号；将预设窗口数量的频域信号从频率标度转换为梅尔标度，得到梅尔谱图；将梅尔谱图输入预先构建的乐器识别模型，得到待识别音频数据所使用的乐器种类。本发明提供的方案，解决了现有技术无法识别出复调音乐中所使用乐器种类的缺陷，通过预先构建的乐器识别模型对待识别音频数据的梅尔谱图进行处理，进而可以识别出复调音乐中所使用的乐器种类。该技术方案采用短时傅里叶变换将待识别音频数据从时域信号转换成预设窗口数量的频域信号，短时傅里叶变换不能兼顾时间分辨率和频率分辨率，不能较好提取非稳态信号，对于基频的信息提取有所欠缺。同时该技术方案使用卷积模型卷积层学习到的特征之间没有做重要性区分，制约了识别能力的进一步提高。

申请号为2014100085334的发明专利公开了一种乐器信号的分类方法，包括相空间重构模块，主成分分析模块，特征提取模块和柔性神经树模块。特征在于实施步骤是对不同乐器样本信号产生的时间序列进行相空间重构，通过主成分分析去除冗余信息，达到降维目的，再通过分析各种乐器特性，采用概率密度函数来刻画各个乐器在相空间中的差异，最后，采用柔性神经树模型作为分类器来进行分类，它能够有效的解决人工神经网络结构的高度依赖性问题,可以使单个乐器的分类准确率最高达到了98.7％。该技术方案采用主成分分析法，会不可避免的丢弃一些对提升识别效率有帮助的特征，同时该技术方案只是对单乐器的音频做了识别，无法有效地应用于复调音乐的识别。

发明内容

针对现有技术中上述的不足，本发明提供一种基于SE卷积网络的乐器识别方法和系统，该方法将待识别音频文件转换为自相关谱图，自相关谱图采用自相关算法，能够有效克服短时傅里叶变换的不足，能够兼顾时间分辨率和频率分辨率，利用预先构建的乐器识别模型对自相关谱图进行处理，能够识别出音频数据所使用的乐器种类，对真实场景的复调音乐有着较高的识别率，且识别速度较快，可以极大地降低人工成本，节省时间，提升效率。

为了达到上述目的，本发明采用的解决方案是：一种基于SE卷积网络的乐器识别方法，包括如下步骤：

待识别数据预处理，将待识别音频文件转换为待识别自相关谱图；

待识别数据识别，将待识别自相关谱图输入预先构建的乐器识别模型进行识别，得到一个s行num_ins列的矩阵，其中s代表音乐被切分的片段数目，num_ins代表可识别的乐器种类数；

乐器解析，将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。

所述的将待识别音频文件转换为待识别自相关谱图包括如下子步骤：

将待识别音频文件解码为wave格式，并归一化至(-1～1)；

将wave格式的音频文件通过平均得到单声道的音频；

将单声道的音频降采样；

对降采样后的音频进行切段；

对切好的段进行自相关谱计算，得到自相关谱；

将自相关谱表示的频率转换为对数度量；

将对数度量的自相关谱中的数值归一化至(-1～1)。

所述的自相关谱计算包括如下步骤：

对切段后的音频数据分帧；

对每个数据分帧的数据做窗函数运算；

将加窗运算后的数据分帧分别进行自相关运算，如下式所示：

τ代表延迟，acf_xx[τ]是自相关函数的值，N为帧长度，n为采样点序号；

取不同的τ重复自相关运算，将得到的自相关函数值按τ值从小到大排列起来，组成一个自相关向量，在得到向量后，根据时间顺序在频率轴上将每帧得到的自相关向量排列起来组成一个矩阵；

对该矩阵进行转置，使其横轴代表时间，纵轴代表频率，得到自相关谱。

所述的将自相关谱表示的频率转换为对数度量包括如下步骤：

计算自相关谱矩阵行索引值对应的绝对频率，计算公式如下所示：

其中，f_abs为绝对频率，I为索引，S为采样率，b是索引数目，S/2是根据奈奎斯特采样定理求出的当前采样率下能表示的最大频率；

计算梅尔频率的滤波器组；

将绝对频率分别与滤波器组复合，得到复合后的向量即为对数度量。

所述的将待识别自相关谱图输入预先构建的乐器识别模型进行识别包括如下步骤：通过预先构建的乐器识别模型对待识别自相关谱图进行初步卷积计算，然后将卷积结果进行第一次最大池化处理，然后将第一次最大池化后的结果进行2次fire模块计算，将2次fire模块计算后的数据进行第二次最大池化处理，将第二次最大池化处理后的数据进行第三、第四次fire模块计算，第三、第四次fire模块计算后的数据进行第三次最大池化处理，第三次最大池化处理后的数据进行第五、第六次fire模块计算，第五、第六次fire模块计算后的数据进行一次卷积，然后对卷积后的数据进行批标准化，将标准化后的数据传输到SE模块进行处理，处理后的数据再依次进行卷积和批标准化，然后再将数据进行全局平均化，得到输出结果。

所述的将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签包括如下步骤：

在S所在的轴上将输出结果矩阵的行向量加起来，得到shape为(num_ins)的向量；

对向量做归一化；

将归一化后的数据与阈值进行比较，判断存在的乐器的种类。

所述的乐器识别模型的构建包括如下步骤：

训练样本预处理，将训练样本音频文件转换为训练样本自相关谱图，将音频标签转换为与音频文件对应的标签向量；

识别模型训练，将训练样本自相关谱图和音频文件对应的标签向量输入深度学习模型训练，得到乐器识别模型。

所述的音频标签通过独热码转换为与音频对应的标签向量。

所述的将训练样本自相关谱图和音频文件对应的标签向量输入深度学习模型训练，得到乐器识别模型，包括：

将训练样本自相关谱图按训练集和验证集分割后输入深度学习模型训练，得到训练输出结果；

将训练输出结果结合标签向量进行损失函数计算，得到损失函数值；

判断损失函数值是否满足早停策略，若满足则训练完成，进行参数恢复后保存模型作为识别模型；若不满足则使用优化算法对深度学习模型进行参数优化，上述训练过程，直至满足早停策略。

基于SE卷积网络的乐器识别方法的系统，包括：

预处理模块，用于将待识别音频数据转换为待识别自相关谱图；

音频识别模块，用于将待识别自相关谱图输入预先构建的乐器识别模型进行识别，得到识别结果；

乐器解析模块，将乐器识别模型的识别结果整合解析为自然语言表示的乐器标签。

本发明的有益效果是：

(1)该方法将待识别音频文件转换为自相关谱图，自相关谱图采用自相关算法，能够有效克服短时傅里叶变换的不足，能够兼顾时间分辨率和频率分辨率，利用预先构建的乐器识别模型对自相关谱图进行处理，能够识别出音频数据所使用的乐器种类，对真实场景的复调音乐有着较高的识别率，且识别速度较快，可以极大地降低人工成本，节省时间，提升效率。

(2)深度学习模型中使用fire模块，能够显著降低模型的参数，有效降低模型的复杂度。

(3)深度学习模型中使用SE模块，能够对卷积层学习到的特征进行加权区分，提高乐器识别模型的识别能力。

附图说明

图1为本发明乐器识别方法流程图；

图2为本发明待识别数据预处理流程图；

图3为自相关谱计算方法流程图；

图4为深度学习算法流程图；

图5为fire模块算法流程图；

图6为SE模块流程图；

图7为乐器解析流程图；

图8为样本训练流程图；

图9为乐器识别系统框图。

具体实施方式

以下结合附图对本发明作进一步描述：

如图1所示，一种基于SE卷积网络的乐器识别方法，包括如下步骤：

S1：待识别数据预处理，将待识别音频文件转换为待识别自相关谱图；

S2：待识别数据识别，将待识别自相关谱图输入预先构建的乐器识别模型进行识别，得到一个s行num_ins列的矩阵，即形状为(s,num_ins)，其中s代表音乐被切分的片段数目，num_ins代表可识别的乐器种类数；

S3：乐器解析，将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签。

如图2所示，所述的步骤S1中将待识别音频文件转换为待识别自相关谱图包括如下子步骤：

S101：将待识别音频文件解码为wave格式，并归一化至(-1～1)；

S102：将wave格式的音频文件通过平均得到单声道的音频；

S103：将单声道的音频降采样至10025～20050之间；

S104：对降采样后的音频进行切段，每段时长在0.5秒至3秒，每段之间有0.5的交叉率；

S105：对切好的段进行自相关谱计算，得到自相关谱；

S106：将自相关谱表示的频率转换为对数度量；

S107：将对数度量的自相关谱中的数值归一化至(-1～1)。

如图3所示，所述的步骤S105中自相关谱计算包括如下步骤：

S1051：对切段后的音频数据分帧，即使用一个固定大小的窗口，每次滑动二分之一窗口到一个窗口的长度，来从音频数据中取值，每个窗为一个数据分帧，出口大小为1024～2048；

S1052：对每个数据分帧的数据做窗函数运算，窗函数采用汉宁窗或汉明窗；

S1053：将加窗运算后的数据分帧分别进行自相关运算，如下式所示：

τ代表延迟，acf_xx[τ]是自相关函数的值，N为帧长度，n为采样点序号，在具体计算中若x[n+τ]超出帧边界，则舍弃该点不做计算；

S1054：取不同的τ重复自相关运算，τ从0取到N-1，将得到的自相关函数值按τ值从小到大排列起来，组成一个自相关向量，在得到向量后，根据时间顺序在额外的轴上将每帧得到的自相关向量排列起来组成一个矩阵；

S1055：对该矩阵进行转置，使其横轴代表时间，纵轴代表频率，得到自相关谱。

在上述步骤中求得的自相关谱的矩阵的横轴代表时间，纵轴代表频率，取对数度量，具体来说矩阵有行和列，在这里行的索引就代表了频率(一系列离散的值)。所述的将自相关谱表示的频率转换为对数度量包括如下步骤：

其中，f_abs为绝对频率，I为索引(频率轴)，S为采样率，b是索引数目，即矩阵行数，S/2是根据奈奎斯特采样定理求出的当前采样率下能表示的最大频率，即采样率要大于最大频率的两倍；

计算梅尔频率的滤波器组，此处滤波器实际上就算是一列向量，该向量中每相邻的两个值代表为该滤波器的频率上下界。举例来说，128个滤波器，则该向量有129维。滤波器组数目根据算力和网络规模来确定；

将绝对频率分别与滤波器组复合，得到复合后的向量即为对数度量，举例来说：若原谱图中第一二三行对应的频率分别为0～100，100～200，200～300(Hz)，而第一个梅尔滤波器对应的上下界为0～350，那么将这三行都归入一个滤波器，即将这三行在频率轴方向平均后得到一个向量，其他滤波器也是类似的操作。

如图4到图6所示，所述的将待识别自相关谱图输入预先构建的乐器识别模型进行识别包括如下步骤：通过预先构建的乐器识别模型对待识别自相关谱图进行初步卷积计算，然后将卷积结果进行第一次最大池化处理，然后将第一次最大池化后的结果进行2次fire模块计算，将2次fire模块计算后的数据进行第二次最大池化处理，将第二次最大池化处理后的数据进行第三、第四次fire模块计算，第三、第四次fire模块计算后的数据进行第三次最大池化处理，第三次最大池化处理后的数据进行第五、第六次fire模块计算，第五、第六次fire模块计算后的数据进行一次卷积，然后对卷积后的数据进行批标准化，将标准化后的数据传输到SE模块进行处理，处理后的数据再依次进行卷积和批标准化，然后再将数据进行全局平均化，得到输出结果。乐器识别模型中所有卷积层使用的激活函数为LeakyRelu，其alpha值可设置在0.01～0.33。

本发明中SE模块的处理过程如下：1.假设输入shape为:(batch_szie,H,W,C),此处batch_size为批次大小(即一次输入的自相关谱图个数)，H，W为特征图的高和宽，C(channel)为通道数；

2.将输入的特征图做全局平均池化，此时特征图的输出形状为：(batch_size,C)；

3.将上一步的输出输入第1层全连接层，该层神经元个数为(C/16)，此时的输出为：(batch_size,C/16)，神经元个数根据训练需要进行设置；

4.将上一步的输出输入第2层全连接层，该层神经元数目为C，此时的输出为：(batch_size,C)

5.将1中的输入和4的输出通道相乘，实现加权操作。

如图7所示，所述的将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签包括如下步骤：

S301：在S所在的轴上将输出结果矩阵的行向量加起来，即Shape为(s,num_ins)的矩阵的行向量，得到向量(num_ins)；

S302：对向量(num_ins)做归一化，归一化的方式为该向量除以该向量中最大值；

S303：将归一化后的数据与阈值进行比较，判断存在的乐器的种类，阈值的取值范围为0.2到0.6。经过试验得出，当阈值为0.5时具有较好的综合识别性能，即查准率和查全率的调和平均F1最大，具体来说如果输出大于等于0.5则认为该乐器存在，小于则不存在。归一化后的数据的输出的范围在0～1之间。

所述的乐器识别模型的构建包括如下步骤：

所述的音频标签通过独热码转换为与音频对应的标签向量。

将训练样本音频文件转换为训练样本自相关谱图所使用的方法与待识别音频文件转换为待识别自相关谱图的方法相同，需要注意的是：在对训练样本降采样后的音频进行切段时，每段之间有不交叉，切好的段共享一个标签向量，自相关谱图和对应的标签向量存入joblib文件。

如图8所示，所述的将训练样本自相关谱图和音频文件对应的标签向量输入深度学习模型训练，得到乐器识别模型，包括：

将训练样本自相关谱图按训练集和验证集分割后输入深度学习模型训练，得到训练输出结果，训练集和验证集的比例可以为7:3或0.85:0.15或0.9:0.1，在保证没有发生过拟合的前提下可以将训练集的比例设置的尽量大；

将训练输出结果结合标签向量进行损失函数计算，得到损失函数值，损失函数采用多分类交叉熵函数；

首先进行深度学习模型初始化，选用‘glorot_uniform’方式进行深度学习模型的权重参数初始化，选用‘zeros’方式进行深度学习模型的偏置参数初始化。早停策略与优化算法相对应，初次训练使用Adam优化算法，学习率为0.001，此时早停策略使用的是Adam，验证集损失函数loss连续三次不再下降时停止训练；再次训练使用SGD优化算法，学习率为0.001，此时早停策略使用的是SGD，验证集损失函数loss连续5次不再下降即停止训练。需要注意的是，在训练刚开始时，前面几次的验证集损失函数loss无法进行早停策略判断，因此，若是初次训练，则默认第一批次和第二批次验证集损失函数是不满足早停策略的，使用优化器对深度学习模型进行参数调整；若是再次训练，则默认第一批次到第四批次验证集损失函数是不满足早停策略的，使用优化器对深度学习模型进行参数调整。

在训练过程中，训练样本会进行多轮训练，在每一轮训练过程中，训练样本的训练集训练完成后，都要用该训练样本中的验证集对训练结果进行验证，在训练样本结束训练后，将参数恢复至验证集损失函数loss最低时的参数，也就是第一次验证集loss上升时的前一轮训练结束的参数，因为在这之前验证集loss都是一直下降的。

训练集和样本集每一批次的数量为128或256。

如图9所示，基于SE卷积网络的乐器识别方法的系统，包括：

根据需要，本发明的乐器别方法可以在服务器或者其他具有计算能力的终端设备上部署对音频数据进行乐器识别的处理逻辑。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于SE卷积网络的乐器识别方法，其特征在于：包括如下步骤：

待识别数据预处理，将待识别音频文件转换为待识别自相关图谱；

待识别数据识别，将待识别自相关图谱输入预先构建的乐器识别模型进行识别，得到一个s行num_ins列的矩阵，其中s代表音乐被切分的片段数目，num_ins代表可识别的乐器种类数，其中，所述将待识别自相关图谱输入预先构建的乐器识别模型进行识别包括如下步骤：通过预先构建的乐器识别模型对待识别自相关图谱进行初步卷积计算，然后将卷积结果进行第一次最大池化处理，然后将第一次最大池化后的结果进行2次fire模块计算，将2次fire模块计算后的数据进行第二次最大池化处理，将第二次最大池化处理后的数据进行第三、第四次fire模块计算，第三、第四次fire模块计算后的数据进行第三次最大池化处理，第三次最大池化处理后的数据进行第五、第六次fire模块计算，第五、第六次fire模块计算后的数据进行一次卷积，然后对卷积后的数据进行批标准化，将标准化后的数据传输到SE模块进行处理，处理后的数据再依次进行卷积和批标准化，然后再将数据进行全局平均化，得到输出结果；

乐器解析，将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签，其中，所述将乐器识别模型的输出结果矩阵整合解析为自然语言表示的乐器标签包括如下步骤：在S所在的轴上将输出结果矩阵的行向量加起来，得到shape为(num_ins)的向量；对向量做归一化；将归一化后的数据与阈值进行比较，判断存在的乐器的种类，其中，S为采样率，所述阈值的取值范围为0.2至0.6。

2.根据权利要求1所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的将待识别音频文件转换为待识别自相关图谱包括如下子步骤：

将待识别音频文件解码为wave格式，并归一化至(-1～1)；

将wave格式的音频文件通过平均得到单声道的音频；

将单声道的音频降采样；

对降采样后的音频进行切段；

对切好的段进行自相关谱计算，得到自相关谱；

将自相关谱表示的频率转换为对数度量；

将对数度量的自相关谱中的数值归一化至(-1～1)。

3.根据权利要求2所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的自相关谱计算包括如下步骤：

对切段后的音频数据分帧；

对每个数据分帧的数据做窗函数运算；

4.根据权利要求2所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的将自相关谱表示的频率转换为对数度量包括如下步骤：

计算梅尔频率的滤波器组；

5.根据权利要求1所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的乐器识别模型的构建包括如下步骤：

训练样本预处理，将训练样本音频文件转换为训练样本自相关图谱，将音频标签转换为与音频文件对应的标签向量；

识别模型训练，将训练样本自相关图谱和音频文件对应的标签向量输入深度学习模型训练，得到乐器识别模型。

6.根据权利要求5所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的音频标签通过独热码转换为与音频对应的标签向量。

7.根据权利要求5所述的基于SE卷积网络的乐器识别方法，其特征在于：所述的将训练样本自相关图谱和音频文件对应的标签向量输入深度学习模型训练，得到乐器识别模型，包括：

将训练样本自相关图谱按训练集和验证集分割后输入深度学习模型训练，得到训练输出结果；

8.基于权利要求1-7中任意一项所述的基于SE卷积网络的乐器识别方法的系统，其特征在于：包括：

预处理模块，用于将待识别音频数据转换为待识别自相关图谱；

音频识别模块，用于将待识别自相关图谱输入预先构建的乐器识别模型进行识别，得到识别结果；