CN110111773A

CN110111773A - 基于卷积神经网络的音乐信号多乐器识别方法

Info

Publication number: CN110111773A
Application number: CN201910256905.8A
Authority: CN
Inventors: 丁泉龙; 李荣光; 韦岗; 曹燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-09
Anticipated expiration: 2039-04-01
Also published as: CN110111773B

Abstract

本发明公开了一种基于卷积神经网络的音乐信号多乐器识别方法，包括以下步骤：S1、对输入的音频提取两种特征：音高特征矩阵和基于音色的常数Q变换矩阵；S2、先按乐器族分类，包括管、弦、打击乐，将常数Q变换矩阵输入一级卷积神经网络得到分类矩阵，然后输入分类器得到粗分类结果，即所述乐器族类别；S3、在所述分类矩阵的基础上，结合音高矩阵，输入带有注意力网络的二级卷积神经网络中，得到细分结果，即具体某种乐器。其中，所述的注意力网络对不同谐波分配权重。本发明适用于音乐信息检索中乐器识别任务，可用于音乐自动转录中的乐器识别方法。

Description

基于卷积神经网络的音乐信号多乐器识别方法

技术领域

本发明涉及信号处理、多音高估计、卷积神经网络技术领域，具体涉及一种基于卷积神经网络的音乐信号多乐器识别方法。

背景技术

在歌曲中识别乐器在音乐信息检索(MIR)中有广泛应用，例如搜索具有特定乐器的歌曲或识别音频中某种乐器演奏的起止位置。该技术还有很多其他需求场景的应用，例如，音乐推荐方法可以受益于用户对某些乐器的偏好建模，并且音乐类型识别方法可以通过类型依赖的乐器信息来改进；还可用于复音音乐中的自动音乐转录，播放技术检测和音源分离等任务，其中对存在的特定乐器预先调节模型可能会提高其性能。乐感良好并接受专业训练的人可以很容易地识别音频中的乐器。但是，海量的乐曲不可能依靠人工去识别。随着人工智能和计算能力的发展，我们可以在音频文件中提取乐器的相应特征，训练高效的深度卷积网络来实现乐器的自动识别。

乐器识别根据音频类型可分为i)单音音频中(信号中只有一个乐器)的乐器识别和(ii)复音音频中的乐器识别。虽然单音音频中的乐器识别已经比较成熟，但是识别率最好也就是70％左右，而在复音音频中的乐器识别则更是一个难题。这是因为，不同的乐器类别中音色和表现风格存有巨大差异，而有些乐器却存有的感知相似性，另外复音音频中具有多个乐器在时间和频率上的混叠现象。

复音音乐信号的音乐识别，主要是使用信号处理领域的知识来设计音频特征的提取算法，并将这些特征提供给分类器。如，有研究者等组合了Mel频率倒谱系数(MFCC)和相位相关特征，并训练了高斯混合模型。也有研究者等使用稀疏编码进行特征提取和支持向量机进行分类器训练。

随着计算能力的提高和信号处理的发展，深度学习已经用于单音音频的乐器识别中。深度学习的深层体系结构可以通过端到端方式训练特征提取模型和分类模型来“学习”特征，从而导致比传统方法更高的准确性。例如，有研究者用深度学习来进行单乐器的识别，向卷积神经网络馈送原始音频波形作特征，利用MedleyDB数据集区分11种乐器，达到72％的准确率，相对原来传统的特征和分类器(如利用MFCC特征和随机森林分类器的识别率为64％)，提高了识别精度。上述方法只是利用音频的时域信号，也有基于音频信号频谱提取特征来深度学习进行识别。这些方法大多借鉴语音信号的处理方法，而没有考虑乐器的本质特征，如音高，音色等。

发明内容

本发明的目的是为了弥补现有技术中没有考虑乐器的音高和音色本质特征，识别精度不高等技术问题，提出一种基于卷积神经网络的音乐信号多乐器识别方法，该方法利用神经网络智能识别的特点，采用音频信号中乐器的音高特征矩阵和表征乐器音色特征的常数Q变换矩阵来作为神经网络模型的输入。另外，结合乐器族(管、弦、打击乐)之间，音色有明显的不同，弦乐在谐波频率点峰值明显且尖锐，管乐则相对平缓，打击乐的峰值则不明显甚至还出现非整数次谐波的特点，采用多分类任务级联的方式构建两级神经网络，第一级卷积神经网络先对Q变换矩阵进行多层卷积操作得到分类矩阵，利用这些分类矩阵进行乐器族的分类得到粗分类结果，在此基础上结合音高特征矩阵再进行第二级卷积神经网络构建，进一步对乐器种类进行细分，最后综合考虑粗分类和细分类的标签来进行识别，以提高识别精度。

本发明的目的可以通过采取如下技术方案达到：

一种基于卷积神经网络的音乐信号多乐器识别方法，包括以下步骤：

S1、对输入音频分别提取音高特征矩阵和基于音色的常数Q变换矩阵；

S2、将所述的常数Q变换矩阵输入一级卷积神经网络得到分类矩阵，然后输入分类器得到粗分类结果，所述的粗分类为乐器族类别，乐器族类别包括管、弦、打击乐；

S3、将所述的分类矩阵和音高特征矩阵，输入带有注意力网络的二级卷积神经网络中，得到细分类结果，即识别出具体乐器种类，其中，上述二级卷积神经网络中的注意力网络对不同谐波分配权重。

进一步地，所述的步骤S1中提取输入音频的音高特征矩阵的过程如下：

S101、对音频进行分帧和归一化，将音频帧划分为T_p段，每段记为x_t，有s个采样点

S102、把音频帧输入一组对数频域滤波器组，使其映射到对数频域，得到对数频率-时间矩阵，维数为n_p×T_p，该滤波器组由n_p个正弦和余弦滤波器组成，对数域频率范围为log f_L到log f_H，第i个正弦和余弦滤波器的参数为w_i,sin＝(sin 2πf_it₁,sin 2πf_it₂,......sin 2πf_it_s)，w_i,cos＝(cos 2πf_it₁,cos 2πf_it₂,......cos 2πf_it_s)，其中时间点位置t₁,t₂,......t_s由每个音频帧的分段的采样点位置确定，x_t中的元素表示经过归一化的采样点的幅值；

假设某段x_t分别与w_i,sin和w_i,cos计算内积并且将内积值的平方相加得到

该值为第i个滤波器的输出，那么有n_p个滤波器，得到即对数频率-时间矩阵中的一列，音频帧有T_p段，得到n_p×T_p的对数频率-时间矩阵；

S103、对所述的对数频率-时间矩阵沿对数频率轴作一维卷积操作得到对数频率-时间-通道的张量，采用一组不同的一维卷积核，每个卷积核卷积操作得到新的矩阵映射为一个通道，若有c₁个卷积核则有c₁个通道；

S104、对所述的对数频率-时间-通道的张量沿对数频率轴作二维卷积操作得到对数频率-通道矩阵，采用一组不同的二维卷积核，采用全连接的方式，即卷积核大小等于时间段数×通道数，每个卷积核卷积操作得到新的矩阵映射为一个通道，若有c₂个卷积核则该二维卷积操作有c₂个通道；

S105、对所述的对数频率-通道矩阵沿通道轴全连接到线性分类器作分类，得到该音频帧的音高识别矢量，假设这一帧有m₁个音符，音高识别矢量有m₁个有效的元素，用1来表征，表示有相应对数频率所对应的音符，其他没有的音符用0表征；

S106、对给定音频段进行分帧后，每个音频帧分别进行以上步骤S101至步骤S105的操作得到音高特征矩阵，记为P₀，若假设需要识别的音符集有M_p个音符，音频段分成N_p帧，则该音高特征矩阵大小为M_p×N_p，里面的元素值为1或者0，表示对应频率的音符出现的有无，即是表征音符的活跃程度。

进一步地，所述的步骤S1中提取输入音频的基于音色的常数Q变换矩阵的过程如下：

S111、确定常数Q变换的参数，上述参数包括：品质因子Q₀、时频矩阵上第k行所代表的频率f_k，即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k]，根据十二平均律的乐理知识，定义品质因子Q₀＝C，为常数；时频矩阵上第k行所代表的频率f_min为乐器演奏的最低频率；由(Q₀为常数，不因f_k改变)可得第k个滤波器的带宽品质因子Q确定后，窗口长度其中f_s为取样频率，所以频率越高，窗口长度越短；

S112、通过常数Q变换计算，得到基于音色的常数Q变换矩阵,过程如下：给定长度的音频段，采样率为f_s，音频段进行分帧后，每个音频帧都根据常数Q变换的参数计算常数Q变换，对整个音频段处理得到时频矩阵X即为基于音色的常数Q变换矩阵，将常数Q变换视为M_q个滤波器，音频段分成T_q帧，则该矩阵大小为M_q×T_q。

进一步地，所述的一级卷积神经网络的结构为依次连接的批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层；

其中，所述的残差块包括两部分，一部分为依次连接的批量标准化层、卷积层、批量标准化层、激活函数层、卷积层、批量标准化层；另一部分为一层卷积层，残差块的输入分别进入这两部分得到输出，两部分的输出求和作为残差块的最终输出。

进一步地，所述的步骤S2过程如下：

S21、把特征提取得到的基于音色的常数Q变换矩阵X作为输入特征，输入到一级卷积神经网络得到分类矩阵，记为K；

S22、把步骤S21中得到的分类矩阵K全连接到线性分类器中，得到乐器族类别的粗分类结果。

进一步地，所述的二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层，该卷积层的输出分别输入到注意力网络和依次连接的卷积层和SIGMOID函数层，得到两个输出进行加权处理得到网络的最终输出。

进一步地，所述的步骤S3过程如下：

S31、对从特征提取得到的音高特征矩阵P₀，构造N个谐波映射矩阵H_n，n＝1,2,......N，H_n的构造具体如下：将音高特征矩阵P₀中的每一帧所对应的最小有效频率f₀向上移动至相应(n+1)次倍频，得到谐波映射P_n，即：只有当该频率比该帧的有效频率f0大(n+1)倍时，所得到的谐波映射P_n中的有效元素才保留，频率比该帧的频率(n+1)f₀小的，都置为0；然后，通过P₀，P₁，......P_n，计算H_n＝P₀+P₁+...+P_n；

S32、拼接分类矩阵K和矩阵H_n，输入到依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层得到一系列矩阵，过程如下：将分类矩阵K沿对数频率轴分别和H₁，H₂，......H_N拼接，分别记为T₁，T₂，......T_N，作为上述依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层的输入矩阵，输出N个维数相同的矩阵，记为R₁，R₂，......R_N；

S33、将所述的N个矩阵_R1，_R2，......_RN同时输入到依次连接的卷积层和SIGMOID函数层得到N个识别矩阵

S34、将所述的_N个矩阵R₁，R₂，......R_N同时输入到注意力网络，输出各识别矩阵的注意力权重即N个注意力权重

S35、对得到的识别矩阵和注意力权重进行加权求和，最后得到的乐器种类-时间序列矩阵为

进一步地，所述的注意力网络的结构为依次连接的卷积层、全连接层、标准化层。

进一步地，所述的步骤S34具体如下：

S341、构造注意力矢量，将N个矩阵R₁，R₂，......R_N分别输入到卷积核大小为T_l×1的卷积层作卷积操作，其中，T_l为矩阵R_N的列数，得到矢量r₁，r₂，......r_N,输入全连接层v_n＝f_att(r_n；θ_att)得到注意力矢量其中θ_att为全连接层f_att的参数，注意力矢量大小为M×1；

S342、计算注意力权重，注意力矢量输入到标准化层，通过在N个注意力矢量的每个分量m上使用指数标准化函数来标准化v_n，然后通过对M个维度求和来计算注意力得分，即是通过下式计算出a_n

再通过对an指数归一化得到注意力权重即

本发明具有如下的优点及效果：

1)采用音高特征矩阵作为神经网络的输入特征。不同乐器具有不同的音高范围和不同数目的基音，每个基音对应一个基频，代表音高。音高特征还可根据确定的基频快速捕获谐波位置，获得谐波的结构，还能利于定位起止帧和结束帧，能捕获到基频，说明是非静止音。

2)采用基于音色的常数Q变换矩阵来表征乐器的音色特征，音色反映到信号领域是不同的乐器信号具有不同谐波结构和能量分布，基于音色的常数Q变换矩阵可以捕获乐器的能量分布，另外常数Q变换时频变换避免了时频分辨率均匀的缺点，采用对数频率标度，更接近与人耳听觉方法，在低频有更高的频率分辨率来分解相近的音符，在高频有更高的时间分辨率来跟踪快速变化的谐波。

3)卷积神经网络模型中加入的注意力网络可以根据输入特征来侧重关注乐器不同阶数的谐波，提升整体准确率。

4)识别过程分为两步，先按乐器族进行粗分类，在此分类基础上再进行乐器类别的细分。在训练时，构建优化模型参数的目标函数，综合利用了乐器族粗分类的标签和乐器种类细分类的标签，使其学习到针对粗分类和细分类结果的优化模型参数。这符合乐器分类的一般认知，防止识别模型的欠拟合，减少识别误差。

附图说明

图1是本发明中基于卷积神经网络的音乐信号多乐器识别流程图；

图2是本发明中提取音高特征矩阵的流程图；

图3是本发明中步骤S2的神经网络框架；

图4是本发明中卷积神经网络模型中残差块的网络流程图；

图5是本发明中步骤S3的神经网络框架。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例提供了一种基于卷积神经网络的音乐信号多乐器识别方法，采用最近发布的MusicNet数据集。该数据集包含了由10位作曲家提供的330张免费授权音乐录音，其中有超过100万个带注释的音高和34小时室内音乐表演的乐器标签。训练和测试集分别为320和10个音频剪辑。由于测试集中只有七种不同的乐器，该实施例只考虑识别这七种乐器。它们是钢琴，小提琴，电子鼓，爵士鼓，单簧管，巴松管和号角。对于训练集，不排除列表中没有的乐器的声音，但这些乐器没有标注。不同的剪辑使用不同数量的乐器。为方便起见，每个音频剪辑切分为4秒片段。使用这些片段作为模型的输入。对每个切分片段的最后一段进行零填充(即添加静音)，使其也为4秒。

一种基于卷积神经网络的音乐信号多乐器识别方法，如图1所示，该方法包括以下步骤：

S3、将所述的分类矩阵和音高特征矩阵，输入带有注意力网络的二级卷积神经网络中，得到细分类结果，即具体某种乐器；其中，上述二级卷积神经网络中的注意力网络可以对不同谐波分配权重。

本实施例中，音高特征矩阵描述乐器的音高属性。不同乐器有不同数目的基音，每个基音对应一个基频，代表音高。音高特征矩阵列代表时间，行代表对数频率，矩阵中的值代表音符的活跃程度。

如图2所示，本实施例中步骤S1的音高特征提取过程如下：

S101、对音频分帧和归一化后，将音频帧划分为T_p＝25段，每段记为x_t，有s个采样点x_t作为音频帧的分段，采样频率为44.1kHz。因此一帧包含16384个采样点为一帧，分段窗口为s＝4096个采样点，窗口移动的步幅为512个采样点，于是每帧产生(16384-4096)/512+1＝25个x_t。

采用每帧包含16384个采样点，是考虑了较短帧与较长帧之间的权衡，较短帧可能错过分类任务的重要上下文关联信息；较长帧在计算成本上具有递减收益，因为非常长的帧会导致模型中的参数数量增加。

S102、把音频帧通过一组对数频域滤波器组，使其映射到对数频域，得到对数频率-时间矩阵(n_p×T_p)。该滤波器组由n_p＝512个正弦和余弦滤波器组成，对数域频率范围为log f_L到log f_H(f_L＝20Hz，f_H＝6kHz)，第i个正弦和余弦滤波器的参数为w_i,sin＝(sin 2πf_it₁,sin 2πf_it₂,......sin 2πf_it_s)，w_i,cos＝(cos 2πf_it₁,cos 2πf_it₂,......cos 2πf_it_s)，其中时间点位置t₁,t₂,......t_s由每个音频帧的分段的采样点位置确定，x_t中的元素表示经过归一化的采样点的幅值。

该值为第i个滤波器的输出，那么有n_p个滤波器，得到即对数频率-时间矩阵中的一列。音频帧有T_p段，可以得到n_p×T_p(512×25)的对数频率-时间矩阵。

S103、对所述的对数频率-时间矩阵(512×25)沿对数频率轴作一维卷积操作得到对数频率-时间-通道的张量，采用一组不同的一维卷积核(大小为128×1)，每个卷积核卷积操作得到新的矩阵映射为一个通道，若有c₁个卷积核则有c₁个通道，该步操作后得到128×25×c₁的对数频率-时间-通道的张量。

S104、对所述的对数频率-时间-通道的张量(128×25×c₁)沿对数频率轴作二维卷积操作得到对数频率-通道矩阵，采用一组不同的二维卷积核(大小为1×25×c₂)，采用全连接的方式，即卷积核大小等于时间段数×通道数，每个卷积核卷积操作得到新的矩阵映射为一个通道，若有c₂个卷积核则该二维卷积操作有c₂个通道。该步操作后得到128×c₂的对数频率-通道矩阵。

S105、对所述的对数频率-通道矩阵沿通道轴全连接到线性分类器作分类，得到该音频帧的音高识别矢量，假设这一帧有m₁个音符，音高识别矢量有m₁个有效的元素，用1来表征，表示有相应对数频率所对应的音符，其他没有的音符用0表征。

S106、对给定音频段进行分帧后，每个音频帧分别进行以上S101到S105的操作得到音高特征矩阵，记为P₀。若假设需要识别的音符集有M_p＝128个音符，音频段分成了N_p＝10帧，则矩阵大小为128×10，，里面的元素值为1或者0，表示对应频率的音符出现的有无，即是表征音符的活跃程度。

基于音色的常数Q变换矩阵表征了基频及谐波上的的能量分布，可反映乐器的音色特征。长度为N_t的有限长序列x[n]的常数Q变换表达式为

其中，N[k]为窗口长度，W_N[k](n)为对应窗长的窗函数，品质因子Q为自定义的常数，k是第k个频段的序号。如果把常数Q变换视为M_q个滤波器，上述第k个频段就是指第k个滤波器，其中心频率为f_k，带宽为δ_fk，也是时频矩阵上第k行所代表的频率。

基于本发明的乐器识别，根据乐理中的十二平均律，常数Q变换的M个滤波器组以十二平均律来设计。以一个八度音程为例，十二平均律表明，一个音与其高八度的的音频率相差两倍，以比率将一个八度平均分为十二等分(十二个半音)。按照此乐理，设置第k个滤波器的中心频率b取为12。可以看作每个八度音程用十二个滤波器把每个八度中十二个半音划分到12格。f_min为乐器所能演奏的音符中基频最小的那个音符所对应的频率。钢琴在我们所识别的乐器类别中音域最宽，我们根据音域最广的钢琴的音高范围(27Hz到4kHz)设置M_q＝88个滤波器(7个完整的八度音程有十二个半音，一个不完整的八度音程有4个半音)。

常数Q变换矩阵中的列代表时间，行代表对数频率，矩阵中的值表示某时间窗某对数频率段的能量大小，步骤S1中基于音色的常数Q变换矩阵提取过程如下：

S111、根据(公式2)，确定常数Q变换的参数，这些参数包括：品质因子Q₀、时频矩阵上第k行所代表的频率f_k，即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k]；根据所述乐理知识，定义品质因子Q0＝C，为常数，时频矩阵上第k行所代表的频率f_min为乐器演奏的最低频率。由(Q₀为常数，不因f_k改变)可得第k个滤波器的带宽品质因子Q确定后，窗口长度其中f_s为取样频率，所以频率越高，窗口长度越短。

S112、通过常数Q变换计算，得到基于音色的常数Q变换矩阵。过程如下：给定长度的音频段，采样率f_s＝44.1kHz，音频段进行分帧后，每个音频帧都根据(公式2)及S111确定好的参数计算常数Q变换，对整个音频段处理会得到时频矩阵X即为基于音色的常数Q变换矩阵。若常数Q变换视为M_q＝88个滤波器，音频段分成了T_q＝86帧，则该矩阵大小为88×86。

本实施例中，步骤S2的过程如下：

S21、把特征提取得到的常数Q变换矩阵X作为输入特征，输入到一级卷积神经网络得到分类矩阵，记为K。

其中，如图3所示，所述一级卷积神经网络包括：批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层。

其中，如图4所示，所述的残差块包括两部分，一部分为依次连接的批量标准化层、卷积层、批量标准化层、激活函数层、卷积层、批量标准化层；另一部分为一层卷积层，残差块的输入分别进入这两部分得到输出。两部分的输出求和作为残差块的最终输出。

上述各层的作用简述如下：a)批量标准化层：输入到该层的值会被规整为均值为0，方差为1的正态分布的值，再加上可调节的缩放和平移。b)卷积层：使用一系列的卷积核将输入的矩阵做卷积操作到新的矩阵。c)残差块：输入到该层的矩阵分为两路，一路输入到多层网络中，另一路经过一层卷积层后，两路输出求和叠加作残差块的最终输出。d)最大池化层：输入的矩阵划分为一定数量的池化区域，取该区域内的最大值作该区域的输出值，起到矩阵降维和压缩数据的作用。e)激活函数层：输入信号小于0时，输出都是0，大于等于0时，输出等于输入。

S22、把S21中得到的分类矩阵K全连接到线性分类器中，得到乐器族的粗分类结果。

在S21中一级卷积神经网络的卷积层全部使用一维卷积(沿时间)而不是二维卷积。虽然二维卷积将输入数据分析为块并在频谱和时间维度上进行卷积，但一维卷积(沿时间)可以更好地捕获每个时间帧中的频率和音频信息。

如图5所示，本实施例中步骤S3中二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层，该卷积层的输出同时输入到注意力网络和依次连接的卷积层和SIGMOID函数层，得到两个输出进行加权处理得到网络的最终输出，步骤S3的过程如下：

S31、对从特征提取得到的音高特征矩阵P₀，构造N(这里N取5)个谐波映射矩阵H_n，(n＝1,2,......N)，以提高高频的权重，弥补基于音色的常数Q变换矩阵高频分辨率的不足；H_n的的构造具体如下：将音高特征矩阵P₀中的每一帧所对应的最小有效频率f₀向上移动至相应(n+1)次倍频，得到谐波映射P_n；即：只有当该频率比该帧的有效频率f₀大(n+1)倍时，所得到的谐波映射P_n中的有效元素才保留，频率比该帧的频率(n+1)f₀小的，都置为0；然后，通过P₀，P₁，......P_n，计算H_n＝P₀+P₁+...+P_n。

S32、拼接分类矩阵K和矩阵H_n，输入到依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层得到一系列矩阵。过程如下：将分类矩阵K沿对数频率轴分别和H₁，H₂，......H_N拼接，分别记为T₁，T₂，......T_N，作为上述依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层的输入矩阵。由于使用一维卷积，输出为N个维数相同的矩阵，记为R₁，R₂，......R_N。

S33、将所述的N个矩阵R₁，R₂，......R_N同时输入到依次连接的卷积层和SIGMOID函数层得到N个识别矩阵

S34、将所述的N个矩阵R₁，R₂，......R_N同时输入到注意力网络，输出各识别矩阵的注意力权重即N个注意力权重

S35、对得到的识别矩阵和的注意力权重加权求和，最后得到的乐器种类-时间序列矩阵为

其中，所述的步骤S34中注意力网络的结构为依次连接的卷积层、全连接层、标准化层，所述的步骤S34具体如下：

1)、构造注意力矢量，将N个矩阵R₁，R₂，......R_N分别输入到卷积核大小为T_l×1的卷积层作卷积操作，其中，T_l为矩阵R_N的列数，得到矢量r₁，r₂，......r_N,输入全连接层v_n＝f_att(r_n；θ_att)得到注意力矢量(这里M取7)，其中θ_att为全连接层f_att的参数，注意力矢量大小为M×1；

2)、计算注意力权重，注意力矢量输入到标准化层，通过在N个注意力矢量的每个分量m上使用指数标准化函数来标准化v_n，然后通过对M个维度求和来计算注意力得分，即是通过下式计算出a_n

再通过对an指数归一化得到注意力权重即

识别过程所用的网络模型在训练时使用二元交叉熵作损失函数。多任务学习的总损失函数为l＝l₁+l₂，其中

d_s和分别是每个时间帧的识别标签和真实标签，s表示第s种乐器族(管、弦、打击乐)，

其中，y_k和分别是每个时间帧的识别标签和真实标签，k表示第k种乐器。记模型中一级卷积神经网络的参数为θ₁，二级卷积神经网络中的参数为θ₂，记θ＝{θ₁,θ₂}。通过目标函数

来优化参数集θ＝{θ₁,θ₂}，其中使用上标i来索引训练集中的音频样本片段，Γ(θ)是一个正则化函数，用来避免过度拟合。优化方式使用动量为0.9的随机梯度下降，小批量大小为64，初始学习率为0.1。将学习率每30次除以一次10，并将最大训练次数设置为100，权重衰减设置为10^-4。

综上所述，本发明针对复音音频对多乐器进行识别，从乐器的音高，音色等本质特征出发，同时考虑音频信号的旋律和人耳的听觉特性方面来提取特征，指引神经网络的参数向乐器的特性方向去学习优化。

所以本发明选取的特征之一是乐器的音高特征，这是因为1)不同乐器有不同数目的基音，每个基音对应一个基频，代表音高，如钢琴能发出88个不同基音(音高)的音符；2)不同的乐器具有不同的音高范围，如钢琴88个琴键的音高范围为27Hz到4.1kHz；3)有助于捕获谐波结构，谐波就是基频对应的整数倍频率，找到基音，就能快速捕获谐波位置，获得谐波的结构；4)有利于定位起止帧和结束帧，能捕获到基频，说明是非静止音，显然容易判断音频信号的起始和结束。所以本发明考虑在用神经网络训练乐器识别模型时，先对音频信号进行多音高估计，以此结果作为模型的特征输入，而非直接的音频信号输入。

本发明选取的另外一个特征是乐器的音色特征。音色反映到信号领域是不同的乐器信号具有不同谐波结构和能量分布，本发明用基于音色的常数Q变换矩阵来反映乐器的音色特征，以常数Q变换矩阵作为模型的特征输入。常数Q变换是一种特殊的小波变换，既避免时频变换时频分辨率均匀的缺点，又相对小波变换来说有确定的时频分辨率(由常数Q变换中的参数Q确定)，在低频有更高的频率分辨率来分解相近的音符，在高频有更高的时间分辨率来跟踪快速变化的谐波。这和人耳的感知能力与频率不成线性关系，对低频信号比高频信号更敏感的听觉特性是一致的。

进一步地，乐器族(管、弦、打击乐)之间，音色有明显的不同，反映在频谱上，弦乐在谐波频率点峰值明显且尖锐，管乐则相对平缓，打击乐的峰值则不明显甚至还出现非整数次谐波。那么乐器族之间的分类则相对比较容易实现。

所以，在网络架构上，本发明考虑采用多分类任务级联方法，即先学习对乐器族(管、弦、打击乐)粗分类，再对各种弦乐器、管乐器、打击乐器细分类，符合乐器分类的一般认知，这样可以防止乐器识别模型的欠拟合。在已知乐器族类别的基础上，输入音高矩阵到带有注意力网络(对不同谐波分配权重)的深度网络中，得到细分结果即具体某种乐器。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的步骤S1中提取输入音频的音高特征矩阵的过程如下：

S102、把音频帧输入一组对数频域滤波器组，使其映射到对数频域，得到对数频率-时间矩阵，维数为n_p×T_p，该滤波器组由n_p个正弦和余弦滤波器组成，对数域频率范围为logf_L到log f_H，第i个正弦和余弦滤波器的参数为w_i,sin＝(sin2πf_it₁,sin2πf_it₂,......sin2πf_it_s)，w_i,cos＝(cos2πf_it₁,cos2πf_it₂,......cos2πf_it_s)，其中时间点位置t₁,t₂,......t_s由每个音频帧的分段的采样点位置确定，x_t中的元素表示经过归一化的采样点的幅值；

3.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的步骤S1中提取输入音频的基于音色的常数Q变换矩阵的过程如下：

S111、确定常数Q变换的参数，上述参数包括：品质因子Q₀、时频矩阵上第k行所代表的频率f_k，即第k个滤波器的中心频率、以及第k个滤波器的带宽为窗口长度N[k]，根据十二平均律的乐理知识，定义品质因子Q₀＝C，为常数；时频矩阵上第k行所代表的频率f_min为乐器演奏的最低频率；由可得第k个滤波器的带宽品质因子Q确定后，窗口长度其中f_s为取样频率，所以频率越高，窗口长度越短；

4.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的一级卷积神经网络的结构为依次连接的批量标准化层、卷积层、残差块、最大池化层、残差块、最大池化层；

5.根据权利要求4所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的步骤S2过程如下：

6.根据权利要求1所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的二级卷积神经网络的结构为依次连接的批量标准化层、RELU函数层、使用一维卷积核的卷积层，该卷积层的输出分别输入到注意力网络和依次连接的卷积层和SIGMOID函数层，得到两个输出进行加权处理得到网络的最终输出。

7.根据权利要求6所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的步骤S3过程如下：

S31、对从特征提取得到的音高特征矩阵P₀，构造N个谐波映射矩阵H_n，n＝1,2,......N，H_n的构造具体如下：将音高特征矩阵P₀中的每一帧所对应的最小有效频率f₀向上移动至相应(n+1)次倍频，得到谐波映射P_n，即：只有当该频率比该帧的有效频率f₀大(n+1)倍时，所得到的谐波映射P_n中的有效元素才保留，频率比该帧的频率(n+1)f₀小的，都置为0；然后，通过P₀，P₁，......P_n，计算H_n＝P₀+P₁+...+P_n；

8.根据权利要求7所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的注意力网络的结构为依次连接的卷积层、全连接层、标准化层。

9.根据权利要求8所述的基于卷积神经网络的音乐信号多乐器识别方法，其特征在于，所述的步骤S34具体如下：

再通过对a_n指数归一化得到注意力权重即