CN117636900B

CN117636900B - 一种基于音频特征形状匹配的乐器演奏质量评价方法

Info

Publication number: CN117636900B
Application number: CN202311644692.9A
Authority: CN
Inventors: 张超; 林锦卿; 叶仕承; 林凯欣
Original assignee: Guangdong Xinyu Information Technology Co ltd
Current assignee: Guangdong Xinyu Information Technology Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-05-07
Anticipated expiration: 2043-12-04
Also published as: CN117636900A

Abstract

本发明涉及一种基于音频特征形状匹配的乐器演奏质量评价方法，属于计算机技术领域，包括以下步骤：对乐器演奏的音频进行演奏难度评级；声纹提取和计算相似度：收集乐器演奏的数据，通过aukit处理音频并进行降噪和去除静音；对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱；提取音频特征时；计算音频特征灰度图的相似度；节奏检测和旋律检测：提取不同乐器的演奏节奏特征和旋律特征；获取试卷评分：根据条件评价和相似性对比融合，同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出，获取整体分数。本发明通过评估音频的难度系数和音频节奏、旋律相似度获取整体评分，使得节奏和旋律提取更加稳定和鲁棒。

Description

一种基于音频特征形状匹配的乐器演奏质量评价方法

技术领域

本发明属于计算机技术领域，具体涉及一种基于音频特征形状匹配的乐器演奏质量评价方法。

背景技术

乐器演奏从节奏感、音准、技术难度、表现力、音色等多个方面来考核学生的乐器演奏功底，目前乐器演奏的好坏大多通过人为的方式进行判断，其判断结果受人为因素的影响较大；同时乐器随着演奏的时间变化会产生音准的偏差以及评分人员的状态，对于评分的准确性会降低。

为进一步提高乐器演奏考级的科学性和权威性，建立公正公平的考评机制，开发智能音乐演奏评价系统势在必行，该系统可以客观分析学员的演奏录音，通过对音频数据的处理分析评判演奏的节奏、音准、音色、谱子阅读、表达力等多个维度,并自动生成打分结果和考级建议，辅助教师更加准确地进行评价，提高评价效率，最大限度地减少主观因素对评分结果的影响，保证考级结果的公正公平，使每位学员都能获得公平对待、获得合理的学习评价和考核反馈。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种基于音频特征形状匹配的乐器演奏质量评价方法，通过评估音频的难度系数和音频节奏、旋律相似度获取整体评分，使得节奏和旋律提取更加稳定和鲁棒。

本发明的目的可以通过以下技术方案实现：

一种基于音频特征形状匹配的乐器演奏质量评价方法，包括以下步骤：

S1、评估乐器演奏难度：首先对乐器演奏的音频进行演奏难度评级，将评级的难度系数作为整体的基准系数；

S2、声纹提取和计算相似度，包括以下步骤：

S21、创建数据列表，收集乐器演奏的数据，通过aukit处理音频并进行降噪和去除静音；

S22、采用Librosa对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱，其尺度为257*257；

S23、采用改进的Resnet101自动学习关注音频的关键时频点提取音频特征时；

S24、采用形状匹配的方法计算音频特征灰度图的相似度；

S3、节奏检测和旋律检测：提取不同乐器的演奏节奏特征和旋律特征；

S4、获取试卷评分：根据条件评价和相似性对比融合，同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出，获取整体分数。

进一步地，所述步骤S1中，评估乐器演奏难度，包括以下步骤：

S11、建立一个包括乐器演奏音频数据的数据集，根据演奏难度对数据按进行标注；构建WaveNet模型，输入为乐器演奏音频波形，输出为对应的难度星级；

S12、模型通过编码器编码音频输入特征，然后输入到WaveNet模型的膨胀因果卷积层堆叠中学习音频的时序相关信息；

S13、在卷积层之间加入条件化特征，提供有关演奏难度的额外信息，最终分类器输出预测的难度等级；

S14、通过训练模型，学习音频波形与演奏难度之间的对应关系。

进一步地，所述步骤S13中，WaveNet模型额外信息添加方式包括：

构建条件化向量，包括代表难度的特征；

在WaveNet模型的每个膨胀卷积层添加条件连接，将条件化向量输入到每个层；并将条件化向量映射到与膨胀卷积层输出相匹配的维度，然后加入到层输出中；

在模型训练时，除了音频输入和难度标签，还需同时提供对应的条件化特征作为模型输入；

引入线性投影层或多层感知器，将乐器演奏难度条件化特征转换成更抽象的表征。

进一步地，所述步骤S23中，Resnet101的改进包括以下步骤：

时域注意力：在Residual块之间添加时域注意力模块，通过时域注意力模块对时域上的输入特征生成一组权重，对时域上不同时间步的特征进行校准，时域权重通过时间步上特征的全局平均池化并Dense层获得，权重与Residual块的输入特征做点积，实现时域上的动态特征选择；

频域注意力：对每个频带生成权重，然后与输入做点积操作，频域权重通过对频带上特征做自注意力机制来学习；

时频注意力：同时加入时域和频域的双向注意力模块，实现对时域和频域的动态特征选择，提供时间和频率上的上下文，生成二维权重矩阵，选择关注的时频点；

层次式注意力：在网络的多个层次添加注意力模块，形成层次化的时频注意力，分级关注音频特征，最后提取出1024*n的音频特征，其中n为音乐的切片序列，并将1024*n的音频特征进行尺寸变换，归一成512*512的灰度图。

进一步地，所述步骤S24中，计算音频特征灰度图的相似度包括以下步骤：

边界匹配：检测灰度图的边界，使用距离变换计算两个边界的距离，距离越近相似度越高；

区域匹配：提取像素值较暗的声纹区域，计算两图重叠区域的面积，重叠面积占比越大则相似度越高；

轮廓匹配：提取声纹灰度图的轮廓线，计算两图轮廓线之间的关联性，确定匹配对数，匹配对数越多相似度越高。

进一步地，所述步骤S3中，节奏检测和旋律检测包括以下步骤：

S31、在vggish输入层前加入预处理模块，提取音频的节拍、拍号信息以及旋律MIDI信息，提供节奏特征和旋律特征；

S32、在卷积块之间加入循环神经网络或者时序卷积层，学习音频的节奏时序模式；

S33、调整卷积核大小，使用跨度更长的7*7的空洞卷积核，捕捉较长的音乐节奏模式和旋律模式；

S34、在模型输出端，加入基于强化学习的节奏评估模块，设置节奏和旋律预测作为环境、错误预测作为负反馈，训练模型优化节奏评估；

S35、构建多任务学习框架，同时进行音乐时序建模、节奏预测和音乐风格分类，共享底层特征；

S36、收集包括拍号、速度变化丰富的数据集，并应用数据增强技术扩充训练数据；

S37、在训练目标中加入对抽节奏特征的一致性约束损失，增强特征的鉴别性。

进一步地，所述步骤S4中，获取试卷评分的整体评价公式为：

S＝τ*(0.5*M+0.25*K+0.25*L)

其中，τ为待检测音频相对母案音频的难度系数比值，M为待检测音频与母案音频的相似度，K为待检测的音频的节奏与母案音频的相似度，L为待检测音频的旋律与母案的相似度。

本发明的有益效果为：

本发明改进了WaveNet来针对多种类型的乐器演奏音频进行难度系数评估，具有广泛的适应性和鲁棒性；通过采用改进的Resnet结构，专门适应乐器音频进行特征提取，并利用二维的灰度形状匹配评价方法来对特征图进行多维评价，真实反应了乐器演奏的客观评价指标。

本发明改进了vggish方法，专门针对多种类型的乐器演奏音频进行节奏和旋律提取，使得节奏和旋律提取更加稳定和鲁棒，在考虑量化的同时又对其本身的艺术性进行更大程度的考量和还原。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明实施例提供的一种基于音频特征形状匹配的乐器演奏质量评价方法的架构示意图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

请参阅图1，一种基于音频特征形状匹配的乐器演奏质量评价方法，包括以下步骤：

S1、评估乐器演奏难度：由于评估学生乐器演奏的乐器种类较多，首先对乐器演奏的音频进行演奏难度评级，评级的难度系数作为整体的基准系数，具体包括以下步骤：

S11、建立一个包含乐器演奏音频数据的数据集，根据演奏难度对数据按进行标注，例如1-5星等级；构建WaveNet模型，输入为乐器演奏音频波形，输出为对应的难度星级。

S12、模型通过编码器编码音频输入特征，然后输入到WaveNet的膨胀因果卷积层堆叠中学习音频的时序相关信息。

S13、在卷积层之间加入条件化特征，提供有关演奏难度的额外信息，最终分类器输出预测的难度等级。

需说明的是，WaveNet额外信息添加方式包括：

(1)构建条件化向量，包含代表难度的特征。例如音高、节奏、演奏技巧等的数字特征。

(2)在WaveNet模型的每个膨胀卷积层添加条件连接(conditional connection)，将条件化向量输入到每个层；并将条件化向量映射到与膨胀卷积层输出相匹配的维度，然后加入到层输出中；其中加入的方式有直接相加、拼接等。

(3)在模型训练时，除了音频输入和难度标签，还需同时提供对应的条件化特征作为模型输入。

(4)引入线性投影层或多层感知器等，将乐器演奏难度条件化特征转换成更抽象的表征，综合使用条件连接与层次化设计，可以让模型学习音频与乐器演奏难度条件化特征之间的交互，从而更好地评估乐器演奏的难度水平。

S2、计算声纹提取和相似度，包括以下步骤：

S21、创建数据列表，本实施例中数据集包括钢琴、吉他、小提琴、萨克斯等25000+条乐器演奏数据，通过aukit处理音频并进行降噪和去除静音。

S22、采用Librosa对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱，其尺度为257*257。

S23、改进Resnet101，使其在提取音频特征时自动学习关注音频的关键时频点。具体策略如下：

(1)时域注意力：在时域上，在Residual块之间添加时域注意力模块。该模块对时域上的输入特征生成一组权重，对时域上不同时间步的特征进行校准。时域权重可以通过时间步上特征的全局平均池化并Dense层获得。权重与Residual块的输入特征做点积，实现时域上的动态特征选择。

(2)频域注意力：针对输入的梅尔谱图实现频域注意力。对每个频带生成权重，然后与输入做点积操作。频域权重可以通过对频带上特征做自注意力机制来学习。

(3)时频注意力：同时加入时域和频域的双向注意力模块，实现对时域和频域的动态特征选择。提供时间和频率上的上下文，生成二维权重矩阵，选择关注的时频点。

(4)层次式注意力：在网络的多个层次添加注意力模块，形成层次化的时频注意力，分级关注音频特征。最后提取出1024*n的音频特征，其中n为音乐的切片序列，并将1024*n的音频特征进行尺寸变换，归一成512*512的灰度图。

S24、采用形状匹配的方法计算音频特征灰度图的相似度：

(1)边界匹配：检测灰度图的边界，使用距离变换计算两个边界的距离，距离越近相似度越高。

(2)区域匹配：提取像素值较暗的声纹主要区域，计算两图重叠区域的面积，重叠面积占比越大则相似度越高。

(3)轮廓匹配：提取声纹灰度图的轮廓线，计算两图轮廓线之间的关联性，确定匹配对数，匹配对数越多相似度越高。综上三个匹配方式给予一定的权重进行结合得到最后的相似度。

S3、节奏检测和旋律检测：由于学生演奏的作品有多类乐器演奏的风格需要评判，各种乐器的节奏特征不一，旋律基准也不一，为了解决该问题，本实施例对vggish进行改进，以提取不同乐器的演奏节奏特征和旋律特征。包括以下步骤：

S31、在vggish输入层前加入预处理模块，提取音频的节拍、拍号信息以及旋律MIDI信息，提供节奏特征和旋律特征。可以使用基于自回归模型的拍号和旋律检测等方法。

S32、在卷积块之间加入循环神经网络(RNN)或者时序卷积层，以学习音频的节奏时序模式。这可以帮助模型学习音符时值和节奏的长时相关性。

S33、调整卷积核大小，使用跨度更长的7*7的空洞卷积核，以捕捉较长的音乐节奏模式和旋律模式。

S34、在模型输出端，加入基于强化学习的节奏评估模块，设置节奏和旋律预测作为环境，错误预测作为负反馈，训练模型优化节奏评估。

S35、构建多任务学习框架，同时进行音乐时序建模、节奏预测和音乐风格分类，共享底层特征提高对节奏的学习。

S36、收集含拍号、速度变化等丰富节奏变化的数据集，并应用数据增强技术扩充训练数据。

通过上述改进，可以使模型更好地建模音乐节奏和音乐旋律，并可直接评估乐器演奏的节奏把握程度和旋律的演绎程度，提升自动评判的效果。最后将节奏分数和旋律分数进行输出。

S4、获取试卷评分：根据条件评价和相似性对比融合以及结合S1中的难度系数、S2中整体相似度、S3中乐器演奏的节奏和旋律的评价输出，获取整体分数，整体评价公式如下：

S＝τ*(0.5*M+0.25*K+0.25*L)

其中τ为待检测音频相对母案音频的难度系数比值，M为待检测音频与母案音频的相似度，K为待检测的音频的节奏与母案音频的相似度，L为待检测音频的旋律与母案的相似度。

本发明的有益效果：

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于音频特征形状匹配的乐器演奏质量评价方法，其特征在于：包括以下步骤：

S2、音频特征提取和计算相似度，包括以下步骤：

S23、采用改进的Resnet101自动学习关注音频的关键时频点提取音频特征；

S24、采用形状匹配的方法计算音频特征灰度图的相似度；

S4、获取试卷评分：将条件评价和相似性进行对比融合，同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出，获取整体分数；

步骤S1中，评估乐器演奏难度，包括以下步骤：

S14、通过训练模型，学习音频波形与演奏难度之间的对应关系；

步骤S13中，WaveNet模型额外信息添加方式包括：

构建条件化向量，包括代表难度的特征；

引入线性投影层或多层感知器，将乐器演奏难度条件化特征转换成更抽象的表征；

步骤S23中，Resnet101的改进包括以下步骤：

时域注意力：在Residual块之间添加时域注意力模块，通过时域注意力模块对时域上的输入特征生成一组权重，对时域上不同时间步的特征进行校准，其中，时间权重是通过对时间步的特征进行全局平均池化并经过Dense层处理得到的；权重与Residual块的输入特征做点积，实现时域上的动态特征选择；

层次式注意力：在网络的多个层次添加注意力模块，形成层次化的时频注意力，分级关注音频特征，最后提取出1024*n的音频特征，其中n为音乐的切片序列，并将1024*n的音频特征进行尺寸变换，归一化成512*512的灰度图；

步骤S24中，计算音频特征灰度图的相似度包括以下步骤：

区域匹配：提取像素值较暗的音频特征区域，计算两图重叠区域的面积，重叠面积占比越大则相似度越高；

轮廓匹配：提取音频特征灰度图的轮廓线，计算两图轮廓线之间的关联性，确定匹配对数，匹配对数越多相似度越高；

步骤S3中，节奏检测和旋律检测包括以下步骤：

S34、在模型输出端，添加基于强化学习的节奏评估模块，将节奏和旋律预测设置为环境，将错误预测设为负反馈，以训练模型来优化节奏评估；

S37、在训练目标中加入对抽节奏特征的一致性约束损失，增强特征的鉴别性；

步骤S4中，获取试卷评分的整体评价公式为：

S＝τ*(0.5*M+0.25*K+0.25*L)

其中，τ为待检测音频相对母案音频的难度系数比值，M为待检测音频特征与母案音频特征的相似度，K为待检测音频的节奏与母案音频的节奏的相似度，L为待检测音频的旋律与母案音频的旋律的相似度。