CN117636900B - 一种基于音频特征形状匹配的乐器演奏质量评价方法 - Google Patents
一种基于音频特征形状匹配的乐器演奏质量评价方法 Download PDFInfo
- Publication number
- CN117636900B CN117636900B CN202311644692.9A CN202311644692A CN117636900B CN 117636900 B CN117636900 B CN 117636900B CN 202311644692 A CN202311644692 A CN 202311644692A CN 117636900 B CN117636900 B CN 117636900B
- Authority
- CN
- China
- Prior art keywords
- audio
- rhythm
- musical instrument
- melody
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 9
- 230000033764 rhythmic process Effects 0.000 claims abstract description 59
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 14
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000003750 conditioning effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000004927 fusion Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明涉及一种基于音频特征形状匹配的乐器演奏质量评价方法,属于计算机技术领域,包括以下步骤:对乐器演奏的音频进行演奏难度评级;声纹提取和计算相似度:收集乐器演奏的数据,通过aukit处理音频并进行降噪和去除静音;对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱;提取音频特征时;计算音频特征灰度图的相似度;节奏检测和旋律检测:提取不同乐器的演奏节奏特征和旋律特征;获取试卷评分:根据条件评价和相似性对比融合,同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出,获取整体分数。本发明通过评估音频的难度系数和音频节奏、旋律相似度获取整体评分,使得节奏和旋律提取更加稳定和鲁棒。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于音频特征形状匹配的乐器演奏质量评价方法。
背景技术
乐器演奏从节奏感、音准、技术难度、表现力、音色等多个方面来考核学生的乐器演奏功底,目前乐器演奏的好坏大多通过人为的方式进行判断,其判断结果受人为因素的影响较大;同时乐器随着演奏的时间变化会产生音准的偏差以及评分人员的状态,对于评分的准确性会降低。
为进一步提高乐器演奏考级的科学性和权威性,建立公正公平的考评机制,开发智能音乐演奏评价系统势在必行,该系统可以客观分析学员的演奏录音,通过对音频数据的处理分析评判演奏的节奏、音准、音色、谱子阅读、表达力等多个维度,并自动生成打分结果和考级建议,辅助教师更加准确地进行评价,提高评价效率,最大限度地减少主观因素对评分结果的影响,保证考级结果的公正公平,使每位学员都能获得公平对待、获得合理的学习评价和考核反馈。
发明内容
为解决现有技术中存在的上述问题,本发明提供了一种基于音频特征形状匹配的乐器演奏质量评价方法,通过评估音频的难度系数和音频节奏、旋律相似度获取整体评分,使得节奏和旋律提取更加稳定和鲁棒。
本发明的目的可以通过以下技术方案实现:
一种基于音频特征形状匹配的乐器演奏质量评价方法,包括以下步骤:
S1、评估乐器演奏难度:首先对乐器演奏的音频进行演奏难度评级,将评级的难度系数作为整体的基准系数;
S2、声纹提取和计算相似度,包括以下步骤:
S21、创建数据列表,收集乐器演奏的数据,通过aukit处理音频并进行降噪和去除静音;
S22、采用Librosa对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱,其尺度为257*257;
S23、采用改进的Resnet101自动学习关注音频的关键时频点提取音频特征时;
S24、采用形状匹配的方法计算音频特征灰度图的相似度;
S3、节奏检测和旋律检测:提取不同乐器的演奏节奏特征和旋律特征;
S4、获取试卷评分:根据条件评价和相似性对比融合,同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出,获取整体分数。
进一步地,所述步骤S1中,评估乐器演奏难度,包括以下步骤:
S11、建立一个包括乐器演奏音频数据的数据集,根据演奏难度对数据按进行标注;构建WaveNet模型,输入为乐器演奏音频波形,输出为对应的难度星级;
S12、模型通过编码器编码音频输入特征,然后输入到WaveNet模型的膨胀因果卷积层堆叠中学习音频的时序相关信息;
S13、在卷积层之间加入条件化特征,提供有关演奏难度的额外信息,最终分类器输出预测的难度等级;
S14、通过训练模型,学习音频波形与演奏难度之间的对应关系。
进一步地,所述步骤S13中,WaveNet模型额外信息添加方式包括:
构建条件化向量,包括代表难度的特征;
在WaveNet模型的每个膨胀卷积层添加条件连接,将条件化向量输入到每个层;并将条件化向量映射到与膨胀卷积层输出相匹配的维度,然后加入到层输出中;
在模型训练时,除了音频输入和难度标签,还需同时提供对应的条件化特征作为模型输入;
引入线性投影层或多层感知器,将乐器演奏难度条件化特征转换成更抽象的表征。
进一步地,所述步骤S23中,Resnet101的改进包括以下步骤:
时域注意力:在Residual块之间添加时域注意力模块,通过时域注意力模块对时域上的输入特征生成一组权重,对时域上不同时间步的特征进行校准,时域权重通过时间步上特征的全局平均池化并Dense层获得,权重与Residual块的输入特征做点积,实现时域上的动态特征选择;
频域注意力:对每个频带生成权重,然后与输入做点积操作,频域权重通过对频带上特征做自注意力机制来学习;
时频注意力:同时加入时域和频域的双向注意力模块,实现对时域和频域的动态特征选择,提供时间和频率上的上下文,生成二维权重矩阵,选择关注的时频点;
层次式注意力:在网络的多个层次添加注意力模块,形成层次化的时频注意力,分级关注音频特征,最后提取出1024*n的音频特征,其中n为音乐的切片序列,并将1024*n的音频特征进行尺寸变换,归一成512*512的灰度图。
进一步地,所述步骤S24中,计算音频特征灰度图的相似度包括以下步骤:
边界匹配:检测灰度图的边界,使用距离变换计算两个边界的距离,距离越近相似度越高;
区域匹配:提取像素值较暗的声纹区域,计算两图重叠区域的面积,重叠面积占比越大则相似度越高;
轮廓匹配:提取声纹灰度图的轮廓线,计算两图轮廓线之间的关联性,确定匹配对数,匹配对数越多相似度越高。
进一步地,所述步骤S3中,节奏检测和旋律检测包括以下步骤:
S31、在vggish输入层前加入预处理模块,提取音频的节拍、拍号信息以及旋律MIDI信息,提供节奏特征和旋律特征;
S32、在卷积块之间加入循环神经网络或者时序卷积层,学习音频的节奏时序模式;
S33、调整卷积核大小,使用跨度更长的7*7的空洞卷积核,捕捉较长的音乐节奏模式和旋律模式;
S34、在模型输出端,加入基于强化学习的节奏评估模块,设置节奏和旋律预测作为环境、错误预测作为负反馈,训练模型优化节奏评估;
S35、构建多任务学习框架,同时进行音乐时序建模、节奏预测和音乐风格分类,共享底层特征;
S36、收集包括拍号、速度变化丰富的数据集,并应用数据增强技术扩充训练数据;
S37、在训练目标中加入对抽节奏特征的一致性约束损失,增强特征的鉴别性。
进一步地,所述步骤S4中,获取试卷评分的整体评价公式为:
S=τ*(0.5*M+0.25*K+0.25*L)
其中,τ为待检测音频相对母案音频的难度系数比值,M为待检测音频与母案音频的相似度,K为待检测的音频的节奏与母案音频的相似度,L为待检测音频的旋律与母案的相似度。
本发明的有益效果为:
本发明改进了WaveNet来针对多种类型的乐器演奏音频进行难度系数评估,具有广泛的适应性和鲁棒性;通过采用改进的Resnet结构,专门适应乐器音频进行特征提取,并利用二维的灰度形状匹配评价方法来对特征图进行多维评价,真实反应了乐器演奏的客观评价指标。
本发明改进了vggish方法,专门针对多种类型的乐器演奏音频进行节奏和旋律提取,使得节奏和旋律提取更加稳定和鲁棒,在考虑量化的同时又对其本身的艺术性进行更大程度的考量和还原。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明实施例提供的一种基于音频特征形状匹配的乐器演奏质量评价方法的架构示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
请参阅图1,一种基于音频特征形状匹配的乐器演奏质量评价方法,包括以下步骤:
S1、评估乐器演奏难度:由于评估学生乐器演奏的乐器种类较多,首先对乐器演奏的音频进行演奏难度评级,评级的难度系数作为整体的基准系数,具体包括以下步骤:
S11、建立一个包含乐器演奏音频数据的数据集,根据演奏难度对数据按进行标注,例如1-5星等级;构建WaveNet模型,输入为乐器演奏音频波形,输出为对应的难度星级。
S12、模型通过编码器编码音频输入特征,然后输入到WaveNet的膨胀因果卷积层堆叠中学习音频的时序相关信息。
S13、在卷积层之间加入条件化特征,提供有关演奏难度的额外信息,最终分类器输出预测的难度等级。
需说明的是,WaveNet额外信息添加方式包括:
(1)构建条件化向量,包含代表难度的特征。例如音高、节奏、演奏技巧等的数字特征。
(2)在WaveNet模型的每个膨胀卷积层添加条件连接(conditional connection),将条件化向量输入到每个层;并将条件化向量映射到与膨胀卷积层输出相匹配的维度,然后加入到层输出中;其中加入的方式有直接相加、拼接等。
(3)在模型训练时,除了音频输入和难度标签,还需同时提供对应的条件化特征作为模型输入。
(4)引入线性投影层或多层感知器等,将乐器演奏难度条件化特征转换成更抽象的表征,综合使用条件连接与层次化设计,可以让模型学习音频与乐器演奏难度条件化特征之间的交互,从而更好地评估乐器演奏的难度水平。
S14、通过训练模型,学习音频波形与演奏难度之间的对应关系。
S2、计算声纹提取和相似度,包括以下步骤:
S21、创建数据列表,本实施例中数据集包括钢琴、吉他、小提琴、萨克斯等25000+条乐器演奏数据,通过aukit处理音频并进行降噪和去除静音。
S22、采用Librosa对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱,其尺度为257*257。
S23、改进Resnet101,使其在提取音频特征时自动学习关注音频的关键时频点。具体策略如下:
(1)时域注意力:在时域上,在Residual块之间添加时域注意力模块。该模块对时域上的输入特征生成一组权重,对时域上不同时间步的特征进行校准。时域权重可以通过时间步上特征的全局平均池化并Dense层获得。权重与Residual块的输入特征做点积,实现时域上的动态特征选择。
(2)频域注意力:针对输入的梅尔谱图实现频域注意力。对每个频带生成权重,然后与输入做点积操作。频域权重可以通过对频带上特征做自注意力机制来学习。
(3)时频注意力:同时加入时域和频域的双向注意力模块,实现对时域和频域的动态特征选择。提供时间和频率上的上下文,生成二维权重矩阵,选择关注的时频点。
(4)层次式注意力:在网络的多个层次添加注意力模块,形成层次化的时频注意力,分级关注音频特征。最后提取出1024*n的音频特征,其中n为音乐的切片序列,并将1024*n的音频特征进行尺寸变换,归一成512*512的灰度图。
S24、采用形状匹配的方法计算音频特征灰度图的相似度:
(1)边界匹配:检测灰度图的边界,使用距离变换计算两个边界的距离,距离越近相似度越高。
(2)区域匹配:提取像素值较暗的声纹主要区域,计算两图重叠区域的面积,重叠面积占比越大则相似度越高。
(3)轮廓匹配:提取声纹灰度图的轮廓线,计算两图轮廓线之间的关联性,确定匹配对数,匹配对数越多相似度越高。综上三个匹配方式给予一定的权重进行结合得到最后的相似度。
S3、节奏检测和旋律检测:由于学生演奏的作品有多类乐器演奏的风格需要评判,各种乐器的节奏特征不一,旋律基准也不一,为了解决该问题,本实施例对vggish进行改进,以提取不同乐器的演奏节奏特征和旋律特征。包括以下步骤:
S31、在vggish输入层前加入预处理模块,提取音频的节拍、拍号信息以及旋律MIDI信息,提供节奏特征和旋律特征。可以使用基于自回归模型的拍号和旋律检测等方法。
S32、在卷积块之间加入循环神经网络(RNN)或者时序卷积层,以学习音频的节奏时序模式。这可以帮助模型学习音符时值和节奏的长时相关性。
S33、调整卷积核大小,使用跨度更长的7*7的空洞卷积核,以捕捉较长的音乐节奏模式和旋律模式。
S34、在模型输出端,加入基于强化学习的节奏评估模块,设置节奏和旋律预测作为环境,错误预测作为负反馈,训练模型优化节奏评估。
S35、构建多任务学习框架,同时进行音乐时序建模、节奏预测和音乐风格分类,共享底层特征提高对节奏的学习。
S36、收集含拍号、速度变化等丰富节奏变化的数据集,并应用数据增强技术扩充训练数据。
S37、在训练目标中加入对抽节奏特征的一致性约束损失,增强特征的鉴别性。
通过上述改进,可以使模型更好地建模音乐节奏和音乐旋律,并可直接评估乐器演奏的节奏把握程度和旋律的演绎程度,提升自动评判的效果。最后将节奏分数和旋律分数进行输出。
S4、获取试卷评分:根据条件评价和相似性对比融合以及结合S1中的难度系数、S2中整体相似度、S3中乐器演奏的节奏和旋律的评价输出,获取整体分数,整体评价公式如下:
S=τ*(0.5*M+0.25*K+0.25*L)
其中τ为待检测音频相对母案音频的难度系数比值,M为待检测音频与母案音频的相似度,K为待检测的音频的节奏与母案音频的相似度,L为待检测音频的旋律与母案的相似度。
本发明的有益效果:
本发明改进了WaveNet来针对多种类型的乐器演奏音频进行难度系数评估,具有广泛的适应性和鲁棒性;通过采用改进的Resnet结构,专门适应乐器音频进行特征提取,并利用二维的灰度形状匹配评价方法来对特征图进行多维评价,真实反应了乐器演奏的客观评价指标。
本发明改进了vggish方法,专门针对多种类型的乐器演奏音频进行节奏和旋律提取,使得节奏和旋律提取更加稳定和鲁棒,在考虑量化的同时又对其本身的艺术性进行更大程度的考量和还原。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (1)
1.一种基于音频特征形状匹配的乐器演奏质量评价方法,其特征在于:包括以下步骤:
S1、评估乐器演奏难度:首先对乐器演奏的音频进行演奏难度评级,将评级的难度系数作为整体的基准系数;
S2、音频特征提取和计算相似度,包括以下步骤:
S21、创建数据列表,收集乐器演奏的数据,通过aukit处理音频并进行降噪和去除静音;
S22、采用Librosa对输入的乐器演奏音频进行短时傅里叶变换得到音频的梅尔频谱,其尺度为257*257;
S23、采用改进的Resnet101自动学习关注音频的关键时频点提取音频特征;
S24、采用形状匹配的方法计算音频特征灰度图的相似度;
S3、节奏检测和旋律检测:提取不同乐器的演奏节奏特征和旋律特征;
S4、获取试卷评分:将条件评价和相似性进行对比融合,同时结合难度系数、整体相似度、乐器演奏的节奏和旋律的评价输出,获取整体分数;
步骤S1中,评估乐器演奏难度,包括以下步骤:
S11、建立一个包括乐器演奏音频数据的数据集,根据演奏难度对数据按进行标注;构建WaveNet模型,输入为乐器演奏音频波形,输出为对应的难度星级;
S12、模型通过编码器编码音频输入特征,然后输入到WaveNet模型的膨胀因果卷积层堆叠中学习音频的时序相关信息;
S13、在卷积层之间加入条件化特征,提供有关演奏难度的额外信息,最终分类器输出预测的难度等级;
S14、通过训练模型,学习音频波形与演奏难度之间的对应关系;
步骤S13中,WaveNet模型额外信息添加方式包括:
构建条件化向量,包括代表难度的特征;
在WaveNet模型的每个膨胀卷积层添加条件连接,将条件化向量输入到每个层;并将条件化向量映射到与膨胀卷积层输出相匹配的维度,然后加入到层输出中;
在模型训练时,除了音频输入和难度标签,还需同时提供对应的条件化特征作为模型输入;
引入线性投影层或多层感知器,将乐器演奏难度条件化特征转换成更抽象的表征;
步骤S23中,Resnet101的改进包括以下步骤:
时域注意力:在Residual块之间添加时域注意力模块,通过时域注意力模块对时域上的输入特征生成一组权重,对时域上不同时间步的特征进行校准,其中,时间权重是通过对时间步的特征进行全局平均池化并经过Dense层处理得到的;权重与Residual块的输入特征做点积,实现时域上的动态特征选择;
频域注意力:对每个频带生成权重,然后与输入做点积操作,频域权重通过对频带上特征做自注意力机制来学习;
时频注意力:同时加入时域和频域的双向注意力模块,实现对时域和频域的动态特征选择,提供时间和频率上的上下文,生成二维权重矩阵,选择关注的时频点;
层次式注意力:在网络的多个层次添加注意力模块,形成层次化的时频注意力,分级关注音频特征,最后提取出1024*n的音频特征,其中n为音乐的切片序列,并将1024*n的音频特征进行尺寸变换,归一化成512*512的灰度图;
步骤S24中,计算音频特征灰度图的相似度包括以下步骤:
边界匹配:检测灰度图的边界,使用距离变换计算两个边界的距离,距离越近相似度越高;
区域匹配:提取像素值较暗的音频特征区域,计算两图重叠区域的面积,重叠面积占比越大则相似度越高;
轮廓匹配:提取音频特征灰度图的轮廓线,计算两图轮廓线之间的关联性,确定匹配对数,匹配对数越多相似度越高;
步骤S3中,节奏检测和旋律检测包括以下步骤:
S31、在vggish输入层前加入预处理模块,提取音频的节拍、拍号信息以及旋律MIDI信息,提供节奏特征和旋律特征;
S32、在卷积块之间加入循环神经网络或者时序卷积层,学习音频的节奏时序模式;
S33、调整卷积核大小,使用跨度更长的7*7的空洞卷积核,捕捉较长的音乐节奏模式和旋律模式;
S34、在模型输出端,添加基于强化学习的节奏评估模块,将节奏和旋律预测设置为环境,将错误预测设为负反馈,以训练模型来优化节奏评估;
S35、构建多任务学习框架,同时进行音乐时序建模、节奏预测和音乐风格分类,共享底层特征;
S36、收集包括拍号、速度变化丰富的数据集,并应用数据增强技术扩充训练数据;
S37、在训练目标中加入对抽节奏特征的一致性约束损失,增强特征的鉴别性;
步骤S4中,获取试卷评分的整体评价公式为:
S=τ*(0.5*M+0.25*K+0.25*L)
其中,τ为待检测音频相对母案音频的难度系数比值,M为待检测音频特征与母案音频特征的相似度,K为待检测音频的节奏与母案音频的节奏的相似度,L为待检测音频的旋律与母案音频的旋律的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311644692.9A CN117636900B (zh) | 2023-12-04 | 2023-12-04 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311644692.9A CN117636900B (zh) | 2023-12-04 | 2023-12-04 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636900A CN117636900A (zh) | 2024-03-01 |
CN117636900B true CN117636900B (zh) | 2024-05-07 |
Family
ID=90026734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311644692.9A Active CN117636900B (zh) | 2023-12-04 | 2023-12-04 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636900B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
KR20130064227A (ko) * | 2011-12-08 | 2013-06-18 | (주)세니스 | 악기 연주 서비스 제공 시스템 및 방법 |
CN108206027A (zh) * | 2016-12-20 | 2018-06-26 | 北京酷我科技有限公司 | 一种音频质量评价方法及系统 |
CN109871011A (zh) * | 2019-01-15 | 2019-06-11 | 哈尔滨工业大学(深圳) | 一种基于预处理层与深度强化学习的机器人导航方法 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN113473190A (zh) * | 2021-08-05 | 2021-10-01 | 佳源科技股份有限公司 | 一种基于强化学习的音视频柔性传输装置及传输方法 |
CN115240620A (zh) * | 2022-07-01 | 2022-10-25 | 广州蓝深科技有限公司 | 一种多功能乐器同步互动方法及系统 |
CN116705059A (zh) * | 2023-08-08 | 2023-09-05 | 硕橙(厦门)科技有限公司 | 一种音频半监督自动聚类方法、装置、设备及介质 |
CN116955068A (zh) * | 2023-06-27 | 2023-10-27 | 支付宝实验室(新加坡)有限公司 | 序列相似度计算及告警处理方法、装置以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030205124A1 (en) * | 2002-05-01 | 2003-11-06 | Foote Jonathan T. | Method and system for retrieving and sequencing music by rhythmic similarity |
-
2023
- 2023-12-04 CN CN202311644692.9A patent/CN117636900B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
KR20130064227A (ko) * | 2011-12-08 | 2013-06-18 | (주)세니스 | 악기 연주 서비스 제공 시스템 및 방법 |
CN108206027A (zh) * | 2016-12-20 | 2018-06-26 | 北京酷我科技有限公司 | 一种音频质量评价方法及系统 |
CN109871011A (zh) * | 2019-01-15 | 2019-06-11 | 哈尔滨工业大学(深圳) | 一种基于预处理层与深度强化学习的机器人导航方法 |
CN111695690A (zh) * | 2020-07-30 | 2020-09-22 | 航天欧华信息技术有限公司 | 基于合作式强化学习与迁移学习的多智能体对抗决策方法 |
CN113473190A (zh) * | 2021-08-05 | 2021-10-01 | 佳源科技股份有限公司 | 一种基于强化学习的音视频柔性传输装置及传输方法 |
CN115240620A (zh) * | 2022-07-01 | 2022-10-25 | 广州蓝深科技有限公司 | 一种多功能乐器同步互动方法及系统 |
CN116955068A (zh) * | 2023-06-27 | 2023-10-27 | 支付宝实验室(新加坡)有限公司 | 序列相似度计算及告警处理方法、装置以及存储介质 |
CN116705059A (zh) * | 2023-08-08 | 2023-09-05 | 硕橙(厦门)科技有限公司 | 一种音频半监督自动聚类方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117636900A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benetos et al. | Automatic music transcription: An overview | |
CN102664016B (zh) | 唱歌评测方法及系统 | |
Lehner et al. | Online, loudness-invariant vocal detection in mixed music signals | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
Dong | Application of artificial intelligence software based on semantic web technology in english learning and teaching | |
Bittner et al. | Multitask learning for fundamental frequency estimation in music | |
CN113192471B (zh) | 一种基于神经网络的乐曲主旋律音轨识别方法 | |
CN102187386A (zh) | 分析数字音乐音频信号的方法 | |
Ramirez et al. | Automatic performer identification in commercial monophonic jazz performances | |
Abeßer et al. | Deep learning for jazz walking bass transcription | |
CN112634841B (zh) | 一种基于声音识别的吉他谱自动生成方法 | |
Giraldo et al. | Automatic assessment of violin performance using dynamic time warping classification | |
Seshadri et al. | Improving music performance assessment with contrastive learning | |
Schramm et al. | Automatic Solfège Assessment. | |
Zwan et al. | System for automatic singing voice recognition | |
CN117636900B (zh) | 一种基于音频特征形状匹配的乐器演奏质量评价方法 | |
Ramirez et al. | Automatic performer identification in celtic violin audio recordings | |
Tian | Multi-note intelligent fusion method of music based on artificial neural network | |
CN115331648A (zh) | 音频数据处理方法、装置、设备、存储介质及产品 | |
Pan et al. | An Audio Based Piano Performance Evaluation Method Using Deep Neural Network Based Acoustic Modeling. | |
Guerrero-Turrubiates et al. | Guitar chords classification using uncertainty measurements of frequency bins | |
Molina-Solana et al. | Identifying violin performers by their expressive trends | |
Sun | Timbre-Based Portable Musical Instrument Recognition Using LVQ Learning Algorithm | |
Yang et al. | On the design of Solfeggio audio machine assessment system | |
KR102035448B1 (ko) | 음성 악기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |