CN108711336B - 一种钢琴演奏评分方法、装置、计算机设备及存储介质 - Google Patents
一种钢琴演奏评分方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108711336B CN108711336B CN201810392445.7A CN201810392445A CN108711336B CN 108711336 B CN108711336 B CN 108711336B CN 201810392445 A CN201810392445 A CN 201810392445A CN 108711336 B CN108711336 B CN 108711336B
- Authority
- CN
- China
- Prior art keywords
- audio
- key
- posterior probability
- music
- characteristic sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000010606 normalization Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000013178 mathematical model Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 36
- 230000009466 transformation Effects 0.000 claims description 34
- 238000009825 accumulation Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B15/00—Teaching music
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种钢琴演奏评分方法、装置、计算机设备及存储介质,其中所述方法包括如下步骤:提取演奏音频的音乐特征,并对其进行归一化处理;将归一化处理后的音乐特征作为神经网络数学模型的输入,获取演奏音频的琴键后验概率特征序列;将演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判演奏音频;将描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果。本发明所公开的技术方案克服了传统的评分方式中因评分者个人差异所带来的主观因素偏差,真实地反映演奏者的真实水平,且能够为钢琴学习者的自行练习提供必要的评分。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种钢琴演奏评分方法、装置、计算机设备及存储介质。
背景技术
近年来,随着物质生活水平的提高,人们对精神生活的质量提出了更高的要求,越来越多人选择学习钢琴。
然而,传统的钢琴演奏水平的评价采用人工评分方式进行,尤其是钢琴演奏的现场考核。现场钢琴演奏完成后,利用表格的形式,把考试曲目的演奏内容拆分成各个具体细节要求,每位评分者根据演奏者现场发挥的水平各自进行评分。
尽管为了摒弃评分者主观喜好厌恶的个人色彩,其最终得分的取值方式是将所有评分者的分数相加后取平均分,但是人工评价机制的先天缺陷决定了其仍然不能从根本上消除主观因素带来的偏差。此外,人工评分方式往往忽视了各评价指标与演唱效果之间的非线性关系,不能真实地反映演奏者的真实水平。
另外,对于钢琴初学者而言,在音乐教师或音乐专业人士不在场的情况下其仍然需要自行练习。然而,没有专业人士的评分,初学者并不真正清楚自己钢琴演奏的好坏,使得自学效果大打折扣。
发明内容
本发明的主要目的在于提供一种钢琴演奏评分方法、装置、计算机设备及存储介质,以克服传统的评分方式中因评分者个人差异所带来的主观因素偏差,真实地反映演奏者的真实水平,且能够为钢琴学习者的自行练习提供必要的评分。
为了实现上述目的,根据本发明的一个方面,提供了一种钢琴演奏评分方法,包括如下步骤:提取演奏音频的音乐特征,并对其进行归一化处理;将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果。
进一步地,所述提取演奏音频的音乐特征,并对其进行归一化处理的步骤包括:对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;所述将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列的步骤包括:将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,其输出为每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列;所述将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频的步骤包括:将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的多个音乐特征;所述将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果的步骤包括:将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果。
进一步地,所述提取演奏音频的音乐特征,并对其进行归一化处理的步骤进一步包括:对所述演奏音频的每一帧,生成维度为D的常数Q变换特征向量,并对其进行均值归一化处理。
进一步地,所述将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列的步骤进一步包括:将均值归一化处理后的常数Q变换特征向量以窗的形式作为所述卷积神经网络声学模型的输入,而窗的中心帧所对应的琴键后验概率特征为所述卷积神经网络声学模型的输出;所述卷积神经网络声学模型由2个二维卷积层以及1个全连接层组成,其中,第一个卷积层采用50个30×5的卷积核以及3×1的池化核,第二个卷积采用50个10×3的卷积核以及3×1的池化核,二维转换至一维的数据则被输出至全连接层,以获得88维或12维的琴键后验概率特征。
进一步地,所述将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频的步骤进一步包括:
采用如下公式更新积累矩阵中的节点Ci,j:
Ci,j=min{Cx,y+tx,y,i,j+di,j},
其中,x,y∈{(i,j-1),(i-1,j),(i-1,j-1),(i-2,j-1),(i-1,j-2)},di,j表示节点ni,j的代价即所述演奏音频的第i帧与所述模板音频的第j帧的余弦距离;tx,y,i,j表示从节点ni,j转移到节点nx,y的代价;Ci,j则表示所述规整路径上的积累代价;在所述积累矩阵上回溯以获得所述规整路径;从所述规整路径中提取平均代价c、路径上暂停的次数h以及帧的比率r,并将其作为所述有监督回归模型的输入。
进一步地,所述钢琴演奏评分方法还包括如下步骤:将训练数据中的所有音频降采样至16KHZ,并提取向量维度D分别为294和88的常数Q变换特征,以每首音频为单位对其进行均值方差归一化处理;以窗的形式将所述常数Q变换特征的每一帧都处理成维度为D×w的矩阵,其中w为窗长,采用所述卷积神经网络声学模型提取常数Q变换特征中每一帧对应的钢琴键是否被弹下的后验概率,从而使得所述卷积神经网络声学模型得到训练。
根据本发明的另一方面,提供了一种钢琴演奏评分装置,包括:音乐特征提取模块,用于提取演奏音频的音乐特征,并对其进行归一化处理;琴键后验概率特征序列获取模块,用于将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;模板匹配处理模块,用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;评分生成模块,用于将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果。
进一步地,所述音乐特征提取模块包括常数Q变换模块,所述常数Q变换模块用于对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;所述琴键后验概率特征序列获取模块包括卷积神经网络模块,所述卷积神经网络模块用于将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,输出每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列;所述模板匹配处理模块包括动态时间规整模块,所述动态时间规整模块用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的多个音乐特征;所述评分生成模块包括有监督回归模型模块,所述有监督回归模型模块用于将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行前述任一种所述钢琴演奏评分方法的步骤。
根据本发明的又一方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行前述任一种所述钢琴演奏评分方法的步骤。
本发明的技术方案至少具备如下有益效果:输入演奏音频录音后,提取其常数Q变换特征并通过已经训练好的卷积神经网络模型提取其琴键后验概率特征,将提取出的演奏音频琴键后验概率特征与模板音频琴键后验概率特征作动态时间规整算法处理,并对规整路径进行特征提取,以此作为评分的依据,最后使用有监督回归模型给出最终评分。采用计算机算法模型给出评分避免了人工评分方式中因评分者个人差异所带来的主观因素偏差;所选用的神经网络声学模型为非线性数学模型,考虑了各评价指标与演唱效果之间的非线性耦合关系,从而真实地反映演奏者的真实水平;采用计算机算法模型给出评分,能够为钢琴教师不在场情况下的钢琴学习者自行练习提供必要的评分。
附图说明
图1为一实施例的钢琴演奏评分方法的基本流程图;
图2为一实施例的钢琴演奏评分系统的原理示意图;
图3为另一实施例的输入为88维而CQT输出为12维PKPP的卷积神经网络流程示意图;
图4为另一实施例的输入为294维而CQT输出为12维PKPP的卷积神经网络流程示意图;
图5为另一实施例的输入为294维而CQT输出为88维PKPP的卷积神经网络流程示意图;
图6为60分以上评分的预测与实际评分的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
以下对具体实施方式中可能出现的名称缩写予以解释说明:
CQT(constant Q transform):常数Q变换;
PKPP(Piano Key Posterior Probability):琴键后验概率;
DTW(Dynamic Time Warping):动态时间规整;
CNN(Convolutional Neural Network):卷积神经网络。
请参阅图1,在一个实施例中,提供了一种钢琴演奏评分方法,包括如下步骤:
S120,提取演奏音频的音乐特征,并对其进行归一化处理;
S140,将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;
S160,将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;
S180,将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果。
采用计算机算法模型给出评分避免了人工评分方式中因评分者个人差异所带来的主观因素偏差;所选用的神经网络声学模型为非线性数学模型,考虑了各评价指标与演唱效果之间的非线性耦合关系,从而真实地反映演奏者的真实水平;采用计算机算法模型给出评分,能够为钢琴教师不在场情况下的钢琴学习者自行练习提供必要的评分。相对应地,钢琴演奏评分系统的原理示意图见图2。
在另一实施例中,步骤S120包括:S122,对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;
步骤S140包括:S142,将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列的步骤具体为:将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,其输出为每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列;
步骤S160包括:S162,将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频的步骤具体为:将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的多个音乐特征;
步骤S180包括:S182,将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果的步骤具体为:将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果。
在另一实施例中,步骤S122包括:S1222,对所述演奏音频的每一帧,生成维度为D的常数Q变换特征向量,并对其进行均值归一化处理。
在另一实施例中,步骤S142包括:S1422,将均值归一化处理后的常数Q变换特征向量以窗的形式作为所述卷积神经网络声学模型的输入,而窗的中心帧所对应的琴键后验概率特征为所述卷积神经网络声学模型的输出;
所述卷积神经网络声学模型由2个二维卷积层以及1个全连接层组成,其中,第一个卷积层采用50个30×5的卷积核以及3×1的池化核,第二个卷积采用50个10×3的卷积核以及3×1的池化核,二维转换至一维的数据则被输出至全连接层,以获得88维或12维的琴键后验概率特征。
在另一实施例中,步骤S162包括:S1622,采用如下公式更新积累矩阵中的节点Ci,j:
Ci,j=min{Cx,y+tx,y,i,j+di,j},
其中,x,y∈{(i,j-1),(i-1,j),(i-1,j-1),(i-2,j-1),(i-1,j-2)},di,j表示节点ni,j的代价即所述演奏音频的第i帧与所述模板音频的第j帧的余弦距离;tx,y,i,j表示从节点ni,j转移到节点nx,y的代价;Ci,j则表示所述规整路径上的积累代价;
在所述积累矩阵上回溯以获得所述规整路径;
从所述规整路径中提取平均代价c、路径上暂停的次数h以及帧的比率r,并将其作为所述有监督回归模型的输入。
在另一实施例中,所述钢琴演奏评分方法还包括步骤:
S100,将训练数据中的所有音频降采样至16KHZ,并提取向量维度D分别为294和88的常数Q变换特征,以每首音频为单位对其进行均值方差归一化处理;
以窗的形式将所述常数Q变换特征的每一帧都处理成维度为D×w的矩阵,其中w为窗长,采用所述卷积神经网络声学模型提取常数Q变换特征中每一帧对应的钢琴键是否被弹下的后验概率,从而使得所述卷积神经网络声学模型得到训练。
具体地,本实施例采用MAPS数据集作为神经网络的训练数据,采用YCU-MPPE-II数据进行评分系统的搭建,并采用leave-one-out的验证方法对该评分系统进行性能测试。
在另一实施例中,所述钢琴演奏评分方法包括以下步骤:
S200:将训练数据中的所有音频降采样至16KHZ,并提取向量维度D为294和88的CQT特征序列,然后以每首音频为单位对其进行均值方差归一化,以抑制其演奏者的力度差异。
S220:请参阅图3-5,以窗的形式将CQT特征的每一帧都处理成维度为D×w的矩阵(w为窗长),使用卷积神经网络声学模型,提取CQT特征中每一帧对应的钢琴键是否被弹下的后验概率,一个CQT帧所对应的窗经过卷积神经网络处理之后,得到88维或12维的琴键后验概率向量。
具体地,使用MAPS数据集中的约210首歌训练卷积神经网络声学模型,经过处理后的输入数据量大约为1500000。
S240:采用步骤S220中得到训练的神经网络模型处理真实的演奏音频,得到该音频的PKPP特征序列,并与模板演奏音频的PKPP特征序列比较,应用DTW算法,得出积累矩阵和规整路径,并在规整路径上提取多个特征。
具体地,使用YCU-MPPE-II数据集中的12类约2000首歌曲来提取特征。
S260:对步骤S240中提取的特征,对每一类歌曲都采取如下操作:以该类歌曲提取出的特征作为输入,对应的真实分数作为目标输出,建立有监督回归模型。
S280:使用leave-one-out交叉验证方法,将一部分用于有监督回归建模,另一部分作为测试集,使用有监督回归模型进行评分,并和测试集对应的真实分数做对比,计算其平均绝对误差。
请参阅图6以及表1,本实施例的实验结果如下,采用5种方式进行评分,其中编号1,2的模型直接使用CQT以及DTW方法并计算评分,编号为3,4,5的模型是应用了卷积神经网络产生不同维度的PKPP来进行评分,它们的区别在于卷积神经网络的输入和输出存在不同。
表1不同方法的评分误差结果
在YCU-MPPE-II数据集上,使用leave-one-out方法测试评分结果,当加入了神经网络后,平均误差从模型1的4.22降低到模型3的3.78,而模型2的4.23也降低到了4.03和3.91。可以看出,卷积神经网络降低了评分的误差,因此加入卷积神经网络对于评分精确度的提高是有效的。
在一个实施例中,提供了一种钢琴演奏评分装置,包括:音乐特征提取模块,用于提取演奏音频的音乐特征,并对其进行归一化处理;琴键后验概率特征序列获取模块,用于将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;模板匹配处理模块,用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;评分生成模块,用于将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果。
在另一实施例中,所述音乐特征提取模块包括常数Q变换模块,所述常数Q变换模块用于对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;所述琴键后验概率特征序列获取模块包括卷积神经网络模块,所述卷积神经网络模块用于将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,输出每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列;所述模板匹配处理模块包括动态时间规整模块,所述动态时间规整模块用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的多个音乐特征;所述评分生成模块包括有监督回归模型模块,所述有监督回归模型模块用于将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行任一种所述钢琴演奏评分方法的步骤。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行任一种所述钢琴演奏评分方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序,且可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机可读取存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”、“某些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种钢琴演奏评分方法,其特征在于,包括如下步骤:
提取演奏音频的音乐特征,并对其进行归一化处理;
将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;
将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;
将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果;
其中,将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频的步骤,包括:将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的描述匹配程度的多个音乐特征;
将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果的步骤,包括:将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果;
将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频的步骤,还包括:
采用如下公式更新积累矩阵中的节点Ci,j:
Ci,j=min{Cx,y+tx,y,i,j+di,j},
其中,x,y∈{(i,j-1),(i-1,j),(i-1,j-1),(i-2,j-1),(i-1,j-2)},di,j表示节点ni,j的代价即所述演奏音频的第i帧与所述模板音频的第j帧的余弦距离;tx,y,i,j表示从节点ni,j转移到节点nx,y的代价;Ci,j则表示所述规整路径上的积累代价;
在所述积累矩阵上回溯以获得所述规整路径;
从所述规整路径中提取平均代价c、路径上暂停的次数h以及帧的比率r,并将其作为所述有监督回归模型的输入。
2.根据权利要求1所述的钢琴演奏评分方法,其特征在于,提取演奏音频的音乐特征,并对其进行归一化处理的步骤,包括:对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;
将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列的步骤,包括:将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,其输出为每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列。
3.根据权利要求2所述的钢琴演奏评分方法,其特征在于,提取演奏音频的音乐特征,并对其进行归一化处理的步骤,进一步包括:对所述演奏音频的每一帧,生成维度为D的常数Q变换特征向量,并对其进行均值归一化处理。
4.根据权利要求3所述的钢琴演奏评分方法,其特征在于,将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列的步骤,进一步包括:将均值归一化处理后的常数Q变换特征向量以窗的形式作为所述卷积神经网络声学模型的输入,而窗的中心帧所对应的琴键后验概率特征为所述卷积神经网络声学模型的输出;
所述卷积神经网络声学模型由2个二维卷积层以及1个全连接层组成,其中,第一个卷积层采用50个30×5的卷积核以及3×1的池化核,第二个卷积采用50个10×3的卷积核以及3×1的池化核,二维转换至一维的数据则被输出至全连接层,以获得88维或12维的琴键后验概率特征。
5.根据权利要求2所述的钢琴演奏评分方法,其特征在于,所述钢琴演奏评分方法还包括如下步骤:
将训练数据中的所有音频降采样至16KHZ,并提取向量维度D分别为294和88的常数Q变换特征,以每首音频为单位对其进行均值方差归一化处理;
以窗的形式将所述常数Q变换特征的每一帧都处理成维度为D×w的矩阵,其中w为窗长,采用所述卷积神经网络声学模型提取常数Q变换特征中每一帧对应的钢琴键是否被弹下的后验概率,从而使得所述卷积神经网络声学模型得到训练。
6.一种钢琴演奏评分装置,其特征在于,包括:
音乐特征提取模块,用于提取演奏音频的音乐特征,并对其进行归一化处理;
琴键后验概率特征序列获取模块,用于将归一化处理后的音乐特征作为神经网络数学模型的输入,获取所述演奏音频的琴键后验概率特征序列;
模板匹配处理模块,用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列进行模板匹配处理,获得描述匹配程度的多个音乐特征,以评判所述演奏音频;
评分生成模块,用于将所述描述匹配程度的多个音乐特征输入钢琴演奏评分模型,以获得评分结果;
其中,所述模板匹配处理模块包括动态时间规整模块,所述动态时间规整模块用于将所述演奏音频的琴键后验概率特征序列与模板音频的琴键后验概率特征序列作动态时间规整算法处理,获得规整路径及积累代价,并从所述规整路径及积累代价中提取音乐特征,从而获得用以评判所述演奏音频的多个音乐特征;
所述评分生成模块包括有监督回归模型模块,所述有监督回归模型模块用于将所述描述匹配程度的多个音乐特征输入有监督回归模型,以获得钢琴演奏的评分结果;
所述动态时间规整模块还用于采用如下公式更新积累矩阵中的节点Ci,j:
Ci,j=min{Cx,y+tx,y,i,j+di,j},
其中,x,y∈{(i,j-1),(i-1,j),(i-1,j-1),(i-2,j-1),(i-1,j-2)},di,j表示节点ni,j的代价即所述演奏音频的第i帧与所述模板音频的第j帧的余弦距离,tx,y,i,j表示从节点ni,j转移到节点nx,y的代价,Ci,j则表示所述规整路径上的积累代价;还用于在所述积累矩阵上回溯以获得所述规整路径;以及还用于从所述规整路径中提取平均代价c、路径上暂停的次数h以及帧的比率r,并将其作为所述有监督回归模型的输入。
7.根据权利要求6所述的钢琴演奏评分装置,其特征在于,所述音乐特征提取模块包括常数Q变换模块,所述常数Q变换模块用于对所述演奏音频提取其常数Q变换的音乐特征,并对常数Q变换的音乐特征进行归一化处理;
所述琴键后验概率特征序列获取模块包括卷积神经网络模块,所述卷积神经网络模块用于将归一化后的常数Q变换的音乐特征作为卷积神经网络声学模型的输入,输出每一帧对应的琴键后验概率,以获取所述演奏音频的琴键后验概率特征序列。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得所述处理器执行权利要求1至5中任一项所述的方法的步骤。
9.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810392445.7A CN108711336B (zh) | 2018-04-27 | 2018-04-27 | 一种钢琴演奏评分方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810392445.7A CN108711336B (zh) | 2018-04-27 | 2018-04-27 | 一种钢琴演奏评分方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108711336A CN108711336A (zh) | 2018-10-26 |
CN108711336B true CN108711336B (zh) | 2020-05-12 |
Family
ID=63867520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810392445.7A Expired - Fee Related CN108711336B (zh) | 2018-04-27 | 2018-04-27 | 一种钢琴演奏评分方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108711336B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109671332A (zh) * | 2019-02-24 | 2019-04-23 | 苏州缪斯谈谈科技有限公司 | 一种乐器辅助智能教学系统及其教学方法 |
CN110600057B (zh) * | 2019-09-02 | 2021-12-10 | 深圳市平均律科技有限公司 | 演奏声音信息和曲谱信息比对方法及比对系统 |
CN110675879B (zh) * | 2019-09-04 | 2023-06-23 | 平安科技(深圳)有限公司 | 基于大数据的音频评估方法、系统、设备及存储介质 |
WO2021176925A1 (ja) * | 2020-03-04 | 2021-09-10 | ヤマハ株式会社 | 演奏データに対する観衆の評価を推論する方法、システム、及びプログラム |
CN111680187B (zh) * | 2020-05-26 | 2023-11-24 | 平安科技(深圳)有限公司 | 乐谱跟随路径的确定方法、装置、电子设备及存储介质 |
CN111724813A (zh) * | 2020-06-17 | 2020-09-29 | 东莞理工学院 | 一种基于lstm的钢琴演奏自动评分方法 |
CN112863464A (zh) * | 2021-01-20 | 2021-05-28 | 小叶子(北京)科技有限公司 | 一种基于音频交互的钢琴陪练方法及系统 |
CN113657184B (zh) * | 2021-07-26 | 2023-11-07 | 广东科学技术职业学院 | 一种钢琴弹奏指法的评估方法及装置 |
CN113780811B (zh) * | 2021-09-10 | 2023-12-26 | 平安科技(深圳)有限公司 | 乐器演奏评估方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
CN105070298A (zh) * | 2015-07-20 | 2015-11-18 | 科大讯飞股份有限公司 | 复调乐器的评分方法和装置 |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN106782501A (zh) * | 2016-12-28 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
-
2018
- 2018-04-27 CN CN201810392445.7A patent/CN108711336B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN105070298A (zh) * | 2015-07-20 | 2015-11-18 | 科大讯飞股份有限公司 | 复调乐器的评分方法和装置 |
CN106782501A (zh) * | 2016-12-28 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108711336A (zh) | 2018-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108711336B (zh) | 一种钢琴演奏评分方法、装置、计算机设备及存储介质 | |
CN104575490B (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
CN101246685A (zh) | 计算机辅助语言学习系统中的发音质量评价方法 | |
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
Sadjadi et al. | The 2019 NIST Speaker Recognition Evaluation CTS Challenge. | |
CN105741832A (zh) | 一种基于深度学习的口语评测方法和系统 | |
CN105719661A (zh) | 一种弦乐器演奏音质自动判别方法 | |
Fan et al. | Singing voice separation and pitch extraction from monaural polyphonic audio music via DNN and adaptive pitch tracking | |
CN110674996B (zh) | 一种城市交通噪声预测方法 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN106935236A (zh) | 一种钢琴演奏评估方法及系统 | |
Hourri et al. | Convolutional neural network vectors for speaker recognition | |
CN107103914A (zh) | 一种高质量的语音转换方法 | |
CN116229932A (zh) | 一种基于跨域一致性损失的语音克隆方法及系统 | |
Li et al. | Oriental language recognition (OLR) 2020: Summary and analysis | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN113192471B (zh) | 一种基于神经网络的乐曲主旋律音轨识别方法 | |
Lasseck | Improving Bird Identification using Multiresolution Template Matching and Feature Selection during Training. | |
CN117198334A (zh) | 一种基于自监督学习的钢琴演奏自动评价方法 | |
Zwan et al. | System for automatic singing voice recognition | |
CN110349596A (zh) | 一种基于深度学习的钢琴考级评定方法及装置 | |
CN108182946B (zh) | 一种基于声纹识别的声乐模式选择方法及装置 | |
Firdausillah et al. | Implementation of neural network backpropagation using audio feature extraction for classification of gamelan notes | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200512 |