CN111554256A

CN111554256A - 一种基于强弱标准的钢琴视奏能力评价系统

Info

Publication number: CN111554256A
Application number: CN202010315760.7A
Authority: CN
Inventors: 曹燕; 吴梦杰; 韦岗
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-18
Anticipated expiration: 2040-04-21
Also published as: CN111554256B

Abstract

本发明公开了一种基于强弱标准的钢琴视奏能力评价系统，强标准指钢琴乐曲节奏、主旋律音符；弱标准指乐感表现力。该系统包括人机交互、节奏检测评价、主旋律音符估计评价、表现力检测评价和综合得分五个模块。人机交互模块负责乐谱显示、录入演奏音频；节奏检测评价模块提取音符起点，切割音符片段，得到节奏评价分数；主旋律音符估计评价模块提取音符片段的主旋律音符，得到主旋律评价分数；表现力检测评价模块计算演奏音频与标准音频的情感距离，归一化为评价分数；综合得分评价模块求上述得分的加权和实现视奏能力评价。本发明结合音乐欣赏的特点，设置强弱评价标准，使机器评价结果更接近人的主观感受。

Description

一种基于强弱标准的钢琴视奏能力评价系统

技术领域

本发明涉及音乐信号主旋律音符估计、音乐乐感识别、信号滤波器分析技术领域，具体涉及一种基于强弱标准的钢琴视奏能力评价系统。

背景技术

钢琴“视奏”指演奏者拿到一首新曲，根据谱面信息直接读谱演奏，不同于背谱演奏，“视奏”更能体现出演奏者的钢琴水平，是钢琴学习中非常重要的一环，但实际却是我国传统钢琴教学中相对忽视的一个环节。其中主要的原因在于传统的教学中需要音乐教师一对一指导，但音乐教师费用昂贵，音乐教师的质量参差不齐，不能对学生演奏能力进行准确的评判。而利用计算机技术，对演奏者能力进行科学而客观的评判，可以使用电子老师代替传统老师，辅助钢琴演奏学习，提高学习效率，降低费用；且可以用于钢琴考级考试，给出演奏能力的客观评价，避免人为主观影响。

现有有关演奏评价的研究大致分为两类，一是，将演奏评价看作多基音音符检测问题，对演奏波形分析提取出演奏的音符，将演奏音符与乐谱对比得出结论；二是，将演奏评价看作波形相似度匹配问题，给定乐曲标准波形，提取标准波形与演奏波形各个特征进行匹配，得出结论。

上述方法不足之处在于，鉴于多基频检测技术，不可能完全正确提取基频，导致评价准确度降低；完全以标准波形为准，脱离乐理知识，导致计算机评价结果不具备音乐艺术性。

发明内容

本发明的目的是为了克服钢琴视奏学习、能力检测当中需要专业老师现场评价、不同评委评价主观性等问题，提供一种基于强弱标准的钢琴视奏能力评价系统。该系统可以根据录入的用户视奏音频得到用户视奏能力的综合评价，及节奏、音符、表现力方面的评价。在本发明中，第一，将钢琴演奏评价问题分为强弱标准两个部分:强标准指乐曲主旋律音符、节奏；弱标准指演奏的钢琴音乐的整体乐感表现力。两部分分别评价后结合乐谱难度加权得到钢琴视奏能力的综合评价。充分利用已知乐谱信息，结合音乐评价的艺术特点，能得出更接近人类音乐鉴赏的评价；第二，考虑到音符起点检测的不准确性，将检测到的音符起点通过梅尔系数相似度与标准音符规整对齐，提高后续各个模块评价的准确性；第三，为了克服多音符估计问题的复杂性，利用乐谱信息，将音符估计分为左右手两个部分分别处理，然后在右手谱中减去左手谱产生的谐波，降低了每次处理的多音符个数，提高了音符提取准确度；第四，摈弃传统乐感评价中单标签或多标签分类方法，使用心理学中“正负性—唤醒度”组成的连续空间，通过比较演奏音频和标准音频的情感空间距离得到乐感表现力评价，克服评价情感词语的歧义性，更接近于人类情感评价。

本发明的目的可以通过采取如下技术方案达到：

一种基于强弱标准的钢琴视奏能力评价系统，所述的钢琴视奏能力评价系统包括依次顺序连接的人机交互模块、节奏检测评价模块、主旋律音符估计评价模块、表现力检测评价模块以及分别与上述各个模块连接的综合得分评价模块，其中，

所述的人机交互模块用于从事先建立的数据库中选择一首乐谱显示，并录入视奏音频，进行预处理；

所述的节奏检测评价模块用于提取演奏音频的节奏信息与标准音频的节奏信息比较，将结果归一化得出节奏评价分数，并检测提取音频文件中音符开始时间，与标准音频音符动态规整对齐，将演奏音频分割成多个音符片段；

所述的主旋律音符估计评价模块用于提取每个音符片段音频中的主旋律音符与对应的标准音频主旋律音符对比，结果归一化得出主旋律评价分数；

所述的表现力检测评价模块用于训练音频的二维情感值预测模型，计算演奏音频中的“正负性—唤醒度”乐感表现值，与该乐曲在数据库中存储的标准音频的乐感表现值对比，计算二者之间的欧式距离，将结果归一化得出表现力评价分数；

所述的综合得分评价模块用于对得到的主旋律、节奏、表现力评价分数加权得到最终的视奏能力评价。

进一步地，所述的数据库建立过程如下：

收集钢琴视奏能力评价所需的钢琴乐谱，并将其wav格式音频、难度标签、乐谱信息、时间节奏信息、音符信息、音频二维乐感值、88个琴键单音样本的谐波幅度经过数字化处理后存入数据库中。

进一步地，所述的节奏检测评价模块中检测提取音符起点通过一个参数自适应的时频分析器和一个参数自适应的高通滤波器实现，其中，所述的参数自适应调整的依据为需要处理音频对应的乐谱片段包含的音符；所述的时频分析器的可变参数包含傅立叶变换长度、重叠帧长度、帧移长度；所述的高通滤波器的可变参数为截止频率；所述的节奏检测评价模块中音符起点动态规整对齐通过一个梅尔滤波器实现，提取各音符音频片段的梅尔系数，进行下一步音符规整对齐处理。

进一步地，所述的人机交互模块中预处理过程如下：将麦克风输入的信号滤波去噪、归一化为wav格式演奏音频，根据乐谱节拍、小节信息，将音频按时间切割为小节音频帧；

所述的节奏检测评价模块中通过高频能量差分方法估计音符起点，过程如下：处理每个小节音频帧，根据该帧对应的乐谱音符信息设置高通滤波器截止频率、时频分析参数，获取时频信息，然后通过高通滤波器得到每一帧的高频能量谱；对高频能量谱进行一阶差分，然后进行峰值检测，设置一个时间阈值，将阈值内的相邻峰值合并，选取最开始时间作为音符起点；

考虑到音符起点检测的不准确性，需要对提取的音符与标准音符进行动态规整，所述的节奏检测评价模块中音符起点动态规整对齐的过程如下：

根据检测提取的音符起点将音频分段，每段音频经过梅尔滤波器获取梅尔系数，得到演奏音频梅尔系数矩阵；将演奏音频梅尔系数矩阵与已知的标准音频梅尔系数矩阵根据相似度进行动态规整对齐；

所述的节奏检测评价模块根据对齐后的音符起点信息，比较演奏音频与标准音频的节奏差别，归一化为节奏评价分数；并将小节音频帧切割为多个音符片段，每个音符片段包含一个或多个音符。

进一步地，所述的主旋律音符估计评价模块包括一个截止频率自适应调整的低通滤波器和一个失谐规整滤波器，其中，所述的低通滤波器的截止频率，根据处理音频对应的乐谱中右手最低音符的基频自适应调整；由于钢琴音符的半和谐性，高次谐波将高于理论的谐波频点，所以需要进行失谐规整，所述的失谐规整滤波器包括多个通带，通带数量由基频决定，低频音符谐波丰富且高次谐波失谐严重，则通带数量多；每个通带形状可为三角或者余弦，滤波器中心频率为理论谐波频率，考虑本发明需要利用的谐波次数较低，且低次谐波失谐不严重，谐波次数越高失谐越严重等特点，失谐规整滤波器各通带根据中心频率对应的谐波次数不同，设置不同的截止频率，如当谐波数在5次以下时滤波器截止频率为中心频率正负2Hz，五次以上为正负8Hz。

进一步地，所述的主旋律音符估计评价模块，根据已知乐谱信息和左右手演奏特点将音频变换域划分为左手部分和右手部分分别处理，首先用“谱减最大互相关”方法估计出左手演奏的一个或多个音符，然后在右手谱部分减去左手谱音符产生的高次谐波，然后再用“谱减最大互相关”的方法估计出右手音符即为主旋律音符。具体过程为：

低通滤波获取左半部分频谱：将需要估计主旋律的音频段进行短时傅立叶变换，归一化后通过低通滤波器，得到左半部分频谱；

用“谱减最大互相关”方法估计音符：将上述过程得到的左半部分频谱，进行谱峰值检测，记录“峰值频率-峰值”，依次计算每个峰值频率与其后向的所有峰值频率的差，组成谱峰频率差矩阵，记录矩阵的前N列元素作为待处理值，将N×M(M为矩阵行数)个值与钢琴基频对比，剔除不可能为基频的值，剩下的即为可能的基频；计算可能的基频对应音符的“谐波-幅度”与上述“峰值频率-峰值”的最大互相关，取最大互相关值高于设定阈值的基频对应音符作为估计出的确定音符，即为估计出的音符；

失谐规整分离出右半部分频谱估计主旋律：由上述估计得出左手音符设置失谐规整滤波器，将音频傅立叶变换谱通过失谐规整滤波器，根据乐谱中左手最高音符将变换后的频谱划为两个部分，取右半部分进行峰值检测得到右半部分“峰值频率-峰值”，然后减去估计出的左手音符产生的高次谐波峰值；使用“谱减最大互相关”方法估计出右手音符，即为主旋律音符；

比较估计的主旋律音符与乐谱主旋律音符，归一化为评价分数，得到得出主旋律评价分数。

进一步地，由于评价乐感表现力词语的歧义性，所以所述的表现力检测评价模块使用心理学中“正负性—唤醒度”组成的连续空间作为乐感评价，将音乐乐感表现映射为空间中的一个点，采用支持向量回归方法搭建二维情感值预测模型，分别计算出标准音频和对应的演奏音频的“正负性—唤醒度”值，计算二者之间的欧式距离，归一化得出表现力评价分数。

本发明相对于现有技术具有如下的优点及效果：

(1)在检测音频节奏提取音符起点时，考虑到高频能量较低频能量衰减更快的特征，在新音符按下时，高频能量将由衰减突变为陡增，将陡增时刻作为新音符起点，提高了音符起点检测的准确度。

(2)为了提高音符起点检测的精度，利用人耳听觉梅尔系数相似度来规整对齐检测音符与标准音符，克服了因音符起点检测错误导致演奏音频划分与标准音频划分未对齐的问题，提高了节奏、主旋律音符评价的准确性。

(3)在估计主旋律音符时，根据钢琴乐中左右手演奏音符数的统计特点和音符的谐波特性，将音频中音符提取分为左右手两个部分，首先根据已知的左右手谱信息设置低通滤波器，利用“谱减最大互相关”方法估计左手演奏的低频部分音符，然后在右手高频谱中减去左手低频音符的谐波，估计出右手音符即为主旋律音符，使两部分单独处理的多音符个数减少，避免了多音符估计正确率随音符个数增加而降低的问题，提高了主旋律音符检测准确性。

(4)在评价演奏音频表现力时，利用连续的情感空间距离作为评价标准，克服了使用情感词语作为评价标准将乐感看作标签分类问题带来的歧义性和不连续性，提高了评价乐感的细腻度，更接近于人类主观感受的评价。

(5)充分结合音乐艺术特点设置评价策略，将问题分为强标准和自主发挥(弱标准)两部分，主旋律音符为音乐的骨架作为强标准，乐感表现力等主观感受作为弱标准，对演奏能力评价更接近人的主观感受，克服了以往的计算机演奏评价方法中脱离乐理欣赏的缺点，提高了计算机演奏评价的智能性。

(6)结合实际情况，受试者演奏完全错误将是小概率事件，所以，本发明充分利用已知的乐谱音符统计信息，针对不同乐谱设置合适的时频分析、滤波器、左右手频谱划分等参数，更准确地提取特征，克服了以往的计算机演奏评价方法中摈弃已知乐谱信息的缺点，保证了评价结果的准确性。

附图说明

图1是本发明公开的钢琴视奏能力评价系统的结构框图；

图2是本发明公开的钢琴视奏能力评价系统预处理阶段示意图；

图3是本发明公开的钢琴视奏能力评价系统中节奏检测评价模块的结构框图；

图4是本发明中音符起点规整对齐方法的流程图；

图5是本发明中失谐规整滤波器的示意图；

图6是本发明中谱减最大互相关音符估计方法的流程图；

图7是本发明公开的钢琴视奏能力评价系统中主旋律音符估计评价模块的结构框图；

图8是本发明公开的基于强弱标注的钢琴视奏能力评价方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本实施例提出的钢琴视奏能力评价系统的结构框图，包含五个模块，分别为：人机交互模块、节奏检测评价模块、主旋律音符估计评价模块、表现力检测评价模块和综合得分评价模块。人机交互模块用于选择一首乐谱显示，并录入视奏音频，进行预处理；节奏检测评价模块用于提取音频文件中音符开始时间，与标准音频音符规整对齐，得到演奏音频的节奏评价分数，并将演奏音频分割成多个音符片段；主旋律音符估计评价模块用于提取每帧音频中的主旋律音符，得到主旋律的评价分数；表现力检测评价模块用于训练音频的二维情感值预测模型，计算演奏音频的“正负性—唤醒度”乐感表现值，与该乐曲在数据库中存储的标准音频的乐感表现值对比，计算他们的欧式距离，归一化为分数得到表现力检测评价；综合得分评价模块用于对得到的乐谱难度、节奏、表现力得分加权得到最终的视奏能力评价。

如图2所示，钢琴视奏能力评价系统在设计阶段需要进行预处理，收集钢琴视奏能力评价所需的钢琴乐谱，并将其wav格式音频、难度标签、乐谱图片信息、时间节奏信息、音符信息、音频二维乐感值、88个琴键单音样本的谐波幅度等信息经过数字化处理后存入数据库中。

其中wav格式音频、难度标签、乐谱图片信息可以直接得到；

时间节奏信息定义为，相邻音符片段的起始时间间隔。将同时按下的多个音符称为一个音符片段，可以通过乐曲对应的谱面时间标注信息得到乐谱中各个音符片段的起始时间，在数据库中记录各个音符片段的起始时间，用于计算时间节奏信息；

音频二维乐感值，得到方法为：利用多个wav格式钢琴音频，训练乐感表现力预测回归模型，然后将乐曲的wav格式音频输入到模型中，得到乐曲标准音频的二维乐感值；

88个琴键单音样本的谐波幅度，记录88个琴键的单音wav格式录音样本，每个样本在经过傅立叶变换后获取幅度谱，通过失谐规整滤波器，考虑到钢琴音符谐波，随谐波次数增加将产生较大的失谐和衰减，所以取每个音符的前20次谐波，又因为高音符的谐波并不明显且钢琴音符的最高基频为4186Hz，所以取当音符谐波频率大于4500Hz时，谐波幅度设为0，将通过规整的幅度谱归一化后记录谐波与对应的幅度，得到88个2×20维的“谐波-幅度”关系矩阵H_A_2×20，音符A₅的基频为880Hz，则记录的“谐波-幅度”H_A_2×20为：

其中矩阵第一行每个元素表示为该音符基频与谐波的频率，第二行每个元素A₁,A₁...A₅为某频率下对应的幅度值。

将上述的到的乐谱各种信息进行数字化处理，存入数据库中。

如图3所示，是本发明中节奏检测评价模块的结构框图。该模块用于提取音符起点并与标准音符规整对齐，得到节奏评价，依据音符起点将音频分割为多个音符段。具体工作过程为：

R1、分帧加窗：输入经过人机交互模块输出的wav格式演奏音频，根据乐谱节拍、小节信息，将音频按时间切割为小节音频帧；

具体步骤为，首先根据谱面的节拍标识如：

表示一分钟内120个四分音符，

表示以四分音符为一拍每小节4拍，则每个小节时间约为200ms；

然后根据确定相邻两个帧切割标准为200ms，考虑到演奏的不准确性将时间拓展如20％即240ms，同时相邻两帧需要设置重叠率如20％即40ms，具体参数将根据具体的实验结果设置，将音频切割为多个小节帧；

R2、参数设置：处理每帧音频，根据该帧对应的乐谱音符信息设置高通滤波器截止频率、时频分析参数，如：

该帧对应乐谱中小节音符包含：低音谱C、D、#D，高音谱C1；最高的音符C1对应基频261.6Hz作为高通滤波器截止频率，时频分析参数基于最低音符C的基频64.4Hz，考虑到wav格式的音乐一般采样率为44.1kHz，因此窗口长度取2048个采样点，帧移取512个采样点。具体参数依据实验效果设定，设置原则为高通滤波器截止频率与乐谱最高音符基频相关，时频分析参数与乐谱最低音符频率相关；

R3、时频变换：根据上述设置的参数获取音频时频信息；

R4、高通滤波：将时频谱通过高通滤波器得到每一帧的高频能量谱；

R5、一阶差分：对高频能量谱进行一阶差分；

R6、峰值检测：对得到的高频差分能量谱进行峰值检测，记录峰值所在时间：

R7、修正近峰：设置一个时间阈值，将阈值内的相近峰值合并，选取最开始时间作为音符起点，该时间阈值将根据具体的实验结果进行设置；

R8、音符起点动态规整对齐：考虑到音符起点的不准确性，需要对提取的音符与标准音符进行动态规整，方法如图4所示。

R9、划分片段：根据对齐后的音符起点信息，将音频切割为各个音符片段，每个音符片段包含同时按下的一个或多个音符。

R10、得出节奏评价：根据对齐后的音符起点信息，依次计算每个小节中，相邻音符起点时间间隔，即为时间节奏，设置错误阈值，比较演奏音频与标准音频的时间节奏差别，根据公式(1)计算得到十进制的节奏评价分数score(rhy)：

[...]表示四舍五入,S为总小节数，M_i表示第i个小节帧中时间节奏错误率，计算过程如下：

R1001、假设某小节帧经音符起点检测与规整对齐后的结果如下表1所示，n为当前小节帧中包含的音符片段总数，t_s1...t_sn表示数据库中保存的该乐曲音符片段的标准起点时间，t_m1...t_mn表示测量出的演奏音频中音符片段起点时间：

表1.音符起点检测表

音符片段	1	2	3	…	n
						音符标准起点(ms)	t<sub>s1</sub>	t<sub>s2</sub>	t<sub>s3</sub>	…	t<sub>sn</sub>
音符演奏起点(ms)	t<sub>m1</sub>	t<sub>m2</sub>	t<sub>m3</sub>	…	t<sub>mn</sub>

R1002、计算时间节奏信息，将两个音符片段之间的时间间隔作为时间节奏信息，如下表2所示：

表2.演奏时间节奏表

标准时间节奏	t<sub>s2</sub>-t<sub>s1</sub>	t<sub>s3</sub>-t<sub>s2</sub>	…	t<sub>sn</sub>-t<sub>s(n-1)</sub>
					演奏时间节奏	t<sub>m2</sub>-t<sub>m1</sub>	t<sub>m3</sub>-t<sub>m2</sub>	…	t<sub>mn</sub>-t<sub>m(n-1)</sub>

R1003、设置时间节奏门限值T_G，当第i个音符片段演奏时间节奏与标准时间节奏之差T_i在门限值T_G内,则记演奏节奏正确标志R_i为1，否则演奏节奏错误R_i记为0，如公式(2)、(3)所示：

T_i＝|(t_s(i+1)-t_s)-(t_m(i+1)-t_mi)|

i＝1,2...,n-1，n为该小节含音符片段数 (2)

i＝1,2...,n，n为该小节含音符片段数 (3)

统计该小节帧中节奏演奏错误的音符片段所占比例得到时间节奏错误率M，如公式(4)所示：

如图4所示，是本实施例中音符起点动态规整对齐的方法流程图。由于音符起点估计算法存在漏检错检等问题，后序需要根据音符起点对音符切分得到节奏评价，若不将检测的音符起点与乐谱标准音符起点对齐，将降低节奏评价的准确性。由于梅尔系数是基于声音频率的非线性梅尔刻度(Melscale)的对数能量频谱的线性变换，接近人耳的听觉系统，考虑到音符演奏错误跨度一般不超过二度，可以通过梅尔系数相似度来比较演奏音符与标准音符，具体程序流程如下：

R801、根据表1估计出的音符起点，计算各起点音符的梅尔系数，如某音符起点为T秒，则取T到T+p秒(p为偏移)的音频段计算得到梅尔系数，考虑计算的复杂度，当前取梅尔系数为静态的13维，具体维度选择可根据实验结果调整；

R802、根据谱面信息将待测音频分成多个小节，假设检测出某小节包含3个音符起点，则当前小节所有音符的梅尔系数组成13×3维的待测系数矩阵

其元素为

矩阵中每一列表示为一个演奏音符的13维梅尔系数，如式(5)所示：

R803、获取该小节对应的标准音频音符组成的标准系数矩阵，假设标准音频包含4个音符则，标准梅尔系数矩阵为

其元素为

矩阵中每一列表示为一个标准音符的13维梅尔系数，如式(6)所示:

R804、取两个指针P₁,P₂分别指向

的首列；

R805、计算P₁,P₂指向列的梅尔系数平均欧式距离。如:

P₁指向列M_d[P₁]如式(7)所示：

P₂指向列M_s[P₂]如式(8)所示：

则根据公式(9)计算平均欧式距离

R806、判断平均欧式距离是否在阈值内，若在阈值内说明P₁,P₂指向的音符匹配，记录P₁与P₂所指音符匹配信息，将P₁、P₂分别指向下一个音符；

R807、重复步骤R805-R806直到P₁或P₂到达该小节最后一个音符；

R808、若出现P₁,P₂指向音符不匹配的问题，则将P₂向后移位，直到P₁,P₂匹配，若P₂向后移位数超过2则说明P₁所指音符起点为错检，忽略P₁所指音符，将P₁向后移位，再重复步骤R5-R6直到P₁或P₂框架到达该小节最后一个音符；

R809、重复步骤R802-R808，依次处理所有小节，完成规整对齐。

如图5所示，是本发明失谐规整滤波器的示意图。该滤波器依据钢琴为半和谐乐器，高次谐波在基频倍数附近偏移，其中谐波次数越高偏移程度越严重。由理论得知谐波次数在5次以下时失谐并不明显，20次以下失谐不超过20Hz，故综合考虑实现复杂性及实用性，设置当谐波数在5次以下时滤波器截止频率为中心频率正负2Hz，五次以上为正负8Hz，另一方面，通带的形状目前有两种选择，一种是三角形状，另一种是余弦形状，通带个数依据钢琴最高基频4185.5Hz设置中心频率最高为4500Hz，具体可根据实验效果设置合适的滤波器参数。如图是一种失谐规整滤波器示例，已知基频f₁,f₂,f₃,滤波器的中心频率设置为2f₁,2f₂,2f₃,3f₁,3f₂,3f₃...,当中心频率小于5f(f为基频)时截止频率为5f±2Hz，当中心频率大于5f时截止频率为5f±8Hz。

如图6所示，是本实施例中“谱减最大互相关”音符估计方法的流程图；该方法根据钢琴音符各次谐波与基频成倍数关系的特性，利用循环谱减方法估计出可能的基频；多个音符同时演奏时的频谱由多个成谐波关系的音符频谱叠加而成，利用信号的理论可以利用互相关方法分解出其中的基频成分，待测信号与已知信号计算最大互相关，取高于阈值的作为估计音符。最大互相关值R_xy计算方法见公式(10)：

其中X[i]为输入的待测信号“峰值频率-峰值”序列，Y[i]为已知标准音符“谐波-幅度”序列，i为序列中第i个变量，N为变量总数。

例，输入待测信号“峰值频率-峰值”序列如下表3所示：

表3.输入待测信号序列取值表

i

fα1

fβ1

fα2

fβ2

…

fαn

X[i]

Aα1

Aβ1

Aα2

Aβ2

…

Aαn

其中f_α1...f_αn,A_α1...A_αn分别为第一个音符产生的1至n次谐波的峰值频率和幅度,，f_β1...f_βn,A_β1...A_βn分别为第二个音符产生的1至n次谐波的峰值频率和幅度。

由于谐波倍频特性可知f_α(n+1)-f_αn＝nf_α，f_β(n+1)-f_βn＝nf_β；其中f_α，f_β为音符基频，由此得到音符估计的结果。具体工作过程如下：

1)对每个峰值频率，求其与其后向的所有峰值频率的差，组成峰值频率差矩阵D_f(缺失处填0)即：

2)记录矩阵的前N列作为待处理值，将N*M(M为矩阵行数)个值与钢琴基频对比去剔除不可能的值，剩下的即为候选基频，N与M的取值根据实验结果设置；

3)选取候选基频的“谐波-幅度”信息，根据公式(10)计算候选基频对应音符的“谐波-幅度”与上述“峰值频率-峰值”的最大互相关，取最大互相关值高于设定阈值的基频对应音符作为估计出的确定音符，即为估计出的音符；具体阈值将根据实验效果选取。

如图7所示，是本发明主旋律音符估计评价模块的结构框图；用于提取演奏音频主旋律音符并与标准乐谱所示主旋律对比获取主旋律演奏评价，具体工作流程如下：

1)低通滤波获取左半部分：将需要估计主旋律的音频段进行短时傅立叶变换，归一化后通过低通滤波器，得到左半部分幅度谱。考虑音符演奏错误一般在相近音符中发生，根据乐谱信息选取右手谱标准音符的小二度基频值作为低通滤波器截止频率；

2)“谱减最大互相关”估计音符：将上述过程得到的幅度谱，进行“谱减最大互相关”估计，得到左手估计音符。

3)失谐规整分离右半部分频谱估计主旋律：由上述估计得出左手音符设计失谐规整滤波器，将音频傅立叶变换谱通过失谐规整滤波器，根据乐谱中左手最高音符对应的基频，将变换后的频谱划为两个部分，取大于部分进行峰值检测得到右半部分“峰值频率-峰值”，然后减去估计出的左手音符产生的高次谐波峰值；使用步骤(2)中“谱减最大互相关”方法估计出右手音符，即为估计主旋律音符；

4)比较估计的主旋律音符与乐谱主旋律音符，根据如下公式(11)得到十进制的主旋律评价分数score(mel)：

其中[...]表示四舍五入，S为总片段数,M_i表示第i个音符片段中主旋律演奏错误率，计算见公式(12)：

实施例二

本实施例公开了一种基于强弱标准的钢琴视奏能力评价方法，该方法基于上述实施例公开的一种基于强弱标准的钢琴视奏能力评价系统，如图8所示，是本实施例公开的基于强弱标准的钢琴视奏能力评价方法的工作流程图。具体的工作流程如下：

1)输入多个wav格式钢琴音频，训练二维情感值预测模型，并得到数据库中所有乐曲标准音频的乐感值；

2)用户点击人机交互模块开始评价，系统选取数据库中乐谱显示，并载入该乐谱的难度、音符、节奏、乐感表现等信息，麦克风录入用户演奏音频；

3)节奏检测评价模块根据高频能量差分估计音符起点；

4)根据梅尔系数矩阵相似度对估计起点与标准音符起点规整对齐，将演奏音频切分为多个音符片段，并得到演奏音频节奏评价；

5)主旋律音符估计评价模块根据乐谱信息将演奏音频频谱分为左右手两部分，利用“谱减最大互相关”估计出左手音符后，在失谐规整后的右半部分中减去左手音符产生的谐波，然后同样用“谱减最大互相关”方法得到右手音符即主旋律音符，对比演奏主旋律与标准主旋律音符得到主旋律演奏评价。

6)计算演奏音频的乐感表现值与数据库中已存储的该乐曲标准音频的乐感表现值的欧式距离，归一化为分数，作为乐感表现力的评价；

7)综合乐谱难度标签与节奏、音符、乐感表现力评分，利用公式(13)计算综合得分score，并与上述各个模块分别的得分结果一起，通过人机交互模块显示，实现视奏能力评价。

其中s₁,s₂,s₃,s₄分别为乐谱难度标签、节奏评分、主旋律评分、表现力评分，w₁,w₂,w₃,w₄为各个模块评的权值，权值设置将根据实验结果确定。

综上所述，《英皇钢琴考级的评分标准》中钢琴视奏能力的评价合格标准为：能尊重谱面要求，准确识别拍子与音符，音符和发音大致准确，时间节奏大致准确；在符合上述要求的基础上，演奏得足够有趣，呈现乐曲表达的情感。即分为谱面硬性标准如乐曲整体脉络、旋律音符、时间节奏等，和自主发挥的情感标准如乐感表现力等。本发明充分结合音乐艺术欣赏特点，在评判策略上，分为强标准和自主发挥(弱标准)两部分，主旋律音符、音乐时间节奏等音乐的骨架作为强标准，乐感表现力等主观感受作为弱标准，实现对演奏能力评价更接近人的主观感受；在评判准确性上，假设演奏完全错误是小概率事件，充分利用已知的乐谱音符统计信息，针对不同乐谱设置合适的参数，以提高特征提取的准确性，实现对演奏能力的准确评价。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的钢琴视奏能力评价系统包括依次顺序连接的人机交互模块、节奏检测评价模块、主旋律音符估计评价模块、表现力检测评价模块以及分别与上述各个模块连接的综合得分评价模块，其中，

所述的节奏检测评价模块用于提取演奏音频的节奏信息与标准音频的节奏信息比较，将结果归一化得出节奏评价分数，并提取音频文件中音符开始时间，与标准音频音符起点动态规整对齐，将演奏音频分割成多个音符片段；

所述的主旋律音符估计评价模块用于提取每个音符片段音频中的主旋律音符与对应的标准音频主旋律音符对比，将结果归一化得出主旋律评价分数；

所述的表现力检测评价模块用于训练音频的二维情感值预测模型，计算演奏音频的“正负性—唤醒度”乐感表现值，与该乐曲在数据库中存储的标准音频的乐感表现值对比，计算二者之间的欧式距离，归一化得出表现力评价分数；

2.根据权利要求1所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的数据库建立过程如下：

3.根据权利要求1所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的节奏检测评价模块中检测提取音符起点通过一个参数自适应的时频分析器和一个参数自适应的高通滤波器实现，其中，所述的参数自适应调整的依据为需要处理音频对应的乐谱片段包含的音符；所述的时频分析器的可变参数包含傅立叶变换长度、重叠帧长度、帧移长度；所述的高通滤波器的可变参数为截止频率；所述的节奏检测评价模块中音符起点动态规整对齐通过一个梅尔滤波器实现，提取各音符音频片段的梅尔系数，进行下一步音符规整对齐处理。

4.根据权利要求3所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的人机交互模块中预处理过程如下：将麦克风输入的信号滤波去噪、归一化为wav格式演奏音频，根据乐谱节拍、小节信息，将音频按时间切割为小节音频帧；

所述的节奏检测评价模块中音符起点动态规整对齐的过程如下：

5.根据权利要求1所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的主旋律音符估计评价模块包括一个截止频率自适应调整的低通滤波器和一个失谐规整滤波器，其中，所述的低通滤波器的截止频率，根据处理音频对应的乐谱中右手最低音符的基频自适应调整；所述的失谐规整滤波器包括多个通带，通带数量由基频决定，每个通带形状为三角或者余弦，滤波器中心频率为理论谐波频率，失谐规整滤波器各通带根据中心频率对应的谐波次数不同，设置不同的截止频率。

6.根据权利要求5所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的主旋律音符估计评价模块根据已知乐谱信息和左右手演奏特点将音频变换域划分为左手部分和右手部分分别处理，首先用“谱减最大互相关”方法估计出左手演奏的一个或多个音符，然后在右手谱部分减去左手谱音符产生的高次谐波，然后再用“谱减最大互相关”的方法估计出右手音符即为主旋律音符，具体过程为：

用“谱减最大互相关”方法估计音符：将上述的左半部分频谱进行谱峰值检测，记录“峰值频率-峰值”，依次计算每个峰值频率与其后向的所有峰值频率的差，组成谱峰频率差矩阵，记录矩阵的前N列元素作为待处理值，将N×M个值与钢琴基频对比，M为矩阵行数，剔除不可能为基频的值，剩下的即为可能的基频，计算可能的基频对应音符的“谐波-幅度”与上述“峰值频率-峰值”的最大互相关，取最大互相关值高于设定阈值的基频对应音符作为估计出的确定音符，即为估计出的音符；

7.根据权利要求1所述的一种基于强弱标准的钢琴视奏能力评价系统，其特征在于，所述的表现力检测评价模块使用心理学中“正负性—唤醒度”组成的连续空间作为乐感评价，将音乐乐感表现映射为空间中的一个点，采用支持向量回归方法搭建二维情感值预测模型，分别计算出标准音频和对应的演奏音频的“正负性—唤醒度”值，计算二者之间的欧式距离，归一化得出表现力评价分数。