CN109448754B

CN109448754B - 一种多维度演唱评分系统

Info

Publication number: CN109448754B
Application number: CN201811045416.XA
Authority: CN
Inventors: 刘云光
Original assignee: Nanjing Guanghui Interactive Network Technology Co ltd
Current assignee: Nanjing Guanghui Interactive Network Technology Co ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2022-04-19
Anticipated expiration: 2038-09-07
Also published as: CN109448754A

Abstract

本发明公开了一种多维度演唱评分系统，包括预处理子系统、多维度打分子系统和综合评分子系统，其中预处理子系统包括乐谱分析模块和演唱录入模块，所述演唱录入模块包括麦克风、声道转换模块、演唱分析模块和过降噪模块；所述多维度打分子系统包括音准评分模块、节奏评分模块、歌词评分模块、情感评分模块、音域评分模块、音色评分模块和综合打分模块。本发明通过音准、节奏、歌词、情感、音域、音色等指标对唱歌进行多维度评分，并且可以根据不同地区教研要求，灵活调整各维度中的分数占比，适用于不同地区音乐演唱技能评分评定规范，评分准确、科学。

Description

一种多维度演唱评分系统

技术领域

本发明涉及机器学习AI技术，具体涉及一种多维度演唱评分系统。

背景技术

针对现有中小学音乐测评大纲要求，演唱者的音准、节奏、歌词、情感、音色、音域都应该纳入演唱技能评分标准。然而，目前所有的唱歌评分系统多采用音准、节奏等维度进行评分运算，打分标准不全面，无法覆盖到所有教学评分维度，比如很少对情感、音色、音域和歌词等维度进行全面评分。

发明内容

本发明的目的在于提供一种多维度演唱评分系统，能够符合各地区音乐教学大纲要求、全面覆盖所有唱歌技能指标。

实现本发明目的的技术解决方案为：一种多维度演唱评分系统，包括预处理子系统、多维度打分子系统和综合评分子系统，其中预处理子系统包括乐谱分析模块和演唱录入模块，所述演唱录入模块包括麦克风、声道转换模块、演唱分析模块和过降噪模块；所述多维度打分子系统包括音准评分模块、节奏评分模块、歌词评分模块、情感评分模块、音域评分模块、音色评分模块和综合打分模块；

所述乐谱分析模块，用于解析标准乐谱文件，获得乐谱的节拍时值、速度、音强、音调、歌词信息，提取标准音频数据组；

所述麦克风，用于接收演唱演唱音频文件；

所述声道转换模块，用于对演唱者音频文件进行声道转换；

所述演唱分析模块，用于分析演唱者音频文件，获取演唱的节拍时值、速度、音强、音调、歌词信息，提取演唱频率数据模型；

所述过降噪模块，用于对演唱频率数据模型进行降噪处理，确定演唱音频数据组；

所述音准评分模块，用于对比标准音频数据组和演唱音频数据组的频率值，确定音准评分；

所述节奏评分模块，用于提取演唱音频数据组相对标准音频数据组的偏移量，确定节奏评分；

所述歌词评分模块，用于对比标准乐谱文件和演唱者音频文件的歌词，确定歌词评分；

所述情感评分模块，用于对比标准乐谱文件和演唱者音频文件的音强，确定情感评分；

所述音域评分模块，用于提取演唱音频数据组的音域能覆盖范围，确定音域评分；

所述音色评分，用于提取演唱音频的噪声和声纹特征，确定音色评分；

所述综合评分子系统，用于加权音准、节奏、歌词、情感、音域、音色的评分，确定综合评分。

本发明与现有技术相比，其显著优点为：本发明通过音准、节奏、歌词、情感、音域、音色等指标对唱歌进行多维度评分，并且可以根据不同地区教研要求，灵活调整各维度中的分数占比，适用于不同地区音乐演唱技能评分评定规范，评分准确、科学。

附图说明

图1为本发明多维度演唱评分系统的结构示意图。

图2为本发明预处理系统的结构示意图。

图3为本发明多维度打分的构成示意图。

图4为本发明节奏评分计算的示例图。

图5为本发明歌词评分的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步说明本发明的原理和方案。

如图1所示，多维度演唱评分系统，包括预处理子系统和多维度打分子系统，其中预处理子系统包括乐谱分析模块和演唱录入模块，所述演唱录入模块包括麦克风、声道转换模块、音频分析模块和降噪模块；所述多维度打分子系统包括音准评分模块、节奏评分模块、歌词评分模块、情感评分模块、音域评分模块和音色评分模块。下面详细介绍各模块的功能。

1、预处理子系统

预处理子系统负责解析标准乐谱文件和录入音频文件，并对乐谱文件和音频文件进行频域序列化变换，得到标准音准序列化数据和演唱歌曲频率序列化数据，包括乐谱分析模块、演唱录入模块和音频分析模块。

A、乐谱分析模块

乐谱文件由专业打谱软件导出，是构成乐曲简谱的配置文件，包含每一个音符的标识和节拍、速度、调性等乐谱信息。乐谱分析模块对标准乐谱文件进行解析，可获取乐谱的节拍时值、速度、音强、音调、歌词等信息。

已知乐谱共有12种音调：C、#C、D、#D、E、F、#F、G、#G、A、#A、B，根据标准乐谱文件确定其音调后，由于不同的音调对应每个音符频率不同，根据乐谱音调，可以生成一组频率数据，这就是这首曲子的标准频率数据F。

考虑到男女生音域不同，女生普遍比男生高一个八度，同一个音调，频率是男生的两倍。同时考虑到基本上频率范围限定在130HZ～1100HZ内，人声很难突破这个音域。所以对标准频率数据向下降一个八度，再向上升两个八度，将标准频率数据扩充成一组跨4个八度的标准频率数据组：F-1、F0、F1、F2。

由于上面的4个标准频率数据组是根据每个音符转化成的频率值，现在需要对上面4个数据组进行二次处理，将乐谱切分，根据切分的采点落在哪个音符上面进行频率数据采集，来做为标准的音频数据组，方便后面对比评分，所以采点的切分是本模块的重点。实际一首乐谱，每一拍包含的音符时值是不固定的，比如一首曲子中含有最小时值的音符是8分音符，代表这个音符演唱时间是1/2拍，那么我们按照一拍的1/2进行采集就可以覆盖到所有音符，为了覆盖所有乐曲的所有音符数据，将每拍求分帧频率，取节拍的时长的1/8为一帧。因为音符最短的时值是32分音符，也就是一拍唱8个音符，实际上很少有乐谱到达这种速率，基本上一拍分为8份能覆盖所有的音符，这种切分方法是最科学的，得到一个长度为8x(bpm x时长)的音频数据组，即标准音频数据组，为后面的频率对比做准备。

B、演唱录入模块

演唱录入模块是用专业麦克风，以16KHZ的采样率、16位带宽、双声道模式采集学生演唱歌曲，得到标准的wav未压缩音频文件。为了与标准音频数据组进行对比，演唱录入模块还包括声道转换模块、演唱分析模块和降噪模块。

为了对音频文件进行频域序列化变换，声道转换模块需要先根据标准音频需求对演唱者音频文件做声道转换，如果标准音频是单声道，需要将演唱者音频文件转化成单声道。然后音频分析模块进行分析处理，获取演唱的节拍时值、速度、音强、音调、歌词等信息，按照录音设置的采样率和带宽对音频文件的音调进行解析，取每节拍的1/8为一帧，将每一帧采用4096点做傅里叶数据变换，得到最大频域值，此值作为该帧的频率，以此类推，解析演唱音频文件，得到数据模型。过降噪模块再对上述模型的数据进行降噪处理，将频率过高或者过低并且与人声基频差距大的频率数据过滤掉(130HZ～1100HZ)，防止环境对音频解析数据产生影响，得到的演唱音频数据组用于后续打分。

2、多维度打分系统

根据从事专业音乐教学或教材修订人，将演唱评分分为6个维度，这些维度具有区域通用性，最后的综合评分可以根据不同区域要求修改6个维度的权重比例即可调整分数。6个维度分别为音准、节奏、歌词、情感、音域、音色分别对应打分系统的音准评分模块、节奏评分模块、歌词评分模块、情感评分模块、音域评分模块、音色评分模块。多维度评分结构如图3。

A、音准评分模块

音准评分就是对比音调是否唱的准确，平稳。

通过预处理子系统得到的标准音频数据组和演唱音频数据组，以节拍的1/8为最小统计单位进行对比，频率差值不能超过一个最小音程。比如C调的1标准频率是261.6HZ，#C调的1标准频率是277.2HZ，两者的差距就是C调的最小音程，超过最小音程说明此点唱错调了，反之代表此点演唱正确。

音准评分模块计算音准总得分的公式为：

节拍总数：

p＝totaltime/60*bpm

其中，p代表节拍总数，totaltime代表曲子播放时间，bpm代表速度，即一分钟多少拍；

X拍音准得分：

score(x)＝100/p*Ft(x)

其中，score(x)代表x拍的分数，Ft(x)代表x拍唱的结果，唱对为1，唱错为0；

音准总得分为：

其中，score_F表示音准评分。

B、节奏评分模块

节奏评分就是要求节奏稳定，不漏拍、不强拍、无错拍。

节奏评分以小节为单位，主要解决踩点和时值问题，记每一个小节是否踩点准确，时值一致。以小节为最小节奏评分单位的原因是因为拍点的时值太短，有可能演唱者一个发音会与某一个拍一致，计算误差较大，按照小节为最小节奏评分单位最为科学、准确。

计算小节准确度的方法是将演唱者的音频数据组，按照每一个小节的标准起始点做前后偏移，最小偏移单位为32分音符，每个小节经过大量偏移运算找到与标准小节最接近的一组数据，视为这一组数据是演唱者想要演唱的此小节数据，这样我们得到一个偏移量，根据偏移量进行相应的扣分，扣分系数可调。

节奏评分计算示意图如图4所示，节奏评分公式：

实际演唱者的数据位置：

其中，pt(x)为在x小节实际演唱者的数据位置信息，FP(x)为标准音频x小节数据位置信息，fp(i)是前后偏移i个单位的数据。

节奏总得分：

其中，score_T表示节奏评分，k为扣分系数，tf为歌曲小节个数。

C、歌词评分模块

歌词评分要求歌词发音准确，清晰。

乐谱分析模块将歌词拼音信息录入到音频xml文件中，乐谱分析模块将歌词中的每个字解析出来，通过第三方语音测评SDK，可以得到每个字发音准确性信息，通过判断每个字发音准确性、是否漏唱来判断整体歌词演唱的分数。

歌词评分公式：

score_S＝100-100/s*c

其中，score_S为歌词评分，s为歌词数量，c为错误歌词数量。

D、情感评分模块

情感评分要求演唱者演唱声音高低顿挫，根据乐谱音强提示符演唱。此维度为加分项。

在音乐中分重拍和弱拍，节拍起始就是重拍和轻拍周期性地有规律地重复进行，正常情况下节拍有轻重规律：

①、2/4拍是“强、弱”。

②、3/4拍是“强、弱、强”。

③、4/4拍是“强、弱、次强、弱”。

④、2/2拍是“强、弱”。

⑤、6/8拍是“强、弱、弱、次强、弱、弱”。

演唱者根据拍的轻重，音量适当变化，但是如果严格按照这样处理，评分会很死板，真正有情感的演唱，还是要根据作品的情绪律动来完成。

乐谱中有对乐曲中的部分小节要求力度或者强度的变化，分为：

pp很弱

p弱

mp中弱

mf中强

f强

ff很强

sf突强

根据乐谱中强度的变化检测演唱音频，通过音量高低与乐谱音强的匹配度来给演唱者加分。

计算每个音强标识小节的平均音量，与其他小节平均音量做音量差计算，音量变化符合音强变化，则加分，加分系数可调，加分值为score_SF。

比如：一首乐曲有四小节，第二小节标记了f等级的音强，第三个小节标记了ff等级的音强，第四小节恢复原来的音强，那么此乐曲演唱就有两个加分区域。

第x小节情感加分：

其中，s(x)代表在x小节音量平均值，t0代表x小节之前音强符号覆盖小节的起点，fx为x小节音强变化的加分系数。

情感总加分：

其中，X表示标记强度变化的小节。

E、音域评分模块

音域评分检测演唱者音频覆盖区域，此维度为加分项。

本发明前文中，预处理系统中的乐谱分析模块将标准音频文件解析成跨4个八度的标准音频数组，为了满足男女生不同音域的演唱者。当演唱者在调性不变的条件下，跨越三个八度以上的演唱，可以表明演唱者音域是比较宽的，跨越4个八度证明音域很宽，对应会给一些加分，加分系数可调，加分值为score_SS。

比如：经过乐谱分析模块得到4个不同八度的标准数据组(F-1、F0、F1、F2)，这首曲子的标准音调应该是F0，演唱者A的演唱标准数据组与F2数据最接近，那么我们可以证明他跨越了两个八度演唱了这首曲子，他的音域能覆盖至少3个八度(F0、F1、F2)，比如我们设定跨3个八度的加分为n分，那么score_SS＝n。

F、音色评分模块

音色评分是演唱者天生音质的质量，根据音色的资质加分。

音色判断分为两部分：

1、音乐演唱是否频率平稳，声音是否有聒噪、噪声。

2、通过演唱的声纹对比，收集当前知名演唱家的演唱声纹，如果非常接近代表音色很好。

首先判断演唱者音频数据是否有过多杂音和频率异常数据个数，异常数据越少证明音色越稳定。测试稳定性时，演唱者需要演唱多次(至少3次)，将三次演唱音频数据组的数据进行分析，将其中一组音频作为降噪模板，其他两组音频数据组经过模板降噪处理，所谓模板降噪就是将一段音频作为噪音的模板，然后拿这个模板去过滤音频，音频中与模板相近的部分会被删除掉，这样就后会得到两个噪音频率数组，取各自噪音频率数组的期望值期望符号σ1、σ2，将噪音频率数组的每一个数据与期望值进行差值计算。同样，换一组音频作为降噪模板，以此类推计算，若各组与期望差值的平均数均小于stp，代表噪音频率数据越稳定，这里给予加分项st1。

stp代表当前乐曲基频的占比值，比如当前乐曲基频是220HZ，规定低于5％的差值，证明其演唱稳定，那么stp＝220*5％。

测试音色时，收集当前知名演唱家的声纹特征，再将演唱者演唱的声纹特征进行提取对比，需要演唱者至少演唱3次以上来提取声纹信息，将声波的变化转换成电讯号的强度、波长、频率、节奏等变化，并绘制成声纹图，与上面的对比声纹做对比，声纹对比很接近代表音色很好，适当给予加分值st2。

总的音色加分为score_ST＝st1+st2。

声纹识别收到情绪、环境和麦克风信道等硬件影响较大，此加分项建议占比不能多。

3、综合评分子系统

综合评分子系统即将多维度打分系统中的score_F、score_T、score_S、score_SF,score_SS,score_ST根据不同区域从事专业音乐教育和教材修订人士进行标准校正和主观一致性调整，得到区域相关的标准综合评分：

S＝score_F*w1+score_T*w2+score_S*w3+(score_SF*w4+score_SS*w5+score_ST*w6)。

其中，w1(建议范围在33.3％到40％)、w2(建议范围在20％到33.3％)、w3(建议范围在0～20％)、w4(建议范围在1％～5％)、w5(建议范围在1％～5％)、w6(建议范围在1％～5％)，其中w1、w2、w3占比和为100％，它们分别代表音准、节奏、歌词、情感、音域、音色评分占比系数，目前占比系数有一个默认值，是通过大量实验计算比较逼近人主观评判的设定，各地区音乐教学人员可以灵活调整这些系数。

Claims

1.一种多维度演唱评分系统，其特征在于，包括预处理子系统、多维度打分子系统和综合评分子系统，其中预处理子系统包括乐谱分析模块和演唱录入模块，所述演唱录入模块包括麦克风、声道转换模块、演唱分析模块和过降噪模块；所述多维度打分子系统包括音准评分模块、节奏评分模块、歌词评分模块、情感评分模块、音域评分模块、音色评分模块和综合打分模块；

所述麦克风，用于接收演唱音频文件；

所述声道转换模块，用于对演唱者音频文件进行声道转换；

所述综合评分子系统，用于加权音准、节奏、歌词、情感、音域、音色的评分，确定综合评分；

所述乐谱分析模块解析乐谱文件的节拍时值、速度、音强、音调、歌词信息，根据音调生成一组频率数据，即这首曲子的标准频率数据；考虑到男女生音域不同以及基本频率范围，对标准频率数据向下降一个八度，再向上升两个八度，将标准频率数据扩充成一组跨4个八度的标准频率数据组：F-1、F0、F1、F2；再将一拍分为8份，提取切分点上的频率数据，得到标准音频数据组。

2.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述音频分析模块解析演唱音频文件的节拍时值、速度、音强、音调、歌词信息，取每节拍的1/8为一帧，将每一帧的音调采用4096点做傅里叶数据变换，得到最大频域值，此值作为该帧的频率，确定每一帧的频率后得到演唱频率数据模型。

3.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述音准评分模块针对标准音频数据组和演唱音频数据组，以节拍的1/8为最小统计单位进行对比，频率差值不能超过一个最小音程，计算音准评分的公式为：

节拍总数：

p＝totaltime/60*bpm

X拍音准得分：

score(x)＝100/p*Ft(x)

音准总得分为：

其中，score_F表示音准评分。

4.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述节奏评分模块将演唱者的音频数据组，按照每一个小节的标准起始点做前后偏移，最小偏移单位为32分音符，每个小节经过偏移运算找到与标准小节最接近的一组数据，视为这一组数据是演唱者想要演唱的此小节数据，得到一个偏移量，根据偏移量进行相应的扣分，节奏评分公式为：

实际演唱者的数据位置：

其中，pt(x)为在x小节实际演唱者的数据位置信息，FP(x)为标准音频x小节数据位置信息，fp(i)是前后偏移i个单位的数据；

节奏总得分：

5.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述歌词评分模块通过第三方语音测评SDK，得到每个字发音准确性信息，通过判断每个字发音准确性、是否漏唱来判断整体歌词演唱的分数，歌词评分公式：

score_S＝100-100/s*c

其中，score_S为歌词评分，s为歌词数量，c为错误歌词数量。

6.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述情感评分模块根据乐谱中强度的变化检测演唱音频，通过音量高低与乐谱音强的匹配度来给演唱者加分，即计算每个音强标识小节的平均音量，与其他小节平均音量做音量差计算，音量变化符合音强变化，则加分，情感评分公式为：

第x小节情感加分：

其中，p(x)表示第x小节的情感评分，s(x)代表在x小节音量平均值，t0代表x小节之前音强符号覆盖小节的起点，fx为x小节音强变化的加分系数；

情感总加分：

其中，score_SF表示情感评分，X表示标记强度变化的小节。

7.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述音域评分模块当演唱者在调性不变的条件下，跨越三个八度以上的演唱给予加分，加分值为score_SS。

8.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述音色评分模块需要进行稳定性测试和音色测试，测试时演唱者需要至少演唱三次；

稳定性测试时，从三次演唱音频数据组中选择一组作为降噪模板，对其他两组音频数据组进行模板降噪处理，所谓模板降噪就是将一段音频作为噪音的模板，然后拿这个模板去过滤音频，将音频中与模板相近的部分删除掉，得到对应的噪音频率数组，取各自噪音频率数组的期望值为σ1、σ2，将噪音频率数组的每一个数据与对应的期望值进行差值计算，同样的，换一组音频数据组作为降噪模板，以此类推，计算剩余一组数据与对应的期望值作差，若各组与期望差值的平均数均小于当前乐曲基频的占比值，代表噪音频率数据越稳定，给予加分项st1；

音色测试时，从演唱音频文件中提取声纹信息，将声波的变化转换成电讯号的强度、波长、频率、节奏，并绘制成声纹图，与知名演唱家的声纹做对比，若差值小于设定阈值，给予加分值st2；

总的音色评分为score_ST＝st1+st2。

9.根据权利要求1所述的多维度演唱评分系统，其特征在于，所述综合评分子系统计算综合评分的公式为：

S＝score_F*w1+score_T*w2+score_S*w3+(score_SF*w4+score_SS*w5+score_ST*w6)；

其中，w1-w6分别代表音准、节奏、歌词、情感、音域、音色评分占比系数，其中w1的取值范围为33.3％到40％，w2的取值范围为20％到33.3％，w3的取值范围为0～20％，w1、w2、w3占比和为100％，w4的取值范围为1％～5％，w5的取值范围为1％～5％，w6的取值范围为1％～5％。