CN116246598A

CN116246598A - 一种基于片段式的多阶段自动音准评分方法

Info

Publication number: CN116246598A
Application number: CN202310176329.2A
Authority: CN
Inventors: 黄泽斌; 吴清强; 曾祥健; 徐民洪; 黄仙寿
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-09

Abstract

本发明提供了歌唱评价技术领域的一种基于片段式的多阶段自动音准评分方法，包括如下步骤：步骤S10、获取待评分的音频数据以及曲谱数据；步骤S20、对所述音频数据进行有无歌声的校验；步骤S30、通过深度学习模型对所述音频数据进行降噪处理；步骤S40、剔除所述音频数据的非歌唱段；步骤S50、检测所述音频数据中各音符的音符时间点；步骤S60、基于各所述音符时间点提取音频数据的音频特征，并对所述曲谱数据进行整理得到曲谱文件；步骤S70、基于所述曲谱文件和音频特征对音频数据进行自动评分，生成并展示评分结果。本发明的优点在于：极大的提升了歌唱音准评分的准确性。

Description

一种基于片段式的多阶段自动音准评分方法

技术领域

本发明涉及歌唱评价技术领域，特别指一种基于片段式的多阶段自动音准评分方法。

背景技术

随着中小学生的素质教育被越来越重视，音乐教育也被越来越重视。音乐教育本身存在着很强大的艺术性和专业性，对于学生哼唱的音频，在进行专业性评分时，需要教师的人工参与才能完成，当需要进行大规模评分时，需要耗费巨大的人力资源，同时这种传统的评分机制也无法给学生实时教学反馈。

随着人工智能技术的发展，各类音乐辅助教育系统被研发，并在学校的教育场景中发挥着一定的作用。然而，传统的音乐辅助教育系统大多是围绕娱乐方向进行开发设计的，在实际应用时主要关注娱乐体验，并不能保证歌唱评分结果的准确性，无法达到模拟教师的评分水平，不适合将其应用于中小学生的歌唱教育当中，尤其是考试中，不准确的评分将会带来一定的不公平性问题。

因此，如何提供一种基于片段式的多阶段自动音准评分方法，实现提升歌唱音准评分的准确性，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于片段式的多阶段自动音准评分方法，实现提升歌唱音准评分的准确性。

本发明是这样实现的：一种基于片段式的多阶段自动音准评分方法，包括如下步骤：

步骤S10、获取待评分的音频数据以及曲谱数据；

步骤S20、对所述音频数据进行有无歌声的校验；

步骤S30、通过深度学习模型对所述音频数据进行降噪处理；

步骤S40、剔除所述音频数据的非歌唱段；

步骤S50、检测所述音频数据中各音符的音符时间点；

步骤S60、基于各所述音符时间点提取音频数据的音频特征，并对所述曲谱数据进行整理得到曲谱文件；

步骤S70、基于所述曲谱文件和音频特征对音频数据进行自动评分，生成并展示评分结果。

进一步地，所述步骤S10具体为：

获取待评分的音频数据以及所述音频数据对应的曲谱数据。

进一步地，所述步骤S20具体为：

通过python依赖库提取所述音频数据的第一频率，将提取的所述第一频率转换为第一音高值序列，测量所述第一音高值序列的长度A、测量去除空值后的所述第一音高值序列的长度B，判断B/A是否大于0.21，若是，说明所述音频数据存在歌声，并进入步骤S30；若否，说明所述音频数据不存在歌声，生成并展示0分的评分结果，并结束流程。

进一步地，所述步骤S30具体为：

通过Demucs模型对所述音频数据进行一次降噪处理后，再通过Spleeter模型对所述音频数据进行二次降噪处理。

进一步地，所述步骤S40具体包括：

步骤S41、通过深度学习模型检测所述音频数据的第一起唱时间点；

步骤S42、通过传统算法模型检测所述音频数据的第二起唱时间点；

步骤S43、基于所述第一起唱时间点和第二起唱时间点从音频数据剪切一段第一音频片段，通过python依赖库提取所述第一音频片段的第二频率，将提取的所述第二频率转换为第二音高值序列，测量所述第二音高值序列的长度a、测量去除空值后的所述第二音高值序列的长度b，判断b/a是否大于0.65，若是，则将所述第一起唱时间点和第二起唱时间点中的较小值作为第三起唱时间点；若否，则将所述第一起唱时间点和第二起唱时间点中的较大值作为第三起唱时间点；

步骤S44、剔除所述音频数据中，所述第三起唱时间点之前的非歌唱段。

进一步地，所述步骤S50具体包括：

步骤S51、通过python依赖库，根据所述音频数据的音频时域的静音处对音频数据进行切片并转换为频谱图片；

步骤S52、对各所述频谱图片进行二次谐波处理后，通过目标检测模型检测所述频谱图片中能量的突变位置和衰落位置，将所述突变位置作为音符的起始位置，将位于所述衰落位置后，取值为0的位置为音符的结束位置；

步骤S53、将所述起始位置和结束位置转换为对应的音符时间点；

步骤S54、通过python依赖库检测所述音频数据的频谱能量峰值时间点，基于所述频谱能量峰值时间点对音符时间点进行修正和补充。

进一步地，所述步骤S60具体为：

基于各所述音符时间点对音频数据进行切片得到若干个第二音频片段，通过python依赖库提取所述第二音频片段的第三音高值序列，将各所述第三音高值序列中的众数作为音频数据的音频特征；

通过曲谱识别工具对所述曲谱数据进行扫描，识别所述曲谱数据中每个字对应的音高值和时间点，进而得到JSON格式的曲谱文件。

进一步地，所述步骤S70具体为：

基于音频格式的采样率对所述音频特征进行音高值膨胀处理，再通过动态时间规整算法对所述音频特征和曲谱文件的音高值进行对齐处理，接着计算所述音频特征和曲谱文件的音高值的音高差值，基于所述音高差值对音频数据的音准进行自动评分，生成并展示评分结果。

本发明的优点在于：

通过对音频数据进行有无歌声的校验，避免对无歌唱得音频数据进行评分，减少计算资源得浪费；通过深度学习模型对音频数据进行降噪处理，便于后续音频特征得提取；通过剔除音频数据的非歌唱段，避免对杂声进行评分；通过检测音频数据中各音符的音符时间点，并基于频谱能量峰值时间点对音符时间点进行修正和补充，有效提升音符时间点的定位精度；通过音符时间点提取音频数据的音频特征，并对音频数据对应的曲谱数据进行整理得到曲谱文件，最后基于曲谱文件和音频特征对音频数据进行自动评分，生成并展示评分结果，即基于音符的细粒度对音频特征进行量化，再对音频特征和曲谱文件进行音高值的进行对齐处理并计算音高差值，再基于音高差值进行自动评分，即评分的过程结合了机器学习、深度学习、传统算法、相关音频处理技术和音频特征提取方法，最终极大的提升了歌唱音准评分的准确性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于片段式的多阶段自动音准评分方法的流程图。

图2是本发明音符时间点检测的流程图。

图3是本发明音符时间点修正和补充的流程图。

图4是本发明音频数据评分的流程图。

图5是本发明起唱点检测的流程图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过对音频数据进行有无歌声的校验、降噪处理、剔除非歌唱段，避免无效信息对评分的影响；通过频谱能量峰值时间点对音符时间点(音符的开始时间和结束时间)进行修正和补充以提升音符定位精度；通过音符时间点将音频数据切分成若干个小片段，然后提取音频数据的音频特征，并对音频数据对应的曲谱数据进行整理得到曲谱文件，最后基于曲谱文件和音频特征对音频数据的音准进行自动评分，即基于音符的细粒度对音频特征进行量化，再对音频特征和曲谱文件进行音高值对齐处理后计算音高差值，再基于音高差值进行自动评分，进而提升歌唱音准评分的准确性。

请参照图1至图5所示，本发明一种基于片段式的多阶段自动音准评分方法的较佳实施例，包括如下步骤：

步骤S10、获取待评分的音频数据以及曲谱数据；

步骤S20、对所述音频数据进行有无歌声的校验；

步骤S30、通过深度学习模型对所述音频数据进行降噪处理；

步骤S40、剔除所述音频数据的非歌唱段；

歌唱音频在理想环境的录制过程中，是当显示开始唱歌时，学生就开始唱歌，而没有显示唱歌时，学生则不要说任何话语，避免说话等杂声被录制进来；但在实际应用中，在进入唱歌环节之前，常常会有学生的说话声或者哼鸣声被录制进来，而这些声音实际上是属于非歌唱段的噪声，所以应当将其剪切掉；

步骤S50、检测所述音频数据中各音符的音符时间点；

音符时间点检测又称为音符起始点检测，它是音乐信号处理中非常重要的一个算法；音符起始点表示琴键按下的那个时刻，音符起始点的一个特征就是能量的突然增加，或者是频谱能量分布的改变；

步骤S60、基于各所述音符时间点提取音频数据的音频特征，并对所述曲谱数据进行整理得到曲谱文件；基于音符的细粒度进行评分，有效提升评分的准确性；

通过对音频数据的音准进行自动评分，生成并展示评分结果，极大的提升了评分的实时性，能够让学生及时了解自身的歌唱情况，以便对自身的学习进行调整。

所述步骤S10具体为：

获取待评分的音频数据以及所述音频数据对应的曲谱数据。音频数据可不同渠道来获取，如音乐网站、人工采集数据等渠道，本发明先收集中小学生歌唱的音频数据，同时，根据音频数据的曲谱整理好相应的曲谱数据，作为音准评分的参考依据。

所述步骤S20具体为：

在实际应用当中，有些录制的音频数据是没有任何歌唱声的(即有的学生打开麦克风，但实际并没有唱歌)，所以在进行评分之前，要将这些音频数据筛选出来，减少计算资源的浪费。

所述步骤S30具体为：

通过Demucs模型对所述音频数据进行一次降噪处理后，再通过Spleeter模型对所述音频数据进行二次降噪处理。Demucs模型和Spleeter模型属于人声分离模型，用于将人声从音频数据里提取出来，以将伴奏等非歌唱声消除，本发明结合Demucs模型和Spleeter模型进行降噪，以获得纯净的人声。

由于歌唱音频在录制过程中，会不可避免将一些噪声录制进来，而这些噪声的存在会对后面评分的准确性产生比较大的影响，所以需要进行降噪处理。

所述步骤S40具体包括：

所述步骤S41具体为：

先将所述音频数据转换为CQT图片，接着利用基于深度学习创建的目标检测模型检测所述CQT图片中的第一个能量突变位置，将所述能量突变位置在CQT图片的位置映射为音频数据上的时间点，进而完成第一起唱时间点的检测。

这种深度学习模型虽然能够完成比较好的起唱时间点检测，但在实际应用中也会出现一些检测错误，例如在学生在歌唱开始时，有的学生会先随着前面的伴奏声哼唱，以便更好地进入到唱歌的状态，而这种时候深度学习模型会认为前面的哼唱部分是属于唱歌，这样就导致检测错误，因为真正的起唱时间点其实是在学生哼唱后；而为了解决这个问题，本发明在深度学习模型的基础上结合传统算法模型。

所述步骤S42具体为：

检测第一个非静音时间点：

利用传统算法模型来检测第一个非静音的时间点，即利用Python依赖库，根据音频时域的静音处进行切分成片，接着我们对每个片段进行差分计算，然后对计算结果进行处理，将小于20480的数值给去掉，剩余音频片段的第一个位置，则是要检测的第一个非静音时间点。

检测音频频谱能量突变的时间点：

利用Python依赖库对音频数据的频谱能量峰值进行检测，一个峰值就相当于一个时间点信息，接着利用差分算法计算该时间序列的间隔，根据间隔数进行判断，如果间隔数小于10，则输出第一个时间点和该序列最大的时间间隔，如果时间点数大于10，我们则取序列前12个值，然后输出该序列最大的时间间隔和对应位置的时间点；最后根据时间间隔进行判断，如果该最大的时间间隔大于2.96，则将根据频谱能量突变检测到的时间点作为传统算法模型检测的最终时间点，否则采用音频的第一个非静音时间点。

差分算法是一个经典的优化算法，其利用序列中的下一个值减去上一个值，本发明用于音频的起唱时间点检测，用它来找出序列中的最大间隔值，从而寻找到音频中真正的起唱时间点。

所述步骤S50具体包括：

步骤S51、通过python依赖库，根据所述音频数据的音频时域的静音处对音频数据进行切片并转换为频谱图片，记录所述频谱图片的尺寸长度以便后期的时间点映射；

步骤S52、对各所述频谱图片进行二次谐波处理后，通过目标检测模型检测所述频谱图片中能量的突变位置和衰落位置，将所述突变位置作为音符的起始位置，将位于所述衰落位置后，取值为0的位置为音符的结束位置，即从所述衰落位置开始衰落到无的时候，对应的位置为结束位置；由于所述频谱图片的分辨率较低，因此对所述频谱图片进行二次谐波处理；

步骤S53、将所述起始位置和结束位置转换为对应的音符时间点；即将所有切片拼接在一起，通过线性比例的计算方式对所有的起始位置和结束位置进行标记，从而根据标记的位置计算对应位置的音符时间点；

对音符的起始位置进行修正：利用Python依赖库检测音频数据的频谱能量峰值时间点，根据每个音符的起始位置和结束位置，查看是否有频谱能量峰值时间点落在起始位置和结束位置的中间，若有，则挑选第一个频谱能量峰值时间点，然后计算音符起始位置和频谱能量峰值时间点之间的频率序列，之后选择第一个非空值的位置作为该音符的最终起始位置(音符时间点)。

对音符结束位置进行修正：利用Python依赖库检测音频数据的频谱能量峰值时间点，根据每个音符的结束位置和它下一个音符的起始位置，查看是否有频谱能量峰值时间点落在其中，若有，则挑选出第一个频谱能量峰值时间点，然后计算该音符的结束位置和频谱能量峰值时间点之间的频率序列，选择最后一个非空值的位置作为该音符的最终结束位置(音符时间点)。

对漏检音符进行补充：利用Python依赖库检测音频数据的频谱能量峰值时间点，查看是否有频谱能量峰值时间点落在每一个音符的结束位置和它下一个音符的起始位置，若其频谱能量峰值时间点的个数大于1，则从第二个频谱能量峰值时间点后，每两个频谱能量峰值时间点形成一个音符的开始和结束的音符时间点，然后将其补充进来，以消除漏检的音符。

输出最终的音符时间点：将修正和补充的音符时间点补充进来，然后再将所有音符时间点的信息输出到后面的程序中。

所述步骤S60具体为：

所述步骤S70具体为：

基于音频格式的采样率(如wav格式音频的采样率为44100)对所述音频特征进行音高值膨胀处理，再通过动态时间规整算法(DTW算法)对所述音频特征和曲谱文件的音高值进行对齐处理，接着计算所述音频特征和曲谱文件的音高值的音高差值，基于所述音高差值对音频数据的音准进行自动评分，生成并展示评分结果。

音高值膨胀处理即对一个音高值按照时间点的长短进行拉伸，以便后续的对齐工作。

动态时间规整算法是一种广泛用于解决两个序列匹配问题的算法，是一个动态规划的经典算法，能够快速求解两个序列的对应关系，本发明使用这个算法来进行学生歌唱的音高值序列和标准的曲谱文件携带的音高序列的对齐，然后在此基础上进行音准评分。本发明通过动态时间规整算法计算两个序列之间相似的最短路径，接着根据最短路径来对曲谱文件的音高序列进行重新选取，以得到对齐后的两个音高值序列。

基于所述音高差值对音频数据的音准进行自动评分的评分规则具体为：

如果音高差值是在0至0.5之间，则给此音频片段满分；如果音高差值是在0.5至5之间，则给此音频片段动态分，动态分＝0.5*(1-音高差值/5)*100；如果音高差值是大于5，则给此音频片段0分；

对于有得分的音频片段进行标记，对这些音频片段的分数进行整合，生成最终的评分结果。

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于片段式的多阶段自动音准评分方法，其特征在于：包括如下步骤：

步骤S10、获取待评分的音频数据以及曲谱数据；

步骤S20、对所述音频数据进行有无歌声的校验；

步骤S30、通过深度学习模型对所述音频数据进行降噪处理；

步骤S40、剔除所述音频数据的非歌唱段；

步骤S50、检测所述音频数据中各音符的音符时间点；

2.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S10具体为：

获取待评分的音频数据以及所述音频数据对应的曲谱数据。

3.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S20具体为：

4.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S30具体为：

5.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S40具体包括：

6.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S50具体包括：

7.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S60具体为：

8.如权利要求1所述的一种基于片段式的多阶段自动音准评分方法，其特征在于：所述步骤S70具体为：