CN114758560B

CN114758560B - 一种基于动态时间规整的哼唱音准评价方法

Info

Publication number: CN114758560B
Application number: CN202210332565.4A
Authority: CN
Inventors: 吴清强; 黄泽斌; 姚俊峰; 曾祥健; 刘震; 仁望龙
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-06-06
Anticipated expiration: 2042-03-30
Also published as: CN114758560A

Abstract

本发明提供了音准识别技术领域的一种基于动态时间规整的哼唱音准评价方法，包括如下步骤：步骤S10、获取大量的哼唱数据，并对各所述哼唱数据进行预处理；步骤S20、提取预处理后的所述哼唱数据中的音频特征；步骤S30、对各所述音频特征进行预处理；步骤S40、基于动态时间规整算法创建一音准评价模型，利用预处理后的所述音频特征对音准评价模型进行训练；步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价，生成评价结果。本发明的优点在于：极大的提升了音准评价的准确性。

Description

一种基于动态时间规整的哼唱音准评价方法

技术领域

本发明涉及音准识别技术领域，特别指一种基于动态时间规整的哼唱音准评价方法。

背景技术

音准练习作为音乐教育的基础，对于歌唱者而言是非常重要的，在日常的哼唱练习中，只有把音准练好，才能使歌声更加丰富悦耳。进入数字时代后，音乐在线教育逐渐凸显优势，越来越受到重视。由于音乐教育本身的专业性和艺术性，在学生的哼唱评价方面，仍然需要教师的人工参与才能完成，无法给学生一个实时的教学反馈。

虽然市面上存在一些音准评价系统，但是现有的音准评价系统是围绕娱乐方向进行评价的，侧重点在于与用户的娱乐互动，不会特别关注哼唱评价结果的准确性，对于评价结果也缺乏可解释性，不适用于中小学生的哼唱考试。

因此，如何提供一种哼唱音准智能评价方法，实现提升音准评价的准确性，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于动态时间规整的哼唱音准评价方法，实现提升音准评价的准确性。

本发明是这样实现的：一种基于动态时间规整的哼唱音准评价方法，包括如下步骤：

步骤S10、获取大量的哼唱数据，并对各所述哼唱数据进行预处理；

步骤S20、提取预处理后的所述哼唱数据中的音频特征；

步骤S30、对各所述音频特征进行预处理；

步骤S40、基于动态时间规整算法创建一音准评价模型，利用预处理后的所述音频特征对音准评价模型进行训练；

步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价，生成评价结果。

进一步地，所述步骤S10具体为：

获取大量的哼唱数据，并对各所述哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理。

进一步地，所述格式转换具体为：转换为wav格式，并设定音频采样率为44100、声道数为2。

进一步地，所述步骤S20具体包括：

步骤S21、预判预处理后的所述哼唱数据的音频时长是否短于预设的实际时长，若否，说明不存在漏唱，进入步骤S22；若是，说明存在漏唱，进入步骤S23；

步骤S22、利用Python编程语言提取所述哼唱数据中每一个字出现的时间点，基于各所述时间点将哼唱数据分割为若干个第一音频片段，利用Python编程语言的依赖库提取各所述第一音频片段的频率并求取第一平均值，将所述第一平均值作为音频特征；

步骤S23、利用Python编程语言的依赖库对所述哼唱数据进行分帧，以一帧为单位将所述哼唱数据分割为若干个第二音频片段，利用依赖库提取各所述第二音频片段的频率并求取第二平均值，将所述第二平均值作为音频特征。

进一步地，所述步骤S30具体为：

将各所述音频特征与对应的标准频率进行做差比较，进而对各所述音频特征进行音高标记，进而完成各所述音频特征的预处理；

进一步地，所述音高为高八度或者低八度。

进一步地，所述步骤S40中，所述音准评价模型用于求取音频特征与标准频率之间的最优路径和距离矩阵，基于拟合函数对所述最优路径上的频率值进行拟合得到拟合值，将各所述拟合值求取第三平均值作为音准值；

基于专家评分对所述音准值进行误差计算得到误差值，基于所述误差值进行再次拟合，直至所述误差值满足预设的收敛条件。

进一步地，所述步骤S50具体为：

对待评价音频进行预处理后提取待评价音频特征，对各所述待评价音频特征进行预处理后输入训练后的音准评价模型，生成包括若干个音频片段、对应音准值以及总音准值的评价结果，并输出显示所述评价结果。

本发明的优点在于：

1、通过对哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理再提取音频特征，再对音频特征进行预处理以区分高八度和低八度，再利用基于动态时间规整算法创建的音准评价模型对音频特征进行评价，生成包括若干个音频片段以及对应音准值的评价结果，进而极大的提升了音准评价的准确性以及可解释性。

2、由于得到若干个音频片段以及对应音准值，可直接将哼唱不好的音节筛选出来进行实时反馈，不仅减轻了教师的工作量，还可让学生脱离老师进行自主学习，及时的知道自己哼唱的缺陷并进行练习和调整。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于动态时间规整的哼唱音准评价方法的流程图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：对哼唱数据进行预处理后提取音频特征，再对音频特征进行预处理以区分高八度和低八度，然后利用基于动态时间规整算法创建的音准评价模型对音频特征进行评价生成评价结果，以提升音准评价的准确性。

请参照图1所示，本发明一种基于动态时间规整的哼唱音准评价方法的较佳实施例，包括如下步骤：

步骤S10、获取大量的哼唱数据，并对各所述哼唱数据进行预处理；所述哼唱数据可从多种渠道获取，例如音乐网站、论文相关数据集、人工采集；

步骤S20、提取预处理后的所述哼唱数据中的音频特征，即提取频率信息；

步骤S30、对各所述音频特征进行预处理；

步骤S40、基于动态时间规整算法创建一音准评价模型，利用预处理后的所述音频特征对音准评价模型进行训练；本发明的所述音准评价模型相对于传统的DNN模型和HMM-GMM模型，需要用于训练的数据集数量更少，识别准确性更高；

所述步骤S10具体为：

由于所述哼唱数据是通过多种渠道获取的，格式可能多种多样，为了方便后续建模，因此转换成统一的格式；如果所述哼唱数据中存在伴奏，那么会对所述哼唱数据的音准的评价结果产生较大的影响，为了进一步提高音准评价的准确性，需要去除伴奏只保留人声的部分；在收集到的所述哼唱数据中，首尾可能存在无声段，这些无声段相当于无效数据，为此统一将首尾无声片段去除，仅保留中间哼唱部分；如果所述哼唱数据中存在噪声，将对音准评价产生消极影响，因此统一将噪声降低到某一阈值内。

所述格式转换具体为：转换为wav格式，并设定音频采样率为44100、声道数为2。

所述步骤S20具体包括：

即本发明基于是否存在漏唱采取不同的方法提取音频特征，以确保任何时候都能较好的完成音准评价。

所述步骤S30具体为：

所述音高为高八度或者低八度；通过区分高八度和低八度，进一步提升了音准评价的准确性。

所述步骤S40中，所述音准评价模型用于求取音频特征与标准频率之间的最优路径和距离矩阵，基于拟合函数对所述最优路径上的频率值进行拟合得到拟合值，将各所述拟合值求取第三平均值作为音准值；

所述动态时间规整算法主要用于解决发音长短不同的序列匹配问题，是一种基于动态规划思想的经典算法，能够快速求解测试序列和参考序列之间的对应关系，并准确的衡量两个序列之间的相似度。

所述步骤S50具体为：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于动态时间规整的哼唱音准评价方法，其特征在于：包括如下步骤：

步骤S20、提取预处理后的所述哼唱数据中的音频特征；

步骤S30、对各所述音频特征进行预处理；

步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价，生成评价结果；

所述步骤S20具体包括：

步骤S23、利用Python编程语言的依赖库对所述哼唱数据进行分帧，以一帧为单位将所述哼唱数据分割为若干个第二音频片段，利用依赖库提取各所述第二音频片段的频率并求取第二平均值，将所述第二平均值作为音频特征；

基于专家评分对所述音准值进行误差计算得到误差值，基于所述误差值进行再次拟合，直至所述误差值满足预设的收敛条件；

所述步骤S50具体为：

2.如权利要求1所述的一种基于动态时间规整的哼唱音准评价方法，其特征在于：所述步骤S10具体为：

3.如权利要求2所述的一种基于动态时间规整的哼唱音准评价方法，其特征在于：所述格式转换具体为：转换为wav格式，并设定音频采样率为44100、声道数为2。

4.如权利要求1所述的一种基于动态时间规整的哼唱音准评价方法，其特征在于：所述步骤S30具体为：

将各所述音频特征与对应的标准频率进行做差比较，进而对各所述音频特征进行音高标记，进而完成各所述音频特征的预处理。

5.如权利要求4所述的一种基于动态时间规整的哼唱音准评价方法，其特征在于：所述音高为高八度或者低八度。