CN114758560B - 一种基于动态时间规整的哼唱音准评价方法 - Google Patents
一种基于动态时间规整的哼唱音准评价方法 Download PDFInfo
- Publication number
- CN114758560B CN114758560B CN202210332565.4A CN202210332565A CN114758560B CN 114758560 B CN114758560 B CN 114758560B CN 202210332565 A CN202210332565 A CN 202210332565A CN 114758560 B CN114758560 B CN 114758560B
- Authority
- CN
- China
- Prior art keywords
- audio
- humming
- pitch
- preprocessing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000013210 evaluation model Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B15/00—Teaching music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Electrically Operated Instructional Devices (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供了音准识别技术领域的一种基于动态时间规整的哼唱音准评价方法,包括如下步骤:步骤S10、获取大量的哼唱数据,并对各所述哼唱数据进行预处理;步骤S20、提取预处理后的所述哼唱数据中的音频特征;步骤S30、对各所述音频特征进行预处理;步骤S40、基于动态时间规整算法创建一音准评价模型,利用预处理后的所述音频特征对音准评价模型进行训练;步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价,生成评价结果。本发明的优点在于:极大的提升了音准评价的准确性。
Description
技术领域
本发明涉及音准识别技术领域,特别指一种基于动态时间规整的哼唱音准评价方法。
背景技术
音准练习作为音乐教育的基础,对于歌唱者而言是非常重要的,在日常的哼唱练习中,只有把音准练好,才能使歌声更加丰富悦耳。进入数字时代后,音乐在线教育逐渐凸显优势,越来越受到重视。由于音乐教育本身的专业性和艺术性,在学生的哼唱评价方面,仍然需要教师的人工参与才能完成,无法给学生一个实时的教学反馈。
虽然市面上存在一些音准评价系统,但是现有的音准评价系统是围绕娱乐方向进行评价的,侧重点在于与用户的娱乐互动,不会特别关注哼唱评价结果的准确性,对于评价结果也缺乏可解释性,不适用于中小学生的哼唱考试。
因此,如何提供一种哼唱音准智能评价方法,实现提升音准评价的准确性,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种基于动态时间规整的哼唱音准评价方法,实现提升音准评价的准确性。
本发明是这样实现的:一种基于动态时间规整的哼唱音准评价方法,包括如下步骤:
步骤S10、获取大量的哼唱数据,并对各所述哼唱数据进行预处理;
步骤S20、提取预处理后的所述哼唱数据中的音频特征;
步骤S30、对各所述音频特征进行预处理;
步骤S40、基于动态时间规整算法创建一音准评价模型,利用预处理后的所述音频特征对音准评价模型进行训练;
步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价,生成评价结果。
进一步地,所述步骤S10具体为:
获取大量的哼唱数据,并对各所述哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理。
进一步地,所述格式转换具体为:转换为wav格式,并设定音频采样率为44100、声道数为2。
进一步地,所述步骤S20具体包括:
步骤S21、预判预处理后的所述哼唱数据的音频时长是否短于预设的实际时长,若否,说明不存在漏唱,进入步骤S22;若是,说明存在漏唱,进入步骤S23;
步骤S22、利用Python编程语言提取所述哼唱数据中每一个字出现的时间点,基于各所述时间点将哼唱数据分割为若干个第一音频片段,利用Python编程语言的依赖库提取各所述第一音频片段的频率并求取第一平均值,将所述第一平均值作为音频特征;
步骤S23、利用Python编程语言的依赖库对所述哼唱数据进行分帧,以一帧为单位将所述哼唱数据分割为若干个第二音频片段,利用依赖库提取各所述第二音频片段的频率并求取第二平均值,将所述第二平均值作为音频特征。
进一步地,所述步骤S30具体为:
将各所述音频特征与对应的标准频率进行做差比较,进而对各所述音频特征进行音高标记,进而完成各所述音频特征的预处理;
进一步地,所述音高为高八度或者低八度。
进一步地,所述步骤S40中,所述音准评价模型用于求取音频特征与标准频率之间的最优路径和距离矩阵,基于拟合函数对所述最优路径上的频率值进行拟合得到拟合值,将各所述拟合值求取第三平均值作为音准值;
基于专家评分对所述音准值进行误差计算得到误差值,基于所述误差值进行再次拟合,直至所述误差值满足预设的收敛条件。
进一步地,所述步骤S50具体为:
对待评价音频进行预处理后提取待评价音频特征,对各所述待评价音频特征进行预处理后输入训练后的音准评价模型,生成包括若干个音频片段、对应音准值以及总音准值的评价结果,并输出显示所述评价结果。
本发明的优点在于:
1、通过对哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理再提取音频特征,再对音频特征进行预处理以区分高八度和低八度,再利用基于动态时间规整算法创建的音准评价模型对音频特征进行评价,生成包括若干个音频片段以及对应音准值的评价结果,进而极大的提升了音准评价的准确性以及可解释性。
2、由于得到若干个音频片段以及对应音准值,可直接将哼唱不好的音节筛选出来进行实时反馈,不仅减轻了教师的工作量,还可让学生脱离老师进行自主学习,及时的知道自己哼唱的缺陷并进行练习和调整。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种基于动态时间规整的哼唱音准评价方法的流程图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:对哼唱数据进行预处理后提取音频特征,再对音频特征进行预处理以区分高八度和低八度,然后利用基于动态时间规整算法创建的音准评价模型对音频特征进行评价生成评价结果,以提升音准评价的准确性。
请参照图1所示,本发明一种基于动态时间规整的哼唱音准评价方法的较佳实施例,包括如下步骤:
步骤S10、获取大量的哼唱数据,并对各所述哼唱数据进行预处理;所述哼唱数据可从多种渠道获取,例如音乐网站、论文相关数据集、人工采集;
步骤S20、提取预处理后的所述哼唱数据中的音频特征,即提取频率信息;
步骤S30、对各所述音频特征进行预处理;
步骤S40、基于动态时间规整算法创建一音准评价模型,利用预处理后的所述音频特征对音准评价模型进行训练;本发明的所述音准评价模型相对于传统的DNN模型和HMM-GMM模型,需要用于训练的数据集数量更少,识别准确性更高;
步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价,生成评价结果。
所述步骤S10具体为:
获取大量的哼唱数据,并对各所述哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理。
由于所述哼唱数据是通过多种渠道获取的,格式可能多种多样,为了方便后续建模,因此转换成统一的格式;如果所述哼唱数据中存在伴奏,那么会对所述哼唱数据的音准的评价结果产生较大的影响,为了进一步提高音准评价的准确性,需要去除伴奏只保留人声的部分;在收集到的所述哼唱数据中,首尾可能存在无声段,这些无声段相当于无效数据,为此统一将首尾无声片段去除,仅保留中间哼唱部分;如果所述哼唱数据中存在噪声,将对音准评价产生消极影响,因此统一将噪声降低到某一阈值内。
所述格式转换具体为:转换为wav格式,并设定音频采样率为44100、声道数为2。
所述步骤S20具体包括:
步骤S21、预判预处理后的所述哼唱数据的音频时长是否短于预设的实际时长,若否,说明不存在漏唱,进入步骤S22;若是,说明存在漏唱,进入步骤S23;
步骤S22、利用Python编程语言提取所述哼唱数据中每一个字出现的时间点,基于各所述时间点将哼唱数据分割为若干个第一音频片段,利用Python编程语言的依赖库提取各所述第一音频片段的频率并求取第一平均值,将所述第一平均值作为音频特征;
步骤S23、利用Python编程语言的依赖库对所述哼唱数据进行分帧,以一帧为单位将所述哼唱数据分割为若干个第二音频片段,利用依赖库提取各所述第二音频片段的频率并求取第二平均值,将所述第二平均值作为音频特征。
即本发明基于是否存在漏唱采取不同的方法提取音频特征,以确保任何时候都能较好的完成音准评价。
所述步骤S30具体为:
将各所述音频特征与对应的标准频率进行做差比较,进而对各所述音频特征进行音高标记,进而完成各所述音频特征的预处理;
所述音高为高八度或者低八度;通过区分高八度和低八度,进一步提升了音准评价的准确性。
所述步骤S40中,所述音准评价模型用于求取音频特征与标准频率之间的最优路径和距离矩阵,基于拟合函数对所述最优路径上的频率值进行拟合得到拟合值,将各所述拟合值求取第三平均值作为音准值;
基于专家评分对所述音准值进行误差计算得到误差值,基于所述误差值进行再次拟合,直至所述误差值满足预设的收敛条件。
所述动态时间规整算法主要用于解决发音长短不同的序列匹配问题,是一种基于动态规划思想的经典算法,能够快速求解测试序列和参考序列之间的对应关系,并准确的衡量两个序列之间的相似度。
所述步骤S50具体为:
对待评价音频进行预处理后提取待评价音频特征,对各所述待评价音频特征进行预处理后输入训练后的音准评价模型,生成包括若干个音频片段、对应音准值以及总音准值的评价结果,并输出显示所述评价结果。
综上所述,本发明的优点在于:
1、通过对哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理再提取音频特征,再对音频特征进行预处理以区分高八度和低八度,再利用基于动态时间规整算法创建的音准评价模型对音频特征进行评价,生成包括若干个音频片段以及对应音准值的评价结果,进而极大的提升了音准评价的准确性以及可解释性。
2、由于得到若干个音频片段以及对应音准值,可直接将哼唱不好的音节筛选出来进行实时反馈,不仅减轻了教师的工作量,还可让学生脱离老师进行自主学习,及时的知道自己哼唱的缺陷并进行练习和调整。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (5)
1.一种基于动态时间规整的哼唱音准评价方法,其特征在于:包括如下步骤:
步骤S10、获取大量的哼唱数据,并对各所述哼唱数据进行预处理;
步骤S20、提取预处理后的所述哼唱数据中的音频特征;
步骤S30、对各所述音频特征进行预处理;
步骤S40、基于动态时间规整算法创建一音准评价模型,利用预处理后的所述音频特征对音准评价模型进行训练;
步骤S50、利用训练后的所述音准评价模型对待评价音频进行评价,生成评价结果;
所述步骤S20具体包括:
步骤S21、预判预处理后的所述哼唱数据的音频时长是否短于预设的实际时长,若否,说明不存在漏唱,进入步骤S22;若是,说明存在漏唱,进入步骤S23;
步骤S22、利用Python编程语言提取所述哼唱数据中每一个字出现的时间点,基于各所述时间点将哼唱数据分割为若干个第一音频片段,利用Python编程语言的依赖库提取各所述第一音频片段的频率并求取第一平均值,将所述第一平均值作为音频特征;
步骤S23、利用Python编程语言的依赖库对所述哼唱数据进行分帧,以一帧为单位将所述哼唱数据分割为若干个第二音频片段,利用依赖库提取各所述第二音频片段的频率并求取第二平均值,将所述第二平均值作为音频特征;
所述步骤S40中,所述音准评价模型用于求取音频特征与标准频率之间的最优路径和距离矩阵,基于拟合函数对所述最优路径上的频率值进行拟合得到拟合值,将各所述拟合值求取第三平均值作为音准值;
基于专家评分对所述音准值进行误差计算得到误差值,基于所述误差值进行再次拟合,直至所述误差值满足预设的收敛条件;
所述步骤S50具体为:
对待评价音频进行预处理后提取待评价音频特征,对各所述待评价音频特征进行预处理后输入训练后的音准评价模型,生成包括若干个音频片段、对应音准值以及总音准值的评价结果,并输出显示所述评价结果。
2.如权利要求1所述的一种基于动态时间规整的哼唱音准评价方法,其特征在于:所述步骤S10具体为:
获取大量的哼唱数据,并对各所述哼唱数据依次进行格式转换、去除伴奏、去除首尾无声段以及降噪的预处理。
3.如权利要求2所述的一种基于动态时间规整的哼唱音准评价方法,其特征在于:所述格式转换具体为:转换为wav格式,并设定音频采样率为44100、声道数为2。
4.如权利要求1所述的一种基于动态时间规整的哼唱音准评价方法,其特征在于:所述步骤S30具体为:
将各所述音频特征与对应的标准频率进行做差比较,进而对各所述音频特征进行音高标记,进而完成各所述音频特征的预处理。
5.如权利要求4所述的一种基于动态时间规整的哼唱音准评价方法,其特征在于:所述音高为高八度或者低八度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210332565.4A CN114758560B (zh) | 2022-03-30 | 2022-03-30 | 一种基于动态时间规整的哼唱音准评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210332565.4A CN114758560B (zh) | 2022-03-30 | 2022-03-30 | 一种基于动态时间规整的哼唱音准评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758560A CN114758560A (zh) | 2022-07-15 |
CN114758560B true CN114758560B (zh) | 2023-06-06 |
Family
ID=82329709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210332565.4A Active CN114758560B (zh) | 2022-03-30 | 2022-03-30 | 一种基于动态时间规整的哼唱音准评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758560B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103354092A (zh) * | 2013-06-27 | 2013-10-16 | 天津大学 | 一种带检错功能的音频乐谱比对方法 |
CN109196582A (zh) * | 2016-06-10 | 2019-01-11 | 谷歌有限责任公司 | 用单词重音预测发音的系统和方法 |
CN113823323A (zh) * | 2021-09-30 | 2021-12-21 | 深圳万兴软件有限公司 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3905620B2 (ja) * | 1997-06-10 | 2007-04-18 | 本田技研工業株式会社 | 音声認識装置 |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
CN102521281B (zh) * | 2011-11-25 | 2013-10-23 | 北京师范大学 | 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法 |
US9305559B2 (en) * | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
WO2014110281A1 (en) * | 2013-01-11 | 2014-07-17 | Db Networks, Inc. | Systems and methods for detecting and mitigating threats to a structured data storage system |
CN105657535B (zh) * | 2015-12-29 | 2018-10-30 | 北京搜狗科技发展有限公司 | 一种音频识别方法和装置 |
CN107707742B (zh) * | 2017-09-15 | 2020-01-03 | 维沃移动通信有限公司 | 一种音频文件播放方法及移动终端 |
CN109448754B (zh) * | 2018-09-07 | 2022-04-19 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分系统 |
CN109584904B (zh) * | 2018-12-24 | 2022-10-28 | 厦门大学 | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 |
CN109686376B (zh) * | 2019-01-08 | 2020-06-30 | 北京雷石天地电子技术有限公司 | 一种歌曲演唱评价方法及系统 |
WO2022077405A1 (zh) * | 2020-10-15 | 2022-04-21 | 曹庆恒 | 一种演唱教学系统及其使用方法、计算机可读存储介质 |
CN114093386B (zh) * | 2021-11-10 | 2024-06-25 | 厦门大学 | 一种面向教育的多维度歌唱评价方法 |
-
2022
- 2022-03-30 CN CN202210332565.4A patent/CN114758560B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103354092A (zh) * | 2013-06-27 | 2013-10-16 | 天津大学 | 一种带检错功能的音频乐谱比对方法 |
CN109196582A (zh) * | 2016-06-10 | 2019-01-11 | 谷歌有限责任公司 | 用单词重音预测发音的系统和方法 |
CN113823323A (zh) * | 2021-09-30 | 2021-12-21 | 深圳万兴软件有限公司 | 一种基于卷积神经网络的音频处理方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114758560A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148394B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
US8972259B2 (en) | System and method for teaching non-lexical speech effects | |
CN106997765B (zh) | 人声音色的定量表征方法 | |
US9613542B2 (en) | Sound source evaluation method, performance information analysis method and recording medium used therein, and sound source evaluation apparatus using same | |
CN116206496B (zh) | 一种基于人工智能的英语口语练习分析比对系统 | |
CN101968958B (zh) | 一种音频数据的比较方法和装置 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN111259188B (zh) | 一种基于seq2seq网络的歌词对齐方法及系统 | |
Schramm et al. | Automatic Solfège Assessment. | |
Parada-Cabaleiro et al. | Identifying emotions in opera singing: Implications of adverse acoustic conditions | |
CN114758560B (zh) | 一种基于动态时间规整的哼唱音准评价方法 | |
CN117012230A (zh) | 歌唱发音咬字评价模型 | |
CN109165836B (zh) | 一种演唱评分中歌词发音的处理及测评方法及系统 | |
CN110956870A (zh) | 一种视唱练耳教学方法及装置 | |
JP2006178334A (ja) | 語学学習システム | |
Shen et al. | Solfeggio Teaching Method Based on MIDI Technology in the Background of Digital Music Teaching | |
CN114678039A (zh) | 一种基于深度学习的歌唱评价方法 | |
Fu | [Retracted] Model of Markov‐Based Piano Note Recognition Algorithm and Piano Teaching Model Construction | |
Duan et al. | An English pronunciation and intonation evaluation method based on the DTW algorithm | |
Kawamura et al. | LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning | |
CN115331648A (zh) | 音频数据处理方法、装置、设备、存储介质及产品 | |
CN110782917B (zh) | 一种诗词吟诵风格的分类方法与系统 | |
Szelogowski | Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis Tool for Singers | |
Lv et al. | Objective evaluation method of broadcasting vocal timbre based on feature selection | |
CN111816157A (zh) | 一种基于语音合成的乐谱智能视唱方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |