CN114093386A - 一种面向教育的多维度歌唱评价方法 - Google Patents
一种面向教育的多维度歌唱评价方法 Download PDFInfo
- Publication number
- CN114093386A CN114093386A CN202111327656.0A CN202111327656A CN114093386A CN 114093386 A CN114093386 A CN 114093386A CN 202111327656 A CN202111327656 A CN 202111327656A CN 114093386 A CN114093386 A CN 114093386A
- Authority
- CN
- China
- Prior art keywords
- audio data
- evaluation
- evaluation value
- evaluation model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 154
- 238000013210 evaluation model Methods 0.000 claims abstract description 97
- 230000033764 rhythmic process Effects 0.000 claims abstract description 48
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000035807 sensation Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明提供了歌唱评价技术领域的一种面向教育的多维度歌唱评价方法,包括:步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集;步骤S20、对音频数据集进行数据清洗;步骤S30、提取音频数据集的声学特征;步骤S40、对声学特征进行预处理;步骤S50、创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型、总评价模型;步骤S60、基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行评价,依次生成评价值;步骤S70、总评价模型基于各评价值生成总评价值。本发明的优点在于:实现对歌唱进行多维度评价,极大的提升了歌唱评价的准确性和可解释性。
Description
技术领域
本发明涉及歌唱评价技术领域,特别指一种面向教育的多维度歌唱评价方法。
背景技术
随着中小学生素质教育被不断重视,各种类型的教育系统如雨后春笋般涌现出来。但是,在巨大的升学压力下,社会往往将研究重心放在文化考试科目上,对于音乐等素质教育的关注很少,导致音乐教育类可用的系统却寥寥无几。
针对歌唱评价,传统上并未进行多维度评价,因为传统的歌唱评价是围绕着音乐娱乐进行的,目标用户并不真正关心最后的评价结果是否完全准确,也不关心哪一部分唱的不好,因此对于歌唱评价的评价结果往往缺乏准确性和可解释性。因此,如何提供一种面向教育的多维度歌唱评价方法,实现对歌唱进行多维度评价,以提升歌唱评价的准确性和可解释性,成为一个亟待解决的技术问题。
发明内容
本发明要解决的技术问题,在于提供一种面向教育的多维度歌唱评价方法,实现对歌唱进行多维度评价,以提升歌唱评价的准确性和可解释性。
本发明是这样实现的:一种面向教育的多维度歌唱评价方法,包括如下步骤:
步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集;
步骤S20、对所述音频数据集进行数据清洗;
步骤S30、提取数据清洗后的所述音频数据集的声学特征;
步骤S40、对所述声学特征进行预处理;
步骤S50、创建一乐感评价模型、一音准评价模型、一节奏评价模型、一整体性评价模型、一咬字吐字评价模型以及一总评价模型;
步骤S60、基于所述乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及预处理后的声学特征对评价音频数据进行评价,依次生成乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值;
步骤S70、总评价模型基于所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值生成总评价值;
步骤S80、展示所述乐感评价值、音准评价值、节奏评价值、整体性评价值、咬字吐字评价值以及总评价值。
进一步地,所述步骤S20具体包括:
步骤S21、对所述音频数据集中的各待评价音频数据和标准音频数据进行音频格式、采样率以及声道数的统一;
步骤S22、去除各所述待评价音频数据和标准音频数据的首尾无声段数据;
步骤S23、将各所述待评价音频数据和标准音频数据的噪声降低到预设的噪声阈值内。
进一步地,所述步骤S30具体包括:
步骤S31、对数据清洗后的所述音频数据集进行预加重、分帧以及加窗的预处理得到时域信号;
步骤S32、对所述时域信号进行快速傅里叶变换得到频域信号;
步骤S33、对所述频域信号进行梅尔滤波组、离散余弦变换、动态差分参数的提取得到梅尔频率倒谱系数;
对所述频域信号进行频谱平方、滤波器输出取对数得到相应频带的对数功率谱;
基于所述时域信号提取声强、响度、短时平均能量以及短时过零率;
基于所述频域信号以及倒谱法得到音频数据集的基频;
基于所述时域信号和频域信号计算信噪比、谐噪比、频率微扰以及共振峰。
进一步地,所述步骤S40具体为:
将所述待评价音频数据和标准音频数据的基频去除无效值后进行对齐;
去除所述待评价音频数据和标准音频数据中,无声段对应的所述梅尔频率倒谱系数;
创建一响度范围,调整超出所述响度范围的响度;
创建一信噪比范围、一谐噪比范围以及一频率响应范围,基于所述信噪比范围、谐噪比范围以及频率响应范围分别对信噪比、谐噪比以及频率微扰进行筛选。
进一步地,所述步骤S50中,所述乐感评价模型用于:
提取所述音频数据集的无伴奏连续发声段,利用VAD算法计算所述无伴奏连续发声段中至少一个发声句的气息评价值;所述气息评价值包括气息量评分、气息支撑评分和气息控制评分中的至少一项;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐,基于对齐后的所述语音帧的重叠性计算节奏评价值;
基于所述气息评价值和节奏评价值计算得到乐感评价值。
进一步地,所述步骤S50中,所述音准评价模型用于:
利用所述信噪比以及谐噪比对待评价音频数据和标准音频数据进行去噪处理;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
计算所述音频数据集的基频均值,将各所述语音帧的频率减去基频均值以计算音高,进而得到音准评价值。
进一步地,所述步骤S50中,所述节奏评价模型用于:
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
基于对齐后的所述语音帧计算各音节的长短、快慢以及停顿程度,进而得到节奏评价值。
进一步地,所述步骤S50中,所述整体性评价模型用于:
通过歌词准确性、旋律流畅性、节奏合理性生成整体性评价值。
进一步地,所述步骤S50中,所述咬字吐字评价模型用于:
通过高斯混合模型和隐马尔可夫模型,对所述待评价音频数据和标准音频数据中的单词和音素进行对齐后,结合深度神经网络计算咬字吐字评价值。
进一步地,所述步骤S50中,所述总评价模型用于:
基于预设的权重系数对所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值进行加权计算,得到总评价值。
本发明的优点在于:
通过对音频数据集进行数据清洗,并提取至少包括梅尔频率倒谱系数、对数功率谱、声强、响度、短时平均能量、短时过零率、基频、信噪比、谐噪比、频率微扰以及共振峰的声学特征,基于五个维度创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型以及咬字吐字评价模型,进而基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行多维度的评价,即通过多维声学特征提取结合人工智能实现对歌唱进行多维度评价,可以更好地学习到演唱者歌唱的方方面面,尽可能将演唱者的演唱功底以数字化的形式反映出来,且将多种模型相结合的方式可以更精确地对演唱者的演唱效果作出评价,最终极大的提升了歌唱评价的准确性和可解释性。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明一种面向教育的多维度歌唱评价方法的流程图。
图2是本发明一种面向教育的多维度歌唱评价方法的流程示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:通过对音频数据集进行数据清洗,并提取多维的声学特征,基于五个维度创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型以及咬字吐字评价模型,进而基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行多维度的评价,以提升歌唱评价的准确性和可解释性。
请参照图1至图2所示,本发明一种面向教育的多维度歌唱评价方法的较佳实施例,包括如下步骤:
步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集;所述音频数据集可从音乐网站、数据库、论文数据集、人工采集等渠道获取;
步骤S20、对所述音频数据集进行数据清洗;
步骤S30、提取数据清洗后的所述音频数据集的声学特征;不同的声学特征能够从不同的方面来反映一首歌,不同的声学特征对音乐的评价效果不同,因此需要提取多维声学特征;
步骤S40、对所述声学特征进行预处理;
步骤S50、创建一乐感评价模型、一音准评价模型、一节奏评价模型、一整体性评价模型、一咬字吐字评价模型以及一总评价模型;
步骤S60、基于所述乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及预处理后的声学特征对评价音频数据进行评价,依次生成乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值;
步骤S70、总评价模型基于所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值生成总评价值;
步骤S80、展示所述乐感评价值、音准评价值、节奏评价值、整体性评价值、咬字吐字评价值以及总评价值;具体实施时,可进一步给出每个片段详细演唱情况和指导建议。
所述步骤S20具体包括:
步骤S21、对所述音频数据集中的各待评价音频数据和标准音频数据进行音频格式、采样率以及声道数的统一;
由于获取的各音频数据可能是多种不同的音频类型,因此需要进行音频格式转换,优选为WAV格式;
步骤S22、去除各所述待评价音频数据和标准音频数据的首尾无声段数据;
步骤S23、将各所述待评价音频数据和标准音频数据的噪声降低到预设的噪声阈值内。由于明显的噪声会对各评价模型造成消极影响,因此需要将噪声降低到预设的噪声阈值内。
所述步骤S30具体包括:
步骤S31、对数据清洗后的所述音频数据集进行预加重、分帧以及加窗的预处理得到时域信号;
步骤S32、对所述时域信号进行快速傅里叶变换得到频域信号;
步骤S33、对所述频域信号进行梅尔滤波组、离散余弦变换、动态差分参数的提取得到梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC);
所述梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数,考虑到人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上,Mel标度描述了人耳频率的非线性特性;
对所述频域信号进行频谱平方、滤波器输出取对数得到相应频带的对数功率谱(FBank);
基于所述时域信号提取声强、响度、短时平均能量以及短时过零率;
基于所述频域信号以及倒谱法得到音频数据集的基频;
基于所述时域信号和频域信号计算信噪比、谐噪比、频率微扰以及共振峰。
所述步骤S40具体为:
将所述待评价音频数据和标准音频数据的基频去除无效值后进行对齐;
去除所述待评价音频数据和标准音频数据中,无声段对应的所述梅尔频率倒谱系数;
创建一响度范围,调整超出所述响度范围的响度;
创建一信噪比范围、一谐噪比范围以及一频率响应范围,基于所述信噪比范围、谐噪比范围以及频率响应范围分别对信噪比、谐噪比以及频率微扰进行筛选。
所述步骤S50中,所述乐感评价模型用于:
提取所述音频数据集的无伴奏连续发声段,利用VAD算法计算所述无伴奏连续发声段中至少一个发声句的气息评价值;所述气息评价值包括气息量评分、气息支撑评分和气息控制评分中的至少一项;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐,基于对齐后的所述语音帧的重叠性计算节奏评价值;
基于所述气息评价值和节奏评价值计算得到乐感评价值。
从乐感角度出发,应能准确把握歌曲的旋律,与伴奏配合默契,不脱节,不抢拍,可以通过旋律、节奏、气息等技术观测来计算评价。
所述步骤S50中,所述音准评价模型用于:
利用所述信噪比以及谐噪比对待评价音频数据和标准音频数据进行去噪处理;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
计算所述音频数据集的基频均值,将各所述语音帧的频率减去基频均值以计算音高,进而得到音准评价值。
从音准角度出发,应该做到唱出的音高与规定的音高一致,可用音高等技术观测来计算评价。将各所述语音帧的频率减去基频均值用于消除男女生之间、和男女生内部之间频率的差异。
所述步骤S50中,所述节奏评价模型用于:
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
基于对齐后的所述语音帧计算各音节的长短、快慢以及停顿程度,进而得到节奏评价值。
从节奏角度出发,应该做到对歌曲中音的长短组合记忆清晰,对强弱表现准确,对表现音乐特点的节奏音型表现鲜明,可以通过音的长短、快慢、停顿等技术观测来实现。
所述步骤S50中,所述整体性评价模型用于:
通过歌词准确性、旋律流畅性、节奏合理性生成整体性评价值。
从整体性角度出发,应该做到演唱过程不中断,歌词、节奏、旋律记忆准确,可以通过歌词、旋律、节奏等技术观测来实现。
所述步骤S50中,所述咬字吐字评价模型用于:
通过高斯混合模型和隐马尔可夫模型(GMM-HMM),对所述待评价音频数据和标准音频数据中的单词和音素进行对齐后,结合深度神经网络(Deep Neural Networks,简称DNN)计算咬字吐字评价值。
所述隐马尔可夫模型(Hidden Markov Model,HMM)是一种时序的概率模型,描述由一个隐的马尔科夫链随机生成的不可观察的隐状态序列,在每一个隐状态下随机产生观察值构成一个可观测的随机序列;其中关键是状态序列是满足马尔科夫性质的,且可观测序列是由隐藏的状态序列以一定的概率随机生成。
GMM-HMM用于对输入的语音数据进行分帧,获得语音数据中包含的语音帧,并提取每一语音帧对应的语音特征,以及将每一语音帧分别与目标语音帧对应的真实音素进行强制对齐。
所述深度神经网络是一种计算模型,由大量的节点(或神经元)直接相互关联而构成;网络的输出由于激励函数和权重的不同而不同,是对于某种函数的逼近或是对映射关系的近似描述。
从咬字吐字角度出发,应该做到歌唱时能清楚的唱出歌词中的每个字音,吐字清晰,发音准确,可以通过歌词发音、音素发音、类语音识别等技术观测来实现。
所述步骤S50中,所述总评价模型用于:
基于预设的权重系数对所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值进行加权计算,得到总评价值。
综上所述,本发明的优点在于:
通过对音频数据集进行数据清洗,并提取至少包括梅尔频率倒谱系数、对数功率谱、声强、响度、短时平均能量、短时过零率、基频、信噪比、谐噪比、频率微扰以及共振峰的声学特征,基于五个维度创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型以及咬字吐字评价模型,进而基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行多维度的评价,即通过多维声学特征提取结合人工智能实现对歌唱进行多维度评价,可以更好地学习到演唱者歌唱的方方面面,尽可能将演唱者的演唱功底以数字化的形式反映出来,且将多种模型相结合的方式可以更精确地对演唱者的演唱效果作出评价,最终极大的提升了歌唱评价的准确性和可解释性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种面向教育的多维度歌唱评价方法,其特征在于:包括如下步骤:
步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集;
步骤S20、对所述音频数据集进行数据清洗;
步骤S30、提取数据清洗后的所述音频数据集的声学特征;
步骤S40、对所述声学特征进行预处理;
步骤S50、创建一乐感评价模型、一音准评价模型、一节奏评价模型、一整体性评价模型、一咬字吐字评价模型以及一总评价模型;
步骤S60、基于所述乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及预处理后的声学特征对评价音频数据进行评价,依次生成乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值;
步骤S70、总评价模型基于所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值生成总评价值;
步骤S80、展示所述乐感评价值、音准评价值、节奏评价值、整体性评价值、咬字吐字评价值以及总评价值。
2.如权利要求1所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S20具体包括:
步骤S21、对所述音频数据集中的各待评价音频数据和标准音频数据进行音频格式、采样率以及声道数的统一;
步骤S22、去除各所述待评价音频数据和标准音频数据的首尾无声段数据;
步骤S23、将各所述待评价音频数据和标准音频数据的噪声降低到预设的噪声阈值内。
3.如权利要求1所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S30具体包括:
步骤S31、对数据清洗后的所述音频数据集进行预加重、分帧以及加窗的预处理得到时域信号;
步骤S32、对所述时域信号进行快速傅里叶变换得到频域信号;
步骤S33、对所述频域信号进行梅尔滤波组、离散余弦变换、动态差分参数的提取得到梅尔频率倒谱系数;
对所述频域信号进行频谱平方、滤波器输出取对数得到相应频带的对数功率谱;
基于所述时域信号提取声强、响度、短时平均能量以及短时过零率;
基于所述频域信号以及倒谱法得到音频数据集的基频;
基于所述时域信号和频域信号计算信噪比、谐噪比、频率微扰以及共振峰。
4.如权利要求3所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S40具体为:
将所述待评价音频数据和标准音频数据的基频去除无效值后进行对齐;
去除所述待评价音频数据和标准音频数据中,无声段对应的所述梅尔频率倒谱系数;
创建一响度范围,调整超出所述响度范围的响度;
创建一信噪比范围、一谐噪比范围以及一频率响应范围,基于所述信噪比范围、谐噪比范围以及频率响应范围分别对信噪比、谐噪比以及频率微扰进行筛选。
5.如权利要求3所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述乐感评价模型用于:
提取所述音频数据集的无伴奏连续发声段,利用VAD算法计算所述无伴奏连续发声段中至少一个发声句的气息评价值;所述气息评价值包括气息量评分、气息支撑评分和气息控制评分中的至少一项;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐,基于对齐后的所述语音帧的重叠性计算节奏评价值;
基于所述气息评价值和节奏评价值计算得到乐感评价值。
6.如权利要求3所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述音准评价模型用于:
利用所述信噪比以及谐噪比对待评价音频数据和标准音频数据进行去噪处理;
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
计算所述音频数据集的基频均值,将各所述语音帧的频率减去基频均值以计算音高,进而得到音准评价值。
7.如权利要求3所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述节奏评价模型用于:
通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐;
基于对齐后的所述语音帧计算各音节的长短、快慢以及停顿程度,进而得到节奏评价值。
8.如权利要求1所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述整体性评价模型用于:
通过歌词准确性、旋律流畅性、节奏合理性生成整体性评价值。
9.如权利要求1所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述咬字吐字评价模型用于:
通过高斯混合模型和隐马尔可夫模型,对所述待评价音频数据和标准音频数据中的单词和音素进行对齐后,结合深度神经网络计算咬字吐字评价值。
10.如权利要求1所述的一种面向教育的多维度歌唱评价方法,其特征在于:所述步骤S50中,所述总评价模型用于:
基于预设的权重系数对所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值进行加权计算,得到总评价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111327656.0A CN114093386A (zh) | 2021-11-10 | 2021-11-10 | 一种面向教育的多维度歌唱评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111327656.0A CN114093386A (zh) | 2021-11-10 | 2021-11-10 | 一种面向教育的多维度歌唱评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093386A true CN114093386A (zh) | 2022-02-25 |
Family
ID=80299621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111327656.0A Pending CN114093386A (zh) | 2021-11-10 | 2021-11-10 | 一种面向教育的多维度歌唱评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093386A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758560A (zh) * | 2022-03-30 | 2022-07-15 | 厦门大学 | 一种基于动态时间规整的哼唱音准评价方法 |
CN116884438A (zh) * | 2023-09-08 | 2023-10-13 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
JP2007140000A (ja) * | 2005-11-17 | 2007-06-07 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点処理のプログラム |
JP2010134475A (ja) * | 2010-01-15 | 2010-06-17 | Casio Computer Co Ltd | 歌唱採点装置および歌唱採点処理のプログラム |
CN102103857A (zh) * | 2009-12-21 | 2011-06-22 | 盛大计算机(上海)有限公司 | 演唱打分系统 |
CN103165119A (zh) * | 2013-01-31 | 2013-06-19 | 华为技术有限公司 | K歌方法及系统 |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分系统 |
CN110265051A (zh) * | 2019-06-04 | 2019-09-20 | 福建小知大数信息科技有限公司 | 应用于基础音乐视唱教育的视唱音频智能评分建模方法 |
CN110660383A (zh) * | 2019-09-20 | 2020-01-07 | 华南理工大学 | 一种基于歌词歌声对齐的唱歌评分方法 |
-
2021
- 2021-11-10 CN CN202111327656.0A patent/CN114093386A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117568A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 歌唱評価装置およびカラオケ装置 |
JP2007140000A (ja) * | 2005-11-17 | 2007-06-07 | Casio Comput Co Ltd | 歌唱採点装置および歌唱採点処理のプログラム |
CN102103857A (zh) * | 2009-12-21 | 2011-06-22 | 盛大计算机(上海)有限公司 | 演唱打分系统 |
JP2010134475A (ja) * | 2010-01-15 | 2010-06-17 | Casio Computer Co Ltd | 歌唱採点装置および歌唱採点処理のプログラム |
CN103165119A (zh) * | 2013-01-31 | 2013-06-19 | 华为技术有限公司 | K歌方法及系统 |
CN109448754A (zh) * | 2018-09-07 | 2019-03-08 | 南京光辉互动网络科技股份有限公司 | 一种多维度演唱评分系统 |
CN110265051A (zh) * | 2019-06-04 | 2019-09-20 | 福建小知大数信息科技有限公司 | 应用于基础音乐视唱教育的视唱音频智能评分建模方法 |
CN110660383A (zh) * | 2019-09-20 | 2020-01-07 | 华南理工大学 | 一种基于歌词歌声对齐的唱歌评分方法 |
Non-Patent Citations (3)
Title |
---|
何英琴;: "论声乐作品的完美表现", 赤峰学院学报(自然科学版), no. 24, 25 December 2012 (2012-12-25) * |
吴清强;鲍彬彬;: "用户行为可靠性评价综合框架", 数字图书馆论坛, no. 05, 25 May 2017 (2017-05-25) * |
罗兰娥;许建明;: "歌唱艺术嗓音中声学参数的应用", 山西电子技术, no. 02, 15 April 2009 (2009-04-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114758560A (zh) * | 2022-03-30 | 2022-07-15 | 厦门大学 | 一种基于动态时间规整的哼唱音准评价方法 |
CN116884438A (zh) * | 2023-09-08 | 2023-10-13 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
CN116884438B (zh) * | 2023-09-08 | 2023-12-01 | 杭州育恩科技有限公司 | 基于声学特征的练琴音准检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sluijter et al. | Spectral balance as an acoustic correlate of linguistic stress | |
Nwe et al. | Speech emotion recognition using hidden Markov models | |
KR100568167B1 (ko) | 자동발음 비교방법을 이용한 외국어 발음 테스트 방법 | |
Deshwal et al. | Feature extraction methods in language identification: a survey | |
CN114093386A (zh) | 一种面向教育的多维度歌唱评价方法 | |
CN112002348B (zh) | 一种患者语音愤怒情绪识别方法和系统 | |
CN110827857A (zh) | 基于谱特征和elm的语音情感识别方法 | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
Kim | Singing voice analysis/synthesis | |
Vallés-Pérez et al. | Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows | |
Patterson et al. | Size information in the production and perception of communication sounds | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
KR100989867B1 (ko) | 자동 노래 채보방법 | |
Mary et al. | Evaluation of mimicked speech using prosodic features | |
CN115050387A (zh) | 一种艺术测评中多维度唱奏分析测评方法及系统 | |
KR100991464B1 (ko) | 자동 노래 채보장치 | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
CN113129923A (zh) | 一种艺术测评中多维度唱奏分析测评方法及系统 | |
JP2806364B2 (ja) | 発声訓練装置 | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Wang et al. | Beijing opera synthesis based on straight algorithm and deep learning | |
Koolagudi et al. | Spectral features for emotion classification | |
Roh et al. | Novel acoustic features for speech emotion recognition | |
Aggarwal et al. | Parameterization techniques for automatic speech recognition system | |
Onwudiwe | The acoustic analysis of speech: A precursor to better speech performance and perception |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |