CN114093386A

CN114093386A - 一种面向教育的多维度歌唱评价方法

Info

Publication number: CN114093386A
Application number: CN202111327656.0A
Authority: CN
Inventors: 吴清强; 任望龙; 黄泽斌; 刘震
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-25
Anticipated expiration: 2041-11-10
Also published as: CN114093386B

Abstract

本发明提供了歌唱评价技术领域的一种面向教育的多维度歌唱评价方法，包括：步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集；步骤S20、对音频数据集进行数据清洗；步骤S30、提取音频数据集的声学特征；步骤S40、对声学特征进行预处理；步骤S50、创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型、总评价模型；步骤S60、基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行评价，依次生成评价值；步骤S70、总评价模型基于各评价值生成总评价值。本发明的优点在于：实现对歌唱进行多维度评价，极大的提升了歌唱评价的准确性和可解释性。

Description

一种面向教育的多维度歌唱评价方法

技术领域

本发明涉及歌唱评价技术领域，特别指一种面向教育的多维度歌唱评价方法。

背景技术

随着中小学生素质教育被不断重视，各种类型的教育系统如雨后春笋般涌现出来。但是，在巨大的升学压力下，社会往往将研究重心放在文化考试科目上，对于音乐等素质教育的关注很少，导致音乐教育类可用的系统却寥寥无几。

针对歌唱评价，传统上并未进行多维度评价，因为传统的歌唱评价是围绕着音乐娱乐进行的，目标用户并不真正关心最后的评价结果是否完全准确，也不关心哪一部分唱的不好，因此对于歌唱评价的评价结果往往缺乏准确性和可解释性。因此，如何提供一种面向教育的多维度歌唱评价方法，实现对歌唱进行多维度评价，以提升歌唱评价的准确性和可解释性，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种面向教育的多维度歌唱评价方法，实现对歌唱进行多维度评价，以提升歌唱评价的准确性和可解释性。

本发明是这样实现的：一种面向教育的多维度歌唱评价方法，包括如下步骤：

步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集；

步骤S20、对所述音频数据集进行数据清洗；

步骤S30、提取数据清洗后的所述音频数据集的声学特征；

步骤S40、对所述声学特征进行预处理；

步骤S50、创建一乐感评价模型、一音准评价模型、一节奏评价模型、一整体性评价模型、一咬字吐字评价模型以及一总评价模型；

步骤S60、基于所述乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及预处理后的声学特征对评价音频数据进行评价，依次生成乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值；

步骤S70、总评价模型基于所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值生成总评价值；

步骤S80、展示所述乐感评价值、音准评价值、节奏评价值、整体性评价值、咬字吐字评价值以及总评价值。

进一步地，所述步骤S20具体包括：

步骤S21、对所述音频数据集中的各待评价音频数据和标准音频数据进行音频格式、采样率以及声道数的统一；

步骤S22、去除各所述待评价音频数据和标准音频数据的首尾无声段数据；

步骤S23、将各所述待评价音频数据和标准音频数据的噪声降低到预设的噪声阈值内。

进一步地，所述步骤S30具体包括：

步骤S31、对数据清洗后的所述音频数据集进行预加重、分帧以及加窗的预处理得到时域信号；

步骤S32、对所述时域信号进行快速傅里叶变换得到频域信号；

步骤S33、对所述频域信号进行梅尔滤波组、离散余弦变换、动态差分参数的提取得到梅尔频率倒谱系数；

对所述频域信号进行频谱平方、滤波器输出取对数得到相应频带的对数功率谱；

基于所述时域信号提取声强、响度、短时平均能量以及短时过零率；

基于所述频域信号以及倒谱法得到音频数据集的基频；

基于所述时域信号和频域信号计算信噪比、谐噪比、频率微扰以及共振峰。

进一步地，所述步骤S40具体为：

将所述待评价音频数据和标准音频数据的基频去除无效值后进行对齐；

去除所述待评价音频数据和标准音频数据中，无声段对应的所述梅尔频率倒谱系数；

创建一响度范围，调整超出所述响度范围的响度；

创建一信噪比范围、一谐噪比范围以及一频率响应范围，基于所述信噪比范围、谐噪比范围以及频率响应范围分别对信噪比、谐噪比以及频率微扰进行筛选。

进一步地，所述步骤S50中，所述乐感评价模型用于：

提取所述音频数据集的无伴奏连续发声段，利用VAD算法计算所述无伴奏连续发声段中至少一个发声句的气息评价值；所述气息评价值包括气息量评分、气息支撑评分和气息控制评分中的至少一项；

通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐，基于对齐后的所述语音帧的重叠性计算节奏评价值；

基于所述气息评价值和节奏评价值计算得到乐感评价值。

进一步地，所述步骤S50中，所述音准评价模型用于：

利用所述信噪比以及谐噪比对待评价音频数据和标准音频数据进行去噪处理；

通过所述梅尔频率倒谱系数和基频对准待评价音频数据和标准音频数据的各语音帧进行对齐；

计算所述音频数据集的基频均值，将各所述语音帧的频率减去基频均值以计算音高，进而得到音准评价值。

进一步地，所述步骤S50中，所述节奏评价模型用于：

基于对齐后的所述语音帧计算各音节的长短、快慢以及停顿程度，进而得到节奏评价值。

进一步地，所述步骤S50中，所述整体性评价模型用于：

通过歌词准确性、旋律流畅性、节奏合理性生成整体性评价值。

进一步地，所述步骤S50中，所述咬字吐字评价模型用于：

通过高斯混合模型和隐马尔可夫模型，对所述待评价音频数据和标准音频数据中的单词和音素进行对齐后，结合深度神经网络计算咬字吐字评价值。

进一步地，所述步骤S50中，所述总评价模型用于：

基于预设的权重系数对所述乐感评价值、音准评价值、节奏评价值、整体性评价值以及咬字吐字评价值进行加权计算，得到总评价值。

本发明的优点在于：

通过对音频数据集进行数据清洗，并提取至少包括梅尔频率倒谱系数、对数功率谱、声强、响度、短时平均能量、短时过零率、基频、信噪比、谐噪比、频率微扰以及共振峰的声学特征，基于五个维度创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型以及咬字吐字评价模型，进而基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行多维度的评价，即通过多维声学特征提取结合人工智能实现对歌唱进行多维度评价，可以更好地学习到演唱者歌唱的方方面面，尽可能将演唱者的演唱功底以数字化的形式反映出来，且将多种模型相结合的方式可以更精确地对演唱者的演唱效果作出评价，最终极大的提升了歌唱评价的准确性和可解释性。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种面向教育的多维度歌唱评价方法的流程图。

图2是本发明一种面向教育的多维度歌唱评价方法的流程示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：通过对音频数据集进行数据清洗，并提取多维的声学特征，基于五个维度创建乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型以及咬字吐字评价模型，进而基于乐感评价模型、音准评价模型、节奏评价模型、整体性评价模型、咬字吐字评价模型以及声学特征对评价音频数据进行多维度的评价，以提升歌唱评价的准确性和可解释性。

请参照图1至图2所示，本发明一种面向教育的多维度歌唱评价方法的较佳实施例，包括如下步骤：

步骤S10、获取包括待评价音频数据和标准音频数据的音频数据集；所述音频数据集可从音乐网站、数据库、论文数据集、人工采集等渠道获取；

步骤S20、对所述音频数据集进行数据清洗；

步骤S30、提取数据清洗后的所述音频数据集的声学特征；不同的声学特征能够从不同的方面来反映一首歌，不同的声学特征对音乐的评价效果不同，因此需要提取多维声学特征；

步骤S40、对所述声学特征进行预处理；

步骤S80、展示所述乐感评价值、音准评价值、节奏评价值、整体性评价值、咬字吐字评价值以及总评价值；具体实施时，可进一步给出每个片段详细演唱情况和指导建议。

所述步骤S20具体包括：

由于获取的各音频数据可能是多种不同的音频类型，因此需要进行音频格式转换，优选为WAV格式；

步骤S23、将各所述待评价音频数据和标准音频数据的噪声降低到预设的噪声阈值内。由于明显的噪声会对各评价模型造成消极影响，因此需要将噪声降低到预设的噪声阈值内。

所述步骤S30具体包括：

步骤S33、对所述频域信号进行梅尔滤波组、离散余弦变换、动态差分参数的提取得到梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)；

所述梅尔频率倒谱系数是在Mel标度频率域提取出来的倒谱参数，考虑到人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上，Mel标度描述了人耳频率的非线性特性；

对所述频域信号进行频谱平方、滤波器输出取对数得到相应频带的对数功率谱(FBank)；

基于所述频域信号以及倒谱法得到音频数据集的基频；

所述步骤S40具体为：

创建一响度范围，调整超出所述响度范围的响度；

所述步骤S50中，所述乐感评价模型用于：

基于所述气息评价值和节奏评价值计算得到乐感评价值。

从乐感角度出发，应能准确把握歌曲的旋律，与伴奏配合默契，不脱节，不抢拍，可以通过旋律、节奏、气息等技术观测来计算评价。

所述步骤S50中，所述音准评价模型用于：

从音准角度出发，应该做到唱出的音高与规定的音高一致，可用音高等技术观测来计算评价。将各所述语音帧的频率减去基频均值用于消除男女生之间、和男女生内部之间频率的差异。

所述步骤S50中，所述节奏评价模型用于：

从节奏角度出发，应该做到对歌曲中音的长短组合记忆清晰，对强弱表现准确，对表现音乐特点的节奏音型表现鲜明，可以通过音的长短、快慢、停顿等技术观测来实现。

所述步骤S50中，所述整体性评价模型用于：

从整体性角度出发，应该做到演唱过程不中断，歌词、节奏、旋律记忆准确，可以通过歌词、旋律、节奏等技术观测来实现。

所述步骤S50中，所述咬字吐字评价模型用于：

通过高斯混合模型和隐马尔可夫模型(GMM-HMM)，对所述待评价音频数据和标准音频数据中的单词和音素进行对齐后，结合深度神经网络(Deep Neural Networks,简称DNN)计算咬字吐字评价值。

所述隐马尔可夫模型(Hidden Markov Model，HMM)是一种时序的概率模型，描述由一个隐的马尔科夫链随机生成的不可观察的隐状态序列，在每一个隐状态下随机产生观察值构成一个可观测的随机序列；其中关键是状态序列是满足马尔科夫性质的，且可观测序列是由隐藏的状态序列以一定的概率随机生成。

GMM-HMM用于对输入的语音数据进行分帧，获得语音数据中包含的语音帧,并提取每一语音帧对应的语音特征,以及将每一语音帧分别与目标语音帧对应的真实音素进行强制对齐。

所述深度神经网络是一种计算模型，由大量的节点(或神经元)直接相互关联而构成；网络的输出由于激励函数和权重的不同而不同，是对于某种函数的逼近或是对映射关系的近似描述。

从咬字吐字角度出发，应该做到歌唱时能清楚的唱出歌词中的每个字音，吐字清晰，发音准确，可以通过歌词发音、音素发音、类语音识别等技术观测来实现。

所述步骤S50中，所述总评价模型用于：

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种面向教育的多维度歌唱评价方法，其特征在于：包括如下步骤：

步骤S20、对所述音频数据集进行数据清洗；

步骤S30、提取数据清洗后的所述音频数据集的声学特征；

步骤S40、对所述声学特征进行预处理；

2.如权利要求1所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S20具体包括：

3.如权利要求1所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S30具体包括：

基于所述频域信号以及倒谱法得到音频数据集的基频；

4.如权利要求3所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S40具体为：

创建一响度范围，调整超出所述响度范围的响度；

5.如权利要求3所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述乐感评价模型用于：

基于所述气息评价值和节奏评价值计算得到乐感评价值。

6.如权利要求3所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述音准评价模型用于：

7.如权利要求3所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述节奏评价模型用于：

8.如权利要求1所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述整体性评价模型用于：

9.如权利要求1所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述咬字吐字评价模型用于：

10.如权利要求1所述的一种面向教育的多维度歌唱评价方法，其特征在于：所述步骤S50中，所述总评价模型用于：