CN109584904B

CN109584904B - 应用于基础音乐视唱教育的视唱音频唱名识别建模方法

Info

Publication number: CN109584904B
Application number: CN201811580476.1A
Authority: CN
Inventors: 吴清强; 杨小娟; 刘昆宏; 陈滨; 徐民洪; 李昌春
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2022-10-28
Anticipated expiration: 2038-12-24
Also published as: CN109584904A

Abstract

应用于基础音乐视唱教育的视唱音频唱名识别建模方法，涉及视唱音频唱名识别。提供可帮助用户提升自己音乐视唱方面能力的一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。唱名识别效果可以达到专业的识别的水平，识别精准率较高；唱名识别运算效率较高，可以在3～5s之内完成唱名识别过程，达到工业应用要求；唱名识别抗噪能力较强，在有一定背景噪声的情况下也能较好的识别。

Description

应用于基础音乐视唱教育的视唱音频唱名识别建模方法

技术领域

本发明涉及视唱音频唱名识别，尤其是涉及一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。

背景技术

基础音乐视唱教育系统是一款针对中小学生学习音乐的辅助移动端系统软件。本系统使用手机端微信小程序架构、服务端JavaEE架构和MySQL5.5数据库等技术，设计和实现了包括“在线学习”、“闯关训练”、“课程管理”、“习题管理”等功能的中小学音乐素养在线学习训练系统。其中本系统中的“闯关训练”功能中包含了在线视唱训练，即用户在移动端设备上录制一段视唱音频后上传到系统后台，在线视唱训练功能模块分析视唱音频的节奏和音准特征，给出机器评分。但是由于系统对视唱音频的音准打分准确率不够稳定，所以本系统将新增视唱音频唱名识别的模块，提高在线视唱音频评分准确率。

在视唱音频唱名识别的模块实现用户录音与音频文件上传，进入系统后台服务器，对视唱练习音频进行智能唱名识别，并将识别结果反馈回客户端。智能识别模块应用了机器学习建模，通过神经网络模型对音频数据进行特征分析，建立一个唱名识别的分类模型，从而实现精准识别，并将结果反馈给用户，帮助用户提升自己音乐视唱方面的能力。

参考文献：

[1]朱俊敏,张潇,王旌阳,等.小波域音频信号降噪研究[J].计算机工程与应用,2009,45(6):149-154.

[2]朱燕平.语音信号的小波降噪[J].视听界(广播电视技术),2013(6).

[3]刘欢,王骏,林其光,等.时域和频域特征相融合的语音端点检测新方法[J].江苏科技大学学报(自然科学版),2017,31(1):73-78.

[4]毕东生,张培玲,刘瑾,等.基于巴特沃斯低通滤波器的语音降噪[J].数字化用户,2017,23(27).

[5]马道钧,张敬怀.语音数据的分析与处理[J].北京电子科技学院学报,2005,13(4):61-63.

[6]

A,

C E,

J I,et al.[-25]ASimilarity Analysis of Audio Signal to Develop a Human Activity RecognitionUsing Similarity Networks.[J].Sensors,2017,17(11):15.

发明内容

本发明的目的是提供可帮助用户提升自己音乐视唱方面能力的一种应用于基础音乐视唱教育的视唱音频唱名识别建模方法。

本发明包括以下步骤：

1)通过Web端录音软件，在界面上选择多音录制或者单音录制，其中单音录制的唱名为do，re，mi，fa，so，la，xi七个音符中的一个，选中之后通过按下录音键实现本地录音，按下上传键实现上传，上传之后自动记录在服务器上，并以唱名和序号进行文件命名，以此收集多人视唱练习的音频；

2)将步骤1)的音频数据进行去噪进行去噪，剪裁无音频的空白片段，进行人声增强的数据预处理；

3)将步骤2)处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化和时域高低变化上的差异进行剪辑，分别生成独立的音频数据；将每个独立音频数据存储在硬盘上，作为测试初始数据，单音视唱数据作为训练初始数据和测试初始数据；

4)将步骤3)中的单音视唱音频数据按2︰1划分，其中2份为训练数据，1份为测试数据，经分割的多音视唱音频变成单音音频后作测试数据；

5)读取步骤4)中音频文件，将音频数据预处理后，使用梅尔频率倒谱系数方法分别提取多音与单音音频特征；将训练用的音频特征数据进行抽取与处理，使得特征长度一致；

6)将步骤5)处理过的训练音频数据输入循环神经网络(RNN)中，用RNN的反向传播算法进行模型的训练；

7)经分割的多音视唱音频变成单音音频后作识别模型的测试数据，调整优化模型。

在步骤2)中，所述数据预处理中，白噪音在每个音频文件中都会存在，消除白噪音会对音频质量有所提高，所以在对音频做处理之前，先对音频做降噪处理，主要采用小波降噪和butter滤波器降噪。

在步骤3)中，读取音频数据的音准、时长、频率、节拍等数据，其中音准是一个比较重要的指标，音准的判断不应仅仅对照于刻板的频率表，更要考虑到旋律中的音程关系，因此，相对音准的概念在音频剪辑中就显得格外必要；因此在剪辑时，根据频率中音准能量高低的变化时间节点进行剪辑，分别生成独立的音频数据；音频的特征在时域和频域^[5]两个方面表现不同。音频采样率为22040Hz，对音频进行预加重、分帧和加窗等处理，得到音频每帧的频率数值，音频频率高低的变化与时域上的对应可以反映出孤立音的差异，因此对其进行剪辑，分别生成独立的音频数据。

在步骤5)中，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，梅尔频率倒谱系数特征提取包含两个关键步骤：首先转化到梅尔频率，然后进行倒谱分析。

唱名音频数据经过梅尔频率倒谱系数提取特征，记录每一帧数据的长度，考虑到每个唱名视唱时长短不一，提取的音频特征将按比例抽取，即每一组中音频数组长度最短为n，其他音频数组长度为m，则按照每隔m/n个点抽取特征。

所述提取的音频特征需要进一步的处理，如归一化等，使每个数据的特征长度相同，使其可以训练，具体操作如下：保存最短音频的特征长度，在对其他每一个数据按比例跳跃取点，最终使所有特征长度等于最短音频的特征长度，达到归一化效果。

音频数据放在设计的循环神经网络(RNN)中，用循环神经网络的反向传播算法进行模型训练，目标是识别出7种不同的唱名；所述循环神经网络的训练过程包括：

(1)根据数据特性选择重要的参数，包括激活函数、神经网络的隐层数量、各个隐层神经元节点个数、学习率等；

(2)从训练数据中提取梅尔倒谱系数作为特征，以每个音频所对应的唱名作为预测目标，进行循环神经网络训练。对每个隐层的参数采用随机数对其初始化，使用反向传播算法、梯度下降法让循环神经网络逼近目标值，最终产生的循环神经网络模型预测未知音频的唱名。

与现有技术相比，本发明的有益效果如下：

1.本发明的唱名识别效果可以达到专业的识别的水平，识别精准率较高；

2.本发明的唱名识别运算效率较高，可以在3～5s之内完成唱名识别过程，达到工业应用要求；

3.本发明的唱名识别抗噪能力较强，在有一定背景噪声的情况下也能较好的识别。

附图说明

图1为本发明的识别过程流程图。

图2为小波分解图。

图3为信号重构图。

图4为音准能量变化图

图5为音准频率变化图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

参见图1，本发明实施例包括以下步骤：

步骤一：通过Web端录音软件，界面上可以选择多音录制或者单音录制。其中单音录制的唱名为do，re，mi，fa，so，la，xi七个音符中的一个。选中之后通过按下录音键实现本地录音，按下上传键实现上传。上传之后自动记录在服务器上，并以唱名和序号进行文件命名。以此收集多人视唱练习的音频；

步骤二：将步骤一的音频数据进行去噪，剪裁无音频的空白片段，进行人声增强的数据预处理；

步骤三：将步骤二处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化与时域高低变化上的差异进行剪辑，分别生成独立的音频数据；将每个独立音频数据存储在硬盘上，作为测试初始数据。单音视唱数据可以作为训练初始数据和测试初始数据；

步骤四：将步骤三中的单音视唱音频数据按2:1划分，其中的2份作为训练数据，1份为测试数据。经分割的多音视唱音频变成单音音频后作测试数据；

步骤五：读取步骤四中音频文件，将音频数据预处理后，使用梅尔频率倒谱系数方法分别提取多音与单音音频特征；将训练用的音频特征数据进行抽取与处理，使得特征长度一致；

步骤六：将步骤五处理过的训练音频数据输入循环神经网络(RNN)中，用RNN的反向传播算法进行模型的训练；

步骤七：经分割的多音视唱音频变成单音音频后作识别模型的测试数据，调整优化模型。

在步骤二的数据预处理中，白噪音在每个音频文件中都会存在，因此消除白噪音会对音频质量有所提高，所以在对音频做处理之前，先对其做降噪处理，主要采用小波降噪和butter滤波器降噪。

在数字音频处理中，噪声会干扰原信号，造成文件信息质量下降，因此对哼唱音频的降噪和人声增强是音频预处理中必要的步骤。朱俊敏等^[1]人提出的小波阈音频信号降噪方法和朱艳平^[2]提出的多种小波降噪的精确性较好。因此，本发明结合测试数据特点采用小波变换，它是一种新的变换分析方法,能够在时间(空间)频率的局部化分析，通过伸缩平移运算对信号(函数)逐步进行多尺度细化，最终达到高频处时间细分，低频处频率细分，能自动适应时频信号分析的要求。小波变换具有良好的时频局部化特性，其线性表示为：WX＝Wf+We，保留主要由信号控制的小波系数，发现并去掉由噪声控制的小波系数，剩下的小波系数做逆变换得到去躁信号。

小波分解与信号重构图解参见图2和3。

刘欢^[3]等提出的时域和频域特征相融合的语音端点检测新方法在信噪比较小时准确率较高。在识别音频头尾部的空白音时，先对音频序列分帧，计算每帧的能量大小，若小于某个阈值，则认定为头部空白部分，继续向下循环，若大于该阈值，则跳出循环并返回该位置，最后向主函数返回头部空白部分以及去除空白部分的音频序列。

将得到的头部空白部分可以认定为只有背景的白噪音，并对其进行小波变换以及对原音频序列进行小波变换。将原音频所转换的小波数组中值是在头部空白部分小波数组中的最大值和最小值之间的数置零，然后再将新的小波数组转换成音频序列并输出。

巴特沃斯滤波器的特点是通频带内的频率响应曲线最大限度平坦，没有起伏，而在阻频带则逐渐下降为零。毕东生等^[4]提出巴特沃斯低通滤波器的语音降噪。在振幅的对数对角频率的波特图上，从某一边界角频率开始，振幅随着角频率的增加而逐步减少，趋向负无穷大。

巴特沃斯低通滤波器可用如下振幅的平方对频率的公式表示为：

其中，n＝滤波器的阶数，ω_c＝截止频率＝振幅下降为-3db时的频率，ω_p＝通频带边缘频率在通频带边缘的数值。

在步骤三中，读取音频数据的音准、时长、频率、节拍等数据，其中音准是一个比较重要的指标。音准的判断不应仅仅对照于刻板的频率表，更要考虑到旋律中的音程关系，因此，相对音准的概念在音频剪辑中就显得格外必要。因此在剪辑时，根据频率中音准能量高低的变化时间节点进行剪辑，分别生成独立的音频数据。音准能量和频率变化如图4图5所示。音频的特征在时域和频域^[5]两个方面表现不同。音频采样率为22040Hz，对音频进行预加重、分帧和加窗等处理，得到音频每帧的频率数值，音频频率高低的变化与时域上的对应可以反映出孤立音的差异，因此对其进行剪辑，分别生成独立的音频数据。

在步骤五中，梅尔频率倒谱系数就是组成梅尔频率倒谱的系数，梅尔频率倒谱系数特征提取包含两个关键步骤：转化到梅尔频率，然后进行倒谱分析。A

等人运用梅尔频率倒谱系数(MFCC)等特征对音频信号进行相似性分析得到不错的效果。

唱名音频数据经过梅尔频率倒谱系数提取特征，记录了每一帧数据的长度，考虑到每个唱名视唱时长短不一，提取的特征将按比例抽取。既每一组中音频数组长度最短为n，其他音频数组长度为m，则按照每隔m/n个点抽取特征。

音频数据放在设计的循环神经网络(RNN)中，用循环神经网络的反向传播算法进行模型训练，目标是识别出七种不同的唱名。所述循环神经网络的训练过程包括：

Claims

1.应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于包括以下步骤：

1）通过Web端录音软件，在界面上选择多音录制或者单音录制，其中单音录制的唱名为do，re，mi，fa，so，la，xi七个音符中的一个，选中之后通过按下录音键实现本地录音，按下上传键实现上传，上传之后自动记录在服务器上，并以唱名和序号进行文件命名，以此收集多人视唱练习的音频；

2）将步骤1）的音频数据进行去噪进行去噪，剪裁无音频的空白片段，进行人声增强的数据预处理；

3）将步骤2）处理过的音频数据根据多音视唱曲目中音频的变化特征、音频频率高低的变化和时域高低变化上的差异进行剪辑，分别生成独立的音频数据；将每个独立音频数据存储在硬盘上，作为测试初始数据，单音视唱数据作为训练初始数据和测试初始数据；

4）将步骤3）中的单音视唱音频数据按2︰1划分，其中2份为训练数据，1份为测试数据，经分割的多音视唱音频变成单音音频后作测试数据；

5）读取步骤4）中音频文件，将音频数据预处理后，使用梅尔频率倒谱系数方法分别提取多音与单音音频特征；将训练用的音频特征数据进行抽取与处理，使得特征长度一致；

所述音频数据放在设计的循环神经网络中，用循环神经网络的反向传播算法进行模型训练，目标是识别出7种不同的唱名；所述循环神经网络的训练过程包括：

（1）根据数据特性选择重要的参数，包括激活函数、神经网络的隐层数量、各个隐层神经元节点个数、学习率；

（2）从训练数据中提取梅尔倒谱系数作为特征，以每个音频所对应的唱名作为预测目标，进行循环神经网络训练；对每个隐层的参数采用随机数对其初始化，使用反向传播算法、梯度下降法让循环神经网络逼近目标值，最终产生的循环神经网络模型预测未知音频的唱名；

6）将步骤5）处理过的训练音频数据输入循环神经网络中，用RNN的反向传播算法进行模型的训练；

7）经分割的多音视唱音频变成单音音频后作识别模型的测试数据，调整优化模型。

2.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于在步骤2）中，所述数据预处理中，先对音频做降噪处理，采用小波降噪和butter滤波器降噪。

3.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于在步骤3）中，读取音频数据的音准、时长、频率、节拍数据，在剪辑时，根据频率中音准能量高低的变化时间节点进行剪辑，分别生成独立的音频数据；音频的特征在时域和频域两个方面表现不同；音频采样率为22040Hz，对音频进行预加重、分帧和加窗处理，得到音频每帧的频率数值，音频频率高低的变化与时域上的对应反映出孤立音的差异，因此对其进行剪辑，分别生成独立的音频数据。

4.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于在步骤5）中，所述梅尔频率倒谱系数是组成梅尔频率倒谱的系数，梅尔频率倒谱系数特征提取包含两个关键步骤：首先转化到梅尔频率，然后进行倒谱分析。

5.如权利要求1所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于在步骤5）中，唱名音频数据经过梅尔频率倒谱系数提取特征，记录每一帧数据的长度，考虑到每个唱名视唱时长短不一，提取的音频特征将按比例抽取，即每一组中音频数组长度最短为n，其他音频数组长度为m，则按照每隔m/n个点抽取特征。

6.如权利要求5所述应用于基础音乐视唱教育的视唱音频唱名识别建模方法，其特征在于对所述提取的音频特征进一步处理，所述进一步处理采用归一化，使每个数据的特征长度相同，具体操作如下：保存最短音频的特征长度，在对其他每一个数据按比例跳跃取点，最终使所有特征长度等于最短音频的特征长度，达到归一化效果。