CN114882905A

CN114882905A - 一种基于神经网络的音乐节拍速度检测方法

Info

Publication number: CN114882905A
Application number: CN202210374604.7A
Authority: CN
Inventors: 邵玉斌; 黄辉波; 龙华; 杜庆治; 段云; 周大春; 张昊阁
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-09

Abstract

本发明涉及一种基于神经网络的音乐节拍速度检测方法，属于音频信号处理技术领域。本发明根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐；根据上述判断结果，若为乐器音乐，则进行高通滤波，若为人声音乐，则进行低通滤波；在滤波之后，进行信号分帧，然后取每一帧的最大值，合成包络；对包络进行一阶差分、二阶差分；对差分结果进行多次移动均线处理；移动均线处理完成之后，输入神经网络里面进行训练，最后测试得出音乐节拍值的结果。本发明牵涉的大部分算法均在时域进行，少部分涉及到频域。相比在纯频域计算节拍速度的方法，本方法更加简单方便，计算速度与准确率更高。

Description

一种基于神经网络的音乐节拍速度检测方法

技术领域

本发明涉及一种基于神经网络的音乐节拍速度检测方法，属于音频信号处理技术领域。

背景技术

BPM是每分钟节拍数，数值的大小代表着速度的快慢，它是一首音乐的重要组成部分。不同的BPM的音乐播放或者演奏出来的情感基调是不一样的：速度缓慢的较多是抒情、叙事的歌曲类型，速度适中的较多为欢快、轻松的歌曲类型，速度较快的较多是急促、紧张的音乐类型。基于神经网络的音乐节拍速度检测方法功能就是准确的计算出不同音乐曲子的节拍速度，在得到音乐节拍速度之后，可以进一步音乐节奏分析，音乐节拍跟踪，和音乐类型分类等等研究。

与本申请相关的现有技术是专利文献CN114005464A，公开了一种节拍速度估测方法、装置、计算机设备及存储介质。该方法包括：在当前音乐中提取音频特征；对所述音频特征进行自相关处理；对当前音乐列举每分钟节拍数的多个可能选项；基于每分钟节拍数的每一可能选项分别生成特征拍阵列；对自相关处理后的音频特征和每一所述特征拍阵列进行互相关处理；基于互相关处理结果，选取动态范围符合预设阈值的互相关函数作为当前音乐的节拍速度估测结果。

发明内容

本发明要解决的技术问题是提供一种基于神经网络的音乐节拍速度检测方法，可以大幅度提高音乐节拍估测的准确度，从而解决上述问题。

本发明的技术方案是：一种基于神经网络的音乐节拍速度检测方法，具体步骤为：

Step1：检测音乐类型，根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐。

序列x[n]表示一维音乐信号，首先对信号进行傅里叶变换得到幅度频谱F(n)。对幅度频谱F(n)进行可视化，检测(0-300Hz)附近的冲激线群。若冲激线之间有明显间隔，则判断音乐类型为乐器独奏。若间隔不明显，并且附有其他连续的频谱分量，则判断音乐类型为人声音乐。

Step2：进行信号滤波，若为乐器音乐，则进行高通滤波，若为人声音乐，则进行低通滤波。

根据上述判断结果，若为乐器音乐，则进行高通滤波处理，高通滤波器的截止频率为2400Hz。若为人声音乐，则进行低通滤波处理，低通滤波器的截止频率为1600Hz。

Step3：在滤波之后，进行信号分帧，然后取每一帧的最大值，合成包络。

时域信号分帧，音乐信号的重采样率设为8000Hz/s，分帧的帧长frame_length＝2048点，帧移frame_shift＝512点，帧数num计算的表达式如下：

取每一帧的最大值形成包络，此时的序列设为envelope[num]，num为语音帧数，但是为了后面数据的统一性，取值num＝1000帧。

Step4：对包络进行一阶差分、二阶差分。

对包络信号envelope[num]进行一阶差分，得到envelope_1[num]信号，每一个冲激线代表一个峰值，一阶差分公式如下所示：

envelope_1[n]＝envelope_1[n+1]-envelope_1[n],(n＝0,1,2,...num-1)

对包络信号envelope[num]进行二阶差分，得到envelope_2[num]信号，每一个冲激线代表一个峰值，二阶差分公式如下所示：

envelope_2[n]＝envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n＝0,1,2,...,num-2)

Step5：对差分结果进行多次移动均线处理。

对一阶、二阶差分数据多次进行移动均线处理，表达公式如下：

mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值，num为语音帧数，mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值，num为语音帧数。对移动均线处理后的数据设定相同的音乐节拍值，当做训练的标签。

Step6在多次移动均线处理完成之后，输入神经网络里面进行训练，最后测试得出节拍速度结果。

mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练，得到模型一。mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练，得到模型二。mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练，得到模型三。选择参数效果最好的模型进行测试，得出音乐节拍速度值。

本发明的有益效果是：本发明牵涉的大部分算法均在时域进行，少部分涉及到频域。相比在纯频域计算节拍速度的方法，本发明更加简单方便，计算速度与准确率更高。

附图说明

图1是本发明的流程示意图；

图2是本发明实施例中的乐器音乐时域波形图；

图3是本发明实施例中的人声音乐时域波形图；

图4是本发明实施例中的乐器音乐频域波形图；

图5是本发明实施例中的人声音乐频域波形图；

图6是本发明实施例中的乐器音乐高通滤波后的时域波形图；

图7是本发明实施例中的人声音乐低通滤波后的时域波形图；

图8是本发明实施例中的乐器音乐滤波后的时域包络图；

图9是本发明实施例中的人声音乐滤波后的时域包络图；

图10是本发明实施例中的乐器音乐的包络一阶差分图；

图11是本发明实施例中的乐器音乐的包络二阶差分图；

图12是本发明实施例中的人声音乐的包络一阶差分图；

图13是本发明实施例中的人声音乐的包络二阶差分图；

图14是本发明实施例中的乐器音乐一阶差分之后的移动均线图；

图15是本发明实施例中的乐器音乐二阶差分之后的移动均线图；

图16是本发明实施例中的人声音乐一阶差分之后的移动均线图；

图17是本发明实施例中的人声音乐二阶差分之后的移动均线图；

图18是本发明实施例中的乐器音乐模型一训练处理的误差图；

图19是本发明实施例中的乐器音乐模型二训练处理的误差图；

图20是本发明实施例中的乐器音乐模型三训练处理的误差图；

图21是本发明实施例中的人声音乐模型一训练处理的误差图；

图22是本发明实施例中的人声音乐模型二训练处理的误差图；

图23是本发明实施例中的人声音乐模型三训练处理的误差图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于神经网络的音乐节拍速度检测方法，具体步骤为：

Step1：检测音乐类型，根据音乐信号的频谱图判断是否为乐器音乐、或人声音乐；

Step2：进行信号滤波，若为乐器音乐，则进行高通滤波，若为人声音乐，则进行低通滤波；

Step3：在滤波之后，进行信号分帧，然后取每一帧的最大值，合成包络；

Step4：对包络进行一阶差分、二阶差分；

Step5：对差分结果进行多次移动均线处理；

下面对每一步进行详细的描述。

首先，需要分辨出音乐信号是乐器音乐类型还是人声音乐类型，在时域上可视化出这两大类音乐的图形，每一段音乐信号的时长大概是15s-25s之间。如图2-3所示，可视化时域波形图之后，区别不明显，导致不能分辨音乐类型，所以需要快速傅里叶变换转到频域上进行观它们。如图4-5所示，这时候可以看到它们的区别。检测(0-300Hz)附近的冲激线群；若冲激线之间有明显间隔，则判断音乐类型为乐器独奏；若间隔不明显，并且附有其他连续的频谱分量，则判断音乐类型为人声音乐。

在确认音乐类型之后，需要进行信号滤波，本实施例的所有的音乐信号采样频率为8000Hz。若为乐器音乐，则进行高通滤波处理，高通滤波器的截止频率为2400Hz；若为人声音乐，则进行低通滤波处理，低通滤波器的截止频率为1600Hz，如图6-7所示。

经过滤波之后，需要取出信号的包络图，这里采用分帧取最大值的方法来进行包络提取。时域信号分帧，音乐信号的重采样率设为8000Hz/s，分帧的帧长frame_length＝2048点，帧移frame_shift＝512点，帧数num计算的表达式如下：

取每一帧的最大值形成包络，此时的序列设为envelope[num]，num为语音帧数，但是为了后面数据的统一性，取值num＝1000帧，如图8-9所示。此时的包络图并不是整个输入信号的包络图，因为需要去除一些尾声。

经过包络提取之后，信号的峰值已经非常明显了，但是高峰旁边还有许多次高峰，不利于节奏速度的提取，这时进行一二阶差分可以让峰值突出，次高峰削弱。对包络信号envelope[num]进行一阶差分，得到envelope_1[num]信号，每一个冲激线代表一个峰值，一阶差分公式如下所示：

envelope_1[n]＝envelope_1[n+1]-envelope_1[n],(n＝0,1,2,...num-1)

envelope_2[n]＝envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n＝0,1,2,...,num-2)如图10-11所示。

一二差分之后的图具有负数值，现在需要把负数值去掉，只留下上半轴的数据；同时想要再次突出最高峰，削弱次高峰，利用多次移动均线可以解决这个问题。对一阶、二阶差分数据进行多次移动均线处理，表达公式如下：

mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值，num为语音帧数，mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值，num为语音帧数；如图12-13所示。

对移动均线处理后的数据设定相同的音乐节拍值，当做训练的标签。训练数据一共有三类：第一类是一阶差分数据进行训练、第二类是二阶差分数据进行训练、第三类是一二阶差分数据混合进行训练，结果分别得到每种音乐类型的三种不同的训练效果图。如图14-23所示，经过模型测试集数据测试，选取效果最好的模型进行节拍速度值预测。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于神经网络的音乐节拍速度检测方法，其特征在于：

Step4：对包络进行一阶差分、二阶差分；

Step5：对差分结果进行多次移动均线处理；

2.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step1具体为：

Step1.1：序列x[n]表示一维音乐信号，对信号进行傅里叶变换得到幅度频谱F(n)；

Step1.2：对幅度频谱F(n)进行可视化，检测(0-300Hz)附近的冲激线群；

Step1.3：若冲激线之间有明显间隔，则判断音乐类型为乐器独奏；若间隔不明显，并且附有其他连续的频谱分量，则判断音乐类型为人声音乐。

3.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step2具体为：

Step2.1：对音乐信号进行分类滤波，设滤波后的信号序列为x_filter[n]；

Step2.2：若为乐器音乐，则进行高通滤波处理，高通滤波器的截止频率为2400Hz；若为人声音乐，则进行低通滤波处理，低通滤波器的截止频率为1600Hz。

4.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step3具体为：

Step3.1：时域信号分帧，音乐信号的重采样率设为8000Hz/s，分帧的帧长frame_length＝2048点，帧移frame_shift＝512点，帧数num计算的表达式如下：

Step3.2：取每一帧的最大值形成包络，此时的序列设为envelope[num]，num为语音帧数。

5.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step4具体为：

Step4.1：对包络信号envelope[num]进行一阶差分，得到envelope_1[num]信号，每一个冲激线代表一个峰值，一阶差分公式如下所示：

envelope_1[n]＝envelope_1[n+1]-envelope_1[n],(n＝0,1,2,...num-1)

Step4.2：对包络信号envelope[num]进行二阶差分，得到envelope_2[num]信号，每一个冲激线代表一个峰值，二阶差分公式如下所示：

envelope_2[n]＝envelope_2[n+2]-2×envelope_2[n+1]+envelope_2[n],(n＝0,1,2,...,num-2)。

6.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step5具体为：

Step5.1：对一阶、二阶差分数据进行多次移动均线处理，表达公式如下：

mean_1[num]表示一阶差分数据envelope_1[num]每一帧的平均值，num为语音帧数，

mean_2[num]表示二阶差分数据envelope_2[num]每一帧的平均值，num为语音帧数。

7.根据权利要求1所述的基于神经网络的音乐节拍速度检测方法，其特征在于所述Step6具体为：

Step6.1：mean_envelope_1[n]数据和对应的标签值输入神经网络模型里面进行训练，得到模型一；

Step6.2：mean_envelope_2[n]数据和对应的标签值输入神经网络模型里面进行训练，得到模型二；

Step6.3：mean_envelope_1[n]、mean_envelope_2[n]数据和对应的标签值混合输入神经网络模型里面进行训练，得到模型三；

Step6.4：选择参数效果最好的模型进行测试，得出音乐节拍速度。