CN116129837B

CN116129837B - 一种用于音乐节拍跟踪的神经网络数据增强模块和算法

Info

Publication number: CN116129837B
Application number: CN202310384662.2A
Authority: CN
Inventors: 吴德钦; 冉启海; 王明江
Original assignee: Shenzhen Yusi Semiconductor Co ltd
Current assignee: Shenzhen Yusi Semiconductor Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-06-20
Anticipated expiration: 2043-04-12
Also published as: CN116129837A

Abstract

本发明一种用于音乐节拍跟踪的神经网络数据增强模块和算法，包括预处理模块和神经网络音乐源分离模块。本发明针对传统数据增强策略的缺陷和不足，转变数据增强的方向，提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法，该算法采用数据增强策略，结合预训练的前端神经网络，实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。

Description

一种用于音乐节拍跟踪的神经网络数据增强模块和算法

技术领域

本发明涉及音乐节拍跟踪技术领域，具体涉及一种用于音乐节拍跟踪的神经网络数据增强模块和算法。

背景技术

现有技术的专利文献CN114882905A，公开了一种基于神经网络的音乐节拍速度检测方法，先检测音乐类型，进行信号滤波后，进行信号分帧，取每一帧最大值合成包络，对包络进行一阶差分、二阶差分，对差分结果进行多次移动均线处理，输入神经网络里进行训练，最后测试得出节拍速度。

专利文献CN114937459A提出的音频数据增强方法，在音乐节拍跟踪时，往往需要先对输入音频信号进行预处理和数据增强，常规的数据增强算法包括插入随即噪音、沿时间轴移动、变速等，这些传统算法过于简单，并不能帮助音乐节拍跟踪模型有效提取特征，对模型性能提升作用不大。

发明内容

为了解决现有技术中的问题，本发明针对传统数据增强策略的缺陷和不足，转变数据增强的方向，提高整个节拍跟踪系统的性能。提供用一种用于音乐节拍跟踪的神经网络数据增强算法，该算法采用数据增强策略，结合预训练的前端神经网络，实现了一种适用于音乐节拍跟踪系统的前端数据增强算法。

实现本发明目的的技术方案为：

一种用于音乐节拍跟踪的神经网络数据增强模块，包括预处理模块和神经网络音乐源分离模块。

一种用于音乐节拍跟踪的神经网络数据增强算法，包括如下步骤：

1）预处理：音乐信号先经过预处理，被转换为适合网络输入的形式；

2）音频源分离：通过训练好的源分离神经网络，分为至少一条音轨；

3）筛选音轨：采取数据筛选策略筛选音轨。

步骤2）中包括音频源分离模型预测和音频源分离模型训练。

步骤1）预处理：对每段数据进行预加重处理，采用的公式为：

y(n)=x(n)-αx(n-1)

其中x为裁剪后的原始音频信号，n和n-1代表信号的相邻两帧，α为高通滤波器系数，这里取0.97,y(n)为预加重后的音频时域信号。

然后对数据进行短时傅里叶变换。

具体操作为：首先进行分帧，将信号分为几十毫秒的小段，算法中采用46ms的帧长和23ms的帧移，相邻两帧重叠率为50%，以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露，采用汉宁窗，窗函数如下：

；

其中N为窗口长度，这里与帧长对应，可由采样率计算得到；w(m)为第m点处的窗函数值。将窗函数与每帧信号相乘称为加窗，得到加窗后的信号。

然后对每一段音频进行快速傅里叶变换，得到频域特征，并沿时间维度拼接，得到声谱图。最后将声谱图通过梅尔标度滤波器组，将其变为梅尔频谱，得到线性的感知关系。其映射关系如下：

mel(f)=2595log₁₀(1+f/700),

其中f为原始频率，经过变换得到mel(f)为梅尔频率。

步骤1）的预处理，针对不同类型的数据和不同的任务需求采用不同的与预处理方式，其他处理方式包括预滤波——滤去不需要的频率段，保留有效频率；端点检测——检测音频和噪声或无效片段的分界点，筛选有效片段等，预处理方式不限于上述方式。

2）音频源分离

源分离模块采用预训练的分离模型，其预测流程如图2所示。

输入的数据为预处理后的音频梅尔频谱，输出分离后的音轨梅尔频谱。首先根据频谱计算幅度谱，输入到训练好的Unet中，每个Unet的作用是提取出原音频中某一特征，本算法需要分离出5维特征，所以需要5个Unet，分别得到人声、鼓声、贝斯声、钢琴声、其他声音5条音轨。Unet的输出也为幅度谱，将各音轨的幅度谱平方得到其能量，并计算每个时刻各音轨在每个频带上的占比，公式如下：

；

其中AMP_i为第i维特征的幅度谱，MASK_i为第i维特征的能量在所有特征能量中的占比。

将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱，最后使用逆短时傅里叶变换（invertible STFT）即可得到分离出的各音轨音乐，公式如下：

mel_i(f)=MASK_i*mel(f)

其中mel_i(f)为第i维特征的梅尔频谱。

其中Y_t(n)为第t帧频谱的傅里叶逆变换，X_t(f)为第t帧的频谱，H为帧移，M为帧长，j为虚数单位，

；

X1(n)为逆短时傅里叶变换得到的复原时域信号，ω为使用的窗函数，a为还原参数，这里取a=1，使其等价于Griffin-Lim最优估计。

每个Unet均使用三层双向长短时记忆神经网络（BLSTM，Bidirectional LongShort-Term Memory），每层具有250个正向LSTM单元和250个反向LSTM单元。其训练流程如图3所示。

训练数据为原始音乐及其各音轨，同一数据的多个音轨时间轴需要严格对齐，模型输入为原始音乐的幅度谱，通过Unet后计算与各条音轨幅度谱的L1距离，损失函数（Loss）为5个L1距离的平均值。

3）筛选音轨

为了应对包含多种音乐风格的数据集，防止模型可能会分离出无效的音轨数据对后续的训练效果产生负面影响，需要采取一定的数据筛选策略。本算法的策略是计算音轨在时域内幅度绝对值的平均值（幅度经过归一化），若其小于0.01，则视为无效数据，舍去这条音轨。

最后对算法进行测试，以源分离后经过筛选的音轨数据作为训练数据，训练两种音乐节拍跟踪模型，分别基于双向长短时记忆网络和时间卷积网络（TemporalConvolutional Network，TCN），训练时均使用8-fold验证，使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外，使用完全不参与训练的GTZAN数据集用作测试。

本发明的有益效果为：

1、本发明的算法所需的神经网络模型可预训练，运算量不大。

2、本发明的算法能帮助节拍跟踪模型进行特征提取，有效提高音乐节拍跟踪系统的整体性能。

3、本发明的算法可以增大训练数据规模，并且改善不良训练数据的质量。

附图说明

图1是用于音乐节拍跟踪的神经网络数据增强模块结构示意图；

图2是音频源分离模型预测流程图；

图3是音频源分离模型训练流程图。

具体实施方式

图1-图3用以解释本发明，但本发明不限于图1-图3所示的范围内。

如图1所示，一种用于音乐节拍跟踪的神经网络数据增强模块，包括预处理模块和神经网络音乐源分离模块。

3）筛选音轨：采取一定的数据筛选策略筛选音轨。

1）预处理

为了方便后续的数据处理，首先将输入的音乐信号统一重采样为44.1kHz，然后去除音频的前5s，这是因为音乐数据的特殊性，大部分音乐在5s之后才会开始有声音数据。余下的有效数据裁剪为10s长度的片段，舍去尾部多余不足10s的片段。对每段数据进行预加重处理，目的是补偿高频分量，采用的公式为：

y(n)=x(n)-αx(n-1)

然后对数据进行短时傅里叶变换（STFT，short-time Fourier transform）。具体操作为首先进行分帧，将信号分为几十毫秒的小段，算法中采用46ms的帧长和23ms的帧移，相邻两帧重叠率为50%，以保证信号的连续性和可恢复性。然后通过加窗来抑制频谱泄露，通常采用汉宁窗，窗函数如下：

；

然后对每一段音频进行快速傅里叶变换（Fast Fourier Transform，FFT），得到频域特征，并沿时间维度拼接，得到声谱图。最后将声谱图通过梅尔标度滤波器组（Mel-scaleFilter Banks），将其变为梅尔频谱，得到线性的感知关系。其映射关系如下：

mel(f)=2595log₁₀(1+f/700),

其中f为原始频率，经过变换得到mel(f)为梅尔频率。

2）音频源分离

源分离模块采用预训练的分离模型，其预测流程如图2所示。

；

mel_i(f)=MASK_i*mel(f)

其中mel_i(f)为第i维特征的梅尔频谱。

；

由图3可见，训练数据为原始音乐及其各音轨，同一数据的多个音轨时间轴需要严格对齐，模型输入为原始音乐的幅度谱，通过Unet后计算与某条音轨幅度谱的L1距离，损失函数（Loss）为5个L1距离的平均值。

3）筛选音轨

最后对算法进行测试，以源分离后经过筛选的音轨数据作为训练数据，训练两种音乐节拍跟踪模型，分别基于双向长短时记忆网络和时间卷积网络（TemporalConvolutional Network，TCN），训练时均使用8-fold验证，使用的数据集为公开数据集Hainsworth、SMC、Ballroom、Harmonix。此外，使用完全不参与训练的GTZAN数据集用作测试。结果如表1所示，其中SMC数据集没有强拍注释，所以没有强拍跟踪得分。

表1 模型测试结果对比表

数据集	模型	F-measure	Downbeat F-measure
				Hainsworth	BLSTMBLSTM AugTCNTCN Aug	0.7580.7930.8810.887	0.5430.6110.6640.706
SMC	BLSTMBLSTM AugTCNTCN Aug	0.5160.5500.5690.589
				Ballroom	BLSTMBLSTM AugTCNTCN Aug	0.9310.9520.9550.962	0.7620.8340.8820.934
Harmonix	BLSTMBLSTM AugTCNTCN Aug	0.9120.9390.9330.955	0.7340.8120.8040.900
				GTZAN	BLSTMBLSTM AugTCNTCN Aug	0.8530.8810.8620.874	0.6080.7400.5680.681

可以看出，加入本发明的数据增强算法后，两种模型的表现均有明显提高。在8-fold验证数据集上，节拍跟踪得分平均提高2.96%，强拍跟踪得分平均提高9.46%。在仅做测试的数据集上，节拍跟踪得分平均提高2.33%，强拍跟踪得分平均提高20.8%。可知该算法能有效帮助节拍跟踪系统提取音乐特征，从而提升整个系统的性能。

上述实施例仅为本发明具体实施例,但并不局限于实施例,凡在不脱离本发明构思的情况下,依本申请所做的等效修饰和现有技术添加均视为本发明技术范畴。

Claims

1.一种用于音乐节拍跟踪的神经网络数据增强算法，其特征在于：包括如下步骤：

3）筛选音轨：采取数据筛选策略筛选音轨，

y(n)=x(n)-αx(n-1)

其中x为裁剪后的原始音频信号，n和n-1代表信号的相邻两帧，α为高通滤波器系数，y(n)为预加重后的音频时域信号；

然后对数据进行短时傅里叶变换，

具体操作为：首先进行分帧，将信号分为几十毫秒的小段，算法中采用46ms的帧长和23ms的帧移，相邻两帧重叠率为50%，以保证信号的连续性和可恢复性；然后通过加窗来抑制频谱泄露，采用汉宁窗，窗函数如下：

，

其中N为窗口长度；w(m)为第m点处的窗函数值，将窗函数与每帧信号相乘称为加窗，得到加窗后的信号；

然后对每一段音频进行快速傅里叶变换，得到频域特征，并沿时间维度拼接，得到声谱图；最后将声谱图通过梅尔标度滤波器组，将其变为梅尔频谱，得到线性的感知关系，其映射关系如下：

mel(f)=2595log₁₀(1+f/700),

其中f为原始频率，mel(f)为梅尔频率，

步骤2）中包括音频源分离模型预测和音频源分离模型训练，

音频源分离模型预测包括如下步骤：

（1）根据频谱计算幅度谱，输入到训练好的Unet中，每个Unet的作用是提取出原音频中某一种或几种特征，Unet的输出也为幅度谱，将各音轨的幅度谱平方得到其能量，并计算每个时刻各音轨在每个频带上的占比，公式如下：

，

其中AMP_i为第i维特征的幅度谱，MASK_i为第i维特征的能量在所有特征能量中的占比，

（2）将输入原音乐的频谱与音轨能量占比相乘得到各音轨频谱，最后使用逆短时傅里叶变换即可得到分离出的各音轨音乐，公式如下：

mel_i(f)=MASK_i*mel(f)

其中mel_i(f)为第i维特征的梅尔频谱，

，

，

X1(n)为逆短时傅里叶变换得到的复原时域信号，ω为使用的窗函数，a为还原参数。

2.根据权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法，其特征在于：

音频源分离模型训练：

每个Unet均使用三层双向长短时记忆神经网络，每层具有250个正向LSTM单元和250个反向LSTM单元；

训练数据为原始音乐及其各音轨，同一数据的多个音轨时间轴需要严格对齐，模型输入为原始音乐的幅度谱，通过Unet后计算与各条音轨幅度谱的L1距离，损失函数为5个L1距离的平均值。

3.根据权利要求2所述的一种用于音乐节拍跟踪的神经网络数据增强算法，其特征在于：

步骤3）筛选音轨：

数据筛选策略是计算音轨在时域内幅度绝对值的平均值，若其小于0.01，则视为无效数据，舍去这条音轨；

对算法进行测试，以源分离后经过筛选的音轨数据作为训练数据，训练两种音乐节拍跟踪模型，分别基于双向长短时记忆网络和时间卷积网络，训练时均使用8-fold验证。

4.应用权利要求1所述的一种用于音乐节拍跟踪的神经网络数据增强算法的模块，其特征在于：包括预处理模块和神经网络音乐源分离模块。