CN111429943A

CN111429943A - 音频中音乐及音乐相对响度的联合检测方法

Info

Publication number: CN111429943A
Application number: CN202010198682.7A
Authority: CN
Inventors: 吕建成; 贾碧珏; 彭玺; 李茂�; 孙亚楠; 黄晓明
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-17
Anticipated expiration: 2040-03-20
Also published as: CN111429943B

Abstract

本发明公开了一种音频中音乐及音乐相对响度的联合检测方法，其包括获取待检测音频，并对其进行预处理得到音频特征；将音频特征作为网络输入序列输入双任务音乐检测网络模型，输出每个时间步的三个预测分数；基于预测分数≥设定阈值或＜设定阈值时标记为1或0，将每个时间步的预测分数转换成大小为(3,)的0‑1预测向量，采用所有时间步的预测向量形成音乐相对响度检测序列；将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0‑1预测向量，采用逻辑或运算得到的所有预测向量形成音乐检测序列；将音乐相对响度检测序列和音乐检测序列转为可读的标注，得到音频包括起始时间、结束时间和类别的标注文件。

Description

音频中音乐及音乐相对响度的联合检测方法

技术领域

本发明涉及音乐检测技术，具体涉及一种音频中音乐及音乐相对响度的联合检测方法。

背景技术

音乐检测是音乐信息检索任务的一种，音乐检测是指给定一个音频文件，判断其中是否含有音乐片段以及出现音乐片段的起止位置。音乐检测任务的两个主要应用是：(1)基于音频内容对听觉信息进行自动索引和检索；(2)监测音乐以进行版权管理。此外，音乐检测还可以作为其他音乐信息检索任务的中间步骤并提高其他音乐信息检索算法的性能。

音乐检测任务最初仅关注于对音频文件中音乐声和人说话声这两种类别的声音信息进行区分(此外的声音被标注为噪音)。考虑到音乐检测在版权管理方面具有重要的应用意义，工业界已不满足于仅检测出是否存在音乐，还需要算法估计出检测到的音乐是以前景声音出现的还是背景声音出现的。至此，音乐检测任务分化出两个子任务：检测音乐是否存在以及检测音乐的相对响度(相对于其他同时出现的非音乐声音，判断音乐是前景音乐还是背景音乐)。

现有的大部分音乐检测技术仍停留在对人声和音乐声的区分上，并未考虑对音乐的相对响度进行估计，使得音乐检测的效果欠佳。

发明内容

针对现有技术中的上述不足，本发明提供的音频中音乐及音乐相对响度的联合检测方法能够实现音乐及音乐相对响度的同时检测，并能提高检测精度。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种音频中音乐及音乐相对响度的联合检测方法，其包括：

S1、获取待检测音频，并对其进行预处理得到音频特征；

S2、将音频特征作为网络输入序列输入双任务音乐检测网络模型，输出每个时间步的三个预测分数，预测分数分别对应于无音乐、背景音乐和前景音乐；

S3、基于预测分数≥设定阈值或＜设定阈值时标记为1或0，将每个时间步的预测分数转换成大小为(3,)的0-1预测向量，采用所有时间步的预测向量形成音乐相对响度检测序列；

S4、将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0-1预测向量，采用逻辑或运算得到的所有预测向量形成音乐检测序列；

S5、将音乐相对响度检测序列和音乐检测序列转为可读的标注，得到音频包括起始时间、结束时间和类别的标注文件。

本发明的有益效果为：本方案处理得到的音频特征考虑了时序关系，音频特征输入双任务音乐检测网络模型后得到每个时间步的时频的三个预测分数保持了各时间步长上音频的前后关系；

通过对得到的两个检测序列进行标注，可以得到比较直观表征待检测音频在哪些时段是否存在音乐，且分别为前景音乐还是背景音乐的标注文件，标注文件由于保持了各个时间步长上音频的前后关系，从而使得本方案可以取得更优的检测结果。

附图说明

图1为音频中音乐及音乐相对响度的联合检测方法的流程图。

图2为双任务音乐检测网络的结构示意图。

图3为本方案的音频中音乐及音乐相对响度的联合检测方法标注效果示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了音频中音乐及音乐相对响度的联合检测方法的流程图；如图1所示，该方法S包括步骤S1至步骤S5。

在步骤S1中，获取待检测音频，并对其进行预处理得到音频特征。

在本发明的一个实施例中，对待检测音频进行预处理的方法包括：

S11、判断待检测音频/音频样本是否为单声道，若是直接进入步骤S12，否则将待检测音频/音频样本合并为单声道，之后进入步骤S12；

若待检测音频/音频样本不是单声道，就难以实现音频特征的提取，此处单声道的检测主要目的是方便后续音频特征的顺利提取。

S12、对单声道的音频进行降采样操作，之后进行短时傅里叶变换得到STFT频谱；其中降采样为8000Hz，短时傅里叶变换时设置傅里叶变换的窗口大小为512以及跳长(hoplength)为128。

S13、对STFT频谱进行梅尔滤波处理得到梅尔频谱，梅尔滤波处理时设置每帧128个频率值，每帧也即本申请中提到的时间步；并对其取对数处理转换为分贝尺度的梅尔频谱作为对数梅尔特征。

S14、根据对数梅尔特征和训练集中所有音频样本的对数梅尔特征的均值，对对数梅尔特征进行零均值标准化得到音频特征，音频特征S_norm的计算公式为：

其中，S为对数梅尔特征；S_mean为训练集中所有音频样本的对数梅尔特征的均值；S_std为训练集中所有音频样本的对数梅尔特征标准差。

其中，音频特征的每一帧(frame)频谱即为网络输入序列每个时间步(time-step)的音频特征，网络输入序列的时间维度即为网络输入序列的时间步长(计算得时间步长为3751，即3751个time-step；每个time-step代表0.016秒，是由跳长除以采样率所得到)，另一维度作为特征维数(每个时间步长的向量的维数，即一个frame的维数)。

采用上述方式进行音频特征的提取，考虑了待检测音频的时序关系，这样可以保证后续待检测音频检测的准确性。

在步骤S2中，将音频特征作为网络输入序列输入双任务音乐检测网络模型，输出每个时间步的三个预测分数，预测分数分别对应于无音乐、背景音乐和前景音乐。

在本发明的一个实施例中，所述双任务音乐检测网络模型的训练方法包括：

A1、获取具有标注文件的音频样本，并对其进行预处理得到音频特征；本方案的音频样本来源于已做标注且样本数量较大的公开数据集，其可以为该公开数据中的部分音频样本也可以为全部音频样本。

标注文件包括音乐检测标注文件和音乐相对响度标注文件，其中音乐检测标注文件格式为：起始时间(秒)\t结束时间(秒)\t类别(no-music/music)；音乐相对响度标注文件格式为：起始时间(秒)\t结束时间(秒)\t类别(no-music/fg-music/bg-music)，no-music、fg-music和bg-music分别为无音乐、前景音乐和背景音乐。

为了实现对两个子任务的共同监督，于是将音乐检测子任务和音乐相对响度估计子任务的标注进行合并，构成三分类的类别标签：no-music、fg-music和bg-music。

A2、根据音频样本的标注文件及其对应的音频特征，对音频特征每个时间步的音频的标签进行编码，得到一个大小为(3,)的0-1标签向量；

实施时，本方案优选对音频特征每个时间步的音频的标签进行编码的方法包括：

根据音频特征标签的三种类型，确定标签向量的大小为(3,)的0-1向量，标签向量的每位分别对应于三种类型中无音乐、背景音乐和前景音乐；

判断每个时间步的音频的标签属于无音乐、背景音乐和前景音乐中的哪种类型；

当音频的标签为无音乐、背景音乐或前景音乐时，将标签向量的相应位置标记为1，其他两位标记为0，得到编码完成后的标签向量。

由于本方案的标签类型只有三种，那么确定的标签向量的长度即为3，若签向量的第一位至第三位分别为无音乐、背景音乐和前景音乐，同时假设标注文件中展示在音频的第3秒至第4秒为存在背景音乐，向量标签中的值为1表示属于该类别，值为0表示不属于该类别，那么最终得到的标签向量为010。

A3、将音频样本的音频特征作为的网络输入序列及对应音频特征的所有标签向量构成的标注编码序列作为训练样本集。

A4、构建用于帧特征提取的卷积神经网络、用于时序特征提取的双向长短时记忆网络及用于分类的全连接网络，并将三个网络依次连接构成双任务音乐检测网络(该检测网络的网络结构参见图2)。

实施时，本方案优选用于帧特征提取的卷积神经网络包含4段一维卷积(Conv1d)操作，每段卷积后依次进行批次正则化(Batch Normalization)、线性整流激活(ReLU)和最大池化(MaxPool1d)这三个操作，具体如下表所示：

层数	类型	输出尺寸	卷积核大小	卷积核个数	步长
						1	Conv1d	64×63	3	64	2
2	Batch Norm	64×63	-	-	-
						3	ReLU	64×63	-	-	-
4	MaxPool1d	64×31	3	-	2
						5	Conv1d	128×15	3	128	2
6	Batch Norm	128×15	-	-	-
						7	ReLU	128×15	-	-	-
8	MaxPool1d	128×7	3	-	2
						9	Conv1d	256×3	3	256	2
10	Batch Norm	256×3	-	-	-
						11	ReLU	256×3	-	-	-
12	MaxPool1d	256×1	3	-	2

帧特征提取卷积神经网络的输入为预处理得到的音频特征的一个时间步长的音频，即一帧的特征，因此输入数据为一维，输入数据为1通道(1个卷积核)，因此在输入卷积网络之前将输入维数扩展为1×128，输出数据的维数为256×1(通道数为256)，压缩输出的维数至(256,)；

依次将每帧的特征输入该卷积神经网络(即所有时间步长共享同一个帧特征提取卷积神经网络)会得到一个输出序列，序列维数为3751×256，该序列作为双向长短时记忆网络的输入。

用于时序特征提取的双向长短时记忆网络包含2层双向长短时记忆神经网络(BiLSTM)，每个长短时记忆单元的大小设置为50，卷积神经网络的输出作为双向长短时记忆网络的输入，输出为两个方向的LSTM网络输出序列，各自维数均为3751×50，之后将两个方向的输出拼接在一起输出；最后得到的输出维数为3751×100。

用于分类的全连接网络包含1层前馈神经元，神经元的个数设置为3，最后的激活函数采用Sigmoid函数；该部分网络的输入维数为3751×100，输出维数为3751×3，表示每个时间步的音频特征属于三个类别的预测分数。

A5、将训练样本集中的网络输入序列作为双任务音乐检测网络的输入，训练双任务音乐检测网络以最优化代价函数，得到双任务音乐检测网络模型；

所述代价函数为均方误差函数，用于计算双任务音乐检测网络输出的预测分数与标注编码序列之间的误差。

本方案构建的训练双任务音乐检测网络的参数分别设置为：学习率为0.001，批次大小为16，优化函数使用Adam函数，训练迭代次数为30。

在步骤S3中，基于预测分数≥设定阈值或＜设定阈值时标记为1或0，1表示存在相应类型，0表示不存在相应类型；将每个时间步的预测分数转换成大小为(3,)的0-1预测向量，采用所有时间步的预测向量形成音乐相对响度检测序列。

本方案三个类型分别对应一个设定阈值，在实施时，优选三个类型的设定阈值都取0.5。

在步骤S4中，将预测向量的二三位置采用逻辑或运算合并得到大小为(2,)的0-1预测向量，采用逻辑或运算得到的所有预测向量形成音乐检测序列；

假如音乐相对响度检测序列中的一个预测向量001(预测向量第一个位置为no-music，第二个位置为bg-music，第三个位置为fg-music)，即表示预测向量对应的一帧音频为前景音乐，经过步骤S4的逻辑或运算合并的预测向量为01，对应于检测时该帧音频有音乐。

在步骤S5中，将音乐相对响度检测序列和音乐检测序列转为可读的标注，得到音频包括起始时间、结束时间和类别的标注文件。

实施时，本方案优选将音乐相对响度检测序列和音乐检测序列转为为可读的标注包括：

根据音乐相对响度检测序列/音乐检测序列中每个时间步对应的编码，将序列中连续时间步编码相同的合并在一起，并同时记录连续时间步的起点时间和终点时间及对应编码的类型，完成标注。

假设音乐相对响度检测序列中起始的一小段(前10个时间步的预测向量)为001,001,001,010,010,010,010,010,100,100，每个预测向量第一个位置为no-music，第二个位置为bg-music，第三个位置为fg-music。这里为方便示例假设每个时间步为1秒，那么按照“起始时间(秒)\t结束时间(秒)\t类别(no-music/bg-music/fg-music)”得到的标注文件为：

0 3 fg-music，3 8 bg-music，8 10 no-music。

综上所述，本方案通过对音乐相对响度和音乐进行标注后的标注文件对网络进行训练，使得训练后的网络可以实现音乐相对响度和音乐的检测；在检测时，本方案通过对每个时间步长的音频特征进行学习和建模，而且保持各个时间步长上的特征的前后关系，做到了对时序关系进行建模，使得本发明取得了更优的检测结果。

如图3所示，给定一个长60秒的测试音频，图示(上)为音频的原始波形图，图示(中)为音频的频谱图，图示(下)为标注结果的可视化。对图示(下)进行具体说明如下：reference表示真实的标注，estimated表示本专利计算所得的标注结果；横轴表示时间(秒)，纵轴分别表示三个类别(这里仅给出音乐响度估计子任务的三个类别，可通过逻辑或运算合并fg-music和bg-music的标注结果得到音乐检测子任务的music的标注结果)。从图示(下)可看出，本方案所述方法能够较精确地标注出事件类别以及对应的起止时间。

关于本方案提供的方法的准确率的说明

对本方案提供的方法在测试集(含164个长度均为60秒的音频样本及其真实标注文件)上进行评估，评估指标为准确率，准确率的计算过程如下：

用训练好的网络对测试集里164个音频文件进行标注，得到164个预测标注文件。对一个音频样本的预测标注与真实标注均按照10毫秒的长度依次划分为一系列片段(预测标注片段序列与真实标注片段序列一一对应)，那么一个音频样本的准确率为：

令测试集样本数为N(N＝164)，那么测试集准确率为：

下面基于上述的试验数据现有技术的“对电视媒体音频：带有相对音乐响度注释的电视广播音频数据集”与本方案所提方法进行对比对比实验，试验结果如下：

	音乐检测子任务	音乐响度估计子任务
			现有技术	0.8895	0.8271
本方案	0.9002	0.9034

其中，对电视媒体音频：带有相对音乐响度注释的电视广播音频数据集为Meléndez-Catalán B,Molina E,Gómez E.Open Broadcast Media Audio from TV:A Datasetof TV Broadcast Audio with Relative Music Loudness Annotations[J].Transactions of the International Society for Music Information Retrieval,2019,2(1)。

通过上述对比分析可知，本方案的方法相对现有技术而言可以实现音乐检测和音乐响度检测时，其准确度更高。

Claims

1.音频中音乐及音乐相对响度的联合检测方法，其特征在于，包括：

S1、获取待检测音频，并对其进行预处理得到音频特征；

2.根据权利要求1所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，所述双任务音乐检测网络模型的训练方法包括：

A1、获取具有标注文件的音频样本，并对其进行预处理得到音频特征，标注文件包括音乐检测标注文件和音乐相对响度标注文件；

A3、将音频样本的音频特征作为的网络输入序列及对应音频特征的所有标签向量构成的标注编码序列作为训练样本集；

A4、构建用于帧特征提取的卷积神经网络、用于时序特征提取的双向长短时记忆网络及用于分类的全连接网络，并将三个网络依次连接构成双任务音乐检测网络；

所述代价函数计算双任务音乐检测网络输出的预测分数与标注编码序列之间的误差。

3.根据权利要求2所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，所述对音频特征每个时间步的音频的标签进行编码的方法包括：

4.根据权利要求2所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，所述用于帧特征提取的卷积神经网络包含4段一维卷积操作，每段卷积后依次进行批次正则化、线性整流激活和最大池化这三个操作；

用于时序特征提取的双向长短时记忆网络包含2层双向长短时记忆神经网络，卷积神经网络的输出作为双向长短时记忆网络的输入，输出为两个方向的LSTM网络输出序列，之后将两个方向的输出拼接在一起输出；

用于分类的全连接网络包含1层前馈神经元，神经元的个数设置为3，最后的激活函数采用Sigmoid函数。

5.根据权利要求4所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，训练双任务音乐检测网络的参数分别设置为：学习率为0.001，批次大小为16，优化函数使用Adam函数，训练迭代次数为30。

6.根据权利要求1或2所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，对待检测音频进行预处理得到音频特征的方法包括：

S12、对单声道的音频进行降采样操作，之后进行短时傅里叶变换得到STFT频谱；

S13、对STFT频谱进行梅尔滤波处理得到梅尔频谱，并对其取对数处理转换为分贝尺度的梅尔频谱作为对数梅尔特征；

S14、根据对数梅尔特征和训练集中所有音频样本的对数梅尔特征的均值，对对数梅尔特征进行零均值标准化得到音频特征。

7.根据权利要求6所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，所述音频特征S_norm的计算公式为：

8.根据权利要求6所述的音频中音乐及音乐相对响度的联合检测方法，其特征在于，所述将音乐相对响度检测序列和音乐检测序列转为为可读的标注进一步包括：