CN110827804B

CN110827804B - 一种音频帧序列到事件标签序列的声音事件标注方法

Info

Publication number: CN110827804B
Application number: CN201911111989.2A
Authority: CN
Inventors: 余春艳; 刘煌; 乔锦浩
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-06-14
Anticipated expiration: 2039-11-14
Also published as: CN110827804A

Abstract

本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法，包括如下步骤：步骤S1:从给定音频文件中提取梅尔能量特征，并将其处理成特征序列；步骤S2:根据得到的特征序列，使用三层卷积神经网络提取每帧的抽象特征，并通过双向门限递归单元神经网络提取帧综合特征序列；步骤S3:根据得到的综合特征序列，通过Softmax前馈神经网络层作为注意力机制层，得到注意力特征,并进一步得到事件标签序列；步骤S4:将得到的所有音频片段的声音事件标签序列联合，并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制，在降低误检测的同时提高事件检出率，改善定位准确度，最后对模型输出进行平滑和合并处理，以显著提高音频文件中声音事件的标注精度。

Description

一种音频帧序列到事件标签序列的声音事件标注方法

技术领域

本发明涉及声音标注领域，具体涉及一种音频帧序列到事件标签序列的声音事件标注方法。

背景技术

声音事件标注往往涉及到语音信号的分析与处理中诸多方面的工作。根据研究的侧重点不同，目前的研究工作包含两大块：特征提取与标注定位。前者主要研究如何提取能够较好地刻画目标声音事件的音频特征；后者主要研究如何通过对特征的学习和建模，运用分类，回归等多种方法，进行目标声音事件进行定位。

声音事件的特征通常沿用语音信号在时频域和倒谱域的特征。常用的声音事件特征包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、梅尔能量(Mel-energy)、线性预测倒谱系数(Linear Prediction Cepstral Coefficient,LPCC)等。

传统的音频标注方法一般使用分段标注机制，该机制一般以音频片段为单位先完成音频事件识别，然后再后处理阶段完成音频事件定位。即，先将输入音频按照固定时长，逐帧移动的方式进行切分，提取每个声音片段的音频特征经由分类输出每个音频片段的分类结果。为了定位音频中每个音频事件发生的起止时间，就需要对所有音频片段的分类结果进行后处理，依据置信度逐帧确定每帧的音频事件类别，得到每一帧的声音事件类别后，逐帧合并平滑处理得到最终标注结果。

发明内容

有鉴于此，本发明的目的在于提供一种音频帧序列到事件标签序列的声音事件标注方法，使用多任务损失机制，在降低误检测的同时提高事件检出率，改善定位准确度，最后对模型输出进行平滑和合并处理，以显著提高音频文件中声音事件的标注精度。

为实现上述目的，本发明采用如下技术方案：

一种音频帧序列到事件标签序列的声音事件标注方法，包括如下步骤：

步骤S1:从给定音频文件中提取梅尔能量特征，并将其处理成特征序列；

步骤S2:根据得到的特征序列，使用三层卷积神经网络提取每帧的抽象特征，并通过双向门限递归单元神经网络提取帧综合特征序列；

步骤S3:根据得到的综合特征序列，通过Softmax前馈神经网络层作为注意力机制层，得到注意力特征,并进一步得到事件标签序列；

步骤S4:将得到的所有音频片段的声音事件标签序列联合，并进行合并和平滑处理,得到标注结果。

进一步的，所述步骤S1具体为：

步骤S11:将给定音频文件按照时长1.2秒切分为待检测的声音分段，每个声音片段包含61个音频帧，每帧时长40ms；

步骤S12:对每帧提取123维的梅尔能量特征，构成帧特征序列。

进一步的，所述步骤S2具体为：

步骤S21:将S1中得到的61帧123维大小的浅层梅尔能量特征序列，使用三层卷积神经网络提取每帧的抽象特征；

步骤S22:通过双向门限递归单元神经网络提取帧综合特征序列。

进一步的，所述步骤S3具体为：

步骤S31:使用Softmax前馈神经网络层作为注意力机制层。将S2得到的61帧综合特征，对每帧的所有通道分别进行Softmax和Sigmoid操作，获得与输入大小一致的两个输出A和B；

步骤S32:将A和B进行点乘，得到注意力特征；

步骤S33:将声音事件检测视为分类问题，其定位问题作为回归问题，分类层和回归层得到对应的分类损失和回归损失；

步骤S34:将分类损失和回归损失联合起来做多任务损失学习，输出61帧声音事件标签序列。

进一步的，定义全连接层Softmax前馈神经网络层的注意力输出为Z_att(t)，包括分类注意力输出Z_{class_att}(t)和回归注意力输出Z_{reg_att}(t)

采用Sigmoid激活函数得到分类和回归结果：

O_class(t)＝Sigmoid(Z_{class_att}(t))

O_reg(t)＝Sigmoid(Z_{reg_att}(t))。

进一步的，所述步骤S4具体为：

步骤S41:对所有音频片段的声音事件标签序列联合后，进行合并和平滑处理；

步骤S42:相邻帧中同类别事件合并后，删除事件时间长度小于设定时间的事件；

步骤S43:输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。

本发明与现有技术相比具有以下有益效果：

本发明使用多任务损失机制，在降低误检测的同时提高事件检出率，改善定位准确度，最后对模型输出进行平滑和合并处理，以显著提高音频文件中声音事件的标注精度。

附图说明

图1是本发明一实施例中ATT-MCL-CBG网络结构图；

图2是本发明一实施例中方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图2，本发明提供一种音频帧序列到事件标签序列的声音事件标注方法，包括如下步骤：

步骤S1:将给定音频文件按照时长1.2秒切分为待检测的声音片段，每个声音片段包含61个音频帧，每帧时长40ms，然后每帧提取123维的梅尔能量特征，构成帧特征序列；

步骤S2:根据得到的61帧123维大小的浅层梅尔能量特征序列，使用三层积神经网络提取每帧的抽象特征，然后通过双向GRU提取综合特征；

步骤S3:使用Softmax前馈神经网络层作为注意力机制层。将S2得到的61帧综合特征，对每帧的所有通道分别进行Softmax和Sigmoid操作，获得与输入大小一致的两个输出A和B，再将A和B进行点乘，得到注意力特征。将声音事件检测视为分类问题，其定位问题作为回归问题，分类层和回归层得到对应的分类损失和回归损失，最后将两个损失联合起来做多任务损失学习，输出61帧声音事件标签序列；

步骤S4:对所有音频片段的声音事件标签序列联合后，进行合并和平滑处理，输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。

在本实施例中，所述步骤S1在图1中表现为输入层，其中X_t-1,X_t,X_t+1分别表示相邻三个输入帧，具体包括以下步骤：

S11：将给定音频文件按照时长1.2秒切分为若干待检测的声音片段，每个声音片段包含61个音频帧，每帧时长40ms，然后每帧提取123维的梅尔能量特征，构成帧特征序列。

梅尔能量特征将线性频谱映射到基于听觉感知的Mel非线性频谱中，一般频率f转换到Mel频率计算公式为：

提取该特征时，先将声音信号经过预加重、分帧和加窗处理后，计算其快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱，再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法，最后计算得到梅尔能量特征。

在本实施例中，所述步骤S2在图1中表现为卷积层(ConvNet层)和双向GRU层(BiGRU层)。在卷积层中，为了保持输入整个声音频谱图的时间分辨率，仅对频谱轴进行池化而不对时间轴进行操作，具体包括以下步骤：

S21：第一层，通过卷积层提取抽象特征，激活函数为Relu，使用128个卷积核，大小为(3，3)，边界填充为相同的方式，再通过大小为1×5的最大池化层降低特征维度。

S22:第二、三层，通过卷积层提取抽象特征，激活函数为Relu，使用128个卷积核，大小为(3，3)，边界填充为相同的方式，并通过大小为1×2的最大池化层降低特征维度。

S23：第一、二层(双向GRU层)，通过双向GRU层提取特征，激活函数为tanh，使用32个双向GRU神经元。

在本实施例中，所述步骤S3在图1中表现为注意力层(soft层)和多任务层(Class+Reg层)。具体的对S2中每帧特征的所有通道分别进行Softmax和Sigmoid，获得与输入大小一致的两个输出A和B，再将A和B进行点乘，得到注意力特征，再使用全连接层将注意力特征输出成每一帧的分类结果。定义全连接层Softmax前馈神经网络层的注意力输出为Z_att(t)，包括分类注意力输出Z_{class_att}(t)和回归注意力输出Z_{reg_att}(t)。使用Sigmoid激活函数按顺序输出61帧的|C|维分类和2|C|维回归预测序列结果：

O_class(t)＝Sigmoid(Z_{class_att}(t))

O_reg(t)＝Sigmoid(Z_{reg_att}(t))

具体包括以下步骤：

S31：给定一个和任务相关的查询向量q，注意力变量z∈[1,N]表示被选择信息的索引位置，即z＝i表示选择了第i个输入信息。采用“软性”信息选择机制。首先计算在给定的q和X下，选择第i个输入信息的概率α_i：

其中α_i称为注意力分布(Attention Distribution)，注意力打分函数s(X_i,q)。注意力打分函数采用点积模型计算方式，如下式所示。

注意力分布α_i可以解释为在上下文查询q时，第i个信息受关注的程度。采用一种“软性”的信息选择机制对输入信息进行编码，如下式所示，这种机制就称为软性注意力机制(SoftAttention Mechanism)。

S32：将声音事件检测视为分类问题，其定位问题作为回归问题，分类层和回归层得到对应的分类损失和回归损失，分类损失使用交叉熵损失，回归损失(Reg_L)使用修正余弦相似度，最后将两个损失联合起来做多任务损失学习。

综合声音事件分类和回归损失，在一个面向声音事件检测的多任务损失网络中，其训练过程是最小化如下损失函数：

其中，E_class(θ)，E(θ)_acos分别表示交叉熵损失，损失修正余弦相似度损失，λ_ccos，λ_acos分别表示其权重系数，设置λ_class＝0.8和λ_acos＝0.1没有置信度损失。

E_cross(θ)的计算公式如下：

其中，

表示分类概率输出，N为数据集大小，Y＝{Y₁,…,Y_i,…,Y_N}为真值集合

修正余弦相似度的损失为：

其中

是输出层距离平均值，

是预测平均值。

在本实施例中，所述步骤S4具体包括以下步骤：

对所有音频片段的声音事件标签序列联合后，进行合并和平滑处理。相邻帧中同类别事件合并后，删除事件时间长度小于设定时间的事件，同时两个可能目标段之间的无效帧小于等于设定帧时，这两段会被认为是一段。输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。