CN114974303B

CN114974303B - 自适应层次聚合的弱监督声音事件检测方法及系统

Info

Publication number: CN114974303B
Application number: CN202210528373.0A
Authority: CN
Inventors: 毛启容; 高利剑; 沈雅馨; 任庆桦; 马忠臣; 贾洪杰
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-05-12
Anticipated expiration: 2042-05-16
Also published as: WO2023221237A1; CN114974303A

Abstract

本发明提供一种自适应层次聚合的弱监督声音事件检测方法及系统，该系统包括声学模型和自适应层次聚合算法模块，声学模型输入预处理和特征提取的音频信号，声学模型预测得到帧级别预测概率，自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率；联合优化声学模型和松弛化参数，得到最优模型权重和最优松弛化参数，根据最优松弛化参数为每类声音事件制定最优聚合策略；输入预处理和特征提取的未知音频信号，得到所有目标声音事件的帧级别预测概率，并根据每类目标声音事件的最优聚合策略，得到所有目标声音事件类别的句级别预测概率。本发明适用于复杂的声学场景，同时适用于弱监督声音事件检测中的音频分类和定位，具有良好的通用性。

Description

自适应层次聚合的弱监督声音事件检测方法及系统

技术领域

本发明涉及人工智能技术中的声音事件检测技术领域，具体涉及一种自适应层次聚合的弱监督声音事件检测方法及系统。

背景技术

弱监督声音事件检测中，最重要的任务之一是设计聚合函数。聚合函数的作用是从模型预测的帧级别概率序列中推断句级别概率，即从预测的“定位信息”推断事件的“类别信息”，从而有效建模弱标注的音频样本。当前主流的聚合函数大致可以分为两类：最大值聚合和加权平均聚合。最大值聚合捕捉信号中最显著的信息，从而为音频分类带来出色的性能。然而，由于最大值聚合检测事件的定位边界总是不完整的，造成较差的定位性能，体现在较多的漏检测；为了解决最大值聚合在音频定位任务上的缺陷，各种类型的加权平均聚合算法发展了起来。加权平均聚合对所有帧级别的概率进行加权平均，以获得句级别的预测，这种考虑所有帧级别概率而不是仅关注显著信息的聚合方式能够召回更多的正样本帧(即事件激活帧)，在音频定位子任务中能够取得较好的性能。但与此同时，加权平均聚合也将事件无关的信息考虑进来，给音频分类带了干扰信息，造成次优的音频分类性能。实际上，没有任何单一的聚合方法可以为所有类型的事件提供最优策略。例如，加权平均聚合更适合于持续时间较长的连续事件(如音乐)，而对于一些较短的事件(如狗叫)，应该考虑使用最大值聚合来关注最显著的音频帧。显然，聚合策略的设计应该自适应声音事件的自然特性。

近年来，研究自适应聚合的方法逐渐被提出，如McFee等人提出的自动聚合及Zhang等人提出的阶乘聚合都采用自适应的加权Softmax聚合方法，即在Softmax聚合中将可学习参数乘以帧级别概率，其中不同类别的事件权重不同。然而，这两类自适应方法本质上利用不同的权重调和最大值聚合和加权平均聚合，无法同时有效兼顾音频分类和音频定位任务，且无法高效地为每类事件自适应学习定制的聚合策略，从而导致弱监督声音事件检测性能欠佳。

发明内容

针对现有技术中存在不足，本发明提供了一种自适应层次聚合的弱监督声音事件检测方法及系统，利用分层结构和连续松弛法自动为每类事件学习最优聚合策略，既能够捕捉多片段的显著信息又能保留完善的定位边界，实现同时提高弱监督声音事件检测中音频分类和音频定位的性能。

本发明是通过以下技术手段实现上述技术目的的。

自适应层次聚合的弱监督声音事件检测方法，具体为：

提取预处理音频信号的声学特征，并输入声学模型，将声学模型预测的帧级别预测概率序列分成若干个连续的子包，利用最大值聚合计算每个子包的显著信息，得到子包级预测集合，利用均值聚合取子包级预测集合的平均概率作为句级别预测概率；

联合优化声学模型和松弛化参数，直至收敛，得到最优模型权重和最优松弛化参数，根据最优松弛化参数为每类声音事件制定最优聚合策略；

给定未知的音频信号，进行预处理和特征提取，送入训练后的声学模型，得到所有目标声音事件的帧级别预测概率，实现音频定位任务，并根据每类目标声音事件的最优聚合策略，得到所有目标声音事件类别的句级别预测概率，实现音频分类任务。

进一步，所述制定最优聚合策略具体为：利用

计算最优松弛化参数下选择不同R的概率λ^*，对于第k类声音事件，

中最大选择概率对应的R即为当前类别最优子包数量

其中：λ为概率集合，R为子包数量，α_k为第k维松弛化参数，softmax()为运算符。

更进一步，所述当子包数量为R时，第k类声音事件的句级别预测概率表示为：

其中：

为第k类声音事件的句级别预测概率，φ_hi为自适应层次聚合算法，F_w表示声学模型，φ_avg表示均值聚合，φ_max表示最大值聚合，b_r为子包集合B中的第r个元素。

更进一步，所述第k类声音事件的句级别预测期望概率

为：

其中：

表示第k类事件选择R个子包数量的概率，N⁺为所有可选的子包数量的集合。

更进一步，所述联合优化声学模型和松弛化参数采用反向传播进行的：

其中：L所有声音事件类别的平均预测误差，W、α分别为模型参数和松弛化参数，X、Y分别为模型输入的梅尔频谱特征和句级别标签，Y_k为第k类声音事件的句级别标签，BCELoss表示二进制交叉熵函数，K为声音事件的类别总数。

进一步，所述声学模型为任意主流的深度学习模型，声学模型的基准模型为卷积循环神经网络模型。

进一步，提取的特征为梅尔频谱特征。

更进一步，所述声学模型训练和验证采用DCASE2017数据集。

更进一步，所述音频信号下采样至16kHz，帧长和帧移分别设置为1024、664，分帧后每条信号得到240帧样本，梅尔频谱特征为64维。

一种自适应层次聚合的弱监督声音事件检测系统，包括依次相连的声学模型和自适应层次聚合算法模块，所述声学模型输入预处理和特征提取的音频信号，所述声学模型预测得到帧级别预测概率，所述自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率。

本发明的有益效果为：

(1)本发明自适应层次聚合算法首先获取多个音频片段中的显著信息，打破了最大值聚合方法只能够捕捉信号中最显著的片段的局限，扩大的定位时的感知区域；其次，仅对多片段的显著信息加权平均得到最终预测，解决了加权平均聚合考虑所有帧信号而带来噪声问题；因此，自适应层次聚合算法具备捕捉多片段显著信息的同时保证完整的定位边界的能力，使其同时适用于弱监督声音事件检测的两个子任务-音频分类和音频定位。

(2)本发明自适应层次聚合利用连续松弛法联合学习模型最优权重及每类声音事件最优聚合策略；较短的声音事件(如“枪声”)通常仅持续一个短时片段，这种情况下最大值聚合往往优于加权平均聚合，此时自适应层次聚合能够自动学习较小的子包数量，即大部分信号帧属于同一个子包，增加最大值聚合的作用比例；而相对于持续时间较长或周期性声音时间(如“音乐”或“警报声”)，此时噪声片段较少、事件信息分布于整个长序列，这种情况下加权平均聚合往往优于最大值聚合，此时自适应层次聚合能够自动分配较多的子包数量，即一个子包包含较少的帧信息，增加加权平均聚合的作用比例；自适应聚合实现了根据声音事件的自然属性来定制的最优聚合策略，从而适用于更加复杂的声学场景。

(3)本发明的自适应层次聚合算法设计轻便，仅依赖一组可学习的参数实现，易于高效地嵌入任何声学模型完成弱监督声音事件检测任务。

附图说明

图1为本发明所述基于自适应层次聚合的弱监督声音事件检测系统框架图；

图2为本发明所述自适应层次聚合算法流程图；

图3(a)为本发明所述弱监督声音事件检测可视化结果的对比图一；

图3(b)为本发明所述弱监督声音事件检测可视化结果的对比图二；

图中：1、原始音频信号，2、信号预处理，3、梅尔频谱特征，4、卷积循环神经网络，5、自适应层次聚合算法模块，6、长短期记忆网络，7、卷积层，8、标准化层，9、ReLU激活层。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明基于自适应层次聚合的弱监督声音事件检测系统包括依次相连的声学模型和自适应层次聚合算法模块5，按照音频信号数据流传递过程，依次为信号预处理→声学特征提取→声学模型→层次聚合。信号预处理2的过程是将高维、复杂的原始音频信号1处理成较低维度、便于后续处理的短时、连续的信号帧序列。声学特征提取过程为每帧样本提取符合人耳特性的梅尔频谱特征3，初步过滤冗余信息，提升声学模型建模效率。声学模型可以为任意主流的深度学习模型，声学模型的基准模型为卷积循环神经网络模型，本实施例中选用卷积循环神经网络(CRNN)4，卷积循环神经网络4由6个卷积块和3层长短期记忆网络(LSTM)组成，每个卷积块包含卷积层7、标准化层8、ReLU激活层9。将提取好的梅尔频谱特征3序列送入卷积循环神经网络4中，即可得到帧级别预测概率序列，即声音事件的定位信息，之后通过自适应层次聚合算法模块5计算句级别预测概率，即声音事件的分类信息。

图2自下而上表示帧级别预测概率逐渐聚合得到句级别预测概率的过程，自上而下表示反向传播时梯度传播路径，其中灰度表示梯度的大小。

信号预处理2首先将原始信号按照特定采样率重采样，采样后首先进行预加重处理，弥补高频分量的能量，之后按照指定帧长进行分帧，得到若干连续的较短的帧样本，最后对每帧样本加窗处理，平滑帧信号，防止能量泄露，得到短时连续的信号帧序列，完成信号预处理过程。具体过程如下：从DCASE2017挑战赛提出的大规模弱标注声音事件数据集中选取信号s，原始信号s的采样率为22.5kHz，下采样至16kHz降低复杂度，在卷积循环神经网络4接收之前，信号s需要进行预处理，增加高频分辨率。DCASE17数据集中数据时长均为10秒，即上述信号s共有160000个采样点，此时需要进行分帧处理以降低计算复杂度。在本发明中，帧长设置为1024个采样点(64毫秒)、帧移为664个采样点(41.5毫秒)，即每帧前后保留22.5毫秒的重叠部分以保证帧信号的平滑性。分帧后每条10秒的信号包含240帧样本：s′＝{s′₁,s′₂,…,s′₂₄₀}。最后，对每帧样本加窗处理，完成信号的预处理过程。随后，利用短时傅里叶变换将每帧时域信号转换到频率上，利用64个梅尔滤波器对每帧信号进行过滤，得到64维梅尔频谱特征3，即，对于每条信号，卷积循环神经网络4的输入特征维度为240*64。

用F_w表示卷积循环神经网络4，给定输入特征X，即可得到帧级别预测概率：

按照图2所示流程，还需利用自适应层次聚合算法φ_hi将

聚合成句级别预测概率

从而构造预测误差(公式(6))、训练模型。而卷积循环神经网络4测试阶段则根据已经确定的最优模型权重和最优聚合策略进行前向计算，即可完成未知数据的声音事件检测。具体过程如下：

1)首先，由于每条信号长度为240帧，因此，自适应层次聚合中可选的子包数量R为240的所有因数集合N⁺，即N⁺＝{1,2,3,…,120,240}；利用连续松弛法将可选的子包数量的离散搜索空间转换成可优化的连续搜索空间，能够与卷积循环神经网络4联合优化，实现自动为每类声音事件选择最优子包数量，即自适应地定制特定事件的最优聚合策略；

2)为每类声音事件设置一组低维的、可学习的松弛化参数对应离散搜索空间中所有元素，利用Softmax激活求得搜索空间中所有备选项选择的概率，根据此概率遍历该离散空间，得到每类声音事件的激活期望，实现将离散的搜索空间连续松弛化；具体地：

假设DCASE2017数据集中共有K种声音事件，搜索空间大小为N(即N⁺中元素个数)，利用一组可学习的参数α∈R^K×N将该离散搜索空间松弛化，得到选择不同R的概率集合λ：

其中，α_k为第k维松弛化参数，softmax()为运算符；

3)以第k类声音事件为例，选择N⁺中某一个元素作为当前确定的子包数量R，将帧级别预测概率

分割至连续的R个子包中，得到子包集合B＝{b₁,b₂,…,b_R}，如图2所示，每条黑色虚线所包含的帧样本属于同一个子包；利用最大值聚合φ_max计算每个子包中最大概率值，即最显著的信息，得到子包级预测集合

其中，b_r为子包集合B中的第r个元素；

4)随后，利用均值聚合φ_avg取子包级预测集合的平均概率作为最终句级别预测概率

最终，当子包数量为R时，第k类声音事件的激活概率(即句级别预测概率)可以表示为：

其中，子包数量R决定聚合策略，当子包数量越多时，最大值聚合作用比例越小，均值聚合比例越大，即更多地关注全局信息；当子包数量较少时，最大值聚合作用比例较大，均值聚合比例较少，即更多地关注局部显著信息；自适应层次聚合为每类声音事件自动学习子包数量，实现特定事件定制化的聚合策略；

5)重复过程3)和4)，遍历N+中所有可选的子包数量，即R←N⁺，得到所有情况下第k类声音事件的句级别预测概率，结合公式(1)所得概率，得到第k类声音事件期望的激活概率：

其中，

表示第k类事件选择R个子包数量的概率；

6)利用二进制交叉熵函数(BCELoss)计算所有类别的预测误差L，并完成反向传播，联合优化模型参数和松弛化参数(即训练阶段，训练的模型为现有技术)直至收敛：

其中，W、α分别为模型参数和松弛化参数，X、Y分别为模型输入的梅尔频谱特征和句级别标签，Y_k为第k类声音事件的句级别标签；

7)以上基于连续松弛法联合优化过程完成后，即可得到最优模型权重W^*以及最优松弛化参数α^*，利用公式(1)即可计算最优松弛化参数下选择不同R的概率λ^*；此时，对于第k类声音事件，

中最大选择概率对应的R即为当前类别最优子包数量

至此，自适应层次聚合算法完成了为每类声音事件定制一个最优聚合策略

利用连续松弛法联合优化，仅需引入一组低维松弛化参数，即可高效完成联合优化；相比于模型参数，松弛化参数数量微乎其微，且优化只需关注声音事件的自然属性，如时长、周期等全局特性，而无需关注高维的信号内容，因此易于收敛，从而引导模型参数在最优聚合策略下快速收敛直全局最优。人工选择子包数量并重复训练卷积循环神经网络也能够找到最优聚合策略，但其计算复杂度高达O(N^K)，其中N表示搜索空间中可选子包数量大小，K表示声音事件种类数。本发明利用连续松弛法联合优化，仅需引入一组低维松弛化参数，即可将计算复杂度降低至O(N)。

自适应层次聚合是一个由一组独立的、可学习参数控制的独立模块，模块的输入是模型预测的音频定位结果，输出为音频分类结果，自适应层次聚合方法可以方便、有效地嵌入到任何声学模型中实现弱监督声音事件检测；以卷积循环神经网络为基准模型能够同时学习空间和时序上下文特征的多尺度声学特征，为声音事件检测领域的主流模型框架。

以上过程完成了卷积循环神经网络4和自适应层次聚合算法的联合优化，在卷积循环神经网络4测试阶段，给定未知的声音信号，进行预处理和特征提取后，送入训练后的卷积循环神经网络

中，得到所有待检测目标事件的定位输出(帧级别预测概率)，实现音频定位任务，并根据每类事件特定的最优聚合策略

得到所有类别的激活概率(句级别预测概率)，实现音频分类任务。

图3(a)、(b)为两条典型音频信号的声音事件定位结果可视化，对比方法为最大值聚合和加权平均聚合。其中，最大值聚合仅能够捕捉显著区域而造成定位边界不完整，尤其在检测时长较长的声音事件时(如“火车声”)，而加权平均聚合总是带来较多的误检测，尤其当检测较短的或多片段的声音事件时(如“尖叫声”和“鸣笛”)。图3(a)、(b)中三种典型声音事件的定位效果均证实：自适应层次聚合不仅能够捕捉多片段的显著信息从而丢弃冗余信息，还能够在降低误检测率同时保证定位边界的完整，实现最优的声音事件检测性能。

基于与自适应层次聚合的弱监督声音事件检测方法相同的发明构思，本申请还提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，存储器中存储了计算机可读代码，其中，计算机可读代码当由一个或多个处理器执行时，进行本发明一种基于自适应层次聚合的弱监督声音事件检测方法的实施。其中，存储器可以包括非易失性存储介质和内存储器；非易失性存储介质可存储操作系统和计算机可读代码。该计算机可读代码包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于自适应层次聚合的弱监督声音事件检测方法。处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器为非易失性存储介质中的计算机可读代码的运行提供环境，该计算机可读代码被处理器执行时，可使得处理器执行任意一种基于自适应层次聚合的弱监督声音事件检测方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，所述计算机可读存储介质可以是前述实施例所述电子设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘、智能存储卡(SmartMedia Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.自适应层次聚合的弱监督声音事件检测方法，其特征在于：

给定未知的音频信号，进行预处理和特征提取，送入训练后的声学模型，得到所有目标声音事件的帧级别预测概率，实现音频定位任务，并根据每类目标声音事件的最优聚合策略，得到所有目标声音事件类别的句级别预测概率，实现音频分类任务；

所述制定最优聚合策略具体为：利用

中最大选择概率对应的R即为当前类别最优子包数量

其中：λ为概率集合，R为子包数量，α_k为第k维松弛化参数，softmax()为运算符；

所述子包数量为R时，第k类声音事件的句级别预测概率表示为：

其中：

为第k类声音事件的句级别预测概率，φ_hi为自适应层次聚合算法，F_w表示声学模型，φ_avg表示均值聚合，φ_max表示最大值聚合，b_r为子包集合B中的第r个元素；

所述第k类声音事件的句级别预测期望概率

为：

其中：

表示第k类事件选择R个子包数量的概率，N⁺为所有可选的子包数量的集合；

所述联合优化声学模型和松弛化参数采用反向传播进行的：

2.根据权利要求1所述的自适应层次聚合的弱监督声音事件检测方法，其特征在于，所述声学模型为任意主流的深度学习模型，声学模型的基准模型为卷积循环神经网络模型。

3.根据权利要求1所述的弱监督声音事件检测方法，其特征在于，提取的特征为梅尔频谱特征。

4.根据权利要求3所述的自适应层次聚合的弱监督声音事件检测方法，其特征在于，所述声学模型训练和验证采用DCASE2017数据集。

5.根据权利要求4所述的自适应层次聚合的弱监督声音事件检测方法，其特征在于，所述音频信号下采样至16kHz，帧长和帧移分别设置为1024、664，分帧后每条信号得到240帧样本，梅尔频谱特征为64维。

6.一种实现权利要求1-5任一项所述的自适应层次聚合的弱监督声音事件检测方法的系统，其特征在于，包括依次相连的声学模型和自适应层次聚合算法模块，所述声学模型输入预处理和特征提取的音频信号，所述声学模型预测得到帧级别预测概率，所述自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率。