CN113707175A

CN113707175A - 基于特征分解分类器与自适应后处理的声学事件检测系统

Info

Publication number: CN113707175A
Application number: CN202110974087.2A
Authority: CN
Inventors: 龙艳花; 梁芸浩; 李轶杰
Original assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-26
Anticipated expiration: 2041-08-24
Also published as: CN113707175B

Abstract

本发明涉及基于特征分解分类器与自适应后处理的声学事件检测系统,包括：特征提取网络、特征分解分类器和自适应后处理模块，特征提取网络用于获取输入音频特征的高级特征表示；特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间；根据子特征空间信息输出帧级别检测结果；自适应后处理模块用于对帧级别检测结果做平滑处理，得到最终的检测结果。本申请实施例的系统能依据目标事件，针对性学习单一事件的特征信息，并且针对目标事件的特征分解，减轻了重叠事件中其他事件特征的干扰，同时采用自适应后处理方法，过滤系统预测结果中包含的错误时间信息，平滑音频中的事件分布，极大提高了对事件时间戳检测的准确性。

Description

基于特征分解分类器与自适应后处理的声学事件检测系统

技术领域

本发明涉及人工智能技术与声学事件检测技术领域，具体涉及基于特征分解分类器与自适应后处理的声学事件检测系统。

背景技术

近年来随着人工智能技术的发展，智能化技术逐渐改变着人们的生活方式。在智能语音技术方面，远程音视频通话、智能语音交互系统、智能语音音箱等多样化音频技术应用到了我们生活的方方面面。在传统语音技术如语音识别、声纹识别、语音合成等技术发展的同时，新兴音频处理技术也逐渐成为研究热潮。如，声音场景分类、声场事件定位、异常音频事件分类，声学事件检测技术的应用需求也越来越多。其中，声学事件检测任务是模仿人类辨识在某些环境中发生的声学事件的能力，利用音频信号处理技术以及深度学习技术完成对声学事件的分类与辨析，如分辨环境中包含“宠物叫声”、“门铃声”、“汽车发动机声”等等。

声学事件检测(AED)是指对一段音频中所出现的声学事件做出识别，同时要分辨出事件的开始和偏移时间戳。目前，声学事件检测技术有着非常广泛的应用前景，如智能家居设备、智能健康监测系统、无人驾驶技术、语音识别技术以及远程音视频通信技术等。例如，在音视频会议中，声学事件检测技术可以分析会议人员所处环境信息，依据所检测出的环境信息对音频通信做出适应性调整，如，可辅助语音增强技术、语音分离技术等改善音视频通话的质量；在城市安防以及巡检等工作中，可依据检测出的声学信息，分辨是否存在潜在危险信息，辅助人员判断是否需要执行相关措施。此外，实时获取的环境信息，还可以辅助智能交通、智能驾驶等技术；在设备异常声音检测中，声学事件检测技术能及时监控设备的工作状态，辅助工作人员对设备做出更细致分析。

简言之，随着人工智能与深度学习技术的发展，声学事件检测技术逐渐成为当前工业界的研究重点，无论在民用还是国防等方面都有着大量的应用前景与空间。作为新型研究方向，当前声学事件检测技术依旧存在着技术、设备等方面的难点。在探究声学事件检测算法过程中，主要发现存在四点影响检测准确性的问题：

1、在实际应用环境中，部分目标事件重叠现象，导致检测过程中无法准确获取事件的时间戳信息；

2、采集的训练数据包含复杂的事件类型，多种事件类型分布不平衡问题，导致所训练模型的性能同样出现不均衡问题；

3、待测目标事件自身差异性较大，即在一段音频片段中部分目标事件持续时间过长或过短，系统难以捕获准确的时间戳信息；

4、训练数据标注困难。所采集的训练数据中事件分布不平衡并且存在大量非目标事件干扰，人工标注容易引入误差，难以获取准确时间戳信息。

发明内容

本发明提供一种基于特征分解分类器与自适应后处理的声学事件检测系统，能够解决上述技术问题。

本发明解决上述技术问题的技术方案如下：

基于特征分解分类器与自适应后处理的声学事件检测系统,包括：特征提取网络、特征分解分类器和自适应后处理模块，

特征提取网络用于获取输入音频特征的高级特征表示；

特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间；根据子特征空间信息输出帧级别检测结果；

自适应后处理模块用于对帧级别检测结果做平滑处理，得到最终的检测结果。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，特征提取网络包括：复杂教师模型和轻量化学生模型。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，复杂教师模型包括：5组双层卷积神经网络模块和2层循环神经网络模块，2层循环神经网络模块用于提取卷积神经网络模块的时间信息；

轻量化学生模型包括：3组单层卷积神经网络模块、2层循环神经网络模块；

其中，每个卷积神经网络模块包括：标准化层，池化层以及激活函数。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，特征提取网络还用于：

通过监督学习与无监督学习相结合的方式，学习不同标注类型音频数据的特征信息；

不同标注类型音频数据包括：强标记音频数据、弱标记音频数据和无标记音频数据。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，

监督学习使用交叉熵损失函数；

无监督学习使用均方误差损失函数；

计算复杂教师模型与轻量化学生模型之间的均方误差损失函数；随着训练的进行，轻量化学生模型趋于稳定，使用较小权重μ微调复杂教师模型。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，总体的损失函数表示为：

其中，

分别是基于事件级别的分类损失函数和基于帧级别的声学事件检测损失函数；

表示复杂教师模型的弱标签损失，

表示轻量化学生模型的弱标签损失，

表示复杂教师模型的强标签损失，

表示轻量化学生模型的强标签损失；

表示复杂的教师模型指导学生模型，

表示学生模型微调教师模型。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，每次迭代训练时，最小化复杂教师模型与轻量化学生模型之间的一致性损失函数，使得轻量化学生模型与复杂教师模型的预测结果输出特征趋于一致性。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，特征分解分类器还用于：

计算事件类型所要保留的特征子空间维度参考因子：

根据事件类型所要保留的特征子空间维度参考因子计算单类事件类型所要保留高级特征表示的维度。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，特征分解分类器还包括：分类器部分，分类器部分包括：声学事件检测任务分支和声学事件分类任务分支；

声学事件检测任务分支包括；具有较大隐藏状态的全连接层，预设事件类型个数相同的多组全连接层以及sigmoid激活函数，每个单独的全连接层中均包括二分类操作；二分类操作用于获取每一帧特征信息中是否存在事件；

声学事件分类任务分支包括：注意力模块。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，声学事件检测任务分支用于确定帧级别检测后验概率；

声学事件分类任务分支用于确定事件级别的分类后验概率。

在一些实施例中，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，自适应后处理模块用于对帧级别检测结果做平滑处理，得到最终的检测结果，包括：

根据训练集中强标签数据集中事件分布，确定不同事件的平均持续时间；

根据目标事件特性确定中值滤波窗口，对帧级别检测后验概率做后处理操作,得到最终的检测结果。

本发明的有益效果是：基于特征分解分类器与自适应后处理的声学事件检测系统,包括：特征提取网络、特征分解分类器和自适应后处理模块，特征提取网络用于获取输入音频特征的高级特征表示；特征分解分类器用于分解高级特征表示并根据不同事件类型选择相应子特征空间；根据子特征空间信息输出帧级别检测结果；自适应后处理模块用于对帧级别检测结果做平滑处理，得到最终的检测结果。本申请实施例能依据目标事件，针对性学习单一事件的特征信息，同时采用自适应后处理方法，过滤模型预测结果中包含的错误时间信息，平滑音频中的事件分布，极大提高了对事件时间戳检测的准确性，并且针对目标事件的特征分解，减轻了重叠事件中其他事件特征的干扰。

附图说明

图1为本发明实施例提供的基于特征分解分类器与自适应后处理的声学事件检测系统。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

基于特征分解分类器与自适应后处理的声学事件检测系统,结合图1，包括：特征提取网络101、特征分解分类器102和自适应后处理模块103，

特征提取网络101用于获取输入音频特征的高级特征表示；

具体的，本申请实施例中的特征提取网络101主要由卷积神经网络与循环神经网络以及与卷积神经网络层相匹配的下采样层、规整层、激活函数，用于获取输入音频特征的高级特征表示；

特征分解分类器102用于分解高级特征表示并根据不同事件类型选择相应子特征空间；根据子特征空间信息输出帧级别检测结果；

具体的，本申请实施例中特征分解分类器102根据特征提取网络所输出的高级特征表示针对不同事件类型通过分解算法选择相应子特征空间，并依据新的子空间特征信息输出预测事件的后验概率即帧级别检测结果。

自适应后处理模块103用于对帧级别检测结果做平滑处理，得到最终的检测结果。

具体的，本申请实施例中自适应后处理模块103用于对数据集的先验知识进行相关统计分析，对特征分解分类器102输出事件的后验概率即帧级别检测结果做平滑处理，得到最终的检测结果。

具体的，本申请实施例中结合卷积神经网络的卷积神经网络与循环神经网络以及与卷积神经网络层相匹配的下采样层、规整层、激活函数搭建复杂教师模型和轻量化学生模型。

对于复杂教师模型，输入音频特征首先经过标准化层，通过对输入网络的小批量数据做标准化处理有利于更容易学习到音频数据之中的规律，加快复杂教师模型学习速度，在标准化层之后，有5组两层卷积神经网络模块，每组卷积神经网络模块均是由标准化层，下采样层以及激活函数构成；在复杂教师模型中，卷积神经网络模块中的下采样层在频域和时域均进行下采样操作，每次相同比例的下采样后，有利于复杂教师模型更好的学习到不同维度更细致的特征信息。

对于轻量化学生模型，输入特征同样首先经过一层标准化层，在标准化层后是3组单层卷积神经网络模块，卷积神经网络模型的结构与复杂教师模型相同，但是其下采样层仅仅在频域进行下采样操作，时域保持原始特征维度，没有任何时间压缩比例，有利与保证音频特征中时间维度信息的完整性，从而更好的事件边界检测。并且，轻量化学生模型不仅可以学习不同的特征信息，而且可以减少模型参数，提高训练效率。

对于复杂教师模型与轻量化学生模型不同的卷积神经网络模块后，加入2层循环神经网络模块。具体的，选择双向门控循环神经网络提取卷积神经网络模块的时间信息。

具体的，本申请实施例中的循环神经网络模块的节点个数均与上层所连接的卷积神经网络模块的最后一层节点个数相同，从而有利于根据卷积神经网络模块输出的高级特征表示进一步获取时间维度特征信息。

具体的，本申请实施例中，在特征提取网络中的教师-学生模型模型的逐次迭代学习中，通过监督学习与无监督学习相结合的方式，充分学习不同标注类型音频数据中的特征信息，极大提高整个声学事件检测系统的性能。

具体的，本申请实施例中，强标记音频数据包含事件类型、事件时间戳信息，弱标记音频数据包含事件类型，不包含事件时间戳信息，无标记音频数据不包含事件类型和事件时间戳信息。

监督学习使用交叉熵损失函数；

无监督学习使用均方误差损失函数；

计算复杂教师模型与轻量化学生模型之间的一致性损失函数；随着训练的进行，轻量化学生模型趋于稳定，使用较小权重μ微调复杂教师模型。

具体的，本申请实施例中，通过计算复杂教师模型与轻量化学生模型之间的一致性损失函数即均方误差损失函数，使得复杂教师模型在后期的迭代训练中对轻量化学生模型具有指导训练的作用，当模型逐渐收敛时，轻量化学生模型通过加权一致性损失函数对复杂教师模型做出微调，进一步优化复杂教师模型。

其中，

表示复杂教师模型的弱标签损失，

表示轻量化学生模型的弱标签损失，

表示复杂教师模型的强标签损失，

表示轻量化学生模型的强标签损失；

表示复杂的教师模型指导学生模型，

表示学生模型微调教师模型。

现有技术中，可获取对应音频特征的高级特征表示，但是对于多标签分类任务，当某个事件类型经常与事件类型同时出现时，直接依据高级特征表示做分类很难区分每个事件类型。即训练集中给定可识别信息不足的事件类型的高级特征子空间的形成将很大程度上受到那些与它们同现出现的事件类型的干扰。当不平衡集合中某些事件类型的具有很多可识别信息的音频片段的数量特别小时，这种影响将会加剧。为了减轻这种影响，本申请通过特征分解分类器对高级特征表示做分解操作，为多个事件类型重新建模多个特征子空间，下文详细介绍。

计算事件类型所要保留的特征子空间维度参考因子：

根据事件类型所要保留的特征子空间维度参考因子k_c计算单类事件类型c所要保留高级特征表示的维度。

具体的，本申请实施例中，每个不同事件类型共享高级特征表示的不同部分而不是整个特征空间，并且根据其先验信息预先分解高级特征空间为特征子空间。为此，首先计算事件类型c所要保留的特征子空间维度参考因子k_c：

k_c＝[((1-n)·l_c+n)·d]

假设对于事件类型c，包含来自其他事件类型的很少干扰的音频片段的比例越大，就越需要学习事件类型方面的可识别信息，从而需要更大的特征空间。相比之下，这些片段的比例越小，需要的特征空间的体积就越小，以防止过度拟合。由于这个原因，k_c随着这些c类音频片段比例的增加而增加。考虑到过小的k_c严重削弱了模型识别事件类型c的能力，本申请利用常数因子n(0≤n≤1)来减轻这种影响，然后，其中l_c(0≤l_c≤1)与训练集中包含干扰的音频片段数量有关。随着n增加到1，特征分解选择退化为整个特征空间。根据一个音频片段覆盖的事件类型越多，其他事件类型对其中任何一个造成的干扰就越多的原则来量化干扰的级别，即：

本申请中，N_ci表示训练集中包含i类的音频片段的数量，v_i是表示这些音频片段重要性的相应常数系数。假设其他事件类型对片段中的任何一个事件类型造成的干扰越少，片段就越重要，为此本申请确定v_i：

最终，根据所计算的事件类型c所要保留的特征子空间维度参考因子k_c，即可获得单类事件类型c所要保留高级特征表示的维度：

D_fea＝F_dim·k_c

声学事件分类任务分支包括：注意力模块。

声学事件分类任务分支用于确定事件级别的分类后验概率。

具体的，本申请实施例中将声学事件检测任务和分类任务分成两个独立的分支，依据上述特征分解分类器所获取的独立于事件的多组特征子空间，声学事件检测任务分支首先使用具有较大隐藏状态的全连接层，然后接预设事件类型个数相同的多组全连接层以及sigmoid激活函数，在每个单独的全连接层中均需做二分类操作，获取每一帧特征信息中是否存在事件，即得到帧级别检测后验概率；在声学事件分类分支中，卷积神经网络模块和循环神经网络模块的输出被连接作为“线性”层的输入特征，随后是注意力模块，通过注意力模块后即得到事件级别的分类后验概率。

在音频分类和声学事件检测任务中，模型的帧级预测输出很多情况下是非连续的，例如，在实际环境下所采集音频中可能包含大量的背景噪声或者异常的非目标事件以及在检测过程中出现的许多检测异常值，可能产生太多极短持续时间的目标事件发生，进而导致不准确的时间戳检测。传统的方法是应用线性或非线性滤波器来平滑预测输出。但对于复杂条件下的多目标事件检测，音频片段中每个事件的后续持续时间差异很大。具有固定窗口大小的传统中值滤波不再适用。

鉴于此，上述基于特征分解分类器与自适应后处理的声学事件检测系统中，自适应后处理模块用于对帧级别检测结果做平滑处理，得到最终的检测结果，包括：

具体的，本申请实施例中通过依据强标签训练数据的分布统计学规律，依据目标事件的平均持续时间计算出具有自适应窗口大小的中值滤波器组。此外，考虑到每个事件持续时间不是均匀分布的，使用平均持续时间来优化中值滤波窗口大小可能不是最佳的。因此，设计使用特定于事件的中值滤波窗口大小，如下所示:

其中，W_c,c＝1,2,3,...,C是C类的中值滤波窗口大小，N_c是C类目标事件由短到长排序后所计算累积分布函数的片段个数。L_i是事件c的第i段的持续时间，β是一个比例因子，在实验中设置为1/3。所有强标签音频数据均参与计算都用于计算中值滤波窗口W_c。

此外，对音频分类预测后验概率和音频事件检测帧级别后验概率之间应用元素级别乘法，以确保音频事件检测和分类结果的一致性。

F1得分，是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率，F1得分可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。其计算方式为：

将本申请方法进行验证，基于特征分解分类器与自适应后处理的声学事件检测系统对事件检测系统性能有明显提升。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。