CN113724734A

CN113724734A - 声音事件的检测方法、装置、存储介质及电子装置

Info

Publication number: CN113724734A
Application number: CN202111015206.8A
Authority: CN
Inventors: 龙艳花; 唐甜甜; 李轶杰
Original assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-11-30
Anticipated expiration: 2041-08-31
Also published as: CN113724734B

Abstract

本发明公开了一种声音事件的检测方法、装置、存储介质及电子装置。其中，该声音事件的检测方法包括：获取目标音频的目标特征分割，得到N个子目标特征；将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中，得出M个正例得分序列，在每个目标声音检测模型是训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练到M个声音检测模型，M为大于等于1的正整数；对M个正例得分序列进行取平均融合；根据目标融合正例得分序列，确定目标音频的检测结果，进而解决了现有技术中，声音事件检测结果准确性低的技术问题。

Description

声音事件的检测方法、装置、存储介质及电子装置

技术领域

本发明涉及人工智能技术与声音事件检测相关领域，具体而言，涉及一种声音事件的检测方法、装置、存储介质及电子装置。

背景技术

无论是在个人家庭生活还是工作中，基于人工智能(AI)的系统逐渐成为日常活动不可或缺的重要组成部分，深度学习最常见的方法是监督学习，在这种方法中，需要针对特定的应用目的收集大量数据样本和标签，形成一个数据集。这个数据集分为三个部分：训练、验证和测试。在训练阶段，向模型输入来自训练和验证集的数据以及它们各自的标签，并基于反向传播进行参数更新对模型进行优化。在测试阶段，将测试数据输入参数固定的模型，并根据推导出的假设预测测试数据样本的类别。人工智能的终极目标之一是在任何给定的任务中都能做到与人类的识别能力相匹敌或超越人类。为了实现这个目标，必须尽量减少对大量标签数据集的依赖。目前的模型在处理有大量标记数据任务时表现出色，但对于标记数据稀少的少样本学习(FSL)任务，模型的性能会明显下降。

对于许多音频应用程序来说，在连续录音中定位感知上相似的声音事件是一项基本但重要的任务。例如，音频剪辑师需要在长音频中定位特定的无意义声音，以提高语言的流畅性；噪声监测需要识别特定的声音事件。然而目前类似的任务要求用户听完整个录音，并手动标记目标事件的位置。因此，将该过程智能化将节省大量的时间和人力。声音事件检测(SED)中的生物声音事件检测旨在帮助生物研究工作者实现上述任务的自动化，即，只用少量可获取的有标签目标物种声音事件数据来指导模型，实现对待测长音频的特定物种声音进行识别和定位。

简言之，随着人工智能与深度学习技术的发展，少样本的深度学习技术逐渐成为研究的热点，在社会发展的各个方面都有着广阔的应用前景和空间。作为声音事件检测的新型研究方向，少样本生物声音事件检测存在着技术、设备等方面的难点。在探究生物声音事件检测算法过程中，由于训练模型的样本数据质量较差，训练的声音事件检测模型稳定性差，导致声音事件检测结果准确性低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种声音事件的检测方法、装置、存储介质及电子装置，以至少解决现有技术中，声音事件检测结果准确性低的技术问题。

根据本发明实施例的一个方面，提供了一种声音事件检测的方法，包括：从声源数据提取目标音频的目标特征，并将所述目标特征进行分割，得到N个子目标特征，其中，所述N为大于等于1的正整数；将所述N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，所述M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，所述M为大于等于1的正整数；对所述M个正例得分序列进行取平均融合，得到目标融合正例得分序列；根据所述目标融合正例得分序列，确定所述目标音频的检测结果。

可选的，所述每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图进行增强处理，包括：根据第一预设时间戳将所述第一样本特征分割P个子样本特征，其中，所述P为大于等于1的正整数；

将所述P个子样本特征中的每个子样本特征通过时间轴扭曲、时间轴掩蔽、频率轴掩蔽并行处理，得到基于所述频谱图增强处理的第一目标样本特征。

可选的，所述每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于时间域进行增强处理，包括：将所述第一样本特征在时间轴上向前移动一帧，得到第二样本特征，在所述时间轴上向后移动一帧，得到第三样本特征序列；根据第二预设时间戳分别将所述第二样本特征、所述第三样本特征序列分割为Q个子样本特征，得到基于所述时间域处理的第二目标样本特征和第三目标样本特征，其中，所述Q等于P，所述第二设时间戳等于所述第一时间戳。

可选的，所述通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，包括：根据第三预设时间戳将所述第一样本特征分割为R个子特征序列，其中，所述R等于Q等于M，所述第三设时间戳等于所述第二时间戳；根据所述第一目标样本特征、第二目标样本特征和第三目标样本特征，确定第二样本特征，其中，所述第二样本特征包括Q个子特征序列；通过所述R个子特征序列和所述Q个子特征序列训练所述待训练声音检测模型，其中，所述R个子特征序列和所述Q个子特征序列一一对应。

可选的，所述通过所述R个子特征序列和所述Q个子特征序列训练所述M个待训练声音检测模型，包括：将所述R个子特征序列中的第一目标子特征，与Q个子特征序列中的所述第二目标子特征作为一组输入数据，得到R组输入数据，所述第一目标子特征与所述第二目标子特征在时间存在对应关系；将所述R组输入数据分别对应输出所述M个待训练声音检测模型中，对应所述M个待训练声音检测模型中的每个声音检测模型执行如下操作：一组输入数据经过卷积神经网络得到高维特征矩阵；通过学习得到的权重将所述高维特征矩阵转换为特征向量；根据特征向量确定相似度度量分类预测；在所述相似度度量分类预测满足预设条件的情况下，将所述待训练声音检测模型确定为目标声音检测模型。

可选的，所述根据所述目标融合正例得分序列，确定所述目标音频的检测结果，包括：将所述目标融合正例得分序列进行中值滤波和/或峰值挑选处理操作；根据处理后的目标融合正例得分序列，确定所述目标音频的音频时间戳，其中，所述目标检测结果包括为所述目标音频标注时间戳。

可选的，所述将所述目标融合正例得分序列进行中值滤波处理操作，包括：根据可调节的滤波窗口对所述目标融合正例得分序列进行滤波操作。

根据本发明实施例的另一方面，还提供了一种声音事件检测的装置，包括：特征提取单元，用于从声源数据提取目标音频的目标特征，并将所述目标特征进行分割，得到N个子目标特征，其中，所述N为大于等于1的正整数；检测单元，用于将所述N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，所述M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，所述M为大于等于1的正整数；融合单元，用于对所述M个正例得分序列进行取平均融合，得到目标融合正例得分序列；确定单元，用于根据所述目标融合正例得分序列，确定所述目标音频的检测结果。

可选的，所述检测单元，包括：第一分割模块，用于根据第一预设时间戳将所述第一样本特征分割P个子样本特征，其中，所述P为大于等于1的正整数；第一增强处理模块，用于将所述P个子样本特征中的每个子样本特征通过时间轴扭曲、时间轴掩蔽、频率轴掩蔽并行处理，得到基于所述频谱图增强处理的第一目标样本特征。

可选的，所述检测单元，包括：移动模块，用于将所述第一样本特征在时间轴上向前移动一帧，得到第二样本特征，在所述时间轴上向后移动一帧，得到第三样本特征序列；第二分割模块，用于根据第二预设时间戳分别将所述第二样本特征、所述第三样本特征序列分割为Q个子样本特征，得到基于所述时间域处理的第二目标样本特征和第三目标样本特征，其中，所述Q等于P，所述第二设时间戳等于所述第一时间戳。

可选的，上述检测单元，包括：第三分割模块，用于根据第三预设时间戳将所述第一样本特征分割为R个子特征序列，其中，所述R等于Q等于M，所述第三设时间戳等于所述第二时间戳；确定模块，用于根据所述第一目标样本特征、第二目标样本特征和第三目标样本特征，确定第二样本特征，其中，所述第二样本特征包括Q个子特征序列；训练模块，用于通过所述R个子特征序列和所述Q个子特征序列训练所述待训练声音检测模型，其中，所述R个子特征序列和所述Q个子特征序列一一对应。

可选的，上述训练模块用于执行如下操作：将所述R个子特征序列中的第一目标子特征，与Q个子特征序列中的所述第二目标子特征作为一组输入数据，得到R组输入数据，所述第一目标子特征与所述第二目标子特征在时间存在对应关系；将所述R组输入数据分别对应输出所述M个待训练声音检测模型中，对应所述M个待训练声音检测模型中的每个声音检测模型执行如下操作：一组输入数据经过卷积神经网络得到高维特征矩阵；通过学习得到的权重将所述高维特征矩阵转换为特征向量；根据特征向量确定相似度度量分类预测；在所述相似度度量分类预测满足预设条件的情况下，将所述待训练声音检测模型确定为目标声音检测模型。

可选的，上述确定模块，包括：处理子模块，用于将所述目标融合正例得分序列进行中值滤波和/或峰值挑选处理操作；确定子模块，用于根据处理后的目标融合正例得分序列，确定所述目标音频的音频时间戳，其中，所述目标检测结果包括为所述目标音频标注时间戳。

可选的，上述处理子模块还用于执行如下操作：根据可调节的滤波窗口对所述目标融合正例得分序列进行滤波操作。

在本发明实施例中，从声源数据提取目标音频的目标特征，并将目标特征分割，得到N个子目标特征，其中，N为大于等于1的正整数；将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得出M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标检测模型，1≤M≤N；对M个正例得分序列进行取平均融合，得到目标融合正例得分序列；根据目标融合正例得分序列，确定目标音频的检测结果，基于频谱图和时间域进行数据增强增加数据的扰动，提高了模型的鲁棒性；设计多个模型预测得分融合方案，减小了随机性的干扰提高了模型的稳定性，可以提高预测时间事件的时间戳的准确性。进而解决了现有技术中，声音事件检测结果准确性低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的声音事件的检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种可选的声音事件的检测方法的流程图；

图3是根据本发明实施例的一种可选的基于数据增强和注意力机制模型训练的样本生物声音事件检测系统的示意图；

图4是根据本发明实施例的一种可选的基于频谱图的数据增强流程图；

图5是根据本发明实施例的一种可选的inference-time数据增强流程图；

图6是根据本发明实施例的一种可选的训练及检测网络的示意图；

图7是根据本发明实施例的一种可选的声音事件的检测方法的装置图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的声音事件的检测方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种声音事件的检测方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的声音事件的检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中还提供了一种声音事件的检测方法，图2是根据本发明实施例的声音事件的检测的流程图，如图2所示，该声音事件的检测流程包括如下步骤：

步骤S202，从声源数据提取目标音频的目标特征，并将目标特征进行分割，得到N个子目标特征，其中，N为大于等于1的正整数。

步骤S204，将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，M为大于等于1的正整数。

步骤S206，对M个正例得分序列进行取平均融合，得到目标融合正例得分序列。

步骤S208，根据目标融合正例得分序列，确定目标音频的检测结果。

可选的，在本实施中，上述声音事件的检测可以包括但不限于处理连续的声音信号，并将其转换为听觉场景中出现的相应声音事件的符合描述。声音事件检测可用于多种应用程序，基于包括上下文的索引和多媒体数据库中的检索，安防监控和家具监控场景的风险智能监控。此外，检测到的事件可以用作其他研究领域的中间层表示，例如，音频上下文识别，自动标记和音频分段。

其中，上述声源数据库中可以包括但不限于存储录制好的生物声音的数据库，生物声音包括但不限于人、家禽生物、鸟类生物等。

在本实施例中，从声源数据中获取待检测的目标音频，将目标音频升采样或者降采样到22050Hz，然后进行分帧、加窗、快速傅里叶变换的操作(在分帧操作中，帧长和帧移分别为1024个采样点和256个采样点)，接下来经过128个三角窗的Mel滤波器组后提取归一化能量特征PCEN特征(目标特征)，由此得到目标音频的目标特征。

以时长为20秒的目标音频，M为5，5个目标声音检测模型为例，说明上述声音事件的检测方法。

获取目标音频的目标特征，可以根据时间戳将该目标特征分为5段，还可以每4秒进行分割，得到5个子目标特征，编号S-1，S-2，S-3，S-4，S-5，5个目标声音检测模型编号为M-1，M-2，M-3，M-4，M-5，将S-1，S-2，S-3，S-4，S-5，5个子目标特征分别输入到M-1，M-2，M-3，M-4，M-5，目标声音检测模型，得到目标音频的5个正例得分序列。

在声音事件的检测阶段，首先对待检测音频(目标音频)提取PCEN特征(目标特征)，接着进行片段分割操作，然后分别送入训练好的五个原型检测网络中，得到五组正例得分序列。接着将这五组正例得分序列进行取平均的得分融合操作，得到平均后的正例得分序列。

在得到的正例得分序列中存在得分较高但是持续时间极短的噪声干扰，这部分高得分需要被平滑掉。同时，正例得分序列中存在正例事件得分预测结果间断性大于阈值的情况，这种情况下，需要中值滤波平滑接续。由于每条音频正例(每种动物叫声)持续事件差异性大，因此中值滤波的滤波窗口将针对每条音频实现可调节。具体实现方法为，将滤波窗口设置为每条音频已知时间戳的声音事件的平均持续时间的1/m。在进行完中值滤波操作后，接着进行峰值挑选的操作进行后处理的补充。具体实施方式为丢弃小于前五个已知时间戳的声音事件的平均持续时间n％的事件预测结果。

需要说明的是，在本实施例中，可以将长目标音频的大数据进行分割，得到多个分割片段的小数据，多个小数据可以并行运算处理，可以增加目标音频的处理速度，缩短声音事件的检测时间。

通过本申请提供的实施例，从声源数据提取目标音频的目标特征，并将目标特征分割，得到N个子目标特征，其中，N为大于等于1的正整数；将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得出M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，M为大于等于1的正整数；对M个正例得分序列进行取平均融合，得到目标融合正例得分序列；根据目标融合正例得分序列，确定目标音频的检测结果，基于频谱图和时间域进行数据增强增加数据的扰动，提高了模型的鲁棒性；设计多个模型预测得分融合方案，减小了随机性的干扰提高了模型的稳定性，可以提高预测时间事件的时间戳的准确性。进而解决了现有技术中，声音事件检测结果准确性低的技术问题。

可选的，在每个待训练声音检测模型训练过程中，对多个样本音频的第一样本特征，基于频谱图进行增强处理，可以包括：根据第一预设时间戳将第一样本特征分割P个子样本特征，其中，P为大于等于1的正整数；将P个子样本特征中的每个子样本特征通过时间轴扭曲、时间轴掩蔽、频率轴掩蔽并行处理，得到基于频谱图增强处理的第一目标样本特征。

可选的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于时间域进行增强处理，可以包括：将第一样本特征在时间轴上向前移动一帧，得到第二样本特征，在时间轴上向后移动一帧，得到第三样本特征序列；根据第二预设时间戳分别将第二样本特征、第三样本特征序列分割为Q个子样本特征，得到基于时间域处理的第二目标样本特征和第三目标样本特征，其中，Q等于P，第二设时间戳等于第一时间戳。

在本实施例中，涉及到M个目标声音检测模型的训练过程。其中，训练待训练声音检测模型，需要从样本音频中提取音频特征，以及为了保证模型的鲁棒性，需要对音频特征进行处理。音频特征提取及数据准备具体包括如下内容。

原始训练数据的长音频(相当于样本音频)，首先将提取归一化能量特征PCEN特征(相当于第一样本特征)，然后根据给定标签的时间戳切分出声音事件PCEN特征。对于基于频谱图的数据增强方式，将切分好的PCEN特征片段进行三种并行处理：时间轴扭曲、时间轴掩蔽、频率轴掩蔽，得到增强后的频谱图(相当于第一目标样本特征)；对于inference-time数据增强(相当于时间域)，在事件切分阶段将原始切分边界分别时间轴上向前、向后移动一帧，得到新的PCEN特征(相当于第二目标样本特征、第三目标样本特征)频谱片段。以上两种声音事件数据增强后的PCEN特征片段同原始PCEN特征(相当于第一目标样本特征)片段一同输入分类网络(待训练声音检测模型)进行训练。

需要说明的是，由于生物声音事件具有持续时间长短不一的特点，有些动物叫声持续时间较长，有些动物叫声呈现瞬时的特性，因此，在本实施例中，上述M个待训练声音检测模型中的每个待训练声音检测模型都是基于注意力机制的原型网络训练模型搭建，将模型训练的注意力集中到声音事件，而不是声音事件与背景的占比。所有数据输入待训练声音检测模型后，首先经过卷积神经网络得到高维特征矩阵表示，另一方面由注意力模块学到注意力权重组成的注意力加权矩阵，将该权重作用到高维特征矩阵表示并转换为特征向量，得到最终的音频高维特征向量表示，接着计算类原型进行下一步的相似度度量分类预测。

可选的，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，可以包括：根据第三预设时间戳将第一样本特征分割为R个子特征序列，其中，R等于Q等于M，第三设时间戳等于第二时间戳；根据第一目标样本特征、第二目标样本特征和第三目标样本特征，确定第二样本特征，其中，第二样本特征包括Q个子特征序列；通过R个子特征序列和Q个子特征序列训练待训练声音检测模型，其中，R个子特征序列和Q个子特征序列一一对应。

可选的，通过R个子特征序列和Q个子特征序列训练M个待训练声音检测模型，可以包括：将R个子特征序列中的第一目标子特征，与Q个子特征序列中的第二目标子特征作为一组输入数据，得到R组输入数据，第一目标子特征与第二目标子特征在时间存在对应关系；将R组输入数据分别对应输出M个待训练声音检测模型中，对应M个待训练声音检测模型中的每个声音检测模型执行如下操作：一组输入数据经过卷积神经网络得到高维特征矩阵；通过学习得到的权重将高维特征矩阵转换为特征向量；根据特征向量确定相似度度量分类预测；在相似度度量分类预测满足预设条件的情况下，将待训练声音检测模型确定为目标声音检测模型。

可选的，根据目标融合正例得分序列，确定目标音频的检测结果，可以包括：将目标融合正例得分序列进行中值滤波和/或峰值挑选处理操作；根据处理后的目标融合正例得分序列，确定目标音频的音频时间戳，其中，目标检测结果包括为目标音频标注时间戳。

其中，将目标融合正例得分序列进行中值滤波处理操作，可以包括：根据可调节的滤波窗口对目标融合正例得分序列进行滤波操作。

在本实施例中，每条音频的滤波窗口大小将根据声音事件的持续时间进行调节。验证数据集总共有8条音频，每条音频进行时间戳检测时，将滤波窗口设置为该条音频前五个已知时间戳的声音事件的平均持续时间的1/3。但是PB数据集中的声音事件持续时间过短，无法形成中值滤波窗口，因此，在测试时只对HV中数据进行中值滤波，滤波窗长分别为7和12。在进行完中值滤波操作后，接着进行峰值挑选的操作：丢弃小于前五个已知时间戳的声音事件的平均持续时间60％的事件预测结果。

作为一种可选的实施例，本申请还提供了一种基于数据增强和注意力机制模型训练的样本生物声音事件检测系统。

如图3所示，基于数据增强和注意力机制模型训练的样本生物声音事件检测系统的示意图。

该检测系统具体实现方式如图3所示，主要包括两个阶段四个部分。如图3左半部分所示，模型训练阶段分为两个部分：一是为了增强扰动分别在频谱图和纯时间域两个方面采用的数据增强方式；二是针对生物声音短时的特点采用的基于注意力的原型网络训练方式。图3右半部分展示了声音事件检测阶段的流程，主要包括两个部分：一是将原始音频经过一系列适应模型的处理后送入训练好的N个模型中进行检测，分别得出相应的，并对同一条音频的M个正例得分序列进行取平均融合，以此来增强模型预测结果的稳定性；二是为了将间断的声音事件接续起来并剔除干扰，而对融合后的正例得分序列进行的中值滤波及峰值挑选的后处理操作，最后输出得到音频时间戳。

需要说明的是，基于注意力机制的原型网络训练模型能自动引导模型注意较长的音频片段的特定部分，以识别相对较短或瞬时的声音；两种数据增强方式增加了数据的扰动，在一定程度上增强了模型的鲁棒性；少样本事件具有随机性的特点，因此本实施例中，多个模型的结果进行得分融合的方案，减小随机性的干扰提高了模型的稳定性；可调节滤波及峰值挑选的后处理方式提高了模型对事件时间戳检测的准确性。

通过数据增强增加数据的扰动，提高了模型的鲁棒性；基于注意力机制的原型网络训练模型能自动引导模型注意音频片段的特定部分，以识别相对较短或瞬时的音频特征；所设计多个模型预测得分融合方案，减小了随机性的干扰提高了模型的稳定性；可调节滤波及峰值挑选的后处理方式对预测事件时间戳进行校正。

为实现本实施例，提供一种基于数据增强和注意力机制模型训练的样本生物声音事件检测系统，主要包括如下4个步骤：

步骤一，音频特征提取及数据准备

原始训练数据的长音频首先将提取归一化能量特征PCEN特征(相当于目标特征)，然后根据给定标签的时间戳切分出声音事件PCEN特征。对于基于频谱图的数据增强方式，将切分好的PCEN特征片段进行三种并行处理：时间轴扭曲、时间轴掩蔽、频率轴掩蔽，得到增强后的频谱图；对于inference-time数据增强，在事件切分阶段将原始切分边界分别向左、向右移动一帧，得到新的PCEN频谱片段。以上两种声音事件数据增强后的PCEN特征片段同原始PCEN特征片段一同送入基于注意力机制的原型分类网络进行训练。

需要说明的是，本实实施例中，获取到的音频数据集可以来自声音场景分类和声音事件检测挑战赛(Detection and Classification of Acoustic Scenes and Events(DCASE)，选用DCASE2021中生物声音事件检测任务(Sound Event Detection)的音频开发数据集(Development dataset)，共19小时20分钟。

该数据集包含训练数据集(Training dataset)和验证数据集(Validationdataset)。其中，训练数据包含4个子集，即4个大类物种，共14小时20分钟，每个子集中又分别包含数量不等的小类：BV包含11个小类，5条音频共计10小时，每类标记持续时间150ms,基频2KHz～10KHz；HT包含3个小类，3条音频共计3小时，声音事件持续时间分别为0.29～3.38s，0.18～3.79s和0.33～7.41s；JD包含1个小类，条音频共计10分钟，声音事件持续时间0.052063～0.20600s；MT包含4个小类，2条音频，共计1小时10分钟，声音事件持续时间分别为0～1.265s和0.034～0.534s；验证数据集(共5小时)每条音频中只有目标事件叫声(正例)和非目标事件声音(负例)两个类别，包括HV(2条音频，共2小时)和PB(6条音频，共3小时)两个子集。其中，HV中的音频事件持续时间较长，最长可达0.7s，PB数据集包含三条声音事件持续时间极短(最短为0.007s)的长音频。

在本实施例中，基于频谱图的数据增强，具体实施流程如图4所示，首先将训练数据原始音频进行分帧、加窗的操作，然后进行快速傅里叶变换，接下来经过128个三角窗的Mel滤波器组后进行取PCEN的操作，由此得到原始音频的PCEN特征。下面将根据训练数据标签中的时间戳对PCEN特征进行片段截取，截取后的PCEN特征片段将同时进行三个操作：时间轴扭曲、时间轴掩蔽、频率轴掩蔽，得到增强后的频谱图(相当于第一目标特征)。

在本实施例中，基于inference-time的数据增强具体实施流程如图5所示，取得PCEN特征的方式，与基于同频谱图的数据增强过程中提取PCEN特征方式相同，即将训练数据原始音频进行分帧、加窗的操作，然后进行快速傅里叶变换，接下来经过128个三角窗的Mel滤波器组后进行取PCEN的操作，由此得到原始音频的PCEN特征。

其中，在截取PCEN特征片段之前先进行移帧的操作，分别在时间轴上向前移动一帧或者向后移动一帧再进行PCEN特征片段的截取，由此可以得到两张数据增强后的频谱图，即向前移一帧得到对应的增强后的频谱图1(相当于第二目标样本特征)和向后移一帧得到对应的增强后的频谱图2(相当于第三目标样本特征)。

步骤二，基于注意力机制的原型网络训练模型搭建

由于生物声音事件具有持续时间长短不一的特点，有些动物叫声持续时间较长，有些动物叫声呈现瞬时的特性，因此，在本实施例中设计了基于注意力机制的原型训练网络，将模型训练的注意力集中到声音事件，而不是声音事件与背景的占比。所有数据送入原型网络后，首先经过卷积神经网络得到高维特征矩阵表示，另一方面，由注意力模块学到注意力权重组成的注意力加权矩阵，将该权重作用到高维特征矩阵表示并转换为特征向量，得到最终的音频高维特征向量表示，接着计算类原型进行下一步的相似度度量分类预测。

其中，输入的PCEN特征首先经过4层的卷积神经网络，最后一层卷积层输出的高维特征经过注意力机制层学习到关于特征音频的权重信息，将这些信息加权到高维特征，得到新的高维特征，再用这些特征表示进行相似度度量分类，得到最后的分类预测结果。

在本实施例中，如图6所示，输入的PCEN特征首先经过4层的卷积神经网络。每层卷积神经网络包括一个卷积核为3×3的卷积操作、批归一化(BN)、ReLU激活函数和dropout操作。最后一层卷积层的输出将输入的PCEN特征x_i映射到高维空间f_E(x_i)。每个类原型X_k即可通过求这些加权后的高维特征向量的均值得到Xk：

其中，A_i是注意力机制卷积层学习到关于音频特征的权重矩阵。基于注意力的相似度度量方式如下：

其中X_q＝f_E(x_q)与X_j＝f_E(x_j)为高维特征矩阵表示，A_q和A_j为注意力机制卷积层学习到的关于音频特征的权重矩阵，基于注意力的相似度度量可解释为两个注意力加权的向量的乘积，因此可以使用常规的度量方式，如欧氏距离平方

来衡量这两个注意力加权的向量之间的距离dis(X_qA_q，X_k)。比较待测样本特征向量与各类原型欧式距离的平方得出最小值，基于此最小值判定待测样本的类别p_φ(y＝k|x)：

在本实施例中，输入的PCEN特征首先经过4层的卷积神经网络，每层卷积神经网络包括一个卷积核为3×3的卷积操作、批归一化(BN)、ReLU激活函数和dropout操作。最后一层卷积层输出的高维特征注意力机制层学习到关于特征音频的权重信息，将这些信息加权到高维特征表示上，得到新的高维特征表示，再用这些特征表示进行相似度度量分类，得到最后的分类预测结果。

步骤三，声音事件初步检测得分融合

在声音事件检测阶段，如图6所示，生物声音检测，首先对待检测音频(相当于目标音频)提取PCEN特征，接着进行片段分割操作，然后分别输入训练好的N个原型检测网络(相当于M个目标音频检测模型)中，得到N组正例得分序列(待测音频的N组正例得分序列存在一定的预测偏差，因此将N组正例得分序列进行得分融合来得到更稳定的正例得分序列预测结果。)接着将这五组正例得分序列进行取平均的得分融合操作，得到平均后的正例得分序列。

在本实施例中，在声音事件检测阶段，首先对待检测音频提取PCEN特征，接着进行片段分割操作，然后分别送入训练好的五个原型检测网络中，得到五组正例得分序列：

其中，s_iP与s_iN分别表示第i组中一个片段预测为正例和预测为负例的得分，s_i表示一个片段最终得到的正例得分。将五组正例得分序列进行得分融合来得到更稳定的正例得分序列预测结果：

将融合后的得分与阈值(0.5)进行比较，比阈值大时判定为有目标事件发生，比阈值小时判定为没有目标事件发生：

步骤四，设计可窗口可调节中值滤波器及峰值挑选后处理

在得到的正例得分序列中存在得分较高但是持续时间极短的噪声干扰，这部分高得分需要被平滑掉。同时，正例得分序列中存在正例事件得分预测结果间断性大于阈值的情况，这种情况下，需要中值滤波平滑接续。由于每条音频正例(每种动物叫声)持续事件差异性大，因此，中值滤波的滤波窗口将针对每条音频实现可调节。具体实现方法为，将滤波窗口设置为每条音频已知时间戳的声音事件的平均持续时间的1/m。在进行完中值滤波操作后，接着进行峰值挑选的操作进行后处理的补充。具体实施方式为丢弃小于前五个已知时间戳的声音事件的平均持续时间n％的事件预测结果。

在本实施例中，每条音频的滤波窗口大小将根据声音事件的持续时间进行调节。每条音频进行时间戳检测时，将滤波窗口设置为该条音频前五个已知时间戳(相当于预设时间戳)的声音事件的平均持续时间的1/3：

在进行完中值滤波操作后，接着进行峰值挑选的操作：

即丢弃小于前五个已知时间戳的声音事件的平均持续时间60％(β)的事件预测结果。

需要说明的是，系统评估方式可以包括但不限于使用F-measure来评价系统的性能，其计算方式如下：

其中，召回率和精度是相互矛盾的两个衡量准则：

其中，F-measure兼顾这两个指标，计算召回率和精度的调和平均。本实验中F-measure最后得分由每个子集得到，即，先计算每个子集的F-measure，然后所有子集的F-measure取调和平均。当预测事件的时间戳与真实标签的交并比(IoU)大于30％时算做TP。数据集中包含UNK类，即未知名动物叫声，UNK类会单独处理，因为虽然人耳未能辨识，但是系统的预测存在正确的可能性。具体为：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种声音事件的检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本发明实施例的声音事件的检测装置的结构框图，如图7所示，该装置包括：

特征提取单元71，用于从声源数据提取目标音频的目标特征，并将目标特征进行分割，得到N个子目标特征，其中，N为大于等于1的正整数。

检测单元73，用于将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，M为大于等于1的正整数。

融合单元75，用于对M个正例得分序列进行取平均融合，得到目标融合正例得分序列。

确定单元77，用于根据目标融合正例得分序列，确定目标音频的检测结果。

通过本申请提供的实施例，特征提取单元71从声源数据提取目标音频的目标特征，并将目标特征进行分割，得到N个子目标特征，其中，N为大于等于1的正整数；检测单元73将N个子目标特征中相同得分的子目标特征输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，M为大于等于1的正整数；融合单元75对M个正例得分序列进行取平均融合，得到目标融合正例得分序列；确定单元77根据目标融合正例得分序列，确定目标音频的检测结果。基于频谱图和时间域进行数据增强增加数据的扰动，提高了模型的鲁棒性；设计多个模型预测得分融合方案，减小了随机性的干扰提高了模型的稳定性，可以提高预测时间事件的时间戳的准确性。进而解决了现有技术中，声音事件检测结果准确性低的技术问题。

可选的，检测单元73，可以包括：第一分割模块，用于根据第一预设时间戳将第一样本特征分割P个子样本特征，其中，P为大于等于1的正整数；第一增强处理模块，用于将P个子样本特征中的每个子样本特征通过时间轴扭曲、时间轴掩蔽、频率轴掩蔽并行处理，得到基于频谱图增强处理的第一目标样本特征。

可选的，检测单元73，还可以包括：移动模块，用于将第一样本特征在时间轴上向前移动一帧，得到第二样本特征，在时间轴上向后移动一帧，得到第三样本特征序列；第二分割模块，用于根据第二预设时间戳分别将第二样本特征、第三样本特征序列分割为Q个子样本特征，得到基于时间域处理的第二目标样本特征和第三目标样本特征，其中，Q等于P，第二设时间戳等于第一时间戳。

可选的，上述检测单元73，包括：第三分割模块，用于根据第三预设时间戳将第一样本特征分割为R个子特征序列，其中，R等于Q等于M，第三设时间戳等于第二时间戳；确定模块，用于根据第一目标样本特征、第二目标样本特征和第三目标样本特征，确定第二样本特征，其中，第二样本特征包括Q个子特征序列；训练模块，用于通过R个子特征序列和Q个子特征序列训练待训练声音检测模型，其中，R个子特征序列和Q个子特征序列一一对应。

可选的，上述训练模块用于执行如下操作：将R个子特征序列中的第一目标子特征，与Q个子特征序列中的第二目标子特征作为一组输入数据，得到R组输入数据，第一目标子特征与第二目标子特征在时间存在对应关系；将R组输入数据分别对应输出M个待训练声音检测模型中，对应M个待训练声音检测模型中的每个声音检测模型执行如下操作：一组输入数据经过卷积神经网络得到高维特征矩阵；通过学习得到的权重将高维特征矩阵转换为特征向量；根据特征向量确定相似度度量分类预测；在相似度度量分类预测满足预设条件的情况下，将待训练声音检测模型确定为目标声音检测模型。

可选的，上述确定模块75，可以包括：处理子模块，用于将目标融合正例得分序列进行中值滤波和/或峰值挑选处理操作；确定子模块，用于根据处理后的目标融合正例得分序列，确定目标音频的音频时间戳，其中，目标检测结果包括为目标音频标注时间戳。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从声源数据提取目标音频的目标特征，并将目标特征进行分割，得到N个子目标特征，其中，N为大于等于1的正整数；

S2，将N个子目标特征中相同得分的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过第一样本特征和第二样本特征训练待训练声音检测模型得到目标声音检测模型，M为大于等于1的正整数；

S3，对M个正例得分序列进行取平均融合，得到目标融合正例得分序列；

S4，根据目标融合正例得分序列，确定目标音频的检测结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声音事件的检测方法，其特征在于，包括：

从声源数据提取目标音频的目标特征，并将所述目标特征进行分割，得到N个子目标特征，其中，所述N为大于等于1的正整数；

将所述N个子目标特征中相同的子目标特征分别输入M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，所述M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，所述M为大于等于1的正整数；

对所述M个正例得分序列进行取平均融合，得到目标融合正例得分序列；

根据所述目标融合正例得分序列，确定所述目标音频的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图进行增强处理，包括：

根据第一预设时间戳将所述第一样本特征分割P个子样本特征，其中，所述P为大于等于1的正整数；

3.根据权利要求1所述的方法，其特征在于，所述每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于时间域进行增强处理，包括：

将所述第一样本特征在时间轴上向前移动一帧，得到第二样本特征，在所述时间轴上向后移动一帧，得到第三样本特征序列；

根据第二预设时间戳分别将所述第二样本特征、所述第三样本特征序列分割为Q个子样本特征，得到基于所述时间域处理的第二目标样本特征和第三目标样本特征，其中，所述Q等于P，所述第二设时间戳等于所述第一时间戳。

4.根据权利要求3所述的方法，其特征在于，所述通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，包括：

根据第三预设时间戳将所述第一样本特征分割为R个子特征序列，其中，所述R等于Q等于M，所述第三设时间戳等于所述第二时间戳；

根据所述第一目标样本特征、第二目标样本特征和第三目标样本特征，确定第二样本特征，其中，所述第二样本特征包括Q个子特征序列；

通过所述R个子特征序列和所述Q个子特征序列训练所述待训练声音检测模型，其中，所述R个子特征序列和所述Q个子特征序列一一对应。

5.根据权利要求4所述的方法，其特征在于，所述通过所述R个子特征序列和所述Q个子特征序列训练所述M个待训练声音检测模型，包括：

将所述R个子特征序列中的第一目标子特征，与Q个子特征序列中的所述第二目标子特征作为一组输入数据，得到R组输入数据，所述第一目标子特征与所述第二目标子特征在时间存在对应关系；

将所述R组输入数据分别对应输出所述M个待训练声音检测模型中，对应所述M个待训练声音检测模型中的每个声音检测模型执行如下操作：

一组输入数据经过卷积神经网络得到高维特征矩阵；

通过学习得到的权重将所述高维特征矩阵转换为特征向量；

根据特征向量确定相似度度量分类预测；

在所述相似度度量分类预测满足预设条件的情况下，将所述待训练声音检测模型确定为目标声音检测模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标融合正例得分序列，确定所述目标音频的检测结果，包括：

将所述目标融合正例得分序列进行中值滤波和/或峰值挑选处理操作；

根据处理后的目标融合正例得分序列，确定所述目标音频的音频时间戳，其中，所述目标检测结果包括为所述目标音频标注时间戳。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标融合正例得分序列进行中值滤波处理操作，包括：

根据可调节的滤波窗口对所述目标融合正例得分序列进行滤波操作。

8.一种声音事件的检测装置，其特征在于，包括：

特征提取单元，用于从声源数据提取目标音频的目标特征，并将所述目标特征进行分割，得到N个子目标特征，其中，所述N为大于等于1的正整数；

检测单元，用于将所述N个子目标特征中相同的子目标特征分别输入对应的M个目标声音检测模型中进行检测，得到M个正例得分序列，其中，所述M个目标声音检测模型是通过训练M个待训练声音检测模型得到的，每个待训练声音检测模型在训练过程中，对多个样本音频的第一样本特征，基于频谱图和时间域进行增强处理，得到第二样本特征，通过所述第一样本特征和所述第二样本特征训练所述待训练声音检测模型得到所述目标声音检测模型，所述M为大于等于1的正整数；

融合单元，用于对所述M个正例得分序列进行取平均融合，得到目标融合正例得分序列；

确定单元，用于根据所述目标融合正例得分序列，确定所述目标音频的检测结果。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。