CN114339355A

CN114339355A - 事件检测模型训练方法、系统、电子设备和存储介质

Info

Publication number: CN114339355A
Application number: CN202111681998.2A
Authority: CN
Inventors: 俞凯; 吴梦玥; 李光伟; 徐薛楠
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12
Anticipated expiration: 2041-12-31
Also published as: CN114339355B

Abstract

本发明公开事件检测模型训练方法、事件检测系统、电子设备和存储介质，其中，一种事件检测模型训练方法，其中，对音频数据集额外进行视频标注，所述方法包括：使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。本申请实施例针对已有的音频数据集进行改进，额外标注了视频弱标签，从而无需从头选用新的数据。同时，采用以attention为基础的模型结构对两模态进行有效融合，应对音视频不匹配的问题。

Description

事件检测模型训练方法、系统、电子设备和存储介质

技术领域

本发明属于事件检测模型训练技术领域，尤其涉及事件检测模型训练方法、事件检测系统、电子设备和存储介质。

背景技术

现有技术中，融合声音与视频中的信息，分别对两个模态的信息分别解析，并在最后对两个模态的信息进行整合实现多模态整合。通常的方法往往会使用神经网络，在这其中通常使用基于CNN的视频特征提取器，和基于RNN的音频特征提取器，并将两模态特征进行融合(concatenate)，最终使用一个解码器进行输出。

发明人发现，现有技术的方案至少存在以下缺陷：通常来说，融合仅仅会将单个模态的特征进行简单融合(通常是直接拼接)，造成融合效果不好，并且输出通常会将不同模态的事件混淆，仅仅输出音视频混合的事件检测，对于模态不匹配问题没法有效应对。对于事件分析时纳入考虑的种类不够。

发明内容

本发明实施例提供一种事件检测模型训练方法、事件检测系统、电子设备和存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种事件检测模型训练方法，其中，对音频数据集额外进行视频标注，所述方法包括：使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。

第二方面，本发明实施例提供一种事件检测系统，包括：音频处理模型，配置为对音频数据集中的音频进行特征提取得到音频特征；视频处理模型，配置为对所述音频数据集中的视频进行特征提取得到视频特征，其中所述音频数据集中额外进行了视频标注；以attention为基础的融合输出模型，配置为对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的事件检测模型训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的事件检测模型训练方法的步骤。

本申请实施例的方法针对已有的音频数据集进行改进，额外标注了视频弱标签，从而无需从头选用新的数据。并且这种方法也能一并体现出音视频模态标签的不同。同时，采用以attention为基础的模型结构对两模态进行有效融合，并且针对音频事件，视频事件进行独立的解码输出，从而能够独立地对不同模态进行解析，应对音视频不匹配的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种事件检测模型训练方法的流程图；

图2为本发明一实施例提供的本申请的视听网络的整体结构。；

图3为本发明一实施例提供的事件模态片段级别不匹配的示例；

图4为本发明一实施例提供的VEBA数据集中的数据汇总；

图5为本发明一实施例提供的Audioset平衡数据集中的弱标签摘要；

图6为本发明一实施例提供的VEBA数据集与之前的视听数据集之间的比较；

图7为本发明一实施例提供的本申请实施例提出的模型与其他方法的事件预测性能对比；

图8为本发明一实施例提供的AVE数据集视频中我们的视听解析结果的可视化示例；

图9为本发明一实施例提供的本申请实施例与其他方法相比的视听解析(或事件检测)性能；

图10为本发明一实施例提供的本申请实施例的数据对视听解析的有效性；

图11是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的事件检测模型训练方法和系统一实施例的流程图，本实施例的事件检测模型训练方法对音频数据集额外进行了视频标注。

如图1所示，在步骤101中，使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；

在步骤102中，使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；

在步骤103中，采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。

在一些可选的实施例中，上述方法还包括：使用注意力池化机制将所述音频事件预测、所述视频事件预测映射至视觉、听觉和视听觉三种模态中；将所述三种模态下的预测结果分别与对应的原标签进行比较得到综合损失函数；基于所述综合损失函数对所述事件检测模型进行训练。从而可以获得三种模态的损失函数，采用综合损失函数用于训练可以使得训练得到的模型在三种模态上对事件检测的准确率都有提升，尤其是在视频与音视频模态，提升十分显著。

在一些可选的实施例中，所述对音频数据集额外进行视频标注得到视频标签和音视频标签，所述将所述三种模态下的预测结果分别与对应的原标签进行比较得到综合损失函数包括：将映射后的音频事件预测结果与对应的音频标签进行比较得到音频损失函数；将映射后的视频事件预测结果与对应的视频标签进行比较得到视频损失函数；将映射后的音视频事件预测结果与对应的音视频标签进行比较得到音视频损失函数；以及基于所述音频损失函数、视频损失函数和所述音视频损失函数得到综合损失函数。

在一些可选的实施例中，所述综合损失函数为所述三种模态的预测结果与对应标签的距离之和。

在一些可选的实施例中，所述采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测包括：分别使用以self-attention为基础的单模态编码器对所述音频特征和所述视频特征进行信息归纳；使用以cross-attention为基础的混合attention网络对音频和视频不同时间归纳的信息进行整合，分别独立输出音频事件预测和视频事件预测。

在一些可选的实施例中，所述音频处理模型为预训练的L-Cdur，所述视频处理模型为Efficient-b6和3D Resnet。

本申请实施例还提供了一种事件检测系统，包括：音频处理模型，配置为对音频数据集中的音频进行特征提取得到音频特征；视频处理模型，配置为对所述音频数据集中的视频进行特征提取得到视频特征，其中所述音频数据集中额外进行了视频标注；以attention为基础的融合输出模型，配置为对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。本申请实施例采用以attention为基础的模型结构对两模态进行有效融合，并且针对音频事件，视频事件进行独立的解码输出，从而能够独立地对不同模态进行解析，应对音视频不匹配的问题。

在一些可选的实施例中，所述以attention为基础的融合输出模型包括配置为：分别使用以self-attention为基础的单模态编码器对所述音频特征和所述视频特征进行信息归纳；使用以cross-attention为基础的混合attention网络对音频和视频不同时间归纳的信息进行整合，分别独立输出音频事件预测和视频事件预测。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人发现上述缺陷主要是由以下原因导致的：模型结构，数据集标签不明确，数据集大小不够。

本领域技术人员在面对上述缺陷时，为了处理更多的事件，通常会采用含有更多事件标签的大数据集，针对模态不匹配的问题，往往会使用强标签(数据集本身带事件起始结束时间便签)进行训练，但这些不同的方法往往耗费巨大。

本申请实施例的方法针对已有的音频数据集(Audioset)进行改进，额外标注了视频弱标签，从而无需从头选用新的数据。并且这种方法也能一并体现出音视频模态标签的不同。

同时，采用以attention为基础的模型结构对两模态进行有效融合，并且针对音频事件，视频事件进行独立的解码输出，从而能够独立地对不同模态进行解析，应对音视频不匹配的问题。

请参考图2，其示出了本发明一实施例提供的事件检测模型训练方法和系统的一个具体示例的结构框图。

如图2所示，其中，中英文翻译如下：Audio/Video Encoder音视频特征编码器，Hybrid Attention跨模态混合注意力模块，Attentive Pooling一种pooling方法，在时间尺度上进行平均，Predicted Audio/Video模型预测音频/视频的标签结果，Audio/VideoWeak label:音视频弱标签

(1)数据集准备：

我们对于Audioset balanced数据集中的音频数据进行进一步的视频标注，标注了不同模态中事件是否存在的弱标签，称为VEBA数据集。

VEBA数据集中引入了376种事件种类，比过去的数据集多，并且包含了片段级别音视频事件不匹配的情况。

(2)整体流程

其中，中英文对照如下：Audio/Video Encoder音视频特征编码器，HybridAttention跨模态混合注意力模块，Attentive Pooling一种pooling方法，在时间尺度上进行平均，Predicted Audio/Video模型预测音频/视频的标签结果，Audio/Video Weaklabel:音视频弱标签。

①使用预训练的L-CDur对音频进行特征提取，同时使用Efficient-b6与3DResnet对视频进行特征提取，并使用以self-attention为基础的单模态编码器进行信息归纳，然后使用以cross-attention为基础的混合attention网络对不同模态不同时间的信息进行整合，输出对两个模态事件存在的预测，并且使用注意池化机制对输出进行映射，将其映射到视觉，听觉与视听觉三种不同模态，并将这三种模态的预测结果与原标签进行比较，缩小两者之间的差距，从而对模型进行训练。损失函数是三种模态预测结果与标签的距离之和。

最终我们的模型在针对事件检测任务上效果显示我们的方法在三种模态上对事件检测的准确率都有提升，尤其是在视频与音视频模态，提升十分显著。

在解决音视频不匹配时，我们曾经想过针对声音事件和视频事件使用两套完全不同的标签，在再进行标签的映射和整合，后来发现音频事件和视频事件存在n-n(n对n)的情况，即没法一一匹配或者一对多匹配，会造成混乱，因此最后采用以音频事件为基准，进一步改善视频事件的方法，原因是原音频事件种类及其丰富，有527种，涵盖了日常能遇到的大部分事件种类。

本申请实施例的模型不仅在我们的VEBA测试集中能够准确地预测不同模态事件的开始结束时间，还能够针对之前的音视频数据集的标签进行改善，比如ACE数据集。本申请实施例的模型在处理某事件在音视频同时出现时有很好的表现，能够改善过去的标签。并且未来可能能够进一步为自然环境下的视频进行事件提取，找到人们感兴趣的部分。

以下通过具体的实验和实验数据验证本申请实施例相对于现有技术具有的有益效果。

以前工作中对于视听觉侧的对齐主要侧重于时间(帧)级别的同步，而忽略了片段整体上的匹配与否。针对这种情况，我们专注于分析视听觉事件完全不受约束的片段，在这些片段中某类事件在音频(可听)与视频(可看)不一定同时存在。我们提供了一个视频增强音频集(VEBA)来分析此类不匹配的情况，其中包括了376种事件类型。据我们所知，这是首次对事件在片段级别音视频模态不匹配时对时间进行检测与解析的方法。实验表明，我们提出的方法在很大程度上提高了视频模态中事件解析与检测的准确性。不仅如此，在我们的VEBA数据集上训练的模型可以为准确定位不同模态事件的开始结束时间提供帮助，并为后续多模态任务提供基础。

1.介绍

听觉和视觉线索通常是互补的，它们通常会在一段时间内共存。一方面，音频可以辅助传统计算机视觉任务中的视频模态，包括动作识别和视频问答。音频信息提供了识别动作或场景的关键信息，从而导致更好的系统性能。另一方面，视觉信息(图像和视频)证明有助于传统的语音和音频处理任务，如音频标记、源分离和说话人验证。引入视觉信息使系统能够更好地识别声音事件或语音。

除了上面提到的工作，其中一种模态经常用于辅助另一种模态，还努力深入研究两种模态之间的联系和差异。然而，视觉和听觉描述系统本质上是不同的，因为它们属于不同的感官，这导致视听(AV)事件有两个层次的不匹配，片段级共存和帧级共现。片段级共存事件出现在单个片段的音频和视觉模态中，而帧级同步事件在两种模态中同时发生。如图3所示，“Speech”仅出现在音频模态中，而“Vehicle”同时出现在两种模态中。这里，由于时间跨度不同，“车辆”的AV失配是帧级的；但是，“语音”是片段级别的不匹配AV事件。

大多数先前的AV多模式作品都集中在后一种情况，即研究帧级AV交互。视听事件检测(AVE)侧重于帧级(AVP)提出的任务是通过分别检测纯音频、纯视频和视听事件来解开帧级异步场景。考虑到帧不匹配，AVP数据集选择在两种模式中都存在的事件，仅限于25个预定义事件。然而，AV不匹配不仅存在于时间跨度上，也存在于片段级别。通常，帧级同步表示片段级同步。然而，片段级别的不匹配会导致进一步的混淆，这在现实生活中的各种事件中广泛发生。例如，许多纪录片在音频通道中有画外音，图像中没有人。这样，这种标签不匹配现象极大地限制了视听研究，但很少被研究。

图3示出了事件模态片段级别不匹配的示例。其中，中英文对照如下：Speech:语音，Vehicle:车辆，Audio：声音，Video：视频图像，Audible：事件可听时间段，Visible：事件可听&可见时间段，Audio-Visual:视频可听&可见时间段。

图3示出了事件模态片段级别不匹配的示例。在片段中可以看到和听到车辆，而我们看不到，只能听到人们在背景中说话和欢呼。在这里，车辆是帧级AV不匹配事件，而语音是片段级不匹配事件，无法被先前的解析网络处理。

我们创新地考虑了片段级别的AV不匹配，并对完全不受约束的数据进行了AV事件解析和检测。可以检测到多达376个AV事件，大大超过了以前的AV数据集。提供了视频增强平衡音频集(VEBA)数据集，将片段方式视频存在标签添加到现有的弱标记声音事件数据集。与之前的视听任务相比，我们的研究能够在真实场景中检测纯音频、纯视频和视听事件(AVE，完全同步事件)。实验表明，使用额外的视频参考标签，在视频事件和AVE检测中在标记和检测方面都实现了更高的精度。对域外数据集AVE的分析表明，我们的系统可以自动筛选和检测同步的视听事件，这可能会进一步帮助研究其他需要同时性的视听任务。

在片段中可以看到和听到车辆，而我们只能听到人们在背景中说话和欢呼，却看不到人。这里，车辆是帧级AV不匹配事件，而语音(人)是片段级不匹配，不能被先前所提出的解析网络处理。

2.VEBA：视频增强平衡音频集数据集

在本节中，我们提供有关VEBA选择、标记程序以及与以前数据集比较的详细信息。我们选择音频事件数据集作为我们的起点，因为定义的音频事件(即Audioset中的527)比视觉事件/对象(即UCF-101中的101类)要多得多。并采用合并和选择策略来确保每个事件在两种模式中都有充足的样本。例如，Audioset中的许多事件子类别非常相似，需要专业知识来加以区分。我们将子类别合并到它们的父节点中。最终得到376个事件，这是原始527类标签的子集。我们从平衡的Audioset(最初包含)中获取视频(伴随着相应的音频)，并为视频模态提供片段级别的弱注释。邀请注释者标记每个音频事件的视频存在，即该事件是否发生在视频中。我们希望地面实况标签中的这种补充将帮助系统更好地学习对齐以及模式之间的不匹配。Audioset片段的原始弱标签证明了音频模态中标记事件的存在，或者换句话说，该事件在原音频中可以被听到。但是，在这些Youtube来源的原生视频中，这个事件是否可以被看见就不得而知了；因此当前的视频侧是否存在的标签就尤为重要。例如，对于带有原始标签“语音、音乐和车辆”的视频片段。根据原始的Audioset标签，我们可以确定所有三个事件都是可听见的。通过为视频模态中三个事件的存在提供真/假标签，我们获得了每个事件的弱标记AV状态。最后，VEBA包含18,765个带有相应音频的视频片段。总共包含376个事件标签，获得了36,203个音频事件和17,742个视频事件。选择来自Audioset评估集中的2k个视频作为我们的测试集，我们分别以一秒的时间分辨率注释音频和视觉模态中事件的开始和偏移。我们将大约10％的片段(精确到1600个)拆分为VEBA验证集，因此训练集中的片段数量为15,278。VEBA数据集的最终数据分布见表1。

图4示出了本申请实施例的表1的截图，表1表征了VEBA数据集中的数据汇总，包括训练、验证、测试集和标签计数(音频和视觉)的详细片段分布。其中，中英文对照：Split:数据集分布，Clips：片段数量，Weak labels：弱标签数量，On-offset pairs:开始结束强数据对数量，Train：训练集，Val：验证集，Test：测试集，Total：总和。

VEBA中弱音频和视频标签的简要总结如图5所示。横轴是一个事件类别的音频标签的数量，而纵轴是一个事件类别的视频标签的数量。图中的水平-垂直位置显示了事件在VEBA数据集中的频率。例如，“音乐”和“语音”出现的次数最多，而“铃声”和“回声”出现的次数最少。事件的颜色表示一个事件的视频标签数和音频标签数的比例。蓝色事件更倾向于“看到”，而红色事件通常“听到”。前三名可见事件是“吸尘器”、“搅拌机”和“喷雾”，而前三名可听事件是“扑通”、“叮当声”和“回声”，这与常识是一致的。

图5示出了Audioset平衡数据集中的弱标签摘要。其中，中英文对照：Audio：声音，Video：视频图像。

每个点代表我们VEBA数据集中的一个事件。横轴表示音频标签中出现的事件数，纵轴表示视频标签中出现的事件数。事件的颜色代表该事件能看到的片段数量和能被听到的片段数量的比例。

图6示出了本申请实施例表2的截图。表2表征了本申请实施例的VEBA数据集与之前的视听数据集之间的比较。AV-M(Mismatch)表示数据集是否包含片段中不匹配的音频和视频事件。其中，中英文对照如下：Dataset:数据集，Clips：片段数量，Events included：包含事件种类，AV-M：是否存在片段级别不匹配，VEBA Dataset就是本申请提供的数据集。

表2显示了我们的VEBA数据集与以前的视听事件数据集(例如LLP数据集和AVE数据集)之间的比较。如上所述，这些数据集表现出某些限制，侧重于在音频和视觉模式中同时发生的事件。AVE中的事件数为28个，LLP中为25个，与现实生活中的视听事件数相差甚远。为了更好地促进现实生活中的视听事件解析研究，我们提供了多达376个事件类别，其中包括帧级和片段级不匹配情况。

3.视听解析模型

为了预测不同模态中事件的发生和开始结束时间，我们使用图3所示的解析模型从音频和视频中学习模态对齐。整个框架解释如下：1)单个单模态特征提取器和编码器；2)结合信息和利用多模态上下文的混合注意力网络；3)注意力集中以及训练使用的损失函数。

单模态特征提取器和编码器为了更好地捕获模态特征，我们使用预训练网络从音频和视频中提取特征。至于音频，我们使用基于CDur的名为L-CDur的卷积循环神经网络(CRNN)。它在Audioset的不平衡(≈5000h)子集上进行训练。我们移除模型的最后一层以提取音频特征。关于视频，我们使用了Efficientnet-b6和3D Resnet的组合特征，在Imagenet和Kinetics上进行了预训练。我们将两个视频特征转换为相同的维度(512)并将它们连接起来。添加了一个全连接(FC)层以将来自不同模态的特征投影到相同的大小。我们进一步使用基于多头自注意力的编码器来更好地学习两种模式中的顺序信息。

混合注意力网络在从音频和视频中获得独立信息后，我们努力将两种模式的信息结合起来。我们使用具有自我注意和跨模态注意的混合注意网络。这种混合注意力网络(HAN)可以自适应地学习每个音频或视频片段要注意的模式。

图2示出了本申请的视听网络的整体结构。

对于输入片段，我们使用预训练过的单模态提取器和编码器分别提取音频和视频特征。然后混合注意力模块结合信息并利用多模态上下文。注意力集中用于预测音频、视频和视听模式中事件的单个输出。损失是计算弱基准标签和预测标签之间的距离。

注意力池化计算

HAN的输出是音频和视频的时间聚合嵌入。经过一个共享的FC层和一个sigmoid函数，就得到了每个事件的视听概率。

音频和视频片段级别概率p_a和p_v通过沿时间轴对帧级别概率p^t _a/v求和来估计。为了预测片段级别的视听事件概率

，使用了注意力池化来判断每个时刻哪种模态更值得信赖：

其中⊙是逐元素乘法，m是模态索引，对于音频和视频模态，M在这里等于2。W_tp和W_av是从

计算得到的时间和视听注意力，P是根据

和

的串联计算得出的。

损失函数

如第2节所示，音频和视频弱标签都可用于训练。我们将音频地面实况标签表示为y_a，将视频地面实况标签表示为y_v。请注意，根据我们的标签规则，给定片段的所有视频事件标签都包含在其音频事件标签中。我们的视听地面实况标签也是y_v。我们模型的目标是优化以下损失：

4.实验和分析

4.1.实验装置

数据准备

如第2节所述，我们的训练集包括16,878个带有相应音频的视频片段。我们的音频特征提取器将log-mel频谱作为输入，与CDur的配置相同。系统配置我们以8fps的采样率对视频进行采样，因此将10秒长的视频分为80帧图像。提取的音频和视频特征(从L-CDur、Efficient-b6和3D Resnet)都转换为512-D，以保持两种模态的时间一致性。Adam优化器用于训练系统，初始学习率为2e-4，每20轮后衰减为0.1。我们选择在验证集上的视频和视听标记中具有最佳准确率(model with the best accuracy，mAP)的模型作为我们的最终模型。

评估指标

根据之前的解析工作，对于所有三种模式(音频、视频和视听)，我们评估了片段级事件标记和时间级事件检测的性能。对于标记，我们计算平均精度(mAP)，而对于检测，我们计算段级和事件级指标(F分数)。

4.2.结果

比较方法

我们提供了一个基线，其中片段级别的不匹配被忽略(忽略图2中虚线框中的结构)，因为之前的AV研究通常假设AV共存并结合来自音频和视频的信息。在这里，模型输出被视为音频、视频和视听的统一表示。田等人是首先提出AVP来解开异步AV事件的工作，因此作为另一种比较方法。我们包括此比较以表明除了帧级同步之外，片段级不匹配在AV解析中也起着重要作用。

标记性能如表3所示，在训练中提供额外的视觉模态事件标签可提高视频和视听事件标记性能，两种模态的平均精度分别提高2.7％和3.2％。音频标记性能不受影响。高标记精度表明我们的模型在区分片段级事件不匹配和同步方面的有效性。

事件检测性能

事件检测性能音频、视频和视听的起始和偏移检测结果见表4。与事件标记结果类似，我们的模型在事件解析任务中取得了明显更好的结果，尤其是在音频和视听模态方面，增幅最大为21.3％(从18.3到39.6)，相对提高了116.39％在视频事件检测中的事件级F-score。更高的事件检测精度表明，通过考虑片段级别的不匹配，帧级别的同步性能大大提高。

图7示出了本申请实施例的表3的截图，表征了本申请实施例提出的模型与其他方法的事件预测性能对比。其中，中英文对照如下：Cconfig:配置，Tagging：标签标定meanaverage precision，Baseline：基准线。Tian：Tian提出的方法，Ours：我们提出的方法(本申请实施例提出的方法)，Audio：声音，Video：视频图像，Audio-Visual:视频可听&可见时间段。

图8示出了AVE数据集视频中我们的视听解析结果的可视化示例。其中，中英文对照如下：Speech:语音，Vehicle:车辆，Audio：声音，Video：视频图像，Audible：事件可听时间段，Visible：事件可听&可见时间段，Audio-Visual:视频可听&可见时间段。

这个片段的原始事件标签是0-10秒的“尤克里里”。然而，视频中的男人只会弹奏尤克里里琴，从0秒到6秒左右。当男人拿着乐器站起来时，人群开始欢呼和喊叫。由于我们将“Music”的所有子代都归类为“Music”，因此我们的模型显示“Music”发生在视听中的0-5秒，并且仅在其余时间可见，这是比原始AVE标签更精确的注释。

图9示出了本申请实施例表4的截图，与其他方法相比的视听解析(或事件检测)性能。其中，中英文对照如下：Segment-level acc：片段级别的开始结束时间预测准确率，Event-level acc：时间级别的开始结束时间预测准确率。

4.3.分析

为了进一步说明数据集中超弱视频事件标签的影响，我们改变了所用视频标签的比例。当仅使用部分视频标签时，我们随机选择一定比例的视频并为其提供新注释的视频标签。对于未选择的片段，我们使用原始音频事件标签作为视频事件标签，与原始Audioset相同。结果如图5所示，注意我们只选择了视听F-score进行演示。当我们将使用的视频标签从20％改变到100％时，视频和视听模式中事件解析的段级和事件级F分数都有稳步提高。

进一步应用

除了评估我们的模型在VEBA上的性能外，我们还将我们的模型应用于其他视听数据集，如AVE。如前所述，理论上，AVE数据集中标记的所有事件在音频和视频中同时发生。但是，原始视听事件标签之间仍然存在帧级不匹配。图8中显示的示例充分说明了我们的模型在视听解析方面的有效性以及区分音频和视频模式之间不匹配(片段级别和帧级别)的能力。

进一步的应用可能包括对现有数据集中的视听事件标签进行精细修改，或者从野外视频中检测和选择同步的视听片段以供未来预训练。演示可在线获取。

图10，随着我们将使用的弱视频标签的比例从20％改变到100％，事件解析的段级和事件级F分数(F-score)稳步增加，显示了本申请实施例的数据对视听解析的有效性。其中，中英文对照如下：Video weak labels proportion：弱标签使用比例，Segment-levelacc：片段级别的开始结束时间预测准确率，Event-level acc：时间级别的开始结束时间预测准确率。

5.结论

在这项工作中，我们进一步研究了视听解析任务，并专注于实际事件的帧级和片段级不匹配。我们丰富了包含的AV事件种类的数量(25→376)，并在我们提出的VEBA数据集中提供了额外的视频弱事件标签，我们在该数据集中训练和评估了AV解析模型的性能。考虑到片段级别的不匹配，不仅可以让AV解析来自完全未经筛选的原始数据更多的事件，而且还可以显着提高帧级别的起止时间估计。与之前的工作相比，我们的模型在视频和视听模式中的事件标记(片段级别)和检测(片段级别和事件级别)方面都取得了更好的性能。进一步的应用可能包括改进视听标签和选择野外视频中的同步事件片段。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的事件检测模型训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

使用音频处理模型对所述音频数据集中的音频进行特征提取得到音频特征；

使用视频处理模型对所述音频数据集中的视频进行特征提取得到视频特征；

采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据事件检测模型训练方法和系统的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至事件检测模型训练方法。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项事件检测模型训练方法。

图11是本发明实施例提供的电子设备的结构示意图，如图11所示，该设备包括：一个或多个处理器1110以及存储器1120，图11中以一个处理器1110为例。事件检测模型训练方法和系统的设备还可以包括：输入装置1130和输出装置1140。处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接，图11中以通过总线连接为例。存储器1120为上述的非易失性计算机可读存储介质。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例事件检测模型训练方法和系统。输入装置1130可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1140可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于事件检测模型训练方法中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种事件检测模型训练方法，其中，对音频数据集额外进行视频标注，所述方法包括：

2.根据权利要求1所述的方法，还包括：

使用注意力池化机制将所述音频事件预测、所述视频事件预测映射至视觉、听觉和视听觉三种模态中；

将所述三种模态下的预测结果分别与对应的原标签进行比较得到综合损失函数；

基于所述综合损失函数对所述事件检测模型进行训练。

3.根据权利要求2所述的方法，其中，所述对音频数据集额外进行视频标注得到视频标签和音视频标签，所述将所述三种模态下的预测结果分别与对应的原标签进行比较得到综合损失函数包括：

将映射后的音频事件预测结果与对应的音频标签进行比较得到音频损失函数；

将映射后的视频事件预测结果与对应的视频标签进行比较得到视频损失函数；

将映射后的音视频事件预测结果与对应的音视频标签进行比较得到音视频损失函数；

基于所述音频损失函数、视频损失函数和所述音视频损失函数得到综合损失函数。

4.根据权利要求3所述的方法，其中，所述综合损失函数为所述三种模态的预测结果与对应标签的距离之和。

5.根据权利要求1所述的方法，其中，所述采用以attention为基础的模型对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测包括：

分别使用以self-attention为基础的单模态编码器对所述音频特征和所述视频特征进行信息归纳；

使用以cross-attention为基础的混合attention网络对音频和视频不同时间归纳的信息进行整合，分别独立输出音频事件预测和视频事件预测。

6.根据权利要求1-5中任一项所述的方法，其中，所述音频处理模型为预训练的L-Cdur，所述视频处理模型为Efficient-b6和3D Resnet。

7.一种事件检测系统，包括：

音频处理模型，配置为对音频数据集中的音频进行特征提取得到音频特征；

视频处理模型，配置为对所述音频数据集中的视频进行特征提取得到视频特征，其中所述音频数据集中额外进行了视频标注；

以attention为基础的融合输出模型，配置为对所述音频特征和所述视频特征进行整合，分别独立输出音频事件预测和视频事件预测。

8.根据权利要求7所述的系统，其中，所述以attention为基础的融合输出模型包括配置为：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。