CN115861879A

CN115861879A - 基于事件一致性的视听事件检测方法及装置

Info

Publication number: CN115861879A
Application number: CN202211490319.8A
Authority: CN
Inventors: 尹建芹; 蒋圆圆; 党永浩; 孙源
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-28

Abstract

本发明提出一种基于事件一致性的视听事件检测方法,包括：获取目标视频；将目标视频划分为N个不重叠的连续片段，获取图像流和音频流；对图像流和音频流进行特征提取，获取视听特征；通过视听联合学习将视听特征融合，其中，视听联合学习包括片段层面的特征编码以及视频层面的语义指导；将融合后的视听特征输入分类器中，得到目标视频的预测结果。本发明的方法利用事件的语义一致性来分别指导视觉和听觉模态的学习，可以确保模型更好地聚焦和定位发声对象。

Description

基于事件一致性的视听事件检测方法及装置

技术领域

本发明涉及计算机视觉、智能视频分析技术领域。

背景技术

视听事件定位任务自提出以来吸引了越来越多的业界关注。

许多方法已经被提出用于视听事件的定位。早期的模型主要集中在挖掘模态之间的互补性和融合跨模态的特征。他们通过利用跨模态的注意力来调对齐来自音频和图像两个模态信息。然而，由于背景类片段不能被有效识别，其性能较差。在此基础上，目前的一些方法致力于过滤掉未配对的样本(即背景片段)，因为视频中的音频和视觉内容并不总是匹配的。他们采用正样本对对传播或背景抑制的方案，大大增加了背景片段和包含视听事件片段之间的区别。然而，他们忽略了同一完整视频中事件的语义一致性(可视为事件的视频级表示)。在同一视频中，视听事件往往属于语义上相似或相同的类别。因此，具有鉴别性语义的事件的视频级表示可以协助对剩余片段进行类别识别。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于事件一致性的视听事件检测方法，用于利用事件的语义一致性来分别指导视觉和听觉模态的学习。

为达上述目的，本发明第一方面实施例提出了一种基于事件一致性的视听事件检测方法，包括：

获取目标视频；将所述目标视频划分为N个不重叠的连续片段，获取图像流和音频流；

对所述图像流和音频流进行特征提取，获取视听特征；

通过视听联合学习将所述视听特征融合，其中，所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导；

将融合后的视听特征输入分类器中，得到所述目标视频的预测结果。

另外，根据本发明上述实施例的一种基于事件一致性的视听事件检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述片段层面的特征编码，包括：

通过音频引导的视觉注意力模块进行视听特征的早期融合；

通过使用单层Bi-LSTM完成对早期融合视听特征的初始时序建模；

利用正样本传播模块，去除初始时序建模中相似度较弱的音频和图像样本，获取片段层面编码的特征。

进一步地，在本发明的一个实施例中，所述视频层面的语义指导，包括：

通过跨模态事件表征提取器对所述片段层面编码的特征进行视频层面的视听事件表征提取，利用视听融合后的事件语义表征指导进行语义一致性建模。

进一步地，在本发明的一个实施例中，所述分类器的目标函数全监督下的背景类筛选损失包括类别损失和背景损失，即：

其中，

是网络输出O_c和真值标签Y_tc的交叉熵损失，

指网络输出O_t和二值背景标签Y_t1的二分类交叉熵损失，

计算l₁归一化相似度向量S和l₁归一化背景标签Y_t2之间的均方误差。

进一步地，在本发明的一个实施例中，所述分类器的目标函数弱监督下的片段间平滑损失，表示为：

其中，S是一个SoftMax函数，

表示视频级事件的类别标签，通过使用两次SoftMax函数，在C个事件类别上生成一个更平滑的概率分布

为达上述目的，本发明第二方面实施例提出了一种基于事件一致性的视听事件检测装置，包括：

获取模块，用于获取目标视频；将所述目标视频划分为N个不重叠的连续片段，获取图像流和音频流；

提取模块，用于对所述图像流和音频流进行特征提取，获取视听特征；

融合模块，用于通过视听联合学习将所述视听特征融合，其中，所述视听联合学习包括片段层面的特征编码以及视频层面的语义指导；

分类模块，用于将融合后的视听特征输入分类器中，得到所述目标视频的预测结果。

进一步地，在本发明的一个实施例中，所述融合模块还包括片段层面模块，用于：

通过音频引导的视觉注意力模块进行视听特征的早期融合；

进一步地，在本发明的一个实施例中，所述融合模块还包括视频层面模块，用于：

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的基于事件一致性的视听事件检测方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的基于事件一致性的视听事件检测方法。

本发明实施例的基于事件一致性的视听事件检测方法，一方面提出了一个事件语义一致性建模(ESCM)模块，可以提取视频级的事件语义表征来同时指导听觉和视觉特征的语义连续性建模。第二方面分别在全监督和弱监督的设置中提出了新的背景类筛选损失函数和片段间平滑损失，这两种损失使得ESCM在每种设置下都能进一步提高对不同视听对的区分度。第三方面提出了一个视频级语义一致性指导网络。实验结果表明，我们的方法在AVE数据集的完全和弱监督任务中都优于最先进的方法。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的基于事件一致性的视听事件检测方法的流程示意图。

图2为本发明实施例提供的视频级语义一致性指导网络示意图。

图3为本发明实施例提供的基于事件一致性的视听事件检测装置的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于事件一致性的视听事件检测方法。

图1为本发明实施例所提供的一种基于事件一致性的视听事件检测方法的流程示意图。

如图1所示，该基于事件一致性的视听事件检测方法包括以下步骤：

S101：获取目标视频；将目标视频划分为N个不重叠的连续片段，获取图像流和音频流；

视听事件定位首先需要定位视听内容匹配的片段，然后识别具体的事件类别。具体来说，给定的视频S被分为T个不重叠的连续片段

(t代表片段的时序索引)，其中每个片段通常长为1秒(与人类对时间界线的分辨率相匹配)。视听事件定位将预训练模型所提取的视听特征

作为输入。模型需要预测出每个片段的事件标签为

这里，C是视听事件的总类别数(包括背景类，即视听内容冲突的片段)。在全监督的设置中，每个片段的类别标签在训练阶段是可见的，单个视频的标签表示为

与全监督不同，在弱监督设置中，我们只能获得视频级的标签Y^weakly，其中

是Y^fully在时间维度上的均值。

如图2为本发明提出的视频级语义一致性指导网络。(a)部分为模型的主要框架。视听联合学习由两部分组成：由音频引导的视觉注意力、LSTM和PSP[24]组成的片段级编码过程，以及我们提出的事件语义一致性建模模块。(b)部分为跨模态语义一致性提取模块的说明。我们利用一维卷积网络来聚合事件的在时间维度上的片段信息，以获得事件的视频级语义表示。(c)部分为ESCM模块的图示，注意图示的CERE模块是在音频和视觉模态之间共享的。

本发明的结构包括特征提取、视听联合学习和预测。视听联合学习是我们提出的模型的重要组成部分，它包括两个步骤：片段层面的特征编码和通过事件语义一致性建模(ESCM)模块实现的视频层面的语义指导。片段层面的特征编码包括初始的特征融合和背景筛选。本文所提出的ESCM模块则增加了视频层面上不同事件特征之间的区别，并根据先验知识对事件在时间维度上的发展进行建模。最终，由ESCM建模的视听特征被融合，然后被送入最终的分类模块，预测哪些视频片段包含视听事件以及事件类别。

S102：对图像流和音频流进行特征提取，获取视听特征；

本发明直接将AGVA和PSP用于视听双模态的的早期融合和编码。首先，在编码模块中，音频引导的视觉注意力(AGVA)模块被用来进行视听信息的早期融合，使模型关注于与对应的音频片段相关性较高的视觉区域。然后，通过使用单层Bi-LSTM完成初始的时序建模，得到

接下来，我们利用正样本传播模块(PSP)，通过去除相似度较弱的音频和图像样本来增强对特征的片段层面的编码。这样，视听特征分别与正相关的另一模态片段聚合在一起，得到片段层面编码的特征

通过对经过PSP模块后的

进行投影和规一化。每个投影归一化块由线性投影层、ReLU函数、丢弃率为r_p的dropout层以及层归一化层组成。

S103：通过视听联合学习将视听特征融合，其中，视听联合学习包括片段层面的特征编码以及视频层面的语义指导；

进一步地，在本发明的一个实施例中，片段层面的特征编码，包括：

通过音频引导的视觉注意力模块进行视听特征的早期融合；

作为典型的自然信号，听觉和视觉特征都有一定的冗余和噪音，对另一模态来说是无用甚至是误导的。因此，解决这个问题的关键是使模型专注于语义分辨性高的视频级事件的关键特征。

ESCM模块将事件的连续性与统一性考虑在内，并进一步利用视频层面的视听事件表征来对片段级编码后特征进行语义一致性建模。首先，视频级的事件的视觉与听觉语义表征分别由跨模态事件表征提取器提取。其次，为了建模鲁棒性强的事件特征，模态内语义一致性增强器利用视听融合后的事件语义表征来指导每个模态内的时序建模。

大多数现有的方法对每个片段进行编码以获得片段级的预测，而忽略了事件在视频层面的语义一致性。与以前的方法不同，我们提出了一个跨模态事件表征提取器(CERE)，以获得具有鉴别性语义的视频级事件表征，如图2所示。

听觉分支和视觉分支里的CERE均由两个连续CNN块组成。为简便说明，以视觉分支为例。首先对片段级编码后的视觉特征

进行转置，转置后的

的每一列为一个视频片段的特征。CERE将转置后的视觉特征作为输入，为了随后可以在时间维度而不是特征维度上对进行操作。经过CERE模块后，我们将得到由显著特征主导的视频级的视觉事件表征，可以抽象出整个视频的视觉语义。具体来说，对于一个CNN块，我们采用卷积核大小为T/2(视频时长为T秒)的一维卷积网络在时间维度上对

进行卷积，然后用最大池化进行降采样以获得最具代表性的视觉特征，其携带着高分辨率的视频级事件语义信息。另外，为了获得跨模态同步的视听事件表征，我们使用了两个完全相同的CERE模块来分别提取视频级的听觉事件表征和视觉事件表征。这样一来，具有更具代表性视频级语义的模态可以直接影响另一模态的表征学习，而时间维度上的卷积保证了听觉和视觉事件的同步性。共享的CERE模块还能将输入的听觉和视觉特征同步映射到一个统一的特征空间，以确保来自不同模态的特征的有效融合。经过CERE，我们得到了视频级的音频事件表示

以及视频级的视觉事件表示

计算公式如下：

CNN_Block＝MAX(δ(K*f))，

其中，f是指模型中的

或

K是可学习的核参数，核大小为T/2(输出通道的维度为d_e)，*表示卷积运算，δ是ReLU激活函数，MAX表示沿时间维度的最大池化运算。注意，音频和视觉分支共享相同的CNN块，具有相同的学习参数，我们认为这有助于学习属于跨模态时序同步的视听事件语义表征，而不是学习在不同时间步上各自显著的单模态事件，从而保证学习到的a^event和a^event在语义上的互补性。

进一步地，在本发明的一个实施例中，视频层面的语义指导，包括：

通过跨模态事件表征提取器对片段层面编码的特征进行视频层面的视听事件表征提取，利用视听融合后的事件语义表征指导进行语义一致性建模。

自然环境中事件往往具有视听一致性和互补性。由于两个CERE之间的参数共享，我们可以将提取的听觉事件表征a^event和视觉事件表征a^event融合起来，得到时序同步的视频级视听事件表征，它携带了视频的完整视听语义。然后，ISCE将视听事件表征作为不同模态的共同指导，而不是独立地指导其自身模态特征的建模。如图2所示，首先我们将CERE提取的a^event和a^event进行融合，得到视听事件最终的视频级语义表示

其中包含两种模态的信息，其公式为：

在ISCE模块中，我们将利用两个独立的GRU，将a^seg，v^seg作为输入，分别对每种模态内事件的语义一致性进行建模。对于时间步骤t的输入特征向量F_t，GRU会更新隐藏状态向量h_t和存储单元状态向量c_t，如下所示：

h_t，c_t＝GRU_cell(F_t，h_t-1，c_t-1)，

通常来说，大多数方法将GRU的隐藏状态向量h₀初始化为零，以表示序列的开始，导致模型对每个序列的初始片段进行平等处理，那么事件的关键特征在开始时就会受到一定程度的抑制。然而，对于AVE任务来说，在时间维度上同一类型的事件有着类似的发展规律，即语义连续性上。换句话说，相同或类似事件的视觉和听觉特征分别沿着时间有类似的变化。例如，当我们在观察“直升机向我们飞来”(视频级事件)时，画面中的直升机由小变大，我们听到的声音也由弱变强，无论是什么类型的飞行器总遵循这样的变化规律。因此，事件的语义信息可以指导时间维度上的视觉和听觉特征的学习。

在时间建模中引入先验信息。基于上述观察，我们提出ISCE模块，利用视频级事件的语义表示AV^event作为先验知识。具体来说，我们将AV^event作为两个独立的GRU的共同初始隐藏状态，以指导模型基于经验在时间维度上对视听特征变化进行建模。通过这种方式，GRU可以关注与视频级事件在语义上一致的重要特征，而不是在初始阶段无差别地对待每个特征。此外，AV^event包括事件的视觉和听觉信息。因此，在对视觉(听觉)特征的时间变化进行建模时，听觉(视觉)特征可以作为补充信息，协助模型学习更稳健的语义连续的视觉(音频)表示。最终的特征计算公式如下：

a^ISCE＝GRU(a^seg，h_a)，

v^ISCE＝GRU(v^seg，h_v)，

h_a＝h_v＝AV^event，

其中，

和

是最终的视频表征，其既包含视频层面的判别语义特征，又包含片段层面的清晰时间边界。我们采用的是单层的双向GRU，其中，d_s等于2d_p。

同样，我们将得到的α^ISCE和v^ISCE分别送入投影归一化块，然后进行后期融合，具体操作如下：

其中，

表示线性层中的可学习参数，δ为ReLU激活函数，D表示丢弃率为r_g的Dropout层，

表示层归一化。输出

可以为后续的分类模块提供更具区分度的特征，因为ISCE关注了视频层面上的事件的判别语义，且更好地建模了其变化规律。

S104：将融合后的视听特征输入分类器中，得到目标视频的预测结果。

本发明将全监督下的视听事件定位任务分解为两个子任务。首先，根据事件相关得分

预测该片段是否包含视听事件，即判断是否为背景类。然后，另一个根据事件类别标签

来预测事件的类别。具体来说，O_t和O_c可以由下式得到：

其中，

是线性层里的可学习参数，

代表Squeeze，

为

沿行的最大值。因为事件类别共有C类包括一个背景类，我们根据O_t的值来确定第t个视频片段是否包含视听事件，即是否属于背景。因此，我们只需要预测C-1类视听事件而不是C类事件。

此外，我们计算每个片段的视觉特征v^ISCE和音频特征a^lSCE之间的l₁归一化相似度向量

它将视听对相似度损失

优化，它鼓励ESCM模块在时间建模时保持片段级的视听相关性。在训练过程中，我们同时获得由注释提供的片段级对应的事件类别

和完全监督设置的背景标签

(这里Y_t2为Y_t1进行l₁归一化后的结果)。因此，总体目标函数背景类筛选损失包括类别损失和背景损失。

进一步地，在本发明的一个实施例中，分类器的目标函数全监督下的背景类筛选损失包括类别损失和背景损失，即：

其中，

是网络输出O_c和真值标签Y_tc的交叉熵损失，

指网络输出O_t和二值背景标签Y_t1的二分类交叉熵损失，

由于

由

和

组成，鼓励模型增加正样本对(即包视听事件的前景类)和负样本对(即背景类)之间的差距，背景类筛选损失

允许更好地利用片段级编码模块从而优化整个网络。在推理阶段，通常来说背景片段的事件相关分数较小，所以我们简单地采用阈值法来滤除掉背景。具体来说，我们设置了一个阈值τ_b，如果O_t＞τ_b，那么第t个视频段被预测为O_c个前景类。否则，第t个视频段就被归类为背景。我们将O_c设置为0.7而不是0.5，因为我们所采用的PSP模块已经增强了包含视听事件片段的特征。

对于弱监督设置，由于训练期间只有事件类别标签可用，我们只预测事件类别标签

我们在弱监督分类模块上采用了一个加权分支，使该模型能够突出属于不同事件类别的视听对之间的差异。该过程表示如下：

其中，

是线性层里的可学习参数，

表示推理阶段的最终预测结果。

对视频时序片段的重要性进行加权，

是通过对φ进行C次复制得到的，是元素乘法，p_avg是沿时间维度的平均运算，s代表一个SoftMax函数。输出

代表视频级别视听事件。

目标函数采用片段间平滑损失，具体由二元交叉熵(BCE)损失实现。

进一步地，在本发明的一个实施例中，分类器的目标函数弱监督下的片段间平滑损失，表示为：

其中，S是一个SoftMax函数，

这将促进模型在弱监督环境下捕获更多高鉴别性特征。具体来说为，通过在推理阶段引入鉴别性较低类别输出作为判断依据，从而促使模型在训练阶段进一步增加不同类别事件的差距。

本发明实施例的基于事件一致性的视听事件检测方法，一方面提出了一个事件语义一致性建模(ESCM)模块，可以提取视频级的事件语义表征来同时指导听觉和视觉特征的语义连续性建模。第二方面分别在全监督和弱监督的设置中提出了新的背景类筛选损失函数和片段间平滑损失，这两种损失使得ESCM在每种设置下都能进一步提高对不同视听对的区分度。第三方面提出了一个视频级语义一致性指导网络。本发明将视听事件检测分为两个步骤：1)判断该片段是否存在视听事件，若不存在则为背景类2)识别该片段具体的视听事件的类别。并且本发明区别于其他方法的地方在于视频层面的语义引导，而非片段层面的特征编码。实验结果表明，我们的方法在AVE数据集的完全和弱监督任务中都优于最先进的方法。

图3为本发明实施例提供的一种基于事件一致性的视听事件检测装置的结构示意图。

如图3所示，该基于事件一致性的视听事件检测装置包括：获取模块100，提取模块200，融合模块300，分类模块400，其中，

获取模块，用于获取目标视频；将目标视频划分为N个不重叠的连续片段，获取图像流和音频流；

提取模块，用于对图像流和音频流进行特征提取，获取视听特征；

融合模块，用于通过视听联合学习将视听特征融合，其中，视听联合学习包括片段层面的特征编码以及视频层面的语义指导；

分类模块，用于将融合后的视听特征输入分类器中，得到目标视频的预测结果。

进一步地，在本发明的一个实施例中，融合模块还包括片段层面模块，用于：

通过音频引导的视觉注意力模块进行视听特征的早期融合；

进一步地，在本发明的一个实施例中，融合模块还包括视频层面模块，用于：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。