CN117115906A

CN117115906A - 一种基于上下文聚合和边界生成的时序行为检测方法

Info

Publication number: CN117115906A
Application number: CN202311004570.3A
Authority: CN
Inventors: 潘晓英; 张妮娟; 王昊; 王贝贝
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-11-24

Abstract

本发明属于计算机视觉和模式识别技术领域，具体涉及一种基于上下文聚合和边界生成的时序行为检测方法。本发明设计了一个多路径时序上下文特征聚合模块，用于有效的聚合长期和短期时间上下文信息，从而增强行为事件的上下文表示。其次，为了生成精确的行为边界，本发明设计了一个多分支时间边界检测器，利用两个边界检测器之间的互补关系优化预测结果。此外，为了准确预测密集分布提名的置信度，本发明设计了一个提名关系感知模块，利用全局相关性进行提名关系建模，增强了提名上下文的表达性和鲁棒性。本发明对于持续时间长和持续时间短的视频都能有效检测，可实现对行为边界的高召回率和高精度捕捉。

Description

一种基于上下文聚合和边界生成的时序行为检测方法

技术领域

本发明属于计算机视觉和模式识别技术领域，具体涉及一种基于上下文聚合和边界生成的时序行为检测方法。

背景技术

近年来，随着科技与互联网的发展，人们通过视频传递信息变得越来越普遍，通过手机、电脑、监控都能够方便快速的录制视频，使得视频的数量呈现出爆炸式的增长趋势。因此，如何从海量视频中准确挖掘到所需要的信息成为当前视频理解的重要问题。时序行为检测任务的目的是在原始视频中定位出人们感兴趣的行为时间边界，并对该动作进行分类。该项技术可以广泛应用于视频监控、视频搜索与检索、自动驾驶、人机交互、视频内容推荐等，具有极大的研究意义和极高的实用价值。在社会安全方面，时序行为检测技术可以自动检测异常行为片段，使得能够及时发现并制止，减少人员伤亡和社会财产损失，大大减少警察工作量并提高效率。在视频检索方面，时序行为检测技术可以从海量视频中找到特定行为，智能生成精彩内容集锦，提高用户体验。此外，在互联网上每天都有海量视频被上传或转发，时序行为检测可以自动检索出暴力视频并及时删除，恢复和净化网络环境，避免未成年人被误导。

时序行为检测方法分为两个步骤：首先生成时序行为提名，然后再对提名进行分类。目前，现阶段主流的时序行为提名生成方法主要有两类：采用“自上而下”的方式和“自下而上”的方式。

其中，“自上而下”的方式是通过使用滑动窗口或均匀分布的锚点密集的生成大量的行为提名，但是，该方式由于固定长度段，在处理具有不同持续时间的行为实例时存在限制，缺乏灵活性。“自下而上”的方式是指基于边界的方法，首先对视频序列中每个时间位置的潜在行为概率进行评估，然后将其匹配以形成候选提名。但是该方式存在的问题是：1、基于局部信息提取时序特征，缺乏对全局和长期时序关系的建模以获取覆盖不同持续时间的行为实例特征。2、它主要依赖边界周围的浅层局部特征来预测行为边界，忽略了深层语义特征的捕获，导致生成的行为边界不够精确，限制了性能的提升。3、它在置信度评估中未考虑提名与提名之间的关系，无法获得足够的语义补充，从而导致性能低。

发明内容

本发明针对现有技术没有充分利用时序上下文特征，缺乏对全局和长期时序关系的建模，边界检测中缺乏深层语义特征捕获以及置信度评估中未考虑提名与提名之间关系，导致行为检测性能不够理想的问题，本发明提供了一种基于上下文聚合和边界生成的时序行为检测方法。

为实现上述目的，本发明的技术方案如下：一种基于上下文聚合和边界生成的时序行为检测方法，包括以下步骤：

步骤1、数据准备：数据集来源于通用时序行为检测数据集ActivityNet1.3和THUMOS14数据集；

步骤2、特征编码：采用two-stream网络提取输入视频的时空特征，生成RGB特征和光流特征，作为视频特征序列F；

步骤3、视频特征序列F输入到多路径时序上下文特征聚合模块，分别通过：

时间全局相关结构在整个视频输入特征上构建丰富的全局上下文信息，生成时间全局特征A；

长范围时间特征相关结构考虑长距离上下文特征的聚合，生成长范围时序特征B；

局部特征结构，通过卷积运算，生成局部特征C；

最后将3个特征进行融合，得到多路径时序上下文特征D；

步骤4、将多路径时序上下文特征D输入到多分支边界生成器中，分别通过多分支边界生成器中的浅层边界生成器和深层边界生成器生成两组边界概率序列P′_s,P′_e和P″_s,P″_e，融合生成最终的提名边界概率P^s和P^e；

步骤5、提名评估：将步骤3中多路径时序上下文特征D输入到提名评估模块中，生成提名匹配置信图，为密集分布的提名框提供置信度分数；

步骤6、后处理：融合步骤4生成的提名边界概率P^s、P^e和步骤5生成的提名匹配置信图，生成最终置信度分数，并基于最终的置信度分数采用Soft-NMS算法抑制冗余提名。

进一步的，上述步骤3中：

M_s(F_c)＝σ(f([AvgPool(F_c)；MaxPool(F_c)])) (2)

B＝Activation(F_{dilated-Causal}(F)+Conv1D(F)) (4)

C＝Conv(Conv(F)) (5)

进一步的，上述步骤4，具体为：浅层边界生成器由两个Conv1D卷积层组成，并使用sigmoid函数激活输出特征以生成开始点的概率P′_s和结束点概率P′_e；深层边界生成器设计为编码器-解码器U型结构，通过组合多尺度特征来生成精确的动作边界，并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征，最终使用sigmoid函数激活输出特征以生成开始点的概率P″_s″和结束点概率P″_e″，融合生成最终的提名边界概率P^s和P^e的公式为(7)：

进一步的，上述步骤5中，对于输入的多路径时序上下文特征D，首先将其转化为边界匹配特征图，然后对其进行采样操作以获得提名匹配特征图P，之后通过提名评估中的提名关系感知模块融合相邻提名特征，最终采用Sigmoid函数得到提名匹配置信度图，分别用来分类和回归。

进一步的，提名关系感知模块是一种具有压缩激励块的残差模块变体，对于输入的特征图P首先通过输入特征层进行全局平均池化操作，然后，使用两个全连接层捕获通道之间的关系，在两个全连接之间设置GELU层，之后执行Sigmoid以将值固定在[0,1]，获得输入特征层的每个通道的权重值，最后与输入特征图P相叠加得到最后的输出特征图。

与现有技术相比，本发明的有益效果：

1、本发明设计了一个多路径时序上下文特征聚合模块，用于有效的聚合长期和短期时间上下文信息，从而增强行为事件的上下文表示。具体为：1)由于时间全局信息与行为的类别有关，所以适应于行为分类的特征应该是具有判别性的，因此设计了一个时间全局相关结构，通过在整个视频输入特征上构建丰富的全局上下文信息，生成全局特征；2)对于长视频来说，长期的时间建模必不可少。为了使边界位置能够专注于聚合其所属的行为实例信息，并且同时考虑到长距离上下文的聚合，设计了一个长范围时间特征相关结构，用来捕获视频的长距离上下文，生成长范围时序特征；3)对于检测时间较短的视频来说，局部信息更为有效，设计了一个局部特征结构，通过卷积运算，生成局部特征。最终，将三种特征相结合，实现了对于持续时间长和持续时间短的视频都能有效检测的目的。

2、本发明设计了一个多分支时间边界检测器，由浅层和深层时间边界检测器组成，浅层时间边界生成器由卷积层组成，将深层时间边界生成器设计为U型结构。融入深层时间边界生成器后能够解决浅层时间边界生成器仅关注局部突变，而导致生成的行为边界具有较高召回率，但是精度不高的问题。同时，利用两个时间边界检测器之间的互补关系优化预测结果，判断两组开始关键点和结束关键点是否同时处于阈值或峰值处，将起点和终点配对以生成提名，从而实现对行为边界的高召回率和高精度捕捉。

3、本发明设计的深层时间边界生成器，是一个编码器—解码器的U型结构，包含编码器(下采样)、解码器(上采样)和跳跃连接。由于时间卷积层平均的处理每个通道中的特征，所以并非编码器所获得的所有特征都对边界概率预测有效，因此，在编码器中的每个时间卷积层后连接了一个自适应通道注意力模块，以增强在当前时间尺度上捕获关键特征的能力。此外，在解码器过程中，会丢失部分信息，为了解决此问题，我们连接了解码器的多尺度特征，以捕获细粒度细节和粗粒度语义，有效的提取更多信息，从而生成精确的行为边界。

4、本发明设计了一个提名关系感知模块，通过全局相关性进行提名关系建模，聚合相邻提名的上下文信息，同时区分稀疏提名之间的语义信息，有效地解决了现有方法通过卷积运算融合相邻提名，而导致融合后的提名缺乏区分性和丰富性的问题，增强了提名上下文的表达性和鲁棒性。

5、在两个通用时序行为提名生成和检测的大型数据集：ActivityNet1.3和THUMOS14数据集上进行了综合实验，本发明有效的提高了时序行为提名生成的性能，可以生成具有高精度和召回率的行为提名，进一步结合现有的动作分类器，也可以实现较好的时序行为检测性能，与目前先进的方法相比具有优越性。

附图说明

图1为本发明实施例中基于时序上下文聚合和多分支边界生成的时序行为检测网络MBGNet结构；

图2为本发明实施例中多路径时序上下文特征聚合模块结构图；

图3为本发明实施例中多分支边界生成器结构图；

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开一种基于上下文聚合和边界生成的时序行为检测方法，来提高时序行为提名生成和检测的性能。本发明设计了一个多路径时序上下文特征聚合模块，用于有效的聚合长期和短期时间上下文信息，从而增强行为事件的上下文表示。其次，为了生成精确的行为边界，本发明设计了一个多分支时间边界检测器，利用两个边界检测器之间的互补关系优化预测结果。此外，为了准确预测密集分布提名的置信度，本发明设计了一个提名关系感知模块，利用全局相关性进行提名关系建模，增强了提名上下文的表达性和鲁棒性。

参见图1，本发明提供的一种基于上下文聚合和边界生成的时序行为检测方法，包括以下步骤：

步骤1：数据准备。具体为：ActivityNe1.3数据集是一个用于通用时序行为提名生成和检测的大型数据集，1.3版本包含19994个未修剪视频，200个动作小类标注的视频，每个视频平均包含1.41个动作实体，总共视频时长高达849小时，按照2:1:1的比例分为测试集、验证集和训练集。THUMOS14数据集有1010个验证集视频和1574个测试集视频。对于行为提名或检测任务，包含验证集中的200个带注释的未剪辑视频和测试集中的213个带注释的未修剪视频，包含20个动作类别。

步骤2：特征编码。具体为：采用two-stream网络提取输入视频的时空特征，生成RGB特征和光流特征，作为视频序列F。

步骤3：视频特征序列F输入到多路径时序上下文特征聚合模块，分别生成时间全局特征A、长范围时序特征B和局部特征C，并将3个特征进行融合，得到多路径时序上下文特征D。具体实施为：

本发明设计的是三路径时序上下文特征聚合模块，参照图2。

因为时间全局信息与行为的类别有关，所以适应于动作分类的特征应该是具有判别性的，因此我们设计基于注意力机制的时间全局相关结构，通过在整个视频输入特征上构建丰富的全局上下文信息，生成全局特征A。具体地说，对于原始视频特征F，首先使用平均池化和最大池化操作来聚合特征图的空间信息，分别生成平均池化特征和最大池化特征，然后将这两个特征经过一个共享的多层感知器网络，并将结果进行逐元素求和后通过Sigmoid函数得到通道注意力特征图M_c(F)。将原始特征F与通道注意力特征图M_c(F)相乘，得到通道注意力特征F_c，然后，对通道注意力特征F_c在通道维度进行平均池化和最大池化操作，分别生成平均池化特征和最大池化特征，再通过标准卷积层将它们连接起来并卷积生成空间注意力特征图M_s(F)。最后，同时将通道注意力特征F_c与空间注意力特征特征图M_s(F)相乘后与原始特征F进行相加以获得包含全局信息的特征A。

M_s(F_c)＝σ(f([AvgPool(F_c)；MaxPool(F_c)])) (2)

对于长视频来说，长期的时间建模必不可少，为了使边界位置能够专注于聚合其所属的动作实例信息，并同时考虑到长距离上下文的聚合，我们设计了长范围时间特征相关结构来生成视频的长距离上下文特征B。具体地说，我们将视频特征序列F输入到长范围时间特征相关结构中，通过膨胀卷积操作扩大感受野，并在膨胀卷积基础上引入因果卷积，保证感受野覆盖了历史上的每个输入，并获得时间序列的长期记忆。此外，通过残差链接使信息能够跨层传输，避免梯度消失和梯度爆炸的问题，从而获得视频的长距离上下文特征B。

B＝Activation(F_{dilated-Causal}(F)+Conv1D(F)) (4)

由于检测持续时间较短的视频时，局部信息更为有效，因此本发明通过对原始视频特征F进行Conv1D运算，生成局部特征C。

C＝Conv(Conv(F)) (5)

总体地说，对于原始视频特征F，经过三路径时序上下文特征聚合模块，对于长视频，进行长范围时序特征建模，对于短视频，进行局部特征捕获，同时进行上下文时间全局特征特征的捕捉，从而有效的聚合了长期和短期上下文信息。将这3个特征进行融合，得到多路径时序上下文特征，从而实现对持续时间长和持续时间短的行为都能有效检测的目的。

步骤4：将多路径时序上下文特征D输入到多分支边界生成器中，分别通过浅层边界生成器和深层边界生成器生成两组边界概率序列P′_s,P′_e和P″_s″,P″_e″，利用两组边界概率序列之间的互补关系优化预测结果，判断两组开始关键点或结束关键点是否同时处于阈值或峰值处，进行融合生成最终的提名边界概率P^s和P^e，具体实施如下：

设计多分支边界生成器。多分支边界生成器包含浅层边界生成器和深层边界生成器。浅层边界生成器SBG由两个Conv1D卷积层组成，并使用sigmoid函数激活输出特征以生成开始点的概率和结束点的概率/>其中lv是时间位置的数量，/>是第n个时间位置是开始点的概率，/>是第n个时间位置是行为结束点的概率。同时，设计了一个编码器-解码器U型结构的深层边界生成器DBG，解决浅层边界生成器仅关注局部突变，导致生成的时间边界虽然具有较高召回率，但是精度不高的问题，深层边界生成器结构见图3(a)所示。

深层边界生成器通过组合多尺度特征来生成精确的动作边界，并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征，确保所有的先验知识都被积累，提高检测精度，还在编码器中每个时间卷积层后连接了一个自适应通道注意力ECA模块，以增强在当前时间尺度上捕获关键特征的能力，ECA模块的详细结构见图3(b)所示，首先进行全局平均池化以产生表示全局空间信息的张量，之后应用一维卷积层编码通道的相关性。

其中，编码器的节点x^i,j计算公式为(6)：

其中H(*)表示基本卷积单元对应的函数，随后是激活函数，p(*)表示下采样max-pooling，u(*)表示上采样转置卷积，[*]表示拼接函数。

深层边界生成器最终使用sigmoid函数激活输出特征以生成开始点的概率P″_s和结束点概率P″_e，融合生成最终的提名边界概率P^s和P^e的公式为(7)：

步骤5：将多路径时序上下文特征输入到提名评估模块中，生成提名匹配置信图，为密集分布的提名框提供置信度分数。

在所述的提名评估模块中，设计了提名关系感知模块PRAM，用于聚集具有不同时间尺度和语义密度的相邻匹配。由于特征图中相邻匹配之间语义信息相似，融合后缺乏区分性和丰富性。因此本发明所提出的提名关系感知模块PRAM是一种具有压缩激励块的残差模块变体，自适应的调整特征映射的权重，提高通道之间的相互依赖性，使网络能够执行特征重新校准，增强特征区分能力，对于输入的C*D*T的特征图P首先通过输入特征层进行全局平均池化操作，然后，使用两个全连接(FC)层捕获通道之间的关系，并在两个全连接之间设置GELU层，之后执行Sigmoid以将值固定在[0,1]，公式如下：

p′_c＝F_scale(p_c,s_c)＝s_c·p_c (10)

M＝p_c+p′_c (11)

获得输入特征层的每个通道的权重值，最后与输入特征图P相叠加得到最后的输出特征图。

步骤6：后处理：融合步骤4生成的提名边界概率P^s和P^e和步骤5生成的提名边界匹配置信图，生成最终置信度分数，并基于最终的置信度分数采用Soft-NMS算法抑制冗余提名。

ActivityNet1.3上的性能比较结果如表1所示,本发明提出的MBGNet与最新方法进行比较，具有较高的召回率和AUC值，证明了MBGNet在ActivityNet1.3上的有效性。

表1在ActivityNet-1.3数据集上，本发明方法与其他生成方法性能比较

MBGNet在THUMOS14上的性能比较结果如表2所示,本发明所提出的MBGNet与最新方法进行比较，表现出较高的召回率，表明了MBGNet在THUMOS14上显著提高了时序行为提名生成的性能。

表2在THUMOS14数据集上，本发明方法与其他生成方法性能比较

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于：包括以下步骤：

局部特征结构，通过卷积运算，生成局部特征C；

最后将3个特征进行融合，得到多路径时序上下文特征D；

步骤4、将多路径时序上下文特征D输入到多分支边界生成器中，分别通过多分支边界生成器中的浅层边界生成器和深层边界生成器生成两组边界概率序列P′_s,P′_e和P″_s″,P″_e″，融合生成最终的提名边界概率P^s和P^e；

2.根据权利要求1所述的一种基于上下文聚合和边界生成的时序行为检测方法,其特征在于：所述步骤3中

M_s(F_c)＝σ(f([AvgPool(F_c)；MaxPool(F_c)])) (2)

B＝Activation(F_{dilated-Causal}(F)+Conv1D(F)) (4)

C＝Conv(Conv(F)) (5)。

3.根据权利要求2所述的一种基于上下文聚合和边界生成的时序行为检测方法，其特征在于：所述步骤4中，浅层边界生成器由两个Conv1D卷积层组成，并使用sigmoid函数激活输出特征以生成开始点的概率P′_s和结束点概率P′_e；深层边界生成器设计为编码器-解码器U型结构，通过组合多尺度特征来生成精确的动作边界，并通过一系列的密集卷积块以跳跃连接方式融合相同尺度的编码器和解码器特征，最终使用sigmoid函数激活输出特征以生成开始点的概率P″_s″和结束点概率P″_e″，融合生成最终的提名边界概率P^s和P^e的公式为(7)：

4.根据权利要求1-3任意一个权利要求所述的一种基于上下文聚合和边界生成的时序行为检测方法，其特征在于：所述步骤5中，对于输入的多路径时序上下文特征D，首先将其转化为边界匹配特征图，然后对其进行采样操作以获得提名匹配特征图P，之后通过提名评估模块中的提名关系感知模块融合相邻提名特征，最终采用Sigmoid函数得到提名匹配置信度图，分别用来分类和回归。

5.根据权利要求4所述的一种基于上下文聚合和边界生成的时序行为检测方法，其特征在于：所述提名关系感知模块是一种具有压缩激励块的残差模块变体，对于输入的特征图P首先通过输入特征层进行全局平均池化操作，然后，使用两个全连接层捕获通道之间的关系，在两个全连接之间设置GELU层，之后执行Sigmoid以将值固定在[0,1]，获得输入特征层的每个通道的权重值，最后与输入特征图P相叠加得到最后的输出特征图。