CN114842402A

CN114842402A - 一种基于对抗学习的弱监督时序行为定位方法

Info

Publication number: CN114842402A
Application number: CN202210589976.1A
Authority: CN
Inventors: 葛永新; 李自强; 徐玲; 洪明坚; 杨梦宁; 黄晟; 王洪星; 张小洪; 杨丹
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-02
Anticipated expiration: 2042-05-26

Abstract

本发明涉及一种基于对抗学习的弱监督时序行为定位方法，包括如下步骤：从公开数据集中选取未裁剪视频数据,将每个未剪切视频分解为不重复的帧片段，然后提取每个帧片段的原始特征；利用原始特征总数X计算时序连续性支流的输入特征数据X^t；计算基础支流的和时序连续性支流的类激活序列分数及类时序注意力分数；将整体模型的类时序注意力分数和类时序注意力分数进行一致性约束；计算TEN网络模型的总损失函数同时对TEN网络模型进行训练，然后得到训练好的TEN网络模型；将待预测未剪切视频数据输入到训练好的TEN网络模型中，得到对待预测未剪切视频的行为定位。通过使用本方法可以对任意待预测视频中的时序行为进行精确定位。

Description

一种基于对抗学习的弱监督时序行为定位方法

技术领域

本发明涉及时序行为定位领域，特别涉及一种基于对抗学习的弱监督时序行为定位方法。

背景技术

现有时序行为定位的目的在于对未剪辑视频中的行为实例，进行定位和其所属类别识别。由于其可以广泛运用到视频摘要、安全监控、高亮检测等领域，因此引起了计算机视觉社区大量研究人员的极大兴趣。对此任务，在帧级别上使用开始和结束时间戳作为监督信息的全监督方法已取得显著的研究进展。然而，随着各种网站上视频数目的快速增长，对大量的未剪辑视频中的行为实例进行人工的精确时间标注十分耗时且成本较高，难以在实际中应用。因此，引入更简便的视频级类别标签作为监督信息，使用弱监督方法进行时序行为定位近期得到了广泛关注。此类方法在减少时间戳标注成本的同时，也取得了较好的定位和识别效果。

不同于全监督定位方法，现有大多数弱监督时序行为定位方法采用一种“通过分类进行定位”的范式，即在视频级分类标签的监督训练下，分类器预测出视频每帧的类别分数，然后对每一帧的类分数应用阈值划分以此实现对行为实例的定位。由于缺少帧级别的类别标签的训练引导，分类器就容易倾向于整个视频中存在判别性信息的帧，以此提高其对视频级行为分类的性能。因此，在弱监督时序定位方法中，未剪辑视频中含有类特有信息的背景帧不可避免地会被分类器误识别为前景帧(行为帧)，从而影响对背景与行为帧的区分；同时，由于分类器对类特有的背景帧的偏好关注，也相应地降低了模型对行为的建模能力。

为缓解背景内容对模型分类的干扰，研究者们也提出了一些经典的方法。由于不同视频数据间存在明显差异，因此Lee等人认为背景帧是动态的、不一致的。为此，其通过选取最低分数的K个帧作为伪背景帧，并抑制伪背景帧的特征值来建模背景的不确定性，使模型忽略背景内容且关注前景行为信息。为进一步区分类特定背景(难背景)和行为，ACSNet引入了一个辅助类别来对类特定背景帧进行建模。此外，CoLA利用丰富的时间上下文关系对难背景和简单行为片段进行挖掘选择，并对两者的特征进行对比损失约束，以引导识别模型更好地进行行为建模。上述工作都是通过主动建模背景片段，来进一步提高模型对背景与行为实例间差异的识别，从而实现精确定位。然而，这些方法在很大程度上依赖于对类特有的背景(难背景)帧进行人工假设地伪注释，但通过先验方式进行帧的伪标签标注不可避免地会导致错误标注。

以往工作是通过在帧级别上进行伪标签标注而建模背景内容。然而，背景内容的表征是出现在整个未剪辑视频中的。因而未剪辑视频中的每个片段帧都存在被视为背景内容的倾向。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：目前面对未剪辑视频中的时序行为无法进行精确定位。

为解决上述技术问题，本发明采用如下技术方案：一种基于对抗学习的弱监督时序行为定位方法，包括如下步骤：

S100：从公开数据集中选取N个未裁剪视频数据

相对应的视频级类别标签为

C表示行为类别数量；

S200：将每个未剪切视频

分解为不重复的帧片段，所有的帧片段总数量为T且帧片段包含RGB模态和光流模态，然后使用预训练I3D模型提取每个帧片段的原始特征，所有帧片段的原始特征总数为X，其中X包括RGB模态特征

和光流模态特征

其中，D表示所提取特征的通道数目；

使用TEN网络模型，TEN网络模型包括基础支流和时序连续性支流两部分；

S300：利用原始特征总数X计算时序连续性支流的输入特征数据X^t；

S400：计算基础支流的类激活序列分数和类时序注意力分数，以及时序连续性支流的类激活序列分数和类时序注意力分数；

S410：计算基础支流的类激活序列分数，具体步骤如下：

S411：采用时序卷积层Φ_r对RGB模态特征X_r进行特征编码，得到新RGB特征编码

采用时序卷积层Φ_f对光流模态特征X_f进行特征编码，得到新光流特征编码

具体表达式如下：

其中，

和

分别表示RGB模态和光流模态两个模态下编码的新特征，

和

分别表示RGB模态和光流模态两个模态的可学习参数，E表示新编码特征的通道数；

S412：通过分类器方法计算基础支流的类激活序列分数，计算表达式如下：

其中，

和

分别表示RGB模态和光流模态下的类激活序列分数，

和

是全连接层的权重参数，

和

分别表示RGB模态和光流模态对应的偏置项；

S413：根据RGB模态和光流模态下的类激活序列分数，计算得到基础支流的类激活序列分数

S420：采用时序注意力机制计算基础支流的类时序注意力分数，具体表达式如下：

其中，

和

表示RGB模态和光流模态两个模态下对应的类时序注意力分数，σ(·)表示sigmoid激活函数，

和

表示全连接层权重参数，

和

分别表示RGB模态和光流模态对应的偏置项；

S421：根据RGB模态和光流模态下的类时序注意力分数，计算得到基础支流的类时序注意力分数

其中，i表示第i个帧片段特征；

S430：计算基础支流的交叉熵损失，该部分的交叉熵损失包括行为分数损失

和背景分数

具体步骤如下：

S431：通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合，计算未剪切视频的行为分数P_fg和背景分数P_bg，表达式如下：

其中，τ表示sof tmax激活函数，

和

均表示归一化因子，a_i表示第i帧片段的行为分数，(1-a_i)表示第i帧片段的背景分数；

S432：根据未剪切视频的行为分数P_fg和背景分数P_bg计算行为分数损失

和背景分数

表达式如下：

其中，C+1表示为背景类别标签，

表示给定的真实训练类别标签；

S440：采用时序卷积层和分类器方法计算得到时序连续性支流的类激活序列分数

采用时序注意力机制计算得到时序连续性支流的类时序注意力分数

S500：使用平均绝对值误差L1函数将基础支流的类时序注意力分数

和时序连续性支流的类时序注意力分数

进行一致性约束，计算表达式如下：

其中，G(·)表示时序维度上的高斯平滑滤波函数；

使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数

和时序连续性支流的类激活序列分数

进行一致性约束，计算表达式如下：

其中，τ(·)表示sigmoid激活函数，

表示c类别上的时序连续性支流的类激活序列分数；

S600：将

和

进行合并得到TEN网络模型的总损失函数L_all，表达式如下：

其中，λ和β表示控制各项损失权重平衡的超参数，

表示行为损失，

表示背景损失；

S700：利用S600得到的总损失函数对TEN网络模型进行训练，使用梯度反传对TEN网络模型参数进行更新，当训练达到最大迭代次数时停止训练，得到训练好的TEN网络模型；

S800：将待预测未剪切视频数据输入到训练好的TEN网络模型中，得到待预测未剪切视频的类激活序列分数

和类时序注意力分数

S810：预设类激活序列分数阈值ρ_cls，利用sof tmax对y^O进行归一化处理得到概率分数

当

时，则进行下一步；

S820：将

和a^O进行融合得到最终用于定位的分数序列SL，此时SL即为对待预测未剪切视频的行为定位，表达式如下：

其中，c表示待预测未剪辑视频的预测类别，ε表示超参数且被设置为0.5。

作为优选，所述S300中计算时序连续性支流的输入特征数据X^t的具体步骤如下：

S310：对于

所提取的原始特征

将

在时序维度上等时间间隔的划分为T/k个区域段，划分后的原始特征X表示如下：

其中，k表示等间隔采样区域的长度；

然后在每个区域段随机采样一帧的特征组合得到新的特征序列X′，表达式如下：

S320：对新特征序列中所选取的每个特征进行重复填充，以使每个区域段的帧特征数目到达原始特征的长度，填充后的特征序列表达式如下：

X^t＝[(X_k-1，...，X_k-1)，...，(X_T-k，...，X_T-k)] (12)

其中，

通过构造不同数据输入，可形成相邻帧特征序列对；而后通过对模型得到的相邻帧序列对分数进行一致性约束，可增强模型相邻帧时序连续性建模能力的增强，提高模型行为定位的完整性。

作为优选，所述S412中的计算分类器的修改梯度的表达式如下：

其中，

和

分比表示第i帧段得到的注意力值。

梯度更新是深度学习方法优化模型的常用方法，因此通过对梯度的修改，可直接有效地改进模型的识别方式，更好实现模型对抗学习的过程。模型的权重就可以由梯度更新进行变换而学习到。

作为优选，所述S430中的计算时序注意力的修改梯度的表达式如下：

其中，

为视频级的背景分数，C+1表示背景类别。

通过修改原有背景分数归一化系数N_b为N_f，可简单且有效地实现背景梯度增强，即，使背景损失

在梯度方向过程中将每一帧的梯度更多朝向背景类别。这一方式使得行为分类损失

与背景损失

在梯度方向过程中构成对抗学习过程，驱使识别模型更好的区分背景帧与行为帧。

相对于现有技术，本发明至少具有如下优点：

1.本方法将对抗学习策略应用到弱监督时序行为定位中，且通过完成以下两方面来实现精确定位。一、将整个视频趋向背景；本方法提出了一种新颖的背景梯度增强策略，通过修改背景分类模式，在梯度反向过程中增加每帧趋向背景的梯度；通过此方式可以在训练过程中使整个视频会更偏向视为背景以提高分类难度，模型相应地需要自我提升能力对行为感知，而实现对抗性学习的过程。二、进一步提高模型行为建模的能力；本发明认为在基于对抗策略的训练过程中，主动增强行为时序关系会进一步促进模型对前景的识别定位能力，

2.在梯度反向过程中，通过修改背景分类损失，呈现了一种简单有效的背景梯度增强策略，以引导模型将整个视频视为背景。行为分类损失又驱使模型从视频中激活行为帧，因此背景分类损失与行为分类损失之间的竞争就构成了对抗学习过程。

3.提出了一种新颖的时序增强网络(TEN)以提高模型感知行为时序信息，其通过构造相邻帧序列对并进行序列对一致性约束，以增强模型行为定位的完整性。

4.在弱监督时序定位方法中，开创性地采用对抗学习范式对背景干扰问题进行解决。在将整个视频趋向于背景的条件下，推动模型聚焦于行为内容，而不误识别背景帧为行为。

附图说明

图1为时序增强网络图示。

图2为定位方法基础模型的前向过程与背景梯度增强的反向过程。

图3为时序行为定位图示。

图4为不同未剪辑视频的定位分数图示。

具体实施方式

下面对本发明作进一步详细说明。

本发明方法提出了一种基于对抗学习策略的弱监督行为定位方法，其宗旨在解决弱监督定位方法中的类特有背景干扰和定位完整性这两个问题。本方法利用对抗学习策略，采用一种从背景中寻找前景行为的模式，以提高识别模型对行为部分的关注而减轻背景对其的干扰；此外，为提高模型定位行为的完整性，该方法另外提出了一个时序增强网络，对视频相邻帧的一致性进行约束，以提高模型的时序连续性建模能力。

本发明所提出了一种新颖的时序增强网络(Temporal enhancement network,TEN)，由原始基础分支(Base branch,BB)、和时序连续性分支(Temporal continuitybranch,TCB)组成，基础支流保持模型对原始视频数据的学习过程，而时序连续性分支则作为基础支流的辅助，用于提升模型的时序建模能力。简言之，分支TCB首先对输入序列局部时段随机采样并扩充，以使得分支BB和TCB的视频序列帧在对应时序位置上为相邻关系，然后本方法利用分支BB和TCB的预测结果来约束相邻帧间的一致性，以提升模型行为时序连续性建模的能力。

参见图1-图3，一种基于对抗学习的弱监督时序行为定位方法，包括如下步骤：

S100：从公开数据集中选取N个未裁剪视频数据

相对应的视频级类别标签为

C表示行为类别数量；

S200：将每个未剪切视频

和光流模态特征

其中，D表示所提取特征的通道数目，预训练I3D模型为现有技术；

所述S300中计算时序连续性支流的输入特征数据X^t的具体步骤如下：

S310：对于

所提取的原始特征

将

其中，k表示等间隔采样区域的长度；

X^t＝[(X_k-1,…,X_k-1),…,(X_T-k,…,X_T-k)] (12)

其中，

S410：计算基础支流的类激活序列分数，具体步骤如下：

具体表达式如下：

其中，

和

分别表示RGB模态和光流模态两个模态下编码的新特征，

和

分别表示RGB模态和光流模态两个模态的可学习参数，E表示新编码特征的通道数；卷积编码层Φ_r(·)和Φ_f(·)都由一个卷积核为3的1D卷积层和一个ReLU激活函数组成；由于本方法中的输入是从预训练I3D模型当中提取的特征，其已具有高层语义表征，因此使用单个卷积层足以完成编码过程；

S412：通过分类器方法计算基础支流的类激活序列分数，分类器方法为现有技术，计算表达式如下：

其中，

和

分别表示RGB模态和光流模态下的类激活序列分数，

和

是全连接层的权重参数，

和

分别表示RGB模态和光流模态对应的偏置项；

所述S412中的计算分类器的修改梯度的表达式如下：

其中，

和

分比表示第i帧段得到的注意力值。

由于弱监督时序行为定位方法采用的是‘通过分类器进行定位’的模式，因此未裁剪视频中的每一帧会被模型预测对出对应的类别分数，也视为类激活序列分数(CAS)。

S420：采用时序注意力机制计算基础支流的类时序注意力分数，时序注意力机制为现有技术，具体表达式如下：

其中，

和

和

表示全连接层权重参数，

和

分别表示RGB模态和光流模态对应的偏置项；

其中，i表示第i个帧片段特征；

和背景分数

具体步骤如下：

其中，τ表示sof tmax激活函数，

和

均表示归一化因子，a_i表示第i帧片段的行为分数，(1-a_i)表示第i帧片段的背景分数；弱监督时序行为定位方法可视为一个分类器，因而需要对其进行分类损失函数约束优化训练。在此，类激活序列分数y和类时序注意力分数a将进行聚合，以生成视频级的行为概率分数和背景概率分数；

和背景分数

表达式如下：

其中，C+1表示为背景类别标签，

表示给定的真实训练类别标签；

所述S430中的计算时序注意力的修改梯度的表达式如下：

其中，

为视频级的背景分数，C+1表示背景类别。

和时序连续性支流的类时序注意力分数

进行一致性约束，计算表达式如下：

其中，G(·)表示时序维度上的高斯平滑滤波函数；

使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数

和时序连续性支流的类激活序列分数

进行一致性约束，计算表达式如下：

其中，τ(·)表示sigmoid激活函数，

表示c类别上的时序连续性支流的类激活序列分数；

S600：将

和

进行合并得到TEN网络模型的总损失函数L_all，表达式如下：

其中，λ和β表示控制各项损失权重平衡的超参数，

表示行为损失，

表示背景损失；

和类时序注意力分数

根据

和a^O即可得到未剪辑视频的预测类别c，当

时，则进行下一步；

S820：将

和a^O进行融合得到最终用于定位的分数序列S_L，此时S_L即为对待预测未剪切视频的行为定位，表达式如下：

具体而言，通过行为实例的开始和截止时间可得该实例的持续长度l_i。而在l_i范围内部成为内区域，以此可得内部帧的平均分数

而外区域则是被定义为开始时间s_i前的0.25*l_i区域和截止时间e_i后的0.25*l_i区域和截止时间，对应可得到外区域的帧平均分数

然后，行为实例的置信度分数q_i可由计算为：

最终，每个行为实例的预测集合{c_i,q_i,s_i,e_i}，则就通过上述过程完成。

实验设计与结果分析

1.数据集介绍

本方法将在两个具有挑战的数据集上进行测试评估，即THUMOS’14和ActivityNet1.2数据集。此两数据集具有各自的特点，但其中的训练测试视频样本都是未剪辑的。同时，本方法只利用此两数据集提供的视频级类别标签，进行弱监督方式的模型训练。

1)THUMOS’14数据集

该数据集含有20个不同的行为类别，且含有200个视频作为验证集和213个视频作为测试集。与以往工作相同，在此验证集将用于本方法模型的训练，而测试集中的样本则用于方法的验证评估。在该数据集中，一个未剪辑视频往往包含多个行为实例且行为实例的持续实际长短不一，同时行为实例间的类别也存在不一致的情况，因此，该数据集是非常具有挑战的。

2)ActivityNet1.2数据集

在ActivityNet1.2数据集中含有4819个训练视频样本、2383个验证集样本和2480个测试集视频样本，且行为类别含有100个。亦与之前研究内容一致，本方法采用训练集视频样本对模型进行训练，而采用验证集数据对本发明方法进行测试评估。相比于THUMOS’14数据集，此数据集拥有较多的视频样本数和行为类别数，但该数据集的未剪辑视频样本中往往只含有一个行为视频，且类别单一。因此，在数据集的挑战上相对于THUMOS’14数据集更为容易。

2.实验的设置

1)数据预处理

为得到RGB模态数据的另外一种补充数据模态光流，TVL1算法被用于处理原始RGB模态未剪辑视频已得到该模态数据。在此，在Kinetics数据集上进行预训练后的I3D模型将作为特征提取器，以获得两个模态下的数据特征。其中，在RGB模态和光流模态的视频中，将选取未交并的16帧段作为I3D模型的输入，而后得到通道数为1024的特征向量。最后，此两种模态下的特征将作为本方法的输入数据。

2)实现细节

对于RGB和光流两种模态下的特征，本方法先使用两个参数不共享的1维时序卷积层进行编码。该编码卷积层的核大小为3，而输入的通道维度大小设置为512。同时，经过卷积层编码后，ReLU激活函数被用于对编码后的特征进行过滤。同样地，两种模态下的特征也拥有不同的分类器和时序注意力层，但其结构一致。对于分类器，本方法采用了输入通道数为512，而输出通道为数类别数目的线型层。而注意力机制采用一个输入通道数为512、输出通道数为1的线型层和一个sigmoid激活函数组成。而本方法模型是采用Pytorch框架实现，且使用Adam优化器在3090GPU服务器上训练。训练过程中的学习率初始化为1e-3，当训练论述到达一半后将降为1e-4。对于中的优化损失函数的参数权重，λ和β都被设置为0.1。在行为定位阶段，类别分数阈值ρ_cls设置为0.1，而非极大抑制方法的阈值设为0.5。

3)评估指标

本方法依照现有的标准评估协议，实验结果显示了在不同时间交并比(Intersection over Uniont,IoU)上的平均精度值。同时，本方法实验结果通过此两个数据集提供的评估代码计算而得。由于两者数据集挑战不同，遵循现有大多数工作的方式。本方法在THUMOS’14数据集上的实验结果，主要体现在IoU阈值为0.1、0.2、…、0.7上，而在ActivityNet1.2上，IoU阈值主要设置为0.5、0.75和0.95。

3.各种方法结果比较

表1在THUMOS’14数据集上与最先进方法的比较结果

表1显示了本发明方法在数据集THUMOS’14的测试集上的时序行为定位结果，并与其他的行为定位方法进行了比较。从该表可知，与其他弱监督方法相比，本发明方法在不同的时间交并比阈值上都取得了显著性的提升。与其他方法相比，AUMN通过主动对行为进行多阶段划分建模，提高了其在较短时序范围的IoU阈值段(0.1-0.5)上的定位结果，但在高时序范围IoU阈值段的定位结果则有所不足。此外，CoLA通过对难背景的挖掘后，利用对比损失提高了在高IoU阈值0.7上的定位结果。相比于这两个工作，本方法通过对抗学习策略增加了模型对行为部分的关注，同时设计了时序增强网络用于提高模型定位的完整性。通过这两部分的改进，该方法在短时序和长时序IoU阈值段上的定位结果都取得了提升。另外，本发明所提出的方法也优于一些全监督方法。与Chao等人所提出的方法相比，本章方法在IoU阈值段(01-0.5)的定位结果增加了4个百分点。而与全监督方法BSN相比，在IoU阈值段(0.3-0.7)上该方法的定位结果提升了1.1个百分点。总之，以上结果都表示了本方法的优越性。

表2在ActivityNet1.2数据集上与最先进方法的比较结果

表2展示了该方法在Activity1.2验证集上的行为定位结果。而在此数据集上，本方法与以往的弱监督定位方法进行了比较，结果也显示了该方法的有效性。相比于THUMOS’14数据集，Activity1.2中的行为实例比较单一且持续时间较长。因此，本方法所提出的时序增强网络对相邻帧间的时序连续性建模，在该数据上得到了较好的效果，提升了该方法的泛化性。

4.消融实验

与以往方法相似，本部分采用较有挑战性的THUMOS’14数据集进行相关的消融实验。本部分分析的主要内容有：各个子方法的作用、背景梯度增强策略方式、背景损失权重、等间隔采样和约束损失选择。

(1)子方法作用分析

本部分对子方法组合设计了三种方式：1)只加入背景梯度增强策略，2)只使用时序增强网络和3)两者都使用。表3显示了所提出组合方式得到的不同结果。

表3不同子方法组合方式的结果

其中基线为不添加本章所提出的任何方法的结果。BGE表示背景梯度增强策略，在基础模型上添加背景梯度增强是为实现对抗学习过程。可从表中得知，进行对抗学习过后，模型的定位结果在所有时序IoU阈值段上在都有所提升。这也验证了对抗学习过程减少了背景对模型的干扰，并且提升了模型行为关注的能力。另外，只使用时序增强网络(TEN)模型也提升了该方法在高时序IoU阈值段(0.4-0.7)上的性能效果，而该结果验证了TEN提高了模型时序连续性建模的能力。最后，本部分将BGE与TEN两部分结合，进一步提升了模型的行为定位效果。此结果展示了在对抗学习策略下更能促进模型对时序关系的学习。

(2)背景梯度增强策略方式分析

本章提及了三种背景梯度修改方式：1)分类器权重修改，2)时序注意力权重修改和3)梯度翻转层(GRL)，其中时序注意力权重修改就是本章所采用的策略BGE。表4显示了对分类器权重修改策略的结果，其中BL为背景分类损失。从该表可知，使用分类器权重修改方式依然提升了该方法的性能，而该结果亦验证了对抗学习方式能够提升模型对行为更好的关注。而基于BL对分类器权重修改的方式下，引入TEN模型也能提升该方法的性能，但定位结果的提升并不显著，在时序IoU阈值段(0.1-0.5)上仅提高了0.9％，而在时序IoU阈值段(0.3-0.7)上提升了1.2％。相比于时序注意力权重的修改方式，此做法与TEN结合而提升的效果并不明显。另外，本部分将BGE、BL和TEN三部分组合，所得到的定位结果与BGE和TEN结合方法的效果相差不多但仍有下降。为此，本发明采用BGE与TEN的组合方法。

表4分类器权重修改下的方法组合结果

梯度反转层(GRL)通过对梯度进行修改以完成源域与目标域的混淆。为此，本部分亦对GRL在弱监督定位方法中的作用进行探讨。表5显示了加入GRL方法的定位结果。其中，在基础模型上加入GRL，行为定位效果有所提升。但相比于另外两种方式，其提升效果并不高。而在GRL方法的基础上，本部分加入时序增强网络TEN进行了实验验证。与只加入时序增强网络方法的结果相比，其只在时序IoU阈值段(0.1-0.3)上有微小提升，而在阈值段(0.4-0.7)上都有下降。通过该结果可知，GRL通过梯度修改过度地干扰了模型的学习过程，以使得模型难以较好的建模行为部分信息。这也验证了GRL与本章方提出的背景梯度增强策略的不同。

表5与梯度反转层(GRL)组合的方法结果

(3)背景损失权重分析

背景分类损失权重亦对背景梯度反向过程产生影响，为进一步验证本章的背景梯度增强策略的有效性，本部分在此探讨背景损失权重的增加是否可以实现对抗学习过程，以提高模型的定位精度。表6显示了不同背景分类损失权重λ下，基础模型的行为实例定位结果。当权重λ值为0时，基础模型不使用背景损失训练，即不对背景进行归类。与背景损失权重λ为0.1的结果相比，仅进行前景分类损失的方法的定位效果更差。这验证了背景分类损失的重要性，可更好地区分前背景。当背景损失权重λ值为0.1、0.2和0.3时，基础模型的定位结果相似且达到最好。而随着λ值的进一步增加，模型定位结果急剧下降。这些结果明确的展示了背景损失调控权重λ的更改并不能驱使模型进一步的学习行为知识。

表6背景分类损失不同权重值的结果

(4)等间隔采样分析

在时序增强网络中，时序连续性分支(TCB)在等间隔k的局部时序段中进行随机采样。而间隔值k调控着随机采样的时序范围，即相邻帧间的距离。表7显示了不同间隔k下，该方法的行为定位结果。

从上表可知，方法定位结果的值会随着采样间隔的变化而变化。当采样间隔值k＝4时，方法定位结果最优。当采样间隔较小时，相邻帧间的时序范围较小，模型就学习到较短的时序连续性。而采样间隔过大时，帧间内容会出现不同，而在此情况下进行一致性约束反而会降低方法的定位结果。因此，在训练过程选择适合的采样间隔，将更有助于模型对视频时序关系的学习。

表7不同采样间隔距离下的结果

(5)约束损失选择

在时序增强网络中，基础分支与时序连续性分支都输出了时序注意力值和类激活分数序列(每帧类别分数)，而本方法对这些预测结果进行了一致性约束。对于注意力值的约束，本部分分别使用平均绝对值误差(MAE)函数和平均平方误差(MSE)进行尝试。而对于类激活分数序列，本方法分别使用了MAE、MSE和KL散度函数进行约束。表8显示了该方法在使用背景梯度增强策略后，单独使用不同约束函数的定位结果。

表8使用不同约束损失下的结果

通过上述数据可知，选取平均绝对值误差函数MAE对时序注意力值约束，方法的效果是最好的。注意力值表示前景和背景的程度，其只含有一个数据维度且取值范围为0～1，而MAE可快速优化变量到目标值，所以较适合对注意力值的约束。从表8所显示的结果可知，对于类激活分数序列的约束，选取KL散度函数是最好的。其中，对于KL函数的选择与以往方法进行知识蒸馏的方式一致。为此，本对比则选择MAE函数对注意力值进行约束，并选择KL散度函数对输出的类别分数进行约束。

5.定性分析

本部分通过对方法的可视化定位结果进行定性分析，图4显示了‘足球点球’、‘举重’和‘悬崖跳水’三个行为的定位分数序列S_L。其中，橙色曲线表示基准方法得到的结果，蓝色曲线则是本章方法的定位分数序列，而绿色柱状图表示行为实例发生的真实时间段。

如‘足球点球’未剪辑视频中的红色方框所示，基准方法的定位曲线起伏较大，相邻帧的定分数差异较大。而本章方法得到的分数序列就较为平滑，这表明时序增强网络提高了模型相邻帧间的时序连续性建模。另外，在‘举重’和‘悬崖跳水’两个实例的红色标记框中，基准方法都过多地激活一些背景帧，而本章方法则减少了非行为帧的误激活。这验证了本章所使用的对抗学习策略有效的减少了背景信息对模型前景识别的干扰。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。