CN113283282B

CN113283282B - 一种基于时域语义特征的弱监督时序动作检测方法

Info

Publication number: CN113283282B
Application number: CN202110262515.9A
Authority: CN
Inventors: 孔德慧; 许梦文; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2024-05-28
Anticipated expiration: 2041-03-10
Also published as: CN113283282A

Abstract

一种基于时域语义特征的弱监督时序动作检测方法属于计算机视觉视频领域，弱监督时序动作检测任务是在仅依靠视频级别标签的情况下，对未修剪的长视频中的每一段动作进行时序上的定位和分类。目前的方法还是将时序动作检测任务视为动作识别的变体任务，他们着重在模型的特征提取、提名生成、分类器训练等方面做研究，却忽视了该任务视频本身的时域语义特征。本发明首先归纳了长视频时域语义特征：动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等，并基于此设计一种新的网络模型来提升视频分类和时序定位的精度。本发明性能超过了目前的先进方法。

Description

一种基于时域语义特征的弱监督时序动作检测方法

技术领域

本发明属于计算机视觉视频理解技术领域，具体是弱监督时序动作检测方法。

背景技术

视频理解是计算机视觉领域的一项十分重要的任务。近年来随着人工智能领域的发展，涌现出众多视频理解的方法和技术，目前主流的视频理解任务可以分为视频动作识别和视频时序动作检测两种。其中，动作识别是对预先分割好的短视频进行行为分类，训练数据的视频只包含一个动作。然而现实中的视频通常是未分割的长视频，而且包含多尺度、多类别动作片段和无关背景片段，比如监控视频、比赛视频等。针对这种长视频进行分析和理解，不仅需要对动作分类，还要对每一段动作进行时间维度上的定位。时序动作检测任务就是输入一段未分割的视频，输出该视频所包含的动作类别，并且定位所包含动作的开始和结束时间。全监督时序动作检测需要视频中每一帧的标注信息，需要大量的人力物力，而且标注的标准也会受到个人的主观影响。所以目前大量研究均基于弱监督学习框架，即视频只含有动作类别的标注，没有时间的标注信息。这将大大减小视频分析成本，提高视频分析的安全性和可靠性，所以弱监督时序动作检测是一个研究热点。

对于一个给定的视频，希望预测一组动作实例{c_j,s_j,e_j,q_j}，其中c_j表示预测的动作类，s_j,e_j表示实例的开始时间和结束时间，q_j表示实例的置信度得分。所以时序动作检测任务是包含动作分类和动作时序定位的综合任务，难度远大于动作识别任务。主要原因是由于未分割长视频本身的复杂性。未分割的长视频比如监控视频，整体时间跨度大，真实动作占有时间短，而且由于光照原因，相同动作不同视频的纹理特征相差较大，动作片段与相邻的背景片段很相似，难以精确定位动作时间。这些特点给时序动作检测增加了独有的复杂性和难度。而弱监督时序动作检测相比于全监督时序动作检测缺少了动作时间的标注信息，标签数据提供的信息太少，不能直接有效地训练网络模型，这使得动作片段与相邻的背景片段更加难以区分。

弱监督时序动作检测通常依靠分类器来实现，一般可分为从局部到全局和从全局到局部的计算过程。从局部到全局的方法最先发展，该方法将视频分成小片段，先分类小片段的类别，再将小片段的类别分数融合为视频类别分数，最后依据视频的类别回溯到片段分数进行定位操作。从全局到局部的方法把整个视频的特征融合在一起，直接对视频分类，定位时再使用视频分类器对片段特征分类，根据分类分数进行定位。最近基于注意力机制、背景类建模的方法实现最新性能。这类方法在数据集标注信息不全的情况下也能够定位动作，但是由于该任务本身固有的特点，标签提供的信息太少，视频动作片段与相邻的背景片段特征高度相似，单纯的注意力机制得到的结果无法保证其准确性性，更难以做到精确时序定位。总的来讲，目前的方法还是将时序动作检测任务视为动作识别的变体任务，他们着重在模型的特征提取、提名生成、分类器训练等方面做研究，却忽视了该任务视频本身的时域语义特征，比如长视频中动作的占有时间很少即动作片段在时序上具有稀疏性、视频相邻帧之间在语义特征空间上具有很大的相关性等等。

发明内容

本发明针对弱监督学习框架下的少标签数据，如何进行表征学习，或者如何从数据本身出发设计有效的辅助任务问题，归纳了基于长视频时域语义特征：动作片段在时序上的稀疏性、相邻片段之间的语义特征具有相似性而距离较远的片段间语义特征具有差异性等，并设计一种新的网络模型来提升视频分类和时序定位的精度。

本发明提出一种基于时域语义特征的弱监督时序动作检测方法，对未分割的长视频进行动作识别与定位相应动作的开始和结束时间。的网络结构如图1所示，主要分为特征提取模块、基础分类网络、基于正则项约束的时序注意力-滤波模块和基于时域语义特征构造的辅助任务模块分别对应图1中的彩色阴影部分。首先，特征提取模块将输入视频分为多个不重合的片段，并获取每个片段的RGB特征和光流特征。然后，将RGB特征和光流特征输入到基础分类网络和时序注意力-滤波网络。在基础分类网络中，特征经过嵌入、分类得到片段级别的的类别分数，经过后处理得到视频级别的分数。在基于时序注意力-滤波网络，特征经过注意力-滤波卷积网络得到每个片段的注意力分数，并根据动作在时序上的稀疏性做正则项约束，再将片段的注意力分数与基础分类模块中片段类别分数相乘得到新的片段类别分数，经过同样的后处理过程得到视频级别的类别分数。其次，将片段级别的分类分数作为伪标签，并依据相邻片段时域语义的相关性，以最大化类内片段特征的相似度为辅助任务。在训练中，先对基础分类网络和基于时序特征的注意力-滤波网络进行训练，然后再加入辅助任务模块协同训练。在测试中，只采用基于时序注意力-滤波分支的分数进行分类定位。

1.基础模型介绍

为了应对视频长度的较大变化，从每个视频划分好的片段序列中采样固定数量的T段视频。接着对视频片段提取出RGB和光流特征，视频V_i(表示数据集的第i个视频)采样后的片段序列集合可以表示为其中， />表示视频V_i中第j个视频片段的特征，d是每段视频的特征维度。使用 I3D网络作为特征提取网络，它在Kinetics数据集上进行了预训练。

基础分类模块。使用卷积和残差网络构造特征嵌入模块。特征嵌入模块的输入是I3D特征，视频V_i嵌入特征可以表示为其中f_embed(.)是嵌入模块。接着，使用分类器对视频片段分类，得到每个片段关于每个类别的置信分数，共有T*(C+1)个置信分数，视频V_i的片段类别分数/>其中f_c(.)是分类函数，/>表示第i个视频的第j个片段关于每个类别的分数，T是采样后的视频片段数目，C+1是数据集的类别数加上背景类的总数目。采用top_k的计算方法把片段级别的类别分数融合为视频级别的分数。视频V_i包含动作类c的分数可以表示为公式(1)：

其中，是将视频片段关于类别C的置信分数取出，/>找出最大的前k个置信分数，/>对最大的前k个置信分数求均值作为视频V_i包含动作类c的置信分数。k是一个根据视频长度设置的一个超参数，/>是一个标量表示视频i包含动作类别c的置信分数。在类别维度应用softmax函数得到视频关于每个类别的softmax分数/>

注意力模块。虽然相邻的背景片段和动作片段的RGB特征很相似，但是动作片段中有大幅度人体动作，所以两者的光流特征有一定的区别。本发明使用时序注意力模块计算视频片段的重要性(即含动作的概率分数)。注意力模块输入是I3D特征，输出每个视频片段是动作片段的概率分数：

其中，X_i是视频V_i的输入特征，f_att(.)是注意力函数，T是视频片段的数目，是视频V_i每个片段的注意力分数，是一个T维向量，/>表示视频V_i第 t个视频片段是动作片段的分数。将注意力分数和基础网络的分数按片段维度相乘，得到一种新的预测分数(背景类分数很低)，/> 表示视频i第j个视频片段关于类别的分数，T是视频的采样后的片段数，C+1是数据集的类别数加上背景类的总数目。如同基础分类模块计算视频级别的类别分数一样，基于注意力的分类分数同样使用top_k的方法来获得视频的类别分数。基于注意力方法计算的视频i包含动作类c的分数可以表示为：

其中，在类别维度应用softmax函数得到视频关于每个类别的softmax 分数有C+1个维度，表示视频i包含C+1个动作类别的概率分数。

2.基于正则项约束的注意力滤波模块

通过观察可以发现长视频一般具有以下时域语义特征：(1)动作发生时间在整个视频时间长度中占有率很低，即时序上的稀疏性；(2)基于视频的连贯性，视频相邻帧之间的语义特征有很大的相关性。

考虑到以上视频时域语义特征，单纯的注意力网络并不会得到较好的提升，所以做了以下改进。首先，利用相邻片段之间的语义特征的相关性，使用滤波算法平滑公式(2)的注意力分数，具体操作如下，输入特征不变，对输出的片段注意力分数添加滤波操作，视频V_i的注意力分数滤波后得到A_i：

其中，X_i是视频的输入特征，f_Filter°att(.)是时序注意力-滤波函数，T是视频片段的数目，A_i,t表示视频V_i第t个视频片段是动作片段的分数。然后，基于视频时序特征(动作片段的稀疏性)添加注意力分数的正则项约束。关于正则项约束，采用L1正则化损失来约束注意力分数之和足够小以保证动作片段的稀疏性，如公式(4)。

本发明采用基于视频时序特征的注意力-滤波模块，在视频时序序列上寻找视频的关键片段，根据视频时序上动作占有时间短的特点使用正则化项约束动作片段的稀疏性，根据视频时域语义特征的连贯性使用滤波操作保证相邻片段分数的平滑性。更新后的注意力分数的后续计算与基础模型一样。

3.基于视频时域语义特征构造的辅助任务模块

视频本身的帧与帧之间是有连贯性的，也就是视频在时域上相邻帧之间的语义特征有很大的相关性。利用数据本身的语义特征构造辅助任务，在其他领域已有了很多做法。例如，在图像分类任务中有很多基于自身信息的方法，以旋转、色彩、裁剪变换等扩充数据。同样的，对于视频数据也有着天然的时序信息，视频在时域中相邻帧的语义特征具有相似性，相距较远的帧之间的语义特征不相似，可以通过这种相似与不相似构造辅助任务，即最大化距离近的视频片段对之间的特征相似度。

根据视频时域语义特征的相似性这个特点，以最大化相邻帧之间的嵌入特征相似度作为辅助任务，来提高网络对更高级特征的挖掘。但是背景帧与动作帧是紧密相邻的，而且它们之间的特征本身就很相似，如果只是约束相邻帧之间特征相似度最大化会导致背景帧与动作帧难以区分开，会使得分类分数在时间维度过于平滑。这么做只能提高分类性能，而降低动作定位的性能。考虑到这个问题，将基于注意力部分预测出来的片段级类别分数g^A作为伪标签，同时考虑时域上距离近、伪标签类别相同的前提下，最大化视频片段之间的嵌入特征相似度。

具体做法如图2，对于视频V_i来说，首先求出视频片段属于哪个动作类别并以此作为伪标签，根据伪标签将视频片段的嵌入特征放到相应的集合M_i.c中，其中集合表示在视频i中伪标签是动作类别c的片段嵌入特征集合，max_index(.)求向量最大值对应的下标函数。图2对于一个视频包含多段相同类别的片段也放入一个集合中，比如图2中的集合M_i.1。接着将集合M_i,c内相邻片段组为相似对{<z_j,z_k>||j-k|＝1,z_k,z_j∈M_i,c}。图2中的箭头连接的是一个相似对，注意图中同属于M_i.1的A,B片段并不是相似对，因为他们之间的间隔距离太大。最后，再求集合内相似对的相似度的平均值：

其中，C为类别数目，similarity(.)相似度函数是对集合内的相似对求相似度再平均的函数。

4.模型训练与测试

在训练过程中，只使用视频的类别标签，视频中可能不止一个动作类，使用视频分类分数和示例的交叉熵即标准的多示例学习MIL损失。将基础网络的分类计算的视频分数和基于注意力计算的视频分类分数分别与示例做交叉熵损失：

L_B是基础网络的视频分类分数和示例计算出的损失，L_A是基于注意力计算的的视频分类分数和示例计算出的损失。其中，N表示一批数据的总个数， C表示数据集的动作类别总数目。表示视频n添加背景类后的标签，每个视频都会包含背景类，所以令y_i；(c+1)＝1。/>表示视频i包含类别c的概率分数。不同的是，的注意力分数对于包含动作的片段可以得到高分数，对于背景片段得到低分数。所以拿基于注意力的预测分数和不包含背景类的标签作比较，/>表示视频V_i添加背景类后的标签。注意，由于注意力后的背景类分数很低甚至为0，所以令y_i；(c+1)＝0。

总体训练分为两部分，首先联合训练主干部分和基于时序注意力的部分，需要优化的损失函数如下：

L₁＝L_A+β₁L_B+γ₁L_norm (8)

其中，β₁,γ₁是超参数。在训练一定次数后，加入辅助任务部分，需要优化的损失函数如下：

L₂＝L_A+β₂L_B+γ₂L_norm+θL_S (9)

在测试部分，使用基于时序注意力预测部分的分类分数。首先是分类，根据已经获得的视频级别的分类分数设定类别阈值μ_class，只考虑大于类别阈值的动作类别。再设定分段阈值μ_seg，来选择候选片段，将连续的候选片段组成一个提名。这些阈值超参设置与大多数工作一致，最后使用最近工作，使用内部和外部区域之间的对比来计算每个提名的置信度得分。

附图说明

图1主要网络结构

图2是本发明具体实施方式。

具体实施方式

本发明采用THUMOS14数据集和ActivityNet V1.2数据集进行实验。 THUMOS14数据集包含200个验证集视频(包含3007个行为片段)和213个测试集视频(包含3358个行为片段)，共20种类别。这些经过标注的未分割视频可以被用于训练和测试时序行为检测模型。ActivityNet V1.2涵盖100个动作类别，训练和验证集中分别有4819和2383个视频。分别使用训练集和验证集进行训练和测试。因为是弱监督框架下的方法，只使用视频的视频级标签进行训练。

评估指标。遵循时序动作定位的评估标准协议，在不同的交集-并集(IOU) 阈值下，用平均精度(MAP)对的方法进行了评估。使用ActivityNet提供的评估代码进行实验。

实验设置。在的实验中，使用TVL1算法来生成片段光流，而且I3D特征提取网络未进行微调以进行公平比较。

THUMOS14的实验设置。将视频输入片段数目T固定为750，即从每个视频中采样T个片段。在训练中使用分段随机扰动采样，在测试过程中采用均匀采样，与STPN相同。在第一次训练超参数设置如下：β₁＝1.0,γ₁＝5×10^-5,k＝ 8,μ_class＝0.25,μ_seg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS) 的阈值设置为0.7以删除高度重叠的提案。第一次训练迭代40次，保留平均精度(MAP)分数最好的的网络模型。接着在第一次的训练基础上，加入辅助任务一起训练。第二次超参数设置如下：β₂＝2.0,γ₂＝5×10^-5,θ＝0.03,k＝ 8,μ_class＝0.25,μ_seg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS) 的阈值设置为0.7以删除高度重叠的提案。在训练过程中采用批量化训练，batchsize＝16。

ActivityNet V1.2的实验设置。将视频输入片段数目T固定为50，即从每个视频中采样T个片段。在训练中使用分段随机扰动采样，在测试过程中采用均匀采样，与STPN相同。在第一次训练超参数设置如下：β₁＝5.0,γ₁＝8× 10^-5,k＝8,μ_class＝0.25,μ_seg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS)的阈值设置为0.7以删除高度重叠的提案。第一次训练迭代50 次，保留平均精度(MAP)分数最好的的网络模型。接着在第一次的训练基础上，加入辅助任务一起训练。第二次超参数设置如下：β₂＝5.0,γ₂＝8×10^-5,θ＝0.005,k＝8,μ_class＝0.25,μ_seg使用一组0到0.5的阈值步长为0.025。非最大抑制(NMS)的阈值设置为0.7以删除高度重叠的提案。在训练过程中采用批量化训练，batchsize＝128。

在测试部分，使用基于时序注意力预测部分的分类分数。首先是分类，根据已经获得的视频级别的分类分数设定类别阈值μ_class，只考虑大于类别阈值的动作类别。再设定分段阈值μ_seg，来选择候选片段，将连续的候选片段组成一个动作提名。这些阈值超参设置与大多数工作一致，得到的每一个动作提名可以表示为s(t_s,t_e,c),其中，t_s表示提名的开始时间，t_e表示提名的结束时间，c表示提名的类别。通过Autoloc的方法可以计算提名的最终分数 s^*(t_s,t_e,c)。

其中τ是公式中的参数。

将模型的性能分数与最先进的弱监督方法进行了比较。表1和表2分别表示在THUMOS’14和ActivityNet1.2数据集上的比较结果。其中的水平线表示原论文未公布的结果。

消融实验。在THUMOS14数据集上做消融实验来测试网络不同组件的贡献，如表3所示。使用基础模型作为baseline，改进添加正则项约束-滤波用 RF表示，辅助任务模块用P-C表示，结果表示的两个模块改进对时序动作检测性能都有很大的增益。

表1 THUMOS14数据集上与最新的时序动作检测方法在不同的IoU上的比较。

表2 ActivityNet v1.2验证集上与弱监督时序动作检测方法的比较，平均值表示IoU阈值为0.5:0.05:0.95的平均mAP。

表3：测试各个模块对动作检测性能的影响，其中基础模型用Baseline 表示,改进添加的正则项和滤波用RF表示,基于伪标签上下文构造的辅助任务模块用P-C表示。

Claims

1.一种基于时域语义特征的弱监督时序动作检测方法，其特征在于：系统分为特征提取模块、基础分类网络、基于正则项约束的时序注意力-滤波模块和基于时域语义特征构造的辅助任务模块分别；首先，特征提取模块将输入视频分为多个不重合的片段，并获取每个片段的RGB特征和光流特征；然后，将RGB特征和光流特征输入到基础分类网络和时序注意力-滤波网络；在基础分类网络中，特征经过嵌入、分类得到片段级别的的类别分数，经过后处理得到视频级别的分数；在基于时序注意力-滤波网络，特征经过注意力-滤波卷积网络得到每个片段的注意力分数，并根据动作在时序上的稀疏性做正则项约束，再将片段的注意力分数与基础分类模块中片段类别分数相乘得到新的片段类别分数，经过同样的后处理过程得到视频级别的类别分数；其次，将片段级别的分类分数作为伪标签，并依据相邻片段时域语义的相关性，以最大化类内片段特征的相似度为辅助任务；在训练中，先对基础分类网络和基于时序特征的注意力-滤波网络进行训练，然后再加入辅助任务模块协同训练；在测试中，只采用基于时序注意力-滤波分支的分数进行分类定位；

具体为：

从每个视频划分好的片段序列中采样固定数量的T段视频；接着对视频片段提取出RGB和光流特征，视频V_i采样后的片段序列集合表示为其中，/>表示视频V_i中第j个视频片段的特征，d是每段视频的特征维度；使用I3D网络作为特征提取网络，进行了预训练；

基础分类模块；使用卷积和残差网络构造特征嵌入模块；特征嵌入模块的输入是I3D特征，视频V_i嵌入特征表示为其中f_embed(.)是嵌入模块；接着，使用分类器对视频片段分类，得到每个片段关于每个类别的置信分数，共有T*(C+1)个置信分数，视频V_i的片段类别分数/>其中f_c(.)是分类函数，表示第i个视频的第j个片段关于每个类别的分数，T是采样后的视频片段数目，C+1是数据集的类别数加上背景类的总数目；采用top_k的计算方法把片段级别的类别分数融合为视频级别的分数；视频V_i包含动作类c的分数表示为公式(1)：

其中，是将视频片段关于类别C的置信分数取出，/>找出最大的前k个置信分数，/>对最大的前k个置信分数求均值作为视频V_i包含动作类c的置信分数；k是一个根据视频长度设置的一个超参数，/>是一个标量表示视频i包含动作类别c的置信分数；在类别维度应用softmax函数得到视频关于每个类别的softmax分数/>

注意力模块；使用时序注意力模块计算视频片段的重要性即含动作的概率分数；注意力模块输入是I3D特征，输出每个视频片段是动作片段的概率分数：

其中，X_i是视频V_i的输入特征，f_att(.)是注意力函数，T是视频片段的数目，是视频V_i每个片段的注意力分数，是一个T维向量，/>表示视频V_i第t个视频片段是动作片段的分数；将注意力分数和基础网络的分数按片段维度相乘，得到一种新的预测分数，表示视频i第j个视频片段关于类别的分数，T是视频的采样后的片段数，C+1是数据集的类别数加上背景类的总数目；如同基础分类模块计算视频级别的类别分数一样，基于注意力的分类分数同样使用top_k的方法来获得视频的类别分数；

基于注意力方法计算的视频i包含动作类c的分数表示为：

其中，在类别维度应用softmax函数得到视频关于每个类别的softmax分数有C+1个维度，表示视频i包含C+1个动作类别的概率分数；

基于正则项约束的注意力滤波模块

首先，利用相邻片段之间的语义特征的相关性，使用滤波算法平滑公式(2)的注意力分数，具体操作如下，输入特征不变，对输出的片段注意力分数添加滤波操作，视频V_i的注意力分数滤波后得到A_i：

其中，X_i是视频的输入特征，是时序注意力-滤波函数，T是视频片段的数目，A_i，t表示视频V_i第t个视频片段是动作片段的分数；然后，基于视频时序特征即动作片段的稀疏性添加注意力分数的正则项约束；关于正则项约束，采用L1正则化损失来约束注意力分数之和足够小以保证动作片段的稀疏性，如公式(4)；

基于视频时域语义特征构造的辅助任务模块

将基于注意力部分预测出来的片段级类别分数g^A作为伪标签，同时考虑时域上距离近、伪标签类别相同的前提下，最大化视频片段之间的嵌入特征相似度；

对于视频V_i来说，首先求出视频片段属于哪个动作类别并以此作为伪标签，根据伪标签将视频片段的嵌入特征放到相应的集合M_i.c中，其中集合表示在视频i中伪标签是动作类别c的片段嵌入特征集合，max_index(.)求向量最大值对应的下标函数；对于一个视频包含多段相同类别的片段也放入一个集合中；接着将集合M_i，c内相邻片段组为相似对{＜z_j，z_k＞||j-k|＝1，z_k，z_j∈M_i，c}；最后，再求集合内相似对的相似度的平均值：

其中，C为类别数目，similarity(.)相似度函数是对集合内的相似对求相似度再平均的函数；

模型训练与测试

在训练过程中，只使用视频的类别标签，视频中可能不止一个动作类，使用视频分类分数和示例的交叉熵即标准的多示例学习MIL损失；将基础网络的分类计算的视频分数和基于注意力计算的视频分类分数分别与示例做交叉熵损失：

L_B是基础网络的视频分类分数和示例计算出的损失，L_A是基于注意力计算的的视频分类分数和示例计算出的损失；其中，N表示一批数据的总个数，C表示数据集的动作类别总数目；表示视频n添加背景类后的标签，每个视频都会包含背景类，所以令y_i；(c+1)＝1；/>表示视频i包含类别c的概率分数；不同的是，的注意力分数对于包含动作的片段得到高分数，对于背景片段得到低分数；所以拿基于注意力的预测分数和不包含背景类的标签作比较，/>表示视频V_i添加背景类后的标签；注意，由于注意力后的背景类分数很低甚至为0，所以令y_i；(c+1)＝0；

L₁＝L_A+β₁L_B+γ₁L_norm (8)

其中，β₁，γ₁是超参数；，需要优化的损失函数如下：

L₂＝L_A+β₂L_B+γ₂L_norm+θL_S (9)

在测试部分，使用基于时序注意力预测部分的分类分数；首先是分类，根据已经获得的视频级别的分类分数设定类别阈值μ_class，只考虑大于类别阈值的动作类别；再设定分段阈值μ_seg，来选择候选片段，将连续的候选片段组成一个提名；最后使用最近工作，使用内部和外部区域之间的对比来计算每个提名的置信度得分。

2.根据权利要求1所述的一种基于时域语义特征的弱监督时序动作检测方法，其特征在于，THUMOS14的实验设置：将视频输入片段数目T固定为750，即从每个视频中采样T个片段；在训练中使用分段随机扰动采样，在测试过程中采用均匀采样；在第一次训练超参数设置如下：β₁＝1.0，γ₁＝5×10^-5，k＝8，μ_class＝0.25，μ_seg使用一组0到0.5的阈值步长为0.025；非最大抑制的阈值设置为0.7以删除高度重叠的提案；第一次训练迭代40次，保留平均精度分数最好的的网络模型；接着在第一次的训练基础上，加入辅助任务一起训练；第二次超参数设置如下：β₂＝2.0，γ₂＝5×10^-5，θ＝0.03，k＝8，μ_class＝0.25，μ_seg使用一组0到0.5的阈值步长为0.025；非最大抑制的阈值设置为0.7；在训练过程中采用批量化训练，batchsize＝16；

ActivityNet V1.2的实验设置：将视频输入片段数目T固定为50，即从每个视频中采样T个片段；在训练中使用分段随机扰动采样，在测试过程中采用均匀采样，与STPN相同；在第一次训练超参数设置如下：β₁＝5.0，γ₁＝8×10^-5，k＝8，μ_class＝0.25，μ_seg使用一组0到0.5的阈值步长为0.025；非最大抑制的阈值设置为0.7以删除高度重叠的提案；第一次训练迭代50次，保留平均精度分数最好的的网络模型；接着在第一次的训练基础上，加入辅助任务一起训练；第二次超参数设置如下：β₂＝5.0，γ₂＝8×10^-5，θ＝0.005，k＝8，μ_class＝0.25，μ_seg使用一组0到0.5的阈值步长为0.025；非最大抑制的阈值设置为0.7以删除高度重叠的提案；在训练过程中采用批量化训练，batchsize＝128。