CN116168329A

CN116168329A - 基于关键帧筛选像素块的视频动作检测方法、设备及介质

Info

Publication number: CN116168329A
Application number: CN202310307393.XA
Authority: CN
Inventors: 王利民; 陈蕾; 武港山
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-05-26

Abstract

基于关键帧筛选像素块的视频动作检测方法、设备及介质，构建检测器对输入视频片段进行动作检测，检测器对视频帧进行特征提取以及以关键帧为中心的token筛选，然后基于查询对关键帧进行人物定位，最后基于扩展的RoI和紧凑的时空上下文进行关系建模，预测人物可能执行的多个动作。本发明提出了一种加速视频动作检测器EVAD，在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块，以逐步删除非关键帧特征中的无效tokens，并以端到端的方式预测人物定位和动作分类，极大地提升了模型的推理速度，对实时动作检测友好。

Description

基于关键帧筛选像素块的视频动作检测方法、设备及介质

技术领域

本发明属于计算机技术领域，涉及时空动作检测技术，为一种基于关键帧筛选像素块的视频动作检测方法、设备及介质。

背景技术

Transformer广泛应用于计算机视觉的各种任务中，例如图像分类、目标检测、视频分类等，并取得了可观的效果。此外，还有一些方法正在探索Transformer的新的结构以提高模型的识别性能。Transformer自注意力模块中的二次复杂度在迁移到计算机视觉时成为了计算瓶颈。特别是当应用到数据更密集的视频任务时，Transformer可能会带来显著的计算成本增加。同时，视频具有固有的高时空冗余，相邻帧之间具有相似的语义信息，因此保留所有的视觉像素块(token)会造成一定的计算浪费。

视频动作检测是一项复杂的视频理解任务，在常见的帧级动作检测器中也存在着冗余问题：一个输入视频片段由关键帧和相邻的上下文帧组成，检测器负责输出在关键帧上的人物定位和对应的动作分类结果。堆叠更多的非关键帧会带来有效的上下文信息，但不可避免地引入冗余信息和额外的计算。此外，由于动作执行者(actor)的运动或摄像机的移动，actor的空间位置在相邻帧之间可能会发生变化，因此利用关键帧得到的预测框在整个视频片段上进行actor特征截取会丢失actor的部分信息(超出预测框范围)。本发明研究发现，若能将视频序列中的冗余信息进行剔除，只保留对动作检测有效的信息，一方面可以减少参与计算的tokens数量，提升模型速度。另一方面，由于背景信息被剔除，可以适当扩展预测框的区域来提取人体的完整特征而不会引入干扰信息。

发明内容

本发明要解决的问题是：现有的帧级时空动作检测器的输入为连续的视频帧，输出为关键帧上的人物定位和动作分类结果，堆叠更多的非关键帧会带来有效的上下文信息，但也成为限制时空动作检测器性能和速度的瓶颈。特别地，当使用Transformer类模型作为基础网络时，联合时空注意力机制的二次计算复杂度会带来显著的计算成本增加。

本发明的技术方案为：构建一种加速视频动作检测器EVAD对输入视频片段进行动作检测，检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段，具体如下：

1)生成输入样例：以具有标签信息的那一帧为中心，即关键帧，向前向后抽取a帧的时序上下文，组成2a帧的输入帧序列，再均匀采样出b帧，作为检测器的输入视频序列；

2)抽取视频序列特征：使用视频ViT作为特征提取网络，对步骤1)生成的视频序列进行特征提取，得到时间分辨率保持不变，空间分辨率下采样16倍的代表视频特征的token序列f；

3)以关键帧为中心的tokens筛选：在ViT的部分MHSA和FFN层中引入以关键帧为中心的tokens选择机制，减少参与计算的非关键帧token数量，降低输入内部的时空冗余性，首先定义有效的tokens，包括来自关键帧的全部tokens，和非关键帧中重要性分数大的tokens，所述重要性分数使用注意力图来刻画每个token的重要程度，对非关键帧每次选择保留设定比例的重要tokens；每经过ViT编码器总层数的1/4执行一次token选择，丢掉冗余tokens，保留有效tokens送入当前位置后续的FFN中，共执行三次；

4)基于查询的关键帧人物定位：将步骤3)中进行了tokens筛选设计的ViT编码器的中间层特征图按总层数的1/4等间隔取出，进行上/下采样组成关键帧的多尺度特征图集合，送入FPN进行特征融合，接着，由人物定位分支使用基于查询的方法在关键帧多尺度特征图集合上预测N个边界框坐标bbox和对应的置信度分数conf，conf表示框内包含人物的可能性；

5)基于扩展RoI和紧凑时空上下文的人物动作分类：由动作分类分支进行动作类别预测，初始化一个空的特征图f_blank，把步骤3)保留下来的M个tokens经过一层Linear进行降维，接着按其对应的时空位置放置在f_blank中，其余位置用0进行填充，作为时空特征图，接着，使用步骤4)预测的边界框进行设定程度的扩展，在该时空特征图上进行RoIAlign，得到N个人物的RoI特征，随后，构建一个上下文交互解码器在人物特征与来自ViT编码器的上下文信息之间进行场景建模，将N个人物的RoI特征与M个时空tokens拼接在一起，送入一个堆叠6层的解码器网络中，每层由MHSA和FFN组成，与ViT编码器一致，将输出中的N个RoI特征取出，经过MLP作最后的动作分类action，得到最终的动作类别预测结果；

6)训练阶段：将步骤2)中的ViT使用VideoMAE提供的Kinetics预训练和微调后的权重初始化，其余新增层使用Xavier初始化，人物定位分支利用集合预测损失实现预测与真实值的最优二分匹配，集合损失函数L_set包括：边界框的L1损失L_L1，边界框的GIoU损失L_GIoU和置信度损失L_conf；动作分类分支由动作分类损失L_act表示，只计算在集合预测损失计算过程中与真实值匹配成功的预测值，四个损失函数按照设定的比例加权，用AdamW优化器进行优化，不断重复直到达到迭代次数；

7)测试阶段：给定输入视频片段，依次经过步骤1)至步骤5)得到在关键帧上的人物动作检测结果，验证所构建检测器的动作检测性能；

步骤1)对应生成输入样例阶段，步骤2)～5)对应网络配置阶段，步骤6)对应训练阶段，步骤7)对应测试阶段。

本发明研究发现，相比于关键帧保留了actor的完整轮廓，非关键帧与动作语义的关联性相对较小。为了提高动作检测的效率，本发明在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块，以逐步删除非关键帧特征中的无效信息。在该模块的基础上，本发明设计一个用于高效动作检测的检测模型，称为加速视频动作检测器EVAD。在EVAD中，只保留非关键帧中与动作语义最相关的tokens以辅助最终的动作分类。例如，在非关键帧中人们的眼睛和嘴与“talk to”动作相关联，挥动的手与“point to”相关联，而其余的tokens是冗余的，应当在筛选过程中被丢掉。本发明在对视频图像的特征提取阶段引入token选择机制，在一次选择中，会保留设定比例的tokens，它们由两部分组成：1)关键帧的所有tokens，2)非关键帧中重要性分数高的tokens，分数由关键帧查询加权平均后的注意力值表示。因此，称之为以“关键帧为中心”的选择机制。以ViT-B骨干网络为例，本发明每隔三层执行一次token选择。然后，利用扩展后的预测框在被保留下来的特征图上进行RoIAlign操作，以便捕捉到actor完整的时空信息。随后，使用Transformer解码器(decoder)在actor感兴趣区域(the region of interest，RoI)特征和从编码器(encoder)中提取的紧凑上下文信息之间进行上下文建模，可以获得比之前一些精心设计的动作检测头更好的结果。本发明在三个动作检测基准数据集AVA,UCF101-24,JHMDB上进行实验来展示EVAD的性能优势，与vanilla ViT相比，本发明的EVAD确保检测精度不降低的同时减少了43％的GFLOPs，并将实时推理速度提高了40％。此外，即使在相当的计算成本下，EVAD也可以在更高的分辨率输入下提高1％的检测性能。

本发明与现有技术相比有如下优点

本发明考虑到视频固有的高冗余性和相邻帧之间的语义相似的特点，提出了一种以关键帧为中心的token选择算法，在保持动作检测精度不变的情况下剔除时空冗余信息，从而节省计算成本。

在token选择模块的基础上，本发明设计了一个端到端的时空动作检测器，能够媲美当前最好的两阶段模型的检测性能。

本发明是第一个使用单一、非层次Transformer网络结构的端到端动作检测模型，结合低保留率的token选择策略，极大地提升了模型的推理速度，对实时动作检测友好。同时，EVAD具有很强的扩展性和可移植性，可以作为一个高效而简洁的动作检测基线，适用到更多的动作检测模型中。

附图说明

图1为本发明的方法流程图。

图2是本发明所使用的检测框架图。

图3是本发明提出的EVAD特征提取网络的网络结构图。

图4是本发明提出的以关键帧为中心的token选择模块示意图。

图5是施加token选择策略后token保留情况示意图。

图6是本发明提出的基于查询的定位分支示意图。

图7是本发明提出的动作分类分支示意图。

图8是扩展RoI范围以覆盖人的完整轨迹示意图。

具体实施方式

本发明提出了一种加速视频动作检测器EVAD，利用视频固有的高时空冗余和相邻帧之间语义相似的特点，在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块以逐步删除非关键帧特征中的无效tokens，并以端到端的方式预测人物定位和动作分类。如图1所示，检测器对视频帧进行特征提取以及以关键帧为中心的token筛选，然后基于查询对关键帧进行人物定位，最后基于扩展的RoI和紧凑的时空上下文进行关系建模，预测人物可能执行的多个动作。

本发明的检测器由三部分组成：首先，将一组以固定步长进行采样得到的视频帧序列输入到EVAD特征提取网络中进行特征提取。在特征提取阶段等间隔地插入我们所设计的token选择模块，用于保留与动作检测任务最相关的非关键帧tokens。接着，依次执行两个检测头分支：(1)人物定位分支：预测一组视频帧序列中关键帧上的人物位置；(2)动作分类分支：结合上下文信息对关键帧上的人物进行多标签动作分类。联合人物定位分支和动作分类分支的输出，作为最终的时空动作检测结果。

本发明方法包括以下工作：

(1)设计了针对动作检测特性的高效token选择机制，在特征提取阶段逐步剔除参与计算的非关键帧tokens，降低视频输入中的冗余性和显著提升模型的运行速度。

(2)在人物定位分支中，对特征提取阶段的中间层特征图进行上/下采样来组成关键帧的多尺度特征图，并将它们送入特征金字塔网络(feature pyramid network，FPN)进行多尺度融合。接着，通过基于查询的方法预测关键帧上的N个候选框。

(3)在动作分类分支中，将定位分支得到的N个候选框进行适当扩展后，在重组的时空特征图上进行RoIAlign操作，得到包含人物完整信息的RoI特征。随后，在RoI特征与编码器输出的紧凑上下文特征之间进行上下文信息建模，更新后的RoI特征经过MLP进行多标签动作预测。最后，直接结合两个分支的输出，无需额外的后处理过程，得到关键帧上最终的动作检测结果。

本发明的加速视频动作检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段，下面具体说明本发明的实施，以步骤1)对应生成输入样例阶段，步骤2)～5)对应网络配置阶段，步骤6)对应训练阶段，步骤7)对应测试阶段。

1)生成输入样例：对于训练和测试视频，以具有标签信息的那一帧为中心，即关键帧，向前向后抽取32帧的时序上下文，组成64帧的输入帧序列，再按步长为4均匀采样出16帧，作为检测器模型的输入。训练阶段，对于每一帧RGB图像，执行随机缩放，即设置图像短边范围为256～320像素，长边不超过1333像素。接着，对图像帧进行随机水平翻转和颜色抖动等数据增强。测试阶段，对于每一帧图像，将短边缩放为256像素，不进行额外的数据增强。我们下面将训练和测试的输入序列统称为

T为帧数，H、W为图形的宽高。

具体过程为：

1.1)从输入视频抽帧得到的原始视频序列V如下：

V＝{Img_-32,…,Img_-2,Img_-1,Img₀,Img₁,Img₂,…,Img₃₁}

其中Img₀表示关键帧，序号-32～-1表示关键帧左侧帧序列，序号1～31表示关键帧右侧帧序列，原视频的FPS为30，V包含约2s的上下文信息。

1.2)按固定步长对V采样后的视频序列I如下：

I＝{Img_-32,…,Img_-8,Img_-4,Img₀,Img₄,Img₈,…,Img₂₈}

其中Img₀仍表示关键帧，Img_i与关键帧的相对序号不变，按照固定步长为4进行采样，I经过一系列数据处理和数据增强后作为模型的输入。

2)抽取视频序列特征：使用视频ViT作为基础网络结构对1)生成的输入序列I进行特征提取，提取到代表视频特征的token序列

具体地，视频ViT首先执行像素块切分(tokenization)，将I划分成彼此不重叠的/>

个cubes，每个cube的大小为2×16×16。然后，使用cube embedding将每个cube映射成三维token。接着，给所有的tokens添加位置编码信息后，送入一个堆叠L层的编码器(encoder)网络，每层由多头自注意力层(multi-head self-attention layer，MHSA)和前馈网络(feed-forward network，FFN)组成的。编码器的输出f作为视频的时空特征图供后续检测流程使用。在我们的系统中，当使用ViT-Base作为基础网络时，通道维度D＝768，编码器层数L＝12；当使用ViT-Large时，D＝1024，L＝24。

步骤2)具体实现为：

2.1)对输入序列I进行像素块切分(tokenization)，将I划分成彼此不重叠的cubes：

其中T,H,W分别表示视频的时序长度，视频帧的高和宽，每个cube的大小为2×16×16，cubes的总数量为

2.2)使用cube embedding层将每个cube映射成3维token，构成视频序列x：

其中CubeEmbedding的功能可以使用一个kernel和stride均为(2,16,16)的3D卷积操作实现，卷积的输出通道数为D。

2.3)为视频序列x添加3D正余弦位置编码pos：

x＝x+pos

其中

表示默认分辨率下的位置编码，由于数据集中图像长宽比不固定，需要对pos₀的空间位置编码使用双三次(bicubic)插值进行在线插值。

2.4)使用L层的Transformer encoder对视频序列x进行特征提取，每一层encoderlayer的输入为x_l-1，输出为x_l：

x′_l＝MHSA(LN(x_l-1))+x_l-1

x_l＝FFN(LN(x′_l))+x′_l

其中MHSA表示多头自注意力层，FFN表示前馈网络，LN表示LayerNorm。第L层的输出x_L作为视频的时空特征供后续检测流程使用。

3)以关键帧为中心的token筛选：在2)的基础网络结构内部引入基于注意力值的token选择机制，与EViT类似，在部分层的MHSA和FFN之间加入token选择环节，确保少而精的tokens被传递下去进行动作定位和分类，以减少tokens间的时空冗余性。为了在筛选时保留低冗余且更有效的tokens，我们首先需要定义哪些是有效的tokens。在本发明的token选择方法中，有效的tokens由两部分组成：1)来自关键帧的tokens，2)非关键帧中注意力/重要性分数大的tokens。在时空动作检测任务中，人物的边界框位置以及动作的类别都依赖于关键帧信息，其他帧只对动作分类起到辅助作用。因此，本发明将关键帧的全部tokens定义为有效tokens。

对于非关键帧中tokens的重要性度量，本发明使用计算好的注意力图来刻画每个token的重要程度，不引入额外的可学习参数和大的计算开销。首先，对注意力图的num_heads维取平均，得到一个RxR的矩阵表示tokens之间的attentiveness(忽略batch size)。例如，以attn(i，j)表示查询i认为像素块j具有的重要程度。根据前面的分析，关键帧对于人的定位和动作类别更重要，属于关键帧的那些tokens在重要性计算中应起到更大的作用，因此给关键帧查询施加更大的权重值，从而更好地保留那些与关键帧关联性更高的tokens。换句话说，本发明会过滤掉部分只对非关键帧具有高响应的tokens，这些tokens对于当前样本是冗余的。接着，对查询维进行加权平均计算每个token的重要性分数。然后，按重要性分数降序地从N₂个非关键帧tokens中选择前N_t×ρ-N₁个tokens，其中N_t，N₁,N₂分别表示当前样本的所有tokens，关键帧tokens和非关键帧tokens的数量，ρ表示token保留率，当ρ＝70％时模型能达到最好的性能-效率平衡，故设为系统默认值。在执行完token选择后，使用保留下来的tokens送入编码器层后续的FFN中。本发明中共执行3次token选择，在编码器的1/3处执行第一次token选择，确保模型具有较高层级的语义表示能力，即每经过总层数的1/4执行一次token选择，丢掉冗余tokens，保留有效tokens。经过多次筛选，大幅度减少token数量，使得模型减少不必要的计算量，加速训练和预测过程。原输入序列I经过带有token选择机制的视频ViT网络，视频特征更新为：

上述引入以关键帧为中心的token选择机制的一个实施例为：

以ViT-Base(12层)为例，token选择模块的插入位置如下：

Encoder＝{L₀，L₁，L₂，T₃，L₄，L₅，T₆，L₇，L₈，T₉，L₁₀，L₁₁}

其中T₃，T₆，T₉等表示带有以关键帧为中心的token选择模块的encoder layer，其他L₀，L₁，L₂等表示步骤2)中普通的各层encoder layer。

对于T₃，T₆，T₉层，在MHSA和FFN模块之间加入token选择环节，选择过程如下：

3.1)使用预计算的自注意力矩阵衡量每个token的重要程度：

其中attn是一个R×R的矩阵，attn(i,j)表示查询i认为像素块j具有的重要程度，R为输入tokens的数量。D表示查询的通道维度，Head表示多头数量。

3.2)给关键帧查询施加较大的权重，以更好地保留那些与关键帧关联性更高的tokens，像素块j的重要程度Imp_j可表示为：

其中N_t,N₁,N₂分别表示所有tokens，关键帧tokens和非关键帧tokens数量，前N₁个tokens属于关键帧，权重w作为一个超参，本发明优选设置为4，增加关键帧tokens的权重。

3.3)根据重要性分数Imp，进行token选择：

selected_tokens＝topK(tokens,Imp,N_t×ρ-N₁)

其中tokens表示输入的tokens，selected_tokens表示经过选择后保留的tokens，ρ表示token保留率keep rate，在本发明中优选设置为70％，topK根据Imp降序地从N₂个非关键帧tokens中选择前N_t×ρ-N₁个tokens，与N₁个关键帧tokens一起返回，作为后续网络的输入。

步骤3)在视频ViT网络内部引入以关键帧为中心的token选择机制，利用视频固有的高冗余性和相邻帧语义相似的特点，在特征提取阶段逐步剔除非关键帧中的冗余信息，使得模型减少不必要的计算量，大大加快了模型的执行速度。不同于常规方法使用Transformer直接对输入视频进行特征提取，而忽略了堆叠时序上下文带来的信息冗余所造成的计算资源浪费，本发明从解决输入中的高冗余出发，提升动作检测效率。在特征提取的过程中，本发明将三个token选择模块均匀地插入到基础网络结构中，没有引入新的模型参数。以关键帧为中心的token选择机制利用预计算好的自注意力矩阵为每个非关键帧token计算重要性分数，其中对属于关键帧的查询施以更大的权重以突显动作检测中关键帧的重要作用。接着，根据重要性分数降序地保留前70％个tokens，得到更紧凑的视频时空表征用于后续检测。

4)基于查询的关键帧人物定位：将步骤3)的基础网络，即进行了tokens筛选设计的ViT编码器的中间层特征图按总层数的1/4等间隔取出，从浅到深分别进行上/下采样组成4种尺度的关键帧特征图集合，方式为最近邻插值，得到的空间分辨率依次为

接着，将得到的层级特征送入FPN中进行降维和特征融合，使浅层特征保留细节信息的同时具有深层语义。人物定位分支采用基于查询的方式在该关键帧特征集合上预测N个边界框坐标/>

和对应的置信度分数/>

表示框内包含人物的可能性。遵循Sparse R-CNN的做法，本发明设置N个可学习的候选框和对应的候选特征。人物定位分支共6层，每层由一个在候选特征间进行交互的自注意力层、一个在候选特征和对应RoI特征间进行交互的动态实例交互层和一个FFN层组成，每层的输出再分别经过回归层和分类层，得到修正的候选框和对应的置信度分数。最后一层更新得到的候选框和对应的置信度作为人体检测的最终结果。

步骤4)人物定位分支生成关键帧上人物边界框和置信度具体如下：

4.1)取出关键帧中间层特征f＝{f₂，f₅，f₈，f₁₁}，并采用最近邻插值得到多尺度特征：

其中f₂，f₅，f₈，f₁₁表示步骤3)的网络结构中对应层输出的视频特征，Interpolate(f，g)表示对视频特征f的空间分辨率采用最近邻(nearest)插值到g倍。

4.2)将多尺度特征送入FPN进行降维和特征融合：

{p₂，p₅,p₈,p₁₁}＝FPN({f′₂,f′₅,f′₈,f′₁₁})

其中f′₂,f′₅,f′₈,f′₁₁的通道维度为D，p₂,p₅,p₈,p₁₁的通道维度为d，在本实施例中，D＝768/1024，d＝256。

4.3)设置N个可学习的候选框

和对应的候选特征

使用6层的定位分支更新候选框和候选特征，对于每一层：

首先根据prop_bbox的大小选择适当尺度的特征图截取RoI特征roi_feat_l：

其中S_H×S_W表示RoI特征的空间分辨率，在我们的系统中设置为7×7。

接着，利用上一层的prop_feat_l-1和新生成的roi_feat_l更新候选特征：

prop_feat′_l＝LN(Dropout(MHSA(prop_feat_l-1))+prop_feat_l-1)

prop_feat_l＝LN(Dropout(FFN(prop_feat″_l))+prop_feat″_l)

其中prop_feat′_l,prop_feat″_l表示中间结果，MHSA,FFN,LN同步骤2)中编码器的网络结构，inst_interact表示一个动态实例交互层，使用由prop_feat生成的卷积参数对相应的RoI特征执行1×1动态卷积。

最后，分别进行边界框和置信度回归，得到每一层的候选框prop_bbox_l和置信度conf_l作为训练过程的中间层监督信号：

本发明步骤4)的关键帧人物定位从步骤3)中非层次化的输出结果中生成层次化多尺度特征图，并利用基于查询的方法在该特征图组上预测关键帧的人物位置和置信度。本发明是第一个将Transformer基础网络同基于查询的检测方法很好结合起来的方法，也是第一个使用非层次化Transformer模型实现人物定位，从而实现端到端方式的方法。

5)基于扩展RoI和紧凑时空上下文的人物动作分类：与常规的特征提取阶段得到的输出不同，步骤3)得到M个离散的时空tokens。本发明需要先恢复特征图的时空结构，才能执行后续的诸如RoIAlign等的位置相关操作。初始化一个空的特征图

把保留下来的tokens经过一层Linear进行降维，接着按其对应的时空位置放置在f_blank中，其余位置用0进行填充，作为进行后续操作的时空特征图。

接下来就是得到N个人物的特征进行动作预测。常规的做法使用步骤4)的定位分支预测的边界框在上述时空特征图上截取人物的RoI特征。但由于人处于运动中或相机的水平移动，导致人在不同帧的空间位置发生变化，使用关键帧的预测框截取特征时可能无法得到部分偏离了预测框范围的人物特征。可以直接扩展边界框的范围来覆盖到人的完整特征，但这会引入背景或其他干扰信息，从而影响人物本身的特征表示。然而，经过本发明步骤3)的特征提取阶段后，特征图中的干扰信息已经被剔除，此时我们将边界框的范围稍微扩大后再进行RoIAlign操作，来引入由于运动而偏离的人体特征。

得到人物的RoI特征后，可以直接通过分类层进行最终的动作预测。但随着复杂场景下的多人动作检测数据集(如AVA，Multisports等)的出现，动作可能是与场景中的其他人或物体的交互而产生，例如“talk to someone”，“work on computer”等。很多方法不再只关注actor本身的特征，而是研究各种不同的关系建模手段以捕获交互，从而得到更好的特征表示。对此，本发明也设计了一个上下文交互解码器(Context InteractionDecoder)，在人物特征与来自编码器的紧凑上下文信息之间进行场景建模。本发明将N个人物的RoI特征与M个时空tokens拼接在一起，送入一个堆叠6层的解码器网络中，每层由MHSA和FFN组成，与编码器一致。将输出中的N个RoI特征取出，经过MLP作最后的动作分类

EVAD解码器的实现简单，得益于特征提取阶段得到的紧凑上下文表征，能够得到比一些精心设计的复杂动作分支更好的检测效果。

在预测人物动作类别时，步骤5)将步骤3)输出的紧凑视频特征恢复其时空位置，使用步骤4)预测的边界框的扩展版截取人物的RoI特征。进一步，使用结构简单的decoder在RoI特征与紧凑上下文间进行关系建模，并将更新后的RoI特征用于最终的动作分类。

步骤5)的一个具体实施如下。

5.1)恢复特征图的时空结构：

其中

表示步骤3)网络最终输出的离散序列，/>

表示其余位置用0填充。将步骤3)保留下来的tokens经过通道降维后得到离散特征图x′_L，再将其按对应的时空位置放入一个空的特征图中，得到连续的时空特征图X；

5.2)扩展边界框的范围来覆盖到人的完整特征迹：

prop_bbox＝Extend(prop_bbox_L,extend_scale)

其中prop_bbox为扩展的边界框，roi_feat表示人物的RoI特征，prop_bbox_L为步骤4)定位分支预测的边界框，extend_scale表示扩展系数，本发明优选extend_scale＝(0.4,0.2)，此时模型性能最优，表示宽度维向外扩展0.4倍，高度维向外扩展0.2倍。

5.3)使用6层的decoder在扩展RoI与紧凑上下文之间执行关系建模，输出预测的动作：

其中num_classes表示数据集的动作类别数量，这里数据集为预设的动作类别数据集，在哪个数据集上进行测试，就表示那个数据集包括的类别数量。对于解码器每一层，设输入为y_l-1，输出为y_l，则有：

y′_l＝MHSA(LN(y_l-1))+y_l-1

y_l＝FFN(LN(y′_l))+y′_l

网络结构步骤同2)的编码器，其中y_l＝[roi_feat_l；x_l],对更新的roi_feat_l执行动作分类预测，得到每一层的动作分数action_l作为训练过程的中间层监督信号：

步骤5)人物动作分类分支将4)中预测的边界框进行适当扩展以包含人物完整的时空特征。不同于常规使用边界框直接截取RoI特征的方法，本发明在步骤3)中将诸如背景的无效信息进行剔除，因此可以适当扩展边界框以引入由于运动而偏离的人体特征，而不会引入干扰信息。同样，得益于3)中提取到的紧凑的上下文信息，本发明使用一个结构简洁、参数量较少的decoder结构进行上下文建模，能够得到比一些设计更为复杂的动作分类模型更好的检测效果。

6)训练阶段：对于模型的初始化，步骤2)中的基础网络使用VideoMAE提供的Kinetics预训练和微调后的权重初始化，步骤3)中添加的token选择模块无新增参数，步骤4)人物定位分支和步骤5)动作分类分支中的新增层使用Xavier初始化。遵循WOO原论文中的训练方式，对于人物定位分支，利用集合预测损失实现预测与真实值的最优二分匹配，步骤4)的集合预测损失L_set包括：边界框的L1损失L_L1，边界框的GIoU损失L_GIoU和置信度损失函数L_conf，使用交叉熵损失监督。对于动作分类分支，只计算在集合预测中与真实值匹配成功的预测值，步骤5)的动作分类损失L_act使用二元交叉熵损失监督，每个人物可能具有多个动作。对两个分支均监督中间层输出。各个损失函数的权重分别为λ_L1＝5,λ_GIoU＝2,λ_conf＝2,λ_act＝4。对总体损失使用AdamW优化器进行优化，通过反向传播算法来更新网络参数，不断重复直到达到迭代次数。训练损失函数具体计算过程如下：

L_set＝λ_L1L_L1+λ_GIoUL_GIoU+λ_confL_conf

L＝L_set+λ_actL_act

7)测试阶段：给定输入视频片段，直接预测N个候选框和对应的人物检测分数和动作分类分数，实施例设置N＝100，不需要额外的后处理操作，如非最大抑制，保留检测置信度分数超过0.7的作为最终结果。

本发明在三个动作检测基准数据集(AVA，UCF101-24，JHMDB)上都达到了高准确性，具体使用Python3编程语言，Pytorch1.7.1深度学习框架实施。图2为本发明一个具体实施系统框架示意图，具体实施如下。

1)生成输入样例：AVA数据集是稀疏型标柱数据集，每秒按1FPS进行标注。对于AVA，我们以具有标签信息的那一帧为中心，取前后共64帧的时序上下文，再按步长为4均匀采样16帧，作为模型的输入。UCF101-24和JHMDB是密集型标注数据集，每秒按30FPS进行标注。在训练集上，我们以每一个存在动作实例的帧作为样例，在测试集上，所有帧均作为输入样例，时序采样同AVA。训练阶段，对于每一帧RGB图像，执行随机缩放，即设置图像短边范围为256～320像素，长边不超过1333像素。接着，对图像帧进行随机水平翻转和颜色抖动数据增强。将得到的图片序列减去ImageNet数据集三通道的均值并除以三通道的标准差实现归一化，最后转换为Tensor的形式，按批处理并打乱数据加载次序。测试阶段，对于每一帧图像，将短边缩放为256像素，不进行额外的数据增强。

2)特征提取网络的配置阶段，使用Vision Transformer作为基础网络结构，使用VideoMAE提供的Kinetics预训练和微调后的权重初始化网络参数，如图3所示，当keeprateρ取1时，对应于原始的Transformer网络结构。对1)中生成的输入序列进行特征提取，网络输入大小为T*H*W*3，经过cube embedding以及L层的encoder网络，输出的特征图为(T/2*H/16*W/16)*D，对于ViT-Base网络，L＝12，D＝768；对于ViT-Large网络，L＝24，D＝1024。网络中stage1-4输出的关键帧特征图送入人物定位分支，stage4输出的时空特征图送入动作分类分支得到时空动作检测的结果。

3)以关键帧为中心的token筛选在特征提取阶段逐步剔除非关键帧中时空冗余tokens，如图4所示，设置keep rate<1时实施token选择策略，在每个stage1-3后跟随一个带有token选择模块的encoder层。对1)中生成的输入序列进行特征提取时，会逐步减少参与计算的token数量，网络输入大小为T*H*W*3，输出的特征图为(T/2*H/16*W/16*p^3)*D，keep rate＝0.7时，token数量大幅减少，模型的GFLOPs总数也随之下降。

具体的token选择算法如图4所示，将输入的token序列(含N_t个tokens)划分为关键帧序列(含N₁个tokens)和非关键帧序列，并保留全部的关键帧tokens。对于非关键帧tokens，使用预计算的自注意力矩阵表示每个token的重要程度，并对所有的关键帧查询施加更大的权重w得到关键帧增强的注意力矩阵，以更好地保留那些与关键帧关联性更高的tokens。接着，计算token的重要性分数，并根据该分数降序地保留前N_t×p-N₁个tokens。最后将保留的非关键帧tokens与关键帧tokens拼接作为保留的tokens向后传递。如图5所示，可视化了每次选择过程保留下来的tokens，显示了本发明模型能够很好地把人、椅子等重要信息保留下来。

4)基于查询的关键帧人物定位分支预测人物的边界框和对应的置信度，如图6所示，首先将3)中关键帧的中间层特征图取出，使用上/下采样得到多尺度的特征图集合，再送入特征金字塔网络进行降维和特征融合。接着，初始化一个可学习候选特征，采用基于查询的方法，结合多尺度特征图，预测出关键帧上人物边界框和对应的置信度。具体地，基于查询的方法由6层相同的模块构成，每一个模块依次执行多头自注意力层、动态实例交互层、前馈网络和两个回归层。

5)基于扩展RoI和紧凑上下文的动作分类分支预测关键帧上人物可能执行的多个动作，如图7所示，首先将3)输出的M个离散时空特征取出，恢复其空间结构，得到形如T/2*H/16*W/16*D/2的连续特征图。利用4)定位分支生成的边界框扩展版在该特征图上执行RoIAlign，得到N个人物RoI特征。如图8所示，由于动作的运动幅度大，会导致来自关键帧的边界框(实线)无法覆盖正在游泳的人，本发明通过适当的扩大边界框的范围(虚线)来覆盖人的完整运动轨迹。同时，有了步骤3)剔除冗余tokens不会引入额外的干扰信息。接着，将离散特征与RoI特征进行拼接，送入6层的动作分类分支进行关系建模，得到人物的动作类别分数，每一层模块由多头自注意力层、前馈网络层和动作分类层组成。引入额外的关系建模可以为模型提升4.1mAP，这说明进一步建模上下文的必要性。

6)训练阶段，使用集合预测损失作为人物定位分支的损失函数，包括：使用L1损失和GIoU损失监督人物的边界框，使用交叉熵损失监督边界框的置信度，表示是否包含人物。使用二元交叉熵损失作为动作分类分支的损失函数，每个人可能执行多个动作，只计算在集合预测中与真实值匹配成功的预测值。在训练时使用真实标记监督两个分支，四个损失函数按照5:2:2:4加权相加，对总体loss使用AdamW优化器进行优化，权重衰减为1e-4，初始学习率为2.5e-5，总的训练轮次为12轮，在第5，8轮以衰减因子0.1来降低学习率。在8块A100 GPU上完成训练，mini-batch由16个视频片段组成，每张卡两个样本。

7)测试阶段，给定输入视频片段，直接预测100个候选框和对应的人物检测分数和动作分类分数，不需要额外的后处理操作(如非最大抑制)，保留检测置信度分数超过0.7的作为最终结果。评估阶段，使用frame-mAP@IoU0.5(简称mAP)指标评估模型的性能，使用单个A100 GPU，批量大小为8测量模型的吞吐量，使用fvcore计算GFLOPs度量。在AVA数据集上，以ViT-Base和ViT-Large作为网络结构时mAP分别达到了32.2和39.1。以ViT-Base为例，使用token选择算法后，模型的性能保持不变，总的GFLOPs减少了43％，实时吞吐量提升了40％。此外，在相当的计算成本下，使用来自更高分辨率的tokens，模型可以提升1％的检测性能。在UCF101-24和JHMDB数据集上，使用token保留率为60％的EVAD，mAP分别达到了85.1和90.2。本发明提出的EVAD在上述三个数据集上均达到目前最好的检测性能。

Claims

1.基于关键帧筛选像素块的视频动作检测方法，其特征是构建一种加速视频动作检测器EVAD对输入视频片段进行动作检测，检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段，具体如下：

2.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法，其特征是对于步骤1的输入样例，训练阶段，对于每一帧输入图像，执行随机缩放，设置图像短边范围为256～320像素，长边不超过1333像素，并对图像帧进行数据增强，包括随机水平翻转和颜色抖动；测试阶段，对于每一帧输入图像，将短边缩放为256像素，不进行额外的数据增强。

3.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法，其特征是步骤3)的tokens筛选为：

3.1)使用预计算的自注意力矩阵衡量每个token的重要程度：

其中attn是一个R×R的矩阵，attn(i,j)表示查询i认为像素块j具有的重要程度，R为输入tokens的数量，D表示查询的通道维度，Head表示多头数量；

3.2)对查询进行加权平均计算每个token的重要性分数，像素块j的重要程度Imp_j表示为：

其中N_t,N₁,N₂分别表示所有tokens，关键帧tokens和非关键帧tokens数量，假定前N₁个tokens属于关键帧，权重w为一个超参；

3.3)根据重要性分数Imp，进行token选择：

selected_tokens＝topK(tokens,Imp,N_t×ρ-N₁)

其中tokens表示输入的tokens，selected_tokens表示经过选择后保留的tokens，ρ表示token保留率，topK根据Imp降序地从N₂个非关键帧tokens中选择前N_t×ρ-N₁个tokens，与N₁个关键帧tokens一起返回，作为后续网络的输入。

4.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法，其特征是步骤4)人物定位分支生成关键帧上人物边界框和置信度如下：

4.1)从步骤3)中进行了tokens筛选设计的ViT编码器中取出关键帧中间层特征，并采用最近邻插值得到多尺度特征：

4.2)将多尺度特征输入FPN进行降维和特征融合；

4.3)设置N个可学习的候选框和对应的候选特征，人物定位分支共6层，每层由一个在候选特征间进行交互的自注意力层、一个在候选特征和对应RoI特征间进行交互的动态实例交互层和一个FFN层组成，每层的输出再分别经过回归层和分类层，得到修正的候选框和对应的置信度分数，最后一层更新得到的候选框和对应的置信度作为人体检测的最终结果。

5.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法，其特征是步骤5)中由动作分类分支生成候选人物的动作分类结果为：

5.1)恢复特征图的时空结构，将步骤3)保留下来的tokens经过通道降维后得到离散特征图x′_L，再将其按对应的时空位置放入一个空的特征图中，得到连续的时空特征图X；

5.2)扩展边界框的范围来覆盖到人的完整特征迹：

prop_bbox＝Extend(prop_bbox_L，extend_scale)

其中prop_bbox_L为步骤4)定位分支预测的边界框，extend_scale表示扩展系数，设置extend_scale＝(0.4,0.2)，表示W维向外扩展0.4倍，H维向外扩展0.2倍；prop_bbox为扩展的边界框，roi_feat表示人物的RoI特征，Maxpool表示空间最大池化操作，RoIAlign表示RoIAlign操作；

5.3)使用6层的解码器网络在roi_feat与紧凑上下文之间执行关系建模，输出预测的动作：

其中num_classes表示数据集的动作类别数量，对于解码器每一层，设输入为y_l-1，输出为y_l，则有：

y′_l＝MHSA(LN(y_l-1))+y_l-1

y_l＝FFN(LN(y′_l))+y′_l

其中y_l＝[roi_feat_l；x_l],对更新的roi_feat_l执行动作分类预测，得到每一层的动作分数action_l作为训练过程的中间层监督信号：

6.一种电子设备，其特征是包括存储介质和处理器，所述存储介质用于存储计算机程序，处理器用于执行所述计算机程序，计算机程序被执行时,实现权利要求1-5任一项所述的基于关键帧筛选像素块的视频动作检测方法，得到加速视频动作检测器EVAD，用于对输入视频片段进行动作检测。

7.一种计算机可读存储介质,其特征是所述计算机可读存储介质上存储有计算机程序,该计算机程序被执行时,实现权利要求1-5任一项所述的基于关键帧筛选像素块的视频动作检测方法，得到加速视频动作检测器EVAD。