CN116168329A - 基于关键帧筛选像素块的视频动作检测方法、设备及介质 - Google Patents
基于关键帧筛选像素块的视频动作检测方法、设备及介质 Download PDFInfo
- Publication number
- CN116168329A CN116168329A CN202310307393.XA CN202310307393A CN116168329A CN 116168329 A CN116168329 A CN 116168329A CN 202310307393 A CN202310307393 A CN 202310307393A CN 116168329 A CN116168329 A CN 116168329A
- Authority
- CN
- China
- Prior art keywords
- token
- key frame
- frame
- tokens
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000012216 screening Methods 0.000 title claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000001133 acceleration Effects 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 3
- 238000011176 pooling Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 17
- 241001127925 Arracacha virus A Species 0.000 description 7
- 238000002832 anti-viral assay Methods 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
基于关键帧筛选像素块的视频动作检测方法、设备及介质,构建检测器对输入视频片段进行动作检测,检测器对视频帧进行特征提取以及以关键帧为中心的token筛选,然后基于查询对关键帧进行人物定位,最后基于扩展的RoI和紧凑的时空上下文进行关系建模,预测人物可能执行的多个动作。本发明提出了一种加速视频动作检测器EVAD,在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块,以逐步删除非关键帧特征中的无效tokens,并以端到端的方式预测人物定位和动作分类,极大地提升了模型的推理速度,对实时动作检测友好。
Description
技术领域
本发明属于计算机技术领域,涉及时空动作检测技术,为一种基于关键帧筛选像素块的视频动作检测方法、设备及介质。
背景技术
Transformer广泛应用于计算机视觉的各种任务中,例如图像分类、目标检测、视频分类等,并取得了可观的效果。此外,还有一些方法正在探索Transformer的新的结构以提高模型的识别性能。Transformer自注意力模块中的二次复杂度在迁移到计算机视觉时成为了计算瓶颈。特别是当应用到数据更密集的视频任务时,Transformer可能会带来显著的计算成本增加。同时,视频具有固有的高时空冗余,相邻帧之间具有相似的语义信息,因此保留所有的视觉像素块(token)会造成一定的计算浪费。
视频动作检测是一项复杂的视频理解任务,在常见的帧级动作检测器中也存在着冗余问题:一个输入视频片段由关键帧和相邻的上下文帧组成,检测器负责输出在关键帧上的人物定位和对应的动作分类结果。堆叠更多的非关键帧会带来有效的上下文信息,但不可避免地引入冗余信息和额外的计算。此外,由于动作执行者(actor)的运动或摄像机的移动,actor的空间位置在相邻帧之间可能会发生变化,因此利用关键帧得到的预测框在整个视频片段上进行actor特征截取会丢失actor的部分信息(超出预测框范围)。本发明研究发现,若能将视频序列中的冗余信息进行剔除,只保留对动作检测有效的信息,一方面可以减少参与计算的tokens数量,提升模型速度。另一方面,由于背景信息被剔除,可以适当扩展预测框的区域来提取人体的完整特征而不会引入干扰信息。
发明内容
本发明要解决的问题是:现有的帧级时空动作检测器的输入为连续的视频帧,输出为关键帧上的人物定位和动作分类结果,堆叠更多的非关键帧会带来有效的上下文信息,但也成为限制时空动作检测器性能和速度的瓶颈。特别地,当使用Transformer类模型作为基础网络时,联合时空注意力机制的二次计算复杂度会带来显著的计算成本增加。
本发明的技术方案为:构建一种加速视频动作检测器EVAD对输入视频片段进行动作检测,检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段,具体如下:
1)生成输入样例:以具有标签信息的那一帧为中心,即关键帧,向前向后抽取a帧的时序上下文,组成2a帧的输入帧序列,再均匀采样出b帧,作为检测器的输入视频序列;
2)抽取视频序列特征:使用视频ViT作为特征提取网络,对步骤1)生成的视频序列进行特征提取,得到时间分辨率保持不变,空间分辨率下采样16倍的代表视频特征的token序列f;
3)以关键帧为中心的tokens筛选:在ViT的部分MHSA和FFN层中引入以关键帧为中心的tokens选择机制,减少参与计算的非关键帧token数量,降低输入内部的时空冗余性,首先定义有效的tokens,包括来自关键帧的全部tokens,和非关键帧中重要性分数大的tokens,所述重要性分数使用注意力图来刻画每个token的重要程度,对非关键帧每次选择保留设定比例的重要tokens;每经过ViT编码器总层数的1/4执行一次token选择,丢掉冗余tokens,保留有效tokens送入当前位置后续的FFN中,共执行三次;
4)基于查询的关键帧人物定位:将步骤3)中进行了tokens筛选设计的ViT编码器的中间层特征图按总层数的1/4等间隔取出,进行上/下采样组成关键帧的多尺度特征图集合,送入FPN进行特征融合,接着,由人物定位分支使用基于查询的方法在关键帧多尺度特征图集合上预测N个边界框坐标bbox和对应的置信度分数conf,conf表示框内包含人物的可能性;
5)基于扩展RoI和紧凑时空上下文的人物动作分类:由动作分类分支进行动作类别预测,初始化一个空的特征图fblank,把步骤3)保留下来的M个tokens经过一层Linear进行降维,接着按其对应的时空位置放置在fblank中,其余位置用0进行填充,作为时空特征图,接着,使用步骤4)预测的边界框进行设定程度的扩展,在该时空特征图上进行RoIAlign,得到N个人物的RoI特征,随后,构建一个上下文交互解码器在人物特征与来自ViT编码器的上下文信息之间进行场景建模,将N个人物的RoI特征与M个时空tokens拼接在一起,送入一个堆叠6层的解码器网络中,每层由MHSA和FFN组成,与ViT编码器一致,将输出中的N个RoI特征取出,经过MLP作最后的动作分类action,得到最终的动作类别预测结果;
6)训练阶段:将步骤2)中的ViT使用VideoMAE提供的Kinetics预训练和微调后的权重初始化,其余新增层使用Xavier初始化,人物定位分支利用集合预测损失实现预测与真实值的最优二分匹配,集合损失函数Lset包括:边界框的L1损失LL1,边界框的GIoU损失LGIoU和置信度损失Lconf;动作分类分支由动作分类损失Lact表示,只计算在集合预测损失计算过程中与真实值匹配成功的预测值,四个损失函数按照设定的比例加权,用AdamW优化器进行优化,不断重复直到达到迭代次数;
7)测试阶段:给定输入视频片段,依次经过步骤1)至步骤5)得到在关键帧上的人物动作检测结果,验证所构建检测器的动作检测性能;
步骤1)对应生成输入样例阶段,步骤2)~5)对应网络配置阶段,步骤6)对应训练阶段,步骤7)对应测试阶段。
本发明研究发现,相比于关键帧保留了actor的完整轮廓,非关键帧与动作语义的关联性相对较小。为了提高动作检测的效率,本发明在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块,以逐步删除非关键帧特征中的无效信息。在该模块的基础上,本发明设计一个用于高效动作检测的检测模型,称为加速视频动作检测器EVAD。在EVAD中,只保留非关键帧中与动作语义最相关的tokens以辅助最终的动作分类。例如,在非关键帧中人们的眼睛和嘴与“talk to”动作相关联,挥动的手与“point to”相关联,而其余的tokens是冗余的,应当在筛选过程中被丢掉。本发明在对视频图像的特征提取阶段引入token选择机制,在一次选择中,会保留设定比例的tokens,它们由两部分组成:1)关键帧的所有tokens,2)非关键帧中重要性分数高的tokens,分数由关键帧查询加权平均后的注意力值表示。因此,称之为以“关键帧为中心”的选择机制。以ViT-B骨干网络为例,本发明每隔三层执行一次token选择。然后,利用扩展后的预测框在被保留下来的特征图上进行RoIAlign操作,以便捕捉到actor完整的时空信息。随后,使用Transformer解码器(decoder)在actor感兴趣区域(the region of interest,RoI)特征和从编码器(encoder)中提取的紧凑上下文信息之间进行上下文建模,可以获得比之前一些精心设计的动作检测头更好的结果。本发明在三个动作检测基准数据集AVA,UCF101-24,JHMDB上进行实验来展示EVAD的性能优势,与vanilla ViT相比,本发明的EVAD确保检测精度不降低的同时减少了43%的GFLOPs,并将实时推理速度提高了40%。此外,即使在相当的计算成本下,EVAD也可以在更高的分辨率输入下提高1%的检测性能。
本发明与现有技术相比有如下优点
本发明考虑到视频固有的高冗余性和相邻帧之间的语义相似的特点,提出了一种以关键帧为中心的token选择算法,在保持动作检测精度不变的情况下剔除时空冗余信息,从而节省计算成本。
在token选择模块的基础上,本发明设计了一个端到端的时空动作检测器,能够媲美当前最好的两阶段模型的检测性能。
本发明是第一个使用单一、非层次Transformer网络结构的端到端动作检测模型,结合低保留率的token选择策略,极大地提升了模型的推理速度,对实时动作检测友好。同时,EVAD具有很强的扩展性和可移植性,可以作为一个高效而简洁的动作检测基线,适用到更多的动作检测模型中。
附图说明
图1为本发明的方法流程图。
图2是本发明所使用的检测框架图。
图3是本发明提出的EVAD特征提取网络的网络结构图。
图4是本发明提出的以关键帧为中心的token选择模块示意图。
图5是施加token选择策略后token保留情况示意图。
图6是本发明提出的基于查询的定位分支示意图。
图7是本发明提出的动作分类分支示意图。
图8是扩展RoI范围以覆盖人的完整轨迹示意图。
具体实施方式
本发明提出了一种加速视频动作检测器EVAD,利用视频固有的高时空冗余和相邻帧之间语义相似的特点,在vanilla ViT的网络结构上提出了一个以关键帧为中心的token选择模块以逐步删除非关键帧特征中的无效tokens,并以端到端的方式预测人物定位和动作分类。如图1所示,检测器对视频帧进行特征提取以及以关键帧为中心的token筛选,然后基于查询对关键帧进行人物定位,最后基于扩展的RoI和紧凑的时空上下文进行关系建模,预测人物可能执行的多个动作。
本发明的检测器由三部分组成:首先,将一组以固定步长进行采样得到的视频帧序列输入到EVAD特征提取网络中进行特征提取。在特征提取阶段等间隔地插入我们所设计的token选择模块,用于保留与动作检测任务最相关的非关键帧tokens。接着,依次执行两个检测头分支:(1)人物定位分支:预测一组视频帧序列中关键帧上的人物位置;(2)动作分类分支:结合上下文信息对关键帧上的人物进行多标签动作分类。联合人物定位分支和动作分类分支的输出,作为最终的时空动作检测结果。
本发明方法包括以下工作:
(1)设计了针对动作检测特性的高效token选择机制,在特征提取阶段逐步剔除参与计算的非关键帧tokens,降低视频输入中的冗余性和显著提升模型的运行速度。
(2)在人物定位分支中,对特征提取阶段的中间层特征图进行上/下采样来组成关键帧的多尺度特征图,并将它们送入特征金字塔网络(feature pyramid network,FPN)进行多尺度融合。接着,通过基于查询的方法预测关键帧上的N个候选框。
(3)在动作分类分支中,将定位分支得到的N个候选框进行适当扩展后,在重组的时空特征图上进行RoIAlign操作,得到包含人物完整信息的RoI特征。随后,在RoI特征与编码器输出的紧凑上下文特征之间进行上下文信息建模,更新后的RoI特征经过MLP进行多标签动作预测。最后,直接结合两个分支的输出,无需额外的后处理过程,得到关键帧上最终的动作检测结果。
本发明的加速视频动作检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段,下面具体说明本发明的实施,以步骤1)对应生成输入样例阶段,步骤2)~5)对应网络配置阶段,步骤6)对应训练阶段,步骤7)对应测试阶段。
1)生成输入样例:对于训练和测试视频,以具有标签信息的那一帧为中心,即关键帧,向前向后抽取32帧的时序上下文,组成64帧的输入帧序列,再按步长为4均匀采样出16帧,作为检测器模型的输入。训练阶段,对于每一帧RGB图像,执行随机缩放,即设置图像短边范围为256~320像素,长边不超过1333像素。接着,对图像帧进行随机水平翻转和颜色抖动等数据增强。测试阶段,对于每一帧图像,将短边缩放为256像素,不进行额外的数据增强。我们下面将训练和测试的输入序列统称为T为帧数,H、W为图形的宽高。
具体过程为:
1.1)从输入视频抽帧得到的原始视频序列V如下:
V={Img-32,…,Img-2,Img-1,Img0,Img1,Img2,…,Img31}
其中Img0表示关键帧,序号-32~-1表示关键帧左侧帧序列,序号1~31表示关键帧右侧帧序列,原视频的FPS为30,V包含约2s的上下文信息。
1.2)按固定步长对V采样后的视频序列I如下:
I={Img-32,…,Img-8,Img-4,Img0,Img4,Img8,…,Img28}
其中Img0仍表示关键帧,Imgi与关键帧的相对序号不变,按照固定步长为4进行采样,I经过一系列数据处理和数据增强后作为模型的输入。
2)抽取视频序列特征:使用视频ViT作为基础网络结构对1)生成的输入序列I进行特征提取,提取到代表视频特征的token序列具体地,视频ViT首先执行像素块切分(tokenization),将I划分成彼此不重叠的/>个cubes,每个cube的大小为2×16×16。然后,使用cube embedding将每个cube映射成三维token。接着,给所有的tokens添加位置编码信息后,送入一个堆叠L层的编码器(encoder)网络,每层由多头自注意力层(multi-head self-attention layer,MHSA)和前馈网络(feed-forward network,FFN)组成的。编码器的输出f作为视频的时空特征图供后续检测流程使用。在我们的系统中,当使用ViT-Base作为基础网络时,通道维度D=768,编码器层数L=12;当使用ViT-Large时,D=1024,L=24。
步骤2)具体实现为:
2.1)对输入序列I进行像素块切分(tokenization),将I划分成彼此不重叠的cubes:
2.2)使用cube embedding层将每个cube映射成3维token,构成视频序列x:
其中CubeEmbedding的功能可以使用一个kernel和stride均为(2,16,16)的3D卷积操作实现,卷积的输出通道数为D。
2.3)为视频序列x添加3D正余弦位置编码pos:
x=x+pos
2.4)使用L层的Transformer encoder对视频序列x进行特征提取,每一层encoderlayer的输入为xl-1,输出为xl:
x′l=MHSA(LN(xl-1))+xl-1
xl=FFN(LN(x′l))+x′l
其中MHSA表示多头自注意力层,FFN表示前馈网络,LN表示LayerNorm。第L层的输出xL作为视频的时空特征供后续检测流程使用。
3)以关键帧为中心的token筛选:在2)的基础网络结构内部引入基于注意力值的token选择机制,与EViT类似,在部分层的MHSA和FFN之间加入token选择环节,确保少而精的tokens被传递下去进行动作定位和分类,以减少tokens间的时空冗余性。为了在筛选时保留低冗余且更有效的tokens,我们首先需要定义哪些是有效的tokens。在本发明的token选择方法中,有效的tokens由两部分组成:1)来自关键帧的tokens,2)非关键帧中注意力/重要性分数大的tokens。在时空动作检测任务中,人物的边界框位置以及动作的类别都依赖于关键帧信息,其他帧只对动作分类起到辅助作用。因此,本发明将关键帧的全部tokens定义为有效tokens。
对于非关键帧中tokens的重要性度量,本发明使用计算好的注意力图来刻画每个token的重要程度,不引入额外的可学习参数和大的计算开销。首先,对注意力图的num_heads维取平均,得到一个RxR的矩阵表示tokens之间的attentiveness(忽略batch size)。例如,以attn(i,j)表示查询i认为像素块j具有的重要程度。根据前面的分析,关键帧对于人的定位和动作类别更重要,属于关键帧的那些tokens在重要性计算中应起到更大的作用,因此给关键帧查询施加更大的权重值,从而更好地保留那些与关键帧关联性更高的tokens。换句话说,本发明会过滤掉部分只对非关键帧具有高响应的tokens,这些tokens对于当前样本是冗余的。接着,对查询维进行加权平均计算每个token的重要性分数。然后,按重要性分数降序地从N2个非关键帧tokens中选择前Nt×ρ-N1个tokens,其中Nt,N1,N2分别表示当前样本的所有tokens,关键帧tokens和非关键帧tokens的数量,ρ表示token保留率,当ρ=70%时模型能达到最好的性能-效率平衡,故设为系统默认值。在执行完token选择后,使用保留下来的tokens送入编码器层后续的FFN中。本发明中共执行3次token选择,在编码器的1/3处执行第一次token选择,确保模型具有较高层级的语义表示能力,即每经过总层数的1/4执行一次token选择,丢掉冗余tokens,保留有效tokens。经过多次筛选,大幅度减少token数量,使得模型减少不必要的计算量,加速训练和预测过程。原输入序列I经过带有token选择机制的视频ViT网络,视频特征更新为:
上述引入以关键帧为中心的token选择机制的一个实施例为:
以ViT-Base(12层)为例,token选择模块的插入位置如下:
Encoder={L0,L1,L2,T3,L4,L5,T6,L7,L8,T9,L10,L11}
其中T3,T6,T9等表示带有以关键帧为中心的token选择模块的encoder layer,其他L0,L1,L2等表示步骤2)中普通的各层encoder layer。
对于T3,T6,T9层,在MHSA和FFN模块之间加入token选择环节,选择过程如下:
3.1)使用预计算的自注意力矩阵衡量每个token的重要程度:
其中attn是一个R×R的矩阵,attn(i,j)表示查询i认为像素块j具有的重要程度,R为输入tokens的数量。D表示查询的通道维度,Head表示多头数量。
3.2)给关键帧查询施加较大的权重,以更好地保留那些与关键帧关联性更高的tokens,像素块j的重要程度Impj可表示为:
其中Nt,N1,N2分别表示所有tokens,关键帧tokens和非关键帧tokens数量,前N1个tokens属于关键帧,权重w作为一个超参,本发明优选设置为4,增加关键帧tokens的权重。
3.3)根据重要性分数Imp,进行token选择:
selected_tokens=topK(tokens,Imp,Nt×ρ-N1)
其中tokens表示输入的tokens,selected_tokens表示经过选择后保留的tokens,ρ表示token保留率keep rate,在本发明中优选设置为70%,topK根据Imp降序地从N2个非关键帧tokens中选择前Nt×ρ-N1个tokens,与N1个关键帧tokens一起返回,作为后续网络的输入。
步骤3)在视频ViT网络内部引入以关键帧为中心的token选择机制,利用视频固有的高冗余性和相邻帧语义相似的特点,在特征提取阶段逐步剔除非关键帧中的冗余信息,使得模型减少不必要的计算量,大大加快了模型的执行速度。不同于常规方法使用Transformer直接对输入视频进行特征提取,而忽略了堆叠时序上下文带来的信息冗余所造成的计算资源浪费,本发明从解决输入中的高冗余出发,提升动作检测效率。在特征提取的过程中,本发明将三个token选择模块均匀地插入到基础网络结构中,没有引入新的模型参数。以关键帧为中心的token选择机制利用预计算好的自注意力矩阵为每个非关键帧token计算重要性分数,其中对属于关键帧的查询施以更大的权重以突显动作检测中关键帧的重要作用。接着,根据重要性分数降序地保留前70%个tokens,得到更紧凑的视频时空表征用于后续检测。
4)基于查询的关键帧人物定位:将步骤3)的基础网络,即进行了tokens筛选设计的ViT编码器的中间层特征图按总层数的1/4等间隔取出,从浅到深分别进行上/下采样组成4种尺度的关键帧特征图集合,方式为最近邻插值,得到的空间分辨率依次为接着,将得到的层级特征送入FPN中进行降维和特征融合,使浅层特征保留细节信息的同时具有深层语义。人物定位分支采用基于查询的方式在该关键帧特征集合上预测N个边界框坐标/>和对应的置信度分数/>表示框内包含人物的可能性。遵循Sparse R-CNN的做法,本发明设置N个可学习的候选框和对应的候选特征。人物定位分支共6层,每层由一个在候选特征间进行交互的自注意力层、一个在候选特征和对应RoI特征间进行交互的动态实例交互层和一个FFN层组成,每层的输出再分别经过回归层和分类层,得到修正的候选框和对应的置信度分数。最后一层更新得到的候选框和对应的置信度作为人体检测的最终结果。
步骤4)人物定位分支生成关键帧上人物边界框和置信度具体如下:
4.1)取出关键帧中间层特征f={f2,f5,f8,f11},并采用最近邻插值得到多尺度特征:
其中f2,f5,f8,f11表示步骤3)的网络结构中对应层输出的视频特征,Interpolate(f,g)表示对视频特征f的空间分辨率采用最近邻(nearest)插值到g倍。
4.2)将多尺度特征送入FPN进行降维和特征融合:
{p2,p5,p8,p11}=FPN({f′2,f′5,f′8,f′11})
其中f′2,f′5,f′8,f′11的通道维度为D,p2,p5,p8,p11的通道维度为d,在本实施例中,D=768/1024,d=256。
首先根据prop_bbox的大小选择适当尺度的特征图截取RoI特征roi_featl:
其中SH×SW表示RoI特征的空间分辨率,在我们的系统中设置为7×7。
接着,利用上一层的prop_featl-1和新生成的roi_featl更新候选特征:
prop_feat′l=LN(Dropout(MHSA(prop_featl-1))+prop_featl-1)
prop_featl=LN(Dropout(FFN(prop_feat″l))+prop_feat″l)
其中prop_feat′l,prop_feat″l表示中间结果,MHSA,FFN,LN同步骤2)中编码器的网络结构,inst_interact表示一个动态实例交互层,使用由prop_feat生成的卷积参数对相应的RoI特征执行1×1动态卷积。
最后,分别进行边界框和置信度回归,得到每一层的候选框prop_bboxl和置信度confl作为训练过程的中间层监督信号:
本发明步骤4)的关键帧人物定位从步骤3)中非层次化的输出结果中生成层次化多尺度特征图,并利用基于查询的方法在该特征图组上预测关键帧的人物位置和置信度。本发明是第一个将Transformer基础网络同基于查询的检测方法很好结合起来的方法,也是第一个使用非层次化Transformer模型实现人物定位,从而实现端到端方式的方法。
5)基于扩展RoI和紧凑时空上下文的人物动作分类:与常规的特征提取阶段得到的输出不同,步骤3)得到M个离散的时空tokens。本发明需要先恢复特征图的时空结构,才能执行后续的诸如RoIAlign等的位置相关操作。初始化一个空的特征图把保留下来的tokens经过一层Linear进行降维,接着按其对应的时空位置放置在fblank中,其余位置用0进行填充,作为进行后续操作的时空特征图。
接下来就是得到N个人物的特征进行动作预测。常规的做法使用步骤4)的定位分支预测的边界框在上述时空特征图上截取人物的RoI特征。但由于人处于运动中或相机的水平移动,导致人在不同帧的空间位置发生变化,使用关键帧的预测框截取特征时可能无法得到部分偏离了预测框范围的人物特征。可以直接扩展边界框的范围来覆盖到人的完整特征,但这会引入背景或其他干扰信息,从而影响人物本身的特征表示。然而,经过本发明步骤3)的特征提取阶段后,特征图中的干扰信息已经被剔除,此时我们将边界框的范围稍微扩大后再进行RoIAlign操作,来引入由于运动而偏离的人体特征。
得到人物的RoI特征后,可以直接通过分类层进行最终的动作预测。但随着复杂场景下的多人动作检测数据集(如AVA,Multisports等)的出现,动作可能是与场景中的其他人或物体的交互而产生,例如“talk to someone”,“work on computer”等。很多方法不再只关注actor本身的特征,而是研究各种不同的关系建模手段以捕获交互,从而得到更好的特征表示。对此,本发明也设计了一个上下文交互解码器(Context InteractionDecoder),在人物特征与来自编码器的紧凑上下文信息之间进行场景建模。本发明将N个人物的RoI特征与M个时空tokens拼接在一起,送入一个堆叠6层的解码器网络中,每层由MHSA和FFN组成,与编码器一致。将输出中的N个RoI特征取出,经过MLP作最后的动作分类EVAD解码器的实现简单,得益于特征提取阶段得到的紧凑上下文表征,能够得到比一些精心设计的复杂动作分支更好的检测效果。
在预测人物动作类别时,步骤5)将步骤3)输出的紧凑视频特征恢复其时空位置,使用步骤4)预测的边界框的扩展版截取人物的RoI特征。进一步,使用结构简单的decoder在RoI特征与紧凑上下文间进行关系建模,并将更新后的RoI特征用于最终的动作分类。
步骤5)的一个具体实施如下。
5.1)恢复特征图的时空结构:
其中表示步骤3)网络最终输出的离散序列,/>表示其余位置用0填充。将步骤3)保留下来的tokens经过通道降维后得到离散特征图x′L,再将其按对应的时空位置放入一个空的特征图中,得到连续的时空特征图X;
5.2)扩展边界框的范围来覆盖到人的完整特征迹:
prop_bbox=Extend(prop_bboxL,extend_scale)
其中prop_bbox为扩展的边界框,roi_feat表示人物的RoI特征,prop_bboxL为步骤4)定位分支预测的边界框,extend_scale表示扩展系数,本发明优选extend_scale=(0.4,0.2),此时模型性能最优,表示宽度维向外扩展0.4倍,高度维向外扩展0.2倍。
5.3)使用6层的decoder在扩展RoI与紧凑上下文之间执行关系建模,输出预测的动作:
其中num_classes表示数据集的动作类别数量,这里数据集为预设的动作类别数据集,在哪个数据集上进行测试,就表示那个数据集包括的类别数量。对于解码器每一层,设输入为yl-1,输出为yl,则有:
y′l=MHSA(LN(yl-1))+yl-1
yl=FFN(LN(y′l))+y′l
网络结构步骤同2)的编码器,其中yl=[roi_featl;xl],对更新的roi_featl执行动作分类预测,得到每一层的动作分数actionl作为训练过程的中间层监督信号:
步骤5)人物动作分类分支将4)中预测的边界框进行适当扩展以包含人物完整的时空特征。不同于常规使用边界框直接截取RoI特征的方法,本发明在步骤3)中将诸如背景的无效信息进行剔除,因此可以适当扩展边界框以引入由于运动而偏离的人体特征,而不会引入干扰信息。同样,得益于3)中提取到的紧凑的上下文信息,本发明使用一个结构简洁、参数量较少的decoder结构进行上下文建模,能够得到比一些设计更为复杂的动作分类模型更好的检测效果。
6)训练阶段:对于模型的初始化,步骤2)中的基础网络使用VideoMAE提供的Kinetics预训练和微调后的权重初始化,步骤3)中添加的token选择模块无新增参数,步骤4)人物定位分支和步骤5)动作分类分支中的新增层使用Xavier初始化。遵循WOO原论文中的训练方式,对于人物定位分支,利用集合预测损失实现预测与真实值的最优二分匹配,步骤4)的集合预测损失Lset包括:边界框的L1损失LL1,边界框的GIoU损失LGIoU和置信度损失函数Lconf,使用交叉熵损失监督。对于动作分类分支,只计算在集合预测中与真实值匹配成功的预测值,步骤5)的动作分类损失Lact使用二元交叉熵损失监督,每个人物可能具有多个动作。对两个分支均监督中间层输出。各个损失函数的权重分别为λL1=5,λGIoU=2,λconf=2,λact=4。对总体损失使用AdamW优化器进行优化,通过反向传播算法来更新网络参数,不断重复直到达到迭代次数。训练损失函数具体计算过程如下:
Lset=λL1LL1+λGIoULGIoU+λconfLconf
L=Lset+λactLact
7)测试阶段:给定输入视频片段,直接预测N个候选框和对应的人物检测分数和动作分类分数,实施例设置N=100,不需要额外的后处理操作,如非最大抑制,保留检测置信度分数超过0.7的作为最终结果。
本发明在三个动作检测基准数据集(AVA,UCF101-24,JHMDB)上都达到了高准确性,具体使用Python3编程语言,Pytorch1.7.1深度学习框架实施。图2为本发明一个具体实施系统框架示意图,具体实施如下。
1)生成输入样例:AVA数据集是稀疏型标柱数据集,每秒按1FPS进行标注。对于AVA,我们以具有标签信息的那一帧为中心,取前后共64帧的时序上下文,再按步长为4均匀采样16帧,作为模型的输入。UCF101-24和JHMDB是密集型标注数据集,每秒按30FPS进行标注。在训练集上,我们以每一个存在动作实例的帧作为样例,在测试集上,所有帧均作为输入样例,时序采样同AVA。训练阶段,对于每一帧RGB图像,执行随机缩放,即设置图像短边范围为256~320像素,长边不超过1333像素。接着,对图像帧进行随机水平翻转和颜色抖动数据增强。将得到的图片序列减去ImageNet数据集三通道的均值并除以三通道的标准差实现归一化,最后转换为Tensor的形式,按批处理并打乱数据加载次序。测试阶段,对于每一帧图像,将短边缩放为256像素,不进行额外的数据增强。
2)特征提取网络的配置阶段,使用Vision Transformer作为基础网络结构,使用VideoMAE提供的Kinetics预训练和微调后的权重初始化网络参数,如图3所示,当keeprateρ取1时,对应于原始的Transformer网络结构。对1)中生成的输入序列进行特征提取,网络输入大小为T*H*W*3,经过cube embedding以及L层的encoder网络,输出的特征图为(T/2*H/16*W/16)*D,对于ViT-Base网络,L=12,D=768;对于ViT-Large网络,L=24,D=1024。网络中stage1-4输出的关键帧特征图送入人物定位分支,stage4输出的时空特征图送入动作分类分支得到时空动作检测的结果。
3)以关键帧为中心的token筛选在特征提取阶段逐步剔除非关键帧中时空冗余tokens,如图4所示,设置keep rate<1时实施token选择策略,在每个stage1-3后跟随一个带有token选择模块的encoder层。对1)中生成的输入序列进行特征提取时,会逐步减少参与计算的token数量,网络输入大小为T*H*W*3,输出的特征图为(T/2*H/16*W/16*p^3)*D,keep rate=0.7时,token数量大幅减少,模型的GFLOPs总数也随之下降。
具体的token选择算法如图4所示,将输入的token序列(含Nt个tokens)划分为关键帧序列(含N1个tokens)和非关键帧序列,并保留全部的关键帧tokens。对于非关键帧tokens,使用预计算的自注意力矩阵表示每个token的重要程度,并对所有的关键帧查询施加更大的权重w得到关键帧增强的注意力矩阵,以更好地保留那些与关键帧关联性更高的tokens。接着,计算token的重要性分数,并根据该分数降序地保留前Nt×p-N1个tokens。最后将保留的非关键帧tokens与关键帧tokens拼接作为保留的tokens向后传递。如图5所示,可视化了每次选择过程保留下来的tokens,显示了本发明模型能够很好地把人、椅子等重要信息保留下来。
4)基于查询的关键帧人物定位分支预测人物的边界框和对应的置信度,如图6所示,首先将3)中关键帧的中间层特征图取出,使用上/下采样得到多尺度的特征图集合,再送入特征金字塔网络进行降维和特征融合。接着,初始化一个可学习候选特征,采用基于查询的方法,结合多尺度特征图,预测出关键帧上人物边界框和对应的置信度。具体地,基于查询的方法由6层相同的模块构成,每一个模块依次执行多头自注意力层、动态实例交互层、前馈网络和两个回归层。
5)基于扩展RoI和紧凑上下文的动作分类分支预测关键帧上人物可能执行的多个动作,如图7所示,首先将3)输出的M个离散时空特征取出,恢复其空间结构,得到形如T/2*H/16*W/16*D/2的连续特征图。利用4)定位分支生成的边界框扩展版在该特征图上执行RoIAlign,得到N个人物RoI特征。如图8所示,由于动作的运动幅度大,会导致来自关键帧的边界框(实线)无法覆盖正在游泳的人,本发明通过适当的扩大边界框的范围(虚线)来覆盖人的完整运动轨迹。同时,有了步骤3)剔除冗余tokens不会引入额外的干扰信息。接着,将离散特征与RoI特征进行拼接,送入6层的动作分类分支进行关系建模,得到人物的动作类别分数,每一层模块由多头自注意力层、前馈网络层和动作分类层组成。引入额外的关系建模可以为模型提升4.1mAP,这说明进一步建模上下文的必要性。
6)训练阶段,使用集合预测损失作为人物定位分支的损失函数,包括:使用L1损失和GIoU损失监督人物的边界框,使用交叉熵损失监督边界框的置信度,表示是否包含人物。使用二元交叉熵损失作为动作分类分支的损失函数,每个人可能执行多个动作,只计算在集合预测中与真实值匹配成功的预测值。在训练时使用真实标记监督两个分支,四个损失函数按照5:2:2:4加权相加,对总体loss使用AdamW优化器进行优化,权重衰减为1e-4,初始学习率为2.5e-5,总的训练轮次为12轮,在第5,8轮以衰减因子0.1来降低学习率。在8块A100 GPU上完成训练,mini-batch由16个视频片段组成,每张卡两个样本。
7)测试阶段,给定输入视频片段,直接预测100个候选框和对应的人物检测分数和动作分类分数,不需要额外的后处理操作(如非最大抑制),保留检测置信度分数超过0.7的作为最终结果。评估阶段,使用frame-mAP@IoU0.5(简称mAP)指标评估模型的性能,使用单个A100 GPU,批量大小为8测量模型的吞吐量,使用fvcore计算GFLOPs度量。在AVA数据集上,以ViT-Base和ViT-Large作为网络结构时mAP分别达到了32.2和39.1。以ViT-Base为例,使用token选择算法后,模型的性能保持不变,总的GFLOPs减少了43%,实时吞吐量提升了40%。此外,在相当的计算成本下,使用来自更高分辨率的tokens,模型可以提升1%的检测性能。在UCF101-24和JHMDB数据集上,使用token保留率为60%的EVAD,mAP分别达到了85.1和90.2。本发明提出的EVAD在上述三个数据集上均达到目前最好的检测性能。
Claims (7)
1.基于关键帧筛选像素块的视频动作检测方法,其特征是构建一种加速视频动作检测器EVAD对输入视频片段进行动作检测,检测器EVAD的实现包括生成输入样例阶段、网络配置阶段、训练阶段以及测试阶段,具体如下:
1)生成输入样例:以具有标签信息的那一帧为中心,即关键帧,向前向后抽取a帧的时序上下文,组成2a帧的输入帧序列,再均匀采样出b帧,作为检测器的输入视频序列;
2)抽取视频序列特征:使用视频ViT作为特征提取网络,对步骤1)生成的视频序列进行特征提取,得到时间分辨率保持不变,空间分辨率下采样16倍的代表视频特征的token序列f;
3)以关键帧为中心的tokens筛选:在ViT的部分MHSA和FFN层中引入以关键帧为中心的tokens选择机制,减少参与计算的非关键帧token数量,降低输入内部的时空冗余性,首先定义有效的tokens,包括来自关键帧的全部tokens,和非关键帧中重要性分数大的tokens,所述重要性分数使用注意力图来刻画每个token的重要程度,对非关键帧每次选择保留设定比例的重要tokens;每经过ViT编码器总层数的1/4执行一次token选择,丢掉冗余tokens,保留有效tokens送入当前位置后续的FFN中,共执行三次;
4)基于查询的关键帧人物定位:将步骤3)中进行了tokens筛选设计的ViT编码器的中间层特征图按总层数的1/4等间隔取出,进行上/下采样组成关键帧的多尺度特征图集合,送入FPN进行特征融合,接着,由人物定位分支使用基于查询的方法在关键帧多尺度特征图集合上预测N个边界框坐标bbox和对应的置信度分数conf,conf表示框内包含人物的可能性;
5)基于扩展RoI和紧凑时空上下文的人物动作分类:由动作分类分支进行动作类别预测,初始化一个空的特征图fblank,把步骤3)保留下来的M个tokens经过一层Linear进行降维,接着按其对应的时空位置放置在fblank中,其余位置用0进行填充,作为时空特征图,接着,使用步骤4)预测的边界框进行设定程度的扩展,在该时空特征图上进行RoIAlign,得到N个人物的RoI特征,随后,构建一个上下文交互解码器在人物特征与来自ViT编码器的上下文信息之间进行场景建模,将N个人物的RoI特征与M个时空tokens拼接在一起,送入一个堆叠6层的解码器网络中,每层由MHSA和FFN组成,与ViT编码器一致,将输出中的N个RoI特征取出,经过MLP作最后的动作分类action,得到最终的动作类别预测结果;
6)训练阶段:将步骤2)中的ViT使用VideoMAE提供的Kinetics预训练和微调后的权重初始化,其余新增层使用Xavier初始化,人物定位分支利用集合预测损失实现预测与真实值的最优二分匹配,集合损失函数Lset包括:边界框的L1损失LL1,边界框的GIoU损失LGIoU和置信度损失Lconf;动作分类分支由动作分类损失Lact表示,只计算在集合预测损失计算过程中与真实值匹配成功的预测值,四个损失函数按照设定的比例加权,用AdamW优化器进行优化,不断重复直到达到迭代次数;
7)测试阶段:给定输入视频片段,依次经过步骤1)至步骤5)得到在关键帧上的人物动作检测结果,验证所构建检测器的动作检测性能;
步骤1)对应生成输入样例阶段,步骤2)~5)对应网络配置阶段,步骤6)对应训练阶段,步骤7)对应测试阶段。
2.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法,其特征是对于步骤1的输入样例,训练阶段,对于每一帧输入图像,执行随机缩放,设置图像短边范围为256~320像素,长边不超过1333像素,并对图像帧进行数据增强,包括随机水平翻转和颜色抖动;测试阶段,对于每一帧输入图像,将短边缩放为256像素,不进行额外的数据增强。
3.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法,其特征是步骤3)的tokens筛选为:
3.1)使用预计算的自注意力矩阵衡量每个token的重要程度:
其中attn是一个R×R的矩阵,attn(i,j)表示查询i认为像素块j具有的重要程度,R为输入tokens的数量,D表示查询的通道维度,Head表示多头数量;
3.2)对查询进行加权平均计算每个token的重要性分数,像素块j的重要程度Impj表示为:
其中Nt,N1,N2分别表示所有tokens,关键帧tokens和非关键帧tokens数量,假定前N1个tokens属于关键帧,权重w为一个超参;
3.3)根据重要性分数Imp,进行token选择:
selected_tokens=topK(tokens,Imp,Nt×ρ-N1)
其中tokens表示输入的tokens,selected_tokens表示经过选择后保留的tokens,ρ表示token保留率,topK根据Imp降序地从N2个非关键帧tokens中选择前Nt×ρ-N1个tokens,与N1个关键帧tokens一起返回,作为后续网络的输入。
4.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法,其特征是步骤4)人物定位分支生成关键帧上人物边界框和置信度如下:
4.1)从步骤3)中进行了tokens筛选设计的ViT编码器中取出关键帧中间层特征,并采用最近邻插值得到多尺度特征:
4.2)将多尺度特征输入FPN进行降维和特征融合;
4.3)设置N个可学习的候选框和对应的候选特征,人物定位分支共6层,每层由一个在候选特征间进行交互的自注意力层、一个在候选特征和对应RoI特征间进行交互的动态实例交互层和一个FFN层组成,每层的输出再分别经过回归层和分类层,得到修正的候选框和对应的置信度分数,最后一层更新得到的候选框和对应的置信度作为人体检测的最终结果。
5.根据权利要求1所述的基于关键帧筛选像素块的视频动作检测方法,其特征是步骤5)中由动作分类分支生成候选人物的动作分类结果为:
5.1)恢复特征图的时空结构,将步骤3)保留下来的tokens经过通道降维后得到离散特征图x′L,再将其按对应的时空位置放入一个空的特征图中,得到连续的时空特征图X;
5.2)扩展边界框的范围来覆盖到人的完整特征迹:
prop_bbox=Extend(prop_bboxL,extend_scale)
其中prop_bboxL为步骤4)定位分支预测的边界框,extend_scale表示扩展系数,设置extend_scale=(0.4,0.2),表示W维向外扩展0.4倍,H维向外扩展0.2倍;prop_bbox为扩展的边界框,roi_feat表示人物的RoI特征,Maxpool表示空间最大池化操作,RoIAlign表示RoIAlign操作;
5.3)使用6层的解码器网络在roi_feat与紧凑上下文之间执行关系建模,输出预测的动作:
其中num_classes表示数据集的动作类别数量,对于解码器每一层,设输入为yl-1,输出为yl,则有:
y′l=MHSA(LN(yl-1))+yl-1
yl=FFN(LN(y′l))+y′l
其中yl=[roi_featl;xl],对更新的roi_featl执行动作分类预测,得到每一层的动作分数actionl作为训练过程的中间层监督信号:
6.一种电子设备,其特征是包括存储介质和处理器,所述存储介质用于存储计算机程序,处理器用于执行所述计算机程序,计算机程序被执行时,实现权利要求1-5任一项所述的基于关键帧筛选像素块的视频动作检测方法,得到加速视频动作检测器EVAD,用于对输入视频片段进行动作检测。
7.一种计算机可读存储介质,其特征是所述计算机可读存储介质上存储有计算机程序,该计算机程序被执行时,实现权利要求1-5任一项所述的基于关键帧筛选像素块的视频动作检测方法,得到加速视频动作检测器EVAD。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307393.XA CN116168329A (zh) | 2023-03-27 | 2023-03-27 | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307393.XA CN116168329A (zh) | 2023-03-27 | 2023-03-27 | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116168329A true CN116168329A (zh) | 2023-05-26 |
Family
ID=86420273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310307393.XA Pending CN116168329A (zh) | 2023-03-27 | 2023-03-27 | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168329A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524545A (zh) * | 2023-06-30 | 2023-08-01 | 暨南大学 | 一种基于人工智能的胚胎分级方法及系统 |
CN117179744A (zh) * | 2023-08-30 | 2023-12-08 | 武汉星巡智能科技有限公司 | 非接触式婴幼儿身高测量方法、装置、设备及存储介质 |
CN117831136A (zh) * | 2024-03-04 | 2024-04-05 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
CN117953590A (zh) * | 2024-03-27 | 2024-04-30 | 武汉工程大学 | 一种三元交互动作检测方法、系统、设备及介质 |
-
2023
- 2023-03-27 CN CN202310307393.XA patent/CN116168329A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524545A (zh) * | 2023-06-30 | 2023-08-01 | 暨南大学 | 一种基于人工智能的胚胎分级方法及系统 |
CN116524545B (zh) * | 2023-06-30 | 2023-09-15 | 暨南大学 | 一种基于人工智能的胚胎分级方法及系统 |
CN117179744A (zh) * | 2023-08-30 | 2023-12-08 | 武汉星巡智能科技有限公司 | 非接触式婴幼儿身高测量方法、装置、设备及存储介质 |
CN117831136A (zh) * | 2024-03-04 | 2024-04-05 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
CN117831136B (zh) * | 2024-03-04 | 2024-05-07 | 贵州省种畜禽种质测定中心 | 基于远程监控的牛异常行为检测方法 |
CN117953590A (zh) * | 2024-03-27 | 2024-04-30 | 武汉工程大学 | 一种三元交互动作检测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Exploiting unlabeled data in cnns by self-supervised learning to rank | |
CN109711316B (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
Sun et al. | SG-FCN: A motion and memory-based deep learning model for video saliency detection | |
CN116168329A (zh) | 基于关键帧筛选像素块的视频动作检测方法、设备及介质 | |
Ji et al. | Semi-supervised adversarial monocular depth estimation | |
CN111860162A (zh) | 一种视频人群计数系统及方法 | |
CN111091045A (zh) | 一种基于时空注意力机制的手语识别方法 | |
Seow et al. | A comprehensive overview of Deepfake: Generation, detection, datasets, and opportunities | |
CN115690002A (zh) | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
Kugarajeevan et al. | Transformers in single object tracking: an experimental survey | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN115222998A (zh) | 一种图像分类方法 | |
US20230154139A1 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN114882405B (zh) | 一种基于时空双流金字塔网络架构的视频显著性检测方法 | |
Indhumathi et al. | Human action recognition using spatio-temporal multiplier network and attentive correlated temporal feature | |
CN115272660A (zh) | 一种基于双流神经网络的唇语识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |