CN117392578A - 基于两阶段时空注意力的动作检测方法及系统 - Google Patents
基于两阶段时空注意力的动作检测方法及系统 Download PDFInfo
- Publication number
- CN117392578A CN117392578A CN202311282840.7A CN202311282840A CN117392578A CN 117392578 A CN117392578 A CN 117392578A CN 202311282840 A CN202311282840 A CN 202311282840A CN 117392578 A CN117392578 A CN 117392578A
- Authority
- CN
- China
- Prior art keywords
- attention
- motion detection
- detection method
- stage
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000009471 action Effects 0.000 title claims abstract description 28
- 230000033001 locomotion Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 13
- 210000000746 body region Anatomy 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,尤其涉及基于两阶段时空注意力的动作检测方法及系统,包括利用ResNet50提取视频帧图像特征;并利用改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编‑解码器来检测人体区域;利用时空注意力编码器对检测到的人体区域内的动作进行识别。本发明解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长;基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于两阶段时空注意力的动作检测方法及系统。
背景技术
随着互联网的迅速发展和短视频平台的兴起,网络上的视频数量呈井喷式增长,如何对这些海量视频进行理解分类从而更好的利用这些资源已成为迫在眉睫的问题。时空动作检测是视频理解领域最具挑战性的任务之一,通过识别并定位视频中出现的人和动作,解决了时序和空间动作检测问题,在电影关键片段定位,短视频推荐和安防监控等领域有着广泛应用。
相比于静态图像,视频具有空间和时间两个维度上的特征信息,而能否有效从连续的视频帧中提取并利用这两类信息是视频理解任务的关键。传统时空动作检测使用基于CNN架构的3D卷积网络来提取时空信息,但卷积只能捕获局部的信息,不能对感受野之外的特征进行建模。虽然通过堆叠多个卷积的方式能够扩大感受野,但会增加长序列信息建模的计算量,因此3D卷积网络只能处理较短时间的视频输入,且训练时间过长。近年来出现了基于纯Transformer结构的时空动作检测方法,通过二分图匹配将动作种类以集合的方式预测出来。但该方法同样面临多个问题,其一是随着序列长度(token数量)增加,导致计算和内存复杂性呈二次增长,进而导致训练时间变长。此外,该方法在小目标的检测精度方面表现较差。
发明内容
针对现有方法的不足,本发明解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长;基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。
本发明所采用的技术方案是:基于两阶段时空注意力的动作检测方法包括以下步骤:
步骤一、利用ResNet50提取视频帧图像特征;并利用改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域,完成人体区域检测网络的构建;
进一步的,步骤一具体包括:
利用改进FPN特征金字塔结构提取视频帧中强化的空间特征,输出的特征图经过1×1卷积降维后,利用线性展平层将特征图转换为长度为L的一维向量并添加位置编码(0,1,2…L-1),通过Transformer编-解码器输出视频帧中人体区域的位置信息;
获得人体边界框后,使用预测的边界框作为提议进行逐帧的RoIAlign操作,并在特征图上进行全局平均池化操作。
进一步的,改进FPN特征金字塔结构是在现有FPN结构的低层特征之后添加了两个卷积层,从高层特征中提取更加鲁棒的特征,公式为:
其中,Upsample表示上采样操作,Pn表示当前层特征图,Pn+1表示来自前一层的特征图,Un表示通过上采样获得的特征图,Mn表示合并后的特征图,ReLU、BN和Conv分别表示ReLU激活函数、批归一化层和卷积层。
步骤二、利用时空注意力编码器对检测到的人体区域内的动作识别,完成动作识别网络的构建;
进一步的,步骤二具体包括:
基于Longformer和Transformer的时空注意力编码器,先从输入视频中提取出F帧组成集合x∈RH×W×3×F,将每帧图像分割为N个P×P大小的patch;其中N=HW/P2;每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器,具体计算如下:
式中,p=1,...,N表示patch的序号,t=1,...,F表示不同视频帧的索引,Ex为线性展平层平层权值矩阵,PE为位置编码,H和W为视频帧的高,宽。
进一步的,动作识别网络由成对使用的Longformer编码器和Transformer编码器组成,Longformer编码器在线性展平层之后添加了LayerNorm。
进一步的,还包括:利用CIOU Loss损失函数加速人体区域检测网络的训练过程。
进一步的,还包括:利用多分类交叉熵函数对动作识别网络进行动作分类。
进一步的,基于两阶段时空注意力的动作检测系统,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现基于两阶段时空注意力的动作检测方法。
进一步的,存储有计算机程序代码的计算机可读介质,其特征在于,计算机程序代码在由处理器执行时实现基于两阶段时空注意力的动作检测方法。
本发明的有益效果:
1、采用改进FPN结构,可以从高层特征中提取更加鲁棒的特征,使网络获得多尺度特征,从而提高对小目标的检测性能,有效缓解了基于纯Transformer结构的动作检测方法对小目标检测精度差的问题;
2、使用基于Longformer的注意力编码器通过全局标记提取视频的全局时间特征,提升了网络对长时间视频的检测精度同时使得网络处理长视频序列的计算和内存复杂性呈线性增长,有效缓解了基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长的问题;
3、采用时空分离注意力结构,有效整合了视频在(T*W*H)维度上的时空信息同时大幅减少了模型参数量;
4、在视频动作检测任务上体现了很好的鲁棒性,与现有方法相比,本发明检测精度更高同时网络所需的训练时间更短。
附图说明
图1是本发明的基于两阶段时空注意力的动作检测方法流程图;
图2是本发明的基于两阶段时空注意力的动作检测网络结构图;
图3是Transformer编-解码器结构图;
图4是改进FPN特征金字塔结构图;
图5是时空分离注意力结构图;
图6(a)为在一分钟视频上的预测结果;图6(b)为注意力可视化热力图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,一种基于两阶段时空注意力的动作检测方法及系统包括:目标检测阶段和动作识别阶段;在目标检测阶段,通过改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域;在动作识别阶段利用时空注意力编码器对检测到的人体区域内的动作进行识别。
如图2为两阶段时空注意力的动作检测网络,包括改进FPN特征金字塔结构、Transformer编-解码器、位置编码、线性展平层和多层感知机MLP;改进FPN特征金字塔结构提取视频帧中强化的空间特征,输出的特征图经过1×1卷积降维后,利用线性展平层将特征图转换为长度为L的一维向量并添加位置编码(0,1,2…L-1),通过Transformer编-解码器输出视频帧中人体区域的位置信息;获得边界框后,使用预测的边界框作为提议进行逐帧的RoIAlign操作,并在特征图上进行全局平均池化操作。
将人体区域特征图划分为n*n个补丁,每个补丁通过一个带有位置编码的线性展平层,并进行层归一化操作;使用基于Longformer的注意力编码器来获取时间特征,将时间特征与特征图合并,输入基于Transformer的注意力编码器中提取空间特征,使用MLP输出视频的时空动作检测结果。
下载公共数据集并预处理;
下载公共数据集并预处理具体实施为:针对第一阶段的检测任务、第二阶段的动作识别任务和总体的时空动作检测任务分别下载COCO 2017数据集、Kinetics 400数据集和AVA v2.2数据集并进行预处理操作。
对COCO 2017数据集进行如下预处理:将图像大小调整到224*224像素并相应调整Bounding Box的坐标;对Kinetics 400数据集进行如下预处理:使用OPENCV从视频中均匀采样16帧视频帧,将提取的视频帧尺寸调整为512*512像素大小再中心裁剪为448*448;对AVA v2.2数据集进行如下预处理:使用OPENCV从视频中均匀采样16帧视频帧,将提取的视频帧尺寸调整为448*448像素大小并相应调整Bounding Box的坐标。
随机调整COCO 2017数据集中图像的颜色、对比度、明亮度,并除去各个通道的均值,将结果除以各个通道的标准差,以实现数据的归一化;对于Kinetics400数据集和AVAv2.2数据集抽取的视频帧,随机调整视频帧的对比度和明亮度,并对视频帧的数值进行标准化的操作。
配置网络结构;
如图3所示,Transformer编-解码器,Transformer编码器由多头注意力模块(MHA)和多层感知机模块(MLP)构成,两个模块之间在使用残差结构连接之前都使用层归一化(LN))来加速模型收敛;Transformer解码器在多层感知机前增加一个多头注意力模块用以接收Transformer编码器的输出;在每个Transformer编码器的多头注意力模块中,为每个头部添加了相对位置偏置B,使得模型具有平移不变性,多头注意力模块中每个头的注意力计算可表示为:
式中,Q=XWQ,K=XWK,V=XWV,dk表示矩阵K的维度。
多层感知机模块由两个线性展平层和一个RELU激活函数构成,可表示为:
MLP(x)=max(0,x·W1+b1)W2+b2 (2)
式中,W1,b1,W2,b2表示线性展平层1和线性展平层2的权值矩阵和偏置;
Transformer编码器可表示为:
Transformer解码器可表示为:
x″l=MHA(LN(xl-1))+xl-1, l=1…L (5)
xl=MLP(LN(x′l))+x′l, l=1…L (7)
式中,xl-1表示上一个解码器码器的输出,和/>分别表示当前编码器的中间状态和编码器的输出,x″l,x′l和xl表示当前解码器的两个中间状态和解码器的输出,LN表示LayNorm层,MHA表示多头注意力模块,MLP表示多层感知机模块。
如图4所示为改进FPN特征金字塔结构,为提升对小目标特征的提取精度,在现有FPN结构的低层特征之后添加了两个卷积层,从高层特征中提取更加鲁棒的特征;两个卷积层使用相同的填充参数以保持感受野不变,且不使用池化层进行下采样,以保留小目标检测所需特征信息,并增强网络的多尺度检测能力,公式如下:
其中,Upsample表示上采样操作,Pn+1表示来自前一层的特征图,Un表示通过上采样获得的特征图,Mn表示合并后的特征图,ReLU、BN和Conv分别表示ReLU激活函数、批归一化层和卷积层。
基于两阶段时空注意力的动作检测网络使用ResNet50作为BACKBONE提取视频帧图像特征,引入改进FPN特征金字塔结构,将输出的7*7大小特征图与不同尺寸特征图融合,在不损失较高语义信息的情况下保留更多细节信息。
基于Longformer和Transformer的动作识别网络,先从输入视频中提取出F帧组成集合x∈RH×W×3×F,将每帧图像分割为N个P×P大小的patch;其中N=HW/P2;每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器,具体计算如下:
式中,p=1,...,N表示patch的序号,t=1,...,F表示不同视频帧的索引,Ex为线性展平层平层权值矩阵,PE为位置编码。
动作识别网络由成对使用的Longformer编码器和Transformer编码器组成,Longformer编码器在线性展平层之后添加了LayerNorm。
Longformer编码器使用复杂度为O(n)的注意机制处理长序列信息,该机制有效结合了通过滑动窗口实现的局部自注意力和全局注意力,避免了由于token数量增加导致计算和内存复杂性二次增长;全局注意力使用预选的全局标记作为当前补丁之前和之后的全局记忆,捕捉沿时间轴(T)的时间特征;而Transformer编码器在空间维度(W*H)上执行自注意力操作,允许每个补丁与其他补丁进行注意力交互,扩展感受野并获取全局空间信息,具体计算如下:
其中,和/>分别为Longformer编码器和Transformer编码器输出。
如图5所示时空分离注意力结构,先使用基于Longformer的注意力编码器对特征图时间维度(T)进行自注意力计算,生成视频的全局时间特征,并与特征图融合;再使用基于Transformer的注意力编码器对特征图空间维度(W*H)进行自注意力计算,输出视频帧在(T*W*H)维度上的时空动作检测结果;在提取时间维度的特征时,只从视频序列的前后帧中选取相同位置的补丁做自注意力计算,以减少模型参数量;提取空间维度的特征时,让每一块补丁与特征图上不同位置的补丁做自注意力计算,使网络获得整个特征图上的空间特征。
配置损失函数,使用与预测框大小无关的CIOU Loss平衡L1 Loss,加速网络收敛,具体计算如下:
式中,pre,gt分别表示预测区域和真实区域,intersection表示交集,union表示并集,b,bgt分别表示预测框和真实框的中心点,ρ表示两点之间的距离,c表示预测框和真实框的最小凸集对角线的长度,当预测框和真实框重合时ρ与c相等,α为权重函数,v为长宽相似比,w,h表示预测框的宽高,wgt,hgt表示真实框的宽高。
加入FPN结构后的第一阶段整体训练损失由标签损失/>和边界框损失/>两部分构成,可表示为:
其中,N表示类别数,表示对标签i的预测,ci表示真实标签对应的索引。
边界框损失由L1Loss和CIOU Loss两部分构成,可表示为:
其中,bi表示真实边界框,表示模型预测边界框,/>和λCIOU分别为调整L1Loss和CIOU Loss的比例权重。
动作识别网络使用多分类交叉熵函数(Cross Entropy Loss)作为损失函数,可表示为:
其中,yi为当前样本标签对应的独热编码,即当前样本属于类别i时yi为1,否则yi为0,pi表示当前样本属于类别i的概率。
网络总体损失函数可表示为:
训练网络是在COCO 2017数据集上训练第一阶段的检测网络,使用Adam优化器,epoch设置为30,补丁大小为16*16,batch size为16,使用作为标签损失,L1Loss和CIOU Loss作为边界框损失;在Kinetics 400数据集上训练第二阶段的动作识别网络,使用AdamW优化器,epoch设置为15,补丁大小为16*16,batch size设置为8,使用作为分类损失;训练完成后将第一阶段的检测结果和特征图输入第二阶段的动作识别网络,组成总体的时空动作检测网络。
测试网络具体实施为:在COCO 2017val数据集上测试第一阶段的注意力检测网络,在Kinetics 400val数据集上测试第二阶段的动作识别网络,在AVA v2.2 val数据集上测试总体的时空动作检测网络;在测试阶段,不对数据进行任何增强处理;在AVA v2.2数据集上,与现有时空动作检测方法进行了性能对比,结果如表1所示:
表1本发明与现有方法对比
与传统时空动作检测方法FasterRcnn+SlowFast相比,MAP提高了1.4%,训练时间减少了39.5%;与基于纯Transformer结构的动作检测方法MViT-B相比,MAP提高了0.7%,训练时间减少了46.2%;可视化如图6(a)和图6(b)所示,在一段一分钟视频上的预测结果以及注意力可视化热力图,可以看到本发明方法更加关注视频中的关键运动区域,对这些区域分配更大的权重,并根据这些运动特征判别人体动作。
本发明的测试平台和实验环境为:Windows 10专业版操作系统,Intel(R)Xeon(R)Gold 6248RCPU,128GB内存,NVIDIARTX 3090GPU、Ubuntu 20.04操作系统、Pytorch1.10.2、CUDA11.4、Python 3.8.12。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (9)
1.基于两阶段时空注意力的动作检测方法,其特征在于,包括以下步骤:
步骤一、利用ResNet50提取视频帧图像特征;并利用改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域,构建人体区域检测网络;
步骤二、利用时空注意力编码器对检测到的人体区域内的动作进行识别,构建动作识别网络。
2.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤一具体包括:
利用改进FPN特征金字塔结构提取视频帧中强化的空间特征,输出的特征图经过1×1卷积降维后,利用线性展平层将特征图转换为长度为L的一维向量并添加位置编码(0,1,2…L-1),通过Transformer编-解码器输出视频帧中人体区域的位置信息;
获得人体边界框后,使用预测的边界框作为提议进行逐帧的RoIAlign操作,并在特征图上进行全局平均池化操作。
3.根据权利要求2所述的基于两阶段时空注意力的动作检测方法,其特征在于,改进FPN特征金字塔结构是在现有FPN结构的低层特征之后添加了两个卷积层,从高层特征中提取更加鲁棒的特征,公式为:
其中,Upsample表示上采样操作,Pn表示当前层特征图,Pn+1表示来自前一层的特征图,Un表示通过上采样获得的特征图,Mn表示合并后的特征图,ReLU、BN和Conv分别表示ReLU激活函数、批归一化层和卷积层。
4.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤二具体包括:
基于Longformer和Transformer的时空注意力编码器,先从输入视频中提取出F帧组成集合x∈RH×W×3×F,将每帧图像分割为N个P×P大小的patch;其中N=HW/P2;每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器,具体计算如下:
式中,p=1,…,N表示patch的序号,t=1,…,F表示不同视频帧的索引,Ex为线性展平层平层权值矩阵,PE为位置编码,H和W为视频帧的高,宽。
5.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,动作识别由成对使用的Longformer编码器和Transformer编码器组成,Longformer编码器在线性展平层之后添加了LayerNorm。
6.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,还包括:利用CIOU Loss损失函数加速人体区域检测网络的训练过程。
7.根据权利要求5所述的基于两阶段时空注意力的动作检测方法,其特征在于,还包括:利用多分类交叉熵函数对动作识别网络进行动作分类。
8.基于两阶段时空注意力的动作检测系统,其特征在于,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现如权利要求1-7任一项所述的基于两阶段时空注意力的动作检测方法。
9.存储有计算机程序代码的计算机可读介质,其特征在于,计算机程序代码在由处理器执行时实现如权利要求1-7任一项所述的基于两阶段时空注意力的动作检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282840.7A CN117392578A (zh) | 2023-10-07 | 2023-10-07 | 基于两阶段时空注意力的动作检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282840.7A CN117392578A (zh) | 2023-10-07 | 2023-10-07 | 基于两阶段时空注意力的动作检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392578A true CN117392578A (zh) | 2024-01-12 |
Family
ID=89471149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311282840.7A Pending CN117392578A (zh) | 2023-10-07 | 2023-10-07 | 基于两阶段时空注意力的动作检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392578A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830788A (zh) * | 2024-03-06 | 2024-04-05 | 潍坊科技学院 | 一种多源信息融合的图像目标检测方法 |
-
2023
- 2023-10-07 CN CN202311282840.7A patent/CN117392578A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117830788A (zh) * | 2024-03-06 | 2024-04-05 | 潍坊科技学院 | 一种多源信息融合的图像目标检测方法 |
CN117830788B (zh) * | 2024-03-06 | 2024-05-10 | 潍坊科技学院 | 一种多源信息融合的图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
Makhmudkhujaev et al. | Facial expression recognition with local prominent directional pattern | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN111523378A (zh) | 一种基于深度学习的人体行为预测方法 | |
CN117392578A (zh) | 基于两阶段时空注意力的动作检测方法及系统 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN115035581A (zh) | 面部表情识别方法、终端设备及存储介质 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN114550268A (zh) | 一种利用时空特征的深度伪造视频检测方法 | |
CN114913342A (zh) | 融合事件和图像的运动模糊图像线段检测方法及系统 | |
Guo et al. | Application: Image-based visual perception | |
CN110825916A (zh) | 一种基于形体识别技术的寻人方法 | |
Zhang et al. | A quality index metric and method for online self-assessment of autonomous vehicles sensory perception | |
CN113674321A (zh) | 一种基于云端的监控视频下多目标跟踪的方法 | |
CN117315293A (zh) | 一种基于Transformer的时空上下文目标跟踪方法及系统 | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN117011932A (zh) | 一种奔跑行为检测方法、电子设备及存储介质 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
US20220207261A1 (en) | Method and apparatus for detecting associated objects | |
Bakr et al. | Mask R-CNN for moving shadow detection and segmentation | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |