CN117392578A

CN117392578A - 基于两阶段时空注意力的动作检测方法及系统

Info

Publication number: CN117392578A
Application number: CN202311282840.7A
Authority: CN
Inventors: 陈从平; 张春生; 陈奔; 徐志伟; 陆鹏; 李明春
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-12

Abstract

本发明涉及计算机视觉技术领域，尤其涉及基于两阶段时空注意力的动作检测方法及系统，包括利用ResNet50提取视频帧图像特征；并利用改进FPN特征金字塔结构增强提取的视频特征，使用带有位置编码和线性展平层的Transformer编‑解码器来检测人体区域；利用时空注意力编码器对检测到的人体区域内的动作进行识别。本发明解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长；基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。

Description

基于两阶段时空注意力的动作检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及基于两阶段时空注意力的动作检测方法及系统。

背景技术

随着互联网的迅速发展和短视频平台的兴起，网络上的视频数量呈井喷式增长，如何对这些海量视频进行理解分类从而更好的利用这些资源已成为迫在眉睫的问题。时空动作检测是视频理解领域最具挑战性的任务之一，通过识别并定位视频中出现的人和动作，解决了时序和空间动作检测问题，在电影关键片段定位，短视频推荐和安防监控等领域有着广泛应用。

相比于静态图像，视频具有空间和时间两个维度上的特征信息，而能否有效从连续的视频帧中提取并利用这两类信息是视频理解任务的关键。传统时空动作检测使用基于CNN架构的3D卷积网络来提取时空信息，但卷积只能捕获局部的信息，不能对感受野之外的特征进行建模。虽然通过堆叠多个卷积的方式能够扩大感受野，但会增加长序列信息建模的计算量，因此3D卷积网络只能处理较短时间的视频输入，且训练时间过长。近年来出现了基于纯Transformer结构的时空动作检测方法，通过二分图匹配将动作种类以集合的方式预测出来。但该方法同样面临多个问题，其一是随着序列长度(token数量)增加，导致计算和内存复杂性呈二次增长，进而导致训练时间变长。此外，该方法在小目标的检测精度方面表现较差。

发明内容

针对现有方法的不足，本发明解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长；基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。

本发明所采用的技术方案是：基于两阶段时空注意力的动作检测方法包括以下步骤：

步骤一、利用ResNet50提取视频帧图像特征；并利用改进FPN特征金字塔结构增强提取的视频特征，使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域，完成人体区域检测网络的构建；

进一步的，步骤一具体包括：

利用改进FPN特征金字塔结构提取视频帧中强化的空间特征，输出的特征图经过1×1卷积降维后，利用线性展平层将特征图转换为长度为L的一维向量并添加位置编码(0,1,2…L-1)，通过Transformer编-解码器输出视频帧中人体区域的位置信息；

获得人体边界框后，使用预测的边界框作为提议进行逐帧的RoIAlign操作，并在特征图上进行全局平均池化操作。

进一步的，改进FPN特征金字塔结构是在现有FPN结构的低层特征之后添加了两个卷积层，从高层特征中提取更加鲁棒的特征，公式为：

其中，Upsample表示上采样操作，P_n表示当前层特征图，P_n+1表示来自前一层的特征图，U_n表示通过上采样获得的特征图，M_n表示合并后的特征图，ReLU、BN和Conv分别表示ReLU激活函数、批归一化层和卷积层。

步骤二、利用时空注意力编码器对检测到的人体区域内的动作识别，完成动作识别网络的构建；

进一步的，步骤二具体包括：

基于Longformer和Transformer的时空注意力编码器，先从输入视频中提取出F帧组成集合x∈R^H×W×3×F，将每帧图像分割为N个P×P大小的patch；其中N＝HW/P2；每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器，具体计算如下：

式中，p＝1，...，N表示patch的序号，t＝1，...，F表示不同视频帧的索引，Ex为线性展平层平层权值矩阵，PE为位置编码，H和W为视频帧的高，宽。

进一步的，动作识别网络由成对使用的Longformer编码器和Transformer编码器组成，Longformer编码器在线性展平层之后添加了LayerNorm。

进一步的，还包括：利用CIOU Loss损失函数加速人体区域检测网络的训练过程。

进一步的，还包括：利用多分类交叉熵函数对动作识别网络进行动作分类。

进一步的，基于两阶段时空注意力的动作检测系统，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现基于两阶段时空注意力的动作检测方法。

进一步的，存储有计算机程序代码的计算机可读介质，其特征在于，计算机程序代码在由处理器执行时实现基于两阶段时空注意力的动作检测方法。

本发明的有益效果：

1、采用改进FPN结构，可以从高层特征中提取更加鲁棒的特征，使网络获得多尺度特征，从而提高对小目标的检测性能，有效缓解了基于纯Transformer结构的动作检测方法对小目标检测精度差的问题；

2、使用基于Longformer的注意力编码器通过全局标记提取视频的全局时间特征，提升了网络对长时间视频的检测精度同时使得网络处理长视频序列的计算和内存复杂性呈线性增长，有效缓解了基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长的问题；

3、采用时空分离注意力结构，有效整合了视频在(T*W*H)维度上的时空信息同时大幅减少了模型参数量；

4、在视频动作检测任务上体现了很好的鲁棒性，与现有方法相比，本发明检测精度更高同时网络所需的训练时间更短。

附图说明

图1是本发明的基于两阶段时空注意力的动作检测方法流程图；

图2是本发明的基于两阶段时空注意力的动作检测网络结构图；

图3是Transformer编-解码器结构图；

图4是改进FPN特征金字塔结构图；

图5是时空分离注意力结构图；

图6(a)为在一分钟视频上的预测结果；图6(b)为注意力可视化热力图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，一种基于两阶段时空注意力的动作检测方法及系统包括：目标检测阶段和动作识别阶段；在目标检测阶段，通过改进FPN特征金字塔结构增强提取的视频特征，使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域；在动作识别阶段利用时空注意力编码器对检测到的人体区域内的动作进行识别。

如图2为两阶段时空注意力的动作检测网络，包括改进FPN特征金字塔结构、Transformer编-解码器、位置编码、线性展平层和多层感知机MLP；改进FPN特征金字塔结构提取视频帧中强化的空间特征，输出的特征图经过1×1卷积降维后，利用线性展平层将特征图转换为长度为L的一维向量并添加位置编码(0,1,2…L-1)，通过Transformer编-解码器输出视频帧中人体区域的位置信息；获得边界框后，使用预测的边界框作为提议进行逐帧的RoIAlign操作，并在特征图上进行全局平均池化操作。

将人体区域特征图划分为n*n个补丁，每个补丁通过一个带有位置编码的线性展平层，并进行层归一化操作；使用基于Longformer的注意力编码器来获取时间特征，将时间特征与特征图合并，输入基于Transformer的注意力编码器中提取空间特征，使用MLP输出视频的时空动作检测结果。

下载公共数据集并预处理；

下载公共数据集并预处理具体实施为：针对第一阶段的检测任务、第二阶段的动作识别任务和总体的时空动作检测任务分别下载COCO 2017数据集、Kinetics 400数据集和AVA v2.2数据集并进行预处理操作。

对COCO 2017数据集进行如下预处理：将图像大小调整到224*224像素并相应调整Bounding Box的坐标；对Kinetics 400数据集进行如下预处理：使用OPENCV从视频中均匀采样16帧视频帧，将提取的视频帧尺寸调整为512*512像素大小再中心裁剪为448*448；对AVA v2.2数据集进行如下预处理：使用OPENCV从视频中均匀采样16帧视频帧，将提取的视频帧尺寸调整为448*448像素大小并相应调整Bounding Box的坐标。

随机调整COCO 2017数据集中图像的颜色、对比度、明亮度，并除去各个通道的均值，将结果除以各个通道的标准差，以实现数据的归一化；对于Kinetics400数据集和AVAv2.2数据集抽取的视频帧，随机调整视频帧的对比度和明亮度，并对视频帧的数值进行标准化的操作。

配置网络结构；

如图3所示，Transformer编-解码器，Transformer编码器由多头注意力模块(MHA)和多层感知机模块(MLP)构成，两个模块之间在使用残差结构连接之前都使用层归一化(LN))来加速模型收敛；Transformer解码器在多层感知机前增加一个多头注意力模块用以接收Transformer编码器的输出；在每个Transformer编码器的多头注意力模块中，为每个头部添加了相对位置偏置B，使得模型具有平移不变性，多头注意力模块中每个头的注意力计算可表示为：

式中，Q＝XW^Q，K＝XW^K，V＝XW^V，d_k表示矩阵K的维度。

多层感知机模块由两个线性展平层和一个RELU激活函数构成，可表示为：

MLP(x)＝max(0，x·W₁+b₁)W₂+b₂ (2)

式中，W₁，b₁，W₂，b₂表示线性展平层1和线性展平层2的权值矩阵和偏置；

Transformer编码器可表示为：

Transformer解码器可表示为：

x″_l＝MHA(LN(x_l-1))+x_l-1， l＝1…L (5)

x_l＝MLP(LN(x′_l))+x′_l， l＝1…L (7)

式中，x_l-1表示上一个解码器码器的输出，和/>分别表示当前编码器的中间状态和编码器的输出，x″_l，x′_l和x_l表示当前解码器的两个中间状态和解码器的输出，LN表示LayNorm层，MHA表示多头注意力模块，MLP表示多层感知机模块。

如图4所示为改进FPN特征金字塔结构，为提升对小目标特征的提取精度，在现有FPN结构的低层特征之后添加了两个卷积层，从高层特征中提取更加鲁棒的特征；两个卷积层使用相同的填充参数以保持感受野不变，且不使用池化层进行下采样，以保留小目标检测所需特征信息，并增强网络的多尺度检测能力，公式如下：

其中，Upsample表示上采样操作，P_n+1表示来自前一层的特征图，U_n表示通过上采样获得的特征图，M_n表示合并后的特征图，ReLU、BN和Conv分别表示ReLU激活函数、批归一化层和卷积层。

基于两阶段时空注意力的动作检测网络使用ResNet50作为BACKBONE提取视频帧图像特征，引入改进FPN特征金字塔结构，将输出的7*7大小特征图与不同尺寸特征图融合，在不损失较高语义信息的情况下保留更多细节信息。

基于Longformer和Transformer的动作识别网络，先从输入视频中提取出F帧组成集合x∈R^H×W×3×F，将每帧图像分割为N个P×P大小的patch；其中N＝HW/P²；每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器，具体计算如下：

式中，p＝1，...，N表示patch的序号，t＝1，...，F表示不同视频帧的索引，Ex为线性展平层平层权值矩阵，PE为位置编码。

动作识别网络由成对使用的Longformer编码器和Transformer编码器组成，Longformer编码器在线性展平层之后添加了LayerNorm。

Longformer编码器使用复杂度为O(n)的注意机制处理长序列信息，该机制有效结合了通过滑动窗口实现的局部自注意力和全局注意力，避免了由于token数量增加导致计算和内存复杂性二次增长；全局注意力使用预选的全局标记作为当前补丁之前和之后的全局记忆，捕捉沿时间轴(T)的时间特征；而Transformer编码器在空间维度(W*H)上执行自注意力操作，允许每个补丁与其他补丁进行注意力交互，扩展感受野并获取全局空间信息，具体计算如下：

其中，和/>分别为Longformer编码器和Transformer编码器输出。

如图5所示时空分离注意力结构，先使用基于Longformer的注意力编码器对特征图时间维度(T)进行自注意力计算，生成视频的全局时间特征，并与特征图融合；再使用基于Transformer的注意力编码器对特征图空间维度(W*H)进行自注意力计算，输出视频帧在(T*W*H)维度上的时空动作检测结果；在提取时间维度的特征时，只从视频序列的前后帧中选取相同位置的补丁做自注意力计算，以减少模型参数量；提取空间维度的特征时，让每一块补丁与特征图上不同位置的补丁做自注意力计算，使网络获得整个特征图上的空间特征。

配置损失函数，使用与预测框大小无关的CIOU Loss平衡L1 Loss，加速网络收敛，具体计算如下：

式中，pre，gt分别表示预测区域和真实区域，intersection表示交集，union表示并集，b，b^gt分别表示预测框和真实框的中心点，ρ表示两点之间的距离，c表示预测框和真实框的最小凸集对角线的长度，当预测框和真实框重合时ρ与c相等，α为权重函数，v为长宽相似比，w，h表示预测框的宽高，w^gt，h^gt表示真实框的宽高。

加入FPN结构后的第一阶段整体训练损失由标签损失/>和边界框损失/>两部分构成，可表示为：

其中，N表示类别数，表示对标签i的预测，c_i表示真实标签对应的索引。

边界框损失由L1Loss和CIOU Loss两部分构成，可表示为：

其中，b_i表示真实边界框，表示模型预测边界框，/>和λ_CIOU分别为调整L1Loss和CIOU Loss的比例权重。

动作识别网络使用多分类交叉熵函数(Cross Entropy Loss)作为损失函数，可表示为：

其中，y_i为当前样本标签对应的独热编码，即当前样本属于类别i时y_i为1，否则y_i为0，p_i表示当前样本属于类别i的概率。

网络总体损失函数可表示为：

训练网络是在COCO 2017数据集上训练第一阶段的检测网络，使用Adam优化器，epoch设置为30，补丁大小为16*16，batch size为16，使用作为标签损失，L1Loss和CIOU Loss作为边界框损失；在Kinetics 400数据集上训练第二阶段的动作识别网络，使用AdamW优化器，epoch设置为15，补丁大小为16*16，batch size设置为8，使用作为分类损失；训练完成后将第一阶段的检测结果和特征图输入第二阶段的动作识别网络，组成总体的时空动作检测网络。

测试网络具体实施为：在COCO 2017val数据集上测试第一阶段的注意力检测网络，在Kinetics 400val数据集上测试第二阶段的动作识别网络，在AVA v2.2 val数据集上测试总体的时空动作检测网络；在测试阶段，不对数据进行任何增强处理；在AVA v2.2数据集上，与现有时空动作检测方法进行了性能对比，结果如表1所示：

表1本发明与现有方法对比

与传统时空动作检测方法FasterRcnn+SlowFast相比，MAP提高了1.4％，训练时间减少了39.5％；与基于纯Transformer结构的动作检测方法MViT-B相比，MAP提高了0.7％，训练时间减少了46.2％；可视化如图6(a)和图6(b)所示，在一段一分钟视频上的预测结果以及注意力可视化热力图，可以看到本发明方法更加关注视频中的关键运动区域，对这些区域分配更大的权重，并根据这些运动特征判别人体动作。

本发明的测试平台和实验环境为：Windows 10专业版操作系统，Intel(R)Xeon(R)Gold 6248RCPU，128GB内存，NVIDIARTX 3090GPU、Ubuntu 20.04操作系统、Pytorch1.10.2、CUDA11.4、Python 3.8.12。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.基于两阶段时空注意力的动作检测方法，其特征在于，包括以下步骤：

步骤一、利用ResNet50提取视频帧图像特征；并利用改进FPN特征金字塔结构增强提取的视频特征，使用带有位置编码和线性展平层的Transformer编-解码器来检测人体区域，构建人体区域检测网络；

步骤二、利用时空注意力编码器对检测到的人体区域内的动作进行识别，构建动作识别网络。

2.根据权利要求1所述的基于两阶段时空注意力的动作检测方法，其特征在于，步骤一具体包括：

3.根据权利要求2所述的基于两阶段时空注意力的动作检测方法，其特征在于，改进FPN特征金字塔结构是在现有FPN结构的低层特征之后添加了两个卷积层，从高层特征中提取更加鲁棒的特征，公式为：

4.根据权利要求1所述的基于两阶段时空注意力的动作检测方法，其特征在于，步骤二具体包括：

基于Longformer和Transformer的时空注意力编码器，先从输入视频中提取出F帧组成集合x∈R^H×W×3×F，将每帧图像分割为N个P×P大小的patch；其中N＝HW/P²；每个patch进入线性展平层展平为一维向量与位置编码相加并通过LayerNorm层后输入Longformer编码器，具体计算如下：

式中，p＝1,…,N表示patch的序号，t＝1,…,F表示不同视频帧的索引，Ex为线性展平层平层权值矩阵，PE为位置编码，H和W为视频帧的高，宽。

5.根据权利要求1所述的基于两阶段时空注意力的动作检测方法，其特征在于，动作识别由成对使用的Longformer编码器和Transformer编码器组成，Longformer编码器在线性展平层之后添加了LayerNorm。

6.根据权利要求1所述的基于两阶段时空注意力的动作检测方法，其特征在于，还包括：利用CIOU Loss损失函数加速人体区域检测网络的训练过程。

7.根据权利要求5所述的基于两阶段时空注意力的动作检测方法，其特征在于，还包括：利用多分类交叉熵函数对动作识别网络进行动作分类。

8.基于两阶段时空注意力的动作检测系统，其特征在于，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现如权利要求1-7任一项所述的基于两阶段时空注意力的动作检测方法。

9.存储有计算机程序代码的计算机可读介质，其特征在于，计算机程序代码在由处理器执行时实现如权利要求1-7任一项所述的基于两阶段时空注意力的动作检测方法。