CN113920581B - 一种时空卷积注意力网络用于视频中动作识别的方法 - Google Patents

一种时空卷积注意力网络用于视频中动作识别的方法 Download PDF

Info

Publication number
CN113920581B
CN113920581B CN202111148345.8A CN202111148345A CN113920581B CN 113920581 B CN113920581 B CN 113920581B CN 202111148345 A CN202111148345 A CN 202111148345A CN 113920581 B CN113920581 B CN 113920581B
Authority
CN
China
Prior art keywords
convolution
attention
time sequence
spatial
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111148345.8A
Other languages
English (en)
Other versions
CN113920581A (zh
Inventor
陈翰
罗会兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN202111148345.8A priority Critical patent/CN113920581B/zh
Publication of CN113920581A publication Critical patent/CN113920581A/zh
Application granted granted Critical
Publication of CN113920581B publication Critical patent/CN113920581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种时空卷积注意力网络用于视频中动作识别的方法。具体方法如下:首先,为了获取高级的空间语义特征时序语义特征,本发明设计了两个独立分支网络——空间卷积注意力网络和时序卷积注意力网络。其中,空间卷积注意力网络用于处理视频的RGB信号,使用自注意力方法捕捉视频空间维度的表观特征联系,用一维卷积提取动态信息。时序卷积注意力网络处理视频的光流信号,通过自注意力方法来获取时序维度上帧级特征间的关联信息,用2D卷积学习空间特征。最后,将两个分支网络的输出结果集成计算作为时空卷积注意力网络的识别性能。在UCF101和HMDB51数据集上的实验结果表明本发明算法具有较高的平均准确率。

Description

一种时空卷积注意力网络用于视频中动作识别的方法
技术领域
本发明属于计算机视觉领域,涉及对视频数据特征提取模型的改进、视频分类与仿真实现。
背景技术
近年来,人体动作行为识别在计算机视觉领域已经发展为一项研究的热点。该项研究在人机交互、智能监控、视频检索等多个领域都具有十分重要的应用价值。人体动作行为识别的研究目的是,让计算机能够像人一样智能识别出视频中人体正在进行的动作类型。然而,视频动作一般具有环境复杂,视角多变和动作差异性大等多项特点,所以从视频中提取有效的动态特征和外观特征是非常具有挑战性的。
目前基于深度学习的视频中动作识别算法主要是基于2D卷积神经网络和基于3D卷积神经网络两种。2D卷积神经网络能够有效地学习空间特征,但无法捕获时间特征。3D卷积神经网络可以联合学习时空特征,但是由于其参数量较大,导致训练困难且计算成本较高。为此,本文发明了将2D卷积神经网络与自注意力方法结合的神经网络,该网络可以从空间和时序两个维度分别来增强视频的语义信息,以此来提升网络的识别效果。其具体方法如下:首先,为了使用不同的自注意方法增强空间和时序两个维度上的全局信息,本发明设计了两个模块:空间卷积自注意模块和时序卷积自注意模块。接着在50层的残差网络的基础上,将空间卷积自注意模块和时序卷积自注意模块插入到残差网络的第五层后面,用于增强高级特征图的空间特征和时序特征。最后,将两个模块输出的空间特征和时序特征分别输入到各自的分类层中得到相应的分类结果,再通过融合计算将两种分类结果进行融合得到最终的识别准确率。
发明内容
1.发明目的:
本发明的目的是提出一种时空卷积注意力网络用于视频中动作识别的方法。
2.技术方案:
本发明提出一种时空卷积注意力网络用于视频中动作识别的方法。改方法分别通过本发明设计的空间卷积注意力模块和时序卷积注意力模块来计算两种视频数据信号获得最终的动作识别分类。其中空间卷积注意力模块处理RGB信号特征,时序卷积注意力模块处理由TVL1算法计算得到的光流特征。首先,本方法对原始的视频数据进行预处理,使用稀疏取帧的方式对两种信号输入进行采样得到神经网络的输入对象——RGB帧序列和堆叠的光流帧序列。接着使用残差网络ResNet-50前五层卷积层作为基础网络,再使用ResNet-50前五层卷积层对两种输入信号进行特征提取,得到RGB特征图和光流特征图。接着,将空间特征图输入到空间卷积注意力模块中,空间卷积自注意模块具有两个分支,其中一个分支利用横向和纵向的一维卷积滤波器,获得具有不同方向的局部空间特征的特征图,然后采用自注意力机制实现空间特征增强。另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取,最终将增强后的空间特征和时序信息进行相加,得到输出特征。同样,将光流特征图输入到时序卷积注意力模块内,该模块同样具备两种不同的分支,其中注意力分支采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图,然后通过自注意力实现动态特征增强。丰富了模型的动态特征表示能力,空间卷积分支使用2D的空间卷积层对光流特征图进行空间特征的加强提取,接着将两种分支的结果相加。最终使用平均池化方法对将两个模块的输出特征进行下采样处理,处理后的结果输入到网络尾部的分类层中得到不同类别的识别概率分数。模型对两种不同分支网络的识别概率分数进行平均计算得到识别结果。
本发明所述的一种时空卷积注意力网络用于视频中动作识别的方法,包括以下步骤:
步骤(1):使用TVL1算法对原视频数据进行处理,得到光流信号图像。接着,使用稀疏采用的方式对视频的RGB帧和光流图进行帧采样。首先,将视频分割为T个等长的片段,接着从RGB帧中的每一个片段中随机抽取一张帧,从光流图中的每一个片段中随机抽取5张帧;
步骤(2):将步骤(1)得到的帧序列和堆叠的光流图分别输入到空间卷积注意力网络和时序卷积注意力网络中,帧序列和堆叠的光流图经过两种残差网络骨干处理得到特征图F1和F2
步骤(3):将步骤(2)中得到的特征图F1输入到空间卷积注意力模块,空间卷积注意力模块由两条分支组成,分别学习特征图F1的空间全局信息和时序局域信息。其中一个分支利用横向和纵向的一维卷积滤波器,获得具有不同方向的局部空间特征的特征图,然后采用自注意力机制实现空间特征增强。另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取,最终将两条分支获得的特征相加融合,得到增强后的空间语义信息特征图。
步骤(4):将步骤(2)中得到的特征图F2输入到时序卷积注意力模块中,特征图F2分别经过两条分支——时序自注意层和空间卷积层。其中时序自注意层用采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图,然后通过自注意力实现动态特征增强。而空间卷积层采用2D卷积捕捉特征图F2的空间局域信息。最终将两种特征相加融合,得到增强后的时序语义信息特征图。
步骤(5):分别将步骤(3)和步骤(4)得到的高级特征输入到分类层中得到分类结果。
步骤(6):将步骤(5)中空间卷积注意力网络和时序卷积注意力网络输出的两种分类结果进行融合,得到最终的识别准确率。
3.有益效果:
本发明公开了一种时空卷积注意力网络用于视频中动作识别的方法,结合了基于自注意力和2D卷积神经网络两种方法的优点,解决了2D卷积网络不具备在全局视角上学习特征相关性的能力和自注意力忽略局部的位置特性的问题。在UCF101和HMDB51数据集上的实验结果表明本发明具有较好的识别效果。
附图说明
图1为本发明整体流程框架。
图2为本发明设计的空间卷积注意力模块结构。
图3为本发明在空间卷积注意力模块中自注意力结构图。
图4为本发明设计的时序卷积注意力模块结构。
图5为本发明在时序卷积注意力模块中自注意力结构图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。一种时空卷积注意力网络用于视频中动作识别的方法:
(S1):数据处理。
为了提取出光流信号图,本发明采用了TV-L1算法对视频数据进行处理,得到堆叠的光流图像。接着,采用了数据增强的方法对所有的视频数据进行了预处理,将视频中的每帧的大小调整为256×340,再裁剪为224×224,并对其进行水平翻转,转角裁剪和多角度裁剪。并使用稀疏采样的方法对视频的所有帧图像进行采样,采样帧数设置为8,最终得到信号类型分别为RGB和光流的8×224×224输入视频。
(S2):设计空间卷积自注意(Spatial-temporal Convolutional Attention,SCA)模块。
为了引导模型更多关注到动作目标的特征,该模块由两个分支组成,其中第一个分支对每一帧单独进行空间卷积注意力增强,对不同帧的空间卷积注意力层使用了参数共享的方式。这种共享参数方式可以迫使空间卷积注意力学习到需要关注的同一类目标,便于后续时序特征的学习,另外参数共享也可以使得模型更加轻量化。另一分支进行时序维度的卷积,两个分支相加后得到增强后的时空特征图。在特征图通过空间注意力层时,特征图的每一帧均要经过3种不同的卷积分支进行预处理,生成查询特征(Qs)、键特征(Ks)和值特征(Vs),计算过程如式(1)、(2)、(3)所示。
Qs=x*wk×1 (1)
Ks=x*w1×k (2)
Vs=x*w1×1 (3)
其中,w1×k,wk×1和w1×1分别表示核大小为k×1,1×k和1×1的2D空间卷积滤波器,*表示卷积操作。Qs和Ks是对输入特征分别沿着行和列方向进行滤波得到的结果,故它们的特征图中每一个特征点获得了水平方向和垂直方向的局部上下文特征。Vs用来保留源特征视图。接着,对Qs和Ks进行压缩形变,使得原本形状为H×W×C的3维特征,变换为HW×C的2维特征。接着,将Qs和Ks的转置进行相乘,并通过激活函数softmax激活后得到注意力信息特征图As,其过程如式(4)所示:
As=σ(R(Qs)×R(Ks T)) (4)
其中,表示激活函数,R(.)表示形变函数。As共包含了HW×HW个特征点,每一个特征点都关注到其他所有具有局部感受野的特征点,从而学习到全局的语义关系,用于生成注意力信息。不同于传统自注意模式的是,SCA通过卷积滤波扩大了自注意机制的感受野。As上的特征点表达的不仅是单点之间的信息,而是以单点为中心,不同方向上局域特征间的相关性,因此也能获得更多的位置信息。
然后,将得到的空间注意力图As与Vs相乘实现特征激励,该过程如式(5)所示:
x'=Vs×As (5)
其中,表示经过SCA后的最终输出结果。接着,将所有帧的输出特征图有序连接为3D的视频级特征。
在另一个分支上,时序卷积层对整体的视频级输入特征X在时序维度上使用核大小为3的卷积核进行卷积,来获取不同时序位置上帧级特征图之间的动态信息。最终将经过空间注意力增强的特征X'与时序卷积层的输出结果相加,通过式(6)计算得到SCA模块的输出Os
Os=X'+convT(X) (6)
(S3):设计时序卷积自注意(Temporal Convolutional Attention,TCA)模块。
为了增强时序特征中对动作识别重要的特征,本发明设计了时序卷积注意力模块,采用时序卷积注意力对输入特征在时序维度上进行特征增强,学习时序维度的特征关联。将特征图X分别输入到时序卷积注意力层和空间卷积层中,将两个分支的输出相加融合得到时序信息注意力增强的时空特征。
其中空间卷积分支,采用了参数共享的2维卷积对所有帧进行处理后,再将其在时序维度上串接到一起。而其中时序卷积注意力TCA层的结构如图5所示,分别使用不同的扩张率的扩张卷积对输入特征在时序维度上进行卷积核大小为3的一维卷积,通过式(7)和(8)计算得到特征视图Qt和Kt。Qt和Kt的每个特征点代表着不同时序感受野的动态信息。使用卷积核大小为1的一维普通卷积操作对输入特征在时序维度上进行卷积得到Vt,用于保留原特征信息,计算如式(9)所示。
Kt=X*w3,r2 (8)
Vt=X*w1 (9)
然后,使用函数对Qt和Kt进行空间全局池化,将Kt与向量Qt的转置进行矩阵相乘。并经过激活函数softmax激活后得到时序注意力信息特征图At,过程如式(10)所示:
At=σ(g(Qt)×g(Kt T)) (10)
假设输入视频共有T帧,则At的尺寸为T×T,每一个点都包含了时序维度上所有帧的全局空间信息,学习到视频帧间不同局域动态特征间的相互关系。最后,将得到的时序注意力信息特征图At与特征视图Vt相乘,将所获得的有助于动作识别的时序全局语义信息,为动作识别提供时序关键帧注意力指导。并且与空间卷积层的输出特征相加,通过式子(11)计算得到TCA模块的输出结果Ot
(S4):设计时空卷积注意力网络。
基于50层的残差网络作为骨干网络,将空间卷积自注意模块和时序卷积自注意模块插入到残差网络的第五层卷积层后面构建时空卷积注意力网络,如图1所示。时空卷积注意力网络通过残差网络对视频的空间特征进行初步提取生成特征图,接着将特征图输入到SCA模块和TCA模块中用于增强和学习视频中的空间语义信息和时序语义信息。然后,使用池化层将两个模块的输出特征进行下采样处理,并将其结果输入到各自的全连接层中得到输出结果。
(S5):设置训练参数和损失函数
在训练过程中,本发明使用在ImageNet上预训练好的骨干网络权重,损失函数设置为交叉熵损失函数。训练的权重衰减系数设置为0.0005,动量为0.9。全连接层中dropout值为0.5,初始学习率设置为0.001。为了使得每一个分支网络都得到充分训练,本发明对双流网络的每个分支进行单独训练,空间卷积自注意网络采用RGB视频作为输入的训练数据,时序卷积自注意网络采用光流视频作为输入的训练数据。最后在测试过程中,采用平均计算的方式融合两个分支网络的分类结果。
表1比较了本发明提出的方法(以下简称STCA-Net)与其他方法在UCF101和HMDB51数据集上的识别精度。从表1的实验结果可以看出,本发明算法在两种数据集上与其他算法相比具有明显的优势。尤其与同样基于自注意力的方法相比,如:Temporal attention、压缩激励残差网络和STC-ResNet101,本发明提出的算法在UCF101数据集上分别提高0.8%,1.7%和0.4%,在HMDB51数据集上分别提高了4.5%,0.2%和2.7%。这说明本发明提出的两个模块能够有效的提取视频中空间维度和时序维度的特征信息,有利于提升视频中动作识别准确率。
表1与其他先进方法的准确率比较

Claims (1)

1.一种时空卷积注意力网络用于视频中动作识别的方法,包括以下步骤:
步骤(1):使用TVL1算法对原视频数据进行处理,得到光流信号图像;接着,使用稀疏采用的方式对视频的RGB帧和光流图进行帧采样;首先,将视频分割为T个等长的片段,接着从RGB帧中的每一个片段中随机抽取一张帧,从光流图中的每一个片段中随机抽取5张帧;
步骤(2):将步骤(1)得到的帧序列和堆叠的光流图分别输入到空间卷积注意力网络和时序卷积注意力网络中,帧序列和堆叠的光流图经过两种残差网络骨干处理得到特征图F1和F2;
步骤(3):将步骤(2)中得到的特征图F1输入到空间卷积注意力模块,空间卷积注意力模块由两条分支组成,分别学习特征图F1的空间全局信息和时序局域信息;其中一个分支利用横向和纵向的一维卷积滤波器,获得具有不同方向的局部空间特征的特征图,然后采用自注意力机制实现空间特征增强;另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取,最终将两条分支获得的特征相加融合,得到增强后的空间语义信息特征图;
步骤(4):将步骤(2)中得到的特征图F2输入到时序卷积注意力模块中,特征图F2分别经过两条分支——时序自注意层和空间卷积层;其中时序自注意层采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图,然后通过自注意力实现动态特征增强;而空间卷积层采用2D卷积捕捉特征图F2的空间局域信息;最终将两种特征相加融合,得到增强后的时序语义信息特征图;
步骤(5):分别将步骤(3)和步骤(4)得到的高级特征输入到分类层中得到分类结果;
步骤(6):将步骤(5)中空间卷积注意力网络和时序卷积注意力网络输出的两种分类结果进行融合,得到最终的识别准确率。
CN202111148345.8A 2021-09-29 2021-09-29 一种时空卷积注意力网络用于视频中动作识别的方法 Active CN113920581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111148345.8A CN113920581B (zh) 2021-09-29 2021-09-29 一种时空卷积注意力网络用于视频中动作识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111148345.8A CN113920581B (zh) 2021-09-29 2021-09-29 一种时空卷积注意力网络用于视频中动作识别的方法

Publications (2)

Publication Number Publication Date
CN113920581A CN113920581A (zh) 2022-01-11
CN113920581B true CN113920581B (zh) 2024-04-02

Family

ID=79236806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111148345.8A Active CN113920581B (zh) 2021-09-29 2021-09-29 一种时空卷积注意力网络用于视频中动作识别的方法

Country Status (1)

Country Link
CN (1) CN113920581B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005075B (zh) * 2021-12-30 2022-04-05 深圳佑驾创新科技有限公司 一种光流估算模型的构建方法、装置及光流估算方法
CN114155560B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114821420B (zh) * 2022-04-26 2023-07-25 杭州电子科技大学 基于多时间分辨率时态语义聚合网络的时序动作定位方法
CN115019239A (zh) * 2022-07-04 2022-09-06 福州大学 一种基于时空交叉注意力的实时动作定位方法
CN115240120B (zh) * 2022-09-21 2022-12-13 中山大学深圳研究院 一种基于对抗网络的行为识别方法及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926396A (zh) * 2021-01-28 2021-06-08 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于通道注意力机制的视频人体行为识别;解怀奇;乐红兵;;电子技术与软件工程;20200215(04);全文 *

Also Published As

Publication number Publication date
CN113920581A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
Liu et al. Two-stream 3d convolutional neural network for skeleton-based action recognition
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN112149504A (zh) 混合卷积的残差网络与注意力结合的动作视频识别方法
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN112699786B (zh) 一种基于空间增强模块的视频行为识别方法及系统
CN111241996B (zh) 一种用于识别视频中人物动作的方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
Hara et al. Towards good practice for action recognition with spatiotemporal 3d convolutions
CN105550712B (zh) 基于优化卷积自动编码网络的极光图像分类方法
CN116580192A (zh) 基于自适应上下文感知网络的rgb-d语义分割方法及系统
CN113505719A (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN114093013B (zh) 一种深度伪造人脸逆向溯源方法及系统
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN116311368A (zh) 行人重识别方法
CN112184555B (zh) 一种基于深度交互学习的立体图像超分辨率重建方法
Ai et al. Double attention convolutional neural network for driver action recognition
CN116798123A (zh) 一种个性化联邦学习下的视频行为识别方法
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN113343786B (zh) 基于深度学习的轻量化视频动作识别方法及系统
CN111325149A (zh) 一种基于投票的时序关联模型的视频动作识别方法
An et al. Squeeze-and-excitation on spatial and temporal deep feature space for action recognition
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant