CN111627052B - 一种基于双流时空注意力机制的动作识别方法t-stam - Google Patents

一种基于双流时空注意力机制的动作识别方法t-stam Download PDF

Info

Publication number
CN111627052B
CN111627052B CN202010360993.9A CN202010360993A CN111627052B CN 111627052 B CN111627052 B CN 111627052B CN 202010360993 A CN202010360993 A CN 202010360993A CN 111627052 B CN111627052 B CN 111627052B
Authority
CN
China
Prior art keywords
video
frame
features
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010360993.9A
Other languages
English (en)
Other versions
CN111627052A (zh
Inventor
代钦
王黎明
李怡颖
王洪江
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Engineering
Original Assignee
Shenyang Institute of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Engineering filed Critical Shenyang Institute of Engineering
Priority to CN202010360993.9A priority Critical patent/CN111627052B/zh
Publication of CN111627052A publication Critical patent/CN111627052A/zh
Application granted granted Critical
Publication of CN111627052B publication Critical patent/CN111627052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双流时空注意力机制的动作识别方法T‑STAM,包括如下步骤:S1:对视频进行处理获取RGB帧的光流图;S2:将通道注意力网络SE‑Net融入到双流基础网络BN‑Inception中得到SE‑BN‑Inception;S3:将选取的RGB帧及光流场信息输入到SE‑BN‑Inception中,对特征中不同通道的依赖关系进行建模得到视频的特征向量X;S4:将特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力得分;S5:将特征X输入到多空间注意力网络,提取帧的多个运动空间显著区域;S6:融合时空特征进一步增强视频的特征表达,按不同权重融合两流输出得到动作识别结果。

Description

一种基于双流时空注意力机制的动作识别方法T-STAM
技术领域
本发明涉及计算机视觉、视频分类等领域,特别提供了一种基于双流时空注意力机制的动作识别方法T-STAM。
背景技术
近年来,随着深度学习的兴起,基于卷积神经网络的方法在视频动作识别研究领域应用广泛。其中双流法将RGB输入到CNN中来获取外观信息,将多帧的光流场输入到CNN中来获取运动信息,能有效结合视频中的时空信息,在性能上相对较优。但双流法在提取视频特征时忽略了不同通道信息的联系。此外,它平等的处理视频中采样的帧,未对帧的不同位置的信息加以区分,无法重点利用视频中关键的时空信息。
基于注意力机制的动作识别方法可以突出视频中的关键信息。基于时空注意力的人体行为识别方法(专利申请号:CN201910250775.7,专利公开号:CN110059587A)的发明使用LSTM设计的时空注意力网络来提取视频中关键的时空信息。该方法存在以下不足:
(1)在提取运动显著空间区域信息时,仅使用一个空间注意力网络关注帧的多个显著区域,造成提取的部分区域不准确;
(2)使用LSTM设计的时间注意力网络结构复杂且必须按照时间的先后顺序来处理视频的帧,识别效率低。
针对以上不足,本发明提出一种基于双流时空注意力机制的动作识别方法T-STAM。通过引入通道注意力机制对通道特征进行重新校准,来增强特征的表达能力。设计的时空注意力网络结构简便且能将注意力集中在辨识度高的帧的多个运动显著区域上,进一步增强视频特征表达能力。
发明内容
本发明的主要目的是提供一种基于双流时空注意力机制的动作识别方法T-STAM,该方法能对通道特征进行重新校准,来增强特征的表达能力,设计基于CNN的时间注意力网络,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。提出一种多空间注意力网络,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,结合时空特征能进一步增强视频的特征表示,提高动作识别准确率。
本发明提供的技术方案是:一种基于双流时空注意力机制的动作识别方法T-STAM,包括以下步骤。
S1:将视频等分成N段,每段中随机选取一帧,共选取N帧。从选取的RGB帧中提取光流数据,每个帧可提取到两个光流场图像,分别是沿x轴的光流图像,和沿y轴的光流图像。通过线性变换将光流场离散到从[0,255],这使得光流场的范围和RGB图像相同。
S2:引入通道注意力网络SE-Net到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception。过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出在一定程度上保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
S3:将选取的RGB帧和光流场信息输入到SE-BN-Inception中,通过建模特征不同通道的关系,增强特征的表达能力。其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。经过SE-BN-Inception得到视频的特征向量X,具体步骤如下:
S31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系。其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道降回原来的维度。再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X。
S4:将视频级特征X输入到基于CNN的时间注意力网络来计算每个选取帧对应的时间权重
Figure GDA0002591284820000021
进而得到视频的时间特征ft,包含如下步骤:
S41:对于视频第i帧特征向量xi,先通过全连接层进行线性映射,映射后的特征为
Figure GDA0002591284820000022
如下:
Figure GDA0002591284820000023
其中w1、b1是网络中可学习的参数,整个视频的映射特征为
Figure GDA0002591284820000024
X∈RN×D(D=256);
S42:将特征
Figure GDA0002591284820000031
通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N。沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数/>
Figure GDA0002591284820000032
计算如下:
Figure GDA0002591284820000033
其中conv代表卷积操作。
Figure GDA0002591284820000034
表示第i帧对动作识别的贡献程度;
S43:获得第i帧的注意力得分
Figure GDA0002591284820000035
后,将其与特征/>
Figure GDA0002591284820000036
相乘得到第i帧的时间特征,对所有帧的时间特征求和得到整个视频的时间特征ft,计算如下:
Figure GDA0002591284820000037
其中ft∈R1×D,它考虑到了视频中每个选取帧的重要程度。
S5:将特征向量X输入到多空间注意力网络从不同角度提取帧的不同运动显著区域,进而得到视频的空间特征,包含步骤如下:
S51:从SE-BN-Inception之后获取的特征为X=(x1...xi...xN),X∈RN×C×W×H,对于第j个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价。然后经过第二个卷积层得到的特征为
Figure GDA0002591284820000038
计算如下:
Figure GDA0002591284820000039
其中w2、w3、b2、b3是网络中可学习的参数。第二个卷积层的卷积核尺寸为5×5,卷积步长为1,
Figure GDA00025912848200000310
l表示空间注意力网络数;
S52:将经过两个卷积层之后的特征
Figure GDA00025912848200000311
输入到softmax函数计算第i帧中每个空间区域的概率得分/>
Figure GDA00025912848200000312
计算如下:
Figure GDA00025912848200000313
其中,
Figure GDA00025912848200000314
表示第k个空间区域的对动作识别的重要程度;
S53:将
Figure GDA0002591284820000041
与每个映射特征进行元素相乘得到加权的空间特征。由于使用了l个空间注意力,每帧可提取l个空间特征。将每个视频选取帧的第j(j∈l)个空间特征求和,得到整个视频的第j个空间特征/>
Figure GDA0002591284820000042
计算如下:
Figure GDA0002591284820000043
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,提高了动作识别的准确率。步骤如下:
S61:经过S4和S5,每个视频分别获得l个空间特征
Figure GDA0002591284820000044
和一个时间特征ft,先将每个空间特征映射到时间特征上。即把视频的空间特征/>
Figure GDA0002591284820000045
分别和视频的时间特征ft相加得到l个特征Fl,计算如下;
Figure GDA0002591284820000046
S62:将这l个特征连接起来得到视频的时空特征F计算如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作;
S63:将F送入到由FC层和softmax层组成的分类网络对视频分类,按不同权重融合两流的输出结果得到最后分类结果。
附图说明:
图1本发明算法流程图;
图2本发明整体模型图
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
本发明设计了一种基于双流时空注意力机制的动作识别方法T-STAM,参见图1,该方法包括以下步骤。
S1:对视频进行处理选择RGB帧,并获取选取的RGB帧的光流图;
S2:通道注意力机制能学习到每个特征通道的重要程度,按照重要程度提升对当前识别有用的通道特征,同时抑制识别力弱的通道特征得到结构。因此本发明引入通道注意力网络SE-Net到双流基础网络BN-Inception得到能对通道特征进行建模的SE-BN-Inception。引入通道注意力网络SE-Net到双流基础网络BN-Inception中,得到结构SE-BN-Inception。选择BN-Inception的原因:BN-Inception是GoogLeNet的升级版,它在准确率和效率之间有着较好的平衡。其中加入了批归一化操作,使得网络中每一层的数据分布更加稳定,能够加快训练过程,起到正则化的作用。具体融入过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出在一定程度上保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
S3:将选取的RGB帧和光流场信息输入到SE-BN-Inception中,通过建模特征不同通道的关系,增强特征的表达能力。其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。经过SE-BN-Inception得到视频的特征向量X,具体步骤如下:
S31:将输入特征沿着通道维度进行全局平均池压缩特征;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系。其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道降回原来的维度。再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X。
S4:视频中不同的帧对动作识别贡献程度不同。本发明提出一种基于CNN的时间注意力的特征增强网络。该网络结构简单、参数较少、计算代价小且能并行的处理多帧。先将视频级特征X输入到基于CNN的时间注意力网络来计算每个选取帧对应的时间注意力得分
Figure GDA0002591284820000051
以注意力得分判断视频中每一帧相对于动作识别的重要性,选择性的关注重点帧,进而得到视频的时间特征ft,包含如下步骤:
S41:对于视频第i帧的特征向量xi,先通过全连接层进行线性映射,映射后的特征为
Figure GDA0002591284820000052
如下:
Figure GDA0002591284820000061
其中w1、b1是网络中可学习的参数,整个视频的映射特征为
Figure GDA0002591284820000062
X∈RN×D(D=256);
S42:将特征
Figure GDA0002591284820000063
通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N。沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数/>
Figure GDA0002591284820000064
计算如下:
Figure GDA0002591284820000065
其中conv代表卷积操作。
Figure GDA0002591284820000066
表示第i帧对动作识别的贡献程度;
S43:获得第i帧的注意力得分
Figure GDA0002591284820000067
后,将其与特征/>
Figure GDA0002591284820000068
相乘得到第i帧的时间特征,对所有帧的时间特征求和得到整个视频的时间特征ft如下:/>
Figure GDA0002591284820000069
其中ft∈R1×D,它考虑到了视频中每个选取帧的重要程度。
S5:将特征向量X输入到多空间注意力网络从不同角度提取帧的不同运动显著区域,进而得到视频的空间特征,包含步骤如下:
S51:从SE-BN-Inception之后获取的特征为X=(x1...xi...xN),X∈RN×C×W×H,将X经过空间注意力网络。本发明设计多个空间注意力网络,从不同的角度提取帧的空间信息,计算各个位置的注意力得分,从而关注帧中与动作相关的多个运动显著区域,从空间上进一步增强特征表示。每个空间注意力网络包括两个卷积层和一个softmax层。具体如下:对于第j个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价。然后经过第二个卷积层得到的特征为
Figure GDA00025912848200000610
计算如下:
Figure GDA00025912848200000611
其中w2、w3、b2、b3是网络中可学习的参数。第二个卷积层的卷积核尺寸为5×5,卷积步长为1。
Figure GDA0002591284820000071
l表示空间注意力网络数。其中BN表示批归一化操作,引入批归一化操作可以解决协方差偏移问题,使训练更加稳定;
S52:将经过两个卷积层之后的特征
Figure GDA0002591284820000072
输入到softmax函数计算第i帧中每个空间区域的概率得分/>
Figure GDA0002591284820000073
如下:
Figure GDA0002591284820000074
其中,
Figure GDA0002591284820000075
表示第k个空间区域的对动作识别的重要程度;
S53:将
Figure GDA0002591284820000076
与每个映射特征进行元素相乘得到加权的空间特征。由于使用了l个空间注意力,每帧可提取l个空间特征。将每个视频选取帧的第j(j∈l)个空间特征求和,得到整个视频的第j个空间特征/>
Figure GDA0002591284820000077
计算如下:
Figure GDA0002591284820000078
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,提高了动作识别的准确率。步骤如下:
S61:经过S4和S5,每个视频分别获得l个空间特征
Figure GDA0002591284820000079
和一个时间特征ft,先将每个空间特征映射到时间特征上。即把视频的空间特征/>
Figure GDA00025912848200000710
分别和视频的时间特征ft相加得到l个特征Fl,计算如下;
Figure GDA00025912848200000711
S62:将这l个特征连接起来得到视频的时空特征F如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作。将外观流得到的特征表示为Frgb,运动流得到的特征表示为Fflow
S63:将Frgb和Fflow分别送入到由一个FC层和softmax层组成的分类网络后得到两流的分类结果分别为Ss和St,按照不同权重融合(得分融合)两流的输出得到最终动作识别结果如图2。

Claims (10)

1.一种基于双流时空注意力机制的动作识别方法,其特征在于:包括如下步骤:
S1:对视频进行处理选择RGB帧,方法为将视频等分成N段,每段中随机选取一帧,共选取N帧,并获取选取的RGB帧的光流图;
S2:将通道注意力网络SE-Net填加到双流基础网络BN-Inception中,得到能对通道特征进行建模的SE-BN-Inception;
S3:将选取的RGB帧以及光流场信息输入到SE-BN-Inception中,对特征的不同通道信息进行建模,能增强特征的表达力,得到视频的特征向量X,具体步骤如下:
S31:将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作;
S32:将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系,再通过一个Sigmoid函数获得归一化的权重;
S33:通过特征重定向操作将权重加权到每个通道的特征上,得到视频级特征X;
S4:将视频级特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力权重,重点关注运动幅度明显的帧,获取时间特征,步骤如下:
S41:对于视频第i帧特征向量xi,先通过全连接层进行线性映射,映射后的特征为
Figure FDA0004112059140000011
如下:
Figure FDA0004112059140000012
其中w1、b1是网络中可学习的参数,整个视频的映射特征为
Figure FDA0004112059140000013
X∈RN×D(D=256);
S42:将特征
Figure FDA0004112059140000014
通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N,沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数/>
Figure FDA0004112059140000015
S43:获得第i帧的注意力得分
Figure FDA0004112059140000016
后,将其与特征/>
Figure FDA0004112059140000017
相乘得到第i帧的时间特征,对所有帧的时间特征求和得到整个视频的时间特征ft
S5:将特征向量X输入到多空间注意力网络从不同角度计算帧的各个位置的注意力得分,提取帧的不同运动显著区域,获取空间特征,步骤如下:
S51:共设计l个空间注意力网络,对于第j j∈(1,l)个空间注意力网络,先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F=256)以减少计算代价,然后经过第二个卷积层得到的特征为
Figure FDA0004112059140000021
计算如下:
Figure FDA0004112059140000022
其中w2、w3、b2、b3是网络中可学习的参数,第二个卷积层的卷积核尺寸为5×5,卷积步长为1,
Figure FDA0004112059140000023
T表示图像帧的编号,l表示空间注意力网络数,W和H分别表示图像的宽度和高度;
S52:将经过两个卷积层之后的特征
Figure FDA0004112059140000024
输入到softmax函数计算第i帧中每个空间区域的概率得分/>
Figure FDA0004112059140000025
S53:将
Figure FDA0004112059140000026
与每个映射特征进行元素相乘得到加权的空间特征,由于使用了l个空间注意力,每帧可提取l个空间特征,将每个视频选取帧的第j(j∈l)个空间特征求和,得到整个视频的第j个空间特征/>
Figure FDA0004112059140000027
S6:融合时空特征进一步增强视频的特征表达,将融合的特征送入到分类网络,步骤如下:
S61:经过S4和S5,每个视频分别获得l个空间特征
Figure FDA0004112059140000028
和一个时间特征ft,先将每个空间特征映射到时间特征上,即把视频的空间特征/>
Figure FDA0004112059140000029
分别和视频的时间特征ft相加得到l个特征Fl,计算如下:
Figure FDA00041120591400000210
S62:将这l个特征连接起来得到视频的时空特征F;
S63:将F送入到由FC层和softmax层组成的分类网络对视频分类,按不同权重融合两流的输出结果得到最后分类结果。
2.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S1中,每个帧可提取到两个光流场图像,分别是沿x方向的光流图像,沿y方向的光流图像,通过线性变换将光流场离散到从[0,255],这使得光流场的范围和RGB图像相同。
3.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S2中,将SE-Net融入到BN-Inception过程如下:BN-inception包含9个Inception操作,在每个Inception后加入SE-Net,由于全连接层的输出对空间和位置不够敏感,经过卷积层的输出保留了图像的空间结构,因此将BN-Inception保留至最后一个卷积层。
4.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S3中,其中RGB帧输入到外观流提取物体外观信息,多帧光流场输入到运动流提取视频的运动信息。
5.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S31,其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量,之后通过ReLu激活函数增加非线性,第二个全连接层将通道回到原来的维度。
6.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,
S32,沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数
Figure FDA0004112059140000031
如下:
Figure FDA0004112059140000032
其中conv代表卷积操作
Figure FDA0004112059140000033
表示第i帧对动作识别的贡献程度。
7.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S43,对所有帧的时间特征求和得到整个视频的时间特征ft如下:
Figure FDA0004112059140000034
其中ft∈R1×D,它考虑到了视频中每个选取帧的重要程度。
8.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,
S52,每个空间区域的概率得分
Figure FDA0004112059140000035
计算如下:
Figure FDA0004112059140000036
其中W、H代表特征图的宽和高。
9.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,
S23,空间特征
Figure FDA0004112059140000041
计算如下:
Figure FDA0004112059140000042
其中k代表空间区域的编号。
10.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM,其特征在于,S62,这l个特征连接起来得到视频的时空特征F如下:
F=concate(F1,F2...Fl)
其中concate表示连接操作。
CN202010360993.9A 2020-04-30 2020-04-30 一种基于双流时空注意力机制的动作识别方法t-stam Active CN111627052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010360993.9A CN111627052B (zh) 2020-04-30 2020-04-30 一种基于双流时空注意力机制的动作识别方法t-stam

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010360993.9A CN111627052B (zh) 2020-04-30 2020-04-30 一种基于双流时空注意力机制的动作识别方法t-stam

Publications (2)

Publication Number Publication Date
CN111627052A CN111627052A (zh) 2020-09-04
CN111627052B true CN111627052B (zh) 2023-05-23

Family

ID=72272997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010360993.9A Active CN111627052B (zh) 2020-04-30 2020-04-30 一种基于双流时空注意力机制的动作识别方法t-stam

Country Status (1)

Country Link
CN (1) CN111627052B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364757B (zh) * 2020-11-09 2022-10-21 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112489092B (zh) * 2020-12-09 2023-10-31 浙江中控技术股份有限公司 细粒度工业运动模态分类方法、存储介质、设备和装置
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112651320A (zh) * 2020-12-21 2021-04-13 南京掘物网络信息技术有限公司 用于智能化纺织车间的吸尘器的功率智能控制方法
CN112766177B (zh) * 2021-01-22 2022-12-02 西安电子科技大学 基于特征映射和多层时间交互注意力的行为识别方法
CN112926396B (zh) * 2021-01-28 2022-05-13 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN112818843B (zh) * 2021-01-29 2022-08-26 山东大学 基于通道注意力导向时间建模的视频行为识别方法及系统
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN112990116B (zh) * 2021-04-21 2021-08-06 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质
CN113139467B (zh) * 2021-04-23 2023-04-25 西安交通大学 基于分级式结构的细粒度视频动作识别方法
CN113283298B (zh) * 2021-04-26 2023-01-03 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法
CN113326748B (zh) * 2021-05-17 2022-06-14 厦门大学 一种采用多维相关注意力模型的神经网络行为识别方法
CN113361417B (zh) * 2021-06-09 2023-10-31 陕西理工大学 一种基于可变时序的人体行为识别方法
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN113705345B (zh) * 2021-07-21 2023-09-12 西安交通大学 一种基于sta-tsn的人类行为识别方法及系统
CN115131710A (zh) * 2022-07-05 2022-09-30 福州大学 基于多尺度特征融合注意力的实时动作检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN110287825A (zh) * 2019-06-11 2019-09-27 沈阳航空航天大学 一种基于关键骨骼点轨迹分析的摔倒动作检测方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110992401A (zh) * 2019-11-25 2020-04-10 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US10489639B2 (en) * 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN110287825A (zh) * 2019-06-11 2019-09-27 沈阳航空航天大学 一种基于关键骨骼点轨迹分析的摔倒动作检测方法
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110992401A (zh) * 2019-11-25 2020-04-10 上海眼控科技股份有限公司 目标跟踪方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dual Stream Spatio-Temporal Motion Fusion With Self-Attention For Action Recognition;Md Asif Jalal;《2019 22th International Conference on Information Fusion (FUSION)》;全文 *
人体动作行为识别研究综述;李瑞峰;《模式识别与人工智能》;第27卷(第1期);第35页-44页 *
基于递归神经网络的视频行为建模和识别方法研究;杜文斌;《中国博士学位论文全文数据库 信息科技辑》;I138-120 *

Also Published As

Publication number Publication date
CN111627052A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111627052B (zh) 一种基于双流时空注意力机制的动作识别方法t-stam
Song et al. Constructing stronger and faster baselines for skeleton-based action recognition
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111639544A (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN112131959B (zh) 一种基于多尺度特征强化的2d人体姿态估计方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN110781736A (zh) 基于双流网络将姿态和注意力相结合的行人重识别方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113392766A (zh) 一种基于注意力机制的人脸表情识别方法
CN112288772B (zh) 基于在线多特征选择的通道注意力目标跟踪方法
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
Al-Amaren et al. RHN: A residual holistic neural network for edge detection
Gao et al. Context-patch representation learning with adaptive neighbor embedding for robust face image super-resolution
Srivastava et al. Aga-gan: Attribute guided attention generative adversarial network with u-net for face hallucination
Li et al. SGML: A symmetric graph metric learning framework for efficient hyperspectral image classification
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
Tang et al. FTCM: Frequency-temporal collaborative module for efficient 3D human pose estimation in video
CN112686326A (zh) 一种智能排序候选框的目标跟踪方法及系统
Zeng et al. Combining CNN and transformers for full-reference and no-reference image quality assessment
CN116071427A (zh) 一种轻量级视频人体姿态识别系统
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant