CN112364757B - 一种基于时空注意力机制的人体动作识别方法 - Google Patents

一种基于时空注意力机制的人体动作识别方法 Download PDF

Info

Publication number
CN112364757B
CN112364757B CN202011242807.8A CN202011242807A CN112364757B CN 112364757 B CN112364757 B CN 112364757B CN 202011242807 A CN202011242807 A CN 202011242807A CN 112364757 B CN112364757 B CN 112364757B
Authority
CN
China
Prior art keywords
space
spatial
human body
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011242807.8A
Other languages
English (en)
Other versions
CN112364757A (zh
Inventor
张强
于华
候亚庆
葛宏伟
周东生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011242807.8A priority Critical patent/CN112364757B/zh
Publication of CN112364757A publication Critical patent/CN112364757A/zh
Application granted granted Critical
Publication of CN112364757B publication Critical patent/CN112364757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,涉及视频中的人体动作识别,用于定位和分类视频中人体行为动作,具体为一种基于时空注意力机制的人体动作识别方法。本发明所提供的基于空间变换网络的注意力机制,获取与人体运动相关的区域,从而捕获动作之间的细节变化;本发明所提供的局部区域与全局特征进行融合的方法,加强了人体动作的表示;本发明所提供的全局特征描述符,将来自空间信息、时间信息以及时空交互信息进行聚合来区分人体行为动作,提高识别效果。

Description

一种基于时空注意力机制的人体动作识别方法
技术领域
本发明属于计算机视觉领域,涉及视频中的人体动作识别,用于定位和分类视频中人体行为动作,具体为一种基于时空注意力机制的人体动作识别方法。
背景技术
近年来,随着人工智时代的到来和计算机领域相关科技的日新月异,人机交互的研究越来越受到人们的关注,机器人的应用领域也变得越来越广泛。在人与机器人的交互系统中,机器人需要从获取的视频数据中识别人类的行为。因此实现人类与机器人高效、和谐的协作,需要精确的识别人类的行为动作。尽管近几年来对人体动作识别的研究取得了重要的进展,但人体动作识别的高度复杂性和环境的多变使得识别的精度并未满足相关行业的实际需求。本发明旨在从不同角度进一步提高人体动作识别的精度。接下来详细介绍这一领域中相关的背景技术。
(1)人体动作识别数据集介绍
人体动作识别任务中的公开数据集的数量较多,大致分为两种形式,分别为基于三维骨骼点特征和基于RGB视频的数据集。与三维骨骼点数据集相比,基于RGB视频数据集的视觉内容要复杂得多,例如光照强度、视角、背景和相机的抖动等条件下会呈现不同的动作场景,而在不同的动作场景中相同的人体行为在姿态上会产生差异。即使在恒定的动作场景中,人体动作也会有较大的自由度,对于同一种动作不同的人会在频率、幅度上差别很大。同时基于RGB视频数据集也包含了更多的视觉人体运动信息,因此基于该类型数据集的研究更具挑战性。
(2)传统的人体动作识别方法
对于传统的人体动作识别方法,如方向梯度直方图、光流直方图和运动边界直方图等,通常需要将图像的x和y方向的光流图像上计算方向梯度直方图与光流直方图特征,获取随光度变化的兴趣点。然而,这些方法中的特征描述子生成过程冗长,导致速度慢,方法的实时性较差;同时,这些方法需要人工提取特征,并且识别性能相对较差,方法的泛化能力不强;由于梯度的性质,该算法的特征描述子对视频帧中的噪点相当敏感。
(3)基于深度学习的人体动作识别方法
近几年,由于卷积神经网络(CNN)在图像分类中的广泛应用,特别是深度学习技术的迅速发展,基于视频的人体动作识别方法取得了长足的进步。其中,长短期记忆网络由于具有长期保存信息的能力,因此可以通过将卷积神经网络与长短期记忆网络模型相结合对视频级的人体动作进行识别,以此来捕捉关于人体动作的时间和空间的动态信息。此外,3D-CNN(C3D)是卷积神经网络在时间领域的扩展,传统的2D卷积没有考虑到时间维度的帧间运动信息,C3D是在2D卷积的基础上,增加了时间维度信息。使用3D CNN能更好的捕获视频中的时间和空间的特征信息,它利用3D卷积核来提取视频帧间的时间演化信息。与2D-CNN相比,它在提取时空特征方面表现出了更好的性能。然而,经大量的实验证明,现有的C3D方法存在可伸缩性差和计算成本高的问题,可扩展性较差。之后,双流CNN的提出在一定程度上解决了以上问题,双流CNN可以分别提取视频中的空间特征和时间特征。在空间方面,可以随着CNN基础网络结构的发展而利用新的CNN框架来获取视频人体动作的空间特征;在时间方面,可以利用光流方法来捕获人体的运动轨迹。双流CNN可以同时利用CNN框架和光流算法的优势对视频级的人体动作进行识别。
然而,现有的双流CNN方法仍然存在需要改进的地方。一方面,由于人体的不同区域在人体行为活动过程中具有不同程度的显著性,可以通过分别定位人体动作在空间的显著性区域,将提取到的区域特征与全局图像特征相结合。现有的方法未考虑到人体动作的感兴趣局部区域部分和全局区域特征之间的关系。另一方面,双流CNN在对提取的时空特征进行融合的时候,如何有效地捕捉两个流之间的交互信息,需要进一步改进和完善。
发明内容
为了获取人体动作的局部区域特征与全局特征之间的关系,以及捕捉时间和空间特征的交互作用,本发明提出了基于时空注意力机制及多阶段特征融合的人体动作识别方法。通过定位网络定位到人体运动显著的局部区域,分别对空间特征的局部区域以及全局图像进行特征融合,同时采用光流算法提取人体运动的时间特征;将时空特征进行特征融合获得人体运动的全局特征描述符,可以更加准确地识别人体动作的分类结果。
本发明的技术方案:
一种基于时空注意力机制的人体动作识别方法,步骤如下:
(1)人体动作视频数据的预处理
将数据集的人体动作视频中的片段S截取成n块S1,S2,...,Sn,从截取的每个人体动作视频片段中随机选取单帧以及堆叠的多个光流帧分别作为空间网络和时间网络的输入。
进一步地,所述步骤(1)的具体内容为:
为了对训练数据集的数量进行扩充,避免在训练过程中出现过拟合,对原始数据集的人体动作视频片段进行随机翻转和裁剪等操作获得人体动作视频片段。空间网络的输入为随机选取的单个视频帧;时间网络的输入为,预先计算人体运动的光流轨迹,并将提取到的光流特征存储为JPEG图像,堆叠光流帧图像作为时间网络的输入。
(2)空间特征提取以及特征融合
首先,将步骤(1)中预处理之后的视频帧输入到卷积网络进行全局的空间特征提取;其次,采用空间注意力机制对视频帧中人体部位的不同区域特征给予不同权重的关注,获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取;最后将学习到的区域特征与原始视频帧的全局特征进行融合。
进一步地,所述步骤(2)的具体内容为:
(2.1)全局空间特征提取。采用BN-Inception卷积网络对空间网络的输入进行特征提取,获得全局空间特征。
(2.2)局部区域空间特征提取。局部区域空间特征提取部分通过采用空间仿射变换模型来获取空间网络输入中人体部位的感兴趣的区域特征,并作为注意力机制。
针对空间网络的输入,采用空间仿射变换模型对人体部位的不同区域提取的视觉特征给予不同权重的关注,获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取。空间仿射变换模型可以在在训练的过程中自动选择感兴趣的区域特征,同时可以实现对各种形变的数据进行空间变换。由于空间变换网络能够自动提取局部区域特征,因此在网络的同一层插入多个并行的空间变换网络提取多个局部区域特征,从而可以结合多个局部区域特征进行分类。这个网络可以作为单独的模块,可以在CNN的任意层插入,所以空间仿射变换网络的输入不止是输入图像,可以是CNN中间的特征层。
空间变换网络结构由三部分组成,Localisation Net,Grid generator,Sampler。空间变换网络架构注意力机制的执行过程如下。
首先,Localisation Net生成空间仿射变换的参数矩阵。
Figure BDA0002768941350000051
其中,sx、sy、tx和ty表示用于注意裁剪、平移和各向同性尺度的变化参数。
其次,Grid Generator根据输出特征图V中的坐标点和变化参数θ,计算出输入特征图U中的坐标点,表示从输入feature map(U)到输出feature map(V)的映射矩阵。采用的空间变换的公式过程定义如下。
Figure BDA0002768941350000052
其中,
Figure BDA0002768941350000053
Figure BDA0002768941350000054
代表原坐标和目标坐标,Tθ(G)为仿射变换函数,Aθ为空间变换参数的矩阵,式子中的θ矩阵为空间变换参数矩阵。假设U和V的每个像素点的坐标分别为
Figure BDA0002768941350000055
Figure BDA0002768941350000056
得到U到V的点坐标变换。
最后,Sampler根据计算出的V中每个点对应到U的坐标点,直接根据V的坐标点取得对应到U中坐标点的像素值来进行填充,而不需要经过矩阵运算。需要注意的是,填充并不是直接填充,首先计算出来的坐标可能是小数,要处理一下,其次填充的时候往往要考虑周围的其它像素值。填充公式的具体表示为:
Figure BDA0002768941350000057
其中,n和m表示遍历原图U的所有坐标点,Unm表示原图U中某个点的像素值,k()为取样核函数,φ为填充的参数,
Figure BDA0002768941350000058
表示V中第i个点要到U图中找的对应点的坐标,表示的坐标是U图上的;k表示使用不同的方法来填充,通常使用双线性插值,见公式(3):
Figure BDA0002768941350000059
其中,Unm表示原图U中某个点的像素值,n代表横坐标m代表纵坐标,xi s、yi s代表原坐标,i∈[1,HW],c∈[1,3],两个∑∑筛出四个邻近插值点,max()函数表示求最大值。
(2.3)空间特征融合
根据步骤(2.2)得到的人体动作的感兴趣区域部分,将学习到的局部区域特征与原始视频帧的全局特征进行融合。在对卷积网络进行训练过程中激活函数采用的是Relu函数,通过交叉熵损失函数和随机梯度下降算法优化网络。在进行特征图融合时,融合层的位置选取在BN-Inception架构的最后一个卷积层和全连接层之间。
特征融合时采用的是紧凑双线性池化方法,在本发明中用来解决特征融合后的特征维数过高的问题,来提高特征融合的效率同时捕获有用的特征信息。紧凑双线性池化能够计算不同空间位置的外积,并对不同空间位置计算平均池化以得到双线性特征。融合的位置在基础网络结构的最后一个卷积层和完全连接层之间,特征维度由高维空间映射到低维空间特征。找到一个映射函数<Φ(x),Φ(y)>≈k(x,y)使得两组双线性池化特征x和特征y的内积维度<B(x),B(y)>得以降低。具体的公式表示如下:
Figure BDA0002768941350000061
其中,x和y表示两种特征,
Figure BDA0002768941350000062
即为紧凑双线性池化的表示,<Φ(x),Φ(y)>≈k(x,y)代表映射函数。
(3)时空信息交互
首先提取人体动作视频片段的时间特征,然后将提取的时间特征与步骤(2)中空间特征进行时空信息交互。
进一步地,所述步骤(3)的具体内容为:
(3.1)时间特征提取
将步骤(1)预处理之后的人体动作视频片段的样本输入到时间卷积网络BN-Inception,通过卷积网络结构进行时空特征的提取,同时使用预处理之后的数据对卷积网络进行训练。
(3.2)时空信息交互
通过将步骤(3.1)提取的时间特征与步骤(2)中提取的空间特征进行时空特征融合,从而实现时空信息交互。特征融合方法采用的是步骤(2.3)中的紧凑双线性池化方法。
通过此方法来捕获时空特征不同通道的对应关系,进行信息交互。在此之后,继续对时空信息进行特征提取,设置两个卷积层来产生每个位置的权重,然后使用softmax生成输出时空信息的特征图。
(4)全局信息特征融合
原始视频数据经过步骤(1)~(3)的处理之后,将产生的空间、时间以及时空交互特征三个特征源进行特征融合,测试全局特征融合的结果,最后对人体动作分类,完成基于视频的人体动作识别。
进一步地,所述步骤(4)的具体内容为:
将空间、时间以及时空交互特征的三个特征源通过步骤(2.3)中的紧凑双线性池化方法进行融合得到全局特征,得到一个全局特征向量,然后将特征输入到softmax进行分类,通过输出得到的最大值对应的类别得出最后的人体动作的分类结果。
本发明是基于时空注意力机制及多阶段特征融合的人体动作识别方法,以双流CNN算法为基础,对人体动作进行识别,最终能够区分相似动作之间的细微差异还能够提升识别效率。
与现有技术相比,本发明还具有以下优点:本发明所提供的基于空间变换网络的注意力机制,获取与人体运动相关的区域,从而捕获动作之间的细节变化;本发明所提供的局部区域与全局特征进行融合的方法,加强了人体动作的表示;本发明所提供的全局特征描述符,将来自空间信息、时间信息以及时空交互信息进行聚合来区分人体行为动作,提高识别效果。
附图说明
图1为本发明所提供的基于时空注意力机制的人体动作识别方法的整体流程结构示意图。
图2为本发明所提供的基于深度学习的动作识别方法的特征融合示意图。
图3为本发明所提供的基于时空注意力机制的人体动作识别方法的详细网络结构原理图。
具体实施方式
为使本发明的技术方案以及细节原理表达的更加清楚和明确,以下参照附图并举实施例对本发明做进一步的说明。
本实施例公开了一种基于时空注意力机制的人体动作识别方法,其概括图如图1所示,详细网络结构原理图如图3所示。具体步骤如下:
1、将数据集中的人体动作视频片段划分为以20帧为单位得5个片段,并将视频帧统一调整为224*224像素。从截取的每个人体动作视频片段中随机选取单帧作为空间网络的输入,采用TVL1光流法提取视频帧数据得到水平和垂直方向上的光流图,并存储为JPEG图像作为时间网络的输入。
2、训练卷积网络并提取视频人体动作视频的空间特征。
首先将上一步中预处理样本中的数据首先在ImageNet大型数据集上进行预训练,然后用HMDB51和UCF101两个数据集在卷积网络BN-Inception上进行参数微调。Inception模型有四个基本组成结构,分别为1*1卷积,3*3卷积,5*5卷积,3*3最大池化,通过多个卷积核提取不同尺度的信息。在网络训练过程中,激活函数采用的是Relu函数,通过使用随机梯度下降算法不断最小化代价函数,学习率设定的是0.001,进而不断的优化网络。
其次利用训练好的BN-Inception模型提取全局空间特征,同时在输入层后用空间变换网络架构注意力机制获取感兴趣的区域特征,设置身体部分的注意力机制。空间变换网络结构由两个卷积层、两个池化层以及两个全连接层组成,在空间网络的输入并行放置了5个空间仿射变换网络获取不同身体部位的感兴趣区域部分。
最后对获取到的局部区域与全局图像特征采用紧凑双线性池化方法进行特征融合,得到2048维的特征向量的特征图。特征融合示意图如图2所示。
3、将提取的空间特征与时间特征进行融合。
首先采用卷积网络BN-Inception提取视频人体片段的时间特征,之后将上一步骤中空间特征融合的结果与提取的时间网络特征进行时空特征融合得到4096维的向量,为了继续进行特征提取获得时空交互信息,之后继续放置了两个卷积层以及池化层,特征维度降低到1024,然后使用softmax函数生成输出特征图;
4、原始视频数据经过前几步的处理之后,将产生的空间特征、时间特征以及时空交互特征三个特征源进行第三次特征融合输出4096维的全局特征向量,测试全局特征融合的结果,最后对人体动作分类,根据测试数据集的不同,输出的分类分别为101类和51类,通过选择得分最高对应的人体动作得出当前的人体动作类别。

Claims (1)

1.一种基于时空注意力机制的人体动作识别方法,其特征在于,步骤如下:
(1)人体动作视频数据的预处理
将数据集的人体动作视频中的片段S进行随机翻转和裁剪预处理操作,截取成n块人体动作视频片段S1,S2,...,Sn,从截取的每个人体动作视频片段中随机选取单帧以及堆叠的多个光流帧分别作为空间网络和时间网络的输入;空间网络的输入为随机选取的单个视频帧;时间网络的输入为,预先计算人体运动的光流轨迹,并将提取到的光流特征存储为JPEG图像,堆叠光流帧图像作为时间网络的输入;
(2)空间特征提取以及特征融合
首先,将步骤(1)中预处理之后的视频帧输入到卷积网络进行全局的空间特征提取;其次,采用空间注意力机制对视频帧中人体部位的不同区域特征给予不同权重的关注,获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取;最后将学习到的区域特征与原始视频帧的全局特征进行融合;具体如下:
(2.1)全局空间特征提取;采用BN-Inception卷积网络对空间网络的输入进行特征提取,获得全局空间特征;
(2.2)局部区域空间特征提取;局部区域空间特征提取部分通过采用空间仿射变换模型来获取空间网络输入中人体部位的感兴趣的区域特征,并作为注意力机制;
针对空间网络的输入,采用空间仿射变换模型对人体部位的不同区域提取的视觉特征给予不同权重的关注,获取输入视频帧中的感兴趣区域部分并且对获取到的局部区域进行特征提取;空间仿射变换模型可以在训练的过程中自动选择感兴趣的区域特征,同时实现对各种形变的数据进行空间变换;在空间变换网络的同一层插入多个并行的空间变换网络提取多个局部区域特征,从而结合多个局部区域特征进行分类;
空间变换网络结构由三部分组成,分别为Localisation Net,Grid generator,Sampler;空间变换网络架构注意力机制的执行过程如下;
首先,Localisation Net生成空间仿射变换的参数矩阵;
Figure FDA0002768941340000021
其中,sx、sy、tx和ty表示用于注意裁剪、平移和各向同性尺度的变化参数;
其次,Grid Generator根据输出特征图V中的坐标点和变化参数θ,计算出输入特征图U中的坐标点,表示从输入feature map(U)到输出feature map(V)的映射矩阵;采用的空间变换的公式过程定义如下;
Figure FDA0002768941340000022
其中,
Figure FDA0002768941340000023
Figure FDA0002768941340000024
代表原坐标和目标坐标,Tθ(G)为仿射变换函数,Aθ为空间变换参数的矩阵,式子中的θ矩阵为空间变换参数矩阵;假设U和V的每个像素点的坐标分别为
Figure FDA0002768941340000025
Figure FDA0002768941340000026
得到U到V的点坐标变换;
最后,Sampler根据计算出的V中每个点对应到U的坐标点,直接根据V的坐标点取得对应到U中坐标点的像素值来进行填充,填充公式表示为:
Figure FDA0002768941340000027
其中,n和m表示遍历原图U的所有坐标点,Unm表示原图U中某个点的像素值,k()为取样核函数,φ为填充的参数,
Figure FDA0002768941340000028
表示V中第i个点要到U图中找的对应点的坐标,表示的坐标是U图上的;k表示使用不同的方法来填充,通常使用双线性插值,见公式(3):
Figure FDA0002768941340000031
其中,Unm表示原图U中某个点的像素值,n代表横坐标m代表纵坐标,xi s、yi s代表原坐标,i∈[1,HW],c∈[1,3],两个∑∑筛出四个邻近插值点,max()函数表示求最大值;
(2.3)空间特征融合
根据步骤(2.2)得到的人体动作的感兴趣区域部分,将学习到的局部区域特征与原始视频帧的全局特征进行融合;在对卷积网络进行训练过程中激活函数采用的是Relu函数,通过交叉熵损失函数和随机梯度下降算法优化网络;在进行特征图融合时,融合层的位置选取在BN-Inception架构的最后一个卷积层和全连接层之间;
特征融合时采用的是紧凑双线性池化方法,融合的位置在基础网络结构的最后一个卷积层和完全连接层之间,特征维度由高维空间映射到低维空间特征;找到一个映射函数<Φ(x),Φ(y)>≈k(x,y)使得两组双线性池化特征x和特征y的内积维度<B(x),B(y)>得以降低;具体的公式表示如下:
Figure FDA0002768941340000032
其中,x和y表示两种特征,
Figure FDA0002768941340000033
即为紧凑双线性池化的表示,<Φ(x),Φ(y)>≈k(x,y)代表映射函数;
(3)时空信息交互
首先提取人体动作视频片段的时间特征,然后将提取的时间特征与步骤(2)中空间特征进行时空信息交互;具体如下:
(3.1)时间特征提取
将步骤(1)预处理之后的人体动作视频片段的样本输入到时间卷积网络BN-Inception,通过卷积网络结构进行时空特征的提取,同时使用预处理之后的数据对卷积网络进行训练;
(3.2)时空信息交互
通过将步骤(3.1)提取的时间特征与步骤(2)中提取的空间特征进行时空特征融合,从而实现时空信息交互;特征融合方法采用的是步骤(2.3)中的紧凑双线性池化方法,来捕获时空特征不同通道的对应关系,进行信息交互;然后,继续对时空信息进行特征提取,设置两个卷积层来产生每个位置的权重,再使用softmax生成输出时空信息的特征图;
(4)全局信息特征融合
原始视频数据经过步骤(1)~(3)的处理之后,将产生的空间、时间以及时空交互特征三个特征源通过步骤(2.3)中的紧凑双线性池化方法进行融合得到全局特征,测试全局特征融合的结果,得到一个全局特征向量,然后将特征输入到softmax进行分类,通过输出得到的最大值对应的类别得出最后的人体动作的分类结果。
CN202011242807.8A 2020-11-09 2020-11-09 一种基于时空注意力机制的人体动作识别方法 Active CN112364757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011242807.8A CN112364757B (zh) 2020-11-09 2020-11-09 一种基于时空注意力机制的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011242807.8A CN112364757B (zh) 2020-11-09 2020-11-09 一种基于时空注意力机制的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN112364757A CN112364757A (zh) 2021-02-12
CN112364757B true CN112364757B (zh) 2022-10-21

Family

ID=74509840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011242807.8A Active CN112364757B (zh) 2020-11-09 2020-11-09 一种基于时空注意力机制的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN112364757B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902548B2 (en) * 2021-03-16 2024-02-13 Huawei Technologies Co., Ltd. Systems, methods and computer media for joint attention video processing
CN113269068B (zh) * 2021-05-18 2022-04-22 上海大学 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN113283381B (zh) * 2021-06-15 2024-04-05 南京工业大学 一种适用于移动机器人平台的人体动作检测方法
CN113239897B (zh) * 2021-06-16 2023-08-18 石家庄铁道大学 基于时空特征组合回归的人体动作评价方法
CN113469018B (zh) * 2021-06-29 2024-02-23 中北大学 基于rgb与三维骨骼的多模态交互行为识别方法
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN113537335B (zh) * 2021-07-09 2024-02-23 北京航空航天大学 一种人手装配技能解析的方法及系统
CN113505736A (zh) * 2021-07-26 2021-10-15 浙江大华技术股份有限公司 对象的识别方法及装置、存储介质、电子装置
CN115291730B (zh) * 2022-08-11 2023-08-15 北京理工大学 一种可穿戴生物电设备及生物电动作识别与自校准方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111259795A (zh) * 2020-01-16 2020-06-09 河南职业技术学院 基于多流深度学习的人体行为识别方法
CN111310633B (zh) * 2020-02-10 2023-05-05 江南大学 基于视频的并行时空注意力行人重识别方法
CN111627052B (zh) * 2020-04-30 2023-05-23 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法t-stam

Also Published As

Publication number Publication date
CN112364757A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364757B (zh) 一种基于时空注意力机制的人体动作识别方法
Wu et al. Recent advances in video-based human action recognition using deep learning: A review
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Liu et al. Robust video super-resolution with learned temporal dynamics
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Liao et al. DR-GAN: Automatic radial distortion rectification using conditional GAN in real-time
Cao et al. 3D aided duet GANs for multi-view face image synthesis
JP7284872B2 (ja) 別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法
Deng et al. MVF-Net: A multi-view fusion network for event-based object classification
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
JP2020507864A (ja) コンテンツ検出のための画像処理方法
CN107203745B (zh) 一种基于跨域学习的跨视角动作识别方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN113343950B (zh) 一种基于多特征融合的视频行为识别方法
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
CN111488932A (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
WO2022052782A1 (zh) 图像的处理方法及相关设备
Wang et al. Joint framework for single image reconstruction and super-resolution with an event camera
Wang et al. Gaitstrip: Gait recognition via effective strip-based feature representations and multi-level framework
Drobnitzky et al. Survey and systematization of 3D object detection models and methods
WO2021057091A1 (zh) 视点图像处理方法及相关设备
Rauniyar et al. Text to image generator with latent diffusion models
Xu The research on applying artificial intelligence technology to virtual youtuber
Chen et al. Unsupervised omnimvs: Efficient omnidirectional depth inference via establishing pseudo-stereo supervision
He et al. Neural Radiance Field in Autonomous Driving: A Survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Qiang

Inventor after: Yu Hua

Inventor after: Hou Yaqing

Inventor after: Ge Hongwei

Inventor after: Zhou Dongsheng

Inventor before: Yu Hua

Inventor before: Hou Yaqing

Inventor before: Ge Hongwei

Inventor before: Zhou Dongsheng

Inventor before: Zhang Qiang

GR01 Patent grant
GR01 Patent grant