CN112560712B - 基于时间增强图卷积网络的行为识别方法、装置及介质 - Google Patents

基于时间增强图卷积网络的行为识别方法、装置及介质 Download PDF

Info

Publication number
CN112560712B
CN112560712B CN202011511511.1A CN202011511511A CN112560712B CN 112560712 B CN112560712 B CN 112560712B CN 202011511511 A CN202011511511 A CN 202011511511A CN 112560712 B CN112560712 B CN 112560712B
Authority
CN
China
Prior art keywords
time
convolution
network
layer
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011511511.1A
Other languages
English (en)
Other versions
CN112560712A (zh
Inventor
谢雪梅
李佳楠
赵至夫
曹玉晗
潘庆哲
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011511511.1A priority Critical patent/CN112560712B/zh
Publication of CN112560712A publication Critical patent/CN112560712A/zh
Application granted granted Critical
Publication of CN112560712B publication Critical patent/CN112560712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时间增强图卷积网络的行为识别方法、装置及介质,识别方法具体为:设计动态的时间结构图的点信息;构建时间结构图的边连接,完成动态的时间结构图;构建时间增强图卷积模块;构建时间增强图卷积网络;训练时间增强图卷积网络;对视频中人的行为进行识别。本发明能够获取长时间依赖关系以及时间维度结构信息,提高了行为识别的准确性,同时具有较强的适用性,解决了现有技术中存在的问题。

Description

基于时间增强图卷积网络的行为识别方法、装置及介质
技术领域
本发明属于视频处理技术领域,涉及一种基于时间增强图卷积网络的行为识别方法、装置及介质,可广泛应用于视频检索,人机交互以及视频理解。
背景技术
行为识别是给定一个视频片段,通过分析视频里人的时空动态特征,判断其表现的动作类别。按照输入数据模态的不同,行为识别被分为两大类:基于骨架的行为识别和基于RGB图像的行为识别。相比于RGB模态,骨架模态具有存储量少,对环境变化鲁棒性强等优点。并且骨架是人体的抽象表示,所以骨架模态可以很好的适用于人体行为识别。目前骨架模态的行为识别方法主要有三种实现方式:循环神经网络,卷积神经网络和图卷积网络。基于循环神经网络和卷积神经网络的方法首先需要把原始的骨架数据转换为欧几里得空间下的数据然后再用网络进行特征提取。因为骨架数据是图结构形式的而非欧几里得空间下,上述方法不能充分利用骨架数据的结构信息。图卷积网络可以直接对图结构的骨架数据进行特征提取从而保持了其结构信息。
Sijie Yan在其发表的论文“Spatial Temporal Graph Convolutional Networksfor Skeleton-based Action Recognition”(Thirty-Second AAAI Conference onArtificial Intelligence(AAAI),2018)中提出了一种基于时空图卷积网络的行为识别方法。该方法将骨架数据构造为骨架图结构,骨架图的顶点是骨架点,边是按照人体自然连接的骨头。除此之外,Lei Shi在其发表的论文“Two-Stream Adaptive Graph ConvolutionalNetworks for Skeleton-Based Action Recognition”(IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2019)中提出了一种自适应图结构,以便提取到骨架数据更丰富的结构信息。为了提取视频的时空特征,此类方法通常先利用图卷积来提取空间信息,然后再使用一维时间卷积对时间动态进行建模。该方法存在的不足是:没有充分考虑如何对时间动态的结构信息进行建模,难以提取到长时及短时的动态时间关系。
发明专利(申请号201910967740.5,名称:基于知识嵌入图卷积网络的双人交互识别方法)公开了一种知识嵌入的图卷积网络的双人交互行为识别方法。该方法在知识的引导下建立了知识学习图和知识给定图,以便充分提取到骨架数据在双人交互任务下的空间结构信息。因为该发明所构建的知识引导图结构是单独对每一帧骨架数据进行处理,对于时间维度信息只是利用普通的一维卷积提取时间动态,所以该方法存在的不足是:对于时间跨度长的视频,只能通过层级地堆叠多个一维卷积提取视频的长时依赖关系。这种方法会过分关注局部时间信息从而导致关键的远距离分离时间信息被忽略,因此对行为识别的准确率产生消极影响。
发明内容
为了解决上述问题,本发明提供一种基于时间增强图卷积网络的行为识别方法、装置及介质,能够获取长时间依赖关系以及时间维度结构信息,提高了行为识别的准确性,同时具有较强的适用性,解决了现有技术中存在的问题。
本发明所采用的技术方案是,一种基于时间增强图卷积网络的行为识别方法,具体按照以下步骤进行:
S1,设计动态的时间结构图的点信息:
S11,通过传统图卷积网络提取骨架数据特征,网络层数至少一层,得到的特征维度为Cl×Tl×J,其中l表示网络层数;Cl代表第l层特征的通道数,Tl代表第l层特征时间维的长度,J代表每个人对应的骨架点的数目;
S12,将所得维度为Cl×Tl×J的特征进行变换,得到维度为Tl×(Cl×J)的张量,其中每个时间维度的特征向量
Figure BDA0002846542760000021
代表时间特征,该时间特征作为动态的时间结构图的点信息,R表示实数域;
S2,构建时间结构图的边连接,完成动态的时间结构图;
S3,构建时间增强图卷积模块;
S4,构建时间增强图卷积网络;
S5,训练时间增强图卷积网络;
S6,对视频中人的行为进行识别。
进一步的,所述步骤S2包括全局时间边信息的构建:
S211,通过1×1卷积操作分别得到通道维度和空间维度的全局特征,其维度为1×1×Tl
S212,将所得维度为1×1×Tl特征,转换为Tl×1×1,进一步通过1×1卷积操作整合时间维度的全局信息,将维度为Tl×1×1的特征转换为Tl×Tl×1×1,接着通过整形操作将得到的特征整合为Tl×Tl的参数矩阵,其中每个参数矩阵值代表时间结构图中两个点是否存在连接以及其连接强度。
进一步的,所述步骤S2包括局部时间边信息的构建:
计算任意两个时间特征向量
Figure BDA0002846542760000031
的内积,作为不同时间片段的语义相关性;根据语义相关性的值确定时间结构图中两个点是否连接以及连接的强度。
进一步的,所述步骤S3包括:
S31,构建时间图卷积:
S311,将得到的全局时间边信息、局部时间边信息分别用邻接矩阵表示,将两个邻接矩阵相加进行融合,再将维度为Cl×Tl×J的输入特征和融合的邻接矩阵进行相乘,得到维度不变的新张量,实现对不相邻高维时间特征的整合;
S312,将矩阵相乘结果依次经过卷积层和修正线性单元ReLU,输出特征图维度为
Figure BDA0002846542760000032
的新张量,得到最终特征表示;
S32,以传统的图卷积网络作为空间卷积,归一化单元BN和修正线性单元ReLU依次连接组成的空间图卷积;
S33,将空间图卷积和时间图卷积进行依次连接,并以残差网络的方式构成时间增强图卷积模块。
进一步的,所述步骤S4具体为:将10个时间增强图卷积模块,一个全局平均池化层和一个全连接层依次连接,构成时间增强图卷积网络。
进一步的,所述时间增强图卷积网络的设置包括:
S41,设置网络结构:
搭建一个12层的时间增强图卷积网络:其结构依次为:输入卷积层→第一图卷积层→第二时间增强图卷积层→第三时间增强图卷积层→第四图卷积层→第五时间增强图卷积层→第六时间增强图卷积层→第七时间增强图卷积层→第八时间增强图卷积层→第九时间增强图卷积层→全局平均池化层→全连接层。
S42,设置参数:
第一层图卷积模块的空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核大小均设置为1×9,时间卷积步长均设为1;其余9个时间增强图卷积模块,其空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核大小均设置为1×1,时间卷积步长均设为1,每个卷积块的空间和时间卷积核数量相同;全连接层的输出神经元个数设置为需要识别的行为类别总数。
进一步的,所述步骤S5包括:将训练集的数据输入到时间增强图卷积网络中,用梯度下降法迭代更新时间增强图卷积网络:
S521,将网络的学习率设置为0.1,迭代次数设置为80~120次,每次迭代在训练集中选择骨架样本数目设置为32;
S522,根据数据样本中人体行为类别标签值与时间增强图卷积网络的输出值计算网络的梯度向量
Figure BDA0002846542760000041
通过所求梯度向量更新网络各层参数,公式如下:
Figure BDA0002846542760000042
其中,
Figure BDA0002846542760000043
表示更新后的网络参数值,←表示赋值操作,θ表示更新前的网络参数值;α表示学习率;
S523,判断迭代次数是否达到80~120;若是,则停止对参数的更新,得到训练好的网络;否则,重复操作步骤S522,直到迭代次数达到80~120。
进一步的,所述步骤S6包括:
S61,采集RGB图像序列,每张图像均含有待识别的人的行为;
S62,在RGB图像序列中提取骨架序列,每帧骨架数据包含25个骨架点以及每个骨架点所处位置对应的三维坐标;
S63,将骨架序列输入到训练好的时间增强图卷积网络,输出人体行为的识别结果。
另一方面,本发明提供一种基于时间增强图卷积网络的行为识别设备,包括:
存储器,用于存储可由处理器执行的指令;以及
处理器,用于执行所述指令以实现如权利要求1至7任一项所述的基于时间增强图卷积网络的行为识别方法。
第三方面,本发明提供一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如权利要求1至7任一项所述的基于时间增强图卷积网络的行为识别方法。
本发明的有益效果是:
1、本发明设计了时间结构图,对不相邻的关键时间片段直接建立时间相关性,能够直接提取视频的长时依赖关系并且能够提取时间维度结构信息,从而提高了对视频中基于骨架数据的人体行为识别效果和识别准确性;克服了已有方法仅对骨架序列中相邻时间的信息相关性建模,导致其难以提取长时依赖关系并且无法提取时间维度结构信息的问题。
2、本发明构建了时间增强图卷积网络,通过同时对时空维度特征建立图结构并提取其结构特征,使得网络学习到更具判别性的行为表示特征,提高了人体行为识别的准确率。本发明构建的时间增强图卷积网络对于现有的卷积神经网络具有普适性,可以被插入到现有网络的任意一层,具有较强的适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明的人体骨架结构示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在行为识别任务中,动态信息远比静态的空间信息更重要,但是时间信息模态的动态变化特点,难以用固定的模式表示,因此定义时间上的结构信息就尤为困难;此外,现有对视频序列建模的方法在研究时空特征时通常是割裂的,即分别研究时间和空间;本发明针对视频行为中复杂的动态关系在时间维度构建了合理的自适应时间结构图,为行为识别中如何对时间维度进行建模提供新的思路;并结合了通道维度和空间维度,克服了现有技术存在的技术困难,并利用图卷积网络提取复杂的时间结构信息,提取时间维度上更丰富的关系,建立长时的动态依赖关系,然后构建时间增强图卷积网络,训练时间增强图卷积网络并对人体行为进行识别,极大程度上提高了人体行为识别的准确性。
本发明实施例一种基于时间增强图卷积网络的行为识别方法,流程如图1所示,具体按照以下步骤进行:
S1,设计动态的时间结构图的点信息:
S11,输入数据维度为X∈RC×T×J,其中C代表特征图的通道数,T代表视频序列的帧数,J代表每个人对应的骨架点的数目,R表示实数域。为了得到时间维度的高阶语义表示,需要首先通过传统图卷积网络提取骨架数据特征,网络层数至少一层,得到的特征维度为Cl×Tl×J,其中l表示网络层数,Cl代表第l层特征的通道数,Tl代表第l层特征时间维的长度。
S12,将所得维度为Cl×Tl×J的特征进行变换,得到维度为Tl×(Cl×J)的张量。其中每个时间维度的特征向量
Figure BDA0002846542760000061
代表时间特征,该时间特征作为动态的时间结构图的点信息。
S2,设计时间结构图的边连接:
S21,全局时间边信息。
S211,通过1×1卷积操作,使得通道维度和空间维度的值变为了1,得到通道维度和空间维度的全局特征,其维度为1×1×Tl;1×1×Tl表示维度为1×1×Tl的特征向量。
S212,将所得维度为1×1×Tl特征,转换为Tl×1×1。进一步通过1×1卷积操作整合时间维度的全局信息。将维度为Tl×1×1的特征转换为Tl×Tl×1×1。接着通过整形操作将Tl×Tl×1×1的特征整合为Tl×Tl的参数矩阵,其中每个参数矩阵值代表时间结构图中的点是否存在连接以及其连接强度。该模块的参数在网络训练过程中与其他参数一起迭代更新。网络训练完成时,得到最终参数矩阵值。全局时间边信息在没有任何约束的情况下通过数据集学习得到,得到的边连接是在关注全局信息的情况下学习得到的。以这种方式得到的时间结构图全局性更强。
S22,局部时间边信息。计算任意两个时间特征向量
Figure BDA0002846542760000062
的内积,将其作为不同时间片段的语义相关性。该语义相关性决定了时间结构图中这两个时间特征向量(即时间结构图的点)是否连接以及连接的强度;全局信息和局部信息具有互补性,通过融合这两种边信息可以提升识别准确率。
S3,构建时间增强图卷积模块:
S31,构建时间图卷积:
S311,将得到的全局时间边信息、局部时间边信息分别用邻接矩阵表示,将两个邻接矩阵相加进行融合,再利用维度为Cl×Tl×J的输入特征和融合后的邻接矩阵进行相乘,得到维度不变的新张量,实现对不相邻高维时间特征的整合;
S312,将矩阵相乘结果依次经过卷积层和修正线性单元ReLU,输出特征图维度为
Figure BDA0002846542760000063
的新张量,得到最终特征表示;
S32,利用传统的图卷积网络作为空间卷积,归一化单元BN和修正线性单元ReLU依次连接组成的空间图卷积;
S33,将空间图卷积和时间图卷积依次连接,并以残差网络的方式构成时间增强图卷积模块。
S4,构建时间增强图卷积网络:将10个时间增强图卷积模块,一个全局平均池化层和一个全连接层依次连接,构成时间增强图卷积网络;该网络可以更好的对视频序列的时间动态进行建模,通过更好地建模时间动态信息,避免一些无关信息的干扰,行为识别的准确率会被提升。
S41,设置网络结构:
搭建一个12层的时间增强图卷积网络:其结构依次为:输入卷积层→第一图卷积层→第二时间增强图卷积层→第三时间增强图卷积层→第四图卷积层→第五时间增强图卷积层→第六时间增强图卷积层→第七时间增强图卷积层→第八时间增强图卷积层→第九时间增强图卷积层→全局平均池化层→全连接层。
S42,设置参数:
第一层图卷积模块的空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核大小均设置为1×9,时间卷积步长均设为1。其余9个时间增强图卷积模块,其空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核大小均设置为1×1,时间卷积步长均设为1,每个卷积块的空间和时间卷积核数量相同,依次设置为64,64,64,64,128,128,128,256,256,256;全连接层的输出神经元个数设置为需要识别的行为类别总数(60个)。
S5,训练时间增强图卷积网络:
S51,本实例选择被广泛使用的NTU数据集进行实验,数据集的下载网址为http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp;该数据集由40个实验对象执行的60个动作类组成,包含56,880个视频样本;数据集中每个骨架样本包括骨架点的坐标信息和该样本对应的行为标签。根据数据集提供的测试准则,按照2:1的比例将数据集划分为训练集和测试集;
S52,将训练集的数据输入到时间增强图卷积网络中,用梯度下降法迭代更新时间增强图卷积网络:
S521,将网络的学习率设置为0.1,迭代次数设置为80~120次,每次迭代在训练集中选择骨架样本数目设置为32;
S522,根据数据样本中人体行为类别标签值与时间增强图卷积网络的输出值计算网络的梯度向量
Figure BDA0002846542760000081
利用所求梯度向量更新网络各层参数,公式如下:
Figure BDA0002846542760000082
其中,
Figure BDA0002846542760000083
表示更新后的网络参数值,←表示赋值操作,θ表示更新前的网络参数值;α表示学习率;
S523,判断迭代次数是否达到80~120;若是,则停止对参数的更新,得到训练好的网络;否则,重复操作步骤S522,直到迭代次数达到80~120。
S6,对视频中人的行为进行识别:
S61,使用相机采集RGB图像序列,每张图像均含有待识别的人的行为;
S62,利用骨架姿态估计工具,在RGB图像序列中提取骨架序列,其中每帧骨架数据包含25个骨架点(如图2所示)以及每个骨架点所处位置对应的三维坐标;图2中的圆圈表示组成的人体骨架关节点,直线表示两两关节点之间的连线。
S63,将骨架序列输入到训练好的时间增强图卷积网络,输出人体行为的识别结果。
本发明的效果可通过仿真实例进一步说明:
利用步骤S51中对数据集划分得到的测试集说明本发明的技术效果,测试集共包含18,960个样本,将测试集中的每个数据样本输入到训练好的时间增强图卷积网络得到对该样本的分类结果;
统计测试集中样本分类结果与标签相同的样本数目即分类正确样本数目,分类正确样本数目为16,576,并计算与测试集样本总数的比值得到行为识别的准确率A:
Figure BDA0002846542760000084
从仿真结果表明得出,本发明对行为识别任务具有准确率高的优点。
本发明实施例所述基于时间增强图卷积网络的行为识别方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明施例所述基于时间增强图卷积网络的行为识别方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (5)

1.一种基于时间增强图卷积网络的行为识别方法,其特征在于,具体按照以下步骤进行:
S1,设计动态的时间结构图的点信息:
S11,通过传统图卷积网络提取骨架数据特征,网络层数至少一层,得到的特征维度为Cl×Tl×J,其中l表示网络层数;Cl代表第l层特征的通道数,Tl代表第l层特征时间维的长度,J代表每个人对应的骨架点的数目;
S12,将所得维度为Cl×Tl×J的特征进行变换,得到维度为Tl×(Cl×J)的张量,其中每个时间维度的特征向量
Figure FDA0004168964530000011
代表时间特征,该时间特征作为动态的时间结构图的点信息,R表示实数域;
S2,构建时间结构图的边连接,完成动态的时间结构图;
S3,构建时间增强图卷积模块;
S4,构建时间增强图卷积网络;
S5,训练时间增强图卷积网络;
S6,对视频中人的行为进行识别;
所述步骤S2包括全局时间边信息的构建:
S211,通过1×1卷积操作分别得到通道维度和空间维度的全局特征,其维度为1×1×Tl
S212,将所得维度为1×1×Tl特征,转换为Tl×1×1,进一步通过1×1卷积操作整合时间维度的全局信息,将维度为Tl×1×1的特征转换为Tl×Tl×1×1,接着通过整形操作将Tl×Tl×1×1的特征整合为Tl×Tl的参数矩阵,其中每个参数矩阵值代表时间结构图中的两个点是否存在连接以及其连接强度;
所述步骤S2包括局部时间边信息的构建:
计算任意两个时间特征向量
Figure FDA0004168964530000012
的内积,作为不同时间片段的语义相关性;根据语义相关性的值确定时间结构图中两个点是否连接以及连接的强度;
所述步骤S3包括:
S31,构建时间图卷积:
S311,将得到的全局时间边信息、局部时间边信息分别用邻接矩阵表示,将两个邻接矩阵相加进行融合,再将维度为Cl×Tl×J的输入特征和融合的邻接矩阵进行相乘,得到维度不变的新张量,实现对不相邻高维时间特征的整合;
S312,将矩阵相乘结果依次经过卷积层和修正线性单元ReLU,输出特征图维度为
Figure FDA0004168964530000013
的新张量,得到最终特征表示;
S32,以传统的图卷积网络作为空间卷积,归一化单元BN和修正线性单元ReLU依次连接组成的空间图卷积;
S33,将空间图卷积和时间图卷积进行依次连接,并以残差网络的方式构成时间增强图卷积模块;
所述步骤S4具体为:将10个时间增强图卷积模块,一个全局平均池化层和一个全连接层依次连接,构成时间增强图卷积网络;
所述时间增强图卷积网络的设置包括:
S41,设置网络结构:
搭建一个12层的时间增强图卷积网络:其结构依次为:输入卷积层→第一图卷积层→第二时间增强图卷积层→第三时间增强图卷积层→第四图卷积层→第五时间增强图卷积层→第六时间增强图卷积层→第七时间增强图卷积层→第八时间增强图卷积层→第九时间增强图卷积层→全局平均池化层→全连接层;
S42,设置参数:
第一层图卷积模块的空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核的大小均设置为1×9,时间卷积步长均设为1;其余9个时间增强图卷积模块,其空间卷积核大小均为1×1,空间卷积步长均为1,时间卷积核大小均设置为1×1,时间卷积步长均设为1,每个卷积块的空间和时间卷积核数量;全连接层的输出神经元个数设置为需要识别的行为类别总数。
2.根据权利要求1所述的一种基于时间增强图卷积网络的行为识别方法,其特征在于,所述步骤S5包括:将训练集的数据输入到时间增强图卷积网络中,用梯度下降法迭代更新时间增强图卷积网络:
S521,将网络的学习率设置为0.1,迭代次数设置为80~120次,每次迭代在训练集中选择骨架样本数目设置为32;
S522,根据数据样本中人体行为类别标签值与时间增强图卷积网络的输出值计算网络的梯度向量
Figure FDA0004168964530000021
通过所求梯度向量更新网络各层参数,公式如下:
Figure FDA0004168964530000022
其中,
Figure FDA0004168964530000023
表示更新后的网络参数值,←表示赋值操作,θ表示更新前的网络参数值;α表示学习率;
S523,判断迭代次数是否达到80~120;若是,则停止对参数的更新,得到训练好的网络;否则,重复操作步骤S522,直到迭代次数达到80~120。
3.根据权利要求1所述的一种基于时间增强图卷积网络的行为识别方法,其特征在于,所述步骤S6包括:
S61,采集RGB图像序列,每张图像均含有待识别的人的行为;
S62,在RGB图像序列中提取骨架序列,每帧骨架数据包含25个骨架点以及每个骨架点所处位置对应的三维坐标;
S63,将骨架序列输入到训练好的时间增强图卷积网络,输出人体行为的识别结果。
4.一种基于时间增强图卷积网络的行为识别设备,其特征在于,包括:
存储器,用于存储可由处理器执行的指令;以及
处理器,用于执行所述指令以实现如权利要求1至3任一项所述的基于时间增强图卷积网络的行为识别方法。
5.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如权利要求1至3任一项所述的基于时间增强图卷积网络的行为识别方法。
CN202011511511.1A 2020-12-18 2020-12-18 基于时间增强图卷积网络的行为识别方法、装置及介质 Active CN112560712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011511511.1A CN112560712B (zh) 2020-12-18 2020-12-18 基于时间增强图卷积网络的行为识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511511.1A CN112560712B (zh) 2020-12-18 2020-12-18 基于时间增强图卷积网络的行为识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112560712A CN112560712A (zh) 2021-03-26
CN112560712B true CN112560712B (zh) 2023-05-26

Family

ID=75030484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511511.1A Active CN112560712B (zh) 2020-12-18 2020-12-18 基于时间增强图卷积网络的行为识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112560712B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665308B (zh) * 2023-06-21 2024-01-23 石家庄铁道大学 双人交互时空特征提取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014009031A2 (en) * 2012-07-09 2014-01-16 Toyota Motor Europe Nv/Sa Artificial memory system and method for use with a computational machine for interacting with dynamic behaviours
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111367961A (zh) * 2020-02-27 2020-07-03 西安交通大学 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN111814719A (zh) * 2020-07-17 2020-10-23 江南大学 一种基于3d时空图卷积的骨架行为识别方法
CN111950485A (zh) * 2020-08-18 2020-11-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
WO2020232886A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 一种视频行为识别方法、装置、存储介质和服务器
WO2020248581A1 (zh) * 2019-06-11 2020-12-17 中国科学院自动化研究所 图数据识别方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014009031A2 (en) * 2012-07-09 2014-01-16 Toyota Motor Europe Nv/Sa Artificial memory system and method for use with a computational machine for interacting with dynamic behaviours
WO2020232886A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 一种视频行为识别方法、装置、存储介质和服务器
WO2020248581A1 (zh) * 2019-06-11 2020-12-17 中国科学院自动化研究所 图数据识别方法、装置、计算机设备和存储介质
CN110751072A (zh) * 2019-10-12 2020-02-04 西安电子科技大学 基于知识嵌入图卷积网络的双人交互识别方法
CN111367961A (zh) * 2020-02-27 2020-07-03 西安交通大学 基于图卷积神经网络的时序数据事件预测方法、系统及其应用
CN111814719A (zh) * 2020-07-17 2020-10-23 江南大学 一种基于3d时空图卷积的骨架行为识别方法
CN111950485A (zh) * 2020-08-18 2020-11-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于图卷积的骨架行为识别;董安;左劼;孙频捷;;现代计算机(02);全文 *

Also Published As

Publication number Publication date
CN112560712A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN111310707B (zh) 基于骨骼的图注意力网络动作识别方法及系统
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN108376267B (zh) 一种基于类别转移的零样本分类方法
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
CN111738143B (zh) 一种基于期望最大化的行人重识别方法
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN108182260B (zh) 一种基于语义选择的多变量时间序列分类方法
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN113313173B (zh) 基于图表示和改进Transformer的人体解析方法
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN110674685B (zh) 一种基于边缘信息增强的人体解析分割模型及方法
CN110751072B (zh) 基于知识嵌入图卷积网络的双人交互识别方法
CN110705490B (zh) 视觉情感识别方法
CN111259735B (zh) 基于多级预测特征增强卷积神经网络的单人姿态估计方法
CN112766079A (zh) 一种基于内容风格分离的无监督图像到图像翻译方法
CN111553462A (zh) 一种类激活映射方法
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN112560712B (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质
Arun Prasath et al. Prediction of sign language recognition based on multi layered CNN
CN116434347B (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant