CN112597883B - 一种基于广义图卷积和强化学习的人体骨架动作识别方法 - Google Patents

一种基于广义图卷积和强化学习的人体骨架动作识别方法 Download PDF

Info

Publication number
CN112597883B
CN112597883B CN202011526101.4A CN202011526101A CN112597883B CN 112597883 B CN112597883 B CN 112597883B CN 202011526101 A CN202011526101 A CN 202011526101A CN 112597883 B CN112597883 B CN 112597883B
Authority
CN
China
Prior art keywords
network
feature
features
generalized
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011526101.4A
Other languages
English (en)
Other versions
CN112597883A (zh
Inventor
姚剑
许哲源
汪颖夫
涂静敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011526101.4A priority Critical patent/CN112597883B/zh
Publication of CN112597883A publication Critical patent/CN112597883A/zh
Application granted granted Critical
Publication of CN112597883B publication Critical patent/CN112597883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于广义图卷积和强化学习的人体骨架动作识别方法。本发明构建人体骨架序列矩阵,构建预定义骨架图,将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合,利用全连接层分类器对特征进行分类,根据损失函数更新网络参数;结合训练后的广义图卷积网络、分类器,广义图卷积学习到的特征,构建特征选择网络来自适应地选择时间维上对识别有用的特征,并利用强化学习方法进行训练。本发明针对人体骨架动作识别任务,设计了一个广义图卷积网络,用于捕获任意结点间的相关依赖,以提取结点间更丰富的关联特征。同时设计了一种特征选择网络,用于选择时间维上对识别有用的特征,从而实现更精确的动作识别。

Description

一种基于广义图卷积和强化学习的人体骨架动作识别方法
技术领域
本发明属于视频图像处理技术领域,特别是涉及一种基于广义图卷积和强化学习的人体骨架动作识别方法。
背景技术
人体行为识别技术在视频监控,视频检索以及人机交互等方向有着十分广泛的应用。相较于RGB视频,人体骨架序列具有旋转不变性,光照不变性等优良性质,因此基于骨架序列的动作识别在面对复杂场景时具有显著优势。而如今随着深度传感器和人体姿态估计算法的发展,获取人体的骨架序列也变得越来越容易。
早先的传统方法主要是针对人体骨架设计对人体动作或人体-对象交互有概况性的特征描述符。一般而言,这类特征应具有平移,旋转不变性,以及对时序数据有较强的鲁棒性。虽然这类算法不需要大量数据用于学习,可以快速对识别任务进行针对性的部署。但识别精度差,容易受环境和场景的影响,当面对复杂场景或复杂动作时难以是被准确识别。
随着深度学习技术在计算机视觉领域的发展,基于深度学习的方法也被逐步应用于人体骨架动作识别。其主要分为基于递归神经网络(Recurrent Neural Network,RNN),基于卷积神经网络(Convolutional Neural Network,CNN)和基于图卷积神经网络的方法(Graph Convolutional Neural Network,GCN)。
基于递归神经网络的方法将骨架表示成一个向量序列作为神经网络的输入,通过学习各种递归神经网络来学习骨架在时序上的关联特征。长短期记忆网络(Long-ShortTerm Memory,LSTM)目前被认为是处理长时序关联的一种较好的方法,能够有效解决普通递归神经网络中存在的梯度弥散等问题,因此这类方法也被有效迁移到人体骨架动作识别中。然而这类方法忽略了骨架的空间结构信息,因此在识别精度上还无法达到实际应用的标准。
基于卷积神经网络的方法将骨架表示为一副虚拟的图像,“长宽”分别为时间维数与关节结点数,通过参数共享的方式学习骨架动作在时空上的关联特征。其中,骨架的空间坐标和相邻帧骨架的运动向量通常作为输入特征,以双流的形式利用卷积神经网络分别学习动作的空间和时间特征。这类方法虽然特征学习能力很强,但依然没有利用骨架本身的结构特性。
基于图卷积的方法将骨架视为一个时空关联的图,其各帧的骨架结点为图的结点,骨架物理上相邻的结点之间以及同一结点相邻帧之间构成图的边。这种数据表达方式能更清晰直观的描述一个骨架序列。且图卷积能将卷积神经网络扩展到非欧式数据中,因此被用来在上述骨架图中提取时空关联的特征。这种特征同时包含了骨架的空间结构和时序信息,因此能够取得不错的识别效果。
目前,虽然基于图卷积的方法已经取得了不错的效果,但依然存在两个问题:图卷积只能提取局部的关联特征而不能获取结点间的长距离依赖。图卷积在最后对特征在时间维上采用全局平均池化的方式聚合,而时间维上并非每个特征都对最后的预测结果有用。本发明对骨架获取方式没有限制,适用于基于结构光、多目视觉、飞行时间距离原理等方法的深度相机。本发明对数据维度没有限制,2D或3D的骨架数据都能作为网络的输入。
发明内容
为了解决上述提到的问题并且进一步提升人体骨架动作识别的效果,本发明提出了一种基于广义图卷积和强化学习的人体骨架动作识别方法,具体包括以下步骤:
步骤1:构建人体骨架序列矩阵,将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标,进一步对动作序列图像中人体关节点的三维坐标进行中心化处理、对齐处理;
步骤2:构建预定义骨架图;
步骤3:将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合,利用全连接层分类器对特征进行分类,根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器;
步骤4:结合步骤3中训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征,构建特征选择网络来自适应地选择时间维上对识别有用的特征,并利用强化学习方法进行训练。
步骤5:将步骤1中得到的待识别的骨架数据作为网络输入,通过训练后的广义图卷积网络提取到大小为(N,C,T,V)的高维特征,经过空间平均池化后特征维度变为(N,C,T);进一步由训练后的特征选择网络对每个特征进行选择,输出一个大小为(N,T)的布尔矩阵,1代表该特征选来最终识别,0代表丢弃;通过平均池化对选择的特征进行特征聚合,送入训练后的分类器得到分类结果。
作为优选,步骤1所述构建人体骨架序列矩阵为:
构建大小为(T,V,M)的三维矩阵;
步骤1所述将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标
步骤1所述人体骨架序列矩阵中每个元素为动作序列图像中人体关节点的三维坐标,具体定义为:
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T为动作序列图像帧的数量,V为人体中关节点的数量,M为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标;
步骤1所述对动作序列图像中人体关节点的三维坐标进行中心化处理为:
各关节点的三维坐标减去骨架重心处节点的三维坐标,即:
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T为动作序列图像帧的数量,V为人体中关节点的数量,M为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标,vc为腰关节的关节点编号,vc∈[1,V];
步骤1所述对动作序列图像中人体关节点的三维坐标进行对齐处理为:
将骨架坐标旋转,使得左肩、右肩构成的连线与x轴平行,即
其中,表示第t帧动作序列图像中第m个人体的左肩关节点的三维坐标,/>表示第t帧动作序列图像中第m个人体的右肩关节点的三维坐标,v1为右肩节关节点的编号,v2为右肩关节点的编号,v1∈[1,V],v2∈[1,V];
作为优选,步骤2所述构建预定义骨架图为:
继而可获得每个节点的邻接节点集,本发明将每个节点v的邻接节点分为节点自身子集、邻接节点中离重心的距离比该节点更近的点子集、邻接节点中离重心的距离比该节点更远的点子集;
所述节点自身子集为:
其中,1≤v≤V,1≤t≤T,1≤m≤M;
所述邻接节点中离重心的距离比该节点更近的点子集为:
其中,1≤v,v′,vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数;
所述邻接节点中离重心的距离比该节点更远的点子集为:
其中,1≤v,v′,vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数;
作为优选,步骤3所述将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合为:
步骤3所述其中广义图卷积网络中的每一个模块都由广义图生成模块和广义图卷积模块构成;
在广义图生成模块中,每一层提取的特征都为一个(N,Cnow,Tnow,V,M)的矩阵,其中Cnow为当前层的特征维数,Tnow为当前层的时间维数,N为该批数据的样本数,V为节点数,M为人数;
通过计算其相似度的方式来度量各节点之间的依赖关系,将每个节点的特征fk ,t,v,m由表征特征和结构特征/>组成,表征特征即为网络每一层学习到的特征,是一个高维向量;结构特征则是原始骨架图的邻接向量;
1≤k≤N,1≤t≤T,1≤v≤V,1≤m≤M.通过下式计算节点之间的相关性:
(a)
(b)
(c)
(d)
(e)
其中,每个节点的表征特征首先被两个可学习的线性变换/>编码,之后拉伸成一个向量/>其特征的维度为dA,/>为线性变换的参数;R为拉伸操作;结构特征/>通过同样的方式能得到向量其特征维度为dS。然后通过公式(c,d)分别计算其表征相似性和结构相似性/>最后利用公式(e)计算两节点间的相关性,其中α/β为两个可学习的参数也满足α+β=1,α,β∈[0,1]
最后,采用softmax函数得到归一化的广义图:
步骤3中的广义图卷积模块由一层图卷积和一层时序卷积构成;
对于图卷积层,运算方式如下式:
其中,fin为输入特征;Ak为预先定义好的图,即由步骤2中划分的产生的领接矩阵;Gk为前一步自适应生成的广义图;Wk为卷积权重;Kv为空间维的卷积核大小,即步骤2中划分的子集大小,设定为3;Mk也是一个可学习的权重矩阵;/>是Hadamard乘积;Hres是一个残差连接,当fin和fout的维数相等时Hres为一个恒等映射,否则为一个1×1的卷积从而使得fin和fout的特征维数相等。
在每一个广义图卷积之后,都会额外增加一个批量标准化层和激活函数层。批量标准化层用来加快网络的训练和收敛以及减少过拟合;激活函数层使用ReLU(RectifiedLinear Unit)用来增加网络的非线性。最后加上一个时序卷积层就构成了广义图卷积模块,也是本发明中主要的特征提取模块。
步骤3所述利用全连接层分类器对特征进行分类为:
步骤3中得到的广义图卷积用于提取人体骨架的高维特征ffinal,其特征维度为dfinal,最后通过一个分类器(全连接层)L(x)=Wx+b将高维特征映射到动作类别上,即Pred=L(f),其中
步骤3中所述根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器为:
根据标签利用交叉熵损失函数计算预测结果和标签之间的损失,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器。
构建预定义骨架图步骤4中所述的训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征为:
结合步骤3中训练后的广义图卷积网络、训练后的分类器,以及广义图卷积学习到的特征ffinal,来训练步骤4中的特征选择网络。具体地,固定广义图卷积网络和分类器的参数,并利用已训练好的广义图卷积网络进行特征提取得到特征向量ffinal,为一个大小为(N,C,T,V)的矩阵;对空间维度做全局平均池化后为一个大小为(N,C,T)的矩阵;对每一个样本,其特征为大小为(C,T)的矩阵,可表示为(f1,…fT),ft∈RC,计算全局特征
步骤4中所述的构建特征选择网络来自适应地选择时间维上对识别有用的特征为:
特征选择网络由LSTM和多层感知机(MLP)构成,并以此来对提取的特征序列建模,特征选择网络的输入为每个时刻的特征ft,全局特征fg以及上一时刻的选择结果at-1,其中a0设置为一个0向量;首先利用MLP对这些信息进行编码与聚合,即利用线性变换对特征和one-hot编码后的选择结果进行特征映射,然后连接起来作为聚合特征,如下式:
ft in=g0(concat(g1(concat(ft,fg)),g2(onehot(at-1))))
其中gk(x)=Wkx+bk,k∈{0,1,2}为全连接层,concat(·,·)为拼接函数,即将两个向量拼接在一起,onehot(·)为one-hot编码。将聚合特征作为LSTM的输入,利用LSTM进行时序特征的提取,最后通过MLP,即3层全连接层将特征映射到选择结果。以此来确定当前时刻的特征是否被用于最后的动作识别。
步骤4中所述的利用强化学习进行训练为:
本发明利用强化学习方法对步骤4中的特征选择网络π进行训练,其设置奖励机制,通过采样的方式来制定策略以最大化奖励的期望。由于识别结果在所有特征完成选择后才会产生,因此奖励函数设置如下:
其中,cp为预测的类别,c为真实类别。具体采用Actor-Cfitic的训练方式。其中每一时刻的状态st由[fg;f1,…ft;a0,…,at-1]构成,在网络中具体由每一时刻的输入[fg,ft,at-1]和上一时刻LSTM的输出表示。据此,构建状态值函数如下式:
其中状态值函数Vπ(st)表示在当前状态st下,以策略π最终能够获取的奖励期望,γ<1是衰减系数。而状态动作值函数Qπ(st,at),表示在当前状态st下选择动作at,后续以策略π最终能获取的奖励期望。本发明通过蒙特卡洛方法在当前策略下采样来估计状态值函数,即按策略π采样M次完整过程,计算获得的奖励衰减到当前时刻的均值,以此来估计估计当前状态采取选择at最终获得的奖励期望:
在训练步骤4中的特征选择网络时,本发明通过构造一个和选择网络相同的网络模型来估计值函数,通过梯度下降法最小化下式来更新值函数的网络参数:
其中ψ为值函数的参数。在当前值函数下,通过计算当前策略所获得的奖励以及值函数预测的期望奖励来判断当前选择是否比默认策略更好,并通过策略梯度下降方法对网络参数进行更新:
其中g即为当前的下降梯度,Qπ(st,at),Vπ(st)为上述估计出来的值,πφ(at|st)为在状态st下当前策略πφ选择动作at的概率。之后通过上述两种优化方式交替训练值函数Vπ和特征选择网络π,以得到能够自适应筛选出有效特征的特征选择网络。
本发明针对人体骨架动作识别任务,设计了一个广义图卷积网络,用于捕获任意结点间的相关依赖,以提取结点间更丰富的关联特征。同时设计了一种特征选择网络,用于对提取到的特征在时间维上进行筛选,以便筛选出更有效的特征,从而实现更精确的动作识别。
附图说明
图1:本发明的骨架图与子集划分方式。
图2:本发明广义图卷积结构图。
图3:本发明特征选择网络结构图。
图4:本发明整体流程图。
图5:本发明方法流程图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合图1至图5介绍本发明的具体实施方式为:
本发明设计了一个广义图卷积网络(Generalized Graph Convolution Network,GGCN)以及一个特征选择网络(Feature Selection Network),并以此为基础实现了一种基于深度学习和强化学习的人体骨架动作识别方法。
本发明测试于Ubuntu16.04操作系统,Python3.6.9程序语言,Pytorch1.0 Stable开源深度学习框架,并使用了一颗GTX 1080Ti的图形处理器和CUDA9.0(通用并行计算架构)加速神经网络计算。
步骤1:构建人体骨架序列矩阵,将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标,进一步对动作序列图像中人体关节点的三维坐标进行中心化处理、对齐处理;
将微软的Kinect相机获取的人体骨架序列构建为一个大小为(3,T,V,M)的矩阵;
步骤1所述构建人体骨架序列矩阵为:
构建大小为(T,V,M)的三维矩阵;
步骤1所述将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标
步骤1所述人体骨架序列矩阵中每个元素为动作序列图像中人体关节点的三维坐标,具体定义为:
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T=300为动作序列图像帧的数量,V=25为人体中关节点的数量,M=2为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标;
步骤1所述对动作序列图像中人体关节点的三维坐标进行中心化处理为:
各关节点的三维坐标减去骨架重心处节点的三维坐标,即:
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T为动作序列图像帧的数量,V为人体中关节点的数量,M为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标,vc为腰关节的关节点编号,vc∈[1,V];
步骤1所述对动作序列图像中人体关节点的三维坐标进行对齐处理为:
将骨架坐标旋转,使得左肩、右肩构成的连线与x轴平行,即
其中,表示第t帧动作序列图像中第m个人体的左肩关节点的三维坐标,/>表示第t帧动作序列图像中第m个人体的右肩关节点的三维坐标,v1为右肩节关节点的编号,v2为右肩关节点的编号,v1∈[1,V],v2∈[1,V];
步骤2:构建预定义骨架图;
如图1所示,本发明将人体骨架的关节点构成以关节点为节点,各关节之间的骨架为边的图,将骨架图中边的集合记为E;
继而可获得每个节点的邻接节点集,本发明将每个节点v的邻接节点分为节点自身子集、邻接节点中离重心的距离比该节点更近的点子集、邻接节点中离重心的距离比该节点更远的点子集;
所述节点自身子集为:
其中,1≤v≤V,1≤t≤T,1≤m≤M;
所述邻接节点中离重心的距离比该节点更近的点子集为:
其中,1≤v,v′,vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数;
所述邻接节点中离重心的距离比该节点更远的点子集为:
其中,1≤v,v′,vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数;
步骤3:将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合,利用全连接层分类器对特征进行分类,根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器;
步骤3所述将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合为:
步骤3所述其中广义图卷积网络中的每一个模块都由广义图生成模块和广义图卷积模块构成;
在广义图生成模块中,每一层提取的特征都为一个(N,Cnow,Tnow,V,M)的矩阵,其中Cnow为当前层的特征维数,Tnow为当前层的时间维数,N为该批数据的样本数,V为节点数,M为人数;
通过计算其相似度的方式来度量各节点之间的依赖关系,将每个节点的特征fk ,t,v,m由表征特征和结构特征/>组成,表征特征即为网络每一层学习到的特征,是一个高维向量;结构特征则是原始骨架图的邻接向量;
1≤k≤N,1≤t≤T,1≤v≤V,1≤m≤M.通过下式计算节点之间的相关性:
(a)
(b)
(c)
(d)
(e)
其中,每个节点的表征特征首先被两个可学习的线性变换/>编码,之后拉伸成一个向量/>其特征的维度为dA,/>为线性变换的参数;R为拉伸操作;结构特征/>通过同样的方式能得到向量其特征维度为dS。然后通过公式(c,d)分别计算其表征相似性和结构相似性/>最后利用公式(e)计算两节点间的相关性,其中α/β为两个可学习的参数也满足α+β=1,α,β∈[0,1]
最后,采用softmax函数得到归一化的广义图:
步骤3中的广义图卷积模块由一层图卷积和一层时序卷积构成;
对于图卷积层,运算方式如下式:
其中,fin为输入特征;Ak为预先定义好的图,即由步骤2中划分的产生的领接矩阵;Gk为前一步自适应生成的广义图;Wk为卷积权重;Kv为空间维的卷积核大小,即步骤2中划分的子集大小,设定为3;Mk也是一个可学习的权重矩阵;/>是Hadamard乘积;Hres是一个残差连接,当fin和fout的维数相等时Hres为一个恒等映射,否则为一个1×1的卷积从而使得fin和fout的特征维数相等。
在每一个广义图卷积之后,都会额外增加一个批量标准化层和激活函数层。批量标准化层用来加快网络的训练和收敛以及减少过拟合;激活函数层使用ReLU(RectifiedLinear Unit)用来增加网络的非线性。最后加上一个时序卷积层就构成了广义图卷积模块,也是本发明中主要的特征提取模块。
步骤3所述利用全连接层分类器对特征进行分类为:
步骤3中得到的广义图卷积用于提取人体骨架的高维特征ffinal,其特征维度为dfinal,最后通过一个分类器(全连接层)L(x)=Wx+b将高维特征映射到动作类别上,即Pred=L(f),其中
步骤3中所述根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器为:
根据标签利用交叉熵损失函数计算预测结果和标签之间的损失,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器。
步骤4:结合步骤3中训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征,构建特征选择网络来自适应地选择时间维上对识别有用的特征,并利用强化学习方法进行训练。
步骤4中所述的训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征为:
结合步骤3中训练后的广义图卷积网络、训练后的分类器,以及广义图卷积学习到的特征ffinal,来训练步骤4中的特征选择网络。具体地,固定广义图卷积网络和分类器的参数,并利用已训练好的广义图卷积网络进行特征提取得到特征向量ffinal,为一个大小为(N,C,T,V)的矩阵;对空间维度做全局平均池化后为一个大小为(N,C,T)的矩阵;对每一个样本,其特征为大小为(C,T)的矩阵,可表示为(f1,…fT),ft∈RC,计算全局特征
步骤4中所述的构建特征选择网络来自适应地选择时间维上对识别有用的特征为:
特征选择网络由LSTM和多层感知机(MLP)构成,并以此来对提取的特征序列建模,如图3所示。我们的特征选择网络的输入为每个时刻的特征ft,全局特征fg以及上一时刻的选择结果at-1,其中a0设置为一个0向量;首先利用MLP对这些信息进行编码与聚合,即利用线性变换对特征和one-hot编码后的选择结果进行特征映射,然后连接起来作为聚合特征,如下式:
ft in=g0(concat(g1(concat(ft,fg)),g2(onehot(at-1))))
其中gk(x)=Wkx+bk,k∈{0,1,2}为全连接层,concat(·,·)为拼接函数,即将两个向量拼接在一起,onehot(·)为one-hot编码。将聚合特征作为LSTM的输入,利用LSTM进行时序特征的提取,最后通过MLP,即3层全连接层将特征映射到选择结果。以此来确定当前时刻的特征是否被用于最后的动作识别。
步骤4中所述的利用强化学习进行训练为:
本发明利用强化学习方法对步骤4中的特征选择网络π进行训练,其设置奖励机制,通过采样的方式来制定策略以最大化奖励的期望。由于识别结果在所有特征完成选择后才会产生,因此奖励函数设置如下:
其中,cp为预测的类别,c为真实类别。具体采用Actor-Critic的训练方式。其中每一时刻的状态st由[fg;f1,…ft;a0,…,at-1]构成,在网络中具体由每一时刻的输入[fg,ft,at-1]和上一时刻LSTM的输出表示。据此,构建状态值函数如下式:
其中状态值函数Vπ(st)表示在当前状态st下,以策略π最终能够获取的奖励期望,γ<1是衰减系数。而状态动作值函数Qπ(st,at),表示在当前状态st下选择动作at,后续以策略π最终能获取的奖励期望。本发明通过蒙特卡洛方法在当前策略下采样来估计状态值函数,即按策略π采样M次完整过程,计算获得的奖励衰减到当前时刻的均值,以此来估计估计当前状态采取选择at最终获得的奖励期望:
在训练步骤4中的特征选择网络时,本发明通过构造一个和选择网络相同的网络模型来估计值函数,通过梯度下降法最小化下式来更新值函数的网络参数:
其中ψ为值函数的参数。在当前值函数下,通过计算当前策略所获得的奖励以及值函数预测的期望奖励来判断当前选择是否比默认策略更好,并通过策略梯度下降方法对网络参数进行更新:
其中g即为当前的下降梯度,Qπ(st,at),Vπ(st)为上述估计出来的值,πφ(at|st)为在状态st下当前策略πφ选择动作at的概率。之后通过上述两种优化方式交替训练值函数Vπ和特征选择网络π,以得到能够自适应筛选出有效特征的特征选择网络。
步骤5:如图4所示,将步骤1中得到的待识别的骨架数据作为网络输入,通过训练后的广义图卷积网络提取到大小为(N,C,T,V)的高维特征,经过空间平均池化后特征维度变为(N,C,T);进一步由训练后的特征选择网络对每个特征进行选择,输出一个大小为(N,T)的布尔矩阵,1代表该特征选来最终识别,0代表丢弃;通过平均池化对选择的特征进行特征聚合,送入训练后的分类器得到分类结果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属领域的技术人员可以对所描述的具体实施例替换成其他区域,做各种各样的修改或补充,或采用相似方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (3)

1.一种基于广义图卷积和强化学习的人体骨架动作识别方法,其特征在于,包括以下步骤:
步骤1:构建人体骨架序列矩阵,将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标,进一步对动作序列图像中人体关节点的三维坐标进行中心化处理、对齐处理;
步骤2:构建预定义骨架图;
步骤3:将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合,利用全连接层分类器对特征进行分类,根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器;
步骤4:结合步骤3中训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征,构建特征选择网络来自适应地选择时间维上对识别有用的特征,并利用强化学习方法进行训练;
步骤5:将步骤1中得到的待识别的骨架数据作为网络输入,通过训练后的广义图卷积网络提取到大小为(N,C,T,V)的高维特征,经过空间平均池化后特征维度变为(N,C,T);进一步由训练后的特征选择网络对每个特征进行选择,输出一个大小为(N,T)的布尔矩阵,1代表该特征选来最终识别,0代表丢弃;通过平均池化对选择的特征进行特征聚合,送入训练后的分类器得到分类结果;
步骤3所述将训练集送入到广义图卷积网络中进行特征提取,利用全局平均池化对特征进行聚合为:
步骤3所述其中广义图卷积网络中的每一个模块都由广义图生成模块和广义图卷积模块构成;
在广义图生成模块中,每一层提取的特征都为一个(N,Cnow,Tnow,V,M)的矩阵,其中Cnow为当前层的特征维数,Tnow为当前层的时间维数,N为该批数据的样本数,V为节点数,M为人数;
通过计算其相似度的方式来度量各节点之间的依赖关系,将每个节点的特征fk,t,v,m由表征特征和结构特征/>组成,表征特征即为网络每一层学习到的特征,是一个高维向量;结构特征则是原始骨架图的邻接向量;1≤k≤N,1≤t≤T,1≤v≤V,1≤m≤M.通过下式计算节点/>之间的相关性:
(a)
(b)
(c)
(d)
(e)
其中,每个节点的表征特征首先被两个可学习的线性变换/> 编码,之后拉伸成一个向量/>其特征的维度为dA,/>为线性变换的参数;R为拉伸操作;结构特征/>通过同样的方式能得到向量/>其特征维度为dS;然后通过公式(c,d)分别计算其表征相似性/>和结构相似性/>最后利用公式(e)计算两节点间的相关性,其中α/β为两个可学习的参数也满足α+β=1,α,β∈[0,1]
最后,采用softmax函数得到归一化的广义图:
步骤3中的广义图卷积模块由一层图卷积和一层时序卷积构成;
对于图卷积层,运算方式如下式:
其中,fin为输入特征;Ak为预先定义好的图,即由步骤2中划分的产生的领接矩阵;Gk为前一步自适应生成的广义图;Wk为卷积权重;Kv为空间维的卷积核大小,即步骤2中划分的子集大小,设定为3;Mk也是一个可学习的权重矩阵;/>是Hadamard乘积;Hres是一个残差连接,当fin和fout的维数相等时Hres为一个恒等映射,否则为一个1×1的卷积从而使得fin和fout的特征维数相等;
在每一个广义图卷积之后,都会额外增加一个批量标准化层和激活函数层;批量标准化层用来加快网络的训练和收敛以及减少过拟合;激活函数层使用ReLU用来增加网络的非线性;最后加上一个时序卷积层就构成了广义图卷积模块,也是的特征提取模块;
步骤3所述利用全连接层分类器对特征进行分类为:
步骤3中得到的广义图卷积用于提取人体骨架的高维特征ffinal,其特征维度为dfinal,最后通过一个分类器,全连接层,L(x)=Wx+b将高维特征映射到动作类别上,即Pred=L(f),其中
步骤3中所述根据标签计算损失函数,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器为:
根据标签利用交叉熵损失函数计算预测结果和标签之间的损失,通过反向传播梯度下降的方式更新网络参数,循环上述过程得到训练后的广义图卷积网络、训练后的分类器;
构建预定义骨架图步骤4中所述的训练后的广义图卷积网络、训练后的分类器,广义图卷积学习到的特征为:
结合步骤3中训练后的广义图卷积网络、训练后的分类器,以及广义图卷积学习到的特征ffinal,来训练步骤4中的特征选择网络;具体地,固定广义图卷积网络和分类器的参数,并利用已训练好的广义图卷积网络进行特征提取得到特征向量ffinal,为一个大小为(N,C,T,V)的矩阵;对空间维度做全局平均池化后为一个大小为(N,C,T)的矩阵;对每一个样本,其特征为大小为(C,T)的矩阵,可表示为(f1,…fT),ft∈RC,计算全局特征
步骤4中所述的构建特征选择网络来自适应地选择时间维上对识别有用的特征为:
特征选择网络由LSTM和多层感知机,MLP,构成,并以此来对提取的特征序列建模,特征选择网络的输入为每个时刻的特征ft,全局特征fg以及上一时刻的选择结果at-1,其中a0设置为一个0向量;首先利用MLP对这些信息进行编码与聚合,即利用线性变换对特征和one-hot编码后的选择结果进行特征映射,然后连接起来作为聚合特征,如下式:
ft in=g0(concat(g1(concat(ft,fg)),g2(onehot(at-1))))
其中gk(x)=Wkx+bk,k∈{0,1,2}为全连接层,concat(·,·)为拼接函数,即将两个向量拼接在一起,onehot(·)为one-hot编码;将聚合特征作为LSTM的输入,利用LSTM进行时序特征的提取,最后通过MLP,即3层全连接层将特征映射到选择结果;以此来确定当前时刻的特征是否被用于最后的动作识别;
步骤4中所述的利用强化学习进行训练为:
利用强化学习方法对步骤4中的特征选择网络π进行训练,其设置奖励机制,通过采样的方式来制定策略以最大化奖励的期望;由于识别结果在所有特征完成选择后才会产生,因此奖励函数设置如下:
其中,cp为预测的类别,c为真实类别;具体采用Actor-Critic的训练方式;其中每一时刻的状态st由[fg;f1,…ft;a0,…,at-1]构成,在网络中具体由每一时刻的输入[fg,ft,at-1]和上一时刻LSTM的输出表示;据此,构建状态值函数如下式:
其中状态值函数Vπ(st)表示在当前状态st下,以策略π最终能够获取的奖励期望,γ<1是衰减系数;而状态动作值函数Qπ(st,at),表示在当前状态st下选择动作at,后续以策略π最终能获取的奖励期望;通过蒙特卡洛方法在当前策略下采样来估计状态值函数,即按策略π采样M次完整过程,计算获得的奖励衰减到当前时刻的均值,以此来估计当前状态采取选择at最终获得的奖励期望:
在训练步骤4中的特征选择网络时,通过构造一个和选择网络相同的网络模型来估计值函数,通过梯度下降法最小化下式来更新值函数的网络参数:
其中ψ为值函数的参数;在当前值函数下,通过计算当前策略所获得的奖励以及值函数预测的期望奖励来判断当前选择是否比默认策略更好,并通过策略梯度下降方法对网络参数进行更新:
其中g即为当前的下降梯度,Qπ(st,at),Vπ(st)为上述估计出来的值,πφ(at|st)为在状态st下当前策略πφ选择动作at的概率;之后通过上述两种优化方式交替训练值函数Vπ和特征选择网络π,以得到能够自适应筛选出有效特征的特征选择网络。
2.根据权利要求1所述的基于广义图卷积和强化学习的人体骨架动作识别方法,其特征在于:
步骤1所述构建人体骨架序列矩阵为:
构建大小为(T,V,M)的三维矩阵;
步骤1所述将人体骨架序列矩阵中每个元素定义为动作序列图像中人体关节点的三维坐标
步骤1所述人体骨架序列矩阵中每个元素为动作序列图像中人体关节点的三维坐标,具体定义为:
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T为动作序列图像帧的数量,V为人体中关节点的数量,M为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标;
步骤1所述对动作序列图像中人体关节点的三维坐标进行中心化处理为:
各关节点的三维坐标减去骨架重心处节点的三维坐标,即:
datat,v,m=datat,v,m-datat,vc,m
datat,v,m,t∈[1,T],v∈[1,V],m∈[1,M]
其中,T为动作序列图像帧的数量,V为人体中关节点的数量,M为人的数量,datat,v,m∈R3为三维特征向量,表示第t帧动作序列图像中第m个人体的第v个关节点的三维坐标,vc为腰关节的关节点编号,vc∈[1,V];
步骤1所述对动作序列图像中人体关节点的三维坐标进行对齐处理为:
将骨架坐标旋转,使得左肩、右肩构成的连线与x轴平行,即
其中,表示第t帧动作序列图像中第m个人体的左肩关节点的三维坐标,/>表示第t帧动作序列图像中第m个人体的右肩关节点的三维坐标,v1为右肩节关节点的编号,v2为右肩关节点的编号,v1∈[1,V],v2∈[1,V]。
3.根据权利要求1所述的基于广义图卷积和强化学习的人体骨架动作识别方法,其特征在于:
步骤2所述构建预定义骨架图为:
继而可获得每个节点的邻接节点集,将每个节点v的邻接节点分为节点自身子集、邻接节点中离重心的距离比该节点更近的点子集、邻接节点中离重心的距离比该节点更远的点子集;
所述节点自身子集为:
其中,1≤v≤V,1≤t≤T,1≤m≤M;
所述邻接节点中离重心的距离比该节点更近的点子集为:
其中,1≤v,v',vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数;
所述邻接节点中离重心的距离比该节点更远的点子集为:
其中,1≤v,v',vc≤V,1≤t≤T,1≤m≤M,vc为人体重心处的结点,E为相点构成的边的集合,为欧氏距离函数。
CN202011526101.4A 2020-12-22 2020-12-22 一种基于广义图卷积和强化学习的人体骨架动作识别方法 Active CN112597883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011526101.4A CN112597883B (zh) 2020-12-22 2020-12-22 一种基于广义图卷积和强化学习的人体骨架动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526101.4A CN112597883B (zh) 2020-12-22 2020-12-22 一种基于广义图卷积和强化学习的人体骨架动作识别方法

Publications (2)

Publication Number Publication Date
CN112597883A CN112597883A (zh) 2021-04-02
CN112597883B true CN112597883B (zh) 2024-02-09

Family

ID=75199939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526101.4A Active CN112597883B (zh) 2020-12-22 2020-12-22 一种基于广义图卷积和强化学习的人体骨架动作识别方法

Country Status (1)

Country Link
CN (1) CN112597883B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158861B (zh) * 2021-04-12 2024-02-13 杭州电子科技大学 一种基于原型对比学习的运动分析方法
CN113128425A (zh) * 2021-04-23 2021-07-16 上海对外经贸大学 基于骨架序列的人类动作识别的语义自适应图网络方法
CN113205043B (zh) * 2021-04-30 2022-06-07 武汉大学 一种基于强化学习的视频序列二维姿态估计方法
CN113192559B (zh) * 2021-05-08 2023-09-26 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113486706B (zh) * 2021-05-21 2022-11-15 天津大学 一种基于人体姿态估计和历史信息的在线动作识别方法
CN113313039B (zh) * 2021-05-31 2023-07-25 西安电子科技大学 基于动作知识库与集成学习的视频行为识别方法及系统
CN113283400B (zh) * 2021-07-19 2021-11-12 成都考拉悠然科技有限公司 一种基于选择性超图卷积网络的骨架动作识别方法
CN113762082B (zh) * 2021-08-09 2024-02-27 同济大学 基于循环图卷积自动编码器的无监督骨架动作识别方法
CN113435430B (zh) * 2021-08-27 2021-11-09 中国科学院自动化研究所 基于自适应时空纠缠的视频行为识别方法、系统、设备
CN113963372B (zh) * 2021-09-22 2024-08-06 高新兴科技集团股份有限公司 一种行人再识别方法和装置
CN113780470B (zh) * 2021-09-28 2024-03-08 西安聚全网络科技有限公司 一种基于自适应多通道交叉图卷积网络的图分类方法
CN114092963B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 关键点检测及模型训练方法、装置、设备和存储介质
CN113887516B (zh) * 2021-10-29 2024-05-24 北京邮电大学 用于人体动作识别的特征提取系统和方法
CN114137369A (zh) * 2021-11-19 2022-03-04 国网山东省电力公司电力科学研究院 一种电力设备局部放电模式识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质
CN111797806A (zh) * 2020-07-17 2020-10-20 浙江工业大学 一种基于2d骨架的三维图卷积行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948475A (zh) * 2019-03-06 2019-06-28 武汉大学 一种基于骨架特征和深度学习的人体动作识别方法
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质
CN110222611A (zh) * 2019-05-27 2019-09-10 中国科学院自动化研究所 基于图卷积网络的人体骨架行为识别方法、系统、装置
CN111797806A (zh) * 2020-07-17 2020-10-20 浙江工业大学 一种基于2d骨架的三维图卷积行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用骨架模型和格拉斯曼流形的3D人体动作识别;吴珍珍;邓辉舫;计算机工程与应用;第52卷(第20期);214-220 *

Also Published As

Publication number Publication date
CN112597883A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
CN110070107B (zh) 物体识别方法及装置
CN111985343B (zh) 一种行为识别深度网络模型的构建方法及行为识别方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN113378600B (zh) 一种行为识别方法及系统
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110309732A (zh) 基于骨架视频的行为识别方法
WO2021073311A1 (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN110599443A (zh) 一种使用双向长短期记忆网络的视觉显著性检测方法
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN113807183A (zh) 模型训练方法及相关设备
CN114358250A (zh) 数据处理方法、装置、计算机设备、介质及程序产品
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN114708649A (zh) 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN115346207A (zh) 一种基于实例结构相关性的二维图像中三维目标检测方法
CN115880720A (zh) 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法
CN117373116A (zh) 基于图神经网络的轻量级特征保留的人体动作检测方法
Ge et al. An improved U-net architecture for image dehazing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant