CN113673560A - 一种基于多流三维自适应图卷积的人体行为识别方法 - Google Patents

一种基于多流三维自适应图卷积的人体行为识别方法 Download PDF

Info

Publication number
CN113673560A
CN113673560A CN202110799095.8A CN202110799095A CN113673560A CN 113673560 A CN113673560 A CN 113673560A CN 202110799095 A CN202110799095 A CN 202110799095A CN 113673560 A CN113673560 A CN 113673560A
Authority
CN
China
Prior art keywords
adaptive
graph convolution
key point
skeleton
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110799095.8A
Other languages
English (en)
Other versions
CN113673560B (zh
Inventor
田联房
余陆斌
杜启亮
向照夷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202110799095.8A priority Critical patent/CN113673560B/zh
Publication of CN113673560A publication Critical patent/CN113673560A/zh
Application granted granted Critical
Publication of CN113673560B publication Critical patent/CN113673560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多流三维自适应图卷积的人体行为识别方法,包括:1)采集包含人体的视频,构建训练集;2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;3)构建自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM、三维时空域图卷积模块GCN‑3d;4)构建自适应图卷积层;5)利用自适应图卷积层构建自适应图卷积网络;6)利用自适应图卷积网络构建多流三维自适应图卷积网络;7)利用训练集训练多流三维自适应图卷积网络;8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。通过本发明可有效提升人体行为种类识别的准确度,为各种计算机视觉处理应用打下了良好的基础。

Description

一种基于多流三维自适应图卷积的人体行为识别方法
技术领域
本发明涉及图像模式识别和深度神经网络的技术领域,尤其是指一种基于多流三维自适应图卷积的人体行为识别方法。
背景技术
目前,视频中的人体行为识别是目前计算机视觉领域中最活跃的研究主题之一,它在智能视频监控、人机交互、基于内容的视频检索、虚拟现实等方面具有广泛的应用前景和潜在经济价值。
传统的行为识别算法多用RGB视频作为输入,但当RGB视频中背景动态干扰较多,光照不稳定,噪声严重时,传统行为识别算法的效果会受到影响。近年来,与传统的使用RGB视频进行识别的方法相比,基于骨架的行为识别因其对动态环境和复杂背景的适应性强而越来越受到关注。
提取视频中人体骨架关节为顶点,其在人体中的自然连接为边作为行为识别算法输入能大大降低视频中的环境干扰对算法识别率的影响。现有的基于骨架的行为识别算法输入的骨架连接是根据人体自然连接定义的,没有充分利用骨架关节之间的信息,也没有充分利用关节的前后帧信息,同时对于时间域和空间域信息的利用较为独立,没有充分将关节之间的时空信息有效结合,因此急需提出一种自适应调节骨架连接并且充分融合空间时间信息的自适应图卷积识别方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多流三维自适应图卷积的人体行为识别方法,该方法通过搜集大量视频中人体行为的骨架数据,并基于自适应图卷积网络技术,充分结合了原本孤立的骨架时空域相关性信息,实现了有效识别视频中人体行为的目的。
为实现上述目的,本发明所提供的技术方案为:一种基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
1)采集包含人体的视频,标注视频中人体的骨架信息和行为类别,构建训练集;
2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM;构建三维时空域图卷积模块GCN-3d;
4)利用自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构建自适应图卷积层;
5)利用自适应图卷积层构建自适应图卷积网络;
6)利用自适应图卷积网络构建多流三维自适应图卷积网络;
7)利用训练集训练多流三维自适应图卷积网络;
8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。
进一步,在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域;
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集
Figure BDA0003163947430000031
和对应的训练集标签
Figure BDA0003163947430000032
其中,
Figure BDA0003163947430000033
表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集
Figure BDA0003163947430000034
构建规则如下:XB的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为
Figure BDA0003163947430000035
其中
Figure BDA0003163947430000036
为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
Figure BDA0003163947430000037
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集
Figure BDA0003163947430000038
将XB扩展得到分区骨架关键点骨骼训练集
Figure BDA0003163947430000039
将XJM扩展得到分区骨架关键点关节动态训练集
Figure BDA00031639474300000310
将XBM扩展得到分区骨架关键点骨骼动态训练集
Figure BDA00031639474300000311
Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合即近心点为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合即远心点为子集合2;分区策略公式如下:
Figure BDA0003163947430000041
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
进一步,在步骤2)中,自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X的第二维得到空间方差矩阵Vars∈Kv×N,其中,输入X为分区骨架关键点关节训练集
Figure BDA0003163947430000042
分区骨架关键点骨骼训练集
Figure BDA0003163947430000043
分区骨架关键点关节动态训练集
Figure BDA0003163947430000044
分区骨架关键点骨骼动态训练集
Figure BDA0003163947430000045
当中的一种,Kv是子集总数,N为视频中不同行为的人体总数,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,V为人体骨架关键点个数,其中Δs第j个元素为
Figure BDA0003163947430000046
其中C为通道数,
Figure BDA0003163947430000047
表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为
Figure BDA0003163947430000048
其中
Figure BDA0003163947430000049
为Δs第m个元素,
Figure BDA00031639474300000410
为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
自适应时间域注意力矩阵TAM的计算方式如下:首先计算输入X的第三维得到空间方差矩阵Vart∈Kv×T,T为行为经历的视频帧数,根据时间方差矩阵Vart计算时间域变化幅度矩阵Δt∈T×1,其中Δt第j个元素为
Figure BDA0003163947430000051
其中
Figure BDA0003163947430000052
表示Vart中的第i行第j列元素,最终计算自适应时间域注意力矩阵TAM,其中第m行第n列的元素为
Figure BDA0003163947430000053
Figure BDA0003163947430000054
为Δt中的第m个元素。
进一步,在步骤3)中,自适应空间域注意力图卷积模块ASAGCM构建过程为:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
Figure BDA0003163947430000055
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;
Figure BDA0003163947430000056
是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
自适应时间域注意力图卷积模块ATAGCM的构建过程为:利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小;
三维时空域图卷积模块GCN-3d构建过程如下:构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
式中,Aτ由A按行和列扩展τ次得到,
Figure BDA0003163947430000061
Figure BDA0003163947430000062
Wτ为时空域图卷积权重,其中,
Figure BDA0003163947430000063
表示实数域,V为人体骨架关键点个数。
进一步,在步骤4)中,输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成;自适应图卷积层具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
进一步,在步骤5)中,利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
进一步,在步骤6)中,利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
进一步,在步骤7)中,将分区骨架关键点关节训练集
Figure BDA0003163947430000071
分区骨架关键点骨骼训练集
Figure BDA0003163947430000072
分区骨架关键点关节动态训练集
Figure BDA0003163947430000073
分区骨架关键点骨骼动态训练集
Figure BDA0003163947430000074
和训练集标签Y输入多流三维自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的多流三维自适应图卷积网络。
进一步,在步骤8)中,利用训练好的多流三维自适应图卷积网络进行人体行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,再将数据集输入到训练好的多流三维自适应图卷积网络即可得到行为预测结果。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于图卷积网络识别方法不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练,而本发明构建的自适应空间域注意力图卷积模块ASAGCM和自适应时间域注意力图卷积模块ATAGCM对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强,针对时域内存在的大量干扰信息,构建自适应时间域注意力矩阵TAM进行有效的抑制,同时构建自适应空间域注意力矩阵SAM进一步提高识别的性能。同时,本发明构建的三维时空域图卷积模块GCN-3d充分利用并融合了孤立的骨架关键点时间域信息和空间域信息,进一步提高识别的性能。总之,本发明在多个大型骨架数据集上进行实验,与常用方法进行比较,实时性和识别准确率上均有明显提高,值得推广。
附图说明
图1为人体骨架关键点示意图。
图2为分区策略示意图。
图3为自适应空间域注意力图卷积模块ASAGCM架构图。
图4为自适应图卷积层架构图。
图5为自适应图卷积网络架构图。
图6为多流三维自适应图卷积网络架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至图6所示,本实施例所提供的基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
1)利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。本实施例中选用的摄像头分辨率为1080p。
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,人体骨架关键点序号如图1所示;坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积。行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集
Figure BDA0003163947430000091
和对应的训练集标签
Figure BDA0003163947430000092
其中,
Figure BDA0003163947430000093
表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;本实施例中N=10000,T=300,V=14。
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集
Figure BDA0003163947430000094
构建规则如下:XB的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为
Figure BDA0003163947430000095
其中
Figure BDA0003163947430000096
为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
Figure BDA0003163947430000097
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集
Figure BDA0003163947430000098
将XB扩展得到分区骨架关键点骨骼训练集
Figure BDA0003163947430000099
将XJM扩展得到分区骨架关键点关节动态训练集
Figure BDA00031639474300000910
将XBM扩展得到分区骨架关键点骨骼动态训练集
Figure BDA00031639474300000911
在本实施例中Kv=3。
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2;分区策略公式如下:
Figure BDA0003163947430000101
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
一个分区策略例子示意图如图2所示,图中4号节点为根节点,灰色实线包围区域为与4号节点直接相连的邻域,虚线表示各个节点与重心的距离,根据各个节点与重心的距离划分,4号节点为子集0,3号节点为近心点子集1,5号节点为远心点子集2。
2)构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM。自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X(根据后续需要为
Figure BDA0003163947430000102
的其中一种)的第二维得到空间方差矩阵Vars∈KV×N,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,其中Δs第j个元素为
Figure BDA0003163947430000103
其中C为通道数,
Figure BDA0003163947430000104
表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为
Figure BDA0003163947430000105
其中
Figure BDA0003163947430000106
为Δs第m个元素,
Figure BDA0003163947430000107
为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
自适应时间域注意力矩阵TAM的计算方式如下:首先计算输入X(根据后续需要为
Figure BDA0003163947430000111
的其中一种)的第三维得到空间方差矩阵Vart∈KV×T,根据时间方差矩阵Vart计算时间域变化幅度矩阵Δt∈T×1,其中Δt第j个元素为
Figure BDA0003163947430000112
其中
Figure BDA0003163947430000113
表示Vart中的第i行第j列元素,最终计算自适应时间域注意力矩阵TAM,其中第m行第n列的元素为
Figure BDA0003163947430000114
Figure BDA0003163947430000115
为Δt中的第m个元素。
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,具体步骤如下:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
Figure BDA0003163947430000116
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1。
Figure BDA0003163947430000117
是空间域1×1卷积的权重,k是子集序号,Kv是子集总数。
自适应空间域注意力图卷积模块ASAGCM架构如图3所示。在本实施例中Ak为14×14矩阵,
Figure BDA0003163947430000118
Figure BDA0003163947430000119
所有元素初始化为0,Cin、Cout为输入特征图通道数和输出特征图通道数,α初始化为1。
利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM,具体步骤如下:
利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,fin、fout表示输入特征图和输出特征图,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小。
在本实施例中
Figure BDA0003163947430000121
Wt所有元素初始化为0,Cin,Cout为输入特征图通道数和输出特征图通道数,Kt=9,β初始化为1。
构建三维时空域图卷积模块GCN-3d,具体步骤如下:
构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
式中,Aτ由A按行和列扩展τ次得到,
Figure BDA0003163947430000122
其中
Figure BDA0003163947430000123
表示实数域,V为人体骨架关键点个数,
Figure BDA0003163947430000124
Wτ为时空域图卷积权重。
在本实施例中
Figure BDA0003163947430000125
Wt所有元素初始化为0,τ=3,Aτ为42×42矩阵,Cin、Cout为输入特征图通道数和输出特征图通道数。
4)输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成,具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
自适应图卷积层架构如图4所示。在本实施例中,Dropout层中丢弃率为0.5。
5)利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
自适应图卷积网络架构如图5所示。在本实施例中,L1的输入通道为3,输出通道为64,步长为1,L2和L3的输入通道为64,输出通道为64,步长为1。L4的输入通道为64,输出通道为128,步长为2,L5和L6的输入通道为128,输出通道为128,步长为1。L7的输入通道为128,输出通道为256,步长为2,L8和L9的输入通道为256,输出通道为256,步长为1。
6)利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
多流三维自适应图卷积网络架构如图6所示。在本实施例中,wJ=wB=wJM=wBM=0.25。
7)训练多流三维自适应图卷积网络,具体操作是:将分区骨架关键点关节训练集
Figure BDA0003163947430000141
分区骨架关键点骨骼训练集
Figure BDA0003163947430000142
分区骨架关键点关节动态训练集
Figure BDA0003163947430000143
分区骨架关键点骨骼动态训练集
Figure BDA0003163947430000144
和训练集标签Y输入多流三维自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的多流三维自适应图卷积网络。
在本实施例中训练参数如下:迭代次数Z=60,学习率为0.1,当迭代次数到30次时学习率除以10,当迭代次数到40次时学习率再除以10,权重衰减为0.0001,梯度下降策略为Nesterov算法。
8)利用训练好的多流三维自适应图卷积网络进行行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,方法如同步骤2),再将数据集输入到训练好的多流三维自适应图卷积网络得到行为预测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于,包括以下步骤:
1)采集包含人体的视频,标注视频中人体的骨架信息和行为类别,构建训练集;
2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM;构建三维时空域图卷积模块GCN-3d;
4)利用自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构建自适应图卷积层;
5)利用自适应图卷积层构建自适应图卷积网络;
6)利用自适应图卷积网络构建多流三维自适应图卷积网络;
7)利用训练集训练多流三维自适应图卷积网络;
8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。
2.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域;
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集
Figure FDA0003163947420000021
和对应的训练集标签
Figure FDA0003163947420000022
其中,
Figure FDA0003163947420000023
表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集
Figure FDA0003163947420000024
构建规则如下:XB的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为
Figure FDA0003163947420000025
其中
Figure FDA0003163947420000026
为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
Figure FDA0003163947420000027
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集
Figure FDA0003163947420000028
将XB扩展得到分区骨架关键点骨骼训练集
Figure FDA0003163947420000029
将XJM扩展得到分区骨架关键点关节动态训练集
Figure FDA00031639474200000210
将XBM扩展得到分区骨架关键点骨骼动态训练集
Figure FDA0003163947420000031
Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合即近心点为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合即远心点为子集合2;分区策略公式如下:
Figure FDA0003163947420000032
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
3.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤2)中,自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X的第二维得到空间方差矩阵Vars∈Kv×N,其中,输入X为分区骨架关键点关节训练集
Figure FDA0003163947420000033
分区骨架关键点骨骼训练集
Figure FDA0003163947420000034
分区骨架关键点关节动态训练集
Figure FDA0003163947420000035
分区骨架关键点骨骼动态训练集
Figure FDA0003163947420000036
当中的一种,Kv是子集总数,N为视频中不同行为的人体总数,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,V为人体骨架关键点个数,其中Δs第j个元素为
Figure FDA0003163947420000037
其中C为通道数,
Figure FDA0003163947420000038
表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为
Figure FDA0003163947420000039
其中
Figure FDA00031639474200000310
为Δs第m个元素,
Figure FDA00031639474200000311
为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
自适应时间域注意力矩阵TAM的计算方式如下:首先计算输入X的第三维得到空间方差矩阵Vart∈Kv×T,T为行为经历的视频帧数,根据时间方差矩阵Vart计算时间域变化幅度矩阵Δt∈T×1,其中Δt第j个元素为
Figure FDA0003163947420000041
其中
Figure FDA0003163947420000042
表示Vart中的第i行第j列元素,最终计算自适应时间域注意力矩阵TAM,其中第m行第n列的元素为
Figure FDA0003163947420000043
Figure FDA0003163947420000044
为Δt中的第m个元素。
4.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤3)中,自适应空间域注意力图卷积模块ASAGCM构建过程为:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
Figure FDA0003163947420000045
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;
Figure FDA0003163947420000046
是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
自适应时间域注意力图卷积模块ATAGCM的构建过程为:利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小;
三维时空域图卷积模块GCN-3d构建过程如下:构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
式中,Aτ由A按行和列扩展τ次得到,
Figure FDA0003163947420000051
其中,
Figure FDA0003163947420000052
表示实数域,V为人体骨架关键点个数,
Figure FDA0003163947420000053
Wτ为时空域图卷积权重。
5.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤4)中,输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成;自适应图卷积层具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
6.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤5)中,利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
7.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤6)中,利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
8.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤7)中,将分区骨架关键点关节训练集
Figure FDA0003163947420000061
分区骨架关键点骨骼训练集
Figure FDA0003163947420000062
分区骨架关键点关节动态训练集
Figure FDA0003163947420000063
分区骨架关键点骨骼动态训练集
Figure FDA0003163947420000064
和训练集标签Y输入多流三维自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的多流三维自适应图卷积网络。
9.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤8)中,利用训练好的多流三维自适应图卷积网络进行人体行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,再将数据集输入到训练好的多流三维自适应图卷积网络即可得到行为预测结果。
CN202110799095.8A 2021-07-15 2021-07-15 一种基于多流三维自适应图卷积的人体行为识别方法 Active CN113673560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110799095.8A CN113673560B (zh) 2021-07-15 2021-07-15 一种基于多流三维自适应图卷积的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110799095.8A CN113673560B (zh) 2021-07-15 2021-07-15 一种基于多流三维自适应图卷积的人体行为识别方法

Publications (2)

Publication Number Publication Date
CN113673560A true CN113673560A (zh) 2021-11-19
CN113673560B CN113673560B (zh) 2023-06-09

Family

ID=78539341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110799095.8A Active CN113673560B (zh) 2021-07-15 2021-07-15 一种基于多流三维自适应图卷积的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN113673560B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN115294228A (zh) * 2022-07-29 2022-11-04 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN112381004A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN112381004A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余陆斌 等: "基于自适应双分数阶光流模型的运动目标分割", 《华南理工大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN115294228A (zh) * 2022-07-29 2022-11-04 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置
CN115294228B (zh) * 2022-07-29 2023-07-11 北京邮电大学 基于模态引导的多图人体姿态生成方法及装置

Also Published As

Publication number Publication date
CN113673560B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN112381004B (zh) 一种基于骨架的双流自适应图卷积网络行为识别方法
AU2018236433B2 (en) Room layout estimation methods and techniques
CN108241849B (zh) 基于视频的人体交互动作识别方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
Xie et al. Attention adjacency matrix based graph convolutional networks for skeleton-based action recognition
CN107239733A (zh) 连续手写字识别方法及系统
CN113673560B (zh) 一种基于多流三维自适应图卷积的人体行为识别方法
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
CN111401207B (zh) 基于mars深度特征提取与增强的人体动作识别方法
CN109902601A (zh) 一种结合卷积网络和递归网络的视频目标检测方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN111582091A (zh) 基于多分支卷积神经网络的行人识别方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN113420289B (zh) 面向深度学习模型的隐蔽中毒攻击防御方法及其装置
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN111401209B (zh) 一种基于深度学习的动作识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法
CN113132737A (zh) 基于泰勒解耦和记忆单元校正的视频预测方法
CN113902971A (zh) 基于多尺度融合轻量化深度学习卷积网络的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant