CN113673560B - 一种基于多流三维自适应图卷积的人体行为识别方法 - Google Patents
一种基于多流三维自适应图卷积的人体行为识别方法 Download PDFInfo
- Publication number
- CN113673560B CN113673560B CN202110799095.8A CN202110799095A CN113673560B CN 113673560 B CN113673560 B CN 113673560B CN 202110799095 A CN202110799095 A CN 202110799095A CN 113673560 B CN113673560 B CN 113673560B
- Authority
- CN
- China
- Prior art keywords
- adaptive
- skeleton
- self
- key point
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多流三维自适应图卷积的人体行为识别方法,包括:1)采集包含人体的视频,构建训练集;2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;3)构建自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM、三维时空域图卷积模块GCN‑3d;4)构建自适应图卷积层;5)利用自适应图卷积层构建自适应图卷积网络;6)利用自适应图卷积网络构建多流三维自适应图卷积网络;7)利用训练集训练多流三维自适应图卷积网络;8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。通过本发明可有效提升人体行为种类识别的准确度,为各种计算机视觉处理应用打下了良好的基础。
Description
技术领域
本发明涉及图像模式识别和深度神经网络的技术领域,尤其是指一种基于多流三维自适应图卷积的人体行为识别方法。
背景技术
目前,视频中的人体行为识别是目前计算机视觉领域中最活跃的研究主题之一,它在智能视频监控、人机交互、基于内容的视频检索、虚拟现实等方面具有广泛的应用前景和潜在经济价值。
传统的行为识别算法多用RGB视频作为输入,但当RGB视频中背景动态干扰较多,光照不稳定,噪声严重时,传统行为识别算法的效果会受到影响。近年来,与传统的使用RGB视频进行识别的方法相比,基于骨架的行为识别因其对动态环境和复杂背景的适应性强而越来越受到关注。
提取视频中人体骨架关节为顶点,其在人体中的自然连接为边作为行为识别算法输入能大大降低视频中的环境干扰对算法识别率的影响。现有的基于骨架的行为识别算法输入的骨架连接是根据人体自然连接定义的,没有充分利用骨架关节之间的信息,也没有充分利用关节的前后帧信息,同时对于时间域和空间域信息的利用较为独立,没有充分将关节之间的时空信息有效结合,因此急需提出一种自适应调节骨架连接并且充分融合空间时间信息的自适应图卷积识别方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多流三维自适应图卷积的人体行为识别方法,该方法通过搜集大量视频中人体行为的骨架数据,并基于自适应图卷积网络技术,充分结合了原本孤立的骨架时空域相关性信息,实现了有效识别视频中人体行为的目的。
为实现上述目的,本发明所提供的技术方案为:一种基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
1)采集包含人体的视频,标注视频中人体的骨架信息和行为类别,构建训练集;
2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM;构建三维时空域图卷积模块GCN-3d;
4)利用自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构建自适应图卷积层;
5)利用自适应图卷积层构建自适应图卷积网络;
6)利用自适应图卷积网络构建多流三维自适应图卷积网络;
7)利用训练集训练多流三维自适应图卷积网络;
8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。
进一步,在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域;
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签/>其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1;
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集将XB扩展得到分区骨架关键点骨骼训练集/>将XJM扩展得到分区骨架关键点关节动态训练集/>将XBM扩展得到分区骨架关键点骨骼动态训练集/>Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合即近心点为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合即远心点为子集合2;分区策略公式如下:
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
进一步,在步骤2)中,自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X的第二维得到空间方差矩阵Vars∈Kv×N,其中,输入X为分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>分区骨架关键点关节动态训练集/>分区骨架关键点骨骼动态训练集/>当中的一种,Kv是子集总数,N为视频中不同行为的人体总数,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,V为人体骨架关键点个数,其中Δs第j个元素为/>其中C为通道数,/>表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为其中/>为Δs第m个元素,/>为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
自适应时间域注意力矩阵TAM的计算方式如下:首先计算输入X的第三维得到空间方差矩阵Vart∈Kv×T,T为行为经历的视频帧数,根据时间方差矩阵Vart计算时间域变化幅度矩阵Δt∈T×1,其中Δt第j个元素为其中/>表示Vart中的第i行第j列元素,最终计算自适应时间域注意力矩阵TAM,其中第m行第n列的元素为 为Δt中的第m个元素。
进一步,在步骤3)中,自适应空间域注意力图卷积模块ASAGCM构建过程为:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
自适应时间域注意力图卷积模块ATAGCM的构建过程为:利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小;
三维时空域图卷积模块GCN-3d构建过程如下:构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
进一步,在步骤4)中,输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成;自适应图卷积层具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
进一步,在步骤5)中,利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
进一步,在步骤6)中,利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
进一步,在步骤7)中,将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>分区骨架关键点关节动态训练集/>分区骨架关键点骨骼动态训练集/>和训练集标签Y输入多流三维自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的多流三维自适应图卷积网络。
进一步,在步骤8)中,利用训练好的多流三维自适应图卷积网络进行人体行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,再将数据集输入到训练好的多流三维自适应图卷积网络即可得到行为预测结果。
本发明与现有技术相比,具有如下优点与有益效果:
现有的基于图卷积网络识别方法不能有效地对时空图中的空间信息和运动信息进行融合实现端到端的训练,而本发明构建的自适应空间域注意力图卷积模块ASAGCM和自适应时间域注意力图卷积模块ATAGCM对运动姿态和骨架关节点在时空域上进行特征融合并自适应特征增强,针对时域内存在的大量干扰信息,构建自适应时间域注意力矩阵TAM进行有效的抑制,同时构建自适应空间域注意力矩阵SAM进一步提高识别的性能。同时,本发明构建的三维时空域图卷积模块GCN-3d充分利用并融合了孤立的骨架关键点时间域信息和空间域信息,进一步提高识别的性能。总之,本发明在多个大型骨架数据集上进行实验,与常用方法进行比较,实时性和识别准确率上均有明显提高,值得推广。
附图说明
图1为人体骨架关键点示意图。
图2为分区策略示意图。
图3为自适应空间域注意力图卷积模块ASAGCM架构图。
图4为自适应图卷积层架构图。
图5为自适应图卷积网络架构图。
图6为多流三维自适应图卷积网络架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至图6所示,本实施例所提供的基于多流三维自适应图卷积的人体行为识别方法,包括以下步骤:
1)利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域。本实施例中选用的摄像头分辨率为1080p。
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,人体骨架关键点序号如图1所示;坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积。行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;本实施例中N=10000,T=300,V=14。
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1;
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集将XB扩展得到分区骨架关键点骨骼训练集/>将XJM扩展得到分区骨架关键点关节动态训练集/>将XBM扩展得到分区骨架关键点骨骼动态训练集在本实施例中Kv=3。
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点(近心点)集合为子集合1,分区范围内比根节点更远离骨架重心的邻节点(远心点)集合为子集合2;分区策略公式如下:
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
一个分区策略例子示意图如图2所示,图中4号节点为根节点,灰色实线包围区域为与4号节点直接相连的邻域,虚线表示各个节点与重心的距离,根据各个节点与重心的距离划分,4号节点为子集0,3号节点为近心点子集1,5号节点为远心点子集2。
2)构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM。自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X(根据后续需要为的其中一种)的第二维得到空间方差矩阵Vars∈KV×N,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,其中Δs第j个元素为/>其中C为通道数,/>表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为/>其中/>为Δs第m个元素,/>为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
自适应时间域注意力矩阵TAM的计算方式如下:首先计算输入X(根据后续需要为的其中一种)的第三维得到空间方差矩阵Vart∈KV×T,根据时间方差矩阵Vart计算时间域变化幅度矩阵Δt∈T×1,其中Δt第j个元素为其中/>表示Vart中的第i行第j列元素,最终计算自适应时间域注意力矩阵TAM,其中第m行第n列的元素为/> 为Δt中的第m个元素。
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,具体步骤如下:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1。是空间域1×1卷积的权重,k是子集序号,Kv是子集总数。
利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM,具体步骤如下:
利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,fin、fout表示输入特征图和输出特征图,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小。
构建三维时空域图卷积模块GCN-3d,具体步骤如下:
构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
4)输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成,具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
自适应图卷积层架构如图4所示。在本实施例中,Dropout层中丢弃率为0.5。
5)利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
自适应图卷积网络架构如图5所示。在本实施例中,L1的输入通道为3,输出通道为64,步长为1,L2和L3的输入通道为64,输出通道为64,步长为1。L4的输入通道为64,输出通道为128,步长为2,L5和L6的输入通道为128,输出通道为128,步长为1。L7的输入通道为128,输出通道为256,步长为2,L8和L9的输入通道为256,输出通道为256,步长为1。
6)利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
多流三维自适应图卷积网络架构如图6所示。在本实施例中,wJ=wB=wJM=wBM=0.25。
7)训练多流三维自适应图卷积网络,具体操作是:将分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>分区骨架关键点关节动态训练集/>分区骨架关键点骨骼动态训练集/>和训练集标签Y输入多流三维自适应图卷积网络进行训练,迭代训练Z轮后,得到训练好的多流三维自适应图卷积网络。
在本实施例中训练参数如下:迭代次数Z=60,学习率为0.1,当迭代次数到30次时学习率除以10,当迭代次数到40次时学习率再除以10,权重衰减为0.0001,梯度下降策略为Nesterov算法。
8)利用训练好的多流三维自适应图卷积网络进行行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,方法如同步骤2),再将数据集输入到训练好的多流三维自适应图卷积网络得到行为预测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于,包括以下步骤:
1)采集包含人体的视频,标注视频中人体的骨架信息和行为类别,构建训练集;
2)利用训练集构建自适应空间域注意力矩阵SAM和自适应时间域注意力矩阵TAM;
3)利用自适应空间域注意力矩阵SAM构建自适应空间域注意力图卷积模块ASAGCM,利用自适应时间域注意力矩阵TAM构建自适应时间域注意力图卷积模块ATAGCM;构建三维时空域图卷积模块GCN-3d;
自适应空间域注意力图卷积模块ASAGCM构建过程为:根据骨架的连接结构得到邻接矩阵,利用自适应系数平衡邻接矩阵和自适应空间域注意力矩阵SAM的权重后与输入特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图;
自适应空间域注意力图卷积模块ASAGCM的实现用公式表示如下:
式中,fin、fout表示输入特征图和输出特征图,α为随着训练迭代更新的空间自适应系数,Ak是根据人体骨架连接关系得到的邻接矩阵,Ak的计算规则为:骨架中第n个节点和第m个节点若相连,则Ak中第n行第m列元素为1,否则为0,当n=m时,第n行第m列为1;是空间域1×1卷积的权重,k是子集序号,Kv是子集总数;
自适应时间域注意力图卷积模块ATAGCM的构建过程为:利用自适应系数平衡单位矩阵E和自适应时间域注意力矩阵TAM的权重后与输入特征图相乘,经过卷积核大小为Kt×1时间域图卷积得到输出特征图;
自适应时间域注意力图卷积模块ATAGCM的实现用公式表示如下:
fout=Wtfin(βE+(1-β)·TAM)
式中,β为随着训练迭代更新的空间自适应系数,E为单位矩阵,Wt是时间域Kt×1图卷积权重,Kt×1为卷积核大小;
三维时空域图卷积模块GCN-3d构建过程如下:构建三维邻接矩阵Aτ,与输入特征图相乘,经过卷积核大小为1×1三维时空域图卷积得到输出特征图;
三维时空域图卷积模块GCN-3d的实现用公式表示如下:
fout=WτfinAτ
4)利用自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构建自适应图卷积层;
5)利用自适应图卷积层构建自适应图卷积网络;
6)利用自适应图卷积网络构建多流三维自适应图卷积网络;
7)利用训练集训练多流三维自适应图卷积网络;
8)利用训练后的多流三维自适应图卷积网络对视频中的人体进行行为识别。
2.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤1)中,利用摄像头拍摄包含不同人体行为的视频,其视角要求为从人体正面拍摄,并将人体放在画面正中区域;
利用OpenPose算法检测视频中的人体骨架关键点,利用分区策略构建训练集,包括以下步骤:
1.1)提取人体骨架关键点
利用OpenPose算法检测视频中的人体骨架关键点,记录第i个人体行为所有帧的关键点的坐标信息和对应的行为标签,坐标信息xi记录为大小T×V的矩阵,记录规则为:xi的第t行第v列元素为第i个人体行为中第t帧时第v个关键点的x坐标与y坐标乘积;行为标签记录为T×1的向量yi,遍历视频的每一帧后得到人体骨架关键点关节训练集和对应的训练集标签/>其中,/>表示实数域,N为视频中不同行为的人体总数,T为行为经历的视频帧数,V为人体骨架关键点个数;
得到人体骨架关键点关节训练集XJ后构建人体骨架关键点骨骼训练集构建规则如下:XB的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼向量,因第一个关键点没有前一序号关键点,XB的第一个元素为/>其中/>为XJ的平均值;
利用人体骨架关键点关节训练集XJ构建人体骨架关键点关节动态训练集XJM,构建规则如下:XJM的第i元素为XJ的第i个关键点坐标与第i-1个关键点坐标相减得到的关节动态向量,因第一个关键点没有前一序号关键点,XJM的第一元素为XJ的第一个关键点坐标x1;
利用人体骨架关键点骨骼训练集XB构建人体骨架关键点骨骼动态训练集XBM,构建规则如下:XBM的第i元素为XB的第i个关键点坐标与第i-1个关键点坐标相减得到的骨骼动态向量,因第一个关键点没有前一序号关键点,XBM的第一元素为XB的第一个关键点坐标
1.2)根据分区策略构建训练集
根据分区策略将XJ扩展得到分区骨架关键点关节训练集将XB扩展得到分区骨架关键点骨骼训练集/>将XJM扩展得到分区骨架关键点关节动态训练集/>将XBM扩展得到分区骨架关键点骨骼动态训练集/>Kv是子集总数;
分区策略为:选取骨架中的任一关键点为根节点,遍历所有骨架中的所有点,以根节点直接相连的邻域为分区范围,将根节点分为子集合0,分区范围内比根节点更接近骨架重心的邻节点集合即近心点为子集合1,分区范围内比根节点更远离骨架重心的邻节点集合即远心点为子集合2;分区策略公式如下:
式中,labelti(vtij)表示第t帧中第i个根节点邻域中第j个点的子集标签,vtij为第t帧中第i个根节点邻域中的第j个点,其中,t∈[1,T],i∈[1,V],rti为第t帧中第i个根节点到t帧骨架重心的距离,rtj为第t帧中第i个根节点邻域中第j个点到t帧骨架重心的距离。
3.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤2)中,自适应空间域注意力矩阵SAM的计算方式如下:首先计算输入X的第二维得到空间方差矩阵Vars∈Kv×N,其中,输入X为分区骨架关键点关节训练集分区骨架关键点骨骼训练集/>分区骨架关键点关节动态训练集/>分区骨架关键点骨骼动态训练集/>当中的一种,Kv是子集总数,N为视频中不同行为的人体总数,根据空间方差矩阵Vars计算空间域变化幅度矩阵Δs∈1×V,V为人体骨架关键点个数,其中Δs第j个元素为/>其中C为通道数,/>表示Vars中的第i行第j列元素,最终计算自适应空间域注意力矩阵SAM,其中第m行第n列的元素为/>其中/>为Δs第m个元素,/>为Δs第n个元素,max(Δs)为Δs所有元素中的最大值;
4.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤4)中,输入特征图fin通过自适应图卷积层得到输出特征图fout,自适应图卷积层由自适应空间域注意力图卷积模块ASAGCM、自适应时间域注意力图卷积模块ATAGCM和三维时空域图卷积模块GCN-3d构成;自适应图卷积层具体结构为:自适应空间域注意力图卷积模块ASAGCM、BN层、Relu层、Dropout层、自适应时间域注意力图卷积模块ATAGCM、BN层和Relu层依次串联后并联三维时空域图卷积模块GCN-3d、BN层和Relu层。
5.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤5)中,利用自适应图卷积层构建自适应图卷积网络,用于训练输入数据集Data,输入数据集Data通过自适应图卷积网络训练得到预测结果Label;所述自适应图卷积网络由BN层、9个自适应图卷积层L1、L2、L3、L4、L5、L6、L7、L8、L9、全局平均池化层GAP和Softmax分类器依次连接而成。
6.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤6)中,利用自适应图卷积网络构建多流三维自适应图卷积网络,用于处理多个输入数据集,多个输入数据集通过多流三维自适应图卷积网络得到预测结果;所述多流三维自适应图卷积网络包含四路自适应图卷积网络,具体为:第一路自适应图卷积网络用于处理关键点关节数据,该网络得到的预测结果为PJ;第二路自适应图卷积网络用于处理关键点骨骼数据,该网络得到的预测结果为PB;第三路自适应图卷积网络用于处理关键点关节动态数据,该网络得到的预测结果为PJM;第四路自适应图卷积网络用于处理关键点骨骼动态数据,该网络得到的预测结果为PBM;将四路自适应图卷积网络的预测结果加权得到预测结果P;加权规则为:P=wJPJ+wBPB+wJMPJM+wBMPBM,其中,wJ、wB、wJM、wBM分别是关键点关节预测结果加权系数、关键点骨骼预测结果加权系数、关键点关节动态预测结果加权系数、关键点骨骼动态预测结果加权系数。
8.根据权利要求1所述的一种基于多流三维自适应图卷积的人体行为识别方法,其特征在于:在步骤8)中,利用训练好的多流三维自适应图卷积网络进行人体行为识别,具体操作为:利用OpenPose算法提取待检测视频中的人体骨架关键点,构建数据集,再将数据集输入到训练好的多流三维自适应图卷积网络即可得到行为预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799095.8A CN113673560B (zh) | 2021-07-15 | 2021-07-15 | 一种基于多流三维自适应图卷积的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799095.8A CN113673560B (zh) | 2021-07-15 | 2021-07-15 | 一种基于多流三维自适应图卷积的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673560A CN113673560A (zh) | 2021-11-19 |
CN113673560B true CN113673560B (zh) | 2023-06-09 |
Family
ID=78539341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110799095.8A Active CN113673560B (zh) | 2021-07-15 | 2021-07-15 | 一种基于多流三维自适应图卷积的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673560B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114613011A (zh) * | 2022-03-17 | 2022-06-10 | 东华大学 | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 |
CN115294228B (zh) * | 2022-07-29 | 2023-07-11 | 北京邮电大学 | 基于模态引导的多图人体姿态生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112381004A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
CN112434655A (zh) * | 2020-12-07 | 2021-03-02 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
-
2021
- 2021-07-15 CN CN202110799095.8A patent/CN113673560B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112381004A (zh) * | 2020-11-17 | 2021-02-19 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
CN112434655A (zh) * | 2020-12-07 | 2021-03-02 | 安徽大学 | 一种基于自适应置信度图卷积网络的步态识别方法 |
Non-Patent Citations (1)
Title |
---|
基于自适应双分数阶光流模型的运动目标分割;余陆斌 等;《华南理工大学学报(自然科学版)》;第第47卷卷(第第2期期);第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673560A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381004B (zh) | 一种基于骨架的双流自适应图卷积网络行为识别方法 | |
Sun et al. | Lattice long short-term memory for human action recognition | |
CN108241849B (zh) | 基于视频的人体交互动作识别方法 | |
CN106407889B (zh) | 基于光流图深度学习模型在视频中人体交互动作识别方法 | |
CN113469356B (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN107341452A (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN113673560B (zh) | 一种基于多流三维自适应图卷积的人体行为识别方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN114821640B (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
WO2021073311A1 (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN111401207B (zh) | 基于mars深度特征提取与增强的人体动作识别方法 | |
CN110503666B (zh) | 一种基于视频的密集人群计数方法与系统 | |
CN111461063B (zh) | 一种基于图卷积和胶囊神经网络的行为识别方法 | |
CN113610046B (zh) | 一种基于深度视频联动特征的行为识别方法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN107590427A (zh) | 基于时空兴趣点降噪的监控视频异常事件检测方法 | |
CN111160294A (zh) | 基于图卷积网络的步态识别方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
Wu et al. | Pose-Guided Inflated 3D ConvNet for action recognition in videos | |
Ding et al. | Machine learning model for feature recognition of sports competition based on improved TLD algorithm | |
CN114724251A (zh) | 一种在红外视频下基于骨架序列的老人行为识别方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |