CN116030537B - 基于多分支注意力图卷积的三维人体姿态估计方法 - Google Patents
基于多分支注意力图卷积的三维人体姿态估计方法 Download PDFInfo
- Publication number
- CN116030537B CN116030537B CN202310307618.1A CN202310307618A CN116030537B CN 116030537 B CN116030537 B CN 116030537B CN 202310307618 A CN202310307618 A CN 202310307618A CN 116030537 B CN116030537 B CN 116030537B
- Authority
- CN
- China
- Prior art keywords
- human body
- dimensional
- body posture
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000003068 static effect Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于人体姿态估计技术领域,具体公开了一种基于多分支注意力图卷积的三维人体姿态估计方法。本发明设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层,克服了W核矩阵共享的缺点,提高了图卷积的特征表达能力。本发明通过添加可学习的边注意力矩阵及全局权重矩阵,实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合,克服了经典图卷积只能提取局部特征的缺点。本发明还通过将设计的多分支注意力图卷积操作层与全连接网络相结合,构建了三维人体姿态估计的回归模型,在大大减少模型参数量的前提下,实现了基于图卷积的单帧三维人体姿态的最佳估计精度。
Description
技术领域
本发明涉及人体姿态估计技术领域,尤其涉及一种基于多分支注意力图卷积的三维人体姿态估计方法。
背景技术
视频监控技术和人工智能技术的发展对基于视频图像的人体三维姿态自动分析和识别技术提出了更多的实际应用需求。例如,在运动识别、虚拟现实、人机交互和机器人操作、特定场所、危险场所作业人员姿态识别中都具有重要应用。由于目前广泛采用的监控视频获取的都是单目二维平面图像。因此,研究实用的二维图像进行人体三维姿态估计方法是非常有必要。然而,使用单帧图像进行三维姿态估计比进行二维姿态估计要困难的多,因为这需要从模糊和有噪声的二维图像中估计每一个关节的完整三维位置,而且不同的三维姿态可能对应相同或相似的二维姿态。因此,从单帧二维图像中估计三维姿态极具挑战性。
目前,人体三维人姿态估计方法总体可分为两类,即一步姿态估计法和两步姿态估计法。其中,一步法是直接从二维图像中回归每个关节的三维位置,无需中间步骤;这类方法的共同优点是网络模型架构相对简单,但因为缺乏中间约束和图像三维姿态数据集,因此直接估计三维姿态会非常困难,而且需要昂贵的计算资源以及精细的超级参数调整。两步姿态估计法需要首先使用设计的二维关键点检测器来估计二维关节位置,然后学习从二维姿态直接回归出相应的三位姿态;此类方法中,有些在完成关键点检测后使用存储的二维-三维姿势库来检索和匹配,从而输出与二维姿势相对应的三维姿势,但是这些方法都是基于字典的学习,在训练和估计中都非常耗时,并且实时性较差。
人类的关节由骨骼连接且具有一定的图形结构。因此,有效利用这些空间先验知识,可以大大地提高三维姿态回归的准确性。曾经有人提出通过增加三维的身体部位长度约束,使用一个经过独立训练的网络来学习三维姿势的先验分布,减小三维姿态估计误差的方法;有的方法则使用关节连接结构定义了复合损失函数,用于二维和三维姿势估计的结构感知的回归;还有的方法将人体部分划分为不同等级的三个自由度,建立身体部位之间的双向依赖模型,通过它们相互监督,共同生成物理约束和合理的三维姿态估计。
一般来说,基于图卷积网络的方法由端到端学习驱动,因为它们同时考虑了图的结构和深度神经网络强大的特征提取能力,因此往往会获得更为准确的三维姿态估计结果。然而,图卷积网络普遍采用单一的共享转换矩阵提取所有关节点的特征而且主要关注局部信息,这在一定程度上大大限制了图卷积的特征提取能力,因此影响了估计精度。
专利文献1公开了一种基于图多层感知器的三维人体姿态估计方法及系统,该专利申请中因采用多个全连接层,导致了参数冗余及模型参数量的增加。
专利文献2公开了一种基于多级监督图卷积的三维人体姿态估计的方法,然而该专利申请针对的是利用图像序列而非单张图像进行三维人体姿态估计的方法。
专利文献3提出了通过构建语义图卷积层,学习图的边中隐含的噪声节点的语义关系,利用全局上下文层,捕获节点之间的全局和远程关系进行三维人体姿态估计方法。
然而,该专利申请的专利设计通过引入图的边注意力,但是它的语义图卷积没有全局特征提取的能力,从而利用额外的非局部层来捕获节点之间的全局关系。
参考文献
专利文献1 中国发明专利申请,公开号:CN115205896A,公开日:2022.10.18;
专利文献2 中国发明专利申请,公开号:CN114694261A,公开日:2022.07.01;
专利文献3 中国发明专利申请,公开号:CN112712019A,公开日:2021.04.27。
发明内容
本发明的目的在于提出一种基于多分支注意力图卷积的三维人体姿态估计方法,该方法采用多分支结构分别提取贡献给当前关节点、邻接关节点以及全局其他关节点的特征信息,并采用相应的注意力来分别关注这些特征,以提升图卷积的特征提取能力,同时结合全连接网络的特点,既能够大大减少模型的参数量,又能够提高模型的估计精度。
本发明为了实现上述目的,采用如下技术方案:
基于多分支注意力图卷积的三维人体姿态估计方法,包括如下步骤:
步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;
二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;
MulitBA_GCN三维人体姿态识别模型用于接收所述二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;
MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;
其中,输入层是由一个MulitBA_GConv块组成;
中间特征提取层是由多个残差模块依次串联组成,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;
输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;
每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;
输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;
每个MulitBA_GConv图卷积操作层均包括:
多分支特征提取层,针对节点对自身贡献,对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;
局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;
全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;
以及特征融合层,利用注意力对采用多分支特征提取层提取到的特征分别进行关注和聚合,对聚合后的三种特征进行融合;
步骤2. 对搭建好的三维人体姿态估计模型进行训练;
步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。
本发明具有如下优点:
如上所述,本发明述及了一种基于多分支注意力图卷积的三维人体姿态估计方法。其中,本发明设计了针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献的基于多分支的多W核矩阵图卷积特征提取层,克服了W核矩阵共享的缺点,提高了图卷积的特征表达能力。另外,本发明通过添加可学习的边注意力矩阵及全局权重矩阵,实现了对自身节点、相邻节点的特征以及全局特征的提取与聚合,克服了经典图卷积只能提取局部特征的缺点。此外,本发明还通过将设计的基于多分支注意力图卷积操作层与全连接网络相结合,构建了三维人体姿态估计的回归模型,在大大减少模型参数量的前提下,实现了基于图卷积的单帧三维人体姿态的最佳估计精度。
附图说明
图1为本发明实施例中基于二维图像的三维人体姿态估计模型总体架构图。
图2为本发明实施例中搭建的人体图形模型示意图。
图3为本发明实施例中利用二维姿态进行三位姿态估计的模型架构图。
图4为本发明实施例中多分支注意力图卷积操作层MulitBA_GConv的架构示意图。
具体实施方式
本发明的基本思想为:考虑到人体的姿态是多个关节协调的结果这一事实,针对采用图卷积操作主要关注局部信息的缺点,以及图卷积操作中共享转换矩阵导致表达能力不够丰富的特点,本发明提出并设计了一种改进的图卷积操作层,即多分支注意力图卷积操作层MulitBA_GConv,该多分支注意力图卷积操作层MulitBA_GConv采用多分支结构分别提取贡献给当前关节点、邻接关节点以及全局其他关节点的特征信息,并采用相应的注意力来分别关注这些特征,明显提升了图卷积的特征提取能力;同时,本发明还基于提出的MulitBA_GConv,并结合全连接网络,设计了一种模型参数量小、网络架构简单的三维人体姿态回归网络模型,大大减少模型的参数量的同时,又提高了模型的估计精度。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,基于多分支注意力图卷积的三维人体姿态估计方法,包括如下步骤:
步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型。
二维人体姿态识别模型采用CPN模型,其用于接收二维图像输入并输出二维图像中人体对应的二维姿态,CPN模型能够实现单帧RGB图像到二维姿态的预测。
将二维图像输入训练好的先进二维预测回归模型CPN中,CPN模型输出图像中人体对应的二维姿态。
MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据。
人体的二维姿态就是人体主要关节点的二维位置信息,三维姿态就是人体关节点的三维位置信息,这些关节点之间是有一定的图连接结构。同时由于本发明设计的MulitBA_GConv图卷积操作层是基于图模型基础上的,因此首先需要对人体进行图形建模。
如图2所示,搭建人体图形模型。
人体图形模型包括16个关节点以及19条边。
如图3所示,本发明实施例中搭建的MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层。
输入层是由一个MulitBA_GConv块组成。
每个MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成。
由于输入时二维姿态数据,因此,输入数据是(N,16,2)的格式。
MulitBA_GConv图卷积操作层的输出特征维度设置为128,该输入层的输出是(N,16,128),N为批处理个数,模型使用时N=1;模型训练时,设置为N=128。
输入数据中的16是人体节点个数。
中间特征提取层是由多个残差模块依次串联组成,该残差模块可以重复多次(本发明实施例中重复了4次),使网络更深,从而具有更强的特征提取能力。
如图3所示,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成。
输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征。
输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成。
由于全连接网络在姿态估计中获取全局信息的能力是很强的,尽管本发明提出的图卷积操作层添加了全局注意力,但其获得全局信息的能力仍然弱于全连接层。
为了使模型最终的回归能力更强,本发明在整个识别模型的最后一层添加了全连接层,以输出最终的三维姿态估计结果,MulitBA_GConv层的输出特征维度设置为64。
如图3所示,MulitBA_GConv操作后进行维度变换,变换为(N,16×64)即(N,1024),全连接层参数维度为(1024,48),因此直接回归出人体三维姿态。
与专利文献3采用非局部模块来实现对全局特征的提取不同,本发明通过在设计的MulitBA_GConv图卷积操作层中添加可学习的全局注意力,能够直接在图卷积操作中提取全局特征,此外,本发明还在三维人体姿态估计网络模型的最后一层添加了一层全连接来进一步的提取全局特征,因而进一步提高了模型的估计精度。
下面结合图4对本发明实施例中MulitBA_GConv图卷积操作层架构进行说明。
其中,表示无向图/>的邻接矩阵;/>是单位矩阵,代表自连接;/>,/>为度矩阵,/>实现了对自环邻接矩阵/>的对称规范化,表示sigmoid激活函数;/>是一个特定于/>层的可训练权重矩阵,对/>层的节点特征/>进行变换。
该公式的严密推导过程是从图的傅里叶变换以及谱域分析开始的。
不过可以从空域来简单理解,用转置后的乘法顺序,权重转换矩阵 与相乘可以理解为完成了节点特征/> 的通道变换,是节点的一阶邻域特征提取;再与对称规范化后的邻接矩阵 A 相乘为聚合(sum, mean, max 等)邻居与当前节点的一阶邻域特征。
基于此,本发明提出了一种新的图卷积操作层即MulitBA_GConv图卷积操作层,如图4所示,其包括多分支特征提取层、局部边注意力实现层、全局注意力实现层和特征融合层。
由于多层图卷积进行特征提取的转换矩阵W针对所有节点都是共享的,因此节点(表示)编码因受到局限而不够丰富。为了提高多层图卷积的特征表达能力,本发明设计的多分支特征提取层针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个不同的可学习的转换矩阵进行特征转换和提取。
其中,、/>、/>是分别提取到供特征融合层在聚合时使用的特征;/>表示输入特征;/>表示用于提取给自身节点信息的转换矩阵,/>为用于提取给相邻节点信息的转换矩阵,/>为用于提取给全局其他节点信息的转换矩阵。
局部特征聚合需要聚合来自于当前节点和来自于相邻节点的特征。
因此,本发明设计的局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征。
其中,邻接矩阵A+I仅作为一个掩模;对于节点i,只关注学到的与其邻接节点j∈N(i)的权重,N(i)表示i的所有相邻节点;是Softmax算符,实现行归一化功能,它使所有邻接节点j对节点i的边的权重之和为1。
局部特征中只聚合了节点自身及与之相邻的节点的特征。而人体姿态具有协调关系,即使没有相邻的关节之间也会提供重要的信息。
定义全局权重矩阵表示j节点对i节点的贡献大小,该矩阵变换实现了将所有其他全局节点的信息按照/>定义的注意力大小聚合到节点i上。在实际检测中,二维检测往往有一定的误差,为减小误差的影响,本发明实施例采用了基于降采样的全局注意力。
特征融合层,利用注意力对采用多分支特征提取层提取到的特征分别进行关注和聚合,对聚合后的三种特征进行融合。
其中,λ0代表局部特征的权重,λ1代表全局特征的权重。在本发明λ0=0.67,λ1=0.33。
其中,||符号表示拼接操作。采用这种方式下,参数设置为每个图卷积输入维度为192,W变换矩阵为[192,64],因此拼接后的该卷积输出特征还是3×64,即192维。
步骤2. 对搭建好的三维人体姿态估计模型进行训练,具体过程如下:
步骤2.1. 下载标准的人体运动数据集 Human3.6M。
步骤2.2. 对数据集Human3.6的真实的三维姿态数据进行投影预处理,得到对应的4个摄像机参数下的二维真实姿态数据和该摄像机参数下的三维姿态数据。
步骤2.3. 下载二维人体姿态识别的预训练的二维人体姿态识别模型。
二维人体姿态识别模型采用CPN模型。利用标准数据集Human3.6M的4摄像机下的图像作为输入,对应的4个摄像机参数下的二维真实姿态数据作为期望输出,采用预测值和真实关节位置的均方误差作为损失函数对CPN模型进行再训练。
最终得到训练好的CPN模型参数,供下一步以及三维人体姿态识别模型使用。
步骤2.4. 利用训练好的CPN模型对数据集Human3.6M的人体图像进行二维姿态识别,并把识别结果进行存储。
步骤2.5. 首先利用步骤2.2中得到的二维真实姿态数据和三维姿态数据,分别作为MulitBA_GCN三维人体姿态识别模型的输入和期望输出,对MulitBA_GCN三维人体姿态识别模型进行预训练,采用预测值和真实关节位置的均方误差作为损失函数,得到并保存MulitBA_GCN的预训练模型。
步骤2.6. 利用步骤2.4从图像得到的二维姿态数据作为输入,步骤2.2得到的对应的三维姿态数据作为期望输出,对MulitBA_GCN三维人体姿态识别模型进行再训练,最终得到训练好的MulitBA_GCN三维人体姿态识别模型参数。
步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。
步骤3.1. 输入包含人体姿态的静态图像,利用步骤2.3训练好的CPN模型对输入图像中的人体进行人体关键点检测,得到其二维姿态数据。二维姿态数据是20×2的人体关节点特征数据。其中,人体关节点特征数据中20表示关节点个数,2表示x、y坐标值。
步骤3.2. 对步骤3.1得到的二维姿态数据进行归一化预处理。
首先取20个节点中的16个关节数据,去除不重要关节坐标。其次,去中心化,所有关节点坐标都减去第一个关节点坐标,第一个关节点为人体骨骼中心,相当于坐标平移到图像中心。最后,得到预处理后的16×2的二维姿态数据。
步骤3.3. 将预处理后的二维人体姿态数据输入到步骤2.6训练好的MulitBA_GCN三维人体姿态识别模型中,进行三维人体姿态识别,输出人体16×3的三维姿态数据。
本发明方法是三维姿态估计方法,其是针对单帧图像,输出的是骨架的三维坐标。
此外,为了验证本发明所提基于多分支注意力图卷积的三维人体姿态估计方法的有效性,还在三维人体姿势估计中使用最广泛的公开数据集Human3.6M上进行了验证和评估。
其中,数据集的S1、S5、S6、S7和S8用于模型的训练,S9和S11用于模型的评估。
对于模型性能的评价以模型的参数量以及姿态估计的精度两个指标去衡量,估计精度是以平均每关节误差(MPJPE) 作为标准进行的。本发明模型是基于PyTorch工具箱实现的。
对于Human3.6M,本发明使用Adam作为优化器。批量大小设置为256,网络总共训练了50个时期。学习率从0.001开始,在每个周期之后应用收缩因子来微调学习率。
验证实验在GeForce GTX 1080 GPU、CUDA 10.0上运行。
表1给出了本发明方法与其他基于图卷积的方法(语义图卷积(没有非全局模块)、语义图卷积(有非全局模块))在标准数据集上评估实验的结果。
表1与不同基于图卷积的三维人体姿态估计方法评估实验结果
基于图卷积的三维人体姿态估计方法 | 模型参数量 | 平均每关节位置误差(mm) |
语义图卷积(没有非全局模块)专利文献三 | 0.30M | 65.9 |
语义图卷积(有非全局模块)专利文献三 | 0.43M | 43.8 |
MultiBA_GCN1_add(本发明方法) | 0.47M | 39.1 |
MultiBA_GCN2_cat(本发明方法) | 0.29M | 39.0 |
从评估结果能够看出:本发明在与专利文献三参数相近的情况下,平均每关节位置误差都有了很大的提高。另外,本发明在网络参数数量减少及估计精度提高方面均有明显优势。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (10)
1.基于多分支注意力图卷积的三维人体姿态估计方法,其特征在于,
包括如下步骤:
步骤1. 搭建基于多分支注意力图卷积操作MulitBA_GConv的端到端的三维人体姿态估计模型,其包括二维人体姿态识别模型以及MulitBA_GCN三维人体姿态识别模型;
二维人体姿态识别模型用于接收二维图像输入并输出二维图像中人体对应的二维姿态;
MulitBA_GCN三维人体姿态识别模型用于接收二维人体姿态识别模型预测得出的二维姿态数据,并将该二维姿态数据作为输入回归出人体的三维姿态数据;
MulitBA_GCN三维人体姿态识别模型包括输入层、中间特征提取层以及输出层;
输入层是由一个MulitBA_GConv块组成;
中间特征提取层是由多个残差模块依次串联组成;其中,每个残差模块均是由两个MulitBA_GConv块和一个残差块连接组成;
输入特征在每个残差模块中的处理过程为:输入特征依次经过两个MulitBA_GConv块处理后的特征再与输入特征相加后构成该残差模块的输出特征;
每个所述MulitBA_GConv块均是由一个MulitBA_GConv图卷积操作层、一个批归一化BatchNormal 1D操作层以及一个ReLU操作串联层组成;
输出层由一个MulitBA_GConv图卷积操作层和一个全连接层构成;
每个MulitBA_GConv图卷积操作层均包括多分支特征提取层、局部边注意力实现层、全局注意力实现层以及特征融合层;其中:
多分支特征提取层,针对节点对自身贡献、对连接的相邻节点的贡献以及对全局其他节点的贡献这三种不同的特征,分别使用三个可学习的转换矩阵进行特征转换和提取;
局部边注意力实现层,通过添加一个可学习的边注意力矩阵作为每一个边的注意力,分别用于聚合来自于自身节点的特征以及相邻节点的特征;
全局注意力实现层,通过添加一个可学习的全局权重矩阵表示行归一化后的全局注意力,用于聚合全局特征;
特征融合层,利用注意力对采用多分支特征提取层提取到的三种不同的特征分别进行关注和聚合,对聚合后的三种特征进行融合;
步骤2. 对搭建好的三维人体姿态估计模型进行训练;
步骤3. 采用训练好的三维人体姿态估计模型进行三维人体姿态估计,得到估计结果。
3.根据权利要求2所述的三维人体姿态估计方法,其特征在于,
其中,邻接矩阵A+I仅作为一个掩模;对于节点i,只关注学到的与其邻接节点j∈N(i)的权重,N(i)表示i的所有相邻节点;是Softmax算符,实现行归一化功能,它使所有邻接节点j对节点i的边的权重之和为1;
8.根据权利要求6所述的三维人体姿态估计方法,其特征在于,
所述步骤2具体为:
步骤2.1. 下载标准的人体运动数据集 Human3.6M;
步骤2.2. 对数据集Human3.6的真实的三维姿态数据进行投影预处理,得到对应的4个摄像机参数下的二维真实姿态数据和该摄像机参数下的三维姿态数据;
步骤2.3. 下载二维人体姿态识别的预训练的二维人体姿态识别模型;
二维人体姿态识别模型采用CPN模型;利用标准数据集Human3.6M的4摄像机下的图像作为输入,对应的4个摄像机参数下的二维真实姿态数据作为期望输出,采用预测值和真实关节位置的均方误差作为损失函数对CPN模型进行再训练;
最终得到训练好的CPN模型参数,供下一步以及三维人体姿态识别模型使用;
步骤2.4. 利用训练好的CPN模型对数据集Human3.6M的人体图像进行二维姿态识别,并把识别结果进行存储;
步骤2.5. 首先利用步骤2.2中得到的二维真实姿态数据和三维姿态数据,分别作为MulitBA_GCN三维人体姿态识别模型的输入和期望输出,对MulitBA_GCN三维人体姿态识别模型进行预训练,采用预测值和真实关节位置的均方误差作为损失函数,得到并保存MulitBA_GCN的预训练模型;
步骤2.6. 利用步骤2.4从图像得到的二维姿态数据作为输入,步骤2.2得到的对应的三维姿态数据作为期望输出,对MulitBA_GCN三维人体姿态识别模型进行再训练,最终得到训练好的MulitBA_GCN三维人体姿态识别模型参数。
9.根据权利要求8所述的三维人体姿态估计方法,其特征在于,
所述步骤3具体为:
步骤3.1. 输入包含人体姿态的静态图像,利用步骤2.3训练好的CPN模型对输入图像中的人体进行人体关键点检测,得到其二维姿态数据;
步骤3.2. 对步骤3.1得到的二维姿态数据进行归一化预处理;
步骤3.3. 将预处理后的二维人体姿态数据输入到步骤2.6训练好的MulitBA_GCN三维人体姿态识别模型中进行三维人体姿态识别,输出人体的三维姿态数据。
10.根据权利要求9所述的三维人体姿态估计方法,其特征在于,
所述步骤3.1中得到的二维姿态数据是20×2的人体关节点特征数据;其中,人体关节点特征数据中20表示关节点个数,2表示x、y坐标值;
所述步骤3.2中,对得到的数据进行归一化预处理的具体过程如下:
首先取20个节点中的16个关节数据,去除不重要关节坐标;其次,去中心化,所有关节点坐标都减去第一个关节点坐标,第一个关节点为人体骨骼中心,相当于坐标平移到图像中心;最后,得到预处理后的16×2的二维姿态数据;
所述步骤3.3中,MulitBA_GCN三维人体姿态识别模型输出人体16×3的三维姿态数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307618.1A CN116030537B (zh) | 2023-03-28 | 2023-03-28 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307618.1A CN116030537B (zh) | 2023-03-28 | 2023-03-28 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116030537A CN116030537A (zh) | 2023-04-28 |
CN116030537B true CN116030537B (zh) | 2023-05-23 |
Family
ID=86079821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310307618.1A Active CN116030537B (zh) | 2023-03-28 | 2023-03-28 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116030537B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611675B (zh) * | 2024-01-22 | 2024-04-16 | 南京信息工程大学 | 一种三维人体姿态估计方法、装置、存储介质和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN111709321A (zh) * | 2020-05-28 | 2020-09-25 | 西安交通大学 | 一种基于图卷积神经网络的人体行为识别方法 |
EP3731185A1 (en) * | 2019-04-26 | 2020-10-28 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
CN112232106A (zh) * | 2020-08-12 | 2021-01-15 | 北京工业大学 | 一种二维到三维人体姿态估计方法 |
CN112712019A (zh) * | 2020-12-28 | 2021-04-27 | 湖南大学 | 一种基于图卷积网络的三维人体姿态估计方法 |
CN113128424A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于注意力机制的图卷积神经网络动作识别方法 |
CN114694261A (zh) * | 2022-04-14 | 2022-07-01 | 重庆邮电大学 | 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827342B (zh) * | 2019-10-21 | 2023-06-02 | 中国科学院自动化研究所 | 三维人体模型重建方法及存储设备、控制设备 |
-
2023
- 2023-03-28 CN CN202310307618.1A patent/CN116030537B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3731185A1 (en) * | 2019-04-26 | 2020-10-28 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
CN110427877A (zh) * | 2019-08-01 | 2019-11-08 | 大连海事大学 | 一种基于结构信息的人体三维姿态估算的方法 |
CN111709321A (zh) * | 2020-05-28 | 2020-09-25 | 西安交通大学 | 一种基于图卷积神经网络的人体行为识别方法 |
CN112232106A (zh) * | 2020-08-12 | 2021-01-15 | 北京工业大学 | 一种二维到三维人体姿态估计方法 |
CN112712019A (zh) * | 2020-12-28 | 2021-04-27 | 湖南大学 | 一种基于图卷积网络的三维人体姿态估计方法 |
CN113128424A (zh) * | 2021-04-23 | 2021-07-16 | 浙江理工大学 | 基于注意力机制的图卷积神经网络动作识别方法 |
CN114694261A (zh) * | 2022-04-14 | 2022-07-01 | 重庆邮电大学 | 一种基于多级监督图卷积的视频三维人体姿态估计方法及系统 |
Non-Patent Citations (2)
Title |
---|
Zongkai Fu ; Huiyong Li ; Zhenchao Ouyang ; Xuefeng Liu ; Jianwei Niu.Typing Everywhere with an EMG Keyboard: A Novel Myo Armband-Based HCI Tool.《Algorithms and Architectures for Parallel Processing》.2020,全文. * |
基于三维图像的人体姿态识别研究;杜恒晨;《中国优秀硕士学位论文全文数据库 信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116030537A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111582141A (zh) | 人脸识别模型训练方法、人脸识别方法及装置 | |
CN112200266B (zh) | 基于图结构数据的网络训练方法、装置以及节点分类方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN113516133B (zh) | 一种多模态图像分类方法及系统 | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN114998525A (zh) | 基于动态局部-全局图卷积神经网络的动作识别方法 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN113989283B (zh) | 3d人体姿态估计方法、装置、电子设备与存储介质 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
CN115546888A (zh) | 一种基于身体部位分组的对称语义图卷积姿态估计方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN112446461A (zh) | 一种神经网络模型训练方法及装置 | |
CN115100599A (zh) | 基于掩码transformer的半监督人群场景异常检测方法 | |
CN114626284A (zh) | 一种模型处理方法及相关装置 | |
Ren | The advance of generative model and variational autoencoder | |
CN114365155A (zh) | 具有快速逐点卷积的高效推断 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |