CN114519865A - 一种融合集成注意力的2d人体姿态估计方法 - Google Patents
一种融合集成注意力的2d人体姿态估计方法 Download PDFInfo
- Publication number
- CN114519865A CN114519865A CN202210041759.9A CN202210041759A CN114519865A CN 114519865 A CN114519865 A CN 114519865A CN 202210041759 A CN202210041759 A CN 202210041759A CN 114519865 A CN114519865 A CN 114519865A
- Authority
- CN
- China
- Prior art keywords
- image
- feature map
- output
- size
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004913 activation Effects 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 9
- 210000003127 knee Anatomy 0.000 claims description 7
- 210000000707 wrist Anatomy 0.000 claims description 7
- 210000003423 ankle Anatomy 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000002832 shoulder Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合集成注意力的2D人体姿态估计方法,通过在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,集成注意力模块具有第一分支、第二分支和合并分支,第一分支采用一个平均池化层实现,第二分支采用一个平均池化层实现,合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,集成注意力模块通过提取不同感受野大小的层域特征集合,在通道方向上聚合信息,达到局部特征再学习的目的;优点是人体姿态估计速度快,且准确度高。
Description
技术领域
本发明涉及一种2D人体姿态估计方法,尤其是涉及一种融合集成注意力的2D人体姿态估计方法。
背景技术
2D人体姿态估计(Human Pose Estimation,HPE)是计算机视觉领域中十分基础的一项任务,目的为检测二维图像中人的头、肩、手腕和膝盖等各个关节点位置信息,是很多其他视觉任务的辅助和铺垫性工作,当前已经在智能视频监控、人机交互、自动驾驶以及智能医疗等领域有着重要且广泛的应用。然而,由于人体关节点小,姿态多变,并且通常受到复杂背景和表观特征差异的影响,如人的衣着、身形、人体动作导致的自遮挡和遮挡等因素,使得准确估计人体关节点的位置成为一项具有挑战的任务。
近几年,深度学习方法在图像识别领域获得了极大成功,基于深度网络的方法已广泛应用于2D人体姿态估计中。深度卷积神经网络模型是当前2D人体姿态估计方法中最常用的一种深度网络。目前,基于深度卷积神经网络模型的2D人体姿态估计方法主要有两种:第一种方法是文献1(B.Xiao,H.Wu,Y.Wei.Simple baselines for human poseestimation and tracking[C]//ECCV.2018:472-487.)中公开的基于ResNet主干网络的SimpleBaseline方法,该方法利用多分辨率图像进行监督,使得深度卷积神经网络模型能够看到不同分辨率图像下的信息,但是低分辨率的图像可能对关节点的定位有误差,无法完全可靠,因此目前大多数方法主要还是依据深度卷积神经网络模型中最高分辨率的图像进行监督。第二种方法是文献2(K.Sun,B.Xiao,D.Liu,J.Wang.Deep high-resolutionrepresentation learning for human pose estimation[C]//CVPR.2019:5693-5703.)中公开的利用高分率保持多分辨率并行的深度卷积网络HRNet的方法,该方法通过多分辨率并行子网架构一直保持高分辨率图像信息的学习,加上重复多尺度特征融合,进一步精确了关节点的定位。
但是,上述两种基于深度卷积神经网络模型的2D人体姿态估计方法均存在以下问题:一、两种深度卷积神经网络模型存在参数量大、计算速度慢和推理速度慢的问题,由此导致人体姿态估计速度慢;二、人体关节点在图像中占比小,属于小目标,对图像局部信息学习有需求,但是两种深度卷积神经网络模型均不具备高级局部信息学习的能力,由此导致人体姿态估计准确度不高。
发明内容
本发明所要解决的技术问题是提供一种人体姿态估计速度快,且准确度高的融合集成注意力的2D人体姿态估计方法。
本发明解决上述技术问题所采用的技术方案为:一种融合集成注意力的2D人体姿态估计方法,包括以下步骤:
步骤1:从官方网站https://cocodataset.org/#keypoints-2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含N张自然场景下人的图像以及每张人的图像中人体17个关节点的坐标;每张人的图像均为三通道彩色图像;其中,N=175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于图像坐标系确定,由横坐标和纵坐标构成,图像坐标系以图像左上角顶点为坐标原点,从坐标原点水平向右方向(即图像左上角顶点和右上角顶点的连线方向)为正横坐标,从坐标原点垂直向下方向(即图像左上角顶点和左下角顶点的连线方向)为正纵坐标;从公共数据集MS COCO中获取175000张人的图像及这175000张人的图像中每张人的图像中人体17个关节点的坐标,将公共数据集MS COCO中这175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;
步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于人的图像的空白图像,人的图像中每个像素点与空白图像中相同位置处的像素点相对应,然后将人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在人的图像上确定一个圆形区域,分别利用二维高斯函数计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值标注在空白图像中对应的像素点处,其中,e表示自然对数的底,mK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的横坐标,nK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为人的图像对应的第K张关节点热图;
对训练集和验证集中所有人的图像和每张人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即所有人的图像以及所有关节点热图的尺寸均为256×192,每张人的图像对应的17张关节点热图即为其对应的17个标签;
步骤3:在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,所述的融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,所述的HRNet具有第一阶段、第二阶段、第三阶段、第四阶段和解码阶段,所述的第一阶段用于接收大小为256×192×3的图像,并对该图像进行特征提取,生成大小为64×48×256的特征图输出,所述的第二阶段用于接收所述的第一阶段输出的大小为64×48×256的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出,所述的第三阶段用于接入所述的第二阶段输出的大小为64×48×32的特征图,并生成大小为64×48×32的特征图输出;所述的集成注意力模块用于接入所述的第二阶段输出的大小为64×48×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并分别对接入的两张特征图进行通道特征提取,生成大小为64×48×32的特征图输出,所述的第四阶段用于接入所述的集成注意力模块输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出;所述的解码阶段用于接入所述的第四阶段输出的大小为64×48×32的特征图,并生成大小为64×48×17的预测关节点热图输出;
所述的集成注意力模块具有第一分支、第二分支和合并分支,所述的第一分支采用一个平均池化层实现,所述的第一分支用于接入所述的第二阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的第二分支采用一个平均池化层实现,所述的第二分支用于接入所述的第三阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,所述的合并分支的concat层用于接入所述的第一分支输出的大小为1×1×32的特征图以及所述的第二分支输出的大小为1×1×32的特征图,并进行特征提取,生成大小为1×1×64的特征图输出,所述的合并分支的第1个全连接层用于接入所述的合并分支的concat层输出的大小为1×1×64的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的ReLu激活层用于接入所述的合并分支的第1个全连接层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的第2个全连接层用于接入所述的ReLu激活层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支的Sigmoid激活层用于接入所述的合并分支的第2个全连接层输出的大小为1×1×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并对大小为1×1×32的特征图进行特征提取后与所述的第三阶段输出的大小为64×48×32的特征图相乘,生成大小为64×48×32的特征图输出。
步骤4:对所述的融合集成注意力模块的HRNet网络进行训练,具体过程为:
(1)对所述的融合集成注意力模块的HRNet网络采用he_normal参数初始化方法进行初始化;
(2)将训练集中的人的图像随机分成多个batch,使每个batch中包含batchsize张人的图像,若训练集中的人的图像总数能被batchsize整除,则分成人的图像总数/batchsize个batch,若训练集中的人的图像总数不能被batchsize整除,则将剩余部分舍去,得到|人的图像总数/batchsize︱个batch,其中batchsize=32,︱︱为取整符号;
(3)取其中一个batch,对这个batch中所有人的图像均采用随机旋转进行数据增强处理,其中旋转度数范围为大于0°且小于等于45°;
(4)将所选取batch中所有人的图像作为所述的融合集成注意力模块的HRNet网络的输入,输入到所述的融合集成注意力模块的HRNet网络中进行识别处理,所述的融合集成注意力模块的HRNet网络得到该batch中每张人的图像对应的17张预测关节点热图输出;
(5)对所选取batch中每张人的图像,分别根据对应的17张预测关节点热图和对应的17个标签,计算每张人的图像的人体姿态估计损失值,并计算得到所选取batch中所有人的图像的人体姿态估计损失值平均值作为最终损失值,其中,每张人的图像的人体姿态估计损失值计算如下所示:
其中,M=256×192×17,GHeatj表示所取batch中一张人的图像对应的第j个关节点热图,Heatj表示该张人的图像对应的第j个预测关节点热图,其中j=1,2,3,…,17;
(6)根据步骤(5)中计算得到的所取batch中所有人的图像的人体姿态估计损失值,使用学习率为1e-3的Adam优化器对所述的融合集成注意力模块的HRNet网络的参数进行训练,完成所选取batch对所述的融合集成注意力模块的HRNet网络的训练;
(7)重复步骤(3)-(6),直至所有的batch都对所述的融合集成注意力模块的HRNet网络进行一次训练,然后将验证集中所有人的图像输入到此时训练后的融合集成注意力模块的HRNet网络中,并采用步骤(5)相同的方法得到验证集中每张人的图像的人体姿态估计损失值,计算并得到验证集中所有人的图像的人体姿态估计损失值平均值;
(8)重复步骤(2)-(7)共Num次,直至所述的融合集成注意力模块的HRNet网络在验证集上的损失收敛,最终得到训练好的融合集成注意力模块的HRNet网络,其中Num≥210;
步骤5:将需要人体姿态估计的人的图像进行拉伸,使其长为256厘米,宽为192厘米,然后将拉伸后的人的图像输入到训练好的融合集成注意力模块的HRNet网络中,训练好的融合集成注意力模块的HRNet网络生成17张预测关节点热图输出,该17张预测关节点热图即为人体姿态估计结果。
与现有技术相比,本发明的优点在于通过在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,HRNet具有第一阶段、第二阶段、第三阶段、第四阶段和解码阶段,第一阶段用于接收大小为256×192×3的图像,并对该图像进行特征提取,生成大小为64×48×256的特征图输出,第二阶段用于接收第一阶段输出的大小为64×48×256的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出,第三阶段用于接入第二阶段输出的大小为64×48×32的特征图,并生成大小为64×48×32的特征图输出;集成注意力模块用于接入第二阶段输出的大小为64×48×32的特征图以及第三阶段输出的大小为64×48×32的特征图,并分别对接入的两张特征图进行通道特征提取,生成大小为64×48×32的特征图输出,第四阶段用于接入集成注意力模块输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出;解码阶段用于接入第四阶段输出的大小为64×48×32的特征图,并生成大小为64×48×17的预测关节点热图输出;集成注意力模块具有第一分支、第二分支和合并分支,第一分支采用一个平均池化层实现,第一分支用于接入第二阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,第二分支采用一个平均池化层实现,第二分支用于接入第三阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,合并分支的concat层用于接入第一分支输出的大小为1×1×32的特征图以及第二分支输出的大小为1×1×32的特征图,并进行特征提取,生成大小为1×1×64的特征图输出,合并分支的第1个全连接层用于接入合并分支的concat层输出的大小为1×1×64的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,合并分支的ReLu激活层用于接入合并分支的第1个全连接层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,合并分支的第2个全连接层用于接入ReLu激活层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,合并分支的Sigmoid激活层用于接入合并分支的第2个全连接层输出的大小为1×1×32的特征图以及第三阶段输出的大小为64×48×32的特征图,并对大小为1×1×32的特征图进行特征提取后与第三阶段输出的大小为64×48×32的特征图相乘,生成大小为64×48×32的特征图输出;集成注意力模块通过提取不同感受野大小的层域特征集合,在通道方向上聚合信息,同步地学习2种感受野大小下局部和全局的图像特征,实现层域-通道混合的一种注意力机制,将包含高级语义特征和局部信息共同学习得到的特征图赋予输入中更深层的高级特征集合,从而达到高级局部特征再学习的目的,改善目前深度卷积神经网络渐进式的学习模式,重新学习高级特征中的局部信息,有助于现有的HRNet从新的角度学习感兴趣区域的上下文信息,将集成注意力模块嵌入目前技术中的人体姿态估计主干网络(现有的HRNet)中时,增强卷积神经元的特征表达能力,通过更少的参数量和计算量得到了更高效的新主干网络模型,即融合集成注意力模块的HRNet网络,人体姿态估计速度快,且准确度高。
附图说明
图1为本发明的融合集成注意力的2D人体姿态估计方法和采用现有的HRNet网络的2D人体姿态估计方法在测试集上的部分可视化对比实验结果。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例:一种融合集成注意力的2D人体姿态估计方法,包括以下步骤:
步骤1:从官方网站https://cocodataset.org/#keypoints-2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含N张自然场景下人的图像以及每张人的图像中人体17个关节点的坐标;每张人的图像均为三通道彩色图像;其中,N=175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于图像坐标系确定,由横坐标和纵坐标构成,图像坐标系以图像左上角顶点为坐标原点,从坐标原点水平向右方向(即图像左上角顶点和右上角顶点的连线方向)为正横坐标,从坐标原点垂直向下方向(即图像左上角顶点和左下角顶点的连线方向)为正纵坐标;从公共数据集MS COCO中获取175000张人的图像及这175000张人的图像中每张人的图像中人体17个关节点的坐标,将公共数据集MS COCO中这175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;
步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于人的图像的空白图像,人的图像中每个像素点与空白图像中相同位置处的像素点相对应,然后将人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在人的图像上确定一个圆形区域,分别利用二维高斯函数计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值标注在空白图像中对应的像素点处,其中,e表示自然对数的底,mK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的横坐标,nK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为人的图像对应的第K张关节点热图;
对训练集和验证集中所有人的图像和每张人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即所有人的图像以及所有关节点热图的尺寸均为256×192,每张人的图像对应的17张关节点热图即为其对应的17个标签;
步骤3:在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,HRNet具有第一阶段、第二阶段、第三阶段、第四阶段和解码阶段,第一阶段用于接收大小为256×192×3的图像,并对该图像进行特征提取,生成大小为64×48×256的特征图输出,第二阶段用于接收第一阶段输出的大小为64×48×256的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出,第三阶段用于接入第二阶段输出的大小为64×48×32的特征图,并生成大小为64×48×32的特征图输出;集成注意力模块用于接入第二阶段输出的大小为64×48×32的特征图以及第三阶段输出的大小为64×48×32的特征图,并分别对接入的两张特征图进行通道特征提取,生成大小为64×48×32的特征图输出,第四阶段用于接入集成注意力模块输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出;解码阶段用于接入第四阶段输出的大小为64×48×32的特征图,并生成大小为64×48×17的预测关节点热图输出;
集成注意力模块具有第一分支、第二分支和合并分支,第一分支采用一个平均池化层实现,第一分支用于接入第二阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,第二分支采用一个平均池化层实现,第二分支用于接入第三阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,合并分支的concat层用于接入第一分支输出的大小为1×1×32的特征图以及第二分支输出的大小为1×1×32的特征图,并进行特征提取,生成大小为1×1×64的特征图输出,合并分支的第1个全连接层用于接入合并分支的concat层输出的大小为1×1×64的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,合并分支的ReLu激活层用于接入合并分支的第1个全连接层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,合并分支的第2个全连接层用于接入ReLu激活层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,合并分支的Sigmoid激活层用于接入合并分支的第2个全连接层输出的大小为1×1×32的特征图以及第三阶段输出的大小为64×48×32的特征图,并对大小为1×1×32的特征图进行特征提取后与第三阶段输出的大小为64×48×32的特征图相乘,生成大小为64×48×32的特征图输出。
步骤4:对融合集成注意力模块的HRNet网络进行训练,具体过程为:
(1)对融合集成注意力模块的HRNet网络采用he_normal参数初始化方法进行初始化;
(2)将训练集中的人的图像随机分成多个batch,使每个batch中包含batchsize张人的图像,若训练集中的人的图像总数能被batchsize整除,则分成人的图像总数/batchsize个batch,若训练集中的人的图像总数不能被batchsize整除,则将剩余部分舍去,得到|人的图像总数/batchsize︱个batch,其中batchsize=32,︱︱为取整符号;
(3)取其中一个batch,对这个batch中所有人的图像均采用随机旋转进行数据增强处理,其中旋转度数范围为大于0°且小于等于45°;
(4)将所选取batch中所有人的图像作为融合集成注意力模块的HRNet网络的输入,输入到融合集成注意力模块的HRNet网络中进行识别处理,融合集成注意力模块的HRNet网络得到该batch中每张人的图像对应的17张预测关节点热图输出;
(5)对所选取batch中每张人的图像,分别根据对应的17张预测关节点热图和对应的17个标签,计算每张人的图像的人体姿态估计损失值,并计算得到所选取batch中所有人的图像的人体姿态估计损失值平均值作为最终损失值,其中,每张人的图像的人体姿态估计损失值计算如下所示:
其中,M=256×192×17,GHeatj表示所取batch中一张人的图像对应的第j个关节点热图,Heatj表示该张人的图像对应的第j个预测关节点热图,其中j=1,2,3,…,17;
(6)根据步骤(5)中计算得到的所取batch中所有人的图像的人体姿态估计损失值,使用学习率为1e-3的Adam优化器对融合集成注意力模块的HRNet网络的参数进行训练,完成所选取batch对融合集成注意力模块的HRNet网络的训练;
(7)重复步骤(3)-(6),直至所有的batch都对融合集成注意力模块的HRNet网络进行一次训练,然后将验证集中所有人的图像输入到此时训练后的融合集成注意力模块的HRNet网络中,并采用步骤(5)相同的方法得到验证集中每张人的图像的人体姿态估计损失值,计算并得到验证集中所有人的图像的人体姿态估计损失值平均值;
(8)重复步骤(2)-(7)共Num次,直至融合集成注意力模块的HRNet网络在验证集上的损失收敛,最终得到训练好的融合集成注意力模块的HRNet网络,其中Num≥210;
步骤5:将需要人体姿态估计的人的图像进行拉伸,使其长为256厘米,宽为192厘米,然后将拉伸后的人的图像输入到训练好的融合集成注意力模块的HRNet网络中,训练好的融合集成注意力模块的HRNet网络生成17张预测关节点热图输出,该17张预测关节点热图即为人体姿态估计结果。
为了验证本方法的优异性,将本发明的融合集成注意力的2D人体姿态估计方法与采用现有主流的几种网络的人体姿态估计方法进行对比实验,基于本发明的测试集,使用平均准确率AP、AP50、AP75、和平均召回率AR作为评价指标,实验对比结果如表1所示:
表1对比实验结果
注:表1中加粗数字表示该列最优值。
分析表1数据可知,本发明的方法在各种指标上人体姿态估计结果均优于现有的其他网络的人体姿态估计方法。这证明了本方法的优越性。
将本发明的的人体姿态估计方法和采用现有的HRNet的的人体姿态估计方法在测试集上进行可视化对比实验,选取部分可视化结果如图1所示。图1中,每组对比图的左侧图像是采用现有的HRNet的的人体姿态估计方法得到的结果,右侧图像是本发明方法得到的结果,圆圈代表采用现有的HRNet的的人体姿态估计方法预测错误和本发明的的人体姿态估计方法预测正确的人体姿态位置。从图1中可以直观地发现本发明的的人体姿态估计方法能够得到更准确的人体姿态估计结果。
Claims (1)
1.一种融合集成注意力的2D人体姿态估计方法,其特征在于包括以下步骤:
步骤1:从官方网站https://cocodataset.org/#keypoints-2019获取一个2D人体姿态估计任务的公共数据集MS COCO,该公共数据集MS COCO包含N张自然场景下人的图像以及每张人的图像中人体17个关节点的坐标;每张人的图像均为三通道彩色图像;其中,N=175000,17个关节点包括左眼、右眼、鼻子、左耳、右耳、左肩、右肩、左手肘、右手肘、左手腕、右手腕、左胯、右胯、左膝盖、右膝盖、左脚踝和右脚踝,各个关节点的坐标基于图像坐标系确定,由横坐标和纵坐标构成,图像坐标系以图像左上角顶点为坐标原点,从坐标原点水平向右方向(即图像左上角顶点和右上角顶点的连线方向)为正横坐标,从坐标原点垂直向下方向(即图像左上角顶点和左下角顶点的连线方向)为正纵坐标;从公共数据集MS COCO中175000张人的图像及这175000张人的图像中每张人的图像中人体17个关节点的坐标,将MSCOCO数据集中这175000张人的图像随机划分为训练集、验证集和测试集三类,其中训练集有150000张人的图像,验证集有5000张人的图像,测试集有20000张人的图像;
步骤2:从训练集和验证集中获取所有人的图像,然后分别制作每张人的图像对应的17张关节点热图,其中每张人的图像对应的第K张关节点热图的制作方法为:设计一张尺寸大小等于人的图像的空白图像,人的图像中每个像素点与空白图像中相同位置处的像素点相对应,然后将人的图像中第K个关节点的坐标定义为中心坐标,将该中心坐标的横坐标记为纵坐标记为K=1,2,…,17,在与中心坐标处像素点对应的空白图像中的像素点处标注数值1,1表示是第K个关节点的正确位置,接着以中心坐标为圆心,σ=3cm为半径在人的图像上确定一个圆形区域,分别利用二维高斯函数计算圆形区域中除中心坐标处像素点以外的其余每个像素点处的数值,将得到的每个像素点处的数值标注在空白图像中对应的像素点处,其中,e表示自然对数的底,mK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的横坐标,nK表示圆形区域内除中心坐标处像素点以外的其余某个像素点的纵坐标,圆形区域内除中心坐标的像素点数值外,其余像素点的数值分别大于0且小于1,其数值表示与第K个关节点的正确位置相近,但不是第K个关节点的正确位置,最后,将空白图像中其余未标注的所有像素点处标记数值0,0表示不是第K个关节点的正确位置,空白图像中所有像素点对应标记完成后,即为人的图像对应的第K张关节点热图;
对训练集和验证集中所有人的图像和每张人的图像对应的17张关节点热图分别进行拉伸,使其长均为256厘米,宽均为192厘米,即所有人的图像以及所有关节点热图的尺寸均为256×192,每张人的图像对应的17张关节点热图即为其对应的17个标签;
步骤3:在现有的HRNet基础上增加一个集成注意力模块构建得到融合集成注意力模块的HRNet网络,所述的融合集成注意力模块的HRNet网络包括HRNet和集成注意力模块,所述的HRNet具有第一阶段、第二阶段、第三阶段、第四阶段和解码阶段,所述的第一阶段用于接收大小为256×192×3的图像,并对该图像进行特征提取,生成大小为64×48×256的特征图输出,所述的第二阶段用于接收所述的第一阶段输出的大小为64×48×256的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出,所述的第三阶段用于接入所述的第二阶段输出的大小为64×48×32的特征图,并生成大小为64×48×32的特征图输出;所述的集成注意力模块用于接入所述的第二阶段输出的大小为64×48×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并分别对接入的两张特征图进行通道特征提取,生成大小为64×48×32的特征图输出,所述的第四阶段用于接入所述的集成注意力模块输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为64×48×32的特征图输出;所述的解码阶段用于接入所述的第四阶段输出的大小为64×48×32的特征图,并生成大小为64×48×17的预测关节点热图输出;
所述的集成注意力模块具有第一分支、第二分支和合并分支,所述的第一分支采用一个平均池化层实现,所述的第一分支用于接入所述的第二阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的第二分支采用一个平均池化层实现,所述的第二分支用于接入所述的第三阶段输出的大小为64×48×32的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支包括concat层、第1个全连接层、ReLu激活层、第2个全连接层、Sigmoid激活层,所述的合并分支的concat层用于接入所述的第一分支输出的大小为1×1×32的特征图以及所述的第二分支输出的大小为1×1×32的特征图,并进行特征提取,生成大小为1×1×64的特征图输出,所述的合并分支的第1个全连接层用于接入所述的合并分支的concat层输出的大小为1×1×64的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的ReLu激活层用于接入所述的合并分支的第1个全连接层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×4的特征图输出,所述的合并分支的第2个全连接层用于接入所述的ReLu激活层输出的大小为1×1×4的特征图,并对该特征图进行特征提取,生成大小为1×1×32的特征图输出,所述的合并分支的Sigmoid激活层用于接入所述的合并分支的第2个全连接层输出的大小为1×1×32的特征图以及所述的第三阶段输出的大小为64×48×32的特征图,并对大小为1×1×32的特征图进行特征提取后与所述的第三阶段输出的大小为64×48×32的特征图相乘,生成大小为64×48×32的特征图输出。
步骤4:对所述的融合集成注意力模块的HRNet网络进行训练,具体过程为:
(1)对所述的融合集成注意力模块的HRNet网络采用he_normal参数初始化方法进行初始化;
(2)将训练集中的人的图像随机分成多个batch,使每个batch中包含batchsize张人的图像,若训练集中的人的图像总数能被batchsize整除,则分成人的图像总数/batchsize个batch,若训练集中的人的图像总数不能被batchsize整除,则将剩余部分舍去,得到|人的图像总数/batchsize︱个batch,其中batchsize=32,︱︱为取整符号;
(3)取其中一个batch,对这个batch中所有人的图像均采用随机旋转进行数据增强处理,其中旋转度数范围为大于0°且小于等于45°;
(4)将所选取batch中所有人的图像作为所述的融合集成注意力模块的HRNet网络的输入,输入到所述的融合集成注意力模块的HRNet网络中进行识别处理,所述的融合集成注意力模块的HRNet网络得到该batch中每张人的图像对应的17张预测关节点热图输出;
(5)对所选取batch中每张人的图像,分别根据对应的17张预测关节点热图和对应的17个标签,计算每张人的图像的人体姿态估计损失值,并计算得到所选取batch中所有人的图像的人体姿态估计损失值平均值作为最终损失值,其中,每张人的图像的人体姿态估计损失值计算如下所示:
其中,M=256×192×17,GHeatj表示所取batch中一张人的图像对应的第j个关节点热图,Heatj表示该张人的图像对应的第j个预测关节点热图,其中j=1,2,3,…,17;
(6)根据步骤(5)中计算得到的所取batch中所有人的图像的人体姿态估计损失值,使用学习率为1e-3的Adam优化器对所述的融合集成注意力模块的HRNet网络的参数进行训练,完成所选取batch对所述的融合集成注意力模块的HRNet网络的训练;
(7)重复步骤(3)-(6),直至所有的batch都对所述的融合集成注意力模块的HRNet网络进行一次训练,然后将验证集中所有人的图像输入到此时训练后的融合集成注意力模块的HRNet网络中,并采用步骤(5)相同的方法得到验证集中每张人的图像的人体姿态估计损失值,计算并得到验证集中所有人的图像的人体姿态估计损失值平均值;
(8)重复步骤(2)-(7)共Num次,直至所述的融合集成注意力模块的HRNet网络在验证集上的损失收敛,最终得到训练好的融合集成注意力模块的HRNet网络,其中Num≥210;
步骤5:将需要人体姿态估计的人的图像进行拉伸,使其长为256厘米,宽为192厘米,然后将拉伸后的人的图像输入到训练好的融合集成注意力模块的HRNet网络中,训练好的融合集成注意力模块的HRNet网络生成17张预测关节点热图输出,该17张预测关节点热图即为人体姿态估计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041759.9A CN114519865A (zh) | 2022-01-14 | 2022-01-14 | 一种融合集成注意力的2d人体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041759.9A CN114519865A (zh) | 2022-01-14 | 2022-01-14 | 一种融合集成注意力的2d人体姿态估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114519865A true CN114519865A (zh) | 2022-05-20 |
Family
ID=81596201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210041759.9A Pending CN114519865A (zh) | 2022-01-14 | 2022-01-14 | 一种融合集成注意力的2d人体姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114519865A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881705A (zh) * | 2019-09-29 | 2020-11-03 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
CN112270213A (zh) * | 2020-10-12 | 2021-01-26 | 萱闱(北京)生物科技有限公司 | 一种基于注意力机制的改进HRnet |
US20210082144A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Keypoint based pose-tracking using entailment |
CN113011304A (zh) * | 2021-03-12 | 2021-06-22 | 山东大学 | 一种基于注意力多分辨率网络的人体姿态估计方法及系统 |
CN113792641A (zh) * | 2021-09-08 | 2021-12-14 | 南京航空航天大学 | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 |
-
2022
- 2022-01-14 CN CN202210041759.9A patent/CN114519865A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210082144A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Keypoint based pose-tracking using entailment |
CN111881705A (zh) * | 2019-09-29 | 2020-11-03 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
CN112270213A (zh) * | 2020-10-12 | 2021-01-26 | 萱闱(北京)生物科技有限公司 | 一种基于注意力机制的改进HRnet |
CN113011304A (zh) * | 2021-03-12 | 2021-06-22 | 山东大学 | 一种基于注意力多分辨率网络的人体姿态估计方法及系统 |
CN113792641A (zh) * | 2021-09-08 | 2021-12-14 | 南京航空航天大学 | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 |
Non-Patent Citations (2)
Title |
---|
YING LI 等: "A-HRNet:Attention Based High Resolution Network for Human pose estimation", 2020 SECOND INTERNATIONAL CONFERENCE ON TRANSDISCIPLINARY AI, 23 September 2020 (2020-09-23) * |
沈庆 等: "多分辨率特征注意力融合行人再识别", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
CN116959120B (zh) * | 2023-09-15 | 2023-12-01 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cao et al. | Rapid detection of blind roads and crosswalks by using a lightweight semantic segmentation network | |
CN109815826A (zh) | 人脸属性模型的生成方法及装置 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN109948741A (zh) | 一种迁移学习方法及装置 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN111507184B (zh) | 基于并联空洞卷积和身体结构约束的人体姿态检测方法 | |
CN111680702B (zh) | 一种使用检测框实现弱监督图像显著性检测的方法 | |
CN111709266A (zh) | 基于时空融合网络的面部表情识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN109784155B (zh) | 基于验证和纠错机制的视觉目标跟踪方法、智能机器人 | |
CN113066025A (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN113705655A (zh) | 三维点云全自动分类方法及深度神经网络模型 | |
CN117854155B (zh) | 一种人体骨骼动作识别方法及系统 | |
CN114118303B (zh) | 基于先验约束的人脸关键点检测方法及装置 | |
CN116385832A (zh) | 双模态生物特征识别网络模型训练方法 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN116386102A (zh) | 一种基于改进残差卷积网络inception块结构的人脸情绪识别方法 | |
CN114519865A (zh) | 一种融合集成注意力的2d人体姿态估计方法 | |
CN117079339B (zh) | 动物虹膜识别方法、预测模型训练方法、电子设备及介质 | |
CN114333063A (zh) | 一种基于人体姿态估计的武术动作纠正方法及装置 | |
CN114372926A (zh) | 一种基于图像修复与卷积神经网络的中医舌质老嫩识别方法 | |
CN112818887A (zh) | 基于无监督学习的人体骨架序列行为识别方法 | |
CN116416212B (zh) | 路面破损检测神经网络训练方法及路面破损检测神经网络 | |
CN114841887B (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |