CN111339903A - 一种多人人体姿态估计方法 - Google Patents

一种多人人体姿态估计方法 Download PDF

Info

Publication number
CN111339903A
CN111339903A CN202010108983.6A CN202010108983A CN111339903A CN 111339903 A CN111339903 A CN 111339903A CN 202010108983 A CN202010108983 A CN 202010108983A CN 111339903 A CN111339903 A CN 111339903A
Authority
CN
China
Prior art keywords
human body
key point
human
image
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010108983.6A
Other languages
English (en)
Other versions
CN111339903B (zh
Inventor
于明
金宇
于洋
郭迎春
阎刚
郝小可
师硕
朱叶
刘依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202010108983.6A priority Critical patent/CN111339903B/zh
Publication of CN111339903A publication Critical patent/CN111339903A/zh
Application granted granted Critical
Publication of CN111339903B publication Critical patent/CN111339903B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种多人人体姿态估计方法,涉及用于识别图形的记录载体的处理,是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出多人人体姿态估计结果,克服了现有多人人体姿态估计方法技术所存在的在人群稠密情况下,对目标人体遮挡干扰鲁棒性差,人体关键点检测正确率较低的缺陷。

Description

一种多人人体姿态估计方法
技术领域
本发明的技术方案涉及用于识别图形的记录载体的处理,具体地说是一种多人人体姿态估计方法。
背景技术
人体姿态估计技术对于描述人体运动轨迹、预测人体行为至关重要,该技术用于定位描述人体关节位置的关键点运动轨迹并记录其运动数据,实现3D动画模拟人体运动来制作电影电视,并通过记录的人体运动轨迹和数据对人体运动进行分析,应用于人体动作分类,人体异常行为的检测,以及自动驾驶领域。
现有的人体姿态估计方法按照特征定义方法的不同分为机器学习方法和深度学习方法。
人体姿态估计方法中的机器学习方法是将人体关键点的运动轨迹估计表述为树状结构模型或图形模型,并基于手工制作的特征预测这些人体关键点的位置,即人体关键点在图像中的二维坐标。然而由于人体运动的灵活性、服装的多变性以及环境的复杂性,很难定义一个与人体运动匹配的具体模板;同时在利用机器学习方法完成人体姿态估计的过程中,需要从原始输入图像中提取大量的特征,同样由于人体姿态的高复杂性,提取的特征分辨率相对较高,导致计算复杂度很高,因此机器学习方法主要应用于简单背景,单人运动且无遮挡的理想状态,难以应用于实际场景中。
相比之下,人体姿态估计方法中的深度学习方法能够从元数据中提取足够丰富的特征,相比机器学习方法取得了更好的人体姿态的识别效果。随着深度卷积神经网络的发展,深度学习方法在人体姿态估计领域广泛应用并使模型的性能有了显著的提升。人体姿态估计方法中的深度学习的方法被集中用于多人人体姿态的估计。现今,多人人体姿态估计是许多计算机视觉应用的基础研究课题。多人人体姿态估计,是在图像中的人体目标数量不确定及位置不确定的前提下识别和定位图像中所有人的人体关键点,例如头部、肘部、腕部,并将这些人体关键点根据不同人体目标进行分类连接。
目前,人体姿态估计方法中的深度学习方法按照检测流程的不同分为两类,即基于自顶向下的方法以及基于自底向上的方法。自顶向下的方法首先检测人体目标然后根据目标边界框对图像进行裁剪,将裁剪后的图像输入到单人姿态估计系统中,得出最终结果;自底向上的方法直接检测图像中所有的人体关键点,在此基础上按照目标人对人体关键点进行聚类处理,最后对人体关键点进行连接。自顶向下的方法依赖于人体检测器的性能,更适用于人员目标稀疏的情况且具有较高的识别率,自底向上的方法则具有更好的鲁棒性,但是方法更加复杂,主要适用于人员目标密集的情况。
CN105117694B公开了一种结合旋转不变性特征的单张图像人体姿态估计方法,该方法首先对旋转图像进行分析,构建旋转不变性梯度特征;其次结合旋转不变性特征及HOG特征对单张图像中的人体部件建立表象模型,并基于姿态先验构建柔性混合模型,从而估计出输入图像中的人体二维姿态。该方法属于基于传统机器学习的单人人体姿态估计方法,其存在提取的手工制作的特征不足以确定身体部位的准确位置,并且取得的精确度较低,无法完成多人人体姿态估计任务的缺陷。
CN108154104A公开了一种基于深度图像超像素联合特征的人体姿态估计方法,以单幅包含人体的深度图像为输入数据,结合超像素分割对深度图像进行人体姿态特征提取,应用特征对人体部位进行分割,对分割后的部位进行聚类操作,并使用稀疏回归进行人体骨架点的位置估计。该方法存在以深度图像为基础,需要特殊的深度相机作为图像采集设备,成本高且精度较低,同时该方法仅能完成单人的人体姿态估计,因此该方法在实际的推广中存在一定的困难的缺陷。
CN108647663A公开了一种基于深度学习和多层次图结构模型的人体姿态估计方法,该方法利用深度学习模型提取特征,同时结合图结构模型对人体分为多个组合部件完成人体姿态估计。该方法存在对于图像数据中出现人体区域不全或部分遮挡时,无法按照预定的图结构模型进行部件定义,方法会失效,并且该方法在LSP数据集上进行的实验,该数据集仅包含2000张图像,与目前公开的大规模人体姿态识别数据集在样本量上有巨大差距,测试效果缺乏说服力的缺陷。
CN110598590A公开了一种基于多视角相机的紧密交互人体姿态估计方法及装置,该方法在获取多视角图像的基础上,在图像中检测人体关键点位置,通过多视角相机位姿对人体关键点位置进行估计,并生成人体关键点位置对应的三维坐标;利用优化姿态预处理函数对三维坐标进行处理生成初始人体姿态集合;最后依托SMPL-model人体模型将初始人体姿态集合拟合为人体模型,并利用优化姿态后处理函数对人体模型进行处理生成紧密交互人体真实姿态。该发明存在需要在实际测试环境中架设多个摄像机采集图像数据,而目前利用单幅图像进行人体姿态估计已经取得了很好的效果,再考虑实际测试环境以及设备成本的要求使得其很难推广的缺陷。
CN106650827A公开了一种基于结构指导深度学习的人体姿态估计方法和系统,该方法以人体骨架结构为指导,结合结构指导卷积神经网络和融合卷积神经网络完成人体关键点检测,给出人体姿态识别结果,其存在由于图像中的人体关键点不符合骨架结构分布,当图像中出现人体遮挡时该方法会失效的缺陷。
CN110008915A公开了一种基于Mask-RCNN的稠密人体姿态估计的系统及方法,该方法首先对输入图像提取特征,通过池化操作对特征图降维,利用低维的特征图完成目标区域的检测得到目标矩形区域;在此基础上通过语义分割获得各个目标区域的实际语义信息,再利用实例分割结合语义分割与目标区域进行处理获得人体实例分割掩码;最终通过建立图像与3D人体表面模型的关系得到稠密情况下人体姿态估计的结果。该方法存在人与人之间的遮挡与肢体的遮挡都会使得图像裁剪后包含与所讨论的人无关的多个人体关键点,这样就会导致在模型训练过程中出现人体关键点的歧义与主体目标的歧义,进而会导致模型的识别率下降的缺陷。
CN110197123A公开了一种基于Mask R-CNN的人体姿态识别方法,使用训练集通过残差网络进行训练,生成特征图;对特征图采用非最大值抑制,删除重叠候选框面积大于规定阈值的特征图;遍历训练集图像对应的感兴趣区域,通过二值分类与边界回归过滤部分感兴趣区域;对剩余的感兴趣区域进行ROI Align操作;对处理后的候选感兴趣区域进行姿态分类、边界回归和Mask生成,得到预训练模型;使用预训练模型对测试集图像进行姿态识别。该方法与CN110008915A相似,都是通过Mask提升人体目标检测的精度来改善人体姿态估计的表现,同样存在忽略了人体姿态估计模型与Mask之间的协作,对于多人的Mask中人与人之间,或者人的肢体之间的遮挡问题并没有很好地解决,进一步地,在自顶向下的人体目标裁剪过程中,会出现目标边界框有交集的情况,在拥挤场景下更为普遍,这样会导致某一目标边界框包含其他目标的部分肢体,在上述边界框中这些部分肢体会作为背景处理,而这些肢体在本体目标的边界框中则会成为主体,进而造成人体姿态估计的歧义影响识别精度的缺陷。
CN110084138A公开了一种2D多人姿态估计方法,构建顺序化的多阶段的全卷积神经网络,输出为人体关键点检测响应图与人体关键点亲和矢量场响应图;将训练集样本输入到人体姿态估计网络结构中进行训练,获得人体姿态估计模型;使用匈牙利算法和二分图算法处理得到的人体关键点检测响应图与人体关键点亲和矢量场响应图,以连接人体关键点得到最终的人体姿态估计结果。该方法存在从整张图像入手进行人体关键点检测,这势必会将图像中冗余的信息输入到模型的特征提取过程中,进而对人体关键点的回归结果造成影响,同时引入的人体关键点连接信息也会有误差,对最终的估计结果也会造成影响的缺陷。
综上所述,多人人体姿态估计方法的现有技术还存在在人群稠密情况下,对人体遮挡干扰鲁棒性差,人体关键点检测正确率较低的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种多人人体姿态估计方法,是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出多人人体姿态估计结果,克服了现有多人人体姿态估计方法技术所存在的在人群稠密情况下,对目标人体遮挡干扰鲁棒性差,人体关键点检测正确率较低的缺陷。
本发明解决该技术问题所采用的技术方案是:一种多人人体姿态估计方法,是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出人体姿态估计结果具体步骤如下:
A过程.深度特征人体关键点检测模型的建立和训练:
第一步,图像数据预处理:
第(1.1)步,图像归一化:
获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公共数据集,分为标签文件和图像文件,其中标签文件保存每张图像已经标注好的十七个人体关键点位置信息,对所获取的多人人体姿态估计MScoco图像数据集中的多人人体姿态估图像进行预处理,即将图像调整为384×288像素尺寸,然后根据期望与标准差的三种组合:(0.485,0.229),(0.456,0.244),(0.406,0.255),分别对图像的三个通道的像素值进行标准化,进而按照Mscoco数据集的划分方法将标准化处理后的图像文件分为原始图像训练集和原始图像测试集,由此完成图像归一化;
第(1.2)步,生成标注人体关键点置信度热图与二值掩码:
根据上述第(1.1)步中图像归一化得到的多人人体姿态估计图像以及每张图像已经标注好的十七个人体关键点位置信息,生成对应的十七个通道的人体关键点置信度热图,其中每个通道的人体关键点置信度热图的大小为96×72像素,同时生成对应的十七个通道的二值掩码,其大小与人体关键点置信度热图相同,人体关键点置信度热图生成的具体方法如下:
根据上述(1.1)步中所获取的多人人体姿态估计MScoco图像数据集中的每张图像已经标注好的十七个人体关键点位置信息,得出在图像中
Figure BDA0002389300510000041
位置的具体的人体关键点置信度热图
Figure BDA0002389300510000042
如下公式(1)所示,
Figure BDA0002389300510000043
公式(1)中,n为图像中人体目标的标号,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,
Figure BDA0002389300510000044
为图像中第n个人对应的第k类别人体关键点真值坐标,
Figure BDA0002389300510000045
为图像中像素坐标,其中p与xk,n的距离越近,对应人体关键点置信度热图中的置信度越高,σ为控制峰值的扩散,
将图像中所有人的置信度热图通过max运算将相同类别人体关键点热图聚合到同一置信通道Hk(p),如下公式(2)所示,
Figure BDA0002389300510000046
在生成人体关键点置信度热图
Figure BDA0002389300510000047
的基础上,生成十七个人体关键点通道的人体关键点二值掩码W(z),其大小与人体关键点置信度热图相同,z为十七个人体关键点通道的人体关键点二值掩码中的坐标位置,当坐标位置z的人体关键点不可见时,W(z)=0,否则W(z)=1,
至此完成生成标注人体关键点置信度热图与二值掩码;
所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的十七个通道的人体关键点置信度热图索引分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、 6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15- 左踝、16-右踝;
由此完成图像数据预处理;
第二步,构建深度特征人体关键点检测模型:
所构建的深度特征人体关键点检测模型分为主体网络与微调网络两部分:
第(2.1)步,构建主体网络部分:
主体网络部分以HRNet网络模型为基础,通过该模型结构中不同分辨率的深度特征输出层,构建得到的主体网络部分具有四个并行的深度特征提取子网络,其结构如下公式 (3)所示,
Figure BDA0002389300510000051
公式(3)中,Nij为HRNet网络的基本处理单元,其中横向为分支,包括四个分支,分支数j=1,2,3,4,纵向为阶段,包括四个阶段,阶段数为i=1,2,3,4,
该四个并行的深度特征提取子网的四个分支为:第一个分支为N11→N21→N31→N41,第二个分支为N22→N32→N42,第三个分支为N33→N43,第四个分支为N44,四个分支在四个并行深度特征提取子网络中引入交换单元进行多尺度融合,即引入的交换单元负责将各个处理单元输出的特征分辨率转换为下一处理单元处理的特征分辨率并融合,使每个深度特征提取子网络重复接收来自其他并行深度特征提取子网络的深度特征信息;
该四个并行的深度特征提取子网的四个阶段为:第一个阶段为N11,第二个阶段为N21和N22,第三个阶段为N31、N32和N33,第四个阶段为N41、N42、N43和N44,每一个阶段包含特征提取与多尺度融合两种功能,如下所示:
第一个阶段N11的输入为第一步预处理后的图像数据,经过特征提取生成C11 1,经过交换单元的多尺度融合后生成C21 1和C22 1,如下公式(4)所示,
Figure BDA0002389300510000052
公式(4)中,C11 1代表第一个阶段中N11提取的深度特征,C21 1和C22 1分别代表第一个阶段N11中交换单元多尺度融合后的深度特征,C21 1=C11 1,C22 1为C11 1的下采样,并且 C21 1和C22 1分别为N21和N22的输入,
第二个阶段N21和N22分别以C21 1和C22 1为输入,经过特征提取生成C21 2和C22 2,经过交换单元的多尺度融合后生成C31 2、C32 2和C33 2,如下公式(5)所示,
Figure BDA0002389300510000061
公式(5)中,C21 2代表第二个阶段中N21提取的深度特征,C22 2代表第二个阶段N22提取的深度特征,C1 2=C21 2,C2 2与C3 2为C21 2的下采样且分辨率不同,C5 2=C22 2,C4 2为C22 2的上采样,C6 2为C2 2的下采样,C31 2、C32 2和C33 2分别代表第二个阶段中交换单元多尺度融合后的深度特征,并且C31 2、C32 2和C33 2分别为N31、N32和N33的输入,
第三个阶段N31、N32和N33分别以C31 2、C32 2和C33 2为输入,经过特征提取生成C31 3、 C32 3和C33 3,经过交换单元的多尺度融合后生成C41 3、C42 3、C43 3和C44 3,如下公式(6) 所示,
Figure BDA0002389300510000062
公式(6)中,C31 3、C32 3和C33 3分别代表第三个阶段中N31、N32和N33提取的深度特征,C1 3=C31 3,C2 3、C3 3和C4 3为C31 3的下采样且分辨率不同,C6 3=C32 3,C5 3为C32 3的上采样,C7 3和C8 3为C32 3的下采样且分辨率不同,C11 3=C33 3,C9 3和C10 3为C33 3的上采样且分辨率不同,C12 3为C33 3的下采样,C41 3、C42 3、C43 3和C44 3分别代表第三个阶段中交换单元多尺度融合后的深度特征,并且C41 3、C42 3、C43 3和C44 3分别为N41、N42、N43和N44的输入,
第四个阶段N41、N42、N43和N44分别以C41 3、C42 3、C43 3和C44 3为输入,经过特征提取生成C41 4、C42 4、C43 4和C44 4,C41 4、C42 4、C43 4和C44 4分别为第四个阶段中N41、N42、 N43和N44提取的深度特征,从最后一个交换单元输出的高分辨率深度特征中回归人体关键点置信度热图H,如下公式(7)所示,
H=C1 4+C2 4+C3 4+C4 4 (7),
公式(7)中,C1 4=C41 4,C2 4、C3 4和C4 4分别为C42 4、C43 4和C44 4的上采样且与C1 4分辨率相同,H为人体关键点置信度热图,
由此完成构建主体网络部分,
将四个并行的深度特征提取子网中的第i个阶段的输入记为C={C1,C2,…,Ci},第i 阶段的输出记为C’={C1’,C2’,…,Ci+1’},输出的分辨率和宽度与输入的分辨率和宽度相同,在同一个阶段的不同个分支中,交换单元多尺度融合方式如下公式(8)所示,
Figure BDA0002389300510000063
公式(8)中,函数a(Cr,m)表示将Cr从分辨率r上采样或下采样到分辨率m,Cm’为 C’包含的元素,上采样使用最邻近采样,然后使用1×1的卷积进行通道对齐,下采样使用3×3的卷积,当r=m,有如下公式(9)所示,
a(Cr,m)=Cr (9),
主体网络输出的深度特征分辨率逐步递减为前一个阶段的一半,宽度即通道数加倍,通过并行连接高分辨率深度特征到低分辨率深度特征提取卷积来保持高分辨率深度特征,并通过在并行深度特征提取子网络之间重复执行多尺度融合来增强高分辨率深度特征,从而更加准确地定位图像中的人体关键点;
第(2.2)步,构建微调网络部分:
微调网络是将上述第(2.1)步构建的主体网络的各个阶段提取的深度特征:C11 1、C21 2、 C31 3、C41 4以及人体关键点置信度热图H进行进一步的特征提取,具体结构如下:
Figure BDA0002389300510000071
公式(10)中,C11 1、C21 2、C31 3、C41 4、H经过进一步特征提取后分别生成F1、F2、 F3、F4、F5,其中F1、F2、F3、F4、F5的宽度和分辨率都相同,C为F1、F2、F3、F4、F5的特征级联,H*为经过人体关键点在线挖掘的人体关键点置信度热图,
在主体网络的每个阶段都会有一个融合所有分支深度特征图的高分辨率深度特征图,微调网络根据不同类别人体关键点的识别率不同,进行人体关键点的在线挖掘以修正上述第(2.1)步构建的主体网络的人体关键点检测结果,即将输出的十七个置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度神经网络模型更加关注识别率较低的人体关键点;
第三步,训练深度特征人体关键点检测模型:
对上述第二步构建的深度特征人体关键点检测模型采用迁移学习训练方法,即首先进行自底向上的方法训练该深度特征人体关键点检测模型,然后进行自顶向下的方法训练该深度特征人体关键点检测模型,
第(3.1)步,采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图:
将上述第(1.1)步中的原始图像训练集中的人体预处理后的图像和对应的上述第(1.2) 步中的人体关键点置信度热图作为深度特征人体关键点检测模型的输入和输出,对深度特征人体关键点检测模型进行有监督的学习训练,采用完全自底向上的方法,利用上述第 (1.1)步中的原始图像训练集中的人体预处理后的图像数据对上述第二步构建的深度特征人体关键点检测模型进行训练,使得该深度特征人体关键点检测模型识别图像中所有的人体关键点而不受人体实例的影响,能够学习到数据集中图像完整的信息,并根据其中所学到的深度特征来输出人体关键点检测置信度热图,
训练深度特征人体关键点检测模型的损失函数如下公式(11)、公式(12)和公式(13) 所示,
Figure BDA0002389300510000081
Figure BDA0002389300510000082
Loss=Loss1+Loss2 (13),
公式(11)和(12)中,k=0,1,2,3…16为人体关键点类别所对应的人体关键点置信度热图的数字索引,p为图像中的像素坐标,H′k(p)为p位置人体关键点置信度热图的检测值, Hk(p)为p位置人体关键点置信度热图的真值,W为二值掩码,·为矩阵乘法,当p位置的人体关键点不可见,则W(p)=0,
公式(13)中,Loss1为主体网络的损失,Loss2为微调网络的损失,
微调网络结合Loss2完成识别率较低的人体关键点在线挖掘,将输出的十七个人体关键点检测置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度特征人体关键点检测模型更加关注识别率较低的人体关键点,在训练过程有效提高识别率较低的人体关键点识别率;
在采用自底向上训练深度特征人体关键点检测模型的训练过程中,采用Adam算法调整卷积的参数,学习率设置为0.001,从第170个循环开始以10%的增长率增大学习率,
至此完成采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图;
第(3.2)步,采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点:
首先对上述第(1.1)步中得到的原始图像训练集进行多人人体目标检测,多人人体目标检测结果为多个人体实例区域的边界框,根据边界框对相应图像进行裁剪,生成以多人人体实例为主体的图像数据集,对该数据集中的图像进行与上述第一步的图像数据预处理相同的预处理操作,根据裁剪后的图像与原图像空间的映射关系,生成裁剪图像内人体关键点的真值置信度热图,然后,采用自顶向下的方法,使用裁剪后的图像与对应的真值置信度热图继续完成训练深度特征人体关键点检测模型,最终识别裁剪后的图像中的所有人体关键点,
由此完成采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点,
至此完成A过程.深度特征人体关键点检测模型的建立和训练;
B过程.深度特征人体关键点检测模型的测试:
第五步,人体目标检测:
采用自顶向下的方法对上述第(1.1)步中得到的原始图像测试集进行人体目标检测,人体目标检测结果为人体实例的边界框,根据人体目标检测计算方法的输出结果对相应图像进行裁剪,生成以人体实例为主体的图像数据集,对该数据集的图像进行与上述第一步图像数据预处理相同的预处理操作;
上述人体目标检测计算方法的操作是,对不同尺寸的静态图像产生一组固定大小的默认边界框集合,对该组默认边界框内的区域利用深度特征人体关键点检测模型进行特征提取,提取特征的骨架网络采用残差网络50,取残差网络后四个残差单元输出的深度特征作为特征金字塔网络的输入,然后使用特征金字塔网络进行特征的分类,其中的人类类别的边框用于多人人体姿态估计任务;
第六步,输出人体关键点检测置信度热图:
使用上述第(3.2)步中采用自顶向下训练的深度特征人体关键点检测模型识别上述第五步中根据人体目标检测计算方法的输出结果对相应图像进行裁剪以后生成的图像中的所有人体关键点,并输出人体关键点检测置信度热图;
第七步,聚类人体关键点,输出多人人体姿态估计结果:
对上述第六步中输出的人体关键点检测置信度热图用人体关键点聚类模型进行人体关键点聚类,即将属于图像中的同一人体目标的人体关键点进行聚类,组成多人人体姿态估计的最终结果,根据上述第五步中的裁剪以后生成的图像中的所有人体关键点,将人体关键点坐标还原到第一步中的原图像空间中;
所用的人体关键点聚类模型为如下公式(14)所示,
H*={h1,h2,...,hk} (14),
公式(14)中,H*为第(2.2)步中经过人体关键点在线挖掘的人体关键点置信度热图,
Figure BDA0002389300510000091
为人体关键点单通道置信度热图,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,最后的输出目标标记为Y,包含该人体关键点置信度通道中峰值指示的每个人体关键点的正确位置,输出目标Y={y1,y2,...,yk},其中
Figure BDA0002389300510000092
为聚类后的人体关键点单通道置信度热图,其大小与hk相同,通过如下公式(15)将H*映射到Y,
yk=φk(H*)+hk (15),
公式(15)中,函数φ12,...,φK为对H*中的姿势应用残差校正,输出层的激活使用 softmax来获得适当的概率分布,并且在训练期间使用二进制交叉熵作为损失函数,使用“对象人体关键点相似性的k均值”对所有获得的人体关键点进行聚类,输出多人人体姿态估计结果;
至此完成B过程的深度特征人体关键点检测模型的测试;
最终完成多人人体姿态估计。
上述一种多人人体姿态估计方法,所述HRNet网络模型、Adam算法、残差网络50、max运算、特征金字塔网络、softmax、二进制交叉熵均是本技术领域公知技术;
上述一种多人人体姿态估计方法,所述对象人体关键点相似性的k均值为本领域公知技术,具体计算方法如下:
Figure BDA0002389300510000101
公式(16)中,k代表人体关键点类别所对应的人体关键点置信度热图的数字索引,zk代表检测到的第k类人体关键点的检测坐标,dk代表检测结果zk与对应人体关键点检测真值的欧氏距离,o代表人体关键点的区域范围,δk为第k类人体关键点区域范围的变化系数,通过这一系数调整表示不同类别人体关键点拥有的区域是不同的,W(zk)为二值掩码;
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明构建了一个用于人体关键点检测的深度特征人体关键点检测模型,以HRNet网络模型为基础,通过构建主体网络与微调网络的结合准确定位人体关键点。在本发明的深度特征人体关键点检测模型中,主体网络起到深度特征提取的作用,使用多通道、多阶段的模式共同提取深度特征,然后以多尺度融合的方式将多阶段深度特征组合,得到更加全面且有效的图像信息;微调网络级联整合主体网络提取的多阶段深度特征,对主体网络中识别率较低的人体关键点的损失进行在线挖掘,保证本发明的深度特征人体关键点检测模型的在训练过程中对不易识别的人体关键点的关注度,进而达到提升整体人体关键点的识别率的目的。在深度特征人体关键点检测模型的训练过程中,使用迁移学习的方法,结合自底向上和自顶向下的两阶段训练策略,第一个阶段训练采用自底向上的方式在未经过人体检测的原始图像训练集中训练得到基础深度特征人体关键点检测模型,避免了人体目标检测结果对模型训练过程的干扰,第二个阶段训练采用自顶向下的方式,已经得到的基础深度特征人体关键点检测模型迁移,在裁剪好的原始图像训练集训练得到深度特征人体关键点检测模型,增加模型对人体目标的关注度避免了复杂背景与复杂遮挡对模型训练过程的干扰,从而增加了模型识别人体关键点的鲁棒性。最终利用两阶段训练得到的深度特征人体关键点检测模型检测人体关键点,并通过聚类方法进行筛选输出人体姿态估计结果。
(2)本发明方法在深度特征人体关键点检测模型的测试过程中,采用带有人体关键点聚类的自顶向下方法来输出人体姿态估计结果,既避免了人体目标检测对最终结果的影响,又保证了人体姿态估计的明确性。
(3)本发明与CN110197123A和CN110084138A相比:CN110197123A与CN110084138A全部采用了自顶向下的方法,无法有效解决多人人体拥挤情况下人体目标相互遮挡所造成的歧义问题,导致随着图像中人体目标的增加,CN110197123A与CN110084138A的人体关键点识别率下降。本发明通过在训练过程中采用自底向上的方法有效弥补了自顶向下方法中的人体拥挤程度导致人体关键点识别率下降的缺陷。
(4)本发明与CN110084138A相比:CN110084138A采用了自底向上的算法,从整张图像入手进行人体关键点检测,这势必会将图像中冗余的信息输入到模型的特征提取过程中,进而对人体关键点的回归结果造成影响,导致人体关键点识别率低。本发明在识别人体关键点的过程中使用人体目标检测的计算方法,增加了深度特征人体关键点检测模型对于人体目标的注意力,在人体关键点检测后使用人体关键点聚类算法解决了人体关键点的连接问题,提高了人体关键点识别率。
(5)本发明与CN108154104A和CN110598590A相比:CN108154104A以深度图像为基础的单人人体姿态估计,需要特殊的深度相机作为图像采集设备,CN110598590A需要在实际测试环境中架设多个摄像机采集图像数据并且仅能完成单人姿态估计。本发明在识别人体关键点的过程中使用单视角的普通图像作为输入数据进行多人人体姿态估计,对实验环境与设备要求低,并且更好的满足实际应用需求,识别精度高,可推广性强。
(6)本发明与CN108647663A和CN106650827A相比:CN108647663A和CN106650827A分别以建立图模型以及骨架模型为基础进行人体姿态识别,在由于遮挡出现人体姿态不符合模型假设的情况下,其人体姿态识别会失效。本发明在深度特征人体关键点检测模型训练过程中采用二阶段策略,采用自底向上方法训练,同时采用自顶向下方法微调训练结果,更加有效解决遮挡情况下的多人人体姿态识别问题。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法的流程示意框图。
图2为本发明方法中的深度特征人体关键点检测模型结构图。
图3为本发明方法中的人体关键点聚类模型结构图。
具体实施方式
图1所示实施例表明,本发明方法的流程为:A过程.深度特征人体关键点检测模型的建立和训练:图像数据预处理→构建深度特征人体关键点检测模型:构建主体网络部分;构建微调网络部分→训练深度特征人体关键点检测模型:采用自底向上方法训练深度特征人体关键点检测模型;采用自顶向下方法训练深度特征人体关键点检测模型;B过程.深度特征人体关键点检测模型的测试:人体目标检测→输出人体关键点检测置信度热图→聚类人体关键点→输出多人人体姿态估计结果。
补充说明:图中
Figure 1
表示“采用自顶向下训练的深度特征人体关键点检测模型”识别“人体目标检测”,两步操作之后结合输出人体关键点检测置信度热图。
图2所示实施例表明,本发明方法中的深度特征人体关键点检测模型由主体网络和微调网络两部分组成,主体网络通过特征提取1-1对输入数据进行特征提取,经过下采样将提取的深度特征输入特征提取2-1、特征提取2-2;在此基础上通过交换单元将特征提取2- 1和特征提取2-2提取的深度特征进行处理,分别输入到特征提取3-1、特征提取3-2、特征提取3-3;继续将特征提取3-1、特征提取3-2、特征提取3-3所提取的深度特征利用交换单元进行处理,分别输入到特征提取4-1、特征提取4-2、特征提取4-3、特征提取4-4;最后将特征提取4-1、特征提取4-2、特征提取4-3、特征提取4-4输出的多分支深度特征融合为人体关键点置信度热图;微调网络将主体网络中特征提取2-1、特征提取3-1、特征提取4-1提取的多阶段深度特征和人体关键点置信度热图作为特征提取1、特征提取2、特征提取3、特征提取4的输入,将特征提取1、特征提取2、特征提取3、特征提取4、特征提取1-1提取的特征进行级联生成多阶段融合特征,并通过特征提取5生成人体关键点置信度热图*;最后主体网络和微调网络分别采用损失1和损失2进行训练,并将损失 1和损失2求和作为模型最终损失。
图3所示实施例表明,本发明方法中的人体关键点聚类模型结构为:包括输入层(图中的前一个单通道关键点热图96*72)、隐藏层和输出层(图中的后一个单通道关键点热图96*72)的三层BP神经网络。该模型显示为扁平化的人体姿态关键点的置信度热图, 96×72代表置信度热图的分辨率,扁平化后为6912×1(图中为6912*1),隐藏层包含1024 个节点,在模型的前向计算过程中,将隐藏层的输出数据与输入数据求和,然后逆扁平化求和结果得到最终人体关键点聚类结果。
实施例
本实施例一种多人人体姿态估计方法,具体步骤如下:
A过程.深度特征人体关键点检测模型的建立和训练:
第一步,图像数据预处理:
第(1.1)步,图像归一化:
获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公共数据集,分为标签文件和图像文件,其中标签文件保存每张图像已经标注好的十七个人体关键点位置信息,对所获取的多人人体姿态估计MScoco图像数据集中的多人人体姿态估图像进行预处理,即将图像调整为384×288像素尺寸,然后根据期望与标准差的三种组合:(0.485,0.229),(0.456,0.244),(0.406,0.255),分别对图像的三个通道的像素值进行标准化,进而按照Mscoco数据集的划分方法将标准化处理后的图像文件分为原始图像训练集和原始图像测试集,由此完成图像归一化;
第(1.2)步,生成标注人体关键点置信度热图与二值掩码:
根据上述第(1.1)步中图像归一化得到的多人人体姿态估计图像以及每张图像已经标注好的十七个人体关键点位置信息,生成对应的十七个通道的人体关键点置信度热图,其中每个通道的人体关键点置信度热图的大小为96×72像素,同时生成对应的十七个通道的二值掩码,其大小与人体关键点置信度热图相同,人体关键点置信度热图生成的具体方法如下:
根据上述(1.1)步中所获取的多人人体姿态估计MScoco图像数据集中的每张图像已经标注好的十七个人体关键点位置信息,得出在图像中
Figure BDA0002389300510000121
位置的具体的人体关键点置信度热图
Figure BDA0002389300510000122
如下公式(1)所示,
Figure BDA0002389300510000123
公式(1)中,n为图像中人体目标的标号,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,
Figure BDA0002389300510000131
为图像中第n个人对应的第k类别人体关键点真值坐标,
Figure BDA0002389300510000132
为图像中像素坐标,其中p与xk,n的距离越近,对应人体关键点置信度热图中的置信度越高,σ为控制峰值的扩散,
将图像中所有人的置信度热图通过max运算将相同类别人体关键点热图聚合到同一置信通道Hk(p),如下公式(2)所示,
Figure BDA0002389300510000133
在生成人体关键点置信度热图
Figure BDA0002389300510000134
的基础上,生成十七个人体关键点通道的人体关键点二值掩码W(z),其大小与人体关键点置信度热图相同,z为十七个人体关键点通道的人体关键点二值掩码中的坐标位置,当坐标位置z的人体关键点不可见时,W(z)=0,否则W(z)=1,
至此完成生成标注人体关键点置信度热图与二值掩码;
所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的十七个通道的人体关键点置信度热图索引分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、 6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15- 左踝、16-右踝;
由此完成图像数据预处理;
第二步,构建深度特征人体关键点检测模型:
所构建的深度特征人体关键点检测模型分为主体网络与微调网络两部分:
第(2.1)步,构建主体网络部分:
主体网络部分以HRNet网络模型为基础,通过该模型结构中不同分辨率的深度特征输出层,构建得到的主体网络部分具有四个并行的深度特征提取子网络,其结构如下公式 (3)所示,
Figure BDA0002389300510000135
公式(3)中,Nij为HRNet网络的基本处理单元,其中横向为分支,包括四个分支,分支数j=1,2,3,4,纵向为阶段,包括四个阶段,阶段数为i=1,2,3,4,
该四个并行的深度特征提取子网的四个分支为:第一个分支为N11→N21→N31→N41,第二个分支为N22→N32→N42,第三个分支为N33→N43,第四个分支为N44,四个分支在四个并行深度特征提取子网络中引入交换单元进行多尺度融合,即引入的交换单元负责将各个处理单元输出的特征分辨率转换为下一处理单元处理的特征分辨率并融合,使每个深度特征提取子网络重复接收来自其他并行深度特征提取子网络的深度特征信息;
该四个并行的深度特征提取子网的四个阶段为:第一个阶段为N11,第二个阶段为N21和N22,第三个阶段为N31、N32和N33,第四个阶段为N41、N42、N43和N44,每一个阶段包含特征提取与多尺度融合两种功能,如下所示:
第一个阶段N11的输入为第一步预处理后的图像数据,经过特征提取生成C11 1,经过交换单元的多尺度融合后生成C21 1和C22 1,如下公式(4)所示,
Figure BDA0002389300510000141
公式(4)中,C11 1代表第一个阶段中N11提取的深度特征,C21 1和C22 1分别代表第一个阶段N11中交换单元多尺度融合后的深度特征,C21 1=C11 1,C22 1为C11 1的下采样,并且 C21 1和C22 1分别为N21和N22的输入,
第二个阶段N21和N22分别以C21 1和C22 1为输入,经过特征提取生成C21 2和C22 2,经过交换单元的多尺度融合后生成C31 2、C32 2和C33 2,如下公式(5)所示,
Figure BDA0002389300510000142
公式(5)中,C21 2代表第二个阶段中N21提取的深度特征,C22 2代表第二个阶段N22提取的深度特征,C1 2=C21 2,C2 2与C3 2为C21 2的下采样且分辨率不同,C5 2=C22 2,C4 2为C22 2的上采样,C6 2为C2 2的下采样,C31 2、C32 2和C33 2分别代表第二个阶段中交换单元多尺度融合后的深度特征,并且C31 2、C32 2和C33 2分别为N31、N32和N33的输入,
第三个阶段N31、N32和N33分别以C31 2、C32 2和C33 2为输入,经过特征提取生成C31 3、 C32 3和C33 3,经过交换单元的多尺度融合后生成C41 3、C42 3、C43 3和C44 3,如下公式(6) 所示,
Figure BDA0002389300510000143
公式(6)中,C31 3、C32 3和C33 3分别代表第三个阶段中N31、N32和N33提取的深度特征,C1 3=C31 3,C2 3、C3 3和C4 3为C31 3的下采样且分辨率不同,C6 3=C32 3,C5 3为C32 3的上采样,C7 3和C8 3为C32 3的下采样且分辨率不同,C11 3=C33 3,C9 3和C10 3为C33 3的上采样且分辨率不同,C12 3为C33 3的下采样,C41 3、C42 3、C43 3和C44 3分别代表第三个阶段中交换单元多尺度融合后的深度特征,并且C41 3、C42 3、C43 3和C44 3分别为N41、N42、N43和N44的输入,
第四个阶段N41、N42、N43和N44分别以C41 3、C42 3、C43 3和C44 3为输入,经过特征提取生成C41 4、C42 4、C43 4和C44 4,C41 4、C42 4、C43 4和C44 4分别为第四个阶段中N41、N42、 N43和N44提取的深度特征,从最后一个交换单元输出的高分辨率深度特征中回归人体关键点置信度热图H,如下公式(7)所示,
H=C1 4+C2 4+C3 4+C4 4 (7),
公式(7)中,C1 4=C41 4,C2 4、C3 4和C4 4分别为C42 4、C43 4和C44 4的上采样且与C1 4分辨率相同,H为人体关键点置信度热图,
由此完成构建主体网络部分,
将四个并行的深度特征提取子网中的第i个阶段的输入记为C={C1,C2,…,Ci},第i 阶段的输出记为C’={C1’,C2’,…,Ci+1’},输出的分辨率和宽度与输入的分辨率和宽度相同,在同一个阶段的不同个分支中,交换单元多尺度融合方式如下公式(8)所示,
Figure BDA0002389300510000151
公式(8)中,函数a(Cr,m)表示将Cr从分辨率r上采样或下采样到分辨率m,Cm’为 C’包含的元素,上采样使用最邻近采样,然后使用1×1的卷积进行通道对齐,下采样使用 3×3的卷积,当r=m,有如下公式(9)所示,
a(Cr,m)=Cr (9),
主体网络输出的深度特征分辨率逐步递减为前一个阶段的一半,宽度即通道数加倍,通过并行连接高分辨率深度特征到低分辨率深度特征提取卷积来保持高分辨率深度特征,并通过在并行深度特征提取子网络之间重复执行多尺度融合来增强高分辨率深度特征,从而更加准确地定位图像中的人体关键点;
第(2.2)步,构建微调网络部分:
微调网络是将上述第(2.1)步构建的主体网络的各个阶段提取的深度特征:C11 1、C21 2、 C31 3、C41 4以及人体关键点置信度热图H进行进一步的特征提取,具体结构如下:
Figure BDA0002389300510000152
公式(10)中,C11 1、C21 2、C31 3、C41 4、H经过进一步特征提取后分别生成F1、F2、 F3、F4、F5,其中F1、F2、F3、F4、F5的宽度和分辨率都相同,C为F1、F2、F3、F4、F5的特征级联,H*为经过人体关键点在线挖掘的人体关键点置信度热图,
在主体网络的每个阶段都会有一个融合所有分支深度特征图的高分辨率深度特征图,微调网络根据不同类别人体关键点的识别率不同,进行人体关键点的在线挖掘以修正上述第(2.1)步构建的主体网络的人体关键点检测结果,即将输出的十七个置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度神经网络模型更加关注识别率较低的人体关键点;
第三步,训练深度特征人体关键点检测模型:
对上述第二步构建的深度特征人体关键点检测模型采用迁移学习训练方法,即首先进行自底向上的方法训练该深度特征人体关键点检测模型,然后进行自顶向下的方法训练该深度特征人体关键点检测模型,
第(3.1)步,采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图:
将上述第(1.1)步中的原始图像训练集中的人体预处理后的图像和对应的上述第(1.2) 步中的人体关键点置信度热图作为深度特征人体关键点检测模型的输入和输出,对深度特征人体关键点检测模型进行有监督的学习训练,采用完全自底向上的方法,利用上述第 (1.1)步中的原始图像训练集中的人体预处理后的图像数据对上述第二步构建的深度特征人体关键点检测模型进行训练,使得该深度特征人体关键点检测模型识别图像中所有的人体关键点而不受人体实例的影响,能够学习到数据集中图像完整的信息,并根据其中所学到的深度特征来输出人体关键点检测置信度热图,
训练深度特征人体关键点检测模型的损失函数如下公式(11)、公式(12)和公式(13) 所示,
Figure BDA0002389300510000161
Figure BDA0002389300510000162
Loss=Loss1+Loss2 (13),
公式(11)和(12)中,k=0,1,2,3…16为人体关键点类别所对应的人体关键点置信度热图的数字索引,p为图像中的像素坐标,H′k(p)为p位置人体关键点置信度热图的检测值, Hk(p)为p位置人体关键点置信度热图的真值,W为二值掩码,·为矩阵乘法,当p位置的人体关键点不可见,则W(p)=0,
公式(13)中,Loss1为主体网络的损失,Loss2为微调网络的损失,
微调网络结合Loss2完成识别率较低的人体关键点在线挖掘,将输出的十七个人体关键点检测置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度特征人体关键点检测模型更加关注识别率较低的人体关键点,在训练过程有效提高识别率较低的人体关键点识别率;
在采用自底向上训练深度特征人体关键点检测模型的训练过程中,采用Adam算法调整卷积的参数,学习率设置为0.001,从第170个循环开始以10%的增长率增大学习率,
至此完成采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图;
第(3.2)步,采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点:
首先对上述第(1.1)步中得到的原始图像训练集进行多人人体目标检测,多人人体目标检测结果为多个人体实例区域的边界框,根据边界框对相应图像进行裁剪,生成以多人人体实例为主体的图像数据集,对该数据集中的图像进行与上述第一步的图像数据预处理相同的预处理操作,根据裁剪后的图像与原图像空间的映射关系,生成裁剪图像内人体关键点的真值置信度热图,然后,采用自顶向下的方法,使用裁剪后的图像与对应的真值置信度热图继续完成训练深度特征人体关键点检测模型,最终识别裁剪后的图像中的所有人体关键点,
由此完成采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点,
至此完成A过程.深度特征人体关键点检测模型的建立和训练;
B过程.深度特征人体关键点检测模型的测试:
第五步,人体目标检测:
采用自顶向下的方法对上述第(1.1)步中得到的原始图像测试集进行人体目标检测,人体目标检测结果为人体实例的边界框,根据人体目标检测计算方法的输出结果对相应图像进行裁剪,生成以人体实例为主体的图像数据集,对该数据集的图像进行与上述第一步图像数据预处理相同的预处理操作;
上述人体目标检测计算方法的操作是,对不同尺寸的静态图像产生一组固定大小的默认边界框集合,对该组默认边界框内的区域利用深度特征人体关键点检测模型进行特征提取,提取特征的骨架网络采用残差网络50,取残差网络后四个残差单元输出的深度特征作为特征金字塔网络的输入,然后使用特征金字塔网络进行特征的分类,其中的人类类别的边框用于多人人体姿态估计任务;
第六步,输出人体关键点检测置信度热图:
使用上述第(3.2)步中采用自顶向下训练的深度特征人体关键点检测模型识别上述第五步中根据人体目标检测计算方法的输出结果对相应图像进行裁剪以后生成的图像中的所有人体关键点,并输出人体关键点检测置信度热图;
第七步,聚类人体关键点,输出多人人体姿态估计结果:
对上述第六步中输出的人体关键点检测置信度热图用人体关键点聚类模型进行人体关键点聚类,即将属于图像中的同一人体目标的人体关键点进行聚类,组成多人人体姿态估计的最终结果,根据上述第五步中的裁剪以后生成的图像中的所有人体关键点,将人体关键点坐标还原到第一步中的原图像空间中;
所用的人体关键点聚类模型为如下公式(14)所示,
H*={h1,h2,...,hk} (14),
公式(14)中,H*为第(2.2)步中经过人体关键点在线挖掘的人体关键点置信度热图,
Figure BDA0002389300510000171
为人体关键点单通道置信度热图,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,最后的输出目标标记为Y,包含该人体关键点置信度通道中峰值指示的每个人体关键点的正确位置,输出目标Y={y1,y2,...,yk},其中
Figure BDA0002389300510000172
为聚类后的人体关键点单通道置信度热图,其大小与hk相同,通过如下公式(15)将H*映射到Y,
yk=φk(H*)+hk (15),
公式(15)中,函数φ12,...,φK为对H*中的姿势应用残差校正,输出层的激活使用 softmax来获得适当的概率分布,并且在训练期间使用二进制交叉熵作为损失函数,使用“对象人体关键点相似性的k均值”对所有获得的人体关键点进行聚类,输出多人人体姿态估计结果;
至此完成B过程的深度特征人体关键点检测模型的测试;
最终完成多人人体姿态估计。
本实施例中使用5000张随机尺寸的图片(包括室内室外、不同尺度和不同光照的场景) 进行测试。测试环境如下:
CPU:i7-6700
操作系统:Windows10
内存:16G
GPU:NVIDIA Quadro K2200
测试代码采用深度学习框架:pytorch。Pytorch是torch的python版本,是由Facebook 开源的神经网络框架,专门针对GPU加速的深度神经网络(DNN)编程。Torch是一个经典的对多维矩阵数据进行操作的张量(tensor)库,在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图。
本实施例在Mscoco数据集上与现有相关的技术作对比实验。Mscoco数据集是微软构建的一个数据集,其包含目标检测、目标分割、关键点检测等任务。2017公开的数据集包含18000张训练集图片与5000张测试集图片,图片的内容多样,包括自然图片以及生活中常见的目标图片,背景比较复杂,目标数量比较多平均每张图片7.7个,目标尺寸更小,因此Mscoco数据集上的任务更难。评价指标采用对象关键点相似性
本实例在Mscoco数据集上与现有相关技术做对比实验,具体识别率如下表1:
表1
Figure BDA0002389300510000181
表1的实验结果列出了近几年人体姿态估计在MSCOCO数据集上的识别率对比:Kocabas Muhammed等人2018年在“Multiposenet:Fast multi-person pose estimationusing pose residual network”文献中在MSCOCO数据集上做人体姿态估计任务的平均识别率为69.6%;
He Kaiming等人2017年在“Mask r-cnn”文献中在MSCOCO数据集上做人体姿态识别任务的平均识别率为63.1%;
Cao Zhe等人2017年在“Realtime multi-person 2d pose estimation usingpart affinity fields”文献中在MSCOCO数据集上做人体姿态估计任务的平均识别率为61.8%;
Sun Ke等人2019年在“Deep high-resolution representation learning forhuman pose estimation”文献中在MSCOCO数据集上做人体姿态估计任务的平均识别率为76.3%;本实施例采用的基于深度特征的多人体姿态估计方法,与近几年论文相比识别率上均有较大提升。
上述实施例中,所述HRNet网络模型、Adam算法、残差网络50、max运算、特征金字塔网络、softmax、二进制交叉熵均是本技术领域公知技术;
上述实施例中,对象人体关键点相似性的k均值为本领域公知技术,具体计算方法如下:
Figure BDA0002389300510000191
公式(16)中,k代表人体关键点类别所对应的人体关键点置信度热图的数字索引,zk代表检测到的第k类人体关键点的检测坐标,dk代表检测结果zk与对应人体关键点检测真值的欧氏距离,o代表人体关键点的区域范围,δk为第k类人体关键点区域范围的变化系数,通过这一系数调整表示不同类别人体关键点拥有的区域是不同的,W(zk)为二值掩码。

Claims (1)

1.一种多人人体姿态估计方法,其特征在于:是一种基于深度特征的多人人体姿态估计方法,该方法构建了由主体网络与微调网络两部分组成的深度特征人体关键点检测模型,采用自底向上与自顶向下两种方法结合的两阶段训练方法训练深度特征人体关键点检测模型,最终利用两阶段训练好深度特征人体关键点检测模型检测人体关键点,并通过人体关键点聚类处理去除不属于目标人的冗余关键点,进而输出人体姿态估计结果具体步骤如下:
A过程.深度特征人体关键点检测模型的建立和训练:
第一步,图像数据预处理:
第(1.1)步,图像归一化:
获取多人人体姿态估计MScoco图像数据集,该数据集是人体姿态估计领域公共数据集,分为标签文件和图像文件,其中标签文件保存每张图像已经标注好的十七个人体关键点位置信息,对所获取的多人人体姿态估计MScoco图像数据集中的多人人体姿态估图像进行预处理,即将图像调整为384×288像素尺寸,然后根据期望与标准差的三种组合:(0.485,0.229),(0.456,0.244),(0.406,0.255),分别对图像的三个通道的像素值进行标准化,进而按照Mscoco数据集的划分方法将标准化处理后的图像文件分为原始图像训练集和原始图像测试集,由此完成图像归一化;
第(1.2)步,生成标注人体关键点置信度热图与二值掩码:
根据上述第(1.1)步中图像归一化得到的多人人体姿态估计图像以及每张图像已经标注好的十七个人体关键点位置信息,生成对应的十七个通道的人体关键点置信度热图,其中每个通道的人体关键点置信度热图的大小为96×72像素,同时生成对应的十七个通道的二值掩码,其大小与人体关键点置信度热图相同,人体关键点置信度热图生成的具体方法如下:
根据上述(1.1)步中所获取的多人人体姿态估计MScoco图像数据集中的每张图像已经标注好的十七个人体关键点位置信息,得出在图像中
Figure FDA0002389300500000011
位置的具体的人体关键点置信度热图
Figure FDA0002389300500000012
如下公式(1)所示,
Figure FDA0002389300500000013
公式(1)中,n为图像中人体目标的标号,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,
Figure FDA0002389300500000014
为图像中第n个人对应的第k类别人体关键点真值坐标,
Figure FDA0002389300500000015
为图像中像素坐标,其中p与xk,n的距离越近,对应人体关键点置信度热图中的置信度越高,σ为控制峰值的扩散,
将图像中所有人的置信度热图通过max运算将相同类别人体关键点热图聚合到同一置信通道Hk(p),如下公式(2)所示,
Figure FDA0002389300500000016
在生成人体关键点置信度热图
Figure FDA0002389300500000021
的基础上,生成十七个人体关键点通道的人体关键点二值掩码W(z),其大小与人体关键点置信度热图相同,z为十七个人体关键点通道的人体关键点二值掩码中的坐标位置,当坐标位置z的人体关键点不可见时,W(z)=0,否则W(z)=1,
至此完成生成标注人体关键点置信度热图与二值掩码;
所述十七个人体关键点的选定包括,鼻子、左右眼、左右耳、颈部、左右肩、左右手肘、左右手腕、左右臀部、左右膝盖和左右脚踝,这些人体关键点所对应的十七个通道的人体关键点置信度热图索引分别为,0-鼻子、1-左眼、2-右眼、3-左耳、4-右耳、5-左肩、6-右肩、7-左肘、8右肘、9-左腕、10-右腕、11-左髋、12-右髋、13-左膝、14-右膝、15-左踝、16-右踝;
由此完成图像数据预处理;
第二步,构建深度特征人体关键点检测模型:
所构建的深度特征人体关键点检测模型分为主体网络与微调网络两部分:
第(2.1)步,构建主体网络部分:
主体网络部分以HRNet网络模型为基础,通过该模型结构中不同分辨率的深度特征输出层,构建得到的主体网络部分具有四个并行的深度特征提取子网络,其结构如下公式(3)所示,
Figure FDA0002389300500000022
公式(3)中,Nij为HRNet网络的基本处理单元,其中横向为分支,包括四个分支,分支数j=1,2,3,4,纵向为阶段,包括四个阶段,阶段数为i=1,2,3,4,
该四个并行的深度特征提取子网的四个分支为:第一个分支为N11→N21→N31→N41,第二个分支为N22→N32→N42,第三个分支为N33→N43,第四个分支为N44,四个分支在四个并行深度特征提取子网络中引入交换单元进行多尺度融合,即引入的交换单元负责将各个处理单元输出的特征分辨率转换为下一处理单元处理的特征分辨率并融合,使每个深度特征提取子网络重复接收来自其他并行深度特征提取子网络的深度特征信息;
该四个并行的深度特征提取子网的四个阶段为:第一个阶段为N11,第二个阶段为N21和N22,第三个阶段为N31、N32和N33,第四个阶段为N41、N42、N43和N44,每一个阶段包含特征提取与多尺度融合两种功能,如下所示:
第一个阶段N11的输入为第一步预处理后的图像数据,经过特征提取生成C11 1,经过交换单元的多尺度融合后生成C21 1和C22 1,如下公式(4)所示,
Figure FDA0002389300500000023
公式(4)中,C11 1代表第一个阶段中N11提取的深度特征,C21 1和C22 1分别代表第一个阶段N11中交换单元多尺度融合后的深度特征,C21 1=C11 1,C22 1为C11 1的下采样,并且C21 1和C22 1分别为N21和N22的输入,
第二个阶段N21和N22分别以C21 1和C22 1为输入,经过特征提取生成C21 2和C22 2,经过交换单元的多尺度融合后生成C31 2、C32 2和C33 2,如下公式(5)所示,
Figure FDA0002389300500000031
公式(5)中,C21 2代表第二个阶段中N21提取的深度特征,C22 2代表第二个阶段N22提取的深度特征,C1 2=C21 2,C2 2与C3 2为C21 2的下采样且分辨率不同,C5 2=C22 2,C4 2为C22 2的上采样,C6 2为C2 2的下采样,C31 2、C32 2和C33 2分别代表第二个阶段中交换单元多尺度融合后的深度特征,并且C31 2、C32 2和C33 2分别为N31、N32和N33的输入,
第三个阶段N31、N32和N33分别以C31 2、C32 2和C33 2为输入,经过特征提取生成C31 3、C32 3和C33 3,经过交换单元的多尺度融合后生成C41 3、C42 3、C43 3和C44 3,如下公式(6)所示,
Figure FDA0002389300500000032
公式(6)中,C31 3、C32 3和C33 3分别代表第三个阶段中N31、N32和N33提取的深度特征,C1 3=C31 3,C2 3、C3 3和C4 3为C31 3的下采样且分辨率不同,C6 3=C32 3,C5 3为C32 3的上采样,C7 3和C8 3为C32 3的下采样且分辨率不同,C11 3=C33 3,C9 3和C10 3为C33 3的上采样且分辨率不同,C12 3为C33 3的下采样,C41 3、C42 3、C43 3和C44 3分别代表第三个阶段中交换单元多尺度融合后的深度特征,并且C41 3、C42 3、C43 3和C44 3分别为N41、N42、N43和N44的输入,
第四个阶段N41、N42、N43和N44分别以C41 3、C42 3、C43 3和C44 3为输入,经过特征提取生成C41 4、C42 4、C43 4和C44 4,C41 4、C42 4、C43 4和C44 4分别为第四个阶段中N41、N42、N43和N44提取的深度特征,从最后一个交换单元输出的高分辨率深度特征中回归人体关键点置信度热图H,如下公式(7)所示,
H=C1 4+C2 4+C3 4+C4 4 (7),
公式(7)中,C1 4=C41 4,C2 4、C3 4和C4 4分别为C42 4、C43 4和C44 4的上采样且与C1 4分辨率相同,H为人体关键点置信度热图,
由此完成构建主体网络部分,
将四个并行的深度特征提取子网中的第i个阶段的输入记为C={C1,C2,…,Ci},第i阶段的输出记为C’={C1’,C2’,…,Ci+1’},输出的分辨率和宽度与输入的分辨率和宽度相同,在同一个阶段的不同个分支中,交换单元多尺度融合方式如下公式(8)所示,
Figure FDA0002389300500000033
公式(8)中,函数a(Cr,m)表示将Cr从分辨率r上采样或下采样到分辨率m,Cm’为C’包含的元素,上采样使用最邻近采样,然后使用1×1的卷积进行通道对齐,下采样使用3×3的卷积,当r=m,有如下公式(9)所示,
a(Cr,m)=Cr (9),
主体网络输出的深度特征分辨率逐步递减为前一个阶段的一半,宽度即通道数加倍,通过并行连接高分辨率深度特征到低分辨率深度特征提取卷积来保持高分辨率深度特征,并通过在并行深度特征提取子网络之间重复执行多尺度融合来增强高分辨率深度特征,从而更加准确地定位图像中的人体关键点;
第(2.2)步,构建微调网络部分:
微调网络是将上述第(2.1)步构建的主体网络的各个阶段提取的深度特征:C11 1、C21 2、C31 3、C41 4以及人体关键点置信度热图H进行进一步的特征提取,具体结构如下:
Figure FDA0002389300500000041
公式(10)中,C11 1、C21 2、C31 3、C41 4、H经过进一步特征提取后分别生成F1、F2、F3、F4、F5,其中F1、F2、F3、F4、F5的宽度和分辨率都相同,C为F1、F2、F3、F4、F5的特征级联,H*为经过人体关键点在线挖掘的人体关键点置信度热图,
在主体网络的每个阶段都会有一个融合所有分支深度特征图的高分辨率深度特征图,微调网络根据不同类别人体关键点的识别率不同,进行人体关键点的在线挖掘以修正上述第(2.1)步构建的主体网络的人体关键点检测结果,即将输出的十七个置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度神经网络模型更加关注识别率较低的人体关键点;
第三步,训练深度特征人体关键点检测模型:
对上述第二步构建的深度特征人体关键点检测模型采用迁移学习训练方法,即首先进行自底向上的方法训练该深度特征人体关键点检测模型,然后进行自顶向下的方法训练该深度特征人体关键点检测模型,
第(3.1)步,采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图:
将上述第(1.1)步中的原始图像训练集中的人体预处理后的图像和对应的上述第(1.2)步中的人体关键点置信度热图作为深度特征人体关键点检测模型的输入和输出,对深度特征人体关键点检测模型进行有监督的学习训练,采用完全自底向上的方法,利用上述第(1.1)步中的原始图像训练集中的人体预处理后的图像数据对上述第二步构建的深度特征人体关键点检测模型进行训练,使得该深度特征人体关键点检测模型识别图像中所有的人体关键点而不受人体实例的影响,能够学习到数据集中图像完整的信息,并根据其中所学到的深度特征来输出人体关键点检测置信度热图,
训练深度特征人体关键点检测模型的损失函数如下公式(11)、公式(12)和公式(13)所示,
Figure FDA0002389300500000051
Figure FDA0002389300500000052
Loss=Loss1+Loss2 (13),
公式(11)和(12)中,k=0,1,2,3…16为人体关键点类别所对应的人体关键点置信度热图的数字索引,p为图像中的像素坐标,H′k(p)为p位置人体关键点置信度热图的检测值,Hk(p)为p位置人体关键点置信度热图的真值,W为二值掩码,·为矩阵乘法,当p位置的人体关键点不可见,则W(p)=0,
公式(13)中,Loss1为主体网络的损失,Loss2为微调网络的损失,
微调网络结合Loss2完成识别率较低的人体关键点在线挖掘,将输出的十七个人体关键点检测置信度热图的单通道损失进行降序排序,取前八位的损失之和作为损失函数的最终值,结合主体网络的损失使得深度特征人体关键点检测模型更加关注识别率较低的人体关键点,在训练过程有效提高识别率较低的人体关键点识别率;
在采用自底向上训练深度特征人体关键点检测模型的训练过程中,采用Adam算法调整卷积的参数,学习率设置为0.001,从第170个循环开始以10%的增长率增大学习率,
至此完成采用自底向上训练深度特征人体关键点检测模型,输出人体关键点检测置信度热图;
第(3.2)步,采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点:
首先对上述第(1.1)步中得到的原始图像训练集进行多人人体目标检测,多人人体目标检测结果为多个人体实例区域的边界框,根据边界框对相应图像进行裁剪,生成以多人人体实例为主体的图像数据集,对该数据集中的图像进行与上述第一步的图像数据预处理相同的预处理操作,根据裁剪后的图像与原图像空间的映射关系,生成裁剪图像内人体关键点的真值置信度热图,然后,采用自顶向下的方法,使用裁剪后的图像与对应的真值置信度热图继续完成训练深度特征人体关键点检测模型,最终识别裁剪后的图像中的所有人体关键点,
由此完成采用自顶向下训练深度特征人体关键点检测模型,识别裁剪后的图像中的所有人体关键点,
至此完成A过程.深度特征人体关键点检测模型的建立和训练;
B过程.深度特征人体关键点检测模型的测试:
第五步,人体目标检测:
采用自顶向下的方法对上述第(1.1)步中得到的原始图像测试集进行人体目标检测,人体目标检测结果为人体实例的边界框,根据人体目标检测计算方法的输出结果对相应图像进行裁剪,生成以人体实例为主体的图像数据集,对该数据集的图像进行与上述第一步图像数据预处理相同的预处理操作;
上述人体目标检测计算方法的操作是,对不同尺寸的静态图像产生一组固定大小的默认边界框集合,对该组默认边界框内的区域利用深度特征人体关键点检测模型进行特征提取,提取特征的骨架网络采用残差网络50,取残差网络后四个残差单元输出的深度特征作为特征金字塔网络的输入,然后使用特征金字塔网络进行特征的分类,其中的人类类别的边框用于多人人体姿态估计任务;
第六步,输出人体关键点检测置信度热图:
使用上述第(3.2)步中采用自顶向下训练的深度特征人体关键点检测模型识别上述第五步中根据人体目标检测计算方法的输出结果对相应图像进行裁剪以后生成的图像中的所有人体关键点,并输出人体关键点检测置信度热图;
第七步,聚类人体关键点,输出多人人体姿态估计结果:
对上述第六步中输出的人体关键点检测置信度热图用人体关键点聚类模型进行人体关键点聚类,即将属于图像中的同一人体目标的人体关键点进行聚类,组成多人人体姿态估计的最终结果,根据上述第五步中的裁剪以后生成的图像中的所有人体关键点,将人体关键点坐标还原到第一步中的原图像空间中;
所用的人体关键点聚类模型为如下公式(14)所示,
H*={h1,h2,...,hk} (14),
公式(14)中,H*为第(2.2)步中经过人体关键点在线挖掘的人体关键点置信度热图,
Figure FDA0002389300500000061
为人体关键点单通道置信度热图,k=0,1,2,3…16代表人体关键点类别所对应的人体关键点置信度热图的数字索引,最后的输出目标标记为Y,包含该人体关键点置信度通道中峰值指示的每个人体关键点的正确位置,输出目标Y={y1,y2,...,yk},其中
Figure FDA0002389300500000062
为聚类后的人体关键点单通道置信度热图,其大小与hk相同,通过如下公式(15)将H*映射到Y,
yk=φk(H*)+hk (15),
公式(15)中,函数φ12,...,φK为对H*中的姿势应用残差校正,输出层的激活使用softmax来获得适当的概率分布,并且在训练期间使用二进制交叉熵作为损失函数,使用“对象人体关键点相似性的k均值”对所有获得的人体关键点进行聚类,输出多人人体姿态估计结果;
至此完成B过程的深度特征人体关键点检测模型的测试;
最终完成多人人体姿态估计。
CN202010108983.6A 2020-02-21 2020-02-21 一种多人人体姿态估计方法 Expired - Fee Related CN111339903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010108983.6A CN111339903B (zh) 2020-02-21 2020-02-21 一种多人人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010108983.6A CN111339903B (zh) 2020-02-21 2020-02-21 一种多人人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN111339903A true CN111339903A (zh) 2020-06-26
CN111339903B CN111339903B (zh) 2022-02-08

Family

ID=71181965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010108983.6A Expired - Fee Related CN111339903B (zh) 2020-02-21 2020-02-21 一种多人人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111339903B (zh)

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783882A (zh) * 2020-06-30 2020-10-16 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111784623A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN111860216A (zh) * 2020-06-30 2020-10-30 西安工程大学 一种结合注意力机制和部分亲和域场的人体姿态估计方法
CN111898642A (zh) * 2020-06-30 2020-11-06 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111914704A (zh) * 2020-07-20 2020-11-10 北京格灵深瞳信息技术有限公司 一种三轮车载人的识别方法、装置、电子设备及存储介质
CN111985549A (zh) * 2020-08-12 2020-11-24 中国科学院光电技术研究所 针对给定刚体目标进行部件自动定位识别的深度学习方法
CN112052886A (zh) * 2020-08-21 2020-12-08 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112085789A (zh) * 2020-08-11 2020-12-15 深圳先进技术研究院 位姿估计方法、装置、设备及介质
CN112084981A (zh) * 2020-09-15 2020-12-15 华侨大学 一种基于神经网络定制服装的方法
CN112115885A (zh) * 2020-09-22 2020-12-22 中国农业科学院农业信息研究所 基于深度卷积神经网络的采摘用果树结果枝剪切点定位方法
CN112132839A (zh) * 2020-08-27 2020-12-25 杭州英歌智达科技有限公司 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN112336342A (zh) * 2020-10-29 2021-02-09 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
CN112418120A (zh) * 2020-11-27 2021-02-26 湖南师范大学 基于峰值置信图的人群检测方法
CN112464895A (zh) * 2020-12-14 2021-03-09 深圳市优必选科技股份有限公司 姿态识别模型训练方法、装置、姿态识别方法和终端设备
CN112507954A (zh) * 2020-12-21 2021-03-16 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112580488A (zh) * 2020-12-15 2021-03-30 深圳大学 一种基于自启发的人体姿态估计模型训练方法及装置
CN112597954A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN112598738A (zh) * 2020-12-25 2021-04-02 南京大学 一种基于深度学习的人物定位方法
CN112634367A (zh) * 2020-12-25 2021-04-09 天津大学 一种基于深度神经网络的抗遮挡的物体位姿估计方法
CN112668531A (zh) * 2021-01-05 2021-04-16 重庆大学 一种基于动作识别的运动姿态矫正方法
CN112668545A (zh) * 2020-11-20 2021-04-16 华侨大学 一种基于人体树状网络和不同激活域值的姿态估计方法
CN112801138A (zh) * 2021-01-05 2021-05-14 北京交通大学 基于人体拓扑结构对齐的多人姿态估计方法
CN112802161A (zh) * 2021-01-27 2021-05-14 青岛联合创智科技有限公司 一种三维虚拟角色智能蒙皮方法
CN112836597A (zh) * 2021-01-15 2021-05-25 西北大学 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN112884780A (zh) * 2021-02-06 2021-06-01 罗普特科技集团股份有限公司 一种用于人体姿态的估计方法和系统
CN112907736A (zh) * 2021-03-11 2021-06-04 清华大学 基于隐式场的十亿像素场景人群三维重建方法和装置
CN112967199A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
CN112967200A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN112966574A (zh) * 2021-02-22 2021-06-15 厦门艾地运动科技有限公司 人体三维关键点预测方法、装置及电子设备
CN113011402A (zh) * 2021-04-30 2021-06-22 中国科学院自动化研究所 基于卷积神经网络的灵长类动物姿态估计系统、方法
CN113076891A (zh) * 2021-04-09 2021-07-06 华南理工大学 基于改进高分辨率网络的人体姿态预测方法及系统
CN113158870A (zh) * 2021-04-15 2021-07-23 华南理工大学 2d多人姿态估计网络的对抗式训练方法、系统及介质
CN113158756A (zh) * 2021-02-09 2021-07-23 上海领本智能科技有限公司 基于HRNet深度学习的姿态、行为分析模块及分析方法
CN113343762A (zh) * 2021-05-07 2021-09-03 北京邮电大学 人体姿态估计分组模型训练方法、姿态估计方法及装置
CN113344094A (zh) * 2021-06-21 2021-09-03 梅卡曼德(北京)机器人科技有限公司 图像掩膜生成方法、装置、电子设备和存储介质
CN113673354A (zh) * 2021-07-23 2021-11-19 湖南大学 一种基于上下文信息与联合嵌入的人体关键点检测方法
CN113705445A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于事件相机的人体姿态识别的方法及设备
CN113743189A (zh) * 2021-06-29 2021-12-03 杭州电子科技大学 一种基于分割引导的人体姿态识别方法
CN113763467A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 图像处理方法、装置、计算设备及介质
CN113850221A (zh) * 2021-09-30 2021-12-28 北京航空航天大学 一种基于关键点筛选的姿态跟踪方法
CN114022686A (zh) * 2021-12-07 2022-02-08 中国人民公安大学 一种面向遮挡场景的行人再识别方法
CN114155560A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114373226A (zh) * 2021-12-31 2022-04-19 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法
CN114387614A (zh) * 2021-12-06 2022-04-22 西北大学 一种双重关键点生理关联约束的复杂人体姿态估计方法
CN114549927A (zh) * 2022-01-26 2022-05-27 华中科技大学 特征检测网络训练、增强现虚实注册跟踪及遮挡处理方法
CN114548224A (zh) * 2022-01-19 2022-05-27 南京邮电大学 一种用于强交互人体运动的2d人体位姿生成方法及装置
CN114821717A (zh) * 2022-04-20 2022-07-29 北京百度网讯科技有限公司 目标对象融合方法、装置、电子设备及存储介质
CN114973305A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种针对拥挤人群的精确人体解析方法
CN115147547A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 人体重建方法和装置
WO2022230221A1 (ja) * 2021-04-28 2022-11-03 株式会社メガチップス ポーズデータ生成装置、ポーズデータ生成方法、および、プログラム
CN115331153A (zh) * 2022-10-12 2022-11-11 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法
CN115862149A (zh) * 2022-12-30 2023-03-28 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN116524546A (zh) * 2023-07-04 2023-08-01 南京邮电大学 一种基于异构图像协同增强的低分辨率人体姿态估计方法
CN116704552A (zh) * 2023-06-13 2023-09-05 中国电子科技集团公司第五十四研究所 基于主要次要特征的人体姿态估计方法
CN116912884A (zh) * 2023-07-21 2023-10-20 北京优创新港科技股份有限公司 一种人体关键点检测方法及系统
CN116959120A (zh) * 2023-09-15 2023-10-27 中南民族大学 一种基于手部关节的人手姿态估计方法及系统
CN117711028A (zh) * 2024-02-06 2024-03-15 深圳大学 一种基于注意力机制模块的人体姿态估计方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175575A (zh) * 2019-05-29 2019-08-27 南京邮电大学 一种基于新型高分辨率网络模型的单人姿态估计方法
CN110674712A (zh) * 2019-09-11 2020-01-10 苏宁云计算有限公司 交互行为识别方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175575A (zh) * 2019-05-29 2019-08-27 南京邮电大学 一种基于新型高分辨率网络模型的单人姿态估计方法
CN110674712A (zh) * 2019-09-11 2020-01-10 苏宁云计算有限公司 交互行为识别方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KE SUN等: ""Deep High-Resolution Representation Learning for Human Pose Estimation"", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
梁华刚等: ""基于Res-Bi-LSTM的人脸表情识别"", 《计算机工程与应用》 *

Cited By (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783882A (zh) * 2020-06-30 2020-10-16 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111860216A (zh) * 2020-06-30 2020-10-30 西安工程大学 一种结合注意力机制和部分亲和域场的人体姿态估计方法
CN111898642A (zh) * 2020-06-30 2020-11-06 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111898642B (zh) * 2020-06-30 2021-08-13 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN111914704A (zh) * 2020-07-20 2020-11-10 北京格灵深瞳信息技术有限公司 一种三轮车载人的识别方法、装置、电子设备及存储介质
CN111914704B (zh) * 2020-07-20 2024-03-19 北京格灵深瞳信息技术有限公司 一种三轮车载人的识别方法、装置、电子设备及存储介质
CN112085789B (zh) * 2020-08-11 2024-08-27 深圳先进技术研究院 位姿估计方法、装置、设备及介质
CN112085789A (zh) * 2020-08-11 2020-12-15 深圳先进技术研究院 位姿估计方法、装置、设备及介质
CN111985549A (zh) * 2020-08-12 2020-11-24 中国科学院光电技术研究所 针对给定刚体目标进行部件自动定位识别的深度学习方法
WO2022036777A1 (zh) * 2020-08-21 2022-02-24 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112052886B (zh) * 2020-08-21 2022-06-03 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112052886A (zh) * 2020-08-21 2020-12-08 暨南大学 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112132839A (zh) * 2020-08-27 2020-12-25 杭州英歌智达科技有限公司 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN112132839B (zh) * 2020-08-27 2024-04-30 杭州英歌智达科技有限公司 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN111784623A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN112084981B (zh) * 2020-09-15 2023-06-02 华侨大学 一种基于神经网络定制服装的方法
CN112084981A (zh) * 2020-09-15 2020-12-15 华侨大学 一种基于神经网络定制服装的方法
CN112115885A (zh) * 2020-09-22 2020-12-22 中国农业科学院农业信息研究所 基于深度卷积神经网络的采摘用果树结果枝剪切点定位方法
CN112115885B (zh) * 2020-09-22 2023-08-11 中国农业科学院农业信息研究所 基于深度卷积神经网络的采摘用果树结果枝剪切点定位方法
CN112336342A (zh) * 2020-10-29 2021-02-09 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
CN112336342B (zh) * 2020-10-29 2023-10-24 深圳市优必选科技股份有限公司 手部关键点检测方法、装置及终端设备
CN112668545A (zh) * 2020-11-20 2021-04-16 华侨大学 一种基于人体树状网络和不同激活域值的姿态估计方法
CN112668545B (zh) * 2020-11-20 2023-06-02 华侨大学 一种基于人体树状网络和不同激活域值的姿态估计方法
CN112418120A (zh) * 2020-11-27 2021-02-26 湖南师范大学 基于峰值置信图的人群检测方法
CN112418120B (zh) * 2020-11-27 2021-09-28 湖南师范大学 基于峰值置信图的人群检测方法
CN112464895A (zh) * 2020-12-14 2021-03-09 深圳市优必选科技股份有限公司 姿态识别模型训练方法、装置、姿态识别方法和终端设备
CN112464895B (zh) * 2020-12-14 2023-09-01 深圳市优必选科技股份有限公司 姿态识别模型训练方法、装置、姿态识别方法和终端设备
CN112580488A (zh) * 2020-12-15 2021-03-30 深圳大学 一种基于自启发的人体姿态估计模型训练方法及装置
CN112580488B (zh) * 2020-12-15 2023-12-22 深圳大学 一种基于自启发的人体姿态估计模型训练方法及装置
CN112507954A (zh) * 2020-12-21 2021-03-16 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112507954B (zh) * 2020-12-21 2024-01-19 深圳市优必选科技股份有限公司 一种人体关键点识别方法、装置、终端设备及存储介质
CN112598738A (zh) * 2020-12-25 2021-04-02 南京大学 一种基于深度学习的人物定位方法
CN112598738B (zh) * 2020-12-25 2024-03-19 南京大学 一种基于深度学习的人物定位方法
CN112634367A (zh) * 2020-12-25 2021-04-09 天津大学 一种基于深度神经网络的抗遮挡的物体位姿估计方法
CN112597954A (zh) * 2020-12-30 2021-04-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN112597954B (zh) * 2020-12-30 2023-06-02 华侨大学 一种基于自底向上的多人姿态估计方法及系统
CN113763467A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 图像处理方法、装置、计算设备及介质
CN112668531A (zh) * 2021-01-05 2021-04-16 重庆大学 一种基于动作识别的运动姿态矫正方法
CN112801138A (zh) * 2021-01-05 2021-05-14 北京交通大学 基于人体拓扑结构对齐的多人姿态估计方法
CN112801138B (zh) * 2021-01-05 2024-04-09 北京交通大学 基于人体拓扑结构对齐的多人姿态估计方法
CN112836597A (zh) * 2021-01-15 2021-05-25 西北大学 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN112836597B (zh) * 2021-01-15 2023-10-17 西北大学 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN112802161B (zh) * 2021-01-27 2022-11-15 青岛联合创智科技有限公司 一种三维虚拟角色智能蒙皮方法
CN112802161A (zh) * 2021-01-27 2021-05-14 青岛联合创智科技有限公司 一种三维虚拟角色智能蒙皮方法
CN112884780A (zh) * 2021-02-06 2021-06-01 罗普特科技集团股份有限公司 一种用于人体姿态的估计方法和系统
CN113158756A (zh) * 2021-02-09 2021-07-23 上海领本智能科技有限公司 基于HRNet深度学习的姿态、行为分析模块及分析方法
CN112966574A (zh) * 2021-02-22 2021-06-15 厦门艾地运动科技有限公司 人体三维关键点预测方法、装置及电子设备
CN112967199A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法和装置
CN112967200A (zh) * 2021-03-05 2021-06-15 北京字跳网络技术有限公司 图像处理方法、装置、电子设备、介质和计算机程序产品
CN112907736B (zh) * 2021-03-11 2022-07-15 清华大学 基于隐式场的十亿像素场景人群三维重建方法和装置
CN112907736A (zh) * 2021-03-11 2021-06-04 清华大学 基于隐式场的十亿像素场景人群三维重建方法和装置
CN113076891B (zh) * 2021-04-09 2023-08-22 华南理工大学 基于改进高分辨率网络的人体姿态预测方法及系统
CN113076891A (zh) * 2021-04-09 2021-07-06 华南理工大学 基于改进高分辨率网络的人体姿态预测方法及系统
CN113158870A (zh) * 2021-04-15 2021-07-23 华南理工大学 2d多人姿态估计网络的对抗式训练方法、系统及介质
CN113158870B (zh) * 2021-04-15 2023-07-18 华南理工大学 2d多人姿态估计网络的对抗式训练方法、系统及介质
WO2022230221A1 (ja) * 2021-04-28 2022-11-03 株式会社メガチップス ポーズデータ生成装置、ポーズデータ生成方法、および、プログラム
CN113011402A (zh) * 2021-04-30 2021-06-22 中国科学院自动化研究所 基于卷积神经网络的灵长类动物姿态估计系统、方法
CN113343762A (zh) * 2021-05-07 2021-09-03 北京邮电大学 人体姿态估计分组模型训练方法、姿态估计方法及装置
CN113344094A (zh) * 2021-06-21 2021-09-03 梅卡曼德(北京)机器人科技有限公司 图像掩膜生成方法、装置、电子设备和存储介质
CN113743189B (zh) * 2021-06-29 2024-02-02 杭州电子科技大学 一种基于分割引导的人体姿态识别方法
CN113743189A (zh) * 2021-06-29 2021-12-03 杭州电子科技大学 一种基于分割引导的人体姿态识别方法
CN113673354B (zh) * 2021-07-23 2024-02-20 湖南大学 一种基于上下文信息与联合嵌入的人体关键点检测方法
CN113673354A (zh) * 2021-07-23 2021-11-19 湖南大学 一种基于上下文信息与联合嵌入的人体关键点检测方法
CN113705445A (zh) * 2021-08-27 2021-11-26 深圳龙岗智能视听研究院 一种基于事件相机的人体姿态识别的方法及设备
CN113705445B (zh) * 2021-08-27 2023-08-04 深圳龙岗智能视听研究院 一种基于事件相机的人体姿态识别的方法及设备
CN113850221A (zh) * 2021-09-30 2021-12-28 北京航空航天大学 一种基于关键点筛选的姿态跟踪方法
CN114387614B (zh) * 2021-12-06 2023-09-01 西北大学 一种双重关键点生理关联约束的复杂人体姿态估计方法
CN114387614A (zh) * 2021-12-06 2022-04-22 西北大学 一种双重关键点生理关联约束的复杂人体姿态估计方法
CN114022686A (zh) * 2021-12-07 2022-02-08 中国人民公安大学 一种面向遮挡场景的行人再识别方法
CN114973305A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种针对拥挤人群的精确人体解析方法
CN114373226B (zh) * 2021-12-31 2024-09-06 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法
CN114373226A (zh) * 2021-12-31 2022-04-19 华南理工大学 手术室场景下基于改进HRNet网络的人体姿态估计方法
CN114548224A (zh) * 2022-01-19 2022-05-27 南京邮电大学 一种用于强交互人体运动的2d人体位姿生成方法及装置
CN114549927B (zh) * 2022-01-26 2024-09-10 华中科技大学 特征检测网络训练、增强现虚实注册跟踪及遮挡处理方法
CN114549927A (zh) * 2022-01-26 2022-05-27 华中科技大学 特征检测网络训练、增强现虚实注册跟踪及遮挡处理方法
CN114155560B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114155560A (zh) * 2022-02-08 2022-03-08 成都考拉悠然科技有限公司 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN114821717A (zh) * 2022-04-20 2022-07-29 北京百度网讯科技有限公司 目标对象融合方法、装置、电子设备及存储介质
CN114821717B (zh) * 2022-04-20 2024-03-12 北京百度网讯科技有限公司 目标对象融合方法、装置、电子设备及存储介质
CN115147547A (zh) * 2022-06-30 2022-10-04 北京百度网讯科技有限公司 人体重建方法和装置
CN115147547B (zh) * 2022-06-30 2023-09-19 北京百度网讯科技有限公司 人体重建方法和装置
CN115331153A (zh) * 2022-10-12 2022-11-11 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法
CN115331153B (zh) * 2022-10-12 2022-12-23 山东省第二人民医院(山东省耳鼻喉医院、山东省耳鼻喉研究所) 一种用于辅助前庭康复训练的姿态监测方法
CN115862149B (zh) * 2022-12-30 2024-03-22 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN115862149A (zh) * 2022-12-30 2023-03-28 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN116704552B (zh) * 2023-06-13 2024-03-12 中国电子科技集团公司第五十四研究所 基于主要次要特征的人体姿态估计方法
CN116704552A (zh) * 2023-06-13 2023-09-05 中国电子科技集团公司第五十四研究所 基于主要次要特征的人体姿态估计方法
CN116524546A (zh) * 2023-07-04 2023-08-01 南京邮电大学 一种基于异构图像协同增强的低分辨率人体姿态估计方法
CN116524546B (zh) * 2023-07-04 2023-09-01 南京邮电大学 一种基于异构图像协同增强的低分辨率人体姿态估计方法
CN116912884B (zh) * 2023-07-21 2024-03-19 北京优创新港科技股份有限公司 一种人体关键点检测方法及系统
CN116912884A (zh) * 2023-07-21 2023-10-20 北京优创新港科技股份有限公司 一种人体关键点检测方法及系统
CN116959120B (zh) * 2023-09-15 2023-12-01 中南民族大学 一种基于手部关节的人手姿态估计方法及系统
CN116959120A (zh) * 2023-09-15 2023-10-27 中南民族大学 一种基于手部关节的人手姿态估计方法及系统
CN117711028A (zh) * 2024-02-06 2024-03-15 深圳大学 一种基于注意力机制模块的人体姿态估计方法及系统
CN117711028B (zh) * 2024-02-06 2024-05-24 深圳大学 一种基于注意力机制模块的人体姿态估计方法及系统

Also Published As

Publication number Publication date
CN111339903B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN111339903B (zh) 一种多人人体姿态估计方法
He et al. Deep learning based 3D segmentation: A survey
CN115063573B (zh) 一种基于注意力机制的多尺度目标检测方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN109086659B (zh) 一种基于多模道特征融合的人体行为识别方法和装置
CN105139004A (zh) 基于视频序列的人脸表情识别方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN112598775A (zh) 一种基于对比学习的多视图生成方法
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN113870160B (zh) 一种基于变换器神经网络的点云数据处理方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及系统
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114155556A (zh) 一种基于加入通道混洗模块的堆叠沙漏网络的人体姿态估计方法及系统
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN111274901B (zh) 一种基于深度门控递归单元的手势深度图像连续检测方法
CN117274690A (zh) 一种基于多模态的弱监督目标定位方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN116452793A (zh) 一种基于多视角和多层级的绿色编解码显著目标检测方法
CN114863487A (zh) 基于二次回归的一阶段多人人体检测和姿态估计的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220208