CN111428586B - 基于特征融合与样本增强的三维人体姿态估计方法 - Google Patents

基于特征融合与样本增强的三维人体姿态估计方法 Download PDF

Info

Publication number
CN111428586B
CN111428586B CN202010158977.1A CN202010158977A CN111428586B CN 111428586 B CN111428586 B CN 111428586B CN 202010158977 A CN202010158977 A CN 202010158977A CN 111428586 B CN111428586 B CN 111428586B
Authority
CN
China
Prior art keywords
convolution
dimensional
human body
sample
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010158977.1A
Other languages
English (en)
Other versions
CN111428586A (zh
Inventor
卫志华
崔啸萱
赵才荣
臧笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010158977.1A priority Critical patent/CN111428586B/zh
Publication of CN111428586A publication Critical patent/CN111428586A/zh
Application granted granted Critical
Publication of CN111428586B publication Critical patent/CN111428586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征融合与样本增强的三维人体姿态估计方法,涉及三维人体姿态估计与性能优化方法。首先,采用基于候选区域的全卷积网络,对图片中人体进行身体部位分类与像素点三维坐标回归;其次,采用辅助网络样本增强,对没有初始标注的样本位置进行信号补充;最后,将模型与现有效果良好的2D姿态识别模型进行特征融合,从全局姿态的角度与局部回归坐标发挥优势互补性。本发明通过特征融合技术构造基于多任务并行的人体姿态估计架构,为二维和三维姿态识别的优势互补提供有效的理论和方法;通过模拟半监督学习的方式,建立基于数据增强的辅助网络,为提升姿态识别模型泛化能力提供新的思路。

Description

基于特征融合与样本增强的三维人体姿态估计方法
技术领域
本发明属于计算机视觉领域,具体地说,涉及三维人体姿态估计与性能优化方法。
背景技术
随着人工智能的兴起,越来越多关于人类行为特征的识别、分类等深度学习系统被应用到实际生活场景中;而关于人体姿势的3D识别由于其更直观、丰富的视觉体验和更符合人类理解世界的行为模式,在人机交互、AR、VR等现实场景中具有广泛的应用途径和应用价值。
然而,在通常的计算机视觉人体姿态识别模型中,计算机对于3D世界的了解很少。与之相反的是,对于人类来说,即使在查看存在透视、遮挡、深度、场景中的人体相互关联等情况下的2D图片的时候,人的眼睛依然能够以3D空间来理解和解读。在深度学习模型中,从3D角度理解人体姿态一直面临着一些难题,涉及到应用于3D数据表示的物体的计算、从2D图像推导3D物体形状和姿态估计、从2D图像确定物体的3D姿态的变换等等。因此,面对现实背景复杂多变的情况下,如何让机器在3D空间的视角下理解人体姿态,成了计算机系统地解释和认知现实世界不可或缺的环节和亟待解决的问题。
目前基于3D姿态识别的研究大多基于两类方法:(1)基于辅助设备的3D姿态识别:通过增加辅助硬件设备(如深度传感器、六视角摄像机、可穿戴设备等)的方式,采集样本数据的三维特性,将采集的三维数据直接作为网络输入进行训练;该种方法存在设备复杂、造价昂贵、计算量庞大等问题,难以推广到日常生活与应用中;(2)基于三维骨架拟合的3D姿态识别:通过将3D人体骨架模型拟合到2D图片上的方式,来实现对输入图像中人体的3D姿态识别;该方法目前存在着样本量缺乏、预测结果模糊、二义性、错误翻转等问题,造成准确率的不理想。
因此,这些问题的存在导致3D姿态识别分析还处于未完善阶段。针对现有姿态识别方法中样本量缺乏、三维空间中姿态模糊、局部二义性等问题,需要一种能够应对复杂现实场景中对3D人体姿态更具体和精确的识别方法。
发明内容
本发明的目的在于克服现有技术不足,公开一种基于特征融合与样本增强的三维人体姿态估计方法,针对当前现实应用场景中存在的问题和困难,围绕人体姿态多尺度特征融合识别及样本增强扩充展开研究工作,实现能够应对复杂现实场景中对3D人体姿态识别做到更具体、更精确。
技术方案
一种基于特征融合与样本增强的三维人体姿态估计方法,概括为,包括三个步骤:
步骤一:部位分类与像素回归
采用基于候选区域的全卷积网络,对图片中人体进行身体部位分类与像素点三维坐标回归,其流程图如图7所示;
步骤二:辅助网络样本增强
采用辅助网络样本增强算法,对没有初始标注的样本位置进行信号补充;
步骤三:特征融合
将3D模型与现有效果良好的2D姿态识别模型进行特征融合,从全局姿态的角度与局部回归坐标发挥优势互补性。
步骤二和步骤三流程图如图8所示。
三个步骤整体流程图如图9所示
以下进一步给出具体方法过程
步骤一:部位分类与像素回归,具体为:
1.1首先将人体按照三维模型划分为若干个不同的身体部位;
1.2采用数字图像领域中的参数化方法,对每个身体部位块进行二维展开和三维坐标参数化标注;
1.3采用改进的目标分割区域建议神经网络(Mask R-CNN)对人体各身体部位进行关键点检测和语义级别的像素分割。
步骤二中,所述辅助神经网络样本增强算法可以实现样本的增强和补充。对于没有初始标注的样本位置,训练一个神经网络,来对像素点进行三维坐标预测。此算法目的在于实现对没有初始标注的样本位置进行信号补充,以取得更好的训练预测结果。具体方法过程为:
2.1利用原始样本训练一个辅助增强网络(Auxiliary Enhancement Network,AE-Net),使其回归学习到已标注像素点与生成的预测坐标之间的关系;
2.2对未标记样本进行一系列的几何变换(翻转、缩放、旋转等)后,输入到步骤2.1训练好的AE-Net网络进行预测推断;将预测结果提供给步骤2.3;
2.3将不同变换生成的预测结果进行融合,生成未标注像素点的预测坐标,作为增强样本的新标注;提供给步骤2.4;
2.4将原始样本和增强样本一同送入原3D模型中进行训练;提供给步骤三。
步骤三中,所述特征融合算法,将原3D模型与2D姿态识别模型两个神经网络得到的特征进行融合,将不同视角下的多尺度特征进行整合。此算法目的在于从全局姿态的角度与局部回归坐标发挥优势互补性。具体方法过程为:
3.1首先,将原始3D模型与二维姿态识别模型进行连接,实现多任务交叉并行网络结构;
3.2接着,从RoIAlign层输出,后面分为两个分支,分别进行姿态识别关键点检测和原始的像素分类回归,得到前者的关键点检测任务特征图(第一路数据:2D识别中间输出)及后者的分类和坐标任务的特征图输出(第二路数据:3D识别中间输出);
3.3将步骤3.2中两路分支的输出,和该两路分支最后一层的特征图(第三路和第四路数据),分别通过对应1×1的卷积核组成的卷积层,使上述括号内四路数据转换成同样的维度,且该种卷积层不改变数据尺寸,只改变数据深度;提供给步骤3.4;
3.4最后,将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别(element-wise)的特征融合相加,之后送入全卷积层再次进行卷积,计算loss并得到最终优化后的输出,使模型能够发挥不同监督来源带来的协同性和互补性。
有益效果
1、本发明针对现有姿态识别方法中样本量缺乏、三维空间中姿态模糊、局部二义性等问题,提出基于特征融合与样本增强的三维人体姿态估计方法,对复杂现实场景中3D人体姿态进行更具体和精确的识别。
2、本发明使用基于辅助神经网络的样本增强算法,基于神经网络在原是样本上的训练来对没有初始标注的样本位置进行信号补充,使得3D姿态识别不再局限于样本量的缺乏和稀少,为姿态识别的准确度提升提供了保障。
具体的说,通过算法中将原模型与2D姿态识别模型两个神经网络得到的特征进行融合,将不同视角下的多尺度特征进行整合。此算法目的在于从全局姿态的角度与局部回归坐标发挥优势互补性。
3、本发明使用基于深度学习理论的特征融合算法,融合不同视角下的多尺度姿态特征,发挥全局姿态角度与局部坐标回归的优势互补性,为3D姿态识别提供新的思路。
4、本发明将丰富和拓展机器学习理论和方法,同时也为未来推动3D姿态识别分析和优化奠定理论和应用基础。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1部位分类与像素回归模型图
图2特征融合架构模型图
图3辅助网络样本增强算法流程图
图4上采样反卷积方法表示图
图5系统综合流程图
图6 3D姿态识别系统示例图
图7步骤一部位分类与像素回归流程图
图8步骤二和步骤三流程图
图9技术方案整体流程图
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题以及达成技术功效的实现过程能充分理解并据以实施。
本发明公开了一种基于特征融合与样本增强的三维人体姿态估计方法,包括以下步骤:
步骤一:部位分类与像素回归
1.1在本实施例中,采用COCO数据集中的人体样本数据集,共5万张图片。数据集中图片包含场景复杂、不同形态、不同尺寸的目标人体;其中划分训练集4.8万张,测试集2千张。
1.2将人体按照三维模型划分为若干个不同的身体部位,并采用数字图像领域中的参数化(Parameterization)方法,对每个部位块进行二维展开和三维坐标参数化标注,每个三角网格和它的uv平面上对应仿射变换关系;对于一个在x,y,z坐标系上的三维模型,将曲面的x、z坐标归一化到一个半径为r的圆柱面上。设3D模型
Figure BDA0002405082130000051
Figure BDA0002405082130000052
(m为自然数),其中xj∈R3是三维空间网格的定点位置;令U∈R2×m,则映射函数Ψ具有如下形式:
Ψ(xj)→uj   (1)
Ψ-1(uj)→xj   (2)
uj∈U;
其中:
Figure BDA0002405082130000053
参数h与v对照于上述uv平面中的水平方向与垂直方向。
1.3在此基础上,使用深度学习方法对标注后的样本集进行训练,采用改进的目标分割区域建议神经网络(Mask R-CNN)对人体各部位进行关键点检测和语义级别的像素分割,Mask R-CNN网络模型如图1所示。
首先,图像由经典卷积神经网络处理生成特征图,得到特征图后经过候选框生成网络层(Region Proposal Network,RPN),在RPN阶段分别经过3X 3和1X1的卷积得到若干个包含分数和坐标的结果,再结合预先定义的边框,经过回归修正等后处理得到候选框的精确坐标和大小。RPN网络的代价函数定义如下:
Figure BDA0002405082130000061
其中,i表示第i个小窗口候选框,pi是第i个小窗口候选框为目标的预测概率,当候选框是正例
Figure BDA0002405082130000062
等于1,反例等于0;ti是一个四维向量,表示预测边界框的参数化坐标,
Figure BDA0002405082130000063
表示和正例小窗口相关联的真值边界框;Lcls和Lreg分别表示分类和回归的损失函数,Ncls、Nreg和λ为平衡参数。
接着,将图像送入两个通路:一个用于生成回归框和预测类别;另一路在生成掩码(Mask)的基础上,使用回归系统来精确定位该身体部位内每一个像素的uv坐标。对于某一像素点,先分类并计算该像素所在具有最高后验概率的身体部位,再使用回归器将该点进行特定部位下的uv坐标参数化;在训练过程中,身体部位的分类使用交叉熵损失,坐标回归使用平滑L1损失;当像素在特定身体部位范围内的时候,其回归部分的loss才会作为被算入;平滑L1损失函数的定义公式如下:
Figure BDA0002405082130000064
经过上述网络之后,实现人体各部位的关键点坐标预测和语义级别的像素分割。
步骤二:辅助网络样本增强
2.1利用原始训练集样本(即上述训练集4.8万张)训练一个辅助增强网络(Auxiliary Enhancement Network,AE-Net),使其回归学习到已标注像素点与生成的预测坐标之间的关系,其流程如图3所示。辅助网络采用全卷积结构进行训练和预测,全卷积网络构造流程如下:
步骤2.1.1将传统卷积神经网络(CNN)的最后一层全连接层改为全卷积层,即全卷积化(fully convolution)。
步骤2.1.2采用反卷积层对最后一个卷积层的特征图(feature map)进行上采样(upsampling),将卷积层输出的特征图还原成原始图片大小。
反卷积(Deconvolution)也称为分数步长卷积(convolution with fractionalstrides)或者转置卷积(transpose convolution),在卷积神经网络中常用于表示一种反向卷积上采样方式。但它并不是一个符合严格数学定义的反卷积操作,使用反卷积来对图像进行上采样是可以习得的。假设常规的卷积操作模式下的滑动步长为S,图片大小为N1xN1,卷积核大小为N2xN2,则卷积后图像的大小为:
(N1-N2)/S+1x(N1-N2)/S+1   (4)
为了要让经过卷积的结果回到卷积前的模样,则须进行如图4所示的反卷积操作,在反向卷积的基础上加上padding操作,输出特征图还原成原始图片大小。
步骤2.1.3利用上一步骤2.1.2所述的上采样操作对最后一层的特征图进行上采样得到原图大小的分割,由于最后一层的特征图太小,会损失很多细节。为此,本发明采用跳级结构(Skips)对前几层卷积层也同样进行反卷积,并将有更富的全局信息的最后一层预测和有更多的局部细节的更浅层的预测结合起来,将各层反卷积后的特征图进行结合,并利用插值补充细节。最后得到的输出为上采样到原图的大小的结果,从而完成对整个图像的像素级别预测。
2.2对未标记样本进行一系列不同的几何变换(翻转、缩放、旋转等)后,输入训练好的AE-Net网络进行预测推断;
2.3将不同变换生成的预测结果通过取平均值的方式进行融合,对每个未标注像素点生成预测的坐标,并部署在原大小的图像域上,作为增强样本的新标注。同时,为了减小误差获得更精确的结果,在结果中剔除背景区域的预测,只保留对标记为人体的区域的预测。
2.4将原始样本和增强样本一同送入3D原模型中进行训练,即可实现样本的增强和补充,以取得更好的训练预测结果。
步骤三:特征融合
在本实例中,采用基于深度学习理论的特征融合算法,将3D原模型与2D姿态识别模型两个神经网络得到的特征进行融合,将不同视角下的多尺度特征进行整合,从全局姿态的角度与局部回归坐标发挥优势互补性。如图2所示,基于深度学习理论的特征融合算法步骤如下:
3.1首先,将原始模型与二维姿态识别模型进行连接,实现多任务交叉并行网络结构;
3.2接着,从RoIAlign层输出,后面分为两个分支,分别进行姿态识别关键点检测和原始的像素分类回归,得到前者的关键点检测任务特征图(第一路数据:2D识别中间输出)及后者的分类和坐标任务的特征图输出(第二路数据:3D识别中间输出);
3.3将步骤3.2中两路分支的输出,和该两路分支最后一层的特征图(第三路和第四路数据),分别通过对应1×1的卷积核组成的卷积层,使上述括号内四路数据转换成同样的维度,且该种卷积层不改变数据尺寸,只改变数据深度;
3.4最后,将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别(element-wise)的特征融合相加,之后送入全卷积层再次进行卷积,计算loss并得到最终优化后的输出。特征融合使模型关注到了原来所没有的上下文特征和语义细节,增加了监督学习的广度和深度,从而进一步提升了模型识别效果,发挥了不同监督来源带来的协同性和互补性。
本实施例的综合流程图如图5所示,系统示意图如图6所示。
上述说明展示并描述了本发明的若干具体实施方案,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
创新点
本项目的特色在于从3D人体姿态识别的实际需求出发,通过3D人体姿态识别的训练特征融合、数据样本增强方法,达到对三维人体坐标的精确预测,进而实现更精准的三维人体姿态估计。这是一个环环相扣、逐级递增的过程,在增强样本优化算法的基础上再通过特征融合算法进一步增加深度学习的预测准确度,对于实际应用而言,具有较强的可解释性和更灵活的兼容能力。
以VR、人机交互等一些实际应用为背景,就三维人体姿态的特征融合识别架构和辅助网络样本增强的理论和方法开展研究工作。首先,采用基于候选区域的全卷积网络,对图片中人体进行身体部位分类与像素点三维坐标回归;其次,采用辅助网络样本增强,对没有初始标注的样本位置进行信号补充;最后,将模型与现有效果良好的2D姿态识别模型进行特征融合,从全局姿态的角度与局部回归坐标发挥优势互补性。本发明通过特征融合技术构造基于多任务并行的人体姿态估计架构,为二维和三维姿态识别的优势互补提供有效的理论和方法;通过模拟半监督学习的方式,建立基于数据增强的辅助网络,为提升姿态识别模型泛化能力提供新的思路。本发明将丰富和拓展机器学习理论和方法。
创新之一:基于辅助网络的样本增强
传统3D姿态识别由于样本的局限性而存在姿态识别精细度缺乏、预测结果不够具体等问题,本项目突破传统3D姿态识别中样本较为稀缺的局限性,在现有样本的基础上通过辅助网络训练,对现有三维标注样本进行信号补充和数据增强,然后将训练融合后的增强3D样本和原有3D样本送入模型中共同进行训练识别,使得监督更加有效,三维姿态识别更加精细和具体,提高了模型的识别准确度及模型的泛化能力。
创新之二:基于特征融合的识别模型
传统的3D姿态识别模型聚焦于局部的身体部位三维重塑,而忽略了作为人类整体的姿态协调性。本项目通过将人体全局姿态特征与局部三维特征相融合的方式,既进行了精细的局部三维重塑,又从全局姿态的角度关注到了人体的整体走向,使模型关注到了原来所没有的上下文特征和语义细节,增加了监督学习的广度和深度,发挥了不同监督来源带来的协同性和互补性,从而进一步提升了模型识别效果。

Claims (3)

1.一种基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,包括三个步骤:
步骤一:部位分类与像素回归
采用基于候选区域的全卷积网络,对图片中人体进行身体部位分类与像素点三维坐标回归;
步骤二:辅助网络样本增强
采用辅助网络样本增强算法,对没有初始标注的样本位置进行信号补充;具体步骤如下:
2.1利用原始训练集样本训练一个辅助增强网络,使其回归学习到已标注像素点与生成的预测坐标之间的关系;辅助网络采用全卷积结构进行训练和预测,全卷积网络构造流程如下:
步骤2.1.1将传统卷积神经网络的最后一层全连接层改为全卷积层,即全卷积化;
步骤2.1.2采用反卷积层对最后一个卷积层的特征图进行上采样,将卷积层输出的特征图还原成原始图片大小;
反卷积也称为分数步长卷积或者转置卷积,在卷积神经网络中常用于表示一种反向卷积上采样方式;假设常规的卷积操作模式下的滑动步长为S,图片大小为N1xN1,卷积核大小为N2xN2,则卷积后图像的大小为:
(N1-N2)/S+1x(N1-N2)/S+1(4)
为了要让经过卷积的结果回到卷积前的模样,进行反卷积操作,在反向卷积的基础上加上padding操作,输出特征图还原成原始图片大小;
步骤2.1.3利用上一步骤2.1.2所述的上采样操作对最后一层的特征图进行上采样得到原图大小的分割,由于最后一层的特征图太小,会损失很多细节;采用跳级结构对前几层卷积层也同样进行反卷积,并将有更富的全局信息的最后一层预测和有更多的局部细节的更浅层的预测结合起来,将各层反卷积后的特征图进行结合,并利用插值补充细节;最后得到的输出为上采样到原图的大小的结果,从而完成对整个图像的像素级别预测;
2.2对未标记样本进行一系列不同的几何变换后,输入训练好的AE-Net网络进行预测推断;
2.3将不同变换生成的预测结果通过取平均值的方式进行融合,对每个未标注像素点生成预测的坐标,并部署在原大小的图像域上,作为增强样本的新标注;同时,在结果中剔除背景区域的预测,只保留对标记为人体的区域的预测;
2.4将原始样本和增强样本一同送入3D原模型中进行训练,即可实现样本的增强和补充;
步骤三:特征融合
将3D模型与现有2D姿态识别模型进行特征融合,从全局姿态的角度与局部回归坐标发挥优势互补性。
2.如权利要求1所述的基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,
步骤一:部位分类与像素回归,具体为:
1.1首先将人体按照三维模型划分为若干个不同的身体部位;
1.2采用数字图像领域中的参数化方法,对每个身体部位块进行二维展开和三维坐标参数化标注;
1.3采用改进的目标分割区域建议神经网络对人体各身体部位进行关键点检测和语义级别的像素分割。
3.如权利要求2所述的基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,
步骤一:
1.1采用人体样本数据集,数据集中图片包含场景复杂、不同形态、不同尺寸的目标人体;其中划分训练集和测试集
1.2将人体按照三维模型划分为若干个不同的身体部位,并采用数字图像领域中的参数化方法,对每个部位块进行二维展开和三维坐标参数化标注,每个三角网格和它的uv平面上对应仿射变换关系;对于一个在x,y,z坐标系上的三维模型,将曲面的x、z坐标归一化到一个半径为r的圆柱面上;设3D模型
Figure FDA0004119466690000021
其中m为自然数,其中xj∈R3是三维空间网格的定点位置;令U∈R2×m,则映射函数Ψ具有如下形式:
Ψ(xj)→uj                        (1)
Ψ-1(uj)→xj            (2)
uj∈U;
其中:
Figure FDA0004119466690000031
参数h与v对照于上述uv平面中的水平方向与垂直方向;
1.3使用深度学习方法对标注后的样本集进行训练,采用改进的目标分割区域建议神经网络对人体各部位进行关键点检测和语义级别的像素分割;
首先,图像由经典卷积神经网络处理生成特征图,得到特征图后经过候选框生成网络层,在RPN阶段分别经过3X3和1X1的卷积得到若干个包含分数和坐标的结果,再结合预先定义的边框,经过回归修正等后处理得到候选框的精确坐标和大小;RPN网络的代价函数定义如下:
Figure FDA0004119466690000032
其中,i表示第i个小窗口候选框,pi是第i个小窗口候选框为目标的预测概率,当候选框是正例
Figure FDA0004119466690000033
等于1,反例等于0;ti是一个四维向量,表示预测边界框的参数化坐标,
Figure FDA0004119466690000034
表示和正例小窗口相关联的真值边界框;Lcls和Lreg分别表示分类和回归的损失函数,Ncls、Nreg和λ为平衡参数;
接着,将图像送入两个通路:一个用于生成回归框和预测类别;另一路在生成掩码的基础上,使用回归系统来精确定位该身体部位内每一个像素的uv坐标;对于某一像素点,先分类并计算该像素所在具有最高后验概率的身体部位,再使用回归器将该点进行特定部位下的uv坐标参数化;在训练过程中,身体部位的分类使用交叉熵损失,坐标回归使用平滑L1损失;当像素在特定身体部位范围内的时候,其回归部分的loss才会作为被算入;平滑L1损失函数的定义公式如下:
Figure FDA0004119466690000035
经过上述网络之后,实现人体各部位的关键点坐标预测和语义级别的像素分割;
步骤三:特征融合
将3D原模型与2D姿态识别模型两个神经网络得到的特征进行融合,将不同视角下的多尺度特征进行整合,从全局姿态的角度与局部回归坐标发挥优势互补性;算法步骤如下:
3.1首先,将原始模型与二维姿态识别模型进行连接,实现多任务交叉并行网络结构;
3.2接着,从RoIAlign层输出,后面分为两个分支,分别进行姿态识别关键点检测和原始的像素分类回归,得到前者的关键点检测任务特征图及后者的分类和坐标任务的特征图输出,对应地得到两路数据:第一路数据为2D识别中间输出,第二路数据为3D识别中间输出;
3.3将步骤3.2中两路分支的输出,和该两路分支最后一层的特征图即第三路和第四路数据,分别通过对应1×1的卷积核组成的卷积层,使四路数据转换成同样的维度,且该卷积层不改变数据尺寸,只改变数据深度;
3.4最后,将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别的特征融合相加,之后送入全卷积层再次进行卷积,计算loss并得到最终优化后的输出。
CN202010158977.1A 2020-03-09 2020-03-09 基于特征融合与样本增强的三维人体姿态估计方法 Active CN111428586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010158977.1A CN111428586B (zh) 2020-03-09 2020-03-09 基于特征融合与样本增强的三维人体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010158977.1A CN111428586B (zh) 2020-03-09 2020-03-09 基于特征融合与样本增强的三维人体姿态估计方法

Publications (2)

Publication Number Publication Date
CN111428586A CN111428586A (zh) 2020-07-17
CN111428586B true CN111428586B (zh) 2023-05-16

Family

ID=71546285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158977.1A Active CN111428586B (zh) 2020-03-09 2020-03-09 基于特征融合与样本增强的三维人体姿态估计方法

Country Status (1)

Country Link
CN (1) CN111428586B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232106B (zh) * 2020-08-12 2024-07-05 北京工业大学 一种二维到三维人体姿态估计方法
CN112184734B (zh) * 2020-09-30 2024-06-07 南京景瑞康分子医药科技有限公司 一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统
CN112233054B (zh) * 2020-10-12 2022-09-16 北京航空航天大学 基于关系三元组的人-物交互图像生成方法
CN112651294A (zh) * 2020-11-05 2021-04-13 同济大学 基于多尺度融合的遮挡人体姿势识别方法
CN112837367B (zh) * 2021-01-27 2022-11-25 清华大学 语义分解式物体位姿估计方法及系统
CN112926449B (zh) * 2021-02-11 2024-03-15 北京工业大学 一种基于任意角度人体图像的正面姿态估计方法
CN112861988B (zh) * 2021-03-04 2022-03-11 西南科技大学 一种基于注意力图神经网络的特征匹配方法
CN112861776A (zh) * 2021-03-05 2021-05-28 罗普特科技集团股份有限公司 一种基于密集关键点的人体姿态分析方法和系统
CN112966604B (zh) * 2021-03-05 2022-08-26 上海深硅信息科技有限公司 一种多维度行为识别方法
CN113223124B (zh) * 2021-03-30 2022-06-10 华南理工大学 一种基于三维人体参数化模型的姿态迁移方法
CN113065506B (zh) * 2021-04-16 2023-12-26 南京大学 一种人体姿态识别方法及系统
CN113256772B (zh) * 2021-05-10 2023-08-01 华中科技大学 一种基于视角转换的双角度光场高分辨重构系统及方法
CN113239892A (zh) * 2021-06-10 2021-08-10 青岛联合创智科技有限公司 一种基于数据增强架构的单目人体三维姿态估计方法
CN113487715A (zh) * 2021-06-24 2021-10-08 之江实验室 一种基于生成对抗网络的数据增强方法
CN113283396A (zh) * 2021-06-29 2021-08-20 艾礼富电子(深圳)有限公司 目标对象的类别检测方法、装置、计算机设备和存储介质
CN113643419B (zh) * 2021-06-29 2024-04-23 清华大学 一种基于深度学习的人体反向动力学求解方法
CN113719974A (zh) * 2021-08-09 2021-11-30 西安交通大学 基于流场信息预测的空调风向智能控制方法及系统
CN116665309B (zh) * 2023-07-26 2023-11-14 山东睿芯半导体科技有限公司 一种步姿特征识别方法、装置、芯片及终端
CN117292407B (zh) * 2023-11-27 2024-03-26 安徽炬视科技有限公司 一种3d人体姿态估计方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071370A1 (en) * 2017-10-09 2019-04-18 Intel Corporation FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110189308A (zh) * 2019-05-17 2019-08-30 山东财经大学 一种基于bm3d和稠密卷积网络融合的肿瘤检测方法和装置
CN110322510A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN110659565A (zh) * 2019-08-15 2020-01-07 电子科技大学 一种基于带孔卷积的3d多人人体姿态估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071370A1 (en) * 2017-10-09 2019-04-18 Intel Corporation FUSION OF MULTIMODAL AUTOMATIC LEARNING ANALYSIS CHARACTERISTICS
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110189308A (zh) * 2019-05-17 2019-08-30 山东财经大学 一种基于bm3d和稠密卷积网络融合的肿瘤检测方法和装置
CN110322510A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN110659565A (zh) * 2019-08-15 2020-01-07 电子科技大学 一种基于带孔卷积的3d多人人体姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Xinbi Lv等.A novel hard mining center-triplet loss for person re-identification.Pattern Recognition and Computer Vision.2019,199-210. *
彭博等.基于深度学习的车标识别方法研究.计算机科学.2015,(第04期),273-278. *

Also Published As

Publication number Publication date
CN111428586A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428586B (zh) 基于特征融合与样本增强的三维人体姿态估计方法
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Tewari et al. Learning complete 3d morphable face models from images and videos
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
Gou et al. Cascade learning from adversarial synthetic images for accurate pupil detection
EP3905194A1 (en) Pose estimation method and apparatus
Guo et al. Graph-based CNNs with self-supervised module for 3D hand pose estimation from monocular RGB
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
Rich et al. 3dvnet: Multi-view depth prediction and volumetric refinement
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
Ahmad et al. 3D capsule networks for object classification from 3D model data
Samavati et al. Deep learning-based 3D reconstruction: a survey
Li et al. Hierarchical opacity propagation for image matting
Kourbane et al. A graph-based approach for absolute 3D hand pose estimation using a single RGB image
Lu et al. Cross stage partial connections based weighted Bi-directional feature pyramid and enhanced spatial transformation network for robust object detection
Hempel et al. Pixel-wise motion segmentation for SLAM in dynamic environments
Zhang et al. Video extrapolation in space and time
Tesema et al. Point Cloud Completion: A Survey
CN115761143B (zh) 一种基于2d图像的3d虚拟换装模型生成方法及装置
CN117372604A (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
KR20230083212A (ko) 객체 자세 추정 장치 및 방법
Lee et al. Fusing RGB and depth with Self-attention for Unseen Object Segmentation
Khan et al. A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant