CN116740820A - 基于自动增广的单视角点云三维人体姿态与形状估计方法 - Google Patents

基于自动增广的单视角点云三维人体姿态与形状估计方法 Download PDF

Info

Publication number
CN116740820A
CN116740820A CN202311029136.0A CN202311029136A CN116740820A CN 116740820 A CN116740820 A CN 116740820A CN 202311029136 A CN202311029136 A CN 202311029136A CN 116740820 A CN116740820 A CN 116740820A
Authority
CN
China
Prior art keywords
point cloud
network
estimator
pose
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311029136.0A
Other languages
English (en)
Other versions
CN116740820B (zh
Inventor
王康侃
尹士豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202311029136.0A priority Critical patent/CN116740820B/zh
Publication of CN116740820A publication Critical patent/CN116740820A/zh
Application granted granted Critical
Publication of CN116740820B publication Critical patent/CN116740820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于自动增广的单视角点云三维人体姿态与形状估计方法,其包括如下步骤:通过估计器中点云特征提取网络、遮挡感知网络分别得到输入点云全局特征和局部特征;拼接全局特征和局部特征并送入估计器中回归网络得到SMPL参数;通过增广器中均值函数对真实点云变形得到模板点云;增广器中参数回归网络以点云全局特征和估计的姿态参数为输入,输出具有挑战性的姿态参数;通过增广器中均值函数对模板点云变形得到增广点云;将增广点云送入估计器训练,利用估计损失设计对抗损失函数优化增广器。本发明利用估计器的误差反馈提出一个增广器来生成带真实数据特征的增广点云供估计器学习,能从真实数据和合成数据点云精准恢复三维人体模型。

Description

基于自动增广的单视角点云三维人体姿态与形状估计方法
技术领域
本发明属于三维人体重建技术领域,特别涉及一种基于自动增广的单视角点云三维人体姿态与形状估计方法。
背景技术
随着深度传感器技术的快速发展,从深度图像或点云中估计三维人体模型在三维视觉领域受到了越来越多的关注。从深度图像或点云估计三维人体模型的目的是恢复与输入数据具有一致的姿态和形状的参数化人体网格或非参数化人体网格。然而,目前从深度图像或点云准确的估计三维人体模型仍然是一个具有挑战性的问题,因为人体点云具有任意变形和自遮挡以及合成的训练数据与真实数据存在域间隙等问题。
虽然现有的以完整点云为输入的工作可以得到准确的重建,但这些方法在具有自遮挡的不完整点云上进行测试时,不能可靠地重建三维人体模型,也不能很好地应用于实际应用中的常见场景。一些工作也结合了隐式表示和参数模型的表面拟合。它们在合成数据上取得了良好的性能,但由于真实数据具有丰富的衣物细节和随机噪声,因此在真实数据上进行测试时,重建结果会不够精准。此外,这些方法在没有对模型参数使用任何鉴别器时,并不能保持合理的人体形状和姿态。一些研究人员也试图从单帧或序列的单视角点云来预测人体模型,他们的方法是采用微调策略来提高模型对真实数据的泛化能力,但微调步骤需要重建每个新数据,运行效率低,且无法成功地解决单视角点云的自遮挡问题。
近年来,数据增广策略已被广泛应用于提高网络的泛化能力。为了扩大训练样本的数量和多样性,传统数据增广策略利用三维点云巨大的增广空间,通常对输入点云进行随机旋转,随机缩放,随机抖动,不过它并不适合用于具有非刚性变形的移动人体点云。为了智能地提高增广样本的多样性,一些研究人员提出了一种新的自动增广框架。例如,PointAugment采用样本感知自动增广,成功应用于点云分类,但该方法只关注增广点云的类别,而不关注增广点云的姿态和合理性,不能生成相应的参数模型进行训练监督。另外,PoseAug通过一个可微姿态增广框架成功地应用于三维人体关节估计,但该方法仅限于人体关节。
发明内容
本发明的目的在于提出一种基于自动增广的单视角点云三维人体姿态与形状估计方法,该方法利用估计器的误差反馈提出一个增广器来生成带真实数据特征的增广点云,供估计器学习,以便估计器能够从真实数据和合成数据点云精准地恢复三维人体模型。
本发明为了实现上述目的,采用如下技术方案:
基于自动增广的单视角点云三维人体姿态与形状估计方法,包括如下步骤:
步骤1. 搭建用于估计单视角点云的三维人体姿态和形状的估计器网络,输入训练数据即输入点云到估计器网络中,得到点云全局特征以及SMPL模型形状和姿态参数;
步骤2. 构建增广器网络,将估计器中得到的点云全局特征和姿态参数输入到增广器中,增广器生成比输入点云更具有挑战性和带有衣物细节的真实增广点云;
步骤 3. 使用估计器网络中得到的迭代误差反馈构建的增广损失函数来优化增广器,并引入判别器以保证SMPL模型输出的形状和姿态参数的合理性;
步骤4. 将优化后的增广器得到的增广点云送入估计器,使估计器对这些增广点云进行学习,即继续回到步骤1,此时,输入训练数据中包含增广点云;
最终使用训练好的估计器网络对真实数据和合成数据进行三维人体姿态和形状估计。
本发明具有如下优点:
如上所述,本发明述及了一种基于自动增广的单视角点云三维人体姿态与形状估计方法。该方法首先设计一个单视角点云的三维人体姿态和形状估计器网络,即使在具有人体自遮挡的点云上该估计器网络依然能够准确地估计SMPL模型;其次本发明设计了一个可学习的增广器网络,该网络能够生成带有真实衣物细节和SMPL模型标签(Ground Truth)的增广点云,从而提高估计器网络对真实数据的泛化能力;最后,本发明是首个将自动增广用于单视角点云的三维人体姿态和形状估计,通过误差反馈策略联合优化了估计器网络和增广器网络。本发明方法通过利用估计器的误差反馈提出一个增广器来生成带真实数据特征的增广点云供估计器学习,便于估计器能够从真实数据和合成数据点云精准地恢复三维人体模型。
附图说明
图1为本发明实施例中基于自动增广的单视角点云的三维人体姿态与形状估计方法的整体网络结构图。
图2为本发明实施例中估计器网络的结构图。
图3为本发明实施例中增广器网络的结构图。
图4为本发明实施例中采集的真实人体数据示意图。
图5为本发明实施例中对真实人体数据进行变形和增广的示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
与传统的自动增广框架,例如PointAugment和PoseAug相比,在本发明实施例中的单视角点云的三维人体姿态和形状估计中,需要解决以下问题:
(1) 需要设计一个估计器,从单视角点云准确重建SMPL模型;
(2) 为了确保增广样本的合理性,并生成带有真实衣物细节和SMPL模型标签(Ground Truth)的增广点云,需要一个可学习的增广网络,能够驱动和变形真实数据点云,而不是简单地扰动真实数据点云;
(3) 需要确保增广的样本比输入点云更具挑战性。
基于以上问题,本发明提出了一个基于自动增广的单视角点云三维人体姿态与形状估计方法,该方法利用数据增广策略来增强网络模型对真实数据的泛化能力。
如图1提供了基于自动增广的单视角点云三维人体姿态与形状估计方法的整体网络结构图,该网络结构用于三维人体从单视角点云的姿态和形状估计。
整体网络结构由三个部分组成,即估计器网络、增广器网络以及判别器。
估计器以单视角点云为输入,输出参数化SMPL模型;增广器用于生成具有SMPL模型M*的增广样本P*来训练估计器;判别器用于保证人体形状和姿态参数的合理性。
给定一个输入点云P∈RN×3,其中每个样本的大小为N。估计器用于估计一个点云的参数模型。同时,估计器得到输入点云P的全局特征和预测的姿态参数{Fglobalθ},然后将全局特征和姿态参数{Fglobalθ}输入到增广器中,生成增广样本{P*,M*}。
请注意,全局特征的提取网络是由估计器网络和增广器网络共享的。
为了生成比输入点云P更具挑战性的增广样本P*,通过误差反馈策略联合优化了估计器网络和增广器网络,利用增广样本和输入样本的估计损失来指导增广器的训练过程,最后利用这些增广样本对估计器进行训练,有效地提高估计器对真实数据的泛化能力。
基于自动增广的单视角点云的三维人体姿态与形状估计方法,包括如下步骤:
步骤1. 为了能够精确的估计单视角点云的三维人体姿态和形状,本发明设计了一个估计器网络,其网络结构如图2所示。
估计器网络包括点云全局特征提取网络、遮挡感知网络以及SMPL参数回归网络。
其中,点云全局特征提取网络,用于获取点云3D几何信息。
遮挡感知网络,用于获取精细化的局部特征。
SMPL参数回归网络,包含全局参数回归网络和局部参数回归网络。
在全局参数回归网络中,网络的输出为SMPL模型中的形状参数β和偏移参数t,在局部参数回归网络中,网络的输出为SMPL模型中的姿态参数θ
输入点云在估计器网络中的大致处理流程如下:
首先将输入点云输入到点云全局特征提取网络中得到输入点云的全局特征F global ,输入点云输入到遮挡感知网络中得到输入点云精细化的局部特征。
然后拼接输入点云的全局特征和局部特征,将拼接后的特征同时送入全局参数回归网络和局部参数回归网络,得到估计的SMPL模型形状和姿态参数θ
基于形状和姿态参数,本发明可以通过SMPL函数重建得到SMPL三维人体模型。
下面结合图2对该步骤1进行详细说明:
步骤1.1. 在对输入点云进行特征提取之前,对输入点云进行降采样处理;采用PointNet++来捕获点云的三维几何信息,从输入点云中提取全局特征F global
本实施例中选择N = 2500作为点云样本的最终数量。
特别地,这也证明了估计器网络拥有良好的鲁棒性,因为它即使在一个小的采样数量的点云下也能表现得很好。在本发明中采用PointNet++来捕获点云的三维几何信息,并从输入点云中提取全局特征,因为PointNet++在点云任务上取得了巨大的成功。
由于PointNet++提取的点云的局特征忽略了人体的局部几何结构,因此为了获得点云局部几何信息,在下述步骤中使用Local-PointNet++来捕获点云局部特征。
提取到的局部特征= {f(p1);f(p2);···;f(pJ)}。
其中,J是点云的关节数量,pJ是以人体关节为中心,半径为r搜索的一个局部点云。f(pJ)表示通过PointNet获得局部点云pJ的特征。
最后,将三维关节位置和局部特征拼接起来组成新的局部特征。
步骤1.2. 遮挡感知网络包括Local-PointNet++、特征转换网络和关节估计网络。
输入点云在遮挡感知网络中的处理流程如下:
首先使用Local-PointNet++来捕获输入点云的局部深度特征F local ;然后将人体的三维关节位置J GT 和局部深度特征F local 连接起来组成最终的局部特征。
在经过Local-PointNet++对点云进行特征提取后,得到的局部特征并不是最佳的,为了得到更好的点云局部特征,将局部特征送入一个特征转换网络和关节估计网络中。
其中,特征转换网络将局部特征转换为精细化的局部特征F refined
关节估计网络由两个全连接层组成,输出预测的关节位置即图2中的J Pred ,同时引入关节估计损失对遮挡感知网络进行监督优化。关节损失函数L j 定义为:
其中,K是人体关节数量,K=24,J k 分别是网络预测的关节位置和GroundTruth关节位置,通过该损失的监督优化得到更加精细化的点云局部特征F refined
步骤1.3. 首先对步骤1.1得到的全局特征和步骤1.2得到的局部特征在同一个特征维度进行拼接,然后再将拼接后的特征F all 统一输入到回归网络中。
回归网络由两部分组成,分别为全局参数回归网络和局部参数回归网络。
其中,在全局参数回归网络中,网络的输出为SMPL模型中的形状参数β和偏移参数t,在局部参数回归网络中,网络的输出为SMPL模型中的姿态参数θ。
最后利用判别器判断形状和姿态参数是否合理。
SMPL模型是一个包括形状参数β∈R10和姿态参数θ∈R72。形状参数β控制三维人体的身高、体重和肢体比例,姿态参数θ表示运动学树中骨骼关节相对于其父母的轴角旋转。
用6维旋转表示姿态参数θR 6KK= 24,包括23个关节旋转和1个全局旋转),该旋转在真实欧几里得空间中是连续的,更适合神经网络学习。
SMPL模型函数M(β,θ,t)可以将形状和姿态参数映射到三维人体的6890个顶点V,其中t∈R3代表人体的整体平移,其公式定义为:
M(β,θ)=W(T(β,θ) ,J(β),θ,ω);T(β,θ)=T+B s (β)+B p (θ)。
其中,M(β,θ)和W(T(β,θ) ,J(β),θ,ω)代表SMPL函数中的线性混合蒙皮(linerblend skinning,LBS)方法,T(β,θ)、J(β)、θω分别为函数的输入参数。ω代表SMPL的权重矩阵。J(β)是用来计算由形状参数所控制的人体关节位置。T(β,θ)代表SMPL函数中的形状和姿态依赖变形函数。T是SMPL模板模型,是一个具备6890个顶点的三维人体,B s (β)和B p (θ)分别代表形状依赖变形函数(Shape blend shapes)和姿态依赖变形函数(Pose blendshapes)。
为了对估计器网络进行监督优化,设计估计器损失函数L E ,定义如下:
L E =λ 1 L 3D +λ 2 L param +λ 3 L adv
其中,λ 1λ 2λ 3为正则化参数。
L 3D 包括人体关节和SMPL模型顶点损失,L 3D 被定义为:L 3D =L j+L v ;其中,L j 是关节损失函数,L v 是SMPL模型顶点损失,L v 被定义为:
其中,Z=6890表示顶点数目,i∈[0,Z]。该SMPL模型顶点损失鼓励估计器预测的SMPL模型顶点M(β,θ,t) i 与Ground Truth 模型顶点上的对应点对齐。
L param 是SMPL参数损失,L param 被定义为:L param =L pose +L global
其中,L pose 是姿态参数损失函数,L pose 被定义为:
其中,L pose 鼓励估计的姿态参数θ接近Ground Truth 姿态参数R(·)将姿态参数转换为矢量化的旋转矩阵R(θ)∈R24×9
L global 是全局参数损失函数,被定义为:
L global 鼓励估计的形状参数β和偏移参数t接近Ground Truth 形状参数和偏移参数/>
此外,为了避免产生不合理的SMPL模型,还添加了一个形状和姿态识别损失L adv
L adv 是Kanazawa等人在方法HMR中使用GAN设计的最小二乘对抗性损失,它可以区分形状和姿态参数βθ是否来自真实的人体形状和姿态。
由于在使用local-PointNet++进行特征提取时用到人体关节信息,在训练时训练数据是自带人体关节的,在估计器网络测试过程中,测试数据的人体关节需要另外获取。本发明采用OPENPOSE计算单视角点云的二维关节,再通过二维到三维的转换得到三维关节。
具体的,使用OPENPOSE生成的关节v ij=(i,j),表示二维关节像素坐标,通过彩色图像与深度图像匹配获得该关节像素坐标的深度d,得到关节的三维坐标。
定义关节的三维坐标为v’ ij=(x,y,z),由二维到三维的转换公式如下:x=((i-c x )*d/f x ),y=((j-c y )*d/f y ),z=d;其中,常数c x c y f x 以及f y 均为相机内参。
步骤2. 为了能够生成比输入点云更具有挑战性和带有衣物细节的真实增广点云供估计器学习,本发明设计了一个增广器网络,其网络结构如图3所示。
该增广器网络的输入是步骤1估计器中得到的点云全局特征和姿态参数。
增广器网络包括均值inverse-LBS(即图5中LBS-1)和Pose Blend Shapes函数模块、姿态参数回归网络、以及均值forward-LBS(即图5中LBS)和Pose Blend Shapes函数模块。
Pose Blend Shapes函数也可缩写B mean 函数。
其中,均值inverse-LBS和Pose Blend Shapes函数模块,用于生成模板点云。
姿态参数回归网络,用于生成一个姿态参数θ*
均值forward-LBS和Pose Blend Shapes函数模块利用生成的姿态参数θ*来变形模板点云。
估计器中得到的点云全局特征和姿态参数在增广器中的大致处理流程如下:
首先,通过inverse-LBS和Pose Blend Shapes函数模块对真实点云进行统一变形,将有姿态的真实点云变形为一个统一姿势的模板点云,在图3和图5中也展示了该过程。
其次,通过姿态参数回归网络以估计器中得到的点云全局特征F global 和姿态参数θ为输入,输出一个比估计器中的姿态参数θ更具挑战性的姿态参数θ*
最后,在姿态参数θ*的作用下,首先利用SMPL模型函数M(θ*)得到增广点云拟合SMPL模型M*,再通过forward-LBS和Pose Blend Shapes函数模块对模板点云进行姿态变形。
下面结合图3对该步骤2进一步详细描述:
步骤2.1. 近年来,线性混合蒙皮(LBS)是一种使用用户定义的刚性骨骼转换来变形参数化人体模型的常用方法。如图3所示,所提出的增广器旨在生成具有真实衣物细节和GT(Ground Truth) SMPL模型的点云样本。该步骤2.1具体为:
首先使用Kinect V2深度相机传感器捕获真实人体点云,并利用监督微调方案获得精确对齐的SMPL模型,作为对真实点云进行变形的伪标签。
在本实施例中,使用Kinect V2深度相机传感器捕获了23名男性和17名女性人体点云,并利用Wang等人提出的监督微调方案,获得精确对齐的SMPL模型,作为inverse-LBS和Pose Blend Shapes过程的伪标记。具体来说,在伪标签中使用全局旋转参数(即姿态参数的前三个维度),以确保增广样本的视角与原始点云的视角相同。还通过使人体旋转一周来获取每个人体对象的不同视角,以获得人体的全身细节。
本发明是为了对拍摄的真实点云进行驱动变形获得增广点云,然后将增广点云作为估计器的输入点云训练估计器。而步骤1估计器网络一开始的输入点云即训练样本,仅仅是合成数据集,如SURREAL和CAPE等数据集,这些数据集并不具备真实数据细节特征,因此也无法利用这些数据集训练出一个对真实数据点云具有良好泛化能力的估计器。
在图4中展示了一些捕获的数据,并可以看到真实数据包含不同类型的服装细节。然后使用增广器中均值inverse-LBS和Pose Blend Shapes函数模块对真实点云进行一个统一变形,将有姿态的真实点云变形为一个统一姿势的模板点云,即将真实点云P real ={p (i)} D i=1转换为模板点云T={t (i)} D i=1;其中,p (i)表示真实点云,P real 表示真实点云数据集,D表示点数;t (i)表示模板点云,T表示模板点云数据集。这里,t (i)= inverse-LBS(p (i) ,W (i) mean G)−B mean (p (i) ,θ real )。本发明定义均值Pose Blend Shapes和inverse-LBS函数如下:
其中,B mean 返回一个由姿态参数控制的三维偏移量,B p 是SMPL的姿态依赖变形函数(Pose blend shapes),δ(p (i))是计算点p (i)与SMPL模型点云Mreal的最近点。
其中Mrealθ real是由Wang等人的监督微调方法生成的。
bh是以最近点δ(p (i))为中心,半径为d搜索的一个局部点云,该点云的数量为H。
为了避免生成的点云存在潜在不连续,计算这些邻近点的B p 偏移,然后取平均值。{G j }24 j=1是人体关节的刚性变换,每个G j 为一个4×4旋转平移矩阵。
它来自于拟合的SMPL模型MrealW (i) mean 是LBS的均值蒙皮权重,其公式为:
其中,W(b h )为分配给SMPL模型M real 的最近表面点的权值。与最近点蒙皮权重W(b h )B p 的方法相比,可以在规范空间中生成更平滑的点云模板T。
步骤2.2. 增广器中的姿态参数回归网络以估计器得到的点云全局特征和姿态参数θ为输入,输出一个比姿态参数θ更具挑战性的姿态参数θ*
其中,θ*=△θ+θ,如图3所示,其中,△θ表示姿态参数回归网络输出的参数增量。
在增广损失函数L A 的作用下(即图1中的误差反馈策略),姿态参数回归网络可以智能地生成比输入点云的姿态更具挑战性的姿态,而不是随机生成姿态。
然后,利用SMPL模型函数M(θ*)得到增广点云P * ={t (i) end } D i=1的拟合SMPL模型M*。在这里,形状参数是不必要的,因为对真实数据点云不使用形状依赖变形函数。
值得一提的是,回归网络所生成的姿态参数也会由图1中的判别器判别姿态是否合理,以防止生成无效的增广样本,影响估计器网络的训练。
步骤2.3. 在步骤2.2生成的姿态参数θ*和SMPL模型M*,使用forward-LBS和PoseBlend Shapes函数对模板点云T={t (i)} D i=1进行姿势变形,得到增广点云P * ={t (i) end } D i=1
在图3中,使用均值forward-LBS和Pose Blend Shapes函数模块对模板点云姿势变形和得到姿态丰富的增广点云,定义forward-LBS函数如下:
其中,t (i) p 是由于均值B mean (t (i) ,θ*)所引起偏移后的点。
G * 来自于拟合的SMPL模型M*,随后,进一步利用增广样本{P*,M*}来训练估计器。
与现有的方法不同,本实施例中增广器具有对输入点云P的姿态感知能力。
步骤 3. 为了能够使增广器能够根据估计器的训练学习进度智能的生成逐渐复杂和困难的增广样本供估计器训练学习,而不至于生成很复杂增广样本导致估计器无法有效学习,从而训练训练崩塌,本发明设计了一个对抗损失函数对增广器进行训练优化。另外,为了使得估计器和增广器所输出的形状和姿态参数是合理的,本发明也引入了一个判别器网络。
将步骤2得到的增广点云P*送入估计器训练,然后利用增广点云P*和步骤1中输入点云P的估计损失L E (P*)和L E (P)设计对抗损失函数,即增广损失函数L A
通过该增广损失函数L A 对增广器进行训练优化,得到优化后的增广器。
为了使估计器学习比输入点云更具挑战性的增广样本,需要在增广器中生成更具挑战性的姿态参数θ*,因此,目标是L E (P*)>L E (P)。
其中,L E (P*)和L E (P)分别是增广点云P*以及输入点云P的估计损失。
定义增广损失函数L A 如下:L A =λ 4 L feedback +λ 5 L adv-pose
其中,λ 4λ 5为正则化参数。L feedback 表示可控反馈损失,类似于PointAugment和PoseAug的可控反馈损失。定义该反馈损失L feedback 如下:L feedback =|1.0-exp[L E (P*)-γL E (P)]|。
其中,γ>1表示控制增广姿态难度水平的动态参数。
在训练增广器之前,首先使用合成数据和少量的手动增广样本对估计器网络进行预训练,但预训练模型对真实数据的泛化能力较差。在增广网络和估计网络的联合训练过程中,动态参数逐渐增大,损失L E (P*)逐渐增大,说明增广样本P*越来越具有挑战性。
此外,为了保证增广点云的合理性和有效性,本发明还添加了一个姿态判别损失L adv-pose 来约束增广器,其中,L adv-pose 是用GAN实现的最小二乘对抗性损失。
步骤4. 通过步骤3已经得到了一个优化后的增广器,它可以生成符合估计器训练的增广点云了,接下来就是将优化后的增广器得到的增广点云送入估计器,使估计器对这些增广点云进行一个学习,如图1所示,即继续回到步骤1,输入的训练数据也包含了增广点云。
由于增广点云是通过真实数据点云变形而来,因此增广点云具备丰富的真实数据点云的特征。当估计器网络和增广器网络都训练完毕时,可以得到一个对真实数据点云具有良好泛化能力的估计器,也可以得到一个拥有强大增广能力的增广器。最后使用训练好估计器网络对真实数据和合成数据进行一个精准的三维人体姿态和形状估计。
值得一提的是,本发明方法由于在估计器网络引入了遮挡感知网络,即使面对一些拥有自遮挡的点云依然能精准估计姿态和形状,也因为引入了自动增广,不仅面对合成数据能精准估计姿态和形状,即使面对真实数据依然能精准估计姿态和形状。
本发明方法所提的整体框架结构有效地提高了估计器网络在真实数据上的泛化能力和重构精度。具体来说,首先在整体框架结构中设计了一个估计器网络,可以准确地从单视角点云估计参数三维模型,即使点云是自遮挡的。然后,还在该整体框架结构中设计了一个可学习的增广器网络,该增广器网络可以驱动和变形真实数据,以获得具有真实衣物细节和SMPL模型(Ground Truth)的增广样本。最后,采用对抗性学习策略,根据估计器的学习过程生成增广样本,指导增广器在训练过程中增加增广样本的多样性和挑战性。有了这种策略,可以逐渐使增广器生成更具挑战性的增广数据,从而提高估计器对真实数据的泛化能力。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (10)

1.基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
包括如下步骤:
步骤1. 搭建用于估计单视角点云的三维人体姿态和形状的估计器网络,输入训练数据即输入点云到估计器网络中,得到点云全局特征以及SMPL模型形状和姿态参数;
步骤2. 构建增广器网络,将估计器中得到的点云全局特征和姿态参数输入到增广器中,增广器生成比输入点云更具有挑战性和带有衣物细节的真实增广点云;
步骤 3. 使用估计器网络中得到的迭代误差反馈构建的增广损失函数来优化增广器,并引入判别器以保证SMPL模型输出的形状和姿态参数的合理性;
步骤4. 将优化后的增广器得到的增广点云送入估计器,使估计器对这些增广点云进行学习,即继续回到步骤1,此时,输入训练数据中包含增广点云;
最终使用训练好的估计器网络对真实数据和合成数据进行三维人体姿态和形状估计。
2.根据权利要求1所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤1中,估计器网络包括点云全局特征提取网络、遮挡感知网络以及SMPL参数回归网络;其中输入点云在估计器网络中的处理流程如下:
首先将输入点云输入到点云全局特征提取网络中得到输入点云的全局特征,将输入点云输入到遮挡感知网络中得到输入点云精细化的局部特征;
然后拼接输入点云的全局特征和局部特征,将拼接后的特征同时送入全局参数回归网络和局部参数回归网络,得到估计的SMPL模型形状和姿态参数θ
3.根据权利要求2所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤1具体为:
步骤1.1. 在对输入点云进行特征提取之前,对输入点云进行降采样处理;采用PointNet++来捕获点云的三维几何信息,从输入点云中提取全局特征;
步骤1.2. 遮挡感知网络包括Local-PointNet++、特征转换网络和关节估计网络;
输入点云在遮挡感知网络中的处理流程如下:
首先使用Local-PointNet++来捕获输入点云的局部深度特征,然后将人体的三维关节位置和局部深度特征连接起来组成最终的局部特征;
将得到的局部特征送入一个特征转换网络和关节估计网络;
特征转换网络将局部特征转换为精细化的局部特征,关节估计网络由两个全连接层组成,输出预测的关节位置,同时引入关节估计损失对遮挡感知网络进行监督优化;
步骤1.3. 首先对步骤1.1得到的全局特征和步骤1.2得到的局部特征在同一个特征维度进行拼接,然后再将拼接后的特征统一输入到回归网络中;
回归网络由两部分组成,分别为全局参数回归网络和局部参数回归网络;
在全局参数回归网络中,网络的输出为SMPL模型中的形状参数β和偏移参数t,在局部参数回归网络中,网络的输出为SMPL模型中的姿态参数θ
4.根据权利要求3所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤1.2中,关节损失函数L j 定义为:
其中,K是人体关节数量,K=24,J k 分别是网络预测的关节位置和Ground Truth关节位置,通过该关节损失函数L j 的监督优化得到更加精细化的点云局部特征。
5.根据权利要求4所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
设计估计器网络的损失函数L E ,定义如下:
L E =λ 1 L 3D +λ 2 L param +λ 3 L adv
其中,λ 1λ 2λ 3为正则化参数;
L 3D 包括人体关节和SMPL模型顶点损失,L 3D 被定义为:L 3D = L j+ L v ;其中,L j 是关节损失函数,L v 是SMPL模型顶点损失,L v 被定义为:
其中,Z表示顶点数目,i∈[0,Z],该SMPL模型顶点损失鼓励估计器网络预测的SMPL模型顶点M(β,θ,t) i 与Ground Truth 模型顶点上的对应点对齐;
L param 是SMPL参数损失,L param 被定义为:L param = L pose + L global
其中,L pose 是姿态参数损失函数,L pose 被定义为:
其中,L pose 鼓励估计的姿态参数θ接近Ground Truth 姿态参数
R(·)将姿态参数转换为矢量化的旋转矩阵R(θ)∈R24×9
L global 是全局参数损失函数,被定义为:
L global 鼓励估计的形状参数β和偏移参数t接近Ground Truth 形状参数和偏移参数/>L adv 表示形状和姿态判别损失。
6.根据权利要求1所述的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤2中,增广器网络包括均值inverse-LBS和Pose Blend Shapes函数模块、姿态参数回归网络、以及均值forward-LBS和Pose Blend Shapes函数模块;
点云全局特征和姿态参数在增广器中的处理流程如下:
首先,通过均值inverse-LBS和Pose Blend Shapes函数模块对真实点云进行统一变形,将有姿态的真实点云变形为一个统一姿势的模板点云;
其次,通过姿态参数回归网络以估计器中得到的点云全局特征和姿态参数θ为输入,输出一个比估计器中的姿态参数θ更具挑战性的姿态参数θ*
最后,在姿态参数θ*的作用下,利用SMPL模型函数M(θ*)得到增广点云拟合SMPL模型M*,再通过均值forward-LBS和Pose Blend Shapes函数模块对模板点云进行姿态变形。
7.根据权利要求6所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤2具体为:
步骤2.1. 首先使用Kinect V2深度相机传感器捕获人体点云即真实点云,并获得精确对齐的SMPL模型,作为对真实点云进行变形的伪标签;
然后使用增广器中的均值inverse-LBS和Pose Blend Shapes函数模块对真实点云进行一个统一变形,将有姿态的真实点云变形为一个统一姿势的模板点云;
即将真实点云P real ={ p (i)} D i=1转换为模板点云T={ t (i)} D i=1;其中,p (i)表示真实点云,P real 表示真实点云数据集,D表示点数;t (i)表示模板点云,T表示模板点云数据集;
步骤2.2. 将输入点云P的全局特征估计的姿态参数{F global θ}输入到增广器的姿态参数回归网络中,在增广损失函数L A 的作用下生成比姿态参数θ更具挑战性的姿态参数θ*
然后,利用SMPL模型函数M(θ*)得到增广点云P * ={ t (i) end } D i=1的拟合SMPL模型M*,其中,t (i) end 表示增广点云P * 上的一个点,D是点云数量;
步骤2.3. 在步骤2.2生成的姿态参数θ*和SMPL模型M*,使用均值forward-LBS和PoseBlend Shapes函数模块对模板点云T={t (i)} D i=1进行姿势变形得到增广点云P * ={t (i) end } D i=1
8.根据权利要求1所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤3具体为:
将步骤2得到的增广点云P*送入估计器训练,然后利用增广点云P*和步骤1中输入点云P的估计损失L E (P*)和L E (P)设计对抗损失函数,即增广损失函数L A
通过该增广损失函数L A 对增广器进行训练优化,得到优化后的增广器。
9.根据权利要求8所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤3中,为了使估计器学习比输入点云更具挑战性的增广样本,需要在增广器中生成更具挑战性的姿态参数θ*,因此,目标是L E (P*)>L E (P);
其中,L E (P*)和L E (P)分别是增广点云P*以及输入点云P的估计损失;
定义增广损失函数L A 如下:L A =λ 4 L feedback +λ 5 L adv-pose
其中,λ 4λ 5为正则化参数;
L feedback 表示可控反馈损失,定义该可控反馈损失L feedback 如下:
L feedback =|1.0-exp[L E (P*)-γL E (P)]|;
其中,γ>1表示控制增广姿态难度水平的动态参数;
L adv-pose 用于约束增广器的姿态判别损失,L adv-pose 是用GAN实现的最小二乘对抗性损失。
10.根据权利要求1所述的基于自动增广的单视角点云三维人体姿态与形状估计方法,其特征在于,
所述步骤1中,在估计器网络测试过程中,获取测试数据的人体关节,即采用OPENPOSE计算单视角点云的二维关节,再通过二维到三维的转换得到三维关节;
具体的,使用OPENPOSE生成的关节v ij=(i,j),表示二维关节像素坐标,通过彩色图像与深度图像匹配获得该关节像素坐标的深度d,得到关节的三维坐标;
定义关节的三维坐标为v´ij=(x,y,z),由二维关节到三维关节的转换公式如下:x=((i-c x )*d/f x ),y=((j-c y )*d/f y ),z=d;其中,常数c x c y f x 以及f y 均为相机内参。
CN202311029136.0A 2023-08-16 2023-08-16 基于自动增广的单视角点云三维人体姿态与形状估计方法 Active CN116740820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311029136.0A CN116740820B (zh) 2023-08-16 2023-08-16 基于自动增广的单视角点云三维人体姿态与形状估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311029136.0A CN116740820B (zh) 2023-08-16 2023-08-16 基于自动增广的单视角点云三维人体姿态与形状估计方法

Publications (2)

Publication Number Publication Date
CN116740820A true CN116740820A (zh) 2023-09-12
CN116740820B CN116740820B (zh) 2023-10-31

Family

ID=87903023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311029136.0A Active CN116740820B (zh) 2023-08-16 2023-08-16 基于自动增广的单视角点云三维人体姿态与形状估计方法

Country Status (1)

Country Link
CN (1) CN116740820B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961339A (zh) * 2018-07-20 2018-12-07 深圳辰视智能科技有限公司 一种基于深度学习的点云物体姿态估计方法、装置及其设备
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
CN111882492A (zh) * 2020-06-18 2020-11-03 天津中科智能识别产业技术研究院有限公司 一种图像数据自动增强的方法
CN111968217A (zh) * 2020-05-18 2020-11-20 北京邮电大学 基于图片的smpl参数预测以及人体模型生成方法
CN112116720A (zh) * 2020-09-18 2020-12-22 平安科技(深圳)有限公司 三维点云的增广方法、装置、存储介质及计算机设备
CN112395962A (zh) * 2020-11-03 2021-02-23 北京京东乾石科技有限公司 数据增广方法及装置、物体识别方法及系统
CN112750198A (zh) * 2021-01-12 2021-05-04 南京理工大学 一种基于非刚性点云的稠密对应预测方法
US20210150228A1 (en) * 2019-11-15 2021-05-20 Argo AI, LLC Methods and systems for joint pose and shape estimation of objects from sensor data
CN113112607A (zh) * 2021-04-19 2021-07-13 复旦大学 一种生成任意帧率的三维网格模型序列的方法及装置
US20220051437A1 (en) * 2020-08-17 2022-02-17 Northeastern University 3D Human Pose Estimation System
CN114299150A (zh) * 2021-12-31 2022-04-08 河北工业大学 一种深度6d位姿估计网络模型及工件位姿估计方法
CN114612612A (zh) * 2022-03-04 2022-06-10 Oppo广东移动通信有限公司 人体姿态估计方法及装置、计算机可读介质、电子设备
CN114663810A (zh) * 2022-03-21 2022-06-24 中国电信股份有限公司 基于多模态的物体图像增广方法及装置、设备及存储介质
CN114913552A (zh) * 2022-07-13 2022-08-16 南京理工大学 一种基于单视角点云序列的三维人体稠密对应估计方法
US11526697B1 (en) * 2020-03-10 2022-12-13 Amazon Technologies, Inc. Three-dimensional pose estimation
CN116168046A (zh) * 2023-04-26 2023-05-26 山东省凯麟环保设备股份有限公司 复杂环境下的3d点云语义分割方法、系统、介质及设备
US20230169727A1 (en) * 2020-04-30 2023-06-01 Google Llc Generative Nonlinear Human Shape Models
CN116402976A (zh) * 2023-03-07 2023-07-07 嬴彻星创智能科技(上海)有限公司 三维目标检测模型训练方法及装置

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961339A (zh) * 2018-07-20 2018-12-07 深圳辰视智能科技有限公司 一种基于深度学习的点云物体姿态估计方法、装置及其设备
CN110222580A (zh) * 2019-05-09 2019-09-10 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
US20210150228A1 (en) * 2019-11-15 2021-05-20 Argo AI, LLC Methods and systems for joint pose and shape estimation of objects from sensor data
US11526697B1 (en) * 2020-03-10 2022-12-13 Amazon Technologies, Inc. Three-dimensional pose estimation
US20230169727A1 (en) * 2020-04-30 2023-06-01 Google Llc Generative Nonlinear Human Shape Models
CN111968217A (zh) * 2020-05-18 2020-11-20 北京邮电大学 基于图片的smpl参数预测以及人体模型生成方法
CN111882492A (zh) * 2020-06-18 2020-11-03 天津中科智能识别产业技术研究院有限公司 一种图像数据自动增强的方法
US20220051437A1 (en) * 2020-08-17 2022-02-17 Northeastern University 3D Human Pose Estimation System
CN112116720A (zh) * 2020-09-18 2020-12-22 平安科技(深圳)有限公司 三维点云的增广方法、装置、存储介质及计算机设备
WO2021169498A1 (zh) * 2020-09-18 2021-09-02 平安科技(深圳)有限公司 三维点云的增广方法、装置、存储介质及计算机设备
CN112395962A (zh) * 2020-11-03 2021-02-23 北京京东乾石科技有限公司 数据增广方法及装置、物体识别方法及系统
CN112750198A (zh) * 2021-01-12 2021-05-04 南京理工大学 一种基于非刚性点云的稠密对应预测方法
CN113112607A (zh) * 2021-04-19 2021-07-13 复旦大学 一种生成任意帧率的三维网格模型序列的方法及装置
CN114299150A (zh) * 2021-12-31 2022-04-08 河北工业大学 一种深度6d位姿估计网络模型及工件位姿估计方法
CN114612612A (zh) * 2022-03-04 2022-06-10 Oppo广东移动通信有限公司 人体姿态估计方法及装置、计算机可读介质、电子设备
CN114663810A (zh) * 2022-03-21 2022-06-24 中国电信股份有限公司 基于多模态的物体图像增广方法及装置、设备及存储介质
CN114913552A (zh) * 2022-07-13 2022-08-16 南京理工大学 一种基于单视角点云序列的三维人体稠密对应估计方法
CN116402976A (zh) * 2023-03-07 2023-07-07 嬴彻星创智能科技(上海)有限公司 三维目标检测模型训练方法及装置
CN116168046A (zh) * 2023-04-26 2023-05-26 山东省凯麟环保设备股份有限公司 复杂环境下的3d点云语义分割方法、系统、介质及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUCHENG CHEN 等: "Monocular human pose estimation: A survey of deep learning-based methods", 《COMPUTER VISION AND IMAGE UNDERSTANDING》, vol. 192, pages 1 - 20 *
余家林 等: "基于多核稀疏编码的三维人体姿态估计", 《电子学报》, no. 08, pages 1899 - 1908 *
侯大伟: "一种基于实例分割和点云配准的六维位姿估计方法", 《信息技术与网络安全》, vol. 40, no. 06, pages 56 - 61 *

Also Published As

Publication number Publication date
CN116740820B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110827342B (zh) 三维人体模型重建方法及存储设备、控制设备
Gao et al. Dynamic hand gesture recognition based on 3D hand pose estimation for human–robot interaction
US10033979B2 (en) Video surveillance systems, devices and methods with improved 3D human pose and shape modeling
CN111311729B (zh) 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN104063702B (zh) 一种基于遮挡修复和局部相似性匹配的三维步态识别方法
Sundaresan et al. Markerless motion capture using multiple cameras
CN113538218B (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
Zhou et al. 3D shape reconstruction from 2D landmarks: A convex formulation
CN112330813A (zh) 一种基于单目深度摄像头的着装下三维人体模型重建方法
CN114913552B (zh) 一种基于单视角点云序列的三维人体稠密对应估计方法
Wakayama et al. 6D-pose estimation for manipulation in retail robotics using the inference-embedded OAK-D camera
CN102034275B (zh) 面向大尺度变形的非刚性注册方法
Weinrich et al. Appearance-based 3D upper-body pose estimation and person re-identification on mobile robots
CN116740820B (zh) 基于自动增广的单视角点云三维人体姿态与形状估计方法
Tran 3D hand pose estimation in point cloud using 3D convolutional neural network on egocentric datasets
CN112435345B (zh) 一种基于深度学习的人体三维测量方法及系统
CN113158942A (zh) 一种运动人体行为检测的分割算法及装置
Lin et al. 6D object pose estimation with pairwise compatible geometric features
Chu et al. A visual attention model for robot object tracking
CN104751448A (zh) 基于pca和噪声分离的在线视频跟踪方法
CN113379821B (zh) 一种基于深度学习的稳定单目视频深度估计方法
Jiang et al. Saliency Detection of Logistics Packages Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant