CN115731344A

CN115731344A - 图像处理模型训练方法以及三维对象模型构建方法

Info

Publication number: CN115731344A
Application number: CN202211405934.4A
Authority: CN
Inventors: 王光远; 冉清; 唐思聪; 申丽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-03

Abstract

本说明书实施例提供了图像处理模型训练方法以及三维对象模型构建方法，该图像处理模型训练方法包括确定目标对象的三维对象模型；渲染三维对象模型，确定目标对象的至少一个视角下的彩色图像；根据三维对象模型或者彩色图像，确定目标对象的对象参数化模型；渲染对象参数化模型，确定与彩色图像对应的深度图像；根据彩色图像、深度图像、以及目标对象对应的目标深度图像，训练获得图像处理模型。该方法通过引入渲染目标对象的对象参数化模型获得的深度图像，为深度估计提供对象形状参数、姿态参数的粗略先验，以降低深度估计的自由度，在此基础上结合RGB图像对图像处理模型进行训练，引导图像处理模型学习到准确且细节丰富的对象深度估计结果。

Description

图像处理模型训练方法以及三维对象模型构建方法

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种图像处理模型训练方法。

背景技术

全息人体4D(FourDimensions)重建，为通过AI(Artificial Intelligence，人工智能)能力从消费级硬件(例如任意VR(Virtual Reality，虚拟现实)设备)的单目RGB图像输入中恢复出一系列高精度人体表面几何的过程。而要实现全息人体4D重建，从单目RGB(Red(红色)，G代表Green(绿色)，B代表Blue(蓝色))图像输入中恢复出高精度的深度数据是比不可少的关键关节，深度数据包含的几何细节越多，得到的全息人体4D重建模型越真实，在XR(Extended Reality，扩展现实)应用带来的沉浸感也越强烈。

但是，从单目RGB图像输入中恢复成像过程中丢失的深度信息，作为未解决的技术问题，一直是计算机视觉领域的重要研究方向。

发明内容

有鉴于此，本说明书实施例提供了一种图像处理模型训练方法。本说明书一个或者多个实施例同时涉及一种图像处理模型训练装置，一种三维对象模型构建方法，一种三维对象模型构建装置，一种扩展现实XR设备，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理模型训练方法，包括：

确定目标对象的三维对象模型；

渲染所述三维对象模型，确定所述目标对象的至少一个视角下的彩色图像；

根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型；

渲染所述对象参数化模型，确定与所述彩色图像对应的深度图像；

根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，

其中，所述图像处理模型为深度神经网络模型。

根据本说明书实施例的第二方面，提供了一种图像处理模型训练装置，包括：

第一模型确定模块，被配置为确定目标对象的三维对象模型；

第一渲染模块，被配置为渲染所述三维对象模型，确定所述目标对象的至少一个视角下的彩色图像；

第二模型确定模块，被配置为根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型；

第二渲染模块，被配置为渲染所述对象参数化模型，确定与所述彩色图像对应的深度图像；

模型训练模块，被配置为根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，

其中，所述图像处理模型为深度神经网络模型。

根据本说明书实施例的第三方面，提供了一种三维对象模型构建方法，包括：

将目标对象的彩色图像输入图像处理模型，获得与所述目标对象的彩色图像对应的深度图像；

根据所述深度图像建立所述目标对象的三维对象模型；其中，所述图像处理模型为上述图像处理模型训练方法中的图像处理模型。

根据本说明书实施例的第四方面，提供了一种三维对象模型构建装置，包括：

深度图像获得模块，被配置为将目标对象的彩色图像输入图像处理模型，获得与所述目标对象的彩色图像对应的深度图像；

三维模型建立模块，被配置为根据所述深度图像建立所述目标对象的三维对象模型；其中，所述图像处理模型为上述图像处理模型训练方法中的图像处理模型。

根据本说明书实施例的第五方面，提供了一种扩展现实XR设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述三维对象模型构建方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理模型训练或三维对象模型构建方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像处理模型训练或三维对象模型构建方法的步骤。

根据本说明书实施例的第八方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理模型训练或三维对象模型构建方法的步骤。

本说明书一个实施例实现了一种图像处理模型训练方法，该方法包括确定目标对象的三维对象模型；渲染所述三维对象模型，确定所述目标对象的至少一个视角下的彩色图像；根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型；渲染所述对象参数化模型，确定与所述彩色图像对应的深度图像；根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，其中，所述图像处理模型为深度神经网络模型。

具体的，该方法通过引入渲染目标对象的对象参数化模型获得的深度图像，为深度估计提供对象形状参数、姿态参数的粗略先验，以降低深度估计的自由度，在此基础上结合通过渲染目标对象的三维对象模型获得的彩色图像(即RGB图像)对图像处理模型进行训练，引导图像处理模型学习到准确且细节丰富的对象深度估计结果，使得该图像处理模型后续从单张RGB图像中即可恢复出更多精细的对象几何细节，提高预测的深度图像的精确度。

附图说明

图1是本说明书一个实施例提供的一种图像处理模型训练方法的具体实现场景示意图；

图2是本说明书一个实施例提供的一种图像处理模型训练方法的流程图；

图3是本说明书一个实施例提供的一种图像处理模型训练方法的处理过程流程图；

图4是本说明书一个实施例提供的一种三维对象模型构建方法的流程图；

图5是本说明书一个实施例提供的一种三维对象模型构建方法中根据图像处理模型从目标人体的单目RGB图像预测人体深度图像的示意图；

图6是本说明书一个实施例提供的一种图像处理模型训练装置的结构示意图；

图7是本说明书一个实施例提供的一种三维对象模型构建装置的结构示意图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

参数化模型：基于统计得到的人体参数化模型，通过一组低维向量来描述人体形状。

SMPL：Skinned Multi-Person Linear Model，是一种裸体的(skinned)，基于顶点(vertex-based)的人体三维模型，能够精确地表示人体的不同形状(shape)和姿态(pose)；也是人体参数化模型的一种，即用人体体型参数与人体姿态参数来表示不同体态和动作的三维网格人体模型。

SMPL体型参数：代表人体高矮胖瘦、头身比等比例的参数。

SMPL姿态参数：人体的全局旋转参数以及多个关节的关节角旋转参数。

SMPL估计：获得人体姿态参数和人体体型参数。

CNN：Convolutional Neural Networks，卷积神经网络，一种带有卷积结构的深度神经网络。

ICP：IterativeClosestPointAlgorithm，迭代最近点算法，是刚性配准算法中的一种，该算法一般多用于三维空间内点云配准，不仅适用于平面场景，还适用于曲线和曲面等场景。当点云配准的结果未满足理想精度的要求，通过ICP算法，在不断地迭代中降低误差，从而实现理想的精度值。

NICP：NICP是基于ICP算法的，NICP在点云匹配上，除了约束点间的距离，另外加入了法向量及点云所在曲面的曲率的约束，以提高点云匹配性能。

VIBE：Video inference for human body pose and shape estimation，一种2D(Two Dimensions)-SMPL拟合算法，可以从单张RGB图片重建整个人体3D网格。

HMR：Human Mesh Recovery，是一个从单张RGB图片中重建整个人体3D(ThreeDimensions)网格(three-dimensional mesh)的端到端框架。

本说明书实施例中，对于单张RGB图像的深度图像可以通过主动深度获取设备获得，也可以通过参数化人体估计获得。

其中，通过主动深度获取设备获得的具体实现方式，可以理解为通过搭载激光雷达或者主动视觉模块以硬件采集的方式获取可见人体深度图像。缺点在于：后续应用开发必须搭载此硬件设备，灵活性受限；并且，在有限成本下，硬件获取效果如有效范围、感知精度、分辨率等均具有上限，无法满足后续应用的多种需求。即通过主动深度获取设备实现时，增加的硬件设备在业务落地时带来更多的额外开销。

此外，通过参数化人体估计获得的具体实现方式，可以理解为从单张RGB图像输入中，得到人体参数模型SMPL的结果，以拟合图像中的人体像素作为深度图像。缺点在于：缺乏几何细节，参数化模型SMPL对人体几何的表征能力已固化，属于低维表达，导致无法恢复更多细节。

并且，直接通过深度学习的方法，构建卷积神经网络，使用精细化深度图像作为监督信号，从单张RGB图像中直接回归出对应的深度结果，缺点在于：强行构建RGB图像和深度图像之间的映射关系，未考虑人体体型参数和姿态参数先验，实际应用时经常会出现由于自由度过高，模型拟合能力欠缺得到较差的深度估计结果。

基于此，在本说明书中，提供了一种图像处理模型训练方法。本说明书一个或者多个实施例同时涉及一种图像处理模型训练装置，一种三维对象模型构建方法，一种三维对象模型构建装置，一种扩展现实XR设备，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种图像处理模型训练方法的具体实现场景示意图。

图1中包括云侧设备102和端侧设备104，其中，云侧设备102可以理解为云服务器，当然，在可实现方案中，云侧设备102也可以替换为物理服务器；该端侧设备104包括但不限于任意VR设备(例如VR眼镜)等；为了便于理解，本说明书实施例中，均以云侧设备102为云服务器、端侧设备104为VR眼镜为例进行详细介绍。

对本说明书实施例提供的图像处理模型训练方法应用于对人体深度图像进行预测的图像处理模型的训练场景进行详细说明。

具体实施时，云侧设备102将接收的多个真实人体的三维网格模型作为训练数据，其中，该真实人体的三维网络模型可以通过扫描真实人体获得；然后对每个真实人体的三维网格模型进行渲染，生成渲染后的彩色图像；再根据初始化SMPL模型以及真实人体的三维网格模型，通过ICP算法，获得每个真实人体的SMPL模型，并通过对每个真实人体的SMPL模型的渲染，生成渲染后的深度图像；最后将该彩色图像以及深度图像作为训练样本，将通过深度值渲染器渲染真实人体的三维网格模型，获得的人体深度图像作为该训练样本对应的训练标签；根据该训练样本以及该训练样本对应的训练标签，训练图像处理模型，在该图像处理模型满足训练停止条件时结束训练，获得训练后的图像处理模型；使得该图像处理模型后续可以在输入真实人体的彩色图像，即可输出预测的该真实人体的彩色图像对应的人体深度图像。

当端侧设备104需要使用该图像处理模型时，则可以调用云侧设备102训练后获得的图像处理模型进行功能使用；另外，在端侧设备104的计算资源以及计算能力足够的情况下，也可以将在该云侧设备102中训练后的图像处理模型，部署在端侧设备104。具体根据实际应用进行部署实现，在此不作任何限定。

而该端侧设备104在根据该图像处理模型获得人体深度图像之后，则可以根据该人体深度图像进行精确的全息人体4D重建，提升用户体验。

本说明书实施例提供的图像处理模型训练方法，通过引入人体参数化模型SMPL，为人体深度图像估计提供人体形状和人体姿态的粗略先验，以降低人体深度图像估计的自由度，并且结合人体的RGB图像中的高频信息学习高精度的人体深度图像，从而使得训练获得的该图像处理模型在后续进行人体深度图像预测时，可以恢复人体深度图像的更多几何细节，提高人体深度图像的精确度，进而提升根据该人体深度图像进行建模的全息人体4D模型的真实性。

参见图2，图2示出了根据本说明书一个实施例提供的一种图像处理模型训练方法的流程图，具体包括以下步骤。

步骤202：确定目标对象的三维对象模型。

具体的，本说明书实施例提供的该图像处理模型训练方法，可以应用于对人体深度图像进行预测的图像处理模型的训练场景，也可以应用于对其他物品(例如宠物或者家具等)的深度图像进行预测的图像处理模型的训练场景。

并且，该图像处理模型训练方法的应用场景不同，其目标对象也不同，例如当该图像处理模型训练方法，应用于对人体深度图像进行预测的图像处理模型的训练场景的情况下，该目标对象则可以理解为目标人体，即真实的人体；当该图像处理模型训练方法，应用于对宠物深度图像进行预测的图像处理模型的训练场景的情况下，该目标对象则可以理解为宠物等。

为了便于理解，本说明书实施例中均以该图像处理模型训练方法，应用于对人体深度图像进行预测的图像处理模型的训练场景，目标对象为真实人体为例进行详细介绍。

实际应用中，进行图像处理模型训练时，会采用多个训练数据进行图像处理模型训练，以保证训练获得的图像处理模型的精度。并且该目标对象的三维对象模型，可以理解为通过三维扫描仪对该目标对象进行扫描获得。那么，确定目标对象的三维对象模型，则可以理解获取多个真实人体中每个真实人体的三维人体模型。

其中，每个真实人体的三维人体模型，均可以通过三维扫描仪对真实的人体进行扫描，再用三角面片的方式对扫描结果进行网格建模后获得，即三维人体模型可以理解为一个由多个三角面片形成的三维网格人体模型。

步骤204：渲染所述三维对象模型，确定所述目标对象的至少一个视角下的彩色图像。

具体的，在获取每个目标对象的三维对象模型之后，则可以通过渲染工具渲染目标对象的至少一个视角下的彩色图像。例如，渲染三维人体模型，确定真实人体的正面视角下的彩色图像，即RGB图像，或者左、右侧面视角下的彩色图像等。

步骤206：根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型。

仍以目标对象为真实的目标人体为例，该目标对象的对象参数化模型可以理解为用人体体型参数以及人体姿态参数表示不同人体体型以及人体姿态的三维人体模型，即目标人体的SMPL模型。

具体的，目标对象的对象参数化模型的获取方式包括至少两种，一种是通过SMPL拟合的方式获得，另一种是通过神经网络模型获得。具体实现方式如下所述：

所述根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型，包括：

确定初始参数化模型，并根据所述三维对象模型以及所述初始参数化模型，获得所述目标对象的对象参数化模型；或者

将所述彩色图像输入预测神经网络模型中，获得所述目标对象的对象参数化模型，其中，所述预测神经网络模型用于预测对象参数化模型。

其中，初始参数化模型可以理解为初始化的SMPL模型，SMPL是一个参数模型，包括形状参数β、姿势参数θ、位置参数t和尺度参数s，获得目标对象的对象参数化模型的过程就是优化这些参数的过程；当然，下述也有详细介绍使用深度学习的神经网络模型来预测SMPL模型的具体实现方法，例如输入各个视角的彩色图片，即可预测该目标对象的包含形状参数β、姿势参数θ、位置参数t和尺度s的对象参数化模型。

具体的，确定初始参数化模型，并根据所述三维对象模型以及所述初始参数化模型，获得所述目标对象的对象参数化模型；可以理解为，获取初始化的SMPL模型，并根据该三维对象模型以及初始化的SMPL模型，通过预设算法对其进行拟合处理，获得该目标对象的对象参数化模型(即SMPL模型)。

将所述彩色图像输入预测神经网络模型中，获得所述目标对象的对象参数化模型；可以理解为将彩色图像输入、预选训练好的可预测对象参数化模型的深度学习神经网络模型中，通过该深度学习的神经网络模型获得该目标对象的对象参数化模型。

本说明书实施例中，通过SMPL拟合的方式获得目标对象的对象参数化模型，或者通过神经网络模型获得目标对象的对象参数化模型，后续即可在图像处理模型训练时，通过引入该人体参数化模型的深度图像作为算法参考，降低求解空间自由度，从而引导图像处理模型可以学习到准确、细节丰富的人体深度估计结果。

具体实施时，所述根据所述三维对象模型以及所述初始参数化模型，获得所述目标对象的对象参数化模型，包括：

根据迭代最近点算法对所述三维对象模型和所述初始参数化模型进行迭代计算，获得所述目标对象的对象参数化模型。

其中，迭代最近点算法包括但不限于ICP算法。

实际应用中，为了提高目标对象的对象参数化模型的准确率，则可以根据ICP算法对三维对象模型以及初始参数化模型进行迭代计算，以获得目标对象的对象参数化模型。即为了获得SMPL模型的真实的目标人体的人体形状参数和人体姿态参数，则将其定义为优化问题：通过最小化拟合后的SMPL模型和三维人体模型的ICP误差，来获得真实的目标人体对应的SMPL模型(即该目标对象的对象参数化模型)。

当然，实际应用中也可以使用其他的点云匹配算法，实现对三维对象模型和初始参数化模型进行迭代计算，获得目标对象的对象参数化模型。例如NICP算法等。

步骤208：渲染所述对象参数化模型，确定与所述彩色图像对应的深度图像。

而在获得该目标对象的对象参数化模型之后，则可以根据渲染工具渲染该对象参数化模型，以获得与该目标对象的至少一个视角下的彩色图像对应的深度图像。例如该彩色图像为正面视角下的彩色图像，则该彩色图像对应的深度图像，则为正面视角下的深度图像。

步骤210：根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型。

其中，所述图像处理模型为深度神经网络模型。

具体的，在获得该目标对象的某个视角下的彩色图像、深度图像之后，则可以根据该彩色图像、深度图像以及该三维对象模型对应的目标深度图像，对图像处理模型进行训练，以获得训练后的图像处理模型。

其中，该图像处理模型可以为深度神经网络模型，即深度学习的神经网络模型，如CNN模型。

以下以该图像处理模型为CNN模型为例进行介绍。

由于CNN模型为有监督训练，即有标签的模型训练，因此在模型训练之前，在确定该目标对象的色彩图像、深度图像等训练数据的情况下，需要对该目标对象的三维对象模型进行深度值渲染，获得该目标对象对应的精细化的目标深度图像，并将该目标深度图像作为该训练数据的训练标签，后续即可根据该训练数据以及该训练数据对应的训练标签训练该CNN模型。

具体的，获得该目标对象对应的目标深度图像的具体实现步骤如下所述：

所述根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练图像处理模型之前，还包括：

根据深度值渲染器对所述三维对象模型进行渲染，获得所述目标对象对应的目标深度图像。

其中，深度值渲染器可以为任意类型的深度值渲染器，在此不作任何限定。

具体实施时，根据深度值渲染器对与彩色图像同一视角下的三维对象模型进行深度值渲染，获得该目标对象对应的、与彩色图像处于同一视角下的目标深度图像。后续即可根据该目标对象的同一视角下的彩色图像、深度图像以及目标深度图像，通过有监督的训练方法，快速且准确的训练图像处理模型。

而在获得该目标对象的同一视角下的彩色图像、深度图像以及目标深度图像之后，对于图像处理模型的具体训练步骤如下所述：

所述根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，包括：

根据所述彩色图像以及所述深度图像，确定图像训练样本；

将所述目标对象对应的目标深度图像，确定为所述图像训练样本对应的训练标签；

根据所述图像训练样本、以及所述图像训练样本对应的训练标签，训练获得图像处理模型。

具体的，将该目标对象的同一视角下的彩色图像以及深度图像作为图像训练样本，将与该彩色图像以及深度图像处于同一视角下的目标深度图像作为该图像训练样本的训练标签；根据该图像训练样本以及该图像训练样本对应的训练标签，训练获得该图像处理模型。

本说明书实施例中，通过深度学习的方法，构建卷积神经网络模型(图像处理模型)，引入人体参数化模型渲染获得的深度图像作为算法参考，降低求解空间自由度，并且使用精细的深度真值(即目标深度图像)作为监督信号，从而引导该图像处理模型可以学习到准确、细节丰富的人体深度估计结果，提升该图像处理模型后续对于真实的人体的深度图像的预测准确度。

此外，根据彩色图像以及深度图像，确定图像训练样本的具体实现方法如下所述：

所述根据所述彩色图像以及所述深度图像，确定图像训练样本，包括：

将所述彩色图像与所述深度图像进行拼接，并将拼接后获得的图像确定为图像训练样本。

实际应用中，对该图像处理模型的训练，是通过引入人体参数化模型渲染获得的深度图像作为算法参考，以降低人体深度估计结果的自由度，并且结合输入的RGB图像中的高频信息，使得该图像处理模型学习到准确的、细节丰富的、高精度人体深度估计结果。那么在进行图像处理模型训练时，则需要将彩色图像以及深度图像进行拼接，将拼接后的特征图像确定为图像训练样本进行图像处理模型训练，才可以在训练该图像处理模型时，实现在减少单目(即单视角)人体深度图像估计的自由度的基础上，学习到准确的、细节丰富的、高精度人体深度估计结果。

而在确定了图像训练样本以及该图像训练样本对应的训练标签之后，对于该图像处理模型的具体训练实现方式如下所述：

所述根据所述图像训练样本、以及所述图像训练样本对应的训练标签，训练获得图像处理模型，包括：

将所述图像训练样本输入图像处理模型的编码器进行特征图像提取，并将提取的特征图像输入所述图像处理模型的解码器进行解码，获得解码后的第一深度图像以及第二深度图像；

对所述图像训练样本对应的训练标签进行双边滤波，获得滤波后的第三深度图像以及第四深度图像；

根据所述第一深度图像、所述第二深度图像、所述第三深度图像、所述第四深度图像，训练获得所述图像处理模型，

其中，所述第一深度图像以及所述第三深度图像中包括全局图像特征，所述第二深度图像以及所述第四深度图像中包括局部图像特征。

实际应用中，第一深度图像和第三深度图像中包括低频信息，即深度图像中深度变化缓慢(即不明显)的部分，一般代表非细节部分，如全局图像特征；而第二深度图像和第四深度图像中包括高频信息，即深度图像中深度变化剧烈(即明显)的部分，一般代表细节部分，如局部图像特征。

具体的，将图像训练样本输入图像处理模型的编码器进行特征图像提取，并将提取的特征图像输入图像处理模型的编码器进行解码，通过该解码器估计出该特征图像对应的第一深度图像以及第二深度图像。

同时，对渲染深度值得到的目标深度图像，即该图像训练样本对应的训练标签，进行双边滤波，得到该目标深度图像对应的第三深度图像以及第四深度图像；最后根据预测出来的低频信息(即第一深度图像)、目标深度图像双边滤波后获得的低频信息(即第三深度图像)、预测出来的高频信息(即第二深度图像)以及目标深度图像双边滤波后获得的高频信息(即第四深度图像)，训练获得该图像处理模型。

本说明书实施例中，以减少单目人体深度图像估计的自由度为切入点，通过引入人体参数化模型SMPL的深度图像作为辅助输入，通过解码器估计的低频信息、高频信息以及对目标深度图像进行双边滤波后获得的低频信息和高频信息，训练图像处理模型来学习单目深度图像和估计SMPL几何表面之间的变化关系，使得训练后获得的该图像处理模型在后续进行人体深度图像预测时，可以得到高精度的深度图像估计结果。

那么，在获得通过解码器估计的低频信息、高频信息以及对目标深度图像进行双边滤波后获得的低频信息和高频信息之后，则可以根据低频信息计算出第一损失函数，根据高频信息计算出第二损失函数，通过第一损失函数和第二损失函数，对图像处理模型的网络参数进行调整，以训练获得该图像处理模型。具体实现方式如下所述：

所述根据所述第一深度图像、所述第二深度图像、所述第三深度图像、所述第四深度图像，训练获得所述图像处理模型，包括：

根据所述第一深度图像以及所述第三深度图像，计算第一损失函数；

根据所述第二深度图像以及所述第四深度图像，计算第二损失函数；

根据所述第一损失函数以及所述第二损失函数调整所述图像处理模型的网络参数，直至在满足预设结束训练条件的情况下，获得训练后的图像处理模型。

具体实施时，在获得通过解码器估计的低频信息、高频信息以及对目标深度图像进行双边滤波后获得的低频信息和高频信息之后，则将预测出来的低频信息(即第一深度图像)和目标深度图像双边滤波后获得的低频信息(即第三深度图像)计算第一损失函数；同理，将预测出来的高频信息(即第二深度图像)和目标深度图像双边滤波后获得的高频信息(即第四深度图像)计算第二损失函数；最后将第一损失函数和第二损失函数回传进行网络参数学习，直至在该图像处理模型满足预设结束训练条件的情况下，获得训练后的图像处理模型。

其中，该预设结束训练条件可以根据实际应用进行设置，例如该图像处理模型的迭代次数超过2万次，或者是通过测试集对该图像处理模型进行测试时，该图像处理模型输出的测试结果与训练标签的误差较小的情况下，结束该图像处理模型的训练。

具体的，以该图像处理模型输出的测试结果与训练标签的误差较小的情况下，结束该图像处理模型的训练为例进行详细介绍。

所述根据所述第一损失函数以及所述第二损失函数调整所述图像处理模型的网络参数，直至在满足预设结束训练条件的情况下，获得训练后的图像处理模型，包括：

根据所述第一损失函数以及所述第二损失函数调整所述图像处理模型的网络参数，并将测试对象的彩色图像输入参数调整后的图像处理模型，获得预测深度图像；

在确定所述预测深度图像、与所述测试对象的目标深度图像的误差，小于等于预设误差阈值的情况下，确定满足预设结束训练条件，获得训练后的图像处理模型。

实际应用中，在进行模型训练时，会将模型训练数据分为两部分，一部分作为训练数据进行模型训练，另一部分作为测试数据进行模型性能测试。本说明书实施例中，目标对象可以理解为训练数据，而测试对象则可以理解为测试数据，且该测试对象的彩色图像的获取方式，与上述实施例中目标对象的彩色对象的获取方式相同，均是通过对三维对象模型进行渲染获得，在此不再赘述。

具体的，根据第一损失函数以及第二损失函数调整图像处理模型的网络参数，并将测试对象的彩色图像输入参数调整后的图像处理模型，获得预测深度图像；在确定预测深度图像、与测试对象的目标深度图像的误差，小于等于预设误差阈值的情况下，确定满足预设结束训练条件，获得训练后的图像处理模型。即图像处理模型的每轮迭代训练结束后，即可根据测试对象对本轮迭代的图像处理模型进行测试，在测试结果与测试对象的目标深度图像的误差较小的情况下，则可以确定该图像处理模型训练完成，结束该图像处理模型训练，获得训练后的该图像处理模型。

例如，每轮迭代训练结束后，可以选取一部分的测试数据，将该测试数据中测试对象的彩色图像输入到本轮迭代后的图像处理模型中，获得该图像处理模型输出的预测深度图像；在确定该部分的测试数据中，图像处理模型输出的预测深度图像、与测试对象的目标深度图像的误差的均值，小于等于预设误差阈值的情况下，则可以确定本轮迭代的图像处理模型性能较优，则可以结束模型训练，将该本轮迭代结束获得的图像处理模型作为后续应用的图像处理模型。从而保证该图像处理模型后续应用中的精确度。

具体实施时，将测试对象的彩色图像输入参数调整后的图像处理模型，获得预测深度图像的具体实现方式如下所述：

所述将测试对象的彩色图像输入参数调整后的图像处理模型，获得预测深度图像，包括：

将测试对象的彩色图像输入参数调整后的图像处理模型，在所述参数调整后的图像处理模型中根据预设参数化模型拟合算法，获得与所述测试对象的彩色图像对应的对象参数化模型；

渲染与所述测试对象的彩色图像对应的对象参数化模型，获得所述测试对象的深度图像；

根据所述测试对象的彩色图像以及所述测试对象的深度图像，获得第五深度图像和第六深度图像；

根据所述第五深度图像和所述第六深度图像，获得预测深度图像。

测试过程中，首先将测试对象的彩色图像(即RGB图像)输入参数调整后的图像处理模型(即本轮迭代，根据第一损失函数和第二损失函数进行网络参数调整后的图像处理模型)，在该图像处理模型中，使用预设参数化模型拟合算法(例如VIBE或者HMR等2D-SMPL拟合算法)，获得与该测试对象的彩色图像对应的对象参数化模型，即SMPL模型，再对其进行渲染，获得渲染得到的SMPL模型的深度图像；最后将该测试对象的彩色图像与深度图像进行拼接，通过该图像处理模型的解码器后，得到预测的深度图像的低频信息(即第五深度图像)以及高频信息(即第六深度图像)；最后将第五深度图像以及第六深度图像相加，即获得最终的预设深度图像，即该图像处理模型输出，将第五深度图像以及第六深度图像相加后获得的预测深度图像。

本说明书实施例中，图像处理模型的每轮迭代训练结束后，均可以根据测试对象对其进行测试，在测试确定该轮迭代训练的图像处理模型的性能满足预设需求的情况下，获得该图像处理模型，使得该图像处理模型后续在应用时可以预测精确的、包含较多几何细节的人体深度图像。

本说明书实施例提供的该图像处理模型训练方法，通过引入渲染目标对象的对象参数化模型获得的深度图像，为深度估计提供对象形状参数、姿态参数的粗略先验，以降低深度估计的自由度，在此基础上结合通过渲染目标对象的三维对象模型获得的彩色图像(即RGB图像)对图像处理模型进行训练，引导图像处理模型学习到准确且细节丰富的对象深度估计结果，使得该图像处理模型后续从单张RGB图像中即可恢复出更多精细的对象几何细节，提高预测的深度图像的精确度。

下述结合附图3，以本说明书提供的图像处理模型训练方法在对人体深度图像进行预测的图像处理模型的训练场景的应用为例，对所述图像处理模型训练方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种图像处理模型训练方法的处理过程流程图，具体包括以下步骤。

步骤302：获取1000个真实人体的三维网格模型，并对每个三维网格模型进行渲染，获得每个真实人体的至少一个视角的彩色图像；通过最小化拟合的SMPL模型和每个三维网格模型的ICP误差来获得每个三维网格模型对应的SMPL拟合模型，并对每个SMPL拟合模型进行渲染，获得每个彩色图像对应的SMPL拟合模型的SMPL深度图像。

步骤304：将真实人体的三维网格模型通过深度值渲染器进行渲染，获得每个真实人体的人体深度图像；将每个真实人体的同一视角下的彩色图像、SMPL深度图像以及人体深度图像输入CNN模型中，在CNN模型的通道空间进行连接，将连接后的图像输入CNN模型的编码器进行特征，提取到高维度的特征图像之后输入解码器，通过解码器预测出该特征图像的低频信息以及高频信息；与其相对的，对通过深度值渲染器渲染获得的真实人体的人体深度图像进行双边滤波后，也获得低频信息和高频信息；

最后，将预测出来的低频信息和人体深度图像的低频信息计算第一损失函数，将预测出来的高频信息和人体深度图像的高频信息计算第二损失函数；将第一损失函数和第二损失函数回传进行网络参数学习，在该图像处理模型满足预设结束训练条件的情况下，获得训练后的图像处理模型，该图像处理模型后续即可根据单目的人体RGB图像，预测出精细化的人体深度图像。

本说明书实施例提供的图像处理模型训练方法，通过引入人体参数化模型SMPL的深度图像作为算法参考，降低求解空间自由度，并结合单目的人体RGB图像进行模型训练，从而引导图像处理模型学习到准确的，细节丰富的人体深度图像估计结果，并且此方法对于复杂多变的人体姿态的泛化能力通过参数化模型SMPL的引入得到了明显提升。

参见图4，图4示出了本说明书一个实施例提供的一种三维对象模型构建方法的流程图，具体包括以下步骤：

步骤402：将目标对象的彩色图像输入图像处理模型，获得与所述目标对象的彩色图像对应的深度图像。

其中，目标对象可以理解为真实的目标人体；目标对象的彩色图像可以理解为真实的目标人体的单目RGB图像。

具体的，根据图像处理模型对目标对象的彩色图像进行处理，获得与目标对象的彩色图像对应的深度图像的具体实现方式如下所述：

根据目标对象的彩色图像输入图像处理模型，在图像处理模型中根据预设参数化模型拟合算法，获得与目标对象的彩色图像对应的对象参数化模型；

渲染与目标对象的彩色图像对应的对象参数化模型，获得目标对象的深度图像；

根据目标对象的彩色图像以及目标对象的深度图像，获得第七深度图像和第八深度图像；

根据第七深度图像和第八深度图像，获得与目标对象的彩色图像对应的深度图像。

其详细的处理方式可以参见上述实施例中获得预测深度图像的具体实现，在此不再赘述。

步骤404：根据所述深度图像建立所述目标对象的三维对象模型。

其中，所述图像处理模型为上述图像处理模型训练方法中的图像处理模型；所述目标对象为目标人体，所述三维对象模型为三维人体模型。

以目标对象为真实的目标人体为例，对该三维对象模型构建方法进行详细说明。

具体的，将真实的目标人体的单目RGB图像输入图像处理模型，获得该图像处理模型输出的该RGB图像对应的人体深度图像。

参见图5，图5示出了本说明书一个实施例提供的一种三维对象模型构建方法中根据图像处理模型从目标人体的单目RGB图像预测人体深度图像的示意图。

图5中的彩色图像可以理解为目标人体的单目RGB图像，在该目标人体的单目RGB图像为正面视角的情况下，则可以通过图像处理模型预测出与其对应的正面视角的人体深度图像；在该目标人体的单目RGB图像为侧面视角的情况下，则可以通过图像处理模型预测出与其对应的侧面视角的人体深度图像。

而在预测出对应视角的人体深度图像之后，则可以各个视角的人体深度图像建立该目标人体的三维人体模型。

本说明书实施例提供的三维对象模型构建方法，通过构建的通用的深度学习的神经网络模型，可以从单张人体RGB图像中即可恢复出精细的人体深度图像，简单高效，容易部署，不需要增加额外的硬件模块即可得到高精度的人体深度图像，转化为更多的几何细节。考虑到深度图像估计的欠定性，以及人体场景下的拓扑统一性质，本说明书实施例在进行图像处理模型训练时，通过引入参数化模型SMPL的深度图特征作为先验，在深度真值信号的监督下，让图像处理模型的网络能够更快更好的收敛学习，以获得更好的预测结果。

与上述方法实施例相对应，本说明书还提供了图像处理模型训练装置实施例，图6示出了本说明书一个实施例提供的一种图像处理模型训练装置的结构示意图。如图6所示，该装置包括：

第一模型确定模块602，被配置为确定目标对象的三维对象模型；

第一渲染模块604，被配置为渲染所述三维对象模型，确定所述目标对象的至少一个视角下的彩色图像；

第二模型确定模块606，被配置为根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型；

第二渲染模块608，被配置为渲染所述对象参数化模型，确定与所述彩色图像对应的深度图像；

模型训练模块610，被配置为根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，

其中，所述图像处理模型为深度神经网络模型。

可选地，所述第二模型确定模块606，进一步被配置为：

可选地，第二模型确定模块606，进一步被配置为：

可选地，所述装置，还包括：

第三渲染模块，被配置为根据深度值渲染器对所述三维对象模型进行渲染，获得所述目标对象对应的目标深度图像。

可选地，所述模型训练模块610，进一步被配置为：

根据所述彩色图像以及所述深度图像，确定图像训练样本；

可选地，所述模型训练模块610，进一步被配置为：

可选地，所述目标对象为目标人体，所述对象参数化模型为用人体体型参数以及人体姿态参数表示不同人体体型以及人体姿态的三维人体模型。

本说明书实施例提供的该图像处理模型训练装置，通过引入渲染目标对象的对象参数化模型获得的深度图像，为深度估计提供对象形状参数、姿态参数的粗略先验，以降低深度估计的自由度，在此基础上结合通过渲染目标对象的三维对象模型获得的彩色图像(即RGB图像)对图像处理模型进行训练，引导图像处理模型学习到准确且细节丰富的对象深度估计结果，使得该图像处理模型后续从单张RGB图像中即可恢复出更多精细的对象几何细节，提高预测的深度图像的精确度。

上述为本实施例的一种图像处理模型训练装置的示意性方案。需要说明的是，该图像处理模型训练装置的技术方案与上述的图像处理模型训练方法的技术方案属于同一构思，图像处理模型训练装置的技术方案未详细描述的细节内容，均可以参见上述图像处理模型训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了三维对象模型构建装置实施例，图7示出了本说明书一个实施例提供的一种三维对象模型构建装置的结构示意图。如图7所示，该装置包括：

深度图像获得模块702，被配置为将目标对象的彩色图像输入图像处理模型，获得与所述目标对象的彩色图像对应的深度图像；

三维模型建立模块704，被配置为根据所述深度图像建立所述目标对象的三维对象模型；其中，所述图像处理模型为上述图像处理模型训练方法中的图像处理模型。

本说明书实施例提供的三维对象模型构建装置，通过构建的通用的深度学习的神经网络模型，可以从单张人体RGB图像中即可恢复出精细的人体深度图像，简单高效，容易部署，不需要增加额外的硬件模块即可得到高精度的人体深度图像，转化为更多的几何细节。考虑到深度图像估计的欠定性，以及人体场景下的拓扑统一性质，本说明书实施例在进行图像处理模型训练时，通过引入参数化模型SMPL的深度图特征作为先验，在深度真值信号的监督下，让图像处理模型的网络能够更快更好的收敛学习，以获得更好的预测结果。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理模型训练或三维对象模型构建方法方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理模型训练或三维对象模型构建方法方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理模型训练或三维对象模型构建方法方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理模型训练或三维对象模型构建方法方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像处理模型训练或三维对象模型构建方法方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像处理模型训练或三维对象模型构建方法方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述图像处理模型训练或三维对象模型构建方法方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的图像处理模型训练或三维对象模型构建方法方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述图像处理模型训练或三维对象模型构建方法方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书一实施例还提供一种扩展现实XR设备，包括：

存储器和处理器；

上述为本实施例的一种扩展现实XR设备的示意性方案。需要说明的是，该扩展现实XR设备的技术方案与上述的三维对象模型构建方法方法的技术方案属于同一构思，扩展现实XR设备的技术方案未详细描述的细节内容，均可以参见上述三维对象模型构建方法方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理模型训练方法，包括：

确定目标对象的三维对象模型；

其中，所述图像处理模型为深度神经网络模型。

2.根据权利要求1所述的图像处理模型训练方法，所述根据所述三维对象模型或者所述彩色图像，确定所述目标对象的对象参数化模型，包括：

3.根据权利要求2所述的图像处理模型训练方法，所述根据所述三维对象模型以及所述初始参数化模型，获得所述目标对象的对象参数化模型，包括：

4.根据权利要求1所述的图像处理模型训练方法，所述根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型之前，还包括：

5.根据权利要求1或4所述的图像处理模型训练方法，所述根据所述彩色图像、所述深度图像、以及所述目标对象对应的目标深度图像，训练获得图像处理模型，包括：

根据所述彩色图像以及所述深度图像，确定图像训练样本；

6.根据权利要求5所述的图像处理模型训练方法，所述根据所述彩色图像以及所述深度图像，确定图像训练样本，包括：

7.根据权利要求5所述的图像处理模型训练方法，所述根据所述图像训练样本、以及所述图像训练样本对应的训练标签，训练获得图像处理模型，包括：

8.根据权利要求7所述的图像处理模型训练方法，所述根据所述第一深度图像、所述第二深度图像、所述第三深度图像、所述第四深度图像，训练获得所述图像处理模型，包括：

9.根据权利要求8所述的图像处理模型训练方法，所述根据所述第一损失函数以及所述第二损失函数调整所述图像处理模型的网络参数，直至在满足预设结束训练条件的情况下，获得训练后的图像处理模型，包括：

10.根据权利要求9所述的图像处理模型训练方法，所述将测试对象的彩色图像输入参数调整后的图像处理模型，获得预测深度图像，包括：

11.根据权利要求1所述的图像处理模型训练方法，所述目标对象为目标人体，所述对象参数化模型为用人体体型参数以及人体姿态参数表示不同人体体型以及人体姿态的三维人体模型。

12.一种三维对象模型构建方法，包括：

根据所述深度图像建立所述目标对象的三维对象模型；其中，所述图像处理模型为权利要求1-11中任意一项图像处理模型训练方法中的图像处理模型。

13.根据权利要求12所述的三维对象模型构建方法，所述目标对象为目标人体，所述三维对象模型为三维人体模型。

14.一种扩展现实XR设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求12-13任意一项所述三维对象模型构建方法的步骤。