CN116797715A

CN116797715A - 一种三维对象模型的训练方法、装置以及存储介质

Info

Publication number: CN116797715A
Application number: CN202210253338.2A
Authority: CN
Inventors: 张浩贤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-09-22

Abstract

本申请公开了一种三维对象模型的训练方法、装置以及存储介质，可应用于地图领域。通过获取无标注数据；然后基于无标注数据对预设神经网络进行自监督训练，以得到第一神经网络；并获取标注数据；然后基于标注数据对第一神经网络进行监督训练，以得到第二神经网络；进一步的将无标注数据和标注数据得到融合数据，并对第二神经网络进行训练，以得到目标神经网络。从而实现精确的重建模型的训练过程，由于采用无标注数据学习到对象形状的分布的同时，通过标注数据训练对投影参数进行解耦，并减缓重建过程中对象扁平问题，提高重建模型训练的准确性。

Description

一种三维对象模型的训练方法、装置以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种三维对象模型的训练方法、装置以及存储介质。

背景技术

随着计算机技术的迅速发展，人脸识别出现在人们的生活中，可以通过人脸进行交易、验证等功能，如何生成人脸三维模型成为难题。

一般，可以向设计好的网络(例如VGG网络)输入图片，通过网络预测3DMM系数、pose系数以及光照系数，并将这些系数转化为3D模型并投影至图片上，然后根据投影图片和原图的差异(损失函数)，计算梯度信息，梯度信息调整的是神经网络权重，通过大量图片训练直至网络收敛。

但是，由于三维模型与二维图像的差异性，通过上述方式的识别结果可能合成扁平的结果，影响重建模型训练的准确性。

实施例内容

有鉴于此，本申请提供一种三维对象模型的训练方法，可以有效提高重建模型训练的准确性。

本申请第一方面提供一种三维对象模型的训练方法，可以应用于终端设备中包含模型的训练功能的系统或程序中，具体包括：

获取无标注数据，所述无标注数据包含无标注的对象图像；

基于所述无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；

获取标注数据，所述标注数据包含标注了重建对象的对象图像；

基于所述标注了重建对象的对象图像对所述第一神经网络进行监督训练，以得到第二神经网络；

将所述无标注数据和所述标注数据进行融合，以得到融合数据；

基于所述融合数据对所述第二神经网络进行训练，以得到目标神经网络，所述目标神经网络用于对目标对象进行投影重建。

可选的，在本申请一些可能的实现方式中，所述基于所述无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络，包括：

获取基于所述预设神经网络对应的投影参数所得的第一投影图像；

基于所述第一投影图像与所述无标注的对象图像对应的颜色信息的差异确定第一损失参数；

获取预设关键点；

基于所述预设关键点以及所述预设关键点对应投影的差异确定第二损失参数；

根据所述第一损失参数与所述第二损失参数对所述预设神经网络进行自监督训练，以得到所述第一神经网络。

可选的，在本申请一些可能的实现方式中，所述基于所述标注了重建对象的对象图像对所述第一神经网络进行监督训练，以得到第二神经网络，包括：

获取基于所述第一神经网络对应的投影参数所得的重建模型；

基于所述重建模型与所述重建对象之间在顶点距离的差异确定第三损失参数；

基于所述重建模型与所述重建对象之间在顶点法线的差异确定第四损失参数；

根据所述第三损失参数与所述第四损失参数对所述第二神经网络进行监督训练，以得到所述第二神经网络。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取基于所述第一神经网络对应的投影参数所得的第二投影图像；

基于所述第二投影图像与所述标注了重建对象的对象图像对应的颜色信息的差异确定第五损失参数；

获取预设关键点，以基于所述预设关键点以及所述预设关键点对应投影的差异确定第六损失参数；

根据所述第五损失参数与所述第六损失参数对所述第二神经网络进行参数调整。

获取模型关键点；

基于所述模型关键点将包含标注的所述重建对象与所述重建模型对齐，以对所述重建对象进行更新。

可选的，在本申请一些可能的实现方式中，所述将所述无标注数据和所述标注数据进行融合，以得到融合数据，包括：

基于所述标注了重建对象的对象图像的标注质量确定融合比例；

根据所述融合比例将所述无标注数据和所述标注数据进行融合，以得到所述融合数据。

可选的，在本申请一些可能的实现方式中，所述目标对象为人脸模型，所述标注了重建对象的对象图像的图像数量小于所述无标注的对象图像。

本申请第二方面提供一种三维对象模型的训练装置，包括：

获取单元，用于获取无标注数据，所述无标注数据包含无标注的对象图像；

训练单元，用于基于所述无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；

所述获取单元，还用于获取标注数据，所述标注数据包含标注了重建对象的对象图像；

所述训练单元，还用于基于所述标注了重建对象的对象图像对所述第一神经网络进行监督训练，以得到第二神经网络；

融合单元，用于将所述无标注数据和所述标注数据进行融合，以得到融合数据；

所述训练单元，还用于基于所述融合数据对所述第二神经网络进行训练，以得到目标神经网络，所述目标神经网络用于对目标对象进行投影重建。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取基于所述预设神经网络对应的投影参数所得的第一投影图像；

所述训练单元，具体用于基于所述第一投影图像与所述无标注的对象图像对应的颜色信息的差异确定第一损失参数；

所述训练单元，具体用于获取预设关键点；

所述训练单元，具体用于基于所述预设关键点以及所述预设关键点对应投影的差异确定第二损失参数；

所述训练单元，具体用于根据所述第一损失参数与所述第二损失参数对所述预设神经网络进行自监督训练，以得到所述第一神经网络。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取基于所述第一神经网络对应的投影参数所得的重建模型；

所述训练单元，具体用于基于所述重建模型与所述重建对象之间在顶点距离的差异确定第三损失参数；

所述训练单元，具体用于基于所述重建模型与所述重建对象之间在顶点法线的差异确定第四损失参数；

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取基于所述第一神经网络对应的投影参数所得的第二投影图像；

所述训练单元，具体用于基于所述第二投影图像与所述标注了重建对象的对象图像对应的颜色信息的差异确定第五损失参数；

所述训练单元，具体用于获取预设关键点，以基于所述预设关键点以及所述预设关键点对应投影的差异确定第六损失参数；

所述训练单元，具体用于根据所述第五损失参数与所述第六损失参数对所述第二神经网络进行参数调整。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于获取模型关键点；

所述训练单元，具体用于确定所述模型关键点在包含标注的所述重建对象中的第一位置信息；

所述训练单元，具体用于确定所述模型关键点在所述重建模型中的第二位置信息；

所述训练单元，具体用于将所述第一位置信息向所述第二位置信息进行近似调整，以使得所述包含标注的重建对象与所述重建模型对齐，并对所述重建对象进行更新。

可选的，在本申请一些可能的实现方式中，所述融合单元，具体用于基于所述标注了重建对象的对象图像的标注质量确定融合比例；

所述融合单元，具体用于根据所述融合比例将所述无标注数据和所述标注数据进行融合，以得到所述融合数据。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的模型的训练方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的模型的训练方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的模型的训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取无标注数据，该无标注数据包含无标注的对象图像；然后基于无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；并获取标注数据，标注数据包含标注了重建对象的对象图像；然后基于标注了重建对象的对象图像对第一神经网络进行监督训练，以得到第二神经网络；进一步的将无标注数据和标注数据进行融合，以得到融合数据；进而基于融合数据对第二神经网络进行训练，以得到目标神经网络，目标神经网络用于对目标对象进行投影重建。从而实现精确的重建模型的训练过程，由于采用无标注数据学习到对象形状的分布的同时，通过标注数据训练对投影参数进行解耦，并减缓重建过程中对象扁平问题，提高重建模型训练的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为模型的训练系统运行的网络架构图；

图2为本申请实施例提供的一种三维对象模型的训练的流程架构图；

图3为本申请实施例提供的一种三维对象模型的训练方法的流程图；

图4为本申请实施例提供的一种三维对象模型的训练方法的场景示意图；

图5为本申请实施例提供的另一种三维对象模型的训练方法的场景示意图；

图6为本申请实施例提供的另一种三维对象模型的训练方法的流程图；

图7为本申请实施例提供的一种三维对象模型的训练装置的结构示意图；

图8为本申请实施例提供的一种终端设备的结构示意图；

图9为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种三维对象模型的训练方法以及相关装置，可以应用于终端设备中包含模型的训练功能的系统或程序中，通过获取无标注数据，该无标注数据包含无标注的对象图像；然后基于无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；并获取标注数据，标注数据包含标注了重建对象的对象图像；然后基于标注了重建对象的对象图像对第一神经网络进行监督训练，以得到第二神经网络；进一步的将无标注数据和标注数据进行融合，以得到融合数据；进而基于融合数据对第二神经网络进行训练，以得到目标神经网络，目标神经网络用于对目标对象进行投影重建。从而实现精确的重建模型的训练过程，由于采用无标注数据学习到对象形状的分布的同时，通过标注数据训练对投影参数进行解耦，并减缓重建过程中对象扁平问题，提高重建模型训练的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

三维可变形人脸模型(3DMM)：是一个通用的三维人脸参数化模型，用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配，并且可以由其他许多幅人脸正交基加权线性相加而来。

2D人脸关键点检测：目的是自动定位一组预定义的人脸基准点(比如眼角点、嘴角点)。

迭代最近点(Iterative Closest Points,ICP)：ICP算法包括对应点搜索和位姿求解。它的目的是寻求点集之间的匹配关系，求解的结果是两点集之间的平移及旋转量。

应理解，本申请提供的模型的训练方法可以应用于终端设备中包含模型的训练功能的系统或程序中，例如人脸识别，具体的，模型的训练系统可以运行于如图1所示的网络架构中，如图1所示，是模型的训练系统运行的网络架构图，如图可知，模型的训练系统可以提供与多个信息源的模型的训练过程，即通过终端侧的交互操作获取对象信息，并在服务器进行对象信息的收集以及训练；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到模型的训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多模型训练交互的场景中，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本申请在此不做限制。

可以理解的是，上述模型的训练系统可以运行于个人移动终端，例如：作为人脸识别这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供模型的训练，以得到信息源的模型的训练处理结果；具体的模型的训练系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，本实施例可应用于云技术、自动驾驶等场景，具体运作模式因实际场景而定，此处不做限定。

另外，还可以采用全监督的方案，即向设计好的网络(例如VGG网络)输入图片，网络预测3DMM系数，根据预测的3DMM系数直接合成3D人脸模型，计算重建的3D人脸模型与标注好3D人脸模型之间的差异，计算梯度信息，梯度信息调整的是神经网络权重。这种方法需要大量的标注数据。但是可收集标注的数据太少，容易产生过拟合，导致性能下降；如果进行标注，由于数据量大，则成本很高；如果采用合成数据集的方案则精度太低。

为了解决上述问题，本申请提出了一种三维对象模型的训练方法，该方法应用于图2所示的模型的训练的流程框架中，如图2所示，为本申请实施例提供的一种三维对象模型的训练的流程架构图，用户通过终端的交互操作获取对象信息(例如人脸信息)，然后在服务器进行模型的训练，即基于深度学习的方法，训练一个卷积神经网络模型，输入一张人脸图片，输出3D人脸的重建结果。本实施例首先收集大量的人脸图片，以自监督的方式预训练一个卷积神经网络模型，使其通过大量的人脸图片学习到人脸的分布，得到合理的结果；然后，收集开源的标注数据(即每张标注好的图片，均有对应的3D人脸模型)，通常非常少量，以此作为监督继续训练卷积神经网络模型，并在此过程中尽量将重建模型的形状、位姿、纹理和光照解耦；最后，将收集的无标注人脸图片以及已标注的图片，进行融合并共同监督，训练出最终的网络模型。

本实施例可以应用于智能交通系统(Intelligent Traffic System，ITS)又称智能运输系统(Intelligent Transportation System)，是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种三维对象模型的训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该模型的训练装置通过获取无标注数据，该无标注数据包含无标注的对象图像；然后基于无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；并获取标注数据，标注数据包含标注了重建对象的对象图像；然后基于标注了重建对象的对象图像对第一神经网络进行监督训练，以得到第二神经网络；进一步的将无标注数据和标注数据进行融合，以得到融合数据；进而基于融合数据对第二神经网络进行训练，以得到目标神经网络，目标神经网络用于对目标对象进行投影重建。从而实现精确的重建模型的训练过程，由于采用无标注数据学习到对象形状的分布的同时，通过标注数据训练对投影参数进行解耦，并减缓重建过程中对象扁平问题，提高重建模型训练的准确性。

本申请实施例提供的方案涉及人工智能的深度学习技术，具体通过如下实施例进行说明：

结合上述流程架构，下面将对本申请中模型的训练方法进行介绍，请参阅图3，图3为本申请实施例提供的一种三维对象模型的训练方法的流程图，该管理方法可以是由服务器或终端执行的，本申请实施例至少包括以下步骤：

301、获取无标注数据。

本实施例中，无标注数据包含无标注的对象图像，例如收集大量无标注的人脸图片；其中，对象可以是人脸或其他三维模型，此处以人脸为例进行说明。

本实施例可以应用于3D游戏/3D影视作品/短视频中人物的人脸重建。基于3DMM的3D人脸模型重建技术相对成熟，不少娱乐产品提供的人脸照片角色塑造功能大多直接或者间接地使用了该项技术。本实施例可以根据输入的单张人脸照片，有效提升重建的3D人脸模型的效果，使其与原图更加相似。

302、基于无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络。

本实施例中，基于无标注的对象图像对预设神经网络进行自监督训练，即以自监督的方式预训练一个卷积神经网络模型，使其通过大量的人脸图片学习到人脸的分布，得到合理的结果，充分发挥自监督训练的优势。

具体的，对于训练得到第一神经网络，可以首先获取基于预设神经网络对应的投影参数所得的第一投影图像；然后基于第一投影图像与无标注的对象图像对应的颜色信息的差异确定第一损失参数；并获取预设关键点；进一步的基于预设关键点以及预设关键点对应投影的差异确定第二损失参数；并根据第一损失参数与第二损失参数对预设神经网络进行自监督训练，以得到第一神经网络。

其中，对于第一损失参数L1即为photo loss(颜色信息的差异)，具体公式如下：

其中，R(h(f)，p，s)代表根据预测的3DMM系数f、pose系数p以及光照系数s投影得到的图片，h(f)为根据3DMM系数重建出3D人脸模型，N代表图像像素像素总数，i代表第i个像素。

另外，对于第二损失参数L2即为3D模型上预定义好的关键点投影结果与原图检测出的关键点之间的差异。具体公式如下：

其中，Vi是2D图像I上检测的第i个关键点，Mi为3D模型h(f)上第i个预定义好的关键点，N为关键点的总数，T(*)为投影函数(根据pose系数p以及3D模型进行投影)。

进一步的，将损失函数各项相加，即可得到用于预设神经网络的训练损失。

303、获取标注数据。

本实施例中，标注数据包含标注了重建对象的对象图像；其中，标注了重建对象的对象图像的图像数量小于无标注的对象图像，即本实施例才有少量的标注数据以及大量的未标注数据，从而在保证训练效果的同时节省训练成本。

可以理解的是，标注了重建对象的对象图像的图像数量对应的数量级小于无标注的对象图像的图像数量对应的数量级，例如标注了重建对象的对象图像的图像数量的数量级为十位，而无标注的对象图像的图像数量对应的数量级为千位，从而便于数据的收集。

具体的，标注数据可以是相关人员实时标注的，也可以是从公开的数据库下载的，还可以是根据历史识别信息提取的，具体的数据来源因实际场景而定。

304、基于标注了重建对象的对象图像对第一神经网络进行监督训练，以得到第二神经网络。

本实施例中，即收集开源的标注数据继续训练神经网络，通过输入图片，输出调节后的投影参数3DMM系数f、pose系数p以及光照系数s，实现投影参数的解耦。

具体的，对第一神经网络进行监督训练的过程可以首先获取基于第一神经网络对应的投影参数所得的重建模型；然后基于重建模型与重建对象之间在顶点距离的差异确定第三损失参数；并基于重建模型与重建对象之间在顶点法线的差异确定第四损失参数；进而根据第三损失参数与第四损失参数对第二神经网络进行监督训练，以得到第二神经网络。

其中，第三损失参数L3即为顶点距离差异，具体公式如下：

其中，h(f)i代表重建的3D人脸模型h(f)第i个3D顶点，hi’代表标注好的3D人脸模型h’第i个3D顶点，N为3D顶点的总数。

另外，对于第四损失参数L4即为顶点法线差异，可以使用余弦相似性衡量，对每个3D顶点法线进行求解，进而计算损失，具体公式如下：

其中，Di代表重建的3D人脸模型h(f)第i个3D顶点的法线，Di’代表标注好的3D人脸模型h’第i个3D顶点的法线，N为3D顶点的总数。

应当注意的是，在计算L3和L4之前，可以首先会将标注好3D人脸模型h’，根据预定义好的关键点，对齐到重建的3D人脸模型h(f)上，这里使用现有的ICP算法，每次迭代均如此。即首先获取模型关键点；然后确定模型关键点在包含标注的重建对象中的第一位置信息；并确定模型关键点在重建模型中的第二位置信息；进而将第一位置信息向第二位置信息进行近似调整，以使得包含标注的重建对象与重建模型对齐，并对重建对象进行更新，以对重建对象进行更新，从而提高损失参数计算的准确性。

进一步的，损失参数还可以颜色信息以及关键点损失，具体可以首先获取基于第一神经网络对应的投影参数所得的第二投影图像；然后基于第二投影图像与标注了重建对象的对象图像对应的颜色信息的差异确定第五损失参数；进一步的获取预设关键点，以基于预设关键点以及预设关键点对应投影的差异确定第六损失参数；并根据第五损失参数与第六损失参数对第二神经网络进行参数调整。

其中，第五损失参数L5为photo loss(颜色信息的差异)，具体公式如下：

其中，R(h’，p，s)代表根据标注的3D人脸模型h’、pose系数p以及光照系数s投影得到的图片，N代表图像像素像素总数，i代表第i个像素。

另外，对于第六损失参数L6即为标注的3D人脸模型h’上预定义好的关键点投影结果与原图检测出的关键点之间的差异。具体公式如下：

其中，Vi是2D图像I上检测的第i个关键点，Mi’为3D模型h’上第i个预定义好的关键点，N为关键点的总数，T(*)为投影函数(根据pose系数p以及3D模型进行投影)。

本实施例一方面利用3DMM系数重建出3D人脸模型h(f)，计算重建的3D人脸模型h(f)与标注好3D人脸模型h’之间的差异，采取3D顶点的之间的距离差异L3以及3D顶点的法线的之间的夹角差异L4，通过这种约束改善人脸扁平的问题。另一方面，同时将标注的3D人脸模型h’，根据预测的pose系数p以及光照系数s，投影至图片上，计算颜色信息差异L5和关键点差异L6，通过这种约束进一步精进pose系数以及光照系数的预测，将其有效的解耦出来。因此，步骤304须在步骤302预训练的基础上进行继续训练，有效降低训练难度。

下面，结合一种场景示意对训练卷积神经网络预测3DMM系数的过程进行说明，如图4所示，图4为本申请实施例提供的一种三维对象模型的训练方法的场景示意图；图中示出了收集大量的人脸图片，以自监督的方式预训练一个卷积神经网络模型，使其通过大量的人脸图片学习到人脸的分布，得到合理的结果，充分发挥自监督训练的优势；然后收集开源的标注数据继续训练神经网络，一方面计算重建的3D人脸模型与标注好3D人脸模型之间的差异，采取3D顶点的之间的距离以及3D顶点的法线的之间的夹角，通过这种约束改善人脸扁平的问题。另一方面，同时将标注的3D人脸模型，根据预测的pose系数以及光照系数，投影至图片上，计算颜色信息差异和关键点差异，通过这种约束进一步精进pose系数以及光照系数的预测，将其有效的解耦出来。

305、将无标注数据和标注数据进行融合，以得到融合数据。

本实施例中，融合的目的是避免前两个步骤的训练陷入局部最优结果，以进行进一步的训练。

具体的，融合的过程可以按照一定比例进行，例如随机抽取无标注图片和标注图片，以1：1的比例融合训练(譬如无标注图片和标注图片各16张)，这里只是举例，实际融合比例可以是2：1，3：1等等。

另外，还可以对融合比例进行调节，即首先基于标注了重建对象的对象图像的标注质量确定融合比例；然后根据融合比例将无标注数据和标注数据进行融合，以得到融合数据，从而提高融合数据的质量。

306、基于融合数据对第二神经网络进行训练，以得到目标神经网络。

本实施例中，目标对象即为人脸模型，对应的目标神经网络用于对目标对象进行投影重建，即进行人脸模型的投影重建。

具体的，对于基于融合数据对第二神经网络进行训练的过程，即同时预测所有输入图片的3DMM系数f、pose系数p以及光照系数s，并计算损失函数和梯度，调整网络权重直至收敛。其中无标注图片的损失函数采取颜色信息差异L1和关键点差异L2；标注图片的损失函数采取3D顶点的距离差异L3、3D顶点法线差异L4、投影图片的颜色差异L5以及关键点差异L6，最后将所有损失函数相加。

可以理解的是，融合的动机是避免前两个步骤的训练陷入局部最优结果，在前两步的基础上进行训练，一方面可以有效降低训练难度；另一方面可以减缓数据不平衡的问题，避免网络主要以自监督的方式进行学习，在自监督训练的同时引入标注数据训练。

下面，结合一种场景对以优化的方式直接迭代改进3DMM系数进行说明，如图5所示，图5为本申请实施例提供的另一种三维对象模型的训练方法的场景示意图；即随机抽取无标注图片和标注图片，以1：1的比例融合(譬如无标注图片和标注图片各16张)，同时所有的3DMM系数、pose系数以及光照系数，并计算损失函数和梯度，调整网络权重直至收敛。其中无标注图片的损失函数采取颜色信息差异和关键点差异；标注图片的损失函数采取3D顶点的距离差异、3D顶点法线差异、投影图片的颜色差异以及关键点差异。可以减缓数据不平衡的问题，在自监督训练的同时引入标注数据，进行同时监督训练。

该实施例充分发挥自监督训练的优势以及充分利用起可得到的少量标注数据，有效从大量的图片中学习到人脸形状的分布的同时，尽量对3DMM系数、pose系数以及光照系数进行解耦，并减缓单张照片重建常见的人脸扁平问题。由于不需要额外采集(标注)数据，因此在提高照片人脸重建的同时，有效降低成本。

下面，对步骤302、步骤304、步骤306的训练过程进行说明，上述每一步训练过程相似，训练卷积神经网络流程具体如下：

输入：收集的无标注图片I，收集的标注图片I’及对应标注好3D人脸数据h’；

输出：卷积神经网络权重w；

流程：

1、初始化卷积神经网络权重w；

2、循环N步(1)-(4)：

(1)随机选取图片输入至卷积神经网络，输出3DMM参数f；pose系数p；光照系数s；

(2)根据参数得到投影图片R(h(f)，p，s)或者R(h′，p，s)；

(3)计算此时的目标函数L；

(4)利用优化器F对w进行更新

其中优化器F可使用Adam优化器，代表目标函数L对网络权重w求解的梯度。

本实施例基于深度学习的方法，可充分发挥自监督训练的优势以及充分利用起可得到的少量标注数据，有效从大量的图片中学习到人脸形状的分布的同时，尽量对3DMM系数、pose系数以及光照系数进行解耦，并减缓单张照片重建常见的人脸扁平问题。由于不需要额外采集(标注)数据，因此在提高照片人脸重建的同时，有效降低成本。可应用于3D游戏/3D影视作品/短视频中人物的人脸重建，使得根据人脸照片重建的3D人脸模型的效果与原图更加相似。

结合上述实施例可知，通过获取无标注数据，该无标注数据包含无标注的对象图像；然后基于无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；并获取标注数据，标注数据包含标注了重建对象的对象图像；然后基于标注了重建对象的对象图像对第一神经网络进行监督训练，以得到第二神经网络；进一步的将无标注数据和标注数据进行融合，以得到融合数据；进而基于融合数据对第二神经网络进行训练，以得到目标神经网络，目标神经网络用于对目标对象进行投影重建。从而实现精确的重建模型的训练过程，由于采用无标注数据学习到对象形状的分布的同时，通过标注数据训练对投影参数进行解耦，并减缓重建过程中对象扁平问题，提高重建模型训练的准确性。

上述实施例介绍了重建模型的训练过程，而在实际过程中还可以进行动态调整，下面对该场景进行说明。请参阅图6，图6为本申请实施例提供的另一种三维对象模型的训练方法的流程图，本申请实施例至少包括以下步骤：

601、获取目标人脸图像。

本实施例中，目标人脸图像可以是实时采集的人脸图像，也可以是数据库中的人脸图像，具体的数据来源因实际场景而定。

602、将目标人脸图像输入目标神经网络，以得到目标重建图像。

本实施例中，目标神经网络即为由步骤301-306训练后的网络，具体训练过程可以进行参考，此处不做赘述。

603、评估目标重建图像的质量，以对融合比例进行调整。

本实施例中，评估目标重建图像的质量可以通过目标重建图像与原图的相似性进行，相似性越高则质量越好；若相似性低于阈值(例如0.8)，则需要调整融合比例，例如提高标注图像的比例。

604、基于调整后的融合图像对目标神经网络进行训练。

本实施例中，通过动态的调整融合图像，使得目标神经网络可以动态的适配于不同的人脸模型，提高目标神经网络的重建准确度。

本实施例基于深度学习的方法，可充分发挥自监督训练的优势以及充分利用起可得到的少量标注数据，有效从大量的图片中学习到人脸形状的分布的同时，尽量对3DMM系数、pose系数以及光照系数进行解耦，并减缓单张照片重建常见的人脸扁平问题。由于不需要额外采集(标注)数据，因此在提高照片人脸重建的准确度同时，有效降低成本；且通过动态的参数调整，进一步的提高了照片人脸重建的准确度。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图7，图7为本申请实施例提供的一种三维对象模型的训练装置的结构示意图，模型的训练装置700包括：

获取单元701，用于获取无标注数据，所述无标注数据包含无标注的对象图像；

训练单元702，用于基于所述无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络；

所述获取单元701，还用于获取标注数据，所述标注数据包含标注了重建对象的对象图像；

所述训练单元702，还用于基于所述标注了重建对象的对象图像对所述第一神经网络进行监督训练，以得到第二神经网络；

融合单元703，用于将所述无标注数据和所述标注数据进行融合，以得到融合数据；

所述训练单元702，还用于基于所述融合数据对所述第二神经网络进行训练，以得到目标神经网络，所述目标神经网络用于对目标对象进行投影重建。

可选的，在本申请一些可能的实现方式中，所述训练单元702，具体用于获取基于所述预设神经网络对应的投影参数所得的第一投影图像；

所述训练单元702，具体用于基于所述第一投影图像与所述无标注的对象图像对应的颜色信息的差异确定第一损失参数；

所述训练单元702，具体用于获取预设关键点；

所述训练单元702，具体用于基于所述预设关键点以及所述预设关键点对应投影的差异确定第二损失参数；

所述训练单元702，具体用于根据所述第一损失参数与所述第二损失参数对所述预设神经网络进行自监督训练，以得到所述第一神经网络。

可选的，在本申请一些可能的实现方式中，所述训练单元702，具体用于获取基于所述第一神经网络对应的投影参数所得的重建模型；

所述训练单元702，具体用于基于所述重建模型与所述重建对象之间在顶点距离的差异确定第三损失参数；

所述训练单元702，具体用于基于所述重建模型与所述重建对象之间在顶点法线的差异确定第四损失参数；

可选的，在本申请一些可能的实现方式中，所述训练单元702，具体用于获取基于所述第一神经网络对应的投影参数所得的第二投影图像；

所述训练单元702，具体用于基于所述第二投影图像与所述标注了重建对象的对象图像对应的颜色信息的差异确定第五损失参数；

所述训练单元702，具体用于获取预设关键点，以基于所述预设关键点以及所述预设关键点对应投影的差异确定第六损失参数；

所述训练单元702，具体用于根据所述第五损失参数与所述第六损失参数对所述第二神经网络进行参数调整。

可选的，在本申请一些可能的实现方式中，所述训练单元702，具体用于获取模型关键点；

所述训练单元702，具体用于确定所述模型关键点在包含标注的所述重建对象中的第一位置信息；

所述训练单元702，具体用于确定所述模型关键点在所述重建模型中的第二位置信息；

所述训练单元702，具体用于将所述第一位置信息向所述第二位置信息进行近似调整，以使得所述包含标注的重建对象与所述重建模型对齐，并对所述重建对象进行更新。

可选的，在本申请一些可能的实现方式中，所述融合单元703，具体用于基于所述标注了重建对象的对象图像的标注质量确定融合比例；

所述融合单元703，具体用于根据所述融合比例将所述无标注数据和所述标注数据进行融合，以得到所述融合数据。

本申请实施例还提供了一种终端设备，如图8所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图8示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图8，手机包括：射频(radio frequency，RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作，以及在触控面板831上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变实施例的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监测。可选的，处理器880可包括一个或多个处理单元；可选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，可选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器880还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图9，图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图9所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有模型的训练指令，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中模型的训练装置所执行的步骤。

本申请实施例中还提供一种包括模型的训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图6所示实施例描述的方法中模型的训练装置所执行的步骤。

本申请实施例还提供了一种三维对象模型的训练系统，所述模型的训练系统可以包含图7所描述实施例中的模型的训练装置，或图8所描述实施例中的终端设备，或者图9所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，模型的训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种三维对象模型的训练方法，其特征在于，包括：

获取无标注数据，所述无标注数据包含无标注的对象图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述无标注的对象图像对预设神经网络进行自监督训练，以得到第一神经网络，包括：

获取预设关键点；

3.根据权利要求1所述的方法，其特征在于，所述基于所述标注了重建对象的对象图像对所述第一神经网络进行监督训练，以得到第二神经网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取模型关键点；

确定所述模型关键点在包含标注的所述重建对象中的第一位置信息；

确定所述模型关键点在所述重建模型中的第二位置信息；

将所述第一位置信息向所述第二位置信息进行近似调整，以使得所述包含标注的重建对象与所述重建模型对齐，并对所述重建对象进行更新。

6.根据权利要求1所述的方法，其特征在于，所述将所述无标注数据和所述标注数据进行融合，以得到融合数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述目标对象为人脸模型，所述标注了重建对象的对象图像的图像数量对应的数量级小于所述无标注的对象图像的图像数量对应的数量级。

8.一种三维对象模型的训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的模型的训练方法。

10.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于计算机可读存储介质，其特征在于，所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的模型的训练方法的步骤。