CN116468856A

CN116468856A - 模型训练方法及装置

Info

Publication number: CN116468856A
Application number: CN202310444108.9A
Authority: CN
Inventors: 姬聪
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-21

Abstract

本申请公开了一种模型训练方法及装置，属于人工智能领域。其中，该方法包括：获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型。

Description

模型训练方法及装置

技术领域

本申请属于人工智能领域，具体涉及一种模型训练方法及装置。

背景技术

随着人工智能技术的发展，人脸重建技术已经应用在了多个实际场景中，比如影视场景和动漫场景中。

目前，脸部信息的表达能力会决定重建模型生成的重建图像的上限，而高质量的脸部信息需要大量的样本数据，在实际的使用场景中，往往难以采集大量的样本数据，因此会导致训练得到的重建模型的拟合能力差。

发明内容

本申请实施例的目的是提供一种模型训练方法及装置，能够解决训练得到的重建模型的拟合能力差的问题。

第一方面，本申请实施例提供了一种模型训练方法，该方法包括：

获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；

根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；

根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定。

第二方面，本申请实施例提供了一种模型训练装置，该方法包括：

获取模块，用于获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

输入模块，用于将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；

第一调节模块，用于根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；

第二调节模块，用于根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请的实施例中，通过获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；这里，能够不断缩小第一样本图像和第一重建模型输出的预测图像的差距，提升第一重建模型从第一样本图像中学习细节信息的能力，以及增强第一重建模型的细节拟合能力，直至第二损失值小于第一阈值，得到第二重建模型。然后，根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定，这里，将第一脸部信息作为第二重建模型中的可学习的训练参数，由于第一脸部信息中包括脸型基信息和表情基信息，通过调节脸型基信息和表情基信息，相当于将非线性拟合引入第一脸部信息，使得第二重建模型输出的第二预测图像摆脱脸部区域的整体约束，能够提升第一脸部信息的表达能力。由此，通过本申请实施例训练得到的目标重建模型可以基于调节后的第一脸部信息和输入的原始图像快速生成细节拟合强的重建图像。

附图说明

图1是本申请实施例提供的一种模型训练方法的流程图；

图2是本申请实施例提供的一种基于第二样本图像的模型训练方法的流程图；

图3是本申请实施例提供的一种基于第三样本图像的模型训练方法的流程图；

图4是本申请实施例提供的一种模型训练装置的结构图；

图5是本申请实施例的电子设备的硬件结构示意图之一；

图6是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的模型训练方法至少可以应用于下述应用场景中，下面进行说明。

目前，3D人脸重建是人像理解的重要部分，3D人脸重建是指利用各种形式的人脸信息，比如：RGB图像、RGB深度图像(RGB Depth Map，RGB-D)数据或者光场相机扫描数据等，生成三维形式人脸的过程。

三维可变形人脸模型(3D Morphable Models，3DMM)，是一种广泛采用的人脸统计模型，其可将任意人脸表示为一系列基准人脸的线性组合，这样就可将人脸重建任务转化为系数回归任务。

完整的人脸基包含平均脸脸型基(S)和表情基(ε)三部分，通过如下组合生可成任意人脸：

公式(1)中，β和ψ分别代表脸型和表情系数，此时就可将人脸重建任务转化为系数预测任务，以此来降低学习难度。

其中，人脸基即脸部信息，人脸基的表达能力会决定3DMM人脸重建的上限，而高质量的人脸基制作成本较为高昂，需要大量的人脸扫描数据。

其次，目前的人脸基都会假设脸型与表情分离，这样的好处是方便数据采集与人脸基建模，降低学习难度，但脸型与表情分离实际是一种数学上的近似假设，实际不同人即使做相同表情，脸部变化也是差异较大，分离假设模型很难拟合出这种个性化差异。

针对相关技术出现的问题，本申请实施例提供一种模型训练方法、装置，能够解决相关技术中，训练得到的重建模型的拟合能力差的问题。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法进行详细地说明。

图1为本申请实施例提供的一种模型训练方法的流程图。

如图1所示，该模型训练方法可以包括步骤110-步骤140，该方法应用于模型训练装置，具体如下所示：

步骤110，获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息。

在一种可能的实施例中，其中，如图2所示，步骤110中，具体可以包括步骤210-步骤230，下面分别进行说明：

步骤210，获取目标样本图像、多个第二样本图像、多个表情信息和多个第一样本图像，第二样本图像包括无表情的脸部区域。

在本申请实施例中，样本数据的采集主要分为两个部分，数据采集部分包含无表情人脸采集和表情设计两部分。前者主要用于生成平均脸信息和脸型基信息，采集时应覆盖尽可能多的脸型，后者主要用于生成表情基信息。

样本数据采集的一部分如步骤210-1所示，获取目标样本图像、多个第二样本图像、多个表情信息，以得到第一脸部信息；样本数据采集的另一部分如步骤210-2所示，即样本数据的另一部分是获取多个第一样本图像。

步骤220，基于目标样本图像调整第二样本图像，得到第一脸部矩阵。

在一种可能的实施例中，步骤220中，具体可以包括以下步骤：

基于预设拓扑信息，分别对第二样本图像进行格式转换，得到多个第一图像；

分别对第一图像进行配准处理，得到多个第二图像，以用于第二图像与目标样本图像相匹配；

根据目标样本图像和第二图像，分别确定第五损失值，第五损失值包括：图像点损失值、第二平滑损失值和关键点损失值；

根据第五损失值，分别调节第五损失值对应的第二图像，直至第六损失值小于第二阈值，得到第一脸部矩阵，其中，第六损失值根据目标样本图像和调节后的第二图像确定。

首先，涉及到基于预设拓扑信息，分别对第二样本图像进行格式转换，得到多个第一图像的步骤。将第二样本图像由无规则结构的原始扫描数据转化为拓扑统一的格式。由于第二样本图像的数量庞大，每个图像中的图像点的数量不同，格式转换的目的是使这些图像中的图像点格式统一。

示例性地，预设拓扑信息指示图像中的第100万个图像点是眼睛中的眼角图像点，那么格式转换后得到的第一图像，不管是由哪个第二样本图像转换得到，第100万个图像点都对应的是眼睛中的眼角图像点。

在本申请实施例中，配准分两步进行：第一步为刚性配准，将拓扑统一的人脸，即第一图像经过平移、缩放、旋转变换，与目标样本图像对齐，即分别对第一图像进行配准处理，得到多个第二图像，以用于第二图像与目标样本图像相匹配；

第二步为非刚性局部配准，即根据目标样本图像和第二图像，分别确定第五损失值，第五损失值包括：图像点损失值、第二平滑损失值和关键点损失值；根据第五损失值，分别调节第五损失值对应的第二图像，直至根据目标样本图像和调节后的第二图像确定的第六损失值小于第二阈值，得到第一脸部矩阵。配准后得到一个三维的人脸矩阵C_r，即第一脸部矩阵，该矩阵维度为(3，n)，v表示第二图像中的图像点个数，3表示每个图像点的xyz坐标，n表示第二样本图像的数量。

在本申请实施例中，通过对由第二样本图像进行格式转换得到的第一图像进行配准处理，得到多个第二图像，以用于第二图像与目标样本图像相匹配，实现对第二样本图像的刚性配准；然后，根据目标样本图像和第二图像，分别确定第五损失值，根据第五损失值，分别调节第五损失值对应的第二图像，直至根据目标样本图像和调节后的第二图像确定的第六损失值小于第二阈值，得到第一脸部矩阵，即基于目标样本图像，对多个第二图像进行非刚性局部配准处理，得到第一脸部矩阵，能够快速高效地将第二样本图像转换为格式统一的第一脸部矩阵，便于后续处理。

其中，根据目标样本图像和第二图像，确定第三损失值的步骤中，具体可以采用非刚性最近点迭代(Non-rigid Iterative Closest Point，NICP)算法，NICP可以对第二图像中每点进行单独的线性变换，通过迭代优化图像点损失值、第二平滑损失值和关键点损失值进行拟合。

其中，图像点损失值可以通过公式(2)表示为：

其中，v_i表示第二图像中的第i个图像点，w_i表示每个图像点的权重，X_i表示第i点的变换矩阵，用于表征对v_i变换，比如平移变换或者旋转变换等；P表示目标样本图像中的每一个图像点；表示图像点损失值。

dist表示欧氏距离，公式(2)表示通过X_i，对第二图像中的图像点进行变换，使得变换之后，T和v_i的欧式距离更近，直至第五损失值小于第二阈值，停止对变换矩阵的更新；该第五损失值的迭代目的是使目标样本图像和第二图像的差距越小越好，直至根据目标样本图像和调节后的第二图像确定的第六损失值小于第二阈值。

涉及第二平滑损失值，第二平滑损失值是通过权衡相邻点的旋转和平移，使变换后的模板进行平滑；这里，假设vi和vj相邻，第二平滑损失值的约束目的是使得xi和xj的变换矩阵的差值越小越好。

涉及关键点损失值，关键点损失值是对确定准确的关键锚点进行拟合，配准后得到一个三维的人脸矩阵C_r，该矩阵维度为(3v,20,n)，v表示第二图像中的图像点个数，3表示每个图像点的xyz坐标。

其中，关键锚点是指经由人工筛选的具有明确含义的图像点，比如：脸部轮廓图像点、鼻尖图像点和眼角图像点等。

步骤230，根据第一脸部矩阵和多个表情信息，确定第一脸部信息。

在一种可能的实施例中，步骤230中，具体可以包括以下步骤：

对第一脸部矩阵进行降维处理，得到脸型基信息；

对多个第二样本图像进行求平均值，得到平均脸信息；

根据平均脸信息、脸型基信息和表情基信息，确定第一脸部信息。

在本申请实施例中，生成第一脸部信息采用的是主成分分析(PrincipalComponent Analysis，PCA)。PCA是重要的降维方法之一，在数据压缩、消除冗余和数据噪声等领域应用广泛。由于前述步骤中的表情基信息是直接获取到的，这里通过对第一脸部矩阵进行降维处理，得到的是脸型基信息。

在本申请实施例中，PCA利用空间正交性来降低数据维度，具体应用到脸型基信息上，则是将采集到的a个人脸用b个人脸表示。比如将几百个第二样本图像用几十个脸型基信息表示。

平均脸部信息则是直接求所有无表情人脸的算术平均值即可。

在本申请实施例中，能够充分利用易获取的图片信息来提升人脸基的拟合能力，有效提升人脸重建的贴合性，尤其在处理大表情样本图像场景下，拟合优势明显；且在设备化部署时，用后续学习完成的目标脸型基信息和目标表情基信息直接替换之前脸型基信息和表情基信息即可，不会增加额外的处理复杂度。

上述步骤210-步骤230所示的步骤，是通过采集无表情的第二样本图像和表情基信息，生成的第一脸部信息的实施例，下面介绍通过有表情的第三样本图像生成第一脸部信息的实施例：

在另一种可能的实施例中，步骤110中，具体可以包括步骤310-步骤330，下面分别进行说明：

步骤310，获取表情系数、脸型系数、L个第三样本图像和多个第一样本图像，第三样本图像包括N个样本对象的脸部区域，每个样本对象对应的第三样本图像包括样本对象做出M种表情得到的图像，L为M和N之积，L、M和N均为正整数。

由于不同人做同种表情时的肌肉变化幅度是不同的，即表情无法和脸型完全解耦，根据这个问题，该实施方式，引入双线性模型优化人脸细节。

如图3所示，数据采集涉及步骤310-1，获取表情系数、脸型系数、L个第三样本图像，第三样本图像包括N个样本对象的脸部区域，每个样本对象对应的第三样本图像包括样本对象做出M种表情得到的图像，L为M和N之积，L、M和N均为正整数；和步骤310-2，获取多个第一样本图像。

分别采集N个人的三维人脸扫描数据，要求每人做出M种预设表情，共采集到M×n个样本，这样可以采集到不同人在同种表情下的局部差异。L为M和N之积，比如，样本对象为100人，预设表情为20种，则第三样本图像的数量为2000个。

步骤320，根据L个第三样本图像，确定第二脸部矩阵。在一种可能的实施例中，步骤320中，具体可以包括以下步骤：

对第三样本图像进行配准处理，得到第三图像；

对第三图像中的表情进行解耦处理，得到第三脸部矩阵；

对第三脸部矩阵中的表情元素进行降维处理，得到第二脸部矩阵。

对第三样本图像进行配准处理的实现方式与前述步骤220中示出的配准处理的实现方式相同，在此不再赘述。

涉及对第三图像中的表情进行解耦处理，得到第三脸部矩阵的步骤之前，首先可以进行Example-base表情分解，表情分解的目的是由采集的各种复合表情解析出一系列最小的表情动作单元。这些表情动作单元且更符合人脸肌肉分布，可兼容主流表情驱动系统，也便于组合成各种复杂表情。

对第三图像中的表情进行解耦处理，得到第三脸部矩阵的步骤中，可以使用面部行为编码系统(Facial Action Coding System，FACS)分别对每个人的20中表情进行解耦，得到52个遵循FACS规则的表情，解耦后的C_r维度为(3，52，n)；比如样本对象做的表情为大笑，其对应的表情可以包括：眼部区域的变化、嘴巴区域的变化和脸颊区域的变化，解耦的目的是将脸部的整体表情拆解为面部区域的表情。

其中，FACS，是心理学家Ekman通过深入研究人脸微表情和肌肉分布，提出的一组表情。

涉及对第三脸部矩阵中的表情元素进行降维处理，得到第二脸部矩阵的步骤中，具体可以包括：选取特征值占比超过98％的前n个主成分；基于主成分对第三脸部矩阵中的表情元素进行降维处理，得到第二脸部矩阵。其中，降维处理是指对矩阵的第三维进行降维，即(3，52，n)中的n。

选择特征值占比超过98％的前n个主成分的目的是选取最能够代表样本对象的特征。比如，以样本对象是小狗为例，小狗的特征包括：花纹和尾巴等；每个小狗都有尾巴，那么尾巴是特征值占比很高的主成分，是多个小狗的共性特征，也就是说N个小狗都有尾巴这个特征；

对第三脸部矩阵中的表情元素进行降维处理，得到的脸部矩阵所对应的样本对象，和第三样本图像中的样本对象都不一样，又与第三样本图像中的样本对象都比较像。

其中，降维处理采用奇异值分解(Singular Value Decomposition，SVD)法，SVD是线性代数中一种重要的矩阵分解，奇异值分解则是特征分解在任意矩阵上的推广，在信号处理、统计学等领域有重要应用。

在本申请实施例中，对第三脸部矩阵中的表情元素进行降维处理，得到的第二脸部矩阵中包含脸型基信息和表情基信息，考虑到了不同人做同种表情时的肌肉变化幅度不同的情况，能够通过双线性的第二脸部矩阵来实现个性化人脸重建，提升重建细节和极端表情下的稳定性。

步骤330，根据第二脸部矩阵、表情系数和脸型系数，得到第一脸部信息。

在一种可能的实施例中，步骤330中，具体可以包括以下步骤：

将第二脸部矩阵、表情系数和脸型系数之积，确定为第一脸部信息。

H＝C_r×w_exp×w_id (3)

其中，w_exp、w_id分别代表表情系数和脸型系数，H为第一脸部信息。

在本申请实施例中，用解耦后的C_r维度为(3v，52，n)，这里，通过Example-base表情分解，引入双线性人脸基，双线性即表情系数和脸型系数，可进一步优化不同人的表情细节。此方案适合云端或离线计算场景下进行计算。

步骤120，将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像。

在一种可能的实施例中，步骤120，包括以下步骤：

对第一样本图像进行对齐处理，得到对齐后的第一样本图像，将对齐后的第一样本图像输入至第一重建模型，输出第一预测图像。

对齐的目的是使第一样本图像中的人脸位于图像中央，且大小近似统一，从而降低网络学习难度。

对齐处理具体可以通过人脸辨认模块、特征点辨认模块和轮廓辨认模块实现。其中，人脸辨认模块，用于辨认出照片中的人脸，染回每个人脸的坐标和人脸总数。特征点辨认模块，首要辨认两个嘴角、鼻子、两个眼睛五个点的坐标。

获取第一样本图像后，首先通过人脸辨认模块、特征点辨认模块和轮廓辨认模块对第一样本图像进行检测，得到眼睛、鼻子和嘴巴等的坐标值P_i(x_i,y_i)，其中i为坐标索引；然后将检测得到的坐标对与标准脸坐标进行最小二乘优化，得到修剪的人脸区域，进行重新调整尺寸后即可送入第一重建模型。

在一种可能的实施例中，步骤120中，具体可以包括以下步骤：

将第一样本图像输入至第一重建模型，得到预测系数，预测系数包括：脸型系数、表情系数、位置系数、光照系数和旋转系数；

根据预测系数对第一脸部信息进行调整，得到第一预测图像。

在该阶段中，将第一样本图像输入至第一重建模型，输出一组预测系数，预测系数包括：脸型系数、表情系数、位置系数、光照系数和旋转系数。

根据预测系数对第一脸部信息进行调整，得到第一预测图像，可以包括：根据预测系数对第一脸部信息进行调整，得到三维预测数据，将三维预测数据进行投影处理和渲染处理，得到第一预测图像。

在本申请实施例中，经过3DMM解析后得到三维预测数据，再通过可微渲染得到重建图片，即第一预测图像。3DMM，即三维可变形人脸模型，是一个通用的三维人脸模型，用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配，并且可以由其他许多幅人脸正交基加权线性相加而来。人脸的基本属性包括形状和纹理，每一张人脸可以表示为形状向量和纹理向量的线性叠加。

步骤130，根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定。

第一损失值包括：关键点位置损失值、特征点损失值和颜色损失值。

在一种可能的实施例中，步骤130之前，还可以包括以下步骤：

根据第一样本图像和第一预测图像确定第一损失值；

其中，第一损失值包括：关键点位置损失值、特征点损失值和颜色损失值。

关键点位置损失值是将上述三维预测数据投影到二维图片上，得到第一预测图像，然后计算第一预测图像与第一样本图像的距离；

特征点损失值是将第一样本图像与第一预测图像经过同一个特征提取网络得到两组特征点，计算两组特征点的距离作为损失值，可以保证渲染图片与原图的高层特征近似；

颜色损失值是计算第一预测图像的渲染颜色与第一样本图像的颜色的差异，该颜色损失值与特征点损失值是相辅相成的。

在本申请实施例中，通过根据第一样本图像和第一预测图像确定第一损失值，根据第一损失值调节第一重建模型中的训练参数，直至根据第二重建模型输出的第二预测图像确定的第二损失值小于第一阈值，得到第二重建模型，能够不断缩小第一样本图像和第一预测图像的差距，提升第一重建模型从第一样本图像中学习细节信息的能力，以及能够增强第一重建模型的细节拟合能力。

步骤140，根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定。

其中，第三损失值包括第一损失值和第一平滑损失值。

在本申请实施例中，为了提升第一脸部信息的表达能力，将第一脸部信息中的脸型基信息和表情基信息作为可学习的训练参数进行调节。

该第二重建模型的网络结构用于提取输入的第一样本图像的特征，学习第一样本图像中的细节信息，输出预测系数。其中，第二重建模型中的训练参数是可以学习的，这里，把第一脸部信息中的脸型基信息和表情基信息也当作训练参数的一部分进行调整。

具体地，首先，根据第三损失值，调节第二重建模型中的训练参数、脸型基信息和表情基信息，相应地，调节脸型基信息和表情基信息后，得到调节后的第一脸部信息；然后，将第一样本图像和调节后的第一脸部信息输入至第二重建模型后得到更新后的预测图像；接着，根据第一样本图像和更新后的预测图像确定更新后的损失值。

然后，重复上述步骤，直至根据第一样本图像和调节训练参数、脸型基信息和表情基信息后的第二重建模型输出的第三预测图像，所确定的第四损失值满足预设收敛条件，此时停止训练，并冻结此时的训练参数、脸型基信息和表情基信息，以得到目标重建模型。即直至根据目标重建模型输出的第三预测图像确定的第四损失值满足预设收敛条件，得到目标重建模型。

其中，目标重建模型中包括目标脸部信息，目标脸部信息为满足预设收敛条件的第四损失值对应的脸部信息，目标脸部信息包括平均脸信息、目标脸型基信息和目标表情基信息。

在本申请实施例中，可以在样本数量不是十分充足的情况下，通过调节脸型基信息和表情基信息，提升第一脸部信息的表达能力。

另外，可以将其学习率调整为先前1/10，这样做相当于给人脸基中的每个点都加了个偏移的自由度，为了防止自由度过大造成人脸褶皱，新增第一平滑损失值用于限制自由度过大，第一平滑损失值的公式如下：

其中，i是指三角网中每个三角网的图像点，diff(X_i)代表其中一点相对原始基的偏移，mean(X)表示三角网中三个点偏移的平均值；

该三角网是指前述通过格式转换和配准之后得到的图像。该第一平滑损失值会让同一三角网内的图像点偏移值尽量接近，从而达到平滑的效果。

在本申请的实施例中，通过将第一脸部信息作为第二重建模型中的可学习的训练参数，由于第一脸部信息中包括脸型基信息和表情基信息，通过调节脸型基信息和表情基信息，相当于将非线性拟合引入第一脸部信息，使得第二重建模型输出的第二预测图像摆脱脸部区域的整体约束，能够提升第一脸部信息的表达能力。由此，通过本申请实施例训练得到的目标重建模型可以基于调节后的第一脸部信息和输入的原始图像快速生成细节拟合强的重建图像。

在一种可能的实施例中，步骤140之后，还可以包括以下步骤：

获取原始图像，原始图像包括脸部区域；

将原始图像输入至目标重建模型，得到目标预测系数，目标重建模型的模型参数中包括目标脸部信息；

根据目标预测系数和目标脸部信息，生成重建图像。

该步骤用于描述目标重建模型的应用过程，其中，目标重建模型的模型参数中包括平均脸信息、目标脸型基信息和目标表情基信息；目标脸型基信息为满足预设收敛条件的第四损失值所对应的调节后的脸型基信息，目标表情基信息为满足预设收敛条件的第四损失值所对应的调节后的表情基信息；

根据目标预测系数和目标脸部信息，生成重建图像；目标脸部信息包括：平均脸信息、目标脸型基信息和目标表情基信息。

由此，通过训练完成的目标重建模型，能够快速生成细节拟合强、真实且自然的重建图像。

本申请实施例提供的模型训练方法，执行主体可以为模型训练装置。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

图4是本申请实施例提供的一种模型训练装置的框图，该装置400包括：

获取模块410，用于获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

输入模块420，用于将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；

第一调节模块430，用于根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；

第二调节模块440，用于根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定。

在一种可能的实施例中，获取模块410，包括：

第一获取模块，用于获取目标样本图像、多个第二样本图像、多个表情信息和多个第一样本图像，第二样本图像包括无表情的脸部区域；

调整模块，用于基于目标样本图像调整第二样本图像，得到第一脸部矩阵；

确定模块，用于根据第一脸部矩阵和多个表情信息，确定第一脸部信息。

在一种可能的实施例中，调整模块，具体用于：

在一种可能的实施例中，获取模块410，具体用于：

获取表情系数、脸型系数、L个第三样本图像和多个第一样本图像，第三样本图像包括N个样本对象的脸部区域，每个样本对象对应的第三样本图像包括样本对象做出M种表情得到的图像，L为M和N之积，L、M和N均为正整数；

根据L个第三样本图像，确定第二脸部矩阵；

根据第二脸部矩阵、表情系数和脸型系数，得到第一脸部信息。

在一种可能的实施例中，该装置400，还可以包括：

第二获取模块，用于获取原始图像，原始图像包括脸部区域；

第一输入模块，用于将原始图像输入至目标重建模型，得到目标预测系数，目标重建模型的模型参数中包括目标脸部信息；

生成模块，用于根据目标预测系数和目标脸部信息，生成重建图像。

本申请实施例中的模型训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例的模型训练装置可以为具有动作系统的装置。该动作系统可以为安卓(Android)动作系统，可以为iOS动作系统，还可以为其他可能的动作系统，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备510，包括处理器511，存储器512，存储在存储器512上并可在处理器511上运行的程序或指令，该程序或指令被处理器511执行时实现上述任一模型训练方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例的电子设备包括上述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。

本领域技术人员可以理解，电子设备600还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，网络模块602，用于获取第一脸部信息和多个第一样本图像；第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

处理器610，用于将第一脸部信息和第一样本图像输入至第一重建模型，输出第一预测图像；

处理器610，还用于根据第一损失值，调节第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，第一损失值根据第一样本图像和第一预测图像确定，第二损失值根据第二重建模型输出的第二预测图像确定；

处理器610，还用于根据第三损失值，调节第二重建模型中的训练参数和第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，第三损失值根据第一样本图像和第二预测图像确定，第四损失值根据目标重建模型输出的第三预测图像确定。

可选地，网络模块602，还用于获取目标样本图像、多个第二样本图像、多个表情信息和多个第一样本图像，第二样本图像包括无表情的脸部区域；

处理器610，还用于基于目标样本图像调整第二样本图像，得到第一脸部矩阵；

处理器610，还用于根据第一脸部矩阵和多个表情信息，确定第一脸部信息。

可选地，处理器610，还用于基于预设拓扑信息，分别对第二样本图像进行格式转换，得到多个第一图像；

处理器610，还用于分别对第一图像进行配准处理，得到多个第二图像，以用于第二图像与目标样本图像相匹配；

处理器610，还用于根据目标样本图像和第二图像，分别确定第五损失值，第五损失值包括：图像点损失值、第二平滑损失值和关键点损失值；

处理器610，还用于根据第五损失值，分别调节第五损失值对应的第二图像，直至第六损失值小于第二阈值，得到第一脸部矩阵，其中，第六损失值根据目标样本图像和调节后的第二图像确定。

可选地，网络模块602，还用于获取表情系数、脸型系数、L个第三样本图像和多个第一样本图像，第三样本图像包括N个样本对象的脸部区域，每个样本对象对应的第三样本图像包括样本对象做出M种表情得到的图像，L为M和N之积，L、M和N均为正整数；

处理器610，还用于根据L个第三样本图像，确定第二脸部矩阵；

处理器610，还用于根据第二脸部矩阵、表情系数和脸型系数，得到第一脸部信息。

可选地，网络模块602，还用于获取原始图像，原始图像包括脸部区域；

处理器610，还用于将原始图像输入至目标重建模型，得到目标预测系数，目标重建模型的模型参数中包括目标脸部信息；

处理器610，还用于根据目标预测系数和目标脸部信息，生成重建图像。

应理解的是，本申请实施例中，输入单元604可以包括图形处理器(GraphicsProcessing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元606可包括显示面板6061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072中的至少一种。触控面板6071，也称为触控屏触控屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器609可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理动作系统、用户页面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器609可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器609包括但不限于这些和任意其它适合类型的存储器。

处理器610可包括一个或多个处理单元；可选的，处理器610集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取第一脸部信息和多个第一样本图像；所述第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

将所述第一脸部信息和所述第一样本图像输入至第一重建模型，输出第一预测图像；

根据第一损失值，调节所述第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，所述第一损失值根据所述第一样本图像和所述第一预测图像确定，所述第二损失值根据所述第二重建模型输出的第二预测图像确定；

根据第三损失值，调节所述第二重建模型中的所述训练参数和所述第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，所述第三损失值根据所述第一样本图像和所述第二预测图像确定，所述第四损失值根据所述目标重建模型输出的第三预测图像确定。

2.根据权利要求1所述的方法，其特征在于，所述获取第一脸部信息和多个第一样本图像，包括：

获取目标样本图像、多个第二样本图像、多个表情信息和所述多个第一样本图像，所述第二样本图像包括无表情的脸部区域；

基于所述目标样本图像调整所述第二样本图像，得到第一脸部矩阵；

根据所述第一脸部矩阵和所述多个表情信息，确定所述第一脸部信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标样本图像调整所述第二样本图像，得到第一脸部矩阵，包括：

基于预设拓扑信息，分别对所述第二样本图像进行格式转换，得到多个第一图像；

分别对所述第一图像进行配准处理，得到多个第二图像，以用于所述第二图像与所述目标样本图像相匹配；

根据所述目标样本图像和所述第二图像，分别确定第五损失值，所述第五损失值包括：图像点损失值、第二平滑损失值和关键点损失值；

根据所述第五损失值，分别调节所述第五损失值对应的所述第二图像，直至第六损失值小于第二阈值，得到所述第一脸部矩阵，其中，所述第六损失值根据所述目标样本图像和调节后的所述第二图像确定。

4.根据权利要求1所述的方法，其特征在于，所述获取第一脸部信息和多个第一样本图像，包括：

获取表情系数、脸型系数、L个第三样本图像和所述多个第一样本图像，所述第三样本图像包括N个样本对象的脸部区域，每个所述样本对象对应的第三样本图像包括所述样本对象做出M种表情得到的图像，所述L为所述M和所述N之积，所述L、所述M和所述N均为正整数；

根据所述L个第三样本图像，确定第二脸部矩阵；

根据所述第二脸部矩阵、所述表情系数和所述脸型系数，得到所述第一脸部信息。

5.根据权利要求1所述的方法，其特征在于，在所述根据第三损失值，调节所述第二重建模型中的所述训练参数和所述第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型之后，所述方法还包括：

获取原始图像，所述原始图像包括脸部区域；

将所述原始图像输入至所述目标重建模型，得到目标预测系数，所述目标重建模型的模型参数中包括目标脸部信息；

根据所述目标预测系数和所述目标脸部信息，生成重建图像。

6.一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取第一脸部信息和多个第一样本图像；所述第一脸部信息包括：平均脸信息、脸型基信息和表情基信息；

输入模块，用于将所述第一脸部信息和所述第一样本图像输入至第一重建模型，输出第一预测图像；

第一调节模块，用于根据第一损失值，调节所述第一重建模型中的训练参数，直至第二损失值小于第一阈值，得到第二重建模型，所述第一损失值根据所述第一样本图像和所述第一预测图像确定，所述第二损失值根据所述第二重建模型输出的第二预测图像确定；

第二调节模块，用于根据第三损失值，调节所述第二重建模型中的所述训练参数和所述第一脸部信息，直至第四损失值满足预设收敛条件，得到目标重建模型；其中，所述第三损失值根据所述第一样本图像和所述第二预测图像确定，所述第四损失值根据所述目标重建模型输出的第三预测图像确定。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，包括：

第一获取模块，用于获取目标样本图像、多个第二样本图像、多个表情信息和所述多个第一样本图像，所述第二样本图像包括无表情的脸部区域；

调整模块，用于基于所述目标样本图像调整所述第二样本图像，得到第一脸部矩阵；

确定模块，用于根据所述第一脸部矩阵和所述多个表情信息，确定所述第一脸部信息。

8.根据权利要求7所述的装置，其特征在于，所述调整模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于：

根据所述L个第三样本图像，确定第二脸部矩阵；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取原始图像，所述原始图像包括脸部区域；

第一输入模块，用于将所述原始图像输入至所述目标重建模型，得到目标预测系数，所述目标重建模型的模型参数中包括目标脸部信息；

生成模块，用于根据所述目标预测系数和所述目标脸部信息，生成重建图像。