CN113591823A

CN113591823A - 深度预测模型的训练及人脸深度图像的生成方法、装置

Info

Publication number: CN113591823A
Application number: CN202111168154.8A
Authority: CN
Inventors: 季栋; 薛远; 曹天宇; 王亚运; 李绪琴
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-11-02
Anticipated expiration: 2041-10-08
Also published as: CN113591823B

Abstract

本发明实施例涉及图像处理领域，公开了一种深度预测模型的训练及人脸深度图像的生成方法、装置，深度预测模型的训练方法，包括：将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，所述深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；根据所述深度图像和所述人脸掩码确定损失值；根据所述损失值调整所述深度预测模型的训练参数。能够对人脸边缘和背景交界处提供强有力的约束，使得有效缓解深度图像中人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

Description

深度预测模型的训练及人脸深度图像的生成方法、装置

技术领域

本发明实施例涉及图像处理领域，特别涉及一种深度预测模型的训练及人脸深度图像的生成方法、装置。

背景技术

在刷脸支付、虚拟现实/增强现实(Virtual Reality/Augmented Reality，VR/AR)等应用场景下，需要基于采集到的人脸图像进行三维重建或人脸识别。在三维重建或三维人脸识别过程中，如何获取人脸深度信息显得尤为重要。随着神经网络技术的发展，越来越多地考虑基于人脸图像训练人脸图像的深度预测模型，从而利用训练好的深度预测模型对输入的人脸图像进行处理，输出对人脸图像的深度预测结果，即深度图像，进而根据深度图像进行人脸三维重建或三维识别，其中，一种常用的深度预测模型训练方法为：以含有人脸的图像作为编码-解码（Encoder-Decoder）网络的输入，然后将这些图像对应的真实的深度图像作为监督信号，计算Encoder-Decoder网络模型输出的深度图像和真实深度图之间的误差，并根据该误差不断调节Encoder-Decoder网络模型的参数，直到误差缩小到一定阈值以下或当Encoder-Decoder网络模型收敛时，即认为得到训练好的深度预测模型。

然而，通过上述方法训练出来的深度预测模型精度不高，其输出的人脸深度图像中存在人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

发明内容

本发明实施例的目的在于提供一种深度预测深度预测模型的训练及人脸深度图像的生成方法、装置，能够对人脸边缘和背景交界处提供强有力的约束，使得有效缓解深度图像中人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

为达到上述目的，本发明实施例提供了一种深度预测模型的训练方法，包括：将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，所述深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；根据所述深度图像和所述人脸掩码确定损失值；根据所述损失值调整所述深度预测模型的训练参数。

为达到上述目的，本发明实施例还提供了一种人脸深度图像的生成方法，包括：获取人脸图像；将所述人脸图像输入深度预测模型并将所述深度预测模型中的深度预测网络分支输出的深度图像作为所述人脸图像对应的人脸深度图像，所述深度预测模型是根据如上所述的深度预测模型的训练方法训练得到的。

为达到上述目的，本发明实施例还提供了一种深度预测模型的训练装置，包括：预测模块，用于将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，所述深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；损失计算模块，用于根据所述深度图像和所述人脸掩码确定损失值；调整模块，用于根据所述损失值调整所述深度预测模型的训练参数。

为达到上述目的，本发明实施例还提供了一种人脸深度图像的生成装置，包括：获取模块，用于获取人脸图像；生成模块，用于将所述人脸图像输入深度预测模型并将所述深度预测模型中的深度预测网络分支输出的深度图像作为所述人脸图像对应的人脸深度图像，所述深度预测模型是根据如上所述的深度预测模型的训练方法训练得到的。

为达到上述目的，本发明实施例还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的深度预测模型的训练方法，或者，执行如上所述的人脸深度图像的生成方法。

为达到上述目的，本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的深度预测模型的训练方法，或者，实现如上所述的人脸深度图像的生成方法。

本发明实施例提供的深度预测模型的训练方法，预设的深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支，进而将人脸图像输入到深度预测模型中后，能够同时进行深度预测和人脸掩码预测，从而得到深度图像和人脸掩码，并且在得到深度图像和人脸掩码后，利用深度图像和人脸掩码共同确定损失值，这样，在根据损失值调整深度模型的训练参数时，不仅考虑了深度预测的准确性，还考虑了人脸掩码预测的准确性，而人脸掩码预测实际需要将人脸部分和背景部分区分开，因此，能够从人脸和背景的区分方面进行特征提取，进而提取出的人脸特征能够对人脸边缘和背景交界处提供强有力的约束，有效缓解人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明一实施例提供的深度预测模型的训练方法的流程图；

图2是本发明实施例中深度预测模型中的一种特征提取网络的网络分支的结构示意图；

图3是本发明另一实施例提供的人脸深度图像的生成方法的流程图；

图4是本发明另一实施例提供的深度预测模型的训练装置的结构示意图；

图5是本发明另一实施例提供的人脸深度图像的生成装置的结构示意图；

图6是本发明另一实施例提供的电子设备的结构示意图。

具体实施方式

由背景技术可知，目前的人脸图像的深度预测模型的训练方法通常是利用大量的含人脸的图像对Encoder-Decoder网络模型进行监督训练，直到误差较小或模型收敛。但是这种方法训练出来的深度预测模型精度比不高，并且存在输出的深度图像中人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

为了解决上述问题，本发明实施例提供了一种深度预测模型的训练方法，包括：将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；根据深度图像和人脸掩码确定损失值；根据损失值调整深度预测模型的训练参数。

本发明实施例提供的深度预测模型的训练方法，预设的深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支，进而将人脸图像输入到深度预测模型中后，能够同时进行深度预测和人脸掩码预测，从而得到深度图像和人脸掩码，并且在得到深度图像和人脸掩码后，利用深度图像和人脸掩码共同确定损失值，这样，在根据损失值调整深度模型的训练参数时，不仅考虑了深度预测的准确性，还考虑了人脸掩码预测的准确性，而人脸掩码预测实际需要将人脸部分和背景部分区分开，因此，能够从人脸和背景的区别方面进行特征提取，进而提取的人脸特征能够对人脸边缘和背景交界处提供强有力的约束，有效缓解人脸轮廓附近的深度值连续不准确以及人脸部分和背景部分深度值粘连的问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明实施例一方面提供了一种深度预测模型的训练方法，应用于能够支持模型训练的计算机等电子设备，深度预测模型的训练方法的流程如图1所示，包括：

步骤101，将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支。

在一个例子中，深度预测模型还包括：特征提取网络和训练好的人脸检测网络，此时，深度预测模型对输入人脸图像的处理过程包括：将人脸图像输入人脸检测网络，得到人脸框图和人脸区域图像；将人脸框图和人脸区域图像输入特征提取网络，得到人脸框图的第一特征提取结果和人脸区域图像的第二特征提取结果；对第一特征提取结果、第二特征提取结果和基于人脸框图得到的梯度图进行拼接，得到拼接结果；将拼接结果输入人脸深度预测网络分支，得到深度图像；将拼接结果输入人脸掩码预测网络分支，得到人脸掩码。特别地，由于人脸检测网络需要输出人脸框图和人脸区域图像，因此，人脸检测网络可以具有人脸区域检测和人脸关键点检测两条网络分支，分别对输入的人脸图像进行处理，其中，人脸区域检测网络分支主要是用于检测人脸所在区域，即将人脸从背景中识别出来并进行标记，通常的标记方式即为对人脸所在区域添加人脸框，人脸框框住的部分即为人脸；而人脸关键点检测网络分支主要是对人脸图像进行关键点检测，如68点检测、81点检测和106点检测等，确定出人脸轮廓、下巴等信息，从而将人脸与背景进行划分和分割，得到仅包含人脸部分的人脸区域图像。

值得一提的是，通过人脸检测网络得到人脸区域图像，实际是将图像中人脸和非人脸区域区分开，这样后续处理时就能根据人脸区域图像聚焦于人脸所在的区域，减小非人脸区域的影响，更好地关注人脸特征信息而不是关注非人脸区域，针对性更强，避免由于人脸框图中的非人脸区域占据图像中的像素比例较大，导致只使用人脸框图时存在的计算冗余等问题。

需要说明的是，通过人脸检测网络得到的人脸区域图像可以与原人脸图像进行结合确定出原人脸图像中人脸所在的具体位置，进而通过二值化处理生成人脸掩码，即将人脸图像中人脸所在的具体位置上的像素点的像素值设置为1，其余像素点的像素值均设置为0，这样生成的人脸掩码可以在后续作为针对人脸掩码预测网络分支的监督信号，而不需要额外对图像进行处理和打标签，以得到人脸掩码的监督信号。此外，在使用预先训练好的人脸检测模型的情况下，训练人脸参数时，该人脸检测网络的训练参数固定不变，不涉及参数更新，减小了训练压力，还能够保证一直能够有效地确定人脸区域图像，进而得到准确的人脸掩码，为深度预测模型中的人脸掩码预测网络分支提供准确的监督信号。

进一步地，将人脸框图和人脸区域图像输入特征提取网络，得到人脸框图的第一特征提取结果和人脸区域图像的第二特征提取结果，可以包括：对人脸框图和人脸区域图像进行卷积和池化，得到人脸框图和人脸区域图像各自对应的1/2分辨率图像、1/4分辨率图像和1/8分辨率图像；对1/8分辨率图像进行卷积和上采样并与1/4分辨率图像进行拼接，得到第一拼接结果；对第一拼接结果进行卷积和上采样并与1/2分辨率图像进行拼接，得到第二拼接结果；对第二拼接结果进行卷积和上采样，得到第一特征提取结果和第二特征提取结果。例如，在特征提取网络的内部可以设置两个结构相同的网络分支，分别处理人脸框图和人脸区域图像，进而从两个网络分支中分别输出人脸框图的第一特征提取结果和人脸区域图像的第二特征提取结果，其中，每一个网络分支的结构可以如图2所示，包括：卷积层、池化层和3条支路，根据图2所示的网络结构可知，输入该网络的图像，首先经过卷积层，然后经过池化层，进行3种不同尺度的池化，得到分辨率降至输入图像1/8的图像、分辨率降至输入图像1/4的图像和分辨率降至输入图像1/2的图像，然后将分辨率降至输入图像1/8的图像输入第一条支路进行卷积和上采样，由1/8分辨率恢复到1/4分辨率，再与输入到第二条支路的卷积后的分辨率降至输入图像1/4的图像进行拼接，对拼接后的图像进行卷积和上采样，由1/4分辨率恢复到1/2分辨率，接着在与输入到第三条支路的卷积后的分辨率降至输入图像1/2的图像进行拼接，并对拼接后的图像继续进行卷积和上采样，分辨率恢复到输入图像的分辨率，得到特征提取结果。

需要说明的是，图2中的卷积层实际表示卷积操作，可以是一次卷积，也可以是两次卷积，还可以是多次卷积，根据实际需求进行确定，此处就不再一一赘述了。

值得一提的是，上述过程通过不断地拼接、卷积和上采样将从不同维度提取出来的人脸框图和人脸区域图像中的各种层次的特征提取出来，实现全局特征提取，使得得到的人脸框图的第一特征提取结果和人脸区域图像的第二特征提取结果能够准确、全面地反映人脸框图和人脸区域图像包含的信息，进而使得基于人脸框图的第一特征提取结果和人脸区域图像的第二特征提取结果进行的深度预测和掩码预测能够更加准确。

进一步地，对第一特征提取结果、第二特征提取结果和基于人脸框图得到的梯度图进行拼接，得到拼接结果可以包括：对第一提取结果和第二提取结果进行拼接，然后将拼接结果与基于人脸框图得到的梯度图进一步进行拼接，接着对进一步拼接得到的拼接结果进行卷积，同时对基于人脸框图得到的梯度图进行卷积，并将两次卷积得到结果进行拼接。其中，基于人脸框图得到的梯度图可以是通过Sobel算子进行梯度求解实现。

进一步地，将拼接结果输入人脸深度预测网络分支，得到深度图像；将拼接结果输入人脸掩码预测网络分支，得到人脸掩码；上述获取拼接结果以及根据拼接结果得到深度图像和人脸掩码的过程实际相当于构造了一个编辑器，编辑器内部分为两个网络分支，一个网络分支为人脸深度预测网络，一个网络分支为人脸掩码预测网络，其中，人脸深度预测网络可以是由若干的卷积层堆叠组成的网络；人脸掩码预测网络可以是由卷积层组成的对称进行降采样和上采样的网络。

步骤102，根据深度图像和人脸掩码确定损失值。

具体地说，根据深度图像确定深度损失值，根据人脸掩码确定掩码损失值，将深度损失值和掩码损失值之和确定为损失值。

在一个例子中，深度损失值包括第一深度损失值和第二深度损失值，在此情况下，根据深度图像确定深度损失值可以包括：根据深度图像中各个像素点的深度值确定第一深度损失值；求解深度图像深度值的梯度，得到深度梯度图；根据深度梯度图确定第二深度损失值。

值得一提的是，人脸中不同子区域，比如鼻子、嘴巴等，在梯度变化上具有较大差异，梯度损失值的引入，有效增强了深度预测模型输出的深度图图像中人脸在嘴巴、鼻子等不同子区域的梯度差异性，可以有效避免预测人脸深度图像的过渡平滑问题。

进一步地，根据深度图像中各个像素点的深度值确定第一深度损失值可以通过如下表达式实现：

其中，L_depth表示第一深度损失值，Z表示人脸图像对应的实际深度图像，Z^*表示人脸深度预测网络分支输出的深度图像，vec(Z)表示人脸图像对应的实际深度图像中人脸关键点坐标组成的向量，τ（vec(Z)）表示人脸图像对应的实际深度图像中人脸关键点坐标位置处的像素点的深度值组成的向量，vec(Z^*)表示人脸深度预测网络分支输出的深度图像中人脸关键点坐标组成的向量，τ^*（vec(Z^*)）表示人脸深度预测网络输出分支的深度图像中人脸关键点坐标位置处的像素点的深度值组成的向量，M表示人脸关键点的数量，smooth_L1（x）的含义如下：

值得一提的是，相对于现有的深度预测模型中经常直接使用的一范数损失函数、二范数损失函数以及smooth_L1函数，上述第一深度损失值确定过程中使用的损失函数表达式综合了一范数损失项和二范数损失项，从而综合一范数损失函数和二范数损失函数的优点，能够对异常偏移值更敏感，使得模型在训练过程中能够更快且更好地收敛，提高训练效率。并且第一深度损失值在引入smooth_L1函数之外，还针对人眼、鼻子和嘴巴区域的特征表现能力更强这一现象，额外引入了关键点损失，可以理解为第一深度损失值为全局和局部损失的结合。

进一步地，根据深度梯度图确定第二深度损失值可以通过如下表达式实现：

其中，L_grad表示第二深度损失值，N表示人脸图像的数量，δ_x表示人脸图像对应的实际深度图像和人脸深度预测网络输出的深度图像在x轴方向上的梯度差，δ_y表示人脸图像对应的实际深度图像和人脸深度预测网络输出的深度图像在y轴方向上的梯度差，特别地，δ_x和δ_y可以通过表达式

，

确定，Z_grad-x表示人脸图像对应的实际深度图像在x轴方向上的梯度，Z_grad-y表示人脸图像对应的实际深度图像在y轴方向上的梯度，Z^* _grad-x表示人脸深度预测网络输出的深度图像在x轴方向上的梯度，Z^* _grad-y表示人脸深度预测网络输出的深度图像在y轴方向上的梯度，特别地，Z_grad-x、Z_grad-y、Z^* _grad-x和Z^* _grad-y可以通过如下表达式确定：

、

、

、

，

Z（i，j）表示人脸图像对应的实际深度图像中第i行第j列的像素点的灰度值，Z^*（i，j）表示人脸深度预测网络输出的深度图像中第i行第j列的像素点的灰度值，s表示邻域跳点数。

在一个例子中，根据人脸掩码确定掩码损失值L_mask可以通过如下表达式实现：

其中，Z_mask表示人脸图像对应的实际人脸掩码，Z^* _mask表示人脸掩码预测网络分支输出的人脸掩码，

表示人脸掩码预测网络输出的人脸掩码中像素值为1时的权重，count_pixel=1表示Z_mask中像素值为1的像素点的个数，count_total表示Z_mask中包含的像素点的总个数，w＇=1-w表示人脸掩码预测网络输出的人脸掩码中像素值为0时的权重。

步骤103，根据损失值调整深度预测模型的训练参数。

在一个例子中，损失值为根据深度图像确定深度损失值和根据人脸掩码确定掩码损失值之和时，根据损失值调整深度预测模型的训练参数可以通过如下表达式实现：

min L_G（G）=λ₁*L₁ +λ₂*L₂

其中，L_G（G）为总损失函数，min表示求最小值，λ₁和λ₂为模型训练时预设的参数，且λ₁和λ₂均位于区间[0,1]内， L₁表示根据深度图像确定深度损失值，L₂表示根据人脸掩码确定掩码损失值。

在一个例子中，损失值为根据深度图像确定深度损失值和根据人脸掩码确定掩码损失值之和且深度损失值包括第一深度损失值和第二深度损失值时，根据损失值调整深度预测模型的训练参数通过如下表达式实现：

minL_G（G）==λ_d*L_depth +λ_g*L_grad+λ_m*L_mask

其中，L_G（G）为总损失函数，λ_d，λ_g和λ_m为模型训练时预设的参数，且λ_d，λ_g和λ_m均位于区间[0,1]内，L_depth、L_grad和L_mask分别为第一深度损失值、第二深度损失值和掩码损失值。

进一步地，模型训练可以是对抗训练方式，因此，步骤101之后，深度预测模型的训练方法还包括：利用判别器网络判断深度图像是否为人脸图像的真实深度图像，得到判断结果；根据判断结果确定判别器损失值。此时，步骤103包括：根据损失值和判别器损失值调整深度预测模型的训练参数。

特别地，引入对抗训练能够使得模型更加鲁棒，模型泛化能力更强。

在一个例子中，根据判断结果确定判别器损失值可以通过如下表达式实现：

其中，L_GAN表示判别器损失值，N表示人脸图像的数量，logD（Z_i）表示判别器将第i组人脸图像对应的真实深度图像判别为真实数据的概率，log（1-D（G（x_i）））表示判别器将生成器根据第i组人脸图像预测生成的深度图像判定为假数据的概率。

需要说明的是，在进行对抗训练的情况下，预设的深度预测模型可以从整体上看作一个生成器，而判别器的趋势是在不断最大化生成器的损失，生成器本身需要最小化自身的损失，并且和判别器做对抗，使其生成的预测深度图逐渐缩小和真实深度图之间的差距。因此，根据损失值和判别器损失值调整深度预测模型的训练参数可以通过如下表达式实现：

其中，L^*(G，D)为总的损失值，L_GAN(G，D)为判别器损失值，L_G (G)为生成器损失值，即通过步骤103确定的损失值，α和β为预设参数。

也就是说，此时的模型训练过程是将人脸图像输入到预设的深度预测模型中，依次通过人脸检测等网络后得到深度图像和人脸掩码，并计算模型输出的深度图像和人脸图像实际的深度图像之间的误差大小、模型输出的人脸掩码和人脸图像实际的人脸掩码之间的误差大小；接着将模型输出的深度图像和真实深度图像一同送入判别器，由判别器判断预测深度图真或假，计算判别器输出结果和实际判断结果之间的误差大小，将得到的所有误差都通过梯度回传进行参数更新，直到模型收敛即训练结束。

需要说明的是，进行参数更新的网络包括特征提取网络、人脸深度预测网络分支、人脸掩码预测网络分支和判别器。

还需要说明的是，在深度预测模型训练完毕后便得到了训练好的模型，还需要进行模型测试，在测试阶段，批量将人脸图像送入训练好的模型，批量输出预测的深度图像，然后检测输出结果是否满足要求，若是，训练完成，若否，还需要重新训练，此处就不再一一赘述了。

值得一提的是，本实施例不同于现有的使用单一损失函数项对预测深度图像求取损失函数，而是综合考虑各个方面，使用了多个损失函数项，考虑更加全面，参数调整更加准确。

本发明实施例另一方面还提供了一种人脸深度图像的生成方法，应用于需要获取人脸深度图像的电子设备中，如人脸解锁的手机等，人脸深度图像的生成方法的流程如图3所示，包括：

步骤301，获取人脸图像。

步骤302，将人脸图像输入深度预测模型并将深度预测模型中的深度预测网络分支输出的深度图像作为人脸图像对应的人脸深度图像。

需要说明的是，步骤302中使用的深度预测模型是根据如上所述的实施例中提供的深度预测模型的训练方法训练得到的，此处就不再对深度预测模型的训练过程进行赘述了。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明实施例另一方面还提供了一种深度预测模型的训练装置，如图4所示，包括：

预测模块401，用于将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支。

损失计算模块402，用于根据深度图像和人脸掩码确定损失值。

调整模块403，用于根据损失值调整深度预测模型的训练参数。

不难发现，本实施例为与深度预测模型的训练方法实施例相对应的装置实施例，本实施例可与深度预测模型的训练方法实施例互相配合实施。深度预测模型的训练方法实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在深度预测模型的训练方法实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请实施例另一方面还提供了一种人脸深度图像的生成装置，如图5所示，包括：

获取模块501，用于获取人脸图像。

生成模块502，用于将人脸图像输入深度预测模型并将深度预测模型中的深度预测网络分支输出的深度图像作为人脸图像对应的人脸深度图像。

不难发现，本实施例为与人脸深度图像的生成方法实施例相对应的装置实施例，本实施例可与人脸深度图像的生成方法实施例互相配合实施。人脸深度图像的生成方法实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在人脸深度图像的生成方法实施例中。

本申请实施例另一方面还提供了一种电子设备，如图6所示，包括：至少一个处理器601；以及，与至少一个处理器601通信连接的存储器602；其中，存储器602存储有可被至少一个处理器601执行的指令，指令被至少一个处理器601执行，以使至少一个处理器601能够执行上述方法实施例。

其中，存储器602和处理器601采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传输给处理器601。

处理器601负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器601在执行操作时所使用的数据。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种深度预测模型的训练方法，其特征在于，包括：

将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，所述深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；

根据所述深度图像和所述人脸掩码确定损失值；

根据所述损失值调整所述深度预测模型的训练参数。

2.根据权利要求1所述的深度预测模型的训练方法，其特征在于，所述深度预测模型还包括特征提取网络和训练好的人脸检测网络，所述将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，包括：

将所述人脸图像输入所述人脸检测网络，得到人脸框图和人脸区域图像；

将所述人脸框图和所述人脸区域图像输入所述特征提取网络，得到所述人脸框图的第一特征提取结果和所述人脸区域图像的第二特征提取结果；

对所述第一特征提取结果、所述第二特征提取结果和基于所述人脸框图得到的梯度图进行拼接，得到拼接结果；

将所述拼接结果输入所述人脸深度预测网络分支，得到所述深度图像；

将所述拼接结果输入所述人脸掩码预测网络分支，得到所述人脸掩码。

3.根据权利要求2所述的深度预测模型的训练方法，其特征在于，所述将所述人脸框图和所述人脸区域图像输入所述特征提取网络，得到所述人脸框图的第一特征提取结果和所述人脸区域图像的第二特征提取结果，包括：

对所述人脸框图和所述人脸区域图像进行卷积和池化，得到所述人脸框图和所述人脸区域图像各自对应的1/2分辨率图像、1/4分辨率图像和1/8分辨率图像；

对所述1/8分辨率图像进行卷积和上采样并与所述1/4分辨率图像进行拼接，得到第一拼接结果；

对所述第一拼接结果进行卷积和上采样并与所述1/2分辨率图像进行拼接，得到第二拼接结果；

对所述第二拼接结果进行卷积和上采样，得到所述第一特征提取结果和所述第二特征提取结果。

4.根据权利要求1-3中任一项所述的深度预测模型的训练方法，其特征在于，所述根据所述深度图像和所述人脸掩码确定损失值，包括：

根据所述深度图像确定深度损失值；

根据所述人脸掩码确定掩码损失值；

将所述深度损失值和所述掩码损失值之和确定为所述损失值。

5.根据权利要求4所述的深度预测模型的训练方法，其特征在于，所述深度损失值包括第一深度损失值和第二深度损失值，所述根据所述深度图像确定深度损失值包括：

根据所述深度图像中各个像素点的深度值确定所述第一深度损失值；

求解所述深度图像深度值的梯度，得到深度梯度图；

根据所述深度梯度图确定所述第二深度损失值。

6.根据权利要求1-3中任一项所述的深度预测模型的训练方法，其特征在于，所述将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码之后，所述方法还包括：

利用判别器网络判断所述深度图像是否为所述人脸图像的真实深度图像，得到判断结果；

根据判断结果确定判别器损失值；

所述根据所述损失值调整所述深度预测模型的训练参数，包括：

根据所述损失值和所述判别器损失值调整所述深度预测模型的训练参数。

7.根据权利要求6所述的深度预测模型的训练方法，其特征在于，所述根据所述损失值和所述判别器损失值调整所述深度预测模型的训练参数包括：

根据如下表达式调整所述训练参数：

其中，L^*(G，D)为总的损失值，L_GAN(G，D)为所述判别器损失值，L_G (G)为所述损失值，α和β为预设参数。

8.一种人脸深度图像的生成方法，其特征在于，包括：

获取人脸图像；

将所述人脸图像输入深度预测模型并将所述深度预测模型中的深度预测网络分支输出的深度图像作为所述人脸图像对应的人脸深度图像，所述深度预测模型是根据如权利要求1-7中任一项所述的深度预测模型的训练方法训练得到的。

9.一种深度预测模型的训练装置，其特征在于，包括：

预测模块，用于将人脸图像输入预设的深度预测模型，得到深度图像和人脸掩码，所述深度预测模型至少包括人脸深度预测网络分支和人脸掩码预测网络分支；

损失计算模块，用于根据所述深度图像和所述人脸掩码确定损失值；

调整模块，用于根据所述损失值调整所述深度预测模型的训练参数。

10.一种人脸深度图像的生成装置，其特征在于，包括：

获取模块，用于获取人脸图像；

生成模块，用于将所述人脸图像输入深度预测模型并将所述深度预测模型中的深度预测网络分支输出的深度图像作为所述人脸图像对应的人脸深度图像，所述深度预测模型是根据如权利要求1-7中任一项所述的深度预测模型的训练方法训练得到的。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的深度预测模型的训练方法，或者，执行如权利要求8所述的人脸深度图像的生成方法。

12.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的深度预测模型的训练方法，或者，实现如权利要求8所述的人脸深度图像的生成方法。