CN108921131B

CN108921131B - 一种生成人脸检测模型、三维人脸图像的方法及装置

Info

Publication number: CN108921131B
Application number: CN201810837109.9A
Authority: CN
Inventors: 侯晓楠; 邱雪涛; 万四爽
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2022-05-24
Anticipated expiration: 2038-07-26
Also published as: CN108921131A

Abstract

本发明实施例提供了一种生成人脸检测模型、三维人脸图像的方法及装置，包括：以预先标记了人脸检测框的训练视频为训练样本对神经网络模型进行训练，得到人脸检测模型，神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的。采用人脸检测模型确定待检测视频中各帧待检测图像中的人脸检测框，根据待检测视频中各帧待检测图像中的人脸检测框生成待检测视频对应的三维人脸图像。由于每帧训练图像的损失函数与训练图像的帧约束图像相关，故人脸检测模型在检测视频中待检测图像的人脸检测框时，结合待检测图像与帧约束图像之间的关系，从而减少了各待检测图像中人脸检测框的抖动，提高了构建的三维人脸图像的精度。

Description

一种生成人脸检测模型、三维人脸图像的方法及装置

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种生成人脸检测模型、三维人脸图像的方法及装置。

背景技术

目前，在金融支付领域，基于人脸识别的实名认证方式因具有准确率高、客户体验好的优点，正逐步成为金融支付领域重要的辅助认证方式。然而，在实际应用过程中，采用2D人脸图像进行识别时，结果受光照、遮挡、姿态等因素的影响大，导致识别率较低。相较于2D人脸图像而言，3D人脸图像包含人脸的空间信息，因此采用3D人脸图像来做人脸识别比采用2D人脸图像做人脸识别具有更好的鲁棒性以及更高的精度。但是采用现有的人脸检测算法从2D图像中检测出人脸图像后，根据人脸图像构建的3D人脸图像出现抖动的问题，导致构建3D人脸图像的精度较低。

发明内容

由于采用现有的人脸检测算法检测出的人脸图像构建三维人脸图像时出现抖动，导致构建三维人脸图像的精度较低的问题，本发明实施例提供了一种生成人脸检测模型、三维人脸图像的方法及装置。

第一方面，本发明实施例提供了一种生成人脸检测模型的方法，包括：

获取多个训练视频，所述训练视频包括多帧连续的训练图像，所述训练图像预先标记了人脸检测框；

以所述训练视频为训练样本对神经网络模型进行训练；

针对每个训练视频，确定所述训练视频中各帧训练图像的损失函数；其中，每帧训练图像的损失函数是根据所述训练图像中预先标记的人脸检测框、所述神经网络模型预测输出的所述训练图像中的人脸检测框以及所述神经网络模型预测输出的所述训练图像的帧约束图像中的人脸检测框确定的；所述训练图像的帧约束图像为所述训练视频中与所述训练图像相邻的N帧图像，N为大于0的整数；

根据所述训练视频中各帧训练图像的损失函数确定所述神经网络模型的损失函数；

最小化所述神经网络模型的损失函数，得到人脸检测模型。

由于在对神经网络模型进行训练时，以多个训练视频为训练样本，根据训练视频中各帧训练图像的损失函数确定神经网络模型的损失函数，故训练出的人脸检测模型适用于检测由多帧图像组成的视频。

可选地，所述每帧训练图像的损失函数是根据所述训练图像中预先标记的人脸检测框、所述神经网络模型预测输出的所述训练图像中的人脸检测框以及所述神经网络模型预测输出的所述训练图像的帧约束图像中的人脸检测框确定的，包括：

针对所述训练视频中的每帧训练图像，将所述训练视频中与所述训练图像相邻的且位于所述训练图像之前的N帧训练图像确定为所述训练图像的帧约束图像；

确定所述神经网络模型预测输出的所述训练图像中的人脸检测框与所述训练图像中预先标记的人脸检测框之间的第一距离；

确定所述神经网络模型预测输出的所述训练图像中的人脸检测框分别与所述神经网络模型预测输出的每一帧帧约束图像中的人脸检测框之间的第二距离；

根据所述第一距离与所述第二距离确定所述训练图像的损失函数。

第二方面，本发明实施例提供了一种生成三维人脸图像的方法，包括：

从图像采集装置采集的视频中获取待检测视频，所述待检测视频中包括多帧待检测图像；

采用人脸检测模型确定所述待检测视频中各帧待检测图像中的人脸检测框，所述人脸检测模型是以包括多帧连续的训练图像的训练视频为训练样本对神经网络模型进行训练确定的，所述神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的，所述训练图像预先标记了人脸检测框；

根据所述待检测视频中各帧待检测图像中的人脸检测框生成所述待检测视频对应的三维人脸图像。

第三方面，本发明实施例提供了一种生成人脸检测模型的装置，包括：

第一获取模块，用于获取多个训练视频，所述训练视频包括多帧连续的训练图像，所述训练图像预先标记了人脸检测框；

训练模块，用于以所述训练视频为训练样本对神经网络模型进行训练；针对每个训练视频，确定所述训练视频中各帧训练图像的损失函数；其中，每帧训练图像的损失函数是根据所述训练图像中预先标记的人脸检测框、所述神经网络模型预测输出的所述训练图像中的人脸检测框以及所述神经网络模型预测输出的所述训练图像的帧约束图像中的人脸检测框确定的；所述训练图像的帧约束图像为所述训练视频中与所述训练图像相邻的N帧图像，N为大于0的整数；根据所述训练视频中各帧训练图像的损失函数确定所述神经网络模型的损失函数；最小化所述神经网络模型的损失函数，得到人脸检测模型。

可选地，所述训练模块具体用于：

第四方面，本发明实施例提供了一种生成三维人脸图像的装置，包括：

第二获取模块，从图像采集装置采集的视频中获取待检测视频，所述待检测视频中包括多帧待检测图像；

检测模块，用于采用人脸检测模型确定所述待检测视频中各帧待检测图像中的人脸检测框，所述人脸检测模型是以包括多帧连续的训练图像的训练视频为训练样本对神经网络模型进行训练确定的，所述神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的，所述训练图像预先标记了人脸检测框；

处理模块，用于根据所述待检测视频中各帧待检测图像中的人脸检测框生成所述待检测视频对应的三维人脸图像。

第五方面，本发明实施例提供了一种电子设备，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述任一所述方法的步骤。

第六方面，本发明实施例提供了一种计算机可读介质，其存储有可由电子设备执行的计算机程序，当所述程序在电子设备上运行时，使得所述电子设备执行上述任一所述方法的步骤。

本发明实施例中，由于在训练神经网络模型确定人脸检测模型时，根据训练视频中各帧训练图像的损失函数确定神经网络模型的损失函数，而每帧训练图像的损失函数与训练图像的帧约束图像相关，故在采用人脸检测模型确定待检测视频中每帧图像的人脸检测框时，结合待检测图像与帧约束图像之间的关系，从而减少了各待检测图像中人脸检测框的抖动。当采用待检测视频中各帧待检测图像中的人脸检测框构建三维人脸图像时，由于待检测图像之间的抖动减少，使得构建的三维人脸图像的精度更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种生成人脸检测模型的方法的流程示意图；

图2为本发明实施例提供的一种人脸检测框的示意图；

图3为本发明实施例提供的确定训练图像的损失函数的方法的流程示意图；

图4为本发明实施例提供的一种生成三维人脸图像的方法的流程示意图；

图5为本发明实施例提供的一种生成人脸检测模型的装置的结构示意图；

图6为本发明实施例提供的一种生成三维人脸图像的装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在具体实践过程中，本发明的发明人发现，采用现有的人脸检测算法对视频进行人脸检测的时候，会出现人脸检测框抖动的问题。由于视频中各帧图像中的人脸检测框出现抖动，根据人脸检测框直接构建三维人脸图像时，导致构建出的三维人脸图像精度不足，无法满足三维人脸识别、面部表情变化捕捉等对精度的要求。

为此，本发明实施例中以包括多帧连续的预先标记了人脸检测框的训练图像的训练视频为训练样本对神经网络模型进行训练确定人脸检测模型，其中该人脸检测模型的损失函数是根据训练视频中的各帧训练图像的损失函数确定的。然后采用人脸检测模型确定待检测视频中各帧待检测图像中的人脸检测框，之后再根据待检测视频中各帧待检测图像中的人脸检测框生成待检测视频对应的3D人脸图像。由于在训练神经网络模型确定人脸检测模型时，根据训练视频中各帧训练图像的损失函数确定神经网络的损失函数，考虑了训练视频中各帧训练图像之间的关系，故采用人脸检测模型确定待检测视频中待检测图像的人脸检测框时，结合了该待检测图像与待检测视频中其它待检测图像之间的关系，从而减少了待检测视频中各待检测图像的人脸检测框之间的抖动，提高了构建三维人脸图像的精度。

本发明实施例中的技术方案适用于金融行业中基于三维人脸识别对用户进行实名制认证，也适用于支付业务中基于三维人脸识别进行支付，还适用于安防业务中基于三维人脸识别对监控视频中的人物进行追踪等等。

图1例性示出了本发明实施例提供的一种生成人脸检测模型的方法的流程，该流程可以由生成人脸检测模型的装置执行，如图1所示，该流程的具体步骤包括：

步骤S101，获取多个训练视频，训练视频包括多帧连续的训练图像，训练图像预先标记了人脸检测框。

训练视频可以为视频采集设备采集任意视频，也可以是视频采集设备采集的视频中截取的包含人脸的视频段。获取训练视频之后，人工标记训练视频中每帧训练图像中的人脸检测框。示例性地，人脸检测框如图2所示，图2中框选人脸的黑色边框即为人脸检测框。

步骤S102，以训练视频为训练样本对神经网络模型进行训练。

步骤S103，针对每个训练视频，确定训练视频中各帧训练图像的损失函数。

每帧训练图像的损失函数是根据训练图像中预先标记的人脸检测框、神经网络模型预测输出的训练图像中的人脸检测框以及神经网络模型预测输出的训练图像的帧约束图像中的人脸检测框确定的，训练图像的帧约束图像为训练视频中与训练图像相邻的N帧图像，N为大于0的整数。

在一种可能的实施方式中，训练图像的帧约束图像可以是训练视频中与训练图像相邻的且位于训练图像之前的N帧图像，N为大于0的整数。示例性地，训练视频包括4帧训练图像，分别为训练图像1、训练图像2、训练图像3以及训练图像4，N为2。在该训练视频中，训练图像1没有帧约束图像，训练图像2的帧约束图像为训练图像1，训练图像3的帧约束图像为训练图像1和训练图像2，训练图像4的帧约束图像为训练图像2和训练图像3。

在一种可能的实施方式中，训练图像的帧约束图像可以是训练视频中与训练图像相邻的且位于训练图像之后的N帧图像，N为大于0的整数。示例性地，训练视频包括4帧训练图像，分别为训练图像1、训练图像2、训练图像3以及训练图像4，N为2。在该训练视频中，训练图像1的帧约束图像为训练图像2和训练图像3，训练图像2的帧约束图像为训练图像3和训练图像4，训练图像3的帧约束图像为训练图像4，训练图像4没有帧约束图像。

在一种可能的实施方式中，训练图像的帧约束图像可以是训练视频中与训练图像相邻的且位于训练图像之前和之后的N帧图像，N为大于0的整数。示例性地，训练视频包括4帧训练图像，分别为训练图像1、训练图像2、训练图像3以及训练图像4，N为2。在该训练视频中，训练图像1的帧约束图像为训练图像2，训练图像2的帧约束图像为训练图像1和训练图像3，训练图像3的帧约束图像为训练图像2和训练图像4，训练图像4的帧约束图像为训练图像1。

步骤S104，根据训练视频中各帧训练图像的损失函数确定神经网络模型的损失函数。

具体实施中，至少包括以下两种实施方式：

在一种可能的实施方式中，将训练视频中各帧训练图像的损失函数之和确定为神经网络模型的损失函数。

示例性地，设定训练视频中包括3帧训练图像，分别为训练图像A、训练图像B以及训练图像C。分别计算三帧训练图像的损失函数，得到R(v₁)、R(v₂)、R(v₃)，则神经网络模型的损失函数S＝R(v₁)+R(v₂)+R(v₃)。

在另一种可能的实施方式中，将训练视频中各帧训练图像的损失函数加权求和确定神经网络模型的损失函数。

示例性地，设定训练视频中包括3帧训练图像，分别为训练图像A、训练图像B以及训练图像C。分别计算三帧训练图像的损失函数，得到R(v₁)、R(v₂)、R(v₃)，则神经网络模型的损失函数S＝k₁R(v₁)+k₂R(v₂)+k₃R(v₃)，其中k₁、k₂、k₃为加权系数。

步骤S105，最小化神经网络模型的损失函数，得到人脸检测模型。

神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的。由于在训练神经网络模型确定人脸检测模型时，根据训练视频中各帧训练图像的损失函数确定神经网络模型的损失函数，故采用训练得到的人脸检测模型检测视频中图像的人脸检测框时，会结合当前帧图像与视频中其它图像之间的关系对当前帧图像进行人脸检测，从而减小了视频各帧图像中的人脸检测框的抖动。

可选地，在步骤S103中，训练图像的帧约束图像是训练视频中与训练图像相邻的且位于训练图像之前的N帧图像时，根据训练图像中预先标记的人脸检测框、神经网络模型预测输出的训练图像中的人脸检测框以及神经网络模型预测输出的训练图像的帧约束图像中的人脸检测框确定每帧训练图像的损失函数，具体包括以下步骤，如图3所示：

步骤S301，针对训练视频中的每帧训练图像，将训练视频中与训练图像相邻的且位于训练图像之前的N帧训练图像确定为训练图像的帧约束图像。

步骤S302，确定神经网络模型预测输出的训练图像中的人脸检测框与训练图像中预先标记的人脸检测框之间的第一距离。

具体的，距离可以是欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离等等。

示例性地，设定第一距离为欧式距离，人脸检测框的位置向量为v_i＝[x_i，y_i，w_i，h_i]，其中(x_i，y_i)为人脸检测框左上角的坐标，w_i和h_i为人脸检测框的宽和高。针对训练视频中第i帧训练图像，神经网络模型预测输出的第i帧训练图像中的人脸检测框与第i帧训练图像中预先标记的人脸检测框之间的欧式距离满足下述公式(1)：

其中，

为神经网络模型预测输出的第i帧训练图像中的人脸检测框的位置向量，

第i帧训练图像中预先标记的人脸检测框的位置向量。

示例性地，设定预先标记的人脸检测框对应的位置向量为v^*＝[x^*，y^*，w^*，h^*]，神经网络模型预测输出的训练图像中的人脸检测框对应的位置向量为v^u＝[x^u，y^u，w^u，h^u]。与预先标记的人脸检测框最近的锚检测框为v^a＝[x^a，y^a，w^a，h^a]。第一距离为分类的Softmax(柔性最大值传输函数)损失项以及用于检测框回归的损失项之和，具体满足下述公式(2):

其中，p＝(p₀,p₁)为“是人脸”和“不是人脸”的概率，u为类标签，

和t_i ^*为人脸检测框的回归补偿，

满足：

满足：

步骤S303，确定神经网络模型预测输出的训练图像中的人脸检测框分别与神经网络模型预测输出的每一帧帧约束图像中的人脸检测框之间的第二距离。

示例性地，设定第二距离为欧式距离，设定N为2，针对训练视频中第i帧训练图像，帧约束图像为第i-1帧训练图像和第i-2帧训练图像，则神经网络模型预测输出的第i帧训练图像中的人脸检测框与神经网络模型预测输出的第i-1帧训练图像中的人脸检测框之间的欧式距离符合下述公式(3)：

其中，

为神经网络模型预测输出的第i-1帧训练图像中的人脸检测框的位置向量。

神经网络模型预测输出的第i帧训练图像中的人脸检测框与神经网络模型预测输出的第i-2帧训练图像中的人脸检测框之间的欧式距离符合下述公式(4)：

其中，

为神经网络模型预测输出的第i-2帧训练图像中的人脸检测框的位置向量。

步骤S304，根据第一距离与所述第二距离确定训练图像的损失函数。

可选地，将第一距离与第二距离直接求和确定训练图像的损失函数，也可将第一距离与第二距离加权求和确定训练图像的损失函数。

示例性地，设定第一距离和第二距离均为欧式距离，N为2，将第一距离与第二距离加权求和确定训练图像的损失函数符合下述公式(5)：

其中，S_i为训练图像的损失函数，δ为加权系数。

示例性地，设定第一距离为分类的Softmax损失项以及用于检测框回归的损失项之和，第二距离为欧式距离，N为2，将第一距离与第二距离加权求和确定训练图像的损失函数符合下述公式(6)：

其中，S_i为训练图像的损失函数，δ为加权系数。

需要说明的是，训练图像的帧约束图像是训练视频中与训练图像相邻的且位于训练图像之后的N帧图像，或者训练图像的帧约束图像是训练视频中与训练图像相邻的且位于训练图像之前和之后的N帧图像这两种情况相较于训练图像的帧约束图像是训练视频中与训练图像相邻的且位于训练图像之前的N帧图像这种情况来说，确定每帧训练图像的损失函数时，除确定的帧约束图像不同之后，其余过程相同，此处不再赘述。

为了更好的解释本发明实施例，下面结合具体的实施场景描述本发明实施例提供的一种生成人脸检测模型的方法，设定获取多个训练视频，训练视频中包括4帧训练图像，分别为训练图像1、训练图像2、训练图像3以及训练图像4。训练图像预先标记了人脸检测框。训练图像的帧约束图像为训练视频中与训练图像相邻的且位于训练图像之前的2帧训练图像，加权系数δ为0.01，神经网络模型为多任务级联卷机神经网络(Multi-taskCascaded Convolutional Networks，简称MTCNN)，该框架分为三阶级联卷积神经网络，每个阶段处理三个任务：人脸/非人脸判定、人脸框回归和特征点定位。采用多个训练视频对MTCNN进行训练，在训练过程中，采用公式(1)、(3)、(4)(5)计算训练视频中4帧训练图像的损失函数，分别为：

训练图像1的损失函数为：

训练图像2的损失函数为：

训练图像3的损失函数为：

训练图像4的损失函数为：

将训练视频中4帧训练图像的损失函数求和确定训练视频的损失函数为：

M＝S₁+S₂+S₃+S₄

最小化M的取值，得到人脸检测模型。

由于在确定训练视频中每帧训练图像的损失函数时，不仅考虑了训练图像中神经网络模型预测输出的人脸检测框与预先标记的人脸检测框之间的距离，同时结合了神经网络模型预测输出的训练图像的人脸检测框与神经网络模型预测输出的帧约束图像中的人脸检测框之间的距离，故根据每帧训练图像的损失函数确定神经网络模型的损失函数时，通过训练神经网络模型确定的人脸检测模型在检测视频中图像的人脸检测框时，会结合视频中各帧图像之间的对应关系，从而能有效减少从视频中检测出的人脸检测框之间的抖动，进一步提高构建三维人脸图像的精度。

图4例性示出了本发明实施例提供的一种生成三维人脸图像的方法的流程，该流程可以由生成三维人脸图像的装置执行，如图4所示，该流程的具体步骤包括：

步骤S401，从图像采集装置采集的视频中获取待检测视频。

图像采集装置可以是摄像头、录像机、摄像机等等。待检测视频中包括多帧待检测图像，待检测视频中的多帧待检测图像可以是图像采集装置采集的视频中的所有图像，也可以是图像采集装置采集的视频中的部分图像。

步骤S402，采用人脸检测模型确定待检测视频中各帧待检测图像中的人脸检测框。

人脸检测模型是以包括多帧连续的训练图像的训练视频为训练样本对神经网络模型进行训练确定的，神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的，训练图像预先标记了人脸检测框。

步骤S403，根据待检测视频中各帧待检测图像中的人脸检测框生成待检测视频对应的三维人脸图像。

具体地，采用待检测视频中检测出的各个人脸检测框中的人脸图像构建三维人脸图像。具体在构建三维人脸图像时，可以基于3D形变模型构建三维人脸图像，也可以基于回归框架构建三维人脸图像。

由于在训练神经网络模型确定人脸检测模型时，将训练视频中各帧训练图像的损失函数确定为神经网络模型的损失函数，而每帧训练图像的损失函数与训练图像的帧约束图像相关，故在采用人脸检测模型确定待检测视频中每帧图像的人脸检测框时，结合待检测图像与帧约束图像之间的关系，从而减少了各待检测图像中人脸检测框的抖动。当采用待检测视频中各帧待检测图像中的人脸检测框构建三维人脸图像时，由于待检测图像之间的抖动减少，使得构建的三维人脸图像的精度更高。

基于相同的技术构思，本发明实施例提供了一种生成人脸检测模型的装置，如图5所示，该装置500包括：第一获取模块501、训练模块502。

第一获取模块501，用于获取多个训练视频，所述训练视频包括多帧连续的训练图像，所述训练图像预先标记了人脸检测框；

训练模块502，用于以所述训练视频为训练样本对神经网络模型进行训练；针对每个训练视频，确定所述训练视频中各帧训练图像的损失函数；其中，每帧训练图像的损失函数是根据所述训练图像中预先标记的人脸检测框、所述神经网络模型预测输出的所述训练图像中的人脸检测框以及所述神经网络模型预测输出的所述训练图像的帧约束图像中的人脸检测框确定的；所述训练图像的帧约束图像为所述训练视频中与所述训练图像相邻的N帧图像，N为大于0的整数；根据所述训练视频中各帧训练图像的损失函数确定所述神经网络模型的损失函数；最小化所述神经网络模型的损失函数，得到人脸检测模型。

可选地，所述训练模块502具体用于：

基于相同的技术构思，本发明实施例提供了一种生成三维人脸图像的装置，如图6所示，该装置600包括：第二获取模块601、检测模块602、处理模块603。

第二获取模块601，从图像采集装置采集的视频中获取待检测视频，所述待检测视频中包括多帧待检测图像；

检测模块602，用于采用人脸检测模型确定所述待检测视频中各帧待检测图像中的人脸检测框，所述人脸检测模型是以包括多帧连续的训练图像的训练视频为训练样本对神经网络模型进行训练确定的，所述神经网络模型的损失函数是根据训练视频中各帧训练图像的损失函数确定的，所述训练图像预先标记了人脸检测框；

处理模块603，用于根据所述待检测视频中各帧待检测图像中的人脸检测框生成所述待检测视频对应的三维人脸图像。

基于相同的技术构思，本发明实施例提供了一种电子设备，如图7所示，包括至少一个处理器701，以及与至少一个处理器连接的存储器702，本发明实施例中不限定处理器701与存储器702之间的具体连接介质，图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本发明实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行前述的生成人脸检测模型的方法以及生成三维人脸图像的方法中所包括的步骤。

其中，处理器701是电子设备的控制中心，可以利用各种接口和线路连接电子设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，从而生成人脸检测模型以及生成三维人脸图像。可选的，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本发明实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本发明实施例提供了一种计算机可读介质，其存储有可由电子设备执行的计算机程序，当所述程序在电子设备上运行时，使得所述电子设备执行生成人脸检测模型的方法以及生成三维人脸图像的方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种生成人脸检测模型的方法，其特征在于，包括：

以所述训练视频为训练样本对神经网络模型进行训练；

最小化所述神经网络模型的损失函数，得到人脸检测模型。

2.如权利要求1所述的方法，其特征在于，所述每帧训练图像的损失函数是根据所述训练图像中预先标记的人脸检测框、所述神经网络模型预测输出的所述训练图像中的人脸检测框以及所述神经网络模型预测输出的所述训练图像的帧约束图像中的人脸检测框确定的，包括：

3.一种生成三维人脸图像的方法，其特征在于，包括：

采用人脸检测模型确定所述待检测视频中各帧待检测图像中的人脸检测框，其中，所述人脸检测模型是采用权利要求1或2所述的方法获得的；

4.一种生成人脸检测模型的装置，其特征在于，包括：

5.如权利要求4所述的装置，其特征在于，所述训练模块具体用于：

6.一种生成三维人脸图像的装置，其特征在于，包括：

检测模块，用于采用人脸检测模型确定所述待检测视频中各帧待检测图像中的人脸检测框，其中，所述人脸检测模型是采用权利要求4或5所述的装置获得的；

7.一种电子设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～2或3任一权利要求所述方法的步骤。

8.一种计算机可读介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在电子设备上运行时，使得所述电子设备执行权利要求1～2或3任一所述方法的步骤。