CN112101109A

CN112101109A - 人脸关键点检测模型训练方法、装置、电子设备和介质

Info

Publication number: CN112101109A
Application number: CN202010802918.3A
Authority: CN
Inventors: 张阿强
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-12-18
Anticipated expiration: 2040-08-11
Also published as: CN112101109B

Abstract

本申请公开了一种人脸关键点检测模型训练方法、装置、电子设备和介质。其中方法包括：获取多个样本人脸视频流，一个所述样本人脸视频流包括一个人脸的多张视频帧，且在所述人脸保持静止状态时采集；采用第一人脸关键点模型，对样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得每一视频帧的预测人脸关键点；根据预测人脸关键点，确定每个样本人脸视频流对应的一组人脸关键点坐标，一个样本人脸视频流对应的一组人脸关键点坐标用于表示样本人脸视频流的每一视频帧的人脸关键点位置；根据样本人脸视频流和对应的人脸关键点坐标，对第一人脸关键点模型进行训练，获得第二人脸关键点模型。

Description

人脸关键点检测模型训练方法、装置、电子设备和介质

技术领域

本发明涉及计算机视觉技术领域，尤其是涉及一种人脸关键点检测模型训练方法、装置、电子设备和介质。

背景技术

目前越来越多的终端场景应用到人脸关键点，尤其是视频流应用上，常常需要实时预测人脸关键点，需要人脸关键点检测模型足够小，数据处理足够快。然而小模型在视频流的处理上，当人脸静止时检测出关键点会出现抖动现象，这使得基于关键点检测的一些场景应用变得困难，比如AR试妆，如果关键点抖动，那么试妆的效果就会抖动，无法准确显示在人脸的特定位置，影响展示效果。

发明内容

本申请提供了一种人脸关键点检测模型训练方法、装置、电子设备和介质。

第一方面，提供了一种人脸关键点检测模型训练方法，包括：

获取多个样本人脸视频流，一个所述样本人脸视频流包括一个人脸的多张视频帧，所述样本人脸视频流在所述人脸保持静止状态时采集；

采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得所述每一视频帧的预测人脸关键点；

根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一组人脸关键点坐标，一个所述样本人脸视频流对应的一组人脸关键点坐标用于表示所述样本人脸视频流的每一视频帧的人脸关键点位置；

根据所述样本人脸视频流和所述每个样本人脸视频流对应的人脸关键点坐标，对所述第一人脸关键点模型进行训练，获得第二人脸关键点模型。

在一种可选的实施方式中，所述根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一组人脸关键点坐标，包括：

对一个所述样本人脸视频流的全部视频中同一关键点标识对应的预测人脸关键点坐标取平均值，获得所述全部视频中每个关键点标识对应的平均坐标值；

将所述全部视频中每个关键点标识对应的平均坐标值确定为所述一个样本人脸视频流对应的一组人脸关键点坐标，以获得所述每个样本人脸视频流对应的一组人脸关键点坐标。

在一种可选的实施方式中，所述根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一个人脸关键点坐标，包括：

在一个所述样本人脸视频流的全部视频中同一关键点标识对应的预测人脸关键点坐标中，取中间值，获得所述全部视频中每个关键点标识对应的中间坐标值；

将所述全部视频中每个关键点标识对应的中间坐标值确定为所述一个样本人脸视频流对应的一组人脸关键点坐标，以获得所述每个样本人脸视频流对应的一组人脸关键点坐标。

在一种可选的实施方式中，所述采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得所述每一视频帧的预测人脸关键点，包括：

使用人脸检测算法对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行人脸检测，获得所述每一视频帧中的人脸检测框；

采用所述第一人脸关键点模型，预测所述每一视频帧中的人脸检测框的人脸关键点，获得所述每一视频帧的预测人脸关键点。

在一种可选的实施方式中，所述采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测之前，所述方法还包括：

获取样本人脸数据，所述样本人脸数据包括多个人物的多张人脸图像，所述人脸图像有对应的人脸关键点标记，所述多个人物中每个人物的多张人脸图像包括不同姿态的人脸；

使用所述样本人脸数据进行关键点模型训练，获得所述第一人脸关键点模型。

在一种可选的实施方式中，所述根据所述样本人脸视频流和所述每个样本人脸视频流对应的人脸关键点坐标，对所述第一人脸关键点模型进行训练，获得第二人脸关键点模型，包括：

根据所述样本人脸视频流和所述每个样本人脸视频流对应的人脸关键点坐标，以及所述样本人脸数据，对所述第一人脸关键点模型进行训练，获得所述第二人脸关键点模型。

在一种可选的实施方式中，所述获得第二人脸关键点模型之后，所述方法还包括：

获取人脸视频流，所述人脸视频流包括一个人脸的多张视频帧，所述人脸视频流在所述人脸保持静止状态时采集；

采用所述第二人脸关键点模型对所述人脸视频流中的多张视频帧进行关键点预测，获得所述人脸视频流对应的人脸关键点坐标，将所述人脸视频流对应的人脸关键点坐标作为所述人脸视频流中每一视频帧的人脸关键点坐标。

第二方面，提供了一种人脸关键点检测模型训练装置，包括：

获取模块，用于获取多个样本人脸视频流，一个所述样本人脸视频流包括一个人脸的多张视频帧，所述样本人脸视频流在所述人脸保持静止状态时采集；

关键点预测模块，用于采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得所述每一视频帧的预测人脸关键点；

标注模块，用于根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一组人脸关键点坐标，一个所述样本人脸视频流对应的一组人脸关键点坐标用于表示所述样本人脸视频流的每一视频帧的人脸关键点位置；

训练模块，用于根据所述样本人脸视频流和所述每个样本人脸视频流对应的人脸关键点坐标，对所述第一人脸关键点模型进行训练，获得第二人脸关键点模型。

第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如第一方面及其任一种可能的实现方式的步骤。

第四方面，提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如上述第一方面及其任一种可能的实现方式的步骤。

本申请通过获取多个样本人脸视频流，一个上述样本人脸视频流包括一个人脸的多张视频帧，上述样本人脸视频流在上述人脸保持静止状态时采集，采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得上述每一视频帧的预测人脸关键点，根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的人脸关键点坐标，一个上述样本人脸视频流对应的人脸关键点坐标用于表示上述样本人脸视频流的每一视频帧的人脸关键点位置，根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，对上述第一人脸关键点模型进行训练，获得第二人脸关键点模型；其中通过使用训练好的第一人脸关键点模型对样本人脸视频流进行预测，得到视频流中每帧的关键点标注，再根据获得每帧的关键点标注，确定一个视频流的关键点标注，使一个视频流每一帧具有相同的关键点，并且不同的人的每一个关键点具有一致性；通过再标注的、使用静止状态的人脸的视频流对模型进行训练，使得训练得到的模型能够学习到视频流中每帧人脸图像的关键点的一致性，从而在检测人脸静止的视频流能够保持预测关键点的稳定性，消除抖动。不需要依靠大量的人工标注样本数据，减少人工成本，也不需要一些方法中通过结合视频流中前后两帧的关键点进行去抖动，处理更简单且有效。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种人脸关键点检测模型训练方法的流程示意图；

图2为本申请实施例提供的一种人脸关键点检测方法的流程示意图；

图3为本申请实施例提供的一种人脸关键点检测模型训练装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例中涉及的神经网络(Neural Networks，NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种人脸关键点检测模型训练方法的流程示意图。该方法可包括：

101、获取多个样本人脸视频流，一个上述样本人脸视频流包括一个人脸的多张视频帧，上述样本人脸视频流在上述人脸保持静止状态时采集。

本申请实施例的执行主体可以为一种人脸关键点检测模型训练装置，可以为电子设备，具体实现中，上述电子设备可以为一种终端，也可称为终端设备，包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，上述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

人脸关键点检测是人脸识别和分析领域中的关键一步，它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。本申请实施例中通过采集的样本人脸数据训练关键点检测模型。具体的，可以获取上述多个样本人脸视频流，可以预先采集不同人的人脸静止的视频流，每人每个视频流可以包含几十张以上的人脸视频帧，其中，每个人脸可以是不同的角度，但每一个视频流中的人脸需保持静止。

102、采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得上述每一视频帧的预测人脸关键点。

具体的，上述第一人脸关键点模型可以是任意一种预先训练的、可用于关键点检测的模型。一般的，为了建立人脸关键点检测模型，需要标有特征点的大量人脸图象(包括多个人的不同表情和姿态)作为训练数据。特征点可以标记在脸的外部轮廓和器官的边缘。可以使用关键点标识表示不同的关键点，需要注意的是各个标定点的顺序在训练集中的各张图像需要一致。本申请实施例中的第一人脸关键点模型可以包括使用已标注的人脸关键点数据训练好的人脸关键点检测模型。

上述关键点预测即人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，定位出人脸面部的关键区域位置，如包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。

采用上述第一人脸关键点模型对上述每一视频帧进行关键点预测，获得每一视频帧的预测人脸关键点，具体可以包括每个关键点坐标。

在一种实施方式中，上述步骤102可以包括：

使用人脸检测算法对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行人脸检测，获得上述每一视频帧中的人脸检测框；

采用上述第一人脸关键点模型，预测上述每一视频帧中的人脸检测框的人脸关键点，获得上述每一视频帧的预测人脸关键点。

具体的，可以使用任意常用的人脸检测算法对样本人脸视频流中的每一帧进行人脸检测，得到每一视频帧对应的人脸框，其中上述人脸检测算法可以使用如dlib、MTCNN(Multi-task Cascaded Convolutional Network)、ResNet10-SSD 等，本申请实施例对此不做限制。然后可以根据人脸检测框，使用上述训练好的第一人脸关键点模型，预测每一个检测框的人脸关键点。

103、根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的一组人脸关键点坐标，一个上述样本人脸视频流对应的一组人脸关键点坐标用于表示上述样本人脸视频流的每一视频帧的人脸关键点位置。

其中，每个样本人脸视频流对应的一组关键点坐标对应于一组人脸关键点，该一组人脸关键点指的是通过关键点检测的方式检测到的用于表征人脸中的各个位置的关键点。可以理解的是，对于其中一个样本人脸视频流，该样本人脸视频流中的各个视频帧对应同一组人脸关键点坐标。

具体的，对于一个视频流的人脸，可以根据其中视频帧的预测人脸关键点，确定一组人脸关键点坐标，来代表该样本人脸视频流的每一视频帧的人脸关键点位置，比如通过预设的规则计算出一组人脸关键点坐标或者从所有帧中选取一帧的人脸关键点坐标作为该样本人脸视频流对应的一组人脸关键点坐标。该步骤可以理解为对每个视频流进行标注，对于其中一个视频流中的不同视频帧，通过同一组人脸关键点坐标来对每一视频帧进行标注。

在一种可选的实施方式中，上述根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的一组人脸关键点坐标，包括：

对一个上述样本人脸视频流的全部视频中同一关键点标识对应的预测人脸关键点坐标取平均值，获得上述全部视频中每个关键点标识对应的平均坐标值；

将上述全部视频中每个关键点标识对应的平均坐标值确定为上述一个样本人脸视频流对应的一组人脸关键点坐标，以获得上述每个样本人脸视频流对应的一组人脸关键点坐标。

上述方法表示，对于一个样本人脸视频流来讲，可以求取每一个视频流中所有视频帧的人脸关键点坐标的平均值，作为该视频流每一帧的人脸关键点标注。可以理解为，人脸图像中相同关键点标识所表示的关键点是同一人脸位置的关键点，则具体可以将全部视频中同一关键点标识对应的预测人脸关键点坐标取平均值，以获得上述全部视频中每个关键点标识对应的平均坐标值，则获得的每个关键点标识对应的平均坐标值即为该样本人脸视频流对应的一组人脸关键点坐标。通过上述步骤对每个样本人脸视频流进行处理，可以获得每个样本人脸视频流对应的一组人脸关键点坐标。

通过使用训练好的人脸关键点模型，对人脸静止的视频流进行预测，并使用人脸关键点均值坐标作为视频流中每一帧的标注，可以使视频流中的每一帧具有相同的关键点，并且不同的人的每一个关键点具有一致性。

在一种可选的实施方式中，上述根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的一个人脸关键点坐标，可包括：

在一个上述样本人脸视频流的全部视频中同一关键点标识对应的预测人脸关键点坐标中，取中间值，获得上述全部视频中每个关键点标识对应的中间坐标值；

将上述全部视频中每个关键点标识对应的中间坐标值确定为上述一个样本人脸视频流对应的一组人脸关键点坐标，以获得上述每个样本人脸视频流对应的一组人脸关键点坐标。

其中，上述全部视频中每个关键点标识对应的中间坐标值，指的是在所有相同关键点标识的关键点中，选择处于大小适中的关键点坐标，可以分析相同标识的关键点坐标的聚集程度，选取处于最中间的一个关键点坐标。或者对所有相同关键点标识的关键点分别取横坐标和纵坐标的中值，以获得上述每个关键点标识对应的关键点的中间坐标值，作为该样本人脸视频流对应的一组人脸关键点坐标。通过上述步骤对每个样本人脸视频流进行处理，可以获得每个样本人脸视频流对应的一组人脸关键点坐标。可选的，还可以有其它方式确定每个样本人脸视频流对应的一组人脸关键点坐标，本申请实施例对此不做限制。

104、根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，对上述第一人脸关键点模型进行训练，获得第二人脸关键点模型。

在确定每个样本人脸视频流对应的一组人脸关键点坐标之后，即获得了标注好的视频流数据，可以将其作为训练样本对模型进行训练。使用标注好的样本人脸视频流对上述第一人脸关键点模型进行重新训练，可以获得用于在人脸静止不动时，人脸关键点预测不抖动的模型。

在一种可选的实施方式中，上述步骤102之前，该方法还包括：

获取样本人脸数据，上述样本人脸数据包括多个人物的多张人脸图像，上述人脸图像有对应的人脸关键点标记，上述多个人物中每个人物的多张人脸图像包括不同姿态的人脸；

使用上述样本人脸数据进行关键点模型训练，获得上述第一人脸关键点模型。

具体的，如上所述，上述第一人脸关键点模型可以使用已标注关键点信息的人脸图像作为样本进行训练。使用已经标注的不同人脸姿态的样本人脸数据进行关键点模型训练，获得上述第一人脸关键点模型。

进一步可选的，上述步骤104可包括：根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，以及上述样本人脸数据，对上述第一人脸关键点模型进行训练，获得上述第二人脸关键点模型。

本申请实施例中在对前述第一人脸关键点模型进行再训练时，也可以加上人工标注的人脸关键点数据，即除了前述步骤获得的已标注的样本人脸视频流，还可以包括部分或全部对人脸图像进行标注的样本人脸数据(用于训练获得第一人脸关键点模型的样本数据)。

总体而言，本申请实施例的方法主要是，使用已经标注的不同人不同姿态的人脸关键点数据进行关键点模型训练，得到预训练模型1，然后使用预训练模型1对视频流图像进行关键点预测，得到视频流图像的关键点标注，再获得视频流的关键点标注，进而基于上述视频流的关键点标注在预训练模型1上进行微调，获得最终的关键点模型2。

本申请实施例通过获取多个样本人脸视频流，一个上述样本人脸视频流包括一个人脸的多张视频帧，上述样本人脸视频流在上述人脸保持静止状态时采集，采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得上述每一视频帧的预测人脸关键点，根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的人脸关键点坐标，一个上述样本人脸视频流对应的人脸关键点坐标用于表示上述样本人脸视频流的每一视频帧的人脸关键点位置，根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，对上述第一人脸关键点模型进行训练，获得第二人脸关键点模型；其中通过使用训练好的第一人脸关键点模型对样本人脸视频流进行预测，得到视频流中每帧的关键点标注，再根据获得每帧的关键点标注，确定一个视频流的关键点标注，使一个视频流每一帧具有相同的关键点，并且不同的人的每一个关键点具有一致性；通过再标注的、使用静止状态的人脸的视频流对模型进行训练，使得训练得到的模型能够学习到视频流中每帧人脸图像的关键点的一致性，从而在检测人脸静止的视频流能够保持预测关键点的稳定性，消除抖动。不需要依靠大量的人工标注样本数据，减少人工成本，也不需要一些方法中通过结合视频流中前后两帧的关键点进行去抖动，处理更简单且有效。

请参阅图2，图2是本申请实施例提供的一种人脸关键点检测方法的流程示意图。如图2所示，该方法可具体包括：

201、获取人脸视频流，上述人脸视频流包括一个人脸的多张视频帧，上述人脸视频流在上述人脸保持静止状态时采集。

如图2所示的实施例可以在图1所示实施例之后执行，即通过图1所示实施例中的步骤可以获得训练好的第二人脸关键点模型，再应用于图2所示实施例中的人脸关键点检测方法。

在一种实施方式中，该执行主体可以为如图1所示实施例中的一种人脸关键点检测模型训练装置，可以在执行步骤101-步骤104之后执行如图2所示实施例中的步骤。可选的，也可以是另一个人脸关键点检测装置，可以为电子设备，具体实现中，上述电子设备可以为一种终端，也可称为终端设备，包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，上述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。该人脸关键点检测装置存储有如图1 所述的第二人脸关键点模型，用于执行步骤201和步骤202。

具体的，人脸关键点检测装置可以通过摄像头采集包含人脸的视频，即获取上述人脸视频流，其中该人脸视频流包括一个人脸的多张视频帧。需要注意的是该人脸视频流是在上述人脸保持静止状态时采集。

202、采用第二人脸关键点模型对上述人脸视频流中的多张视频帧进行关键点预测，获得上述人脸视频流对应的人脸关键点坐标，将上述人脸视频流对应的人脸关键点坐标作为上述人脸视频流中每一视频帧的人脸关键点坐标。

其中，上述第二人脸关键点模型是通过图1所示实施例中的人脸关键点检测模型训练方法获得的人脸关键点检测模型，其具体训练方法此处不再赘述。

由于采用人脸静止视频流的标注数据进行训练，使得训练的第二人脸关键点模型对人脸静止的视频流进行关键点预测，并解决该场景下关键点抖动的问题。训练好的第二人脸关键点模型可以预测该人脸视频流对应的关键点，即可以获得该人脸视频流对应的一组人脸关键点坐标，并将其作为人脸视频流中每一视频帧的人脸关键点坐标，可以保持预测关键点的稳定性。

本申请实施例中的人脸关键点检测模型训练方法可以获得去抖动效果更好的模型，去抖动可以建立在人脸关键点预测之后，解决了大量的视频流数据难以标注，并难以准确标注的问题。通过上述步骤实现静止人脸的视频流中人脸关键点检测，可以应用于各种人脸关键点检测场景，比如人脸识别、各类人脸图像处理等，此处不做限制，可以减少其中的关键点抖动问题，提高依据关键点处理的操作准确度，使处理效果更佳。

基于上述人脸关键点检测模型训练方法实施例的描述，本申请实施例还公开了一种人脸关键点检测模型训练装置。请参见图3，人脸关键点检测模型训练装置300包括：

获取模块310，用于获取多个样本人脸视频流，一个上述样本人脸视频流包括一个人脸的多张视频帧，上述样本人脸视频流在上述人脸保持静止状态时采集；

关键点预测模块320，用于采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得上述每一视频帧的预测人脸关键点；

标注模块330，用于根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的一组人脸关键点坐标，一个上述样本人脸视频流对应的一组人脸关键点坐标用于表示上述样本人脸视频流的每一视频帧的人脸关键点位置；

训练模块340，用于根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，对上述第一人脸关键点模型进行训练，获得第二人脸关键点模型。

可选的，上述标注模块330具体用于：

可选的，上述标注模块330还具体用于：

可选的，上述关键点预测模块320具体用于：

可选的，上述获取模块310还用于，在上述关键点预测模块320采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测之前，获取样本人脸数据，上述样本人脸数据包括多个人物的多张人脸图像，上述人脸图像有对应的人脸关键点标记，上述多个人物中每个人物的多张人脸图像包括不同姿态的人脸；

上述训练模块340还用于，使用上述样本人脸数据进行关键点模型训练，获得上述第一人脸关键点模型。

可选的，上述训练模块340具体用于：

根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，以及上述样本人脸数据，对上述第一人脸关键点模型进行训练，获得上述第二人脸关键点模型。

可选的，上述人脸关键点检测模型训练装置300还包括处理模块350；

上述获取模块310还用于，在上述获得第二人脸关键点模型之后，获取人脸视频流，上述人脸视频流包括一个人脸的多张视频帧，上述人脸视频流在上述人脸保持静止状态时采集；

上述处理模块350用于，采用上述第二人脸关键点模型对上述人脸视频流中的多张视频帧进行关键点预测，获得上述人脸视频流对应的人脸关键点坐标，将上述人脸视频流对应的人脸关键点坐标作为上述人脸视频流中每一视频帧的人脸关键点坐标。

根据本申请的一个实施例，图1和图2所示的方法所涉及的各个步骤均可以是由图3所示的人脸关键点检测模型训练装置300中的各个模块执行的，此处不再赘述。

本申请实施例中的人脸关键点检测模型训练装置300，可以获取多个样本人脸视频流，一个上述样本人脸视频流包括一个人脸的多张视频帧，上述样本人脸视频流在上述人脸保持静止状态时采集，采用第一人脸关键点模型，对上述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得上述每一视频帧的预测人脸关键点，根据上述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定上述每个样本人脸视频流对应的人脸关键点坐标，一个上述样本人脸视频流对应的人脸关键点坐标用于表示上述样本人脸视频流的每一视频帧的人脸关键点位置，根据上述样本人脸视频流和上述每个样本人脸视频流对应的人脸关键点坐标，对上述第一人脸关键点模型进行训练，获得第二人脸关键点模型；其中通过使用训练好的第一人脸关键点模型对样本人脸视频流进行预测，得到视频流中每帧的关键点标注，再根据获得每帧的关键点标注，确定一个视频流的关键点标注，使一个视频流每一帧具有相同的关键点，并且不同的人的每一个关键点具有一致性；通过再标注的、使用静止状态的人脸的视频流对模型进行训练，使得训练得到的模型能够学习到视频流中每帧人脸图像的关键点的一致性，从而在检测人脸静止的视频流能够保持预测关键点的稳定性，消除抖动。不需要依靠大量的人工标注样本数据，减少人工成本，也不需要一些方法中通过结合视频流中前后两帧的关键点进行去抖动，处理更简单且有效。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种电子设备。请参见图4，该电子设备400至少包括处理器401、输入设备402、输出设备403以及计算机存储介质404。其中，终端内的处理器401、输入设备402、输出设备403以及计算机存储介质404可通过总线或其他方式连接。

计算机存储介质404可以存储在终端的存储器中，上述计算机存储介质404 用于存储计算机程序，上述计算机程序包括程序指令，上述处理器401用于执行上述计算机存储介质404存储的程序指令。处理器401(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本申请实施例上述的处理器401可以用于进行一系列的处理，包括如图1和图2所示实施例中方法等等。

本申请实施例还提供了一种计算机存储介质(Memory)，上述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器401加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器401加载并执行计算机存储介质中存放的一条或多条指令，以实现上述实施例中的相应步骤；具体实现中，计算机存储介质中的一条或多条指令可以由处理器401加载并执行图1和/或图2中方法的任意步骤，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-only memory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种人脸关键点检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的人脸关键点检测模型训练方法，其特征在于，所述根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一组人脸关键点坐标，包括：

3.根据权利要求1所述的人脸关键点检测模型训练方法，其特征在于，所述根据所述每个样本人脸视频流的每一视频帧的预测人脸关键点，确定所述每个样本人脸视频流对应的一个人脸关键点坐标，包括：

4.根据权利要求2或3所述的人脸关键点检测模型训练方法，其特征在于，所述采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测，获得所述每一视频帧的预测人脸关键点，包括：

5.根据权利要求4所述的人脸关键点检测模型训练方法，其特征在于，所述采用第一人脸关键点模型，对所述多个样本人脸视频流中每个样本人脸视频流的每一视频帧进行关键点预测之前，所述方法还包括：

6.根据权利要求5所述的人脸关键点检测模型训练方法，其特征在于，所述根据所述样本人脸视频流和所述每个样本人脸视频流对应的人脸关键点坐标，对所述第一人脸关键点模型进行训练，获得第二人脸关键点模型，包括：

7.根据权利要求6所述的人脸关键点检测模型训练方法，其特征在于，所述获得第二人脸关键点模型之后，所述方法还包括：

8.一种人脸关键点检测模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的人脸关键点检测模型训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的人脸关键点检测模型训练方法的步骤。