CN112016371B

CN112016371B - 人脸关键点检测方法、装置、设备及存储介质

Info

Publication number: CN112016371B
Application number: CN201910473174.2A
Authority: CN
Inventors: 项伟; 张小伟
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2022-01-14
Anticipated expiration: 2039-05-31
Also published as: CN112016371A; WO2020238374A1

Abstract

本发明公开了一种人脸关键点检测方法、系统、设备以及存储介质，涉及计算机视觉技术领域，该方法包括：获取视频的图像帧信息，其中，视频的图像帧信息包含关键帧信息和非关键帧信息；根据关键帧信息确定人脸框位置信息；基于人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；基于初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到视频的人脸关键点检测结果。本发明解决了现有技术采用单个深度卷积网络实现人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问题，能够快速地、稳定地检测到人脸的关键点位置。

Description

人脸关键点检测方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人脸关键点检测方法、装置、设备及存储介质。

背景技术

在计算机视觉领域，基于视频数据的算法开发一直以来都受到学术界和工业界的广泛关注。其中，人脸视频数据由于其在生物信息验证、监控安防、视频直播等领域拥有非常现实的应用场景而占有很重要的地位。人脸关键点的检测属于人脸图像处理当中非常重要的一步，其主要功能是准确地定位出人脸上的关键点在图片上的位置，以为后续的操作作准备，如定位眼睛、鼻子、嘴角、脸部轮廓点等人脸关键点在图片上的位置，以为后续的人脸对齐、人脸识别等操作作准备。

在具体实现中，人脸关键点检测通常是位于人脸检测之后的一个环节。人脸检测器通常将检测到的人脸位置信息已及相应的人脸图片输入到关键点检测算法，得到当前人脸的关键点位置，如将以一个矩形框或者正方形框的形式给出的人脸位置信息输入到关键点检测算法中进行计算，以将计算得到的结果确定为当前人脸的关键点位置。近年来，基于深度卷积网络的人脸关键点检测算法在精度上相比传统人脸关键点算法有了很大的提高。然而，基于一个深度卷积网络实现的人脸关键点检测方法通常计算量大，需要对深度卷积网络的网络结构进行精心设计安排，否则很难在计算资源有限的平台上达到实时处理的效果，如很难在诸如手机等移动端上达到实时处理的效果。

发明内容

有鉴于此，本发明实施例提供一种新的人脸关键点检测方法、系统、设备以及存储介质，以解决现有人脸关键点检测方法在移动端中受计算能力有限、存储空间较小及实时性要求高等限制的问题。

第一方面，本发明实施例提供了一种人脸关键点检测方法，包括：获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；根据所述关键帧信息确定人脸框位置信息；基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

可选的，所述基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，包括：根据所述初始关键点位置信息生成图片裁剪框；通过所述图片裁剪框对所述关键帧信息进行裁剪处理，得到关键帧人脸图片信息，并将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述关键帧信息对应的人脸关键点位置信息。

可选的，所述根据所述关键帧信息确定人脸框位置信息之前，还包括：从所述视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息。其中，所述基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，还包括：通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理，得到非关键帧图片信息；当所述非关键帧图片信息包含人脸图片信息时，依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，并将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息。

可选的，在得到非关键帧图片信息之后，还包括：将所述非关键帧图片信息输入到人脸检测跟踪网络中，得到人脸检测跟踪网的输出信息，所述输出信息包含人脸概率信息；基于所述人脸概率信息确定所述非关键帧图片信息是否包含人脸图片信息。

可选的，所述输出信息还包含人脸框相对位置信息和关键点相对位置信息，所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息之前，还包括：依据所述人脸框相对位置信息和关键点相对位置信息，确定所述非关键帧信息的人脸关键点信息。其中，所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，包括：基于所述非关键帧信息的人脸关键点信息，对所述关键帧信息对应的人脸关键点位置信息进行修正，得到关键点修正信息；根据所述关键点修正信息和所述初始关键点位置信息，确定关键点追踪位置信息；根据所述关键点追踪位置信息生成人脸图片裁剪框；通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理，得到所述非关键帧人脸图片信息。

可选的，所述根据所述关键帧信息确定人脸框位置信息，包括：将所述关键帧信息输入到人脸检测器中，其中，所述人脸检测器用于检测人脸框位置；将所述人脸检测器的输出信息确定为所述人脸框位置信息。

第二方面，本发明实施例还提供了一种人脸关键点检测装置，包括：

视频图像帧获取模块，用于获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；

第一人脸关键点检测模块，用于根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；

第二人脸关键点检测模块，用于基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

可选的，所述第二人脸关键点检测模块包括：

图片裁剪框生成子模块，用于根据所述初始关键点位置信息生成图片裁剪框；

关键帧裁剪处理子模块，用于通过所述图片裁剪框对所述关键帧信息进行裁剪处理，得到关键帧人脸图片信息；

关键帧人脸关键点检测子模块，用于将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述关键帧信息对应的人脸关键点位置信息。

第三方面，本发明实施例还提供了一种设备，包括：处理器和存储器；所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如第一方面所述的人脸关键点检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如第一方面所述的人脸关键点检测方法。

采用本发明实施例，在获取视频的图像帧信息后，可以根据该视频的图像帧信息中的关键帧信息确定出人脸框位置信息，以基于该人脸框位置信息通过第一神经网络进行人脸关键点检测，得到初始关键点位置信息，随后可基于该初始关键点位置信息通过第二神经网络进行人脸关键点检测，即利用两级的神经网络进行人脸关键点检测，从而解决了现有技术采用单个深度卷积网络实现人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问题，能够快速地、稳定地检测到人脸的关键点位置，亦即达到快速、稳定处理视频中的人脸关键点检测及追踪问题的目的。

附图说明

图1是本发明实施例中的一种人脸关键点检测方法的步骤流程示意图；

图2是本发明一个可选实施例中的一种人脸关键点检测方法的步骤流程示意图；

图3是本发明一个示例中的一个视频中的人脸关键点检测与追踪流程示意图；

图4是本发明一个示例中对上一帧的人脸关键点进行修正的流程示意图；

图5是本发明实施例中的一种人脸关键点检测装置实施例的结构方框示意图；

图6是本发明一个示例中的一种设备的结构方框示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构或组成。

本发明人发现，当前大部分的人脸关键点检测算法都是基于单张静态图像去设计的；而对于视频中的人脸关键点的检测，通常是逐帧处理或者运用一般物体追踪算法来追踪人脸再检测人脸关键点。现有人脸关键点追踪方案可以大致可以分为两类：一类是通过逐帧进行人脸检测和人脸关键点检测；另一类是对第一个图像帧进行人脸检测，再以检测到的人脸为目标运用一般物体追踪方法对后续图像帧进行人脸框追踪，在每一个追踪到的人脸上使用关键点检测算法，如果在某个图像帧追踪失败没有找到人脸，则重新运用人脸检测器检测人脸。其中，第一类方案由于需要对每个图像帧都进行人脸检测和关键点检测，没有充分利用相邻帧之间的关联信息，速度上受到限制；另外，由于每个图像帧都是独立处理，容易出现关键点抖动的问题，影响到后续的依赖关键点稳定性的模块，如影响后续依靠检测出的人脸关键点进行人脸贴纸特效设置的模块，降低用户体验。第二类方案在某个图像帧追踪失败没有找到人脸时重新运用人脸检测器检测人脸，虽然在关键点稳定性方面相比第一类方案要高，但是一方面作为一般物体追踪方法通常比较耗时，另一方面存在两个潜在问题。一个潜在问题是，由于在视频中人脸会经常出现快速的姿态、尺度、遮挡、表情等变化，如手机视频中人脸会经常出现快速的姿态、尺度、遮挡、表情等变化，导致物体追踪方法失效并且重新使用人脸检测器；另一个问题是，一般人脸关键点算法对于输入的人脸在人脸框内的相对位置比较敏感，即扰动输入的人脸框，关键点检测算法在扰动前后输出的结果会有很大差异，而通过追踪得到的人脸框相比通过检测器得到的人脸框人脸贴合程度要低，这会导致关键点检测出现误差。可见，现有这些人脸关键点检测方法存在计算复杂度高、易丢失追踪目标等问题。另外，大部分人脸关键点检测的应用场景都在诸如手机等移动端，现有人脸关键点检测方案存在计算能力有限、存储空间较小、实时性要求较高等限制。

为了实现快速、稳定地人脸关键点检测及追踪，本发明实施例提出了一种新的人脸关键点检测方法。具体的，本发明实施例在获取到视频信息后，可以根据该视频信息中的关键帧信息确定出人脸框位置信息，以根据该人脸框位置信息通过第一神经网络确定出初始关键点位置信息，随后可基于该初始关键点位置信息，通过第二神经网络进行人脸关键点检测，得到该视频的人脸关键点检测结果，亦即利用了两级的神经网络来实现视频信息中的人脸关键点检测，从而能够高效处理视频中人脸关键点的检测。

参照图1，示出了本发明实施例中的一种人脸关键点检测方法的步骤流程示意图。该人脸关键点检测方法可用于诸如人脸识别、人脸上的特效贴纸、换脸特效等人脸视觉应用中，具体可以包括如下步骤：

步骤110，获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息。

具体而言，一个视频可以包含一个或多个视频帧；每个视频帧可以包含用于显示视频画面的图像帧和/或用于播放视频声音的音频帧等。本实施例中的视频的图像帧信息可以表征视频中的图像帧，如可以是指视频帧中的图像信息，具体可以用于显示视频画面，使得用户可以观看到视频的播放画面。

本发明实施例在检测视频中的人脸关键点时，可以获取当前需要检测的视频的图像帧信息，以根据该图像帧信息中的人脸图片信息进行人脸关键点检测。其中，人脸图片信息可以用于表征视频帧中所包含的人脸图片，如在某一视频帧包含一个人的人脸图片时，可以基于图像帧信息中的人脸图片信息确定这个人在该视频帧中显示的人脸图片；又如，在某一视频帧包含多个人脸图片的情况下，可以基于图像帧信息中的人脸图片信息确定在该视频帧中显示的多个人的人脸图片等。

进一步的，本发明实施例在获取到视频的图像帧信息后，可以将获取到的图像帧信息分为关键帧信息和非关键帧信息，以基于关键帧信息检测出人脸框位置，即执行步骤120。其中，关键帧信息可以表征视频中关键图像帧(简称关键帧)，而非关键帧信息可以表征视频中非关键图像帧(简称非关键帧)。

步骤120，根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息。

具体的，本实施例在获取到表征关键帧的关键帧信息后，可以利用预先好的人脸检测器，如作为人脸检测器的联合人脸定位及对齐的多任务级联卷积网络(Multi-TaskConvolutional Neural Network，MTCNN)，对该关键帧信息进行检测，产生人脸框位置信息。该人脸框位置信息可以表征人脸框位置，具体可以确定人脸框在视频的图像帧中的显示位置。随后，可以基于该人脸框位置信息从该关键帧中裁剪出人脸框图片，亦即按照人脸框位置从作为视频关键帧的图像帧中裁剪出包含人脸的人脸框图片，并可生成对应的人脸框图片信息，以采用人脸框图片信息表征裁剪出的人脸图片，然后可以将生成的人脸框图片信息输入到预先训练的第一神经网络进行人脸关键点检测，以初步检测出人脸关键点的位置，如可以将第一神经网络的输出信息作为初始关键点位置信息，以便后续可以采用该初始关键点位置信息初步确定人脸关键点位置，如确定人脸关键点在当前关键帧的大概位置。

步骤130，基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果。

其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

具体而言，本实施例中的视频的人脸关键点检测结果可以用于确定该视频中各图像帧的人脸关键点位置，具体可以包括视频中各图像帧信息对应的人脸关键点位置信息，如可以包括关键帧信息对应的人脸关键点位置信息、所述非关键帧信息对应的人脸关键点位置信息等。其中，图像帧信息对应的人脸关键点位置信息可以用于表征图像帧的人脸关键点位置，如关键帧信息对应的人脸关键点位置信息可以用于表征关键帧中的人脸关键点位置，又如非关键帧信息对应的人脸关键点位置信息可以用于表征非关键帧中的人脸关键点位置等。

在具体实现中，本发明实施例在确定出初始关键点位置信息后，可以基于该初始关键点位置信息，按照人脸关键点在当前关键帧的大概位置生成图片裁剪框，随后可以采用该图片裁剪框对当前关键帧中人脸图片进行一步的裁剪，亦即可以采用该图片裁剪框对该视频的图像帧进行裁剪处理，得到关键帧人脸图片信息，并可采用该关键帧人脸图片信息表征此次裁剪处理后得到的图片。随后，可以将得到的关键帧人脸图片信息输入到预先训练的第二神经网络进行人脸关键点检测，并可将第二神经网络检测后输出的信息确定为当前关键帧的人脸关键点信息，以及可以基于该关键帧的人脸关键点信息对视频中的非关键帧进行人脸关键点检测及追踪，得到非关键帧的人脸关键点信息，从而可以基于该关键帧的人脸关键点信息和/或非关键帧的人脸关键点信息生成视频的人脸关键点检测结果。

综上，本发明实施例在获取视频的图像帧信息后，可以根据该视频的图像帧信息中的关键帧信息确定出人脸框位置信息，以基于该人脸框位置信息通过第一神经网络进行人脸关键点检测，得到初始关键点位置信息，随后可基于该初始关键点位置信息通过第二神经网络进行人脸关键点检测，即利用两级的神经网络进行人脸关键点检测，从而解决了现有技术采用单个深度卷积网络实现人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问题，能够快速地、稳定地检测到人脸的关键点位置，亦即达到快速、稳定处理视频中的人脸关键点检测及追踪问题的目的。

在实际处理中，本实施例在获取视频的图像帧后，可以按照预设规则从该视频图像帧中选择其中一帧或多帧作为关键帧，如从视频的每N帧图像帧中选择其中的第一帧作为关键帧，并可将其余图像帧作为非关键帧，即将与该关键帧相邻的连续(N-1)帧的图像帧确定为该关键帧对应的非关键帧，其中，N的取值可以根据不同的应用场景确定，亦即，N的取值可根据不同的应用场景变化。随后，可在该关键帧中利用人脸检测器检测出人脸框位置，以按照该人脸框位置从关键帧信息中裁剪出人脸框图像信息，进而可以通过第一神经网络对该人脸框图像信息进行人脸关键点检测，以检测出该关键帧中大概的人脸关键点。

在上述实施例的基础上，可选的，本实施例提供的人脸关键点检测方法在根据所述关键帧信息确定人脸框位置信息之前，还可以包括：从所述视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息。随后，可以根据该关键帧信息确定出人脸框位置信息，以基于该人脸框位置信息通过第一神经网络确定出人脸关键点大概位置。例如，可以将视频中第t帧图片确定为关键帧信息，并科将该视频中的第(t+1)帧到第(t+N-1)帧的图片确定为非关键帧信息，并可以这些非关键帧信息与作为关键帧信息的第t帧图片相关联，以将这些非关键帧信息确定为上述关键帧信息对应的非关键帧信息。其中，t可以是大于0的整数。

可选的，上述根据关键帧信息确定出人脸框位置信息，具体可以包括：将所述关键帧信息输入到人脸检测器中，其中，所述人脸检测器用于检测人脸框位置；将所述人脸检测器的输出信息确定为所述人脸框位置信息。从而，可以基于该人脸框位置信息确定出人脸框位置，以按照人脸框位置从关键帧中裁剪出人脸框图片，生成对应的人脸框图片信息，如用作为人脸检测器的MTCNN 检测出人脸框位置，并对每个人脸框位置对应的方框作正方形扩充处理，即可以以框的中心为正方形中心，框的长边为正方形的边，进行扩充处理，得到这个正方形所裁剪到的人脸框图片信息，并可将该人脸框图片信息输入到第一神经网络中进行人脸关键点检测。该第一神经网络可以作为是人脸关键点检测过程中的第一级的人脸关键点检测网络，具体可以用于对视频关键帧的人脸框图片进行关键点检测，输出初始关键点位置信息，以便后续流程也依据该初始关键点位置信息对关键帧和/或非关键帧进行进一步的人脸关键点检测，从而能够快速、稳定地检测出视频中人脸关键点位置。其中，初始关键点位置信息可以用于初步确定出人脸关键点大概位置。

在本发明的一个可选实施例中，上述基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，具体包括：根据所述初始关键点位置信息生成图片裁剪框；通过所述图片裁剪框对所述关键帧信息进行裁剪处理，得到关键帧人脸图片信息，并将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述关键帧信息对应的人脸关键点位置信息。

具体而言，本发明实施例在确定出初始关键点位置信息后，可以基于该初始关键点位置信息生成一个图片裁剪框，以采用该图片裁剪框按照人脸关键点大概位置裁剪出当前关键帧对应的人脸图片信息，即对关键帧信息进行裁剪处理，得到关键帧人脸图片信息。随后，可以将关键帧人脸图片信息作为第二神经网络的输入，输入到第二神经网络中进行进一步的人脸关键点检测，以精确地的确定出该关键帧的人脸关键点位置，并可将第二神经网络的输出信息确定为该关键帧信息对应的人脸关键点位置信息，以便后续可以基于该人脸关键点位置信息对该关键帧信息对应的非关键帧信息进行人脸关键点进行检查及追踪，即利用视频相邻帧间的信息进行人脸关键点追踪，生成非关键帧信息对应的人脸关键点位置信息，从而可以基于关键帧信息对应的人脸关键点位置信息和/非关键帧信息对应的人脸关键点信息生成视频的人脸关键点检测结果，达到高速处理视频中人脸关键点的检测的目的。

在上述实施例的基础上，可选的，本发明实施例中基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，还可以包括：通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理，得到非关键帧图片信息；当所述非关键帧图片信息包含人脸图片信息时，依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，并将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息。

参照图2，示出了本发明一个可选实施例中的一种人脸关键点检测方法的步骤流程示意图。该人脸关键点检测方法具体可以包括如下步骤：

步骤210，获取视频的图像帧信息。

其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息。

步骤220，从所述视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息。

步骤230，将所述关键帧信息输入到人脸检测器中。

其中，所述人脸检测器用于检测人脸框位置。

步骤240，将所述人脸检测器的输出信息确定为所述人脸框位置信息。

具体的，本发明实施例在从视频中选出关键帧信息后，可以将该关键帧信息输入到人脸检测器中，以通过人脸检测器检测出关键帧的人脸框位置，即可基于人脸检测器的输出信息确定为人脸框位置信息，从而基于该人脸框位置信息按照人脸框位置从关键帧裁剪出人脸框图片信息进行初步的人脸关键点检测，即执行步骤250。

步骤250，基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息。

步骤260，根据所述初始关键点位置信息生成图片裁剪框。

步骤270，通过所述图片裁剪框对所述关键帧信息进行裁剪处理，得到关键帧人脸图片信息，并将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述关键帧信息对应的人脸关键点位置信息。

具体的，本发明实施例在确定出人脸框位置信息后，可以基于该人脸框位置信息按照人脸框位置从关键帧中裁剪出人脸框图片信息，以将该裁剪出的人脸图片信息输入到第一神经网络中进行人脸关键点检测，得到初始关键点位置信息，从而可以基于初始关键点位置信息生成一个图片裁剪框，以采用该图片裁剪框按照人脸关键点大概的位置对关键帧进行裁剪处理，得到关键帧人脸图片信息。关键帧人脸图片信息可以用于表征视频关键帧中的人脸图片。随后，可以将关键帧人脸图片信息作为第二神经网络的输入，输入到第二神经网络中进行进一步的人脸关键点检测，以基于第二神经网络所输出的信息精确、稳定地确定出关键帧中人脸关键点位置，如可将该第二神经网络所输出的信息确定为关键帧信息对应的人脸关键点位置信息，以便后续可以基于该关键帧信息对应的人脸关键点位置信息对非关键帧的人脸关键点进行检测及追踪。

作为本发明的一个示例，在从视频的每N帧选取一帧作为关键帧，其余帧作为非关键帧的情况下，如图3所示，可以将视频中第t帧、第t+N帧确定为关键帧信息，并可以在每个关键帧中，用作为人脸检测器的MTCNN检测出人脸框位置，并可对该MTCNN确定出的每个一个框作正方形扩充处理，以根据这个正方形裁剪人脸图片，如图3中所示的裁剪人脸图片I模块，并且可以将裁剪得到人脸图片并且缩放到宽、高均为70像素后输入到作为第一神经网络的人脸关键点检测网络C进行处理，得到作为初始关键点位置信息的106个人脸关键点坐标。随后，可以根据该106个人脸关键点坐标构成最小正方形框裁剪一个人脸图片，如图3中所示的裁剪人脸图片II模块，即可将构成的最小正方形框作为图片裁剪框，以采用该图片裁剪框裁对关键帧信息进行裁剪处理，得到关键帧人脸图片信息，如可将裁剪得到的人脸图片缩放到宽、高均为70像素后输入到作为第二神经网络的人脸关键点检测网络F中进行处理，以得到更准确的106个人脸关键点坐标，作为关键帧信息对应的人脸关键点位置信息，从而可以基于关键帧信息对应的人脸关键点位置信息生对应视频的人脸关键点检测结果，以便后续可以基于该关键帧信息对应的人脸关键点位置信息进行关键点进后处理，并可根据得到的关键帧信息对应的人脸关键点位置信息对非关键帧的人脸关键点进行检测及追踪，执行步骤280，以利用相邻帧间的信息去直接追踪视频中的人脸关键点，达到高效处理视频中人脸关键点的检测的目的。

需要说明的是，本示例中的人脸关键点检测网络C与人脸关键点检测网络F均可以通过多个卷积层(Convolution Layer)和特征池化层(Pooling Layer)去提取特征，并且可以通过全连接层(Fully Connected Layer)来回归关键点的相对位置。虽然这两个人脸关键点检测网络的网络结构一样，但是在人脸关键点检测网络C的每一层中使用了更少的通道(Channel)数目，因此作为第一神经网络的人脸关键点检测网络C比作为第二神经网络的人脸关键点检测网络F更轻量。另外，这两个人脸关键点检测网络的输入图片的裁剪方式不同，人脸关键点检测网络C的输入图片可以是通过人脸框裁剪得到的，而人脸关键点检测网络C的输入图片可以是根据106个人脸关键点裁剪得到的，且根据这106个人脸关键点位置裁剪得到的输入图片会更加紧贴人脸。此外，这个两个人脸关键点检测网络可以是分别独立训练的，且每个卷积层的权重都可以是不同的，以降低由于人脸框不够紧贴人脸而导致关键点不准的影响。由此可见，本发明实施例可以通过一个两级神经网络进行人脸关键点检测的渐进方法，得到更准确的关键点位置，具体的，人脸关键点检测网络C可以回归出关键点的粗略位置，而人脸关键点检测网络F则进一步改善得到更准确的关键点。

步骤280，通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理，得到非关键帧图片信息。

具体的，本发明实施例在非关键帧中，可以利用图片裁剪框在当前帧裁进行裁剪处理，如对图3中所示的第t+1帧图片进行裁剪处理，以基于裁剪出的图片生成对应的非关键帧图片信息。该非关键帧图片信息可以用于表征根据关键帧的人脸关键点位置从视频非关键帧中裁剪出的图片。随后，可以将该非关键帧图片信息作为人脸检测追踪网的输入，以通过该人脸检测追踪网对该非关键帧图片信息中的人脸进行检测及追踪，如确定非关键帧图片信息是否包含人脸图片信息。其中，人脸检测追踪网可以作为人非关键帧的人脸检测器，如可以是图3中所示的人脸检测器追踪网(Tracking Net，TNet)，该人脸检测器Tnet可以判断非关键帧图片信息是否包含人脸图片信息，以判断输入图片是否是人脸图片，并可在判断出输入图片是人脸图片时，输出人脸框的相对位置和人脸关键点的相对位置息等。需要说明的是，人脸图片信息可以包括用于表征人脸图片的各种信息，如可以是人脸图片对应的图像信息等，本实施例对此不作限制。

步骤290，依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，并将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息。

可选的，本发明实施例在得到非关键帧图片信息之后，还包括：将所述非关键帧图片信息输入到人脸检测跟踪网络中，得到人脸检测跟踪网的输出信息，所述输出信息包含人脸概率信息；基于所述人脸概率信息确定所述非关键帧图片信息是否包含人脸图片信息。人脸概率信息可以用于确定非关键帧是否包含人脸图片，如可以表征该非关键帧包含人脸图片的概率；当人脸概率信息的值超过一定阈值时，可以确定非关键帧图片信息包含人脸图片信息；相应的，在人脸概率信息的值不超过上述阈值时，可以确定非关键帧图片中的人脸数目与对应关键帧中的人脸数目相比减少了，即可确定在非关键帧中出现了人脸数目的变化，随后可将当前的非关键帧转化为关键帧来处理，即对当前帧进行关键帧的操作，如在确定出非关键帧图片信息不包含人脸图片信息时，可将当前的非关键帧转化为关键帧来处理，以将关键帧上的人脸检测、两级关键点检测作用在当前帧上，以防止处理误检测或者漏检测的情形。在非关键帧图片信息包含人脸图片信息时，可以确定当前的非关键帧包含人脸图片，并可通过人脸检测追踪网，利用关键帧的人脸关键点位置对该非关键帧进行人脸检测，以检测出非关键帧中人脸关键点大概的位置，以及生成对应的非关键帧人脸图片信息，即执行步骤290。其中，非关键帧人脸图片信息可以表征非关键帧的人脸图片信息，具体可以包括非关键帧信息的人脸关键点信息，如可以包括非关键帧中 5个人脸关键点坐标等。这5个人脸关键点坐标可以分别是左眼中心、右眼中心、鼻尖、嘴巴左角、嘴巴右角的位置坐标。

在本发明的一个可选实施例中，人脸检测跟踪网的输出信息还可以包含人脸框相对位置信息和关键点相对位置信息。所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息之前，还可以包括：依据所述人脸框相对位置信息和关键点相对位置信息，确定所述非关键帧信息的人脸关键点信息。其中，人脸框相对位置信息可以表示回归人脸框的相对位置，如可以是人脸检测跟踪网通过输出层输出的一个4维向量；关键点相对位置信息可以用于5个人脸关键点的相对位置，如可以是人脸检测跟踪网通过输出层输出的一个10维向量等。

在实际处理中，本发明实施例中的人脸检测跟踪网在接收到输入的非关键帧图片信息后，可以基于该非关键帧图片信息判断该非关键帧所显示的图片是否是人脸图片；如果是人脸图片，则回归该人脸图片在当前帧人脸框的位置，并且可输出其中5个人脸关键点左眼中心、右眼中心、鼻尖、嘴巴左角、嘴巴右角的位置坐标，即输出非关键帧信息的人脸关键点信息，以作为该人脸检测跟踪网的输出信息。

具体的，结合上述示例，人脸检测跟踪网输出的5个人脸关键点信息可以是人脸关键点检测网络C和人脸关键点检测网络F输出的106个关键点当中的一部分，如在人脸检测跟踪网的输出层为全连接层FC的情况下，可以通过该全连接层FC，输出一个2维向量(p0,p1)，作为人脸概率信息，以表示输入图片是/不是人脸的概率，如在p0表示非人脸的概率且p1表示人脸的概率的情况下，p0与p1的和可以为1，即p0+p1＝1，当p1超过预设的阈值时可以判断为检测到了人脸，否则可以判断为当前输入的图片是非人脸图片；并可输出一个4维向量(x0,y0,w,h)，作为人脸框相对位置信息，以表示回归的人脸框的相对位置，其中(x0,y0)可以是人脸框的左上角在图片中的坐标，(w,h)可以是人脸框的宽和高，如在输入TNet的一个作为非关键帧图片信息的方框信息是(x0,y0, w,h)，输出的4维向量是(dx0,dy0,dx1,dy1)时，可以采用输出的4维向量中的这4个数表示检测出来的框相对于输入框的相对位置，其对应的检出框是 (x0+dx0*w,y0+dy0*h,(dx1-dx0)*w,(dy1-dy0)*h)，以便后续可以将该检出框作为非关键帧的人脸框对非关键帧的图片进行裁剪处理；以及可输出一个10维向量(dx0,dy0,...,dx4,dy4)，作为关键点相对位置信息，以表示5个人脸关键点的相对位置，从而可以确定出该非关键帧的5个人脸关键点坐标是(x0+dx0*w, y0+dy0*h,...,x0+dx4*w,y0+dy4*h)，以作为非关键帧信息的人脸关键点信息，随后可以基于这5个人脸关键点坐标对上一帧的人脸关键点位置信息进行修正处理，得到输入到第二神经网络的非关键帧人脸图片信息，如图3中所示的裁剪人脸图片III，进而可以通过第二神经网络对该非关键帧人脸图片信息进行进一步的人脸关键点检测，以产生非关键帧的人脸关键点位置信息。相比在关键帧上使用的人脸检测器MTCNN，Tnet可以是一个计算量更小的网络。因为视频中相邻帧之间人脸在图片中的位置变化不大，由上一帧传递来的人脸关键点位置信息已经给出了人脸在当前帧的大概位置，因此只需要用一个简单的人脸检测追踪网络就可以回归出人脸框的位置。

进一步而言，由于将上一帧的信息作为关键帧信息，用在当前帧上，对于快速的人脸运动可能会出现偏差，因此引入一个关键点修改模块修正这些人脸关键点的坐标位置。在一种可选实施方式中，可以采用一个线性变换的方式，利用TNet学习到的当前帧的新信息来修正上一帧传递来的106个人脸关键点的位置，从而可以利用修正后的106个人脸关键点的坐标构成最小正方形框裁剪一个人脸图片，如图3中裁剪人脸图片III，并可以将该裁剪出的人脸图片缩放到宽、高均为70像素后，作为非关键帧人脸图片信息，输入到人脸关键点检测网络F进行人脸关键点检测，得到当前帧的106个人脸关键点坐标，以作为非关键帧信息对应的人脸关键点位置信息。

可选的，本实施例依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，具体可以包括：基于所述非关键帧信息的人脸关键点信息，对所述关键帧信息对应的人脸关键点位置信息进行修正，得到关键点修正信息；根据所述关键点修正信息和所述初始关键点位置信息，确定关键点追踪位置信息；根据所述关键点追踪位置信息生成人脸图片裁剪框；通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理，得到所述非关键帧人脸图片信息。

具体而言，本实施例在人脸关键点的追踪过程中，针对非关键帧，可以采用上一帧的人脸关键点坐标作为当前帧对应人脸关键点的大致位置，以利用相邻帧的信息达到对非关键帧进行人脸关键点检测及追踪的目的。为了应对帧间的变化，增加了一个矫正的步骤，即是以TNet输出的5个人脸关键点坐标为基准，根据TNet输出的5个人脸关键点坐标与上一帧对应5个人脸关键点坐标的差异计算出线性变换信息(A*，b*)，然后可以将该线性变化信息(A*，b*) 作用在上一帧的所有106个人脸关键点上，得到修正后的106个人脸关键点信息，以依据修改后的106个人脸关键点信息裁人脸图片，使得裁剪得到的人脸图片会更贴合当前帧的人脸，在效果上起到了关键帧处理流程上人脸关键点检测网络C的作用。

例如，结合上述示例，可在非关键帧上，诸如Tnet等人脸检测跟踪网可回归出5个人脸关键点的坐标，如可以记作{(u’₁，v’₁)，……，(u’₅，v’₅)}，如图4所示，Tnet输出5个人脸关键点坐标；并可从上一帧的人脸关键点检测网络F输出的106个人脸关键点坐标中抽取出这5个人脸关键点的坐标，记作 {(u₁，v₁)，……，(u₅，v₅)}，以及可以将人脸关键点检测网络F输出的其余101 个人脸关键点的坐标记作为{(u₆，v₆)，……，(u₁₀₆，v₁₀₆)}，随后可以将抽取出的 5个人脸关键点的坐标{(u₁，v₁)，……，(u₅，v₅)}作为关键帧信息对应的人脸关键点位置信息，以基于该关键帧信息对应的人脸关键点位置信息进行修正，得到关键点修正信息。

作为本发明的一个可选实施方式，可以通过计算公式

确定出作为关键点修正信息的线性变换信息(A*，b*)。其中，A可以通过计算公式

来确定，b可以根据公式b＝(b_x，b_y)来确定。需要说明的是，s可以是表征缩放系数，R可以是2x2的旋转变换矩阵，b可以是2维的位移向量。

具体的，线性变换信息(A*，b*)可以由以下步骤得到：

步骤S1，分别根据公式

和公式

求两组人脸关键点的平均坐标，并可以中心化计算出的这两组人脸关键点的坐标,如可以按照公式

中心化作为关键帧的上一帧的这组人脸关键点的坐标，且可按照公式

中心化作为关键帧的上一帧的这组人脸关键点的坐标；

步骤S2，按照公式

计算2x2矩阵C，并可按照公式 C＝U∑V^T对矩阵C奇异值分解，得到最优的2x2旋转矩阵R^*，且R^*＝V^TU；

步骤S3，根据最优的2x2旋转矩阵R^*计算数值S*,如按照计算公式S^*＝e/d计算得到，其中，

步骤S4，根据最优的2x2旋转矩阵R^*和数值S^*确定A*和b*，其中， A^*＝s^*R^*，

随后，可以通过线性变换信息(A*，b*)，利用TNet学习到的当前帧的新信息来修正上一帧传递来的106个人脸关键点的位置，如可以按照修正公式

将线性变换线性信息(A*，b*)作用于上一帧所有的106个人脸关键点的坐标位置，从而使得根据修正后106个人脸关键点裁剪出得人脸图片更加贴近当前帧的人脸。具体而言，可以利用修正后的106个关键点的坐标构成最小正方形框裁剪一个人脸图片，如图3中裁剪人脸图片III，并可将裁剪得到的人脸图片缩放到宽、高均为70像素后输入人脸关键点检测网络F得到当前帧的106个人脸关键点坐标，亦即根据所述关键点追踪位置信息生成人脸图片裁剪框，并通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理，得到非关键帧人脸图片信息，以及将所输入到作为第二神经网络的人脸关键点检测网络F进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息，以便后续可以基于非关键帧信息对应的人脸关键点位置信息生成视频的人脸关键点检测结果，达到对视频中人脸关键点检测及追踪的目的。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。

参照图5，示出了本发明实施例中的一种人脸关键点检测装置实施例的结构方框示意图，该人脸关键点检测装置具体可以包括如下模块：

视频图像帧获取模块510，用于获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；

第一人脸关键点检测模块520，用于根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；

第二人脸关键点检测模块530，用于基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

在本发明的一个可选实施例中，所述第二人脸关键点检测模块530可以包括如下模块：

在上述实施例的基础上，可选的，人脸关键点检测装置还可以包括帧信息选取模块。该帧信息选取模块，用于从所述视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息。例如，帧信息选取模块可以在第一人脸关键点检测模块根据所述关键帧信息确定人脸框位置信息之前，从视频图像帧获取模块获取到的视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息，从而使得第一人脸关键点检测模块可以根据所述关键帧信息确定人脸框位置信息。

在本发明的一个可选实施例中，所述第二人脸关键点检测模块530还可以包括如下子模块：

非关键帧裁剪处理子模块，用于通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理，得到非关键帧图片信息；

非关键帧人脸图片信息生成子模块，用于当所述非关键帧图片信息包含人脸图片信息时，依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，并触发非关键帧人脸关键点检测子模块将非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测；

非关键帧人脸关键点检测子模块，用于将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息。

本实施例中，可选的，所述非关键帧裁剪处理子模块在得到非关键帧图片信息之后，还用于将所述非关键帧图片信息输入到人脸检测跟踪网络中，得到人脸检测跟踪网的输出信息，所述输出信息包含人脸概率信息。

所述第二人脸关键点检测模块530还可以包括人脸图片确定子模块。该人脸图片确定子模块用于基于所述人脸概率信息确定所述非关键帧图片信息是否包含人脸图片信息，以在确定出非关键帧图片信息含人脸图片信息时触发非关键帧人脸图片信息生成子模块生成非关键帧人脸图片信息，如触发非关键帧人脸图片信息生成子模块依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息等。

在本发明的一个可选实施例中，人脸检测跟踪网的输出信息还可以包含人脸框相对位置信息和关键点相对位置信息，所述非关键帧人脸图片信息生成子模块在依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息之前，还用于依据所述人脸框相对位置信息和关键点相对位置信息，确定所述非关键帧信息的人脸关键点信息。

可选的，所述非关键帧人脸图片信息生成子模块依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，具体可以包括：基于所述非关键帧信息的人脸关键点信息，对所述关键帧信息对应的人脸关键点位置信息进行修正，得到关键点修正信息；根据所述关键点修正信息和所述初始关键点位置信息，确定关键点追踪位置信息；根据所述关键点追踪位置信息生成人脸图片裁剪框；通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理，得到所述非关键帧人脸图片信息。

在本发明的一个可选实施例中，所述第一人脸关键点检测模块520可以包括如下子模块：

关键帧信息输入子模块，用于将所述关键帧信息输入到人脸检测器中，其中，所述人脸检测器用于检测人脸框位置；

人脸框位置确定子模块，用于将所述人脸检测器的输出信息确定为所述人脸框位置信息。

需要说明的是，上述提供的人脸关键点检测装置可执行本发明任意实施例所提供的人脸关键点检测方法，具备执行方法相应的功能和有益效果。

在具体实现中，上述人脸关键点检测装置可以集成在设备中。该设备可以是两个或多个物理实体构成，也可以是一个物理实体构成，如设备可以是PC、电脑、手机、平板设备、个人数字助理、服务器、消息收发设备、游戏控制台等。

进一步的，本发明实施例还提供一种设备，包括：处理器和存储器。存储器中存储有至少一条指令，且指令由所述处理器执行，使得所述设备执行如上述方法实施例中所述的人脸关键点检测方法。

参照图6，示出了本发明一个示例中的一种设备的结构示意图。如图6所示，该设备具体可以包括：处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个，图6中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个，图6中以一个存储器61为例。该设备的处理器60、存储器 61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的人脸关键点检测方法对应的程序指令/模块(例如，人脸关键点检测装置中的视频图像帧获取模块510、第一人脸关键点检测模块520以及第二人脸关键点检测模块530等)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏62为具有触摸功能的显示屏62，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏62用于根据处理器60的指示显示数据，还用于接收作用于显示屏62的触摸操作，并将相应的信号发送至处理器60或其他装置。可选的，当显示屏62为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏62的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器 60或者其他设备。

通信装置65，用于与其他设备建立通信连接，其可以是有线通信装置和/ 或无线通信装置。

输入装置63可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是，输入装置63和输出装置64的具体组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的人脸关键点检测方法。

具体的，实施例中，处理器60执行存储器61中存储的一个或多个程序时，具体实现如下操作：获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的人脸关键点检测方法。示例性的，该人脸关键点检测方法包括：获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的人脸关键点检测方法。

值得注意的是，上述人脸关键点检测装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种人脸关键点检测方法，其特征在于，包括：

获取视频的图像帧信息，其中，所述视频的图像帧信息包含关键帧信息和非关键帧信息；

根据所述关键帧信息确定人脸框位置信息，并基于所述人脸框位置信息，通过预先训练的第一神经网络进行人脸关键点检测，得到初始关键点位置信息；

基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，其中，所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。

2.根据权利要求1所述的人脸关键点检测方法，其特征在于，所述基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，包括：

根据所述初始关键点位置信息生成图片裁剪框；

通过所述图片裁剪框对所述关键帧信息进行裁剪处理，得到关键帧人脸图片信息，并将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述关键帧信息对应的人脸关键点位置信息。

3.根据权利要求2所述的人脸关键点检测方法，其特征在于，所述根据所述关键帧信息确定人脸框位置信息之前，还包括：

从所述视频的图像帧信息中，选取出关键帧信息和所述关键帧信息对应的非关键帧信息；

其中，所述基于所述初始关键点位置信息，通过预先训练的第二神经网络进行人脸关键点检测，得到所述视频的人脸关键点检测结果，还包括：通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理，得到非关键帧图片信息；当所述非关键帧图片信息包含人脸图片信息时，依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，并将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测，得到所述非关键帧信息对应的人脸关键点位置信息。

4.根据权利要求3所述的人脸关键点检测方法，其特征在于，在得到非关键帧图片信息之后，还包括：

将所述非关键帧图片信息输入到人脸检测跟踪网络中，得到人脸检测跟踪网的输出信息，所述输出信息包含人脸概率信息；

基于所述人脸概率信息确定所述非关键帧图片信息是否包含人脸图片信息。

5.根据权利要求4所述的人脸关键点检测方法，其特征在于，所述输出信息还包含人脸框相对位置信息和关键点相对位置信息，所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息之前，还包括：

依据所述人脸框相对位置信息和关键点相对位置信息，确定所述非关键帧信息的人脸关键点信息；

其中，所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息，包括：

基于所述非关键帧信息的人脸关键点信息，对所述关键帧信息对应的人脸关键点位置信息进行修正，得到关键点修正信息；

根据所述关键点修正信息和所述初始关键点位置信息，确定关键点追踪位置信息；

根据所述关键点追踪位置信息生成人脸图片裁剪框；

通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理，得到所述非关键帧人脸图片信息。

6.根据权利要求1至5任一所述的人脸关键点检测方法，其特征在于，所述根据所述关键帧信息确定人脸框位置信息，包括：

将所述关键帧信息输入到人脸检测器中，其中，所述人脸检测器用于检测人脸框位置；

将所述人脸检测器的输出信息确定为所述人脸框位置信息。

7.一种人脸关键点检测装置，其特征在于，包括：

8.根据权利要求7所述的人脸关键点检测装置，其特征在于，所述第二人脸关键点检测模块包括：

9.一种设备，其特征在于，包括：处理器和存储器；

所述存储器中存储有至少一条指令，所述指令由所述处理器执行，使得所述设备执行如权利要求1至6任一所述的人脸关键点检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如权利要求1至6任一所述的人脸关键点检测方法。