CN110852254A

CN110852254A - 人脸关键点跟踪方法、介质、装置和计算设备

Info

Publication number: CN110852254A
Application number: CN201911085891.4A
Authority: CN
Inventors: 蔡苗苗; 尤才乾; 唐胜标; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-28
Anticipated expiration: 2039-11-08
Also published as: CN110852254B

Abstract

本发明的实施方式提供了一种人脸关键点跟踪方法、介质、人脸关键点跟踪装置和计算设备。该方法包括：确定多个人脸关键点在当前帧图像中的当前帧位置；从所述多个人脸关键点中选取多个特征点，并通过点位跟踪确定所述多个特征点在下一帧图像中的下一帧位置；根据所述多个特征点的当前帧位置和下一帧位置确定所述当前帧图像与所述下一帧图像的帧间位置映射关系；根据所述多个人脸关键点的当前帧位置以及所述帧间位置映射关系确定所述多个人脸关键点在下一帧图像中的下一帧位置。该方法具有运算速度快、计算开销小、跟踪精度高等优点。

Description

人脸关键点跟踪方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及通信及计算机技术领域，更具体地，本发明的实施方式涉及一种人脸关键点跟踪方法、介质、人脸关键点跟踪装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

人脸关键点检测和跟踪是人脸相关技术中的一项重要的基础技术，是指通过算法准确地定位出人脸上的关键点的位置，如嘴巴、眼睛、眉毛、脸颊等，并在视频流中每帧跟踪这些点的位置。人脸关键点检测及跟踪可以为后续的人脸技术提供技术支持，例如人脸识别、性别识别、年龄识别、基于人脸的美妆动效等。

对视频流逐帧进行人脸关键点检测和跟踪不仅对计算设备的计算能力提出了极高的要求，而且普遍存在计算开销大、运算速度慢、跟踪效果差等问题。

发明内容

本发明的目的在于提供一种人脸关键点跟踪方法、介质、人脸关键点跟踪装置和计算设备，至少在一定程度上克服相关技术中存在的跟踪过程开销大、耗时长、效果差等技术问题。

根据本发明的第一方面，提供一种人脸关键点跟踪方法，该方法包括：

确定多个人脸关键点在当前帧图像中的当前帧位置；

从所述多个人脸关键点中选取多个特征点，并通过点位跟踪确定所述多个特征点在下一帧图像中的下一帧位置；

根据所述多个特征点的当前帧位置和下一帧位置确定所述当前帧图像与所述下一帧图像的帧间位置映射关系；

根据所述多个人脸关键点的当前帧位置以及所述帧间位置映射关系确定所述多个人脸关键点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述确定多个人脸关键点在当前帧图像中的当前帧位置，包括：

对当前帧图像进行人脸检测以得到所述当前帧图像中的人脸区域图像；

对所述人脸区域图像进行关键点检测以得到多个人脸关键点在所述当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述对当前帧图像进行人脸检测以得到所述当前帧图像中的人脸区域图像，包括：

对当前帧图像进行人脸区域识别以在所述当前帧图像中确定多个预测人脸区域边框；

对所述多个预测人脸区域边框进行筛选和位置调整以在所述当前帧图像中确定多个候选人脸区域边框；

对所述多个候选人脸区域边框进行评分以确定目标人脸区域边框，并通过边框回归调整所述目标人脸区域边框的位置以得到所述当前帧图像中的人脸区域图像。

在本发明的一些示例性实施方式中，基于以上技术方案，所述对所述人脸区域图像进行关键点检测以得到多个人脸关键点在所述当前帧图像中的当前帧位置，包括：

调整所述人脸区域图像的尺寸以得到尺寸归一化图像；

将所述尺寸归一化图像输入包括多个卷积层的关键点检测网络，以得到多个人脸关键点的归一化位置坐标；

根据所述归一化位置坐标确定所述多个人脸关键点在所述当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述关键点检测网络中的卷积层的数量大于或者等于10个，每个所述卷积层中的卷积核的数量为32至256个。

在本发明的一些示例性实施方式中，基于以上技术方案，所述从所述多个人脸关键点中选取多个特征点，包括：

对所述当前帧图像进行角点检测以确定所述多个人脸关键点中的多个角点，并将所述角点选取为特征点。

在本发明的一些示例性实施方式中，基于以上技术方案，所述通过点位跟踪确定所述多个特征点在下一帧图像中的下一帧位置，包括：

在所述当前帧图像中确定多个特征点及其邻域所在位置的当前帧亮度信息，并在所述下一帧图像中确定相同位置处的下一帧亮度信息；

根据所述当前帧亮度信息和所述下一帧亮度信息确定所述多个特征点的移动速度；

获取所述当前帧图像与所述下一帧图像的时间间隔，并根据所述时间间隔以及所述移动速度确定所述多个特征点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述根据所述多个特征点的当前帧位置和下一帧位置确定所述当前帧图像与所述下一帧图像的帧间位置映射关系，包括：

确定由每个特征点的当前帧位置和下一帧位置组成的位置点对的点对集合；

通过从所述点对集合中随机选取多组预设数量的位置点对拟合得到多个候选映射关系；

分别确定与各个所述候选映射关系相匹配的位置点对的匹配数量；

将所述匹配数量最多的候选映射关系确定为所述当前帧图像与所述下一帧图像的帧间位置映射关系。

在本发明的一些示例性实施方式中，基于以上技术方案，在根据所述多个人脸关键点的当前帧位置以及所述帧间位置映射关系确定所述多个人脸关键点在下一帧图像中的下一帧位置之后，所述方法还包括：

获取所述多个人脸关键点的当前帧位置和下一帧位置之间的位置偏移数据；

当所述位置偏移数据大于偏移阈值时，重新检测所述下一帧图像中的人脸关键点，以更新所述多个人脸关键点在所述下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述重新检测所述下一帧图像中的人脸关键点，包括：

在所述下一帧图像中确定包围所述多个人脸关键点的区域包围框；

获取用于判断所述区域包围框内的区域图像是否为人脸图像的人脸图像评分；

当所述人脸图像评分小于或者等于所述评分阈值时，对所述下一帧图像进行人脸检测以得到所述下一帧图像中的人脸区域图像；

对所述人脸区域图像进行关键点检测以得到位置更新的多个人脸关键点；

当所述人脸图像评分大于评分阈值时，获取与所述人脸图像评分相关的区域偏移数据；

根据所述区域偏移数据调整所述区域包围框的位置，并对调整位置后的区域包围框内的区域图像进行关键点检测以得到位置更新的多个人脸关键点。

根据本发明的第二方面，提供一种介质，其上存储有程序，该程序被处理器执行时实现如以上技术方案中任一项所述的方法。

根据本发明的第三方面，提供一种人脸关键点跟踪装置，该装置包括：

当前帧位置确定模块，被配置为确定多个人脸关键点在当前帧图像中的当前帧位置；

特征点跟踪模块，被配置为从所述多个人脸关键点中选取多个特征点，并通过点位跟踪确定所述多个特征点在下一帧图像中的下一帧位置；

映射关系确定模块，被配置为根据所述多个特征点的当前帧位置和下一帧位置确定所述当前帧图像与所述下一帧图像的帧间位置映射关系；

下一帧位置确定模块，被配置为根据所述多个人脸关键点的当前帧位置以及所述帧间位置映射关系确定所述多个人脸关键点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述当前帧位置确定模块包括：

第一人脸检测单元，被配置为对当前帧图像进行人脸检测以得到所述当前帧图像中的人脸区域图像；

第一关键点检测单元，被配置为对所述人脸区域图像进行关键点检测以得到多个人脸关键点在所述当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述第一人脸检测单元包括：

边框预测子单元，被配置为对当前帧图像进行人脸区域识别以在所述当前帧图像中确定多个预测人脸区域边框；

边框筛选子单元，被配置为对所述多个预测人脸区域边框进行筛选和位置调整以在所述当前帧图像中确定多个候选人脸区域边框；

边框确定子单元，被配置为对所述多个候选人脸区域边框进行评分以确定目标人脸区域边框，并通过边框回归调整所述目标人脸区域边框的位置以得到所述当前帧图像中的人脸区域图像。

在本发明的一些示例性实施方式中，基于以上技术方案，所述第一关键点检测单元包括：

尺寸调整子单元，被配置为调整所述人脸区域图像的尺寸以得到尺寸归一化图像；

网络计算子单元，被配置为将所述尺寸归一化图像输入包括多个卷积层的关键点检测网络，以得到多个人脸关键点的归一化位置坐标；

位置确定子单元，被配置为根据所述归一化位置坐标确定所述多个人脸关键点在所述当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征点跟踪模块包括：

特征点选取单元，被配置为对所述当前帧图像进行角点检测以确定所述多个人脸关键点中的多个角点，并将所述角点选取为特征点。

亮度信息获取单元，被配置为在所述当前帧图像中确定多个特征点及其邻域所在位置的当前帧亮度信息，并在所述下一帧图像中确定相同位置处的下一帧亮度信息；

移动速度确定单元，被配置为根据所述当前帧亮度信息和所述下一帧亮度信息确定所述多个特征点的移动速度；

位置跟踪单元，被配置为获取所述当前帧图像与所述下一帧图像的时间间隔，并根据所述时间间隔以及所述移动速度确定所述多个特征点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述映射关系确定模块包括：

点对集合确定单元，被配置为确定由每个特征点的当前帧位置和下一帧位置组成的位置点对的点对集合；

映射关系拟合单元，被配置为通过从所述点对集合中随机选取多组预设数量的位置点对拟合得到多个候选映射关系；

匹配数量确定单元，被配置为分别确定与各个所述候选映射关系相匹配的位置点对的匹配数量；

映射关系确定单元，被配置为将所述匹配数量最多的候选映射关系确定为所述当前帧图像与所述下一帧图像的帧间位置映射关系。

在本发明的一些示例性实施方式中，基于以上技术方案，所述装置还包括：

偏移计算模块，被配置为获取所述多个人脸关键点的当前帧位置和下一帧位置之间的位置偏移数据；

位置更新模块，被配置为当所述位置偏移数据大于偏移阈值时，重新检测所述下一帧图像中的人脸关键点，以更新所述多个人脸关键点在所述下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上技术方案，所述位置更新模块包括：

包围框确定单元，被配置为在所述下一帧图像中确定包围所述多个人脸关键点的区域包围框；

评分获取单元，被配置为获取用于判断所述区域包围框内的区域图像是否为人脸图像的人脸图像评分；

第二人脸检测单元，被配置为当所述人脸图像评分小于或者等于评分阈值时，对所述下一帧图像进行人脸检测以得到所述下一帧图像中的人脸区域图像；

第二关键点检测单元，被配置为对所述人脸区域图像进行关键点检测以得到位置更新的多个人脸关键点；

偏移数据获取单元，被配置为当所述人脸图像评分大于所述评分阈值时，获取与所述人脸图像评分相关的区域偏移数据；

第三关键点检测单元，被配置为根据所述区域偏移数据调整所述区域包围框的位置，并对调整位置后的区域包围框内的区域图像进行关键点检测以得到位置更新的多个人脸关键点。

根据本发明的第四方面，提供一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如以上技术方案中任一项所述的方法。

在本发明提供的技术方案中，通过对部分特征点进行帧间连续跟踪，可以确定相邻两帧视频图像的帧间位置映射关系，从而准确地跟踪各个人脸关键点在多帧视频图像内的位置。该方法仅需要对视频中的少量图像进行人脸关键点检测便可以持续进行跟踪，具有运算速度快、计算开销小、跟踪精度高等优点，尤其适用于内存和计算能力有限的移动终端设备中。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了应用本发明示例性实施方式的系统架构示意图。

图2示意性地示出了一种跟踪视频中人脸关键点的整体流程。

图3示意性地示出了本发明一些示例性实施方式中的人脸关键点跟踪方法的步骤流程图。

图4示出了68点位的人脸关键点分布示意图。

图5示意性地示出了本发明一些示例性实施方式中确定人脸关键点当前帧位置的步骤流程图。

图6示意性地示出了本发明一些示例性实施方式中的一种人脸检测模型的结构框图。

图7示意性地示出了基于人脸检测模型的人脸检测方法的步骤流程图。

图8示意性地示出了一种O-Net网络结构的组成框图。

图9示意性地示出了本发明一些示例性实施方式中进行关键点检测的步骤流程图。

图10示意性地示出了本发明一些示例性实施方式中使用的关键点检测网络的组成结构。

图11示意性地示出了本发明一些示例性实施方式中利用LK光流技术进行点位跟踪的步骤流程图。

图12示意性地示出了本发明一些示例性实施方式中基于RANSAC算法确定帧间位置映射关系的步骤流程图。

图13示意性地示出了本发明一些示例性实施方式中进行跟踪失败检测的步骤流程图。

图14示意性地示出了本发明一些示例性实施方式中基于双重验证重新检测人脸关键点的步骤流程图。

图15示意性地示出了区域包围框的位置矫正效果。

图16示意性地示出了基于双重验证机制进行人脸关键点跟踪和矫正的步骤流程图。

图17示意性地示出了本发明一些示例性实施方式中的人脸关键点跟踪装置的组成框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

本发明中涉及的技术术语解释如下：

深度学习(Deep Learning)：利用深层神经网络来抽象数据的特征，以便更精准地表征数据的分布和特性。

人脸关键点：人脸上具有明显特征的关键区域点，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。

卷积神经网络(Convolutional Neural Network，CNN)：一种包含卷积操作的前馈神经网络，在大型图像处理方面有出色的表现，是深度学习的代表算法之一。

LK光流(Lucas-Kanade optical flow)：在计算机视觉中，LK光流是一种两帧差分的光流估计算法。光流是一种运动模式，这种运动模式是指一个物体、表面、边缘、在一个视角下由一个观察者(例如眼睛、摄像头等)和背景之间形成的明显移动。

随机抽样一致算法(Random Sample Consensus，RANSAC)：一种通过使用观测到的数据点来估计数学模型参数的迭代方法。其中数据点包括正确数据Inlier(可以被模型描述的数据)和异常数据Outlier(偏离正常范围很远、无法适应数学模型的数据)。Outlier对模型的估计没有价值，因此该方法也可以叫做Outlier检测方法。

此外，本发明中涉及的相关元素数量仅用于示例而非限制，以及相关元素的命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

在本发明的相关技术中，人脸关键点跟踪系统一般对视频流中的每帧图像当做单独的一张图像进行处理，对每帧图像的处理过程又可以分成两个部分：1)通过人脸检测模型进行人脸检测，如果没有在当前帧检测到人脸，则返回无人脸信息。如果检测到人脸则返回人脸在图像中的坐标位置；2)根据检测到的人脸坐标位置，划定人脸区域，将人脸区域送入到人脸关键点检测模型中，进行人脸关键点的检测，定位出人脸上的关键的点、例如眼睛、嘴巴、鼻子、轮廓等在图像上坐标。由于人脸检测部分耗时比较长，如此每帧都进行人脸检测和人脸关键点检测这两个部分，不仅所消耗时间较长，占用资源比较大，而且将视频流中的每帧图像作为单独的图像进行处理，还丢失了视频的帧间连续性这一重要信息。

目前，实现人脸关键点检测的技术主要分为传统方法(如Supvised DescentMethod，即SDM算法)和深度学习方法。而深度学习方法相较于传统方法，在算法鲁棒性上有很大的优势，例如在遮挡、大角度侧脸、光线差等条件下依然能够表现良好。然而深度学习算法计算量大、性能开销大等这些问题在应用到移动端时存在巨大的挑战。而在视频应用中，在传统的人脸关键点的跟踪技术中，每帧都需要进行人脸框的检测和人脸特征点的检测，这种方式导致算法性能低，耗时长，而且帧间点位会出现比较严重的跳动现象。这些问题在人脸特征点技术应用中是应该被考虑并解决的。

针对以上相关技术中存在的问题，本发明提出了一种轻量级的卷积神经网络结构，能够快速、精准地检测人脸关键点。在视频应用中可以利用通过LK光流和上一帧检测到的人脸关键点，计算下一帧中的人脸关键点。对人脸关键点中的有明显特征的特征关键点，使用LK光流跟踪上一帧中这些特征关键点在下一帧中的位置，使用RANSAC技术将光流跟踪的这些点和上一帧的这些点进行匹配，找到能够匹配成功的点之间的映射矩阵，并将上一帧的全部人脸关键点通过映射矩阵进行投影，投影后的点的位置即为下一帧的人脸关键点的坐标。本发明采用这种特征关键点跟踪和全量关键点映射的方式有效地提升了人脸关键点在遮挡等条件下的鲁棒性，同时也有效地减少了帧间点位的跳动现象，在关键点跟踪成功的视频帧中，无需再二次进行卷积神经网络检测人脸关键点，节省了计算开销，提升了运算速度。另外，在跟踪过程中可以使用双重判断机制判断是否跟踪失败，有效地减少了人脸检测模块的运行次数，减少了消耗，使得整套系统在移动端能够稳定且快速运行。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图1示出了应用本发明示例性实施方式的系统架构示意图。如图1所示，系统架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、POS机、车载电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备，服务端130可以为客户端110提供网络资源和数据服务。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路等。

根据实现需要，本发明示例性实施方式的系统架构可以具有任意数目的客户端、网络和服务端。例如，服务端130可以是由多个服务器设备组成的服务器群组。本发明示例性实施方式提供的人脸关键点跟踪方法可以应用于客户端110，也可以应用于服务端130，本发明对此不做特殊限定。另外，需要说明的是，由于本发明具有的性能消耗少、运行时间短等特点，尤其适用于在移动终端设备上进行人脸关键点检测和跟踪。

以本发明在客户端110的应用为例，图2示意性地示出了一种跟踪视频中人脸关键点的整体流程。如图2所示，在客户端110上对一视频进行人脸关键点跟踪的方法主要可以包括以下步骤：

步骤S210.输入视频图像。

本步骤首先在终端设备上输入需要进行人脸跟踪的视频，该视频是由多个连续的视频帧组成的视频图像序列。

步骤S220.检测人脸。

针对一帧视频图像，本步骤对其进行人脸检测，以判断该视频图像中是否存在人脸。若检测到人脸，则可以在视频图像上生成对应于人脸区域的人脸框。本步骤中进行人脸检测的视频图像可以是未开始跟踪的初始帧图像，也可以是跟踪失败后需要重新检测人脸或者人脸关键点的中间帧图像。

步骤S230.检测关键点。

由步骤S220检测到视频图像中的人脸框后，本步骤将对人脸框对应的人脸区域进行人脸关键点检测，识别并标识其中的眼睛、嘴巴、鼻子、脸部轮廓等关键点。本步骤中进行的人脸关键点检测可以利用CNN模型来实现。

步骤S240.跟踪关键点。

在得到上一帧视频图像中的人脸关键点后，本步骤将对这些关键点进行跟踪以确定其在当前帧视频图像中的位置，然后再根据当前帧图像中的关键点继续跟踪以确定其在下一帧视频图像中的位置，如此往复便可以对连续的视频流进行关键点跟踪。

步骤S250.判断是否跟踪失败。

本步骤将对每一帧视频图像的关键点跟踪效果进行判断，如果判断当前帧视频图像中的关键点跟踪成功，则返回步骤S240，继续对下一帧视频图像进行关键点跟踪；而如果判断跟踪失败，则返回步骤S220，重新对当前帧视频图像进行人脸检测和人脸关键点检测。

该方法采用人脸关键点跟踪和跟踪效果判断的方式可以对连续的视频图像进行持续跟踪，而不必频繁地进行人脸检测和关键点检测，因此可以大幅地减小性能消耗，节约资源，尤其适用于在移动终端上提高运行效率。

示例性方法

下面结合上述的应用场景，参考图3至图16来描述根据本发明示例性实施方式的人脸关键点跟踪方法。

图3示意性地示出了本发明一些示例性实施方式中的人脸关键点跟踪方法的步骤流程图。如图3所示，该方法主要可以包括以下步骤：

步骤S310.确定多个人脸关键点在当前帧图像中的当前帧位置。

需要进行人脸关键点跟踪的视频包括由多个连续的视频帧图像组成的图像序列，在当前帧图像中可以首先确定多个人脸关键点的当前帧位置。其中，当前帧位置可以是根据上一帧图像中的人脸关键点跟踪得到的位置，也可以是通过对当前帧图像进行人脸关键点检测而得到的位置。通过在当前帧图像中建立坐标系，可以确定每个人脸关键点的当前帧位置的位置坐标。

步骤S320.从多个人脸关键点中选取多个特征点，并通过点位跟踪确定多个特征点在下一帧图像中的下一帧位置。

基于步骤S310中确定的多个人脸关键点以及每个人脸关键点的当前帧位置，本步骤将从中选取部分人脸关键点作为特征点，再利用相邻两帧视频图像具有的帧间连续性的特点，通过点位跟踪确定这些特征点在下一帧图像中的下一帧位置。举例而言，步骤S310中确定的人脸关键点的当前帧位置包括了如图4所示的对应于眉毛410、眼睛420、鼻子430、嘴巴440、脸颊450等多个人脸特征区域的68个点位，本步骤可以从中选取部分角点(如眼角、眉角、嘴角、下巴等)或者轮廓点作为特征点。以角点为例，本步骤可以对当前帧图像进行角点检测以确定多个人脸关键点中的多个角点，并将角点选取为特征点。

步骤S330.根据多个特征点的当前帧位置和下一帧位置确定当前帧图像与下一帧图像的帧间位置映射关系。

根据多个特征点的当前帧位置以及跟踪确定的下一帧位置可以建立当前帧图像与下一帧图像的帧间位置映射关系。例如，可以通过对两帧相邻图像之中的特征点的位置坐标进行拟合，确定满足大多数特征点位置投影关系的映射矩阵，并将该映射矩阵作为当前帧图像与下一帧图像的帧间位置映射关系。

步骤S340.根据多个人脸关键点的当前帧位置以及帧间位置映射关系确定多个人脸关键点在下一帧图像中的下一帧位置。

按照步骤S330确定的帧间位置映射关系，将人脸关键点在当前帧图像中的当前帧位置投影至下一帧图像，便可以确定各个人脸关键点在下一帧图像中的下一帧位置，完成由当前帧图像到下一帧图像的人脸关键点位置跟踪。重复执行步骤S310至步骤S340即可对视频图像序列进行持续的人脸关键点跟踪。

在本示例性实施方式提供的人脸关键点跟踪方法中，通过对部分特征点进行帧间连续跟踪，可以确定相邻两帧视频图像的帧间位置映射关系，从而准确地跟踪各个人脸关键点在多帧视频图像内的位置。该方法仅需要对视频中的少量图像进行人脸关键点检测便可以持续进行跟踪，具有运算速度快、计算开销小、跟踪精度高等优点，尤其适用于内存和计算能力有限的移动终端设备中。

针对尚未开始人脸关键点跟踪的初始的视频图像或者发现跟踪失败而需要重新跟踪的视频图像，需要通过人脸关键点检测确定当前帧图像中的关键点的位置。图5示意性地示出了本发明一些示例性实施方式中确定人脸关键点当前帧位置的步骤流程图，如图5所示，在以上各实施方式的基础上，步骤S310.确定多个人脸关键点在当前帧图像中的当前帧位置，可以包括以下步骤：

步骤S510.对当前帧图像进行人脸检测以得到当前帧图像中的人脸区域图像。

本步骤可以利用一预先训练的人脸检测模型对当前帧图像进行人脸检测，将当前帧图像输入至人脸检测模型中可以判断图像内是否存在人脸，如果存在人脸则输出人脸所在的位置。一般可以通过一个包围人脸的矩形框对人脸所在位置进行标注，而该矩形框所包围的区域即作为人脸区域图像。如果当前帧图像内包括有多个人脸，相应可以得到多个人脸区域图像。

步骤S520.对人脸区域图像进行关键点检测以得到多个人脸关键点在当前帧图像中的当前帧位置。

为了进行人脸关键点检测，可以预先训练一关键点检测网络，将步骤S510检测得到的人脸区域图像输入至关键点检测网络中，便可以由模型输出得到每个人脸关键点在当前帧图像中的当前帧位置。

在本示例性实施方式中，首先通过对当前帧图像进行人脸检测确定图像中的人脸区域，然后再对人脸区域图像进行关键点检测，这种检测方式可以极大地缩小关键点检测的范围，提高关键点检测的精度。

在一些可选的实施方式中，本发明可以使用具有级联结构的多任务卷积神经网络(Multi-Task Convolutional Neural Network，MTCNN)进行人脸检测。图6示意性地示出了本发明一些示例性实施方式中的一种人脸检测模型的结构框图。如图6所示，该人脸检测模型主要包括第一级网络P-Net、第二级网络R-Net和第三级网络O-Net。向人脸检测模型输入待检测图像后，依次通过三级网络的分析和计算后可以输出带有人脸区域边框的图像，而人脸区域边框所在的区域即为图像中的人脸区域。下面结合图7所示的步骤流程图对该人脸检测模型的人脸检测方法做出说明。

如图7所示，在以上各实施方式的基础上，步骤S510.对当前帧图像进行人脸检测以得到当前帧图像中的人脸区域图像，可以包括以下步骤：

步骤S710.对当前帧图像进行人脸区域识别以在当前帧图像中确定多个预测人脸区域边框。

P-Net(即Proposal Network)是一个人脸区域的区域建议网络，其基本结构是一个全连接网络，该网络可以进行人脸区域的初步提取，以初步确定多个可能存在人脸的人脸区域。

本步骤利用第一级网络P-Net快速地对当前帧图像进行人脸区域识别，从当前帧图像中剔除掉大部分的非人脸区域，提取出可能是人脸的人脸预测区域，形成多个预测人脸区域边框。

步骤S720.对多个预测人脸区域边框进行筛选和位置调整以在当前帧图像中确定多个候选人脸区域边框。

R-Net(即Refine Network)，其基本的构造是一个卷积神经网络，R-Net使用一个相对于P-Net更复杂的网络结构来对P-Net生成的可能是人脸区域的预测人脸区域边框进行进一步选择和调整，从而达到高精度过滤和人脸区域优化的效果。

本步骤利用第二级网络R-Net可以进一步精细区分各个预测人脸区域边框内的图像是不是人脸，在滤除大部分错误区域后还可以对预测人脸区域边框进行位置优化，以得到更为准确的候选人脸区域边框。

步骤S730.对多个候选人脸区域边框进行评分以确定目标人脸区域边框，并通过边框回归调整目标人脸区域边框的位置以得到当前帧图像中的人脸区域图像。

O-Net(即Output Network)使用更复杂的网络结构对模型性能进行优化。图8示意性地示出了一种O-Net网络结构的组成框图，当向该网络中输入一个尺寸为48×48、通道数为3的图像后依次通过多个卷积池化单元进行卷积和池化处理以提取图像特征。其中，第一卷积池化单元810使用大小为3×3的卷积核对输入图像进行卷积处理(Convolution)，再使用3×3的过滤器对卷积结果进行最大池化(Max-Pooling)得到23×23×32的特征图；第二卷积池化单元820使用大小为3×3的卷积核对特征图进行卷积处理，再使用3×3的过滤器对卷积结果进行最大池化得到10×10×64的特征图；第三卷积池化单元830使用大小为3×3的卷积核对特征图进行卷积处理，再使用2×2的过滤器对卷积结果进行最大池化得到4×4×64的特征图；第四卷积单元840使用2×2的卷积核对特征图进行卷积处理得到3×3×128的特征图，再通过全连接层850展开为一个256维的向量。最终输出为两个分支，一个为人脸分类分支，输出为人脸的评分score，用来判断这一候选人脸区域边框是不是人脸，如果评分大于评分阈值，则将该候选人脸区域边框确定为目标人脸区域边框；另一个分支为候选人脸区域边框的左上角和右下角在X轴和Y轴上坐标的偏移量dx₁、dy₁、dx₂、dy₂，如果这一候选人脸区域边框被确定为目标人脸区域边框，则用这些偏移量来调整目标人脸区域边框以矫正人脸的位置。

在通过人脸检测模型检测到目标人脸区域边框之后，如果存在人脸的图像，会得到目标人脸区域边框的四个参数x、y、w、h。其中，x和y分别表示目标人脸区域边框的左上角在X轴和Y轴上的坐标，w和h分别表示目标人脸区域边框的宽度和高度。然后可以将目标人脸区域边框对应的人脸区域图像输入至预先训练的关键点检测网络进行关键点检测。

图9示意性地示出了本发明一些示例性实施方式中进行关键点检测的步骤流程图。如图9所示，在以上各实施方式的基础上，步骤S520.对人脸区域图像进行关键点检测以得到多个人脸关键点在当前帧图像中的当前帧位置，可以包括以下步骤：

步骤S910.调整人脸区域图像的尺寸以得到尺寸归一化图像。

通过人脸检测确定的人脸区域图像大小存在差异，为了提高关键点检测的准确性和效率，本步骤可以将各个人脸区域图像的尺寸调整至统一大小，从而得到对应的尺寸归一化图像。

步骤S920.将尺寸归一化图像输入包括多个卷积层的关键点检测网络，以得到多个人脸关键点的归一化位置坐标。

利用包括多个卷积层的关键点检测网络对尺寸归一化图像进行特征提取和分析计算后可以在每个尺寸归一化图像上确定多个人脸关键点的归一化位置坐标。

步骤S930.根据归一化位置坐标确定多个人脸关键点在当前帧图像中的当前帧位置。

归一化位置坐标是在以尺寸归一化图像为基准建立的统一坐标系内的点位坐标。根据尺寸归一化图像与人脸区域图像的缩放比例关系以及人脸区域图像在原始的当前帧图像中的位置信息可以计算得到每个人脸关键点在当前帧图像中的当前帧位置。

本示例性实施方式中使用关键点检测网络检测得到的人脸关键点的数量多少与训练样本集的种类相关，以300万人脸关键点数据集的68个人脸关键点点位为例，在不考虑阴影、遮挡等影响因素的情况下，每个人脸区域图像将对应检测到如图4所示的68个人脸关键点。

针对关键点检测网络，由于移动终端上内存和计算能力都受到限制，大型卷积神经网络涉及太多的参数，计算量大，没有办法直接在移动终端上运行。本发明中针对移动终端，设计了轻量级的卷积神经网络进行人脸关键点检测。图10示意性地示出了本发明一些示例性实施方式中使用的关键点检测网络的组成结构，该网络中的卷积层的数量大于或者等于10个，每个卷积层中的卷积核的数量为32至256个，具有网络模型小、参数少、计算速度快等特点，可以在移动终端实时运行。如图10所示，该关键点检测网络是一种轻量级卷积网络，将人脸区域首先缩放到96×96大小的彩色RGB图像，经过10个卷积层进行卷积处理，每个卷积层后可以添加归一化层Batch Normalization和激活函数ReLU，卷积之后得到1×1×256的特征图，将256个特征值展开成为一个256×1的向量，再通过全连接层输出得到136个值，这136个值即组成68个人脸关键点的归一化位置坐标(x₁,y₁,x₂,y₂,……,x₆₈,y₆₈)。本发明设计的轻量级人脸关键点检测网络，采用瘦长结构网络，卷积层数多，每个卷积层的卷积核少，因此网络的模型小、速度快，并且能够保证足够高的精度，在移动终端设备上可实时运行。

在视频流中，通过以上示例性实施方式提供的方案可以得到当前帧图像上的人脸关键点的当前帧位置，根据视频帧间的连续性，那么在下一帧图像中的人脸关键点的下一帧位置也不会相差太大。举例而言，本发明可以在人脸的68个关键点中选取具有明显角点特征的22个特征点(如眼角、眉角、嘴角、下巴等)，这22个特征点的当前帧位置坐标整体表示为(mx₁,my₁,mx₂,my₂,……,mx₂₂,my₂₂)，然后可以使用LK光流技术跟踪这22个特征点在下一帧图像中的下一帧位置坐标(nx₁,ny₁,nx₂,ny₂,……,nx₂₂,ny₂₂)。

图11示意性地示出了本发明一些示例性实施方式中利用LK光流技术进行点位跟踪的步骤流程图。LK光流法满足如下三个假设条件：

(1)亮度恒定：一个像素点随着时间的变化，其亮度值(像素灰度值)是恒定不变的。

(2)小运动：时间的变化不会引起位置的剧烈变化。基于该假设可以利用相邻帧之间的位置变化引起的灰度值变化，去求取灰度对位置的偏导数。

(3)空间一致：即当前帧中相邻像素点在后一帧中也是相邻的。为了求取沿X轴及Y轴方向的移动速度，需要建立多个方程联立求解。而空间一致假设就可以利用邻域n个像素点来建立n个方程。

基于以上三个假设条件，通过LK光流技术可以在相邻两帧视频图像之间对特征点进行点位跟踪。如图11所示，在以上各实施方式的基础上，步骤S320中的通过点位跟踪确定多个特征点在下一帧图像中的下一帧位置，可以包括以下步骤：

步骤S1110.在当前帧图像中确定多个特征点及其邻域所在位置的当前帧亮度信息，并在下一帧图像中确定相同位置处的下一帧亮度信息。

根据亮度恒定假设，同一个特征点在当前帧图像以及下一帧图像中应当具有相同的亮度信息。同时基于小运动假设和空间一致假设，该特征点与其邻域点的位置关系是相对固定的。因此，本步骤首先获取当前帧图像中每个特征及其邻域所在位置的当前帧亮度信息，同时获取下一帧图像中相同位置处的下一帧亮度信息。

步骤S1120.根据当前帧亮度信息和下一帧亮度信息确定多个特征点的移动速度。

以3×3的邻域窗口为例，每个特征点可以确定包括其自身位置以及邻域位置的9个像素点，根据这9个像素点的当前帧亮度信息和下一帧亮度信息可以建立9个方程，然后通过方程求解可以确定特征点的光流(v_x,v_y)，即可以确定每个特征点沿X轴的移动速度v_x和Y轴的移动速度v_y。

步骤S1130.获取当前帧图像与下一帧图像的时间间隔，并根据时间间隔以及移动速度确定多个特征点在下一帧图像中的下一帧位置。

在确定各个特征点的移动速度后，再根据两帧图像的时间间隔结合各个特征点在当前帧图像中的当前帧位置，可以计算得到每个特征点在下一帧图像中的下一帧位置。

在点位跟踪过程中，默认每个特征点的当前帧位置和下一帧位置是一一匹配的关系，但是由于管线、遮挡等因素会导致某些特征点跟踪失败。那么这些跟踪失败的特征点对于确定帧间位置映射关系而言属于误差点，是需要被剔除的。为了获取准确的帧间位置映射关系，可以通过随机抽样一致算法(Random Sample Consensus，RANSAC)去除其中跟踪失败的特征点。

图12示意性地示出了本发明一些示例性实施方式中基于RANSAC算法确定帧间位置映射关系的步骤流程图。如图12所示，在以上各实施方式的基础上，步骤S340.根据多个特征点的当前帧位置和下一帧位置确定当前帧图像与下一帧图像的帧间位置映射关系，可以包括以下步骤：

步骤S1210.确定由每个特征点的当前帧位置和下一帧位置组成的位置点对的点对集合。

由一个特征点的当前帧位置和下一帧位置可以形成一组具有映射关系的位置点对，每个特征点对应的位置点对可以共同组成一个点对集合。举例而言，从人脸关键点中选取得到22个特征点，那么这22个特征点可以对应确定由22组位置点对构成的点对集合。

步骤S1220.通过从点对集合中随机选取多组预设数量的位置点对拟合得到多个候选映射关系。

采用随机抽样的方式，可以从点对集合中选取出多组预设数量的位置点对，例如每次抽样均可以随机选取4组位置点对。由每次抽样得到的4组位置点对均可以计算得到一个3×3的单应性矩阵(Homography Matrix)，一个单应性矩阵即作为一个候选映射关系。如果抽样次数为N次，那么本步骤便可以相应确定N个候选映射关系。

步骤S1230.分别确定与各个候选映射关系相匹配的位置点对的匹配数量。

针对步骤S1220得到的每个候选映射关系，将其分别与点对集合中的其他位置点对进行匹配检测以确定匹配数量。一个由4组位置点对拟合得到的单应性矩阵可以与点对集合中的其他18个位置点对进行匹配检测，确定这18个位置点对中能够满足该单应性矩阵的映射关系的匹配数量。

步骤S1240.将匹配数量最多的候选映射关系确定为当前帧图像与下一帧图像的帧间位置映射关系。

如果一个候选映射关系能够匹配最多数量的位置点对，那么该候选映射关系可以被确定为当前帧图像与下一帧图像的帧间位置映射关系。后续可以继续利用帧间位置映射关系对其他的人脸关键点进行帧间映射，从而实现人脸关键的跟踪。

以68个人脸关键点的检测跟踪为例，利用作为帧间位置映射关系的单应性矩阵进行点位跟踪的映射关系如下：

w＝M₆*mx_i+M₇*my_i+M₈

i＝1,2,3,…,68

其中，(mx_i,my_i)表示一个人脸关键点在当前帧图像中的当前帧位置，(nx_i,ny_i)表示同一个人脸关键点在下一帧图像中的下一帧位置，M表示作为帧间位置映射关系的具有最优点对映射效果的单应性矩阵。由以上公式计算得到的点位坐标(nx₁,ny₁,nx₂,ny₂,…,nx₆₈,ny₆₈)即为68个人脸关键点在下一帧图像中的下一帧位置。如此得到的关键点能够满足整体点位的约束，对于部分遮挡点而言，其整体约束关系不变，因此具有比较好的稳定性。同时，如此种方式获得的人脸关键点点位满足LK光流跟踪的帧间映射关系，因此能有效的减少帧间点位的跳动。

使用LK光流技术跟踪人脸上的部分特征点，并利用跟踪到的下一帧特征点和当前帧的特征点之间的映射关系，将当前帧的人脸形状映射到下一帧的图像上得到下一帧的人脸关键点，这种方法不仅减少了每帧之间点位的抖动，还保证了个别点如果因为遮挡等引起的点位漂移，提高了对遮挡的鲁棒性，同时又由于不需要每帧图像都去进行卷积神经网络检测人脸关键点，节省了性能开销，提升了速度。

在点位跟踪过程中，如何验证跟踪失败，也是一个很重要的问题。如果无法及时发现跟踪失败了，会导致错误的累计，然后人脸关键点的坐标误差会越来越大。图13示意性地示出了本发明一些示例性实施方式中进行跟踪失败检测的步骤流程图。如图13所示，基于以上各实施方式，在步骤S340.根据多个人脸关键点的当前帧位置以及帧间位置映射关系确定多个人脸关键点在下一帧图像中的下一帧位置之后，人脸关键点跟踪方法还包括以下步骤：

步骤S1310.获取多个人脸关键点的当前帧位置和下一帧位置之间的位置偏移数据。

每个人脸关键点的当前帧位置和下一帧位置之间可以存在一定的偏移量，基于每个人脸关键点的偏移量可以计算得到人脸区域的位置偏移数据。例如可以将所有人脸关键点的偏移量的平均值和方差作为位置偏移数据。

步骤S1320.当位置偏移数据大于偏移阈值时，重新检测下一帧图像中的人脸关键点，以更新多个人脸关键点在下一帧图像中的下一帧位置。

如果位置偏移数据超过某一预设的偏移阈值，可以认为由当前帧图像到下一帧图像的人脸关键点跟踪可能出现了跟踪失败的问题。因此，可以对下一帧图像重新检测人脸关键点，从而更新多个人脸关键点在下一帧图像中的下一帧位置。

在判断是否跟踪失败时，如果判断太过于敏感，会频繁启动不必要的人脸检测，这会导致功耗变大，资源开销变大。因此，在一些可选的实施方式中，本发明采用了双重验证机制。图14示意性地示出了本发明一些示例性实施方式中基于双重验证重新检测人脸关键点的步骤流程图。如图14所示，在以上各实施方式的基础上，步骤S1320中的重新检测下一帧图像中的人脸关键点，可以包括以下步骤：

步骤S1410.在下一帧图像中确定包围多个人脸关键点的区域包围框。

包围人脸关键点的区域包围框可以是一个矩形框。以68个人脸关键点为例，本步骤可以获取68个人脸关键点在下一帧图像中的下一帧位置的位置坐标，然后取68个人脸关键点中的取值最小的X轴坐标和Y轴坐标作为区域包围框的左上角的坐标(x₁,y₁)，同时取68个人脸关键点中的取值最大的X轴和Y轴坐标作为区域包围框的右下角的坐标(x₂,y₂)。

步骤S1420.获取用于判断区域包围框内的区域图像是否为人脸图像的人脸图像评分。

人脸图像评分可以通过将区域包围框内的区域图像输入预先训练的人脸检测模型中进行特征提取和分析计算得到。例如，本步骤可以将区域图像输入至如以上实施方式中提供的人脸检测模型中的第三级网络O-Net，由第三级网络O-Net可以得到两种输出参数。其中一种参数是人脸图像评分score，该评分表示该区域图像为人脸图像的概率，score越大表示是人脸的概率越大。另一种参数是该区域图像对应的区域包围框的左上角和右下角两点的偏移量dx₁、dy₁、dx₂、dy₂。

步骤S1430.当人脸图像评分小于或者等于评分阈值时，对下一帧图像进行人脸检测以得到下一帧图像中的人脸区域图像。

本步骤根据人脸图像评分判断区域图像是否属于人脸图像，如果人脸图像评分小于或者等于一定的评分阈值，那么认为下一帧图像中区域包围框内的区域图像不是人脸图像，即表示人脸关键点跟踪失败了，这时需要重新对下一帧图像进行人脸检测以确定该图像中的人脸区域图像。

步骤S1440.对人脸区域图像进行关键点检测以得到位置更新的多个人脸关键点。

在重新确定下一帧图像中的人脸区域图像后，可以再对人脸区域图像进行关键点检测以得到位置更新的多个人脸关键点。本步骤中可以利用如以上实施方式中使用的关键点检测网络进行关键点检测。

步骤S1450.当人脸图像评分大于评分阈值时，获取与人脸图像评分相关的区域偏移数据。

如果人脸图像评分大于评分阈值，说明区域包围框内的区域图像依然是人脸图像，表示跟踪并没有丢失。但是由于位置偏移数据已超出偏移阈值，表明该区域包围框与准确的人脸图像区域之间仍存在一定的偏差，因此本步骤可以获取与人脸图像评分相关的区域偏移数据，用以对区域包围框进行位置调整。例如该区域偏移数据可以是通过以上实施方式中提供的人脸检测模型中的第三级网络O-Net输出的区域包围框的左上角和右下角两点的偏移量dx₁、dy₁、dx₂、dy₂。

步骤S1460.根据区域偏移数据调整区域包围框的位置，并对调整位置后的区域包围框内的区域图像进行关键点检测以得到位置更新的多个人脸关键点。

这里使用人脸检测模型中的第三级网络O-Net输出的偏移量作为区域偏移数据，对区域包围框进行位置矫正，然后再将新矫正的区域包围框所对应的人脸区域图像输入到关键点检测网络进行人脸关键点检测。图15示意性地示出了区域包围框的位置矫正效果，如图15所示，矫正前的区域包围框整体位于人脸图像的左侧，人脸图像的右侧脸颊以及部分眼睛、眉毛等区域分布在区域包围框之外。经过矫正后的区域包围框则能够基本完整地包围人脸区域。利用O-Net输出的区域包围框的左上角和右下角两点的偏移量dx₁、dy₁、dx₂、dy₂可以通过如下公式对调整区域包围框的位置：

其中x₁、y₁、x₂和y₂是位置矫正前的区域包围框的左上角和右下角坐标，

和是位置矫正后的区域包围框的左上角和右下角坐标，w₀和h₀分别是区域包围框的宽度和高度。

这种双重验证机制，既保证了对跟踪失败的高度敏感性，同时又能避免不必要的人脸检测过程，提高性能，在移动端执行的时候，能大大节省计算资源。图16示意性地示出了基于双重验证机制进行人脸关键点跟踪和矫正的步骤流程图。如图16所示，整体的人脸关键点跟踪流程包括以下步骤：

步骤S1610.获取当前帧视频图像的人脸关键点。

步骤S1620.利用LK光流跟踪人脸关键点。

步骤S1630.确定下一帧视频图像的人脸关键点。

步骤S1640.计算前后两帧视频图像中人脸关键点的位置偏移数据，并判断位置偏移数据是否大于偏移阈值。如果位置偏移数据小于或者等于偏移阈值，则返回步骤S1620，继续利用LK光流跟踪人脸关键点。如果位置偏移数据大于偏移阈值，则执行步骤S1650。

步骤S1650.利用人脸检测模型中的第三级网络O-Net判断人脸关键点所在区域是否为人脸区域图像。如果判断不是人脸区域图像，则执行步骤S1660。如果判断是人脸区域图像，则跳转至步骤S1670。

步骤S1660.对下一帧视频图像重新进行人脸检测，以确定下一帧视频图像中的人脸区域图像。

步骤S1670.对人脸区域图像进行关键点检测，以更新步骤S1630中确定的下一帧视频图像中的人脸关键点。

不断重复以上流程，便可以实现在视频流中对连续的视频图像进行持续的人脸关键点跟踪。使用双重验证机制判断人脸关键点跟踪过程中跟踪失败的情况，可以及时对跟踪失败的人脸点位进行校正，减少由于点位跟踪失败引起的严重点位错误等情况，同时又能减少不必要的人脸检测的执行，节省计算开销。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的人脸关键点跟踪方法中的步骤。

在本发明的一些示例性实施方式中，所述设备的处理器执行所述程序代码时可以用于实现如图3所示的以下步骤：

在本发明的其他一些实施方式中，所述设备的处理器执行所述程序代码时也可以用于实现如图4至图16所示的各个方法步骤。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图17对本发明示例性实施方式的人脸关键点跟踪装置进行说明。

图17示意性地示出了本发明一些示例性实施方式中的人脸关键点跟踪装置的组成框图。如图17所示，人脸关键点跟踪装置1700主要可以包括：

当前帧位置确定模块1710，被配置为确定多个人脸关键点在当前帧图像中的当前帧位置；

特征点跟踪模块1720，被配置为从多个人脸关键点中选取多个特征点，并通过点位跟踪确定多个特征点在下一帧图像中的下一帧位置；

映射关系确定模块1730，被配置为根据多个特征点的当前帧位置和下一帧位置确定当前帧图像与下一帧图像的帧间位置映射关系；

下一帧位置确定模块1740，被配置为根据多个人脸关键点的当前帧位置以及帧间位置映射关系确定多个人脸关键点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上各实施方式，当前帧位置确定模块1710可以包括：

第一人脸检测单元1711，被配置为对当前帧图像进行人脸检测以得到当前帧图像中的人脸区域图像；

第一关键点检测单元1712，被配置为对人脸区域图像进行关键点检测以得到多个人脸关键点在当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上各实施方式，第一人脸检测单元1711可以进一步包括：

边框预测子单元，被配置为对当前帧图像进行人脸区域识别以在当前帧图像中确定多个预测人脸区域边框；

边框筛选子单元，被配置为对多个预测人脸区域边框进行筛选和位置调整以在当前帧图像中确定多个候选人脸区域边框；

边框确定子单元，被配置为对多个候选人脸区域边框进行评分以确定目标人脸区域边框，并通过边框回归调整目标人脸区域边框的位置以得到当前帧图像中的人脸区域图像。

在本发明的一些示例性实施方式中，基于以上各实施方式，第一关键点检测单元1712可以进一步包括：

尺寸调整子单元，被配置为调整人脸区域图像的尺寸以得到尺寸归一化图像；

网络计算子单元，被配置为将尺寸归一化图像输入包括多个卷积层的关键点检测网络，以得到多个人脸关键点的归一化位置坐标；

位置确定子单元，被配置为根据归一化位置坐标确定多个人脸关键点在当前帧图像中的当前帧位置。

在本发明的一些示例性实施方式中，基于以上各实施方式，关键点检测网络中的卷积层的数量大于或者等于10个，每个卷积层中的卷积核的数量为32至256个。

在本发明的一些示例性实施方式中，基于以上各实施方式，特征点跟踪模块1720包括：

特征点选取单元1721，被配置为对当前帧图像进行角点检测以确定多个人脸关键点中的多个角点，并将角点选取为特征点。

在本发明的一些示例性实施方式中，基于以上各实施方式，特征点跟踪模块还包括：

亮度信息获取单元1722，被配置为在当前帧图像中确定多个特征点及其邻域所在位置的当前帧亮度信息，并在下一帧图像中确定相同位置处的下一帧亮度信息；

移动速度确定单元1723，被配置为根据当前帧亮度信息和下一帧亮度信息确定多个特征点的移动速度；

位置跟踪单元1724，被配置为获取当前帧图像与下一帧图像的时间间隔，并根据时间间隔以及移动速度确定多个特征点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上各实施方式，映射关系确定模块1730包括：

点对集合确定单元1731，被配置为确定由每个特征点的当前帧位置和下一帧位置组成的位置点对的点对集合；

映射关系拟合单元1732，被配置为通过从点对集合中随机选取多组预设数量的位置点对拟合得到多个候选映射关系；

匹配数量确定单元1733，被配置为分别确定与各个候选映射关系相匹配的位置点对的匹配数量；

映射关系确定单元1734，被配置为将匹配数量最多的候选映射关系确定为当前帧图像与下一帧图像的帧间位置映射关系。

在本发明的一些示例性实施方式中，基于以上各实施方式，人脸关键点检测装置1700还包括：

偏移计算模块1750，被配置为获取多个人脸关键点的当前帧位置和下一帧位置之间的位置偏移数据；

位置更新模块1760，被配置为当位置偏移数据大于偏移阈值时，重新检测下一帧图像中的人脸关键点，以更新多个人脸关键点在下一帧图像中的下一帧位置。

在本发明的一些示例性实施方式中，基于以上各实施方式，位置更新模块1760包括：

包围框确定单元1761，被配置为在下一帧图像中确定包围多个人脸关键点的区域包围框；

评分获取单元1762，被配置为获取用于判断区域包围框内的区域图像是否为人脸图像的人脸图像评分；

第二人脸检测单元1763，被配置为当人脸图像评分小于或者等于评分阈值时，对下一帧图像进行人脸检测以得到下一帧图像中的人脸区域图像；

第二关键点检测单元1764，被配置为对人脸区域图像进行关键点检测以得到位置更新的多个人脸关键点；

偏移数据获取单元1765，被配置为当人脸图像评分大于评分阈值时，获取与人脸图像评分相关的区域偏移数据；

第三关键点检测单元1766，被配置为根据区域偏移数据调整区域包围框的位置，并对调整位置后的区域包围框内的区域图像进行关键点检测以得到位置更新的多个人脸关键点。

以上各示例性实施方式中的人脸关键点检测装置的具体细节已在相应的示例性方法部分做出详细说明，因此此处不再赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的人脸关键点跟踪方法中的步骤。

例如，所述处理器可以执行如图3中所示的以下方法步骤：

又如，所述处理器也可以执行如图4至图16中所示的各个方法步骤。

应当注意，尽管在上文详细描述中提及了人脸关键点检测装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种人脸关键点跟踪方法，包括：

确定多个人脸关键点在当前帧图像中的当前帧位置；

2.根据权利要求1所述的人脸关键点跟踪方法，所述确定多个人脸关键点在当前帧图像中的当前帧位置，包括：

3.根据权利要求2所述的人脸关键点跟踪方法，所述对当前帧图像进行人脸检测以得到所述当前帧图像中的人脸区域图像，包括：

4.根据权利要求2所述的人脸关键点跟踪方法，所述对所述人脸区域图像进行关键点检测以得到多个人脸关键点在所述当前帧图像中的当前帧位置，包括：

调整所述人脸区域图像的尺寸以得到尺寸归一化图像；

5.根据权利要求4所述的人脸关键点跟踪方法，所述关键点检测网络中的卷积层的数量大于或者等于10个，每个所述卷积层中的卷积核的数量为32至256个。

6.根据权利要求1所述的人脸关键点跟踪方法，所述从所述多个人脸关键点中选取多个特征点，包括：

7.根据权利要求1所述的人脸关键点跟踪方法，所述通过点位跟踪确定所述多个特征点在下一帧图像中的下一帧位置，包括：

8.一种介质，其上存储有程序，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

9.一种人脸关键点跟踪装置，包括：

10.一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至7中任一项所述的方法。