CN110008793A

CN110008793A - 人脸识别方法、装置及设备

Info

Publication number: CN110008793A
Application number: CN201810012227.6A
Authority: CN
Inventors: 潘伟森; 李俭; 高黎明
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2019-07-12

Abstract

本发明提供一种人脸识别方法、装置及设备，其中该方法包括：提取视频文件的关键帧；确定所述关键帧后播放的预设数量的图像帧为非关键帧；对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像；根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像。本发明所述人脸识别方法和装置，只对视频文件的关键帧进行人脸识别，对关键帧后播放的预设数量的图像帧进行人脸跟踪，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，从而解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

Description

人脸识别方法、装置及设备

技术领域

本发明涉及人工智能技术领域，尤其是指一种人脸识别方法、装置及设备。

背景技术

人脸识别是一种利用人脸面部的稳定特征进行身份认证的生物特征技术，它具有友好，方便、准确、直观、非强制性和非接触性的特点，近年来受到了广泛的关注，尤其是对于智能安防、金融支付和访问控制等领域起着越来越重要的作用。

目前的人脸识别研究主要是不断提出新的卷积神经网络，达到提高人脸识别的准确度处理速度的目标。基于图片的人脸粗粒度识别已经做得很成熟，比较有代表意义的就是使用DeepFace、DeepID2或VGG-Face进行人脸识别。但是，基于视频的人脸识别目前还是有很大的问题，主要体现在视频检测处理的速度和精度上面。

传统的视频人脸识别方法都是逐帧对图片中的人脸进行检测和识别，每一帧都要通过深度卷积神经网络运算一次。这种运算的最大缺点就是计算量大，每做一次深度网络的运算都需要耗费大量的计算机资源。

发明内容

本发明技术方案的目的在于提供一种人脸识别方法、装置及设备，用于解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

本发明实施例一方面提供一种人脸识别方法，其中，包括：

提取视频文件的关键帧；

确定所述关键帧后播放的预设数量的图像帧为非关键帧；

对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像；

根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像。

优选地，所述的人脸识别方法，其中，所述对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像的步骤包括：

将所述关键帧输入至经过预先训练获得的人脸识别网络模型中，获得所述关键帧中的人脸特征图像；

其中，所述人脸识别网络模型是通过卷积神经网络模型对包括多张相似人脸的样本图片进行人脸的特征训练获得。

优选地，所述的人脸识别方法，其中，所述根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤之后，所述方法还包括：

利用所述关键帧中的人脸图像和所述非关键帧中的人脸图像，对所述人脸识别网络模型进行端到端的训练。

优选地，所述的人脸识别方法，其中，所述卷积神经网络模型包括多个卷积层，其中每一卷积层均包括一3×3的滤波器。

优选地，所述的人脸识别方法，其中，所述卷积神经网络的每一卷积层均附有非线性激活函数，且第一个卷积层、第二个卷积层、第四个卷积层和第六个卷积层后均连接有池化层。

优选地，所述的人脸识别方法，其中，所述卷积神经网络模型还包括连接在最后一个卷积层后的全连接层和K类分类器softmax层。

优选地，所述的人脸识别方法，其中，所述根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤包括：

利用初始化的KCF算法跟踪器，对所述非关键帧中与所述关键帧中的人脸图像对应的图像进行跟踪，确定所述非关键帧中与所述关键帧中的人脸图像对应的图像具有与所述关键帧中的人脸图像对应的身份信息。

优选地，所述的人脸识别方法，其中，所述提取视频文件的关键帧的步骤中，提取视频文件的多个关键帧；

其中，确定所述关键帧后播放的预设数量的图像帧为非关键帧的步骤中：

确定相邻两个关键帧之间的图像帧为非关键帧。

优选地，所述的人脸识别方法，其中，所述对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像的步骤中，对每一关键帧分别进行人脸识别，获得每一所述关键帧中的人脸图像；

所述根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤中，

根据每一所述关键帧中的人脸图像，对相应的所述非关键帧进行人脸跟踪，获得与每一所述关键帧对应的每一所述非关键帧中的人脸图像。

本发明具体实施例另一方面还提供一种人脸识别装置，其中，包括：

图像提取模块，用于提取视频文件的关键帧；

数据确定模块，用于确定所述关键帧后播放的预设数量的图像帧为非关键帧；

识别模块，用于对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像；

跟踪模块，用于根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像。

本发明实施例还提供一种人脸识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器执行所述程序时执行如上中任一项所述的人脸识别方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上中任一项所述的人脸识别方法中的步骤。

本发明的上述技术方案中的至少一个具有以下有益效果：

本发明具体实施例所述人脸识别方法和装置，只对视频文件的关键帧进行人脸识别，对关键帧后播放的预设数量的图像帧进行人脸跟踪，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，从而解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

附图说明

图1为本发明具体实施例所述人脸识别方法的流程示意图；

图2为采用本发明具体实施例所述人脸识别方法，在进行人脸识别和人脸跟踪时的流程示意图；

图3为采用本发明具体实施例所述人脸识别方法，所使用人脸识别网络模型的架构示意图；

图4为采用本发明具体实施例所述人脸识别方法，对非关键帧进行人脸跟踪时的过程示意图；

图5为本发明具体实施例所述人脸识别装置的结构示意图；

图6为本发明具体实施例所述人脸识别设置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明具体实施例所述人脸识别方法，包括：

S110，提取视频文件的关键帧；

S120，确定所述关键帧后播放的预设数量的图像帧为非关键帧；

S130，对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像；

S140，根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像。

本发明具体实施例所述人脸识别方法，采用只对视频文件的关键帧进行人脸识别，对关键帧后播放的预设数量的图像帧进行人脸跟踪的方式，能够进行视频文件的人脸识别，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，从而解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

另外，对于视频文件中的非关键帧，利用关键帧的识别结果进行人脸跟踪，人脸跟踪过程对于遮挡、动态模糊和光照等恶劣情况下的图像帧中的人脸图片也能够有效识别，可以应用于不同显示质量的视频文件中。

具体地，步骤S130中，对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像的步骤包括：

将所述关键帧输入至经过预先训练获得的人脸识别网络模型中，获得所述关键帧中的人脸图像；

采用上述方式，利用多张相似人脸的样本图片进行人脸的特征训练获得人脸识别网络模型，可以大大提高人脸识别精度，达到超细粒度人脸识别，达到可以识别出肉眼无法甄别的两个极其相似的人的目的，例如可以识别双胞胎。

因此，采用本发明具体实施例所述人脸识别方法，不但能够提高视频文件的人脸识别的速度，也能够达到提高人脸识别精度的目的。

较佳地，本发明具体实施例所述人脸识别方法，在步骤S140之后，还进一步包括：

通过所识别出的关键帧中的人脸图像和非关键帧中的人脸图像，对人脸识别网络模型进行端到端的训练，达到提高人脸识别网络模型进行视频检测精度的目的。

具体地，参阅图2和图3，并结合图1，采用本发明具体实施例所述人脸识别方法的详细过程可以为：

在步骤S110和步骤S120之前，对视频文件的每一图像帧进行预处理，具体进行预处理的步骤可以包括：

检测每一图像帧中的人脸；

检测每一图像帧中人脸的关键点特征；

对每一图像帧中的人脸进行对齐处理，使每一图像帧中人脸的关键点特征均位于图像帧中相对应的预设位置；

对进行对齐处理的图像帧进行归一化和校正；

将进行归一化和校正的每一图像帧均转换为预设分辨率的图片，获得预处理后的图像帧。

在进行上述的图像预处理之后，通过步骤S110和S120，提取视频文件中的关键帧，确定所提取的关键帧后播放的预设数量的图像帧为非关键帧。具体地，可以采用ffmpeg提取视频文件中的关键帧。

另外，步骤S110，提取视频文件的关键帧的步骤中，提取视频文件的多个关键帧；

其中，步骤S120，确定关键帧后播放的预设数量的图像帧为非关键帧的步骤中：

确定相邻两个关键帧之间的图像帧为非关键帧。

较佳地，在步骤S120后，根据图2，视频文件中的每一图像帧均被贴上关键帧或者非关键帧的标签。

采用上述的过程，对于贴附关键帧标签的图像帧，执行步骤S130的过程，采用预先训练获得的人脸识别网络模型进行人脸识别和检测；对于贴附非关键帧标签的图像帧，执行步骤S140，根据关键帧的人脸识别结果，进行人脸的跟踪检测。

具体地，步骤S130中，人脸识别网络模型是通过卷积神经网络模型对包括多张相似人脸的样本图片进行人脸的特征训练获得，也即人脸识别网络模型的训练数据来源于相似人脸数据库FGLFW(Fine-grained Labeled Faces in the Wild Database)，该数据库在在经典的LFW(Labeled Faces in the Wild)中数据库挑选了3000对外貌相似人脸。

另外，结合图3，人脸识别网络模型所采用的卷积神经网络模型包括九个层，具体地包括输入层、七个卷积层、全连接层和K类分类器softmax层，其中输入层、七个卷积层、全连接层和K类分类器softmax层依次连接。

在卷积神经网络模型所包括的各层中，具体地：

在进行特征训练时，输入层Input数据来源于相似人脸数据库FGLFW人脸图片，且较佳地输入的为RGB格式的104×96像素的人脸图片；

七个卷积层中，每个卷积层都附带一个非线性激活函数ReLu，每一卷积层都包括3×3的滤波器，以可以学习区分细粒度的面部结构；

在第七个卷积层Conv7后连接了一个Dropout层，较佳地，该Dropout层设置的丢失率是0.3，以可以解决神经网络中的过拟合问题；

第一个卷积层、第二个卷积层、第四个卷积层和第六个卷积层后均连接有池化层，每一池化层均采用最大池化的方法；

全连接层之后连接有一个maxout层，该maxout层的设置可以防止过拟合，而且该maxout层不是一个固定的函数，而是一个可学习的激活函数，使得算法具有更强的鲁棒性。

Maxout层的输出包含了1800个神经单元，该些数量的神经单元可以作为K类分类器softmax层的输入。通过K类分类器softmax层，在将关键帧输入至上述通过相似人脸数据库FGLFW进行训练后获得的人脸识别网络模型中时，可以对人脸进行检测判别，最后识别出相应人脸的身份。

基于上述的方式，本发明具体实施例所述人脸识别方法，在利用相似人脸数据库FGLFW完在训练后，将关键帧输入至输入层中，也即将关键帧输入至上述通过多张相似人脸的样本图片进行人脸的特征训练获得的网络模型中，最后能够识别出相应人脸的身份信息，如图2所示，获得关键帧中的人脸图像。

本发明具体实施例所述人脸识别方法，通过上述方式，可以通过极细粒度的算法进行细微特征的辨别，达到超细粒度人脸识别，可以识别出肉眼无法甄别的两个极其相似的人脸。

比较如下表一中的数据，传统的DeepFace算法、DeepID2算法以及经典的VGG-Face算法，在LFW的粗粒度层次的识别率很高，但是在相似人脸数据库FGLFW的细粒度的识别率却仅为80％左右，没有突破90％。而采用本发明实施例所述人脸识别方法，不仅在经典的LFW人脸数据库的识别结果较佳，而且在相似人脸数据库FGLFW的识别精准率也超过了90％。

表1各种算法结果对比

具体地，步骤S140，根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤包括：

利用初始化的KCF(Kernelized Correlation Filter)算法跟踪器，对非关键帧中与关键帧中的人脸图像对应的图像进行跟踪，确定非关键帧中与关键帧中的人脸图像对应的图像具有与关键帧中的人脸图像对应的身份信息。

本发明具体实施例中，KCF算法跟踪器是基于KCF算法，并将相关滤波引入跟踪算法获得，采用该KCF算法跟踪器能够增强对目标外观的描述能力，使之对跟踪目标的解释能力更强。另外，KCF算法跟踪器在人脸跟踪上对光照变化、遮挡、旋转、运动模糊以及背景杂乱等视频都有很好的跟踪效果。

采用本发明具体实施例所述人脸识别方法，在每个关键帧的地方都进行KCF算法跟踪器的初始化，这样可以根据每一关键帧的人脸识别进行非关键帧的跟踪，每次更新所跟踪人脸的尺寸大小，以避免跟踪帧数过多导致的最后跟踪目标消失问题。

具体地，根据图4，在提取视频文件的多个关键帧之后，确定相邻两个关键帧之间的图像帧为非关键帧，具体步骤S140，根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤中，

根据每一关键帧中的人脸图像，对相应的非关键帧进行人脸跟踪，获得与每一关键帧对应的每一非关键帧中的人脸图像。

结合图2和图4，在识别视频文件中的关键帧和非关键帧，并进行标签贴附之后，以及在通过上述的方式识别出关键帧中的人脸图像之后，具体地进行非关键帧的人脸跟踪过程可以为：

在视频文件的第1个关键帧的位置，初始化KCF算法跟踪器；将第1个关键帧输入至KCF算法跟踪器后，进行与第1个关键帧与第2个关键帧之间的非关键帧的人脸跟踪，确定与第1个关键帧对应的每一非关键帧中的人脸图像，并基于第1个关键帧所识别的人脸图像的身份信息，确定非关键帧中人脸图像的身份信息；

在完成上述第1个关键帧与第2个关键帧之间的非关键帧的人脸跟踪，到达第2个关键帧时停止跟踪；

在第2个关键帧处更新KCF算法跟踪器，也即初始化KCF算法跟踪器，包括重新确定第2个关键帧中是不是有新的人脸出现，或者第1个关键帧中的人脸有没有丢失。另外，由于KCF对于人脸尺度变化不敏感，当前人脸的大小重写为第2个关键帧所检测到的人脸的大小；

基于上述更新后的KCF算法跟踪器，将第2个关键帧输入至KCF算法跟踪器后，进行与第2个关键帧与第3个关键帧之间的非关键帧的人脸跟踪，确定与第2个关键帧对应的每一非关键帧中的人脸图像，并基于第2个关键帧所识别的人脸图像的身份信息，确定非关键帧中人脸图像的身份信息；

采用上述的过程，分别获得每一关键帧对应的每一非关键帧中的人脸图像，并确定人脸图像的身份信息。

采用本发明具体实施例所述人脸识别方法，通过输入含有人脸的视频，能够对视频中的每一图像帧的人脸进行识别并确定出唯一身份，因此能够面向动态真实复杂场景，实现动态人脸识别，使得人脸识别的速度和精度均能够满足需求。

本发明具体实施例另一方面还提供一种人脸识别装置，如图5所示，包括：

图像提取模块，用于提取提取视频文件的关键帧；

本发明具体实施例所述人脸识别装置，采用只对视频文件的关键帧进行人脸识别，对关键帧后播放的预设数量的图像帧进行人脸跟踪的方式，能够进行视频文件的人脸识别，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，从而解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

较佳地，所述识别模块具体用于：

因此，采用本发明具体实施例所述人脸识别装置，不但能够提高视频文件的人脸识别的速度，也能够达到提高人脸识别精度的目的。

较佳地，本发明具体实施例所述人脸识别装置，如图5所示，还包括：

训练模块，用于利用所述关键帧中的人脸图像和所述非关键帧中的人脸图像，对所述人脸识别网络模型进行端到端的训练。

较佳地，本发明具体实施例中，参阅图2和图3所示，人脸识别网络模型所采用的卷积神经网络模型包括九个层，具体地包括输入层、七个卷积层、全连接层和K类分类器softmax层，其中输入层、七个卷积层、全连接层和K类分类器softmax层依次连接。

较佳地，每一卷积层均包括一3×3的滤波器，以可以学习区分细粒度的面部结构。

另外，所述卷积神经网络的每一卷积层均附有非线性激活函数，且第一个卷积层、第二个卷积层、第四个卷积层和第六个卷积层后均连接有池化层。

进一步地，所述卷积神经网络模型还包括连接在最后一个卷积层后的全连接层和K类分类器softmax层。

具体采用本发明具体实施例所述人脸识别装置，对关键帧进行人脸识别的过程可以结合图2和图3，并参阅上述方法部分中的详细描述，在此不再赘述。

基于上述的实施例所述的人脸识别装置，通过将关键帧输入至上述通过多张相似人脸的样本图片进行人脸的特征训练获得的网络模型中，通过极细粒度的算法进行细微特征的辨别，达到超细粒度人脸识别，识别出肉眼无法甄别的两个极其相似的人脸，能够识别出相应人脸的身份信息，如图2所示，获得关键帧中的人脸图像。

另外，本发明具体实施例中，所述跟踪模块具体用于：

基于上述，图像提取模块具体用于：提取视频文件的多个关键帧；

数据确定模块具体用于：确定相邻两个关键帧之间的图像帧为非关键帧；

识别模块具体用于：对每一关键帧分别进行人脸识别，获得每一所述关键帧中的人脸图像；

跟踪模块具体用于：根据每一所述关键帧中的人脸图像，对相应的所述非关键帧进行人脸跟踪，获得与每一所述关键帧对应的每一所述非关键帧中的人脸图像。

具体采用本发明具体实施例所述人脸识别装置，根据关键帧中的人脸图像，对非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的具体过程，可以结合图4参阅以上方法中的详细描述，在此不再赘述。

本发明具体实施例所述人脸识别装置，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，从而解决现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题；此外，利用多张相似人脸的样本图片进行人脸的特征训练获得人脸识别网络模型，可以大大提高人脸识别精度，达到超细粒度人脸识别。

本发明具体实施例另一方面还提供一种人脸识别设备，如图6所示，包括存储器、处理器及存储在所述存储器上并能够在所述处理器上运行的计算机程序；所述处理器执行所述程序时执行如上任一项所述的人脸识别方法。

具体地，总线接口提供存储器与处理器相连接的接口，处理器负责管理总线架构和通常的处理，存储器可以存储处理器在执行操作时所使用的数据。由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。

另外，本发明具体实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上任一项所述的人脸识别方法中的步骤。

依据以上中的详细描述，本领域技术人员应该能够了解采用本发明具体实施例所述人脸识别方法的控制设备和计算机可读存储介质的具体实施方式，在此不再详细说明。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人脸识别方法，其特征在于，包括：

提取视频文件的关键帧；

确定所述关键帧后播放的预设数量的图像帧为非关键帧；

2.根据权利要求1所述的人脸识别方法，其特征在于，所述对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像的步骤包括：

3.根据权利要求2所述的人脸识别方法，其特征在于，所述根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤之后，所述方法还包括：

4.根据权利要求2所述的人脸识别方法，其特征在于，所述卷积神经网络模型包括多个卷积层，其中每一卷积层均包括一3×3的滤波器。

5.根据权利要求4所述的人脸识别方法，其特征在于，所述卷积神经网络的每一卷积层均附有非线性激活函数，且第一个卷积层、第二个卷积层、第四个卷积层和第六个卷积层后均连接有池化层。

6.根据权利要求3至5任一项所述的人脸识别方法，其特征在于，所述卷积神经网络模型还包括连接在最后一个卷积层后的全连接层和K类分类器softmax层。

7.根据权利要求1所述的人脸识别方法，其特征在于，所述根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像的步骤包括：

8.根据权利要求1所述的人脸识别方法，其特征在于，所述提取视频文件的关键帧的步骤中，提取视频文件的多个关键帧；

确定相邻两个关键帧之间的图像帧为非关键帧。

9.根据权利要求8所述的人脸识别方法，其特征在于，所述对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像的步骤中，对每一关键帧分别进行人脸识别，获得每一所述关键帧中的人脸图像；

10.一种人脸识别装置，其特征在于，包括：

图像提取模块，用于提取视频文件的关键帧；

11.一种人脸识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时执行如权利要求1至9中任一项所述的人脸识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述的人脸识别方法中的步骤。