CN111539351A

CN111539351A - 一种多任务级联的人脸选帧比对方法

Info

Publication number: CN111539351A
Application number: CN202010344089.9A
Authority: CN
Inventors: 徐炫东; 杜舒明; 廖嘉炜; 邹时容; 池燕清; 宋强; 徐冬雪; 曾明; 孙乐飞
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd; Transwarp Technology Shanghai Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd; Transwarp Technology Shanghai Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-14
Anticipated expiration: 2040-04-27
Also published as: CN111539351B

Abstract

本发明公开了一种多任务级联的人脸选帧比对方法，包括证件照人脸入库、视频流人脸采集以及特征比对识别步骤；所述证件照人脸入库和视频流人脸采集步骤都包括人脸检测、人脸选帧以及人脸特征提取的步骤，其中人脸选帧采用多级任务级联人脸选帧方式进行；所述特征比对识别是通过计算人脸图像的特征与注册库里的人脸特征之间的余弦相似度，利用最近邻分类器找到库中与查询人脸最相似的人脸，再根据预设的阈值决定是否接受最相似人脸的身份，若接受则返回其身份信息，否则识别成陌生人。本发明在人脸注册入库与实时检测验证阶段，通过多任务联合实现人脸选帧，大大提高了人脸的采集质量及人脸验证的准确度。

Description

一种多任务级联的人脸选帧比对方法

技术领域

本发明涉及计算机图像处理技术领域，特别是一种人脸比对方法。

背景技术

随着互联网技术的发展，人脸识别技术在我们生活的方方面面都得到应用。人脸识别是一项热门的计算机技术研究领域，其中包括人脸追踪侦测、自动调整影像放大、夜间红外侦测、自动调整曝光强度等技术；人脸识别技术属于生物特征识别技术，是利用计算机对生物体(一般特指人)本身的生物特征来区分生物体个体。人脸识别过程中，首先需要对证件照进行采集，并将其作为标准，然后再实时采集需要验证的人脸信息，最后通过计算机进行人脸的验证；其中证件照和人脸实时信息的采集质量是人脸识别技术的关键。

视频人脸识别技术常用的情景为考勤、陌生人告警等，具体是从监控视频中获取图像，对视频中出现的人员通过人脸识别技术进行身份确认；对于注册在库的人员，给出姓名；对于未注册人员，给出陌生人提示。但是，证件照在采集过程中，由于时间环境的不同，光照、姿态和表情也不尽相同，这些都对证件照的注册入库造成了影响；在实时人脸验证过程中，对人脸的背景、光照和姿态更是提出了非常大的挑战。

发明内容

本发明需要解决的技术问题是提供一种多任务级联的人脸选帧比对方法，应用于人脸注册入库与实时检测验证阶段，以提高人脸采集质量及人脸验证的准确度。

为解决上述技术问题，本发明所采取的技术方案如下。

一种多任务级联的人脸选帧比对方法，包括证件照人脸入库、视频流人脸采集以及特征比对识别步骤；所述证件照人脸入库和视频流人脸采集步骤都包括人脸检测、人脸选帧以及人脸特征提取的步骤，其中人脸选帧采用多级任务级联人脸选帧方式进行；所述特征比对识别是通过计算人脸图像的特征与注册库里的人脸特征之间的余弦相似度，利用最近邻分类器找到库中与查询人脸最相似的人脸，再根据预设的阈值决定是否接受最相似人脸的身份，若接受则返回其身份信息，否则识别成陌生人。

上述一种多任务级联的人脸选帧比对方法，所述人脸检测基于YOLOV3的目标检测算法实现；多级任务级联人脸选帧基于全卷积神经网络，通过不同阈值的设置，实现证件照人脸入库和实时人脸预测不同阶段场景的人脸图片选帧，主要包括人脸筛选、RPY人脸姿态评估以及人脸质量评估步骤；人脸特征提取模块基于MobileNet V2的轻量网络对人脸图像进行特征提取，并输出特征向量。

上述一种多任务级联的人脸选帧比对方法，所述人脸筛选在主干卷积神经网络后级联全连接层，并实现分类任务；依据梯度特征及局部人脸特征，删除遮挡或侧后脸无法识别的人脸图像。

上述一种多任务级联的人脸选帧比对方法，所述RPY人脸姿态评估通过级联更深的卷积神经网络，构建适用于识别人脸姿态的特征提取网络，在人脸姿态特征提取网络中进行人脸偏转姿态的估计，定义正脸姿态俯仰角、偏航角和翻滚角分别为0°，保留俯仰角、偏航角、翻滚角在±15°以内的人脸图片。

上述一种多任务级联的人脸选帧比对方法，所述人脸质量评估是指对图像的质量因子进行综合评估，筛选出清晰、光照良好的人脸图片，最后对选取的人脸图片中的人脸图像进行回归，通过一个全连接层输出图像质量分数。

上述一种多任务级联的人脸选帧比对方法，所述质量因子包括照明质量、分辨率、清晰度、面部对称性。

上述一种多任务级联的人脸选帧比对方法，所述多级任务级联人脸选帧的方法具体包括以下步骤：

A.构建全卷积神经网络模型，全卷积神经网络为带人脸筛选、RPY人脸姿态评估以及人脸质量评估三个分支网络结构的主干网络结构，分支网络以主干网络的输出为输入，使用不同的损失函数，训练与任务相关的特征；

B.训练集生成；

C.全卷积神经网络模型的训练；

D.全卷积神经网络模型的预测。

上述一种多任务级联的人脸选帧比对方法，所述步骤B主要包括训练用图像的选取以及对人脸筛选、RPY人脸姿态评估和人脸质量评估三个任务标签的设置：

B1.训练使用的图像需要经过人脸检测、裁剪和缩放得到的人脸图像，大小为112像素×112像素；其中，人脸检测是将人脸的图像输入到人脸检测器后输出人脸框坐标；裁剪是根据人脸框坐标在原图上裁剪出人脸；缩放是对经裁剪得到的人脸进行缩放，使长边达到112，然后对短边零填充至112大小；

B2.标签的设置为，人脸筛选的标签设定为0为不合格、1为合格，若人脸遮挡面积超过50％或偏航角超过75度，则标记为0，否则标记为1；RPY人脸姿态评估中的R、P、Y分别表示三维空间的右手笛卡尔坐标中围绕Z轴旋转的翻滚角、围绕X轴旋转的俯仰角和围绕Y轴旋转的偏航角，姿态标签是一个三维向量，分别代表P、R、Y，三者均为实数且范围在[-90,90]，通过归一化将范围归一化到[-1,1]；人脸质量评估的标签是从[1，10]的整数，10表示质量最高，通过归一化将范围归一化到(0,1]。

上述一种多任务级联的人脸选帧比对方法，所述步骤C主要包括人脸筛选单任务预训练和多任务联合训练：

C1.人脸筛选单任务预训练仅训练主干网络和人脸筛选分支网络，网络的损失函数采用式一交叉熵损失函数计算，

其中，批大小为256，初始学习率为0.1，在第8、12、15个迭代纪元分别将学习率除以10，在第17个迭代纪元停止训练；网络使用Xavier初始化权重，使用带动量的SGD优化器进行训练；

C2.以步骤C1训练得到的模型作为训练起点，训练主干网络和所有的分支网络；

RPY人脸姿态评估和人脸质量评估作为回归问题，使用式二和式三的损失函数计算损失，

整个网络的损失函数采用式四计算，

其中，

表示第i个训练样本的第j种损失，i∈[1,N]，N为批大小，j取1、2、3时分别代表人脸筛选损失、RPY人脸姿态评估损失和人脸质量评估损失；

λ_j为对应损失函数的权重，训练时损失函数的权重设置为λ₁＝1、λ₂＝3、λ₃＝2.5；

训练的批大小为200，初始学习率为0.01，学习率在第10、15、18个迭代纪元降低为原来的0.1，在第20个迭代纪元停止训练。

上述一种多任务级联的人脸选帧比对方法，所述步骤D主要包括输入预处理、网络预测、结果后处理三个阶段；

D1.输入预处理包括对人脸图像进行检测、裁剪和缩放，得到112像素×112像素的人脸图像；

D2.将步骤D1得到的图像输入全卷积神经网络模型，输出三个任务的结果；其中，人脸筛选任务的输出为y₁∈(0,1)，代表图像合格的概率，y₁越高表示图像的遮挡越少或偏转越小；RPY人脸姿态评估的输出为一个三维向量y₂＝[r,p,y]，是由翻滚角、俯仰角和偏航角组成的姿态向量；人脸质量评估任务的输出为y₃∈(0,1)，代表图像的质量分数，y₃越高表示图像的质量越好；

D3.对三个任务设置阈值从而判断是否丢弃；其中，对人脸筛选任务，设置阈值t₁，若y₁>＝t₁，则判定合格，否则丢弃；对RPY人脸姿态评估任务，若同时满足|r|<t₂₁，|p|<t₂₂，|y|<t₂₃，|r|+|p|+|y|<t₂₄，则建议保留图像，否则丢弃；对人脸质量评估任务，设置阈值t₃，若y₃>＝t₃，则建议保留图像，否则丢弃。

由于采用了以上技术方案，本发明所取得技术进步如下。

本发明在人脸注册入库与实时检测验证阶段，通过多任务联合的人脸选帧，从人脸筛选、人脸姿态评估以及人脸质量评估三个方面实现人脸选帧，从而大大提高了人脸的采集质量及人脸验证的准确度。其中，人脸选帧过程中三个任务共享同一主干卷积神经网络，减少了模型所占资源，提升了预测效率。

附图说明

图1为本发明的流程图；

图2为本发明所述多任务级联人脸选帧的流程图。

具体实施方式

下面将结合附图和具体实施方式对本发明进行进一步详细说明。

一种多任务级联的人脸选帧比对方法，其流程图如图1所示，包括证件照人脸入库、视频流人脸采集以及特征比对识别步骤；其中特征比对识别是通过计算人脸图像的特征与注册库里的人脸特征之间的余弦相似度，利用最近邻分类器找到库中与查询人脸最相似的人脸，再根据预设的阈值决定是否接受最相似人脸的身份，若接受则返回其身份信息，否则识别成陌生人。

无论是人脸入库流程还是实时人脸预测流程，这两种数据在进行特征比对前都要经过筛选。对于入库数据，只有经过人脸选帧的筛选，质量合格的图片才能入库，否则应当重新进行注册；对于实时预测的人脸数据，同样需要经过人脸选帧的步骤，才能提取合格的特征向量。为此，本发明所述证件照人脸入库和视频流人脸采集步骤都包括人脸检测、人脸选帧以及人脸特征提取的步骤。其中：人脸检测基于YOLOV3的目标检测算法实现；人脸选帧采用多级任务级联人脸选帧方式进行；人脸特征提取模块基于MobileNetV2的轻量网络对人脸图像进行特征提取，并输出特征向量。

多级任务级联人脸选帧基于全卷积神经网络，通过不同阈值的设置，实现证件照人脸入库和实时人脸预测不同阶段场景的人脸图片选帧，主要包括人脸筛选、RPY人脸姿态评估以及人脸质量评估步骤。

人脸筛选在主干卷积神经网络后级联全连接层，并实现分类任务；依据梯度特征及局部人脸特征，删除遮挡或侧后脸无法识别的人脸图像。

RPY人脸姿态评估通过级联更深的卷积神经网络，构建适用于识别人脸姿态的特征提取网络，在人脸姿态特征提取网络中进行人脸偏转姿态的估计，定义正脸姿态俯仰角、偏航角和翻滚角分别为0°，保留俯仰角、偏航角、翻滚角在±15°以内的人脸图片。

人脸质量评估是指对图像的质量因子进行综合评估，筛选出清晰、光照良好的人脸图片，最后对选取的人脸图片中的人脸图像进行回归，通过一个全连接层输出图像质量分数。质量因子包括照明质量、分辨率、清晰度、面部对称性。

本发明中，多级任务级联人脸选帧方法具体包括以下步骤。

A.构建全卷积神经网络模型，全卷积神经网络为带人脸筛选、RPY人脸姿态评估以及人脸质量评估三个分支网络结构的主干网络结构，分支网络以主干网络的输出为输入，使用不同的损失函数，训练与任务相关的特征。

本实施例中，主干网络结构如表1所示，三个分支网络结构如图2至表4所示。表中移动步长指每个序列中第一个瓶颈层的移动步长，序列中其余的瓶颈层的移动步长均为1。

表1：主干网络结构

表2：人脸筛洗分支网络结构

表3：RPY人脸姿态评估分支网络结构

表4：人脸质量评估分支网络结构

本发明中，三个任务分支网络的结构各不相同，人脸筛选任务分支在主干卷积神经网络后使用跟输入大小一样的卷积核将特征图大小变为1×1，再通过1×1的卷积核得到深度为2的特征，连接分类损失层实现分类任务；RPY人脸姿态评估分支和人脸质量评估分支通过先升维再卷积的方式，尽可能多地保留了信息，最后通过1×1的卷积得到合适维度的特征图。

B.训练集生成，主要包括训练用图像的选取以及对人脸筛选、RPY人脸姿态评估和人脸质量评估三个任务标签的设置。

C.全卷积神经网络模型的训练，主要包括人脸筛选单任务预训练和多任务联合训练。

其中，批大小为256，初始学习率为0.1，在第8、12、15个迭代纪元分别将学习率除以10，在第17个迭代纪元停止训练；网络使用Xavier初始化权重，使用带动量的SGD优化器进行训练。

C2.以步骤C1训练得到的模型作为训练起点，训练主干网络和所有的分支网络。

整个网络的损失函数采用式四计算，

其中，

D.全卷积神经网络模型的预测，主要包括输入预处理、网络预测、结果后处理三个阶段。

D1.输入预处理包括对人脸图像进行检测、裁剪和缩放，得到112像素×112像素的人脸图像。

D2.将步骤D1得到的图像输入全卷积神经网络模型，输出三个任务的结果。

其中，人脸筛选任务的输出为y₁∈[0,1]，代表图像合格的概率，y₁越高表示图像的遮挡越少或偏转越小，输出系数为1表示为合格人脸图片，输出系数为0表示为不合格人脸图片。RPY人脸姿态评估的输出为一个三维向量y₂＝[r,p,y]，是由翻滚角、俯仰角和偏航角组成的姿态向量；人脸质量评估任务的输出为y₃∈[0,1]，代表图像的质量分数，y₃越高表示图像的质量越好，1表示质量佳，相反0表示质量差。

D3.对三个任务设置阈值从而判断是否丢弃；其中，对人脸筛选任务，设置阈值t₁，若y₁＞＝t₁，则判定合格，否则丢弃；对RPY人脸姿态评估任务，若同时满足|r|＜t₂₁，|p|＜t₂₂，|y|＜t₂₃，|r|+|p|+|y|＜t₂₄，则建议保留图像，否则丢弃；对人脸质量评估任务，设置阈值t₃，若y₃＞＝t₃，则建议保留图像，否则丢弃。

本发明中，证件照人脸入库和视频流人脸采集步骤共用多任务联合人脸选帧模块，但由于不同阶段流程中对于人脸筛选的需求不一，因此人脸筛选、RPY人脸姿态评估以及人脸质量评估三个任务的阈值也不相同。证件照人脸入库流程中，人脸图片质量较好且背景较单一，但入库人脸要求较高；视频流人脸采集流程中，人脸姿态及人脸图片质量参差不齐，通过对多任务权重及阈值的调整，适用于各阶段的人脸筛选。本实施例中，两个流程的阈值选择见表5。

表5：入库和预测场景下阈值的选择

Claims

1.一种多任务级联的人脸选帧比对方法，包括证件照人脸入库、视频流人脸采集以及特征比对识别步骤；其特征在于：所述证件照人脸入库和视频流人脸采集步骤都包括人脸检测、人脸选帧以及人脸特征提取的步骤，其中人脸选帧采用多级任务级联人脸选帧方式进行；所述特征比对识别是通过计算人脸图像的特征与注册库里的人脸特征之间的余弦相似度，利用最近邻分类器找到库中与查询人脸最相似的人脸，再根据预设的阈值决定是否接受最相似人脸的身份，若接受则返回其身份信息，否则识别成陌生人。

2.根据权利要求1所述的一种多任务级联的人脸选帧比对方法，其特征在于：所述人脸检测基于YOLOV3的目标检测算法实现；多级任务级联人脸选帧基于全卷积神经网络，通过不同阈值的设置，实现证件照人脸入库和实时人脸预测不同阶段场景的人脸图片选帧，主要包括人脸筛选、RPY人脸姿态评估以及人脸质量评估步骤；人脸特征提取模块基于MobileNetV2的轻量网络对人脸图像进行特征提取，并输出特征向量。

3.根据权利要求2所述的一种多任务级联的人脸选帧比对方法，其特征在于：所述人脸筛选在主干卷积神经网络后级联全连接层，并实现分类任务；依据梯度特征及局部人脸特征，删除遮挡或侧后脸无法识别的人脸图像。

4.根据权利要求2所述的一种多任务级联的人脸选帧比对方法，其特征在于：所述RPY人脸姿态评估通过级联更深的卷积神经网络，构建适用于识别人脸姿态的特征提取网络，在人脸姿态特征提取网络中进行人脸偏转姿态的估计，定义正脸姿态俯仰角、偏航角和翻滚角分别为0°，保留俯仰角、偏航角、翻滚角在±15°以内的人脸图片。

5.根据权利要求2所述的一种多任务级联的人脸选帧比对方法，其特征在于：所述人脸质量评估是指对图像的质量因子进行综合评估，筛选出清晰、光照良好的人脸图片，最后对选取的人脸图片中的人脸图像进行回归，通过一个全连接层输出图像质量分数。

6.根据权利要求5所述的一种多任务级联的人脸选帧比对方法，其特征在于：所述质量因子包括照明质量、分辨率、清晰度、面部对称性。

7.根据权利要求1至6任一项所述的一种多任务级联的人脸选帧比对方法，其特征在于，所述多级任务级联人脸选帧的方法具体包括以下步骤：

B.训练集生成；

C.全卷积神经网络模型的训练；

D.全卷积神经网络模型的预测。

8.根据权利要求7所述的一种多任务级联的人脸选帧比对方法，其特征在于，所述步骤B主要包括训练用图像的选取以及对人脸筛选、RPY人脸姿态评估和人脸质量评估三个任务标签的设置：

9.根据权利要求7所述的一种多任务级联的人脸选帧比对方法，其特征在于，所述步骤C主要包括人脸筛选单任务预训练和多任务联合训练：

整个网络的损失函数采用式四计算，

其中，

10.根据权利要求7所述的一种多任务级联的人脸选帧比对方法，其特征在于，所述步骤D主要包括输入预处理、网络预测、结果后处理三个阶段；