CN114120391A

CN114120391A - 一种多姿态人脸识别系统及其方法

Info

Publication number: CN114120391A
Application number: CN202111213738.2A
Authority: CN
Inventors: 陈宝远; 刘润泽
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-03-01

Abstract

一种多姿态人脸识别系统及其方法，属于人脸识别算法的领域。传统的基于2D的人脸转正算法，存在着人脸图像学习不充分以及特征子空间学习不充分的问题。一种多姿态人脸识别系统及其方法，从监控视频流中提取关键帧，并通过MTCNN网络对其中的人脸进行检测，将人脸图像以长宽相同的比例截取；对提取的人脸图像等比缩放至128*128；将输入的多姿态人脸图像进行姿态调整，将人脸姿态全部转正至正脸；识别多姿态人脸图像并对人脸图像ID进行标记。提取不同姿态下个体的特征信息，可以极大地增强人脸转正算法性能。让模型可以同时自适应学习同一个体的不同姿态信息特征，提高识别率。

Description

一种多姿态人脸识别系统及其方法

技术领域

本发明涉及一种多姿态人脸识别系统及其方法。

背景技术

2D人脸识别的优势是实现的算法相对比较多，有一套比较成熟的流程，图像数据获取比较简单，只需一个普通摄像头即可，所以基于2D图像数据的人脸识别是目前的主流，在安防、监控、门禁、考勤、金融身份辅助认证、娱乐等多种场景中都有应用。

2D人脸识别根据其技术发展可分为两大类：传统人脸识别、基于神经网络人脸识别；

传统人脸识别主要采用数学方法，从图像矩阵中提取对应的特征，该特征一般为尺度不变特征，常用的算法有SURF、SIFT、HARRIS、GFTT等。

目前2D人脸识别算法在各个人脸识别挑战赛、在各种的开源数据集上测试的识别准确率已经达到了99.80％(人脸识别算法insightface在LFW数据集上的测试结果)，识别准确率甚至可以跟人类相媲美，但在苛刻的金融环境仅作为一种辅助手段，人脸识别之后还需要别的验证手段，如输入手机号等。

综上，传统的基于2D的人脸转正算法，存在着人脸图像学习不充分以及特征子空间学习不充分的问题。

发明内容

本发明的目的是为了解决现有的基于2D的人脸转正算法，存在着人脸图像学习不充分以及特征子空间学习不充分的问题，而提出一种多姿态人脸识别系统及方法。

一种多姿态人脸识别系统，其组成包括：

监控视频流人脸检测及采集模块，用于从监控视频流中提取关键帧，并通过MTCNN网络对其中的人脸进行检测，将人脸图像以长宽相同的比例截取；

人脸图像预处理模块，用于对提取的人脸图像进行等比缩放至128*128；

人脸图像转正模块，用于将输入的多姿态人脸图像进：行姿态调整，将人脸姿态全部转正至正脸，并输入到人脸图像识别模块；

人脸图像识别模块，用于识别多姿态人脸图像并对人脸图像ID进行标记。

优选地，所述的监控视频流人脸检测及采集模块，还包括人脸图像定位模块和人脸图像追踪模块；

人脸图像定位模块，用于定位人脸检测区域以及定位人脸关键点；所述的人脸图像定位模块使用MTCNN模型；

人脸图像追踪模块，用于追踪两个相邻的视频中人脸图像。

优选地，所述的人脸图像预处理模块，还包括人脸图像剪裁模块和人脸图像缩放模块；

人脸图像剪裁模块，用于实现裁剪图像；

人脸图像缩放模块，用于实现缩放图像。

优选地，所述的人脸图像识别模块，还包括人脸识别模块和人脸ID标注模块；

人脸识别模块，用于识别人脸图像；

人脸ID标注模块，用于实现标注人脸ID。

一种多姿态人脸识别方法，所述方法通过以下步骤实现：

步骤一、监控视频流人脸检测及采集的步骤；

从监控视频流中提取关键帧，并通过MTCNN网络对其中的人脸进行检测，将人脸图像以长宽相同的比例截取；

步骤二、人脸图像预处理的步骤；

对上一步骤提取的人脸图像进行等比缩放至128*128；

步骤三、人脸图像转正的步骤；

将输入的多姿态人脸图像进行姿态调整，将人脸姿态全部转正至正脸，并输入到下一步骤；

步骤四、人脸图像识别模块识别多姿态人脸图像并对人脸图像ID进行标记的步骤；

步骤五、依据识别出的多姿态人脸图像以及标记的人脸图像ID进行APP封装；

通过QT平台使用C++编程语言调用本系统所述模型，最终实现用户操作APP界面实现摄像头监控场景下的人脸识别。

优选地，所述的步骤一中，监控视频流人脸检测及采集的步骤还包括人脸图像追踪的步骤，是基于交并比实现人脸图像追踪的，对比位置相近的不同人脸头像框，将相同个体的头像划分为同一身份的个体类再进行后续任务，具体为：

设

表示第n张视频图像帧的第i个人脸头像框，则

表示第n+1张视频图像帧的第j个人脸头像框，两个头像框之间的交并比计算公式如式如下：

通过设置不同的阈值，当交并比大于阈值判断出两个头像框对应的是同一个个体。

优选地，所述的步骤四中人脸图像识别模块是改进的多姿态人脸转正算法，

设计生成路径：

生成器G的目标是要在姿态码C的约束下产生一个真实的图像G(C，Z)，而Dc1和Ds1分别用于鉴别旋转角度的真实性和拓扑结构的真实性，此时，鉴别器D的目标是使式 (2)达到最小化：

其中，P_Z为噪声的均匀分布，P_X为数据分布，

为生成器输出数据分布；生成器G的目标是使式(3)最大化：

其中，(D_s,D_c)＝D，D_s表示图像真假概率，D_c表示图像姿态匹配概率；

重建路径：

重建路径和生成路径中的生成器和鉴别器关系，为：

两种路径均保持权值共享关系；在重建路径的初始阶段，编码器E进行学习，首先保持生成器G不变，对编码器E进行学习，编码器E对于生成器G的逆学习；

通过对模型输入同一个体的X1～Xn个不同图像，通过编码器E对图像X1–Xn的图片特征进行提取，表述为特征f(x1)…f(xn)，将获取的特征f(x1)至特征f(xn)进行结合，重建；

同时，在获取到f(x1)…f(xn)的同时，用全连接层预测n个数字，即这n个特征点的置信相关值，用这n个特征值对f(x1)…f(xn)进行加权平均来实现特征f(x1)…f(xn)的结合，最终生成特征空间f(x1，x2，…，xn)；

G取特征空间在姿态码c的约束下生成属于姿态c的重构图像，而Dv1和Ds1分别鉴别旋转角度的真实性和拓扑图像的真实性；因此，此时的鉴别器应使式(4)达到最小化：

而此时的生成器应使式(5)达到最大化：

本发明的有益效果为：

本发明提出的改进的多姿态人脸识别系统可以实现对于非受控场景下的人员进行身份识别，其中对于非受控环境下的人员的人脸转正部分采用基于2D的人脸转正算法。系统整体结构可以分为五部分：监控视频流人脸检测及采集、人脸图像预处理、人脸图像转正、人脸图像识别与APP封装。首先，在模型训练过程中，设计特征提取网络使之可以分别提取相同ID对应的不同姿态图像特征，并通过全连接层计算权值后将特征整合，映射到特征空间；其次，设计基于GAN网络的双路径学习通道，对于只有正脸图像而缺失侧脸图像的情况，可以使生成器G学习正脸图像特征，鉴别器D学习鉴别正脸特征，并将生成器G与鉴别器D的权值共享到整个网络。

本发明提出的改进的多姿态人脸转正算法较传统多姿态人脸转正算法主要提出两部分改进，分别为自监督学习和自适应多视图学习。

自监督学习方面：

有标记的数据集通常是有限的，当模型传入编码器E未学习过的图像时，会导致编码器E输出新的映射至特征空间，G使用这种情况下产生的特征空间不可避免的出现解码结果较差。为解决上述问题，提出将传统的监督训练模型分为两个阶段，第一阶段，对无标签的数据进行训练，使其生成器G与鉴别器D拥有较好的性能。第二阶段利用有标签数据增强编码器E。

自适应多视图学习方面：

监控视频流是一系列图像帧组成的，每一个图像帧中都包含了相同个体的不同姿态，如果可以充分利用图像帧，提取不同姿态下个体的特征信息，可以极大地增强人脸转正算法性能。为了实现上述目的，本发明提出同时利用编码器E对相同个体的不同姿态图像的特征进行提取，并根据不同图像特征权重的不同对各图像特征进行融合生成特征空间。提高了识别的准确率。

附图说明

图1为本发明的方法流程图；

图2为本发明涉及的模型整体结构；

图3为本发明涉及的DR-GAN模型结构图；

图4为本发明涉及的Multi-Image DR-GAN结构图；

图5为本发明涉及的TP-GAN模型结构图；

图6为本发明涉及的重点特征图像与次要特征图像；

图7为本发明涉及的编码器模型图像；

图8为本发明涉及的鉴别器；

图9为本发明涉及的图7及图8处的Conv2D_Block操作；

图10为本发明涉及的模型生成器结构图。本发明所述10所示；

图11为本发明涉及的图10中Conv2D_Block_Up操作；

图12为本发明涉及的，将本发明所述改进算法同TP-GAN模型与DR-GAN模型在Multi-PIE数据集进行对比测试，部分转正结果；

图13为本发明涉及的三种模型在各角度下生成的正脸与原始正脸进行人脸识别率对比结果图示。

具体实施方式

具体实施方式一：

本实施方式的一种多姿态人脸识别系统，其组成包括：

人脸图像转正模块，用于将输入的多姿态人脸图像进行姿态调整，将人脸姿态全部转正至正脸，并输入到人脸图像识别模块；

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种多姿态人脸识别系统，所述的监控视频流人脸检测及采集模块，还包括人脸图像定位模块和人脸图像追踪模块；

人脸图像定位模块，用于定位人脸检测区域以及定位人脸关键点；所述的人脸图像定位模块使用MTCNN模型，MTCNN(多任务卷积神经网络)于2016年被Zhang等人提出，该模型首次将人脸区域检测与人脸关键点检测放在了一起，总体可以分为P-Net、R-Net和 O-Net三种结构；

人脸图像追踪模块，用于追踪两个相邻的视频中人脸图像。

具体实施方式三：

与具体实施方式一或二不同的是，本实施方式的一种多姿态人脸识别系统，所述的人脸图像预处理模块，还包括人脸图像剪裁模块和人脸图像缩放模块；

人脸图像剪裁模块，用于实现裁剪图像；

人脸图像缩放模块，用于实现缩放图像。

具体实施方式四：

与具体实施方式三不同的是，本实施方式的一种多姿态人脸识别系统，所述的人脸图像识别模块，还包括人脸识别模块和人脸ID标注模块；

人脸识别模块，用于识别人脸图像；

人脸ID标注模块，用于实现标注人脸ID。

具体实施方式五：

本实施方式的一种多姿态人脸识别方法，如图1所示，所述方法通过以下步骤实现：

步骤一、监控视频流人脸检测及采集的步骤；

步骤二、人脸图像预处理的步骤；

对上一步骤提取的人脸图像进行等比缩放至128*128；

步骤三、人脸图像转正的步骤；

通过QT平台使用C++编程语言调用本系统所述方案的模型，最终实现用户操作APP界面就可以很方便的实现摄像头监控场景下的人脸识别。

具体实施方式六：

与具体实施方式五不同的是，本实施方式的一种多姿态人脸识别方法，所述的步骤一中，监控视频流人脸检测及采集的步骤还包括人脸图像追踪的步骤，是基于交并比实现人脸图像追踪的，由于两个视频图像帧是具备时序关系的，而且监控场景下个体在连续帧下出现位置突变的可能性极低，因此相邻的图像帧之间的人脸图像框的位置差异很小。基于以上特点，可以通过对比位置相近的不同人脸头像框，将相同个体的头像划分为同一身份的个体类再进行后续任务，这可以有效的提升非受控场景中个体姿态变化过大的情况下多姿态人脸识别系统的识别率。具体为：

设

表示第n张视频图像帧的第i个人脸头像框，则

具体实施方式七：

与具体实施方式五或六不同的是，本实施方式的一种多姿态人脸识别方法，所述的步骤四中人脸图像识别模块是改进的多姿态人脸转正算法，本发明基于以下原理建立了如图 2所示的模型整体结构，其中，原理内容具体包括：

原理一：基于2D的人脸转正经典算法

1.DR-GAN

相比于传统的GAN人脸转正网络，该网络具有两个不同的新颖之处。首先，通过提供给解码器的姿态码和在鉴别器中的姿态估计，这种表示可以使输入图像特征信息与姿态信息解耦。第二、DR-GAN可以以一个或多个图像作为输入，并生成一个统一的表示的合成图像。DR-GAN模型结构图如图3所示：

编码器G_enc的输入是任意姿态的人脸图像，解码器G_dec的输出是目标姿态的合成人脸。当G作为脸部旋转器的时候，D不仅可以区分真实和合成的图像，还可以预测脸部的身份和姿态。在传统的GAN中，G取一个随机向量来合成图像，而DR-GAN输入为G_enc的编码和一个随机噪声z和一个姿势c。

DR-GAN有两种模型:分别为以一幅图像作为输入的基本模型，称为Single-ImageDR-GAN，以及利用每个受试者多幅图像的扩展模型，称为Multi-Image DR-GAN，本文所述多姿态人脸识别系统应用在监控视频流中，因此数据集中包含大量相同ID的不同姿态信息，因此选择使用Multi-Image DR-GAN。Multi-Image DR-GAN为了利用同一个ID下的图片，多图可以一起输入解码器。Multi-Image DR-GAN结构图如图4所示：

对照整体结构图，G由两部分组成，分别是编码器和解码器，其中可以理解为编码器是识别网络，解码器是生成网络，而且编码器输出的人脸特征是不具备姿态信息的，通过给解码器提供姿态编码和判别器的姿态估计来实现正脸生成。Multi-image的输入尺寸是[n*batch_size，height，width]，其中n的意思是在一次输入中，同一个人的脸有n张，有batch_size个人。一个人的脸送入编码器的具体流程：n张同一个人的脸送入编码器得到n个fx，需要加权平均将这n个特征融合为一个特征。

2.TP-GAN

主要贡献在两个方面:1)提出了一个全局和局部感知的GAN架构，用于从单个图像合成正面视图，它可以合成照片逼真和保持身份的正面视图图像。2)结合来自数据分布(对抗训练)的先验知识和人脸领域知识(对称性和保留身份损失)，准确地恢复在将三维物体投影到二维图像空间中固有的丢失信息。TP-GAN整体结构图如图5所示：

TP-GAN中的生成器具有两个路径：第一路径是局部路径，根据脸部特征点把左右眼，鼻子和嘴唇进行提取，主要对局部特征进行学习，第二路径将整个脸部送入CNN，学习轮廓等全局信息。上部这个双向CNN网络用两个损失函数进行训练：全局路径解码后的交叉熵和对称损失函数。如式(1-4)所示，前半部分是求一个(n编码器+解码器)结构，使得输入的侧脸图片和真实正脸图片相似，后半部分是截取全局路径编码之后的结果(256维)，与人物身份进行交叉熵验证。

作者这么做的理由是如果过滤器在脸部所有区域都是共享的，只用全局网络不能很好地在旋转的过程中保留局部特征。因此作者又在全局路径编码结果中加入噪声来模拟除了角度和ID以外的信息。下面具体介绍下各个部分。

脸部特征：这四个部分分别学会了各自部分在旋转之后的样子，也就是编码器解码器的组合，但是中间没有全连接。在每部分生成出来之后，放到和人脸全图一样的的背景板上，位置都是预先设定好的四个部分应该在的位置，再把重合部分进行一定的处理。

对抗部分：判别器的作用就是分辨真实的正脸照片和转换的正脸照片，如式(1-5)所示，上半部分，判别器对于真实正脸给分要高，相应的对于生成器生成的正脸图片给分要低。

像素损失：这个是判别器的损失函数，用于判定全局和局部特征相加之后的图片真实情况，可能会造成过分平滑，但也是比较重要的一部分，如式(1-6)所示：

对称损失：根据人脸的特性，使用对称损失可以修正由于侧脸的遮挡带来的问题。作者在两个空间定义了对称损失，原始像素空间和拉普拉斯空间，这样可以对不同光照具有鲁棒性，如式(1-7)所示：

ID损失：对于人脸识别应用，身份保留是非常重要的。这里作者用CNN的最后两层参数解决。经过预先训练的CNN可以很好地判别身份。将生成的图片和真实图片共同输入CNN后，让二者在CNN最后两层中尽量相似，如式(1-8)所示：

最后综合上述各部分损失函数，模型损失函数如式(1-9)所示：

L_syn＝L_pixel+λ₁L_sym+λ₂L_adv+λ₃L_ip+λ₄L_tv (1-9)

原理二：基于2D的人脸转正改进算法

传统的基于2D的人脸转正算法存在两个问题：(1)特征子空间学习不充分；(2)人脸图像学习不充分。对于问题一，由于在模型训练阶段只使用有限的训练数据作为输入时，编码器E和解码器G只能学习到特征空间的一个子空间，此时若将“不可见”数据传送至模型，则此时的E很有可能将新的输入映射到特征空间，G使用这种情况下产生的特征空间不可避免地出现解码结果较差，影响人脸校正图像，最终导致多姿态人脸识别准确率降低。对于问题二，相比于传统的人脸转正算法，本系统所述多姿态人脸识别系统数据来源为监控视频流，视频流相比于传统图像最显著的特点为：一段视频流为一系列图像帧组成，这就导致了每一个个体具有多幅非受控环境下的人脸图像，这些图像反映出了同一个体在不同姿态下的特征信息，因此让模型可以同时自适应学习同一个体的不同姿态信息特征对于人脸转正具有重要意义。

设计生成路径：

本模型生成路径如图2上半部分左侧路径所示，因为G1从随机噪声中生成，因此此处不涉及编码器E的模型训练，生成器G的目标是要在姿态码C的约束下产生一个真实的图像G(C，Z)，而Dc1和Ds1分别用于鉴别旋转角度的真实性和拓扑结构的真实性，此时，鉴别器D的目标是使式(2)达到最小化：

其中，P_Z为噪声的均匀分布，P_X为数据分布，

为生成器输出数据分布；生成器G的目标是使式(3)最大化：

重建路径：

重建路径和生成路径中的生成器和鉴别器关系如图2下半部分所示，为：

两种路径均保持权值共享关系；在重建路径的初始阶段，编码器E进行学习，首先保持生成器G不变，对编码器E进行学习，此时可以理解为编码器E对于生成器G的逆学习；

通过对模型输入同一个体的X1～Xn个不同图像，通过编码器E对图像X1–Xn的图片特征进行提取，表述为特征f(x1)…f(xn)，因为输入图像均来自于同一个体，因此可以将获取的特征f(x1)至特征f(xn)进行结合，重建；

传统的特征点结合方式为求和平均，这种方式计算结果简单、理解容易，但是这种处理方式就导致了全部输入图片采用相同权值，会出现重点特征权值与次要特征权值相同的情况，影响重建图像质量。重点特征图像与次要特征图像如图6所示：

同时，为了使重点特征获取较大的权值而次要特征获取较小的权值，本发明在获取到 f(x1)…f(xn)的同时，用全连接层预测n个数字，即可以理解为这n个特征点的置信相关值，用这n个特征值对f(x1)…f(xn)进行加权平均来实现特征f(x1)…f(xn)的结合，最终生成特征空间f(x1，x2，…，xn)；

而此时的生成器应使式(5)达到最大化：

上述生成路径与重建路径的编码器和鉴别器的结构基本相同，编码器模型如图7所示；鉴别器如图8所示；图7及图8处的Conv2D_Block操作如图9所示；本发明所述模型生成器结构如图10所示；图10中Conv2D_Block_Up操作如图11所示；

将本发明所述改进算法同TP-GAN模型与DR-GAN模型在Multi-PIE数据集进行对比测试，部分转正结果如图12所示；

图12中，第四行为TP-GAN对应第一行各角度生成的人脸转正图，第三行为DR-GAN对应第一行各角度生成的人脸转正图，第二行为本发明所述改进人脸转正算法对应第一行各角度生成的人脸转正图，为了使两种模型对比效果更加直观，本次实验对上述三种模型在各角度下生成的正脸与原始正脸进行人脸识别率对比，最终结果图如图13所示：

由图13可知，在偏转角度较小的情况下，三种模型生成的人脸转正图均保持较高的准确率，但是随着人脸偏转角度的增大，三种模型的生成正脸的准确率均出现了较大的误差，而本发明提出的改进的人脸转正算法在各角度下识别率均优于传统经典模型。

综上所述：本发明所述提出改进的多姿态人脸转正算法较传统多姿态人脸转正算法主要提出两部分改进，分别为自监督学习和自适应多视图学习。

(1)自监督学习方面：

有标记的数据集通常是有限的，当模型传入编码器E未学习过的图像时，会导致编码器E 输出新的映射至特征空间，G使用这种情况下产生的特征空间不可避免的出现解码结果较差。为解决上述问题，提出将传统的监督训练模型分为两个阶段，第一阶段，对无标签的数据进行训练，使其生成器G与鉴别器D拥有较好的性能。第二阶段利用有标签数据增强编码器E。

(2)自适应多视图学习方面：

监控视频流是一系列图像帧组成的，每一个图像帧中都包含了相同个体的不同姿态，如果可以充分利用图像帧，提取不同姿态下个体的特征信息，可以极大地增强人脸转正算法性能。为了实现上述目的，本发明提出同时利用编码器E对相同个体的不同姿态图像的特征进行提取，并根据不同图像特征权重的不同对各图像特征进行融合生成特征空间。