CN113449694B

CN113449694B - 基于Android的证件照合规性检测方法及系统

Info

Publication number: CN113449694B
Application number: CN202110840307.2A
Authority: CN
Inventors: 柯逍; 陈秋琴
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-07-24
Filing date: 2021-07-24
Publication date: 2023-04-07
Anticipated expiration: 2041-07-24
Also published as: CN113449694A

Abstract

本发明涉及一种基于Android的证件照合规性检测方法及系统，该方法包括以下步骤：步骤S1：检测图片是否存在人脸并确定五官关键点位置；步骤S2：将检测到的人脸框提取出来，进行眼部、嘴部、头部姿态判断；步骤S3：对检测合格的图片进行人像分割，进行证件照背景制作，制作各种底色的证件照以供选择；步骤S4：对要比较的图片进行人脸检测，对人脸框中的特征进行人脸比对，判断两张图片人脸相似度。该方法及系统可以有效地对图片进行证件照合规性检测以及证件照制作。

Description

基于Android的证件照合规性检测方法及系统

技术领域

本发明属于人脸识别与计算机视觉领域，具体涉及一种基于Android的证件照合规性检测方法及系统。

背景技术

在现实生活中，人类主要是通过视觉来获取身边的所有事物及信息。对人类来说，语音、图像及视频是人类获取信息来源的最主要渠道。人脸检测与识别技术现在比较成熟，而且在计算机视觉领域里算是一门重要的研究学科，其在很多领域中都有着普遍的使用，其中包括车站进出站的人证合一、群体中抓捕犯罪嫌疑人和交通等领域。也就是说，在现实生活中的每个角落，人脸检测与识别无处不在，发达的计算机技术可以自动进行检测与识别，在一定的程度上可以解决人类无法完成的任务，并且可以减轻人的负担和人力物力的开销，不断在提高着人类的生活品质，更加智能化。

当前电子政务高度普及，公务员、研究生等各类考试报名，简历制作等，都需要用到标准格式的电子证件照，拍摄要求中经常指定某种背景色。而以往进行证件照拍摄，需要前往照相馆，或借助专业的道具，费时耗力，成本较高，后期难以再进行修改。以往的图像处理的手段，如Photoshop等工具的使用都具有较高的学习成本，用户一时难以掌握。

发明内容

本发明的目的在于提供一种基于Android的证件照合规性检测方法及系统，该方法及系统可以有效地对图片进行证件照合规性检测以及证件照制作。

为实现上述目的，本发明采用的技术方案是：一种基于Android的证件照合规性检测方法，包括以下步骤：

步骤S1：检测图片是否存在人脸并确定五官关键点位置；

步骤S2：将检测到的人脸框提取出来，进行眼部、嘴部、头部姿态判断；

步骤S3：对姿态判断检测合格的图片进行人像分割，进行证件照背景制作，制作各种底色的证件照以供选择；

步骤S4：对要比较的图片进行人脸检测，对人脸框中的特征进行人脸比对，判断两张图片人脸相似度。

进一步地，所述步骤S1中，采用MTCNN算法检测图片是否存在人脸并确定五官关键点位置，具体包括以下步骤：

步骤S11：获取公开的人脸检测训练集，并获得训练数据的相关标注；

步骤S12：对人脸检测训练集中的人脸图像进行图像预处理，利用小波去噪模型对图像进行噪声处理，并对图片进行大小和质量的压缩，然后将图片进行对角线翻转传入到输入模型当中；

步骤S13：对图片进行金字塔缩放，设置缩放因子factor，同时设置图片的最大边长，将图片进行迭代缩放，直到边长不大于最大边长则满足条件；

步骤S14：将处理好的图片传入P-Net网络层，进行粗略的图像处理，获取候选人脸窗口以及人脸框回归向量；基于人脸框回归向量对候选窗口进行校正；然后采用NMS合并高重叠率的候选窗口；

步骤S15：将所有候选项传入另一个R-Net网络层，该网络进一步拒绝大量错误的候选项，使用边界框回归进行校准，并合并NMS候选项；

步骤S16：将R-Net输出的候选项使用更复杂的O-Net网络层，进一步精化结果并输出5个人脸特征点，这一阶段用更多的监督来识别人脸区域，而且网络能够输出五个人脸特征点位置坐标；

步骤S17：设p_i为网络产生的概率，判断图片中存在人脸的概率，i为图片中的某个人脸；符号

表示真实标签，计算交叉熵损失

其计算公式如下：

步骤S18：不使用损失函数，仅计算

而另外两个损失设置为0，这可以直接使用样本类型指示符来实现；然后整体学习目标表示为：

其中，N是训练样本的数量，α表示任务重要性，i表示图片中的某个人脸，j表示det、box、landmark中的其中一个，都需要达到收敛状态；det表示人脸二元分类，box表示人脸框的边框回归，landmark表示标记定位，

是样本类型指示器。

进一步地，所述缩放因子factor设置为0.709，所述图片的最大边长设置为12。

进一步地，在P-Net和R-Net中使用α_det＝1，α_box＝0.5，α_landmark＝0.5，而在O-Net中使用α_det＝1，α_box＝0.5，α_landmark＝1，以获得更准确的面部的位置。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：将步骤S1中获得的人脸框作为特征提取模型，采用步骤S1中获得的人脸关键点来进行头部姿态识别，选取左眼(x₁,y₁)、右眼(x₂,y₂)、鼻子(x₃,y₃)以及人脸框的宽度(M,N)；首先计算人脸图像的几何中心E：

E＝(M/2,N/2)

步骤S22：根据左右眼的坐标计算眼睛之间的距离D：

步骤S23：计算左眼和右眼分别到鼻子的距离：

步骤S24：计算头部转向的偏转角度

从而根据结果来进行头部姿态的判断：

步骤S25：利用人脸框获取人脸的68个特征点，利用眼部特征点来判断眼睛的开合程度；通过计算眼睛六个关键点之间的横纵比，即眼睛长宽比EAR，设置阈值来判断眼睛是否是睁开状态；计算方法如下：

其中，a₁，a₂，a₃，a₄，a₅，a₆为眼睛的六个关键点；

步骤S26：提取嘴部的六个主要关键点，分别是68个特征点中的51、59、53、57的纵坐标以及49、55的横坐标，进行嘴部开合判断；通过计算嘴巴的开合程度MAR，判断MAR与阈值之间的关系，完成嘴部状态判断，计算方法如下：

其中，X表示嘴部关键点的横坐标，Y表示嘴部关键点的纵坐标，下标为嘴部关键点的具体编号；

步骤S27：基于68个人脸关键点，提取其中的鼻尖、左眼角、右眼角、左嘴角、右嘴角的六个关键点，来进行头部姿态的3维姿态判断，通过六个关键点来计算脸部的旋转向量，并将旋转向量转化为欧拉角，利用计算的三个欧拉角来判断脸部在空间中的转向结果，从而得到人脸的转向角度的具体结果。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：对于姿态状态判断为正常的图片进行图像预处理，首先对图像进行归一化，求出图像整体的均值，求出每一个像素点与均值的差值，对差值为0的图像求出方差，并用非零像素点除以方差，达到归一化效果；

步骤S32：对图像进行粗分割，选取ResNet50作为网络模型，使用残差块将若干层的数据输出直接通过跳跃连接引入到后面的数据层作为输入，然后利用空洞卷积对输出结果进行处理，得到三分类的黑白图像；其中残差块的计算方法如下：

t＝σ(F(c)+c)＝σ(w₂σ(w₁c)+c)

其中，c为网络的输入，t为网络的输出，σ为relu激活函数，w₁和w₂表示两层卷积的映射参数；

步骤S33：对UNet网络进行精简，减少参数的个数，减少各个尺度的特征通道数，并在每一个卷积层都加上批量归一化来加速收敛；将粗分割得到的黑白图导入到简化版的UNet网络结构进行细分割，直接计算生成alpha掩模图；

步骤S34：对alpha掩模图中的边缘元素点和背景图元素点进行元素点融合处理，调整融合参数进行边缘的平滑过渡，最终完成黑白、蓝色、红色、白色证件照的图片制作。

进一步地，所述步骤S4中，采用基于人脸特征相似度分数似然比的计算方法对人脸框中的特征进行人脸比对，判断两张图片人脸相似度，具体包括以下步骤：

步骤S41：从图库中选择要比较的两张图片，分别为制作的证件照和身份证照片，分别对两张图片进行步骤S1的人脸检测，判断图片中是否存在人脸；

步骤S42：提取两张图片中的人脸框，分别对人脸框进行加厚，保存加厚的人脸框，进行特征提取；

步骤S43：将提取到的特征值分别用u、v来表示，其中u为第一张人脸的特征，v为第二张人脸的特征，利用特征计算似然比，计算方法如下：

其中u为第一个人脸框的特征向量，v为第二个人脸框的特征向量，f表示特征向量u和v的概率密度分布，I表示背景的信息，H_p表示为是同一个人的概率事件，H_d表示为不是同一个人的概率。

本发明还提供了一种基于Android的证件照合规性检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：

1、能够有效地对图片中的人脸进行检测，提前对图片进行预处理，将图片进行去噪处理，能够提高复杂场景下人脸检测的准确性。

2、能够从多个方面来对人脸姿态进行判断，分别实现了头部、嘴部、眼部三种姿态识别，能够确保图片能够制作成一个合适的证件照。

3、针对拍摄的图片，考虑到人像的背景复杂以及融合不够平滑等问题上，首先对图片进行粗分割，采用了ResNet50的网络结构，对图像不是采用二分类，而是采用了三分类的方法，找到了中间的过渡带。

4、引入了简化版的UNet网络结构，进行更进一步的细图像分割，得到合适的掩模图，利用掩模图来进行人像与背景的平滑融合，能够达到更好的背景替换效果，看起来更加真实。

5、针对MTCNN算法中提取的人脸框进行改进，进行人脸框的加厚，能够将更丰富的人脸特征包括进来，利用更多的特征来进行相似度比对，相似度判断更加准确。

6、针对证件照有可能与身份证照片不同的情况下，造成误判，提出了采用基于人脸特征相似度分数似然比的计算方法对人脸框中的特征进行人脸比对功能，将两个人脸进行比对判断是不是同一个人，能够降低顶替的风险，最终能够利用自己制作的证件照来提交有关的证明身份材料。

附图说明

图1是本发明实施例的方法实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于Android的证件照合规性检测方法，包括以下步骤：

步骤S1：采用MTCNN算法检测图片是否存在人脸并确定五官关键点位置，具体包括以下步骤：

步骤S11：从网络上获取公开的人脸检测训练集，并获得训练数据的相关标注。

步骤S12：对人脸检测训练集中的人脸图像进行图像预处理，利用小波去噪模型对图像进行噪声处理，并对图片进行大小和质量的压缩，然后将图片进行对角线翻转传入到输入模型当中。

步骤S13：对图片进行金字塔缩放，设置缩放因子factor，同时设置图片的最大边长，将图片进行迭代缩放，直到边长不大于最大边长则满足条件。

在本实施例中，所述缩放因子factor设置为0.709，所述图片的最大边长设置为12。

步骤S14：将处理好的图片传入P-Net网络层，进行粗略的图像处理，获取候选人脸窗口以及人脸框回归向量。基于人脸框回归向量对候选窗口进行校正。然后采用NMS合并高重叠率的候选窗口。

步骤S15：将所有候选项传入另一个R-Net网络层，该网络进一步拒绝大量错误的候选项，使用边界框回归进行校准，并合并NMS候选项。

步骤S17：设p_i为网络产生的概率，判断图片中存在人脸的概率，i为图片中的某个人脸。符号

表示真实标签，计算交叉熵损失

其计算公式如下：

步骤S18：由于我们在每个CNN中使用不同的任务，因此在学习过程中存在不同类型的训练图像，例如面部，非面部和部分对齐的面部。在这种情况下，不使用一些损失函数，仅计算

而另外两个损失设置为0，这可以直接使用样本类型指示符来实现。然后整体学习目标可以表示为：

是样本类型指示器。在本来实施例中，在P-Net和R-Net中使用α_det＝1，α_box＝0.5，α_landmark＝0.5，而在O-Net中使用α_det＝1，α_box＝0.5，α_landmark＝1，以获得更准确的面部的位置。

步骤S2：将检测到的人脸框提取出来，进行眼部、嘴部、头部姿态判断，具体包括以下步骤：

步骤S21：将步骤S1中获得的人脸框作为特征提取模型，采用步骤S1中获得的人脸关键点来进行头部姿态识别，选取左眼(x₁,y₁)、右眼(x₂,y₂)、鼻子(x₃,y₃)以及人脸框的宽度(M,N)。首先计算人脸图像的几何中心E：

E＝(M/2,N/2)

步骤S22：根据左右眼的坐标计算眼睛之间的距离D：

步骤S23：计算左眼和右眼分别到鼻子的距离：

步骤S24：计算头部转向的偏转角度

从而根据结果来进行头部姿态的判断：

步骤S25：利用人脸框获取人脸的68个特征点，利用眼部特征点来判断眼睛的开合程度。通过计算眼睛六个关键点之间的横纵比，即眼睛长宽比EAR，设置阈值来判断眼睛是否是睁开状态；计算方法如下：

其中，a₁，a₂，a₃，a₄，a₅，a₆为眼睛的六个关键点。

步骤S26：提取嘴部的六个主要关键点，分别是68个特征点中的51、59、53、57的纵坐标以及49、55的横坐标，进行嘴部开合判断。通过计算嘴巴的开合程度MAR，判断MAR与阈值之间的关系，完成嘴部状态判断，计算方法如下：

其中，X表示嘴部关键点的横坐标，Y表示嘴部关键点的纵坐标，下标为嘴部关键点的具体编号。

步骤S3：对姿态判断检测合格的图片进行人像分割，进行证件照背景制作，制作各种底色的证件照以供选择，具体包括以下步骤：

步骤S31：对于姿态状态判断为正常的图片进行图像预处理，首先对图像进行归一化，求出图像整体的均值，求出每一个像素点与均值的差值，对差值为0的图像求出方差，并用非零像素点除以方差，达到归一化效果。

步骤S32：对图像进行粗分割，选取ResNet50作为网络模型，使用残差块将若干层的数据输出直接通过跳跃连接引入到后面的数据层作为输入，然后利用空洞卷积对输出结果进行处理，得到三分类的黑白图像。其中残差块的计算方法如下：

t＝σ(F(c)+c)＝σ(w₂σ(w₁c)+c)

其中，c为网络的输入，t为网络的输出，σ为relu激活函数，w₁和w₂表示两层卷积的映射参数。

步骤S33：对UNet网络进行精简，减少参数的个数，减少各个尺度的特征通道数，并在每一个卷积层都加上批量归一化来加速收敛。将粗分割得到的黑白图导入到简化版的UNet网络结构进行细分割，直接计算生成alpha掩模图。

步骤S4：对要比较的图片进行人脸检测，采用基于人脸特征相似度分数似然比的计算方法对人脸框中的特征进行人脸比对，判断两张图片人脸相似度，具体包括以下步骤：

步骤S41：从图库中选择要比较的两张图片，分别为制作的证件照和身份证照片，分别对两张图片进行步骤S1的人脸检测，判断图片中是否存在人脸。

步骤S42：提取两张图片中的人脸框，分别对人脸框进行加厚，厚度为N/100，其中N为步骤S2中的人脸框的宽度，保存加厚的人脸框，进行特征提取。

本实施例还提供了一种基于Android的证件照合规性检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于Android的证件照合规性检测方法，其特征在于，包括以下步骤：

步骤S1：检测图片是否存在人脸并确定五官关键点位置；

步骤S4：对要比较的图片进行人脸检测，对人脸框中的特征进行人脸比对，判断两张图片人脸相似度；

所述步骤S1中，采用MTCNN算法检测图片是否存在人脸并确定五官关键点位置，具体包括以下步骤：

步骤S12：对人脸检测训练集中的人脸图像进行图像预处理，利用小波去噪模型对图像进行噪声处理，并对图片进行大小和质量的压缩，然后将图片进行对角线翻转；

步骤S14：将处理好的图片传入P-Net网络层，进行粗略的图像处理，获取候选人脸框以及人脸框回归向量；基于人脸框回归向量对候选人脸框进行校正；然后采用非极大值抑制合并高重叠率的候选人脸框；

步骤S15：将所有候选人脸框传入R-Net网络层，该网络进一步拒绝大量错误的候选人脸框，使用边界框回归进行校准，并合并非极大值抑制候选人脸框；

步骤S16：将R-Net输出的候选人脸框使用更复杂的O-Net网络层，进一步精化结果并输出5个人脸特征点，这一阶段用更多的监督来识别人脸区域，而且网络能够输出五个人脸特征点位置坐标；

步骤S17：设p_i为网络产生的概率，用于判断图片中存在人脸的概率，i为图片中的某个人脸；符号

表示真实标签，计算交叉熵损失

其计算公式如下：

步骤S18：损失函数仅计算

以直接使用样本类型指示符来实现；然后整体学习目标表示为：

其中，K是训练样本的数量，α表示任务重要性，i表示图片中的某个人脸，det表示人脸二元分类，

是样本类型指示器；

所述步骤S2具体包括以下步骤：

步骤S21：将步骤S1中获得的人脸框作为特征提取模型的输入，采用步骤S1中获得的人脸关键点来进行头部姿态识别，选取左眼(x₁,y₁)、右眼(x₂,y₂)、鼻子(x₃,y₃)以及人脸框的长度M和宽度N；首先计算人脸图像的几何中心E：

E＝(M/2,N/2)

步骤S22：根据左右眼的坐标计算眼睛之间的距离D：

步骤S23：计算左眼和右眼分别到鼻子的距离：

步骤S24：计算头部转向的偏转角度

从而根据结果来进行头部姿态的判断：

其中，a₁，a₂，a₃，a₄，a₅，a₆为眼睛的六个关键点；

步骤S27：基于68个人脸关键点，提取其中的鼻尖、左眼角、右眼角、左嘴角、右嘴角的六个关键点，来进行头部姿态的3维姿态判断，通过六个关键点来计算脸部的旋转向量，并将旋转向量转化为欧拉角，利用计算的三个欧拉角来判断脸部在空间中的转向结果，从而得到人脸的转向角度的具体结果；

所述步骤S3具体包括以下步骤：

t＝σ(F(c)+c)＝σ(w₂σ(w₁c)+c)

步骤S34：对alpha掩模图中的边缘元素点和背景图元素点进行元素点融合处理，调整融合参数进行边缘的平滑过渡，最终完成黑白、蓝色、红色、白色证件照的图片制作；

所述步骤S4中，采用基于人脸特征相似度分数似然比的计算方法对人脸框中的特征进行人脸比对，判断两张图片人脸相似度，具体包括以下步骤：

步骤S42：提取两张图片中的人脸框，分别对人脸框进行加厚，厚度为N/100，其中N为步骤S2中的人脸框的宽度，保存加厚的人脸框，进行特征提取；

其中u为第一个人脸框的特征向量，v为第二个人脸框的特征向量，f表示特征向量u和v的概率密度分布，I表示背景的信息，H_p表示为是同一个人的概率事件，H_d表示为不是同一个人的概率事件。

2.根据权利要求1所述的基于Android的证件照合规性检测方法，其特征在于，所述缩放因子factor设置为0.709，所述图片的最大边长设置为12。

3.一种基于Android的证件照合规性检测系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现如权利要求1-2任一项所述的方法步骤。