CN110569763A

CN110569763A - 一种用于细粒度人脸识别的眼镜去除方法

Info

Publication number: CN110569763A
Application number: CN201910798249.4A
Authority: CN
Inventors: 毛亮; 魏颖慧; 刘三阳; 朱婷婷; 王祥雪; 谭焕新; 黄仝宇; 汪刚
Original assignee: Xian University of Electronic Science and Technology; Gosuncn Technology Group Co Ltd
Current assignee: Xian University of Electronic Science and Technology; Gosuncn Technology Group Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-13
Anticipated expiration: 2039-08-27
Also published as: CN110569763B

Abstract

本发明属于人脸识别技术领域，具体涉及一种用于细粒度人脸识别的眼镜去除方法，包括步骤：将初始的戴眼镜人脸图像被切分为三个图像块，分别以Part1，Part2和Part3标识，其中Part2包含完整的眼镜部分；建立眼镜去除深度卷积神经网络ERCNN网络模型，将Part2作为ERCNN网络模型卷积层的输入，通过网络中MFM单元进行特征选择和最大元素操作，再利用反卷积、平均池化和逐个元素加权求和的操作，对Part2实现重构，进而得到去除眼镜后的新图像块Part2_new；将输出的Part2_new与原始的Part1和Part3进行合并，得到完整的去除眼镜的人脸图像。

Description

一种用于细粒度人脸识别的眼镜去除方法

技术领域

本发明属于人脸识别技术领域，具体涉及一种用于细粒度人脸识别的眼镜去除方法。

背景技术

人脸识别是模式识别和计算机视觉领域最活跃的研究方向之一。眼镜作为常见的人脸遮挡物，极大地影响了人脸识别的准确率，尤其是对相似人脸这类细粒度特性的人脸识别。当前，去除人脸图像中眼镜的方法有基于PCA或深度学习的方法。其中PCA是一种较为常用的数据分析方法，其主要思路是根据统计学原理，计算出主成分分量，也即变换矩阵，从而对原向量进行重建。PCA方法虽然可以对戴眼镜人脸图像进行眼镜去除，但易受噪声干扰，去除效果不甚理想，无法适用于细粒度人脸识别。随着深度学习的快速发展，深度卷积神经网络也被应用于图像的超分辨率重构上，只需做很少的预处理/后处理，就可直接得到低分辨率和高分辨率图像之间映射关系，实现端到端的处理。但利用现有的基于深度学习的方法直接进行戴眼镜区域的去除与重构时，无法得到较理想的重构效果，且效率较低。

现有技术中的技术方案为Light CNNs。Light CNNs发表于论文《A Light CNN forDeep Face Representation with Noisy Labels》，是一种人脸特征提取技术。该技术定义了一种MFM(最大特征图，Max-Feature-Map)操作代替ReLU(线性修正激活单元，RectifiedLinear Unit)操作，相比于ReLU从训练数据中学习阈值，MFM泛化性更好，可以得到更好的紧凑低维的特征。Light CNNs模型是在AlexNet、VGG和ResNet基础上采用MFM代替ReLU，构建出三种轻量化的网络。但是，Light CNNs主要是一种人脸特征提取技术，并不是一种眼镜去除方法，也未将其应用到具有细粒度特性的人脸识别。且Light CNNs使用整张人脸图像作为输入，输入维度相对较大。此外，Light CNNs未使用反卷积操作，输出的特征图和输入图像的尺度不同。Light CNNs是一种对含噪声人脸图像进行特征提取和分类的卷积神经网络，其网络结构中未使用反卷积层，因此无法实现对戴眼镜人脸图像的重构，不能直观地得到最终去除眼镜的人脸图像；Light CNNs未在具有细粒度特征的人脸图像(如相似人脸)数据集上进行实验验证，没有将其应用到细粒度人脸识别领域；Light CNNs使用整张人脸图像作为输入，输入维度较大，影响网络运行效率。

“申请号201711361308.9”是与本提案接近的另一种技术方案。该技术方案定义了一种眼镜去除方法，采用对称的卷积神经网络结构，包括依次连接的输入层、N个卷积层、N个反卷积层和输出层，其中，第i个卷积层与第N+1-i个反卷积层为对称关系，卷积层用于对图像进行特征编码，反卷积层用于对图像进行特征解码。同时提出一种人脸识别方法，包括：获取待识别的人脸图像；判断所述待识别的人脸图像中是否包含眼镜；若否，则对所述待识别的人脸图像进行人脸识别；若是，则根据预先训练的眼镜摘除模型对所述待识别的人脸图像中的眼镜进行摘除处理，得到眼镜摘除后的图像，其中，所述眼镜摘除模型是采用该技术方案中的眼镜去除方法。该技术方案与本提案的技术方案相比，具有以下缺点：1、“申请号201711361308.9”采用N个卷积层与N个反卷积层的对称结构，网络层数较多，因此不容易进行训练，且训练出的模型参数量和计算量大。2、“申请号201711361308.9”提出的眼镜去除方法，只将其应用于一般人脸识别方法中，并未将重构的无眼镜人脸图像应用于细粒度人脸识别，且未定义对重构图像质量的评价标准。

发明内容

为了解决现有技术中存在的技术缺陷，本发明提出了一种用于细粒度人脸识别的眼镜去除方法。

本发明通过以下技术方案实现：

一种用于细粒度人脸识别的眼镜去除方法，其包括步骤：

1)将初始的戴眼镜人脸图像被切分为三个图像块，分别以第一图像块Part1，第二图像块Part2和第三图像块Part3标识，其中第二图像块Part2包含完整的眼镜部分；

2)建立眼镜去除深度卷积神经网络ERCNN网络模型，将第二图像块Part2作为ERCNN网络模型卷积层的输入，通过网络中MFM单元进行特征选择和最大元素操作，再利用反卷积、平均池化和逐个元素加权求和的操作，对Part2实现重构，进而得到去除眼镜后的第四图像块Part2_new；其中，所述ERCNN网络模型包括反卷积层和ReLU层，所述ReLU层用于增加网络的非线性特征提取能力；

3)将步骤2)输出的第四图像块Part2_new与第一图像块Part1和第三图像块Part3进行合并，得到完整的去除眼镜的人脸图像。

进一步地，在所述的步骤1)中，所述的初始的戴眼镜人脸图像大小为128×128，被切分为20×128，64×128和64×128三个图像块。

进一步地，所述的步骤2)进一步包括，所述ERCNN使用卷积核大小为9×9，padding为4，步长为1的Conv1来提取所述Part2的高维特征，输出256维通道的特征图；再通过最大池化层Pool1，MFM1和激活函数ReLU1处理后，输出大小为32×64，128维通道的特征图；继续使用和Conv1相同参数的Conv2堆叠卷积，再经过MFM2和激活函数ReLU2处理后，将输入的高维特征图非线性映射到另一个高维特征图，输出大小为32×64，128维通道的特征图；然后，利用卷积核大小为4×4，padding为1，步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素，输出128维通道的特征图；通过平均池化层Pool2对该特征图进行处理，并将其特征值乘以权重0.2，与自身特征值进行元素求和操作，输出大小为64×128像素，128维通道的特征图；对输出的特征图，使用卷积核大小为1×1，步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。

进一步地，所述的通过网络中MFM单元进行特征选择和最大元素操作具体包括：设输入MFM单元的卷积层为xⁿ∈R^H×W，其中n＝{1,…,2N}为特征图通道，输入通道数为2N，W和H分别为特征图的宽度和高度。MFM单元将输入的两个特征图取对应元素最大值输出一个特征图，计算公式如下：

式中，1≤k≤N,1≤i≤H,1≤j≤W，通过MFM单元操作后输出的

进一步地，基于随机梯度下降法，对所述ERCNN网络模型以端对端的联合方式进行训练，从而获取精度最高的网络模型。

进一步地，基于图像重构质量和所述去除眼镜的人脸图像的细粒度人脸识别精度来评价所述ERCNN网络模型。

进一步地，在所述图像重构质量的评价上，采用均方差MSE(Mean SquaredError)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(StructuralSIMilarity)和信息保真度准则IFC(Information Fidelity Criterion)四个指标进行评价，所述四个指标的计算如下：

1)MSE表示为m×n的无噪声单色图像I与它的近似图像K的均方差值，当值越小时，说明两幅图像越接近，即近似图像K的质量越好；当两幅图像完全相同时，MSE的取值为0；

其中，I(i,j)表示图像I中第i行、第j列的像素值；K(i,j)表示图像K中第i行、第j列的像素值；m、n分别表示图像I的高和宽；

2)PSNR可通过MSE来定义：

其中，MAX_I是无噪声图像I的最大像素可能值；

3)SSIM的计算公式如下：

其中，μ_x和分别是x的均值和方差，μ_y和则分别是y的均值和方差，σ_xy是x和y的协方差，C₁＝(K₁L)²,C₂＝(K₂L)²是用来维持稳定的常数，L是像素值的动态范围，K₁＝0.01,K₂＝0.03；

4)IFC量化了源图像和失真图像之间共享的统计信息，它不是失真程度的度量，而是保真度的度量，理论上，它从0到无穷大：

其中，表示来自第k个子带的随机场C^k的N_k系数，和类似。

进一步地，当用8位二进制来表示每个像素的颜色时，所述MAX_I的值是255；当每个像素用B位二进制来表示时，MAX_I＝2^B-1。

进一步地，所述人脸识别精度的评价指标包括误识率FAR(False Accept Rate)和通过率TAR(True Accept Rate)。

进一步地，所述ERCNN网络模型采用Euclidean Loss监督信号来构建损失函数：

式中，L为Euclidean Loss函数，设x_i,y_i∈R^d，其中R^d代表维度为d的特征图集合，则x_i表示第i个输出数据的特征，m为训练过程中小批量(mini-batch)数据的数量，y_i表示第i个数据的真实特征。

与现有技术相比，本发明至少具有下述的有益效果或优点：

(1)给出了一种应用到细粒度人脸识别的眼镜去除方法，而Light CNNs主要是一种人脸特征提取技术，并不是一种眼镜去除方法，也未将其应用到具有细粒度特性的人脸识别；

(2)将输入的人脸图像由上至下切分为三个图像块，只使用中间有眼镜的图像块作为网络输入，减小了输入维度，而Light CNNs使用整张人脸图像作为输入；

(3)添加了反卷积操作，将特征图复原为原来的尺度，实现了去除眼镜后的人脸图像的可视化，而Light CNNs未使用反卷积操作，无法可视化处理后的人脸图像；

(4)保留了ReLU操作，进一步增强非线性特征表达能力，而Light CNNs只使用了MFM操作，删除了ReLU操作。

(5)适用于对全框、半框和无框眼镜的去除，对光照变化、固有的眼镜框外观变化以及面部皮肤和眼镜之间的相似性都具有较好的鲁棒性。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1为初始的戴眼镜人脸图像及切分示意；

图2为去除眼镜后的重构人脸图像示意；

图3为ERCNN的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明利用MFM和卷积、反卷积、池化、对应元素求和等操作，构建出一种新的眼镜去除深度卷积神经网络(Eyeglasses Removal DCNN，ERCNN)，用于细粒度的人脸识别。在网络结构上，本方案的ERCNN与Light CNNs的不同之处在于：(1)本方案的ERCNN在使用MFM的同时保留了ReLU层，以增加网络的非线性特征提取能力；(2)本方案将输入的人脸图像由上至下切分为三个图像块，分别以Part1、Part2和Part3标识，其中Part2包含完整的眼镜部分，作为ERCNN的输入，减小了输入图像的维度；(3)本方案的ERCNN添加了反卷积层，可以实现对Part2的重构与可视化，将Part1、Part2和Part3合并最终可得到完整的去除眼镜的人脸图像。

在第一实施例中，初始的戴眼镜人脸图像大小为128×128，被切分为20×128，64×128和64×128三个图像块，分别以Part1，Part2和Part3标识，其中Part2包含完整的眼镜部分，如图1所示；然后，将Part2作为ERCNN卷积层的输入，用于网络中MFM(Max FeatureMap)单元进行特征选择和最大元素操作，再利用反卷积、平均池化和逐个元素加权求和的操作，对Part2实现重构，进而得到去除眼镜后的新图像块Part2_new；最后，将输出的Part2_new与原始的Part1和Part3进行合并，得到完整的去除眼镜的人脸图像，如图2所示。

图3展示了ERCNN的详细网络结构。具体来说，ERCNN网络中使用卷积核大小为9×9，padding为4，步长为1的Conv1来提取Part2的高维特征，输出256维通道的特征图。然后通过最大池化层Pool1，MFM1(由切片层Slice1和取最大的元素操作层Eltwise1实现)和激活函数ReLU1处理后，输出大小为32×64，128维通道的特征图。紧接着，继续使用和Conv1相同参数的Conv2堆叠卷积，再经过MFM2(由切片层Slice2和取最大的元素操作层Eltwise2实现)和激活函数ReLU2处理后，将输入的高维特征图非线性映射到另一个高维特征图，输出大小为32×64，128维通道的特征图。然后，利用卷积核大小为4×4，padding为1，步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素，输出128维通道的特征图；通过平均池化层Pool2对该特征图进行处理，并将其特征值乘以权重0.2，与自身特征值进行元素求和操作(Eltwise3)，输出大小为64×128像素，128维通道的特征图；对输出的特征图，使用卷积核大小为1×1，步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。最后将去除眼镜后的图像块Part2_new与Part1和Part3合并，输出去除眼镜人脸图像。

至此，ERCNN实现了对戴眼镜人脸图像的眼镜去除。ERCNN输出的去除眼镜后的人脸图像可进一步用于细粒度的人脸识别，试验证明，使用经ERCNN处理后的人脸图像数据，可使现有人脸识别算法得到不同程度的提升。

在第二实施例中，ERCNN网络使用的MFM操作：ERCNN网络使用的MFM操作与LightCNNs中定义的MFM操作相同。假定输入MFM的卷积层为xⁿ∈R^H×W，其中n＝{1,…,2N}为特征图通道，输入通道数为2N，W和H分别为特征图的宽度和高度。MFM操作将输入的两个特征图取对应元素最大值输出一个特征图，计算公式如下：

式中，1≤k≤N,1≤i≤H,1≤j≤W，通过MFM操作后输出的

ERCNN网络模型采用简单的Euclidean Loss监督信号来构建损失函数：

在第三实施例中，使用随机梯度下降法，对ERCNN以端对端的联合方式进行训练，其中设置mini-batch大小为64，冲量为0.9，权值的衰减系数为5×10^-4，最大迭代次数为5×10⁶次。在1×10⁶次迭代后，每隔1×10⁶次保存一个模型，在迭代3.18×10⁶时停止，最终获取精度最高的模型。

在第四实施例中，从两方面评价ERCNN网络，分别为图像重构质量和基于重构图像的细粒度人脸识别精度。在图像重构质量评价上，采用均方差MSE(Mean Squared Error)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(Structural SIMilarity)、信息保真度准则IFC(Information Fidelity Criterion)四个指标评价。在基于重构图像的细粒度人脸识别精度评价上，采用误识率FAR(False Accept Rate)和通过率TAR(TrueAccept Rate)作为评价指标。

A、图像重构质量评价包括：

1)MSE表示为m×n的无噪声单色图像I与它的近似图像K的均方差值，当值越小时，说明两幅图像越接近，即近似图像K的质量越好；当两幅图像完全相同时，MSE的取值为0。

其中，I(i,j)表示图像I中第i行、第j列的像素值；K(i,j)表示图像K中第i行、第j列的像素值；m、n分别表示图像I的高和宽。

2)PSNR可通过MSE来定义，这种定义方式最为简单：

其中，MAX_I是无噪声图像I的最大像素可能值，当用8位二进制来表示每个像素的颜色时，这个值是255。更一般的情况，当每个像素用B位二进制来表示时，MAX_I＝2^B-1。

3)SSIM是一种用来比较参考信号和失真信号的结构的评价指标。从图像组成的角度将结构信息定义为独立于亮度、对比度的，反映场景中物体结构的属性，并将失真建模为亮度、对比度和结构三个不同因素的组合，其计算公式为：

其中，μ_x和分别是x的均值和方差，μ_y和则分别是y的均值和方差，σ_xy是x和y的协方差，C₁＝(K₁L)²,C₂＝(K₂L)²是用来维持稳定的常数，L是像素值的动态范围，K₁＝0.01,K₂＝0.03。

4)IFC量化了源图像和失真图像之间共享的统计信息，它不是失真程度的度量，而是保真度的度量。理论上，它从0(无保真度)到无穷大(在无噪声情况下的完全保真度)。

其中，表示来自第k个子带的随机场C^k的N_k系数，和类似。

B、细粒度人脸识别精度包括：

本实施例提出的是一种用于细粒度人脸识别的眼镜去除方法，因此不仅需要对重构后的无眼镜人脸图像的质量进行评价，还需要对基于重构人脸图像(去除眼镜后的人脸图像)进行细粒度人脸识别的效果进行评价。因此，为验证本提案的眼镜去除方法对细粒度人脸识别的影响，选择4种公开的人脸识别算法，分别为CenterLoss、SphereFace、AM-Softmax和Arcface，在细粒度人脸数据集上进行验证。人脸识别的评价指标采用误识率FAR(False Accept Rate)和通过率TAR(True Accept Rate)两个指标。具体来说，本实施例考虑FAR＝1％和FAR＝0.1％时，以上4种人脸识别算法的TAR大小。在FAR值相同的情况下，算法的TAR值越大，说明人脸识别效果越好。

另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现用于细粒度人脸识别的眼镜去除方法的步骤。

另一实施例中，还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现用于细粒度人脸识别的眼镜去除方法的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

Claims

1.一种用于细粒度人脸识别的眼镜去除方法，其特征在于，包括步骤：

2.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，在所述的步骤1)中，所述的初始的戴眼镜人脸图像大小为128×128，被切分为20×128，64×128和64×128三个图像块。

3.根据权利要求2所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，所述的步骤2)进一步包括，所述ERCNN使用卷积核大小为9×9，padding为4，步长为1的Conv1来提取所述Part2的高维特征，输出256维通道的特征图；再通过最大池化层Pool1，MFM1和激活函数ReLU1处理后，输出大小为32×64，128维通道的特征图；继续使用和Conv1相同参数的Conv2堆叠卷积，再经过MFM2和激活函数ReLU2处理后，将输入的高维特征图非线性映射到另一个高维特征图，输出大小为32×64，128维通道的特征图；然后，利用卷积核大小为4×4，padding为1，步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素，输出128维通道的特征图；通过平均池化层Pool2对该特征图进行处理，并将其特征值乘以权重0.2，与自身特征值进行元素求和操作，输出大小为64×128像素，128维通道的特征图；对输出的特征图，使用卷积核大小为1×1，步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。

4.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，所述的通过网络中MFM单元进行特征选择和最大元素操作具体包括：设输入MFM单元的卷积层为xⁿ∈R^H×W，其中n＝{1,…,2N}为特征图通道，输入通道数为2N，W和H分别为特征图的宽度和高度。MFM单元将输入的两个特征图取对应元素最大值输出一个特征图，计算公式如下：

式中，1≤k≤N,1≤i≤H,1≤j≤W，通过MFM单元操作后输出的

5.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，基于随机梯度下降法，对所述ERCNN网络模型以端对端的联合方式进行训练，从而获取精度最高的网络模型。

6.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，基于图像重构质量和所述去除眼镜的人脸图像的细粒度人脸识别精度来评价所述ERCNN网络模型。

7.根据权利要求6所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，在所述图像重构质量的评价上，采用均方差MSE(Mean Squared Error)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(Structural SIMilarity)和信息保真度准则IFC(Information Fidelity Criterion)四个指标进行评价，所述四个指标的计算如下：

2)PSNR可通过MSE来定义：

其中，MAX_I是无噪声图像I的最大像素可能值；

3)SSIM的计算公式如下：

其中，表示来自第k个子带的随机场C^k的N_k系数，和类似。

8.根据权利要求7所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，当用8位二进制来表示每个像素的颜色时，所述MAX_I的值是255；当每个像素用B位二进制来表示时，MAX_I＝2^B-1。

9.根据权利要求6所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，所述人脸识别精度的评价指标包括误识率FAR(False Accept Rate)和通过率TAR(True AcceptRate)。

10.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法，其特征在于，所述ERCNN网络模型采用Euclidean Loss监督信号来构建损失函数：