CN110569763A - 一种用于细粒度人脸识别的眼镜去除方法 - Google Patents
一种用于细粒度人脸识别的眼镜去除方法 Download PDFInfo
- Publication number
- CN110569763A CN110569763A CN201910798249.4A CN201910798249A CN110569763A CN 110569763 A CN110569763 A CN 110569763A CN 201910798249 A CN201910798249 A CN 201910798249A CN 110569763 A CN110569763 A CN 110569763A
- Authority
- CN
- China
- Prior art keywords
- image
- glasses
- part2
- ercnn
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011521 glass Substances 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 23
- 238000011176 pooling Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 101150082661 MFM1 gene Proteins 0.000 claims description 3
- 101100401327 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mfm2 gene Proteins 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于人脸识别技术领域,具体涉及一种用于细粒度人脸识别的眼镜去除方法,包括步骤:将初始的戴眼镜人脸图像被切分为三个图像块,分别以Part1,Part2和Part3标识,其中Part2包含完整的眼镜部分;建立眼镜去除深度卷积神经网络ERCNN网络模型,将Part2作为ERCNN网络模型卷积层的输入,通过网络中MFM单元进行特征选择和最大元素操作,再利用反卷积、平均池化和逐个元素加权求和的操作,对Part2实现重构,进而得到去除眼镜后的新图像块Part2_new;将输出的Part2_new与原始的Part1和Part3进行合并,得到完整的去除眼镜的人脸图像。
Description
技术领域
本发明属于人脸识别技术领域,具体涉及一种用于细粒度人脸识别的眼镜去除方法。
背景技术
人脸识别是模式识别和计算机视觉领域最活跃的研究方向之一。眼镜作为常见的人脸遮挡物,极大地影响了人脸识别的准确率,尤其是对相似人脸这类细粒度特性的人脸识别。当前,去除人脸图像中眼镜的方法有基于PCA或深度学习的方法。其中PCA是一种较为常用的数据分析方法,其主要思路是根据统计学原理,计算出主成分分量,也即变换矩阵,从而对原向量进行重建。PCA方法虽然可以对戴眼镜人脸图像进行眼镜去除,但易受噪声干扰,去除效果不甚理想,无法适用于细粒度人脸识别。随着深度学习的快速发展,深度卷积神经网络也被应用于图像的超分辨率重构上,只需做很少的预处理/后处理,就可直接得到低分辨率和高分辨率图像之间映射关系,实现端到端的处理。但利用现有的基于深度学习的方法直接进行戴眼镜区域的去除与重构时,无法得到较理想的重构效果,且效率较低。
现有技术中的技术方案为Light CNNs。Light CNNs发表于论文《A Light CNN forDeep Face Representation with Noisy Labels》,是一种人脸特征提取技术。该技术定义了一种MFM(最大特征图,Max-Feature-Map)操作代替ReLU(线性修正激活单元,RectifiedLinear Unit)操作,相比于ReLU从训练数据中学习阈值,MFM泛化性更好,可以得到更好的紧凑低维的特征。Light CNNs模型是在AlexNet、VGG和ResNet基础上采用MFM代替ReLU,构建出三种轻量化的网络。但是,Light CNNs主要是一种人脸特征提取技术,并不是一种眼镜去除方法,也未将其应用到具有细粒度特性的人脸识别。且Light CNNs使用整张人脸图像作为输入,输入维度相对较大。此外,Light CNNs未使用反卷积操作,输出的特征图和输入图像的尺度不同。Light CNNs是一种对含噪声人脸图像进行特征提取和分类的卷积神经网络,其网络结构中未使用反卷积层,因此无法实现对戴眼镜人脸图像的重构,不能直观地得到最终去除眼镜的人脸图像;Light CNNs未在具有细粒度特征的人脸图像(如相似人脸)数据集上进行实验验证,没有将其应用到细粒度人脸识别领域;Light CNNs使用整张人脸图像作为输入,输入维度较大,影响网络运行效率。
“申请号201711361308.9”是与本提案接近的另一种技术方案。该技术方案定义了一种眼镜去除方法,采用对称的卷积神经网络结构,包括依次连接的输入层、N个卷积层、N个反卷积层和输出层,其中,第i个卷积层与第N+1-i个反卷积层为对称关系,卷积层用于对图像进行特征编码,反卷积层用于对图像进行特征解码。同时提出一种人脸识别方法,包括:获取待识别的人脸图像;判断所述待识别的人脸图像中是否包含眼镜;若否,则对所述待识别的人脸图像进行人脸识别;若是,则根据预先训练的眼镜摘除模型对所述待识别的人脸图像中的眼镜进行摘除处理,得到眼镜摘除后的图像,其中,所述眼镜摘除模型是采用该技术方案中的眼镜去除方法。该技术方案与本提案的技术方案相比,具有以下缺点:1、“申请号201711361308.9”采用N个卷积层与N个反卷积层的对称结构,网络层数较多,因此不容易进行训练,且训练出的模型参数量和计算量大。2、“申请号201711361308.9”提出的眼镜去除方法,只将其应用于一般人脸识别方法中,并未将重构的无眼镜人脸图像应用于细粒度人脸识别,且未定义对重构图像质量的评价标准。
发明内容
为了解决现有技术中存在的技术缺陷,本发明提出了一种用于细粒度人脸识别的眼镜去除方法。
本发明通过以下技术方案实现:
一种用于细粒度人脸识别的眼镜去除方法,其包括步骤:
1)将初始的戴眼镜人脸图像被切分为三个图像块,分别以第一图像块Part1,第二图像块Part2和第三图像块Part3标识,其中第二图像块Part2包含完整的眼镜部分;
2)建立眼镜去除深度卷积神经网络ERCNN网络模型,将第二图像块Part2作为ERCNN网络模型卷积层的输入,通过网络中MFM单元进行特征选择和最大元素操作,再利用反卷积、平均池化和逐个元素加权求和的操作,对Part2实现重构,进而得到去除眼镜后的第四图像块Part2_new;其中,所述ERCNN网络模型包括反卷积层和ReLU层,所述ReLU层用于增加网络的非线性特征提取能力;
3)将步骤2)输出的第四图像块Part2_new与第一图像块Part1和第三图像块Part3进行合并,得到完整的去除眼镜的人脸图像。
进一步地,在所述的步骤1)中,所述的初始的戴眼镜人脸图像大小为128×128,被切分为20×128,64×128和64×128三个图像块。
进一步地,所述的步骤2)进一步包括,所述ERCNN使用卷积核大小为9×9,padding为4,步长为1的Conv1来提取所述Part2的高维特征,输出256维通道的特征图;再通过最大池化层Pool1,MFM1和激活函数ReLU1处理后,输出大小为32×64,128维通道的特征图;继续使用和Conv1相同参数的Conv2堆叠卷积,再经过MFM2和激活函数ReLU2处理后,将输入的高维特征图非线性映射到另一个高维特征图,输出大小为32×64,128维通道的特征图;然后,利用卷积核大小为4×4,padding为1,步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素,输出128维通道的特征图;通过平均池化层Pool2对该特征图进行处理,并将其特征值乘以权重0.2,与自身特征值进行元素求和操作,输出大小为64×128像素,128维通道的特征图;对输出的特征图,使用卷积核大小为1×1,步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。
进一步地,所述的通过网络中MFM单元进行特征选择和最大元素操作具体包括:设输入MFM单元的卷积层为xn∈RH×W,其中n={1,…,2N}为特征图通道,输入通道数为2N,W和H分别为特征图的宽度和高度。MFM单元将输入的两个特征图取对应元素最大值输出一个特征图,计算公式如下:
式中,1≤k≤N,1≤i≤H,1≤j≤W,通过MFM单元操作后输出的
进一步地,基于随机梯度下降法,对所述ERCNN网络模型以端对端的联合方式进行训练,从而获取精度最高的网络模型。
进一步地,基于图像重构质量和所述去除眼镜的人脸图像的细粒度人脸识别精度来评价所述ERCNN网络模型。
进一步地,在所述图像重构质量的评价上,采用均方差MSE(Mean SquaredError)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(StructuralSIMilarity)和信息保真度准则IFC(Information Fidelity Criterion)四个指标进行评价,所述四个指标的计算如下:
1)MSE表示为m×n的无噪声单色图像I与它的近似图像K的均方差值,当值越小时,说明两幅图像越接近,即近似图像K的质量越好;当两幅图像完全相同时,MSE的取值为0;
其中,I(i,j)表示图像I中第i行、第j列的像素值;K(i,j)表示图像K中第i行、第j列的像素值;m、n分别表示图像I的高和宽;
2)PSNR可通过MSE来定义:
其中,MAXI是无噪声图像I的最大像素可能值;
3)SSIM的计算公式如下:
其中,μx和分别是x的均值和方差,μy和则分别是y的均值和方差,σxy是x和y的协方差,C1=(K1L)2,C2=(K2L)2是用来维持稳定的常数,L是像素值的动态范围,K1=0.01,K2=0.03;
4)IFC量化了源图像和失真图像之间共享的统计信息,它不是失真程度的度量,而是保真度的度量,理论上,它从0到无穷大:
其中,表示来自第k个子带的随机场Ck的Nk系数,和类似。
进一步地,当用8位二进制来表示每个像素的颜色时,所述MAXI的值是255;当每个像素用B位二进制来表示时,MAXI=2B-1。
进一步地,所述人脸识别精度的评价指标包括误识率FAR(False Accept Rate)和通过率TAR(True Accept Rate)。
进一步地,所述ERCNN网络模型采用Euclidean Loss监督信号来构建损失函数:
式中,L为Euclidean Loss函数,设xi,yi∈Rd,其中Rd代表维度为d的特征图集合,则xi表示第i个输出数据的特征,m为训练过程中小批量(mini-batch)数据的数量,yi表示第i个数据的真实特征。
与现有技术相比,本发明至少具有下述的有益效果或优点:
(1)给出了一种应用到细粒度人脸识别的眼镜去除方法,而Light CNNs主要是一种人脸特征提取技术,并不是一种眼镜去除方法,也未将其应用到具有细粒度特性的人脸识别;
(2)将输入的人脸图像由上至下切分为三个图像块,只使用中间有眼镜的图像块作为网络输入,减小了输入维度,而Light CNNs使用整张人脸图像作为输入;
(3)添加了反卷积操作,将特征图复原为原来的尺度,实现了去除眼镜后的人脸图像的可视化,而Light CNNs未使用反卷积操作,无法可视化处理后的人脸图像;
(4)保留了ReLU操作,进一步增强非线性特征表达能力,而Light CNNs只使用了MFM操作,删除了ReLU操作。
(5)适用于对全框、半框和无框眼镜的去除,对光照变化、固有的眼镜框外观变化以及面部皮肤和眼镜之间的相似性都具有较好的鲁棒性。
附图说明
以下将结合附图对本发明做进一步详细说明;
图1为初始的戴眼镜人脸图像及切分示意;
图2为去除眼镜后的重构人脸图像示意;
图3为ERCNN的网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明利用MFM和卷积、反卷积、池化、对应元素求和等操作,构建出一种新的眼镜去除深度卷积神经网络(Eyeglasses Removal DCNN,ERCNN),用于细粒度的人脸识别。在网络结构上,本方案的ERCNN与Light CNNs的不同之处在于:(1)本方案的ERCNN在使用MFM的同时保留了ReLU层,以增加网络的非线性特征提取能力;(2)本方案将输入的人脸图像由上至下切分为三个图像块,分别以Part1、Part2和Part3标识,其中Part2包含完整的眼镜部分,作为ERCNN的输入,减小了输入图像的维度;(3)本方案的ERCNN添加了反卷积层,可以实现对Part2的重构与可视化,将Part1、Part2和Part3合并最终可得到完整的去除眼镜的人脸图像。
在第一实施例中,初始的戴眼镜人脸图像大小为128×128,被切分为20×128,64×128和64×128三个图像块,分别以Part1,Part2和Part3标识,其中Part2包含完整的眼镜部分,如图1所示;然后,将Part2作为ERCNN卷积层的输入,用于网络中MFM(Max FeatureMap)单元进行特征选择和最大元素操作,再利用反卷积、平均池化和逐个元素加权求和的操作,对Part2实现重构,进而得到去除眼镜后的新图像块Part2_new;最后,将输出的Part2_new与原始的Part1和Part3进行合并,得到完整的去除眼镜的人脸图像,如图2所示。
图3展示了ERCNN的详细网络结构。具体来说,ERCNN网络中使用卷积核大小为9×9,padding为4,步长为1的Conv1来提取Part2的高维特征,输出256维通道的特征图。然后通过最大池化层Pool1,MFM1(由切片层Slice1和取最大的元素操作层Eltwise1实现)和激活函数ReLU1处理后,输出大小为32×64,128维通道的特征图。紧接着,继续使用和Conv1相同参数的Conv2堆叠卷积,再经过MFM2(由切片层Slice2和取最大的元素操作层Eltwise2实现)和激活函数ReLU2处理后,将输入的高维特征图非线性映射到另一个高维特征图,输出大小为32×64,128维通道的特征图。然后,利用卷积核大小为4×4,padding为1,步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素,输出128维通道的特征图;通过平均池化层Pool2对该特征图进行处理,并将其特征值乘以权重0.2,与自身特征值进行元素求和操作(Eltwise3),输出大小为64×128像素,128维通道的特征图;对输出的特征图,使用卷积核大小为1×1,步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。最后将去除眼镜后的图像块Part2_new与Part1和Part3合并,输出去除眼镜人脸图像。
至此,ERCNN实现了对戴眼镜人脸图像的眼镜去除。ERCNN输出的去除眼镜后的人脸图像可进一步用于细粒度的人脸识别,试验证明,使用经ERCNN处理后的人脸图像数据,可使现有人脸识别算法得到不同程度的提升。
在第二实施例中,ERCNN网络使用的MFM操作:ERCNN网络使用的MFM操作与LightCNNs中定义的MFM操作相同。假定输入MFM的卷积层为xn∈RH×W,其中n={1,…,2N}为特征图通道,输入通道数为2N,W和H分别为特征图的宽度和高度。MFM操作将输入的两个特征图取对应元素最大值输出一个特征图,计算公式如下:
式中,1≤k≤N,1≤i≤H,1≤j≤W,通过MFM操作后输出的
ERCNN网络模型采用简单的Euclidean Loss监督信号来构建损失函数:
式中,L为Euclidean Loss函数,设xi,yi∈Rd,其中Rd代表维度为d的特征图集合,则xi表示第i个输出数据的特征,m为训练过程中小批量(mini-batch)数据的数量,yi表示第i个数据的真实特征。
在第三实施例中,使用随机梯度下降法,对ERCNN以端对端的联合方式进行训练,其中设置mini-batch大小为64,冲量为0.9,权值的衰减系数为5×10-4,最大迭代次数为5×106次。在1×106次迭代后,每隔1×106次保存一个模型,在迭代3.18×106时停止,最终获取精度最高的模型。
在第四实施例中,从两方面评价ERCNN网络,分别为图像重构质量和基于重构图像的细粒度人脸识别精度。在图像重构质量评价上,采用均方差MSE(Mean Squared Error)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(Structural SIMilarity)、信息保真度准则IFC(Information Fidelity Criterion)四个指标评价。在基于重构图像的细粒度人脸识别精度评价上,采用误识率FAR(False Accept Rate)和通过率TAR(TrueAccept Rate)作为评价指标。
A、图像重构质量评价包括:
1)MSE表示为m×n的无噪声单色图像I与它的近似图像K的均方差值,当值越小时,说明两幅图像越接近,即近似图像K的质量越好;当两幅图像完全相同时,MSE的取值为0。
其中,I(i,j)表示图像I中第i行、第j列的像素值;K(i,j)表示图像K中第i行、第j列的像素值;m、n分别表示图像I的高和宽。
2)PSNR可通过MSE来定义,这种定义方式最为简单:
其中,MAXI是无噪声图像I的最大像素可能值,当用8位二进制来表示每个像素的颜色时,这个值是255。更一般的情况,当每个像素用B位二进制来表示时,MAXI=2B-1。
3)SSIM是一种用来比较参考信号和失真信号的结构的评价指标。从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合,其计算公式为:
其中,μx和分别是x的均值和方差,μy和则分别是y的均值和方差,σxy是x和y的协方差,C1=(K1L)2,C2=(K2L)2是用来维持稳定的常数,L是像素值的动态范围,K1=0.01,K2=0.03。
4)IFC量化了源图像和失真图像之间共享的统计信息,它不是失真程度的度量,而是保真度的度量。理论上,它从0(无保真度)到无穷大(在无噪声情况下的完全保真度)。
其中,表示来自第k个子带的随机场Ck的Nk系数,和类似。
B、细粒度人脸识别精度包括:
本实施例提出的是一种用于细粒度人脸识别的眼镜去除方法,因此不仅需要对重构后的无眼镜人脸图像的质量进行评价,还需要对基于重构人脸图像(去除眼镜后的人脸图像)进行细粒度人脸识别的效果进行评价。因此,为验证本提案的眼镜去除方法对细粒度人脸识别的影响,选择4种公开的人脸识别算法,分别为CenterLoss、SphereFace、AM-Softmax和Arcface,在细粒度人脸数据集上进行验证。人脸识别的评价指标采用误识率FAR(False Accept Rate)和通过率TAR(True Accept Rate)两个指标。具体来说,本实施例考虑FAR=1%和FAR=0.1%时,以上4种人脸识别算法的TAR大小。在FAR值相同的情况下,算法的TAR值越大,说明人脸识别效果越好。
另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现用于细粒度人脸识别的眼镜去除方法的步骤。
另一实施例中,还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中所述处理器执行所述程序时实现用于细粒度人脸识别的眼镜去除方法的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内,所做的任何修改、等同替换、改进等,同样属于本发明的保护范围之内。
Claims (10)
1.一种用于细粒度人脸识别的眼镜去除方法,其特征在于,包括步骤:
1)将初始的戴眼镜人脸图像被切分为三个图像块,分别以第一图像块Part1,第二图像块Part2和第三图像块Part3标识,其中第二图像块Part2包含完整的眼镜部分;
2)建立眼镜去除深度卷积神经网络ERCNN网络模型,将第二图像块Part2作为ERCNN网络模型卷积层的输入,通过网络中MFM单元进行特征选择和最大元素操作,再利用反卷积、平均池化和逐个元素加权求和的操作,对Part2实现重构,进而得到去除眼镜后的第四图像块Part2_new;其中,所述ERCNN网络模型包括反卷积层和ReLU层,所述ReLU层用于增加网络的非线性特征提取能力;
3)将步骤2)输出的第四图像块Part2_new与第一图像块Part1和第三图像块Part3进行合并,得到完整的去除眼镜的人脸图像。
2.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,在所述的步骤1)中,所述的初始的戴眼镜人脸图像大小为128×128,被切分为20×128,64×128和64×128三个图像块。
3.根据权利要求2所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,所述的步骤2)进一步包括,所述ERCNN使用卷积核大小为9×9,padding为4,步长为1的Conv1来提取所述Part2的高维特征,输出256维通道的特征图;再通过最大池化层Pool1,MFM1和激活函数ReLU1处理后,输出大小为32×64,128维通道的特征图;继续使用和Conv1相同参数的Conv2堆叠卷积,再经过MFM2和激活函数ReLU2处理后,将输入的高维特征图非线性映射到另一个高维特征图,输出大小为32×64,128维通道的特征图;然后,利用卷积核大小为4×4,padding为1,步长为2的反卷积结构Dconv3将高维特征图上采样2倍到原图大小的64×128像素,输出128维通道的特征图;通过平均池化层Pool2对该特征图进行处理,并将其特征值乘以权重0.2,与自身特征值进行元素求和操作,输出大小为64×128像素,128维通道的特征图;对输出的特征图,使用卷积核大小为1×1,步长为1的Conv4将高维特征图降维重构得到去除眼镜的部分块Part2_new。
4.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,所述的通过网络中MFM单元进行特征选择和最大元素操作具体包括:设输入MFM单元的卷积层为xn∈RH×W,其中n={1,…,2N}为特征图通道,输入通道数为2N,W和H分别为特征图的宽度和高度。MFM单元将输入的两个特征图取对应元素最大值输出一个特征图,计算公式如下:
式中,1≤k≤N,1≤i≤H,1≤j≤W,通过MFM单元操作后输出的
5.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,基于随机梯度下降法,对所述ERCNN网络模型以端对端的联合方式进行训练,从而获取精度最高的网络模型。
6.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,基于图像重构质量和所述去除眼镜的人脸图像的细粒度人脸识别精度来评价所述ERCNN网络模型。
7.根据权利要求6所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,在所述图像重构质量的评价上,采用均方差MSE(Mean Squared Error)、信噪比PSNR(Peak Signal-to-Noise Ratio)、结构相似度SSIM(Structural SIMilarity)和信息保真度准则IFC(Information Fidelity Criterion)四个指标进行评价,所述四个指标的计算如下:
1)MSE表示为m×n的无噪声单色图像I与它的近似图像K的均方差值,当值越小时,说明两幅图像越接近,即近似图像K的质量越好;当两幅图像完全相同时,MSE的取值为0;
其中,I(i,j)表示图像I中第i行、第j列的像素值;K(i,j)表示图像K中第i行、第j列的像素值;m、n分别表示图像I的高和宽;
2)PSNR可通过MSE来定义:
其中,MAXI是无噪声图像I的最大像素可能值;
3)SSIM的计算公式如下:
其中,μx和分别是x的均值和方差,μy和则分别是y的均值和方差,σxy是x和y的协方差,C1=(K1L)2,C2=(K2L)2是用来维持稳定的常数,L是像素值的动态范围,K1=0.01,K2=0.03;
4)IFC量化了源图像和失真图像之间共享的统计信息,它不是失真程度的度量,而是保真度的度量,理论上,它从0到无穷大:
其中,表示来自第k个子带的随机场Ck的Nk系数,和类似。
8.根据权利要求7所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,当用8位二进制来表示每个像素的颜色时,所述MAXI的值是255;当每个像素用B位二进制来表示时,MAXI=2B-1。
9.根据权利要求6所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,所述人脸识别精度的评价指标包括误识率FAR(False Accept Rate)和通过率TAR(True AcceptRate)。
10.根据权利要求1所述的用于细粒度人脸识别的眼镜去除方法,其特征在于,所述ERCNN网络模型采用Euclidean Loss监督信号来构建损失函数:
式中,L为Euclidean Loss函数,设xi,yi∈Rd,其中Rd代表维度为d的特征图集合,则xi表示第i个输出数据的特征,m为训练过程中小批量(mini-batch)数据的数量,yi表示第i个数据的真实特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798249.4A CN110569763B (zh) | 2019-08-27 | 2019-08-27 | 一种用于细粒度人脸识别的眼镜去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798249.4A CN110569763B (zh) | 2019-08-27 | 2019-08-27 | 一种用于细粒度人脸识别的眼镜去除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569763A true CN110569763A (zh) | 2019-12-13 |
CN110569763B CN110569763B (zh) | 2022-05-24 |
Family
ID=68776372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910798249.4A Active CN110569763B (zh) | 2019-08-27 | 2019-08-27 | 一种用于细粒度人脸识别的眼镜去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569763B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256620A (zh) * | 2021-06-25 | 2021-08-13 | 南京思飞捷软件科技有限公司 | 基于差值卷积神经网络的车身焊接质量信息评判方法 |
EP4224432A1 (en) * | 2022-02-04 | 2023-08-09 | Carl Zeiss Vision International GmbH | Device, system and method for spectacle frame identification |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163289A (zh) * | 2011-04-06 | 2011-08-24 | 北京中星微电子有限公司 | 人脸图像中眼镜的去除方法和装置、佩戴方法和装置 |
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN109934062A (zh) * | 2017-12-18 | 2019-06-25 | 比亚迪股份有限公司 | 眼镜摘除模型的训练方法、人脸识别方法、装置和设备 |
CN110008793A (zh) * | 2018-01-05 | 2019-07-12 | 中国移动通信有限公司研究院 | 人脸识别方法、装置及设备 |
-
2019
- 2019-08-27 CN CN201910798249.4A patent/CN110569763B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163289A (zh) * | 2011-04-06 | 2011-08-24 | 北京中星微电子有限公司 | 人脸图像中眼镜的去除方法和装置、佩戴方法和装置 |
CN107247949A (zh) * | 2017-08-02 | 2017-10-13 | 北京智慧眼科技股份有限公司 | 基于深度学习的人脸识别方法、装置和电子设备 |
CN109934062A (zh) * | 2017-12-18 | 2019-06-25 | 比亚迪股份有限公司 | 眼镜摘除模型的训练方法、人脸识别方法、装置和设备 |
CN110008793A (zh) * | 2018-01-05 | 2019-07-12 | 中国移动通信有限公司研究院 | 人脸识别方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
MAO LIANG等: "Deep Convolution Neural Networks for Automatic Eyeglasses Removal", 《2017 2ND INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND ENGINEERING APPLICATIONS (AIEA 2017)》 * |
XIANG WU等: "A Light CNN for Deep Face Representation With Noisy Labels", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 * |
ZHOU YANG等: "Max-Feature-Map Based Light Convolutional Embedding Networks for Face Verification", 《CCBR 2017》 * |
陈文青等: "人脸图像中眼镜检测与边框去除方法", 《计算机工程与应用》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256620A (zh) * | 2021-06-25 | 2021-08-13 | 南京思飞捷软件科技有限公司 | 基于差值卷积神经网络的车身焊接质量信息评判方法 |
EP4224432A1 (en) * | 2022-02-04 | 2023-08-09 | Carl Zeiss Vision International GmbH | Device, system and method for spectacle frame identification |
WO2023148306A1 (en) * | 2022-02-04 | 2023-08-10 | Carl Zeiss Vision International Gmbh | Device, system and method for spectacle frame identification |
Also Published As
Publication number | Publication date |
---|---|
CN110569763B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Deep spatial–spectral representation learning for hyperspectral image denoising | |
Zhang et al. | Adaptive residual networks for high-quality image restoration | |
CN106952228B (zh) | 基于图像非局部自相似性的单幅图像的超分辨率重建方法 | |
Gu et al. | A brief review of image denoising algorithms and beyond | |
CN110473142B (zh) | 基于深度学习的单幅图像超分辨率重建方法 | |
Zhao et al. | Invertible image decolorization | |
CN110349112B (zh) | 一种基于自适应奇异值阈值的两阶段图像去噪方法 | |
WO2023151529A1 (zh) | 人脸图像的处理方法及相关设备 | |
CN110569763B (zh) | 一种用于细粒度人脸识别的眼镜去除方法 | |
CN112819705B (zh) | 一种基于网状结构与长距离相关性的真实图像去噪方法 | |
Li et al. | HASIC-Net: Hybrid attentional convolutional neural network with structure information consistency for spectral super-resolution of RGB images | |
CN113192147A (zh) | 显著性压缩的方法、系统、存储介质、计算机设备及应用 | |
CN113011253A (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
Uddin et al. | A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss | |
Shen et al. | Channel recombination and projection network for blind image quality measurement | |
Liu et al. | Residual-guided multiscale fusion network for bit-depth enhancement | |
US20240054605A1 (en) | Methods and systems for wavelet domain-based normalizing flow super-resolution image reconstruction | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
CN114830168A (zh) | 图像重建方法、电子设备和计算机可读存储介质 | |
CN116703750A (zh) | 基于边缘注意力和多阶微分损失的图像去雾方法及系统 | |
Raha et al. | Restoration of historical document images using convolutional neural networks | |
Ferreira et al. | Geometry-aware neighborhood search for learning local models for image superresolution | |
CN112488936B (zh) | 一种基于生成对抗网络的手指静脉模糊图像去模糊的方法 | |
CN114820303A (zh) | 低清图像重建超分辨率人脸图像的方法、系统及存储介质 | |
CN114005157A (zh) | 一种基于卷积神经网络的像素位移向量的微表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |