发明内容
有鉴于此,本发明目的提出一种基于深度卷积神经网络的异质人脸识别方法,其可利用大量可见光图像提升近红外-可见光人脸识别的性能,可应用于异质图像比对系统,可以有效提升其综合性能,解决了卷积神经网络在小规模异质数据库上训练容易过拟合的问题,为小规模跨域图像的识别和匹配提供了一种新思路。
本发明是这样实现的,一种基于深度卷积神经网络的异质人脸识别方法,包括以下步骤:
步骤S1,对预训练图像中的人脸图像及相关的可见光图像-近红外图像进行相同的图像预处理,得到预设大小的灰度图像;
步骤S2,用预处理好的可见光图像对预设深度卷积神经网预训练,得到人脸的高层次特征表达,得到预训练的异质人脸识别卷积神经网络模型;
步骤S3,按预设方法分别以训练图像中的近红外图像、可见光图像作为锚点,构建由锚点、正样本和负样本组成的跨域近红外-可见光三元组,并利用所述预训练的异质人脸识别卷积神经网络模型从训练图像中选取跨域难三元组;
步骤S4,将选取的跨域难三元组输入所述预训练的异质人脸识别卷积神经网络模型进行训练,得到跨近红外域和可见光域的统一深层特征表达;并按步骤S3-S4的方法,利用上一轮训练好的异质人脸识别卷积神经网络模型,进行下一轮难三元组选择和训练,计算异质识别的正确率及真阳性率,多次迭代直到所述异质识别的正确率及真阳性率的评价标准达到最高值,获得最终的异质人脸识别卷积神经网络模型;
S5,将近红外图像或可见光图像输入该最终的异质人脸识别卷积神经网络模型,通过比较近红外图像或可见光图像与人脸识别系统注册时图像库中的可见光人脸图像或近红外图像高层特征的相似度得分,实现对人脸图像识别。
步骤S1中,所述图像预处理的步骤如下:
运用人脸检测器,通过定位图像关键点的坐标进行对齐操作获得对齐的图像块,然后对对齐的图像进行裁剪和缩放,并处理成预设大小的灰度图像。
步骤S3中,所述跨域近红外-可见光三元组的损失用下式来表达:
其中,N为三元组的总数,xi a为锚点,xi p为正样本,xi n为负样本。
步骤S3中,所述的利用所述预训练的异质人脸识别卷积神经网络模型从训练图像中选取跨域难三元组的步骤是:
将所有训练图像输入所述预训练的异质人脸识别卷积神经网络模型中训练,得到高层次的特征表达,计算近红外图像和可见光图像的相似度得分,将该相似度得分与实际相似度不匹配的图像选出来组成难三元组。
步骤S3中,所述跨域难三元组通过以下方法选取:
以训练图像中的可见光图像为锚点,遍历所有近红外图像,并对可见光图像与近红外图像两者的相似度分排序,以相似度分较高且与锚点来自不同ID的近红外图像作为难负样本,相似度分较低且与锚点来自同一ID的近红外图像作为难正样本,然后以该锚点与一个难正样本、一个难负样本组成一类难三元组;
以训练图像中的近红外图像为锚点,遍历所有可见光图像,并对可见光图像与近红外图像两者的相似度分排序,以相似度分较高且与锚点来自不同ID的可见光图像作为难负样本,相似度分较低且与锚点来自同一ID的可见光图像作为难正样本,然后以该锚点与一个难正样本、一个难负样本组成另一类难三元组。
步骤S4中,所述的将选取的跨域难三元组输入所述异质人脸识别深度卷积神经网络模型训练后,是通过使该异质人脸识别深度卷积神经网络模型通过误差梯度反传进行参数精调,使该异质人脸识别深度卷积神经网络模型在学到人脸表达的本质特征的同时,又学到不依赖于近红外或可见光域的非本质特征,从而得到跨近红外域和可见光域的统一深层特征表达。
步骤S4中,所述异质人脸识别深度卷积网络模型为三通道的深度卷积网络模型,该异质人脸识别深度卷积网络模型的三个通道在每一层共享权重。
本发明提出的基于深度卷积神经网络的异质人脸识别方法,能够很大程度上提升异质人脸识别的准确度和正确率,与其他异质人脸识别方法相比,其有益效果体现在以下几个方面:
1.本发明是首次将卷积神经网络运用在近红外-可见光人脸的识别中,能够同时运用大规模可见光图像的信息以及小规模近红外-可见光图像集。
2.与以往精调深度卷积模型需要大量的有标签的数据不同,本发明提出的近红外-可见光三元组构造方法,有效的扩大了样本空间,为小样本问题提供了一种新的解决方案。
3.本发明提出的基于深度卷积网了的异质人脸识别方法,不仅适用于近红外-可见光人脸的异质比对,而且适用于其他异质匹配问题。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照详细附图,对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明利用深度卷积神经网络,通过利用大规模的可见光人脸图像预训练得到人脸的高层次特征表达,然后将得到的深度卷积神经网络各层的参数作为先验知识以及提供初始权重,转移到以近红外-可见光图像为输入的卷积神经网络的模型参数的训练中,对异质人脸识别卷积神经网络模型进行训练,并按一定规则构建跨近红外-可见光域的三元组,并按一定方法选择异质人脸识别卷积神经网络模型难区分的难三元组样本,输入模型对异质人脸识别卷积神经网络的参数进行多次迭代训练、精调,使异质人脸识别卷积神经网络适应新的数据,得到跨近红外-可见光域的不变的统一特征表达,从而获得最终的异质人脸识别卷积神经网络用于异质人脸的识别。
如图1所示,一种基于深度卷积网的异质人脸识别方法,包括图像预处理、预训练、选择难样本、精调模型的步骤:
步骤S1,图像预处理:对预训练图像中的人脸图像及相关的可见光图像-近红外图像进行相同的图像预处理,得到预设大小的灰度图像;
本发明中,对可见光图像和近红外-可见光图像的预处理采用的是完全相同的方式,固定学习模型的输入图像尺寸和人脸相对位置;
为了得到更具有代表性的人脸图像进行训练,以及将预训练得到的深度表达泛化到近红外-可见光域上,本发明对用于预训练的人脸图像及任务相关的可见光-近红外图像都重新进行了相同的预处理。
具体的图像预处理步骤可以如下:运用人脸检测器,检测到人脸之后,定位三个关键点:左眼中心、右眼中心、嘴巴中点。首先对左右眼中心进行两点相似变换,然后对两眼中点和嘴巴中点进行两点相似变换。对经对齐后的图像进行裁剪和缩放,如得到144×144像素的人脸图像,然后将其处理为灰度图像。
步骤S2,预训练:将预处理好的大规模的可见光图像输入卷积神经网络进行训练,输入图像被随机裁剪为一定大小,如128×128像素,在全连接层可以得到人脸的一般表达(高层次特征表达),得到预训练的异质人脸识别卷积神经网络模型,然后就可以在以后的训练中,将获取的该深度卷积神经网络各层的参数作为先验知识,通过转移学习技术转移到以近红外-可见光图像为输入的卷积神经网络的模型参数的训练中进行训练;
需要说明的是,本发明中,所述的预训练可以采用不同的策略,可以做分类任务,或比对任务,可以采用多种损失函数,约束网络,从而得到输入图像高层次的特征表达。
步骤S3,选择难样本:按预设方法或一定的规则分别以训练图像中的近红外图像、可见光图像作为锚点,构建由锚点、正样本和负样本组成的跨域近红外-可见光三元组,并利用所述预训练的异质人脸识别卷积神经网络模型从训练图像中选取跨域难三元组(即难样本);
其中,近红外-可见光三元组损失可以用下式来表达:
其中,N为三元组的总数,xi a为锚点,xi p为正样本,xi n为负样本。这样的近红外-可见光三元组损失可以对类内和类间的距离加以约束,以最小化损失之和为优化目标,经过卷积神经网的随机梯度下降学习过程以后,可以使得类内距离(有一个阈值)达到极小值,同时类间距离达到极大值,,从而可以提高模型的收敛速度,并且使模型网络着重学习分错的样本,从而提高匹配的准确度;
S4,精调模型:将选取的跨域难三元组输入所述预训练的异质人脸识别卷积神经网络模型进行训练、精调,得到跨近红外域和可见光域的跨域的统一深层特征表达,并按步骤S3-S4的方法,利用上一轮训练好的异质人脸识别卷积神经网络模型,进行下一轮难三元组选择和训练,计算异质识别的正确率及真阳性率,多次迭代直到异质人脸识别卷积神经网络模型收敛,即所述异质识别的正确率及真阳性率的评价标准达到最高值,网络性能不再提升,从而获得最终的用于识别的异质人脸识别卷积神经网络模型;
具体就是,将选出的难三元组样本输入预训练的异质人脸识别卷积神经网络模型进行训练,使预训练的异质人脸识别卷积神经网络模型适应新的跨域数据,自动学习和调整网络权重以及各层参数,从而得到跨域不变的统一深层特征表达,并获得最终的用于识别的异质人脸识别卷积神经网络模型,用于异质人脸识别。
S5,将近红外图像或可见光图像输入该最终的异质人脸识别卷积神经网络模型,通过比较近红外图像或可见光图像与人脸识别系统注册时图像库中的可见光人脸图像或近红外图像高层特征的相似度得分,实现对人脸图像识别。
本发明中在S5中,得到最终训练好的异质人脸识别卷积神经网络模型以后,就可以进行异质人脸的识别。由于训练网络的目标是得到近红外和可见光跨域一致的特征表达,因此无论识别对象为近红外人脸图像还是可见光人脸图像,都能够利用训练好的异质人脸识别卷积网络进行准确的识别。
以近红外图像为例,将一张近红外人脸图像输入训练好的网络,可以得到其高层特征表达,计算输入的近红外图像与实际注册时库中的可见光人脸图像高层特征的相似度,则相似度最高的可见光人脸与输入的近红外人脸为同一个人。
图2提供了一种跨模态(跨域)三元组的构造方法,参见图2所示,经过不断地学习,在三元组损失约束下,同一个ID间距离被减小,模态间的鸿沟不再是主导因素。
挑选难三元组(不易分离的三元组)进行训练,可以减小收敛速度慢的风险,并且使网络着重学习分错的样本,能够提高匹配的准确度。
本发明中,为挑选难三元组,可以是将所有训练图像样本,包括注册集(可见光/近红外)和探测集(近红外/可见光)人脸图像样本,全部输入预训练好的异质人脸识别卷积神经网络模型的一个通道中,得到每一幅图像的高层次特征表达,然后计算注册集的每幅图像与所有探测集图像特征的余弦距离作为相似度矩阵,并该相似度得分与实际相似度不匹配的图像选出来组成难三元组。
图3提供了一种难三元组样本的选择的过程,参见图3所示,具体可以是采用以下方法:
S31,以训练图像中的可见光图像为锚点,遍历所有近红外图像,将两者的相似度分从高到低排列。
相似度分较高且与锚点可见光图像来自不同ID的作为难负样本,得分较低且与锚点来自同一个ID的作为难正样本,一个锚点与一个难正样本、一个难负样本组成难三元组。
由于训练图像是多对多的,即一个ID有多张近红外图像和多张可见光图像,因此一个锚点可以产生多对难三元组,为进行深层卷积网的训练,共产生100,000对三元组。
S32,以训练图像中的近红外图像为锚点,遍历所有的可见光图像,将两者的相似度分从高到低排列。
相似度分较高且与锚点近红外图像来自不同ID的作为难负样本,得分较低且与锚点来自同一个ID的作为难正样本,共产生100,000对三元组,按所有锚点的数目平均分配到每个锚点。
值得说明的是,选择难三元组样本的时候,要充分考虑到训练样本的随机性和均衡性,如负样本要覆盖尽可能多的情况且尽量不重复等。这样,总共生成了200,000个难三元组,能够为网络的精调提供足够多的训练样本。
需要说明的是,传统三元组损失(triplet loss)主要用于处理单个模态数据的分类问题。根据类别标签将数据配成三元组,包括一个锚点,一个正样本和一个负样本。相应的损失函数可以约束三元组的距离,使得通过训练和学习以后,锚点和正样本的距离达到一个极小值,而锚点和负样本的距离达到一个极大值,以此提高分类的准确度。很多应用表明了三元组损失的有效性。而异质人脸的识别与匹配任务可以看作一个二分类问题,为了充分利用少量的近红外-可见光数据,本发明提出的异质数据三元组构成方法,将三元组损失扩展到跨模态的数据上,同时三元组组合的多样性也可以增大样本空间。
传统三元组损失解决的问题输入图像是单模态的,三元组随机组合的方式并不能减少模态间的差异,因而不再适用于跨模态的图像。而本发明提出有跨模态三元组构造方法,使其能够更多关注于跨模态不变的特征表达而忽略由不同的模态带来的影响。
本发明中,构造的跨模态或跨域三元组损失能够很好地约束两种模态在多维空间中的距离,从而大幅提升匹配正确率。
本发明通过对难样本(三元组)的多轮迭代训练,网络能够集中关注到识别错误的样本,使正确率进一步得到提升。
本发明中,是假设近红外和可见光人脸图像对同一个ID有同等的表达能力,对不同的ID有同等的区分能力,因而可以期望通过训练,使识别网络能够得到近红外域和可见光域统一的人脸深度表达,从而缓解人脸识别在异质图像上存在大的域间差的问题。
具体的,本发明中,在得到预训练的异质人脸识别卷积神经网络模型以后,将选出来的难三元组送入网络,使网络通过学习进行参数精调,可以使网络既能学到人脸表达的本质特征,又能学到不依赖于特定域(如可见光域或近红外域)的非本质特征,从而得到跨域不变的深层特征表达,忽略域间差对识别带来的影响。
需要说明的是,本发明中,为了给三元组样本提供输入入口,本发明提出的深度卷积网络是三通道的,三个通道在每一层共享权重,因此并不会给识别网络模型带来更多的参数。
为了详细说明本发明的具体实施方式及验证本发明的有效性,将本发明提出的方法应用于一个公开的近红外-可见光人脸数据库上,即CASIA 2.0 NIR-VIS FaceDatabase。CASIA 2.0 NIR-VIS Face Database数据库是目前公开的最大的跨近红外和可见光光谱的人脸数据库,被广泛地运用在近红外-可见光异质人脸的性能评价中。
该数据库的图像共来自725个人,每个人有1-22张可见光图像,5-50张近红外图像。两个域之间的图像并不是一对一的关系,而是随机拍摄的。该数据库还包含光照、表情、姿态、距离和是否戴眼镜等的变化,使之成为极具挑战的数据库。该数据库提供了两个评价方案,方案一用于超参数的调节,方案二作为正规的训练集和测试集,被分为10个子实验。用于预训练的CASIA WebFace Database包含来自10,575个人的494,414张可见光人脸图像。
按照上述的步骤S1,首先将首CASIA 2.0 NIR-VIS Face Database和CASIAWebFace Database,这两个数据库中所有的图像进行了预处理,得到对齐并缩放好的144×144的人脸灰度图像。
接下来按照步骤S2,用预处理过的大规模CASIA WebFace Database中的图像,初步训练搭建好的深度卷积神经网络。
根据步骤S31选择以可见光人脸图像为锚点的难三元组,根据步骤S32,选择以近红外人脸图像为锚点的难三元组。
然后根据步骤S4,将挑选出来的难三元组输入三通道的深层神经网络得到近红外域和可见光域的统一深层特征表达。
训练好模型以后,用标准的测试集测试网络性能,如果性能仍有提升的趋势,则转至步骤S3,再一次选择针对上一个模型的难三元组样本进行训练,重复迭代至网络性能不再提升为止,得到最终评价指标。
表1展示了本发明方法的准确率(rank-1 accuracy)和真阳性率(TPR@FAR=0.1%)与其他方法的对比。
其中PCA+Sym+HCA是CASIA 2.0 NIR-VIS Face Database的基准方法;Cognitec和DSIFT+LDA来自T.I.Dhamech等人的文章《On Effectiveness of Histogram of OrientedGradient Features for Visible to Near Infrared Face Matching》;Gabor+RBM+Remove 11 PCs来自易东等人的文章《Shared Representation Learning forHeterogeneous Face Recognition》,该方法达到了当前最高的准确率;DLBP来自Felix等人的文章《NIR-VIS Heterogeneous Face Recognition via Cross-spectral JointDictionary Learning and Reconstruction》,该方法达到了当前最高的真阳性率。
表1
可以看出,本发明方法不管在准确率还是真阳性率上,都远远超出了所有比较的方法,并将准确率提升了9.58%,真阳性率提升了5.23%。
从以上结果可以看出,本发明有效利用了大规模的可见光人脸图像及小规模可见光-近红外人脸图像,从而能够有效的学到跨域不变的特征表达,有效地提升了异质人脸比对的精度。
本发明提出的基于深度卷积神经网络的人脸识别方法,既能够利用大规模的可见光图像集,又能够利用小规模的近红外-可见光图像集,从而得到跨域不变的人脸特征深度表达,这种方法不仅可以用于近红外和可见光图像的识别与比对,也适用于其他的异质识别问题。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。