CN112836605A

CN112836605A - 一种基于模态增广的近红外与可见光跨模态人脸识别方法

Info

Publication number: CN112836605A
Application number: CN202110095445.2A
Authority: CN
Inventors: 孙锐; 章晗; 程志康; 单晓全; 孙琦景
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-25
Anticipated expiration: 2041-01-25
Also published as: CN112836605B

Abstract

本发明公开一种基于模态增广的近红外与可见光跨模态人脸识别方法，包括：采集近红外人脸图像集和可见光人脸图像集；构建用于近红外人脸到辅助可见光人脸转换的生成对抗网络并训练，将近红外人脸图像集转换成辅助可见光人脸图像；将辅助可见光人脸图像作为辅助模态，与近红外人脸图像集和可见光人脸图像集共同组成三模态图像组；构建卷积神经网络，利用所述三模态图像组训练得到跨模态人脸识别器；将待识别数据输入到所述识别器中进行跨模态人脸识别，输出识别结果。本发明能增加辅助模态以弥补模态之间的差异，充分提取近红外和可见光的跨模态不变人脸特征信息，从而提高近红外与可见光跨模态人脸识别准确度。

Description

一种基于模态增广的近红外与可见光跨模态人脸识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于模态增广的近红外与可见光跨模态人脸识别方法。

背景技术

人脸识别是计算机视觉领域中研究最为活跃的生物特征识别技术之一。通过开发深卷积神经网络(CNN)模型，可见光下人脸识别的性能达到了99％以上。然而，可见光下人脸图像有一个缺点，即图像的脸部部分的强度很大程度上依赖于光照环境，例如在黑暗的街道或室内，可见光下人脸图像的强度会发生显著变化。

近红外成像已被证明对可见光照明变化不太敏感，所以近红外成像技术为提高极端照明条件下的人脸识别性能提供了一种有效和直接的解决方案。该方法适用于远程甚至夜间的人脸识别，已广泛应用于人脸识别和授权应用，如安全监视和电子护照。然而，由于可见光摄像头的大规模部署，大多数人脸库只包含可见光图像。因此，近红外和可见光人脸图像之间的匹配需求已经急剧增加，并引起了相当大的关注。

不同模态人脸图像成像原理的不同导致了即使是同一个人的近红外模态和可见光模态的人脸图像，但是它们之间仍然存在巨大的视觉差异，这是单通道图像与多通道图像的图像信息严重不对等造成的。而巨大的视觉差异就使得传统的人脸识别算法在跨模态人脸数据集上的识别精度大大降低。

发明内容

本发明为了克服近红外模态与可见光模态的巨大差异，提出一种基于模态增广的近红外与可见光跨模态人脸识别方法，以期能增加辅助模态以弥补模态之间的差异，充分提取近红外与可见光的跨模态人脸不变特征信息，从而提高近红外与可见光跨模态人脸识别准确度和识别效果。

本发明为解决技术问题采用如下技术方案：

本发明一种基于模态增广的近红外与可见光跨模态人脸识别方法的特点在于，包括以下步骤：

步骤1、用近红外相机和光学相机分别采集若干人的近红外人脸图像与可见光人脸图像，并进行人脸检测和尺寸归一化预处理，得到近红外人脸图像集DT₁和可见光人脸图像集DT₂；

步骤2、将近红外人脸图像集DT₁和可见光人脸图像集DT₂中属于同一个人的若干张近红外人脸图像和可见光照人脸图像进行对比，将最相似的一对红外人脸图像与可见光人脸图像提取出来构成双模态人脸图像对，进而由若干组双模态人脸图像对构成人脸生成训练数据集DT₃；

步骤3、构建生成对抗网络，并将训练数据集DT₃输入到生成对抗网络中进行训练，得到用于近红外模态到可见光模态之间人脸转换的生成对抗网络模型，并利用所述网络模型将近红外人脸图像集DT₁中所有的近红外人脸图像转换成辅助可见光人脸图像，由所述辅助可见光人脸图像组成可见光人脸图像集DT₄；

步骤4、构建卷积神经网络，将可见光人脸图像集DT₄作为辅助模态，步骤1中的近红外人脸图像集DT₁作为近红外模态，可见光人脸图像集DT₂作为可见光模态，共同组成三模态图像组，并一起输入到卷积神经网络中进行训练，得到跨模态人脸识别器；

步骤5、将待识别的近红外人脸图像集输入到所述跨模态人脸识别器中进行跨模态人脸的识别，并输出识别结果。

本发明所述一种基于模态增广的近红外与可见光跨模态人脸识别方法的特点也在于，所述步骤3是按如下过程进行：

步骤3.1、构建由生成器G和鉴别器D组成的生成对抗网络；

所述生成器G包括：包含m₁个卷积层的编码模块、包含m₂个残差块的转换模块以及包含m₃个反卷积层和m₄个卷积层的解码模块；

所述鉴别器D包含m₅个卷积层；

步骤3.2、将训练数据集DT₃中双模态人脸图像对的近红外人脸图像依次输入到所述生成器G中并经过编码、转换和解码后生成辅助可见光人脸图像；

步骤3.3、将训练数据集DT₃中对应的双模态人脸图像对的可见光人脸图像和所述辅助可见光人脸图像输入到鉴别器D中并输出鉴别结果；

步骤3.4、设置迭代次数为items_num₁，初始学习率设置为lr₁；采用Adam优化方法对生成对抗网络中的各个参数进行优化，并在迭代至一半后对学习率lr₁进行线性减小，使得第items_num₁次迭代时的学习率降为0，直至鉴别器D输出的鉴别结果趋近于0.5，从而得到生成对抗网络模型。

所述步骤4是按如下过程进行：

步骤4.1、构建深度卷积神经网络；

步骤4.1.1、选用ResNet-50卷积神经网络作为基础网络；

步骤4.1.2、采用基础网络最后的池化层输出作为特征表示，并在基础网络的分类层之前添加一个批量规范化层；

步骤4.1.3、设计loss函数，在基础网络最后的池化层后添加多模态身份判别损失函数L_mmi，在批量规范化层后添加交叉模态三元组损失函数L_trir，则总的损失函数为L_total＝L_mmi+L_trir；

步骤4.1.3.1、假设每个训练批次包含s个可见光人脸图像、s个近红外人脸图像和s个生成的可见光人脸图像，利用式(1)构建多模态身份判别损失函数L_mmi：

式(1)中，θ表示在训练中当前的网络模型，n,v,g分别代表近红外模态、可见光模态和辅助模态，i表示图像索引，

表示第i幅近红外人脸图像，

表示第i幅辅助可见光人脸图像，

表示第i幅可见光人脸图像，y_i表示第i幅人脸图像的id标签，s表示每个训练批次所包含的图像数量；

表示使用当前网络模型θ将第i幅近红外人脸图像

识别为标签y_i的概率，

表示网络模型θ将第i幅辅助可见光人脸图像

识别为标签y_i的概率，

表示网络模型θ将第i幅可见光人脸图像

识别为标签y_i的概率；

步骤4.1.3.2、将第i幅近红外人脸图像

和第j幅可见光人脸图像

之间的欧氏距离表示为

i,j分别表示不同的图像索引；将近红外模态作为锚定模态，可见光模态作为正模态，辅助模态作为负模态；

假设第i幅近红外人脸图像

是一个锚定的近红外样本，选择欧氏距离最远的近红外与可见光正对和欧氏距离最近的近红外与辅助可见光负对，来构建三元组

其中i,j,k分别表示不同的图像索引，

表示与锚定近红外样本

欧氏距离最远的可见光样本，

表示与锚定近红外样本

欧氏距离最远的辅助可见光样本；则按照“近红外—可见光—辅助可见光”的模态顺序建立如式(2)所示的三元组损失函数L_n,v,g：

式(2)中，ρ是边缘参数；

步骤4.1.3.3、将可见光模态作为锚定模态，辅助模态作为正模态，近红外模态作为负模态；

假设第i幅可见光人脸图像

是一个锚定的可见光样本，选择欧氏距离最远的可见光与辅助可见光正对和欧氏距离最近的可见光与近红外负对，来构建三元组

表示与锚定可见光样本

欧氏距离最远的辅助可见光样本，

表示与锚定可见光样本

欧氏距离最远的近红外样本；则按照“可见光—辅助可见光—近红外”的模态顺序构建如式(3)所示的三元组损失函数L_v,g,n：

步骤4.1.3.4、将可见光模态作为锚定模态，辅助模态作为正模态，近红外模态作为负模态；

假设第i幅辅助可见光人脸图像

是一个锚定的辅助可见光样本，选择欧氏距离最远的辅助可见光与近红外正对和欧氏距离最近的辅助可见光与可见光负对，来构建三元组

表示与锚定辅助可见光样本

欧氏距离最远的近红外样本，

表示与锚定辅助可见光样本

欧氏距离最远的可见光样本；则按照“辅助可见光—近红外—可见光”的模态顺序构建如式(4)所示的三元组损失函数L_g,n,v：

步骤4.1.3.5、利用式(5)构建交叉模态三元组损失函数L_trir：

L_trir＝L_n,v,g+L_v,g,n+L_g,n,v (5)

步骤4.2、设置模型的基础学习率为lr₂，总迭代次数为items_num₂，每迭代λ次学习率减半，将三模态图像组输入到深度卷积神经网络中，并采用随机梯度下降SGD优化算法对深度卷积神经网络中的各个参数进行迭代优化，直至总损失函数L_total不再下降为止，从而得到跨模态人脸识别器。

与已有技术相比，本发明有益效果体现在：

1.本发明将生成对抗网络生成的辅助可见光人脸图像作为辅助模态，与原有的近红外和可见光模态组合设计成三模态跨模态人脸识别解决方案，更充分提取近红外和可见光的跨模态人脸不变特征，从而提高了近红外与可见光跨模态人脸识别准确度。

2.本发明将三种模态的数据共享一个卷积网络的权重以学习三种模态的不变特征，减少了网络参数，提升了跨模态人脸识别的速度。

3.本发明设计了交叉模态三元组损失，并且引入多模态身份判别损失，2个损失函数联合优化跨模态人脸识别模型的学习，更充分提取了近红外和可见光的跨模态人脸不变特征。

附图说明

图1为本发明近红外与可见光跨模态人脸识别方法流程图；

图2为本发明在实际应用中的跨模态人脸识别系统流程图。

具体实施方式

本实施例中，一种基于模态增广的近红外与可见光跨模态人脸识别方法的流程参照图1，具体的说，是按如下步骤进行：

步骤1.1、分别用近红外相机和普通光学相机采集1000个人的近红外与可见光跨模态人脸图像，近红外和可见光各5张；

步骤1.2、利用MTCNN人脸检测方法，检测图像中的人脸位置并定位68个人脸关键点，再对图像进行裁剪，得到像素值为256×256固定大小的人脸图像，减少照片包含的背景，尽可能保留人脸区域；

步骤1.3、将裁剪后的所有图像划分为训练集、测试集和验证集，其中训练集包含600个人的跨模态人脸图像，训练集中的近红外人脸图像集为DT₁，训练集中的可见光人脸图像集为DT₂，而验证集和测试集分别包含200个人的跨模态人脸图像；

本实施例中，将采集到的跨模态训练集表示为T＝{Tⁿ,T^v}。其中

表示有Nⁿ个近红外人脸训练图像的近红外人脸训练集，i是图像索引，每个元素

都是一个近红外人脸图像；

表示有N^v个可见光人脸图像的可见光人脸训练集，其中每个近红外与可见光图像

和

都与身份标签y_i相关联。由于不同相机的光谱不同，近红外图像

有单一的过饱和灰度通道，而

通常有R、G、B三种不同的颜色通道。

步骤2、将近红外人脸图像集DT₁和可见光人脸图像集DT₂中属于同一个人的若干张近红外人脸图像和可见光照人脸图像进行对比，将最相似的一对红外人脸图像与可见光人脸图像提取出来构成双模态人脸图像对，例如将人脸大小、表情和拍摄角度最相似的一对红外人脸图像与可见光人脸图像提取出来构成双模态人脸图像对，共筛选出423对跨模态人脸对，进行左右翻转数据增强后共计846组数据，进而由这846组双模态人脸图像对构成人脸生成训练数据集DT₃；

步骤3、构建生成对抗网络，并将训练数据集DT₃输入到生成对抗网络中进行训练，得到用于近红外模态到可见光模态之间人脸转换的生成对抗网络模型，并利用所述网络模型将DT₁中所有的近红外人脸图像转换成辅助可见光人脸图像，由这些辅助可见光人脸图像组成可见光人脸图像集DT₄，它保留了近红外图像的结构信息，近似于可见光模态的图像风格。

步骤3.1、构建由生成器G和鉴别器D组成的生成对抗网络；

所述生成器G由以下部分组成：

(1)编码模块：包含3个卷积层，其中输入通道为1；第1个卷积层有13个卷积核大小为7*7的滤波器，步长设为1，0填充；第2个卷积层有26个滤波器，步长设为2，1填充；第3个卷积层有52个滤波器，步长设为1，1填充；激活函数都是PReLu函数；

(2)转换模块：包含9个残差块，其中输入通道数和输出通道数都是52，激活函数设为PReLu；

(3)解码模块：包含2个反卷积层和1个卷积层，其中输入通道数为52；第1个反卷积层有26个滤波器，步长设为2，1填充；第2个反卷积层有13个滤波器，步长设为2，1填充；卷积层有1个滤波器，0填充，反卷积核为7*7；2个反卷积层的激活函数是PReLu，卷积层的激活函数是Tanh；

鉴别器D包含5个卷积层，其中输入通道数为1；第1个卷积层有13个滤波器，步长设置为2，1填充；第2个卷积层有26个滤波器，步长设为2，1填充；第3个卷积层有52个滤波器，步长设为2，1填充；第4个卷积层有104个滤波器，步长设为1，1填充；第5个卷积层有1个滤波器，步长设为1，1填充；激活函数都是PReLu；

步骤3.3、将训练数据集DT₃中对应的双模态人脸图像对的可见光人脸图像和所述辅助可见光人脸图像输入到鉴别器D中并输出鉴别结果，鉴别结果为0～1之间的数字；

步骤3.4、设置迭代次数为items_num₁，初始学习率设置为lr₁，并在迭代至一半后对学习率lr₁进行线性减小，使得第items_num₁次迭代时的学习率降为0，采用Adam优化方法对生成对抗网络中的各个参数进行优化，直至鉴别器D输出的鉴别结果趋近于0.5，从而得到生成对抗网络模型；本实施例中，items_num₁＝200，lr₁＝0.0002；

鉴别结果趋近于0.5表示，由当前生成对抗网络模型中生成器G生成的辅助可见光人脸图像已经与训练数据集DT₃中双模态人脸图像对的可见光人脸高度相似。

步骤4、构建卷积神经网络，将可见光人脸图像集DT₄作为辅助模态，步骤1中的近红外人脸图像集DT₁作为近红外模态，可见光人脸图像集DT₂作为可见光模态，共同组成三模态图像组，并一起输入到卷积神经网络中进行训练，得到跨模态人脸识别器；该识别器可以跨多种模式挖掘结构关系，使其对颜色变化具有鲁棒性。

步骤4.1、构建深度卷积神经网络；

步骤4.1.1、将三种模态的数据共享一个卷积网络的权重以学习三种模态的不变特征，选用ResNet-50卷积神经网络作为基础网络；

表示第i幅近红外人脸图像，

表示第i幅辅助可见光人脸图像，

表示使用当前网络模型θ将第i幅近红外人脸图像

识别为标签y_i的概率，

表示θ将第i幅辅助可见光人脸图像

识别为标签y_i的概率，

表示θ将第i幅可见光人脸图像

识别为标签y_i的概率；

步骤4.1.3.2、将第i幅近红外人脸图像

和第j幅可见光人脸图像

之间的欧氏距离表示为

第i幅近红外人脸图像

和第k幅可见光人脸图像

之间的欧氏距离表示为

i，j，k分别表示不同的图像索引；将近红外模态作为锚定模态，可见光模态作为正模态，辅助模态作为负模态；

假设第i幅近红外人脸图像

其中i,j,k分别表示不同的图像索引，

表示与锚定近红外样本

欧氏距离最远的可见光样本，

表示与锚定近红外样本

式(2)中，ρ是边缘参数，本实施例中，ρ＝0.3；

步骤4.1.3.3、将第i幅可见光人脸图像

和第j幅辅助可见光人脸图像

之间的欧氏距离表示为

第i幅可见光人脸图像

和第k幅近红外人脸图像

之间的欧氏距离表示为

将可见光模态作为锚定模态，辅助模态作为正模态，近红外模态作为负模态；

假设第i幅可见光人脸图像

表示与锚定可见光样本

欧氏距离最远的辅助可见光样本，

表示与锚定可见光样本

欧氏距离最远的近红外样本；则按照“可见光—辅助可见光—近红外”这一模态顺序构建如式(3)所示的的三元组损失函数L_v,g,n：

式(3)中，ρ是边缘参数，本实施例中，ρ＝0.3；

步骤4.1.3.4、将第i幅辅助可见光人脸图像

和第j幅近红外人脸图像

之间的欧氏距离表示为

第i幅辅助可见光人脸图像

和第k幅可见光人脸图像

之间的欧氏距离表示为

将辅助可见光模态作为锚定模态，近红外模态作为正模态，可见光模态作为负模态；

假设第i幅辅助可见光人脸图像

表示与锚定辅助可见光样本

欧氏距离最远的近红外样本，

表示与锚定辅助可见光样本

欧氏距离最远的可见光样本；则按照“辅助可见光—近红外—可见光”这一模态顺序构建如式(4)所示的三元组损失函数L_g,n,v：

式(4)中，ρ是边缘参数，ρ＝0.3；

步骤4.1.3.5、利用式(5)构建交叉模态三元组损失函数L_trir：

L_trir＝L_n,v,g+L_v,g,n+L_g,n,v (5)

L_trir最小化最远的交叉模态正对距离和最近的负对距离之间的相对差，提高了对模态变化的鲁棒性。

步骤4.2、设置模型的基础学习率为lr₂＝0.1，总迭代次数为items_num₂＝300，每迭代λ次学习率减小一半，λ＝50，将三模态图像组输入到深度卷积神经网络中，并采用随机梯度下降SGD优化算法对深度卷积神经网络中的各个参数进行迭代优化，直至总损失函数L_total不再下降为止，从而得到跨模态人脸识别器。

在实际应用中，将近红外人脸图像或可见光人脸图像输入到步骤4的跨模态人脸识别器中，通过将近红外人脸图像或可见光人脸图像与注册脸部识别系统时图像数据库中可见脸部图像或近红外图像的高级特征进行比较得到的相似性得分来实现跨模态人脸识别。由于训练网络的目标是获得一致的近红外和可见光跨域特征表达，因此近红外人脸图像或者可见光人脸图像都可以于准确识别。图2就是实际应用时的跨模态人脸识别系统流程图。