CN114049289A

CN114049289A - 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法

Info

Publication number: CN114049289A
Application number: CN202111324809.6A
Authority: CN
Inventors: 孙锐; 单晓全; 孙琦景; 张磊; 余益衡
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-15
Anticipated expiration: 2041-11-10
Also published as: CN114049289B

Abstract

本发明公开了一种基于对比学习与StyleGAN2的近红外‑可见光人脸图像合成方法，其步骤包括：1、收集成对的近红外‑可见光人脸图像并进行统一的人脸检测和归一化的预处理，从而获得数据集图像；2、引入对比学习机制，构建包含基于StyleGAN2结构的生成器、判别器、图像多层特征提取块在内的生成网络模型；3、结合适当的损失函数和优化函数，利用训练集图像训练生成网络模型；4、输入待测的近红外人脸图像对生成网络模型进行测试，最终合成相应的可见光人脸图像。本发明能使得合成的可见光图像更加贴近真实图像，能够更好地还原人脸图像的面部边缘细节和肤色信息，从而提高合成图像的视觉效果和跨模态人脸识别的性能。

Description

基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法。

背景技术

近红外图像传感器由于可以很好地克服自然光的影响、能在各种光照条件不佳以及夜间场景下工作而受到广泛应用。然而在刑侦安防领域，近红外人脸图像通常不能直接用于人脸检索与识别，因为近红外传感器获取的单通道图像缺失了原始图像的自然色彩，对人眼视觉很不友好。与真实的可见光人脸图像相比，近红外人脸图像的人脸识别性能也较差。因此将近红外人脸图像转化为可见光人脸图像，还原人脸图像的色彩信息，有助于进一步提高人脸图像的主观视觉效果和跨模态识别性能，为构建全天候的视频监控系统提供技术支撑。

目前已有的近红外-可见光人脸图像合成技术可分为针对配对数据集的图像转换方法和非配对数据集的图像转换方法。针对配对数据集的图像转换方法包括Pix2pix GAN与Pix2pixHD等方法可以在生成的图像中保留更多细节，在大样本的成对数据集上能够取得十分优异的性能。然而，人脸的近红外-可见光图像对的采集非常困难，因为像素级匹配的近红外-可见光人脸数据集比未配对的数据集成本更高。所以，非配对的图像转换模型更适合于近红外-可见光人脸图像的转换任务。CycleGAN方法是一种流行的非配对的图像转换方法，它可以同步实现图像到图像的双向转换。在此基础上衍生出了很多改进型网络，能够实现近红外图像和可见光图像之间的相互转换。

然而，近红外人脸图像不同于其他的近红外图像，若人脸轮廓以及面部肤色等细节在图像转换的过程中被扭曲将会很大程度地影响合成的人脸图像的视觉效果与图像质量。

发明内容

本发明为了克服现有技术的不足之处，提出了一种基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法，以期能使得合成的可见光图像更加贴近真实图像，能够更好地还原人脸图像的面部边缘细节和肤色信息，从而提高合成图像的视觉效果和跨模态人脸识别的性能。

本发明为解决技术问题采用如下技术方案：

本发明一种基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法的特点在于，包括以下步骤：

步骤1、收集成对的近红外-可见光人脸图像并进行统一的人脸检测和归一化的预处理，从而获得数据集图像；

步骤1.1、用光学相机和近红外相机分别采集M个人的可见光与近红外异构人脸图像并构建数据集；

步骤1.2、利用MTCNN人脸检测方法检测所述数据集中的人脸位置并定位人脸关键点，再以人脸位置为中心对图像进行裁剪，得到尺寸为n×n的人脸图像并作为训练集；

将所述训练集中的近红外人脸图像记为近红外域X，可见光人脸图像记为可见光域Y；

步骤2、构建基于对比学习与StyleGAN2的生成网络模型，包括：基于StyleGAN2网络结构的生成器G、判别器D、图像多层特征提取块T；

步骤2.1、基于StyleGAN2网络结构的生成器G，包含：编码器Genc、特征解纠缠、解码器Gdec；其中，编码器Genc由m个样式块依次串联构成，用于实现下采样操作；所述特征解纠缠由m个全连接层依次串联构成；所述解码器Gdec由m个样式块逆向串联构成，用于实现上采样操作；所述样式块包含调制、卷积、解调与实例归一化操作层；

步骤2.1.1、所述近红外域X中任取一张尺寸为n×n的近红外人脸图像x并输入所述编码器Genc中进行映射处理后，得到潜在空间Z中的潜在向量z，z∈Z；

步骤2.1.2、所述潜在向量z进行归一化后，再通过所述特征解纠缠模块映射为潜在空间W中的潜在向量w，w∈W；

步骤2.1.3、所述解码器Gdec对所述潜在向量w进行合成，得到尺寸为n×n的合成的伪可见光人脸图像G(x)；

步骤2.2、所述判别器D为PatchGAN结构，并从近红外人脸图像x中遍历固定尺寸的图像块进行真假的判别，从而得到所有判别结果的矩阵并组成判别矩阵，以所述判别矩阵的均值作为对近红外人脸图像的评价；

步骤2.3、所述图像多层特征提取块T是由编码器Genc′和一个两层MLP网络H构成；所述编码器Genc′与生成器G中的编码器Genc的结构相同；

步骤2.3.1、使用所述编码器Genc′提取近红外人脸图像x中S个固定尺寸的图像块的特征，并选择所述编码器Genc′中的前L个样式块所提取到的图像块的特征输入所述两层MLP网络H中，从而由两层MLP网络将所有图像块的特征投影为近红外特征集

并输出，其中，z_l表示第l个样式块输出的所有图像块的特征所投影的近红外特征；l∈[1,L]，L∈[1,m]；

步骤2.3.2、从合成的伪可见光人脸图像G(x)中选取位置s上的图像块记为查询样本，并将近红外人脸图像x中相应位置s上的图像块记为查询样本的正样本，其他位置的图像块记为查询样本的负样本；s∈{1,…,S}；

根据特征集

将查询样本的正样本在第l个样式块中的特征记为

负样本的特征记为

S\s表示除相应位置s上的图像块以外其他图像块的位置；

步骤2.3.3、按照步骤2.3.1的过程，得到合成的伪可见光人脸图像G(x)中所有图像块的特征投影后的可见光特征集

其中，

表示第l个样式块输出的所有图像块所投影的可见光人脸特征；l∈[1,L]；

步骤3、结合损失函数和优化函数，利用训练集训练生成网络模型；

步骤3.1、对近红外人脸图像x和合成的伪可见光人脸图像G(x)仅裁剪出面部区域，再利用式(1)构建面部边缘增强损失L_FEE：

式(1)中，

分别为近红外人脸图像x和合成的伪可见光人脸图像G(x)经裁剪后的面部区域所提取的边缘图像；

步骤3.2、利用式(2)构建多层对比损失L_MLC：

步骤3.3、利用式(3)构建同一性损失L_idt：

L_idt(G)＝||G(y)-y||₁ (3)

式(3)中，y表示所述可见光人脸图像中任意一张可见光人脸图像；G(y)表示可见光人脸图像y输入到所述生成器G所输出的图像；

步骤3.4、利用式(4)在生成器G与判别器D之间构建对抗性损失L_GAN：

L_GAN(G,D,X,Y)＝logD(y)+log(1-D(G(x))) (4)

步骤3.5、利用式(5)构建总的损失函数L_total：

L_total＝λ_FEEL_FEE+λ_MLCL_MLC+λ_idtL_idt+λ_GANL_GAN (5)

式(5)中，λ_FEE、λ_MLC、λ_idt、λ_GAN分别为各损失项的权重参数；

步骤3.6、基于所述训练集，使用Adam优化策略对生成网络模型进行训练，直至总的损失函数L_total收敛，得到最优生成网络模型；

步骤4、将待测的近红外人脸图像输入到最优生成网络模型，从而输出合成的可见光人脸图像。

与已有技术相比，本发明有益效果体现在：

1、本发明通过构建基于对比学习与StyleGAN2的生成网络模型，以端到端的方式解决近红外-可见光人脸图像的合成问题，减小了网络复杂度，提高了合成速率。

2、本发明构建了基于StyleGAN2结构的生成器并将其与对比学习机制相结合，通过基于StyleGAN2结构的生成器将人脸图像的潜在特征在潜在空间进行解纠缠变换，提取人脸图像更深层次的特征，同时采用对比学习的方式从图像局部细节出发增强了合成图像的质量。

3、本发明设计了新的面部边缘增强损失，利用从输入图像中提取的面部边缘信息进一步强化了合成的可见光人脸图像中的面部细节、提高了合成人脸图像的视觉效果。

附图说明

图1为本发明的近红外-可见光人脸图像合成方法流程图；

图2为本发明的基于对比学习与StyleGAN2的生成网络示意图。

具体实施方式

本实施例中，一种基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法，参照图1：先收集来自不同人的近红外-可见光人脸图像，并对数据集进行预处理，从而获得训练集图像；引入对比学习机制，构建包含基于StyleGAN2结构的生成器、判别器、图像多层特征提取块在内的生成网络模型；结合适当的损失函数和优化函数，利用训练集图像训练生成网络模型；输入待测的近红外人脸图像对模型进行测试，最终合成相应的可见光人脸图像。

具体地说，是按如下步骤进行：

步骤1.2、利用MTCNN人脸检测方法检测数据集中的人脸位置并定位人脸关键点，再以人脸位置为中心对图像进行裁剪，得到尺寸为n×n的人脸图像并作为训练集；

将训练集中的近红外人脸图像记为近红外域X，可见光人脸图像记为可见光域Y；

本实施例中，n＝256，训练集图像和合成的可见光人脸图像尺寸均为256*256；由于近红外相机与普通光学相机的光谱不同，可见光人脸图像y通常有R、G、B三种不同的颜色通道，而近红外人脸图像x只有单一的过饱和灰度通道；y∈Y，x∈X；

步骤2、构建基于对比学习与StyleGAN2的生成网络模型，如图2所示，包括：基于StyleGAN2网络结构的生成器G、判别器D、图像多层特征提取块T；

步骤2.1、基于StyleGAN2网络结构的生成器G，包含：编码器Genc、特征解纠缠、解码器Gdec；其中，编码器Genc由m个样式块依次串联构成，用于实现下采样操作；特征解纠缠由m个全连接层依次串联构成；解码器Gdec由m个样式块逆向串联构成，用于实现上采样操作；样式块为StyleGAN2网络中的基本网络结构，包含调制、卷积、解调与实例归一化操作；

步骤2.1.1、近红外域X中任取一张尺寸为n×n的近红外人脸图像x并输入编码器Genc中进行映射处理后，得到潜在空间Z中的潜在向量z，z∈Z；

步骤2.1.2、潜在向量z进行归一化后，再通过特征解纠缠模块映射为潜在空间W中的潜在向量w，w∈W；

步骤2.1.3、解码器Gdec对潜在向量w进行合成，得到尺寸为n×n的合成的伪可见光人脸图像G(x)；

步骤2.2、判别器D为PatchGAN结构，并从近红外人脸图像x中遍历固定尺寸的图像块进行真假的判别，从而得到所有判别结果的矩阵并组成判别矩阵，以判别矩阵的均值作为对近红外人脸图像的评价，迫使生成器G最小化合成的伪可见光人脸图像与真实的可见光人脸图像之间的距离；

步骤2.3、图像多层特征提取块T是由编码器Genc′和一个两层MLP网络H构成；编码器Genc′与生成器G中的编码器Genc的结构相同；

步骤2.3.1、使用编码器Genc′提取近红外人脸图像x中S个固定尺寸的图像块的特征，并选择编码器Genc′中的前L个样式块所提取到的图像块的特征输入两层MLP网络H中，从而由两层MLP网络将所有图像块的特征投影为近红外特征集

根据特征集

将查询样本的正样本在第l个样式块中的特征记为

负样本的特征记为

S\s表示除相应位置s上的图像块以外其他图像块的位置；

其中，

本实例中，m＝8，L＝5，S＝64，利用对比学习的机制，通过构造正负样本使得合成的伪可见光人脸图像中对应位置的图像块特征更加贴近原始的近红外人脸图像，从而增强合成图像的视觉质量；

式(1)中，

分别为近红外人脸图像x和合成的伪可见光人脸图像G(x)经裁剪后的面部区域所提取的边缘图像；裁剪后的面部区域在近红外与可见光条件下均可以提取到较为完整的边缘信息，以此指导人脸图像的合成，保证在人脸图像合成的过程中面部边缘不被扭曲；

步骤3.2、利用式(2)构建多层对比损失L_MLC：

步骤3.3、利用式(3)构建同一性损失L_idt：

L_idt(G)＝||G(y)-y||₁ (3)

式(3)中，y表示可见光人脸图像中任意一张可见光人脸图像；G(y)表示可见光人脸图像y输入到生成器G所输出的图像；本实施例中，生成器G负责将输入的近红外人脸图像转换成可见光人脸图像；若将可见光人脸图像输入到生成器G中，理想中G对此时的输入图像应该不做任何的更改而输出，这种情况下真实的输出图像与输入图像之间的L1损失即为式(3)中的同一性损失；通过同一性损失可以纠正生成器的色偏，使生成的图像更加贴近真实的可见光图像；

L_GAN(G,D,X,Y)＝logD(y)+log(1-D(G(x))) (4)

步骤3.5、利用式(5)构建总的损失函数L_total：

L_total＝λ_FEEL_FEE+λ_MLCL_MLC+λ_idtL_idt+λ_GANL_GAN (5)

式(5)中，各损失项的权重参数分别设置为λ_FEE＝1、λ_MLC＝2、λ_idt＝1、λ_GAN＝1；

步骤3.6、基于训练集，使用Adam优化策略对生成网络模型进行训练，直至总的损失函数L_total收敛，得到最优生成网络模型；

本实施例中，通过面部边缘增强损失保证人脸图像在转换的过程中面部边缘不被扭曲，强化面部细节的保留；通过多层对比损失引入对比学习的机制，使生成图像的整体质量得到了很好的增强；通过同一性损失和对抗性损失，进一步优化生成器G使合成的图像更加贴近真实的可见光图像；