CN114067187A

CN114067187A - 一种基于对抗生成网络的红外偏振可见光人脸翻译方法

Info

Publication number: CN114067187A
Application number: CN202111359913.9A
Authority: CN
Inventors: 汪方斌; 金蓄; 唐晟; 朱达荣; 唐玺; 陈中; 王海霞; 齐梦婷; 王子妮; 李建国
Original assignee: Anhui Jianzhu University
Current assignee: Anhui Jianzhu University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-18

Abstract

本发明公开了一种基于对抗生成网络的红外偏振可见光人脸翻译方法，包括步骤：S1、由人脸面部的自发辐射透过偏振图像系统来获得红外偏振人脸图像；S2、改进Pix2pix网络，引入实例正则化增加不同图像的独立性；S3、设计MSE损失函数和特征重建损失函数促进捕捉红外偏振图像的细节纹理信息；S4、用改进的网络生成的图像效果与其他网络进行对比，并用客观评价指标进行分析对比。本发明一种基于对抗生成网络的红外偏振可见光人脸翻译方法，可以有效提取红外偏振人脸图像特有的深层次细节纹理，并且图像不发生明显偏移，提升了人脸翻译的效果，在视觉效果和客观评价上都取得更优的效果。

Description

一种基于对抗生成网络的红外偏振可见光人脸翻译方法

技术领域

本发明涉及热红外人脸图像处理技术领域，具体为一种基于对抗生成网络的红外偏振可见光人脸翻译方法。

背景技术

已有实验表明，由于人体皮肤具有黑体发射率，其自发辐射与人脸面部的特征紧密相关，从而可利用长波红外热像仪获取热红外人脸图像，热红外人脸图像较可见光人脸图像具有更好的稳定性，其不受光照不足的因素影响，且在夜晚、雾天等环境下也有很好的成像效果。然而，由于长波红外的波长较大，获取的图像分辨率低，轮廓模糊，因此很难从红外人脸图像中确认人脸面部属性特征。

为了克服这一缺点，美国陆军研究实验室(ARL)将偏振探测技术引入到热红外成像领域。研究发现，偏振图像具有很强的动态性能，包括信号跟踪、干扰抑制、响应性和最优性等，并且与热红外图像相比具有更详细的特征，特别是在鼻子和嘴巴周围，补充了传统热图像所缺少的纹理细节。而这些纹理细节，尤其是鼻子，嘴巴和眼睛周围的关键细节在很大的程度上影响着现有的人脸识别算法性能。因此，利用人脸热辐射携带的偏振信息突出人脸表面纹理和几何结构变化特征，可以提高人脸识别系统的性能。相关学者对此做出深入研究并有效提高了长波红外人脸识别精度。这些方法主要是减小了红外偏振-可见光模态之间间隙，再提取相近特征进行人脸识别。

根据菲涅尔公式可知，红外辐射偏振度是辐射角和折射率的函数，偏振度随着辐射角的增大而增大。在无光源情况下，长波红外光谱几乎没有圆偏振信息，所以默认V(圆偏信息)为0。因此只需要3个不同独立偏振态的入射光即可求解Stockes参量。该自发辐射透过偏振方位角为α的偏振成像系统获得的图像I(α)为：

当α等于0°、60°、120°时，计算的Stockes参量为：

所以偏振度(DOP)计算公式是：

但是由于光谱特性的差别，红外偏振人脸图像识别时容易发生漏判、误判等现象，引入人脸翻译技术可以将红外偏振人脸输出成可见光人脸，再通过可见光人脸识别的成熟技术可以有效提高红外偏振人脸识别精度。

图像翻译是指在不同图像域之间对图像进行转换，随着全卷积网络和生成对抗网络的发展，利用神经网络实现图像翻译在可见光图像领域取得了较好的效果。

由于利用上述提到的神经网络进行人脸翻译研究主要是针对可见光人脸图像，对于红外偏振人脸图像独特的纹理细节无法有效捕捉，限制了红外偏振人脸-可见光人脸的翻译。

发明内容

本发明的目的在于：提供一种基于对抗生成网络的红外偏振可见光人脸翻译方法，能够有效地提升了红外偏振人脸-可见光人脸翻译的效果，在视觉效果和客观评价上都取得更优的效果，为后续的红外偏振人脸-可见光人脸翻译研究提供了新的思路。

为了实现上述目的，本发明提供如下技术方案：

S1：由人脸面部的自发辐射透过偏振方位角为0°、60°、120°的偏振图像系统来获得红外偏振人脸图像；

S2：将对抗生成网络Pix2pix应用在红外偏振人脸图像的翻译上，通过改进Pix2pix网络并在其生成网络和判别网络中加入实例正则化以增加由S1所获取的不同红外偏振人脸图像的独立性和生成图像的多样性；

S3：在S2的整个对抗生成网络的实现中，为减少卷积特征提取和采样的过程中造成的红外偏振人脸图像上纹理细节信息的丢失。在生成网络中增加了l^mse损失函数和特征重建损失函数l_feature促进捕捉红外偏振人脸图像的细节纹理信息，增添生成图像的结构信息和深层细节纹理信息；判别网络的损失函数为判别结果与真实值的二元交叉熵；

S4：用客观评价指标来分别评价仅增加l^mse损失函数和仅增加l_feature特征重建损失函数的生成网络在不同权重下所生成的图像质量并选取两种损失函数的不同权重进行组合，以求得到最优权重组合，随后用本发明改进的网络与Pix2pix、Pix2pixHD、CycleGAN图像翻译框架生成的图像效果进行主观对比并用客观评价指标进行评价。

优选地，所述S1步骤，其具体方法为：采用人脸图像采集装置在完全黑暗的环境下拍摄受试者各种微表情的红外偏振人脸图像，之后开灯拍摄可见光人脸图像，形成图像数据集；所述数据集一共采集了15个人，每人采集了15组不同表情图片，共计225组图片，每组图片包含偏振方位角分别为0°、60°、120°的红外偏振人脸图像I(0°)、I(60°)、I(120°)，以及Stockes参量I、Q、U的图像和可见光图片。

优选地，所述S2步骤，其具体方法为：

通过对Pix2pix网络进行改进，采用改进的U-Net，生成的新网络由8个卷积核为4*4的卷积层和8个卷积核为4*4的反卷积层组成，所述卷积层和反卷积层中步进均为2，边缘填充均为1；为了避免进行池化过程中导致图像特征的丢失，去掉最大池化操作；

所述卷积层前七个使用LeakyRelu激活函数，最后一个使用的是Relu，所述反卷积层前七个使用的是Relu，最后一个使用的是Tanh激活函数，每次卷积都需要实例正则化；

新网络中使用的跳跃连接，可以实现网络中同一尺度深、浅不同层次之间的图像信息融合；浅层特征可最大程度保留图像原始的结构信息，而深层特征则包含更多抽象结构信息，两者进行融合有利于在最后的卷积通道中恢复目标中的结构细节，进而提高生成图像质量；

判别网络输入是由生成网络的输入和输出拼接而成的图像经过随机裁剪变成N*N个70*70的图片，输出是N*N的矩阵，将图像特征映射分割成许多区域块并进行匹配，以提高合成图像在视觉上的合理性；判别网络由3个卷积核为4*4的卷积层一和2个卷积核为4*4的卷积层二组成，所述卷积层一中，步进为2，边缘填充为1；所述卷积层二中，步进为1，边缘填充为1；第一个卷积层一中的卷积操作使用了LeakyRelu为激活函数且未正则化，后两个卷积层一以及第一个卷积层二共三个卷积操作使用了LeakyRelu为激活函数的同时实例正则化，最后一个卷积层二的卷积未使用激活函数和正则化。

优选地，所述S3步骤，其具体方法为：

S3.1、重新定义损失函数，可以判断网络的性能和网络的损失情况，通过调整修改网络中参数优化网络，提高网络质量；生成的网络损失函数由三部分组成：内容损失L1距离、l^mse损失函数、特征重建函数l_feature；判别网络损失函数为判别结果与真实值的二元交叉熵；

S3.2、按照Mehdi S.M.Sajjad使用的VGG19的第二和第五个池化层提取图像的特征，生成网络的损失函数可以表示为：

L(G)＝λ₁L1+λ₂l^mse+λ₃l_feature (4)，

其中λ₁λ₂λ₃为超参数，对λ₁采用pix2pix中的设置，调整λ₂和λ₃以寻求较优结果；

判别网络D用于区分合成图像对[x，y_fake]和真实图像对[x，y]，损失函数采用二元交叉熵的组合形式：

其中，E_x，y表示输入x图像的期望；通常公式(5)中的D()会输出一个0-1的数，表示输入图片是可见光图像的概率；当输入真实可见光图像时，判别网络应当输出接近1的数字；输入生成的可见光图像时，判别网络应当输出接近0的数字；如果判别网络总是可以正确的判别，损失函数应当为0，否则为负无穷；

训练模型的过程是一个极大极小问题，可以表示为如下公式：

优选地，所述S4步骤中，其具体方法为：

S4.1、引用三个客观评价指标PSNR、SSRM和FID分别评价仅增加损失函数和仅增加特征重建损失函数的生成网络在不同权重下所生成的图像质量并选取两种损失函数的不同权重进行组合，以求得到最优权重组合；

S4.2、用改进的对抗生成网络框架生成的人脸图像在各个器官的细节纹理上与其他网络框架生成的人脸图像进行主观比较，并用S4.1所介绍的三个客观评价指标进行客观评价。

优选地，在S3.1步骤中，所述L1距离也被称为最小绝对值偏差LAD、绝对值损失函数LAE，它是把目标值与估计值的绝对差值的总和最小化，即：

L₁＝||y-y_fake||₁ (1)，

其中，y_fake为生成的可见光图像，y为真实的可见光图像，L1损失函数约束生成图像y_fake和真实图像y之间的差异。

优选地，在S3.1步骤中，所述l^mse损失函数计算公式为：

其中，MN为图片的长宽，l^mse反映生成的可见光图像和原始可见光图像之间的均方误差，均方误差越小，表示生成的图像越接近原图像，反之生成图像与原图像的相似度越低；

由于红外偏振人脸和可见光人脸难以配准，使用人工配准方法会有一定的像素偏移，使得仅用L1距离难以有效判别生成图像和真实图像之间的差异，通过引入L^mse损失函数计算图像整体的损失，确保图像之间整体有良好的结构相似性，即确保了图像及其变换之间的保真度。

优选地，在S3.1步骤中，所述特征重建函数l_feature，其计算公式为：

其中，C、H、W是卷积层为第j层的特征图的尺寸，φ_j(y)为图像y在特征提取网络第j层的特征图；

在图像拥有良好的结构相似性上，通过添加特征重建损失函数，使用VGG19网络来提取生成的可见光图像和原始可见光图像的特征，并计算特征之间的欧氏距离，其主要目的是使生成的可见光图像和原始可见光图像拥有相似的特征。

优选地，在S4.1步骤中，所述PSNR是最普遍和使用最为广泛的一种图像客观评价指标，它是基于对应像素点间的误差，描述了图像之间的差异，其计算公式为：

其中，MSE表示图像X和图像Y的均方误差；H、W分别为图像的高度和宽度；n为每像素的比特数，一般取8；PSNR的单位是dB，数值越大表示失真越小；

所述SSIM是衡量两幅图像是否相似的评价指标，在亮度、对比度、结构上进行比较，反应两个图像之间的差距，范围是[-1，1]，图像相似性越高，SSIM越趋于1，其计算公式为：

其中，μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差；c₁＝(k₁L)²，c₂＝(k₂L)³是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01，k₂＝0.03；

所述FID作为图像评价指标，对翻译的图像进行质量评估，FID使用InceptionNetwork神经网络的中间层提取图像特征，通过计算生成图像与目标图像特征的分布的Frechet距离来表征两个分布的差别；FID是GAN的一个优秀判别指标，FID越小，说明生成对象的特征分布与目标特征分布越接近，并且图像多样性更好，生成网络效果越好。

本发明的有益效果在于：

本发明一种基于对抗生成网络的红外偏振可见光人脸翻译方法，在红外偏振领域引入深度学习方法，来提高红外偏振人脸-可见光人脸翻译的效果，将在可见光图像翻译上取得良好效果的生成对抗网络Pix2pix应用在红外偏振图像上，并针对红外偏振图像的特点增加输入通道数，增添损失函数和特征重建函数，可以保证图像结构不偏移的同时提取更多的特征信息；使用实例正则化可以进一步提高图像之间的独立性和多样性；通过生成网络和判别网络对抗训练的方式提升网络效果，实现对红外偏振人脸-可见光人脸的翻译。本发明一种基于对抗生成网络的红外偏振可见光人脸翻译方法，可以有效提取红外偏振人脸图像特有的深层次细节纹理，并且图像不发生明显偏移，提升了人脸翻译的效果，在视觉效果和客观评价上都取得更优的效果。

附图说明

图1：本发明的改进的网络翻译模型图；

图2：生成网络中仅增加了L^mse损失函数的权重指标分析图；

图3：生成网络中仅增加了特征重建函数l_feature的权重指标分析图；

图4：本发明联合损失函数权重指标分析图；

图5：本发明中利用改进的网络与Pix2pix、Pix2pixHD、CycleGAN图像翻译框架生成的图像效果对比图；

图6：不同网络框架下图像翻译结果的客观评价指标对比图。

具体实施方式

以下结合实施例对本发明作进一步的说明，需要说明的是，仅仅是对本发明构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本权利要求书所定义的范围，均应视为落入本发明的保护范围。

实施例1：

一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，包括以下步骤：

S1：由人脸面部的自发辐射透过偏振方位角为0°、60°、120°的偏振图像系统来获得红外偏振人脸图像，其具体方法为：

使用由CCD长波红外制冷相机和带有红外金属线栅偏光镜的高精密转台组成，可见光图像由可见光相机拍摄，两者紧贴分时采集图像。为了收集数据，要求每个受试者坐在椅子上并摘下他的眼镜；严格控制光照环境，如图所示设置的小黑屋模拟黑夜环境，受试者在其中几乎没有可见度；受试者将在离相机1m处表露各种微表情(面无表情，微笑，撇嘴，惊讶，不屑，专注，愤怒等)，并保持10s无变化；10s内当完全黑暗时进行红外偏振图像的拍摄。之后开灯拍摄可见光图像，形成图像数据集。神经网络具有记忆性，通过面部表情的变化来提高人脸不同状态的多样性，网络对于不同的人脸姿态翻译更加真实。所述数据集一共采集了15个人，每人采集了15组不同表情图片，共计225组图片，每组图片包含偏振方位角分别为0°、60°、120°的红外偏振人脸图像I(0°)、I(60°)、I(120°)，以及Stockes参量图像I、Q、U的图像和可见光图片。

S2：将对抗生成网络Pix2pix应用在红外偏振人脸图像的翻译上，通过改进Pix2pix网络并在其生成网络和判别网络中加入实例正则化以增加由S1所获取的不同红外偏振人脸图像的独立性和生成图像的多样性，其具体方法为：

针对S1步骤数据集中，由于每个实例图像之间数据较少，需要使用IN保持每个图像之间的独立性；Relu、Tanh和LeakyRelu为激活函数；DeConv为反卷积。

Pix2pix网络模型是由一个生成网络和一个判别网络组成。在红外偏振人脸翻译领域可以理解成由一个试图将红外偏振人脸翻译成可见光人脸的生成网络G和一个试图正确识别生成的可见光图像是否为真实的判别网络D。通过对Pix2pix网络进行改进，与经典U-net的4层对称网络相比，本发明的生成网络采用改进的U-Net，生成的新网络由8个卷积核为4*4的卷积层和8个卷积核为4*4的反卷积层组成，所述卷积层和反卷积层中步进均为2，边缘填充均为1；为了避免进行池化过程中导致图像特征的丢失，去掉最大池化操作；

IN(Istance normalization)为实例正则化，IN适用于本发明的生成网络和判别网络中，因为图片生成的结果主要依赖于某个图像实例。针对本发明的小数据集中，由于每个实例图像之间数据较少，需要使用IN保持每个图像之间的独立性。

S3：在S2的整个对抗生成网络的实现中，为减少卷积特征提取和采样的过程中造成的红外偏振人脸图像上纹理细节信息的丢失。在生成网络中增加了L^mse损失函数和特征重建损失函数l_feature促进捕捉红外偏振人脸图像的细节纹理信息，增添生成图像的结构信息和深层细节纹理信息。判别网络的损失函数为判别结果与真实值的二元交叉熵，其具体方法为：

S3.1、重新定义损失函数，可以判断网络的性能和网络的损失情况，通过调整修改网络中参数优化网络，提高网络质量；生成的网络损失函数由三部分组成：内容损失L1距离、L^mse损失函数、特征重建函数l_feature；判别网络损失函数为判别结果与真实值的二元交叉熵。

所述L1距离也被称为最小绝对值偏差LAD、绝对值损失函数LAE，它是把目标值与估计值的绝对差值的总和最小化，即：

L₁＝||y-y_fake||₁ (1)，

由于红外偏振人脸和可见光人脸难以配准，使用人工配准方法会有一定的像素偏移，使得仅用L1距离难以有效判别生成图像和真实图像之间的差异，通过引入L^mse损失函数计算图像整体的损失，确保图像之间整体有良好的结构相似性，即确保了图像及其变换之间的保真度。所述L^mse损失函数计算公式为：

在图像拥有良好的结构相似性上，通过添加特征重建损失函数，使用VGG19网络来提取生成的可见光图像和原始可见光图像的特征，并计算特征之间的欧氏距离，其主要目的是使生成的可见光图像和原始可见光图像拥有相似的特征。所述特征重建函数l_feature，其计算公式为：

其中，C、H、W是卷积层为第j层的特征图的尺寸，φ_j(y)为图像y在特征提取网络第j层的特征图。

L(G)＝λ₁L1+λ₂l^mse+λ₃l_feature (4)，

其中λ₁λ₂λ₃为超参数，对λ₁采用pix2pix中的设置，调整λ₂和λ₃以寻求较优结果。

S4：用客观评价指标来分别评价仅增加l^mse损失函数和仅增加l_feature特征重建损失函数的生成网络在不同权重下所生成的图像质量并选取两种损失函数的不同权重进行组合，以求得到最优权重组合，随后用本发明改进的网络与Pix2pix、Pix2pixHD、CycleGAN图像翻译框架生成的图像效果进行主观对比，并用客观评价指标进行评价。其具体方法为：

S4.1、引用三个客观评价指标PSNR、SSRM和FID分别评价仅增加损失函数和仅增加特征重建损失函数的生成网络在不同权重下所生成的图像质量并选取两种损失函数的不同权重进行组合，以求得到最优权重组合。

PSNR是最普遍和使用最为广泛的一种图像客观评价指标，它是基于对应像素点间的误差，描述了图像之间的差异，其计算公式为：

其中，MSE表示图像X和图像Y的均方误差；H、W分别为图像的高度和宽度；n为每像素的比特数，一般取8；PSNR的单位是dB，数值越大表示失真越小。

SSIM是衡量两幅图像是否相似的评价指标，在亮度、对比度、结构上进行比较，反应两个图像之间的差距，范围是[-1，1]，图像相似性越高，SSIM越趋于1，其计算公式为：

其中，μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差；c₁＝(k₁L)²，c₂＝(k₂L)²是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01，k₂＝0.03；

选取FID作为图像评价指标，对翻译的图像进行质量评估，FID使用InceptionNetwork神经网络的中间层提取图像特征，通过计算生成图像与目标图像特征的分布的Frechet距离来表征两个分布的差别；FID是GAN的一个优秀判别指标，FID越小，说明生成对象的特征分布与目标特征分布越接近，并且图像多样性更好，生成网络效果越好。

实验中测试了仅增加l^mse损失函数的情况，根据经验设置权重为1、5、10、20、50、100。列出了这些不同参数下同一测试集的表现，验证损失函数的作用并获取期望的权重，得知λ₂取值在[0，10]范围内时，FID略有下降但变化不大，PSNR和SSIM为持续上升状态。在[20，100]范围内FID，PSNR，SSIM均得到较优结果。可得l^mse损失函数可以一定的增强图像的整体结构性，同时生成器保持良好的特征分布。同时实验也测试了仅增加l_feature损失函数的情况，根据经验设置权重为0.1、0.5、1、5、10、20、30。列出了这些不同参数下同一测试集的表现，验证损失函数的作用并获取期望的权重，得知λ₃取值在[0.1，0.5]范围内时，FID、PSNR变化不大，SSIM略微提升。[1，20]范围内FID明显下降后略微上升，但总体相对于加入l_feature有所下降，可以看出l_feature可以更有效的学习深层细节特征，得到更为接近的特征分布。最后选取不同权重进行组合，得出最优权重组合为λ₂＝10，λ₃＝20。

本发明的网络框架生成的图像视觉效果上相对优于其他网络框架的结果。Pix2pix生成的图像结构位置相对准确，但是在细节纹理部分，比如眼睛和嘴巴附近，相对有些模糊；Pix2pixHD在部分图像上细节纹理优于Pix2pix，但是有的图像结构位置有所偏移；CycleGAN生成的图像人脸器官位置部分偏移，并且面部相对模糊，不易识别。本文的网络在图像翻译后，脸部各个器官位置和原图基本相近，未出现严重偏移现象，各个器官细节纹理更加清晰，没有严重模糊现象，基本还原了原图。在不同网络框架下图像翻译结果的客观评价指标。本发明提出的方法客观评价指标最优，即表示本发明的方法在视觉效果更好，并且图像特征分布上更接近真实图像，达到更好的翻译效果。

为验证本发明的有效性，实试例中选取改进的网络翻译模型图，以及L^mse损失函数的权重指标分析图，l_feature损失函数的权重指标分析图和联合损失函数权重指标分析图。最后选取本文改进的网络与Pix2pix、Pix2pixHD、CycleGAN图像翻译框架生成的图像效果对比图，以及在不同网络框架下图像翻译结果的客观评价指标对比图。

图1为本发明的改进的网络翻译模型图。由图1可知，在图1中左边为生成网络，右边为判别网络，生成网络由8个卷积核为4*4的卷积层(步进为2，边缘填充为1)和8个卷积核为4*4的反卷积层(步进为2，边缘填充为1)组成，判别网络由3个卷积核为4*4的卷积层一和2个卷积核为4*4的卷积层二组成。

图2为生成网络中仅增加了l^mse损失函数的权重指标分析图。由图2可知，取值在[0，10]范围内时，FID略有下降但变化不大，PSNR和SSIM为持续上升状态。在[20，100]范围内FID，PSNR，SSIM均得到较优结果。由此可得损失函数可以一定的增强图像的整体结构性，同时生成器保持良好的特征分布。

图3为生成网络中仅增加了特征重建损失函数l_feature的权重指标分析图。由图3可知，取值在[0.1，0.5]范围内时，FID、PSNR变化不大，SSIM略微提升。[1，20]范围内FID明显下降后略微上升，但总体相对于加入l_feature有所下降，可以看出l_feature可以更有效的学习深层细节特征，得到更为接近的特征分布。

图4为本发明联合损失函数权重指标分析图。由图4可知，可得两种损失函数的最优权重组合：λ₂＝10，λ₃＝20。

图5为本发明中利用改进的网络与Pix2pix、Pix2pixHD、CycleGAN图像翻译框架生成的图像效果对比图。由图5可知，可以看出本发明的对抗生成网络框架生成的图像视觉效果上相对优于其他网络框架的结果。Pix2pix生成的图像结构位置相对准确，但是在细节纹理部分，比如眼睛和嘴巴附近，相对有些模糊；Pix2pixHD在部分图像上细节纹理优于pix2pix，但是有的图像结构位置有所偏移；CycleGAN生成的图像人脸器官位置部分偏移，并且面部相对模糊，不易识别。

图6为不同网络框架下图像翻译结果的客观评价指标对比图。由图6可知，本发明提出的方法客观评价指标最优，即表示本发明的方法在视觉效果更好，并且图像特征分布上更接近真实图像，达到更好的翻译效果。

本发明一种基于对抗生成网络的红外偏振可见光人脸翻译方法，在红外偏振领域引入深度学习方法，来提高红外偏振人脸-可见光人脸翻译的效果，将在可见光图像翻译上取得良好效果的生成对抗网络Pix2pix应用在红外偏振图像上，并针对红外偏振图像的特点增加输入通道数，增添L^mse损失函数和特征重建函数l_feature，可以保证图像结构不偏移的同时提取更多的特征信息；使用实例正则化可以进一步提高图像之间的独立性和多样性；通过生成网络和判别网络对抗训练的方式提升网络效果，实现对红外偏振人脸-可见光人脸的翻译。

本发明一种基于对抗生成网络的红外偏振可见光人脸翻译方法，可以有效提取红外偏振人脸图像特有的深层次细节纹理，并且图像不发生明显偏移，提升了人脸翻译的效果，在视觉效果和客观评价上都取得更优的效果。

上述是对发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的这种非实质改进，或未经改进将发明的构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，包括以下步骤：

S2：将生成对抗网络Pix2pix应用在红外偏振人脸图像的翻译上，通过改进Pix2pix网络并在其生成网络和判别网络中加入实例正则化以增加由S1所获取的不同红外偏振人脸图像的独立性和生成图像的多样性；

S3：在S2的整个对抗生成网络的实现中，为减少卷积特征提取和采样的过程中造成的红外偏振人脸图像上纹理细节信息的丢失，在生成网络中增加了l^mse损失函数和特征重建损失函数l_feature促进捕捉红外偏振人脸图像的细节纹理信息，增添生成图像的结构信息和深层细节纹理信息，判别网络的损失函数采用判别结果与真实值的二元交叉熵；

2.根据权利要求1所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，所述S1步骤，其具体方法为：

采用人脸图像采集装置在完全黑暗的环境下拍摄受试者各种微表情的红外偏振人脸图像，之后开灯拍摄可见光人脸图像，形成图像数据集；所述数据集一共采集了15个人，每人采集了15组不同表情图片，共计225组图片，每组图片包含偏振方位角分别为0°、60°、120°的红外偏振人脸图像I(0°)、I(60°)、I(120°)，以及Stockes参量图像I、Q、U和可见光图片。

3.根据权利要求1所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，所述S2步骤，其具体方法为：

4.根据权利要求1所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，所述S3步骤，其具体方法为：

L(G)＝λ₁L1+λ₂l^mse+λ₃l_feature (4)，

判别网络D用于区分合成图像对[x,y_fake]和真实图像对[x,y]，损失函数采用二元交叉熵的组合形式：

5.根据权利要求1所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，所述S4步骤中，其具体方法为：

S4.1、引用三个客观评价指标PSNR、SSRM和FID分别评价仅增加l^mse损失函数和仅增加l_feature特征重建损失函数的生成网络在不同权重下所生成的图像质量并选取两种损失函数的不同权重进行组合，以求得到最优权重组合；

6.根据权利要求4所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，在S3.1步骤中，

L₁＝||y-y_fake||₁ (1)，

7.根据权利要求4所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，在S3.1步骤中，所述L^mse损失函数计算公式为：

8.根据权利要求4所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，在S3.1步骤中，

所述特征重建函数l_feature，其计算公式为：

9.根据权利要求5所述的一种基于对抗生成网络的红外偏振可见光人脸翻译方法，其特征在于，在S4.1步骤中，所述PSNR是最普遍和使用最为广泛的一种图像客观评价指标，它是基于对应像素点间的误差，描述了图像之间的差异，其计算公式为：

所述SSIM是衡量两幅图像是否相似的评价指标，在亮度、对比度、结构上进行比较，反应两个图像之间的差距，范围是[-1,1]，图像相似性越高，SSIM越趋于1，其计算公式为：

其中，μ_x为x的平均值，μ_y为y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差；c₁＝(k₁L)²，c₂＝(k₂L)²是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01,k₂＝0.03；

所述FID作为图像评价指标，对翻译的图像进行质量评估，FID使用Inception Network神经网络的中间层提取图像特征，通过计算生成图像与目标图像特征的分布的Frechet距离来表征两个分布的差别；FID是GAN的一个优秀判别指标，FID越小，说明生成对象的特征分布与目标特征分布越接近，并且图像多样性更好，生成网络效果越好。