CN117541665A

CN117541665A - 基于改进的生成对抗网络的红外图像生成方法

Info

Publication number: CN117541665A
Application number: CN202311260125.3A
Authority: CN
Inventors: 郝肖冉; 井世丽; 成妍妍; 张辉; 曹璨; 卜瑞波
Original assignee: Hebei Hanguang Heavy Industry Ltd
Current assignee: Hebei Hanguang Heavy Industry Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-09

Abstract

本发明涉及一种基于改进的生成对抗网络的红外图像生成方法。本发明基于CycleGAN网络结构并进行了两点改进，其一、生成器编码器部分下采样阶段采用了以卷积块和CBAM注意力模块为基本单元的级联设计模式，以此获得更加全面、重要的图像特征信息。其二、在基于CycleGAN网络将可见光图像对红外图像进行生成时，为了保证生成的红外图像内容更逼真，采用了融合边缘损失和图像亮度损失，使得生成的红外图像更接近于真实红外图像。本发明有效解决了现有方法生成的红外图像存在纹理不清晰、结构缺失的问题。

Description

基于改进的生成对抗网络的红外图像生成方法

技术领域

本发明属于计算机视觉领域，特别涉及红外图像的生成方法。

背景技术

红外图像因其具有抗干扰能力强，空间适应性好，目标对比度高等方面的优点，在民用和军事领域都有重要应用，是当前各类精确制导武器的重要制导方式，对强调精确打击和发现即摧毁的现代战争具有非常重要的意义。

然而相比于可视传感设备，红外拍摄器材往往价格过高，而且由于环境、搭载设备等诸多约束，导致红外图像的获取容易受到成本和性能等因素的限制，不能满足实际应用需求；另外，受限于高昂的时间、人力、财力成本，外场实验次数有限且不全面。例如：1)在性能测试阶段，通常需要通过外场试验来对其目标跟踪能力、抗干扰能力和虚警率等性能指标进行测试与评估，但红外成像系统受试验环境和气象条件等因素的影响较大，依据单次外场试验的结果，难以对装备在不同作战环境和气象条件下的性能指标，作出客观精确的测试和评估，需要采用红外图像仿真技术来模拟战场环境和军事目标，进行多次可重复的测试试验；而为了保证红外装备能在战时发挥最大的作战效能，也需要生成大量军事目标，利用不同作战环境和气象条件下的红外仿真图像，对作战人员进行模拟训练；2)在红外相关设备的研制过程中，需要大量多种条件下的红外图像作为验证测试数据。而外场试验实拍红外图像需要耗费巨大的人力、物力，同时很难获得全时段红外图像。因此研究红外图像生成技术从而扩充红外数据具有重要的实际意义。

目前红外图像生成方法大致分为两大类：基于仿真模型的红外图像生成方法，以及基于深度学习的红外图像生成方法。

1、基于仿真模型的红外图像生成方法

红外图像仿真方式是采用红外仿真软件平台进行场景红外仿真，通过对目标场景进行分析，建模得到场景三维模型，然后根据红外辐射理论，计算场景不同材质的红外辐射分布，之后利用大气传输模型计算红外辐射到探测器的辐射衰减，最后模拟成像器成像特性，为红外辐射添加传感器成像效应后，进行灰度化，得到红外仿真图像。早在20世纪70年代，国外就通过外场试验结合理论建模对红外图像仿真技术展开了研究，先后研发出VegaPrime、SE Workbench等较为完善的红外视景仿真软件，但存在逼真度差、普适性不好的问题。国内红外视景仿真软件发展缓慢，主要以自建模型和依托仿真软件包建模渲染为主。21世纪，出现了许多成熟的红外仿真平台，极大的简化了红外图像仿真的过程，缩短了仿真周期。相比采用外场实拍红外图像的方式，红外仿真软件大大减少了实测成本，同时通过调整红外辐射分布模型参数、传感器参数，能够实现不同时段和不同波段的红外图像仿真。但是该方法存在着诸如目标温度模型仿真程度低、中间参数庞大、各系统耦合度高、处理过程繁琐等问题，不适用于快速生成大量红外图像。

2、基于深度学习的红外图像生成方法

近年来，深度学习技术异军突起，涌现出许多基于神经网络的仿真图像生成技术，GAN在图像到图像的翻译中取得了令人印象深刻的结果。到目前为止，生成图像保持着低质量和低分辨率的情况随着Pix2pix的出现发生了改变，掀起了图像翻译领域的一次彻底革命。2016年，Isola等人提出了一种新的图像生成网络框架Pix2pix，通过采用生成器和判别器的对抗损失和L1损失实现了成对可见光图像间的图像转换问题。之后，针对可见光图像生成对应的语义分割图，Wang等人提出了Pix2pixHD网络，通过设计多级生成器和多尺度判别器，在高分辨率图像翻译任务上取得了较好的结果。针对非配对图像域间的图像翻译问题，2017年，Zhu等人提出了CycleGAN网络，通过采用对偶式的生成器网络和循环一致损失，实现了非配对图像域间的相互转换。同年，Kim等人提出的DiscoGANBO和Yi等人提出的DualGANB1采用了与CycleGAN相似的网络结构，在图片上色和人脸内容编辑等方面得到了较好的结果。2018年，Liu等人提出了UNIT网络，将变分自动编码器与生成器结合，每个图像域都有各自的编码网络和生成器网络，并假定两个图像域编码网络的输出服从相同分布，以学习跨域图像的联合分布。2019年，Huang等人基于特征解耦的思想提出MUNIT网络，将图像编码为两部分，分别是与图像域无关的内容编码，以及图像域特征编码，通过将图像内容编码与不同的域特征编码组合，生成不同域图像。

然而，利用现有深度学习的方法生成的红外图像，在不同程度上存在纹理不清晰、结构缺失的问题。

发明内容

有鉴于此，本发明提出了一种基于改进的生成对抗网络的红外图像生成方法，本发明采用改进的CycleGAN网络模型实现异源图像迁移，不但解决了红外设备使用成本高，难以获得全时段红外图像的问题，还解决了现有方法生成的红外图像存在纹理不清晰、结构缺失的问题。

具体技术方案如下：

基于改进的生成对抗网络的红外图像生成方法采用CycleGAN网络结构，CycleGAN由两个生成器G、F和两个判别器D_x、D_y构成，生成器G用于将可见光图像转换为红外图像，生成器F用于将生成器G输出的红外图像转换为可见光图像，判别器D_x用于判断F的生成图像是否属于源域X；判别器D_y用于判断G的生成图像是否属于目标域Y；生成器G包括编码器和解码器；本发明对生成器G中的编码器进行了改进，在原有基础增加了CBAM注意力模块，在保证下采样和上采样后图像大小一致的条件下，改进后的编码器结构依次为多个由下采样模块和CBAM模块构成的基本单元，以及多个残差模块。

此外，对CycleGAN网络的整体损失函数进行了改进，增加了边缘损失和图像亮度损失，其中，边缘损失基于HOG特征，用于衡量合成的红外图像和真实的红外图像在结构形状上的距离，图像颜色损是用于提高生成图像与对应可见光图像之间温度相关性。

其中，边缘损失函数如下：

其中，GRA表示基于图像HOG特征向量得到的图像边缘特征向量，E表示数学期望，P_data为真实图像数据分布，G(x)为生成器G根据可见光图像x生成的红外仿真图像，y表示红外数据集Y中的图像样本，且x和y中包含相同类型的对象。

所述的图像亮度损失用于提高生成的红外图像与对应可见光图像之间，以及生成的可见光图像与对应红外图像之间的温度相关性，图像亮度损失函数如下，

其中，S表示红外强度。

进一步的，

S＝R*0.299+G*0.587+B*0.114

其中，R表示R通道的图像像素的亮度，G表示G通道的图像像素的亮度，B表示B通道的图像像素的亮度。

有益效果

1、本发明在编码器中增加了CBAM注意力模块，CBAM混合注意力机制是一种能对特征图像的重要局部特征进行聚焦的模块，核心思想是通过分配权重的方式模拟人类在视觉上选择性注意的行为。它通过自适应学习的方式在空间和通道上对特征图像进行权重分配，促使输出的特征图更倾向于重点关注的目标区域，从而实现对重点区域的特征加强。

2、本发明加入了边缘损失函数，提高了生成图像与对应可见光图像之间边缘相关性，使得生成的红外图像更接近于真实红外图像。

3、本发明加入了图像颜色损失函数，在一定程度上提高了生成图像与对应可见光图像之间温度相关性，使得生成的红外图像更接近于真实红外图像。

附图说明

图1为CycleGAN网络原理流程图；

图2为GAN网络原理流程图；

图3a为CBAM模块结构示意图；

图3b为通道注意力模块结构示意图；

图3c为空间注意力模块结构示意图；

图4为改进后的生成器G的结构示意图；

图5a为可见光图像；

图5b为利用本发明生成的红外光图像；

图5c为利用CycleGAN网络生成的红外光图像。

具体实施方式

本实施例用于说明本发明是如何生成红外图像的，

步骤1，构建改进后的CycleGAN网络；

改进的CycleGAN网络模型实现异源图像迁移，解决现有方法生成的红外图像在不同程度上存在纹理不清晰、结构缺失的问题。主要采用以下2种方式改进：1)基于CycleGAN网络结构生成器编码器部分下采样阶段采用了以卷积块和CBAM注意力模块为基本单元的级联设计模式，以此获得更加全面、重要的图像特征信息。2)在基于CycleGAN网络将可见光图像对红外图像进行生成时，为了保证生成的红外图像内容更逼真，采用了融合边缘损失和图像亮度损失，使得生成的红外图像更接近于真实红外图像。

以下介绍CycleGAN网络原理

作为GAN的衍生网络，CycleGAN继承了强大的生成能力。它的学习训练不依赖于任何输入和输出之间的相似关系，这样的优点能够使其在非成对数据集上进行训练，实用性较强。因此，本文选用CycleGAN作为基本结构，CycleGAN由两个生成器网络和两个判别器网络组成，并通过循环一致性损失将整体网络划分为两个GAN网络体系，CycleGAN逻辑框架如附图1所示：

GAN是一个生成式的对抗网络，对抗指的是生成器和判别器之间的相互博弈。生成器的目标是使生成样本最大程度上地逼近真实数据，判别器的目标是准确地将生成样本判断为假，真实样本判断为真。模型架构如附图2所示。输入z通常是服从某分布的随机噪音，经过生成器G生成假样本G(z)，判别器D判断G(z)是否服从真实数据的分布，G(z)为“真”则输出1，表示生成器已经能够拟合真实样本，否则输出0。生成器G相当于一个函数，通常建模成神经网络，理论上神经网络可以拟合任何函数，目的是实现随机输入向量到目标分布的映射。判别器其实相当于一个分类器，通常将判别器建模成神经网络。其网络结构如附图2所示。CycleGAN模型由两个生成器G、F和两个判别器D_x、D_y构成，生成器F将生成器G的输出图像转换到源图像域中，同样的，生成器G将生成器F的输出图像转换到目标图像域中，判别器D_x判断F的生成图像是否属于源域X，判别器D_y判断G的生成图像是否属于目标域Y。CycleGAN通过cycle-consistency loss衡量图像在这样一个环形转换中的损失。

以下详细描述修改后的生成器G

生成网络G使用了编码器、解码器作为基本框架。为了预防模式崩溃问题和加强编码阶段的信息提取能力，除使用多层残差模块加强特征提取能力以外，在下采样阶段采用了以卷积块和CBAM注意力模块为基本单元的级联设计模式，以此获得更加全面、重要的图像特征信息。通过此设计模式保证了网络对于多种重要特征信息的采样和学习，避免了生成图风格单一的问题。

CBAM混合注意力机制是一种成熟的、能对特征图像的重要局部特征进行聚焦的模块，核心思想是通过分配权重的方式模拟人类在视觉上选择性注意的行为。它通过自适应学习的方式在空间和通道上对特征图像进行权重分配，促使输出的特征图更倾向于重点关注的目标区域，从而实现对重点区域的特征加强。CBAM包含两个模块：通道注意力模块、空间注意力模块，输入特征依次通过上述两个模块后，最后会获得重标定的特征，即强调重要特征，压缩不重要特征。输入特征经过通道注意力模块得到通道注意力系数，与输入特征逐元素相乘得到中间特征，经过空间注意力模块得到空间通道系数，与中间特征相乘得到输出特征。输出特征的长、宽、通道数相较于输入特征不变。

如图4所示，修改后的生成器G由3个下采样模块、3个CBAM模块、9个残差模块以及3个上采样模块所组成，连接关系为图4所示。其中，下采样模块、CBAM模块和残差模块属于编码器部分，负责对输入图像的特征进行提取。上采样块属于解码器部分，负责对获取到的特征进行反卷积来生成输出图像。

步骤2、训练改进后的CycleGAN网络

本发明仅对损失函数进行了改进，训练过程没有变化。其中，关于判别网络结构，描述如下：

判别网络D的定义是将输入图像进行真假分类的二分类网络，输出值是0和1。在实际训练中为了更好的适配对抗性损失函数的公式，以及更快的收敛模型、提高生成网络和判别网络的能力，判别网络的输出往往是单个对图片预测为真的概率值。

其中，关于本发明采用的改进后的损失函数具体如下：

首先介绍CycleGAN网络改进前的总损失函数，具体如下，

对抗损失和循环一致损失只是保证生成的图像，在数据分布与风格方面与原始图像尽量保持一致，而忽略了图像中的特征一致性。一般地，可以通过优化损失函数来生成高质量的图像。在基于CycleGAN网络将可见光图像对红外图像进行生成时，为了保证生成的红外图像内容更逼真，融合了边缘损失和图像亮度损失，使得生成的红外图像更接近于真实红外图像。

模型训练过程中有两个损失函数，对抗损失和循环一致损失。前者尽可能让生成器生成的数据分布接近于真实的数据分布，后者用于保证两生成器可以实现互逆，即互相迭代回自身。设X、Y为可见光数据集和红外数据集，x表示可见光数据集中图像样本，y表示红外数据集中图像样本，对生成器G:X→Y和它的判别器D_Y，对抗损失函数为：

式中：E为数学期望；P_data为真实图像数据分布；D_Y(y)表示真实的红外数据库Y中的样本y在判别器D_Y中的评分，越接近1表示判别器认为此红外图像越真实。G(x)为生成器根据可见光图像x生成的，具有Y中红外图像特性的红外仿真图像，D_Y(G(x))表示判别器D_Y根据生成的红外仿真图像得到的评分，如果D_Y认为生成的红外仿真图像真实度越低，D_Y(G(x))越接近于0，1－D_Y(G(x))越接近于1。当判别器D_Y越强，即更能区分出真实的红外图像与生成器生成的红外仿真图像时，此损失函数值越大，而生成器G希望尽可能生成以假乱真的红外仿真图像以欺骗判别器，即希望此损失函数值越小越好。同理生成器F:Y→X和它的判别器D_x对抗损失函数也是如此：

循环一致损失函数是CycleGAN的核心，也是实现无配对图像相互转换的核心，为了尽可能保证循环一致性。Lcyc设定为两个相似的结构:

式中：||·||1表示l范数。综上所述，CycleGAN网络的总损失函数为:

L_CycleGAN＝L_GAN(G,D_Y,X,Y)+L_GAN(F,D_x,Y,X)+λL_cyc(G,F)

式中：λ为平衡对抗损失和循环一致损失的权重，一般取10。

为了使可见光图像生成的红外图像更加接近真实红外图像，本发明对改进前的总损失函数进行了改进，具体如下：

图像中目标对象的形状是有边界的，边缘勾勒出目标的轮廓，方向梯度直方图特征是计算机视觉和图像处理领域常用来检测物体的一种特征描述子，通过统计图像局部的梯度方向，得到目标的边缘信息。首先要对图像进行预处理，进行灰度化和伽马校正，调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时抑制噪音的干扰；计算像素点梯度用来获得目标的轮廓信息，计算梯度直方图,归一化后计算图像的HOG特征向量。基于HOG特征衡量合成的红外图像和真实的红外图像在结构形状上的距离及合成的可见光图像与真实的可见光图像在结构形状上的距离。

其中:GRA表示基于图像HOG特征向量得到的图像边缘特征向量

图像强度表示单通道的图像像素值的大小，例如灰度图像每个点像素值，而在RGB颜色空间中，可以理解为三个通道R、G、B各自有一个图像强度。也就是说RGB图像含三个图像强度。红外图像是基于反射成像的原理，依靠热红外传感器接收物体反射回来的辐射进行成像，那么红外图像呈现出的强度值就必然与物体反射的辐射量相关，也就是物体当时的温度。

S＝R*0.299+G*0.587+B*0.114

其中，R表示R通道的图像像素的亮度，G表示G通道的图像像素的亮度，B表示B通道的图像像素的亮度；

通过向目标函数加入图像强度可以一定程度上提高生成图像与对应可见光图像之间温度相关性.即可算出红外图像的图像强度。

综上所述，改进后的损失函数具体如下：

L′_CycleGAN＝L_CycleGAN+L_GRA(G)+L_S(G)

步骤3、训练完成后，利用可见光图像生成红外图像。

图5a为输入的可见光图像，图5b为利用本发明生成的红外图像，图5c为利用CycleGAN网络生成的红外光图像，由图可见，利用本发明生成的红外图像质量更好。

为了证明损失函数本文经过改进之后的有效性，利用图像质量评价指标SSIM和PSNR定量评估生成红外图像的质量，如表1所示，可知当仅融入边缘损失和仅融入图像强度损失时，生成红外图像的PSNR、SSIM显著提高。

表1两模型FSNR及SSIM结果

Claims

1.基于改进的生成对抗网络的红外图像生成方法，基于CycleGAN网络，其包括两个生成器G、F，生成器G用于将可见光图像转换为红外图像，生成器F用于将生成器G输出的红外图像转换为可见光图像，生成器G包括编码器和解码器，其特征在于：利用改进后的CycleGAN网络，由可见光图像生成红外图像，改进之处包括两点：在所述编码器中增加了CBAM注意力模块，编码器的下采样阶段采用了以卷积块和CBAM注意力模块为基本单元的级联设计模式；将可见光图像对红外图像进行生成时，增加了融合边缘损失和图像亮度损失，使得生成的红外图像更接近于真实红外图像。

2.根据权利要求1所述的基于改进的生成对抗网络的红外图像生成方法，其特征在于：在保证下采样和上采样后图像大小一致的条件下，改进后的编码器依次包括多个由下采样模块和CBAM模块构成的基本单元，以及多个残差模块。

3.根据权利要求1或2所述的基于改进的生成对抗网络的红外图像生成方法，其特征在于：所述的边缘损失基于HOG特征，用于衡量合成的红外图像和真实的红外图像及合成的可见光图像与真实的可见光图像在结构形状上的距离，边缘损失函数如下：

4.根据权利要求1或2或3所述的基于改进的生成对抗网络的红外图像生成方法，其特征在于：所述的图像亮度损失用于提高生成的红外图像与真实的红外图像之间，以及生成的可见光图像与真实的可见光图像之间的温度相关性，图像亮度损失函数如下，

其中，S表示红外强度。

5.根据权利要求4所述的基于改进的生成对抗网络的红外图像生成方法，其特征在于：

S＝R*0.299+G*0.587+B*0.114