CN113283444B

CN113283444B - 一种基于生成对抗网络的异源图像迁移方法

Info

Publication number: CN113283444B
Application number: CN202110340836.6A
Authority: CN
Inventors: 任利; 王磊; 陈宗信; 莫超杰; 贾宇明; 许文波
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-07-15
Anticipated expiration: 2041-03-30
Also published as: CN113283444A

Abstract

本发明公开了一种基于生成对抗网络的异源图像迁移技术，属于图像生成技术领域。其具体步骤为：S1红外与可见光图像数据集的选取与制作；S2基于所提出生成对抗网络架构STVGAN，对网络模型循环训练。S3减少网络模型中总损失函数的值，得到训练好的生成器网络；S4通过训练好的生成器网络实现从红外图像到可见光图像的迁移。本发明是一种半监督学习的异源图像迁移算法，是半监督学习方法首次应用在异源图像迁移领域，相较于传统监督方法，仅需要部分配对的数据就可以达到更好的图像迁移效果。

Description

一种基于生成对抗网络的异源图像迁移方法

技术领域

本发明属于图像生成技术领域，具体涉及基于生成对抗网络的异源图像迁移技术。

背景技术

远红成像设备可以感应物体热量产生的热红外辐射而不依赖与光照反射，红外设备可以在夜间很好地工作，使之在军事制导，安防监控，自动驾驶等领域广泛应用。随着红外成像设备分辨率的提高，价格的下降，红外成像方式越来越受欢迎，然而红外图像反映的是物体的温度信息，相较于可见光图像视觉上难以被直观理解，如果能将红外图像转换为可见光图像，红外图像将能够正真辅助人眼进行夜间观察，在军事，安防，民用领域将会产生巨大的价值。

现有的红外可见光图像迁移技术主要基于图像翻译模型的改进，可以分为基于监督学习的方法和无监督学习方法两类。这两种学习方法的差异是使用的数据集不同，基于监督学习方法使用成对的标注数据集，数据集的中的图像对为同一场景的红外图像和可见光图像取景，而基于无监督学习方法所需训练集无需红外图像与可见光图像之间一一对应。监督学习方法中，数据集的场景相对单一，很多图像为相邻帧，使得训练产生过拟合影响了模型泛化能力。基于监督学习的图像迁移算法训练中往往容易产生过拟合，在训练集和测试集上的生成效果有较大的区别。无监督学习方法不依赖配准的红外可见光图像对，训练数据易于获取，但是实验中生成图像质量没有达到最先进的监督模型的效果。

红外图像迁移是一个具有很高的应用价值同时充满挑战性的研究任务，当前国内外异源图像迁移技术研究尚处于起步阶段，主要存在以下难点：

第一，相较于红外可见光图像之间的转换，对灰度图像着色是一个相对成熟研究方向。在灰度图像作色的任务中已知图像的亮度信息，而仅需估计图像对应像素的色度信息，而红外图像的亮度反映的是物体温度，可以理解为一种特殊的语义信息，红外可见光图像转换需要同时估计像素亮度和色度信息，不确定性更多，也更加困难。

第二，红外图像域的图像与可见光图像域中的图像并不满足一对一或多对一的映射条件，反之亦然。理论上红外图像到可见光图像的概率分布是多峰的，很多转换有多种不同的正确结果。例如红外图像中公路上有一辆汽车，我们仅知道它是一辆行驶中的汽车，根据红外图像的亮度无法准确推断汽车的颜色，训练的模型只能根据训练集中汽车颜色的分布去推断颜色从而着色，这对模型着色的准确性提出了很大的挑战。

第三，适用于红外可见光转换任务数据集非常稀缺，KAIST-MS交通场景数据集是相对适合训练任务的数据集。由于可见光波段和红外波段具有不同的反射率，即使是配对的红外图像和可见光数据集的图像也不是严格像素匹配的，统计表明在水平和竖直方向上平均有四到五个像素的偏差。

发明内容

本发明的目的在于将红外图像迁移为可见光图像，提出一种基于半监督学习的异源图像迁移算法STVGAN。STVGAN是半监督学习方法首次应用在异源图像迁移领域。

本发明改进的基于生成对抗网络的异源图像迁移方法，包括下列步骤：

步骤1：红外与可见光数据集的选取与制作，分为监督学习数据集和无监督学习数据集；

步骤101：监督学习数据集的选取与制作，监督学习数据集中的图像是匹配成对的红外图像和可见光图像，两者一一对应；

步骤102：无监督学习数据集的选取与制作，无监督学习数据集包含可见光图像和红外图像两个独立的集合，它们之间并不是一一匹配的关系。

步骤2：基于半监督学习的生成对抗网络架构STVGAN，实现了红外图像与可见光图像之间的有效迁移：

其中生成对抗网络架构STVGAN的具体步骤为：

步骤201：首先通过基于编解码模型的生成器X将红外图像迁移为可见光图像，生成器由编码网络E与解码网络G组成，编码器负责将红外域特征转化为潜空间向量，解码器将潜空间向量转化为可见光图像；

步骤202：将生成的可见光图像通过判别网络模块的多尺度判别器进行判别，计算对抗损失函数；

步骤203：将生成的可见光图像通过生成器Y将可见光图像迁移为红外图像，计算循环损失函数；

步骤204：将可见光图像依次输入生成器Y，多尺度判别器，生成器X，计算对应的对抗损失函数，循环损失函数；

步骤205：先在少量监督学习数据集上预训练网络模型，再在大量无监督学习数据集上利用循环一致性原理进行无监督训练。

步骤3：减少生成对抗网络架构STVGAN中总损失函数的值，获取训练好的生成器网络；

STVGAN训练降低总损失函数的值，获取生成器网络的具体步骤为：

步骤301：监督训练时损失结合了内容损失，感知损失，对抗损失和循环损失；

步骤302：无监督训练时损失包括对抗损失和循环损失；

步骤303：将监督训练损失和无监督训练损失结合，构成复合损失函数。减少总损失函数的值，经过训练，得到训练好的生成器网络。

步骤4：使用生成对抗网络架构STVGAN中的生成器网络，将红外图像迁移为可见光图像。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)相较于当前监督学习图像迁移算法，STVGAN在未配对数据集的基础上仅需要部分配对的数据就可以达到更好的图像迁移效果，解决异源图像迁移中标注数据样本不足导致的模型过拟合问题。

(2)提出了基于编解码网络的生成网络模型，迁移了resnet101网络的layer1层，layer2层作为网络的特征提取模块，提升了训练的效率；提出了基于注意力机制的残差密集块，提高了网络的特征提取能力和图像还原能力。

(3)STVGAN算法较其他常用的图像迁移算法迁移效果更加出色。具体表现为，STVGAN算法迁移得到的图像更加接近真实可见光图像，并且减少了不该存在的噪声伪影。

附图说明

图1为红外与可见光图像训练数据集样例图；

图2为生成对抗网络架构STVGAN示意图；

图3为生成器网络结构示意图；

图4为判别网络结构参数设置图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的目的在于将红外图像迁移为可见光图像，相较于当前监督学习图像迁移算法，STVGAN在未配对数据集的基础上仅需要部分配对的数据就可以达到更好的图像迁移效果。

本具体实施方式中，数据集的选取与制作分为监督学习数据集和无监督学习数据集，监督学习数据集中的图像是匹配成对的红外图像和可见光图像，无监督学习数据集包含可见光数据和红外数据两个独立的集合，它们之间并不是一一匹配的关系。训练数据集图像样例如图1所示。首先在少量监督学习数据集上预训练网络模型，再在大量无监督学习数据集上利用循环一性原理进行无监督训练，这样能有效防止监督学习训练集容易产生过拟合的问题。

本具体实施方式中，基于所提出生成对抗网络架构STVGAN框架，如图2所示，利用循环一致性原理，模型训练了两个生成器GeneratorX，GeneratorY，GeneratorX输入红外图像生成可见光图像，GeneratorY输入可见光图像生成红外图像，判别器DiscriminatorA和DiscriminatorB分别判别图像是否是红外图像或可见光图像。网络结合了对抗损失，循环一致性损失，内容损失，感知损失。

本具体实施方式中，生成器网络结构如图3所示，生成器网络结构由编码网络E与解码网络G组成，编码器负责将红外域特征转化为潜空间向量，解码器将潜空间向量转化为可见光图像。编码器由resnet101特征提取网络串联五个密集残差块加双注意力模块构成，解码器由步长卷积，基于注意力机制的密集残差网络构成。图像转换网络没有使用任何的池化层或全连接层，使用步长卷积和反卷积作为网络模型下采样和上采样的方式。除了输出层之外，所有的卷积层后面都有一个BN层和ReLU，输出层使用tanh缩放保证像素输出范围为[0,255]。

图像迁移网络的输入和输出都是3×512×512的三通道图像。即使是可以单通道显示的红外图像仍然采用了三通道作为输出结果。因为网络架构需要训练红外转可见光和可见光转红外两个迁移网络，这样做是为了保证网络结构的对称性可以降低后续工作的复杂性。由于迁移网路是全卷积网络，可以适应任何分辨率大小的图像转换任务。

对于采样系数为f的下采样或上采样，使用〖log〗_2f个步长为2或1/2的卷积层。不同于分数步长卷积，双残次插值对分辨输入进行上采样，然后将其传递给网络。分数步长卷积不依赖于固定的采样函数，可以在训练的过程中进行调整，采样网络可以和网络中其他部分一起学习。

图像迁移网络首先使用两个步长为2的卷积层下采样输入四个残差块，再使用两个步长为1/2的卷积层上采样。虽然输入输出具有相同的大小，使用这样的网络结构具有以下好处。

首先是降低计算量。例如，对一个输入大小为C×H×W的输入进行3×3的卷积计算，输出的通道数同样为C，一共需要9HWC2次乘法计算。而在完成采样因子为D的下采样后，同样的网络结构仅需要9HWC2/D2次计算，节省了D2倍的计算量。

第二是扩大感受野。图像迁移需要大的感受野来获取图像的全局特征，保证输出的全局一致性。输出的像素具有的感受野越大，图像输出质量越高。在完成D采样因子的下采样后，同样大小的卷积核的感受野面积扩大了D2倍。

本具体实施方式中，残差网络适用于训练很深的网络，残差网络在目标检测识别上具有很好的效果。此外红外图像与可见光图像结构上具有相似性，共享相似的边缘特征和一些局部纹理特征，因此迁移网络结构的主体采用了残差网络设计。我们网络在特征提取和上采样中使用了大量的这样残差结构。残差块使用注意力机制来优化残差结构，在网络中的密集残差块之后加入注意力机制，对残差网络所得到的特征图进行处理，最后将加权的结果输入到网络的下一层。

基于注意力机制的残差网络模块结合了空间(spatial)和通道(channel)的注意力机制模块，相比于SENET只关注通道(channel)的注意力机制可以取得更好的效果。输入SCAM对网络中的中间特征F∈R^(C×H×W)进行处理,过程如下：

F′＝M_c(F)⊙F (1)

F″＝M_s(F′)⊙F′ (2)

这里⊙表示逐元素乘法，F是输入的原始特征图，F′为结合了通道注意力机制的特征图，F′接着被输入到空间注意力模块，最终的输出F″融合了通道注意力值和空间注意力值。下面将描述两种注意力机制的细节。

通道注意力模块。一般来说，特征图中每一个通道都代表一个特征检测器的输出，通道注意力机制关注于什么特征对于网络的输出是更有意义的，更有意义的通道分配更大的权重同时也对模型的输出产生更积极的影响。为了降低通道注意力模块的计算量，首先我们需要对输入的特征压缩空间维度，将特征图压缩为一个1×1×C的特征向量，通过处理后的特征向量分析通道之间的潜在关系。为了保留更多的特征信息，我们使用了平均池化加最大池化两种方式压缩空间维度。

通道注意力模块中有两条路径，一条路径使用平均池化层压缩空间维度，一条路径使用最大池化层压缩维度。输入的特征图通过两个池化层获得两个通道特征向量:F_avg,F_max。紧接着两个通道特征向量通过一个权重共享的全连接层，最后对两条路径的全连接层的输出融合并计算最终的通道注意力图谱M_c(F)，计算过程如下：

M_c(F)＝Sigmod(MLP(AvgPool(F)+MaxPool(F))) (3)

空间注意力模块：可以利用特征的空间关系生成空间注意力图，与通道注意力机制不同的是，空间注意力聚焦于特征图中哪个位置具有信息量更大。与通道注意力机制相似，首先对特征进行压缩，将输入的特征压缩W×H×1。除了采用最大池化和平均池化，还使用了1*1的将输入的特征的通道数减小到1。这里的池化操作不同于通道注意力模块中介绍的池化层，而是沿着通道的维度进行池化，通过池化和1乘1卷积降维，我们可以估计出特征图中的“重要”位置。计算过程公式表述如下。具体操作细节如下：

首先我们通过两种池化操作和1×1卷积操作对特征图通道信息进行聚合，生成三个二维特征图F_avg,F_max,F_cov1×1，分别表示平均池化特征，最大池化特征，卷积降维特征。连接这三个特征图通过一个标准卷积操作生成空间注意力图谱，公式表述如下：

M_s(F)＝Sigmod(cov^7×7(Concatenate(AvgPool(F)；MaxPool(F)；cov^1×1(F)))) (4)

为了保证生成图像不仅仅细节上准确性还具有很好的全局一致性，输出的像素要求具有较大的感受野。提高判别器模型的感受野有两种基本的方式，采用更大的卷积核或者更深的网络结构，这两者都会导致模型的膨胀从而增加过拟合的风险，同时也将消耗更多的显存空间，显存是我们提出的半监督生成对抗网络架构的稀缺资源，因为我们需要同时训练可见光转红外和红外转可见光两个生成模型和判别模型。

我们采用了多尺度判别器设计，共有三个判别器D1，D2，D3，它们共用相同网络模型结构和参数，在不同的尺度下工作，分别输入原始图像和原始图像的两倍四倍下采样图像，最终去D1,D2,D3判别结果加权平均作为最终结果。虽然使用相同的网络模型，但是他们在判别图像真伪过程发挥了不同的作用，工作在判别器关注于全局特征的一致性，而较高分辨率图像输入判别器关注于纹理细节的真实性。

多尺度判别器模型下，原学习问题变成了一个多任务学习模型：

STVGAN判别网络模型相较于生成模型并没有采用复杂的结构和庞大的规模，测试发现复杂的判别模型的学习能力较强，判别网络很快收敛到极值附近同时也降低了判别网路自身对生成网络的指导价值，卷积层5后连接了一个大小为3×3的平均池化层，除了最后的卷积层外每个卷积层后连接一个InstanceNorm层和LeakyRelu激活函数。

本具体实施方式中，针对于半监督学习的网络训练架构，我们提出了一种复合损失函数，融合了内容损失函数，感知损失函数，对抗损失函数，循环损失函数。

损失函数的设计会很大程度地影响红外可见光图像迁移的质量，单独使用基于像素的均方损失不能很好的指引图像的合成，合成的图像易产生模糊，边缘细节丢失，过拟合等问题。

逐像素均方误差损失被广泛应用于各种图像合成的任务中，在监督训练中它可以像素级激励网络合成与目标图像完全一致的图像。本网络的内容损失函数使用了平均绝对误差损失(MAE)，而没有采用大多数网络所采用的均方误差损失函数(MSE)作为损失函数。

内容损失鼓励生成图像具有高的PSNR值，同时也会导致生成图像模糊而缺乏细节，我们使用对抗损失鼓励网络合成更加真实的图像。在生成对抗网络中，生成器和判别器的训练过程是一个相互博弈的过程。我们训练一个判别器去鉴别图像是合成的图像还是真实的图像，同时训练生成器去生成出能够欺骗判别器的图像，最终生成器和鉴别器之间形成一个均衡状态，使得网络合成的图像变得真假难分。

无监督训练使用没有任何关联的红外可见光图像对作为训练的数据集，因此无法像监督训练一样使用内容损失指引图像的合成。我们引入循环损失解决这个问题，STVGAN同时训练了两个生成器G1，G2，生成器G1将红外图像转换为可见光图像，生成器G2将可见光图像转化为红外图像。循环一致性原理表明，给定一张红外图像X，生成器G1将红外图像转化为可见光图像后再输入网络G2，图像X应该被还原,反之依然：

与内容损失一样，循环损失函数使用平均绝对误差作为度量函数，循环公式如下：

使用对抗损失容易产生变形的纹理，我们使用感知损失来缓解这个问题。此外我们希望生成的图像不仅可以欺骗人的视觉，无法被判别器识别真伪，还希望生成的图像具有正确的语义信息，生成的图像作为数据增强的一种方式扩充数据集，提高检测识别任务的识别率。

其中θ_k是特征提取网络VGG16的第k层特征向量，C_kW_kH_k为第K层特征向量的维度大小。

总损失函数包括监督损失，无监督损失两个部分，监督损失结合了内容损失，感知损失，对抗损失和循环损失，无监督损失包括对抗损失和循环损失。与以往的监督学习方式不同的是，不仅在无监督学习中使用循环损失函数，还在监督学习也使用了循环损失，消融实验表明监督学习中使用循环损失函数使得模型在测试集上的效果更好，降低模型过拟合的风险。

Claims

1.一种基于生成对抗网络的异源图像迁移的方法，其特征在于，包括下列步骤：

步骤102：无监督学习数据集的选取与制作，无监督学习数据集包含可见光图像和红外图像两个独立的集合，它们之间并不是一一匹配的关系；

步骤2：基于半监督学习的生成对抗网络架构STVGAN，实现了红外图像与可见光图像之间的有效迁移；

其中生成对抗网络架构STVGAN的具体步骤为：

步骤205：先在少量监督学习数据集上预训练网络模型，再在大量无监督学习数据集上利用循环一致性原理进行无监督训练；

步骤302：无监督训练时损失包括对抗损失和循环损失；

步骤303：将监督训练损失和无监督训练损失结合，构成复合损失函数，减少总损失函数的值，经过训练，得到训练好的生成器网络；

2.如权利要求1所述方法，其特征在于，步骤2中的半监督图像迁移网络架构。

3.如权利要求1所述方法，其特征在于，步骤2中多尺度判别网络设计。

4.如权利要求1所述方法，其特征在于，步骤3中的复合损失函数，融合了对抗损失，内容损失，感知损失，循环损失。