CN111833282A

CN111833282A - 一种基于改进的DDcGAN模型的图像融合方法

Info

Publication number: CN111833282A
Application number: CN202010528747.XA
Authority: CN
Inventors: 毛雅淇
Original assignee: Individual
Current assignee: Northwestern Polytechnical University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-27
Anticipated expiration: 2040-06-11
Also published as: CN111833282B

Abstract

本发明公开了一种基于改进的DDcGAN模型的图像融合方法，引入了残差图像作为生成器的输入，且增加了残差图像判别器，不断地对原始残差图像和融合图像进行判别，我们的融合过程更好的保留了红外和可见光图像有差异的部分，在融合图像中表现为：红外图像的热辐射信息得到了保留和增强，物体与背景之间的对比度高于红外图像中的原始对比度，这更有利于后续的目标检测；可见光图像中的纹理细节得到了更大程度的保留，这同样对后续的目标检测和识别精度的提高有很大益处；由于生成器的损失函数部分引入了感知损失以考虑感知相似度，可以同时提取到红外图像与可见光图像中的高级特征，这使得融合图像的自然结构不会被破坏。

Description

一种基于改进的DDcGAN模型的图像融合方法

技术领域

本发明涉及图像融合技术领域，具体涉及一种基于改进的DDcGAN模型的图像融合方法。

背景技术

图像融合，目的是将更多自然环境中的信息呈现在同一幅图像中，尽可能地展现与物体固有真实情况相似的结果。红外与可见光图像融合的目的是，将红外传感器捕获到的红外辐射图像与可见光传感器捕获到的可见光图像相融合，生成稳健或信息丰富的图像，同时获取红外辐射信息和纹理特征信息。其中红外图像包含热辐射信息，而可见光图像包含反射光信息，两者都是物体固有的，又可互为补充，更好的表达真实的场景，大幅提高了图像的可理解度，即使在照明条件差的情况下，热目标也可以通过高对比度突出显示。因此，红外与可见光图像融合在军事和民用的视觉感知、图像处理、目标检测和识别等领域发挥着重要作用。

图像融合的关键是提取源图像中的重要信息并进行融合。为此，研究人员提出了多种特征提取策略和融合规则，如基于多尺度变换的方法、稀疏表示方法、子空间、显著性、混合方法等。这些工作虽然取得了良好的效果，但也存在一些不足之处：

1)在传统方法中，手工设计的规则使得方法越来越复杂。

2)基于深度学习的方法专注于特征的提取和保存，而没有考虑到特征在后续处理和应用中的增强。

3)由于硬件的限制，红外图像的分辨率往往较低。对可见光图像进行下采样或对红外图像进行上采样的方法会导致图像的辐射信息模糊或纹理细节丢失。

为了应对上述问题，DDcGAN(Dual Discriminators Conditional GenerativeAdversarial Network)应运而生，其是由马佳义等人于2020年正式提出的，发表于https://ieeexplore.ieee.org/document/9031751，然而，其所采用的对训练集图像随机的分块的方式很可能会破坏图像的特征，即连续的详细纹理信息和热辐射分布信息。而且，对于低分辨率的红外图像，这种方法依然会导致图像细节丢失。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于改进的DDcGAN模型的图像融合方法，该方法解决了现有技术存在的红外与可见光图像融合图像目标不够突出，纹理信息不够丰富的问题。

技术方案：本发明提出基于改进的DDcGAN模型的图像融合方法，包括训练阶段和测试阶段，所述训练阶段包括以下步骤：

(1)提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像，判断所述原始红外图像和原始可见光图像的分辨率是否相同，若相同，则直接进入步骤3，否则，进入步骤2；

(2)将所述原始红外图像经过一层反卷积层处理，得到使其与可见光图像分辨率相同的红外图像，将处理后的红外图像和可见光图像做像素差，得到对应数据的残差图像后，转到步骤4；

(3)将原始红外图像和可见光图像做像素差，得到对应数据的残差图像，转到步骤4后；

(4)将原始红外图像、原始可见光图像以及残差图像进行张量拼接，并将输出输入到生成器中得到融合图像；若待处理图片对应的红外图像和可见光图像的分辨率相同，则转到步骤6，否则，转到步骤5；

(5)将步骤4得到的融合图像利用平均池化层进行下采样操作，得到采样后的融合图像，与原始红外图像轮流输入至红外判别器，将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器，与残差图像轮流输入至残差判别器；

(6)将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器，与残差图像轮流输入至残差判别器；

(7)训练过程使生成器的损失函数、各个判别器的损失函数尽量小，迭代步骤1-6直至训练到设置的迭代次数，从而得到训练好的改进的DDcGAN网络模型；

测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中，得到各个测试数据的融合图像。

进一步的，包括：

所述红外判别器、可见光判别器以及残差判别器的结构相同，均包括三个卷积层和批标准化层的累积，最后一个批标准化层的输出作为全连接层的输入，全连接层的输出经过一个tanh激活函数，最终输出一个标量。

进一步的，包括：

所述生成器包括编码器和解码器，所述编码器包括为5个卷积模块组成，每个卷积模块依次包括卷积层、批标准化层和线性整流单元，其中，每一个卷积层的输入，都是前面所有线性整流函数的输出的通道连接，最后，将五个线性整流单元的输出进行连接送入解码器，解码器为四个卷积层、批标准化、线性整流单元这一结构的累积，将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构，最后输出融合图像。

进一步的，包括：

所述生成器的损失函数包括内容损失函数、对抗损失函数以及感知损失函数，表示为：

其中，

为对抗损失函数，L_con为内容损失函数，L_VGG为感知损失函数，μ为对抗损失对应的权重，λ为内容损失函数对应的权重。

进一步的，包括：

所述各个判别器的损失函数分别表示为：

可见光判别器的损失函数：

其中，E[]为对括号中内容求期望值，

代表可见光图像的梯度，

代表融合图像的梯度，

为输入可见光判别器的可见光图像为真实可见光图像的概率，

为输入可见光判别器的融合图像为真实可见光图像的概率。

红外判别器的损失函数：

其中，D_i(i)为输入红外判别器的红外图像为真实红外图像的概率，D_i(G(v，i))为输入红外判别器的融合图像为真实红外图像的概率。

残差判别器的损失函数：

其中，D_d(d)为输入残差判别器的残差图像为真实残差图像的概率，D_d(G(v，i))为输入残差判别器的融合图像为真实残差图像的概率。

进一步的，包括：

所述原始红外图像和原始可见光图像的分辨率不同时，各个判别器的损失函数分别表示为：

可见光判别器的损失函数：

其中，E[]为对括号中内容求期望值，

代表可见光图像的梯度，

代表融合图像的梯度，

为输入可见光判别器的融合图像为真实可见光图像的概率。

红外判别器的损失函数：

其中，D_i(i)为输入红外判别器的红外图像为真实红外图像的概率，D_i(ψG(v，i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率。

残差判别器的损失函数：

进一步的，包括：

所述原始可见光图像的分辨率与原始红外图像的分辨率不同具体是原始可见光图像的分辨率是红外图像的4×4倍。

有益效果：(1)本发明引入了残差图像作为生成器的输入，且增加了残差图像判别器，不断地对原始残差图像和融合图像进行判别，我们的融合过程更好的保留了红外和可见光图像有差异的部分，在融合图像中表现为：红外图像的热辐射信息得到了保留和增强，物体与背景之间的对比度高于红外图像中的原始对比度，这更有利于后续的目标检测；可见光图像中的纹理细节得到了更大程度的保留，这同样对后续的目标检测和识别精度的提高有很大益处；(2)由于生成器的损失函数部分引入了感知损失以考虑感知相似度，可以同时提取到红外图像与可见光图像中的高级特征，这使得融合图像的自然结构不会被破坏。

附图说明

图1是本方法所述的情况一时的融合方法流程图；

图2是本方法所述的生成器的结构示意图；

图3是本方法所述的判别器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于改进的DDcGAN模型的图像融合方法，包括训练阶段和测试阶段，训练阶段包括以下步骤：

步骤1、提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像，判断所述原始红外图像和原始可见光图像的分辨率是否相同，若相同，则直接进入步骤3，否则，进入步骤2；

步骤2、将所述原始红外图像经过一层反卷积层处理，得到使其与可见光图像分辨率相同的红外图像，将处理后的红外图像和可见光图像做像素差，得到对应数据的残差图像后，转到步骤4；

步骤3、将原始红外图像和可见光图像做像素差，得到对应数据的残差图像，转到步骤4后；

步骤4、将原始红外图像、原始可见光图像以及残差图像进行张量拼接，并将输出输入到生成器中得到融合图像；若待处理图片对应的红外图像和可见光图像的分辨率相同，则转到步骤6，否则，转到步骤5；

步骤5、将步骤4得到的融合图像利用平均池化层进行下采样操作，得到采样后的融合图像，与原始红外图像轮流输入至红外判别器。将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器，与残差图像轮流输入至残差判别器；

步骤6、将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器，与残差图像轮流输入至残差判别器；

步骤7、训练过程使生成器的损失函数、各个判别器的损失函数尽量小，迭代步骤1-6直至训练到设置的迭代次数，从而得到训练好的改进的DDcGAN网络模型；

本申请在利用DDcGAN进行红外与可见光图像融合的基础上，引入残差图像作为网络的输入，增加一个残差图像判别器，同时结合多个损失函数，不需要真值进行训练，就可以融合不同分辨率的红外与可见光图像。我们可以同时突出目标和保留纹理信息，增强红外图像和可见光图像的差异性部分，在融合图像中保留最有价值的信息，解决现有的红外与可见光图像融合图像目标不够突出，纹理信息不够丰富的问题，具体的，本申请将原始红外图像和原始可见光图像分辨率相同和不同进行区分，并分别介绍。

情况一：红外和可见光图像分辨率相同

a.整体流程

如图1所示，给定分辨率相同的红外图像i和可见光图像v，最终目标是学习以它们为条件的生成器G，并鼓励生成的图像G(v,i)足够实际和有用，以欺骗判别器。可见光图像和红外图像做像素差，生成二者的残差图像，将三者进行张量拼接后作为生成器的输入，张量拼接采用的是Pytorch框架中的torch.concat函数。

D_v经过训练以区分融合图像与原始可见光图像v，D_i经过训练以区分融合图像与红外图像i，D_d则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡，将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断，其输出是标量，表示输入是原始数据不是生成器G生成的概率。

通过生成器G和三个判别器的对抗过程，P_G和三个实际分布(即P_V、P_I、P_D)之间的差异将同时变小，其中，P_G是生成样本的概率分布，P_V是可见图像的真实分布，P_I是红外图像的分布，P_D是残差图像的分布。当设定的损失函数小于某个值，或迭代次数达到某个值后，训练停止，取出生成器的输出即为我们需要的融合图像。

b.生成器结构

如图2所示，生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积，其中，每一个卷积层的输入，都是前面所有线性整流函数的输出的通道连接，最后，将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积，将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数，最后输出融合图像。编码器中执行的是特征的提取和融合过程，生成融合的特征图作为其输出。然后将特征图输入到解码器中进行重构，且其所生成的融合图像具有与可见光图像相同的分辨率。

c.判别器D_v结构

如图3所示，采用三个“卷积层—>批标准化”这一结构的累积，最后一个批标准化层的输出作为全连接层的输入，全连接层的输出经过一个tanh激活函数，最终输出一个标量，这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。

d.判别器D_i结构

网络结构与判别器D_i相同，tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是生成器生成的图像的概率。

e.判别器D_d结构

网络结构与判别器D_v、D_i相同，tanh函数的输出标量代表输入此判别器的图像是真实残差图像而不是生成器生成的图像的概率。

f.损失函数

(1)生成器

①内容损失：

②对抗损失：

③感知损失：

④总损失：

其中，αβ均为设定的权重，μ为对抗损失对应的权重，λ为内容损失函数对应的权重。

(2)判别器

可见光判别器的损失函数：

其中，E[]为对括号中内容求期望值，

代表可见光图像的梯度，

代表融合图像的梯度，

为输入可见光判别器的融合图像为真实可见光图像的概率。

红外判别器的损失函数：

残差判别器的损失函数：

情况二：可见光图像分辨率是红外图像的4×4倍

a.整体流程

给定分辨率较小的的红外图像i和分辨率较大的可见光图像v，最终目标是学习以它们为条件的生成器G，并鼓励生成的图像G(v,i)足够实际和有用，以欺骗判别器。由于红外图像的分辨率较低，需要让其通过一个反卷积层，该层会生成具有相同分辨率的特征图，从而统一可见光与红外的分辨率。可见光图像和经过反卷积后与其同分辨率的红外图像做像素差，生成二者的残差图像，将三者进行张量拼接后作为生成器的输入。

D_v经过训练以区分融合图像与原始可见光图像v；D_i经过训练以区分利用平均池化下采样后的融合图像与原始低分辨率红外图像i，下采样算符表示为ψ，由两个平均池化层实现，这两层的核尺寸为3×3，步长为2；D_d则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡，将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断。其输出是标量，表示输入是原始数据不是生成器G生成的概率。

通过生成器G和三个判别器的对抗过程，P_G和三个实际分布(即P_V、P_I、P_D)之间的差异将同时变小。其中，P_G是生成样本的概率分布，P_V是可见图像的真实分布，P_I是红外图像的分布，P_D是残差图像的分布。当设定的损失函数小于某个值，或迭代次数达到某个值后，训练停止，取出生成器的输出即为我们需要的融合图像。

b.生成器结构，与情况一相同

生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接后送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积，其中，每一个卷积层的输入，都是前面所有线性整流函数的输出的通道连接，最后，将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积，将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数，最后输出融合图像。编码器中执行的是特征的提取和融合过程，生成融合的特征图作为其输出。

c.判别器D_v结构，与情况一相同

采用三个“卷积层—>批标准化”这一结构的累积，最后一个批标准化层的输出作为全连接层的输入，全连接层的输出经过一个tanh激活函数，最终输出一个标量，这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。

d.判别器D_i结构

网络结构与判别器D_i相同，tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是经过下采样后的生成图像的概率。

e.判别器D_d结构，与情况一相同

f.损失函数

(1)生成器

①内容损失：

②对抗损失：

③感知损失：

④总损失：

(2)判别器

可见光判别器的损失函数：

其中，E[]为对括号中内容求期望值，

代表可见光图像的梯度，

代表融合图像的梯度，

为输入可见光判别器的融合图像为真实可见光图像的概率。

红外判别器的损失函数：

残差判别器的损失函数：

针对上述两种情况进行训练，得到改进的DDcGAN模型，训练过程主要包括：

参数说明：

①G、D_v、D_i、D_d的训练步数分别表示为I_G、I_Dv、I_Di；

②I_max为训练的最大步数，I_max＝20；

③L_max、L_min、L_Gmax是停止训练的标志；

④L_max、L_min是G和D之间的对抗损失，L_Gmax是G的总损失；

⑤L_max＝1.3，L_min＝1.0，L_Gmax＝0.8×L_G。

初始化D_v、D_i、D_d的参数θ_Dv、θ_Di、θ_Dd，初始化G的参数θ_G；

在每次训练迭代中：

训练判别器D_v、D_i、D_d：

m张红外图像{v¹，…，v^m}，以及对应的可见光图像{i¹，…i^m}。

获得生成器生成的数据{G(v¹,i¹)，…，G(v^m,i^m)}。

通过SGD优化器最小化损失L_Dv更新判别器参数

(步骤一)

通过SGD优化器最小化损失L_Di更新判别器参数

(步骤二)

通过SGD优化器最小化损失L_Dd更新判别器参数

(步骤三)

当L_Dv>L_max且I_Dv<I_max时重复步骤一，令I_Dv←I_Dv+1。

当L_Di>L_max且I_Di<I_max时重复步骤二，令I_Di←I_Di+1。

当L_Dd>L_max且I_Dd<I_max时重复步骤三，令I_Dd←I_Dd+1。

训练生成器G：

获得生成器生成的数据{G(v¹,i¹)，…，G(v^m,i^m)}。

通过RMSProp优化器最小化损失I_G更新判别器参数θ_G；(步骤四)

当L_Dv<L_min或L_Dv<L_min或L_Dd<L_min，且I_G<I_max时通过RMSProp优化器最小化损失

更新生成器参数θ_G，令I_G←I_G+1。

当L_G>L_Gmax且I_G<I_max时重复步骤四，令I_G←I_G+1。

训练完成后的网络，即可用于同分辨率或不同分辨率的红外与可见光图像的融合。

本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实例不限制于任何特定的硬件和软件结合。

相应的，本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述基于改进的DDcGAN模型的图像融合方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于改进的DDcGAN模型的图像融合方法，其特征在于，包括训练阶段和测试阶段，所述训练阶段包括以下步骤：

2.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法，其特征在于，所述红外判别器、可见光判别器以及残差判别器的结构相同，均包括三个卷积层和批标准化层的累积，最后一个批标准化层的输出作为全连接层的输入，全连接层的输出经过一个tanh激活函数，最终输出一个标量。

3.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法，其特征在于，所述生成器包括编码器和解码器，所述编码器包括为5个卷积模块组成，每个卷积模块依次包括卷积层、批标准化层和线性整流单元，其中，每一个卷积层的输入，都是前面所有线性整流函数的输出的通道连接，最后，将五个线性整流单元的输出进行连接送入解码器，解码器为四个卷积层、批标准化、线性整流单元这一结构的累积，将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构，最后输出融合图像。

4.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法，其特征在于，所述生成器的损失函数包括内容损失函数、对抗损失函数以及感知损失函数，表示为；