CN111260594A

CN111260594A - 一种无监督的多模态图像融合方法

Info

Publication number: CN111260594A
Application number: CN201911332757.XA
Authority: CN
Inventors: 侯春萍; 夏晗; 杨阳; 王霄聪; 莫晓蕾
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-22
Filing date: 2019-12-22
Publication date: 2020-06-09
Anticipated expiration: 2039-12-22
Also published as: CN111260594B

Abstract

本发明涉及一种无监督的多模态图像融合方法，包括下列步骤：基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集；搭建融合模型，其结构基于含残差模块的卷积神经网络；搭建判别模型；设计生成对抗模型的损失函数，分别是多源信息损失，用于提升融合网络的多源信息保留能力；相似性损失，用于判别融合结果与源图像的相似性；对抗损失，用于融合网络和判别网络间的联合训练方向约束；第五步，通过迭代步骤进行模型联合对抗训练。

Description

一种无监督的多模态图像融合方法

技术领域

本发明属于深度学习、计算机视觉和图像融合领域，涉及一种基于生成对抗学习和孪生网络，无监督端到端的，红外和可见光多模态图像融合方法。

背景技术

受成像机理的制约，从单一源模态的图像中，无法得到所有必需信息。红外图像(IR,Infrared Image) 相较于可见光图像(VI,Visible Image)，具有如下特征：能够减少阳光烟雾等外部影响、对具有明显红外热特性的目标和区域敏感。但同时，可见光图像则具有更高的空间分辨率，更丰富的纹理结构细节和更优质的人眼视觉反馈[1]。

图像融合(Information Fusion)的任务是，针对同一场景下不同模态的多源图像，以最大程度提取多源互补信息为目的，生成应用于后续视觉感知与处理的融合图像，用IF表示。图像融合技术不仅是检测、跟踪等高级计算机视觉任务的基础；也可作为遥感图像全色锐化、医疗影像处理、电力缺陷检测等工程应用的重要基础[1-2]。图像融合技术通过对不同传感器获得的信息进行多层次的综合处理，从而获得最有效的信息，去除冗余信息，提高系统处理效率。

对于像素级图像融合，现有算法主要分为基于变换域的方法、基于空间域的方法和基于深度学习的方法[2-3]等。现有各种方法仍存在通用性不够强、图像表示能力弱、计算效率较低等问题。在基于深度学习的方法方面，基于PCNN的方法[4]等取得了较好的效果，基于生成对抗网络等图像生成和模态信息迁移的方法，在图像融合领域也取得了一定的创新性研究突破[5,6,7]。但与此同时，由于无法得到理想的图像融合标签，也进一步限制了基于模态信息迁移和图像生成的图像融合方法的发展。

生成对抗学习的思想基于零和博弈理论，其通过同时训练生成模型和对抗模型，能够根据给定标签估计并生成新分布，并使两个分布的距离最小化[8]，在风格迁移、图像生成等计算机视觉方向有着较深入的研究和应用进展。

孪生网络的主要思想，是将输入的成对数据通过网络映射到目标空间，通过丈量在目标空间中的距离来对比相似度。孪生网络具有两个以上结构相同，参数共享的并行子网络，每个子网络采用不同的输入[9]。在训练的过程中，参数更新在多个子网络上共同进行，孪生网络可以在少样本或无标签情况下精准分类。孪生网络的意义,在于通过学习得到的变换空间中的特征，来引入图像表示的新途径，进而解决图像融合领域无理想标签样本的问题。

[1]MA Jiayi,MA Yong,LI Chang,et al.Infrared and visible image fusionmethods and applications:A survey[J].Information Fusion,2018:153-178.

[2]LI Shutao,KANG Xudong,FANG Leyuan,et al.Pixel-level image fusion:Asurvey of the state of the art[J].Information Fusion,2017,33:100-112.

[3]LIU Yu,CHEN Xun,WANG Zengfu,et al.Deep learning for pixel-levelimage fusion:Recent advances and future prospects[J].Information Fusion,2018,42:158-173.

[4]BO Xiaoqu,YAN Jingwen,ZHI Xiaohong,et al.Image fusion algorithmbased on spatial frequency-motivated pulse coupled neural networks innonsubsampled contourlet transform domain[J].Acta Automatica Sinica,2008,34(12):1508-1514.

[5]MA Jiayi,YU Wei,LIANG Pengwei,et al.FusionGAN:A generativeadversarial network for infrared and visible image fusion[J].InformationFusion,2019,48:11-26.

[6]XU Han,LIANG Pengwei,YU Wei,et al.Learning a generative model forfusing infrared and visible images via conditional generative adversarialnetwork with dual discriminators[C]//proceedings of Twenty-EighthInternational Joint Conference on Artificial Intelligence(IJCAI-19).2019:3954-3960.

[7]杨晓莉,蔺素珍,禄晓飞,等.基于生成对抗网络的多模态图像融合[J].激光与光电子学进展,2019,56(16):48-57.

[8]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarialnets[C]//Advances in neural information processing systems.2014:2672-2680.

[9]HOFFER E,AILON N.Deep metric learning using triplet network[C]//International Workshop on Similarity-Based Pattern Recognition.Springer,Cham,2015:84-92.

发明内容

本发明的目的是提供一种无监督的多模态图像融合方法，包括下列步骤：

一种无监督的多模态图像融合方法，包括下列步骤：

第一步，基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集。

第二步，搭建融合模型，其结构基于含残差模块的卷积神经网络：融合网络由卷积块、残差卷积块、输出块构成，卷积块共3个，由3×3的卷积层、批归一化层(BatchNormalization)、线性整流单元(ReLU) 激活层构成，卷积层用以提取边缘信息等浅层特征，此外，批归一化层和ReLU激活函数用以避免在训练过程中出现梯度消失问题；融合网络的残差卷积块共5个，包含两个3×3的卷积层，以及后接的实例归一化模块(InstanceNormalization)，在5个残差卷积块后，使用输出块输出图像，其由9×9的卷积层、批归一化层、Tanh激活层组成，融合网络中所有卷积层的步长均为1，且不通过卷积层进行下采样操作，融合网络输出为源图像尺寸相同的融合图像；

第三步，搭建判别模型：该模型由三组结构相同，权值参数共享的孪生子网络组成，输入多通道连接图像，输出为特征图，特征图上每个位置表示了输入图像对应区域内的逻辑概率；基于在特征空间上的图像映射，定义图像的逻辑概率，即红外可见光多模态源图像输入判别网络所得到的结果为逻辑真(Logit real)，融合图像和可见光图像输入、红外和融合图像输入得到的结果的加权和，设定为逻辑假(Logit fake)，使得逻辑假的特征图像的数据分布尽量去逼近逻辑真的分布，使得融合网络生成的融合图像，能够同时逼近可见光和红外多源图像的数据分布，其保留源图像信息的能力达到最大，融合图像质量最高；

第四步，设计生成对抗模型的损失函数，分别是多源信息损失，用于提升融合网络的多源信息保留能力；相似性损失，用于判别融合结果与源图像的相似性；对抗损失，用于融合网络和判别网络间的联合训练方向约束；

第五步，通过迭代步骤进行模型联合对抗训练：首先将红外和可见光多源图像进行通道连接，将通道连接图像输入到基于残差模块的融合网络，生成融合图像；第二步，将融合图像分别和可见光图像、红外图像输入结构和参数均相同的孪生子网络，在经过判别网络得到的特征空间中，结合基于逻辑表示设计的相似性损失函数，进行基于表示学习和度量学习的无监督相似度度量，在无理想标签的情况下，完成对图像融合结果包含信息量的判别，并对判别模型中孪生子网络D的参数进行更新；第三步，通过计算多源信息损失和最小二乘损失，进行融合网络G的参数更新；在迭代次数内循环往复，进而实现G和D的联合对抗训练，得到理想的模型参数。

优选地，第一步中，数据集中的数据需包含显著的外部环境变化，光照变化和种类变化，区分训练集和测试集，将训练集中的图像对经过滑窗操作，得到大小固定的图像子块，并设定相关参数。

本发明提出了一种面向红外可见光多模态图像，基于生成对抗和孪生网络进行无监督多模态图像融合的新方法。与现有的图像融合方法相比，本发明解决了该领域无标签的生成对抗训练问题，拓展了基于深度学习的图像融合方法的发展思路，融合结果主观表现良好，融合评价指标整体客观表现优秀。

附图说明

图1本发明所提方法结构图

图2融合网络结构图

图3判别网络结构图

图4图像的整体与细节信息图

图5训练算法流程表图

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明具体实施方案做进一步的描述。具体实施方案流程和结构图如图1所示。本发明按以下步骤具体实现：

第一步，实验配置。

(1)准备图片数据训练集和测试集。

本发明在TNO公开数据集中进行了对比实验，TNO数据集包含了多场景下的可见光和红外多源模态视频和图像配准数据。该数据集中的数据包含显著的外部环境变化，光照变化和种类变化。本发明从TNO 数据集中选取40对图像作为训练集，20对图像作为测试集。此外，本发明还基于SMT可见光-红外数据集、Bristol Eden可见光-红外数据集、OSU行人热辐射数据集等公开数据集，对本发明提出的算法进行了测试和验证。首先，将训练集中的图像经过步长为15的滑窗操作，得到大小为120×120的图像子块，共 17640对。基于滑窗子块进行训练，可看成是对图像中的区域纹理或样式的一种约束，能够提升融合图像的清晰度。

(2)实验环境配置和参数设置。

实验平台为台式工作站，其硬件配置为Intel Xeon CPU E3-1231 v3 3.40GHz×8，Geforce GTX TITAN X，16GB内存。在训练时采用Adam优化器，设置初始学习率为0.001，通过指数衰减进行调节；每次训练选取32个样本。本发明的所有测试结果均基于数据训练轮次(Training Epoch)为4所得到的模型。

第二步，搭建融合模型。

融合模型的网络结构如图2所示，网络的输入为训练集中的尺寸为120×120的红外和可见光图像。为同时利用多源信息，首先将成对图像进行通道连接操作，再输入融合网络。融合网络由卷积块、残差卷积块、输出块构成。卷积块共3个，由3×3的卷积层、批归一化层(Batch Normalization)、线性整流单元 (ReLU)激活层构成。卷积层能够提取边缘信息等浅层特征，此外，批归一化和ReLU激活函数可以避免在训练过程中出现梯度消失等问题，加强了模型训练的稳定性。

融合网络的残差卷积块共5个，包含两个3×3的卷积层，以及后接的实例归一化模块(Instance Normalization)，具体安放位置如图2所示。残差卷积块可以提取并组合各层特征，其中的实例归一化方法还可以保持每个图像实例之间的独立，能够加速模型收敛。此外，实例归一化不仅有助于保留源图像的内容细节信息，更有助于保留图像的模态和风格特征。在5个残差卷积块后，使用输出块输出图像，其由 9×9的卷积层、批归一化层、Tanh激活层组成。

为保持图像尺寸恒定，尽可能减少源图像信息损失，融合网络中所有卷积层的步长均为1，且不通过卷积层进行下采样操作。输入图像经过融合网络可以得到和源图像尺寸相同的融合图像。

第三步，搭建判别模型。

判别模型的结构如图3所示。该模型由三组结构相同，权值参数共享的孪生子网络组成，输入大小为 120×120的多通道连接图像，输出为15×15的特征图，特征图上每个位置表示了输入图像对应8×8区域内的逻辑概率。

如图3所示，基于在特征空间上的图像映射，本发明定义了图像的逻辑概率，即红外可见光多模态源图像输入判别网络所得到的结果为逻辑真(Logitreal)，融合图像和可见光图像输入、红外和融合图像输入得到的结果的加权和，设定为逻辑假(Logit fake)。

若使得逻辑假的特征图像的数据分布尽量去逼近逻辑真的分布，便可使得融合网络生成的融合图像，能够同时逼近可见光和红外多源图像的数据分布，进而可表明其保留源图像信息的能力达到最大，融合图像质量最高。

综上，通过提取输入的多通道图像特征，孪生子网络可以将其进行跨域表示，便于对其所包含的信息进行研判和处理，进而实现对融合图像质量高低的判别，通过和融合网络的联合对抗训练，约束训练方向趋近于可同时使得融合结果中多源信息保留达到最大化。

第四步，设计生成对抗模型的损失函数。

生成对抗模型的损失函数包括三部分，分别是多源信息损失，应用于提升融合网络的多源信息保留能力；相似性损失，应用于判别融合结果与源图像的相似性；对抗损失，应用于融合网络和判别网络间的联合训练方向约束。

(1)多源信息损失

对融合网络最重要的要求是，其对多模态源信息的保留能力应当最大化。融合图像应当同时保留可见光图像中的细节和纹理信息，和红外图像中的红外热辐射信息。基于欧式距离，构建多源信息损失如下

L_info＝L_IR+γL_VI,

如上式所示，多源信息损失包括两部分，即红外信息损失L_IR和可见光信息损失L_VI。γ为平衡参数，通过实验验证得到，γ取4的时候，融合质量最佳。为使保留的源信息多样化，基于多种空间变换，进行多源信息损失的构建。红外辐射信息具有全局性，因而红外信息损失着重在图像整体层面去获得与判断，即该损失应当满足下式的要求

L_IR＝||IF-IR||²+α||Base_IF-Base_IR||²

其中，IF和IR分别表示融合图像和红外图像，Base_IF和Base_IR分别表示融合图像和红外图像的整体信息。经实验证明，α取2的时候，红外信息在损失函数中被表达得更好。整体信息反映了图像的低频信息，本发明使用导向滤波函数f_GF来获取图像的整体信息

Base＝f_GF(I)

在该式中，I为输入图像，Base_IF为IF以IR为引导得到的导向滤波图。若定义VI为可见光图像，Base_IR为IR以VI为引导得到的导向滤波图。按如上方法，分别可以更大程度地得到红外和可见光图像的整体信息。可见光图像的纹理和结构特征，通过细节和梯度信息体现，本发明中设定可见光信息损失为

L_VI＝||▽IF-▽VI||²+β||Detail_IF-Details_VI||²

其中，▽IF和▽VI分别表示融合图像和可见光图像的梯度信息，Detail_IF和Detail_VI分别表示融合图像和可见光图像的细节信息。实验证明，β取4.5的时候，可见光信息在损失函数中被表达得更好。可见光图像的细节信息反映了图像在小尺度细节区域上的纹理和结构细节等，可通过计算下式进行获得

其中I为输入图像，Base为整体信息，k是一个很小的正数，被设置以防出现分母为0的情况，k在本发明实验中设置为0.2。滤波所得结果如图4所示。

(2)相似性损失

基于孪生网络的判别模型D(*,*)需要通过在特征空间比较融合图像和多源函数的相似性，基于深度度量学习，来完成融合质量高低的判别。因而，本发明在判别模型中构建相似性损失函数

L_similar＝||logit_real-1||²+||logit_fake||²

在上式中，本发明设定的融合质量判别所采取的的正负逻辑如下所示

logit_real＝D(VI,IR)

logit_fake＝0.5·(D(IF,VI)+D(VI,IF))

在上式中，D(VI,IR)、D(IF,VI)、D(VI,IF)分别为多组不同模态的图像经过如图3所示的判别网络结构所得到的特征图，该特征图可以表示输入图像对应区域的逻辑概率，用logit表示。通过对多源图像和融合图像在特征空间下的相似性评估，可以实现模型的无监督对抗训练。

(3)对抗损失

图像融合与其他领域中判别模型所承担的分类任务不同，没有特定的离散类别。但本发明基于孪生网络结构的判别模型，可以将对融合结果的判别近似成一种线性任务。因而，为了学习概率分布的流形，最小二乘损失相较于对数损失等其他对抗损失函数，能够为判别模型提供平滑且梯度不饱和的损失。此外，最小二乘损失，会惩罚远离决策边界但判定为真的样本，把远离决策边界的假样本拖进决策边界；其对离群样本进行惩罚，降低了生成样本的不确定性，能更好地保留原始图像信息，从而大大提升融合质量。

因此，采用基于最小二乘的生成对抗损失函数，更稳定，收敛更快，融合质量更高。基于最小二乘构建对抗损失函数

在两式中，MI表示表示按通道连接的多通道图像，VI-IR表示可见光-红外通道连接图像。

第五步，模型训练。

如图5所示，本发明方法通过以下迭代步骤进行联合对抗训练。首先将红外和可见光多源图像进行通道连接，将通道连接图像输入到基于残差模块的融合网络，生成融合图像；第二步，将融合图像分别和可见光图像、红外图像输入结构和参数均相同的孪生子网络，在经过判别网络得到的特征空间中，结合基于逻辑表示设计的相似性损失函数，进行基于表示学习和度量学习的无监督相似度度量，在无理想标签的情况下，完成对图像融合结果包含信息量的判别，并对判别模型中孪生子网络D的参数进行更新；第三步，通过计算多源信息损失和最小二乘损失，进行融合网络G的参数更新；综上，在迭代次数内循环往复，进而实现G和D的联合对抗训练，得到理想的模型参数。

Claims

1.一种无监督的多模态图像融合方法，包括下列步骤：

第一步，基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集；

第二步，搭建融合模型，其结构基于含残差模块的卷积神经网络：融合网络由卷积块、残差卷积块、输出块构成，卷积块共3个，由3×3的卷积层、批归一化层(BatchNormalization)、线性整流单元(ReLU)激活层构成，卷积层用以提取边缘信息等浅层特征，此外，批归一化层和ReLU激活函数用以避免在训练过程中出现梯度消失问题；融合网络的残差卷积块共5个，包含两个3×3的卷积层，以及后接的实例归一化模块(InstanceNormalization)，在5个残差卷积块后，使用输出块输出图像，其由9×9的卷积层、批归一化层、Tanh激活层组成，融合网络中所有卷积层的步长均为1，且不通过卷积层进行下采样操作，融合网络输出为源图像尺寸相同的融合图像。

2.根据权利要求1所述的方法，其特征在于，第一步中，数据集中的数据需包含显著的外部环境变化，光照变化和种类变化，区分训练集和测试集，将训练集中的图像对经过滑窗操作，得到大小固定的图像子块，并设定相关参数。