CN111260594A - 一种无监督的多模态图像融合方法 - Google Patents
一种无监督的多模态图像融合方法 Download PDFInfo
- Publication number
- CN111260594A CN111260594A CN201911332757.XA CN201911332757A CN111260594A CN 111260594 A CN111260594 A CN 111260594A CN 201911332757 A CN201911332757 A CN 201911332757A CN 111260594 A CN111260594 A CN 111260594A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- network
- loss
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000014759 maintenance of location Effects 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 5
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 238000005286 illumination Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种无监督的多模态图像融合方法,包括下列步骤:基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集;搭建融合模型,其结构基于含残差模块的卷积神经网络;搭建判别模型;设计生成对抗模型的损失函数,分别是多源信息损失,用于提升融合网络的多源信息保留能力;相似性损失,用于判别融合结果与源图像的相似性;对抗损失,用于融合网络和判别网络间的联合训练方向约束;第五步,通过迭代步骤进行模型联合对抗训练。
Description
技术领域
本发明属于深度学习、计算机视觉和图像融合领域,涉及一种基于生成对抗学习和孪生网络,无监督 端到端的,红外和可见光多模态图像融合方法。
背景技术
受成像机理的制约,从单一源模态的图像中,无法得到所有必需信息。红外图像(IR,Infrared Image) 相较于可见光图像(VI,Visible Image),具有如下特征:能够减少阳光烟雾等外部影响、对具有明显红外 热特性的目标和区域敏感。但同时,可见光图像则具有更高的空间分辨率,更丰富的纹理结构细节和更优 质的人眼视觉反馈[1]。
图像融合(Information Fusion)的任务是,针对同一场景下不同模态的多源图像,以最大程度提取多 源互补信息为目的,生成应用于后续视觉感知与处理的融合图像,用IF表示。图像融合技术不仅是检测、 跟踪等高级计算机视觉任务的基础;也可作为遥感图像全色锐化、医疗影像处理、电力缺陷检测等工程应 用的重要基础[1-2]。图像融合技术通过对不同传感器获得的信息进行多层次的综合处理,从而获得最有效 的信息,去除冗余信息,提高系统处理效率。
对于像素级图像融合,现有算法主要分为基于变换域的方法、基于空间域的方法和基于深度学习的方 法[2-3]等。现有各种方法仍存在通用性不够强、图像表示能力弱、计算效率较低等问题。在基于深度学习 的方法方面,基于PCNN的方法[4]等取得了较好的效果,基于生成对抗网络等图像生成和模态信息迁移的 方法,在图像融合领域也取得了一定的创新性研究突破[5,6,7]。但与此同时,由于无法得到理想的图像融 合标签,也进一步限制了基于模态信息迁移和图像生成的图像融合方法的发展。
生成对抗学习的思想基于零和博弈理论,其通过同时训练生成模型和对抗模型,能够根据给定标签估 计并生成新分布,并使两个分布的距离最小化[8],在风格迁移、图像生成等计算机视觉方向有着较深入的 研究和应用进展。
孪生网络的主要思想,是将输入的成对数据通过网络映射到目标空间,通过丈量在目标空间中的距离 来对比相似度。孪生网络具有两个以上结构相同,参数共享的并行子网络,每个子网络采用不同的输入[9]。 在训练的过程中,参数更新在多个子网络上共同进行,孪生网络可以在少样本或无标签情况下精准分类。 孪生网络的意义,在于通过学习得到的变换空间中的特征,来引入图像表示的新途径,进而解决图像融合领 域无理想标签样本的问题。
[1]MA Jiayi,MA Yong,LI Chang,et al.Infrared and visible image fusionmethods and applications:A survey[J].Information Fusion,2018:153-178.
[2]LI Shutao,KANG Xudong,FANG Leyuan,et al.Pixel-level image fusion:Asurvey of the state of the art[J].Information Fusion,2017,33:100-112.
[3]LIU Yu,CHEN Xun,WANG Zengfu,et al.Deep learning for pixel-levelimage fusion:Recent advances and future prospects[J].Information Fusion,2018,42:158-173.
[4]BO Xiaoqu,YAN Jingwen,ZHI Xiaohong,et al.Image fusion algorithmbased on spatial frequency-motivated pulse coupled neural networks innonsubsampled contourlet transform domain[J].Acta Automatica Sinica,2008,34(12):1508-1514.
[5]MA Jiayi,YU Wei,LIANG Pengwei,et al.FusionGAN:A generativeadversarial network for infrared and visible image fusion[J].InformationFusion,2019,48:11-26.
[6]XU Han,LIANG Pengwei,YU Wei,et al.Learning a generative model forfusing infrared and visible images via conditional generative adversarialnetwork with dual discriminators[C]//proceedings of Twenty-EighthInternational Joint Conference on Artificial Intelligence(IJCAI-19).2019:3954-3960.
[7]杨晓莉,蔺素珍,禄晓飞,等.基于生成对抗网络的多模态图像融合[J].激光与光电子学进 展,2019,56(16):48-57.
[8]GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al.Generative adversarialnets[C]//Advances in neural information processing systems.2014:2672-2680.
[9]HOFFER E,AILON N.Deep metric learning using triplet network[C]//International Workshop on Similarity-Based Pattern Recognition.Springer,Cham,2015:84-92.
发明内容
本发明的目的是提供一种无监督的多模态图像融合方法,包括下列步骤:
一种无监督的多模态图像融合方法,包括下列步骤:
第一步,基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集。
第二步,搭建融合模型,其结构基于含残差模块的卷积神经网络:融合网络由卷积块、残差卷积块、 输出块构成,卷积块共3个,由3×3的卷积层、批归一化层(BatchNormalization)、线性整流单元(ReLU) 激活层构成,卷积层用以提取边缘信息等浅层特征,此外,批归一化层和ReLU激活函数用以避免在训练 过程中出现梯度消失问题;融合网络的残差卷积块共5个,包含两个3×3的卷积层,以及后接的实例归一 化模块(InstanceNormalization),在5个残差卷积块后,使用输出块输出图像,其由9×9的卷积层、批 归一化层、Tanh激活层组成,融合网络中所有卷积层的步长均为1,且不通过卷积层进行下采样操作,融 合网络输出为源图像尺寸相同的融合图像;
第三步,搭建判别模型:该模型由三组结构相同,权值参数共享的孪生子网络组成,输入多通道连接 图像,输出为特征图,特征图上每个位置表示了输入图像对应区域内的逻辑概率;基于在特征空间上的图 像映射,定义图像的逻辑概率,即红外可见光多模态源图像输入判别网络所得到的结果为逻辑真(Logit real),融合图像和可见光图像输入、红外和融合图像输入得到的结果的加权和,设定为逻辑假(Logit fake), 使得逻辑假的特征图像的数据分布尽量去逼近逻辑真的分布,使得融合网络生成的融合图像,能够同时逼近可见光和红外多源图像的数据分布,其保留源图像信息的能力达到最大,融合图像质量最高;
第四步,设计生成对抗模型的损失函数,分别是多源信息损失,用于提升融合网络的多源信息保留能 力;相似性损失,用于判别融合结果与源图像的相似性;对抗损失,用于融合网络和判别网络间的联合训 练方向约束;
第五步,通过迭代步骤进行模型联合对抗训练:首先将红外和可见光多源图像进行通道连接,将通道 连接图像输入到基于残差模块的融合网络,生成融合图像;第二步,将融合图像分别和可见光图像、红外 图像输入结构和参数均相同的孪生子网络,在经过判别网络得到的特征空间中,结合基于逻辑表示设计的 相似性损失函数,进行基于表示学习和度量学习的无监督相似度度量,在无理想标签的情况下,完成对图 像融合结果包含信息量的判别,并对判别模型中孪生子网络D的参数进行更新;第三步,通过计算多源信 息损失和最小二乘损失,进行融合网络G的参数更新;在迭代次数内循环往复,进而实现G和D的联合对抗训练,得到理想的模型参数。
优选地,第一步中,数据集中的数据需包含显著的外部环境变化,光照变化和种类变化,区分训练集 和测试集,将训练集中的图像对经过滑窗操作,得到大小固定的图像子块,并设定相关参数。
本发明提出了一种面向红外可见光多模态图像,基于生成对抗和孪生网络进行无监督多模态图像融合 的新方法。与现有的图像融合方法相比,本发明解决了该领域无标签的生成对抗训练问题,拓展了基于深 度学习的图像融合方法的发展思路,融合结果主观表现良好,融合评价指标整体客观表现优秀。
附图说明
图1本发明所提方法结构图
图2融合网络结构图
图3判别网络结构图
图4图像的整体与细节信息图
图5训练算法流程表图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明具体实施方案做进一步的描述。具体实施方 案流程和结构图如图1所示。本发明按以下步骤具体实现:
第一步,实验配置。
(1)准备图片数据训练集和测试集。
本发明在TNO公开数据集中进行了对比实验,TNO数据集包含了多场景下的可见光和红外多源模态 视频和图像配准数据。该数据集中的数据包含显著的外部环境变化,光照变化和种类变化。本发明从TNO 数据集中选取40对图像作为训练集,20对图像作为测试集。此外,本发明还基于SMT可见光-红外数据 集、Bristol Eden可见光-红外数据集、OSU行人热辐射数据集等公开数据集,对本发明提出的算法进行了 测试和验证。首先,将训练集中的图像经过步长为15的滑窗操作,得到大小为120×120的图像子块,共 17640对。基于滑窗子块进行训练,可看成是对图像中的区域纹理或样式的一种约束,能够提升融合图像 的清晰度。
(2)实验环境配置和参数设置。
实验平台为台式工作站,其硬件配置为Intel Xeon CPU E3-1231 v3 3.40GHz×8,Geforce GTX TITAN X,16GB内存。在训练时采用Adam优化器,设置初始学习率为0.001,通过指数衰减进行调节;每次训 练选取32个样本。本发明的所有测试结果均基于数据训练轮次(Training Epoch)为4所得到的模型。
第二步,搭建融合模型。
融合模型的网络结构如图2所示,网络的输入为训练集中的尺寸为120×120的红外和可见光图像。为 同时利用多源信息,首先将成对图像进行通道连接操作,再输入融合网络。融合网络由卷积块、残差卷积 块、输出块构成。卷积块共3个,由3×3的卷积层、批归一化层(Batch Normalization)、线性整流单元 (ReLU)激活层构成。卷积层能够提取边缘信息等浅层特征,此外,批归一化和ReLU激活函数可以避免 在训练过程中出现梯度消失等问题,加强了模型训练的稳定性。
融合网络的残差卷积块共5个,包含两个3×3的卷积层,以及后接的实例归一化模块(Instance Normalization),具体安放位置如图2所示。残差卷积块可以提取并组合各层特征,其中的实例归一化方 法还可以保持每个图像实例之间的独立,能够加速模型收敛。此外,实例归一化不仅有助于保留源图像的 内容细节信息,更有助于保留图像的模态和风格特征。在5个残差卷积块后,使用输出块输出图像,其由 9×9的卷积层、批归一化层、Tanh激活层组成。
为保持图像尺寸恒定,尽可能减少源图像信息损失,融合网络中所有卷积层的步长均为1,且不通过 卷积层进行下采样操作。输入图像经过融合网络可以得到和源图像尺寸相同的融合图像。
第三步,搭建判别模型。
判别模型的结构如图3所示。该模型由三组结构相同,权值参数共享的孪生子网络组成,输入大小为 120×120的多通道连接图像,输出为15×15的特征图,特征图上每个位置表示了输入图像对应8×8区域内 的逻辑概率。
如图3所示,基于在特征空间上的图像映射,本发明定义了图像的逻辑概率,即红外可见光多模态源 图像输入判别网络所得到的结果为逻辑真(Logitreal),融合图像和可见光图像输入、红外和融合图像输 入得到的结果的加权和,设定为逻辑假(Logit fake)。
若使得逻辑假的特征图像的数据分布尽量去逼近逻辑真的分布,便可使得融合网络生成的融合图像, 能够同时逼近可见光和红外多源图像的数据分布,进而可表明其保留源图像信息的能力达到最大,融合图 像质量最高。
综上,通过提取输入的多通道图像特征,孪生子网络可以将其进行跨域表示,便于对其所包含的信息 进行研判和处理,进而实现对融合图像质量高低的判别,通过和融合网络的联合对抗训练,约束训练方向 趋近于可同时使得融合结果中多源信息保留达到最大化。
第四步,设计生成对抗模型的损失函数。
生成对抗模型的损失函数包括三部分,分别是多源信息损失,应用于提升融合网络的多源信息保留能 力;相似性损失,应用于判别融合结果与源图像的相似性;对抗损失,应用于融合网络和判别网络间的联 合训练方向约束。
(1)多源信息损失
对融合网络最重要的要求是,其对多模态源信息的保留能力应当最大化。融合图像应当同时保留可见 光图像中的细节和纹理信息,和红外图像中的红外热辐射信息。基于欧式距离,构建多源信息损失如下
Linfo=LIR+γLVI,
如上式所示,多源信息损失包括两部分,即红外信息损失LIR和可见光信息损失LVI。γ为平衡参数, 通过实验验证得到,γ取4的时候,融合质量最佳。为使保留的源信息多样化,基于多种空间变换,进行 多源信息损失的构建。红外辐射信息具有全局性,因而红外信息损失着重在图像整体层面去获得与判断, 即该损失应当满足下式的要求
LIR=||IF-IR||2+α||BaseIF-BaseIR||2
其中,IF和IR分别表示融合图像和红外图像,BaseIF和BaseIR分别表示融合图像和红外图像的整体 信息。经实验证明,α取2的时候,红外信息在损失函数中被表达得更好。整体信息反映了图像的低频信 息,本发明使用导向滤波函数fGF来获取图像的整体信息
Base=fGF(I)
在该式中,I为输入图像,BaseIF为IF以IR为引导得到的导向滤波图。若定义VI为可见光图像,BaseIR为IR以VI为引导得到的导向滤波图。按如上方法,分别可以更大程度地得到红外和可见光图像的整体信 息。可见光图像的纹理和结构特征,通过细节和梯度信息体现,本发明中设定可见光信息损失为
LVI=||▽IF-▽VI||2+β||DetailIF-DetailsVI||2
其中,▽IF和▽VI分别表示融合图像和可见光图像的梯度信息,DetailIF和DetailVI分别表示融合图像 和可见光图像的细节信息。实验证明,β取4.5的时候,可见光信息在损失函数中被表达得更好。可见光 图像的细节信息反映了图像在小尺度细节区域上的纹理和结构细节等,可通过计算下式进行获得
其中I为输入图像,Base为整体信息,k是一个很小的正数,被设置以防出现分母为0的情况,k在 本发明实验中设置为0.2。滤波所得结果如图4所示。
(2)相似性损失
基于孪生网络的判别模型D(*,*)需要通过在特征空间比较融合图像和多源函数的相似性,基于深度度 量学习,来完成融合质量高低的判别。因而,本发明在判别模型中构建相似性损失函数
Lsimilar=||logitreal-1||2+||logitfake||2
在上式中,本发明设定的融合质量判别所采取的的正负逻辑如下所示
logitreal=D(VI,IR)
logitfake=0.5·(D(IF,VI)+D(VI,IF))
在上式中,D(VI,IR)、D(IF,VI)、D(VI,IF)分别为多组不同模态的图像经过如图3所示的判别网络结 构所得到的特征图,该特征图可以表示输入图像对应区域的逻辑概率,用logit表示。通过对多源图像和融 合图像在特征空间下的相似性评估,可以实现模型的无监督对抗训练。
(3)对抗损失
图像融合与其他领域中判别模型所承担的分类任务不同,没有特定的离散类别。但本发明基于孪生网 络结构的判别模型,可以将对融合结果的判别近似成一种线性任务。因而,为了学习概率分布的流形,最 小二乘损失相较于对数损失等其他对抗损失函数,能够为判别模型提供平滑且梯度不饱和的损失。此外, 最小二乘损失,会惩罚远离决策边界但判定为真的样本,把远离决策边界的假样本拖进决策边界;其对离 群样本进行惩罚,降低了生成样本的不确定性,能更好地保留原始图像信息,从而大大提升融合质量。
因此,采用基于最小二乘的生成对抗损失函数,更稳定,收敛更快,融合质量更高。基于最小二乘构 建对抗损失函数
在两式中,MI表示表示按通道连接的多通道图像,VI-IR表示可见光-红外通道连接图像。
第五步,模型训练。
如图5所示,本发明方法通过以下迭代步骤进行联合对抗训练。首先将红外和可见光多源图像进行通 道连接,将通道连接图像输入到基于残差模块的融合网络,生成融合图像;第二步,将融合图像分别和可 见光图像、红外图像输入结构和参数均相同的孪生子网络,在经过判别网络得到的特征空间中,结合基于 逻辑表示设计的相似性损失函数,进行基于表示学习和度量学习的无监督相似度度量,在无理想标签的情 况下,完成对图像融合结果包含信息量的判别,并对判别模型中孪生子网络D的参数进行更新;第三步, 通过计算多源信息损失和最小二乘损失,进行融合网络G的参数更新;综上,在迭代次数内循环往复,进 而实现G和D的联合对抗训练,得到理想的模型参数。
Claims (2)
1.一种无监督的多模态图像融合方法,包括下列步骤:
第一步,基于多场景下的可见光和红外多源模态视频和图像配准数据构建数据集;
第二步,搭建融合模型,其结构基于含残差模块的卷积神经网络:融合网络由卷积块、残差卷积块、输出块构成,卷积块共3个,由3×3的卷积层、批归一化层(BatchNormalization)、线性整流单元(ReLU)激活层构成,卷积层用以提取边缘信息等浅层特征,此外,批归一化层和ReLU激活函数用以避免在训练过程中出现梯度消失问题;融合网络的残差卷积块共5个,包含两个3×3的卷积层,以及后接的实例归一化模块(InstanceNormalization),在5个残差卷积块后,使用输出块输出图像,其由9×9的卷积层、批归一化层、Tanh激活层组成,融合网络中所有卷积层的步长均为1,且不通过卷积层进行下采样操作,融合网络输出为源图像尺寸相同的融合图像。
第三步,搭建判别模型:该模型由三组结构相同,权值参数共享的孪生子网络组成,输入多通道连接图像,输出为特征图,特征图上每个位置表示了输入图像对应区域内的逻辑概率;基于在特征空间上的图像映射,定义图像的逻辑概率,即红外可见光多模态源图像输入判别网络所得到的结果为逻辑真(Logit real),融合图像和可见光图像输入、红外和融合图像输入得到的结果的加权和,设定为逻辑假(Logit fake),使得逻辑假的特征图像的数据分布尽量去逼近逻辑真的分布,使得融合网络生成的融合图像,能够同时逼近可见光和红外多源图像的数据分布,其保留源图像信息的能力达到最大,融合图像质量最高;
第四步,设计生成对抗模型的损失函数,分别是多源信息损失,用于提升融合网络的多源信息保留能力;相似性损失,用于判别融合结果与源图像的相似性;对抗损失,用于融合网络和判别网络间的联合训练方向约束;
第五步,通过迭代步骤进行模型联合对抗训练:首先将红外和可见光多源图像进行通道连接,将通道连接图像输入到基于残差模块的融合网络,生成融合图像;第二步,将融合图像分别和可见光图像、红外图像输入结构和参数均相同的孪生子网络,在经过判别网络得到的特征空间中,结合基于逻辑表示设计的相似性损失函数,进行基于表示学习和度量学习的无监督相似度度量,在无理想标签的情况下,完成对图像融合结果包含信息量的判别,并对判别模型中孪生子网络D的参数进行更新;第三步,通过计算多源信息损失和最小二乘损失,进行融合网络G的参数更新;在迭代次数内循环往复,进而实现G和D的联合对抗训练,得到理想的模型参数。
2.根据权利要求1所述的方法,其特征在于,第一步中,数据集中的数据需包含显著的外部环境变化,光照变化和种类变化,区分训练集和测试集,将训练集中的图像对经过滑窗操作,得到大小固定的图像子块,并设定相关参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332757.XA CN111260594B (zh) | 2019-12-22 | 2019-12-22 | 一种无监督的多模态图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332757.XA CN111260594B (zh) | 2019-12-22 | 2019-12-22 | 一种无监督的多模态图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260594A true CN111260594A (zh) | 2020-06-09 |
CN111260594B CN111260594B (zh) | 2023-10-31 |
Family
ID=70952195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332757.XA Active CN111260594B (zh) | 2019-12-22 | 2019-12-22 | 一种无监督的多模态图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260594B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815627A (zh) * | 2020-08-24 | 2020-10-23 | 成都睿沿科技有限公司 | 遥感图像变化检测方法、模型训练方法及对应装置 |
CN111814875A (zh) * | 2020-07-08 | 2020-10-23 | 西安电子科技大学 | 基于样式生成对抗网络的红外图像中舰船样本扩充方法 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112001868A (zh) * | 2020-07-30 | 2020-11-27 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
CN112288668A (zh) * | 2020-09-22 | 2021-01-29 | 西北工业大学 | 基于深度无监督密集卷积网络的红外和可见光图像融合方法 |
CN112288663A (zh) * | 2020-09-24 | 2021-01-29 | 山东师范大学 | 一种红外与可见光图像融合方法及系统 |
CN112330666A (zh) * | 2020-11-26 | 2021-02-05 | 成都数之联科技有限公司 | 基于改进孪生网络的图像处理方法及系统及装置及介质 |
CN112598718A (zh) * | 2020-12-31 | 2021-04-02 | 北京深睿博联科技有限责任公司 | 一种无监督多视角多模态智能眼镜图像配准方法及装置 |
CN113298744A (zh) * | 2021-06-07 | 2021-08-24 | 长春理工大学 | 一种端到端的红外与可见光图像融合方法 |
CN113313663A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 基于零样本学习的多聚焦图像融合方法 |
CN113326735A (zh) * | 2021-04-29 | 2021-08-31 | 南京大学 | 一种基于YOLOv5的多模态小目标检测方法 |
CN113436128A (zh) * | 2021-07-23 | 2021-09-24 | 山东财经大学 | 一种双鉴别器多模态mr图像融合方法、系统及终端 |
CN113592018A (zh) * | 2021-08-10 | 2021-11-02 | 大连大学 | 基于残差密集网络和梯度损失的红外光与可见光图像融合方法 |
CN113674190A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 基于密集连接生成对抗网络的图像融合方法和装置 |
CN113986561A (zh) * | 2021-12-28 | 2022-01-28 | 苏州浪潮智能科技有限公司 | 人工智能任务处理方法、装置、电子设备及可读存储介质 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN114359603A (zh) * | 2022-02-18 | 2022-04-15 | 西北工业大学 | 一种多模态遥感图像领域自适应无监督匹配方法 |
US20220130139A1 (en) * | 2022-01-05 | 2022-04-28 | Baidu Usa Llc | Image processing method and apparatus, electronic device and storage medium |
CN114897884A (zh) * | 2022-06-17 | 2022-08-12 | 福州大学 | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 |
CN117237259A (zh) * | 2023-11-14 | 2023-12-15 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
CN112001868B (zh) * | 2020-07-30 | 2024-06-11 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN108537742A (zh) * | 2018-03-09 | 2018-09-14 | 天津大学 | 一种基于生成对抗网络的遥感图像全色锐化方法 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN109118467A (zh) * | 2018-08-31 | 2019-01-01 | 武汉大学 | 基于生成对抗网络的红外与可见光图像融合方法 |
CN109325931A (zh) * | 2018-08-22 | 2019-02-12 | 中北大学 | 基于生成对抗网络和超分辨率网络的多模态图像融合方法 |
CN109614996A (zh) * | 2018-11-28 | 2019-04-12 | 桂林电子科技大学 | 基于生成对抗网络的弱可见光与红外图像融合的识别方法 |
CN109919887A (zh) * | 2019-02-25 | 2019-06-21 | 中国人民解放军陆军工程大学 | 一种基于深度学习的无监督图像融合方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110322423A (zh) * | 2019-04-29 | 2019-10-11 | 天津大学 | 一种基于图像融合的多模态图像目标检测方法 |
US20210150268A1 (en) * | 2017-07-13 | 2021-05-20 | Peking University Shenzhen Graduate School | Method of using deep discriminate network model for person re-identification in image or video |
-
2019
- 2019-12-22 CN CN201911332757.XA patent/CN111260594B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
US20210150268A1 (en) * | 2017-07-13 | 2021-05-20 | Peking University Shenzhen Graduate School | Method of using deep discriminate network model for person re-identification in image or video |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108537742A (zh) * | 2018-03-09 | 2018-09-14 | 天津大学 | 一种基于生成对抗网络的遥感图像全色锐化方法 |
CN108564611A (zh) * | 2018-03-09 | 2018-09-21 | 天津大学 | 一种基于条件生成对抗网络的单目图像深度估计方法 |
CN108648197A (zh) * | 2018-04-12 | 2018-10-12 | 天津大学 | 一种基于图像背景掩膜的目标候选区域提取方法 |
CN109325931A (zh) * | 2018-08-22 | 2019-02-12 | 中北大学 | 基于生成对抗网络和超分辨率网络的多模态图像融合方法 |
CN109118467A (zh) * | 2018-08-31 | 2019-01-01 | 武汉大学 | 基于生成对抗网络的红外与可见光图像融合方法 |
CN109614996A (zh) * | 2018-11-28 | 2019-04-12 | 桂林电子科技大学 | 基于生成对抗网络的弱可见光与红外图像融合的识别方法 |
CN109919887A (zh) * | 2019-02-25 | 2019-06-21 | 中国人民解放军陆军工程大学 | 一种基于深度学习的无监督图像融合方法 |
CN110322423A (zh) * | 2019-04-29 | 2019-10-11 | 天津大学 | 一种基于图像融合的多模态图像目标检测方法 |
Non-Patent Citations (1)
Title |
---|
林丽媛;侯春萍;王凯: "立体视觉舒适融合限预测模型的研究", 红外与激光工程 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814875A (zh) * | 2020-07-08 | 2020-10-23 | 西安电子科技大学 | 基于样式生成对抗网络的红外图像中舰船样本扩充方法 |
CN111814875B (zh) * | 2020-07-08 | 2023-08-01 | 西安电子科技大学 | 基于样式生成对抗网络的红外图像中舰船样本扩充方法 |
CN112001868A (zh) * | 2020-07-30 | 2020-11-27 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
CN112001868B (zh) * | 2020-07-30 | 2024-06-11 | 山东师范大学 | 基于生成对抗性网络的红外和可见光图像融合方法及系统 |
WO2022027986A1 (zh) * | 2020-08-04 | 2022-02-10 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN111915545B (zh) * | 2020-08-06 | 2022-07-05 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN111815627A (zh) * | 2020-08-24 | 2020-10-23 | 成都睿沿科技有限公司 | 遥感图像变化检测方法、模型训练方法及对应装置 |
CN112288668A (zh) * | 2020-09-22 | 2021-01-29 | 西北工业大学 | 基于深度无监督密集卷积网络的红外和可见光图像融合方法 |
CN112288668B (zh) * | 2020-09-22 | 2024-04-16 | 西北工业大学 | 基于深度无监督密集卷积网络的红外和可见光图像融合方法 |
CN112288663A (zh) * | 2020-09-24 | 2021-01-29 | 山东师范大学 | 一种红外与可见光图像融合方法及系统 |
CN112330666A (zh) * | 2020-11-26 | 2021-02-05 | 成都数之联科技有限公司 | 基于改进孪生网络的图像处理方法及系统及装置及介质 |
CN112330666B (zh) * | 2020-11-26 | 2022-04-29 | 成都数之联科技股份有限公司 | 基于改进孪生网络的图像处理方法及系统及装置及介质 |
CN112598718A (zh) * | 2020-12-31 | 2021-04-02 | 北京深睿博联科技有限责任公司 | 一种无监督多视角多模态智能眼镜图像配准方法及装置 |
CN113326735B (zh) * | 2021-04-29 | 2023-11-28 | 南京大学 | 一种基于YOLOv5的多模态小目标检测方法 |
CN113326735A (zh) * | 2021-04-29 | 2021-08-31 | 南京大学 | 一种基于YOLOv5的多模态小目标检测方法 |
CN113298744A (zh) * | 2021-06-07 | 2021-08-24 | 长春理工大学 | 一种端到端的红外与可见光图像融合方法 |
CN113313663A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 基于零样本学习的多聚焦图像融合方法 |
CN113313663B (zh) * | 2021-06-09 | 2022-09-09 | 哈尔滨工业大学 | 基于零样本学习的多聚焦图像融合方法 |
CN113436128A (zh) * | 2021-07-23 | 2021-09-24 | 山东财经大学 | 一种双鉴别器多模态mr图像融合方法、系统及终端 |
CN113592018A (zh) * | 2021-08-10 | 2021-11-02 | 大连大学 | 基于残差密集网络和梯度损失的红外光与可见光图像融合方法 |
CN113592018B (zh) * | 2021-08-10 | 2024-05-10 | 大连大学 | 基于残差密集网络和梯度损失的红外光与可见光图像融合方法 |
CN113674190A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 基于密集连接生成对抗网络的图像融合方法和装置 |
CN113986561B (zh) * | 2021-12-28 | 2022-04-22 | 苏州浪潮智能科技有限公司 | 人工智能任务处理方法、装置、电子设备及可读存储介质 |
CN113986561A (zh) * | 2021-12-28 | 2022-01-28 | 苏州浪潮智能科技有限公司 | 人工智能任务处理方法、装置、电子设备及可读存储介质 |
US11756288B2 (en) * | 2022-01-05 | 2023-09-12 | Baidu Usa Llc | Image processing method and apparatus, electronic device and storage medium |
US20220130139A1 (en) * | 2022-01-05 | 2022-04-28 | Baidu Usa Llc | Image processing method and apparatus, electronic device and storage medium |
CN114359603B (zh) * | 2022-02-18 | 2024-03-15 | 西北工业大学 | 一种多模态遥感图像领域自适应无监督匹配方法 |
CN114359603A (zh) * | 2022-02-18 | 2022-04-15 | 西北工业大学 | 一种多模态遥感图像领域自适应无监督匹配方法 |
CN114897884A (zh) * | 2022-06-17 | 2022-08-12 | 福州大学 | 基于多尺度边缘特征融合的无参考屏幕内容图像质量评估方法 |
CN117237259A (zh) * | 2023-11-14 | 2023-12-15 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
CN117237259B (zh) * | 2023-11-14 | 2024-02-27 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111260594B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260594B (zh) | 一种无监督的多模态图像融合方法 | |
CN108537136B (zh) | 基于姿态归一化图像生成的行人重识别方法 | |
Wang et al. | Self-supervised multiscale adversarial regression network for stereo disparity estimation | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN108596243B (zh) | 基于分级注视图和条件随机场的眼动注视图预测方法 | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
WO2022160772A1 (zh) | 一种基于视角引导多重对抗注意力的行人重识别方法 | |
CN105893947B (zh) | 基于多局部相关特征学习的两视角人脸识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
Oikarinen et al. | Graphmdn: Leveraging graph structure and deep learning to solve inverse problems | |
Ruan et al. | Correlation discrepancy insight network for video re-identification | |
Yuan et al. | FLGC‐Fusion GAN: An Enhanced Fusion GAN Model by Importing Fully Learnable Group Convolution | |
CN113553975B (zh) | 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质 | |
Singh et al. | A sparse coded composite descriptor for human activity recognition | |
Li et al. | Egocentric action recognition by automatic relation modeling | |
Javed et al. | A novel algorithm based on a common subspace fusion for visual object tracking | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113450297A (zh) | 红外图像和可见光图像的融合模型构建方法及系统 | |
CN116597177A (zh) | 一种基于双分支并行深度交互协同的多源图像块匹配方法 | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
Zhang et al. | Two-stage domain adaptation for infrared ship target segmentation | |
Ershadi-Nasab et al. | Uncalibrated multi-view multiple humans association and 3D pose estimation by adversarial learning | |
US20220277579A1 (en) | Clustered dynamic graph convolutional neural network (cnn) for biometric three-dimensional (3d) hand recognition | |
Rao et al. | Light-Net: lightweight object detector | |
Wu et al. | Spatial–temporal hypergraph based on dual-stage attention network for multi-view data lightweight action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |