CN115311186B - 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 - Google Patents

一种红外与可见光图像跨尺度注意力对抗融合方法及终端 Download PDF

Info

Publication number
CN115311186B
CN115311186B CN202211223894.1A CN202211223894A CN115311186B CN 115311186 B CN115311186 B CN 115311186B CN 202211223894 A CN202211223894 A CN 202211223894A CN 115311186 B CN115311186 B CN 115311186B
Authority
CN
China
Prior art keywords
fusion
scale
visible light
infrared
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211223894.1A
Other languages
English (en)
Other versions
CN115311186A (zh
Inventor
田长超
秦利超
王志社
邵文禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Hope Wish Photoelectronic Technology Co ltd
Original Assignee
Jinan Hope Wish Photoelectronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Hope Wish Photoelectronic Technology Co ltd filed Critical Jinan Hope Wish Photoelectronic Technology Co ltd
Priority to CN202211223894.1A priority Critical patent/CN115311186B/zh
Publication of CN115311186A publication Critical patent/CN115311186A/zh
Application granted granted Critical
Publication of CN115311186B publication Critical patent/CN115311186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明提供一种红外与可见光图像跨尺度注意力对抗融合方法及终端,涉及基于人工智能的图像处理领域,本发明在跨模态跨尺度迭代生成器中构造跨模态注意力集成模型,测量同一尺度的红外与可见光图像活动水平,输出中间融合特征能够以学习的方式整合不同模态图像的内在特征信息;利用跨模态注意力集成模型建立起不同尺度不同模态特征之间的桥梁,利用不同尺度模态特征信息,以迭代的方式不断优化不同尺度下的红外与可见光图像的活动水平;训练获得的跨模态跨尺度迭代生成器产生的融合结果能更聚焦红外目标感知和可见光细节描述,克服现有对抗融合方法不能随两类图像模态特征变化而自适应学习,导致融合性能不足的问题。

Description

一种红外与可见光图像跨尺度注意力对抗融合方法及终端
技术领域
本发明涉及基于人工智能的图像处理领域,具体涉及一种红外与可见光图像跨尺度注意力对抗融合方法及终端。
背景技术
红外传感器通过感知热源辐射捕获前景目标信息,能够全天时全天候工作,但获得的红外图像通常缺乏结构特征和纹理细节。相反,可见光传感器通过光反射成像,能够获取场景信息和纹理细节,且具有较高的空间分辨率,但易受到外界环境影响,特别在低照度或遮挡情况下,缺乏感知目标特性能力。
由于不同的成像机制和工作模态,两类传感器获得的图像具有较强的互补信息。因此,图像融合技术旨在综合两类传感器的优势,有效提高两类成像传感器的协同探测能力,互补生成的融合图像更利于人眼观察和后续计算处理,在遥感探测、医疗诊断、智能驾驶、安全监控等领域有广泛应用。
目前,红外和可见光图像融合技术大致可以分为传统融合方法和深度学习融合方法。传统图像融合方法通常以固定数学表示模型提取图像特征,采用合适的融合规则进行特征整合,再通过逆变换重构获得最终融合图像。事实上,从图像特点来看,红外图像以像素强度表征目标特征,而可见光图像以边缘和梯度表征纹理细节,两类图像表征模态信息存在较大差异。传统融合方法不考虑源图像的不同模态特征,采用固定数学模型无差别地提取图像特征,不可避免地造成融合性能低、视觉效果差的结果。此外,融合规则是人为设计,且越来越复杂,计算成本高,限制了图像融合的实际应用。
近年来,深度学习融合方法已经成为研究主流方向,其方法大致可分为自编码器融合方法、卷积神经网络融合方法和生成对抗融合方法。自编码器融合方法通常采用预先训练好的网络进行特征编码和解码,然后设计相应的特征融合层。这些方法需要手工设计融合策略,无法实现端到端融合。卷积神经网络融合方法是一种端到端模式,通常在输入阶段通道连接(Concatenate)源图像或在融合层通道连接深度特征。但通过简单的通道连接,没有充分考虑不同模态图像的内在特征,导致图像融合性能有限。生成对抗融合方法是在生成器和鉴别器之间建立对抗博弈,但生成器的框架类似于卷积神经网络融合模型,依然采用通道连接源图像或者深度特征。同时,这些方法还忽略了不同尺度的特征信息交互,不可避免地限制了融合性能。
发明内容
为了克服上述现有技术中的不足,本发明提供的红外与可见光图像跨尺度注意力对抗融合方法,融合方法可以随两类图像模态特征的变化而自适应地跨尺度特征学习,增强有用信息而抑制无关信息,进而提高红外与可见光图像的融合性能。
本发明提供的第一方面内容涉及红外与可见光图像跨尺度注意力对抗融合方法,方法包括:
S1、将待融合红外图像、待融合可见光图像输入预先训练好的跨模态跨尺度迭代生成器,直接生成最终的融合图像;
通过跨模态跨尺度迭代生成器建立了双编码-单解码网络框架,包括多尺度编码网络、初始融合层和跨尺度特征迭代解码网络;
S2、通过多尺度编码网络采用的四个多尺度卷积模块,记作MCB1,MCB2,MCB3和 MCB4,提取红外和可见光图像的多尺度深度特征,记为
Figure 480107DEST_PATH_IMAGE001
Figure 519607DEST_PATH_IMAGE002
其中,
Figure 650374DEST_PATH_IMAGE003
;每个MCB包含两个卷积核大小为3×3的卷积层,相应的步长分 别设置为1和2;
S3、通过初始融合层将第四尺度的红外图像特征
Figure 602280DEST_PATH_IMAGE001
和可见光图像特征
Figure 920129DEST_PATH_IMAGE004
进 行相加操作,得到初始融合特征,即
Figure 435424DEST_PATH_IMAGE005
S4、通过跨尺度特征迭代解码网络采用的四个跨模态注意力集成模型,记作CAIM1,CAIM2,CAIM3和CAIM4,进行特征重构;
其中,首先将第四尺度的红外图像特征
Figure 483015DEST_PATH_IMAGE001
、可见光图像特征
Figure 792773DEST_PATH_IMAGE002
和初始融合特 征
Figure 597918DEST_PATH_IMAGE006
输入对应的跨模态注意力集成模型CAIM4,输出中间融合特征
Figure 962909DEST_PATH_IMAGE007
然后,经过上采样后,作为上一尺度跨模态注意力集成模型CAIM3的初始融合特征,依次类推,最终输出融合图像。
本发明提供的第二方面内容涉及终端,终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现红外与可见光图像跨尺度注意力对抗融合方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
1、本发明构造了跨模态注意力集成模型。初始融合特征通过通道注意力独立路径和空间注意力独立路径计算获得注意力权重系数,用于测量同一尺度的红外与可见光图像活动水平,采用加权平均运算输出中间融合特征。模型能够以学习的方式整合不同模态图像的内在特征信息。
2、本发明开发了跨尺度特征迭代解码网络。利用跨模态注意力集成模型建立起不同尺度不同模态特征之间的桥梁,以迭代的方式不断优化红外与可见光图像的活动水平。解码网络能够充分利用不同尺度特征信息,使得融合结果更聚焦红外目标感知和可见光细节描述。
3、本发明提出了一种端到端的红外与可见光图像对抗融合方法。得益于跨模态特征整合和跨尺度迭代设计,生成器包含更少的卷积层,且不需要跳过连接和通道增加,网络模型简单而有效,具有更高的计算效率和更好的融合性能。该方法也可以应用于多模态图像、多聚焦图像和医学图像融合,对图像融合领域具有很高的应用价值。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为第一组Sandpath融合结果对比示意图。
图2为第二组Solider_with_jeep融合结果对比示意图。
具体实施方式
本发明涉及的红外与可见光图像跨尺度注意力对抗融合方法可以基于人工智能技术对关联的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。其中,计算机视觉技术(ComputerVision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本发明的红外与可见光图像跨尺度注意力对抗融合方法应用于一个或者多个终端中,所述终端是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
终端可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、交互式网络电视(Internet Protocol Television,IPTV)等。
终端还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。
终端所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
下面详细阐述本发明的红外与可见光图像跨尺度注意力对抗融合方法,方法是为解决现有深度学习融合方法仅仅通道连接源图像或深度特征,不能随两类图像模态特征的变化而自适应跨尺度特征学习,限制了图像融合性能的技术问题,本发明提供的红外与可见光图像跨尺度注意力对抗融合方法,其包括:
S1,将待融合红外图像、待融合可见光图像输入预先训练好的跨模态跨尺度迭代生成器,直接生成最终的融合图像。所述的跨模态跨尺度迭代生成器建立了双编码-单解码网络框架,包括多尺度编码网络、初始融合层和跨尺度特征迭代解码网络;
S2,通过多尺度编码网络采用的四个多尺度卷积模块(Multi-scale Convolutional Block),记作MCB1,MCB2,MCB3和MCB4,提取红外和可见光图像的多尺度深 度特征,记为
Figure 802689DEST_PATH_IMAGE001
Figure 283349DEST_PATH_IMAGE002
,其中,
Figure 638107DEST_PATH_IMAGE008
。每个MCB包含两个卷积核大小为3×3的 卷积层,相应的步长分别设置为1和2。
其中,多尺度编码网络包括红外图像和可见光图像两个编码器路径,每个路径包含四个多尺度卷积模块,且每个模块中第一个卷积的输出通道数与第二个卷积的输入输出通道数相同。每个卷积模块的是输入通道数分别为1、16、32、64,输出通道数为16、32、64、128,激活函数为PReLU。
S3,通过初始融合层将第四尺度
Figure 229626DEST_PATH_IMAGE009
的红外图像特征
Figure 2541DEST_PATH_IMAGE010
和可见光图像 特征
Figure 654102DEST_PATH_IMAGE011
进行相加操作,得到初始融合特征,即
Figure 433839DEST_PATH_IMAGE005
S4,通过跨尺度特征迭代解码网络采用的四个跨模态注意力集成模型(Cross- modal Attention Integrated Module),记作CAIM1,CAIM2,CAIM3和CAIM4,进行特征重构, 其中,首先将第四尺度
Figure 891365DEST_PATH_IMAGE012
的红外图像特征
Figure 705738DEST_PATH_IMAGE013
、可见光图像特征
Figure 528200DEST_PATH_IMAGE002
和初始融合 特征
Figure 106818DEST_PATH_IMAGE014
输入对应的跨模态注意力集成模型(CAIM4),输出中间融合特征
Figure 305718DEST_PATH_IMAGE015
。然后,经过 上采样后,作为上一尺度
Figure 974597DEST_PATH_IMAGE016
跨模态注意力集成模型(CAIM3)的初始融合特征,依次 类推,最终输出融合图像。
其中,跨尺度特征迭代解码网络包含四个跨模态注意力集成模型,相应的输入通道分别为128、64、32、16,输出通道数分别为64、32、16、1,激活函数为PReLU。
可选地,跨模态注意力集成模型,包括通道注意力独立路径和空间注意力独立路 径。在通道注意力独立路径中,对于输入的初始融合特征
Figure 30277DEST_PATH_IMAGE017
,首先使用最大和 平均池化层分别将初始融合特征转换为初始通道注意力向量。然后,初始通道注意力向量 通过两个卷积层和一个PReLU激活层后,进行通道连接输入下一个卷积层中,生成通道注意 力向量
Figure 784607DEST_PATH_IMAGE018
,表示为:
Figure 787198DEST_PATH_IMAGE019
Figure 123632DEST_PATH_IMAGE020
其中,
Figure 287897DEST_PATH_IMAGE021
表示卷积运算,
Figure 529523DEST_PATH_IMAGE022
Figure 132543DEST_PATH_IMAGE023
Figure 510434DEST_PATH_IMAGE024
分别表示全局最大池化、平均 池化操作和通道连接运算。
Figure 111180DEST_PATH_IMAGE025
表示PReLU激活函数。
相似地,在空间注意力独立路径中,对于输入的初始融合特征
Figure 886107DEST_PATH_IMAGE026
,依 然采用最大和平均池化操作来获得相应的初始空间注意力矩阵,然后将进行通道连接后输 入一个卷积层中,产生空间注意矩阵
Figure 230500DEST_PATH_IMAGE027
,表示为
Figure 525216DEST_PATH_IMAGE028
然后,将通道注意力向量与空间注意力矩阵按元素化的方式进行相乘,得到初始 融合特征的注意力特征图。随后,利用Sigmod激活函数进行归一化处理,生成相应的注意力 权重,表示为
Figure 296862DEST_PATH_IMAGE029
。其中,
Figure 247501DEST_PATH_IMAGE030
表示Sigmod激活函数。
最后,将注意力权值
Figure 943056DEST_PATH_IMAGE031
分配给红外图像深度特征,
Figure 295540DEST_PATH_IMAGE032
给可见光图像深度 特征,同时进行平均加权处理得到相应的中间融合特征
Figure 238088DEST_PATH_IMAGE033
,表示为
Figure 738339DEST_PATH_IMAGE034
上述过程即为对待融合红外图像和待融合可见光图像进行图像融合的相关内容。为了能够通过跨模态跨尺度迭代生成器对待融合红外图像和待融合可见光图像进行图像融合,需要预先训练生成器。下述内容即为训练跨模态跨尺度迭代生成器的过程。
具体地,在训练跨模态跨尺度迭代生成器时包括:
S01,构建跨模态跨尺度迭代生成器:以红外图像和可见光图像作为输入,建立双编码-单解码网络框架,包括多尺度编码网络、初始融合层和跨尺度特征迭代解码网络,用于生成初始融合图像;
所述多尺度编码网络分别采用四个多尺度卷积模块(Multi-scale Convolutional Block),记作MCB1,MCB2,MCB3和MCB4,提取红外和可见光图像的多尺度深 度特征,记为
Figure 424536DEST_PATH_IMAGE035
Figure 631526DEST_PATH_IMAGE036
,其中,
Figure 62419DEST_PATH_IMAGE037
。每个MCB包含两个卷积核大小为3×3 的卷积层,相应的步长分别设置为1和2,且每个模块中第一个卷积的输出通道数与第二个 卷积的输入输出通道数相同。每个卷积模块的是输入通道数分别为1、16、32、64,输出通道 数为16、32、64、128,激活函数为PReLU;
所述融合层,直接将第四尺度(
Figure 987650DEST_PATH_IMAGE038
)的红外图像特征
Figure 274275DEST_PATH_IMAGE035
和可见光图像特征
Figure 601351DEST_PATH_IMAGE036
进行相加操作,得到初始融合特征,即
Figure 620123DEST_PATH_IMAGE039
所述跨尺度特征迭代解码网络包含四个跨模态注意力集成模型(Cross-modal Attention Integrated Module),记作CAIM1,CAIM2,CAIM3和CAIM4,进行特征重构,其中, 首先将第四尺度(
Figure 845699DEST_PATH_IMAGE038
)的红外图像特征
Figure 873698DEST_PATH_IMAGE040
、可见光图像特征
Figure 55280DEST_PATH_IMAGE036
和初始融合特征
Figure 572849DEST_PATH_IMAGE014
输入对应的跨模态注意力集成模型(CAIM4),输出中间融合特征
Figure 207093DEST_PATH_IMAGE015
。然后,经过上采样后, 作为上一尺度(
Figure 773203DEST_PATH_IMAGE041
)跨模态注意力集成模型(CAIM3)的初始融合特征,依次类推,最终输出 初始融合图像。四个跨模态注意力集成模型,相应的输入通道分别为128、64、32、16,输出通 道数分别为64、32、16、1,激活函数为PReLU;
S02,构建红外与可见光双鉴别器模型;在训练过程中,将跨模态跨尺度迭代生成器获得的初始融合图像与红外图像、可见光图像输入对应的鉴别器,以约束融合图像分别与红外图像、可见光图像同时具有相似的数据分布;当跨模态跨尺度迭代生成器能够欺骗红外与可见光双鉴别器,表明对抗博弈达到平衡,得到最终的融合结果;
所述红外鉴别器与可见光鉴别器具有相同的网络结构,均由4个卷积层和1个全连接层组成,所有卷积层均采用3×3核大小和LeakyReLU激活函数,步长为2,相应的卷积层的输入通道分别为1、16、32、64,输出通道数分别为16、32、64、128;
S03,网络模型训练:以红外图像与可见光图像作为训练数据集,采用L2范数约束融合结果与红外图像之间数据分布相似度,L1范数来约束融合结果与可见光图像之间数据分布相似度,设计的损失函数监督网络模型训练,获得最优的网络模型参数;
所述损失函数包括生成器损失函数和鉴别器损失函数;生成器损失函数由内容损 失和对抗损失两部分组成,表示为
Figure 386456DEST_PATH_IMAGE042
,其中,
Figure 12610DEST_PATH_IMAGE043
表示生成器损失函数,
Figure 134149DEST_PATH_IMAGE044
Figure 566268DEST_PATH_IMAGE045
分别表示内容损失函数和对抗损失函数,参数
Figure 722443DEST_PATH_IMAGE046
用于控制两个损失函数之间 的平衡。对于内容损失函数,分别采用L1范数和L2范数来约束融合结果与源图像之间的分布 相似性,表示为
Figure 519497DEST_PATH_IMAGE047
,其中,
Figure 941382DEST_PATH_IMAGE048
Figure 849296DEST_PATH_IMAGE049
Figure 922294DEST_PATH_IMAGE050
分别 表示融合结果、红外图像和可见光图像,
Figure 890250DEST_PATH_IMAGE051
Figure 986382DEST_PATH_IMAGE052
分别表示L1范数和L2范数,参数
Figure 9570DEST_PATH_IMAGE053
为平衡系数。在鉴别器设计中,采用红外鉴别器
Figure 874758DEST_PATH_IMAGE054
和可见光鉴别器
Figure 13615DEST_PATH_IMAGE055
来区分融合结 果
Figure 659360DEST_PATH_IMAGE048
与可见光图像
Figure 174655DEST_PATH_IMAGE050
、红外图像
Figure 894350DEST_PATH_IMAGE049
的数据分布,相应的对抗损失函数表示为
Figure 17158DEST_PATH_IMAGE056
。此外,双鉴别器按照梯度约束的原理,设计 相应各自的损失函数,分别表示为
Figure 87882DEST_PATH_IMAGE057
Figure 141289DEST_PATH_IMAGE058
。其中,
Figure 43385DEST_PATH_IMAGE059
表示梯度算子。第一项和第二项 分别表示Wasserstein距离估计和梯度惩罚,
Figure 524045DEST_PATH_IMAGE060
为正则化参数。
其中,所述训练数据集采用TNO数据集中的25组红外与可见光图像对,并且使用步 长为12的滑动窗口,将原始图像分割成尺寸大小为256×256图像块,相应的灰度值进行中 心化处理,将其像素值转换为[-1, 1],最终获得10563组图像作为训练集;训练过程中使用 Adam优化器更新生成器和鉴别器网络模型参数,学习率分别设置为1×10−4和4×10−4,相应 的迭代次数分别设置为1和2;Batchsize和Epoch分别设置为4和14;损失函数参数
Figure 393650DEST_PATH_IMAGE061
Figure 985168DEST_PATH_IMAGE062
Figure 679455DEST_PATH_IMAGE060
分别设置为10、1、1。实验训练平台为IntelI9-10850KCPU,64GB内存和NVIDIA GeForce GTX3090 GPU。编译环境是Python和PyTorch平台。
进一步地,为了验证通过上述方法训练得到的跨模态跨尺度迭代生成器的图像融合效果,本发明实施例还对训练好的跨模态跨尺度迭代生成器进行了验证。
具体地,在测试阶段,从TNO数据集选取了25组图像进行测试验证。对比方法选择了9种典型方法,包括MDLatLRR,DenseFuse,SEDRFuse,Res2Fusion,RFN-Nest,FusionGAN,SDDGAN,GANMcC和MFEIF。此外,客观评价指标采用了平均梯度(AG)、信息熵(EN)、标准差(SD)、互信息(MI)、空间频率(SF)、非线性相关信息熵(NCIE)、基于小波变换的特征互信息(FMIw)和视觉信息保真度(VIF)等8个指标。验证结果包括下述主观评价和客观评价两个方面。
(1)主观评价。图1和图2给出了两组图像Sandpath和Solider_with_jeep的主观比较结果示意图。通过对比,可以发现本发明的融合方法具有三个优势。首先,融合结果可以保留红外图像中的高亮度目标信息。对于典型的红外目标,如图1的行人和图2的吉普车,本发明的融合结果比其他方法具有更高亮度的目标特征。其次,融合结果可以保留可见光图像的纹理细节。例如,图1的树木和图2的房屋屋顶,对于这些代表性细节信息,本发明的融合结果比其他方法更明显、更清晰。最后,融合结果获得更高的对比度和更好的视觉效果。与源图像和其他融合结果相比,本发明方法可以同时更好地突出红外目标特征和可见光场景细节信息。
(2)客观评价。表1给出了TNO数据集的25组图像的客观比较结果。最优平均值和次优平均值分别用加粗和下划线标注。本发明方法取得了指标AG、MI、SF、NCIE、FMIw和VIF的最优平均值,指标EN和SD次优平均值。客观实验表明本发明方法比其他方法具有更好的融合性能。最大值MI,NCIE和FMIw表明本发明的融合方法获得融合图像保留源图像更有意义的模态特征,这是由于本发明的融合方法构造跨模态注意力集成模型,能够根据两类图像模态特征的变化而自适应地学习,更能有效地整合两类图像的内在特征信息。最大值AG,SF和VIF表明本发明的融合方法获得融合图像具有更好的视觉效果,这是由于本发明的融合方法构建了跨尺度特征迭代解码网络,能够充分利用不同尺度特征信息,以迭代的方式不断优化红外与可见光图像的活动水平,获得融合结果更聚焦红外目标感知和可见光细节描述。
表1为TNO数据集的25组图像的客观比较结果
Method AG EN SD MI SF NCIE FMIw VIF
MDLatLRR 3.58238 6.29253 23.70282 1.94958 7.11547 0.80435 0.42836 0.35453
DenseFuse 3.19331 6.25275 22.85769 2.03589 6.09443 0.80451 0.42672 0.33090
SEDRFuse 3.54411 7.08197 40.79302 2.11014 6.79446 0.80462 0.22029 0.31682
Res2Fusion 4.89928 6.91161 38.56853 3.19192 9.63764 0.80843 0.44594 0.44253
RFN-Nest 3.12521 6.89803 34.85373 1.92851 6.01269 0.80428 0.30799 0.35510
FusionGAN 3.07357 6.41202 26.82044 2.16650 5.98247 0.80503 0.38233 0.24869
SDDGAN 4.74832 7.13766 45.85533 2.03392 9.19611 0.80444 0.38259 0.32472
GANMcC 3.13983 6.57763 29.92973 2.10864 6.00963 0.80452 0.38913 0.30510
MFEIF 3.49173 6.61072 30.99709 2.49426 6.85088 0.80563 0.41179 0.37127
Ours 6.18093 7.08778 41.46045 4.46387 11.71668 0.81628 0.45929 0.49745
此外,表2给出了在TNO数据上的计算效率,单位为秒(s)。可以看出,本发明具有最高的计算效率,说明本发明构建的网络模型新颖而有效。一方面由于迭代网络框架,生成器包含更少的多尺度卷积层,且不需要跳过连接,这样不会导致特征冗余和提高模型参数。其次,与其他采用通道连接的方法不同,跨模态注意力集成模型可以在不增加通道数的情况下,以学习方式更有效地整合特征。因此,本发明具有更高的计算效率和更好的融合性能。
表2为在TNO数据上的计算效率
Methods MDLat -LRR Dense -Fuse SEDR -Fuse Res2 -Fusion RFN -Nest Fusion -GAN SDD -GAN GAN -McC MFE -IF Ours
Time 79.41 0.085 2.676 18.86 0.178 2.015 0.271 4.210 3.634 0.063
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,方法包括:
S1、将待融合红外图像、待融合可见光图像输入预先训练好的跨模态跨尺度迭代生成器,直接生成最终的融合图像;
通过跨模态跨尺度迭代生成器建立了双编码-单解码网络框架,包括多尺度编码网络、初始融合层和跨尺度特征迭代解码网络;
所述跨尺度特征迭代解码网络包含四个跨模态注意力集成模型,相应的输入通道分别为128、64、32、16,输出通道数分别为64、32、16、1,激活函数为PReLU;
S2、通过多尺度编码网络采用的四个多尺度卷积模块,记作MCB1,MCB2,MCB3和MCB4,提 取红外和可见光图像的多尺度深度特征,记为
Figure 649195DEST_PATH_IMAGE001
Figure 276486DEST_PATH_IMAGE002
其中,
Figure 522178DEST_PATH_IMAGE003
;每个MCB包含两个卷积核大小为3×3的卷积层,相应的步长分别 设置为1和2;
所述多尺度编码网络包括红外图像和可见光图像两个编码器路径,每个路径包含四个多尺度卷积模块,且每个模块中第一个卷积的输出通道数与第二个卷积的输入输出通道数相同,相应的步长分别为1和2;
每个卷积模块的输入通道数分别为1、16、32、64,输出通道数为16、32、64、128,激活函数为PReLU;
S3、通过初始融合层将第四尺度的红外图像特征
Figure 387366DEST_PATH_IMAGE001
和可见光图像特征
Figure 57382DEST_PATH_IMAGE002
进行相 加操作,得到初始融合特征,即
Figure 171968DEST_PATH_IMAGE004
S4、通过跨尺度特征迭代解码网络采用的四个跨模态注意力集成模型,记作CAIM1,CAIM2,CAIM3和CAIM4,进行特征重构;
其中,首先将第四尺度的红外图像特征
Figure 421684DEST_PATH_IMAGE005
、可见光图像特征
Figure 938116DEST_PATH_IMAGE006
和初始融合特征
Figure 247874DEST_PATH_IMAGE007
输入对应的跨模态注意力集成模型CAIM4,输出中间融合特征
Figure 849757DEST_PATH_IMAGE008
然后,经过上采样后,作为上一尺度跨模态注意力集成模型CAIM3的初始融合特征,依次类推,最终输出融合图像;
所述跨模态注意力集成模型包括通道注意力独立路径和空间注意力独立路径;
在通道注意力独立路径中,对于输入的初始融合特征
Figure 903164DEST_PATH_IMAGE009
,首先使用最大 和平均池化层分别将初始融合特征转换为初始通道注意力向量;
然后,初始通道注意力向量通过两个卷积层和一个PReLU激活层后,进行通道连接输入 下一个卷积层中,生成通道注意力向量
Figure 274102DEST_PATH_IMAGE010
,表示为
Figure 754762DEST_PATH_IMAGE011
Figure 578362DEST_PATH_IMAGE012
其中,
Figure 966618DEST_PATH_IMAGE013
表示卷积运算,
Figure 660904DEST_PATH_IMAGE014
Figure 843624DEST_PATH_IMAGE015
Figure 888940DEST_PATH_IMAGE016
分别表示全局最大池化、平均 池化操作和通道连接运算;
Figure 815308DEST_PATH_IMAGE017
表示PReLU激活函数;
在空间注意力独立路径中,对于输入的初始融合特征
Figure 364101DEST_PATH_IMAGE018
,采用最大和 平均池化操作来获得相应的初始空间注意力矩阵,然后将进行通道连接后输入一个卷积层 中,产生空间注意矩阵
Figure 983301DEST_PATH_IMAGE019
表示为
Figure 781493DEST_PATH_IMAGE020
将通道注意力向量与空间注意力矩阵按元素化的方式进行相乘,得到初始融合特征的注意力特征图;
利用Sigmod激活函数进行归一化处理,生成相应的注意力权重,表示为
Figure 980393DEST_PATH_IMAGE021
;其中,
Figure 914851DEST_PATH_IMAGE022
表示Sigmod激活函数;
最后,将注意力权值
Figure 173794DEST_PATH_IMAGE023
分配给红外图像深度特征,
Figure 459282DEST_PATH_IMAGE024
给可见光图像深度特征, 同时进行平均加权处理得到相应的中间融合特征
Figure 727452DEST_PATH_IMAGE025
表示为
Figure 250837DEST_PATH_IMAGE026
2.根据权利要求1所述的红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,所述S1之前还包括:
S01,构建跨模态跨尺度迭代生成器;
S02,构建红外与可见光双鉴别器模型;
S03,训练网络模型。
3.根据权利要求2所述的红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,S02还包括;在训练过程中,将跨模态跨尺度迭代生成器获得的初始融合图像与红外图像、可见光图像输入对应的鉴别器,以约束融合图像分别与红外图像、可见光图像同时具有相似的数据分布;
当跨模态跨尺度迭代生成器能够欺骗红外与可见光双鉴别器,表明对抗博弈达到平衡,得到最终的融合结果;
红外鉴别器与可见光鉴别器具有相同的网络结构,均由4个卷积层和1个全连接层组成,所有卷积层均采用3×3核大小和LeakyReLU激活函数,步长为2,相应的卷积层的输入通道分别为1、16、32、64,输出通道数分别为16、32、64、128。
4.根据权利要求2所述的红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,S03还包括;
以红外图像与可见光图像作为训练数据集,采用L2范数约束融合结果与红外图像之间数据分布相似度,L1范数来约束融合结果与可见光图像之间数据分布相似度,设计的损失函数监督网络模型训练,获得最优的网络模型参数。
5.根据权利要求3所述的红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,
损失函数包括生成器损失函数和鉴别器损失函数;
生成器损失函数由内容损失和对抗损失两部分组成,表示为
Figure 211840DEST_PATH_IMAGE027
,其 中,
Figure 187886DEST_PATH_IMAGE028
表示生成器损失函数,
Figure 268537DEST_PATH_IMAGE029
Figure 443166DEST_PATH_IMAGE030
分别表示内容损失函数和对抗损失函数,参数
Figure 778332DEST_PATH_IMAGE031
用于控制两个损失函数之间的平衡;
对于内容损失函数,分别采用L1范数和L2范数来约束融合结果与源图像之间的分布相似性,表示为
Figure 38412DEST_PATH_IMAGE032
其中,
Figure 117227DEST_PATH_IMAGE033
Figure 146363DEST_PATH_IMAGE034
Figure 183589DEST_PATH_IMAGE035
分别表示融合结果、红外图像和可见光图像,
Figure 399807DEST_PATH_IMAGE036
Figure 813470DEST_PATH_IMAGE037
分 别表示L1范数和L2范数,参数
Figure 165954DEST_PATH_IMAGE038
为平衡系数。
6.根据权利要求5所述的红外与可见光图像跨尺度注意力对抗融合方法,其特征在于,
在鉴别器设计中,采用红外鉴别器
Figure 639661DEST_PATH_IMAGE039
和可见光鉴别器
Figure 608754DEST_PATH_IMAGE040
来区分融合结果
Figure 29371DEST_PATH_IMAGE033
与 可见光图像
Figure 33099DEST_PATH_IMAGE035
、红外图像
Figure 880969DEST_PATH_IMAGE034
的数据分布,相应的对抗损失函数表示为
Figure 337359DEST_PATH_IMAGE041
根据双鉴别器按照梯度约束原理,设计相应各自的损失函数,分别表示为
Figure 561666DEST_PATH_IMAGE042
Figure 419901DEST_PATH_IMAGE043
其中,
Figure 235410DEST_PATH_IMAGE044
表示梯度算子,第一项和第二项分别表示Wasserstein距离估计和梯度惩罚,
Figure 647937DEST_PATH_IMAGE045
为正则化参数。
7.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述红外与可见光图像跨尺度注意力对抗融合方法的步骤。
CN202211223894.1A 2022-10-09 2022-10-09 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 Active CN115311186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223894.1A CN115311186B (zh) 2022-10-09 2022-10-09 一种红外与可见光图像跨尺度注意力对抗融合方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223894.1A CN115311186B (zh) 2022-10-09 2022-10-09 一种红外与可见光图像跨尺度注意力对抗融合方法及终端

Publications (2)

Publication Number Publication Date
CN115311186A CN115311186A (zh) 2022-11-08
CN115311186B true CN115311186B (zh) 2023-02-03

Family

ID=83867337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223894.1A Active CN115311186B (zh) 2022-10-09 2022-10-09 一种红外与可见光图像跨尺度注意力对抗融合方法及终端

Country Status (1)

Country Link
CN (1) CN115311186B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315428B (zh) * 2023-10-30 2024-04-05 燕山大学 一种跨模态特征对齐融合的人群计数系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN113139585A (zh) * 2021-03-30 2021-07-20 太原科技大学 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法
CN114049488A (zh) * 2022-01-07 2022-02-15 济南和普威视光电技术有限公司 一种多维信息融合的远距离弱小目标检测方法和终端
CN115035003A (zh) * 2022-04-11 2022-09-09 太原科技大学 交互补偿注意力的红外与可见光图像对抗融合方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145131B (zh) * 2019-11-28 2023-05-26 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法
CN111161201B (zh) * 2019-12-06 2022-05-31 北京理工大学 基于细节增强通道注意力的红外与可见光图像融合方法
CN114782298B (zh) * 2022-04-24 2024-03-12 西安交通大学 一种具有区域注意力的红外与可见光图像融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664722B1 (en) * 2016-10-05 2020-05-26 Digimarc Corporation Image processing arrangements
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN113139585A (zh) * 2021-03-30 2021-07-20 太原科技大学 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法
CN114049488A (zh) * 2022-01-07 2022-02-15 济南和普威视光电技术有限公司 一种多维信息融合的远距离弱小目标检测方法和终端
CN115035003A (zh) * 2022-04-11 2022-09-09 太原科技大学 交互补偿注意力的红外与可见光图像对抗融合方法

Also Published As

Publication number Publication date
CN115311186A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
US11232286B2 (en) Method and apparatus for generating face rotation image
CN112308200B (zh) 神经网络的搜索方法及装置
CN110222717B (zh) 图像处理方法和装置
CN110222718B (zh) 图像处理的方法及装置
CN112598597A (zh) 一种降噪模型的训练方法及相关装置
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN110968734A (zh) 一种基于深度度量学习的行人重识别方法及装置
CN111832592A (zh) Rgbd显著性检测方法以及相关装置
CN115035003A (zh) 交互补偿注意力的红外与可见光图像对抗融合方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN113569598A (zh) 图像处理方法和图像处理装置
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN113191489A (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN113627504B (zh) 基于生成对抗网络的多模态多尺度特征融合目标检测方法
CN115222896A (zh) 三维重建方法、装置、电子设备及计算机可读存储介质
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN113724308A (zh) 基于光度与对比度互注意力的跨波段立体匹配算法
CN113705361A (zh) 活体检测模型的方法、装置及电子设备
CN116883303A (zh) 基于特征差分补偿与融合的红外与可见光图像融合方法
CN116309170A (zh) 一种输电线路巡检图像去雾方法和装置
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法
CN115527159A (zh) 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN113343807A (zh) 一种重构引导下的复杂场景的目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant