CN114022742B - 红外与可见光图像融合方法、装置及计算机存储介质 - Google Patents
红外与可见光图像融合方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN114022742B CN114022742B CN202111233479.XA CN202111233479A CN114022742B CN 114022742 B CN114022742 B CN 114022742B CN 202111233479 A CN202111233479 A CN 202111233479A CN 114022742 B CN114022742 B CN 114022742B
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- loss
- network
- fusion method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 41
- 238000003860 storage Methods 0.000 title claims description 10
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000002401 inhibitory effect Effects 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种红外与可见光图像融合方法,所述图像融合方法包括步骤:S1、获取红外与可见光图像的源图像数据集,并进行数据集扩增;S2、设计联合注意力机制,通过所述联合注意力机制提取扩增后的源图像数据集中的特征,并抑制噪声信息;S3、构建网络模型,所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块;S4、对所述网络模型进行训练与测试,将源图像输入训练后的网络模型,得到融合图像。通过本发明的图像融合方法获得的融合图像纹理细节丰富、红外目标显著,具有更好的视觉效果。
Description
技术领域
本发明属于图像融合技术领域,具体涉及一种红外与可见光图像融合方法、装置及计算机存储介质,更具体的涉及一种基于深度学习和联合注意力机制的红外与可见光图像融合方法、装置及计算机存储介质。
背景技术
随着计算机科学、集成电路系统以及传感器技术的发展,图像的获取方式不再局限于单一的传感器。不同传感器获得的不同模态图像可反映同一场景或物体的不同特征。将不同模态图像融合可对特征进行针对性互补,构建信息量丰富且可靠的融合图像。红外图像反映场景中不同物体的热辐射强度,不易受天气条件、环境因素等影响,但是图像的分辨率较低。可见光传感器根据物体反射率成像,图像中环境细节丰富,具有较高的解析度。但是可见光成像受光照条件等影响较大,存在探测距离较短、环境适应性差等缺点。将红外与可见光图像融合可获得目标显著和环境细节丰富的融合图像,有利于实现全天候隐藏目标探查、识别等军事任务,也可为公共安全、工业生产、天文图像分析等提供支持,具有重要研究意义。
目前,依据特征提取方式及融合实现过程的不同,图像融合方法主要分为传统融合方法和基于深度学习的融合方法两大类。传统方法发展较早,主要以多尺度变换、稀疏表示及其他空间域方法为主。由于其需要人为手动设计复杂的活动水平测量方法及融合规则,融合模型的灵活性和拓展性较差。为提高融合效果,大量的变换和分解计算严重影响融合效率,瓶颈问题逐渐显现。近年来,人工智能领域中深度学习方法在图像处理中优势逐步显现。基于卷积神经网络的融合方法具有较强的特征提取和表征能力,通过训练深层神经网络模型可自动实现对源图像特征的深度提取与融合,模型适应性强,计算效率较高,但同样面临多个问题。首先,由于无法获得融合图像标签,部分方法需要在其他数据集上采用有监督方式进行预训练,预训练结果对融合网络影响较大;其次,网络模型设计时,针对不同模态源图像的显著特征关注较少,融合图像视觉效果一般;此外,目前的融合网络损失函数设计无法实现更多的源图像信息保留至融合图像中。
发明内容
本发明为解决上述问题,提供一种基于深度学习和联合注意力机制的新型红外与可见光图像融合方法。
为实现上述目的,本发明采用以下具体技术方案:
本发明提供一种红外与可见光图像融合方法,所述图像融合方法包括步骤:
S1、获取红外与可见光图像的源图像数据集,并进行数据集扩增;
S2、设计联合注意力机制,通过所述联合注意力机制提取扩增后的源图像数据集中的特征,并抑制噪声信息;
S3、构建网络模型,所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块;
S4、对所述网络模型进行训练与测试,将源图像输入训练后的网络模型,得到融合图像。
优选地,所述源图像数据集包括源图像对,所述数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对。
优选地,设计的联合注意力机制中注意力子网络包括三个不同分支,每个分支均由通道注意力子网络和空间注意力子网络串联组成。
优选地,所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。
优选地,所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。
优选地,所述对网络模型进行训练包括通过混合损失函数对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。
优选地,所述混合损失函数包括结构相似性损失、感知损失和内容损失;
所述混合损失函数定义如下:
L=αLSSIM+βLPer+θLCon
L表示总损失,LSSIM表示结构相似性损失,LPer表示感知损失,LCon表示内容损失;α表示结构相似性损失的比例系数,β表示感知损失的比例系数,θ表示内容损失的比例系数。
优选地,所述图像融合方法还包括步骤:
S5、对所述融合图像进行综合评价,所述综合评价包括主观评价和客观评价;
所述主观评价包括人类视觉系统的观测效果;
所述客观评价包括通过熵、空间频率、标准差、平均结构相似性、相关系数、差异相似度以及融合视觉信息保真度指标的数值结果进行衡量。
另一方面,本发明还提供一种图像融合装置,所述图像融合装置包括存储器以及与所述存储器耦接的处理器;
所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的图像融合方法。
再另一方面,本发明还提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现上述的图像融合方法。
本发明所提供的基于深度学习和联合注意力机制的新型红外与可见光图像融合方法,构建了基于卷积神经网络的无监督端到端融合网络模型;引入了联合注意力机制和残差学习在通道维和空间维着重提取并保留源图像的显著特征;同时,在设计损失函数时将低层特征及高层特征相似性同时约束,保证网络模型训练的有效性。通过本发明的图像融合方法获得的融合图像纹理细节丰富、红外目标显著,具有更好的视觉效果。
附图说明
图1是本发明一种实施例中图像融合方法的流程图。
图2是本发明一种实施例中整个融合网络结构图。
图3是本发明一种实施例中通道注意力子网络结构图。
图4是本发明一种实施例中空间注意力子网络结构图。
图5是本发明一种实施例中感知损失计算过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
如图1和图2所示,图1为本发明一种实施例中基于深度学习和联合注意力机制的新型红外与可见光图像融合方法的流程图,图2为整个融合网络结构图。
在该具体实施例中,图像融合方法包括步骤:
S1、获取红外与可见光图像的源图像数据集,并进行数据集扩增;
S2、设计联合注意力机制,通过所述联合注意力机制提取扩增后的源图像数据集中的特征,并抑制噪声信息;
S3、构建网络模型,所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块;
S4、对所述网络模型进行训练与测试,将源图像输入训练后的网络模型,得到融合图像。
具体实施例中,步骤S1中,由于公开可获取的源图像数据较少,所述获取红外与可见光图像的源图像数据包括从TNO数据集中收集的41组已配准的红外与可见光图像对。这些图像对尺寸一致,图像场景一致。即所述源图像数据集包括源图像对;进一步的,进行数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对,即扩增为小尺寸图像对,使得扩增后的图像对数量达到上万组,获得最为合适的扩增后的数据集大小,以便提高对网络模型训练的有效性。
具体实施例中,步骤S2中设计的联合注意力机制中注意力子网络包括三个不同分支,每个分支均由通道注意力子网络和空间注意力子网络串联组成;所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。不同的感受野可以为各种,具体优选的,所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。通过所设计的所述联合注意力机制提取扩增后的源图像数据集中的特征,并抑制噪声信息;具体的,每个分支中的空间注意力子网络采用不同的感受野进行卷积计算,可获得不同尺度图像特征。将三个不同尺度图像特征进行级联作为解码网络输入,可有效提升最终所获得的融合图像的质量。
本发明具体实施例中所设计的联合注意力机制不同于常规的注意力机制,本发明中注意力机制由通道注意力机制和空间注意力机制联合实现,既能让神经网络学会“看什么”,又能让神经网络理解“看哪里”,能有效提取并保留不同源图像中显著特征。使得最终获得的融合图像能够更好地体现红外目标及可见细节,图像视觉效果得到较大提升。而且,联合注意力机制由通道注意力及空间注意力串联组成,在通道维对特征重要性进行分配后,在空间维进一步计算各通道特征的有效性。不同注意力分支中,空间注意力采用不同的感受野进行特征提取,多尺度注意力特征级联后有助于解码输出信息丰富的融合图像。
具体实施例中,通道注意力子网络结构图如图3所示;通道注意力子网络的机制变换公式如式(1)所示:
FC=Fb*σ(MLP(AP(Fb))+MLP(MP(Fb))) 式(1)
其中,Fb表示输入通过融合网络中第一个卷积层后得到的基础特征图,AP和MP分别表示平均池化和最大池化,MLP表示多层感知网络,σ表示激活函数,FC表示通道注意力特征,“*”表示相乘。
具体实施例中,空间注意力子网络结构图如图4所示;空间注意力子网络的机制变换公式如式(2)所示:
FS=FC*σ(Conv(AP(FC);MP(FC))) 式(2)
其中,Conv表示卷积计算,FS表示空间注意力特征,“;”表示通道维级联。
所设计的联合注意力机制的变换公式如式(3)所示:
FA=Fb+FS 式(3)
其中,FA表示联合注意力特征,所设计的联合注意力机制中注意力子网络的每个分支注重不同尺度特征,在本具体实施例中用FA(3*3),FA(5*5)和FA(7*7)分别表示3个不同尺度的注意力特征。
具体实施例中,基于步骤S2中设计的联合注意力机制构建网络模型,即步骤S3,所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块。裁剪后的红外与可见光图像在通道维连接,通过图像输入模块输入至第一层卷积,将2通道源图像转换为64通道特征图输出。联合注意力机制编码模块将64通道特征图作为输入,分成三个分支提取不同尺度源图像显著特征。每个分支各输出64通道,将三个分支输出的特征图级联,形成192通道特征图作为卷积解码模块输入。解码模块通过四层卷积将特征图转换为单通道融合图像输出。其中,联合注意力机制编码模块和卷积解码模块中均通过跳跃连接引入残差学习,使得源图像信息得到有效保留。
本发明所构建的网络模型中引入联合注意力机制,能够重点关注不同源图像的突出信息,在特征提取过程中保留显著目标及纹理细节,抑制无用噪声,使得融合图像包含更多的有用特征,图像质量得到提升。
具体实施例中,在构建网络模型后,对网络模型进行训练与测试,即步骤S4,具体的,对网络模型进行训练包括通过混合损失函数对融合图像与源图像的相似性进行全面约束,具体的,全面约束包括对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。所述混合损失函数包括结构相似性损失、感知损失和内容损失。其中,结构相似性损失作为基础损失,感知损失通过约束感知网络输出,保证源图像和融合图像高层特征相似性,内容损失则从图像梯度和强度角度约束源图像和融合图像低层特征相似性。
具体的,混合损失函数定义如式(4)所示:
L=αLSSIM+βLPer+θLCon 式(4)
L表示总损失,LSSIM表示结构相似性损失,LPer表示感知损失,LCon表示内容损失;α表示结构相似性损失的比例系数,β表示感知损失的比例系数,θ表示内容损失的比例系数。
结构相似性损失定义如式(5)所示:
LSSIM=1-(w·SSIM(I,F)+(1-w)·SSIM(V,F)) 式(5)
其中,SSIM(~)为结构相似性损失计算,I,V,和F分别表示红外图像、可见光图像和融合图像,w表示比例系数。
感知损失计算过程示意图如图5所示;感知损失定义如式(6)所示:
其中,φ表示感知网络,YI和YF表示模拟的三通道源图像和三通道融合图像,j表示第几个卷积层,CjHjWj表示Cj个尺寸为HjWj的特征图的参数总数。采用L2范数进行损失计算。
内容损失定义如式(7)所示:
其中,表示梯度计算,HW表示特征图尺寸。采用Frobenius范数进行损失计算。
具体实施例中,网络模型训练包括多个迭代周期,每个迭代周期结束后进行一组图像输出测试,通过网络模型多周期迭代训练与测试同步,获得最优的网络模型。具体的,每个迭代周期包括多次训练,每次均以小批量(Mini-Batch)方式进行输入,保证反向传播的有效性。训练时,选择Adam优化器对损失进行计算,该自适应优化算法具有较好的适应性和收敛效果。图像测试时,将10组未裁剪的图像对分别作为输入,采用端到端的方式得到测试图像输出。最终得到训练后的网络模型,直接将源图像输入训练后的网络模型,即可得到融合图像。
本发明构建的深度卷积神经网络模型为无监督端到端模型,无需在其他数据集上进行预训练,训练后的模型可根据输入源图像直接输出融合图像。
本发明具体实施例所提供的基于深度学习和联合注意力机制的新型红外与可见光图像融合方法,与传统方法相比,无需人工手动设计复杂的活动水平测量方法及融合规则,可通过训练深层卷积网络自动提取图像特征并融合。同时,联合注意力机制的引入,使得融合目标更为明确,突出特征得以保留,能有效提升融合图像质量及视觉效果。
进一步的具体实施例中,本发明的图像融合方法还包括对图像质量进行评价的步骤,通过对图像质量的综合评价,进一步优化本发明的图像融合方法,还可以由源图像输入训练和测试后的网络模型得到融合图像,并根据评价结果保留最优输出。
对图像质量进行评价具体包括步骤S5、对所述融合图像进行综合评价,所述综合评价包括主观评价和客观评价;所述主观评价包括人类视觉系统的观测效果;所述客观评价包括通过熵(EN)、空间频率(SF)、标准差(SD)、平均结构相似性(MSSIM)、相关系数(CC)、差异相似度(SCD)及融合视觉信息保真度(VIFF)的数值结果进行衡量。
以下通过具体测试进一步说明本发明的图像融合方法所带来的效果。
将本发明具体实施例提供的红外与可见光图像融合方法,在高性能GPU上进行训练与测试。硬件平台采用Intel E5-2690 V3处理器,TITAN V GPU,64G内存。软件平台基于Ubantu系统,版本为16.04,采用CUDA 9.0以及TensorFlow 1.12.0搭建软件环境,通过Python进行编程。
通过上述步骤进行训练与测试,采用多个客观评价指标将本发明具体实施例得到的融合图像与多种传统及深度学习融合方法得到的融合图像进行数值结果比较。表1为各对比方法缩写及名称介绍。
表1对比方法缩写及名称
表2为融合图像质量客观评价结果。熵、空间频率和标准差分别表示融合图像本身的信息量、清晰度及对比度;结构相似性能够综合衡量融合图像与源图像在亮度、对比度及结构特性上的相似性;相关系数和差异相似度可以表征融合图像与源图像所包含信息的相关性;融合视觉信息保真度是一种基于人眼视觉系统的感知性指标,该指标数据越高,表明融合图像越清晰、越自然、越利于人眼进行观察。表内数值为10组测试图像在各指标下计算的平均值,各指标数值越大代表越好。
表2融合图像质量客观评价结果
从表2中可以看出,在7个评价指标中,本发明所提供的图像融合方法在4个指标中取得最大值,尤其是融合视觉信息保真度指标较突出。这表明本发明所获得的融合图像质量较高,信息全面且视觉效果好。在其他3个指标中,本发明同样取得不错的数值结果。综合来看,本发明所提供的图像融合方法在红外与可见光图像融合中具有较大的优势。
为了实现上述的图像融合方法,本发明还提供了一种图像融合装置。本实施例的图像融合装置包括获取模块、计算模块以及处理模块。
其中,获取模块用于获取红外与可见光图像的源图像数据集。计算模块用于进行数据集扩增,并基于设计的联合注意力机制构建网络模型。处理模块用于对网络模型进行训练与测试,并将源图像输入训练后的网络模型,得到融合图像。
为了实现上述的图像融合方法,本发明还提供了另外一种图像融合装置,本实施例的图像融合装置包括处理器、存储器、输入输出设备以及总线。
该处理器存储器、输入输出设备分别与总线相连,该存储器中存储有计算机程序,处理器用于执行计算机程序以实现上述实施例所述的图像融合方法。
在本实施例中,处理器还可以称为CPU(Central Processing Unit,中央处理单元)。处理器可能是一种集成电路芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明还提供一种计算机存储介质,计算机存储介质用于存储计算机程序,计算机程序在被处理器执行时,用以实现如本发明提供的图像融合方法实施例中所述的方法。
本发明提供的图像融合方法实施例中所涉及到的方法,在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时,可以存储在装置中,例如一个计算机可读取存储介质。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制。本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
以上本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (9)
1.一种红外与可见光图像融合方法,其特征在于,所述图像融合方法包括步骤:
S1、获取红外与可见光图像的源图像数据集,并进行数据集扩增;
S2、设计联合注意力机制,通过所述联合注意力机制提取扩增后的源图像数据集中的特征,并抑制噪声信息;设计的联合注意力机制中注意力子网络包括三个不同分支,每个分支均由通道注意力子网络和空间注意力子网络串联组成;
S3、构建网络模型,所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块;
S4、对所述网络模型进行训练与测试,将源图像输入训练后的网络模型,得到融合图像;
注意力子网络的机制变换公式如式(1)所示:
F C = F b * σ( MLP( AP( F b ) ) + MLP( MP( F b ) ) ) 式(1)
其中,F b表示输入通过融合网络中第一个卷积层后得到的基础特征图,AP和MP分别表示平均池化和最大池化,MLP表示多层感知网络,σ表示激活函数,F C表示通道注意力特征,“*”表示相乘;
空间注意力子网络的机制变换公式如式(2)所示:
F S = F C * σ( Conv ( AP( F C ) ; MP( F C ) ) )式(2)
其中,Conv表示卷积计算,F S表示空间注意力特征,“;”表示通道维级联;
所设计的联合注意力机制的变换公式如式(3)所示:
F A = F b + F S式(3)
其中,F A表示联合注意力特征,所设计的联合注意力机制中注意力子网络的每个分支注重不同尺度特征,用F A(3*3),F A(5*5)和F A(7*7)分别表示3个不同尺度的注意力特征;将3个不同尺度图像特征进行级联作为解码网络输入通道;
步骤S3中所述网络模型至少包括图像输入模块、联合注意力机制编码模块以及卷积解码模块。
2.如权利要求1所述的图像融合方法,其特征在于,所述源图像数据集包括源图像对,所述数据集扩增包括通过移动裁剪的方式将源图像对扩增为尺寸为128*128像素的图像对。
3.如权利要求1所述的图像融合方法,其特征在于,所述每个分支中的空间注意力子网络分别采用不同的感受野进行卷积计算。
4.如权利要求3所述的图像融合方法,其特征在于,所述不同的感受野分别包括3*3的卷积核、5*5的卷积核和7*7的卷积核。
5.如权利要求1所述的图像融合方法,其特征在于,对网络模型进行训练包括通过混合损失函数对融合图像与源图像的间结构特性、高层特征及底层特征相似性进行约束。
6.如权利要求5所述的图像融合方法,其特征在于,所述混合损失函数包括结构相似性损失、感知损失和内容损失;
所述混合损失函数定义如下:
L表示总损失,L SSIM表示结构相似性损失,L Per表示感知损失,L Con表示内容损失;α表示结构相似性损失的比例系数,β表示感知损失的比例系数,θ表示内容损失的比例系数。
7.如权利要求1所述的图像融合方法,其特征在于,所述图像融合方法还包括步骤:
S5、对所述融合图像进行综合评价,所述综合评价包括主观评价和客观评价;
所述主观评价包括人类视觉系统的观测效果;
所述客观评价包括通过熵、空间频率、标准差、平均结构相似性、相关系数、差异相似度以及融合视觉信息保真度指标的数值结果进行衡量。
8.一种图像融合装置,其特征在于,所述图像融合装置包括存储器以及与所述存储器耦接的处理器;
所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~7中任一项所述的图像融合方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1~7中任一项所述的图像融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111233479.XA CN114022742B (zh) | 2021-10-22 | 2021-10-22 | 红外与可见光图像融合方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111233479.XA CN114022742B (zh) | 2021-10-22 | 2021-10-22 | 红外与可见光图像融合方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022742A CN114022742A (zh) | 2022-02-08 |
CN114022742B true CN114022742B (zh) | 2024-05-17 |
Family
ID=80057090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111233479.XA Active CN114022742B (zh) | 2021-10-22 | 2021-10-22 | 红外与可见光图像融合方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022742B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693577B (zh) * | 2022-04-20 | 2023-08-11 | 合肥工业大学 | 一种基于Transformer的红外偏振图像融合方法 |
CN116363036B (zh) * | 2023-05-12 | 2023-10-10 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709903A (zh) * | 2020-05-26 | 2020-09-25 | 中国科学院长春光学精密机械与物理研究所 | 一种红外与可见光图像融合方法 |
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN112084868A (zh) * | 2020-08-10 | 2020-12-15 | 北京航空航天大学 | 一种基于注意力机制的遥感图像中目标计数方法 |
CN112561838A (zh) * | 2020-12-02 | 2021-03-26 | 西安电子科技大学 | 基于残差自注意力和生成对抗网络的图像增强方法 |
CN112634137A (zh) * | 2020-12-28 | 2021-04-09 | 西安电子科技大学 | 基于ae提取多尺度空谱特征的高光谱和全色图像融合方法 |
CN112712481A (zh) * | 2021-01-11 | 2021-04-27 | 中国科学技术大学 | 一种针对弱光图像增强的结构-纹理感知方法 |
CN112883992A (zh) * | 2020-12-11 | 2021-06-01 | 太原理工大学 | 基于注意力的ResNet模型的乳腺癌肿块的分类方法 |
CN113158815A (zh) * | 2021-03-27 | 2021-07-23 | 复旦大学 | 一种无监督行人重识别方法、系统及计算机可读介质 |
-
2021
- 2021-10-22 CN CN202111233479.XA patent/CN114022742B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709902A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 基于自注意力机制的红外和可见光图像融合方法 |
CN111709903A (zh) * | 2020-05-26 | 2020-09-25 | 中国科学院长春光学精密机械与物理研究所 | 一种红外与可见光图像融合方法 |
CN112084868A (zh) * | 2020-08-10 | 2020-12-15 | 北京航空航天大学 | 一种基于注意力机制的遥感图像中目标计数方法 |
CN112561838A (zh) * | 2020-12-02 | 2021-03-26 | 西安电子科技大学 | 基于残差自注意力和生成对抗网络的图像增强方法 |
CN112883992A (zh) * | 2020-12-11 | 2021-06-01 | 太原理工大学 | 基于注意力的ResNet模型的乳腺癌肿块的分类方法 |
CN112634137A (zh) * | 2020-12-28 | 2021-04-09 | 西安电子科技大学 | 基于ae提取多尺度空谱特征的高光谱和全色图像融合方法 |
CN112712481A (zh) * | 2021-01-11 | 2021-04-27 | 中国科学技术大学 | 一种针对弱光图像增强的结构-纹理感知方法 |
CN113158815A (zh) * | 2021-03-27 | 2021-07-23 | 复旦大学 | 一种无监督行人重识别方法、系统及计算机可读介质 |
Non-Patent Citations (5)
Title |
---|
A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型;高丹等;《中国电子科学研究院学报》;20200620(第06期);全文 * |
CBAM: Convolutional Block Attention Module;Sanghyun Woo.et al;《Arxiv》;20181231;全文 * |
NestFuse: An Infrared and Visible Image Fusion Architecture Based on Nest Connection and Spatial/Channel Attention Models;Hui Li.et al;《IEEE》;20200629;第69卷(第12期);全文 * |
Selective kernel networks;X. Li.et al;《CVPR》;20201231;全文 * |
基于深度学习的目标检测与识别算法研究;韩伊娜;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114022742A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | BS-Nets: An end-to-end framework for band selection of hyperspectral image | |
CN112651978B (zh) | 舌下微循环图像分割方法和装置、电子设备、存储介质 | |
Roy et al. | Deep learning based real-time Industrial framework for rotten and fresh fruit detection using semantic segmentation | |
CN111709903B (zh) | 一种红外与可见光图像融合方法 | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
CN114022742B (zh) | 红外与可见光图像融合方法、装置及计算机存储介质 | |
CN113095409B (zh) | 基于注意力机制和权值共享的高光谱图像分类方法 | |
CN111680176A (zh) | 基于注意力与双向特征融合的遥感图像检索方法及系统 | |
CN112464717B (zh) | 一种遥感图像目标检测方法、系统、电子设备和存储介质 | |
Wazir et al. | HistoSeg: Quick attention with multi-loss function for multi-structure segmentation in digital histology images | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
CN110321943A (zh) | 基于半监督深度学习的ct图像分类方法、系统、装置 | |
CN114937173A (zh) | 一种基于动态图卷积网络的高光谱图像快速分类方法 | |
CN112036249A (zh) | 端对端行人检测及属性识别的方法、系统、介质及终端 | |
Jenifa et al. | Classification of cotton leaf disease using multi-support vector machine | |
Mukilan et al. | Human object detection: An enhanced black widow optimization algorithm with deep convolution neural network | |
CN116168235A (zh) | 一种基于双分支注意力网络的高光谱图像分类方法 | |
CN114511733A (zh) | 基于弱监督学习的细粒度图像识别方法、装置及可读介质 | |
CN116740567A (zh) | 用于泡桐幼苗栽培的土壤含水率检测方法及系统 | |
Goutham et al. | Brain tumor classification using EfficientNet-B0 model | |
CN116311504A (zh) | 一种小样本行为识别方法、系统及设备 | |
US20230004791A1 (en) | Compressed matrix representations of neural network architectures based on synaptic connectivity | |
CN117036181A (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
Rao et al. | Classification of land cover usage from satellite images using deep learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |