CN111709902A - 基于自注意力机制的红外和可见光图像融合方法 - Google Patents
基于自注意力机制的红外和可见光图像融合方法 Download PDFInfo
- Publication number
- CN111709902A CN111709902A CN202010436324.5A CN202010436324A CN111709902A CN 111709902 A CN111709902 A CN 111709902A CN 202010436324 A CN202010436324 A CN 202010436324A CN 111709902 A CN111709902 A CN 111709902A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- self
- loss
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 51
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000010586 diagram Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000006641 stabilisation Effects 0.000 claims description 2
- 238000011105 stabilization Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007903 penetration ability Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
基于自注意力机制的红外和可见光图像融合方法,属于图像融合领域。主要解决图像融合时忽略人眼主观感受的重要性问题。其实现步骤是:1)搭建基于自注意力机制的深度自编码网络结构,以端到端的方式对特征提取,融合规则和重构规则同时学习;2)将编码层不同分支的特征图输入自注意力机制获得注意力图,并采用均值融合策略获得输出特征图;3)设计内容损失和细节损失两类损失函数,分别用于突出红外目标信息,锐化边缘和更好地利用源图像中的纹理细节;4)训练神经网络,并对自注意力机制进行可视化以调整网络结构和损失函数。本发明能通过学习注意力图以最佳方式分配注意力,获取图像关键信息,改善视觉效果,提高融合图像的质量。
Description
技术领域
本发明属于图像融合领域,涉及一种基于自注意力机制的红外和可见光图像融合方法,在军事监测、视频监控和计算机视觉等领域中有广泛的应用。
背景技术
红外和可见光图像的融合在视频监控、物体检测和目标识别等领域有重要意义。红外传感器能够捕获场景的热信息,对于外界环境具备较强的抗干扰能力和目标识别能力。但在成像效果,信噪比等方面表现一般,易缺失背景细节,分辨率较低。可见光传感器可获取图像的几何和纹理细节以及色彩信息,利用光的反射率成像,因此具备光谱信息丰富,分辨率高,动态范围广等特点。但在恶劣天气情况下,由于其穿透能力变弱,易丢失重要目标。红外和可见光图像融合的目标是整合红外传感器和可见光传感器获取图像的优势合成理想的融合图像,可以同时获得的突出的目标与清晰的背景。
在过去一段时间,一些经典的图像融合算法被提出,主要包括多尺度变换、稀疏表示、神经网络和子空间等。基于多尺度变换融合算法是图像融合算法中应用最为广泛的,具体地,首先将源图像转换至变换域,然后将分解系数与预先设计的融合规则合并,最后通过执行相应的逆变换获得融合图像。但基于多尺度变换方法需手工设计融合规则,应用场景受限。最近,深度学习技术广泛应用于各种图像融合任务,并在图像融合领域取得巨大的成功。深度学习作为一种特征学习方法,具有强大的数据建模能力,可以从数据中提取特征信息,把原始数据通过简单非线性模型转换为更高层次,更加抽象的表达。深度学习具备自适应性,避免了手工设计的复杂性,能够在深度网络权重的迭代过程中提高特征的提取和学习能力。然而,目前基于深度学习的融合方法存在以下四个挑战:(1)大部分采用有监督学习策略,图像标签数据的精确度直接影响了分类的精确度,从而影响了融合规则和融合效果;(2)仅利用最后一层的输出设计融合策略,这忽略了中间层的重要信息;(3)卷积神经网络一般是局部操作,受到感受野大小的限制很难提取到图像中长距离依赖;(4)忽略了人眼主观感受对融合结果的重要性。
注意力机制作为神经网络结构的重要组成部分,通过模仿生物观察行为的内部过程,将内部经验和外部感觉对齐从而增加部分区域的观察精细度,在自然语言处理、统计学习和计算机视觉等领域有着广泛的应用。自注意力机制即内注意力,是对注意力机制的改进,通过关注同一序列中所有位置来计算序列中每个位置的响应程度,这有利于降低对训练数据的依赖性和获取特征内部相关性。自注意力机制不仅能够捕捉全局的信息来获得更大的感受野和上下文信息,而且将所有位置的特征加权和作为单个位置的注意力度,在建立长距离依赖模型和提高计算效率间实现平衡。本发明提出了基于自注意力机制的红外和可见光图像融合方法,基于深度自编码网络设计融合策略,无需标签数据,结合自注意力机制设计均值融合策略,设计了内容损失和细节损失两类损失函数,分别用于强化红外显著目标,锐化边缘和更好地利用源图像中的纹理细节,并根据注意力图进行损失函数的调整,获得了较优的融合结果,提高了融合图像的质量。
发明内容
本发明的目的是针对上述现有技术的不足,提出一种基于自注意力机制的红外和可见光图像融合方法,以解决忽略人眼主观感受的问题,通过内容损失和细节损失驱动自注意力单元获得关键信息,增强图像清晰度,改善视觉效果,提高融合图像的质量。本发明解决其问题所采用的技术方案如下:
基于自注意力机制的红外和可见光图像融合方法,步骤如下:
1)搭建基于自注意力机制的深度自编码网络结构,以端到端的方式对特征提取、融合规则和重构规则同时学习;
本发明的深度自编码网络包括编码层、融合层和解码层。编码层包含两个分支,每个分支包括3个卷积核大小3*3的可训练卷积层,每个卷积层后接Relu层。融合层将编码层输出的特征图分别输入三个卷积核大小为1*1的可训练卷积层,通过矩阵运算与Softmax操作获得输入图像的注意力图,并结合编码层的输出利用均值加权策略融合两个分支。解码层与编码层形成镜面对称,包含四个卷积核大小为3*3的可训练卷积层,最后一个卷积层用于输出与源图像大小相同的融合图像。
2)将编码层不同分支的特征图输入自注意力机制获得注意力图,并采用均值融合策略融合注意力图和编码层输出特征图;
2.1)获取编码层不同分支的注意力图。
本发明定义深度自编码网络编码层的输出为x∈RC×H,其中,C为编码层输出特征图的通道数,H为编码层输出特征图每个通道特征点的数量。
首先将x转换至s和o的特征空间中。
s(xi)=Wsxi,o(xj)=Woxj
接着计算s(xi)与o(xj)的自相关矩阵,并对其进行归一化处理。
其中,φ(i,j)=s(xi)To(xj),θj,i表示第j个位置对第i个位置的影响程度。
最后计算自注意力机制的输出。
2.2)采用均值融合策略融合注意力图和编码层输出特征图。
在本发明中,编码层的输出为fk,k=1是源图像I,k=2是源图像V。将fk输入注意力机制可分别得到不同源图像的注意力图Z1和Z2。最后结合编码层的输出使用加权平均策略获得融合层的输出,以输入解码层重构得融合图像。
其中,yi表示融合层输出的第i个特征图。
3)设计内容损失和细节损失,分别用于突出红外目标信息,锐化边缘和更好地利用源图像中的纹理细节;
本发明方法中深度自编码网络的损失包括内容损失与细节损失,内容损失包括结构相似度Lssim、像素级损失Lmse和梯度损失Lgradient,细节损失为感知损失Lperceptual。具体定义如下:
内容损失将融合图像限制为像素强度与红外图像相似,梯度变化与可见光图像相似,并对两者的相似程度进行均值补充。细节损失目的在于将更多的细节信息融入融合图像中。我们将结构相似度,像素级损失和梯度损失定义为内容损失,将感知损失定义为细节损失,并使用α,β,γ,μ权重参数来平衡不同损失函数。
3.1)计算融合图像与源图像的结构相似度。
首先计算融合图像F和输入图像X间的结构相似度。人类的视觉系统对结构损失和变形较为敏感,因此可用结构相似度(SSIM)以更加直观的方法比较失真图像和参考图像的结构信息。传统结构相似度SSIM主要由三部分组成:相关度、亮度和对比度,这三个部分的乘积是融合图像的评估结果。
式中,SSIM(X,F)表示源图像X和融合图像F的结构相似度;μx和σx表示图像X每个图像块的均值和标准差;μf和σf表示图像F每个图像块的均值和标准差;σxf表示图像X和图像F之间的协方差;C1,C2和C3是用于算法稳定的参数。
接着在传统结构相似度的基础上对融合图像与多个源图像间的结构相似度采用均值融合策略:
其中,I和V是不同的输入源图像,F是融合图像,SSIM(I,F|ω)和SSIM(V,F|ω)分别为图像I,图像V与融合图像F的结构相似度,sim(I,V,F|ω)计算如下:
式中,σIF表示源图像I和融合图像F的协方差,σVF表示源图像V和融合图像F的协方差,ω表示图像上的滑窗块。
3.2)计算融合图像和源图像的像素级损失。
首先计算融合图像F和源图像I间的均方误差。均方误差(MSE)是用于度量源图像和融合图像之间的差异程度,均方误差的值和融合图像质量成反比关系,其值越小,融合图像质量越高:
其中I表示输入的源图像,F表示网络最终输出的融合图像,D表示源图像I和融合图像F的均方误差,x和y分别为图像中像素点的横坐标和纵坐标。
然后对D(x,y)进行降序排序,选取前k个像素值均值处理后作为像素级损失的输出。
3.3)计算融合图像和源图像的梯度均方误差。
首先分别计算源图像V和融合图像F的空间频率SFV和SFF。
其中,RF和CF分别为图像X的空间行频率和空间列频率。
其中,M和N分别表示图像X的宽度和高度;然后计算源图像V和融合图像F空间频率间的梯度均方误差。
3.4)根据感知网络计算融合图像和源图像的感知损失。
感知损失是融合图像F和源图像V在τ网络中第j层输出的特征图之间的均方误差,计算如下:
其中,τv和τf表示源图像V和融合图像F在第j层的特征图。C,M和N表示特征图的通道数,宽度和高度。
4)训练神经网络,并对自注意力机制进行可视化以调整网络结构和损失函数;
训练神经网络,将融合层每个分支的注意力图以图像的格式进行保存。根据人工经验在输入图像上选取关键点,并对其进行可视化以观察网络的关键信息分配效能。同时结合关键点的注意力图,融合结果和客观评价指标调整网络深度和多任务损失函数中的超参数。
本发明相对比现有的基于深度学习的红外和可见光图像融合方法具有如下特点:
1、本发明采用双通道对称深度自编码网络,以端到端的方式对特征提取,融合规则和重构规则同时学习,避免丢失细节,从而增加图像的信息量和清晰度。
2、本发明采用结合自注意力机制的均值融合策略,相比较基于深度学习的方法利用卷积神经网络提取局部特征,自注意力单元能够获取图像全局的长距离依赖,捕获关键信息,忽略无效信息,获得质量更好的融合图像。
3、本发明设计了两类损失函数,即内容损失和细节损失以改善融合性能。内容损失旨在突出红外目标信息和锐化边缘,细节损失目的是更好地利用源图像中的纹理信息。
附图说明
图1是本发明的整体融合框架图。
图2是本发明基于自注意力机制的深度自编码网络结构图。
图3是本发明第一个实施实例结果图。其中,(a)是本发明一个实施例的待融合红外图像;(b)是本发明一个实施例的待融合可见光图像;(c)是基于拉普拉斯金字塔(LP)的融合图像;(d)是基于双树复小波分解(DTCWT)的融合图像;(e)是基于曲波变换(CVT)的融合图像;(f)是基于梯度金字塔(GP)的融合图像;(g)是基于卷积稀疏表示(CSR)的融合图像;(h)是DeepFuse的融合图像;(i)是DenseFuse的融合图像;(j)是基于卷积神经网络的通用图像融合框架(IFCNN)的融合图像;(k)是本发明方法的融合图像。
图4是本发明第二个实施实例结果图。其中,(a)是本发明一个实施例的待融合红外图像;(b)是本发明一个实施例的待融合可见光图像;(c)是基于拉普拉斯金字塔(LP)的融合图像;(d)是基于双树复小波分解(DTCWT)的融合图像;(e)是基于曲波变换(CVT)的融合图像;(f)是基于梯度金字塔(GP)的融合图像;(g)是基于卷积稀疏表示(CSR)的融合图像;(h)是DeepFuse的融合图像;(i)是DenseFuse的融合图像;(j)是基于卷积神经网络的通用图像融合框架(IFCNN)的融合图像;(k)是本发明方法的融合图像。
具体实施方式
下面对本发明的一个实施例(IR-VIS红外和可见光图像)结合附图作详细说明,本实施例在以本发明技术方案为前提下进行,如图1所示,详细的实施方式和具体的操作步骤如下:
1)搭建基于自注意力机制的深度自编码网络,以端到端的方式对特征提取,融合规则和重构规则同时学习;
本发明的深度自编码网络包括编码层、融合层和解码层。编码层包含两个分支,每个分支包括3个卷积核大小3*3的可训练卷积层,每个卷积层后接Relu层。融合层将编码层输出的特征图分别输入三个卷积核大小为1*1的可训练卷积层,通过矩阵运算与Softmax操作获得输入图像的注意力图,并结合编码层的输出利用均值加权策略融合两个分支。解码层与编码层形成镜面对称,包含四个卷积核大小为3*3的可训练卷积层,最后一个卷积层用于输出与源图像大小相同的融合图像。
2)将深度自编码网络编码层不同分支的特征图输入自注意力机制获得注意力图,并采用均值融合策略融合注意力图和编码层输出特征图;
2.1)获取编码层不同分支的注意力图。
本发明定义网络编码层的输出为x∈RC×H,其中,C为128,H为50176。
首先将x转换至s和o的特征空间中。
s(xi)=Wsxi,o(xj)=Woxj
接着计算s(xi)与o(xj)的自相关矩阵,并对其进行归一化处理。
其中,φ(i,j)=s(xi)To(xj),θj,i表示第j个位置对第i个位置的影响程度。
最后计算自注意力机制的输出。
2.2)采用均值融合策略融合注意力图和编码层输出特征图。
在本发明中,编码层的输出为fk,k=1是红外图像,k=2是可见光图像。将fk输入注意力机制可分别得到红外图像和可见光图像的注意力图Z1和Z2。最后结合编码层的输出使用加权平均策略获得融合层的输出,以输入解码层重构得融合图像。
其中,yi表示融合层输出的第i个特征图。
3)设计内容损失和细节损失,分别用于突出红外目标信息,锐化边缘和更好地利用源图像中的纹理细节;
本发明方法中网络的损失包括内容损失与细节损失,内容损失包括结构相似度,像素级损失和梯度损失,细节损失为感知损失。具体定义如下:
内容损失将融合图像限制为像素强度与红外图像相似,梯度变化与可见光图像相似,并对两者的相似程度进行均值补充。细节损失目的在于将更多的细节信息融入融合图像中。我们将结构相似度,像素级损失和梯度损失定义为内容损失,将感知损失定义为细节损失,并将超参数α,β,γ,μ设置为:α=10,β=60,γ=1,μ=100。
3.1)计算融合图像与红外图像和可见光图像的结构相似度。
首先计算融合图像F和输入图像X间的结构相似度。人类的视觉系统对结构损失和变形较为敏感,因此可用结构相似度(SSIM)以更加直观的方法比较失真图像和参考图像的结构信息。SSIM主要由三部分组成:相关度、亮度和对比度,这三个部分的乘积是融合图像的评估结果。
式中,SSIM(X,F)表示源图像X和融合图像F的结构相似度;μx和σx表示图像X每个图像块的均值和标准差;μf和σf表示图像F每个图像块的均值和标准差;σxf表示图像X和图像F之间的协方差;C1,C2和C3分别为6.5025,58.5225和29.2613。
接着在传统结构相似度的基础上对融合图像与红外图像I和可见光图像V间的结构相似度采用均值融合策略:
其中F是网络的输出图像,SSIM(I,F|ω)和SSIM(V,F|ω)分别为红外图像I,可见光图像V与融合图像F的结构相似度,sim(I,V,F|ω)计算如下。
式中,σIF表示红外图像和融合图像的协方差,σVF表示可见光图像和融合图像的协方差,ω表示图像上的滑窗块。
3.2)计算融合图像和红外图像的像素级损失。
首先计算融合图像F和红外图像I间的均方误差。均方误差(MSE)是用于度量源图像和融合图像之间的差异程度,均方误差的值和融合图像质量成反比关系,其值越小,融合图像质量越高:
其中I表示输入的源图像,F表示网络最终输出的融合图像,D表示源图像I和融合图像F的均方误差,x和y分别为图像中像素点的横坐标和纵坐标。
然后对D(x,y)进行降序排序,选取前k个像素值均值处理后作为像素级损失的输出。
其中,k的取值为900。
3.3)计算融合图像和可见光图像的梯度均方误差。
首先分别计算可见光图像V和融合图像F的空间频率SFV和SFF。
其中,RF和CF分别为图像X的空间行频率和空间列频率。
其中,M和N分别表示图像X的宽度和高度;
然后计算可见光图像V和融合图像F空间频率间的均方误差。
3.4)根据感知网络计算融合图像和可见光图像的感知损失。
感知损失是融合图像F和可见光图像V在τ网络中第j层输出的特征图之间的均方误差,计算如下:
其中τv和τf表示可见光图像和融合图像在第“block2_pool”层的特征图。C,M和N大小分别为128,64和64。
4)训练神经网络,并对自注意力机制进行可视化以调整网络结构和损失函数;
训练神经网络,将融合层每个分支的注意力图以图像的格式进行保存。根据人工经验在输入图像上选取关键点,并对其进行可视化以观察网络的关键信息分配效能。同时结合关键点的注意力图,融合结果和客观评价指标调整网络深度和多任务损失函数中的超参数。
实验环境
本发明的网络训练,微调与测试均在服务器端进行。对比实验中DenseFuse,DeepFuse和IFCNN在服务器端运行,其他方法均在客户端实现。
1)服务器端
硬件环境:GTX 1080Ti/64GB RAM;
软件环境:Ubuntu16.04,tensorflow1.8.0,keras2.0.8;
2)客户端
硬件环境:Intel-Core i3-4150,CPU主频3.5GHz,内存8GB;
软件环境:Windows 10,MATLAB 2016b;
仿真实验
为了验证本发明的可行性和有效性,采用两组红外与可见光两张图像,大小为224×224,如图3和图4所示,根据本发明方法进行融合实验。
仿真一:遵循本发明的技术方案,对第一组红外和可见光图像(见图3中的(a)和图3中的(b))进行融合,通过对图3中的(c)-图3中的(k)的分析可以看出:相比较其它方法,本发明方法在可以突出显示红外图像的目标信息的同时保留可见光图像更多的纹理、细节信息。这是由于本发明使用了自注意力机制使网络对热辐射目标分配更多的关注,同时损失函数中的梯度均值误差和感知损失使可见光图像更多的纹理和细节信息留存在融合图像中。
仿真二:遵循本发明的技术方案,对第二组红外和可见光图像(见图4中的(a)和图4中的(b))进行融合,通过对图4中的(c)-图4中的(k)的分析可以看出:所有融合算法都可以将红外图像和可见光图像的显著特征融合至融合图像中。CVT和GP的融合图像中,目标人物区域亮度低,整体较为暗淡。DenseFuse和DeepFuse方法得到较为良好的融合结果。LP,DTCWT和CSR方法得到的视觉效果良好的融合图像,但是无法将人物的身体区域整合至融合图像中,导致对比度低、信息丢失。IFCNN由于采用了取大融合策略,将人物更完整明亮的特征和尽可能多的可见光信息集成到融合图像中,视觉效果优异,但是取大策略丢失了房屋的部分纹理信息。本发明方法不仅能够很好地融合红外图像中的显著性特征和可见光图像的纹理信息,而且视觉效果良好。
表1和表2给出了两组红外和可见光图像在不同融合方法下实验结果的客观评价指标,其中加粗和下划线的数据分别表示评价指标的最优值和次优值。本实验通过标准差,熵,清晰度,互信息,NCIE和空间频率来衡量融合图像的质量,进而验证本发明融合方法的可行性和有效性。标准差是基于统计学的指标,表示像素灰度值与整体的对比程度。像素灰度值越分散则对应越大的标准差和越饱满的图像信息。熵值是一种图像特征的统计形式,反映了图像中平均信息量的多少,熵值越大,则图像中信息量越丰富。清晰度可敏感的反应出图像中图像微小细节和纹理变换特征,用来评价图像的相对清晰度,清晰度越高则说明图像融合效果越好;互信息用于衡量两个域变量间的依赖性,互信息值越大,融合图像保留源图像的信息量更丰富;NCIE指数是非线性相关的熵;空间频率用于衡量图像像素的活动水平,其值越大,则图像越清晰。
从图1和表2的数据可看出,本发明方法在多个指标上均取得较为良好的效果。在空间频率和清晰度指标上,本发明方法表现较弱,这是由于本发明方法在融合过程中损失函数中的局部均方误差引入了部分噪声。在互信息和熵指标上取得了第一或第二的排名,这进一步证明本发明算法感知损失的细节留存与注意力机制的注意力分配的重要作用。在标准差和NCIE指标上部分取得了第一的排名。综合对红外和可见光图像数据集的定性和定量评估结果表明,本发明方法融合图像不仅保留了红外图像的目标信息和可见光图像的纹理细节信息,获得了最佳的视觉效果,而且在多个客观评价指标上均取得优异的效果。
表1第一组红外和可见光图像融合结果客观评价指标
表2第二组红外和可见光图像融合结果客观评价指标
Claims (10)
1.基于自注意力机制的红外和可见光图像融合方法,其特征在于,包括以下步骤:
1)搭建基于自注意力机制的深度自编码网络结构,以端到端的方式对特征提取、融合规则和重构规则同时学习;
2)将编码层不同分支的特征图输入自注意力机制获得注意力图,并采用均值融合策略融合注意力图和编码层输出特征图;
3)设计内容损失和细节损失,分别用于突出红外目标信息,锐化边缘和更好地利用源图像中的纹理细节;
3.1)计算融合图像与源图像的结构相似度;
3.2)计算融合图像和源图像的像素级损失;
3.3)计算融合图像和源图像的梯度均方误差;
3.4)根据感知网络计算融合图像和源图像的感知损失;
4)训练神经网络,并对自注意力机制进行可视化以调整网络结构和损失函数。
2.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法,其特征在于,所述步骤1)的具体过程为:
深度自编码网络包括编码层、融合层和解码层;编码层包含两个分支,每个分支包括3个卷积核大小3*3的可训练卷积层,每个卷积层后接Relu层;融合层将编码层输出的特征图分别输入三个卷积核大小为1*1的可训练卷积层,通过矩阵运算与Softmax操作获得输入图像的注意力图,并结合编码层的输出利用均值加权策略融合两个分支;解码层与编码层形成镜面对称,包含四个卷积核大小为3*3的可训练卷积层,最后一个卷积层用于输出与源图像大小相同的融合图像。
3.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法,其特征在于,所述步骤2)中将编码层不同分支的特征图输入自注意力机制获得注意力图的具体过程为:
定义深度自编码网络编码层的输出为x∈RC×H,其中,C为编码层输出特征图的通道数,H为编码层输出特征图每个通道特征点的数量;
a)首先将x转换至s和o的特征空间中;
s(xi)=Wsxi,o(xj)=Woxj
b)接着计算s(xi)与o(xj)的自相关矩阵,并对其进行归一化处理;
其中,φ(i,j)=s(xi)To(xj),θj,i表示第j个位置对第i个位置的影响程度;
c)最后计算自注意力机制的输出;
6.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法,其特征在于,所述步骤3.1)的具体过程为:
a)首先计算融合图像F和输入图像X间的结构相似度;传统结构相似度SSIM包括:相关度、亮度和对比度,这三个部分的乘积是融合图像的评估结果;
式中,SSIM(X,F)表示源图像X和融合图像F的结构相似度;μx和σx表示图像X每个图像块的均值和标准差;μf和σf表示图像F每个图像块的均值和标准差;σxf表示图像X和图像F之间的协方差;C1,C2和C3是用于算法稳定的参数;
b)接着在传统结构相似度的基础上对融合图像与多个源图像间的结构相似度采用均值融合策略;
其中,I和V是不同的输入源图像,F是融合图像,SSIM(I,F|ω)和SSIM(V,F|ω)分别为图像I,图像V与融合图像F的结构相似度,
c)sim(I,V,F|ω)计算如下;
式中,σIF表示源图像I和融合图像F的协方差,σVF表示源图像V和融合图像F的协方差,ω表示图像上的滑窗块。
10.根据权利要求1所述的基于自注意力机制的红外和可见光图像融合方法,其特征在于,所述步骤4)的具体过程为:
训练神经网络,将融合层每个分支的注意力图以图像的格式进行保存;根据人工经验在输入图像上选取关键点,并对其进行可视化以观察网络的关键信息分配效能;同时结合关键点的注意力图、融合结果和客观评价指标调整网络深度和多任务损失函数中的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436324.5A CN111709902B (zh) | 2020-05-21 | 2020-05-21 | 基于自注意力机制的红外和可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436324.5A CN111709902B (zh) | 2020-05-21 | 2020-05-21 | 基于自注意力机制的红外和可见光图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709902A true CN111709902A (zh) | 2020-09-25 |
CN111709902B CN111709902B (zh) | 2023-04-18 |
Family
ID=72538080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436324.5A Active CN111709902B (zh) | 2020-05-21 | 2020-05-21 | 基于自注意力机制的红外和可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709902B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257619A (zh) * | 2020-10-27 | 2021-01-22 | 北京澎思科技有限公司 | 一种目标重识别方法、装置、设备及存储介质 |
CN112418163A (zh) * | 2020-12-09 | 2021-02-26 | 北京深睿博联科技有限责任公司 | 一种多光谱目标检测导盲系统 |
CN112561846A (zh) * | 2020-12-23 | 2021-03-26 | 维沃移动通信有限公司 | 训练图像融合模型的方法、装置和电子设备 |
CN112862737A (zh) * | 2021-02-07 | 2021-05-28 | 西北工业大学 | 一种基于自监督纹理特征指导的红外图像质量增强方法 |
CN113033630A (zh) * | 2021-03-09 | 2021-06-25 | 太原科技大学 | 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法 |
CN113076953A (zh) * | 2021-03-01 | 2021-07-06 | 深圳市捷顺科技实业股份有限公司 | 一种黑色车检测方法、系统、装置以及存储介质 |
CN113139585A (zh) * | 2021-03-30 | 2021-07-20 | 太原科技大学 | 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法 |
CN113160286A (zh) * | 2021-01-06 | 2021-07-23 | 中国地质大学(武汉) | 一种基于卷积神经网络的近红外和可见光图像融合方法 |
CN113177562A (zh) * | 2021-04-29 | 2021-07-27 | 京东数字科技控股股份有限公司 | 基于自注意力机制融合上下文信息的向量确定方法及装置 |
CN113298177A (zh) * | 2021-06-11 | 2021-08-24 | 华南理工大学 | 夜间图像着色方法、装置、介质和设备 |
CN113379658A (zh) * | 2021-06-01 | 2021-09-10 | 大连海事大学 | 一种无人机观测目标特征双光融合方法及系统 |
CN113392728A (zh) * | 2021-05-28 | 2021-09-14 | 杭州电子科技大学 | 一种基于ssa锐化注意机制的目标检测方法 |
US20220020178A1 (en) * | 2020-07-20 | 2022-01-20 | Hexagon Technology Center Gmbh | Method and system for enhancing images using machine learning |
CN114022742A (zh) * | 2021-10-22 | 2022-02-08 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光图像融合方法、装置及计算机存储介质 |
CN114419328A (zh) * | 2022-01-21 | 2022-04-29 | 南昌航空大学 | 一种基于自适应增强生成对抗网络的图像融合方法及系统 |
CN114549413A (zh) * | 2022-01-19 | 2022-05-27 | 华东师范大学 | 基于ct图像的多尺度融合全卷积网络淋巴结转移检测方法 |
CN114782298A (zh) * | 2022-04-24 | 2022-07-22 | 西安交通大学 | 一种具有区域注意力的红外与可见光图像融合方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
CN115082434A (zh) * | 2022-07-21 | 2022-09-20 | 浙江华是科技股份有限公司 | 一种基于多源特征的磁芯缺陷检测模型训练方法及系统 |
CN115082371A (zh) * | 2022-08-19 | 2022-09-20 | 深圳市灵明光子科技有限公司 | 图像融合方法、装置、移动终端设备及可读存储介质 |
CN116091372A (zh) * | 2023-01-03 | 2023-05-09 | 江南大学 | 基于层分离和重参数的红外和可见光图像融合方法 |
CN116363036A (zh) * | 2023-05-12 | 2023-06-30 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN117078564A (zh) * | 2023-10-16 | 2023-11-17 | 北京网动网络科技股份有限公司 | 视频会议画面的智能生成方法及其系统 |
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120200734A1 (en) * | 2011-02-09 | 2012-08-09 | Research In Motion Limited | Increased low light sensitivity for image sensors by combining quantum dot sensitivity to visible and infrared light |
CN106228130A (zh) * | 2016-07-19 | 2016-12-14 | 武汉大学 | 基于模糊自编码网络的遥感影像云检测方法 |
CN110084288A (zh) * | 2019-04-11 | 2019-08-02 | 江南大学 | 一种基于自学习神经单元的图像融合方法 |
CN110084773A (zh) * | 2019-03-25 | 2019-08-02 | 西北工业大学 | 一种基于深度卷积自编码网络的图像融合方法 |
CN110097528A (zh) * | 2019-04-11 | 2019-08-06 | 江南大学 | 一种基于联合卷积自编码网络的图像融合方法 |
-
2020
- 2020-05-21 CN CN202010436324.5A patent/CN111709902B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120200734A1 (en) * | 2011-02-09 | 2012-08-09 | Research In Motion Limited | Increased low light sensitivity for image sensors by combining quantum dot sensitivity to visible and infrared light |
CN106228130A (zh) * | 2016-07-19 | 2016-12-14 | 武汉大学 | 基于模糊自编码网络的遥感影像云检测方法 |
CN110084773A (zh) * | 2019-03-25 | 2019-08-02 | 西北工业大学 | 一种基于深度卷积自编码网络的图像融合方法 |
CN110084288A (zh) * | 2019-04-11 | 2019-08-02 | 江南大学 | 一种基于自学习神经单元的图像融合方法 |
CN110097528A (zh) * | 2019-04-11 | 2019-08-06 | 江南大学 | 一种基于联合卷积自编码网络的图像融合方法 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220020178A1 (en) * | 2020-07-20 | 2022-01-20 | Hexagon Technology Center Gmbh | Method and system for enhancing images using machine learning |
CN113962875A (zh) * | 2020-07-20 | 2022-01-21 | 赫克斯冈技术中心 | 使用机器学习增强图像的方法和系统 |
CN112257619A (zh) * | 2020-10-27 | 2021-01-22 | 北京澎思科技有限公司 | 一种目标重识别方法、装置、设备及存储介质 |
CN112418163A (zh) * | 2020-12-09 | 2021-02-26 | 北京深睿博联科技有限责任公司 | 一种多光谱目标检测导盲系统 |
CN112561846A (zh) * | 2020-12-23 | 2021-03-26 | 维沃移动通信有限公司 | 训练图像融合模型的方法、装置和电子设备 |
CN113160286A (zh) * | 2021-01-06 | 2021-07-23 | 中国地质大学(武汉) | 一种基于卷积神经网络的近红外和可见光图像融合方法 |
CN112862737A (zh) * | 2021-02-07 | 2021-05-28 | 西北工业大学 | 一种基于自监督纹理特征指导的红外图像质量增强方法 |
CN112862737B (zh) * | 2021-02-07 | 2024-05-14 | 西北工业大学 | 一种基于自监督纹理特征指导的红外图像质量增强方法 |
CN113076953A (zh) * | 2021-03-01 | 2021-07-06 | 深圳市捷顺科技实业股份有限公司 | 一种黑色车检测方法、系统、装置以及存储介质 |
CN113033630A (zh) * | 2021-03-09 | 2021-06-25 | 太原科技大学 | 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法 |
CN113139585A (zh) * | 2021-03-30 | 2021-07-20 | 太原科技大学 | 一种基于统一多尺度密集连接网络的红外与可见光图像融合方法 |
CN113177562B (zh) * | 2021-04-29 | 2024-02-06 | 京东科技控股股份有限公司 | 基于自注意力机制融合上下文信息的向量确定方法及装置 |
CN113177562A (zh) * | 2021-04-29 | 2021-07-27 | 京东数字科技控股股份有限公司 | 基于自注意力机制融合上下文信息的向量确定方法及装置 |
CN113392728A (zh) * | 2021-05-28 | 2021-09-14 | 杭州电子科技大学 | 一种基于ssa锐化注意机制的目标检测方法 |
CN113392728B (zh) * | 2021-05-28 | 2022-06-10 | 杭州电子科技大学 | 一种基于ssa锐化注意机制的目标检测方法 |
CN113379658A (zh) * | 2021-06-01 | 2021-09-10 | 大连海事大学 | 一种无人机观测目标特征双光融合方法及系统 |
CN113379658B (zh) * | 2021-06-01 | 2024-03-15 | 大连海事大学 | 一种无人机观测目标特征双光融合方法及系统 |
CN113298177A (zh) * | 2021-06-11 | 2021-08-24 | 华南理工大学 | 夜间图像着色方法、装置、介质和设备 |
CN113298177B (zh) * | 2021-06-11 | 2023-04-28 | 华南理工大学 | 夜间图像着色方法、装置、介质和设备 |
CN114022742A (zh) * | 2021-10-22 | 2022-02-08 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光图像融合方法、装置及计算机存储介质 |
CN114022742B (zh) * | 2021-10-22 | 2024-05-17 | 中国科学院长春光学精密机械与物理研究所 | 红外与可见光图像融合方法、装置及计算机存储介质 |
CN114549413A (zh) * | 2022-01-19 | 2022-05-27 | 华东师范大学 | 基于ct图像的多尺度融合全卷积网络淋巴结转移检测方法 |
CN114419328A (zh) * | 2022-01-21 | 2022-04-29 | 南昌航空大学 | 一种基于自适应增强生成对抗网络的图像融合方法及系统 |
CN114419328B (zh) * | 2022-01-21 | 2023-05-05 | 南昌航空大学 | 一种基于自适应增强生成对抗网络的图像融合方法及系统 |
CN114782298A (zh) * | 2022-04-24 | 2022-07-22 | 西安交通大学 | 一种具有区域注意力的红外与可见光图像融合方法 |
CN114782298B (zh) * | 2022-04-24 | 2024-03-12 | 西安交通大学 | 一种具有区域注意力的红外与可见光图像融合方法 |
CN115018748A (zh) * | 2022-06-06 | 2022-09-06 | 西北工业大学 | 结合模型结构重构和注意力机制的空天遥感图像融合方法 |
CN115082434A (zh) * | 2022-07-21 | 2022-09-20 | 浙江华是科技股份有限公司 | 一种基于多源特征的磁芯缺陷检测模型训练方法及系统 |
CN115082434B (zh) * | 2022-07-21 | 2022-12-09 | 浙江华是科技股份有限公司 | 一种基于多源特征的磁芯缺陷检测模型训练方法及系统 |
CN115082371A (zh) * | 2022-08-19 | 2022-09-20 | 深圳市灵明光子科技有限公司 | 图像融合方法、装置、移动终端设备及可读存储介质 |
CN116091372B (zh) * | 2023-01-03 | 2023-08-15 | 江南大学 | 基于层分离和重参数的红外和可见光图像融合方法 |
CN116091372A (zh) * | 2023-01-03 | 2023-05-09 | 江南大学 | 基于层分离和重参数的红外和可见光图像融合方法 |
CN116363036B (zh) * | 2023-05-12 | 2023-10-10 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116363036A (zh) * | 2023-05-12 | 2023-06-30 | 齐鲁工业大学(山东省科学院) | 基于视觉增强的红外与可见光图像融合方法 |
CN116664462A (zh) * | 2023-05-19 | 2023-08-29 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN116664462B (zh) * | 2023-05-19 | 2024-01-19 | 兰州交通大学 | 一种基于ms-dsc和i_cbam的红外和可见光图像融合方法 |
CN117078564A (zh) * | 2023-10-16 | 2023-11-17 | 北京网动网络科技股份有限公司 | 视频会议画面的智能生成方法及其系统 |
CN117078564B (zh) * | 2023-10-16 | 2024-01-12 | 北京网动网络科技股份有限公司 | 视频会议画面的智能生成方法及其系统 |
CN117115065A (zh) * | 2023-10-25 | 2023-11-24 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
CN117115065B (zh) * | 2023-10-25 | 2024-01-23 | 宁波纬诚科技股份有限公司 | 基于聚焦损失函数约束的可见光和红外图像的融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111709902B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709902B (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
CN110322423B (zh) | 一种基于图像融合的多模态图像目标检测方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN108830796B (zh) | 基于谱空结合和梯度域损失的高光谱图像超分辨重构方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN110097528B (zh) | 一种基于联合卷积自编码网络的图像融合方法 | |
CN108460391B (zh) | 基于生成对抗网络的高光谱图像无监督特征提取方法 | |
CN112288668B (zh) | 基于深度无监督密集卷积网络的红外和可见光图像融合方法 | |
CN110675462A (zh) | 一种基于卷积神经网络的灰度图像彩色化方法 | |
Liang et al. | An improved DualGAN for near-infrared image colorization | |
Xu et al. | LBP-BEGAN: A generative adversarial network architecture for infrared and visible image fusion | |
CN109410171A (zh) | 一种用于雨天图像的目标显著性检测方法 | |
CN114897742B (zh) | 一种纹理和结构特征两次融合的图像修复方法 | |
Zhou et al. | An infrared and visible image fusion method based on VGG-19 network | |
CN112257741B (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
Pan et al. | DenseNetFuse: A study of deep unsupervised DenseNet to infrared and visual image fusion | |
CN115457249A (zh) | 红外图像与可见光图像融合匹配的方法及系统 | |
CN113888399B (zh) | 一种基于风格融合与域选结构的人脸年龄合成方法 | |
Liu et al. | Infrared and visible image fusion via salient object extraction and low-light region enhancement | |
Li et al. | MrFDDGAN: Multireceptive field feature transfer and dual discriminator-driven generative adversarial network for infrared and color visible image fusion | |
Liu et al. | SI-SA GAN: A generative adversarial network combined with spatial information and self-attention for removing thin cloud in optical remote sensing images | |
CN117495718A (zh) | 一种多尺度自适应的遥感图像去雾方法 | |
CN110251076B (zh) | 融合视觉注意力基于对比度的显著性检测方法及装置 | |
Jin et al. | Fusion of remote sensing images based on pyramid decomposition with Baldwinian Clonal Selection Optimization | |
CN116206214A (zh) | 一种基于轻量化卷积神经网络和双注意力的自动识别滑坡方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |