CN116612056A - 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法 - Google Patents

一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法 Download PDF

Info

Publication number
CN116612056A
CN116612056A CN202310553692.1A CN202310553692A CN116612056A CN 116612056 A CN116612056 A CN 116612056A CN 202310553692 A CN202310553692 A CN 202310553692A CN 116612056 A CN116612056 A CN 116612056A
Authority
CN
China
Prior art keywords
fusion
attention mechanism
network
boosting
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310553692.1A
Other languages
English (en)
Inventor
司海平
董萍
高畅
赵雨洋
王云鹏
王健
杜君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Agricultural University
Original Assignee
Henan Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Agricultural University filed Critical Henan Agricultural University
Priority to CN202310553692.1A priority Critical patent/CN116612056A/zh
Publication of CN116612056A publication Critical patent/CN116612056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,该算法构建了一种端到端的融合模型架构,同时,提出了基于双注意力机制的融合网络和基于Boosting模型集成训练策略,融合网络的训练采用一种新的二阶段的训练策略,第一阶段训练双注意力机制融合网络,第二阶段对不同时间节点的模型进行Boositing集成,实现保存更多可见光图像的细节信息和红外图像的显著信息。

Description

一种基于注意力机制和Boosting模型集成训练策略的图像数 据融合算法
技术领域
本发明涉及图像数据融合技术领域,具体涉及一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法。
背景技术
图像融合是图像处理任务中的一个热点研究课题,由于成像原理的原因,不同的视觉传感器只能获取场景的部分信息,以红外(IR)与可见光(VIS)图像融合(VIF)任务为例,可见光图像可以描述场景丰富的细节信息,而红外图像则描述目标场景中的热辐射信息,这两种图像可以共同提供互补的场景信息,其中红外图像具有明显的热辐射信息,对于实际场景下的目标和背景有着良好的区别能力,尤其是在光照条件较差和有障碍物的场景下,也可以进行正常工作,然而,红外图像却存在缺乏纹理特征的问题,对于细节信息无法有效地进行描述,而包含大量细节信息的可见光图像更符合人类的主观视觉系统,
故,通过对红外和可见光图像提取重要、互补的特征信息,从而生成场景信息更全面、视觉感知能力更强、目标显著性更高的融合图像(VIF)便显得较为重要;
传统VIF算法可分为基于多尺度变换的VIF算法、基于表示学习(稀疏表示、低秩表示)的VIF算法,其中基于多尺度变换的融合方法由于高度依赖手工特征,使得不同的特征可能需要不同的融合策略,复杂且不适合的融合策略使得最终融合图像中存在大量伪影(图像模糊、细节丢失、融合图像的感知力较差);
基于表示学习的方法大体上由4个步骤组成,首先通过滑动窗口操作将源图像(IR&VIS)分解成重叠的补丁图像,再对每个补丁图像进行编码,从高质量图像数据中学习超完备字典,并基于超完备字典得到(SR/LRR)系数,最后,设计相应的融合策略融合(SR/LRR)系数从而得到融合结果;
虽然使得最终的融合图像相较于基于多尺度变换的方法极大减少了融合图像中的视觉伪影,提高了错配源图像的融合鲁棒性,但字典学习操作却存在时间花费过大的问题;
鉴于以上,本申请提供一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法。
发明内容
针对上述情况,为克服现有技术之缺陷,本方案提出一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,该算法构建了一种端到端的融合模型架构,同时,提出了基于双注意力机制的融合网络和基于Boosting模型集成训练策略,融合网络的训练采用一种新的二阶段的训练策略,第一阶段训练双注意力机制融合网络,第二阶段对不同时间节点的模型进行Boositing集成,实现保存更多可见光图像的细节信息和红外图像的显著信息。
一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,包括自编码器网络和双注意力机制融合网络且自编码器网络包括编码器网络和解码器网络,所述训练过程包括以下步骤:
S1:采用合适的损失函数通过编码器网络、解码器网络训练双注意力机制融合网络;
S2:在步骤S1的基础上,对不同时间点的双主意机制融合网络进行Boosting集成训练;
所述编码器网络通过接收输入红外图像Iir和可见光图像Ivis生成多尺度深度特征和/>双注意力机制融合网络将生成的多尺度深度特征/>和/>进行融合得到融合后的深度特征/>所述解码器网络对融合后的深度特征/>进行图像重建生成融合图像Ifuse
上述技术方案有益效果在于:
该算法构建了一种端到端的融合模型架构,同时,提出了基于双注意力机制的融合网络和基于Boosting模型集成训练策略,融合网络的训练采用一种新的二阶段的训练策略,第一阶段训练双注意力机制融合网络,第二阶段对不同时间节点的模型进行Boositing集成,从而保存更多可见光图像的细节信息和红外图像的显著信息,实现了最大限度保留图像上特征信息的融合结果。
附图说明
图1为本发明可见光、红外图像融合过程示意图;
图2本发明双注意力机制融合网络架构示意图;
图3为本发明步骤S2中训练框架示意图;
图4为本发明Boosting模型集成训练过程示意图;
图5为本发明DAFN-Boosting与RFN融合网络融合结果对比示意图。
具体实施方式
有关本发明的前述及其他技术内容、特点与功效,在以下配合参考附图1至图5对实施例的详细说明中,将可清楚的呈现,以下实施例中所提到的结构内容,均是以说明书附图为参考。
本方案提出了一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,本方案通过研究传统道路场景下的红外与可见光图像融合任务,开发出一种新的基于深度学习的融合策略,与自编码器构成一种新的融合方法,从而保存更多可见光图像的细节信息和红外图像的显著信息,实现了最大限度保留图像上特征信息的融合结果,其具体过程如下:
一、融合算法整体架构
本方案提出的融合架构是一个端到端的网络,该网络包括三个部分,即编码器、解码器和双注意力机制融合网络,如附图1所示,编码器网络通过接受输入图像,即红外图像Iir(Visible Image)和可见光图像Ivis(Infrared Image),从而生成多尺度深度特征(),编码器网络由一个卷积层和4个编码器块组成,每个编码器块都包含两个卷积层,一个ReLU激活函数和一个最大池化层;
双注意力机制融合网络将在输入的源图像对中所提取的多尺度深度特征()进行融合,得到融合后的深度特征/>双注意力机制融合网络实现了细粒度的局部融合与粗粒度的全局融合,融合算法能够更好的融合多模态图像局部特征和全局信息;
解码器网络根据从双注意力机制融合网络输出的多尺度融合特征进行图像重建,从而生成融合图像Ifuse,解码器网络由6个解码器块和1个卷积层构成,本方案中提出的融合算法架构中的自编码器网络结构根据RFN-Nest和Nest Fuse所提出的嵌套结构所构造,详细结构如表1所示:
表1自编码器网络架构
二、双注意力机制融合网络架构
本方案所提出的双注意力机制融合网络(下文称DAFN),在残差网络结构的基础上,引入SE注意力机制和Split注意力机制提高融合网络在通道和空间维度上的特征融合性能,使得解码器网络得到更加全面的多尺度融合特征,DAFN的模型结构如附图2所示,双注意力机制融合网络包含8个卷积层、2个SE注意力模块和2个Split注意力模块,其中表示从编码器网络中所提取的第i个尺度的多模态深度特征,其中i∈{1,2,3,4},同时i也表示第i个双注意力机制融合网络;
此外,Conv1-8表示注意力机制中的8个卷积层,在该架构中,Conv1和Conv2的输出经过Split注意力模块的处理后,分别输入到Conv3和Conv4,然后二者的输出则通过级联的方式输入到Conv5,经Conv6和Conv7的处理后输出;
同时,编码器提取的多尺度特征和/>经SE注意力模块处理后,通过级联的方式输入到Conv8,最终Conv7和Conv8的输出特征进行残差融合,得到融合的深度特征/>进而输入解码器网络进行图像重建,实现红外与可见光图像融合的目标;
由于自编码器网络的多尺度的网络结构和所提出的双注意力机制从通道和空间维度进行特征增强,使得浅层DAFN和深层DAFN保留了多模态图像的更多细节特征信息和显著特征信息。
三、二阶段融合网络训练策略
本方案的训练过程整体分为两个阶段:
第一阶段则是通过固定自编码器网络中的编码器和解码器,采用合适的损失函数训练DAFN;
第二阶段则是在第一阶段训练的基础上,对不同时间节点的DAFN模型进行Boosting集成训练;
该阶段的训练策略是利用预训练的编码器网络来提取输入图像的多尺度深度特征(和/>),在各个尺度上采用DAFN来融合所提取的深度特征,然后将得到的多尺度融合特征输入到预训练的解码器中进行图像重建,该阶段训练框架如图3所示;
第一阶段的训练策略过程如下:
选用残差融合网络训练使用的损失函数LRFN,为方便表示,该损失函数在本章节由LDAFN表示,LDAFN的定义如下,
LDAFN=αLdetail+Lfeature (6.4)
其中,Ldetail和Lfeature分别代表背景细节保留损失函数和目标特征增强损失函数,α是Ldetail和Lfeature之间的权衡参数。
由于在红外与可见光图像融合任务中,背景中绝大部分的细节信息来源于可见光图像,因此Ldetail的目的在于保留可见光图像中的细节信息和结构特征,Ldetail的定义如下,
Ldetail=1-SSIM(O,Ivi) (6.5)
此外,由于红外图像相较于可见光图像,所包含的目标特征更加显著,因此,损失函数Lfeature旨在约束融合结构的深层特征,用以保留显著特征,该损失函数定义如下,
其中,M表示多尺度深度特征的数量,本研究中设置为4,由于RFN-Nest对于该损失函数进行了非常完整的实验分析,同时,也为方便后续与RFN-Nest的各项对比实验,且本研究的研究重点也并非在该损失函数上,因此该损失函数上的各项超参数设置为:ωi=[1,10,100,1000]、α=700,ωvi=6.0和ωir=3.0。
第二阶段的训练策略过程如下:
该阶段的训练策略是在第二阶段的基础上进行的,即通过在某一时间节点复制该节点所训练模型的全部权重参数,记为影子权重,经过固定时间段到达下一个时间节点,在该时间节点所得到的模型参数与上一次所得到的模型参数进行滑动平均更新,经过不断地对模型参数进行更新,使得最终得到的双注意力机制融合网络具有更强的鲁棒性,Boosting模型集成训练过程如图4所示;
记Boosting集成训练过程中第i时刻的模型权重为wbi,第i时刻的影子权重为sbi,影子权重的更新函数定义如下,
sbi=dsbi+(1-d)wbi (6.7)
其中,d为衰减率,这个参数的目的在于控制模型的更新速度,这样的模型参数更新方式使得模型每次更新后的权重值与上一次的权重值产生了关联性,使得模型对于特征信息的学习更加有效;
为进一步说明Boosting集成训练策略的有效性,本节从数学上对Boosting集成训练策略进行推导证明,证明如下:
设第i时刻的模型权重为wbi,梯度为gi,可知:
设第i时刻的影子权重为sbi,可知:
sbi=dsb(i-1)+(1-d)wbi=d(dsb(i-2)+(1-d)wb(i-1))+(1-d)wbi=…=disb0+(1-d)(wbi+dwb(i-1)+d2wb(i-2)+…+di-1wb1) (6.9)
将公式(6.8)代入公式(6.9),可得:
由公式(6.8)和公式(6.10)可知,Boosting集成融合策略对于训练过程梯度下降的步长增加了权重系数(1-di-k),相当于进行了学习率衰减。
四、实验结果及分析
4.1实验数据集与评价指标
本文选取KAIST、TNO、RoadScene数据集对本文所提出的融合算法进行实验分析,其中KAIST数据集由全天候(白天和夜晚)所采集的可见光和长波红外图像构成,TNO数据集则包含了配准后的不同波段(近红外、长波红外和可见光波段)的图像,这些图像涵盖了不同军事相关的场景,RoadScene数据集则包含了一些简单的配准后的多波段图像(长波红外和可见光),这些图像主要包括道路相关的场景;
实验所用的训练数据和测试数据均选自公开数据集,考虑到融合网络的训练需要大量数据,我们选取KAIST数据集中的8000张来建立训练数据集,原因是KAIST数据集中包含丰富的场景,如行人、道路和车辆等,在测试阶段,为验证算法的泛化能力,我们在两个VIS和IR数据集上测试了我们的方法,包括TNO和RoadScene数据集,在TNO中选取了21对图像数据作为测试数据,在RoadScene数据集中选取30对图像数据作为测试数据;
由于主观视觉评价充满不确定性,容易受到人为因素的影响,如视力、主观喜好以及个人情绪等,并且在人为主观意愿下对融合结果进行评价,大多数情况下差异并不显著,从主观评价体系的角度对融合结果进行分析,一般无法识别融合图像之间细微差异,因此,需引入基于定量评价的融合结果分析评价指标,本研究选取信息熵(Entropy,EN)、标准差(Standard Deviation,SD)、互信息(Mutual Information,MI)、改进的融合伪影度量(Modified Fusion Artifacts Measure,Nabf)、差异相关性的总和(TheSum of TheCorrelations of Differences,VIF)、多尺度结构相似性(The Multi-scaleStructuralSimilarity,MS-SSIM)。其中Nabf用来评价融合图像中的噪声信息,这些评价指标可以从各个方面来衡量融合算法的性能,如信息量、源图像传输的信息以及视觉质量,此外,融合性能随着这6个评价指标(除Nabf以外)数值的增加而提高,而Nabf数值越低,则融合性能越高,它们的定义如下:
(1)信息熵(EN)
信息熵一般用来衡量融合图像的信息丰富度,其值越大,表示融合图像中所包含源图像的信息越多,融合质量越高,信息熵定义如公式(5.1)表示:
其中,L表示灰度值,pl为融合图像中所对应灰度值的归一化直方图,EN指标数值越大,则表示融合图像中所包含的信息越多,融合算法性能更优越。
(2)标准差(SD)
标准差主要用来评估图像中信息的传播程度,反映了融合图像的灰度分布和对比度,其数值越大则说明融合图像的对比度越高,灰度分布范围越广,融合质量越高。标准差定义如公式(5.2)所示:
其中,If(x,y)表示融合图像在(x,y)处的像素值,Ifmean表示融合图像中像素的平均值,SD越高则表示区域对比度越高,可以吸引人类视觉感官更多的注意力,表示融合算法可以获得较好的视觉质量。
(3)互信息(MI)
互信息是一种衡量图像质量的评价指标,该指标用于度量从源图像传输到融合图像的信息量,互信息数值越大,表示融合图像从源图像中所获取的信息量越多,说明融合算法的融合性能也越优越,互信息定义如公式(5.3)表示:
MI=MIAF+MIB,F (5.3)
其中,MOAF和MIB,F分别代表从红外图像和可见光图像传输到融合图像的信息量,这两个随机变量所组成的MI可以通过Kullback-Leibler理论进行计算,其描述如下:
其中,PX(x)和PF(f)分别表示源图像X和融合图像F的边缘直方图,PX,F(x,f)表示源图像X与融合图像F的联合直方图,当MI的数值越高,说明从源图像传递给融合图像的信息越多,则融合效果越优越。
(4)改进的融合伪影度量(Nabf)
该指标通常用于衡量融合图像中引入的伪像和噪声的大小,其值越高则表示引入的伪像和噪声越多,融合效果越差,由于伪像和噪声本质上属于错误信息,因此将伪像和噪声定义为存在于融合图像,而不存在于源图像的梯度信息,改进的融合伪影度量定义如下:
其中, 和/>分别表示位置(i,j)处的边缘强度和边缘方向,wx则表示权重参数。
(5)视觉保真度(VIF)
视觉信息保真度(Visual Information Fidelity,VIF)结合了自然图像统计模型、图像失真模型和人眼视觉系统模型提出的图像质量评价指标,与峰值信噪比(PeakSignal-to-Noise Ratio,PSNR)、结构相似性(Structural Similarity,SSIM)等指标相比,VIF与主观视觉有更高的一致性,因此,与PSNR和SSIM一样,其值越大,表明图像质量越好,VIF定义如下:
最终计算公式为,
(6)多尺度结构相似性(MS-SSIM)
多尺度结构相似性为不同分辨率的结构相似性的整体评价,其定义为
ci(U,V)与si(U,V)分别表示第i个尺度上的对比度和结构函数,lM(U,V)表示第M个尺度的亮度函数,αM、βi和γi分别用来表示每种成分的相对重要性。
4.2实验环境与训练细节
本方案的模型是在Pytorch框架下实现的,最终在MATLAB R2021a中进行测试,且权重参数实验的模型构建和训练在GPU:NVIDIAA100 SXM4 80GB和CPU:AMD EPYC 7763 64-Core Processor上进行,详细实验环境如表2所示:
表2详细实验环境
模型训练期间的batch size(一次训练所选取的样本数)设为8,epoch为2,学习率设为0.0001,采用Adam优化策略来更新权重,公式(6.4)、(6.5)、(6.6)中的参数ωi=[1.10.100.1000]、α=700,ωvi=6.0和ωir=3.0,时刻i的设置为每处理100个batch则i+1,训练过程类似于RFN-Nest,我们采用8000张来自KAIST数据集的图像数据来训练我们的模型,这些图像转换为灰度图,同时调整为64×64。
4.3DAFN和Boosting模型集成训练策略消融实验
本方案通过引入DAFN融合网络,使得模型可以学习源图像更深层更全面的特征信息,通过设计Boosting-integrated训练策略,使得DAFN在训练过程中保留更多有效权重参数,更全面的融合和传输红外和可见光图像特征信息,为验证DAFN在Boosting-integrated训练策略下的有效性,本文设置了消融实验,该实验中包括四种不同配置的子实验:
即训练DAFN的同时采用Boosting-integrated训练策略(如附图5中b图所示);
训练DAFN的同时不采用Boosting-integrated训练策略;
训练原RFN的同时采用Boosting-integrated训练策略;
训练原RFN模型的同时不采用Boosting-integrated训练策略(如附图5中a图所示);
消融实验在TNO数据集中所选的21对图像上进行,详细实验结果如表3所示:
表3在21对TNO图像数据上进行的消融实验结果
由表3可知,采用Boosting-integrated训练策略的融合网络均优于不采用Boosting-integrated训练策略,说明了Boosting-integrated训练策略在融合过程中发挥了一定作用,不采用Boosting-integrated训练策略的融合网络(DAFN和RFN)在6个评价指标上基本相同,但采用Boosting-integrated训练策略的融合网络(DAFN和RFN)在EN、SD、MI和NabfDAFN的性能高于RFN,在VIF和MS-SSIM上基本相同,说明DAFN在训练过程中相较于RFN能学习到更多的有效特征,但无法最大限度保留这些有效权重参数,因此,可以说明本方案所提出的融合网络DAFN和Boosting-integrated训练策略在DAB-Fuse融合算法中是不可或缺的,对于提高融合性能发挥了很大作用。
上面所述只是为了说明本发明,应该理解为本发明并不局限于以上实施例,符合本发明思想的各种变通形式均在本发明的保护范围之内。

Claims (6)

1.一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,包括自编码器网络和双注意力机制融合网络且自编码器网络包括编码器网络和解码器网络,所述训练过程包括以下步骤:
S1:采用合适的损失函数通过编码器网络、解码器网络训练双注意力机制融合网络;
S2:在步骤S1的基础上,对不同时间点的双主意机制融合网络进行Boosting集成训练;
所述编码器网络通过接收输入红外图像Iir和可见光图像Ivis生成多尺度深度特征和/>双注意力机制融合网络将生成的多尺度深度特征/>和/>进行融合得到融合后的深度特征/>所述解码器网络对融合后的深度特征/>进行图像重建生成融合图像Ifuse
2.根据权利要求1所述的一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,所述编码器网络包括一个卷积层和四个编码器块且每个编码器块包括两个卷积层、一个ReLU激活函数、一个最大池化层。
3.根据权利要求1所述的一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,所述解码器网络包括六个解码器块、一个卷积层。
4.根据权利要求1所述的一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,在残差网络结构的基础上,引入SE注意力机制和Split注意力机制从而构成双注意力机制融合网络架构。
5.根据权利要求1所述的一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,所述S1中选用损失函数LRFN训练双注意力机制融合网络且该损失函数在本方案中定义为LDAFN
LDAFN=αLdetail+Lfeature (64)
Ldetail和Lfeature分别代表背景细节保留损失函数和目标特征增强损失函数,α是Ldetail和Lfeature之间的权衡参数;
Ldetail的目的在于保留可见光图像中的细节信息和结构特征,Ldetail的定义如下:
Ldetail=1-SSIM(O,Ivi) (6.5)
损失函数Lfeature旨在约束融合结构的深层特征,用以保留显著特征,该损失函数定义如下:
其中,M表示多尺度深度特征的数量,参数ωi=[1,10,100,1000]、α=700,ωvi=6.0和ωir=3.0。
6.根据权利要求1所述的一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法,其特征在于,所述S2中在步骤S1的基础上,通过在某一时间节点复制该节点所训练模型的全部权重参数,记为影子权重,经过固定时间段到达下一个时间节点,在该时间节点所得到的模型参数与上一次得到的模型参数进行滑动平均更新,具体过程包括以下步骤:
S5-1:记Boosting集成训练过程中第i时刻的模型权重为wbi,第i时刻的影子权重为sbi,影子权重的更新函数定义如下:
sbi=dsbi+(1-d)wbi (6.7)
其中d为衰减率;
S5-2:验证说明Boosting集成训练策略的有效性,对Boosting集成训练策略进行推导证明,如下:
设第i时刻的模型权重为wbi,梯度为gi,可知
设第i时刻的影子权重为sbi,可知
sbi=dsb(i-1)+(1-d)wbi
=d(dsb(i-2)+(1-d)wb(i-1))+(1-d)wbi=...
=disb0+(1-d)(wbi+dwb(i-1)+d2wb(i-2)+...+di-1wb1)(6.9)
将公式(6.8)代入公式(6.9),可得
由公式(6.8)和公式(6.10)可知,Boosting集成融合策略对于训练过程梯度下降的步长增加了权重系数(1-di-k),相当于进行了学习率衰减。
CN202310553692.1A 2023-05-17 2023-05-17 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法 Pending CN116612056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553692.1A CN116612056A (zh) 2023-05-17 2023-05-17 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553692.1A CN116612056A (zh) 2023-05-17 2023-05-17 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法

Publications (1)

Publication Number Publication Date
CN116612056A true CN116612056A (zh) 2023-08-18

Family

ID=87677511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553692.1A Pending CN116612056A (zh) 2023-05-17 2023-05-17 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法

Country Status (1)

Country Link
CN (1) CN116612056A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372880A (zh) * 2023-12-07 2024-01-09 天津市祥途测绘科技有限公司 一种基于遥感影像的道路工程监管系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372880A (zh) * 2023-12-07 2024-01-09 天津市祥途测绘科技有限公司 一种基于遥感影像的道路工程监管系统及方法
CN117372880B (zh) * 2023-12-07 2024-02-09 天津市祥途测绘科技有限公司 一种基于遥感影像的道路工程监管系统及方法

Similar Documents

Publication Publication Date Title
CN111709902B (zh) 基于自注意力机制的红外和可见光图像融合方法
Li et al. Underwater scene prior inspired deep underwater image and video enhancement
CN111292264B (zh) 一种基于深度学习的图像高动态范围重建方法
CN113379661B (zh) 红外与可见光图像融合的双分支卷积神经网络装置
Guo et al. Dense scene information estimation network for dehazing
CN112288668B (zh) 基于深度无监督密集卷积网络的红外和可见光图像融合方法
CN112116601B (zh) 基于生成对抗残差网络的压缩感知采样重建方法及系统
CN111709900A (zh) 一种基于全局特征指导的高动态范围图像重建方法
CN114066831B (zh) 一种基于两阶段训练的遥感图像镶嵌质量无参考评价方法
CN116612056A (zh) 一种基于注意力机制和Boosting模型集成训练策略的图像数据融合算法
CN107341776A (zh) 基于稀疏编码与组合映射的单帧超分辨率重建方法
CN115035003A (zh) 交互补偿注意力的红外与可见光图像对抗融合方法
CN115170915A (zh) 一种基于端到端注意力网络的红外与可见光图像融合方法
CN116343144B (zh) 一种融合视觉感知自适应去雾的实时目标检测方法
CN110225260A (zh) 一种基于生成对抗网络的立体高动态范围成像方法
CN114187214A (zh) 一种红外与可见光图像融合系统及方法
CN112465726A (zh) 基于参考亮度指标指导的低照度可调节亮度增强方法
CN113902658A (zh) 基于密集多尺度网络的rgb图像到高光谱图像重建方法
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN117314811A (zh) 基于混合模型的sar-光学图像融合方法
CN105894507A (zh) 基于图像信息量自然场景统计特征的图像质量评价方法
CN114639002A (zh) 一种基于多模式特征的红外与可见光图像融合方法
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN109447933B (zh) 基于特有信息同步分解的红外与可见光图像融合方法
CN117197627B (zh) 一种基于高阶退化模型的多模态图像融合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination