CN116757978A - 一种红外与可见光图像自适应融合方法、系统和电子设备 - Google Patents
一种红外与可见光图像自适应融合方法、系统和电子设备 Download PDFInfo
- Publication number
- CN116757978A CN116757978A CN202310641745.5A CN202310641745A CN116757978A CN 116757978 A CN116757978 A CN 116757978A CN 202310641745 A CN202310641745 A CN 202310641745A CN 116757978 A CN116757978 A CN 116757978A
- Authority
- CN
- China
- Prior art keywords
- scale
- infrared
- visible light
- network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 18
- 230000003993 interaction Effects 0.000 claims abstract description 138
- 230000004927 fusion Effects 0.000 claims abstract description 105
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008014 freezing Effects 0.000 claims description 6
- 238000007710 freezing Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像融合技术领域,尤其涉及一种红外与可见光图像自适应融合方法、系统和电子设备,方法包括:构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到待融合红外与可见光图像对应的多尺度融合特征,将待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到待融合红外与可见光图像对应的融合图像,极大加强了不同尺度特征之间的交流程度,实现模型对融合权重的自适应调整。
Description
技术领域
本发明涉及图像融合技术领域,尤其涉及一种红外与可见光图像自适应融合方法、系统和电子设备。
背景技术
红外与可见光图像融合技术能够为图像分类、目标检测等高级视觉任务提供高质量的输入数据。红外图像中显著的目标信息十分稳定,不易受外部环境的影响,但纹理及场景信息量较少。可见光图像中存在着丰富的纹理细节信息,且更符合人类的视觉系统的感知,但容易受到光照、天气等外部影响。通过融合技术可使融合图像同时具有两者的优势特征,这一技术被广泛应用于目标检测、目标跟踪、自动驾驶等领域。
现有的基于深度学习的红外与可见光图像融合方法都是先提取各自的特征,再将两种特征通过融合模块进行融合,并重建出融合图像。在特征提取与图像重建过程中,充分的信息交互在特征提取和特征重建过程起着关键性的作用,近期基于卷积的红外与可见光图像方法使用残差网络或者密集连接网络实现信息交互,但这样无筛选的特征重用会导致大量的冗余特征,同时用于信息交互的中间特征会导致内存占用过大的问题。基于Transformer的红外与可见光图像融合方法能够通过注意力机制高效率的提取需要的目标特征,但现有的方法忽略了不同尺度之间的特征交互问题,降低了跨尺度信息的利用率。在融合模块中,现有的方法会进行简单的相加或者通道上的连接进行融合,这样简单的融合策略无法通过输入的数据进行权重的自适应调整,导致融合效果不稳定。因此,充分的特征交互以及融合权重的自适应调整方法是本领域技术人员急需解决的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供了一种红外与可见光图像自适应融合方法、系统和电子设备。
本发明的一种红外与可见光图像自适应融合方法的技术方案如下:
构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到所述待融合红外与可见光图像对应的多尺度融合特征,将所述待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到所述待融合红外与可见光图像对应的融合图像。
本发明的一种红外与可见光图像自适应融合系统的技术方案如下:
包括构建训练模块和融合模块;
所述构建训练模块用于:构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
所述融合模块用于:将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到所述待融合红外与可见光图像对应的多尺度融合特征,将所述待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到所述待融合红外与可见光图像对应的融合图像。
本发明的一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行上述的一种红外与可见光图像自适应融合方法。
本发明的一种电子设备,包括处理器和上述的存储介质,所述处理器执行所述存储介质中的指令。
本发明的有益效果如下:
一方面,使用跨尺度特征交互方法,使得浅层的纹理等低级特征与深层的语义特征进行充分的信息交互,极大加强了不同尺度特征之间的交流程度。另一方面,使用红外特征与可见光特征相加的特征作为引导,实现模型对融合权重的自适应调整。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的一种红外与可见光图像自适应融合方法的流程示意图;
图2为本发明的一种红外与可见光图像自适应融合方法对应的模型结构图;
图3为红外图像;
图4为可见光图像;
图5为红外与可见光特征图直接相加后重建的融合图像;
图6为利用本发明的一种红外与可见光图像自适应融合方法进行重建的融合图像;
图7为本发明实施例的一种红外与可见光图像自适应融合系统的结构示意图。
具体实施方式
如图1所示,本发明实施例的一种红外与可见光图像自适应融合方法,包括如下步骤:
S1、构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
S2、将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到待融合红外与可见光图像对应的多尺度融合特征,将待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到待融合红外与可见光图像对应的融合图像。
可选地,在上述技术方案中,S1中,对编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络进行训练的过程,包括:
S10、基于包括多个红外与可见光源图像样本的数据集,在预设约束条件下对编码器网络、跨尺度特征交互网络和多尺度解码网络进行训练,预设约束条件为:输入编码器网络的红外与可见光源图像样本与多尺度解码网络的输出结果相同;
其中,编码器网络用于提取每个红外与可见光源图像样本的多个尺度特征;
其中,跨尺度特征交互网络用于:得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征;
其中,多尺度解码网络用于:将每个红外与可见光源图像样本对应的多个跨尺度信息交互特征重建为红外与可见光源图像即多尺度解码网络的输出结果;
跨尺度特征交互网络具体用于:
对每个尺度特征进行位置编码,得到每个位置编码后的尺度特征,将每个位置编码后的尺度特征进行特征提取,得到每个尺度特征对应的红外特征和可见光特征,将每两个位置编码后的不同尺度的尺度特征进行信息交互,得到多个信息交互特征,将每个尺度特征对应的包括红外特征和可见光特征和相应的信息交互特征进行聚合,得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征。
也就是说,编码器网络的输出结果是跨尺度特征交互网络的输入,跨尺度特征交互网络的输出结果是多尺度解码网络的输入。
S11、对当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的多尺度解码网络进行冻结,对红外与可见光自适应融合网络进行训练;
其中,红外与可见光自适应融合网络用于:
将每个跨尺度信息交互特征中的红外特征与可见光特征之和作为引导特征,提取并根据每个引导特征的全局平均池化特征和全局最大池化特征,计算每个跨尺度信息交互特征对应的自适应权重,根据每个跨尺度信息交互特征对应的自适应权重,自适应重校准红外特征与可见光特征的权重在红外与可见光自适应融合网络中的占比,将校准后的每个红外特征和每个可见光特征相加,得到多尺度融合特征。
其中,一个红外与可见光源图像样本对应多个尺度特征,一个尺度特征对应一个跨尺度信息交互特征,一个跨尺度信息交互特征对应一个多尺度融合特征。
其中,编码器网络包括4个依次设置的组合卷积块,每个组合卷积块均包括两个依次设置的卷积核均为3×3的卷积层,每个组合卷积块中的第一个卷积层步长为1、第二个卷积层步长为2,将取红外与可见光源图像样本经4个依次设置的组合卷积块操作后,得到红外与可见光源图像的4个尺度特征其中,/>表示红外与可见光源图像经第一个组合卷积块操作后所得到的尺度特征,/>表示/>经第二个组合卷积块操作后所得到的尺度特征,/>表示/>经第三个组合卷积块操作后所得到的尺度特征,/>表示经第四个组合卷积块操作后所得到的尺度特征。
其中,跨尺度特征交互网络包括基于卷积的位置编码模块和通道信息交互模块,还包括基于transformer架构的自注意力信息交互模块和空间信息交互模块,其中自注意力特征模块提取的是每个尺度的特征信息,通道信息交互模块和空间信息交互模块进行每个尺度特征两两之间进行信息交互,具体过程如下:
S21、位置编码模块对每个尺度特征φm使用深度可分离卷积进行位置编码,其卷积核为3×3,填充为1,并通过残差结构将位置编码前的各尺度特征与位置编码后相同尺度的特征相加,得到位置编码ψm,其中,/>表示权力1得到的第一个尺度特征/>经位置编码后得到的位置编码特征,/>表示权力1得到的第二个尺度特征/>经位置编码后得到的位置编码特征,/>表示权力1得到的第三个尺度特征/>经位置编码后得到的位置编码特征,/>表示权力1得到的第四个尺度特征/>经位置编码后得到的位置编码特征。
S22、自注意力特征模块对S21位置编码ψm进行序列化,使用步长为2的卷积进行下采样,序列化未下采样和下采样的两个尺度的特征,分别取得未下采样序列向量Q与下采样序列向量K和V,使用transformer架构,通过MSA提取注意力特征,并利用MLP交互通道信息,最后将得到的特征序列转换成自注意力特征其中,/>表示S21中第一个位置编码特征/>经自注意力模块得到的自注意力特征,/>表示S21中第二个位置编码特征/>经自注意力模块得到的自注意力特征,/>表示S21中第三个位置编码特征/>经自注意力模块得到的自注意力特征,/>表示S21中第三个位置编码特征/>经自注意力模块得到的自注意力特征;
S23、通道信息交互模块对S21位置编码ψm使用全局平均池化提取浅层特征图的空间信息,以1×1卷积将通道数升维到特征通道数,使用该通道信息重新加权调整特征,完成浅层特征与深层特征之间的信息交互,将特征/>使用卷积下采样到特征/>的尺度,作为分支与特征/>相加,其中,i和j表示位置编码ψm各尺度特征的索引,且j>i,最终得到通道信息交互特征/>其中,/>表示S21中第一个位置编码特征/>经通道信息交互模块得到的通道信息交互特征,/>表示S21中第二个位置编码特征经通道信息交互模块得到的通道信息交互特征,/>表示S21中第三个位置编码特征/>经通道信息交互模块得到的通道信息交互特征,/>表示S21中第三个位置编码特征/>经通道信息交互模块得到的通道信息交互特征;
S24、空间信息交互模块对S21位置编码中的浅层特征/>及深层特征/>进行序列化,其中,i和j表示位置编码ψm各尺度特征的索引,且j>i,分别取得深层序列向量Q与浅层序列向量K和V,使用与步骤S22相同的transformer架构对深层特征图与浅层特征图在空间上进行信息交互,将得到的特征序列转换成空间信息交互特征其中,/>表示S21中第一个位置编码特征/>经空间信息交互模块得到的空间信息交互特征,/>表示S21中第二个位置编码特征/>经空间信息交互模块得到的空间信息交互特征,/>表示S21中第三个位置编码特征/>经空间信息交互模块得到的空间信息交互特征,/>表示S21中第四个位置编码特征/>经空间信息交互模块得到的空间信息交互特征;
S25、将S21、S22、S23和S24得到的特征ψm、和/>在通道上合并,再经过卷积核为1×1的卷积操作进行通道信息交互,得到跨尺度信息交互特征αm,其中,/>表示特征/>和/>在通道上合并后的第一个跨尺度信息交互特征,/>表示特征/>和/>在通道上合并后的第二个跨尺度信息交互特征,/>表示特征/>和/>在通道上合并后的第三个跨尺度信息交互特征,/>表示特征/>和/>在通道上合并后的第四个跨尺度信息交互特征。
其中,红外与可见光自适应融合网络由一个全局最大池化层、一个全局平均池化层和两个全连接层组成,用于对相同尺寸大小的红外与可见光跨尺度信息交互特征进行权重自适应融合,具体过程如下:
S31、对S25得到的跨尺度信息交互的红外特征和可见光特征/>进行相加合并,作为引导特征/>,其中i表示多个尺度特征的索引;
S32、提取S31引导特征的全局平均池化特征Sap和全局最大池化特征Smp,其中第c层特征计算为:
S33、将红外特征与可见光特征的最大、平均池化特征进行相加合并,并计算红外与可见光基于通道的自适应权重:
其中,分别表示红外特征在第c层的全局平均池化特征和全局最大池化特征,qc代表红外特征在第c层的自适应权重,/>分别表示可见光特征在第c层的全局平均池化特征和全局最大池化特征,Pc代表可见光特征在第c层的自适应权重,且pc+qc=1;
S34、使用S33自适应权重对S25的跨尺度信息交互特征进行加权调整,分别得到自适应重校准后的红外特征/>和可见光特征/>,具体为:
其中,多尺度解码器网络包括4个组合卷积块,每个卷积块均包括两个卷积操作,第一个卷积核大小为3×3,步长为1,用于重建特征的空间信息,第二个卷积核大小为1×1,步长为1,用于进行通道间的信息交流,经过密集连接的组合卷积操作后输出与源输入图像大小相同的图像,根据训练阶段的不同,输入为S34中红外特征与可见光特征/>,或者为S34中红外特征/>与可见光特征/>的逐像素之和,得到融合图像的过程如下:
S51、将S25的红外交互特征与可见光交互特征/>通过多尺度解码网络进行图像重建,在第一约束条件下,使用结构相似度损失函数/>和像素重建损失函数/>对图像重建进行约束,计算公式为:
其中,Inputm为图像重建过程中输入的红外与可见光源图像,Outputm为输出的红外与可见光重建图像,图像重建阶段的总损失函数为,ω1和ω2是/>损失与/>损失之间的权衡参数,‖·‖F代表Frobenius范数;
S52、将S51重建过程中的编码器网络、特征信息交互网络和多尺度解码网络冻结,把S34中权重自适应调整后的红外特征与可见光特征/>逐像素相加合并,通过自适应融合网络进行图像融合,在第二约束条件下,图像融合过程的损失函数分为三部分,感知损失/>对融合图像和中间特征进行约束,结构相似度函数/>约束融合图像的局部特征,L1损失函数/>补充融合图像中可见光细节特征,计算公式为:
其中,Inputm为图像融合过程中输入的红外与可见光源图像,Output为图像融合过程中输出的融合图像,表示第i层红外特征/>与可见光特征/>融合后的特征,图像融合阶段的总损失函数为/>ω3、ω4、ω5为三个损失之间的权衡参数。
在另外一个实施例中,包括S100至S400共4个步骤,图2是本发明对应的模型结构图,主要分为四个部分:编码器(Encoder)即编码器网络、特征交互模块(FeatureInteration)即跨尺度特征交互网络、特征融合模块(Feature Fusion)即红外与可见光自适应融合网络以及多尺度解码器(Decoder)即多尺度解码网络,其中S代表步长,P代表填充,C代表通道数,图3、图4、图5和图6是本发明的输入图像与融合效果图像。
S100、构建编码器网络。如图2中Encoder部分,由四个组合卷积模块组成,每个卷积块均使用3×3的卷积核,且填充为0,每个卷积块使用两个卷积序列构成,按顺序为卷积层、批归一化层和激活层,第一个卷积序列中的卷积层步长为1,第二个卷积序列中步长为2,激活层使用LeakyReLU。四个组合卷积模块的输入通道数为1,16,32,64,输出通道数变化为16,32,64,128,输入图3红外图像和图4可见光图像,大小为224×224,得到的四个特征图的尺度分别为112×112,56×56,28×28,14×14。
S200、将步骤S100输出的四个尺度的特征进行跨尺度、跨空间信息交互,如图2所示,包括以下分步骤:
S201、在信息交互之前对各尺度特征进行位置编码,使用卷积核为3×3,填充为1的卷积操作,再以残差结构将卷积前与卷积后的特征相加。
S202、使用VIT中transformer架构提取当前特征层特征,为减少计算量,将S201位置编码后的特征通过卷积核为3×3,步长为2,填充为1的卷积进行下采样,作为MSA(Muti-head self-attention)中输入序列向量K和V,其中序列向量Q不进行下采样。
S203、为实现步骤S21位置编码后浅层特征与深层特征的信息交互,使用全局平均池化提取浅层特征的空间信息,通过1×1卷积对通道升维使通道数与深层特征保持一致,以该特征对深层特征重新加权调整,同时将浅层特征使用步长大于1的卷积操作下采样到深层特征的尺度,作为分支与加权调整后的特征相加,输出浅层特征与深层特征的交互特征,其尺度为112×112,56×56,28×28。
S204、为实现步骤S201位置编码后深层特征与浅层特征的信息交互,使用VIT中transformer架构实现信息交互,其中深层特征作为MSA中的输入序列向量Q,浅层特征作为输入序列向量K和V,该结构与步骤S202完全相同,完成深层特征与浅层特征的交互特征,输出尺度为56×56,28×28,14×14。
S25、对步骤S100、S202、S203、S204得到的特征图在通道上合并,再经过卷积核为1×1的卷积操作实现各特征图在通道上的信息传递,同时将通道数恢复到与步骤S1完全相同的通道数,输出特征图的通道数分别为16,32,64,128,对应特征尺度分别为112×112,56×56,28×28,14×14。
S3、如图5所示,红外与可见光特征图直接相加后重建的融合图像已经有人眼可见的融合效果,故以步骤S200输出的相同尺度的红外特征图与可见光特征图相加的特征作为引导,分别使用全局平均池化和全局最大池化,把得到的全局平均池化向量和全局最大池化向量相加,通过softmax计算红外特征图与可见光特征图的基于通道的自适应权重,以该权重对S200输出的红外特征图与可见光特征图进行加权调整,再次相加得到多尺度的融合特征图,如图2中的融合模块,输出的通道数为16,32,64,128,对应特征尺度分别为112×112,56×56,28×28,14×14。
S400、构建多尺度解码器网络,包括以下分步骤:
S401、如图2中Decoder部分,由四个组合卷积模块组成,每个卷积块使用两个卷积序列和一个上采样层构成,卷积序列按顺序为卷积层、批归一化层和激活层,第一个卷积序列的卷积层卷积核大小为3×3,步长为1,填充为1,第二个卷积序列的卷积层卷积核大小为1×1,步长为1,填充为0,激活层均使用LeakyReLU,上采样层的采样因子为2,同时Decoder整个结构使用密集连接方式。
S402、将步骤S200输出的红外特征与可见光特征通过S401中的解码器网络进行图像重建,用于训练编码器网络、跨尺度信息交互网络和解码器网络。
S403、将步骤S402中编码器网络、跨尺度信息交互网络以及解码器网络冻结,以步骤S200输出的红外特征与可见光特征作为输入训练步骤S300中的融合网络,最终通过步骤S401中的解码器网络重建融合图像如图6,相比于简单的相加融合图5,图6保留了更显著的行人对比度信息,同时兼顾了左侧树木的纹理细节,整幅图像的对比度也有所提升,符合人眼的视觉感知。
本发明的有益效果如下:
一方面,使用跨尺度特征交互方法,使得浅层的纹理等低级特征与深层的语义特征进行充分的信息交互,极大加强了不同尺度特征之间的交流程度。另一方面,使用红外特征与可见光特征相加的特征作为引导,实现模型对融合权重的自适应调整。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图7所示,本发明实施例的一种红外与可见光图像自适应融合系统200,包括构建训练模块210和融合模块220;
构建训练模块210用于:构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
融合模块220用于:将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到待融合红外与可见光图像对应的多尺度融合特征,将待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到待融合红外与可见光图像对应的融合图像。
可选地,在上述技术方案中,构建训练模块210对编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络进行训练的过程,包括:
基于包括多个红外与可见光源图像样本的数据集,在预设约束条件下对编码器网络、跨尺度特征交互网络和多尺度解码网络进行训练,预设约束条件为:输入编码器网络的红外与可见光源图像样本与多尺度解码网络的输出结果相同;
其中,编码器网络用于提取每个红外与可见光源图像样本的多个尺度特征;
其中,跨尺度特征交互网络用于:得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征;
其中,多尺度解码网络用于:将每个红外与可见光源图像样本对应的多个跨尺度信息交互特征重建为红外与可见光源图像;
对当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的多尺度解码网络进行冻结,对红外与可见光自适应融合网络进行训练;
其中,红外与可见光自适应融合网络用于:
将每个跨尺度信息交互特征中的红外特征与可见光特征之和作为引导特征,提取并根据每个引导特征的全局平均池化特征和全局最大池化特征,计算每个跨尺度信息交互特征对应的自适应权重,根据每个跨尺度信息交互特征对应的自适应权重,自适应重校准红外特征与可见光特征的权重在红外与可见光自适应融合网络中的占比,将校准后的每个红外特征和每个可见光特征相加,得到多尺度融合特征。
可选地,在上述技术方案中,编码器网络包括4个依次设置的组合卷积块,每个组合卷积块均包括两个依次设置的卷积核均为3×3的卷积层,每个组合卷积块中的第一个卷积层步长为1、第二个卷积层步长为2,将取红外与可见光源图像样本经4个依次设置的组合卷积块操作后,得到红外与可见光源图像的4个尺度特征φm,其中,/>表示红外与可见光源图像经第一个组合卷积块操作后所得到的尺度特征,/>表示/>经第二个组合卷积块操作后所得到的尺度特征,/>表示/>经第三个组合卷积块操作后所得到的尺度特征,/>表示/>经第四个组合卷积块操作后所得到的尺度特征。
可选地,在上述技术方案中,跨尺度特征交互网络具体用于:
对每个尺度特征进行位置编码,得到每个位置编码后的尺度特征,将每个位置编码后的尺度特征进行特征提取,得到每个尺度特征对应的红外特征和可见光特征,将每两个位置编码后的不同尺度的尺度特征进行信息交互,得到多个信息交互特征,将每个尺度特征对应的包括红外特征和可见光特征和相应的信息交互特征进行聚合,得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征。
上述关于本发明的一种红外与可见光图像自适应融合系统中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种红外与可见光图像自适应融合方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例的一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行上述任一项的一种红外与可见光图像自适应融合方法。
本发明实施例的一种电子设备,包括处理器和上述的存储介质,处理器执行存储介质中的指令。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。
因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种红外与可见光图像自适应融合方法,其特征在于,包括:
构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到所述待融合红外与可见光图像对应的多尺度融合特征,将所述待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到所述待融合红外与可见光图像对应的融合图像。
2.根据权利要求1所述的一种红外与可见光图像自适应融合方法,其特征在于,对编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络进行训练的过程,包括:
基于包括多个红外与可见光源图像样本的数据集,在预设约束条件下对所述编码器网络、所述跨尺度特征交互网络和所述多尺度解码网络进行训练,所述预设约束条件为:输入所述编码器网络的红外与可见光源图像样本与所述多尺度解码网络的输出结果相同;
其中,所述编码器网络用于提取每个红外与可见光源图像样本的多个尺度特征;
其中,所述跨尺度特征交互网络用于:得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征;
其中,所述多尺度解码网络用于:将每个红外与可见光源图像样本对应的多个跨尺度信息交互特征重建为红外与可见光源图像;
对当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的多尺度解码网络进行冻结,对所述红外与可见光自适应融合网络进行训练;
其中,所述红外与可见光自适应融合网络用于:
将每个跨尺度信息交互特征中的红外特征与可见光特征之和作为引导特征,提取并根据每个引导特征的全局平均池化特征和全局最大池化特征,计算每个跨尺度信息交互特征对应的自适应权重,根据每个跨尺度信息交互特征对应的自适应权重,自适应重校准红外特征与可见光特征的权重在所述红外与可见光自适应融合网络中的占比,将校准后的每个红外特征和每个可见光特征相加,得到多尺度融合特征。
3.根据权利要求2所述的一种红外与可见光图像自适应融合方法,其特征在于,所述编码器网络包括4个依次设置的组合卷积块,每个组合卷积块均包括两个依次设置的卷积核均为3×3的卷积层,每个组合卷积块中的第一个卷积层步长为1、第二个卷积层步长为2,将取红外与可见光源图像样本经4个依次设置的组合卷积块操作后,得到所述红外与可见光源图像的4个尺度特征φm,φm=[φ1 m,φ2 m,φ3 m,φ4 m],其中,φ1 m表示所述红外与可见光源图像经第一个组合卷积块操作后所得到的尺度特征,φ2 m表示φ1 m经第二个组合卷积块操作后所得到的尺度特征,φ3 m表示φ2 m经第三个组合卷积块操作后所得到的尺度特征,φ4 m表示φ3 m经第四个组合卷积块操作后所得到的尺度特征。
4.根据权利要求2或3所述的一种红外与可见光图像自适应融合方法,其特征在于,所述跨尺度特征交互网络具体用于:
对每个尺度特征进行位置编码,得到每个位置编码后的尺度特征,将每个位置编码后的尺度特征进行特征提取,得到每个尺度特征对应的红外特征和可见光特征,将每两个位置编码后的不同尺度的尺度特征进行信息交互,得到多个信息交互特征,将每个尺度特征对应的包括红外特征和可见光特征和相应的信息交互特征进行聚合,得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征。
5.一种红外与可见光图像自适应融合系统,其特征在于,包括构建训练模块和融合模块;
所述构建训练模块用于:构建编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络,并进行训练;
所述融合模块用于:将待融合红外与可见光图像输入到当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的红外与可见光自适应融合网络后,得到所述待融合红外与可见光图像对应的多尺度融合特征,将所述待融合红外与可见光图像对应的多尺度融合特征输入当前训练好的多尺度解码网络,得到所述待融合红外与可见光图像对应的融合图像。
6.根据权利要求5所述的一种红外与可见光图像自适应融合系统,其特征在于,所述构建训练模块对编码器网络、跨尺度特征交互网络、红外与可见光自适应融合网络和多尺度解码网络进行训练的过程,包括:
基于包括多个红外与可见光源图像样本的数据集,在预设约束条件下对所述编码器网络、所述跨尺度特征交互网络和所述多尺度解码网络进行训练,所述预设约束条件为:输入所述编码器网络的红外与可见光源图像样本与所述多尺度解码网络的输出结果相同;
其中,所述编码器网络用于提取每个红外与可见光源图像样本的多个尺度特征;
其中,所述跨尺度特征交互网络用于:得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征;
其中,所述多尺度解码网络用于:将每个红外与可见光源图像样本对应的多个跨尺度信息交互特征重建为红外与可见光源图像;
对当前训练好的多尺度编码器网络、当前训练好的跨尺度特征交互网络和当前训练好的多尺度解码网络进行冻结,对所述红外与可见光自适应融合网络进行训练;
其中,所述红外与可见光自适应融合网络用于:
将每个跨尺度信息交互特征中的红外特征与可见光特征之和作为引导特征,提取并根据每个引导特征的全局平均池化特征和全局最大池化特征,计算每个跨尺度信息交互特征对应的自适应权重,根据每个跨尺度信息交互特征对应的自适应权重,自适应重校准红外特征与可见光特征的权重在所述红外与可见光自适应融合网络中的占比,将校准后的每个红外特征和每个可见光特征相加,得到多尺度融合特征。
7.根据权利要求6所述的一种红外与可见光图像自适应融合系统,其特征在于,所述编码器网络包括4个依次设置的组合卷积块,每个组合卷积块均包括两个依次设置的卷积核均为3×3的卷积层,每个组合卷积块中的第一个卷积层步长为1、第二个卷积层步长为2,将取红外与可见光源图像样本经4个依次设置的组合卷积块操作后,得到所述红外与可见光源图像的4个尺度特征φm,φm=[φ1 m,φ2 m,φ3 m,φ4 m],其中,φ1 m表示所述红外与可见光源图像经第一个组合卷积块操作后所得到的尺度特征,φ2 m表示φ1 m经第二个组合卷积块操作后所得到的尺度特征,φ3 m表示φ2 m经第三个组合卷积块操作后所得到的尺度特征,φ4 m表示φ3 m经第四个组合卷积块操作后所得到的尺度特征。
8.根据权利要求5或6所述的一种红外与可见光图像自适应融合系统,其特征在于,所述跨尺度特征交互网络具体用于:
对每个尺度特征进行位置编码,得到每个位置编码后的尺度特征,将每个位置编码后的尺度特征进行特征提取,得到每个尺度特征对应的红外特征和可见光特征,将每两个位置编码后的不同尺度的尺度特征进行信息交互,得到多个信息交互特征,将每个尺度特征对应的包括红外特征和可见光特征和相应的信息交互特征进行聚合,得到每个尺度特征对应的包括红外特征和可见光特征的跨尺度信息交互特征。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种红外与可见光图像自适应融合方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9所述的存储介质,所述处理器执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310641745.5A CN116757978A (zh) | 2023-05-31 | 2023-05-31 | 一种红外与可见光图像自适应融合方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310641745.5A CN116757978A (zh) | 2023-05-31 | 2023-05-31 | 一种红外与可见光图像自适应融合方法、系统和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116757978A true CN116757978A (zh) | 2023-09-15 |
Family
ID=87956359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310641745.5A Pending CN116757978A (zh) | 2023-05-31 | 2023-05-31 | 一种红外与可见光图像自适应融合方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757978A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036893A (zh) * | 2023-10-08 | 2023-11-10 | 南京航空航天大学 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
CN117726920A (zh) * | 2023-12-20 | 2024-03-19 | 广州丽芳园林生态科技股份有限公司 | 基于知识图谱的植物病虫害识别方法、系统、设备及存储介质 |
CN117726920B (zh) * | 2023-12-20 | 2024-06-07 | 广州丽芳园林生态科技股份有限公司 | 基于知识图谱的植物病虫害识别方法、系统、设备及存储介质 |
-
2023
- 2023-05-31 CN CN202310641745.5A patent/CN116757978A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036893A (zh) * | 2023-10-08 | 2023-11-10 | 南京航空航天大学 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
CN117036893B (zh) * | 2023-10-08 | 2023-12-15 | 南京航空航天大学 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
CN117726920A (zh) * | 2023-12-20 | 2024-03-19 | 广州丽芳园林生态科技股份有限公司 | 基于知识图谱的植物病虫害识别方法、系统、设备及存储介质 |
CN117726920B (zh) * | 2023-12-20 | 2024-06-07 | 广州丽芳园林生态科技股份有限公司 | 基于知识图谱的植物病虫害识别方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021103137A1 (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
CN113159056A (zh) | 图像分割方法、装置、设备及存储介质 | |
CN116757978A (zh) | 一种红外与可见光图像自适应融合方法、系统和电子设备 | |
CN115293992B (zh) | 基于无监督权重深度模型的偏振图像去雾方法及装置 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN115908805A (zh) | 基于卷积增强交叉自注意力变形器的u型图像分割网络 | |
CN115294282A (zh) | 三维场景重建中增强特征融合的单目深度估计系统及其方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN115426075A (zh) | 语义通信的编码传输方法及相关设备 | |
CN114139703A (zh) | 知识蒸馏方法及装置、存储介质及电子设备 | |
CN117078574A (zh) | 一种图像去雨方法及装置 | |
CN116957921A (zh) | 图像渲染方法、装置、设备及存储介质 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN116091765A (zh) | 一种rgb-t图像语义分割方法和装置 | |
CN115601235A (zh) | 一种图像超分辨率网络训练方法、装置、设备及存储介质 | |
CN115880312A (zh) | 一种三维图像自动分割方法、系统、设备和介质 | |
CN115439610A (zh) | 模型的训练方法、训练装置、电子设备和可读存储介质 | |
CN114066841A (zh) | 一种天空检测方法、装置、计算机设备和存储介质 | |
CN114419517A (zh) | 视频帧处理方法、装置、计算机设备及存储介质 | |
CN116821699B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN117252787B (zh) | 图像重新照明方法、模型训练方法、装置、设备及介质 | |
CN115941872B (zh) | 一种水下高速移动目标的视频插帧方法及其系统 | |
CN116962657B (zh) | 彩色视频生成方法、装置、电子设备及存储介质 | |
CN116563926B (zh) | 一种人脸识别方法、系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |