CN116091372B - 基于层分离和重参数的红外和可见光图像融合方法 - Google Patents

基于层分离和重参数的红外和可见光图像融合方法 Download PDF

Info

Publication number
CN116091372B
CN116091372B CN202310005792.0A CN202310005792A CN116091372B CN 116091372 B CN116091372 B CN 116091372B CN 202310005792 A CN202310005792 A CN 202310005792A CN 116091372 B CN116091372 B CN 116091372B
Authority
CN
China
Prior art keywords
image
fusion
light image
network
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310005792.0A
Other languages
English (en)
Other versions
CN116091372A (zh
Inventor
蒋敏
芦鸣
孔军
陶雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310005792.0A priority Critical patent/CN116091372B/zh
Publication of CN116091372A publication Critical patent/CN116091372A/zh
Application granted granted Critical
Publication of CN116091372B publication Critical patent/CN116091372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于层分离和重参数的红外和可见光图像融合方法,包括以下步骤:步骤一、构建重参数融合网络;步骤二、对重参数融合网络进行训练,其中对于重参数融合网络的训练阶段,设置层分离引导网络,层分离引导网络以红外光图像作为输入,通过自编码器分离出红外光图像中的显著特征并生成引导掩码;引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练;步骤三、部署训练好的重参数网络模型。本发明有益效果:层分离引导网络生成引导掩码指导重参数融合网络的训练,缓解了融合过程中红外和可见光图像的信息相互影响而导致融合图像的显著特征和纹理细节相较源图像退化的问题,显著提升了融合图像的质量。

Description

基于层分离和重参数的红外和可见光图像融合方法
技术领域
本发明涉及计算机视觉领域,尤其是一种基于层分离和重参数的红外和可见光图像融合方法。
背景技术
图像融合作为计算机视觉领域的一项重要的研究,被广泛的应用于遥感、安防和医疗等各个领域。图像融合中尤其以红外和可见光图像融合因其源图像具有跨模态的互补特性而成为一项重要的研究。跨模态的互补特性具体表现为:红外光传感器捕获物体的热辐射信息且不受光照、天气等环境因素的影响,使得图像具有目标显著的优势但存在纹理细节不清晰的问题;与之相反,可见光传感器捕获物体表面的反射光信息,使得图像纹理细节清晰但易受到环境因素的影响而导致目标不显著,不易于检测的问题。目前,红外和可见光图像融合大致可分为传统方法和深度学习方法。传统的方法以多尺度变换和稀疏表示为代表,旨在寻找两种不同模态图像之间的共同特征,然后人为设计相应的融合规则。传统的方法往往需要进行多次耗时的迭代和针对不同的数据集来调整参数。近年来,因深度学习强大的特征表示能力,研究者们成功的将其引入红外和可见光图像融合领域来生成高质量的融合图像。深度学习方法在红外和可见光图像融合领域又可依据是否需要人为设计融合规则分为非端到端模型和端到端模型。非端到端的模型需要人为设计融合规则,而红外和可见光图像之间的融合规则又是一个复杂到人为难以设计的问题。而端到端模型则无需融合规则,通过网络自身的表征能力来融合图像。本发明以端到端模型为研究对象,针对红外和可见光图像的信息相互影响而导致的融合图像显著特征和纹理细节相较源图像退化的问题开展研究。
目前,端到端的红外和可见光图像融合模型主要是通过设计相应的网络结构和最小化融合图像和源图像的结构相似度损失或均方误差损失来实现融合。此类模型的设计能最大化的保留源图像的信息,但是仍然面临着两个问题:(1)如何解决红外和可见光图像的信息相互影响而导致融合图像的显著特征和纹理细节相较源图像退化的问题。(2)如何解决随着网络深度的不断增加导致融合模型部署到终端设备的推理精度和速度难以平衡的问题。
发明内容
本发明的目的在于提供一种基于层分离和重参数的红外和可见光图像融合方法,旨在解决红外和可见光图像的信息相互影响导致融合图像的显著特征和纹理细节相较源图像退化的问题和通过重参数的方式,将多分支的网络结构转换为单分支网络结构实现轻量化部署。
为实现上述目的,本发明提供如下技术方案:
一种基于层分离和重参数的红外和可见光图像融合方法,包括以下步骤:
步骤一、构建重参数融合网络;
步骤二、对重参数融合网络进行训练,其中对于重参数融合网络的训练阶段,设置层分离引导网络,层分离引导网络以红外光图像作为输入,通过自编码器分离出红外光图像中的显著特征并生成引导掩码;引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练;
步骤三、部署训练好的重参数网络模型;
采用训练好的重参数网络模型对图像进行融合的方法,包括以下步骤:
步骤一、读取红外光图像和可见光图像:
步骤二、重参数融合网络生成灰度融合图像:
步骤三、灰度融合图像转换为RGB图像。
作为本发明进一步的方案:重参数融合网络经过结构转换,将其多分支结构转换为单分支结构后进行部署。
作为本发明进一步的方案:层分离引导网络中的自编码器包含编码器和解码器两部分;
层分离引导网络生成引导掩码的方法包括以下步骤:
步骤1,红外光图像输入到编码器来提取红外光图像的显著特征;
步骤2,将获取的显著特征输入到解码器来生成一张关注红外光图像显著信息的引导图像;
步骤3,通过二值化算法将引导图像转换为引导掩码。
作为本发明进一步的方案:层分离引导网络中的自编码器的编码器是基于RepVGG网络结构设计。
作为本发明进一步的方案:层分离引导网络中的自编码器的解码器是由3个网络层所组成,前2层是由核大小为3×3的卷积层、批归一化层和激活函数Leaky ReLU所组成,用于解码显著特征为解码后的特征;第3层是由核大小为3×3的卷积层、批归一化层和激活函数ReLU所组成,用于将解码后的特征还原为引导图像;最后通过图像二值化,生成引导掩码。
作为本发明进一步的方案:层分离引导网络的层分离损失的具体计算方式,包括以下步骤:
步骤1,计算数据集标签与红外光图像的乘积得到标签显著信息图;
步骤2,通过阈值分割获取伪显著信息标签并与红外光图像相乘得到伪标签显著信息图;
步骤3,将标签显著信息图和伪标签显著信息图求并集得到联合标签显著信息图;
步骤4,通过最小化引导图像和联合标签显著信息图的结构相似度损失、最小化引导图像与红外光图像的梯度的均方误差损失作为层分离损失。
作为本发明进一步的方案:训练阶段,重参数融合网络设计有纹理细节保持编码器,提取可见光图像中的纹理细节特征;在纹理细节保持编码器基础上增加重参数位置注意力模块,作为显著特征保持编码器;显著特征保持编码器用于提取红外光图像中的显著目标特征;将纹理细节特征和显著目标特征拼接,输入特征解码器中生成单通道的融合图像。
作为本发明进一步的方案:重参数融合网络的反向传播训练,通过引导融合损失进行约束。
作为本发明进一步的方案:重参数位置注意力模块,用于关注红外特征中的显著区域,对输入的红外光图像特征进行编码和解码。
作为本发明进一步的方案:重参数位置注意力模块,计算显著信息的权重,并将权重和红外光图像特征做矩阵乘积得到显著通道特征,最后将显著通道特征和红外光图像特征进行特征拼接后输出。
作为本发明进一步的方案:重参数融合网络中的引导融合损失的函数包括:可见光纹理细节损失函数、红外光显著信息损失函数、隐藏层信息损失函数;
可见光纹理细节损失函数用于保留可见光图像的纹理细节信息;
红外光显著信息损失函数用于保留红外光图像中的显著目标信息;
隐藏层信息损失函数通过约束梯度细节的方式来保留隐藏层的细节信息。
与现有技术相比,本发明的有益效果是:提出了一个基于层分离和重参数的红外和可见光图像融合方法,将红外光图像输入到层分离引导网络中生成引导掩码;将生成的引导掩码加入到重参数融合网络中作为引导融合损失,来引导红外和可见光图像融合;通过重参数的方式,将多分支的网络结构转换为单分支网络结构实现轻量化部署。
层分离引导网络从红外光图像中分离出显著层并生成引导掩码。引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练。缓解了融合过程中红外和可见光图像的信息相互影响而导致融合图像的显著特征和纹理细节相较源图像退化的问题,显著地提升了融合图像的质量。
重参数融合网络,部署时通过将多分支网络结构转换为单分支网络结构,能更好的实现推理精度和速度的平衡,满足轻量化部署的要求。
本发明的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。
附图说明
图1是本发明的基于层分离和重参数的红外和可见光图像融合方法的算法流程图;
图2是本发明的基于层分离和重参数的红外和可见光图像融合方法的算法框架图;
图3是本发明中的层分离引导网络的结构图;
图4是本发明中的层分离演示图;
图5是本发明中的RepVGG结构图;
图6是本发明中的重参数融合网络结构图;
图7是本发明中的基于重参数的位置注意力机制RPA结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1所示,一种基于层分离和重参数的红外和可见光图像融合方法,包括以下步骤:
步骤一、构建重参数融合网络;
步骤二、对重参数融合网络进行训练;
步骤三、部署训练好的重参数网络模型。
其中,对于重参数融合网络的训练阶段,设置层分离引导网络,利用层分离引导网络生成引导掩码Imask指导重参数融合网络的训练。具体而言,层分离引导网络以红外光图像Iir作为输入,通过自编码器分离出红外光图像Iir中的显著特征并生成引导掩码Imask;引导掩码Imask作为后续的引导融合损失中的一部分,指导重参数融合网络的训练;其中,自编码器包含编码器和解码器两部分;引导掩码Imask是由本发明提出的层分离损失进行约束;重参数融合网络首先以RepVGG为结构块,设计了纹理细节保持编码器,提取可见光图像Ivi中的纹理细节特征fvi;其次,在纹理细节保持编码器基础上增加重参数位置注意力模块,作为显著特征保持编码器;显著特征保持编码器用于提取红外光图像Iir中的显著目标特征fir;最后,将纹理细节特征fvi和显著目标特征fir拼接,输入特征解码器中生成单通道的融合图像Igray;其中,重参数融合网络的反向传播训练,通过引导融合损失进行约束。
采用训练好的重参数网络模型对图像进行融合的方法,包括以下步骤:
步骤一、读取红外光图像和可见光图像:
步骤二、重参数融合网络生成灰度融合图像:
步骤三、灰度融合图像转换为RGB图像。
读取红外光图像Iir和可见光图像Ivi的RGB图像,并转换到YCbCr颜色空间(两种图像同时转换到YCbCr颜色空间),使用其中Y亮度通道用于后续的图像融合,Cb和Cr负责保存可见光图像的色彩信息;将红外光图像Iir和可见光图像Ivi带入重参数融合网络生成灰度融合图像Igray:将重参数融合网络生成的灰度融合图像Igray属于YCbCr颜色空间的Y亮度通道,通过与Cb和Cr通道的颜色信息融合后,再转换为RGB的融合图像Ifuse
参考图2,基于层分离和重参数的红外和可见光图像融合方法的算法框架图。算法以配准后的红外和可见光图像对作为输入。模型包括层分离引导网络和重参数融合网络两个部分。所有待融合的红外光图像、可见光图像都必须要配准。通过配准使红外光图像和可见光图像对齐。
引导掩码Imask作为后续的引导融合损失中的一部分,指导重参数融合网络的训练。推理阶段,因层分离引导网络的主要作用是利用引导掩码Imask指导重参数融合网络的训练,而且重参数融合网络已在训练阶段完成优化,所以无需部署层分离引导网络。同时,在推理阶段,基于重参数的思想,将重参数融合网络的多分支结构转换成单分支结构,并部署至终端设备;最后,输入红外光图像Iir和可见光图像Ivi至重参数融合网络,生成最终的融合图像Ifuse
为了对本发明进行更好的说明,以下以公开的图像融合数据集M3FD为例进行阐述。
参考图3,层分离引导网络的结构图,展示了分离引导网络从红外光图像中分离出显著层并生成引导掩码的具体方法。针对红外和可见光图像的不同特性,在其融合过程中为其分配不同权重,能有效的缓解融合图像的显著特征和纹理细节相较源图像退化的问题。为此,本发明提出层分离引导网络,用于从红外光图像中分离出显著层并生成引导掩码。引导掩码Imask作为后续的引导融合损失中的一部分,指导重参数融合网络的训练。生成的引导掩码,是作为后续的重参数融合网络中,计算损失函数时使用的,去迫使融合的结果能够具有更好的视觉质量和指标评价。基于层分离的思想,设计了一个自编码器结构和一个层分离损失,该模块的输入是红外光图像Iir
层分离引导网络生成引导掩码的方法包括以下步骤:
步骤1,红外光图像Iir输入到编码器来提取红外光图像Iir的显著特征
步骤2,将获取的显著特征输入到解码器来生成一张关注红外光图像显著信息的引导图像Imap
步骤3,通过二值化算法将Imap转换为引导掩码Imask
对于层分离引导网络的分离思想,参考图4,以红外光图像为基准可将其划分为显著层、模糊层、隐藏层。显著层以图中行人为例,指红外图像中目标亮度突出部分;模糊层以图中杂草为例,受红外传感器限制,捕获的场景信息天然有一种模糊的噪声,而模糊层是指覆盖在图像中的模糊核;隐藏层以图中山峰为例,指红外图像中的有别于显著层和模糊层的纹理细节特征,而这部分纹理细节特征又与显著层和模糊层耦合。为此,本发明中的层分离思想旨在分离出红外光图像中的显著层和隐藏层,并将这两者与可见光图像融合,实现生成高质量的融合图像。
参考图3和图5,层分离引导网络中编码器是基于RepVGG网络结构设计,用于提取红外光图像中的显著特征。参考图3,编码器是由步长stride均为1的一层DVB、2层TVB、一层DVB、3层TVB所组成。DVB和TVB的具体结构如图5所示,DVB是由核大小为3×3卷积层、批归一化层BN和1×1的卷积层、批归一化层BN并联,再输入到ReLU激活函数。TVB是在DVB的基础上增加一个批归一化的支路。其中,Identity是一个标识,没有具体的网络结构。
参考图3,层分离引导网络中解码器结构,是由3个网络层所组成,前2层是由核大小为3×3的卷积层、批归一化层BN和激活函数Leaky ReLU所组成,用于解码显著特征为解码后的特征/>第3层是由核大小为3×3的卷积层、批归一化层和激活函数ReLU所组成,用于将解码后的特征/>还原为引导图像Imap;最后通过图像二值化,生成引导掩码Imask
层分离损失的具体计算方式,包括以下步骤:
步骤1,计算M3FD数据集标签Binlab与红外光图像Iir的乘积得到标签显著信息图Maplab;M3FD是一个公开数据集,总共有4200对图像,所有图像均参与训练。其中,人为的标注了6种目标(行人、汽车、公共汽车、摩托车、交通灯、卡车)。
步骤2,通过阈值分割获取伪显著信息标签Binplab并与红外光图像Iir相乘得到伪标签显著信息图Mapplab;阈值是动态设定的。具体的计算步骤如下:
其中,Binplab的计算如下:
其中,针对M3FD训练集,设置T=2,为总迭代次数。τ表示当前的迭代轮次。W和H表示图像的宽和高。(i,j)表示像素坐标。表示第τ次迭代(i,j)位置的像素值。/>表示τ-1次迭代的图像Iir的均值。
简单理解是针对具体训练集做循环迭代,来得到一个初始估计。使得层分解网络的反向传播,能够更接近我们需要的结果。
步骤3,将标签显著信息图Maplab和伪标签显著信息图Mapplab求并集得到联合标签显著信息图Mapunion其中,/>表示矩阵乘积,Iir为红外光图像,Binlab是M3FD公开的标签,是个只包含0和1的矩阵,0表示没有标注的区域像素,1表示标注了区域像素,标注的目标都是类似目标检测的风格,是一个矩形区域。
步骤4,通过最小化引导图像Imap和联合标签显著信息图Mapunion的结构相似度损失、最小化引导图像Imap与红外光图像Iir的梯度的均方误差损失作为层分离损失。
层分离损失L的具体公式为:
其中表示矩阵乘法,/>表示Sobel梯度算子;LSSIM表示结构相似度损失;LMSE表示均方误差损失;Lpixel表示像素强度损失,即平均绝对误差损失MAE,用于缓解训练过程中的过拟合问题;在本实施例中α=20和β=20表示超参数。
LSSIM的具体计算公式为:LSSIM=1-SSIM(X,F),其中
上式中SSIM表示结构相似度,用于衡量两张图像的结构、亮度和对比度的相关性。其中,X,F分别表示两张图像;x,f分别对应X,F的像素值;σxf表示X,F的协方差;σx,σf表示标准差;μx,μf表示均值;C1,C2,C3是用来使算法稳定的参数。C1,C2,C3为常数。这个是调用函数包,是一个动态变化的值。计算公式如下:
C1=(k1×ξ)2,C2=(k2×ξ)2,C3=C2/2,其中,
k1=0.01,k2=0.03,ξ=255(是像素的动态范围,一般为255)。
LMSE的具体计算公式为:LMSE=MSE(X,F),其中
上式中W,H分别表示图像的宽度和高度。
i,j表示序号,分别对应宽度和高度上的序号;(i,j)为坐标位置,X(i,j)为(i,j)处的像素值。
Lpixel的具体计算公式为:Lpixel=MAE(X,F),其中
上式中W,H分别表示图像的宽度和高度;||·||1表示L1范数。
参考图6,重参数融合网络结构图。重参数融合网络是一个端到端的网络结构模型,以配准后的红外光图像Iir和可见光图像Ivi作为输入图像。重参数融合网络中的纹理细节保持编码器与层分离引导网络中的编码器结构一致。纹理细节保持编码器提取可见光图像Ivi中的纹理细节特征fvi。显著特征保持编码器是在纹理细节保持编码器的基础上增加一个RPA结构。RPA是基于重参数的位置注意力机制,用于更好的从红外光图像Iir中提取显著特征fir。通过RPA提取显著特征fir,将显著特征fir输入到一个核大小为3×3的卷积层,使其维度大小与提取的可见光图像的纹理细节特征fvi一致。然后,通过特征拼接输入到特征解码器,生成最后的融合图像Igray。其中,特征解码器是在层分离引导网络中解码器的基础上增加一层核大小为3×3的卷积层、批归一化层和激活函数Leaky ReLU。
参考图7重参数位置注意力模块RPA,用于关注红外特征中的显著区域。RPA用于对输入的红外光图像特征fir进行编码Encoding和解码Decoding,即计算显著信息的权重w,并将权重w和红外光图像特征fir做矩阵乘积得到显著通道特征最后将显著通道特征/>和红外光图像特征fir进行特征拼接后输出。
计算显著信息的权重w的编码阶段的步骤包括:
步骤1、编码阶段先对红外光图像特征fir进行全局平均池化GPA得到压缩后的通道特征
步骤2、对通道特征计算最大池化MaxPool来保存特征中的显著信息
步骤3、通过依次通过步长stride为1的DVB、步长stride为2的DVB下采样、步长stride为1的TVB得到编码后的特征权重
计算显著信息的权重w的解码阶段的步骤包括:
步骤1、解码阶段先采用核大小为3×3的卷积层、上采样因子为2的像素重组PixleShullfer×2、激活函数Sigmoid对特征权重进行第一次上采样得到/>
步骤2、通过残差连接的方式将第一次DVB编码后的特征补充到得到/>
步骤3、对进行第二次上采样得到显著信息权重w。
其中,重参数融合网络中设计的引导融合损失具体细节如下:
重参数融合网络中的引导融合损失的函数包括:可见光纹理细节损失函数Lvi、红外光显著信息损失函数Lir、隐藏层信息损失函数Lhide
具体的损失函数为下面3个,其中引导掩码参与了红外光显著信息损失函数Lir损失函数的反向传播。其中,指导训练,在机器学习中,是通过方向传播的方式,不断使得损失函数的值不断下降,直到不能下降为止。这样使得生成的结果,不断逼近我们的期望值。
可见光纹理细节损失函数Lvi用于保留可见光图像的纹理细节信息。具体的计算方式为:
Lvi=LSSIM(Ifuse,Ivi)+θLpixel(Ifuse,Ivi)。
红外光显著信息损失函数Lir用于保留红外光图像中的显著目标信息。具体的计算方式为:
隐藏层信息损失函数Lhide通过约束梯度细节的方式来保留隐藏层的细节信息。具体的计算方式为:
将重参数融合网络多分支结构转换为单分支结构的具体方法如下:
采用重参数的方式将重参数融合网络中DVB和TVB的多分支结构转换为SVB单路结构。其中DVB、TVB、SVB的结构分别参考图5中的(a)(b)(c)。
轻量化部署的具体细节如下:
受硬件设备的限制,复杂的端到端模型很难满足终端设备的快速推理要求。为此,采用轻量化部署方式。在训练阶段,层分离引导网络从红外光图像中分离出显著层并生成的引导掩码Imask,用于指导红外光显著信息损失函数Lir的约束优化。在部署阶段,由于重参数融合网络已经全部完成优化,因此不需要层分离引导网络,可以直接舍去。
为验证本发明的有效性和鲁棒性,本发明在M3FD数据集上进行训练,在TNO数据集、RoadScene数据集、M3FD数据集上进行测试。训练样本是为了训练模型,使得模型的权重参数达到最优。但是,在机器学习中,在某个数据集达到最优,往往不一定能在其他数据中也表现良好,因为不同数据集的采集设备、时间地点都不一样,导致结果区别较大,即泛化性或者鲁棒性。为此,需要在多个数据集中进行测试。训练集样本和测试集样本,测试时候是没有区别的。
TNO数据集包含不同军事场景下的夜景图像,随机选择42对配准后的红外和可见光图像对进行测试。RoadScene数据集来自FLIR视频中的街道场景,选择全部的221对配准后的红外和可见光图像对进行测试。M3FD数据集拥有4200对大小为1024×768配准的红外和可见光图像对,选择300对有代表性的场景的配准后的红外和可见光图像对进行测试。场景风格包含四种类型:白天、阴天、夜间、具体挑战性的场景,具体还可细分为十个子场景:自然、街景、海景、校园、十字路口、公共散步场所、伪装场景、烟雾场景、恶劣天气、强光。M3FD数据集还对行人、汽车、公共汽车、摩托车、交通灯、卡车进行了人工标注。
表1是M3FD数据集在实验过程中的参数设置,包括训练样本数、验证样本数、图片大小。
表1 M3FD数据集实验参数设置
数据集 训练样本数 验证样本数 图片大小
M3FD 随机4/5 随机1/5 1024*768
表2和表3为本发明提出的一种基于层分离引导和重参数的红外和可见光图像融合方法,在TNO测试集、RoadScene测试集、M3FD测试集上指标的结果。其中,表2是模型未轻量化的测试结果。表3是模型轻量化后的测试结果。表2和表3说明本发明在TNO、RoadScene、M3FD数据集均取得较高的融合结果,这表明本发明提出的融合方法拥有很好的图像融合能力。
表2重参数融合网络未轻量化在TNO、RoadScene、M3FD上的测试结果
数据集 TNO RoadScene M3FD
SD 44.113 46.922 41.972
PSNR 60.742 61.682 60.427
MSE 0.060 0.052 0.0627
MI 3.301 4.161 4.224
VIF 0.980 0.952 1.097
AG 5.246 5.115 6.026
EN 7.288 7.286 7.180
SF 0.057 0.055 0.069
表3重参数融合网络轻量化后在TNO、RoadScene、M3FD上的测试结果
表4为重参数融合网络轻量化部署前后的网络结构的参数大小,和分别在TNO、RoadScene、M3FD数据集中处理一对配准后的红外和可见光图像所需的时间。
表4重参数融合网络轻量化前后在TNO、RoadScene、M3FD上的测试结果
为了验证本发明在其他视觉任务的增益效果,分别在M3FD的300张测试集上验证目标检测任务的精确度、RegDB数据集上验证跨模态行人重识别任务的精确度。RegDB数据集包含412个行人身份,每个行人包含10对红外和可见光图像。表5和表6说明本发明在目标检测任务和行人重识别任务均取得较高的准确度,这表明本发明提出的融合框架对其他视觉任务具有增益作用。
表5重参数融合网络在M3FD数据集上的目标检测mAP@.5指标结果
评价指标 Person Car Bus All
未轻量化 0.681 0.797 0.797 0.594
轻量化后 0.671 0.798 0.784 0.618
表6重参数融合网络在RegDB数据集上的跨模态行人重识别的指标结果
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于层分离和重参数的红外和可见光图像融合方法,其特征在于,包括以下步骤:
步骤一、构建重参数融合网络;
步骤二、对重参数融合网络进行训练,其中对于重参数融合网络的训练阶段,设置层分离引导网络,层分离引导网络以红外光图像作为输入,通过自编码器分离出红外光图像中的显著特征并生成引导掩码;引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练;
步骤三、部署训练好的重参数网络模型;
采用训练好的重参数网络模型对图像进行融合的方法,包括以下步骤:
步骤一、读取红外光图像和可见光图像:
步骤二、重参数融合网络生成灰度融合图像:
步骤三、灰度融合图像转换为RGB图像;
层分离引导网络中的所述自编码器包含编码器和解码器两部分;
层分离引导网络生成引导掩码的方法包括以下步骤:
步骤1,红外光图像输入到编码器来提取红外光图像的显著特征;
步骤2,将获取的显著特征输入到解码器来生成一张关注红外光图像显著信息的引导图像;
步骤3,通过二值化算法将引导图像转换为引导掩码;
层分离引导网络中的所述自编码器的解码器是由3个网络层所组成,前2层是由核大小为3x3的卷积层、批归一化层和激活函数Leaky ReLU所组成,用于解码显著特征为解码后的特征;第3层是由核大小为3x3的卷积层、批归一化层和激活函数ReLU所组成,用于将解码后的特征还原为显著信息图像;最后通过图像二值化,生成引导掩码;
层分离引导网络的层分离损失的具体计算方式,包括以下步骤:
步骤1,计算数据集标签与红外光图像的乘积得到标签显著信息图;
步骤2,通过阈值分割获取伪显著信息标签并与红外光图像相乘得到伪标签显著信息图;
步骤3,将标签显著信息图和伪标签显著信息图求并集得到联合标签显著信息图;
步骤4,通过最小化引导图像和联合标签显著信息图的结构相似度损失、最小化引导图像与红外光图像的梯度的均方误差损失作为层分离损失;
重参数融合网络中的引导融合损失的函数包括:可见光纹理细节损失函数、红外光显著信息损失函数、隐藏层信息损失函数;
所述可见光纹理细节损失函数用于保留可见光图像的纹理细节信息;
所述红外光显著信息损失函数用于保留红外光图像中的显著目标信息;
所述隐藏层信息损失函数通过约束梯度细节的方式来保留隐藏层的细节信息。
2.根据权利要求1所述的基于层分离和重参数的红外和可见光图像融合方法,其特征在于,
读取红外光图像和可见光图像的RGB图像,并转换到YCbCr颜色空间,使用其中Y亮度通道用于后续的图像融合,Cb和Cr负责保存可见光图像的色彩信息;将红外光图像和可见光图像带入重参数融合网络生成灰度融合图像:将灰度融合图像属于YCbCr颜色空间的Y亮度通道,通过与Cb和Cr通道的颜色信息融合后,再转换为RGB的融合图像。
3.根据权利要求1所述的基于层分离和重参数的红外和可见光图像融合方法,其特征在于,
重参数融合网络经过结构转换,将其多分支结构转换为单分支结构后进行部署。
4.根据权利要求1所述的基于层分离和重参数的红外和可见光图像融合方法,其特征在于,
训练阶段,重参数融合网络设计有纹理细节保持编码器,提取可见光图像中的纹理细节特征;在纹理细节保持编码器基础上增加重参数位置注意力模块,作为显著特征保持编码器;显著特征保持编码器用于提取红外光图像中的显著目标特征;将纹理细节特征和显著目标特征拼接,输入特征解码器中生成单通道的融合图像。
5.根据权利要求1所述的基于层分离和重参数的红外和可见光图像融合方法,其特征在于,
重参数位置注意力模块,用于关注红外特征中的显著区域,对输入的红外光图像特征进行编码和解码。
6.根据权利要求5所述的基于层分离和重参数的红外和可见光图像融合方法,其特征在于,
重参数位置注意力模块,计算显著信息的权重,并将权重和红外光图像特征做矩阵乘积得到显著通道特征,最后将显著通道特征和红外光图像特征进行特征拼接后输出。
CN202310005792.0A 2023-01-03 2023-01-03 基于层分离和重参数的红外和可见光图像融合方法 Active CN116091372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310005792.0A CN116091372B (zh) 2023-01-03 2023-01-03 基于层分离和重参数的红外和可见光图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310005792.0A CN116091372B (zh) 2023-01-03 2023-01-03 基于层分离和重参数的红外和可见光图像融合方法

Publications (2)

Publication Number Publication Date
CN116091372A CN116091372A (zh) 2023-05-09
CN116091372B true CN116091372B (zh) 2023-08-15

Family

ID=86209785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310005792.0A Active CN116091372B (zh) 2023-01-03 2023-01-03 基于层分离和重参数的红外和可见光图像融合方法

Country Status (1)

Country Link
CN (1) CN116091372B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757988B (zh) * 2023-08-17 2023-12-22 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法
CN117197627B (zh) * 2023-09-13 2024-03-01 长春理工大学 一种基于高阶退化模型的多模态图像融合方法
CN117611473B (zh) * 2024-01-24 2024-04-23 佛山科学技术学院 一种同步去噪的图像融合方法及其相关设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
US10664953B1 (en) * 2018-01-23 2020-05-26 Facebook Technologies, Llc Systems and methods for generating defocus blur effects
CN111401292A (zh) * 2020-03-25 2020-07-10 成都东方天呈智能科技有限公司 一种融合红外图像训练的人脸识别网络构建方法
CN111695469A (zh) * 2020-06-01 2020-09-22 西安电子科技大学 轻量化深度可分离卷积特征融合网的高光谱图像分类方法
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111709903A (zh) * 2020-05-26 2020-09-25 中国科学院长春光学精密机械与物理研究所 一种红外与可见光图像融合方法
CN111784619A (zh) * 2020-07-03 2020-10-16 电子科技大学 一种红外和可见光图像的融合方法
WO2021150017A1 (en) * 2020-01-23 2021-07-29 Samsung Electronics Co., Ltd. Method for interactive segmenting an object on an image and electronic computing device implementing the same
CN113361466A (zh) * 2021-06-30 2021-09-07 江南大学 一种基于多模态交叉指导学习的多光谱目标检测方法
CN113379659A (zh) * 2021-07-18 2021-09-10 四川轻化工大学 一种红外线和可见光图像融合方法及应用
CN113435590A (zh) * 2021-08-27 2021-09-24 之江实验室 面向边缘计算的重参数神经网络架构搜索方法
CN114067134A (zh) * 2021-11-25 2022-02-18 西安工业大学 烟尘环境下多光谱目标探测方法、系统、设备和存储介质
CN115063434A (zh) * 2022-05-12 2022-09-16 北京理工大学 一种基于特征去噪的低弱光图像实例分割方法及系统
CN115293337A (zh) * 2022-10-09 2022-11-04 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109478315B (zh) * 2016-07-21 2023-08-01 前视红外系统股份公司 融合图像优化系统和方法
CN112767289B (zh) * 2019-10-21 2024-05-07 浙江宇视科技有限公司 图像融合方法、装置、介质及电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664953B1 (en) * 2018-01-23 2020-05-26 Facebook Technologies, Llc Systems and methods for generating defocus blur effects
CN109614996A (zh) * 2018-11-28 2019-04-12 桂林电子科技大学 基于生成对抗网络的弱可见光与红外图像融合的识别方法
WO2021150017A1 (en) * 2020-01-23 2021-07-29 Samsung Electronics Co., Ltd. Method for interactive segmenting an object on an image and electronic computing device implementing the same
AU2020100178A4 (en) * 2020-02-04 2020-03-19 Huang, Shuying DR Multiple decision maps based infrared and visible image fusion
CN111401292A (zh) * 2020-03-25 2020-07-10 成都东方天呈智能科技有限公司 一种融合红外图像训练的人脸识别网络构建方法
CN111709902A (zh) * 2020-05-21 2020-09-25 江南大学 基于自注意力机制的红外和可见光图像融合方法
CN111709903A (zh) * 2020-05-26 2020-09-25 中国科学院长春光学精密机械与物理研究所 一种红外与可见光图像融合方法
CN111695469A (zh) * 2020-06-01 2020-09-22 西安电子科技大学 轻量化深度可分离卷积特征融合网的高光谱图像分类方法
CN111784619A (zh) * 2020-07-03 2020-10-16 电子科技大学 一种红外和可见光图像的融合方法
CN113361466A (zh) * 2021-06-30 2021-09-07 江南大学 一种基于多模态交叉指导学习的多光谱目标检测方法
CN113379659A (zh) * 2021-07-18 2021-09-10 四川轻化工大学 一种红外线和可见光图像融合方法及应用
CN113435590A (zh) * 2021-08-27 2021-09-24 之江实验室 面向边缘计算的重参数神经网络架构搜索方法
CN114067134A (zh) * 2021-11-25 2022-02-18 西安工业大学 烟尘环境下多光谱目标探测方法、系统、设备和存储介质
CN115063434A (zh) * 2022-05-12 2022-09-16 北京理工大学 一种基于特征去噪的低弱光图像实例分割方法及系统
CN115293337A (zh) * 2022-10-09 2022-11-04 深圳比特微电子科技有限公司 构建神经网络的方法、装置、计算设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于PCA变换与小波变换的遥感图像融合方法;伊力哈木·亚尔买买提 等;红外与激光工程;第43卷(第7期);2335-2340 *

Also Published As

Publication number Publication date
CN116091372A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN116091372B (zh) 基于层分离和重参数的红外和可见光图像融合方法
CN110956094B (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111062905B (zh) 一种基于显著图增强的红外和可见光融合方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Negru et al. Exponential contrast restoration in fog conditions for driving assistance
CN111462128B (zh) 一种基于多模态光谱图像的像素级图像分割系统及方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN109215053A (zh) 一种无人机航拍视频中含暂停状态的运动车辆检测方法
CN116681636B (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
Yan et al. Improving the performance of image fusion based on visual saliency weight map combined with CNN
CN115393225A (zh) 一种基于多层次特征提取融合的低光照图像增强方法
CN107808140A (zh) 一种基于图像融合的单目视觉道路识别算法
CN115953321A (zh) 一种基于零次学习的低照度图像增强方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN115984323A (zh) 基于空频域均衡的双级融合rgbt跟踪算法
Lashkov et al. Edge-computing-facilitated nighttime vehicle detection investigations with CLAHE-enhanced images
Hovhannisyan et al. AED-Net: A single image dehazing
Chen et al. Visual depth guided image rain streaks removal via sparse coding
CN114862707A (zh) 一种多尺度特征恢复图像增强方法、装置及存储介质
Babu et al. An efficient image dahazing using Googlenet based convolution neural networks
Li et al. Infrared and visible image fusion method based on principal component analysis network and multi-scale morphological gradient
Yu et al. VIFNet: An end-to-end visible-infrared fusion network for image dehazing
Ying et al. Region-aware RGB and near-infrared image fusion
CN111833384B (zh) 一种可见光和红外图像快速配准方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant