CN116246138A - 基于全卷积神经网络的红外-可见光图像目标级融合方法 - Google Patents

基于全卷积神经网络的红外-可见光图像目标级融合方法 Download PDF

Info

Publication number
CN116246138A
CN116246138A CN202310161443.8A CN202310161443A CN116246138A CN 116246138 A CN116246138 A CN 116246138A CN 202310161443 A CN202310161443 A CN 202310161443A CN 116246138 A CN116246138 A CN 116246138A
Authority
CN
China
Prior art keywords
image
fusion
infrared
frequency
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310161443.8A
Other languages
English (en)
Inventor
常荣
李邦源
方明
米啸云
崔跃东
耿飞
易亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Original Assignee
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd filed Critical Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority to CN202310161443.8A priority Critical patent/CN116246138A/zh
Publication of CN116246138A publication Critical patent/CN116246138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,具体地说,涉及基于全卷积神经网络的红外‑可见光图像目标级融合方法。包括:利用非下采样剪切波变换将源图像分解为低频子带和高频子带图像,按照区域能量和融合规则融合低频子带,采用改进FCN模型提取高频子带图像的多尺度特征,生成特征映射图,使用最大加权平均融合策略融合高频子带,对融合后的高频子带和低频子带进行NSST逆变换得到融合图像。本发明设计中,FCN模型能够进行像素级别的特征提取,能够克服图像边缘特征的模糊问题,而且没有采用全连接层计算方式,可以接受任意像素大小的输入,在计算时更加高效,并得到分辨率和清晰度较好的高质量融合图像。

Description

基于全卷积神经网络的红外-可见光图像目标级融合方法
技术领域
本发明涉及图像处理技术领域,具体地说,涉及基于全卷积神经网络的红外-可见光图像目标级融合方法。
背景技术
传统图像融合是对图像的全局特征信息包括复杂非必需的背景信息进行处理,这可能会引入大量的噪声和伪影,同时还耗费很多的时间。
传统的图像融合虽然也是高低频子代的图像融合,但是现有的技术中,还是存在不少的问题,例如:低频子带包含源图像大部分能量,保留了源图像大部分特征,虽然通过绝对值取大法和加权平均法能实现低频子带融合,但是上述方法本身局限性影响到融合图像的效果。绝对值取大法是通过比较红外-可见光图像在相同像素点上变换系数绝对值的大小,选取绝对值较大的变换系数作为图像在该像素点上系数值。由于该方法只考虑了像素点变换系数绝对值大小,未考虑其他影响因素,因此会导致重要信息丢失和融合图像边缘不平滑。加权平均法是将可见光和红外图像的变换系数通过相应权重比例整合到融合图像中,该方法虽然能有效提高融合图像边缘平滑度,但是会导致图像局部区域特征丢失,造成融合图像对比度较差。
鉴于此,我们提出了基于全卷积神经网络的红外-可见光图像目标级融合方法。
发明内容
本发明的目的在于提供基于全卷积神经网络的红外-可见光图像目标级融合方法,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了基于全卷积神经网络的红外-可见光图像目标级融合方法,包括如下步骤:
S1、利用非下采样剪切波变换NSST对红外-可见光源图像进行多尺度和多方向分解,得到低频子带系数和高频子带系数;其中,多尺度和多方向分解能使不同尺度空间上重叠特征充分分离;
S2、对于低频子带系数,采用区域能量和融合策略进行融合;
S3、对于高频子带系数,利用改进FCN模型提取细节层的多层特征,得到特征映射图,选择最大加权平均融合策略对其进行融合;
S4、进行NSST逆变换得到融合图像。
作为本技术方案的进一步改进,所述S2中,采用区域能量和融合策略进行融合还包括以下步骤:
区域能量和算法能结合相邻区域信息,对区域中心元素能量大小进行评估,最终选择能量较大的元素;
基于区域能量值公式,计算区域能量大小,判断融合系数活动水平,能量越大表示保留信息越多;
其中,区域能量值公式为:
Figure BDA0004094289100000021
其中,I表示金字塔,α、β分别为邻域窗口的长和宽,(i,j)为邻域的中心点;
利用区域能量大小判断融合系数活动水平,能量越大表示保留信息越多;融合系数计算公式为:
Figure BDA0004094289100000022
其中,LFF表示红外-可见光图像的融合系数,LFA表示红外图像的融合系数,LFB表示可见光图像的融合系数,EA表示红外图像的区域能量值,EB表示可见光图像的区域能量值。
作为本技术方案的进一步改进,所述S3中,对于高频子带系数的融合,还包括以下步骤:
高频子图像主要包含图像边缘特征和纹理细节信息,这些信息直接影响融合图像分辨率和清晰度;
将红外-可见光图像高频子带输入训练好的FCN模型中提取图像深度特征,并生成高频子带特征映射图,通过最大加权平均融合策略得到高频子带权重图;其计算公式为:
Fsub(i,j)=max(α1subA2subB);
其中,subA、subB分别表示输入的红外-可见光图像的高频子图像,α1、α2分别表示subA、subB的权重值。
作为本技术方案的进一步改进,所述S3中,FCN模型包括:用于特征提取的7个模块,记为模块1~7,以及卷积层、relu层、池化层和反卷积层;其中:
在每个卷积层中,交替使用非线性映射提取特征,利用在线难例样本挖掘法放宽正负样本的约束,扩充训练集的范围,针对多特征图存在重叠问题,采用线性非极大值抑制法避免漏检目标特征;
采用relu层作为激活函数加速模型训练过程,在模块1、模块2和模块5中,池化层位于relu层之后;
在FCN浅层网络中提取图像的颜色、边缘和纹理等基础特征对融合图像质量至关重要,针对随着网络层的加深,这些特征很容易丢失的问题,将2个1×1卷积的跳转连接添加到FCN模型中,在保留浅层网络图像特征的同时,避免增加计算复杂度;
在模块7后增加3个反卷积层对所学到的所有特征进行上采样,以对所有多尺度特征进行融合,并添加多个跳跃结构,跳跃结构的作用在于优化结果;
针对将全卷积结果直接进行上采样后得到的结果是比较粗糙的问题,需要通过把不同池化层的输出结果进行上采样之后,实现优化输出;
对于一个神经网络中存在的一些恒等函数,Skip Layer在不影响这个神经网络的整体性能下,使得对这些恒等函数的学习更加容易,提高整体的学习效率;
然后使用Softmax函数计算输出块的概率分布。
作为本技术方案的进一步改进,所述S3中,FCN模型特征提取部分还包括7个卷积层和3个池化层,为增强输入图像特征的平移不变性,设置所有卷积层大小为3×3,步长为1,池化层大小为2×2,步长为2;将图像融合看作是分类问题,设置反卷积层的核数为2;根据输入图像大小和反卷积层的上采样功能,设置前2个反卷积层大小为4×4,步长为2,第3个反卷积层大小为16×16;
同时,为了有效避免在encoder上冗余的信息的获取,直接关注与物体之间之内的相关性,在特征顶部映射图使用四种不同采样率的空洞卷积,其采样率分别为6、12、18、24,通过不同采样率的空洞卷积有效捕获多尺度信息,提升对图像的信息采集能力。
作为本技术方案的进一步改进,所述S3中,对于高频子带系数的操作还包括:
针对目标级融合,首先采用频率调谐显著性区域检测对红外图像的目标特征进行提取,因图像的频率域主要是由低频部分和高频部分组成,其中,低频部分反映了图像的整体信息,高频部分反映了目标的细节信息;
根据高频部分信息来生成局部目标的近邻区域,获取到区域内的宽度和高度,得到特征图;
采用CA注意力机制模块,对上述近邻区域的位置信息进行编码,将输入的特征图的宽度和高度进行全局平均池化,分别获得这两个方向的特征图;
对卷积进行降维,通过归一化处理将特征图输入sigmoid激活函数得到特征图。
作为本技术方案的进一步改进,通过所述sigmoid激活函数得到特征图还包括:
得到特征图的宽度和高度的注意力权重公式如下:
gh=σ(Fh(fh));
gw=σ(Fw(fw));
其中,Fh和Fw为原来通道的特征图,fh和fw为经过sigmoid激活得到的特征图,分别对应高度与宽度方向;gh为高度方向的注意力权重,gw为宽度方向的注意力权重;
利用该权重进行学习,得到整体融合图的权重。
作为本技术方案的进一步改进,所述S3中,改进FCN模型的训练包括:
FCN模型在深度学习框架tensorflow上,利用随机梯度下降法对整个网络进行训练:
设定模型遍历总数据集100轮,并且使用权值衰减的正则化法防止模型过拟合,初始值设为0.0001,将所有偏置值初始化为0,初始值学习率设为0.001,训练过程中通过学习率使用ReduceLTOnPlateau自适应调整进行准确率的提高;模型在PyTorch环境下使用1个GPU进行训练;批量大小设置为128,动量和权重衰减分别为0.9和0.0005;权重更新规则表示为:
Figure BDA0004094289100000061
其中,v为动量变量,l表示第l次迭代,α为学习率,L为损失函数,
Figure BDA0004094289100000062
是权重wi损失的导数;
选用Adam算法不断进行迭代优化,直到找到全局最优点,得到最佳效果。
作为本技术方案的进一步改进,所述S4中,进行NSST逆变换得到融合图像,还包括:
设A和B分别表示同一场景下大小为m×n的红外-可见光源图像;源图像A和B均被NSST分解为低频子带和高频子带,并分别进行融合;
高频子带融合是对FCN提取到的特征权重图进行融合,采用最大加权平均融合规则;
低频子带包含源图像大部分能量,保留了源图像大部分特征,低频子带融合采用区域能量和融合规则;
对融合后的高频子带融合图像和低频子带融合图像进行NSST逆变换,得到最终的融合图像。
作为本技术方案的进一步改进,所述S4中,进行NSST逆变换得到融合图像,还包括步骤:
根据低频和高频融合规则分别计算得到融合图像的基础图像Fb(x,y)和细节图像Fd(x,y),将两者进行重构,最终得到融合图像F(x,y),如下式所示:
F(x,y)=Fb(x,y)+Fd(x,y);
其中,Fb(x,y)表示融合图像的基础图像,Fd(x,y)表示融合图像的细节图像。
作为本技术方案的进一步改进,所述。
本发明的目的之二在于,提供了一种图像目标级融合方法的运行平台装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。
本发明的目的之三在于,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。
与现有技术相比,本发明的有益效果:
1.该基于全卷积神经网络的红外-可见光图像目标级融合方法中,可以增大目标近邻区域的信息保留程度对模型损失的影响,实现在局部区域的目标信息最大化融合;提出目标级的融合不仅可以节约处理时间还可以有针对性地对所需关注的目标进行增强融合,对后续的识别检测任务提供有效的帮助;
2.该基于全卷积神经网络的红外-可见光图像目标级融合方法中,FCN模型能够进行像素级别的特征提取,能够克服图像边缘特征的模糊问题,而且没有采用全连接层计算方式,可以接受任意像素大小的输入,在计算时更加高效,并得到分辨率和清晰度较好的高质量融合图像。
附图说明
图1为本发明中示例性的整体图像融合步骤框架示意图;
图2为本发明中示例性的FCN模型结构示意图;
图3为本发明中示例性的步长为80卷积层具体参数设置表图;
图4为本发明中示例性的步长为80反卷积层具体参数设置表图;
图5为本发明中示例性的采用FCN模型提取的红外-可见光图像高频子带特征映射图;
图6为本发明中示例性的电子计算机平台装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图5所示,本实施例提供了基于全卷积神经网络的红外-可见光图像目标级融合方法;
其图像融合框架如图1所示,图像融合的具体操作包括如下步骤:
S1、利用非下采样剪切波变换NSST对红外-可见光源图像进行多尺度和多方向分解,得到低频子带系数和高频子带系数;其中,多尺度和多方向分解能使不同尺度空间上重叠特征充分分离;
S2、对于低频子带系数,采用区域能量和融合策略进行融合;
S3、对于高频子带系数,利用改进FCN模型提取细节层的多层特征,得到特征映射图,选择最大加权平均融合策略对其进行融合;
S4、进行NSST逆变换得到融合图像。
具体地,本方案利用非下采样剪切波变换将源图像分解为低频子带和高频子带图像,按照区域能量和融合规则融合低频子带,采用改进FCN模型提取高频子带图像的多尺度特征,生成特征映射图,使用最大加权平均融合策略融合高频子带,对融合后的高频子带和低频子带进行NSST逆变换得到融合图像;通过FCN模型能够进行像素级别的特征提取,能够克服图像边缘特征的模糊问题,而且没有采用全连接层计算方式,可以接受任意像素大小的输入,在计算时更加高效,从而得到分辨率和清晰度较好的高质量融合图像。
本实施例中,针对FCN模型构建与训练有如下内容:
首先,针对模型构建有:
网络结构对卷积神经网络的功能发挥起着重要作用,本实施例提出一种新的FCN模型,该模型包括卷积(conv)层、relu层、池化(pooling)层和反卷积(deconv)层,其结构如图2所示;
FCN模型的特征提取部分共有7个模块,记为模块1~7,在每个卷积层中,交替使用非线性映射提取特征,利用在线难例样本挖掘法放宽正负样本的约束,扩充训练集的范围,针对多特征图存在重叠问题,采用线性非极大值抑制法避免漏检目标特征;
采用relu作为激活函数加速模型训练过程,在模块1、模块2和模块5中,池化层位于relu层之后;
在FCN浅层网络中提取图像的颜色、边缘和纹理等基础特征对融合图像质量至关重要,然而随着网络层的加深,这些特征很容易丢失;针对该问题,将2个1×1卷积的跳转连接添加到FCN模型中,在保留浅层网络图像特征的同时,避免增加计算复杂度;
在模块7后增加3个反卷积层对所学到的所有特征进行上采样,以对所有多尺度特征进行融合,并添加多个跳跃结构,跳跃结构的作用在于优化结果;
因为将全卷积结果直接进行上采样后得到的结果是比较粗糙的,需要通过把不同池化层的输出结果进行上采样之后,实现优化输出;
对于一个神经网络中存在的一些恒等函数,Skip Layer在不影响这个神经网络的整体性能下,使得对这些恒等函数的学习更加容易,提高整体的学习效率;
然后使用Softmax函数计算输出块的概率分布。
由图2可以看出,FCN模型特征提取部分包括7个卷积层和3个池化层,为了增强输入图像特征的平移不变性,设置所有卷积层大小为3×3,步长(stride)为1,池化层大小为2×2,步长为2;由于本实施例将图像融合看作是分类问题,因此设置反卷积层的核数为2;根据输入图像大小和反卷积层的上采样功能,设置前2个反卷积层大小为4×4,步长为2,第3个反卷积层大小为16×16,步长为80卷积层和反卷积层具体参数设置如图3中的表1和图4中的表2所示。其中,横杠表示该参数值不存在。
在此操作步骤中,为了有效避免在encoder上冗余的信息的获取,直接关注与物体之间之内的相关性,在特征顶部映射图使用四种不同采样率的空洞卷积,其采样率分别为6、12、18、24,不同采样率的空洞卷积可以有效捕获多尺度信息,提升对图像的信息采集能力。
进一步地,针对模型训练有:
在训练阶段,本实施例FCN模型在深度学习框架tensorflow上,利用随机梯度下降法对整个网络进行训练;设定模型遍历总数据集100轮,并且使用权值衰减(weight decay)的正则化法防止模型过拟合,初始值设为0.0001,将所有偏置值初始化为0,学习率初始化为0.001,训练过程中通过学习率使用ReduceLTOnPlateau自适应调整进行准确率的提高;模型在PyTorch环境下使用1个GPU进行训练;批量大小设置为128,动量和权重衰减分别为0.9和0.0005;权重更新规则表示为:
Figure BDA0004094289100000101
其中,v为动量变量,l表示第l次迭代,α为学习率,L为损失函数,
Figure BDA0004094289100000102
是权重wi损失的导数;
选用Adam算法不断进行迭代优化,直到找到全局最优点,得到最佳效果。
与其他用于图像融合的卷积神经网络相比,上述改进的FCN模型能保留图像的颜色、纹理等浅层特征,并将这些浅层特征与深层特征进行融合,充分利用不同细节层的多尺度特征,以提高图像融合质量。由于在网络结构中增加2个1xl卷积的跳转连接,因此大幅降低计算复杂度,提高了融合算法速度。
本实施例中,针对图像融合有如下内容:
设A和B分别表示同一场景下大小为m×n的红外-可见光源图像;源图像A和B均被NSST分解为低频子带和高频子带,并分别进行融合;高频子带融合是对FCN提取到的特征权重图进行融合,采用最大加权平均融合规则;低频子带融合采用区域能量和融合规则;对融合后的高频子带融合图像和低频子带融合图像进行NSST逆变换,得到最终的融合图像。
进一步地,针对低频图像融合有:
低频子带包含源图像大部分能量,保留了源图像大部分特征,虽然通过绝对值取大法和加权平均法能实现低频子带融合,但是上述方法本身局限性影响到融合图像的效果。绝对值取大法是通过比较红外-可见光图像在相同像素点上变换系数绝对值的大小,选取绝对值较大的变换系数作为图像在该像素点上系数值。由于该方法只考虑了像素点变换系数绝对值大小,未考虑其他影响因素,因此会导致重要信息丢失和融合图像边缘不平滑。加权平均法是将可见光和红外图像的变换系数通过相应权重比例整合到融合图像中。该方法虽然能有效提高融合图像边缘平滑度,但是会导致图像局部区域特征丢失,造成融合图像对比度较差。
区域能量和算法能结合相邻区域信息,对区域中心元素能量大小进行评估,最终选择能量较大的元素。由于利用区域能量和算法对低频子带进行融合,可使其包含源图像绝大部分能量,并在融合图像中保留源图像的基本信息,因此基于低频子带包含图像绝大部分能量的特性,本实施例采用区域能量和融合策略对低频子带进行融合。基于区域能量值公式,计算区域能量大小,判断融合系数活动水平,能量越大表示保留信息越多;
其中,区域能量值公式为:
Figure BDA0004094289100000121
其中,I表示金字塔,α、β分别为邻域窗口的长和宽,(i,j)为邻域的中心点;
利用区域能量大小判断融合系数活动水平,能量越大表示保留信息越多;融合系数计算公式为:
Figure BDA0004094289100000122
其中,LFF表示红外-可见光图像的融合系数,LFA表示红外图像的融合系数,LFB表示可见光图像的融合系数,EA表示红外图像的区域能量值,EB表示可见光图像的区域能量值。
进一步地,针对高频图像融合有如下内容:
高频子图像主要包含图像边缘特征和纹理细节信息,这些信息直接影响融合图像分辨率和清晰度,因此,高频子带融合规则的选择对融合图像质量影响较大。本实施例将红外-可见光图像高频子带输入训练好的FCN模型中提取图像深度特征,并生成高频子带特征映射图,通过最大加权平均融合策略得到高频子带权重图,计算公式为:
Fsub(i,j)=max(α1subA2subB);
其中,subA、subB分别表示输入的红外-可见光图像的高频子图像,α1、α2分别表示subA、subB的权重值。
具体地,对于高频子带系数的操作还包括:
针对目前红外-可见光融合算法仅针对两幅图像的全局信息最大化保留来进行融合优化,造成在局部出现细节保留模糊的问题,为此提出一种针对局部目标的信息融合增强策略,以达到目标的多源信息最大程度保留的目标级融合算法。“目标级”融合,首先采用频率调谐显著性区域检测对红外图像的目标特征进行提取,因图像的频率域主要是由低频部分和高频部分组成。低频部分反映了图像的整体信息,高频部分反映了目标的细节信息,如红外目标的纹理细节。因此根据高频部分信息来生成局部目标的近邻区域,获取到区域内的宽度和高度,得到特征图;
采用CA注意力机制模块,对上述近邻区域的位置信息进行编码,将输入的特征图的宽度和高度进行全局平均池化,分别获得这两个方向的特征图;
对卷积进行降维,通过归一化处理将特征图输入sigmoid激活函数得到特征图。
其中,通过sigmoid激活函数得到特征图还包括:
得到特征图的宽度和高度的注意力权重公式如下:
gh=σ(Fh(fh));
gw=σ(Fw(fw));
其中,Fh和Fw为原来通道的特征图,fh和fw为经过sigmoid激活得到的特征图,分别对应高度与宽度方向;gh为高度方向的注意力权重,gw为宽度方向的注意力权重;
利用该权重进行学习,得到整体融合图的权重。
图5为采用改进FCN模型提取的红外-可见光图像高频子带特征映射图。可以看出,图像边缘特征和纹理特征被保留,保证了高频图像信息完整性。通过最大加权平均算法将图像边缘特征和纹理特征进行有效融合,得到分辨率和清晰度较好的高质量融合图像。
最后,针对图像重构有:
根据低频和高频融合规则分别计算得到融合图像的基础图像Fb(x,y)和细节图像Fd(x,y),将两者进行重构,最终得到融合图像F(x,y),如下式所示:
F(x,y)=Fb(x,y)+Fd(x,y);
其中,Fb(x,y)表示融合图像的基础图像,Fd(x,y)表示融合图像的细节图像。
如图6所示,本实施例还提供了一种图像目标级融合方法的运行平台装置,该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。
处理器包括一个或一个以上处理核心,处理器通过总线与存储器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面基于全卷积神经网络的红外-可见光图像目标级融合方法的步骤。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤的过程可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,包括如下步骤:
S1、利用非下采样剪切波变换NSST对红外-可见光源图像进行多尺度和多方向分解,得到低频子带系数和高频子带系数;其中,多尺度和多方向分解能使不同尺度空间上重叠特征充分分离;
S2、对于低频子带系数,采用区域能量和融合策略进行融合;
S3、对于高频子带系数,利用改进FCN模型提取细节层的多层特征,得到特征映射图,选择最大加权平均融合策略对其进行融合;
S4、进行NSST逆变换得到融合图像。
2.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S2中,采用区域能量和融合策略进行融合还包括以下步骤:
区域能量和算法能结合相邻区域信息,对区域中心元素能量大小进行评估,最终选择能量较大的元素;
基于区域能量值公式,计算区域能量大小,判断融合系数活动水平,能量越大表示保留信息越多;
其中,区域能量值公式为:
Figure FDA0004094289090000011
其中,I表示金字塔,α、β分别为邻域窗口的长和宽,(i,j)为邻域的中心点;
利用区域能量大小判断融合系数活动水平,能量越大表示保留信息越多;融合系数计算公式为:
Figure FDA0004094289090000021
其中,LFF表示红外-可见光图像的融合系数,LFA表示红外图像的融合系数,LFB表示可见光图像的融合系数,EA表示红外图像的区域能量值,EB表示可见光图像的区域能量值。
3.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S3中,对于高频子带系数的融合,还包括以下步骤:
高频子图像主要包含图像边缘特征和纹理细节信息,这些信息直接影响融合图像分辨率和清晰度;
将红外-可见光图像高频子带输入训练好的FCN模型中提取图像深度特征,并生成高频子带特征映射图,通过最大加权平均融合策略得到高频子带权重图;其计算公式为:
Fsub(i,j)=max(α1subA2subB);
其中,subA、subB分别表示输入的红外-可见光图像的高频子图像,α1、α2分别表示subA、subB的权重值。
4.根据权利要求3所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S3中,FCN模型包括:用于特征提取的7个模块,记为模块1~7,以及卷积层、relu层、池化层和反卷积层;其中:
在每个卷积层中,交替使用非线性映射提取特征,利用在线难例样本挖掘法放宽正负样本的约束,扩充训练集的范围,针对多特征图存在重叠问题,采用线性非极大值抑制法避免漏检目标特征;
采用relu层作为激活函数加速模型训练过程,在模块1、模块2和模块5中,池化层位于relu层之后;
在FCN浅层网络中提取图像的颜色、边缘和纹理等基础特征对融合图像质量至关重要,针对随着网络层的加深,这些特征很容易丢失的问题,将2个1×1卷积的跳转连接添加到FCN模型中,在保留浅层网络图像特征的同时,避免增加计算复杂度;
在模块7后增加3个反卷积层对所学到的所有特征进行上采样,以对所有多尺度特征进行融合,并添加多个跳跃结构,跳跃结构的作用在于优化结果;
针对将全卷积结果直接进行上采样后得到的结果是比较粗糙的问题,需要通过把不同池化层的输出结果进行上采样之后,实现优化输出;
对于一个神经网络中存在的一些恒等函数,Skip Layer在不影响这个神经网络的整体性能下,使得对这些恒等函数的学习更加容易,提高整体的学习效率;
然后使用Softmax函数计算输出块的概率分布。
5.根据权利要求4所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S3中,FCN模型特征提取部分还包括7个卷积层和3个池化层,为增强输入图像特征的平移不变性,设置所有卷积层大小为3×3,步长为1,池化层大小为2×2,步长为2;将图像融合看作是分类问题,设置反卷积层的核数为2;根据输入图像大小和反卷积层的上采样功能,设置前2个反卷积层大小为4×4,步长为2,第3个反卷积层大小为16×16;
同时,为了有效避免在encoder上冗余的信息的获取,直接关注与物体之间之内的相关性,在特征顶部映射图使用四种不同采样率的空洞卷积,其采样率分别为6、12、18、24,通过不同采样率的空洞卷积有效捕获多尺度信息,提升对图像的信息采集能力。
6.根据权利要求5所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S3中,对于高频子带系数的操作还包括:
针对目标级融合,首先采用频率调谐显著性区域检测对红外图像的目标特征进行提取,因图像的频率域主要是由低频部分和高频部分组成,其中,低频部分反映了图像的整体信息,高频部分反映了目标的细节信息;
根据高频部分信息来生成局部目标的近邻区域,获取到区域内的宽度和高度,得到特征图;
采用CA注意力机制模块,对上述近邻区域的位置信息进行编码,将输入的特征图的宽度和高度进行全局平均池化,分别获得这两个方向的特征图;
对卷积进行降维,通过归一化处理将特征图输入sigmoid激活函数得到特征图。
7.根据权利要求6所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,通过所述sigmoid激活函数得到特征图还包括:
得到特征图的宽度和高度的注意力权重公式如下:
gh=σ(Fh(fh));
gw=σ(Fw(fw));
其中,Fh和Fw为原来通道的特征图,fh和fw为经过sigmoid激活得到的特征图,分别对应高度与宽度方向;gh为高度方向的注意力权重,gw为宽度方向的注意力权重;
利用该权重进行学习,得到整体融合图的权重。
8.根据权利要求7所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S3中,改进FCN模型的训练包括:
FCN模型在深度学习框架tensorflow上,利用随机梯度下降法对整个网络进行训练:
设定模型遍历总数据集100轮,并且使用权值衰减的正则化法防止模型过拟合,初始值设为0.0001,将所有偏置值初始化为0,初始值学习率设为0.001,训练过程中通过学习率使用ReduceLTOnPlateau自适应调整进行准确率的提高;模型在PyTorch环境下使用1个GPU进行训练;批量大小设置为128,动量和权重衰减分别为0.9和0.0005;权重更新规则表示为:
Figure FDA0004094289090000051
其中,v为动量变量,l表示第l次迭代,α为学习率,L为损失函数,
Figure FDA0004094289090000052
是权重wi损失的导数;
选用Adam算法不断进行迭代优化,直到找到全局最优点,得到最佳效果。
9.根据权利要求1所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S4中,进行NSST逆变换得到融合图像,还包括:
设A和B分别表示同一场景下大小为m×n的红外-可见光源图像;源图像A和B均被NSST分解为低频子带和高频子带,并分别进行融合;
高频子带融合是对FCN提取到的特征权重图进行融合,采用最大加权平均融合规则;
低频子带包含源图像大部分能量,保留了源图像大部分特征,低频子带融合采用区域能量和融合规则;
对融合后的高频子带融合图像和低频子带融合图像进行NSST逆变换,得到最终的融合图像。
10.根据权利要求9所述的基于全卷积神经网络的红外-可见光图像目标级融合方法,其特征在于,所述S4中,进行NSST逆变换得到融合图像,还包括步骤:
根据低频和高频融合规则分别计算得到融合图像的基础图像Fb(x,y)和细节图像Fd(x,y),将两者进行重构,最终得到融合图像F(x,y),如下式所示:
F(x,y)=Fb(x,y)+Fd(x,y);
其中,Fb(x,y)表示融合图像的基础图像,Fd(x,y)表示融合图像的细节图像。
CN202310161443.8A 2023-02-24 2023-02-24 基于全卷积神经网络的红外-可见光图像目标级融合方法 Pending CN116246138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310161443.8A CN116246138A (zh) 2023-02-24 2023-02-24 基于全卷积神经网络的红外-可见光图像目标级融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310161443.8A CN116246138A (zh) 2023-02-24 2023-02-24 基于全卷积神经网络的红外-可见光图像目标级融合方法

Publications (1)

Publication Number Publication Date
CN116246138A true CN116246138A (zh) 2023-06-09

Family

ID=86625739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310161443.8A Pending CN116246138A (zh) 2023-02-24 2023-02-24 基于全卷积神经网络的红外-可见光图像目标级融合方法

Country Status (1)

Country Link
CN (1) CN116246138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580062A (zh) * 2023-07-12 2023-08-11 南京诺源医疗器械有限公司 适用于红外激发光源的红外激光诊断装置的数据处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580062A (zh) * 2023-07-12 2023-08-11 南京诺源医疗器械有限公司 适用于红外激发光源的红外激光诊断装置的数据处理方法
CN116580062B (zh) * 2023-07-12 2024-04-12 南京诺源医疗器械有限公司 适用于红外激发光源的红外激光诊断装置的数据处理方法

Similar Documents

Publication Publication Date Title
CN109360156B (zh) 基于生成对抗网络的图像分块的单张图像去雨方法
CN112233026A (zh) 一种基于多尺度残差注意力网络的sar图像去噪方法
CN111028163A (zh) 一种基于卷积神经网络的联合图像去噪与弱光增强方法
CN110189286B (zh) 一种基于ResNet的红外与可见光图像融合方法
CN112614136B (zh) 一种红外小目标实时实例分割方法及装置
CN110136075B (zh) 一种基于边缘锐化循环生成对抗网络的遥感影像去雾方法
CN112164011A (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN111583285A (zh) 一种基于边缘关注策略的肝脏影像语义分割方法
Rasheed et al. A comprehensive experiment-based review of low-light image enhancement methods and benchmarking low-light image quality assessment
US11887218B2 (en) Image optimization method, apparatus, device and storage medium
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN113450290A (zh) 基于图像修补技术的低照度图像增强方法及系统
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
Lepcha et al. A deep journey into image enhancement: A survey of current and emerging trends
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN114037888A (zh) 基于联合注意力和自适应nms的目标检测方法和系统
CN116246138A (zh) 基于全卷积神经网络的红外-可见光图像目标级融合方法
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
Jeon et al. Low-light image enhancement using inverted image normalized by atmospheric light
Wali et al. Recent progress in digital image restoration techniques: a review
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
CN117078553A (zh) 一种基于多尺度深度学习的图像去雾方法
CN116862809A (zh) 一种低曝光条件下的图像增强方法
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN115578638A (zh) 一种基于U-Net的多层次特征交互去雾网络的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination