基于全变分深度学习的图像融合方法及其应用与系统
技术领域
本发明涉及图像融合的技术领域。
背景技术
图像融合就是将多幅相同场景的源图像特征信息融合成一幅综合的图像,该图像在包含源图像丰富信息的同时还具有良好的视觉效果。当前,图像融合方法可分为以下七类:多尺度变换、稀疏表示、显著性检测、子空间、神经网络、变分和混合模型。
其中混合模型的方法是结合多种类型的图像融合方法,发挥各类方法的优势以弥补单一方法的不足,进而提高融合图像的质量。多尺度变换是当前最为成熟的也最为成功的一类图像融合方法,其主要包括3个步骤:首先将源图像分解变换为低频和高频系数,然后设计融合规则将各个系数进行融合,最后将融合系数进行逆向变换得到融合图像。稀疏表示的方法是使用已训练的超完备字典表示源图像,然后将源图像的稀疏因子进行融合,最后将融合后的稀疏因子通过超完备字典重构为融合图像。显著性检测的方法是通过衡量源图像信息的丰富程度生成显著性矩阵,然后利用显著性矩阵和源图像生成融合图像。子空间的方法是将高维空间的源图像映射到低维空间或子空间,然后将低维空间的源图像元素进行融合,最后将融合后的低维空间元素逆映射到高维空间形成融合图像。上述几种方法经过多年的研究,已经比较成熟,但其多数公开的技术方案都只能在特殊的图像和个别的评价指标上有提高,难以获得新的突破。例如,基于多尺度变换的方法难以找到更好的变换方式,基于稀疏分解的方法难以设计更新的融合规则,基于显著性分析的方法往往融合图像一致性欠佳等等。在此基础上,近年来,基于神经网络的图像融合方法和基于全变分的图像融合方法成为新的热门研究方向。
神经网络的方法是利用深度卷积神经网络对源图像进行表示学习,提取源图像的特征,设计融合模型实现特征融合,然后利用融合的特征重构融合图像,与传统图像融合方法相比,基于神经网络的图像融合方法在特征提取,模型的优化和泛化能力方面有着独特的优势。全变分的方法是将图像融合问题转换为模型优化的问题,通过对模型的求解得到融合图像。全变分方法具有能够充分保留源图像低频信息和融合图像具有较好的一致性两个方面的优势。
但在上述两种方法中,现有技术中基于深度神经网络区域识别的方法存在与显著性区域判别融合相似的一致性问题,网络表征层级的融合存在融合规则和方法难以直观解释的困难;而一般全变分求解方法要求模型是凸优化模型,这极大阻碍了全变分用于图像融合中模型的设计和求解,也使得该类方法在图像融合实际应用中难以获得更好的评价指标和视觉效果,主要表现为融合图像边缘较为模糊,边缘纹理评价指标较低。一方面现有的能求解的全变分模型难以符合图像融合的直观物理意义,设计新的全变分模型,由于非凸等因素,传统方法又难以求解。
发明内容
本发明的目的在于提出一种通用的、非局部最优化的、可用于非凸函数优化的图像融合方法,该方法得到的融合图像具有较强的鲁棒性,在客观评价指标和融合图像的视觉效果两个方面显著优于当前先进的图像融合方法。
本发明的目的还在于提出一种使用上述融合方法的系统。
本发明的目的还在于提出上述融合方法或系统的应用。
本发明的目的还在于提出一种用于图像融合效果评价的评价方法。
本发明首先提出了如下的技术方案:
基于全变分深度学习的图像融合方法,其包括:以源图像和/或预融合图像特征值作为输入,以优化目标函数作为损失函数,通过卷积神经网络得到融合图像,其中所述优化目标函数通过全变分模型获得。
根据本发明的一些具体实施方式,其包括以下步骤:
S1:对一到多个源图像进行预融合,得到预融合图像;
S2:设置初始化参数,通过卷积神经网络自一到多个源图像中分别提取特征信息添加至预融合图像,得到本次融合图像;
S3:通过本次融合图像与预融合图像建立全变分模型,得到本次优化目标函数;
S4:将本次优化目标函数作为卷积神经网络损失函数,经过反向计算,得到新的参数,在新的参数下,通过卷积神经网络自一到多个源图像中分别提取特征信息添加至最新的融合图像中,得到新的本次融合图像;
S5:通过新的本次融合图像与上次融合图像建立全变分模型,得到新的优化目标函数,其后重复步骤S4-S5,至所述损失函数到达最小,得到可输出的融合图像;
优选的,每次融合中,所述添加进行一到多次;
优选的,所述添加自源图像或卷积后的源图像中提取信息;
优选的,所述预融合图像或上次融合图像在添加信息前先进行自卷积;
优选的,所述本次融合图像在完成添加后进行自卷积。
根据本发明的一些具体实施方式,所述融合方法包括以下步骤:
S1:以源图像中的某一个图像作为基础图像;
S2,设置初始化参数,通过卷积神经网络自一到多个源图像中分别提取特征信息添加至基础图像,得到本次融合图像;
S3:通过本次融合图像与基础图像建立全变分模型,得到本次优化目标函数;
S4:将本次优化目标函数作为卷积神经网络损失函数,经过反向计算,得到新的参数,在新的参数下,通过卷积神经网络自一到多个源图像中分别提取特征信息添加至最新的融合图像中,得到新的本次融合图像;
S5:通过新的本次融合图像与上次融合图像建立全变分模型,得到新的优化目标函数,其后重复步骤S4-S5,至所述损失函数到达最小,得到可输出的融合图像;
优选的,每次融合中,所述添加进行一到多次;
优选的,所述添加自源图像或卷积后的源图像中提取信息;
优选的,所述预融合图像或上次融合图像在添加信息前先进行自卷积;
优选的,所述本次融合图像在完成添加后进行自卷积。
根据本发明的一些具体实施方式,所述预融合图像为所述源图像经融合算法融合得到。
优选的,所述融合算法选自dwt、nsct和sr算法中的任一种。
根据本发明的一些具体实施方式,所述优化目标函数为
其中F代表本次融合图像,F
p代表上次融合图像、或预融合图像或基础图像,α表示相应约束项的范数阶数,为正则化约束项,λ为正则化系数。
根据本发明的一些具体实施方式,所述优化目标函数为
其中V和R分别为可见光图像和红外图像的特征矩阵,
表示梯度算子,max{-,-}表示矩阵元素对应位置取大,H、W分别表示输入图像的高度和宽度,‖-‖表示矩阵的Frobenius范数。
根据本发明的一些具体实施方式,所述通过卷积神经网络自一到多个源图像中分别提取特征信息添加至预融合图像、或基础图像或最新的融合图像中的方式为从一到多个源图像中提取互补信息,经连接运算融合。
本发明还提供了一种所述的融合方法的效果评价方法,其为通过信息熵、平均梯度、标准差、互信息、结构互信息、Petrovic指标、Piella指标和空间频率8个参数对融合效果进行综合评价。
本发明还提供了一种基于全变分深度学习的图像融合的系统,其包括深度卷积神经网络,所述深度卷积神经网络包括至少3个共用卷积层和在所述共用卷积层之后的至少2个独立卷积层,其中3个共用卷积层均包括主干部分和分支部分,其中所述主干部分用于自多个源图像进行的信息添加及添加后的卷积,所述分支部分用于多个源图像的自卷积,所述独立卷积层用于全部添加完成后的融合图像的自卷积。
上述方案中所述自卷积是指的在不添加新的信息的情况下图像信息本身进行的卷积。
根据本发明的一些具体实施方式,所述系统采用公共的初始化参数。
根据本发明的一些具体实施方式,所述公共的初始化参数中算法的学习率为1e-4~1e-3。
根据本发明的一些具体实施方式,所述公共的初始化参数中全变分模型的正则化系数为60.0~200.0。
根据本发明的一些具体实施方式,所述公共的初始化参数中优化器为Adam优化器,衰减为1e-6。
根据本发明的一些具体实施方式,所述公共的初始化参数中迭代优化次数为400~1000。
本发明还提出了上述所述的融合方法或所述的系统的一种应用方法,为将其应用于红外图像与可见光图像的融合中。
本发明具备以下的有益效果:本发明提出了一种可通用的、不容易陷入局部最优的、可解释性好的、可进行非凸全变分优化的图像融合方法;本发明的系统含有可用于图像融合的全变分深度学习优化框架,其将全变分模型函数作为神经网络的损失函数,然后通过源图像和/或预融合图像训练网络,通过卷积深度神经网络优化全变分模型,从而生成融合图像,取代了传统迭代优化方法,其构造更符合图像融合的物理意义;本发明的评价方法可有效准确地评价出融合效果;本发明得到的融合图像具有很好的鲁棒性和一致性,图像清晰,含有丰富的边缘、细节和纹理信息。
附图说明
图1为本发明实施例中应用的基于全变分深度学习的图像融合的系统优化框架;
图2为本发明实施例应用的红外可见光图像数据集例图;
图3为实施例2中不同方法下的pair_1的融合图像,其中(a)源图像,(b)FusionGAN融合图像,(c)DenseFuse融合图像,(d)DeepMSTFuse融合图像,(e)SWTDCTSF融合图像,(f)FeatureExtractFuse融合图像,(g)MEGC融合图像,(h)DeepFuse融合图像,(i)GTF融合图像,(j)NSCT融合图像,(k)JSR融合图像,(l)本发明融合图像。
图4为实施例2中不同方法下的pair_2的融合图像,其中(a)源图像,(b)FusionGAN融合图像,(c)DenseFuse融合图像,(d)DeepMSTFuse融合图像,(e)SWTDCTSF融合图像,(f)FeatureExtractFuse融合图像,(g)MEGC融合图像,(h)DeepFuse融合图像,(i)GTF融合图像,(j)NSCT融合图像,(k)JSR融合图像,(l)本发明融合图像。
具体实施方式
以下结合实施例和附图对本发明进行详细描述,但需要理解的是,所述实施例和附图仅用于对本发明进行示例性的描述,而并不能对本发明的保护范围构成任何限制。所有包含在本发明的发明宗旨范围内的合理的变换和组合均落入本发明的保护范围。
使用如附图1所示的深度卷积神经网络的优化框架对实施例的红外图像与可见光图像进行融合,该深度卷积神经网络包括3个共用卷积层WL和在共用卷积层之后的2个独立卷积层WL,其中3个共用卷积层均包括主干部分和分支部分,bi{i=1,...,5}表示模块是网络的主干部分,si,j{i=1,...,n,j=1,...,3}表示的模块是网络分支部分,主干部分通过连接算法实现源图像信息的添加,并在添加后进行自卷积,每添加一次,进行一次卷积,所述分支部分同时分别进行不同源图像的自卷积,每完成一次卷积后,向主干部分提供一次新的补充信息,在完成3次补充后,得到融合图像在该系统中再通过2个独立的卷积层完成2次自卷积。
在上述系统下,实施例通过如下的方法进行图像融合:
S1:对原始图像S1-Sn进行预先融合得到预融合图像,其中预先融合可使用如dwt、nsct和sr算法中的任一种,如式(1)所示:
Fp=pre_fusion(S1,…,Sn); (1)
优选的,所述预先融合使用nsct算法。
S2:采用如附图1所示的系统从原始图像S1-Sn中提取互补信息融入预融合图像,得到融合图像F,如式(2)所示;
式(2)中,α表示相应约束项的范数阶数,其中第一项是数据约束项,其功能是让融合图像与初始融合图像整体接近,而第二项Er(F)是正则化约束项,目的是让融合图像保留符合约束项定义的特征,而λ则是正则化系数。在系统运行时E(F)也就是整个神经网络的损失函数。
S3:向所述优化模型中输入正则化约束项,得到优化目标函数,根据优化目标函数在如附图1所示的系统中进行训练,获得融合图像。
优选的,所述步骤S3中所述优化目标函数为:
式(3)中,V和R分别代表可见光图像和红外图像,
表示梯度算子,max{·,·}表示矩阵元素对应位置取大。H和W表示输入图像的高度和宽度,||·||表示矩阵的Frobenius范数。
在上述函数中,正则化可使融合图像保留原始输入图像的梯度信息,使得融合图像具有更好的边缘纹理信息,图像更清晰,具有更好的视觉效果。
与传统优化函数不同,式(3)为非凸的、非线性的、不可求导的,说明其可用于解决传统优化方法无法解决的对非凸、非线性、不可求导问题的优化。
在本发明的一些具体实施方式中,NSCT使用该算法默认的参数配置。
所述系统采用一个公共的初始化参数,如算法的学习率为1e-4~1e-3,全变分模型的正则化系数为60.0~200.0,优化器为Adam优化器,衰减为1e-6,迭代优化次数为400~1000。
在以下实施例中,算法的学习率设置为5e-4,变分模型的正则化系数设置为120.0。优化器为Adam优化器,衰减为1e-6,迭代优化步骤设置为600,由此得到输出损失函数最小的融合图像。
以下实施例采用如下的评价方法对最终融合图像质量进行评价:
所述评价方法采用融合图像的客观评价指标和融合图像的视觉效果相结合的方式综合衡量融合图像的质量,进一步评估图像融合算法的优劣。
具体的,所述评价方法通过以下8种指标对融合效果进行综合评价:
信息熵(EN),平均梯度(AG),标准差(SD),互信息(MI),结构互信息(FMI),Petrovic指标(QAB/F),Piella指标(QE),空间频率(SF)。
上述指标的具体定义如下(以下各式中V和I分别表示可见光图像和红外光图像,F表示融合图像,W和H分别表示图像的宽度和高度,L表示图像的灰度级)。其中,
信息熵(entropy)是一种衡量融合图像信息量的评价指标,其值越大则表示融合图像的信息越丰富。相应定义如式(4)所示:
平均梯度(average gradient,AG)是一种衡量融合图像边缘和纹理信息丰富程度的评价指标。相应定义如式(5)所示,其中
分别表示融合图像在对应点上水平和竖直方向的梯度值:
标准差(Standard deviation,SD)是一种基于统计学思想,反映融合图像灰度分布的融合图像评价指标,标准差值越大则表示融合图像的灰度分布就越分散,融合图像所包含的信息就越丰富。相应定义如式(6)所示,其中μ表示融合图像的均值:
互信息(Mutual information,MI)衡量的是融合图像与源图像的灰度信息的相似程度,其值越大则融合图像包含源图像的信息就越丰富,融合图像的质量就越高。相应的定义如式(7)-(8)所示,其中X代表源图像,Px(i)和PF(j)分别表示源图像和融合图像的直方图,PX,F(i,j)表示图像X和F的联合直方图:
MI=MIV,F+MII,F (7)
结构互信息(Feature Mutual information,FMI)是基于互信息(MI))和结构信息的一种评价指标,该指标衡量的是融合图像与源图像结构信息的相似程度,该值越大则融合图像包含源图像的结构信息也就越丰富。相应定义如式(9)所示:
其中V f,I f,F f分别表示可见光、红外和融合图像的特征图。
Petrovic指标(Petrovic metric,QAB/F)衡量的是融合图像保留源图像梯度信息的程度。相应的定义如式(10)-(11)所示,其中Qg XF(i,j)和Qa XF(i,j)分别表示在对应点的边缘强度和方向信息:
Piella指标(Piella metric,QE)是基于融合图像评价指标QW的一种改进的融合图像评价指标,与QW相比,QE更加符合人类的视觉系统的特点。其相应的定义如式(12)所示,其中V',I',F'分别表示图像V,I,F对应的边缘权重矩阵,α表示权重系数,其计算式如式(12)所示:
QE=QW(V,I,F)1-α·QW(V',I',F')α (12)
空间频率(Spatial frequency,SF)是一种基于梯度的信息的融合图像质量评价指标,SF值越高则代表融合图像包含更加丰富的边缘和纹理信息,则融合图像的质量就越高。其相应的定义如式(13)-(15)所示,其中RF和CF表示图像的行频率值和列频率值:
实施例1
通过式(3)优化目标函数对12组可见光与红外数据进行图像融合处理,每组运行10次,计算平均值和方差,各评价指标结果如表1所示(其中avg,std表示均值与标准差)。
表1不同融合图像的融合效果评价
从表1可以看出,所得12组融合图像的各指标的标准方差都很小,大部分都小于平均值的1‰,说明本发明的方法每次运行的结果差异不大,其具有较好的一致性,算法的鲁棒性好。
实施例2
通过以下过程对不同算法进行对比评价:
(1)收集不同情境下的可见光图像与红外图像数据,建立数据集,例图如附图2所示;
(2)基于所述数据集的全部数据,对采用不同算法的融合方法的质量进行整体评价;
(3)选取具有代表性的数据,即一组城市建筑场景数据和一组野外自然场景图像,比较其融合效果。
其中,采用到的融合方法包括现有技术中的已有的FusionGAN、DenseFuse、DeepMSTFuse、SWTDCTSF、FeatureExtractFuse、MEGC、DeepFuse、GTF、NSCT、JSR融合方法及本发明的方法。
在验证数据集上,对不同融合方法进行的整体评价的结果如下表2所示:
表2不同方法的融合效果评价
算法/指标(均值) |
EN |
AG |
SD |
MI |
Q<sup>AB/F</sup> |
Q<sub>E</sub> |
FMI |
SF |
FusionGAN |
6.483 |
3.091 |
27.603 |
2.402 |
0.231 |
0.160 |
0.363 |
10.697 |
DenseFuse |
6.912 |
4.714 |
37.264 |
2.805 |
0.438 |
0.311 |
0.412 |
14.354 |
DeepMSTFuse |
6.588 |
4.841 |
30.180 |
2.719 |
0.559 |
0.384 |
0.482 |
17.493 |
SWTDCTSF |
7.001 |
6.597 |
41.080 |
3.656 |
0.600 |
0.404 |
0.469 |
22.541 |
FeatureExtractFuse |
6.981 |
6.506 |
42.067 |
3.880 |
0.555 |
0.381 |
0.511 |
20.837 |
MEGC |
6.515 |
4.330 |
29.405 |
2.817 |
0.412 |
0.333 |
0.472 |
15.987 |
DeepFuse |
6.867 |
4.910 |
36.902 |
2.872 |
0.508 |
0.353 |
0.475 |
16.706 |
GTF |
6.731 |
4.046 |
31.840 |
2.316 |
0.421 |
0.291 |
0.461 |
16.428 |
NSCT |
6.809 |
6.742 |
34.629 |
2.354 |
0.612 |
0.390 |
0.481 |
23.177 |
JSR |
6.972 |
6.309 |
40.836 |
3.708 |
0.633 |
0.434 |
0.484 |
20.972 |
本发明 |
7.121 |
6.752 |
45.719 |
4.544 |
0.674 |
0.456 |
0.521 |
23.624 |
。
按指标变化趋势与图像融合质量的相关关系对上述方法进行排名,如指标值越大,表示图像融合质量越好的情况下,该指标中数值最大的方法排名最高。得到如表3所示的排名情况:
表3不同方法在评价指标上的平均排名
从表2-3中可以看出,本发明的方法在平均梯度、信息熵、标准差、互信息、结构互信息、Petrovic指标、Piella指标和空间频率等8种指标上,除平均梯度指标与NSCT方法接近外,其余指标均排名最高,尤其是在信息熵、标准差、Petrovic指标和Piella指标上,本发明的方法显著优于其余方法。
其中在信息熵和平均梯度上,本发明的方法略优于排名第二的方法SWTDCTSF和NSCT。
在结构互信息和空间频率上,本发明的方法优于排名第二的方法FeatureExtractFuse和NSCT。
在标准差、互信息、Petrovic指标和Piella指标上,本发明的方法显著优于排名第二的方法FeatureExtractFuse和JSR。其中标准差和互信息相对于排名第二的方法提高了超过10%。
从上述表2-3中也可看出,本发明的方法在各项指标上的表现均较优异,而现有技术中的其他方法针对不同的指标结果震荡很大。
例如在FeatureExtractFuse方法的评价指标中,标准差和互信息排名第二,表现较好,但Petrovic指标和Piella指标明显较差。
在整体评价之外,对所述数据集中选取到的两组经典图像,一组城市建筑场景数据(pair_1)和一组野外自然场景图像(pair_2)的红外与可见光图像的融合效果进行比较。
其中,不同算法在2组图像上的各评价指标分别如表4和表5所示,所得融合图像分别如附图3和附图4所示。
表4 pair_1在不同算法下的评价指标
表5 pair_2在不同算法下的评价指标
|
EN |
AG |
SD |
MI |
Q<sup>AB/F</sup> |
Q<sub>E</sub> |
FMI |
SF |
FusionGAN |
6.519 |
2.218 |
30.206 |
2.136 |
0.248 |
0.155 |
0.379 |
16.266 |
DenseFuse |
6.882 |
2.224 |
30.486 |
1.876 |
0.438 |
0.173 |
0.299 |
12.733 |
DeepMSTFuse |
6.580 |
2.956 |
25.387 |
1.942 |
0.559 |
0.320 |
0.462 |
25.146 |
SWTDCTSF |
7.067 |
4.110 |
42.410 |
3.436 |
0.600 |
0.360 |
0.460 |
30.471 |
FeatureExtractFuse |
7.027 |
3.210 |
39.041 |
3.331 |
0.550 |
0.312 |
0.452 |
21.259 |
MEGC |
6.529 |
2.428 |
24.938 |
2.013 |
0.412 |
0.267 |
0.449 |
19.707 |
DeepFuse |
6.808 |
2.728 |
30.251 |
2.019 |
0.508 |
0.302 |
0.451 |
18.995 |
GTF |
6.622 |
3.571 |
40.449 |
2.017 |
0.461 |
0.274 |
0.456 |
25.901 |
NSCT |
6.679 |
4.196 |
27.571 |
1.590 |
0.612 |
0.344 |
0.469 |
30.817 |
JSR |
7.049 |
3.769 |
42.742 |
3.354 |
0.633 |
0.388 |
0.451 |
28.952 |
本发明 |
7.069 |
4.089 |
43.651 |
3.934 |
0.673 |
0.418 |
0.517 |
31.777 |
。
对于城市场景图像pair_1,从表4可以看出,本发明的方法在信息熵、标准差、互信息、结构互信息、Petrovic指标和Piella指标等6项指标中均排名第一,在另外2个指标平均梯度和空间频率上,本发明的方法也与表现最好的方法结果接近。
对于自然场景图像pair_2,从表5可以看出,除平均梯度与排名第二的方法十分接近外,本发明的方法在其余7种指标上均排名第一。
在融合图像的实际表现上,通过观察如图3所示的pair_1的不同融合图像可以发现,图(e),(f),(k)和(l)四幅融合图像要比其它方法的融合图像更加清晰,而其中图(l)在部分细节区域比其它三幅融合图像更加清晰,如对于灯牌区域和灯牌上侧的窗户区域都要比其它三幅融合图像更加清晰,更好地融合了源图像的边缘和纹理信息。
通过观察如图4所示的pair_2的不同融合图像可以发现,图(d),(e),(h),(k)和(l)五幅融合图像要比其它方法的融合图像质量好,其不仅具有十分丰富的细节纹理信息,而且还具有较好的一致性,而其中,在湖岸区域,图(e)和图(l)比其它三幅图像更加清晰,在图片上方的树林区域,图(l)要比其它四幅融合图像更加清晰。
综上,表4和表5的客观评价结果与实际观察效果结论一致,均显示出本发明的方法在融合图像的质量方面优于其它现有技术。
以上实施例仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。凡属于本发明思路下的技术方案均属于本发明的保护范围。应该指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下的改进和润饰,这些改进和润饰也应视为本发明的保护范围。