CN117197627A

CN117197627A - 一种基于高阶退化模型的多模态图像融合方法

Info

Publication number: CN117197627A
Application number: CN202311181912.9A
Authority: CN
Inventors: 詹伟达; 郭金鑫; 蒋一纯; 陈宇; 徐小雨; 韩悦毅
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-08
Anticipated expiration: 2043-09-13
Also published as: CN117197627B

Abstract

本发明属于图像融合领域，尤其为一种基于高阶退化模型的多模态图像融合方法，该方法具体包括如下步骤：S1，准备数据集：准备三种红外与可见光图像数据集，数据集一和数据集二用于网络训练和模型微调，数据集三用于模型测试。S2，构建图像退化模型：图像退化模型包括低阶退化过程和高阶退化过程。本发明是基于高阶局部随机退化模型的多模态图像融合方法，构建了一种新的两阶段图像退化模型，设计了简单高效的特征提取和融合网络，实验数据证明本发明能够有效抑制强光、噪声和烟雾等恶劣环境的影响，也能提高低照度和夜间环境下的融合图像质量，在红外与可见光图像和医学图像融合任务的定性和定量评价中都表现出了良好的性能。

Description

一种基于高阶退化模型的多模态图像融合方法

技术领域

本发明属于图像融合领域，是一种基于高阶退化模型的多模态图像融合方法。

背景技术

图像融合技术是图像处理任务的重要组成部分，旨在将多模态源图像的有用信息结合生成信息更加丰富的融合图像，其应用在红外与可见光图像融合、医学图像融合和遥感图像融合等多个领域。其中红外与可见光图像融合和医学图像融合是两个最具挑战性的多模态图像融合方向。红外图像包含热辐射信息，不受光照和烟雾的影响，能够突出目标的显著度，但背景受到噪声的干扰，细节信息较差。而可见光图像包含丰富的亮度和边缘信息，相比红外图像视觉效果更好，但在夜间场景或有遮挡情况下目标显著度明显降低，易受光照和烟雾的影响。医学图像中CT图像能够突出人体骨头和硬质结构，但软组织和脑脊液等结构没有清晰的显示。而MRI图像能够突出人体软组织结构，但硬质结构视觉效果偏暗。还有辐射断层成像(PET和SPECT)则利用进入人体内部的示踪分子在不同活性细胞处聚集浓度的不同呈现彩色成像。因此设计一种有效的多模态图像融合方法具有重要的研究前景和研究意义。

中国专利公开号为“CN113487530A”，名称为“一种基于深度学习的红外与可见光融合成像方法”，该方法首先将红外镜头和可见光镜头采集的图像对进行目标子图像划分得到目标物图像对，再使用简单的图像退化机制对目标物图像对下采样和添加噪声生成目标物退化图像对。该方法还设计了一种由特征提取单元、编码器、融合模块和解码器组成的融合网络，将退化后目标物图像对输入融合网络中生成融合图像。该方法考虑到了源图像对含噪这一普遍事实，但所设计的图像退化模型过于单一，没有考虑到真实环境中完备的图像退化机制，导致在强光、遮挡和其他混合噪声源影响的环境中融合图像质量大大降低，所以设计一种能够模拟真实环境下的完备的图像退化机制用于多模态图像融合任务是本发明亟需解决的重要问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于高阶退化模型的多模态图像融合方法，解决了现有的多模态图像融合方法单一的从原图像到融合图像的线性融合方法得到的融合图像不能抑制强光、烟雾和混合噪声等恶劣环境影响的问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种基于高阶退化模型的多模态图像融合方法，具体包括如下步骤：

S1，准备数据集：准备三种红外与可见光图像数据集，数据集一和数据集二用于网络训练和模型微调，数据集三用于模型测试；

S2，构建图像退化模型：图像退化模型包括低阶退化过程和高阶退化过程；

S3，构建网络模型：整个融合网络包括图像退化模型、编码器、融合模块和解码器；

S4，训练网络模型：训练多模态图像融合网络模型，将步骤S1中准备好的数据集一进行图像增广预处理，扩充数据集，将预处理后的数据集输入到步骤S2构建的图像退化模型中，经过低阶退化和高阶退化过程得到大量待训练的退化图像集，再将退化图像集输入到S3构建的网络模型中进行训练；

S5，选择合适的损失函数并确定本方法的最优评价指标：选择合适的损失函数使得输出的融合图像与输入图像的损失最小，设定训练损失阈值，不断迭代优化模型，直到训练次数达到设定阈值或损失函数的值达到设定阈值范围内即可认为模型参数已预训练完成，保存模型参数；选择数据集三中的测试图像输入固化好的模型中得到融合图像，使用融合图像效果最优评价指标衡量模型的精度和性能；

S6，微调模型，用红外与可见光图像数据集二对模型进行训练和微调，优化模型参数，进一步提高融合网络的性能，得到能够抑制真实退化的高质量融合图像；

S7，保存模型，待S6微调训练完成后，固化微调后的网络参数，确定最终图像融合模型；如若进行多模态图像融合任务时，可直接将多模态图像拼接后输入训练好的端到端网络模型中，得到最终的融合图像。

进一步的，所述S1中，数据集一为FLIR数据集，使用随机缩放、反转和平移等方法对数据集一进行图像增广，扩充数据集；数据集二为MSRS数据集；数据集三为TNO数据集。

进一步的，所述S2中，图像退化模型包括低阶退化过程和高阶退化过程；低阶退化过程能够模拟真实环境中的大多数图像退化过程；高阶退化过程进一步模拟现实中更复杂的退化过程，增加图像的多样性，在不同的阶段引入不同类型的退化和噪声，使模型更好地学习和处理真实世界中的图像，保证融合图像的质量。

进一步的，所述S4中，编码器由细节特征提取支路、语义特征提取支路和融合模块组成；

所述细节特征提取支路，用于提取退化图像的细节纹理信息和目标显著信息；

所述细节特征提取支路，用于提取退化图像的全局语义信息和结构信息。

进一步的，所述S3中，融合模块包括相加融合模块和我们设计的一种新的特征增强型融合模块；分别适用于恶劣环境背景下的多模态图像融合和低照度夜间环境下的多模态图像融合；

进一步的，所述S3中，解码器由六层卷积层和六层R型激活层组成，用于降低特征图通道，保留权重，重建融合图像。

进一步的，所述S5中，所述损失函数为复合损失，包括像素损失、边缘损失、颜色相似度损失和感知损失；

所述像素损失，用于计算网络输入与输出图像之间的像素误差，最小化重建图像与源图像之间的像素损失；

所述边缘损失，用于适配卷积运算的特定卷积核执行边缘检测，保留图像的梯度信息；

所述颜色相似度损失，用于衡量输入输出图像的直方图相似度，最小化相似度误差，指导模型重建图像中的颜色信息；

所述感知损失，用于帮助网络更加注重图像的内容和结构，更加关注图像的纹理信息，重建更加逼真的原始图像。

进一步的，所述S5中，在训练网络模型过程中还包括通过无参考评价指标和有参考评价指标评估算法融合结果的质量、多源图像的相似程度和图像失真程度。

本发明的有益效果如下：

(1)本发明设计一种新的端到端多模态图像融合框架，构建了基于编解码器结构的双分支注意力网络，分别由密集连接支路和残差连接支路构成，充分利用多种神经网络结构提取退化图像细节信息和语义信息，实验证明本文提出的网络架构不仅具有较小的参数量，模型大小仅有1.8M，融合结果也更符合人眼视觉特性。

(2)本发明设计一种图像高阶局部随机退化模型，输入原图像数据首先通过随机的低阶和高阶退化过程得到退化图像，再经过融合网络，极大的增加了网络的非线性，充分利用了神经网络强大的特征提取能力，解决了现有融合网络单一化线性融合的局限性和不能有效抑制强光、烟雾和噪声等恶劣环境影响的问题。

(3)本发明从图像颜色、梯度和视觉感知角度出发，设计了一种改进的由像素损失、边缘损失、颜色相似度损失和感知损失构成的复合损失函数约束网络训练，最大程度的保留了源图像和融合图像重要信息的相似度保真特性。

(4)本发明提出的融合模型在MSRS数据集、TNO数据集和医学图像融合数据集中均表现出了良好的效果，6种定量评价指平均提高了63％，说明本文所提出的融合方法具有非常强的泛化能力，能够适应大部分的多模态融合任务和场景。

附图说明

图1为一种基于高阶退化模型的多模态图像融合方法的流程图；

图2为本发明所构建的高阶局部随机退化模型原理图；

图3为一种基于局部退化模型的多模态图像融合方法整体工作原理图；

图4为本发明所述多模态图像融合网络结构图；

图5为本发明所述残差注意力模块原理图；

图6为本发明所述融合策略原理图；

图7为本发所述多模态图像融合方法与现有方法的定性比较效果图；

图8为本发所述多模态图像融合方法与现有方法的评价指标比较示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，发明实施实例1提供了一种基于高阶退化模型的多模态图像融合方法的流程图，该方法具体包括如下步骤：

S1，准备数据集：准备用于网络训练的FLIR数据集一，对整个融合网络进行训练，数据集中每一对红外图像与可见光图像的顺序必须对应；准备MSRS数据集二用于模型微调；准备TNO数据集三用于端到端模型测试；

S2，构建图像退化模型：构建包括低阶退化过程和高阶退化过程的图像退化模型；低阶退化过程由非锐化掩蔽模块、低阶模糊退化、低阶亮度/对比度退化、低阶分辨率退化、低阶噪声退化和图像压缩退化构成；非锐化掩蔽模块对输入的高质量图像和做锐化处理，生成作为与重建图像做损失训练的锐化图像I_S；低阶模糊退化的模糊核由生成模块学习服从正态分布的随机变量z_k得到，用于对输入图像和做低阶模糊处理得到模糊图像I_b；低阶亮度/对比度退化过程的退化函数能够学习图像的亮度分布概率，与模糊图像做矩阵乘法运算得到亮度/对比度退化图像I_B-C；低阶分辨率退化包括随机上采样和随机下采样过程，采样方法包括最近邻插值算法、双线性插值算法和双三次插值算法；三种采样方法的采样概率通过模型学习到的概率分布决定，用于实现数据增强，得到分辨率退化图像I_re；低阶噪声退化过程由亮度概率噪声选择模型决定，设置亮度概率阈值K与随机产生的亮度概率进行比较，分配噪声类型，为避免图像融合过程中的欠定问题、提高融合图像的质量，考虑来自成像系统内部噪声与外部噪声的影响，使用高斯白噪声和泊松噪声模拟噪声退化分布，得到噪声退化图像I_noise；对输出噪声图像进行图像随机阈值压缩得到压缩图像退化I_jpeg；高阶退化过程由高阶模糊退化、高阶亮度/对比度退化、高阶分辨率退化、加权噪声退化、图像压缩退化和局部掩膜生成与局部退化图像生成构成；低阶退化过程的压缩图像I_jpeg作为高阶退化过程的输入，由于单阶段的退化模型无法模拟现实中复杂的退化过程，所以引入的高阶退化模型能够提高图像的多样性，拟合更复杂的真实退化，最终强化神经网络的性能；为了减小图像灰度级压缩带来的图像失真问题，将亮度和对比度退化后的噪声退化加入到高阶退化过程持续退化；其中模糊退化、亮度与对比度退化、分辨率退化和图像压缩退化设置为与低阶退化相同的退化过程；局部掩膜生成与局部退化图像生成过程随机生成大小为256×256的掩膜图像，在掩膜图像中使用逻辑运算随机生成包含三个大小为50×120的交替掩码图mask_i(i＝1,2,3)，与高阶压缩图像做逻辑运算，得到最终的局部退化图像I_de。

S3，构建网络模型：构建包括编码器、融合模块和解码器构成的融合网络模型；编码器由细节分支和语义分支构成，细节分支包括卷积块一、卷积块二、卷积块三、残差注意力模块一和残差注意力模块二，细节分支通过密集连接的方式构成密集网络；语义分支包括卷积块四、卷积块五、卷积块六、卷积块七、残差注意力模块三和残差注意力模块四和拼接操作，语义分支通过残差连接的方式构成残差网络；每个卷积块由卷积层与R型激活函数组成；卷积块一、卷积块二、卷积块四、卷积块五和卷积块六用于丰富图像的通道信息；卷积块三和卷积块七用于保持输出通道数一致，便于特征图融合；残差注意力模块一、残差注意力模块二、残差注意力模块三和残差注意力模块四用于提取图像深层显著信息和亮度信息，增强退化图像之间的特征相关性；融合模块包括相加融合策略和L₂范数融合策略，其中L₂范数融合策略包括均方值计算、池化、权重加权计算等过程；相加融合策略用于恶劣环境下拍摄的图像融合，L₂范数融合策略用于低照度或夜间环境下拍摄的图像保留其亮度信息的图像融合。解码器包括卷积块一，卷积块二，卷积块三，卷积块四，卷积块五和卷积块六；每个卷积块由卷积层和R型激活函数组成；解码器用于聚焦多通道图像信息，重建融合图像；

S4，训练网络模型：训练多模态图像融合网络模型，将步骤S1中准备的数据集一进行图像增广预处理，扩充数据集，将预处理后的数据集输入到步骤S2构建的图像退化模型中，经过低阶退化和高阶退化过程得到大量待训练的退化图像集，再退化图像集输入到S3构建的网络模型中进行训练。

S5，选择合适的损失函数并确定本方法的最优评价指标：选择合适的损失函数使得输出的融合图像与输入图像的损失最小，设定训练损失阈值，不断迭代优化模型，直到训练次数达到设定阈值或损失函数的值达到设定阈值范围内即可认为模型参数已预训练完成，保存模型参数；选择数据集三中的测试图像输入网络模型得到融合图像，使用融合图像效果最优评价指标衡量模型的精度和性能；在训练过程中损失函数选择使用复合损失函数，包括像素损失、边缘损失、颜色相似度损失和感知损失；复合损失使重建图像尽可能多的保留源图像中的像素、梯度、颜色等有用信息，更高效的利用双分支网络的特征信息提取能力；合适的评估指标选择信息熵(EN)、标准差(SD)、互信息(MI)、Q^ab/f(图像视觉质量)、差异相关和(SCD)和视觉信息保真度(VIF)，其中Q^ab/f和VIF能够有效的评估重建的融合图像的视觉保真度，优化网络的融合性能。

S6，微调模型：使用红外与可见光图像数据集二对模型进行训练和微调，优化模型参数，进一步提高融合网络的性能，得到强抑制真实退化的高质量融合图像；

S7，保存模型：待步骤S6微调训练完成后，固化微调后的网络参数，确定最终图像融合模型；如若进行多模态图像融合任务时，可直接将多模态图像拼接后输入训练好的端到端网络模型中，得到最终的融合图像；

实施例2：

如图1所示，一种基于局部退化模型的多模态图像融合方法，该方法具体包括如下步骤：

S1，准备数据集，准备用于网络训练的数据集一，对整个融合网络进行训练，数据集一为FLIR数据集，数据集中每一对多模态图像对的顺序必须对应；FLIR数据集中包括了白夜和夜晚场景下的行人、街道、建筑和汽车等图像数据；我们选择了5690对红外与可见光图像对，包括3036张白天场景图像和2654张夜晚场景图像；使用随机缩放、反转和平移等方法对数据集一进行图像增广，扩充数据集，得到22760对图像对作为训练集用于网络训练，每一对图像对尺寸大小256×256；准备MSRS数据集二用于模型微调，我们选择了1083对红外与可见光图像对用于模型微调，包括534张白天图像和549张夜晚图像，每一对图像大小为256×256；准备TNO数据集三用于端到端模型测试，TNO数据集含恶劣环境下的红外与可见光图像数据对，可以充分的测试模型的好坏；我们从TNO数据集中选择了21对图像对作为测试集，图像尺寸大小不固定，这不影响我们模型的测试，因为我门的融合网络可以接受任意尺寸大小的图像对；

S2，构建图像退化模型，如图2所示为本发明所构建的高阶局部随机退化模型原理图，包括低阶退化过程和高阶退化过程的图像退化模型；低阶退化过程由非锐化掩蔽模块、低阶模糊退化、低阶亮度/对比度退化、低阶分辨率退化、低阶噪声退化和图像压缩退化构成；非锐化掩蔽模块对输入的高质量图像和做锐化处理，生成作为与重建图像做损失训练的锐化图像I_S，锐化过程可以表示为：

I_mask＝I_in-I_in*f_kernel (1)

I_U＝I_in+w.I_mask (3)

其中，*表示卷积运算，I_in表示原图像，f_kernel表示高斯模糊核，I_mask表示原图像与模糊图像做差生成的模板图像，I_U为模板锐化算子，w为锐化子权重，I_S表示锐化图像。

低阶模糊退化的模糊核由生成模块学习服从正态分布的随机变量z_k得到，用于对输入图像和做低阶模糊处理得到模糊图像I_b，模糊退化过程可以表示如下：

I_b＝I_in*k_z～(z_k→k_z～) (5)

其中，*表示卷积运算，→表示模糊核生成过程。

低阶亮度/对比度退化过程的退化函数能够学习图像亮度分布概率，与模糊图像做乘法运算得到亮度/对比度退化图像I_B-C；亮度和对比度退化过程可用公式表示为：

I_B-C＝I_b×c_factor (6)

其中，c_factor表示亮度和对比度调节因子，其调节范围设置为(0.2,,1.5)。

低阶分辨率退化包括随机上采样和随机下采样过程，采样方法包括最近邻插值算法、双线性插值算法和双三次插值算法，三种采样方法的采样概率通过模型的学习的概率分布决定，用于实现数据增强，得到分辨率退化图像I_re；

低阶噪声退化过程由亮度概率噪声选择模型决定，设置亮度概率阈值K与随机产生的亮度概率进行比较，分配噪声类型，为避免图像融合过程中的欠定问题、提高融合图像的质量，考虑来自成像系统内部噪声与外部噪声的影响，使用高斯白噪声和泊松噪声模拟噪声退化分布,得到噪声退化图像I_noise，噪声退化过程使用公式可表示如下：

其中，I_noise表示噪声退化图像，n_g表示高斯白噪声，n_p表示泊松噪声，c表示随机产生的亮度概率，K表示亮度概率阈值。低阶噪声退化过程的亮度概率阈值设置为0.4，高斯白噪声标准差设置为(1,30)，泊松噪声缩放因子设置为(0.05,3)。

对输出噪声图像进行图像随机阈值压缩得到压缩图像I_jpeg，压缩范围设置为随机的(30,95)。

高阶退化过程由高阶模糊退化、高阶亮度/对比度退化、高阶分辨率退化、加权噪声退化、图像压缩退化和局部掩膜生成与逻辑运算构成；低阶退化过程的压缩图像I_jpeg作为高阶退化过程的输入，由于单阶段的退化模型无法模拟现实中复杂的退化过程，所以引入的高阶退化模型能够提高图像的多样性，拟合更复杂的真实退化，最终强化神经网络的性能；为了减小图像灰度级压缩带来的图像失真问题，将亮度和对比度退化后的噪声退化加入到高阶退化过程持续退化；其中模糊退化、亮度与对比度退化、分辨率退化和图像压缩退化设置为与低阶退化相同的退化过程；局部掩膜生成与逻辑运算过程随机生成大小为256×256的掩膜图像，在掩膜图像中使用逻辑运算随机生成包含三个大小为50×120的交替掩码图mask_i(i＝1,2,3)，与高阶压缩图像做逻辑运算，得到最终的局部退化图像I_de。

S3，构建网络模型，如图3所示，一种基于局部退化模型的多模态图像融合方法工作原理图，具体包括编码器、融合模块和解码器；如图4所示，一种基于多模态图像融合网络结构图，编码器由细节分支和语义分支构成，细节分支包括卷积块一、卷积块二、卷积块三、残差注意力模块一和残差注意力模块二，细节分支通过密集连接的方式构成密集网络，既每一层网络层的输出都与下一层网络层的输入相连接，则网络输入与输出关系可以表示为第i层的输出其中，表示第i层之前所有层的非线性操作，包括卷积层、激活层和注意力模块，Cat_i表示所有先前层的密集连接操作；细节分支每一层输出的特征图通道数分别为16、16、64、96、256，其中卷积运算中所有的卷积核大小均为3×3，步长和填充均设置为1，所有的激活函数均使用R型函数；语义分支包括卷积块四、卷积块五、卷积块六、卷积块七、残差注意力模块三和残差注意力模块四和拼接操作，语义分支通过残差连接的方式构成残差网络；每个卷积块由卷积层与R型激活函数组成；残差注意力模块原理图如图5所示；语义分支每一层的输出特征图通道大小为32、32、64、64、128，与细节分支相同卷积运算中所有的卷积核大小均为3×3，步长和填充均设置为1，所有的激活函数均使用R型函数；R型函数定义如下；

如图6所示，融合模块包括相加融合策略和L₂范数融合策略，其中L₂范数融合策略包括均方值计算、池化、权重加权计算等过程；相加融合策略用于恶劣环境下拍摄的图像融合，可以使用公式表示如下：

其中，表示通道维度上的融合图像，表示输入红外图像，表示输入可见光图像，(x,y)表示图像像素点位置，M和N表示两图输入图像的像素点数，且要保证M＝N。

L₂范数融合策略用于低照度或夜间环境下拍摄的图像保留其亮度信息的图像融合，可以使用公式表示如下：

其中，L₂(.)表示计算L₂均方值；K_fileter表示二维平滑滤波器；表示最终的融合图像；*表示卷积操作。

解码器包括卷积块一，卷积块二，卷积块三，卷积块四，卷积块五和卷积块六；每个卷积块由卷积层和R型激活函数组成；解码器用于聚焦多通道图像信息，重建融合图像，卷积运算中所有的卷积核大小均为3×3，步长和填充均设置为1，所有的激活函数均使用R型函数；

综上，融合网络在细节分支中，执行三次卷积运算和两次RAM操作，在语义分支中，交替执行一次卷积运算和一次RAM操作，在每一条分支中增加一层卷积运算，将特征图通道数从224扩充为为256，这样细节分支的输出就能和语音分支的输出相融合。

S4，训练图像模型，训练多模态图像融合网络模型，将步骤S1中准备好的扩充数据集一输入到步骤S2构建的图像退化模型中，经过低阶退化和高阶退化过程得到大量待训练的退化图像集，再退化图像集输入到S3构建的网络模型中进行训练。

S5，选择合适的损失函数并确定本方法的最优评价指标：选择合适的损失函数使得输出的融合图像与输入图像的损失最小，设定训练损失阈值，不断迭代优化模型，直到训练次数达到设定阈值或损失函数的值达到设定阈值范围内即可认为模型参数已预训练完成，保存模型参数；选择数据集三中的测试图像输入网络模型得到融合图像，使用融合图像效果最优评价指标衡量模型的精度和性能；

所述S5中网络的输出与标签计算损失函数使用复合损失函数，包括像素损失、边缘损失、颜色相似度损失和感知损失；

像素损失L_pixel使用均方误差函数计算网络输入与输出图像之间的像素误差，最小化重建图像与源图像之间的像素损失；L_pixel可以使用公式表示如下：

L_pixel＝MSE(I_re,I_i-v) (14)

其中，I_re为重建图像；I_i-v为输入图像；MSE(X,Y)表示计算输入图像X与图像Y的均方误差；M表示图像X的像素总数；N表示图像Y的像素总数；X_(i,j)和Y_(i,j)表示图像(i,j)位置的像素点值。

边缘损失L_edge使用一个适配卷积运算的特定卷积核执行边缘检测，得到梯度图，通过使用均方误差函数计算并最小化网络输入与输出图像的梯度误差，来保留源图像的边缘信息；L_edge可以使用公式表示如下：

其中，和分别表示重建图像的梯度图和输入图像的梯度图；Conv(.)表示卷积运算；I表示输入图像；chi表示卷积运算输入通道数；cho表示卷积运算输出通道数；chi和cho都设置为1；kernel表示能进行边缘检测的特定卷积核，设置如下：

颜色相似度损失L_{color_similar}通过衡量输入输出图像的直方图相似度，最小化相似度误差，指导模型学习重建更好的图像；在红外与可见光图像融合任务中重点考虑红外图像的热辐射信息和可见光图像的亮度信息，在医学图像融合任务中重点考虑不同模态图像硬质结构和软组织结构的亮度信息；L_{color_similar}可以使用公式表示如下：

Hist_I＝histc(I,min(I),max(I)) (20)

其中，L₂[.]表示L₂范数，既欧氏距离；和分别表示重建图像和输入图像的颜色直方图；histc(.)表示直方图计算函数；I表示输入图像；min(I)和max(I)分别计算输入图像的像素最大值和最小值，用于指导直方图的生成范围；

感知损失L_perceptual可以帮助网络重建更加逼真的原始图像，因为它不仅关注像素级的图像差异，还考虑了图像在感知上的相似性，即更加注重图像的内容和结构，更加关注图像的纹理内容；

感知损失函数使用VGG19网络的高级特征映射层，由于其处理的图像需要匹配预训练模型，所以我们将输入图像通道统一扩充为3通道；首先将输入图像进行标准化预处理，匹配VGG19在ImageNet数据集上训练时的预处理方式，然后将标准化后的重建图像和真实源图像输入VGG19预训练模型，选择第34层特征层作为提取节点，最后使用L₁范数计算重建图像和真实源图像之间的损失，得到感知损失；L_perceptual可以使用公式表示如下：

其中，L₁[.]表示L₁范数；(Q_I)_n表示图像I输入到预训练模型后得到的第n层特征；

综上，复合损失L_total可以使用公式表示如下：

L_total＝L_pixel+λ₁L_edge+λ₂L_{color_similar}+λ₃L_percepptual (22)

其中，λ₁，λ₂，λ₃为调谐参数，用来平衡四种损失的权重；

所述S5中合适的评估指标选择信息熵(EN)、标准差(SD)、互信息(MI)、Q^ab/f(图像视觉质量)、差异相关和(SCD)和视觉信息保真度(VIF)；其中信息熵和标准差为无参考质量评价方法，其他指标均为有参考质量评价方法；信息熵使用信息量的数学期望衡量融合图像相对于多模态图像的信息量保留程度，信息量越大则熵值越大，一幅图像X的信息熵可以使用公式表示如下：

其中，H(X)表示图像X的信息熵；log₂p(x_i,y_i)表示图像X的信息量；p(x_i,y_i)是用于求解信息量的概率；N表示图像的灰度级数；(x_i,y_i)表示灰度级为i的像素像素值；

标准差反映了图像本身像素之间的离散程度，离散程度越小表示图像质量越好，一幅图像X的标准差可以使用公式表示如下：

其中，SD(X)表示图像X的标准差；μ表示平均值(X)，计算公式如下：

其中，max(X_i,j)和min(X_i,j)表示图像像素的最大值和最小值；

互信息反映了多模态原图像和融合图像之间的关联程度，即相互之间包含多少有用信息，原多模态图像X和Y与融合图像F的互信息计算过程可以表示如下：

MI(X,F)＝H(X)+H(F)-H(Cat(X,F)) (26)

MI(Y,F)＝H(Y)+H(F)-H(Cat(Y,F)) (27)

MI(X,Y,F)＝MI(X,F)+MI(Y,F) (28)

其中，MI(X,F)，MI(Y,F)和MI(X,Y,F)分别表示原多模态图像X和Y与融合图像F的单互信息值和总互信息值；H(.)表示信息熵，可以使用式(23)计算；Cat(.)表示数组拼接操作；

图像视觉质量Q^ab/f是一种针对像素级图像融合目标，将存在于多模态图像中的所有重要视觉信息和边缘信息组合并融合在单个输出图像中，原多模态图像X和Y与融合图像F的视觉质量Q^ab/f原理可以使用表示为下面过程：

其中，(i,j)表示图像像素；和表示Sobel水平和垂直方向的边缘算子；q_X(i,j)和q_F(i,j)表示边缘强度，k_X(i,j)表示方向信息；

则输入图像X相对于F的相对强度G^XF(n,m)和取向值形成X^XF(n,m)可表示为：

进一步的和可以根据X中像素(i,j)的强度和方向值在融合图像中的表现程度来模拟F中信息的感知损失。

其中，λ_q、h_q、μ_q和λ_k、h_k、μ_k为可调参数，用于形成边缘强度和方向保存值的确切形状；则边缘信息保存值Q^AF可定义为：

对于N×M大小的图像，有Q^XF(i,j)和Q^YF(i,j)，则对图像X和Y进行给定融合过程P，产生F的归一化加权性能指标可表示为如下公式：

其中，w^X(i,j)和w^Y(i,j)为权重参数，可由式(29)和式(30)计算得到。

差异相关和(SCD)用于衡量融合图像与原多模态图像之间的像素信息相关性，原多模态图像X和Y与融合图像F的差异相关R_SCD和可用如下公式表示：

R_SCD＝R_XF+R_YF (38)

其中，M,N表示像素灰度级；R_XF表示图像X的与图像F的相关性；R_YF表示图像Y的与图像F的相关性；

视觉信息保真度(VIF)是一种结合了自然图像统计模型、图像失真模型和人眼视觉系统模型混合评价指标，具有更高的视觉相关性，VIF值越大，表示融合图像质量越好。

网络训练时，学习率设置为0.0001，批量大小设置为8，总共迭代100000轮；使用Adam优化器不断更新网络参数，其指数衰减率和eps值分别设置为(0.9，0.999)和1e-08；整个训练过程持续约20个小时为了保证总损失函数中的四个损失值尽可能在同一个数量级，设置四个损失权重大小分别为λ₁＝0.1，λ₂＝0.001，λ₃＝1。

S6，微调模型：使用MSRS数据集二对模型再次进行训练和微调，学习率设置为0.001，总共迭代1000轮，其他参数保持不变，进一步提高融合网络的性能，得到强抑制真实退化的高质量融合图像；

S7，保存模型：待步骤S4训练完成后，固化微调后的网络参数，待S6微调模型，确定最终图像融合模型；如若进行多模态图像融合任务时，可直接将多模态图像拼接后输入训练好的端到端网络模型中，得到最终的融合图像；

其中，卷积、激活函数、拼接操作等的实现是本领域技术人员公知的算法，具体流程和方法可在相应的教科书或者技术文献中查阅到。

本发明通过构建一种端到端的基于高阶退化模型的多模态图像融合方法，可以将多模态图像直接处理为高质量融合图像，不再经过中间其他步骤，避免了现有人工手动设计复杂的融合策略等规则，使融合步骤简单化高效化；现有技术和本发明提出方法的融合图像定性对比如图7所示；在相同条件下，通过计算与现有方法得到融合图像与原多模态图像的相关指标，进一步验证了该方法的可行性和优越性。

现有技术和本发明提出方法的评价指标对比示意图如图8所示，从图中可知，本发明提出的方法比现有方法拥有更高的信息熵、互信息与差异相关和，且图像视觉质量和视觉信息保真度这两个最重要的评价指标也达到了最优；在测试阶段，平均每幅图像的分割时间仅仅需要0.83秒；这些指标进一步说明了本发明提出的方法达到了最优的的多模态图像融合性能，取得了预期效果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高阶退化模型的多模态图像融合方法，其特征在于：该方法具体包括如下步骤：

2.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S1中，数据集一为FLIR数据集，使用随机缩放、反转和平移等方法对数据集一进行图像增广，扩充数据集；数据集二为MSRS数据集；数据集三为TNO数据集。

3.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S2中，图像退化模型包括低阶退化过程和高阶退化过程；低阶退化过程能够模拟真实环境中的大多数图像退化过程；高阶退化过程进一步模拟现实中更复杂的退化过程，增加图像的多样性，在不同的阶段引入不同类型的退化和噪声，使模型更好地学习和处理真实世界中的图像，保证融合图像的质量。

4.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S3中，编码器由细节特征提取支路、语义特征提取支路和融合模块组成；

5.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S3中，融合模块包括相加融合模块和我们设计的一种新的特征增强型融合模块；分别适用于恶劣环境背景下的多模态图像融合和低照度夜间环境下的多模态图像融合。

6.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S3中，解码器由六层卷积层和六层R型激活层组成，用于降低特征图通道，保留权重，重建融合图像。

7.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S5中，所述损失函数为复合损失，包括像素损失、边缘损失、颜色相似度损失和感知损失；

8.根据权利要求1所述的一种基于高阶退化模型的多模态图像融合方法，其特征在于：所述S5中，在训练网络模型过程中还包括通过无参考评价指标和有参考评价指标评估算法融合结果的质量、多源图像的相似程度和图像失真程度。