CN117274759A - 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 - Google Patents
一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 Download PDFInfo
- Publication number
- CN117274759A CN117274759A CN202311223768.0A CN202311223768A CN117274759A CN 117274759 A CN117274759 A CN 117274759A CN 202311223768 A CN202311223768 A CN 202311223768A CN 117274759 A CN117274759 A CN 117274759A
- Authority
- CN
- China
- Prior art keywords
- fusion
- network
- semantic
- distillation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 106
- 238000004821 distillation Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 2
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004451 qualitative analysis Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于蒸馏‑融合‑语义联合驱动的红外与可见光图像融合系统,包括教师网络、学生网络和语义分割网络;所述教师网络用于监督学生网络训练和特征传输,实现较强的特征提取和图像重建能力,并保障特征能够得到更好的延续;所述学生网络通过蒸馏操作,将教师网络传递的特征加以利用,进一步训练以提取源图像的目标和纹理特征并生成融合图像;所述语义分割网络对生成的融合图像进行语义约束,以保证学生网络获得良好的融合性能和语义特性。本发明提出了一种蒸馏‑融合‑语义联合驱动网络架构,用于实现红外与可见光图像融合任务。同时考虑了特征传递、特征融合和高级语义的要求。
Description
技术领域
本发明涉及图像融合技术领域,具体涉及一种基于蒸馏-融合-语义联合驱动的网络架构,用于红外与可见光图像融合。
背景技术
红外与可见光图像融合作为一种图像增强技术,旨在将两种不同模态的图像合并成一幅包含丰富视觉信息、质量较高的融合图像。其中,红外与可见光图像作为重要的源图像,其对比度、纹理和亮度等方面有所不同。红外图像由红外传感器获取,可以探测目标的热辐射。然而,红外图像分辨率较低,场景表征能力较弱。相比之下,可见光图像可以提供更多视觉细节,却对环境干扰较为敏感,容易受到不利因素的影响。为了弥补不足,通过图像融合技术可以有效地将两种图像融合,更全面的理解复杂环境和场景。因此在医学诊断、目标检测和跟踪、搜索救援等领域具有广泛的实际应用。
红外与可见光图像融合的关键在于将两种图像有效地结合以提供更全面、清晰的图像。在过去的几十年里,研究人员提出了很多方法来解决红外与可见光图像融合任务,这些方法可以分为三类:传统图像融合系统、基于深度学习的融合系统和与高级视觉任务联合训练的融合系统。
传统图像融合系统通过图像处理算法来计算和融合图像信息,以获得融合结果。这些方法可以对像素进行加权融合,也可以将图像变换后在变换域中融合,还可以依据一定的规则进行融合。由于这些方法不受资源的限制,满足了实时性需求。然而,这些方法通常需要手工设计和制定融合规则,灵活性和自适应性较低。此外,由于没有充分考虑源图像之间的特征差异,以及不能适应复杂的场景需求,传统融合系统的应用往往受到限制。
为了弥补传统融合系统的不足,近年来,深度学习技术的发展为提升融合性能提供了可能性。基于深度学习的融合系统利用深度神经网络强大的特征提取和重构能力,显著改变图像质量,提高场景理解,解决了无需人工干预融合过程的问题。然而,这些方法在实现图像融合任务时无法满足高级视觉任务的需求,忽略了高级视觉任务所需的信息。
最近,研究人员提出了许多与高级视觉任务联合训练的融合系统,以尽可能地保留语义等信息。这些方法同时满足图像融合与语义分割,或图像融合与目标检测的需求,通过联合训练的方式进一步提升融合图像的视觉质量。虽然这些方法已经展现了出色的融合性能,但它们仍然存在一些紧迫的挑战。首先,卷积神经网络从局部提取图像特征,而Transformer融合网络能够借助自注意力优势捕捉全局依赖,但较少从频率分量角度理解特征。其次,教师网络和分割网络传递的特征和语义信息利用率较低,不利于学生网络实现更出色的融合性能和更高的运行效率。此外,针对红外与可见光图像融合设计的特征蒸馏,其泛化能力不足,无法更好的实现医学图像融合。
发明内容
本发明的目的在于,提出了一种将知识蒸馏与语义分割相结合的融合框架,在保证特征转移的同时,关注具有特定语义的区域块,重点捕获显著目标和保留纹理细节,促进特征信息和语义信息的综合利用,提高融合性能。
为实现上述目的,本申请提出的一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,包括教师网络、学生网络和语义分割网络;所述教师网络用于监督学生网络训练和特征传输,实现较强的特征提取和图像重建能力,并保障特征能够得到更好的延续;所述学生网络通过蒸馏操作,将教师网络传递的特征加以利用,进一步训练以提取源图像的目标和纹理特征并生成融合图像;所述语义分割网络对生成的融合图像进行语义约束,以保证学生网络获得良好的融合性能和语义特性。
进一步地,所述教师网络的编码器部分包括模态差分块、光谱变换块和效率注意力块;
所述模态差分块用于获得不同模态图像之间的差异,提取公共特征和互补特征,对不同模态图像集成互补特征;
所述光谱变换块用于从光谱空间捕获纹理和边缘信息;首先利用快速傅里叶变换将特征图从物理空间映射到光谱空间,再确定每个频率的分量,最后利用逆变换转换为物理空间,实现捕捉图像中不同频率分量的功能;
所述效率注意力块用于从物理空间捕获纹理和边缘信息;通过增加头数量和改变Q、K和V值的运算顺序实现。
进一步地,所述教师网络的解码器部分包括卷积层和两个效率注意力块组成,用于集成和重构特征以生成融合图像。
进一步地,所述学生网络的编码器部分包括红外目标块和可见细节块;
所述红外目标块包括Scharr滤波器、多个卷积层和跳过连接层;Scharr滤波器用于提取结构、轮廓和显著区域的信息;
所述可见细节块则包含Sobel滤波器和密集连接层,保证细节信息提取的同时加强了特征的传递。
进一步地,所述跳过连接层和密集连接层通过滤波器关注不同模态图像的梯度和强度信息。
更进一步地,所述学生网络的解码器部分包括跳过连接层和四个卷积层组成,每个卷积层的内核大小为3×3;除了最后一个卷积层外,其他卷积层均由ReLU激活。
更进一步地,所述语义分割网络,通过预训练的语义分割扩张残差网络获取语义分割图,以确定融合图像的语义内容。
更进一步地,所述教师网络细化过程量化为:
其中,Ir和Iv分别表示输入的红外与可见光图像;M(·)表示模态差分块,S(·)为光谱变换块,E(·)表示效率注意力块;和/>为模态差分获得的特征图;/>和/>为经过光谱变换块和效率注意力块获得的特征图;cat(·)表示通道维度中的级联,Fft表示级联后的结果;DT(·)表示教师网络解码器,利用解码器生成教师网络融合图像/>中间特征图和/>
更进一步地,学生网络细化过程量化为:
Frs=conv(Ir),Fvs=conv(Iv)
其中,conv(·)表示卷积操作,经卷积后获得特征Frs和Fvs;I(·)和V(•)分别为红外目标块和可见细节块;scharr(•)和sobel(·)为滤波器;和/>为经过两个模块和滤波器所得到的模态特征;/>和/>是用于跳过连接的特征;Ffs为学生网络融合后的特征;DS(•)表示学生网络的解码器,/>为学生网络经过重构后生成的融合图像;/>和/>表示学生网络中间特征,用于与教师网络的中间特征计算损失。
更进一步地,利用融合损失Lfus和蒸馏语义损失Ldise对蒸馏、融合过程进行约束;其中,用于指导蒸馏和语义分割的蒸馏语义损失表示为:
Ldise=η(Lde+Ldu)+μLseg
其中,Lde、Ldu和Lxeg分别表示蒸馏特征损失、蒸馏融合损失和特征语义损失;η和μ是平衡每个组件的超参数。
蒸馏特征损失Lde定义为:
其中,||·||1表示L1范式;表示特征梯度测量,C指的是特征图的通道数;和/>分别表示教师网络和学生网络的中间特征图;
蒸馏融合损失Ldu定义如下:
其中,SSIM(·)表示结构相似度函数,其定义为:
其中,I*代表源图像Ir、Iv或教师网络的融合图像 代表学生网络的融合图像;μ和σ分别表示平均值和标准差;C1,C2和C3是维持稳定的常数;
特征语义损失Lseg定义如下:
其中,n表示批次数量;参数α的作用是给不同类别的样本loss加权重,γ则针对样本预测值,重点关注难分样本loss的优化;
融合损失Lfus定义如下:
Lfus=t1Lpix+t2Lint+t3Lgrad+t4Lssim
其中,t1、t2、t3和t4为平衡每个损失的超参数;Lpix、Lint、Lgrad和Lssim分别定义如下:
其中,||·||1表示L1范式,max{·}表示按元素最大选择;表示Sobel梯度算子,用于测量图像的纹理细节。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明提出了一种蒸馏-融合-语义联合驱动网络架构,用于实现红外与可见光图像融合任务。同时考虑了特征传递、特征融合和高级语义的要求。其设计了教师网络,通过结合光谱变换和效率注意力,实现了在空间域和光谱域中捕获全局和局部特征。为了提高特征利用率,在蒸馏训练时将教师网络的中间特征和融合图像传递到学生网络中,有效监督学生网络训练。学生网络采用双分支机制,同时专注于显著目标和纹理细节的捕获。为了在实现融合的同时满足高级视觉任务的需求,使用分割网络向学生网络传递语义信息,提高融合效果。此外,为了促进特征信息和语义信息的综合利用,使用一种新的蒸馏语义损失函数。该函数有效地约束了蒸馏和分割过程,从而提高了整体融合性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统原理图;
图2为教师网络结构图;
图3为教师网络的编码器部分结构图;
图4为学生网络结构图;
图5为学生网络的编码器部分结构图;
图6为在MSRS图像数据集上本系统和其他先进的融合系统间的定性比较图;
图7为在M3FD和TNO图像数据集上本系统和其他先进的融合系统间的定性比较图;
图8为在M3FD和TNO数据集上本系统和其他先进的融合系统间的定量比较图;
图9为在MSRS数据集上本系统和其他先进的融合系统间的语义分割定性比较图。
具体实施方法
下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例,但应当理解,描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。
本实施例基于蒸馏-融合-语义联合驱动,提出了一种将知识蒸馏与语义分割相结合的融合框架;在保证特征转移的同时,关注具有特定语义的区域块,从而训练轻量级学生网络。在提取过程中,利用语义分割模型进行监督,有效地理解感兴趣区域,显著提高了学生网络的融合性能。其设计的教师网络可以捕获物理空间和光谱维度的全局和局部特征。设计的学生网络,重点捕获显著目标和保留纹理细节。通过蒸馏特征、蒸馏融合和语义特征组成的蒸馏语义损失函数来约束蒸馏训练过程,促进特征信息和语义信息的综合利用,提高融合性能。
如图1所示,一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,包括教师网络、学生网络和语义分割网络;
教师网络作为监督者,承担监督训练和特征传递的任务。教师网络通过自适应的整合物理维度和光谱维度的中间特征,从全局和频率分量的角度理解特征,实现优秀的特征提取能力。教师网络整体结构如图2所示。其中,在编码器部分包括模态差分块、光谱变换块和效率注意力块,以捕获局部频率信息和长距离特征依赖关系。
如图3所示,一个示例实施例中,模态差分块用于计算不同模态图像之间的差异,提取公共特征和互补特征。通过对不同模态图像集成互补特征,保证了特征的利用率。此外,光谱变换块和效率注意力块分别负责从光谱空间和物理空间完全捕获纹理和边缘信息,并弥补无法同时从全局和局部提取特征的问题。通过光谱变换块,首先利用快速傅里叶变换将特征图从物理空间映射到光谱空间,再确定每个频率的分量,最后利用逆变换转换为物理空间,实现捕捉图像中不同频率分量的功能。效率注意力块通过增加头数量和改变Q、K和V值的运算顺序,大大减少内存和计算成本。教师网络的解码器部分包括卷积层和两个效率注意力块,目的是集成和重构特征以生成融合图像。
教师网络能够获得纹理信息丰富,质量优异的融合图像。相比之下,学生网络存在细节部分丢失,清晰度低等问题。因此,使用蒸馏操作以提升学生网络的融合性能。学生网络的结构相比教师网络要简单,如图4所示。在学生网络中,编码器部分包括红外目标块和可见细节块,如图5所示两个模块旨在充分提取纹理和目标特征,实现较好的特征提取能力。所述红外目标块包括Scharr滤波器、多个卷积层和跳过连接层;Scharr滤波器用于提取结构、轮廓和显著区域的信息。所述可见细节块则包含Sobel滤波器和密集连接层,保证细节信息提取的同时加强了特征的传递。此外,跳过连接层、密集连接层也使用了滤波器,以重点关注不同模态图像的梯度和强度信息。学生网络的解码器部分包括跳过连接和四个卷积层组成,每个卷积层的内核大小为3×3。除了最后一个卷积层外,其他卷积层均由ReLU激活。
在生成融合图像后,由预训练的语义分割扩张残差网络获取语义分割图,以确定融合图像的语义内容。此外,利用语义约束可以充分捕获语义特征,进一步促进了融合效果。
在本系统中,蒸馏-融合-语义联合驱动需要利用融合损失Lfus和蒸馏语义损失Ldise对蒸馏和融合过程进行约束。蒸馏特征损失Lde用于计算教师网络和学生网络生成的中间特征图差异,以判断特征的有效传输量。对于两个中间特征图,其通道数是对应的。蒸馏融合损失Ldu通过测量师生网络的融合图像,确定融合误差。语义损失Lseg用于计算融合图像预测值和groundtruth之间的差异。融合损失Lfus分别从像素、梯度、强度和结构相似性来计算融合图像和源图像间的像素级、纹理、显著区域和结构的差异.
结果说明
本系统首先在MSRS数据集上与十种最先进的红外与可见光图像融合系统进行比较。同时,为了进一步证明本系统的优越性,在M3FD和TNO数据集上选取图像对作进一步验证。在本系统的定性评估中,融合图像由人类视觉系统评估,如图像的目标、亮度和场景的完整性。在MSRS数据集上的定性分析结果如图6所示。图7展示为在M3FD和TNO数据集上的定性分析结果。
与其他系统相比,提出的蒸馏-融合-语义联合驱动网络能够有效保持显著目标和纹理信息,具有更好的场景表示能力。此外,生成的融合图像纹理特征和边缘内容清晰,特征丰富,更符合人类视觉感知。
为了全方位评估所提系统的融合性能,避免主观因素的干扰,本发明还利用定量指标EN、MI、SCD、Qabf、VIF和SSIM,从信息量、人类视觉感知、结构相似性等角度对融合图像进行评估。使用M3FD和TNO数据集中的测试图像对作为测试集来完成不同的红外与可见光图像融合任务。定量评估结果如图8所示。由图8可以看出,本系统所得的定量结果在MI、Qabf、VIF和SSIM四个指标上为最优和次优,这表明融合结果在视觉保真度和结构相似性上与源图像最为接近,充分利用了源图像的信息。EN和SCD指标仅以较小的差距跟随,仍然能够将充分的特征集成到融合图像中。
为了进一步探索蒸馏-融合-语义联合驱动架构对语义分割性能的影响,本系统在MSRS数据集上进行了语义分割训练和测试。使用MMSegmentation中DeeplabV3+作为主干网络,并遵照MSRS数据集的设定进行训练和测试。语义分割结果如图9所示。结果表明,在蒸馏过程中增加了语义驱动,融合图像充分获得了显著特征和纹理信息,同时也有效整合了语义特征。这些获取的特征经过充分的重构和利用,提高了分割准确性,并增强了模型感知目标边界的能力。此外,本系统也使用YOLOv7作为基准模型,通过mAP@0.5来比较所提系统的有效性。检测结果拥有较高的精度和准度,展现出极佳的检测性能。本系统还利用医学图像进行融合,证明了所提系统具有较好的融合性能和较强的泛化能力。
因此,在多个数据集上的大量实验证明,本系统所提出的架构具有特征利用、融合性能、运行效率和满足语义要求等优越性。生成的融合图像有效地保留了场景细节和显著目标,确保细节特征清晰。在计算效率方面,所提系统具有出色的运行效率,可以部署到实时融合任务中以满足应用。在医学图像融合、目标检测和语义分割的应用也显示了其较强的泛化能力和在高级视觉任务中的潜力。
以上描述仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
虽然在本申请中权利要求书已针对特征的特定组合而制定,但是应当理解,本公开的范围还包括本文所公开的明确或隐含或对其任何概括的任何新颖特征或特征的任何新颖的组合,不论他是否涉及目前所要求保护的任何权利要求中的相同方案。
Claims (10)
1.一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,包括教师网络、学生网络和语义分割网络;所述教师网络用于监督学生网络训练和特征传输,实现特征提取和图像重建;所述学生网络通过蒸馏操作,将教师网络传递的特征加以利用,进一步训练以提取源图像的目标和纹理特征并生成融合图像;所述语义分割网络对生成的融合图像进行语义约束,以保证学生网络获得融合性能和语义特性。
2.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述教师网络的编码器部分包括模态差分块、光谱变换块和效率注意力块;
所述模态差分块用于获得不同模态图像之间的差异,提取公共特征和互补特征,对不同模态图像集成互补特征;
所述光谱变换块用于从光谱空间捕获纹理和边缘信息;首先利用快速傅里叶变换将特征图从物理空间映射到光谱空间,再确定每个频率的分量,最后利用逆变换转换为物理空间,实现捕捉图像中不同频率分量的功能;
所述效率注意力块用于从物理空间捕获纹理和边缘信息;通过增加头数量和改变Q、K和V值的运算顺序实现。
3.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述教师网络的解码器部分包括卷积层和两个效率注意力块组成,用于集成和重构特征以生成融合图像。
4.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述学生网络的编码器部分包括红外目标块和可见细节块;
所述红外目标块包括Scharr滤波器、多个卷积层和跳过连接层;Scharr滤波器用于提取结构、轮廓和显著区域的信息;
所述可见细节块则包含Sobel滤波器和密集连接层,保证细节信息提取的同时加强了特征的传递。
5.根据权利要求4所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述跳过连接层和密集连接层通过滤波器关注不同模态图像的梯度和强度信息。
6.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述学生网络的解码器部分包括跳过连接层和四个卷积层组成,每个卷积层的内核大小为3×3;除了最后一个卷积层外,其他卷积层均由ReLU激活。
7.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述语义分割网络,通过预训练的语义分割扩张残差网络获取语义分割图,以确定融合图像的语义内容。
8.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,所述教师网络细化过程量化为:
其中,Ir和Iv分别表示输入的红外与可见光图像;M(·)表示模态差分块,S(·)为光谱变换块,E(·)表示效率注意力块;和/>为模态差分获得的特征图;/>和/>为经过光谱变换块和效率注意力块获得的特征图;cat(·)表示通道维度中的级联,Fft表示级联后的结果;DT(·)表示教师网络解码器,利用解码器生成教师网络融合图像/>中间特征图/>和
9.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,学生网络细化过程量化为:
Frs=conv(Ir),Fvs=conv(Iv)
其中,conv(·)表示卷积操作,经卷积后获得特征Frs和Fvs;I(·)和V(·)分别为红外目标块和可见细节块;scharr(·)和sobel(·)为滤波器;和/>为经过两个模块和滤波器所得到的模态特征;/>和/>是用于跳过连接的特征;Ffs为学生网络融合后的特征;DS(·)表示学生网络的解码器,/>为学生网络经过重构后生成的融合图像;/>和/>表示学生网络中间特征,用于与教师网络的中间特征计算损失。
10.根据权利要求1所述一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统,其特征在于,利用融合损失Lfus和蒸馏语义损失Ldise对蒸馏、融合过程进行约束;其中,用于指导蒸馏和语义分割的蒸馏语义损失表示为:
Ldise=η(Lde+Ldu)+μLseg
其中,Lde、Ldu和Lseg分别表示蒸馏特征损失、蒸馏融合损失和特征语义损失;η和μ是超参数;
蒸馏特征损失Lde定义为:
其中,||·||1表示L1范式;表示特征梯度测量,C指的是特征图的通道数;和/>分别表示教师网络和学生网络的中间特征图;
蒸馏融合损失Ldu定义如下:
其中,SSIM(·)表示结构相似度函数,其定义为:
其中,I*代表源图像Ir、Iv或教师网络的融合图像 代表学生网络的融合图像;μ和σ分别表示平均值和标准差;C1,C2和C3是维持稳定的常数;
特征语义损失Lseg定义如下:
其中,n表示批次数量;参数α的作用是给不同类别的样本loss加权重,γ则针对样本预测值,重点关注难分样本loss的优化;
融合损失Lfus定义如下:
Lfus=t1Lpix+t2Lint+t3Lgrad+t4Lssim
其中,t1、t2、t3和t4为平衡每个损失的超参数;Lpix、Lint、Lgrad和Lssim分别定义如下:
其中,||·||1表示L1范式,max{·}表示按元素最大选择;表示Sobel梯度算子,用于测量图像的纹理细节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311223768.0A CN117274759A (zh) | 2023-09-21 | 2023-09-21 | 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311223768.0A CN117274759A (zh) | 2023-09-21 | 2023-09-21 | 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274759A true CN117274759A (zh) | 2023-12-22 |
Family
ID=89220800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311223768.0A Pending CN117274759A (zh) | 2023-09-21 | 2023-09-21 | 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274759A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
CN117726916A (zh) * | 2024-02-18 | 2024-03-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
-
2023
- 2023-09-21 CN CN202311223768.0A patent/CN117274759A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576535A (zh) * | 2024-01-15 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、设备以及存储介质 |
CN117726916A (zh) * | 2024-02-18 | 2024-03-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
CN117726916B (zh) * | 2024-02-18 | 2024-04-19 | 电子科技大学 | 一种图像分辨率融合增强的隐式融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rivadeneira et al. | Thermal Image Super-resolution: A Novel Architecture and Dataset. | |
CN112733950A (zh) | 一种基于图像融合与目标检测结合的电力设备故障诊断方法 | |
CN117274759A (zh) | 一种基于蒸馏-融合-语义联合驱动的红外与可见光图像融合系统 | |
CN114283158A (zh) | 一种视网膜血管图像分割方法、装置及计算机设备 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
Wang et al. | Cross-UNet: dual-branch infrared and visible image fusion framework based on cross-convolution and attention mechanism | |
Duan et al. | Research on the natural image super-resolution reconstruction algorithm based on compressive perception theory and deep learning model | |
CN111079807B (zh) | 一种地物分类方法及装置 | |
CN117635428A (zh) | 一种肺部ct图像超分辨重建方法 | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
Li et al. | Automatic pixel-level detection method for concrete crack with channel-spatial attention convolution neural network | |
CN114639002A (zh) | 一种基于多模式特征的红外与可见光图像融合方法 | |
CN114972022A (zh) | 一种基于非对齐rgb图像的融合高光谱超分辨率方法和系统 | |
Pang et al. | Infrared and visible image fusion based on double fluid pyramids and multi-scale gradient residual block | |
Luo et al. | Infrared and visible image fusion based on VPDE model and VGG network | |
Tang et al. | MPCFusion: Multi-scale parallel cross fusion for infrared and visible images via convolution and vision Transformer | |
Li | (Retracted) Infrared image filtering and enhancement processing method based upon image processing technology | |
Liu et al. | Dual UNet low-light image enhancement network based on attention mechanism | |
Lin et al. | Two-level consistency metric for infrared and visible image fusion | |
CN113160104B (zh) | 一种基于密集连接网络的图像融合方法 | |
Li et al. | A novel fusion method based on online convolutional sparse coding with sample-dependent dictionary for visible–infrared images | |
Bongini et al. | GADA: Generative adversarial data augmentation for image quality assessment | |
Chen et al. | Exploring efficient and effective generative adversarial network for thermal infrared image colorization | |
Jiang et al. | DDFN: a depth-differential fusion network for multi-focus image | |
Tan et al. | DBSwin: Transformer based dual branch network for single image deraining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |