CN118097241A - 一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统 - Google Patents
一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统 Download PDFInfo
- Publication number
- CN118097241A CN118097241A CN202410162530.XA CN202410162530A CN118097241A CN 118097241 A CN118097241 A CN 118097241A CN 202410162530 A CN202410162530 A CN 202410162530A CN 118097241 A CN118097241 A CN 118097241A
- Authority
- CN
- China
- Prior art keywords
- feature
- infrared image
- image
- channel
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003331 infrared imaging Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000002156 mixing Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002401 inhibitory effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 6
- 238000013461 design Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统,包括:将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;通过生成器根据输入的红外图像重建出对应的可见光图像;利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出。本发明达到降低模型的复杂性并提高收敛性、扩大研究场景以及实现高分辨红外图像真彩转换的目的。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统。
背景技术
红外成像即根据热力学零度以上一切物体都在发射热红外线的原理,通过感应红外线然后呈现出肉眼可见的图像。红外成像的发展来源主要是军事需求,近年来,随着机器视觉技术的迅速发展及热成像精度的提高,红外热成像技术的研究与应用已逐渐扩大到现代工业、农业、生物、食品和医疗等领域,呈现出越来越广泛普及的趋势。
自然界中波长在20-1000μm之间的电磁波称为热红外线(也叫热辐射),只要物体温度在热力学零度(-273℃)之上都可以发出红外光。由于人眼无法识别红外光,因此必需使用特殊的装置实现红外信号的可视化,即红外成像系统。典型的红外成像系统由光学系统、红外探测器和电子处理系统组成。光学系统主要的作用是将目标物体热辐射成像在红外探测器的感光面上,探测器将红外光信号转换成数字信号量,最后通过电子处理系统把数字信号转换成人眼能看到的图像。
红外成像具有高鲁棒性,能够适应不同的天气和光照条件,在军事、安防和辅助驾驶等领域有着广泛的应用前景。但是红外图像对比度较低,且缺乏色彩信息,不利于人眼的视觉感知。因此,在保持红外成像对天气/光照宽适应优势的基础上,对红外图像进行彩色化提升,将有助于提升人们对红外图像的感知和理解,具有重要的研究意义和实用价值。
但是目前的红外图像彩色化方法存在明显不足,包括:
(1)大多基于生成对抗网络,并通过训练多个生成器和判别器来实现无监督的红外图像真彩转换,模型较为复杂且收敛性差;
(2)公开的红外真彩数据集较少,导致研究场景单一;
(3)当前红外图像真彩转换方法都是在低分辨图像上进行转换,无法适用于高分辨红外图像真彩转换。
发明内容
为了克服现有技术的不足,本发明提供一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统,用于解决现有的红外图像彩色化方法所存在的模型复杂且收敛性差、研究场景单一以及不适用于高分辨红外图像真彩转换的技术问题,从而达到降低模型的复杂性并提高收敛性、扩大研究场景以及实现高分辨红外图像真彩转换的目的。
为解决上述问题,本发明所采用的技术方案如下:
一种基于残差注意力网络和对比学习的红外图像真彩转换方法,包括以下步骤:
将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;
利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;
通过生成器根据输入的红外图像重建出对应的可见光图像;
利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出;
其中,所述生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
作为本发明优选的实施方式,在捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合时,包括:
通过深度卷积对每个输入通道使用单个卷积核进行卷积操作,通过逐点卷积利用1×1卷积来组合所述深度卷积的输出;
其中,所述基于空间和通道注意力的残差注意力模块的组成主要是深度可分离卷积,所述深度可分离卷积的结构包括:所述深度卷积和所述逐点卷积两部分,所述深度卷积用于捕捉输入的红外图像的空间特征,所述逐点卷积用于将不同特征之间进行混合和整合。
作为本发明优选的实施方式,在利用通道注意力模块使信息量较大的通道得到更多的重视时,包括:
通过自动学习的方式,获取特征图的每个通道的重要程度;
根据所述重要程度给每个特征赋予一个权重值,提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。
作为本发明优选的实施方式,在根据所述重要程度给每个特征赋予一个权重值时,包括:
利用SENet通道注意力模块通过全局平均池化对特征图进行压缩,将每个二维的特征通道变成一个实数,并且输出的维度和输入的特征通道数相匹配;
经过FC-ReLu-FC-Sigmoid系列操作实现激励,以学习每个通道的权重,并通过所述权重对特征进行重新加权;
将Excitation输出的权重作为经过特征选择后的每个特征通道的重要性,将所述重要性通过乘法逐通道加权到先前的特征上,得到最终的特征表示;
其中,所述通道注意力模块为所述SENet通道注意力模块。
作为本发明优选的实施方式,在利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力时,包括:
对于给定的特征图分别通过三个Conv-BN-ReLU序列操作得到三个特征图/>和/>
将重塑后特征B的转置与重塑后的特征C执行矩阵乘法得到空间注意力矩阵
把S和重塑后的特征D做乘积再乘以尺度系数得到特征并将大小重塑为C×H×W;
将重塑后的特征O与A逐元素求和得到最后的输出
其中,C表示通道数,H表示图像的高,W表示图像的宽,N=H×W。
作为本发明优选的实施方式,所述生成器在采用编码-解码的结构时,包括:
将镜像填充、卷积层和两层下采样操作组成编码部分;
其中,镜像填充为3,卷积操作的卷积核尺寸为7×7;
下采样利用两层卷积来完成,卷积操作的卷积核尺寸为3×3,步长为2,边缘零填充为1;
将两层与下采样对应的反卷积、镜像填充和一层卷积组成解码部分;
其中,卷积核、步长、边缘零填和镜像填充均与下采样相同;
在组成所述生成器时,包括:
在所述下采样和所述上采样之间采用6层残差注意力模块进行深层特征学习。
作为本发明优选的实施方式,在通过生成器根据输入的红外图像重建出对应的可见光图像时,包括:
通过所述生成器学习输入的红外图像和可见光图像一个方向的映射关系,并利用最大化相应输入和输出图像之间的相互信息,来保持转换前后图像内容上的一致性,同时通过对抗性损失来实现红外图像到可见光图像的转换。
作为本发明优选的实施方式,在针对每个小块进行真实性评估时,包括:
在PatchGAN判别器中引入金字塔池化模块,通过所述金字塔池化模块生成多个尺度的特征图,并将所述多个尺度的特征图进行级联,以获得更全面的空间信息;
其中,所述多尺度判别器为所述PatchGAN判别器。
作为本发明优选的实施方式,在生成多个尺度的特征图并进行级联时,包括:
采用1×1、2×2、3×3和6×6四种不同尺寸的池化操作得到四种尺寸的特征图;
对所述四种尺寸的特征图进行卷积核为1×1的卷积操作以减少通道数;
通过上采样操作以获得经过池化操作所得到的四种尺寸的特征图,并在通道上与池化操作前的特征图进行拼接。
一种基于残差注意力网络和对比学习的红外图像真彩转换系统,包括:
特征提取单元:用于将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;
增强单元:用于利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;
图像生成单元:用于通过生成器根据输入的红外图像重建出对应的可见光图像;
评估单元:用于利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出;
其中,所述生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
相比现有技术,本发明的有益效果在于:
(1)本发明利用对比学习的方法实现无监督红外图像真彩转换,避免了使用多个生成器和判别器带来的模型复杂问题。设计了基于残差注意力模块的主干网络,通过残差连接有效连接网络中不同的特征层特征,增大浅层网络和深层网络之间的信息传递,促进网络的快速收敛。通过引入通道和空间注意力机制使网络更加关注携带有用信息较多的特征通道和空间像素,提高模型的性能和效率。抛弃了像素级约束,采用空间相关损失作为转换模型的结构约束,实现改变跨领域外观的同时有效保持场景结构的一致性。实验结果表明,本发明所提供的方法在真实数据集上取得了良好的效果,转换得到的真彩图像细节更加清晰,内容保留的更加完整;
(2)本发明将对比学习的方法应用到红外图像彩色化领域,模型相比CycleGAN更加简单,只需要训练一个生成器和一个判别器。此外,设计了多尺度特征融合的判别器网络,提升判别器的鉴别能力,进而增强生成器的图像生成水平。
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
图1是本发明所提供的基于残差注意力网络和对比学习的红外图像真彩转换方法的步骤图;
图2是本发明实施例的红外图像真彩转换网络整体架构图;
图3是本发明实施例的残差注意力模块结构图;
图4是本发明实施例的普通卷积和深度可分离卷积结构图;
图5是本发明实施例的特征图样本;
图6是本发明实施例的SE模块结构图;
图7是本发明实施例的空间注意力模块结构图;
图8是本发明实施例的生成器结构图;
图9是本发明实施例的判别器架构图;
图10是本发明实施例的金字塔池化模块结构图;
图11是本发明实施例的数据集实例图。
具体实施方式
本发明所提供的基于残差注意力网络和对比学习的红外图像真彩转换方法,如图1所示,包括以下步骤:
步骤S1:将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;
步骤S2:利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;
步骤S3:通过生成器根据输入的红外图像重建出对应的可见光图像;
步骤S4:利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出;
其中,生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
在上述步骤S1中,在捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合时,包括:
通过深度卷积对每个输入通道使用单个卷积核进行卷积操作,通过逐点卷积利用1×1卷积来组合所述深度卷积的输出;
其中,基于空间和通道注意力的残差注意力模块的组成主要是深度可分离卷积,深度可分离卷积的结构包括:深度卷积和逐点卷积两部分,深度卷积用于捕捉输入的红外图像的空间特征,逐点卷积用于将不同特征之间进行混合和整合。
在上述步骤S2中,在利用通道注意力模块使信息量较大的通道得到更多的重视时,包括:
通过自动学习的方式,获取特征图的每个通道的重要程度;
根据重要程度给每个特征赋予一个权重值,提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。
进一步地,在根据重要程度给每个特征赋予一个权重值时,包括:
利用SENet通道注意力模块通过全局平均池化对特征图进行压缩,将每个二维的特征通道变成一个实数,并且输出的维度和输入的特征通道数相匹配;
经过FC-ReLu-FC-Sigmoid系列操作实现激励,以学习每个通道的权重,并通过权重对特征进行重新加权;
将Excitation输出的权重作为经过特征选择后的每个特征通道的重要性,将重要性通过乘法逐通道加权到先前的特征上,得到最终的特征表示;
其中,通道注意力模块为SENet通道注意力模块。
在上述步骤S2中,在利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力时,包括:
对于给定的特征图分别通过三个Conv-BN-ReLU序列操作得到三个特征图/>和/>
将重塑后特征B的转置与重塑后的特征C执行矩阵乘法得到空间注意力矩阵
把S和重塑后的特征D做乘积再乘以尺度系数得到特征并将大小重塑为C×H×W;
将重塑后的特征O与A逐元素求和得到最后的输出
其中,C表示通道数,H表示图像的高,W表示图像的宽,N=H×W。
在上述步骤S3中,生成器在采用编码-解码的结构时,包括:
将镜像填充、卷积层和两层下采样操作组成编码部分;
其中,镜像填充为3,卷积操作的卷积核尺寸为7×7;
下采样利用两层卷积来完成,卷积操作的卷积核尺寸为3×3,步长为2,边缘零填充为1;
将两层与下采样对应的反卷积、镜像填充和一层卷积组成解码部分;
其中,卷积核、步长、边缘零填和镜像填充均与下采样相同;
在组成生成器时,包括:
在下采样和上采样之间采用6层残差注意力模块进行深层特征学习。
在上述步骤S3中,在通过生成器根据输入的红外图像重建出对应的可见光图像时,包括:
通过生成器学习输入的红外图像和可见光图像一个方向的映射关系,并利用最大化相应输入和输出图像之间的相互信息,来保持转换前后图像内容上的一致性,同时通过对抗性损失来实现红外图像到可见光图像的转换。
在上述步骤S4中,在针对每个小块进行真实性评估时,包括:
在PatchGAN判别器中引入金字塔池化模块,通过金字塔池化模块生成多个尺度的特征图,并将多个尺度的特征图进行级联,以获得更全面的空间信息;
其中,多尺度判别器为PatchGAN判别器。
进一步地,在生成多个尺度的特征图并进行级联时,包括:
采用1×1、2×2、3×3和6×6四种不同尺寸的池化操作得到四种尺寸的特征图;
对四种尺寸的特征图进行卷积核为1×1的卷积操作以减少通道数;
通过上采样操作以获得经过池化操作所得到的四种尺寸的特征图,并在通道上与池化操作前的特征图进行拼接。
本发明所提供的基于残差注意力网络和对比学习的红外图像真彩转换系统,包括:特征提取单元、增强单元、图像生成单元以及评估单元。
特征提取单元:用于将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合。
增强单元:用于利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力。
图像生成单元:用于通过生成器根据输入的红外图像重建出对应的可见光图像。
评估单元:用于利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出。
其中,生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
本发明将对比学习的方法应用到红外图像彩色化领域,模型相比CycleGAN更加简单,只需要训练一个生成器和一个判别器。针对红外图像真彩转换任务,设计了基于残差注意力模块的生成器网络,通过残差连接有效连接网络中不同的特征层特征,增强了特征的可重复性,促进网络的快速收敛;通过引入通道注意力和空间注意力,使网络能够更加关注携带有用信息较多的通道,提升网络的学习能力。此外,设计了多尺度特征融合的判别器网络,提升判别器的鉴别能力,进而增强生成器的图像生成水平。为了完成跨领域外观上改变的同时有效保持场景结构的一致性,抛弃了像素级约束,采用空间相关损失作为红外图像真彩转换模型的结构约束。
以下的实施例是对本发明的进一步说明,但本发明的范围并不限制于此。
在本实施例中,对基于残差注意力网络的红外图像真彩转换网络进行详细介绍,主要包括红外真彩转换网络的整体框架、残差注意力模块的设计、生成器设计和判别器设计。
一、红外图像真彩转换网络的整体框架
红外图像真彩转换网络框架,如图2所示。该网络以红外图像作为输入,通过生成器生成出对应的可见光图像,利用最大化相应输入和输出图像之间的相互信息,来保持转换前后图像内容上的一致性。同时,通过对抗性损失来实现红外图像到可见光图像的转换,只需要学习一个方向的映射,避免了使用反向生成器和反向判别器,可以简化网络模型、减少训练时间。本实施例设计了一种基于残差注意力网络的生成器,旨在学习输入的红外图像和可见光图像之间的映射关系,根据输入的红外图像生成对应的可见光图像。图像中的物体通常具有不同的空间分布和几何形状,为了提高判别器的判别能力,设计了基于金字塔池化模块的PatchGAN,旨在对生成器生成的可见光图像和真实可见光图像做出正确判别。
二、残差注意力模块的设计
为了使模型更加集中地关注重要信息,忽略掉无关紧要的信息,进而提高模型性能,增强模型的特征表达能力,设计了基于空间和通道注意力的残差注意力模块,如图3所示。其中,“PConv”代表逐点卷积,“DConv”代表逐深度卷积,PConv-DConv-PConv构成瓶颈结构,“Conv”代表卷积操作,“PABlock”代表空间注意力模块,“CABlock”代表通道注意力模块,“Concat”代表特征图联合操作。采用残差连接可以加强信息的传递和保留,还可以避免梯度消失,促进网络快速收敛。
残差注意力模块的卷积组成主要是深度可分离卷积。深度可分离卷积是一种轻量级的卷积神经网络结构,它在保证模型准确率的同时,大幅降低了模型的计算复杂度和参数量。深度可分离卷积的结构由深度卷积和逐点卷积两部分组成。其中,深度卷积用于捕捉输入数据的空间特征,而逐点卷积则用于将不同特征之间进行混合和整合。具体来说,深度卷积对每个输入通道使用单个卷积核进行卷积操作,逐点卷积通过1×1卷积来组合深度卷积的输出。普通卷积和深度可分离卷积的结构,如图4所示。
深度可分离卷积是一种计算效率更高的方法,其参数和计算量大约是常规卷积的三分之一,因此可以在相同的参数或计算量下构建更深的神经网络。
三、通道和空间注意力模块
如果深度神经网络对特征图中不同的特征通道和空间像素施加相同大小的权重,网络就会浪费大量计算能力在那些价值较低的特征上,网络的特征表达能力也会受到限制。为了使网络能够更加关注携带有用信息较多的特征通道和空间像素,提升网络的学习能力,在模型中引入了通道注意力和空间注意力机制。通道注意力能够使信息量较大的通道得到更多的重视,空间注意力则通过聚类每个位置的特征以增强网络的表示能力。
不同的特征图所关注的信息通常不相同,信息量也大不相同。如图5所示,(a)为输入图像,(b)为从(a)中提取的4张不同特征图样本。有的特征图注重纹理,而有的特征图注重整体轮廓,携带的信息量也各不相同。因此,对不同的特征图采取不同的重视程度有利于充分展现网络的特征表达能力。
通道注意力通过自动学习的方式,获取特征图的每个通道的重要程度,然后用这个重要程度去给每个特征赋予一个权重值,从而让神经网络重点关注某些特征通道。提升对当前任务有用的特征图的通道,并抑制对当前任务用处不大的特征通道。
SENet是典型的通道注意力结构,通过学习输入特征的通道权重来增强相关信息的响应,从而提高模型的性能。SENet注意力模块的结构,如图6所示。
首先通过全局平均池化对特征图进行压缩,将每个二维的特征通道变成一个实数,并且输出的维度和输入的特征通道数相匹配。紧接着,通过FC(全连接)-ReLu-FC-Sigmoid一系列操作来实现激励效果,以学习每个通道的权重,用于对特征进行重新加权。最后将Excitation输出的权重看作是经过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,得到最终的特征表示。
对于红外图像真彩转换这一任务来说,给定一张待转换的红外图片,图片上的物体在比例、亮度和视图上多种多样的。由于卷积操作会导致局部感受野,因此相同物体的像素对应的特征可能会有一些差异,会使一些物体的转换精度受到影响。因此通过空间注意力机制来探索全局上下文信息,其网络结构如图7所示。具体而言,给定特征图首先分别通过三个Conv-BN-ReLU序列操作得到三个特征图/>和其中C表示通道数,H表示图像的高,W表示图像的宽。其次,将重塑后特征B的转置与重塑后的特征C执行矩阵乘法得到空间注意力矩阵/>其中N=H×W。紧接着把S和重塑后的特征D做乘积再乘以尺度系数得到特征/>并将大小重塑为C×H×W。最后,将重塑后的特征O与A逐元素求和得到最后的输出/>
四、生成器的设计
生成器的目标是根据输入的红外图像重建出对应的可见光图像,在实现红外图像到真彩图像转换的同时,要尽量保留原红外图像的内容和结构信息。生成器结构,如图8所示,采用编码-解码的结构,由下采样、残差注意力模块和上采样组成。编码部分由镜像填充、卷积层和两层下采样操作组成,镜像填充为3,卷积操作的卷积核尺寸为7×7。下采样利用两层卷积来完成,卷积操作的卷积核尺寸为3×3,步长为2,边缘零填充为1。解码部分由两层与下采样对应的反卷积、镜像填充和一层卷积组成,卷积核、步长、边缘零填和镜像填充充均与下采样相同。为了尽可能多地学习输入图像的内容和信息,下采样和上采样之间采用6层残差注意力模块(ResPABlock)进行深层特征学习。
五、多尺度判别器的设计
在生成对抗网络中,判别器的作用是评估生成的样本是否真实。传统的判别器使用全局卷积或全连接层来评估整个图像的真实性,但这可能会导致生成的图像轮廓模糊和细节不自然。而PatchGAN采用了局部判别器的思想,即将输入的图像分成许多小块,并针对每个小块进行真实性评估。相比于全局判别器,PatchGAN可以更细粒度地评估图像的真实性,并且能够更好地捕捉图像的细节信息,于是采用PatchGAN作为判别器网络。为了更好地捕捉到不同尺寸的物体细节,在PatchGAN中引入金字塔池化模块,通过这种方式,可以获取不同尺寸下的图像特征,提高模型的性能和精度。
本实施例设计的判别器Mult_PatchGAN的架构,如图9所示,其中“PPM”代表金字塔池化模块,“Conv”代表卷积操作,卷积操作的卷积核尺寸为3×3,步长为2,边缘零填充为1。
金字塔池化模块可以生成多个尺度的特征图,然后将这些特征图级联起来,以获取更全面的空间信息。金字塔池化模块结构,如图10所示,其中“Pool”代表池化操作,“Upsample”代表上采样操作,“Concat”代表特征图拼接操作。采用1×1、2×2、3×3和6×6四种不同尺寸的池化操作得到四种尺寸的特征图,并对这些尺寸的特征图进行卷积核为1×1的卷积操作来减少通道数,然后采用双线性插值进行上采样操作,即通过上采样来获得经过池化操作所得到的四种尺寸的特征图,并在通道上与池化操作前的特征图进行拼接。
为了验证基于残差注意力网络和对比学习的红外图像真彩转换网络的有效性,本实施例在真实数据集上进行了仿真实验。
实验训练和测试都在英伟达RTX 6000GPU上进行,使用pytorch深度学习框架。图像在被送进神经网络训练之前,都被转换为256×256分辨率。训练时采用的是Adam优化器,总共迭代200次,前100次迭代过程中学习率为0.0002,后100次迭代的学习率从0.0002线性减少到0。
图11展示了数据集中的6组实例,城市、高速公路和监控场景各两组,其中第一行为训练集中的红外图像,第二行为训练集中的可见光图像。
实验结果表明,本实施例所提供的方法在真实数据集上取得了良好的效果,转换得到的真彩图像细节更加清晰,内容保留的更加完整。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,包括以下步骤:
将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;
利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;
通过生成器根据输入的红外图像重建出对应的可见光图像;
利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出;
其中,所述生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
2.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合时,包括:
通过深度卷积对每个输入通道使用单个卷积核进行卷积操作,通过逐点卷积利用1×1卷积来组合所述深度卷积的输出;
其中,所述基于空间和通道注意力的残差注意力模块的组成主要是深度可分离卷积,所述深度可分离卷积的结构包括:所述深度卷积和所述逐点卷积两部分,所述深度卷积用于捕捉输入的红外图像的空间特征,所述逐点卷积用于将不同特征之间进行混合和整合。
3.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在利用通道注意力模块使信息量较大的通道得到更多的重视时,包括:
通过自动学习的方式,获取特征图的每个通道的重要程度;
根据所述重要程度给每个特征赋予一个权重值,提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。
4.根据权利要求3所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在根据所述重要程度给每个特征赋予一个权重值时,包括:
利用SENet通道注意力模块通过全局平均池化对特征图进行压缩,将每个二维的特征通道变成一个实数,并且输出的维度和输入的特征通道数相匹配;
经过FC-ReLu-FC-Sigmoid系列操作实现激励,以学习每个通道的权重,并通过所述权重对特征进行重新加权;
将Excitation输出的权重作为经过特征选择后的每个特征通道的重要性,将所述重要性通过乘法逐通道加权到先前的特征上,得到最终的特征表示;
其中,所述通道注意力模块为所述SENet通道注意力模块。
5.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力时,包括:
对于给定的特征图分别通过三个Conv-BN-ReLU序列操作得到三个特征图和/>
将重塑后特征B的转置与重塑后的特征C执行矩阵乘法得到空间注意力矩阵
把S和重塑后的特征D做乘积再乘以尺度系数得到特征并将大小重塑为C×H×W;
将重塑后的特征O与A逐元素求和得到最后的输出
其中,C表示通道数,H表示图像的高,W表示图像的宽,N=H×W。
6.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,所述生成器在采用编码-解码的结构时,包括:
将镜像填充、卷积层和两层下采样操作组成编码部分;
其中,镜像填充为3,卷积操作的卷积核尺寸为7×7;
下采样利用两层卷积来完成,卷积操作的卷积核尺寸为3×3,步长为2,边缘零填充为1;
将两层与下采样对应的反卷积、镜像填充和一层卷积组成解码部分;
其中,卷积核、步长、边缘零填和镜像填充均与下采样相同;
在组成所述生成器时,包括:
在所述下采样和所述上采样之间采用6层残差注意力模块进行深层特征学习。
7.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在通过生成器根据输入的红外图像重建出对应的可见光图像时,包括:
通过所述生成器学习输入的红外图像和可见光图像一个方向的映射关系,并利用最大化相应输入和输出图像之间的相互信息,来保持转换前后图像内容上的一致性,同时通过对抗性损失来实现红外图像到可见光图像的转换。
8.根据权利要求1所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在针对每个小块进行真实性评估时,包括:
在PatchGAN判别器中引入金字塔池化模块,通过所述金字塔池化模块生成多个尺度的特征图,并将所述多个尺度的特征图进行级联,以获得更全面的空间信息;
其中,所述多尺度判别器为所述PatchGAN判别器。
9.根据权利要求8所述的基于残差注意力网络和对比学习的红外图像真彩转换方法,其特征在于,在生成多个尺度的特征图并进行级联时,包括:
采用1×1、2×2、3×3和6×6四种不同尺寸的池化操作得到四种尺寸的特征图;
对所述四种尺寸的特征图进行卷积核为1×1的卷积操作以减少通道数;
通过上采样操作以获得经过池化操作所得到的四种尺寸的特征图,并在通道上与池化操作前的特征图进行拼接。
10.一种基于残差注意力网络和对比学习的红外图像真彩转换系统,其特征在于,包括:
特征提取单元:用于将红外成像设备采集到的红外图像输入到红外图像真彩转换网络,利用基于空间和通道注意力的残差注意力模块捕捉输入的红外图像的空间特征,以及将不同特征之间进行混合和整合;
增强单元:用于利用通道注意力模块使信息量较大的通道得到更多的重视,利用空间注意力模块通过聚类每个位置的特征以增强网络的表示能力;
图像生成单元:用于通过生成器根据输入的红外图像重建出对应的可见光图像;
评估单元:用于利用多尺度判别器将生成的可见光图像分成若干小块,并针对每个小块进行真实性评估,并在通过评估后进行输出;
其中,所述生成器采用编码-解码的结构,由下采样、残差注意力模块和上采样组成,从而在实现红外图像到可见光图像转换的同时,尽量保留原红外图像的内容和结构信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162530.XA CN118097241A (zh) | 2024-02-05 | 2024-02-05 | 一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410162530.XA CN118097241A (zh) | 2024-02-05 | 2024-02-05 | 一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118097241A true CN118097241A (zh) | 2024-05-28 |
Family
ID=91164190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410162530.XA Pending CN118097241A (zh) | 2024-02-05 | 2024-02-05 | 一种基于残差注意力网络和对比学习的红外图像真彩转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118097241A (zh) |
-
2024
- 2024-02-05 CN CN202410162530.XA patent/CN118097241A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lan et al. | MADNet: A fast and lightweight network for single-image super resolution | |
CN110570353B (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN112819910B (zh) | 基于双鬼注意力机制网络的高光谱图像重建方法 | |
CN110363068B (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
Zhu et al. | Stacked U-shape networks with channel-wise attention for image super-resolution | |
CN116486074A (zh) | 一种基于局部和全局上下文信息编码的医学图像分割方法 | |
CN113592726A (zh) | 高动态范围成像方法、装置、电子设备和存储介质 | |
CN116993826A (zh) | 一种基于局部空间聚合神经辐射场的场景新视图生成方法 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN112634184A (zh) | 基于融合性卷积神经网络的rgb图像光谱反射率重建方法 | |
Zhu et al. | Multi-stream fusion network with generalized smooth L 1 loss for single image dehazing | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
CN115484410A (zh) | 基于深度学习的事件相机视频重建方法 | |
Pang et al. | Lightweight multi-scale aggregated residual attention networks for image super-resolution | |
Zhang et al. | Light field super-resolution using complementary-view feature attention | |
Wu et al. | A novel perceptual loss function for single image super-resolution | |
CN114332625A (zh) | 基于神经网络的遥感图像彩色化和超分辨率方法及系统 | |
CN117893858A (zh) | 一种融合多层级多尺度与边界信息的图像篡改定位方法 | |
CN117237207A (zh) | 针对动态场景的无鬼影高动态范围光场成像方法 | |
CN117292017A (zh) | 一种草图到图片跨域合成方法、系统及设备 | |
CN117217997A (zh) | 一种基于上下文感知边缘增强的遥感图像超分辨率方法 | |
CN115861062A (zh) | 多尺度学习小波注意力机制网络及图像超分辨率重建方法 | |
Xu et al. | Attention‐based multi‐channel feature fusion enhancement network to process low‐light images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |