CN116485934A - 一种基于CNN和ViT的红外图像彩色化方法 - Google Patents

一种基于CNN和ViT的红外图像彩色化方法 Download PDF

Info

Publication number
CN116485934A
CN116485934A CN202310477749.4A CN202310477749A CN116485934A CN 116485934 A CN116485934 A CN 116485934A CN 202310477749 A CN202310477749 A CN 202310477749A CN 116485934 A CN116485934 A CN 116485934A
Authority
CN
China
Prior art keywords
image
training
module
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310477749.4A
Other languages
English (en)
Inventor
詹伟达
陈宇
葛薇
唐雁峰
李国宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Research Institute Of Changchun University Of Technology
Original Assignee
Chongqing Research Institute Of Changchun University Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Research Institute Of Changchun University Of Technology filed Critical Chongqing Research Institute Of Changchun University Of Technology
Priority to CN202310477749.4A priority Critical patent/CN116485934A/zh
Publication of CN116485934A publication Critical patent/CN116485934A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,尤其为一种基于CNN和ViT的红外图像彩色化方法,该方法包括如下步骤:S1,构建网络模型:整个生成对抗网络包括生成器和鉴别器;S2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;S3,训练网络模型:训练红外图像彩色化模型,将S2中准备好的数据集进行预处理,调整数据集中每个图像的尺寸,固定输入图像的大小,将处理好的数据集输入到S1中构建好的网络模型中进行训练。本发明采用的网络结构是基于CNN和ViT的生成对抗网络结构,结合了CNN获取局部特征和ViT捕获长程依赖关系的优点,获得更大的感受野,降低了计算复杂度,充分利用了全局信息和局部信息,提高了彩色化能力,能够生成高质量的彩色化图像。

Description

一种基于CNN和ViT的红外图像彩色化方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于CNN和ViT的红外图像彩色化方法。
背景技术
将红外图像转换为可见光图像是一项非常有挑战性的任务。在灰度图像彩色化中,只需要将亮度值转换为色度值;而在红外图像彩色化中,需要在给定热特征的情况下同时估计亮度和色度。这导致红外图像彩色化的结果看起来不够真实,存在严重的细节模糊和纹理扭曲等问题。常见的彩色化方法一般采用卷积神经网络(Convolutional NeuralNetwork,CNN)和生成对抗网络(Generative Adversarial Network,GAN)实现彩色化功能。一方面CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位置,网络都能检测到这些特征。尽管CNN存在很多优势,但是其感受野通常很小,不利于捕获全局特征,会产生较为模糊的边缘以及细节信息,导致彩色化质量较差。而Vision Transformer(ViT)通过自注意力模块可以获取长程依赖关系,扩大图像感受野,能够捕捉到更多的上下文信息。但是ViT中自注意力模块的计算和开销与输入分辨率呈二次关系,不可避免地会带来GPU内存不足和计算效率低下的问题。
中国专利公开号为“CN115170430A”,名称为“基于两阶段条件生成对抗网络的近红外图像着色方法”,首先获取近红外灰度图像;其次构建近红外图像的灰度预处理模块;然后利用近红外图像的灰度预处理模块对近红外灰度图像进行预处理,得到灰度图像;随后构建图像着色模块;接着利用图像着色模块对着色生成图像和训练图像提取到的颜色特征向量进行判别,得到判别结果用于训练图像着色模块;最后对灰度图像进行着色处理,得到着色生成图像;该方法仅使用CNN去实现图像的彩色化,网络常常要设计得很深很宽,这使计算复杂度和存储容量占用率都居高不下;并且CNN对全局语义信息的提取不够完善,降低图像的彩色化质量。因此,如何有效地将CNN和ViT结合实现高质量的彩色化结果是本领域技术人员亟需解决的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于CNN和ViT的红外图像彩色化方法,解决了现有的红外图像彩色化方法得到的彩色化图像质量差和计算复杂度高的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种基于CNN和ViT的红外图像彩色化方法,该方法具体包括如下步骤:
S1,构建网络模型:整个生成对抗网络包括生成器和鉴别器;
S2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;
S3,训练网络模型:训练红外图像彩色化模型,将S2中准备好的数据集进行预处理,调整数据集中每个图像的尺寸,固定输入图像的大小,将处理好的数据集输入到S1中构建好的网络模型中进行训练;
S4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;
S5,微调模型:用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数,进一步提高模型的红外图像彩色化能力;最终使得模型对红外图像彩色化的效果更好;
S6,保存模型:将网络训练完成后,需要将网络中所有参数保存,之后用将要彩色化的红外图像输入到网络中就可以得到彩色化好的图像;该网络对输入图像大小没有要求,任意尺寸均可。
进一步地,所述生成器包括浅层特征提取模块、卷积耦合模块、Transformer模块、卷积层、上采样模块和图像重建模块;
所述浅层特征提取模块,用于利用卷积块对图像进行浅层特征提取;
所述卷积耦合模块,用于减小特征图的大小,更好地提取局部信息;
所述Transformer模块,主要由深度多头自注意力模块和局部特征前馈网络;用于对特征图进行特征转换,生成多尺度特征,更容易地捕获长程依赖关系和局部特征;
所述卷积层,用于丰富通道信息;
所述上采样模块,用于对特征图进行跨通道的融合,逐步恢复特征图大小;
所述图像重建模块,用于恢复通道数量,重建高质量的红外彩色化图像。
进一步地,所述鉴别器包括多个卷积块、Transformer模块和S型函数,增加Transformer模块用于加强了鉴别器的鉴别能力,促进生成器的生成能力,有助于快速收敛。
进一步地,第一红外图像数据集为KAIST数据集,将KAIST数据集打乱,构造出未配对的KAIST数据集,通过对数据集中图像进行无监督的训练。
进一步地,在训练网络模型中预设阈值包括损失函数预设值、训练次数预设值。
进一步地,损失函数为复合损失函数,生成器采用的损失函数包括合成损失,对抗损失和PatchNCE损失;鉴别器采用对抗损失。
进一步地,在训练网络模型过程中还包括通过评价指标评估算法彩色化结果的质量和图像失真程度。
进一步地,所述第二红外图像数据集为FLIR数据集。
一种基于CNN和ViT的红外图像彩色化系统,包括:
图像获取模块,用于获取待彩色化图像;
图像处理模块,用于对待彩色化图像进行预处理,并分为训练集和测试集;
模型训练模块,用于将处理好的待彩色化训练集图像输入到设计好的网络中进行训练,利用训练好的网络对待彩色化测试集图像的每个像素值进行预测,最终生成彩色化图像;
质量评估模块,用于评估最终生成的彩色化图像质量是否满足预设质量要求;若满足预设质量要求,则将生成的彩色化图像作为最终的彩色化效果;若不满足预设质量要求,则启动质量提升模块;
质量提升模块,用于重新获取数据集,并利用新的数据集继续训练模型,利用重新训练后的网络重新生成待彩色化图像对应的彩色化图像,然后返回质量评估模块。
(三)有益效果
与现有技术相比,本发明提供了一种基于CNN和ViT的红外图像彩色化方法,具备以下有益效果:
1、本发明采用的网络结构是基于CNN和ViT的生成对抗网络结构,结合了CNN获取局部特征和ViT捕获长程依赖关系的优点,获得更大的感受野,降低了计算复杂度,充分利用了全局信息和局部信息,提高了彩色化能力,能够生成高质量的彩色化图像。
2、本发明在Transformer模块一、Transformer模块二和Transformer模块三中使用组卷积,利用图像块内部的局部关系和结构信息,更好地提取局部信息。
3、本发明在深度多头自注意力模块中使用深度卷积层、线性层一、线性层二和线性层三,可以有效地减少索引值(K)和内容值(V)的空间大小,减轻计算开销。
4、本发明在局部特征前馈网络中使用深度卷积层,降低了计算成本,并增加跳跃链接提高梯度跨层的传播能力,以便于获得更好的彩色化效果。
5、本发明在鉴别器中加入Transformer模块,加强了鉴别器的鉴别能力,促进生成器的生成能力,有助于快速收敛。
6、本发明提出了一种由合成损失、对抗损失和PatchNCE损失组成的复合损失函数,它可以提高彩色化图像的质量,生成精细的局部细节,恢复语义和纹理信息。
附图说明
图1为本发明流程图;
图2为本发明生成对抗网络的生成器结构图;
图3为本发明浅层特征提取模块的具体组成示意图;
图4为本发明卷积耦合模块一、卷积耦合模块二、卷积耦合模块三和卷积耦合模块四中每一个模块的具体组成示意图;
图5为本发明Transformer模块一、Transformer模块二和Transformer模块三中每一个模块的具体组成示意图;
图6为本发明深度多头自注意力模块的具体组成示意图;
图7为本发明局部特征前馈网络的具体组成示意图;
图8为本发明上采样模块一、上采样模块二、上采样模块三和上采样模块四中每一个模块的具体构成示意图;
图9为本发明所有的卷积块的具体构成示意图;
图10为本发明生成对抗网络的鉴别器结构图;
图11为本发明提出方法的相关指标对比示意图;
图12为本发明红外图像彩色化系统的主要模块示意图;
图13为本发明实现红外图像彩色化方法的电子设备的内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-13所示,本发明一个实施例提出的一种基于CNN和ViT的红外图像彩色化方法的流程图,该方法具体包括如下步骤:
S1,构建网络模型;整个生成对抗网络包括生成器和鉴别器;生成器由浅层特征提取模块、卷积耦合模块一、卷积耦合模块二、Transformer模块一、卷积耦合模块三、Transformer模块二、卷积耦合模块四、Transformer模块三、卷积层一、上采样模块一、上采样模块二、上采样模块三、上采样模块四和图像重建模块组成;浅层特征提取模块对图像进行浅层特征提取;卷积耦合模块一、卷积耦合模块二、卷积耦合模块三和卷积耦合模块四减小特征图的大小,更好地提取局部信息;Transformer模块一、上采样模块二和Transformer模块三对特征图进行特征转换,生成多尺度特征,更容易地捕获长程依赖关系和局部特征;卷积层一用来丰富通道信息;上采样模块一、上采样模块二、上采样模块三和上采样模块四对特征图进行跨通道的融合,逐步恢复特征图大小;图像重建模块恢复通道数量,重建高质量的红外彩色化图像;浅层特征提取模块由卷积块一、卷积块二和卷积块三组成;卷积耦合模块由卷积块一、卷积层一和卷积层二组成;Transformer模块由组卷积层、层归一化层一、深度多头自注意力模块、层归一化层二和局部特征前馈网络组成;深度多头自注意力模块由深度卷积层、线性层一、线性层二、线性层三和多头自注意力模块组成;局部特征前馈网络由卷积层一、深度卷积层和卷积层二组成;上采样模块由拼接操作、转置卷积层和卷积块组成;图像重建模块由卷积层一、加操作、卷积层二和T型函数组成;每个卷积块由卷积层、层归一化层和G型函数组成,卷积核的大小统一为n×n;最后得到特征图的大小与输入图像大小保持一致;鉴别器由卷积块一、卷积块二、Transformer模块一、卷积块三、Transformer模块二、卷积块四、卷积块五和S型函数组成;在中间的卷积块加入Transformer模块,加强了鉴别器的鉴别能力,促进生成器的生成能力,有助于快速收敛;将生成器生成的红外彩色化图像与数据集中的可见光彩色图像输入鉴别器中,鉴别器输出真假概率信息判断输入图像是否真实;
S2,准备数据集;对整个生成对抗网络先用红外图像数据集一进行训练;预训练过程中红外图像数据集使用KAIST数据集;将KAIST数据集打乱,构造出未配对的KAIST数据集,通过对数据集中图像进行无监督的训练;
S3,训练网络模型;训练红外图像彩色化模型,将S2中准备好的数据集进行预处理,调整数据集中每个图像的尺寸,固定输入图像的大小,将处理好的数据集输入到S1中构建好的网络模型中进行训练;
S4,选择最小化损失函数值和最优评估指标;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;在训练过程中损失函数选择使用复合损失函数,生成器采用合成损失,对抗损失和PatchNCE损失,鉴别器采用对抗损失;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量;合适的评估指标选择峰值信噪比(PSNR)、结构相似性(SSIM)、感知图像相似度(LPIPS)和自然图像质量评估(NIQE),能够有效地评估算法彩色化结果的质量和图像失真程度,衡量彩色化网络的作用;
S5,微调模型;用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数,进一步提高模型的红外图像彩色化能力;最终使得模型对红外图像彩色化的效果更好;在微调模型参数过程中使用FLIR数据集;
S6,保存模型:将网络训练完成后,需要将网络中所有参数保存,之后用将要彩色化的红外图像输入到网络中就可以得到彩色化好的图像;该网络对输入图像大小没有要求,任意尺寸均可;
如果进行红外图像彩色化操作时,直接将图像输入到网络中即可得到最终的彩色化图像;
本发明还提供了一种基于CNN和ViT的红外图像彩色化系统,所述系统包括:
图像获取模块,用于获取待彩色化图像;
图像处理模块,用于对待彩色化图像进行预处理,并分为训练集和测试集;
模型训练模块,用于将处理好的待彩色化训练集图像输入到设计好的网络中进行训练,利用训练好的网络对待彩色化测试集图像的每个像素值进行预测,最终生成彩色化图像;
质量评估模块,用于评估最终生成的彩色化图像质量是否满足预设质量要求;若满足预设质量要求,则将生成的彩色化图像作为最终的彩色化效果;若不满足预设质量要求,则启动质量提升模块;
质量提升模块,用于重新获取数据集,并利用新的数据集继续训练模型,利用重新训练后的网络重新生成待彩色化图像对应的彩色化图像,然后返回质量评估模块;
本发明还提供了一种基于CNN和ViT的红外图像彩色化的电子设备,所述设备包括:一个或多个处理器;存储系统,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的红外图像彩色化方法;
本发明还提供了一种计算机可读存储介质,其存储有计算机程序,运行所述计算机程序可执行本发明所提供的红外图像彩色化方法。
实施例2
如图1所示,一种基于CNN和ViT的红外图像彩色化方法,该方法具体包括如下步骤:
S1,构建网络模型;
如图2所示,生成器由浅层特征提取模块、卷积耦合模块一、卷积耦合模块二、Transformer模块一、卷积耦合模块三、Transformer模块二、卷积耦合模块四、Transformer模块三、卷积层一、上采样模块一、上采样模块二、上采样模块三、上采样模块四和图像重建模块组成;其中浅层特征提取模块对图像进行浅层特征提取,由卷积块一、卷积块二和卷积块三组成,卷积块一和卷积块三的卷积核大小为1×1,卷积块二的卷积核大小为3×3,步长均为1,浅层特征提取模块的具体构成如图3所示;卷积耦合模块减小特征图的大小,更好地提取局部信息,由卷积块一、卷积层一和卷积层二组成,卷积块一的卷积核大小为3×3,步长为2,卷积层一和卷积层二的卷积核大小为1×1,步长为1,每一个卷积耦合模块的具体构成如图4所示;Transformer模块对特征图进行特征转换,生成多尺度特征,更容易地捕获长程依赖关系和局部特征,由组卷积层、层归一化层一、深度多头自注意力模块、层归一化层二和局部特征前馈网络组成,组卷积层的卷积核大小为3×3,步长为1,每一个Transformer模块的具体构成如图5所示;深度多头自注意力模块由深度卷积层、线性层一、线性层二、线性层三和多头自注意力模块组成,深度卷积层的卷积核大小为4×4,步长为2,深度多头自注意力模块的具体构成如图6所示;局部特征前馈网络由卷积层一、深度卷积层和卷积层二组成,卷积层一和卷积层二的卷积核大小为1×1,深度卷积层的卷积核大小为3×3,步长均为1,局部特征前馈网络的具体构成如图7所示;上采样模块对特征图进行跨通道的融合,逐步恢复特征图大小,由拼接操作、转置卷积层和卷积块组成,转置卷积层的卷积核大小为2×2,步长为2,卷积块的卷积核大小为3×3,步长均为1,上采样模块的具体构成如图8所示;图像重建模块恢复通道数量,重建高质量的红外彩色化图像,由卷积层一、加操作、卷积层二和T型函数组成,卷积层一和卷积层一的卷积核大小为1×1,步长为1;卷积块由卷积层,层归一化层和G型函数组成,卷积核大小和步长视情况而定,每一个卷积块的具体构成如图9所示;
如图10所示,鉴别器在中间的卷积块加入Transformer模块,加强了鉴别器的鉴别能力,促进生成器的生成能力,有助于快速收敛;将生成器生成的红外彩色化图像与数据集中的可见光彩色图像输入鉴别器中,鉴别器输出真假概率信息判断输入图像是否真实,由卷积块一、卷积块二、Transformer模块一、卷积块三、Transformer模块二、卷积块四、卷积块五和S型函数组成,卷积块一、卷积块二、卷积块三、卷积块四和卷积块五的卷积核大小为4×4,卷积块一和卷积块五步长为1,卷积块二、卷积块三和卷积块四步长为2;
总的来说,彩色化过程是输入红外图像,经过4次卷积耦合模块减小特征图大小,提取特征,然后经过3次Transformer模块捕获全局信息和局部信息,再经过4次上采样模块恢复特征图大小重建红外彩色化图像,最后将输出的彩色化图像与可见光图像一起输入鉴别器判断是否真实。
为了保证网络的鲁棒性,保留更多的结构信息,充分提取图像特征,本发明使用三种激活函数,分别为G型函数、T型函数和S型函数,生成器最后一层为T型函数,鉴别器最后一层为S型函数,除此之外,生成器和鉴别器的所有损失函数均为G型函数函数;G型函数、T型函数和S型函数定义如下所示:
S2,准备数据集;红外图像数据集使用KAIST数据集;KAIST行人数据集总共包括95328张图像,每张图像都包含RGB彩色图像和红外图像两个版本;数据集分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景;图像大小为640×480;将KAIST数据集打乱,构造出未配对的KAIST数据集,通过对数据集中图像进行无监督的训练;训练集中选择了4755张白天图像,2846张夜晚图像;测试集中选择了1455张白天图像,797张夜晚图像;我们仅用白天的训练集进行训练;将这4755张图像尺寸调整为256×256作为整个网络的输入;KAIST数据集的对抗训练可以确定一组初始化参数,加快后续网络训练进程;
S3,训练网络模型;训练红外图像彩色化模型,将S2中准备好的数据集进行预处理,调整数据集中每个图像的尺寸,固定输入图像的大小,将处理好的数据集输入到步骤1中构建好的网络模型中进行训练;
所述S3中对数据集的图像进行预处理,将同一张图像中进行随机衍射变换,并且裁剪到输入图像的大小,作为整个网络的输入;其中随机大小和位置通过软件算法可以实现;其中使用数据集中处理好的图像作为输入是为了让网络学习更好的特征提取能力,最终达到更好的彩色化效果;
S4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;
所述S4中网络的输出与标签计算损失函数,通过最小化损失函数达到更好的融合效果;在训练过程中损失函数选择使用复合损失函数,生成器采用合成损失、对抗损失和PatchNCE损失,鉴别器采用对抗损失;
合成损失实际是L1损失,通过增加合成损失,可以有效地最小化彩色图像和Ground Truth之间的亮度和对比度差异;如果GAN过于关注合成损失,则除了红外图像中的亮度和对比度将会丢失;为了防止生成器过度表征像素到像素的关系,将添加合成损失的适当权重;合成损失可以表示为:
其中W和H分别表示红外图像的高度和宽度,Iir表示输入的红外图像,Ivis表示Ground Truth,G(·)表示生成器,||·||1表示L1范数;
使用合成损失的彩色化结果将丢失一部分细节内容;为了鼓励网络输出具有更真实细节的彩色结果,采用了对抗性损失;对抗性损失用于使彩色化图像与Ground Truth无法区分,定义为:
其中输入红外图像Iir不仅是生成器的输入,也是鉴别器的输入,作为条件项;
我们采用PatchNCE损失将输入输出对应位置的图像块进行匹配,把同一张图像其他位置的图像块作为负样本,定义为:
其中表示彩色化图像的特征,/>表示红外图像对应特征,/>表示其他特征,L表示总的层数,Sl表示对应层总的图像块数量;
因此生成器的总损失定义为:
Ltotal=λadvLadvsynLsynXLPatchNCE(G,H,X)+λYLPatchNCE(G,H,Y)
其中λadv、λsyn、λX和λY分别表示控制完整损失函数中不同损失份额的权重;权重的设置基于对训练数据集的初步实验;
鉴别器的损失函数定义为:
通过优化生成器和鉴别器损失函数,有助于网络学习更清晰的边缘和更详细的纹理,使得彩色化图像的颜色自然,真实度更高,视觉效果更好;
所述S4中合适的评估指标选择峰值信噪比(PSNR)、结构相似性(SSIM)、感知图像相似度(LPIPS)和自然图像质量评估(NIQE),峰值信噪比是基于对应像素点间的误差,即基于误差敏感的图像质量评价;结构相似性则是从亮度、对比度和结构三方面度量图像相似性,是一种用以衡量两张数位影像相似程度的指标;感知图像相似度学习生成图像到Ground Truth的反向映射强制生成器学习从假图像中重构真实图像的反向映射,并优先处理它们之间的感知相似度;自然图像质量评估基于一组“质量感知”特征,并将其拟合到多元高斯模型中;质量感知特征源于一个简单但高度正则化的自然统计特征模型;然后,将给定的测试图像的自然图像质量评估指标表示为从测试图像中提取的自然统计特征的多元高斯模型与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离;峰值信噪比、结构相似性、感知图像相似度和自然图像质量评估定义如下:
其中μx,μy分别表示图像x和y的均值和方差,和/>分别表示图像x和y的标准差,σxy表示图像x和y的协方差,C1和C2为常数,d为x0与x之间的距离,wl为可训练权重参数,v1,v2,∑1和∑2分别表示自然多元高斯模型与失真图像多元高斯模型的均值向量和协方差矩阵;
设定训练次数为400,前200次训练过程的学习率设置为0.0002,后200次训练过程的学习率从0.0002逐渐递减到0;每次输入到网络图像数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图像数量在4-8区间内,可以使网络训练更加稳定且训练结果更好,能保证网络快速拟合;网络参数优化器选择Adam优化器;它的优点主要在于实现简单,计算高效,对内存需求少,参数的更新不受梯度的伸缩变换影响,使得参数比较平稳;当鉴别器判断假图的能力与生成器生成图像欺骗过鉴别器的能力平衡时,认为网络已基本训练完成;
S5,微调模型;用红外图像数据集二对模型进行训练和微调,在微调模型参数过程中使用FLIR数据集;FLIR数据集有8862个未对齐的可见光和红外图像对,包含丰富的场景,如道路、车辆、行人等等;这些图像是FLIR视频中极具代表性的场景;在这个数据集中,数据本身就是未配对的,我们选择3918个图像对用于训练,428个图像对用于测试;
S6,保存模型:将网络训练完成后,需要将网络中所有参数保存,之后用将要彩色化的红外图像输入到网络中就可以得到彩色化好的图像;该网络对输入图像大小没有要求,任意尺寸均可;
其中,卷积、激活函数、拼接操作和批归一化等的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到;
本发明通过构建一种基于CNN和ViT的红外图像彩色化方法,可以将红外图像直接生成彩色化图像,不再经过中间其他步骤,避免了人工手动设计相关彩色化规则;在相同条件下,通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性;现有技术和本发明提出方法的相关指标对比如图11所示;
从图11中可知,本发明提出的方法比现有方法拥有更高的峰值信噪比、更高的结构相似性、更低的感知图像相似度、更低的自然图像质量评估和更少的GPU内存占用,这些指标也进一步说明了本发明提出的方法具有更好的彩色化质量和更低的计算复杂度;
如图12所示,本发明还提供了一种基于CNN和ViT的红外图像彩色化系统,主要包括图像获取模块、图像处理模块、模型训练模块、质量评估模块和质量提升模块;
图像获取模块,用于获取待彩色化图像;
图像处理模块,用于对待彩色化图像进行预处理,并分为训练集和测试集;
模型训练模块,用于将处理好的待彩色化训练集图像输入到设计好的网络中进行训练,利用训练好的网络对待彩色化测试集图像的每个像素值进行预测,最终生成彩色化图像;
质量评估模块,用于评估最终生成的彩色化图像质量是否满足预设质量要求;若满足预设质量要求,则将生成的彩色化图像作为最终的彩色化效果;若不满足预设质量要求,则启动质量提升模块;
质量提升模块,用于重新获取数据集,并利用新的数据集继续训练模型,利用重新训练后的网络重新生成待彩色化图像对应的彩色化图像,然后返回质量评估模块。
进一步地,所述图像获取模块获取的待彩色化图像为红外图像,也可以是灰度图像;
进一步地,所述图像处理模块中预处理主要包括图像裁剪、图像翻转和图像平移等,分为训练集和测试集的比例为5:1;
进一步地,所述模型训练模块将每个图像从数据集的任意大小调整到固定大小256×256;一共训练400轮,批量大小为4;最初,在前200个时期,学习率被设置为0.0002,并且在接下来的200个时期,学习率线性下降到0;生成器和鉴别器中的第一卷积层中的滤波器数量被设置为64;我们使用Adam优化器;鉴别器和发生器被交替训练,直到模型收敛;
进一步地,所述质量评估模块的评价指标为峰值信噪比(PSNR)、结构相似性(SSIM)、感知图像相似度(LPIPS)和自然图像质量评估(NIQE)。
如图13所示,本发明还提供了一种基于CNN和ViT的红外图像彩色化电子设备,主要包括存储器、处理器、通信接口和总线;其中,存储器、处理器、通信接口通过总线实现彼此之间的通信连接;
存储器可以是ROM,静态存储设备,动态存储设备或者RAM;存储器可以存储程序,当存储器中存储的程序被处理器执行时,处理器和通信接口用于执行本发明实施例的红外图像彩色化网络的训练方法的各个步骤;
处理器可以采用CPU,微处理器,ASIC,GPU或者一个或多个集成电路,用于执行相关程序,以实现本发明的红外图像彩色化训练系统中的单元所需执行的功能,或者执行本发明的红外图像彩色化训练方法;
处理器还可以是一种集成电路芯片,具有信号的处理能力;在实现过程中,本发明的红外图像彩色化训练方法的各个步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成;上述的处理器,还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;可以实现或者执行本发明的红外图像彩色化方法、步骤及逻辑框图;通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等;结合本发明的红外图像彩色化方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成;软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中;该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本发明的红外图像彩色化训练系统中包括的单元所需执行的功能,或者执行本发明的红外图像彩色化训练方法;
通信接口使用例如但不限于收发器一类的收发系统,来实现系统与其他设备或通信网络之间的通信;例如,可以通过通信接口获取待处理图像或者获取待处理图像的初始特征图;
总线可包括在系统各个部件(例如,存储器、处理器、通信接口)之间传送信息的通路;
本发明还提供了一种基于CNN和ViT的红外图像彩色化的计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质;计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明提供的方法;
应注意,尽管图13所示的电子设备仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,系统还包括实现正常运行所必须的其他器件;同时,根据具体需要,本领域的技术人员应当理解,系统还可包括实现其他附加功能的硬件器件;此外,本领域的技术人员应当理解,系统也可仅仅包括实现本发明实施例所必须的器件,而不必包括图13中所示的全部器件。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于CNN和ViT的红外图像彩色化方法,其特征在于:该方法具体包括如下步骤:
S1,构建网络模型:整个生成对抗网络包括生成器和鉴别器;
S2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;
S3,训练网络模型:训练红外图像彩色化模型,将S2中准备好的数据集进行预处理,调整数据集中每个图像的尺寸,固定输入图像的大小,将处理好的数据集输入到S1中构建好的网络模型中进行训练;
S4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;
S5,微调模型:用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数,进一步提高模型的红外图像彩色化能力;最终使得模型对红外图像彩色化的效果更好;
S6,保存模型:保存模型:将网络训练完成后,需要将网络中所有参数保存,之后用将要彩色化的红外图像输入到网络中就可以得到彩色化好的图像;该网络对输入图像大小没有要求,任意尺寸均可。
2.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:所述生成器包括浅层特征提取模块、卷积耦合模块、Transformer模块、卷积层、上采样模块和图像重建模块;
所述浅层特征提取模块,用于利用卷积块对图像进行浅层特征提取;
所述卷积耦合模块,用于减小特征图的大小,更好地提取局部信息;
所述Transformer模块,主要由深度多头自注意力模块和局部特征前馈网络;用于对特征图进行特征转换,生成多尺度特征,更容易地捕获长程依赖关系和局部特征;
所述卷积层,用于丰富通道信息;
所述上采样模块,用于对特征图进行跨通道的融合,逐步恢复特征图大小;
所述图像重建模块,用于恢复通道数量,重建高质量的红外彩色化图像。
3.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:所述鉴别器包括多个卷积块、Transformer模块和S型函数,增加Transformer模块用于加强了鉴别器的鉴别能力,促进生成器的生成能力,有助于快速收敛。
4.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:第一红外图像数据集为KAIST数据集,将KAIST数据集打乱,构造出未配对的KAIST数据集,通过对数据集中图像进行无监督的训练。
5.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:在训练网络模型中预设阈值包括损失函数预设值、训练次数预设值。
6.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:损失函数为复合损失函数,生成器采用的损失函数包括合成损失,对抗损失和PatchNCE损失;鉴别器采用对抗损失。
7.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:在训练网络模型过程中还包括通过评价指标评估算法彩色化结果的质量和图像失真程度。
8.根据权利要求1所述的一种基于CNN和ViT的红外图像彩色化方法,其特征在于:所述第二红外图像数据集为FLIR数据集。
9.一种基于CNN和ViT的红外图像彩色化系统,其特征在于,包括:
图像获取模块,用于获取待彩色化图像;
图像处理模块,用于对待彩色化图像进行预处理,并分为训练集和测试集;
模型训练模块,用于将处理好的待彩色化训练集图像输入到设计好的网络中进行训练,利用训练好的网络对待彩色化测试集图像的每个像素值进行预测,最终生成彩色化图像;
质量评估模块,用于评估最终生成的彩色化图像质量是否满足预设质量要求;若满足预设质量要求,则将生成的彩色化图像作为最终的彩色化效果;若不满足预设质量要求,则启动质量提升模块;
质量提升模块,用于重新获取数据集,并利用新的数据集继续训练模型,利用重新训练后的网络重新生成待彩色化图像对应的彩色化图像,然后返回质量评估模块。
CN202310477749.4A 2023-04-28 2023-04-28 一种基于CNN和ViT的红外图像彩色化方法 Pending CN116485934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310477749.4A CN116485934A (zh) 2023-04-28 2023-04-28 一种基于CNN和ViT的红外图像彩色化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310477749.4A CN116485934A (zh) 2023-04-28 2023-04-28 一种基于CNN和ViT的红外图像彩色化方法

Publications (1)

Publication Number Publication Date
CN116485934A true CN116485934A (zh) 2023-07-25

Family

ID=87211648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310477749.4A Pending CN116485934A (zh) 2023-04-28 2023-04-28 一种基于CNN和ViT的红外图像彩色化方法

Country Status (1)

Country Link
CN (1) CN116485934A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252936A (zh) * 2023-10-04 2023-12-19 长春理工大学 一种适配多种训练策略的红外图像彩色化方法及系统
CN117315354A (zh) * 2023-09-27 2023-12-29 南京航空航天大学 基于多判别器复合编码gan网络的绝缘子异常检测方法
CN117611600A (zh) * 2024-01-22 2024-02-27 南京信息工程大学 一种图像分割方法、系统、存储介质及设备
CN117876530A (zh) * 2024-03-12 2024-04-12 长春理工大学 一种基于参考图像的红外图像彩色化方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315354A (zh) * 2023-09-27 2023-12-29 南京航空航天大学 基于多判别器复合编码gan网络的绝缘子异常检测方法
CN117315354B (zh) * 2023-09-27 2024-04-02 南京航空航天大学 基于多判别器复合编码gan网络的绝缘子异常检测方法
CN117252936A (zh) * 2023-10-04 2023-12-19 长春理工大学 一种适配多种训练策略的红外图像彩色化方法及系统
CN117611600A (zh) * 2024-01-22 2024-02-27 南京信息工程大学 一种图像分割方法、系统、存储介质及设备
CN117611600B (zh) * 2024-01-22 2024-03-29 南京信息工程大学 一种图像分割方法、系统、存储介质及设备
CN117876530A (zh) * 2024-03-12 2024-04-12 长春理工大学 一种基于参考图像的红外图像彩色化方法及系统
CN117876530B (zh) * 2024-03-12 2024-05-17 长春理工大学 一种基于参考图像的红外图像彩色化方法

Similar Documents

Publication Publication Date Title
CN108830796B (zh) 基于谱空结合和梯度域损失的高光谱图像超分辨重构方法
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
CN116485934A (zh) 一种基于CNN和ViT的红外图像彩色化方法
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN114092330B (zh) 一种轻量化多尺度的红外图像超分辨率重建方法
CN110648334A (zh) 一种基于注意力机制的多特征循环卷积显著性目标检测方法
Dong et al. Generative dual-adversarial network with spectral fidelity and spatial enhancement for hyperspectral pansharpening
CN110473142B (zh) 基于深度学习的单幅图像超分辨率重建方法
CN111951164B (zh) 一种图像超分辨率重建网络结构及图像重建效果分析方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN113313657A (zh) 一种用于低光照图像增强的非监督学习方法和系统
CN116645569A (zh) 一种基于生成对抗网络的红外图像彩色化方法和系统
CN111787187B (zh) 利用深度卷积神经网络进行视频修复的方法、系统、终端
CN116503502A (zh) 一种基于对比学习的未配对红外图像彩色化方法
CN114782298B (zh) 一种具有区域注意力的红外与可见光图像融合方法
CN112767243B (zh) 一种高光谱图像超分辨率的实现方法及系统
CN115760814A (zh) 一种基于双耦合深度神经网络的遥感图像融合方法及系统
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
CN115641391A (zh) 一种基于密集残差和双流注意力的红外图像彩色化方法
Zheng et al. T-net: Deep stacked scale-iteration network for image dehazing
CN115393186A (zh) 一种人脸图像超分辨率重建方法、系统、设备及介质
CN117252936A (zh) 一种适配多种训练策略的红外图像彩色化方法及系统
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN112541566B (zh) 一种基于重构损失的图像翻译方法
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination