CN116137043A - 一种基于卷积和Transformer的红外图像彩色化方法 - Google Patents
一种基于卷积和Transformer的红外图像彩色化方法 Download PDFInfo
- Publication number
- CN116137043A CN116137043A CN202310145265.XA CN202310145265A CN116137043A CN 116137043 A CN116137043 A CN 116137043A CN 202310145265 A CN202310145265 A CN 202310145265A CN 116137043 A CN116137043 A CN 116137043A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- module
- feature
- infrared image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明属于计算机视觉中的图像彩色化技术领域,尤其为一种基于卷积和Transformer的红外图像彩色化方法,一种基于卷积和Transformer的红外图像彩色化方法,具体步骤为:步骤1,构建网络模型:红外图像彩色化模型是包括生成器和鉴别器的生成对抗网络;步骤2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;步骤3,训练网络模型:对红外图像数据集一进行预处理,将处理好的数据集输入到构建好的网络模型中进行训练。本发明方法引入了Transformer模型,Transformer模型可以捕获远距离的特征,从而能够轻松获取图像的全局信息,加强对图像深层信息的提取,增强着色图像的自然度和真实度。
Description
技术领域
本发明涉及计算机视觉中的图像彩色化技术领域,具体为一种基于卷积和Transformer的红外图像彩色化方法。
背景技术
图像彩色化是一个将单通道灰度图像转换为三通道彩色图像的过程,根据图像中的语义信息,添加相应的颜色信息;随着深度学习的兴起,图像彩色化技术已被广泛应用于军事、影视、医疗、国防、监控各大领域;红外图像作为灰度图像中的一类,与普通灰度图像相比,受光照影响弱且抗干扰能力强,具有更为广泛的应用价值;目前的彩色化方法主要采用卷积神经网络,虽然取得了较大的成功,但卷积操作的感受野十分有限,只能计算非常局部的特征,不能计算全局特征,导致彩色化遇到瓶颈;而Transformer作为一种基于注意力机制的编解码体系结构模型,能够很好地提取全局特征,特别是视觉Transformer的提出,使得Transformer体系结构可以应用于计算机视觉领域;从彩色化效果而言,现有的红外图像彩色化算法生成的彩色化图像存在两个关键问题,即纹理细节恢复度差和颜色匹配度低。
中国专利公开号为“CN112365559B”,名称为“一种基于结构相似度的生成对抗网络的红外图像着色方法”,该方法首先构造了一个基于结构相似度的生成对抗网络;其次,对鉴别器采用生成对抗损失函数,对生成器采用生成对抗损失函数、循环一致损失函数、重构损失函数和基于结构相似度的损失函数;最后,利用预先采集的红外图像和彩色图像训练网络到收敛条件,所获得的生成器即可实现对红外图像的着色;该方法得到的彩色化结果不符合人眼视觉效果,纹理细节恢复度差并且颜色匹配度低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于卷积和Transformer的红外图像彩色化方法,解决现有的红外图像彩色化方法得到的图像缺乏纹理细节和颜色匹配度低的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种基于卷积和Transformer的红外图像彩色化方法,具体步骤为:
步骤1,构建网络模型:红外图像彩色化模型是包括生成器和鉴别器的生成对抗网络;
步骤2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;
步骤3,训练网络模型:对红外图像数据集一进行预处理,将处理好的数据集输入到构建好的网络模型中进行训练;
步骤4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;
步骤5,微调模型:用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行红外图像彩色化操作时,直接将图像输入到网络中即可得到最终的着色图像。
进一步地,生成器由局部特征提取模块、全局特征提取模块、特征融合模块一、特征融合模块二、特征融合模块三、特征重构模块一、特征重构模块二、特征重构模块三和输出块组成,用于实现红外图像到红外彩色化图像的转换;
所述局部特征提取模块由卷积块一、卷积块二和卷积块三组成,以局部特征提取的方式对图片进行浅层特征提取,每一个卷积块由卷积、实例归一化、激活函数和池化组成;
所述全局特征提取模块由Transformer模块一、Transformer模块二、Transformer模块三、Transformer模块四、Transformer模块五和Transformer模块六组成,以全局特征提取的方式提取图片远程深层次的语义信息,每一个Transformer模块由块嵌入、数组展平、位置编码和Transformer编码器组成,其中块嵌入由线性映射和层归一化组成,Transformer编码器由层归一化、空间缩减、多头注意和前馈网络组成;
所述特征融合模块一、特征融合模块二和特征融合模块三分别将局部特征提取模块和全局特征提取模块获得的各尺度特征信息进行融合,使网络能够学习到更全面、更细致的语义信息和颜色信息,每一个特征融合模块由卷积、上采样和拼接操作组成;
所述特征重构模块一、特征重构模块二和特征重构模块三分别接收来自特征融合模块三、特征融合模块二和特征融合模块一的融合后的特征信息,将接收到的特征信息进行解码进而重构输出图像,每一个特征重构模块由上采样、卷积、实例归一化和激活函数组成;
所述输出块由卷积、归一化和激活函数组成,输出重建的彩色图像。
进一步地,鉴别器采用马尔可夫鉴别器,由卷积、归一化和激活函数组成,将生成器生成的红外彩色化图像与数据集中的可见光彩色图像输入鉴别器中,鉴别器输出真假概率信息判断输入图像是否真实。
进一步地,红外图像数据集一为KAIST数据集。
进一步地,在数据预处理过程中,首先,调整数据集中每个图像的尺寸,固定输入图像的大小,然后对裁剪后的图像进行归一化处理,加快模型的训练速度,最后进行一个数据增强的操作,改变可见光图像的亮度、对比度和饱和度,为模型的训练提供高质量的数据;在训练过程中对生成器和鉴别器使用单独的学习率,使得每次生成器更新使用更少的鉴别器更新。
进一步地,在训练过程中损失函数选择使用复合损失函数,生成器采用对抗损失、边缘损失和感知损失,鉴别器采用对抗损失。
进一步地,红外图像数据集二为OTCBVS数据集。
(三)有益效果
与现有技术相比,本发明提供了一种基于卷积和Transformer的红外图像彩色化方法,具备以下有益效果:
本发明方法引入了Transformer模型,Transformer模型可以捕获远距离的特征,从而能够轻松获取图像的全局信息,加强对图像深层信息的提取,增强着色图像的自然度和真实度。
本发明在生成器中结合了卷积神经网络和Transformer模型各自的优点,卷积神经网络只关注局部特征,用于浅层特征信息提取,Transformer模型可以捕获远距离的特征,用于深层次特征信息提取,并且将二者获得的特征进行融合,提高了网络的特征提取能力,增强了图像纹理细节的恢复能力。
本发明提出了一种由对抗损失、边缘损失和感知损失组成的复合损失函数,从边缘结构和视觉感知两个方面优化生成彩色图像的质量,使得生成图像的内容与颜色匹配度更高,更符合人眼视觉观察。
本发明在鉴别器中使用谱归一化,并且在训练过程中对生成器和鉴别器使用单独的学习率,使得每次生成器更新使用更少的鉴别器更新成为可能,加快了收敛速度,减少了训练时间,同时提升了网络训练的稳定性。
附图说明
图1为一种基于卷积和Transformer的红外图像彩色化方法流程图;
图2为一种基于卷积和Transformer的红外图像彩色化方法生成对抗网络的生成器结构图;
图3为一种基于卷积和Transformer的红外图像彩色化方法生成对抗网络的鉴别器结构图;
图4为本发明所述Transformer模块一、Transformer模块二、Transformer模块三、Transformer模块四、Transformer模块五和Transformer模块六中每个Transformer模块的具体组成结构图;
图5为本发明所述卷积块一、卷积块二和卷积块三中各个模块的具体组成结构图;
图6为本发明所述特征融合模块一、特征融合模块二和特征融合模块三中各个模块的具体组成结构图;
图7为本发明所述特征重构模块一、特征重构模块二和特征重构模块三中各个模块的具体组成结构图;
图8为现有技术和本发明提出的方法的相关指标对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
发明实施实例提供的一种基于卷积和Transformer的红外图像彩色化方法,该方法具体包括如下步骤:
步骤1,构建网络模型:整个生成对抗网络包括生成器和鉴别器;生成器由局部特征提取模块、全局特征提取模块、特征融合模块一、特征融合模块二、特征融合模块三、特征重构模块一、特征重构模块二、特征重构模块三和输出块组成,实现红外图像到红外彩色化图像的转换;鉴别器采用马尔可夫鉴别器,将生成器生成的红外彩色化图像与数据集中的可见光彩色图像输入鉴别器中,鉴别器输出真假概率信息判断输入图像是否真实;局部特征提取模块由卷积块一、卷积块二和卷积块三组成,以局部特征提取的方式对图片进行浅层特征提取,每一个卷积块由卷积、实例归一化、激活函数和池化组成,卷积核的大小为n×n;全局特征提取模块由Transformer模块一、Transformer模块二、Transformer模块三、Transformer模块四、Transformer模块五和Transformer模块六组成,以全局特征提取的方式提取图片远程深层次的语义信息,每一个Transformer模块由块嵌入、数组展平、位置编码和Transformer编码器组成,其中块嵌入由线性映射和层归一化组成,Transformer编码器由层归一化、空间缩减、多头注意和前馈网络组成,其中多头注意是一种可用于提高普通自注意力层性能的机制,不同的注意力头使用不同的Q、K、V矩阵(Q可以理解为要查询的信息,K可以理解为被查询的向量,V可以理解为查询得到的值),这些矩阵由于随机初始化,可以将训练后的输入向量投影到不同的表示子空间中,并由多个独立的注意力头并行处理,结果向量进行聚合并映射到最终输出;特征融合模块一、特征融合模块二和特征融合模块三分别将局部特征提取模块和全局特征提取模块获得的各尺度特征信息进行融合,使网络能够学习到更全面、更细致的语义信息和颜色信息,每一个特征融合模块由卷积、上采样和拼接操作组成,卷积核大小为n×n;特征重构模块一、特征重构模块二和特征重构模块三分别接收来自特征融合模块三、特征融合模块二和特征融合模块一的融合后的特征信息,将接收到的特征信息进行解码进而重构输出图像,每一个特征重构模块由上采样、卷积、实例归一化和激活函数组成,卷积核大小为n×n;输出块由卷积、归一化和激活函数组成,卷积核大小为n×n,输出重建的彩色图像;最后得到特征图的大小与输入图像大小保持一致;鉴别器由卷积、归一化和激活函数组成,卷积核大小为n×n,输出真假概率信息判断输入图像是否真实。
步骤2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;所述步骤2中所述在预训练过程中使用KAIST数据集对网络进行训练。
步骤3,训练网络模型:将步骤2中准备好的数据集进行预处理,将处理好的数据集输入到步骤1中构建好的网络模型中进行训练;在数据预处理过程中,首先,调整数据集中每个图像的尺寸,固定输入图像的大小,然后对裁剪后的图像进行归一化处理,加快模型的训练速度,最后进行一个数据增强的操作,改变可见光图像的亮度、对比度和饱和度,为模型的训练提供高质量的数据。
步骤4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;在训练过程中损失函数选择使用复合损失函数,生成器采用对抗损失、边缘损失和感知损失,鉴别器采用对抗损失;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量;合适的评估指标选择峰值信噪比(PSNR)、结构相似性(SSIM)和自然图像质量评价器(NIQE),能够有效地评估算法彩色化结果的质量和图像失真程度,衡量彩色化网络的作用。
步骤5,微调模型:用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数,进一步提高模型的红外图像彩色化能力,最终使得模型对图像彩色化的效果更好;在微调模型参数过程中使用OTCBVS数据集。
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行红外图像彩色化操作时,直接将图像输入到网络中即可得到最终的着色图像。
实施例2:
所述步骤1中生成器和鉴别器网络模型结构如图2和3所示;
生成器由局部特征提取模块、全局特征提取模块、特征融合模块、特征重构模块和输出块组成;局部特征提取模块由卷积块一、卷积块二和卷积块三组成,卷积块关注局部特征,用于浅层特征信息提取,卷积块网络结构图如图5所示,包括卷积、实例归一化、激活函数和池化,卷积核大小为3×3,步长为1,激活函数选择ReLU函数,ReLU函数在随机梯度下降算法中能够快速收敛,并且可以有效缓解梯度消失的问题,池化选择最大池化,窗口大小为2×2,步长为2,最大池化在滑动框中返回最大的灰度值,可以很好地提取图像结构,更多地保留纹理信息;全局特征提取模块由Transformer模块一、Transformer模块二、Transformer模块三、Transformer模块四、Transformer模块五、Transformer模块六组成,Transformer模块可以捕获远距离的特征,加强对图像深层信息的提取,进而增强着色图像的自然度和真实度,Transformer模块网络结构图如图4所示,包括块嵌入、数组展平、位置编码、拼接操作、层归一化、空间缩减、多头注意和前馈网络,块嵌入目的是提取图像块的多尺度特征图,数组展平目的是将特征图转换为向量,加入位置编码目的是弥补注意力机制中矩阵运算缺失的位置信息,归一化克服了批量归一化难于处理变长输入的序列任务的缺点,把归一化的范围从跨样本转移到同一样本的隐藏层内部,从而不依赖于输入大小,适用于Transformer编码器,空间缩减在注意力操作之前降低了K和V的空间尺度,从而很大程度降低了内存开销,多头注意将Q、K、V并行计算后在通道维度进行拼接,前馈网络由两个线性层加上ReLU激活函数组成;特征融合模块由特征融合模块一、特征融合模块二和特征融合模块三组成,特征融合模块将局部特征和全局特征融合,提高了网络的特征提取能力,增强了图像纹理细节的恢复能力,特征融合模块网络结构图如图6所示,包括卷积、上采样和拼接操作,卷积一的卷积核大小为1×1,卷积二的卷积核大小为3×3,步长均为1,上采样用于调整输入特征图的大小,拼接操作使用concat;特征重构模块一、特征重构模块二和特征重构模块三由上采样、卷积、实例归一化和激活函数组成,如图7所示,卷积核大小为3×3,步长为1,激活函数选择ReLU函数;输出块由卷积、实例归一化和激活函数组成,卷积核大小为3×3,步长为1,激活函数采用Tanh函数。
鉴别器由卷积、谱归一化和激活函数组成,卷积核大小为4×4,步长为1,谱归一化能够提升网络训练的稳定性,激活函数一、激活函数二、激活函数三和激活函数四均采用LeakyReLU函数,谱归一化和LeakyReLU函数的使用使模型更加稳定,同时有效地实现了梯度的反向传播,激活函数五采用Sigmoid函数,鉴别器的本质就是一个二分类任务,Sigmoid函数适用于二分类任务。
总的来说,彩色化过程是输入红外图像,经过局部特征提取模块提取图像的局部特征信息,再经过全局特征提取模块提取图像的远程全局特征信息,然后将局部信息和全局信息进行融合,融合后的特征信息输入到特征重构模块进行图像重建,再经由输出块输出生成的红外彩色化图像,最后将生成的图像和可见光图像输入鉴别器。
ReLU函数、Tanh函数、LeakyReLU函数和Sigmoid函数定义如下所示:
本发明所采用的sin-cos位置编码公式定义如下所示:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
式中,pos表示序列中每个元素的位置,2i和2i+1表示位置编码的维度。
本发明所采用的带有空间缩减的多头注意的公式定义如下所示:
SR(x)=Norm(Reshape(x,Ri)WS)
前馈网络公式定义如下:
FFN=max(0,XW1+b1)W2+b2
式中,X是输入图像矩阵,Wi是和X相同大小的矩阵,bi是长等于X的通道数的一维向量。
所述步骤2中红外图像数据集使用KAIST数据集,KAIST数据集包含95000张日夜彩色热图像对,这些热红外图像是使用FLIRA35微测辐射热计长波红外相机拍摄的,场景类别为:校园、街道以及乡下的各种常规交通场景,使用其日间训练数据集中的33399个彩色热图像对进行训练,并使用其日间测试数据集中的29179个彩色热图像对进行评估,KAIST数据集的对抗训练可以确定一组初始化参数,加快后续网络训练进程。
所述步骤3中对数据集的图片进行预处理,首先,调整数据集中每个图像的尺寸为256×256,固定输入图像的大小,然后对裁剪后的图像进行归一化处理,加快模型的训练速度,最后进行一个数据增强的操作,改变可见光图像的亮度、对比度和饱和度,为模型的训练提供高质量的数据,其中,调整尺寸、归一化处理和数据增强通过软件算法可以实现;在训练过程中对生成器和鉴别器使用单独的学习率,使得每次生成器更新使用更少的鉴别器更新成为可能,加快了网络收敛速度,减少了训练时间。
所述步骤4中网络的输出与标签计算损失函数,通过最小化损失函数达到更好的融合效果,在训练过程中损失函数选择使用复合损失函数,使得生成图像的内容与颜色匹配度更高,更符合人眼视觉观察,生成器采用对抗损失、边缘损失和感知损失,鉴别器采用对抗损失。
为了鼓励网络输出具有更真实细节的彩色结果,采用对抗损失,对抗损失用于使生成的红外彩色图像与真实的可见光彩色图像无法区分,定义如下:
Ladv=EX[log(1-D(X,G(X)))]
式中,X不仅是生成器的输入,也是鉴别器的输入,作为条件项。
边缘损失用于鼓励生成的图像具有更加清晰的边缘结构,使用易于卷积计算的拉普拉斯边缘算子,这种二阶微分算子能够保留热红外图像中的大部分关键边缘信息,同时排除非关键和意外信息,从边缘结构方面优化生成彩色图像的质量,定义如下:
式中,Δ是边缘算子,∈2是正则项。
边缘损失有时无法确保感知质量和客观指标之间的一致性,因此,采用感知损失来约束输出的红外彩色图像在高维空间中与地面真实相似,从视觉感知方面优化生成彩色图像的质量,具体来说,使用ImageNet数据集上预先训练的VGG-19网络作为感知损失的特征提取器,定义如下:
式中,Cj、Hj和Wj是由VGG-19网络生成的给定特征图的通道数、高度和权重,φj(x)表示处理输入图像时网络φ的第j层激活。
因此,生成器的总损失定义为:
LG=λadvLadv+λedgeLedge+λperceptualLperceptual
式中,λadv、λedge和λperceptual分别表示控制完整目标函数中不同损失份额的权重,权重的设置基于对训练数据集的初步实验。
鉴别器的损失函数定义为:
LD=EX[log(D(X,G(X)))]+EX,Y[log(1-D(X,Y))]
式中,X是输入图像,Y是真实图像,G(X)是生成的图像。
通过优化生成器和鉴别器损失函数,有助于网络学习更清晰的边缘和更详细的纹理信息,使得着色图像的颜色自然,真实度更高,视觉效果更好。
所述步骤4中合适的评估指标选择峰值信噪比(PSNR)、结构相似性(SSIM)和自然图像质量评价器(NIQE)。
峰值信噪比是普遍使用的图像质量客观评价方法,通常简单地通过均方误差来表示,值越大代表图像质量越好,定义如下:
式中,In表示地面真实图像第n个像素值,Pn表示生成图像的第n个像素值。
结构相似性用来比较两幅图像的相似度,取值范围固定在[0,1]区间内,值越趋向0代表两张图像的相似程度越低,反之,代表两张图像的相似程度越高,定义如下:
自然图像质量评价器是一种无参考图像质量评价方法,通过计算失真图像与自然图像拟合参数之间的距离来衡量图像质量,值越小,代表图像质量越好。
设定训练次数为300,前100次训练过程的学习率设置为0.0002,后200次训练过程的学习率从0.0002逐渐递减到0;每次输入到网络图片数量大小为8-16张左右,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量在8-16区间内,可以使网络训练更加稳定且训练结果更好,能保证网络快速拟合;网络参数优化器选择Adam优化器,它的优点主要在于实现简单,计算高效,对内存需求少,参数的更新不受梯度的伸缩变换影响,使得参数比较平稳;当鉴别器判断假图的能力与生成器生成图像欺骗过鉴别器的能力平衡时,认为网络已基本训练完成。
所述步骤5中用红外图像数据集二对模型进行训练和微调,在微调模型参数过程中使用OTCBVS数据集,具体而言,使用该数据集中的一个子集OSU Color-ThermalDatabase,该子集提供了大学校园内繁忙的道路交叉口场景的17089张图像,我们使用1000张图像进行训练,使用200张图像进行测试。
所述步骤6中将网络训练完成后,需要将网络中所有参数保存,之后需要进行红外图像彩色化操作时,直接将图像输入到网络中即可得到最终的着色图像。
其中,卷积、激活函数、拼接操作、归一化和Transformer等的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种基于卷积和Transformer的红外图像彩色化方法,可以将红外图像直接生成彩色化图像,不再经过中间其他步骤,避免了人工手动设计相关彩色化规则,在相同条件下,通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性,现有技术和本发明提出方法的相关指标对比如图8所示。
从图8中可知,本发明提出的方法比现有方法拥有更高的峰值信噪比、结构相似性和更低的自然图像质量评价器指标以及更少的生成器参数,这些指标也进一步说明了本发明提出的方法具有更好的彩色化质量和更低的计算复杂度。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:具体步骤为:
步骤1,构建网络模型:红外图像彩色化模型是包括生成器和鉴别器的生成对抗网络;
步骤2,准备数据集:对整个生成对抗网络先用红外图像数据集一进行训练;
步骤3,训练网络模型:对红外图像数据集一进行预处理,将处理好的数据集输入到构建好的网络模型中进行训练;
步骤4,选择最小化损失函数和最优评估指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;
步骤5,微调模型:用红外图像数据集二对模型进行训练和微调,得到稳定可用的模型参数;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行红外图像彩色化操作时,直接将图像输入到网络中即可得到最终的着色图像。
2.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:生成器由局部特征提取模块、全局特征提取模块、特征融合模块一、特征融合模块二、特征融合模块三、特征重构模块一、特征重构模块二、特征重构模块三和输出块组成,用于实现红外图像到红外彩色化图像的转换;
所述局部特征提取模块由卷积块一、卷积块二和卷积块三组成,以局部特征提取的方式对图片进行浅层特征提取,每一个卷积块由卷积、实例归一化、激活函数和池化组成;
所述全局特征提取模块由Transformer模块一、Transformer模块二、Transformer模块三、Transformer模块四、Transformer模块五和Transformer模块六组成,以全局特征提取的方式提取图片远程深层次的语义信息,每一个Transformer模块由块嵌入、数组展平、位置编码和Transformer编码器组成,其中块嵌入由线性映射和层归一化组成,Transformer编码器由层归一化、空间缩减、多头注意和前馈网络组成;
所述特征融合模块一、特征融合模块二和特征融合模块三分别将局部特征提取模块和全局特征提取模块获得的各尺度特征信息进行融合,使网络能够学习到更全面、更细致的语义信息和颜色信息,每一个特征融合模块由卷积、上采样和拼接操作组成;
所述特征重构模块一、特征重构模块二和特征重构模块三分别接收来自特征融合模块三、特征融合模块二和特征融合模块一的融合后的特征信息,将接收到的特征信息进行解码进而重构输出图像,每一个特征重构模块由上采样、卷积、实例归一化和激活函数组成;
所述输出块由卷积、归一化和激活函数组成,输出重建的彩色图像。
3.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:鉴别器采用马尔可夫鉴别器,由卷积、归一化和激活函数组成,将生成器生成的红外彩色化图像与数据集中的可见光彩色图像输入鉴别器中,鉴别器输出真假概率信息判断输入图像是否真实。
4.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:红外图像数据集一为KAIST数据集。
5.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:在数据预处理过程中,首先,调整数据集中每个图像的尺寸,固定输入图像的大小,然后对裁剪后的图像进行归一化处理,加快模型的训练速度,最后进行一个数据增强的操作,改变可见光图像的亮度、对比度和饱和度,为模型的训练提供高质量的数据;在训练过程中对生成器和鉴别器使用单独的学习率,使得每次生成器更新使用更少的鉴别器更新。
6.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:在训练过程中损失函数选择使用复合损失函数,生成器采用对抗损失、边缘损失和感知损失,鉴别器采用对抗损失。
7.根据权利要求1所述的一种基于卷积和Transformer的红外图像彩色化方法,其特征在于:红外图像数据集二为OTCBVS数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145265.XA CN116137043A (zh) | 2023-02-21 | 2023-02-21 | 一种基于卷积和Transformer的红外图像彩色化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145265.XA CN116137043A (zh) | 2023-02-21 | 2023-02-21 | 一种基于卷积和Transformer的红外图像彩色化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116137043A true CN116137043A (zh) | 2023-05-19 |
Family
ID=86326836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310145265.XA Pending CN116137043A (zh) | 2023-02-21 | 2023-02-21 | 一种基于卷积和Transformer的红外图像彩色化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116137043A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977466A (zh) * | 2023-07-21 | 2023-10-31 | 北京大学第三医院(北京大学第三临床医学院) | 一种增强ct图像生成模型的训练方法和存储介质 |
-
2023
- 2023-02-21 CN CN202310145265.XA patent/CN116137043A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977466A (zh) * | 2023-07-21 | 2023-10-31 | 北京大学第三医院(北京大学第三临床医学院) | 一种增强ct图像生成模型的训练方法和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
CN111275637A (zh) | 一种基于注意力模型的非均匀运动模糊图像自适应复原方法 | |
Hu et al. | Underwater image restoration based on convolutional neural network | |
CN114092330A (zh) | 一种轻量化多尺度的红外图像超分辨率重建方法 | |
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN112347888A (zh) | 基于双向特征迭代融合的遥感图像场景分类方法 | |
CN112614070B (zh) | 一种基于DefogNet的单幅图像去雾方法 | |
CN115565056A (zh) | 基于条件生成对抗网络的水下图像增强方法及系统 | |
CN116468645B (zh) | 一种对抗性高光谱多光谱遥感融合方法 | |
CN115018727A (zh) | 一种多尺度图像修复方法、存储介质及终端 | |
CN116485934A (zh) | 一种基于CNN和ViT的红外图像彩色化方法 | |
CN116645569A (zh) | 一种基于生成对抗网络的红外图像彩色化方法和系统 | |
CN115393186A (zh) | 一种人脸图像超分辨率重建方法、系统、设备及介质 | |
CN115641391A (zh) | 一种基于密集残差和双流注意力的红外图像彩色化方法 | |
CN116137043A (zh) | 一种基于卷积和Transformer的红外图像彩色化方法 | |
CN109146785A (zh) | 一种基于改进稀疏自动编码器的图像超分辨率方法 | |
CN116311186A (zh) | 一种基于改进Transformer模型的植物叶片病变识别方法 | |
CN116343144A (zh) | 一种融合视觉感知自适应去雾的实时目标检测方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN113724308B (zh) | 基于光度与对比度互注意力的跨波段立体匹配算法 | |
CN114639002A (zh) | 一种基于多模式特征的红外与可见光图像融合方法 | |
CN117151990B (zh) | 一种基于自注意力编码解码的图像去雾方法 | |
Liu et al. | Multi-Scale Underwater Image Enhancement in RGB and HSV Color Spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |