CN116740211B - 一种面向边缘设备的近红外图像彩色化方法 - Google Patents
一种面向边缘设备的近红外图像彩色化方法 Download PDFInfo
- Publication number
- CN116740211B CN116740211B CN202310705944.8A CN202310705944A CN116740211B CN 116740211 B CN116740211 B CN 116740211B CN 202310705944 A CN202310705944 A CN 202310705944A CN 116740211 B CN116740211 B CN 116740211B
- Authority
- CN
- China
- Prior art keywords
- feature map
- characteristic diagram
- output
- input
- convolution layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000010586 diagram Methods 0.000 claims abstract description 128
- 238000005070 sampling Methods 0.000 claims abstract description 37
- 101150047356 dec-1 gene Proteins 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 19
- 101100065246 Mus musculus Enc1 gene Proteins 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 78
- 238000011176 pooling Methods 0.000 claims description 61
- 230000008034 disappearance Effects 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 52
- 238000000605 extraction Methods 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种面向边缘设备的近红外图像彩色化方法,包括以下步骤:将近红外图像特征图依次经过生成器网络编码器模块Enc_1、Enc_2、Enc_3、Enc_4输出对应的输出特征图;生成器网络解码器模块Dec_3、Dec_2、Dec_1的输入特征图都是前一阶段的上采样处理后的特征图与对应编码器模块的输出特征图进行拼接,再经过生成器网络解码器模块Dec_3、Dec_2、Dec_1输出对应的特征图;对Enc_4、Dec_3、Dec_2、Dec_1的输出特征图进行特征图融合,最终生成彩色化结果的特征图。本发明解决了现有近红外图像彩色化方法需要大量的数据来训练且运行过程中需占用大量的计算资源的问题。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及一种面向边缘设备的近红外图像彩色化方法。
背景技术
边缘设备是物联网系统的前端设备,可以通过不同形式贡献自己的计算资源或使用其他设备的计算资源。计算资源的共享是边缘设备最重要的特征。边缘设备既可以作为采集设备收集环境信息,也可以作为执行器来控制外部硬件。很多深度学习模型需要大量计算资源,通常在云计算服务器上运行,这也导致了模型的运行会受到网络延迟和停机等问题的影响。同时传输越来越多的数据进行集中处理分析增加了云服务器的压力。将视频数据从终端摄像头传输到视觉识别服务的云服务器会使现有的网络处理能力超载,导致网络响应速度变慢。在自动化工业机器人或智能汽车等场景中,滞后的数据传输会严重影响安全。同时为了保护数据隐私,数据尽量不离开终端设备。
所以可以采用边缘计算技术,允许深度学习模型在设备本地进行实时分析和处理图像,而不依赖云计算服务器。这种技术的出现促进了视频分析、智能家居、自主驾驶等应用场景的落地。在研究模型部署到边缘设备上时,需要关注深度学习模型的精度和准确性、在边缘设备上运行模型的延迟、资源占用情况。
可见光视频摄像头是场所监控和车载监控场景中最受人们青睐的摄像头类型,因为它们采集的图像与人类的视觉感知系统最相似。但可见光图像受到户外光照条件和物体表面颜色等因素的局限。为了克服这些局限,近红外摄像头被广泛用于许多重要的夜视和低照度监控场景中。尽管近红外图像是灰度图像,不符合人类的视觉习惯,但它具有良好的检测性能。为了增加近红外图像的颜色和纹理信息,增强观察者对场景情况的判断能力,提高目标检测识别的效率,需要对其进行彩色化。近红外图像彩色化是仅从近红外图像生成合理的可见光图像,同时保留近红外原图像中的纹理细节,使转换后的可见光图像的颜色看起来自然。
深度卷积生成式对抗网络也因其能够生成逼真的图像而受到欢迎。2016年,Isola等人利用条件生成式对抗网络结构实现图像到图像的转换,使用基于U-Net的网络结构来实现生成器网络,以在整个网络中共享高层和低层信息,并使用PatchGAN作为判别器网络。2017年,Zhu等人提出了一种使用循环一致对抗网络进行非配对图像转换的方法,包含两个生成器和两个判别器。一个生成器将图像从一个域转换到另一个域,而另一个生成器执行相反的转换。两个判别器用于评估每个域,帮助生成器学习更好的图像转换,并引入了一个循环一致性损失来衡量变换后图像与原始图像之间的相似性,使用对抗损失和身份映射损失来提高生成器和判别器的性能。2017年,Suárez等人利用深度卷积生成式对抗网络对红外图像进行着色,提高了图像的可视化和可解释性。他们还提出了一种基于三重的深度卷积生成式对抗网络结构的红外图像着色方法,该方法独立学习每个颜色通道。2018年,Usman等人提出了一种端到端学习的新型编码器-解码器深度神经网络,可以将单通道红外图像彩色化为多通道RGB图像。2019年,Sun等人提出使用不对称循环生成式对抗网络将近红外图像转换为可见光图像的彩色化方法,根据转换方向,使用具有不同网络容量的非对称循环生成式对抗网络,在生成器中结合了U-Net和ResNet,并在判别器中使用了特征金字塔网络。
深度学习模型在图像彩色化任务中发挥重要作用,但现有的图像彩色化方法仍然有一些局限性。这些方法可能需要大量的数据来训练,在近红外数据集上的研究也不多,同时在运行过程中需要占用大量的计算资源。因此,面向边缘设备的近红外图像彩色化仍然是一个具有挑战性的问题,需要进一步的研究。
发明内容
本发明实施例的目的在于提供一种面向边缘设备的近红外图像彩色化方法,以解决现有近红外图像彩色化方法需要大量的数据来训练且运行过程中需占用大量的计算资源的问题。
为解决上述技术问题,本发明所采用的技术方案是,一种面向边缘设备的近红外图像彩色化方法,包括以下步骤:
步骤S1:将近红外图像特征图依次经过生成器网络编码器模块Enc_1、Enc_2、Enc_3、Enc_4进行编码,输出各生成器网络编码器模块对应的输出特征图;
步骤S2:将经过一次双线性插值上采样操作的生成器网络编码器模块Enc_4的输出特征图与生成器网络编码器模块Enc_3进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_3的输入特征图进行解码,输出特征图;
步骤S3:将经过一次双线性插值上采样操作的生成器网络解码器模块Dec_3输出的特征图与生成器网络编码器模块Enc_2进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_2的输入特征图进行解码,输出特征图;
步骤S4:将经过一次双线性插值上采样操作的生成器网络解码器模块Dec_2输出的特征图与生成器网络编码器模块Enc_1进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_1的输入特征图进行解码,输出特征图;
步骤S5:对生成器网络编码器模块Enc_4、生成器网络解码器模块Dec_3、生成器网络解码器模块Dec_2、生成器网络解码器模块Dec_1的输出特征图进行特征图融合,最终生成彩色化结果特征图。
进一步地,所述步骤S1中生成器网络编码器模块Enc_1的编码过程具体为:
步骤S11:将近红外图像特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为中间特征图;
步骤S12:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为第一特征图,然后通过一个MaxPool2d池化操作;再分别通过三次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二、三、四特征图,中间经过两次MaxPool2d池化操作,即第一次经卷积层输出第二特征图,经池化操作后通过卷积层输出第三特征图,再经池化操作后通过卷积层输出第四特征图;然后第四特征图通过扩张率为2的卷积层操作转换为第五特征图;
步骤S13:将第四特征图和第五特征图进行拼接作为输入特征图通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第三特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第一特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_1的输出特征图。
进一步地,所述步骤S1中生成器网络编码器模块Enc_2的编码过程具体为:
步骤S14:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_1输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S15:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第六特征图,然后通过一个MaxPool2d池化操作;再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第七和第八特征图,中间经过一次MaxPool2d池化操作,即第一次卷积生成第七特征图,第七特征图经池化操作后再经卷积生成第八特征图;然后第八特征图通过扩张率为2的卷积层操作转换为第九特征图;
步骤S16:将第八特征图和第九特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第七特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第六特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_2的输出特征图。
进一步地,所述步骤S1中生成器网络编码器模块Enc_3的编码过程具体为:
步骤S17:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_2输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S18:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十特征图,然后通过一个MaxPool2d池化操作;再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十一和第十二特征图,中间经过一次MaxPool2d池化操作,即第一次卷积生成第十一特征图,第十一特征图经池化操作后再经卷积生成第十二特征图;然后将第十二特征图通过扩张率为2的卷积层操作转换为第十三特征图;
步骤S19:将第十二特征图和第十三特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第十一特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_3的输出特征图。
进一步地,所述步骤S1中生成器网络编码器模块Enc_4的编码过程具体为:
步骤S110:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_3输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S111:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十四特征图,再通过扩张率为2的卷积层操作转换为第十五特征图,然后通过扩张率为4的卷积层操作转换为第十六特征图,最后通过扩张率为8的卷积层操作保持特征图大小不变,得到第十七特征图;
步骤S112:将第十六特征图与第十七特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作,然后将输出特征图与第十五特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十四特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消,输出生成器网络编码器模块Enc_4的输出特征图,然后经过一次双线性插值上采样操作。
进一步地,所述步骤S2中生成器网络解码器模块Dec_3的解码过程具体为:
步骤S21:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S22:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十八特征图,然后通过一个MaxPool2d池化操作;再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十九和第二十特征图,中间经过一次MaxPool2d池化操作,即第一次卷积输出第十九特征图,第十九特征图经池化操作后经卷积层生成第二十特征图;然后第二十特征图通过扩张率为2的卷积层操作转换为第二十一特征图;
步骤S23:将第二十特征图和第二十一特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第十九特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十八特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_3的输出特征图,然后经过一次双线性插值上采样操作。
进一步地,所述步骤S3中生成器网络解码器模块Dec_2的解码过程具体为:
步骤S31:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S32:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十二特征图,然后通过一个MaxPool2d池化操作;再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十三和第二十四特征图,中间经过一次MaxPool2d池化操作,即第一次卷积输出第二十三特征图,第二十三特征图经池化操作后经卷积层生成第二十四特征图;然后第二十四特征图通过扩张率为2的卷积层操作转换为第二十五特征图;
步骤S33:将第二十四特征图和第二十五特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第二十三特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十二特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_2的输出特征图,然后经过一次双线性插值上采样操作。
进一步地,所述步骤S4中生成器网络解码器模块Dec_1的解码过程具体为:
步骤S41:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S42:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为第二十六特征图,然后通过一个MaxPool2d池化操作;再分别通过三次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十七、二十八、二十九特征图,中间经过两次MaxPool2d池化操作,即第一次经卷积层输出第二十七特征图,第二十七特征图经池化操作后经卷积层生成第二十八特征图,第二十八特征图经池化操作后经卷积层生成第二十九特征图;然后二十九特征图通过扩张率为2的卷积层操作转换为第三十特征图;
步骤S43:将第二十九特征图和第三十特征图进行拼接作为输入特征图通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第二十八特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十七特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十六特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_1的输出特征图。
进一步地,所述步骤S5具体为:
通过输入输出通道数相同的卷积层分别将生成器网络编码器模块Enc_4、生成器网络解码器模块Dec_3、生成器网络解码器模块Dec_2、生成器网络解码器模块Dec_1的输出特征图生成D(4)、D(3)、D(2)、D(1)特征图;然后对D(4)、D(3)、D(2)、D(1)特征图进行上采样操作,通过拼接操作进行融合,最后将融合后的特征图通过一个卷积层,最终生成彩色化结果的特征图。
进一步地,还包括步骤S6:利用判别器对原始的近红外图像特征图和最后生成的彩色化特征图进行判断,并将结果反馈至生成器,以优化生成器;
所述生成器包括生成器网络编码器模块Enc_1、Enc_2、Enc_3、Enc_4,以及生成器网络解码器模块Dec_3、Dec_2、Dec_1。
本发明的有益效果是
(1)本发明提出的面向边缘设备的近红外图像彩色化方法,仅输入近红外图像就可以生成视觉效果更好的彩色图像,并且对于计算资源的占用较少。
(2)本发明使用嵌套的编码器-解码器结构不需要大量的数据进行训练,同时能够使得多尺度特征更好的提取和融合,有助于生成视觉效果更好的彩色图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的生成器网络结构图。
图2是本发明实施例中的生成器网络中编码器模块结构图。
图3是本发明实施例中的生成器网络中解码器模块结构图。
图4是本发明实施例中的判别器网络结构图。
图5是本发明实施例中使用本发明和其他彩色化方法的视觉对比图。
图6是本发明实施例中使用本发明和其他彩色化方法的图像质量指标对比图。
图7是本发明实施例中使用本发明和其他彩色化方法的时延指标对比图。
图8是本发明实施例中使用本发明和其他彩色化方法的FPS指标对比图。
图9是本发明实施例中使用本发明和其他彩色化方法的内存占用指标对比图。
图10是本发明实施例中使用本发明和其他彩色化方法的综合性能评价对比图。
图11是本发明实施例中使用本发明和其他彩色化方法的综合性能评价可视化对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种面向边缘设备的基于生成对抗网络的近红外图像彩色化方法。其中,本实施例使用的生成器网络是编码器-解码器结构,其中Enc_1、Enc_2、Enc_3、Enc_4编码器模块和在Dec_3、Dec_2、Dec_1解码器模块本身也是编码器-解码器结构,更好地提取和融合多尺度特征,在解码器模块中利用混合注意力机制同时考虑空间信息和通道信息,实现更加全面的特征提取和准确的推理。本发明使用的判别器网络基于PatchGAN结构,能够更好地优化生成器的参数。本发明方法的近红外图像彩色化效果较好,对计算资源的占用也较少。具体介绍如下:
如图1所示,在生成器网络编码阶段,每个编码器模块是一种对称编码器-解码器结构,先将输入特征图经过一个卷积操作转换为中间特征图,用于特征提取。然后以中间特征图作为输入,通过不同的输入输出通道的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作,来学习提取和编码多尺度上下文信息。更深的编码器模块会有更多的池化操作、更大范围的感受野、更深的残差卷积,可以从输入特征图中提取不同尺度的全局和局部特征。同时使用跳层连接结构使得多尺度特征融合,使用残差网络结构避免梯度消失。
如图2所示,在Enc_1、Enc_2、Enc_3生成器网络编码器模块中,在编码时使用卷积层和下采样层交替搭建,在解码时使用卷积层和上采样层交替搭建;在Enc_4编码器模块中,使用不同大小扩张率的空洞卷积替代了下采样和上采样操作,因为此时的特征图分辨率较低,进行下采样操作会损失有用的信息。在Enc_1、Enc_2、Enc_3、Enc_4的中间过程加入了下采样操作,对特征进一步抽象,进一步提取不同尺度特征,防止过拟合,保留图像中物体的边缘信息。
如图3所示,在Dec_3、Dec_2、Dec_1生成器网络解码器模块中,每个解码器模块的结构与其对称编码器模块的结构相似,也是先将输入特征图经过一个卷积操作转换为中间特征图,然后以中间特征图作为输入,在编码时使用卷积层和下采样层交替搭建,在解码时使用卷积层和上采样层交替搭建,最后通过混合注意力机制模块进行输出。
具体的,本发明实施例提供了一种面向边缘设备的近红外图像彩色化方法,包括以下步骤:
Enc_1:先将3×256×256的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为32×256×256的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为16×256×256的特征图,然后通过一个MaxPool2d池化操作转换为16×128×128的特征图,再通过三次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为16×32×32的特征图,来学习提取多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过四次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和三次双线性插值上采样操作,最后使用残差网络结构避免梯度消失,再经过一次MaxPool2d池化操作输出32×128×128的特征图。
Enc_2:先将32×128×128的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为64×128×128的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为16×128×128的特征图,然后通过一个MaxPool2d池化操作转换为16×64×64的特征图,再通过两次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和一次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为16×32×32的特征图,来学习提取多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过三次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次双线性插值上采样操作,最后使用残差网络结构避免梯度消失,再经过一次MaxPool2d池化操作输出64×64×64的特征图。
Enc_3:先将64×64×64的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为128×64×64的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为32×64×64的特征图,然后通过一个MaxPool2d池化操作转换为32×32×32的特征图,再通过两次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和一次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为32×16×16的特征图,来学习提取多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过三次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次双线性插值上采样操作,最后使用残差网络结构避免梯度消失,再经过一次MaxPool2d池化操作输出128×32×32的特征图。
Enc_4:先将128×32×32的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为128×32×32的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为64×32×32的特征图,再通过卷积核为3×3的步长为1的扩张率为2的卷积层操作,然后通过卷积核为3×3的步长为1的扩张率为4的卷积层操作,最后通过卷积核为3×3的步长为1的扩张率为8的卷积层操作保持特征图大小不变,仍然为64×32×32的特征图。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过三次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作,最后使用残差网络结构避免梯度消失,再经过一次双线性插值上采样操作输出128×64×64的特征图。
Dec_3:先使用跳层连接结构进行融合局部特征融合,即将Enc_4输出的特征图于对应编码器Enc_3的第一次MaxPool2d池化操作之前的输出进行拼接操作作为输入特征图,然后将256×64×64的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为64×64×64的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为32×64×64的特征图,然后通过一个MaxPool2d池化操作转换为32×32×32的特征图,再通过两次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和一次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为32×16×16的特征图,来学习提取多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过三次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次双线性插值上采样操作,然后经过混合注意力机制模块并使用残差网络结构避免梯度消失,再经过双线性插值上采样操作输出64×128×128的特征图。
Dec_2:先使用跳层连接结构进行融合局部特征融合,即将Dec_3输出的特征图于对应编码器Enc_2的第一次MaxPool2d池化操作之前的输出进行拼接操作作为输入特征图,然后将128×128×128的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为32×128×128的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为16×128×128的特征图,然后通过一个MaxPool2d池化操作转换为16×64×64的特征图,再通过两次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和一次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为16×32×32的特征图,来学习提取多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过三次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次双线性插值上采样操作,然后经过混合注意力机制模块并使用残差网络结构避免梯度消失,再经过双线性插值上采样操作输出32×256×256的特征图。
Dec_1:先使用跳层连接结构进行融合局部特征融合,即将Dec_2输出的特征图于对应编码器Enc_1的第一次MaxPool2d池化操作之前的输出进行拼接操作作为输入特征图,然后将64×256×256的输入特征图经过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为32×256×256的中间特征图,用于特征提取。然后以中间特征图作为输入,通过一个卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的结合卷积层操作转换为16×256×256的特征图,然后通过一个MaxPool2d池化操作转换为16×128×128的特征图,再通过三次相同输入输出通道的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和两次MaxPool2d池化操作,然后通过卷积核为3×3的步长为1的扩张率为2的卷积层操作转换为16×32×32的特征图,来学习提取和编码多尺度上下文信息,可以从输入特征图中提取不同尺度的全局和局部特征。接下来使用跳层连接结构进行浅层特征与深层特征融合,即分别将上次解码器输出的特征图和与对应编码器的输出特征图进行拼接操作,然后分别通过四次输入通道是输出通道两倍的卷积核为3×3的步长为1的Conv2d操作、BatchNorm2d操作和Relu激活函数的卷积层操作和三次双线性插值上采样操作,然后经过混合注意力机制模块并使用残差网络结构避免梯度消失,最后输出32×256×256的特征图。
在生成器网络特征图融合阶段中,首先通过相同输入输出通道数为3的卷积核为3×3的步长为1的卷积层将Enc_4、Dec_3、Dec_2、Dec_1的输出特征图生成D(4)、D(3)、D(2)、D(1)特征图。然后对D(4)、D(3)、D(2)、D(1)特征图进行上采样操作并将其转换为3×256×256大小,通过拼接操作进行融合,最后将融合后的特征图通过一个输入通道数为12输出通道数为3的卷积核为1×1的步长为1的卷积层,最终生成3×256×256大小的彩色化结果特征图。
如图4所示,在判别器网络阶段中,当将作为判别条件的图像和生成器网络生成的图像特征图拼接起来作为输入时判别为假,当将作为判别条件的图像和可见光标签图像特征图(近红外图像特征图)拼接起来作为输入时判别为真。并将判别结果反馈至生成器中,以优化生成器。
本实施例将本发明方法与现有的若干种图像彩色化方法的近红外图像彩色化效果进行对比,以凸显本发明方法的优势。
如图5所示,为本发明方法与其他图像彩色化方法的近红外图像彩色化效果对比结果。其中(A)为近红外图像,(B)为可见光图像。CICZ(C)、ELGL(D)和ChromaGAN(E)在彩色化过程中结合了NIR图像的亮度通道,以保留细节,但存在严重的颜色偏差。SCGAN(F)生成的图像颜色和可见光图像比颜色偏淡。MemoPainter(G)生成的图像细节缺失,较为模糊。CycleGAN(H)、RecycleGAN(I)、PearlGAN(J)、I2V-GAN(K)生成的图像与可见光图像差距较大。本发明方法生成的图像(L)基本还原了可见光图像的色彩和细节信息。
如图6所示,在田野场景中,本发明方法的PSNR和SSIM指标最优,其次是SCGAN模型。在古建筑场景中,本发明方法的PSNR和SSIM指标最优,在PSNR指标上其次是MemoPainter模型,在SSIM指标上其次是SCGAN模型。
本实施例将本发明方法与现有的若干种图像彩色化方法在边缘设备上的指标均衡评估情况进行对比,以凸显本发明方法的优势。
时延是指当模型连续对图像彩色化时,每张图像消耗的平均时间。因为不同的模型在读取和保存图像时的操作相同,所以消耗的时间相同,所以本实施例只计算生成彩色图像的时间。为了计算准确的时延,本实施例测试了20张近红外图像100次,然后取平均值。
如图7所示,为本发明方法与其他图像彩色化方法在边缘设备上的时延指标对比结果。如图8所示,本实施例还使用每秒帧数(FPS)来表示推理速度ELGL(46.8FPS)、CycleGAN(44.9FPS)、ChromaGAN(28.4FPS)、MemoPainter(15.8FPS)和本发明方法(12.2FPS)可以在JetsonAGXXavier上的推理速度表现优异。CycleGAN(26.4FPS)、ELGL(23.4FPS)和ChromaGAN(13.8FPS)在JetsonXavierNX上的推理速度相比较在JetsonAGXXavier近乎减半。而本发明方法(9.0FPS)由于占用的资源较小,在JetsonXavierNX上的推理速度降低只有30%。在JetsonNano上速度最快的是CycleGAN(6.3FPS)。
内存占用是指在模型测试过程中,使用系统状态查看软件查看系统已占用内存。本实施例使用RAM来表示实验中所占用的内存。考虑到jetson设备的显存也是在内存中计算的,所以在比较结果时,计算的实际上是内存占用和显存占用的总和。为了测试彩色化图像的准确内存占用情况,持续运行图像彩色化部分代码180秒。测试结果是从读取到近红外图像数据到输出彩色图像数据的内存占用增加情况。
如图9所示,为本发明方法与其他图像彩色化方法在边缘设备上的内存占用指标对比结果。实验中记录的JetsonAGXXavier初始内存占用量之和为0.72GB,JetsonXavierNX初始内存占用量之和为0.56GB,JetsonNano初始内存占用量之和为0.52GB。图中的RAM指标值是测量值减去初始内存占用量。本发明方法(2.88GB)在JetsonAGXXavier上占用的内存是最少的。在JetsonXavierNX和JetsonNano上,PearlGAN(2.83/1.96GB)占用的内存最少。由于内存占用过多,MemoPainter无法在JetsonNano上执行。
如果一个深度学习模型要适合在边缘设备上运行,并考虑到在实际应用场景可能需要多个不同任务的深度学习模型同时运行,那么就需要考虑模型的综合性能表现。本实施例在JetsonAGXXavier上进行综合性能评价。
如图10所示,[%]表示对应图像彩色化模型和本发明方法在相应指标上的比值,其中PSNR[%]和SSIM[%]是指在田野和古建筑两个场景数据集中相应指标上的比值的平均值。其中PSNR和SSIM指标的对应比值越高表示图像质量指标越优异,Latency和RAM指标的对应比值越低表示资源占用指标越优异。
如图11所示,其中图像中圆的大小表示综合性能评价指标的优劣,圆越大说明模型的综合性能表现越好,其中PSNR%是指在田野和古建筑两个场景数据集中PSNR指标上的比值的平均值。SSIM%是指在田野和古建筑两个场景数据集中SSIM指标上的比值的平均值。Latency%是指对应图像彩色化模型和本发明方法在Latency指标上的比值。RAM%指对应图像彩色化模型和本发明方法在RAM指标上的比值。在JetsonAGXXavier上,本发明方法可以达到实时近红外图像彩色化任务的要求,并且具有良好的图像质量。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种面向边缘设备的近红外图像彩色化方法,其特征在于,包括以下步骤:
步骤S1:将近红外图像特征图依次经过生成器网络编码器模块Enc_1、Enc_2、Enc_3、Enc_4进行编码,输出各生成器网络编码器模块对应的输出特征图;
步骤S2:将经过一次双线性插值上采样操作的生成器网络编码器模块Enc_4的输出特征图与生成器网络编码器模块Enc_3进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_3的输入特征图进行解码,输出特征图;
步骤S3:将经过一次双线性插值上采样操作的生成器网络解码器模块Dec_3输出的特征图与生成器网络编码器模块Enc_2进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_2的输入特征图进行解码,输出特征图;
步骤S4:将经过一次双线性插值上采样操作的生成器网络解码器模块Dec_2输出的特征图与生成器网络编码器模块Enc_1进行MaxPool2d池化操作之前的输出特征图进行拼接操作,作为生成器网络解码器模块Dec_1的输入特征图进行解码,输出特征图;
步骤S5:对生成器网络编码器模块Enc_4、生成器网络解码器模块Dec_3、生成器网络解码器模块Dec_2、生成器网络解码器模块Dec_1的输出特征图进行特征图融合,最终生成彩色化结果特征图;
所述步骤S5具体为:
通过输入输出通道数相同的卷积层分别将生成器网络编码器模块Enc_4、生成器网络解码器模块Dec_3、生成器网络解码器模块Dec_2、生成器网络解码器模块Dec_1的输出特征图生成D(4)、D(3)、D(2)、D(1)特征图;然后对D(4)、D(3)、D(2)、D(1)特征图进行上采样操作,通过拼接操作进行融合,最后将融合后的特征图通过一个卷积层,最终生成彩色化结果的特征图。
2.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S1中生成器网络编码器模块Enc_1的编码过程具体为:
步骤S11:将近红外图像特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为中间特征图;
步骤S12:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为第一特征图,然后通过一个MaxPool2d池化操作;再分别通过三次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二、三、四特征图,中间经过两次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第五特征图;
步骤S13:将第四特征图和第五特征图进行拼接作为输入特征图通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第三特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第一特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_1的输出特征图。
3.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S1中生成器网络编码器模块Enc_2的编码过程具体为:
步骤S14:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_1输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S15:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第六特征图,然后通过一个MaxPool2d池化操作,再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第七和第八特征图,中间经过一次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第九特征图;
步骤S16:将第八特征图和第九特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第七特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第六特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_2的输出特征图。
4.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S1中生成器网络编码器模块Enc_3的编码过程具体为:
步骤S17:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_2输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S18:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十特征图,然后通过一个MaxPool2d池化操作,再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十一和第十二特征图,中间经过一次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第十三特征图;
步骤S19:将第十二特征图和第十三特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第十一特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消失,输出生成器网络编码器模块Enc_3的输出特征图。
5.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S1中生成器网络编码器模块Enc_4的编码过程具体为:
步骤S110:将经过一次MaxPool2d池化操作的生成器网络编码器模块Enc_3输出的特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S111:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十四特征图,再通过扩张率为2的卷积层操作转换为第十五特征图,然后通过扩张率为4的卷积层操作转换为第十六特征图,最后通过扩张率为8的卷积层操作保持特征图大小不变,得到第十七特征图;
步骤S112:将第十六特征图与第十七特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作,然后将输出特征图与第十五特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十四特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用残差网络结构避免梯度消,输出生成器网络编码器模块Enc_4的输出特征图,然后经过一次双线性插值上采样操作。
6.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S2中生成器网络解码器模块Dec_3的解码过程具体为:
步骤S21:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S22:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十八特征图,然后通过一个MaxPool2d池化操作,再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第十九和第二十特征图,中间经过一次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第二十一特征图;
步骤S23:将第二十特征图和第二十一特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第十九特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第十八特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_3的输出特征图,然后经过一次双线性插值上采样操作。
7.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S3中生成器网络解码器模块Dec_2的解码过程具体为:
步骤S31:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S32:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十二特征图,然后通过一个MaxPool2d池化操作,再通过两次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十三和第二十四特征图,中间经过一次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第二十五特征图;
步骤S33:将第二十四特征图和第二十五特征图进行拼接操作,然后通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第二十三特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十二特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_2的输出特征图,然后经过一次双线性插值上采样操作。
8.根据权利要求1所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,所述步骤S4中生成器网络解码器模块Dec_1的解码过程具体为:
步骤S41:输入特征图经过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为中间特征图;
步骤S42:以中间特征图作为输入,通过一个Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层转换为第二十六特征图,然后通过一个MaxPool2d池化操作;再分别通过三次相同输入输出通道数的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作转换为第二十七、二十八、二十九特征图,中间经过两次MaxPool2d池化操作,然后通过扩张率为2的卷积层操作转换为第三十特征图;
步骤S43:将第二十九特征图和第三十特征图进行拼接作为输入特征图通过输入通道是输出通道两倍的Conv2d操作、BatchNorm2d操作和Relu激活函数结合的卷积层操作和双线性插值上采样操作,然后将输出特征图与第二十八特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十七特征图进行拼接作为下一个卷积层操作的输入特征图,再将输出特征图与第二十六特征图进行拼接作为下一个卷积层操作的输入特征图,最后使用混合注意力机制残差网络结构避免梯度消失,输出生成器网络解码器模块Dec_1的输出特征图。
9.根据权利要求1~8任一项所述的一种面向边缘设备的近红外图像彩色化方法,其特征在于,还包括步骤S6:利用判别器对原始的近红外图像特征图和最后生成的彩色化特征图进行判断,并将结果反馈至生成器,以优化生成器;
所述生成器包括生成器网络编码器模块Enc_1、Enc_2、Enc_3、Enc_4,以及生成器网络解码器模块Dec_3、Dec_2、Dec_1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310705944.8A CN116740211B (zh) | 2023-06-15 | 2023-06-15 | 一种面向边缘设备的近红外图像彩色化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310705944.8A CN116740211B (zh) | 2023-06-15 | 2023-06-15 | 一种面向边缘设备的近红外图像彩色化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116740211A CN116740211A (zh) | 2023-09-12 |
CN116740211B true CN116740211B (zh) | 2024-01-30 |
Family
ID=87914590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310705944.8A Active CN116740211B (zh) | 2023-06-15 | 2023-06-15 | 一种面向边缘设备的近红外图像彩色化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740211B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252936A (zh) * | 2023-10-04 | 2023-12-19 | 长春理工大学 | 一种适配多种训练策略的红外图像彩色化方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827375A (zh) * | 2019-10-31 | 2020-02-21 | 湖北大学 | 一种基于微光图像的红外图像真彩着色方法及系统 |
CN111145290A (zh) * | 2019-12-31 | 2020-05-12 | 云南大学 | 一种图像彩色化方法、系统和计算机可读存储介质 |
KR20210064604A (ko) * | 2019-11-26 | 2021-06-03 | 광운대학교 산학협력단 | Cnn 기반 이미지 생성 모델을 이용한 카모플라쥬 패턴 생성 장치 및 방법 |
CN113222069A (zh) * | 2021-06-03 | 2021-08-06 | 韶鼎人工智能科技有限公司 | 一种基于多任务生成对抗网络的灰度图像着色方法 |
CN114332625A (zh) * | 2021-12-31 | 2022-04-12 | 云南大学 | 基于神经网络的遥感图像彩色化和超分辨率方法及系统 |
CN114581560A (zh) * | 2022-03-01 | 2022-06-03 | 西安交通大学 | 基于注意力机制的多尺度神经网络红外图像彩色化方法 |
CN115170430A (zh) * | 2022-07-21 | 2022-10-11 | 西北工业大学 | 基于两阶段条件生成对抗网络的近红外图像着色方法 |
CN115797489A (zh) * | 2022-12-02 | 2023-03-14 | 天津大学 | 一种基于深度网络的岩石ct数字图像真彩色化处理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11386589B2 (en) * | 2020-08-04 | 2022-07-12 | Ping An Technology (Shenzhen) Co., Ltd. | Method and device for image generation and colorization |
US11580646B2 (en) * | 2021-03-26 | 2023-02-14 | Nanjing University Of Posts And Telecommunications | Medical image segmentation method based on U-Net |
-
2023
- 2023-06-15 CN CN202310705944.8A patent/CN116740211B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827375A (zh) * | 2019-10-31 | 2020-02-21 | 湖北大学 | 一种基于微光图像的红外图像真彩着色方法及系统 |
KR20210064604A (ko) * | 2019-11-26 | 2021-06-03 | 광운대학교 산학협력단 | Cnn 기반 이미지 생성 모델을 이용한 카모플라쥬 패턴 생성 장치 및 방법 |
CN111145290A (zh) * | 2019-12-31 | 2020-05-12 | 云南大学 | 一种图像彩色化方法、系统和计算机可读存储介质 |
CN113222069A (zh) * | 2021-06-03 | 2021-08-06 | 韶鼎人工智能科技有限公司 | 一种基于多任务生成对抗网络的灰度图像着色方法 |
CN114332625A (zh) * | 2021-12-31 | 2022-04-12 | 云南大学 | 基于神经网络的遥感图像彩色化和超分辨率方法及系统 |
CN114581560A (zh) * | 2022-03-01 | 2022-06-03 | 西安交通大学 | 基于注意力机制的多尺度神经网络红外图像彩色化方法 |
CN115170430A (zh) * | 2022-07-21 | 2022-10-11 | 西北工业大学 | 基于两阶段条件生成对抗网络的近红外图像着色方法 |
CN115797489A (zh) * | 2022-12-02 | 2023-03-14 | 天津大学 | 一种基于深度网络的岩石ct数字图像真彩色化处理方法 |
Non-Patent Citations (5)
Title |
---|
Liang,W.An improved DualGAN for near-infrared image colorization.《INFRARED PHYSICS & TECHNOLOGY》.2021,摘要. * |
基于深度神经网络的遥感图像彩色化方法;冯佳男 等;《计算机辅助设计与图形学学报》;全文 * |
基于生成对抗网络的人脸图像彩色化方法;韩先君;刘艳丽;杨红雨;;北京理工大学学报(12);全文 * |
基于生成对抗网络的渐进式夜视图像彩色化算法;欧博;《湖南大学学报(自然科学版)》;全文 * |
红外与可见光图像融合的U-GAN模型;陈卓;方明;柴旭;付飞蚺;苑丽红;;西北工业大学学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116740211A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN113837938B (zh) | 基于动态视觉传感器重建潜在图像的超分辨率方法 | |
CN116740211B (zh) | 一种面向边缘设备的近红外图像彩色化方法 | |
CN110232361B (zh) | 基于三维残差稠密网络的人体行为意图识别方法与系统 | |
CN112288776B (zh) | 一种基于多时间步金字塔编解码器的目标跟踪方法 | |
CN112991371B (zh) | 一种基于着色溢出约束的图像自动着色方法及系统 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN115883764B (zh) | 一种基于数据协同的水下高速视频插帧方法及其系统 | |
CN112489072B (zh) | 一种车载视频感知信息传输负载优化方法及装置 | |
CN113283525A (zh) | 一种基于深度学习的图像匹配方法 | |
CN113850231A (zh) | 一种红外图像的转换训练方法、装置、设备及存储介质 | |
CN115484410A (zh) | 基于深度学习的事件相机视频重建方法 | |
CN111627055B (zh) | 一种联合语义分割的场景深度补全方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
Jia et al. | Depth measurement based on a convolutional neural network and structured light | |
CN108875555A (zh) | 基于神经网络的视频兴趣区域和显著目标提取与定位系统 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN116863241A (zh) | 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备 | |
CN117036436A (zh) | 一种基于双编码器-解码器的单目深度估计方法及系统 | |
CN116246142A (zh) | 一种面向多传感器数据融合需求的三维场景感知方法 | |
CN111583345A (zh) | 一种相机参数的获取方法、装置、设备及存储介质 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及系统 | |
Chawla et al. | Image masking for robust self-supervised monocular depth estimation | |
CN116309171A (zh) | 一种输电线路监控图像增强方法和装置 | |
CN113033430B (zh) | 基于双线性的多模态信息处理的人工智能方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |