CN115272140A - 红外图像量化和增强方法、系统及存储介质 - Google Patents

红外图像量化和增强方法、系统及存储介质 Download PDF

Info

Publication number
CN115272140A
CN115272140A CN202211195534.5A CN202211195534A CN115272140A CN 115272140 A CN115272140 A CN 115272140A CN 202211195534 A CN202211195534 A CN 202211195534A CN 115272140 A CN115272140 A CN 115272140A
Authority
CN
China
Prior art keywords
infrared image
image
network
8bits
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211195534.5A
Other languages
English (en)
Other versions
CN115272140B (zh
Inventor
何震宇
吴昊
田超
杨超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211195534.5A priority Critical patent/CN115272140B/zh
Publication of CN115272140A publication Critical patent/CN115272140A/zh
Application granted granted Critical
Publication of CN115272140B publication Critical patent/CN115272140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种红外图像量化和增强方法、系统及存储介质,该方法包括数据准备步骤:将14bits红外图像数据生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像;训练步骤:将14bits红外图像数据归一化为[0,1]范围内的浮点数,归一化的数据输入到基于多尺度特征融合的主网络中,主网络提取不同尺度的图像特征,对不同尺度的图像特征进行融合,生成8bits红外图像;将主网络生成的8bits红外图像和标签图像输入判别器模块,促使主网络生成质量更高的红外图像。本发明的有益效果是:本发明能够将14bits红外图像映射为高质量的8bits红外图像数据,生成图像速度更快,占用的CPU资源更少。

Description

红外图像量化和增强方法、系统及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及红外图像量化和增强方法、系统及存储介质。
背景技术
红外图像主要应用于军事领域和监控领域,例如在监控领域,在无光环境下,装有红外摄像头的监控设备仍能获取监控视野范围内的环境信息。
为了能以足够高的精度来量化大动态范围的红外场景,高性能热成像系统通常输出数据一般为14bits的Raw数据,通过解析Raw文件数据能够获取14bits的红外图像数据,而常规显示设备大多只支持显示8位灰度图像,如果直接显示,会导致14bits数据自动截断为8bits得到一种灰度分布不均匀的图像,为此针对14bits原始红外图像,需要通过量化方法将14bits的红外图像映射为8bits红外图像。
传统的红外图像量化方法一般分为线性映射、非线性映射(gamma校正、直方图均衡化)等。线性映射的方法主要通过图像像素中的最大值与最小值,将14bits图像归一化,然后每个像素乘以255,最终得到8bits图像数据;gamma矫正不同于线性映射方法的地方在于,归一化的像素数据需要以1/gamma值为指数;直方图均衡化方法通过计算得到14bits图像的灰度直方图,通过灰度直方图计算得到灰度映射函数,通过灰度映射函数进行非线性映射。
红外图像经过量化,图像中的部分细节信息可能会丢失,为了增强红外图像可视化的效果,目前基于滤波的方法将红外图像的量化和红外图像的细节增强融合在一起,例如DDE(Digital Detail Enhancement)。DDE具体的做法通过特殊的滤波器将14bits图像分成具有低频信息的背景层和具有高频信息的细节层,分别对背景层和细节层进行灰度增强和去噪处理,最后经过压缩合成8bits数据。
由于深度学习的广泛应用,目前部分方法开始使用神经网络实现红外图像增强。一种方法使用全卷积网络,这种方法一般通过全卷积网络提取红外图像的特征信息,通过跳连接进行特征融合,丰富细节信息,达到增强的效果。另一种方法使用生成对抗网络,以真实的可见光灰度图像为条件,依靠识别子网络D监督生成子网络G,并通过生成子网络和识别子网络的相互博弈,实现红外图像增强。
目前尚未有通过深度神经网络一步实现从14bits Raw图像映射到8bits输出图像,且实现图像像质增强的端到端方法。
背景技术的缺陷:
传统的红外图像量化方法一般分为线性映射、非线性映射(gamma校正、直方图均衡化)等。线性映射方法依赖于图像像素的最大值与最小值,有时会出现图像整体灰度过大,从而导致图像呈现一种过曝的现象;gamma校正,不同的gamma值对应不同的效果,无法实现自适应,另一方面gamma校正无法消除空缺的灰度值;直方图均衡化方法容易过度增强,导致噪声增强,最新的限制对比度的自适应直方图均衡化方法虽然改善了过度增强,但是需要手动调节参数适应不同场景,无法做到自适应。
目前基于滤波的红外图像量化方法在红外图像量化阶段加入了图像细节增强,例如DDE(Digital Detail Enhancement),在速度方面,DDE可以达到实时,但是对于高帧率的需求(例如100FPS)时,DDE无法满足要求,在资源消耗方面,由于DDE整体还是基于传统的方式实现,所以在移动嵌入式的设备上使用时,DDE需要占据CPU资源,无法使用移动嵌入式设备上的特殊计算加速模块(例如gpu,npu等)。
目前基于深度学习的红外图像增强的方法,无论是基于全卷积网络的方法还是基于基于生成对抗网络的方法,它们网络的输入都是8bits红外图像数据,所以这些方法增强前都需要进行14bits数据到8bits数据的量化。对于生成图像质量方面,由于量化与增强阶段的分离,一方面,量化阶段产生的噪声可能会在增强阶段放大,额外的去噪处理将会浪费计算资源和时间;另一方面量化阶段的细节损失过大,在增强阶段无法对这些细节信息进行恢复,最后生成的图像质量较差。
发明内容
为了解决现有技术中的问题,本发明提供了一种红外图像量化和增强方法、系统及存储介质,红外图像的量化与增强在同一阶段完成,提高了算法的性能。
本发明提供了一种红外图像量化和增强方法,包括如下步骤:
数据准备步骤:将14bits红外图像数据生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像;
训练步骤:将14bits红外图像数据归一化为[0,1]范围内的浮点数,归一化的数据输入到基于多尺度特征融合的主网络中,主网络通过特征提取模块提取不同尺度的图像特征,最后对不同尺度的图像特征进行融合,增加图像的细节信息,生成8bits红外图像;将主网络生成的8bits红外图像和标签图像输入判别器模块,判别器模块从标签图像中辨别增强的结果,促使主网络生成质量更高的红外图像;
预测步骤:训练步骤之后,得到主网络的权重文件,使用权重文件能够使得主网络不使用判别器模块就能够生成高质量的8bits红外图像;预测时只使用主网络,不再使用判别器模块,主网络输入为训练得到的权重文件、以及实用场景图像,实用场景图像为14bits红外图像数据,实用场景图像通过训练好的主网络生成8bits红外图像数据。
作为本发明的进一步改进,在所述数据准备步骤中,将14bits红外图像数据经过前处理模块、DDE和后处理模块生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像。
作为本发明的进一步改进,在数据准备步骤中,预先统计得到DDE生成8bits红外图像数据对应的14bits红外图像数据的像素值分布;前处理模块将输入的14bits红外图像数据的像素值分布通过非线性映射近似映射为预先统计得到的像素值分布;
前处理模块生成的14bits红外图像数据经过DDE处理后,得到高质量的8bits红外图像数据;
后处理模块针对DDE增强后得到8bits红外图像数据,进行全局的中值滤波去噪和自适应gamma矫正。
作为本发明的进一步改进,在所述训练步骤中,输入主网络的14bits红外图像数据的图像分辨率为512x512,其中每个像素值为14bits红外图像数据归一化到[0,1]的值,首先通过一个Conv 3x3生成一个256x256x2C的特征图,作为高尺度的特征图,该高尺度的特征图分别通过一个Conv 3x3生成一个128x128x4C的中尺度特征图且通过一个Deconv1x1生成一个256x256x2C特征图,128x128x4C的中尺度特征图通过一个Conv 3x3生成一个64x64x8C的低尺度特征图且通过一个Deconv 2x2生成一个256x256x2C特征图,64x64x8C的低尺度特征图通过一个Deconv 4x4生成一个256x256x2C的特征图,经过不同尺度但相同分辨率的特征图进行逐元素相加取平均,最终生成一个256x256x2C的特征图,再通过一个Deconv 2x2生成一个与原始分辨率相同的8bits红外图像;
Conv 3x3表示3x3卷积,Deconv 1x1表示1x1反卷积,Deconv 2x2表示2x2反卷积,Deconv 4x4表示4x4反卷积。
作为本发明的进一步改进,在所述训练步骤中,对主网络进行损失约束。
作为本发明的进一步改进,对主网络进行损失约束使用均方误差函数,均方误差 函数如公式5-1所示,其中
Figure 3928DEST_PATH_IMAGE001
为原始14bits红外图像数据,
Figure 485725DEST_PATH_IMAGE002
为8bits的标签图像数据;
Figure 645528DEST_PATH_IMAGE003
(5-1)。
作为本发明的进一步改进,在所述训练步骤中,将主网络生成的8bits红外图像和标签图像输入判别器模块,标签图像和主网络生成的8bits红外图像为两个512x512xC的原始数据,通过将两个512x512xC的原始数据拼接成512x512x2C的拼接图像,拼接图像通过堆叠的Conv 3x3卷积生成28x28x1特征图,最后通过Sigmoid函数输出元素值为(0,1)之间的特征图;使用结构相似度作为判别器模块的约束,Conv 3x3表示3x3卷积。
作为本发明的进一步改进,使用结构相似度作为判别器模块的约束,如公式5-2所 示,其中
Figure 529171DEST_PATH_IMAGE004
Figure 799615DEST_PATH_IMAGE005
分别表示图像块的均值和方差,
Figure 768708DEST_PATH_IMAGE006
表示图像块x和图像块y的协方差;
Figure 923746DEST_PATH_IMAGE007
(5-2)。
作为本发明的进一步改进,在所述训练步骤中,采用离线知识蒸馏的方式提升主网络的推理速度,将主网络作为教师网络,教师网络用于指导学生网络生成相似图像;14bits红外图像数据分别通过教师网络和学生网络生成各自的特征向量,通过判别器判断两种特征向量的差异,使得学生网络能够学习到教师网络的特征分布,最终推理的时候,使用学生网络替代教师网络。
作为本发明的进一步改进,所述判别器为VGG网络,选用Shuffle Net v3作为学生网络。
作为本发明的进一步改进,将主网络生成的质量较高的8bits红外图像称为图像 y,将图像y切分成大小相同的单元格,再对相邻的单元格进行分组,通过一个随机采样器对 图像y进行采样:每次选择图像y中相邻的两个分组,再对这两个相邻的分组内的单元格进 行随机采样,假设采样器为
Figure 724212DEST_PATH_IMAGE008
;第一部分对图像y按照以上步骤进行多次采样,最终生 成训练图像对
Figure 368820DEST_PATH_IMAGE009
,其中
Figure 825209DEST_PATH_IMAGE010
为训练数据,
Figure 580675DEST_PATH_IMAGE011
为标签数据;
Figure 173330DEST_PATH_IMAGE010
通过去噪网 络
Figure 254419DEST_PATH_IMAGE012
生成相应的去噪图像
Figure 463683DEST_PATH_IMAGE013
;第二部分先将图像y输入到去噪网络进行处理生成图 像
Figure 22841DEST_PATH_IMAGE014
,再对去噪后的图像用上述的采样方式进行采样,生成图像对
Figure 470003DEST_PATH_IMAGE015
;最终使用正则化损失来训练去噪网络,去噪网络的损失函数如公式5-3所示
Figure 190834DEST_PATH_IMAGE016
(5-3)
Figure 887394DEST_PATH_IMAGE017
(5-4)
Figure 187926DEST_PATH_IMAGE018
(5-5)
Lrec表示L2损失函数,Lreg为正则项,a为控制正则化强度的手工变量。
本发明还提供了一种红外图像量化和增强系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明红外图像量化和增强方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的红外图像量化和增强方法的步骤。
本发明的有益效果是:本发明能够将14bits红外图像映射为高质量的8bits红外图像数据,生成图像速度更快,占用的CPU资源更少。
附图说明
图1是本发明的判别器模块原理图;
图2是本发明的数据准备步骤流程图;
图3是基于多尺度特征融合的主网络的网络结构图;
图4是判别器网络结构图;
图5是离线知识蒸馏训练流程图。
具体实施方式
本发明公开了一种红外图像量化和增强方法,包括如下步骤:
数据准备步骤:将14bits红外图像数据经过前处理模块、DDE和后处理模块生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像。在数据准备步骤中,使用14bits原始红外图像,对原始图像使用已有的但是速度较慢的方法例如DDE,生成对应的标签图像,增加了生成8bits红外图像的质量。
训练步骤:将14bits红外图像数据归一化为[0,1]范围内的浮点数,归一化的数据输入到基于多尺度特征融合的主网络中,主网络通过特征提取模块提取不同尺度的特征信息,最后对不同尺度的特征信息进行融合,增加图像的细节信息,生成较高质量的8bits红外图像。为了提高生成图像的质量,通过一个可选的判别器模块,如图1所示,将主网络生成的图像和标签图像作为输入,判别器模块的主要作用是从标签图像中辨别增强的结果,促使主网络生成质量更高的红外图像。在整个训练过程中,采用了知识蒸馏训练方法来指导训练,进一步加速网络的推理。为了进一步提高生成图像质量,本发明设计一种自监督的红外图像去噪模块,能够有效地去除生成图像遗留的噪声。
预测步骤:训练步骤之后,得到主网络的权重文件,使用权重文件能够使得主网络不使用判别器模块就能够生成高质量的8bits红外图像;预测时只使用主网络,不再使用判别器模块,主网络输入为训练得到的权重文件,以及新的14bits红外图像数据(不属于训练使用的数据集,也即实用场景图像)。14bits红外图像数据通过训练好的主网络生成8bits红外图像数据。
训练步骤中,数据准备步骤生成的8bits图像是由执行速度很慢的、传统非神经网络方法生成的,(也即由前处理模块、DDE和后处理模块生成的),仅供网络进行学习;预测步骤中,网络已经学习完成,具备脱离传统算法的指示,自行从14bits图像生成8bits图像的能力,即可以实用了。
在训练步骤中,本发明设计了一种基于多尺度特征融合的主网络,学习原始14bits数据到8bits数据的映射关系,实现量化和增强一步完成,提升了生成8bits红外图像的速度。
在训练步骤中,本发明设计了一种基于结构相似度约束的判别器模块作为一个可选模块,从标签图像中辨别增强的结果,促使主网络生成质量更高的8bits红外图像(与标签图像更加相似),在测试步骤丢弃判别器模块。在不引入多余的计算量的情况提升模型的鲁棒性,且使用结构相似度约束提升判别器的辨别能力,进一步提升主网络生成图像的质量。
下面本发明进行展开说明:
1.数据准备步骤,将14bits红外图像数据生成8bits红外图像数据
由于目前公开的高质量原始14bits红外图像数据及对应的8bits红外图像数据较少,所以通过已有的红外图像量化和增强算法例如DDE,对原始14bits红外图像数据量化生成高质量的8bits红外图像数据作为标签图像。如图2所示,生成标签图像流程。
在数据准备步骤中,预先统计得到DDE生成高质量8bits数据对应的14bits原始红外图像数据的像素值分布;前处理模块将输入的14bits红外图像数据的像素值分布通过非线性映射近似映射为预先统计得到的像素值分布,防止DDE因为14bits数据像素值分布不合适生成低质量的8bits数据,导致模型学习的效果下降;前处理模块生成的14bits红外图像数据经过已有的红外图像量化和增强的算法例如DDE处理后,得到高质量的8bits红外图像数据;后处理模块主要针对DDE增强后得到8bits红外图像数据,进行一个全局的中值滤波去噪和自适应gamma矫正,防止出现过曝和过暗的情况,同时尽可能去除DDE增强后残留下的噪声。
经实验证明,本发明数据准备步骤生成的红外图像数据细节信息优于原始的8bits红外图像数据。
2.基于多尺度特征融合的主网络
为了能够快速生成高质量的8bits红外图像数据,本发明设计了一种多尺度特征融合的主网络,提取不同尺度的图像特征,并进行特征融合,丰富了生成图像的细节信息。
如图3所示,基于多尺度特征融合的主网络的网络结构图。其输入的图像分辨率为512x512,其中每个像素值为14bits数据归一化到[0,1]的值,首先通过一个Conv 3x3生成一个256x256x2C的特征图,作为高尺度的特征图,该特征图分别通过一个Conv 3x3生成一个128x128x4C的中尺度特征图且通过一个Deconv 1x1生成一个256x256x2C特征图,128x128x4C的中尺度特征图通过一个Conv 3x3生成一个64x64x8C的低尺度特征图且通过一个Deconv 2x2生成一个256x256x2C特征图,64x64x8C的低尺度特征图通过一个Deconv4x4生成一个256x256x2C的特征图,经过不同尺度但相同分辨率的特征图进行逐元素相加取平均,最终生成一个256x256x2C的特征图,再通过一个Deconv 2x2生成一个与原始分辨率相同的8bits红外图像。Conv 3x3表示3x3卷积,Deconv 1x1表示1x1反卷积,Deconv 2x2表示2x2反卷积,Deconv 4x4表示4x4反卷积。
对于成像质量方面,由于本发明的主网络采用多尺度融合方式生成特征图,针对不同分辨率的图像,主网络都能生成质量较高的8bits红外图;对于网络推理速度,由于本发明设计的网络较为轻量,所以网络的推理速度较快,至少能够达到100FPS左右。
为了保证主网络能够生成与标签图像相近的图像,需要对主网络进行损失约束, 约束使用的简单的均方误差函数。具体的约束函数如公式5-1所示。其中
Figure 20753DEST_PATH_IMAGE001
为原始14bits 红外图像数据,
Figure 178064DEST_PATH_IMAGE002
为8bits标签数据。
Figure 299604DEST_PATH_IMAGE003
(5-1)
在图3中,ReLU表示激活函数,Batch Norm表示批量归一化。
3.判别器模块
为了提升主网络生成的8bits红外图像的质量,本发明提出了一种基于结构相似度约束的判别器模块作为可选模块,使得主网络能够生成质量更高的红外图像。
判别器的主要工作指明生成图像与标签图像的相似程度,所以使用一种改进后的VGG的网络结构,其网络结构图如图4所示。网络的输入为归一化后数据准备步骤生成的8bits数据和主网络生成的8bits数据,通过将两个512x512xC的原始数据(这两个原始数据分别表示主网络生成的8bits红外图像和标签图像)拼接成512x512x2C的拼接图像,拼接图像通过堆叠的Conv 3x3卷积生成28x28x1特征图,最后通过Sigmoid函数输出元素值为(0,1)之间的特征图。在图4中,Leaky ReLU也属于激活函数,中文名称为随机修正线性单元。
针对判别器模块,为了提高网络的鉴别能力,以提高主网络生成图像的质量。与主 网络不同,本发明不使用均方误差作为判别器的约束损失函数,选择使用结构相似度作为 判别器的约束,原因在于结构相似度表示两张图片的相似程度,相比于均方误差判断两张 图片的相似度能力更强。如公式5-2所示,为本发明识别网络的内容损失,其中
Figure 200564DEST_PATH_IMAGE004
Figure 887897DEST_PATH_IMAGE005
分别表 示图像块的均值和方差,
Figure 419373DEST_PATH_IMAGE006
表示图像块x和图像块y的协方差。
Figure 559367DEST_PATH_IMAGE007
(5-2)
4.离线知识蒸馏
目前本发明的主网络已经能够生成质量比较高的8bits红外图像,为了进一步提高主网络生成图像的速度,本发明采用离线知识蒸馏的方式提升主网络的推理速度。
如图5所示,为训练流程。具体的训练方法是:通过上述训练步骤训练完成的主网络作为教师网络,预训练的教师网络用于指导学生网络生成相似图像;选用比主网络更加轻量的网络作为学生网络,这里本发明选用已有的Shuffle Net v3作为学生网络,学生网络主要模仿教师网络特征分布;14bits原始数据分别通过教师网络和学生网络生成各自的特征向量;选用一种额外的判别器判断两种特征向量的差异,使得学生网络能够学习到教师网络的特征分布,本发明使用的判别器为普通的VGG网络。最终推理的时候,可以使用学生网络替代教师网络,进一步提升整个模型的推理速度。
5.基于自监督的红外图像去噪模块
通过之前的步骤可以生成质量较高的8bits红外图像,但是生成的图像带有噪声,为了提高生成图像的质量,本发明提出了一种基于自监督的红外图像去噪模块对生成的图像进行修正,以达到图像去噪的目的。
将输入的图像y(图像y为主网络生成的质量较高的8bits红外图像)切分成大小相 同的单元格,再对相邻的单元格进行分组,通过一个随机采样器对红外图像y进行采样:每 次选择红外图像中相邻的两个分组,再对这两个相邻的分组内的单元格进行随机采样,假 设采样器为
Figure 529597DEST_PATH_IMAGE008
。第一部分对图像y按照以上步骤进行多次采样,最终生成训练图像对
Figure 274699DEST_PATH_IMAGE009
,其中
Figure 39393DEST_PATH_IMAGE010
为训练数据,
Figure 666683DEST_PATH_IMAGE011
为标签数据。
Figure 112708DEST_PATH_IMAGE010
通过去噪网络
Figure 774634DEST_PATH_IMAGE012
生成相应 的去噪图像
Figure 444650DEST_PATH_IMAGE013
,去噪网络选用简单的全卷积网络;第二部分先将图像y输入到去噪网 络进行处理生成图像
Figure 762498DEST_PATH_IMAGE014
,再对去噪后的图像用上述的采样方式进行采样,生成图像对
Figure 808952DEST_PATH_IMAGE015
;最终使用正则化损失来训练去噪网络。去噪网络的损失函数如公式 5-3所示
Figure 528646DEST_PATH_IMAGE016
(5-3)
Figure 369563DEST_PATH_IMAGE017
(5-4)
Figure 237025DEST_PATH_IMAGE018
(5-5)
本发明的有益效果是:通过上述方案,14bits红外图像能够快速映射为高质量的8bits红外图像数据。具体表述为:
(1)数据准备步骤,生成了高质量的红外标签图像,而已有的基于深度学习的图像增强算法使用的标签图像为转换为灰度图的可见光图像,8bits红外图像与可见光的灰度图像的灰度分布有一定的差异,所以本发明能够较好的学习8bits红外图像的灰度分布。
(2)本发明设计了一种多尺度特征融合的主网络,输入的数据为14bits原始红外数据。相比于使用全卷积网络的方法,本发明设计的主网络为较为轻量,速度优于这类方法,且本发明的算法量化与增强一步完成。相比于目前使用对抗生成网络的红外图像增强算法,本发明设计的主网络结合了14bits红外图像的量化与增强,而其他的算法的输入为8bits红外图像,无法处理14bits原始红外数据;本发明的主网络采用了多尺度融合方式,针对不同的分辨率的14bits原始图像都能生成质量高的8bits红外图像。相比于目前基于滤波的红外图像量化和增强的算法,本发明生成的8bits红外图像质量与其相近,平局的结构相似度能够达到0.9左右,但是本发明的生成图像速度更快,占用的CPU资源更少。
(3)本发明设计的判别器模块作为一种可选模块,使用基于结构相似度的约束提升了判别器的鉴别能力,能够监督主网络生成更高质量的8bits红外图像。
(4)本发明采用离线知识蒸馏训练生成子网络,使用更轻量的网络学习主网络的特征分布以达到相同的效果,进一步提升模型的推理速度。
(5)本发明提出了一种基于自监督的红外图像去噪模块作为备选模块,采用自监督的方法对生成的红外图像进行去噪处理,提升了生成图像的质量。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (13)

1.一种红外图像量化和增强方法,其特征在于,包括如下步骤:
数据准备步骤:将14bits红外图像数据生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像;
训练步骤:将14bits红外图像数据归一化为[0,1]范围内的浮点数,归一化的数据输入到基于多尺度特征融合的主网络中,主网络通过特征提取模块提取不同尺度的图像特征,最后对不同尺度的图像特征进行融合,增加图像的细节信息,生成8bits红外图像;将主网络生成的8bits红外图像和标签图像输入判别器模块,判别器模块从标签图像中辨别增强的结果,促使主网络生成质量更高的红外图像;
预测步骤:训练步骤之后,得到主网络的权重文件,使用权重文件能够使得主网络不使用判别器模块就能够生成高质量的8bits红外图像;预测时只使用主网络,不再使用判别器模块,主网络输入为训练得到的权重文件、以及实用场景图像,实用场景图像为14bits红外图像数据,实用场景图像通过训练好的主网络生成8bits红外图像数据。
2.根据权利要求1所述的红外图像量化和增强方法,其特征在于,在所述数据准备步骤中,将14bits红外图像数据经过前处理模块、DDE和后处理模块生成8bits红外图像数据,生成的8bits红外图像数据作为标签图像。
3.根据权利要求2所述的红外图像量化和增强方法,其特征在于,在数据准备步骤中,预先统计得到DDE生成8bits红外图像数据对应的14bits红外图像数据的像素值分布;前处理模块将输入的14bits红外图像数据的像素值分布通过非线性映射近似映射为预先统计得到的像素值分布;
前处理模块生成的14bits红外图像数据经过DDE处理后,得到高质量的8bits红外图像数据;
后处理模块针对DDE增强后得到8bits红外图像数据,进行全局的中值滤波去噪和自适应gamma矫正。
4.根据权利要求1所述的红外图像量化和增强方法,其特征在于,在所述训练步骤中,输入主网络的14bits红外图像数据的图像分辨率为512x512,其中每个像素值为14bits红外图像数据归一化到[0,1]的值,首先通过一个Conv 3x3生成一个256x256x2C的特征图,作为高尺度的特征图,该高尺度的特征图分别通过一个Conv 3x3生成一个128x128x4C的中尺度特征图且通过一个Deconv 1x1生成一个256x256x2C特征图,128x128x4C的中尺度特征图通过一个Conv 3x3生成一个64x64x8C的低尺度特征图且通过一个Deconv 2x2生成一个256x256x2C特征图,64x64x8C的低尺度特征图通过一个Deconv 4x4生成一个256x256x2C的特征图,经过不同尺度但相同分辨率的特征图进行逐元素相加取平均,最终生成一个256x256x2C的特征图,再通过一个Deconv 2x2生成一个与原始分辨率相同的8bits红外图像;
Conv 3x3表示3x3卷积,Deconv 1x1表示1x1反卷积,Deconv 2x2表示2x2反卷积,Deconv 4x4表示4x4反卷积。
5.根据权利要求4所述的红外图像量化和增强方法,其特征在于,在所述训练步骤中,对主网络进行损失约束。
6.根据权利要求5所述的红外图像量化和增强方法,其特征在于,对主网络进行损失约 束使用均方误差函数,均方误差函数如公式5-1所示,其中
Figure 555706DEST_PATH_IMAGE001
为原始14bits红外图像数据,
Figure 738426DEST_PATH_IMAGE002
为8bits的标签图像数据;
Figure 49321DEST_PATH_IMAGE003
(5-1)。
7.根据权利要求1所述的红外图像量化和增强方法,其特征在于,在所述训练步骤中,将主网络生成的8bits红外图像和标签图像输入判别器模块,标签图像和主网络生成的8bits红外图像为两个512x512xC的原始数据,通过将两个512x512xC的原始数据拼接成512x512x2C的拼接图像,拼接图像通过堆叠的Conv 3x3卷积生成28x28x1特征图,最后通过Sigmoid函数输出元素值为(0,1)之间的特征图;使用结构相似度作为判别器模块的约束,Conv 3x3表示3x3卷积。
8.根据权利要求7所述的红外图像量化和增强方法,其特征在于,使用结构相似度作为 判别器模块的约束,如公式5-2所示,其中
Figure 710110DEST_PATH_IMAGE004
Figure 55641DEST_PATH_IMAGE005
分别表示图像块的均值和方差,
Figure 143682DEST_PATH_IMAGE006
表示图 像块x和图像块y的协方差;
Figure 941874DEST_PATH_IMAGE007
(5-2)。
9.根据权利要求1所述的红外图像量化和增强方法,其特征在于,在所述训练步骤中,采用离线知识蒸馏的方式提升主网络的推理速度,将主网络作为教师网络,教师网络用于指导学生网络生成相似图像;14bits红外图像数据分别通过教师网络和学生网络生成各自的特征向量,通过判别器判断两种特征向量的差异,使得学生网络能够学习到教师网络的特征分布,最终推理的时候,使用学生网络替代教师网络。
10.根据权利要求9所述的红外图像量化和增强方法,其特征在于,所述判别器为VGG网络,选用Shuffle Net v3作为学生网络。
11.根据权利要求1至10任一项所述的红外图像量化和增强方法,其特征在于,将主网 络生成的质量较高的8bits红外图像称为图像y,将图像y切分成大小相同的单元格,再对相 邻的单元格进行分组,每次选择图像y中相邻的两个分组,再对这两个相邻的分组内的单元 格进行随机采样,随机采样的操作称为采样器
Figure 406353DEST_PATH_IMAGE008
;第一部分对图像y使用采样器
Figure 340811DEST_PATH_IMAGE008
进行多次采样,最终生成训练图像对
Figure 142632DEST_PATH_IMAGE009
,其中
Figure 428119DEST_PATH_IMAGE010
为训练数据,
Figure 430711DEST_PATH_IMAGE011
为标签数据;
Figure 485254DEST_PATH_IMAGE010
通过去噪网络
Figure 180678DEST_PATH_IMAGE012
生成相应的去噪图像
Figure 687882DEST_PATH_IMAGE013
;第二部分先将图像y输 入到去噪网络进行处理生成图像
Figure 494164DEST_PATH_IMAGE014
,再对去噪后的图像用采样器
Figure 403215DEST_PATH_IMAGE008
进行采样,生成 图像对
Figure 3960DEST_PATH_IMAGE015
;最终使用正则化损失来训练去噪网络,去噪网络的损失函数 如公式5-3所示
Figure 264040DEST_PATH_IMAGE016
(5-3)
Figure 608434DEST_PATH_IMAGE017
(5-4)
Figure 371991DEST_PATH_IMAGE018
(5-5)
Lrec表示L2损失函数,Lreg为正则项,a为控制正则化强度的手工变量。
12.一种红外图像量化和增强系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-11中任一项所述红外图像量化和增强方法的步骤。
13.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-11中任一项所述的红外图像量化和增强方法的步骤。
CN202211195534.5A 2022-09-29 2022-09-29 红外图像量化和增强方法、系统及存储介质 Active CN115272140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211195534.5A CN115272140B (zh) 2022-09-29 2022-09-29 红外图像量化和增强方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211195534.5A CN115272140B (zh) 2022-09-29 2022-09-29 红外图像量化和增强方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115272140A true CN115272140A (zh) 2022-11-01
CN115272140B CN115272140B (zh) 2023-01-17

Family

ID=83756484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211195534.5A Active CN115272140B (zh) 2022-09-29 2022-09-29 红外图像量化和增强方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115272140B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103402085A (zh) * 2013-07-19 2013-11-20 哈尔滨工业大学深圳研究生院 一种基于视频可伸缩性编码压缩的模式选择方法及系统
JP2017053699A (ja) * 2015-09-09 2017-03-16 国立大学法人岐阜大学 物質判別に用いる近赤外画像撮像用の波長決定方法および近赤外画像を用いた物質判別方法
CN111050174A (zh) * 2019-12-27 2020-04-21 清华大学 图像压缩方法、装置及系统
CN111787323A (zh) * 2020-05-23 2020-10-16 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
US20210112261A1 (en) * 2019-10-10 2021-04-15 Lg Electronics Inc. Method and apparatus for compressing or restoring image
CN112785661A (zh) * 2021-01-12 2021-05-11 山东师范大学 基于融合感知损失的深度语义分割图像压缩方法及系统
CN112991177A (zh) * 2021-03-23 2021-06-18 数量级(上海)信息技术有限公司 一种基于对抗神经网络的红外图像超分辨率方法
CN113014927A (zh) * 2021-03-02 2021-06-22 三星(中国)半导体有限公司 图像压缩方法和图像压缩装置
CN113422965A (zh) * 2021-06-04 2021-09-21 核芯互联科技(青岛)有限公司 一种基于生成对抗网络的图像压缩方法及装置
CN113947136A (zh) * 2021-09-30 2022-01-18 清华大学 图像压缩和分类方法、装置及电子设备
CN114202017A (zh) * 2021-11-29 2022-03-18 南京航空航天大学 基于条件生成对抗网络的sar光学图像映射模型轻量化方法
CN114881884A (zh) * 2022-05-24 2022-08-09 河南科技大学 一种基于生成对抗网络的红外目标样本增强方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103402085A (zh) * 2013-07-19 2013-11-20 哈尔滨工业大学深圳研究生院 一种基于视频可伸缩性编码压缩的模式选择方法及系统
JP2017053699A (ja) * 2015-09-09 2017-03-16 国立大学法人岐阜大学 物質判別に用いる近赤外画像撮像用の波長決定方法および近赤外画像を用いた物質判別方法
US20210112261A1 (en) * 2019-10-10 2021-04-15 Lg Electronics Inc. Method and apparatus for compressing or restoring image
CN111050174A (zh) * 2019-12-27 2020-04-21 清华大学 图像压缩方法、装置及系统
US11153566B1 (en) * 2020-05-23 2021-10-19 Tsinghua University Variable bit rate generative compression method based on adversarial learning
CN111787323A (zh) * 2020-05-23 2020-10-16 清华大学 一种基于对抗学习的可变比特率生成式压缩方法
CN112785661A (zh) * 2021-01-12 2021-05-11 山东师范大学 基于融合感知损失的深度语义分割图像压缩方法及系统
CN113014927A (zh) * 2021-03-02 2021-06-22 三星(中国)半导体有限公司 图像压缩方法和图像压缩装置
CN112991177A (zh) * 2021-03-23 2021-06-18 数量级(上海)信息技术有限公司 一种基于对抗神经网络的红外图像超分辨率方法
CN113422965A (zh) * 2021-06-04 2021-09-21 核芯互联科技(青岛)有限公司 一种基于生成对抗网络的图像压缩方法及装置
CN113947136A (zh) * 2021-09-30 2022-01-18 清华大学 图像压缩和分类方法、装置及电子设备
CN114202017A (zh) * 2021-11-29 2022-03-18 南京航空航天大学 基于条件生成对抗网络的sar光学图像映射模型轻量化方法
CN114881884A (zh) * 2022-05-24 2022-08-09 河南科技大学 一种基于生成对抗网络的红外目标样本增强方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAVID PEREZ-GUAITA 等: "Infrared-based quantification of clinical parameters", 《TRENDS IN ANALYTICAL CHEMISTRY》 *
DAZHI ZHANG 等: "A Generative Adversarial Network with Dual Discriminators for Infrared and Visible Image Fusion Based on Saliency Detection", 《MATHEMATICAL PROBLEMS IN ENGINEERING》 *
于恒等: "基于深度学习的图像压缩算法研究综述", 《计算机工程与应用》 *
刘泉: "基于生成式对抗网络的图像压缩方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆紫箫: "基于深度学习的乳腺癌病理图像量化与影像基因组学分析", 《中国博士学位论文全文数据库 医药卫生科技辑》 *

Also Published As

Publication number Publication date
CN115272140B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
Li et al. Single image dehazing via conditional generative adversarial network
CN112233038B (zh) 基于多尺度融合及边缘增强的真实图像去噪方法
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
US20230080693A1 (en) Image processing method, electronic device and readable storage medium
CN111754438B (zh) 基于多分支门控融合的水下图像复原模型及其复原方法
CN111260584A (zh) 基于gan网络的水下退化图像增强的方法
CN111079764B (zh) 一种基于深度学习的低照度车牌图像识别方法及装置
CN111402146A (zh) 图像处理方法以及图像处理装置
CN111915530A (zh) 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法
CN111507909A (zh) 一种有雾图像清晰化的方法、装置及存储介质
CN112150379A (zh) 基于感知判别增强生成对抗网络的图像去雾方法及装置
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
Feng et al. URNet: A U-Net based residual network for image dehazing
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
Zhang et al. Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement
CN116452469B (zh) 一种基于深度学习的图像去雾处理方法及装置
CN111275642B (zh) 一种基于显著性前景内容的低光照图像增强方法
CN116596792B (zh) 一种面向智能船舶的内河雾天场景恢复方法、系统及设备
CN115272140B (zh) 红外图像量化和增强方法、系统及存储介质
CN116309213A (zh) 一种基于生成对抗网络的高实时多源图像融合方法
CN111754412A (zh) 构建数据对的方法、装置及终端设备
Zeng et al. Single image motion deblurring based on modified denseNet
CN114698398A (zh) 图像处理方法、图像处理装置、电子设备及可读存储介质
Jin et al. Color Correction and Local Contrast Enhancement for Underwater Image Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant