CN116612013B - 一种红外图像超分方法及其移植至前端设备的方法 - Google Patents
一种红外图像超分方法及其移植至前端设备的方法 Download PDFInfo
- Publication number
- CN116612013B CN116612013B CN202310883084.7A CN202310883084A CN116612013B CN 116612013 B CN116612013 B CN 116612013B CN 202310883084 A CN202310883084 A CN 202310883084A CN 116612013 B CN116612013 B CN 116612013B
- Authority
- CN
- China
- Prior art keywords
- image
- loss function
- model
- representing
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 61
- 239000011159 matrix material Substances 0.000 claims description 23
- 239000010410 layer Substances 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 239000002356 single layer Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims 1
- 230000008447 perception Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012549 training Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明涉及红外图像处理领域,公开了一种红外图像超分方法及其移植至前端设备的方法,红外图像超分方法通过图像生成器生成高分辨率图像,图像生成器的损失函数包括图像梯度差分损失,图像梯度差分损失函数为图像生成器生成图像与真实高分辨率图像在横向和纵向的梯度差异之和。图像梯度差分损失能够捕捉到图像中的边缘、纹理等细节信息,从而大大加强了红外图像的细节信息,提高了清晰度,提高了红外图像的增强效果。
Description
技术领域
本发明涉及红外图像处理领域,特别涉及一种红外图像超分方法及将红外图像超分方法移植至前端设备的方法。
背景技术
红外成像技术有着目标探测能力强、抗干扰能力强等优点,在恶劣天气状况下也能够很好地探测到目标,因此被广泛应用于各个行业。但是由于成像原理等技术上的限制,红外探测器获取的原始图像包含的纹理信息较少,并且大部分红外设备成像的分辨率较低,图像中物体的边缘信息不明显,视觉效果较差,不利于后续如图像分析等工作的开展,因此,对于红外图像进行增强超分处理具有重要意义。目前传统算法依然是增强红外图像信息的主流方法,包括对红外图像进行锐化、提高红外图像的对比度等方法,但这类方法的鲁棒性较差,使用有较大的局限性,而且增强的效果不够明显。
另外,目前大部分红外设备都是基于前端产品进行集成封装,当前需要考虑算法应用的载体,无法仅限于服务器端,前端设备采集图像到后端的通信费用是非常昂贵的。
因此,如何将红外图像超分方法应用至前端设备,也是急需解决的技术问题。
本背景技术所公开的上述信息仅仅用于增加对本申请背景技术的理解,因此,其可能包括不构成本领域普通技术人员已知的现有技术。
发明内容
本发明提出了一种红外图像超分方法,解决了现有算法图像增强效果不够明显的技术问题。
本发明提出了一种红外图像超分方法移植至前端设备的方法,解决了红外图像超分方法无法应用至前端设备的技术问题。
为实现上述发明目的,本发明采用下述技术方案予以实现:
一种红外图像超分方法,所述方法包括以下步骤:
S1:输入图像;
S2:通过图像生成器对所述输入图像进行处理得到生成图像;
S3:输出所述生成图像;
所述图像生成器为通过图像判别器和损失函数优化的图像生成器;所述图像判别器用于评估所述图像生成器生成的图像与真实高分辨率图像之间的相似度;所述图像生成器的损失函数包括图像梯度差分损失函数,所述图像梯度差分损失函数为所述生成图像与所述真实高分辨率图像在横向和纵向的梯度差异之和。
如上所述的红外图像超分方法,所述图像梯度差分损失函数
其中,Yi,j表示真实高分辨率图像第i行第j列的像素点的值;Yi-1,j表示真实高分辨率图像第i-1行第j列的像素点的值;Yi,j-1表示真实高分辨率图像第i行第j-1列的像素点的值;表示生成图像在第i行第j列像素点的值;/>表示生成图像第i-1行第j列像素点的值;/>表示生成图像在第i行第j-1列像素点的值;α表示一个大于等于1的整数。
如上所述的红外图像超分方法,所述图像生成器的损失函数包括距离损失函数,所述距离损失函数
其中,y表示所述真实高分辨率图像的像素矩阵,表示所述图像生成器生成的图像的像素矩阵。
如上所述的红外图像超分方法,所述图像生成器的损失函数包括感知损失函数,所述感知损失函数
其中,VGGi(y)表示所述图像生成器的VGG网络中第i层输出的真实高分辨率图像的像素矩阵,表示所述图像生成器的VGG网络中第i层输出的生成的图像的像素矩阵;wi是其权重参数。
如上所述的红外图像超分方法,所述图像判别器的损失函数包括对抗损失函数所述对抗损失函数
其中,-ED(y)[D(y)]表示所述真实高分辨率图像的平均判别结果;表示所述图像生成器生成的生成图像的平均判别结果;/>表示梯度惩罚项,其中y-表示所述真实高分辨率图像和所述生成图像之间的插值样本,/>表示所述图像判别器在插值样本处的梯度与1的差值的平方。
如上所述的红外图像超分方法,对所述输入图像进行单层卷积操作,所述单层卷积操作的输入维度为b×3×h×w,输出维度为
一种将上述的红外图像超分方法移植至前端设备的方法,将所述图像生成器导出为pt格式的模型,将所述pt格式的模型转换为所述前端设备适配的wk格式的模型;在模型转换的过程中进行矩阵点乘的Mul算子的转换。
如上所述的红外图像超分方法移植至前端设备的方法,将所述pt格式的模型转换为所述前端设备适配的wk格式的模型的方法为:
将所述pt格式的模型转换为onnx格式的模型,将所述onnx格式的模型转换为caffe格式的模型,将所述caffe格式的模型转换为所述前端设备适配的wk格式的模型;
其中,在所述onnx格式的模型转换为所述caffe格式的模型过程中进行矩阵点乘的Mul算子的转换。
如上所述的红外图像超分方法移植至前端设备的方法,在所述onnx格式的模型转caffe格式的模型过程中进行矩阵点乘的Mul算子的转换方法为:
将所述Mul算子转换为所述caffe格式的模型的scale算子,所述Mul算子的常量值写入对应的所述caffe格式的模型的网络层的权重中。
如上所述的红外图像超分方法移植至前端设备的方法,在算子转换过程中进行算子融合优化,将Mul+add结构转换为一个Eltwise算子,系数分别为1和所述Mul算子的常量值。
与现有技术相比,本发明的优点和积极效果是:
本发明红外图像超分方法的图像生成器为通过图像判别器和损失函数优化的图像生成器,图像生成器的损失函数包括图像梯度差分损失,图像梯度差分损失函数为图像生成器生成图像与真实高分辨率图像在横向和纵向的梯度差异之和。图像梯度差分损失能够捕捉到图像中的边缘、纹理等细节信息,从而大大加强了红外图像的细节信息,提高了清晰度,提高了红外图像的增强效果。
本发明将红外图像超分方法移植到前端设备上,可直接在前端设备上对图像进行处理,大大降低了前端设备采集图像并传输到后端设备的通信费用。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程框图。
图2为原始的红外低质量图像。
图3为使用红外图像超分方法及前端设备增强后的图像。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语″中心″、″上″、″下″、″前″、″后″、″左″、″右″、″竖直″、″水平″、″顶″、″底″、″内″、″外″等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
术语″第一″、″第二″仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐合指明所指示的技术特征的数量。由此,限定有″第一″、″第二″的特征可以明示或者隐合地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,″多个″的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语″安装″、″相连″、″连接″应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之″上″或之″下″可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征″之上″、″上方″和″上面″包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征″之下″、″下方″和″下面″包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
本实施例提出了一种红外图像超分方法,是通过修改作为基础算法的Real-ESRGAN网络结构得到的一种优化后的红外图像超分方法,并将优化后的红外图像超分方法移植到前端设备中直接使用,使前端设备可以直接将输入的图像输出为超分增强图像。
下面首先对红外图像超分方法进行说明:
如图1所示,一种红外图像超分方法,包括如下步骤:
S1:输入图像;
S2:通过图像生成器对输入图像进行处理得到生成图像;
S3:输出所述生成图像。
本实施例的关键在于图像生成器为通过特殊方法优化训练的图像生成器。
图像生成器为通过图像判别器和损失函数优化的图像生成器。图像判别器用于评估图像生成器生成的图像与真实高分辨率图像之间的相似度。本实施例的重点在于,对图像生成器的损失函数进行改进,图像生成器的损失函数增加图像梯度差分损失函数。其中,图像梯度差分损失函数为生成图像与真实高分辨率图像在横向和纵向的梯度差异之和。
本实施例为在现有Real-ESRGAN网络结构的基础上,将Real-ESRGAN网络结构的损失函数增加图像梯度差分损失函数,以捕捉图像中的边缘、纹理等细节信息,从而大大加强了红外图像的细节信息,提高了清晰度,提高了红外图像的增强效果。
与传统的像素级别的损失函数相比,本实施例图像梯度差分损失函数能够更好地保留图像的细节信息,从而提高图像质量,这是因为图像梯度能够捕捉到图像中的边缘、纹理等细节信息。
图像梯度损失函数对于图像的处理具有一定的鲁棒性,能够在一定程度上提高模型的泛化能力,使得模型能够处理更加多样化的图像数据。
具体的,图像梯度差分损失函数
其中,Yi,j代表真实高分辨率图像第i行第j列的像素点的值;Yi-1,j代表真实高分辨率图像第i-1行第j列的像素点的值;Yi,j-1代表真实高分辨率图像第i行第j-1列的像素点的值;代表生成图像在第i行第j列像素点的值;/>代表生成图像第i-1行第j列像素点的值;/>代表生成图像在第i行第j-1列像素点的值;α代表一个大于等于1的整数。
图像生成器的损失函数还包括距离损失函数和感知损失函数。
图像生成器生成的图像与真实高分辨率图像之间的距离损失函数
其中,y表示所述真实高分辨率图像的像素矩阵,表示所述图像生成器生成的图像的像素矩阵。
感知损失函数
其中,VGGi(y)表示图像生成器的VGG网络中第i层输出的真实高分辨率图像的像素矩阵,表示图像生成器的VGG网络中第i层输出的生成的图像的像素矩阵;wi是其权重参数。
VGG网络是一种深度卷积神经网络,主要用于特征提取。
VGG损失是一个用于图像风格迁移的损失函数,它是基于VGG网络的,用于衡量生成图像的风格是否与参考图像的风格相似。VGG损失是通过计算生成图像和参考图像在VGG网络中多个卷积层输出的特征图之间的MSE(均方误差)来计算的,这些卷积层的参数在进行风格迁移训练时保持不变。VGG损失可以使得生成图像的风格尽可能地与参考图像的风格相似,从而达到风格迁移的效果。
图像生成器是一种能够生成具有特定风格或特点的新图像的算法或模型。生成器一般包含特征提取(编码器)和特征重构(解码器)。VGG网络仅可进行特征提取,生成器可采用VGG网络作为特征提取部分。
图像判别器的损失函数包括对抗损失函数对抗损失函数
其中,-ED(y)[D(y)]表示真实高分辨率图像的平均判别结果;表示所述图像生成器生成的生成图像的平均判别结果;/>表示梯度惩罚项,其中y-表示真实高分辨率图像和生成图像之间的插值样本,/>表示判别器在插值样本处的梯度与1的差值的平方。
本实施例中,损失函数的计算公式如下所示:
其中,ε、μ和γ是用于平衡不同损失之前的权重系数。
图像生成器采用n倍超分时模型将输入图像进行处理得到高分辨率生成图像,本实施例为了适应前端设备,将n倍超分时模型的pixel-unshuffle操作替换为单层卷积操作。
超分时算法模型分别有两倍和四倍对应的结构,其他倍数都是在此基础上进行resize,由于本实施例中的算法要移植到前端设备上使用,因前端设备的资源有限,因此本实施例中选用两倍超分时模型。
将两倍超分时模型的pixel-unshuffle的作用就是将低分辨率图像的像素重新排列成高分辨率的形式,具体来说,它将低分辨率图像中的像素值按一定规律排列起来,使得相邻的像素之间具有一定的关联性,可以更好地用于超分辨率重建,由于本算法要移植到前端设备中进行使用,而pixel-unshuffle不支持移植,因此将pixel-unshuffle操作替换为单层卷积操作,单层卷积操作的输入维度为b×3×h×w,输出维度为单层卷积操作设置的输入维度和输出维度也是为了更加适配移植到前端设备。
当需要对低分辨率的红外图像转换为高分辨率的超分增强图像时,将低分辨率的红外图像输入基于前述的红外图像超分方法,算法经过处理后输出的图像即为高分辨率的超分增强图像。
本实施例红外图像超分方法网络的构建过程如下所示:
数据准备:采集真实图像作为训练数据集,真实图像包括针对同一场景对应的真实低分辨率图像和真实高分辨率图像,使用真实高分辨率图像作为训练数据集。
使用红外设备拍摄若干张场景图像保存,包括若干张真实低分辨率图像和与之分别对应的真实高分辨率图像,以此得到红外图像数据集。
采集的图像样本数量需要合理选择并包含数据的多样化,如采集1000张红外图像,样本数量能影响训练误差,当样本数量少的时候,虽然训练误差小,但对新样本的适应能力不够好,但如果样本量特别大时消耗计算资源,因此采集图像样本数量需要进行合理选择。
构建算法网络结构:在现有Real-ESRGAN超分算法的基础上,调整网络结构以适配前端设备,修改损失函数提升超分图像质量。
现有Real-ESRGAN的网络结构由两个主要部分组成:生成器和判别器。其中,生成器采用了ResNet(残差网络)的结构,包括8个残差块和4个上采样模块;判别器则使用了WGAN-GP的结构,包括5个卷积层和一个全连接层。
调整网络结构以适配前段设备的方法为,在现有网络结构进行2倍超分增强的过程中,将现有基础模型的pixel_unshuffle操作替换为单层卷积,该卷积层的输入维度为b×3×h×w,输出维度为
修改损失函数的方法为,在现有Real-ESRGAN超分算法的损失函数中加入图像梯度差分损失函数,增强模型对图像边缘轮廓的信息约束,提高模型输出的视觉效果。
改进后的损失函数为:
ε、μ和V是用于平衡不同损失之前的权重系数。
图像生成器生成的图像与真实高分辨率图像之间的距离损失函数
其中,y表示所述真实高分辨率图像的像素矩阵,表示所述图像生成器生成的图像的像素矩阵。
感知损失函数
其中,VGGi(y)表示图像生成器的VGG网络中第i层输出的真实高分辨率图像的像素矩阵,表示图像生成器VGG网络中第i层输出的生成的图像的像素矩阵;wi是其权重参数。
图像判别器的对抗损失函数
其中,-ED(y)[D(y)]表示真实高分辨率图像的平均判别结果;表示所述图像生成器生成的生成图像的平均判别结果;/>表示梯度惩罚项,其中y-表示真实高分辨率图像和生成图像之间的插值样本,/>表示判别器在插值样本处的梯度与1的差值的平方。
图像梯度差分损失函数
其中,Yi,j代表真实高分辨率图像第i行第j列的像素点的值;Yi-1,j代表真实高分辨率图像第i-1行第j列的像素点的值;Yi,j-1代表真实高分辨率图像第i行第j-1列的像素点的值;代表生成图像在第i行第j列像素点的值;/>代表生成图像第i-1行第j列像素点的值;/>代表生成图像在第i行第j-1列像素点的值;α代表一个大于等于1的整数。
对本实施例的算法网络结构加载预训练模型,利用红外图像数据集对算法网络结构进行训练。
Real-ESRGAN采用了一个先前经过预训练的模型来初始化生成器和判别器的参数。这个模型是在大规模自然图像数据集上训练的,在图像质量方面有着良好的表现。
预训练模型为开源的在大数据集上训练的基础模型,在这个基础模型的基础上与本实施例的算法网络结构结合。其中,加载预训练模型过程中,与本实施例算法网络结构不同的网络结构会忽略,同样的网络结构会加载预训练模型的模型参数,以加快本实施例模型的收敛。
将准备好的红外图像数据集输入到加载预训练模型的算法网络结构中进行训练。采用对抗性训练的方式进行训练,即同时训练一个图像生成器和一个图像判别器,使得图像生成器能够生成高质量的图像,并且图像判别器不能够准确地区分生成图像和真实高分辨率图像。
待模型收敛后,得到的图像生成器网络即为本实施例的图像生成器。
使用预训练模型对生成器和判别器进行初始化后,再在红外图像数据集上进行微调。通过多次迭代训练,得到了一个最终的模型,其中,生成器能够将低分辨率图像转换为高分辨率图像,并且生成图像的质量较高,同时判别器能够准确地区分真实图片和生成图片。
在微调过程中,主要是对生成器的参数进行训练,包括网络结构、权重参数和偏置项等,以最小化重建图像与原始高分辨率图像之间的差距。判别器的参数也会经过微调,以更准确地区分真实图片和生成图片。
最终得到的Real-ESRGAN模型能够将低分辨率红外图像转换为高分辨率图像,并且具有较高的图像质量,能够满足实际应用中的需求。
为了使得本实施例的红外图像超分方法直接应用至前端设备,本实施例还提出了一种将红外图像超分方法移植至前端设备的方法:
将图像生成器导出为pt格式的模型,再将pt格式的模型转换为onnx格式的模型,然后将onnx格式的模型转换为caffe格式的模型,最后将caffe格式的模型转换为前端设备适配的wk格式的模型,其中在onnx格式的模型转换为caffe格式的模型过程中进行矩阵点乘的Mul算子的转换。
Mul算子的转换方法为:
在算子转换过程中将Mul算子转换为caffe格式的模型的scale算子,Mul算子的常量值写入对应的caffe格式的模型的网络层的权重中。
在转换过程中进行算子融合优化,将Mul+add结构转换为一个Eltwise算子,系数分别为1和点乘的常量值。
本实施例中,对于矩阵点乘常量的算子转换,由于Mul算子只具有单输入参数,常量无对应输入,无法直接转为caffe格式的Eltwise算子,因此在算子转换过程中进行算子替换,将Mul转换为caffe的scale算子,常量值k=0.2作为权重参数写入value中。
对于Mul+add子图结构,在转换过程中可进行算子融合优化,将Mul+add结构转换为一个Eltwise算子,系数分别为1和Mul算子的常量值。
将Mul+add转换为caffe的eltwise算子,具体如下:
eltwise具有点乘和加法操作,但Mul是单数入加上一个点乘的常量,eltwise不支持单输入。因此将Mul转换eltwise过程时可将eltwise的两个输入相同,然后做加法操作,举例:a=A×0.2==A×0+A×0.2。
add直接转换eltwise,a+b=a+b。
结构融合:现在已将Mul+add==eltwise+eltwise,可以将两个eltwise合成一个。举例:A×0+A×0.2+c×1==A×0.2+C×1,即变成一个eltwise算子层。
在前端设备输入图像为图2时,图像生成器输出的红外超分图像为图3所示。通过图2与图3的对比可以看出,本实施例图像生成器能够捕捉到图像中的边缘、纹理等细节信息,从而大大加强了红外图像的细节信息,提高了清晰度,提高了红外图像的增强效果。
其中,前端设备可以是海思芯片等芯片。
在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种红外图像超分方法,其特征在于,所述方法包括以下步骤:
S1:输入图像;
S2:通过图像生成器对所述输入图像进行处理得到生成图像;
S3:输出所述生成图像;
所述图像生成器为通过图像判别器和损失函数优化的图像生成器;所述图像判别器用于评估所述图像生成器生成的图像与真实高分辨率图像之间的相似度;所述图像生成器的损失函数包括图像梯度差分损失函数,所述图像梯度差分损失函数为所述生成图像与所述真实高分辨率图像在横向和纵向的梯度差异之和,所述图像梯度差分损失函数
其中,Yi,j表示真实高分辨率图像第i行第j列的像素点的值;Yi-1,j表示真实高分辨率图像第i-1行第j列的像素点的值;Yi,j-1表示真实高分辨率图像第i行第j-1列的像素点的值;表示生成图像在第i行第j列像素点的值;/>表示生成图像第i-1行第j列像素点的值;表示生成图像在第i行第j-1列像素点的值;α表示一个大于等于1的整数;
图像生成器的损失函数还包括距离损失函数和感知损失函数,图像判别器的损失函数包括对抗损失函数对抗损失函数
其中,-ED(y)[D(y)]表示真实高分辨率图像的平均判别结果;表示所述图像生成器生成的生成图像的平均判别结果;/>表示梯度惩罚项,其中y-表示真实高分辨率图像和生成图像之间的插值样本,表示判别器在插值样本处的梯度与1的差值的平方;
损失函数的计算公式如下所示:
其中,ε、μ和γ是用于平衡不同损失之前的权重系数。
2.根据权利要求1所述的红外图像超分方法,其特征在于,所述图像生成器的损失函数包括距离损失函数,所述距离损失函数
其中,y表示所述真实高分辨率图像的像素矩阵,表示所述图像生成器生成的图像的像素矩阵。
3.根据权利要求1所述的红外图像超分方法,其特征在于,所述图像生成器的损失函数包括感知损失函数,所述感知损失函数
其中,VGGi(y)表示所述图像生成器的VGG网络中第i层输出的真实高分辨率图像的像素矩阵,表示所述图像生成器的VGG网络中第i层输出的生成的图像的像素矩阵;wi是其权重参数。
4.据权利要求1所述的红外图像超分方法,其特征在于,所述图像判别器的损失函数包括对抗损失函数所述对抗损失函数
其中,-ED(y)[D(y)]表示所述真实高分辨率图像的平均判别结果;表示所述图像生成器生成的生成图像的平均判别结果;/>表示梯度惩罚项,其中y-表示所述真实高分辨率图像和所述生成图像之间的插值样本,/>表示所述图像判别器在插值样本处的梯度与1的差值的平方。
5.根据权利要求1-4任意一项所述的红外图像超分方法,其特征在于,对所述输入图像进行单层卷积操作,所述单层卷积操作的输入维度为b×3×h×w,输出维度为
6.一种将权利要求1-5任意一项所述的红外图像超分方法移植至前端设备的方法,其特征在于,将所述图像生成器导出为pt格式的模型,将所述pt格式的模型转换为所述前端设备适配的wk格式的模型;在模型转换的过程中进行矩阵点乘的M ul算子的转换。
7.根据权利要求6所述的红外图像超分方法移植至前端设备的方法,其特征在于,将所述pt格式的模型转换为所述前端设备适配的wk格式的模型的方法为:
将所述pt格式的模型转换为o n nx格式的模型,将所述o n nx格式的模型转换为caffe格式的模型,将所述caffe格式的模型转换为所述前端设备适配的wk格式的模型;
其中,在所述o n nx格式的模型转换为所述caffe格式的模型过程中进行矩阵点乘的Mul算子的转换。
8.根据权利要求7所述的红外图像超分方法移植至前端设备的方法,其特征在于,在所述o n nx格式的模型转caffe格式的模型过程中进行矩阵点乘的M ul算子的转换方法为:
将所述Mul算子转换为所述caffe格式的模型的scale算子,所述Mul算子的常量值写入对应的所述caffe格式的模型的网络层的权重中。
9.根据权利要求8所述的红外图像超分方法移植至前端设备的方法,其特征在于,
在算子转换过程中进行算子融合优化,将Mul+add结构转换为一个Eltwise算子,系数分别为1和所述Mul算子的常量值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883084.7A CN116612013B (zh) | 2023-07-19 | 2023-07-19 | 一种红外图像超分方法及其移植至前端设备的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310883084.7A CN116612013B (zh) | 2023-07-19 | 2023-07-19 | 一种红外图像超分方法及其移植至前端设备的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612013A CN116612013A (zh) | 2023-08-18 |
CN116612013B true CN116612013B (zh) | 2023-10-31 |
Family
ID=87683878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310883084.7A Active CN116612013B (zh) | 2023-07-19 | 2023-07-19 | 一种红外图像超分方法及其移植至前端设备的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612013B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697697A (zh) * | 2019-03-05 | 2019-04-30 | 北京理工大学 | 基于优化启发的神经网络的光谱成像系统的重构方法 |
CN110675418A (zh) * | 2019-09-26 | 2020-01-10 | 深圳市唯特视科技有限公司 | 一种基于ds证据理论的目标轨迹优化方法 |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
CN111696042A (zh) * | 2020-06-04 | 2020-09-22 | 四川轻化工大学 | 基于样本学习的图像超分辨重建方法 |
CN113205468A (zh) * | 2021-06-01 | 2021-08-03 | 桂林电子科技大学 | 一种基于自注意力机制和gan的水下图像实时复原模型 |
WO2021185225A1 (zh) * | 2020-03-16 | 2021-09-23 | 徐州工程学院 | 基于自适应调整的图像超分辨率重建方法 |
CN115205122A (zh) * | 2022-09-06 | 2022-10-18 | 深圳大学 | 保持结构和纹理的超分图像生成方法、系统、装置和介质 |
WO2022240354A1 (en) * | 2021-05-14 | 2022-11-17 | Lemon Inc. | A high-resolution portrait stylization frameworks using a hierarchical variational encoder |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112907449B (zh) * | 2021-02-22 | 2023-06-09 | 西南大学 | 一种基于深度卷积稀疏编码的图像超分辨率重建方法 |
-
2023
- 2023-07-19 CN CN202310883084.7A patent/CN116612013B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697697A (zh) * | 2019-03-05 | 2019-04-30 | 北京理工大学 | 基于优化启发的神经网络的光谱成像系统的重构方法 |
CN110675418A (zh) * | 2019-09-26 | 2020-01-10 | 深圳市唯特视科技有限公司 | 一种基于ds证据理论的目标轨迹优化方法 |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
WO2021185225A1 (zh) * | 2020-03-16 | 2021-09-23 | 徐州工程学院 | 基于自适应调整的图像超分辨率重建方法 |
CN111696042A (zh) * | 2020-06-04 | 2020-09-22 | 四川轻化工大学 | 基于样本学习的图像超分辨重建方法 |
WO2022240354A1 (en) * | 2021-05-14 | 2022-11-17 | Lemon Inc. | A high-resolution portrait stylization frameworks using a hierarchical variational encoder |
CN113205468A (zh) * | 2021-06-01 | 2021-08-03 | 桂林电子科技大学 | 一种基于自注意力机制和gan的水下图像实时复原模型 |
CN115205122A (zh) * | 2022-09-06 | 2022-10-18 | 深圳大学 | 保持结构和纹理的超分图像生成方法、系统、装置和介质 |
Non-Patent Citations (4)
Title |
---|
双判别生成对抗网络的红外图像超分辨重建;邢志勇;肖儿良;简献忠;;小型微型计算机系统(第03期);全文 * |
基于改进生成式对抗网络的图像超分辨率重建;米恒;贾振堂;;计算机应用与软件(第09期);全文 * |
基于生成对抗网络的单帧红外图像超分辨算法;邵保泰;汤心溢;金璐;李争;;红外与毫米波学报(第04期);全文 * |
基于生成对抗网络的多用途图像增强鲁棒算法;李英;李臻;;计算机应用与软件(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612013A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119780B (zh) | 基于生成对抗网络的高光谱图像超分辨重建方法 | |
CN111145131B (zh) | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 | |
Zhang et al. | Remote sensing image spatiotemporal fusion using a generative adversarial network | |
CN110363215B (zh) | 基于生成式对抗网络的sar图像转化为光学图像的方法 | |
Song et al. | Spatiotemporal satellite image fusion using deep convolutional neural networks | |
CN111192200A (zh) | 基于融合注意力机制残差网络的图像超分辨率重建方法 | |
CN112184577B (zh) | 基于多尺度自注意生成对抗网络的单幅图像去雾方法 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN105657402A (zh) | 一种深度图恢复方法 | |
Qu et al. | A dual-branch detail extraction network for hyperspectral pansharpening | |
CN113673590A (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
Li et al. | Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN | |
CN115511767B (zh) | 一种自监督学习的多模态图像融合方法及其应用 | |
CN111583113A (zh) | 一种基于生成对抗网络的红外图像超分辨率重建方法 | |
Xie et al. | Trainable spectral difference learning with spatial starting for hyperspectral image denoising | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
Long et al. | Dual self-attention Swin transformer for hyperspectral image super-resolution | |
Deng et al. | Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution | |
CN109064402A (zh) | 基于增强非局部总变分模型先验的单幅图像超分辨率重建方法 | |
CN107451986A (zh) | 一种基于融合技术的单幅红外图像增强方法 | |
CN112508786B (zh) | 面向卫星图像的任意尺度超分辨率重建方法及系统 | |
CN112529828B (zh) | 参考数据非敏感的遥感影像时空融合模型构建方法 | |
CN113744134A (zh) | 基于光谱解混卷积神经网络的高光谱图像超分辨方法 | |
CN116612013B (zh) | 一种红外图像超分方法及其移植至前端设备的方法 | |
CN117173025A (zh) | 基于跨层混合注意力Transformer的单帧图像超分辨率方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |