CN116503260B - 一种图像超分辨率重建方法、装置和设备 - Google Patents
一种图像超分辨率重建方法、装置和设备 Download PDFInfo
- Publication number
- CN116503260B CN116503260B CN202310785170.4A CN202310785170A CN116503260B CN 116503260 B CN116503260 B CN 116503260B CN 202310785170 A CN202310785170 A CN 202310785170A CN 116503260 B CN116503260 B CN 116503260B
- Authority
- CN
- China
- Prior art keywords
- layer
- module
- feature
- image
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 23
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 22
- 230000006835 compression Effects 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000010354 integration Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 6
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种图像超分辨率重建方法、装置和设备。本申请提供的图像超分辨率重建方法,包括:对原始图像进行特征提取,得到特征向量,将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习,通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征,通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。本申请提供的图像超分辨率重建方法、装置和设备,可使重建后的图像质量更高。
Description
技术领域
本发明涉及图像重建技术,尤其涉及一种图像超分辨率重建方法、装置和设备。
背景技术
随着人们对图像分辨率的要求的提高,图像超分辨率问题,尤其是单图像超分辨率重建问题,已逐渐成为一个研究热点问题。
在目前基于深度学习的超分辨率重建算法中,基于卷积神经网络的图像超分辨率模型通过预测低分辨率图像和高分辨率图像之间的非线性映射,重建出高分辨率图像。但该模型的网络深度不够、图像纹理和细节不足,重建后的图像的质量不高。
发明内容
本申请提供一种图像超分辨率重建方法,用以解决现有技术重建后的图像质量不高的问题。
本申请第一方面提供一种图像超分辨率重建方法,所述方法包括:
对原始图像进行特征提取,得到特征向量;
将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习;
通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征;
通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。
本申请第二方面提供一种图像超分辨率重建装置,所述装置包括提取模块和处理模块,其中,
所述提取模块,用于对原始图像进行特征提取,得到特征向量;
所述处理模块,用于将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习;
所述处理模块,还用于通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征;
所述处理模块,还用于通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。
本申请第三方面提供一种图像超分辨率模型重建设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请第一方面提供的任一项所述方法的步骤。
本申请提供的图像超分辨率重建方法、装置和设备,通过对原始图像进行特征提取,得到特征向量,进而将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习,从而通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征,并通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。这样,在特征提取时,充分融合了低频特征和高频特征,可充分从原始图像中捕捉到更多纹理细节,从而使重建后的图像质量更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的图像超分辨率重建方法实施例一的流程图;
图2为本申请一示例性实施例示出的图像重建模型的结构示意图;
图3为本申请一示例性实施例示出的注意力残差模块的结构示意图;
图4为本申请一示例性实施例示出的特征增强残差模块的结构示意图;
图5为本申请一示例性实施例示出的鉴别器网络的结构示意图;
图6为本申请一示例性实施例示出的一种生成器网络的结构示意图;
图7为本申请一示例性实施例示出的重建后的目标图像的对比结果图;
图8为本申请另一示例性实施例示出的重建后的目标图像的对比结果图;
图9为本申请再一示例性实施例示出的重建后的目标图像的对比结果图;
图10为本申请一示例性实施例示出的图像超分辨率重建装置所在设备的硬件结构图;
图11为本申请提供的图像超分辨率重建装置实施例一的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在目前基于深度学习的超分辨率重建算法中,基于卷积神经网络的图像超分辨率模型SRCNN通过预测低分辨率图像和高分辨率图像之间的非线性映射重建出高分辨率图像;基于生成对抗网络的图像超分辨率模型SRGAN首次提出了内容损失和对抗损失相结合,提升了生成图像的感知相似性;引入Wasserstein距离作为损失函数训练的WGAN网络模型提高了训练的稳定性;以SRGAN网络结构为基础的图像超分辨率模型ESRGAN以SRGAN网络结构为基础,去除掉生成器中所有的批归一化层,并提出用残差密集块代替原始残差块来训练一个非常深的网络,将GAN的鉴别器改为相对鉴别器,进一步提升了视觉质量;由层联级的全卷积GAN金字塔网络组成的图像超分辨率模型SinGAN从单个自然图像中捕获内部不同补丁的分布来学习强大的生成模型,生成多尺度的超分辨率图像视觉质量均有不错的提升。
针对上述方案的基于卷积神经网络的图像超分辨率模型SRCNN的网络,研究发现该网络深度不够,图像纹理和细节不足,重建后的图像的质量不高。
本申请提供一种图像超分辨率重建方法,通过对原始图像进行特征提取,得到特征向量,进而将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习,从而通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征,并通过所述重建模型对所述融合特征进行上采样处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。这样,充分融合了低频特征和高频特征,可充分从原始图像中捕捉到更多纹理细节,从而使重建后的图像质量更高。
下面将给出具体的实施例,用以详细介绍本申请提供的技术方案。
图1为本申请提供的图像超分辨率重建方法实施例一的流程图。请参照图1,本申请提供的方法,可以包括:
S101、对原始图像进行特征提取,得到特征向量。
本申请提供的图像超分辨率重建方法和装置,可以应用在图像超分辨率重建设备中,该设备可以为电脑、服务器等,本申请中,不对该设备的具体形式进行限定。
具体的,特征提取的方法可以是传统的特征提取方法或者基于神经网络的特征提取方法。例如,采用传统的特征提取方法提取特征时,可采用方向梯度直方图和局部二值模式。再例如,当采用基于神经网络的特征提取方法进行特征提取时,该神经网络可以是独立的用于进行特征提取的网络,也可以是与图像重建模型集成在一起的神经网络。例如,在一种可能的实现方式中,采用基于生成对抗网络的图像超分辨率模型进行特征提取。
S102、将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习。
具体的,图像重建模型可以包括生成器网络和鉴别器网络,其中,生成器网络包括注意力残差模块和特征增强残差模块。例如,图2为本申请一示例性实施例示出的图像重建模型的结构示意图。
请参照图2,在图2所示示例中,特征提取模块集成在图像重建模型中,用于对输入的原始图像进行特征提取,得到特征向量。
进一步地,注意力残差模块,可以用来提取特征向量中的高频特征。需要说明的是,该注意力残差模块为基于注意力机制设置的模块。具体的,注意力机制的具体内容指通过重新评估特征的重要性,将不同重要程度的特征重新整合到卷积运算中,这样使模型关注重要程度较高的特征,有效地增强了模型的表达能力。
具体的,基于注意力机制的注意力残差模块,可以其由Style Pooling和StyleIntegration两个部分组成。Style Pooling部分,用于从特征映射的每个通道提取风格特征向量,然后通过独立于通道的Style Integration部分计算出每个风格特征的校准权重,然后将每个风格特征的校准权重整合得到加权特征图。
具体的,特征增强残差模块用于增多图像的浅层特征,使特征包含更丰富的信息。
S103、通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征。
具体的,可以采用concat拼接层实现特征融合,有关concat拼接层的具体工作原理参见相关技术中的描述,此处不再赘述。
S104、通过所述重建模型对所述融合特征进行上采样处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。
具体的,可通过亚像素卷积层实现上采样和重建处理。进一步地,目标图像的分辨率高于所述原始图像的分辨率,例如,原始图像的分辨率为1280 × 720个像素,目标图像的分辨率为1920 ×1080个像素,本申请提供的方法,在提高分辨率的同时,图像质量不受影响。
需要说明的是,参照图2,在图2所示示例中,重建模块可以为亚像素卷积层,用于对所述融合特征进行上采样处理,得到目标图像。
本实施例提供的图像超分辨率重建方法,通过对原始图像进行特征提取,得到特征向量,进而将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习,从而通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征,并通过所述重建模型对所述融合特征进行上采样处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。这样,充分融合了低频特征和高频特征,可充分从原始图像中捕捉到更多纹理细节,从而使重建后的图像质量更高。
可选地,图3为本申请一示例性实施例示出的注意力残差模块的结构示意图。请参照图3,在图3所示示例中,所述注意力残差模块由至少一个注意力残差块组成,每个所述注意力残差块包括依序连接的原始残差块、池化层、integration整合层、注意力机制层和concat拼接层组成,其中,所述注意力机制层还与所述原始残差块的输出端连接;所述concat拼接层还与所述注意力残差模块的输入端连接。
其中,所述原始残差块和所述池化层,用于对输入的所述特征向量进行特征提取,得到池化特征,所述integration整合层,用于计算所述池化特征对应的校准权重,所述注意力机制层,用于对所述输入特征和所述校准权重进行处理,得到处理后的加权特征,所述concat拼接层,用于对所述输入特征和所述加权特征进行融合处理,得到所述高频特征。
具体的,注意力残差模块由至少一个注意力残差块组成,例如,其包含的注意力残差块的数量可以为2、3、4、10等。可选地,在一种可能的实现方式中,其包含的注意力残差块的数量为5。
进一步地,所述原始残差块和所述池化层,用于对输入的所述特征向量进行特征提取,得到池化特征。可选地,一实施例中,所述原始残差块由至少一个计算块组成,每个所述计算块由依序连接的第一卷积层和第一非线性连接层组成,所述第一卷积层的卷积核的大小为3×3。
需要说明的是, 原始残差块包含的计算块的数量可以为2、3、5、11等,例如,在图3所示示例中,原始残差块包含的计算块的数量为2。
进一步地,请继续参照图3,在图3所示示例中,所述池化层可以由StdPool标准池化层和AvgPool平均池化层两个部分组成。
进一步地,所述integration整合层,用于计算所述池化特征对应的校准权重。参见图3,在图3所示例中,所述integration整合层可以包括通道特征校准CFC层(Channel-wise Feature Calibration,简称CFC,)和激活函数Sigmoid层。
需要说明的是,本申请提供的图像超分辨率重建方法,在设置integration整合层时,删除了归一化BN层(Batch Normalization,简称BN),这样,可提高图像重建模型的训练稳定性。
本实施例提供的方法,给出了一种注意力残差模块的具体结构图,通过该方法,可基于注意力残差模块提取高频特征,进而基于高频特征进行图像超分辨率重建。
可选地,图4为本申请一示例性实施例示出的特征增强残差块的结构示意图。请参照图4,所述特征增强残差模块包括增强模块、压缩模块和融合模块;其中,所述增强模块、所述压缩模块和所述融合模块依序连接、且所述融合模块还与所述特征增强残差模块的输入端连接;所述增强模块,用于对所述特征向量进行增强处理,以得到增强特征;其中,所述增强特征的通道数大于所述特征向量的通道数;所述压缩模块,用于对所述增强特征进行压缩处理,以得到压缩特征;其中,所述压缩特征的通道数等于所述特征向量的通道数;所述融合模块,用于对输入的所述特征向量和所述压缩模块输出的压缩特征进行融合处理,得到所述低频特征。
具体的,参照图4,特征增强残差模块包括增强模块和压缩模块,增强模块,用于增强图像的浅层特征,使特征包含更多的信息;压缩模块,用于将增强模块输出的特征进行压缩,以压缩冗余信息,减少整个模型的负载量。
可选地,参照图4,在一种可能的实现方式中,所述增强模块包括依序连接的第二卷积层、第二非线性全连接层、第三卷积层和拼接层,所述拼接层还与所述第二非线性全连接层的输出端连接。所述压缩模块包括依序连接的第四卷积层、第三非线性全连接层、第五卷积层组成。
具体的,参照图4,所述第二卷积层和所述第三卷积层的卷积核的大小为3×3,输入和输出通道数均为64。输入特征经过第二卷积层后与第三卷积层执行拼接操作和跳跃连接操作(通过拼接层实现)以复用特征。
进一步地,请继续参照图4,所述第四卷积层的卷积核的大小为1×1,所述第五卷积层的卷积核的大小为3×3,增强模块输出的特征经过第四卷积层得到通道数为128的特征向量,最后将特征向量/>送入到第五卷积层得到学习后的浅层特征,输出的通道数为64,最后,浅层特征(压缩特征)和输入该特征增强残差模块的特征向量进行融合,得到低频特征。
需要说明的是,第二卷积层和第四卷积层的后面分别添加非线性连接层(通过ReLU激化函数实现)来增加卷积层之间的非线性关系。
本实施例提供的方法,给出了一种特征增强残差模块的具体结构图,通过该方法,可基于特征增强残差模块提取高频特征,进而基于高频特征进行图像超分辨率重建。
请继续参照图2,图像重建模型包括鉴别器网络,鉴别器网络试图区分重建后的超分辨率图像和真实图像的差异,以优化图像重建模型。图5为本申请一示例性实施例示出的鉴别器网络的结构示意图,其以生成器网络生成的目标图像和原始图像作为输入,送入全连接层和Sigmoid 激活函数得到二分类的置信概率。
例如,在一可能的实现方式中,鉴别器网络主要使用 7 组相同的网络块组成,每个网络块由卷积层和非线性连接层组成,每个卷积层的卷积核均为3×3。
可选地,在一可能的实现方式中,所述图像重建网络的鉴别器网络的损失函数LD为:
,
其中,
,
为服从[0,1]正态分布的随机向量,默认k=2,p=6。
本申请提供的图像超分辨率重建方法,通过将鉴别器网络的损失函数设置为上述函数,可提高图像重建模型训练的稳定性。
请继续参照图2,在一可能的实现方式中,本申请提供的图像超分辨率重建方法,生成器网络的损失函数为:
,
具体的,参见上面的公式,生成器损失函数由内容损失Lmse、对抗损失Ladv、感知损失Lper和正则化损失LTV组成。
进一步地,内容损失Lmse为:
,
其中,W、H分别表示原始图像的宽和高;
表示目标图像;
G(I LR , θ)为原始图像和目标图像之间的映射函数。
Lmse属于L2型损失函数,该函数用于计算样本目标值与预测值之间误差的平方。
进一步地,对抗损失Ladv为:
,
其中,D(G(I LR , θ))表示目标图像为原始图像的概率,为超参数。
进一步地,感知损失Lper为:
,
其中,φi,j表示VGG16网络中第i个最大池化层之前的第j个卷积得到的特征映射。W和H描述了VGG网络中各个特征映射的大小,为超参数。与SRGAN相同,本申请使用预训练的VGG网络的RelU激活层来定义内容损失,这里使用的是16层VGG网络。先利用VGG16网络提取深层次的特征,然后再使用内容损失计算来解决图片过度平滑、纹理细节不高等问题。
进一步地,正则化损失LTV为:
,
其中为超参数。训练过程中通过优化TV正则项损失来减小图像中相邻像素的差异,提升图像的清晰度。
本申请在生成器网络的损失函数中加入了正则化损失,可控制重建后的目标图像的水平和垂直的像素差异,保持目标图像的光滑性,防止产生伪影现象。
下面给出一个具体的实施例,用以详细介绍本申请的技术方案。 图6为本申请一示例性实施例示出的一种生成器网络的结构示意图。请参照图6,为了验证本申请提供的图像重建方法的有效性,采用图6所示的图像重建模型,分别与模型1到模型4进行比较,其中,模型1到模型4分别为Ground Truth模型、Bicubic模型、SRGAN模型、SRGAN加SRM模型、双残差分支结构加SRM模型。
需要说明的是,在本例中,采用Set5,Set14,BSD100进行测试。
表1为各超分辨率图像重建方法的单张图像重建时间对比表,表2为各超分辨率图像重建方法PSNR平均值评估表、表3为各超分辨率图像重建方法SSIM平均值定量评估表。
表1 各超分辨率图像重建方法的单张图像重建时间对比表
表2 各超分辨率图像重建方法PSNR平均值评估表
表3 各超分辨率图像重建方法SSIM平均值定量评估表
需要说明的是,在表1、表2、表3中,proposed为本申请提供的图像重建模型。从表1可以分析出,set5下,ESPCN相比于SRGAN和ESRGAN的测试时间要快得多,而申请提供的方法要比SRGAN快0.9s左右;在set14上,本申请提供的方法要平均快0.5s 左右。
进一步地,在重建效率方面,本申请提供的图像超分辨率重建方法较 SRGAN 有了比较明显的提高。表 2 和表 3 可以看出,相比于插值的方法,基于深度学习的超分辨率图像重建方法在PSNR和SSIM两个指标上有着显著的优势,因为它可以对图像的细节特征具有更强的学习能力,充分地学习了样本的高频信息。而本申请提供的方法与SRGAN和ESRGAN比较,PSNR最高提升1.88dB,SSIM提升0.02,均有一定程度的提高。除了set14数据集的SSIM略高于本申请方法以外,其余各项结果均较SRGAN有较大幅度的提升。相比ESRGAN,除了Set5数据集的PSNR值,其它指标均高于ESRGAN,可以证明本申请提供的方法是有效的。
图7为本申请一示例性实施例示出的重建后的目标图像的对比结果图;图8为本申请另一示例性实施例示出的重建后的目标图像的对比结果图,图9为本申请再一示例性实施例示出的重建后的目标图像的对比结果图。参见前面的描述,图7、图8和图9中,将本申请提供的模型,分别与模型1到模型54进行比较,输出的目标图像如图所示,其中,模型1到模型5分别为Ground Truth模型、Bicubic模型、SRGAN模型、SRGAN加SRM模型、双残差分支结构加SRM模型。
请参照图7、图8和图9,图7、图8、图9 分别展示了Set5、Set14、Urban100三个数据集下采用不同图像超分辨率重建方法重建后的目标图像的对比结果图。从截取区域可以看出,模型2重建的图像比较模糊,模型3重建的图像相对较好,重建效果较明显。而采用本申请提供的方法,重建得到的图像相比于模型3的重建图像,恢复了较多的高频信息,也没有出现伪影现象,更接近于原始图像。总的来说,实验结果表明,本申请提供的方法,与其他方法对比,无论是从PSNR等客观评价参数来看,还是从视觉感知以及训练稳定性来看,都得到了均衡性的提升。
本申请提供的图像超分辨率重建方法,通过对原始图像进行特征提取,得到特征向量,进而将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习,从而通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征,并通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。这样,在特征提取时,充分融合了低频特征和高频特征,可充分从原始图像中捕捉到更多纹理细节,从而使重建后的图像质量更高。
与前述图像超分辨率重建方法的实施例相对应,本申请还提供了图像超分辨率重建装置的实施例。
本申请信息展示装置的实施例可以应用在图像超分辨率重建设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图10所示,为本申请一示例性实施例示出的图像超分辨率重建装置所在设备的硬件结构图,除了图10所示的存储器、处理器、内存和网络接口之外,实施例中装置所在的设备通常根据该信息展示装置的实际功能,还可以包括其他硬件,对此不再赘述。
图11为本申请提供的图像超分辨率重建装置实施例一的结构示意图。请参照图11,本实施例提供的装置,可以包括提取模块120和处理模块130,其中,
所述提取模块120,用于对原始图像进行特征提取,得到特征向量;
所述处理模块130,用于将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习;
所述处理模块130,还用于通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征;
所述处理模块130,还用于通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率。
本实施例的装置,可以用以执行图1所示方法实施例的方案,有关具体原理和具体过程可以参见前面的描述,此处不再赘述。
进一步地,所述注意力残差模块由至少一个注意力残差块组成,每个所述注意力残差块包括依序连接的原始残差块、池化层、integration整合层、注意力机制层和concat拼接层组成,其中,所述注意力机制层还与所述原始残差块的输出端连接;所述concat拼接层还与所述注意力残差模块的输入端连接;
所述原始残差块和所述池化层,用于对输入的所述特征向量进行特征提取,得到池化特征;
所述integration整合层,用于计算所述池化特征对应的校准权重;
所述注意力机制层,用于对所述输入特征和所述校准权重进行处理,得到处理后的加权特征;
所述concat拼接层,用于对所述特征向量和所述加权特征进行融合处理,得到所述高频特征。
进一步地,所述原始残差块由至少一个计算块组成,每个所述计算块由依序连接的第一卷积层和第一非线性连接层组成,所述第一卷积层的卷积核的大小为3×3。
进一步地,所述特征增强残差模块包括增强模块、压缩模块和融合模块;其中,所述增强模块、所述压缩模块和所述融合模块依序连接、且所述融合模块还与所述特征增强残差模块的输入端连接;
所述增强模块,用于对所述特征向量进行增强处理,以得到增强特征;其中,所述增强特征的通道数大于所述特征向量的通道数;
所述压缩模块,用于对所述增强特征进行压缩处理,以得到压缩特征;其中,所述压缩特征的通道数等于所述特征向量的通道数;
所述融合模块,用于对输入的所述特征向量和所述压缩特征进行融合处理,得到所述低频特征。
进一步地,所述增强模块包括依序连接的第二卷积层、第二非线性全连接层、第三卷积层和拼接层,所述拼接层还与所述第二非线性全连接层的输出端连接;其中,所述第一卷积层和所述第三卷积层的卷积核的大小为3×3。
进一步地,所述压缩模块包括依序连接的第四卷积层、第三非线性全连接层、第五卷积层组成;其中,
所述第四卷积层的卷积核的大小为1×1;所述第五卷积层的卷积核的大小为3×3。
进一步地,所述预先训练好的图像重建模型由生成器网络和鉴别器网络组成,所述鉴别器网络的损失函数为:
,
其中,
,
为服从[0,1]正态分布的随机向量,默认k=2,p=6。
本申请提供的图像超分辨率重建方法,通过将鉴别器网络的损失函数设置为上述函数,可提高图像重建模型训练的稳定性。
请继续参照图2,在一可能的实现方式中,本申请提供的图像超分辨率重建方法,生成器网络的损失函数为:
,
具体的,参见上面的公式,生成器损失函数由内容损失Lmse、对抗损失Ladv、感知损失Lper和正则化损失LTV组成。
进一步地,内容损失Lmse为:
,
其中,W、H分别表示原始图像的宽和高;
表示目标图像;
G(I LR , θ)为原始图像和目标图像之间的映射函数。
Lmse属于L2型损失函数,该函数用于计算样本目标值与预测值之间误差的平方。
进一步地,对抗损失Ladv为:
,
其中,D(G(I LR , θ))表示目标图像为原始图像的概率,为超参数。
进一步地,感知损失Lper为:
,
其中,φi,j表示VGG16网络中第i个最大池化层之前的第j个卷积得到的特征映射。W和H描述了VGG网络中各个特征映射的大小,为超参数。与SRGAN相同,本申请使用预训练的VGG网络的RelU激活层来定义内容损失,这里使用的是16层VGG网络。先利用VGG16网络提取深层次的特征,然后再使用内容损失计算来解决图片过度平滑、纹理细节不高等问题。
进一步地,正则化损失LTV为:
,
其中为超参数。
请继续参照图11,本申请还提供一种图像超分辨率重建设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请第一方面提供的任一项所述方法的步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种图像超分辨率重建方法,其特征在于,所述方法包括:
对原始图像进行特征提取,得到特征向量;
将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习;
通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征;
通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率;
其中,所述注意力残差模块由至少一个注意力残差块组成,每个所述注意力残差块包括依序连接的原始残差块、池化层、整合层、注意力机制层和拼接层组成,其中,所述注意力机制层还与所述原始残差块的输出端连接;所述拼接层还与所述注意力残差模块的输入端连接;
所述原始残差块和所述池化层,用于对输入的所述特征向量进行特征提取,得到池化特征;
所述整合层,用于计算所述池化特征对应的校准权重;
所述注意力机制层,用于对所述特征向量和所述校准权重进行处理,得到处理后的加权特征;
所述拼接层,用于对所述特征向量和所述加权特征进行融合处理,得到所述高频特征;
其中,所述预先训练好的图像重建模型由生成器网络和鉴别器网络组成,所述鉴别器网络的损失函数为:
,
其中:,
所述为服从[0,1]正态分布的随机向量。
2.根据权利要求1所述的方法,其特征在于,所述原始残差块由至少一个计算块组成,每个所述计算块由依序连接的第一卷积层和第一非线性连接层组成,所述第一卷积层的卷积核的大小为3×3。
3.根据权利要求1所述的方法,其特征在于,所述特征增强残差模块包括增强模块、压缩模块和融合模块;其中,所述增强模块、所述压缩模块和所述融合模块依序连接、且所述融合模块还与所述特征增强残差模块的输入端连接;
所述增强模块,用于对所述特征向量进行增强处理,以得到增强特征;其中,所述增强特征的通道数大于所述特征向量的通道数;
所述压缩模块,用于对所述增强特征进行压缩处理,以得到压缩特征;其中,所述压缩特征的通道数等于所述特征向量的通道数;
所述融合模块,用于对输入的所述特征向量和所述压缩特征进行融合处理,得到所述低频特征。
4.根据权利要求3所述的方法,其特征在于,所述增强模块包括依序连接的第二卷积层、第二非线性全连接层、第三卷积层和拼接层,所述拼接层还与所述第二非线性全连接层的输出端连接;其中,所述第二卷积层和所述第三卷积层的卷积核的大小为3×3。
5.根据权利要求3所述的方法,特征在于,所述压缩模块包括依序连接的第四卷积层、第三非线性全连接层、第五卷积层组成;其中,
所述第四卷积层的卷积核的大小为1×1;所述第五卷积层的卷积核的大小为3×3。
6.根据权利要求1所述的方法,其特征在于,所述生成器网络的损失函数为:
,
其中,LMSE为内容损失、Ladv为对抗损失、Lper为感知损失、LTV为正则化损失;
其中,所述正则化损失按照如下公式计算:
,
其中,为超参数。
7.一种图像超分辨率重建装置,其特征在于,所述装置包括提取模块和处理模块,其中,
所述提取模块,用于对原始图像进行特征提取,得到特征向量;
所述处理模块,用于将所述特征向量输入到预先训练好的图像重建模型中,通过所述重建模型中的注意力残差模块提取所述特征向量中的高频特征并进行学习,并通过所述重建模型中的特征增强残差模块提取所述特征向量中的低频特征并进行学习;
所述处理模块,还用于通过所述重建模型对所述高频特征和所述低频特征进行融合,得到融合特征;
所述处理模块,还用于通过所述重建模型对所述融合特征进行上采样和重建处理,得到目标图像;其中,所述目标图像的分辨率高于所述原始图像的分辨率;
其中,所述注意力残差模块由至少一个注意力残差块组成,每个所述注意力残差块包括依序连接的原始残差块、池化层、整合层、注意力机制层和拼接层组成,其中,所述注意力机制层还与所述原始残差块的输出端连接;所述拼接层还与所述注意力残差模块的输入端连接;
所述原始残差块和所述池化层,用于对输入的所述特征向量进行特征提取,得到池化特征;
所述整合层,用于计算所述池化特征对应的校准权重;
所述注意力机制层,用于对所述特征向量和所述校准权重进行处理,得到处理后的加权特征;
所述拼接层,用于对所述特征向量和所述加权特征进行融合处理,得到所述高频特征;
所述预先训练好的图像重建模型由生成器网络和鉴别器网络组成,所述鉴别器网络的损失函数为:
,
其中,
,
所述为服从[0,1]正态分布的随机向量。
8.一种图像超分辨率重建设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310785170.4A CN116503260B (zh) | 2023-06-29 | 2023-06-29 | 一种图像超分辨率重建方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310785170.4A CN116503260B (zh) | 2023-06-29 | 2023-06-29 | 一种图像超分辨率重建方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503260A CN116503260A (zh) | 2023-07-28 |
CN116503260B true CN116503260B (zh) | 2023-09-19 |
Family
ID=87330619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310785170.4A Active CN116503260B (zh) | 2023-06-29 | 2023-06-29 | 一种图像超分辨率重建方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503260B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381897A (zh) * | 2020-11-16 | 2021-02-19 | 西安电子科技大学 | 基于自编码网络结构的低照度图像增强方法 |
CN114581300A (zh) * | 2022-02-17 | 2022-06-03 | 华南理工大学 | 一种图像超分辨率重建方法及装置 |
CN114972107A (zh) * | 2022-06-14 | 2022-08-30 | 福州大学 | 基于多尺度堆叠式注意力网络的低照度图像增强方法 |
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220286696A1 (en) * | 2021-03-02 | 2022-09-08 | Samsung Electronics Co., Ltd. | Image compression method and apparatus |
-
2023
- 2023-06-29 CN CN202310785170.4A patent/CN116503260B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381897A (zh) * | 2020-11-16 | 2021-02-19 | 西安电子科技大学 | 基于自编码网络结构的低照度图像增强方法 |
WO2022241995A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉图像增强的生成方法、系统、装置及存储介质 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
CN114581300A (zh) * | 2022-02-17 | 2022-06-03 | 华南理工大学 | 一种图像超分辨率重建方法及装置 |
CN114972107A (zh) * | 2022-06-14 | 2022-08-30 | 福州大学 | 基于多尺度堆叠式注意力网络的低照度图像增强方法 |
Non-Patent Citations (3)
Title |
---|
Deep Learning-based super-resolution in coherent imaging systems;Tairan Liu etc.;Scientific reports;全文 * |
分层特征融合注意力网络图像超分辨率重建;雷鹏程等;中国图象图形学报(第09期);全文 * |
微电网技术综述(英文);马晓轩等;电工技术学报;30;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503260A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570353B (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN110599401A (zh) | 遥感图像超分辨率重建方法、处理装置及可读存储介质 | |
Fang et al. | Face completion with hybrid dilated convolution | |
CN109961407B (zh) | 基于人脸相似性的人脸图像修复方法 | |
CN113962893A (zh) | 基于多尺度局部自注意力生成对抗网络的人脸图像修复方法 | |
Li et al. | Example-based image super-resolution with class-specific predictors | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
Li et al. | Hst: Hierarchical swin transformer for compressed image super-resolution | |
CN112070670A (zh) | 全局-局部分离注意力机制的人脸超分辨率方法及系统 | |
CN114581347B (zh) | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 | |
CN115564649B (zh) | 一种图像超分辨率重建方法、装置及设备 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN113538246A (zh) | 基于无监督多阶段融合网络的遥感图像超分辨率重建方法 | |
CN115393186A (zh) | 一种人脸图像超分辨率重建方法、系统、设备及介质 | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
CN115293966A (zh) | 一种人脸图像重建方法、装置以及存储介质 | |
CN113763268B (zh) | 人脸图像盲修复方法及系统 | |
CN117575915A (zh) | 一种图像超分辨率重建方法、终端设备及存储介质 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
Kim et al. | Progressive Contextual Aggregation Empowered by Pixel-Wise Confidence Scoring for Image Inpainting | |
CN116503260B (zh) | 一种图像超分辨率重建方法、装置和设备 | |
CN114862699B (zh) | 基于生成对抗网络的人脸修复方法、装置及存储介质 | |
CN116152061A (zh) | 一种基于模糊核估计的超分辨率重建方法 | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |