CN116664397A - TransSR-Net结构化图像超分辨重建方法 - Google Patents
TransSR-Net结构化图像超分辨重建方法 Download PDFInfo
- Publication number
- CN116664397A CN116664397A CN202310421722.3A CN202310421722A CN116664397A CN 116664397 A CN116664397 A CN 116664397A CN 202310421722 A CN202310421722 A CN 202310421722A CN 116664397 A CN116664397 A CN 116664397A
- Authority
- CN
- China
- Prior art keywords
- image
- transsr
- feature
- convolution
- net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 claims description 4
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 4
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 4
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 claims description 4
- 201000004101 esophageal cancer Diseases 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 208000015634 Rectal Neoplasms Diseases 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 206010038038 rectal cancer Diseases 0.000 claims description 2
- 201000001275 rectum cancer Diseases 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 201000010897 colon adenocarcinoma Diseases 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
- G06T3/4076—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Processing (AREA)
Abstract
本发明属于深度学习技术领域,具体涉及TransSR‑Net结构化图像超分辨重建方法,包括下列步骤:构建数据集;构建神经网络模型TransSR‑Net;利用所属训练集在所构建的TransSR‑Net网络上进行训练;获取待超分辨率重建的人脸图像和医学CT图像,并通过训练完毕的TransSR‑Net模型进行低分辨率图像的超分辨率重建;建立评价指标用于对TransSR‑Net模型的评估。本发明是基于自编码双路径结构的CNN和Transformer组合模型,有效地保留了结构化图像的局部结构特征和全局特征,充分丰富了模型中的计算信息,提高了模型训练的效果,从而减少了训练中的信息丢失,同时利用多个损失函数联合训练,增强网络拟合能力,较好的解决了受单一结构化数据集先验知识约束导致的网络结构只能应用于特定结构化图像数据集的问题。
Description
技术领域
本发明属于深度学习技术领域,具体涉及TransSR-Net结构化图像超分辨重建方法。
背景技术
在安全监控、授权、生物测量等人脸图像应用领域,人脸图像获取时的外部条件不尽相同,如大多数监控场景中,摄像头离监控对象较远,导致场景图像中人脸分辨率很低。因此需通过超分辨率重建等技术增强人脸分辨率,改善识别、建模等后续处理任务的效果。随着计算机医疗辅助诊断系统的发展,高质量的医学图像对准确诊断疾病起着至关重要的作用,图像已经成为医学各个领域实践中不可或缺的一部分。图像采集过程受到设备、环境、成本等多方面的影响和限制。因此,医学图像的超分辨率重建在临床应用中已成为一个必不可少的角色。人脸图像和医学图像这样的结构化图像具有结构不变性,即固定的几何结构和丰富的先验信息。人脸超分辨重建可以辅助提高人脸识别精准度,高质量的医学图像对病情的诊断分析以及治疗都具有重要的意义。因此,针对人脸图像或者医学图像这些结构化图像的超分辨率重建问题非常具有挑战性。
在过去的研究中,研究者已经开发了许多可用于超分辨率重建的深度学习框架,从早期的基于卷积神经网络(CNN)的方法(如SRCNN)到基于生成对抗网络的超分辨重建方法(如SRGAN),传统的超分辨重建算法可以归纳为以下几个方面:残差结构用于缓解网络深度不断增加带来的退化问题,降低训练难度,提高学习能力。残差结构用于缓解网络深度不断增加带来的退化问题,降低训练难度,提高学习能力。为了在学习更高层次的特征的同时减小网络复杂度,递归学习被逐渐应用到超分辨重建领域。一般来说,递归学习确实可以在不引入过多参数的情况下学习到更深的特征信息,但仍然无法避免较高的计算成本。它本身带来了梯度消失或梯度爆发的问题。为了融合低级特征和高级特征,为重建高质量的细节提供更丰富的信息,密集连接也被用于超分辨率重建,但由于密集连接借助于反复的拼接(Concatenation)操作完成,使得网络在训练时十分消耗内存,导致网络难以训练。
同时,针对人脸图像或医学图像这样的结构化图像也衍生出许多超分辨率重建深度学习框架:从不使用结构化图像先验信息进行重建的角度出发,大多数网络框架使用CNN搭建注意力单元提取结构化图像中的结构信息,从而利用结构信息辅助结构化图像重建。但是,正是因为这些超分辨重建方法都是采用CNN搭建网络,受CNN局部感受野的限制,重建网络对全局信息的建模能力不足,结构化图像重建效果的自然度和逼真度还有待提高。由于结构化图像的特殊性,很多学者考虑利用结构化图像的先验知识辅助图像的重建过程,例如:在人脸超分辨率重建中,研究者们提出可以利用人脸面部解析图作为先验知识辅助人脸图像的恢复。但是基于先验信息引导的结构化图像超分辨重建方法大多只适用于特定的结构化图像上,例如:人脸先验信息引导的超分辨重建方法利用面部解析图或人脸关键点作为先验知识进行重建,无法适用在医学图像上。医学图像先验信息引导的超分辨重建方法利用不同模态医学图像的特征信息作为先验知识进行重建,无法适用在人脸图像上。
目前,研究者尝试着将Transformer应用于各种视觉任务中,以强调提取全局特征的重要性,从而弥补CNN的不足。Transformer最初起源于自然语言处理领域,它的多头自注意和前反馈多层感知机层堆叠起来捕捉单词之间的远程相关性。受Transformer在自然语言处理领域的巨大成功的激励,Swin Transformer整合了CNN和Transformer的优势。一方面,由于局部注意机制,它具有CNN处理大尺寸图像的优势;另一方面,它具有Transformer的优点,可以用移位的窗口对长期依赖关系进行建模。然而,针对结构化图像仅仅捕捉像素之间的远程相关性还是不够的,因为Transformer无法提取图像的几何结构信息,利用空间注意力机制的沙漏块可以提取图像几何结构信息,因此,为了获得理想的效果,仍然需要通过搭建同时包含有Transformer和沙漏块的深度学习框架来进行结构化图像超分辨重建。
发明内容
针对上述针对结构化图像仅仅捕捉像素之间的远程相关性还是不够的技术问题,本发明提供了TransSR-Net结构化图像超分辨重建方法,将Transformer和沙漏块进行特征融合,Transformer可以弥补沙漏块在关注图像结构化特征时对全局上下文表征能力的不足,沙漏块又比Transformer更加关注局部信息差异,这样使得网络结构应用于不同结构化图像数据集上时不受特定单一结构化数据集先验知识的约束。
为了解决上述技术问题,本发明采用的技术方案为:
TransSR-Net结构化图像超分辨重建方法,包括下列步骤:
S1、获取训练所需人脸图像数据集和医学CT图像数据集,并对人脸图像数据集和医学CT图像数据集进行预处理,将图像最高采样维度分别重采样至128*128和256*256,构建数据集;
S2、构建基于自编码双路径结构的CNN和Transformer组合模型TransSR-Net;
S3、对S1中图像的结构化特征进行提取,使用16个空间注意力单元和16个ECA通道注意力模块提取图像的局部结构化特征p;
S4、对S1中图像的全局特征进行提取,使用6个残差Transformer块和6个ECA通道注意力模块提取图像的全局特征q;
S5、将所述局部结构化特征p和全局特征q并行连接在一起,利用ECA通道注意力模块和卷积层构成的特征融合模块对所述局部结构化特征p和全局特征q进行特征融合,以特征向量X表示,将X输入至解码器,通过上采样转换为高分辨图像。
所述S1中获取训练所需数据集包含两种不同结构化的图像:CelebA人脸图像数据集、Helen人脸图像数据集和TCGA-ESCA食道癌医学图像数据集、TCGA-COAD直肠癌医学图像数据集。
所述S1中对人脸图像数据集进行预处理的方法为:使用多任务级联卷积神经网络MTCNN检测人脸并粗略地裁剪出人脸区域,MTCNN利用人脸检测和人脸关键点定位这两个任务之间潜在的联系,实现人脸检测和5个特征点的标定;通过双立方插值将其大小调整为128×128,并将其用作高分辨率训练集,通过对高分辨率图像进行下采样得到低分辨率(16×16)训练集。
所述S1中对医学CT图像数据集进行预处理的方法为:将27522张DCM格式的CT图像转换为PNG格式,通过双立方插值调整图像大小为256×256,并将其中的26522张图像作为训练集;为了避免过拟合,通过随机水平翻转、图像缩放来进行数据增强,所述缩放比例在1.0-1.3之间。
所述S2中构建的TransSR-Net是基于自编码双路径结构的CNN和Transformer组合模型,所述TransSR-Net包含编码器、空间注意力模块、自注意力模块、特征融合模块和解码器五个模块,空间注意力模块由16个空间注意力单元和16个ECA通道注意力模块构成,编码器和解码器的结构与空间注意力单元基本一致,不同在于,编码器的卷积块采用的下采样卷积,缩小特征尺寸;解码器的卷积块采用上采样卷积,放大特征尺寸,编码器和解码器中不存在ECA通道注意力模块。
所述自注意力模块由6个残差Transformer块和6个ECA通道注意力模块构成;所述特征融合模块包括1个卷积层和2个ECA通道注意力模块,用于将局部特征和全局特征有效融合。
所述S3中所述空间注意力单元由沙漏块、卷积块构成,沙漏块是对称结构,由8个卷积层构成,卷积层的卷积核大小为3x3,步长为1,边缘扩充为1个像素值,卷积层之前设置LeakyRelu激活函数层,卷积层之后设置批归一化层,沙漏块用于处理多尺度的结构化信息,整合跨尺度的特征;沙漏块利用卷积层将特征分辨率逐步缩小;并在对称层之间进行跳跃连接,在跳跃连接中对原来尺度的特征进行卷积;得到低分辨率特征后,网络开始进行上采样,并逐渐结合不同尺度的结构化特征信息,将两个不同的特征集进行逐元素相加后得到输出特征。
所述卷积块由两个卷积层构成,卷积层之前设置LeakyRelu激活函数层,卷积层之后设置批归一化层,空间注意力单元的输入和输出特征尺寸保持不变,都为H*W*128。
所述S4中所述1个残差Transformer块由6个Swin Transformer层和1个卷积层搭建,输入特征的嵌入通道数设置为120,残差Transformer块的输入和输出特征尺寸保持不变,都为H*W*120。
所述S5中的局部结构化特征p和全局特征q的连接方式为并行连接,连接后形成的新的特征向量X通过下式获得:
所述FCat()表示在通道维度拼接的功能,所述FECA()表示ECA通道注意力模块,所述为一个卷积核大小为3×3的卷积层。
本发明与现有技术相比,具有的有益效果是:
本发明使用Transformer结构和沙漏块结构,有效地保留了结构化图像中的全局信息并与局部几何特征相结合,充分丰富了模型中的计算信息,提高了模型训练的效果,从而减少了训练中的信息丢失,同时利用自编码策略减小网络训练难道,增强了模型的泛化能力,较好的解决了结构化图像超分辨率重建方法的重建效果的自然度和逼真度还有待提高这一问题。本发明不仅可以适用于人脸图像和医学图像的超分辨率重建,也适用于其他结构化图像数据集,在放大因子为4的人脸图像和医学图像上的重建结果结果与真实图像的平均结构相似性可达0.9258和0.9360。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明的TransSR-Net模型结构图;
图2为本发明TransSR-Net模型与其他超分辨率重建方法在人脸数据集上结果对比图;
图3为本发明TransSR-Net模型与其他超分辨率重建方法在医学CT数据集上结果对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制;基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例,对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例在pytorch深度学习框架下实现,本实施例提供了TransSR-Net结构化图像超分辨重建方法,具体包括以下步骤:
1、数据准备
本发明的数据样本包含人脸图像和医学CT图像:
数据集I:来自中国香港中文大学的CelebA数据集,包含10,177个名人身份的202,599张人脸图片以及其对应的人脸标注框、5个人脸特征点坐标以及40个属性标记,选取202,599人脸图像作为训练数据集,Helen数据集由2330个人脸图像组成,并且每张人脸图像包含11个部位的掩模,通常做人脸分割,具有高度准确、详细和一致的主要面部组件注释,随机选取200张人脸图像作为测试数据集;数据集II:来自美国国家癌症研究所NCI和美国国家人类基因组研究所NHGRI的癌症基因组图谱TCGA数据集,选取TCGA-ESCA食道癌和TCGA-COAD结肠腺癌的CT数据集中共计26522张图像为的训练数据集,1000张图片作为测试数据集。
对上述数据集进行强度标准化处理,使用多任务级联卷积神经网络(MTCNN)检测人脸并粗略地裁剪出人脸区域,MTCNN利用人脸检测和人脸关键点定位这两个任务之间潜在的联系,实现人脸检测和5个特征点的标定。通过双立方插值将其大小调整为128×128,并将其用作高分辨率训练集。通过对高分辨率图像进行下采样得到低分辨率(16×16)训练集。产生大约202k的图像对。所述S1中对医学CT图像数据集进行预处理的方法为:将27522张DCM格式的CT图像转换为PNG格式,通过双立方插值调整图像大小为256×256,并将其中的26522张图像作为训练集。为了避免过拟合,通过随机水平翻转、图像缩放(缩放比例在1.0-1.3之间)来进行数据增强。
2、模型构建
构建的TransSR-Net模型是基于自编码双路径结构的CNN和Transformer组合模型,具体网络模型结构如图1所示,其中TransSR-Net包含编码器、空间注意力模块、自注意力模块、特征融合模块和解码器五个模块,所述空间注意力模块由沙漏块、卷积块和ECA通道注意力模块构成,沙漏块是对称结构,由八个卷积层构成,卷积层的卷积核大小为3x3,步长为1,边缘扩充为1个像素值,卷积层前后有LeakyRelu激活函数层和批归一化层,沙漏块主要处理多尺度的结构化信息,整合跨尺度的特征。沙漏块利用卷积层将特征分辨率逐步缩小;并在对称层之间进行跳跃连接,在跳跃连接中对原来尺度的特征进行卷积;得到低分辨率特征后,网络开始进行上采样,并逐渐结合不同尺度的结构化特征信息,将两个不同的特征集进行逐元素相加后得到输出特征。卷积块由两个卷积层构成,同样这里的卷积层前后也存在LeakyRelu激活函数层和批归一化层。编码器和解码器的结构与空间注意力模块基本上一致,不同在于,编码器的卷积块采用的下采样卷积,缩小特征尺寸;解码器的卷积块采用上采样卷积,放大特征尺寸,编码器和解码器中不存在ECA通道注意力模块。自注意力模块利用Swin Transformer单元搭建残差块,关注图像全局特征,同时也利用ECA通道注意力模块进行通道筛选。特征融合模块包括一个卷积层和两个ECA通道注意力模块,用于将局部特征和全局特征有效融合。具体的特征映射过程为:首先使用双立方插值对低分辨图像进行上采样得到网络输入ILR,然后使用卷积层从输入图像ILR中提取包含丰富的结构信息的浅层特征Ishallow。
式中,为一个卷积核大小为3×3的卷积层,Ishallow作为编码器的输入,进一步提取深层特征IEncoder。
IEncoder=FEncoder(Ishallow)
式中,FEncoder()表示编码器结构,IEncoder作为空间注意力模块和自注意力模块的输入,分别提取局部特征Ilocal和全局特征Iglobal。
Ilocal=Flocal(IEncoder),Iglobal=Fglobal(IEncoder)
式中,Flocal()和Fglobal()分别表示空间注意力模块和自注意力模块,在获得局部和全局特征后,使用特征融合模块进行特征融合,得到融合特征Igl。
式中,FCat()表示在通道维度拼接的功能,具体来说,该模块先对局部特征和全局特征在通道维度进行Concat拼接,然后经过卷积层得到Igl。在获得后Igl,由解码器执行上采样操作,并由一个卷积层放大重建特征,得到最终的RGB三通道特征ISR
式中,FDecoder()表示解码器结构,由ILR到ISR的过程整体采用自编码结构,并在中间映射层采用双路径分别针对不同特征建立映射关系。这样的设计保证了Transfromer在计算过程中不会出现由于特征过大使得计算复杂度过高的问题,也可以从多角度保留特征信息,从而保证重建效果的真实度。
3、模型训练
利用训练集所构建的TransSR-Net网络模型中,计算两幅图片中所有对应位置的像素点之间的平均绝对误差作为模型的像素损失,计算两幅图像之间的结构相似性误差作为模型的SSIM损失,计算图像之间的高级感知差异和语义差异作为模型的风格损失,三个损失函数联合训练并随机最优化学习率进行反向传播以更新权重,所述模型的损失计算公式为:
l=αlpixel+βlssim+γlstyle
式中,α,β,γ为各自损失对应的权重。像素损失定义为:
式中h,w,c分别表示图像的高度、宽度和通道数,Ii,j,k为图像I位于(i,j,k)上的像素值。像素损失采用L1损失(平均绝对误差)来约束超分辨重建图像在像素值上与HR图像足够接近.SSIM损失定义为:
式中SSIM()表示SSIM的计算.SSIM损失用于生成细节更精细、视觉质量更好的超分辨图像。超分辨重建图像ISR和真实高分辨图像IHR都被输入到一个预先训练的VGG网络中,以获得它们相应的特征FSR和FHR,然后计算它们的Gram矩阵,这些矩阵用于计算风格损失,其定义为:
lstyle(IHR,ISR)=||G(FHR)-G(FSR)||2
式中,G()表示获取特征Gram矩阵的操作。使用以上三个损失联合训练从多个角度加速网络的收敛,从而提高网络性能。
4、测试结果
训练进行低分辨率图像的超分辨率重建以获得重建结果的方法为:对于人脸数据集,利用双立方插值新放大至128×128,对于医学CT数据集,利用双立方插值新放大至256×256,放大后的图像构建测试数据集,超参数batchsize设为1,经过TransSR-Net模型得出重建后的图像。
5、模型评估
利用重建结果和真实图像计算峰值信噪比(PSNR)和结构相似性(SSIM)评价指标以评估模型的性能。
表1不同方法在Helen数据集上的对比结果
在Helen测试数据集上进行放大因子为2、3、4、8的超分辨率重建实验结果如表1所示,表中最优指标为加粗字体,对比算法包括基于生成对抗网络的SRGAN,利用梯度图关注图像结构特征的SPSR,基于先验信息约束的人脸超分辨率重建网络FSRNet和EIPNet,这些方法与本发明的实验条件相似。在这些对比结果中,可以发现TransSR-Net在PSNR和SSIM指标上明显优于其他对比方法。
不同方法在Helen测试数据集上进行放大因子为2、3、4、8的主观效果对比图如图2所示,图像下方的数字为该图像与对应真实图像之间的PSNR和SSIM值,可以从放大因子为8的实验中发现,由于SRGAN未考虑图像结构信息,所以SRGAN对人脸图像的重建效果较差。与SRGAN相比,SPSR可以恢复出图像的大致轮廓,这是因为SPSR利用梯度信息和梯度损失帮助生成器网络关注图像的几何结构。FSRNet和EIPNet重建的结果则相对较好。与TransSR-Net重建结果相比,FSRNet和EIPNet对眼睛和嘴唇的重建产生了不同程度的失真,TransSR-Net的重建结果更好的保留了结构信息。
表2不同方法在医学CT数据集上的对比结果
FSRNet和EIPNet是用于人脸图像这一特定领域的超分辨重建算法,并不适用于医学图像超分辨重建,因此,另外选取RNAN算法和基于非局部稀疏注意力的图像超分辨率网络(NLSN)进行对比实验。不同方法在医学CT数据集上的超分辨率重建实验对比结果如表2所示,表中最优指标为加粗字体,从表2中可以看出TransSR-Net在放大因子为3、4、8时的评价指标优于其他算法,在放大因子为2时的评价指标略低于NLSN算法,由此可以证明TransSR-Net能够对不同类型的结构化图像数据集保持相同的重建效果,其原因是TransSR-Net的沙漏块只需要考虑图像的结构信息,不需要考虑特定类型结构化图像的先验知识,而且该网络利用Transformer的自注意力机制提高了对结构化图像重建效果的自然度和逼真度。不同方法在医学CT数据集上放大因子为2、3、4、8时的重建效果对比图如图3所示,其中,放大因子为2、3、4、8的第一幅图片为TCGA-ESCA食道癌图像、第二幅图片为TCGA-COAD结肠腺癌图像,图像下方的数字为该图像和对应HR图像之间的PSNR和SSIM值,可以看出TransSR-Net在放大因子为3、4、8时的评价指标上优于其他方法。通过实验可以验证TransSR-Net能够对不同类型的结构化图像保持良好的重建效果。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (10)
1.TransSR-Net结构化图像超分辨重建方法,其特征在于:包括下列步骤:
S1、获取训练所需人脸图像数据集和医学CT图像数据集,并对人脸图像数据集和医学CT图像数据集进行预处理,将图像最高采样维度分别重采样至128*128和256*256,构建数据集;
S2、构建基于自编码双路径结构的CNN和Transformer组合模型TransSR-Net;
S3、对S1中图像的结构化特征进行提取,使用16个空间注意力单元和16个ECA通道注意力模块提取图像的局部结构化特征p;
S4、对S1中图像的全局特征进行提取,使用6个残差Transformer块和6个ECA通道注意力模块提取图像的全局特征q;
S5、将所述局部结构化特征p和全局特征q并行连接在一起,利用ECA通道注意力模块和卷积层构成的特征融合模块对所述局部结构化特征p和全局特征q进行特征融合,以特征向量X表示,将X输入至解码器,通过上采样转换为高分辨图像。
2.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S1中获取训练所需数据集包含两种不同结构化的图像:CelebA人脸图像数据集、Helen人脸图像数据集和TCGA-ESCA食道癌医学图像数据集、TCGA-COAD直肠癌医学图像数据集。
3.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S1中对人脸图像数据集进行预处理的方法为:使用多任务级联卷积神经网络MTCNN检测人脸并粗略地裁剪出人脸区域,MTCNN利用人脸检测和人脸关键点定位这两个任务之间潜在的联系,实现人脸检测和5个特征点的标定;通过双立方插值将其大小调整为128×128,并将其用作高分辨率训练集,通过对高分辨率图像进行下采样得到低分辨率(16×16)训练集。
4.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S1中对医学CT图像数据集进行预处理的方法为:将27522张DCM格式的CT图像转换为PNG格式,通过双立方插值调整图像大小为256×256,并将其中的26522张图像作为训练集;为了避免过拟合,通过随机水平翻转、图像缩放来进行数据增强,所述缩放比例在1.0-1.3之间。
5.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S2中构建的TransSR-Net是基于自编码双路径结构的CNN和Transformer组合模型,所述TransSR-Net包含编码器、空间注意力模块、自注意力模块、特征融合模块和解码器五个模块,空间注意力模块由16个空间注意力单元和16个ECA通道注意力模块构成,编码器和解码器的结构与空间注意力单元基本一致,不同在于,编码器的卷积块采用的下采样卷积,缩小特征尺寸;解码器的卷积块采用上采样卷积,放大特征尺寸,编码器和解码器中不存在ECA通道注意力模块。
6.根据权利要求5所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述自注意力模块由6个残差Transformer块和6个ECA通道注意力模块构成;所述特征融合模块包括1个卷积层和2个ECA通道注意力模块,用于将局部特征和全局特征有效融合。
7.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S3中所述空间注意力单元由沙漏块、卷积块构成,沙漏块是对称结构,由8个卷积层构成,卷积层的卷积核大小为3x3,步长为1,边缘扩充为1个像素值,卷积层之前设置LeakyRelu激活函数层,卷积层之后设置批归一化层,沙漏块用于处理多尺度的结构化信息,整合跨尺度的特征;沙漏块利用卷积层将特征分辨率逐步缩小;并在对称层之间进行跳跃连接,在跳跃连接中对原来尺度的特征进行卷积;得到低分辨率特征后,网络开始进行上采样,并逐渐结合不同尺度的结构化特征信息,将两个不同的特征集进行逐元素相加后得到输出特征。
8.根据权利要求7所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述卷积块由两个卷积层构成,卷积层之前设置LeakyRelu激活函数层,卷积层之后设置批归一化层,空间注意力单元的输入和输出特征尺寸保持不变,都为H*W*128。
9.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S4中所述1个残差Transformer块由6个Swin Transformer层和1个卷积层搭建,输入特征的嵌入通道数设置为120,残差Transformer块的输入和输出特征尺寸保持不变,都为H*W*120。
10.根据权利要求1所述的TransSR-Net结构化图像超分辨重建方法,其特征在于:所述S5中的局部结构化特征p和全局特征q的连接方式为并行连接,连接后形成的新的特征向量X通过下式获得:
所述FCat()表示在通道维度拼接的功能,所述FECA()表示ECA通道注意力模块,所述为一个卷积核大小为3×3的卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310421722.3A CN116664397B (zh) | 2023-04-19 | 2023-04-19 | TransSR-Net结构化图像超分辨重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310421722.3A CN116664397B (zh) | 2023-04-19 | 2023-04-19 | TransSR-Net结构化图像超分辨重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116664397A true CN116664397A (zh) | 2023-08-29 |
CN116664397B CN116664397B (zh) | 2023-11-10 |
Family
ID=87712526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310421722.3A Active CN116664397B (zh) | 2023-04-19 | 2023-04-19 | TransSR-Net结构化图像超分辨重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664397B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291803A (zh) * | 2023-09-28 | 2023-12-26 | 太原理工大学 | Pamgan轻量化面部超分辨率重建方法 |
CN117474764A (zh) * | 2023-12-27 | 2024-01-30 | 电子科技大学 | 一种针对复杂退化模型下遥感图像的高分辨率重建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2697928C1 (ru) * | 2018-12-28 | 2019-08-21 | Самсунг Электроникс Ко., Лтд. | Способ сверхразрешения изображения, имитирующего повышение детализации на основе оптической системы, выполняемый на мобильном устройстве, обладающем ограниченными ресурсами, и мобильное устройство, его реализующее |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN111696033A (zh) * | 2020-05-07 | 2020-09-22 | 中山大学 | 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法 |
CN113191953A (zh) * | 2021-06-04 | 2021-07-30 | 山东财经大学 | 一种基于Transformer的人脸图像超分辨的方法 |
CN113887487A (zh) * | 2021-10-20 | 2022-01-04 | 河海大学 | 一种基于CNN-Transformer的面部表情识别方法及装置 |
CN115222601A (zh) * | 2022-08-06 | 2022-10-21 | 福州大学 | 基于残差混合注意力网络的图像超分辨率重建模型及方法 |
CN115496658A (zh) * | 2022-09-25 | 2022-12-20 | 桂林理工大学 | 基于双重注意力机制的轻量级图像超分辨率重建方法 |
CN115953494A (zh) * | 2023-03-09 | 2023-04-11 | 南京航空航天大学 | 基于低剂量和超分辨率的多任务高质量ct图像重建方法 |
CN115984110A (zh) * | 2023-01-05 | 2023-04-18 | 河南大学 | 一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法 |
-
2023
- 2023-04-19 CN CN202310421722.3A patent/CN116664397B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2697928C1 (ru) * | 2018-12-28 | 2019-08-21 | Самсунг Электроникс Ко., Лтд. | Способ сверхразрешения изображения, имитирующего повышение детализации на основе оптической системы, выполняемый на мобильном устройстве, обладающем ограниченными ресурсами, и мобильное устройство, его реализующее |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN111696033A (zh) * | 2020-05-07 | 2020-09-22 | 中山大学 | 基于角点引导级联沙漏网络结构学习的真实图像超分辨率模型及方法 |
CN113191953A (zh) * | 2021-06-04 | 2021-07-30 | 山东财经大学 | 一种基于Transformer的人脸图像超分辨的方法 |
CN113887487A (zh) * | 2021-10-20 | 2022-01-04 | 河海大学 | 一种基于CNN-Transformer的面部表情识别方法及装置 |
CN115222601A (zh) * | 2022-08-06 | 2022-10-21 | 福州大学 | 基于残差混合注意力网络的图像超分辨率重建模型及方法 |
CN115496658A (zh) * | 2022-09-25 | 2022-12-20 | 桂林理工大学 | 基于双重注意力机制的轻量级图像超分辨率重建方法 |
CN115984110A (zh) * | 2023-01-05 | 2023-04-18 | 河南大学 | 一种基于Swin-Transformer的二阶光谱注意力高光谱图像超分辨率方法 |
CN115953494A (zh) * | 2023-03-09 | 2023-04-11 | 南京航空航天大学 | 基于低剂量和超分辨率的多任务高质量ct图像重建方法 |
Non-Patent Citations (2)
Title |
---|
LIU S, XIONG C Y, SHI X D, ET AL: "Progressive face superresolution with cascaded recurrent convolutional network", NEUROCOMPUTING, vol. 449, pages 357 * |
徐永兵, 袁东, 余大兵, 等: "多注意力机制引导的双目图像超分辨率重建算法", 电子测量技术, vol. 44, no. 15, pages 103 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117291803A (zh) * | 2023-09-28 | 2023-12-26 | 太原理工大学 | Pamgan轻量化面部超分辨率重建方法 |
CN117291803B (zh) * | 2023-09-28 | 2024-02-27 | 太原理工大学 | Pamgan轻量化面部超分辨率重建方法 |
CN117474764A (zh) * | 2023-12-27 | 2024-01-30 | 电子科技大学 | 一种针对复杂退化模型下遥感图像的高分辨率重建方法 |
CN117474764B (zh) * | 2023-12-27 | 2024-04-16 | 电子科技大学 | 一种针对复杂退化模型下遥感图像的高分辨率重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116664397B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570353B (zh) | 密集连接生成对抗网络单幅图像超分辨率重建方法 | |
CN107154023B (zh) | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 | |
CN116664397B (zh) | TransSR-Net结构化图像超分辨重建方法 | |
CN109741256A (zh) | 基于稀疏表示和深度学习的图像超分辨率重建方法 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
Yang et al. | Image super-resolution based on deep neural network of multiple attention mechanism | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN112184549B (zh) | 基于时空变换技术的超分辨图像重建方法 | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN115375711A (zh) | 基于多尺度融合的全局上下文关注网络的图像分割方法 | |
CN114066729A (zh) | 一种可恢复身份信息的人脸超分辨率重建方法 | |
Li et al. | Infrared and visible fusion imaging via double-layer fusion denoising neural network | |
Niu et al. | A super resolution frontal face generation model based on 3DDFA and CBAM | |
Krishnan et al. | SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference | |
Yang et al. | A survey of super-resolution based on deep learning | |
Shi et al. | Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-cnn structure for face super-resolution | |
CN115249382A (zh) | 一种基于Transformer与CNN的静默活体检测方法 | |
Zeng et al. | Self-attention learning network for face super-resolution | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
CN114332625A (zh) | 基于神经网络的遥感图像彩色化和超分辨率方法及系统 | |
Karthick et al. | Deep regression network for the single image super resolution of multimedia text image | |
Amiri et al. | A fast video super resolution for facial image | |
Wang et al. | Research on image super-resolution reconstruction based on transformer | |
Zhang et al. | Deep residual network based medical image reconstruction | |
Wei et al. | Deep Intelligent Neural Network for Medical Geographic Small-target Intelligent Satellite Image Super-resolution. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |