CN117291802A - 一种基于复合网络结构的图像超分辨率重建方法及系统 - Google Patents
一种基于复合网络结构的图像超分辨率重建方法及系统 Download PDFInfo
- Publication number
- CN117291802A CN117291802A CN202311257774.8A CN202311257774A CN117291802A CN 117291802 A CN117291802 A CN 117291802A CN 202311257774 A CN202311257774 A CN 202311257774A CN 117291802 A CN117291802 A CN 117291802A
- Authority
- CN
- China
- Prior art keywords
- image
- super
- resolution
- convolution
- resolution image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000002131 composite material Substances 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000013507 mapping Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006798 recombination Effects 0.000 claims abstract description 6
- 238000005215 recombination Methods 0.000 claims abstract description 6
- 230000004913 activation Effects 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 230000008521 reorganization Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 20
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于复合网络结构的图像超分辨率重建方法及系统,其中方法具体包括:获取样本图像,对样本图像进行预处理,获取低分辨率图像;对低分辨率图像进行特征提取、非线性映射及图像重组,获取第一超分辨率图像;对第一超分辨率图像进行数据调整与特征增强,获取第二超分辨率图像;对第二超分辨率图像进行优化,获取优化后的超分辨率图像。本发明通过使用端到端的图像超分辨率复合网络结构获得高分辨率图像,由于图像超分辨率复合卷积网络结构采用的是单一的端到端训练的模型来处理不同尺度因子、模糊核和噪声水平的经典退化模型,同时兼顾了基于建模的方法和基于学习的方法的优点,实现兼顾检测重建精度和灵活性的技术效果。
Description
技术领域
本发明属于人工智能视觉故障检测技术领域,尤其涉及一种基于复合网络结构的图像超分辨率重建方法及系统。
背景技术
近年来,随着以智慧城市和安全城市为代表的项目的促进,视频监视摄像机在全国范围内迅速流行。根据IDC的预测,2018年9月30日,国内部署的视频监视摄像机的数量将在2022年达到27.6亿个单位。此外,随着人工智能视觉和图像处理技术的迅速发展,数字图像数据获取呈现爆炸式增长趋势,这极大地促进了计算机视野领域的快速发展。作为录制视觉任务的信息载体,数字图像已与人们的日常生活密切相关。近年来,基于计算机视觉的科学研究变得越来越重要,数字图像已被广泛用于安全监控,卫星测量和人们的日常生活。因此,当前对数字图像处理技术有着迫切的需求。目前,日常生活中的常见成像设备包括数码相机,移动手机和监视摄像头。但是,在成像过程中,受传感器和类型质量等因素的限制,被收录的数字图像存在的分辨率可能较低,图像模糊的问题,场景中的信息不能清晰明确的识别。其直接影响是图像的视觉效果无法满足人类感知要求,这限制了数字图像的应用范围。它进一步影响了其他随后的视觉任务的处理效果。因此,迫切需要使用有效的图像超分辨率算法从低分辨率图像恢复可靠的高清图像。为了解决这个问题,已经提出了许多超分辨率方法,包括早期的传统方法和最新的基于深度学习的方法。传统方法在很大程度上依赖于样本信息和算法寻优的过程,深度学习方法通过增加网络的深度来改善超分辨率图像的质量,但增加网络的计算成本,并且不适用于移动电话和摄像机等便携式设备。轻量的超分辨率算法则为了较小的计算成本而牺牲性能。但是,目前的方案中,对于低分辨率图像的特征的提取程度还不高,进而难以更多地还原高分辨率图像的纹理细节。
发明内容
为解决上述技术问题,本发明提出了一种基于复合网络结构的图像超分辨率重建方法及系统,解决现有技术中存在的无法兼顾重建精度、重建灵活性和重建效率的技术问题,通过使用端到端的图像超分辨率复合网络结构获得高分辨率图像,同时兼顾了基于建模的方法和基于学习的方法的优点,实现兼顾检测重建精度和灵活性。
一方面为实现上述目的,本发明提供了一种基于复合网络结构的图像超分辨率重建方法,包括以下步骤:
获取样本图像,对所述样本图像进行预处理,获取低分辨率图像;
对所述低分辨率图像进行特征提取、非线性映射及图像重组,获取第一超分辨率图像;
对所述第一超分辨率图像进行数据调整与特征增强,获取第二超分辨率图像;
对所述第二超分辨率图像进行优化,获取优化后的超分辨率图像。
可选的,获取所述低分辨率图像包括:
对所述样本图像进行格式转换,获取YCBCR图像;
对所述YCBCR图像进行下采样,获取下采样后的图像;
对所述下采样后的图像进行剪裁存储处理,获取低分辨率图像。
可选的,获取所述第一超分辨率图像包括:
对所述低分辨率图像进行特征提取,获取低分辨率图像对应的第一特征图;
对参考的高分辨率图像中迁移高清纹理细节,并融合到所述第一特征图,获取第二特征图,并根据所述第二特征图生成第二卷积图像;
将所述第二特征图进行聚合重建,获取第三特征图,根据所述第三特征图生成所述第一超分辨率图像。
可选的,获取所述第二超分辨率图像包括:
对所述第一超分辨率图像进行特征提取,并对输入图像采用跳链技术连接网络输出端口;
按照残差结构循环5次获得残差特征图像,并根据所述残差特征图像生成第二超分辨率图像。
可选的,获取所述优化后的超分辨率图像包括:
对所述残差特征图像进行扩充尺寸,像素清洗获得第四卷积图像,并根据所述第四卷积图像生成第四特征图像;
对所述第四特征图像进行扩充尺寸,像素清洗获得第五卷积图像,并根据所述第五卷积图像生成所述优化后的超分辨率图像。
另一方面为实现上述目的,本发明还提供了一种基于复合网络结构的图像超分辨率重建系统,包括:
图像预处理模块、SRCNN模块、深度残差模块和子像素卷积模块;
所述图像预处理模块,用于对样本图像进行预处理,获取低分辨率图像;
所述SRCNN模块,用于对所述低分辨率图像进行特征提取、非线性映射及图像重组,获取第一超分辨率图像;
所述深度残差模块,用于对所述第一超分辨率图像进行数据调整与特征增强,获取第二超分辨率图像;
所述子像素卷积模块,用于对所述第二超分辨率图像进行优化,获取优化后的超分辨率图像。
可选的,所述图像预处理模块包括:图像格式转换单元、下采样单元和裁剪储存单元;
所述图像格式转换单元,用于对所述样本图像进行格式转换,获取YCBCR图像;
所述下采样单元,用于对所述YCBCR图像进行下采样,获取下采样后的图像;
所述裁剪储存单元,用于对所述下采样后的图像进行剪裁存储处理,获取低分辨率图像。
可选的,所述SRCNN模块包括:特征提取单元、非线性映射单元和图像重组单元;
所述特征提取单元,用于对所述低分辨率图像进行特征提取,获取低分辨率图像对应的第一特征图;
所述非线性映射单元,用于对参考的高分辨率图像中迁移高清纹理细节,并融合到所述第一特征图,获取第二特征图,并根据所述第二特征图生成第二卷积图像;
所述图像重组单元,用于将所述第二特征图进行聚合重建,获取第三特征图,根据所述第三特征图生成所述第一超分辨率图像。
可选的,所述深度残差模块包括5个残差单元,每个残差单元由卷积层、数据归一层、激活层、卷积层、数据归一层、元素加和层级联而成,其中每个卷积核大小为3*3,所述5个残差单元具体工作过程包括:对所述第一超分辨率图像进行特征提取,并对输入图像采用跳链技术连接网络输出端口,按照残差结构循环5次获得残差特征图像,并根据所述残差特征图像生成第二超分辨率图像。
可选的,所述子像素卷积模块包括:第一子像素卷积单元和第二子像素卷积单元;
所述第一子像素卷积单元,用于对所述残差特征图像进行扩充尺寸,像素清洗获得第四卷积图像,并根据所述第四卷积图像生成第四特征图像;
所述第二子像素卷积单元,用于对所述第四特征图像进行扩充尺寸,像素清洗获得第五卷积图像,并根据所述第五卷积图像生成所述优化后的超分辨率图像。
本发明技术效果:本发明公开了一种基于复合网络结构的图像超分辨率重建方法及系统,本发明提供的图像超分辨率重建方法,通过使用端到端的图像超分辨率复合网络结构获得高分辨率图像,由于图像超分辨率复合卷积网络结构采用的是单一的端到端训练的模型来处理不同尺度因子、模糊核和噪声水平的经典退化模型,同时兼顾了基于建模的方法和基于学习的方法的优点,实现兼顾检测重建精度和灵活性的技术效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一种基于复合网络结构的图像超分辨率重建方法的流程示意图;
图2为本发明实施例一种基于复合网络结构的图像超分辨率重建系统的结构示意图;
图3为本发明实施例图像超分辨率SRCNN模块分示意图;
图4为本发明实施例图像超分辨率深度残差模块示意图;
图5为本发明实施例子像素卷积模块机理意图;
图6为本发明实施例yolov3系列目标检测的技术路线示意图;
图7为本发明实施例DBL层示意图;
图8为本发明实施例RES层示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本实施例中提供一种基于复合网络结构的图像超分辨率重建方法,包括:
步骤一、样本采集:在工作现场收集图像信息,并将其中RGB图像转为YCBCR图像;其中:RGB图像颜色模式色调、色度、饱和度三者混在一起难以分开,而YCBCR图像,Y是指亮度分量,CB表示RGB输入信号蓝色部分与RGB信号亮度值之间的差异,CR表示RGB输入信号红色部分与RGB信号亮度值之间的差异。
步骤二、构建训练集:通常含有低分辨率图像和高分辨图像,高分辨率图像为未下采样前的图像,低分辨率图像为下采样后的图像,通常采用一般采用2倍下采样,图像长宽均变成原来的1/2。其中,下采样系数也可以采用3或4来进行调整。
步骤三、图像预处理:由于后面采用的神经网络输入图像要求长宽一致,而数据集中的图片长宽并不一致,需对其进行裁剪。这里采用的方式是先定位到每个图片中心,然后以图片中心为基准,向四个方向拓展n个像素,从而将图片裁剪成2n×2n的正方形。其中,一般情况下拓展150个像素,最后得到300×300的正方形图像。
步骤四、搭建图像超分辨率复合卷积网络结构,
其中,图像超分辨率复合卷积网络结构由两个超分辨率重建模块组成,其中包括:SRCNN模块、深度残差模块。
如图3所示,SRCNN模块由三个卷积单元组成,其中包括:特征提取单元、非线性映射单元以及图像重建单元。
其中,卷积网络结构的损失函数为MSE(均方误差),以获得高PSNR,PSNR是一种广泛使用的用于定量评估图像恢复质量的指标。
其中,三个卷积单元分别包括一个卷积层和一个RELU激活层。
其中,特征提取单元此部分从低分辨率图像中提取(重叠)特征块,并将每个特征块表示为一个高维向量。这些向量包括一组特征图,数量等于向量的维数,此单元通道数与输入图像数相等,卷积核大小9*9,滤波器64个。
其中,非线性映射单元将每个高维向量非线性映射到另一个高维向量。每个映射向量都是高分辨率特征块。这些向量同样包括另一组特征图,此单元卷积核大小1*1,通道64条,滤波器32个。
其中,图像重建单元聚合上述高分辨率patch-wise(介于像素级别和图像级别的区域)表示,生成最终的高分辨率图像,此单元卷积核大小5*5。
如图4所示,深度残差模块由五个残差单元组成;
其中,残差单元包括一个残差卷积层、一个数据归一层、一个残差激活层、一个残差卷积层、一个数据归一层、一个元素加和层级,
此外,在图像超分辨率复合卷积网络结构与子像素卷积模块之间存在一个级联的采样卷积层、数据归一层、元素加和层。
步骤五,训练算法:对低分辨率图像的y颜色空间进行训练,根据不同的放大因子2、3、4训练不同的模型,每个网络模型只训练1个放大因子。对于不同的放大因子(2、3和4),将测试集中原始的高分辨率图像分别进行相应的下采样来得到原始的低分辨率图像,此后先把低分辨率图像L通过放大恢复为原高分辨率图像H',然后再和原高分辨率图形H加以对比。H'与H的差值用于调整模型的参数,通过迭代训练将差值最小化,调节后依次通过模型中的三个卷积层得到所需结果。
步骤六,把重建高分辨率图像输入图5所示的子像素卷积单元进行像素清洗以获得高分辨率图像。
其中,输入是原始低分辨率图像通过多层卷积重建网络后得到的高分辨率图像,通过三个卷积层以后,得到通道数为r2的与输入图像大小一样的特征图像。再将特征图像每个像素的r2个通道重新排列成一个r×r的区域,对应高分辨率图像中一个r×r大小的子块,从而大小为H×W×r2的特征图像被重新排列成rH×rW×1的高分辨率图像。
在最终得到高分辨率图像后。随后以峰值信噪比(PSNR)作为评估指标,数值越大表示失真越小,一般PSNR在38dB以上认为合格。
具体的评估办法是根据PSNR和SSIM两个值设计了相对应的线性损失函数,以促进指标收敛。并以PSNR和SSIM作为评估模型性能的指标,PSNR为峰值信噪比,用于衡量生成的高分辨率图像与真实的高分辨率图像逐像素值的差距;SSIM为结构相似性,用于衡量两图像在亮度、对比度以及结构上的相似程度。
步骤七,如图6所示,将图像输入yolov3模型,并通过下采样将图像的大小统一成416×416的尺寸大小。
由于在Darknet-53网络架构中,每次下采样的倍率为32,所以我们输入到模型中的图片尺寸必须为32的倍数,在实际模型训练中通常使用的图片尺寸为416×416。所以在输入算法模型前,我们需要将图片尺寸通过resize函数调整到416×416的大小。如图8所示,指定了缩放后图像的大小,resize函数就会将图像拉伸到这个大小,拉伸后的图像相比于原图不会有任何的裁剪。
步骤八,经过尺寸调整后的图像,输入到yolov3网络中进行特征提取。
图片先经过Darknet-53进行下采样。所谓下采样作用为减少矩阵的采样点数。对于一副图像尺寸为416×416,对其进行n倍下采样,即得到(416/n)×(416/n)尺寸的分辨率图像。此部分网络主要是由DBL层和RES层组成,其中DBL与RES层分别如图7、图8所示;
图片会经过Darknet-53的全卷积网络降采样至13×13的特征图,再将其上采样即增加矩阵的采样点数的操作,并与DarkNet-53中间得到的特征图经过Concat模块得到26×26的特征图,Concat模块起到张量拼接的作用,进而扩充两个张量的维度。相似的26×26上采样经过Concat模块可获得52×52的特征图。
至此得到了三种不同规模的图片识别数据,
Y1适用于大目标,输出维度为13×13×255。13×13为图片大小;
Y2适用于中目标,输出维度为26×26×255。26×26为图片大小;
Y3适用于小目标,输出维度为52×52×255。52×52为图片大小;
上述输出维度中,255=(80+5)×3;80是指识别物体种类数;5=x,y,w,h(锚框坐标)和c(置信度);3:每个点预测3个目标框;
对于得到的三个预测框进行非极大抑制。
Y1、Y2、Y3这三组数据中都会有置信度参数,数据将由分类器分类和确定,每个预测框将获得一个分数,当数据通过非最大值的NMS网络抑制数据时,该预测框在附近的数值最高即可能正确识别目标,数据将被保留,并将清除具有低分的预测框。此时,已经建立了最佳预测框的数据,包括中心点的坐标以及预测框的大小和置信度。
但是目前,我们还需要以图片的形式输出此数据,该数据需要通过补充代码找到和回归数据,而Yolov3通过逻辑回归来预测每个边界框的置信度。如果预测边界框比任何其他锚点与真实对象重叠的多,则值应为1。但是,若框架在真实对象上的重叠不是最佳的,超过一定的阈值,则忽略其预测,而不会产生损失函数。向每个对象分配一个锚点以预测(一个具有最高置信度),这是损失函数的所有术语,否则作为负面示例,置信标签为零。到此为止,实现了目标的检测和识别。
如图2所示,本实施例中提供一种基于复合网络结构的图像超分辨率重建系统,包括:图像预处理模块、SRCNN模块、深度残差模块和子像素卷积模块。
样本图像经过图像预处理模块、SRCNN模块、深度残差模块和子像素卷积模块获得超分辨率图像。
基于超分辨率图像的低分辨率投影图像与低分辨率图像的感知差异,引入反投影损失函数,并基于反投影损失函数建立网络模型所用的总损失函数,其中我们选择MSE作为损失函数。
图像预处理模块包括图像格式转换单元、所述下采样单元、所述裁剪储存单元。
所述图像格式转换单元用于将样本图像中的图下从RGB图像转为YCBCR图像;
所述下采样单元用于对高分辨图像进行下采样并获得输入的低分辨率图像;
所述裁剪储存单元用于将图片裁剪为小块进行存储以适应后续神经网路输入图片长宽一致的要求。
图片长宽并不一致,需对其进行裁剪。采用的方式是先定位到每个图片中心,然后以图片中心为基准,向四个方向拓展150个像素,从而将图片裁剪成300×300的正方形。
SRCNN模块包括特征提取单元、非线性映射单元、图像重建单元,其中特征提取单元,用于实现对输入的低分辨率图像LR进行特征提取,生成低分辨率图像对应的特征图;特征提取单元包括第一卷积层和第一激活层;特征提取单元通道数与输入样本数量相等,卷积核大小9*9;
非线性映射单元,用于实现从参考的高分辨率图像中迁移高清纹理细节,并融合到从特征提取模块中提取的特征图中,得到融合特征图;非线性映射单元包括第二卷积层和第二激活层,非线性映射单元卷积核大小1*1;
图像重建单元,用于实现从非线性映射模块输出的融合特征图重建目标图像大小的超分辨率图像;图像重建单元包括第三卷积层和第三激活层,卷积核大小5*5。
低分辨率图像经过特征提取单元、非线性映射单元和图像重组单元获得SRCNN超分辨率图像。
深度残差模块包括第一残差卷积单元、第二残差卷积单元、第三残差卷积单元、第四残差卷积单元和第五残差卷积单元,其中每个卷积核大小为3*3。
激活系统包括间隔级联的第一激活层、第二激活层、第三激活层、第一残差激活层、第二残差激活层、第三残差激活层、第四残差激活层、第五残差激活层以及子像素激活层;
特征提取单元用于接收所述低分辨率图像,获得特征提取图像,并对特征提取图像进行下采样,获得第一下采样图像,并根据第一下采样图像生成第一特征图像;
非线性映射单元用于对第一特征图像进行下采样,获得第二下采样图像,并根据第二下采样图像生成第二特征图像;
图像重组单元用于对第二特征进行下采样,获得第三下采样图像,并根据第三下采样图像并生成第三特征图像,即第一超分辨率图像;
上述特征提取单元、非线性映射单元、图像重组单元中的卷积层用于对下采样图像进行卷积操作,获得卷积图像;
上述特征提取单元、非线性映射单元、图像重组单元中的激活函数层用于基于ReLu激活函数对第一卷积图像进行激活处理,获得激活图像。
深度残差模块包括级联的第一至第五残差卷积单元;
第一至第五残差卷积单元对第一超分辨率图像进行特征提取,并对输入图像采用跳链技术连接网络输出端口,按照残差结构循环5次得到残差特征图像,并根据残差特征图像生成第二超分辨率图像;
每个残差卷积单元包括基本卷积层、数据归一化层和基本PReLU函数层,
其中,基本卷积层用于提取目标特征图像的特征,获得基本特征图像;
数据归一化层用于对基本特征图像进行归一化处理,获得归一化图像;
基本PReLU函数层用于对归一化图像进行非线性映射,获得特征连接图。
第一残差卷积单元用于对第三特征图像进行数据调整与特征增强,并生成第一残差特征图像。
第二残差卷积单元用于对第一残差特征图像进行数据调整与特征增强,并与第一残差图像进行元素相加生成第二残差特征图像。
第三残差卷积单元用于对第二残差特征图像进行数据调整与特征增强,并与第二残差图像进行元素相加生成第三残差特征图像。
第四残差卷积单元用于对第三残差特征图像进行数据调整与特征增强,并与第三残差图像进行元素相加生成第四残差特征图像。
第五残差卷积单元用于对第四残差特征图像进行数据调整与特征增强,并与第四残差图像进行元素相加生成第五残差特征图像。
上述残差卷积单元中的激活函数层用于基于PReLu激活函数对第一卷积图像进行激活处理,获得激活图像。
对于已经处理好的超分辨率图像进行一个预处理,通过resize函数调整到416×416大小。
调整好的图片输入到基于yolov3模型的目标检测网络中,进行故障的检测识别。
图像先经过Darknet-53全卷积网络降采样至13×13的特征图。
Darknet-53全卷积网络一共有53个卷积层,其余为Res层。
其中,RES层选择了五个具有不同尺度和深度的RES层,这些层仅在不同层的输出之间执行剩余的误差查找操作。
Darknet-53作为Yolov3进行特征提取的主要网络结构,g使用一系列的3×3和1×1卷积的卷积层,实现对特征的提取。
然后对13×13的特征图进行上采样,并与DarkNet-53中间获得的特征图合并,以获得26×26的特征图。
其中Concat模块采用张量拼接,扩充两个张量的维度,
再将26×26上采样并与DarkNet-53中间得到的特征图合并得到52×52的特征图。
到目前为止,我们有三个不同的图像识别数据,每种规模输出都有255个数据。
数据规模中3×(4+1+80)=255,含义为3种不同形状的先验框,先验框拥有4个坐标数据,1个置信度数据,80个类别数据。
在算法模型中获得输出数据后,将通过多个框识别相同的对象,并且需要非最大抑制操作。
非极大值抑制NMS选取那些邻域里分数最高的预测框(即正确识别目标的概率最大),并且抑制那些分数低的预测框。
非极大值抑制NMS选择了邻域中分数最高的那些预测框,即最有可能正确识别目标,并抑制了分数低的预测框。
抑制后,每个目标仅保留最佳的预测框数据,但目前还需要将此数据以图片形式输出。
数据是通过补充代码进行顶欸和回归,输出是带有预测框和分类标签的图片,即完成目标识别并符合参数要求。
相应的线性损耗函数是根据PSNR和SSIM的两个值设计的,以促进指标的收敛性。PSNR和SSIM被用作评估模型性能的指标,PSNR是峰值信噪比,用于测量生成的高分辨率图像与真实高分子图像之间的像素差异-分辨率图像。SSIM是结构相似性,它在亮度,对比度和结构方面衡量了两个图像之间的相似程度。
若图像超分辨率重建模型的模型性能低于性能要求,则调整了图像超分辨率模型参数,将重建模型,然后再次训练。
若图像超分辨率重建模型的模型性能小于性能阈值,则更新图像超分辨率重建模型。
获得原始图像的过程:现场采样图像有低分辨率图像和高分辨图像,为了保证格式统一方便后续训练需要将其中图像将其从RGB图像转为YCBCR图像,并将通过转换现场采样图像格式得到的YCBCR图像称为原始图像。
SRCNN卷积模块包括级联的特征提取单元、非线性映射单元以及图像重建单元;输入原始图像通过双三次插值先放达到目标尺寸作为第一图像,此时是低分辨率图像。特征提取单元用于接收第一图像,对第一图像中的特征块进行下采样并将之表示为一个向量组得到第一特征提取图;
非线性映射单元用于对特征提取图像非线性映射,将每组特征提取图像映射到另一个高维向量。每个映射向量在概念上都是高分辨率特征块的表示。这些向量同样包括另一组特征图即第二特征图像,并根据第二特征图像生成第二卷积图像;
图像重建单元用于对第二特征图像进行聚合重建,获得第三特征图像,此时是高分辨率图像,并根据第三特征图像生成第三卷积图像,即第一超分辨率图像;
子像素卷积模块包括级联的卷积层、像素清洗层以及激活层;
第一子像素卷积单元用于对残差特征图像进行扩充尺寸,像素清洗获得第四卷积图像,并根据卷积残差特征图像生成第四特征图像;
第二子像素卷积单元用于对第四特征图像进行扩充尺寸,像素清洗获得第五卷积图像,并根据卷积残差特征图像生成第五特征图像,即优化后的超分辨率图像。
将低分辨率图像输入至训练完备的图像超分辨率重建模型中,获得高分辨率图像之前,还包括:构建初始超分辨率图像模型,并确定初始超分辨率图像模型的损失函数;获取多张低分辨率图像,并对多张低分辨率图像进行预处理,获得低分辨率图像训练集;根据低分辨率图像训练集和损失函数训练初始超分辨率图像模型,获得图像超分辨率重建模型。
在获得图像超分辨率重建模型之后,还包括:基于峰值信噪比、结构相似度判断图像超分辨率重建模型的模型性能是否大于性能阈值;若图像超分辨率重建模型的模型性能小于性能阈值一般峰值信噪比在38dB以上,结构相似性在1附近认为合格,则更新图像超分辨率重建模型。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于复合网络结构的图像超分辨率重建方法,其特征在于,包括:
获取样本图像,对所述样本图像进行预处理,获取低分辨率图像;
对所述低分辨率图像进行特征提取、非线性映射及图像重组,获取第一超分辨率图像;
对所述第一超分辨率图像进行数据调整与特征增强,获取第二超分辨率图像;
对所述第二超分辨率图像进行优化,获取优化后的超分辨率图像。
2.如权利要求1所述的基于复合网络结构的图像超分辨率重建方法,其特征在于,获取所述低分辨率图像包括:
对所述样本图像进行格式转换,获取YCBCR图像;
对所述YCBCR图像进行下采样,获取下采样后的图像;
对所述下采样后的图像进行剪裁存储处理,获取低分辨率图像。
3.如权利要求1所述的基于复合网络结构的图像超分辨率重建方法,其特征在于,获取所述第一超分辨率图像包括:
对所述低分辨率图像进行特征提取,获取低分辨率图像对应的第一特征图;
对参考的高分辨率图像中迁移高清纹理细节,并融合到所述第一特征图,获取第二特征图,并根据所述第二特征图生成第二卷积图像;
将所述第二特征图进行聚合重建,获取第三特征图,根据所述第三特征图生成所述第一超分辨率图像。
4.如权利要求1所述的基于复合网络结构的图像超分辨率重建方法,其特征在于,获取所述第二超分辨率图像包括:
对所述第一超分辨率图像进行特征提取,并对输入图像采用跳链技术连接网络输出端口;
按照残差结构循环5次获得残差特征图像,并根据所述残差特征图像生成第二超分辨率图像。
5.如权利要求4所述的基于复合网络结构的图像超分辨率重建方法,其特征在于,获取所述优化后的超分辨率图像包括:
对所述残差特征图像进行扩充尺寸,像素清洗获得第四卷积图像,并根据所述第四卷积图像生成第四特征图像;
对所述第四特征图像进行扩充尺寸,像素清洗获得第五卷积图像,并根据所述第五卷积图像生成所述优化后的超分辨率图像。
6.一种基于复合网络结构的图像超分辨率重建系统,其特征在于,包括:
图像预处理模块、SRCNN模块、深度残差模块和子像素卷积模块;
所述图像预处理模块,用于对样本图像进行预处理,获取低分辨率图像;
所述SRCNN模块,用于对所述低分辨率图像进行特征提取、非线性映射及图像重组,获取第一超分辨率图像;
所述深度残差模块,用于对所述第一超分辨率图像进行数据调整与特征增强,获取第二超分辨率图像;
所述子像素卷积模块,用于对所述第二超分辨率图像进行优化,获取优化后的超分辨率图像。
7.如权利要求6所述的基于复合网络结构的图像超分辨率重建系统,其特征在于,所述图像预处理模块包括:图像格式转换单元、下采样单元和裁剪储存单元;
所述图像格式转换单元,用于对所述样本图像进行格式转换,获取YCBCR图像;
所述下采样单元,用于对所述YCBCR图像进行下采样,获取下采样后的图像;
所述裁剪储存单元,用于对所述下采样后的图像进行剪裁存储处理,获取低分辨率图像。
8.如权利要求6所述的基于复合网络结构的图像超分辨率重建系统,其特征在于,所述SRCNN模块包括:特征提取单元、非线性映射单元和图像重组单元;
所述特征提取单元,用于对所述低分辨率图像进行特征提取,获取低分辨率图像对应的第一特征图;
所述非线性映射单元,用于对参考的高分辨率图像中迁移高清纹理细节,并融合到所述第一特征图,获取第二特征图,并根据所述第二特征图生成第二卷积图像;
所述图像重组单元,用于将所述第二特征图进行聚合重建,获取第三特征图,根据所述第三特征图生成所述第一超分辨率图像。
9.如权利要求6所述的基于复合网络结构的图像超分辨率重建系统,其特征在于,所述深度残差模块包括5个残差单元,每个残差单元由卷积层、数据归一层、激活层、卷积层、数据归一层、元素加和层级联而成,其中每个卷积核大小为3*3,所述5个残差单元具体工作过程包括:对所述第一超分辨率图像进行特征提取,并对输入图像采用跳链技术连接网络输出端口,按照残差结构循环5次获得残差特征图像,并根据所述残差特征图像生成第二超分辨率图像。
10.如权利要求9所述的基于复合网络结构的图像超分辨率重建系统,其特征在于,所述子像素卷积模块包括:第一子像素卷积单元和第二子像素卷积单元;
所述第一子像素卷积单元,用于对所述残差特征图像进行扩充尺寸,像素清洗获得第四卷积图像,并根据所述第四卷积图像生成第四特征图像;
所述第二子像素卷积单元,用于对所述第四特征图像进行扩充尺寸,像素清洗获得第五卷积图像,并根据所述第五卷积图像生成所述优化后的超分辨率图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257774.8A CN117291802B (zh) | 2023-09-27 | 2023-09-27 | 一种基于复合网络结构的图像超分辨率重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311257774.8A CN117291802B (zh) | 2023-09-27 | 2023-09-27 | 一种基于复合网络结构的图像超分辨率重建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117291802A true CN117291802A (zh) | 2023-12-26 |
CN117291802B CN117291802B (zh) | 2024-08-02 |
Family
ID=89238550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311257774.8A Active CN117291802B (zh) | 2023-09-27 | 2023-09-27 | 一种基于复合网络结构的图像超分辨率重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117291802B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
CN110706154A (zh) * | 2019-08-28 | 2020-01-17 | 西北大学 | 一种基于层次化残差神经网络的图像超分辨率方法 |
CN111754403A (zh) * | 2020-06-15 | 2020-10-09 | 南京邮电大学 | 一种基于残差学习的图像超分辨率重构方法 |
CN114693547A (zh) * | 2022-03-03 | 2022-07-01 | 大连海事大学 | 基于图像超分辨的射频图像增强方法及射频图像识别方法 |
CN115375537A (zh) * | 2022-06-29 | 2022-11-22 | 天津大学 | 非线性感知多尺度的超分辨率图像生成系统及方法 |
-
2023
- 2023-09-27 CN CN202311257774.8A patent/CN117291802B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
CN110706154A (zh) * | 2019-08-28 | 2020-01-17 | 西北大学 | 一种基于层次化残差神经网络的图像超分辨率方法 |
CN111754403A (zh) * | 2020-06-15 | 2020-10-09 | 南京邮电大学 | 一种基于残差学习的图像超分辨率重构方法 |
CN114693547A (zh) * | 2022-03-03 | 2022-07-01 | 大连海事大学 | 基于图像超分辨的射频图像增强方法及射频图像识别方法 |
CN115375537A (zh) * | 2022-06-29 | 2022-11-22 | 天津大学 | 非线性感知多尺度的超分辨率图像生成系统及方法 |
Non-Patent Citations (5)
Title |
---|
CHRISTIAN LEDIG ET AL: "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network", 《ARXIV》, 25 May 2017 (2017-05-25) * |
刘月峰;杨涵晰;蔡爽;张晨荣;: "基于改进卷积神经网络的单幅图像超分辨率重建方法", 计算机应用, no. 05, 28 November 2018 (2018-11-28) * |
李岚 等: "基于改进残差亚像素卷积神经网络的超分辨率图像重建方法研究", 《长春师范大学学报》, 31 August 2020 (2020-08-31), pages 23 - 29 * |
王一宁 等: "基于残差神经网络的图像超分辨率改进算法", 《计算机应用》, 10 January 2018 (2018-01-10), pages 246 - 254 * |
陈晨;刘明明;刘兵;周勇;: "基于残差网络的图像超分辨率重建算法", 计算机工程与应用, no. 08, 28 May 2019 (2019-05-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN117291802B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768432B (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
EP4109392A1 (en) | Image processing method and image processing device | |
CN111476737B (zh) | 一种图像处理方法、智能设备及计算机可读存储介质 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN114742719A (zh) | 一种基于多特征融合的端到端图像去雾方法 | |
CN112435191A (zh) | 一种基于多个神经网络结构融合的低照度图像增强方法 | |
CN115330631A (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
CN116757988B (zh) | 基于语义丰富和分割任务的红外与可见光图像融合方法 | |
CN111582074A (zh) | 一种基于场景深度信息感知的监控视频树叶遮挡检测方法 | |
CN113989234A (zh) | 基于多特征融合的图像篡改检测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN104504672B (zh) | 基于NormLV特征的低秩稀疏邻域嵌入超分辨方法 | |
CN113409355A (zh) | 一种基于fpga的运动目标识别系统及方法 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
CN112966639A (zh) | 车辆检测方法、装置、电子设备及存储介质 | |
CN117291802B (zh) | 一种基于复合网络结构的图像超分辨率重建方法及系统 | |
CN115861922B (zh) | 一种稀疏烟火检测方法、装置、计算机设备及存储介质 | |
CN113920455B (zh) | 一种基于深度神经网络的夜间视频着色方法 | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 | |
CN114565764A (zh) | 基于舰船实例分割的港口全景感知系统 | |
CN115035377A (zh) | 基于双流编码和交互解码的显著性检测网络系统 | |
CN112651926A (zh) | 一种基于递归注意力机制的裂纹检测的方法及装置 | |
CN116934590A (zh) | 一种图像超分辨率的重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |