CN110136061A

CN110136061A - 一种基于深度卷积预测与插值的分辨率提升方法及系统

Info

Publication number: CN110136061A
Application number: CN201910387078.6A
Authority: CN
Inventors: 刘贵松; 杨鹏程; 解修蕊; 陈述
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Southwestern University Of Finance And Economics; University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-16
Anticipated expiration: 2039-05-10
Also published as: CN110136061B

Abstract

本发明公开了一种基于深度卷积预测与插值的分辨率提升方法及系统，涉及分辨率提升领域；其包括步骤：构建深度卷积网络，并预处理图片集，深度卷积网络包括特征提取网络、预测网络和重构网络；利用预处理后的训练集中的低分辨率图片Pl输入上述深度卷积网络进行特征提取、邻域特征预测、邻域特征插值和重构预测出高分辨率图片Ph，计算Ph与训练集中目标高分辨率图片Pt间的均方损失，并通过梯度下降训练各部分网络，重复上述过程迭代M次完成训练；将实际场景中的低分辨率图片输入已训练的深度卷积网络，获取高分辨率图片；本发明解决现有分辨率提升使用的网络训练难度大、分辨率提升效果差的问题，达到了降低训练难度、提高分辨率的效果。

Description

一种基于深度卷积预测与插值的分辨率提升方法及系统

技术领域

本发明涉及分辨率提升方法领域，尤其是一种基于深度卷积预测与插值的分辨率提升方法及系统。

背景技术

现有的分辨率提升方法可以分为三类：传统方法、机器学习方法和深度学习方法。常见的传统方法有双线性插值、最邻近插值和双三次插值；机器学习方法具有代表性的有邻域嵌入法NE、锚定邻域回归ANR和强化锚定邻域回归A+；具有代表性的深度学习方法有SRCNN、DRCN、SRResNet和SRGAN。

传统方法通过理论上设计的公式来预测分辨率提升，产生的空白像素值，虽然其运算量小，但是分辨率提升效果普遍较差，放大倍数增加过大容易产生马赛克现象；机器学习相比较传统方法拥有更好的效果，但其带来更大的计算量的同时，却没有显著提升效果；随着深度学习技术的逐渐成熟，采用深度学习的分辨率提升方法，有更加显著的效果提升，但存在结果不稳定、网络不容易训练、容易过拟合等问题。现有技术中专利号为CN201711207766.7、专利名称为用于视频编码分数像素插值的卷积神经网络的构建方法公开：收集不同内容、不同分辨率的图像，形成包含不同类型、不同编码复杂度的数据的原始训练数据集；对收集到的原始训练数据集进行预处理操作，得到符合视频编码帧间预测分数像素插值特性的训练数据，该数据作为训练卷积神经网络的输入数据；搭建深度卷积神经网络，考虑视频编码分数像素插值特性，得到适用于视频编码帧间预测分数像素插值的卷积神经网络结构；使用预处理得到的数据输入搭建好的卷积神经网络，同时将所述原始训练数据集作为对应的真值，训练搭建的卷积神经网络，得到适用于视频编码帧间预测分数像素插值的卷积神经网络模型；上述方法针对视频编码帧间预测分数像素插值设计了专门的卷积神经网络，同时设计了配套的数据预处理过程，使得卷积神经网络的训练可以顺利进行，并且使用训练好的卷积神经网络生成的分数像素可以满足分数像素插值的特定需求，使用其得到的卷积神经网络进行分数像素插值可以显著提升编码性能，更适用于视频编码帧间预测的分数像素插值部分。但是其利用低分辨率图片生成整张高分辨率图片，帧间预测分数像素插值根据真实存在的整数位置像素生成其余的分数位置像素，需要保证整数位置像素不改变；同时针对像素层面的插值，输出结果泛性差，导致分辨率提升效果不高。因此，本申请提出一种新不同于以上所有方法的基于深度卷积网络特征预测与插值的分辨率提升方法。

发明内容

本发明的目的在于：本发明提供了一种基于深度卷积预测与插值的分辨率提升方法及系统，解决现有分辨率提升使用的网络训练难度大、分辨率提升效果差的问题。

本发明采用的技术方案如下：

一种基于深度卷积预测与插值的分辨率提升方法，包括如下步骤：

步骤1：构建深度卷积网络，并预处理图片集，深度卷积网络包括特征提取网络、预测网络和重构网络；

步骤2：利用预处理后的训练集中的低分辨率图片Pl输入上述深度卷积网络进行特征提取、邻域特征预测、邻域特征插值和重构预测出高分辨率图片Ph，计算Ph与训练集中目标高分辨率图片Pt间的均方损失，并通过梯度下降训练各部分网络，重复上述过程迭代M次完成训练；

步骤3：将实际场景中的低分辨率图片输入已训练的深度卷积网络，即可获取高分辨率图片。

优选地，所述步骤1包括如下步骤：

步骤1.1：构建包括特征提取网络、预测网络和重构网络的深度卷积网络，所述特征提取网络包括五个串联的网络块，所述预测网络包括三个串联的网络块，所述重构网络包括串联连接的7个网络块和卷积层，所述网络块包括一个卷积层、批正则和PRELU激活函数；

步骤1.2：图片集包括训练集，所述训练集包括高分辨率图片和低分辨率图片；训练集的预处理包括选取K*K大小的图像块，其中，0<K<min{H,W}，H和W分别表示所有训练图片的高度最小值和宽度最小值。

优选地，所述步骤2包括如下步骤：

步骤2.1：将测试集的低分辨率图片输入提取网络B-net获取低分辨率图片特征F0；

步骤2.2：将低分辨率图片特征F0输入预测网络P-net预测高分辨率图片各个邻域特征F1，…，Fn，n＝N*N-1，N为放大倍数；

步骤2.3：将高分辨率图片各个邻域特征F1，…，Fn以及F0进行特征插值获取高分辨率图片特征Fh；

步骤2.4：将高分辨率图片特征Fh输入重构网络R-net进行重构，获取高分辨率图片Ph；步骤2.5：重复步骤2.1-2.4，判断是否达到迭代阈值，若是，则完成训练保存各部分权值；若否，则将重构后的高分辨率图片Ph和测试集中的高分辨率图片Pt计算均方差损失后，利用梯度下降训练深度卷积网络。

优选地，所述步骤2.2中预测网络P-net采用迭代预测，当前的输入为上一次预测网络P-net的输出，所述预测网络P-net采用具有权值共享的网络。

优选地，所述构建包括特征提取网络B-net、预测网络P-net和重构网络R-net的深度卷积网络采用参数调整方式，包括如下步骤：

步骤a1：构建上述步骤1.1中的网络块CovBlk，其中卷积核大小均为3x3，PRELU的初始参数设为0.1；

步骤a2：设B-net，P-net和R-net中CovBlk的数目分别为N1、N2和N3，根据具体问题确定网络规模获取三个整数的范围；

步骤a3：训练N1、N2和N3的各种取值情况的网络，并测试各个情况的效果，最终得到最佳的N1、N2和N3。

优选地，所述均方差损失计算公式如下：

其中，Pt(i,j)表示目标高分辨率图片中坐标为(i,j)的像素，Ph(i,j)表示预测高分辨率图片中坐标为(i,j)的像素。

一种基于深度卷积预测与插值的分辨率提升系统，包括

预处理单元，用于将图片集分类为测试集和训练集，并将训练集中的高低分辨率图片随机裁剪出指定大小的低分辨率图像块和相应放大倍数的高分辨率图像块；

网络构建单元，用于构建包括特征提取网络、预测网络和重构网络的深度卷积网络；

训练单元，用于将训练集图片输入深度卷积网络特征提取、邻域特征预测、邻域特征插值和重构，完成训练；

测试单元，用于将测试集的低分辨率图片输入已训练的深度卷积网络获取高分辨率图片，并与目标高分辨率图片计算PSNR值，用来评判模型效果。

优选地，所述特征提取网络包括五个串联的网络块，所述预测网络包括三个串联的网络块，所述重构网络包括串联连接的7个网络块和卷积层，所述网络块包括一个卷积层、批正则和PRELU激活函数。

优选地，所述训练单元包括均方差损失计算单元，所述计算公式如下：

优选地，所述网络构建单元采用参数调整方式，细节如下：

步骤b1：构建深度卷积网络中网络块CovBlk，其中卷积核大小均为3x3，PRELU的初始参数设为0.1；

步骤b2：设特征提取网络B-net，预测网络P-net和重构网络R-net中CovBlk的数目分别为N1、N2和N3，根据具体问题确定网络规模获取三个整数的范围；

步骤b3：训练N1、N2和N3的各种取值情况的网络，并测试各个情况的效果，最终得到最佳的N1、N2和N3。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明利用低分辨率图片和高分辨率图片的邻域特征相似性，通过深度卷积网络提取低分辨率图片特征并预测其高分辨率图片邻域特征，训练难度大大降低，然后将它们对应插值得到高分辨率图片特征，针对特征值层面的插值，避免现有针对像素层面的插值带来分辨率精度低、泛性差的缺点，解决现有分辨率提升使用的网络训练难度大、分辨率提升效果差的问题；

2.本发明通过构建、训练网络后进行特征提取、特征预测、特征插值和重构，通过权值共享的网络和高分辨率和低分辨率图片邻域特征相似性，加快训练速度和降低训练难度；

3.本发明通过参数调整构建最佳网络，每个网络包括网络块，每个网络块进行卷积、批正则和PRELU激活，加快训练速度，利于提高分辨率提升效果；

4.本发明针对特征值层面的插值，不改变特征图各个分量的相对位置，适用于多种情况下的分辨率提升，泛性强，分辨率提升效果佳。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的总体流程图；

图2为本发明的整体网络结构图；

图3为本发明的B-net网络结构图；

图4为本发明的P-net网络结构图；

图5为本发明的R-net网络结构图；

图6为本发明的插值过程示意图；

图7为本发明的效果示意图；

图8为本发明的流程图示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

随着深度学习技术的逐渐成熟，采用深度学习的分辨率提升方法，有更加显著的效果提升，但存在网络不容易训练、容易过拟合等问题，导致训练难度大的问题；现有的分辨率提升方法针对于像素层面的插值，只适用于某类图片，泛性差，分辨率提升效果不佳。

因此本申请利用低分辨率图片和高分辨率图片的邻域特征相似性，通过深度卷积网络提取低分辨率图片特征并预测其高分辨率图片邻域特征，训练难度大大降低；将它们对应插值得到高分辨率图片特征,针对特征值层面的插值，避免现有针对像素层面的插值带来分辨率精度低、泛性差的缺点；如图1-8所示，细节如下：

本实施例训练一个分辨率提升2倍网络，当前训练低分辨率图片的尺寸为HxW(H>32，W>32)，目标高分辨率图片的尺寸为2Hx2W，一批的大小为16。

训练过程：

1.1数据处理，读入一批的低分辨率图片和高分辨率图片，对批中所有低分辨率图片随机裁剪出一个32x32大小的图像块Plow，以及对应的高分辨率图片的对应位置处裁剪出64x64大小的目标图片块Pt，其中需要随机裁剪出32x32大小的图片，原因如下：

(1)输入的低分辨率图片大小不一，无法进行批训练；

(2)整个网络都是卷积操作，所以输入图片的大小对网络并无太大影响；

(3)硬件内存大小的限制。

构建包括特征提取网络B-net、预测网络P-net和重构网络R-net的深度卷积网络采用参数调整方式，包括如下步骤：

步骤a1：构建网络块CovBlk，其中卷积核大小均为3x3，PRELU的初始参数设为0.1；

步骤a2：设B-net，P-net和R-net中CovBlk的数目分别为N1、N2和N3，根据具体问题确定网络规模，限定三个整数的范围为：3<N1<9、2<N2<6以及4<N3<10，其中B-net各层卷积核的数目为2⁽ⁱ⁺⁴⁾,i＝0,1,2,…,N1，P-net各层卷积核的数目均为256，R-net各层卷积核的数目均为256；

1.2使用B-net提取Plow的特征，得到F0，其中B-net网络结构如图3所示，需要说明：

(1)图中卷积部分都是采用3x3的卷积核，共5层卷积网络，卷积数目分别为16，32，64，128，256，卷积的边界处理模式采用SAME，所以得到的特征F0和原输入图片的尺寸相同；

(2)每次卷积操作后会进行批正则，以加快深度卷积网络的训练，随后经过PRELU激活函数，三部分结合在一起作为一个卷积网络块CovBlk，公式表示为：

CovBlk＝PRELU(BN(Cov(I,K)))

其中，Cov表示卷积操作，K是卷积核，I是输入，BN是批正则操作，PRELU为激活函数。

2.将1.2中得到的F0输入到P-net预测高分辨率图片各个邻域特征F1，…，Fn，其中P-net网络结构如图4所示。其中需要说明的是：

(1)P-net由3个CovBlk串联而成，卷积核的尺寸均为3x3，卷积核数目均为256。

(2)P-net在迭代预测过程中，当前的输入为上次P-net的输出；

(3)预测过程中P-net权值共享。

3.将2中的F0，F1，…，Fn，(n＝N*N-1，当N＝2时，n＝3)对应位置插值得到Fh，如图6所示，该过程进一步说明：

(1)Fi(i＝0，1，…，N*N-1，当N＝2时，i＝0，1，2，3)，与输入图片的尺寸相同，在本实例中为32x32，插值后得到的特征尺寸为64x64，即为目标高分辨率图片的尺寸；

(2)由图6可以看出特征插值过程，并不改变特征图的各个分量的相对位置。

4.1将Fh输入到R-net中，重构高分辨率图片Ph，其中R-net的网络结构如图5所示。

进一步说明：

(1)R-net由7个CovBlk和1个单独卷积层组成，输出层的卷积网络无需接入批正则和激活函数，卷积核尺寸均为3x3，数目均为256；

(2)由于卷积边界模式均是采用SAME模式，所以Ph的尺寸和Fh相同，本实例中为64x64。

4.2计算Ph和Pt之间的均方损失，公式如下：

其中，Pt(i,j)表示目标高分辨率图片中坐标为(i,j)的像素，Ph(i,j)表示预测高分辨率图片中坐标为(i,j)的像素；

4.3通过梯度下降最小化损失函数MSE，进而训练各个部分的卷积核，其中MSE是预测任务中常用的损失函数，最小化MSE表示让预测像素Ph(i,j)尽可能接近目标像素Pt(i,j)。

5.训练过程中参数设置：初始学习率设为0.00001，采用Adam优化器，学习率每经过6万次批训练衰减一次，衰减率设为0.1。

实测/测试过程：

1.测试过程网络已经训练完成，对输入的低分辨率图片无需进行随机的32x32块抽样，而是直接输入整张图片，并直接得到提升后的高分辨率图片(由于整个网络结构都是由卷积组成，对输入图片大小无限制)。

2.测试过程直接返回Ph，而无需计算均方损失。

效果分析：

1、收敛速度分析，命名本发明方法为SRPIN；本实验在训练过程中进行，旨在观察训练过程中PSNR值上升速度的快慢，其中训练数据是由8156张尺寸不一的高低分辨率图片组成，目标放大2倍。实验主要与SRResNet、SRGAN及SRCNN进行比较，实验结果如下表所示：

其中，表中的数值表示训练过程中PSNR值到达30时所需要的批训练次数，批的大小均设为16，从上表中可以发现，SRPIN拥有更快的收敛速度，只需要2万次批训练，PSNR值即可达到30，说明本发明更容易训练。

2.分辨率提升效果分析，如图7所示，为SRPIN的实验效果对比图。测试数据集为Set5数据集，放大倍数是2；三行图片中第一行是低分辨率图片，第二行是大两倍的高分辨率图片，第三行是SRPIN网络生成的图片，从图中可以看出第二行和第三行图片十分接近，几乎难以分辨，这也反映出SRPIN的出色效果。

实施例2

基于实施例1的方法，本实施例提供一种基于深度卷积预测与插值的分辨率提升系统，所述系统包括处理器、存储器和存储在所述存储器中并可在处理器上运行的计算机程序，例如“步骤1：构建深度卷积网络，并预处理图片集，深度卷积网络包括特征提取网络、预测网络和重构网络；步骤2：利用预处理后的训练集中的低分辨率图片Pl输入上述深度卷积网络进行特征提取、邻域特征预测、邻域特征插值和重构预测出高分辨率图片Ph，计算Ph与训练集中目标高分辨率图片Pt间的均方损失，并通过梯度下降训练各部分网络，重复上述过程迭代M次完成训练；步骤3：将实际场景中的低分辨率图片输入已训练的深度卷积网络，即可获取高分辨率图片。”程序，计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在系统中的执行过程。例如，所述计算机程序可以被分割成网络构建单元、预处理单元、训练单元和测试单元，预处理单元，用于将图片集分类为测试集和训练集，并将训练集中的高低分辨率图片随机裁剪出指定大小的低分辨率图像块和相应放大倍数的高分辨率图像块；网络构建单元，用于构建包括特征提取网络、预测网络和重构网络的深度卷积网络；训练单元，用于将训练集图片输入深度卷积网络特征提取、邻域特征预测、邻域特征插值和重构，完成训练；测试单元，用于将测试集的低分辨率图片输入已训练的深度卷积网络获取高分辨率图片，并与目标高分辨率图片计算PSNR值，用来评判模型效果。所述系统可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是所述系统的示例，并不构成对所述系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述系统设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述分辨率提升系统的控制中心，利用各种接口和线路连接整个分辨率提升系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述分辨率提升系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

综上，所述分辨率提升系统通过网络构建单元、预处理单元、训练单元和测试单元构建的网络，进行特征提取、邻域特征预测和邻域特征插值和重构，将低分辨率转换为高分辨率图片，大大提升分辨率，提高分辨率提升系统的提升效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：所述步骤1包括如下步骤：

3.根据权利要求1所述的一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：所述步骤2包括如下步骤：

4.根据权利要求3所述的一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：所述步骤2.2中预测网络P-net采用迭代预测，当前的输入为上一次预测网络P-net的输出，所述预测网络P-net采用具有权值共享的网络。

5.根据权利要求2所述的一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：所述构建包括特征提取网络B-net、预测网络P-net和重构网络R-net的深度卷积网络采用参数调整方式，包括如下步骤：

6.根据权利要求1所述的一种基于深度卷积预测与插值的分辨率提升方法，其特征在于：所述均方差损失计算公式如下：

7.一种基于深度卷积预测与插值的分辨率提升系统，其特征在于：包括

8.根据权利要求7所述的一种基于深度卷积预测与插值的分辨率提升系统，其特征在于：所述特征提取网络包括五个串联的网络块，所述预测网络包括三个串联的网络块，所述重构网络包括串联连接的7个网络块和卷积层，所述网络块包括一个卷积层、批正则和PRELU激活函数。

9.根据权利要求7所述的一种基于深度卷积预测与插值的分辨率提升系统，其特征在于：所述训练单元包括均方差损失计算单元，所述计算公式如下：

10.根据权利要求7所述的一种基于深度卷积预测与插值的分辨率提升系统，其特征在于：所述网络构建单元采用参数调整方式，细节如下：