CN111861881B

CN111861881B - 一种基于cnn进行插值的图像超分辨率重建方法

Info

Publication number: CN111861881B
Application number: CN202010515284.3A
Authority: CN
Inventors: 范益波; 池俊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2022-05-20
Anticipated expiration: 2040-06-09
Also published as: CN111861881A

Abstract

本本发明属于图像增强技术领域，具体为一种基于CNN进行插值的图像超分辨率重建算法。本发明采用卷积神经网络进行二维信号插值，并实现图像的超分辨率重建。负责插值的卷积神经网络，同时接收一个宽高为4x4的二维信号以及1x2的向量；通过两层全连接层将1x2的向量变为1x16的向量，再变形为4x4的向量与另外一个4x4的输入合并，使得空间信息以及坐标信息可以共同被卷积层处理，从而完成插值任务。本发明算法可实现任意比例超分辨率重建，完美解决了传统线性插值算法在高频细节损失严重、现有基于卷积神经网络的算法只能实现整数倍的超分辨率重建的问题。

Description

一种基于CNN进行插值的图像超分辨率重建方法

技术领域

本发明属于图像增强技术领域，具体涉及图像超分辨率重建方法。

背景技术

随着多媒体技术的发展，人们越来越关注图像的清晰度。图像超分辨率(SR)是指通过算法从低分辨率图像重建高分辨率图像的技术。在遥感图像、医学图像处理和消费电子等领域，需要高分辨率图像。由于光学系统或拍摄条件的限制，在很多情况下获得的图像分辨率不能满足要求，只能通过后期的技术处理来提高图像分辨率。因此，超分辨率在计算机视觉和数字图像处理领域非常重要。

早期的超分辨率方法主要使用经典的插值算法，包括最近邻插值，双线性插值，双三次插值和高阶插值。为了提高效果，研究人员还提出了一些改进的插值算法，例如样条插值算法，winscale算法等。插值算法的优点是易于实现，但是由于滤波器的带宽有限，严重丢失了重建图像的高频细节，其质量不令人满意。

随着深度学习技术的发展，研究人员也将其引入了超分辨率重建技术中。在基于深度学习的超分辨率技术中，通常使用去卷积层来获得放大的图像。因此，特定的反卷积层需要以不同的放大倍数进行训练，并且无法实现特定的放大倍数。

发明内容

本发明的目的在于提出一种计算方便、并可实现任意比例的基于卷积神经网络(CNN)进行插值的图像超分辨率重建方法。

本发明提供的基于CNN进行插值的图像超分辨率重建的方法，具体步骤为：

(1)确定目标图像的尺寸；

(2)对于某一目标图像上的像素，由特定坐标映射关系确定其在源图像上对应的小数坐标，坐标映射关系为：

其中，x与y分别为源图像中的像素的插值坐标，i_target与j_target分别为目标图像中的像素行列索引，h×w为源图像宽高，H×W为目标图像的宽高；

(3)根据以下公式分别提取x，y的整数部分ix、iy，以及小数部分fx、fy：

ix＝[x]

iy＝[y]

fx＝x-ix

fy＝y-iy

(4)在源图像上提取x，y邻近的4x4区块(横坐标从ix-1到ix+2，纵坐标从iy-1到iy+2)，连同fx，fy一起输入负责插值的卷积神经网络，由卷积神经网络预测插值结果并赋值给目标图像上的像素值。

本发明中，所述的卷积神经网络的结构共包含三个全连接层、一个拼接层以及三个卷积层，参见图2所示，各层的结构为：

全连接层FC1和FC2：两个全连接层的卷积核大小分别为2x8、8x16；其功能是将2x1的坐标值转换成16x1的一个向量，再变形为4x4后与图像块拼接去执行后面的卷积操作；全连接层在这里起到一个“翻译”的作用，将2x1的坐标转换成一个4x4的二维特征；

拼接层CONCAT：该层的作用主要是将两部分输入拼接在一起，实际上不进行任何运算；在该层中，首先将FC2输出的16x1的张量变形为4x4的张量，然后将其与输入的4x4的插值点周围区块在第三个维度上进行拼接，形成一个4x4x2的张量，并输出给特征提取层CONV1；

特征提取卷积层CONV1：卷积核大小为3x3x2x16，用于提取输入张量的空间特征；

非线性映射的卷积层CONV2：卷积核大小为1x1x16x32，用于将CONV1提取到的特征映射到高分辨率的字典中；

重建卷积层CONV3：卷积核大小为1x1x32x1，用于将CONV2的输出压缩到一个通道；

全连接层FC3：其卷积核大小分别为4x1，配合CONV3完成重建，将CONV3的输出合并为一个单像素值的输出。

本发明中，负责插值的卷积神经网络，同时接收一个宽高为4x4的二维信号以及1x2的向量；通过两层全连接层将1x2的向量变为1x16的向量，再变形为4x4的向量与另外一个4x4的输入合并，使得空间信息以及坐标信息可以共同被卷积层处理，从而完成插值任务。

传统的线性插值方法在纹理较复杂的区域表现较差，高频细节损失严重。而基于卷积神经网络的方法往往基于端到端的训练，超分的倍数是固定的，改变放大倍数需要重新训练，并且往往依赖反卷积或子像素卷积等操作放大特征，所以只能实现整数倍的超分辨率重建。本发明提出方法，基于卷积神经网络(CNN)进行插值，可实现任意比例超分辨率重建，完美解决了现有技术存在的这些问题。

附图说明

图1为本发明方法框图。

图2为本发明中卷积神经网络(CNN)结构框图。

图3为基于本发明中方法进行超分的效果图。

具体实施方式

下面结合附图，对本发明做进一步描述。

图1展示了本发明方法的整体框图。利用卷积神经网络(CNN)进行插值、实现超分辨率重建的步骤为：

(1)确定目标图像的尺寸；

其中，x与y分别为源图像中的像素的插值坐标，i_target与j_target分别为目标图像中的像素行列索引，源图像宽高为h×w，目标图像的宽高为H×W；

(3)根据以下公式分别提取x，y的整数部分ix，iy以及小数部分fx，fy；

ix＝[x]

iy＝[y]

fx＝x-ix

fy＝y-iy

(4)在源图像上提取x，y邻近的4x4区块(横坐标从ix-1到ix+2，纵坐标从iy-1到iy+2)，连同fx，fy一起输入负责插值的卷积神经网络，由卷积神经网络预测插值结果并赋值给目标图像上的像素值；

图2展示了本发明中的神经网络的结构，其中，FC(fully connected)代表全连接层，CONV(convolutional)代表卷积层，CONCAT(concatenate)代表将张量沿某一维度拼接，每一层后面的数字代表该层的编号。图中，省略了每层后面的非线性激活函数，网络中除了CONCAT层外，其余层后都接RELU(Rectified Linear Unit)函数激活(也可用其余非线性激活函数进行激活，注意结果输出范围)，其形式为：

网络的中各层的参数以及输入输出特征尺寸如表1所示。

基于本发明中方法进行超分的效果如图3所示，可以看到相比于传统的线性插值方法，本发明中的方法进行插值时，对高频细节的保留更好。表2所示为本发明中方法与一些其他方法在量化评价指标上的比较，本发明中方法与线性插值方法相比，具有明显的提升。与其余基于CNN的方法相比，能达到接近的效果，单本发明中方法可以用同一套模型实现任意比例的超分，且计算量较少。在比较计算量时，比较的标准是输出单个像素所需要的浮点数运算数量，由于FSRCNN的计算量和输出图像的分辨率无关，因此统计了其在不同分辨率下输出单个像素所需的浮点数运算，计算量比较结果如表3所示。

表1网络的中各层的参数以及输入输出特征尺寸

层名	权重	输入特征图	输出特征图
				FC1	2x8	2x1	8x1
FC2	8x16	8x1	16x1
				CONCAT	无	4x4+16x1	4x4x2
CONV1	3x3x2x16	4x4x2	2x2x16
				CONV2	1x1x16x32	2x2x16	2x2x32
CONV3	1x1x32x1	2x2x32	2x2x1
				FC3	4x1	2x2x1	1x1

表2方法量化评价指标

表3计算量比较结果

方法名称	输出一个像素所需FLOPs
		SRCNN	16064
FSRCNN(x2)	6260
		FSRCNN(x3)	≈2780
FSRCNN(x4)	≈1565
		本发明方法	6952

Claims

1.一种CNN进行插值的图像超分辨率重建的方法，其特征在于，具体步骤为：

(1)确定目标图像的尺寸；

ix＝[x]

iy＝[y]

fx＝x-ix

fy＝y-iy

(4)在源图像上提取x，y邻近的4x4区块即横坐标从ix-1到ix+2，纵坐标从iy-1到iy+2，连同fx，fy一起输入负责插值的卷积神经网络，由卷积神经网络预测插值结果并赋值给目标图像上的像素值；

其中，所述的卷积神经网络的结构共包含三个全连接层、一个拼接层以及三个卷积层，各层的结构为：

拼接层CONCAT：用于将两部分输入拼接在一起；在该层中，首先将FC2输出的16x1的张量变形为4x4的张量，然后将其与输入的4x4的插值点周围区块在第三个维度上进行拼接，形成一个4x4x2的张量，并输出给特征提取卷积层CONV1；

2.根据权利要求1所述的CNN进行插值的图像超分辨率重建的方法，其特征在于，负责插值的卷积神经网络，同时接收一个宽高为4x4的二维信号以及1x2的向量；通过两层全连接层将1x2的向量变为1x16的向量，再变形为4x4的向量与另外一个4x4的输入合并，使得空间信息以及坐标信息共同被卷积层处理，从而完成插值任务。