CN109862370A

CN109862370A - 视频超分辨率处理方法及装置

Info

Publication number: CN109862370A
Application number: CN201711242841.3A
Authority: CN
Inventors: 刘家瑛; 杨文瀚; 胡越予; 郭宗明
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2019-06-07

Abstract

本发明提供一种视频超分辨率处理方法及装置，通过获取视频的每一帧图像，将图像输入卷积神经网络；通过卷积神经网络对图像依次进行特征提取、特征降维、非线性映射以及向高维空间映射，获得超分辨率特征；并根据特征提取所得特征以及超分辨率特征进行重建，得到超分辨率图像；最后编码形成超分辨率视频码流。通过卷积神经网络实现对视频的超分辨率处理，通过特征降维、非线性映射以及向高维空间映射，减少计算复杂度，降低时间复杂度，并采用跳跃连接，降低网络的学习难度，保留输出图像的复杂纹理，从而在保证视频处理需要的实时性的同时，实现了较高的重建质量，在视频实时传输和压缩、视频修复等领域具有非常广阔的应用前景。

Description

视频超分辨率处理方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频超分辨率处理方法及装置。

背景技术

目前人们对于视频质量，尤其是视频清晰度的需求与日剧增。由于目前硬件设备的限制，通常通过软件实现对图像和视频的超分辨率。视频超分辨率，指的是将一个低分辨率视频转化为一个高分辨率视频，这一问题在过去的很长一段时间内都一直吸引着许多研究者的关注，也提出了很多解决这一问题的模型。

现有技术中许多图像超分辨率方法都致力于找到一个低分辨率空间到高分辨率空间的映射关系，其中建模的手段包括马尔科夫随机场、邻域嵌入、稀疏编码等。这些方法推动了图像超分辨率问题研究的极大发展，也获得了很好效果。随着深度神经网络技术的发展，卷积神经网络被引入图像超分辨率领域，SRCNN(Super-Resolution ConvolutionalNeural Network)将稀疏编码方法各个步骤综合起来看做一个卷积神经网络，该方法不仅建立了一个端到端的重建网络，并且证明了深度学习方法可以应用于图像超分辨率重建中。

然而，上述方法一个显著的问题在于时间效率比较低，并且重建质量无法满足更高的精细度要求，这就大大限制了其在实际应用中的性能发挥，尤其是难以应用于对视频实时的超分辨率处理。

发明内容

本发明提供一种视频超分辨率处理方法及装置，以提高视频帧的超分辨率处理速度，从而保证视频处理需要的实时性，同时提高重建质量，满足更高的精细度要求。

本发明的一个方面是提供一种视频超分辨率处理方法，包括：

获取视频的每一帧图像，将所述图像输入卷积神经网络；

通过卷积神经网络对所述图像进行处理，所述处理包括：特征提取、特征降维、非线性映射以及向高维空间映射，以获得超分辨率特征；并根据特征提取所得的特征以及所述超分辨率特征进行重建，得到超分辨率图像；

对各所述超分辨率图像依次编码形成超分辨率视频码流。

进一步的，所述卷积神经网络中非线性映射部分设置有预定层数，以增加所述非线性映射部分的网络深度。

进一步的，所述将所述图像输入卷积神经网络前，还包括：

获取训练集，所述训练集包含多张测试图像和与每一所述测试图像对应的经降采样后所得的训练图像，所述训练图像的分辨率为所述测试图像的1/N，其中N为目标超分辨率倍数；

将所述训练图像输入所述卷积神经网络，通过所述卷积神经网络对所述训练图像依次进行特征提取、特征降维、非线性映射、向高维空间映射和重建步骤，得到输出图像；

获取所述输出图像与对应的测试图像之间像素值的均方差作为误差值，并采用将所述误差值反向传播至所述卷积神经网络的各层，以根据所述均方差更新各层的权值参数；

重复上述的训练步骤，直至所述卷积神经网络收敛。

进一步的，所述卷积神经网络中存在相邻层连接，并且存在跨层跳跃连接；

所述采用将所述误差值反向传播至所述卷积神经网络的各层，以根据所述均方差更新各层的权值参数，具体包括：

采用随机梯度下降法将所述误差值沿所述相邻层连接和所述跨层跳跃连接反向传播至所述卷积神经网络的各层，以使所述卷积神经网络的各层根据相邻层传播的误差值和跨层传播的误差值更新其权值参数，以防止梯度消失。

进一步的，所述获取视频的每一帧图像，将所述图像输入卷积神经网络，具体包括：

获取所述视频的每一帧图像，将所述图像转换到YUV色彩空间，将其中亮度Y通道信号输入所述卷积神经网络。

本发明的另一个方面是提供一种视频超分辨率处理装置，包括：

解码模块，用于获取视频的每一帧图像，将所述图像输入卷积神经网络；

处理模块，用于通过卷积神经网络对所述图像进行处理，所述处理包括：特征提取、特征降维、非线性映射以及向高维空间映射，以获得超分辨率特征；并根据特征提取所得的特征以及所述超分辨率特征进行重建，得到超分辨率图像；

编码模块，用于对各所述超分辨率图像依次编码形成超分辨率视频码流。

进一步的，所述装置还包括训练模块，用于：

重复上述的训练步骤，直至所述卷积神经网络收敛。

所述训练模块，具体用于：

进一步的，所述解码模块具体用于：

本发明提供的视频超分辨率处理方法及装置，通过获取视频的每一帧图像，将图像输入卷积神经网络；然后通过卷积神经网络对图像依次进行特征提取、特征降维、非线性映射以及向高维空间映射，获得超分辨率特征；并根据特征提取所得的特征以及超分辨率特征进行重建，得到超分辨率图像；最后对各超分辨率图像依次编码形成超分辨率视频码流。本发明的方法通过卷积神经网络实现对视频的超分辨率处理，通过特征降维、非线性映射以及向高维空间映射，减少计算复杂度，降低时间复杂度，提高视频帧的超分辨率处理速度，并采用跳跃连接，降低网络的学习难度，保留输出图像的复杂纹理，从而在保证视频处理需要的实时性的同时，实现了较高的重建质量，在视频实时传输和压缩、视频修复等领域具有非常广阔的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频超分辨率处理方法流程图；

图2为本发明另一实施例提供的视频超分辨率处理方法流程图；

图3为本发明另一实施例提供的视频超分辨率处理装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的视频超分辨率处理方法流程图。如图1所示，本实施例提供了一种视频超分辨率处理方法，该方法具体步骤如下：

S101、获取视频的每一帧图像，将所述图像输入卷积神经网络。

在本实施例中，首先对视频进行解码，并抽取视频的每一帧图像，输入卷积神经网络中。其中对视频解码可以采用现有技术中的任意方法，此处不再赘述。

进一步的，所述获取视频的每一帧图像，将所述图像输入卷积神经网络，具体可以包括：

由于人的视觉感知系统对亮度的变化更加敏感，先将彩色图像转换到YUV色彩空间(Y为亮度，即图像灰度值，UV为色度)，然后仅对亮度Y通道信号采用本实施例提供的方法进行超分辨率处理，而其他信号可以通过相对简单的算法例如bicubic插值(双三次插值算法)来放大重建，从而降低运算资源消耗，提高了超分辨率处理速度。当然本发明并不仅限于YUV色彩空间，也可采用其他色彩空间。更具体的，可以采用YCbCr色彩空间，更适用于计算机用的显示器。

S102、通过卷积神经网络对所述图像进行处理，所述处理包括：特征提取、特征降维、非线性映射以及向高维空间映射，以获得超分辨率特征；并根据特征提取所得的特征以及所述超分辨率特征进行重建，得到超分辨率图像。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现，包括卷积层(convolutional layer)和池化层(pooling layer)，具有局部感知、权值共享、空间降采样的特点，使模型的复杂度下降，并减少了所需的权值参数，还能保证在一定程度里对平移、尺度等变形具有不变性。而随着深度卷积神经网络被引入图像超分辨率领域，图像超分辨率算法的质量和速度均有了一定程度的提升。

在本实施例中，采用卷积神经网络中的全局上下文聚合以及局部跳跃连接网络(Global context aggregation and Local queue jumping Network，GLNet)实现对视频每一帧图像的超分辨率处理。

具体的，首先对于视频每一帧图像进行特征提取，即采用卷积核从图像中提取特征向量。由于算法的时间复杂度很大程度取决于特征的维度，因此本实施例中采用特征降维，将所提取的特征的维度空间(本实施例中称之为第一维度)映射到另一个维度空间(第二维度)，从而实现减少特征的维度，减少计算复杂度，进而降低时间复杂度。具体的，特征降维可以采用特征选择或特征抽取进行降维。然后通过非线性映射将第二维度的特征向量映射到第三维度的高分辨率的特征向量；然后再将第三维度的特征向量向高纬度空间映射，也即使的最终的特征向量的维度与第一维度相同，从而得到超分辨率特征，由于其维度再次增加，有利于提高重建质量。

进一步的，所述卷积神经网络中非线性映射部分设置有预定层数，以增加所述非线性映射部分的网络深度。通过增加非线性映射部分的网络深度，从而提高了重建质量，同时也增加了时间复杂度。本实施例的非线性映射部分的卷积层数设置为8个。进一步的，本实施例通过减少非线性部分的通道数，降低网络宽度，以降低时间复杂度，本实施例中非线性映射部分的通道数为10个。

在本实施例中，通过重建将超分辨率特征聚合为高分辨率的图像，为了更好地模拟局部信号结构，本实施例采用跳跃连接，将特征提取部分的输出通过旁路直接连接到重建部分的输入，重建部分根据特征提取所得的特征以及所述超分辨率特征进行重建，从而得到超分辨率图像，降低网络的学习难度，保留输出图像的复杂纹理。

S103、对各所述超分辨率图像依次编码形成超分辨率视频码流。

在本实施例中，通过编码模块对所得到的超分辨率图像进行编码，从而获得超分辨率视频码流。其中编码过程可采用现有技术中的任意编码方法，此处不再赘述。更具体的，可以直接将超分辨率按照预定的帧速显示在屏幕上，或者重新编码成视频文件存储到磁盘中。

本实施例提供的视频超分辨率处理方法，通过获取视频的每一帧图像，将图像输入卷积神经网络；然后通过卷积神经网络对图像依次进行特征提取、特征降维、非线性映射以及向高维空间映射，获得超分辨率特征；并根据特征提取所得的特征以及超分辨率特征进行重建，得到超分辨率图像；最后对各超分辨率图像依次编码形成超分辨率视频码流。本实施例的方法通过卷积神经网络实现对视频的超分辨率处理，通过特征降维、非线性映射以及向高维空间映射，减少计算复杂度，降低时间复杂度，提高视频帧的超分辨率处理速度，并采用跳跃连接，降低网络的学习难度，保留输出图像的复杂纹理，从而在保证视频处理需要的实时性的同时，实现了较高的重建质量，在视频实时传输和压缩、视频修复等领域具有非常广阔的应用前景。

在上述实施例的基础上，在步骤S101所述的将所述图像输入卷积神经网络前，还包括卷积神经网络的训练阶段，如图2所示，具体步骤如下：

S201、获取训练集，所述训练集包含多张测试图像和与每一所述测试图像对应的经降采样后所得的训练图像，所述训练图像的分辨率为所述测试图像的1/N，其中N为目标超分辨率倍数。

本实施例中，首先收集一个训练集，以多张高分辨率图像作为测试图像，并将测试图像进行降采样获得低分辨率的训练图像，训练图像用于输入卷积神经网络中。其中降采样的比例为1/N，其中N为卷积神经网络的目标超分辨率倍数。当然可以通过其他手段获得高分辨率的测试图像和相对应的低分辨率的训练图像。

S202、将所述训练图像输入所述卷积神经网络，通过所述卷积神经网络对所述训练图像依次进行特征提取、特征降维、非线性映射、向高维空间映射和重建步骤，得到输出图像。

在本实施例中，从训练集中随机选取若干对测试图像和训练图像，将训练图像送入卷积神经网络，执行与S102相同的步骤，从而得到输出图像。

S203、获取所述输出图像与对应的测试图像之间像素值的均方差作为误差值，并采用将所述误差值反向传播至所述卷积神经网络的各层，以根据所述均方差更新各层的权值参数。

在本实施例中，通过误差值的反向传播，更新卷积神经网络的各层的权值参数，从而实现对卷积神经网络的训练，逐步提高输出图像质量。

进一步的，本实施例中所述卷积神经网络中存在相邻层连接，并且存在跨层跳跃连接；

则S203中所述的采用将所述误差值反向传播至所述卷积神经网络的各层，以根据所述均方差更新各层的权值参数，具体包括：

本实施例中，考虑到卷积神经网络不同层的学习速率的不同，误差值反向传播时梯度存在衰减、消失以致靠前的网络层的学习速度变慢，因此采用局部跳跃连接技术，即某一层不仅能获取到相邻层传递的误差值，也能跨层获取到与其相连层传递的误差值，进而根据相邻层传播的误差值和跨层传播的误差值更新其权值参数，从而可以防止梯度消失，提高卷积神经网络的学习速度。

S204、重复上述S201-S203的训练步骤，直至所述卷积神经网络收敛。

本实施例通过重复输入训练图像获取输出图像、获取输出图像与对应的测试图像的均方差、误差值反向传播更新各层的权值参数，直至输出图像与对应的测试图像的均方差趋于稳定，此时卷积神经网络收敛。

在上述实施例的基础上，本实施例的视频超分辨率处理方法由计算机中的GPU图形处理器(Graphics Processing Unit，图形处理器)和CPU(Central Processing Unit，中央处理器)执行，其中，卷积神经网络部署于GPU中，也即S102在GPU中执行，而S101和S103则在CPU中执行。具体的，可采用两块高性能GPU，在每16帧作为一组，由PCI-E 3.0总线传输到GPU的显存中，通过卷积神经网络完成超分辨处理后，再由PCI-E 3.0总线传回到计算机系统内存中，同时显示到屏幕上。本实施例通过GPU进行加速计算，能够以45fps的处理速度对HDTV(High Definition Television，高清晰度电视)分辨率的视频进行超分辨率处理，满足了人们对高清视频超分辨率的实时性要求。此外还有以下功能特性：(1)批量处理，能够对视频文件进行批量的视频超分辨率处理，充分利用系统资源；(2)实时全图对比，可以直观比较原视频和超分辨率后视频的视觉质量，具体的可将屏幕划分为两个显示区域，分别用于显示原视频和超分辨率后视频，可选的，一显示区域显示原视频画面的一部分，另一显示区域显示超分辨率后视频画面的另一部分，两部分拼接形成完整画面，可更为直观的进行比较；(3)局部放大比较，可以对视频的纹理细节进行放大，从而比较原视频和超分辨率后视频的细节质量区别。当然，本发明并不仅限于上述方式，也可仅由计算机的CPU执行或者仅由GPU执行，或者采用其他的处理器执行。

图3为本发明另一实施例提供的视频超分辨率处理装置的结构图。本实施例提供一种视频超分辨率处理装置，可以执行上述视频超分辨率处理方法实施例提供的处理流程。如图3所示，本实施例提供的视频超分辨率处理装置包括：解码模块301、处理模块302以及编码模块303。

其中，解码模块301，用于获取视频的每一帧图像，将所述图像输入卷积神经网络；

处理模块302，用于通过卷积神经网络对所述图像进行处理，所述处理包括：特征提取、特征降维、非线性映射以及向高维空间映射，以获得超分辨率特征；并根据特征提取所得的特征以及所述超分辨率特征进行重建，得到超分辨率图像；

编码模块303，用于对各所述超分辨率图像依次编码形成超分辨率视频码流。

进一步的，所述装置还包括训练模块304，用于：

重复上述的训练步骤，直至所述卷积神经网络收敛。

所述训练模块304，具体用于：

进一步的，所述解码模块301具体用于：

本发明实施例提供的发送设备可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本实施例提供的视频超分辨率处理装置，通过获取视频的每一帧图像，将图像输入卷积神经网络；然后通过卷积神经网络对图像依次进行特征提取、特征降维、非线性映射以及向高维空间映射，获得超分辨率特征；并根据特征提取所得的特征以及超分辨率特征进行重建，得到超分辨率图像；最后对各超分辨率图像依次编码形成超分辨率视频码流。本实施例的装置通过卷积神经网络实现对视频的超分辨率处理，通过特征降维、非线性映射以及向高维空间映射，减少计算复杂度，降低时间复杂度，提高视频帧的超分辨率处理速度，并采用跳跃连接，降低网络的学习难度，保留输出图像的复杂纹理，从而在保证视频处理需要的实时性的同时，实现了较高的重建质量，在视频实时传输和压缩、视频修复等领域具有非常广阔的应用前景。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频超分辨率处理方法，其特征在于，包括：

获取视频的每一帧图像，将所述图像输入卷积神经网络；

对各所述超分辨率图像依次编码形成超分辨率视频码流。

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络中非线性映射部分设置有预定层数，以增加所述非线性映射部分的网络深度。

3.根据权利要求1所述的方法，其特征在于，所述将所述图像输入卷积神经网络前，还包括：

重复上述的训练步骤，直至所述卷积神经网络收敛。

4.根据权利要求3所述的方法，其特征在于，所述卷积神经网络中存在相邻层连接，并且存在跨层跳跃连接；

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述获取视频的每一帧图像，将所述图像输入卷积神经网络，具体包括：

6.一种视频超分辨率处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述卷积神经网络中非线性映射部分设置有预定层数，以增加所述非线性映射部分的网络深度。

8.根据权利要求6所述的装置，其特征在于，还包括训练模块，用于：

重复上述的训练步骤，直至所述卷积神经网络收敛。

9.根据权利要求8所述的装置，其特征在于，所述卷积神经网络中存在相邻层连接，并且存在跨层跳跃连接；

所述训练模块，具体用于：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述解码模块具体用于：