CN110751597B

CN110751597B - 基于编码损伤修复的视频超分辨方法

Info

Publication number: CN110751597B
Application number: CN201910967743.9A
Authority: CN
Inventors: 何刚; 陈星如; 李云松
Original assignee: Image Development Tech Beijing Co ltd; Xidian University
Current assignee: Image Development Tech Beijing Co ltd; Xidian University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-03-28
Anticipated expiration: 2039-10-12
Also published as: CN110751597A

Abstract

本发明提出了一种基于编码损伤修复的视频超分辨方法，其实现步骤为：构建深度卷积神经网络；生成训练数据集；训练深度卷积神经网络；对视频图像进行下采样；对低分辨率视频进行编解码；对重建视频进行图像超分辨处理。本发明解决了现有视频图像超分辨方法中存在的无法达到实时处理要求、针对图像编码损伤的修复不足与放大尺度不足的问题，增强了网络针对编码损伤的学习能力，提升了图像超分辨的处理范围、处理速度与解码后的视频质量。

Description

基于编码损伤修复的视频超分辨方法

技术领域

本发明属于图像处理技术领域，更进一步涉及视频图像处理技术领域中的一种基于编码损伤修复的视频超分辨方法。本发明可用于修复视频压缩编解码后低码率视频图像编码损伤进而提升图像分辨率。

背景技术

目前最新的高效视频编码标准HEVC/H.265是一种在传输视频过程中降低视频冗余数据的有效手段，可减少传输压力，适应更为广泛的传输条件。在采用低码率编码视频图像时，编解码后的图像与原始视频图像相比具有视频压缩编码损伤，主观上表征为较明显的图像失真，具体体现为方块效应、振铃效应等视觉失真。且经低码率编码得到的低清晰度视频经放大后，其图像失真也会被放大，主观上图像质量更差。视频图像超分辨技术作为图像的后处理技术，在视频的压缩编码传输应用场景中，可用于低带宽传输条件时低清晰度视频的图像质量增强。作为深度学习网络中的一种，残差卷积神经网络由于具有卷积层和残差连接等结构，能够很好地提取图像特征，可在保留图像细节的前提下完成低清晰度视频图像的编码损伤修复，进而完成视频图像超分辨的功能。

Lai W.S.,Huang J.B.,Ahuja N.等人在其发表的论文“Deep Laplacian PyramidNetworks for Fast and Accurate Super-Resolution”(IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2017:5835-5843.)中公开了一种基于深度学习网络的单张图像超分辨处理办法。该方法使用了基于拉普拉斯金字塔构架的一种残差式卷积神经网络结构，生成原低分辨率图像对应的高分辨率图像。该方法在进行图像超分辨处理时不需要上采样插值操作，并可以提供端到端的渐进式图像超分辨功能。但是，该方法仍然存在的不足之处是：在训练深度神经网络模型时使用的训练集对编码损伤针对不足，且采用的深度神经网络结构庞大，使得该方法不能很好地修复重建图像的视频编码损伤，同时无法达到实时处理的要求。

西安电子科技大学在其申请的专利文献“基于图像重构卷积神经网络的低码率视频编解码方法”(专利申请号：201910182160.5，公开号：CN 110087092 A)中提出了一种基于图像重构卷积神经网络的低码率视频编解码方法。该方法对输入视频通过下采样操作后得到低分辨率的视频，再使用标准x265编解码器对低分辨率视频进行视频编解码，得到解码后的低分辨率视频，将解码后的低分辨率视频输入到训练好的图像重构卷积神经网络，然后得到与输入视频相同分辨率的重构视频。该方法能够解决传统方法中低码率下视频编解码后视频有严重压缩失真的问题，较好地保留图像细节。但是，该方法仍然存在的不足之处是：对输入视频仅进行了一次下采样，所以仅能处理单一放大倍数的视频图像超分辨问题，而不能兼顾同等条件下，多个倍数的图像超分辨问题，即在图像超分辨处理上的尺度不足。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提出了一种基于编码损伤修复的视频超分辨方法，用于解决现有视频图像超分辨方法中存在的无法达到实时处理要求、针对图像编码损伤的修复不足与放大尺度不足的问题。

实现本发明目的的具体思路是：首先获得视频编码图像的损伤特征与视频原始图像的高频信息，然后利用深度学习的方法，完成对目标视频图像的编码损伤和高频信息的估计，可适用于低清晰度视频编码图像的损伤修复与图像超分辨。

实现本发明目的的具体步骤如下：

步骤1，构建深度卷积神经网络：

第一步，搭建一个46层的第一子网络，其结构依次为：第一卷积层→ReLU激活层→10个级联的卷积块→第一反卷积层→ReLU激活层→10个级联的卷积块→第一反卷积层→ReLU激活层，每个卷积块由一个第二卷积层与一个ReLU激活层串联组成；

第二步，搭建一个由两个第二反卷积层串联组成的第二子网络；

第三步，将第三卷积层的一端跨接在第一子网络中的ReLU激活层和10个级联的卷积块间，另一段跨接在第二子网络的第二反卷积层和第二反卷积层间，组成深度卷积神经网络；

第四步，设置深度卷积神经网络的各层参数：

将第一、第二、第三卷积层的卷积核均设置为3，输入通道数分别为1、48、48，输出通道数分别为48、48、1，步长均为1；

将第一和第二反卷积层的卷积核均设置为4，输入通道数分别为48、1，输出通道数分别为48、1，步长均为2；

步骤2，生成训练数据集：

随机选取至少700幅高清自然图像，每幅图像的长至少为1280像素，宽至少为720像素，且长和宽分别为8的倍数；将所选的每幅图像转换成YUV420p数据格式图像；对每幅转换格式后的YUV420p数据格式图像进行2倍下采样，得到多幅中分辨率图像；对每幅YUV420p数据格式图像进行4倍下采样，得到多幅低分辨率图像；

将每幅低分辨率图像输入到视频编码器中进行编码，得到编码后的图像编码码流；将编码后的图像编码码流输入到解码器中进行解码，得到多幅解码后的低分辨率重建图像；

将所有YUV420p数据格式图像、中分辨率图像、低分辨率重建图像构成一个训练集；

步骤3，训练深度卷积神经网络：

初始化深度卷积神经网络，将训练集输入到深度卷积神经网络中，在网络中遍历训练集，采用随机梯度下降法，对深度卷积神经网络的参数进行迭代更新，直到图像损失loss值的均值收敛后终止迭代，得到训练好的深度卷积神经网络；

步骤4，对视频图像进行下采样：

依次从输入的由多幅高分辨图像序列组成的视频中提取一幅未选择过的图像；

对所提取的每一幅图像进行4倍下采样，将所有下采样后的低分辨率视频图像依序组成一个低分辨率视频；

步骤5，对低分辨率视频进行编解码：

将低分辨率视频输入到编码器中进行编码，得到编码后的视频码流；

将编码后视频码流输入到解码器中进行解码，得到解码后的重建视频；

步骤6，对重建视频进行图像超分辨处理：

依次从解码后的重建视频中提取一幅未选择过的图像；将所提取的每一幅图像输入训练好的深度卷积神经网络中，将所有图像分别经一次2倍放大和两次2倍放大后得到的中分辨率视频图像与高分辨率视频图像依序组成一个中分辨率视频和一个高分辨率视频，输出两个视频。

与现有技术相比本发明有以下优点：

第一，由于本发明构建并训练了由46层的第一子网络、2层的第二子网络和2层的跨接捷径组成的深度卷积神经网络，扩展了网络图像超分辨处理的尺度结构并调整了网络的通道数，克服了现有技术在图像超分辨处理上尺度不足和无法达到实时处理的要求的问题，使得本发明提升了图像超分辨的处理范围和处理速度。

第二，由于本发明利用生成的训练集训练了深度卷积神经网络，针对视频图像特有的编码损伤生成数据集，克服了现有技术网络使用的训练集对视频编码损伤针对不足，导致网络不能很好地修复重建图像的视频编码损伤的问题，使得本发明能够增强网络针对编码损伤的学习能力，提升解码后的视频质量。

附图说明

图1是本发明的流程图；

图2是本发明的深度卷积网络的结构图；

图3是本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，对本发明实现的具体步骤做进一步的详细描述。

步骤1，构建深度卷积神经网络。

第一步，搭建一个46层的第一子网络，其结构依次为：第一卷积层→ReLU激活层→10个级联的卷积块→第一反卷积层→ReLU激活层→10个级联的卷积块→第一反卷积层→ReLU激活层，每个卷积块由一个第二卷积层与一个ReLU激活层串联组成。

第二步，搭建一个由两个第二反卷积层串联组成的第二子网络。

第三步，将第三卷积层的一端跨接在第一子网络中的ReLU激活层和10个级联的卷积块间，另一段跨接在第二子网络的第二反卷积层和第二反卷积层间，组成深度卷积神经网络。

参照图2对所搭建的深度卷积神经网络的结构做进一步的描述：图2中的1表示第一卷积层，2表示ReLU激活层，3表示10个级联的卷积块，4表示第一反卷积层，5表示第二反卷积层，6表示第三卷积层。

第四步，设置深度卷积神经网络的各层参数。

将第一、第二、第三卷积层的卷积核均设置为3，输入通道数分别为1、48、48，输出通道数分别为48、48、1，步长均为1。

将第一和第二反卷积层的卷积核均设置为4，输入通道数分别为48、1，输出通道数分别为48、1，步长均为2。

步骤2，生成训练数据集。

选取DIV2K数据集中训练类别的800幅高清自然图像，每幅图像均为2K分辨率。YUV颜色编码将亮度信息Y与色度信息U和V分离，利用人眼对亮度的敏感超过色度的特征，将图像特征集中在Y分量，在对深度卷积神经网络进行训练时可仅对视频图像的Y分量进行训练，所以将所选的每幅图像转换成YUV420p数据格式图像；对每幅转换格式后的YUV420p数据格式图像进行2倍下采样，得到多幅中分辨率图像；对每幅YUV420p数据格式图像进行4倍下采样，得到多幅低分辨率图像。

将每幅低分辨率图像输入到视频编码器中进行编码，得到编码后的图像编码码流；将编码后的图像编码码流输入到解码器中进行解码，得到多幅解码后的低分辨率重建图像。

所述编码方法如下：

根据目前最新的高效视频编码标准，利用x265编码器，采用固定量化参数QP对每幅低分辨率图像进行帧内预测编码，其量化参数QP取值范围为[0,51]。

将所有YUV420p数据格式图像、中分辨率图像、低分辨率重建图像构成一个训练集。

步骤3，训练深度卷积神经网络。

初始化深度卷积神经网络，将训练集输入到深度卷积神经网络中，在网络中正向遍历训练集，采用随机梯度下降法，对深度卷积神经网络的参数进行迭代更新，直到图像损失loss值的均值收敛后终止迭代，得到训练好的深度卷积神经网络。

所述正向遍历训练集方法如下：

参照图2，总输入分别输入1和2，前端的5与6的输出采取相加操作后传入末端的5，末端的5与6的输出采取相加操作后作为网络总输出。

所述迭代更新深度卷积网络参数的方法如下：

第一步，将深度卷积神经网络的参数均初始化为高斯随机数，所述高斯随机数的均值为0，方差为1。

第二步，按照下式，计算所有图像损失loss值的均值：

其中，

表示所有视频图像损失值的均值，

表示深度卷积神经网络生成的所有中分辨率、高分辨率视频图像，y表示所有上述图像对应的训练集中的标签图像，∑表示求和操作，θ表示深度卷积神经网络中需要被迭代更新的参数，N表示批处理的大小，

为Charbonnier惩罚函数，

表示深度卷积神经网络生成的第i幅被放大s次的图像，s＝1与s＝2时分别生成中分辨率与高分辨率视频图像，

表示与上述图像对应的训练集中的标签图像。

第三步，按照下式，更新深度卷积神经网络中的每一个参数值，直至图像损失loss值的均值收敛：

其中，θ_x′表示深度卷积神经网络中第个参数更新后的值，θ_x表示深度卷积神经网络中第x个参数更新前的值，

表示求导操作。

步骤4，对视频图像进行下采样。

依次从输入的由多幅高分辨图像序列组成的测试视频中提取一幅未选择过的图像；

对所提取的每一幅图像进行4倍下采样，将所有下采样后的低分辨率视频图像依序组成一个低分辨率视频。

步骤5，对低分辨率视频进行编解码。

将低分辨率视频输入到编码器中进行编码，得到编码后的视频码流。

将编码后视频码流输入到解码器中进行解码，得到解码后的重建视频。

所述编码方法如下：

利用x265编码器，采用与步骤2中相同的量化参数QP值对低分辨率视频进行帧内预测编码。

步骤6，对重建视频进行图像超分辨处理。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel i7-7280 CPU，主频为3.60GHz，内存16GB。显卡为Nvidia GeForce 2080Ti GPU，显存为11GB。

本发明的仿真实验的软件平台为：Windows 10操作系统，Python3.6，Tensorflow1.14以及x265编码器。

本发明仿真实验所使用用以制作训练集的图像数据集为DIV2K的高清晰度自然图像，该数据集为2017年NTIRE图像超分辨竞赛公布所公布的数据集，涵盖具有丰富的自然纹理信息的1000张2K分辨率图片，均为RGB格式。选取其中已公开的800张训练类别图片。

本发明仿真实验所采用的测试序列为ITU-T视频编码专家组提供的HEVC测试序列中的B类的Kimono，其分辨率为1920×1080，编码器采用的量化参数QP取27。

2.仿真内容及其结果分析：

本发明仿真实验采用本发明和一个现有技术(H.265/HEVC视频编码方法)，先利用现有技术对输入的下采样过后的视频进行编解码处理，再利用本发明中训练好的深度卷积神经网络，对编解码后的视频进行视频图像超分辨处理，获得2倍超分辨和4倍超分辨的放大结果。

在仿真实验中，采用的一个现有技术是指：

现有技术H.265/HEVC视频编码方法是指，Wien,Mathias在《High EfficiencyVideo Coding》(2015,10.1007/978-3-662-44276-0.)一书中公开的基于新一代高效视频编码国际标准的编码方法，简称H.265/HEVC视频编码方法。

下面结合图3的仿真图对本发明的效果做进一步的描述：

图3(a)为Kimono测试视频中提取的第1帧图像经4倍下采样并利用现有技术编码后的低清重建图像，其大小为540×270个像素，图3(b)和图3(c)分别为利用本发明的方法对低清重建图像进行2倍放大和4倍放大的结果图，其大小分别为960×540和1920×1080个像素。

由图3(a)、图3(b)和图3(c)可以看出，图像由于下采样和编码操作导致的块效应明显减轻，部分图像细节纹理得到恢复，且图像较为平滑。

利用目前通常采用的峰值信噪比PSNR值作为客观评价指标对本发明的图像超分辨处理效果进行评价。利用下述公式，分别计算本发明的仿真实验中PSNR值，包括网络输出的2倍放大图像与第1帧图像经2倍下采样后再用x265编解码的图像的PSNR值，和网络输出的4倍放大图像与第1帧利用x265进行编解码的图像的PSNR值：

其中，Iⁿ为第一幅图像的第n个像素值，Pⁿ为第二幅图像的第n个像素值。

结合PSNR值的计算结果和图3可以看出，在2倍放大和4倍放大的条件下，相比较于x265编码的结果，PSNR值和主观评价分别有所提升，计算结果PSNR值越高说明图像质量越相近，图像的质量越高，证明本发明可以得到质量更好的编解码后的视频图像。

以上仿真实验表明：本发明方法利用搭建的深度卷积神经网络，能够学习到视频图像编码损伤，并有针对性地对低分辨率重建进行编码损伤修复和图像超分辨处理，结合网络所提取到高清晰度图像的细节特征，显著地改善了由于视频图像编码损伤导致的图像失真，主观和客观上均提升了图像质量，解决了现有技术方法中仅利用高清晰度图像的细节特征，导致不能良好地修复视频编码损伤的问题。同时，本发明也进一步提升了图像超分辨处理的速度，是一种非常实用的视频图像超分辨方法。