CN111741300B

CN111741300B - 一种视频处理方法

Info

Publication number: CN111741300B
Application number: CN202010468952.1A
Authority: CN
Inventors: 丁丹丹; 孔令一
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-03-07
Anticipated expiration: 2040-05-28
Also published as: CN111741300A

Abstract

本发明涉及一种视频处理方法，属于视频数据处理技术领域。首先将低质量图像划分为图像块，每个图像块被输入到神经网络中，得到该质量图像块的M个投影图像。根据输入残差与投影图像确定权重系数值，从而将该M个投影图像组合为最终输出的高质量图像。最终，通过在帧级比较神经网络滤波与原传统滤波算法的代价，确定最终选择使用神经网络还是传统算法进行滤波。本发明能够从不同编码内容中获得不同的权重系数，从而引导参数固定的神经网络来适应不同的编码内容。

Description

一种视频处理方法

技术领域

本发明涉及视频数据处理技术领域，具体地说，涉及一种视频处理方法。

背景技术

所谓视频编码是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准，此外在互联网上被广泛应用的还有Real-Networks的RealVideo、微软公司的WMV、Google公司的AV1，以及Apple公司的QuickTime等。

有损视频编码会给图像带来块效应、振铃效应等，大大降低了重建图像的质量。视频编码标准采用环路滤波来消除上述效应，在提高视频图像的主观质量的同时，也提高了客观质量。传统环路滤波是从信号处理的角度出发，人工设计了各种算法，如H.265/HEVC中的Deblocking、SAO。利用神经网络也可以设计环路滤波算法，甚至达到比传统算法更高的压缩效率。

目前基于神经网络的环路滤波方法一般都设计一个直接神经网络结构，该结构输入一个低质量图像，经过神经网络的映射后，输出一个通道，该通道就是得到的对应的高质量图像。有一些网络会采用残差结构，即输入一个低质量图像，经过神经网络的映射后，输出一个通道，该通道是残差图像，该残差图像与输入的低质量图像相加后，得到对应的高质量图像。这种直接神经网络结构经过训练后，所得到的网络模型将被用于处理不同图像内容，即使这些图像内容具有不同的特性。当然，也可以通过训练多个模型的方法来处理不同的视频内容。

但是，所能够训练的模型数目总是有限的，而视频内容则是千变万化。而以往方法往往使用有限的网络模型处理千变万化的视频内容，在某些序列上性能较差，甚至出现性能倒挂。

发明内容

本发明的目的是提供一种视频处理方法，可以根据不同视频编码内容映射出不同的结果，使用一个固定权重系数的神经网络配合若干编码系数以达到适应编码内容的目的。

为了实现上述目的，第一方面，本发明提供的视频处理方法，包括以下编码步骤：

a)将输入的低质量图像划分成尺寸为P×Q的图像块；

b)将图像块输入基于多通道神经网络的环路滤波模型，得到M个投影图像R＝{r₀，r₁，…，r_(M-1)}；

c)计算输入的图像块与其对应的原始图像的残差：r＝s-x，x表示输入的图像块，s表示与x对应的原始图像块的像素；

d)根据图像块对应的投影图像R和残差r，得到M个权重系数A＝{a₀，a₁，…，a_(M-1)}；

e)根据权重系数A和投影图像R，计算得到输出图像x_corr＝(a₀ r₀+a₁ r₁+…+a_(M-1)r_(M-1))+x；

f)重复步骤b)至步骤e)，直至整张低质量图像处理完毕；

g)使用视频编码中传统环路滤波方法对上述低质量图像进行滤波，得到重建图像x_anchor；

h)计算整帧图像的x_corr与s之间的损失J_corr，以及整帧图像的x_anchor与s之间的损失J_anchor；比较J_corr与J_anchor，如果J_anchor小，则选择x_anchor为最终输出的高质量图像，设置环路滤波模式CNN_FLAG＝0；如果J_corr小，则选择x_corr为最终输出的高质量图像，设置环路滤波模式CNN_FLAG＝1；

i)对CNN_FLAG进行熵编码，如果CNN_FLAG＝1，则进一步对权重系数A进行熵编码，所得到的比特写入编码码流中。

第二方面，本发明提供的视频处理方法，包括以下解码步骤：

j)对编码码流进行熵解码，得到环路滤波模式CNN_FLAG的值，并得到低质量重建图像，若CNN_FLAG＝0，则进入步骤n)；如果CNN_FLAG＝1，则进入步骤j)至步骤m)；

k)进一步对编码码流进行熵解码，得到与每个低质量重建图像的P×Q尺寸的图像块对应的M个权重系数A＝{a₀,a₁,…,a_M-1}；

l)将低质量重建图像的图像块输入基于多通道神经网络的环路滤波模型，得到M个投影图像R＝{r₀，r₁，…，r_(M-1)}；

m)根据所得到的权重系数A与投影图像R，计算得到输出图像x_corr＝(a₀ r₀+a₁ r₁+…+a_(M-1)r_(M-1))+x，x为图像块的像素；

n)重复步骤l到步骤m，直到整张低质量重建图像处理完毕，所得到的x_corr为最终输出的高质量图像；

o)使用传统环路滤波方法对整张低质量重建图像进行滤波，所得到的x_anchor为最终输出的高质量图像。

与现有技术相比，本发明的有益之处在于：

本发明利用多通道神经网络进行环路滤波的编码，对于每个低质量的编码块，所提出的方法会根据视频内容生成加权系数，该加权系数会引导神经网络映射得到不同的结果。同时，采用在帧级决策是否使用神经网络进行环路滤波的机制，以保证在神经网络不适用的场景中仍然能够使用传统环路滤波方法进行滤波。

本发明能够引导神经网络根据不同视频编码内容映射出不同的结果，使用一个固定权重系数的神经网络配合若干编码系数就可以达到适应编码内容的目的。该方法可用于任意结构的神经网络来完成环路滤波功能。

附图说明

图1为本发明实施例中所使用的神经网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

实施例

本实施例使用AV1标准的参考编码器libaom对视频序列进行编码。libaom包括三个传统滤波算法，分别是Deblocking，CDEF与LR。利用基于神经网络的环路滤波方法替换原编码器中的CDEF与LR算法。

首先，训练神经网络。构建一个神经网络，设计一种卷积神经网络结构，如图1所示，包括10层卷积，每层的卷积核尺寸都是3×3。除第10层外，其余每层的输出通道数都是64。第10层的输出通道数目M＝2。

针对上述神经网络，进行以下步骤的模型训练：

S101，制作训练集。选用1000张原始图像，使用libaom帧内编码配置，将量化参数QP分别设置为7、8、9、10、……、63，关掉其CDEF与LR滤波算法，在各个QP下对该1000张原始图像进行编码，得到未经滤波的重建图像。将7～16的QP的重建图像作为一个训练样本集，同样地，17～26、27～36、37～46、47～56、57～63的重建图像被分别作为训练样本集。该1000张原始图像作为训练标签。将训练样本与标签一一对应，形成训练集。最终，每个QP范围对应一个训练集，共得到6个训练集。

S102，从输入的训练样本集中随机取64个尺寸为35×35、被称为patch的图像块，这一组图像块被称为batch。将每个patch输入神经网络，得到2个投影图像R＝{r₀,r₁}。

S103，根据所输入的patch(即x_p)和该patch所对应的原始图像s_p，计算得到输入残差r_p，其中r_p＝s_p-x_p。

S104，根据步骤S102所得到的2个投影图像R和步骤S103所得到的残差r_p，得到每个patch的损失代码L_p。对于一个包括了i组patch的batch，其损失函数的计算方式如下：

L＝-∑_i{r_i ^TR_i(R_i ^TR_i)^-1R_i ^Tr_i}

S105，利用上述损失函数，使用训练集对神经网络进行训练，对应每个QP范围都生成一系列对应的模型。

S106，选择20帧未滤波图像组成验证集，这些图像与训练集中图像完全不重合。将每个QP对应的一系列模型作用于验证集，获得每个模型在验证集上的平均性能，选择性能最佳的作为每个QP范围对应的最终模型。一旦最终模型被确定，将在编码端和解码端作为环路滤波模型被共同使用。

对于训练好的环路滤波模型，在编码端采用以下方式展开应用。设编码器当前QP值为53，则选取47～56QP范围对应的神经网络模型CNN₅₃。

S201，将输入的低质量图像划分成尺寸为256×256的图像块，将每个低质量图像块x送入训练完毕的神经网络CNN₅₃，得到2个投影图像R＝{r₀,r₁}。

S202，根据所输入的低质量图像块x和图像块x所对应的原始图像s，计算得到输入残差r，其中r＝s-x。

S203，根据步骤S201所得到的2个投影图像R和步骤S202所得到的残差r，估计得到2个权重系数A＝{a₀,a₁}。其中，估计公式如下：

[a₀a₁...a_M-1]^T＝(R^TR)^-1R^Tr

对上述权重系数A还要进行进一步处理，首先将A放大2⁸倍，然后经过四舍五入取整与Clip操作得到

最后对

进行熵编码，并将得到的比特写入码流中。

其中，Round表示四舍五入取整，clip表示

表示

的最大值；在本实施例中设为7；

表示

的最小值，在本实施例中设置为-8；

表示

的最大值；在本实施例中设为15；

表示

的最小值，在本实施例中设置为0。

S204，根据步骤S203得到的权重系数

与投影图像R，计算得到输出图像x_corr＝(a₀r₀+a₁r₁)+x。

S205，重复上述步骤S201到步骤S204，直到整张低质量图像被处理完毕。

S206，使用libaom中的原环路滤波方法(包括Deblocking、CDEF和LR)对整帧低质量图像进行滤波，得到重建图像x_anchor。

S207，计算整帧图像的x_corr与s之间的损失J_corr，计算整帧图像的x_anchor与s之间的损失J_anchor。比较J_corr与J_anchor，如果J_anchor小，则选择x_anchor为最终输出的高质量图像，设置环路滤波模式CNN_FLAG＝0；如果J_corr小，则选择x_corr为最终输出的高质量图像，设置环路滤波模式CNN_FLAG＝1。其中，损失函数J_corr与J_anchor的计算方法是：

其中，W表示该图像的像素宽，H表示该图像的像素高。

S208，对CNN_FLAG进行熵编码。如果CNN_FLAG＝1，则进一步对权重系数

的两个系数分别进行熵编码，所得到的比特被写入码流中。

对于训练好的神经网络模型，在libaom解码端采用以下方式展开应用。设解码得到当前QP值为53，则选取47～56QP范围对应的神经网络模型CNN₅₃。

S301，对码流进行熵解码，得到环路滤波模式CNN_FLAG的值，得到低质量重建图像。如果CNN_FLAG＝0，则直接使用原环路滤波算法对图像进行滤波，所得到的x_anchor为最终输出的高质量图像；如果CNN_FLAG＝1，则进入步骤S302～步骤S305。

S302，对编码码流进行熵解码，得到与每个256×256尺寸的低质量重建图像块x对应的2个权重系数

S303，将x送入训练完毕的神经网络，得到2个投影图像R＝{r₀,r₁}。

S304，根据所得到的权重系数A与投影图像R，计算得到输出图像

S305，重复上述步骤S302到步骤S304，直到整张低质量图像被处理完毕，所得到的x_corr为最终输出的高质量图像。

本实施例是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。