CN112422989B

CN112422989B - 一种视频编码方法

Info

Publication number: CN112422989B
Application number: CN202011288590.4A
Authority: CN
Inventors: 丁丹丹; 高翔
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2023-06-09
Anticipated expiration: 2040-11-17
Also published as: CN112422989A

Abstract

本发明涉及一种视频编码方法，属于视频数据处理。包括：1)取帧缓冲区中的重建帧F_n和F_m，F_n和F_m与当前帧F_i的距离分别是|n‑i|与|m‑i|，将F_n、F_m、|n‑i|、|m‑i|送入帧合成神经网络模型，得到合成的虚拟帧F_vrf；2)将步骤1)中获得的虚拟帧F_vrf通过增强网络进行增强，输出合成帧F_i’；3)遍历当前编码帧F_i的每一个CTU块，比较当前编码帧F_i的CTU块与F_i’同位块的RD‑cost，若F_i的RD‑cost大于F_i’的RD‑cost，则将F_i当前CTU块的每个像素值替换为F_i’当前同位块的每个像素值，设置CTU级替换模式的标记位CNN_Temporal＝1；否则，设置CTU级替换模式CNN_Temporal＝0，继续循环；4)对CNN_Temporal进行熵编码；5)获得当前编码帧F_i的重建值F_rec，使用帧级滤波模式选择对F_rec进行处理，得到重建帧F_rec’，并将F_rec’保存于帧缓冲区内。

Description

一种视频编码方法

技术领域

本发明涉及视频数据处理技术领域，具体地说，涉及一种视频编码方法。

背景技术

随着多媒体数据的快速增长，视听信息数据量日益庞大，需要更高效的视频压缩技术来对这些海量进行存储与传输。卷积神经网络(Convolutional Neural Network，CNN)通过迭代多层卷积操作操作达到了良好的非线性拟合功能，相比于传统基于信号的方法，能够更好地解决视频编码中的一些分类、拟合和回归问题，因而在视频编码领域逐渐崭露头角。

目前，基于CNN的视频编码主要分为两类：一是基于CNN的端到端的全新编码框架，这种方法突破了传统的基于块的混合视频编码框架，通过CNN学习输入图像的特征进而转化为二进制码流；二是基于传统混合编码框架的CNN编码工具，使用CNN完成或加强传统编码工具的功能，以获得更高的编码效率。现阶段已经涌现出针对不同编码环节的各种CNN工具，例如运动估计、插值、帧内预测、帧间模式选择、变换、量化、熵编码、环路滤波等等。基于CNN的编码工具能够显著提升视频编码效率，验证了基于CNN编码的有效性。

帧间预测是视频编码的重要环节，参考帧的质量也直接影响着帧间预测的精度。在视频编码框架中，有两个重要步骤都涉及参考帧：一是环路滤波时，对低质量的参考帧进行滤波，去除块效应、振铃效应等，获得高质量的参考帧；二是运动估计时，一方面对滤波后的参考帧进行插值，另一方面也有些方法提出合成新的参考帧，以获得更精确的预测值与运动矢量。近年来，不少研究使用CNN展开上述研究。在环路滤波方面，CNN被用于原编码环路滤波中间或之后，或被用于替换整个环路滤波，以增强参考帧的质量；在运动估计中，CNN被用于直接推断预测像素块值，或被用于替换原线性插值滤波器，或被用于合成新的参考帧，这些操作都是为了提高运动估计的精度，进而提升全局编码效率。但是，在实际应用过程中CNN往往会产生重复作用，不利于编码效率的提高。

发明内容

本发明的目的是提供一种视频编码方法，避免CNN的重复作用，在空域对参考帧进行增强，以充分挖掘像素点之间的相关性；在时域进行参考帧合成，以挖掘像素的时域关联。

为了实现上述目的，本发明提供的视频编码方法包括以下步骤：

1)取帧缓冲区中的重建帧F_n和F_m(n与m为不同于i的整数)，F_n和F_m与当前帧的距离分别是|n-i|与|m-i|，将F_n、F_m、|n-i|、|m-i|送入帧合成神经网络模型，得到合成的虚拟帧F_vrf；

2)将步骤1)中获得的虚拟帧F_vrf通过增强网络进行增强，输出合成帧F_i’；

3)遍历当前编码帧F_i的每一个CTU(编码树单元)块，比较当前编码帧F_i的CTU块与F_i’同位块的RD-cost(率失真优化)，若F_i的RD-cost大于F_i’的RD-cost，则将F_i当前CTU块的每个像素值替换为F_i’当前同位块的每个像素值，设置CTU级替换模式的标记位CNN_Temporal＝1；否则，设置CTU级替换模式CNN_Temporal＝0，继续循环；

4)对CNN_Temporal的值进行熵编码；

5)获得当前编码帧F_i的重建值F_rec，使用帧级滤波模式选择对F_rec进行处理，得到重建帧F_rec’，并将F_rec’保存于帧缓冲区内。

参考帧的质量直接影响视频编码效率，基于卷积神经网络(CNN)的参考帧增强和合成均表现出了优于传统方法的性能。目前的方法通常是基于CNN对参考帧增强或合成环节单独进行优化。然而，增强后的帧将进一步作为参考帧，影响后续的参考帧合成，并对后续帧的编码产生影响，因此需要在视频编码系统中对两者进行联合优化。本发明通过时空域联合参考帧合成与增强的编码，指出帧增强和合成环节相互影响与关联，在环内滤波阶段通过挖掘像素间的空间相关性来完成增强任务，在运动补偿阶段通过挖掘帧间的时间相关性来合成虚拟帧。最终，时空域信息得以充分利用且不需要在多个环节重复提取。

步骤1)中，所述的F_n和F_m分别为当前编码帧F_i的前面与后面的帧，或都为当前编码帧F_i的前面的帧，针对这两种位置关系分别训练不同的帧合成神经网络模型。

步骤5)中，所述的帧级滤波模式选择方法如下：

5-1)使用传统环路滤波方法对输入的帧图像进行滤波，得到重建图像F_anchor；

5-2)使用增强网络模型对输入的帧图像进行滤波，得到重建图像F_cnn；

5-3)选择质量高的重建图像作为最终输出的高质量图像，并保存在帧缓存中。

步骤5-2)所述的增强网络模型的训练方法为：

利用编码器生成待增强图像的重建图像；

将重建图像作为样本，与其对应的原始图像作为标签，形成训练集；

利用重建图像和其对应的标签对神经网络进行训练，获得所述的增强模型。

步骤5-3)的选择过程包括：

5-3-1)计算整帧重建图像F_anchor与原始图像之间的峰值信噪比P_anchor，以及整帧重建图像F_cnn与原始图像之间的峰值信噪比P_cnn；

5-3-2)比较F_anchor与P_cnn，若F_anchor大，则选择F_anchor为最终输出的高质量图像，设置帧级滤波模式的标记位CNN_Spatial＝0；若P_cnn大，则选择P_cnn为最终输出的高质量图像，设置帧级滤波模式的标记位CNN_Spatial＝1；

5-3-3)对帧级滤波模式的标记位CNN_Spatial的值进行熵编码。

所述的增强网络由8个残差块串联而成，每个残差块内包括3层卷积，第一个卷积层使用1×1的卷积核实现特征图的扩张，卷积后的非线性映射层使用线性整流激活函数；第二层使用1×1的卷积核实现特征图的收缩；第三层卷积使用3×3的卷积核实现高阶特征提取与增强。

所述的帧合成神经网络模型采用全卷积编解码结构，包括三个卷积层、三个反卷积层和一个瓶颈层；对于网络的编码器部分，每个处理单元都包含卷积层和最大池化层，卷积核大小分别为5×5、5×5和3×3；对于解码器部分，每个处理单元都包含双线性上采样和卷积层，卷积核大小分别是3×3、5×5和5×5。

步骤2)所述的增强网络与步骤1)所述的帧合成神经网络模型连接在一起进行端到端的训练得到联合模型。所述的帧级滤波模式选择，适用于编码的每一帧。

与现有技术相比，本发明的有益之处在于：

本发明利用神经网络对参考帧合成与增强进行联合优化，在编码的运动估计阶段对时域进行提取，在环路滤波阶段对空域信息进行提取，形成环内联合作用机制，有效提升了编码效率。

本发明能针对参考帧增强，提出一种循环宽激活网络，结合帧级率失真优化策略，对滤波后的重建编码图像进行增强；针对参考帧合成，采用帧合成神经网络，使用滤波后的图像合成虚拟参考帧，且在合成的基础上做了合成帧的增强，在CTU(Coding Tree Unit)级进行运动搜索，以提升运动估计精度。

附图说明

图1为本发明实施例中所使用的循环宽激活网络的结构示意图；

图2为本发明实施例中用于参考帧合成与增强联合的视频编码方法架构示意图；

图3为本发明实施例中所使用的帧级滤波模式选择的流程图；

图4为本发明实施例中所使用的帧合成神经网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

实施例1

本实施例使用H.265/HEVC标准的参考编码器HM-16.9对视频序列进行编码。HM-16.9包括两个传统滤波算法，分别是Deblocking Filter和Sample Adaptive Offset。利用帧级滤波模式选择来代替原有环路滤波。

首先，训练神经网络。构建一个神经网络，设计一种循环宽激活网络结构，如图1所示，由8个残差块串联而成，每个残差块内包括3层卷积，并引入了宽激活的思想，即在激活函数前扩张特征图数量以增加网络的非线性映射功能。第一个卷积层使用1×1的卷积核实现特征图的扩张，以更加细致地提取局部特征，捕捉更多图像细节，卷积后的非线性映射层使用了线性整流激活函数(Rectified Linear Unit)；第二层使用了1×1的卷积核实现特征图的收缩，使得特征图的数目比输入的通道数更少，以对细化后的特征进行压缩；最后，第三层卷积使用3×3的卷积核实现高阶特征提取与增强。针对上述神经网络，进行以下步骤的模型训练：

S101，制作训练集。在HM-16.9的AI配置下，本实施例采用DIV2K数据集，关掉标准环路滤波后(包括Deblocking Filter和Sample Adaptive Offset)，以5个基本QP＝{22，27，32，37，42}进行编码，然后利用每个QP的重建帧来构建5个数据库，每个数据库包含1000张压缩后未经滤波的DIV2K的图像以及对应的原始图像作为标签。

S102，利用训练集对神经网络进行训练，获得图像增强模型。

选择50帧未滤波图像组成测试集，且这些图像与训练集中的图像完全不重合。将每个QP所对应的一系列模型用于测试集，获得每个模型在测试机上的性能，选择性能最佳的模型作为各个QP的最终模型。一旦最终模型被确定，将在编码端作为帧级滤波模式选择被使用。

对于训练好的图像增强模型，如图2，参考帧合成与增强联合的视频编码方法中参考帧增强在编码器采用以下的方式展开运用，架构设置编码器当前QP值为37，选取对应的神经网络模型CNN₃₇。

使用上述训练好的图像增强模型实现本实施例的视频编码，具体包括以下步骤：

S201，在HM-16.9的RA配置下，首先编码分层B结构中，时间层级为0、1的帧。

S202，时间层级为0、1的帧最终进入帧级滤波模式选择，如图3所示。

S203，使用HM-16.9中的原始环路滤波方法(包括Deblocking Filter和SampleAdaptive Offset)对时间层级为0、1的帧进行滤波，得到经过原始滤波后的重建图像F_anchor。

S204，将未滤波的时间层级为0、1的帧送入图像增强模型，得到经过神经网络处理后的重建图像F_cnn。

S205，计算整帧重建图像F_anchor与原始图像之间的峰值信噪比P_anchor，以及整帧重建图像F_cnn与原始图像之间的峰值信噪比P_cnn。

S206，比较P_anchor与P_cnn，如果P_anchor大，则选择F_anchor为最终输出的高质量图像，设置帧级滤波模式CNN_Spatial＝0；如果P_cnn大，则选择F_cnn为最终输出的高质量图像，设置帧级滤波模式CNN_Spatial＝1。

S207，对CNN_Spatial的值进行熵编码，所得到的比特被写入码流中。

最终，得到的高质量图像解码后进入帧缓冲区里，也同时作为合成时间层级为2、3的帧的输入图像。如图4，参考帧合成与增强联合的视频编码方法中参考帧合成在编码器采用以下的方式展开运用：

S301，取帧缓冲区内前后距离一致的高质量图像F_n和F_m，F_n和F_m分别为当前编码帧F_i的前面与后面的帧，且F_n和F_m与当前帧F_i的距离分别是|n-i|与|m-i|。

S302，将F_n、F_m、|n-i|、|m-i|送入帧合成神经网络模型，得到合成的虚拟帧F_vrf；

S303，虚拟帧F_vrf通过增强网络进行增强，输出合成帧F_i’。

S304，遍历当前编码帧F_i的每一个CTU块，比较当前编码帧F_i的CTU块与F_i’同位块的RD-cost。

S305，若F_i的RD-cost大于F_i’的RD-cost，则将F_i当前CTU块的每个像素值替换为F_i’当前同位块的每个像素值，设置CTU级替换模式CNN_Temporal＝1；否则，设置CTU级替换模式CNN_Temporal＝0，继续循环。

S306，对CNN_Temporal的值进行熵编码，如果CNN_Temporal＝1，则对CNN_Temporal的值进行熵编码，所得到的比特写入编码码流中，如果CNN_Temporal＝0，则对当前CTU块进行正常的熵编码。

S307，得到最终的重建图像将再次经过帧级滤波模式选择，使得本实施例在编码过程中形成闭环。

实施例2

本实施例用于视频编码的神经网络的训练和训练集的制作与实施例1相同，此处不再赘述，不同之处在于编码配置，本实施例具体包括以下步骤：

S101，在HM-16.9的LDP配置下，待编码帧的帧缓冲区内的重建帧已经过帧级滤波模式选择，如图3所示，具体流程与实施例1中所述的帧级滤波模式选择一致，此处不再赘述。

S102，计算整帧重建图像F_anchor与原始图像之间的峰值信噪比P_anchor，以及整帧重建图像F_cnn与原始图像之间的峰值信噪比P_cnn。

S103，比较P_anchor与P_cnn，如果P_anchor大，则选择F_anchor为最终输出的高质量图像，设置帧级滤波模式CNN_Spatial＝0；如果P_cnn大，则选择F_cnn为最终输出的高质量图像，设置帧级滤波模式CNN_Spatial＝1。

S104，对CNN_Spatial的值进行熵编码，所得到的比特被写入码流中。

最终，得到的高质量图像解码后进入帧缓冲区里，也同时作为合成下一帧待编码帧的合成帧的输入图像。如图4，参考帧合成与增强联合的视频编码方法中参考帧合成在编码器采用以下的方式展开运用：

S201，取帧缓冲区内的高质量图像F_n和F_m，F_n和F_m都为当前编码帧F_i前面的帧，且F_n和F_m与当前帧F_i的距离分别是|n-i|与|m-i|。

S202，将F_n、F_m、|n-i|、|m-i|送入帧合成神经网络模型，得到合成的虚拟帧F_vrf；

S203，虚拟帧F_vrf通过增强网络进行增强，输出合成帧F_i’。

S204，遍历当前编码帧F_i的每一个CTU块，比较当前编码帧F_i的CTU块与F_i’同位块的RD-cost。

S205，若F_i的RD-cost大于F_i’的RD-cost，则将F_i当前CTU块的每个像素值替换为F_i’当前同位块的每个像素值，设置CTU级替换模式CNN_Temporal＝1；否则，设置CTU级替换模式CNN_Temporal＝0，继续循环。

S206，对CNN_Temporal的值进行熵编码，如果CNN_Temporal＝1，则对CNN_Temporal的值进行熵编码，所得到的比特写入编码码流中，如果CNN_Temporal＝0，则对当前CTU块进行正常的熵编码。

S207，得到最终的重建图像将再次经过帧级滤波模式选择，使得本实施例在编码过程中形成闭环。

以上实施例是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频编码方法，其特征在于，对当前待编码的帧F_i按照以下步骤进行编码：

1)取帧缓冲区中的重建帧F_n和F_m，F_n和F_m与当前帧F_i的距离分别是|n-i|与|m-i|，将F_n、F_m、|n-i|、|m-i|送入帧合成神经网络模型，得到合成的虚拟帧F_vrf；

2)将步骤1)中获得的虚拟帧F_vrf通过增强网络进行增强，输出合成帧F_i ^’；

3)遍历当前编码帧F_i的每一个CTU块，比较当前编码帧F_i的CTU块与F_i ^’同位块的RD-cost，若F_i的RD-cost大于F_i ^’的RD-cost，则将F_i当前CTU块的每个像素值替换为F_i ^’当前同位块的每个像素值，设置CTU级替换模式的标记位CNN_Temporal＝1；否则，设置CTU级替换模式CNN_Temporal＝0，对当前CTU按照传统方式编码，继续循环；

4)对CNN_Temporal的值进行熵编码；

5)获得当前编码帧F_i的重建值F_rec，使用帧级滤波模式选择对F_rec进行处理，得到重建帧F_rec ^’，并将F_rec ^’保存于帧缓冲区内。

2.根据权利要求1所述的视频编码方法，其特征在于，步骤1)中，所述的F_n和F_m分别为当前编码帧F_i的前面与后面的帧，或都为当前编码帧F_i的前面的帧，针对这两种位置关系分别训练不同的帧合成神经网络模型。

3.根据权利要求1所述的视频编码方法，其特征在于，步骤5)中，所述的帧级滤波模式选择方法如下：

5-2)使用增强网络对输入的帧图像进行滤波，得到重建图像F_cnn，所述的增强网络的训练方法为：

利用编码器生成待增强图像的重建图像；

利用重建图像和其对应的标签对神经网络进行训练，获得所述的增强网络；

4.根据权利要求3所述的视频编码方法，其特征在于，步骤5-3)的选择过程包括：

5-3-2)比较P_anchor与P_cnn，若P_anchor大，则选择F_anchor为最终输出的高质量图像，设置帧级滤波模式的标记位CNN_Spatial＝0；若P_cnn大，则选择F_cnn为最终输出的高质量图像，设置帧级滤波模式的标记位CNN_Spatial＝1；

5-3-3)对帧级滤波模式的标记位CNN_Spatial的值进行熵编码。

5.根据权利要求1所述的视频编码方法，其特征在于，所述的增强网络由8个残差块串联而成，每个残差块内包括3层卷积，第一个卷积层使用1×1的卷积核实现特征图的扩张，卷积后的非线性映射层使用线性整流激活函数；第二层使用1×1的卷积核实现特征图的收缩；第三层卷积使用3×3的卷积核实现高阶特征提取与增强。

6.根据权利要求1所述的视频编码方法，其特征在于，步骤2)所述的增强网络与步骤1)所述的帧合成神经网络模型连接在一起进行端到端的训练得到联合模型。

7.根据权利要求1所述的视频编码方法，其特征在于，所述的帧级滤波模式选择，适用于编码的每一帧。

8.根据权利要求1所述的视频编码方法，其特征在于，所述的帧合成神经网络模型采用全卷积编解码结构，包括三个卷积层、三个反卷积层和一个瓶颈层；对于网络的编码器部分，每个处理单元都包含卷积层和最大池化层，卷积核大小分别为5×5、5×5和3×3；对于解码器部分，每个处理单元都包含双线性上采样和卷积层，卷积核大小分别是3×3、5×5和5×5。