CN113784147A

CN113784147A - 一种基于卷积神经网络的高效视频编码方法及系统

Info

Publication number: CN113784147A
Application number: CN202110912186.8A
Authority: CN
Inventors: 朱仲杰; 秦丽明; 白永强; 谢智波; 郑敏华
Original assignee: Zhejiang Wanli University
Current assignee: Zhejiang Wanli University
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-10
Anticipated expiration: 2041-08-10
Also published as: CN113784147B

Abstract

本发明属于视频编码技术领域，提供了一种基于卷积神经网络的高效视频编码方法，包括步骤：S1、采用高效视频编码器编码视频序列，并获取待编码视频序列的编码树单元；S2、通过VGGNet卷积网络输出编码树单元中不同等级的编码单元划分预测结果；S3、根据预测结果确定各等级最优的编码单元划分，并将待编码视频序列按照各等级的编码单元划分进行编码。本发明还提供了一种基于卷积神经网络的高效视频编码系统，本发明的优点在于以VGGNet网络模型为核心，设置了快速高效划分CU的网络结构。在增加网络深度的同时降低了参数量，既保证了预测结果的准确率，又大幅度降低了算法的计算复杂度。

Description

一种基于卷积神经网络的高效视频编码方法及系统

技术领域

本发明涉及视频编码技术领域，尤其涉及一种基于卷积神经网络的高效视频编码方法及系统。

背景技术

视觉传感技术和多媒体技术的发展使视频服务得到了广泛应用，但也对视频信息的编码和传输提出更高的要求。目前，高效视频编码(high efficiency video coding，HEVC)作为应用最广的视频编码标准，通过灵活的四叉树划分结构、多样化预测单元(prediction unit，PU)和转化单元(transform unit，TU)、35种不同的帧内预测模式等核心技术使其编码性能得到了很大提升。其中，四叉树划分结构可以对编码单元(codingunit，CU) 进行有效划分，但其需要依靠蛮力进行递归率失真优化搜索，遍历所有深度以获得最优的CU划分结果。这导致了其整体编码复杂度比H.264增加了 253％左右，也给帧内编码增加了巨大的计算量。

目前，针对CU划分的改进方法可以分为传统方法和基于深度学习的方法。传统方法中，通常是对递归的率失真优化遍历搜索进行简化，跳过不必要的划分过程以节省编码时间。这些传统方法在一定程度上提升了CU 划分的效率，但会对编码性能产生较大影响，且节省的编码时间有限。

近些年，基于深度学习的快速划分方法相继被提出，此类方法通过数据库自动提取学习与CU分区相关的高级特征，进一步提高了划分效率和编码性能，但以往基于深度学习的方法网络深度较浅，对快速CU划分性能的提升有限。

发明内容

本发明的目的在于提供一种基于卷积神经网络的高效视频编码方法，用以解决有效降低帧内编码复杂度的问题。

为了实现上述目的，本发明采用的技术方案为：

一种基于卷积神经网络的高效视频编码方法，包括步骤：

S1、采用高效视频编码器编码视频序列，并获取待编码视频序列的编码树单元；

S2、通过VGGNet卷积网络输出编码树单元中不同等级的编码单元划分预测结果；

S3、根据预测结果确定各等级最优的编码单元划分，并将待编码视频序列按照各等级的编码单元划分进行编码。

进一步的，建立步骤S2中所述的VGGNet卷积网络的步骤包括：

获取预设数据库中的图像；

通过所述图像获取图像中的编码树单元；

对所述编码树单元进行预处理；

将预处理后的编码树单元通过VGGNet卷积网络模型进行训练，得到最终的编码单元划分结果。

进一步的，VGGNet卷积网络模型包括三个分支，所述三个分支分别预测三个等级的编码单元划分结果。

进一步的，每个分支中包括三个卷积层，每个卷积层中包括三个大小相同的卷积核堆叠。

进一步的，在各个分支中设置有特征金字塔结构，在最后两层卷积层进行特征融合。

进一步的，进行特征融合的过程具体为：

将第三卷积层提取的特征经上采样后使其尺寸与第二卷积层提取的特征的尺寸保持一致；

同时对第二卷积层提取的特征进行卷积变换，改变其通道数使其与第三卷积层的通道数相同；

将两层特征相加融合得到特征图，并将特征图转化为一维矢量。

进一步的，三个分支分别输出的所有特征通过两个全连接层后分别输出三个等级的编码单元划分概率。

进一步的，将量化参数作为外部特征补充到三个分支分别输出的所有特征中。

进一步的，根据三个等级的编码单元划分概率，并通过对各个等级设置阈值，决定对当前等级的编码单元是否继续划分；

当决定前一等级的编码单元停止划分时，将终止之后等级的编码单元划分。

本发明的目的还在于提供一种基于卷积神经网络的高效视频编码系统，包括：

获取模块，用于采用高效视频编码器编码视频序列，并获取待编码视频序列的编码树单元；

预测划分模块，用于通过VGGNet卷积网络输出编码树单元中编码单元划分等级的预测结果；

编码模块，用于根据预测结果确定各编码单元的等级划分，并将待编码视频序列按照各编码单元的等级划分进行编码。

本发明与现有技术相比，至少包含以下有益效果：

(1)为了增强提取特征的准确性，以适应不同分辨率视频序列的CU 分区，本发明设置了用于特征增强的金字塔网络结构。

(2)本发明以VGGNet网络模型为核心，设置了快速高效划分CU的网络结构。在增加网络深度的同时降低了参数量，既保证了预测结果的准确率，又大幅度降低了算法的计算复杂度。

(3)本发明引入提前终止机制，当决定前一等级的CU停止划分时，将终止之后等级的CU划分。

(4)本发明可以取代传统编码中的递归式遍历搜索，有效的避免了复杂的率失真代价计算，降低编码复杂度，并且为平衡RD性能下降和复杂度降低，还通过设置相应的阈值能够使得设备在本发明方法与传统RD计算方式之间进行选择。

附图说明

图1是本发明实施例一的总体流程图；

图2是本发明实施例一中建立VGGNet卷积网络的流程图；

图3是本发明实施例一中编码单元等级划分的示意图；

图4是本发明实施例一中VGGNet卷积网络模型的结构示意图；

图5是本发明实施例一中特征融合的示意图；

图6是本发明实施例一的编码测试结果示意图；

图7是本发明通过各序列性能测试的结果示意图；

图8是本发明实施例二的架构示意图。

具体实施方式

需要说明，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

以下是本发明的具体实施例，并结合附图对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

如图1所示，本发明一种基于卷积神经网络的高效视频编码方法，包括步骤：

S2、通过VGGNet卷积网络输出编码树单元中编码单元划分等级的预测结果；

S3、根据预测结果确定各等级编码单元的划分，并将待编码视频序列按照各等级编码单元的划分进行编码。

其中，如图2所示，建立步骤S2中所述的VGGNet卷积网络的步骤包括：

A1、获取预设数据库中的图像；

A2、通过所述图像获取图像中的编码树单元；

A3、对所述编码树单元进行预处理；

A4、将预处理后的编码树单元对VGGNet卷积网络模型进行训练，得到编码单元划分结果。

在高效视频编码中，待编码帧首先被分割成64×64大小的编码树单元块，然后逐块进行压缩。对于一个最大编码单元，编码器首先对其进行编码，记录最优预测模式、率失真代价以及其他编码信息，进行一次四叉树划分后得到深度为1的四个子CU(32×32)。然后循环编码四个子CU，重复上一步骤，直到划分到深度为3的最小CU(8×8)。

对于这种递归计算的四叉树划分结构，本发明将其表示为三个不同等级的编码单元分区，如图3所示。将深度为0的CU表示为U，深度为1 的CU表示为Ui，深度为2的CU表示为Ui，j，深度3的CU表示为Ui，j， k，相邻深度均有划分(＝1)和不划分(＝0)两种标签，将每两个深度间的划分标签表示为三个不同等级的预测。本发明设计的网络模型将针对三个等级进行预测，决定CU的最终划分。其中，还引入提前终止机制，以节省训练时间。

基于上述对CU的等级划分，本发明设置了基于VGGNet的网络模型， VGGNet卷积网络模型包括三个分支，三个分支分别预测三个等级的编码单元划分结果。

对于网络的输入CTU，其输入的CTU尺寸大小为64×64，对其进行均值化的预处理操作。即在每个分支中，将输入CTU减去平均强度值，以减少输入CTU样本的变化。预处理之后将其分别输入到三个平行分支Bj中， j＝1，2，3，三个分支将分别预测三个不同等级CU划分结果。

如图4所示，其为其中的一个分支，包括三个卷积层，每个卷积层中包括三个大小相同的卷积核堆叠，并且在各个分支中设置有特征金字塔结构，在最后两层卷积层进行特征融合。

本发明为提取与CU分区相关的特征，卷积层以VGGNet作为改进基础，其最大的独特之处在于通过重复堆叠的方式，不断加深网络结构来提升性能。这种将较小卷积核堆叠在一起的方法可以达到较大感受野大的卷积层效果，并且在每一个卷积结束后都会使用一次激活函数，相当于在计算过程中进行了多次非线性变换，增强了卷积神经网络对特征的提取能力。

在每个分支中通过改变卷积层尺寸大小，分别预测三个等级的CU划分结果。以第一分支B1的卷积层来说，网络结构中的三个卷积层核大小k1、 k2、k3分别为8×8,4×4和2×2，最终输出尺寸大小为1×1的特征图，与第一级的划分标签数量一致。同样，通过设置B2和B3分支的卷积核大小，输出分别为2×2和4×4大小的特征图，对应于第二、第三等级的划分标签数量，之后将融合后的特征图转化为一维矢量并通过全连接层输出CU划分结果。。

如图5所示，本发明的卷积神经网络包含了三个卷积层，在最后两层进行融合特征可以在不增加训练时间前提下提高准确率。首先，将第三卷积层最后提取的特征经上采样，使其尺寸与第二卷积层特征尺寸保持一致。同时对第二卷积层特征进行卷积变化，改变其通道数与第三卷积层相同。最后，将两层特征相加融合进行预测。

总之，将特征金字塔网络融入本发明的卷积神经网络模型，对卷积层提取的特征进行不同尺度的特征融合，可以有效提高特征图的准确性，进而能更好适应不同分辨率下的CU划分。

经过特征融合后的所有特征在也将通过三个不同分支的两个全连接层，分别对应CU划分的三个级别。另外，由于量化参数(quatization parameter，QP)对CU的划分也有影响，QP越大，更趋向使用较大的CU，因此将QP作为外部特征补充到其中，使卷积神经网络在预测CU分区时能够适应不同QP。完全连接层包括两个隐藏层和一个输出层，隐藏层通过设置不同的剔除率随机剔除拼接后的特征向量，进行最终的结果预测。最后通过Softmax函数对输出层进行激活，三个分支将分别输出三个等级的CU 划分概率。

本发明的VGGNet网络模型将分别输出三个不同等级的CU预测结果，将输出的每个等级CU划分概率表示为P1，P2，P3，通过对各个等级设置相关阈值Thr，决定当前等级的CU是否继续划分，本文将Thr均设置为0.5。比如，当P1>Thr1时，表示第一等级的 CU将划分为四个子CU，当P1<Thr1时，则不向下划分。第二、第三等级的划分与此相同，其中，本文引入提前终止机制，当决定前一等级的CU停止划分时，将终止之后等级的CU划分。

本发明采用交叉熵的和作为训练本发明所建立的VGGNet网络模型的损失函数。

假设其预测输出结果标签为

真实值表示为

总体样本设为N，对于单个样本n，损失函数Ln的计算如下式：

H(*)为真实值与预测标签之间的交叉熵运算符，最后，通过最小化训练模型的损失函数L更加准确地预测CU分区：

对于本发明所提供的基于卷积神经网络的高效视频编码方法进行了相关的实验，其结果如图6和图7所示。

同时，评价标准采用ΔT、BD-BR和BD-PSNR。其中，ΔT表示相对于原始HM的编码节省时间，衡量复杂度的降低程度；BD-BR和BD-PSNR 分别代表编码时平均比特率差和平均峰值信噪比差，用以评估RD性能。BD-BR增加值越少，BD-PSNR降低值越小，代表RD性能损失越小。A和 B均为其他编码单元划分方法。

对于复杂度的降低程度，由图6中可以看出，在QP＝22，27，32，37 的情况下，本方法平均降低编码复杂度的59.71％，超过A的43.72％和B 的59.28％，其表明在降低编码复杂度方面，本方法有大幅度提升。

详细的各序列性能测试结果如图7所示，本方法在增加网络深度的同时降低了参数量，既保证了预测结果的准确率，又大幅度降低了算法的计算复杂度。

实施例二

如图8所示，本发明一种基于卷积神经网络的高效视频编码系统，包括：

本发明以VGGNet网络模型为核心，设置了快速高效划分CU的网络结构，在增加网络深度的同时降低了参数量，既保证了预测结果的准确率，又大幅度降低了算法的计算复杂度。

本发明可以取代传统编码中的递归式遍历搜索，有效的避免了复杂的率失真代价计算，降低编码复杂度，并且为平衡RD性能下降和复杂度降低，还通过设置相应的阈值能够使得设备在本发明方法与传统RD计算方式之间进行选择。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于卷积神经网络的高效视频编码方法，其特征在于，包括步骤：

S2、通过VGGNet卷积网络输出待编码帧中不同等级的编码单元划分预测结果；

S3、根据预测结果确定各编码单元的等级划分，并将待编码视频序列按照预测出的编码单元划分结果进行编码。

2.根据权利要求1所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，建立步骤S2中所述的VGGNet卷积网络的步骤包括：

获取预设数据库中的图像；

通过所述图像获取图像中的编码树单元；

对所述编码树单元进行预处理；

将预处理后的编码树单元经过VGGNet卷积网络模型进行训练，得到不同等级的编码单元划分结果。

3.根据权利要求2所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，所述VGGNet卷积网络模型包括三个分支，所述三个分支分别预测三个等级的编码单元划分结果。

4.根据权利要求3所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，每个分支中包括三个卷积层，每个卷积层中包括三个大小相同的卷积核堆叠。

5.根据权利要求4所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，在各个分支中设置有特征金字塔结构，在最后两层卷积层进行特征融合。

6.根据权利要求5所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，进行特征融合的过程具体为：

7.根据权利要求3所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，三个分支分别输出的所有特征通过两个全连接层后分别输出三个等级的编码单元划分概率。

8.根据权利要求7所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，将量化参数作为外部特征补充到三个分支分别输出的所有特征中。

9.根据权利要求7所述的一种基于卷积神经网络的高效视频编码方法，其特征在于，根据三个等级的编码单元划分概率，并通过对各个等级设置阈值，决定对当前等级的编码单元是否继续划分；

10.一种基于卷积神经网络的高效视频编码系统，基于权利要求1～9任一项所述的基于卷积神经网络的高效视频编码方法，其特征在于，包括：

预测划分模块，用于通过VGGNet卷积网络输出编码树单元中不同等级编码单元划分的预测结果；

编码模块，用于根据预测结果确定各等级编码单元的划分，并将待编码视频序列按照预测的编码单元划分结果进行编码。