CN111510728A

CN111510728A - 一种基于深度特征表达与学习的hevc帧内快速编码方法

Info

Publication number: CN111510728A
Application number: CN202010282678.9A
Authority: CN
Inventors: 贾克斌; 崔腾鹤; 刘鹏宇; 孙中华
Original assignee: Beijing University of Technology
Current assignee: Beijing Ge Lei Information Technology Co ltd
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2020-08-07
Anticipated expiration: 2040-04-12
Also published as: CN111510728B

Abstract

本发明公开了一种基于深度特征表达与学习的HEVC帧内快速编码方法。首先，通过利用深度卷积神经网络强大的特征表达与学习能力，并将注意力机制、特征传递机制等思想与视频编码流程的先验信息相结合，构建CU划分表征矢量预测网络；其次，通过设计有效的损失函数及网络超参数完成该网络的训练过程；最后，使用网络输出结果代替四叉树划分算法的划分结果，完成视频编码流程。采用本发明的技术方案，与国际编码标准HEVC(HM16.5)相比，在保证视频编码质量基本不变的前提下，减少视频编码所需时间成本，缓解编码质量与编码速度之间的矛盾，提高HEVC的编码效率。

Description

一种基于深度特征表达与学习的HEVC帧内快速编码方法

技术领域

本发明属于视频处理技术领域，涉及一种基于深度特征表达与学习的HEVC帧内快速编码方法。

背景技术

随着互联网、多媒体技术的发展、智能终端的普及以及人民消费水平的升级“信息可视频化、视频超高清化”已经成为全球信息产业发展的大趋势。视频作为信息呈现和传播的主要载体，已成为满足人民群众美好生活需求、推动信息技术产业和经济社会创新发展的重要引擎。虽然面对视频服务种类的激增、视频质量多维度的大幅度提升，视频编码联合组在H.264/AVC的基础上，提出了高效视频编码标准H.265/HEVC(High Efficiency VideoCoding,HEVC)，提高了视频编码质量。但在其编码过程中，由于新技术的引入，编码复杂度大幅度提升，这也使得HEVC很难应用于目前的多媒体应用上。因此，为了在视频编码质量和编码速度之间找到一种折中,研究视频快速编码算法具有现实而深远的意义。HEVC标准编码复杂度大幅度提高的原因在于引入了基于编码单元(Coding Unit,CU)的四叉树划分技术，其过程占据80％的编码时间。在HEVC测试模型HM16.5中，基于CU的四叉树划分技术分两步进行：①遍历所有可能的四叉树划分结构；②针对不同的四叉树划分结构进行率失真优化(Rate Distortion Optimization，RDO)的计算。其中CU有64x64，32x32，16x16，8x8四种尺寸，在前三种尺寸上都需要考虑是否需要进一步向下进行四叉树形式划分，其划分结构见附图2。HEVC中的CU确定方法虽然极大程度上提高了比特资源的利用效率，提高了视频画面质量，但忽略了这一过程在实际应用中由于引入遍历过程以及复杂RDO计算过程，导致的时间成本激增。若能学习到大量已编码视频的深度特征表达方式，并依此来预判编码单元划分，则会避免了大量不必要的计算时间开销。

发明内容

本发明的目的是提供一种基于深度特征表达与学习的HEVC帧内快速编码方法，通过深度卷积神经网络的强大特征表达与自我学习能力，加之利用帧内编码流程的先验信息，实现对于编码单元的四叉树划分结构的快速预测。在保证视频编码质量基本不变的前提下，降低了HEVC的编码复杂度，减少视频编码所需时间成本，缓解编码质量与编码速度之间的矛盾，提高HEVC的编码效率。

为实现上述目的，本发明采用如下的技术方案：

一种基于深度特征表达与学习的HEVC快速编码方法，包括以下步骤：

第一步：构建CU划分表征矢量预测网络；

CU划分表征特征矢量预测网络结构分为三个级别，分别对应于CU尺寸为64×64，32×32，16×16是否需要的预测的特征表达学习。其中整体特征由统一的卷积层1、卷积层2、通道注意力机制模块1来实现；在卷积层3回归三个层次各自深度特征表达的学习，并依次分别经过各级别的通道注意力机制模块2，以及三个全连接层。其中每个卷积层和通道注意力机制模块后面还均包含了批归一化层和非线性激活函数层。

进一步地，卷积层起到提取特征和降采样的作用，能够充分体现是针对编码单元划分表征矢量所设计的特征提取网络，卷积层采用了偶数边长的卷积核，进行步长即步进距离的卷积操作，同时取消了填充操作。这样可避免偶数边长的卷积核难以进行对称的填充操作，也使得降采样的特征图的感受野尺寸与编码单元划分尺寸相对应，提升模型的适配性。

进一步地，通道注意力机制模块起到了加强不同特征通道对于关键信息描述的差异性的作用，对每个通道的重要性进行额外的权重分配处理，使得网络模型能够考虑空间和通道信息，而非对两种信息进行割裂的处理，从而提高了网络模型的拟合能力。

进一步地，全连接层用于最后深度特征的直接表达，在此过程中将归一化的量化参数(Quantization Parameter,QP)也引入到全连接网络中，以数值的形式，拼接在全连接层的预测矢量上，实现QP在网络中的非线性融合。同时考虑各级别信息由于具有高度的传承性，所以各层的预测过程不能割裂的看待。所以引入特征传递机制，将小尺寸CU级别的第二层全连接层的特征向大一级别的第二层全连接层进行传递，进行行有效拼接，来实现该大级别CU的划分结果预测。此外，网络设计中使用Leaky-ReLU激活函数代替传统ReLU函数，解决了当输入为负值时，神经元不能更新参数的问题。

第二步：训练CU划分表征矢量预测模型；

训练编码单元划分表征矢量预测模型的具体步骤为：通过大量图片视频序列构建数据集，并将数据集划分为训练集、验证集和测试集；设计相应损失函数；将训练集的数据用于的模型初始学习，并使用验证集来调整超参数，最后通过测试集检验模型效果。

进一步地，通过大量图片视频序列构建数据集：在HEVC标准程序中按照不同QP进行编码，记录CU亮度的归一化数据，QP信息以及不同级别的划分结果。进一步地，将数据集划分为训练集、验证集和测试集并进行标准化处理的步骤为：以17：1：2的比例将数据集划分为训练集、验证集和测试集。

进一步地，设计相应损失函数时采用下面CU划分结构预测网络的成本函数J作为损失函数：

其中α₁，α₂和α₃是控制每级别对于CU划分结构贡献的权值，与CU划分过程中QP密切相关，th₀和th₁为判别在CU尺寸为64×64，32×32时是否划分的阈值，其中y_n表示对应于

中第n个位置划分标识符的真实值。在此过程中，充分参考到获得CU划分矢量的实际意义，在损失函数中体现了对于大尺寸CU是否划分的思考，使得不同深度层的编码单元信息在递进的特征学习中得到参数共享。这种方式可以提高编码单元信息的利用率，并提升CU划分特征矢量的表达能力。

进一步地，在模型训练中使用Adam优化算法进行参数优化，并设置初始学习率为0.0003、0.9的一阶矩估计的指数衰减率和0.999的二阶矩估计的指数衰减率为默认超参数，同时采用学习率衰减和Dropout优化技术避免模型过拟。

第三步：获取待划分编码单元视频信息并进行标准化处理；

将需要进行判别的编码单元视频信息进行标准化处理：从YUV格式的视频序列中提取出来的亮度信息进行归一化操作，最后按照训练模型中编码单元的划分尺寸进行从左到右，从上到下的依次划分。

第四步：将处理后的数据输入到训练后的编码单元划分表征矢量预测网络，网络模型的输出的矢量依次为编码单元从大到小，位置从左到右，从上到下的划分标识量，其数值通过与阈值的比较(大于等于阈值判别为划分，小于阈值判别为不划分)得到编码单元划分表征矢量的最终结果。此外，大编码单元预测结果为不划分时，则不考虑其涵盖的子编码单元是否还需划分。其数值为编码单元划分表征矢量的最终结果；

第五步：进行编码流程后续的变化、量化、环路滤波、熵编码等编码流程，最终输出视频编码码流。

本发明的有益效果是，充分考虑了视频编码流程中由于引入四叉树划分技术造成编码复杂度高的问题，提出将深度学习的思想引入到视频编码的编码单元划分过程中，进而使得在保证视频编码质量基本不变的前提下，降低了视频编码的编码复杂度，对提升视频编码速度以及提高HEVC编码标准在目前多媒体设备上的应用有着重要意义，具体表现在:

1.本发明针对目前视频编码过程中的编码单元划分特性和流程，提出将深度学习的思想有针对性的引入到编码单元划分过程中，能够降低视频编码的编码复杂度。

2.本发明在深度卷积神经网络模型构建过程中通过融合注意力机制、特征传递机制等思想提升了深度特征的表达性能。

3.本发明在模型构建基础上选择合适的激活函数和优化算法并设计目标损失函数，提高了网络模型对于深度特征的学习能力，提高了模型与编码单元划分特性的契合度。

附图说明

图1是本发明的基于深度特征表达与学习的HEVC帧内快速编码算法的流程示意图；

图2是本发明提供的CU四叉树划分结构示意图；

图3是本发明的CU划分表征矢量预测网络结构示意图；

图4是本发明的通道注意力机制模块结构示意图；

图5是本发明的CU划分表征矢量对应位置示意图；

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

为了降低视频编码的时间代价，本发明考虑利用深度学习方式直接预测视频编码CU划分结构，公开了一种基于深度特征表达与学习的HEVC帧内快速编码方法，流程如图1所示，包括以下步骤：Step1：构建CU划分表征矢量预测网络。Step2：训练CU划分表征矢量预测模型。Step3：获取待划分编码单元视频信息并进行标准化处理。Step4：将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量。Step5：根据编码单元划分表征矢量完成后续编码流程，最终输出视频编码码流。

对于Step1：构建CU划分表征矢量预测网络。

在本发明中，CU划分表征特征矢量预测网络结构示意图如图3所示，其具体网络参数如表1所示。网络可分为三个级别，分别对应于CU尺寸为64×64，32×32，16×16是否需要的预测的特征表达学习。其中整体特征由统一的卷积层1、卷积层2、通道注意力机制模块1来实现；在卷积层3回归三个层次各自深度特征表达的学习，并依次分别经过各级别的通道注意力机制模块2，以及三个全连接层。

卷积层1：CU划分表征矢量网络的输入层采用4*4大小的卷积核，步长为4，不进行填充操作，输出为16个通道，其目的是将输入数据在下采样的过程中保持一个较高的感受野。

卷积层2：在此层网络中采用2*2大小的卷积核，步长为2，不进行填充操作，输出为16个通道，其目的是将CU划分结构的先验信息耦合进去。与此同时，多层的卷积学习将有利于深度特征的表达性能，但考虑到复杂的网络结构会加大编码负担，所以前向只有2层卷积层。

通道注意力机制模块1：通道注意力机制模块结构如图4所示。其依对输入张量的通道进行建模，使用16*16卷积代替全局平均池化，将输入的张量压缩为一个反映通道信息的权重向量，向量中的每个元素代表了通道的全局信息，再经过一个全连接网络对获取每个通道的权重进行重新分配，并将重新分配的权重返回给每个通道，最后进行批归一化处理。由此，对网络贡献大的通道将获得更高的权重，对网络贡献小的通道则获得较小的权重，如此可以加强不同特征通道对于关键信息描述的差异性的作用，对每个通道的重要性进行额外的权重分配处理，使得网络模型能够考虑空间和通道信息，而非对两种信息进行割裂的处理，从而提高了网络模型的拟合能力后面添加的批归一化处理是为了将数据尽量约束在一个独立同分布的假设下，加快网络的收敛速度。

卷积层3：针对不同CU划分深度进一步强化深度特征的表达。在该层使用的是2*2大小的卷积核，边长为2，不采取填充操作，其中大尺寸CU深度特征是由其临近小尺寸CU深度特征卷积获得，得多的特征图在感受野上与CU划分大小相对应，其原因在于经过降分辨率卷积的次数越多，所能表达的结构特征越复杂，其特征也越能够反映全局特征，也就对于大尺寸的CU具有更好地描述效果。

通道注意力机制模块2：通道注意力机制模块结构如图4所示。其结构与功能的通道注意力机制模块相同，但该模块的卷积核尺寸与输入该模块的卷积特征尺寸相同，目的是强化不同CU尺寸深度特征的表达。

全连接层：CU划分表征矢量预测网络最后是三层的全连接层。在此过程中将归一化的量化参数(Quantization Parameter,QP)也引入到全连接网络中，以数值的形式，拼接在全连接层的预测矢量上，实现QP在网络中的非线性融合。同时考虑各级别信息由于具有高度的传承性，所以各层的预测过程不能割裂的看待。所以引入特征传递机制，将小尺寸CU级别的第二层全连接层的特征向大一级别的第二层全连接层进行传递，进行行有效拼接，来实现该大级别CU的划分结果预测。此外，网络设计中使用Leaky-ReLU激活函数代替传统ReLU函数，解决了当输入为负值时，神经元不能更新参数的问题，同时它将高维向量映射到给定类别的低维向量中，每个元素的值代表CU在该尺寸对应位置上的拟合数值，其中大于0.5判定为划分，小于0.5判定为不划分。

对于Step2：训练CU划分表征矢量预测模型。

通过大量图片视频序列构建数据集，并将数据集划分为训练集、验证集和测试集是指在HEVC标准程序中按照不同QP进行编码，记录CU亮度的归一化数据，QP信息以及不同级别的划分结果。这是由于亮度分量相比于色度信息包含了更多的视觉信息，所以只利用亮度信息可在不影响网络质量的同时有效减少后续特征提取难度。同时，因为量化参数QP作为影响视频编码质量的重要参数，不同的QP的设定，对于最后CU划分结构影响重大，所需要区别记录，提高网络对于不同QP的泛化性能。并将数据集划分为训练集、验证集和测试集是为了便于调整网络超参数并便于准确的评估网络性能。

设计相应损失函数是指采用下面CU划分结构预测网络的成本函数J作为损失函数来约束网络训练过程：

将训练集的数据用于的模型初始学习，具体步骤为在模型训练中使用Adam优化算法进行参数优化，并设置初始学习率为0.0003、0.9的一阶矩估计的指数衰减率和0.999的二阶矩估计的指数衰减率为默认超参数，同时采用学习率衰减和Dropout优化技术避免模型过拟。训练期间，使用验证集调整迭代次数、数据批次等超参数，当网络的损失不再下降后，使用测试集来评估网络的性能。

在对于Step3：获取待划分编码单元视频信息并进行标准化处理；

CU划分表征矢量预测网络处理的是视频中CU尺寸大小为64*64的亮度信息，因此将需要对待划分编码单元视频信息进行标准化处理：从YUV格式的视频序列中提取出来的亮度信息进行归一化操作，最后按照训练模型中编码单元的划分尺寸进行从左到右，从上到下的依次划分。

对于Step4：将处理后的数据输入到训练好的CU划分表征矢量预测网络并输出编码单元划分表征矢量。

处理后的数据输入到训练好的编码单元划分表征矢量预测网络，网络模型的输出为一个21维向量，其21维依次为编码单元从大到小，位置从左到右，从上到下的划分标识量，其位置关系如附图5所示，其数值通过与阈值0.5的比较(大于等于阈值0.5判别为划分，小于阈值0.5判别为不划分)得到编码单元划分表征矢量的最终结果。此外，大编码单元预测结果为不划分时，则不考虑其涵盖的子编码单元是否还需划分。其数值为编码单元划分表征矢量的最终结果；

对于Step5：根据编码单元划分表征矢量完成后续编码流程，最终输出视频编码码流。

依据编码单元划分表征矢量完成CU划分过程，并进行编码流程后续的变化、量化、环路滤波、熵编码等编码流程，最终输出视频编码码流。

本发明基于深度特征表达与学习的HEVC帧内快速编码方法与HEVC(HM16.5)四叉树划分方法进行比较，编码性能统计结果见表2。

编码环境配置为：

HEVC国际标准编码算法版本HM16.5，

量化步长QP：分别选取22，27，32，37；

编码模式：帧内编码；

LCU尺寸：64×64；

编码长度：50帧；

标准测试序列：选取4种不同分辨率下(416×240、832×480、1280×720、1920×1080、2560×1600)的8种国际标准测试序列(PeopleOnStreeet,Traffic,Cactus,ParkScene,BQMall,RaceHorses,BasketballPass,BlowingBubbles)；

编码性能统计方法：采用国际通用标准BDPSNR(

delta Peak Signalto Noise Ratio,BDBR)衡量编码率失真性能，用ΔT表示复杂度的降低程度，ΔT的计算公式如下：

其中，T_Proposed为实际编码时间，T_HM-16.5为HM16.5编码时间。

表1统计结果表明，实验结果表明，在不影响视频编码质量的前提下，本文所提算法有效地降低了HEVC的编码复杂度，与原始方法相比，在标准测试序列上编码复杂度平均下降了70.96％。以上实验统计数据证明了本发明提出的基于深度特征表达与学习的HEVC帧内快速编码算法的合理性和有效性。

表1 CU划分表征矢量预测网络参数表

注：级别1，2，3分别对应CU大小为16×16，32×32，64×64划分矢量的级别。

表2本发明方法与HEVC(HM16.5)的编码性能比较

注：

为本发明与HM16.5在QP＝22，27，32，37编码下ΔT的均值。

Claims

1.一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，包括以下步骤：

构建CU划分表征矢量预测网络；

训练CU划分表征矢量预测模型；

获取待划分编码单元视频信息并进行标准化处理；

将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量；

根据编码单元划分表征矢量完成后续编码流程，最终输出视频编码码流。

2.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法法，其特征在于，

所述CU划分表征矢量预测网络从3个级别出发，包括从全局角度出发的前两个卷积层和第一层通道注意力机制模块；以及在此之后，回归三个层次各自深度特征表达的学习，包含3个级别各自的通道注意力机制模块及3层全连接层。

3.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，CU划分表征矢量预测网络中，所用卷积层采用偶数边长的卷积核，步长和边长保持一致，不进行填充操作，使得降采样的特征图的感受野尺寸与编码单元划分尺寸相对应，提升模型的适配性。

4.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，CU划分表征矢量预测网络中，所用通道注意力机制模块包括一个卷积核尺寸与输入该模块的卷积特征尺寸相同使用的卷积层，一个全连接网络，一个权重整合层和批归一化处理；

其中，卷积层用于初步通道信息的压缩；

全连接网络用于对获取每个通道的权重进行重新分配，加强不同特征通道对于关键信息描述的差异性的作用；

权重整合层用于对每个通道的重要性进行额外的权重分配处理；

批归一化处理用于将数据尽量约束在一个独立同分布的假设下，加快网络的收敛速度。

5.根据权利要求2所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，CU划分表征矢量预测网络中，所述CU划分表征矢量预测网络的全连接层是将归一化的量化参数QP以归一化数值的形式拼接在全连接层的预测矢量上，并引入特征传递机制，将小尺寸CU级别的全连接层的特征向大一级别的全连接层进行传递，将各层的预测过程整体看待；非线性激活层使用了高性能的Leaky-ReLU激活。

6.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，，其特征在于，

训练所述CU划分表征矢量预测网络的具体方法为：

通过大量图片视频序列构建数据集，并将数据集划分为训练集、验证集和测试集；

设计相应损失函数；

将训练集的数据用于的模型初始学习，并使用验证集来调整超参数，最后通过测试集检验模型效果。

7.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，训练所述CU划分表征矢量预测网络的具体方法，通过大量图片视频序列构建数据集，并将数据集划分为训练集、验证集和测试集的具体方法为：

在HEVC标准程序HM16.5中按照不同QP对图片视频序列进行编码，记录CU亮度的归一化数据，QP信息以及不同级别的划分结果，构成数据集；并以17：1：2的比例将数据集划分为训练集、验证集和测试集。

8.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，训练所述CU划分表征矢量预测网络的具体方法，设计相应损失函数的具体方法为：

采用下面CU划分结构预测网络的成本函数J作为损失函数来约束网络训练过程：

中第n个位置划分标识符的真实值；在此过程中，参考CU划分矢量的实际意义，体现了对于大尺寸CU是否划分的思考，使不同深度层的编码单元信息在递进的特征学习中得到参数共享。

9.根据权利要求6所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，训练所述CU划分表征矢量预测网络的具体方法，将训练集的数据用于的模型初始学习，并使用验证集来调整超参数，最后通过测试集检验模型效果的具体方法为：

将训练集的数据用于的模型初始学习，其过程使用Adam优化算法进行参数优化，采用学习率衰减和Dropout优化技术避免模型过拟；训练期间，使用验证集调整迭代次数、数据批次等超参数，当网络的损失不再下降后，使用测试集来评估网络的性能。

10.根据权利要求1所述的一种基于深度特征表达与学习的HEVC帧内快速编码方法，其特征在于，，其特征在于：

所述获取待划分编码单元视频信息并进行标准化处理是从YUV格式的视频序列中提取出来的亮度信息进行归一化操作，最后按照训练模型中编码单元的划分尺寸进行从左到右，从上到下的依次划分；

将处理后的数据输入到训练后的CU划分表征矢量预测网络并输出编码单元划分表征矢量的具体方法为:

处理后的数据输入到训练好的编码单元划分表征矢量预测网络，网络模型的针对每个CU输出为一个包含编码单元大小及位置信息的划分标识量，其数值通过与阈值的比较得到编码单元划分表征矢量的最终结果；此外，若大尺寸编码单元预测结果为不划分时，则不考虑其涵盖的子编码单元是否还需划分；其数值为编码单元划分表征矢量的最终结果；

所述根据编码单元划分表征矢量完成后续编码流程，最终输出视频编码码流的具体方法为：

依据编码单元划分表征矢量完成CU划分过程，并进行编码流程后续的变化、量化、环路滤波、熵编码编码流程，最终输出视频编码码流。