CN112702599B

CN112702599B - 一种基于深度学习的vvc帧内快速编码方法

Info

Publication number: CN112702599B
Application number: CN202011552183.XA
Authority: CN
Inventors: 陈芬; 彭双; 邹文辉; 彭宗举; 崔鑫
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-05-20
Anticipated expiration: 2040-12-24
Also published as: CN112702599A

Abstract

本发明公开了一种基于深度学习的VVC帧内快速编码方法，包括，在VVC编码过程中，获取亮度编码块及量化参数；将亮度编码块及量化参数输入到考虑非对称卷积和注意力感知的深度学习模型中，得到预测向量，以各划分模式为最优快速划分模式的预测概率作为预测向量中的元素；基于预测向量确定保留的划分模式；基于保留划分模式进行VVC帧内快速划分。与现有技术相比，本发明在VVC帧内快速编码过程中，大幅降低了编码复杂度，提高了算法的稳定性，保证了划分结果的准确性。

Description

一种基于深度学习的VVC帧内快速编码方法

技术领域

本发明涉及VVC领域，具体涉及一种基于深度学习的VVC帧内快速编码方法。

背景技术

随着超高清、高动态、宽色域和全景视频等技术的出现，高效视频编码(HighEfficiency Video Coding,HEVC)的压缩效率明显不足，因而多功能视频编码(VersatileVideo Coding,VVC)近年被提出。VVC采用了嵌套多类树的四叉树(Quadtree with nestedMulti-type Tree,QTMT)划分结构，划分出的编码单元(Coding Unit,CU)能很好地适应图像内容。在划分过程中，编码树(Coding tree Unit,CTU)作为根节点，按照四叉树(Quadtree,QT)进行划分；然后在QT叶节点按多类树(Multi-type Tree,MT)递归地进行划分。其中，MT包括了四种划分模式，分别为水平二叉树(Horizontalbinary tree,HB)、垂直二叉树(Verticalbinary tree,VB)、水平三叉树(Horizontal ternary tree,HT)以及垂直三叉树(Vertical ternarytree,VT)划分。

灵活的QTMT划分结构极大地提高了编码效率。与HEVC相比，在相同的主观质量条件下，VVC的压缩效率提升约50％。在VCC编码中，为了得到最优的性能，编码器需要遍历所有的可用划分模式，并且对划分出的CU进行率失真优化，这导致了编码复杂度急剧增加。在帧内配置模式下，VVC编码复杂度约为HEVC的18倍。此外，与之前编码标准中帧内编码复杂度远低于帧间编码不同，VVC中帧内编码复杂度却高于帧间编码，前者约为后者的1.3倍。因此，降低VVC帧内编码复杂度对实现其实时编码具有重要意义。

快速帧内划分方法的核心在于保留最优模式的同时去除非最优模式。目前，面向HEVC中QT划分结构的快速方法研究较为广泛，多数将QT划分结构建模为二分类问题，通过统计或机器学习的二分类模型对当前CU是否划分进行决策。然而，VVC的划分结构更加复杂，除了五种划分模式外，还包括不划分(No-Split，NS)模式，因此难以将HEVC中的快速划分方法直接应用于VVC。对于VVC快速划分方法，受到HEVC快速算法的启发，不少研究将QTMT划分结构决策建模为多级二分类问题，逐个地决策是否跳过该模式。此外，QTMT划分结构具有明显的方向特征，因此一些研究根据编码的中间信息或手动提取特征来跳过水平划分或垂直划分。虽然上述方法在一定程度上能降低VVC帧内编码复杂度，但是存在以下不足：(1)仅跳过部分模式，编码复杂度节省有限；(2)在统计和传统机器学习模型中，手动提取特征的方式容易受人为影响。

综上所述，如何在VVC帧内快速编码过程中，大幅降低复杂度以及避免人为因素干扰，成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术中存在的不足，本发明实际解决的问题是：在VVC帧内快速编码过程中，大幅降低复杂度以及避免人为因素干扰。

为解决上述技术问题。本发明采用了如下技术方案：

一种基于深度学习的VVC帧内快速编码方法，包括如下步骤：

S1、在VVC编码过程中，获取亮度编码块及量化参数；

S2、将亮度编码块及量化参数输入到考虑非对称卷积和注意力感知的深度学习模型中，得到预测向量，以各划分模式为最优快速划分模式的预测概率作为预测向量中的元素；

S3、基于预测向量确定保留的划分模式；

S4、基于保留快速划分模式进行VVC帧内快速划分。

优选地，所述考虑非对称卷积和注意力感知的深度学习模型包括数据输入模块、数据预处理模块、特征提取模块、特征拟合模块以及预测输出模块，其中：

数据输入模块用于读取亮度编码块及量化参数；

数据预处理模块用于将亮度编码块通过三次插值的方式缩放，并进行零均值归一化处理；

特征提取模块包括非对称卷积单元及注意力感知单元；非对称卷积单元包括第一卷积分支B1、第二卷积分支B2以及第三卷积分支B3，第一分支B1级联了三层卷积层，分别为B1L1、B1L2以及B1L3，第二分支B2级联了三层卷积层，分别为B2L1、B2L2以及B2L3，第三分支B3级联了三层卷积层，分别为B3L1、B3L2以及B3L3；注意力感知单元包括九个注意力子单元，分别为A11、A12、A13、A21、A22、A23、A31、A32以及A33；注意力感知单元包括了感知子单元，感知子单元包括第一输入层、第一隐藏层和第一输出层，第一输入层用于将归一化处理后的亮度编码块展开为一维向量并拼接量化参数组成输入向量AV1，第一隐藏层为级联的两层全连接层，用于连接层间的结果拼接量化参数组成中间向量AV2，第一输出层用于输出softmax函数激活后的向量AV3；卷积层B1L1输入为归一化处理后的亮度编码块，输出为卷积结果与A11输出结果的乘积，卷积层B1L2输入为B1L1的输出，输出为卷积结果与A12输出结果的乘积，卷积层B1L3输入为B1L2的输出，输出为卷积结果与A13输出结果的乘积，卷积层B2L1输入为预处理LCB，输出为卷积结果与A21输出结果的乘积，卷积层B2L2输入为B2L1的输出，输出为卷积结果与A22输出结果的乘积，卷积层B2L3输入为B2L2的输出，输出为卷积结果与A23输出结果的乘积，卷积层B3L1输入为预处理LCB，输出为卷积结果与A31输出结果的乘积，卷积层B3L2输入为B3L1的输出，输出为卷积结果与A32输出结果的乘积，卷积层B3L3输入为B3L2的输出，输出为卷积结果与A33输出结果的乘积；

特征拟合模块包括第二输入层、第二隐藏层、第二输出层，第二输入层用于将B1L3、B2L3以及B3L3的输出展开拼接为一维向量，并拼接量化参数组成输入向量LV1，第二隐藏层为级联的三层全连接层，用于连接层间的结果分别拼接量化参数组成中间向量LV2和LV3，第二输出层用于输出softmax函数激活的输出向量LV4；

预测输出模块用于将激活后的输出向量LV4作为预测向量输出。

优选地，对非对称卷积和注意力感知的深度学习模型的训练方法包括：

通过VVC参考软件VTM对部分序列进行正常编码，保存亮度编码块及量化参数，构建数据集，利用数据集训对非对称卷积和注意力感知的深度学习模型进行训练。

优选地，通过VVC参考软件VTM对部分序列进行正常编码时，编码配置为标准测试条件下的全帧内编码；部分序列为标准测试序列中A1、A2、B、C、D和E类的典型序列，包括Campfire、ParkRunning3、Cactus、BQMall、BasketballPass和Johnny。

优选地，训练过程采用10倍交叉验证进行测试；epoch次数为200；batch大小为16；学习率初始值为0.001，采用指数衰减，衰减率0.95，衰减步长10；优化器采用随机梯度下降；损失函数为模型输出与标签的交叉熵。

优选地，预测向量p＝{p₀,p₁,p₂,p₃,p₄,p₅}表示快速划分模式列表ML＝{NS,QT,HB,VB,HT,VT}中各快速划分模式为最优模式的预测概率，各预测概率之和为1；步骤S3包括：

S301、根据p对ML进行降序排序：

(L,p′)＝Sort(ML,p)

式中，L和p′分别为排序后的快速划分模式列表和预测向量，Sort(·)为降序排序算子；

S302、根据保留模式数目值n，基于下式确定保留的快速划分模式：

L′＝{L_i|1≤i≤n}

式中，L_i为L中第i个元素，L′为保留的快速划分模式组成的列表。

优选地，保留模式数目值n的计算方法如下：

基于下式逐项累加p′，并根据阈值

决定保留模式数目值n：

式中，x为可保留模式数量，p′_k为p′中第k个元素；

基于下式求解阈值

式中，ω为平衡因子，μ,a,b,c,d均为与训练模型和序列相关的参数，通过编码序列第一帧获取。

综上所述，本发明与现有技术相比，具有以下技术优势：

(1)针对现有技术中仅跳过部分模式，编码时间节省有限的问题，本发明跳过更多的划分模式，从而节省更多的时间。

(2)针对现有技术中在统计和传统机器学习模型中，手动提取特征的方式容易受人为影响的问题，本发明基于深度学习的方法可以避免人为因素的影响。

(3)本发明中采用的深度学习模型考虑了非对称卷积和注意力感知，非对称卷积能适应VVC中非方形划分，提高特征提取能力；注意力感知可以自适应地分配特征权重，提升模型容量和稳定性。

(4)针对现有技术中将模式决策建模为分类问题，不易于控制性能损失的问题，本发明采用的率失真复杂度函数，能够控制率失真性能。

附图说明

图1为公开的一种基于深度学习的VVC帧内快速编码方法的流程图；

图2为本发明所提出的考虑非对称卷积和注意力感知的深度学习模型的示意图；

图3为本发明所提出的考虑非对称卷积和注意力感知的深度学习模型中的注意力模块的示意图；

图4为准确率随阈值的分布示意图；

图5为模式数量随阈值的分布示意图；

图6(a)和(b)分别为在序列RitualDance和PartyScene上，本发明方法与现有技术中测试平台率失真性能曲线的对比。

具体实施方式

下面结合附图对本发明进一步的详细说明。

如图1所示，一种基于深度学习的VVC帧内快速编码方法，包括如下步骤：

S1、在VVC编码过程中，获取亮度编码块及量化参数；

S3、基于预测向量确定保留的划分模式；

S4、基于保留划分模式进行VVC帧内快速划分。

在本发明中，基于深度学习模型来自动提取特征，与统计和传统机器学习模型中手动提取特征的方式相比，效率更高，并且不易受到人为因素的影响，能够保证输出预测向量的准确性，进而保证了划分结果的准确性。此外，在VVC中MT划分产生的编码块为非方形，非对称卷积比对称卷积能更有效地提取非方形编码块特征，因此结合非对称卷积可以更好地适应MT划分。与普通方法的等值特征权重相比，注意力感知单元实现了特征权重自适应地分配，既增强了重要特征的权重，又消除了特征间冗余，有效地提升了模型的容量和稳定性。

如图2所示，具体实施时，所述考虑非对称卷积和注意力感知的深度学习模型包括数据输入模块、数据预处理模块、特征提取模块、特征拟合模块以及预测输出模块，其中：

数据输入模块用于读取亮度编码块及量化参数；

数据预处理模块用于将亮度编码块通过三次插值的方式缩放(可缩放至32×32)，并进行零均值归一化处理；

特征提取模块包括非对称卷积单元及注意力感知单元；非对称卷积单元包括第一卷积分支B1、第二卷积分支B2以及第三卷积分支B3，第一分支B1级联了三层卷积层，分别为B1L1、B1L2以及B1L3，卷积核大小可分别为4×2、2×1和2×1，卷积核个数分别为16、24和32；第二分支B2级联了三层卷积层，分别为B2L1、B2L2以及B2L3，卷积核大小可分别为4×4、2×2和2×2，卷积核个数分别为16、24和32；第三分支B3级联了三层卷积层，分别为B3L1、B3L2以及B3L3，卷积核大小可分别为4×4、2×2和2×2，卷积核个数分别为16、24和32；注意力感知单元包括九个注意力子单元，分别为A11、A12、A13、A21、A22、A23、A31、A32以及A33；注意力感知单元还包括感知子单元，感知子单元包括第一输入层、第一隐藏层和第一输出层，如图3所示，第一输入层用于将归一化处理后的亮度编码块展开为一维向量(1×1024)并拼接量化参数组成输入向量AV1，第一隐藏层为级联的两层全连接层，大小可分别为(1024+1)(128和(128+1)(N，其中N为所控制卷积核数，用于连接层间的结果拼接量化参数组成中间向量AV2，第一输出层用于输出softmax函数激活后的向量AV3；卷积层B1L1输入为归一化处理后的亮度编码块，输出为卷积结果与A11输出结果的乘积，卷积层B1L2输入为B1L1的输出，输出为卷积结果与A12输出结果的乘积，卷积层B1L3输入为B1L2的输出，输出为卷积结果与A13输出结果的乘积，卷积层B2L1输入为预处理LCB，输出为卷积结果与A21输出结果的乘积，卷积层B2L2输入为B2L1的输出，输出为卷积结果与A22输出结果的乘积，卷积层B2L3输入为B2L2的输出，输出为卷积结果与A23输出结果的乘积，卷积层B3L1输入为预处理LCB，输出为卷积结果与A31输出结果的乘积，卷积层B3L2输入为B3L1的输出，输出为卷积结果与A32输出结果的乘积，卷积层B3L3输入为B3L2的输出，输出为卷积结果与A33输出结果的乘积；

特征拟合模块包括第二输入层、第二隐藏层、第二输出层，第二输入层用于将B1L3、B2L3以及B3L3的输出展开拼接为一维向量(1×2176)，并拼接量化参数组成输入向量LV1，第二隐藏层为级联的三层全连接层，大小可分别为(2176+1)×128、(128+1)×96和(96+1)×6，用于连接层间的结果分别拼接量化参数组成中间向量LV2和LV3，第二输出层用于输出softmax函数激活的输出向量LV4；

本发明中采用的深度学习模型考虑了非对称卷积和注意力感知，非对称卷积能适应VVC中非方形划分，提高特征提取能力；注意力感知可以自适应地分配特征权重，提升模型容量和稳定性。

具体实施时，对非对称卷积和注意力感知的深度学习模型的训练方法包括：

通过VVC参考软件VTM对部分序列进行正常编码，保存亮度编码块(Luma CodingBlock，LCB)及量化参数(Quantization Parameter，QP)，构建数据集，利用数据集训对非对称卷积和注意力感知的深度学习模型进行训练。

具体实施时，通过VVC参考软件VTM对部分序列进行正常编码时，编码配置为标准测试条件下的全帧内编码；部分序列为标准测试序列中A1、A2、B、C、D和E类的典型序列，包括Campfire、ParkRunning3、Cactus、BQMall、BasketballPass和Johnny。

本发明中，可采用VTM7.0编码平台，LCB为CU的亮度编码块，CU的大小仅包括32×32和16×16；QP包括22、27、32和37；划分结果采用one-hot编码，0表示NS模式，1表示QT模式，2表示HB模式，3表示VB模式，4表示HT模式，5表示VT模式；数据集从每个序列中选取60000个样本，大小为32×32和16×16的LCB各30000个，样本由LCB和QP组成，标签为对应划分结果，总样本数量为60000×6×4＝1440000。通过建立样本数据集，能有效地训练模型。

具体实施时，训练过程采用10倍交叉验证进行测试；epoch次数为200；batch大小为16；学习率初始值为0.001，采用指数衰减，衰减率0.95，衰减步长10；优化器采用随机梯度下降；损失函数为模型输出与标签的交叉熵。

具体实施时，预测向量p＝{p₀,p₁,p₂,p₃,p₄,p₅}表示快速划分模式列表ML＝{NS,QT,HB,VB,HT,VT}中各快速划分模式为最优模式的预测概率,各预测概率之和为1；步骤S3包括：

S301、根据p对ML进行降序排序：

(L,p′)＝Sort(ML,p)

L′＝{L_i|1≤i≤n}

具体实施时，保留模式数目值n的计算方法如下：

基于下式逐项累加p′，并根据阈值

决定保留模式数目值n：

式中，x为可保留模式数量，p′_k为p′中第k个元素；

基于下式求解阈值

本发明中，预测准确率α为保留划分模式中包含了最优模式的编码块数量除以总编码块数量，率失真性能通过α衡量，α越大则性能越好；复杂度通过保留模式长度n衡量，n越小则复杂度节省越多。因此，结合率失真性能与复杂度建模了率失真复杂度函数，如下式：

Cost(α,n)＝α-ω·n

式中，ω为率失真性能与复杂度的平衡因子，可用于控制不同档次的编码性能。

α随阈值

的分布如图4所示，α建模为线性函数如下：

n随阈值

的分布如图5所在，n建模为exp2函数如下：

为了验证α和n模型的有效性，对部分序列的拟合系数R-square进行了测试，如表1所示，可见所采用模型拟合效果非常好。

表1R-square

代价函数重写如下：

阈值

求解时，令

即可得到上述的公式

部分序列的参数如表2所示。

表2部分序列参数

本发明为了能有效地平衡编码性能与复杂度节省，建立了率失真复杂度代价函数，在同等编码性能的条件下可以达到最高的复杂度节省或在同等复杂度条件下可以获得最佳的编码性能，同时能提供不同档次的复杂度节省和率失真性能。

为了说明本发明方法的有效性，进行了实际编码测试，并与其他方法进行了对比。在全帧内模式下开展测试，测试档次包括ω＝0.85/1/∞，测试序列共22个，包括了从类A1到类E的6个类，其中A1和A2为10bit超高清序列，类B包括了10bit和8bit高清序列，类C～F为不同分辨率的8bit序列。本发明方法对率失真性能和复杂度节省进行测量，率失真性用BDBR衡量，复杂度节省用平均时间节省ATR衡量，ATR为不同QP下TR的均值，计算式如下：

式中，T_o(i)和T_p(i)分别表示在QP＝i时原始平台和本发明的编码时间，Ω＝{22,27,32,37}。

如表3所示为本发明方法与其他方法的实验结果对比，‘*’表示构建数据集时采用的序列。此外，表中还给出了BDBR和ATR的标准差STD，其大小可以反映该指标的稳定性。

从表3可知，本发明在略微损失率失真性能的条件下，编码时间节省最大能达到67.83％。同时，被用于训练模型的序列与其他序列的实验结果高度一致，这说明所提出算法具有良好的泛化能力。在ω＝0.85/1/∞不同档次下，本发明方法在不同测试序列下的ATR均值分别达到48.62％、52.93％以及62.01％，性能损失分别为1.05％、1.33％以及2.38％。可见，在不同档次下，ATR和BDBR均可达到较好的平衡，随着档次值的提高，算法更倾向于时间节省，ATR及其稳定性增加，这表明ATR的增加是以牺牲率失真性能及稳定性为代价的。此外，本发明算法对于8bit深度序列的效果优于10bit深度序列，因为10bit深度序列具有更微小的纹理细节。

本发明方法结果与Lei、Yang及Fu的方法结果进行了对比，其中Lei提取编码的中间信息来决定当前编码块的最优划分模式，Yang训练决策树对各划分模式进行逐一决策，Fu训练贝叶斯分类器来决策是否跳过垂直划分模式。对比结果如表3所示。结果表明，在ω＝1时，本发明方法无论是时间节省还是率失真性能均优于Yang的方法。同时，本发明方法在相同时间节省情况下，率失真性能更加稳定，这是因为本发明方法将模式决策建模为回归问题，通过设定阈值来实现划分模式决策，更易于控制时间节省与性能损失之间的平衡。因此，本发明方法可以在节省相同时间的情况下，具有更优的率失真性能。在ω＝0.85时，通过与Lei和Fu算法结果对比可知，在具有相同率失真性能的条件下，本发明方法时间节省更多。Fu的时间节省与序列分辨率相关，分辨率越高时间节省越多，而本文算法除个别序列外均具有更好的时间节省和率失真性能。虽然算法Lei在稳定性和率失真性能上能达到较好的平衡，但时间节省更少。

为了说明本发明方法性能，给出了与原始平台VTM7.0的率失真性对比结果，失真通常用峰值信噪比衡量，码率通常用单位时间产生的千比特数(kbps)衡量。图6(a)为性能损失最大的序列RitualDance的率失真曲线对比，图6(b)为性能损失最小的序列PartyScene的率失真曲线对比。对于RitualDance序列，本发明方法的最大性能损失仍能与原始平台保持一致，对于PartyScene序列，本发明方法与VTM7.0的率失真曲线基本重合，表明本发明方法的性能损失可以忽略不计。因此，本本发明方法能极大地降低编码复杂度，并且性能损失与原始平台基本保持一致。

表3本发明方法与其他方法的实验结果对比

以上仅是本发明优选的实施方式，需指出的是，对于本领域技术人员在不脱离本技术方案的前提下，还可以做若干变形和改进，上述变形和改进的技术方案应同样视为落入本申请要求保护的范围。

Claims

1.一种基于深度学习的VVC帧内快速编码方法，其特征在于，包括如下步骤：

S1、在VVC编码过程中，获取亮度编码块及量化参数；

S3、基于预测向量确定保留的划分模式；预测向量p＝{p₀,p₁,p₂,p₃,p₄,p₅}表示划分模式列表ML＝{NS,QT,HB,VB,HT,VT}中各划分模式为最优模式的预测概率,各模式预测概率之和为1；步骤S3包括：

S301、根据p对ML进行降序排序：

(L,p′)＝Sort(ML,p)

式中，L和p′分别为排序后的划分模式列表和预测向量，Sort(·)为降序排序算子；

L′＝{L_i|1≤i≤n}

式中，L_i为L中第i个元素，L′为保留的快速划分模式组成的列表；

其中，保留模式数目值n的计算方法如下：

基于下式逐项累加p′，并根据阈值

决定保留模式数目值n：

式中，x为可保留模式数量，p′_k为p′中第k个元素；

基于下式求解阈值

式中，ω为平衡因子，μ,a,b,c,d均为与训练模型和序列相关的参数，通过编码序列第一帧获取；

S4、基于保留划分模式进行VVC帧内快速划分。

2.如权利要求1所述的基于深度学习的VVC帧内快速编码方法，其特征在于，所述考虑非对称卷积和注意力感知的深度学习模型包括数据输入模块、数据预处理模块、特征提取模块、特征拟合模块以及预测输出模块，其中：

数据输入模块用于读取亮度编码块及量化参数；

3.如权利要求1所述的基于深度学习的VVC帧内快速编码方法，其特征在于，对非对称卷积和注意力感知的深度学习模型的训练方法包括：

4.如权利要求3所述的基于深度学习的VVC帧内快速编码方法，其特征在于，通过VVC参考软件VTM对部分序列进行正常编码时，编码配置为标准测试条件下的全帧内编码；部分序列为标准测试序列中A1、A2、B、C、D和E类的典型序列，包括Campfire、ParkRunning3、Cactus、BQMall、BasketballPass和Johnny。

5.如权利要求3所述的基于深度学习的VVC帧内快速编码方法，其特征在于，训练过程采用10倍交叉验证进行测试；epoch次数为200；batch大小为16；学习率初始值为0.001，采用指数衰减，衰减率0.95，衰减步长10；优化器采用随机梯度下降；损失函数为模型输出与标签的交叉熵。