CN113365062A

CN113365062A - 一种基于h.266/vvc的分步全零块判决快速算法

Info

Publication number: CN113365062A
Application number: CN202110577832.XA
Authority: CN
Inventors: 牛伟宏; 黄晓峰; 陆宇; 殷海兵
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-07
Anticipated expiration: 2041-05-26
Also published as: CN113365062B

Abstract

本发明属于视频编码领域，公开了一种基于H.266/VVC的分步全零块判决快速算法，包括如下步骤：首先，通过公式推导，得到一个真全零块（G‑AZB）预判决公式，所谓G‑AZB，即经过硬决策量化（HDQ）后为全零的变换块（TU）；然后，对于那些经过HDQ后的非全零块，即伪全零块（P‑AZB），利用基于统计和经验得出的自适应阈值公式实现预判决；最后，对于剩余的一些“狡猾”的P‑AZB，利用机器学习，找寻了8个影响TU变成全零或者非全零块的影响因子，通过离线训练，实现预判决。本发明在保证性能基本不变的前提下，减少了计算复杂度；本发明在新一代视频编码标准VVC上进行，创新度较高。

Description

一种基于H.266/VVC的分步全零块判决快速算法

技术领域

本发明属于视频编码领域，尤其涉及一种基于H.266/VVC的分步全零块判决快速算法。

背景技术

随着时代的发展，视频编码领域发展迅速，新一代视频编码标准Versatile VideoCoding(VVC)应运而生。相比上一代视频编码标准High Efficiency Video Coding(HEVC)，VVC的压缩效率显著提高。从帧内预测模式的角度的增加，到多变换核选择，再到低频不可分离变换以及多种划分模式等等，都为VVC压缩效率的提高奠定了坚实的基础。

如今，已有很多研究以节省时间复杂度为目的，相继在H.264和H.265中在保证性能基本不变的前提下，减少计算复杂度。其中，在量化阶段，主要是通过全零块判决、率失真模型等来加速量化进程。但是，H.264和H.265的压缩效率远远不如VVC，以前这些老套的方法在VVC中因各种新技术的增加而不再适用。

因此，本发明公开一种H.266/VVC分步全零块判决快速算法研究，通过对量化过程中的全零块实现预判决，以此来加速Rate Distortion Optimized Quantization(RDOQ)进程，进而在保证性能基本不变的前提下，减少计算复杂度。

发明内容

本发明目的在于提供一种基于H.266/VVC的分步全零块判决快速算法，以解决新一代视频编码标准VVC的计算复杂度高；一些全零块仍然要进行RDOQ，无法预判决；一些伪全零块(P-AZB)比较“狡猾”，很难检测出来的技术问题。

为解决上述技术问题，本发明的一种基于H.266/VVC的分步全零块判决快速算法的具体技术方案如下：

一种基于H.266/VVC的分步全零块判决快速算法，包括如下步骤：

步骤1：建立G-AZB检测阈值模型；

步骤2：建立P-AZB检测阈值模型；

步骤3：利用机器学习对P-AZB进行检测。

进一步地，步骤1包括如下具体步骤：

在VVC中，死区HDQ为，

f′＝f＜＜Q_bits，

其中，d_ij和l_ij分别代表变换系数和量化系数，Q_step代表量化步长，与量化参数QP的取值有关；f是HDQ中的死区偏移量，与I帧或者P/B帧有关，MF定义为

Q_bits定义为qbits+Tshift，其中

Tshift表示缩放因子。

对于真全零块，每个量化系数都小于1，即，max(|l_ij|)<1，

将l_ij代入，得到，

max((|d_ij|·MF+f′)＞＞Q_bits)<1，

进一步化简，得到，

将上述不等式右端作为G-AZB的检测阈值，即，

只要max(|d_ij|)<ξ₁，就是G-AZB。

进一步地，步骤2包括如下具体步骤：

从变换系数的位置ζ入手，假设一个TU满足不等式

的变换系数位置分别为ζ₁,ζ₂,ζ₃,……，则ζ＝max(ζ₁,ζ₂,ζ₃,……)，对于ζ<ξ₂的TU，就是P-AZB；

使用如下阈值公式进行P-AZB判决，

其中，M表示一个TU中的系数总个数，即M∈{16,32,64,128,256，512,1024,2048,4096}，QP表示量化参数，ε为35。

进一步地，步骤3包括如下具体步骤：

步骤3.1:建立网络结构；

步骤3.2:分析系数级特征；

步骤3.3:选取TU级特征；

步骤3.4:选取上下文级特征。

进一步地，步骤3.1包括如下具体步骤：

机器学习部分使用由两层隐藏层构成的全连接神经网络，第一层隐藏层设置8个节点，第二层隐藏层设置4个节点，输入层即是8个影响因子，输出层设置一个节点，即根据输出值判断全零与否。

进一步地，步骤3.2包括如下具体步骤：

用量化系数l(i,j)等于0或者1的数量来区分全零块和非全零块，如下，

其中，μ₀和μ₁分别代表量化系数|l(i,j)|等于0和等于1的个数，count是一个计数函数，即对满足条件的变量进行计数；对μ₀、μ₁参数进行归一化处理，得到用于全零块判决的第一、二个系数级特征，如下，

其中，α₀和α₁是对μ₀和μ₁进行归一化的结果，Ω表示TU中系数的总个数，即Ω∈(16,32,64,128,256,512,1024,2048)；对于长或者宽等于64的TU块，仅保留左上角低频区域的长或者宽为32的系数，对于其他系数进行“置零”操作，即，

进一步地，步骤3.3包括如下具体步骤：

采用绝对变换系数和作为第一个TU级特征，如下所示，

Φ＝∑_{i,j∈[1,2,4,8,16,32,64]}|c(i,j)|，

其中，c(i,j)代表变换系数；

对于比较小的TU，取低频区域的左上角三个变换系数和作为这个TU的部分能量，然后根据TU的尺寸大小，依次递增一个变换系数，得到不同TU大小的部分能量，如下，

n＝log₂ M-1，

其中，c(P_k)代表在P_k位置的变换系数，k是低频区域与n有关的一个系数索引，M是TU中系数的总个数，n是一个取决于TU尺寸大小的数；然后进行归一化处理，如下，

将β作为第一个用于区分全零和非全零块的TU级特征。

进一步地，步骤3.4包括如下具体步骤：

采用语法元素SIG作为用于区分全零和非全零块的第一个上下文级特征值，取低频区域中P₁、P₂、P₃三个位置的SIG，作为三个上下文级特征；

取TU中左上角低频区域的第一个CG的CSBF作为特征，所选取的CG，如下所示，

将CSBF作为第四个上下文级特征；

将CBF作为第五个上下文级特征。

本发明的一种基于H.266/VVC的分步全零块判决快速算法具有以下优点：

(1)本发明在保证性能基本不变的前提下，减少了计算复杂度；

(2)相比现阶段的一些减少计算复杂度的方法，本发明在新一代视频编码标准VVC上进行，创新度较高。

附图说明

图1为本发明的全零块检测流程图；

图2为本发明的机器学习网络结构图；

图3a为本发明的全零块在QP＝22下预量化系数等于0、等于1和大于1的分布图；

图3b为本发明的全零块在QP＝27下预量化系数等于0、等于1和大于1的分布图；

图3c为本发明的全零块在QP＝32下预量化系数等于0、等于1和大于1的分布图；

图3d为本发明的全零块在QP＝37下预量化系数等于0、等于1和大于1的分布图；

图3e为本发明的非全零块在QP＝22下预量化系数等于0、等于2和大于2的分布图；

图3f为本发明的非全零块在QP＝27下预量化系数等于0、等于2和大于2的分布图；

图3g为本发明的非全零块在QP＝32下预量化系数等于0、等于2和大于2的分布图；

图3h为本发明的非全零块在QP＝37下预量化系数等于0、等于2和大于2的分布图；

图4a为本发明的TU Size＝64时不同QP下全零块和非全零块量化系数归一化均值示意图；

图4b为本发明的TU Size＝128时不同QP下全零块和非全零块量化系数归一化均值示意图；

图4c为本发明的TU Size＝256时不同QP下全零块和非全零块量化系数归一化均值示意图；

图4d为本发明的TU Size＝512时不同QP下全零块和非全零块量化系数归一化均值示意图；

图5为本发明的变换系数位置分布图；

图6a为本发明的TU Size＝64时不同QP下全零块和非全零块部分SATD归一化均值示意图；

图6b为本发明的TU Size＝128时不同QP下全零块和非全零块部分SATD归一化均值示意图；

图6c为本发明的TU Size＝256时不同QP下全零块和非全零块部分SATD归一化均值示意图；

图6d为本发明的TU Size＝512时不同QP下全零块和非全零块部分SATD归一化均值示意图；

图7a为本发明的TU Size＝64时不同QP下全零块和非全零块SIG归一化均值示意图；

图7b为本发明的TU Size＝128时不同QP下全零块和非全零块SIG归一化均值示意图；

图7c为本发明的TU Size＝256时不同QP下全零块和非全零块SIG归一化均值示意图；

图7d为本发明的TU Size＝512时不同QP下全零块和非全零块SIG归一化均值示意图；

图8a为本发明的TU Size＝64时不同QP下全零块和非全零块CSBF归一化均值示意图；

图8b为本发明的TU Size＝128时不同QP下全零块和非全零块CSBF归一化均值示意图；

图8c为本发明的TU Size＝256时不同QP下全零块和非全零块CSBF归一化均值示意图；

图8d为本发明的TU Size＝512时不同QP下全零块和非全零块CSBF归一化均值示意图；

图9a为本发明的TU Size＝64时不同QP下全零块和非全零块CBF归一化均值示意图；

图9b为本发明的TU Size＝128时不同QP下全零块和非全零块CBF归一化均值示意图；

图9c为本发明的TU Size＝256时不同QP下全零块和非全零块CBF归一化均值示意图；

图9d为本发明的TU Size＝512时不同QP下全零块和非全零块CBF归一化均值示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于H.266/VVC的分步全零块判决快速算法做进一步详细的描述。

之前的全零块判决、率失真模型等都是在老一代视频编码标准上进行的；由于新一代视频编码标准VVC新加入了多种新技术，因此，之前的方法已经不再适用。

鉴于此，本发明公开一种H.266/VVC分步全零块判决快速算法，分步对各种全零块进行预判决，进而加速RDOQ进程，在保证性能基本不变的前提下，减少编码器计算复杂度。

如图1所示，本发明主要通过三步来对全零块实现预判决。首先，通过公式推导，得到一个真全零块(G-AZB)预判决公式，所谓G-AZB，即经过硬决策量化(HDQ)后为全零的变换块(TU)；然后，对于那些经过HDQ后的非全零块，即伪全零块(P-AZB)，利用基于统计和经验得出的自适应阈值公式实现预判决；最后，对于剩余的一些“狡猾”的P-AZB，利用机器学习，找寻了8个影响TU变成全零或者非全零块的影响因子，通过离线训练，实现预判决。具体步骤如下：

1.建立G-AZB检测阈值模型

在VVC中，死区HDQ可以描述为，

f′＝f＜＜Q_bits

其中，d_ij和l_ij分别代表变换系数和量化系数，Q_step代表量化步长，与量化参数QP的取值有关。f是HDQ中的死区偏移量，与I帧或者P/B帧有关，MF定义为

Q_bits定义为qbits+Tshift，其中

Tshift表示缩放因子。

G-AZB检测较为容易，说到底，G-AZB就是通过死区HDQ量化为全零的那些块。这一部分主要探索G-AZB检测阈值，通过设定阈值的方法，直接实现G-AZB的预判决。

首先，如上文中提到的死区HDQ公式，考虑到向下取整，因此，只要是小于1的数都会被向下取整为0。这也就是说，对于真全零块，每个量化系数一定是小于1的，即，max(|l_ij|)<1

将l_ij代入，就有，

max((|d_ij|·MF+f′)＞＞Q_bits)<1

进一步化简，就有，

因此，将上面不等式右端作为G-AZB的检测阈值，即，

至此，我们可以仅通过一个TU块的最大变换系数实现对这个TU进行判决，即只要max(|d_ij|)<ξ₁，我们就认定是G-AZB。

2.建立P-AZB检测阈值模型

通过阈值ξ₁已经实现了对G-AZB的检测，接下来，对经过RDOQ后是全零的P-AZB进行检测。首先，对于满足不等式

的TU块来说，经过HDQ会被量化为G-AZB，所以，我们来考虑满足不等式

的TU块，这部分TU块虽然被HDQ量化为非零，但是RDOQ可以将部分TU量化为全零TU，即P-AZB。

因此，从变换系数的位置ζ入手，假设一个TU满足不等式

的变换系数位置分别为ζ₁,ζ₂,ζ₃,……，则ζ＝max(ζ₁,ζ₂,ζ₃,……)，对于ζ<ξ₂的TU，我们认为是P-AZB。

大量实验发现，ζ与TU尺寸成正比，根据经验和统计，使用下面的阈值公式来进行P-AZB判决，

其中，M表示一个TU中的系数总个数，即M∈{16,32,64,128,256,512,1024,2048,4096}，QP表示量化参数，ε根据经验设置为35。

3.利用机器学习对P-AZB进行检测

之前部分已经对相当一部分全零块进行了预判决，主要是利用了阈值分析的方法，其中对G-AZB进行公式推导的固定阈值判决，对P-AZB进行自适应阈值判决。但是，还是会存在少部分P-AZB没法经过自适应阈值进行判决。因此，在这一部分中，通过引入机器学习，以一种更加智能的方式对这些剩余的P-AZB进行判决。对此，找寻了8个影响变换块量化为全零与否的影响因子，这些影响因子涉及系数级、TU级以及上下文级特征。

3.1建立网络结构

机器学习部分使用图2的由两层隐藏层构成的全连接神经网络，第一层隐藏层设置8个节点，第二层隐藏层设置4个节点，输入层即是8个影响因子，输出层设置一个节点，即根据输出值判断全零与否。

3.2分析系数级特征

在这一部分中，主要来分析影响TU判决为全零块或者非全零块的系数级特征。鉴于此，从预量化系数角度入手，首先，全零块的量化系数l(i,j)等于0的情况较多，也有部分全零块的量化系数l(i,j)等于1。非全零块的量化系数l(i,j)等于1的比例要比全零块的大，还有部分非全零块量化系数l(i,j)等于2。如图3a-3h给出了部分TU Size全零块和非全零块的预量化系数分布，其他TU Size的分布也类似，其中图3a～图3d分别是全零块在QP＝22、27、32、37下预量化系数等于0、等于1和大于1的分布情况，图3e-图3h分别是非全零块在QP＝22、27、32、37下预量化系数等于0、等于1、等于2和大于2的分布情况，可以看出，随着QP的增大，量化系数l(i,j)大于1的比例也随之减少。

图4a-4d展示了全零块和非全零块的量化系数l(i,j)等于0和等于1的情况，其中，图4a-图4d分别表示TU Size＝64、128、256、512，可以看出，全零块的量化系数l(i,j)等于0的比例要比非全零块的大，非全零块的量化系数l(i,j)等于1的比例要比全零块的大。

因此，量化系数l(i,j)等于0或者1的数量可以作为一个区分全零块和非全零块的有用的线索，如下，

其中，μ₀和μ₁分别代表量化系数|l(i,j)|等于0和等于1的个数，count是一个计数函数，即对满足条件的变量进行计数。对这两个参数进行归一化处理，可以得到用于全零块判决的第一、二个系数级特征，如下，

其中，α₀和α₁是对μ₀和μ₁进行归一化的结果，Ω表示TU中系数的总个数，即Ω∈(16,32,64,128,256,512,1024，2048)。需要注意的是，由于VVC中新加入了“高频置零”操作，即对于长或者宽等于64的TU块来说，仅仅保留左上角低频区域的长或者宽为32的系数，对于其他系数进行“置零”操作。即，

3.3选取TU级特征

在这一部分中，探索一些影响一个TU块量化成为全零与否的TU级特征。首先，残差块经过变换后能量会集中在TU的左上角低频区域，从这一点出发，采用绝对变换系数和作为第一个TU级特征，如下所示，

其中，c(i，j)代表变换系数。

对于非全零块来说，左上角低频区域的变换系数往往会被量化为非零，各个变换系数的位置分布如图5a-图5d。

在低频区域中，有P₁、P₂、P₃······总共11个变换系数。对于非全零块来说，低频区域的变换系数往往会被量化为非零，也就是说，非全零块的低频区域的变换系数和比全零块位于低频区域的变换系数和要大。

为了代表低频区域的能量，对于像4x4、2x8、1x16这样比较小的TU，取低频区域的左上角三个变换系数和作为这个TU的部分能量，然后根据TU的尺寸大小，依次递增一个变换系数，如尺寸是32的TU取左上角4个变换系数，尺寸是64的TU取左上角5个变换系数，等等以此类推。这样就得到了不同TU大小的部分能量，如下，

n＝log₂ M-1

其中，c(P_k)代表在P_k位置的变换系数，k是低频区域与n有关的一个系数索引，M是TU中系数的总个数，n是一个取决于TU尺寸大小的数。为了精准对比全零块和非全零块在低频区域能量占比情况，对其做归一化处理，如下，

因此，将β作为第一个用于区分全零和非全零块的TU级特征。通过离线模拟，收集了不同QP下不同TU的β的均值，如图6a-6d所示，其中，图6a-图6d分别表示TU Size＝64、128、256、512，可以清晰地看到，非全零块在低频区域的能量占比β要比全零块大。也就是说，β可以作为一个区分全零块和非全零块的特征。

3.4选取上下文级特征

在上一代视频编码标准HEVC中，上下文自适应二进制算术编码(CABAC)基于概率转换表在64种不同的概率状态之间进行转换。而在VVC中，CABAC使用两状态模型，基于两个状态通过公式计算的方式得到下一编码元素极不可能出现的符号(LPS)，与之对应的就是下一编码元素最大可能出现的符号(MPS)，以此来更新上下文并输出二进制符号。

RDOQ中涉及众多的语法元素，本方案只利用了部分语法元素来作为区分全零块和非全零块的特征。首先，当前TU内的某个系数采用LPS符号或者MPS符号进行编码与周围系数有着莫大的关系。基于此，采用语法元素量化系数标识(SIG)作为用于区分全零和非全零块的第一个上下文级特征值。

由于低频区域的变换系数经过RDOQ很难量化为0，高频区域则相反，因此，SIG＝1的情况在低频区域有着非常大的概率作为MPS符号进行编码，与之对应地，SIG＝0的情况在低频区域有着非常大的概率作为LPS符号进行编码。对于非全零块来说，低频区域中SIG一般等于1，而全零块则与之相反。因此，选取语法元素SIG作为区分全零块和非全零块的一个特征是合理的。本方案取低频区域中P₁、P₂、P₃三个位置的SIG，作为三个上下文级特征。图7a-7d给出了全零块和非全零块在三个位置的SIG。其中图7a-图7d分别代表TU Size＝64、128、256、512。

可以看出，全零块的低频区域的SIG的概率与非全零块存在一些差异，这也就印证了之前所提，SIG＝0的情况在低频区域有着非常大的概率作为LPS符号进行编码。

其次，一个TU中当前系数组(CG)是否是全零与周围CG也有关，即选取整个CG的编码标识(CSBF)作为又一特征。类似上面提到的SIG，CSBF＝1的情况在低频区域很大概率作为MPS符号进行编码。也就是说，对于非全零块来说，低频区域中CSBF一般等于1。本方案取TU中左上角低频区域的第一个CG的CSBF作为特征。需要注意的是，由于VVC中TU的划分相比HEVC来说更为复杂，会产生很多类型的不规则TU，因此，所选取的CG并不都是规则的4x4CG，如下所示，

图8a-8d给出了全零块和非全零块在低频区域的CSBF的情况，其中，图8a-图8d分别代表TU Size＝64、128、256、512。可以看出，与SIG类似，全零块的低频区域的CSBF的概率与非全零块存在一些差异。因此，将CSBF作为第四个上下文级特征。

最后，与上面提到的语法元素SIG和CSBF类似，当前TU是否被量化为全零与周围TU有关，即考虑语法元素整个TU的编码标识(CBF)。图9a-9d给出了全零块和非全零块的CBF的概率情况，其中，图9a-图9d分别代表TU SIZE＝64、128、256、512。可以看出，与上面的SIG和CSBF都类似，全零块的CBF的概率与非全零块存在一定差异。因此，将CBF作为第五个上下文级特征。

本方案在机器学习部分输入节点采用以上提到的总共8个特征，第一层隐藏层采用8个节点，第二层隐藏层采用4个节点，输出采用一个节点，即是否大于0.5来进行全零块判决，梯度下降优化方面采用Adam算法优化。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。