CN113365062A - 一种基于h.266/vvc的分步全零块判决快速算法 - Google Patents

一种基于h.266/vvc的分步全零块判决快速算法 Download PDF

Info

Publication number
CN113365062A
CN113365062A CN202110577832.XA CN202110577832A CN113365062A CN 113365062 A CN113365062 A CN 113365062A CN 202110577832 A CN202110577832 A CN 202110577832A CN 113365062 A CN113365062 A CN 113365062A
Authority
CN
China
Prior art keywords
zero
coefficients
vvc
azb
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110577832.XA
Other languages
English (en)
Other versions
CN113365062B (zh
Inventor
牛伟宏
黄晓峰
陆宇
殷海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110577832.XA priority Critical patent/CN113365062B/zh
Publication of CN113365062A publication Critical patent/CN113365062A/zh
Application granted granted Critical
Publication of CN113365062B publication Critical patent/CN113365062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于视频编码领域,公开了一种基于H.266/VVC的分步全零块判决快速算法,包括如下步骤:首先,通过公式推导,得到一个真全零块(G‑AZB)预判决公式,所谓G‑AZB,即经过硬决策量化(HDQ)后为全零的变换块(TU);然后,对于那些经过HDQ后的非全零块,即伪全零块(P‑AZB),利用基于统计和经验得出的自适应阈值公式实现预判决;最后,对于剩余的一些“狡猾”的P‑AZB,利用机器学习,找寻了8个影响TU变成全零或者非全零块的影响因子,通过离线训练,实现预判决。本发明在保证性能基本不变的前提下,减少了计算复杂度;本发明在新一代视频编码标准VVC上进行,创新度较高。

Description

一种基于H.266/VVC的分步全零块判决快速算法
技术领域
本发明属于视频编码领域,尤其涉及一种基于H.266/VVC的分步全零块判决快速算法。
背景技术
随着时代的发展,视频编码领域发展迅速,新一代视频编码标准Versatile VideoCoding(VVC)应运而生。相比上一代视频编码标准High Efficiency Video Coding(HEVC),VVC的压缩效率显著提高。从帧内预测模式的角度的增加,到多变换核选择,再到低频不可分离变换以及多种划分模式等等,都为VVC压缩效率的提高奠定了坚实的基础。
如今,已有很多研究以节省时间复杂度为目的,相继在H.264和H.265中在保证性能基本不变的前提下,减少计算复杂度。其中,在量化阶段,主要是通过全零块判决、率失真模型等来加速量化进程。但是,H.264和H.265的压缩效率远远不如VVC,以前这些老套的方法在VVC中因各种新技术的增加而不再适用。
因此,本发明公开一种H.266/VVC分步全零块判决快速算法研究,通过对量化过程中的全零块实现预判决,以此来加速Rate Distortion Optimized Quantization(RDOQ)进程,进而在保证性能基本不变的前提下,减少计算复杂度。
发明内容
本发明目的在于提供一种基于H.266/VVC的分步全零块判决快速算法,以解决新一代视频编码标准VVC的计算复杂度高;一些全零块仍然要进行RDOQ,无法预判决;一些伪全零块(P-AZB)比较“狡猾”,很难检测出来的技术问题。
为解决上述技术问题,本发明的一种基于H.266/VVC的分步全零块判决快速算法的具体技术方案如下:
一种基于H.266/VVC的分步全零块判决快速算法,包括如下步骤:
步骤1:建立G-AZB检测阈值模型;
步骤2:建立P-AZB检测阈值模型;
步骤3:利用机器学习对P-AZB进行检测。
进一步地,步骤1包括如下具体步骤:
在VVC中,死区HDQ为,
Figure BDA0003084958370000021
f′=f<<Qbits
其中,dij和lij分别代表变换系数和量化系数,Qstep代表量化步长,与量化参数QP的取值有关;f是HDQ中的死区偏移量,与I帧或者P/B帧有关,MF定义为
Figure BDA0003084958370000022
Figure BDA0003084958370000023
Qbits定义为qbits+Tshift,其中
Figure BDA0003084958370000024
Tshift表示缩放因子。
对于真全零块,每个量化系数都小于1,即,max(|lij|)<1,
将lij代入,得到,
max((|dij|·MF+f′)>>Qbits)<1,
进一步化简,得到,
Figure BDA0003084958370000025
将上述不等式右端作为G-AZB的检测阈值,即,
Figure BDA0003084958370000026
只要max(|dij|)<ξ1,就是G-AZB。
进一步地,步骤2包括如下具体步骤:
从变换系数的位置ζ入手,假设一个TU满足不等式
Figure BDA0003084958370000027
的变换系数位置分别为ζ123,……,则ζ=max(ζ123,……),对于ζ<ξ2的TU,就是P-AZB;
使用如下阈值公式进行P-AZB判决,
Figure BDA0003084958370000028
其中,M表示一个TU中的系数总个数,即M∈{16,32,64,128,256,512,1024,2048,4096},QP表示量化参数,ε为35。
进一步地,步骤3包括如下具体步骤:
步骤3.1:建立网络结构;
步骤3.2:分析系数级特征;
步骤3.3:选取TU级特征;
步骤3.4:选取上下文级特征。
进一步地,步骤3.1包括如下具体步骤:
机器学习部分使用由两层隐藏层构成的全连接神经网络,第一层隐藏层设置8个节点,第二层隐藏层设置4个节点,输入层即是8个影响因子,输出层设置一个节点,即根据输出值判断全零与否。
进一步地,步骤3.2包括如下具体步骤:
用量化系数l(i,j)等于0或者1的数量来区分全零块和非全零块,如下,
Figure BDA0003084958370000031
其中,μ0和μ1分别代表量化系数|l(i,j)|等于0和等于1的个数,count是一个计数函数,即对满足条件的变量进行计数;对μ0、μ1参数进行归一化处理,得到用于全零块判决的第一、二个系数级特征,如下,
Figure BDA0003084958370000032
其中,α0和α1是对μ0和μ1进行归一化的结果,Ω表示TU中系数的总个数,即Ω∈(16,32,64,128,256,512,1024,2048);对于长或者宽等于64的TU块,仅保留左上角低频区域的长或者宽为32的系数,对于其他系数进行“置零”操作,即,
Figure BDA0003084958370000041
进一步地,步骤3.3包括如下具体步骤:
采用绝对变换系数和作为第一个TU级特征,如下所示,
Φ=∑i,j∈[1,2,4,8,16,32,64]|c(i,j)|,
其中,c(i,j)代表变换系数;
对于比较小的TU,取低频区域的左上角三个变换系数和作为这个TU的部分能量,然后根据TU的尺寸大小,依次递增一个变换系数,得到不同TU大小的部分能量,如下,
Figure BDA0003084958370000042
n=log2 M-1,
其中,c(Pk)代表在Pk位置的变换系数,k是低频区域与n有关的一个系数索引,M是TU中系数的总个数,n是一个取决于TU尺寸大小的数;然后进行归一化处理,如下,
Figure BDA0003084958370000043
将β作为第一个用于区分全零和非全零块的TU级特征。
进一步地,步骤3.4包括如下具体步骤:
采用语法元素SIG作为用于区分全零和非全零块的第一个上下文级特征值,取低频区域中P1、P2、P3三个位置的SIG,作为三个上下文级特征;
取TU中左上角低频区域的第一个CG的CSBF作为特征,所选取的CG,如下所示,
Figure BDA0003084958370000044
将CSBF作为第四个上下文级特征;
将CBF作为第五个上下文级特征。
本发明的一种基于H.266/VVC的分步全零块判决快速算法具有以下优点:
(1)本发明在保证性能基本不变的前提下,减少了计算复杂度;
(2)相比现阶段的一些减少计算复杂度的方法,本发明在新一代视频编码标准VVC上进行,创新度较高。
附图说明
图1为本发明的全零块检测流程图;
图2为本发明的机器学习网络结构图;
图3a为本发明的全零块在QP=22下预量化系数等于0、等于1和大于1的分布图;
图3b为本发明的全零块在QP=27下预量化系数等于0、等于1和大于1的分布图;
图3c为本发明的全零块在QP=32下预量化系数等于0、等于1和大于1的分布图;
图3d为本发明的全零块在QP=37下预量化系数等于0、等于1和大于1的分布图;
图3e为本发明的非全零块在QP=22下预量化系数等于0、等于2和大于2的分布图;
图3f为本发明的非全零块在QP=27下预量化系数等于0、等于2和大于2的分布图;
图3g为本发明的非全零块在QP=32下预量化系数等于0、等于2和大于2的分布图;
图3h为本发明的非全零块在QP=37下预量化系数等于0、等于2和大于2的分布图;
图4a为本发明的TU Size=64时不同QP下全零块和非全零块量化系数归一化均值示意图;
图4b为本发明的TU Size=128时不同QP下全零块和非全零块量化系数归一化均值示意图;
图4c为本发明的TU Size=256时不同QP下全零块和非全零块量化系数归一化均值示意图;
图4d为本发明的TU Size=512时不同QP下全零块和非全零块量化系数归一化均值示意图;
图5为本发明的变换系数位置分布图;
图6a为本发明的TU Size=64时不同QP下全零块和非全零块部分SATD归一化均值示意图;
图6b为本发明的TU Size=128时不同QP下全零块和非全零块部分SATD归一化均值示意图;
图6c为本发明的TU Size=256时不同QP下全零块和非全零块部分SATD归一化均值示意图;
图6d为本发明的TU Size=512时不同QP下全零块和非全零块部分SATD归一化均值示意图;
图7a为本发明的TU Size=64时不同QP下全零块和非全零块SIG归一化均值示意图;
图7b为本发明的TU Size=128时不同QP下全零块和非全零块SIG归一化均值示意图;
图7c为本发明的TU Size=256时不同QP下全零块和非全零块SIG归一化均值示意图;
图7d为本发明的TU Size=512时不同QP下全零块和非全零块SIG归一化均值示意图;
图8a为本发明的TU Size=64时不同QP下全零块和非全零块CSBF归一化均值示意图;
图8b为本发明的TU Size=128时不同QP下全零块和非全零块CSBF归一化均值示意图;
图8c为本发明的TU Size=256时不同QP下全零块和非全零块CSBF归一化均值示意图;
图8d为本发明的TU Size=512时不同QP下全零块和非全零块CSBF归一化均值示意图;
图9a为本发明的TU Size=64时不同QP下全零块和非全零块CBF归一化均值示意图;
图9b为本发明的TU Size=128时不同QP下全零块和非全零块CBF归一化均值示意图;
图9c为本发明的TU Size=256时不同QP下全零块和非全零块CBF归一化均值示意图;
图9d为本发明的TU Size=512时不同QP下全零块和非全零块CBF归一化均值示意图。
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于H.266/VVC的分步全零块判决快速算法做进一步详细的描述。
之前的全零块判决、率失真模型等都是在老一代视频编码标准上进行的;由于新一代视频编码标准VVC新加入了多种新技术,因此,之前的方法已经不再适用。
鉴于此,本发明公开一种H.266/VVC分步全零块判决快速算法,分步对各种全零块进行预判决,进而加速RDOQ进程,在保证性能基本不变的前提下,减少编码器计算复杂度。
如图1所示,本发明主要通过三步来对全零块实现预判决。首先,通过公式推导,得到一个真全零块(G-AZB)预判决公式,所谓G-AZB,即经过硬决策量化(HDQ)后为全零的变换块(TU);然后,对于那些经过HDQ后的非全零块,即伪全零块(P-AZB),利用基于统计和经验得出的自适应阈值公式实现预判决;最后,对于剩余的一些“狡猾”的P-AZB,利用机器学习,找寻了8个影响TU变成全零或者非全零块的影响因子,通过离线训练,实现预判决。具体步骤如下:
1.建立G-AZB检测阈值模型
在VVC中,死区HDQ可以描述为,
Figure BDA0003084958370000071
f′=f<<Qbits
其中,dij和lij分别代表变换系数和量化系数,Qstep代表量化步长,与量化参数QP的取值有关。f是HDQ中的死区偏移量,与I帧或者P/B帧有关,MF定义为
Figure BDA0003084958370000072
Figure BDA0003084958370000073
Qbits定义为qbits+Tshift,其中
Figure BDA0003084958370000074
Tshift表示缩放因子。
G-AZB检测较为容易,说到底,G-AZB就是通过死区HDQ量化为全零的那些块。这一部分主要探索G-AZB检测阈值,通过设定阈值的方法,直接实现G-AZB的预判决。
首先,如上文中提到的死区HDQ公式,考虑到向下取整,因此,只要是小于1的数都会被向下取整为0。这也就是说,对于真全零块,每个量化系数一定是小于1的,即,max(|lij|)<1
将lij代入,就有,
max((|dij|·MF+f′)>>Qbits)<1
进一步化简,就有,
Figure BDA0003084958370000075
因此,将上面不等式右端作为G-AZB的检测阈值,即,
Figure BDA0003084958370000076
至此,我们可以仅通过一个TU块的最大变换系数实现对这个TU进行判决,即只要max(|dij|)<ξ1,我们就认定是G-AZB。
2.建立P-AZB检测阈值模型
通过阈值ξ1已经实现了对G-AZB的检测,接下来,对经过RDOQ后是全零的P-AZB进行检测。首先,对于满足不等式
Figure BDA0003084958370000077
的TU块来说,经过HDQ会被量化为G-AZB,所以,我们来考虑满足不等式
Figure BDA0003084958370000081
的TU块,这部分TU块虽然被HDQ量化为非零,但是RDOQ可以将部分TU量化为全零TU,即P-AZB。
因此,从变换系数的位置ζ入手,假设一个TU满足不等式
Figure BDA0003084958370000082
的变换系数位置分别为ζ123,……,则ζ=max(ζ123,……),对于ζ<ξ2的TU,我们认为是P-AZB。
大量实验发现,ζ与TU尺寸成正比,根据经验和统计,使用下面的阈值公式来进行P-AZB判决,
Figure BDA0003084958370000083
其中,M表示一个TU中的系数总个数,即M∈{16,32,64,128,256,512,1024,2048,4096},QP表示量化参数,ε根据经验设置为35。
3.利用机器学习对P-AZB进行检测
之前部分已经对相当一部分全零块进行了预判决,主要是利用了阈值分析的方法,其中对G-AZB进行公式推导的固定阈值判决,对P-AZB进行自适应阈值判决。但是,还是会存在少部分P-AZB没法经过自适应阈值进行判决。因此,在这一部分中,通过引入机器学习,以一种更加智能的方式对这些剩余的P-AZB进行判决。对此,找寻了8个影响变换块量化为全零与否的影响因子,这些影响因子涉及系数级、TU级以及上下文级特征。
3.1建立网络结构
机器学习部分使用图2的由两层隐藏层构成的全连接神经网络,第一层隐藏层设置8个节点,第二层隐藏层设置4个节点,输入层即是8个影响因子,输出层设置一个节点,即根据输出值判断全零与否。
3.2分析系数级特征
在这一部分中,主要来分析影响TU判决为全零块或者非全零块的系数级特征。鉴于此,从预量化系数角度入手,首先,全零块的量化系数l(i,j)等于0的情况较多,也有部分全零块的量化系数l(i,j)等于1。非全零块的量化系数l(i,j)等于1的比例要比全零块的大,还有部分非全零块量化系数l(i,j)等于2。如图3a-3h给出了部分TU Size全零块和非全零块的预量化系数分布,其他TU Size的分布也类似,其中图3a~图3d分别是全零块在QP=22、27、32、37下预量化系数等于0、等于1和大于1的分布情况,图3e-图3h分别是非全零块在QP=22、27、32、37下预量化系数等于0、等于1、等于2和大于2的分布情况,可以看出,随着QP的增大,量化系数l(i,j)大于1的比例也随之减少。
图4a-4d展示了全零块和非全零块的量化系数l(i,j)等于0和等于1的情况,其中,图4a-图4d分别表示TU Size=64、128、256、512,可以看出,全零块的量化系数l(i,j)等于0的比例要比非全零块的大,非全零块的量化系数l(i,j)等于1的比例要比全零块的大。
因此,量化系数l(i,j)等于0或者1的数量可以作为一个区分全零块和非全零块的有用的线索,如下,
Figure BDA0003084958370000091
其中,μ0和μ1分别代表量化系数|l(i,j)|等于0和等于1的个数,count是一个计数函数,即对满足条件的变量进行计数。对这两个参数进行归一化处理,可以得到用于全零块判决的第一、二个系数级特征,如下,
Figure BDA0003084958370000092
其中,α0和α1是对μ0和μ1进行归一化的结果,Ω表示TU中系数的总个数,即Ω∈(16,32,64,128,256,512,1024,2048)。需要注意的是,由于VVC中新加入了“高频置零”操作,即对于长或者宽等于64的TU块来说,仅仅保留左上角低频区域的长或者宽为32的系数,对于其他系数进行“置零”操作。即,
Figure BDA0003084958370000093
3.3选取TU级特征
在这一部分中,探索一些影响一个TU块量化成为全零与否的TU级特征。首先,残差块经过变换后能量会集中在TU的左上角低频区域,从这一点出发,采用绝对变换系数和作为第一个TU级特征,如下所示,
Figure BDA0003084958370000101
其中,c(i,j)代表变换系数。
对于非全零块来说,左上角低频区域的变换系数往往会被量化为非零,各个变换系数的位置分布如图5a-图5d。
在低频区域中,有P1、P2、P3······总共11个变换系数。对于非全零块来说,低频区域的变换系数往往会被量化为非零,也就是说,非全零块的低频区域的变换系数和比全零块位于低频区域的变换系数和要大。
为了代表低频区域的能量,对于像4x4、2x8、1x16这样比较小的TU,取低频区域的左上角三个变换系数和作为这个TU的部分能量,然后根据TU的尺寸大小,依次递增一个变换系数,如尺寸是32的TU取左上角4个变换系数,尺寸是64的TU取左上角5个变换系数,等等以此类推。这样就得到了不同TU大小的部分能量,如下,
Figure BDA0003084958370000102
n=log2 M-1
其中,c(Pk)代表在Pk位置的变换系数,k是低频区域与n有关的一个系数索引,M是TU中系数的总个数,n是一个取决于TU尺寸大小的数。为了精准对比全零块和非全零块在低频区域能量占比情况,对其做归一化处理,如下,
Figure BDA0003084958370000103
因此,将β作为第一个用于区分全零和非全零块的TU级特征。通过离线模拟,收集了不同QP下不同TU的β的均值,如图6a-6d所示,其中,图6a-图6d分别表示TU Size=64、128、256、512,可以清晰地看到,非全零块在低频区域的能量占比β要比全零块大。也就是说,β可以作为一个区分全零块和非全零块的特征。
3.4选取上下文级特征
在上一代视频编码标准HEVC中,上下文自适应二进制算术编码(CABAC)基于概率转换表在64种不同的概率状态之间进行转换。而在VVC中,CABAC使用两状态模型,基于两个状态通过公式计算的方式得到下一编码元素极不可能出现的符号(LPS),与之对应的就是下一编码元素最大可能出现的符号(MPS),以此来更新上下文并输出二进制符号。
RDOQ中涉及众多的语法元素,本方案只利用了部分语法元素来作为区分全零块和非全零块的特征。首先,当前TU内的某个系数采用LPS符号或者MPS符号进行编码与周围系数有着莫大的关系。基于此,采用语法元素量化系数标识(SIG)作为用于区分全零和非全零块的第一个上下文级特征值。
由于低频区域的变换系数经过RDOQ很难量化为0,高频区域则相反,因此,SIG=1的情况在低频区域有着非常大的概率作为MPS符号进行编码,与之对应地,SIG=0的情况在低频区域有着非常大的概率作为LPS符号进行编码。对于非全零块来说,低频区域中SIG一般等于1,而全零块则与之相反。因此,选取语法元素SIG作为区分全零块和非全零块的一个特征是合理的。本方案取低频区域中P1、P2、P3三个位置的SIG,作为三个上下文级特征。图7a-7d给出了全零块和非全零块在三个位置的SIG。其中图7a-图7d分别代表TU Size=64、128、256、512。
可以看出,全零块的低频区域的SIG的概率与非全零块存在一些差异,这也就印证了之前所提,SIG=0的情况在低频区域有着非常大的概率作为LPS符号进行编码。
其次,一个TU中当前系数组(CG)是否是全零与周围CG也有关,即选取整个CG的编码标识(CSBF)作为又一特征。类似上面提到的SIG,CSBF=1的情况在低频区域很大概率作为MPS符号进行编码。也就是说,对于非全零块来说,低频区域中CSBF一般等于1。本方案取TU中左上角低频区域的第一个CG的CSBF作为特征。需要注意的是,由于VVC中TU的划分相比HEVC来说更为复杂,会产生很多类型的不规则TU,因此,所选取的CG并不都是规则的4x4CG,如下所示,
Figure BDA0003084958370000111
图8a-8d给出了全零块和非全零块在低频区域的CSBF的情况,其中,图8a-图8d分别代表TU Size=64、128、256、512。可以看出,与SIG类似,全零块的低频区域的CSBF的概率与非全零块存在一些差异。因此,将CSBF作为第四个上下文级特征。
最后,与上面提到的语法元素SIG和CSBF类似,当前TU是否被量化为全零与周围TU有关,即考虑语法元素整个TU的编码标识(CBF)。图9a-9d给出了全零块和非全零块的CBF的概率情况,其中,图9a-图9d分别代表TU SIZE=64、128、256、512。可以看出,与上面的SIG和CSBF都类似,全零块的CBF的概率与非全零块存在一定差异。因此,将CBF作为第五个上下文级特征。
本方案在机器学习部分输入节点采用以上提到的总共8个特征,第一层隐藏层采用8个节点,第二层隐藏层采用4个节点,输出采用一个节点,即是否大于0.5来进行全零块判决,梯度下降优化方面采用Adam算法优化。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (8)

1.一种基于H.266/VVC的分步全零块判决快速算法,其特征在于,包括如下步骤:
步骤1:建立G-AZB检测阈值模型;
步骤2:建立P-AZB检测阈值模型;
步骤3:利用机器学习对P-AZB进行检测。
2.根据权利要求1所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤1包括如下具体步骤:
在VVC中,死区HDQ为,
Figure FDA0003084958360000011
f′=f<<Qbits
其中,dij和lij分别代表变换系数和量化系数,Qstep代表量化步长,与量化参数QP的取值有关;f是HDQ中的死区偏移量,与I帧或者P/B帧有关,MF定义为
Figure FDA0003084958360000012
Figure FDA0003084958360000013
Qbits定义为qbits+Tshift,其中
Figure FDA0003084958360000014
Tshift表示缩放因子。
对于真全零块,每个量化系数都小于1,即,max(|lij|)<1,
将lij代入,得到,
max((|dij|·MF+f′)>>Qbits)<1,
进一步化简,得到,
Figure FDA0003084958360000015
将上述不等式右端作为G-AZB的检测阈值,即,
Figure FDA0003084958360000016
只要max(|dij|)<ξ1,就是G-AZB。
3.根据权利要求1所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤2包括如下具体步骤:
从变换系数的位置ζ入手,假设一个TU满足不等式
Figure FDA0003084958360000021
的变换系数位置分别为ζ123,……,则ζ=max(ζ123,……),对于ζ<ξ2的TU,就是P-AZB;
使用如下阈值公式进行P-AZB判决,
Figure FDA0003084958360000022
其中,M表示一个TU中的系数总个数,即M∈{16,32,64,128,256,512,1024,2048,4096},QP表示量化参数,ε为35。
4.根据权利要求1所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤3包括如下具体步骤:
步骤3.1:建立网络结构;
步骤3.2:分析系数级特征;
步骤3.3:选取TU级特征;
步骤3.4:选取上下文级特征。
5.根据权利要求4所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤3.1包括如下具体步骤:
机器学习部分使用由两层隐藏层构成的全连接神经网络,第一层隐藏层设置8个节点,第二层隐藏层设置4个节点,输入层即是8个影响因子,输出层设置一个节点,即根据输出值判断全零与否。
6.根据权利要求4所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤3.2包括如下具体步骤:
用量化系数l(i,j)等于0或者1的数量来区分全零块和非全零块,如下,
Figure FDA0003084958360000023
其中,μ0和μ1分别代表量化系数|l(i,j)|等于0和等于1的个数,count是一个计数函数,即对满足条件的变量进行计数;对μ0、μ1参数进行归一化处理,得到用于全零块判决的第一、二个系数级特征,如下,
Figure FDA0003084958360000031
其中,α0和α1是对μ0和μ1进行归一化的结果,Ω表示TU中系数的总个数,即Ω∈(16,32,64,128,256,512,1024,2048);对于长或者宽等于64的TU块,仅保留左上角低频区域的长或者宽为32的系数,对于其他系数进行“置零”操作,即,
Figure FDA0003084958360000032
7.根据权利要求4所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤3.3包括如下具体步骤:
采用绝对变换系数和作为第一个TU级特征,如下所示,
Φ=∑i,j∈[1,2,4,8,16,32,64]|c(i,j)|,
其中,c(i,j)代表变换系数;
对于比较小的TU,取低频区域的左上角三个变换系数和作为这个TU的部分能量,然后根据TU的尺寸大小,依次递增一个变换系数,得到不同TU大小的部分能量,如下,
Figure FDA0003084958360000033
n=log2 M-1,
其中,c(Pk)代表在Pk位置的变换系数,k是低频区域与n有关的一个系数索引,M是TU中系数的总个数,n是一个取决于TU尺寸大小的数;然后进行归一化处理,如下,
Figure FDA0003084958360000034
将β作为第一个用于区分全零和非全零块的TU级特征。
8.根据权利要求4所述的基于H.266/VVC的分步全零块判决快速算法,其特征在于,步骤3.4包括如下具体步骤:
采用语法元素SIG作为用于区分全零和非全零块的第一个上下文级特征值,取低频区域中P1、P2、P3三个位置的SIG,作为三个上下文级特征;
取TU中左上角低频区域的第一个CG的CSBF作为特征,所选取的CG,如下所示,
Figure FDA0003084958360000041
将CSBF作为第四个上下文级特征;
将CBF作为第五个上下文级特征。
CN202110577832.XA 2021-05-26 2021-05-26 一种基于h.266/vvc的分步全零块判决快速算法 Active CN113365062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110577832.XA CN113365062B (zh) 2021-05-26 2021-05-26 一种基于h.266/vvc的分步全零块判决快速算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110577832.XA CN113365062B (zh) 2021-05-26 2021-05-26 一种基于h.266/vvc的分步全零块判决快速算法

Publications (2)

Publication Number Publication Date
CN113365062A true CN113365062A (zh) 2021-09-07
CN113365062B CN113365062B (zh) 2022-11-18

Family

ID=77527622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110577832.XA Active CN113365062B (zh) 2021-05-26 2021-05-26 一种基于h.266/vvc的分步全零块判决快速算法

Country Status (1)

Country Link
CN (1) CN113365062B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148977A (zh) * 2010-02-04 2011-08-10 成都市世嘉电子实业有限公司 一种自适应的dct零系数提前检测方法
CN102148989A (zh) * 2011-04-22 2011-08-10 西安交通大学 一种h.264中全零块检测的方法
CN108124163A (zh) * 2017-12-14 2018-06-05 西北工业大学 一种适用于hevc的全零块检测方法
US20180288416A1 (en) * 2015-09-10 2018-10-04 Mediatek Singapore Pte. Ltd. Method and apparatus of context modelling for syntax elements in image and video coding
CN109274967A (zh) * 2018-09-25 2019-01-25 杭州电子科技大学 一种快速rdoq量化零系数比例估计方法
CN110365978A (zh) * 2019-07-15 2019-10-22 杭州电子科技大学 一种基于机器学习算法多层次全零块预判决方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148977A (zh) * 2010-02-04 2011-08-10 成都市世嘉电子实业有限公司 一种自适应的dct零系数提前检测方法
CN102148989A (zh) * 2011-04-22 2011-08-10 西安交通大学 一种h.264中全零块检测的方法
US20180288416A1 (en) * 2015-09-10 2018-10-04 Mediatek Singapore Pte. Ltd. Method and apparatus of context modelling for syntax elements in image and video coding
CN108124163A (zh) * 2017-12-14 2018-06-05 西北工业大学 一种适用于hevc的全零块检测方法
CN109274967A (zh) * 2018-09-25 2019-01-25 杭州电子科技大学 一种快速rdoq量化零系数比例估计方法
CN110365978A (zh) * 2019-07-15 2019-10-22 杭州电子科技大学 一种基于机器学习算法多层次全零块预判决方法及系统

Also Published As

Publication number Publication date
CN113365062B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Choi et al. Near-lossless deep feature compression for collaborative intelligence
Song et al. Neural network-based arithmetic coding of intra prediction modes in HEVC
Tang et al. Adaptive CU split decision with pooling-variable CNN for VVC intra encoding
TWI613907B (zh) 用於解碼視訊的方法
JP3967405B2 (ja) 画像信号の符号化方法
CN104754357B (zh) 基于卷积神经网络的帧内编码优化方法及装置
CN111462261B (zh) 针对h.266/vvc的快速cu分区和帧内决策方法
CN102917225B (zh) Hevc帧内编码单元快速选择方法
WO2008108534A1 (en) Method and apparatus for context adaptive binary arithmetic coding and decoding
WO2012012249A1 (en) Video compression using multiple variable length coding methods for multiple types of transform coefficient blocks
Yu et al. VLSI friendly fast CU/PU mode decision for HEVC intra encoding: Leveraging convolution neural network
WO2020125363A1 (zh) 一种低复杂度视频信号编码处理方法
CN111429497A (zh) 基于深度学习和多特征融合的自适应cu拆分决策方法
Zhao et al. Adaptive CU split decision based on deep learning and multifeature fusion for H. 266/VVC
CN106612439A (zh) 一种自适应快速分形图像压缩方法
CN105430396A (zh) 采用分类的方式决策编码块大小的视频编码方法
CN107690069B (zh) 一种数据驱动的级联视频编码方法
Marpe et al. Context-based adaptive binary arithmetic coding in JVT/H. 26L
CN107257461B (zh) 基于上下文自适应偏移模型的视音频编码硬判决量化方法
CN113365062B (zh) 一种基于h.266/vvc的分步全零块判决快速算法
CN108881905B (zh) 基于概率的帧内编码器优化方法
CN110365978B (zh) 一种基于机器学习算法多层次全零块预判决方法及系统
Amna et al. LeNet5-Based approach for fast intra coding
CN102307303B (zh) 一种基于三进制表示的图像预测编码方法
Wang et al. Improved rate distortion optimized quantization for HEVC with adaptive thresholding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant