CN108063945A

CN108063945A - 一种基于元素类别的线性码率估计方法

Info

Publication number: CN108063945A
Application number: CN201711389299.4A
Authority: CN
Inventors: 周巍; 张河山; 张冠文
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-05-22
Anticipated expiration: 2037-12-21
Also published as: CN108063945B

Abstract

本发明提供了一种基于元素类别的线性码率估计方法，涉及视频编码技术领域，首先将系数分为亮度和色度两组，然后分别在亮度编码组和色度编码组中按照元素类型和TU尺寸进一步划分，之后在每一组中选取特征参量，建立码率估计值与参量间的线性回归方程，最后选用视频序列进行训练，得出各组的线性回归系数。本发明消除了码率计算中由于编码结构造成的运算冗余，降低了码率计算复杂度，对语法元素进行细致的分组，在每组中分别建立线性回归方程进行码率估计，准确度更高，有效降低了RDO码率计算的复杂度，提高了编码效率；码率估计准确度较高，编码质量损失较小；鲁棒性强，在不同视频序列中都有较好的优化效果。

Description

一种基于元素类别的线性码率估计方法

技术领域

本发明涉及视频编码技术领域，尤其是一种码率估计方法。

背景技术

HEVC通过率失真优化(Rate Distortion Optimization，RDO)选择出压缩率和编码质量综合效果最优的模式，该过程主要包括失真和码率的计算，前者需要经过变换、量化、反变换和反量化得出重建视频与原始视频的差别，即失真；后者需要对所涉及的语法元素进行熵编码，以得出所消耗的码率。因此，RDO过程十分繁琐，简化该过程的运算对于降低HEVC编码复杂度具有重要意义，国内外学术界和工业界在这方面的研究主要集中在码率计算过程的简化上，尤其是针对基于上下文的自适应二进制算术编码(Context basedAdaptive Binary Arithmetic Coding，CABAC)的快速码率估计算法研究，目前已取得较大进展，下面就几种典型方案进行介绍。

JCT-VC标准会议通过的一项提案JCTVC-G763指出，对于RDO过程无需进行实际的熵编码，只需知道最后消耗的码率即可，因此针对各个语法元素类别，分别制定一个与CABAC编码器的各个状态都对应的码率估计表，来估计每个语法元素所消耗的码率。通过获取bin(待编码二进制值)、根据bin的符号和类别以及pStateIdx(上下文概率模型状态索引)查询码率估计表、更新CABAC状态这三个步骤即可完成码率计算过程。该方案已经在HEVC标准测试软件HM中使用，可以在保证编码质量基本无损失的条件下，一定程度地降低编码复杂度，但由于RDO的码率计算过程运算量庞大，这一优化效果仍不能满足实际需求。

K.Won等人也建立了一个针对CABAC过程的查找表，不同的是该方案进一步扩大了查找表的适用范围，查找表不依赖于具体的语法元素类别，仅需pStateIdx和EMB(bin是否等于MPS)即可，该方案在降低复杂度上的效果与JCTVC-G763接近。之后，他们又在这一基础上进一步研究，通过分析CABAC的编码原理，推断出pStateIdx的分布规律与EMB取值的关系，并通过实验验证得出编码所消耗码率与待编码二元数间存在线性关系，然后通过实验测出线性系数，直接建立码率和待编码二元数间的线性方程，从而实现了只执行CABAC的二进制化即可估计出最终码率。该方案在降低复杂度上有了一定提升，但鲁棒性较差，在不同序列上实施效果差异较大，因此在实际使用时难以保证具有良好的优化效果。

发明内容

为了克服现有技术的不足，解决以往码率估计算法预测精度不高、鲁棒性较差、估计效率低等不足，本发明提出一种基于语法元素种类的线性码率估计模型，以变换单元(Transform Unit，TU)为基本处理单元，针对其中的量化系数进行快速码率估计，根据不同编码条件下采用不同的上下文概率模型这一特点，首先将系数分为亮度和色度两组，然后分别在亮度编码组和色度编码组中按照元素类型和TU尺寸进一步划分，之后在每一组中选取特征参量，建立码率估计值与这些参量间的线性回归方程，最后选用复杂度较高的PeopleOnStreet视频序列进行训练，得出各组的线性回归系数。在实际应用时通过上述方式进行分组，在各组中使用线性回归方程即可估计出对应码率情况，有效地降低了编码复杂度，同时编码质量损失较小，且具有良好的鲁棒性。

本发明解决其技术问题所采用的技术方案包括如下步骤：

第一步：调整TU编码结构，减少码率估计过程中遍历次数

在TU中各种类型的语法元素按照以下结构顺序编码，依次为：TskipFlag，指示该TU是否跳过变换操作；LastXY，指示该TU中最后一个非零系数的位置；SCGF，指示当前4×4子块内是否有非零系数；SCF，指示对应系数是否非零；GTR1，指示对应系数幅值是否大于1；GTR2，指示对应系数幅值是否大于2；SIGN，指示对应非零系数的符号；Remain，为剩余信息位；

将码率计算过程中一个子块内SCGF、SCF、GTR1、GTR2、SIGN和Remain的编码放在一次遍历操作中执行，从而大幅减少编码一个子块内系数要进行的遍历次数，结构调整如下：获取当前子块SCFG标志位时查询当前子块内系数是否有非零值，若有非零值SCFG为1，否则为0，此时同时编码当前子块内每一个系数的SCF位；对于当前子块内前8个非零残差系数编码其GTR1标志位，非零系数不足8个的子块中取其所有非零系数，在编码SCF位时同时编码GTR1位；对于第一个GTR1为1的系数编码其GTR2；对于每一个非零系数编码其SIGN位，因此在SCF有效时编码该系数的SIGN标志位；对于当GTR2为1时编码当前子块内非零系数的Remain位，在编码GTR1、GTR2的同时检测当前系数幅值，并编码其Remain位；同时将所有子块的上述遍历编码操作放入获取LastXY的过程中，可减少一次遍历整个TU内变换系数的操作；

第二步：统计相关特征参量，用于构建线性回归方程进行码率估计

第一步调整后的结构下执行，用统计相关语法元素数量的方式代替语法元素的实际编码过程，可大幅降低计算复杂度，需进行统计的特征参量及其含义如表1所示：

表1线性码率估计模型相关特征参数

其中DC子块代表当前TU内第一个4×4子块，HF子块代表当前TU内除DC子块外的其他4×4子块，特征参量将在第三步中用于构建线性回归方程以进行码率估计，表1中特征参量均对应当前TU内相关语法元素的数量，且所有特征参量均可以按照原语法元素组织规则统计得出；

第三步：按照语法元素类别分组并通过相应线性回归方程计算各组码率估计值

经第二步统计出当前TU内所有相关特征参量值之后，按照语法元素种类以及TU尺寸进行分组，并使用统计出的特征参量值在各组中建立码率估计值与特征参量间的线性回归方程；

r'表示各组码率估计值，表示各组相关特征参量集，中各元素在不同组别中有不同的取值，且均对应表1中相关的特征参量值；表示对应线性回归系数集，则各组的码率估计值r'通过式(1)计算得出：

按照相关语法元素的不同，从以下四部分进行分组：

(1)SCGF的码率估计

亮度编码模式下，TU尺寸为4×4、8×8、16×16、32×32时分别分配组号为1、2、3、4；色度编码模式下TU最大尺寸为16×16，TU尺寸为4×4、8×8、16×16时分别分配组号13、14、15，本部分各组特征参量集表示为：

(2)SCF的码率估计

亮度编码模式下，TU尺寸为4×4、8×8、16×16、32×32时分别分配组号5、6、7、8；色度编码模式下，TU尺寸为4×4、8×8、16×16时分别分配组号16、17、18，本部分各组特征参量集表示为：

(3)GTR1、GTR2的码率估计

亮度编码模式下，TU尺寸为4×4、8×8、16×16、32×32时分别分配组号9、10、11、12；色度编码模式下，TU尺寸为4×4、8×8、16×16时分别分配组号19、20、21，本部分各组特征参量集表示为：

(4)SIGN及Remain的码率估计

r'＝nSign+nRemain (5)

此处，通过式(5)计算出的SIGN及Remain元素对应码率估计值r'即为准确码率，因此不需建立线性回归方程进行估计；

选取视频序列V_s作为训练样本，通过最小二乘法建立各组码率估计值r'与特征参量组间的线性关系，得出各组对应线性回归系数集将各组对应的中各元素值代入相应线性回归方程即可得出所属组的码率估计值；

计算出各组码率估计值之后，将各组计算结果相加，包括SIGN和Remain的码率估计值相加，即得当前TU内SCGF、SCF、GTR1、GTR2、SIGN、Remain经熵编码所消耗的总码率估计值；此外，TSkipFlag、LastXY两类元素仍按照HEVC标准方法进行熵编码得出码率值，将其与总码率估计值相加，可得到当前TU内所有语法元素即所有量化系数所消耗的码率。

本发明的有益效果在于由于在第一步调整了码率计算过程中TU的编码结构，从而大幅减少了码率估计所需进行的遍历次数，消除了码率计算中由于编码结构造成的运算冗余，在第二步中用用统计相关语法元素数量的方式代替具体熵编码过程，并且是在调整后的结构下执行，大幅降低了码率计算复杂度，对语法元素进行细致的分组，在每组中分别建立线性回归方程进行码率估计，准确度更高，与以往技术相比，本发明有效降低了RDO码率计算的复杂度，提高了编码效率；码率估计准确度较高，编码质量损失较小；鲁棒性强，在不同视频序列中都有较好的优化效果。

附图说明

图1为本发明的标准TU编码结构示意图。

图2为本发明的用于码率计算的TU编码结构示意图。

图3为本发明的整体流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

在HEVC测试程序HM13.0中测试本方案(linear-model)，并与提案JCTVC-G763的查找表法(lookup-table)、K.Won的基于二进制化方法(binarization-based)对比。选取分辨率从416×240到1920×1280的10个标准视频序列进行测试，在Lowdelay配置模式下，每个序列在不同QP(22,27,32,37)下编码50帧。以码率计算时间节省率(RateEst AST)、总编码时间节省率(Total AST)、BDBR、BDPSNR四个指标来衡量算法性能，其中RateEst AST表示目标算法相比于标准算法在码率计算部分所节省时间与标准算法在这部分所用时间的比值，Total AST表示目标算法相比于标准算法完成HEVC全过程所节省时间与标准算法所用时间的比值。

本发明以TU为码率计算的基本单元，在进行码率估计时，首先对TU的编码结构进行调整，然后针对所涉及的SCGF、SCF、GTR1、GTR2、SIGN、Remain等语法元素统计其相关特征参量，最后根据语法元素类别以及TU尺寸进行分组，在每组中调用对应线性回归方程计算其码率估计值，对上述各组估计值累加即得编码当前TU所消耗码率情况。

如图3所示，实施过程包括以下步骤：

第一步：调整TU编码结构，减少码率估计过程中遍历次数

在TU中各种类型的语法元素按照以下结构顺序编码，依次为：TskipFlag，指示该TU是否跳过变换操作；LastXY，指示该TU中最后一个非零系数的位置；SCGF，指示当前4×4子块内是否有非零系数；SCF，指示对应系数是否非零；GTR1，指示对应系数幅值是否大于1；GTR2，指示对应系数幅值是否大于2；SIGN，指示对应非零系数的符号；Remain，为剩余信息位，每种语法元素的编码都需要对当前TU或子块内的系数进行一次遍历操作，这给码率计算带来了大量的冗余操作，由于RDO的码率计算过程不需要产生实际的码流，即不需要保证这种编码结构，因此可以针对上述结构进行改进，在能满足码率计算需求的条件下尽可能减少遍历次数；

本发明将码率计算过程中一个子块内SCGF、SCF、GTR1、GTR2、SIGN和Remain的编码放在一次遍历操作中执行，从而大幅减少编码一个子块内系数要进行的遍历次数。本步骤只阐述在编码结构上所做的调整，在这里先不做任何具体处理，而后按照第二步中方法调整语法元素的编码方式，并按照本步所描述的结构进行语法元素的编码。结构调整如下：获取当前子块SCFG标志位时查询当前子块内系数是否有非零值，若有非零值SCFG为1，否则为0，此时同时编码当前子块内每一个系数的SCF位；对于当前子块内前8个非零残差系数编码其GTR1标志位，非零系数不足8个的子块中取其所有非零系数，在编码SCF位时同时编码GTR1位；对于第一个GTR1为1的系数编码其GTR2；对于每一个非零系数编码其SIGN位，因此在SCF有效时编码该系数的SIGN标志位；对于当GTR2为1时编码当前子块内非零系数的Remain位，在编码GTR1、GTR2的同时检测当前系数幅值，并编码其Remain位；同时将所有子块的上述遍历编码操作放入获取LastXY的过程中，可减少一次遍历整个TU内变换系数的操作；

本步骤的具体操作在第一步调整后的结构下执行，用统计相关语法元素数量的方式代替语法元素的实际编码过程，可大幅降低计算复杂度，需进行统计的特征参量及其含义如表1所示：

表1线性码率估计模型相关特征参数

按照相关语法元素的不同，从以下四部分进行分组：

(1)SCGF的码率估计

(2)SCF的码率估计

(3)GTR1、GTR2的码率估计

(4)SIGN及Remain的码率估计

r'＝nSign+nRemain(5)

计算出各组码率估计值之后，将各组计算结果相加，包括SIGN和Remain的码率估计值相加，即得当前TU内SCGF、SCF、GTR1、GTR2、SIGN、Remain经熵编码所消耗的总码率估计值；此外，TSkipFlag、LastXY在所有语法元素中所占比重较小，这两类元素仍按照HEVC标准方法进行熵编码得出码率值，将其与总码率估计值相加，可得到当前TU内所有语法元素即所有量化系数所消耗的码率。

图1为本发明的标准TU编码结构示意图，图2为本发明改进的用于码率计算的TU编码结构示意图。选取高复杂度的PeopleOnStreet视频序列作为训练样本，通过最小二乘法建立各组码率估计值r'与特征参量组间的线性关系，得出各组对应线性回归系数集对应元素值如表2所示，将表2中数据直接代入相应线性回归方程即可得出所属组的码率估计值。

表2各组回归系数值

通过以上过程计算出各组码率估计值之后，将各组计算结果相加(包括SIGN和Remain的码率估计值)即得当前TU内SCGF、SCF、GTR1、GTR2、SIGN、Remain经熵编码所消耗的码率估计值。此外，TSkipFlag、LastXY仍按照原始方法进行熵编码得出码率值，将其与本步骤中计算出的总码率估计值相加，就得到当前TU内所有语法元素也即所有量化系数所消耗的码率。

实验结果如表3、4、5所示：

表3Lookup-table

序列	Total AST(％)	RateEst AST(％)	BDBR(％)	BDPSNR(dB)
					Kimono_1920×1080_24	0.983465	24.14607	0.1143	-0.0038
RaceHorses_832×480_30	0.96758	30.2596	-0.0344	0.0000
					BQMall_832×480_50	-0.3952	28.66909	0.012	0.0001
PartyScene_832×480_50	1.948505	31.28971	-0.0231	0.0001
					BasketballDrill_832×480_50	1.832401	28.64568	-0.2243	0.009
RaceHorses_416×240_30	1.974412	31.37837	-0.1049	0.0033
					BQSquare_416×240_60	1.576615	29.97127	-0.0682	0.0036
BlowingBubbles_416×240_50	1.178627	28.99001	-0.0971	0.0037
					BasketballPass_416×240_50	1.123436	29.12069	-0.0235	0.0018
KristenAndSara_1280×720_60	2.27164	25.69968	-0.906	0.028
					平均	1.3461481	28.817017	-0.13552	0.00458

表4binarization-based

表5linear-model

序列	Total AST(％)	RateEst AST(％)	BDBR(％)	BDPSNR(dB)
					Kimono_1920×1080_24	2.137066	20.88825	1.9216	-0.0656
RaceHorses_832×480_30	5.023166	52.34083	1.6692	-0.0689
					BQMall_832×480_50	3.007652	45.69635	2.7413	-0.1136
PartyScene_832×480_50	5.987314	55.36455	2.9163	-0.1316
					BasketballDrill_832×480_50	3.113791	35.64915	2.8729	-0.1109
RaceHorses_416×240_30	5.760809	53.80169	1.528	-0.0739
					BQSquare_416×240_60	5.916506	51.24674	1.6799	-0.0712
BlowingBubbles_416×240_50	4.638877	47.00503	2.0463	-0.082
					BasketballPass_416×240_50	4.534152	43.68001	2.0787	-0.0968
KristenAndSara_1280×720_60	3.175548	12.32211	1.5709	-0.0444
					平均	4.3294881	41.799471	2.10251	-0.08589

从表5可看出本发明在平均码率增加2.10％、编码质量下降0.086dB的情况下，实现了总编码时间节约4.33％、码率计算时间节约41.80％的效果；与表3对比可以看出：在节省编码时间这一指标上，本发明具有明显的优势；与表4对比：本发明除在节省编码时间、降低编码质量损失上有一定优势外，鲁棒性也更好，不同序列均保持有较好的优化效果。

Claims

1.一种基于元素类别的线性码率估计方法，其特征在于包括下述步骤：

第一步：调整TU编码结构，减少码率估计过程中遍历次数

表1 线性码率估计模型相关特征参数

<mrow> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mi>f</mi> <mi>l</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <msup> <mover> <mi>C</mi> <mo>&RightArrow;</mo> </mover> <mi>T</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

按照相关语法元素的不同，从以下四部分进行分组：

(1)SCGF的码率估计

(2)SCF的码率估计

(3)GTR1、GTR2的码率估计

(4)SIGN及Remain的码率估计

r'＝nSign+nRemain (5)