CN108235025B

CN108235025B - 自适应帧间参考结构的拉格朗日乘子优化方法

Info

Publication number: CN108235025B
Application number: CN201810204914.8A
Authority: CN
Inventors: 周益民; 黄航; 程学理; 王宏宇; 冷龙韬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2021-10-26
Anticipated expiration: 2038-03-13
Also published as: CN108235025A

Abstract

本发明涉及视频编码的方法，提供了一种自适应帧间参考结构的拉格朗日乘子优化方法，包括：A.获取一个图像组；B.获取该图像组内的1帧图像；C.对步骤B所获得图像的未优化的拉格朗日乘子λ_base进行优化计算，优化后的值为λ(i)，λ(i)＝λ_base·Γ(i)·κ^1‑p(i)，其中，λ_base为当前帧对应的未优化的拉格朗日乘子，Γ(i)为当前帧对应的层次因子，κ为表示拉格朗日乘子的最远偏移因子的极大偏移范围乘子，p(i)为取值空间为[0,1]的依赖因子；D.根据优化后λ(i)配置当前帧图像的量化参数QP并编码当前帧的图像。本发明有效的为每一帧图像建立数学统计模型，无需人工的干预，能够实现优化过程的自适应调节，能合理、高效的对拉格朗日乘子进行优化。

Description

自适应帧间参考结构的拉格朗日乘子优化方法

技术领域

本发明涉及视频编码的方法，尤其是一种自适应帧间参考结构的拉格朗日乘子优化方法。

背景技术

视频编码是指通过特定的压缩技术，将原始大数据量的数字信号压缩成低数据量的二进制码流，以大幅降低视频在存储和传输过程中的成本。数字视频信号通常是由时域连续的二维图像(帧)排列而成，这被称为视频序列(Sequence)。每帧图像之间存在极强的相关性，也就是存在大量的冗余信息。冗余信息可分为空域冗余、时域冗余和频域冗余等。视频编码的过程就是不断去除这些数据之间冗余信息的过程。

为了去除时域冗余，视频编码大量采用图像之间的运动矢量预测技术，这被称为帧间参考。现代的编码器一般将视频序列逻辑上分割成若干个图像组(Group ofPictures,GOP)，再以一个GOP为单位来制定帧间参考规则。

自H.264/AVC面世以来，由于时域分层参考结构(Hierarchical ReferenceStructure,HRS)的高效性，因此它被广泛的应用到后续的各代标准中且被验证为性能显著。HRS已经成为典型且主流的参考结构，它在随机访问(Random-Access,RA)和低延迟(Low-Delay,LD)两种最常见应用情景下都有相应的配置结构。RA通常以8或16个播放顺序号(Picture Order Count,POC)连续的图像组成一个GOP；LD通常以4个POC连续的图像组成一个GOP。一般认为RA在GOP为16时的性能略优于为8时。

为了契合HRS参考规则，不同的编码器都分别为HRS不同层的图像配置量化参数(QP)和偏移常量(QP-Offset)。进一步地，也配置有显式或隐式地进行率失真优化(Rate-Distortion Optimation,RDO)拉格朗日乘子(Lambda,λ)的修正乘子。

但上述量化参数(QP)、偏移常量(QP-Offset)和拉格朗日乘子(Lambda,λ)均为按层预设，这就带来了一个新的问题，那就是如何为帧间编码的每一帧图像分配最优的QP值和λ，使得编码总体性能BDBR尽可能高。目前，为解决上述问题，大多是依靠经验的手动预配置方法，通常的方式为根据图像组所包含的层次，计算并建立各层次图像的层次因子表，并依据层次因子表，根据帧图像所在层次对其所分配的预设值进行优化和修正。

但应当注意到，尽管HRS在宏观上是采用二叉树层次结构来进行帧间参考规则制定，但在其具体实施时，帧间参考规则并不十分严格，如跨层次的参考是可能存在的。同时，量化参数(QP)为按档设置，并非连续值，一个GOP内质量最好的图像是仅采用帧内预测编码的I-图像，或者是仅采用前向预测的F-图像、P-图像。因为它们都大量采用补偿变换和量化以保持图像纹理的质量。不失一般性，可假设I-图像、P-图像或F-图像它们位于同一层级，即它们所对应的层级都为0，也即，I-图像、P-图像或F-图像对应层次因子相同；而一个GOP内占多数的双向预测图像，也就是B-图像的质量最差，其对应的层次因子跟它所在的位序有关，层次因子不尽相同，但在一定范围内变化的层次因子可能并不能对量化参数(QP)构成影响，因此，显而易见，目前的方法缺乏合理性和自适应性。

发明内容

本发明提供了一种自适应帧间参考结构的拉格朗日乘子优化方法，其能够根据真实的帧间参考规则，对帧级拉格朗日乘子进行合理化的优化，进而实现对编码过程的优化。

本发明的自适应帧间参考结构的拉格朗日乘子优化方法，其包括：

A.获取一个图像组；

B.获取该图像组内的1帧图像，其在图像组内部的播放顺序号为i；

C.对步骤B所获得图像的未优化的拉格朗日乘子λ_base进行优化计算，优化后的值为λ(i)，λ(i)＝λ_base·Γ(i)·κ^1-p(i)，其中，λ_base为当前帧对应的未优化的拉格朗日乘子，Γ(i)为当前帧对应的层次因子，κ为表示拉格朗日乘子的最远偏移因子的极大偏移范围乘子，p(i)为取值空间为[0,1]的依赖因子；

D.根据优化后λ(i)配置当前帧的量化参数QP(i)并编码当前帧的图像；

E.当前帧编码完毕后，判断当前图像组是否编码完毕，是则转至步骤F，否则转至步骤B获取图像组内的下1帧图像继续编码；

F.判断当前视频序列的所有图像组是否编码完毕，是则结束，否则转至步骤A继续下一个图像组的编码；

上述步骤C中的p(i)为ρ(i)经标准化后获得，所述ρ(i)则是一个图像组内当前帧图像被参考的所有依赖强度之和；上述步骤C中的κ的取值，则根据当前帧的帧类型进行确定。

进一步的，上述步骤C中的κ的取值，其中，对于采用帧内预测编码的I-图像，κ取恒定值1；对于采用帧间预测编码的图像，则通过

获得，其中，QP为编码器配置的量化参数值，QP_SHIFT为编码器统一预设的偏移常量，c表示当前图像组的层次总数，factor为与帧类型有关的经验参数。

进一步的，所述步骤A包括：

A1.获取一个图像组；

A2.获取到当前图像组内的一帧图像，其在图像组内部的播放顺序号为i；

A3.根据当前帧的参考结构获取其被参考情况；

A4.计算当前帧被后续参考的所有依赖强度之和ρ(i)；

A5.计算得到标准化后的依赖因子p(i)；

A6.判断一个图像组内所有帧的依赖因子是否统计完毕，是则结束当前统计流程，否则转至步骤A2获取当前图像组内下一帧图像。

具体的，上述ρ(i)通过

计算获得，其中，α为直接参考的依赖强度且0＜α＜1，

表示在图像组参考定义中将会参考当前帧图像的集合，j表示参考当前帧图像时它相对的播放顺序号，|i-j|为时域距离k。

具体的，上述依赖因子p(i)通过

计算获得，其中max{·}表示取集合中的最大值，min{·}表示取集合中的最小值。

进一步的，步骤C中所述对未优化的拉格朗日乘子λ_base的优化计算包括：

C1.获取当前帧对应的未优化的拉格朗日乘子λ_base以及依赖因子p(i)；

C2.计算当前帧所在的图像组对应的层次总数c；

C3.计算当前帧所处层的层次因子Γ(i)；

C4.计算当前帧类型对应的极大偏移范围乘子κ；

C5.计算当前帧对应的拉格朗日乘子λ(i)。

具体的，图像组对应的层次总数c通过c＝log₂L+1计算得到，其中，L表示当前图像组包含的帧数。

具体的，上述层次因子Γ(i)通过

计算得到，其中，layer(i)表示播放顺序号为i的图像所处的层级；layer(i)通过

获得，其中，mod表示取模运算，L表示当前图像组包含的帧数。

具体的，编码器根据

获得当前帧对应的未优化的拉格朗日乘子λ_base，其中λ^*表示理论最优拉格朗日乘子值，η为与帧类型相关的调节因子，QP为编码器配置的量化参数值，QP_SHIFT为编码器统一预设的偏移常量。

具体的，在步骤D中，根据

配置当前帧的量化参数QP(i)。

本发明的有益效果：为实现最优的编码，编码的每一帧图像，应该采用的量化参数和拉格朗日乘子，应依据其实际的参考规则决定，而非根据其HRS逻辑层次定义来简单给定，因此，本发明的自适应帧间参考结构的拉格朗日乘子优化方法，为每一帧图像被参考的所有依赖强度之和进行数学统计，从而将其真实的帧间参考规则引入优化计算的过程，进而保证优化过程的合理。同时，依赖强度之和的计算依赖于每一帧图像被后续图像参考的情况，无需人工的干预，能够实现优化过程的自适应调节，能高效的对拉格朗日乘子也即编码过程实现优化。

附图说明

图1为本发明自适应帧间参考结构的拉格朗日乘子优化方法的流程图。

图2为图1步骤A中统计当前帧的标准化后的依赖因子的流程图。

图3为图1步骤C中对未优化的拉格朗日乘子λ_base的优化计算的流程图。

具体实施方式

本发明中自适应帧间参考结构的拉格朗日乘子优化方法，其包括：

A.获取一个图像组；

F.判断当前视频序列的所有图像组是否编码完毕，是则结束，否则转至步骤A继续下一个图像组的编码。

上述步骤C中的p(i)为ρ(i)经标准化后获得，所述ρ(i)则是一个图像组内当前帧图像被参考的所有依赖强度之和。上述步骤C中的κ的取值，则根据当前帧的帧类型进行确定。

如图1所示为本发明优化方法的实施例的整体流程框图。

该优化方法的实现过程，主要由三部分组成，分别是帧间参考强度的计算、拉格朗日乘子的计算，QP值的计算，其中：

(1)帧间参考强度的计算

视频编码中，四种典型的图像类型分别为I-,P-,F-,B-，根据其类型，除采用帧内预测编码的I-图像以外，每一帧图像都强烈地依赖它所参考的图像组成的集合，如LD低延迟(Low-Delay,LD)的P-图像都前向参考4幅图像，RA随机访问(Random-Access,RA)的B-图像将双向参考各2幅图像。一个GOP内每一帧图像编码完成之后，它立即恢复得到的重构图像被放置于解码缓冲区中，都有可能被后续未编码图像所参考。仅有RA下最底层B-图像(POC(播放顺序)为奇数)不用于帧间参考。而面向一个GOP(图像组)的参考规则定义，使得全序列的编码结构将不断重复出现。因此，考查一个GOP的参考规则即可推广至全序列编码结构情况。

本发明中，将参考分为直接参考和间接参考，其中，直接参考为在重构图像过程中所直接参考的图像，如P-图像在重构时前向所参考的4幅图像；简接参考则为在重构图像过程中所直接参考的图像所参考的图像，如P-图像在重构时前向所参考的4幅图像其自身重构时所参考的图像。进一步的，本发明中，定义经验参数α为直接参考的依赖强度，且0＜α＜1；而间接参考的依赖强度与间接参考的时域距离k有关，时域距离k为|i-j|，因此，用α^k表示间接依赖的强度。

在获得了该图像被后续直接参考和间接参考的依赖强度后，定义ρ(i)为在一个GOP内部相对POC顺序编号为i的图像被后续参考的所有依赖强度之和，根据求和公式：

获得其ρ(i)，其中，

表示在图像组参考定义中将会参考当前帧图像的集合，j表示参考当前帧图像时它相对的播放顺序号，|i-j|为时域距离。

直接参考的依赖强度α，为经验参数，其可视频类型，根据参考和被参考图像之间相似度的总体情况进行取值，在本实施例中，α取经验值为0.92。

而以一个GOP为单位，对其内部所辖所有图像进行被参考强度统计，并表示为各帧图像被后续参考的所有依赖强度之和，其依赖强度之和的计算，除上述方式外，也可以是其他形式，比如：对参考情况进行分类并赋值，之后按求和公式进行求和；计算各图像的相似度并求和等，但与之相比，本发明的计算更为高效。

上述ρ(i)为在一个GOP内部相对POC顺序编号为i的图像被后续参考的所有依赖强度之和，为了使其更具有可比性，对其实施标准化，数据的标准化是将数据按比例缩放，使之落入一个小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。数据标准化的主要包括归一化方法、中心化方法和定基比率法等，在本发明中，采用归一化方法，如公式(2)所示，计算得到标准化后的依赖因子用p(i)表示：

其中，max{·}表示取集合中的最大值，min{·}表示取集合中的最小值。

公式(2)中p(i)取值空间被映射至[0,1]。其中，在一个GOP中不被其它图像参考的那些图像所对应的被参考集为空集，其标准化后的依赖因子p(i)为0；GOP中被其它图像参考频率最高的图像其依赖因子p(i)标准化后取值为1。

对一个图像组中各帧的p(i)的获得，可以是提取图像组时一次完成，也即在步骤A中完成；也可以是在各帧优化的过程中分别计算，也即在步骤C中完成。但为了提高计算效率，最好的，在实施例中，如图2所示，所述步骤A包括：

A1.获取一个图像组；

A3.根据当前帧的参考结构获取其被参考情况；

A4.计算当前帧被后续参考的所有依赖强度之和ρ(i)；

A5.计算得到标准化后的依赖因子p(i)；

(2)拉格朗日乘子的计算

本发明中的λ_base为未经优化的拉格朗日乘子值，其值根据编码器也即编码软件的不同、优化要求的不同，可以是按任意的其他现有方式获得。

而视频编码中不同的图像类型，如I-,P-,B-,F-等在属性上各有不同，这就使得它们编码后产生的R-D曲线也大相径庭。拉格朗日乘子的数学意义是R-D曲线在给定失真点的斜率。

因此，根据不同的图像类型采用不同的拉格朗日乘子是必要的手段，因此，本发明中，进一步的定义λ_base为对应帧类型的未经优化的拉格朗日乘子值，相对于理论的基准λ^*，各类型图像的偏移不尽相同，也即以理论拉格朗日乘子λ^*公式为基准进行因子再调节，导出如公式(3)。具体的讲，编码器根据

获得当前帧对应的未优化的拉格朗日乘子λ_base，其中，λ^*表示理论最优拉格朗日乘子值，η为与帧类型相关的调节因子，QP为编码器配置的量化参数值，QP_SHIFT为编码器统一预设的偏移常量。

而在本实施中，以AVS2参考模型软件RD19.2为例，调节因子η对帧类型I-，P-，F-，B-分别取值0.72，1.00，1.23，1.69；而QP_SHIFT为统一预设置偏移常量，取值为11。

其次，编码结构对编码过程影响深远，编码结构越复杂，图像类型越多样化。复杂的编码结构HRS需多种图像类型且分为多为个层次协同作用。一般来讲，GOP越大则编码层次越深、结构越复杂。因此GOP大小可以用于刻画总体的编码结构复杂度。

因此，定义c代表编码结构下一个GOP所包含的层次总数，而c只与GOP被配置的大小L相关，如公式(4)所示：

c＝log₂L+1 (4)

其中，L表示当前GOP的大小，即当前GOP包含的帧数。L一般可取值为4,8,16,32…等。

同时，每一帧图像所处具体层级也极大影响了它自身的编码结果。因此，定义层次因子Γ用以表示层次的重要程度。在HRS参考结构下，POC为i的图像所处的层级用用函数layer(i)可直接计算得到。层级越深则层次因子越大。layer(i)、Γ(i)的计算分别如公式(5)、公式(6)所示。

其中，mod表示取模运算，Γ(i)表示当前GOP内部的相对POC序号为i的图像对应的层次因子，layer(i)为该图像所在的层级。

上述Γ(i)表示当前GOP内部的相对POC序号为i的图像对应的层次因子，其可以采用任意的现有方式获得，如现有的层次因子表等。

进一步的，发明人指出，传统的QP与λ之间的关系仅适用于不带预测的量化编码，而帧间参考时，λ与QP的关系更为复杂。且帧间参考结构越复杂，率失真曲线越加难以刻画，以面对存在大量运动矢量的B-图像为例，长期以来都未有一个合理的率失真刻画曲线，类似地，P-图像或F-图像的率失真曲线也尚未有准确定论。基于上述说明，发明人认为，有必要为λ设置基于QP的偏移补偿，以使之契合帧间预测时的率失真优化代价计算。

因此，为了实现将依赖因子p(i)的影响引入对拉格朗日乘子的优化，定义了κ以满足图像在深层次参考结构下，针对QP的补偿偏移，其表示拉格朗日乘子的最远偏移因子，并根据图像类型即帧类型进行取值。

任意一帧图像，它的层次因子Γ乘以其所属帧类型的极大偏移范围乘子κ即为该图像的拉格朗日乘子所能达到的最大偏移倍数。其中，对于采用帧内预测编码的I-图像，κ通常取恒定值1；而在分层参考结构中，层次越低的图像对矢量的依赖越大，同时对补偿残差及变换的依赖越小，因此，P-图像、F-图像的κ值取I-图像的n倍，B-图像κ值则是P-图像或F-图像的m倍，且m、n均为大于1的数，才能保证率失真代价计算中失真与比特的平衡。

为了方便获取κ值，上述极大偏移范围乘子κ，根据当前帧的帧类型进行确定：

对于采用帧内预测编码的I-图像，极大偏移范围乘子κ取恒定值1；

对于采用帧间预测编码的图像，包括单项预测和双向预测的P-图像、F-图像、B-图像等，极大偏移范围乘子κ取值如公式(7)所示：

其中，QP为编码器配置的量化参数值，QP_SHIFT为编码器统一预设的偏移常量，c表示当前图像组的层次总数，factor为与帧类型有关的经验参数。

在本实施例中，其采用中国音视频标准第二代视频标准AVS2编码器RD，发明人根据经验和实测，为取得相对最优的编码性能，P-图像或F-图像取值为factor＝1.72，B-图像取值为factor＝6.98时。而针对不同的编码器，这一规律仍然适用，只是需要重新测试，以取得相对最优的性能增益。

同时，考虑依赖因子p(i)的影响，GOP内部相对POC为i的图像所采用优化后的拉格朗日乘子λ(i)通过公式(8)计算得到。

λ(i)＝λ_base·Γ(i)·κ^1-p(i) (8)

其中，不同帧类型的λ_base不同，其值由公式(3)得到。

从公式(8)可以看出，对任意的编码图像，其所在的GOP长度越大，它的依赖因子越小；图像所处层级越高，则该图像所用拉格朗日乘子越大，反之亦然。当参考结构发生改变时可动态计算新的依赖因子p(i)、层次因子Γ(i)以及范围乘子κ以自适应地契合新的参考结构。且编码的每一帧图像，其拉格朗日乘子的优化，均考虑了其实际的参考规则、其HRS逻辑层次以及图像类型，能够保证优化过程的合理。

上述λ_base、c、Γ(i)、κ、λ(i)的计算均为帧级的，因此，为提高效率，最好的，在步骤C中完成。因此，在实施例中，如图3所示，步骤C中所述对未优化的拉格朗日乘子λ_base的优化计算包括：

C2.计算当前帧所在的图像组对应的层次总数c；

C3.计算当前帧所处层的层次因子Γ(i)；

C4.计算当前帧类型对应的极大偏移范围乘子κ；

C5.计算当前帧对应的拉格朗日乘子λ(i)。

(3)QP值的计算

拉格朗日乘子与QP有极强的数学相关性，因此在拉格朗日乘子确立之后，需要同时更新量化参数。本发明认为，视频编码是由拉格朗日乘子λ决定了量化参数QP，而非QP决定λ。

因此，在本发明中，使用原始QP-λ计算公式对QP进行反算，如公式(9)所示：

其中，QP(i)即为当前GOP内部相对POC序号为i的图像对应的QP值。

当然，通过λ反算量化参数QP的算法也可以是其他现有的算法。

表1、表2和表3分别给出了在RD19.2通测配置分别为LD(L＝4)、RA(L＝8)和RA(L＝16)结构下每一帧图像被参考的统计情况，表中的数据可以直接从编码配置文件中统计得到。

表1：RD19.2通测配置LD(L＝4)结构下每一帧图像被参考统计

表1给出了目前AVS2RD通用测试条件(Common Test Condition,CTC)的LD配置下一个GOP的4幅图像参考情况。从表1中可以看出，相对POC为1和2的图像仅被参考一次，相对POC为3的图像将被参考2次，相对POC为4的编码图像，又称为关键图像，将被参考12次之多。

表2和表3分别给出了CTC配置RA下GOP图像数量分别为8和16两种情况：

表2：RD19.2通测配置RA(L＝8)结构下每一帧图像被参考统计

表3：RD19.2通测配置RA(L＝16)结构下每一帧图像被参考统计

由于在RA编码结构下，所有POC为奇数的图像将不被参考，对应参考集为空集。从表2中可以看到，相对POC为2和6的图像在被参考次数较少，而4和8被参考次数较多。从表3中可以看到，相对POC为8和16的图像被后续帧参考的次数很高。

表4、表5和表6分别给出了表1、表2和表3的三种编码结构下，本发明的测试性能。

表4：LD(L＝4)测试性能比较

表5：RA(L＝8)测试性能比较

表6：RA(L＝16)测试性能比较

按照AVS-2制定的通测条件，本发明的方法在LD、RA8和RA16三种典型编码配置下进行测试。其中，LD和RA8下的对比样本(Reference)为RD19.2默认配置下按照CTC进行通测的结果，RA16下的对比样本为M4288提案所提出的RA16配置下按照CTC进行通测的结果。

通过对比测试了5种不同分辨率(UHD、1080p、WVGA、WQVGA、720p)的视频，从表4、表5、表6中可以看到，本发明的方法在这三种编码结构下，在不同视频分辨率下的测试都取得了不同程度的性能增益。

表4中，在LD(L＝4)结构中的测试性能比较，可以看出，在5种不同分辨率视频的平均增益达到1.35％，特别地，在UHD和1080p两种视频分辨率下的性能增益超过2％。

表5和表6中，在RA(L＝8)和RA(L＝16)结构中的测试性能比较，RA配置GOP大小为8时BD-Rate增益0.31％，RA配置GOP大小为16时BD-Rate增益高达0.73％，二者的编解码时间仅比对比样本增加了1％，完全控制在合理的可接受范围内。通过这两组数据，也验证了前文所述的“一般认为，RA在GOP为16时的性能略优于为8时”。