CN112689146A

CN112689146A - 一种基于启发学习的vvc帧内预测快速模式选择方法

Info

Publication number: CN112689146A
Application number: CN202011516046.0A
Authority: CN
Inventors: 罗雷; 何全
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-20
Anticipated expiration: 2040-12-18
Also published as: CN112689146B

Abstract

本发明涉及一种基于启发学习的VVC帧内预测快速模式选择方法，属于视频编码领域，包括以下步骤，S1：计算CU的纹理复杂度，分为平坦与非平坦两类；S2：对于平坦类型的CU，选取平面模式与直流模式作为候选模式，跳过模式粗选过程，直接进入率失真优化过程；S3：对于非平坦类型的CU，首先根据梯度信息缩减模式粗选过程的搜索范围，其次根据上下文信息为模式粗选过程设置起始搜索点，然后分别以较大、较小步长进行两轮搜索，最后选取最优的两种模式进入率失真优化过程。本发明在降低帧内预测复杂度的同时，有效地保持了RD性能。

Description

一种基于启发学习的VVC帧内预测快速模式选择方法

技术领域

本发明属于视频编码领域，涉及一种基于启发学习的VVC帧内预测快速模式选择方法。

背景技术

随着视频市场的发展，超高清(UHD)、高动态范围(HDR)和360°视频内容快速引入到日常生活中，导致了视频流量的激增，为视频压缩带来了新的挑战。为探索下一代视频压缩编码标准，ITU-T视频编码专家组和ISO运动图像专家组成立了联合视频探索小组(JVET)，研究并评估了一系列提案，于2020年完成了多功能视频编码(VVC)标准的定稿。作为最新的视频编码标准，与高效率视频编码(HEVC)标准相比，VVC采用了一系列新的编码技术，在相同视频质量条件下，编码效率提高了40％。但是，这些新的编码技术导致了显著的编码复杂性增加。与HEVC相比，在全帧内配置下，VVC的编码复杂度是HEVC的19倍。

对于帧内预测，为了进一步减少帧内的空间冗余，在VVC中设计了多达67种帧内预测模式。同时，VVC还提出了一些高级预测技术来进一步提高帧内预测效率，例如矩阵加权帧内预测(MIP)，多参考线(MRL)帧内预测和帧内子划分(ISP)技术。为减小帧内预测的复杂度，HEVC所采用的三步快速帧内模式决策(TS-FMD)被VVC继承。首先，基于HAD Cost进行模式粗选(RMD)，减少进入速率失真优化过程的模式数量。然后对较少数量的模式进行率失真优化，计算各个模式对应的RD Cost，最后选择出最优的模式。TS-FMD方法在某种程度上降低了帧内预测过程的复杂度，但其计算复杂度仍然很高。因此，有必要在保持RD性能的条件下进一步降低帧内预测复杂度。

发明内容

有鉴于此，本发明的目的在于降低帧内预测的复杂度的同时保持RD性能，提供一种基于启发学习的VVC帧内预测快速模式选择方法。

为达到上述目的，本发明提供如下技术方案：

一种基于启发学习的VVC帧内预测快速模式选择方法，包括以下步骤：

S1：计算CU的纹理复杂度，分为平坦与非平坦两类；

S2：对于平坦类型的CU，选取平面模式与直流模式作为候选模式，跳过模式粗选过程，直接进入率失真优化过程；

S3：对于非平坦类型的CU，首先根据梯度信息缩减模式粗选过程的搜索范围，其次根据上下文信息为模式粗选过程设置起始搜索点，然后分别以较大、较小步长进行两轮搜索，最后选取最优的两种模式进入率失真优化过程。

进一步，步骤S1具体包括：

当前CU纹理复杂度小于阈值TH_flat时，将其分类为平坦类型CU；当前CU纹理复杂度大于等于阈值TH_flat时，将其分类为非平坦类型CU；其中TH_flat取值为1.5；纹理复杂度由方差表示，其定义如下：

其中，W与H分别为当前CU的宽和高，P(i,j)为当前CU位置(i,j)处的像素值，Mean为当前CU像素矩阵的均值；

进一步，步骤S2具体包括：

若当前CU纹理复杂度小于阈值TH_flat，则将平面模式与直流模式添加到率失真优化的候选模式列表中，跳过基于HAD cost的模式粗选过程，直接进入率失真优化过程，计算各个模式的RD cost，选择出RD cost最小的一种模式。RD cost定义如下：

RDCost＝SSE+λ·Bit_total

其中SSE为原始CU与重建的CU之间的平方误差之和，λ表示拉格朗日乘子，Bit_total表示编码总比特数。

进一步，步骤S3具体包括：

S31：对于非平坦类型的CU，首先使用Sobel算子计算水平、垂直、45°、135°方向上的梯度值，其计算过程如下：

其中，W与H分别表示当前CU的宽和高，P表示当前CU对应的像素矩阵；设定阈值TH_angle，计算最大梯度值与其余三个梯度值之比，若比值大于阈值TH_angle，将较小梯度值对应方向上的模式添加到搜索范围中；若比值小于阈值TH_angle，则不添加较小梯度值方向上的模式到搜索范围中；若三个比值均小于阈值TH_angle，则将完整的67种模式添加到搜索范围中。水平，垂直，45°与135°方向对应的模式范围分别为：{12-28}，{2-12、58-65}，{44-58}和{28-44}；

S32：计算MPM中各模式的HADCost，定义如下：

HADCost＝SATD+λ·Bit_mode

其中，SATD表示残差信号的Hadamard变换系数的绝对值总和，λ表示拉格朗日乘子，Bit_mode表示对帧内预测模式信息进行编码的比特位数；选取具有最小HADCost的模式M₁作为第一轮的起始搜索点；

S33：进行第一轮模式粗选，即以模式M₁为起始搜索点，S₁为搜索步长，在搜索范围内进行双向搜索，计算各模式的HADCost，选取具有最小HADCost的模式M₂；双向搜索即以M₁为起始搜索点，以S₁为步长依次计算其左右两侧模式的HADCost，即依次计算模式M₁,M₁-S₁,M₁+S₁,M₁-2S₁,M₁+2S₁…的HADCost；其中S₁取值为4。

S34：进行第二轮模式细选，即以模式M₂为起始搜索点，S₂为搜索步长，在{M₂-2,M₂+2}范围内，进行双向搜索，计算各模式的HADCost；其中S₂取值为1。

S35：将两轮搜索过程中具有最小HADCost的两个模式添加到候选列表，进入率失真优化过程，选择最优的模式。

本发明的有益效果在于：本发明在降低帧内预测模式选择复杂度的同时，有效地保持了RD性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的求解流程图；

图2为本发明方法的模型图；

图3为本发明效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的求解流程如图1所示。选取JVET标准测试视频序列:Tango2、CatRobot、Cactus、PartyScene、BlowingBubbles、FourPeople、SlideEditing，配置文件为：encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为40帧，使用VTM7.0进行编码，选取不同的阈值TH_flat、TH_angle，记录编码时间、PSNR、比特率。

分析编码结果，选择合适的阈值，TH_flat设置为0.3*QP，TH_angle设置为1.5。

使用VTM7.0对JVET A1-F类别中26个标准测试视频序列进行编码，配置文件为：encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为10帧。记录编码时间、PSNR、比特率。

将本发明中嵌入VTM7.0中，替换原始的帧内预测模式选择过程，流程如图2所示。对JVET中A1-F类别中26个标准测试视频序列进行编码，配置文件为：encoder_intra_vtm.cfg，QP设置为：22、27、32、37，编码帧数为10帧。记录编码时间、PSNR、比特率。

对结果进行对比，如图3所示。从图3可以看出本方法能节省27.53％的编码时间，这表明我们的方法能够快速地进行帧内预测模式选择。同时，BDBR仅上升0.6％，BDPSNR仅下降0.03dB，这表明我们的方法引起的压缩效果降低与图像失真是几乎可以忽略的。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于启发学习的VVC帧内预测快速模式选择方法，其特征在于：包括以下步骤：

S1：计算CU的纹理复杂度，分为平坦与非平坦两类；

2.根据权利要求1所述的基于启发学习的VVC帧内预测快速模式选择方法，其特征在于：步骤S1具体包括：

设定阈值TH_flat，当前CU纹理复杂度小于阈值TH_flat时，将其分类为平坦类型CU；当前CU纹理复杂度大于等于阈值TH_flat时，将其分类为非平坦类型CU；其中TH_flat取值为1.5；纹理复杂度由方差表示，其定义如下：

其中，W与H分别为当前CU的宽和高，P(i,j)为当前CU位置(i,j)处的像素值，Mean为当前CU像素矩阵的均值。

3.根据权利要求1所述的基于启发学习的VVC帧内预测快速模式选择方法，其特征在于：步骤S2具体包括：

若当前CU纹理复杂度小于阈值TH_flat，则将平面模式与直流模式添加到率失真优化的候选模式列表中，跳过基于HAD cost的模式粗选过程，直接进入率失真优化过程，计算各个模式的RD cost，选择出RD cost最小的一种模式，RD cost定义如下：

RDCost＝SSE+λ·Bit_total

4.根据权利要求1所述的基于启发学习的VVC帧内预测快速模式选择方法，其特征在于：步骤S3具体包括：

其中，W与H分别表示当前CU的宽和高，P表示当前CU对应的像素矩阵；设定阈值TH_angle，计算最大梯度值与其余三个梯度值之比，若比值大于阈值TH_angle，将较小梯度值对应方向上的模式添加到搜索范围中；若比值小于TH_angle，则不添加较小梯度值方向上的模式到搜索范围中；若三个比值均小于TH_angle，则将完整的67种模式添加到搜索范围中；水平，垂直，45°与135°方向对应的模式范围分别为：{12-28}，{2-12、58-65}，{44-58}和{28-44}；

S32：计算MPM中各模式的HADCost，定义如下：

HADCost＝SATD+λ·Bit_mode

S33：进行第一轮模式粗选，即以模式M₁为起始搜索点，S₁为搜索步长，在搜索范围内进行双向搜索，计算各模式的HADCost，选取具有最小HADCost的模式M₂；所述双向搜索即以M₁为起始搜索点，以S₁为步长依次计算其左右两侧模式的HADCost，即依次计算模式M₁,M₁-S₁,M₁+S₁,M₁-2S₁,M₁+2S₁···的HADCost；

S34：进行第二轮模式细选，即以模式M₂为起始搜索点，S₂为搜索步长，在{M₂-2,M₂+2}范围内，进行双向搜索，计算各模式的HADCost；