CN112689146B - 一种基于启发学习的vvc帧内预测快速模式选择方法 - Google Patents

一种基于启发学习的vvc帧内预测快速模式选择方法 Download PDF

Info

Publication number
CN112689146B
CN112689146B CN202011516046.0A CN202011516046A CN112689146B CN 112689146 B CN112689146 B CN 112689146B CN 202011516046 A CN202011516046 A CN 202011516046A CN 112689146 B CN112689146 B CN 112689146B
Authority
CN
China
Prior art keywords
mode
flat
search
current
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011516046.0A
Other languages
English (en)
Other versions
CN112689146A (zh
Inventor
罗雷
何全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011516046.0A priority Critical patent/CN112689146B/zh
Publication of CN112689146A publication Critical patent/CN112689146A/zh
Application granted granted Critical
Publication of CN112689146B publication Critical patent/CN112689146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于启发学习的VVC帧内预测快速模式选择方法,属于视频编码领域,包括以下步骤,S1:计算CU的纹理复杂度,分为平坦与非平坦两类;S2:对于平坦类型的CU,选取平面模式与直流模式作为候选模式,跳过模式粗选过程,直接进入率失真优化过程;S3:对于非平坦类型的CU,首先根据梯度信息缩减模式粗选过程的搜索范围,其次根据上下文信息为模式粗选过程设置起始搜索点,然后分别以较大、较小步长进行两轮搜索,最后选取最优的两种模式进入率失真优化过程。本发明在降低帧内预测复杂度的同时,有效地保持了RD性能。

Description

一种基于启发学习的VVC帧内预测快速模式选择方法
技术领域
本发明属于视频编码领域,涉及一种基于启发学习的VVC帧内预测快速模式选择方法。
背景技术
随着视频市场的发展,超高清(UHD)、高动态范围(HDR)和360°视频内容快速引入到日常生活中,导致了视频流量的激增,为视频压缩带来了新的挑战。为探索下一代视频压缩编码标准,ITU-T视频编码专家组和ISO运动图像专家组成立了联合视频探索小组(JVET),研究并评估了一系列提案,于2020年完成了多功能视频编码(VVC)标准的定稿。作为最新的视频编码标准,与高效率视频编码(HEVC)标准相比,VVC采用了一系列新的编码技术,在相同视频质量条件下,编码效率提高了40%。但是,这些新的编码技术导致了显著的编码复杂性增加。与HEVC相比,在全帧内配置下,VVC的编码复杂度是HEVC的19倍。
对于帧内预测,为了进一步减少帧内的空间冗余,在VVC中设计了多达67种帧内预测模式。同时,VVC还提出了一些高级预测技术来进一步提高帧内预测效率,例如矩阵加权帧内预测(MIP),多参考线(MRL)帧内预测和帧内子划分(ISP)技术。为减小帧内预测的复杂度,HEVC所采用的三步快速帧内模式决策(TS-FMD)被VVC继承。首先,基于HAD Cost进行模式粗选(RMD),减少进入速率失真优化过程的模式数量。然后对较少数量的模式进行率失真优化,计算各个模式对应的RD Cost,最后选择出最优的模式。TS-FMD方法在某种程度上降低了帧内预测过程的复杂度,但其计算复杂度仍然很高。因此,有必要在保持RD性能的条件下进一步降低帧内预测复杂度。
发明内容
有鉴于此,本发明的目的在于降低帧内预测的复杂度的同时保持RD性能,提供一种基于启发学习的VVC帧内预测快速模式选择方法。
为达到上述目的,本发明提供如下技术方案:
一种基于启发学习的VVC帧内预测快速模式选择方法,包括以下步骤:
S1:计算CU的纹理复杂度,分为平坦与非平坦两类;
S2:对于平坦类型的CU,选取平面模式与直流模式作为候选模式,跳过模式粗选过程,直接进入率失真优化过程;
S3:对于非平坦类型的CU,首先根据梯度信息缩减模式粗选过程的搜索范围,其次根据上下文信息为模式粗选过程设置起始搜索点,然后分别以较大、较小步长进行两轮搜索,最后选取最优的两种模式进入率失真优化过程。
进一步,步骤S1具体包括:
当前CU纹理复杂度小于阈值THflat时,将其分类为平坦类型CU;当前CU纹理复杂度大于等于阈值THflat时,将其分类为非平坦类型CU;其中THflat取值为1.5;纹理复杂度由方差表示,其定义如下:
Figure BDA0002846357770000021
Figure BDA0002846357770000022
其中,W与H分别为当前CU的宽和高,P(i,j)为当前CU位置(i,j)处的像素值,Mean为当前CU像素矩阵的均值;
进一步,步骤S2具体包括:
若当前CU纹理复杂度小于阈值THflat,则将平面模式与直流模式添加到率失真优化的候选模式列表中,跳过基于HAD cost的模式粗选过程,直接进入率失真优化过程,计算各个模式的RD cost,选择出RD cost最小的一种模式。RD cost定义如下:
RDCost=SSE+λ·Bittotal
其中SSE为原始CU与重建的CU之间的平方误差之和,λ表示拉格朗日乘子,Bittotal表示编码总比特数。
进一步,步骤S3具体包括:
S31:对于非平坦类型的CU,首先使用Sobel算子计算水平、垂直、45°、135°方向上的梯度值,其计算过程如下:
Figure BDA0002846357770000031
Figure BDA0002846357770000032
Figure BDA0002846357770000033
Figure BDA0002846357770000034
其中,W与H分别表示当前CU的宽和高,P表示当前CU对应的像素矩阵;设定阈值THangle,计算最大梯度值与其余三个梯度值之比,若比值大于阈值THangle,将较小梯度值对应方向上的模式添加到搜索范围中;若比值小于阈值THangle,则不添加较小梯度值方向上的模式到搜索范围中;若三个比值均小于阈值THangle,则将完整的67种模式添加到搜索范围中。水平,垂直,45°与135°方向对应的模式范围分别为:{12-28},{2-12、58-65},{44-58}和{28-44};
S32:计算MPM中各模式的HADCost,定义如下:
HADCost=SATD+λ·Bitmode
其中,SATD表示残差信号的Hadamard变换系数的绝对值总和,λ表示拉格朗日乘子,Bitmode表示对帧内预测模式信息进行编码的比特位数;选取具有最小HADCost的模式M1作为第一轮的起始搜索点;
S33:进行第一轮模式粗选,即以模式M1为起始搜索点,S1为搜索步长,在搜索范围内进行双向搜索,计算各模式的HADCost,选取具有最小HADCost的模式M2;双向搜索即以M1为起始搜索点,以S1为步长依次计算其左右两侧模式的HADCost,即依次计算模式M1,M1-S1,M1+S1,M1-2S1,M1+2S1…的HADCost;其中S1取值为4。
S34:进行第二轮模式细选,即以模式M2为起始搜索点,S2为搜索步长,在{M2-2,M2+2}范围内,进行双向搜索,计算各模式的HADCost;其中S2取值为1。
S35:将两轮搜索过程中具有最小HADCost的两个模式添加到候选列表,进入率失真优化过程,选择最优的模式。
本发明的有益效果在于:本发明在降低帧内预测模式选择复杂度的同时,有效地保持了RD性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的求解流程图;
图2为本发明方法的模型图;
图3为本发明效果图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的求解流程如图1所示。选取JVET标准测试视频序列:Tango2、CatRobot、Cactus、PartyScene、BlowingBubbles、FourPeople、SlideEditing,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为40帧,使用VTM7.0进行编码,选取不同的阈值THflat、THangle,记录编码时间、PSNR、比特率。
分析编码结果,选择合适的阈值,THflat设置为0.3*QP,THangle设置为1.5。
使用VTM7.0对JVET A1-F类别中26个标准测试视频序列进行编码,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为10帧。记录编码时间、PSNR、比特率。
将本发明中嵌入VTM7.0中,替换原始的帧内预测模式选择过程,流程如图2所示。对JVET中A1-F类别中26个标准测试视频序列进行编码,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为10帧。记录编码时间、PSNR、比特率。
对结果进行对比,如图3所示。从图3可以看出本方法能节省27.53%的编码时间,这表明我们的方法能够快速地进行帧内预测模式选择。同时,BDBR仅上升0.6%,BDPSNR仅下降0.03dB,这表明我们的方法引起的压缩效果降低与图像失真是几乎可以忽略的。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于启发学习的VVC帧内预测快速模式选择方法,其特征在于:包括以下步骤:
S1:计算CU的纹理复杂度,分为平坦与非平坦两类;
S2:对于平坦类型的CU,选取平面模式与直流模式作为候选模式,跳过模式粗选过程,直接进入率失真优化过程;
S3:对于非平坦类型的CU,首先根据梯度信息缩减模式粗选过程的搜索范围,其次根据上下文信息为模式粗选过程设置起始搜索点,然后分别以较大、较小步长进行两轮搜索,最后选取最优的两种模式进入率失真优化过程;步骤S3具体包括:
S31:对于非平坦类型的CU,首先使用Sobel算子计算水平、垂直、45°、135°方向上的梯度值,其计算过程如下:
Figure FDA0003623709040000011
Figure FDA0003623709040000012
Figure FDA0003623709040000013
Figure FDA0003623709040000014
其中,W与H分别表示当前CU的宽和高,P表示当前CU对应的像素矩阵;设定阈值THangle,计算最大梯度值与其余三个梯度值之比,若比值大于阈值THangle,将较小梯度值对应方向上的模式添加到搜索范围中;若比值小于THangle,则不添加较小梯度值方向上的模式到搜索范围中;若三个比值均小于THangle,则将完整的67种模式添加到搜索范围中;水平,垂直,45°与135°方向对应的模式范围分别为:{12-28},{2-12、58-65},{44-58}和{28-44};
S32:计算MPM中各模式的HADCost,定义如下:
HADCost=SATD+λ·Bitmode
其中,SATD表示残差信号的Hadamard变换系数的绝对值总和,λ表示拉格朗日乘子,Bitmode表示对帧内预测模式信息进行编码的比特位数;选取具有最小HADCost的模式M1作为第一轮的起始搜索点;
S33:进行第一轮模式粗选,即以模式M1为起始搜索点,S1为搜索步长,在搜索范围内进行双向搜索,计算各模式的HADCost,选取具有最小HADCost的模式M2;所述双向搜索即以M1为起始搜索点,以S1为步长依次计算其左右两侧模式的HADCost,即依次计算模式M1,M1-S1,M1+S1,M1-2S1,M1+2S1···的HADCost;
S34:进行第二轮模式细选,即以模式M2为起始搜索点,S2为搜索步长,在{M2-2,M2+2}范围内,进行双向搜索,计算各模式的HADCost;
S35:将两轮搜索过程中具有最小HADCost的两个模式添加到候选列表,进入率失真优化过程,选择最优的模式。
2.根据权利要求1所述的基于启发学习的VVC帧内预测快速模式选择方法,其特征在于:步骤S1具体包括:
设定阈值THflat,当前CU纹理复杂度小于阈值THflat时,将其分类为平坦类型CU;当前CU纹理复杂度大于等于阈值THflat时,将其分类为非平坦类型CU;其中THflat取值为1.5;纹理复杂度由方差表示,其定义如下:
Figure FDA0003623709040000021
Figure FDA0003623709040000022
其中,W与H分别为当前CU的宽和高,P(i,j)为当前CU位置(i,j)处的像素值,Mean为当前CU像素矩阵的均值。
3.根据权利要求1所述的基于启发学习的VVC帧内预测快速模式选择方法,其特征在于:步骤S2具体包括:
若当前CU纹理复杂度小于阈值THflat,则将平面模式与直流模式添加到率失真优化的候选模式列表中,跳过基于HAD cost的模式粗选过程,直接进入率失真优化过程,计算各个模式的RD cost,选择出RD cost最小的一种模式,RD cost定义如下:
RDCost=SSE+λ·Bittotal
其中SSE为原始CU与重建的CU之间的平方误差之和,λ表示拉格朗日乘子,Bittotal表示编码总比特数。
CN202011516046.0A 2020-12-18 2020-12-18 一种基于启发学习的vvc帧内预测快速模式选择方法 Active CN112689146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011516046.0A CN112689146B (zh) 2020-12-18 2020-12-18 一种基于启发学习的vvc帧内预测快速模式选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011516046.0A CN112689146B (zh) 2020-12-18 2020-12-18 一种基于启发学习的vvc帧内预测快速模式选择方法

Publications (2)

Publication Number Publication Date
CN112689146A CN112689146A (zh) 2021-04-20
CN112689146B true CN112689146B (zh) 2022-07-22

Family

ID=75449606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011516046.0A Active CN112689146B (zh) 2020-12-18 2020-12-18 一种基于启发学习的vvc帧内预测快速模式选择方法

Country Status (1)

Country Link
CN (1) CN112689146B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111447438B (zh) * 2020-04-24 2023-05-26 西安理工大学 一种面向通用视频编码的快速帧内预测模式判决方法
WO2022266971A1 (zh) * 2021-06-24 2022-12-29 Oppo广东移动通信有限公司 编解码方法、编码器、解码器以及计算机存储介质
CN117714697B (zh) * 2024-02-05 2024-04-23 卓世未来(成都)科技有限公司 数字人视频显示方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103517069A (zh) * 2013-09-25 2014-01-15 北京航空航天大学 一种基于纹理分析的hevc帧内预测快速模式选择方法
KR101516347B1 (ko) * 2013-11-21 2015-05-04 한밭대학교 산학협력단 Hevc 화면내 부호화 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9154798B2 (en) * 2009-09-14 2015-10-06 Thomson Licensing Methods and apparatus for efficient video encoding and decoding of intra prediction mode
CN104581181B (zh) * 2013-10-11 2017-12-05 中国科学院深圳先进技术研究院 一种基于备选模式列表优化的帧内编码方法
KR101724212B1 (ko) * 2015-12-03 2017-04-07 중앙대학교 산학협력단 인트라 모드 결정 방법 및 장치
US20170374369A1 (en) * 2016-06-24 2017-12-28 Mediatek Inc. Methods and Apparatuses of Decoder Side Intra Mode Derivation
CN110708546B (zh) * 2019-09-20 2021-12-07 中山大学 多功能视频编码的帧内模式选择划分方法、系统及存储介质
CN111479110B (zh) * 2020-04-15 2022-12-13 郑州轻大产业技术研究院有限公司 针对h.266/vvc的快速仿射运动估计方法
CN111447438B (zh) * 2020-04-24 2023-05-26 西安理工大学 一种面向通用视频编码的快速帧内预测模式判决方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103517069A (zh) * 2013-09-25 2014-01-15 北京航空航天大学 一种基于纹理分析的hevc帧内预测快速模式选择方法
KR101516347B1 (ko) * 2013-11-21 2015-05-04 한밭대학교 산학협력단 Hevc 화면내 부호화 방법 및 장치

Also Published As

Publication number Publication date
CN112689146A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112689146B (zh) 一种基于启发学习的vvc帧内预测快速模式选择方法
Hu et al. Coarse-to-fine deep video coding with hyperprior-guided mode prediction
CN104539962B (zh) 一种融合视觉感知特征的可分层视频编码方法
US9060177B2 (en) System and method to process motion vectors of video data
US20120275522A1 (en) Method and apparatus for motion vector encoding/decoding using spatial division, and method and apparatus for image encoding/decoding using same
CN100531400C (zh) 基于宏块级和像素级运动估计的视频差错掩盖方法
CN102595140B (zh) 基于图像修复和矢量预测算子的帧内预测视频编码方法
WO2012159306A1 (zh) 一种预测编码的方法及装置
TW202143731A (zh) 在高級運動向量預測模式中的圖像解碼方法
CN103384325A (zh) 一种avs-m视频编码快速帧间预测模式选择方法
CN109587503B (zh) 一种基于边缘检测的3d-hevc深度图帧内编码模式快速决策方法
CN103596004A (zh) Hevc中基于数学统计和分类训练的帧内预测方法及装置
CN104601992B (zh) 基于贝叶斯最小风险决策的skip模式快速选择方法
Sun et al. Enhanced intra prediction for video coding by using multiple neural networks
CN101588487B (zh) 一种视频帧内预测编码方法
CN102595132A (zh) 一种应用于无线传感器网络的分布式视频编解码方法
CN102377992A (zh) 运动矢量的预测值的获取方法和装置
CN113079376A (zh) 对静止区域的视频编码方法和装置
CN102592130B (zh) 一种针对水下显微视频的目标识别系统及其视频编码方法
JP4216769B2 (ja) 動画像符号化方法、動画像符号化装置、動画像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN103533369B (zh) 一种可分级视频编码空间增强层的快速模式选择方法
CN100586185C (zh) 一种h.264视频降低分辨率转码的模式选择方法
CN103313064B (zh) 基于帧间模式和运动修补的时域错误隐藏方法
Zhang et al. Edge-detection based fast intra-mode selection for depth map coding in 3D-HEVC
CN111263158B (zh) 一种基于空间相关度的多变换核快速处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant