CN111462261B - 针对h.266/vvc的快速cu分区和帧内决策方法 - Google Patents

针对h.266/vvc的快速cu分区和帧内决策方法 Download PDF

Info

Publication number
CN111462261B
CN111462261B CN202010262211.8A CN202010262211A CN111462261B CN 111462261 B CN111462261 B CN 111462261B CN 202010262211 A CN202010262211 A CN 202010262211A CN 111462261 B CN111462261 B CN 111462261B
Authority
CN
China
Prior art keywords
current
mode
intra
division
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010262211.8A
Other languages
English (en)
Other versions
CN111462261A (zh
Inventor
张秋闻
黄立勋
蒋斌
王祎菡
吴庆岗
常化文
王晓
张伟伟
赵永博
崔腾耀
郭睿骁
赵进超
孟颍辉
钱晓亮
甘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202010262211.8A priority Critical patent/CN111462261B/zh
Publication of CN111462261A publication Critical patent/CN111462261A/zh
Application granted granted Critical
Publication of CN111462261B publication Critical patent/CN111462261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提出了一种针对H.266/VVC的快速CU分区和帧内决策方法,其步骤为:首先,利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域、普通区域或复杂区域;其次,针对平滑区域和普通区域利用原始预测方式进行编码,输出最佳帧内模式预测;针对复杂区域利用随机森林分类器模型进行分类;最后,利用基于纹理区域特征的快速帧内预测模式优化方法对复杂区域进行帧内模式预测,输出最佳帧内模式。本发明通过基于随机森林分类器和基于纹理区域特征的快速帧内预测模式优化方法对CU进行帧内编码预测,得到最优的帧内编码模式,能够减少一半以上的编码模式的计算,降低了计算复杂度,节省了编码时间。

Description

针对H.266/VVC的快速CU分区和帧内决策方法
技术领域
本发明涉及图像处理技术领域,特别是指一种针对H.266/VVC的快速CU分区和帧内决策方法。
背景技术
随着诸如4K/8K超高清(UHD)之类的视频应用的兴起,视频数据量激增,对编码技术提出了更高的要求。运动图像专家组(MPEG)和视频编码专家组(VCEG)成立了联合视频探索小组(JVET),负责下一代视频编码标准-H.266/VVC项目开发。截止2020年初,JVET发布了H.266/VVC的最新版本视频测试模型(VTM8.0)。与H.265/HEVC参考软件HM相比,H.266/VVC可以保持主观视觉质量不变,并将编码效率提高大约40%。
由于H.266/VVC引入了多类型树结构(MTT)包括二叉树和三叉树结构,多类型树结构带来了显著地编码效率,但也增加了编码复杂度。同时,帧内预测模式从35种增加至67种,这与提供35种预测模式的H.265/HEVC相比,能够提供更准确的预测。这些新颖技术显著增强了H.266/VVC的编码性能,但导致了极高的计算复杂度。在“All Intra”的配置条件下,VTM的帧内编码复杂度是HEVC测试模型(HM)的18倍。因此,对于H.266/VVC来说,开发一种满足潜在市场实际需求的快速编码方法至关重要。
鉴于上述问题,目前已经提出了许多快速H.266/VVC算法,Z.Wang等人提出了一种基于置信区间的提前终止方案,用于四叉树加二叉树(quadtree plus binary tree,QTBT)在率失真优化(Rate-distortion optimization,RDO)上识别不必要的分区模式。Z.Wang等人还提出了一种有效的QTBT分区决策算法,以实现编码计算复杂度和率失真RD性能之间的良好平衡,该算法提出了一种联合分类器决策树结构,以消除不必要的迭代并控制错误预测的风险。为了提高H.266/VVC中四叉树和二叉树结构的复杂性,T.Lin等人提出了一种基于空间特征的快速划分决策方法。S.De-Luxán-Hernández等人引入了几种快速帧内算法,以减少测试次数并改善复杂度和增益之间的总体平衡。T.Fu等人提出了一种基于贝叶斯决策规则的新型快速块划分算法,该算法充分利用了基于水平分割的父CU与子CU之间的相关性,从而加快了H.266/VVC的帧内编码。根据相邻大编码单元(large coding unit,LCU)的平均深度信息,预先确定是否终止CU分解。J.Chen等人通过使用相邻CU的编码模式,可以在有效消除不必要的率失真优化RDO,以加速H.266/VVC编码。M.Lei等人提出了一种基于PU大小的修剪算法,以减少冗余的多类型树MTT分区,其目的是通过提前识别不必要的划分方向来加快帧内编码。S.Park等人提出了H.266/VVC中的快速早期跳过帧内编码方法,该方法可以跳过冗余的多类型树修剪。J.Chen等人提出了一种基于方差和梯度的快速帧内分割算法,以解决H.266/VVC中的矩形分割问题,该算法的基本思想主要是使用较大的CU和子CU分别预测均匀区域和复杂纹理区域。H.Yang等人提出了一种基于H.266/VVC的快速帧内编码算法,该算法结合了基于统计学习的低复杂度CTU结构推导方法和基于梯度下降的快速帧内模式判决方法,以加快运算速度。
基于深度学习或机器学习的算法也可以加速H.266/VVC的编码。Z.Jin等人提出了快速CU深度决策方案,将深度范围建模为一个多类分类问题来加速H.266/VVC中的帧内编码。G.Tang等人开发了一种基于H.266/VVC的自适应CU分区决策算法,该算法利用可变的CNN对CU分区进行优化,避免了计算率失真RD。T.Amestoy等人使用了一种可调的基于机器学习的QTBT分区方案,该方案利用随机森林分类器RFC来确定每个CU最可能的分区模式。T.L.Lin等人提出了一种基于空间特征的H.266/VVC中CU分区快速决策方法,在四叉树QT和二叉树BT决策过程中引入了像素域的不同空间特征。
发明内容
针对现有编码方法存在计算复杂度较高的技术问题,本发明提出了一种针对H.266/VVC的快速CU分区和帧内决策方法,首先利用基于随机森林分类器RFC模型对CU进行分类,然后根据分类结果利用基于纹理区域特征的快速帧内预测模式优化方法对CU进行帧内编码预测,得到最优的帧内编码模式,降低了计算复杂度,节省了编码时间。
本发明的技术方案是这样实现的:
一种针对H.266/VVC的快速CU分区和帧内决策方法,其步骤如下:
S1、利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU;
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6;
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5;
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分,返回步骤S3对划分后的CU进行深度判断;
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU划分为子CU;
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式。
所述步骤S1中利用标准差计算当前CU的纹理复杂度的方法为:
Figure BDA0002439829710000031
其中,W表示当前CU的宽度,H表示当前CU的高度,PC(x,y)代表相对复杂度,(x,y)表示当前CU中像素的位置;
所述相对复杂度PC(x,y)为:
PC(x,y)=PMADP(x,y)×SD   (2),
其中,PMADP(x,y)表示像素间绝对差的均值,SD表示当前CU的标准差;
所述像素间绝对差的均值PMADP(x,y)为:
Figure BDA0002439829710000032
其中,P(x,y)表示在当前CU中位置(x,y)的像素值;
所述当前CU的标准差SD为:
Figure BDA0002439829710000033
所述步骤S5中利用原始预测方式对当前CU进行编码,输出最佳帧内模式的方法为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个率失真值RD对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
所述特征属性包括熵、对比度和逆差矩;
所述熵反映图像的信息量,表达式为:
Figure BDA0002439829710000034
其中,ENT表示当前CU的熵;
所述对比度反映图像的纹理深度,表达式为:
Figure BDA0002439829710000041
其中,CON表示当前CU的对比度;
所述逆差矩反映图像纹理局部变化的大小,表达式为:
Figure BDA0002439829710000042
其中,IDM表示当前CU的逆差矩。
所述利用随机森林分类器模型进行分类的方法为:
S61、采集M个视频序列,每个视频序列各N帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集,数据集包括样本集S和测试集T,其中,划分结果包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分;
S62、利用基于Bagging集成方法对样本集S进行重采样生成训练样本集
Figure BDA0002439829710000043
S63、随机选择一个训练样本
Figure BDA0002439829710000044
并将训练样本
Figure BDA0002439829710000045
作为当前节点,其中,i=1,2,…,K表示第i个训练样本,K表示训练样本集的大小;
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
S65、计算左子树、右子树分别与最优分裂属性的距离,将距离较小的子树作为当前节点,循环执行步骤S64,直至节点深度为D,得到训练样本
Figure BDA0002439829710000046
对应的决策树Ti
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式。
所述利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的方法为:
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42;
S72、利用Canny算子计算子CU的每个像素的梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1)   (10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1)   (11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、根据步骤S72中的每个像素的梯度计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)|   (12),
Figure BDA0002439829710000051
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、
Figure BDA0002439829710000052
(0,1)和
Figure BDA0002439829710000053
计算各像素在四个方向上的投影:
Figure BDA0002439829710000054
Figure BDA0002439829710000055
Figure BDA0002439829710000056
Figure BDA0002439829710000057
其中,
Figure BDA0002439829710000058
Figure BDA0002439829710000059
分别代表各像素在0°、45°、90°、135°方向上投影;
S75、计算子CU的像素在四个方向上的投影总和,即能量:
Figure BDA00024398297100000510
其中,Pd表示d方向对应的能量,d∈{0°、45°、90°、145°},W'表示子CU的宽度,H'表示子CU的高度,
Figure BDA00024398297100000511
表示
Figure BDA00024398297100000512
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P、P45°、P90°、P145°相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向的模式对子CU进行编码预测,并计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向的模式对子CU进行编码预测,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式。
本技术方案能产生的有益效果:本发明首先在基于RFC的快速CU划分方法中,根据纹理复杂度,将CU分为平滑区域、普通区域和复杂区域,平滑区域和普通区域则采用原始帧内编码过程进行编码预测,而复杂区域的CU使用提前训练好的RFC模型进行分类,然后再基于纹理区域特征的快速帧内预测模式优化方法对分类后的CU进行帧内模式预测,将帧内预测模式分为0°、45°、90°和135°四类,分别计算这四类模式的能量并舍弃能量较小的编码方式,可减少一半以上的帧内编码模式,从而优化了帧内预测模式选择,降低了计算复杂度,节省了编码时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的随机森林分类器离线训练的结构图;
图3为本发明的帧内预测模式的分类图;
图4为本发明方法与FPIC、FCPD、JCDT和CSD-SL方法的节省的编码时间对比结果图;
图5为本发明方法与FPIC、FCPD、JCDT和CSD-SL方法的增加的BDBR对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种针对H.266/VVC的快速CU分区和帧内决策方法,具体步骤如下:
S1、在图像编码过程中,单一区域的图像内容往往采用较大的CU进行编码。相反,具有丰富细节的区域通常使用较小的CU进行编码。因此,利用当前CU的纹理复杂度来判断CU是被直接分割还是跳过。
当前CU的纹理复杂度的表达式为:
Figure BDA0002439829710000071
其中,W表示当前CU的宽度,H表示当前CU的高度,PC(x,y)代表相对复杂度,(x,y)表示当前CU中像素的位置。
所述相对复杂度PC(x,y)是使用当前CU的像素的标准差(Standard Deviation,SD)和像素间绝对差的均值(Mean of Absolute Difference between Pixels,MADP)来计算的:
PC(x,y)=PMADP(x,y)×SD   (2),
其中,PMADP(x,y)表示像素间绝对差的均值,SD表示当前CU的标准差,标准差(Standard Deviation,SD)可以用来粗略地测量CU的纹理复杂度。
利用像素间绝对差的均值来定义每个像素与其周围像素之间的差值,用来表示像素间的复杂度,可以更准确的表示CU的纹理复杂度,所述像素间绝对差的均值PMADP(x,y)为:
Figure BDA0002439829710000072
其中,P(x,y)表示在当前CU中位置(x,y)的像素值。
所述当前CU的标准差SD为:
Figure BDA0002439829710000073
将纹理复杂度与预设的阈值进行比较,从而对纹理复杂度进行分类。因此,根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU。由于相邻块的纹理复杂度与当前CU有关,根据相邻块的纹理复杂度来推导阈值。当前CU相邻块中的最大纹理复杂度TC值和最小纹理复杂度TC值分别为分类阈值THsplit和不分裂阈值THnon_split。如果CU的纹理复杂度TC值小于阈值THnon_split,说明当前CU属于平滑区域,其中平滑区域的CU不需要继续分割;若CU的纹理复杂度TC值大于阈值THsplit,则CU属于复杂区域,则使用提前训练好的随机森林分类器RFC模型进行分类;如果当前CU的纹理复杂度TC值在THsplit和THnon_split之间,则当前CU属于普通区域,普通区域中的CU按照原来的预测过程进行编码。
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6。
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5。深度的计算方法为如果当前块进行划分,则深度值加1,不划分,否则,不划分,深度值不变。
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分(对当前CU分别进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分,并计算每种划分方式得到的子CU的率失真值,将最小的率失真值对应的划分方式作为最优划分方式),返回步骤S3对划分后的CU进行深度判断。
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;原始预测方式为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个(N’的大小是根据CU块的大小进行选取的,不同的大小对应的个数不同,根据具体当前CU块的大小来定)RD值对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU进行划分为子CU。
随机森林算法是利用多棵树对样本进行学习训练并预测的一种组合分类器,随机森林其实就是一个由多棵决策树组成的分类器,并且其输出类别由各棵决策树输出结果的众数而决定。随机森林由决策树集成,本质上属于同质集成方法。随机森林是由两大随机化思想决定的,即Bagging思想和随机子空间思想。Bagging属于典型的集成学习算法,它是基于自助聚集方法(Bootstrap)重采样产生多个训练集,从原始训练样本集中随机等量抽取样本,重复有放回抽取生成K个新的训练样本集,最终得到K个新样本集;随机子空间方法RSM也是集成学习的一种,RSM也称Attribute Bagging或者Feature Bagging。随机子空间思想是在对每棵决策树的每个节点(非叶节点)进行分裂时,从所有特征属性集中随机等概率地抽取一个子属性集。然后从中选择一个最优属性来分裂节点以此来降低每个分类器之间的相关性,提高分类精确度。森林中的每棵决策树由随机抽取样本和随机抽取属性的方式建立,多棵树组合起来称为“随机森林”,即随机森林算法就是Bagging方法和RSM的组合。
随机森林算法基于Bootstrap重采样生成K个自助样本集,每个样本集的数据生长为一棵决策树;在每棵树的节点处,基于随机子空间方法RSM,从M个特征向量中随机抽取m(m<<M)个特征。按照一定的节点分裂算法,从m个特征中选择最优属性进行分支生长;最终将K棵决策树组合起来进行众数投票。随机森林生成后,取一个新的样本进行测试,森林中的每棵树都会独立判定分类结果,最终决策取相同判定最多的分类类别,用公式表示如下:
Figure BDA0002439829710000091
其中,H(t)表示组合分类模型,hi(t)是单个分类树模型,t表示决策树的特征属性,Y表示输出变量,i=1,2,…,K表示第i个训练样本,K表示训练样本集的大小,I(·)表示集合的示性函数(即当集合内有出现某个分类结果时,函数值为1,否则为0)。
尽管随机森林可以处理超高维特征数据,选取出真正相关的特征向量可以更好地推广分类模型。为了衡量提出的图像特征对分类的有效性,选取灰度共生矩阵的四个方向(0°,45°,90°,135°)的熵、对比度、逆差距作为随机森林分类器模型的特征属性。
所述熵反映图像的信息量,值越大说明图像信息量越大,越有可能被划分,反之亦然,表达式为:
Figure BDA0002439829710000092
其中,ENT表示当前CU的熵。
所述对比度反映图像的纹理深度,值越大说明纹理深度越大,越有可能划分,反之亦然,表达式为:
Figure BDA0002439829710000093
其中,CON表示当前CU的对比度。
所述逆差矩反映图像纹理局部变化的大小,若图像纹理的不同区域间较均匀,变化缓慢,逆差矩会较大,越有可能被划分,反之亦然,表达式为:
Figure BDA0002439829710000094
其中,IDM表示当前CU的逆差矩。
所述利用随机森林分类器模型进行分类的方法为:
S61、采集M=4个视频序列,每个视频序列各N=50帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集(不干扰正常编码过程),数据集包括样本集S=4*20帧和测试集T=4*30帧,其中,划分包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分。
S62、利用基于Bagging集成方法对样本集S进行重采样生成训练样本集
Figure BDA0002439829710000101
通过Bagging集成方法重采样产生多个训练集,从原始训练样本集中随机等量抽取样本,重复有放回抽取生成K个新的训练样本集;样本提取后,进入模型训练模块,图2显示了随机森林分类器RFC模型进行离线训练的过程。
S63、随机选择一个训练样本
Figure BDA0002439829710000104
并将训练样本
Figure BDA0002439829710000105
作为当前节点,其中,i=1,2,…,K表示第i个训练样本,K表示训练样本集的大小;
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
Gini指标系数的计算公式为:
Figure BDA0002439829710000102
其中,c代表类别这里c=6,p(i'|t)代表节点t分为类i'的概率。
S65、计算左子树、右子树分别与最优分裂属性的距离,将距离较小的子树作为当前节点,循环执行步骤S64,直至节点深度为D=30,得到训练样本
Figure BDA0002439829710000103
对应的决策树Ti
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式。分类的具体实现方法为:将抽取的训练样本集中的每个样本,作为决策树的根节点,通过计算随机选择属性的Gini指标系数,其中最小的为决策树生长的属性,来生成完整的决策树,每棵决策树都可以得到一种划分结果,得到的结果中最多的为最终的划分结果。
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式。根据统计数据,可以得出结论,率失真优化RDO处理生成的编码时间超过了总编码时间的一半。因此,在利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的这种方法中减少了参与计算率失真优化RDO帧内模式的数量,以减少复杂度和编码时间。除CU分区外,H.266/VVC的帧内预测模式与纹理特征具有很强的相关性,纹理特征代表了图像中对应事物的性质,纹理方向是一个重要的纹理特征,通过实验得到了H.266/VVC预测模式选择的规律。
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,如图3所示,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42,每一个数字代表一种模式,一共67种模式。
S72、利用Canny算子计算子CU的每个像素的梯度,Canny算子的计算很简单,因此可以快速计算出梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1)   (10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1)   (11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、为了减少计算量,利用步骤S72中的每个像素的梯度的绝对值运算来代替平方运算来粗略计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)|   (12),
Figure BDA0002439829710000111
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、在获取图像当前区域的纹理方向时,是基于每个像素进行计算的。在本发明中,计算出当前像素的梯度矢量后,可以将该矢量分别投影到所定义的方向上,则可以得到其在每个方向上的分量,因此,可以得到投影的计算公式,
Figure BDA0002439829710000112
Figure BDA0002439829710000113
其中,d为向量
Figure BDA0002439829710000114
投影到向量
Figure BDA0002439829710000115
的值,
Figure BDA0002439829710000116
为向量
Figure BDA0002439829710000117
的模,
Figure BDA0002439829710000118
为向量
Figure BDA0002439829710000119
的模。(xa,ya)和(xb,yb)分别表示向量
Figure BDA00024398297100001110
Figure BDA00024398297100001111
的坐标,β为向量
Figure BDA00024398297100001112
Figure BDA00024398297100001113
之间的夹角。
每个像素的纹理方向垂直于梯度方向,由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、
Figure BDA00024398297100001114
(0,1)和
Figure BDA00024398297100001115
计算各像素在四个方向上的投影:
Figure BDA00024398297100001116
Figure BDA00024398297100001117
Figure BDA00024398297100001118
Figure BDA0002439829710000121
其中,
Figure BDA0002439829710000122
Figure BDA0002439829710000123
分别代表各像素在0°、45°、90°、135°方向上投影;
S75、根据CU各像素点在四个方向上的梯度投影,判断CU的纹理方向。因此,计算子CU的像素在四个方向上的投影总和,将每个方向上投影之和定义为该方向的能量:
Figure BDA0002439829710000124
其中,Pd'表示d'方向对应的能量,d'∈{0°、45°、90°、145°},W'表示子CU的宽度,H'表示子CU的高度,Pd'x'y'表示
Figure BDA0002439829710000125
Figure BDA0002439829710000126
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P、P45°、P90°、P145°相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α=0.8表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向对应的模式对子CU进行率失真计算,可将预测模式减少一半,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向对应的模式对子CU进行率失真计算,可将预测模式减少3/4,并通过计算率失真值,将率失真值最小的模式作为最佳的帧内预测模式,率失真J的计算公式为:
J=D'+λ×R   (21),
其中,D'表示不同预测模式的率失真,λ表示拉格朗日乘数,R表示不同预测模式编码使用的比特数。
为了评估本发明的方法,在最新的H.266/VVC编码器(VTM 7.0)上进行了仿真测试。测试视频序列在“All Intra”配置中使用默认参数进行编码。BDBR反映了本发明的压缩性能,节省的时间(TS)体现了复杂性的降低。表1给出了本发明的编码特性,该发明可以节省52.90%的编码运行时间,平均BDBR增量为0.91%。因此,本发明可以有效地节省编码时间,并且RD性能的损失可以忽略不计。
表1本发明的编码特性
Figure BDA0002439829710000131
从表1可以看出本发明的与VTM相比RD性能和节省的编码运行时间。对于不同的测试视频,可能实验结果可能会有所波动,但是对本发明提出的方法是有效的。与VTM相比,本发明可以有效地增加时间节省,并具有良好的RD性能。
将本发明方法与最新的H.266/VVC快速方法相比较。这些方法包括FPIC、FCPD、JCDT和CSD-SL。图4和图5分别给出了节省编码时间和BDBR的编码结果,由图4和图5可知,与FPIC、FCPD、JCDT和CSD-SL方法相比,本发明在减轻计算负担方面具有更高的性能,可进一步节省约0.74-18.14%的编码时间。与FPIC、JCDT和CSD-SL方法相比,本发明方法具有更好的编码效率,可以进一步降低BD率0.48-3.15%。这些结果表明,本发明对于视频序列的所有分类都是有效的,并且计算复杂度优于H.266/VVC的最新快速方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,其步骤如下:
S1、利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU;
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6;
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5;
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分,返回步骤S3对划分后的CU进行深度判断;
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU划分为子CU;
所述利用随机森林分类器模型进行分类的方法为:
S61、采集M个视频序列,每个视频序列各N帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集,数据集包括样本集S和测试集T,其中,划分结果包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分;
S62、利用基于Bagging集成方法对样本集S进行重采样生成训练样本集
Figure FDA0004059086140000011
S63、随机选择一个训练样本
Figure FDA0004059086140000012
并将训练样本
Figure FDA0004059086140000013
作为当前节点,其中,i=1,2,…,K表示第i个训练样本,K表示训练样本集的大小;
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
S65、计算左子树、右子树分别与最优分裂属性的距离,将距离较小的子树作为当前节点,循环执行步骤S64,直至节点深度为D,得到训练样本
Figure FDA0004059086140000014
对应的决策树Ti
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式;
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式;
所述利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的方法为:
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42;
S72、利用Canny算子计算子CU的每个像素的梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1)(10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1)(11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、根据步骤S72中的每个像素的梯度计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)|(12),
Figure FDA0004059086140000021
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、
Figure FDA0004059086140000022
(0,1)和
Figure FDA0004059086140000023
计算各像素在四个方向上的投影:
Figure FDA0004059086140000024
Figure FDA0004059086140000025
Figure FDA0004059086140000026
Figure FDA0004059086140000027
其中,
Figure FDA0004059086140000028
Figure FDA0004059086140000029
分别代表各像素在0°、45°、90°、135°方向上投影;
S75、计算子CU的像素在四个方向上的投影总和,即能量:
Figure FDA0004059086140000031
其中,Pd表示d方向对应的能量,d∈{0°、45°、90°、145°},W'表示子CU的宽度,H'表示子CU的高度,
Figure FDA0004059086140000032
表示
Figure FDA0004059086140000033
Figure FDA0004059086140000034
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P0o、P45o、P90o、P145o相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向的模式对子CU进行编码预测,并计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向的模式对子CU进行编码预测,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式。
2.根据权利要求1所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述步骤S1中利用标准差计算当前CU的纹理复杂度的方法为:
Figure FDA0004059086140000035
其中,W表示当前CU的宽度,H表示当前CU的高度,PC(x,y)代表相对复杂度,(x,y)表示当前CU中像素的位置;
所述相对复杂度PC(x,y)为:
PC(x,y)=PMADP(x,y)×SD    (2),
其中,PMADP(x,y)表示像素间绝对差的均值,SD表示当前CU的标准差;
所述像素间绝对差的均值PMADP(x,y)为:
Figure FDA0004059086140000036
其中,P(x,y)表示在当前CU中位置(x,y)的像素值;
所述当前CU的标准差SD为:
Figure FDA0004059086140000041
3.根据权利要求1所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述步骤S5中利用原始预测方式对当前CU进行编码,输出最佳帧内模式的方法为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个率失真值RD对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
4.根据权利要求1或2所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述特征属性包括熵、对比度和逆差矩;
所述熵反映图像的信息量,表达式为:
Figure FDA0004059086140000042
其中,ENT表示当前CU的熵;
所述对比度反映图像的纹理深度,表达式为:
Figure FDA0004059086140000043
其中,CON表示当前CU的对比度;
所述逆差矩反映图像纹理局部变化的大小,表达式为:
Figure FDA0004059086140000044
其中,IDM表示当前CU的逆差矩。
CN202010262211.8A 2020-04-06 2020-04-06 针对h.266/vvc的快速cu分区和帧内决策方法 Active CN111462261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010262211.8A CN111462261B (zh) 2020-04-06 2020-04-06 针对h.266/vvc的快速cu分区和帧内决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010262211.8A CN111462261B (zh) 2020-04-06 2020-04-06 针对h.266/vvc的快速cu分区和帧内决策方法

Publications (2)

Publication Number Publication Date
CN111462261A CN111462261A (zh) 2020-07-28
CN111462261B true CN111462261B (zh) 2023-05-05

Family

ID=71683633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010262211.8A Active CN111462261B (zh) 2020-04-06 2020-04-06 针对h.266/vvc的快速cu分区和帧内决策方法

Country Status (1)

Country Link
CN (1) CN111462261B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291562B (zh) * 2020-10-29 2022-06-14 郑州轻工业大学 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN112104868B (zh) * 2020-11-05 2021-02-05 电子科技大学 一种针对vvc帧内编码单元划分的快速决策方法
CN112601087B (zh) * 2020-11-23 2022-10-18 郑州轻工业大学 一种针对h.266/vvc的快速cu分裂模式决策方法
CN112437310B (zh) * 2020-12-18 2022-07-08 重庆邮电大学 一种基于随机森林的vvc帧内编码快速cu划分决策方法
CN112770115B (zh) * 2020-12-25 2024-02-20 杭州电子科技大学 一种基于方向梯度统计特征的快速帧内预测模式决策方法
CN114666590A (zh) * 2022-05-25 2022-06-24 宁波康达凯能医疗科技有限公司 一种基于负载均衡的全视场视频编码方法与系统
CN115802044B (zh) * 2023-02-06 2023-08-18 深流微智能科技(深圳)有限公司 编码块划分方式的确定及装置、设备及存储介质
CN116456088A (zh) * 2023-03-30 2023-07-18 重庆邮电大学 一种基于可能性大小的vvc帧内快速编码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338371A (zh) * 2013-06-07 2013-10-02 东华理工大学 一种快速高效率视频编码帧内模式判决方法
WO2018124332A1 (ko) * 2016-12-28 2018-07-05 엘지전자(주) 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013074964A1 (en) * 2011-11-16 2013-05-23 Vanguard Software Solutions, Inc. Video compression for high efficiency video coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338371A (zh) * 2013-06-07 2013-10-02 东华理工大学 一种快速高效率视频编码帧内模式判决方法
WO2018124332A1 (ko) * 2016-12-28 2018-07-05 엘지전자(주) 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
CN109905712A (zh) * 2019-01-09 2019-06-18 西安邮电大学 基于ResNet的HEVC帧内编码快速模式决策算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于机器学习的HEVC快速帧内预测算法研究进展;艾达等;《现代电子技术》(第18期);全文 *
结合随机森林的FVC帧内编码单元快速划分;任妍等;《中国图象图形学报》(第05期);全文 *

Also Published As

Publication number Publication date
CN111462261A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462261B (zh) 针对h.266/vvc的快速cu分区和帧内决策方法
Yang et al. Low-complexity CTU partition structure decision and fast intra mode decision for versatile video coding
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
Wu et al. HG-FCN: Hierarchical grid fully convolutional network for fast VVC intra coding
Jin et al. CNN oriented fast QTBT partition algorithm for JVET intra coding
Ryu et al. Machine learning-based fast angular prediction mode decision technique in video coding
CN111429497B (zh) 基于深度学习和多特征融合的自适应cu拆分决策方法
Hu et al. Fast HEVC intra mode decision based on logistic regression classification
WO2014190468A1 (en) Video encoder for images
CN103517069A (zh) 一种基于纹理分析的hevc帧内预测快速模式选择方法
CN105430391B (zh) 基于逻辑回归分类器的帧内编码单元快速选择方法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN111479110B (zh) 针对h.266/vvc的快速仿射运动估计方法
Zhang et al. Fast CU decision-making algorithm based on DenseNet network for VVC
CN112291562B (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN110996101B (zh) 一种视频编码的方法和装置
CN112437310B (zh) 一种基于随机森林的vvc帧内编码快速cu划分决策方法
CN106534849A (zh) 一种快速的hevc帧间编码方法
US6594375B1 (en) Image processing apparatus, image processing method, and storage medium
Zhang et al. Low-complexity intra coding scheme based on Bayesian and L-BFGS for VVC
Zhao et al. ResNet-based fast CU partition decision algorithm for VVC
CN110225339A (zh) 一种hevc视频序列编解码加速方法
CN111741313A (zh) 基于图像熵k均值聚类的3d-hevc快速cu分割方法
CN114222133A (zh) 一种基于分类的内容自适应vvc帧内编码快速划分方法
Li et al. Resnet approach for coding unit fast splitting decision of hevc intra coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant