CN111462261A - 针对h.266/vvc的快速cu分区和帧内决策方法 - Google Patents
针对h.266/vvc的快速cu分区和帧内决策方法 Download PDFInfo
- Publication number
- CN111462261A CN111462261A CN202010262211.8A CN202010262211A CN111462261A CN 111462261 A CN111462261 A CN 111462261A CN 202010262211 A CN202010262211 A CN 202010262211A CN 111462261 A CN111462261 A CN 111462261A
- Authority
- CN
- China
- Prior art keywords
- current
- mode
- intra
- sub
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000005192 partition Methods 0.000 title claims abstract description 18
- 238000007637 random forest analysis Methods 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 30
- 238000000638 solvent extraction Methods 0.000 claims description 25
- 238000003066 decision tree Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012952 Resampling Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 229910002056 binary alloy Inorganic materials 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000004422 calculation algorithm Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 10
- 101150045531 FCPD gene Proteins 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 102100031397 Copper homeostasis protein cutC homolog Human genes 0.000 description 1
- 101000941325 Homo sapiens Copper homeostasis protein cutC homolog Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提出了一种针对H.266/VVC的快速CU分区和帧内决策方法,其步骤为:首先,利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域、普通区域或复杂区域;其次,针对平滑区域和普通区域利用原始预测方式进行编码,输出最佳帧内模式预测;针对复杂区域利用随机森林分类器模型进行分类;最后,利用基于纹理区域特征的快速帧内预测模式优化方法对复杂区域进行帧内模式预测,输出最佳帧内模式。本发明通过基于随机森林分类器和基于纹理区域特征的快速帧内预测模式优化方法对CU进行帧内编码预测,得到最优的帧内编码模式,能够减少一半以上的编码模式的计算,降低了计算复杂度,节省了编码时间。
Description
技术领域
本发明涉及图像处理技术领域,特别是指一种针对H.266/VVC的快速CU分区和帧内决策方法。
背景技术
随着诸如4K/8K超高清(UHD)之类的视频应用的兴起,视频数据量激增,对编码技术提出了更高的要求。运动图像专家组(MPEG)和视频编码专家组(VCEG)成立了联合视频探索小组(JVET),负责下一代视频编码标准-H.266/VVC项目开发。截止2020年初,JVET发布了H.266/VVC的最新版本视频测试模型(VTM8.0)。与H.265/HEVC参考软件HM相比,H.266/VVC可以保持主观视觉质量不变,并将编码效率提高大约40%。
由于H.266/VVC引入了多类型树结构(MTT)包括二叉树和三叉树结构,多类型树结构带来了显著地编码效率,但也增加了编码复杂度。同时,帧内预测模式从35种增加至67种,这与提供35种预测模式的H.265/HEVC相比,能够提供更准确的预测。这些新颖技术显著增强了H.266/VVC的编码性能,但导致了极高的计算复杂度。在“All Intra”的配置条件下,VTM的帧内编码复杂度是HEVC测试模型(HM)的18倍。因此,对于H.266/VVC来说,开发一种满足潜在市场实际需求的快速编码方法至关重要。
鉴于上述问题,目前已经提出了许多快速H.266/VVC算法,Z.Wang等人提出了一种基于置信区间的提前终止方案,用于四叉树加二叉树(quadtree plus binary tree,QTBT)在率失真优化(Rate-distortion optimization,RDO)上识别不必要的分区模式。Z.Wang等人还提出了一种有效的QTBT分区决策算法,以实现编码计算复杂度和率失真RD性能之间的良好平衡,该算法提出了一种联合分类器决策树结构,以消除不必要的迭代并控制错误预测的风险。为了提高H.266/VVC中四叉树和二叉树结构的复杂性,T.Lin等人提出了一种基于空间特征的快速划分决策方法。S.De-Luxán-Hernández等人引入了几种快速帧内算法,以减少测试次数并改善复杂度和增益之间的总体平衡。T.Fu等人提出了一种基于贝叶斯决策规则的新型快速块划分算法,该算法充分利用了基于水平分割的父CU与子CU之间的相关性,从而加快了H.266/VVC的帧内编码。根据相邻大编码单元(large coding unit,LCU)的平均深度信息,预先确定是否终止CU分解。J.Chen等人通过使用相邻CU的编码模式,可以在有效消除不必要的率失真优化RDO,以加速H.266/VVC编码。M.Lei等人提出了一种基于PU大小的修剪算法,以减少冗余的多类型树MTT分区,其目的是通过提前识别不必要的划分方向来加快帧内编码。S.Park等人提出了H.266/VVC中的快速早期跳过帧内编码方法,该方法可以跳过冗余的多类型树修剪。J.Chen等人提出了一种基于方差和梯度的快速帧内分割算法,以解决H.266/VVC中的矩形分割问题,该算法的基本思想主要是使用较大的CU和子CU分别预测均匀区域和复杂纹理区域。H.Yang等人提出了一种基于H.266/VVC的快速帧内编码算法,该算法结合了基于统计学习的低复杂度CTU结构推导方法和基于梯度下降的快速帧内模式判决方法,以加快运算速度。
基于深度学习或机器学习的算法也可以加速H.266/VVC的编码。Z.Jin等人提出了快速CU深度决策方案,将深度范围建模为一个多类分类问题来加速H.266/VVC中的帧内编码。G.Tang等人开发了一种基于H.266/VVC的自适应CU分区决策算法,该算法利用可变的CNN对CU分区进行优化,避免了计算率失真RD。T.Amestoy等人使用了一种可调的基于机器学习的QTBT分区方案,该方案利用随机森林分类器RFC来确定每个CU最可能的分区模式。T.L.Lin等人提出了一种基于空间特征的H.266/VVC中CU分区快速决策方法,在四叉树QT和二叉树BT决策过程中引入了像素域的不同空间特征。
发明内容
针对现有编码方法存在计算复杂度较高的技术问题,本发明提出了一种针对H.266/VVC的快速CU分区和帧内决策方法,首先利用基于随机森林分类器RFC模型对CU进行分类,然后根据分类结果利用基于纹理区域特征的快速帧内预测模式优化方法对CU进行帧内编码预测,得到最优的帧内编码模式,降低了计算复杂度,节省了编码时间。
本发明的技术方案是这样实现的:
一种针对H.266/VVC的快速CU分区和帧内决策方法,其步骤如下:
S1、利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU;
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6;
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5;
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分,返回步骤S3对划分后的CU进行深度判断;
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU划分为子CU;
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式。
所述步骤S1中利用标准差计算当前CU的纹理复杂度的方法为:
其中,W表示当前CU的宽度,H表示当前CU的高度,PC(x,y)代表相对复杂度,(x,y)表示当前CU中像素的位置;
所述相对复杂度PC(x,y)为:
PC(x,y)=PMADP(x,y)×SD (2),
其中,PMADP(x,y)表示像素间绝对差的均值,SD表示当前CU的标准差;
所述像素间绝对差的均值PMADP(x,y)为:
其中,P(x,y)表示在当前CU中位置(x,y)的像素值;
所述当前CU的标准差SD为:
所述步骤S5中利用原始预测方式对当前CU进行编码,输出最佳帧内模式的方法为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个率失真值RD对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
所述特征属性包括熵、对比度和逆差矩;
所述熵反映图像的信息量,表达式为:
其中,ENT表示当前CU的熵;
所述对比度反映图像的纹理深度,表达式为:
其中,CON表示当前CU的对比度;
所述逆差矩反映图像纹理局部变化的大小,表达式为:
其中,IDM表示当前CU的逆差矩。
所述利用随机森林分类器模型进行分类的方法为:
S61、采集M个视频序列,每个视频序列各N帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集,数据集包括样本集S和测试集T,其中,划分结果包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分;
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式。
所述利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的方法为:
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42;
S72、利用Canny算子计算子CU的每个像素的梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1) (10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1) (11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、根据步骤S72中的每个像素的梯度计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)| (12),
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、(0,1)和计算各像素在四个方向上的投影:
S75、计算子CU的像素在四个方向上的投影总和,即能量:
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P0°、P45°、P90°、P145°相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向的模式对子CU进行编码预测,并计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向的模式对子CU进行编码预测,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式。
本技术方案能产生的有益效果:本发明首先在基于RFC的快速CU划分方法中,根据纹理复杂度,将CU分为平滑区域、普通区域和复杂区域,平滑区域和普通区域则采用原始帧内编码过程进行编码预测,而复杂区域的CU使用提前训练好的RFC模型进行分类,然后再基于纹理区域特征的快速帧内预测模式优化方法对分类后的CU进行帧内模式预测,将帧内预测模式分为0°、45°、90°和135°四类,分别计算这四类模式的能量并舍弃能量较小的编码方式,可减少一半以上的帧内编码模式,从而优化了帧内预测模式选择,降低了计算复杂度,节省了编码时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的随机森林分类器离线训练的结构图;
图3为本发明的帧内预测模式的分类图;
图4为本发明方法与FPIC、FCPD、JCDT和CSD-SL方法的节省的编码时间对比结果图;
图5为本发明方法与FPIC、FCPD、JCDT和CSD-SL方法的增加的BDBR对比结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种针对H.266/VVC的快速CU分区和帧内决策方法,具体步骤如下:
S1、在图像编码过程中,单一区域的图像内容往往采用较大的CU进行编码。相反,具有丰富细节的区域通常使用较小的CU进行编码。因此,利用当前CU的纹理复杂度来判断CU是被直接分割还是跳过。
当前CU的纹理复杂度的表达式为:
其中,W表示当前CU的宽度,H表示当前CU的高度,PC(x,y)代表相对复杂度,(x,y)表示当前CU中像素的位置。
所述相对复杂度PC(x,y)是使用当前CU的像素的标准差(Standard Deviation,SD)和像素间绝对差的均值(Mean of Absolute Difference between Pixels,MADP)来计算的:
PC(x,y)=PMADP(x,y)×SD (2),
其中,PMADP(x,y)表示像素间绝对差的均值,SD表示当前CU的标准差,标准差(Standard Deviation,SD)可以用来粗略地测量CU的纹理复杂度。
利用像素间绝对差的均值来定义每个像素与其周围像素之间的差值,用来表示像素间的复杂度,可以更准确的表示CU的纹理复杂度,所述像素间绝对差的均值PMADP(x,y)为:
其中,P(x,y)表示在当前CU中位置(x,y)的像素值。
所述当前CU的标准差SD为:
将纹理复杂度与预设的阈值进行比较,从而对纹理复杂度进行分类。因此,根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU。由于相邻块的纹理复杂度与当前CU有关,根据相邻块的纹理复杂度来推导阈值。当前CU相邻块中的最大纹理复杂度TC值和最小纹理复杂度TC值分别为分类阈值THsplit和不分裂阈值THnon_split。如果CU的纹理复杂度TC值小于阈值THnon_split,说明当前CU属于平滑区域,其中平滑区域的CU不需要继续分割;若CU的纹理复杂度TC值大于阈值THsplit,则CU属于复杂区域,则使用提前训练好的随机森林分类器RFC模型进行分类;如果当前CU的纹理复杂度TC值在THsplit和THnon_split之间,则当前CU属于普通区域,普通区域中的CU按照原来的预测过程进行编码。
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6。
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5。深度的计算方法为如果当前块进行划分,则深度值加1,不划分,否则,不划分,深度值不变。
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分(对当前CU分别进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分,并计算每种划分方式得到的子CU的率失真值,将最小的率失真值对应的划分方式作为最优划分方式),返回步骤S3对划分后的CU进行深度判断。
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;原始预测方式为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个(N’的大小是根据CU块的大小进行选取的,不同的大小对应的个数不同,根据具体当前CU块的大小来定)RD值对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU进行划分为子CU。
随机森林算法是利用多棵树对样本进行学习训练并预测的一种组合分类器,随机森林其实就是一个由多棵决策树组成的分类器,并且其输出类别由各棵决策树输出结果的众数而决定。随机森林由决策树集成,本质上属于同质集成方法。随机森林是由两大随机化思想决定的,即Bagging思想和随机子空间思想。Bagging属于典型的集成学习算法,它是基于自助聚集方法(Bootstrap)重采样产生多个训练集,从原始训练样本集中随机等量抽取样本,重复有放回抽取生成K个新的训练样本集,最终得到K个新样本集;随机子空间方法RSM也是集成学习的一种,RSM也称Attribute Bagging或者Feature Bagging。随机子空间思想是在对每棵决策树的每个节点(非叶节点)进行分裂时,从所有特征属性集中随机等概率地抽取一个子属性集。然后从中选择一个最优属性来分裂节点以此来降低每个分类器之间的相关性,提高分类精确度。森林中的每棵决策树由随机抽取样本和随机抽取属性的方式建立,多棵树组合起来称为“随机森林”,即随机森林算法就是Bagging方法和RSM的组合。
随机森林算法基于Bootstrap重采样生成K个自助样本集,每个样本集的数据生长为一棵决策树;在每棵树的节点处,基于随机子空间方法RSM,从M个特征向量中随机抽取m(m<<M)个特征。按照一定的节点分裂算法,从m个特征中选择最优属性进行分支生长;最终将K棵决策树组合起来进行众数投票。随机森林生成后,取一个新的样本进行测试,森林中的每棵树都会独立判定分类结果,最终决策取相同判定最多的分类类别,用公式表示如下:
其中,H(t)表示组合分类模型,hi(t)是单个分类树模型,t表示决策树的特征属性,Y表示输出变量,i=1,2,…,K表示第i个训练样本,K表示训练样本集的大小,I(·)表示集合的示性函数(即当集合内有出现某个分类结果时,函数值为1,否则为0)。
尽管随机森林可以处理超高维特征数据,选取出真正相关的特征向量可以更好地推广分类模型。为了衡量提出的图像特征对分类的有效性,选取灰度共生矩阵的四个方向(0°,45°,90°,135°)的熵、对比度、逆差距作为随机森林分类器模型的特征属性。
所述熵反映图像的信息量,值越大说明图像信息量越大,越有可能被划分,反之亦然,表达式为:
其中,ENT表示当前CU的熵。
所述对比度反映图像的纹理深度,值越大说明纹理深度越大,越有可能划分,反之亦然,表达式为:
其中,CON表示当前CU的对比度。
所述逆差矩反映图像纹理局部变化的大小,若图像纹理的不同区域间较均匀,变化缓慢,逆差矩会较大,越有可能被划分,反之亦然,表达式为:
其中,IDM表示当前CU的逆差矩。
所述利用随机森林分类器模型进行分类的方法为:
S61、采集M=4个视频序列,每个视频序列各N=50帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集(不干扰正常编码过程),数据集包括样本集S=4*20帧和测试集T=4*30帧,其中,划分包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分。
S62、利用基于Bagging集成方法对样本集S进行重采样生成训练样本集通过Bagging集成方法重采样产生多个训练集,从原始训练样本集中随机等量抽取样本,重复有放回抽取生成K个新的训练样本集;样本提取后,进入模型训练模块,图2显示了随机森林分类器RFC模型进行离线训练的过程。
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
Gini指标系数的计算公式为:
其中,c代表类别这里c=6,p(i'|t)代表节点t分为类i'的概率。
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式。分类的具体实现方法为:将抽取的训练样本集中的每个样本,作为决策树的根节点,通过计算随机选择属性的Gini指标系数,其中最小的为决策树生长的属性,来生成完整的决策树,每棵决策树都可以得到一种划分结果,得到的结果中最多的为最终的划分结果。
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式。根据统计数据,可以得出结论,率失真优化RDO处理生成的编码时间超过了总编码时间的一半。因此,在利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的这种方法中减少了参与计算率失真优化RDO帧内模式的数量,以减少复杂度和编码时间。除CU分区外,H.266/VVC的帧内预测模式与纹理特征具有很强的相关性,纹理特征代表了图像中对应事物的性质,纹理方向是一个重要的纹理特征,通过实验得到了H.266/VVC预测模式选择的规律。
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,如图3所示,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42,每一个数字代表一种模式,一共67种模式。
S72、利用Canny算子计算子CU的每个像素的梯度,Canny算子的计算很简单,因此可以快速计算出梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1) (10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1) (11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、为了减少计算量,利用步骤S72中的每个像素的梯度的绝对值运算来代替平方运算来粗略计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)| (12),
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、在获取图像当前区域的纹理方向时,是基于每个像素进行计算的。在本发明中,计算出当前像素的梯度矢量后,可以将该矢量分别投影到所定义的方向上,则可以得到其在每个方向上的分量,因此,可以得到投影的计算公式,
每个像素的纹理方向垂直于梯度方向,由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、(0,1)和计算各像素在四个方向上的投影:
S75、根据CU各像素点在四个方向上的梯度投影,判断CU的纹理方向。因此,计算子CU的像素在四个方向上的投影总和,将每个方向上投影之和定义为该方向的能量:
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P0°、P45°、P90°、P145°相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α=0.8表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向对应的模式对子CU进行率失真计算,可将预测模式减少一半,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向对应的模式对子CU进行率失真计算,可将预测模式减少3/4,并通过计算率失真值,将率失真值最小的模式作为最佳的帧内预测模式,率失真J的计算公式为:
J=D'+λ×R (21),
其中,D'表示不同预测模式的率失真,λ表示拉格朗日乘数,R表示不同预测模式编码使用的比特数。
为了评估本发明的方法,在最新的H.266/VVC编码器(VTM 7.0)上进行了仿真测试。测试视频序列在“All Intra”配置中使用默认参数进行编码。BDBR反映了本发明的压缩性能,节省的时间(TS)体现了复杂性的降低。表1给出了本发明的编码特性,该发明可以节省52.90%的编码运行时间,平均BDBR增量为0.91%。因此,本发明可以有效地节省编码时间,并且RD性能的损失可以忽略不计。
表1本发明的编码特性
从表1可以看出本发明的与VTM相比RD性能和节省的编码运行时间。对于不同的测试视频,可能实验结果可能会有所波动,但是对本发明提出的方法是有效的。与VTM相比,本发明可以有效地增加时间节省,并具有良好的RD性能。
将本发明方法与最新的H.266/VVC快速方法相比较。这些方法包括FPIC、FCPD、JCDT和CSD-SL。图4和图5分别给出了节省编码时间和BDBR的编码结果,由图4和图5可知,与FPIC、FCPD、JCDT和CSD-SL方法相比,本发明在减轻计算负担方面具有更高的性能,可进一步节省约0.74-18.14%的编码时间。与FPIC、JCDT和CSD-SL方法相比,本发明方法具有更好的编码效率,可以进一步降低BD率0.48-3.15%。这些结果表明,本发明对于视频序列的所有分类都是有效的,并且计算复杂度优于H.266/VVC的最新快速方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,其步骤如下:
S1、利用标准差计算当前CU的纹理复杂度,并根据纹理复杂度将当前CU分为平滑区域CU、普通区域CU或复杂区域CU;
S2、如果当前CU为平滑区域CU,执行步骤S5,如果当前CU为普通区域CU,执行步骤S3,如果当前CU为复杂区域CU,执行步骤S6;
S3、判断当前CU的深度是否小于最大划分深度3,若是,执行步骤S4,否则,执行步骤S5;
S4、对当前CU进行水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分或四叉树划分,返回步骤S3对划分后的CU进行深度判断;
S5、利用原始预测方式对当前CU进行编码,输出最佳帧内模式预测;
S6、提取当前CU的特征属性,并利用随机森林分类器模型进行分类,根据分类结果对当前CU划分为子CU;
S7、利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测,输出最佳帧内模式。
3.根据权利要求1所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述步骤S5中利用原始预测方式对当前CU进行编码,输出最佳帧内模式的方法为:利用35种帧内预测编码模式对当前CU进行编码,并计算每一种编码模式的率失真值RD,将率失真值RD按从小到大进行排序,选出前N’个率失真值RD对应的编码模式,再利用这N’个编码模式对当前CU的相邻块进行编码,选出最佳帧内模式。
5.根据权利要求1所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述利用随机森林分类器模型进行分类的方法为:
S61、采集M个视频序列,每个视频序列各N帧,对M*N帧视频序列进行CU遍历,记录复杂区域CU的划分结果作为数据集,数据集包括样本集S和测试集T,其中,划分结果包括不划分、水平二进制划分、垂直二进制划分、水平三进制划分、垂直三进制划分、四叉树划分;
S64、在当前节点上随机选择m个特征属性,计算每个特征属性的Gini指标系数,从中选择Gini指标系数最小的特征属性作为根节点的最优分裂属性,以最小Gini指标系数为分裂阈值,将m个特征属性划分为左子树、右子树;
S66、循环执行步骤S63至步骤S65,直至生成训练样本集对应的决策树{T1,T2,...,TK},得到随机森林分类器RFC;
S67、利用步骤S66中得到的随机森林分类器RFC对测试集T进行判别分类,将K棵决策树输出最多的类别作为测试集T的所属类别,得到当前CU的划分方式。
6.根据权利要求1所述的针对H.266/VVC的快速CU分区和帧内决策方法,其特征在于,所述利用基于纹理区域特征的快速帧内预测模式优化方法对子CU进行帧内模式预测的方法为:
S71、将67种帧内预测模式分为0°、45°、90°和145°四个方向,其中,0°方向包括模式0、模式1和模式11-26,45°方向包括模式0、模式1、模式2-10和模式59-66,90°方向包括模式0、模式1和模式43-58,145°方向包括模式0、模式1和模式27-42;
S72、利用Canny算子计算子CU的每个像素的梯度:
Gx(x′,y′)=P(x′+1,y′)-P(x′,y′)+P(x′+1,y′+1)-P(x′,y′+1) (10),
Gy(x′,y′)=P(x′,y′)-P(x′,y′+1)+P(x′+1,y′)-P(x′+1,y′+1) (11),
其中,Gx(x′,y′)表示像素P(x′,y′)的梯度在水平方向上的分量,Gy(x′,y′)表示像素P(x′,y′)的梯度在垂直方向上的分量,P(x′,y′)表示在子CU中位置(x′,y′)的像素值;
S73、根据步骤S72中的每个像素的梯度计算每个像素的梯度幅值和角度:
Ampx′,y′=|Gx(x′,y′)|+|Gy(x′,y′)| (12),
其中,Ampx′,y′表示每个像素的梯度幅值,θx′,y′表示每个像素的梯度角度;
S74、由梯度幅值和角度可得梯度向量(Ampx′,y′·cosθx′,y′,Ampx′,y′·sinθx′,y′),方向0°、45°、90°、135°的单位向量分别为(1,0)、(0,1)和计算各像素在四个方向上的投影:
P0°x′,y′=Ampx′,y′×sinθx′,y′ (16),
S75、计算子CU的像素在四个方向上的投影总和,即能量:
S76、按照从大到小的顺序对四个能量进行排序,E1>E2>E3>E4,E1、E2、E3、E4分别与P0o、P45o、P90o、P145o相对应;
S77、如果E2>α*E1,则子CU包含两种纹理方向,执行步骤S78,反之,则子CU包含一种纹理方向,执行步骤S79,其中,α表示决策因子;
S78、能量E1对应的方向为主方向,能量E2对应的方向为辅方向,删除主方向和辅方向中的相同模式,利用主方向和辅方向的模式对子CU进行编码预测,并计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式;
S79、能量E1对应的方向为主方向,利用主方向的模式对子CU进行编码预测,并通过计算编码后的率失真值,将率失真值最小的模式作为最佳的帧内预测模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262211.8A CN111462261B (zh) | 2020-04-06 | 2020-04-06 | 针对h.266/vvc的快速cu分区和帧内决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010262211.8A CN111462261B (zh) | 2020-04-06 | 2020-04-06 | 针对h.266/vvc的快速cu分区和帧内决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462261A true CN111462261A (zh) | 2020-07-28 |
CN111462261B CN111462261B (zh) | 2023-05-05 |
Family
ID=71683633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010262211.8A Active CN111462261B (zh) | 2020-04-06 | 2020-04-06 | 针对h.266/vvc的快速cu分区和帧内决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462261B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104868A (zh) * | 2020-11-05 | 2020-12-18 | 电子科技大学 | 一种针对vvc帧内编码单元划分的快速决策方法 |
CN112291562A (zh) * | 2020-10-29 | 2021-01-29 | 郑州轻工业大学 | 针对h.266/vvc的快速cu分区和帧内模式决策方法 |
CN112437310A (zh) * | 2020-12-18 | 2021-03-02 | 重庆邮电大学 | 一种基于随机森林的vvc帧内编码快速cu划分决策方法 |
CN112601087A (zh) * | 2020-11-23 | 2021-04-02 | 郑州轻工业大学 | 一种针对h.266/vvc的快速cu分裂模式决策方法 |
CN112770115A (zh) * | 2020-12-25 | 2021-05-07 | 杭州电子科技大学 | 一种基于方向梯度统计特征的快速帧内预测模式决策方法 |
CN114257819A (zh) * | 2021-12-18 | 2022-03-29 | 郑州轻工业大学 | 基于时空深度信息的vcc编码单元快速划分方法 |
CN114666590A (zh) * | 2022-05-25 | 2022-06-24 | 宁波康达凯能医疗科技有限公司 | 一种基于负载均衡的全视场视频编码方法与系统 |
CN114885161A (zh) * | 2022-04-22 | 2022-08-09 | 复旦大学 | 一种适用于vvc标准的帧内预测的模式选择的快速算法 |
CN115802044A (zh) * | 2023-02-06 | 2023-03-14 | 深流微智能科技(深圳)有限公司 | 编码块划分方式的确定及装置、设备及存储介质 |
CN116456088A (zh) * | 2023-03-30 | 2023-07-18 | 重庆邮电大学 | 一种基于可能性大小的vvc帧内快速编码方法 |
CN117729338A (zh) * | 2023-04-17 | 2024-03-19 | 书行科技(北京)有限公司 | 帧内预测方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121401A1 (en) * | 2011-11-16 | 2013-05-16 | Alexander Zheludkov | Video compression for high efficiency video coding |
CN103338371A (zh) * | 2013-06-07 | 2013-10-02 | 东华理工大学 | 一种快速高效率视频编码帧内模式判决方法 |
WO2018124332A1 (ko) * | 2016-12-28 | 2018-07-05 | 엘지전자(주) | 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치 |
CN109905712A (zh) * | 2019-01-09 | 2019-06-18 | 西安邮电大学 | 基于ResNet的HEVC帧内编码快速模式决策算法 |
-
2020
- 2020-04-06 CN CN202010262211.8A patent/CN111462261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121401A1 (en) * | 2011-11-16 | 2013-05-16 | Alexander Zheludkov | Video compression for high efficiency video coding |
CN103338371A (zh) * | 2013-06-07 | 2013-10-02 | 东华理工大学 | 一种快速高效率视频编码帧内模式判决方法 |
WO2018124332A1 (ko) * | 2016-12-28 | 2018-07-05 | 엘지전자(주) | 인트라 예측 모드 기반 영상 처리 방법 및 이를 위한 장치 |
CN109905712A (zh) * | 2019-01-09 | 2019-06-18 | 西安邮电大学 | 基于ResNet的HEVC帧内编码快速模式决策算法 |
Non-Patent Citations (2)
Title |
---|
任妍等: "结合随机森林的FVC帧内编码单元快速划分", 《中国图象图形学报》 * |
艾达等: "基于机器学习的HEVC快速帧内预测算法研究进展", 《现代电子技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112291562A (zh) * | 2020-10-29 | 2021-01-29 | 郑州轻工业大学 | 针对h.266/vvc的快速cu分区和帧内模式决策方法 |
CN112291562B (zh) * | 2020-10-29 | 2022-06-14 | 郑州轻工业大学 | 针对h.266/vvc的快速cu分区和帧内模式决策方法 |
CN112104868B (zh) * | 2020-11-05 | 2021-02-05 | 电子科技大学 | 一种针对vvc帧内编码单元划分的快速决策方法 |
CN112104868A (zh) * | 2020-11-05 | 2020-12-18 | 电子科技大学 | 一种针对vvc帧内编码单元划分的快速决策方法 |
CN112601087A (zh) * | 2020-11-23 | 2021-04-02 | 郑州轻工业大学 | 一种针对h.266/vvc的快速cu分裂模式决策方法 |
CN112437310A (zh) * | 2020-12-18 | 2021-03-02 | 重庆邮电大学 | 一种基于随机森林的vvc帧内编码快速cu划分决策方法 |
CN112770115B (zh) * | 2020-12-25 | 2024-02-20 | 杭州电子科技大学 | 一种基于方向梯度统计特征的快速帧内预测模式决策方法 |
CN112770115A (zh) * | 2020-12-25 | 2021-05-07 | 杭州电子科技大学 | 一种基于方向梯度统计特征的快速帧内预测模式决策方法 |
CN114257819A (zh) * | 2021-12-18 | 2022-03-29 | 郑州轻工业大学 | 基于时空深度信息的vcc编码单元快速划分方法 |
CN114885161A (zh) * | 2022-04-22 | 2022-08-09 | 复旦大学 | 一种适用于vvc标准的帧内预测的模式选择的快速算法 |
CN114666590A (zh) * | 2022-05-25 | 2022-06-24 | 宁波康达凯能医疗科技有限公司 | 一种基于负载均衡的全视场视频编码方法与系统 |
CN115802044B (zh) * | 2023-02-06 | 2023-08-18 | 深流微智能科技(深圳)有限公司 | 编码块划分方式的确定及装置、设备及存储介质 |
CN115802044A (zh) * | 2023-02-06 | 2023-03-14 | 深流微智能科技(深圳)有限公司 | 编码块划分方式的确定及装置、设备及存储介质 |
CN116456088A (zh) * | 2023-03-30 | 2023-07-18 | 重庆邮电大学 | 一种基于可能性大小的vvc帧内快速编码方法 |
CN117729338A (zh) * | 2023-04-17 | 2024-03-19 | 书行科技(北京)有限公司 | 帧内预测方法、装置、计算机设备和存储介质 |
CN117729338B (zh) * | 2023-04-17 | 2024-09-24 | 书行科技(北京)有限公司 | 帧内预测方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111462261B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462261A (zh) | 针对h.266/vvc的快速cu分区和帧内决策方法 | |
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
CN104754357B (zh) | 基于卷积神经网络的帧内编码优化方法及装置 | |
CN111429497B (zh) | 基于深度学习和多特征融合的自适应cu拆分决策方法 | |
CN111479110B (zh) | 针对h.266/vvc的快速仿射运动估计方法 | |
CN104199627B (zh) | 基于多尺度在线字典学习的可分级视频编码系统 | |
CN114286093A (zh) | 一种基于深度神经网络的快速视频编码方法 | |
CN111355956A (zh) | 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 | |
CN112291562B (zh) | 针对h.266/vvc的快速cu分区和帧内模式决策方法 | |
Zhang et al. | Fast CU decision-making algorithm based on DenseNet network for VVC | |
CN110213584A (zh) | 基于纹理复杂度的编码单元分类方法和编码单元分类设备 | |
CN108769696A (zh) | 一种基于Fisher判别式的DVC-HEVC视频转码方法 | |
CN111263157A (zh) | 一种基于运动矢量一致性的视频多域隐写分析方法 | |
US6594375B1 (en) | Image processing apparatus, image processing method, and storage medium | |
CN107690069B (zh) | 一种数据驱动的级联视频编码方法 | |
Rizkallah et al. | Rate-distortion optimized graph coarsening and partitioning for light field coding | |
CN110650342A (zh) | 基于编码单元多特征分析的快速编码方法 | |
He et al. | End-to-end facial image compression with integrated semantic distortion metric | |
CN111741313A (zh) | 基于图像熵k均值聚类的3d-hevc快速cu分割方法 | |
CN115861779A (zh) | 一种基于有效特征表示的无偏场景图生成方法 | |
CN112070851B (zh) | 基于遗传算法和bp神经网络的索引图预测方法 | |
CN111294596B (zh) | 基于2d马尔可夫和边缘方向特性的屏幕内容索引图预测方法 | |
Li et al. | Resnet approach for coding unit fast splitting decision of hevc intra coding | |
CN111432208A (zh) | 一种利用神经网络确定帧内预测模式的方法 | |
CN115130483B (zh) | 一种基于多目标群体智能算法的神经架构搜索方法及用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |