CN116193147A - 一种基于决策树支持向量机的帧间图像编码方法 - Google Patents
一种基于决策树支持向量机的帧间图像编码方法 Download PDFInfo
- Publication number
- CN116193147A CN116193147A CN202211277913.9A CN202211277913A CN116193147A CN 116193147 A CN116193147 A CN 116193147A CN 202211277913 A CN202211277913 A CN 202211277913A CN 116193147 A CN116193147 A CN 116193147A
- Authority
- CN
- China
- Prior art keywords
- classification
- division
- class
- support vector
- vector machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003066 decision tree Methods 0.000 title claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000005192 partition Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 2
- 230000001360 synchronised effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于决策树支持向量机的帧间图像编码方法,涉及图像处理技术领域,包括步骤:提取目标画面组中的第一帧作为参考帧,并根据各二分类分组提取参考帧在各编码深度下相应的目标特征集;根据目标特征集,对相应二分类分组所匹配的二分类支持向量机,进行参考帧各编码深度下的二分类划分训练;通过相应二分类支持向量机进行不同二分类分组进行划分判定,并通过分类距离和最优超平面进行分类优化,最终根据优化后的分类结果进行编码块划分。本发明通过二分类支持向量机的运用,将复杂的编码块QTMT同步划分判定简化为多个连续的二分类判定问题,从而大大降低了编码复杂度,提高了编码效率。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于决策树支持向量机的帧间图像编码方法。
背景技术
在视频编码技术发展的过程中,技术不断革新,最新的VVC编码技术,其虽然显著提高了视频的压缩率,但是过长的编码时间使VVC难以投入到实际应用中。因此在保证视频质量基本不变,编码性能损失较小的情况下,如何大幅减少VVC的运算复杂度就成了当前视频编码研究者的重点研究方向。同时,在面向VVC标准设计低复杂度编码算法时,不仅需要考虑到新引入的编码技术对预测模式选择过程的影响,还要关注QTMT划分类型的预测准确率不高的问题。
发明内容
为了在降低VVC编码复杂度的同时保证QTMT划分的预测准确率,本发明提出了一种基于决策树支持向量机的帧间图像编码方法,包括步骤:
S1:提取目标画面组中的第一帧作为参考帧,并根据各二分类分组提取参考帧在各编码深度下相应的目标特征集;
S2:根据目标特征集,对相应二分类分组所匹配的二分类支持向量机,进行参考帧各编码深度下的二分类划分训练;
S3:通过训练后的首端二分类支持向量机,对目标帧进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下划分/不划分的分类优化;
S4:通过训练后的第二二分类支持向量机,对判定划分的编码块进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下四叉树划分/非四叉树划分的分类优化;
S5:通过训练后的第三二分类支持向量机,对判定非四叉树划分的编码块进行当前编码深度下各编码的分类判定,并基于马氏距离对分类结果进行最优超平面求取下垂直划分/水平划分的分类优化;
S6:通过训练后的末端二分类支持向量机,基于方向分类结果进行当前编码深度下各编码块的判定分类,并基于马氏距离对分类结果进行最优超平面求取下二叉树划分/三叉树划分的分类优化;
S7:根据最终分类结果对当前编码深度下的各编码块进行划分,在目标帧编码结束前进入下一编码深度并返回S3步骤。
进一步地,所述S6步骤中,末端二分类支持向量机包括第四二分类支持向量机和第五二分类支持向量机,其中第四二分类支持向量机用于对判定垂直划分的编码块进行分类判定,第五二分类支持向量机用于对判定水平划分的编码块进行分类判定。
进一步地,所述二分类分组包括第一二分类分组至第五二分类分组,其中:
第一二分类分组为划分和不划分分组,匹配首端二分类支持向量机;
第二二分类分组为四叉树划分和非四叉树划分分组,匹配第二二分类支持向量机;
第三二分类分组为垂直划分和水平划分分组,匹配第三二分类支持向量机;
第四二分类分组为垂直二叉树划分和垂直三叉树划分分组,匹配第四二分类支持向量机;
第五二分类分组为水平二叉树划分和水平三叉树划分分组,匹配第五二分类支持向量机。
进一步地,所述S1步骤中,第一二分类分组相应的目标特征集包括纹理复杂度、率失真代价函数、深度信息;第二二分类组相应的目标特征集包括预测残差、率失真代价函数、四叉树划分四个子块的运动矢量方差;第三二分类组相应的目标特征集包括率失真代价函数、深度信息、编码单元运动矢量和模式信息带来的码率开销;第四二分类组和第五二分类组相应的目标特征集包括率失真代价函数、划分方向上二叉树子块间的运动矢量方差、划分方向上三叉树子块间的运动矢量方差。
进一步地,所述S3步骤中,基于欧几里得距离对分类结果进行最优超平面求取下划分/不划分的分类优化,具体包括如下步骤:
S31:基于欧几里得距离求取分类结果中各不划分类分别与各划分类之间的类中心距离集;
S32:提取各类中心距离集中最小值所组成的集合,并以集合中最大值所对应不划分类为最远距离的类进行最优超平面求取;
S33:判断所有分类结果是否均分离为不同的分类,若是,输出优化后的编码块分类结果,若否,返回S32步骤。
进一步地,所述S4步骤中,基于欧几里得距离对分类结果进行最优超平面求取下四叉树划分/非四叉树划分的分类优化,具体包括如下步骤:
S41:基于欧几里得距离求取分类结果中各四叉树划分类分别与各非四叉树划分类之间的类中心距离集;
S42:筛选各类中心距离集中的最小值,并将最小值所对应的分类结果与欧几里得距离最近的同类分类结果合并至同一分类集群;
S43:判定合并后的分类集群是否为预设数量,若否,返回S42步骤,若是,进入S44步骤;
S44:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S42步骤,若否,输出优化后的编码块分类结果。
进一步地,所述S5步骤中,基于马氏距离对分类结果进行最优超平面求取下垂直划分/水平划分的分类优化,具体包括步骤:
S51:基于欧几里得距离求取分类结果中各垂直划分类分别与各水平划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S52:根据马氏距离对各分类结果进行聚类,并基于聚类结果对分类结果进行错误分类的筛选与删除;
S53:输出优化后的编码块分类结果。
进一步地,所述S6步骤中,基于马氏距离对分类结果进行最优超平面求取下二叉树划分/三叉树划分的分类优化,具体包括步骤:
S61:基于欧几里得距离求取分类结果中各二叉树划分类分别与各三叉树划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S62:根据马氏距离对各分类结果进行聚类,并基于聚类结果对各分类结果进行错误分类的筛选;
S63:提取错误分类最多的分类结果,并将其与欧几里得距离最近的同类分类结果合并至同一分类集群;
S64:合并后的分类集群是否为预设数量,若是,进入S65步骤,若否,返回S62步骤;
S65:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S62步骤,若否,输出优化后的编码块分类结果。
与现有技术相比,本发明至少含有以下有益效果:
(1)本发明所述的一种基于决策树支持向量机的帧间图像编码方法,通过二分类支持向量机的运用,将复杂的编码块QTMT划分简化为多个连续的二分类判定问题,从而大大降低了编码复杂度,提高了编码效率;
(2)在二分类支持向量机的基础上,通过欧几里得距离和马氏距离的运用,对分类结果进行基于类相似度的聚类划分优化,使优化后的分类结果能够更加符合实际编码块划分的需求,提高了QTMT的划分预测准确率。
附图说明
图1为一种基于决策树支持向量机的帧间图像编码方法的步骤图;
图2为QTMT划分示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
VVC编码标准相较于早先的HEVC编码标准采用了更为复杂的编码单元划分结构,其在HEVC四叉树(QT)划分的基础上增加了两种二叉树(BT)划分和两种三叉树(TT)划分。其中BT和TT统称为MT(multi-type tree)。
CTU首先使用四叉树进行划分,划分为四个独立的CU,然后四叉树的叶子结点(CU)再进一步采用QTMT进行编码单元划分。也即是说,在对CU进行QTMT编码单元划分预测时,其要同时考虑六种编码单元划分的分类情况(如图2所示),也即是不划分(NO_SPLIT_CU)、四叉树划分(SPLIT_QT)、垂直二叉树(SPLIT_BT_VER)、水平二叉树(SPLIT_BT_HOR)、垂直三叉树(SPLIT_TT_VER)和水平三叉树(SPLIT_TT_HOR)。因此,传统的QTMT编码单元划分预测需要花费大量的算力来对各种划分情况进行预测判断,这就导致了VVC编码算法复杂度整体偏高,大大降低了编码效率。
而要解决这个问题,本发明考虑到无论是编码单元的划分与不划分、四叉树还是非四叉树、垂直划分还是水平划分、二叉树划分还是三叉树划分,都是一个二分类问题,因此如果能够将编码单元划分预测的问题转换为二分类问题,那势必会大大降低编码算法的复杂度,在此基础上,如图1所示,本发明提出了一种基于决策树支持向量机的帧间图像编码方法,包括步骤:
S1:提取目标画面组中的第一帧作为参考帧,并根据各二分类分组提取参考帧在各编码深度下相应的目标特征集;
S2:根据目标特征集,对相应二分类分组所匹配的二分类支持向量机,进行参考帧各编码深度下的二分类划分训练;
S3:通过训练后的首端二分类支持向量机,对目标帧进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下划分/不划分的分类优化;
S4:通过训练后的第二二分类支持向量机,对判定划分的编码块进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下四叉树划分/非四叉树划分的分类优化;
S5:通过训练后的第三二分类支持向量机,对判定非四叉树划分的编码块进行当前编码深度下各编码的分类判定,并基于马氏距离对分类结果进行最优超平面求取下垂直划分/水平划分的分类优化;
S6:通过训练后的末端二分类支持向量机,基于方向分类结果进行当前编码深度下各编码块的判定分类,并基于马氏距离对分类结果进行最优超平面求取下二叉树划分/三叉树划分的分类优化;
S7:根据最终分类结果对当前编码深度下的各编码块进行划分,在目标帧编码结束前进入下一编码深度并返回S3步骤。
其中,末端二分类支持向量机包括第四二分类支持向量机和第五二分类支持向量机,其中第四二分类支持向量机用于对判定垂直划分的编码块进行分类判定,第五二分类支持向量机用于对判定水平划分的编码块进行分类判定。
相应地,二分类分组包括第一二分类分组至第五二分类分组,其中:
第一二分类分组为划分和不划分分组,匹配首端二分类支持向量机;
第二二分类分组为四叉树划分和非四叉树划分分组,匹配第二二分类支持向量机;
第三二分类分组为垂直划分和水平划分分组,匹配第三二分类支持向量机;
第四二分类分组为垂直二叉树划分和垂直三叉树划分分组,匹配第四二分类支持向量机;
第五二分类分组为水平二叉树划分和水平三叉树划分分组,匹配第五二分类支持向量机。
在这里,本发明通过五个二分类支持向量机将QTMT编码单元划分预测转换为四个连续层次的二分类决策问题。而要使得二分类支持向量机能够用于编码单元的划分预测,就需要对其进行训练。考虑到训练后的二分类支持向量机具有代表性,在这里,我们选用目标画面组(也即是一段视频)中的第I帧作为训练用的参考帧。此处之所以选用第I帧图像而不是其它帧图像,是因为I帧又称帧内编码帧,是一种自带全部信息的独立帧,无需参考其它图像便可独立进行编码,可以简单的理解为一张静态画面。而视频序列中的第一帧始终是I帧,因为它是关键帧。
通过提取I帧中不同二分类分组的目标特征集对各相应的二分类支持向量机进行各编码深度下的二分类划分训练,其中:
第一二分类分组更多的是基于目标帧在画面整体上是否具有差异性来进行判定的,因此,其目标特征集为纹理复杂度、率失真代价函数和深度信息。
第二二分类组对于四叉树的判定更多的是基于划分后四个子块的信息进行判定,因此,其目标特征集为预测残差、率失真代价函数和四叉树划分四个子块的运动矢量方差。
第三二分类组对于垂直还是水平的划分主要考虑到不同划分模式下的码率开销以及其它代价,因此,其目标特征集为率失真代价函数、深度信息、编码单元运动矢量和模式信息带来的码率开销。
第四二分类组和第五而分类组,对于二叉树还是三叉树的划分主要还是基于不同划分模式下子块的信息进行判定,因此其目标特征集为率失真代价函数、划分方向上二叉树子块间的运动矢量方差、划分方向上三叉树子块间的运动矢量方差。具体的,第四二分类组为率失真代价函数、垂直方向上二叉树子块间的运动矢量方差、垂直方向上三叉树子块间的运动矢量方差,第五二分类组为率失真代价函数、水平方向上二叉树子块间的运动矢量方差、水平方向上三叉树子块间的运动矢量方差。
从上面的描述不难看出,本发明是按照划分或不划分、四叉树或非四叉树、垂直或水平、二叉树或三叉树进行的先后判定排序。这是因为,编码块只有在分析了划分与不划分的问题后,才可以考虑后续的细化划分分类问题。而一旦进行二叉树或三叉树的判定,就无法进行四叉树的判定。因此,本发明采用上述的顺序进行具有一定连续性特征的二分类判定。
当然,受限于二分类向量机的分类性能,其分类准确度还不足以作为最终的分类结果,需要在其基础上进行进一步地优化,以便于获得更为精准的QTMT划分结果。
在通过首端二分类支持向量机获得目标帧当前编码深度下的分类结果(划分或不划分)后,具体包括如下优化步骤:
S31:基于欧几里得距离求取分类结果中各不划分类分别与各划分类之间的类中心距离集;
S32:提取各类中心距离集中最小值所组成的集合,并以集合中最大值所对应不划分类为最远距离的类进行最优超平面求取;
S33:判断所有分类结果是否均分离为不同的分类,若是,输出优化后的编码块分类结果,若否,返回S32步骤。
细化说明地,在这里我们是以欧几里得距离作为可分离性测度,将一个分类结果从一个分类集群中的其余分类结果中筛选并分离出来,从而矫正错误的分类结果。具体地,需要通过公式(1)先计算每个分类结果的类中心,其中i表示不划分分类结果的标号:
式中,Xi为包含在标号为i的不划分分类结果中的元素个数,x为常数。
并从由组成的集合中筛选出最大值所对应的不划分分类结果(假设其不划分分类结果的标号为k)作为最远的分类结果进行最优超平面的求取,也即是将不划分分类结果k与其它分类结果分离(此处分离的含义是,分离后的分类结果k不再在后续最优超平面求取过程中使用)。
重复上述操作,对所有不划分类分类结果i进行最优超平面的求取,从而使得所有的类分离,并作为最终优化后的编码块分类结果(划分与不划分,其中,判定不划分的分类结束划分判定步骤)。
在判定编码块划分的基础上,通过第二二分类支持向量机获得四叉树划分和非四叉树划分的分类结果后,具体包括如下优化步骤:
S41:基于欧几里得距离求取分类结果中各四叉树划分类分别与各非四叉树划分类之间的类中心距离集;
S42:筛选各类中心距离集中的最小值,并将最小值所对应的分类结果与欧几里得距离最近的同类分类结果合并至同一分类集群;
S43:判定合并后的分类集群是否为预设数量,若否,返回S42步骤,若是,进入S44步骤;
S44:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S42步骤,若否,输出优化后的编码块分类结果。
具体地,依旧是先通过公式(1)和公式(2)获取各非四叉树划分分类结果i与四叉树划分分类j之间的欧几里得距离。通过公式(3)获得各非四叉树分类结果i对应的最小欧几里得距离,并根据该最小欧几里得距离所对应的分类结果与欧几里得距离最近的同类分类结果合并至同一分类集群。不断重复,直至分类集群的数量变为2(对应四叉树划分和非四叉树划分两种情况)。而后通过求取这两个分类集群之间的最优超平面,并判断平面两侧的分类结果是否含有不同类的分类结果,若是,则说明还未达到最优,需要返回继续执行步骤S42,否则就说明获得了该阶段优化后的编码块分类结果(四叉树或非四叉树划分)。
在判定编码块非四叉树划分的基础上,通过第三二分类支持向量机获得水平划分和垂直划分的分类结果后,具体包括如下优化步骤:
S51:基于欧几里得距离求取分类结果中各垂直划分类分别与各水平划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S52:根据马氏距离对各分类结果进行聚类,并基于聚类结果对分类结果进行错误分类的筛选与删除;
S53:输出优化后的编码块分类结果。
相较于前面的划分或不划分、四叉树或非四叉树来说,垂直或水平划分的判定会受到具有方向性的量纲以及数据分布特性上的影响。故而此处不能再简单的利用欧几里得距离进行分类的优化,而是利用不受数据分布和特征量纲马氏距离进行优化。首先,对于每一类(也即是包括垂直划分和水平划分),都通过公式(4)计算协方差矩阵:
而后通过公式(5)进行马氏距离的计算:
根据马氏距离,将互相靠近的同类分类结果进行聚类,并根据聚类结果对之前分类结果中的错误分类进行筛选,并将其中马氏距离的值最小的分类结果进行筛选并分离(对于多个具有相同马氏距离的分类结果,则是将他们之中欧几里得距离最远的分类结果进行分离)。
删除分离出来的分类结果,并再次求马氏距离执行上述操作,直至所有分类结果都都不处于聚合状态,此时,就可以输出优化后的分类结果(垂直或水平划分)。
最后,再判定水平划分或垂直划分的基础上,先通过末端二分类支持向量机获得二叉树划分和三叉树划分的分类结果后,具体包括如下优化步骤:
S61:基于欧几里得距离求取分类结果中各二叉树划分类分别与各三叉树划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S62:根据马氏距离对各分类结果进行聚类,并基于聚类结果对各分类结果进行错误分类的筛选;
S63:提取错误分类最多的分类结果,并将其与欧几里得距离最近的同类分类结果合并至同一分类集群;
S64:合并后的分类集群是否为预设数量,若是,进入S65步骤,若否,返回S62步骤;
S65:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S62步骤,若否,输出优化后的编码块分类结果。
还是一样的,我们先假设所有的分类结果属于不同的集群,并先通过公式(4)获取各分类结果的协方差矩阵,通过公式(5)进行马氏距离的求取和聚类。根据聚类结果,筛选出之前分类结果中的错误分类。逐个找出错误分类中马氏距离最大值所对应的分类结果,根据该分类结果,进行基于欧几里得距离(最近的)下的同类分类结果聚类,直至分类集群的数量减少至2。
求取最终聚类后两个分类集群之间的最优超平面,根据最优超平面的二分类结果,判断任意二分类结果之中是否含有多个类,若是,则认为这些存在不属于同一分类集群的分类结果,那么就返回S62步骤;否则,则认为获得了最终优化后的编码块分类结果(二叉树或三叉树划分)。
最后根据最终获得的分类结果进行当前编码深度下的各编码块划分,并在编码结束前进入下一编码深度(其中,编码结束的判定条件为达到最大编码深度或判定不划分)。
综上所述,本发明所述的一种基于决策树支持向量机的帧间图像编码方法,通过二分类支持向量机的运用,将复杂的编码块QTMT划分简化为多个连续的二分类判定问题,从而大大降低了编码复杂度,提高了编码效率。
在二分类支持向量机的基础上,通过欧几里得距离和马氏距离的运用,对分类结果进行基于类相似度的聚类划分优化,使优化后的分类结果能够更加符合实际编码块划分的需求,提高了QTMT的划分预测准确率。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
Claims (8)
1.一种基于决策树支持向量机的帧间图像编码方法,其特征在于,包括步骤:
S1:提取目标画面组中的第一帧作为参考帧,并根据各二分类分组提取参考帧在各编码深度下相应的目标特征集;
S2:根据目标特征集,对相应二分类分组所匹配的二分类支持向量机,进行参考帧各编码深度下的二分类划分训练;
S3:通过训练后的首端二分类支持向量机,对目标帧进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下划分/不划分的分类优化;
S4:通过训练后的第二二分类支持向量机,对判定划分的编码块进行当前编码深度下各编码块的分类判定,并基于欧几里得距离对分类结果进行最优超平面求取下四叉树划分/非四叉树划分的分类优化;
S5:通过训练后的第三二分类支持向量机,对判定非四叉树划分的编码块进行当前编码深度下各编码的分类判定,并基于马氏距离对分类结果进行最优超平面求取下垂直划分/水平划分的分类优化;
S6:通过训练后的末端二分类支持向量机,基于方向分类结果进行当前编码深度下各编码块的判定分类,并基于马氏距离对分类结果进行最优超平面求取下二叉树划分/三叉树划分的分类优化;
S7:根据最终分类结果对当前编码深度下的各编码块进行划分,在目标帧编码结束前进入下一编码深度并返回S3步骤。
2.如权利要求1所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S6步骤中,末端二分类支持向量机包括第四二分类支持向量机和第五二分类支持向量机,其中第四二分类支持向量机用于对判定垂直划分的编码块进行分类判定,第五二分类支持向量机用于对判定水平划分的编码块进行分类判定。
3.如权利要求2所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述二分类分组包括第一二分类分组至第五二分类分组,其中:
第一二分类分组为划分和不划分分组,匹配首端二分类支持向量机;
第二二分类分组为四叉树划分和非四叉树划分分组,匹配第二二分类支持向量机;
第三二分类分组为垂直划分和水平划分分组,匹配第三二分类支持向量机;
第四二分类分组为垂直二叉树划分和垂直三叉树划分分组,匹配第四二分类支持向量机;
第五二分类分组为水平二叉树划分和水平三叉树划分分组,匹配第五二分类支持向量机。
4.如权利要求3所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S1步骤中,第一二分类分组相应的目标特征集包括纹理复杂度、率失真代价函数、深度信息;第二二分类组相应的目标特征集包括预测残差、率失真代价函数、四叉树划分四个子块的运动矢量方差;第三二分类组相应的目标特征集包括率失真代价函数、深度信息、编码单元运动矢量和模式信息带来的码率开销;第四二分类组和第五二分类组相应的目标特征集包括率失真代价函数、划分方向上二叉树子块间的运动矢量方差、划分方向上三叉树子块间的运动矢量方差。
5.如权利要求1所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S3步骤中,基于欧几里得距离对分类结果进行最优超平面求取下划分/不划分的分类优化,具体包括如下步骤:
S31:基于欧几里得距离求取分类结果中各不划分类分别与各划分类之间的类中心距离集;
S32:提取各类中心距离集中最小值所组成的集合,并以集合中最大值所对应不划分类为最远距离的类进行最优超平面求取;
S33:判断所有分类结果是否均分离为不同的分类,若是,输出优化后的编码块分类结果,若否,返回S32步骤。
6.如权利要求1所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S4步骤中,基于欧几里得距离对分类结果进行最优超平面求取下四叉树划分/非四叉树划分的分类优化,具体包括如下步骤:
S41:基于欧几里得距离求取分类结果中各四叉树划分类分别与各非四叉树划分类之间的类中心距离集;
S42:筛选各类中心距离集中的最小值,并将最小值所对应的分类结果与欧几里得距离最近的同类分类结果合并至同一分类集群;
S43:判定合并后的分类集群是否为预设数量,若否,返回S42步骤,若是,进入S44步骤;
S44:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S42步骤,若否,输出优化后的编码块分类结果。
7.如权利要求1所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S5步骤中,基于马氏距离对分类结果进行最优超平面求取下垂直划分/水平划分的分类优化,具体包括步骤:
S51:基于欧几里得距离求取分类结果中各垂直划分类分别与各水平划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S52:根据马氏距离对各分类结果进行聚类,并基于聚类结果对分类结果进行错误分类的筛选与删除;
S53:输出优化后的编码块分类结果。
8.如权利要求1所述的一种基于决策树支持向量机的帧间图像编码方法,其特征在于,所述S6步骤中,基于马氏距离对分类结果进行最优超平面求取下二叉树划分/三叉树划分的分类优化,具体包括步骤:
S61:基于欧几里得距离求取分类结果中各二叉树划分类分别与各三叉树划分类之间的类中心距离集,并基于类中心距离集求取相应的马氏距离;
S62:根据马氏距离对各分类结果进行聚类,并基于聚类结果对各分类结果进行错误分类的筛选;
S63:提取错误分类最多的分类结果,并将其与欧几里得距离最近的同类分类结果合并至同一分类集群;
S64:合并后的分类集群是否为预设数量,若是,进入S65步骤,若否,返回S62步骤;
S65:通过求取最优超平面对合并后的分类结果集群进行二分类,判断任意二分类结果中是否含有不同类的分类结果集群,若是,返回S62步骤,若否,输出优化后的编码块分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211277913.9A CN116193147B (zh) | 2022-10-19 | 2022-10-19 | 一种基于决策树支持向量机的帧间图像编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211277913.9A CN116193147B (zh) | 2022-10-19 | 2022-10-19 | 一种基于决策树支持向量机的帧间图像编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116193147A true CN116193147A (zh) | 2023-05-30 |
CN116193147B CN116193147B (zh) | 2023-07-18 |
Family
ID=86451165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211277913.9A Active CN116193147B (zh) | 2022-10-19 | 2022-10-19 | 一种基于决策树支持向量机的帧间图像编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116193147B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080267471A1 (en) * | 2007-04-25 | 2008-10-30 | Siemens Corporate Research, Inc | Automatic partitioning and recognition of human body regions from an arbitrary scan coverage image |
US20150294191A1 (en) * | 2014-04-15 | 2015-10-15 | Xerox Corporation | System and method for predicting iconicity of an image |
CN111260117A (zh) * | 2020-01-10 | 2020-06-09 | 燕山大学 | 一种基于气象因子的ca-narx水质预测方法 |
CN111259826A (zh) * | 2020-01-19 | 2020-06-09 | 中山大学 | 一种图像特征信息帧内快速划分方法、系统及存储介质 |
CN111918057A (zh) * | 2020-07-02 | 2020-11-10 | 北京大学深圳研究生院 | 硬件友好的帧内编码块划分方法、设备及存储介质 |
CN112291562A (zh) * | 2020-10-29 | 2021-01-29 | 郑州轻工业大学 | 针对h.266/vvc的快速cu分区和帧内模式决策方法 |
CN114222145A (zh) * | 2021-12-24 | 2022-03-22 | 杭州电子科技大学 | 一种低复杂度的快速vvc帧内编码方法 |
-
2022
- 2022-10-19 CN CN202211277913.9A patent/CN116193147B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080267471A1 (en) * | 2007-04-25 | 2008-10-30 | Siemens Corporate Research, Inc | Automatic partitioning and recognition of human body regions from an arbitrary scan coverage image |
US20150294191A1 (en) * | 2014-04-15 | 2015-10-15 | Xerox Corporation | System and method for predicting iconicity of an image |
CN111260117A (zh) * | 2020-01-10 | 2020-06-09 | 燕山大学 | 一种基于气象因子的ca-narx水质预测方法 |
CN111259826A (zh) * | 2020-01-19 | 2020-06-09 | 中山大学 | 一种图像特征信息帧内快速划分方法、系统及存储介质 |
CN111918057A (zh) * | 2020-07-02 | 2020-11-10 | 北京大学深圳研究生院 | 硬件友好的帧内编码块划分方法、设备及存储介质 |
CN112291562A (zh) * | 2020-10-29 | 2021-01-29 | 郑州轻工业大学 | 针对h.266/vvc的快速cu分区和帧内模式决策方法 |
CN114222145A (zh) * | 2021-12-24 | 2022-03-22 | 杭州电子科技大学 | 一种低复杂度的快速vvc帧内编码方法 |
Non-Patent Citations (2)
Title |
---|
F G AHMATSHIN: "Impact of data normalization methods and clustering model in the problem of automatic grouping of industrial products", 《JOURNAL OF PHYSICS:CONFERENCE SERIES》 * |
刘鹏;叶志鹏;赵巍;唐降龙;: "一种多层次抽象语义决策图像分类方法", 自动化学报, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN116193147B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9058540B2 (en) | Data clustering method and device, data processing apparatus and image processing apparatus | |
CN108629783B (zh) | 基于图像特征密度峰值搜索的图像分割方法、系统及介质 | |
CN113112519A (zh) | 基于感兴趣目标分布的关键帧筛选方法 | |
CN104702955A (zh) | 屏幕视频的预测编码的方法与系统 | |
CN115294378A (zh) | 一种图像聚类方法及系统 | |
CN115941914A (zh) | 一种基于视频帧分析的视频渲染系统 | |
CN116193147B (zh) | 一种基于决策树支持向量机的帧间图像编码方法 | |
Fu et al. | Efficient depth intra frame coding in 3D-HEVC by corner points | |
CN112633389A (zh) | 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 | |
US20100239019A1 (en) | Post processing of motion vectors using sad for low bit rate video compression | |
CN109089115B (zh) | 在hevc用于对360度视频进行编码的方法 | |
CN109218728B (zh) | 一种场景切换检测方法和系统 | |
CN113453016B (zh) | 一种用于图像流文件压缩的运动矢量自选择方法 | |
CN111741313A (zh) | 基于图像熵k均值聚类的3d-hevc快速cu分割方法 | |
CN116634183A (zh) | 一种快速帧间块划分方法 | |
CN116248902A (zh) | 一种基于LightGBM的VVC帧内编码划分方法 | |
CN114584771A (zh) | 一种基于内容自适应的帧内图像编码单元划分方法与系统 | |
CN114882495A (zh) | 一种基于上下文感知特征聚集的3d目标检测方法 | |
CN116347104B (zh) | 基于高效判别分析的帧内图像编码方法、装置及存储介质 | |
CN114091559A (zh) | 数据填充方法及装置、设备、存储介质 | |
CN113378955A (zh) | 一种基于主动学习的入侵检测方法 | |
CN116634150B (zh) | 基于频繁模式分类的帧间图像编码方法、装置及存储介质 | |
CN111488907A (zh) | 一种基于稠密PCANet的鲁棒图像识别方法 | |
Song et al. | Fast CU Partitioning Algorithm for VVC Based on CNN and FSVM | |
CN117939121A (zh) | 一种基于遗传算法的帧间图像编码单元划分方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |