CN105430396B - 采用分类的方式决策编码块大小的视频编码方法 - Google Patents
采用分类的方式决策编码块大小的视频编码方法 Download PDFInfo
- Publication number
- CN105430396B CN105430396B CN201510939504.4A CN201510939504A CN105430396B CN 105430396 B CN105430396 B CN 105430396B CN 201510939504 A CN201510939504 A CN 201510939504A CN 105430396 B CN105430396 B CN 105430396B
- Authority
- CN
- China
- Prior art keywords
- encoding block
- coding
- classifiers
- feature
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012706 support-vector machine Methods 0.000 claims description 39
- 239000000284 extract Substances 0.000 claims description 22
- 235000015170 shellfish Nutrition 0.000 claims 1
- 238000013139 quantization Methods 0.000 description 39
- 230000009466 transformation Effects 0.000 description 30
- 238000005259 measurement Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 14
- 235000013399 edible fruits Nutrition 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000003066 decision tree Methods 0.000 description 6
- 238000012938 design process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种采用分类的方式加速编码块大小决策的视频编码方法。该方法具有灵活性,能够满足不同的能量受限或者实时的应用;充分利用视频序列的特征,挖掘出编码块大小与特征之间的关系,并且采取级联的三分类器和二分类器,在保证编码性能的情况下,降低编码块大小决策的复杂度。
Description
技术领域
本发明涉及一种视频的编码方法,且更具体地,涉及一种采取分类的方式加速编码块大小决策的视频编码方法。
背景技术
在相同的视频质量下,HEVC比H.264/AVC的码率低一半以上。这种更高的编码性能得益于许多新的编码工具,其中一个重要的编码工具是编码块的划分灵活多变。编码块包括编码单元(CU)、预测单元(PU)和变换单元(TU)。同时,HEVC的编码复杂度也大幅度提升。
HEVC支持最大尺寸为64x64的编码单元,且一个编码单元根据四叉树结构可被划分成四个小尺寸的编码单元。在四叉树的结构下,64x64像素块中会有83522种编码单元的组合方式。预测单元和变换单元的划分都是以编码单元为基础。对于预测单元,HEVC最多能够支持24种不同的尺寸。在帧内预测模式下,HEVC支持对称的预测单元划分模式;在帧间预测模式下,HEVC支持对称和非对称的预测单元划分模式。变换单元的划分方式和编码单元相同,都是采取四叉树的结构。但是,变换单元的最大尺寸为32x32。在视频编码中,编码块的尺寸大小与编码深度有一一对应的关系。编码块的尺寸越小,编码深度越大。所以,当编码深度为0时,编码块的尺寸最大。
视频编码中的编码块大小的确定方式是比较每种编码块大小的组合方式下的率失真代价。其中,率失真代价最小的组合方式为最佳方式。率失真代价涉及到码率和失真的衡量。码率的衡量方式是统计熵编码后的比特数。失真有多种衡量方式,包括误差平方和(SSE)和误差绝对值之和(SAD)。通过率失真代价的比较来确定最佳的编码块大小,计算复杂度非常高。针对上述的现象,采用分类器的方法被提出来降低编码块大小决策的计算复杂度。该方法是:对单一尺寸的编码块进行决策时,首先提取编码块的特征,利用所提取的特征,将编码块归类到划分类、不确定类和不划分类。不确定类中的编码块的最佳尺寸大小通过率失真代价来进行决策。其中,编码块的归类可以通过单个三分类器或者两个二分类器来实现。
发明内容
视频编码性能的提升得益于更加灵活精细的编码模式。巨大的模式集合为编码器的参数选择带来了极大的挑战,如何在保证编码性能的同时,降低模式选择的复杂度,对于编码器的产业化具有重要意义。为了克服现有技术中存在的不足,本发明要解决的问题是提供一种采用分类的方式决策编码块大小的视频编码方法。
为解决上述技术问题,本发明提供一种视频编码块的编码方法,具体为:提取编码块的特征,利用所提取的特征,采用三分类器将所述编码块归类到划分类、不确定类或不划分类;如果所述编码块归类到划分类,所述编码块的模式确定为划分;如果所述编码块归类到不划分类,所述编码块的模式确定为不划分;如果所述编码块归类到不确定类,提取所述编码块的至少一种新特征,利用所提取的新特征和三分类器中已利用的至少一种特征,采用二分类器将所述编码块归类到划分类或不划分类。
为解决上述技术问题,本发明提供一种决策编码块大小的视频编码方法,包括以下步骤:
第一步:编码块从最大尺寸开始决策;
第二步:提取所述编码块的特征,利用所提取的特征,采用三分类器将所述编码块归类到划分类、不确定类或不划分类;如果所述编码块归类到划分类,所述编码块的模式确定为划分;如果所述编码块归类到不划分类,所述编码块的模式确定为不划分;如果所述编码块归类到不确定类,提取所述编码块的至少一种新特征,利用所提取的新特征和三分类器中已利用的至少一种特征,采用二分类器将所述编码块归类到划分类或不划分类;
第三步:如果所述编码块的模式是不划分或所述编码块的尺寸达到最小尺寸,停止决策所述编码块的尺寸大小;如果所述编码块的模式是划分,所述编码块被划分成若干个小尺寸的编码块,对每个小尺寸的编码块进行第二~三步的操作。
作为本发明所述的视频编码块的编码方法或决策编码块大小的视频编码方法的改进,三分类器和二分类器选自贝叶斯分类器和支持向量机。
作为本发明所述的视频编码块的编码方法或决策编码块大小的视频编码方法的另一种改进,不确定类的编码块的新特征包括该编码块按划分方式进行编码所对应的编码代价或该编码块按不划分方式进行编码所对应的编码代价。
本发明的有益效果是:本发明提供的一种采用分类的方式加速编码块大小决策的视频编码方法,该方法具有灵活性,能够满足不同的能量受限或者实时的应用;充分利用视频序列的特征,挖掘出编码块大小与特征之间的关系,并且采取级联的三分类器和二分类器,在保证编码性能的情况下,降低编码块大小决策的复杂度。
附图说明
图1图示最大尺寸编码块大小决策的流程图;
图2图示视频编码块大小决策的流程图;
图3示意地表示三分类器;
图4示意地表示二分类器;
图5示意地表示三分类器和二分类器所利用的特征之间的关系。
具体实施方式
以下参照附图,对本发明的实施方式进行详细说明。
图1示出最大尺寸编码块大小的决策过程。现结合图1所示流程图对决策编码块大小的视频编码方法的各步骤作具体的说明。
在步骤S100中,开始该处理流程。
在步骤S102中,编码允许最大尺寸的编码块。编码过程中采用的是视频编码块的编码方法。
图2示出视频编码块大小的决策过程。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d(d=0)的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区域变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等编码代价信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
特征选择对于分类器来说是至关重要的。一个好的特征必须是提取复杂度低,并且对于分类是有效的。三分类器和二分类器所采取的特征之间的关系如图5所示。其中,提取复杂度低的特征作为三分类器的特征,提取复杂度高的特征加上三分类器的全部或部分特征组成二分类器特征。三分类器和二分类器的特征选择具有灵活性,与编码块种类等因素有关。特征反应的信息可以是图像内容信息、预测残差信息、编码代价信息和时空域相关信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器所采取的两个特征加上当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差这两个特征。也就是说,二分类器的特征是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上四个子编码单元的预测残差的SATD的方差。也就是说,二分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为d(d=0)的编码块。
最后的结果是将当前编码块归类到划分和不划分两类。如果当前编码块被判定为不划分,那么当前尺寸为最佳的编码块大小,并跳转到步骤S108中结束。如果当前编码块被判定为划分,那么当前尺寸为非最佳的编码块大小,并跳转到步骤S104中进行处理。对于帧内编码单元来说,非最佳的编码块大小的处理方式是,将当前编码块划分成4个尺寸是当前编码块1/4的子编码块。
在步骤S104中,该步骤的处理方式和步骤S102相同,但是编码块既不是最大尺寸也不是最小尺寸。编码过程中采用的是视频编码块的编码方法。
图2示出视频编码块大小的决策过程。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d(d>0)的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。通过调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区间变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
特征选择对于分类器来说是至关重要的。一个好的特征必须是提取复杂度低,并且对于分类是有效的。三分类器和二分类器所采取的特征之间的关系如图5所示。其中,提取复杂度低的特征作为三分类器的特征,提取复杂度高的特征加上三分类器的全部或部分特征组成二分类器特征。三分类器和二分类器的特征选择具有灵活性,与编码块种类等因素有关。特征反应的信息可以是图像内容信息、预测残差信息、编码代价信息和时空域相关信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器所采取的两个特征加上当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差这两个特征。也就是说,二分类器的特征是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上四个子编码单元的预测残差的SATD的方差。也就是说,二分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为的d(d>0)的编码块。
最后的结果是将当前编码块归类到划分和不划分两类。如果当前编码块被判定为不划分,那么当前尺寸为最佳的编码块大小,并跳转到步骤S108中结束。如果当前编码块被判定为划分,那么当前尺寸为非最佳的编码块大小,并跳转到步骤S104中进行处理。对于帧内编码单元来说,非最佳的编码块大小的处理方式是,将当前编码块划分成4个尺寸是当前编码块1/4的子编码块。
在步骤S106中,编码最小尺寸的编码块。编码过程中不采用单一尺寸编码块大小的视频编码方法。
在步骤S108中,结束该处理流程。
二分类器和三分类器采取的特征对于本发明来说至关重要。其中,二分类器的新特征包括该编码块按划分方式进行编码所对应的编码代价或该编码块按不划分方式进行编码所对应的编码代价。现结合图1所示流程图对最大尺寸编码块大小的视频编码方法的各步骤作具体的说明。
在步骤S100中,开始该处理流程。
在步骤S102中,编码允许最大尺寸的编码块。编码过程中采用的是视频编码块的编码方法。
图2示出视频编码块大小的决策过程。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d(d=0)的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。通过调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区间变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
特征选择对于分类器来说是至关重要的。一个好的特征必须是提取复杂度低,并且对于分类是有效的。三分类器和二分类器所采取的特征之间的关系如图5所示。其中,提取复杂度低的特征作为三分类器的特征,提取复杂度高的特征加上三分类器的全部或部分特征组成二分类器特征。三分类器和二分类器的特征选择具有灵活性,与编码块种类等因素有关。特征反应的信息可以是图像内容信息、预测残差信息、编码代价信息和时空域相关信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为0的编码块。
最后的结果是将当前编码块归类到划分和不划分两类。如果当前编码块被判定为不划分,那么当前尺寸为最佳的编码块大小,并跳转到步骤S108中结束。如果当前编码块被判定为划分,那么当前尺寸为非最佳的编码块大小,并跳转到步骤S104中进行处理。对于帧内编码单元来说,非最佳的编码块大小的处理方式是,将当前编码块划分成4个尺寸是当前编码块1/4的子编码块。
在步骤S104中,该步骤的处理方式和步骤S102相同,但是编码块既不是最大尺寸也不是最小尺寸。编码过程中采用的是视频编码块的编码方法。
图2示出视频编码块大小的决策过程。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d(d>0)的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。通过调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区间变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为的d(d>0)的编码块。
最后的结果是将当前编码块归类到划分和不划分两类。如果当前编码块被判定为不划分,那么当前尺寸为最佳的编码块大小,并跳转到步骤S108中结束。如果当前编码块被判定为划分,那么当前尺寸为非最佳的编码块大小,并跳转到步骤S104中进行处理。对于帧内编码单元来说,非最佳的编码块大小的处理方式是,将当前编码块划分成4个尺寸是当前编码块1/4的子编码块。
在步骤S106中,编码最小尺寸的编码块。编码过程中不采用单一尺寸编码块大小的视频编码方法。
在步骤S108中,结束该处理流程。
图2示出视频编码块大小的决策过程。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。通过调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区间变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
特征选择对于分类器来说是至关重要的。一个好的特征必须是提取复杂度低,并且对于分类是有效的。三分类器和二分类器所采取的特征之间的关系如图5所示。其中,提取复杂度低的特征作为三分类器的特征,提取复杂度高的特征加上三分类器的全部或部分特征组成二分类器特征。三分类器和二分类器的特征选择具有灵活性,与编码块种类等因素有关。特征反应的信息可以是图像内容信息、预测残差信息、编码代价信息和时空域相关信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器所采取的两个特征加上当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差这两个特征。也就是说,二分类器的特征是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上四个子编码单元的预测残差的SATD的方差。也就是说,二分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)和四个子编码单元的预测残差的SATD的方差。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为d的编码块。
二分类器和三分类器采取的特征对于本发明来说至关重要。其中,二分类器的新特征包括该编码块按划分方式进行编码所对应的编码代价或该编码块按不划分方式进行编码所对应的编码代价。现结合图2所示流程图对视频编码块大小的编码方法的各步骤作具体的说明。
在步骤S200中,开始该处理流程,即编码深度为d的编码块。
在步骤S202中,提取出当前深度的编码块的特征作为三分类器的特征。
在步骤S204中,根据步骤S202中提取出的特征,采用三分类器将编码块归类到划分类、不确定类和不划分类。三分类器将特征位于不确定区域内的编码块视为“不确定”。如果是不划分,则判定为“不变”,并跳转到步骤S205进行处理;如果是不确定,则判定为“不确定”,并跳转到步骤S206进行处理;如果是不划分,则判定为“变小”,则跳转到步骤S212进行处理。其中,三分类器可以是贝叶斯分类器、支持向量机或者决策树。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,三分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,三分类器可以采用支持向量机。
图3是三分类器的示意图。曲线Q1为当前深度的编码块不划分的概率统计曲线;曲线Q2为当前深度的编码块划分的概率统计曲线。直线L1和L2是三分类器的两个门限值对应的直线。如果待编码块的特征位于直线L1的左边,则待编码块的大小是最佳编码块大小。如果待编码块的特征位于直线L1和L2之间,则待编码块的大小无法被判定是否最佳,即不确定。其中,斜线区域的面积表示编码块落入不确定区间的概率。如果待编码块的特征位于直线L2的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。通过调整不确定区间的大小,可以同时改变编码性能和编码复杂度,满足不同的能量受限和实时的应用场景。
三分类器引入了一段不确定区间,通过对落在不确定区间内误判样本的修正,就可以在二分类器的基础上改进判决的正确率,从而提高编码性能。但是,对于不确定区间内的样本修正会增加计算复杂度。当不确定区间变大时,被修正的样本数增多,编码性能提高,编码复杂度增加。在确定三分类器的两个门限时,编码性能与编码复杂度要得到最好的平衡。数学上,可将确定三分类器门限时的优化问题表示如下:
即在保证率失真性能不小于特定阈值τ的条件下,选择最佳的不确定区间,使得复杂度最低。其中,ηRD表示率失真性能,τ为率失真性能的下限,它可以随着不同的应用需求设定不同的值,ΔC表示与基于二分类的编码框架相比,引入不确定区间后所导致的复杂度的增长量,Ωφ表示特征空间中的不确定区间。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
在步骤S205和S206中,对当前大小的编码块进行编码。这里的编码指的是比提取三分类器特征时更近一步的编码,最后能够得到失真和码率等信息。该步骤的目的是为提取二分类器的特征做准备。
在步骤S208中,提取被归类到不确定的编码块的新特征,将新特征和三分类器所利用的特征作为二分类器的特征。
在步骤S210中,利用步骤S208中提取出的新特征和三分类器所利用的特征,采用二分类器将不确定的编码块归类到划分和不划分。如果是不划分,则判定为“不变”,并跳转到步骤S214进行处理;如果是划分,则判定为“变小”,并跳转到步骤S212进行处理。二分类器可以是贝叶斯分类器或支持向量机。贝叶斯分类器是机器学习中常用的分类器,简单有效。支持向量机具有完备的数学理论基础,分类效果强,计算复杂度高。对于编码复杂度要求高的应用,二分类器可以采用贝叶斯分类器;对于编码性能要求高的应用,二分类器可以采用支持向量机。
图4是二分类器的示意图。曲线Q3为当前深度的编码块不划分的概率统计曲线;曲线Q4为当前深度的编码块划分的概率统计曲线。直线L3是二分类器的门限值对应的直线。如果待编码块的特征位于直线L3的左边,则该编码块的大小是最佳编码块大小;如果待编码块的特征位于直线L3的右边,则该编码块的大小是非最佳编码块大小,需要进行划分。
二分类器的设计就是门限值的确定过程。在设计过程中,只需考虑编码性能最佳。数学上,可以将确定二分类器门限时的优化问题表示为minηRD,其中ηRD表示率失真性能。计算率失真性能时,码率的衡量方式是统计熵编码后的比特数,失真的衡量方式是SAD或SSE。
特征选择对于分类器来说是至关重要的。一个好的特征必须是提取复杂度低,并且对于分类是有效的。三分类器和二分类器所采取的特征之间的关系如图5所示。其中,提取复杂度低的特征作为三分类器的特征,提取复杂度高的特征加上三分类器的全部或部分特征组成二分类器特征。三分类器和二分类器的特征选择具有灵活性,与编码块种类等因素有关。特征反应的信息可以是图像内容信息、预测残差信息、编码代价信息和时空域相关信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的四个特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差、近邻编码块的编码深度、量化系数和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的近邻编码块的编码深度和量化系数利用了空域相关性。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
对于帧内编码单元(CU)的决策来说,三分类器的特征可以是当前编码单元的预测残差的误差绝对值变换之和(SATD),四个子编码单元的预测残差的SATD的方差,近邻编码块的编码深度和量化系数。二分类器的特征可以是三分类器的部分特征加上当前编码单元按不划分方式进行编码所对应的率失真代价,即当前编码单元的预测残差的误差绝对值变换之和(SATD)、四个子编码单元的预测残差的SATD的方差和当前编码单元按不划分方式进行编码所对应的率失真代价。当前编码单元的预测残差的SATD和四个子编码单元的预测残差的SATD的方差利用了编码块的纹理特性,反应了图像内容信息和预测残差信息。当前编码单元的率失真代价利用了编码块的编码代价信息。
在步骤S212中,当前编码块的大小会与允许的最小编码块尺寸进行比较。如果当前编码块大小大于最小尺寸,则判定为“否”,并跳转到步骤S216进行处理;如果当前编码块大小等于最小尺寸,则判定为“是”,并跳转到步骤S214进行处理。
在步骤S214中,将当前编码块大小设为最佳编码块尺寸。
在步骤S216中,将编码块的深度加1,即当前编码块被划分成若干个小尺寸的子编码块,并进入下一编码深度进行处理。
在步骤S218中,结束该处理流程,即结束编码深度为d的编码块。
Claims (6)
1.一种视频编码块的编码方法,其特征在于,包含:
提取编码块的特征,利用所提取的特征,采用三分类器将所述编码块归类到划分类、不确定类或不划分类;如果所述编码块归类到划分类,所述编码块的模式确定为划分;如果所述编码块归类到不划分类,所述编码块的模式确定为不划分;如果所述编码块归类到不确定类,提取所述编码块的至少一种新特征,利用所提取的新特征和三分类器中已利用的至少一种特征,采用二分类器将所述编码块归类到划分类或不划分类。
2.根据权利要求1所述的编码方法,其特征在于,所述三分类器和二分类器选自贝叶斯分类器和支持向量机。
3.根据权利要求1所述的编码方法,其特征在于,所述不确定类的编码块的新特征包括该编码块按划分方式进行编码所对应的编码代价或该编码块按不划分方式进行编码所对应的编码代价。
4.一种决策编码块大小的视频编码方法,其特征在于,包含以下步骤:
第一步:编码块从最大尺寸开始决策;
第二步:提取所述编码块的特征,利用所提取的特征,采用三分类器将所述编码块归类到划分类、不确定类或不划分类;如果所述编码块归类到划分类,所述编码块的模式确定为划分;如果所述编码块归类到不划分类,所述编码块的模式确定为不划分;如果所述编码块归类到不确定类,提取所述编码块的至少一种新特征,利用所提取的新特征和三分类器中已利用的至少一种特征,采用二分类器将所述编码块归类到划分类或不划分类;
第三步:如果所述编码块的模式是不划分或所述编码块的尺寸达到最小尺寸,停止决策所述编码块的尺寸大小;如果所述编码块的模式是划分,所述编码块被划分成若干个小尺寸的编码块,对每个小尺寸的编码块进行第二~三步的操作。
5.根据权利要求4所述的视频编码方法,其特征在于,所述三分类器和二分类器选自贝叶斯分类器和支持向量机。
6.根据权利要求4所述的视频编码方法,其特征在于,所述不确定类的编码块的新特征包括该编码块按划分方式进行编码所对应的编码代价或该编码块按不划分方式进行编码所对应的编码代价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510939504.4A CN105430396B (zh) | 2015-12-15 | 2015-12-15 | 采用分类的方式决策编码块大小的视频编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510939504.4A CN105430396B (zh) | 2015-12-15 | 2015-12-15 | 采用分类的方式决策编码块大小的视频编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105430396A CN105430396A (zh) | 2016-03-23 |
CN105430396B true CN105430396B (zh) | 2019-04-19 |
Family
ID=55508291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510939504.4A Active CN105430396B (zh) | 2015-12-15 | 2015-12-15 | 采用分类的方式决策编码块大小的视频编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105430396B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713935B (zh) * | 2017-01-09 | 2019-06-11 | 杭州电子科技大学 | 一种基于贝叶斯决策的hevc块划分快速方法 |
US10382770B2 (en) * | 2017-02-06 | 2019-08-13 | Google Llc | Multi-level machine learning-based early termination in partition search for video encoding |
CN107071418B (zh) * | 2017-05-05 | 2020-03-17 | 上海应用技术大学 | 一种基于决策树的hevc帧内编码单元快速划分方法 |
CN107690069B (zh) * | 2017-08-28 | 2021-01-01 | 中国科学院深圳先进技术研究院 | 一种数据驱动的级联视频编码方法 |
CN108174204B (zh) * | 2018-03-06 | 2020-01-03 | 中南大学 | 一种基于决策树的帧间快速模式选择方法 |
CN111405295A (zh) * | 2020-02-24 | 2020-07-10 | 核芯互联科技(青岛)有限公司 | 一种视频编码单元分割方法、系统以及硬件实现方法 |
CN113225556B (zh) * | 2021-05-31 | 2024-06-21 | 杭州当虹科技股份有限公司 | 视频编码方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873861A (zh) * | 2014-02-24 | 2014-06-18 | 西南交通大学 | 一种用于hevc的编码模式选择方法 |
CN104143079A (zh) * | 2013-05-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 人脸属性识别的方法和系统 |
CN104601992A (zh) * | 2015-01-07 | 2015-05-06 | 上海交通大学 | 基于贝叶斯最小风险决策的skip模式快速选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005140B2 (en) * | 2006-03-17 | 2011-08-23 | Research In Motion Limited | Soft decision and iterative video coding for MPEG and H.264 |
-
2015
- 2015-12-15 CN CN201510939504.4A patent/CN105430396B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143079A (zh) * | 2013-05-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 人脸属性识别的方法和系统 |
CN103873861A (zh) * | 2014-02-24 | 2014-06-18 | 西南交通大学 | 一种用于hevc的编码模式选择方法 |
CN104601992A (zh) * | 2015-01-07 | 2015-05-06 | 上海交通大学 | 基于贝叶斯最小风险决策的skip模式快速选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105430396A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105430396B (zh) | 采用分类的方式决策编码块大小的视频编码方法 | |
CN107071416B (zh) | 一种hevc帧内预测模式快速选择方法 | |
CN111462261B (zh) | 针对h.266/vvc的快速cu分区和帧内决策方法 | |
CN106713935B (zh) | 一种基于贝叶斯决策的hevc块划分快速方法 | |
CN104796694B (zh) | 基于视频纹理信息的优化帧内视频编码方法 | |
CN105306947B (zh) | 基于机器学习的视频转码方法 | |
CN110087087A (zh) | Vvc帧间编码单元预测模式提前决策及块划分提前终止方法 | |
US10701398B2 (en) | Context adaptive scan order for entropy coding | |
CN103297781A (zh) | 一种基于纹理方向的hevc帧内编码方法、装置和系统 | |
CN103796023B (zh) | 基于h.264/avc宏块结构及纹理的h.265/hevc转码方法及转码器 | |
Hu et al. | Fast HEVC intra mode decision based on logistic regression classification | |
CN104284186A (zh) | 一种适用于hevc标准帧内预测模式判决过程的快速算法 | |
CN103561270B (zh) | 一种用于hevc的编码控制方法及装置 | |
CN104837019B (zh) | 基于支持向量机的avs到hevc优化视频转码方法 | |
CN109729351B (zh) | 一种低复杂度配置下的hevc快速模式选择方法 | |
CN103533355B (zh) | 一种hevc快速编码方法 | |
CN104883566B (zh) | 一种适用于hevc标准的帧内预测块大小划分的快速算法 | |
EP3958565B1 (en) | Efficient context handling in arithmetic coding | |
CN101854551A (zh) | 帧内预测模式编解码方法及装置 | |
CN106454349B (zh) | 一种基于h.265视频编码的运动估计块匹配方法 | |
CN109361920B (zh) | 一种面向多场景的自适应决策树选择的帧间快速预测算法 | |
WO2016028453A1 (en) | Motion-compensated partitioning | |
CN101969561A (zh) | 一种帧内模式选取方法、装置及一种编码器 | |
CN107318016A (zh) | 一种基于零块分布的hevc帧间预测模式快速判定方法 | |
CN103888763A (zh) | 一种基于hevc的帧内编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |