CN114584771B

CN114584771B - 一种基于内容自适应的帧内图像编码单元划分方法与系统

Info

Publication number: CN114584771B
Application number: CN202210484181.4A
Authority: CN
Inventors: 蒋先涛; 张纪庄; 郭咏梅; 郭咏阳
Original assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Current assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-09-06
Anticipated expiration: 2042-05-06
Also published as: CN114584771A

Abstract

本发明公开了一种基于内容自适应的帧内图像编码单元划分方法与系统，涉及图像处理技术领域，包括步骤：获取各训练样本在率失真优化编码下的编码单元划分结果；提取训练样本中与编码单元划分相关的各样本的第一特征向量集，以及训练样本相邻编码单元中与编码单元划分相关的各样本的第二特征向量集；基于特征向量集和相应划分结果进行第一加权SVM分类器的训练；基于训练结果依次通过第一和第三加权SVM分类器进行预测样本的划分判断；根据预测样本在各编码深度下的划分结果进行帧内图像的划分。本发明通过获取帧内图像中各编码单元的划分决策，减少非必要编码深度下的划分计算，进而提高编码效率。

Description

一种基于内容自适应的帧内图像编码单元划分方法与系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于内容自适应的帧内图像编码单元划分方法与系统。

背景技术

联合视频编码组（Joint collaborative team on video coding，JCT-VC）在2013年发布了一种高效视频压缩标准H.265/HEVC。H.265/HEVC标准成功之处在于采用了基于块的混合视频编码框架。H.265/HEVC相较于H.264/AVC实现了一半的比特节省，它的最大编码单元（CU）尺寸为64×64。在HEVC的混合编码结构中集成了很多新的编码工具。特别地，H.265/HEVC引入了树形结构单元（CTU），每一个CTU按四叉树分割方式划分为不同类型的编码单元。在帧内预测技术中，原来的H.264/AVC支持最多9种预测模式，而H.265/HEVC支持多达35种的预测模式。帧间预测方面，H.265/HEVC则是采用了AMVP技术，它可以预测更加准确的运动矢量。和H.264/AVC不同，H.265/HEVC的熵编码只采用CABAC 技术。然而，基于速率失真（RD）优化的方法大大增加了HEVC编码器的复杂性。

HEVC中用于降低编码复杂度的最先进的方法通常可以分为两类：基于统计知识和基于学习的方法。然而，固定阈值、决策树和离线训练的推理模型使这些算法对不断变化的视频内容的灵活性降低。因此，内容自适应决策模型对于在保持编码效率性能不变的同时做出快速CU大小决策至关重要。

发明内容

为了使得编码单元能够更好的基于内容进行划分，本发明提出了一种基于内容自适应的帧内图像编码单元划分方法，包括步骤：

S1：以目标视频若干帧内图像中的编码单元为训练样本集，获取各训练样本在率失真优化编码下的编码单元划分结果；

S2：提取训练样本中与编码单元划分相关的各样本的第一特征向量集，以及训练样本相邻编码单元中与编码单元划分相关的各样本的第二特征向量集；

S3：基于各编码深度下训练样本的第一特征向量以及相应的划分结果，通过对应编码深度的第一加权SVM分类器进行第一参数集训练；

S4：基于各编码深度下训练样本的第二特征向量以及相应的划分结果，通过对应编码深度的第一加权SVM分类器进行第二参数集训练；

S5：根据第一参数集以及当前预测样本的第一特征向量，通过当前编码深度的第二加权SVM分类器判断预测样本在当前编码深度是否进行划分，若是，进入S6步骤，若否，进入S8步骤；

S6：根据第二参数集以及当前预测样本的第二特征向量，通过当前编码深度的第三加权SVM分类器判断预测样本在当前编码深度是否进行划分，若是，进入S7步骤，若否，进入S8步骤；

S7：判断是否到达最大编码深度，若是，进入S8步骤，若否，进入下一编码深度并返回S5步骤；

S8：根据预测样本在各编码深度下的划分结果进行帧内图像的划分。

进一步地，当训练样本的总数与完成划分结果判定的预测样本总数的比例达到预设比例时，所述S8步骤之后还包括步骤：

S9：重置各SVM分类器的各项参数并返回S1步骤。

进一步地，所述S3步骤和S4步骤中，参数训练可表示为如下公式：

式中，w为SVM分类器的超平面边距，

为SVM分类器的松弛变量，C为SVM分类器的超平面边距宽度，W_ns为错误划分的权衡参数，W_s为编码单元划分与不划分的权重参数，N_ns为不划分的训练样本总数，N_s为划分的训练样本总数，

为初始为1的常数，x_i={1，2，…，N}为训练样本的特征向量，b为截距，i为训练样本的编号，可表示为{x_i，y_i}，y_i为常数1或者-1，当y_i为1时表示编码单元划分，当y_i为-1时表示编码单元不划分。

进一步地，在第一参数集训练过程中，所述W_ns和W_s为通过采集训练样本编码过程中的数据获得，在第二参数集训练过程中，W_ns和W_s为通过F-score方法计算获得。

进一步地，所述第一特征向量集包括当前待测样本的纹理复杂度、估计的率失真代价函数和编码块标识；所述第二特征向量集包括当前待测样本编码需要的比特位信息，以及当前待测样本相邻编码单元的率失真代价函数均值和平均深度。

本发明还提出了一种基于内容自适应的帧内图像编码单元划分系统，包括：

训练样本提取模块，用于提取目标视频若干帧内图像中的编码单元作为训练样本集，并获取各训练样本在率失真优化编码下的编码单元划分结果；

特征提取模块，用于提取训练样本中与编码单元划分相关的各样本的第一特征向量集，以及训练样本相邻编码单元中与编码单元划分相关的各样本的第二特征向量集；

分类器训练模块，用于基于各编码深度下训练样本的第一特征向量以及相应的划分结果，通过对应编码深度的第一加权SVM分类器进行第一参数集训练；基于各编码深度下训练样本的第二特征向量以及相应的划分结果，通过对应编码深度的第一加权SVM分类器进行第二参数集训练；

L1级划分判断模块，用于根据第一参数集以及当前预测样本的第一特征向量，通过当前编码深度的第二加权SVM分类器获取预测样本在当前编码深度的划分判断结果；

L2级划分判断模块，用于在L1级划分判断模块判断划分的情况下，根据第二参数集以及当前预测样本的第二特征向量，通过当前编码深度的第三加权SVM分类器获取预测样本在当前编码深度的划分判断结果；

编码单元划分模块，用于在任意划分判断模块判段不划分或者达到最大编码深度时，根据预测样本在各编码深度下的划分结果进行帧内图像的划分。

进一步地，所述编码单元划分模块中还包括重置单元，用于当训练样本的总数与完成划分结果判定的预测样本总数的比例达到预设比例时，重置各SVM分类器的各项参数并通过训练样本提取模块重新提取训练样本。

进一步地，所述分类器训练模块中，参数训练可表示为如下公式：

式中，w为SVM分类器的超平面边距，

与现有技术相比，本发明至少含有以下有益效果：

（1）本发明所述的一种基于内容自适应的帧内图像编码单元划分方法与系统，通过获取帧内图像中各编码单元的划分决策，减少非必要编码深度下对编码单元的率失真代价计算，进而提高编码效率；

（2）通过率失真优化编码下所获得的数据对SVM分类器进行训练，并在完成划分决策的预测样本数量与训练样本数量达到一定比例时重新对SVM分类进行训练，从而使得编码单元的划分决策是内容自适应的，从而可以适应于灵活性较高的视频内容；

（3）通过编码单元本身以及相连编码单元中与编码单元划分相关的信息分别对相应的SVM分类器进行训练，充分获取利用自身与周边编码单元中信息与目标编码单元划分决策的联系，使得利用本发明所述方法进行编码单元划分时能与采用传统方法的率失真性能保持一致的情况下，做到编码时间的降低。

附图说明

图1为一种基于内容自适应的帧内图像编码单元划分方法的方法步骤图；

图2为一种基于内容自适应的帧内图像编码单元划分系统的系统结构图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

HEVC帧内编码将每帧图像划分成若干个CT，通过深度优先搜索的方式确定每个CTU的最佳CU划分及相应的PU和预测模式。HEVC具体帧内预测过程为：对CTU进行帧内编码时，要分别遍历1个64×64CU，4个32×32CU，16个16×16CU和64个8×8CU，总计85个CU。每个CU都需要进行PU模式和预测模式的率失真优化选择，并从中选择率失真代价最小的作为帧内编码模式。

HEVC帧内编码需要对所有的CU、PU尺寸以及相应的预测模式进行率失真代价计算，这将带来巨大的编码复杂度。如果能够提前跳过某些CU尺寸的选择过程，那么相应的PU尺寸和预测模式率失真优化选择过程也可以被忽略，这将极大地降低帧内编码复杂度。基于此，如图1所示，本发明提出了一种基于内容自适应的帧内图像编码单元划分方法，包括步骤：

本发明为了实现对编码单元划分的精确判断，考虑到在HEVC编码标准中，编码单元的划分仅仅是四叉树划分，为简单的二分类问题。因此，本发明提出在编码器内设计两个不同级别上（L1级别和L2级别）的支持向量机（SVM），并对其进行训练和应用。其中，L1级别的SVM分类器训练和应用主要包括数据收集、特征选择、参数训练和划分决策四个步骤。

其中，对于L1级别的数据收集，为了保证训练的准确性，本发明以当前编码进度下目标视频后续若干帧内图像的编码单元为训练样本集，并通过传统的率失真优化技术进行编码以获取各编码单元在各编码深度下的划分结果。需要注意的是，为了保证每个编码深度预测准确性，在编码器L1级别的划分预测中，对于每个编码深度都有两个SVM分类器，其中第一加权SVM分类器用于在线训练模型的参数，而第二加权SVM分类器则用于根据训练好的参数进行预测样本的划分结果获取。

假设F_j ⁱ为第i个编码单元在深度j时的编码单元划分决策的特征集合。为了使通过特征集合训练后的SVM分类器能够加深与目标编码单元中与划分决策相关信息的关联，本发明对于L1级别的第一特征向量集，选用的是

，其中：

为当前编码单元在编码深度j时对应的纹理复杂度，

，B为当前编码单元，N_B为当前编码块的像素点数量，

为当前编码单元在点（m，n）处像素点的亮度值；

为编码单元在编码深度j时估计的率失真代价函数；

为编码单元在编码深度j时的编码块标识（CBF）。

在获得了训练样本中所需要的第一特征向量集后，根据第一特征向量以及其所对应的划分结果（划分还是不划分的二分类问题），通过目标函数对SVM分类器进行参数训练，具体地，目标函数可以表示为如下公式：

式中，w为SVM分类器的超平面边距，

为初始为1的常数。其中，L1级别中的W_ns和W_s可以通过采集训练样本编码过程中的数据进行获取。

需要注意的是，该目标函数需要满足如下约束条件：

式中，x_i={1，2，…，N}为训练样本的特征向量，b为截距，i为训练样本的编号，可表示为{x_i，y_i}，y_i为常数1或者-1，当y_i为1时表示编码单元划分，当y_i为-1时表示编码单元不划分。

最终，通过将对第一加权SVM分类器进行训练所获得的第一参数集带入当前编码深度下编码器内的第二加权SVM分类器中，并提取训练样本的第一特征向量输入至第二加权SVM分类器，即可获得L1级别下对于当前编码深度下编码单元的划分决策判断。

需要注意的是，当L1级别判定下为不划分时，则证明目前对于当前编码深度以及前序编码深度编码单元的划分决策已达到最优，无需对后续编码深度继续进行划分决策，而在实际编码过程中，也就无需对这后续编码深度下的编码单元进行率失真代价函数的计算，大大减少了编码所需的比特数。而当L1级别判定为划分时，为了进一步地确保划分判断的准确性，本发明通过L2级别的判定进一步对结果的稳定性进行判断。

有别于L1级别基于目标编码单元自身与编码单元划分决策相关信息的训练，L2级别充分考虑到相邻编码单元中相关信息对目标编码单元划分决策的影响，同时编码器每一编码深度下仅设置一个第三加权SVM分类器。因此，在特征向量选取方面，L2级别与L1级别不同，选取的第二特征向量集

，其中，

为目标编码单元在编码深度j时所需要的比特位信息，

为目标编码单元相邻编码单元在编码深度j时的率失真代价函数均值，

为目标编码单元相邻编码单元在编码深度j时的平均深度。

在此之前，同样采用L1级别中的目标函数进行第一加权SVM分类器的训练以获得第二参数集。与L1级别中第一参数集训练不同的是，在L2级别第二参数集训练中，W_ns和W_s是通过F-score方法计算获得的（需要注意的是，L2级别是与L1级别的参数集是通过第一加权SVM分类器一同训练的，在L1级别判定为划分后，直接进入训练完成的第三加权SVM分类器）。

最后，通过将先前第一加权SVM分类器训练所获得的第二参数集以及当前预测样本的第二特征向量输入第三加权SVM分类器中以获得当前编码深度下的划分决策判断。在判定不划分时，根据预测样本在各编码深度下的划分结果进行帧内图像的划分，在判定划分时，在未达到最大编码深度前，返回S5步骤。

进一步地，为了保证基于SVM分类器的划分判定模型能够与目标视频内容保持相关，在S8步骤之后，当训练样本的总数与目前总共完成划分结果判定的预测样本总数的比例达到预设比例时，还包括步骤：

S9：重置各SVM分类器的各项参数并返回S1步骤。

其中，L2级别中对于第三加权SVM分类器的重新训练，允许通过动态或内容自适应的训练。

综上所述，本发明所述的一种基于内容自适应的帧内图像编码单元划分方法与系统，通过获取帧内图像中各编码单元的划分决策，减少非必要编码深度下对编码单元的率失真代价计算，进而提高编码效率。

通过率失真优化编码下所获得的数据对SVM分类器进行训练，并在完成划分决策的预测样本数量与训练样本数量达到一定比例时重新对SVM分类进行训练，从而使得编码单元的划分决策是内容自适应的，从而可以适应于灵活性较高的视频内容。通过编码单元本身以及相连编码单元中与编码单元划分相关的信息分别对相应的SVM分类器进行训练，充分获取利用自身与周边编码单元中信息与目标编码单元划分决策的联系，使得利用本发明所述方法进行编码单元划分时能与采用传统方法的率失真性能保持一致的情况下，做到编码时间的降低。

实施例二

为了更好的对本发明的技术内容进行理解，本实施例通过系统结构的形式来对本发明进行阐述，如图2所示，一种基于内容自适应的帧内图像编码单元划分系统，包括：

进一步地，编码单元划分模块中还包括重置单元，用于当训练样本的总数与完成划分结果判定的预测样本总数的比例达到预设比例时，重置各SVM分类器的各项参数并通过训练样本提取模块重新提取训练样本。

进一步地，分类器训练模块中，参数训练可表示为如下公式：

式中，w为SVM分类器的超平面边距，

进一步地，在第一参数集训练过程中，W_ns和W_s为通过采集训练样本编码过程中的数据获得，在第二参数集训练过程中，W_ns和W_s为通过F-score方法计算获得。

进一步地，第一特征向量集包括当前待测样本的纹理复杂度、估计的率失真代价函数和编码块标识；所述第二特征向量集包括当前待测样本编码需要的比特位信息，以及当前待测样本相邻编码单元的率失真代价函数均值和平均深度。

实施例三

为了对本发明的技术效果进行验证，本实施例通过一组具体实验数据来验证本发明。通过对比提出的算法和HEVC参考模型（HM）编码器中的率失真和计算复杂性来验证算法的性能，实验测试采用的是标准HM视频序列。使用libSVM处理SVM的功能，采用径向基函数作为核函数，参数C=80。

为了评估本专利提出算法的性能，使用BD−Rate（Bjontegaard delta bitrate）来评估本专利提出算法的整体率失真特性，减少的编码计算复杂度使用平均节省编码时间(∆T) 来衡量。

其中T_HM（QP_i)和T_pro（QP_i）分别为在不同量化参数QP取值下，参考软件的编码时间与本发明提出的算法编码时间。实验结果见表1，从中可以看出，本发明提出的方法能降低45%的编码时间，而编码效率仅仅损失1.3%，进而证实了本方法的有效性。

表1：实验结果列表

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种基于内容自适应的帧内图像编码单元划分方法，其特征在于，包括步骤：

S8：根据预测样本在各编码深度下的划分结果进行帧内图像的划分；

当训练样本的总数与完成划分结果判定的预测样本总数的比例达到预设比例时，所述S8步骤之后还包括步骤：

S9：重置各SVM分类器的各项参数并返回S1步骤。

2.如权利要求1所述的一种基于内容自适应的帧内图像编码单元划分方法，其特征在于，所述S3步骤和S4步骤中，参数训练可表示为如下公式：

式中，w为SVM分类器的超平面边距，

3.如权利要求2所述的一种基于内容自适应的帧内图像编码单元划分方法，其特征在于，在第一参数集训练过程中，所述W_ns和W_s为通过采集训练样本编码过程中的数据获得，在第二参数集训练过程中，W_ns和W_s为通过F-score方法计算获得。

4.如权利要求1所述的一种基于内容自适应的帧内图像编码单元划分方法，其特征在于，所述第一特征向量集包括当前待测样本的纹理复杂度、估计的率失真代价函数和编码块标识；所述第二特征向量集包括当前待测样本编码需要的比特位信息，以及当前待测样本相邻编码单元的率失真代价函数均值和平均深度。

5.一种基于内容自适应的帧内图像编码单元划分系统，其特征在于，包括：

编码单元划分模块，用于在L1级划分判断模块和L2级划分判断模块中的任意一个划分判断模块判断不划分或者达到最大编码深度时，根据预测样本在各编码深度下的划分结果进行帧内图像的划分；

所述编码单元划分模块中还包括重置单元，用于当训练样本的总数与完成划分结果判定的预测样本总数的比例达到预设比例时，重置各SVM分类器的各项参数并通过训练样本提取模块重新提取训练样本。

6.如权利要求5所述的一种基于内容自适应的帧内图像编码单元划分系统，其特征在于，所述分类器训练模块中，参数训练可表示为如下公式：

式中，w为SVM分类器的超平面边距，

7.如权利要求6所述的一种基于内容自适应的帧内图像编码单元划分系统，其特征在于，在第一参数集训练过程中，所述W_ns和W_s为通过采集训练样本编码过程中的数据获得，在第二参数集训练过程中，W_ns和W_s为通过F-score方法计算获得。

8.如权利要求5所述的一种基于内容自适应的帧内图像编码单元划分系统，其特征在于，所述第一特征向量集包括当前待测样本的纹理复杂度、估计的率失真代价函数和编码块标识；所述第二特征向量集包括当前待测样本编码需要的比特位信息，以及当前待测样本相邻编码单元的率失真代价函数均值和平均深度。