CN107690069A

CN107690069A - 一种数据驱动的级联视频编码方法

Info

Publication number: CN107690069A
Application number: CN201710751982.1A
Authority: CN
Inventors: 张云; 李娜; 张欢; 樊春玲
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-02-13
Anticipated expiration: 2037-08-28
Also published as: CN107690069B

Abstract

本发明涉及一种数据驱动的级联视频编码方法，通过编码模式决策器的级联，以及编码模式决策数据，提高单级编码单元模式决策器的决策准确度和编码效率的控制，有效降低视频编码的编码复杂度。将多个单级编码单元模式决策器级联，有效进一步减少单一编码单元模式决策器决策过程中的分类不确定性问题；因此，有效提高编码单元模式决策准确性，降低了高效视频编码的计算复杂度的同时，提高了高效视频编码的有效性。

Description

一种数据驱动的级联视频编码方法

技术领域

本发明涉及视频编码技术，特别是涉及一种准确度高、复杂度低的数据驱动的级联视频编码方法。

背景技术

由于能够提供更好的感知质量和更逼真的视觉体验，高清(High Definition,HD)与超高清(Ultra High Definition)视频越来越流行并受到人们的喜爱。这些高清和超高清视频具有广阔的应用市场，包括高清电视广播、IMAX电影、沉浸式视频通信、网络视频点播以及高清视频监控等。然而，由于高清与超高清视频具有更高的清晰度和视频帧率，视频数据量也极具增加。例如，一个8K′4K@120帧每秒的高清/超高清视频具有11.5GB每秒的视频原始数据，将其有效的存储和传输就需要非常高效的视频压缩。为了有效的解决高清视频的压缩问题，视频编码联合工作组(Joint Collaborative Team on Video Coding，JCT-VC)提出了高效视频编码(High Efficiency Video Coding，HEVC)标准，相比于H.264/AVC标准的高档次(high profile)在相同视觉质量的前提下降低50％的码率，即压缩比提高一倍。高效视频编码HEVC引入了多种先进的编码技术，包括灵活的四叉树块分割模式、35种帧内预测模式、离散正弦变换以及复杂的插值和滤波技术等等。这些相关编码技术有效提高了视频压缩效率，然而极大地增加了编码复杂度，包括计算复杂度、CPU消耗、内存访问消耗、电池消耗等，不利于高清和超高清的实时性应用。

高效视频编码HEVC中的编码树单元结构(Coding Tree Unit，CTU)类似于H.264/AVC中的宏块的概念，CTU包含一个亮度块(Coding Tree Block，CTB)和若干色度块，以及若干语法元素。每个CTB根据视频内容包含一个编码单元(Coding Unit,CU)或被分割为多个CU，HEVC中每个CU的尺寸支持8*8、16*16、32*32和64*64，CTB中的CU分割样例中，Depth 0至Depth 4分别表示64*64至8*8的CU尺寸。此外，每个CU又可进一步分为不同模式和尺寸的预测单元(Prediction Unit，PU)，包括SKIP，MERGE模式，8种帧间模式以及2种帧内模式。最后，每个预测单元PU又将采用不同尺寸的变换单元(Transform Unit，TU)进行变换编码。HEVC中CU、PU和TU是层次递归关系，每个CU、PU和TU层次都有多个模式，而各个层的最佳的模式主要通过计算率失真代价(Rate-Distortion Cost)得到，即选择率失真代价最小的模式为最佳模式。然而，这就需要计算所有的层次和模式的率失真代价并比较以获得最佳模式，非常耗时，计算复杂度非常高。然而，现有编码模式决策模型的准确度有限，缺乏一种编码模式决策模型的准确性提升方法。

发明内容

基于此，有必要提供一种准确度高、复杂度低的数据驱动的级联视频编码方法。

一种数据驱动的级联视频编码方法，包括以下步骤：

配置级联编码单元模式决策器中的单级编码单元模式决策器，并确定所述单级编码单元模式决策器的参数；

根据所述级联编码单元模式决策器的每个单级编码单元模式决策器编码视频序列；

提取所述视频序列中每个编码块对应的特征向量；

将所述特征向量输入已学习的级联编码单元模式决策器，输出预测模式，若预测值为不分割，则执行并测试当前编码单元尺寸，同时跳过分割编码单元尺寸的测试与编码；若预测值为分割，则跳过测试当前编码单元尺寸，直接执行分割和分割后的编码单元尺寸的测试与编码；若为不确定，则先测试当前编码单元尺寸，然后测试分割后的编码单元尺寸；

重复上述步骤直至编码树块中所有的编码单元层都完成编码；

重复上述步骤直至所有视频帧中编码树块都完成编码。

在其中一个实施例中，所述单级编码单元模式决策器包括：

根据当前视频内容特性做出预测模式A、预测模式B及预测模式C，其中，所述预测模式A为对当前编码单元层的编码单元尺寸进行计算和编码；所述预测模式B为下一层编码单元层为最佳模式，且跳过当前编码单元层的编码单元尺寸的计算；所述预测模式C为当前编码单元层的编码模式无法确定。

在其中一个实施例中，还包括：将两个单级编码单元模式决策器级联形成二级编码单元模式决策器；

所述二级编码单元模式决策器的输入是上一级单级编码单元模式决策器的不确定性决策对应的编码单元集合。

在其中一个实施例中，所述单级编码单元模式决策器对应一个编码单元模式决策器配置模块，所述配置模块的配置项包括编码单元决策器样本选择和特征提取。

在其中一个实施例中，所述单级编码单元模式决策器的学习步骤包括：

通过离线学习训练得到第一级编码单元模式决策器；

在前N帧编码过程中运行所述第一级编码单元模式决策器；

针对所述预测模式A、所述预测模式B、所述预测模式C产生三个集合A_#0，1；B_#0，1；和C_#0，1；

C_#0,1集合将采用原始模型进行编码，输出已编码视频帧中面向第二级编码单元模式决策器的特征向量X以及每个编码单元的最佳分块模式Y；

将特征向量X和最佳分块模式Y输入第二级编码单元模式决策器进行训练；

从N+1帧开始，然后将训练好的第二级编码单元模式决策器用于后续视频帧编码中的编码单元模式预测，其中，每编码一个序列都需要对第二级编码单元模式决策器重新训练。

在其中一个实施例中，还包括：根据编码单元模式决策器的决策复杂度和编码信息易获得性选择编码单元模式决策器所输入的编码单元特征信息的步骤包括：

对当前编码单元层的编码单元尺寸进行计算和编码，选取当前编码单元相邻左边编码单元深度DL0和DL1的纹理信息、当前编码单元的预分析及上下文信息；选取当前编码单元相邻左边编码单元深度DL2和DL3的纹理信息、当前编码单元的预分析及上下文信息；

对下一层的编码单元尺寸进行计算和编码，选取下一层的编码单元相邻左边编码单元深度DL0和DL1的纹理信息、当前编码单元的信息及上下文信息；选取下一层的编码单元相邻左边编码单元深度DL2和DL3的纹理信息、当前编码单元的信息及上下文信息。

在其中一个实施例中，所述根据编码单元模式决策器的决策复杂度和编码信息易获得性选择编码单元模式决策器所输入的编码单元特征信息的步骤包括：

采用公式(1)或(2)计算纹理信息，公式(1)或(2)如下所示：

其中，B是当前编码单元或亮度块的块，N_B是块B中的像素数目，I(i,j)是像素位置(i,j)的亮度值；

其中，V(B)表示大块与小块之间的纹理复杂度差异，T(B)为公式1计算的块B的纹理复杂度，T(b_i)为利用公式1计算的块B对应的四个子块b_i的纹理复杂度，纹理信息包括当前编码单元块的纹理信息，以及当前编码单元与其四个子编码单元间的纹理差异，分别记为x_T(i)和x_TD(i)；

当前编码单元的预分析利用PLANAR模式编码当前编码单元，计算得到的率失真代价获得的特征记为x_RD/Q(i)和x_RD/D(i)，分别表示被Q_step和被失真归一化的率失真代价；

上下文信息主要包括但不限于当前编码单元相邻左边和上边亮度块的平均率失真代价、相邻亮度块的编码单元深度之和、以及当前编码单元相邻左边和上边编码/预测深度，分别记为x_{NB_CTU_RD}，x_{NB_CTU_Depth}.和x_{NB_CU+PU_Depth}(i)；

其中，D_L,4×4(k)和D_A,4×4(k)分别表示当前编码单元相邻左边和上边亮度块中位置在k的4×4单元的深度值；

x_{NB_CU+PU_Depth}(i)＝[D_L(i)+P_L(i)+D_A(i)+P_A(i)]/2, (4)

其中，D_L(i)_{and DA}(i)是当前编码单元相邻左边和上边编码单元深度；P_L(i)和P_A(i)是当前编码单元相邻左边和上边编码单元的预测模式，预测模式SIZE_2N×2N记为0，预测模式SIZE_N×N记为1；

当前编码单元的信息主要包括率失真代价值和编码比特数，分别记为x_RD(i)和x_Bit(i)，其中，i为当前CU的深度。

在其中一个实施例中，所述对当前编码单元层的编码单元尺寸进行计算和编码的步骤包括：选取当前编码单元相邻左边编码单元深度DL0和DL1的纹理信息、当前编码单元的预分析及上下文信息中的当前编码单元相邻左边和上边亮度块的平均率失真代价x_{NB_CTU_RD}，相邻亮度块的编码单元深度之和_{NB_CTU_Depth}.；

选取当前编码单元相邻左边编码单元深度DL2和DL3的纹理信息中的当前编码单元与其四个子编码单元间的纹理差异x_T(i)、当前编码单元的预分析中的率失真代价获得的特征x_RD/Q(i)及上下文信息中的当前编码单元相邻左边和上边编码/预测深度x_{NB_CU+PU_Depth}(i)；

所述对下一层的编码单元尺寸进行计算和编码的步骤包括：

选取下一层的编码单元相邻左边编码单元深度DL0和DL1的纹理信息中的当前编码单元与其四个子编码单元间的纹理差异x_T(i)、当前编码单元的信息中的率失真代价值x_RD(i)和编码比特数x_Bit(i)及上下文信息中的当前编码单元相邻左边和上边编码/预测深度x_{NB_CTU_Depth}.；

选取下一层的编码单元相邻左边编码单元深度DL2和DL3的纹理信息中的当前编码单元与其四个子编码单元间的纹理差异x_T(i)、当前编码单元的信息中的率失真代价值x_RD(i)和编码比特数x_Bit(i)及上下文信息中的当前编码单元相邻左边和上边编码/预测深度x_{NB_CTU_Depth}。

在其中一个实施例中，根据可容忍的率失真代价选择编码单元模式决策模型的最优参数包括：

针对第m层编码单元模式决策器设立目标函数；在率失真代价增加有限的条件下，最小化编码器的计算复杂度1-ΔT_m，可表示为：s.t.∑R_m≤R_T。

在其中一个实施例中，还包括：

不同大小编码单元的率失真代价的增加拟合为R_m＝f_R(x_m)，x_m表示第m层编码单元模式决策器的模型参数，f_R表示从编码单元模式决策器的模型参数x_m到利用编码单元模式决策器的模型参数得到的编码单元模式的率失真代价估计R_m的映射；

当f_R是逻辑函数，R_m可以表示为

其中ΔT_m是关于x_m的函数，表示为ΔT_m＝f_T(x_m)。

当f_T采用线性模型，ΔT_m可以表示为ΔT_m＝a_m+b_m·x_m；

x_m是第m层编码单元模式决策器的模型参数。

上述数据驱动的级联视频编码方法通过编码模式决策器的级联，以及编码模式决策数据的挖掘，提高编码单元模式决策器的决策准确度和编码效率的控制，有效降低视频编码的编码复杂度。将多个单级编码单元模式决策器级联，有效进一步减少单一编码单元模式决策器决策过程中的分类不确定性问题；因此，有效提高编码单元模式决策准确性，降低了高效视频编码的计算复杂度的同时，提高了高效视频编码的有效性。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他实施例的附图。

图1为数据驱动的级联视频编码方法的流程图；

图2为单级编码单元模式决策器的学习步骤的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，为数据驱动的级联视频编码方法的流程图。

在视频编码中，每一个图像由一系列的编码树单元结构组成，其中，获得亮度块的最终编码单元模式的决策不是一个单独的二值判断问题，而是多个编码单元模式判断问题迭代的模式决策问题。在编码中，每个64x64的亮度块的亮度单元将首先采用64x64的编码尺寸进行编码，计算率失真代价；然后，将其分割为4个32x32的编码尺寸进行编码，分别计算4个单元的率失真代价；在此过程中，每个32x32的编码尺寸又会分割为4个16x16的编码尺寸，依次递归，直到8x8的编码单元。最后，从小尺寸的编码单元依次向上递归，与上一层的编码单元比较率失真代价，代价小的定为更好的模式选择；依次递归、并比较到最后，由此得到亮度块的最优编码尺寸分割方式。而后，进行预测单元层和变换单元层的模式决策。

一种数据驱动的级联视频编码方法，包括以下步骤：

步骤S110，配置级联编码单元模式决策器中的单级编码单元模式决策器，并确定所述单级编码单元模式决策器的参数。

编码模式决策问题是判断整个亮度块的编码尺寸是当前编码尺寸或者更小的4个编码尺寸，可以描述为分割或不分割的二值决策问题，或者是分割、不分割或不确定的三值决策问题。

单级编码单元模式决策分类器的决策准确性有限，因此，针对不同决策输出和输入，可以构建下一级编码单元模式决策分类器，实现由多个编码单元模式决策分类器级联的编码单元模式决策结构，形成级联编码单元模式决策器。

单一分类器将根据当前视频内容特性做出预测，包括模式A、模式B或模式C。模式A，即预测当前编码单元大小为最佳模式，则只执行当前编码单元大小(e.g.64×64)模式下的率失真代价计算和编码；模式B对应于预测下一层编码单元大小(e.g.32×32)为最佳模式，则跳过当前编码单元大小模式的计算；模式C则表示当前编码单元大小模式无法确定。

当前编码单元模式决策器(Classifier#n)的输入可以是全部编码单元集合，也可以是上一层编码单元模式决策器(Classifier#n-1)的不同决策对应的编码单元集合A_#n-1,i，B_#n-1,i和C_#n-1,i，其中，n∈[1,4]，表示编码单元大小模式所在深度层次；i∈[1,M]，表示当前编码单元模式决策器的标识，M为级联编码单元模式决策器中编码单元模式决策器的个数，M≥1。A_#n,i，B_#n,i和C_#n,i可以作为下一级编码单元模式决策器(Classifier#n+1)的输入。

针对不同编码单元模式决策器，可以配置不同的样本选择、特征提取和决策器训练方法。不同编码单元大小，以及相同编码单元大小不同编码单元大小模式间可以共享编码单元模式决策器的配置，也可以根据视频内容和视频编码任务的需求进行个性化配置。

数据驱动的级联视频编码方法还包括：所述级联编码单元模式决策器的模型个数为1时、当前结构对应的一个所述单级编码单元模式决策器。

数据驱动的级联视频编码方法还包括：将两个单级编码单元模式决策器级联形成二级编码单元模式决策器；

该结构非常灵活，具有多个优势：

当级联编码单元大小决策模型的个数M＝1时，当前结构对应现有的单级编码单元大小决策模型，通过调整M值可以实现编码效率与计算复杂度间的转换。

由于可以通过分类算法以及参数调整不同编码单元模式决策器的A，B，C三个输出项，该结构可以通过调整A，B，C实现编码效率与计算复杂度的转换，可按照实际应用系统需求调整，例如，当第一层编码单元模式决策器的A和B预测准确率为100％时，第二层编码单元模式决策器的C设为0时，该结构实现了编码单元模式选择早期终止微调结构。

具体的，依据级联CU模式决策器S1，通过将两个CU模式决策器级联，第二级CU模式决策器的输入是上一级CU模式决策器的不确定性决策对应的CU集合C_#n-1,i,，从而进一步对CU集合C_#n-1,i进行CU模式决策判断，其中，用于判断当前编码对象集合C_#n-1,i中的编码对象模式的CU模式决策器的输出将不包含B输出项。

步骤S120，根据所述级联编码单元模式决策器的每个单级编码单元模式决策器编码视频序列。

步骤S130，提取所述视频序列中每个编码块对应的特征向量。

在本实施例中，特征向量包括但不限于当前编码单元的特征、纹理信息、运动信息、上下文信息、量化参数等以及最佳编码单元尺寸。

具体的，不同大小编码单元的编码单元模式决策器的特征信息可以根据编码单元模式决策器的决策复杂度和编码信息易获得性进行选择。如表1所示。所包含特征包含但不限于以下四类。

表1 CU模式决策特征选择示意图

纹理信息包括但不限于当前CU块的纹理信息，以及当前CU与其四个子CU间的纹理差异，分别记为x_T(i)和x_TD(i)，计算公式可以是公式(1)或(2)。

其中，B是当前编码单元或亮度块的块，N_B是块B中的像素数目，I(i,j)是像素位置(i,j)的亮度值。

当前编码单元的预分析利用PLANAR模式编码当前编码单元，计算得到的率失真代价获得的特征记为x_RD/Q(i)和x_RD/D(i)，分别表示被Q_step和被失真归一化的率失真代价，例如，利用Q_step除以率失真。

上下文信息主要包括但不限于当前编码单元相邻左边和上边亮度块的平均率失真代价、相邻亮度块的编码单元深度之和、以及当前编码单元相邻左边和上边编码/预测深度，分别记为x_{NB_CTU_RD}，x_{NB_CTU_Depth}.和x_{NB_CU+PU_Depth}(i)。

其中，D_L,4×4(k)和D_A,4×4(k)分别表示当前编码单元相邻左边和上边亮度块中位置在k的4×4单元的深度值。

x_{NB_CU+PU_Depth}(i)＝[D_L(i)+P_L(i)+D_A(i)+P_A(i)]/2, (4)

其中，D_L(i)_and D_A(i)是当前编码单元相邻左边和上边编码单元深度。P_L(i)和P_A(i)是当前编码单元相邻左边和上边编码单元的预测模式，预测模式SIZE_2N×2N记为0，预测模式SIZE_N×N记为1。

步骤S140，将所述特征向量输入已学习的级联编码单元模式决策器，输出预测模式，若预测值为不分割，则执行并测试当前编码单元尺寸，同时跳过分割编码单元尺寸的测试与编码；若预测值为分割，则跳过测试当前编码单元尺寸，直接执行分割和分割后的编码单元尺寸的测试与编码；若为不确定，则先测试当前编码单元尺寸，然后测试分割后的编码单元尺寸。

步骤S150，重复上述步骤直至编码树块中所有的编码单元层都完成编码。

步骤S160，重复上述步骤直至所有视频帧中编码树块都完成编码。

所述单级编码单元模式决策器包括：

所述单级编码单元模式决策器对应一个编码单元模式决策器配置模块，所述配置模块的配置项包括编码单元决策器样本选择和编码单元特征提取。

具体的，级联编码单元模式决策器中，单级编码单元模式决策器对应一个编码单元模式决策器配置模块，配置项包括编码单元模式决策器样本选择和编码单元模式决策器特征提取。

如图2。所述单级编码单元模式决策器的学习步骤包括：

步骤S210，通过离线学习训练得到第一级编码单元模式决策器。

步骤S220，在前N帧编码过程中运行所述第一级编码单元模式决策器。

步骤S230，针对所述预测模式A、所述预测模式B、所述预测模式C产生三个集合A_#0，1；B_#0，1；和C_#0，1。

步骤S240，C_#0,1集合将采用原始模型进行编码，输出已编码视频帧中面向第二级编码单元模式决策器的特征向量X以及每个编码单元的最佳分块模式Y。

步骤S250，将特征向量X和最佳分块模式Y输入第二级编码单元模式决策器进行训练。

步骤S260，从N+1帧开始，然后将训练好的第二级编码单元模式决策器用于后续视频帧编码中的编码单元模式预测，其中，每编码一个序列都需要对第二级编码单元模式决策器重新训练。

具体的，通过级联编码单元模式决策器，不同编码单元集合间可以实现不同特征提取、样本选择和编码单元模式决策器训练的灵活配置，实现特征信息、样本信息和编码单元模式决策器训练方法间的互补，从而提高编码单元模式决策准确度。当第一层编码单元模式决策器采用离线编码单元模式决策器训练方法、第二层编码单元模式决策器采用在线编码单元模式决策器训练方法。

在本实施例中，在两层级联编码单元模式决策器中，通过离线学习方法训练得到第一层编码单元模式决策器后，在前N帧编码过程中先运行离线编码单元模式决策器，针对ABC输出项产生三个编码对象集合A_#0,1，B_#0,1和C_#0,1，其中，C_#0,1集合将采用原始模型进行编码，输出这些已编码视频帧中面向第二层编码单元模式决策器的特征向量X以及每个编码对象的最佳分块模式Y，然后，将X和Y输入第二级编码单元模式决策器进行训练。然后，从N+1帧开始，将训练好的第二级编码单元模式决策器用于后续视频帧编码中的编码单元模式预测；该方式中每编码一个序列都需要对第二级编码单元模式决策器重新训练。

数据驱动的级联视频编码方法还包括对视频帧进行下采样。

在本实施例中，针对部分编码单元模式决策模型与训练样本规模间的相关性，保证参与编码单元模式决策器训练的视频多样性的前提下，将对视频帧进行下采样。例如，选择每一个视频编码流中的第一帧进行编码单元模式决策器的离线训练。其次，针对编码单元模式决策器准确性，离线编码单元模式决策器训练过程中将通过随机的方式丢弃一些样本，例如，在SVM分类器训练过程中，将通过随机丢弃一些正样本保证，正负样本在训练集合中的比率为1:1。

数据驱动的级联视频编码方法还包括：根据编码单元模式决策器的决策复杂度和编码信息易获得性选择编码单元模式决策器所输入的编码单元特征信息。

数据驱动的级联视频编码方法还包括：根据可容忍的率失真代价选择编码单元模式决策模型的最优参数。

所述根据可容忍的率失真代价选择编码单元模式决策模型的最优参数的步骤包括：

针对第m层编码单元模式决策器设立目标函数；

不同大小编码单元的率失真代价的增加拟合为R_m＝f_R(x_m)x_m表示第m层编码单元模式决策器的模型参数，f_R表示从编码单元模式决策器的模型参数x_m到利用编码单元模式决策器的模型参数得到的编码单元模式的率失真代价估计R_m的映射。在本实施例中，定义率失真代价R为采用级联高效编码单元模式决策方法所带来的率失真代价的增加量，编码效率控制是根据可容忍的率失真代价R_T，选择最优的编码单元模式决策模型参数。

由此，针对第m层编码单元模式决策器，为了得到最优化编码单元模式决策的性能，设立目标函数，即在率失真代价增加有限的条件下，最小化编码器的计算复杂度1-ΔT_m，可表示为：s.t.∑R_m≤R_T；

其中，不同大小编码单元的编码单元模式率失真代价的增加可以拟合为R_m＝f_R(x_m)，当f_R是逻辑函数，R_m可以表示为

其中ΔT_m是关于x_m的函数，表示为ΔT_m＝f_T(x_m)。

当f_T采用线性模型，ΔT_m可以表示为ΔT_m＝a_m+b_m·x_m；

x_m是第m层编码单元模式决策器的模型参数，以SVM为例，其中W_A和W_B是SVM学习机中的加权系数，W_A和W_B分别表示样本中正、负样本的重要性，越大表示越容易被分为该类，错误接受率将增大，错误拒绝率将减少。这些错误分类或预测的结果将导致最终编码的编码效率和计算复杂度的编码。其中，可以通过求解逻辑函数公式计算得到x_m，最终得到W_B/W_A的比率，作为SVM学习机的训练参数。

通过对部分测试序列的编码而统计得到不同层编码单元模式决策模型对应的参数p_m，k_m，x_c,m，a_m和b_m，具体参数如表2所示。

表2拟合参数，准确度和优化权重系数集合

本发明公开了一种数据驱动的级联高效视频编码方法，通过不同编码单元模式决策器间的灵活级联，在保证视频的压缩效率的前提下，提高现有单一视频编码单元模式决策器准确性。面向高效视频编码帧内编码，一种离线和在线编码单元模式决策器级联的高效视频编码方法可以降低高效视频编码的编码复杂度27.952％至80.527％，平均为52.477％，优于传统技术。

基于上述所有实施例，

实验采用高效视频编码的参考软件平台HM16.7，配置信息包括帧内编码所有配置，编码序列每一帧为I帧，编码尺寸支持64×64至8×8，运动估计范围为64，其他参数为默认参数。

编码验证实验分为两部分，首先编码5个测试序列BQSqure(416×240),BasketballDrill(832×480),FourPeople(1280×720),ParkScene(1920×1080),Traffic(2560×1600)，采用不同的用户配置训练参数W_B和W_A训练学习机，获得W_B,W_A在不同编码单元层次D_L0,D_L1,D_L2和D_L3最佳配置为(1:2),(1:2.25),(1:2.5)and(1:4.0)，然后将学习机用于编码过程中编码单元深度预测，本实验中编码了21个序列的所有帧，同时对比了现有最先进的三种编码方法，本发明相比于原高效视频编码校验模型软件平台可降低计算复杂度27.952％至80.527％，平均为52.477％，平均BDPSNR和BDBR分别为-0.075dB和1.575％，与原HM的压缩效率基本一致。从压缩效率和计算复杂度上优于于目前先进的三个方案。

表3编码效率对比表

表3编码效率对比表.(续.)

本发明实施例中采用了两个离线和在线SVM学习机组成的级联编码单元模式决策器，学习机间通过集合C连接。其中，学习机可以替换为其他类型的学习机，如贝叶斯、神经网络、决策树等，同时学习机的数量可以多于2个；多级学习机间的级联可以通过集合A或是B连接；学习机可以是离线或者在线。

本发明中的级联编码单元模式决策器通过对不同决策类型输出集合进行微调实现了编码单元模式决策准确性的进一步提高，通过提高编码单元模式决策准确性，提高视频编码效率。实际视频编码过程中具有多种类似于编码单元尺寸/深度选择的“多选一”的过程，除编码单元深度决策外，还有预测单元模式选择，变换单元模式选择，多参考帧选择，运动估计等过程，均可采用本发明中基于学习的分类方法，解决相关“多选一”的问题。

上述数据驱动的级联视频编码方法通过编码模式决策器的级联，以及编码模式决策数据，提高单级编码单元模式决策器的决策准确度和编码效率的控制，有效降低视频编码的编码复杂度。将多个单级编码单元模式决策器级联，有效进一步减少单一编码单元模式决策器决策过程中的分类不确定性问题；因此，有效提高编码单元模式决策准确性，降低了高效视频编码的计算复杂度的同时，提高了高效视频编码的有效性。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据驱动的级联视频编码方法，其特征在于，包括以下步骤：

提取所述视频序列中每个编码块对应的特征向量；

重复上述步骤直至所有视频帧中编码树块都完成编码。

2.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，所述单级编码单元模式决策器包括：

根据当前视频内容特性做出预测模式A、预测模式B及预测模式C，其中，所述预测模式A为对当前编码单元层的编码单元尺寸进行计算和编码；所述预测模式B为下一层编码单元层的最佳模式，且跳过当前编码单元层的编码单元尺寸的计算；所述预测模式C为当前编码单元层的编码模式无法确定。

3.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，还包括：将两个单级编码单元模式决策器级联形成二级编码单元模式决策器；

4.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，所述单级编码单元模式决策器对应一个编码单元模式决策器配置模块，所述配置模块的配置项包括编码单元决策器样本选择和特征提取。

5.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，所述单级编码单元模式决策器的学习步骤包括：

通过离线学习训练得到第一级编码单元模式决策器；

在前N帧编码过程中运行所述第一级编码单元模式决策器；

针对所述预测模式A、所述预测模式B、所述预测模式C产生三个集合A_#0，₁；B_#0，1；和C_#0，1；

6.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，还包括：根据编码单元模式决策器的决策复杂度和编码信息易获得性选择编码单元模式决策器所输入的编码单元特征信息的步骤包括：

7.根据权利要求6所述的数据驱动的级联视频编码方法，其特征在于，所述根据编码单元模式决策器的决策复杂度和编码信息易获得性选择编码单元模式决策器所输入的编码单元特征信息的步骤包括：

采用公式(1)或(2)计算纹理信息，公式(1)或(2)如下所示：

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>B</mi> </msub> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mi>B</mi> </mrow> </munder> <mo>|</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>B</mi> </msub> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <mi>B</mi> </mrow> </munder> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>V</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>T</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>3</mn> </munderover> <mi>T</mi> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>x</mi> <mrow> <mi>N</mi> <mi>B</mi> <mo>_</mo> <mi>C</mi> <mi>T</mi> <mi>U</mi> <mo>_</mo> <mi>D</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>255</mn> </munderover> <mo>&lsqb;</mo> <msub> <mi>D</mi> <mrow> <mi>L</mi> <mo>,</mo> <mn>4</mn> <mo>&times;</mo> <mn>4</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>D</mi> <mrow> <mi>A</mi> <mo>,</mo> <mn>4</mn> <mo>&times;</mo> <mn>4</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

x_{NB_CU+PU_Depth}(i)＝[D_L(i)+P_L(i)+D_A(i)+P_A(i)]/2, (4)

8.根据权利要求6所述的数据驱动的级联视频编码方法，其特征在于，

所述对当前编码单元层的编码单元尺寸进行计算和编码的步骤包括：选取当前编码单元相邻左边编码单元深度DL0和DL1的纹理信息、当前编码单元的预分析及上下文信息中的当前编码单元相邻左边和上边亮度块的平均率失真代价x_{NB_CTU_RD}，相邻亮度块的编码单元深度之和_{NB_CTU_Depth}.；

所述对下一层的编码单元尺寸进行计算和编码的步骤包括：

9.根据权利要求1所述的数据驱动的级联视频编码方法，其特征在于，根据可容忍的率失真代价选择编码单元模式决策模型的最优参数包括：

10.根据权利要求9所述的数据驱动的级联视频编码方法，其特征在于，还包括：

当f_R是逻辑函数，R_m可以表示为

其中ΔT_m是关于x_m的函数，表示为ΔT_m＝f_T(x_m)；

当f_T采用线性模型，ΔT_m可以表示为ΔT_m＝a_m+b_m·x_m；

x_m是第m层编码单元模式决策器的模型参数。