CN109889842A

CN109889842A - 基于knn分类器的虚拟现实视频cu划分算法

Info

Publication number: CN109889842A
Application number: CN201910143778.0A
Authority: CN
Inventors: 张萌萌; 刘志
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-14
Anticipated expiration: 2039-02-21
Also published as: CN109889842B

Abstract

将一组帧序列划分为训练帧子集和预测帧子集，其中，训练帧子集中的训练帧被用于对预测帧子集中的预测帧的LCU(最大编码单元)的划分深度进行预测。预测例如可以使用KNN分类器来进行。

Description

基于KNN分类器的虚拟现实视频CU划分算法

技术领域

本发明涉及图像与视频处理领域，更具体而言，涉及在高效视频编码 (HEVC)中基于KNN分类器的虚拟现实视频CU划分算法。

背景技术

虚拟现实视频是用专业摄像机捕捉整个场景的图像信息，视频由软件拼接，由专用设备播放。它还为观看者提供了各种操作图像的功能，可以放大、缩小和向各个方向移动来观看场景，从而模拟和再现场景的真实环境。

目前，虚拟现实视频的编码和传输主要依靠将虚拟现实视频投影的每一帧转换成矩形的普通视频，然后利用HEVC等传统编码标准对其进行编码。常用的投影模式有ERP、EAP、CMP等。虚拟现实视频的质量评价标准不同于普通视频，本文采用ERP投影格式使用HEVC进行编码的虚拟现实视频。

2010年4月，两大国际视频编码标准组织VCEG和MPEG成立视频压缩联合小组JCT-VC(Joint collaborative Team on Video Coding)，一同开发高效视频编码HEVC(Highefficiency video coding)标准，其也称为H.265。 HEVC标准主要目标是与上一代标准H.264/AVC实现大幅度的编码效率的提高，尤其是针对高分辨率视频序列。其目标是在相同视频质量(PSNR) 下码率降为H.264标准的50％。

就目前阶段，HEVC依然沿用H.264就开始采用的混合编码框架，如图1所示。帧间和帧内预测编码：消除时间域和空间域的相关性。变换编码：对残差进行变换编码以消除空间相关性。熵编码：消除统计上的冗余度。HEVC将在混合编码框架内，着力研究新的编码工具或技术，提高视频压缩效率。

目前，JCT-VC组织的讨论中已经提出的许多编码的新特性，有可能会加入HEVC标准中，各次讨论的具体文献可以从http：//wftp3.itu.int获得。

HEVC标准[4]的第一版已经在2013年的一月份完成。并于2013年4 月、2014年10月和2015年4月相继发布的3个版本，这些版本能够很容易地从网络上获得，并且本申请将上述HEVC标准的三个版本并入本说明书中作为本发明的背景技术。

HEVC提出了全新的语法单元：编码单元(CU)是进行预测、变换、量化和熵编码的基本单元，预测单元(PU)是进行帧内帧间预测的基本单元，变换单元(TU)是进行变换和量化的基本单元。

如图1所示，在HEVC中，可以进行帧内预测模式和帧间预测模式的切换。在帧内预测模式和帧间预测模式中，HEVC都采用编码树单元(CTU) 的编码结构，CTU是HEVC编解码的基本处理单元。CTU由1个亮度CTB、 2个色度CTB和相应的语法元素组成。图2显示了在一个LCU编码后的 CTU结构。在HEVC中，LCU可以只包含一个编码单元(CU)，也可以使用CTU四叉树结构划分出为不同大小的CU。

HEVC中有四种大小CU，大小分别为：64x64、32x32、16x16和8x8CU 块越小，其在CTU树中位置越深。当CU为64x64、32x32和16x16和时称为2N*2N模式(表示可以划分为更小的CU)，当CU为8x8时称为N*N 模式(表示不可以进行进一步划分)。

在HEVC中，PU进行帧内帧间预测的基本单元，PU的划分是以CU 为基础的。对于2N*2N的CU模式，帧内PU的可选模式包括2N*2N和 N*N，帧间PU的可选模式有8种，包括4种对称模式(2N*2N，N*2N， 2N*N，N*N)和4种非对称模式(2N*nU，2N*nD，nL*2N，nR*2N)，其中，2N*nU和2N*nD分别以上下1∶3、3∶1的比例划分，nL*2N和nR*2N 分别以左右1∶3、3∶1的比例划分。

在HEVC中，仍然继续使用H.264/AVC的拉格朗日率失真优化(RDO) 进行模式选择，为每一个帧内模式计算其RDO：

J＝D+λR

其中，J为拉格朗日代价(亦即RD-cost)，D表示当前帧内模式的失真， R表示编码当前预测模式下所有信息所需的比特数，λ为拉格朗日因子。其中D通常使用绝对哈达玛变换差之和(SATD)来实现。

对于LCU，编码器首先将其作为一个CU，即64x64的CU块，计算出 CU的最佳预测结果，并在当前分区模式下记录最佳预测数据，然后编码器将当前LCU分为四个32x32 CU。编码器分别计算四个32x32对应的最佳预测结果，记录预测数据，然后第一次向下递归。然后32x32的CU继续向下划分为4个16x16的CU。同样，编码器计算了32x32划分后16x16 CU 的最佳预测结果，并记录了相应的数据。最后编码器将16x16的CU，划分为8x8的CU并计算其对应的最佳预测结果，记录相应的预测数据。由于 8x8 CU已经是最小的CU，因此编码器不再继续向下递归。当8x8 CU预测完成时，编码器将四个8x8 RD-cost之和与第一个16x16整个分区对应的 RD-cost进行比较，以决定是选择8x8分区还是选择16x16分区。在第一个 16x16完成后，编码器重复之前的步骤以确定第二个16x16是分为四个8x8 CU还是一个16x16 CU，然后对第三个16x16 CU和第四个16x16 CU也进行此判断。16x16CU划分完成后，编码器将四个16x16的RD-cost总和与 32x32RD-cost进行比较，以确定是否选择32x32 CU。当第一个32x32 CU 完成时，编码器重复前面的步骤以确定第二个、第三个和第四个32x32 CU 的分区模式。当所有四个32x32 CU计算完成后，我们将32x32 CU的RD-cost 总和与64x64 CU的RD-cost进行比较，然后决定是选择使用64x64还是 32x32及其递减分区。

在HEVC中，为了确定四叉树编码结构中的一个CU是否需要进一步划分，需要在遍历此CU和其子CU的所有最优划分模式，计算RD-cost然后进行比较。如果CU的RD-cost大于其子CU的RD-cost总和，则需要对 CU进行更深一层的划分。如果当前CU的RD-cost大于父CU的RD-cost，则不需要划分，并且当前CU作为一个整体。显然，这些比较发生在所有不同大小CU遍历结束之后。实际上，在许多情况下，最优划分中CU的大小各不相同，但这只有计算所有大小CU的RD-cost后才可得出。也就是说，现有的算法在一定程度上导致了编码效率的损失。尤其是，在针对虚拟现实视频帧进行现有的算法的LCU划分时，该问题尤其明显。

发明内容

本发明针对虚拟现实视频提出了用于在高效视频编码(HEVC)中基于KNN分类器的虚拟现实视频CU划分的方法、装置、编解码器以及处理器可读存储介质。

根据本发明的一个方面，本文使用KNN分类器(KNN也称为K最近邻算法或邻近算法)，将待编码视频相邻的帧分别分为训练帧和预测帧，对训练帧使用传统算法进行LCU的划分，并得到其LCU划分深度及其相应的边缘特征，并使用训练帧的LCU划分深度及其相应的边缘特征。在编码预测帧视频时，使用KNN分类器对预测帧中的LCU深度进行预测，根据预测结果减少LCU划分中的冗余计算。

在本发明的一个方面，提出了一种用于基于高效视频编码(HEVC)而对视频帧进行编码的方法，所述方法包括：

将一组帧序列划分为训练帧子集和预测帧子集，其中，训练帧子集中的训练帧被用于对预测帧子集中的预测帧的LCU(最大编码单元)的划分深度进行预测；

当当前帧是训练帧时，对当前LCU进行编码以获得当前LCU的划分深度特征和边缘密度特征，并且基于当前LCU的划分深度特征确定当前 LCU的划分深度类别；

当当前帧是预测帧时，

提取当前LCU的边缘密度特征，

基于训练帧子集中的训练帧的边缘密度特征和划分深度分类以及当前CLU的边缘密度特征，预测当前LCU的划分深度分类，

基于所预测的当前LCU的划分深度分类，跳过针对特定CU大小的LCU划分。

在本发明的另一方面，所述划分深度分类包括第一类、第二类和第三类，第一类是64x64和32x32的划分深度，第二类是16x16的划分深度、第三类是8x8的划分深度。

在本发明的另一方面，跳过针对特定CU大小的LCU划分包括：

如果所预测的当前LCU的划分深度分类是第一类，则跳过16*16和8*8 的LCU划分；

如果所预测的当前LCU的划分深度分类是第二类，则跳过64*64和8*8 的LCU划分；并且

如果所预测的当前LCU的划分深度分类是第三类，则跳过64*64的 LCU划分。

在本发明的另一方面，所述预测是使用KNN分类器进行的。

在本发明的另一方面，所述边缘密度特征包括使用水平和垂直SOBEL 算子对当前LCU进行滤波后的LCU所有像素的平均值。

在本发明的一个方面，提出了一种高效视频编码(HEVC)硬件编码器，所述编码器被配置为：

当当前帧是预测帧时，

提取当前LCU的边缘密度特征，

在本发明的另一方面，所述划分深度分类包括第一类、第二类和第三类，第一类是64x64和32x32的划分深度，第二类是16x16的划分深度、第三类是8x8的划分深度，并且其中，跳过针对特定CU大小的LCU划分包括：

在本发明的一个方面，该方法尤其适用于对虚拟现实视频帧进行编码。

在本发明的一个方面，提出了一种对使用所述的方法或所述的编码器进行编码的视频流进行解码的解码器。

在本发明的一个方面，提出了一种用于执行所述的方法的计算机程序产品。

在本发明的一个方面，提出了一种可用于视频编解码的设备，该设备包括：一个或多个处理器；存储器，其中存储有计算机代码，所述计算机代码当由所述处理器执行时，实现所述的方法。

附图说明

图1示出了HEVC的编码器框图的一个实施例。

图2示出了HEVC中的编码树(CTU)的示意图。

图3示出了根据本发明的一个实施例的对待编码的视频帧序列进行训练帧子集和预测帧子集的划分的实例。

图4示出了根据本发明的一个实施例的对视频进行CU快速划分的算法的一个具体的非限定性实例。

图5示出了根据本发明的一个实施例的基于高效视频编码(HEVC)而对视频帧进行编码的方法的流程图。

图6示出了用于实现本发明的一个实施例的编码方法的设备的示意图。

具体实施方式

现在参考附图来描述各种方案。在以下描述中，为了进行解释，阐述了多个具体细节以便提供对一个或多个方案的透彻理解。然而，显然，在没有这些具体细节的情况下也能够实现这些方案。

如在本申请中所使用的，术语“组件”、“模块”、“系统”等等旨在指代与计算机相关的实体，例如但不限于，硬件、固件、硬件和软件的组合、软件，或者是执行中的软件。例如，组件可以是但不限于：在处理器上运行的进程、处理器、对象、可执行体(executable)、执行线程、程序、和/ 或计算机。举例而言，运行在计算设备上的应用程序和该计算设备都可以是组件。一个或多个组件可以位于执行进程和/或者执行线程内，并且组件可以位于一台计算机上和/或者分布在两台或更多台计算机上。另外，这些组件可以从具有存储在其上的各种数据结构的各种计算机可读介质执行。组件可以借助于本地和/或远程进程进行通信，例如根据具有一个或多个数据分组的信号，例如，来自于借助于信号与本地系统、分布式系统中的另一组件交互和/或者与在诸如因特网之类的网络上借助于信号与其他系统交互的一个组件的数据。

本发明针对HEVC中在虚拟现实视频进行编码时进行LCU划分提出了新颖的算法。但是，本领域技术人员容易理解，本发明同样适用于对其他类型的视频帧进行编码。另外，本领域技术人员很容易理解，本发明是主要针对亮度分量的，而不用于色度分量。

在一个方面，本文使用KNN分类器(KNN也称为K最近邻算法或邻近算法)，将待编码视频序列中的帧分别分为训练帧和预测帧，对训练帧使用传统算法进行LCU的划分，并得到其LCU最深CU和其相应的特征。在编码预测帧视频时，使用训练帧的数据对预测帧中的LCU深度进行预测，根据预测结果减少LCU划分中的冗余计算。

更具体而言，在实践中，我们发现，一般来说，在较大的CU下，较简单的区域可以获得较好的编码效果，而在较复杂的区域，则需要将其划分为较小的CU进行预测。

为此，根据本发明的一个方面，本文利用SOBEL算子对编码LCU的内容进行过滤，计算出编码LCU的复杂度。通过计算，得到水平和垂直方向SOBEL算子滤波后的结果Gx和Gy。在公式(1)和(2)中，A表示待编码LCU 的内容。

得到Gx和Gy后，我们使用公式(3)和(4)来计算LCU的Gx和Gy灰度值绝对值的均值，以表示LCU的纹理复杂度。其中i和j表示像素的坐标，n 表示LCU的边长。

经过编码后，具有最佳分割结果的LCU可以有64x64、32x32、16x 16、8x8四种大小的CU块。由于CU块越小，其在编码树结构中的深度越深，根据最小CU的深度，我们将LCU分为四类：LCU₀，LCU₁，LCU₂， LCU₃。分别代表LCU中最小CU的大小为64x64、32x32、16x16、8x8。

通过实验，我们发现LCU的水平和垂直边缘平均值与其深度密切相关。实验结果表明，LCU₀和LCU₁的边缘特征相似，很难用边缘特征来区分，所以我们把它们归类为LCU_shallow。

接下来，我们考虑如何能够基于已经编码的帧中的LCU的LCU划分深度，来预测当前帧的LCU的划分深度，进而基于该预测来跳过针对LCU 的某些CU大小的编码判断。

在本发明的一个具体实施例中，我们可以将视频帧序列划分为训练帧和预测帧两个子集，如图3所示。可以根据各种方式来实现对该子集划分。如上所述地，对训练帧使用传统算法进行LCU的划分，并得到其LCU最深CU和其相应的边缘密度特征。在编码预测帧视频时，可以使用先前存储的训练帧的数据对预测帧中的LCU深度进行预测，根据预测结果减少LCU 划分中的冗余计算。

首先，针对当前待编码的LCU，判断其是训练帧还是预测帧中的LCU。

对于训练帧的LCU进行编码时，采用HEVC的原始算法，并查看LCU 中的最小CU从而确定LCU的最小划分深度。并且，还提取LCU的边缘密度特征。在本发明的一个优选实施例中，可以如上所述地，基于SOBEL算子来确定LCU的边缘密度特征。

在本发明的优选实施例中，可以根据某一实践标准对LCU的各种划分深度进行分类，并将当前LCU的最小划分深度归类到相应的划分深度类别。例如，如上所述，具有最佳分割结果的LCU可以有64x64、32x32、16x 16、8x8四种大小的CU块，而相应的划分深度类别可以包括LCU_shallow，LCU₂和LCU₃，其中，LCU_shallow为64x64和32x32，LCU₂为16x16，LCU₃为8x 8。

然后，对于预测帧中的LCU，提取LCU的边缘密度特征。在本发明的一个优选实施例中，可以如上所述地，基于SOBEL算子来确定LCU的边缘密度特征。

然后，可以使用KNN分类器，基于所存储的已经编码的训练帧的划分深度分类和边缘密度特征，来预测当前预测帧中的当前LCU的可能的最小划分类别。

如果预测结果是LCU_shallow，则只编码64*64和32*32的CU，编码32*32 CU后停止更深的划分。

如果预测结果为LCU₂，则跳过64*64和8*8的CU，只编码32*32和 16*16的CU。

如果预测结果为LCU₃，则跳过64*64的CU，只编码32*32，16*16和 8*8的CU。

实验结果表明，该快速算法与参考HM-16.16+360lib4.0相比，编码平均时间缩短39.9％，仅增加1.24％的BD-rate。

在步骤501中，将一组视频帧序列划分为训练帧子集和预测帧子集，其中，训练帧子集中的训练帧被用于对预测帧子集中的预测帧的LCU(最大编码单元)的划分深度进行预测。在一个非限定性实施例中，该组视频帧序列可以是虚拟现实视频帧序列。在其他实施例中，该组视频帧序列可以包括其他类型的视频帧。

在步骤502和503中，判断当前是训练帧还是预测帧。

在步骤502中确定当前帧是训练帧时，则在步骤504中，对当前LCU 进行编码以获得当前LCU的划分深度特征和边缘密度特征，并且基于当前 LCU的划分深度特征确定当前LCU的划分深度类别。如上所述地，这些信息可以被存储以用于对预测帧子集中的预测帧的LCU(最大编码单元)的划分深度进行预测。在步骤504中，可以采用各种兼容HEVC的编码算法对LCU中的各种CU尺寸进行遍历，以获得当前LCU的最佳划分，其中，当前LCU的最佳划分中的最小CU大小即为其划分深度特征。

在一个实施例中，所述划分深度分类包括第一类、第二类和第三类，第一类是64x64和32x32的划分深度，第二类是16x16的划分深度、第三类是8x8的划分深度。如上所述地，其表示当前LCU的最佳划分中的最小CU大小的分类。

在一个实施例中，边缘密度特征包括使用水平和垂直SOBEL算子对当前LCU进行滤波后的LCU所有像素的平均值。

在一个实施例中，可以使用如上所述的公式(1)-(4)来计算所述平均值。

在步骤503中确定当前帧是预测帧时，则步骤进入505-507的分支。

在步骤505中，提取当前LCU的边缘密度特征。如上所述地，在一个实施例中，边缘密度特征包括使用水平和垂直SOBEL算子对当前LCU进行滤波后的LCU所有像素的平均值。在一个实施例中，可以使用如上所述的公式(1)-(4)来计算所述平均值。

在步骤506中，基于训练帧子集中的训练帧的边缘密度特征和划分深度分类以及当前CLU的边缘密度特征，预测当前LCU的划分深度分类。

在一个实施例中，所述预测是使用KNN分类器进行的。

在步骤507中，基于所预测的当前LCU的划分深度分类，跳过针对特定CU大小的LCU划分。如上所述地，该跳过操作可以节省针对该特定CU 大小的计算资源，从而降低编码时间。

在本发明的一个实施例中，跳过针对特定CU大小的LCU划分包括：

图6中示出了一种可用于视频编解码的设备，该设备包括：处理器和存储器，在所述存储器中包括用于实现本发明的各种方法的处理器可执行代码。

根据另一方面，本公开内容还可以涉及用于实现上述编码方法的编码器。该编码器可以是专用硬件。

根据另一方面，本公开内容还可以涉及对应的对编码后的视频流进行解码的解码器。

根据另一方面，本公开内容还可以涉及执行本文所述方法的计算机程序产品。

当用硬件实现时，视频编码器可以用通用处理器、数字信号处理器 (DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者设计为执行本文所述功能的其任意组合，来实现或执行。通用处理器可以是微处理器，但是可替换地，该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP内核的组合或者任何其它此种结构。另外，至少一个处理器可以包括可操作以执行上述的一个或多个步骤和/或操作的一个或多个模块。

当用ASIC、FPGA等硬件电路来实现视频编码器时，其可以包括被配置为执行各种功能的各种电路块。本领域技术人员可以根据施加在整个系统上的各种约束条件来以各种方式设计和实现这些电路，来实现本发明所公开的各种功能。

尽管前述公开文件论述了示例性方案和/或实施例，但应注意，在不背离由权利要求书定义的描述的方案和/或实施例的范围的情况下，可以在此做出许多变化和修改。而且，尽管以单数形式描述或要求的所述方案和/或实施例的要素，但也可以设想复数的情况，除非明确表示了限于单数。另外，任意方案和/或实施例的全部或部分都可以与任意其它方案和/或实施例的全部或部分结合使用，除非表明了有所不同。

Claims

1.一种用于基于高效视频编码(HEVC)而对视频帧进行编码的方法，所述方法包括：

当当前帧是训练帧时，对当前LCU进行编码以获得当前LCU的划分深度特征和边缘密度特征，并且基于当前LCU的划分深度特征确定当前LCU的划分深度类别；

当当前帧是预测帧时，

提取当前LCU的边缘密度特征，

2.如权利要求1所述的方法，其中，所述划分深度分类包括第一类、第二类和第三类，第一类是64 x 64和32 x 32的划分深度，第二类是16 x 16的划分深度、第三类是8 x 8的划分深度。

3.如权利要求2所述的方法，其中，跳过针对特定CU大小的LCU划分包括：

如果所预测的当前LCU的划分深度分类是第一类，则跳过16*16和8*8的LCU划分；

如果所预测的当前LCU的划分深度分类是第二类，则跳过64*64和8*8的LCU划分；并且

如果所预测的当前LCU的划分深度分类是第三类，则跳过64*64的LCU划分。

4.如权利要求1-3中任一项所述的方法，其中，所述预测是使用KNN分类器进行的。

5.如权利要求1-4中任一项所述的方法，其中，所述边缘密度特征包括使用水平和垂直SOBEL算子对当前LCU进行滤波后的LCU所有像素的平均值。

6.如权利要求1-5中任一项所述的方法，其中，所述视频帧为虚拟现实视频帧。

7.一种高效视频编码(HEVC)硬件编码器，所述编码器被配置为：

当当前帧是预测帧时，

提取当前LCU的边缘密度特征，

8.一种对使用如权利要求1-6中任一项所述的方法或如权利要求7所述的编码器进行编码的360视频流进行解码的解码器。

9.一种用于执行权利要求1-6中任一项所述的方法的计算机程序产品。

10.一种可用于视频编解码的设备，该设备包括：

一个或多个处理器；

存储器，其中存储有计算机代码，所述计算机代码当由所述处理器执行时，实现如权利要求1-6中任一项所述的方法。