CN111800642A

CN111800642A - Hevc帧内角度模式选择方法、装置、设备及可读存储介质

Info

Publication number: CN111800642A
Application number: CN202010628727.XA
Authority: CN
Inventors: 李帅厂; 陈小磊; 刘俊; 姜光心
Original assignee: Zhongshi Gas Development Xi'an Co ltd
Current assignee: Zhongshi Gas Development Xi'an Co ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-20
Anticipated expiration: 2040-07-02
Also published as: CN111800642B

Abstract

本发明属于视频编码领域，公开了一种HEVC帧内角度模式选择方法、装置、设备及可读存储介质，所述HEVC帧内角度模式选择方法包括获取学习视频帧图像，划分为若干PU图像；构建深度卷积神经网络，从PU图像上学习预测出当前PU图像的最佳角度模式，得到深度卷积神经网络预测模型，将深度卷积神经网络预测模型嵌入到HEVC原始的编码流程中，通过深度卷积神经网络预测模型直接得到最佳的角度模式的n种模式候选列表，替代视频帧图像编码时的35类角度模式。本方法将深度卷积神经网络引入到HEVC视频编码中，从原始输入视频帧图像上学习适合解决PU角度模式选择的问题，能够保证视频编码的质量，较好的解决视频编码过程中时间较长的问题。

Description

HEVC帧内角度模式选择方法、装置、设备及可读存储介质

技术领域

本发明属于视频编码领域，涉及一种HEVC帧内角度模式选择方法、装置、设备及可读存储介质。

背景技术

新一代高效视频编码HEVC(High Efficiency Video Coding)是最新的视频编码标准，帧内角度模式选择算法就是通过选择最佳的角度模式，使视频编码后的编码失真最小。HEVC中，一幅视频图像首先被划分成若干个相互不重叠的编码树单元(Coding TreeUnit，CTU)，然后对CTU对应的预测块(Prediction Unit，PU)进行帧内预测的35种角度模式全搜索，对于大小为64×64的预测块找出相应的最优率失真(Rate Distortion，RD)代价值RdCost_0及其对应的预测模式，对于4个大小为32×32的PU分别计算出其对应的最优率失真代价值RdCost_1、RdCost_2、RdCost_3和RdCost_4及其各自对应的预测模式，然后对四个PU对应的最优率失真代价值求和得RdCost_5。比较RdCost_0和RdCost_5的值，如果前者小则不对当前编码块(Coding Unit，CU)继续划分，否则把当前CU继续划分为四个子CU，在这个过程中，每次都会计算不同大小PU的35种角度模式，过程繁琐，计算量过大。

近年来，深度卷积神经网络(ConvolutionalNeuralNetwork，CNN)在图像分析、语音识别和自然语言处理方面取得巨大成功，如果能通过深度学习对HEVC帧内角度模式进行预测，就可以大大减少编码复杂度。当前HEVC中角度模式预测主要是通过减少粗略模式选择个数或者模式侯选列表中的个数进行优化，而不是直接通过某种算法得到最佳的角度模式预测值。机器学习是人工智能的一个分支，机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。其中深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。在2012年的ImageNet竞赛上，Hinton和Alex设计的AlexNet网络一举拿到冠军后，深度学习在图片分类上的应用更加广泛。现有的角度模式选择算法已经取得了很多成果，但将深度学习应用到角度模式选择算法中有待进一步的研究。

目前，常见的方式有以下几种。一种快速帧内模式决策算法，通过使用基于梯度的方法来减少粗略模式决策和RD优化的候选模式，从而降低HEVC帧内计算复杂度。该方法的优点是降低了帧内编码复杂度，但是整体降低的幅度不大，有待进一步的提升，最终也是通过粗略模式选择得到需要进行RD优化的候选模式。还有一种HEVC编码器的快速帧内模式决策，通过基于Hadamard成本的渐进式粗略模式搜索(Progressive Rough Mode Search，pRMS)来选择性地检查潜在模式而不是遍历所有候选者，即35种角度模式。pRMS将选择较少的有效候选者用于随后的率失真优化量化(Rate Distortion OptimizationQuantification,RDOQ)以导出率失真最佳模式。以此来降低编码复杂性。该方法的优点是对于35种角度模式，是选择性的进行遍历，能够提升编码效率，缺点是还是保持减少遍历的思维，没有最有效的达到压缩编码效率的目的。

发明内容

本发明的目的在于克服上述现有技术中帧内角度模式选择的编码复杂，选取过程繁琐，计算量过大的缺点，提供一种HEVC帧内角度模式选择方法、装置、设备及可读存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种HEVC帧内角度模式选择方法，包括以下步骤：

S1：将若干输入视频帧图像分别划分为若干PU图像，将所有PU图像分类为训练集和测试集；将训练集内所有PU图像相同位置像素值计算均值得到均值图像；

S2：构建深度卷积神经网络，并将深度卷积神经网络的输出设定为35类角度模式；通过训练集和均值图像对深度卷积神经网络进行训练，通过测试集对深度卷积神经网络进行测试，得到深度卷积神经网络预测模型；

S3：获取待预测视频帧图像，并将其划分为若干待预测PU图像，将若干待预测PU图像通过深度卷积神经网络预测模型进行预测，得到每个待预测PU图像对应的角度模式；

S4：选取数量最多的前预设个数类角度模式组成角度模式候选列表，然后通过HEVC编码流程遍历角度模式候选列表中的角度模式，得到最优角度模式。

本发明HEVC帧内角度模式选择方法进一步的改进在于：

所述S1的具体方法为：

将若干输入视频帧图像分别按照4种PU图像尺寸进行无重叠划分，将4种尺寸的PU图像全部缩放为同一尺寸，然后将同一尺寸的PU图像分类为训练集和测试集。

所述S1中，将输入视频帧图像的前50帧的PU图像作为训练集，其余帧的PU图像作为测试集。

所述S2中，深度卷积神经网络包括依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层以及输出层，输出层的输出设定为35类角度模式；第一卷积层和第二卷积层均设定为64个卷积核，卷积核大小均为5×5；第一池化层和第二池化层均设定为MaxPooling操作，池化窗口大小均为3×3；第一全连接层和第二全连接层均设定为512维神经元节点。

所述S2中通过训练集和均值图像对深度卷积神经网络进行训练时，以及通过测试集对深度卷积神经网络进行测试时，均通过最小二乘法函数和反向传播BP算法对深度卷积神经网络进行更新与求解。

所述S4中，选取数量最多的前3个角度模式组成角度模式候选列表。

所述S4中，当数量最多的前3类角度模式中不包含Planar模式和/或DC模式时，将Planar模式和/或DC模式添加至角度模式候选列表。

本发明第二方面，一种HEVC帧内角度模式选择装置，包括：

预处理模块，用于将若干输入视频帧图像分别划分为若干PU图像，将所有PU图像分类为训练集和测试集；将训练集内所有PU图像相同位置像素值计算均值得到均值图像；

模型建立模块，用于构建深度卷积神经网络，并将深度卷积神经网络的输出设定为35类角度模式；通过训练集和均值图像对深度卷积神经网络进行训练，通过测试集对深度卷积神经网络进行测试，得到深度卷积神经网络预测模型；

角度模式预测模块，用于获取待预测视频帧图像，并将其划分为若干待预测PU图像，将若干待预测PU图像通过深度卷积神经网络预测模型进行预测，得到每个待预测PU图像对应的角度模式；以及

角度模式确定模块，用于选取数量最多的前预设个数类角度模式组成角度模式候选列表，然后通过HEVC编码流程遍历角度模式候选列表中的角度模式，得到最优角度模式。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述HEVC帧内角度模式选择方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述HEVC帧内角度模式选择方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明HEVC帧内角度模式选择方法，通过利用深度卷积神经网络从PU图像上学习预测出当前PU图像的最佳角度模式，通过训练和测试得到深度卷积神经网络预测模型，使用时将深度卷积神经网络预测模型嵌入到HEVC原始的编码流程中，通过深度卷积神经网络预测模型对视频帧的PU图像的预测，直接得到包含最佳角度模式的角度模式候选列表，该角度模式候选列表包含n类角度模式，然后采用该角度模式候选列表替代HEVC原始编码流程中的35类角度模式，只需遍历角度模式候选列表中的角度模式即可，不需要粗略模式选择过程，极大的加快了编码速度，减少了编码时间。

进一步的，当数量最多的前3类角度模式中不包含Planar模式和/或DC模式时，将Planar模式和/或DC模式添加至角度模式候选列表，该两种模式为HEVC编码中最常出现的两种模式，将这两种模式默认加入到角度模式候选列表中，能够有效保证角度模式候选列表中包含正确模式选择的命中率。

附图说明

图1为本发明实施例的HEVC帧内角度模式选择方法流程框图；

图2为本发明实施例的深度卷积神经网络结构示意图；

图3为本发明实施例的HEVC编码流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1至图3，本发明HEVC帧内角度模式选择方法，从PU图像上学习预测出当前PU的最佳角度模式，将学习到的网络模型嵌入到HEVC原始的编码流程中，通过网络模型直接得到最佳的角度模式的n种模式候选列表，实现减少编码时间的目的；其中，深度卷积神经网络，利用对PU图像的训练集进行深度卷积神经网络模型训练与更新，通过测试集判断训练的效果，最后通过在HEVC中验证深度卷积神经网络的适用能力。下面以本发明在将PU图像尺寸统一为8×8大小的基础上为例，对本发明进一步说明，具体包括以下步骤：

S1：将若干输入视频帧图像分别划分为若干PU图像，将所有PU图像分类为训练集和测试集；将训练集内所有PU图像相同位置像素值计算均值得到均值图像。

具体的，针对输入的视频帧，按照4种PU图像大小对视频帧进行无重叠划分(如视频帧为640x640大小，则可划分为100个64×64大小PU图像或25600个4×4大小PU图像)，然后将将生成的所有64×64，32×32，16×16，8×8和4×4大小的PU图像全部缩放为8×8大小尺寸。选择视频数据前50帧的PU图像作为训练集，其余帧的PU图像作为测试集。最后通过整个测试视频来验证深度卷积神经网络预测模型的优劣。在训练的过程中，训练的数据集为每类20000个，测试的数据为每类500个。其中，每类的数据中包含着相同比例的五种大小的PU图像，即20000个数据中，包含4000个64×64，32×32，16×16，8×8和4×4大小的PU图像。

S2：构建深度卷积神经网络，并将深度卷积神经网络的输出设定为35类角度模式；通过训练集和均值图像对深度卷积神经网络进行训练，通过测试集对深度卷积神经网络进行测试，得到深度卷积神经网络预测模型。

具体的，深度卷积神经网络的输入包含PU图像以及均值图像，其中均值图像由所有训练集PU图像相同位置像素值计算均值获得。输图像入后，经过两个卷积层C1，C2及相应的池化层S1，S2后，接上两个全连接层FC1，FC2，最后一层为FC3层，表示最后对图像的分类，即35类。

具体的网络结构图参见图1，卷积层C1和C2都设定为64个卷积核，卷积核大小为5×5，池化层S1和S2设定为MaxPooling操作，池化窗口大小为3×3；全连接层FC1和FC2都设定为512维神经元节点，最后的输出设定为35分类。网络输入为灰度单通道8×8大小图像，卷积层C1与池化层S1特征图大小为8×8和4×4；卷积层C2与池化层S2特征图大小为4×4和2×2；全连接层FC1和FC2都设定为512维神经元节点，最后的输出设定为35分类，其中编号‘1’类别与‘2’类别对应HECV编码中的Planar模式与DC模式，编号‘3’～‘35’类别，对应HEVC编码中33个角度”。

根据对PU图像进行训练，通过优化最小二乘法函数实现对权重层的更新与求解，利用反向传播BP算法，对深度卷积神经网络进行更新；在测试集中，通过原PU图像的标签与预测的分类结果进行对比，结果一样的为预测正确。

S3：获取待预测视频帧图像，并将其划分为若干待预测PU图像，将若干待预测PU图像通过深度卷积神经网络预测模型进行预测，得到每个待预测PU图像对应的角度模式。

具体的，在HEVC中，PU图像数量较多，为了加快获取PU图像的速度，在Caffe上训练深度卷积神经网络预测模型时，加入一个数据处理层，即是将一整帧图片输入网络，输出是64×64、32×32、16×16、8×8和4×4大小的PU图像的预测结果，具体操作流程为在数据处理层中，按照HEVC原始的四叉树划分方式获取所有的需要的PU图像，并对PU图像进行统一尺寸处理，即是统一为8×8，然后对每个像素点减去均值，得到需要预测的PU图像。

由于深度卷积神经网络预测模型的预测过程较为耗时，在开始视频HEVC编码时，开辟一个新的线程，线程中置入深度卷积神经网络预测模型处理操作以及预测过程，最后将预测结果保存起来，通过线程间的数据共享获取新线程中的预测结果，在原始编程线程运行到角度模式选择时，等待预测结果，如果当前帧的结果预测完成，则根据预测结果确定当前PU的角度模式情况；否则等待当前帧结果预测完成。

即在一帧图像开始HEVC编码时，预测PU图像的角度模式的选择算法过程在另一个线程中也开始了，先是经过正常的编码流程，到达PU图像的角度模式选择时，首先判断当前帧的预测结果是否全部完成，如果完成则进行选择，否则等待预测完成。

S4：选取数量最多的前预设个数类角度模式组成角度模式候选列表，然后将待预测视频帧图像遍历角度模式候选列表中的角度模式，得到最优角度模式。

当当前帧的结果预测完成时，则根据预测结果确定当前PU图像的角度模式情况，选择数量最多的前3种角度模式组成角度模式候选列表，如果这三种角度模式不包含模式0和模式1，其中模式0、模式1即为HEVC编码中的Planar模式及DC模式，该两种模式为HEVC中最常出现的两种模式，为保证“角度模式候选列表”正确模式选择的命中率，故将模式0及模式1默认加入到角度模式候选列表中，则加入这两种模式作为当前的模式候选列表。深度卷积神经网络预测模型的最终输出为角度模式候选列表，并将角度模式候选列表返回给HEVC编码流程，由HEVC编码流程进一步从角度模式候选列表中进一步选择最优模式。

参见表1，本发明HEVC帧内角度模式选择方法在保证了Bitrate和PSNR的前提下，在Time这个指标上取得了最好结果。从实验结果上证明，本发明HEVC帧内角度模式选择方法，通过利用深度卷积神经网络对PU图像进行学习并对其进行预测，通过提出的角度模式选择算法能够保证视频编码的质量，较好的解决视频编码过程中时间较长的问题。

表1 HEVC帧内角度模式选择方法实验结果表

本发明还公开了一种HEVC帧内角度模式选择装置，包括预处理模块、模型建立模块、角度模式预测模块以及角度模式确定模块。

预处理模块用于将若干输入视频帧图像分别划分为若干PU图像，将所有PU图像分类为训练集和测试集；将训练集内所有PU图像相同位置像素值计算均值得到均值图像。

模型建立模块用于构建深度卷积神经网络，并将深度卷积神经网络的输出设定为35类角度模式；通过训练集和均值图像对深度卷积神经网络进行训练，通过测试集对深度卷积神经网络进行测试，得到深度卷积神经网络预测模型。

角度模式预测模块用于获取待预测视频帧图像，并将其划分为若干待预测PU图像，将若干待预测PU图像通过深度卷积神经网络预测模型进行预测，得到每个待预测PU图像对应的角度模式。

角度模式确定模块用于选取数量最多的前预设个数类角度模式组成角度模式候选列表，然后通过HEVC编码流程遍历角度模式候选列表中的角度模式，得到最优角度模式。

本发明HEVC帧内角度模式选择方法可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明HEVC帧内角度模式选择方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，在示例性实施例中，还提供了一种计算机可读存储介质，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于该计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。其中，所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

在示例性实施例中，还提供计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述HEVC帧内角度模式选择方法的步骤。处理器可能是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor、DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种HEVC帧内角度模式选择方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的HEVC帧内角度模式选择方法，其特征在于，所述S1的具体方法为：

3.根据权利要求1所述的HEVC帧内角度模式选择方法，其特征在于，所述S1中，将输入视频帧图像的前50帧的PU图像作为训练集，其余帧的PU图像作为测试集。

4.根据权利要求1所述的HEVC帧内角度模式选择方法，其特征在于，所述S2中，深度卷积神经网络包括依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层以及输出层，输出层的输出设定为35类角度模式；第一卷积层和第二卷积层均设定为64个卷积核，卷积核大小均为5×5；第一池化层和第二池化层均设定为MaxPooling操作，池化窗口大小均为3×3；第一全连接层和第二全连接层均设定为512维神经元节点。

5.根据权利要求1所述的HEVC帧内角度模式选择方法，其特征在于，所述S2中通过训练集和均值图像对深度卷积神经网络进行训练时，以及通过测试集对深度卷积神经网络进行测试时，均通过最小二乘法函数和反向传播BP算法对深度卷积神经网络进行更新与求解。

6.根据权利要求1所述的HEVC帧内角度模式选择方法，其特征在于，所述S4中，选取数量最多的前3个角度模式组成角度模式候选列表。

7.根据权利要求6所述的HEVC帧内角度模式选择方法，其特征在于，所述S4中，当数量最多的前3类角度模式中不包含Planar模式和/或DC模式时，将Planar模式和/或DC模式添加至角度模式候选列表。

8.一种HEVC帧内角度模式选择装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述HEVC帧内角度模式选择方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述HEVC帧内角度模式选择方法的步骤。