CN111355956A

CN111355956A - 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法

Info

Publication number: CN111355956A
Application number: CN202010157663.XA
Authority: CN
Inventors: 蔡晓刚
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-30
Anticipated expiration: 2040-03-09
Also published as: CN111355956B

Abstract

本发明公开了一种HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法，属于视频编码技术领域。考虑到编码参数选择时存在的内在联系，结合视频内容的时空相关性，来同时确定当前编码单元的CU/PU分区和预测模式，避免了HEVC帧内编码中率失真优化过程中的遍历过程，能够最大程度地降低计算复杂度，节省编码时间。具体包括步骤：1）准备用于训练及测试决策网络的视频数据集；2）利用训练数据集分别在不同QP下对单步决策网络进行训练，并保存训练后的网络模型参数；3）将单步决策网络嵌入到HEVC参考模型HM.15.0中，实现低复杂度HEVC编码器；4）分别使用不同QP下训练出的单步决策网络模型对测试集上的视频进行编码，测试编码复杂度和RD性能。

Description

一种HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法

技术领域

本发明属于视频编码技术领域，特别是涉及一种HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法。

背景技术

视频编码技术是视频业务的基础，由于从视觉传感器直接获取到的原始视频数据量巨大，为了有效地传输和存储视频，对原始视频进行高码率-失真(RD)质量且低复杂度的压缩编码是很有必要的。近年来，视频分辨率的进一步提升以及视频业务中的实时性需求，对视频编码技术提出了更高的要求。作为最新的视频编码标准，高效视频编码标准H.265/HEVC可以达到显著的高压缩比。然而，H.265/HEVC引入了更多的编码参数，在编码时需要通过遍历率失真代价来确定最优的编码参数集，因而带来了更高的编码复杂度，很难满足视频业务中的实时性需求。因此，许多学者致力于低复杂度H.265/HEVC的研究，在不损失过多RD质量的前提下，显著降低编码复杂度。

目前，低复杂度H.265/HEVC的研究主要包含传统方法和基于深度学习的方法。传统方法主要是一些启发式的快速决策算法，通过提取编码过程中的中间特征，以提前终止率失真优化过程中对编码单元(CU)和预测单元(PU)的划分方式、预测模式等编码参数的遍历搜索，从而降低复杂度。这种方法基于手动提取特征和固定的阈值，因此在广泛应用时的鲁棒性较差。近年来，基于深度学习的方法得到了广泛发展，卷积神经网络强大的学习能力使其能够自动地提取与编码参数决策相关的深度特征，从而快速做出率失真优化的决策。然而，目前基于深度学习的方法通常将CU/PU划分方式和预测模式的选择分别建模为分类问题，在此基础上分别进行决策。这些方法存在两个主要缺陷。其一，从复杂度降低的角度来看，对CU/PU划分决策和预测模式选择是一个整体的遍历过程，共同导致了HEVC编码器计算复杂度大。因此，只关注其中一个任务并不能最大限度地降低复杂度。其二，CU/PU划分决策与预测模式选择之间存在着明显的相关性，简单地将这些决策视为单独的过程并在两个阶段来进行决策也是不明智的。

发明内容

本发明为解决上述背景技术中存在的技术问题，提供了一个单步决策网络，考虑到编码参数选择时存在的内在联系，结合视频内容的时空相关性，来同时确定当前编码单元的CU/PU分区和预测模式，避免了HEVC帧内编码中率失真优化过程中的遍历过程，从而最大程度地降低计算复杂度的HEVC帧内编码中基于深度学习的率失真优化快速决策系统及其方法。

本发明采用以下技术方案来实现：一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法，具体包括以下步骤：

步骤1)视频数据集准备；

步骤2)搭建单步决策网络模型；

步骤3)对单步决策网络进行训练；

步骤4)应用单步决策网络实现低复杂度HEVC帧内编码；

步骤5)测试编码器RD性能及编码复杂度。

在进一步的实施例中，所述步骤1)具体包括以下步骤：为了保证网络模型的泛化性能以及公平地评价模型性能，从不同的分辨率中随机选取用于训练和测试的视频；分别用HEVC参考测试模型对选取的视频进行全帧内模式编码，并生成视频数据集。

在进一步的实施例中，所述步骤2)具体包括以下步骤：

步骤201)根据步骤1)收集到的视频收集数据，所述视频数据集包括：输入数据和标签数据；所述输入数据包括：当前CU的亮度信息和其在前一帧中同位CU的决策信息；所述标签数据包括：当前CU的CU/PU划分和预测模式的决策信息；

步骤202)将HEVC帧内编码，采用PU的划分方式建模为对CU的第4级分割，从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题；

步骤203)对于每个CU，由于亮度分量包含了大多数内容信息，其亮度信息被输入到网络中，考虑到视频内容的时间相关性，还利用了前一帧中的同位CU的决策信息，首先通过均值移除来提取与决策具有直接相关性的纹理信息；

步骤204)通过两种卷积层分别将视频数据分成两个流：三个非重叠卷积层实现的支流和两个常规卷积层实现的支流。

在进一步的实施例中，三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征，且卷积的步长等于相应卷积核的宽度，因而输出特征图中每个像素将具有互不重叠的感受野，其大小正好对应于当前CU的一个子CU。

在进一步的实施例中，两个常规卷积层实现的支流用于提取与预测模式选择相关的特征，更好地提取当前CU中相邻像素之间的关系，提供对当前CU的总体描述。

在进一步的实施例中，所述步骤3)具体包括以下步骤：

使用交叉熵作为训练时的损失函数，交叉熵描述了两个概率分布之间的差异，概率分布a和b之间的交叉熵表示为：

H(a,b)＝a log b+(1-a)log(1-b)

对于CU深度为l的每个样本r，

和

分别表示真实值和网络的输出预测向量，则损失函数如下：

对于不同CU深度的网络分别使用相应的数据集进行训练。

在进一步的实施例中，所述步骤4)具体包括以下步骤：

每个CU有三种类型的输出：(1)分割，(2)模式选择，(3)不确定；

对于深度为l的给定CU，

表示36维的输出概率向量，而令Thr_P,l和Thr_M,l分别表示CU/PU划分和预测模式选择的阈值，

中的最大值y_max表示输入CU最有可能做出的决策；

如果y_max处于第一维且y_max>Thr_P,l，则输出决策为“分割”，这意味着当前CU将被直接分割成四个子CU，无需计算其本身的率失真代价；

如果y_max处于第i维(i>1)且y_max>Thr_M,l，则输出决策为“模式选择”，这意味着当前CU将直接选择相应的预测模式作为最佳模式，而不需要遍历所有35种模式，并且将跳过对更深层CU的遍历；

否则，如果y_max低于相应的阈值，则输出决策为“不确定”。

在进一步的实施例中，所述步骤5)具体包括以下步骤：

通过编码时间节省率ΔT来评价复杂度的降低程度：

其中T_HM表示使用HM 15.0的编码时间，而T_LC表示使用单步决策网络实现的低复杂度编码器的编码时间；

单步决策网络从待编码视频的第二帧开始执行，因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。

在进一步的实施例中，包括以下模块：

用于视频数据集准备的第一模块；

用于搭建单步决策网络模型的第二模块；

用于对单步决策网络进行训练的第三模块；

用于应用单步决策网络实现低复杂度HEVC帧内编码的第四模块；

用于测试编码器RD性能及编码复杂度的第五模块。

在进一步的实施例中，所述第一模块进一步用于为了保证网络模型的泛化性能以及公平地评价模型性能，从不同的分辨率中随机选取用于训练和测试的视频；分别用HEVC参考测试模型对选取的视频进行全帧内模式编码，并生成视频数据集；

所述第二模块进一步用于根据收集到的视频收集数据，所述视频数据集包括：输入数据和标签数据；所述输入数据包括：当前CU的亮度信息和其在前一帧中同位CU的决策信息；所述标签数据包括：当前CU的CU/PU划分和预测模式的决策信息；将HEVC帧内编码，采用PU的划分方式建模为对CU的第4级分割，从而将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为多分类问题；对于每个CU，由于亮度分量包含了大多数内容信息，其亮度信息被输入到网络中，考虑到视频内容的时间相关性，还利用了前一帧中的同位CU的决策信息，首先通过均值移除来提取与决策具有直接相关性的纹理信息；通过两种卷积层分别将视频数据分成两个流：三个非重叠卷积层实现的支流和两个常规卷积层实现的支流；所述三个非重叠卷积层实现的支流用于提取与CU/PU分区相关的特征，且卷积的步长等于相应卷积核的宽度，因而输出特征图中每个像素将具有互不重叠的感受野，其大小正好对应于当前CU的一个子CU；两个常规卷积层实现的支流用于提取与预测模式选择相关的特征，更好地提取当前CU中相邻像素之间的关系，提供对当前CU的总体描述；

所述第三模块进一步用于使用交叉熵作为训练时的损失函数，交叉熵描述了两个概率分布之间的差异，概率分布a和b之间的交叉熵表示为：

H(a,b)＝a log b+(1-a)log(1-b)

对于CU深度为l的每个样本r，

和

分别表示真实值和网络的输出预测向量，则损失函数如下：

对于不同CU深度的网络分别使用相应的数据集进行训练；

所述第四模块进一步用于每个CU有三种类型的输出：(1)分割，(2)模式选择，(3)不确定；

对于深度为l的给定CU，

中的最大值y_max表示输入CU最有可能做出的决策；

否则，如果y_max低于相应的阈值，则输出决策为“不确定”；

所述第五模块进一步用于通过编码时间节省率ΔT来评价复杂度的降低程度：

本发明的有益效果：本发明提供的一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法，弥补了之前低复杂度的HEVC帧内编码方法中将CU/PU划分决策和预测模式的选择视为单独的过程并分别进行决策的问题。即通过将每级CU上CU/PU的划分决策与PU的35种帧内预测模式的选择共同建模为36类别的多分类问题，并考虑到编码参数决策与视频内容的相关性，结合视频的时域相关性，设计实现了对编码参数的单步决策网络，在保证RD性能的前提下，达到最大化降低编码复杂度的目的。

进一步，单步决策网络中的前半部分通过一种两流卷积结构分别提取CU/PU划分决策和预测模式选择所需的不同特征，避免了不同决策任务所需特征可能存在的冲突，导致决策精度下降；在后半部分则将所提取的特征进行连接，通过全连接层来学习其相互关系，使得不同决策任务之间的相关性得以体现。

进一步，将单步决策网络在HEVC参考模型HM.15.0上实现时，给定了阈值以实现单步决策网络与HEVC中原本的遍历方法之间的切换，通过调整阈值大小，可以控制编码器的编码复杂度和RD性能，实现不同场景下的编码需求。

进一步，通过对本发明与现有的基于传统方法和基于深度学习的低复杂度HEVC帧内编码方法在相同的测试数据集上进行比较，本发明实现的低复杂度HEVC编码器的编码时间有明显缩短，且RD性能没有出现大幅损失，验证了此方法的有效性。

综上所述，本发明通过将HEVC帧内编码中CU/PU划分决策和预测模式选择建模为多分类问题，根据该分类问题的特性搭建了具有双流结构的卷积神经网络进行特征提取，并考虑到视频的时域相关性，通过全连接层得到最终决策。经过实验验证，本发明提出的方法能够更大程度地降低HEVC帧内编码的复杂度，在实时性场景下具有良好的应用价值。

附图说明

图1为本发明一种HEVC帧内编码中基于深度学习的率失真优化快速决策方法流程图。

图2为本发明设计的单步决策网络模型框架。

图3为单步决策网络在HEVC参考模型HM 15.0中的实现流程。

图4为不同阈值下单步决策网络的RD性能，其中图(a)和(b)分别是在测试集视频Football和BasketballPass上测试得到的结果。

图5为单步决策网络的运行时间百分比。

具体实施方式

本发明整体流程图如附图1所示，下面结合附图对本发明进行详细阐述：

步骤1.数据集准备

本发明从视频编码联合工作组(JCT-VC)和Xiph.org[1]共选取了86个视频序列作为数据集，为了保证数据集多样性，这些视频具有不同的分辨率格式，包括：SIF、CIF、NTSC、4CIF、240p、480p、720p、1080p、WQXGA。将总共86个视频序列分为两个不重叠的集合，分别用于训练和测试，其中72个用于构建训练数据集，14个用于测试。为了保证网络模型的泛化性能以及公平地评价模型性能，用于训练和测试的视频都是从不同的分辨率中随机选取的。选取4个QP值{22，27，32，37}，分别用HEVC参考测试模型HM15.0对所有序列进行全帧内模式编码。生成的数据集中的每个样本由输入数据和标签组成。输入数据有两个部分，包括当前CU的亮度信息和其在前一帧中同位CU的决策信息。标签数据则是当前CU的CU/PU划分和预测模式的决策信息。

步骤2.搭建单步决策网络模型

对于HEVC帧内编码，PU的N×N划分方式只适用于最小的CU。因此，当一个8×8CU选择了N×N的PU模式，我们将它视作是整个编码树单元CTU的第四次分割。在这种情况下，对于深度为0到3的CU(从64×64到8×8)，CU/PU划分和预测模式的决策可以建模为具有36个类的多分类问题，其中第一个表示当前CU/PU是否进一步划分，而其他35个类对应于35个预测模式。用一个具有36维的one-hot向量来表示最终决策。因此，使用卷积神经网络对此多分类问题进行决策，由于一个CTU中存在深度为0到3的不同大小CU，于是共需4组网络模型框架。本发明提供的针对N×N大小CU的单步决策网络模型框架如图2所示，N可取值为64、32、16、8。

对于每个CU，由于亮度分量包含了大多数内容信息，其亮度信息被输入到网络中。考虑到视频内容的时间相关性，还利用了前一帧中的同位CU的决策信息。对于亮度信息，可以假定平均亮度对CU/PU划分和预测模式的决策几乎没有影响，因此首先通过均值移除来提取与决策具有直接相关性的纹理信息。之后，将图像数据分为两个流：

1)三个非重叠卷积层(Conv1-1、Conv1-2和Conv1-3)组成提取与CU/PU分区相关特征的支流。注意，在非重叠卷积层中，卷积的步长等于相应卷积核的宽度，因而输出特征图中每个像素将具有互不重叠的感受野，其大小正好对应于当前CU的一个子CU。因此，这些特征图可以看作是对当前CU的四个子CU的特征描述。需要注意的事，在针对不同深度CU的单步决策网络中，卷积核大小是不同的，以确保Conv1-3提取的特征图中的像素具有对应于子CU大小的感受野。更多细节见表1。

表1.不同深度CU的单步决策网络中卷积核k的大小

CU深度	Conv1-1	Conv1-2	Conv1-3
				0	k1＝4	k2＝4	k3＝2
1	k1＝4	k2＝2	k3＝2
				2	k1＝2	k2＝2	k3＝2
3	k1＝2	k2＝2	k3＝1

2)两个常规卷积层(Conv2-1和Conv2-2)组成提取与预测模式选择相关特征作的支流。这两个卷积层的核大小都是4×4，步长均为1。与不重叠卷积层相比，通过这些步长为1的卷积层，可以更好地提取当前CU中相邻像素之间的关系，提供了对当前CU的总体描述。在卷积层之后，应用最大池化层来消除模糊的局部数据并减少节点的数量。

提取到所需特征后，通过连接层将扁平化后的特征图和输入的同位CU决策信息相连，然后将级联向量送入全连接层，其中包括一个隐含层和一个输出层，输出为36维的概率向量。

步骤3.对单步决策网络进行训练

由于单步决策网络实现了对分类问题的决策，因此使用交叉熵作为训练时的损失函数。交叉熵描述了两个概率分布之间的差异，概率分布a和b之间的交叉熵表示为：

H(a,b)＝a log b+(1-a)log(1-b)

对于CU深度为l的每个样本r，

和

分别表示真实值和网络的输出预测向量，则损失函数如下：

对于不同CU深度的网络分别使用相应的数据集进行训练，且每个网络需在四个QP值{22，27，32，37}上进行训练，以满足编码压缩比的多样化要求。在训练前，由正态分布对所有可训练参数进行随机初始化，均值为0，标准差为0.1。使用具有动量的随机梯度下降算法对模型进行训练，其中，动量设置为0.9，随机梯度下降算法的批处理大小R为64。此外，训练的初始学习率为0.01，每经过2000次迭代减少1％。每个模型的总迭代次数为10万次。

步骤4.应用单步决策网络实现低复杂度HEVC帧内编码

单步决策网络可以看作是在CU中做出相应编码参数决策的一种可选方式，HEVC中的原始实现是通过率失真优化进行遍历搜索，本发明使用给定的阈值来进行单步决策网络和遍历搜索之间的切换，以平衡RD性能的下降和复杂度降低的程度。

单步决策网络在HEVC参考模型HM 15.0中的实现流程如图3所示。请注意，CU/PU划分和预测模式的选择在整个CTU中的决策是通过自顶向下的顺序而做出的。具体而言，每个CU有三种类型的输出：(1)分割，(2)模式选择，(3)不确定。对于深度为l的给定CU，

表示36维的输出概率向量，而令Thr_P,l和Thr_M,l分别表示CU/PU划分和预测模式选择的阈值。于是，

中的最大值y_max表示输入CU最有可能做出的决策。如果y_max处于第一维且y_max>Thr_P,l，则输出决策为“分割”，这意味着当前CU将被直接分割成四个子CU，无需计算其本身的率失真代价。如果y_max处于第i维(i>1)且y_max>Thr_M,l，则输出决策为“模式选择”，这意味着当前CU将直接选择相应的预测模式作为最佳模式，而不需要遍历所有35种模式，并且将跳过对更深层CU的遍历。否则，如果y_max低于相应的阈值，则输出决策为“不确定”。在这种情况下，需要通过率失真优化获取最优预测模式，并将当前CU分成四个子CU进行遍历，这与HEVC中的原始实现相同。

步骤5.测试编码器RD性能及编码复杂度

为了评价编码器的RD性能，以HM 15.0作为基准线，对Bjontegaard Delta PSNR(BD-PSNR)性能进行测试。此外，通过编码时间节省率ΔT来评价复杂度的降低程度：

其中T_HM表示使用HM 15.0的编码时间，而T_LC表示使用单步决策网络实现的低复杂度编码器的编码时间。另外，单步决策网络从待编码视频的第二帧开始执行，因为该网络需要前一帧中的决策信息作为输入来得到当前帧的决策结果。阈值

设置为{0.06,0.06,0.06,0.06}，而

为{0.05,0.05,0.05,0.05}，注意到分区决策的阈值与预测模式选择的阈值大小不同，这是由于选取不同的类别对实际RD性能的影响具有不同的权重。实质上，总共有35个类代表当前CU不进一步分割并选择一个预测模式，而只有1个类代表当前CU被分割成子CU。

为了进一步评估该方法的性能，本发明选取了一种基于深度学习的CU划分决策算法[2]和一种快速CU大小决策和候选模式缩减算法[3]来进行比较。对于[2]，使用其作者提供的源代码[4]进行测试，包括经过训练的ETH-CNN网络模型以及相应的低复杂度编码器实现。结果如下表2所示。

表2.单步决策网络的性能评价和对比结果

结果表明，对于不同测试序列分别在QP＝22、27、32和37下编码时，本发明提供的方法平均降低了73.53％、72.62％、72.63％和75.97％的编码时间，优于[2]中54.00％、59.10％、63.36％和65.36％的复杂度降低，以及[3]中50.81％、50.71％、51.05％和51.23％的复杂度降低。另外，本发明提供的方法也由于基于传统的启发式算法和中的提供的性能，其中传统算法不看：HEVC内编码中CU/PU分区决策的启发式快速算法，节省编码时间的37.91％；用于预测模式选择的启发式快速算法，节省编码时间27.3％。

在本发明的方法中，CU/PU划分决策和内部编码中的预测模式选择都是由单步决策网络得到的，而上述工作中仅人工实现了其中的一部分决策，因而单步决策网络确实会带来更多的RD性能损失。尽管如此，使用单步决策网络使得编码时间进一步减少了约10％～20％，由此带来的RD性能损失是可以接受的。另外，图4表明，RD性能损失的大小可以通过调节阈值从而得到控制。

为了进一步评估单步决策网络的运行时间，以HM15.0的编码时间作为基准，对于运行单步决策网络的时间百分比进行了测试，结果如图5所示。注意到，单步决策网络只消耗了HM15.0所需编码时间的5％左右，这表明单步决策网络仅在编码过程中引入了一个很小的时间开销，并在降低复杂度方面取得了优越的性能。