CN108924558B

CN108924558B - 一种基于神经网络的视频预测编码方法

Info

Publication number: CN108924558B
Application number: CN201810653610.XA
Authority: CN
Inventors: 赵丽丽; 张梦; 王文一; 张汝民
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2021-10-22
Anticipated expiration: 2038-06-22
Also published as: CN108924558A

Abstract

本发明公开了一种基于神经网络的视频预测编码方法，涉及视频压缩编码技术领域，本发明包括S1、输入大小为64×64的编码树单元，通过贝叶斯分类器对其进行粗判断，判断是否采用SKIP模式，若是，则判定当前编码树单元不往下划分，直接得到编码树单元的编码单元大小决策，否则，执行S2；S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策，得到编码单元的分块结果；S3、由S2中得到的编码单元分块结果得到编码单元大小决策；S4、根据S1或S3中得到的编码单元大小决策进行预测编码，得到编码结果，本发明在确保编码性能的前提下，能够大大降低编码复杂度，提高编码效率。

Description

一种基于神经网络的视频预测编码方法

技术领域

本发明涉及视频压缩编码技术领域，更具体的是涉及一种基于神经网络的视频预测编码方法。

背景技术

视频编码一般也指视频压缩，其采用预测、变换、量化和熵编码等方式，尽可能地减少视频数据中的冗余，使用尽可能少的数据来表征视频。但在现有网络的带宽限制下，视频编码后的失真度较大，最终呈现的视频观看结果不佳。

传统的视频编码是基于HEVC标准，采用分层的四叉树结构，引入编码树单元(CTU)、编码单元(CU)和预测单元(PU)，通过四叉树遍历的方法对编码单元的大小和预测单元的模式进行选择，HM编码器采用了基于率失真优化(Rate Distortion Optimization，RDO)的全搜索遍历模式选择算法，在HM编码器中，一个编码树单元中编码单元的大小和预测单元的模式选择的优化过程在HM编码器中表现为递归过程。

率失真是图像失真度(distortion)和编码码率两者之间的相互关系，其中图像失真度是指重建块和原始块的图像的差值，编码码率是指编码块经过预测编码得到的残差，再经过变换、量化最后得到的编码信息，率失真优化是指在尽可能小的编码码率下，得到的图像失真度也尽可能的小，从而使得编码器的编码效率达到最高。

在HM编码器中，一幅图像首先被分为一系列的编码树单元，每个编码树单元再继续分为编码单元，对于深度为X的编码单元，深度加1，则当前编码单元分为4个子编码单元，深度层次由0到3，对应的编码单元大小由64×64到8×8，如图1所示。在每个深度层次，一个编码单元可以分成2到4个预测单元，而预测单元的大小又有2N×2N，2N×N，N×2N，2N×nU，2N×nD，nR×2N，nL×2N等多种尺寸，HEVC标准同H.264类似，采用的是遍历所有可能的编码单元的大小和预测单元的所有模式，找出其中率失真代价最小的模式，将它作为最佳模式，以此来决定编码单元的分割形式，这种算法称为全搜索遍历算法。

如图2和图3所示，一个编码单元是否往下分由当前编码单元的率失真代价(RateDistortion cost，RD cost)和下一层的4个更小的编码单元的率失真代价的和进行比较，如果当前编码单元的率失真代价更小，则不再往下分割，否则便将当前编码单元划分成更小的4个编码单元，编码器从深度为3时依次往上迭代，从而得到一个编码树单元的划分结构。

在帧内编码环节，许多地方的模式决策都是使用的率失真优化模块计算搜索每种编码决策的率失真代价，选取率失真代价最小的一种编码决策，虽然现有的这种编码方法确保了编码的失真最小，但是其遍历每种编码决策的方式大大增加了编码的复杂度，对编码器的硬件要求也很高。

发明内容

本发明的目的在于：为了解决现有利用率失真优化递归搜索每种编码决策，导致编码的复杂度剧增的问题，本发明提供一种基于神经网络的视频预测编码方法。

本发明为了实现上述目的具体采用以下技术方案：

一种基于神经网络的视频预测编码方法，包括如下步骤：

S1、输入大小为64×64的编码树单元，通过贝叶斯分类器对其进行粗判断，判断是否采用SKIP模式，若是，则判定当前编码树单元不往下划分，使用SKIP作为最终的模式，不再划分编码单元，直接得到编码树单元的编码单元大小决策，否则，执行S2；

S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策，得到编码单元的分块结果；

S3、由S2中得到的编码单元分块结果得到编码单元大小决策；

S4、根据S1或S3中得到的编码单元大小决策进行预测编码，得到编码结果。

进一步的，所述S2中的三支神经网络的前两支基于残差卷积神经网络，第三支基于卷积神经网络，所述三支神经网络分别对编码树单元进行深度为0、1和2的划分决策判断。

进一步的，所述三支神经网络中的前两支神经网络均包括卷积层、bottleneck层、全连接层和池化层，第三支神经网络包括卷积层和全连接层。

进一步的，所述三支神经网络的决策方法如下：

64×64的编码树单元在第一支神经网络依次通过卷积层、bottleneck层、池化层和全连接层得到深度为0的编码单元的分块结果；

64×64的编码树单元等分为4个32×32的编码单元，4个32×32的编码单元依次输入第二支神经网络，通过卷积层、bottleneck层、池化层和全连接层后得到每个32×32的编码单元的划分结果，即得到深度为1的编码单元的分块结果；

64×64的编码树单元等分为16个16×16的编码单元，16个16×16的编码单元依次输入第三支神经网络，通过卷积层和全连接层后得到每个16×16的编码单元的划分结果，即得到深度为2的编码单元的分块结果；

通过三支神经网络，输入一个编码树单元的情况下，能够得到三层网络的分块结果，提高了编码效率，降低了编码复杂度。

进一步的，所述S2中的三支神经网络采用训练数据集进行了训练，训练方法如下：

步骤一、对训练数据集中的图像进行数据增广的预处理；

步骤二、对预处理后的图像数据进行0-1正则化；

步骤三、正则化后的图像输入第一支神经网络，正则化后的图像4等分后输入第二支神经网络，正则化后的图像16等分后输入第三支神经网络，对三支神经网络进行训练。

进一步的，所述步骤一中对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换，所述四种图像变换具体是：

a、水平、垂直翻转图像；

b、180°旋转图像；

c、随机改变图像亮度和饱和度；

d、向图像加入随机光噪声。

本发明的有益效果如下：

1、本发明的方法首先通过贝叶斯分类器提前判断出是否采用SKIP模式，并且通过三支神经网络并行对编码树单元的三个深度的编码单元进行划分决策，替代了基于率失真优化的全搜索遍历模式选择的算法，大大降低了编码的复杂度，同时也降低了对编码器的硬件需求。

2、本发明的三支神经网络并行对编码树单元的深度进行决策，由于随着深度的增加，神经网络需要决策的分块也增加，因此第一支神经网络完成决策的时间少于第二支神经网络，第二支神经网络完成决策的时间少于第三支神经网络，当深度为0的编码单元的分块结果出现后，第二支神经网络和第三支神经网络还未结束决策，故能够根据第一支神经网络的决策结果决定第二支神经网络和第三支神经网络是否继续，同样的，能够通过第二支神经网络的决策结果决定第三支神经网络是否继续，通过并行决策，能够优化决策流程，一次输入，能够同时得到编码树单元三个深度的编码单元的划分结果，降低了编码复杂度。

附图说明

图1是四叉树划分结构。

图2是分块决策示意图。

图3是分块决策判断示意图。

图4是本发明的流程框图。

图5是神经网络结构示意图。

具体实施方式

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例1

如图4和图5所示，本实施例提供一种基于神经网络的视频预测编码方法，包括如下步骤：

S1、输入大小为64×64的编码树单元，通过贝叶斯分类器对其进行粗判断，判断是否采用的SKIP模式，若是，则判定当前编码树单元不往下划分，直接得到编码树单元的编码单元大小决策，否则，执行S2；

所述贝叶斯分类器的判断方法如下：

将是否采用SKIP模式考虑为一个二分类问题，两个类别分别标记为y₁和y₂，P(y_j)是先验概率，类的条件概率是P(x|y_j)，j是两个类别的标记，可以取1或2，代表不执行SKIP或执行，P(y_j|x)为后验概率，计算公式为：

当P(y₁|x)>P(y₂|x)，判别结果为y₁，否则为y₂；

即结果为y₁，当P(x|y₁)P(y₁)>P(x|y₂)P(y₂)； ②

φ_m(k,l)代表编码单元深度为l的第m个编码块的模式为SKIP，那么一个序列QP＝k，编码单元深度为l的模式为SKIP的概率的计算公式为：

P(non_skip)＝1-P(skip) ④

其中，N为编码块的个数，在编码完整个视频序列后可知，

表示量化参数QP为k，整个序列中，深度为l的编码的编码单元的个数；当编码单元为SKIP模式时，φ_m(k,l)值为1，否则为0；

通过计算参考帧和当前帧的熵的差值绝对值计算条件概率，具体公式为：

ΔH_k(i)＝|H_cur(i)-H_k(i)| ⑥

其中，H_cur(i)是当前帧的熵，H_k(i)是参考帧的熵；

N_skip和N_non-skip分别表示已经编码的编码单元中SKIP模式和非SKIP模式的数量，t表示当前编码时刻；

和

分别表示深度值为l时，SKIP模式和非SKIP模式的熵的差值，均可由公式⑤和公式⑥计算得到，通过公式⑦和公式⑧能够得出当前编码单元在编码时刻t时所用到的跳过的和非跳过的编码块的平均熵；

在merge模式下，预测单元要建立MV候选列表，对于B slice存在两个MV，因此MV候选列表也需要提供两个预测MV，即列表0和1；L₀和L₁是分别来自于列表0和1的参考帧；

Merger模式可以看成是一种编码模式，即当前预测单元由空域上临近的预测单元预测得到；通过公式⑨和公式⑩能够计算得到SKIP模式和非SKIP模式的熵的差的距离；

判断是SKIP模式的条件为：P(skip)×D_skip>P(non_skip)×D_non-skip；

S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策，得到编码单元的分块结果；所述三支神经网络的前两支基于残差卷积神经网络，第三支基于卷积神经网络，所述三支神经网络分别对深度为0、1和2的编码树单元进行分块决策判断；

64×64的编码树单元等分为16个16×16的编码单元，16个16×16的编码单元依次输入第三支神经网络，通过卷积层和全连接层后得到每个16×16的编码单元的划分结果，即得到深度为2的编码单元的分块结果，一次输入，便能够同时得到编码单元三个深度的块划分结果；

S3、由S2中得到的编码单元分块结果得到编码单元大小决策；

S4、根据S1或S3中得到的编码单元大小决策进行预测编码，本实施例中的预测编码为帧内和帧间预测，最终得到编码结果。

实施例2

本实施例在实施例1的基础之上进一步优化，具体是：

所述S2中的三支神经网络采用训练数据集进行了训练，训练方法如下：

步骤一、对训练数据集中的图像进行数据增广的预处理；

步骤二、对预处理后的图像数据进行0-1正则化；

步骤三、正则化后的图像输入第一支神经网络，正则化后的图像4等分后输入第二支神经网络，正则化后的图像16等分后输入第三支神经网络，对三支神经网络进行训练；

所述步骤一中对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换，所述四种图像变换具体是：

a、水平、垂直翻转图像；

b、180°旋转图像；

c、随机改变图像亮度和饱和度；

d、向图像加入随机光噪声；

本实施例中的训练数据集采用“Raise:araw images dataset for digitalimage forensics”，但不限于此数据集；

本实施例中每支神经网络输出的神经元均通过激活函数激活，所述激活函数采用LReLU：f(x)＝max(0,x)+min(0,x)；

通过本实施例的方法，在评估标准(编码效率和编码复杂度)

编码效率：BjontegaarDelta Bit Rate(BDBR)、BjontegaardDelta Peak Signal-to-Noise Ratio(BD-PSNR)的情况下，

编码复杂度

与采用率失真优化的方法相比较，本实施例的复杂度减少了61.93％，BD-PSNR为-0.363％，BDBR为7.412％。

以上所述，仅为本发明的较佳实施例，并不用以限制本发明，本发明的专利保护范围以权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于神经网络的视频预测编码方法，其特征在于，包括如下步骤：

S1、输入大小为64×64的编码树单元，通过贝叶斯分类器对其进行粗判断，判断是否采用SKIP模式，若是，则判定当前编码树单元不往下划分，直接得到编码树单元的编码单元大小决策，否则，执行S2；

S3、由S2中得到的编码单元分块结果得到编码单元大小决策；

S4、根据S1或S3中得到的编码单元大小决策进行预测编码，得到编码结果；

所述三支神经网络的决策方法如下：

所述S2中的三支神经网络采用训练数据集进行了训练，训练时：先对图像数据进行0-1正则化；然后再正则化后的图像输入第一支神经网络，正则化后的图像4等分后输入第二支神经网络，正则化后的图像16等分后输入第三支神经网络，对三支神经网络进行训练。

2.根据权利要求1所述的一种基于神经网络的视频预测编码方法，其特征在于，所述S2中的三支神经网络的前两支基于残差卷积神经网络，第三支基于卷积神经网络，所述三支神经网络分别对编码单元进行深度为0、1和2的划分决策判断。

3.根据权利要求2所述的一种基于神经网络的视频预测编码方法，其特征在于，所述三支神经网络中的前两支神经网络均包括卷积层、bottleneck层、全连接层和池化层，第三支神经网络包括卷积层和全连接层。

4.根据权利要求1所述的一种基于神经网络的视频预测编码方法，其特征在于，所述S2中的三支神经网络进行训练时，在正则化之前进行预处理，即对训练数据集中的图像进行数据增广的预处理。

5.根据权利要求4所述的一种基于神经网络的视频预测编码方法，其特征在于，对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换，所述四种图像变换具体是：

a、水平、垂直翻转图像；

b、180°旋转图像；

c、随机改变图像亮度和饱和度；

d、向图像加入随机光噪声。