CN111988628A

CN111988628A - 基于强化学习的vvc的快速帧内编码方法

Info

Publication number: CN111988628A
Application number: CN202010933234.7A
Authority: CN
Inventors: 徐艺文; 邢开应; 林杰廉; 吴陆狄; 郑权斐
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-11-24
Anticipated expiration: 2040-09-08
Also published as: CN111988628B

Abstract

本发明涉及一种基于强化学习的VVC的快速帧内编码方法。首先，离线训练强化学习模型。然后，在编码过程中使用训练好的模型对编码单元（CU）的划分模式进行预测。最后，跳过未被选择的CU划分模式以节省编码时间。在不影响编码器编码性能的情况下，本发明所提出的算法相比于原始编码器能够节省较多的编码器编码时间。

Description

基于强化学习的VVC的快速帧内编码方法

技术领域

本发明涉及视频编码技术领域，特别是一种基于强化学习的VVC的快速帧内编码方法。

背景技术

近年来，随着视频技术的高速发展，以及人们对高质量视频的需求，各种高质量、高分辨率视频已经和我们的生活密切联系，不可分割。同时，4K、8K超高清、全景视频等先进视频应用也在进一步发展与普及。但是，有限的带宽一直是制约视频技术发展的重要因素。因此，对更加有效的视频编码的研究迫在眉睫。联合视频专家小组(Joint Video ExpertsGroup，JVET) 于2018年4月10日美国圣地亚哥会议上，为新一代视频编码标准定名为多功能视频编码 (Versatile Video Coding，VVC)，主要目标是改进现有高效视频编码(HighEfficiency Video Coding， HEVC)，提供更高的压缩性能，同时针对新兴应用如360°全景视频和高动态范围成像(High Dynamic Range Imaging，HDR)进行优化。

相比较HEVC而言，VVC的编码性能提升一倍。但是，与HEVC对CU的划分仅采用四叉树划分模式不同的是，VVC对CU的划分采用了更为复杂的划分模式，每个CU有5种划分模式：四叉树划分、二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分。CU 在编码过程中需要遍历所有的划分模式，以寻找RDcost最小的划分模式。这也是造成VVC编码计算复杂度急剧增加的主要原因。为了解决这个问题，本发明从VVC帧内编码划分模式着手，将强化学习与VVC划分模式结合，提出一种基于强化学习的VVC快速帧内编码算法，通过快速寻找最佳CU划分模式，跳过不必要的划分模式的计算，以解决VVC编码的计算复杂度高的问题。

发明内容

本发明的目的在于提供一种基于强化学习的VVC的快速帧内编码方法，该方法相比于已有优化算法可在基本不损失编码质量的前提下降低更多的编码复杂度。

为实现上述目的，本发明的技术方案是：一种基于强化学习的VVC的快速帧内编码方法，包括如下步骤：

步骤S1、基于强化学习理论和Q学习的深度强化学习模型，即DQN模型，确定模型参数，目标神经网络的价值反馈函数、损失函数；

步骤S2、采用离线训练方法，训练强化学习模型；

步骤S3、利用步骤S2中训练好的强化学习模型，对编码单元CU的划分模式进行预测，并选择最优CU划分模式，以跳过未被选择的CU划分模式，从而节省帧内编码的编码时间。

在本发明一实施例中，所述步骤S1具体实现如下：

步骤S11、根据DNQ模型，以及结合帧内编码的实际情况，由于CU进行划分后会有多个子CU，因此将目标神经网络的价值反馈函数定义如下：

其中，N表示采用划分模式后得到的子CU个数；S表示在不同的划分模式下所对应的CU 状态；A表示在状态S下可执行的划分动作，在VVC快速帧内编码中，每个CU对应着四叉树划分、二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分五种划分动作模式；Q(S，A)表示在状态S下，执行动作A之后的价值反馈函数；S′_n表示第n个CU在状态S执行划分动作A之后的下一个状态，即CU划分之后的状态；A′_n表示状态为第n个CU在状态S′_n下，可继续执行的划分动作；Q′(S′_n，A′_n)表示在S′_n状态下，执行A′_n动作后的价值反馈函数，该函数的引入，使得对当前状态S进行价值估计时，可以考虑到未来的状态价值对当前的影响；γ是一个衰减因子，范围为0到1，且γ越大，表示下一个CU的状态对当前CU状态的影响越大； R为状态S下执行动作A所获得的即时反馈值，R定义如下：

R＝R_intra-R_A

其中，R_intra表示CU帧内预测时的率失真代价值，即RD cost值；R_A表示CU帧内预测时，采用划分模式A时的RD cost值；

对于强化学习来说，损失函数用于衡量经过学习所得到的模型性能的好坏，损失函数L的定义如下：

L＝(Q'(S,A)-Q(S,A))²

其中，Q′(S，A)为目标函数；损失函数的引入，希望DQN网络在训练中所取得的价值反馈函数不断逼近目标函数；

步骤S12、基于步骤S11确定的价值反馈函数，选取3个与编码划分模式相关的编码参数 (s₁-s₃)以及8个与视频残差图像相关的参数(s₄-s₁₁)，作为状态S中的状态特征，s₁-s₁₁的具体定义分别为：当前CU的帧内预测RD cost值、量化参数Qp、CU大小、CU亮度预测残差图的像素值方差、CU采取四叉划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取二叉树水平划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取二叉树垂直划分后，4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树水平划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树垂直划分后4个子CU块像素值方差的均值、 CU亮度预测残差图的Sobel水平梯度均值、CU亮度预测残差图的Sobel垂直梯度均值；其中s₁₀及s₁₁的计算公式分别如下：

其中，W和H分别表示CU的长和宽；G_x及G_y分别表示Sobel算子水平及垂直边缘检测的图像，其定义如下：

其中，M代表CU的亮度预测残差图矩阵；

步骤S13、基于步骤S12，采用简单的3层全连接神经网络层作为DQN的动作价值Q及Q′的预测网络结构，该3层神经网络包括1个输入层、1个隐含层、1个输出层，每层对应的神经元数目分别为11、16、5，预测网络输入为步骤S12中定义的11个状态值，输出为5种划分模式对应的实际动作价值反馈，即Q值。

在本发明一实施例中，所述步骤S2具体实现如下：

步骤S21、采用原始编码器编码训练，记录下每次CU划分时的状态值S、划分动作模式A、反馈值R、划分后的状态值S′，并将这些变量值作为一组数据样本，放入经验回收池E，总计 25万组数据样本；

步骤S22、随机选取步骤S21中建立的经验回收池E的数据样本，作为训练数据，用于更新Q网络的参数，采用DQN模型离线训练方法对DQN模型进行离线学习。

在本发明一实施例中，所述步骤S3中具体实现如下：

基于步骤S1提出的DQN模型的输出，定义DQN模型输出的Q值较大的3种划分模式为集合G，在对CU进行划分时，只测试集合G中的划分模式，对集合G中的划分模式进行比较；

步骤S31、首先对于视频帧划分成固定大小的编码树单元CTU，CTU会根据视频具体内容进一步划分成许多的CU，以适应图像的局部特征；

步骤S32、对步骤S31中划分的CU进行状态特征提取，并利用步骤S2中训练好的强化学习模型预测划分模式，判断划分模式是否属于集合G；

步骤S33、若基于步骤S32得到的划分模式属于集合G，则选择该划分模式进行划分，并判断该CU划分是否结束，执行步骤S34；若基于S32得到的划分模式不属于集合G，则执行步骤S35，跳过该划分模式，以节省编码时间，进一步判断该CU划分是否结束；

步骤S34、若基于步骤S33判断CU划分未结束，则对划分后的CU进一步处理，开始下一个划分模式编码流程，重复步骤S32～S33；若判断CU划分已结束，则结束该CU的编码；

步骤S35、若基于步骤S33判断CU划分未结束，则跳过当前划分模式，开始下一个划分模式编码流程，测试下一个划分模式是否属于集合G，重复步骤S33；若判断CU划分已结束，则结束该CU编码。

相较于现有技术，本发明具有以下有益效果：本发明首次将强化学习应用到VVC帧内编码中，使得VVC编码复杂度有着明显的降低。

附图说明

图1为本发明实施例过程中的整体算法流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基于强化学习的VVC的快速帧内编码方法，包括如下步骤：

步骤S2、采用离线训练方法，训练强化学习模型；

以下为本发明的具体实现过程。

如图1所示，本发明提供了一种基于强化学习的VVC的快速帧内编码算法，包括如下步骤：

步骤S1、基于强化学习理论和Q学习(Q-Learning)的深度强化学习模型，即深度Q网络 (Deep Q-Learning Net，DQN)模型。确定模型参数，目标神经网络的价值函数、损失函数；

步骤S2、采用离线训练方法，强化学习模型；

步骤S3、对于VVC帧内编码，编码单元(Coding Unit,CU)的划分模式有多种，若遍历所有的划分模式，找寻最佳模式将会产生大量的计算时间和计算复杂度。因此，利用步骤S2中训练好的强化学习模型，对CU的划分模式进行预测，并选择CU划分模式，跳过未被选择的CU划分模式，从而节省帧内编码的编码时间。

在本发明一实施例中，所述步骤S1具体实现如下：

步骤S11、根据DNQ模型，以及结合帧内编码的实际情况，由于CU进行划分后会有多个子CU，因此将目标神经网络的状态价值函数重新定义如下：

其中N表示采用划分模式后得到的子CU个数，S表示在不同的划分模式下所对应的CU状态，A表示在状态S下可执行的划分动作。在VVC快速帧内编码中，每个CU对应着四叉树划分、二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分五种划分动作模式。Q(S，A) 表示在状态S下，执行动作A之后的价值反馈函数。S′_n表示第n个CU在状态S执行划分动作A 之后的下一个状态，即CU划分之后的状态，A′_n表示状态为第n个CU在状态S′_n下，可继续执行的划分动作，Q′(S′_n，A′_n)表示在S′_n状态下，执行A′_n动作后的价值反馈函数。该函数的引入，使得对当前状态S进行价值估计时，可以考虑到未来的状态价值对当前的影响。γ是一个衰减因子，范围为0到1，且γ越大，表示下一个CU的状态对当前CU状态的影响越大。其中，R为状态S 下执行动作A所获得的即时反馈值，R定义如下：

R＝R_intra-R_A

其中R_intra表示CU帧内预测时的率失真代价(Rate Distortion cost,RD cost)值，是衡量编码性能的重要指标之一；R_A表示CU帧内预测时，采用划分模式A时得到的RD cost值。R可以表示在执行本发明所提供的算法之后，选择的划分模式A与VVC默认测试模型VTM中执行帧内编码划分的RD cost差值，即RD cost的增益。

对于强化学习来说，损失函数用于衡量经过学习所得到的模型性能的好坏。在本发明中，损失函数L的定义如下：

L＝(Q'(S,A)-Q(S,A))²

其中，Q′(S，A)为目标函数，Q(S，A)的定义与前文相同，为在CU状态S下执行CU划分动作 A所取得的实际价值反馈。该损失函数的引入，希望DQN网络在训练中所取得的价值函数反馈不断逼近目标函数。

步骤S12、基于步骤S11确定的价值函数，由于视频编码过程中的预测残差信息对编码划分模式选择有较大的影响，因此本发明选取了3个和编码划分模式相关的编码参数：当前CU 的帧内预测RD cost值、量化参数(Q_p)、CU大小以及其他8个与视频残差图像相关的参数： CU亮度预测残差图的像素值方差、CU采取四叉划分后，4个子CU块像素值方差的均值、CU 亮度预测残差图采取二叉树水平划分后，4个子CU块像素值方差的均值、CU亮度预测残差图采取二叉树垂直划分后，4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树水平划分后，4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树垂直划分后，4个子CU块像素值方差的均值、CU亮度预测残差图的索贝尔(Sobel)水平梯度均值、CU亮度预测残差图的Sobel垂直梯度均值，将以上11个参数值作为状态S中的状态特征；

步骤S13、基于步骤S12，s₁₀及s₁₁的计算公式分别如下：

其中，W和H分别表示CU的长和宽。G_x及G_y分别表示Sobel算子水平及垂直边缘检测的图像，其定义如下：

其中M代表CU的亮度预测残差图矩阵。

步骤S14、基于步骤S12，由于使用的状态值只有11个，且在编码器中采用运算量过大的模型会使得编码器的计算量和计算复杂度变大，从而使得编码器性能降低。基于以上考虑，本发明采用了简单的3层全连接神经网络层作为DQN的动作价值(Q及Q′)预测网络结构。

预测网络使用的3层神经网络包括1个输入层、1个隐含层、1个输出层，每层对应的神经元数目分别为11、16、5。预测网络输入为步骤S12中定义的11个状态值，输出为5种划分动作对应的动作价值(Q值)。

在本发明一实施例中，所述步骤S2具体实现如下：

步骤S21、采用离线学习的方法训练DQN模型，训练用到的视频序列如表1所示：

表1训练用视频序列

步骤S22、原始编码器编码训练时，采用的是表1中视频序列前8帧，并且记录下每次CU 划分时的状态值S、划分动作模式A、反馈值R、划分后的状态值S′，并将这三个变量值作为一组数据样本，放入经验回收池(Experience replay，E)中,总计25万组数据样本；

步骤S23、随机选取步骤S22中建立的经验回收池E的数据样本，作为训练数据，用于更新Q网络的参数。采用如表2所示的算法中描述的算法对DQN进行离线学习；

表2 DQN模型离线训练方法

在本发明一实施例中，所述步骤S3具体实现如下：

基于步骤1提出的DQN模型输出，定义DQN模型输出的Q值较大的3种划分模式为集合 G。在对CU进行划分时，只测试集合G中的划分模式；

步骤S31、首先对于视频帧划分成固定大小的编码树单元(Coding Tree Unit,CTU)，CTU会根据视频具体内容进一步划分成许多的CU，以适应图像的局部特征；

步骤S34、若基于步骤S33判断CU划分未结束，则对划分后的CU进一步处理，重复步骤 S32～S33；若判断CU划分已结束，则结束该CU的编码；

步骤S35、若基于步骤S33判断CU划分未结束，则跳过当前划分模式，测试下一个划分模式是否属于集合G，重复步骤S33；若判断CU划分已结束，则结束该CU编码。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于强化学习的VVC的快速帧内编码方法，其特征在于，包括如下步骤：

步骤S2、采用离线训练方法，训练强化学习模型；

2.根据权利要求1所述的基于强化学习的VVC的快速帧内编码方法，其特征在于，所述步骤S1具体实现如下：

其中，N表示采用划分模式后得到的子CU个数；S表示在不同的划分模式下所对应的CU状态；A表示在状态S下可执行的划分动作，在VVC快速帧内编码中，每个CU对应着四叉树划分、二叉树水平划分、二叉树垂直划分、三叉树水平划分、三叉树垂直划分五种划分动作模式；Q(S，A)表示在状态S下，执行动作A之后的价值反馈函数；S′_n表示第n个CU在状态S执行划分动作A之后的下一个状态，即CU划分之后的状态；A′_n表示状态为第n个CU在状态S′_n下，可继续执行的划分动作；Q′(S′_n，A′_n)表示在S′_n状态下，执行A′_n动作后的价值反馈函数，该函数的引入，使得对当前状态S进行价值估计时，可以考虑到未来的状态价值对当前的影响；γ是一个衰减因子，范围为0到1，且γ越大，表示下一个CU的状态对当前CU状态的影响越大；R为状态S下执行动作A所获得的即时反馈值，R定义如下：

R＝R_intra-R_A

L＝(Q′(S，A)-Q(S，A))²

步骤S12、基于步骤S11确定的价值反馈函数，选取3个与编码划分模式相关的编码参数(s₁-s₃)以及8个与视频残差图像相关的参数(s₄-s₁₁)，作为状态S中的状态特征，s₁-s₁₁的具体定义分别为：当前CU的帧内预测RD cost值、量化参数Qp、CU大小、CU亮度预测残差图的像素值方差、CU采取四叉划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取二叉树水平划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取二叉树垂直划分后，4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树水平划分后4个子CU块像素值方差的均值、CU亮度预测残差图采取三叉树垂直划分后4个子CU块像素值方差的均值、CU亮度预测残差图的Sobel水平梯度均值、CU亮度预测残差图的Sobel垂直梯度均值；其中s₁₀及s₁₁的计算公式分别如下：

其中，M代表CU的亮度预测残差图矩阵；

3.根据权利要求1所述的基于强化学习的VVC的快速帧内编码方法，其特征在于，所述步骤S2具体实现如下：

步骤S21、采用原始编码器编码训练，记录下每次CU划分时的状态值S、划分动作模式A、反馈值R、划分后的状态值S′，并将这些变量值作为一组数据样本，放入经验回收池E，总计25万组数据样本；

4.根据权利要求1所述的基于强化学习的VVC的快速帧内编码方法，其特征在于，所述步骤S3中具体实现如下：