CN110351555A

CN110351555A - 基于强化学习的多遍历视频编码码率分配与控制优化方法

Info

Publication number: CN110351555A
Application number: CN201810298281.1A
Authority: CN
Inventors: 朱政; 陈宇; 梅元刚; 丁丹丹
Original assignee: Individual
Current assignee: Hangzhou Microframe Information Technology Co ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2019-10-18
Anticipated expiration: 2038-04-03
Also published as: CN110351555B

Abstract

本发明公开了一种基于强化学习的视频多次遍历(Multipass)编码中码率分配与控制的优化解决方案。在第一次编码结束之后，视频分割为多个不重叠的连续的画面组。针对不同的画面组在第一次遍历(pass)后采集的对组内各帧图像的综合统计信息，通过预测网络得到码率分配和控制决策参数，并执行第二次遍历编码和获取编码结果评分。将统计信息和码控决策参数输入判别网络得到估分，执行强化学习的迭代训练过程。利用强化学习训练得到的预测网络，在编码视频图像第二次遍历前，得到各个画面组的码率分配与控制的最优化策略参数，从而最大可能的提升编码压缩效率。

Description

基于强化学习的多遍历视频编码码率分配与控制优化方法

技术领域

本发明涉及视频编码和深度学习，特别是一种基于强化学习的多遍历视频编码码率分配与控制的优化方法。

背景技术

随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高，原始视频信源的数据量以使现有传输网络带宽和存储资源无法承受。因而，视频信号的压缩已成为目前国内外学术研究和工业应用的热点之一。视频压缩，也称视频编码，其目的是消除视频信号间存在的冗余信息。至今，国内外标准化组织已相继制定了多种不同的视频编码标准。自H.261视频编码标准以来，主流的视频编码标准均采用“基于块的预测和变换”的混合编码框架，即输入的视频信号经过编码器中预测、变换、量化、扫描、熵编码等编码技术处理后，最后输出比特流，以备传输或存储。经过几十年的发展，视频编码标准中的工具日趋精细和复杂，基于传统混合编码框架要取得压缩效率的显著提升变得愈发困难。

深度神经网络是人工智能的一个重要分支，从20世纪80年代以来，深度神经网络提供的识别和预测能力一直在提高，在图像与视频、语音与语言处理等领域表现尤为出色。深度学习在计算机视觉领域(如分类、识别等)的成功也带动了一些视频图像处理领域的发展，基于深度学习的图像超分辨率、边缘检测技术迅速发展，性能提升非常显著。受深度学习在图像处理领域的巨大优势启发，可以将深度学习引入视频或图像编码框架中以提升编码效率。目前学术界和业界关于深度学习在视频或图像编码中的应用大体有以下几类：一、系统级地改造图像编码框架；二、基于传统的混合编码框架，改造其中的部分模块，比如熵编码、变换、环路滤波、亚像素插值等；三、前处理或后处理；四、视频编码快速算法。其中第一类和第二类技术需要改变现有标准，有望在将来新的标准中予以实施，但对于工业界还比较遥远。第三类技术着重于提升主观质量。第四类技术以牺牲一定压缩效率为代价，着重于加快编码速度。

在现有主流的视频图像编码标准基础上提升压缩效率，与生态兼容，具有更好的现实意义和产业价值。视频图像内容具有极大的多样性，现有主流的视频编码标准提供给编码器设计很大的灵活性，针对不同图像内容通过调节一些码率分配和控制策略参数，有很大的压缩效率提升空间。其中，码率分配与控制的策略参数，是最关键的码率分配和控制策略参数，对视频图像压缩效率影响大，且对不同视频图像内容有适配性。码率分配与控制策略参数包括图像组大小，图像组中各帧图像的码率分配加权值(可以大于1，即加权后分配码率大于平均设定值；也可以小于1，即加权后分配码率小于平均设定值)，图像组中相应的帧QP值，以及图像组参考结构。图像组中的各帧对编码效率的重要性是有分别的，并且与图像组的编码结构紧密相关。编码结构可以是依次编码，即每一帧图像的解码顺序与其解码后的显示顺序完全一致。也可以是分层结构，即每一帧的解码顺序与其解码后的显示顺序可以不同，每一帧在图像组中的作为参考帧的重要性取决于其所位于的参考层，层数越低，重要性越大。底层的图像可以作为本层图像或者上层图像的参考帧，但上层图像不可以作为位于其层面以下的任何图像的任何参考帧。这些策略参数通过传统的方法求解全局最优值的复杂度为NP问题。

发明内容

有鉴于此，本发明提出本发明公开了一种基于强化学习的视频多次编码中码率分配与控制的优化解决方案。本发明解决了传统方法无法获取全局最优解，以及机器学习方法难以生成标签来进行训练的问题。本发明在编码时只需要推断过程，速度较快，并且具有较高的鲁棒性。

为了达到上述目的，本发明采用的而技术方案为，

步骤(1)，创建预测网络和判别网络，并完成网络参数初始化。

预测网络为全连接神经网络，负责根据编码第一次遍历生成的综合统计信息，决策画面组中的码率分配与控制对应的码率分配和控制策略参数最优值。预测网络在实际推断和编码过程中，用作编码器第二次遍历的前置模块，得到预处理参数。

判别网络为全连接神经网络，负责判别预测网络生成的预测值好坏。判别网络的输入为预测网络输出的多个图像组中各帧图像由第一次遍历采集的统计数据，并以每一帧图像的码率分配与控制的码率分配和控制策略参数p；输出为判别码率分配和控制策略参数好坏的实数值V。

步骤(2)，执行第一次遍历编码，编码整个视频序列分段，生成的综合统计信息。

综合统计信息包括但不限于：帧内编码后的各个像素分块的方差，各帧帧内预测分块数目与帧间预测分块数目的比例，帧间预测所得运动矢量的分布，帧间放大/缩小的概率预测，帧内预测或帧间预测所得残差的绝对误差和(SAD)或者差值平方和(SSE)数值，等等。

步骤(3)，输入综合统计信息，由预测网络得到码率分配和控制的策略参数。

图像组各帧图像的码率分配与控制的策略参数p。这里码率分配与控制的策略参数，图像组大小，图像组中各帧图像的码率分配加权值，图像组中相应的帧QP值，以及图像组参考结构。预测网络的输入为多个图像组由第一次遍历采集的各帧统计数据，对于第二次遍历或以后的遍历，不是从该遍历编码过程中提取的参数，不需要编码器的额外反馈，保持较强解耦性。

步骤(4)，根据码率分配和控制的策略参数，执行第二次遍历编码。

步骤(5)，编码结果评分。在第二次遍历视频序列分段编码完成以后，得到的压缩效率综合评分R。

步骤(6)，判别网络估分。根据输入综合统计信息以及码率分配和控制的策略参数，得到估分V。

步骤(7)，强化学习训练迭代。更新预测网络和判别网络参数，并执行迭代过程。通过最小化|R-V|²得到最优化的判别网络的参数θ_C；通过最大化V得到最优的预测网络的参数θ_A；将θ_C和θ_A分别更新到预测网络和判别网络；迭代到指定终止条件。

步骤(8)，编码决策。负责为视频编码中的任一画面组，在第一次遍历结束之后，第二次遍历开始之前，生成最优化的码率分配与控制的码率分配和控制策略参数，从而提升编码多遍历的编码压缩效率。

本发明的有益效果是：本发明专利的视频多次编码(Multipass)中码率分配与控制的优化方法，1.针对视频编码中码率分配与控制的关键策略参数，本发明解决了传统方法无法获取全局最优解，以及机器学习方法难以生成标签来进行训练的问题。2.本发明在现有主流视频图像编码标准范围内实施，能够在兼容现有标准生态的前提下提升压缩效率，具有更好的现实意义和产业价值。3.本发明可以有效提升编码压缩效率，也可以有效地按照设定目标进行码率控制，将码率的平稳度，视频质量稳定性等控制在更合理的范围。

附图说明

图1为强化学习训练步骤示意图；

图2为编码决策步骤示意图。

具体实施方式

下面将结合说明书附图，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明的视频多次编码中码率分配与控制的优化方法，具体优化了视频编码第二次遍历的码控分配与控制策略参数，包括以下步骤，

其中，网络参数的初始化包括但不限于：全零初始化；随机初始化；根据编码器自带的默认配置，执行编码后得到各个图像分块的策略参数以及编码结果评分，然后对预测网络和判别网络进行监督学习的初始化；采用进化算法得到优化的初始策略参数以及编码结果评分，然后对预测网络和判别网络进行监督学习的初始化。所述进化算法方法包括但不仅限于：遗传算法，差分进化算法，模拟退火算法，粒子群优化算法，蚁群算法。在本发明的实施例中，采用差分进化算法，对每组图像得到对应的编码策略参数a；将编码策略参数a输入编码器，执行编码过程得到评分值R。通过R对a进行调整。迭代到指定终止条件，输出最终的a和R。然后利用a和R对预测网络和判别网络进行监督学习，得到优化的初始化网络参数。

其中，码率分配与控制的策略参数，包括但不限于，对图像组大小，图像组中各帧图像的码率分配加权值，以及相应的帧QP值，以及图像组的编码结构。其中图像组中各帧码率分配加权值可以大于1，即加权后分配码率大于平均设定值；也可以小于1，即加权后分配码率小于平均设定值。图像组中的各帧对编码效率的重要性是有分别的，并且与图像组的编码结构紧密相关。编码结构可以是依次编码，即每一帧图像的解码顺序与其解码后的显示顺序完全一致。也可以是分层结构，即每一帧的解码顺序与其解码后的显示顺序可以不同，每一帧在图像组中的作为参考帧的重要性取决于其所位于的参考层，层数越低，重要性越大。底层的图像可以作为本层图像或者上层图像的参考帧，但上层图像不可以作为位于其层面以下的任何图像的任何参考帧。

预测网络的输入为多个图像组由第一次遍历采集的各帧统计数据，对于第二次遍历或以后的遍历，不是从该遍历编码过程中提取的参数，不需要编码器的额外反馈，保持较强解耦性。

其中，编码结果评分，包括但不限于根据码率和质量评价得到的综合评分。在本发明的实施例中，对每个视频段执行4次编码，设定4个不同的码率值，得到码率和平均结构相似性指标(SSIM)，并与上一组策略参数产生的编码结果计算BD率(BDRate)，将-BDRate值作为评分。

步骤(8)，编码决策。执行第一次遍历编码之后，将一组包含多个图像采集的各帧图像的统计数据输入到预测网络，得到一组码率分配和控制策略参数p；将码率分配和控制策略参数p输入编码器，执行第二次遍历编码，达到提升压缩效率的目的。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于强化学习的视频编码多遍历中码率分配与控制的优化方法，其特征在于，包括：

步骤1，创建预测网络和判别网络，并完成网络参数初始化；预测网络负责决策码率分配和控制策略参数最优值；判别网络负责判别预测网络生成的预测值好坏；

步骤2，执行第一次遍历编码，编码整段视频序列，生成的综合统计信息；

步骤3，输入综合统计信息，由预测网络得到码率分配和控制的策略参数；

步骤4，根据码率分配和控制的策略参数，执行第二次遍历编码；

步骤5，编码结果评分，在第二次遍历整段视频序列编码完成以后，得到的压缩效率综合评分R；

步骤6，判别网络估分，根据输入综合统计信息以及码率分配和控制的策略参数，得到估分V；

步骤7，强化学习训练迭代，更新预测网络和判别网络参数，并执行迭代过程；

步骤8，编码决策，负责为视频编码中的任一画面组，在第一次遍历结束之后，第二次遍历开始之前，生成最优化的码率分配与控制的码率分配和控制策略参数，从而提升编码多遍历的编码压缩效率。

2.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：

图像组中不同图像所对应的码率分配与控制的策略参数，包括但不限于图像组大小，图像组中各帧图像的码率分配加权值，图像组中相应的帧QP值，以及图像组参考结构；

所述图像组中每一幅图像所对应的码率分配与控制的策略参数，是视频码率分配和控制策略中最关键参数，对视频图像压缩效率影响大，且对不同视频图像内容有适配性的关键策略参数；所述图像组中各帧图像的码率分配加权值可以大于1，即加权后分配码率大于平均设定值；也可以小于1，即加权后分配码率小于平均设定值；

所述图像组中的各帧对编码效率的重要性是有分别的，并且与图像组的编码结构紧密相关；编码结构可以是依次编码，即每一帧图像的解码顺序与其解码后的显示顺序完全一致；也可以是分层结构，即每一帧的解码顺序与其解码后的显示顺序可以不同，每一帧在图像组中的作为参考帧的重要性取决于其所位于的参考层，层数越低，重要性越大；底层的图像可以作为本层图像或者上层图像的参考帧，但上层图像不可以作为位于其层面以下的任何图像的任何参考帧；

所述策略参数通过传统的方法求解全局最优值的复杂度为多确定多项式问题，NP问题。

3.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：执行第一次遍历编码，编码整段视频序列，生成综合统计信息；

所述综合统计信息为多个图像组从第一次遍历编码后所采集的各帧统计数据，包括但不限于：帧内编码后的各个像素分块的方差，各帧帧内预测分块数目与帧间预测分块数目的比例，帧间预测所得运动矢量的分布，帧间放大/缩小的概率预测，帧内预测或帧间预测所得残差的绝对误差和SAD或者差值平方和SSE数值，等等。

4.根据权利要求1所述的基于强化学习的的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：编码结果评分，

所述编码结果评分，是在对整段视频序列编码完成之后，得到的压缩效率综合评分，包括但不限于根据码率和质量评价得到的综合评分，比如BD率BDRate数值；

所述质量评价包括但不限于全参考质量评价峰值信噪比PSNR和结构相似性指标SSIM；

所述编码结果评分不需要编码过程中的额外计算或反馈，不需要对编码器做定制化改动，与编码器耦合性弱，且能够综合反映图像组内部各帧编码质量之间的相互影响。

5.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：预测网络负责决策图像组中各帧图像所对应的码率分配与控制的策略参数，

所述预测网络为全连接神经网络，预测网络输入为包含多个图像组从第一次遍历编码后所采集的各帧统计数据，输出图像组各帧图像的码率分配与控制的策略参数p；预测网络的输入为多个图像组由第一次遍历采集的各帧统计数据，对于第二次遍历或以后的遍历，不是从该遍历编码过程中提取的参数，不需要编码器的额外反馈，保持较强解耦性；预测网络在实际推断和编码过程中，用作编码器第二次遍历的前置模块，得到预处理参数。

6.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：判别网络负责判别预测网络生成的预测值好坏，

所述判别网络为全连接神经网络；判别网络负责判别预测网络生成的预测值好坏，判别网络仅在训练中使用，推断中不使用；判别网络的输入为预测网络输出的多个图像组中各帧图像由第一次遍历采集的统计数据，并以每一帧图像的码率分配与控制的码率分配和控制策略参数p；输出为判别码率分配和控制策略参数好坏的实数值V。

7.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：强化学习训练过程，

所述强化学习训练过程负责训练生成预测网络的最优化网络参数θ_A；首先，将一组包含多个图像组由第一次遍历采集的各帧图像的统计数据输入到预测网络，得到一组对该多个图像组的码率分配与控制的码率分配和控制策略参数p；将码率分配和控制策略参数p输入编码器，执行编码过程得到评分值R；将码率分配和控制策略参数p和对应的图像组统计数据输入到判别网络，得到评分值V；通过最小化|R-V|²得到最优化的判别网络的参数θ_C；通过最大化V得到最优的预测网络的参数θ_A；将θ_C和θ_A分别更新到预测网络和判别网络；迭代到指定终止条件；

所述迭代终止条件包括但不限于迭代次数。

8.根据权利要求1所述的基于强化学习的视频编码多遍历中码率分配与控制优化方法，其特征在于，包括：编码决策过程，

所述编码决策过程，使用训练好的预测网络作为编码器的前置模块，为编码生成第二次遍历开始前的最优化的各个图像组中各帧图像的码率加权值与帧QP数值等的码率分配和控制策略参数；执行第一次遍历编码之后，将一组包含多个图像采集的各帧图像的统计数据输入到预测网络，得到一组码率分配和控制策略参数p；将码率分配和控制策略参数p输入编码器，执行第二次遍历编码，达到提升压缩效率的目的。