CN117061748A

CN117061748A - 一种基于卷积神经网络的视频编码优化方法

Info

Publication number: CN117061748A
Application number: CN202311158195.8A
Authority: CN
Inventors: 陈谦; 陆宇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-11-14

Abstract

本发明公开了一种基于卷积神经网络的视频编码优化方法。本发明步骤：1、提出一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块，添加高质量参考图像作为输入，提高环路滤波的性能；2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性；3、基于改进的HEVC分像素插值滤波算法，提升HEVC视频压缩性能；本发明显著提高了HEVC环路滤波的性能，进一步提高了编码的压缩效率。实验结果表明，本文所提出的算法在RA编码模式下平均可以减少7.47％的BD‑rate。与现有的两种编码优化算法相比，本文提出的优化算法有效地提升了压缩效率，同时增强了视频质量。

Description

一种基于卷积神经网络的视频编码优化方法

技术领域

本发明提供一种基于卷积神经网络的视频编码优化方法。

背景技术

视频依据其形式可划分为模拟视频和数字视频两种，前者由模型相机逐行或隔行扫描生成，主要用于模拟电视系统；后者由数字相机拍摄生成或由模拟视频生成，日常生活所涉及视频多为数字视频。传统编码技术已经无法满足当下数字视频压缩、存储、传输等方面的要求，高效视频编码应运而生，HEVC是为满足数字视频有线和无线传输需求而开发的视频编码标准。

经过HEVC编码/解码过程后，重构的帧会通过HEVC环路滤波器进行后处理，以消除伪影。HEVC和其他标准都存在两种主要的压缩失真，这是由基于块的预测、变换和有限精度的量化引起的。最常见的失真是块效应。在HEVC中，帧首先被划分为块(CTUs/CUs)作为基本的编码单元。这些块在预测、变换和量化方面的编码相对独立。由于变换和量化过程中会引入一些损失，编码块只能提供原始帧的近似表示。因此，这些近似之间的差异可能导致块边界出现不连续性，从而产生块效应。在变换和量化过程中，高频信号会丢失，解码过程很难恢复这种信息丢失，因此会导致图像严重失真，并出现振铃效应。

近年来，针对HEVC的编码优化方法成为了研究热点。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于卷积神经网络的视频编码优化方法。

本发明解决其技术问题所采用的技术方案如下：

步骤1、利用深度学习对视频特征强大的挖掘能力，提出了一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块，添加高质量参考图像作为输入，进一步提高了环路滤波的性能。

步骤2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性。

步骤3、基于改进的HEVC分像素插值滤波算法，进一步提升HEVC视频压缩性能。

进一步的，步骤1所述的多尺度残差卷积网络，具体如下：

所述的多尺度残差卷积神经网络是基于ResNet的改进，其主要结构如图1所示，具体包括：

(1)浅层特征提取模块

如图1所示，浅层特征提取模块的作用是对输入的参考图像和重建图进行浅层特征的提取，以便后续更深层次特征的提取。

为了同时处理这些输入分量，本发明使用了两个对称的分支。在每个分支中，首先分别将这两个分量输入一个卷积核，提取特定的特征图，然后将它们拼接并输入下一模块。卷积核的大小设置为3x3，通道数设置为16。用以下(1)式表示：

其中，F₁表示浅层特征提取模块提取的特征；x_h表示输入的高质量参考帧分量；x_r表示输入的未经滤波的重建分量；表示第n个k×k卷积核的卷积计算；σ表示LeakyReLU激活函数；/>表示张量通道上的拼接操作。

(2)深层特征提取模块

深层特征提取模块的作用是利用所提出的多尺度残差模块进行深度特征的提取，采用更深的网络进一步增强表达能力。

深层特征提取模块由一个卷积层和N个多尺度残差模块串联而成。所使用的多尺度残差模块的结构如图2所示。在每个多尺度残差模块中，输入的特征图分别经过5x5和3x3的卷积核，得到的张量进行拼接操作，然后进行1x1的卷积操作，并采用跳过连接将输出与输入特征相加。有N个残差模块串联，为了平衡编码时间和编码质量，本发明取N＝10，即10个多尺度残差块进行串联，以提取深层特征。此模块用以下(2)式表示：

其中，表示5×5卷积层的输出；/>表示3×3卷积层的输出；M_a表示第a个多尺度残差模块的输出，a表示第a个多尺度残差模块；σ表示LeakyReLU激活函数。不同尺寸大小的卷积核可以获取不同尺度的特征，在提出的多尺度残差模块结构中，大卷积核更擅长提取大尺度的轮廓特征，小卷积核更擅长提取细节区域的特征。

(3)图像重建模块

如图1所示，图像重建模块包含两个卷积层，输入为深层特征提取模块提取的特征图。这两个卷积层用于对上述增强特征重建残差图像。用以下(3)式表示：

其中，O表示图像重建模块的输出。N表示第N个残差模块。

最后，将重建帧和图像重建模块的输出相加，得到网络的最终输出,使网络训练生成残差图像，减轻网络训练的负担。最终输出可以用式(4)表示：

y＝x_r+O (4)

为了尽可能增强当前帧的质量，该步骤提出使用额外的先验信息——高质量参考图像分量来提高网络增强性能。

在四叉树编码结构下，由于量化参数(QP)值不同，参考帧列表中的参考帧质量会发生波动。在帧间预测过程中，时间最近的帧具有最高的被选为参考帧的概率。然而，时间最近的参考帧并不一定是当前参考列表中质量最好的帧。因为参考列表由时间最近的帧和几个高质量帧组成。如果直接使用参考帧作为输入分量，有可能使得从参考中提取有用信息非常困难。最近的帧是最相似的，而质量最高的帧具有最小的失真。

为了消除质量波动，本发明采用参考帧列表中PSNR最高的帧作为补充输入。高质量参考帧提供更多有用的高质量信息来增强重建帧的质量。

进一步的，步骤2具体实现如下：

为了解决步骤2这个不一致的问题，本发明提出一种迭代训练方法，如图4所示。在整个迭代流程中，有多个训练操作。初始训练过程与传统训练过程类似：

2-1.由基于HM原始编码器(关闭环路滤波模块)编码生成的训练集进行网络训练。

2-2.将初始训练生成的多尺度残差卷积网络集成到HM编码器再次生成新的训练集。

2-3.基于这个新的训练集继续训练多尺度残差卷积网络，并且网络的初始模型参数与初始训练得到的网络参数相同。

2-4.重复训练过程将以迭代的方式进行，直到不能进一步改进性能或达到目标性能。

进一步的，步骤3具体实现如下：

由于HEVC固有的插值滤波器无法依据视频内容自适应减小帧间预测误差，造成编码效率低的问题。本发明提出了一种新颖的HEVC分像素插值滤波算法，并在编码器中采用率失真优化的方法，为每个预测单元选择最好的插值滤波器。

3-1.在视频的每帧中新增一组与HEVC传统固定插值滤波器g¹、g²和g³相对应的自适应插值滤波器，记作g⁴、g⁵和g⁶，抽头数量分别为7、8和7，其中，自适应插值滤波器g⁴对应搜索得到(1/4,0)或(0,1/4)位置分像素，g⁵对应搜索得到(1/2,0)或(0,1/2)位置分像素，g⁶对应搜索得到(3/4,0)或(0,3/4)位置分像素。

3-1.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元，对应原始像素为y_i，i＝1,2,…,M，y_i对应预测像素记作q_i，计算方式如下所示：

式中，j表示抽头，表示参考帧中对应的整像素。定义预测误差E如下所示：

将公式(5)代入公式(6)，得到预测误差E如下所示：

自适应插值滤波器g⁵需与HEVC传统固定插值滤波器g²一样保持对称性，即则由此可将公式(5)转变为如下形式：

公式(8)用矩阵表示，D为等式右侧第一项，K为右侧第二项，g为右侧第三项，则公式(7)为下式形式：

E＝||y-q||²＝||y-DKg||² (9)

式中，y表示原始像素矩阵，q表示预测像素矩阵。对上式求其最小优化解，得到自适应插值滤波器g⁵如下所示：

g⁵＝[(DK)^T(DK)]^-1(DK)^Ty (10)

记录当前帧中全部分像素运动向量为(1/4,0)或(0,1/4)的编码单元，对应原始像素为y′_i，y′_i对应预测像素记作q′_i，如下所示：

引入矩阵D，得到自适应插值滤波器g⁴预测误差E′如下所示：

式中，y′表示原始像素矩阵，q′表示预测像素矩阵。由此可得到自适应插值滤波器g⁴如下所示：

g⁴＝(D^TD)^-1D^Ty′ (13)

通过与g⁴相同的方法可获取到自适应插值滤波器g⁶，区别在于记录的是分像素运动向量为(3/4,0)或(0,3/4)的编码单元。自适应插值滤波器g⁶的表达式如下所示：

g⁶＝(D^TD)^-1D^Ty′ (14)

若采用当前帧所得滤波器插值当前帧图像，则需要二次编码当前帧，造成计算复杂度大幅度增加的问题。因此我们采用参考帧的分像素插值滤波器对当前帧图像插值以增加编码效率。

本发明有益效果如下：本发明方法显著提高了HEVC环路滤波的性能。并提出了一种新颖的分像素插值滤波方法，进一步提高了编码的压缩效率。实验结果表明，本文所提出的算法在RA编码模式下平均可以减少7.47％的BD-rate。与现有的两种编码优化算法相比，本文提出的优化算法有效地提升了压缩效率，同时增强了视频质量。

附图说明

图1本发明卷积神经网络结构示意图；

图2本发明多尺度残差块结构；

图3本发明AI和RA模式下的编码结构；

图4本发明迭代训练方法流程图；

图5本发明采用的HM编码器示意图；

图6本发明视频主观质量比较本发明方法与其他方法的效果对比图；

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

一种基于卷积神经网络的视频编码优化方法。

本发明解决其技术问题所采用的技术方案如下：

进一步的，步骤1所述的多尺度残差卷积网络，具体如下：

(1)浅层特征提取模块

(2)深层特征提取模块

(4)图像重建模块

其中，O表示图像重建模块的输出。N表示第N个残差模块。

y＝x_r+O (4)

进一步的，步骤2具体实现如下：

全帧内模式和随机访问模式的编码结构如图3所示。对于AI模式，帧之间的预测过程中没有任何依赖关系(如图3(a)中的第0到第4帧)。换句话说，当前重建帧的质量不会对下一个编码帧的未经滤波的图像质量产生影响。然而，对于RA和LD(Low Delay)模式，如果当前重建帧的质量提高，下一个编码帧的未经滤波图像质量也会得到提高，因为当前帧将为下一帧提供更高质量图像。在图3(b)中，箭头指向参考帧方向。例如，如果第0帧的重建质量提高，第1帧的重建质量也会提高。

基于上述分析，若当前帧启用基于神经网络的循环滤波器，下一个编码帧的未经滤波图像质量会得到提高。然而，用于下一个编码帧的基于神经网络的循环滤波器是基于质量较低的未经滤波图像进行训练的。因此，最终的测试过程会与训练过程存在不一致的结果。

进一步的，步骤3具体实现如下：

3-1.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元，对应原始像素为y_i，i＝1,2,……,M，y_i对应预测像素记作q_i，计算方式如下所示：

将公式(5)代入公式(6)，得到预测误差E如下所示：

E＝||y-q||²＝||y-DKg||² (9)

g⁵＝[(DK)^T(DK)]^-1(DK)^Ty (10)

g⁴＝(D^TD)^-1D^Ty′ (13)

g⁶＝(D^TD)^-1D^Ty′ (14)

实施例：

实验环境与训练参数设置

本发明采用HEVC参考软件HM16.9编码器作仿真实验。在实验过程中，使用DIV2K[10]数据集(AI)和BVI-DVC[11]数据集(RA)进行编码，得到压缩后的图像，与原图像形成数据对进行网络训练。这些训练数据使用4个量化参数(QP)进行编码{22,27,32,37}。我们为每个QP和I帧B帧训练一个独立的模型，因此总共有8个模型。在进行测试时，自动选择与当前slice最接近的QP模型。由于I帧没有参考图像，所以I帧对应的模型去没有参考帧，只保留重建帧处理。

实验使用了Adam作为优化器，设置学习率为0.001，损失函数使用MSE(均方误差)。该损失函数通过计算生成图像与真实图像之间每个像素的差异来评估模型的性能。

为了减少训练时间，我们首先训练QP32的模型，然后使用迁移学习，用QP32的模型参数对其他QP下的模型进行初始化以加快模型收敛速度。

HEVC编码方法

本发明采用率失真优化(RDO)策略，从基于神经网络的环路滤波器和HEVC环路滤波器中自适应选择。我们使用一个帧级标记位来表示采用何种环路滤波器。如果帧级标记为0，当前帧的所有CTU都不会应用所提出的环路滤波器。如果帧级标志为1，则会通过CTU级的标志来表示是否采用本发明所提出的环路滤波器。

本发明采用率失真优化(RDO)的策略，从HEVC固定滤波器和分像素滤波器中进行自适应选择，以实现最佳的编码性能。

实验结果对比分析

为了测试所提方法的率失真性能，使用18个不同分辨率和不同运动情况的数字视频序列，依据分辨率将数字视频序列划分为五个不同组别。

表1编码性能比较

为验证本发明方法的有效性，将本发明方法与一些最新的方法4和方法5进行比较。我们使用BD-BR来评估编码性能，代表在相同PSNR下的比特率减少量。BD-BR的负值意味着当前算法优于参考算法。BD-BR的正值意味着在相同PSNR下比特率增加，即性能下降。表1表示在RA配置下，本发明方法与参考文献[4]和[5]的比较结果。

如表1所示，本发明方法与HM16.9相比可以将BD-rate最多减少14.52％。在RA配置下，平均BD-rate减少可以达到7.47％。与其他两个方法相比，本发明提出的方法可以实现最多的码率节省，这表明本发明方法能够获得较好的压缩效率。通过分析表1中的数据还发现，本发明方法对于一些具有复杂纹理和快速运动的序列，性能表现一般。将来会研究并利用更先进的先验信息来减小性能优良序列和性能较差序列之间的差距。

主观效果分析

为了展示不同算法的视频主观质量，我们了选择两个视频序列进行比较，分别是“BasketballDrive”和BQMall”。我们在每个序列中选取了128×128大小的图像块作为比较，然后在QP32，RA模式下对序列进行编码。这两个序列的比较结果如图5所示，最左侧是原始序列图像，然后从左到右分别是原始图像块、方法4、方法5和本发明提出的方法的主观结果。在图6中，能够看到与其他方法相比，使用本发明的方法编码的序列在主观质量上取得了优势，几乎没有伪影，并且保留了更多的细节。

为了进一步提升HEVC视频编码的编码效率，本发明提出了一种基于卷积神经网络的视频编码优化算法。该方法包括一种基于卷积神经网络的环路滤波方法和一种提高环路滤波质量的迭代训练方法，并通过一种新颖的HEVC分像素插值滤波算法来进一步提高HEVC的压缩效率。此外，本发明采用高质量参考帧作为神经网络的额外输入，将其和当前重建帧输入到基于CNN的环路滤波网络中，以生成更高质量的重建帧。实验结果表明，本发明提出的HEVC编码优化算法获得了较高的压缩效率和视频质量。未来拟结合先验信息进一步改进该方法，提升其性能，并探索更广泛的应用场景。

Claims

1.一种基于卷积神经网络的视频编码优化方法，其特征在于包括如下步骤：

步骤1、利用深度学习对视频特征强大的挖掘能力，提出一个多输入的多尺度残差卷积网络代替HEVC传统环路滤波模块，添加高质量参考图像作为输入，提高环路滤波的性能；

步骤2、提出迭代训练的方法解决测试过程与训练过程之间的不一致性；

步骤3、基于改进的HEVC分像素插值滤波算法，提升HEVC视频压缩性能；

进一步的，步骤1所述的多尺度残差卷积网络，具体如下：

所述的多尺度残差卷积神经网络，具体包括：

(1)浅层特征提取模块

浅层特征提取模块的作用是对输入的参考图像和重建图进行浅层特征的提取，以便后续更深层次特征的提取；

为了同时处理这些输入分量，使用两个对称的分支；在每个分支中，首先分别将这两个分量输入一个卷积核，提取特定的特征图，然后将它们拼接并输入下一模块；卷积核的大小设置为3x3，通道数设置为16；用以下(1)式表示：

其中，F₁表示浅层特征提取模块提取的特征；x_h表示输入的高质量参考帧分量；x_r表示输入的未经滤波的重建分量；表示第n个k×k卷积核的卷积计算；σ表示LeakyReLU激活函数；/>表示张量通道上的拼接操作；

(2)深层特征提取模块

深层特征提取模块由一个卷积层和N个多尺度残差模块串联而成；在每个多尺度残差模块中，输入的特征图分别经过5x5和3x3的卷积核，得到的张量进行拼接操作，然后进行1x1的卷积操作，并采用跳过连接将输出与输入特征相加；此模块用以下(2)式表示：

其中，表示5×5卷积层的输出；/>表示3×3卷积层的输出；M_i表示第i个多尺度残差模块的输出，i表示第i个多尺度残差模块；σ表示LeakyReLU激活函数；

(3)图像重建模块

图像重建模块包含两个卷积层，输入为深层特征提取模块提取的特征图；两个卷积层用于对上述增强特征重建残差图像；用以下(3)式表示：

其中，O表示图像重建模块的输出；N表示残差模块个数；

最后，将重建帧和图像重建模块的输出相加，得到网络的最终输出,使网络训练生成残差图像，减轻网络训练的负担；最终输出用式(4)表示：

y＝x_r+O (4)。

2.根据权利要求1所述的一种基于卷积神经网络的视频编码优化方法，其特征在于提出使用额外的先验信息，即高质量参考图像分量来提高网络增强性能；采用参考帧列表中PSNR最高的帧作为补充输入。

3.根据权利要求1所述的一种基于卷积神经网络的视频编码优化方法，其特征在于步骤2具体实现如下：

2-1.由基于HM编码器编码生成的未经滤波的图像组成训练集进行网络训练；

2-2.将初始训练生成的多尺度残差卷积网络集成到HM编码器再次生成新的训练集；

2-3.基于这个新的训练集继续训练多尺度残差卷积网络，并且网络的初始模型参数与初始训练得到的网络参数相同；

4.根据权利要求2或3所述的一种基于卷积神经网络的视频编码优化方法，其特征在于步骤3中需要在编码器中采用率失真优化的方法，为每个预测单元选择最好的插值滤波器；具体实现如下：

3-1.在视频的每帧中新增一组与HEVC传统固定插值滤波器g¹、g²和g³相对应的自适应插值滤波器，记作g⁴、g⁵和g⁶，抽头数量分别为7、8和7，其中，自适应插值滤波器g⁴对应搜索得到(1/4,0)或(0,1/4)位置分像素，g⁵对应搜索得到(1/2,0)或(0,1/2)位置分像素，g⁶对应搜索得到(3/4,0)或(0,3/4)位置分像素；

3-2.记录当前帧中全部分像素运动向量为(1/2,0)或(0,1/2)的编码单元，对应原始像素为y_i，i＝1,2,…,M，y_i对应预测像素记作q_i，计算方式如下所示：

式中，j表示抽头，表示参考帧中对应的整像素；定义预测误差E如下所示：

将公式(5)代入公式(6)，得到预测误差E如下所示：

E＝||y-q||²＝||y-DKg||² (9)

式中，y表示原始像素矩阵，q表示预测像素矩阵；对上式求其最小优化解，得到自适应插值滤波器g⁵如下所示：

g⁵＝[(DK)^T(DK)]^-1(DK)^Ty (10)

式中，y′表示原始像素矩阵，q′表示预测像素矩阵；由此可得到自适应插值滤波器g⁴如下所示：

g⁴＝(D^TD)^-1D^Ty′ (13)

通过与g⁴相同的方法获取到自适应插值滤波器g⁶，区别在于记录的是分像素运动向量为(3/4,0)或(0,3/4)的编码单元；自适应插值滤波器g⁶的表达式如下所示：

g⁶＝(D^TD)^-1D^Ty′ (14)。