CN113810715A

CN113810715A - 一种基于空洞卷积神经网络的视频压缩参考图像生成方法

Info

Publication number: CN113810715A
Application number: CN202110947298.7A
Authority: CN
Inventors: 高攀; 田皓月; 梁栋
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-17
Anticipated expiration: 2041-08-18
Also published as: CN113810715B

Abstract

本发明公开了一种基于空洞卷积神经网络的视频压缩参考图像生成方法，包括如下步骤：(1)选取视频序列的连续两帧，对其进行分块，得到当前块与相对应的参考块的数据对，将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据；(2)利用空洞卷积设计网络结构，将步骤(1)中的训练数据放入网络模型进行训练，模型训练好后，将其作为参考图像生成器；(3)在VVC编码器进行编码时，将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像，让编码器在帧间预测时使用步骤(2)生成的图像做预测。本发明能够对编码器参考图像的生成做改进，得到与当前编码帧更具相关性的参考图像，从而提高编码的效率。

Description

一种基于空洞卷积神经网络的视频压缩参考图像生成方法

技术领域

本发明涉及数字视频压缩技术领域，尤其是一种基于空洞卷积神经网络的视频压缩参考图像生成方法。

背景技术

在经典的基于分块的混合视频编码框架中，帧间预测是消除时域冗余的核心技术。帧间预测技术的基本思想是，根据组成视频的连续图像之间的时域相关性，通过将已经编码的图像作为当前编码图像的参考图像，使用运动矢量表示当前编码块在参考图像中运动的相对位置，并记录参考图像的索引。在预测编码中，仅对残差图像和运动向量进行编码，消除连续图像的时域相关性，进而提高视频编码的效率。

对于正在编码的视频序列，当任何一帧编完后，都需要将其重建图像保存在编码端一段时间，一直到不需要其作为参考图像再将它释放。这是因为在low-delay P的配置下，除了I帧，其余的所有P帧在编码时都需要前面已编码的帧作为参考图像来构造参考图像列表。编码器通过计算参考图像列表中所有参考图像进行预测编码时产生的失真，挑选失真最小的作为当前帧的参考图像。

由于物体的运动具有一定的连续性，因此同一目标在两幅图像之间的运动可能不以整数像素为单位进行。也就是说，匹配块可以位于参考图像的分数像素点位置。但是分数像素值实际上是不存在的，需要用整数像素值进行插值得到。通常使用邻行或邻列整数像素值，通过固定的滤波器线性计算得到分数像素值。

在H.264/AVC中，半像素样本位置的预测值是通过水平或垂直方向上使用一维6抽头滤波器获得的，四分之一像素样本位置的预测值是通过对整像素和半像素位置的样本进行平均而产生的。在高效视频编码(H.265/HEVC)和多功能视频编码(H.266/VVC)中，包含了用于半像素样本插值的对称8抽头滤波器，和用于四分之一像素样本插值的非对称7抽头滤波器。但是由于自然视频的非平稳性，这种固定插值滤波器可能没法很好的作用在不同种类的视频上。

发明内容

本发明所要解决的技术问题在于，提供一种基于空洞卷积神经网络的视频压缩参考图像生成方法，能够对编码器参考图像的生成做改进，得到与当前编码帧更具相关性的参考图像，从而提高编码的效率。

为解决上述技术问题，本发明提供一种基于空洞卷积神经网络的视频压缩参考图像生成方法，包括如下步骤：

(1)选取视频序列的连续两帧，对其进行分块，得到当前块与相对应的参考块的数据对，将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据；

(2)利用空洞卷积设计网络结构，将步骤(1)中的训练数据放入网络模型进行训练，模型训练好后，将其作为参考图像生成器；

(3)在VVC编码器进行编码时，将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像，让编码器在帧间预测时使用步骤(2)生成的图像做预测。

优选的，步骤(1)中，选取视频序列的连续两帧，对其进行分块，得到当前块与相对应的参考块的数据对，将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据具体为：在进行分块时，根据当前块找到前一帧的对应块位置，计算当前块的运动矢量MV；同一目标在连续两帧中的亮度变化很小，而且其运动的变化也很小，局部区域内的像素点运动信息是相同的，借助LK光流法通过反向计算得到当前块到前一帧对应块的分数运动矢量信息。

优选的，步骤(2)中，利用空洞卷积设计网络结构，将步骤(1)中的训练数据放入网络模型进行训练，模型训练好后，将其作为参考图像生成器具体为：输入图像首先经过两个卷积层，线性整流函数ReLU作为激活函数添加到每个卷积层的后面；在此之后，添加三个空洞Inception模块；最终，在网络的最后使用一个卷积层生成最终输出图像。

优选的，对于网络中的每一个“空洞Inception”模块，使用Inception模块作为其基本结构，加入空洞卷积，并设置卷积核的扩张率，以调整空洞的大小，从而达到在不失去特征图分辨率的情况下扩大感受野的范围；

将整个网络视为一个映射函数F，并通过最小化网络预测块F(X；θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ，使用均方误差MSE作为损失函数：

其中M为训练样本的个数，m和n分别表示训练数据块的宽度和高度。

优选的，步骤(3)中，在VVC编码器进行编码时，将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像，让编码器在帧间预测时使用步骤(2)生成的图像做预测具体为：在VTM编码器编码过程中，对当前编码单元CU进行模式决策，VTM将检查帧内预测和帧间预测的各种模式，并检查是否有必要继续进行CU划分；之后分别计算它们的失真，编码器选择失真最小的模式作为当前CU的预测模式；在帧间预测模式中，在对当前帧进行编码之前，先构造一个参考图像列表，该列表会存储已编码帧的重构图像，之后编码器对这些候选图像进行迭代搜索，最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。

本发明的有益效果为：本发明从生成更具相关性的参考图像出发，提出了一种基于空洞卷积神经网络的视频压缩参考图像生成方法，为了提高传统编码效率，提出使用深度学习的方法和卷积神经网络的结构来构造参考图像生成器；为了使参考图像能更准确的为当前图像插值计算，本发明将Inception模块和空洞卷积添加到网络模型中，以此来获取多尺度的特征图信息，从而使模型生成的参考图像与当前编码图像更相似；本发明还提出将网络生成的参考图像替换掉编码器参考图像列表中原本的参考图像，进而使帧间预测更加精确，使编码器在不损失视频质量的前提下节省码率。

附图说明

图1为本发明生成用于训练网络的训练数据示意图。

图2为本发明的网络总体框架示意图。

图3为本发明网络框架中的“空洞Inception”模块结构示意图。

图4为本发明的方法流程示意图。

图5(a)为原始VVC的编码器VTM不做任何改动下的编码结果示意图。

图5(b)为编码器根据SRCNN网络生成的参考图像的编码结果示意图。

图5(c)为编码器根据VRCNN网络生成的参考图像的编码结果示意图。

图5(d)为编码器根据本发明所提出的网络模型和方法所生成的参考图像的编码结果示意图。

具体实施方式

一种基于空洞卷积神经网络的视频压缩参考图像生成方法，包括如下步骤：

(1)网络模型训练数据的生成；

由于VVC是基于块进行编码的，所以在网络训练时也会将图像分成小块。首先，选择连续两帧作为参考图像和当前图像，由于在连续两帧中，同一目标的亮度变化很小，并且同一目标的移动也很小。我们假设一个块的像素有相同的运动轨迹，进而决定使用LK光流法来得到分数运动矢量。在基于块进行训练的方法中，需要以块的形式创建训练数据集。

如图1所示，对当前图像的当前块标记为网络的真实标签(Y)，之后分像素块在其参考图像的位置可以通过分数运动矢量得到，因为分数像素没有实际像素值，所以需要找到相应的整数像素块的位置。通过向左上方移动分像素块，直到找到最近的整数像素，则将这个整像素块标记为网络的输入(X)，所以将(X,Y)作为网络模型的一个训练样本，通过此方法将视频序列创建为训练数据集。

(2)网络结构的设计过程；

网络结构的总体方案如图2所示，输入图像首先经过两个卷积层，线性整流函数(ReLU)作为激活函数添加到每个卷积层的后面。在此之后，添加三个空洞Inception模块。最终，在网络的最后使用一个卷积层生成最终输出图像。

对于网络中的每一个“空洞Inception”模块，如图3所示，我们使用Inception模块作为其基本结构，希望模块能够从上一层获取多尺度特征图信息。为了能获得更多的上下文信息，还加入了空洞卷积。我们将其添加到模块中，并设置卷积核的扩张率，以调整空洞的大小，从而达到在不失去特征图分辨率的情况下扩大感受野的范围。

我们将整个网络视为一个映射函数F，并通过最小化网络预测块F(X；θ)和相对应的真实标签Y之间的损失L(θ)来学习网络参数θ。我们使用均方误差MSE作为损失函数：

(3)将网络模型生成的图像与编码器相结合；

如图4所示，在VTM编码器编码过程中，对当前编码单元(CU)进行模式决策。VTM将检查帧内预测和帧间预测的各种模式，并检查是否有必要继续进行CU划分。之后分别计算它们的失真，编码器选择失真最小的模式作为当前CU的预测模式。在帧间预测模式中，首先，在对当前帧进行编码之前，先构造一个参考图像列表，该列表会存储已编码帧的重构图像，之后编码器对这些候选图像进行迭代搜索，最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。

本发明提出的方法是使用当前编码图像的前一张图像作为网络模型的输入，目的是通过训练好的网络模型输出更接近当前编码图像的参考图像。然后，我们将VVC编码器中原始参考列表中的参考图像替换为模型预测的图像，如图4参考图像列表中POC为t-1的图像。

实施例：

下面结合一个具体的实施方案对本发明作进一步的详细说明。

本发明所提出的方法用HEVC测试序列中的BlowingBubbles视频作为训练数据，通过将此视频序列中所有的帧按本发明训练数据生成的方法，划分为大小为16×16的块，从而创建了一个数据集，其总数超过160,000个块。对于网络模型的参数设置，我们最初将网络学习率设置为10^-4，并以相同的间隔调整学习率。此外，网络使用的是Adadelta优化器，批大小(mini-batch)设置为32。经过近80个时期(epoch)的训练，训练损失逐渐收敛。编码器使用VVC参考软件VTM(10.0版本)，在实验中遵循VVC常见的测试条件，并使用VTM提供的默认编码配置。我们使用低延迟P配置在4个量化参数(QP)22,27,32和37下进行压缩性能测试。

在本发明提出的网络模型中，存在非常重要的空洞Inception模块，如图3所示，对每一个模块，我们使用Inception模块作为基本架构，对于其中每一个分支，我们首先添加1×1卷积层，其主要目的是在保持空间分辨率不变的情况下降维，减少卷积参数。然后在前三个分支中加入标准卷积和空洞卷积。在第一个分支中，模块使用标准的3×3卷积。对于第二个分支，模块同时使用了标准卷积和扩张率为3的空洞卷积。在第三个分支中，我们使用两个标准的3×3卷积和一个扩张率为5的空洞卷积。为了减少模型参数，两个堆叠的3×3卷积在捕获感受野方面等同于一个5×5卷积。在这个模块的设计中，三个分支的输出的感受野大小分别是3，9，15。之后，我们将这三个分支的输出连接起来，目的是将来自不同感受野的信息结合起来，并且增加图像特征的通道数。在最右侧的分支上，我们只使用了一个简单的1×1卷积层。因此，该分支获得的输出在很大程度上仍然携带着原始输入特征图的信息。最终，使用加权运算将左边的特征映射和右边的特征映射拼接起来：

其中

是三个分支连接后的特征图，

和F2*Xl分别是连接后的特征图和前一层Xl的特征图进行1×1卷积运算后的输出，k为比例因子，取值范围为[0,1]，它决定了有多少在这一层学习的特征被保留。

本发明将所提出的方法集成到VVC编码器中，并将我们的发明与编码器未经修改的原始算法的压缩性能进行比较。对于每个视频序列，我们通过使用网络的输出来替换参考列表中的原始参考图像，进而对其进行帧间预测编码。

为了验证本发明的有效性，我们分别就原始VVC编码器的方法与使用其他三个网络模型生成的参考图像的方法进行对比实验。在这三个网络模型中，除了本发明提出的网络模型之外，还用了两种比较流行的网络模型SRCNN(Super-Resolution ConvolutionalNeural Network)和VRCNN(Variable-Filter-Size Residue Learning ConvolutionalNeural Network)。所有模型都通过相同的方法进行训练，并用其生成的参考图像替换掉原本VVC缓冲区里面的参考图像。如图5(a)-(d)所示为BQMall视频序列的第六帧。我们使用原本的VVC编码器、SRCNN网络模型、VRCNN网络模型和本发明提出的方法在QP为32时进行编码的结果。之后，计算不同方法的BD-Rate，从而比较各个方案相对于原始VVC编码器节省的比特率。通过实验观察发现，本发明的空洞卷积神经网络模型拥有最高的编码效率。

Claims

1.一种基于空洞卷积神经网络的视频压缩参考图像生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法，其特征在于，步骤(1)中，选取视频序列的连续两帧，对其进行分块，得到当前块与相对应的参考块的数据对，将整个视频序列按此方法进行分块后得到的数据作为神经网络模型的训练数据具体为：在进行分块时，根据当前块找到前一帧的对应块位置，计算当前块的运动矢量MV；同一目标在连续两帧中的亮度变化很小，而且其运动的变化也很小，局部区域内的像素点运动信息是相同的，借助LK光流法通过反向计算得到当前块到前一帧对应块的分数运动矢量信息。

3.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法，其特征在于，步骤(2)中，利用空洞卷积设计网络结构，将步骤(1)中的训练数据放入网络模型进行训练，模型训练好后，将其作为参考图像生成器具体为：输入图像首先经过两个卷积层，线性整流函数ReLU作为激活函数添加到每个卷积层的后面；在此之后，添加三个空洞Inception模块；最终，在网络的最后使用一个卷积层生成最终输出图像。

4.如权利要求3所述的基于空洞卷积神经网络的视频压缩参考图像生成方法，其特征在于，对于网络中的每一个“空洞Inception”模块，使用Inception模块作为其基本结构，加入空洞卷积，并设置卷积核的扩张率，以调整空洞的大小；

5.如权利要求1所述的基于空洞卷积神经网络的视频压缩参考图像生成方法，其特征在于，步骤(3)中，在VVC编码器进行编码时，将步骤(2)生成的图像替换掉原本编码器参考列表中的参考图像，让编码器在帧间预测时使用步骤(2)生成的图像做预测具体为：在VTM编码器编码过程中，对当前编码单元CU进行模式决策，VTM将检查帧内预测和帧间预测的各种模式，并检查是否有必要继续进行CU划分；之后分别计算它们的失真，编码器选择失真最小的模式作为当前CU的预测模式；在帧间预测模式中，在对当前帧进行编码之前，先构造一个参考图像列表，该列表会存储已编码帧的重构图像，之后编码器对这些候选图像进行迭代搜索，最终选择图像中具有预测失真最小的块作为当前图像中编码块的参考图像。