CN113298894A

CN113298894A - 一种基于深度学习特征空间的视频压缩方法

Info

Publication number: CN113298894A
Application number: CN202110547310.5A
Authority: CN
Inventors: 胡智昊
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-24
Anticipated expiration: 2041-05-19
Also published as: CN113298894B

Abstract

本发明公开了一种基于深度学习特征空间的视频压缩方法，包括：将待压缩的视频拆解为连续的图像帧，利用特征提取器提取当前图像帧的当前特征；基于当前特征与上一重建帧之间的运动信息，采用可变形卷积对上一重建帧在特征层面进行运动补偿，得到当前图像帧的预测特征；利用压缩网络对预测特征的误差在特征层面进行计算和压缩，得到初始重建特征；将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合，得到最终重建特征；对最终重建特征进行帧重建，得到当前图像帧的重建帧；将压缩网络中产生的量化特征进行熵编码，得到二进制比特流。本发明将运动估计，运动补偿，残差压缩操作从像素层面转到特征层面，更具鲁棒性。

Description

一种基于深度学习特征空间的视频压缩方法

技术领域

本发明涉及视频压缩技术领域，更具体的说是涉及一种基于深度学习特征空间的视频压缩方法。

背景技术

由于视频网站流量逐年增大，支持更高的分辨率以及更高的帧速率，视频内容占互联网总流量的比率逐年增加，2017年，视频内容已占互联网总流量的75％，预计到2022年将达到82％。

目前使用的视频压缩算法大多是基于传统的视频压缩算法H.264与H.265。因此，在视频压缩领域中，急需新的基于深度学习的视频压缩系统来有效减小视频序列中的冗余信息。目前采用的基于深度学习的视频压缩方法为，使用由光流网络、运动向量编码网络及运动向量解码网络进行运动估计和运动补偿计算，达到更好的运动估计和运动补偿效果；再使用的残差网络，残差网络包括两个Resblock模块，实现在层次更深的情况进行网络的训练；再使用算术熵编码操作完成编码，并存储为Pickle文件，实现视频的压缩和存储。但是该方法的所有操作包括运动估计，运动补偿，残差压缩均是在像素层面进行的，这就限制了深度学习网络的能力，具有很大的局限性。

因此，如何提供一种在特征层面进行运动估计，运动补偿以及残差压缩，以提高鲁棒性的基于深度学习特征空间的视频压缩方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习特征空间的视频压缩方法，将基于深度学习的视频压缩的所有的操作都从原始像素层面转移到特征层面，以更加鲁棒的方式进行运动估计，运动补偿，残差压缩，并提供多帧融合的策略，以达到更加良好的视频还原效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度学习特征空间的视频压缩方法，包括以下步骤：

将待压缩的视频拆解为连续的图像帧，利用特征提取器提取当前图像帧的当前特征；

基于当前特征与上一重建帧之间的运动信息，采用可变形卷积对上一重建帧在特征层面进行运动补偿，得到当前图像帧的预测特征；

利用压缩网络对预测特征的误差在特征层面进行计算和压缩，得到初始重建特征；

将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合，得到最终重建特征；

对最终重建特征进行帧重建，得到当前图像帧的重建帧；

将压缩网络中产生的量化特征进行熵编码，得到二进制比特流。

优选的，在上述一种基于深度学习特征空间的视频压缩方法中，所述基于当前特征与上一重建帧之间的运动信息，采用可变形卷积对上一重建帧在特征层面进行运动补偿，得到当前图像帧的预测特征，包括：

利用特征提取器提取上一重建帧

的参考特征

对当前特征F_t和参考特征

进行运动估计，得到两帧之间的偏移量O_t；

利用压缩网络对偏移量O_t进行运动压缩，得到运动压缩过程中产生的量化特征和解压之后的重建偏移量

基于重建偏移量

采用可变形卷积对参考特征

进行运动补偿，得到当前图像帧的预测特征

优选的，在上述一种基于深度学习特征空间的视频压缩方法中，所述利用压缩网络对预测特征的误差在特征层面进行计算和压缩，得到初始重建特征，包括：

计算当前特征F_t与参考特征

之间的差值R_t，利用压缩网络对差值R_t进行残差压缩，得到残差压缩过程中产生的量化特征和解压之后的重建残差特征

将重建残差特征

与预测特征

相加，得到初始重建特征

优选的，在上述一种基于深度学习特征空间的视频压缩方法中，所述将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合，得到最终重建特征，包括：

从重建帧的参考特征缓存中取出前三帧的参考特征

和

采用可变形卷积对前三帧的参考特征进行运动补偿，使其与初始重建特征

对齐，得到前三帧预测特征

和

采用非本地注意力算法对初始重建特征

和前三帧预测特征

和

进行优化，并将优化后的初始重建特征和前三帧预测特征在通道这一维度连接起来，得到最终重建特征

优选的，在上述一种基于深度学习特征空间的视频压缩方法中，所述非本地注意力算法包括：

根据初始重建特征与前三帧的参考特征在每个局部位置的相似度，得到每个点的注意力图；

基于注意力图，对初始重建特征和前三帧的参考特征在每个局部位置进行加权平均，作为当前位置的特征值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度学习特征空间的视频压缩方法，具有以下有益效果：

1、本发明对视频压缩过程中，将运动估计，运动补偿以及残差压缩等所有的操作都放到了特征层面进行，具有更好的鲁棒性。

2、本发明使用了可变形卷积对参考特征进行变形，最终得到了预测的视频帧，这样的操作相对于之前的逐像素进行的基于光流的运动补偿具有更好的鲁棒性与灵活性。

3、本发明使用了多帧融合的操作将当前图像帧和之前的多帧信息进行融合，结合可变形运动补偿和非本地注意力算法对重建特征进行优化，进而达到更好的重建效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于深度学习特征空间的视频压缩方法的流程图；

图2附图为本发明提供的特征提取与帧重建的网络结构示意图；

图3附图为本发明提供的可变形卷积网络的结构示意图；

图4附图为本发明提供的可变形运动补偿的流程图；

图5附图为本发明提供的多帧特征融合的流程图；

图6附图为本发明提供的非本地注意力算法的流程图；

图7附图为本发明提供的运动压缩和残差压缩的网络结构图；

图8(a)和图8(b)附图为本发明提供的消融实验的性能对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于深度学习特征空间的视频压缩方法，包括以下步骤：

S1、将待压缩的视频拆解为连续的图像帧，利用特征提取器提取当前图像帧的当前特征。

该步骤将需要压缩的视频拆解为一帧帧的图像，将当前图像帧X_t与上一重建帧

输入特征提取器得到当前特征F_t与参考特征

该步骤将图像帧从像素层面转移到了特征层面，具有更加丰富的表现能力。

S2、基于当前特征与上一重建帧之间的运动信息，采用可变形卷积对上一重建帧在特征层面进行运动补偿，得到当前图像帧的预测特征。

具体为：

对当前特征F_t和参考特征

进行运动估计，得到两帧之间的偏移量O_t；

基于重建偏移量

采用可变形卷积(deformable convolution)对参考特征

进行运动补偿，得到当前图像帧的预测特征

其中，可变形卷积的网络示意图如图3所示，可变形卷积与普通卷积层所不同的一点在于，可变形卷积会额外输入一个偏移量来决定卷积中卷积核的采样点，通过此可变形卷积，能够将参考特征进行运动补偿，使其对齐到想要的目标特征。

该步骤可称为可变形运动补偿，其具体流程图如图4所示，参考帧

与目标帧F_t会输入运动估计模块进行运动估计，得到这两帧之间的运动信息，表示为偏移量O_t，然后经过一个压缩模块对运动信息进行运动压缩，其中量化(Q)之后的特征将进行熵编码以存储，解压出来的重构偏移量

会输入运动补偿模块。输入运动补偿模块之后，首先经过图3所示的可变形卷积网络对参考帧进行运动补偿，使其对齐到目标帧，然后与参考帧在通道维度上连接，经过两个卷积层，并加回运动补偿后的特征，以进一步提升质量，最终得到当前图像帧的预测特征

S3、利用压缩网络对预测特征的误差在特征层面进行计算和压缩，得到初始重建特征。具体包括：

如图7所示，为了添加上一重建帧(即参考帧)中没有的视频信息，计算当前特征F_t与参考特征

将重建残差特征

与预测特征

相加，得到当前视频帧的重建帧的初始重建特征

本实施例中运动压缩和残差压缩均采用如图7所示的压缩网络。

S4、将初始重建特征与之前缓存的多帧参考特征进行多帧特征融合，得到最终重建特征。具体为：

为了进一步提升重建帧的质量，从参考特征缓存中取出缓存的前三帧的特征

和

进行多帧特征融合。

如图5所示，首先，将前三帧的特征作为“参考特征”进行运动补偿，使其与初始重建特征

对齐，得到前三帧预测特征

和

然后，使用图6所示的非本地注意力算法进一步提升质量，在非本地注意力算法中，计算重建特征与“参考特征”在每个局部位置的一个相似度，然后根据这个相似度对“参考特征”在每个局部位置进行加权平均作为初始重建特征和“参考特征”在当前位置的特征值

和

如图6所示，在非本地注意力算法中，会计算初始重建特征与参考特征在每个局部位置的一个相似度，得到每个点的一个注意力图，然后根据这个注意力图对初始重建特征和参考特征在每个局部位置进行加权平均作为当前位置的特征值。

最后，将初始重建特征和“参考特征”在当前位置的特征值在通道这一维度连接到一起，并通过一个卷积层，再加回到重建特征作为最终重建特征。非本地注意力机制能够根据每个局部位置与目标特征的对应位置相似性进行局部的特征融合，因此能够提升每个局部位置特征表示的准确性，进而提升参考特征的质量。

S5、对最终重建特征进行帧重建，得到当前图像帧的重建帧。

本实施例中，帧重建和特征提取过程均采用如图2所示的网络结构，其中，Conv里面的三个参数依次代表输出通道数，卷积核大小与卷积步长。

S6、将压缩网络中产生的量化特征进行熵编码，得到待存储的二进制比特流。通过这些比特流就能够重建出视频帧。

以当前图像帧的重建帧为参考帧，继续对下一图像帧进行上述过程的熵编码。

下面，对本发明实施例进行实验验证。

1、表1为采用本发明视频压缩方法(FVC)在多个数据集上(包括HEVC Class B，C，D，UVG，VTL，MCL-JCV)与ffmpeg中H.265对比的BDBR结果(负值表示在相同的重建质量下，能够节省百分之多少的比特数)，可知，本发明方法对比其他的基于深度学习的视频压缩方法能够达到目前最佳的性能。

表1 BDBR对比结果

	DVC	EA	LU	HU	FVC
						HEVCClassB	2.97	-	-15.92	-14.91	-23.75
HEVCClassC	20.65	-	-3.78	1.76	-14.18
						HEVCClassD	14.08	-	-8.29	-1.77	-18.39
UVG	8.45	-9.75	-7.34	-13.27	-28.71
						VTL	-10.92	-	-16.85	-20.17	-28.10
MCL-JCV	13.94	-1.52	4.75	-13.71	-22.48

2、消融实验

由于视频压缩需要考虑在不同比特率下重建的性能，因此是需要用bpp(每个像素平均所消耗的比特数，越小越好)与PSNR(表示重建质量，越大越好)来绘制出一个性能图进行比较。

图8(a)中，FVC表示本发明提出的视频压缩方法，“FVC w/o NLA”表示本发明方法去除掉非本地注意力机制后的性能，“FVC w/o MFF”表示本发明方法完全去除多帧融合模块后的性能，结果证明了本发明多帧特征融合的有效性。

图8(b)中，“FVC-basic”表示本发明方法去除多帧特征融合步骤后的性能，该方法的运动补偿与残差均在特征层面上进行计算，以此作为参考(实际上与“FVC w/o MFF”是一样的)。“FVC-basic(FS-motion&PS-residual)”表示本发明方法将运动补偿在特征层面进行，而残差在像素层面进行的结果，“FVC-basic(FS-motion&PS-residual)”则表示了运动补偿与残差均在像素层面进行计算。结果表示运动补偿与残差在特征层面进行计算会取得更好的性能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。