CN111405283A

CN111405283A - 基于深度学习的端到端视频压缩方法、系统及存储介质

Info

Publication number: CN111405283A
Application number: CN202010104772.5A
Authority: CN
Inventors: 马思伟; 贾川民; 赵政辉; 王苫社
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-07-10
Anticipated expiration: 2040-02-20
Also published as: CN111405283B; WO2021164176A1

Abstract

本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质，本申请的基于深度学习的端到端视频压缩方法通过将目标视频分为多个图像组；然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码；关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；其次，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；最后，非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比，可以实现端到端全局优化视频编码器，在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

Description

基于深度学习的端到端视频压缩方法、系统及存储介质

技术领域

本申请属于数字信号处理技术领域，具体地，涉及一种基于深度学习的端到端视频压缩方法、系统及存储介质。

背景技术

视频压缩，也称视频编码，其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高，原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受，因而经编码压缩后的视频才是宜在网络中传输中的信息，视频编码技术已成为目前国内外学术研究和工业应用的热点之一。

近年来基于深度神经网络的图像编码方法成为编码领域的研究热点，它通过端到端建模自编码器(Auto-encoder)结构，优化图像重建损失函数，并利用熵估计模型近似估算自编码器结构中瓶颈层(Bottleneck Layer)的码字分布实现率失真优化。在此基础之上，熵估计模型被不断改进提升，基于混合高斯模型以及基于高斯超先验分布熵估计模型的概率估计模型被提出，并结合基于自回归模型(Auto-regressive)的PixelCNN框架建立瓶颈层码字的上下文模型。这一类端到端图像压缩的目标函数可以表示为：

其中，x和

分别代表原始像素与瓶颈层未量化像素，y和

分别代表瓶颈层未量化及量化后的码字，C为常数。

端到端神经网络对于视频压缩有着重要的意义。传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪，在面临更高效的视频压缩时遭遇了新的挑战。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对应保证视频压缩框架的整体率失真性能仍然具有很大的挑战，因此设计开发一种利用深度神经网络实现端到端视频编码的同时可以保证较好的率失真性能的视频压缩方法及系统显得是至关重要。

发明内容

本发明提出了一种基于深度学习的端到端视频压缩方法、系统及存储介质，旨在解决现有技术中视频压缩编码中无法保证较好率失真性能的问题。

根据本申请实施例的第一个方面，提供了一种基于深度学习的端到端视频压缩方法，包括以下步骤：

将目标视频分为多个图像组；

对图像组中的关键帧进行端到端帧内编码得到关键帧编码；

关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；

基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

可选地，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码，具体包括：

基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息；

根据运动场信息得到非关键帧的帧间预测信息；

根据非关键帧的帧间预测信息以及非关键帧进行预测残差编码。

可选地，对图像组中的关键帧进行端到端帧内编码得到关键帧编码，具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架，自编码器的瓶颈层进行上下文建模。

可选地，帧内编码框架在训练时的目标函数

公式为：

其中，x为输入图像，

为输出图像；

其中，y为根据图像编码的隐变量，y＝Enc(x)；隐变量y的先验分布为服从均值μ，方差为σ的正态分布,y～N(μ,σ)；

其中，均值μ和方差σ是根据超先验自编码器通过端到端学习得到，具体为：

z＝Hyper_Enc(y)；

其中，

为经过量化后的超先验自编码器的码字，

为超先验正太分布的初步参数，采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。

可选地，环路滤波网络基于全卷积网络，环路滤波网络采用损失函数L2，环路滤波网络

具体公式为：

其中，x_rec表示输入的已编码图像，x为已编码图像对应的真实标签，n表示帧数。

可选地，基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息，具体包括：

当关键帧重建帧只有一帧时，运动场信息需要通过自编码器编码得到，并写入码流中，运动场信息flow₁的计算公式为：

flow₁＝Flownet(f_t-1)；

当关键帧重建帧数目大于一帧时，取相对当前非关键帧最临近的两帧重建帧得到运动场信息，此时运动场信息无需写入码流中，运动场信息flow₂的计算公式为：

flow₂＝Flownet(f_t-2,f_t-1)；

其中，f₁为可使用的关键帧重建帧，Flownet为光流预测网络。

可选地，根据运动场信息得到非关键帧的帧间预测信息，具体包括：根据运动场信息的视频运动特征及解码缓存区的重建帧通过插值及图像处理技术生成非关键帧的帧间预测信号，帧间预测信号Frame_pred计算公式为：

Frame_pred＝Warp(f_t-1,flow)；

其中，Warp为多项式插值方法，f₁为可使用的关键帧重建帧，flow为非关键帧的运动场信息。

可选地，根据非关键帧的帧间预测信息以及非关键帧计算预测残差以及预测残差编码，具体包括：预测残差Frame_Resi计算公式为：

Frame_Resi＝Frame-Frame_pred；

其中，Frame为当前非关键帧的原始信号，Frame_pred为帧间预测信号；

预测残差Frame_Resi通过由全卷积网络构成的自编码器结构进行压缩编码，其瓶颈层被熵编码后写入码流中。

根据本申请实施例的第二个方面，提供了一种基于深度学习的端到端视频压缩系统，具体包括：

图像组模块：用于将目标视频分为多个图像组；

关键帧编码模块：用于对图像组中的关键帧进行端到端帧内编码得到关键帧编码；

关键帧重建帧模块：用于将关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；

非关键帧编码模块：用于基于解码缓冲区中的关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

非关键帧重建帧模块：用于将非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

根据本申请实施例的第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；计算机程序被处理器执行以实现基于深度学习的端到端视频压缩方法。

采用本申请实施例中的基于深度学习的端到端视频压缩方法、系统及存储介质，通过将目标视频分为多个图像组；然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码；关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；其次，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；最后，非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比，可以实现端到端全局优化视频编码器，在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1中示出了根据本申请实施例的一种基于深度学习的端到端视频压缩方法的步骤流程图；

图2中示出了根据本申请实施例的基于端到端深度神经网络的视频压缩方法的框架图；

图3中示出了根据本申请实施例的图像组GOP的结构划分方法；

图4中示出了根据本申请实施例的端到端视频压缩方法的关键帧的帧内编码网络结构图；

图5中示出了根据本申请实施例的端到端视频压缩方法的非关键帧的帧间编码框架图；

图6中示出了根据本申请实施例的帧内编码网络采用的Mask卷积的一种实施方法；

图7示出了根据本申请实施例的一种基于深度学习的端到端视频压缩系统的结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪，在面临更高效的视频压缩时遭遇了新的挑战。而端到端视频编码框架能够突破传统框架局部优化的限制，通过建立起重建视频与原始视频的全局优化模型，并利用神经网络建模具有高维复杂解空间的率失真优化问题，从而实现视频编码框架的革新。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对应保证视频压缩框架的整体率失真性能仍然具有很大的挑战，因此亟需一种利用深度神经网络实现端到端视频编码的同时可以保证较好的率失真性能的视频压缩方法及系统。

针对上述问题，本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质，本申请提供的可以端到端训练的基于全卷积网络的视频压缩框架与传统采用的视频压缩编码器相比，可以实现端到端全局优化视频编码器，在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

本申请利用卷积神经网络和视频处理技术，首先将视频分为图像组(Groupofpictures，GOP)进行编码，对图像组GOP中经自适应选定的关键帧进行端到端帧内编码，并存储于解码缓存区；其次对于非关键帧编码，利用在解码缓存区中的已重构帧对每一个待编码帧进行基于深度网络的运动场估计，并用估计得到的运动信息生成帧间预测结果；最后对非关键帧的预测残差进行端到端残差编码；在视频重构存入解码缓存区时，关键帧和非关键帧均需要经过深度环路滤波模块进行重建。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

图1中示出了根据本申请实施例的一种基于深度学习的端到端视频压缩方法的步骤流程图。

如图1所示，本实施例的基于深度学习的端到端视频压缩方法，具体包括以下步骤：

S101：将目标视频分为多个图像组；

S102：对图像组中的关键帧进行端到端帧内编码得到关键帧编码；

S103：关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；

S104：基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

S105：非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

图2中示出了根据本申请实施例的基于端到端深度神经网络的视频压缩方法的框架图。

如图2所示，在本申请的压缩框架中，视频可以通过图像组GOP的方式被端到端的深度神经网络视频编码框架所压缩。首先对于GOP中的关键帧，采用基于高斯超先验分布的自编码架构进行压缩，并将压缩后的关键帧在进行基于深度卷积网络的环路滤波模块(CNNLoop Filter)后缓存至解码缓冲区(DecodedPictureBuffer，DPB)中。

图3中示出了根据本申请实施例的图像组GOP的结构划分方法。

如图3所示，本发明中关键帧被设置为图像组GOP的第一帧。

其它的，关键帧可以是GOP中的第一帧，也可以是非第一帧；再使用带有超先验结构的自编码器网络的方法对该关键帧进行编码，自编码器种类为高斯分布、混合高斯分布及拉普拉斯分布等。

图4中示出了根据本申请实施例的端到端视频压缩方法的关键帧的帧内编码网络结构图。

如图4所示，对图像组中的关键帧进行端到端帧内编码得到关键帧编码，具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架，同时对自编码器的瓶颈层设计了上下文建模框架。

本申请对采用端到端的训练方式，目标是得到与输入图像x在信号层面高度相似的输出图像

对于输入图像x,该自编码器将图像编码成一个隐变量y，

y＝Enc(x)

本方案假设该隐变量y的先验分布为服从均值μ，方差为σ的正态分布,

y～N(μ,σ),

其中，均值μ和方差σ是根据超先验自编码器，通过端到端学习得到，具体为：

z＝Hyper_Enc(y),

Z为自编码器的码字，

为经过量化后的超先验自编码器的码字，

为超先验正太分布的初步参数。

不仅如此，在通过超先验自编码结构的输出后，本发明同时采用基于PixelCNN上下文建模方法对超先验自编码结构的结果进行提升处理，如图6所示，使用Mask的5x5卷积，输出为最终的超先验分布的参数。

因此帧内编码框架在训练时的目标函数

公式如下：

其中，x为输入图像，

为输出图像。

S103以及S105中，关于环路滤波，对于已编码的每一帧关键帧和非关键帧图像，都进行基于全卷积网络的环路滤波模块处理，从而提升主观与客观重建效果。

具体的，对已编码的重建图像为x_rec，建立于其原始图像x之间的端到端全卷积映射，通过使用具有全局残差结构的九层卷积神经网络处理该重建图像，并得到最终的重建图像，同时存放于解码缓存区中。

进一步的，环路滤波网络采用损失函数L2，环路滤波网络

具体公式为：

其中，x_rec表示输入的已编码图像，x为已编码图像对应的真实标签，n表示帧数。使用L2函数能够有效的保证数据的保真度。

S102中，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码，具体包括：

根据运动场信息得到非关键帧的帧间预测信息；

关于非关键帧编码，本申请利用解码缓冲区DPB中已编码的帧生成当前非关键帧的运动场信息，并利用该信息将解码缓冲区DPB中的帧进行纹理对齐，从而得到当前编码帧的预测信息，再通过自编码器结构编码预测残差，将该自编码器的瓶颈层写入码流中，与关键帧编码类似，每一个非关键帧同样需要使用环路滤波模块处理提升重建质量。

具体的，运动场信息的视频运动特征具体包括视频运动场信息、纹理运动特征。视频运动特征表现形式包括但不限定于：光流场、运动矢量场、视差矢量场以及帧间梯度场等。

其中，视频运动特征提取方法具体为提取视频帧间运动特征方法，运动特征提取方法与对应表现形式的提取方法对应，包括但不限定于基于深度学习的方法如：光流模型、基于传统梯度提取方法等。

图5中示出了根据本申请实施例的端到端视频压缩方法的非关键帧的帧间编码框架图。

具体的，本申请对非关键帧的编码主要分为两个步骤，一是预测帧生成，二是预测残差编码。

一、对于预测帧生成：

首先，基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息，具体包括：

flow₁＝Flownet(f_t-1)；

flow₂＝Flownet(f_t-2,f_t-1)；

非关键帧预测网络的结构如图5所示，通过从解码缓存区中获取已编码的帧，并用最近邻的两已编码帧对当前编码的非关键帧进行预测，预测方法为使用光流网络(Flownet)得到解码缓存区中已编码帧。

进一步的，即当解码缓存区仅有一帧时，视频运动特征信息应当被写入码流中；当解码缓存区有多于一帧时，视频运动特征信息不被写入码流中。

其次，根据运动场信息得到非关键帧的帧间预测信息即预测帧生成，具体包括：根据运动场信息的视频运动特征及解码缓存区的重建帧通过插值及图像处理技术生成非关键帧的帧间预测信号，帧间预测信号Frame_pred计算公式为：

Frame_pred＝Warp(f_t-1,flow)；

二、对于预测残差编码，本申请中的图像组中所有非关键帧经过预测编码后，还需经过非关键帧残差编码模块，非关键帧残差编码模块的输入为原始非关键帧信号与预测信号的残差。

具体的，根据非关键帧的帧间预测信息以及非关键帧计算预测残差以及预测残差编码，具体包括：预测残差Frame_Resi计算公式为：

Frame_Resi＝Frame-Frame_pred；

进一步的，S105中，非关键帧在重建时同样需要经过环路滤波网络进行重建后得到非关键帧重建帧，非关键帧重建帧Frame_Rec公式为：

进而得到最终的重建非关键帧，并且存入解码缓冲区中。

本申请非关键帧预测残差编码方法具体为使用根据具体情况设计、预先训练好的自编码器网络模型，将非关键帧的原始信号于其预测信号的残差作为生成网络的输入，得到重建残差，即完成压缩图像重建。

本申请端到端视频压缩框架中的环路滤波方法，关键帧和非关键帧在编码得到最终重建时，使用根据具体情况设计、训练好的基于卷积神经网络的环路滤波重建，其输入未滤波的关键帧或非关键帧，并存入解码缓存区中。

其中，端到端视频压缩框架中的码流结构z组织方法中，整体码流由多个图像组GOP的码流组成，每个图像的码流由关键帧和非关键帧码流组成，关键帧码流包括自编码器瓶颈层码流，非关键帧码流为运动场信息及其预测残差码流组成。

本申请的基于深度学习的端到端视频压缩方法具体包括深度学习方法，视频运动特征提取方法，端到端视频压缩方法，视频重建方法。通过端到端视频编码框架能够突破传统框架局部优化的限制，建立起重建视频与原始视频的全局优化模型，并利用神经网络建模具有高维复杂解空间的率失真优化问题，从而实现视频编码框架的革新。

其中，端到端视频压缩用到的深度学习方法具体为基于全卷积网络模型的深度学习方法；基于深度学习的方法包括但不限定于：变分自编码器、生成对抗网络及其变体与结合。

本申请基于深度学习的视频编码技术旨在利用多层深度非线性变换提取数据高层抽象特及其逆过程，从而得到视频编码的最优预测信号，并通过端到端残差编码的方式保证整体框架的率失真性能。最后，通过监督式的训练方法优化率失真函数，该率失真函数包括重建视频的数据保真项，以及编码残差所需要的额外代价。

实施例2

如图7所示，本实施例提供的一种基于深度学习的端到端视频压缩系统，具体包括：

图像组模块10：用于将目标视频分为多个图像组；

关键帧编码模块20：用于对图像组中的关键帧进行端到端帧内编码得到关键帧编码；

关键帧重建帧模块30：用于将关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧，并存储于解码缓冲区；

非关键帧编码模块40：用于基于解码缓冲区中的关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

非关键帧重建帧模块50：用于将非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧，并存储于解码缓冲区。

关键帧编码模块20中，基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码，具体包括：

根据运动场信息得到非关键帧的帧间预测信息；

端到端视频压缩框架中的关键帧重建帧模块30与非关键帧重建帧模块50中均包括环路滤波器，关键帧和非关键帧在编码得到最终重建时，使用根据具体情况设计、训练好的基于卷积神经网络的环路滤波器重建，输入未滤波的关键帧或非关键帧至环路滤波器后存入解码缓存区中。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如上任一内容所提供的基于深度学习的端到端视频压缩方法。

本申请提出了一种基于端到端深度神经网络的视频压缩框架。首先将视频组织为多个图像组，对图像组中的关键帧图像进行帧内编码，非关键帧图像进行帧间编码。帧内编码采用基于超先验结构的自编码结构并结合自回归模型进行上下文建模，帧间编码采用运动场导出预测和残差编码。能够实现端到端整体优化编码器架构，同时对帧间编码采用运动场导出的形式避免了大量传递帧间运动信息，极大的节省了码率，同时在重建过程中使用基于深度网络的环路滤波技术提升重建性能。与传统编码器相比，提出方法能在端到端全局优化视频编码器，同时无需传输帧间预测中的运动信息，在低码率下能够取得较好的编码性能。

基于同一发明构思，本申请实施例中还提供了一种计算机程序产品，由于该计算机程序产品解决问题的原理与本申请实施例一所提供的方法相似，因此该计算机程序产品的实施可以参见方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的端到端视频压缩方法，其特征在于，包括以下步骤：

将目标视频分为多个图像组；

对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码；

所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；

基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

2.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码，具体包括：

基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息；

根据所述运动场信息得到非关键帧的帧间预测信息；

根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。

3.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码，具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架，所述自编码器的瓶颈层进行上下文建模。

4.根据权利要求3所述的基于深度学习的端到端视频压缩方法，其特征在于，所述帧内编码框架在训练时的目标函数

公式为：

其中，x为输入图像，

为输出图像；

其中，y为根据图像编码的隐变量，y＝Enc(x)；隐变量y的先验分布为服从均值μ，方差为σ的正态分布，y～N(μ，σ)；

z＝Hyper_Enc(y)；

其中，

为经过量化后的超先验自编码器的码字，

5.根据权利要求1所述的基于深度学习的端到端视频压缩方法，其特征在于，所述环路滤波网络基于全卷积网络，所述环路滤波网络采用损失函数L2，所述环路滤波网络

具体公式为：

6.根据权利要求2所述的基于深度学习的端到端视频压缩方法，其特征在于，所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息，具体包括：

当所述关键帧重建帧只有一帧时，所述运动场信息需要通过自编码器编码得到，并写入码流中，所述运动场信息flow₁的计算公式为：

flow₁＝Flownet(f_t-1)；

当所述关键帧重建帧数目大于一帧时，取相对当前非关键帧最临近的两帧重建帧得到运动场信息，此时所述运动场信息无需写入码流中，所述运动场信息flow₂的计算公式为：

flow₂＝Flownet(f_t-2，f_t-1)；

7.根据权利要求2所述的基于深度学习的端到端视频压缩方法，其特征在于，所述根据所述运动场信息得到非关键帧的帧间预测信息，具体包括：根据所述运动场信息的视频运动特征及所述解码缓存区的重建帧通过插值及图像处理技术生成所述非关键帧的帧间预测信号，所述帧间预测信号Frame_pred计算公式为：

Frame_pred＝Warp(f_t-1，flow)；

8.根据权利要求2所述的基于深度学习的端到端视频压缩方法，其特征在于，所述根据所述非关键帧的帧间预测信息以及所述非关键帧计算预测残差以及预测残差编码，具体包括：所述预测残差Frame_Resi计算公式为：

Frame_Resi＝Frame-Frame_pred；

9.一种基于深度学习的端到端视频压缩系统，其特征在于，具体包括：

图像组模块：用于将目标视频分为多个图像组；

关键帧编码模块：用于对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码；

关键帧重建帧模块：用于将所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧；

非关键帧编码模块：用于基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码；

非关键帧重建帧模块：用于将所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的基于深度学习的端到端视频压缩方法。