CN114501013A

CN114501013A - 一种可变码率视频压缩方法、系统、装置及存储介质

Info

Publication number: CN114501013A
Application number: CN202210042520.3A
Authority: CN
Inventors: 戴文睿; 李涵; 李劭辉; 李成林; 邹君妮; 陈思衡; 郑伟诗; 熊红凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-13

Abstract

本发明提供可变码率视频压缩方法、系统、装置及存储介质，包括：将参考帧图像通过卷积神经网络，得到参考帧的第一特征图，通过尺度缩放及可导量化得到参考帧的第二特征图，并进行逆缩放，得到重构的参考帧。将预测帧图像通过卷积神经网络，得到预测帧的第一特征图，通过尺度缩放及量化得到预测帧的第二特征图。将预测帧的第二特征图与参考帧的第二特征图相减，得到特征图残差；利用参考帧的第二特征图作为先验信息，对特征图残差进行无损熵编码，并传输至解码端；将特征图残差与参考帧的第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧。本发明利用尺度因子将特征图进行尺度缩放，从而得到不同码率质量对应的特征图。

Description

一种可变码率视频压缩方法、系统、装置及存储介质

技术领域

本发明属于图像处理领域，其涉及运用时域和空域上下文信息的端到端优化的可变码率视频压缩方案，具体是一种可变码率视频压缩方法、系统、装置及存储介质。

背景技术

端到端优化是一种普遍应用于图像压缩和视频压缩的技术，它利用卷积神经网络将压缩建模为一个率失真双向优化问题，能够联合优化各个模块。可变码率方案能够通过单一模型，针对输入的图像或视频序列输出不同质量不同码率的输出图像或视频序列。经过对现有技术的文献检索发现，Lu等人在2019年的《IEEE Conference on ComputerVision and Pattern Recognition》(CVPR)会议上发表的“DVC:An End-to-End DeepVideo Compression Framework”提出了第一个端到端的视频编码框架，其将传统框架中的变换、运动估计、运动补偿以及熵编码等模块都利用深度卷积神经网络实现。Abdelaziz等人在2019年《IEEE International Conference on ComputerVision》(ICCV)上发表的“Neural Inter-Frame Compression For Video Coding”，利用双向预测进行了运动估计和运动补偿。Yang等人在2020年《IEEE Conference on Computer Vision and PatternRecognition》(CVPR)上发表的“Learning For Video Compression with HierarchicalQuality and Recurrent Enhancement”，利用一个权重循环加强网络，集合单向预测和双向预测，提出了层次化的端到端优化的视频压缩模型。然而，由于符号只能按顺序恢复，上下文模型带来了计算复杂度的开销。当使用三维上下文模型时，所需要的编解码时间会大量增加。

然而，上述方法通常都使用光流网络及残差网络来进行运动估计及残差补偿。在编码端光流网络的输入为重构的视频帧，因此重构质量直接影响预测效率，较低的重构质量会导致相应的残差信息编码开销上升。当残差编码开销受限时，重构帧的质量则会明显下降，最终造成严重的帧间误差传播问题。此外复杂的网络结构及预测补偿框架使可变码率编码的模型设计更为复杂，因此这类方法均针对不同码率点独立训练多个模型。

发明内容

本发明针对目前应用于端到端优化的视频压缩方案中的不足，因此提出了一种无需运动估计的可变码率视频压缩方法。

根据本发明的第一方面，提供了一种可变码率视频压缩方法，包括：

S1、可变码率帧内编解码：在编码端，将参考帧图像通过卷积神经网络，得到参考帧的第一特征图，并通过特征图尺度缩放及可导量化得到参考帧的量化第二特征图。经过无损熵编码并传输后。在解码端，将参考帧的量化第二特征图进行逆缩放后，通过卷积神经网络得到重构的参考帧。

S2、可变码率帧间编码：在编码端，将预测帧图像通过卷积神经网络，得到预测帧的第一特征图，并通过特征图尺度缩放及量化得到预测帧的量化第二特征图。将预测帧的第二特征图与所述得到的参考帧的第二特征图相减，得到特征图残差。

S3、帧间残差熵编码：利用所述得到的参考帧的第二特征图作为先验信息，对特征图残差进行无损熵编码，并传输至解码端。

S4、可变码率帧间解码：在解码端，将所述特征图残差与所述得到的参考帧的第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧。

优选地，所述可变码率帧内编解码包括：

S11、图像特征提取：将图像通过卷积神经网络，提取得到第一特征图。

S12、特征图尺度缩放：将所述第一特征图与尺度因子相乘得到所述第二特征图。所述缩放因子为一大于0的标量，范围事先指定。

S13、特征可导量化：对于所述第二特征图，通过添加均匀噪声的方式模拟量化，生成参考帧的第二特征图；

S14、帧内熵编码：对于参考帧的量化第二特征图，利用无损熵编码进行编码传输。

S15、特征图尺度逆缩放：在解码端，将所述参考帧的第二特征图与尺度逆因子相乘得到所述重构第一特征图。所述尺度逆因子与尺度因子一一对应。

S16、图像重构：将所述重构的第一特征图通过卷积神经网络，得到重构图像；通过改变尺度因子和尺度逆因子，可变码率帧内编解码方法能够获得不同码率、质量的重构图像。

优选地，所述可变码率帧间编码包括：

S21、图像特征提取：将图像通过卷积神经网络，提取得到第一特征图。

S22、特征图尺度缩放:将所述第一特征图与尺度因子相乘得到所述第二特征图。所述缩放因子为一大于0的标量，范围事先指定。

S23、特征可导量化：对于所述第二特征图，通过添加均匀噪声的方式模拟量化，生成预测帧的第二特征图；

S24、特征残差获取：将参考帧的第二特征图与预测帧的第二特征图相减，得到待编码的特征图残差。

优选地，所述帧间残差的熵编码包括：

S31、超先验信息提取：将所述参考帧的第二特征图和所述预测帧的第二特征图进行拼接后，通过卷积神经网络，得到超先验信息；

S32、超先验信息重构：将所述量化的超先验信息通过卷积神经网络，得到重构的超先验信息；

S33、超先验可导量化：对于所述超先验信息，通过添加均匀噪声的方式模拟量化，生成量化的超先验信息；

S34、上下文建模：根据所述已编码的参考帧的第二特征图，以及特征图残差已编码好的部分特征图进行建模，得到用于编码特征残差的上下文信息；

S35、构造熵估计：根据构造分布，估计量化的超先验信息编码所需码率L_BPP-H；所述方法的熵编码包括对两部分信息的编码，即超先验信息和特征图残差。

S36、条件熵估计：根据所述高斯分布均值与方差，是指采用高斯分布对特征图残差进行编码，估计特征图残差编码所需码率L_BPP-F；

优选地，所述的上下文建模，根据时域上已编码的参考帧特征图，以及特征参残差已编码好的部分特征图进行建模，得到用于编码特征残差的上下文，包括：

时域上下文信息提取：利用参考帧的第二特征图，通过卷积神经网络，得到时域维度的上下文信息；

空域上下文信息提取：提取参考帧与预测帧的特征残差，通过卷积神经网络，得到空域维度的上下文信息；

熵编码分布估计：融合所述上下文信息和所述超先验信息，估计用于编码的高斯分布的均值和方差，并将其输出到算术编码。

优选地，所述可变码率帧间解码包括：

S41、特征图逆尺度缩放:在解码端，将所述参考帧的第二特征图与尺度逆因子相乘得到所述重构第一特征图。所述尺度逆因子与尺度因子一一对应。

S42、图像重构：将所述重构的第一特征图通过卷积神经网络，得到重构图像；

S43、残差补偿：将所述将残差特征图与已解码好的参考帧第二特征图相加，得到预测帧重构的第二特征图。

根据本发明的第二方面，提供了一种视频压缩系统，包括：

可变码率帧内编解码模块：用于对参考帧图像进行压缩，得到参考帧图像的特征图、参考帧图像比特流以及重构的参考帧图像；

可变码率帧间编码模块：用于对预测帧图像进行压缩变换，得到待编码的特征图残差。

帧间残差熵编码模块：用于对待编码的特征图残差进行上下文建模并压缩，得到特征图残差的比特流。

可变码率帧间解码模块：用于对特征图残差的比特流进行解码，进一步得到预测帧重构特征图和重构的预测帧图像。

根据本发明的第三个方面，提供一种可变码率视频压缩装置，该装置使用上述方法进行压缩视频。

根据本发明的第四个方面，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的方法，或，运行所述的系统，或，运行所述的装置。

根据本发明的第五个方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行可用于执行所述的方法，或，运行所述的系统，或，运行所述的装置。

与现有技术相比，本发明具有如下的有益效果：

本发明利用尺度因子将特征图进行尺度缩放，从而得到不同码率质量对应的特征图；

本发明通过时域上下文预测模块，有效减少帧间编码开销，并通过尺度因子控制量化步长实现可变码率编码。利用前一帧已经编码的隐含表示为当前帧提供额外的时域上下文的先验信息。在使用单一模型的前提下，与当前主流的端到端方法针对不同码率点优化的模型所展现的视频压缩性能相当，具有极强的实际应用价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例的一种可变码率视频压缩方法流程图。

图2为本发明实施例的一种可变码率视频压缩系统中可变码率帧内编解码子系统的流程图。

图3为本发明实施例的一种可变码率视频压缩系统中可变码率帧间编码子系统的流程图。

图4为本发明实施例的一种可变码率视频压缩系统中帧间残差熵编码子系统的流程图。

图5为本发明实施例的一种可变码率视频压缩系统中可变码率帧间解码子系统的流程图

图6为本发明实施例的一种可变码率视频压缩系统中上下文建模模块的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供一个实施例的一种可变码率视频压缩方法的流程图，包括：

S1,可变码率帧内编解码：在编码端，将参考帧图像通过卷积神经网络，得到参考帧的第一特征图，并通过特征图尺度缩放及量化得到参考帧的第二特征图；经过无损熵编码并传输；在解码端，将参考帧的第二特征图进行逆缩放后，通过卷积神经网络得到重构的参考帧；

S2,可变码率帧间编码：在编码端，将预测帧图像通过卷积神经网络，得到预测帧的第一特征图，并通过特征图尺度缩放及量化得到预测帧的第二特征图；将预测帧的第二特征图与参考帧的第二特征图相减，得到特征图残差。

S3,帧间残差熵编码：利用参考帧的第二特征图作为先验信息，对特征图残差进行无损熵编码，并传输至解码端；

S4,可变码率帧间解码：在解码端，将特征图残差与得到的参考帧的第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧。

基于上述实施例进一步优化，本发明提供第一个优选实施例。其利用本发明提供的一种可变码率视频压缩方法，结合Vimeo数据集对视频压缩系统进行训练。具体的，包括：

S101，特征图提取：将Vimeo数据集中的单帧图像裁剪成256×256的图像，将相邻两帧图像分别作为参考帧和预测帧，同时输入预先建立的帧内图像编码卷积神经网络得到多通道特征图作为参考帧和预测帧的第一特征图。

S102，特征图尺度缩放：将参考帧和预测帧的第一特征图与尺度因子s相乘，作为参考帧和预测帧的第二特征图，并编码尺度因子s，生成尺度因子二进制码流。

S103，特征可导量化：对于第二特征图，通过添加均匀噪声的方式模拟量化，生成参考帧和预测帧的第二特征图。

S104，特征图逆缩放：将参考帧和预测帧的第二特征图与尺度逆因子相乘，得到参考帧和预测帧重构的第一特征图；

S105，图像重构：将参考帧和预测帧重构的第一特征图通过输入预先建立的帧内图像解码卷积神经网络，得到重构的参考帧和预测帧图像；

S106，特征图残差获取：将参考帧和预测帧的第二特征图相减，得到特征图残差；

S107，超先验信息提取：将参考帧和预测帧的第二特征图进行拼接后，通过卷积神经网络，得到超先验信息；其中，拼接是指按照通道进行拼接，即如果参考帧第二特征图和预测帧第二特征图均有N个通道，那么拼接后得到2N个通道的特征图。

S108，超先验可导量化：对于超先验信息，通过添加均匀噪声的方式模拟量化，生成量化的超先验信息；

S109，超先验信息重构：将量化的超先验信息通过卷积神经网络，得到重构的超先验信息；

S110，空域上下文建模：利用特征图残差中的局部信息，通过卷积神经网络，得到空域上下文信息；

S111，时域上下文建模：利用参考帧的第二特征图，通过卷积神经网络，得到时域上下文信息；

S112，特征图条件概率建模：利用重构的超先验信息、空域上下文信息及时域上下文信息，估计用于熵编码的高斯分布均值与方差；

S113，构造熵估计：根据构造分布，估计带噪的超先验信息编码所需码率L_BPP-H；构造分布用于估计对超先验信息进行编码所需的码率。超先验信息编码所需码率L_BPP-H通过训练获得的神经网络自适应映射到码表进行估计。

S114，条件熵估计：根据高斯分布均值与方差，估计特征图残差编码所需码率L_BPP-F；特征图残差编码通过对于残差项逐个编码实现，对于第i个残差项y_i，根据估计获得的高斯分布均值μ_i和方差

进行编码，所需码率为

利用训练数据集，采用反向梯度传播算法学习深度网络模型；将深度网络模型的损失函数定义为L＝L_BPP-H+L_BPP-F。

本发明提供第二个优选实施例，利用上述训练得到的视频压缩系统中的视频编码器对UVG测试集视频序列进行压缩，得到压缩视频序列的二进制码流。具体的，包括：

S201，参考帧和预测帧特征图提取：输入参考帧和预测帧通过卷积神经网络，生成参考帧和预测帧的多通道特征图，作为第一特征图；

S202，参考帧和预测帧的特征图缩放：将S201得到的第一特征图与尺度因子相乘的结果作为第二特征图，并输出尺度因子二进制码流；

S203，均匀量化：将S202得到的第二特征图量化为整数；

S204，帧间特征图残差获取：将S203得到的参考帧和预测帧的量化第二特征图进行相减，得到特征图残差；

S205，超先验信息提取：通过卷积神经网络从S202得到的第二特征图提取超先验信息；

S206，超先验信息编码：对S205得到的超先验信息进行量化和算术编码，获得超先验信息二进制码流；

S207，超先验信息解码：通过算术解码，从S206输出的超先验信息二进制码流中恢复超先验信息；

S208，超先验信息重构：通过卷积神经网络，从S207得到的超先验信息中生成重构的超先验信息；

S209，上下文重组建模：利用S208得到的重构的超先验信息，集合S204中特征图残差的空域上下文信息以及S203中参考帧特征图的时域上下文信息，估计用于编码特征图残差的高斯分布均值与方差；

S210，特征图编码：根据S209生成的编码高斯分布对量化后的特征图残差进行算术编码，获得特征图残差二进制码流；

S211，码流合成：合并S202中的尺度因子二进制码流、S206中的超先验信息二进制码流和S209中的特征图残差二进制码流，得到压缩预测帧图像二进制码流。

本发明提供第三个优选实施例，利用训练得到的视频压缩系统中的视频解码器，对UVG测试集视频序列产生的二进制码流进行解压缩，得到重构视频序列，具体的，包括：

S301：码流分解：分解压缩预测帧图像二进制码流，得到尺度因子二进制码流；

S302：超先验信息二进制码流和特征图残差二进制码流；

S303：超先验信息解码：对S301得到的超先验信息二进制码流进行算术解码。

S304：超先验信息重构：通过卷积神经网络，从S302生成的算术解码结果恢复超先验信息。

S305：上下文建模：提取渐进恢复的特征图残差的空域上下文信息和参考帧已解码的第二特征图的时域上下文信息，并结合S303恢复的超先验信息估计用于编码第二特征图所需的高斯分布均值与方差。

S306：特征图解码：根据S304产生的高斯分布对S301产生的特征图残差二进制码流进行算术解码。

S307：预测帧残差补偿：将S306获得的得到的特征图残差与已解码好的参考帧第二特征图相加，得到预测帧重构的第二特征图；

S308：特征图逆缩放：利用S301恢复的尺度因子二进制码流将S307获得的预测帧的第二特征图进行逆缩放，获得预测帧重构的第一特征图；

S309：预测帧图像重构：利用S308逆缩放得到的第一特征图进行重构，生成预测帧重构图像。

在第一个优选实施例中，利用本发明提供的可变码率视频像压缩方法，结合Vimeo数据集对视频压缩系统进行训练，特征图提取和图像重构的卷积神经网络采用预先设定的图像帧内编码模型参数，尺度因子s的范围为0.1至1.5，使用Adam算法对模型进行优化，其中批大小设置为8，初始化学习率为1e-4，并分别在1200000，1600000，1800000，1900000迭代次数时降低至5e-5，1e-5，5e-6，1e-6，共训练2500000步，模型收敛，停止训练。

在第二个优选实施例中，利用训练得到的视频压缩系统中的视频编码器对UVG测试集中的6个视频序列进行压缩，图像组大小(GOP)设置为12，改变尺度因子s的大小，可以得到不同码率的二进制码流。当尺度因子设置为0.1时，产生尺度因子二进制码流、超先验信息二进制码流和特征图二进制码流，三者码率和的平均值为0.0625bpp。当尺度因子设置为0.2时，三者码率和的平均值为0.0874bpp。当尺度因子设置为0.3时，三者码率和的平均值为0.132bpp。

在第三个优选实施例中，利用训练得到的视频压缩系统中的视频解码器，对压缩UVG测试集6个视频序列产生的二进制码流进行解压缩，得到重构视频序列。当尺度因子设置为0.1时，重构出的6个视频序列所有图像的平均峰值信噪比(PSNR)为34.32。当尺度因子设置为0.2时，平均峰值信噪比为35.82。当尺度因子设置为0.3时，平均峰值信噪比为36.97。

此外，相较于训练多个不同码率点的编解码网络模型实现可变码率，本发明提供的基于尺度因子对特征图进行尺度缩放的可变码率视频压缩方法训练时长和模型总的参数量也大大减小，仅需使用单个模型就能实现任意码率点的视频编解码。因此可以根据实际要求通过设置不同的尺度因子来平衡二进制码流大小和平均峰值信噪比。

根据本发明的相同构思，在本发明的其他实施例中，提供一种可变码率视频压缩系统，包括：

S100、可变码率帧内编解码子系统：在编码端，将参考帧图像通过卷积神经网络，得到参考帧的第一特征图，并通过特征图尺度缩放及可导量化得到参考帧的量化第二特征图。经过无损熵编码并传输后。在解码端，将参考帧的量化第二特征图进行逆缩放后，通过卷积神经网络得到重构的参考帧，具体请参考图2，包括：

S110、图像特征提取模块：将参考帧图像通过卷积神经网络，生成参考帧图像的多通道特征图，作为参考帧的第一特征图。

S120、特征图缩放模块：将S110生成参考帧的第一特征图与尺度因子相乘的结果作为参考帧的第二特征图，并输出尺度因子二进制码流；

S130、均匀量化模块：将S120生成的参考帧的第二特征图均匀量化为整数，得到参考帧的第二特征图；

S140、帧内熵编码模块，对S130生成的参考帧的第二特征图进行算术编码，获得参考帧特征图的二进制码流；

S150、码流合成模块：合并S120产生的尺度因子二进制码流、S140产生的参考帧的第二特征图二进制码流，得到压缩参考帧图像的二进制码流。

S160、码流分解模块：分解压缩参考帧图像二进制码流，得到尺度因子二进制码流，参考帧的第二特征图的二进制码流。

S170、特征图解码模块：对S160产生的参考帧的特征图二进制码流进行算术解码，得到参考帧重构的第二特征图；

S180、特征图逆缩放模块：利用S160得到的尺度因子二进制码流将S170得到的参考帧重构的第二特征图进行逆缩放，获得参考帧重构的第一特征图；

S190、图像重构模块：利用S180得到的参考帧重构的第一特征图进行重构，生成参考帧重构图像。

S200、可变码率帧间编码子系统：在编码端，将预测真图像通过卷积神经网络，得到预测帧的第一特征图，并通过特征图尺度缩放及量化得到预测帧的量化第二特征图。将预测帧的第二特征图与得到的参考帧的第二特征图相减，得到特征图残差，具体请参考图3，包括：

S210、图像特征提取模块：该模块与S110完全相同，将预测帧图像通过卷积神经网络，生成预测帧图像的多通道特征图，作为预测帧的第一特征图。

S220、特征图缩放模块：该模块与S120完全相同，将S210生成的预测帧的第一特征图与尺度因子相乘的结果作为预测帧的第二特征图，并输出尺度因子二进制码流；

S230、均匀量化模块：该模块与S130完全相同，将S220生成的预测帧的第二特征图均匀量化为整数，得到预测帧的第二特征图；

S240、特征图残差获取模块：将S130生成的参考帧的量化的第二特则会那个图与S230生成的预测帧的第二特征图相减，得到待编码的特征图残差。

S300、帧间残差熵编码子系统：利用得到的参考帧的第二特征图作为先验信息，对特征图残差进行无损熵编码，并传输至解码端，具体请参考图4，包括：

S310、超先验信息提取模块：通过卷积神经网络从S230生成的预测帧的第二特征图提取超先验信息；

S320、超先验信息编码模块：对S310提取的超先验信息进行量化和算术编码，获得超先验信息二进制码流；

S330、超先验信息解码模块：对S320产生的超先验信息二进制码流进行算术解码；

S340、超先验信息重构模块：通过卷积神经网络，由S330生成的算术解码结果恢复出超先验信息；

S350、上下文建模模块：对S240生成的特征图残差进行上下文重组建模，具体参见图6，包括：

S351、空域上下文信息提取子模块：提取S240生成的特征图残差提供的空域上下文信息；

S352、时域上下文信息提取子模块：提取S130生成的参考帧第二特征图提供的时域上下文信息；

S353、熵编码分布估计子模块：利用S340得到的超先验信息及S351、S352得到的上下文信息估计用于编码特征图残差所需的高斯分布均值与方差；

S360、特征图编码模块：根据S353生成的编码高斯分布对S240生成的特征图残差进行算术编码，获得特征图残差二进制码流；

S370、码流合成模块：S320产生的超先验信息二进制码流和S360产生的特征图残差二进制码流，得到压缩预测帧图像二进制码流。

S400、可变码率帧间解码子系统：在解码端，将特征图残差与得到的参考帧的第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧，具体请参考图5，包括：

S410、码流分解模块：分解压缩预测帧图像二进制码流，得到超先验信息二进制码流和特征图残差二进制码流；

S420、超先验信息解码模块：该模块与S330完全相同，对S410产生的超先验信息二进制码流进行算术解码；

S430、超先验信息重构模块：该模块与S340完全相同，通过卷积神经网络，从S420生成的算术解码结果恢复超先验信息；

S440、上下文建模模块：该模块与S350完全相同，对渐进恢复的特征图残差进行上下文建模，具体参见图6，包括：

S441、空域上下文信息提取子模块：该模块与S351完全相同，提取渐进恢复的特征图残差提供的空域上下文信息；

S442、时域上下文信息提取子模块：该模块与S352完全相同，提取参考帧第二特征图提供的时域上下文信息；

S443、熵编码分布估计子模块：该模块与S353完全相同，利用S430得到的超先验信息和S441、S442得到的上下文信息估计用于编码特征图残差所需的高斯分布均值与方差；

S450、特征图解码模块：根据S443产生的高斯分布对S410产生的特征图二进制码流进行算术解码；

S460、特征图残差补偿模块：利用S450解码得到的特征图残差与S170已解码好的参考帧第二特征图相加，得到预测帧重构的第二特征图；

S470、特征图逆缩放模块：利用S160得到的尺度因子二进制码流将S460得到的预测帧重构的第二特征图进行逆缩放，获得预测帧重构的第一特征图；

S480、预测帧图像重构模块：利用S470得到的第一特征图进行重构，生成预测帧重构图像。

基于相同的发明构思，在本发明的其他实施例中，还提供了一种视频压缩装置，采用上述实施例中的可变码率视频压缩方法进行视频压缩。

基于相同的发明构思，在本发明的其他实施例中，还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行上述实施例中的方法，或，运行上述实施例中的系统，或，运行上述实施例红的装置。

基于相同的发明构思，在本发明的其他实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行执行上述实施例中的方法，或，运行上述实施例中的系统，或，运行上述实施例红的装置。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种可变码率视频压缩方法，其特征在于，包括：

可变码率帧内编解码：在编码端，将参考帧图像通过卷积神经网络，得到参考帧第一特征图，并通过特征图尺度缩放及量化得到参考帧第二特征图；经过无损熵编码并传输；在解码端，将所述参考帧第二特征图进行逆缩放后，通过卷积神经网络得到重构的参考帧；

可变码率帧间编码：在编码端，将预测帧图像通过卷积神经网络，得到预测帧第一特征图，并通过特征图尺度缩放及量化得到预测帧第二特征图；将所述预测帧第二特征图与所述参考帧第二特征图相减，得到特征图残差；

帧间残差熵编码：基于所述参考帧第二特征图，对所述特征图残差进行无损熵编码，并传输至解码端；

可变码率帧间解码：在解码端，将所述特征图残差与所述参考帧第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧。

2.根据权利要求1所述的一种可变码率视频压缩方法，其特征在于，所述可变码率帧内编解码，包括：

将参考帧图像通过卷积神经网络，提取得到参考帧第一特征图；

将所述参考帧第一特征图与尺度因子相乘得到所述参考帧第二特征图；

对所述参考帧第二特征图，通过添加均匀噪声的方式模拟量化，生成参考帧量化第二特征图；

对于所述参考帧量化第二特征图，利用无损熵编码进行编码传输；

在解码端，将所述参考帧量化第二特征图与尺度逆因子相乘，得到重构的参考帧第一特征图；

将所述重构的参考帧第一特征图通过卷积神经网络，得到重构的参考帧图像。

3.根据权利要求1所述的一种可变码率视频压缩方法，其特征在于，所述可变码率帧间编码，包括：

将预测帧图像通过卷积神经网络，提取得到预测帧第一特征图；

将所述预测帧第一特征图与尺度因子相乘得到所述预测帧第二特征图；

对于所述预测帧第二特征图，通过添加均匀噪声的方式模拟量化，生成预测帧量化第二特征图；

将参考帧的第二特征图与预测帧的第二特征图相减，得到待编码的特征图残差。

4.根据权利要求1所述的可变码率视频压缩方法，其特征在于，所述帧间残差熵编码，包括：

将所述参考帧第二特征图和所述预测帧第二特征图进行拼接后，通过卷积神经网络，得到超先验信息；

将所述超先验信息通过卷积神经网络，得到重构的超先验信息；

对于所述重构的超先验信息，通过添加均匀噪声的方式模拟量化，生成量化的超先验信息；

根据所述参考帧第二特征图，以及所述特征图残差进行建模，得到用于编码特征残差的上下文信息；

根据构造分布，估计所述量化的超先验信息编码所需码率L_BPP-H；

根据高斯分布均值与方差，估计所述特征图残差编码所需码率L_BPP-F。

5.根据权利要求1所述的可变码率视频压缩方法，其特征在于，所述可变码率帧间解码，包括：

在解码端，将所述残差特征图与已解码好的参考帧第二特征图相加，得到预测帧重构的第二特征图。

将所述预测帧重构的第二特征图与尺度逆因子相乘，得到重构的预测帧第一特征图；

将所述重构的预测帧第一特征图通过卷积神经网络，得到重构的预测帧图像。

6.根据权利要求3所述的可变码率视频压缩方法，其特征在于，所述根据时域上已编码的参考帧特征图，以及特征参残差已编码好的部分特征图进行建模，得到用于编码特征残差的上下文，包括：

时域上下文信息提取：利用参考帧特征图，提取在时域维度上的上下文信息；

空域上下文信息提取：提取参考帧与预测帧的特征残差在空域维度上的上下文信息；

7.一种可变码率视频压缩系统，其特征在于，包括：

可变码率帧内编解码模块：在编码端，将参考帧图像通过卷积神经网络，得到参考帧第一特征图，并通过特征图尺度缩放及量化得到参考帧的量化第二特征图；经过无损熵编码并传输后；在解码端，将所述参考帧的量化第二特征图进行逆缩放后，通过卷积神经网络得到重构的参考帧；

可变码率帧间编码模块：在编码端，将预测真图像通过卷积神经网络，得到预测帧第一特征图，并通过特征图尺度缩放及量化得到预测帧的量化第二特征图；将所述预测帧的量化第二特征图与所述参考帧的量化第二特征图相减，得到特征图残差；

帧间残差熵编码模块：利用所述得到的参考帧的第二特征图作为先验信息，对特征图残差进行无损熵编码，并传输至解码端；

可变码率帧间解码模块：在解码端，将所述特征图残差与所述得到的参考帧的第二特征图相加并逆缩放后，通过卷积神经网络得到重构的预测帧。

8.一种视频压缩装置，其特征在于，采用权利要求1-7任一项所述的一种可变码率视频压缩方法进行视频压缩。

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法，或，运行权利要求7中所述的系统，或，运行权利要求8中所述的装置。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-6中任一项所述的方法，或，运行权利要求7中所述的系统，或，运行权利要求8中所述的装置。