CN114501013A - 一种可变码率视频压缩方法、系统、装置及存储介质 - Google Patents

一种可变码率视频压缩方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN114501013A
CN114501013A CN202210042520.3A CN202210042520A CN114501013A CN 114501013 A CN114501013 A CN 114501013A CN 202210042520 A CN202210042520 A CN 202210042520A CN 114501013 A CN114501013 A CN 114501013A
Authority
CN
China
Prior art keywords
feature map
reference frame
frame
neural network
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210042520.3A
Other languages
English (en)
Inventor
戴文睿
李涵
李劭辉
李成林
邹君妮
陈思衡
郑伟诗
熊红凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210042520.3A priority Critical patent/CN114501013A/zh
Publication of CN114501013A publication Critical patent/CN114501013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供可变码率视频压缩方法、系统、装置及存储介质,包括:将参考帧图像通过卷积神经网络,得到参考帧的第一特征图,通过尺度缩放及可导量化得到参考帧的第二特征图,并进行逆缩放,得到重构的参考帧。将预测帧图像通过卷积神经网络,得到预测帧的第一特征图,通过尺度缩放及量化得到预测帧的第二特征图。将预测帧的第二特征图与参考帧的第二特征图相减,得到特征图残差;利用参考帧的第二特征图作为先验信息,对特征图残差进行无损熵编码,并传输至解码端;将特征图残差与参考帧的第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧。本发明利用尺度因子将特征图进行尺度缩放,从而得到不同码率质量对应的特征图。

Description

一种可变码率视频压缩方法、系统、装置及存储介质
技术领域
本发明属于图像处理领域,其涉及运用时域和空域上下文信息的端到端优化的可变码率视频压缩方案,具体是一种可变码率视频压缩方法、系统、装置及存储介质。
背景技术
端到端优化是一种普遍应用于图像压缩和视频压缩的技术,它利用卷积神经网络将压缩建模为一个率失真双向优化问题,能够联合优化各个模块。可变码率方案能够通过单一模型,针对输入的图像或视频序列输出不同质量不同码率的输出图像或视频序列。经过对现有技术的文献检索发现,Lu等人在2019年的《IEEE Conference on ComputerVision and Pattern Recognition》(CVPR)会议上发表的“DVC:An End-to-End DeepVideo Compression Framework”提出了第一个端到端的视频编码框架,其将传统框架中的变换、运动估计、运动补偿以及熵编码等模块都利用深度卷积神经网络实现。Abdelaziz等人在2019年《IEEE International Conference on ComputerVision》(ICCV)上发表的“Neural Inter-Frame Compression For Video Coding”,利用双向预测进行了运动估计和运动补偿。Yang等人在2020年《IEEE Conference on Computer Vision and PatternRecognition》(CVPR)上发表的“Learning For Video Compression with HierarchicalQuality and Recurrent Enhancement”,利用一个权重循环加强网络,集合单向预测和双向预测,提出了层次化的端到端优化的视频压缩模型。然而,由于符号只能按顺序恢复,上下文模型带来了计算复杂度的开销。当使用三维上下文模型时,所需要的编解码时间会大量增加。
然而,上述方法通常都使用光流网络及残差网络来进行运动估计及残差补偿。在编码端光流网络的输入为重构的视频帧,因此重构质量直接影响预测效率,较低的重构质量会导致相应的残差信息编码开销上升。当残差编码开销受限时,重构帧的质量则会明显下降,最终造成严重的帧间误差传播问题。此外复杂的网络结构及预测补偿框架使可变码率编码的模型设计更为复杂,因此这类方法均针对不同码率点独立训练多个模型。
发明内容
本发明针对目前应用于端到端优化的视频压缩方案中的不足,因此提出了一种无需运动估计的可变码率视频压缩方法。
根据本发明的第一方面,提供了一种可变码率视频压缩方法,包括:
S1、可变码率帧内编解码:在编码端,将参考帧图像通过卷积神经网络,得到参考帧的第一特征图,并通过特征图尺度缩放及可导量化得到参考帧的量化第二特征图。经过无损熵编码并传输后。在解码端,将参考帧的量化第二特征图进行逆缩放后,通过卷积神经网络得到重构的参考帧。
S2、可变码率帧间编码:在编码端,将预测帧图像通过卷积神经网络,得到预测帧的第一特征图,并通过特征图尺度缩放及量化得到预测帧的量化第二特征图。将预测帧的第二特征图与所述得到的参考帧的第二特征图相减,得到特征图残差。
S3、帧间残差熵编码:利用所述得到的参考帧的第二特征图作为先验信息,对特征图残差进行无损熵编码,并传输至解码端。
S4、可变码率帧间解码:在解码端,将所述特征图残差与所述得到的参考帧的第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧。
优选地,所述可变码率帧内编解码包括:
S11、图像特征提取:将图像通过卷积神经网络,提取得到第一特征图。
S12、特征图尺度缩放:将所述第一特征图与尺度因子相乘得到所述第二特征图。所述缩放因子为一大于0的标量,范围事先指定。
S13、特征可导量化:对于所述第二特征图,通过添加均匀噪声的方式模拟量化,生成参考帧的第二特征图;
S14、帧内熵编码:对于参考帧的量化第二特征图,利用无损熵编码进行编码传输。
S15、特征图尺度逆缩放:在解码端,将所述参考帧的第二特征图与尺度逆因子相乘得到所述重构第一特征图。所述尺度逆因子与尺度因子一一对应。
S16、图像重构:将所述重构的第一特征图通过卷积神经网络,得到重构图像;通过改变尺度因子和尺度逆因子,可变码率帧内编解码方法能够获得不同码率、质量的重构图像。
优选地,所述可变码率帧间编码包括:
S21、图像特征提取:将图像通过卷积神经网络,提取得到第一特征图。
S22、特征图尺度缩放:将所述第一特征图与尺度因子相乘得到所述第二特征图。所述缩放因子为一大于0的标量,范围事先指定。
S23、特征可导量化:对于所述第二特征图,通过添加均匀噪声的方式模拟量化,生成预测帧的第二特征图;
S24、特征残差获取:将参考帧的第二特征图与预测帧的第二特征图相减,得到待编码的特征图残差。
优选地,所述帧间残差的熵编码包括:
S31、超先验信息提取:将所述参考帧的第二特征图和所述预测帧的第二特征图进行拼接后,通过卷积神经网络,得到超先验信息;
S32、超先验信息重构:将所述量化的超先验信息通过卷积神经网络,得到重构的超先验信息;
S33、超先验可导量化:对于所述超先验信息,通过添加均匀噪声的方式模拟量化,生成量化的超先验信息;
S34、上下文建模:根据所述已编码的参考帧的第二特征图,以及特征图残差已编码好的部分特征图进行建模,得到用于编码特征残差的上下文信息;
S35、构造熵估计:根据构造分布,估计量化的超先验信息编码所需码率LBPP-H;所述方法的熵编码包括对两部分信息的编码,即超先验信息和特征图残差。
S36、条件熵估计:根据所述高斯分布均值与方差,是指采用高斯分布对特征图残差进行编码,估计特征图残差编码所需码率LBPP-F
优选地,所述的上下文建模,根据时域上已编码的参考帧特征图,以及特征参残差已编码好的部分特征图进行建模,得到用于编码特征残差的上下文,包括:
时域上下文信息提取:利用参考帧的第二特征图,通过卷积神经网络,得到时域维度的上下文信息;
空域上下文信息提取:提取参考帧与预测帧的特征残差,通过卷积神经网络,得到空域维度的上下文信息;
熵编码分布估计:融合所述上下文信息和所述超先验信息,估计用于编码的高斯分布的均值和方差,并将其输出到算术编码。
优选地,所述可变码率帧间解码包括:
S41、特征图逆尺度缩放:在解码端,将所述参考帧的第二特征图与尺度逆因子相乘得到所述重构第一特征图。所述尺度逆因子与尺度因子一一对应。
S42、图像重构:将所述重构的第一特征图通过卷积神经网络,得到重构图像;
S43、残差补偿:将所述将残差特征图与已解码好的参考帧第二特征图相加,得到预测帧重构的第二特征图。
根据本发明的第二方面,提供了一种视频压缩系统,包括:
可变码率帧内编解码模块:用于对参考帧图像进行压缩,得到参考帧图像的特征图、参考帧图像比特流以及重构的参考帧图像;
可变码率帧间编码模块:用于对预测帧图像进行压缩变换,得到待编码的特征图残差。
帧间残差熵编码模块:用于对待编码的特征图残差进行上下文建模并压缩,得到特征图残差的比特流。
可变码率帧间解码模块:用于对特征图残差的比特流进行解码,进一步得到预测帧重构特征图和重构的预测帧图像。
根据本发明的第三个方面,提供一种可变码率视频压缩装置,该装置使用上述方法进行压缩视频。
根据本发明的第四个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的方法,或,运行所述的系统,或,运行所述的装置。
根据本发明的第五个方面,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行可用于执行所述的方法,或,运行所述的系统,或,运行所述的装置。
与现有技术相比,本发明具有如下的有益效果:
本发明利用尺度因子将特征图进行尺度缩放,从而得到不同码率质量对应的特征图;
本发明通过时域上下文预测模块,有效减少帧间编码开销,并通过尺度因子控制量化步长实现可变码率编码。利用前一帧已经编码的隐含表示为当前帧提供额外的时域上下文的先验信息。在使用单一模型的前提下,与当前主流的端到端方法针对不同码率点优化的模型所展现的视频压缩性能相当,具有极强的实际应用价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的一种可变码率视频压缩方法流程图。
图2为本发明实施例的一种可变码率视频压缩系统中可变码率帧内编解码子系统的流程图。
图3为本发明实施例的一种可变码率视频压缩系统中可变码率帧间编码子系统的流程图。
图4为本发明实施例的一种可变码率视频压缩系统中帧间残差熵编码子系统的流程图。
图5为本发明实施例的一种可变码率视频压缩系统中可变码率帧间解码子系统的流程图
图6为本发明实施例的一种可变码率视频压缩系统中上下文建模模块的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供一个实施例的一种可变码率视频压缩方法的流程图,包括:
S1,可变码率帧内编解码:在编码端,将参考帧图像通过卷积神经网络,得到参考帧的第一特征图,并通过特征图尺度缩放及量化得到参考帧的第二特征图;经过无损熵编码并传输;在解码端,将参考帧的第二特征图进行逆缩放后,通过卷积神经网络得到重构的参考帧;
S2,可变码率帧间编码:在编码端,将预测帧图像通过卷积神经网络,得到预测帧的第一特征图,并通过特征图尺度缩放及量化得到预测帧的第二特征图;将预测帧的第二特征图与参考帧的第二特征图相减,得到特征图残差。
S3,帧间残差熵编码:利用参考帧的第二特征图作为先验信息,对特征图残差进行无损熵编码,并传输至解码端;
S4,可变码率帧间解码:在解码端,将特征图残差与得到的参考帧的第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧。
基于上述实施例进一步优化,本发明提供第一个优选实施例。其利用本发明提供的一种可变码率视频压缩方法,结合Vimeo数据集对视频压缩系统进行训练。具体的,包括:
S101,特征图提取:将Vimeo数据集中的单帧图像裁剪成256×256的图像,将相邻两帧图像分别作为参考帧和预测帧,同时输入预先建立的帧内图像编码卷积神经网络得到多通道特征图作为参考帧和预测帧的第一特征图。
S102,特征图尺度缩放:将参考帧和预测帧的第一特征图与尺度因子s相乘,作为参考帧和预测帧的第二特征图,并编码尺度因子s,生成尺度因子二进制码流。
S103,特征可导量化:对于第二特征图,通过添加均匀噪声的方式模拟量化,生成参考帧和预测帧的第二特征图。
S104,特征图逆缩放:将参考帧和预测帧的第二特征图与尺度逆因子相乘,得到参考帧和预测帧重构的第一特征图;
S105,图像重构:将参考帧和预测帧重构的第一特征图通过输入预先建立的帧内图像解码卷积神经网络,得到重构的参考帧和预测帧图像;
S106,特征图残差获取:将参考帧和预测帧的第二特征图相减,得到特征图残差;
S107,超先验信息提取:将参考帧和预测帧的第二特征图进行拼接后,通过卷积神经网络,得到超先验信息;其中,拼接是指按照通道进行拼接,即如果参考帧第二特征图和预测帧第二特征图均有N个通道,那么拼接后得到2N个通道的特征图。
S108,超先验可导量化:对于超先验信息,通过添加均匀噪声的方式模拟量化,生成量化的超先验信息;
S109,超先验信息重构:将量化的超先验信息通过卷积神经网络,得到重构的超先验信息;
S110,空域上下文建模:利用特征图残差中的局部信息,通过卷积神经网络,得到空域上下文信息;
S111,时域上下文建模:利用参考帧的第二特征图,通过卷积神经网络,得到时域上下文信息;
S112,特征图条件概率建模:利用重构的超先验信息、空域上下文信息及时域上下文信息,估计用于熵编码的高斯分布均值与方差;
S113,构造熵估计:根据构造分布,估计带噪的超先验信息编码所需码率LBPP-H;构造分布用于估计对超先验信息进行编码所需的码率。超先验信息编码所需码率LBPP-H通过训练获得的神经网络自适应映射到码表进行估计。
S114,条件熵估计:根据高斯分布均值与方差,估计特征图残差编码所需码率LBPP-F;特征图残差编码通过对于残差项逐个编码实现,对于第i个残差项yi,根据估计获得的高斯分布均值μi和方差
Figure BDA0003470891870000071
进行编码,所需码率为
Figure BDA0003470891870000072
Figure BDA0003470891870000073
利用训练数据集,采用反向梯度传播算法学习深度网络模型;将深度网络模型的损失函数定义为L=LBPP-H+LBPP-F
本发明提供第二个优选实施例,利用上述训练得到的视频压缩系统中的视频编码器对UVG测试集视频序列进行压缩,得到压缩视频序列的二进制码流。具体的,包括:
S201,参考帧和预测帧特征图提取:输入参考帧和预测帧通过卷积神经网络,生成参考帧和预测帧的多通道特征图,作为第一特征图;
S202,参考帧和预测帧的特征图缩放:将S201得到的第一特征图与尺度因子相乘的结果作为第二特征图,并输出尺度因子二进制码流;
S203,均匀量化:将S202得到的第二特征图量化为整数;
S204,帧间特征图残差获取:将S203得到的参考帧和预测帧的量化第二特征图进行相减,得到特征图残差;
S205,超先验信息提取:通过卷积神经网络从S202得到的第二特征图提取超先验信息;
S206,超先验信息编码:对S205得到的超先验信息进行量化和算术编码,获得超先验信息二进制码流;
S207,超先验信息解码:通过算术解码,从S206输出的超先验信息二进制码流中恢复超先验信息;
S208,超先验信息重构:通过卷积神经网络,从S207得到的超先验信息中生成重构的超先验信息;
S209,上下文重组建模:利用S208得到的重构的超先验信息,集合S204中特征图残差的空域上下文信息以及S203中参考帧特征图的时域上下文信息,估计用于编码特征图残差的高斯分布均值与方差;
S210,特征图编码:根据S209生成的编码高斯分布对量化后的特征图残差进行算术编码,获得特征图残差二进制码流;
S211,码流合成:合并S202中的尺度因子二进制码流、S206中的超先验信息二进制码流和S209中的特征图残差二进制码流,得到压缩预测帧图像二进制码流。
本发明提供第三个优选实施例,利用训练得到的视频压缩系统中的视频解码器,对UVG测试集视频序列产生的二进制码流进行解压缩,得到重构视频序列,具体的,包括:
S301:码流分解:分解压缩预测帧图像二进制码流,得到尺度因子二进制码流;
S302:超先验信息二进制码流和特征图残差二进制码流;
S303:超先验信息解码:对S301得到的超先验信息二进制码流进行算术解码。
S304:超先验信息重构:通过卷积神经网络,从S302生成的算术解码结果恢复超先验信息。
S305:上下文建模:提取渐进恢复的特征图残差的空域上下文信息和参考帧已解码的第二特征图的时域上下文信息,并结合S303恢复的超先验信息估计用于编码第二特征图所需的高斯分布均值与方差。
S306:特征图解码:根据S304产生的高斯分布对S301产生的特征图残差二进制码流进行算术解码。
S307:预测帧残差补偿:将S306获得的得到的特征图残差与已解码好的参考帧第二特征图相加,得到预测帧重构的第二特征图;
S308:特征图逆缩放:利用S301恢复的尺度因子二进制码流将S307获得的预测帧的第二特征图进行逆缩放,获得预测帧重构的第一特征图;
S309:预测帧图像重构:利用S308逆缩放得到的第一特征图进行重构,生成预测帧重构图像。
在第一个优选实施例中,利用本发明提供的可变码率视频像压缩方法,结合Vimeo数据集对视频压缩系统进行训练,特征图提取和图像重构的卷积神经网络采用预先设定的图像帧内编码模型参数,尺度因子s的范围为0.1至1.5,使用Adam算法对模型进行优化,其中批大小设置为8,初始化学习率为1e-4,并分别在1200000,1600000,1800000,1900000迭代次数时降低至5e-5,1e-5,5e-6,1e-6,共训练2500000步,模型收敛,停止训练。
在第二个优选实施例中,利用训练得到的视频压缩系统中的视频编码器对UVG测试集中的6个视频序列进行压缩,图像组大小(GOP)设置为12,改变尺度因子s的大小,可以得到不同码率的二进制码流。当尺度因子设置为0.1时,产生尺度因子二进制码流、超先验信息二进制码流和特征图二进制码流,三者码率和的平均值为0.0625bpp。当尺度因子设置为0.2时,三者码率和的平均值为0.0874bpp。当尺度因子设置为0.3时,三者码率和的平均值为0.132bpp。
在第三个优选实施例中,利用训练得到的视频压缩系统中的视频解码器,对压缩UVG测试集6个视频序列产生的二进制码流进行解压缩,得到重构视频序列。当尺度因子设置为0.1时,重构出的6个视频序列所有图像的平均峰值信噪比(PSNR)为34.32。当尺度因子设置为0.2时,平均峰值信噪比为35.82。当尺度因子设置为0.3时,平均峰值信噪比为36.97。
此外,相较于训练多个不同码率点的编解码网络模型实现可变码率,本发明提供的基于尺度因子对特征图进行尺度缩放的可变码率视频压缩方法训练时长和模型总的参数量也大大减小,仅需使用单个模型就能实现任意码率点的视频编解码。因此可以根据实际要求通过设置不同的尺度因子来平衡二进制码流大小和平均峰值信噪比。
根据本发明的相同构思,在本发明的其他实施例中,提供一种可变码率视频压缩系统,包括:
S100、可变码率帧内编解码子系统:在编码端,将参考帧图像通过卷积神经网络,得到参考帧的第一特征图,并通过特征图尺度缩放及可导量化得到参考帧的量化第二特征图。经过无损熵编码并传输后。在解码端,将参考帧的量化第二特征图进行逆缩放后,通过卷积神经网络得到重构的参考帧,具体请参考图2,包括:
S110、图像特征提取模块:将参考帧图像通过卷积神经网络,生成参考帧图像的多通道特征图,作为参考帧的第一特征图。
S120、特征图缩放模块:将S110生成参考帧的第一特征图与尺度因子相乘的结果作为参考帧的第二特征图,并输出尺度因子二进制码流;
S130、均匀量化模块:将S120生成的参考帧的第二特征图均匀量化为整数,得到参考帧的第二特征图;
S140、帧内熵编码模块,对S130生成的参考帧的第二特征图进行算术编码,获得参考帧特征图的二进制码流;
S150、码流合成模块:合并S120产生的尺度因子二进制码流、S140产生的参考帧的第二特征图二进制码流,得到压缩参考帧图像的二进制码流。
S160、码流分解模块:分解压缩参考帧图像二进制码流,得到尺度因子二进制码流,参考帧的第二特征图的二进制码流。
S170、特征图解码模块:对S160产生的参考帧的特征图二进制码流进行算术解码,得到参考帧重构的第二特征图;
S180、特征图逆缩放模块:利用S160得到的尺度因子二进制码流将S170得到的参考帧重构的第二特征图进行逆缩放,获得参考帧重构的第一特征图;
S190、图像重构模块:利用S180得到的参考帧重构的第一特征图进行重构,生成参考帧重构图像。
S200、可变码率帧间编码子系统:在编码端,将预测真图像通过卷积神经网络,得到预测帧的第一特征图,并通过特征图尺度缩放及量化得到预测帧的量化第二特征图。将预测帧的第二特征图与得到的参考帧的第二特征图相减,得到特征图残差,具体请参考图3,包括:
S210、图像特征提取模块:该模块与S110完全相同,将预测帧图像通过卷积神经网络,生成预测帧图像的多通道特征图,作为预测帧的第一特征图。
S220、特征图缩放模块:该模块与S120完全相同,将S210生成的预测帧的第一特征图与尺度因子相乘的结果作为预测帧的第二特征图,并输出尺度因子二进制码流;
S230、均匀量化模块:该模块与S130完全相同,将S220生成的预测帧的第二特征图均匀量化为整数,得到预测帧的第二特征图;
S240、特征图残差获取模块:将S130生成的参考帧的量化的第二特则会那个图与S230生成的预测帧的第二特征图相减,得到待编码的特征图残差。
S300、帧间残差熵编码子系统:利用得到的参考帧的第二特征图作为先验信息,对特征图残差进行无损熵编码,并传输至解码端,具体请参考图4,包括:
S310、超先验信息提取模块:通过卷积神经网络从S230生成的预测帧的第二特征图提取超先验信息;
S320、超先验信息编码模块:对S310提取的超先验信息进行量化和算术编码,获得超先验信息二进制码流;
S330、超先验信息解码模块:对S320产生的超先验信息二进制码流进行算术解码;
S340、超先验信息重构模块:通过卷积神经网络,由S330生成的算术解码结果恢复出超先验信息;
S350、上下文建模模块:对S240生成的特征图残差进行上下文重组建模,具体参见图6,包括:
S351、空域上下文信息提取子模块:提取S240生成的特征图残差提供的空域上下文信息;
S352、时域上下文信息提取子模块:提取S130生成的参考帧第二特征图提供的时域上下文信息;
S353、熵编码分布估计子模块:利用S340得到的超先验信息及S351、S352得到的上下文信息估计用于编码特征图残差所需的高斯分布均值与方差;
S360、特征图编码模块:根据S353生成的编码高斯分布对S240生成的特征图残差进行算术编码,获得特征图残差二进制码流;
S370、码流合成模块:S320产生的超先验信息二进制码流和S360产生的特征图残差二进制码流,得到压缩预测帧图像二进制码流。
S400、可变码率帧间解码子系统:在解码端,将特征图残差与得到的参考帧的第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧,具体请参考图5,包括:
S410、码流分解模块:分解压缩预测帧图像二进制码流,得到超先验信息二进制码流和特征图残差二进制码流;
S420、超先验信息解码模块:该模块与S330完全相同,对S410产生的超先验信息二进制码流进行算术解码;
S430、超先验信息重构模块:该模块与S340完全相同,通过卷积神经网络,从S420生成的算术解码结果恢复超先验信息;
S440、上下文建模模块:该模块与S350完全相同,对渐进恢复的特征图残差进行上下文建模,具体参见图6,包括:
S441、空域上下文信息提取子模块:该模块与S351完全相同,提取渐进恢复的特征图残差提供的空域上下文信息;
S442、时域上下文信息提取子模块:该模块与S352完全相同,提取参考帧第二特征图提供的时域上下文信息;
S443、熵编码分布估计子模块:该模块与S353完全相同,利用S430得到的超先验信息和S441、S442得到的上下文信息估计用于编码特征图残差所需的高斯分布均值与方差;
S450、特征图解码模块:根据S443产生的高斯分布对S410产生的特征图二进制码流进行算术解码;
S460、特征图残差补偿模块:利用S450解码得到的特征图残差与S170已解码好的参考帧第二特征图相加,得到预测帧重构的第二特征图;
S470、特征图逆缩放模块:利用S160得到的尺度因子二进制码流将S460得到的预测帧重构的第二特征图进行逆缩放,获得预测帧重构的第一特征图;
S480、预测帧图像重构模块:利用S470得到的第一特征图进行重构,生成预测帧重构图像。
基于相同的发明构思,在本发明的其他实施例中,还提供了一种视频压缩装置,采用上述实施例中的可变码率视频压缩方法进行视频压缩。
基于相同的发明构思,在本发明的其他实施例中,还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行上述实施例中的方法,或,运行上述实施例中的系统,或,运行上述实施例红的装置。
基于相同的发明构思,在本发明的其他实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行执行上述实施例中的方法,或,运行上述实施例中的系统,或,运行上述实施例红的装置。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种可变码率视频压缩方法,其特征在于,包括:
可变码率帧内编解码:在编码端,将参考帧图像通过卷积神经网络,得到参考帧第一特征图,并通过特征图尺度缩放及量化得到参考帧第二特征图;经过无损熵编码并传输;在解码端,将所述参考帧第二特征图进行逆缩放后,通过卷积神经网络得到重构的参考帧;
可变码率帧间编码:在编码端,将预测帧图像通过卷积神经网络,得到预测帧第一特征图,并通过特征图尺度缩放及量化得到预测帧第二特征图;将所述预测帧第二特征图与所述参考帧第二特征图相减,得到特征图残差;
帧间残差熵编码:基于所述参考帧第二特征图,对所述特征图残差进行无损熵编码,并传输至解码端;
可变码率帧间解码:在解码端,将所述特征图残差与所述参考帧第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧。
2.根据权利要求1所述的一种可变码率视频压缩方法,其特征在于,所述可变码率帧内编解码,包括:
将参考帧图像通过卷积神经网络,提取得到参考帧第一特征图;
将所述参考帧第一特征图与尺度因子相乘得到所述参考帧第二特征图;
对所述参考帧第二特征图,通过添加均匀噪声的方式模拟量化,生成参考帧量化第二特征图;
对于所述参考帧量化第二特征图,利用无损熵编码进行编码传输;
在解码端,将所述参考帧量化第二特征图与尺度逆因子相乘,得到重构的参考帧第一特征图;
将所述重构的参考帧第一特征图通过卷积神经网络,得到重构的参考帧图像。
3.根据权利要求1所述的一种可变码率视频压缩方法,其特征在于,所述可变码率帧间编码,包括:
将预测帧图像通过卷积神经网络,提取得到预测帧第一特征图;
将所述预测帧第一特征图与尺度因子相乘得到所述预测帧第二特征图;
对于所述预测帧第二特征图,通过添加均匀噪声的方式模拟量化,生成预测帧量化第二特征图;
将参考帧的第二特征图与预测帧的第二特征图相减,得到待编码的特征图残差。
4.根据权利要求1所述的可变码率视频压缩方法,其特征在于,所述帧间残差熵编码,包括:
将所述参考帧第二特征图和所述预测帧第二特征图进行拼接后,通过卷积神经网络,得到超先验信息;
将所述超先验信息通过卷积神经网络,得到重构的超先验信息;
对于所述重构的超先验信息,通过添加均匀噪声的方式模拟量化,生成量化的超先验信息;
根据所述参考帧第二特征图,以及所述特征图残差进行建模,得到用于编码特征残差的上下文信息;
根据构造分布,估计所述量化的超先验信息编码所需码率LBPP-H
根据高斯分布均值与方差,估计所述特征图残差编码所需码率LBPP-F
5.根据权利要求1所述的可变码率视频压缩方法,其特征在于,所述可变码率帧间解码,包括:
在解码端,将所述残差特征图与已解码好的参考帧第二特征图相加,得到预测帧重构的第二特征图。
将所述预测帧重构的第二特征图与尺度逆因子相乘,得到重构的预测帧第一特征图;
将所述重构的预测帧第一特征图通过卷积神经网络,得到重构的预测帧图像。
6.根据权利要求3所述的可变码率视频压缩方法,其特征在于,所述根据时域上已编码的参考帧特征图,以及特征参残差已编码好的部分特征图进行建模,得到用于编码特征残差的上下文,包括:
时域上下文信息提取:利用参考帧特征图,提取在时域维度上的上下文信息;
空域上下文信息提取:提取参考帧与预测帧的特征残差在空域维度上的上下文信息;
熵编码分布估计:融合所述上下文信息和所述超先验信息,估计用于编码的高斯分布的均值和方差,并将其输出到算术编码。
7.一种可变码率视频压缩系统,其特征在于,包括:
可变码率帧内编解码模块:在编码端,将参考帧图像通过卷积神经网络,得到参考帧第一特征图,并通过特征图尺度缩放及量化得到参考帧的量化第二特征图;经过无损熵编码并传输后;在解码端,将所述参考帧的量化第二特征图进行逆缩放后,通过卷积神经网络得到重构的参考帧;
可变码率帧间编码模块:在编码端,将预测真图像通过卷积神经网络,得到预测帧第一特征图,并通过特征图尺度缩放及量化得到预测帧的量化第二特征图;将所述预测帧的量化第二特征图与所述参考帧的量化第二特征图相减,得到特征图残差;
帧间残差熵编码模块:利用所述得到的参考帧的第二特征图作为先验信息,对特征图残差进行无损熵编码,并传输至解码端;
可变码率帧间解码模块:在解码端,将所述特征图残差与所述得到的参考帧的第二特征图相加并逆缩放后,通过卷积神经网络得到重构的预测帧。
8.一种视频压缩装置,其特征在于,采用权利要求1-7任一项所述的一种可变码率视频压缩方法进行视频压缩。
9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求7中所述的系统,或,运行权利要求8中所述的装置。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-6中任一项所述的方法,或,运行权利要求7中所述的系统,或,运行权利要求8中所述的装置。
CN202210042520.3A 2022-01-14 2022-01-14 一种可变码率视频压缩方法、系统、装置及存储介质 Pending CN114501013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210042520.3A CN114501013A (zh) 2022-01-14 2022-01-14 一种可变码率视频压缩方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210042520.3A CN114501013A (zh) 2022-01-14 2022-01-14 一种可变码率视频压缩方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114501013A true CN114501013A (zh) 2022-05-13

Family

ID=81512523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210042520.3A Pending CN114501013A (zh) 2022-01-14 2022-01-14 一种可变码率视频压缩方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114501013A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150628A (zh) * 2022-05-31 2022-10-04 北京航空航天大学 具有超先验引导模式预测的由粗到细深度视频编码方法
CN115941966A (zh) * 2022-12-30 2023-04-07 深圳大学 一种视频压缩方法及电子设备
WO2024007820A1 (zh) * 2022-07-08 2024-01-11 华为技术有限公司 数据编解码方法及相关设备
WO2024078403A1 (zh) * 2022-10-13 2024-04-18 维沃移动通信有限公司 图像处理方法、装置及设备
WO2024125099A1 (zh) * 2022-12-12 2024-06-20 上海交通大学 可变码率图像压缩方法、系统、装置、终端及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150628A (zh) * 2022-05-31 2022-10-04 北京航空航天大学 具有超先验引导模式预测的由粗到细深度视频编码方法
WO2024007820A1 (zh) * 2022-07-08 2024-01-11 华为技术有限公司 数据编解码方法及相关设备
WO2024078403A1 (zh) * 2022-10-13 2024-04-18 维沃移动通信有限公司 图像处理方法、装置及设备
WO2024125099A1 (zh) * 2022-12-12 2024-06-20 上海交通大学 可变码率图像压缩方法、系统、装置、终端及存储介质
CN115941966A (zh) * 2022-12-30 2023-04-07 深圳大学 一种视频压缩方法及电子设备
CN115941966B (zh) * 2022-12-30 2023-08-22 深圳大学 一种视频压缩方法及电子设备

Similar Documents

Publication Publication Date Title
CN114501013A (zh) 一种可变码率视频压缩方法、系统、装置及存储介质
CN103329522B (zh) 用于使用字典编码视频的方法
US8111755B2 (en) Method and system for low-complexity Slepian-Wolf rate estimation in Wyner-Ziv video encoding
EP3146719B1 (en) Re-encoding image sets using frequency-domain differences
WO2019045797A1 (en) MIXTURE OF PROBABILITIES FOR ENTROPY CODING IN A VIDEO COMPRESSION
JP2007503776A (ja) インター符号化に使われる参照画像数を最小化するための方法および装置
US9014499B2 (en) Distributed source coding using prediction modes obtained from side information
Abou-Elailah et al. Fusion of global and local motion estimation for distributed video coding
JP2005524352A (ja) 複数基準フレームに基づいた動き補償時間的フィルタ化を用いたスケーラブルなウェーブレット・ベースの符号化
KR100843080B1 (ko) 비디오 트랜스코딩 방법 및 장치
TWI468018B (zh) 使用向量量化解區塊過濾器之視訊編碼
Guo et al. Variable rate image compression with content adaptive optimization
WO2012006304A2 (en) Motion compensation using vector quantized interpolation filters
WO2005069629A1 (en) Video coding/decoding method and apparatus
WO2003081918A1 (en) Video codec with hierarchical motion estimation in the wavelet domain
KR100961760B1 (ko) 이산코사인변환 계수를 참조하는 움직임 추정 방법 및 장치
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
Liu et al. Neural video compression using spatio-temporal priors
KR20110048004A (ko) 움직임 벡터 해상도 제한을 이용한 움직임 벡터 부호화/복호화 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
US9307257B2 (en) Method for improving compression efficiency of distributed source coding using intra-band information
WO2023077707A1 (zh) 视频编码方法、模型训练方法、设备和存储介质
Belyaev et al. A Low-Complexity Joint Source-Channel Videocoding for 3-D DWT Codec.
CN115529457A (zh) 基于深度学习的视频压缩方法和装置
Wu et al. Enhanced video compression with standardized bit stream syntax
JP4642033B2 (ja) 参照フレームの数を固定する符号化方式で画像の参照ブロックを取得する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination