CN111405283A - 基于深度学习的端到端视频压缩方法、系统及存储介质 - Google Patents

基于深度学习的端到端视频压缩方法、系统及存储介质 Download PDF

Info

Publication number
CN111405283A
CN111405283A CN202010104772.5A CN202010104772A CN111405283A CN 111405283 A CN111405283 A CN 111405283A CN 202010104772 A CN202010104772 A CN 202010104772A CN 111405283 A CN111405283 A CN 111405283A
Authority
CN
China
Prior art keywords
frame
key frame
key
coding
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010104772.5A
Other languages
English (en)
Other versions
CN111405283B (zh
Inventor
马思伟
贾川民
赵政辉
王苫社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010104772.5A priority Critical patent/CN111405283B/zh
Priority to PCT/CN2020/099445 priority patent/WO2021164176A1/zh
Publication of CN111405283A publication Critical patent/CN111405283A/zh
Application granted granted Critical
Publication of CN111405283B publication Critical patent/CN111405283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/21Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质,本申请的基于深度学习的端到端视频压缩方法通过将目标视频分为多个图像组;然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;其次,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;最后,非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。

Description

基于深度学习的端到端视频压缩方法、系统及存储介质
技术领域
本申请属于数字信号处理技术领域,具体地,涉及一种基于深度学习的端到端视频压缩方法、系统及存储介质。
背景技术
视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受,因而经编码压缩后的视频才是宜在网络中传输中的信息,视频编码技术已成为目前国内外学术研究和工业应用的热点之一。
近年来基于深度神经网络的图像编码方法成为编码领域的研究热点,它通过端到端建模自编码器(Auto-encoder)结构,优化图像重建损失函数,并利用熵估计模型近似估算自编码器结构中瓶颈层(Bottleneck Layer)的码字分布实现率失真优化。在此基础之上,熵估计模型被不断改进提升,基于混合高斯模型以及基于高斯超先验分布熵估计模型的概率估计模型被提出,并结合基于自回归模型(Auto-regressive)的PixelCNN框架建立瓶颈层码字的上下文模型。这一类端到端图像压缩的目标函数可以表示为:
Figure BDA0002388173080000011
其中,x和
Figure BDA0002388173080000012
分别代表原始像素与瓶颈层未量化像素,y和
Figure BDA0002388173080000013
分别代表瓶颈层未量化及量化后的码字,C为常数。
端到端神经网络对于视频压缩有着重要的意义。传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪,在面临更高效的视频压缩时遭遇了新的挑战。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对应保证视频压缩框架的整体率失真性能仍然具有很大的挑战,因此设计开发一种利用深度神经网络实现端到端视频编码的同时可以保证较好的率失真性能的视频压缩方法及系统显得是至关重要。
发明内容
本发明提出了一种基于深度学习的端到端视频压缩方法、系统及存储介质,旨在解决现有技术中视频压缩编码中无法保证较好率失真性能的问题。
根据本申请实施例的第一个方面,提供了一种基于深度学习的端到端视频压缩方法,包括以下步骤:
将目标视频分为多个图像组;
对图像组中的关键帧进行端到端帧内编码得到关键帧编码;
关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
可选地,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息;
根据运动场信息得到非关键帧的帧间预测信息;
根据非关键帧的帧间预测信息以及非关键帧进行预测残差编码。
可选地,对图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,自编码器的瓶颈层进行上下文建模。
可选地,帧内编码框架在训练时的目标函数
Figure BDA0002388173080000021
公式为:
Figure BDA0002388173080000022
其中,x为输入图像,
Figure BDA0002388173080000023
为输出图像;
其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);
其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:
z=HyperEnc(y)
Figure BDA0002388173080000024
Figure BDA0002388173080000025
其中,
Figure BDA0002388173080000026
为经过量化后的超先验自编码器的码字,
Figure BDA0002388173080000027
为超先验正太分布的初步参数,采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。
可选地,环路滤波网络基于全卷积网络,环路滤波网络采用损失函数L2,环路滤波网络
Figure BDA0002388173080000028
具体公式为:
Figure BDA0002388173080000029
其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。
可选地,基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息,具体包括:
当关键帧重建帧只有一帧时,运动场信息需要通过自编码器编码得到,并写入码流中,运动场信息flow1的计算公式为:
flow1=Flownet(ft-1);
当关键帧重建帧数目大于一帧时,取相对当前非关键帧最临近的两帧重建帧得到运动场信息,此时运动场信息无需写入码流中,运动场信息flow2的计算公式为:
flow2=Flownet(ft-2,ft-1);
其中,f1为可使用的关键帧重建帧,Flownet为光流预测网络。
可选地,根据运动场信息得到非关键帧的帧间预测信息,具体包括:根据运动场信息的视频运动特征及解码缓存区的重建帧通过插值及图像处理技术生成非关键帧的帧间预测信号,帧间预测信号Framepred计算公式为:
Framepred=Warp(ft-1,flow);
其中,Warp为多项式插值方法,f1为可使用的关键帧重建帧,flow为非关键帧的运动场信息。
可选地,根据非关键帧的帧间预测信息以及非关键帧计算预测残差以及预测残差编码,具体包括:预测残差FrameResi计算公式为:
FrameResi=Frame-Framepred
其中,Frame为当前非关键帧的原始信号,Framepred为帧间预测信号;
预测残差FrameResi通过由全卷积网络构成的自编码器结构进行压缩编码,其瓶颈层被熵编码后写入码流中。
根据本申请实施例的第二个方面,提供了一种基于深度学习的端到端视频压缩系统,具体包括:
图像组模块:用于将目标视频分为多个图像组;
关键帧编码模块:用于对图像组中的关键帧进行端到端帧内编码得到关键帧编码;
关键帧重建帧模块:用于将关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
非关键帧编码模块:用于基于解码缓冲区中的关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
非关键帧重建帧模块:用于将非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
根据本申请实施例的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现基于深度学习的端到端视频压缩方法。
采用本申请实施例中的基于深度学习的端到端视频压缩方法、系统及存储介质,通过将目标视频分为多个图像组;然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;其次,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;最后,非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。本申请采用与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1中示出了根据本申请实施例的一种基于深度学习的端到端视频压缩方法的步骤流程图;
图2中示出了根据本申请实施例的基于端到端深度神经网络的视频压缩方法的框架图;
图3中示出了根据本申请实施例的图像组GOP的结构划分方法;
图4中示出了根据本申请实施例的端到端视频压缩方法的关键帧的帧内编码网络结构图;
图5中示出了根据本申请实施例的端到端视频压缩方法的非关键帧的帧间编码框架图;
图6中示出了根据本申请实施例的帧内编码网络采用的Mask卷积的一种实施方法;
图7示出了根据本申请实施例的一种基于深度学习的端到端视频压缩系统的结构示意图。
具体实施方式
在实现本申请的过程中,发明人发现传统的混合编码框架及各个编码工具的局部率失真优化已经发展了半个世纪,在面临更高效的视频压缩时遭遇了新的挑战。而端到端视频编码框架能够突破传统框架局部优化的限制,通过建立起重建视频与原始视频的全局优化模型,并利用神经网络建模具有高维复杂解空间的率失真优化问题,从而实现视频编码框架的革新。常见的端到端视频编码技术主要通过设计整体可训练的网络分别用于视频编码帧内编码、帧间预测、残差编码和码率控制等模块。但是对应保证视频压缩框架的整体率失真性能仍然具有很大的挑战,因此亟需一种利用深度神经网络实现端到端视频编码的同时可以保证较好的率失真性能的视频压缩方法及系统。
针对上述问题,本申请实施例中提供了一种基于深度学习的端到端视频压缩方法、系统及存储介质,本申请提供的可以端到端训练的基于全卷积网络的视频压缩框架与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能。解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。
本申请利用卷积神经网络和视频处理技术,首先将视频分为图像组(Groupofpictures,GOP)进行编码,对图像组GOP中经自适应选定的关键帧进行端到端帧内编码,并存储于解码缓存区;其次对于非关键帧编码,利用在解码缓存区中的已重构帧对每一个待编码帧进行基于深度网络的运动场估计,并用估计得到的运动信息生成帧间预测结果;最后对非关键帧的预测残差进行端到端残差编码;在视频重构存入解码缓存区时,关键帧和非关键帧均需要经过深度环路滤波模块进行重建。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的一种基于深度学习的端到端视频压缩方法的步骤流程图。
如图1所示,本实施例的基于深度学习的端到端视频压缩方法,具体包括以下步骤:
S101:将目标视频分为多个图像组;
S102:对图像组中的关键帧进行端到端帧内编码得到关键帧编码;
S103:关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
S104:基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
S105:非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
图2中示出了根据本申请实施例的基于端到端深度神经网络的视频压缩方法的框架图。
如图2所示,在本申请的压缩框架中,视频可以通过图像组GOP的方式被端到端的深度神经网络视频编码框架所压缩。首先对于GOP中的关键帧,采用基于高斯超先验分布的自编码架构进行压缩,并将压缩后的关键帧在进行基于深度卷积网络的环路滤波模块(CNNLoop Filter)后缓存至解码缓冲区(DecodedPictureBuffer,DPB)中。
图3中示出了根据本申请实施例的图像组GOP的结构划分方法。
如图3所示,本发明中关键帧被设置为图像组GOP的第一帧。
其它的,关键帧可以是GOP中的第一帧,也可以是非第一帧;再使用带有超先验结构的自编码器网络的方法对该关键帧进行编码,自编码器种类为高斯分布、混合高斯分布及拉普拉斯分布等。
图4中示出了根据本申请实施例的端到端视频压缩方法的关键帧的帧内编码网络结构图。
如图4所示,对图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,同时对自编码器的瓶颈层设计了上下文建模框架。
本申请对采用端到端的训练方式,目标是得到与输入图像x在信号层面高度相似的输出图像
Figure BDA0002388173080000068
对于输入图像x,该自编码器将图像编码成一个隐变量y,
y=Enc(x)
本方案假设该隐变量y的先验分布为服从均值μ,方差为σ的正态分布,
y~N(μ,σ),
其中,均值μ和方差σ是根据超先验自编码器,通过端到端学习得到,具体为:
z=HyperEnc(y),
Figure BDA0002388173080000061
Z为自编码器的码字,
Figure BDA0002388173080000062
为经过量化后的超先验自编码器的码字,
Figure BDA0002388173080000063
为超先验正太分布的初步参数。
不仅如此,在通过超先验自编码结构的输出后,本发明同时采用基于PixelCNN上下文建模方法对超先验自编码结构的结果进行提升处理,如图6所示,使用Mask的5x5卷积,输出为最终的超先验分布的参数。
Figure BDA0002388173080000064
因此帧内编码框架在训练时的目标函数
Figure BDA0002388173080000065
公式如下:
Figure BDA0002388173080000066
其中,x为输入图像,
Figure BDA0002388173080000067
为输出图像。
S103以及S105中,关于环路滤波,对于已编码的每一帧关键帧和非关键帧图像,都进行基于全卷积网络的环路滤波模块处理,从而提升主观与客观重建效果。
具体的,对已编码的重建图像为xrec,建立于其原始图像x之间的端到端全卷积映射,通过使用具有全局残差结构的九层卷积神经网络处理该重建图像,并得到最终的重建图像,同时存放于解码缓存区中。
进一步的,环路滤波网络采用损失函数L2,环路滤波网络
Figure BDA0002388173080000071
具体公式为:
Figure BDA0002388173080000072
其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。使用L2函数能够有效的保证数据的保真度。
S102中,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息;
根据运动场信息得到非关键帧的帧间预测信息;
根据非关键帧的帧间预测信息以及非关键帧进行预测残差编码。
关于非关键帧编码,本申请利用解码缓冲区DPB中已编码的帧生成当前非关键帧的运动场信息,并利用该信息将解码缓冲区DPB中的帧进行纹理对齐,从而得到当前编码帧的预测信息,再通过自编码器结构编码预测残差,将该自编码器的瓶颈层写入码流中,与关键帧编码类似,每一个非关键帧同样需要使用环路滤波模块处理提升重建质量。
具体的,运动场信息的视频运动特征具体包括视频运动场信息、纹理运动特征。视频运动特征表现形式包括但不限定于:光流场、运动矢量场、视差矢量场以及帧间梯度场等。
其中,视频运动特征提取方法具体为提取视频帧间运动特征方法,运动特征提取方法与对应表现形式的提取方法对应,包括但不限定于基于深度学习的方法如:光流模型、基于传统梯度提取方法等。
图5中示出了根据本申请实施例的端到端视频压缩方法的非关键帧的帧间编码框架图。
具体的,本申请对非关键帧的编码主要分为两个步骤,一是预测帧生成,二是预测残差编码。
一、对于预测帧生成:
首先,基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息,具体包括:
当关键帧重建帧只有一帧时,运动场信息需要通过自编码器编码得到,并写入码流中,运动场信息flow1的计算公式为:
flow1=Flownet(ft-1);
当关键帧重建帧数目大于一帧时,取相对当前非关键帧最临近的两帧重建帧得到运动场信息,此时运动场信息无需写入码流中,运动场信息flow2的计算公式为:
flow2=Flownet(ft-2,ft-1);
其中,f1为可使用的关键帧重建帧,Flownet为光流预测网络。
非关键帧预测网络的结构如图5所示,通过从解码缓存区中获取已编码的帧,并用最近邻的两已编码帧对当前编码的非关键帧进行预测,预测方法为使用光流网络(Flownet)得到解码缓存区中已编码帧。
进一步的,即当解码缓存区仅有一帧时,视频运动特征信息应当被写入码流中;当解码缓存区有多于一帧时,视频运动特征信息不被写入码流中。
其次,根据运动场信息得到非关键帧的帧间预测信息即预测帧生成,具体包括:根据运动场信息的视频运动特征及解码缓存区的重建帧通过插值及图像处理技术生成非关键帧的帧间预测信号,帧间预测信号Framepred计算公式为:
Framepred=Warp(ft-1,flow);
其中,Warp为多项式插值方法,f1为可使用的关键帧重建帧,flow为非关键帧的运动场信息。
二、对于预测残差编码,本申请中的图像组中所有非关键帧经过预测编码后,还需经过非关键帧残差编码模块,非关键帧残差编码模块的输入为原始非关键帧信号与预测信号的残差。
具体的,根据非关键帧的帧间预测信息以及非关键帧计算预测残差以及预测残差编码,具体包括:预测残差FrameResi计算公式为:
FrameResi=Frame-Framepred
其中,Frame为当前非关键帧的原始信号,Framepred为帧间预测信号;
预测残差FrameResi通过由全卷积网络构成的自编码器结构进行压缩编码,其瓶颈层被熵编码后写入码流中。
进一步的,S105中,非关键帧在重建时同样需要经过环路滤波网络进行重建后得到非关键帧重建帧,非关键帧重建帧FrameRec公式为:
Figure BDA0002388173080000081
进而得到最终的重建非关键帧,并且存入解码缓冲区中。
本申请非关键帧预测残差编码方法具体为使用根据具体情况设计、预先训练好的自编码器网络模型,将非关键帧的原始信号于其预测信号的残差作为生成网络的输入,得到重建残差,即完成压缩图像重建。
本申请端到端视频压缩框架中的环路滤波方法,关键帧和非关键帧在编码得到最终重建时,使用根据具体情况设计、训练好的基于卷积神经网络的环路滤波重建,其输入未滤波的关键帧或非关键帧,并存入解码缓存区中。
其中,端到端视频压缩框架中的码流结构z组织方法中,整体码流由多个图像组GOP的码流组成,每个图像的码流由关键帧和非关键帧码流组成,关键帧码流包括自编码器瓶颈层码流,非关键帧码流为运动场信息及其预测残差码流组成。
本申请的基于深度学习的端到端视频压缩方法具体包括深度学习方法,视频运动特征提取方法,端到端视频压缩方法,视频重建方法。通过端到端视频编码框架能够突破传统框架局部优化的限制,建立起重建视频与原始视频的全局优化模型,并利用神经网络建模具有高维复杂解空间的率失真优化问题,从而实现视频编码框架的革新。
其中,端到端视频压缩用到的深度学习方法具体为基于全卷积网络模型的深度学习方法;基于深度学习的方法包括但不限定于:变分自编码器、生成对抗网络及其变体与结合。
本申请基于深度学习的视频编码技术旨在利用多层深度非线性变换提取数据高层抽象特及其逆过程,从而得到视频编码的最优预测信号,并通过端到端残差编码的方式保证整体框架的率失真性能。最后,通过监督式的训练方法优化率失真函数,该率失真函数包括重建视频的数据保真项,以及编码残差所需要的额外代价。
实施例2
图7示出了根据本申请实施例的一种基于深度学习的端到端视频压缩系统的结构示意图。
如图7所示,本实施例提供的一种基于深度学习的端到端视频压缩系统,具体包括:
图像组模块10:用于将目标视频分为多个图像组;
关键帧编码模块20:用于对图像组中的关键帧进行端到端帧内编码得到关键帧编码;
关键帧重建帧模块30:用于将关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧,并存储于解码缓冲区;
非关键帧编码模块40:用于基于解码缓冲区中的关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
非关键帧重建帧模块50:用于将非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧,并存储于解码缓冲区。
关键帧编码模块20中,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于关键帧重建帧对图像组中的非关键帧进行运动场估计得到运动场信息;
根据运动场信息得到非关键帧的帧间预测信息;
根据非关键帧的帧间预测信息以及非关键帧进行预测残差编码。
端到端视频压缩框架中的关键帧重建帧模块30与非关键帧重建帧模块50中均包括环路滤波器,关键帧和非关键帧在编码得到最终重建时,使用根据具体情况设计、训练好的基于卷积神经网络的环路滤波器重建,输入未滤波的关键帧或非关键帧至环路滤波器后存入解码缓存区中。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行以实现如上任一内容所提供的基于深度学习的端到端视频压缩方法。
本申请提出了一种基于端到端深度神经网络的视频压缩框架。首先将视频组织为多个图像组,对图像组中的关键帧图像进行帧内编码,非关键帧图像进行帧间编码。帧内编码采用基于超先验结构的自编码结构并结合自回归模型进行上下文建模,帧间编码采用运动场导出预测和残差编码。能够实现端到端整体优化编码器架构,同时对帧间编码采用运动场导出的形式避免了大量传递帧间运动信息,极大的节省了码率,同时在重建过程中使用基于深度网络的环路滤波技术提升重建性能。与传统编码器相比,提出方法能在端到端全局优化视频编码器,同时无需传输帧间预测中的运动信息,在低码率下能够取得较好的编码性能。
基于同一发明构思,本申请实施例中还提供了一种计算机程序产品,由于该计算机程序产品解决问题的原理与本申请实施例一所提供的方法相似,因此该计算机程序产品的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于深度学习的端到端视频压缩方法,其特征在于,包括以下步骤:
将目标视频分为多个图像组;
对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;
所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
2.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码,具体包括:
基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息;
根据所述运动场信息得到非关键帧的帧间预测信息;
根据所述非关键帧的帧间预测信息以及所述非关键帧进行预测残差编码。
3.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码,具体采用基于超先验模型网络的端到端自编码器结构帧内编码框架,所述自编码器的瓶颈层进行上下文建模。
4.根据权利要求3所述的基于深度学习的端到端视频压缩方法,其特征在于,所述帧内编码框架在训练时的目标函数
Figure FDA0002388173070000011
公式为:
Figure FDA0002388173070000012
其中,x为输入图像,
Figure FDA0002388173070000013
为输出图像;
其中,y为根据图像编码的隐变量,y=Enc(x);隐变量y的先验分布为服从均值μ,方差为σ的正态分布,y~N(μ,σ);
其中,均值μ和方差σ是根据超先验自编码器通过端到端学习得到,具体为:
z=HyperEnc(y)
Figure FDA0002388173070000014
Figure FDA0002388173070000015
其中,
Figure FDA0002388173070000016
为经过量化后的超先验自编码器的码字,
Figure FDA0002388173070000017
为超先验正太分布的初步参数,采用基于PixelCNN上下文建模对超先验自编码结构的结果进行提升处理。
5.根据权利要求1所述的基于深度学习的端到端视频压缩方法,其特征在于,所述环路滤波网络基于全卷积网络,所述环路滤波网络采用损失函数L2,所述环路滤波网络
Figure FDA0002388173070000021
具体公式为:
Figure FDA0002388173070000022
其中,xrec表示输入的已编码图像,x为已编码图像对应的真实标签,n表示帧数。
6.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述基于所述关键帧重建帧对所述图像组中的非关键帧进行运动场估计得到运动场信息,具体包括:
当所述关键帧重建帧只有一帧时,所述运动场信息需要通过自编码器编码得到,并写入码流中,所述运动场信息flow1的计算公式为:
flow1=Flownet(ft-1);
当所述关键帧重建帧数目大于一帧时,取相对当前非关键帧最临近的两帧重建帧得到运动场信息,此时所述运动场信息无需写入码流中,所述运动场信息flow2的计算公式为:
flow2=Flownet(ft-2,ft-1);
其中,f1为可使用的关键帧重建帧,Flownet为光流预测网络。
7.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述根据所述运动场信息得到非关键帧的帧间预测信息,具体包括:根据所述运动场信息的视频运动特征及所述解码缓存区的重建帧通过插值及图像处理技术生成所述非关键帧的帧间预测信号,所述帧间预测信号Framepred计算公式为:
Framepred=Warp(ft-1,flow);
其中,Warp为多项式插值方法,f1为可使用的关键帧重建帧,flow为非关键帧的运动场信息。
8.根据权利要求2所述的基于深度学习的端到端视频压缩方法,其特征在于,所述根据所述非关键帧的帧间预测信息以及所述非关键帧计算预测残差以及预测残差编码,具体包括:所述预测残差FrameResi计算公式为:
FrameResi=Frame-Framepred
其中,Frame为当前非关键帧的原始信号,Framepred为帧间预测信号;
预测残差FrameResi通过由全卷积网络构成的自编码器结构进行压缩编码,其瓶颈层被熵编码后写入码流中。
9.一种基于深度学习的端到端视频压缩系统,其特征在于,具体包括:
图像组模块:用于将目标视频分为多个图像组;
关键帧编码模块:用于对所述图像组中的关键帧进行端到端帧内编码得到关键帧编码;
关键帧重建帧模块:用于将所述关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;
非关键帧编码模块:用于基于所述关键帧重建帧对所述图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;
非关键帧重建帧模块:用于将所述非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-8任一项所述的基于深度学习的端到端视频压缩方法。
CN202010104772.5A 2020-02-20 2020-02-20 基于深度学习的端到端视频压缩方法、系统及存储介质 Active CN111405283B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010104772.5A CN111405283B (zh) 2020-02-20 2020-02-20 基于深度学习的端到端视频压缩方法、系统及存储介质
PCT/CN2020/099445 WO2021164176A1 (zh) 2020-02-20 2020-06-30 基于深度学习的端到端视频压缩方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010104772.5A CN111405283B (zh) 2020-02-20 2020-02-20 基于深度学习的端到端视频压缩方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111405283A true CN111405283A (zh) 2020-07-10
CN111405283B CN111405283B (zh) 2022-09-02

Family

ID=71428456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010104772.5A Active CN111405283B (zh) 2020-02-20 2020-02-20 基于深度学习的端到端视频压缩方法、系统及存储介质

Country Status (2)

Country Link
CN (1) CN111405283B (zh)
WO (1) WO2021164176A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN112866697A (zh) * 2020-12-31 2021-05-28 杭州海康威视数字技术股份有限公司 视频图像编解码方法、装置、电子设备及存储介质
CN113179403A (zh) * 2021-03-31 2021-07-27 宁波大学 一种基于深度学习重建的水下视频对象编码方法
CN113382247A (zh) * 2021-06-09 2021-09-10 西安电子科技大学 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
CN114095728A (zh) * 2022-01-21 2022-02-25 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
WO2022184031A1 (zh) * 2021-03-04 2022-09-09 华为技术有限公司 视频编解码方法及装置
WO2023279968A1 (zh) * 2021-07-09 2023-01-12 华为技术有限公司 视频图像的编解码方法及装置
WO2023051653A1 (en) * 2021-09-29 2023-04-06 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing
CN116939210A (zh) * 2023-09-13 2023-10-24 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置
WO2023207836A1 (zh) * 2022-04-26 2023-11-02 华为技术有限公司 一种图像编码方法、图像解压方法以及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709504B (zh) * 2021-10-27 2022-02-15 深圳传音控股股份有限公司 图像处理方法、智能终端及可读存储介质
CN114513658B (zh) * 2022-01-04 2024-04-02 聚好看科技股份有限公司 一种视频加载方法、装置、设备及介质
CN114630129A (zh) * 2022-02-07 2022-06-14 浙江智慧视频安防创新中心有限公司 一种基于智能数字视网膜的视频编解码方法和装置
CN114363617A (zh) * 2022-03-18 2022-04-15 武汉大学 一种网络轻量级视频流传输方法、系统及设备
CN114926555B (zh) * 2022-03-25 2023-10-24 江苏预立新能源科技有限公司 一种安防监控设备数据智能压缩方法与系统
CN115086715A (zh) * 2022-06-13 2022-09-20 北华航天工业学院 一种无人机定量遥感应用的数据压缩方法
CN115278249A (zh) * 2022-06-27 2022-11-01 北京大学 基于视觉自注意力网络的视频块级率失真优化方法及系统
CN115049541B (zh) * 2022-07-14 2024-05-07 广州大学 基于神经网络与图像隐写的可逆灰度方法、系统及装置
CN115529457B (zh) * 2022-09-05 2024-05-14 清华大学 基于深度学习的视频压缩方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921789A (zh) * 2018-06-20 2018-11-30 华北电力大学 基于递归残差网络的超分辨率图像重建方法
US20190273948A1 (en) * 2019-01-08 2019-09-05 Intel Corporation Method and system of neural network loop filtering for video coding
CN110351568A (zh) * 2019-06-13 2019-10-18 天津大学 一种基于深度卷积网络的视频环路滤波器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201607994D0 (en) * 2016-05-06 2016-06-22 Magic Pony Technology Ltd Encoder pre-analyser
CN109151475B (zh) * 2017-06-27 2020-03-27 杭州海康威视数字技术股份有限公司 一种视频编码方法、解码方法、装置及电子设备
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
CN110349141A (zh) * 2019-07-04 2019-10-18 复旦大学附属肿瘤医院 一种乳腺病灶定位方法和系统
CN110443173B (zh) * 2019-07-26 2021-08-20 华中科技大学 一种基于帧间关系的视频实例分割方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921789A (zh) * 2018-06-20 2018-11-30 华北电力大学 基于递归残差网络的超分辨率图像重建方法
US20190273948A1 (en) * 2019-01-08 2019-09-05 Intel Corporation Method and system of neural network loop filtering for video coding
CN110351568A (zh) * 2019-06-13 2019-10-18 天津大学 一种基于深度卷积网络的视频环路滤波器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABDELAZIZ DJELOUAH ET AL.: "Neural Inter-Frame Compression for Video Coding", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
DAVID MINNEN ET AL.: "Joint Autoregressive and Hierarchical Priors for Learned Image Compression", 《32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2018)》 *
YINGBIN WANG ET AL.: "Dense Residual Convolutional Neural Network based In-Loop Filter for VVC", 《JVET-K0391-V1》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203093A (zh) * 2020-10-12 2021-01-08 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN112203093B (zh) * 2020-10-12 2022-07-01 苏州天必佑科技有限公司 一种基于深度神经网络的信号处理方法
CN112866697B (zh) * 2020-12-31 2022-04-05 杭州海康威视数字技术股份有限公司 视频图像编解码方法、装置、电子设备及存储介质
CN112866697A (zh) * 2020-12-31 2021-05-28 杭州海康威视数字技术股份有限公司 视频图像编解码方法、装置、电子设备及存储介质
WO2022184031A1 (zh) * 2021-03-04 2022-09-09 华为技术有限公司 视频编解码方法及装置
CN113179403B (zh) * 2021-03-31 2023-06-06 宁波大学 一种基于深度学习重建的水下视频对象编码方法
CN113179403A (zh) * 2021-03-31 2021-07-27 宁波大学 一种基于深度学习重建的水下视频对象编码方法
CN113382247A (zh) * 2021-06-09 2021-09-10 西安电子科技大学 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
CN113382247B (zh) * 2021-06-09 2022-10-18 西安电子科技大学 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
WO2023279968A1 (zh) * 2021-07-09 2023-01-12 华为技术有限公司 视频图像的编解码方法及装置
WO2023051653A1 (en) * 2021-09-29 2023-04-06 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing
CN114386595A (zh) * 2021-12-24 2022-04-22 西南交通大学 一种基于超先验架构的sar图像压缩方法
CN114095728A (zh) * 2022-01-21 2022-02-25 浙江大华技术股份有限公司 一种端到端的视频压缩方法、装置和计算机可读存储介质
WO2023207836A1 (zh) * 2022-04-26 2023-11-02 华为技术有限公司 一种图像编码方法、图像解压方法以及装置
CN116939210A (zh) * 2023-09-13 2023-10-24 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置
CN116939210B (zh) * 2023-09-13 2023-11-17 瀚博半导体(上海)有限公司 基于自编码器的图像压缩方法和装置

Also Published As

Publication number Publication date
WO2021164176A1 (zh) 2021-08-26
CN111405283B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111405283B (zh) 基于深度学习的端到端视频压缩方法、系统及存储介质
US11589041B2 (en) Method and apparatus of neural network based processing in video coding
Hu et al. Improving deep video compression by resolution-adaptive flow coding
Sheng et al. Temporal context mining for learned video compression
CN101049006B (zh) 图像编码方法及装置以及图像解码方法及装置
Golinski et al. Feedback recurrent autoencoder for video compression
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
CN101883284B (zh) 基于背景建模和可选差分模式的视频编/解码方法及系统
US20230291909A1 (en) Coding video frame key points to enable reconstruction of video frame
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
KR20200114436A (ko) 스케일러블 영상 부호화를 수행하는 장치 및 방법
TWI729378B (zh) 視訊編解碼的神經網路方法和裝置
CN110740319B (zh) 视频编解码方法、装置、电子设备及存储介质
Chen et al. Compressed domain deep video super-resolution
Liu et al. End-to-end neural video coding using a compound spatiotemporal representation
CN113068041B (zh) 一种智能仿射运动补偿编码方法
US20220335560A1 (en) Watermark-Based Image Reconstruction
KR102245682B1 (ko) 영상 압축 장치, 이의 학습 장치 및 방법
CN112954350B (zh) 一种基于帧分类的视频后处理优化方法及装置
CN112468826B (zh) 一种基于多层gan的vvc环路滤波方法及系统
CN114727116A (zh) 编码方法及装置
CN114222124B (zh) 一种编解码方法及设备
Dhungel et al. An Efficient Video Compression Network
US20240161238A1 (en) Method and device with image processing
CN102333220A (zh) 一种选择在变换域完成预测编码的视频编解码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant