CN115529457A - 基于深度学习的视频压缩方法和装置 - Google Patents

基于深度学习的视频压缩方法和装置 Download PDF

Info

Publication number
CN115529457A
CN115529457A CN202211080678.6A CN202211080678A CN115529457A CN 115529457 A CN115529457 A CN 115529457A CN 202211080678 A CN202211080678 A CN 202211080678A CN 115529457 A CN115529457 A CN 115529457A
Authority
CN
China
Prior art keywords
frame
image group
coded
network structure
video compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211080678.6A
Other languages
English (en)
Other versions
CN115529457B (zh
Inventor
王岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211080678.6A priority Critical patent/CN115529457B/zh
Publication of CN115529457A publication Critical patent/CN115529457A/zh
Application granted granted Critical
Publication of CN115529457B publication Critical patent/CN115529457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供基于深度学习的视频压缩方法和装置,将目标视频拆分为多个IPPP结构的图像组;利用预存的深度神经网络模型中的第一网络结构编码图像组中的I帧,第二网络结构编码图像组中的P帧,得到图像组的编码数据;将各个图像组的编码数据的组合作为目标视频的压缩数据;其中,第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化处理得到的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;本发明构建具有自主学习上下文特征能力的且以上下文特征为编码条件的深度学习网络模型,从而充分挖掘视频中的时空冗余,使视频压缩能够达到更好的率失真性能。

Description

基于深度学习的视频压缩方法和装置
技术领域
本发明涉及图像处理技术领域,尤其涉及基于深度学习的视频压缩方法和装置。
背景技术
视频压缩在网络传输过程中的本地存储中是一个很重要的处理方法。对于那些每一帧为YUV420格式的原始视频数据,没有任何的有线网络能满足实时传输这样的视频内容。因此视频编码技术应运而生。由于深度学习在图像和视频处理上的优秀表现,基于深度学习的视频编码有着比传统方法更好的表现和前景。
目前,基于深度学习的视频压缩技术均利用残差编码框架实现,其通过运动估计获得运动向量信息后,经由相对固定的计算模式得到残差信息;进而将运动信息和残差信息作为编解码的依据实现视频编解码。
但是,残差编码框架不能充分的利用上下文特征,难以更充分的挖掘视频中的时空冗余,视频压缩的率失真性能有待提高。
发明内容
本发明提供一种基于深度学习的视频压缩方法和装置,用以解决现有技术中采用残差编码框架的视频压缩技术不能充分利用上下文特征的缺陷,提出具有自主学习上下文特征能力的且以上下文特征为编码条件的深度学习网络模型,从而充分挖掘视频中的时空冗余,使视频压缩能够达到更好的率失真性能。
本发明提供一种基于深度学习的视频压缩方法,包括:
将目标视频拆分为多个IPPP结构的图像组;
利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
根据本发明提供的基于深度学习的视频压缩方法,所述第一网络结构包括I帧编码器;利用第一网络结构编码所述图像组中的I帧,包括:
利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
根据本发明提供的基于深度学习的视频压缩方法,所述深度神经网络模型还包括像素特征提取与细化结构;利用第二网络结构编码所述图像组中的P帧之前,还包括:
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
根据本发明提供的基于深度学习的视频压缩方法,所述第二网络结构包括上下文编码器、量化结构和熵编码器;利用第二网络结构编码所述图像组中的P帧,包括:
将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
利用所述量化结构量化所述隐特征,得到所述隐特征的量化结果;
将所述隐特征的量化结果以及所述图像组中待编码P帧的时间上下文信息输入所述熵编码器,得到所述图像组中待编码P帧的编码帧。
根据本发明提供的基于深度学习的视频压缩方法,所述深度神经网络模型还包括第三网络结构和第四网络结构;
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构之前,还包括:
确定所述图像组中待编码P帧前一帧是否为所述图像组中的I帧;
若是,利用所述第三网络结构解码所述I帧的编码帧,得到所述I帧的解码帧;
若否,利用所述第四网络结构解码所述图像组中待编码P帧前一帧的编码帧,得到所述图像组中待编码P帧前一帧的解码帧。
根据本发明提供的基于深度学习的视频压缩方法,所述像素特征提取与细化结构包括特征提取器和上下文细化结构;
所述将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息,具体包括:
利用所述特征提取器,对所述图像组中待编码P帧前一帧的解码帧进行像素特征提取,得到多通道像素特征;
利用上下文细化结构微调所述多通道像素特征,得到所述图像组中待编码P帧的时间上下文信息。
根据本发明提供的基于深度学习的视频压缩方法,所述深度神经网络模型是基于数据集构建的;所述数据集包括训练集、验证集和测试集;所述训练集、所述验证集和所述测试集均由IPPP结构的图像组组成;
在构建所述深度神经网络模型的过程中,所述第一网络结构以输入图像组中的I帧及其解码帧的差异优化网络参数,所述第二网络结构以输入图像组中的P帧及其解码帧的差异优化网络参数。
本发明还提供一种基于深度学习的视频压缩装置,包括:
拆分模块,用于将目标视频拆分为多个IPPP结构的图像组;
编码模块,用于利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
设定模块,用于将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度学习的视频压缩方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度学习的视频压缩方法。
本发明提供的一种基于深度学习的视频压缩方法和装置,预先利用IPPP帧结构图像组组成的数据集构建深度神经网络模型,该深度神经网络模型中的第一网络结构用于无需参考其他帧的情况下编码输入图像组中的I帧,第二网络结构以输入图像组中待编码P帧前一帧的编码帧和对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化处理后得到的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧。网络模型结构与训练策略简单,能够充分的利用上下文特征,从而更充分的挖掘视频中的时空冗余,且具有较强的可扩展性。在应用阶段,将目标视频拆分为多个IPPP结构的图像组;分别利用深度神经网络模型压缩各个图像组以得到目标视频的压缩数据;视频压缩能达到更好的率失真性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于深度学习的视频压缩方法的流程示意图;
图2是本发明提供的深度神经网络模型的结构示意图;
图3是本发明提供的基于深度学习的视频压缩装置的结构示意图;
图4是本发明提供的实现基于深度学习的视频压缩方法的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为更好的阐述本发明,提供专利领域特有的缩略词解释。
I帧:Intra-frame,帧内编码帧,编解码时无需参考其他帧。
P帧:Predictive-frame,前向预测帧,编解码时需要参考前面的I帧或P帧。
GoP:Group of Pictures,图像组,两个相邻I帧之间的图像构成的组。
bpp:bits per pixel,每像素比特数,编码每像素的颜色信息所需要的平均比特数。
PSNR:Peak Signal-to-Noise Ratio,峰值信噪比,是用于衡量图像重建质量的客观指标,定义为
Figure BDA0003833031680000061
其中MAXI是表示图像颜色(RGB)的最大数值,MSE是原始图像和重建图像的均方误差。PSNR的单位是分贝(decibel,dB)。
下面结合图1-图4描述本发明基于深度学习的视频压缩方法和装置。
第一方面,本发明提供基于深度学习的视频压缩方法,如图1所示,包括:
S11、将目标视频拆分为多个IPPP结构的图像组;
根据视频压缩技术领域中H.264基本框架的定义,每个图像组呈IPPP结构,其中I帧是指帧内编码的图像,P帧是指支持前向预测的图像。
S12、利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
即利用深度神经网络模型实现对每一个图像组进行编码,得到由所述图像组各帧编码帧组成的编码数据;
示例为:定义i和j分别表示第i个图像组和第i个图像组的第j帧,对第i个图像组进行编码,具体包括:
步骤1:初始化j=1;
步骤2:j=1是否成立;
步骤3:若成立,则利用深度神经网络模型的第一网络结构编码第i个图像组的第j帧;
若不成立,则以第i个图像组的j-1帧编码帧和对第i个图像组的第j-1帧的解码帧进行像素特征提取与细化处理后得到的时间上下文信息组成的隐式表示为条件,利用深度神经网络模型的第二网络结构编码第i个图像组的j帧;
步骤4:第i个图像组的第j帧是否为第i个图像组最后一帧;
步骤5:若是,输出第i个图像组的各帧编码帧;若否,j=j+1并返回步骤2。
S13、将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
因为深度神经网络具有自主学习上下文特征的能力,如果还采用残差计算这种相对固定的计算模式,将不能很好地发挥学习上下文的潜力。因此本发明构建基于条件隐式流的深度学习模型,该模型在条件编码框架的基础上,重点关注了隐式流(条件编码过程中产生的上下文信息,对于待编码P帧而言上下文信息为对待编码P帧前一帧的解码帧进行像素特征提取与细化处理得到的时间上下文信息和待编码P帧前一帧的编码帧的组合)对P帧压缩的作用,使得模型能更加充分地挖掘视频中的时空冗余。
本发明提供的一种基于深度学习的视频压缩方法,预先利用IPPP帧结构图像组组成的数据集构建深度神经网络模型,该深度神经网络模型中的第一网络结构用于无需参考其他帧的情况下编码输入图像组中的I帧,第二网络结构以输入图像组中待编码P帧前一帧的编码帧和对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化处理后得到的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧。网络模型结构与训练策略简单,能够充分的利用上下文特征,从而更充分的挖掘视频中的时空冗余,且具有较强的可扩展性。在应用阶段,将目标视频拆分为多个IPPP结构的图像组;分别利用深度神经网络模型压缩各个图像组以得到目标视频的压缩数据;视频压缩能达到更好的率失真性能。
在上述各实施例的基础上,作为一种可选的实施例,所述第一网络结构包括I帧编码器;利用第一网络结构编码所述图像组中的I帧,包括:
利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
I帧编码器,用于图片压缩,“紧致表示”就是图片压缩得到的表示。
对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
即使经过量化、熵编码得到I帧对应的编码帧(二进制码流)。可以想到的是,用于解码I帧的第三网络结构,将该二进制码流经过熵解码、反量化后输入I帧解码器,输出I帧的解码帧。
本发明在无需参考其他帧的情况下编码图像组中的I帧,并未P帧的编码奠定基础。
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型还包括像素特征提取与细化结构;利用第二网络结构编码所述图像组中的P帧之前,还包括:
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
本发明舍弃残差编码框架,避免利用预训练的光流网络结构计算光流信息时,因光流网络结构复杂且体积较大,使得端到端视频压缩变得困难的问题;以条件编码框架替换残差编码框架,利用特征提取方式将图像从像素域转为特征域,提升图像时间上下文信息的挖掘利用效率,达到更好的去除时间冗余的效果。
在上述各实施例的基础上,作为一种可选的实施例,所述第二网络结构包括上下文编码器、量化结构和熵编码器;利用第二网络结构编码所述图像组中的P帧,包括:
将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
利用所述量化结构量化所述隐特征,得到所述隐特征的量化结果;
将所述隐特征的量化结果以及所述图像组中待编码P帧的时间上下文信息输入所述熵编码器,得到所述图像组中待编码P帧的编码帧。
需要注意的是,熵编码器是为了提取待编码P帧的隐特征的概率分布,其作用是将上下文编码器得到的结果做进一步的压缩。
熵模型即熵编码器,可以直接使用常规的结构,例如基于上下文的自适应二进制算术编码(CABAC)、超先验熵编码模型(Hyper Prior Encoder)等。
可以理解的是,待编码P帧的编码帧(二进制码流)经过熵解码、反量化操作后输入上下文解码器,同时将待编码P帧的时间上下文信息作为解码的条件也输入上下文解码器,输出待编码P帧的解码帧。
本发明将待编码P帧的时间上下文信息和待编码P帧前一帧的编码帧作为编码的条件送入上下文编码器,以能够更好地利用上下文信息,去除待编码P帧时间上的冗余。
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型还包括第三网络结构和第四网络结构;
可以理解的是,第三网络结构用于解码I帧的编码帧,其内包括I帧解码器;
第一网络结构和第三网络结构中的I帧编解码器,可以使用一套独立的图像压缩模型,例如超先验的变分自编码器。
同理,第四网络结构用于解码P帧的编码帧,其内包括上下文解码器;
第二网络结构中的上下文编码器将图像的上下文捕获为一个紧凑的潜在特征表示;第四网络结构中的上下文解码器,利用潜在特征表示生成缺失的图像内容。
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构之前,还包括:
确定所述图像组中待编码P帧前一帧是否为所述图像组中的I帧;
若是,利用所述第三网络结构解码所述I帧的编码帧,得到所述I帧的解码帧;
若否,利用所述第四网络结构解码所述图像组中待编码P帧前一帧的编码帧,得到所述图像组中待编码P帧前一帧的解码帧。
本发明“上下文信息”存在两层考量:
第一层:“隐式”上下文信息,即对待编码P帧前一帧的解码帧进行像素特征提取与细化得到的时间上下文信息;
第二层:“显示”上下文信息,即待编码P帧前一帧的编码帧;
而“隐式”上下文信息的提取,需要知道待编码P帧前一帧的解码帧,即图像组编解码是穿插进行的,因此获取I帧和P帧的解码帧,可以保证整个图像组压缩的顺利执行。
在上述各实施例的基础上,作为一种可选的实施例,所述像素特征提取与细化结构包括特征提取器和上下文细化结构;
所述将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息,具体包括:
利用所述特征提取器,对所述图像组中待编码P帧前一帧的解码帧进行像素特征提取,得到多通道像素特征;
这里,多通道特征指示的RGB三通道特征。在端到端的学习模型中,特征提取器可以选用诸如CNN、Transformer和RNN等网络架构。
利用上下文细化结构微调所述多通道像素特征,得到所述图像组中待编码P帧的时间上下文信息。
上下文细化结构(refinement)是跟在特征提取器后的一个辅助结构,作用是微调上下文特征。上下文细化结构可以为3×3的ResBlock与一个3×3的Conv的连接结构。
本发明采用特征提取方式将图像从像素域转为特征域,从而更好地学习待编码图像的时间上下文信息,为后续基于时间上下文信息的待编码P帧压缩-重建工作奠定基础。
作为一种实际应用,图2示例了一种深度神经网络模型结构,如图2所示,图2中方块表示码流。
输入低延迟的IPPP帧结构的图像组(即一个GoP内仅包含一个I帧和若干个P帧)时,深度神经网络模型工作过程如下:
对于I帧,编解码过程如下:
I帧即初始帧x0,编码过程中将x0输入I帧编码器得到x0对应的编码帧[z0];
解码过程中,将[z0]输入I帧解码器,得到x0对应的解码帧
Figure BDA0003833031680000111
对于P帧,编解码过程如下:
编码过程中,假设待编码帧为xt,从解码缓冲区取得已解码帧
Figure BDA0003833031680000121
先将其输入特征提取器,得到多通道特征
Figure BDA0003833031680000122
将多通道特征
Figure BDA0003833031680000123
输入上下文细化模块,对其做进一步的细化操作,得到时间上下文
Figure BDA0003833031680000124
将时间上下文
Figure BDA0003833031680000125
与已编码帧
Figure BDA0003833031680000126
作为编码的条件送入上下文编器得到隐特征yt
将隐特征yt进行熵编码得到xt的编码帧
Figure BDA0003833031680000127
其中,时间上下文
Figure BDA0003833031680000128
也作为熵编码的条件。
解码过程中,时间上下文
Figure BDA0003833031680000129
作为解码的条件也输入上下文解码器,输出xt的解码帧
Figure BDA00038330316800001210
需要说明的是,熵编码器是为了提取yt的概率分布,其作用是将上下文编码器得到的结果做进一步的压缩;可以不设对应的“熵解码”过程,即
Figure BDA00038330316800001211
直接输入上下文解码器解码得到
Figure BDA00038330316800001212
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型是基于数据集构建的;所述数据集包括训练集、验证集和测试集;所述训练集、所述验证集和所述测试集均由IPPP结构的图像组组成;
在构建所述深度神经网络模型的过程中,所述第一网络结构以输入图像组中的I帧及其解码帧的差异优化网络参数,所述第二网络结构以输入图像组中的P帧及其解码帧的差异优化网络参数。
本发明深度神经网络模型构建过程具体为:
收集视频数据,构建以IPPP帧结构的图像组为样本的数据集;其中,收集的视频数据可以来源于公开的视频数据集,如Vimeo-90K等,也可以来源于自行构建的私有数据集。
根据需求将数据集划分为训练集、验证集和测试集;
在训练集上训练深度神经网络模型,并在验证集上验证深度神经网络模型效果,直到其在训练集上收敛,保存效果最优的模型参数。
由于第三网络结构用于解码I帧编码帧,是第一网络结构执行操作的反过程,因此以输入图像组中的I帧及其解码帧的差异同步优化第一网络结构和第三网络结构中的参数;同样,第四网络结构用于解码P帧编码帧,是第二网络结构执行操作的反过程,因此以输入图像组中的P帧及其解码帧的差异同步优化第二网络结构和第四网络结构中的参数。
本发明揭示了除图像组首个P帧编解码需要用到图像组I帧的解码帧,其余时候I帧编码帧和P帧编码帧相互独立;训练出的深度神经网络模型结构简单,可以做率失真联合优化,训练策略简单,运动估计更准确。
总之,本发明引入的基于条件隐式流的视频压缩方法,能够有效提升深度学习视频压缩的率失真性能。实验证明,在指定测试集上在相同实验设置下,本发明相比一般的基于条件编码的深度学习视频压缩方法,能够在相同的bpp下将重建视频画面的PSNR提升约0.5dB。
本发明在提取上下文信息的过程中用到的是已解码帧,还可以尝试加入光流模块,以提取运动信息的方式辅助上下文信息的提取,实现压缩性能的适当提升。此外,在本发明的基础上,通过修改上下文编解码器的网络结构,如:调节卷积层数量、通道数,替换激活函数,增加残差块、注意力模块等操作,都能够达到类似的效果。
第二方面,对本发明提供的基于深度学习的视频压缩装置进行描述,下文描述的基于深度学习的视频压缩装置与上文描述的基于深度学习的视频压缩方法可相互对应参照。图3示例了一种基于深度学习的视频压缩装置的结构示意图,如图3所示,所述装置包括:
拆分模块21,用于将目标视频拆分为多个IPPP结构的图像组;
编码模块22,用于利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
设定模块23,用于将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
本发明提供的一种基于深度学习的视频压缩装置,预先利用IPPP帧结构图像组组成的数据集构建深度神经网络模型,该深度神经网络模型中的第一网络结构用于无需参考其他帧的情况下编码输入图像组中的I帧,第二网络结构以输入图像组中待编码P帧前一帧的编码帧和对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化处理后得到的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧。网络模型结构与训练策略简单,能够充分的利用上下文特征,从而更充分的挖掘视频中的时空冗余,且具有较强的可扩展性。在应用阶段,将目标视频拆分为多个IPPP结构的图像组;分别利用深度神经网络模型压缩各个图像组以得到目标视频的压缩数据;视频压缩能达到更好的率失真性能。
在上述各实施例的基础上,作为一种可选的实施例,所述第一网络结构包括I帧编码器;所述编码模块,包括I帧编码单元,用于利用第一网络结构编码所述图像组中的I帧;所述I帧编码单元,包括:
压缩子单元,用于利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
量化以及熵编码子单元,用于对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型还包括像素特征提取与细化结构;所述编码模块还包括像素特征提取与细化单元,用于在利用第二网络结构编码所述图像组中的P帧之前,将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
在上述各实施例的基础上,作为一种可选的实施例,所述第二网络结构包括上下文编码器、量化结构和熵编码器;所述编码模块还包括P帧编码单元,用于利用第二网络结构编码所述图像组中的P帧;所述P帧编码单元,包括:
上下文编码子单元,用于将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
量化子单元,用于利用所述量化结构量化所述隐特征,得到所述隐特征的量化结果;
熵编码子单元,用于将所述隐特征的量化结果以及所述图像组中待编码P帧的时间上下文信息输入所述熵编码器,得到所述图像组中待编码P帧的编码帧。
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型还包括第三网络结构和第四网络结构;
所述编码模块还包括解码帧确定子单元,用于将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构之前,确定所述图像组中待编码P帧前一帧是否为所述图像组中的I帧;
若是,利用所述第三网络结构解码所述I帧的编码帧,得到所述I帧的解码帧;
若否,利用所述第四网络结构解码所述图像组中待编码P帧前一帧的编码帧,得到所述图像组中待编码P帧前一帧的解码帧。
在上述各实施例的基础上,作为一种可选的实施例,所述像素特征提取与细化结构包括特征提取器和上下文细化结构;
所述像素特征提取与细化单元,具体包括:
像素特征提取子模块,用于利用所述特征提取器,对所述图像组中待编码P帧前一帧的解码帧进行像素特征提取,得到多通道像素特征;
特征细化子模块,用于利用上下文细化结构微调所述多通道像素特征,得到所述图像组中待编码P帧的时间上下文信息。
在上述各实施例的基础上,作为一种可选的实施例,所述深度神经网络模型是基于数据集构建的;所述数据集包括训练集、验证集和测试集;所述训练集、所述验证集和所述测试集均由IPPP结构的图像组组成;
在构建所述深度神经网络模型的过程中,所述第一网络结构以输入图像组中的I帧及其解码帧的差异优化网络参数,所述第二网络结构以输入图像组中的P帧及其解码帧的差异优化网络参数。
第三方面,图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于深度学习的视频压缩方法,该方法包括:将目标视频拆分为多个IPPP结构的图像组;利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于深度学习的视频压缩方法,该方法包括:将目标视频拆分为多个IPPP结构的图像组;利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
第五方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于深度学习的视频压缩方法,该方法包括:将目标视频拆分为多个IPPP结构的图像组;利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的视频压缩方法,其特征在于,包括:
将目标视频拆分为多个IPPP结构的图像组;
利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
2.根据权利要求1所述的基于深度学习的视频压缩方法,其特征在于,所述第一网络结构包括I帧编码器;利用第一网络结构编码所述图像组中的I帧,包括:
利用所述I帧编码器压缩所述I帧,得到所述I帧的紧致表示;
对所述紧致表示进行量化以及熵编码,得到所述I帧的编码帧。
3.根据权利要求1至2任一项所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型还包括像素特征提取与细化结构;利用第二网络结构编码所述图像组中的P帧之前,还包括:
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息。
4.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述第二网络结构包括上下文编码器、量化结构和熵编码器;利用第二网络结构编码所述图像组中的P帧,包括:
将所述图像组中待编码P帧的时间上下文信息、所述图像组中待编码P帧前一帧的编码帧和所述图像组中待编码P帧输入所述上下文编码器,得到所述图像组中待编码P帧的隐特征;
利用所述量化结构量化所述隐特征,得到所述隐特征的量化结果;
将所述隐特征的量化结果以及所述图像组中待编码P帧的时间上下文信息输入所述熵编码器,得到所述图像组中待编码P帧的编码帧。
5.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型还包括第三网络结构和第四网络结构;
将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构之前,还包括:
确定所述图像组中待编码P帧前一帧是否为所述图像组中的I帧;
若是,利用所述第三网络结构解码所述I帧的编码帧,得到所述I帧的解码帧;
若否,利用所述第四网络结构解码所述图像组中待编码P帧前一帧的编码帧,得到所述图像组中待编码P帧前一帧的解码帧。
6.根据权利要求3所述的基于深度学习的视频压缩方法,其特征在于,所述像素特征提取与细化结构包括特征提取器和上下文细化结构;
所述将所述图像组中待编码P帧前一帧的解码帧输入所述像素特征提取与细化结构,得到所述图像组中待编码P帧的时间上下文信息,具体包括:
利用所述特征提取器,对所述图像组中待编码P帧前一帧的解码帧进行像素特征提取,得到多通道像素特征;
利用上下文细化结构微调所述多通道像素特征,得到所述图像组中待编码P帧的时间上下文信息。
7.根据权利要求1所述的基于深度学习的视频压缩方法,其特征在于,所述深度神经网络模型是基于数据集构建的;所述数据集包括训练集、验证集和测试集;所述训练集、所述验证集和所述测试集均由IPPP结构的图像组组成;
在构建所述深度神经网络模型的过程中,所述第一网络结构以输入图像组中的I帧及其解码帧的差异优化网络参数,所述第二网络结构以输入图像组中的P帧及其解码帧的差异优化网络参数。
8.一种基于深度学习的视频压缩装置,其特征在于,包括:
拆分模块,用于将目标视频拆分为多个IPPP结构的图像组;
编码模块,用于利用预存的深度神经网络模型中的第一网络结构编码所述图像组中的I帧,利用深度神经网络模型中的第二网络结构编码所述图像组中的P帧,得到所述图像组的编码数据;
设定模块,用于将各个所述图像组的编码数据的组合作为所述目标视频的压缩数据;
其中,所述第二网络结构,以输入图像组中待编码P帧前一帧的编码帧和输入图像组中待编码P帧的时间上下文信息组成的隐式表示为条件编码输入图像组中待编码P帧;
所述输入图像组中待编码P帧的时间上下文信息,为对输入图像组中待编码P帧前一帧的解码帧进行像素特征提取与细化的结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度学习的视频压缩方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的视频压缩方法的步骤。
CN202211080678.6A 2022-09-05 2022-09-05 基于深度学习的视频压缩方法和装置 Active CN115529457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211080678.6A CN115529457B (zh) 2022-09-05 2022-09-05 基于深度学习的视频压缩方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211080678.6A CN115529457B (zh) 2022-09-05 2022-09-05 基于深度学习的视频压缩方法和装置

Publications (2)

Publication Number Publication Date
CN115529457A true CN115529457A (zh) 2022-12-27
CN115529457B CN115529457B (zh) 2024-05-14

Family

ID=84696918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211080678.6A Active CN115529457B (zh) 2022-09-05 2022-09-05 基于深度学习的视频压缩方法和装置

Country Status (1)

Country Link
CN (1) CN115529457B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941966A (zh) * 2022-12-30 2023-04-07 深圳大学 一种视频压缩方法及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263161A (zh) * 2020-01-07 2020-06-09 北京地平线机器人技术研发有限公司 视频压缩处理方法、装置、存储介质和电子设备
US20200236349A1 (en) * 2019-01-22 2020-07-23 Apple Inc. Predictive coding with neural networks
CN111901596A (zh) * 2020-06-29 2020-11-06 北京大学 基于深度学习的视频混合编码与解码方法及装置、介质
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
WO2021164176A1 (zh) * 2020-02-20 2021-08-26 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质
CN113570610A (zh) * 2021-07-26 2021-10-29 北京百度网讯科技有限公司 采用语义分割模型对视频进行目标分割的方法、装置
WO2022062344A1 (zh) * 2020-09-24 2022-03-31 苏州科达科技股份有限公司 压缩视频的显著性目标检测方法、系统、设备及存储介质
CN114501031A (zh) * 2020-11-13 2022-05-13 华为技术有限公司 一种压缩编码、解压缩方法以及装置
US20220237917A1 (en) * 2020-03-17 2022-07-28 Tencent Technology (Shenzhen) Company Limited Video comparison method and apparatus, computer device, and storage medium
CN115002482A (zh) * 2022-04-27 2022-09-02 电子科技大学 使用结构性保持运动估计的端到端视频压缩方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200236349A1 (en) * 2019-01-22 2020-07-23 Apple Inc. Predictive coding with neural networks
CN111263161A (zh) * 2020-01-07 2020-06-09 北京地平线机器人技术研发有限公司 视频压缩处理方法、装置、存储介质和电子设备
WO2021164176A1 (zh) * 2020-02-20 2021-08-26 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质
US20220237917A1 (en) * 2020-03-17 2022-07-28 Tencent Technology (Shenzhen) Company Limited Video comparison method and apparatus, computer device, and storage medium
CN111901596A (zh) * 2020-06-29 2020-11-06 北京大学 基于深度学习的视频混合编码与解码方法及装置、介质
WO2022062344A1 (zh) * 2020-09-24 2022-03-31 苏州科达科技股份有限公司 压缩视频的显著性目标检测方法、系统、设备及存储介质
CN114501031A (zh) * 2020-11-13 2022-05-13 华为技术有限公司 一种压缩编码、解压缩方法以及装置
CN112927202A (zh) * 2021-02-25 2021-06-08 华南理工大学 多时域多特征结合的Deepfake视频检测方法及系统
CN113570610A (zh) * 2021-07-26 2021-10-29 北京百度网讯科技有限公司 采用语义分割模型对视频进行目标分割的方法、装置
CN115002482A (zh) * 2022-04-27 2022-09-02 电子科技大学 使用结构性保持运动估计的端到端视频压缩方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115941966A (zh) * 2022-12-30 2023-04-07 深圳大学 一种视频压缩方法及电子设备
CN115941966B (zh) * 2022-12-30 2023-08-22 深圳大学 一种视频压缩方法及电子设备

Also Published As

Publication number Publication date
CN115529457B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
Lu et al. Dvc: An end-to-end deep video compression framework
Baig et al. Learning to inpaint for image compression
CN111711824B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN103748876B (zh) 有损压缩编码数据方法和设备以及相应的重构数据方法和设备
US20060233250A1 (en) Method and apparatus for encoding and decoding video signals in intra-base-layer prediction mode by selectively applying intra-coding
US20230291909A1 (en) Coding video frame key points to enable reconstruction of video frame
Tsai et al. Learning binary residual representations for domain-specific video streaming
US11516478B2 (en) Method and apparatus for coding machine vision data using prediction
CN103782598A (zh) 用于无损编码的快速编码方法
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
CN111901596B (zh) 基于深度学习的视频混合编码与解码方法及装置、介质
Abou-Elailah et al. Fusion of global and local motion estimation for distributed video coding
US8594189B1 (en) Apparatus and method for coding video using consistent regions and resolution scaling
JP7434604B2 (ja) ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練
CN114501013A (zh) 一种可变码率视频压缩方法、系统、装置及存储介质
CN115529457B (zh) 基于深度学习的视频压缩方法和装置
JP2023532397A (ja) ポストフィルタリングのためのコンテンツ適応型オンライン訓練方法、装置およびコンピュータプログラム
WO2006109985A1 (en) Method and apparatus for encoding and decoding video signals in intra-base-layer prediction mode by selectively applying intra-coding
JP7125559B2 (ja) ビットレート削減のためのビデオストリーム適応フィルタリング
CN111052743B (zh) 视频编码中用于局部选择变换集的变换池
JP7368639B2 (ja) ビデオ符号化のための方法、装置及びコンピュータプログラム
CN116437089B (zh) 一种基于关键目标的深度视频压缩方法
US20230239470A1 (en) Video encoding and decoding methods, encoder, decoder, and storage medium
JP7447311B2 (ja) ビデオ復号のための方法、装置及びコンピュータプログラム
CN116347081A (zh) 基于条件尺度空间流的视频压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant