CN112422989B - 一种视频编码方法 - Google Patents

一种视频编码方法 Download PDF

Info

Publication number
CN112422989B
CN112422989B CN202011288590.4A CN202011288590A CN112422989B CN 112422989 B CN112422989 B CN 112422989B CN 202011288590 A CN202011288590 A CN 202011288590A CN 112422989 B CN112422989 B CN 112422989B
Authority
CN
China
Prior art keywords
frame
cnn
current
image
ctu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011288590.4A
Other languages
English (en)
Other versions
CN112422989A (zh
Inventor
丁丹丹
高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202011288590.4A priority Critical patent/CN112422989B/zh
Publication of CN112422989A publication Critical patent/CN112422989A/zh
Application granted granted Critical
Publication of CN112422989B publication Critical patent/CN112422989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种视频编码方法,属于视频数据处理。包括:1)取帧缓冲区中的重建帧Fn和Fm,Fn和Fm与当前帧Fi的距离分别是|n‑i|与|m‑i|,将Fn、Fm、|n‑i|、|m‑i|送入帧合成神经网络模型,得到合成的虚拟帧Fvrf;2)将步骤1)中获得的虚拟帧Fvrf通过增强网络进行增强,输出合成帧Fi’;3)遍历当前编码帧Fi的每一个CTU块,比较当前编码帧Fi的CTU块与Fi’同位块的RD‑cost,若Fi的RD‑cost大于Fi’的RD‑cost,则将Fi当前CTU块的每个像素值替换为Fi’当前同位块的每个像素值,设置CTU级替换模式的标记位CNN_Temporal=1;否则,设置CTU级替换模式CNN_Temporal=0,继续循环;4)对CNN_Temporal进行熵编码;5)获得当前编码帧Fi的重建值Frec,使用帧级滤波模式选择对Frec进行处理,得到重建帧Frec’,并将Frec’保存于帧缓冲区内。

Description

一种视频编码方法
技术领域
本发明涉及视频数据处理技术领域,具体地说,涉及一种视频编码方法。
背景技术
随着多媒体数据的快速增长,视听信息数据量日益庞大,需要更高效的视频压缩技术来对这些海量进行存储与传输。卷积神经网络(Convolutional Neural Network,CNN)通过迭代多层卷积操作操作达到了良好的非线性拟合功能,相比于传统基于信号的方法,能够更好地解决视频编码中的一些分类、拟合和回归问题,因而在视频编码领域逐渐崭露头角。
目前,基于CNN的视频编码主要分为两类:一是基于CNN的端到端的全新编码框架,这种方法突破了传统的基于块的混合视频编码框架,通过CNN学习输入图像的特征进而转化为二进制码流;二是基于传统混合编码框架的CNN编码工具,使用CNN完成或加强传统编码工具的功能,以获得更高的编码效率。现阶段已经涌现出针对不同编码环节的各种CNN工具,例如运动估计、插值、帧内预测、帧间模式选择、变换、量化、熵编码、环路滤波等等。基于CNN的编码工具能够显著提升视频编码效率,验证了基于CNN编码的有效性。
帧间预测是视频编码的重要环节,参考帧的质量也直接影响着帧间预测的精度。在视频编码框架中,有两个重要步骤都涉及参考帧:一是环路滤波时,对低质量的参考帧进行滤波,去除块效应、振铃效应等,获得高质量的参考帧;二是运动估计时,一方面对滤波后的参考帧进行插值,另一方面也有些方法提出合成新的参考帧,以获得更精确的预测值与运动矢量。近年来,不少研究使用CNN展开上述研究。在环路滤波方面,CNN被用于原编码环路滤波中间或之后,或被用于替换整个环路滤波,以增强参考帧的质量;在运动估计中,CNN被用于直接推断预测像素块值,或被用于替换原线性插值滤波器,或被用于合成新的参考帧,这些操作都是为了提高运动估计的精度,进而提升全局编码效率。但是,在实际应用过程中CNN往往会产生重复作用,不利于编码效率的提高。
发明内容
本发明的目的是提供一种视频编码方法,避免CNN的重复作用,在空域对参考帧进行增强,以充分挖掘像素点之间的相关性;在时域进行参考帧合成,以挖掘像素的时域关联。
为了实现上述目的,本发明提供的视频编码方法包括以下步骤:
1)取帧缓冲区中的重建帧Fn和Fm(n与m为不同于i的整数),Fn和Fm与当前帧的距离分别是|n-i|与|m-i|,将Fn、Fm、|n-i|、|m-i|送入帧合成神经网络模型,得到合成的虚拟帧Fvrf
2)将步骤1)中获得的虚拟帧Fvrf通过增强网络进行增强,输出合成帧Fi’;
3)遍历当前编码帧Fi的每一个CTU(编码树单元)块,比较当前编码帧Fi的CTU块与Fi’同位块的RD-cost(率失真优化),若Fi的RD-cost大于Fi’的RD-cost,则将Fi当前CTU块的每个像素值替换为Fi’当前同位块的每个像素值,设置CTU级替换模式的标记位CNN_Temporal=1;否则,设置CTU级替换模式CNN_Temporal=0,继续循环;
4)对CNN_Temporal的值进行熵编码;
5)获得当前编码帧Fi的重建值Frec,使用帧级滤波模式选择对Frec进行处理,得到重建帧Frec’,并将Frec’保存于帧缓冲区内。
参考帧的质量直接影响视频编码效率,基于卷积神经网络(CNN)的参考帧增强和合成均表现出了优于传统方法的性能。目前的方法通常是基于CNN对参考帧增强或合成环节单独进行优化。然而,增强后的帧将进一步作为参考帧,影响后续的参考帧合成,并对后续帧的编码产生影响,因此需要在视频编码系统中对两者进行联合优化。本发明通过时空域联合参考帧合成与增强的编码,指出帧增强和合成环节相互影响与关联,在环内滤波阶段通过挖掘像素间的空间相关性来完成增强任务,在运动补偿阶段通过挖掘帧间的时间相关性来合成虚拟帧。最终,时空域信息得以充分利用且不需要在多个环节重复提取。
步骤1)中,所述的Fn和Fm分别为当前编码帧Fi的前面与后面的帧,或都为当前编码帧Fi的前面的帧,针对这两种位置关系分别训练不同的帧合成神经网络模型。
步骤5)中,所述的帧级滤波模式选择方法如下:
5-1)使用传统环路滤波方法对输入的帧图像进行滤波,得到重建图像Fanchor
5-2)使用增强网络模型对输入的帧图像进行滤波,得到重建图像Fcnn
5-3)选择质量高的重建图像作为最终输出的高质量图像,并保存在帧缓存中。
步骤5-2)所述的增强网络模型的训练方法为:
利用编码器生成待增强图像的重建图像;
将重建图像作为样本,与其对应的原始图像作为标签,形成训练集;
利用重建图像和其对应的标签对神经网络进行训练,获得所述的增强模型。
步骤5-3)的选择过程包括:
5-3-1)计算整帧重建图像Fanchor与原始图像之间的峰值信噪比Panchor,以及整帧重建图像Fcnn与原始图像之间的峰值信噪比Pcnn
5-3-2)比较Fanchor与Pcnn,若Fanchor大,则选择Fanchor为最终输出的高质量图像,设置帧级滤波模式的标记位CNN_Spatial=0;若Pcnn大,则选择Pcnn为最终输出的高质量图像,设置帧级滤波模式的标记位CNN_Spatial=1;
5-3-3)对帧级滤波模式的标记位CNN_Spatial的值进行熵编码。
所述的增强网络由8个残差块串联而成,每个残差块内包括3层卷积,第一个卷积层使用1×1的卷积核实现特征图的扩张,卷积后的非线性映射层使用线性整流激活函数;第二层使用1×1的卷积核实现特征图的收缩;第三层卷积使用3×3的卷积核实现高阶特征提取与增强。
所述的帧合成神经网络模型采用全卷积编解码结构,包括三个卷积层、三个反卷积层和一个瓶颈层;对于网络的编码器部分,每个处理单元都包含卷积层和最大池化层,卷积核大小分别为5×5、5×5和3×3;对于解码器部分,每个处理单元都包含双线性上采样和卷积层,卷积核大小分别是3×3、5×5和5×5。
步骤2)所述的增强网络与步骤1)所述的帧合成神经网络模型连接在一起进行端到端的训练得到联合模型。所述的帧级滤波模式选择,适用于编码的每一帧。
与现有技术相比,本发明的有益之处在于:
本发明利用神经网络对参考帧合成与增强进行联合优化,在编码的运动估计阶段对时域进行提取,在环路滤波阶段对空域信息进行提取,形成环内联合作用机制,有效提升了编码效率。
本发明能针对参考帧增强,提出一种循环宽激活网络,结合帧级率失真优化策略,对滤波后的重建编码图像进行增强;针对参考帧合成,采用帧合成神经网络,使用滤波后的图像合成虚拟参考帧,且在合成的基础上做了合成帧的增强,在CTU(Coding Tree Unit)级进行运动搜索,以提升运动估计精度。
附图说明
图1为本发明实施例中所使用的循环宽激活网络的结构示意图;
图2为本发明实施例中用于参考帧合成与增强联合的视频编码方法架构示意图;
图3为本发明实施例中所使用的帧级滤波模式选择的流程图;
图4为本发明实施例中所使用的帧合成神经网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本发明作进一步说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
实施例1
本实施例使用H.265/HEVC标准的参考编码器HM-16.9对视频序列进行编码。HM-16.9包括两个传统滤波算法,分别是Deblocking Filter和Sample Adaptive Offset。利用帧级滤波模式选择来代替原有环路滤波。
首先,训练神经网络。构建一个神经网络,设计一种循环宽激活网络结构,如图1所示,由8个残差块串联而成,每个残差块内包括3层卷积,并引入了宽激活的思想,即在激活函数前扩张特征图数量以增加网络的非线性映射功能。第一个卷积层使用1×1的卷积核实现特征图的扩张,以更加细致地提取局部特征,捕捉更多图像细节,卷积后的非线性映射层使用了线性整流激活函数(Rectified Linear Unit);第二层使用了1×1的卷积核实现特征图的收缩,使得特征图的数目比输入的通道数更少,以对细化后的特征进行压缩;最后,第三层卷积使用3×3的卷积核实现高阶特征提取与增强。针对上述神经网络,进行以下步骤的模型训练:
S101,制作训练集。在HM-16.9的AI配置下,本实施例采用DIV2K数据集,关掉标准环路滤波后(包括Deblocking Filter和Sample Adaptive Offset),以5个基本QP={22,27,32,37,42}进行编码,然后利用每个QP的重建帧来构建5个数据库,每个数据库包含1000张压缩后未经滤波的DIV2K的图像以及对应的原始图像作为标签。
S102,利用训练集对神经网络进行训练,获得图像增强模型。
选择50帧未滤波图像组成测试集,且这些图像与训练集中的图像完全不重合。将每个QP所对应的一系列模型用于测试集,获得每个模型在测试机上的性能,选择性能最佳的模型作为各个QP的最终模型。一旦最终模型被确定,将在编码端作为帧级滤波模式选择被使用。
对于训练好的图像增强模型,如图2,参考帧合成与增强联合的视频编码方法中参考帧增强在编码器采用以下的方式展开运用,架构设置编码器当前QP值为37,选取对应的神经网络模型CNN37
使用上述训练好的图像增强模型实现本实施例的视频编码,具体包括以下步骤:
S201,在HM-16.9的RA配置下,首先编码分层B结构中,时间层级为0、1的帧。
S202,时间层级为0、1的帧最终进入帧级滤波模式选择,如图3所示。
S203,使用HM-16.9中的原始环路滤波方法(包括Deblocking Filter和SampleAdaptive Offset)对时间层级为0、1的帧进行滤波,得到经过原始滤波后的重建图像Fanchor
S204,将未滤波的时间层级为0、1的帧送入图像增强模型,得到经过神经网络处理后的重建图像Fcnn
S205,计算整帧重建图像Fanchor与原始图像之间的峰值信噪比Panchor,以及整帧重建图像Fcnn与原始图像之间的峰值信噪比Pcnn
S206,比较Panchor与Pcnn,如果Panchor大,则选择Fanchor为最终输出的高质量图像,设置帧级滤波模式CNN_Spatial=0;如果Pcnn大,则选择Fcnn为最终输出的高质量图像,设置帧级滤波模式CNN_Spatial=1。
S207,对CNN_Spatial的值进行熵编码,所得到的比特被写入码流中。
最终,得到的高质量图像解码后进入帧缓冲区里,也同时作为合成时间层级为2、3的帧的输入图像。如图4,参考帧合成与增强联合的视频编码方法中参考帧合成在编码器采用以下的方式展开运用:
S301,取帧缓冲区内前后距离一致的高质量图像Fn和Fm,Fn和Fm分别为当前编码帧Fi的前面与后面的帧,且Fn和Fm与当前帧Fi的距离分别是|n-i|与|m-i|。
S302,将Fn、Fm、|n-i|、|m-i|送入帧合成神经网络模型,得到合成的虚拟帧Fvrf
S303,虚拟帧Fvrf通过增强网络进行增强,输出合成帧Fi’。
S304,遍历当前编码帧Fi的每一个CTU块,比较当前编码帧Fi的CTU块与Fi’同位块的RD-cost。
S305,若Fi的RD-cost大于Fi’的RD-cost,则将Fi当前CTU块的每个像素值替换为Fi’当前同位块的每个像素值,设置CTU级替换模式CNN_Temporal=1;否则,设置CTU级替换模式CNN_Temporal=0,继续循环。
S306,对CNN_Temporal的值进行熵编码,如果CNN_Temporal=1,则对CNN_Temporal的值进行熵编码,所得到的比特写入编码码流中,如果CNN_Temporal=0,则对当前CTU块进行正常的熵编码。
S307,得到最终的重建图像将再次经过帧级滤波模式选择,使得本实施例在编码过程中形成闭环。
实施例2
本实施例用于视频编码的神经网络的训练和训练集的制作与实施例1相同,此处不再赘述,不同之处在于编码配置,本实施例具体包括以下步骤:
S101,在HM-16.9的LDP配置下,待编码帧的帧缓冲区内的重建帧已经过帧级滤波模式选择,如图3所示,具体流程与实施例1中所述的帧级滤波模式选择一致,此处不再赘述。
S102,计算整帧重建图像Fanchor与原始图像之间的峰值信噪比Panchor,以及整帧重建图像Fcnn与原始图像之间的峰值信噪比Pcnn
S103,比较Panchor与Pcnn,如果Panchor大,则选择Fanchor为最终输出的高质量图像,设置帧级滤波模式CNN_Spatial=0;如果Pcnn大,则选择Fcnn为最终输出的高质量图像,设置帧级滤波模式CNN_Spatial=1。
S104,对CNN_Spatial的值进行熵编码,所得到的比特被写入码流中。
最终,得到的高质量图像解码后进入帧缓冲区里,也同时作为合成下一帧待编码帧的合成帧的输入图像。如图4,参考帧合成与增强联合的视频编码方法中参考帧合成在编码器采用以下的方式展开运用:
S201,取帧缓冲区内的高质量图像Fn和Fm,Fn和Fm都为当前编码帧Fi前面的帧,且Fn和Fm与当前帧Fi的距离分别是|n-i|与|m-i|。
S202,将Fn、Fm、|n-i|、|m-i|送入帧合成神经网络模型,得到合成的虚拟帧Fvrf
S203,虚拟帧Fvrf通过增强网络进行增强,输出合成帧Fi’。
S204,遍历当前编码帧Fi的每一个CTU块,比较当前编码帧Fi的CTU块与Fi’同位块的RD-cost。
S205,若Fi的RD-cost大于Fi’的RD-cost,则将Fi当前CTU块的每个像素值替换为Fi’当前同位块的每个像素值,设置CTU级替换模式CNN_Temporal=1;否则,设置CTU级替换模式CNN_Temporal=0,继续循环。
S206,对CNN_Temporal的值进行熵编码,如果CNN_Temporal=1,则对CNN_Temporal的值进行熵编码,所得到的比特写入编码码流中,如果CNN_Temporal=0,则对当前CTU块进行正常的熵编码。
S207,得到最终的重建图像将再次经过帧级滤波模式选择,使得本实施例在编码过程中形成闭环。
以上实施例是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种视频编码方法,其特征在于,对当前待编码的帧Fi按照以下步骤进行编码:
1)取帧缓冲区中的重建帧Fn和Fm,Fn和Fm与当前帧Fi的距离分别是|n-i|与|m-i|,将Fn、Fm、|n-i|、|m-i|送入帧合成神经网络模型,得到合成的虚拟帧Fvrf
2)将步骤1)中获得的虚拟帧Fvrf通过增强网络进行增强,输出合成帧Fi
3)遍历当前编码帧Fi的每一个CTU块,比较当前编码帧Fi的CTU块与Fi 同位块的RD-cost,若Fi的RD-cost大于Fi 的RD-cost,则将Fi当前CTU块的每个像素值替换为Fi 当前同位块的每个像素值,设置CTU级替换模式的标记位CNN_Temporal=1;否则,设置CTU级替换模式CNN_Temporal=0,对当前CTU按照传统方式编码,继续循环;
4)对CNN_Temporal的值进行熵编码;
5)获得当前编码帧Fi的重建值Frec,使用帧级滤波模式选择对Frec进行处理,得到重建帧Frec ,并将Frec 保存于帧缓冲区内。
2.根据权利要求1所述的视频编码方法,其特征在于,步骤1)中,所述的Fn和Fm分别为当前编码帧Fi的前面与后面的帧,或都为当前编码帧Fi的前面的帧,针对这两种位置关系分别训练不同的帧合成神经网络模型。
3.根据权利要求1所述的视频编码方法,其特征在于,步骤5)中,所述的帧级滤波模式选择方法如下:
5-1)使用传统环路滤波方法对输入的帧图像进行滤波,得到重建图像Fanchor
5-2)使用增强网络对输入的帧图像进行滤波,得到重建图像Fcnn,所述的增强网络的训练方法为:
利用编码器生成待增强图像的重建图像;
将重建图像作为样本,与其对应的原始图像作为标签,形成训练集;
利用重建图像和其对应的标签对神经网络进行训练,获得所述的增强网络;
5-3)选择质量高的重建图像作为最终输出的高质量图像,并保存在帧缓存中。
4.根据权利要求3所述的视频编码方法,其特征在于,步骤5-3)的选择过程包括:
5-3-1)计算整帧重建图像Fanchor与原始图像之间的峰值信噪比Panchor,以及整帧重建图像Fcnn与原始图像之间的峰值信噪比Pcnn
5-3-2)比较Panchor与Pcnn,若Panchor大,则选择Fanchor为最终输出的高质量图像,设置帧级滤波模式的标记位CNN_Spatial=0;若Pcnn大,则选择Fcnn为最终输出的高质量图像,设置帧级滤波模式的标记位CNN_Spatial=1;
5-3-3)对帧级滤波模式的标记位CNN_Spatial的值进行熵编码。
5.根据权利要求1所述的视频编码方法,其特征在于,所述的增强网络由8个残差块串联而成,每个残差块内包括3层卷积,第一个卷积层使用1×1的卷积核实现特征图的扩张,卷积后的非线性映射层使用线性整流激活函数;第二层使用1×1的卷积核实现特征图的收缩;第三层卷积使用3×3的卷积核实现高阶特征提取与增强。
6.根据权利要求1所述的视频编码方法,其特征在于,步骤2)所述的增强网络与步骤1)所述的帧合成神经网络模型连接在一起进行端到端的训练得到联合模型。
7.根据权利要求1所述的视频编码方法,其特征在于,所述的帧级滤波模式选择,适用于编码的每一帧。
8.根据权利要求1所述的视频编码方法,其特征在于,所述的帧合成神经网络模型采用全卷积编解码结构,包括三个卷积层、三个反卷积层和一个瓶颈层;对于网络的编码器部分,每个处理单元都包含卷积层和最大池化层,卷积核大小分别为5×5、5×5和3×3;对于解码器部分,每个处理单元都包含双线性上采样和卷积层,卷积核大小分别是3×3、5×5和5×5。
CN202011288590.4A 2020-11-17 2020-11-17 一种视频编码方法 Active CN112422989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011288590.4A CN112422989B (zh) 2020-11-17 2020-11-17 一种视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011288590.4A CN112422989B (zh) 2020-11-17 2020-11-17 一种视频编码方法

Publications (2)

Publication Number Publication Date
CN112422989A CN112422989A (zh) 2021-02-26
CN112422989B true CN112422989B (zh) 2023-06-09

Family

ID=74831982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011288590.4A Active CN112422989B (zh) 2020-11-17 2020-11-17 一种视频编码方法

Country Status (1)

Country Link
CN (1) CN112422989B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113542746B (zh) * 2021-07-13 2024-04-12 Oppo广东移动通信有限公司 视频编码方法及装置、计算机可读介质和电子设备
WO2023123398A1 (zh) * 2021-12-31 2023-07-06 Oppo广东移动通信有限公司 滤波方法、滤波装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062239A (zh) * 2019-03-18 2019-07-26 杭州师范大学 一种用于视频编码的参考帧选择方法及装置
CN111083498A (zh) * 2019-12-18 2020-04-28 杭州师范大学 一种用于视频编码帧间环路滤波的模型训练方法和使用方法
US10681382B1 (en) * 2016-12-20 2020-06-09 Amazon Technologies, Inc. Enhanced encoding and decoding of video reference frames
CN111741300A (zh) * 2020-05-28 2020-10-02 杭州师范大学 一种视频处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101974261B1 (ko) * 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
US20200081431A1 (en) * 2018-09-07 2020-03-12 DoorDash, Inc. Video system with frame synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10681382B1 (en) * 2016-12-20 2020-06-09 Amazon Technologies, Inc. Enhanced encoding and decoding of video reference frames
CN110062239A (zh) * 2019-03-18 2019-07-26 杭州师范大学 一种用于视频编码的参考帧选择方法及装置
CN111083498A (zh) * 2019-12-18 2020-04-28 杭州师范大学 一种用于视频编码帧间环路滤波的模型训练方法和使用方法
CN111741300A (zh) * 2020-05-28 2020-10-02 杭州师范大学 一种视频处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning-Based_Multi-Frame_Video_Quality_Enhancement;Junchao Tong等;2019 IEEE International Conference on Image Processing(ICIP);第929-933页 *
联合域虚拟帧的多帧视频质量增强方法;丁丹丹等;计算机辅助设计与图形学学报;第第32卷卷(第第5期期);第780-786页 *

Also Published As

Publication number Publication date
CN112422989A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
TWI423171B (zh) 呈時間上可標度連流形式的視訊內容之寫碼方法及裝置
CN112422989B (zh) 一种视频编码方法
CN110493596B (zh) 一种基于神经网络的视频编码系统及方法
CN1695381A (zh) 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强
CN111885280B (zh) 一种混合卷积神经网络视频编码环路滤波方法
CN105306957A (zh) 自适应环路滤波方法和设备
WO2009010515A1 (en) Method for processing images and the corresponding electronic device
CN101668196A (zh) 基于下采样和插值的低码率图像压缩方法
CN105898300A (zh) 一种基于恢复变换系数的改进变换系数符号位隐藏方法
CN117730338A (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN111726614A (zh) 一种基于空域下采样与深度学习重建的hevc编码优化方法
CN113066022A (zh) 一种基于高效时空信息融合的视频比特增强方法
JP2004505520A (ja) ウェーブレット分解を用いたビデオ符号化方法
JPH11122617A (ja) 画像圧縮
CN103024384A (zh) 一种视频编码、解码方法及装置
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
JPH09331536A (ja) 誤り訂正デコーダ及び誤り訂正デコーディング方法
CN103069798B (zh) 用于在实施变换域估计过程中对至少一个图像进行编码和解码的方法和装置
CN116489363A (zh) 基于卷积神经网络的视频双向编码方法
CN112954350B (zh) 一种基于帧分类的视频后处理优化方法及装置
CN115914654A (zh) 一种用于视频编码的神经网络环路滤波方法及装置
CN111510721B (zh) 基于空间下采样的多描述编码高质量边重建方法
CN105359508A (zh) 视频多级时空分辨率的增加
CN104602001A (zh) 一种基于帧差图像的低码率视频编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant