CN117044206A - 基于深度学习的yuv视频压缩的运动流编码 - Google Patents

基于深度学习的yuv视频压缩的运动流编码 Download PDF

Info

Publication number
CN117044206A
CN117044206A CN202280022115.3A CN202280022115A CN117044206A CN 117044206 A CN117044206 A CN 117044206A CN 202280022115 A CN202280022115 A CN 202280022115A CN 117044206 A CN117044206 A CN 117044206A
Authority
CN
China
Prior art keywords
motion information
prediction
data
decoding
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280022115.3A
Other languages
English (en)
Inventor
F·拉卡佩
J·贝盖特
S·费尔特曼
A·普什帕拉贾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
Vid Scale Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid Scale Inc filed Critical Vid Scale Inc
Publication of CN117044206A publication Critical patent/CN117044206A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了,视频编码和解码是利用使用亮度信息来导出用于色度预测的运动信息的自编码器来实现的。在一个实施方案中,对YUV 4:2:0视频进行编码和解码,其中对亮度信息进行下采样,以从参考帧的色度分量中生成预测。在相关的实施方案中,多于一个参考帧被用于预测。在另一个实施方案中,卷积和转置卷积实现运动信息的导出。

Description

基于深度学习的YUV视频压缩的运动流编码
技术领域
本实施方案中的至少一个实施方案通常涉及一种用于使用基于人工神经网络(ANN)的工具来压缩图像和视频的方法或装置。
背景技术
ISO/MPEG和ITU之间的联合视频探索小组(JVET)目前正在研究替换最新标准H.266/VVC的一些模块的工具,以及通过端到端自编码器方法替换整个结构。
发明内容
本实施方案中的至少一个实施方案通常涉及一种用于使用基于人工神经网络(ANN)的工具来压缩图像和视频的方法或装置。
根据第一方面,提供了一种方法。该方法包括以下步骤:连结当前块和至少一个参考块的亮度数据;根据所连结的亮度数据确定运动信息;对该确定的运动信息进行编码;对该编码的运动信息进行下采样;基于该下采样的编码的运动信息和该至少一个参考块的色度数据确定对色度数据的预测;基于该编码的运动信息和该至少一个参考块的亮度数据来确定对亮度数据的预测;基于该预测确定该当前块的残差数据;以及将该残差数据编码为比特流,该比特流还包括该编码的运动信息。
根据第二方面,提供了一种方法。该方法包括以下步骤:从比特流中解码运动信息;对该解码的运动信息进行下采样;基于该下采样的解码的运动信息和至少一个参考块的色度数据确定对色度数据的预测;基于该解码的运动信息和该至少一个参考块的亮度数据来确定对亮度数据的预测;解码残差信息;以及使用该解码的残差信息和该预测来重建视频块。
根据另一方面,提供了一种装置。该装置包括处理器。该处理器可被配置为通过执行所述的方法中任一个方法来实现一般方面。
根据至少一个实施方案的另一个一般方面,提供了一种设备,该设备包括:根据解码实施方案中的任一实施方案的装置;以及以下项中的至少一者:(i)天线,该天线被配置为接收信号,该信号包括视频块;(ii)频带限制器,该频带限制器被配置为将所接收的信号限制为包括该视频块的频带;和(iii)显示器,该显示器被配置为显示表示视频块的输出。
根据至少一个实施方案的另一个一般方面,提供了一种非暂态计算机可读介质,该非暂态计算机可读介质包括根据所描述的编码实施方案或变体中的任一者生成的数据内容。
根据至少一个实施方案的另一个一般方面,提供了一种信号,该信号包括根据所描述的编码实施方案或变体中的任一者生成的视频数据。
根据至少一个实施方案的另一个一般方面,比特流被格式化以包括根据所描述的编码实施方案或变体中的任一者生成的数据内容。
根据至少一个实施方案的另一个一般方面,提供了一种计算机程序产品,该计算机程序产品包括指令,当由计算机执行程序时,该指令使计算机执行所描述的解码实施方案或变体中的任一者。
通过将结合附图阅读的示例性实施方案的以下详细描述,一般方面的这些和其他方面、特征和优点将变得显而易见。
附图说明
图1示出了基本自编码器链。
图2示出了Agustsson等人的用于压缩视频帧的架构。
图3示出了具有两个参考图片的所提出的结构。
图4示出了在帧间模式下编码(左)和解码(右)帧的方法的流程图。
图5示出了针对帧间模式的编码(左)和解码(右)的尺度流预测的上下文中所提出的方法的流程图。
图6示出了针对帧间模式的所提出的解码过程的细节。
图7示出了使用两个参考帧和用于亮度和色度的单独翘曲进行编码和解码的所提出的自编码器结构。
图8示出了在双向预测的情况下的所提出的结构。
图9示出了使用仅在Y上计算的运动流的YUV 4:4:4编码(左)和解码(右)。
图10示出了具有用于亮度和色度的单独层的解码器变体。
图11示出了用于使用本发明原理来对视频进行编码的方法的一个实施方案。
图12示出了用于使用本发明原理来对视频进行解码的方法的一个实施方案。
图13示出了用于使用本发明原理来编码或解码的装置的一个实施方案。
图14示出了标准的通用视频压缩方案。
图15示出了标准的通用视频解压缩方案。
图16示出了根据一般描述的方面的用于编码/解码的基于处理器的系统。
具体实施方式
近年来,基于神经网络的新型图像和视频压缩方法已被开发。与应用手工预测模式和变换的传统方法相反,基于ANN的方法依赖于在训练期间通过迭代地最小化损失函数在大数据集上学习的参数。在压缩情况下,损失函数描述了编码的比特流的比特率估计和解码的内容的目标函数。传统上,经重构的图像的质量例如基于对信号失真或人感知的视觉质量的近似的度量而被优化。
在图1中,我们示出了示例性端到端的压缩系统。网络的编码器部分的输入X可由以下项组成:
-视频的图像或帧,
-图像的一部分
-表示一组图像/帧的张量
-表示一组图像/帧的一部分(裁切)的张量。
-
在每种情况下,输入可具有一个或多个颜色分量,例如:单色分量、RGB分量或YCbCr(YUV)分量。
1.输入张量X被馈送到编码器网络。编码器网络通常是具有非线性激活函数的一系列卷积层。卷积运算或空间到深度1运算中的大步长可用于降低空间分辨率,同时增加信道的数量。编码器网络可被看作是学习型分析变换。
2.编码器网络的输出,即“特征图”或“潜”Z被量化和熵编码(EC)为二进制流(比特流),以用于存储或传输。
3.对比特流进行熵解码(ED)以获得Z_q,即Z的量化版本。
4.解码器网络生成Zq,即从潜Zq解码的原始X张量的近似。解码器网络通常是一系列上采样卷积序列(例如:“去卷积”或卷积后的上采样滤波器)或深度到空间的操作。解码器网络可被看作是学习型合成变换,以及是去噪和生成变换。
注意,存在更为复杂的架构,例如向网络添加“超先验自编码器”(超先验),以便联合地学习潜分布的参数来进行有效压缩。本发明不限于使用自编码器。任何端到端的可区分编解码器都可以考虑。
视频编码
传统视频压缩
为了移除视频序列帧之间的冗余,传统的视频编码方法包括帧间预测工具。图像被分区成块。
对于待编码的每个块,运动估计器试图在先前重建的参考图片中找到预测因子。传统上视为是纯平移,运动估计器分析与当前块协同定位的窗口内的相同形状的块以进行预测。当找到最佳匹配时,运动向量,即当前块的位置与其预测因子之间的水平坐标差值和竖直坐标差值,被编码并在具有参考图片索引的比特流中传输。源块和预测因子之间的差值也称为残差,通常在比特流中被变换、量化和熵编码。
在解码器处,运动信息以及残差被解码。使用解码的运动向量在用发信号通知的参考帧中访问预测因子。然后通过将解码的残差添加到预测因子来构建解码的块。
在此方案中,编码器执行在参考帧中的窗口内寻找最佳匹配块的复杂任务,以当前块的位置为中心。解码器仅需要解析运动信息。
所作出的近似在于假设块中的纹理是刚性的,因为经预测的块是从参考帧复制的,不需要考虑任何变形。编解码器基于对块的分区。编码器将自然地选择其形状和大小导致令人满意的运动补偿的块,即,优化残差大小对重建图像的质量。例如,高度动态和可变形的纹理(树叶、水等)将需要非常小的块,使得刚性运动补偿起作用。
在此可看到模型的局限性,这里仅考虑了块的平移。甚至从一帧到另一帧的纹理的旋转或缩放在运动模型中也不被考虑。已经尝试了许多方法,包括扩展的运动参数化,诸如具有用于平移、旋转和缩放的6个参数编码的仿射模型。然而,在编码侧和解码侧两者处,压缩增益从来都不值得增加的复杂性。
使用人工神经网络的视频压缩
在此部分中,我们详细描述了基于人工神经网络的现有技术的视频压缩方法,该人工神经网络用作描述本发明的基础模型。其依赖于自编码器架构来编码不同的元素,并通过计算光流来解决帧间冗余的移除,该光流估计帧之间的密集运动流,即每个像素位置被分配不同的2d运动向量(水平和竖直)。
结合传统的基于块的帧间预测和残差编码,光流迄今未能以合理的复杂性示出优于先前描述的基于块的方法的益处。然而,最近使用自编码器对运动场进行编码的工作已经示出有希望的结果。
在图2中,我们示出了先前方法中呈现的一般架构。左边的I帧表示独立(帧内)编码的关键帧的编码。其经历由卷积分析和合成模块(g,gs)构成的标准自编码器图像压缩方案。左侧示出了示例性的分析/合成模块。在编码器处,卷积和步长将3×h×w变换图像变换成大小为N×h/n×w/n的潜张量Z。例如标注为5x5 conv(N/M)↓2的卷积,其中5x5表示卷积核大小,N和M分别是信道的输入和输出数量,并且↓2对应于步长2,这将输出空间维度除以2的张量。如在示例性附图中,卷积可与诸如整流线性单元的激活函数交织。在解码器处,卷积由转置卷积替换,表示为trconv。在推断时,熵编码器(EC)和熵解码器(ED)用于算术移除冗余。其他经预测(P)的帧按照右侧的过程进行编码。在编码器处,输入是当前帧xcur和先前重建的参考帧两个图像均用于导出和编码运动信息。其被连结为唯一的张量,该张量是运动流自编码器(fa,fs)的输入,该运动流自编码器产生重建的流/>后者用于将参考帧/>翘曲到当前帧上,因为解码器将仅访问重建的流。这产生了针对当前帧xpred的预测因子。对应于/> 的残差然后由(ra,rs)编码。重建的残差最终被添加到重建的预测中,以形成解码的图像/>然后,在图2中由[1 0 0 … 1 1]表示的比特流由表示I帧的潜表示、运动场的潜表示和经预测的帧情况下的残差的代码构成。
图3示出了当使用两个参考帧时的结构,这两个参考帧在显示顺序上可为过去的帧或未来的帧,但是在编码顺序上是过去的帧,因为其需要被预先重建。与以上描述的第一个不同之处在于将3个图像(亮度分量)作为输入的连结操作。第二是每个参考帧被单独地映射,经预测的帧对应于每个映射参考的线性组合。可使用掩码在空间上单独地混合每个样本。
本发明旨在通过最小化传输比特率的大小来解决优化视频压缩的问题,同时保持可能的最高质量。具体地,现有的基于差分神经网络的运动估计和补偿方法直接计算以RGB格式表示的视频的光流和预测。然而,大多数视频内容是以YUV 4:2:0格式表示的,即U分量和V分量在宽度和高度的大小上是Y信道的一半。在这种情况下,不可能将输入处理为3×h×w张量,其中h和w分别表示图像的高度和宽度。
本文档描述了用于在以不同分辨率存储亮度和色度信道的特定视频颜色格式的情况下改进运动估计和编码的方法和实施方案。
常规编码
传统的视频编码方法依赖于基于块的运动估计,如部分1所详述的。此设计依赖于帧之间的运动可通过对每个块的简单平移来建模的假设。编码器选择最小化残差的块分区,这些残差需要被传输以校正由此建模产生的误差。
基于可区分流的视频压缩
最近的工作已经示出了使用深度模型来估计和编码视频帧之间的密集运动流的前景。然而,现有的方法通常依赖于RGB颜色格式来导出运动流。前面部分描述了架构的主要类型。
本发明提出仅使用亮度分量(Y)来计算运动流,然后导出有效压缩色度(Cb/Cr分量或U/V分量)所需的模型。
主要实施方案
在本发明中,由于提出了仅使用亮度分量来计算运动信息,所以参考图像的亮度分量和色度分量可被分别翘曲到当前图像上。当亮度和色度具有不同的分辨率时,这尤其相关。
图2示出了所提出的方法的主要实施方案,其中仅使用当前帧和参考帧的亮度分量来计算和编码运动场。色度分量的运动直接来源于亮度运动。在下文中,仅使用一个帧作为参考来预测待编码的当前帧。注意,所提出的发明集中于利用亮度/色度表示的特性,并且不限于使用单个帧的帧间预测的情况。
当前帧编码并且先前重建的参考帧/>是该过程的输入。每个帧的亮度分量/>用于计算运动。其首先被连结以产生大小为2×h×w的张量,其中h和w分别表示帧的高度和宽度。然后计算运动,即每个样本位移的水平分量和竖直分量,这也对应于2×h×w张量。
通过在编码器处从当前源图像中减去经预测的值来获得残差
像图像和运动信息一样,其可使用自编码器架构进行编码。此过程通常是有损耗的,这意味着重建的残差不等于先前构建的残差/>
对于每个帧间经预测的图像,比特流然后包含用于运动和预测残差的2个主要编码的张量。
重建的当前帧最终对应于:
其可被存储在解码的图片缓冲器中,以用作稍后经预测的帧的参考。由于图片组(GOP)结构可能依赖于双向预测编码,所以编码的顺序和显示的顺序可能不同,然后存储当前解码的帧,直到其被显示并且不再用作参考。
任选地,如图5所示,可添加分量,也称为尺度场,其目的是当基于流的预测不够好时引入模糊,例如,当闭塞物或对象移出边界时。此运动张量也可使用具有熵瓶颈的卷积自编码器来编码。此级的输出由包含向量分量的张量和任选的场尺度组成。
两个张量的值中的每个值可为变换y=tanh x的输入,其输出范围[-1,1]中包括的信号。与重建的参考帧一起,这些张量被用作翘曲操作的输入,以产生经预测的图像在翘曲期间,运动的范围[-1,1]分别对应于每个样本的位移的水平、竖直分量的分别为[-宽度,宽度]和[-高度,高度]的范围的运动向量。
在先前的部分中,我们称之为“样本”位移,而不是“像素”,以指定图像的每个分量的值。与显示图像上的位置相对应的像素,即在RGB或YUV表示的情况下,其可具有值的三元组。具体地,在YUV 4:2:0格式的情况下,U和V分量的大小是宽度/2和高度/2。每个色度样本的绝对位移然后对应于Y分量的绝对位移的一半。如图4所示,下采样操作对于导出色度的正确大小的运动信息是必要的。此下采样操作可由任何下采样滤波器组成,诸如例如:
-平均池化,即每个色度位移是亮度张量中4个对应值的平均值
-任何步长卷积,或一系列卷积,其以正确的色度大小输出张量。例如,建议使用步长为2的卷积3×3。权重在训练期间学习,这有助于捕捉Y位移和U/V位移之间的相位。
首先,如图4所示,下采样操作对于以正确的色度大小导出运动信息是必要的。此下采样操作可由任何下采样滤波器组成,诸如例如:
-平均池化,即每个色度位移是亮度张量中4个对应值的平均值
-任何步长卷积,或一系列卷积,其以正确的色度大小输出张量。例如,建议使用步长为2的卷积3×3。权重在训练期间学习,这有助于捕捉Y位移和U/V位移之间的相位。
第二,tanh函数和翘曲获取相对于输入张量大小的运动信息,然后翘曲操作接收张量的正确形式。
图6示出了在帧间模式下当前帧在解码器侧处的过程。比特流被解析以解码所需的信息:
-使用哪个参考图像,
-运动张量,
-残差
如图6所示,解码遵循如图2所述的卷积结构,其中转置卷积最终产生亮度的P×h×w张量和色度的在基本光流的简单情况下,P=2,即样本位移的竖直分量和水平分量。当使用更详细的方法时,诸如上述的空间尺度流,P可为3,包括模糊特征。
在下文中,我们描述在单个参考帧的情况下的过程。
解码的运动和参考帧被输入到输出经预测的帧的翘曲操作。
类似于在需要重建帧以预测稍后帧的编码器处,重建的当前帧被计算为
为了突出所提出的对图2中的一般框架的修改,图7示出了如上所述的完全基于自编码器的结构,其中翘曲对于亮度(y)和色度(UV)是分开的,以产生经预测的帧
如先前提到的,所提出的方法与任何帧间预测方案和图像组的结构兼容。图7示出了示例性的情况,其中使用2帧作为参考,如在图3中。此结构是图3所示架构与所提出的架构的自然组合,其中Y和UV分别翘曲。
具体情况YUV 4:4:4
在其中内容以YUV 4:4:4模式表示的情况下。即使内容可表示为类RGB格式的3D张量,其仅使用亮度来计算运动流仍是相关的,该亮度通常包含估计运动所需的主要特征。在所述情况下,仅运动流计算的输入被改变,如图9所示是尺度空间运动流的情况。其余的操作将YUV体积作为3D张量进行处理,就像在处理RGB内容的现有技术的模型中一样。其可能产生更一致的运动估计,并减少存储器占有面积和复杂性。
为了解码此比特流的上述不同张量,解码器需要语法元素:
对于每个帧:
-图像模式(帧内、帧间)
-如果图像是以帧间模式编码的,
о用于预测的参考帧的POC(图像顺序计数)。参考通常与待访问的它们的POC一起存储在解码器图片缓冲器中。
о对于每个待解码的张量,报头包含其ID和潜在的潜的大小,如果没有在序列层次上用信号通知的话。或也用信号通知编码的比特的长度。
在此部分中,我们描述了从主要发明延伸的多个变体。注意,除非在说明中特别说明,否则这些变体可组合。
通用参数帧间预测
在主要实施方案中,我们描述了使用流(或空间尺度流)从参考帧生成经预测的图像。基于参考帧和当前帧的2Y(亮度)分量来估计流。本发明实际上可扩展到可应用于参考帧以生成新帧的任何参数方法。
当前解码器从编码的特征图生成2分量(或在空间尺度的情况下为3分量)流。只要过程是可区分的,这可被改变以生成任何参数集。例如:
-可以较低的分辨率生成该流,然后对其进行上采样,以确保相邻像素之间的空间相干性。
-流可被约束到真实的运动值(例如,不超过图像大小的一半或四分之一可被用作位移)
-全局补偿:例如,参数仿射变换或基于样条的光度变换(在参数信息不在像素本地的情况下,在解码器中使用池化操作和展平操作可很容易)
-内插滤波器:直接与参考帧卷积的参数核可用同样的方法预测。
并行解码器
-多个解码器可并行应用于相同的特征图上,以生成先前描述的参数预测方法的任何组合。
-解码器也可由公共主干和多个头部组成:例如,在特征图上应用几个卷积层,然后并行应用不同的“子”解码器。(这在深度学习文献中被称为“hydranet”)。具体地,建议稍微修改网络的架构,以便为亮度分量和色度分量保留单独的专用层。
在此设置中,多步预测过程被顺序地应用于参考帧,操作的顺序可被存储用于比特流中的每个图像和/或遵循固定的顺序。
多个参考帧
在先前的实施方案中,我们集中于描述依赖于单个参考帧的不同方法。如在主要实施方案部分中提到的,实施方案可支持多个参考帧的使用(在下文中我们将参考帧的数量表示为n)。
运动编码器可被修改为取n+1个输入分量(参考+当前帧)并生成n个预测方法参数集。
-用于当前图像的参考帧的索引可存储在比特流中或遵循固定的方案。
-解码器的输出现在需要包含额外的信息来平衡n个经预测的帧的贡献。这可为[0,1]之间的一组n个1xHxW掩码乘以其相应的经预测的帧,然后将其聚集以构建最终的经预测的帧。也可使用简单的平均运算。对于亮度分量和色度分量,可独立地使用和适应掩码。
-
扩展运动编码器输入
在先前的实施方案中,运动编码器仅将Y分量作为输入。这是对传统视频编码的严重限制,在传统视频编码中,运动预测方法基于先前的帧和并置的块来访问大量附加信息。在此,我们提出了扩展运动编码器可用信息的其他变体(注意,此信息不一定需要出现在解码器侧处,其全部取决于解码器架构):
-运动编码器可扩展到不仅将重建的参考帧作为输入,还将原始版本作为输入。然后,编码器可访问参考帧的原始分量,以估计运动信息和将应用参数变换的重建的参考。
-运动编码器可被扩展以使用先前生成的“流”(或其特征图)来更有效地编码与当前帧相关的流信息(连续帧之间的流中的冗余是预期的)。此信息也存在于解码器中(因为其被用于先前的帧),并且将被用作针对解码器的“边信息”。一些架构变体:
о编码器特征图与先前的特征图合并/连结。
о输入帧与先前的流连结,作为编码器的新输入。
用于解码运动信息的单独的卷积
在此变体中,不是适应YUV 4:2:0中色度分量的运动场的分辨率,而是提出分离编码运动的模型的解码器部分的分支。图10示出了此类解码器架构,其中不是像图6中那样对为亮度计算的运动进行下采样,而是针对最后的至少一个卷积层将解码器分割为2个分支。在图10的示例中,来自亮度和色度共有的最后一层的张量输出具有2N个信道,并且被分割成两半以馈送亮度分支和色度分支两者。与具有2步长的亮度最后转置卷积相反,色度卷积没有步长,其将输出与色度分量相同大小的场。
注意,例如,信道的分割和数量可以不同方式进行,以为亮度保留更多的信道。
图11中示出了用于编码方法1100的一个实施方案。该方法起始于开始框1101,并进行到框1110,用于连结当前块和至少一个参考块的亮度数据。该方法进行到框1120进行处理。该处理包括以下中的至少一者:从所连结的亮度数据确定运动信息;对该确定的运动信息进行编码;对该编码的运动信息进行下采样;基于该下采样的编码的运动信息和该至少一个参考块的色度数据确定对色度数据的预测;基于该编码的运动信息和该至少一个参考块的亮度数据来确定对亮度数据的预测;以及基于该预测确定当前块的残差数据。该方法进行到框1130,用于将残差数据编码为比特流,该比特流也包括编码的运动信息。
图12中示出了用于解码视频数据的方法1200的一个实施方案。该方法起始于开始框1201,并进行到框1210,用于解码来自比特流的运动信息。该方法进行到框1220进行处理。该处理包括下采样该解码的运动信息中的至少一者;基于该下采样的解码的运动信息和至少一个参考块的色度数据确定对色度数据的预测;基于该解码的运动信息和至少一个参考块的亮度数据来确定对亮度数据的预测,并解码残差信息。该方法进行到框1230,用于使用解码的残差信息和预测来重建视频块。
图13示出了用于使用编码或解码工具对视频进行压缩、编码或解码的装置1300的一个实施方案。该装置包括处理器1310并且可通过至少一个端口互连到存储器1320。处理器1310和存储器1320两者还可具有与外部连接的一个或多个附加的互连。
处理器1310还被配置为在比特流中插入或接收信息,并且使用前述方法进行压缩、编码或解码。
本文所述的实施方案包括各个方面,包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面,并且至少示出各个特性,通常以可能听起来具有限制性的方式描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。此外,这些方面也可与先前提交中描述的方面组合和互换。
本申请中描述和设想的方面可以许多不同的形式实现。图14、图15和图16提供了一些实施方案,但是设想了其他实施方案,并且图14、图15和图16的讨论不限制具体实施的广度。这些方面中的至少一个方面通常涉及视频编码和解码,并且至少一个其他方面通常涉及传输生成或编码的比特流。这些和其他方面可实现为方法、装置、其上存储有用于根据所述方法中任一种对视频数据编码或解码的指令的计算机可读存储介质,和/或其上存储有根据所述方法中任一种生成的比特流的计算机可读存储介质。
在本申请中,术语“重建”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。通常,但不必然,术语“重构”在编码器侧使用,而“解码”在解码器侧使用。
本文描述了各种方法,并且方法中的每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。此外,术语诸如“第一”、“第二”等可用于各种实施方案以修改元件、分量、步骤、操作等,诸如“第一解码”和“第二解码”。除非具体要求,否则使用此类术语并不暗示对修改操作的排序。因此,在这个示例中,第一解码不需要在第二解码之前执行,并且可例如在第二解码之前、期间或在重叠的时间段中发生。
本专利申请中所述的各种方法和其他方面可用于修改视频编码器100和解码器200的模块(例如,帧内预测、熵编码和/或解码模块(160、360、145、330)),如图14和图15所示。此外,本发明方面不限于VVC或HEVC,并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外,否则本申请中所述的方面可单独或组合使用。
在本申请中使用各种数值。具体值是为了示例目的,并且所述方面不限于这些具体值。
图14示出了编码器100。设想了这一编码器100的变型,但是为了清楚起见,下文描述了编码器100而不描述所有预期的变型。
在进行编码之前,视频序列可经过预编码处理(101),例如,将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对于压缩更弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。
在编码器100中,由编码器元件对图片进行编码,如下所述。在例如CU的单元中对待编码的图片进行分区(102)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当在帧内模式下对单元进行编码时,该编码器执行帧内预测(160)。在帧间模式中,执行运动估计(175)和运动补偿(170)。编码器决定(105)使用帧内模式或帧间模式中的哪一个模式对该单元进行编码,并且通过例如预测模式标志来指示帧内/帧间决定。例如,通过从初始图像块减去(110)经预测的块来计算预测残差。
然后,对预测残差进行变换(125)和量化(130)。对量化的变换系数以及运动向量和其他语法元素进行熵编码(145)以输出比特流。该编码器可跳过变换,并对未变换的残差信号直接应用量化。该编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。
该编码器对编码块进行解码以提供进一步预测的参考。对量化的变换系数进行解量化(140)和逆变换(150)以对预测残差进行解码。组合(155)解码的预测残差和经预测的块,重建图像块。将环内滤波器(165)应用于重建的图片以执行例如解块/SAO(样本自适应偏移)滤波,从而减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)处。
图15示出了视频解码器200的框图。在解码器200中,由解码器元件对比特流进行解码,如下所述。视频解码器200通常执行与如图14所述的编码道次互逆的解码道次。编码器100通常还执行视频解码作为对视频数据进行编码的一部分。
具体地,解码器的输入包括视频比特流,该视频比特可由视频编码器100生成。首先,对比特流进行熵解码(230)以获得变换系数、运动向量和其他编码的信息。图片分区信息指示如何对图片进行分区。因此,解码器可根据解码的图片分区信息来划分(235)图片。对变换系数进行解量化(240)和逆变换(250)以对预测残差进行解码。组合(255)解码的预测残差和预测块,重建图像块。可从帧内预测(260)或运动补偿预测(即,帧间预测)(275)获得(270)经预测的块。将环内滤波器(265)应用于重建的图像。将滤波的图像存储在参考图片缓冲器(280)处。
经解码的图片还可经过解码后处理(285),例如,逆颜色变换(例如,从YcbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码过程(101)中执行的重新映射的逆过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中有发信号通知的元数据。
图16示出了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可具体体现为包括下文所述的各个部件的设备,并且被配置为执行本文档中所述的方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统1000的元件可单独地或组合地具体体现在单个集成电路(IC)、多个IC和/或分立的部件中。例如,在至少一个实施方案中,系统1000的处理元件和编码器/解码器元件跨多个IC和/或分立部件分布。在各种实施方案中,系统1000经由例如通信总线或通过专用输入端口和/或输出端口通信地耦接到一个或多个其他系统或其他电子设备。在各种实施方案中,系统1000被配置为实现本文档中描述的方面中的一个或多个方面。
系统1000包括至少一个处理器1010,该至少一个处理器被配置为执行加载在其中的指令以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口以及如在本领域中是已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可包括内部存储设备、附接的存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码的视频或解码的视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可包括在设备中以执行编码和/或解码功能的一个或多个模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外地,编码器/解码器模块1030可实现为系统1000的独立元件,或可结合在处理器1010内作为本领域的技术人员已知的硬件和软件的组合。
待加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中,并且随后加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述的过程的执行期间存储各种项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,在处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令以及提供在编码或解码期间所需的用于处理的工作存储器。然而,在其他实施方案中,处理设备(例如,处理设备可为处理器1010或编码器/解码器模块1030)外部的存储器用于这些功能中的一个或多个功能。外部存储器可为存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储例如电视的操作系统。在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器,诸如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC 13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频编码,也称为H.265和MPEG-H部分2)或VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)。
可通过如框1130中所指示的各种输入设备来提供对系统1000的元件的输入。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中传输的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图16中未示出的其他示例,包括复合视频。
在各种实施方案中,框1130的输入设备具有如在本领域中是已知的相关联的相应的输入处理元件。例如,RF部分可与适用于以下的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质传输的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
另外地,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应的接口处理器。应当理解,输入处理的各个方面(例如,Reed-Solomon错误校正)可在必要时例如在独立的输入处理IC内或在处理器1010内实现。类似地,USB或HDMI接口处理的各个方面可以根据需要在单独的接口IC内或在处理器1010内实现。经解调、纠错和解复用的流被提供给各种处理元件,包括例如处理器1010和编码器/解码器1030,该编码器/解码器与存储器和存储元件结合操作以根据需要处理数据流以供在输出设备上呈现。
系统1000的各种元件可设置在集成外壳内,在该集成外壳内,各种元件可使用合适的连接布置(例如,如本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并且在其间发射数据。
系统1000包括通信接口1050,该通信接口使得能够经由通信信道1060与其他设备的通信。通信接口1050可包括但不限于收发器,该收发器被配置为通过通信信道1060传输和接收数据。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。
在各种实施方案中,使用无线网络诸如Wi-Fi网络例如IEEE 802.11(IEEE是指电气电子工程师学会)将数据流式传输或以其他方式提供给系统1000。这些实施方案的Wi-Fi信号是通过适于Wi-Fi通信的通信信道1060和通信接口1050接收的。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对外部网络(包括互联网)的访问,以用于允许流式传输应用和其他越过运营商的通信。其他实施方案使用机顶盒向系统1000提供流式传输的数据,该机顶盒通过输入框1130的HDMI连接来递送数据。还有其他实施方案使用输入框1130的RF连接向系统1000提供流式传输的数据。如上所述,各种实施方案以非流式的方式提供数据。另外地,各种实施方案使用除了Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统1000可向各种输出设备(包括显示器1100、扬声器1110和其他外围设备1120)提供输出信号。各种实施方案的显示器1100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一个或多个显示器。显示器1100可用于电视机、平板电脑、笔记本电脑、蜂窝电话(移动电话)或另外的设备。显示器1100还可与其他部件集成(例如,如在智能电话中),或可为独立的显示器(例如,用于膝上型电脑的外部监视器)。在实施方案的各种示例中,其他外围设备1120包括独立数字视频光盘(或数字多功能光盘)(DVR,可表示这两个术语)、碟片播放器、立体声系统和/或照明系统中的一者或多者。各种实施方案使用一个或多个外围设备1120,该一个或多个外围设备基于系统1000的输出来提供功能。例如,碟片播放器执行播放系统1000的输出的功能。
在各种实施方案中,使用信令诸如AV.Link、消费电子控制(CEC)或允许带有或不带有用户干预的设备到设备控制的其他通信协议,在系统1000与显示器1100、扬声器1110或其他外围设备1120之间传送控制信号。可通过相应的接口1070、1080和1090经由专用连接将输出设备通信地耦接到系统1000。另选地,可经由通信接口1050使用通信信道1060将输出设备连接到系统1000。在电子设备(诸如例如电视)中,显示器1100和扬声器1110可与系统1000的其他部件集成在单个单元中。在各种实施方案中,显示器接口1070包括显示驱动器,诸如例如定时控制器(T Con)芯片。
例如,如果输入1130的RF部分是独立机顶盒的一部分,则显示器1100和扬声器1110可另选地相对于其他部件中的一个或多个部件而独立。在其中显示器1100和扬声器1110为外部部件的各种实施方案中,可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供输出信号。
该实施方案可由处理器1010实现的计算机软件,或由硬件,或由硬件和软件的组合来进行。作为非限制性示例,这些实施方案可由一个或多个集成电路实现。作为非限制性示例,存储器1020可为适于技术环境的任何类型,并且可使用任何适当的数据存储技术(诸如光存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器)来实现。作为非限制性示例,处理器1010可为适于技术环境的任何类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
各种具体实施参与解码。如本申请中所用,“解码”可包括例如对所接收的编码序列执行以产生适于显示的最终输出的过程的全部或部分。在各种实施方案中,此类过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。在各种实施方案中,此类过程还包括或另选地包括由本应用中所述的各种具体实施的解码器执行的过程。
作为进一步的示例,在一个实施方案中,“解码”仅是指熵解码,在另一个实施方案中,“解码”仅是指差分解码,并且在又另一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”旨在具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且被认为会被本领域的技术人员很好地理解。
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以产生编码比特流的过程的全部或部分。在各种实施方案中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。在各种实施方案中,此类过程还包括或另选地包括由本应用中所述的各种具体实施的编码器执行的过程。
作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一个实施方案中,“编码”仅是指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
注意,本文所用的语法元素是描述性术语。因此,它们不排除使用其他语法元素名称。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
各种实施方案可以指参数模型或速率失真优化。具体地,在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。可以通过速率失真优化(RDO)度量或通过最小均方(LMS)、绝对误差平均值(MAE)或其他此类测量值来测量。速率失真优化通常表述为使速率失真函数最小化,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试,并且完整评估其编码成本以及重建信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重建的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对编码成本和相关失真两者的完整评估。
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的处理器中实现,该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如,计算机、蜂窝电话、便携式/个人数字助理(“PDA”)以及有利于最终用户之间信息的通信的其他设备。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外地,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外地,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,编码器向多个变换、编码模式或标志中的特定一者发信号通知。这样,在一个实施方案中,在编码器侧和解码器侧均使用相同的变换、参数或模式。因此,例如,编码器可将特定参数传输(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他,则可在不传输(隐式信令)的情况下使用信令,以简单允许解码器知道和选择特定参数。通过避免传输任何实际功能,在各种实施方案中实现了比特节省。应当理解,信令可以各种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。众所周知,信号可通过各种不同的有线或无线链路传输。信号可存储在处理器可读介质上。
前面部分描述了多个实施方案,跨各种权利要求类别和类型。这些实施方案的特征可以单独提供或以任何组合形式提供。此外,实施方案可包括以下特征、设备或方面中的一个或多个,单独地或以任何组合,跨各种权利要求类别和类型:
·使用亮度信息对视频信息进行编码和解码,以导出色度的运动信息。
·使用自编码器来实现上述编码和解码。
·使用具有至少一个参考帧的上述自编码器。
·YUV 4:2:0视频格式的自编码器视频编码和解码。
·包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号。
·包括传递根据所述实施方案中任一个实施方案生成的信息的语法的比特流或信号。
·根据所述实施方案中任一个实施方案所述的创建和/或传输和/或接收和/或解码。
·根据所述实施方案中任一个实施方案所述的方法、过程、装置、存储指令的介质、存储数据的介质或信号。
·在信令中插入语法元素,该语法元素使得解码器能够以与编码器所使用的方式相对应的方式确定解码信息。
·对包括所描述的语法元素中的一个或多个语法元素或其变型的比特流或信号进行创建和/或传输和/或接收和/或解码。
·根据所描述的实施方案中的任一实施方案执行变换方法的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。
·根据所描述的实施方案中的任一实施方案执行变换方法确定并显示所得图像(例如,使用监视器、屏幕或其他类型的显示器)的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。
·根据所描述的实施方案中的任一实施方案选择、频带限制或调谐(例如,使用调谐器)信道以接收包括编码图像的信号并执行变换方法的电视、机顶盒、蜂窝电话、平板电脑或其他电子设备。
·通过空中接收(例如,使用天线)包括编码图像的信号并且执行变换方法的电视机、机顶盒、蜂窝电话、平板电脑或其他电子设备。

Claims (15)

1.一种方法,所述方法包括:
连结当前块和至少一个参考块的亮度数据;
根据所连结的亮度数据确定运动信息;
对所述确定的运动信息进行编码;
对所述编码的运动信息进行下采样;
基于所述下采样的编码的运动信息和所述至少一个参考块的色度数据确定对色度数据的预测;
基于所述编码的运动信息和所述至少一个参考块的亮度数据来确定对亮度数据的预测;
基于所述预测确定所述当前块的残差数据;以及
将所述残差数据编码为比特流,所述比特流还包括所述编码的运动信息。
2.一种装置,所述装置包括:
处理器,所述处理器被配置为:
连结当前块和至少一个参考块的亮度数据;
根据所连结的亮度数据确定运动信息;
对所述确定的运动信息进行编码;
对所述编码的运动信息进行下采样;
基于所述下采样的编码的运动信息和所述至少一个参考块的色度数据确定对色度数据的预测;
基于所述编码的运动信息和所述至少一个参考块的亮度数据来确定对亮度数据的预测;
基于所述预测确定所述当前块的残差数据;以及
将所述残差数据编码为比特流,所述比特流还包括所述编码的运动信息。
3.一种方法,所述方法包括:
从比特流中解码运动信息;
对所述解码的运动信息进行下采样;
基于所述下采样的解码的运动信息和至少一个参考块的色度数据确定对色度数据的预测;
基于所述解码的运动信息和所述至少一个参考块的亮度数据来确定对亮度数据的预测;
解码残差信息;以及
使用所述解码的残差信息和所述预测来重建视频块。
4.一种装置,所述装置包括:
处理器,所述处理器被配置为:
从比特流中解码运动信息;
对所述解码的运动信息进行下采样;
基于所述下采样的解码的运动信息和至少一个参考块的色度数据确定对色度数据的预测;
基于所述解码的运动信息和所述至少一个参考块的亮度数据来确定对亮度数据的预测;
解码残差信息;以及
使用所述解码的残差信息和所述预测来重建视频块。
5.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置,其中使用自编码器执行所述编码和解码。
6.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置,其中所述预测包括:
对至少一个参考帧计算高斯体积;
对运动信息执行tanh变换;以及
对所述tanh函数输出执行翘曲函数以生成预测。
7.根据权利要求3所述的方法或根据权利要求4所述的装置,其中对运动信息的所述解码包括至少一个转置卷积和至少一个整流线性单元函数。
8.根据权利要求6所述的方法或装置,其中所述翘曲对于亮度和色度是单独进行的,以生成预测。
9.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置,其中所述亮度数据和色度数据是YUV 4:4:4格式。
10.根据权利要求1或3所述的方法或根据权利要求2或4所述的装置,其中对所述至少一个参考块使用参数模型,以生成新块。
11.根据权利要求7所述的方法或装置,其中对于最后至少一个卷积层,所述解码被分割为多个分支。
12.一种设备,所述设备包括:
根据权利要求1所述的装置;和
以下项中的至少一者:(i)天线,所述天线被配置为接收信号,所述信号包括视频块;(ii)频带限制器,所述频带限制器被配置为将所接收的信号限制为包括所述视频块的频带;和(iii)显示器,所述显示器被配置为显示表示视频块的输出。
13.一种非暂态计算机可读介质,所述非暂态计算机可读介质包含根据权利要求1中的任一项所述的方法或者由根据权利要求2所述的装置生成的用于使用处理器回放的数据内容。
14.一种信号,所述信号包括根据权利要求1所述的方法或者由根据权利要求2所述的装置生成的用于使用处理器回放的视频数据。
15.一种计算机程序产品,所述计算机程序产品包括指令,当程序由计算机执行时,所述指令使得所述计算机执行根据权利要求1所述的方法。
CN202280022115.3A 2021-03-18 2022-03-16 基于深度学习的yuv视频压缩的运动流编码 Pending CN117044206A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163162779P 2021-03-18 2021-03-18
US63/162,779 2021-03-18
PCT/US2022/020503 WO2022197771A1 (en) 2021-03-18 2022-03-16 Motion flow coding for deep learning based yuv video compression

Publications (1)

Publication Number Publication Date
CN117044206A true CN117044206A (zh) 2023-11-10

Family

ID=81327338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280022115.3A Pending CN117044206A (zh) 2021-03-18 2022-03-16 基于深度学习的yuv视频压缩的运动流编码

Country Status (5)

Country Link
US (1) US20240155148A1 (zh)
EP (1) EP4309367A1 (zh)
KR (1) KR20230157975A (zh)
CN (1) CN117044206A (zh)
WO (1) WO2022197771A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740327B (zh) * 2018-07-20 2022-05-31 北京字节跳动网络技术有限公司 一种处理视频数据的方法、装置和可读介质
WO2020216438A1 (en) * 2019-04-23 2020-10-29 Telefonaktiebolaget Lm Ericsson (Publ) A computer software module, a device and a method for accelerating inference for compressed videos

Also Published As

Publication number Publication date
WO2022197771A1 (en) 2022-09-22
KR20230157975A (ko) 2023-11-17
EP4309367A1 (en) 2024-01-24
US20240155148A1 (en) 2024-05-09

Similar Documents

Publication Publication Date Title
CN111630856B (zh) 基于响应于相邻样本的线性模型进行视频编码和解码的方法和设备
US20230095387A1 (en) Neural network-based intra prediction for video encoding or decoding
CN116195254A (zh) 用于通用视频编码的模板匹配预测
CN113557730A (zh) 用于利用基于子块的局部光照补偿的视频编码和解码方法和装置
US20240214553A1 (en) Spatial local illumination compensation
US20230254507A1 (en) Deep intra predictor generating side information
CN113330747A (zh) 利用适应于加权预测的双向光流进行视频编码和解码的方法和装置
CN117256142A (zh) 用于使用基于人工神经网络的工具对图像和视频进行编码/解码的方法和装置
US20230396801A1 (en) Learned video compression framework for multiple machine tasks
US11991389B2 (en) Method and apparatus for video encoding and decoding with optical flow based on boundary smoothed motion compensation
CN115918071A (zh) 使变换过程自适应于基于神经网络的帧内预测模式
CN112335240B (zh) 使用可变权重的多参考帧内预测
US20240031611A1 (en) Deep prediction refinement
CN117280684A (zh) 具有可切换内插滤波器的几何分区
US20240155148A1 (en) Motion flow coding for deep learning based yuv video compression
CN114600450A (zh) 使用位置相关帧内预测组合进行画面编码和解码的方法和设备
CN113170153A (zh) 基于二元树初始化当前图片参考块矢量
CN116998154A (zh) 用于视频压缩的基于时间结构的条件卷积神经网络
CN118120231A (zh) 改善解码器侧帧内模式导出中的角度离散化
WO2024064329A1 (en) Reinforcement learning-based rate control for end-to-end neural network bsed video compression
CN118339825A (zh) 使用参考图片重新采样的视频编码和解码
WO2024158896A1 (en) Multi-residual autoencoder for image and video compression
KR20240072180A (ko) Isp 모드를 사용한 템플릿 기반 인트라 모드 도출(timd)의 확장
CN115336267A (zh) 用于联合色度编码块的缩放过程
CN114270829A (zh) 局部照明补偿标志继承

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240830

Address after: Delaware, USA

Applicant after: Interactive Digital VC Holdings

Country or region after: U.S.A.

Address before: Wilmington, Delaware, USA

Applicant before: VID SCALE, Inc.

Country or region before: U.S.A.