CN117716688A - 用于视频编码的外部增强预测 - Google Patents

用于视频编码的外部增强预测 Download PDF

Info

Publication number
CN117716688A
CN117716688A CN202280031462.2A CN202280031462A CN117716688A CN 117716688 A CN117716688 A CN 117716688A CN 202280031462 A CN202280031462 A CN 202280031462A CN 117716688 A CN117716688 A CN 117716688A
Authority
CN
China
Prior art keywords
picture
video
current
encoding
curr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280031462.2A
Other languages
English (en)
Inventor
F·莱莱昂内克
P·博尔德斯
F·加尔平
A·罗伯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of CN117716688A publication Critical patent/CN117716688A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/583Motion compensation with overlapping blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种用于表示虚拟环境的视频图像的视频编码系统,该视频编码系统执行时间预测,其中解码图片缓冲区包括基于与当前图像的表示相对应的第二图像的图片,第二图像从外部过程(例如,图形渲染器)获得,并且第二图像的质量低于当前图像的质量。描述了编码方法、解码方法、编码装置、解码装置以及对应的计算机程序和非暂态计算机可读介质。

Description

用于视频编码的外部增强预测
技术领域
本发明实施方案中的至少一个实施方案整体涉及用于例如在云游戏的情境中应用的视频压缩的时间预测。
背景技术
为了实现高压缩效率,图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关,然后对在原始块与预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重建视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。
云游戏使用视频编码向用户输送游戏动作。实际上,在此类情境中,游戏的3D环境被渲染在服务器上,经过视频编码并且作为视频流提供给解码器。解码器显示视频,并且作为响应,将用户输入传输回服务器,从而允许与游戏元素和/或其他用户进行交互。
发明内容
本发明实施方案中的至少一个实施方案涉及用于表示虚拟环境的视频图像的视频编码系统,该视频编码系统使用至少存储基于从图形渲染器获得的第二图像的图像的参考图片缓冲区来提供当前图像的时间预测,第二图像的质量低于当前图像的质量。
根据至少一个实施方案的第一方面,一种用于对视频的当前图像(curr)的像素块进行解码的方法包括:使用差分编码来获得表示编码视频的信息,该差分编码至少包括当前图像与第二图像(gcurr)之间的差异(curr-gcurr),第二图像对应于当前图像的表示,第二图像从外部过程获得并且不同于正被解码的当前图片(curr);基于层间预测来执行时间预测,其中解码图片缓冲区包括至少存储基于第二图像的差分图像的差分图片以及;对时间预测图像进行解码和重建。
根据至少一个实施方案的第二方面,一种用于对视频的当前图像(curr)的像素块进行编码的方法包括:使用差分编码来执行时间预测,其中解码图片缓冲区包括差分图片,该差分图片至少存储基于与当前图像的表示相对应的第二图像(gcurr)的差分图像,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行编码,至少包括对当前图像与第二图像之间的差异(curr-gcurr)进行编码。
根据至少一个实施方案的第三方面,一种用于对视频的当前图像(curr)的像素块进行解码的方法包括:获得表示编码视频的信息;基于外部参考图片来执行时间预测,其中解码图片缓冲区至少包括基于与当前图像的表示相对应的第二图像(gcurr)的图片,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行解码和重建。
根据至少一个实施方案的第四方面,一种用于对视频的当前图像(curr)的像素块进行编码的方法包括:基于外部参考图片来执行时间预测,其中解码图片缓冲区至少包括基于与当前图像的表示相对应的第二图像(gcurr)的图片,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行编码,至少包括对当前图像进行编码。
根据至少一个实施方案的第五方面,一种用于对表示虚拟环境的视频的当前图像的像素块进行解码的装置包括:图形渲染器,该图形渲染器被配置为基于虚拟环境生成第二图像;解码器,该解码器被配置为:使用差分编码来获得表示编码视频的信息,该差分编码至少包括当前图像与第二图像(gcurr)之间的差异(curr-gcurr),第二图像对应于当前图像的表示,第二图像从外部过程获得并且不同于正被解码的当前图片(curr);基于层间预测来执行时间预测,其中解码图片缓冲区包括至少存储(1240)基于第二图像的差分图像的差分图片以及;对时间预测图像进行解码和重建。
根据至少一个实施方案的第六方面,一种用于对表示虚拟环境的视频的当前图像的像素块进行编码的装置包括:图形渲染器,该图形渲染器被配置为基于虚拟环境生成第二图像;编码器,该编码器被配置为使用差分编码来执行时间预测,其中解码图片缓冲区包括至少存储基于与当前图像的表示相对应的第二图像(gcurr)的差分图像的差分图片,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行编码,至少包括对当前图像与第二图像之间的差异(curr-gcurr)进行编码。
根据至少一个实施方案的第七方面,一种用于对表示虚拟环境的视频的当前图像的像素块进行解码的装置包括:图形渲染器,该图形渲染器被配置为基于虚拟环境生成第二图像;解码器,该解码器被配置为:获得表示编码视频的信息;基于外部参考图片来执行时间预测,其中解码图片缓冲区至少包括基于与当前图像的表示相对应的第二图像(gcurr)的图片,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行解码和重建。
根据至少一个实施方案的第八方面,一种用于对表示虚拟环境的视频的当前图像的像素块进行编码的装置包括:图形渲染器,该图形渲染器被配置为基于虚拟环境生成第二图像;编码器,该编码器被配置为:基于外部参考图片来执行时间预测,其中解码图片缓冲区至少包括基于与当前图像的表示相对应的第二图像(gcurr)的图片,第二图像从外部过程获得并且不同于正被编码的当前图片(curr)以及;对时间预测图像进行编码,至少包括对当前图像进行编码。
根据先前方面的变型实施方案,第二图像的质量低于当前图像的质量。
根据至少一个实施方案的第九方面,提出了一种包括可由处理器执行的程序代码指令的计算机程序,该计算机程序实施根据至少第一方面、第二方面、第三方面或第四方面的方法的步骤。
根据至少一个实施方案的第十方面,提出了一种存储在非暂态计算机可读介质上并且包括可由处理器执行的程序代码指令的计算机程序产品,该计算机程序产品当在处理器上执行时实施根据至少第一方面、第二方面、第三方面或第四方面的方法的步骤。
根据至少一个实施方案的第十一方面,一种视频编码系统包括根据第六方面的服务器装置和根据第五方面的客户端装置。
根据至少一个实施方案的第十二方面,一种视频编码系统包括根据第八方面的服务器装置和根据第七方面的客户端装置。
尽管本文在游戏情境中描述实施方案,但所描述的原理可应用于需要将高质量图形从第一设备传输到第二设备的其他情境。
附图说明
图1示出了视频编码器100的示例的框图。
图2示出了视频解码器200的示例的框图。
图3示出了在其中实现各种方面和实施方案的系统的示例的框图。
图4A和图4B示出了基于块的视频编码标准的可扩展性原理。
图5A和图5B示出了在基于块的视频编码标准中使用外部参考图片的原理。
图6示出了云游戏系统的示例。
图7示出了云游戏系统的第二示例。
图8A、图8B、图8C示出了不同编码方法中的编码图片之间存在的依赖性。
图9示出了根据实施方案的云游戏系统的示例。
图10示出了根据其中使用系统差分编码的第一实施方案的分层编码方法中的丰富的参考图片集。
图11示出了用于与其中使用系统差分编码的分层编码方法中的丰富的参考图片集的第一实施方案相对应的视频图片的编码过程。
图12示出了用于与其中使用系统差分编码的分层编码方法中的丰富的参考图片集的第一实施方案相对应的视频图片的解码过程。
图13示出了根据其中使用外部参考图片的第二实施方案的编码方法中的丰富的参考图片集。
图14示出了用于与其中使用外部参考图片的第二实施方案相对应的视频图片的编码过程。
图15示出了用于与其中使用外部参考图片的第二实施方案相对应的视频图片的解码过程。
图16示出了根据其中将表示外部编码参数的信息插入到切片标头中的一个实施方案的语法的示例。
图17示出了与外部编码参数相关的解码过程的子集。
图18示出了根据其中外部编码参数是Gpm_partition的实施方案的语法的示例。
图19示出了根据其中外部编码参数是附加运动向量候选的实施方案的语法的示例。
图20示出了其中外部编码参数是附加运动向量候选的解码过程的子集。
具体实施方式
图1示出了视频编码器100的示例的框图。视频编码器的示例包括符合HEVC标准的高效率视频编码(HEVC)编码器,或其中对HEVC标准作出改进的HEVC编码器,或采用类似于HEVC的技术的编码器,诸如由JVET(联合视频探索团队)开发用于通用视频编码(VVC)标准化的JEM(联合探索模型)编码器,或其他编码器。
在编码之前,视频序列可经历预编码处理(101)。例如通过以下方式来执行此操作:将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更具弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。
在HEVC中,为了对具有一个或多个图片的视频序列进行编码,将图片分割(102)成一个或多个切片,其中每个切片可包括一个或多个切片片段。将切片片段组织成编码单元、预测单元和变换单元。HEVC规格区分“块”和“单元”,其中“块”处理样本阵列中的特定区域(例如,亮度、Y),并且“单元”包括与块相关联的所有编码的颜色分量(Y、Cb、Cr或单色)、语法元素和预测数据的并置块(例如,运动向量)。
对于HEVC中的编码,将图片分割成具有可配置大小的正方形形状的编码树块(CTB),并且将连续的一组编码树块分组为切片。编码树单元(CTU)包含编码的颜色分量的CTB。CTB是分区为编码块(CB)的四叉树的根,并且编码块可被分区为一个或多个预测块(PB)并且形成分区为变换块(TB)的四叉树的根。对应于编码块、预测块和变换块,编码单元(CU)包括预测单元(PU)和树形结构集合的变换单元(TU),PU包括所有颜色分量的预测信息,并且TU包括每个颜色分量的残差编码语法结构。亮度分量的CB、PB和TB的大小适用于对应的CU、PU和TU。
在本申请中,术语“块”可用于指代例如CTU、CU、PU、TU、CB、PB和TB中的任一者。另外,“块”还可以用于指代H.264/AVC或其他视频编码标准中所指定的宏块和分区,并且更一般地指代各种大小的数据阵列。实际上,在其他编码标准中,诸如由JVET开发的编码标准中,块形状可以不同于正方形块(例如矩形块),最大块大小可以更大,并且块的布置可以不同。
在编码器100的示例中,图片由编码器元件进行编码,如下所述。以CU为单位对待编码的图片进行处理。使用帧内模式或帧间模式对每个CU进行编码。当在帧内模式中对CU进行编码时,其执行帧内预测(160)。在帧间模式中,执行运动估计(175)和运动补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对CU进行编码,并且通过预测模式标记来指示帧内/帧间决定。通过从原始图像块减去(110)预测块来计算预测残差。
根据同一切片内的重建相邻样本预测处于帧内模式的CU。在HEVC中可用35个帧内预测模式的集合,包括DC、平面以及33个角度预测模式。根据与当前块相邻的行和列来重建帧内预测参考。参考使用来自先前重建的块的可用样本在水平和竖直方向上扩展超过块大小的两倍。当使用角度预测模式进行帧内预测时,可沿着由角度预测模式指示的方向复制参考样本。
用于当前块的适用亮度帧内预测模式可使用两个不同的选项来编码。如果适用模式包括在三个最可能模式(MPM)的构建列表中,则该模式通过MPM列表中的索引来发信号通知。否则,该模式通过模式索引的固定长度二值化来发信号通知。三个最可能模式源自顶部和左侧相邻块的帧内预测模式。
对于帧间CU,将对应编码块进一步分割为一个或多个预测块。对PB级别执行帧间预测,并且对应PU包括关于如何执行帧间预测的信息。可以用两种方法发信号通知运动信息(例如,运动向量和参考图片索引),即“合并模式”和“高级运动向量预测(AMVP)”。
在合并模式中,视频编码器或解码器基于已经编码的块构建候选列表,并且视频编码器针对候选列表中的候选中的一个候选发信号通知索引。在解码器端,基于发信号通知的候选来重建运动向量(MV)和参考图片索引。
在AMVP中,视频编码器或解码器基于根据已经编码的块确定的运动向量来构建候选列表。然后,视频编码器发信号通知候选列表中的索引以标识运动向量预测因子(MVP)并发信号通知运动向量差(MVD)。在解码器端,运动向量(MV)被重建为MVP+MVD。适用的参考图片索引也在用于AMVP的PU语法中被显式编码。
然后对预测残差进行变换(125)和量化(130),包括用于调整下述色度量化参数的至少一个实施方案。变换通常基于可分离变换。例如,首先在水平方向上应用DCT变换,然后在竖直方向上应用DCT变换。在诸如JEM的最近的编解码器中,在两个方向上使用的变换可以不同(例如,一个方向上的DCT、另一个方向上的DST),这导致各种2D变换,而在先前的编解码器中,通常限制给定块大小的各种2D变换。
对量化的变换系数以及运动向量和其他语法元素进行熵编码(145)以输出比特流。编码器也可跳过变换,并基于4x4 TU对未变换的残差信号直接应用量化。编码器也可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。在直接PCM编码中,不应用预测并且将编码单元样本直接编码到比特流中。
该编码器对编码块进行解码以提供进一步预测的参考。对量化的变换系数进行解量化(140)和逆变换(150)以对预测残差进行解码。通过组合(155)经解码的预测残差和预测块,重建图像块。向重建图片应用环内滤波器(165)以执行例如去块/SAO(取样自适应偏移)滤波以减少编码伪影。将经滤波的图像存储在参考图片缓冲区(180)处。
图2示出了视频解码器200的示例的框图。视频解码器的示例包括符合HEVC标准的高效率视频编码(HEVC)解码器,或其中对HEVC标准作出改进的HEVC解码器,或采用类似于HEVC的技术的解码器,诸如由JVET(联合视频探索团队)开发用于通用视频编码(VVC)标准化的JEM(联合探索模型)解码器,或其他解码器。
在解码器200的示例中,比特流由解码器元件进行解码,如下所述。视频解码器200通常执行与如图1所描述的编码通路互逆的解码通路,该解码通路执行视频解码作为编码视频数据的一部分。
具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器100生成。首先对该比特流进行熵解码(230)以获得变换系数、运动向量、图片分区信息和其他编码信息。图片分区信息指示CTU的大小以及将CTU分割成CU(并且在适用时可能划分成PU)的方式。因此,解码器可根据经解码的图片分区信息将图片划分(235)成CTU,并且将每个CTU划分成CU。对变换系数进行解量化(240),包括用于调整下述色度量化参数的至少一个实施方案,并进行逆变换(250)以对预测残差进行解码。
组合(255)经解码的预测残差和预测块,重建图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。如上所述,AMVP和合并模式技术可用于导出运动补偿的运动向量,该运动向量可使用内插滤波器来计算参考块的子整数样本的内插值。将环内滤波器(265)应用于重建图像。将经滤波的图像存储在参考图片缓冲区(280)处。
经解码的图片还可经历解码后处理(285),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。
图3示出了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可体现为包括下文所描述的各种部件的设备,并且被配置为执行本申请中所描述的方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器、编码器、转码器和服务器。系统1000的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统1000的处理和编码器/解码器元件跨多个IC和/或分立部件分布。在各种实施方案中,系统1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施方案中,系统1000被配置为实现本文档中描述的方面中的一个或多个方面。
系统1000包括至少一个处理器1010,该至少一个处理器被配置为执行加载在其中的指令以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口以及如在本领域中是已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可以包括非易失性存储器和/或易失性存储器,包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可以包括内部存储设备、附接存储设备和/或网络可访问存储设备。
系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码的视频或解码的视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可包括在设备中以执行编码和/或解码功能的一个或多个模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外地,编码器/解码器模块1030可实现为系统1000的独立元件,或可结合在处理器1010内作为本领域的技术人员已知的硬件和软件的组合。
待加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中,并且随后加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述的过程的执行期间存储各种项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在若干实施方案中,处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令,并提供工作存储器以用于在编码或解码期间进行所需处理。然而,在其他实施方案中,处理设备(例如,处理设备可为处理器1010或编码器/解码器模块1030)外部的存储器用于这些功能中的一个或多个功能。外部存储器可为存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中,诸如RAM的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器,诸如用于MPEG-2、HEVC或VVC(通用视频编码)。
系统1000还包括图形渲染模块1035,该图形渲染模块被配置为例如渲染3D图形,换句话说,生成与3D环境中的特定视图相对应的图像,如将在下文进一步解释的。
可通过如框1130中所指示的各种输入设备来提供对系统1000的元件的输入。此类输入设备包括但不限于:(i)接收例如由广播器通过无线电发射的RF信号的RF部分;(ii)复合输入端子;(iii)USB输入端子和/或(iv)HDMI输入端子。
在各种实施方案中,框1130的输入设备具有如本领域中已知的相关联的相应输入处理元件。例如,RF部分可与以下所需的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频所选的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
另外地,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应的接口处理器。应当理解,输入处理的各个方面(例如,Reed-Solomon错误校正)可在必要时例如在独立的输入处理IC内或在处理器1010内实现。类似地,USB或HDMI接口处理方面可在必要时在独立的接口IC内或在处理器1010内实现。将经解调的、经纠错的和经解复用的流提供给各种处理元件,包括例如处理器1010以及编码器/解码器1030,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以用于在输出设备上呈现。
系统1000的各种元件可设置在集成外壳内。在集成外壳内,各种元件可使用合适的连接布置(例如,如本领域已知的内部总线,包括I2C总线、布线和印刷电路板)互连并且在其间传输数据。
系统1000包括通信接口1050,该通信接口允许经由通信信道1060与其他设备通信。通信接口1050可包括但不限于收发器,该收发器被配置为通过通信信道1060传输和接收数据。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。
在各种实施方案中,使用Wi-Fi网络诸如IEEE 802.11将数据流式传输到系统1000。这些实施方案的Wi-Fi信号是通过适用于Wi-Fi通信的通信信道1060和通信接口1050来接收的。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以允许流式应用和其他OTT通信。其他实施方案使用机顶盒向系统1000提供流式传输的数据,该机顶盒通过输入框1130的HDMI连接来传送数据。其他实施方案使用输入框1130的RF连接向系统1000提供流式传输的数据。
系统1000可向各种输出设备(包括显示器1100、扬声器1110和其他外围设备1120)提供输出信号。在实施方案的各种示例中,其他外围设备1120包括以下中的一者或多者:独立DVR、磁盘播放器、立体声音响系统、照明系统和基于系统1000的输出提供功能的其他设备。在各种实施方案中,使用信令(诸如AV.Link、CEC或能够在有或没有用户干预的情况下实现设备到设备控制的其他通信协议)在系统1000与显示器1100、扬声器1110或其他外围设备1120之间传送控制信号。可通过相应的接口1070、1080和1090经由专用连接将输出设备通信地耦接到系统1000。另选地,可经由通信接口1050使用通信信道1060将输出设备连接到系统1000。在电子设备(诸如例如电视)中,显示器1100和扬声器1110可与系统1000的其他部件集成在单个单元中。在各种实施方案中,显示器接口1070包括显示驱动器,诸如例如定时控制器(T Con)芯片。
例如,如果输入1130的RF部分是独立机顶盒的一部分,则显示器1100和扬声器1110可另选地相对于其他部件中的一个或多个部件而独立。在其中显示器1100和扬声器1110为外部部件的各种实施方案中,可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供输出信号。本文所述的具体实施可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
图4A和图4B示出了基于块的视频编码标准的可扩展性原理。当视频编解码器使用可扩展性时,由编码器生成的编码视频比特流可包括若干层,这允许以基础表示和增强表示对视频序列进行编码。通常通过对基础层进行解码来获得和重建基础表示。通过对基础层以及增强层进行解码来获得增强表示,该增强层通常包含与基础层相比更细化的信息。与可扩展比特流中的底层(即,基础层流或另一增强层)相比,增强层提供增强的质量或附加特征。可扩展视频比特流通常包括基础层以及一个或若干个增强层。例如,从增强层发出的重建图像与底层相比可增强分辨率(空间可扩展性)、质量(SNR可扩展性)、帧率(时间可扩展性)、色域(色域可扩展性、高动态范围可扩展性)、位深度(位深度可扩展性)、附加视点(多视点可扩展性)等。可扩展视频编解码器利用将块有条件地编码/解码为来自其所依赖的其他比特流/层的图像和/或编码信息的能力。
图4A示出了时间可扩展性,其中时间增强层包含编码图片,其增加底层可扩展层的帧率。通常,时间增强层的帧率相比于底层加倍。包含增强层(例如层1)的图片可以根据相同层中的图片以及根据可扩展分级结构中的较低层中的图片来预测。相反,不能根据包含在当前时间层中的图片来预测来自比当前时间层更低的层(例如,低于0)的编码图片。在示例性图4A中示出了时间层0和时间层1中的编码图片之间的依赖性。
图4B示出了常规的基于块的视频编码标准的空间可扩展性的示例。在此示例中,来自基础层(层-0)的重建图片可被重新缩放(例如,上采样)并且用作为当前层(层-1)构建帧间预测的附加参考帧。此类附加参考帧被称为层间参考图片(ILRP)并且存储在解码图片缓冲区的子区段(子DPB)中。层间参考图片(ILRP)在时间上与当前层的当前图片并置,换句话说,它们具有相同的POC。
图5A和图5B示出了在基于块的视频编码标准中使用外部参考图片的原理。可以考虑两种情况:在单层流中使用外部参考图片(ERP)(图5A)或使用ERP作为基础层(层间参考图片,图5B)。在参考图片列表结构中、在VPS(视频参数集)或SPS(序列参数集)中用信号通知ERP。不显示ERP,但可使用ERP来针对以帧间模式编码的CU(编码单元)建立预测。
图6示出了云游戏系统的示例。在常规游戏系统(即,完全本地渲染的游戏)中,用户处理具有足够计算能力的设备来渲染3D虚拟环境,诸如具有专用于渲染3D虚拟环境中的图像的高端显卡硬件的游戏机或计算机。在本地执行环境的交互和更新,从而执行渲染。可将一些交互数据发送到服务器,以便在多个玩家中同步虚拟环境。云游戏生态系统的不同之处在于,渲染硬件被转移到云中,使得用户可以使用计算能力有限的设备。因此,客户端设备可更便宜,或者甚至可以是已经存在于家庭中的设备,诸如低端计算机、平板电脑、低端智能电话、机顶盒、电视等。
在此类系统中,需要昂贵且耗电的设备的游戏引擎(611)和3D图形渲染(613)由远离用户定位(例如在云中)的游戏服务器(610)执行。接下来,经渲染的帧由视频编码器(615)编码,并且所得的编码视频流通过常规的通信网络被传输至客户端设备(620),在该客户端设备处,视频流可由视频解码器(625)解码。附加模块负责管理用户的交互和帧同步(622),以及将命令传输回服务器。3D虚拟环境的更新由游戏引擎完成。输出视频流可连续地生成,从而根据用户的视点反映3D虚拟环境的当前状态。
图7示出了云游戏系统的第二示例。云游戏系统700的该示例性具体实施利用了在诸如膝上型电脑、智能电话、平板电脑和机顶盒等设备中增强的计算能力,在一些情况下,这些设备包括3D图形渲染硬件能力。然而,这些能力可能不足以提供高质量渲染,因为这可能需要复杂且昂贵的硬件、大量数据存储器的集成,并且另外可能消耗大量能量。然而,这些设备特别适于提供基本级别的渲染。在这种情况下,可使用混合方法以通过对增强层进行编码来补充客户端图形基本级别渲染,该增强层被计算为由服务器端高质量图形渲染所渲染的全功能游戏渲染图像与客户端图形基本级别渲染之间的差异。该差异由服务器上的视频编码器模块来编码,通过通信网络传输到客户端设备,由视频解码器解码,并且添加到客户端图形基本级别渲染图像。
在图7中,云游戏系统700包括游戏服务器710和游戏客户端设备720。在游戏服务器端,基于虚拟环境,游戏逻辑引擎711指示高质量图形渲染器713生成基础层图像IBL和高质量图像IHQ。这两个图像之间的差异被确定714并且表示由视频编码器715编码的增强层图像IEL
在游戏客户端,基础层图形渲染器723从游戏逻辑引擎获得渲染命令,并且生成应当与在服务器端生成的基础层图像相同的基础层图像IBL。视频解码器725接收增强层并生成对应的增强图像IEL,该增强图像被添加724到基础层图像IBL以重建高质量图像IHQ。用户通过适当的输入接口提供一些交互,该交互通过游戏交互模块722传送回游戏服务器710。游戏逻辑可随后更新3D虚拟环境的参数(例如,用户的位置)并且请求图形渲染器生成更新图像。
此类架构方法的基本原理是从客户端上的图形/游戏渲染步骤中获益,并且使它们与视频解码器协同工作。例如,客户端上的轻度和局部游戏渲染可以允许丢弃要在视频比特流中编码的信息的一部分。为此,图7的具体实施使用差分视频编码方法,其中差分视频被编码为完全(高质量)渲染的视频游戏图片和由客户端硬件局部渲染的对应图片之间的差异。此类具体实施已经导致大量的比特率降低。
在下文中,层间预测的一般概念被称为ILP。如先前所解释的,ILP涉及可扩展视频编码以利用可存在于基础层与增强层之间的冗余。在下文中解释了现有分层编码框架的局限性。
本文考虑了云游戏中分层视频编码的两种现有架构框架。对于图7所示的典型分层编码方法,当前帧之间的差异信号被系统地编码。
图8A示出了在一般分层编码方法中的编码图片之间存在的依赖性。示出了以下变量:
curr是要编码或解码的当前图片。
g_curr是由本地解码器端局部图形渲染阶段提供的当前图片的版本。其被用作用于对当前图片curr进行编码的层间参考图片。
ref是用于当前图片curr在其编码/解码期间的预测的时间参考图片。
g_ref是图片ref的基础图片,即在时间上与参考图片ref一致的基础层图片。更准确地说,图片g_ref对应于由在所考虑的云游戏系统中的客户端上存在的基础层图形渲染器生成的图片。
在传统的可扩展视频编码中,当对当前增强图片curr进行编码时,对于要编码的每个块,编码器尝试对该块使用最佳预测模式。在时间预测(例如参考时间参考图片ref)、帧内预测和层间预测(例如参考基础图片g_curr)之间选择预测模式。在编码比特流中用信号通知所选择的预测模式。在解码器端,预测模式被解析,并且应用与编码器端相同的预测。在现代可扩展视频编码器(诸如例如SHVC或VVC)中,层间预测的信令通过参考图片索引信令(例如VVC规范“通用视频编码,ITU-T H.266,系列H:视听和多媒体系统视听服务的基础设施——移动视频的编码(Versatile video coding,ITU-T H.266,SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS Infrastructure of audiovisual services-Coding of moving video),2020年8月”的语法元素ref_idx_l0和ref_idx_l1)来实现。
提出了在给定解码器端局部渲染图片的情况下对云游戏视频进行编码的当前现有方法的局限性。首先,在系统差分编码的情况下,如图7的示例性具体实施中所示,编码器的输入图片存在于如图8B中所示的差异(curr-g_curr)中。因此,当帧内预测用于给定块时,对信号(curr-g_curr)进行编码。当使用帧间预测时,总是对信号(curr-g_curr)-(ref-g_ref)进行编码。最后一点在压缩效率方面不是最优的。实际上,已知在可扩展编码中,增强块curr与时间增强块ref的纯帧间预测有时比执行差分信号(curr-g_curr)和(ref-g_ref)之间的帧间预测更有效。因此,图8B的分层方法不是率失真优化。
另一方面,图8C示出了在外部图片的情况下允许的预测模式。其示出了当基础图片g_curr被用作参考图片时,通过上文例如在图5A和图5B中提出的外部参考图片机制在对当前图片curr的编码中可使用的典型预测模式。在该编码架构中,可从当前视频层ref的时间参考图片或从对应于基础图片g_curr的外部图片来预测图片curr的给定块。因此,要编码的残差信号具有形式(curr-g_curr)或(ref-g_ref)。这不是率失真优化,因为在这种情况下,不能执行差分信号(curr-g_curr)的时间预测编码。
下文描述的实施方案在设计时考虑了前述内容。
至少一个实施方案涉及一种用于表示虚拟环境的视频图像的视频编码系统,该视频编码系统使用至少存储基于第二图像的图像的参考图片缓冲区来提供当前图像的时间预测,第二图像从图形渲染器获得,并且第二图像的质量低于当前图像的质量。描述了编码方法、解码方法、编码装置、解码装置以及对应的计算机程序和非暂态计算机可读介质。
在至少一个实施方案中,编码基于其中应用系统差分编码的分层编码方法。在至少一个实施方案中,编码基于外部参考图片。在该实施方案的至少一个变型中,服务器设备是游戏服务器,并且客户端设备选自包括以下项的组:智能电话、平板电脑、计算机、游戏机、机顶盒。
图9示出了根据实施方案的云游戏系统的示例。云游戏系统900包括游戏服务器910和游戏客户端设备920。在游戏服务器端,基于虚拟环境,游戏逻辑引擎911指示高质量图形渲染器912生成高质量图像IHQ,并且指示基础层图形渲染器913生成基础层图像IBL。视频编码器915基于高质量图像IHQ和基础层图像使用参考图片来生成可扩展视频。在游戏客户端设备920上,基础层图形渲染器923从服务器910的游戏逻辑引擎921或从客户端设备的游戏交互模块921获得渲染命令。其生成基础层图像IBL,该基础层图像应当与在服务器端生成的基础层图像相同。视频解码器925接收可扩展视频并且根据基础层图像IBL重建高质量图像IHQ。用户通过适当的输入接口提供一些交互,该交互通过游戏交互模块921传送回游戏服务器910。游戏逻辑可随后更新3D虚拟环境的参数(例如根据用户的移动来修改其位置和/或视点)并且请求图形渲染器生成更新图像。服务器设备910和客户端设备920通常由如图3所示的设备1000来实现。
如上所述,游戏资源被导出为两个版本:高质量图像和基础层图像。基础层图像使用较少的计算和存储器要求来生成,并且可以特别适于在诸如平板电脑、智能电话、机顶盒和其他消费电子设备之类的客户端设备上进行渲染。因此,基础层图像可以使用分辨率降低、细节水平降低的纹理进行渲染,可以跳过或简化一些昂贵的渲染效果(照明、阴影、烟雾、颗粒)。当与高质量渲染相比时,可使用其他众所周知的技术来降低图形渲染过程的复杂性。
尽管图9示出了在服务器设备910上使用两个单独的图形渲染器912和913,但并非强制使用单独的渲染器。实际上,当使用单个渲染器时,相同的原理也适用,例如,如图7中服务器设备710的图形渲染器713所示,约束条件是,该单个渲染器必须能够生成高质量图像和基础层图像两者。
图10示出了根据其中使用系统差分编码的第一实施方案的分层编码方法中的丰富的参考图片集。如图所示,参考图片(ref-gcurr)被添加到用于对当前差分图片(curr-gcurr)进行预测编码或解码的参考图片集。这样,允许对当前差分图片中的给定块进行编码的预测模式如下:
(curr-gcurr)通过对块进行帧内编码
(curr-gcurr)-(ref-gref)通过利用参考图片对块进行时间预测,
(curr-gcurr)-(ref-gcurr)=(curr-ref):原始图片curr的当前块的时间预测以非差分模式编码。由于所提出的丰富的参考图片集,这种预测模式是允许的并提高了压缩效率。
图11示出了用于与其中使用系统差分编码的分层编码方法中的丰富的参考图片集的第一实施方案相对应的视频图片的编码过程。此类过程1100通常由服务器设备710或910实施。在图7的分层差分编码系统中,建议从至少一个附加参考图片中获益,以便允许纯运动补偿时间预测,其相当于根本不使用基础层的情况。过程1100的输入是要编码的当前图片curr。第一步骤1110包括从位于视频编解码器外部的装置例如图形渲染器913获得被标注为gcurr的基础层渲染图片。然后,在步骤1120中,利用所考虑的视频编码器进行压缩的差分图片被计算为(curr-gcurr)。下一步骤1130包括对包含在解码图片缓冲区(DPB)中的参考图片执行循环(步骤1140至1160),该循环用于对当前差分图片(curr-gcurr)进行编码。这些参考图片已经是形式为(refi-grefi)的差分图片,其中:
·i表示参考图片索引
·refi对应于已经由图11的算法处理的原始图片,并且在时间上与具有索引i的参考图片一致
·grefi是基础层渲染图片,其由外部游戏渲染装置例如图形渲染器913提供并且被用于对差分图片(refi-grefi)进行编码。该图片可存储在缓冲区中以供进一步使用。
对于包含在解码图片缓冲区中并用于预测当前图片的每个差分参考图片(refi-grefi),应用以下内容:
·在步骤1140中,通过根据索引i的参考图片与基础层渲染图片gcurr之间的差异来确定新的差分信号(refi-gcurr),
·在步骤1150中,将该新的差分信号(refi-gcurr)作为用于预测当前差分图片(curr-gcurr)的附加参考图片添加到解码图片缓冲区中。
一旦完成该循环,则在步骤1170中由所考虑的编码器常规地压缩当前差分图片(curr-gcurr),并且该过程结束。
如先前所解释的,所提出的丰富的参考图片集允许预测信号(curr-gcurr),其方式相当于从参考图片refi预测当前原始图片信号curr。在编码器端可用的附加选择提高了编码效率。
对于步骤1140,在至少一个实施方案中,根据参考图片索引i,信号(grefi-gcurr)由对应的基础层参考图像grefi与基础层渲染图片gcurr之间的差异来确定,该信号(grefi-gcurr)被添加到差分参考图片(refi-grefi)中,以确定新的差分信号(refi-gcurr)。为此目的,先前由基础层图形渲染器渲染的基础层参考图像grefi应当被保存在存储器中的缓冲区中以供进一步重用。由于其涉及基础层图像,因此用于存储这些参考图像的存储器要求低于用于存储高质量参考图像的存储器要求。
图12示出了用于与其中使用系统差分编码的分层编码方法中的丰富的参考图片集的第一实施方案相对应的视频图片的解码过程。换句话说,其对应于图11的编码过程的反向过程。此类过程1200通常由客户端设备720实施。
过程1200的输入是编码视频比特流,其例如使用图11所示的过程进行编码。第一步骤1210包括从位于视频编解码器外部的装置例如从基础层图形渲染器723获得被标注为gcurr的基础层渲染图片。然后,步骤1220包括对包含在解码图片缓冲区(DPB)中的参考图片执行循环(步骤1230至1250),该循环用于对当前差分图片(curr-gcurr)进行编码。类似于编码器端,这些参考图片也是形式为(refi-grefi)的差分图片。对于用于预测当前图片的每个差分参考图片(refi-grefi),应用以下内容:
·在步骤1230中,通过根据索引i的参考图片与基础层渲染图片gcurr之间的差异来确定新的差分信号(refi-gcurr),
·在步骤1240中,将该差分信号(refi-gcurr)作为用于预测当前差分图片(curr-gcurr)的附加参考图片添加到解码图片缓冲区中。
一旦完成该循环,则由所考虑的视频解码器对当前差分图片(curr-gcurr)进行常规解码。这使得在步骤1260中得到重建图片一旦该差分信号被重建,则在步骤1270中,将由云游戏客户端显示的最终图片被计算为:/>一旦完成该步骤,则解码过程结束。
在图11和图12的编码和解码过程的至少一个实施方案中,类型为(refi-gcurr)的仅一个附加参考图片由编解码器计算并使用。可使用参考图片索引i来计算该单个附加参考图片,该参考图片索引对应于在时间距离方面最接近当前图片的参考图片。在基于相同原理的另一实施方案中,所添加的单个参考图片可基于可用参考图片中已利用最小量化参数进行编码/解码的参考图片。在基于相同原理的另一实施方案中,所添加的单个参考图片可基于可用参考图片中已利用最小时间层进行编码/解码的参考图片。
图13示出了根据其中使用外部参考图片的第二实施方案的编码方法中的丰富的参考图片集。所提出的实施方案修改先前参考图8C呈现的基于外部参考图片的架构。
如图所示,除了常用时间参考图片ref和已经在适当位置的外部参考图片gcurr之外,被标注为g′curr的参考图片用于对当前图片curr进行编码。附加参考图片g′curr定义如下:
g′curr=ref+(gcurr-gref)
其中gref是上文已经介绍的基础层图片。在当前编码场景中,其已经被用作外部参考图片来对已经处理的图片ref进行编码或解码。
通过添加参考图片g′curr作为对当前图片curr的块进行编码或解码的候选参考图片,编码器具有对以下三种类型的残差信号中的一者进行计算和编码的可能性:
·(curr-g_curr)通过帧间预测根据外部参考图片对块进行编码;
·(curr-ref)通过原始图片curr的当前块的时间预测,其中参考块包含在常用参考图片ref中;和
·(curr-g′curr)通过使用新引入的参考图片g′curr对块进行时间预测。该残差信号等于下式:
curr-g′curr=curr-(ref+(gcurr-gref))
=(curr-gcurr)-(ref-gref)。
因此,该添加的候选预测模式相当于信号curr在与gcurr的差分模式下的可扩展编码,并且借助于根据当前参考图片ref的时间预测,该当前参考图片在与其自身的外部图片gref的差分域中表示。
因此,除了在图5A和图5B中描述的基于常规外部参考图片的编码原理中已经存在的预测模式之外,上述第三预测模式被用于对当前图片curr进行编码。该添加的预测模式的优点是与常规的基于外部参考图片的编码相比提高了编码效率,特别是在使用对客户端设备上的基础层图像进行本地局部图形渲染的云游戏的情境中。
图14示出了用于与其中使用外部参考图片的第二实施方案相对应的视频图片的编码过程。此类过程通常由服务器设备910实施。过程1400的输入是要编码的当前图片curr。第一步骤1410包括从位于视频编解码器外部的装置例如从基础层图形渲染器913获得被标注为gcurr的局部渲染的基础层图片。在步骤1420中,将该图片作为参考图片插入到解码图片缓冲区(DPB)中以对当前图片进行编码。接下来,从步骤1430到1460,对包含在DPB中的参考图片执行循环,该循环用于对当前图片curr进行编码。这些参考图片被标注为refi,其中:
i表示参考图片索引;
refi对应于已经由用于先前图片的算法产生的重建图片。
对于每个参考图片refi,由基础层图形渲染器913提供的在时间上与refi一致的局部渲染的基础层图片被标注为在步骤1440中,附加参考图片g′curr(i)计算如下:
接下来,在步骤1450中,将图片g′curr(i)作为用于预测当前图片curr的附加参考图片添加到DPB中。
一旦完成该循环,则在步骤1470中由所考虑的编码器常规地压缩当前差分图片curr,并且该编码过程结束。该编码针对每个参考图片索引i利用参考图片rifi、gcurr、g′curr(i)。
图15示出了用于与其中使用外部参考图片的第二实施方案相对应的视频图片的解码过程。此类过程1500通常由客户端设备920实施。过程1500的输入是包含要解码的当前图片curr的编码视频比特流。第一步骤1510包括获得由基础层图形渲染器913提供的被标注为gcurr的局部渲染的基础层图片。在步骤1520中,将该图片作为参考图片插入到DPB中以对当前图片进行编码。
接下来,从步骤1530到1560,对包含在DPB中的参考图片执行循环,该循环用于对当前图片curr进行编码。这些参考图片被标注为rifi,其中:
i表示参考图片索引
refi对应于已经由用于先前图片的相同算法处理的原始图片。
对于每个参考图片refi,由外部游戏渲染装置提供的在时间上与refi一致的局部渲染图片被标注为在步骤1540中,附加参考图片g′curr(i)计算如下:
接下来,在步骤1550中,将图片g′curr(i)作为用于预测当前图片curr的附加参考图片添加到DPB中。
一旦完成该循环,则在步骤1570中由所考虑的解码器对当前差分图片curr进行常规解码,并且解码过程结束。该解码针对每个参考图片索引i利用参考图片refi、gcurr、g′curr(i)。
根据图14和图15的编码和解码过程的实施方案,类型为g′curr(i)的仅一个附加参考图片由编解码器计算并使用。可使用参考图片索引i来计算该单个附加参考图片,该参考图片索引对应于在时间距离方面最接近当前图片的参考图片。在另一实施方案中,所添加的单个参考图片可基于可用参考图片中已利用最小量化参数进行编码/解码的参考图片。在另一实施方案中,所添加的单个参考图片可基于可用参考图片中已利用最小时间层进行编码/解码的参考图片。
在上述第一实施方案和第二实施方案中,层间预测主要采用层间纹理预测的形式,或者通过第一实施方案的差分编码,或者通过根据第二实施方案中引入的外部参考图片的时间预测。
已知在可扩展视频压缩中,还通过使用除了纹理信息之外的编码参数的层间预测来进一步提高编码效率。此类进一步的层间预测数据通常包括运动信息。
在下文中,在图5A和图5B的外部参考图片框架的上下文中,引入了使得能够对除了纹理信息之外的编码参数进行层间预测的语法。这些附加编码参数被称为外部编码信息(ECI)。至少一个实施方案涉及其中ECI是外部参考图片(ERP)的情况,因此考虑与单层视频流相关的实施方案,在该实施方案中,ERP是由基础层图形渲染器提供的附加参考图片。
ERP的原理可扩展到可用于对视频的一个编码单元(CU)进行编码的其他类型的编码参数。为此,外部编码参数(ECP)被定义为作为外部手段提供的并且可用于对一个CU进行编码的参数或参数集。在参数是参考图片的情况下,ECP是ERP。其他类型的ECP例如为:
·Motion-info:协同定位的运动信息向量和参考索引(例如视频编码系统的示例的sh_ecp_motion_info_flag),
·AIF标记:用于对当前CU进行编码的运动补偿滤波器的索引(例如视频编码系统的示例的sh_ecp_aif_flag),
·Gpm_partition:编码模式,诸如CU或PU分区。例如,其可为指示CU的分区的Geo或Triangle索引(例如视频编码系统的示例的sh_ecp_gpm_partition_flag)。实际上,当外部过程是计算机生成的图像时,深度可以是可用的并且可用于导出编码分区。
图16示出了根据其中将表示外部编码参数的信息插入到切片标头中的一个实施方案的语法的示例。切片标头语法的其他元素是众所周知的常规元素,并且未在图中表示。在未示出的另一实施方案中,这些信息被插入到图片标头中。
图17示出了与外部编码参数相关的解码过程的子集。外部编码参数可替换从常规解码过程导出的一个值,并且对应语法元素不在比特流中编码。过程1700首先在步骤1710中对指示外部编码参数的使用的语法元素进行解码,例如根据图16的语法在切片标头中编码的sh_ecp_param_flag。在步骤1720中测试语法元素sh_ecp_param_flag。如果其值为真,则这指示在步骤1735中由外部装置提供param,其对应于运动信息、运动补偿内插滤波器、几何分区模式或某个其他CU级编码参数中的一者,并且该语法元素param不在比特流中编码。在解码器端,其是从外部装置导出的。如果sh_ecp_param_flag为假,则在步骤1730中正常地对语法元素param进行解码。然后在步骤1740中常规地重建编码单元,其中param在编码视频比特流中提供或者从外部过程获得。
图18示出了根据其中外部编码参数是Gpm_partition的实施方案的语法的示例。在这种情况下,对应的语法元素merge_gpm_partition_idx不在比特流中编码。
在变型实施方案中,ECP参数可以是附加编码参数。例如,其可以是附加参考图片或附加运动向量候选。在ERP类型的情况下,这意味着参考图片缓冲区将包含由外部装置提供的附加参考图片。
图19示出了根据其中外部编码参数是附加运动向量候选的实施方案的语法的示例。图20示出了其中外部编码参数是附加运动向量候选的解码过程的子集。此类实施方案涉及sh_ecp_additional_motion_candidate_flag。在步骤2040中建立的并且进一步用于不同模式(诸如AMVP或合并模式)的运动向量候选的列表在步骤2060中利用由步骤2070中的外部装置提供的附加运动向量候选来补充。
当外部编码参数是ERP并且该ERP根据图9至图12的实施方案生成时,基础层渲染图像作为ERP被复制到视频编解码器的参考缓冲区中。基础层渲染图像可以是协同定位的参考图片,换句话说,其具有与当前POC相同的POC。
当外部编码参数是ERP时,可以修改编码过程。例如,可禁用至少一个后置滤波器(例如,诸如去块滤波器或SAO或ALF)。在变型中,应用至少一个其他后置滤波器(例如,诸如抗混叠后置滤波器)。另外,在比特流中编码的标记可指示是否用ERP并且更具体地用后置滤波来修改解码过程。
在至少一个实施方案中,在已重建当前图片之后从DPB移除ERP。在变型实施方案中,ERP可被保存在DPB中以用于重建后续图片。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本说明书通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外,本申请或其权利要求书可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请或其权利要求书可涉及“访问”各种信息。访问信息可包括例如接收信息、(例如,从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、预测信息或估计信息中的一者或多者。
另外,本申请或其权利要求书可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如(例如,从存储器或光学介质存储装置)访问信息或检索信息中的一者或多者。此外,在诸如例如存储信息、处理信息、传输信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
应当理解,术语“图像”或“图片”被无差别地使用并且表示相同的数据集。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带该实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

Claims (21)

1.一种用于解码的方法,所述方法包括:
-获得表示编码视频的当前图片的信息;
-获得与所述当前图片的表示相对应的第二图片,所述第二图片从所述解码方法之外的过程获得并且不同于所述当前图片;
-重建时间预测图片,其中解码图片缓冲区至少包括基于所述第二图片的图片;以及
-提供所重建的图片。
2.一种用于编码的方法,所述方法包括:
-基于解码图片缓冲区对视频的当前图片执行时间预测,所述解码图片缓冲区包括至少基于与所述当前图片的表示相对应的第二图片的图片,所述第二图片从所述编码方法之外的过程获得并且不同于所述当前图片;以及
-对至少包括基于所述第二图片的编码信息的所述时间预测图片进行编码。
3.根据权利要求1或2所述的方法,其中基于差分编码对所述视频进行编码,所述时间预测基于层间预测,并且所述解码图片缓冲区包括至少存储所述当前图片与所述第二图片之间的差异的差分图片。
4.根据权利要求3所述的方法,其中所述时间预测还包括向所述解码图片缓冲区添加通过从参考图片中减去所述第二图片而确定的新差分图片。
5.根据权利要求1至4所述的方法,其中所述时间预测还包括:
-从所述解码图片缓冲区获得参考图片与对应于所述参考图片的第二图片之间的所述差分图片,以及
-将对应于从缓冲区获得的所述参考图片的所述第二图片添加到所述差分图片。
6.根据权利要求1或2所述的方法,其中所述第二图片被用作参考图片以对所述当前图片进行编码。
7.根据权利要求1、2或6所述的方法,其中所述时间预测还包括向所述解码图片缓冲区添加通过将参考图片添加到差分图片而确定的新图片。
8.根据权利要求1至7中任一项所述的方法,其中所述第二图片的质量低于所述当前图片的质量。
9.根据权利要求1至8中任一项所述的方法,其中所述视频表示3D环境,并且所述第二图片由3D渲染器生成。
10.一种用于解码的装置,所述装置包括:
-解码器,所述解码器被配置为:
-获得表示编码视频的当前图片的信息;
-从图形渲染器获得与所述当前图片的表示相对应的第二图片,所述第二图片不同于所述当前图片;
-重建时间预测图片,其中解码图片缓冲区至少包括基于所述第二图片的图片;以及
-提供所重建的图片,和;
-图形渲染器,所述图形渲染器被配置为基于虚拟环境生成所述第二图片。
11.一种用于编码的装置,所述装置包括:
-编码器,所述编码器被配置为:
-基于解码图片缓冲区对视频的当前图片执行时间预测,所述解码图片缓冲区包括至少基于第二图片的图片;以及
-对至少包括基于所述第二图片的编码信息的所述时间预测图片进行编码;和
-图形渲染器,所述图形渲染器被配置为基于对应的虚拟环境生成与所述当前图片的表示相对应的所述第二图像,所述第二图片不同于所述当前图片。
12.根据权利要求10或11所述的装置,其中基于差分编码对所述视频进行编码,所述时间预测基于层间预测,并且所述解码图片缓冲区包括至少存储所述当前图片与所述第二图片之间的所述差异的差分图片。
13.根据权利要求12所述的装置,其中所述时间预测还包括向所述解码图片缓冲区添加通过从参考图片中减去所述第二图片而确定的新差分图片。
14.根据权利要求10至13所述的装置,其中所述时间预测还包括:
-从所述解码图片缓冲区获得参考图片与对应于所述参考图片的第二图片之间的所述差分图片,以及
-将对应于从缓冲区获得的所述参考图片的所述第二图片添加到所述差分图片。
15.根据权利要求10或11所述的装置,其中所述第二图片被用作参考图片以对所述当前图片进行编码。
16.根据权利要求10、11或15所述的装置,其中所述时间预测还包括向所述解码图片缓冲区添加通过将参考图片添加到差分图片而确定的新图片。
17.根据权利要求10至16中任一项所述的装置,其中所述第二图片的质量低于所述当前图片的质量。
18.根据权利要求10至17中任一项所述的装置,其中所述视频表示3D虚拟环境,并且所述第二图片由3D图形渲染器基于所述3D虚拟环境生成。
19.一种计算机程序,所述计算机程序包括程序代码指令,所述程序代码指令在由处理器执行时实施根据权利要求1至9中至少一项所述的方法的步骤。
20.一种非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由处理器执行时实施根据权利要求1至9中至少一项所述的方法的步骤。
21.一种视频编码系统,所述视频编码系统包括根据权利要求11所述的用于编码的所述装置和根据权利要求10所述的用于解码的所述装置。
CN202280031462.2A 2021-03-30 2022-02-22 用于视频编码的外部增强预测 Pending CN117716688A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21305400.0 2021-03-30
EP21305400 2021-03-30
PCT/EP2022/054314 WO2022207189A1 (en) 2021-03-30 2022-02-22 Externally enhanced prediction for video coding

Publications (1)

Publication Number Publication Date
CN117716688A true CN117716688A (zh) 2024-03-15

Family

ID=75588139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280031462.2A Pending CN117716688A (zh) 2021-03-30 2022-02-22 用于视频编码的外部增强预测

Country Status (5)

Country Link
US (1) US20240179345A1 (zh)
EP (1) EP4315849A1 (zh)
KR (1) KR20230162801A (zh)
CN (1) CN117716688A (zh)
WO (1) WO2022207189A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118283267A (zh) * 2022-12-29 2024-07-02 华为技术有限公司 端云协同系统、编解码方法及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794558B2 (en) * 2014-01-08 2017-10-17 Qualcomm Incorporated Support of non-HEVC base layer in HEVC multi-layer extensions
US20150264404A1 (en) * 2014-03-17 2015-09-17 Nokia Technologies Oy Method and apparatus for video coding and decoding
US20170094288A1 (en) * 2015-09-25 2017-03-30 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding

Also Published As

Publication number Publication date
US20240179345A1 (en) 2024-05-30
KR20230162801A (ko) 2023-11-28
EP4315849A1 (en) 2024-02-07
WO2022207189A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
US20230095387A1 (en) Neural network-based intra prediction for video encoding or decoding
CN113196781A (zh) 管理编解码工具组合和限制
JP2024505900A (ja) 空間局所照明補償
CN115104317A (zh) 图像编码装置和用于控制环路滤波的方法
JP2024112926A (ja) 符号化及び復号化方法並びに装置
US20240179345A1 (en) Externally enhanced prediction for video coding
CN115053522A (zh) 采用自适应环路滤波器的视频或图像编码
JP2024522138A (ja) ビデオを符号化/復号するための方法及び装置
CN116438795A (zh) 使用元数据的压缩视频的环路内滤波和后滤波的空间分辨率适配
CN115362679A (zh) 用于视频编码和解码的方法和装置
CN115088265A (zh) 用于控制环路滤波的图像编码装置和方法
CN115088262A (zh) 用于发信号通知图像信息的方法和装置
CN114982242A (zh) 发信号通知图片分割信息的方法和设备
EP3700201A1 (en) Separate coding trees for luma and chroma prediction
CN114450951A (zh) 视频编码和解码中的运动向量预测
US20220360771A1 (en) Prediction for video encoding and decoding using external reference
US20240205412A1 (en) Spatial illumination compensation on large areas
US20230403406A1 (en) Motion coding using a geometrical model for video compression
US20240323367A1 (en) Methods and apparatuses for encoding/decoding a video
WO2024049627A1 (en) Video compression for both machine and human consumption using a hybrid framework
KR20240089756A (ko) 다층 코딩 및 디코딩을 위한 alf aps
KR20240071392A (ko) 이중-예측 가중화를 갖는 dmvr을 위한 방법 및 장치
JP2022537222A (ja) 局所照明補正フラグインヘリタンス
WO2024091953A1 (en) Systems and methods of video decoding with dynamic noise reconstruction
KR20240087768A (ko) 비디오를 인코딩/디코딩하기 위한 방법들 및 장치들

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination