CN117813819A - 用于在流式传输场景中处置运动矢量的视频编码概念 - Google Patents

用于在流式传输场景中处置运动矢量的视频编码概念 Download PDF

Info

Publication number
CN117813819A
CN117813819A CN202280055830.7A CN202280055830A CN117813819A CN 117813819 A CN117813819 A CN 117813819A CN 202280055830 A CN202280055830 A CN 202280055830A CN 117813819 A CN117813819 A CN 117813819A
Authority
CN
China
Prior art keywords
image
picture
pictures
prediction
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280055830.7A
Other languages
English (en)
Inventor
R·斯库平
C·巴特尼克
A·维科夫斯基
Y·桑切斯德拉富恩特
C·赫尔格
B·布罗斯
T·席尔
T·威甘德
D·马佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN117813819A publication Critical patent/CN117813819A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

例如,在不同视频比特流表示之间切换的情况下,在分段视频比特流形成的上下文中,可以可靠地使用运动矢量卷绕编码工具。视频编码器将视频和指示编码到数据流中,所述指示对图像序列有效,并指示图像序列内的某些或所有随机访问跳过前导(RASL)图像是以排除包括卷绕运动补偿工具的一个或多个编码工具的预定集合的方式编码的。视频解码器从数据流中解码指示,所述指示指示图像序列内的某些或所有RASL图像是以排除包括卷绕运动补偿工具的一个或多个编码工具的预定集合的方式编码的。

Description

用于在流式传输场景中处置运动矢量的视频编码概念
技术领域
本申请的实施例涉及视频比特流、视频编码器、视频解码器、用于将视频序列编码成视频比特流的方法以及用于从视频比特流解码视频序列的方法。另外的实施例涉及在360度视频流式传输中处置运动矢量、运动矢量卷绕(wrap-around)和/或开放GOP流切换。
背景技术
在360度视频或全向视频中,诸如等矩形投影(ERP)之类的一些投影格式具有以下属性:所描绘的对象随着时间移动朝向并通过一个垂直图像边界,再次进入相对的垂直图像边界上的图像平面。在VVC,经运动补偿的预测模式(称为卷绕运动补偿)可用于利用投影格式的该特性来提高编码效率。这是通过允许运动矢量完全或部分卷绕垂直图像边界(或图像内某个其他定义的垂直位置)并提供增强的预测块信号(例如同时来自两个图像边界的采样位置的复合预测信号)来实现的。图6示出了卷绕运动补偿原理的图示,其中描绘了当前块的位置(实线)及其参考块的位置(虚线)。可以看出,参考块的样本部分位于右图像边界之外,在这种情况下,来自左图像边界的样本用于生成预测信号。
例如,这种360度视频流式传输场景可以通过HTTP流式传输来实现。在过去十年中,编码视频的HTTP流式传输已成为视频分发的重要途径,并且OTT服务提供商如今可以通过公共互联网达到数亿用户。诸如基于HTTP的动态自适应流式传输(DASH)之类的标准协议使得服务提供商能够通过让服务器以时间分段的形式以各种比特率提供媒体来将媒体流式传输到客户端。然后,客户端设备能够通过根据可用的网络带宽及其解码能力以动态和自适应的方式在特定片段的所提供的变体中进行选择,来下载连续的片段用于连续回放。实际上,内容被提供为由优化的比特率阶梯生成的多个所谓的表示,所述表示通常涉及多个分辨率和保真度,以便优化特定比特率的感知质量,从而优化用户体验。由于通常使用所谓的封闭图像组(GOP)编码结构对每个片段进行编码,而不依赖于先前的片段,因此可以将下载和解包的片段数据连结到符合比特流,并馈送到解码器中。与这种封闭GOP结构相反,使用所谓的开放GOP编码结构的片段包含一些图像,所述图像采用来自较早片段中的图像的帧间预测,这有利于编码效率。虽然当随机访问片段时,使用来自较早片段的帧间预测的图像可以被跳过而不被输出而没有回放问题或视觉假象,因为它们按呈现次序首先出现,但是当在连续播放期间发生分辨率切换时会出现问题,因为这些图像在这种非无缝切换时被跳过。甚至在纯比特率切换中,当片段没有被正确编码用于切换时,一些图像可能被丢弃或呈现严重的视觉假象。
在流式传输场景的另一示例中,360度视频的不同部分(例如ERP)以不同的分辨率提供,旨在以高质量提供用户可能消费的部分,而以较低质量提供其他部分仅作为回退选项。这样,需要流式传输的数据量可以减少。此外,在这种情况下,提供给解码器的图像的分辨率可以变化。
激增的较早代编解码器(诸如AVC和HEVC)不提供使用不同分辨率的参考图像所需的参考图像重采样(RPR)功能。因此,在分辨率切换之后,当在这种开放式GOP结构下执行时,由于来自较早片段的参考图像在所需分辨率中不可用,因此片段的一些图像不能被正确解码,这导致在从丢弃的图像的片段切换时的不恒定帧率播出。克服开放GOP分辨率切换的问题的一些方法包括采用对HEVC解码过程的规范改变,或者使用提供RPR功能的HEVC(SHVC)的较少激增的可伸缩扩展。然而,这些方法目前不能实现在HTTP流式传输中大量采用开放GOP编码。
通用视频编码(VVC)标准的最新版本1是由ITU-T的视频编码专家组和ISO/IEC的子委员会29(也称为运动图像专家组)的合作工作显现的最新视频编码标准。与较早代编解码器相比,除了提供显著增长的编码效率之外,VVC还在初始主10简档中包含了许多应用驱动的功能,诸如RPR。在VVC开发期间,RPR主要在具有低延迟编码结构的对话场景中进行研究,其中对等待时间和缓冲器大小的现实世界要求为插入帧内编码图像以进行分辨率切换的可行性设置了严格的限制。
发明内容
然而,VVC中的RPR也可以为流式传输域的视频编码的编码效率提供大量益处。
手头有一种能够可靠处理运动矢量的概念是有利的,特别是在流式传输场景中可靠处理运动矢量卷绕。特别地,在使用诸如VVC的编解码器的HTTP流式传输中的开放GOP分辨率切换的上下文中,具有处理运动矢量卷绕的概念将是有利的。
因此,一个目的是提供一种视频编码概念,其使得能够实现例如在不同视频比特流表示之间切换的情况下在分段视频比特流形成的背景下可靠地使用运动矢量卷绕编码工具。
这个目的通过本申请的独立权利要求的主题来实现。本申请的有利方面是从属权利要求的主题。下面参照附图描述本申请的示例实施例。
附图说明
图1示出了使用例如基于变换的残差编码将图像预测编码成数据流的设备。
图2示出了对应的解码器。
图3示出了重构信号与数据流中用信号通知的预测残差信号和预测信号的组合之间的关系。
图4示出了用于时间可伸缩性的GOP的分层结构的示例,其中解码直到给定层的所有图像对应于给定的帧率,并且对于8个图像的GOP大小,对应的时间Id(Tid)值被分配给每个图像。
图5示出了可以应用于对图像进行编码的卷绕运动补偿工具。
图6示出了表示360度视图和卷绕运动补偿的图像的示例,其中描绘了当前块的位置(实线)及其参考块的位置(虚线)。
图7示出了与图6中的图像相关的示例编码。
图8示出了基于图块的视口自适应流式传输的示例,在底部具有时间变化的数量的高质量图块和一个低质量回退图块。
图9示出了根据示例实施例的视频解码器。
图10示出了用于将视频编码成数据流的编码器。
具体实施方式
在下文中,详细讨论实施例,然而,应当理解,实施例提供了许多可应用的概念,所述概念可以体现在各种各样的视频编码概念中。所讨论的具体实施例仅仅说明实施和使用本概念的具体方式,并不限制实施例的范围。在以下描述中,阐述了多个细节以提供对本公开的实施例的更全面的解释。然而,对于本领域技术人员来说明显的是,可以在没有这些具体细节的情况下实践其他实施例。在其他情况下,以框图的形式而不是详细地示出了公知的结构和设备,以避免模糊这里描述的示例。此外,除非另行特别指出,否则本文描述的不同实施例的特征可以彼此组合。
在实施例的以下描述中,相同或相似的元件或具有相同功能的元件被提供有相同的附图标记或标识有相同的名称,并且通常省略对提供有相同附图标记或标识有相同名称的元件的重复描述。因此,为具有相同附图标记或用相同名称标识的元件提供的描述是可相互交换的,或者可以在不同的实施例中应用于彼此。
对附图的以下描述开始于呈现对用于对视频的图像进行编码的基于块的预测编解码器的编码器和解码器的描述,以便形成实施例可以内置于其中的编码框架的示例。参考图1至3描述了相应的编码器和解码器。此后,给出了示例实施例的描述以及关于如何将这种概念分别构建到图1和图2的编码器和解码器中的描述,尽管随后的图4和以下描述的实施例也可以用于形成不根据图1和图2的编码器和解码器底层的编码框架进行操作的编码器和解码器。
图1示出了示例性地使用基于变换的残差编码将图像A12预测编码成数据流A14的装置。该装置或编码器使用附图标记A10表示。图2示出了对应的解码器A20,即配置成也使用基于变换的残差解码对来自数据流A14的图像A12’进行预测解码的装置A20,其中撇号已经用于指示由解码器A20重构的图像A12’在由预测残差信号的量化引入的编码损失方面偏离了由装置A10原始编码的图像A12。图1和图2示例性地使用基于变换的预测残差编码,尽管本申请的实施例不限于这种预测残差编码。这对于参考图1和2描述的其他细节也是如此,如下文将概述的。
编码器A10被配置为对预测残差信号进行空间到频谱变换,并将由此获得的预测残差信号编码到数据流A14中。同样地,解码器A20被配置为对来自数据流A14的预测残差信号进行解码,并对由此获得的预测残差信号进行频谱到空间的变换。
在内部,编码器A10可以包括预测残差信号形成器A22,其生成预测残差A24,以便测量预测信号A26与原始信号(即与图像A12)的偏离。预测残差信号形成器A22例如可以是减法器,其从原始信号(即从图像A12)中减去预测信号。编码器A10还包括变换器A28,变换器A28对预测残差信号A24进行空间到频谱变换,以获得频域预测残差信号A24’,然后由编码器A10也包括的量化器A32对其进行量化。如此量化的预测残差信号A24”被编码成比特流A14。为此,编码器A10可以可选地包括熵编码器A34,所述熵编码器A34对变换和量化为数据流A14的预测残差信号进行熵编码。预测信号A26由编码器A10的预测级A36基于编码到数据流A14中并可从数据流A14解码的预测残差信号A24”来生成。为此,如图1所示,预测级A36可以在内部包括解量化器A38,该解量化器A38解量化预测残差信号A24”,以便获得除了量化损失之外对应于信号A24’的频域预测残差信号A24”’,随后是逆变换器A40,该逆变换器A40对后一预测残差信号A24”’进行逆变换,即频谱到空间变换,以获得预测残差信号A24””,该预测残差信号A24””除了量化损失之外对应于原始预测残差信号A24。预测级A36的组合器A42然后诸如通过相加来重新组合预测信号A26和预测残差信号A24””,以便获得重构信号A46,即原始信号A12的重构。重构信号A46可以对应于信号A12’。预测级A36的预测模块A44然后通过使用例如空间预测(即图像内预测)和/或时间预测(即图像间预测)基于信号A46生成预测信号A26。
同样地,如图2所示,解码器A20可以在内部由对应于预测级A36并以对应于预测级A36的方式互连的组件组成。特别地,解码器A20的熵解码器A50可以对来自数据流的量化的频域预测残差信号A24”进行熵解码,于是以上述关于预测级A36的模块的方式互连和协作的解量化器A52、逆变换器A54、组合器A56和预测模块A58基于预测残差信号A24”恢复重构信号,从而如图2所示,组合器A56的输出产生重构信号,即图像A12’。
尽管上面没有具体描述,但是容易清楚的是,编码器A10可以根据一些优化方案来设置一些编码参数,包括例如预测模式、运动参数等,诸如例如以优化一些速率和失真相关准则(即编码成本)的方式。例如,编码器A10和解码器A20以及对应的模块A44、A58可分别支持不同的预测模式,诸如帧内编码模式和帧间编码模式。编码器和解码器在这些预测模式类型之间切换的粒度可分别对应于将图像A12和A12’细分成编码片段或编码块。例如,以这些编码片段为单位,图像可以被细分为帧内编码的块和帧间编码的块。如下面更详细概述的,基于相应块的空间的、已经编码/解码的邻域来预测帧内编码的块。可以存在若干帧内编码模式,并针对相应的帧内编码片段选择所述帧内编码模式,包括方向或角度帧内编码模式,根据所述帧内编码模式,通过将沿特定于相应方向帧内编码模式的某个方向的邻域的样本值外推至相应的帧内编码片段中来填充相应片段。帧内编码模式例如还可以包括一种或多种另外的模式,诸如DC编码模式,根据所述DC编码模式,相应帧内编码块的预测将DC值分配给相应帧内编码片段内的所有样本,和/或平面帧内编码模式,根据所述平面帧内编码模式,相应块的预测被近似或确定为由二维线性函数在相应帧内编码块的样本位置上描述的样本值的空间分布,其中基于相邻样本驱动二维线性函数定义的平面的倾斜和偏移。与之相比,可以预测帧间编码块,例如,在时间上。对于帧间编码块,可以在数据流内用信号发送运动矢量,运动矢量指示图像A12所属的视频的先前编码图像的部分的空间位移,在该空间位移处对先前编码/解码的图像进行采样,以便获得相应帧间编码块的预测信号。这意味着,除了数据流A14所包含的残差信号编码(诸如代表量化的频域预测残差信号A24”的熵编码的变换系数水平)之外,数据流A14还可以在其中编码用于向各个块分配编码模式的编码模式参数、一些块的预测参数(诸如帧间编码的片段的运动参数)以及可选的另外的参数(诸如用于控制和发信号通知将图像A12和A12’分别细分为片段的参数)。解码器A20使用这些参数以与编码器相同的方式细分图像,以向片段分配相同的预测模式,并执行相同的预测以产生相同的预测信号。
图3示出了一方面重构信号(即重构图像A12’)与另一方面数据流A14中用信号通知的预测残差信号A24””和预测信号A26的组合之间的关系。如上所述,该组合可以是加法。预测信号A26在图3中被示出将图像区域细分成使用阴影说明性表示的帧内编码块和未用阴影说明性表示的帧间编码块。该细分可以是任何细分,诸如将图像区域规则地细分为方形块或非方形块的行和列,或者将图像A12从树根块多树细分为不同大小的多个叶块,诸如四叉树细分等,其中其混合如图3所示,其中首先将图像区域细分为树根块的行和列,然后根据递归多树细分进一步细分为一个或多个叶块。
同样,数据流A14可以具有编码到其中用于帧内编码块A80的帧内编码模式,其将若干支持的帧内编码模式之一分配给相应的帧内编码块A80。对于帧间编码块A82,数据流A14可以具有编码到其中的一个或多个运动参数。一般来说,帧间编码块A82不限于被时间编码。替代地,帧间编码块A82可以是从当前图像A12本身之外的先前编码部分预测的任何块,诸如图像A12所属的视频的先前编码图像,例如视图或层,或者在编码器和解码器分别是可伸缩编码器和解码器的情况下另一视图或分层上较低层的图像。
图3中的预测残差信号A24””也被示出为将图像区域细分为块A84。这些块可以被称为变换块,以便将其与编码块A80和A82区分。实际上,图3示出了编码器A10和解码器A20可以使用分别到块中的图像A12和图像A12’的两个不同细分,即一个分别细分成编码块A80和A82,并且另一个细分成变换块A84。两个细分可以是相同的,即每个编码块A80和A82可以同时形成变换块A84,但是图3示出了这样的情况,例如细分成变换块A84形成细分成编码块A80、A82的扩展,使得块A80和A82的两个块之间的任何边界覆盖两个块A84之间的边界,或者换句话说,每个块A80、A82与变换块A84之一重合或者与变换块A84的簇重合。然而,也可彼此独立地确定或选择细分,使得变换块A84可替代地跨越块A80、A82之间的块边界。就细分成变换块A84而言,与针对细分成块A80、A82而提出的类似陈述是正确的,即块A84可以是图像区域规则细分成块(具有或没有到行和列中的布置)的结果,图像区域的递归多树细分的结果,或其组合或任何其他类型的分块。顺便说一下,注意到块A80、A82和A84不限于方形、矩形或任何其他形状。图3进一步示出了预测信号A26和预测残差信号A24””的组合直接产生了重构信号A12’。然而,应当注意,根据替代实施例,多于一个预测信号A26可以与预测残差信号A24””组合以产生图像A12’。
在图3中,变换块A84应具有以下意义。变换器A28和逆变换器A54以这些变换块A84为单位执行它们的变换。例如,许多编解码器对所有变换块A84使用某种DST或DCT。一些编解码器允许跳过变换,使得对于一些变换块A84,预测残差信号在空间域中被直接编码。然而,根据下述实施例,编码器A10和解码器A20以它们支持几种变换的方式配置。例如,编码器A10和解码器A20支持的变换可以包括:
o DCT-II(或DCT-III),其中DCT代表离散余弦变换
o DST-IV,其中DST代表离散正弦变换
o DCT-IV
o DST-IV
o身份变换(IT)。
自然地,虽然变换器A28将支持这些变换的所有正向变换版本,但是解码器A20或逆变换器A54将支持其对应的反向或逆版本:
o逆DCT-II(或逆DCT-III)
o逆DST-IV
o逆DCT-IV
o逆DST-VII
o身份变换(IT)。
随后的描述提供了编码器A10和解码器A20可以支持哪些变换的更多细节。在任何情况下,应当注意,支持的变换的集合可以仅包括一个变换,诸如一个频谱到空间或空间到频谱的变换。
如上所述,图1至3已经作为示例给出,其中可以实现下面进一步描述的发明概念,以便形成根据本申请的编码器和解码器的具体示例。在此范围内,图1和图2的编码器和解码器可以分别代表下面描述的编码器和解码器的可能实现。然而,图1和图2仅仅是示例。然而,根据本申请的实施例的编码器可以使用下面更详细概述并且不同于图1的编码器的概念来执行图像A12的基于块的编码,诸如例如,以不同于图3中所例示的方式来执行细分成块A80。同样地,根据本申请实施例的解码器可以使用下面进一步概述的编码概念对来自数据流A14的图像A12’执行基于块的解码,但是例如与图2的解码器A20的不同之处在于,该解码器不支持帧内预测,或者该解码器以不同于图3所述的方式将图像A12’细分为多个块,和/或该解码器不在变换域中而是例如在空间域中从数据流A14中导出预测残差。
如所讨论的,图1至3仅意味着提供本申请的随后概述的实施例可以基于的视频编解码器的大致轮廓。例如,VVC是图1和2的视频解码器和视频编码器可以定制的视频编解码器的一个示例。
以下描述被构造如下。最初,VVC被用作视频编解码器环境的示例,并且基于该示例,以下描述提供了关于调查开放GOP编码结构的一般编码效率影响以及片段切换时的图像质量影响的实验的报告。同样,稍后描述的实施例不限于VVC,并且关于这些实施例讨论的编码工具不限于关于VVC讨论的那些,但是这些实验的呈现及其结果提供了导致稍后描述的实施例的动机。此外,随后的描述将提供GOP编码结构和分段的概述,其中然后呈现被约束的编码以实现开放GOP切换,诸如开放GOP分辨率切换,其中有效地限制与切换相关联的漂移。此后,给出了本申请的几个实施例,这些实施例是出于关于VVC的考虑而出现的。
以下提供了VVC比特流内的结构和用于流式传输的媒体分段的概述。媒体片段通常与仅使用帧内编码工具的帧内随机访问点(IRAP)图像对齐。IRAP图像可能频繁出现在经编码的视频比特流中,以允许诸如搜索或快进之类的功能,但也用作自适应HTTP流式传输的切换点。用于视频点播(VoD)流式传输的系统通常将片段与IRAP图像时段对齐,即IRAP图像通常放置在片段开始处,并且期望的片段持续时间确定IRAP图像之间的时间距离。然而,存在一些使用情况,例如非常低延迟的流式传输,其中并非所有媒体片段都包含IRAP图像,使得小片段可用于传输而无需等待IRAP图像,从而减少了内容生成侧的等待时间。片段大小可能根据目标应用而在长度上不同。例如,VoD服务允许播放器建立更大的缓冲区(例如,30秒)来克服吞吐量波动,对于这种情况,高达若干秒(例如,5秒)的片段大小可能是一种可能的方法。然而,需要更严格的端到端延迟的直播服务不允许客户端侧的如此大的缓冲区,因此需要更频繁的切换点和1秒或更短的较短片段。
两个IRAP图像之间的图像通常以双预测的分层GOP结构进行编码,所述结构涉及在解码延迟要求允许的情况下在呈现之前进行重新排序,因为这种结构提供了AVC中引入的大量编码效率益处。GOP的分层结构可以用于时间可伸缩性,其中解码直到给定层的所有图像对应于给定的帧率,并且如图4所示,对于8个图像的GOP大小,对应的时间Id(Tid)值被分配给每个图像。GOP可以被定义为按解码次序从第一Tid 0图像直到但不包括下一个Tid0图像的所有图像。通常,片段包括根据IRAP时段和GOP大小的一个或多个GOP结构。虽然在HEVC中解码图像缓冲区(DBP)中的参考图像时隙的数量允许16个图像的典型GOP大小,但是在VVC中,DPB容量增加,从而允许高达32个图像的分层GOP大小。
在解码次序上在IRAP图像之后但在呈现次序上在它之前的图像在HEVC中被引入并被称为前导图像。它们可以进一步区分为随机访问跳过前导(RASL)和随机访问可解码前导(RADL)。虽然RADL图像可以仅使用按解码次序从IRAP图像开始的参考图像,但是RASL图像可以另外使用IRAP之前的参考图像。瞬时随机访问(IDR)类型的IRAP图像重置DBP,并且只能具有作为RADL图像的前导图像,从而导致所谓的封闭GOP结构。另一方面,干净随机访问(CRA)类型的另外的IRAP图像不会重置DPB。因此,按照解码次序来自CRA之前的重构图像可用作未来图像的参考,即RASL图像允许所谓开放GOP编码结构。与RADL图像相比,RASL图像表现出提高的编码效率,但是当参考图像不可用时,例如在片段开始处的相关IRAP处的随机访问期间,在没有解码先前片段的情况下,可以使其不可解码。VVC高级语法的更详细的概述可以在以下文献中找到:Y.-K.Wang等人,“The High-Level Syntax of theVersatile Video Coding(VVC)Standard(通用视频编码(VVC)标准的高级语法)”,IEEETrans.Circuits Syst.Video Technol.,待出版。
例如,图4示出了由具有不同分辨率的两个连续片段的连结形成视频数据流,其中第二片段采用具有来自第一片段的参考图像的开放GOP编码结构。特别地,引用的参考图像是图4中箭头从其中出现的那些矩形。箭头本身示出预测相互依赖性,即它们从参考图像指向参考图像。每个图像与某个时间ID Tid相关联,并且可以看出,编码次序偏离了图像的输出/呈现次序。可以看出,输出次序级为9到15的图像是RASL图像,其直接或间接地引用它们所属的自己的片段(片段1)的CRA图像,以及源自前一片段(片段0)的图像,主要是具有输出次序级8的图像。
当RASL图像的参考图像位于先前片段中并且流式传输客户端在这样的先前片段之后切换表示时,接收由客户端下载和合成的比特流的客户端解码器将使用与编码器侧相比参考图像的至少部分的不同变体来解码RASL图像。如果内容没有被适当地生成,这种情况会导致不一致的比特流,或者导致重构的RASL图像中的显著不匹配,并且这种漂移可能传播到所有RASL图像,直到但不包括相关联的CRA图像。在下文中,讨论了内容的适当生成,其允许使用开放GOP结构,同时在片段切换时保持比特流一致性,并避免在切换期间不利于视觉质量的不期望的漂移。
例如,图4所示的两个片段可以是编码到数据流中的视频图像序列的一部分。图像序列例如可以是编码视频序列(CVS)。图像序列的图像在编码次序上可以是连续的。图像序列可以从IRAP图像开始,例如IDR或CRA图像。图像序列可以以按照编码次序直接在连续图像序列的第一图像之前的图像结束,即直接在IDR或CRA图像之前的图像结束。在后一种情况下,比特流中的最后一个图像可以被指示为序列结束图像。
图5示出了卷绕运动补偿工具,其可以应用于对图像12(例如图1的图像A12)进行编码。在图5中,示出了两个图像121和122,其属于呈现次序22的不同时间戳。根据图5所示的场景,使用图像122作为参考图像,使用经运动补偿的时间帧间预测对图像121进行编码。为此,使用参考图像122的参考块11对图像121的块10进行帧间预测。由于参考图像122属于另一个、例如比图像121更早或更晚的时间帧,因此内容可能已经相对于图像121在参考图像内移动。因此,参考块11可以在参考图像122内相对于块10的并置(collocated)位置10’移动。运动矢量13用于指示相对于块10的并置位置10’的参考块11的位置。在图5中,示出了参考块11的两个示例,即参考块111和参考块112,参考块111的位置由运动矢量131指示,并且参考块112的位置由运动矢量132指示。
如参考块111的示例中所示,参考块可以超过图像边界,例如图像边界15,其在图5的示例中是垂直图像边界,但通常可以是图像平面的第一方向上的图像边界。类似地,如运动矢量132的示例所示,运动矢量可能超过图像边界15。视频以及因此图像121、122在示例中可以表示360度视图,即图像12的内容至少在图像平面的一个方向(例如水平方向)上覆盖360度视图。因此,当考虑从图像边界16到图像边界15的方向时,与图像边界15相对并且也沿着第一方向取向的图像边界16处的图像内容是图像边界15处的内容的延续。因此,在参考块111超过图像边界15的情况下,超过图像边界的参考块111的部分17可以被映射到参考图像122的部分17’。部分17’位于相对图像边界16处在参考图像122内。例如,该部分相对于垂直方向(即,通常是图像边界15的方向)可以具有与参考块111的部分17相同的位置。换句话说,卷绕可应用于参考块111。类似地,超过图像边界15的运动矢量132可以在相对的图像边界16处继续。也就是说,超过图像边界15的运动矢量132的部分19可以被映射或转换到相对的图像边界16,如图5中的映射运动矢量19’所示。映射运动矢量19’指示参考块112的位置。例如,映射运动矢量19’可以在相对的图像边界16的位置处继续,该位置在图像边界15的方向上具有与运动矢量132碰到图像边界15或与图像边界15相交的位置相同的坐标。参考块和/或运动矢量的卷绕被称为卷绕运动补偿工具。
在另外的示例中,第一方向可以是水平方向。在另外的示例中,图像12表示水平和垂直方向二者上的360度视图。在后一种情况下,卷绕运动补偿可以应用于一个或两个方向,即如果参考块和/或运动矢量超过垂直图像边界和/或水平图像边界,则可以应用卷绕运动补偿。在VVC的示例中,卷绕运动补偿可以应用于垂直图像边界。
注意,在360度图像的示例中,由图像12表示的视图,即图像内容,可以超过360度,这可能有利于避免伪像。在这些情况下,卷绕运动补偿的上述描述可以等效地适用,其中图像边界15表示(即被理解为)图像内容边界,并且相对的图像边界16表示(即被理解为)相对的图像内容边界。在其中视图包括大于360度的情况下,图像内容边界和/或相对的图像内容边界与图像的边界在样本阵列结束的边界方面不重合。然而,在其中图像12精确地表示360度视图的示例中,图像内容边界和相对的图像内容边界可以在样本阵列结束的边界方面与图像的边界重合,如图5所示。换句话说,图像内容边界15和相对的图像内容边界16之间的图像12的内容可以表示360度视图。图像内容边界和相对的图像内容边界不一定与图像的样本阵列的边界重合。
图6示出了表示360度视图和卷绕运动补偿的图像12的示例,如说明书的引言部分中所述,该部分也应被理解为卷绕运动补偿的示例,因为其可以在示例实施例中实现。
存在这种卷绕运动补偿可能会出现问题的若干使用情况。例如,当消费这种360°视频内容时,通常情况是用户不频繁地看向球体的极点,即顶部和底部,因为大多数重要内容可能位于“赤道”区域周围。节省一些资源(通过信道发送更少的数据或在终端设备上处理更少的数据)的一种非常有用的方法是适应观看者的视口(可能使用预测)并适应发送或处理的数据量。可以想象,在用户将可能会看向极点(例如,描绘感兴趣特征的这些区域)的时刻,整个ERP被发送,而在用户显然不会看向极点的其他时刻,仅发送排除极点的ERP子集。
在这种情况下遇到的问题是,当在PPS中指示并且当前图像和参考图像的“格式”相同时,即相同的图像大小、相同的缩放窗口时,卷绕工具被激活。这意味着,每当由于适应发送的ERP图像的部分而发生这种图像格式变化时,需要相应地激活或解激活卷绕。当编码器处于流式传输循环中时,即编码器得到来自观看者的反馈并且知道当前发送给用户的内容时,这可以简单地在编码器侧应用,并且这种开/关工具控制可以在编码阶段在必要时发生。
然而,在流式传输循环中没有编码器的情况下,可以执行相同的方法。在这种情况下,例如可以设想编码器使用3个子图像对ERP进行编码,图7所示的每个区域一个。即,在该示例中,针对ERP图像的两个极点的2个子图像和针对赤道的1个子图像。在这种情况下,编码器不会知道何时发送整个360ERP以及何时仅发送赤道部分。对于要知道何时可以执行自适应的中间设备而言,重要的是要知道何时使用卷绕工具以及在何处不使用卷绕工具,使得不使用卷绕的图像可以用于从发送整个ERP切换到仅发送赤道,反之亦然。因此,在一个实施例中,在比特流中提供信令,其指示图像是允许从一种图像格式(即,定义了特定缩放窗口的图像大小)改变到另一种图像格式的潜在切换点,因为它没有使用卷绕,并且按照编码次序在这之后的图像不会使用使用切换点之前的参考图像的经卷绕运动补偿的预测。在流式传输场景中,这样的图像可以是CRA图像及其相关联的RASL图像,即CRA图像自然不使用任何经运动补偿的预测,并且所有或某些RASL图像被约束为不使用卷绕运动补偿,以便允许一致的切换。
在甚至更复杂的情况下,通过向客户端提供来自内容的马赛克(mosaic)的各个高质量/高分辨率图块来执行流式传输这种360度视频内容中的视口适应,然后客户端根据其当前(或预测的未来)视口选择要下载的内容的部分。在这种情况下,通常在供应中包括完整的360度回退图块,使得在用户执行观看方向的突然、意外或不可预测的改变并且客户端不能及时下载适当的高质量内容的情况下,客户端可以至少显示不在客户端的高质量图块的选择内的低质量版本的内容。在这种场景下,客户端通常将所有下载的图块的单独比特流组合成单个压缩比特流,以将其馈送到解码器中。图8中给出了这种组合比特流和变化的图块选择(从两个高质量图块切换到三个高质量图块同时保持一个低质量回退图块)的示例。
图8示出了基于图块的视口自适应流式传输的示例,其中在底部具有时间变化的数量的高质量图块和一个低质量回退图块。如图8的时间实例t+1所示,存在在这种设置中客户端侧下载的高质量图块的数量可能会随时间变化的多种原因。例如,取决于观看方向和投影特性,客户端视口对应于不同数量的图块。此外,客户端侧的视口预测在准确性方面可以随时间而变化,这就要求在下载的360度视频的高质量部分方面进行更多的过度供应。更进一步,内容特性的知识可以允许客户端在特定时间识别潜在感兴趣的内容区域并下载对应的高质量图块。由于所有这些原因,下载的高质量图块的数量可能会发生变化,因此图像分辨率可能变化。虽然在这种情况下为了更高的编码效率的目的而使用卷绕运动补偿来编码完整的360度回退图块是有利的,但是有必要在组合比特流的某些图像(图8中的切换点)处完全禁用卷绕运动补偿以便在保持一致的比特流的同时执行下载的高质量图块的数量随时间的变化。
需要一些附加信息来有效使用卷绕的另一种情况是普通视频内容的HTTP流式传输中的分辨率切换,这将参考图4进行描述。在HTTP流式传输中,常见的是,相同的视频内容通常被编码、分段并以各种比特率和分辨率提供,以服务于具有不同能力的客户端或允许下载比特流到观察到的吞吐量的客户端适应、客户端侧内容呈现的变化(诸如全屏与窗口显示)、用户到显示器距离的变化、周围光环境的变化。在流式传输会话期间,客户端可以在片段的变体之间连续切换,并生成要馈送到解码器的连结比特流。当使用开放图像组(GOP)编码结构时,即随机访问点(RAP)图像具有前导图像(例如,VVC的RASL图像),该前导图像使用RAP图像之前的图像作为参考图像进行预测,编码效率通常会提高,但是在片段变体之间切换会导致以下事实:前导图像可能使用与当对片段进行编码时原始使用的更早的片段的参考图像的不同变体。例如,包含参考图像的该片段变体可以具有与包含前导图像的片段不同的分辨率,在这种情况下,连结客户端比特流应该指示使用称为参考图像重采样(RPR)的技术用于解码器来生成具有匹配分辨率的参考图像。图4通过描绘由流式传输会话中的两个连续片段形成的比特流中的图像和预测相关性来示出这种情况的示例,其中第一片段是没有对较早片段的引用的闭合GOP结构,并且第二片段包含具有对较早片段的引用的RASL图像。
由于在比特流中指示编码器在编码比特流时遵守某些约束以允许这种比特流切换操作(例如适配分辨率)是至关重要的,因此适当的约束信令首先在JVET-V0060和JVET-W0133中提出,并作为所谓的约束RASL编码指示SEI消息被集成到VVC版本2草案中。
然而,剩下的问题是,根据这种信令的现有技术设计,相关联的约束并不排除对比特流中的前导图像使用卷绕运动补偿,例如为了与不使用卷绕运动补偿相比更有效地编码RASL图像的目的。然而,当客户端试图在具有片段边界的流式传输会话中执行分辨率切换时(例如,从具有这种未充分约束的前导图像的RAP图像开始),由于卷绕运动补偿和RPR不能在VVC的相同编码图像中使用,因此会生成非法的不一致比特流。
图9示出了根据实施例的视频解码器20。例如,解码器20可以实现为图2的解码器A20。解码器20解码来自数据流14的视频的图像。根据图9的解码器20被配置用于解码来自数据流14的指示930。指示930对图像序列有效,例如参考图4描述的CVS。如果在数据流中存在,则指示930指示该指示引用的图像序列的某些RASL图像912’或所有RASL图像912’是以排除一个或多个编码工具的预定集合940的方式编码的。预定集合940包括卷绕运动补偿工具,例如如上所述。
如前所述,RASL图像(诸如图4中编码次序为10的图像)可以包括对在编码次序上RASL图像所关联的CRA图像(图4中编码次序为9的CRA图像)之前的图像(例如图4中编码次序为1的图像)的时间帧间预测引用。相关联的CRA图像之前的图像可以属于前一片段,并且因此可以具有图像格式,例如图像大小、缩放窗口、分辨率中的一个或多个,如关于图4至图8的场景所描述的。发明人认识到,比特流中卷绕运动补偿和参考图像重缩放的组合允许更高的编码效率,但是在某些条件下和某些图像下可能导致非法比特流,例如当HTTP流式传输中发生流切换或者中间盒决定丢弃比特流的部分时。因此,为了允许在不同表示之间切换,或者为了保证一致的比特流,例如在360度视频的不同部分的不同质量的上述场景中,解激活卷绕运动补偿工具是有益的。
例如,解码器20支持如关于图5所述的经运动补偿的时间帧间预测,并且例如在数据流14表示如关于图5至图8所述的360度视频的情况下,可以在应用经运动补偿的时间帧间预测时使用卷绕运动补偿工具。
根据实施例,指示940是数据流14中的补充增强信息(SEI)消息的一部分,或者由数据流中特定SEI消息的存在来表示。例如,指示940由图像序列的约束RASL编码指示(CREI)SEI消息的存在来表示。也就是说,如果数据流14中存在图像序列的CREI SEI消息,解码器可以针对某些或所有RASL图像解激活预定集合940的编码工具。
因此,在第一实施例中,指示930指示以排除一个或多个编码工具的预定集合940的方式对该指示所引用的图像序列的所有RASL图像进行编码。
换句话说,一个方面是在比特流中指示RASL图像不使用卷绕运动补偿。例如,该指示可以附加于约束RASL编码指示SEI消息的现有技术版本。换言之,根据在VVC实现的实施例,CREI SEI消息被用作指示940。
表1示出了基于约束RASL编码指示SEI消息的实施例,最后一项表示这样的约束:
表1:
constrained_rasl_encoding_indication(payloadSize){ 描述符
}
[…]
CREI SEI消息的存在表明以下条件全部适用于CVS中的每个RASL图像:
——PH语法结构具有等于1的ph_dmvr_disabled_flag。
——具有等于0(B)或1(P)的sh_slice_type的切片中没有CU具有等于1的cclm_mode_flag。
——按照解码次序,没有共置的参考图像在与RASL图像相关联的CRA图像之前。
——没有RASL图像引用的图像参数集(PPS)具有等于1的pps_ref_wraparound_enabled_flag(即,卷绕运动补偿对于该RASL图像不启用)。
根据第二实施例,指示930指示该指示所引用的图像序列的某些RASL图像是以排除一个或多个编码工具的预定集合940的方式编码的。在一个实施例中,某些RASL图像包括具有CRA图像的所有RASL图像,其在编码次序上位于相应图像之前,作为直接参考图像。
换句话说,上述约束可能比实际需要的更严格。可能存在不依赖于按解码次序在CRA之前的任何图像的RASL图像,因此这种RASL图像不会使用具有不同格式的任何图像作为参考(例如参见编码次序为15的图像)。因此,在另一个第二实施例中,上述约束仅适用于在CRA之前具有活动参考的RASL图像。
图10示出了用于将视频编码成数据流14的编码器1010。例如,编码器1010可以实现为图1的编码器A10。编码器1010将参考图9描述的指示930编码到数据流14中。
换句话说,编码器1010向解码器20提供指示930。因此,指示930代表对解码器20的承诺,即RASL图像912在没有预定集合940的编码工具的情况下被编码。
事实上,上述第二实施例仍然比必要的更具限制性,并且可能对编码效率产生负面影响。例如,注意图4中编码次序为10的图像。这样的图像具有两个参考图像,一个是CRA图像,另一个是按编码次序在CRA图像之前的图像。实际上,当以CRA作为参考应用运动补偿时,可以使用卷绕,因为图像格式是相同的。并且当对按编码次序在CRA之前的图像应用运动补偿时,应该避免卷绕。由于VVC规范中可用的开/关机制不是针对每个参考图像的信令,而是应用于与携带信令的PPS相关联的特定图像的所有参考图像,因此不可能为每个参考图像激活卷绕运动补偿。因此,在另一个第三实施例中,作为另一个替代方案,代替通过对于某些图像将PPS中的控制标志设置为0来要求关闭卷绕运动补偿(例如,对于HTTP中的分辨率切换的示例中的RASL或对于上面具有子图像的示例中的所谓切换点),编码器可以限制每CU的MV,并确保即使在卷绕被激活时,也没有MV指向将在当前图像和参考图像具有不同图像格式时触发卷绕的图像区域之外。
因此,根据一个实施例,编码器1010不必在数据流14中包括指示930,而是在对RASL图像912应用经运动补偿的帧间预测时,将运动矢量的选择限制为不会导致参考块超过图像边界的运动矢量。
根据实施例,解码器20和编码器1010支持参考图像重采样(RSR),例如如引言部分所述。
RSR可以包括对帧间预测块的参考图像的样本进行重采样,以便弥合参考图像和包含帧间预测块的图像之间的缩放窗口大小偏差或样本分辨率偏差,从而为帧间预测块提供帧间预测信号。也就是说,根据RSR,当前编码图像121或其块10以及用于帧间预测的参考图像122或其参考块11的缩放窗口和/或分辨率可以例如通过对参考图像或参考块进行重采样而彼此适配。
根据实施例,预定集合940还包括基于交叉分量线性模型(CCLM)的预测工具和/或解码器侧运动矢量细化工具,参见例如表1的上述实施例,根据表1,预定集合940包括这两种工具。CCLM工具的实施示例如下所述。
交叉分量线性模型(CCLM),允许使用线性模型根据相应的亮度分量对块的色度分量进行帧内预测,其中模型参数从重构的亮度样本值中导出。线性模型通过以下将子采样亮度样本rec’L转换为色度预测:
P(i,j)=a·rec’L(i,j)+b,
其中参数a和b是从相邻亮度和色度样本中导出的,如下所示。其中X和Xs分别表示两个最大和两个最小相邻样本的平均值,并且Yl和Ys分别表示对应色度样本对的平均值,参数如下导出:
a=(Yl-Ys)/(Xl-Xs)
b=Ys-a·Xs
由于参数导出过程仅计及相邻样本值的极值,即使在相邻块中单样本漂移异常值的情况下,该过程也易于发生大范围漂移。此外,由于线性模型,如果a较大,亮度漂移可能会放大。对于计及所有相邻样本值的其他帧内预测模式,漂移传播不太明显得多,并且不能被线性放大。由于这种固有的不稳定性,当应用于约束漂移可接受的应用(如HTTP自适应流式传输中的开放GOP切换)时,该模式需要特别关注。除此之外,因为在所描述的应用的上下文中,漂移只能发生在RASL帧中,即运动预测帧中。如果编码器决定使用CCLM,即帧内预测模式,这通常是由于缺少合适的经运动补偿的预测器,这意味着高时间活动性的区域。在这样的区域中,开放GOP切换的预期重构漂移预计较高,对所讨论的不稳定性影响贡献更大。
尽管已经在装置的上下文中描述了一些方面,但是很明显这些方面也代表了对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。
一些或所有方法步骤可以由硬件装置(或使用硬件装置)执行,比如例如微处理器、可编程计算机或电子电路。在一些实施例中,一个或多个最重要的方法步骤可以由这样的装置执行。
本发明的数据流可以存储在数字存储介质上,或者可以在传输介质上传输,诸如无线传输介质或有线传输介质,诸如互联网。换句话说,进一步的实施例提供了包括根据这里描述的任何实施例的视频比特流的视频比特流产品,例如其上存储有视频比特流的数字存储介质。
取决于某些实现要求,实施例可以用硬件或软件来实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行该实现,该数字存储介质与可编程计算机系统协作(或能够协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。
一些实施例包括具有电子可读控制信号的数据载体,该数据载体能够与可编程计算机系统协作,使得执行这里描述的方法之一。
通常,实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的用于执行这里描述的方法之一的计算机程序。
换句话说,因此,本发明方法的实施例是一种计算机程序,该计算机程序具有当该计算机程序在计算机上运行时用于执行这里描述的方法之一的程序代码。
因此,本发明方法的进一步实施例是一种数据载体(或数字存储介质或计算机可读介质),包括其上记录有用于执行这里描述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
因此,本发明方法的进一步实施例是代表用于执行这里描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由互联网)传输。
进一步实施例包括处理器,例如计算机或可编程逻辑器件,其被配置成或适于执行这里描述的方法之一。
进一步实施例包括计算机,其上安装有用于执行这里描述的方法之一的计算机程序。
进一步实施例包括被配置成向接收器传送(例如,电子地或光学地)用于执行这里描述的方法之一的计算机程序的装置或系统。例如,接收器可以是计算机、移动设备、存储器设备等。该装置或系统可以例如包括用于将计算机程序传输到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的部分或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行这里描述的方法之一。通常,这些方法优选地由任何硬件装置来执行。
这里描述的装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地用硬件和/或软件来实现。
这里描述的方法可以使用硬件装置或使用计算机或使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或软件来执行。
上述实施例仅仅是说明性的。应当理解,本文描述的布置和细节的修改和变化对于本领域的其他技术人员来说是显而易见的。因此,其意图仅由即将到来的专利权利要求的范围来限制,而不由本文实施例的描述和解释所呈现的具体细节来限制。
通过引用并入本文的文件
[1]ISO/IEC JTC 1,Information technology—Dynamic adaptive streamingover HTTP(DASH)—Part 1:Media presentation description and segment formats(信息技术——基于HTTP的动态自适应流式传输(DASH)——第1部分:媒体呈现描述和片段格式),ISO/IEC 23009-1,2012年(和后续版本)。
[2]J.De Cock,Z.Li,M.Manohara,A.Aaron."Complexity-based consistent-quality encoding in the cloud(云中基于复杂性的一致质量编码)"2016IEEEInternational Conference on Image Processing(ICIP).IEEE,2016年。
[3]DASH Industry Forum Implementation Guidelines(DASH行业论坛实施指南).[在线].以下网址可得到:https://dashif.org/guidelines/
[4]ITU-T和ISO/IEC JTC 1,Advanced Video Coding for generic audio-visual services(通用视听服务高级视频编码),Rec.ITU-T H.264和ISO/IEC 14496-10(AVC),2003年5月(和后续版本)。
[5]ITU-T和ISO/IEC JTC 1,“High Efficiency Video Coding(高效视频编码)”Rec.ITU-T H.265和ISO/IEC 23008-2(HEVC),2013年4月(和后续版本)。
[6]Y.Yan,M.Hannuksela,和H.Li."Seamless switching of H.265/HEVC-codeddash representations with open GOP prediction structure(具有开放的GOP预测结构的H.265/HEVC编码的dash表示的无缝切换)"2015IEEE International Conference onImage Processing(ICIP).IEEE,2015年。
[7]ITU-T和ISO/IEC JTC 1,“Versatile video coding(通用视频编码)”,Rec.ITU-T H.266和ISO/IEC 23090-3(VVC),2020年8月。
[8]V.Baroncini和M.Wien,“VVC verification test report for UHD SDRvideo content(UHD SDR视频内容的VVC验证测试报告)”,doc.JVET-T2020 of ITU-T/ISO/IEC Joint Video Experts Team(JVET),第21次会议:2020年10月。
[9]D.Luo,V.Seregin,W.Wan.“Description of Core Experiment 1(CE1):Reference picture resampling filters(核心实验1(CE1)的描述:参考图像重采样过滤器)“,doc.JVET-Q2021 of ITU-T/ISO/IEC Joint Video Experts Team(JVET),第15次会议:2019年7月。
[10]H.Schwarz,D.Marpe,和T.Wiegand,“Analysis of hierarchical Bpictures and MCTF(分层B图像和MCTF的分析)”,ICME 2006,IEEE InternationalConference on Multimedia and Expo,Toronto,Ontario,Canada,2006年7月。
[11]Y.-K.Wang等人,“The High-Level Syntax of the Versatile VideoCoding(VVC)Standard(通用视频编码(VVC)标准的高级语法)”IEEE Trans.CircuitsSyst.Video Technol.,待印。
[12]H.Yang等人,“Subblock based Motion Derivation and Inter-PredictionRefinement in Versatile Video Coding Standard(通用视频编码标准中基于子块的运动推导和帧间预测改进)”,IEEE Trans.Circuits Syst.Video Technol.,待印。
[13]W.-J.Chien等人,“Motion Vector Coding and Block Merging inVersatile Video Coding Standard(通用视频编码标准中的运动矢量编码和块合并)”,IEEE Trans.Circuits Syst.Video Technol.,待印。

Claims (45)

1.一种用于解码来自数据流(14)的视频的视频解码器(20),其被配置为解码来自数据流的指示(930),所述指示对视频的图像序列有效并且指示图像序列内的某些或所有RASL图像(912)以排除一个或多个编码工具的预定集合(940)的方式被编码,所述预定集合包括卷绕运动补偿工具。
2.根据权利要求1所述的视频解码器,其中所述视频解码器支持经运动补偿的时间帧间预测,根据所述经运动补偿的时间帧间预测,解码器基于参考图像(122)的参考块(111、112)获得用于解码图像(121)的帧间预测块(10)的帧间预测信号,并且根据所述经运动补偿的时间帧间预测,所述运动矢量(131、132)指示参考块(111、112)在参考图像(121)内相对于图像(121)内的帧间预测块(10)的位置(10')的位置,并且
其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量(131,132)指示的参考块(111,112)超过参考图像(122)的图像内容边界(15),则卷绕到图像内容边界(15)的相对图像内容边界(16)被应用于参考块(111,112)和/或运动矢量(132)。
3.根据权利要求2所述的视频解码器,其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量指示的参考块超过图像的图像内容边界,则超过图像内容边界的参考块的一部分被映射到位于相对图像内容边界的参考图像的一部分,和/或超过图像内容边界的运动矢量的一部分在相对图像内容边界处继续。
4.根据权利要求1-3中任一项所述的视频解码器,其中所述指示包含在补充增强信息消息中。
5.根据权利要求1-4中任一项所述的视频解码器,其中所述解码器被配置为支持参考图像重采样。
6.根据权利要求4所述的视频解码器,其中,根据所述参考图像重采样,帧间预测块的参考图像经受样本重采样,以弥合所述参考图像和其中包含所述帧间预测块的图像之间的缩放窗口大小偏差或采样分辨率偏差,从而为所述帧间预测块提供帧间预测信号。
7.根据权利要求1-6中任一项所述的视频解码器,其中所述解码器被配置为支持帧内预测块解码模式和帧间预测块解码模式。
8.根据权利要求1-7中任一项所述的视频解码器,其中所述图像序列包括按编码次序连续的图像,并且其中所述图像序列按编码次序从IRAP图像开始。
9.根据权利要求8所述的视频解码器,其中,所述图像序列在按编码次序紧接在IDR图像之前的图像处结束,或者其中,所述图像序列在被指示为序列结束图像的图像处结束。
10.根据权利要求1-9中任一项所述的视频解码器,其中一个或多个编码工具的集合包括一个或多个可解激活的编码工具,其中每一个在其对图像块的应用方面可通过数据流内的配置信令以图像或切片为单位解激活。
11.根据权利要求1-10中任一项所述的视频解码器,其中,所述指示指示图像序列内的所有RASL图像是以排除一个或多个编码工具的预定集合的方式编码的。
12.根据权利要求1-11中任一项所述的视频解码器,其中,所述指示指示所述图像序列内的某些RASL图像是以排除一个或多个编码工具的预定集合的方式编码的,其中所述某些RASL图像包括所有RASL图像,其具有按解码次序在CRA图像之前的参考图像,所述CRA图像与相应的RASL图像相关联,和/或充当后续图像的时间运动矢量预测参考图像,和/或不属于最高时间层。
13.根据权利要求1-12中任一项所述的视频解码器,其中一个或多个编码工具的集合还包括基于交叉分量线性模型的预测工具和解码器侧运动矢量细化工具。
14.根据权利要求1-13中任一项所述的视频解码器,其中一个或多个编码工具的集合还包括基于交叉分量线性模型的预测工具(100)。
15.根据权利要求13或14所述的视频解码器,其中,根据基于交叉分量线性模型的预测工具,使用线性模型(106)从图像块(10a)的亮度分量(104)预测图像块(10a)的色度分量(102),所述线性模型的参数从图像块的已解码邻域(112)中的亮度和色度极值(110)确定(108)。
16.根据权利要求1-15中任一项所述的视频解码器,其中一个或多个编码工具的集合包括解码器侧运动矢量细化工具(400)。
17.根据权利要求13或16所述的视频解码器,其中所述解码器侧运动矢量细化工具用于通过在信号发送的运动矢量处及其周围的运动矢量候选中执行最佳匹配搜索来细化信号发送的运动矢量,从而改进在所述数据流中编码的信号发送的运动矢量(402),以根据参考图像(404)对预定的帧间预测块(10d)进行帧间预测。
18.根据权利要求17所述的视频解码器,其中所述解码器侧运动矢量细化工具被配置为使用相对于所述参考图像的所述帧间预测块的已解码邻域来执行最佳匹配搜索。
19.根据权利要求13或16所述的视频解码器,其中所述解码器侧运动矢量细化工具被配置为通过在包括和围绕信号发送的运动矢量对的运动矢量对候选中执行最佳匹配搜索来细化在数据流中编码的一对信号发送的运动矢量(402),以根据一对参考图像(404)对预定的帧间双预测块(10d)进行帧间预测,所述一对参考图像在时间上位于所述预定的帧间双预测块(10d)的图像之前和之后。
20.一种用于将视频编码成数据流的视频编码器(1010),其被配置成将指示编码到数据流中,所述指示对视频的图像序列有效并且指示图像序列内的某些或所有RASL图像是以排除一个或多个编码工具的预定集合的方式编码的,所述预定集合包括卷绕运动补偿工具。
21.根据权利要求20所述的视频编码器,其中所述视频编码器支持经运动补偿的时间帧间预测,根据所述经运动补偿的时间帧间预测,所述编码器获得用于基于参考图像的参考块对图像的帧间预测块进行编码的帧间预测信号,并且根据所述经运动补偿的时间帧间预测,运动矢量指示参考块在参考图像内相对于图像内的帧间预测块的位置的位置,并且
其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量指示的参考块超过图像的图像内容边界,则卷绕到图像内容边界的相对图像内容边界被应用于参考块和/或运动矢量。
22.根据权利要求21所述的视频编码器,其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量所指示的参考块超过图像的图像内容边界,则超过图像内容边界的参考块的部分被映射到位于相对图像内容边界的参考图像的部分,和/或超过图像内容边界的运动矢量的部分在相对图像内容边界处继续。
23.根据权利要求20-22中任一项所述的视频编码器,其被配置为将所述指示编码到补充增强信息消息中。
24.根据权利要求20-23中任一项所述的视频编码器,其中所述编码器被配置为支持参考图像重采样。
25.根据权利要求24所述的视频编码器,其中,根据所述参考图像重采样,帧间预测块的参考图像经受样本重采样,以弥合所述参考图像和其中包含所述帧间预测块的图像之间的缩放窗口大小偏差或采样分辨率偏差,以为所述帧间预测块提供帧间预测信号。
26.根据权利要求20-25中任一项所述的视频编码器,其中所述编码器被配置为支持帧内预测块编码模式和帧间预测块编码模式。
27.根据权利要求20-26中任一项所述的视频编码器,其中所述图像序列包括按编码次序连续的图像,并且其中所述图像序列按编码次序从IRAP图像开始。
28.根据权利要求27所述的视频编码器,其中,所述图像序列在按编码次序紧接在IDR图像之前的图像处结束,或者其中,所述图像序列在被指示为序列结束图像的图像处结束。
29.根据权利要求20-28中任一项所述的视频编码器,其中一个或多个编码工具的集合包括一个或多个可解激活编码工具,其中每一个关于其对图像块的应用可通过数据流内的配置信令以图像或切片为单位解激活。
30.根据权利要求20-29中任一项所述的视频编码器,其中,所述指示指示图像序列内的所有RASL图像是以排除一个或多个编码工具的预定集合的方式编码的。
31.根据权利要求20-30中任一项所述的视频编码器,其中,所述指示指示图像序列内的某些RASL图像是以排除一个或多个编码工具的预定集合的方式编码的,其中,所述某些RASL图像包括所有RASL图像,其具有按解码次序在CRA图像之前的参考图像,所述CRA图像与相应的RASL图像相关联,和/或充当后续图像的时间运动矢量预测参考图像,和/或不属于最高时间层。
32.根据权利要求20-31中任一项所述的视频编码器,其中一个或多个编码工具的集合还包括基于交叉分量线性模型的预测工具和解码器侧运动矢量细化工具。
33.根据权利要求20-32中任一项所述的视频编码器,其中一个或多个编码工具的集合还包括基于交叉分量线性模型的预测工具(100)。
34.根据权利要求32或33所述的视频编码器,其中,根据基于交叉分量线性模型的预测工具,使用线性模型(106)从图像块(10a)的亮度分量(104)预测图像块(10a)的色度分量(102),所述线性模型的参数从图像块的已编码邻域(112)中的亮度和色度极值(110)确定(108)。
35.根据权利要求20-34中任一项所述的视频编码器,其中一个或多个编码工具的集合包括解码器侧运动矢量细化工具(400)。
36.根据权利要求34或35所述的视频编码器,其中所述解码器侧运动矢量细化工具用于通过在信号发送的运动矢量处及其周围的运动矢量候选中执行最佳匹配搜索来细化信号发送的运动矢量,从而改进在所述数据流中编码的信号发送的运动矢量(402),以根据参考图像(404)对预定的帧间预测块(10d)进行帧间预测。
37.根据权利要求35所述的视频编码器,其中所述解码器侧运动矢量细化工具被配置为使用相对于所述参考图像的所述帧间预测块的已编码邻域来执行最佳匹配搜索。
38.根据权利要求32或35所述的视频编码器,其中所述解码器侧运动矢量细化工具被配置为通过在包括和围绕信号发送的运动矢量对的运动矢量对候选中执行最佳匹配搜索来细化在数据流中编码的一对信号发送的运动矢量(402),以根据一对参考图像(404)对预定的帧间双预测块(10d)进行帧间预测,所述一对参考图像在时间上位于所述预定的帧间双预测块(10d)的图像之前和之后。
39.一种用于将视频编码到数据流中的视频编码器,其中所述视频编码器支持经运动补偿的时间帧间预测,根据所述经运动补偿的时间帧间预测,所述编码器获得用于基于参考图像的参考块对图像的帧间预测块进行编码的帧间预测信号,并且根据所述经运动补偿的时间帧间预测,运动矢量指示参考块在参考图像内相对于图像内的帧间预测块的位置的位置,其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量指示的参考块超过图像的图像内容边界,则卷绕到图像内容边界的相对图像内容边界被应用于参考块和/或运动矢量,
其中,所述编码器被配置用于选择所述图像的运动矢量,使得如果所述参考图像在图像大小和缩放窗口中的一个或两个方面不同于所述图像,则所述参考块完全位于所述图像的参考图像的参考块内。
40.其中编码有视频的数据流,包括指示,所述指示对视频的图像序列有效并且指示图像序列内的某些或所有RASL图像是以排除一个或多个编码工具的预定集合的方式编码的,所述预定集合包括卷绕运动补偿工具。
41.根据权利要求40所述的数据流,由根据权利要求20-38中任一项所述的编码器生成。
42.其中编码有视频的数据流,其中使用经运动补偿的时间帧间预测对视频进行编码,根据所述经运动补偿的时间帧间预测,使用用于基于参考图像的参考块对图像的帧间预测块进行编码的帧间预测信号对视频进行编码,并且根据所述经运动补偿的时间帧间预测,运动矢量指示参考块在参考图像内相对于图像内的帧间预测块的位置的位置,
其中,根据卷绕运动补偿工具,如果由用于经运动补偿的时间帧间预测的运动矢量指示的参考块超过图像的图像内容边界,则卷绕到图像内容边界的相对图像内容边界被应用于参考块和/或运动矢量,
其中,如果参考图像在图像大小和缩放窗口中的一个或两个方面不同于图像,则通过选择图像的运动矢量来对视频进行编码,使得参考块完全位于图像的参考图像的参考块内。
43.根据权利要求42所述的数据流,由根据权利要求39所述的编码器生成。
44.由上述解码器和编码器中的任一个执行的方法。
45.具有程序代码的计算机程序,当在计算机上执行所述计算机程序时,用于执行根据权利要求44的方法中的任一个。
CN202280055830.7A 2021-08-18 2022-08-05 用于在流式传输场景中处置运动矢量的视频编码概念 Pending CN117813819A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21192028 2021-08-18
EP21192028.5 2021-08-18
PCT/IB2022/057331 WO2023021362A1 (en) 2021-08-18 2022-08-05 Video coding concept for handling of motion-vectors in streaming scenarios

Publications (1)

Publication Number Publication Date
CN117813819A true CN117813819A (zh) 2024-04-02

Family

ID=77693458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280055830.7A Pending CN117813819A (zh) 2021-08-18 2022-08-05 用于在流式传输场景中处置运动矢量的视频编码概念

Country Status (6)

Country Link
CN (1) CN117813819A (zh)
AR (1) AR126819A1 (zh)
AU (1) AU2022330384A1 (zh)
IL (1) IL309874A (zh)
TW (1) TW202312732A (zh)
WO (1) WO2023021362A1 (zh)

Also Published As

Publication number Publication date
AU2022330384A1 (en) 2024-02-08
AR126819A1 (es) 2023-11-15
AU2022330384A2 (en) 2024-05-09
TW202312732A (zh) 2023-03-16
WO2023021362A1 (en) 2023-02-23
IL309874A (en) 2024-03-01

Similar Documents

Publication Publication Date Title
JP6513685B2 (ja) ビデオコーディングにおけるNoOutputOfPriorPicsFlagの改善された推論
US10264272B2 (en) Device and method for scalable coding of video information
US9832481B2 (en) Support of base layer of a different codec in multi-layer video coding
TW201511530A (zh) 用於視訊寫碼之跨層平行處理與偏移延遲參數
JP6752723B2 (ja) マルチレイヤコーデックのためのピクチャ順序カウントリセット
KR102215438B1 (ko) 영상 부호화/복호화 방법 및 장치
US20140016703A1 (en) Methods and devices for controlling spatial access granularity in compressed video streams
JP2017507539A (ja) マルチレイヤコーディングにおいて回復点補足エンハンスメント情報(sei)メッセージと領域リフレッシュ情報seiメッセージとをコーディングするための方法
JP2013055587A (ja) 画像処理装置、画像処理方法、および画像処理システム
IL304023A (en) Video encoder, video decoder, encoding and decoding methods, and video data sequencing to implement advanced video coding concepts
US20210409718A1 (en) Encoder and decoder, encoding method and decoding method with profile and level dependent coding options
US20240064317A1 (en) Adaptive resolution coding for video coding
KR20240049612A (ko) 비디오 처리를 위한 방법, 기기 및 매체
TWI789632B (zh) 用於參考圖像重新取樣擴展之編碼器與解碼器、編碼方法及解碼方法
CN117813819A (zh) 用于在流式传输场景中处置运动矢量的视频编码概念
TWI821923B (zh) 允許漂移限制之視訊寫碼概念技術

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination