CN105027569A - 用于视频编码和解码的装置、方法和计算机程序 - Google Patents

用于视频编码和解码的装置、方法和计算机程序 Download PDF

Info

Publication number
CN105027569A
CN105027569A CN201380074258.XA CN201380074258A CN105027569A CN 105027569 A CN105027569 A CN 105027569A CN 201380074258 A CN201380074258 A CN 201380074258A CN 105027569 A CN105027569 A CN 105027569A
Authority
CN
China
Prior art keywords
prediction
layer
type
enhancement layer
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380074258.XA
Other languages
English (en)
Other versions
CN105027569B (zh
Inventor
M·安尼克塞拉
K·宇居尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN105027569A publication Critical patent/CN105027569A/zh
Application granted granted Critical
Publication of CN105027569B publication Critical patent/CN105027569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种方法,包括:对包括基本层、第一增强层和第二增强层的比特流编码;在比特流中对用于第二增强层的预测的基本层和第一增强层二者的指示编码;在比特流中对从基本层到第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的第一集合是可用于层之间的预测的所有预测类型的子集;以及在比特流中对从基本层或者第一增强层到第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的第二集合是可用于层之间的预测的所有预测类型的子集。

Description

用于视频编码和解码的装置、方法和计算机程序
技术领域
本发明涉及用于视频编码和解码的装置、方法和计算机程序。
背景技术
视频编解码器可以包括将输入视频转换成适合用于存储和/或传输的压缩表示的编码器以及能够将压缩的视频表示解压缩回可视形式的解码器,或者编码器和解码器中的任一个。通常,编码器丢弃原始视频序列中的一些信息以便以更紧凑的形式(例如以更低的比特率)来表示视频。
可缩放视频编码是指其中一个比特流能够包含内容的不同比特率、分辨率或者帧速率的多个表示的编码结构。可缩放比特流通常由提供可用的最低质量视频的“基本层”以及在连同更低层一起被接收和解码时增强视频质量的一个或多个增强层组成。为了改善增强层的编码效率,该层的编码表示通常依赖于更低层。
很多混合编解码器分两个阶段来对视频信息编码:用于获取预测的像素块的预测编码;以及然后对预测的像素块与原始像素块之间的误差编码。预测编码可以以各种方式来完成,包括各种类型的样本预测(例如运动补偿机制、视图间、层间、帧内和视图合成预测)以及句法预测(例如运动矢量预测、块划分、滤波器参数预测)。另外,可以跨不同的域(例如纹理和深度)以及可缩放性类型应用预测依赖性。
因此,可能的是,编码和/或解码方案可以能够使用多个类型的可缩放性和/或多个参考用于相同类型的预测。然而,已经证实,从压缩效率的视角来看,使得所有预测类型可用于层之间的预测可能并不高效。
发明内容
本发明从为了在其中通过编(解)码方案来启用用于相同类型的预测的多个类型的可缩放性和/或多个参考的情况下改善压缩效率的考虑出发,使得能够适应性地选择和/或信号传输在多参考可缩放编(解)码方案中应用的预测的类型。
根据第一实施例的方法包括用于对包括基本层、第一增强层和第二增强层的比特流编码的方法,所述方法还包括:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据一种实施例,替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示编码。
根据一种实施例,
所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
根据一种实施例,所述方法还包括:
将针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合的指示相关联;以及
在所述比特流中对所述指示中的一个或多个指示编码,以指示预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者预测类型的所述特定集合是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
根据一种实施例,所述方法还包括:
在下面的句法结构中的至少一个句法结构中对所述指示编码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
根据一种实施例,所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
根据一种实施例,所述方法还包括:
将用以指示多个类型的预测的可应用性的指示关联到句法元素的一个值中。
根据一种实施例,所述方法还包括:
在句法结构中对用于特定预测类型的指示编码;以及
在所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表编码。
根据一种实施例,对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示编码;以及对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示编码。
根据一种实施例,对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示编码。
根据第二实施例的装置包括:
被配置用于对包括基本层、第一增强层和第二增强层的比特流编码的视频编码器,其中所述视频编码器还被配置用于:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第三实施例,提供了一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
在比特流中对用于第二增强层的预测的基本层和第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第四实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得装置执行以下操作:
在比特流中对用于第二增强层的预测的基本层和第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第五实施例的方法包括用于对包括基本层、第一增强层和第二增强层的比特流解码的方法,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据一种实施例,替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述方法还包括:
从所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示解码。
根据一种实施例,所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
根据一种实施例,所述比特流包括针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合所关联的指示;并且所述方法还包括:
从所述比特流中对所述指示中的一个或多个指示解码,以解译预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者所述特定预测类型是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
根据一种实施例,所述方法还包括:
从下面的句法结构中的至少一个句法结构中对所述指示解码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
根据一种实施例,所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
根据一种实施例,所述方法还包括:
将指明多个类型的预测的可应用性的指示解译成句法元素的一个值。
根据一种实施例,所述方法还包括:
从所述句法结构中对用于特定预测类型的指示解码;以及
从所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表解码。
根据一种实施例,对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示解码;以及对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示解码。
根据一种实施例,对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示解码。
根据第六实施例的装置包括:被配置用于对包括基本层、第一增强层和第二增强层的比特流解码的视频解码器,所述视频解码器被配置用于:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第七实施例提供了一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
从比特流中解译指明用于第二增强层的预测的基本层和第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第八实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得装置执行以下操作:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第九实施例,提供了一种被配置用于对包括基本层、第一增强层和第二增强层的比特流编码的视频编码器,其中所述视频编码器还被配置用于:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第十实施例,提供了一种被配置用于对包括基本层、第一增强层和第二增强层的比特流解码的视频解码器,其中所述视频解码器还被配置用于:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
附图说明
为了更好地理解本发明,现在将通过示例的方式来参考附图,在附图中:
图1示意性地示出采用本发明的一些实施例的电子设备;
图2示意性地示出适合用于采用本发明的一些实施例的用户设备;
图3还示意性地示出使用无线网络连接和有线网络连接而被连接的采用本发明的实施例的电子设备;
图4示意性地示出适合用于实现本发明的一些实施例的编码器;
图5示出包括两个分块(tile)的图片的示例;
图6图示后向视图合成预测(B-VSP)的概念;
图7示出包括经编码的纹理和深度二者的访问单元的示例,其表示两个视图并且每个视图部分上具有两个依赖性表示;
图8示出根据本发明的一种实施例的编码过程的流程图;
图9示出根据本发明的一种实施例的解码过程的流程图;以及
图10示出根据本发明的一些实施例的解码器的示意图。
具体实施方式
下面进一步详细地描述用于对增强层子图片编码而没有显著地牺牲编码效率的合适的装置和可能的机制。在这点上,首先参考图1,图1示出示例性装置或者电子设备50的示意性框图,其可以包括根据本发明的一种实施例的编解码器。
电子设备50例如可以是无线通信系统的移动终端或者用户设备。然而,应当理解,可以在可能需要对视频图像编码和解码或者编码或解码的任何电子设备或者装置内实现本发明的实施例。
装置50可以包括用于包括和保护设备的外壳30。装置50还可以包括液晶显示器形式的显示器32。在本发明的其他实施例中,显示器可以是适合显示图像或者视频的任意合适的显示技术。装置50还可以包括小键盘34。在本发明的其他实施例中,可以采用任意合适的数据或者用户界面机制。例如,可以将用户界面实现为作为触摸感应式显示器的一部分的虚拟键盘或者数据输入系统。装置可以包括麦克风36或者可以是数字或模拟信号输入装置的任意合适的音频输入装置。装置50还可以包括在本发明的实施例中可以是下面各项中的任一项的音频输出设备:耳机38、扬声器或者模拟音频或数字音频输出连接。装置50还可以包括电池40(或者在本发明的其他实施例中,设备可以通过诸如太阳能电池、燃料电池或者发条发电机(clockworkgenerator)等任意合适的移动能量设备来供电)。装置还可以包括用于到其他设备的短程视线通信的红外端口42。在其他实施例中,装置50还可以包括任意合适的短程通信解决方案,诸如例如蓝牙无线连接或者USB/固件有线连接。
装置50可以包括用于控制装置50的控制器56或者处理器。控制器56可以连接到存储器58,存储器58在本发明的实施例中可以存储图像和音频数据二者形式的数据和/或还可以存储用于在控制器56上实现的指令。控制器56还可以连接到编解码器电路54,编解码器电路54适合用于执行对音频和/或视频数据的编码和解码或者帮助由控制器56执行的编码和解码。
装置50还可以包括读卡器48和智能卡46,例如用于提供用户信息并且适合用于提供用于用户在网络处的认证和授权的认证信息的UICC和UICC阅读器。
装置50可以包括射频接口电路52,射频接口电路53连接到控制器并且适合用于生成例如用于与蜂窝通信网络、无线通信系统或者无线局域网的通信的无线通信信号。装置50还可以包括天线44,天线44连接到射频接口电路52以用于向其他装置传输在射频接口电路52处生成的视频信号以及用于从其他装置接收射频信号。
在本发明的一些实施例中,装置50包括能够记录或者检测然后向编解码器54或者控制器被传递用于处理的各个帧的相机。在本发明的其他实施例中,装置可以在传输和/或存储之前从另一设备接收用于处理的视频图像数据。在本发明的其他实施例中,装置50可以无线地或者通过有线连接来接收图像以用于编码/解码。
参考图3,示出了在其中能够利用本发明的实施例的系统的示例。系统10包括可能通过一个或多个网络通信的多个通信设备。系统10可以包括有线网络或者无线网络的任意组合,有线网络或者无线网络包括但不限于无线蜂窝电话网络(诸如GSM、UMTS、CDMA网络等)、无线局域网(WLAN)(诸如由IEEE 802.x标准中的任何标准定义的)、蓝牙个域网、以太局域网、令牌环局域网、广域网和因特网。
系统10可以包括适合用于实现本发明的实施例的有线和无线通信设备二者或者装置50。
例如,图3所示的系统示出移动电话网络11和因特网28的表示。到因特网28的连接可以包括但不限于远距离无线连接、短距离无线连接以及各种有线连接(包括但不限于电话线、线缆线、电力线和类似的通信路径)。
系统10所示的示例通信设备可以包括但不限于电子设备或装置50、个人数字助理(PDA)和移动电话14的组合、PDA 16、集成消息设备(IMD)18、台式计算机20、笔记本计算机22。装置50在由移动的个人携带时可以是静止或移动的。装置50还可以以运输模式被定位,运输模式包括但不限于汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或者任何类似合适的运输模式。
实施例还可以用机顶盒来实现;即数字TV接收器,其可以具有/可以不具有显示器或者无线能力;用平板计算机或者(膝上型)个人计算机(PC)来实现,其具有硬件或者软件或者编码器/解码器实现的组合;用各种操作系统来实现;以及用芯片组、处理器、DSP和/或提供基于硬件/软件编码的嵌入式系统来实现。
一些或者另外的装置可以发送和接收呼叫和消息并且通过到基站24的无线连接25来与服务提供商通信。基站24可以连接到实现移动电话网络11与因特网28之间的通信的网络服务器26。系统可以包括附加通信设备和各种类型的通信设备。
通信设备可以使用各种传输技术来通信,各种传输技术包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动通信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议-因特网协议(TCP-IP)、短消息服务(SMS)、多媒体消息服务(MMS)、电子邮件、即时消息服务(IMS)、蓝牙、IEEE802.11以及任何类似的无线通信技术。在实现本发明的各种实施例时所涉及的通信设备可以使用各种介质通信,各种介质包括但不限于射频、红外、激光、线缆连接以及任意合适的连接。
视频编解码器可以包括将输入视频转换成适合用于存储/传输的压缩表示的编码器以及能够将已压缩视频表示解压缩回可视形式的解码器。通常,编码器丢弃原始视频序列中的一些信息,以便以更紧凑的形式(也就是以更低的比特率)表示视频。
典型的混合视频编解码器(例如ITU-T H.263和H.264)分两个阶段对视频信息编码。首先,例如通过运动补偿装置(找到和指示先前编码的视频帧中与正被编码的块紧密对应的一个视频帧)或者通过空间装置(使用要以指定方式被编码的块周围的像素值)预测某个图片区域(或者“块”)中的像素值。其次,对预测误差——即预测的像素块与原始像素块之间的差异——编码。这通过以下方式完成:使用指定的变换(例如离散余弦变换(DCT)或者其变型)对像素值的差进行变换;量化系数;以及对经量化的系数进行熵编码。通过改变量化过程的保真度,编码器可以控制像素表示的精度(图片质量)与所得到的经编码的视频表示的尺寸(文件尺寸或者传输比特率)之间的平衡。
视频编码通常是一个两阶段过程:首先,基于先前的编码数据生成视频信号的预测。其次,对预测信号与源信号之间的残差编码。帧间预测(也被称为时间预测、运动补偿或者运动补偿的预测)减小时间冗余。在帧内预测中,预测的源是先前解码的图片。帧内预测利用相同图片内的相邻像素很可能相关这一事实。帧内预测可以在空间域或者变换域进行,即可以预测样本值或者变换系数。帧内预测通常在其中没有应用任何帧间预测的帧内编码中使用。
编码过程的一个结果是编码参数的集合,诸如运动矢量和经量化的变换系数。很多参数在首次根据空间上或者时间上相邻的参数来预测的情况下可以被更高效地进行熵编码。例如,可以根据空间上相邻的运动矢量来预测运动矢量,并且可以仅对相对于运动矢量预测器的差异编码。编码参数的预测以及帧内预测可以统称为图片内预测。
图4示出适合用于采用本发明的实施例的视频编码器的框图。图4呈现两个层的编码器,但是应当理解,可以类似地将所呈现的编码器扩展到多于两个层的编码器。图4图示包括用于基本层的第一编码器部分500以及用于增强层的第二编码器部分502的视频编码器的实施例。第一编码器部分500和第二编码器部分502中的每个编码器部分可以包括用于对即将到来的图片编码的类似的元件。编码器部分500、502可以包括像素预测器302、402、预测误差编码器303、403以及预测误差解码器304、404。图4还将像素预测器302、402的实施例示出为包括帧间预测器306、406、帧内预测器308、408、模式选择器310、410、滤波器316、416以及参考帧存储器318、418。第一编码器部分400的像素预测器302接收300要在帧间预测器306(其确定图像与运动补偿参考帧318之间的差异)和帧内预测器308(其仅基于当前帧或者图片的已处理部分来确定用于图像块的预测)二者处编码的视频流的基本层图像。向模式选择器310传递帧间预测器和帧内预测器二者的输出。帧内预测器308可以具有多于一个的帧内预测模式。因此,每个模式可以执行帧内预测并且向模式选择器310提供预测信号。模式选择器310还接收基本层图片300的拷贝。对应地,第二编码器部分502的像素预测器402接收400要在帧间预测器406(其确定图像与运动补偿参考帧418之间的差异)和帧内预测器408(其仅基于当前帧或者图片的已处理部分来确定用于图像块的预测)二者处编码的视频流的增强层图像。向模式选择器410传递帧间预测器和帧内预测器二者的输出。帧内预测器408可以具有多于一个的帧内预测模式。因此,每个模式可以执行帧内预测并且向模式选择器410提供预测信号。模式选择器410还接收增强层图片400的拷贝。
取决于哪个编码模式被选择用以对当前块编码,向模式选择器310、410的输出传递帧间预测器306、406的输出或者可选的帧内预测器模式之一的输出或者模式选择器内的表面编码器的输出。向第一求和设备312、421传递模式选择器的输出。第一求和设备可以从基本层图片300/增强层图片400中减去像素预测器302、402的输出以产生向预测误差编码器303、403输出的第一预测误差信号320、420。
像素预测器302、402还从初步重构器339、439接收图像块312、412的预测表示以及预测误差解码器304、404的输出338、439的组合。可以向帧内预测器308、408以及向滤波器316、416传递初步重构图像314、414。接收初步表示的滤波器316、416可以对初步表示滤波并且输出可以被保存在参考帧存储器318、418中的最终重构图像340、440。可以将参考帧存储器318连接到帧间预测器306以将其用作未来的基本层图片300在帧间预测操作中与其相比较的参考图像。受制于根据一些实施例将基本层选择并且指示为用于增强层的层间样本预测和/或层间运动信息预测的源,还可以将参考帧存储器318连接到帧间预测器406以将其用作未来的增强层图片400在帧间预测操作期间与其相比较的参考图像。另外,可以将参考帧存储器418连接到帧间预测器406以将其用作未来的增强层图片400在帧间预测操作期间与其相比较的参考图像。
受制于根据一些实施例将基本层选择并且指示为用于预测增强层的滤波参数的源,还可以向第二编码器部分502提供来自第一编码器部分500的滤波器316的滤波参数。
预测误差编码器303、403包括变换单元342、442以及量化器344、444。变换单元342、442向变换域变换第一预测误差信号320、420。变换例如是DCT变换。量化器344、444对变换域信号(例如DCT系数)进行变换以形成量化系数。
预测误差解码器304、404从预测误差编码器303、403接收输出并且执行预测误差编码器303、403的相反过程以产生经解码的预测误差信号338、438,经解码的预测误差信号338、438当在第二求和设备339、439处与图像块312、412的预测表示组合时产生初步重构图像314、414。可以认为预测误差解码器包括去量化器361、461和逆变换单元363、463,去量化器361、461对经量化的系数值(例如DCT系数)去量化以重构变换信号,逆变换单元363、463对经重构的变换信号执行逆变换,其中逆变换单元363、463的输出包含已重构块。预测误差解码器还可以包括可以根据另外的解码信息和滤波器参数来对已重构块滤波的块滤波器。
熵编码器330、430接收预测误差编码器303、403的输出并且可以对信号执行合适的熵编码/可变长度编码以提供检错和纠错能力。可以通过例如混频器508向比特流中插入熵编码器330、430的输出。
H.264/AVC标准由“国际电信联盟(ITU-T)”的“电信标准部门”的“视频编码专家组(VCEG)”的“联合视频小组(JVT)”以及“国际标准组织(ISO)”/“国际电工委员会(IEC)”的“移动图片专家组(MPEG)”开发。H.264/AVC标准由两个父标准组织发布,并且其被称为ITU-T推荐H.264和ISO/IEC国际标准14496-10,也被称为MPEG-4第10部分先进视频编码(AVC)。存在H.264/AVC标准的多个版本,每个版本向规定集成新的扩展或者特征。这些扩展包括可缩放视频编码(SVC)和多视图视频编码(MVC)。由联合协作组开发的当前正在进行的高效率视频编码(HEVC)的标准化工程是VCEG和MPEG的视频编码(JCT-VC)。
本章节中描述一些关键的定义、比特流和编码结构以及H.264/AVC和HEVC的概念作为视频编码器、解码器、编码方法、解码方法以及比特流结构的示例,其中可以实现实施例。其中一些关键的定义、比特流和编码结构以及H.264/AVC的概念与草案HEVC标准中相同——因此,下面共同对其描述。本发明的方面不限于H.264/AVC或者HEVC,而是对于在其之上能够部分或者完全实现本发明的一个可能的基础来给出描述。
与很多较早的视频编码标准相似,H.264/AVC和HEVC中规定了比特流句法和语义以及用于无差错的比特流的解码过程。没有规定编码过程,但是编码器必须生成一致的比特流。可以使用假想参考解码器(HRD)来验证比特流和解码器一致性。标识包含帮助复制传输错误和损失的编码工具,但是这些工具在编码中的使用是可选的并且没有针对错误的比特流规定解码过程。
在现有的标准的描述以及示例实施例的描述中,可以将句法元素定义为在比特流中表示的数据的元素。可以将句法结构定义为按照规定的顺序一起存在于比特流中的零个或者多个句法元素。
可以将配置文件定义为由解码/编码标准或者规定所规定的整个比特流句法的子集。在由给定配置文件的句法强加的边界内,仍然可能要求取决于比特流中的句法元素所取的值(诸如经解码的图片的规定尺寸)的编码器和解码器的性能的大量变化。在很多应用中,实现能够处理句法在特定配置文件内的所有假想使用解码器既不现实也不经济。为了处理这一问题,可以使用水平。可以将水平定义为对比特流中的句法元素的值以及在解码/编码标准或规定中所规定的变量所强加的约束的规定集合。这些约束可以是对值的简单的限制。备选地或者另外地,它们可以采用对值的算术组合(图片宽度乘以图片高度乘以每秒钟解码的图片数目)的约束的形式。还可以使用其他用于规定用于水平的约束的手段。水平中所规定的其中一些约束例如可以在每个时间段(诸如秒)的编码单位(诸如宏块)方面与最大图片尺寸、最大比特率以及最大数据速率相关。可以针对所有配置文件定义相同的水平集合。可以优选的是,例如增加实现不同配置文件的终端的可互操作性,其中每个水平的定义的多数或者全部方面可以跨不同的配置文件而公用。
分别用于到H.264/AVC或者HEVC编码器的输入以及到H.264/AVC或者HEVC解码器的输出的基本单元是图片。在H.264/AVC和HEVC中,图片可以是帧或者域。帧包括亮度样本的矩阵并且可能包括对应的色度样本。域是帧的备选样本行的集合并且在对源信号交织时可以将域用作编码器输入。在与亮度图片相比较时,可以对色度图片子采样。例如,在4:2:0的采样图案中,色度图片的空间分辨率是亮度图片沿着两个坐标轴的空间分辨率的一半。
在H.264/AVC中,宏块是亮度样本的16x16块以及色度样本的对应的块。例如,在4:2:0的采样图案中,宏块每个色度分量包含色度样本的一个8x8块。在H.264/AVC中,图片被划分成一个或多个片段组,并且片段组包含一个或多个片段。在H.264/AVC中,片段在特定片段组内包含在激光扫描中连续排序的整数数目的宏块。
在一些视频编解码器(诸如高效视频编码(HEVC)编解码器)中,将视频图片划分成覆盖图片的区域的编码单元(CU)。CU包括定义用于CU内的样本的预测过程的一个或多个预测单元(PU)以及定义用于所述CU中的样本的预测误差编码过程的一个或多个变换单元(TU)。通常,CU包括具有从可能的CU尺寸的预定义的集合可选择的尺寸的样本的方形块。通常将具有最大许可尺寸的CU命名为LCU(最大编码单元),并且将视频图片划分成非交叠的LCU。还可以例如通过递归地划分LCU和所得到的CU来将LCU分成更小CU的组合。每个所得到的CU通常具有至少一个PU以及与其关联的至少一个TU。还可以将每个PU和TU分成更小的PU和TU,以便分别增加预测以及预测误差编码过程的粒度。每个PU具有与其关联的预测信息,预测信息定义要向该PU内的像素应用何种预测(例如用于帧间预测PU的运动矢量信息以及用于帧内预测PU的帧内预测方向性信息)。
用于帧内预测的预测模式的方向性——即要在特定预测模式下应用的预测方向——可以是竖直的、水平的、对角的。例如,在当前HEVC草案编解码器中,统一的帧内预测提供最高达34个方向预测模式,这取决于PU的尺寸,并且每个帧内预测模式具有向其分配的预测方向。
类似地,每个TU与描述所述TU内的样本的预测误差解码过程的信息(包括例如DCT系数信息)相关联。通常在CU水平信号传输是否应用或者是否不向每个CU应用预测误差编码。在这种情况下,不存在与CU相关联的预测误差残差,可以认为没有用于所述CU的TU。将图像划分成CU以及将CU划分成PU和TU通常在比特流中被信令,以使得解码器能够重新产生这些单元的预期结构。
在草案HEVC标准中,可以将图片划分成图块,图块是矩形并且包含整数数目的LCU。在草案HEVC标准中,划分成图块形成规则的网格,其中图块的高度和宽度彼此相差最大一个LCU。在草案HEVC中,将片段定义为一个独立的片段分段中所包含的整数数目的编码树单元以及在相同的访问单元内在下一独立的片段分段(如果存在)之前的所有随后的依赖性片段分段(如果存在)。在草案HEVC标准中,将片段分段定义为在图块扫描中被连续排序并且被包含在单个NAL单元中的整数数目的编码树单元。将每个图片划分成片段分段是划分。在草案HEVC标准中,将独立的片段分段定义为没有根据用于前一片段分段的值推断其片段分段首部的句法元素的值的片段分段,而将依赖性片段分段定义为根据按照解码顺序的用于前一独立片段分段的值推断其片段分段首部的一些句法元素的值的片段分段。在草案HEVC标准中,将片段首部定义为作为当前片段分段或者在当前依赖性片段分段之前的独立片段分段的独立片段分段的片段分段首部,而将片段分段首部定义为包含涉及片段分段中所表示的第一或者全部编码树单元的数据元素的编码片段分段的一部分。如果没有使用图块,则按照图块内或者图片内的LCU的激光扫描顺序来扫描CU。在LCU内,CU具有特定扫描顺序。图5示出包括被分为方形编码单元(实线)两个图块的图片的示例,方形编码单元已经进一步被分为矩形预测单元(虚线)。
解码器通过应用类似于编码器的预测手段以形成像素块的预测表示(使用由编码器创建并且存储在压缩表示中的运动或者空间信息)以及预测误差解码(恢复空间像素域中的经量化的预测误差信号的预测误差编码的逆操作)来重构输出视频。在应用预测和预测误差解码手段之后,解码器对预测和预测误差信号(像素值)求和以形成输出视频帧。解码器(和编码器)还可以在传递其用于显示和/或存储其作为用于视频序列中的即将到来的帧的预测参考之前应用附加滤波手段以改善视频输出的质量。
滤波例如可以包括下面各项中的一项或多项:解块、样本自适应偏移(SAO)和/或自适应回路滤波(ALF)。
在SAO中,将图片划分成区域,其中针对每个区域做出SAO判决。将区域中的SAO信息封装在SAO参数自适应单元(SAO单元)中并且在HEVC中,用于自适应SAO参数的基本单元是CTU(因此SAO区域是被对应的CTU覆盖的块)。
在SAO算法中,根据规则的集合对CTU中的样本分类,并且通过增加偏移值来增强样本的每个被分类的集合。在比特流中信号传输偏移值。存在两种类型的偏移:1)带偏移;2)边缘偏移。对于CTU,没有采用SAO或者带偏移或者边缘偏移。可以由编码器通过例如速率失真优化(RDO)来决定是否不使用任何SAO或者带偏移或者边缘偏移的选择并且向解码器对其进行信号传输。
在带偏移中,整个样本值的范围在一些实施例中被分成32个等带宽的带。例如,对于8比特样本,带的宽度为8(=256/32)。在32个带中,其中的4个带被选择,并且针对所选择的带中的每个带,不同的偏移被信号传输。选择判决由编码器做出并且可以如下被信号传输:信号传输第一带的索引并且然后推断随后的四个带是所选择的带。带偏移在校正平滑区域的误差时可以很有用。
在边缘偏移类型中,边缘偏移(EO)类型可以从四个可能的类型(或者边缘分类)中来选择,其中每个类型与方向相关联:1)竖直的,2)水平的,3)135度对角的,以及4)45度对角的。方向的选择由编码器给出并且向解码器信号传输。每个类型基于角度定义用于给定样本的两个相邻的样本的位置。然后,基于将样本值与两个相邻的样本的值的比较来将CTU中的每个样本分类成5个种类之一。5个种类描述如下:
1.当前样本值小于两个相邻样本;
2.当前样本值小于相邻样本之一并且等于另一相邻样本;
3.当前样本值大于相邻样本之一并且等于另一相邻样本;
4.当前样本值大于两个相邻样本;
5.非以上任何一种情况。
不需要向解码器信号传输这5个种类,因为分类仅基于重构样本,其可能在编码器和解码器二者中可用和相同。在将边缘偏移类型CTU中的每个样本分类为5个种类之一之后,确定用于第一4个种类中的每个种类的偏移值并且向解码器信号传输该偏移值。向与对应的种类相关联的样本值添加用于每个种类的偏移。边缘偏移在校正边缘振荡效应时可以很有效。
可以信号传输SAO参数如在CTU数据中交织,以上CTU,片段首部包含规定是否在片段中使用SAO的句法元素。如果使用SAO,则两个附加句法元素规定是否向Cb和Cr部件应用SAO。对于每个CTU,存在三个选项:1)从左侧CTU复制SAO参数,2)从以上CTU复制SAO参数,或者3)信号传输新的SAO参数。
自适应回路滤波器(ALF)是增强重构样本质量的另一方法。这可以通过对回路中的样本值滤波来实现。在一些实施例中,编码器基于例如RDO来确定要滤波图片的哪个区域以及滤波器系数并且向解码器信号传输该信息。
在典型的视频编解码器中,使用与每个运动补偿图像块关联的运动矢量来表示运动信息。这些运动矢量中的每个运动矢量表示要编码(在编码器侧)或者要解码(在解码器侧)图片中的图像块的取代以及先前编码或解码的图片之一中的预测源块。为了高效地表示运动矢量,通常相对于块特定的预测运动矢量来对其不同地编码。在典型的视频编解码器中,以预定义的方式创建经预测的运动矢量,例如计算相邻块的已编码或者已解码运动矢量的中间矢量。创建运动矢量预测的另一方式是根据时间参考图片中的相邻块和/或共同定位的块生成候选预测的列表并且信号传输所选择的候选作为运动矢量预测器。除了预测运动矢量值,还可以预测哪个(些)参考图片用于运动补偿预测并且这一预测信息可以通过例如先前编码/解码的图片的参考索引来表示。参考索引通常根据时间参考图片中的相邻块和/或共同定位的块来预测。另外,典型的高效视频编解码器采用通常被称为合并模块的附加运动信息编码/解码机制,其中所有运动域信息(包括运动矢量和用于每个可变参考图片列表的对应的参考图片索引)被预测并且使用而没有任何修改/校正。类似地,使用时间参考图片中的相邻块和/或共同定位的块的运动域信息来执行运动域信息的预测,并且在使用可变的相邻的/共同定位的块的运动域信息填充的运动域候选列表的列表中信号传输所使用的运动域信息。
在典型的视频编解码器中,首先使用变换核(如DCT)来对运动补偿之后的预测残差变换,并且然后对其编码。其原因在于,残差之间通常仍然存在一些相关性并且变换在很多情况下可以帮助减小这一相关性并且提供更高效的编码。
典型的视频编码器利用拉格朗日代价函数以求得最优编码模式,例如期望的宏块模式和关联的运动矢量。这种代价函数使用加权因子λ以将由于有损耗的编码方法所产生的(准确的或者估计的)图像失真以及表示图像区域中的像素值所需要的(准确的或者估计的)量的信息绑定在一起:
C=D+λR,    (1)
其中C是要最小化的拉格朗日算子,D是在考虑到模式和运动矢量的情况下的图像失真(例如均方误差),R是表示在解码器中重构图像块所需要的数据所需要的比特数目(包括用以表示候选运动矢量的数据量)。
视频编码标准和规定可以使得编码器能够将已编码图片划分成已编码片段等。图片内预测通常跨片段边界被停用。因此,可以认为片段是将已编码图片划分成独立地可解码的片的一种方式。在H.264/AVC和HEVC中,图片内预测可以跨片段边界被停用。因此,可以认为片段是将已编码图片划分成独立地可解码的片的一种方式,并且因此通常认为片段是用于传输的基本单元。在很多情况下,编码器可以在比特流中指示跨片段边界关闭哪些种类的图片内预测,并且解码器操作例如在推测哪些预测源可用时将这一信息考虑在内。例如,如果相邻的宏块或者CU驻留在不同的片段内,则可以认为来自相邻的宏块或者CU的样本不可用于帧内预测。
可以将已编码片段分类成三个种类:激光扫描顺序片段、矩形片段和柔性片段。
激光扫频顺序片段是包括激光扫描顺序的连续的宏块等的已编码分段。例如,MPEG-4的第2部分的视频分组以及H.263中以非空的GOB首部开始的宏块(GOB)的组是激光扫描顺序片段的示例。
矩形片段是包括宏块等的矩形区域的已编码分段。矩形片段可以高于一个宏块等行并且窄于整个图片宽度。H.263包括可选的矩形片段子模式,H.261GOB也可以被认为是矩形片段。
柔性片段可以包含任何预定义的宏块(等)位置。H.264/AVC编解码器使得能够将宏块分组成多于一个的片段组。片段组可以包含任何宏块位置,包括非相邻的宏块位置。H.264/AVC的一些配置文件中的片段包括特定片段组内的激光扫描顺序的至少一个宏块。
用于H.264/AVC或者HEVC编码器的输出以及H.264/AVC或者HEVC解码器的输入的基本单元分别是网络抽象层(NAL)单元。对于通过分组定向的网络的传输或者到结构化文件中的存储,可以将NAL单元封装成分组或者类似的结构。H.264/AVC和HEVC中已经规定了用于不提供组帧结构的传输或者存储环境的比特流格式。比特流格式通过将开始代码附接在每个NAL单元前面来使得NAL单元彼此分离。为了避免NAL单元边界的错误检测,编码器运行字节定向的开始代码竞争防止算法,其在出现开始代码的情况下向NAL单元载荷添加竞争防止字节。为了实现分组定向的系统与流定向的系统之间的直接网关操作,通常可以执行开始代码竞争防止而不管是否使用字节流格式。可以将NAL单元定义为包含要跟随的类型的数据的指示的句法结构以及包含根据需要使用竞争防止字节被散布的RBSP形式的数据的字节。可以将原始字节序列载荷(RBSP)定义为包含被封装成NAL单元的整数数目的字节的句法结构。RBSP或者为空或者具有包含其后跟随有RBSP停止比特并且跟随有等于0的零个或者多个随后的比特的句法元素的数据比特的串的形式。
NAL单元包括首部和载荷(payload)。在H.264/AVC和HEVC中,NAL单元首部表示NAL单元的类型。在H.264/AVC中,NAL单元首部表示NAL单元中所包含的已编码片段是参考图片的一部分还是非参考图片的一部分。
H.264/AVC NAL单元首部包括2比特的nal_ref_idc句法元素,其在等于0时表示NAL单元中所包含的已编码片段是非参考图片的一部分,其在大于0时表示NAL单元中所包含的已编码片段是参考图片的一部分。草案HEVC标准包括1比特的nal_ref_idc句法元素,其也被称为nal_ref_flag,其在等于0时表示NAL单元中所包含的已编码片段是非参考图片的一部分,其在等于1时表示NAL单元中所包含的已编码片段是参考图片的一部分。用于SVC和MVC NAL单元的首部可以另外包含与可缩放性和多视图层级相关的各种表示。
在草案HEVC标准中,2字节的NAL单元首部用于所有规定的NAL单元类型。NAL单元首部包含1个保留位、6比特的NAL单元类型指示、6比特的保留字段(被称为reserved_zero_6bits)、以及用于时间水平的3比特的nuh_temporal_id plus1指示(可能需要大于或者等于1)。可以将temporal_id句法元素认为是用于NAL单元的时间标识符,可以如下得到基于零的TemporalId变量:TemporalId=temporal_id_plus 1–1。等于0的TemporalId对应于最低时间水平。要求temporal_id_plus1的值为非零,以避免开始代码竞争涉及两个NAL单元首部字节。
期望6比特的保留字段通过扩展(诸如未来的可缩放的3D视频扩展)来使用。期望这6个字节能够携带关于可缩放性层级的信息,诸如quality_id等、dependency_id等、任何其他类的层标识符、视图顺序索引等、视图标识符、在大于特定标识符值的所有NAL单元从比特流中被去除的情况下指示有效的子比特流提取的类似于SVC的priority_id的标识符。在没有丧失一般性的情况下,在一些示例实施例中,例如如下根据reserved_zero_6bits的值得到变量LayerId:LayerId=reserved_zero_6bits。
可以将NAL单元分类成视频编码层(VCL)NAL单元和非VCLNAL单元。VCL NAL单元通常是已编码片段NAL单元。在H.264/AVC中,已编码片段NAL单元包含表示一个或多个已编码宏块的句法元素,每个已编码宏块对应于未压缩图片中的样本的块。在HEVC中,已编码片段NAL单元包含表示一个或多个CU的句法元素。
在H.264/AVC中,可以将已编码片段NAL单元表示为即时解码刷新(IDR)图片中的已编码片段或者非IDR图片中的已编码片段。
在HEVC中,可以将已编码片段NAL单元表示为以下类型之一:
表1
在草案HEVC标准中,可以将用于图片类型的缩写定义如下:拖尾(TRAIL)图片、时间子层访问(TSA)、逐步时间子层访问(STSA)、随机访问可解码前导(RADL)图片、随机访问跳跃式前导(RASL)图片、中断链接访问(BLA)图片、即时解码刷新(IDR)图片、清洁随机访问(CRA)图片。
随机访问点(RAP)图片是其中每个片段或者片段分段具有在16到23的范围内(包括端点)的nal_unit_type的图片。RAP图片仅包含帧内编码片段,并且可以是BLA图片、CRA图片或者IDR图片。比特流中的第一图片是RAP图片。假定必须的参数集合在需要它们被激活时可用,则能够对RAP图片以及按照解码顺序的所有随后的非RASL图片正确地解码而不执行对按照解码顺序在RAP图片之后的任何图片的解码过程。比特流中可能存在仅包含不是RAP图片的帧内编码片段的图片。
在HEVC中,CRA图片可以是按照解码顺序在比特流中的第一图片,或者可以出现在比特流中的后部。HEVC中的CRA图片实现了按照解码顺序跟随CRA图片但是按照输出顺序在其之前的所谓的前导图片。其中一些前导图片——所谓的RASL图片——可以使用在CRA图片之前解码的图片作为参考。如果在CRA图片处执行随机访问,则按照解码顺序和输出顺序在CRA图片之后的图片不可解码,因此类似于IDR图片的清洁随机访问功能来实现清洁随机访问。
CRA图片可以具有关联的RADL或者RASL图片。当CRA图片是按照解码顺序在比特流中的第一图片时,CRA图片是已解码视频序列中按照解码顺序的第一图片,并且没有任何关联的RASL图片被解码器输出并且可能不是可解码的,因为它们包含对比特流中不存在的图片的参考。
前导图片是按照输出顺序在关联的RAP图片前面的图片。关联的RAP图片是按照解码顺序在前面的RAP图片(如果存在)。前导图片是RADL图片或者RASL图片。
所有的RASL图片是关联的BLA或者CRA图片的前导图片。当关联的RAP图片是BLA图片或者是比特流中的第一已编码图片时,RASL图片不被输出并且可能是不可正确地解码的,因为RASL图片可能包含对比特流中不存在的图片的参考。然而,如果解码从在RASL图片的关联的RAP图片前面的RAP图片开始,则RASL图片可能被正确地解码。RASL图片未用作用于非RASL图片的解码过程的参考图片。当存在时,按照解码顺序,所有RASL图片在同样的关联的RAP图片的所有拖尾图片的前面。在HEVC标准的一些较早草案中,RASL图片被称为标记以抛弃(TFD)图片。
所有的RADL图片是前导图片。RADL图片未用作用于相同的关联的RAP图片的拖尾图片的解码过程的参考图片。当存在时,按照解码顺序,所有的RADL图片在相同的关联的RAP图片的所有拖尾图片的前面。RADL图片不涉及按照解码顺序在关联的RAP图片前面的任何图片,并且因此可以在解码从关联的RAP图片开始时被正确地解码。在HEVC标准的一些较早草案中,RADL图片被称为可解码前导图片(DLP)。
当从CRA图片开始的比特流的一部分被包括在另一比特流中时,与CRA图片关联的RASL图片可能不能正确地可解码,因为它们的参考图片中的一些参考图片可能不存在于组合的比特流中。为了使得这样的片段操作直接,可以改变CRA图片的NAL单元类型以指示其是BLA图片。与BLA图片关联的RASL图片可能不能正确地可解码,因此不能被输出/显示。另外,可以从解码中省略与BLA图片关联的RASL图片。
BLA图片可以是比特流中按照解码顺序的第一图片,或者可以出现在比特流中的后部。每个BLA图片开始新的已编码视频序列,并且对解码过程具有与IDR图片类似的影响。然而,BLA图片包含规定非空参考图片集合的句法元素。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其可以具有关联的RASL图片,这些图片不由解码器输出并且可能不是可解码的,因为它们可能包含对比特流中不存在的图片的参考。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其还可以具有关联的RADL图片,这些图片被规定为要被解码。当BLA图片具有等于BLA_W_DLP的nal_unit_type时,其没有关联的RASL图片但是可以具有关联的RADL图片,这些图片被规定为要被解码。当BLA图片具有等于BLA_N_LP的nal_unit_type时,其不具有任何关联的前导图片。
具有等于IDR_N_LP的nal_unit_type的IDR图片不具有存在于比特流中的关联的前导图片。具有等于IDR_W_LP的nal_unit_type的IDR图片不具有存在于比特流中的关联的RASL图片,但是可以具有比特流中的关联的RADL图片。
当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或者RSV_VCL_N14时,已解码图片未用作用于相同的时间子层的任何其他图片的参考。也就是说,在草案HEVC标准中,当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或者RSV_VCL_N14时,已解码图片未被包括在具有相同的TemporalId值的任何图片的RefPicSetStCurrBefore、RefPicSetStCurrAfter和RefPicSetLtCurr中的任何一项中。可以丢弃具有等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或者RSV_VCL_N14的nal_unit_type的已编码图片而没有影响具有相同的TemporalId值的其他图片的可解码性。
可以将拖尾图片定义为按照输出顺序在关联的RAP图片之后的图片。作为拖尾图片的任何图片不具有等于RADL_N、RADL_R、RASL_N或者RASL_R的nal_unit_type。可以将作为前导图片的任何图片约束为按照解码顺序在与相同的RAP图片关联的所有拖尾图片的前面。比特流中不存在任何与具有等于BLA_W_DLP或者BLA_N_LP的nal_unit_type的BLA图片关联的RASL图片。比特流中不存在任何与具有等于BLA_N_LP的nal_unit_type的BLA图片关联或者与具有等于IDR_N_LP的nal_unit_type的IDR图片关联的RADL图片。可以将与CRA或者BLA图片关联的任何RASL图片约束为按照输出顺序在与CRA或者BLA图片关联的任何RADL图片前面。可以将与CRA图片关联的任何RASL图片约束为按照输出顺序在按照解码顺序位于CRA图片前面的任何其他RAP图片的后面。
在HEVC中,存在可以用于指示时间子层切换点的2个图片类型,TSA和STSA图片类型。如果直到TSA或者STSA图片(包括性的)以及TSA或者STSA图片具有等于N+1的TemporalId时具有最高达N的TemporalId的时间子层已经被解码,则TSA或者STSA图片实现对具有等于N+1的TemporalId的所有随后图片(按照解码顺序)的解码。TSA图片类型可以对TSA图片本身以及相同的子层中按照解码顺序在TSA图片之后的所有图片强加约束。不允许这些图片中的任何一个图片使用来自在相同的子层中按照解码顺序在TSA图片前面的任何图片的帧间预测。TSA定义还可以对更高的子层中按照解码顺序在TSA图片之后的图片强加约束。如果该图片属于与TSA图片相同的或者更高的子层,则不允许这些图片中的任何图片引用按照解码顺序在TSA图片前面的图片。TSA图片具有大于0的TemporalId。STSA类似于TSA图片,但是没有对更高子层中按照解码顺序在STSA图片后面的图片强加约束,并且因此仅实现到STSA图片驻留在该处的子层上的向上切换。
非VCL NAL单元例如可以是以下类型之一:序列参数集合、图片参数集合、补充增强信息(SEI)NAL单元、访问单元定界符、序列NAL单元的结尾、流NAL单元的结尾、或者填充数据NAL单元。可能需要参数集合用于已解码图片的重构,而其他非VCL NAL单元中的很多不必用于已解码样本值的重构。
贯穿已编码视频序列保持未改变的参数可以被包括在序列参数集合中。除了解码过程可能需要的参数,序列参数集合可以可选地包含视频可用性信息(VUI),其包括可能对于缓冲、图片输出定时、渲染和资源预留而言很重要的参数。H.264/AVC中规定有3个用以携带序列参数集合的NAL单元:包含序列中所有用于H.264/AVC VCLNAL单元的数据的序列参数集合NAL单元、包含用于辅助解码图片的数据的序列参数集合扩展NAL单元、以及用于MVC和SVC VCLNAL单元的子集序列参数集合。在草案HEVC标准中,序列参数集合RBSP包括可以被一个或多个图片参数集合RBSP或者包含缓冲周期SEI消息的一个或多个SEI NAL单元参考的参数。图片参数集合包含在若干编码图片中很可能不变的这样的参数。图片参数集合RBSP可以包括可以被一个或多个编码图片的编码片段NAL单元参考的参数。
在草案HEVC中,还存在第三类型的参数集合,其在此被称为自适应参数集合(APS),其包括在若干编码片段中很可能不变但是可以对于例如每个图片或者每几个图片变化的参数。在草案HEVC中,APS句法结构包括与量化矩阵(QM)、自适应样本偏移(SAO)、自适应回路滤波(ALF)和解块滤波相关的参数或者句法元素。在草案HEVC中,APS是NAL单元并且被编码而没有来自任何其他NAL单元的参考或者预测。被称为asp_id句法元素的标识符被包括在APSNAL单元中,并且在片段首部中被包括和使用以指代特定APS。在另一草案HEVC标准中,APS句法结构仅包含ALF参数。在草案HEVC标准中,自适应参数集合RBSP包括可以在sample_adaptive_offset_enabled_flag或者adaptive_loop_filter_enabled_flag中的至少一项等于1时被一个或多个编码图片的编码片段NAL单元参考的参数。在HEVC的一些稍后的草案中,APS句法结构从规定文本中被去除。
草案HEVC标准还包括第四类型的参数集合,其被称为视频参数集合(VPS),其在例如文档JCTVC-H0388(http://phenix.int-evry.fr/jct/doc_end_user/documents/8-San%20Jose/wg11/JCTVC-H0388-v4.zip)中被提出。视频参数集合RBSP可以包括可以被一个或多个序列参数集合RBSP参考的参数。
视频参数集合(VPS)、序列参数集合(SPS)和图片参数集合(PPS)之间的关系和层级可以描述如下。VPS在参数集合层级中并且在可缩放性和/或3DV的情境中以一个水平驻留在SPS之上。VPS可以包括对于跨整个编码视频序列中的所有(可缩放性或者视图)层中的所有片段公用的参数。SPS包括对于在整个编码视频序列中在特定的(可缩放性或者视图)层中的所有片段公用并且可以被多个(可缩放性或者视图)层共享的参数。PPS包括对于在特定层表示(一个访问单元中的一个可缩放性或视图层的表示)的所有片段公用并且很可能被多个层表示中的所有片段共享的参数。
VPS可以提供与比特流中的层的依赖性关系有关的信息以及可应用于跨整个编码视频序列中的所有(可缩放性或者视图)层的所有片段的很多其他信息。在HEVC的可缩放扩展中,VPS例如可以包括从NAL单元首部得到的LayerId值到例如与用于类似于SVC和MVC被定义的层的依赖性id、质量id、视图id和深度标记对应的一个或多个可缩放性尺度值的映射。VPS可以包括用于一个或多个层的配置文件和水平信息以及用于层表示的一个或多个时间子层(包括在某些temporal_id值处以及在其之下的VCL NAL单元)的配置文件和/或水平。
H.264/AVC和HEVC句法实现很多参数集合的实例,并且每个实例使用唯一的标识符来标识。为了限制用于参数集合所需要的存储器的使用,已经限制了用于参数集合标识符的值范围。在H.264/AVC和草案HEVC标准中,每个片段首部包括对于包含片段的图片的解码而言活动的图片参数集合的标识符,并且每个图片参数集合包含活动序列参数集合的标识符。在草案HEVC标准中,片段首部自动包含APS标识符,虽然在HEVC标准的某些稍后的草案中,APS标识符从片段首部被去除。因此,图片和序列参数集合的传输不需要与片段的传输精确地同步。相反,活动序列和图片参数集合在它们被参考之前在任何时刻被接收就足够了,这使得能够使用与用于片段数据的协议相比更可靠的传输机制来传输带外参数集合。例如,参数集合可以被包括作为用于实时传输协议(RTP)会话的会话描述中的参数。如果参数集合在带内被传输,则可以重复它们以改善错误鲁棒性。
可以通过参考从片段或者从另一活动参数集合或者在一些情况下从另一句法结构(诸如缓冲周期SEI消息)来激活参数集合。
SEI NAL单元可以包含一个或多个SEI消息,其不需要用于对输出图片解码但是可以帮助相关的过程,诸如图片输出定时、渲染、错误检测、错误隐藏以及资源预留。H.264/AVC和HEVC中规定了若干SEI消息,并且用户数据SEI消息实现用以规定用于其自己使用的SEI消息的组织和公司。H.264/AVC和HEVC包含用于规定的SEI消息的句法和语义,但是没有定义用于处理接受者中的消息的过程。因此,需要编码器在创建SEI消息时遵循H.264/AVC标准或者HEVC标准,并且符合H.264/AVC标准或者HEVC标准的解码器分别不需要处理SEI消息用于输出顺序一致性。原因之一是在H.264/AVC和HEVC中包括SEI消息的句法和语义,使得不同的系统规范能够一致地解释补充信息并且因此交互操作。其意在,系统规范可以要求在编码端和解码端二者中使用特定SEI消息,并且另外,可以规定用于处理接受者中的特定SEI消息的过程。
编码图片是图片的编码表示。H.264/AVC中的编码图片包括需要用于对图片解码的VCL NAL单元。在H.264/AVC中,编码图片可以是主要编码图片或者冗余编码图片。主要编码图片用在有效比特流的解码过程中,而冗余编码图片是仅应当在主要编码图片不能被充分解码时被解码的冗余表示。在草案HEVC中,没有规定任何冗余编码图片。
在H.264/AVC和HEVC中,访问单元包括主要编码图片和与其关联的那些NAL单元。在H.264/AVC中,NAL单元在访问单元内的出现顺序如下被约束。可选访问单元定界符NAL单元可以表示访问单元的开始。其后是零个或多个SEI NAL单元。接着出现主要编码图片的编码片段。在H.264/AVC中,主要编码图片的编码片段之后可以是用于零个或者多个冗余编码图片的编码片段。冗余编码图片是图片的编码表示或者图片的一部分。如果主要编码图片例如由于传输损失或者物理存储介质的占用而没有被解码器接收到,则可以对冗余编码图片解码。
在H.264/AVC中,访问单元还可以包括辅助编码图片,其是补充主要编码图片并且可以用在例如显示过程中的图片。辅助编码图片例如可以用作规定解码图片中的样本的透明度水平的阿尔法通道或者阿尔法平面。阿尔法通道或者阿尔法平面可以用在分层合成或者渲染系统中,其中输出图片由至少部分在彼此之上透明的交叠的图片形成。辅助编码图片与单色冗余编码图片具有相同的句法和语义限制。在H.264/AVC中,辅助编码图片包含与主要编码图片相同数目的宏块。
在H.264/AVC中,编码视频序列被定义为从IDR访问单元(包括性地)到下一IDR访问单元(排他性地)或者到比特流的结尾(以先出现者为准)的按照解码顺序的连续的访问单元的序列。在草案HEVC标准中,编码视频序列被定义为按照解码顺序包括作为比特流中的第一访问单元的CRA访问单元、IDR访问单元或者BLA访问单元的访问单元的序列,其后是零个或者多个非IDR和非BLA访问单元,包括所有随后的访问单元直到但是不包括任何随后的IDR或者BLA访问单元。
图片组(GOP)及其特性可以如下定义。可以对GOP解码而不管是否任何先前的图片被解码。开放式GOP是如下的图片组:其中按照输出顺序在帧内图片前面的图片在解码从开放式GOP的初始帧内图片开始的情况下不能正确地可解码。换言之,开放式GOP的图片可以参考(在帧间预测中)属于先前的GOP的图片。H.264/AVC解码器可以根据H.264/AVC比特流中的恢复点SEI消息来识别开始开放式GOP的帧内图片。HEVC解码器可以识别开始开放式GOP的帧内图片,因为特定的NAL单元类型、CRA NAL单元类型可以用于其编码片段。封闭式GOP是如下的图片组:其中所有图片在解码从封闭式GOP的初始帧内图片开始的情况下可以被正确地解码。换言之,封闭式GOP中没有图片参考先前GOP中的任何图片。在H.264/AVC和HEVC中,可以认为封闭式GOP从IDR访问单元开始。因此,封闭式GOP结构具有与开放式GOP结构相比更强的错误恢复潜力,但是以压缩效率的可能的减小为代价。由于参考图片的选择方面的更大的灵活性,开放式GOP编码结构在压缩中可能更高效。
H.264/AVC和HEVC的比特流句法表示特定图片是否为用于任何其他图片的帧间预测的参考图片。任何编码类型(I、P、B)的图片可以是H.264/AVC和HEVC中的参考图片或者非参考图片。
H.264/AVC规定用于解码参考图片标记的过程以便控制解码器中的存储器消耗。用于帧间预测的参考图片的最大数目(被称为M)在序列参数集合中被确定。当参考图片被解码时,其被标记为“用于参考”。如果参考图片的解码使得多于M个图片被标记为“用于参考”,则至少一个图片被标记为“未用于参考”。存在两种类型的用于解码参考图片标记的操作:自适应存储器控制和滑动窗口。基于图片来选择用于解码参考图片标记的操作模式。自适应存储器控制实现将图片标记为“未用于参考”的明确的信号传输并且还可以向短期参考图片分配长期索引。自适应存储器控制可以要求比特流中存在存储器管理控制操作(MMCO)参数。MMCO参数可以被包括在界面参考图片标记句法结构中。如果滑动窗口操作模式被使用并且有M个图片被标记为“用于参考”,则作为被标记为“用于参考”的这些短期参考图片中的第一解码图片的短期参考图片被标记为“未用于参考”。换言之,滑动窗口操作模式在短期参考图片之间产生先入先出缓冲操作。
H.264/AVC中的存储器管理控制操作之一使得除了当前图片的所有参考图片被标记为“未用于参考”。即时解码刷新(IDR)图标仅包含帧内编码片段并且造成参考图片的类似的“重置”。
在草案HEVC标准中,没有使用参考图片标记句法结构和相关的解码过程,而是出于类似的目的而使用参考图片集合(RPS)句法结构和解码过程。对于图片有效或者活动的参考图片集合包括被用作用于图片的参考的所有参考图片以及保持被标记为按照解码顺序的任何随后的图片的“未用于参考”的所有参考图片。存在参考图片集合的6个子集,其也就是被称为RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll。6个子集的注释如下。“Curr”是指被包括在当前图片的参考图片列表中并且因此可以用作用于当前图片的帧间预测参考的参考图片。“Foll”是指没有被包括在当前图片的参考图片列表中但是可以在按照解码顺序的随后的图片中用作参考图片的参考图片。“Sf”是指短期参考图片,其通常可以通过其POC值的最低有效位的某个数目来标识。“Lt”是指长期参考图片,其明确地被标识并且通常具有比可以由最低有效位的所提及的某个数目表示的大的相对于当前图片的POC值的差值。“0”是指比当前图片具有更小POC值的那些参考图片。“1”是指比当前图片具有更大的POC值的那些参考图片。RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0和RefPicSetStFoll1统称为参考图片集合的短期子集。RefPicSetLtCurr和RefPicSetLtFoll统称为参考图片集合的长期子集。
在草案HEVC标准中,参考图片集合可以在序列参数集合中规定并且可以在片段首部中通过到参考图片集合的索引来使用。还可以在片段首部中规定参考图片集合。通常仅在片段首部中规定参考图片集合的长期子集,而可以在图片参数集合或者片段首部中规定相同的参考图片集合的短期子集。参考图片集合可以被独立地编码或者可以根据另一参考图片集合被预测(被称为RPS间预测)。当参考图片集合被独立地编码时,句法结构包括在不同类型的参考图片上迭代的最高3个循环:具有小于当前图片的POC值的短期参考图片,具有大于当前图片的POC值的短期参考图片,以及长期参考图片。每个循环输入规定要被标记为“用于参考”的图片。通常,使用不同的POC值来规定图片。RPS间预测利用如下事实:可以根据先前解码图片的参考图片集合来预测当前图片的参考图片集合。这是因为,当前图片的所有参考图片或者是先前图片的参考图片或者是先前解码图片本身。仅需要指出这些图片中的哪些图片应当是参考图片并且用于当前图片的预测。在两种类型的参考图片集合编码中,另外针对每个参考图片发送指示参考图片是(被包括在*Curr列表中)否(被包括在*Foll列表中)用于由当前图片参考的标记(used_by_curr_pic_X_flag)。由当前片段使用的参考图片集合中所包括的图片被标记为“用于参考”,而由当前片段使用的参考图片集合中未包括的图片被标记为“未用于参考”。如果当前图片是IDR图片,则RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll全部被设置为空。
解码图片缓冲器(DPB)可以用在编码器中和/或在解码器中。缓冲解码图片的原因有两个:用于帧间预测中的参考以及用于将解码图片重新排序成输出顺序。由于H.264/AVC和HEVC用于参考图片标记和输出重新排序二者的很大的灵活性,用于参考图片缓冲和输出图片缓冲的单独的缓冲器可能浪费存储器资源。因此,DPB可以包括用于参考图片和输出重新排序的统一的解码图片缓冲过程。可以在解码图片不再用作参考并且不需要用于输出时将其从DPB去除。
在H.264/AVC和HEVC的很多编码模式中,使用到参考图片列表的索引来指示用于帧间预测的参考图片。可以使用变量长度编码来对索引编码,这通常造成更小的索引具有用于对应的句法元素的更小的值。在H.264/AVC和HEVC中,针对每个双预测性(B)片段生成两个参考图片列表(参考图片列表0和参考图片列表1),并且针对每个编码间(P)片段形成一个参考图片列表(参考图片列表0)。另外,对于草案HEVC标准中的B片段,在构造最终的参考图片列表(列表0和列表1)之后构造组合列表(列表C)。组合列表可以用于B片段内的单预测(也被称为单向预测)。在HEVC标准的一些稍后的草案中,去除了组合列表。
参考图片列表(诸如参考图片列表0和参考图片列表1)通常使用两个步骤来构造:首先,生成初始参考图片列表。例如可以基于frame_num、POC、temporal_id、或者关于预测层级的信息(诸如GOP结构)、或者其任意组合来生成初始参考图片列表。其次,可以通过参考图片列表重新排序(RPLR)命令(也被称为参考图片列表修改句法结构)(其可以被包含在片段首部中)来对初始参考图片列表重新排序。在H.264/AVC中,RPLR命令指示被排序到相应的参考图片列表的开始的图片。该第二步骤还可以被称为参考图片列表修改过程,并且RPLR命令可以被包括在参考图片列表修改句法结构中。如果使用参考图片集合,则可以将参考图片列表0初始化成首先包含RefPicSetStCurr0,之后是RefPicSetStCurr1、之后是RefPicSetLtCurr。可以将参考图片列表1初始化成首先包含RefPicSetStCurr1,之后是RefPicSetStCurr0。在HEVC中,可以通过参考图片列表修改句法结构来修改初始参考图片列表,其中可以通过到列表的入口索引来标识初始参考图片列表中的图片。换言之,在HEVC中,将参考图片列表修改编码到包括初始参考图片列表中的每个入口上的循环的句法结构中,其中每个循环入口是到初始参考图片列表的固定长度的编码索引并且指示最终参考图片列表中的上升位置顺序的图片。
可缩放视频编码是指其中一个比特流可以包含内容的不同比特率、分辨率或者帧速率的多个表示的编码结构。在这些情况下,接收器可以取决于其特性(例如最佳匹配显示设备的分辨率)来提取期望的表示。备选地,服务器或者网络元件可以取决于例如网络特性或者接收器的处理能力来提取要向接收器传输的部分比特流。可缩放比特流通常包括提供可用的最低质量视频的“基本层”以及在连同低层一起被接收和解码时增强视频质量的一个或多个增强层。为了改善增强层的编码效率,该层的编码表示通常取决于低层。例如,可以根据低层来预测增强层的运动和模式信息。类似地,可以使用低层的像素数据来创建用于增强层的预测。
在一些可缩放视频编码方案中,可以将视频信号编码到基本层以及一个或多个增强层中。增强层可以增强时间分辨率(即帧速率)、空间分辨率,或者简单地增强用另一层或者其一部分表示的视频内容的质量。每个层连同其所有依赖层是视频信号在某个空间分辨率、时间分辨率和质量水平的一个表示。在本文档中,将可缩放层连同其所有依赖层称为“可缩放层表示”。可以提取并且解码对应于可缩放层表示的可缩放比特流的部分以产生原始信号的某个保真度的表示。
一些编码标准允许创建可缩放比特流。可以通过对可缩放比特流的某些部分解码来产生有意义的解码表示。可缩放比特流可以用于例如流送服务器中的预编码单播流的速率自适应以及用于单个比特流到具有不同能力和/或具有不同网络条件的终端的传输。用于可缩放视频编码的一些其他使用情况的列表可以在泰国芭提雅2003年3月10-14日的第64次MPEG会议的ISO/IEC JTC1 SC29 WG11(MPEG)输出文档N5540“用于缩放视频编码的应用和要求”中找到。
在一些情况下,可以在某个位置之后或者甚至在任意位置对增强层中的数据截位,其中每个截位位置可以包括表示不断增强的视觉质量的附加数据。这样的可缩放性被称为细粒度(粒度)可缩放性(FGS)。
可缩放视频编码和/或解码方案可以使用多循环编码和/或解码,其特性可以如下。在编码/解码中,可以对基本层图片重构/解码以将其用作用于相同的层内按照编码/解码顺序的随后的图片的运动补偿参考图片或者用作用于层间(或者视图间或者分量间)预测的参考。已重构/已解码的基本层图片可以存储在DPB中。同样可以重构/解码增强层图片以将其用作用于相同的层内按照编码/解码顺序的随后的图片的运动补偿参考图片或者用作用于更高的增强层的层间(或者视图间或者分量间)预测的参考(如果存在)。除了已重构/已解码的样本值,可以在层间/分量间/视图间预测中使用根据基本/参考层的句法元素值得到的基本/参考层或者变量的句法元素值。
可以如下来实现用于质量可缩放性(被称为信噪比或者SNR)和/或空间可缩放性的可缩放视频编码器。对于基本层,可以使用传统的非可缩放视频编码器和解码器。基本层的已重构/已解码的图片可以被包括在用于增强层的参考图片缓冲器和/或参考图片列表中。在空间可缩放性的情况下,可以先于将已重构/已解码的基本层图片插入到用于增强层图片的参考图片列表中来对其进行上采样。可以将基本层解码图片插入到参考图片列表中以类似地将增强层图片编码/解码成增强层的解码参考图片。因此,编码器可以选择基本层参考图片作为帧间预测参考并且使用编码比特流中的参考图片索引来指示其使用。解码器根据比特流(例如根据参考图片索引)解码处基本层图片被用作用于增强层的帧间预测参考。当已解码基本层图片被用作用于增强层的预测参考时,其被称为层间参考图片。
虽然先前的段落描述具有两个可缩放性层——增强层和基本层——的可缩放视频编解码器,然而需要理解,可以将描述总结为具有多于两个层的可缩放性层级的任何两个层。在这种情况下,第二增强层在编码和/或解码过程中可以取决于第一增强层,并且第一增强层因此可以被当作用于第二增强层的编码和/或解码的基本层。另外,需要理解,增强层的参考图片缓冲器或者参考图片列表中可以存在来自多于一个层的层间参考图片,并且这些层间参考图片中的每个层间参考图片可以被当作驻留在被编码和/或解码的增强层的基本层或者参考层中。
SVC使用层间预测机制,其中可以根据除了当前重构层或者下一低层之外的层来预测某些信息。可以在层间预测的信息包括帧内纹理、运动和残留数据。层间运动预测包括块编码模式、首部信息、块划分等的预测,其中来自低层的运动可以用于高层的预测。在帧内编码的情况下,来自周围宏块或者来自下层的共同定位的宏块的预测是可能的。这些预测技术没有采用来自较早编码的访问单元的信息并且因此被称为帧内预测技术。对于SVC增强层,存在附加宏块编码模式,其在共同定位的参考层块被帧内编码(其中根据参考层中的共同定位的块来推断预测)时可以被称为IntraBL。在IntraBL中,通过可能被上采样(用于空间可缩放编码)的重构的已解码参考层块来构造预测信号。另外,在层间残差预测中,可以采用来自低层的残差数据用于当前层的预测。
SVC规定被称为单循环解码的概念。其通过使用受约束的帧内纹理预测模式来启用,从而可以将层间帧内纹理预测应用于其基本层的对应的块被定位在帧内MB内部的宏块(MB)。同时,基本层中的这些帧内MB使用受约束的帧内预测(例如具有等于1的句法元素“constrained_intra_pred_flag”)。在单循环解码中,解码器仅对于期望用于回放的可缩放层(被称为“期望层”或者“目标层”)执行运动补偿和全图片重构,从而极大地降低解码复杂度。除了期望层之外的所有层都不需要被完全解码,因为未用于层间预测(不管其是层间帧内纹理预测、层间运动预测还是层间残差预测)的MB的数据的全部或者部分不需要用于期望层的重构。
单个解码循环需要用于多数图片的解码,而第二解码循环选择性地应用于重构基本表示,其被需要作为预测参考但是不用于输出或者显示,并且仅针对所谓的关键图片(其“store_ref_base_pic_flag”等于1)被重构。
FGS被包括在SVC标准的一些草案版本中,但是其实际上被排除在最终的SVC标准之外。FGS随后在SVC标准的一些草案版本的上下文中被讨论。不能被截位的这些增强层提供的可缩放性被称为粗粒度(粒度)可缩放性(CGS)。其共同包括传统的质量(SNR)可缩放性和空间可缩放性。SVC标准支持所谓的中间粒度可缩放性(MGS),其中质量增强图片与SNR可缩放层图片类似地被编码,但是通过类似于FGS层图片的高层句法元素、通过具有大于0的quality_id句法元素被指示。
SVC草案中的可缩放性结构可以用3个句法元素来表征:“temporal_id”、“dependency_id”和“quality_id”。句法元素“temporal_id”用于指示时间可缩放性层级或者间接地指示帧速率。包括较小的最大“temporal_id”值的图片的可缩放层表示具有比包括较大的最大“temporal_id”的图片的可缩放层表示小的帧速率。给定时间层通常取决于下部时间层(即具有较小的“temporal_id”值的时间差)但是不取决于任何较高的时间层。句法元素“dependency_id”用于指示CGS层间编码依赖性层级(如早先所提及的,其包括SNR和空间可缩放性二者)。在任何时间水平位置处,较小的“dependency_id”值的图片可以用于具有较大的“dependency_id”值的图片的编码的层间预测。句法元素“quality_id”用于指示FGS或者MGS层的质量水平层级。在任何时间位置处,并且使用相同的“dependency_id”值,具有等于QL的“quality_id”的图片使用具有等于用于层间预测的QL-1的“quality_id”的图片。可以将具有大于0的“quality_id”的编码片段编码为可截位FGS片段或者非可截位MGS片段。
简言之,一个访问单元中具有相同的“dependency_id”值的所有数据单元(例如SVC情境中的网络抽象层单元或者NAL单元)被称为依赖性单元或者依赖性表示。在一个依赖性单元内,具有相同的“quality_id”值的所有数据单元被称为质量单元或者层表示。
基本表示(也被称为已解码基本图片)是通过对具有等于0的“quality_id”并且其“store_ref_base_pic_flag”被设置为等于1的依赖性单元的视频编码层(VCL)NAL单元解码而得到的已解码图片。增强表示(也被称为已解码图片)是根据规则的解码过程得到的,其中被呈现用于最高依赖性表示的所有层表示都被解码。
如早先所提及的,CGS包括空间可缩放性和SNR可缩放性二者。空间可缩放性初始被设计成支持具有不同分辨率的视频的表示。对于每个时间实例,VCL NAL单元在相同的访问单元中被编码并且这些VCL NAL单元可以对应于不同的分辨率。在解码期间,低分辨率的VCL NAL单元提供可以可选地通过高分辨率图片的最终解码和重构来继承的运动域和残差。在与旧的视频压缩标准相比较时,可以将SVC的空间可缩放性总结为使得基本层能够成为增强层的剪裁的且缩放的版本。
类似于FGS质量层,MGS质量层用“quality_id”来表示。对于每个依赖性单元(具有相同的“denpendency_id”),存在具有等于0的“quality_id”的层并且可以存在具有大于0的“quality_id”的其他层。具有大于0的“quality_id”的这些层是MGS层或者FGS层,这取决于片段是否被编码为可截位片段。
在基本形式的FGS增强层中,仅使用层间预测。因此,FGS增强层可以被自由地截位而不造成已解码序列中的任何错误的传播。然而,基本形式的FGS遭受低的压缩效率。这一问题仅由于低质量的图片用于帧间预测参考而出现。因此提出,将FGS增强的图片用作帧间预测参考。然而,这可能在一些FGS数据被丢弃时造成编码解码失配(也被称为漂移)。
草案SVC标准的一个特征在于,FGS NAL单元可以被自由地丢弃或者截位,并且SVCV标准的特征在于,MGS NAL单元可以被自由地丢弃(但是不能被截位)而不影响比特流的一致性。如以上所讨论的,当这些FGS数据或者MGS数据已经在编码期间用于帧间预测参考时,数据的丢弃或者截位会产生解码器侧或者编码器侧的已解码图片之间的失配。这一失配也被称为漂移。
为了控制由于FGS数据或者MGS数据的丢弃或者截位而产生的漂移,SVC应用以下解决方案:在某个依赖性单元中,基本表示(通过仅解码具有等于0的“quality_id”的CGS图片以及所有的依赖低层数据)被存储在已解码图片缓冲器中。当解码具有相同的“dependency_id”值的随后的依赖性单元时,所有的NAL单元(包括FGS NAL单元或者MGS NAL单元)使用基本表示用于帧间预测参考。因此,由于较早的访问单元中的FGS NAL单元或者MGS NAL单元的丢弃或者截位而产生的所有漂移在这一访问单元处被停止。对于具有相同的“dependency_id”值的其他依赖性单元,所有的NAL单元使用已解码图片用于帧间预测参考,以得到高的编码效率。
每个NAL单元在NAL单元首部中包括句法元素“use_ref_base_pic_flag”。当这一元素的值等于1时,NAL单元的解码在帧间预测过程期间使用参考图片的基本表示。句法元素“store_ref_base_pic_flag”规定是(在等于1时)否(在等于0时)存储当前图片的基本表示以用于将未来的图片用于帧间预测。
具有大于0的“quality_id”的NAL单元不包含与参考图片列表构造和加权预测相关的句法元素,即句法元素“num_ref_active_1x_minus1”(x=0或者1),参考图片列表对句法表格重新排序,并且不存在加权的预测句法表格。因此,MGS层或者FGS层必须根据需要从相同的依赖性单元的具有等于0的“quality_id”的NAL单元继承这些句法元素。
在SVC中,参考图片列表包括仅基本表示(当“user_ref_base_pic_flag”等于1时)或者未被标记为“基本表示”的仅已解码图片(当“user_ref_base_pic_flag”等于0时),但是从来不同时包括这二者。
其他类型的可缩放性和可缩放视频编码包括:比特深度可缩放性,其中基本层图片每亮度和/或色度样本比增强层图片(例如10或者12比特)以较低的比特深度被编码(例如8比特);色度格式可缩放性,其中基本层图片提供比增强层图片(例如4:2:0格式)更高的保真度和/或色度的更高的空间分辨率(例如以4:4:4色度格式被编码);以及色域可缩放性,其中增强层图片具有比基本层图片更丰富/更宽的颜色表示范围——例如增强层可以具有UHDTV(ITU-RBT.2020)色域并且基本层可以具有ITU-R BT.709色域。
在多视图视频编码中,多于一个的视图可以被编码,在已编码比特流中被表示,并且从比特流中被解码。视图例如可以对应于多视图相机设置中的相机。
H.264/AVC包括多视图编码扩展MVC。在MVC中,帧间预测和视图间预测使用相似的运动补偿预测过程。视图间参考图片(以及视图间仅参考图片,其不用于时间运动补偿预测)被包括在参考图片列表中并且在相同的限制下类似于传统的(“视图内”)参考图片被处理。存在用以规定到HEVC的多视图扩展的正在进行的标准化活动,其被称为MV-HEVC,其在功能上类似于MVC。
存在用于深度增强视频编码的正在进行的标准化活动,其中对纹理视图和深度视图二者编码。
纹理视图是指表示普通的视频内容的视图,例如使用普通的相机来捕获,并且通常适合用于在显示器上渲染。纹理视图通常包括具有三个分量(一个亮度分量和两个色度分量)的图片。下面,纹理图片通常包括所有其组成图片或者颜色分量,除非例如使用术语“亮度纹理图片”和“色度纹理图片”指出。
用于特定视图表示的排列信息表示距离相机传感器的纹理样本的距离信息、纹理样本与另一视图中的相应的纹理样本之间的不一致或视差信息、或者类似的信息。真实世界3D场景的排列信息取决于内容并且例如可以从0到无限大变化。可以利用这样的排列信息的不同类型的表示。深度视图是指表示来自相机传感器的纹理样本的排列信息、纹理样本与另一视图中的相应的纹理样本之间的不一致或视差信息、或者类似的信息的视图。类似于纹理视图的亮度分量,深度视图可以包括具有一个分量的深度图片(a.k.a深度图)。深度图示具有每像素深度信息等的图像。例如,深度图中的每个样本表示一个或多个相应的纹理样本距离相机位于其上的平面的距离。换言之,如果z轴沿着相机的拍摄轴(并且因此正交于相机位于其上的平面),则深度图中的样本表示z轴上的值。
深度增强视频是指具有与具有一个或多个深度视图的深度视频关联的一个或多个视图的纹理视频。大量方法可以用于表示深度增强视频,包括视频加深度(V+D)、多视图视频加深度(MVD)和分层深度视频(LDV)的使用。在视频加深度(V+D)表示中,单个纹理视图以及相应的深度视图分别被表示为纹理图片和深度图片的序列。MVD表示包含大量纹理视图和相应的深度视图。在LDV表示中,中央视图的纹理和深度以传统方式被表示,而其他视图的纹理和深度被部分表示并且仅覆盖需要用于中间视图的正确的视图合成的打开的区域。
在被称为未配对多视图视频加深度(MVD)的方案中,可以有不等数目的纹理视图和深度视图,和/或其中一些纹理视图可能没有共同定位的深度视图,和/或其中一些深度视图可能没有共同定位的纹理视图,其中一些深度视图分量可能暂时与纹理视图分量不一致,反之亦然,共同定位的纹理视图和深度视图可能覆盖不同的空间区域,和/或可以存在多于一个类型的深度视图分量。可以通过深度增强视频编码、解码和/或处理方案来促进未配对的MVD信号的编码、解码和/或处理。
可以将纹理视图分量定义为单个访问单元中的视图的纹理的编码表示。可以按照与单视图纹理比特流或者多视图纹理比特流兼容的方式来对深度增强视频比特流中的纹理视图分量编码,使得单视图或者多视图解码器即使在其不具有解码深度视图的能力的情况下仍然能够对纹理视图解码。例如,H.264/AVC解码器可以对来自深度增强的H.264/AVC比特流的单个纹理视图解码。备选地,可以按照如下方式对纹理视图分量解码:其中能够解码单视图或者多视图纹理的解码器(诸如H.264/AVC或者MVC解码器)由于使用基于深度的编码工具而不能够解码例如纹理视图分量。可以将深度视图分量定义为单个访问单元中的视图的深度的编码表示。可以将视图分量对定义为相同的访问单元内的相同的视图的纹理视图分量和深度视图分量。
可以按照如下方式来对深度增强视频编码:其中彼此独立地对纹理和深度编码。例如,可以将纹理视图编码为一个MVC比特流,而可以将深度视图编码为另一MVC比特流。还可以按照如下方式来对深度增强视频编码:其中对纹理和深度联合编码。在对纹理视图和深度视图的一种形式的联合编码中,根据深度图片的一些解码样本或者在深度图片的解码过程中获得的数据元素来预测或者取得纹理图片的一些解码样本或者用于解码纹理图片的数据元素。备选地或者另外地,根据纹理图片的一些解码样本或者在纹理图片的解码过程中获得的数据元素来预测或者取得深度图片的一些解码样本或者用于解码深度图片的数据元素。在另一选项中,没有根据彼此来预测纹理的已编码视频数据和深度的已编码视频数据,或者没有基于其中一个来对另一个编码/解码,但是可以将已编码的纹理视图和深度视图复用成编码中的相同的比特流并且根据解码中的比特流来对其解复用。在另一选项中,虽然没有根据例如下面的片段层中的深度的已编码视频数据来预测纹理的已编码视频数据,然而可以彼此共享或者预测纹理视图和深度视图的高水平编码结构中的一些结构。例如,可以根据已编码纹理片段的片段首部来预测已编码深度片段的片段首部。另外,可以由已编码纹理视图和已编码深度视图二者来使用其中一些参数集合。
深度增强视频格式使得能够在相机位置处生成没有用任何编码视图表示的虚拟视图或者图片。通常,基于深度图像的渲染(DIBR)算法可以用于合成视图。
下面,描述采用分量间冗余并且可以在本发明各种实施例中或者与本发明的各种实施例一起使用的一些示例编码和解码方法。需要理解,这些编码和解码方法作为示例被给出,本发明的实施例可以使用其他类似的编码方法和/或利用分量间冗余或者依赖性的其他编码方法来应用。
在被称为联合多视图视频加深度编码(JMVDC)的编码工具中,开发多视图纹理视频与关联的深度视图序列之间的关联关系。虽然像素值在纹理视频与其深度图序列之间十分不同,然而对象在纹理视频中的轮廓和移动以及关联的深度图序列通常相似。JMVDC方案可以通过MVC和SVC编码方案的组合或者任何其他类似的编码方案(包括类似于MVC的视图间预测以及类似于SVC的层间运动预测)来实现。具体地,可以通过向MVC中的预测结构中嵌入SVC的层间运动预测机制来实现JMVDC。可以将每个视图编码为和/或视为双层表示,其中纹理驻留在基本层中并且深度驻留在增强层中,可以使用SVC的粗粒度可缩放性(CGS)来对其编码,其中仅允许层间运动预测。另外,在非基本视图的基本层(纹理)和增强层(深度)二者中实现视图间预测。虽然可以将JMVDC的层间运动预测应用于用于基本层的任何视图间预测结构,然而可以按照使得视图间预测仅出现在IDR和锚点访问单元处的方式来实现编码器和解码器,因为其可以提供复杂性与压缩效率之间的合理的折中并且缓和了JMVDC的实现努力。下面,在仅在IDR/锚点访问单元中允许视图间预测而在非IDR/非锚点访问单元中不允许视图间预测的情况下,针对IDR/锚点和非锚点访问单元描述JMVDC方案。
对于IDR和锚点图片,可以如下应用JMVDC方案。视图间预测中所使用的运动矢量被称为视差矢量。多视图纹理视频的视差矢量被用作用于在层间运动预测过程中得到多视图深度图的视差矢量的预测参考。在示例编码方案中,这一预测机制被称为层间视差预测。对于JMVDC中的非IDR/非锚点图片的编码,可以使用来自相应的纹理运动矢量的层间运动预测过程来预测用于帧间预测的深度运动矢量。
用于增强层宏块的模式判决过程对于锚点图片和非锚点图片二者可以是相同的。可以向模式判决过程添加基本模式,并且可以选择基本层中的共同定位的宏块的运动/视差矢量作为用于每个增强层宏块的运动/视差矢量预测符。
还可以在其中深度视图被视为基本层并且相应的纹理视图被视为增强层的布置中使用JMVDC工具,并且可以如以上描述的那样进行编码和解码。
被称为视图内部运动预测(IVMP)的编码工具可以如下操作。在IVMP模式下,运动信息(例如包括纹理视图分量中的共同定位的块(例如共同定位的宏块)的模式信息(例如mb_type和sub_mb_type)、参考索引和运动矢量)可以由相同的视图的深度视图分量重用。可以关于块是否使用IVMP模式进行信号传输。例如,可以在每个宏块或者宏块划分中信号传输标记以指示其是否使用IVMP模式。如果深度视图分量的空间分辨率不同于纹理视图分量的空间分辨率,则当深度视图分量的运动矢量被用作纹理视图分量的共同定位的块或者宏块的运动矢量时,可以与纹理视图分量的空间分辨率和深度视图分量的空间分辨率之间的比率成比例地对深度视图分量的运动矢量进行缩放。
在对用于深度增强视频的纹理和深度联合编码的情况下,可以在编解码器的循环中使用视图合成,从而提供视图合成预测(VSP)。在VSP中,使用DIBR或者视图合成算法、利用纹理和深度信息来形成预测信号,诸如VSP参考图片。例如,可以按照与处理视图间参考图片和视图间仅参考图片类似的方式来在参考图片列表中引入已合成图片(即VSP参考图片)。备选地或者另外地,用于某些预测块的特定VSP预测模式可以由编码器来确定,由编码器在比特流中指示,并且如由解码器从比特流中得出来被使用。
在MVC中,帧间预测和视图间预测二者使用类似的运动补偿预测过程。例如,视图间参考图片和视图间仅参考图片本质上被视作不同的预测过程中的长期参考图片。类似地,可以按照与其使用与帧间预测和视图间预测本质上相同的运动补偿预测过程相同的方式来实现视图合成预测。为了区别于仅在单个视图内发生而没有任何VSP的运动补偿预测,包括并且能够灵活地选择混合帧间预测、帧间预测和/或视图合成预测的运动补偿预测在本文中被称为混合方向运动补偿预测。
由于可缩放、多视图和深度增强的视图编码及其任意组合中的参考图片列表可以包含多于一个的类型的参考图片,例如帧间参考图片、视图间参考图片和VSP参考图片,所以可以将术语预测方向定义为例如指示视图内参考图片(时间预测)、视图间预测或者VSP的使用。例如,编码器可以选择指向视图间参考图片的参考索引用于特定块,块的预测方向因此是视图间。在一些情况下,可以认为视图间和VSP是相同的预测方向,因为这二者使用来自其他视图的信息作为参考。
还可以将VSP参考图片称为语义参考分量,其可以被定义为包含可以用于视图合成预测的样本。可以使用语义参考分量作为用于视图合成预测的参考图片,但是通常不被输出或者显示。假定与用于被编码或者解码的图片相同的相机参数,可以针对相同的相机位置生成视图合成图片。
可以按照与处理视图间参考图片类似的方式来在参考图片列表中引入视图合成图片。在视图合成预测的情况下,使用参考图片列表的信号传输和操作可以保持与在H.264/AVC或者HEVC中规定的那些相同或者相似。
可以在初始参考图片列表List0和List1中例如在时间和视图间参考帧之后包括源自VSP的已合成图片。然而,可以扩展参考图片列表修改句法(即RPLR命令)以支持VSP参考图片,因此编码器可以按照任何顺序对参考图片列表排序,使用比特流中的RPLR命令指示最终顺序,以使得解码器重构具有相同的最终顺序的参考图片列表。
用于根据视图合成参考图片来预测的过程(诸如运动信息推导)可以保持与规定用于H.264/AVC或者HEVC的帧间、层间和视图间预测的过程相同或者相似。备选地或者另外地,可以由编码器在比特流中规定和信号传输用于视图合成预测的特定编码模式。换言之,VSP可以备选地或者另外地在一些编码和解码布置中用作与帧内、帧间、视图间和其他编码模式独立的模式。例如,在VSP跳跃/直接模式中,还可以省略运动矢量差异(解)编码以及例如使用基于变换的编码的残差预测误差的(解)编码。例如,如果可以在比特流内将宏块指示为要使用跳跃/直接模式来编码,则还可以在比特流内指示VSP帧是否被用作参考。备选地或者另外地,视图合成参考块(而非或者除了完整视图合成参考图片)可以由编码器和/或解码器来生成,并且被用作用于各种预测过程的预测参考。
为了实现用于对当前纹理视图分量编码的视图合成预测,可以使用相同的访问单元的先前编码的纹理视图分量和深度视图分量用于视图合成。可以将使用相同的访问单元的先前编码的纹理视图分量和深度视图分量的视图合成称为前向视图合成或者向前投影的视图合成,并且类似地,可以将使用这样的视图合成的视图合成预测称为前向视图合成预测或者向前投影的视图合成预测。
前向视图合成过程可以包括两个概念性步骤:前向扭曲(warp)和孔填充。在前向扭曲中,将参考图片的每个像素映射到已合成图像。当将来自参考帧的多个像素映射到已合成视图中的相同样本位置时,可以在映射竞争中选择与较大的深度值关联(更接近相机)的像素。在扭曲所有像素之后,可以留下不具有从参考帧映射的样本值的一些孔像素,并且可以例如使用基于线的方向孔填充(其中“孔”被定义为两个非孔像素之间的水平线中的连续的孔像素)来填充这些孔像素。可以使用具有较小的深度样本值(距离相机较远)的两个相邻的非孔像素之一来填充孔像素。
在被称为后向视图合成或者向后投影视图合成的方案中,在视图合成过程中使用与已合成视图共同定位的深度图。可以将使用这样的后向视图合成的视图合成预测称为后向视图合成预测或者向后投影视图合成预测或者B-VSP。为了实现用于对当前纹理视图分量编码的后向视图合成预测,要求当前已编码/已解码的纹理视图分量的深度视图分量可用。换言之,当深度视图分量的编码/解码顺序超过相应的纹理视图分量的编码/解码顺序时,可以在纹理视图分量的编码/解码中使用后向视图合成预测。
通过B-VSP,可以不根据已合成VSP帧而直接根据基本或者参考视图的纹理像素来预测依赖性视图的纹理像素。可以根据依赖性视图的深度图数据(即对应于当前正被解码/编码的纹理视图分量的深度视图分量)产生用于这一过程所需要的位移矢量。
下面可以参考图6解释B-VSP的概念。假定使用下面的编码顺序:(T0,D0,D1,T1)。纹理分量T0是基本视图,T1是使用B-VSp作为一个预测工具被编码/被解码的依赖性视图。深度图分量D0和D1分别是与T0和T1关联的相应的深度图。在依赖性视图T1中,可以根据包括基本视图T0的样本值的参考区域R(Cb)预测当前编码块Cb的样本值。可以求得已编码样本与参考样本之间的位移矢量(运动矢量)作为来自与当前编码的纹理样本关联的深度图值的T1和T0之间的视差。
如以上所描述的,很多混合视频编解码器(包括H.264/AVC和HEVC)分两个阶段对视频信息编码。在第一阶段,应用预测编码例如作为所谓的样本预测或者作为所谓的句法预测。在样本预测中,预测某个图片区域或者“块”中的像素或者样本值。可以使用例如以下方式中的一个或多个方式预测这些像素或者样本值:
-运动补偿机制(其还可以被称为时间预测或者运动补偿时间预测),其包括寻找和指示紧密对应于被编码的块的先前编码的视频帧之一中的区域。
-视图间预测,其包括寻找和指示紧密对应于被编码的块的先前编码的视图分量之一中的区域。
-视图合成预测,其包括合成其中基于已重构/已解码排列信息得到预测块的预测块或者图像区域。
-使用已重构/已解码样本的层间预测,诸如所谓的IntraBL(基本层)模式的SVC。
-层间残差预测。
-帧内预测,其中可以通过包括寻找和指示空间区域关系的空间机制来预测像素或者样本值。
在句法预测(其还可以被称为参数预测)中,根据早先(解)编码的句法元素和/或早先得到的变量预测句法元素和/或根据句法元素得到的句法元素值和/或变量。下面给出句法预测的非限制性示例:
-在运动矢量预测中,可以与块特定的预测运动矢量不同地对例如用于帧间和/或视图间预测的运动矢量编码。在很多视频编解码器中,按照预定义的方式(例如通过计算相邻块的已编码或者已解码运动矢量的中间矢量)创建预测运动矢量。创建运动矢量预测的另一方式(有时被称为先进运动矢量预测(AMVP))是根据时间参考图片中的相邻块和/或共同定位的块来生成候选预测的列表并且信号传输所选择的候选作为运动矢量预测。除了预测运动矢量值,还可以预测先前已编码/已解码图片的参考索引。通常根据时间参考图片中的相邻块和/或共同定位的块来预测参考索引。通常跨片段边界停用对运动矢量的差异编码。
-可以预测例如从CTU到CU并且直到PU的块划分。
-在滤波器参数预测中,可以预测例如用于样本自适应偏移的滤波参数。
另外,对不同类型的预测分类的补充方式是考虑预测跨哪些域或者可缩放性类型。这一分类可以产生以下类型的预测中的一个或多个预测,其有时还可以被称为预测方向:
-来自通常相同的可缩放性层、视图和分量类型(纹理或者深度)的更早图片的例如样本值或者运动矢量的时间预测。
-涉及在通常相同的时刻或者访问单元以及相同的分量类型的视图分量之间进行的预测的视图间预测(其还可以被称为跨视图预测)。
-涉及在通常相同时刻、相同分量类型以及相同视图的层之间进行的预测的层间预测。
-可以将分量间预测定义为包括对从一种类型的分量图片到另一类型的分量图片的解码过程中所使用的句法元素值、样本值、变量值等的预测。例如,分量间预测可以包括来自深度视图分量的纹理视图分量的预测,反之亦然。
图7示出在每一个视图分量有两个依赖性表示(深度和纹理/样本二者)的情况下的访问单元的示例(即一个时刻的已编码数据)。应当注意,已编码视图的数目可以是一个或多个,并且用于样本或者纹理图片的层或者依赖性表示的数目可以是一个或多个。在图7的示例中,仅出于说明的目的,视图的数目是两个,并且用于样本图片的层的数目是两个。正方形图示视图0,圆形图示视图1。图7的底部的正方形和圆形表示基本层,基本层的正方形和圆形上面的正方形和圆形表示第一增强层。
在图7中,增强纹理/样本依赖性表示使用空间可缩放性并且可以使用来自基本纹理/样本依赖性表示的层间预测,诸如运动、纹理(IntraBL)和/或残差预测。基本层和增强层上的深度视图分量可以使用来自相应纹理/样本视图分量的分量间预测,诸如视图内部运动预测等。视图1上的视图分量可以使用来自视图0上的相应视图分量的视图间预测。
使用来自先前编码的图像的图像信息的预测方法还可以被称为帧间预测方法。有时可以认为帧间预测仅包括运动补偿时间预测,而有时可以认为其包括其中样本的已重构/已解码块被用作预测源的所有类型的预测,因此包括例如传统的视图间预测。可以认为帧间预测仅包括样本预测,但是可以备选地认为其包括样本预测和句法预测二者。作为句法预测和样本预测的结果,可以获得样本的预测的像素块。
很多视图编码方案中的第二阶段是对预测的像素或者样本块与原始像素或者样本块之间的误差编码。这可以通过使用规定的变换对像素或者样本值的差异进行变换来实现。这一变换可以是离散余弦变换(DCT)或者其变型。在对差异变换之后,对已变换差异进行量化和熵编码。
通过改变量化过程的保真度,编码器可以控制像素或样本表示的精度(即图片的视觉质量)与所得到的已编码视频表示的尺寸(即文件尺寸或者传输比特率)之间的平衡。
解码器通过应用与编码器所使用的相似预测机制来重构输出视频,以便使用由编码器创建的或者图像和预测误差解码的压缩表示中所存储的预测信息形成像素或者样本块的预测表示,其可以是预测误差编码的逆操作以恢复空间域中的已量化预测误差信号。在应用像素或者样本预测和误差解码过程之后,解码器组合预测和预测误差信号(像素或者样本值)以形成输出视频帧。
解码器(和编码器)还可以在传递其用于显示和/或存储作为用于视频序列中的即将到来的图片的预测参考之前应用附加滤波过程以便改善输出视频的质量。可以使用滤波减少来自参考图像的各种人为因素,诸如阻塞、循环等。在其后为添加逆变换冗余的运动补偿之后,获得已重构图片。该图片可以具有各种人为因素,诸如阻塞、循环等。为了消除人为因素,可以应用各种后处理操作。如果使用经后处理的图片作为运动补偿循环中的参考,则通常可以将后处理操作/滤波器称为循环滤波器。通过采用循环滤波器,增加了参考图片的质量。因此,可以实现更好的编码效率。
再次参考图7的示例,可以观察到,预先确定分量图片之间的类型的预测。另外,沿着预定的可缩放性标识符来选择用于预测的参考。例如,应用来自具有较低的dependency_id值(与被编码/解码的分量图片的dependency_id相比)的分量图片的层间预测。例如,图7中的右上角的分量图片(即视图1上的深度图片的空间增强)可以具有来自相应的纹理/样本图片(即视图1上的纹理图片的空间增强)或者来自基本层深度图片(即视图1上的基本层深度图片)的运动预测。
可以假定,当通过(解)编码方法实现用于相同类型的预测的多个类型的可缩放性和/或多个参考时,可以在适应性地选择预测参考时实现压缩改善。因此,需要一种用于适应性地选择和/或信号传输在多参考可缩放(解)编码方案中应用的类型的预测的机制。
下面,在任何类型的可缩放性(包括视图可缩放性和深度增强)的情境中使用术语层。增强层是指任何类型的增强,诸如SNR、空间、多视图、深度、比特深度、色度格式和/或色域增强。基本层还指代任何类型的基本操作点,诸如基本视图、用于SNR/空间可缩放性的基本层、或者用于深度增强视频编码的纹理基本视图。
在一些实施例中,增强层可以具有多于一个的参考层,例如第一参考层和第二参考层,并且增强层可以与其参考层具有不同的可缩放性关系。换言之,增强层可以是用于其第一参考层的第一可缩放性类型的增强以及用于其第二参考层的第二可缩放性类型的增强。例如,增强层可以是用于非基本视图的空间增强层,并且其可以具有例如两个参考层,例如用于相同的视图的空间基本层以及基本视图(具有与非基本视图的增强层相同的分辨率)的空间增强层。在另一示例中,增强层可以是非基本深度视图并且其可以具有例如两个参考层,例如相同的视角的纹理视图以及基本深度视图。
在一些实施例中,编码器可以选择使用来自增强层的多于一个的参考层的第一类型的层间预测,其中增强层可以与所述多于一个的参考层具有不同的可缩放性关系。例如,编码器可以应用来自空间基本层图片以及来自另一视图的视图分量的样本预测(例如类似于通过向一个或多个参考图片列表中包括层间参考图片的帧间预测)。另外,编码器可以选择关闭来自所述多于一个的参考层的子集的第二类型的层间预测。例如,编码器可以应用来自空间基本层图片而非来自另一视图的视图分量的运动信息预测。编码器可以在比特流中指示哪些类型的层间预测可用或者可以在增强层与某些指示的一个或多个参考层之间应用哪些类型的层间预测,和/或编码器可以在比特流中指示在增强层与某些指示的一个或多个参考层之间未使用哪些类型的层间预测。解码器可以解码来自比特流的所述指示并且按照下面进一步描述的一个或多个方式来适配其解码操作。
下面,可以将分量图片定义为具有不同于相同的访问单元或者相同的时刻的其他分量图片的某些可缩放性尺寸或者标识符值的已编码图片。换言之,可以按照如下方式来规定分量图片:该方式使得分量图片的至少可缩放性尺寸标识符的值不同于相同的时间和/或相同的访问单元的另一分量图片的相同的可缩放性尺寸标识符的值。可以将分量图片当作用于依赖性表示、层表示、纹理视图分量、深度视图分量、深度图等的统称术语。访问单元可以包括相对较大数目的分量图片,诸如已编码纹理和深度视图分量以及依赖性和层表示。可以将已解码分量图片定义为分量图片的已解码表示。在单循环解码中,可以仅解码比特流中存在的目标层或者最高层处的分量图片。在多循环解码中,可以解码每层的分量图片并且将其从解码器输出。例如,已解码的纹理视图分量可以是已解码的分量图片。
根据一方面,该需求通过图8所示的方法来解决,其中编码器在比特流中指示用于增强层的参考层(850)。可以将指示包括在例如视频参数集合中。另外,可以将编码器布置成在比特流中指示可以从参考层到增强层被应用的至少一种类型的预测,其中该至少一种类型的预测是可用于层之间的预测的所有预测类型的子集(852)。备选地,或者除了被应用或者可能被应用的至少一种类型的预测的指示之外,还可以将编码器布置成指示从参考层到增强层不应用哪些类型的预测。
因此,编码器可以将编码过程适配成从参考层到增强层仅使用所指示类型的预测。
根据一种实施例,可以使标记关联用于参考层与增强层的组合,并且标记用于指示从参考层到增强层是否可以使用特定预测类型以用于预测或者该特定预测类型是否从参考层到增强层不被用于预测。例如,一个或多个标记(每个用于不同的预测类型)可以被包括用于视频参数集合中的每个增强层的每个所指示的参考层。
当示例实施例时,可以使用下面的描述符规定每个句法元素的解析过程。
-b(8):具有任何模式的比特串的字节(8比特)。
-se(v):具有左侧第一比特的有符号整数Exp-Golomb编码的句法元素。
-u(n):使用n个比特的无符号整数。当n是句法表格中的“v”时,比特的数目按照取决于其他句法元素的值的方式来变化。用于这一描述符的解析过程由来自被解释为具有首先写入的最高有效位的无符号整数的二进制表示的比特流的n个下一比特来规定。
-ue(v):具有左侧第一比特的无符号整数Exp-Golomb编码的句法元素。
可以使用例如下面的表2来将Exp-Golomb比特串变换成代码编号(codeNum):
比特串 codeNum
1 0
010 1
011 2
00100 3
00101 4
00110 5
00111 6
0001000 7
0001001 8
0001010 9
…… ……
表2
可以使用例如下面的表3来将对应于Exp-Golomb比特串的代码编号变换成se(v):
codeNum 句法元素值
0 0
1 1
2 -1
3 2
4 -2
5 3
6 -3
…… ……
表3
在描述示例实施例时,可以如下规定句法结构、句法元素的语义以及解码过程。可以用黑体(bold)类型来表示比特流中的句法元素。每个句法元素使用其名称(具有下划线字符的所有小写字母)来描述,可选地用其一个或两个句法种类来描述,并且使用用于其编码表示方法的一个或两个描述符来描述。解码过程根据句法元素的值并且根据先前解码的句法元素的值来进行。当在句法表格或者文本中使用句法元素的值时,其以常规(即非黑体)类型出现。在一些情况下,句法表格可以使用根据句法元素值得到的其他变量的值。这样的变量出现在句法表格或者文本中,用小写和大写字母的混合来命名并且没有任何下划线字符。得到以大写字母开始的变量用于对当前句法结构以及所有的附属句法结构解码。可以在用于后面的句法结构的解码过程中使用以大写字母开始的变量而不涉及变量的始发句法结构。可以仅在其中得到它们的情境中来使用以小写字母开始的变量。在一些情况下,与其数值可互换地使用用于句法元素值或者变量值的“记忆性”名称。有时,使用“记忆性”名称而没有任何关联的数值。文本中规定了值与名称的关联。根据通过下划线字符分开的一个或多个字母组来构造名称。每组以大写字母开始并且可以包含更多的大写字母。
在描述示例实施例时,可以使用下面的内容来规定句法结构。波形括号中包括的语句组是复合语句并且在功能上被处理作为单个语句。“while”规定条件是否为真的测试,并且如果为真,则重复地规定语句(或者复合语句)的评估直到条件不再为真。“do…while”结构规定语句的评估一次,之后是条件是否为真的测试,并且如果为真,则规定语句的重复评估直到条件不再为真。“if…else”结构规定条件是否为真的测试,并且如果条件为真,则规定主要语句的评估,否则规定备选语句的评估。如果不需要任何备选的语句评估,则这一结构的“else”部分和关联的备选语句被省略。“for”结构规定初始语句的评估,之后是条件的测试,并且如果条件为真,则规定主要语句的重复评估,之后是随后的语句,直到条件不再为真。
用于HEVC的草案视频参数集合扩展句法JCTVC-K1007使得能够灵活地信号传输某个层以及某个层取决于其的层的可缩放性特性(例如depth_flag和/或view_id和/或dependency_id)。其没有规定从参考层发生哪些类型的预测。根据一种实施例,当应用于HEVC编码时,可以将指示包括在JCTVC-K1007中公开的视频参数集合中。
下面,在表4中示出具有用于所述指示的新的句法元素的视频参数集合的示例。
表4
表4中用斜体示出了新的句法元素prediction_type_mask_len和prediction_type_mask[i][j]。可以如下规定所述句法元素的语义:
prediction_type_mask_len规定句法元素prediction_type_mask[i][j]中的比特的数目。
prediction_type_mask[i][j]规定从具有等于ref_layer_id[i][j]的layer_id的分量图片到具有等于layer_id_in_nuh[i]的layer_id的分量图片使用哪些类型的依赖性或者预测。
可以根据下面的表5规定prediction_type_mask[i][j]中的预测的类型及其比特数目。比特数目0是prediction_type_mask[i][j]中的最低有效位。
表5
当不存在prediction_type_mask[i][j]时,可以推测其等于4。
可以将变量SamplePredictionFlag[i][j]设置为等于(prediction_type_mask[i][j]&1)。
可以将变量MotionInformationPredictionFlag[i][j]设置为等于((prediction_type_mask[i][j]&2)>>1)。
可以将变量SAOParameterPredictionFlag[i][j]设置为等于((prediction_type_mask[i][j]&4)>>2)。
可以将变量IntraModeInformationPredictionFlag[i][j]设置为等于((prediction_type_mask[i][j]&8)>>3)。
根据一种实施例,对于任何特定值的i,对于等于0到num_direct_layers[i]-1(包括性的)的j值,可以将SAOParameterPredictionFlag[i][j]约束为等于1最多一次。换言之,一些实施例可以约束SAO参数预测使得仅允许来自一个参考层的SAO参数的预测(或者可以如HEVC版本1中对SAO参数编码)。
技术人员意识到,以上描述的句法和语义仅描述一些非限制性实施例。应当理解,诸如下面描述的实施例等其他实施例是可能的。
根据一种实施例,指示可以另外地或者备选地驻留在另一句法结构中,诸如序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部和/或补充增强信息消息。
根据一种实施例,作为以上描述的句法和语义中的类型的预测的补充或者备选,可以将过程应用于其他类型的预测。
根据一种实施例,指示不需要是标记,而可以是某个其他类型,诸如无符号整数Exp-Golomb编码的句法元素:即ue(v)。指示可以例如使若干类型的预测的使用(或者使用的可能性)与句法元素的一个值关联。
根据一种实施例,用于某个预测类型的指示之后(在句法中)可以是预测类型可以在其间或者在其间被使用的参考层和增强层的配对的列表。备选地或者另外地,某个预测类型的指示之后(在句法中)可以是预测类型在其间不使用的参考层和增强层的配对的列表。
根据一种实施例,可以针对不同的图片类型单独提供指示,诸如用于RAP图片(随机访问图片)的指示的一个集合以及用于非RAP图片的指示的另一集合。备选地或者另外地,可以针对不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合单独提供指示。
根据一种实施例,参考层可以与使用参考层用于预测的增强层具有不同的编码格式,或者类似地,参考层可以符合不同于使用参考层用于预测的增强层所符合的编码标准的编码标准。例如,比特流或者文件可以具有符合H.264/AVC的基本层,而比特流或者文件的增强层可以符合HEVC标准的可缩放扩展。编码器可以选择这样的层之间的所指示的预测类型以仅包括参考层解码器或者解码过程输出的那些预测类型。例如,编码器可以选择所指示的预测类型以仅包括样本预测或者在一些情况下仅包括样本预测和运动信息预测。
另一方面是解码器当接收如以上描述地被编码的比特流时的操作。实施例的解码操作与编码操作相反,并且在图9中描绘解码操作。解码器从比特流中解译用于增强层的参考层(900),并且从比特流中解译从参考层到增强层所应用的至少一种类型的预测,其中该至少一种类型的预测是可用于层之间的预测的所有预测类型的子集(902)。然后,解码器仅使用来自参考层的所述至少一种类型的预测对所述增强层解码(904)。
因此,解码器适配解码过程以从参考层到增强层仅使用所解译的预测类型。
图10示出适合用于采用本发明的实施例的视频解码器的框图。视频解码器550包括用于基本视图分量的第一解码器部分552以及用于非基本视图分量的第二解码器部分554。块556图示用于向第一解码器部分552递送与基本视图分量有关的信息并且用于向第二解码器部分554递送与非基本视图分量有关的信息的解复用器。参考P'n代表图像块的预测表示。参考D'n代表已重构预测误差信号。块704、804图示初步的已重构图像(I'n)。参考R'n代表最终的已重构图像。块703、803图示逆变换(T-1)。块702、802图示逆均衡(Q-1)。块701、801图示熵解码(E-1)。块705、805图示参考帧存储器(RFM)。块706、806图示预测(P)(帧间预测或者帧内预测)。块707、807图示滤波(F)。块708、808可以用于将已解码预测误差信息与所预测的基本视图/非基本视图分量组合以获得初步的已重构图像(I'n)。初步的已重构和已滤波的基本视图图像可以是来自第一解码器部分552的输出709,并且初步的已重构和已滤波的基本视图图像可以是来自第一解码器部分554的输出809。
根据一种实施例,所指示的类型的预测可以造成编码和/或解码过程的变化。下面描述一些非限制性实施例。
根据一种实施例,如果不存在任何被指示用于样本预测的参考层或者视图,则可以使用传统的帧内预测(用于非可缩放性编码)。如果仅存在一个被指示用于样本预测的层,则在一些实施例中可以将其用作用于IntraBL或者类似的基于样本的预测模式的源。如果存在多于一个被指示用于增强层的样本预测的层,则编码器和/或解码器例如可以按照下面的方式中的一个或多个方式来执行:
-在一些实施例中,可以使用可以被编码到比特流中或者从比特流中解码的参数或者参数值来确定所指示的层中的哪个层用于样本预测。参数或者参数值可以特定于块,诸如编码单元或者预测单元。
-在一些实施例中,由编码器和/或解码器针对特定预测模式(诸如IntraBL等)选择被指示用于样本预测的层之一。选择可以是预定的,例如,可以选择第一指示层,或者其可以由编码器使用例如特定句法元素在比特流中指示并且作为句法元素的值被编码。在一些实施例中,可以将被指示为用于样本预测的源的其余层插入到一个或多个初始或者最终参考图片列表中,和/或可以执行如下描述的用于参考图片列表构造的编码和/或解码操作中的一个或多个操作。
-在一些实施例中,可以将被指示作为用于样本预测的源的所有层插入到一个或多个初始或者最终参考图片列表中,和/或可以执行如下面描述的用于参考图片列表构造的编码和/或解码操作中的一个或多个操作。
根据一种实施例,如果由编码器来指示,则可以根据另一分量图片预测运动信息。例如,可以包括来自例如另一层上的另一分量图片的参考索引和运动矢量作为运动矢量预测中的候选,诸如融合候选列表中和/或AMVP候选列表中。可以将运动域定义为包括分量图片的运动信息。如果参考分量图片具有不同于当前分量图片的空间分辨率,或者如果参考分量图片的运动域具有不同于当前分量图片的空间分辨率,则可以对参考分量图片的运动域重新采样或者将其映射成可应用于当前分量图片。
根据一种实施例,如果样本预测或者运动信息预测或者这二者被指示,则可以将所参考的分量图片包括在当前分量图片的一个或多个参考图片列表中。可以执行如下描述的使用来自多个层的分量图片对与参考图片列表的构造相关的操作编码和/或解码中的一个或多个操作。编码器可以按照如下方式选择已编码参数值:该方式使得仅用于运动信息预测的分量图片不用于样本预测。类似地,编码器可以按照如下方式选择已编码参数值:该方式使得仅用于样本预测的分量图片不用于运动信息预测。例如,如果多视图视频加深度比特流被编码,则编码器可以将纹理视图分量指示为用于深度视图分量的运动信息预测而非用于样本预测的参考。
根据一种实施例,可以通过将来自不同视图和/或不同层的参考图片包括在当前视图和/或层的一个或多个参考图片列表中来执行沿着视图间和/或层间方向的样本预测和/或运动信息预测。如果样本预测和/或运动信息预测被指示,则可以将所参考的分量图片包括在当前分量图片的一个或多个参考图片列表中。所指示的类型的预测可以在编码和/或解码过程中造成例如下面的影响中的一个或多个影响:
-可以将用于例如视图间和/或层间预测方向上的样本预测和/或运动信息预测的参考图片分类成一个或多个参考图片集合。例如,可以将用于视图间预测的参考图片分类成用于视图间预测的参考图片集合,并且分配被称为例如InterViewLtCurr的变量以包括view_id、视图顺序索引或者layer_id值的列表,例如以指示视图间参考图片。
-可以根据例如HEVC参考图片列表初始化过程通过包括用于运动补偿时间预测的参考图片来初始化参考图片列表。另外地或者备选地,可以将初始参考图片列表初始化成包含用于样本预测的其他参考图片,诸如用于样本预测的其他视图间和/或层间参考图片。根据一种实施例,可以向一个或多个参考图片列表中附上或者包括特定的参考图片集合(诸如用于视图间预测的参考图片集合,例如被表示为InterViewLtCurr)中的图片。
-编码器可以向比特流中编码和/或解码器可以从比特流中解码参考图片类别排序或者修改指令。可以将参考图片列表排序或者修改指令约束成仅涉及被推断或者被指示为要用于样本预测和/或运动信息预测的参考图片,而参考图片列表指令可以省略或者忽略其他图片。例如,参考图片列表排序或者修改指令可以包括可以从其向当前图片应用特定类型的预测的参考图片的索引。例如,可以仅索引被指示为参考样本预测和/或运动信息预测的分量图片,其中索引例如从用于样本预测和/或运动信息预测的第一指示参考图片的0开始并且分别对于用于样本预测和/或运动信息预测的每个随后的所指示的参考图片以1递增。
根据一种实施例,针对每个参考图片列表使用映射表格或者映射过程。然后,可以使用映射表格或者映射过程(而非复制另一层中的运动矢量的参考索引)得到来自另一层的运动矢量预测的参考索引。本文中,用于参考图片列表的映射表格或者映射过程可以类似于2012年12月27日提交的、通过引用被合并的美国临时专利申请61/706,727中所描述的。
根据一种实施例,如编码器所指示的,可以根据另一分量图片复制或者预测诸如CTU到CU的划分之类的划分。如果预测划分,则还可以通过指示进一步划分哪些部分和/或合并哪些部分来对其进一步细化。可以将这样的另外的细化的指示编码到比特流中或者从比特流中对其解码。
根据一种实施例,如编码器所指示的,可以根据另一分量图片复制或者预测诸如SAO参数之类的滤波参数。
根据一种实施例,可以向预测类型模板强加限制例如以确保比特流一致性。这样的限制可以是在例如编码标准中预定的和/或可以特定于编码标准或者系统的编码配置文件和/或编码标准或者系统的水平。备选地或者另外地,编码器可以对所应用的这样的限制的一个或多个指示编码。这些一个或多个指示可以驻留在例如一个或多个序列水平句法结构中,诸如序列参数集合和/或视频参数集合中。备选地或者另外地,这些一个或多个指示可以驻留在例如一个或多个比特流水平句法结构中,诸如应用于整个比特流的视频参数集合中。
所述句法结构可以驻留在视频比特流中的带内和/或可以这样被递送和/或使用例如信令协议(诸如会话描述协议(SDP))被转换成带外的另一表示格式(例如句法结构的基本64表示或者ASCII编码的关键值配对的列表)。备选地或者另外地,可以在通告比特流的属性时使用所述句法结构等,例如使用实时流送协议(RTSP)或者媒体呈现描述(MPD)或者用于例如通过HTTP的自适应流送的说明文件。备选地或者另外地,例如根据SDP Offer/Answer模型,可以在会话或者模式协商中使用所述句法结构等。
对于多个空间层/质量层的情况,可以在这些层之间使用样本预测,并且随后可能需要多个运动补偿循环以重构用于每个层的样本,这非常复杂。根据一种实施例,为了限制复杂性,可以在层之间使用句法预测,但是可以使用单个层的已重构的样本用于预测其它层。例如可以规定,根据特定编码配置文件的任何操作点不允许要求多于三个运动补偿循环,但是句法预测参考的数目有限。换言之,可以将要求公式化为以下约束:与用于输出层的样本预测的参考层的数目求和的这些输出层的数目必须小于或等于3,其中求和中的参考层不包括还作为输出层的那些层并且以递归方式包括参考层的所有参考层(用于样本定位)。
以上已经关于特定类型的参数集合描述了一些实施例。然而需要理解的是,可以使用任何类型的参数集合或者比特流中的其他句法结构来实现实施例。
以上已经关于将指示、句法元素和/或句法结构编码到比特流中或者编码到已编码视频序列中和/或从比特流或者从已编码视频序列中对指示、句法元素和/或句法结构解码描述了一些实施例。然而需要理解的是,可以在将指示、句法元素和/或句法结构编码到包括视频编码层数据(诸如已编码片段)比特流或者已编码视频序列外部的句法结构或者数据单元中和/或从包括视频编码层数据(诸如已编码片段)比特流或者已编码视频序列外部的句法结构或者数据单元中对指示、句法元素和/或句法结构解码时实现实施例。例如,在一些实施例中,可以将根据任何以上实施例的指示编码到视频参数集合或者序列参数集合中,其例如使用控制协议(诸如SDP)从已编码视频序列外部传达。继续相同的示例,接收器可以例如使用控制协议来获得视频参数集合或者序列参数集合,并且提供视频参数集合或者序列参数集合用于解码。
以上已经在比特流的句法的帮助下描述了示例实施例。然而需要理解的是,对应的结构和/或计算机程序可以驻留在用于生成比特流的编码器和/或用于解码比特流的解码器处。同样,虽然参考编码器描述了示例实施例,然而需要理解的是,所得到的比特流和解码器在其中具有对应的元素。同样,虽然参考解码器描述了示例实施例,然而需要理解的是,编码器具有用于生成要由解码器解码的比特流的结构和/或计算机程序。
以上描述的本发明的实施例在单独的编码器和解码器装置方面描述了编解码器,以便帮助理解所涉及的过程。然而应当理解的是,可以将装置、结构和操作实现为单个编码器-解码器装置/结构/操作。另外,在本发明的一些实施例中,编码器和解码器可以共享一些或者全部公共元件。
虽然以上示例描述了在电子设备内的编解码器内操作的本发明的实施例,然而应当理解的是,可以将如下面描述的本发明实现为任何适配编解码器的一部分。因此,例如,可以在可以通过固定或者有线通信路径实现适配编码的视频编解码器中来实现本发明的实施例。
因此,用户设备可以包括诸如以上在本发明的实施例中所描述的那些编解码器之类的视频编解码器。应当理解的是,术语“用户设备”意在覆盖任意合适类型的无线用户设备,诸如移动电话、便携式数据处理设备或者便携式web浏览器。
另外,陆上公用移动通信网(PLMN)的单元也可以包括如以上描述的视频编解码器。
总之,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或者其任意组合实现。例如,一些方面可以用硬件实现,而其他方面可以用可以由控制器、微处理器或者其他计算设备执行的固件或者软件来实现,然而本发明不限于此。虽然可以将本发明的各个方面图示和描述为框图、流程图,或者使用一些其他图示表示来图示和描述,然而应当理解的是,本文中所描述的这些块、装置、系统、技术或者方法(作为非限制性示例)可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或者其他计算设备、或者其某个组合来实现。
还可以用由移动设备的数据处理器可执行的计算机软件来实现本发明的实施例,诸如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。另外,在这点上,应当注意的是,附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片之类的物理介质、在处理器内实现的存储器块、诸如硬盘或软盘之类的磁性介质、以及诸如例如DVD及其数据变型、CD之类的光学介质上。
存储器可以是适合本地技术环境的任何类型并且可以使用任意合适的数据存储技术(诸如基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器)来实现。数据处理器可以是适合本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)以及基于多核处理器架构的处理器中的一个或多个(作为非限制性示例)。
本发明的实施例可以用各种部件(诸如集成电路模块)来实践。集成电路的设计大体上是高度自动化的过程。复杂且有用的软件工具可用于将逻辑水平的设计转换成准备好在半导体基底上蚀刻和形成的半导体电路设计。
诸如由Synopsys,Inc.of Mountain View,California和CadenceDesign,of San Jose,California提供的程序之类的程序自动地使用很好地建立的设计规则以及预先存储的设计模块库在半导体芯片上布线导体和定位部件。一旦完成半导体电路的设计,则可以将所得到的标准化电子格式(例如Opus、GDSII等)的设计发送至半导体制造设施或者工厂以用于制造。
以上描述已经通过示例性非限制性示例提供了对本发明的示例性实施例的完整且教育性的描述。然而,相关领域技术人员在结合附图和所附权利要求阅读时鉴于以上描述会很清楚各种修改和适配。然而,本发明的教示的所有这样的和相似的修改将仍然落入本发明的范围内。
根据第一实施例的方法包括用于对包括基本层、第一增强层和第二增强层的比特流编码的方法,所述方法还包括:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据一种实施例,替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示编码。
根据一种实施例,
所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
根据一种实施例,所述方法还包括:
将针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合的指示相关联;以及
在所述比特流中对所述指示中的一个或多个指示编码,以指示预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者预测类型的所述特定集合是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
根据一种实施例,所述方法还包括:
在下面的句法结构中的至少一个句法结构中对所述指示编码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
根据一种实施例,所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
根据一种实施例,所述方法还包括:
将用以指示多个类型的预测的可应用性的指示关联到句法元素的一个值中。
根据一种实施例,所述方法还包括:
在句法结构中对用于特定预测类型的指示编码;以及
在所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表编码。
根据一种实施例,对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示编码;以及对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示编码。
根据一种实施例,对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示编码。
根据第二实施例的装置包括:
被配置用于对包括基本层、第一增强层和第二增强层的比特流编码的视频编码器,其中所述视频编码器还被配置用于:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第三实施例,提供了一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
在比特流中对用于第二增强层的预测的基本层和第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第四实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得装置执行以下操作:
在比特流中对用于第二增强层的预测的基本层和第一增强层二者的指示编码;以及
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第五实施例的方法包括用于对包括基本层、第一增强层和第二增强层的比特流解码的方法,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据一种实施例,替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述方法还包括:
从所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示解码。
根据一种实施例,所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
根据一种实施例,所述比特流包括针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合所关联的指示;并且所述方法还包括:
从所述比特流中对所述指示中的一个或多个指示解码,以解译预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者所述特定预测类型是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
根据一种实施例,所述方法还包括:
从下面的句法结构中的至少一个句法结构中对所述指示解码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
根据一种实施例,所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
根据一种实施例,所述方法还包括:
将指明多个类型的预测的可应用性的指示解译成句法元素的一个值。
根据一种实施例,所述方法还包括:
从所述句法结构中对用于特定预测类型的指示解码;以及
从所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表解码。
根据一种实施例,对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示解码;以及对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示解码。
根据一种实施例,对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示解码。
根据第六实施例的装置包括:被配置用于对包括基本层、第一增强层和第二增强层的比特流解码的视频解码器,所述视频解码器被配置用于:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第七实施例提供了一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
从比特流中解译指明用于第二增强层的预测的基本层和第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第八实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得装置执行以下操作:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
根据第九实施例,提供了一种被配置用于对包括基本层、第一增强层和第二增强层的比特流编码的视频编码器,其中所述视频编码器还被配置用于:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
根据第十实施例,提供了一种被配置用于对包括基本层、第一增强层和第二增强层的比特流解码的视频解码器,其中所述视频解码器还被配置用于:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。

Claims (44)

1.一种方法,包括:
对包括基本层、第一增强层和第二增强层的比特流编码;
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
2.根据权利要求1所述的方法,其中替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述方法包括:
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示编码。
3.根据权利要求1或2所述的方法,其中所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
4.根据任意前述权利要求所述的方法,所述方法还包括:
将针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合的指示相关联;以及
在所述比特流中对所述指示中的一个或多个指示编码,以指示预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者预测类型的所述特定集合是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
5.根据任意前述权利要求所述的方法,所述方法还包括:
在下面的句法结构中的至少一个句法结构中对所述指示编码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
6.根据任意前述权利要求所述的方法,其中所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
7.根据任意前述权利要求所述的方法,所述方法还包括:
将用以指示多个类型的预测的可应用性的指示关联到句法元素的一个值中。
8.根据任意前述权利要求所述的方法,所述方法还包括:
在句法结构中对用于特定预测类型的指示编码;以及
在所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表编码。
9.根据任意前述权利要求所述的方法,所述方法还包括:
对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示编码;以及
对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示编码。
10.根据任意前述权利要求所述的方法,所述方法还包括:
对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示编码。
11.一种装置,包括:
至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得所述装置执行以下操作:
对包括基本层、第一增强层和第二增强层的比特流编码;
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
12.根据权利要求11所述的装置,其中替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述装置还被配置用于:
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示编码。
13.根据权利要求11或12所述的装置,其中所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
14.根据权利要求11-13中任一项所述的装置,所述装置还被配置用于:
将所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合的指示相关联;以及
在所述比特流中对所述指示中的一个或多个指示编码,以指示预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者预测类型的所述特定集合是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
15.根据权利要求11-14中任一项所述的装置,所述装置还被配置用于:
在下面的句法结构中的至少一个句法结构中对所述指示编码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
16.根据权利要求11-15中任一项所述的装置,其中所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
17.根据权利要求11-16中任一项所述的装置,所述装置还被配置用于:
将用以指示多个类型的预测的可应用性的指示关联到句法元素的一个值中。
18.根据权利要求11-17中任一项所述的装置,所述装置还被配置用于:
在句法结构中对用于特定预测类型的指示编码;以及
在所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表编码。
19.根据权利要求11-18中任一项所述的装置,所述装置还被配置用于:
对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示编码;以及
对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示编码。
20.根据权利要求11-19中任一项所述的装置,所述装置还被配置用于:
对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示编码。
21.一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
对包括基本层、第一增强层和第二增强层的比特流编码;
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
22.一种方法,包括:
对包括基本层、第一增强层和第二增强层的比特流解码,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
23.根据权利要求22所述的方法,其中替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述方法包括:
从所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示解码。
24.根据权利要求22或23所述的方法,其中所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
25.根据权利要求22-24中任一项所述的方法,其中所述比特流包括针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合所关联的指示;所述方法还包括:
从所述比特流中对所述指示中的一个或多个指示解码,以解译预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者所述特定预测类型是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
26.根据权利要求22-25中任一项所述的方法,所述方法还包括:
从下面的句法结构中的至少一个句法结构中对所述指示解码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
27.根据权利要求22-26中任一项所述的方法,其中所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
28.根据权利要求22-27中任一项所述的方法,所述方法还包括:
将指明多个类型的预测的可应用性的指示解译成句法元素的一个值。
29.根据权利要求22-28中任一项所述的方法,所述方法还包括:
从所述句法结构中对用于特定预测类型的指示解码;以及
从所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表解码。
30.根据权利要求22-29中任一项所述的方法,所述方法还包括:
对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示解码;以及
对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示解码。
31.根据权利要求22-30中任一项所述的方法,所述方法还包括:
对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示解码。
32.一种装置,包括:
至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有代码,所述代码在由所述至少一个处理器执行时使得所述装置执行以下操作:
对包括基本层、第一增强层和第二增强层的比特流解码,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
33.根据权利要求32所述的装置,其中替代从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的所述第一集合或者所述第二集合的指示,或者除所述指示之外,所述装置被配置用于:
从所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层不可应用的预测类型的至少一个集合的指示解码。
34.根据权利要求32或33所述的装置,其中所述第二增强层增强相对于所述基本层的第一可缩放性类型以及相对于所述第一增强层的第二可缩放性类型。
35.根据权利要求32-34中任一项所述的装置,其中所述比特流包括针对所述基本层和/或所述第一增强层与所述第二增强层的一个或多个组合中的每个组合所关联的指示;所述装置还被配置用于:
从所述比特流中对所述指示中的一个或多个指示解码,以解译预测类型的特定集合是否可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测或者所述特定预测类型是否不可应用于从所述基本层和/或所述第一增强层到所述第二增强层的预测。
36.根据权利要求32-35中任一项所述的装置,所述装置还被配置用于:
从下面的句法结构中的至少一个句法结构中对所述指示解码:视频参数集合、序列参数集合、图片参数集合、任何其他类型的参数集合、序列首部、图片组首部、图片首部、片段首部、和/或补充增强信息消息。
37.根据权利要求32-36中任一项所述的装置,其中所述预测类型包括以下各项中的至少一项:样本预测、运动信息预测、滤波参数预测。
38.根据权利要求32-37中任一项所述的装置,所述装置还被配置用于:
将指明多个类型的预测的可应用性的指示解译成句法元素的一个值。
39.根据权利要求32-38中任一项所述的装置,所述装置还被配置用于:
从所述句法结构中对用于特定预测类型的指示解码;以及
从所述句法结构中对所述预测类型在其间可应用的参考层和增强层的配对的列表解码。
40.根据权利要求32-39中任一项所述的装置,所述装置还被配置用于:
对诸如用于RAP图片之类的用于第一类型的图片的一个或多个指示解码;以及
对诸如用于非RAP图片之类的用于第二类型的图片的一个或多个指示解码。
41.根据权利要求32-40中任一项所述的装置,所述装置还被配置用于:
对单独用于不同类型的可缩放性、可缩放性层的不同集合、和/或时间子层的不同集合的指示解码。
42.一种计算机可读存储介质,在所述计算机可读存储介质上存储有用于由装置使用的代码,所述代码在由处理器执行时使得所述装置执行以下操作:
对包括基本层、第一增强层和第二增强层的比特流解码,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
43.一种视频编码器,被配置用于对包括基本层、第一增强层和第二增强层的比特流编码,其中所述视频编码器还被配置用于:
在所述比特流中对用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示编码;
在所述比特流中对从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示编码,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;以及
在所述比特流中对从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示编码,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集。
44.一种视频解码器,被配置用于对包括基本层、第一增强层和第二增强层的比特流解码,其中所述视频解码器还被配置用于:
对包括基本层、第一增强层和第二增强层的比特流解码,所述方法包括:
从所述比特流中解译指明用于所述第二增强层的预测的所述基本层和所述第一增强层二者的指示;
从所述比特流中解译从所述基本层到所述第二增强层可应用的预测类型的第一集合的指示,其中预测类型的所述第一集合是可用于层之间的预测的所有预测类型的子集;
从所述比特流中解译从所述基本层或者所述第一增强层到所述第二增强层可应用的预测类型的第二集合的指示,其中预测类型的所述第二集合是可用于层之间的预测的所有预测类型的子集;以及
仅使用来自所述基本层的预测类型的所述第一集合以及来自所述第一增强层的预测类型的所述第二集合来对所述第二增强层解码。
CN201380074258.XA 2013-01-04 2013-12-31 用于视频编码和解码的装置和方法 Active CN105027569B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361748938P 2013-01-04 2013-01-04
US61/748,938 2013-01-04
PCT/FI2013/051216 WO2014106685A1 (en) 2013-01-04 2013-12-31 An apparatus, a method and a computer program for video coding and decoding

Publications (2)

Publication Number Publication Date
CN105027569A true CN105027569A (zh) 2015-11-04
CN105027569B CN105027569B (zh) 2019-12-31

Family

ID=51062172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380074258.XA Active CN105027569B (zh) 2013-01-04 2013-12-31 用于视频编码和解码的装置和方法

Country Status (6)

Country Link
US (5) US9900609B2 (zh)
EP (1) EP2941877B1 (zh)
KR (1) KR101874922B1 (zh)
CN (1) CN105027569B (zh)
SG (1) SG11201505278TA (zh)
WO (1) WO2014106685A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10863170B2 (en) * 2012-04-16 2020-12-08 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding on the basis of a motion vector
US9900609B2 (en) 2013-01-04 2018-02-20 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
EP2946558B1 (en) * 2013-01-15 2020-04-29 Huawei Technologies Co., Ltd. Method for decoding an hevc video bitstream
US10194146B2 (en) * 2013-03-26 2019-01-29 Qualcomm Incorporated Device and method for scalable coding of video information
US10708588B2 (en) * 2013-06-19 2020-07-07 Apple Inc. Sample adaptive offset control
US20150016503A1 (en) * 2013-07-15 2015-01-15 Qualcomm Incorporated Tiles and wavefront processing in multi-layer context
US9794558B2 (en) * 2014-01-08 2017-10-17 Qualcomm Incorporated Support of non-HEVC base layer in HEVC multi-layer extensions
US10187657B2 (en) * 2014-03-14 2019-01-22 Samsung Electronics Co., Ltd. Method and device for configuring merge candidate list for decoding and encoding of interlayer video
GB2528039A (en) * 2014-07-01 2016-01-13 Canon Kk Method for identifying objects across time periods and corresponding device
EP3177025A4 (en) * 2014-07-31 2018-01-10 Sony Corporation Transmission apparatus, transmission method, reception apparatus and reception method
GB2538531A (en) * 2015-05-20 2016-11-23 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US20180316914A1 (en) * 2015-10-30 2018-11-01 Sony Corporation Image processing apparatus and method
US10623755B2 (en) * 2016-05-23 2020-04-14 Qualcomm Incorporated End of sequence and end of bitstream NAL units in separate file tracks
DE102017126447A1 (de) 2017-11-10 2019-05-16 CHT Germany GmbH Beschichtung von Faserprodukten mit wässrigen Polymerdispersionen
CN112438047B (zh) 2018-06-26 2022-08-09 华为技术有限公司 用于点云译码的高级语法设计
CN114424535A (zh) * 2019-09-23 2022-04-29 交互数字Vc控股法国有限公司 使用外部参考对视频编码和解码进行预测
WO2021188796A1 (en) * 2020-03-20 2021-09-23 Bytedance Inc. Use of subpicture information in video coding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014346A1 (en) * 2005-07-13 2007-01-18 Nokia Corporation Coding dependency indication in scalable video coding
US20080089411A1 (en) * 2006-10-16 2008-04-17 Nokia Corporation Multiple-hypothesis cross-layer prediction
CN101420609A (zh) * 2007-10-24 2009-04-29 深圳华为通信技术有限公司 视频编码、解码方法及视频编码器、解码器
US20120230431A1 (en) * 2011-03-10 2012-09-13 Jill Boyce Dependency parameter set for scalable video coding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100937045B1 (ko) * 2004-07-22 2010-01-15 한국전자통신연구원 Saf 동기화 계층 패킷 구조
US7564652B2 (en) * 2005-07-06 2009-07-21 Sae Magnetics (H.K.) Ltd. Head gimbal assembly including a one-piece structural suspension and an accessory plate, and method of manufacturing the same
EP1949701A1 (en) * 2005-10-11 2008-07-30 Nokia Corporation Efficient decoded picture buffer management for scalable video coding
JP2008003520A (ja) * 2006-06-26 2008-01-10 Toshiba Corp フォトマスク及び半導体装置の製造方法
EP2009160B1 (de) * 2007-06-26 2016-09-28 Groz-Beckert KG Schneidnadel mit wechselbarem messer
JP5614900B2 (ja) 2009-05-01 2014-10-29 トムソン ライセンシングThomson Licensing 3d映像符号化フォーマット
US20120243606A1 (en) 2010-09-24 2012-09-27 Nokia Corporation Methods, apparatuses and computer programs for video coding
CN103597827B (zh) 2011-06-10 2018-08-07 寰发股份有限公司 可伸缩视频编码方法及其装置
BR112013031215B8 (pt) 2011-06-10 2022-07-19 Mediatek Inc Método e aparelho de codificação escalável de vídeo
US10205961B2 (en) * 2012-04-23 2019-02-12 Qualcomm Incorporated View dependency in multi-view coding and 3D coding
US20130287093A1 (en) 2012-04-25 2013-10-31 Nokia Corporation Method and apparatus for video coding
US9900609B2 (en) 2013-01-04 2018-02-20 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014346A1 (en) * 2005-07-13 2007-01-18 Nokia Corporation Coding dependency indication in scalable video coding
US20080089411A1 (en) * 2006-10-16 2008-04-17 Nokia Corporation Multiple-hypothesis cross-layer prediction
CN101420609A (zh) * 2007-10-24 2009-04-29 深圳华为通信技术有限公司 视频编码、解码方法及视频编码器、解码器
US20120230431A1 (en) * 2011-03-10 2012-09-13 Jill Boyce Dependency parameter set for scalable video coding

Also Published As

Publication number Publication date
EP2941877B1 (en) 2020-05-27
US20180176591A1 (en) 2018-06-21
EP2941877A1 (en) 2015-11-11
US20240056595A1 (en) 2024-02-15
US9900609B2 (en) 2018-02-20
SG11201505278TA (en) 2015-08-28
US10506247B2 (en) 2019-12-10
US20200092572A1 (en) 2020-03-19
US11153592B2 (en) 2021-10-19
KR20150104143A (ko) 2015-09-14
KR101874922B1 (ko) 2018-07-05
WO2014106685A1 (en) 2014-07-10
CN105027569B (zh) 2019-12-31
US11800131B2 (en) 2023-10-24
US20140205021A1 (en) 2014-07-24
EP2941877A4 (en) 2016-07-13
US20220038733A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
US11800131B2 (en) Apparatus, a method and a computer program for video coding and decoding
KR102191846B1 (ko) 비디오 인코딩 및 디코딩
CN106464893B (zh) 用于视频编码和解码的装置、方法和计算机程序
KR102077900B1 (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
CN105556965B (zh) 用于视频编码和解码的方法、装置和计算机程序产品
CN105981387B (zh) 用于处理视频的方法、装置和计算机可读存储介质
KR101967398B1 (ko) 모션 정보를 시그널링하기 위한 구문을 수반하는 비디오 코딩을 위한 방법 및 장치
CN104205819B (zh) 用于视频编码的方法和装置
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN104604223A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN111327893B (zh) 用于视频编码和解码的装置、方法和计算机程序
CN104641642A (zh) 用于视频编码的方法和装置
CN105027567A (zh) 用于视频编码和解码的方法和装置
CN105519118A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN104813660A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN104604236A (zh) 用于视频编码的方法和装置
CN104380749A (zh) 用于视频编码的方法和装置
CN105580373A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN106664424A (zh) 参数集编码
CN107710762A (zh) 用于视频编码和解码的装置、方法、以及计算机程序
CN104813662A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN105247865A (zh) 用于视频编码和解码的方法和技术设备
CN107005715A (zh) 图像序列编码和解码的装置、方法和计算机程序
KR20220061245A (ko) 비디오 코딩 및 디코딩 장치, 방법 및 컴퓨터 프로그램
CN118251889A (zh) 用于视频编码和解码的装置、方法和计算机程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant