CN104272741A - 多视图译码和3d译码中的视图相依性 - Google Patents

多视图译码和3d译码中的视图相依性 Download PDF

Info

Publication number
CN104272741A
CN104272741A CN201380021044.6A CN201380021044A CN104272741A CN 104272741 A CN104272741 A CN 104272741A CN 201380021044 A CN201380021044 A CN 201380021044A CN 104272741 A CN104272741 A CN 104272741A
Authority
CN
China
Prior art keywords
view
prediction
layer
decoding
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380021044.6A
Other languages
English (en)
Other versions
CN104272741B (zh
Inventor
陈颖
王益魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104272741A publication Critical patent/CN104272741A/zh
Application granted granted Critical
Publication of CN104272741B publication Critical patent/CN104272741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明描述用于对视频数据块的层相依性进行译码的技术。根据这些技术,视频编码器产生与给定层相关联的层相依性。视频编码器还产生与所述层相依性中的一或多者相关联的预测类型。在一些实例中,所述视频编码器可产生用以用信号表示层相依性的第一语法元素,以及用以用信号表示与所述层相依性中的一或多者相关联的预测类型的第二语法元素。视频解码器可获得与给定层相关联的所述层相依性以及与所述层相依性中的一或多者相关联的所述预测类型。

Description

多视图译码和3D译码中的视图相依性
本申请案主张以下申请案的权益:
2012年4月23日申请的第61/637,197号美国临时专利申请案,其整个内容以引用方式并入本文。
技术领域
本发明涉及视频译码,且更特定来说涉及在视频数据预测中使用的视图相依性。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置,及其类似物。数字视频装置实施视频压缩技术,例如在由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高效视频译码(HEVC)标准所定义的标准和这些标准的扩展中所描述的技术,以更有效地发射和接收数字视频信息。
视频压缩技术执行空间预测(图片内)和/或时间预测以减少或移除视频序列中固有的冗余。针对基于块的视频译码,视频帧或切片(即,图片或图片的一部分)可分割为若干视频块,所述视频块可被称为树块、译码单元(CU)和/或译码节点。每一块可经进一步分割。图片的经帧内译码(I)帧或切片中的视频块是相对于同一图片中的相邻块中的参考样本使用空间预测来编码。图片的经帧间译码(P或B)帧或切片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用时间预测。
空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量及指示在经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据来编码。为进行进一步压缩,可将残余数据从像素域变换到变换域,从而产生接着可被量化的残余变换系数。最初以二维阵列布置的经量化变换系数可经扫描,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多的压缩。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264(也称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC的最新联合草案在“用于一般视听服务的高级视频译码”(ITU-T推荐H.264,2010年3月)中描述,其整个内容以引用方式并入本文。
另外,存在新的视频译码标准,即高效视频译码(HEVC),其由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作组(JCT-VC)开发。此外,一直在努力形成用于HEVC的可缩放视频译码、多视图视频译码和3DV扩展。对HEVC的多视图扩展,即MV-HEVC,正在由JCT-3V开发。泰克(Tech)等人的“MV-HEVC草案文本3(ISO/IEC 23008-2:201x/PDAM2)”(ITU-T SG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作组(JCT-VC),第12次会议,瑞士日内瓦,2013年1月,下文称为MV-HEVC WD 3)在2013年4月22日可从http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/3_Geneva/wg11/JCT3V-C1004-v4.zip得到,其整个内容以引用方式并入本文。对HEVC的可缩放扩展,即SHVC,也正在由JCT-VC开发。陈(Chen)等人的“SHVC草案文本1”(ITU-T SG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作组(JCT-VC),第12次会议,瑞士日内瓦,2013年1月,下文称为SHVC WD1)在2013年4月22日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1008-v1.zip得到,其整个内容以引用方式并入本文。HEVC的最近规范草案,HEVC文本规范草案10且在下文称为HEVC,其以引用方式并入本文且在2013年4月22日可从以下地方得到:
http://phenix.it-sudparis.eu/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003 -v34.zip.
发明内容
大体上,本发明描述用于对包含多个层的视频数据进行译码的技术。更特定来说,本发明描述用于执行可缩放视频译码、多视图视频译码和三维视频译码(3DVC)的技术。可缩放视频译码可大体上界定用于对多个层进行译码的视频译码技术。多视图视频译码可大体上界定用于对视频数据的多个视图进行译码的视频译码技术,而3DVC可大体上界定用于对包括多个视图分量(即,纹理分量和深度分量)的视频数据的一或多个视图进行译码的视频译码技术。每一视图是单独的视频切片或图片,但可对应于俘获到共同场景的对应视频数据的不同视角或角度。在一个时间实例中的视图的经译码表示是视图分量。在一些实例中,视图可含有纹理分量和深度视图分量。本发明的技术大体上涉及视图相依性的处置和信令以用于当前视频切片或图片的预测。更具体来说,本发明的技术涉及用信号表示与相依性切片或图片相关联的帧间预测的类型且基于用信号表示的帧间预测类型来产生参考图片集。
在一个实例中,本发明描述一种对视频数据进行解码的方法,所述方法包括:从经译码位流获得与给定层相关联的层相依性;以及从经译码位流获得与所述层相依性中的一或多者相关联的预测类型。
在另一实例中,本发明描述一种对视频数据进行编码的方法,所述方法包括:产生与给定层相关联的层相依性;以及产生与所述层相依性中的一或多者相关联的预测类型。
在另一实例中,一种用于对视频数据进行译码的设备包括经配置以进行以下操作的一或多个处理器:对与给定层相关联的层相依性进行译码;以及对与所述层相依性中的一或多者相关联的预测类型进行译码。
在另一实例中,本发明描述一种对视频数据进行译码的装置,所述装置包括:用于对与给定层相关联的层相依性进行译码的装置;以及用于对与所述层相依性中的一或多者相关联的预测类型进行译码的装置。
在另一实例中,本发明描述一种其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使用于对视频数据进行译码的设备的一或多个处理器进行以下操作:对与给定层相关联的层相依性进行译码;以及对与所述层相依性中的一或多者相关联的预测类型进行译码。
在附图和以下描述中陈述本发明的一或多个方面的细节。本发明中描述的技术的其它特征、对象和优点将从描述和附图以及从权利要求书显而易见。
附图说明
图1是说明实例性视频编码和解码系统的框图。
图2是说明实例性首先时间译码的概念图。
图3是说明实例性多视图译码时间和视图间预测结构的概念图。
图4是说明可实施本发明的技术的实例性视频编码器的框图。
图5是说明可实施本发明的技术的实例性视频解码器的框图。
图6是说明对多视图位流进行编码的实例性方法的流程图。
图7是说明对多视图位流进行解码的实例性方法的流程图。
图8是说明对多视图位流进行编码的实例性方法的流程图。
图9是说明对多视图位流进行解码的实例性方法的流程图。
具体实施方式
根据某些视频译码系统,可使用运动估计和运动补偿来减少视频序列中的时间冗余,以便实现数据压缩。在此情况下,可产生识别视频数据的预测性块(例如,来自另一视频切片或图片的块)的运动向量,其可用以预测正译码的当前视频块的值。将预测性视频块的值从当前视频块的值减去以产生残余数据块。运动信息(例如,运动向量、运动向量索引、预测方向或其它信息)连同残余数据一起从视频编码器传送到视频解码器。解码器可定位同一预测性块(基于运动向量)且通过组合残余数据与预测性块的数据来重构经编码视频块。
可缩放视频译码指其中使用一基本层和一或多个可缩放增强层的视频译码。对于可缩放视频译码,基本层通常载运具有基本质量水平的视频数据。一或多个增强层载运额外视频数据以支持较高的空间、时间和/或信噪比SNR水平(有时称为“质量”水平,如贯穿本说明书的惯例)。增强层可相对于先前经编码层来界定。即使可缩放视频译码技术引入层的概念,但所述技术仍基于切片或帧来译码。举例来说,具有最低时间层的帧或切片可形成时间基本层,其可用较高时间层处的切片或帧来增强。
在支持时间可缩放性的一些可缩放视频译码过程中,基本层可包含支持7.5Hz的重放帧速率的视频数据。视频译码过程可对支持较高重放帧速率的额外层进行译码。举例来说,视频译码过程可对支持15Hz和30Hz重放帧速率的一或多个额外层进行译码。基于层,视频译码过程可支持提取器工具,所述工具根据应用要求在帧速率方面调适实际递送的内容。所述要求可取决于客户端装置或发射信道。
在支持空间可缩放性的一些可缩放视频译码过程中,基本层可包含表示特定基本分辨率的视频数据。视频译码过程可对包含表示较高分辨率的视频数据的一或多个额外层进行译码。类似于时间可缩放性,提取器工具可基于应用要求在实际分辨率方面调整实际递送的内容。
在支持质量可缩放性的一些可缩放视频译码过程中,基本层可包含表示特定基本质量(有时称为基本SNR水平)的视频数据。视频译码过程可对包含表示较高SNR水平的视频数据的一或多个额外层进行译码。类似于时间可缩放性,提取器工具可基于应用要求在实际分辨率方面调整实际递送的内容。
最终,可缩放视频译码过程可组合地使用全部三种类型的层,通过提取必要的层且将层加在一起来产生符合应用要求的结果。
多视图视频译码是用于对视频数据的多个视图进行译码的视频译码过程。大体上,每一视图对应于包括共同场景的对应视频数据被俘获的不同视角或角度的不同视频切片或图片。举例来说,可俘获在单个时间实例处来自对应于共同场景的多个角度的视图,进而产生包括对应于单个时间实例的多个视图的视频数据。与单个时间实例相关联的所有视图可分组为“存取单元”。在多视图视频译码中,每一视图可仅包括纹理数据(即,纹理分量)。三维视频译码是用于对视频数据的多个视图进行译码的另一视频译码过程。多视图视频译码中的视频数据可仅包含用于每一视图的纹理分量,而3D视频数据可包含用于每一视图的纹理分量和深度分量两者。纹理分量可包含常规图片。深度分量可表示对应纹理分量中展示的对象的三维深度。
在一些实例中,类似于多视图视频译码技术,3DVC技术可使用每一存取单元中的多个视图(即,所述技术可提供多个视图)。在此些实例中,3DVC技术可采用多视图视频中使用的许多译码技术。举例来说,在对H.264/AVC和HEVC的3DVC扩展中,视频编码器可以与存取单元的其它视图相同的方式对深度分量进行编码。也就是说,除了用于不同视图的纹理分量之外,存取单元还可包含深度分量。术语“视图分量”可用以指代存取单元的纹理视图分量或深度视图分量。
此外,一些视频译码技术可使用基于深度图像的再现(DIBR)来基于可用的纹理和深度视图分量而产生合成纹理视图分量。合成纹理视图分量可为基于一深度图和一或多个纹理视图分量合成的纹理视图分量。在一些实例中,合成纹理视图分量可用作用于存取单元间预测或视图间预测的参考图片。用作参考图片的合成纹理视图分量可称为视图合成参考图片(VSRP)。视频译码器可在参考图片列表中包含VSRP。在一些特定设计中,视频译码器可使用多个视图分量(具有深度)来通过DIBR产生一个VSRP。
因此,在一般意义上,多视图视频数据可与3D视频数据可互换地使用。举例来说,视频编码器和解码器可将多视图视频位流的一个视图视为深度分量。在其它实例中,编码器和解码器可操作以从多视图视频位流产生深度视图分量。
在3DVC技术中,可使用不同的光极化同时地或接近同时地显示两个或两个以上视图(例如,人观看者的左眼和右眼视图),且观看者可佩戴无源极化眼镜以使得观看者的每一只眼睛接收到视图中的相应一者。或者,观看者可佩戴独立地遮挡每一只眼睛的有源眼镜,且显示器可与眼镜同步地在每一只眼睛的图像之间快速交替。
虽然每一视图(例如,左眼和右眼视图)可经个别地译码,但在3DVC中,可使用视图的深度分量从视图中的一者重构另一视图。为此原因,此形式的3DVC也可称为多视图视频译码加深度(MVC+D)。为了说明,视图的特定图片的深度分量或“深度图”(其中视图的此特定图片可称为视图的“视图分量”)可计算为左眼视图与右眼视图之间的差。编码器可将例如左眼视图编码为视图分量的所谓的“纹理分量”,且可将深度图编码为视图分量的所谓的“深度分量”。
解码器可随后对视图分量的纹理分量和视图分量的深度分量进行解码,且使用深度分量从纹理分量(表示左眼视图)重构右眼视图。通过以此方式仅对一个视图和对应深度图进行编码,与将左眼视图和右眼视图两者独立地编码为3DVC数据的单独视图相比,3DVC可更有效地对左眼和右眼视图进行编码。
如上文简要论述,某些视频译码系统可产生运动估计和补偿数据,以便减少视频序列中的冗余。此运动数据可包含对参考视频块位于其中的其它视频图片或视图的特定参考。在一些实例中,特定参考块将在同一图片中(帧内预测)。在其它实例中,特定参考块可在不同图片中(帧间预测),所述不同图片在最终输出次序上在含有当前视频块的图片之前或之后(即,与相对于当前图片在过去或未来的时间实例相关联)。在多视图视频译码和3DVC中,此概念可经延伸以包含不同视图中的预测性块。举例来说,预测性块可在和与当前图片相同的时间实例相关联的不同图片中(视图间预测)。
视图间预测通常实现为如同另一视图中的视图分量是帧间预测参考。并非使用“运动”向量用于预测,视图间预测利用“视差运动”向量,其概念上类似于运动向量但描述位移而不是运动。可能的视图间参考是在序列参数集(SPS)中用信号表示,且可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排序。
在支持可缩放视频译码的视频译码技术中,那些视频译码技术也可采用层间预测。举例来说,类似于多视图和3D视频译码,特定切片或帧的所有层(即,基本层和任何增强层)可形成类似于上文相对于多视图和3D视频译码描述的存取单元的存取单元。因此,给定特定层,另一层可为帧间预测参考。如同视图间参考,这些层间参考可在SPS中用信号表示,且可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排序。
在一般意义上,相对于本发明,纹理视图分量、深度视图分量以及各种时间、空间和质量层可视为在某种程度上可互换。举例来说,无论视频译码技术是否在解决纹理视图分量、深度视图分量或各种层中的任一者,所述技术都可执行各种分量和层之间的帧间预测。因此,本发明的技术可视为适用于一般意义上的“层”,其中层可为纹理视图分量、深度视图分量、时间可缩放层、空间可缩放层和质量可缩放层中的任一者。下文中,主要相对于视图和视图分量来描述本发明的技术。另外,在一些区域中,相对于SVC可缩放层(例如时间可缩放层、空间可缩放层和质量可缩放层)来描述本发明的技术。然而,这只是为了便于说明和理解。不应将其视为将所描述的技术限制为仅适用于视图和视图分量或一定适用于可缩放层。相反,应了解本文描述的技术较广地适用于如上文描述的术语的一般“层”。
作为帧间预测过程的部分,视频编码器在位流中用信号表示特定视图分量的参考图片集(RPS)。特定视图分量的参考图片集可包含可用于特定视图分量内的块的帧间预测的参考图片。在多视图译码和3维视频译码(3DVC)中,视频编码器可使用与特定视图分量相同的存取单元的视图分量作为参考图片来对特定视图分量进行编码。然而,在一些视频译码技术中,视频编码器不可在视图分量的参考图片集中用信号表示此些视图间参考图片。这可降低对位流进行解码的视频解码器的效率。此外,在视频编码器确实在视图分量的参考图片集中用信号表示此些视图间参考图片的一些视频译码技术中,视频编码器不可进一步用信号表示与视图间参考图片相关联的帧间预测的类型。这可因为不允许视频编码器基于与视图间参考图片相关联的帧间预测的类型选择视图间参考图片以包含在RPS中而降低译码效率。
视频数据可经组织为网络抽象层(NAL)单元,其将“网络友好的”视频表示提供到例如视频电话、存储、广播或流式传输等地址应用。举例来说,视频编码器通常将视频数据的每一图片编码为一或多个可独立解码的切片。切片可封装为NAL单元以用于在网络上发射。包含视频译码层(VCL)数据的NAL单元可包含图片的数据或图片的切片的数据。举例来说,NAL单元可包含例如经译码单元(例如帧、切片、块或序列)的经译码块模式(CBP)值、块类型、译码模式、最大块大小等语法信息,或其它信息。
每一NAL单元包含识别存储在NAL单元中的数据的类型的标头。实例多视图视频译码NAL单元标头可包含语法元素,其指示NAL单元所属于的视图的视图识别符、NAL单元是否属于可用作随机存取点(用于其它视图分量参考)的所谓的锚点图片、NAL单元是否用于其它视图中的NAL单元的视图间预测,和多种其它信息。如本文描述,锚点图片可一般对应于随机存取图片,且此些术语可以可互换地使用。也就是说,“随机存取”一般指代在除了流的开始之外的点开始用于位流的解码过程的动作。随机存取图片一般涉及仅含有经帧内译码切片(I切片)的图片。在解码次序和输出次序上均跟随随机存取图片的经译码图片不是从在解码次序或输出次序上在随机存取图片之前的图片预测。
大体上,存取单元可包含特定时间实例的所有视图分量。特定视图分量包含在特定时间实例处的特定视图的所有NAL单元。多视图视频译码NAL单元可含有单字节NAL单元标头(包含NAL单元类型)且可进一步包含多视图视频译码NAL单元标头扩展。
最终,编码器可产生且编码运动信息用于当前图片的重构。因此,编码器可产生且编码与当前图片内的每一个别视频块相关联的运动信息。由于每一视频块可独立于每一其它视频块,因此编码器可能需要以用于适当重构整个当前图片的次序来用信号表示各种不同参考图片。基于每一视频块的运动信息中包含的参考图片(其中一些可为视图),编码器可建立包括从残余数据重建当前图片所必要的图片的参考图片列表。
本发明的技术大体上涉及对与相依视图相关联的帧间预测的类型进行译码以及用于视图间预测的参考图片列表构造过程。举例来说,在最终参考图片列表中包含仅用于视图间纹理预测而不用于其它视图间预测类型(例如视图间运动预测和视图间残余预测)的参考视图可能是低效的。通过将最终参考图片列表中包含的视图识别且限制于在视图间纹理预测和至少另一类型的视图间预测两者中使用的那些视图,可以在可能的程度上增加视频译码效率。
举例来说,根据本发明的至少一些方面,所描述的视频译码技术可在序列参数集(SPS)中用信号表示相依性。对于每一视图,如果另一视图(即,和与当前图片相同的时间实例相关联的图片)用于任一种视图间预测,那么将其作为相依视图来用信号表示。然而,另一指示也可用信号表示哪一或哪些视图可用于视图间纹理预测,或等效地,哪些视图仅用于视图间运动和/或残余预测。
以下描述应在多视图视频译码技术和3D视频译码技术两者的上下文中来理解。虽然3D视频数据可包含额外信息(即,深度视图分量),但本文描述的技术一般涉及视图分量。然而,所描述的技术可进一步在深度视图分量的上下文中唯一地应用于3DVC。举例来说,编码器可进一步用信号表示参考视图可用于视图间深度预测。
图1是说明实例性视频编码和解码系统10的框图。如图1中所示,系统10包含源装置12,其经由计算机可读媒体16将经编码视频提供到目的地装置14。源装置12和目的地装置14可包括广范围装置中的任一者。本发明的技术可应用于空中电视广播、有线电视发射、卫星电视发射、因特网视频发射、经编码到存储媒体上的经编码数字视频,或其它情形。因此,计算机可读媒体16可包括适合于发射经编码视频数据的无线或有线媒体的任一组合,或例如光盘、硬驱动器或类似物等计算机可读存储媒体。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于多视图译码或三维(3D)视频译码的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如,外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成显示装置。
图1的所说明系统10仅为一个实例。用于多视图视频译码或3D视频译码的技术可由任何数字视频编码和/或解码装置执行。虽然通常本发明的技术由视频编码装置执行,但所述技术也可由通常称为“CODEC(编解码器)”的视频编码器/解码器执行。而且,也可通过视频预处理器来执行本发明的技术。源装置12和目的地装置14仅为这些译码装置的实例,其中源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如,以用于视频流式传输、视频重放、视频广播,或视频电话。
源装置12的视频源18可包含例如摄像机的视频俘获装置、含有先前俘获的视频的视频存档,和/或来自视频内容提供者的视频馈送。作为又一替代,视频源18可产生基于计算机图形的数据作为源视频,或直播视频、经存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的像机电话或视频电话。然而,如上文所提及,本发明中所述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可通过视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含:暂时性媒体,例如无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码视频数据,且(例如)经由网络发射将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘压印设施)的计算装置可从源装置12接收经编码视频数据且产生含有经编码视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20所定义的语法信息(其也由视频解码器30使用),所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
在图1的实例中,计算机可读媒体16可包括任何无线或有线通信媒体,例如射频(RF)频谱或者一或多个物理传输线,或无线和有线媒体的任一组合。计算机可读媒体16可形成例如局域网、广域网或全球网(例如,因特网)的基于包的网络的部分。计算机可读媒体16通常表示用于将视频数据从源装置12发射到目的地装置14的任何合适通信媒体或不同通信媒体的集合,包含有线或无线媒体的任一合适组合。计算机可读媒体16可包含路由器、交换器、基站,或可用以促进从源装置12到目的地装置14的通信的任何其它设备。
在图1所示的实例中,系统10还包含服务器/内容递送网络34,其可包含例如一或多个路由器36等网络元件。在一些实例中,源装置12可经由如上所述的多种无线和/或有线发射或存储媒体与服务器/内容递送网络34通信。而且,虽然图1的实例中单独地展示,但在一些实例中,源装置12和服务器/内容递送网络34包括同一装置。服务器/内容递送网络34可存储经译码视频数据的一或多个版本(来自源装置12的视频编码器20),且可使此经译码视频数据可用于由目的地装置14和视频解码器30存取。在一些实例中,路由器36可负责以所请求格式将经译码视频数据提供到目的地装置14。
虽然图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件和软件,以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,那么MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
在一些实例中,视频编码器20和视频解码器30根据视频压缩标准操作,例如ISO/IEC MPEG-4视觉和ITU-T H.264(也称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)扩展、多视图视频译码(MVC)扩展和基于MVC的3DV扩展。在一些实例中,符合基于MVC的3DV的任何合法位流总是含有顺应于MVC简档(例如,立体高简档)的子位流。此外,一直在努力形成对H.264/AVC的三维视频(3DV)译码扩展,即基于AVC的3DV。在其它实例中,视频编码器20和视频解码器30可根据ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IEC MPEG-2视觉、ITU-T H.263、ISO/IECMPEG-4视觉和ITU-T H.264、ISO/IEC视觉或即将到来的HEVC标准而操作,如本文所述。
ITU-T H.264/MPEG-4(AVC)标准由ITU-T视频译码专家组(VCEG)连同ISO/IEC动画专家组(MPEG)一起制定为被称为联合视频小组(JVT)的集体合作的产品。在一些方面中,本发明中所述的技术可应用于大体符合H.264标准的装置。H.264标准通过ITU-T研究组且在日期2005年3月描述于ITU-T推荐H.264“用于一般视听服务的高级视频译码(Advanced Video Coding for generic audiovisual services)”中,其在本文中可被称为H.264标准或H.264规范,或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4AVC的扩展。
可将视频编码器20和视频解码器30各自实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件,或其任何组合。可将视频编码器20和视频解码器30中的每一者包含于一或多个编码器或解码器中,其中任一者可集成为组合式编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的设备可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。其它设备可包含相机、计算机、移动装置、订户装置、广播装置、机顶盒、服务器或类似物。
根据下文更详细描述的本发明的实例,图1的视频解码器30可经配置以接收与给定视图相关联的视图相依性,且接收与视图相依性中的一或多者相关联的预测类型。
起初,将论述H.264/高级视频译码(AVC)标准的扩展的多视图视频译码技术。多视图视频译码的此特定实施方案在本发明中可称为“MVC/AVC”。然而,本发明的技术可适用于支持多视图译码的任何视频译码标准或技术,包含用于新兴的HEVC标准的多视图建议。如上所述,本发明的技术可进一步适用于包含3DVC能力的任何视频译码标准或技术,因为3D视频数据可包含与单个时间实例相关联的多个视图或样本,或多个视图或样本可从至少一个视图分量和一个深度分量产生。
图2中展示典型的MVC/AVC解码次序(即,位流次序)。解码次序布置称为首先时间译码。应注意,存取单元的解码次序可能不同于输出或显示次序。在图2中,S0到S7各自涉及多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存储单元可包含用于一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元可包含用于时间实例T0的所有视图S0到S7,第二存取单元可包含用于时间实例T1的所有视图S0到S7,以此类推。
如上文简要论述,本发明可使用以下定义:
视图分量:单个存取单元中的视图的经译码表示。当视图包含经译码纹理和深度表示两者时,视图分量由纹理视图分量和深度视图分量组成。
纹理视图分量:单个存取单元中的纹理的经译码表示。
深度视图分量:单个存取单元中的深度的经译码表示。
在图2中,视图中的每一者包含若干图片集合。举例来说,视图S0包含图片0、8、16、24、32、40、48、56和64的集合,视图S1包含图片1、9、17、25、33、41、49、57和65的集合,以此类推。每一集合包含两个图片:一个图片称为纹理视图分量,且另一图片称为深度视图分量。视图的图片集合内的纹理视图分量和深度视图分量可视为彼此对应。举例来说,视图的图片集合内的纹理视图分量视为对应于视图的所述图片集合内的深度视图分量,且反之亦然(即,集合中的深度视图分量对应于其纹理视图分量,且反之亦然)。如本发明中使用,对应于深度视图分量的纹理视图分量可视为作为单个存取单元的同一视图的部分的纹理视图分量和深度视图分量。
纹理视图分量包含显示的实际图像内容。举例来说,纹理视图分量可包含亮度(Y)和色度(Cb和Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,深度视图分量是仅包含亮度值的灰度级图像。换句话说,深度视图分量可不传达任何纹理图像内容,而是,深度视图分量可提供纹理视图分量中界定的不同像素的相对深度的量度。深度视图分量中的深度值可界定相应像素相对于零视差平面或可能某个其它参考的深度。
概念上,深度视图分量中的纯白像素指示对应纹理视图分量中的其对应一或多个像素从观看者的视角来看较靠近,且深度视图分量中的纯黑像素指示对应纹理视图分量中的其对应一或多个像素从观看者的视角来看较远离。黑色与白色之间的各种灰度指示不同的深度水平。举例来说,深度视图分量中的极灰像素指示纹理视图分量中的其对应像素比深度视图分量中的浅灰像素更远离。因为仅需要灰度级来识别像素的深度,所以深度视图分量无需包含色度分量,因为用于深度视图分量的颜色值无法用于任何目的。仅使用亮度值(例如,强度值)来识别深度的深度视图分量是为了说明目的提供且不应视为限制性的。
在较一般意义上,深度视图分量可包括范围从最小值到最大值的值。根据一个特定参考帧,相对于纹理视图分量中对应于深度视图分量中具有较低值的像素的像素,深度视图分量中具有最大深度值的像素可将纹理视图分量中的相应像素的深度界定为较远离观看者。因此,相对于纹理视图分量中对应于深度视图分量中具有较高值的像素的像素,深度视图分量中具有最小深度值的像素可将纹理视图分量中的相应像素的深度界定为较靠近观看者。在其它实例中,可不同地界定参考帧。举例来说,可界定参考帧以使得相对较高和较低值的意义保留。也就是说,相对较低值可对应于较远离观看者的深度,且较高值可对应于较靠近视图的深度。在其它实例中,可利用任何技术来指示纹理视图分量中的像素的相对深度。
图3中展示用于多视图视频译码的典型MVC/AVC预测结构(包含每一视图内的图片间预测和视图间预测两者)。预测方向由箭头指示,被指向的对象使用指向来自的对象作为预测参考。在MVC/AVC中,视图间预测由视差运动补偿支持,其使用H.264/AVC运动补偿的语法,但允许将不同视图中的图片用作参考图片。
图3是说明实例性MVC/AVC预测模式的概念图。在图3的实例中,说明八个视图,且针对每一视图说明十二个时间位置。大体上,图3中的每一行对应于一视图,而每一列指示时间位置。视图中的每一者可使用视图识别符(“view_id”)来识别,其可用以指示相对于其它视图的相对相机位置。在图3中所示的实例中,将视图ID指示为“S0”到“S7”,但也可使用数字视图ID。另外,时间位置中的每一者可使用图片次序计数(POC)值来识别,其指示图片的显示次序。在图3中所示的实例中,将POC值指示为“T0”到“T11”。
虽然MVC/AVC具有可由H.264/AVC解码器解码的所谓的基本视图,且立体视图对也可由MVC/AVC支持,但MVC/AVC的优点在于其可支持使用两个以上视图作为3D视频输入且对由多个视图表示的此3D视频进行解码的实例。具有MVC/AVC解码器的客户端的再现器可预期具有多个视图的3D视频内容。
图3中的图片是在每一行与每一列的交叉点处指示。H.264/AVC标准可使用术语帧来表示视频的一部分。本发明可以可互换方式使用术语图片和帧。
图3中的图片是使用包含字母的带阴影块来指示,所述字母指定对应图片是否经帧内译码(即,I帧)或者在一个方向上(即,作为P帧)或在多个方向上(即,作为B帧)经帧间译码。大体上,预测由箭头指示,其中被指向的图片使用指向来自的对象用于预测参考。举例来说,在时间位置T0处的视图S2的P帧是从在时间位置T0处的视图S0的I帧预测。图3中所示的图片中的每一者可称为视图分量。也就是说,视图的视图分量对应于视图的特定时间实例。
如同单个视图视频编码,多视图视频译码视频序列的图片可相对于在不同时间位置处的图片预测性地编码。举例来说,在时间位置T1处的视图S0的b图片具有从在时间位置T0处的视图S0的I图片指向其的箭头,指示b图片是从I图片预测。然而另外,在多视图视频编码的上下文中,图片可经视图间预测。也就是说,视图分量可使用其它视图中的视图分量用于参考。在例如MVC/AVC中,视图间预测经实现为如同另一视图中的视图分量是预测间参考。可能的视图间参考是在序列参数集(SPS)MVC/AVC扩展中用信号表示,且可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排序。视图间预测也是HEVC的建议多视图扩展的特征,包含3D-HEVC(多视图加深度)。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为从在视图S1的不同时间位置处的图片预测,以及从在相同时间位置处的视图S0和S2的图片中的图片经视图间预测。举例来说,在时间位置T1处的视图S1的b帧是从在时间位置T0和T2处的视图S1的B帧中的每一者以及在时间位置T1处的视图S0和S2的b帧预测。
在图3的实例中,大写字母“B”和小写字母“b”既定指示图片之间的不同阶层关系,而不是不同的编码方法。大体上,大写字母“B”帧在预测阶层中比小写字母“b”帧相对更高。图3还使用不同水平的阴影来说明预测阶层中的变化,其中较大量阴影(即,相对较暗)图片在预测阶层中比具有较少阴影的那些图片(即,相对较亮)更高。举例来说,图3中的所有I帧说明为具有满阴影,而P帧具有稍微较亮的阴影,且B帧(和小写字母b帧)具有相对于彼此的各种水平的阴影,但总是比P帧和I帧的阴影更亮。大体上,预测阶层涉及视图次序索引,因为在预测阶层中相对较高的图片应在对阶层中相对较低的图片进行解码之前解码,使得在阶层中相对较高的那些图片可在阶层中相对较低的图片的解码器间用作参考图片。视图次序索引是指示存取单元中的视图分量的解码次序的索引。视图次序索引可在例如SPS等参数集中暗示。
以此方式,用作参考图片的图片可在对参照参考图片编码的图片进行解码之前解码。视图次序索引是指示存取单元中的视图分量的解码次序的索引。根据MVC/AVC,针对每一视图次序索引i,用信号表示对应的view_id。视图分量的解码遵循视图次序索引的升序。如果呈现所有视图,那么视图次序索引集合包括从零到视图的全部数目减一的连续排序集合。
在一些实例中,整个位流的子集可经提取以形成仍符合MVC/AVC的子位流。存在许多可能的子位流,特定应用可能基于例如由服务器提供的服务、一或多个客户端的解码器的容量、支持和能力和/或一或多个客户端的偏好而需要所述子位流。举例来说,客户端可能仅需要三个视图,且可能存在两种情形。在一个实例中,一个客户端可需要平稳的观看体验且可能偏好具有view_id值S0、S1和S2的视图,而另一客户端可需要视图可缩放性且偏好具有view_id值S0、S2和S4的视图。这些子位流两者可经解码为独立MVC位流且可同时得到支持。
大体上,不同视图之间的相机位置、定向和几何关系可从视图ID或视图次序索引推断。为此目的,内在和外在相机参数均可使用多视图获取信息SEI消息而包含在位流中。
虽然图3展示如上所述的八个视图(S0到S7),但MVC/AVC扩展支持多达1024个视图且使用NAL单元标头中的view_id来识别NAL单元所属于的视图。根据本发明的方面,视图次序索引可作为NAL单元标头的部分而用信号表示。也就是说,为了比较的目的,视图次序索引可代替在MVC/AVC扩展的NAL单元标头中用信号表示的view_id。视图次序大体上描述存取单元中的视图的排序,且视图次序索引识别存取单元的视图次序中的特定视图。也就是说,视图次序索引描述存取单元的对应视图分量的解码次序。
在一些实例中,图3可视为说明纹理视图分量。举例来说,图2中说明的I、P、B和b图片可视为视图中的每一者的纹理视图分量。根据本发明中描述的至少一些技术,针对图3中说明的纹理视图分量中的每一者,可存在对应深度视图分量。举例来说,如上所述,本发明的技术可应用于包含并入了纹理和深度视图分量两者的3DV译码标准的视频译码标准。或者,在至少一些实例中,本发明的技术也可涉及包含多视图兼容性且仅并入纹理视图分量的译码标准。在一些实例中,深度视图分量可以与图3中针对对应纹理视图分量说明的方式类似的方式预测。
两个视图的译码也可由MVC/AVC支持。MVC/AVC的优点之一在于MVC/AVC编码器可取两个以上视图作为3D视频输入且MVC/AVC解码器可对此多视图表示进行解码。由此,具有MVC/AVC解码器的任何再现器可对具有两个以上视图的3D视频内容进行解码。
如上文论述,在MVC/AVC中,在同一存取单元(在一些实例中意味着具有同一时间实例)中的图片当中允许视图间预测。当对非基本视图中的一者中的图片进行译码时,如果图片在不同视图中但在同一时间实例内,那么可将图片添加到参考图片列表中。视图间预测参考图片可放在参考图片列表的任何位置中,恰似任何预测间参考图片。如图3所示,视图分量可使用其它视图中的视图分量用于参考。在MVC/AVC中,视图间预测经实现为如同另一视图中的视图分量是预测间参考。
视频序列通常包含一系列视频帧。图片群组(GOP)通常包括一系列一或多个视频帧。GOP可在GOP的标头、GOP的一或多个帧的标头或别处包含描述GOP中包含的帧的数目的语法数据。每一帧可包含描述用于相应帧的编码模式的帧语法数据。视频编码器20通常对个别视频帧内的视频块操作以便对视频数据进行编码。视频块可对应于块或块的分区。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。每一视频帧可包含多个切片。每一切片可包含多个块,所述块可经布置为若干分区,也称为子块。
作为实例,ITU-T H.264标准支持各种块大小的帧内预测,例如用于亮度分量的16乘16、8乘8或4乘4和用于色度分量的8x8,以及各种块大小的帧间预测,例如用于亮度分量的16x16、16x8、8x16、8x8、8x4、4x8和4x4和用于色度分量的对应缩放大小。在本发明中,“NxN”和“N乘N”可以可互换地使用以在垂直和水平尺寸方面指代块的像素尺寸,例如16x16像素或16乘16像素。大体上,16x16块将在垂直方向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样,NxN块通常在垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可以布置成行和列。而且,块不需要一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M不一定等于N。
当前一直在努力开发新视频译码标准,当前称为高效视频译码(HEVC)。新兴的HEVC标准也可称为ITU H.265标准。标准化努力是基于称为HEVC测试模型(HM)的视频译码装置的模型。HM假设视频译码装置优于根据例如ITU-T H.264/AVC的装置的若干能力。
HM将视频数据块称为译码单元(CU)。位流内的语法数据可界定最大译码单元(LCU),其为在像素数目方面的最大译码单元。大体上,CU具有与H.264的宏块类似的目的,不同的是CU不具有大小区别。因此,CU可经分裂为若干子CU。大体上,本发明中对CU的参考可指代图片的最大译码单元(LCU)或LCU的子CU。LCU可经分裂为若干子CU,且每一子CU可经分裂为若干子CU。用于位流的语法数据可界定LCU可经分裂的最大次数,称为CU深度。因此,位流也可界定最小译码单元(SCU)。本发明还使用术语“块”来指代CU、PU或TU中的任一者。
LCU可与四叉树数据结构相关联。大体上,四叉树数据结构包含每CU一个节点,其中根节点对应于LCU。如果CU经分裂为四个子CU,那么对应于CU的节点包含四个叶节点,所述叶节点中的每一者对应于子CU中的一者。四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,其指示对应于所述节点的CU是否经分裂为若干子CU。用于CU的语法元素可以递归方式界定,且可取决于CU是否经分裂为若干子CU。如果CU并不进一步分裂,那么其被称为叶CU。在本发明中,叶CU的四个子CU也将被称为叶CU,即使不存在原始叶CU的明显分裂也是如此。举例来说,如果16x16大小的CU并不进一步分裂,那么四个8x8子CU也将被称为叶CU,但16x16CU从不分裂。
CU具有与H.264的宏块类似的目的,不同的是CU不具有大小区别。举例来说,树块可经分裂为四个子代节点(也被称为子CU),且每一子代节点可又为父代节点且经分裂为另外四个子代节点。被称为四叉树的叶节点的最终的未分裂子代节点包括译码节点,所述译码节点也被称为叶CU。与经译码位流相关联的语法数据可界定可分裂树块的最大次数(其被称为最大CU深度),且也可界定译码节点的最小大小。因此,位流也可界定最小译码单元(SCU)。本发明使用术语“块”指代在HEVC的上下文中的CU、PU或TU中的任一者,或在其它标准的上下文中的类似数据结构(例如,在H.264/AVC中的宏块及其子块)。
未经分裂的CU可包含一或多个预测单元(PU)。大体上,PU表示对应CU的全部或一部分,且包含用于检索PU的参考样本的数据。举例来说,当PU经帧内模式编码时,PU可包含描述用于PU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含界定用于PU的运动向量的数据。界定运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考帧,和/或运动向量的参考列表(例如,列表0或列表1)。界定PU的用于CU的数据也可描述例如CU分割为一或多个PU。分割模式可在CU是否未经译码、经帧内预测模式编码或经帧间预测模式编码之间不同。
CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小,且形状必须为正方形。CU的大小的范围可从8x8像素直到具有最大64x64像素更大的树块的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)CU到一或多个PU的分割。分割模式可在CU是否经跳过或直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间不同。PU的形状可分割为非正方形。与CU相关联的语法数据也可描述(例如)CU根据四叉树到一或多个TU的分割。TU的形状可为正方形或非正方形(例如,矩形)。另外,TU不一定限于PU的大小。因此,TU可大于或小于同一CU的对应PU。在一些实例中,TU的最大大小可对应于对应CU的大小。
HEVC标准允许根据TU的变换,所述变换针对不同的CU可为不同的。通常基于针对经分割LCU所界定的给定CU内的PU的大小而对TU定大小,但可能并非始终如此。TU通常具有与PU相同的大小,或小于PU。在一些实例中,可使用被称为“残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本再分为若干较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生可量化的变换系数。
叶CU可包含一或多个预测单元(PU)。大体上,PU表示对应于对应CU的全部或一部分的空间区域,且可包含用于检索PU的参考样本的数据。而且,PU包含与预测相关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含于残余四叉树(RQT)中,残余四叉树可包含描述对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含界定所述PU的一或多个运动向量的数据。界定用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,和/或用于运动向量的参考图片列表(例如,列表0、列表1,或列表C)。
具有一或多个PU的叶CU也可包含一或多个变换单元(TU)。可使用RQT(也被称为TU四叉树结构)指定变换单元,如上文所论述。举例来说,分裂旗标可指示叶CU是否分裂为四个变换单元。接着,每一变换单元可进一步分裂为另外的子TU。当TU并不进一步分裂时,其可被称为叶TU。一般来说,针对帧内译码,属于一叶CU的所有叶TU共享相同帧内预测模式。也就是说,相同帧内预测模式大体应用于计算叶CU的所有TU的预测值。针对帧内译码,视频编码器20可使用帧内预测模式计算用于每一叶TU的残余值,作为在对应于TU的CU的部分与原始块之间的差。TU不一定限于PU的大小。因此,TU可大于或小于PU。针对帧内译码,PU可与用于同一CU的对应叶TU位于同一地点。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
而且,叶CU的TU也可与被称为残余四叉树(RQT)的相应四叉树数据结构相关联。也就是说,叶CU可包含指示叶CU分割为若干TU的方式的四叉树。TU四叉树的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。RQT的不分裂的TU被称为叶TU。一般来说,本发明分别使用术语CU及TU来指代叶CU及叶TU,除非另外注释。
如上所述,帧内预测包含从图片的经先前译码CU预测同一图片的当前CU的PU。更具体来说,视频编码器可使用特定帧内预测模式来帧内预测图片的当前CU。HM编码器可以多达三十三个帧内预测模式来配置。因此,为了支持方向性帧内预测模式与方向性变换之间的一对一映射,HM编码器和解码器针对每一支持的变换大小可能需要存储66个矩阵。此外,支持全部三十三个帧内预测模式的块大小可为相对大的块,例如32x32像素、64x64像素或甚至更大。
视频序列通常包含一系列图片(或可互换地,“帧”)。图片群组(GOP)通常包括一系列一或多个视频图片。GOP可在GOP的标头、图片中的一或多者的标头或别处包含描述GOP中包含的图片的数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为实例,HM支持以各种PU大小进行预测。假设特定CU的大小为2Nx2N,则HM支持以2Nx2N或NxN的PU大小进行帧内预测,及以2Nx2N、2NxN、Nx2N或NxN的对称PU大小进行帧间预测。HM也支持以2NxnU、2NxnD、nLx2N和nRx2N的PU大小进行帧间预测的非对称分割。在非对称分割中,CU的一个方向未分割,而另一方向分割为25%及75%。CU的对应于25%分割的部分是通过“n”跟随有“上”、“下”、“左”或“右”的指示来指示。因此,举例来说,“2NxnU”指代以顶部2Nx0.5N PU及底部2Nx1.5N PU水平分割的2Nx2N CU。
在本发明中,“NxN”和“N乘N”可以可互换地使用以在垂直和水平尺寸方面指代视频块的像素尺寸,例如16x16像素或16乘16像素。大体上,16x16块将在垂直方向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样,NxN块通常在垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可以布置成行和列。而且,块不需要一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M不一定等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算用于CU的TU的残余数据。残余值通常对应于块的预测数据与块的真实数据之间的差。为了进一步压缩块的残余值,可将残余值变换为将尽可能多的数据(也称为“能量”)压缩到尽可能少的系数中的变换系数的集合。变换系数对应于可与原始块大小相同的二维系数矩阵。换句话说,可存在与原始块中的像素一样多的变换系数。然而,由于变换,许多变换系数可具有等于零的值。
PU可包括描述在空间域(也被称为像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在对残余视频数据应用变换之后在变换域中的系数,所述变换例如离散余弦变换(DCT)、整数变换、小波变换,或概念上类似的变换。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU,且接着变换所述TU以产生用于CU的变换系数。
在应用任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量化通常涉及将相对大范围内的值映射到相对小范围中的值,因此减少表示经量化变换系数所需的数据量。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说,n位值可在量化期间舍入到m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列的前部,且将较低能量(且因此较高频率)系数置于阵列的后部。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数,以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应性扫描。
在扫描经量化变换系数以形成一维向量之后,视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来对所述一维向量进行熵编码。视频编码器20也可对与经编码视频数据相关联的语法元素进行熵编码,以供视频解码器30用于对视频数据进行解码。举例来说,经表示为经量化变换系数的量值和对应正负号(例如,“+1”或“-1”)的系数值可使用熵译码技术来编码。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可与(例如)符号的相邻值是否为非零相关。为了执行CAVLC,视频编码器20可针对待发射的符号选择可变长度码。可将VLC中的码字建构成使得相对较短码对应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,与(例如)针对待发射的每一符号使用相等长度的码字相比较,使用VLC可实现位节省。概率确定可基于指派给符号的上下文。
视频编码器20可(例如)在图片标头、块标头、切片标头或GOP标头中进一步将语法数据(例如,基于块的语法数据、基于图片的语法数据和基于GOP的语法数据)发送到视频解码器30。GOP语法数据可描述相应GOP中的图片的数目,且图片语法数据可指示用以对对应图片进行编码的编码/预测模式。
在一些实例中,视频编码器20可产生且视频解码器30可接收某些参数集,所述参数集可在对视频数据进行解码时使用。举例来说,参数集可含有序列层级标头信息(序列参数集(SPS)中)和不经常改变的图片层级标头信息(图片参数集(PPS)中)。借助参数集(例如,PPS和SPS),无需针对每一序列(例如,图片序列)或图片重复不经常改变的信息,因此可改善译码效率。此外,参数集的使用可实现重要标头信息的带外发射,从而避免了对用于错误恢复的冗余发射的需要。在带外发射实例中,参数集NAL单元可在与其它NAL单元不同的信道上发射,所述其它NAL单元例如为补充增强信息(SEI)NAL单元。
SEI NAL单元(称为SEI消息)可含有对于对来自VCL NAL单元的经译码图片样本进行解码并非必要但可有助于涉及解码、显示、错误恢复和其它目的的过程的信息。SEI消息可包含在非VCL NAL单元中。SEI消息可包含在一些标准规范的标准部分中,且因此对于标准顺应性解码器实施方案并不总是强制性的。SEI消息可为序列层级SEI消息或图片层级SEI消息。一些序列层级信息可包含在SEI消息中,例如SVC的实例中的可缩放性信息SEI消息和MVC中的视图可缩放性信息SEI消息。
在一些实例中,视频编码器20可对符合MVC/AVC的多视图视频位流进行编码。同样,视频解码器30可对符合MVC/AVC的多视图视频位流进行解码。MVC/AVC的最新联合草案在“用于一般视听服务的高级视频译码”(ITU-T推荐H.264,2010年3月)中描述,其全文以引用方式并入本文。
MVC/AVC NAL单元可含有包含NAL单元类型的单字节NAL单元标头,以及MVC/AVC NAL单元标头扩展,从而将NAL单元标头扩展到4字节。作为一个实例,MVC/AVC NAL单元标头扩展可包含以下表1中的语法元素:
表1-NAL单元标头扩展语法
在以上表1中,idr_flag元素可指示NAL单元是否属于可用作闭合GOP随机存取点的瞬时解码刷新(IDR)或视图IDR(V-IDR)图片。举例来说,IDR图片和在显示次序和位流次序两者中在IDR图片之后的所有图片可经适当解码,而无需对在位流次序或显示次序中的先前图片进行解码。priority_id元素可与位流调适过程一起使用,所述过程根据改变的网络条件和/或视频解码器30和/或显示装置32的能力来变化位流(例如,例如单遍调适过程)。view_id元素可用以指示NAL单元所属于的视图的视图识别符,其可在MVC/AVC解码器内使用(例如,用于视图间预测)和在解码器外使用(例如,用于再现)。在一些实例中,view_id可设定为等于预定义相机id,且可相对较大。temporal_id元素可用以指示当前NAL单元的时间层级,其可对应于特定帧速率。
anchor_pic_flag元素可用以指示NAL单元是否属于可用作开放GOP随机存取点的锚点图片。举例来说,锚点图片和在显示次序中在锚点图片之后的所有图片可经适当解码而无需对在解码次序(即,位流次序)中的先前图片进行解码,且因此可用作随机存取点。锚点图片和非锚点图片可具有不同的视图相依性,其两者可在SPS中用信号表示。也就是说,如本文描述,视图相依性可通常指代当前正译码的视图所取决于的视图。换句话说,视图相依性可陈述当前正译码的视图可从哪些视图预测。根据一些实例,视图相依性可在SPS MVC/AVC扩展中用信号表示。在此些实例中,所有视图间预测可在由SPS MVC/AVC扩展指定的范围内完成。inter_view_flag元素可用以指示NAL单元是否用于其它视图中的NAL单元的视图间预测。
为了传达用于MVC/AVC位流的基本视图的以上4字节NAL单元标头信息,可在MVC/AVC中定义前缀NAL单元。在MVC/AVC的上下文中,基本视图存取单元可包含特定视图的当前时间实例的VCL NAL单元,以及用于基本视图存取单元的前缀NAL单元,其可仅含有NAL单元标头。如果对于解码(例如,例如对单个视图进行解码)不需要前缀NAL单元,那么解码器可忽略和/或丢弃前缀NAL单元。
相对于SPS MVC/AVC扩展,MVC/AVC SPS可指示可用于视图间预测的目的的视图。举例来说,潜在的视图间参考可在SPS MVC/AVC扩展中用信号表示,且可通过参考图片列表构造过程来修改,所述过程实现帧间预测或视图间预测参考的灵活排序。在以下表2中陈述实例性MVC/AVC SPS:
表2-实例性MVC SPS
根据一些实例,视图相依性可在SPS MVC/AVC扩展中用信号表示。所有视图间预测可在由SPS MVC/AVC扩展指定的范围内完成。也就是说,SPS可陈述当前正译码的视图可参考哪些视图以用于预测的目的。在以上表2中,num_anchor_refs_l0[i]元素可指定用于列表0的初始化参考图片列表(例如,RefPicList0)中用于视图间预测的视图分量的数目。另外,anchor_ref_l0[i][j]元素可指定经初始化RefPicList0中用于视图间预测的第j视图分量的view_id。num_anchor_refs_l1[i]元素可指定用于列表1的初始化参考图片列表(例如,RefPicList1)中用于视图间预测的视图分量的数目。anchor_ref_l1[i][j]元素可指定经初始化RefPicList1中用于视图间预测的第j视图分量的view_id。num_non_anchor_refs_l0[i]元素可指定经初始化RefPicList0中用于视图间预测的视图分量的数目。non_anchor_ref_l0[i][j]元素可指定经初始化RefPicList0中用于视图间预测的第j视图分量的view_id。num_non_anchor_refs_l1[i]元素可指定经初始化RefPicList1中用于视图间预测的视图分量的数目。non_anchor_ref_l1[i][j]元素可指定经初始化RefPicList中用于视图间预测的第j视图分量的view_id。
经初始化或“初始”参考图片列表可与用于视图间预测视图分量的目的的最终参考图片列表相同或不同。也就是说,某些参考候选(即,可用于视图间预测的参考图片)可例如在参考图片列表修改过程期间从初始参考图片列表移除(例如,冗余图片)。另外,如下文更详细描述,参考候选可从初始参考图片列表重排序以形成最终参考图片列表。
在此实例中,根据MVC/AVC,锚点图片和非锚点图片的视图相依性是分开地维持和用信号表示。也就是说,视频译码器可确定总共四个参考图片列表(例如,列表0,非锚点图片;列表1,非锚点图片;列表0,锚点图片;列表1,锚点图片)。另外,如以上表2中所示,需要单独的信令来向视频解码器30指示视图相依性。也就是说,SPS必须包含用于anchor_refs和non_anchor_refs两者的单独列表0和列表1信令。
而且,根据表2,非锚点视图分量的视图间相依性是锚点视图分量的视图间相依性的子集。也就是说,举例来说,锚点视图的视图分量可从一个以上其它视图(例如视图3和4)预测。然而,非锚点视图可仅从视图3的图片(锚点视图的子集)预测。以此方式,锚点和非锚点视图分量的视图相依性可分开地维持。
另外,在表2中,num_level_values_signalled可指定针对经译码视频序列用信号表示的层级值的数目。level_idc[i]元素可指定针对经译码视频序列用信号表示的第i层级值。num_applicable_ops_minus1[i]加1元素可指定由level_idc1[i]指示的层级所应用的操作点的数目。applicable_op_temporal_id[i][j]元素可指定由level_idc[i]指示的层级所应用的第j操作点的temporal_id。applicable_op_num_target_views_minus1[i][j]元素可指定由level_idc[i]指示的层级所应用的第j操作点的目标输出视图的数目。applicable_op_target_view_id[i][j][k]元素可指定由level_idc[i]指示的层级所应用的第j操作点的第k目标输出视图。applicable_op_num_views_minus1[i][j]元素可指定由level_idc[i]指示的层级所应用的第j操作点中的视图的数目,包含由目标输出视图依赖但不属于目标输出视图的视图。
因此,在SPS MVC/AVC扩展中,对于每一视图,可用信号表示可用以形成参考图片列表0和参考图片列表1的视图的数目。另外,如SPS MVC/AVC扩展中用信号表示的锚点图片的预测关系可不同于同一视图的非锚点图片的预测关系(在SPS MVC/AVC扩展中用信号表示)。
如下文更详细描述,视频编码器20和视频解码器30可在构造参考图片列表时灵活地布置时间和视图预测参考。允许灵活的布置不仅提供潜在的译码效率增益,而且提供错误恢复,因为参考图片区段和冗余图片机制可扩展到视图尺寸。视频编码器20和/或视频解码器30在一实例中可根据以下步骤构造参考图片列表:
1)初始化时间(即,视图内)参考图片的参考图片列表,使得不考虑来自其它视图的参考图片。
2)以图片在MVC/AVC SPS扩展中发生的次序将视图间参考图片附加到列表的末端。
3)应用用于视图内和视图间参考图片的参考图片列表重排序(RPLR)过程。视图间参考图片可在RPLR命令中通过如MVC SPS扩展中指定的其索引值来识别。
如上文描述,H.264/AVC包含作为MVC/AVC的MVC支持。然而,MVC/AVC可能含有相对于其它视频译码标准的若干低效。具体来说,MVC/AVC可含有与用信号表示视图相依性相关的若干低效。还如先前所述,本发明的技术可在其它视频译码标准中实施或使用与MVC/AVC中包含的技术不同的视频译码技术来实施。可相对于视图相依性信令的修改增加译码效率的不同于MVC/AVC的视频译码技术的一些实例实施方案在标题为“对立体数据进行译码(CODING STEREO DATA)”且在2012年7月26日申请的第13/559,269号美国实用新型专利申请案中描述,所述申请案的全文以引用方式并入本文。因此,编码器20可根据不同于MVC/AVC多视图视频译码技术的以下描述来操作。
作为一个实例,H.264/MVC标准支持多达1024个视图且使用NAL单元标头中的视图识别符(view_id)来识别NAL单元所属于的视图。因为视图id是10位长,所以通过视图id值可唯一地识别超过1000个不同视图。然而,许多三维(3D)视频应用需要相当少的视图。而且,对于使用视图合成来产生更多视图(不需要译码)的3D视频应用可能需要更少的视图。根据MVC/AVC扩展,NAL单元标头包含总是提供的10位视图id。视图id可大体上增加用于NAL单元标头的位的数目,其占据位流的相当大的部分。
举例来说,视图次序索引(“view_order_index”或“view_idx”)可作为NAL单元标头的部分来用信号表示。也就是说,视频编码器20可编码且发射并且视频解码器30可接收且解码视图次序索引作为NAL单元标头的部分。为了比较的目的,视图次序索引可代替在MVC/AVC的NAL单元标头中用信号表示的视图id。也就是说,例如view_idx可代替NAL单元标头中的view_id。
如上文论述,MVC/AVC提供视图间预测。因此,用于参考的视图(即,用以预测其它视图的视图)必须在译码次序上早于参考视图而发生,如上文论述。视图次序大体上描述存取单元中的视图的排序,且视图次序索引识别存取单元的视图次序中的特定视图。也就是说,视图次序索引描述存取单元的对应视图分量的解码次序。
SPS可提供视图的视图id(view_ids)与视图的视图次序索引之间的关系。作为一个实例,使用SPS中的视图次序索引和数据,视频编码器20和视频解码器30可用视图次序索引代替NAL单元标头中的MVC/AVC的10位view_id。举例来说,视图次序索引可包含大体上少于10位(例如,例如2位、3位或类似)。
提供视图的view_ids与视图次序索引之间的关系的实例性SPS在以下表6中提供:
表3-序列参数集MVC扩展
在表3中所示的实例中,黑体和斜体语法元素指示从MVC/AVC SPS语法的偏离,即,相对于先前界定的MVC/AVC SPS语法的修改。举例来说,表3中所示的SPS指定经译码视频序列的视图间相依性关系。SPS还指定经译码视频序列的操作点的子集的层级值。经译码视频序列参考的所有SPS应当是相同的。然而,通过view_id[i]识别的一些视图可能不存在于经译码视频序列中。另外,SPS描述的一些视图或时间子集可能已从原始经译码视频序列移除,且因此可能不存在于经译码视频序列中。然而,SPS中的信息可总是应用于剩余的视图和时间子集。
在以上表3中,num_views_minus1加1元素可指定经译码视频序列中的经译码视图的最大数目。num_view_minus1的值可在0到31的范围内(包含性)。在一些实例中,经译码视频序列中的视图的实际数目可小于num_views_minus1加1。view_id[i]元素可指定具有等于i的视图次序索引的视图的视图识别符。view_level[i]元素可指定具有等于i的视图次序索引的视图的view_level。在一些实例中,具有高达预定义值(VL)的view_level的所有视图分量可解码而无需对具有大于VL的view_level的任何视图分量进行解码。
根据一些实例,num_ref_views[i]元素可指定当对具有等于i的视图次序索引的视图分量进行解码时初始参考图片列表RefPicList0和RefPicList1中用于视图间预测的视图分量的数目。num_ref_views[i]元素的值可不大于Min(15,num_views_minus1)。num_ref_views[0]的值可等于0。另外,根据本发明的方面,ref_view_idx[i][j]元素可指定当对具有等于i的视图次序索引的视图分量进行解码时初始参考图片列表RefPicList0和RefPicList1中用于视图间预测的第j视图分量的视图次序索引。ref_view_idx[i][j]的值可在0到31的范围内(包含性)。
因此,在各种实例中,锚点图片和非锚点图片的视图相依性可不再需要分开地维持和用信号表示。也就是说,视频编码器20和/或视频编码器30可使用单个参考图片列表(或维持两个参考图片列表列表0和列表1)同样用于锚点图片和非锚点图片。以此方式,如以上表3中所示,不需要单独的信令来向视频解码器30指示视图相依性。而是,SPS包含ref_view_idx,其可用以构造用于视图分量的列表0和列表1两者。
根据此些实例,举例来说,视频解码器30可针对任何视图分量接收第一视图,参考视图信息指示用于预测第一视图的视图分量的一或多个参考视图。也就是说,视频解码器30可接收同样地指示视图的锚点图片和视图的非锚点图片的视图相依性的参考视图信息。那么当对特定视图的(存取单元的)特定图片进行解码时,视频解码器30可包含来自与特定图片相同的存取单元和来自由参考视图信息指示的参考视图的参考候选(例如,特定图片可从其预测的视图分量)。在一些实例中,视频解码器30可将参考候选添加到来自每一参考视图的参考图片列表,使得参考候选的数目等于参考视图的数目。另外,视频解码器30可将参考候选添加到列表1、列表0或两者。视频解码器30可随后基于参考图片列表中的参考图片中的一者对特定图片进行解码。
而且,根据表3,非锚点视图分量的视图间相依性可不再作为锚点视图分量的视图间相依性的子集在SPS中用信号表示。而是,锚点视图的视图分量可从例如视图3和4等一个以上其它视图预测,且非锚点视图也可从视图3和视图4的图片预测。如果对于非锚点图片需要额外的限制视图相依性限制,那么此限制可在例如SEI消息等补充信令中提供。
num_level_values_signalled_minus1加1元素可指定针对经译码视频序列用信号表示的层级值的数目。num_level_values_signalled_minus1的值可在0到63的范围内(包含性)。level_idc[i]元素可指定针对经译码视频序列用信号表示的第i层级值。num_applicable_ops_minus1[i]加1元素可指定由level_idc[i]指示的层级所应用的操作点的数目。num_applicable_ops_minus1[i]元素的值可在0到1023的范围内(包含性)。applicable_op_temporal_id[i][j]元素可指定由level_idc[i]指示的层级所应用的第j操作点的temporal_id。applicable_op_num_target_views_minus1[i][j]加1元素可指定由level_idc[i]指示的层级所应用的第j操作点的目标输出视图的数目。applicable_op_num_target_views_minus1[i][j]元素的值可在0到1023的范围内(包含性)。
applicable_op_target_view_idx[i][j][k]元素可指定由level_idc[i]指示的层级所应用的第j操作点的第k目标输出视图的视图次序索引。applicable_op_target_view_idx[i][j][k]元素的值可在0到31的范围内(包含性)。applicable_op_num_views_minus1[i][j]加1可指定用于对对应于由level_idc[i]指示的层级所应用的第j操作点的目标输出视图进行解码所需的视图的数目。由applicable_op_num_views_minus1指定的视图的数目可包含目标输出视图和目标输出视图依赖于的视图,如子位流提取过程指定。
在另一实例中,基于同一时间实例中的视图分量的解码次序,ref_view_idx[i][j]的值可能需要小于i。
ref_view_idx[i][j]可进一步减小大小(用于额外的位节省对MVC/AVC)。举例来说,额外的位节省可在仅包含两个视图(即,用于立体视频)的多视图视频译码流中实现。在此实例中,可能不需要视图次序索引,因为视频解码器30可总是在对第二视图(例如,视图1)进行解码之前对第一视图(例如,视图0)进行解码。在以下表4中提供实例性减小的SPS:
表4-序列参数集MVC扩展
在表4中所示的实例中,ref_view_idx_diff_minus1[i][j]加i+1元素可指定当对具有等于i的视图次序索引的视图分量进行解码时初始参考图片列表RefPicList0和RefPicList1中用于视图间预测的第j视图分量的视图次序索引。ref_view_idx_diff_minus1[i][j]元素的值可在0到30-i的范围内(包含性)。
其它实例也是可能的。举例来说,并非在SPS中用信号表示视图相依性(例如,以上表6和7中所示的实例),可在PPS中用信号表示视图相依性。在另一实例中,可在SPS中用信号表示视图相依性,且可进一步在序列参数集中用信号表示的视图相依性的范围内在PPS中用信号表示视图相依性。举例来说,在SPS中,相依视图(例如,视图2)可用信号表示为依赖于视图0和视图1,而在PPS中,相依视图(例如,视图2)可用信号表示为仅依赖于视图0。
虽然视图次序索引与视图id之间的关系可能需要某种相关联的信令(例如,在SPS中),但NAL单元标头通常消耗比此信令多得多的位。因此,通过减小NAL单元标头的大小,这些技术可实现超过MVC/AVC方案的位节省。指示所述关系的信息可包括例如将view_id值映射到视图次序索引值的映射表。以此方式,视频解码器30可简单地接收NAL单元标头中的视图次序索引值,且使用映射表确定NAL单元的view_id。
此外,视图次序索引可具有动态长度。举例来说,在HEVC中,视图次序索引长度可取决于其是否是基本视图、简档或在多视图视频译码位流中支持的视图的数目。举例来说,额外的位节省可在仅包含两个视图(即,用于立体视频)的多视图视频译码流中实现。在此实例中,可能不需要视图次序索引,因为视频解码器30可总是在对第二视图(例如,视图1)进行解码之前对第一视图(例如,视图0)进行解码。也就是说,根据一些实例,基本视图可被指派默认视图次序索引0,且因此不需要用信号表示。
另外,当使用上述描述的视图次序索引时,可能不再需要紧接在MVC/AVC基本视图的基本视图(例如,视图0)的NAL单元之前包含的前缀NAL单元。举例来说,视频解码器30可能不再需要用于基本视图的前缀NAL单元,因为视图次序索引对于基本视图可能总是为零,且基本视图的时间位置可使用temporal_id(包含在MCV/AVC中)来确定。因此,视频编码器20可在NAL单元标头中用信号表示temporal_id,其可提供视频解码器30使特定视图分量与特定视图且与适当时间位置相关联所需的所有信息。
相对于新兴的HEVC标准,在一些实例中,当前缀NAL单元未用于HEVC顺应性基本视图时,可将旗标添加到HEVC基本视图的NAL单元标头中。旗标可仅用以指示(所述特定NAL单元的)视图分量是否可用以帧间预测位流的其它视图的视图分量。
另外,根据一些实例,视图次序索引可与图片次序计数(POC)值(例如,指示图片的显示次序)或帧值(例如,指示图片的解码次序)一起使用以识别位流的视图分量。
作为另一实例,如上所述,MVC/AVC SPS可针对每一视图单独地指示相依性视图(即,为了预测目的由一或多个其它视图参考的视图)。举例来说,MVC/AVC NAL单元标头中包含的anchor_pic_flag可用以指示NAL单元是否属于可用作开放GOP随机存取点的锚点图片。在MVC/AVC中,如上所述,视图相依性是针对锚点图片和非锚点图片以不同方式用信号表示。因此,对于针对每一视图用信号表示的相依视图,考虑四个不同类别,其中每一者是通过图片是否是用于锚点图片或者图片是否是用于列表0或列表1来区分。此设计不仅需要相对大数目的位来维持此些划分,而且可能使参考图片列表构造复杂(例如,必须在参考列表构造和再现期间维持每一类别)。
根据一些实例,视频编码器20可针对所有视图分量共同地用信号表示(且视频解码器30可接收此信令)多视图视频译码位流的每一视图的视图相依性,无论视图分量是否用于锚点图片和非锚点图片。在一些实例中,SPS包含视图分量的视图相依性的指示,而不是依赖于NAL单元标头中的信息。以此方式,视频编码器20和视频解码器30可不使用MVC/AVC NAL单元标头中使用的anchor_pic_flag。在适用于可缩放视频译码的实例中,视频编码器20可针对所有可缩放层共同地用信号表示(且视频解码器30可接收此信令)可缩放视频译码位流的每一可缩放层的可缩放层相依性,无论可缩放层是否用于锚点图片和非锚点图片。
用信号表示的相依性视图的视图分量可用作列表0和列表1两者中的参考图片。另外,用于列表0和列表1的参考图片列表构造和参考图片列表重排序也可基于用于锚点图片和非锚点图片的共同信令。在一些实例中,序列层级补充增强信息(SEI)消息可用以指示非锚点图片是否与锚点图片不同的视图相依性。
因此,本发明的某些方面涉及移除MVC/AVC的锚点图片/非锚点图片和列表0/列表1信令区别,进而简化位流以及参考图片列表的构造。举例来说,根据本发明的方面,视频解码器30可针对任何视图分量接收第一视图,参考视图信息指示用于预测第一视图的视图分量的一或多个参考视图。也就是说,视频解码器30可接收同样地指示视图的锚点图片和视图的非锚点图片的视图相依性的参考视图信息。参考视图信息可包含例如与每一参考视图相关联的视图次序索引(指示存取单元中的视图的解码次序),如上文描述。
另外,当对特定视图的(存取单元的)特定图片进行解码时,视频解码器30可包含来自与特定图片相同的存取单元和来自由参考视图信息指示的参考视图的参考候选(例如,特定图片可从其预测的视图分量)。在一些实例中,视频解码器30可将参考候选添加到来自每一参考视图的参考图片列表,使得参考候选的数目等于参考视图的数目。另外,视频解码器30可将参考候选添加到列表1、列表0或两者。视频解码器30可随后基于参考图片列表中的参考图片中的一者对特定图片进行解码。
作为再一实例,如上文所述,在MVC/AVC顺应性位流的NAL单元标头中包含priority_id。priority_id提供特定NAL单元的优先级的指示。更特定来说,每一NAL单元常规地被指派优先级值。响应于对优先级值P的请求,将提供具有小于或等于P的优先级值的所有NAL单元(即,丢弃具有大于P的priority_id值的NAL单元)。以此方式,较低优先级值指定较高优先级。应了解,同一视图的NAL单元可例如针对视图内的时间可缩放性具有不同的优先级。
此优先级可用于可缩放性的目的。举例来说,为了检索消耗最少量带宽(以形成相对低质量表示为代价)的视频数据,视频解码器30(或更一般地,目的地装置14)可仅需要从例如源装置12/视频编码器20等源发射最高优先级NAL单元,且priority_id可用以过滤掉较低优先级NAL单元。在一些实例中,服务器/内容递送网络34的路由器36可使用priority_id来分离相对高优先级NAL单元与较低优先级NAL单元。为了产生相对较高质量表示(以较高带宽消耗为代价),视频解码器30可请求具有较低优先级的NAL单元例如通过指定较高优先级值来补充较高优先级NAL单元。
根据一些实例,并非在NAL单元标头中用信号表示priority_id,视频编码器20可在SPS中提供priority_id值。也就是说,用于具有某一时间层级的每一视图的priority_id可在序列层级中用信号表示。另外,根据一些实例,只要与调适相关联的信令上下文已知,便可启用单遍次调适。
如上文论述,在一些实例中,可负责将位流转发到目的地装置14的路由器36可使用SPS priority_id值来过滤某些视图。也就是说,路由器36可接收完整位流,但提取包含具有处于和低于由目的地装置14指定的优先级值的priority_id值的NAL单元的子位流,且将子位流转发到目的地装置14。
在再一实例中,根据MVC/AVC,单遍次调适需要NAL单元标头中的6位priority_id。举例来说,如上所述,MVC/AVC SPS可包含用于视图可缩放性的视图层级指示。也就是说,MVC位流的每一视图可以阶层式方式译码,且可被指派数字视图层级。
根据一些实例,SPS可包含视图层级信息。因此,当目的地装置14从服务器/内容递送网络34请求视图层级V的视图时,目的地装置14接收具有小于或等于V的视图层级的所有视图。类似于上文描述的priority_id值的使用,服务器/内容递送网络34的路由器36可使用视图层级来提取包含具有小于或等于客户端请求的视图层级的视图层级的视图的数据的子位流。
作为相对于MVC/AVC的另一实例性效率增益,根据本发明的一些方面,例如MVC/AVC实施方案或实施上文所述的与MVC/AVC的差异的不同视频译码技术(例如即将到来的HEVC标准)等视频译码技术可包含用信号表示与给定视图相关联的视图相依性以及用信号表示与视图相依性中的一或多者相关联的预测的类型。
在参考图片集(RPS)子集中包含仅用于一种类型预测的用于视图间预测的视图可能是较低效的。在更一般意义上,在视图间RPS子集中包含与其它相依性视图相比与相对少类型的视图间预测相关联的用于视图间预测的相依性视图可能是较低效的。举例来说,对于给定视图A,视图B可能仅用作视图间纹理预测参考。替代地,视图B可仅用作视图间运动预测参考。然而,在用于解码视图A的视图间RPS子集中包含视图B并不如仅包含可用于视图间纹理预测且用于视图间运动预测的视图那样有效。此概念可延伸超过仅视图间纹理和视图间运动预测,例如视图间残余预测。举例来说,大体上,与用于相对较多类型预测的视图相比,包含仅用于有限数目类型的预测的视图将较低效。
因此,根据本发明的一些方面,可添加新语法元素作为SPS语法的部分,其不仅指示视图间RPS子集中是否包含用于给定视图的相依性视图,而且指示与相依性视图相关联的预测的类型。举例来说,num_ref_views[i]、ref_view_idx[i][j]和inter_view_texture_flag[i][j]语法元素可添加到SPS集合。Inter_view_texture_flag[i][j]可指示用于给定视图i的第j相依性视图是否可在视图间纹理预测中使用,且因此将包含在用于视图i的视图间RPS子集中。以下表5的语法结构表示额外语法元素的实例:
表5
在以上表5中,num_views_minus1加1元素可指定经译码视频序列中的经译码视图的最大数目。在一些实例中,num_view_minus1的值的范围可为从0到31(包含性)。另外,num_ref_views[i]可指定将用以对具有等于view_id[i]的view_id(或具有等于i的视图索引)的视图进行解码的相依性视图的数目。num_ref_views[i]的值应不大于Min(15,num_views_minus1)。num_ref_views[0]的值应等于0。此外,ref_view_idx[i][j]可指定当对具有等于i的视图索引的视图分量进行解码时第j相依性视图的视图索引。ref_view_idx[i][j]的值应在0到31的范围内(包含性)。
当inter_view_texture_flag[i][j]元素等于1时,inter_view_texture_flag[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量将包含在将用于具有等于i的视图索引的视图分量的参考图片列表构造的视图间RPS子集中。举例来说,当具有等于ref_view_idx[i][j]的视图次序索引的视图分量可在具有等于i的视图索引的视图分量的视图间纹理预测中使用时,inter_view_texture_flag[i][j]可设定为等于1。当inter_view_texture_flag[i][j]等于0时,inter_view_texture_flag[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量不包含在将用于参考图片列表构造的视图间RPS子集中。举例来说,当具有等于ref_view_idx[i][j]的视图次序索引的视图分量不可在具有等于i的视图索引的视图分量的视图间纹理预测中使用时,inter_view_texture_flag[i][j]可设定为等于0。在其它实例中,仅当具有等于ref_view_idx[i][j]的视图次序索引的视图分量可在视图间纹理预测和另一类型的视图间预测(例如视图间运动或视图间纹理预测)中使用时,inter_view_texture_flag[i][j]可设定为等于1。
添加到用于对具有等于i的视图索引的视图分量的解码的视图间RPS子集中的视图分量呈j的升序。以此方式,inter_view_texture_flag[i][j]可指示具有等于ref_view_idx[i][j]的视图次序索引的视图分量是否可以或不可用于具有等于i的视图索引的视图分量的视图间纹理预测。
在以上描述中,视图索引可等效地表示为视图次序索引。替代地,当具有layer_id LD的视图的解码不依赖于具有高于LD的layer_id值的视图时,在以上信令中使用的视图索引可由layer_id代替。
上文描述的元素也可适用于可缩放译码技术。举例来说,虽然元素可能以不同方式命名,但类似于inter_view_texture_flag[i][j]的元素可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层是否将包含在将用于具有等于i的层索引的可缩放层的参考图片列表构造的层间RPS子集中。当具有等于ref_view_idx[i][j]的层次序索引的可缩放层可在具有等于i的层索引的可缩放层的层间纹理预测中使用时,inter_view_texture_flag[i][j]或类似元素可设定为等于1。当inter_view_texture_flag[i][j]等于0时,inter_view_texture_flag[i][j]可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层不包含在将用于参考图片列表构造的层间RPS子集中。举例来说,当具有等于ref_view_idx[i][j]的层次序索引的可缩放层不可在具有等于i的层索引的可缩放层的层间纹理预测中使用时,inter_view_texture_flag[i][j]可设定为等于0。
根据本发明的一些方面,可用信号表示用于每一视图间参考的指示。所述指示可表示特定视图间参考是否将包含在视图间RPS子集中以及特定视图间参考是否将用于其它类型的视图间预测,例如视图间运动预测和视图间残余预测。以下表6提供指示的实例inter_view_texture_idc[i][j]。
表6
举例来说,如果表6的inter_view_texture_idc[i][j]设定为等于0,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量(即,参考视图分量)不包含在将用于具有等于i的视图索引的视图分量的参考图片列表构造的视图间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量不在用于给定视图i的视图间纹理预测或其它类型的视图间预测(例如视图间运动预测或视图间残余预测)中使用时,inter_view_texture_idc[i][j]可设定为等于0。在一些实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量不在视图间纹理预测中使用且仅在单个其它类型的视图间预测(即,仅视图间运动预测或视图间残余预测,但并非两者)中使用时,inter_view_texture_idc[i][j]可设定为等于0。
在对可缩放视频译码的应用中,如果表6的inter_view_texture_idc[i][j]设定为等于0,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层不包含在将用于具有等于i的层索引的可缩放层的参考图片列表构造的层间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层不在用于给定层i的层间纹理预测或其它类型的层间预测(例如层间运动预测或层间残余预测)中使用时,inter_view_texture_idc[i][j]可设定为等于0。在一些实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层不在层间纹理预测中使用且仅在单个其它类型的层间预测(即,仅层间运动预测或层间残余预测,但并非两者)中使用时,inter_view_texture_idc[i][j]可设定为等于0。
如果inter_view_texture_idc[i][j]设定为等于1,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量将包含在将用于具有等于i的视图索引的视图分量的参考图片列表构造的视图间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量在用于给定视图i的视图间纹理预测中使用但不在用于其它类型的视图间预测(例如视图间运动预测或视图间残余预测)中使用时,inter_view_texture_idc[i][j]可设定为等于1。在一些实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量在视图间纹理预测中使用且仅在单个其它类型的视图间预测(即,仅视图间运动预测或视图间残余预测,但并非两者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于1。
在对可缩放视频译码的应用中,如果inter_view_texture_idc[i][j]设定为等于1,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层将包含在将用于具有等于i的层索引的层的参考图片列表构造的层间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层在用于给定视图i的层间纹理预测中使用但不在用于其它类型的层间预测(例如层间运动预测或层间残余预测)中使用时,inter_view_texture_idc[i][j]可设定为等于1。在一些实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层在层间纹理预测中使用且仅在单个其它类型的层间预测(即,仅层间运动预测或层间残余预测,但并非两者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于1。
如果inter_view_texture_idc[i][j]设定为等于2,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量将不包含在将用于具有等于i的视图索引的视图分量的参考图片列表构造的视图间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量不在视图间纹理预测中使用但在用于给定视图i的其它类型的视图间预测中使用时,inter_view_texture_idc[i][j]可设定为等于2。在一些实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量不在视图间纹理预测中使用且在至少一个其它类型的视图间预测(即,视图间运动预测或视图间残余预测中的一者)中使用时,inter_view_texture_idc[i][j]可设定为等于2。在其它实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量不在视图间纹理预测中使用且在至少两个其它类型的视图间预测(即,视图间运动预测和视图间残余预测两者)中使用时,inter_view_texture_idc[i][j]可设定为等于2。
在对可缩放视频译码的应用中,如果inter_view_texture_idc[i][j]设定为等于2,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层将不包含在将用于具有等于i的层索引的视图分量的参考图片列表构造的层间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层不在层间纹理预测中使用但在用于给定层i的其它类型的层间预测中使用时,inter_view_texture_idc[i][j]可设定为等于2。在一些实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层不在层间纹理预测中使用且在至少一个其它类型的层间预测(即,层间运动预测或层间残余预测中的一者)中使用时,inter_view_texture_idc[i][j]可设定为等于2。在其它实例中,仅当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层不在层间纹理预测中使用且在至少两个其它类型的层间预测(即,层间运动预测和层间残余预测两者)中使用时,inter_view_texture_idc[i][j]可设定为等于2。
如果inter_view_texture_idc[i][j]设定为等于3,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的视图次序索引的视图分量将包含在将用于具有等于i的视图索引的视图分量的参考图片列表构造的视图间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量在视图间纹理预测和用于给定视图i的其它类型的视图间预测中使用时,inter_view_texture_idc[i][j]可设定为等于3。在一些实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量在视图间纹理预测中使用且在至少一个其它类型的视图间预测(即,视图间运动预测或视图间残余预测中的一者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于3。在其它实例中,当具有等于ref_view_idx[i][j]的视图次序索引的参考视图分量在视图间纹理预测中使用且在至少两个其它类型的视图间预测(即,视图间运动预测和视图间残余预测两者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于3。
在对可缩放视频译码的应用中,如果inter_view_texture_idc[i][j]设定为等于3,那么inter_view_texture_idc[i][j]可指定具有等于ref_view_idx[i][j]的层次序索引的可缩放层将包含在将用于具有等于i的层索引的层的参考图片列表构造的层间RPS子集中。在至少一个实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层在视图间纹理预测和用于给定层i的其它类型的层间预测中使用时,inter_view_texture_idc[i][j]可设定为等于3。在一些实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层在层间纹理预测中使用且在至少一个其它类型的层间预测(即,层间运动预测或层间残余预测中的一者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于3。在其它实例中,当具有等于ref_view_idx[i][j]的层次序索引的参考可缩放层在层间纹理预测中使用且在至少两个其它类型的层间预测(即,层间运动预测和层间残余预测两者)中使用时,inter_view_texture_idc[i][j]可仅设定为等于3。
另外,根据本发明的一些方面,如果inter_view_texture_idc[i][j]等于1或3,那么inter_view_texture_flag[i][j]可推导为等于1,否则inter_view_texture_flag[i][j]可推导为等于0。这同样适用于可缩放视频译码应用。
根据本发明的一些方面,可引入另一语法元素:InterViewOtherFlag[i][j]。继续以上实例,在一些实例中,用于给定视图i的具有等于ref_view_idx[i][j]的视图次序索引的一或多个相依性视图可在除了视图间纹理预测之外的视图间预测类型中使用。举例来说,用于给定视图i的ref_view_idx[i][j]的第j视图可在视图间运动预测或视图间残余预测中使用。当用于给定视图i的ref_view_idx[i][j]的第j视图不在除了视图间纹理预测的视图间预测中使用时,例如当inter_view_texture_idc[i][j]设定为等于0或1时,InterViewOtherFlag[i][j]可推导为等于0。因此,当InterViewOtherFlag[i][j]等于0时,InterViewOtherFlag[i][j]可指示具有等于ref_view_idx[i][j]的视图次序索引的特定视图分量不可用于给定视图i的其它类型的视图间预测,例如视图间运动预测或视图间残余预测。
当用于给定视图i的ref_view_idx[i][j]的第j视图在除了视图间纹理预测的视图间预测中使用时,例如当inter_view_texture_idc[i][j]设定为等于2或3时,InterViewOtherFlag[i][j]可推导为等于1。因此,当InterViewOtherFlag[i][j]等于1时,InterViewOtherFlag[i][j]可指示具有等于ref_view_idx[i][j]的视图次序索引的特定视图分量可用于给定视图i的其它类型的视图间预测,例如视图间运动预测或视图间残余预测。在一些实例中,仅当具有等于ref_view_idx[i][j]的视图次序索引的视图分量可在超过单个其它类型的视图间预测(例如视图间运动预测和视图间残余预测两者)中使用时,InterViewOtherFlag[i][j]可推导为等于1。
类似于上文参考的inter_view_texture_flag[i][j]和inter_view_texture_idc[i][j]元素,InterViewOtherFlag[i][j]可适于在可缩放视频译码方案中应用。
根据本发明的一些方面,视频译码器20可构造一或多个参考图片集,其包括在用于预测当前图片的数据的各种预测过程中使用的参考图片(可包含参考视图)。在一些实例中,视频编码器20可根据在2012年12月19日申请的标题为“用于HEVC的多视图和3D扩展的参考列表构造”的第13/720,622号美国专利申请案中描述的方法来构造视图间参考图片集(RefPicSetInterView),所述申请案以全文引用的方式并入本文。
因此,一些参考图片是“短期”参考图片,且一些参考图片是“长期”参考图片。长期参考图片可在参考图片列表中保留比短期参考图片长的时间周期。如果视频编码器20确定维持参考图片的可用性达延长的时间周期(例如,若干秒)将是有利的,那么视频编码器20可用信号表示参考图片是长期参考图片。举例来说,如果参考图片含有静态背景且其它图片覆盖和未覆盖此静态背景的部分,那么视频编码器20可指示参考帧是长期参考图片。在H.264/AVC或H.264/MVC/AVC中,短期参考图片从不具有等于当前图片(即,当前正译码的图片)的帧数的帧数(frame_num)。图片的帧数是基于图片的图片数的值。图片的帧数可用以在图片用作短期参考图片时识别图片。
如上文提到,视频译码器(例如,视频编码器20和视频解码器30)可维持第一参考图片列表(列表0)和第二参考图片列表(列表1)。列表0和列表1可为参考图片的帧数的列表。视频编码器20可通过用信号表示特定参考图片的帧数的参考图片列表中的位置来用信号表示视频块是使用特定参考图片中的参考块来帧间预测的。
一些视频译码器产生参考图片列表以使得时间(即,视图内)参考图片的帧数总是首先初始列出。时间参考图片的帧数在参考图片列表中被跟随有视图间参考图片的帧数。也就是说,视频译码器可使用以下步骤产生参考图片。首先,视频译码器可应用如H.264/AVC标准中指定的用于时间(即,视图内)参考图片的参考图片列表初始化过程,其中不考虑来自其它视图的参考图片。第二,视频译码器可以视图间参考图片在多视图视频译码SPS扩展中发生的次序将视图间参考图片附加到参考图片列表的末尾。第三,视频译码器可应用用于视图内和视图间参考图片两者的参考图片列表修改(RPLM)过程。举例来说,视频编码器或视频解码器可执行参考图片列表修改过程,其改变视图间参考视图分量的参考图片列表中的位置。视图间参考图片可在RPLM命令中通过如多视图视频译码SPS扩展中指定的其索引值来识别。RPLM过程在下文详细描述。
在HEVC中,VCLNAL单元的NAL单元标头可为两个字节的长度。相比之下,在H.264/AVC中,VCL NAL单元的NAL单元标头可为一个字节的长度。HEVC VCL NAL单元的NAL单元标头的第一字节可具有与H.264/AVC VCL NAL单元的NAL单元标头相同的语法和语义。当HEVC VCL NAL单元的NAL单元标头的第二字节存在时,HEVCVCL NAL单元的NAL单元标头的第二字节可包含时间识别符(例如,“temporal_id”)语法元素和输出旗标(例如,“output_flag”)语法元素。时间识别符语法元素可指定用于NAL单元的时间识别符。包含存取单元的视图分量的经译码切片的每一NAL单元可具有相同的时间识别符。输出旗标语法元素可影响与NAL单元相关联的经解码图片的输出,如HEVC的附录C中描述。
此外,在HEVC中在视频译码器产生参考图片列表0和1之后,视频译码器可从参考图片列表0和1中的参考图片产生组合参考图片列表。为了产生组合参考图片列表,视频译码器可从列表0和1选择条目(即,参考图片)且将选定条目插入(例如,附加)到组合参考图片列表。在一些实例中,视频译码器可基于列表0和列表1中的发生的升序来从列表0和列表1选择条目。如果选定条目已经在组合参考图片列表中,那么视频译码器不再将条目插入到组合参考图片列表中。视频译码器可通过检查条目的图片次序计数(POC)数目来确定选定条目是否已经在组合参考图片列表中。
在HEVC中,视频编码器20用信号表示每一经译码图片的参考图片集(RPS)。经译码图片的RPS是与经译码图片相关联的参考图片的集合。RPS可包含在解码次序上在经译码图片之前的可用于经译码图片的帧间预测的所有参考图片或在解码次序上在经译码图片之后的任何图片,且在一些实例中由所述图片组成。
视频编码器20可在PPS和切片标头中用信号表示经译码图片的RPS。举例来说,视频编码器20可在PPS中用信号表示RPS,且可在经译码图片的切片标头中用信号表示经译码图片的RPS是在PPS中用信号表示的RPS。在其它实例中,视频编码器20可直接在经译码图片的切片标头中用信号表示经译码图片的RPS。因此,视频解码器30可从切片标头剖析指示RPS的语法元素。
视图分量(即,当前视图分量)的RPS可划分为五个参考图片子集:RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll。这些参考图片子集中的每一者可包括识别参考视图分量的POC值的列表。术语“参考视图分量”和“参考图片”在本发明中可以可互换地使用。RefPicSetStCurr0可由在解码次序和输出次序两者上在当前视图分量之前且可在当前视图分量的帧间预测中使用的所有短期参考视图分量组成。RefPicSetStCurr1可由在解码次序上在当前视图分量之前、在输出次序上在当前视图分量之后且可在当前视图分量的帧间预测中使用的所有短期参考视图分量组成。RefPicSetStFoll0可由在解码次序和输出次序两者上在当前视图分量之前、可在解码次序上在当前视图分量之后的视图分量中的一或多者的帧间预测中使用且不在当前视图分量的帧间预测中使用的所有短期参考视图分量组成。RefPicSetStFoll1可由在解码次序上在当前视图分量之前、在输出次序上在当前视图分量之后、可在解码次序上在当前视图分量之后的视图分量中的一或多者的帧间预测中使用且不在当前视图分量的帧间预测中使用的所有短期参考视图分量组成。RefPicSetLtCurr可由在解码次序上在当前视图分量之前且可在当前视图分量的帧间预测中使用的所有短期参考视图分量组成。RefPicSetLtFoll可由在解码次序上在当前视图分量之前、可在解码次序上在当前视图分量之后的视图分量中的一或多者的帧间预测中使用且不在当前视图分量的帧间预测中使用的所有长期参考视图分量组成。
RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll中的条目的数目在本发明中可分别称为NumRpsStCurr0、NumRpsStCurr1、NumRpsStFoll0、NumRpsStFoll1、NumRpsLtCurr和NumRpsLtFoll。如果当前视图分量是IDR图片,那么RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll全部为空,且NumRpsStCurr0、NumRpsStCurr1、NumRpsStFoll0、NumRpsStFoll1、NumRpsLtCurr和NumRpsLtFoll全部等于0。对参考图片集的进一步描述可参见博伊斯(Boyce)等人的“JCT-VC分出报告:参考图片缓冲和列表构造(AHG21)”(文档号JCTVC-G1002,2011年11月11日,在2013年4月22日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/7_Geneva/wg11/JCTVC-G1002-v5.zip得到),其整个内容以引用方式并入本文。
当视频译码器对P或B切片进行译码时,视频译码器可产生列表0和列表1的初始版本。换句话说,视频译码器可初始化列表0和列表1。视频译码器可产生列表0和列表1的初始版本,使得列表0和列表1包含来自RefPicSetCurr0、RefPicSetCurr1或RefPicSetLtCurr的至少一个参考图片。
举例来说,视频译码器可执行由以下伪码描述的操作以产生列表0的初始版本。
在以上伪码中,cIdx是计数器变量。此外,在以上伪码中,num_ref_idx_l0_active_minus1是指示列表0中的有效参考图片的数目减1的值。当视频译码器执行以上伪码时,视频译码器将RefPicSetStCurr0的每一参考图片插入到参考图片列表0中,随后将RefPicSetStCurr1的每一参考图片插入到参考图片列表0中,随后将RefPicSetLtCurr的每一参考图片插入到参考图片列表0中。
视频译码器可执行由以下伪码描述的操作以产生列表1的初始版本。
当视频译码器执行以上伪码时,视频译码器将RefPicSetStCurr0的每一参考图片插入到参考图片列表1中,随后将RefPicSetStCurr1的每一参考图片插入到参考图片列表1中,随后将RefPicSetLtCurr的每一参考图片插入到参考图片列表1中。
在一些实例中,改变参考图片列表中的参考图片的次序可为有利的。举例来说,因为可使用一元值来用信号表示位置,所以与参考图片列表中的最后位置相比,可需要较少的位来指示参考图片列表中的第一位置。因此,如果特定参考图片可能频繁使用,那么与参考图片列表中的最后位置相比具有较靠近参考图片列表的第一位置的特定参考图片可为有利的。
因此,视频编码器20可在位流中包含一系列一或多个RPLM命令。RPLM命令可为用于在参考图片列表中插入参考图片的一或多个语法元素的集合。因此,通过在位流中包含RPLM命令,视频编码器20可灵活地布置时间和视图预测参考,其可提供潜在的译码效率增益。另外,RPLM命令的使用可增加错误恢复,因为参考图片选择和冗余图片机制可延伸到视图维度。
视频解码器30以RPLM命令在位流中用信号表示的次序来处理RPLM命令。此外,当视频解码器30处理一系列RPLM命令时,视频解码器30可初始将当前索引值设定为0且可在每一RPLM命令的处理期间递增当前索引值。当视频解码器30处理RPLM命令时,视频解码器30可在参考图片列表中将在由当前索引值指示的位置处的参考图片和在由当前索引值指示的位置之后的位置处的所有参考图片向下移位一个位置。视频解码器30可随后在由当前索引值指示的位置处将参考图片插入到参考图片列表中。视频解码器30可随后扫描通过参考图片列表,且移除所插入参考图片的复制(如果存在)。
RPLM命令可在经译码切片的切片标头中指定。以下表3展示用于切片标头中可包含的RPLM命令的实例性语法。
表7-RPLM语法
在表7中,“slice_type”指示当前切片(即,切片标头包含RPLM命令的切片)的类型。以下表8指示“slice_type”的实例性语义。
表8
slice_type slice_type的名称
0 P(P切片)
1 B(B切片)
2 I(I切片)
此外,在表8的实例性语法中,“list_modification_idc”和“ref_pic_set_idx”语法元素可指定从参考图片列表的初始版本到视频译码器用于帧间预测的参考图片列表的版本的改变。“ref_pic_list_modification_flag_l0”语法元素指示是否存在一或多个“list_modification_idc”语法元素来修改列表0。当“ref_pic_list_modification_flag_l0”语法元素等于1时,“list_modification_idc”语法元素不等于3的次数不可超过列表0中的有效参考图片列表的数目。“ref_pic_list_modification_flag_l1”语法元素指示是否存在一或多个“list_modification_idc”语法元素来修改列表1。当“ref_pic_list_modification_flag_l1”等于1时,list_modification_idc不等于3的次数不可超过列表1中的有效参考图片列表的数目。
大体上,“ref_pic_set_idx”语法元素指定到将移动到参考图片列表中的当前索引的参考图片的RefPicSetStCurr0、RefPicSetStCurr1或RefPicSetLtCurr中的位置的索引。“ref_pic_set_idx”语法元素的值的范围可从0到参考图片的最大可允许数目(包含性)。
“list_modification_idc”语法元素指定将执行的RPLM命令的类型。为便于阐释,此语法元素可称为RPLM类型语法元素。在一些实例中,RPLM类型语法元素可具有范围从0到3(包含性)的值,如下表说明。
表9
对于列表0,如果RPLM类型语法元素等于0,那么“ref_pic_set_idx”语法元素存在且“ref_pic_set_idx”语法元素对应于到RefPicSetStCurr0中的位置的索引。举例来说,“ref_pic_set_idx”可指示在RefPicSetStCurr0中的第二位置处的参考图片。对于列表1,如果RPLM类型语法元素等于0,那么“ref_pic_set_idx”语法元素存在且“ref_pic_set_idx”语法元素对应于到RefPicSetStCurr1中的位置的索引。
对于列表0,如果RPLM类型语法元素等于1,那么“ref_pic_set_idx”语法元素存在且“ref_pic_set_idx”语法元素对应于到RefPicSetStCurr1中的位置的索引。对于列表1,如果RPLM类型语法元素等于1,那么“ref_pic_set_idx”语法元素存在且“ref_pic_set_idx”语法元素对应于到RefPicSetStCurr0中的位置的索引。
如果RPLM类型语法元素等于2,那么“ref_pic_set_idx”语法元素存在且“ref_pic_set_idx”语法元素指示到RefPicSetLtCurr中的位置的索引。如果RPLM类型语法元素等于3,那么视频译码器停止修改参考图片列表的循环。
当“ref_pic_list_modification_flag_l0”语法元素等于1时,视频译码器可以在位流中出现的次序处理“list_modification_idc”语法元素。对于每一“list_modification_idc”语法元素,视频译码器可确定“list_modification_idc”语法元素是否等于0、1或2。如果“list_modification_idc”语法元素等于0、1或2,那么视频译码器可调用将一个参考图片移动到参考图片索引的过程。视频译码器可将索引refIdxL0作为输入提供到所述过程且可将refIdxL0设定为过程的输出。RefIdxL0是到列表0中的索引。视频译码器可初始将refIdxL0设定为等于0。下文描述将一个参考图片移动到参考图片索引的过程。否则,如果“list_modification_idc”语法元素等于3,那么视频译码器停止用于列表0的参考图片列表修改过程。
在当前切片是B切片且“ref_pic_list_modification_flag_l1”语法元素等于1时,视频译码器可以在位流中出现的次序处理“list_modification_idc”语法元素。对于每一“list_modification_idc”语法元素,视频译码器可确定“list_modification_idc”语法元素是否等于0、1或2。如果“list_modification_idc”语法元素等于0、1或2,那么视频译码器可调用将一个参考图片移动到参考图片索引的过程。视频译码器可将索引refIdxL1作为输入提供到所述过程且可将refIdxL1设定为过程的输出。RefIdxL1是到列表1中的索引。视频译码器可初始将refIdxL1设定为等于0。下文描述将一个参考图片移动到参考图片索引的过程。否则,如果“list_modification_idc”语法元素等于3,那么视频译码器停止用于列表1的参考图片列表修改过程。
如上文提到,视频译码器可执行将参考图片移动到参考图片索引的过程。此过程可将参考图片索引取作输入且输出经递增参考图片索引。参考图片索引可表示为refIdxLX,其中X等于0以用于列表0中的参考图片的移动且X等于1以用于列表1中的参考图片的移动。如果“list_modification_idc”语法元素等于0且当前参考图片列表为列表0,那么视频解码器可将RefPicSetStCurr0指定为当前参考图片集。否则,如果“list_modification_idc”语法元素等于0且当前参考图片列表为列表1,那么视频解码器可将RefPicStCurr1指定为当前参考图片集。如果“list_modification_idc”语法元素等于1且当前参考图片列表为列表0,那么视频解码器可将RefPicStCurr1指定为当前参考图片集。如果“list_modification_idc”语法元素等于1且当前参考图片列表为列表1,那么视频解码器可将RefPicStCurr0指定为当前参考图片集。如果“list_modification_idc”语法元素等于2,那么视频解码器可将RefPicSetLtCurr指定为当前参考图片集。
此外,在将参考图片移动到参考图片索引的过程中,视频译码器可确定相关POC值pocLX。相关POC值可为将在由“ref_pic_set_idx”语法元素指示的当前参考图片集中的位置处插入到参考图片列表X(其中X为0或1)中的参考图片的POC值。pocLX变量通常如下推导:
pocLX=curRefPicSet[ref_pic_set_idx]
另外,视频译码器可执行由以下伪码描述的过程以在由refIdxLX(其中X为0或1)指示的位置处将具有相关POC值的图片插入到当前参考图片列表中。
在以上伪码中,cIdx是计数器变量。此外,在以上伪码中,num_ref_idx_lX_active_minus1是等于当前参考图片列表中的有效参考图片的数目减1的变量。PicOrderCnt是返回参考图片的POC值的函数。当视频译码器执行由以上伪码描述的过程时,视频译码器可将在由refIdxLX指示的位置之后的参考图片移位到当前参考图片列表中较晚的位置,插入具有相关POC值的参考图片,递增refIdxLX,且从参考图片列表移除具有相关POC值的参考图片的任何复制。
在以上伪码中,当前参考图片列表的长度可在时间上比当前参考图片列表的最终版本的长度长一个元素。因此,在视频译码器执行由以上伪码描述的操作之后,视频译码器可在当前参考图片列表的最终版本中仅保持元素0到num_ref_idx_lX_active_minus1。
根据本发明的技术,视频译码器导出用于当前视图分量的RPS。如上所述,当前视图分量的RPS可包含参考图片子集:RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr、RefPicSetLtFoll。另外,当前视图分量的RPS可包含视图间参考图片集(RefPicSetInterView)。视图间预测参考图片集包含并非来自与当前视图分量相同视图、还来自与当前视图分量相同存取单元以及还由当前视图分量用于视图间预测参考的视图分量。在一些实例中,视图间参考图片集是在序列层级用信号表示且可由同一视图的所有视图分量共享。
根据本发明的方面,视频编码器20在包含先前描述的语法元素的任何编码技术之后可使用以下伪码导出RefPicSetInterView:
在以上RefPicSetInterView导出方法之后的译码技术中,视频编码器20可仅包含其中在RefPicSetInterView中针对给定视图i的第j参考将inter_view_texture_flag[i][j]设定为等于1的那些参考视图。举例来说,如先前描述,当具有等于ref_view_idx[i][j]的视图次序索引的视图分量可在视图间纹理预测中使用时,视频编码器20可将inter_view_texture_flag[i][j]设定为等于1。因此,在这些实例中,视频编码器20可通过仅包含可在视图间纹理预测中使用的那些参考视图来建立参考图片集RefPicSetInterView。如先前描述,当inter_view_texture_idc[i][j]设定为1或3时,inter_view_texture_flag[i][j]可推导为等于1。也就是说,RefPicSetInterView中包含的参考视图全部可在视图间纹理预测中使用,但其中一些也可在视图间其它预测中使用,例如视图间运动预测或视图间残余预测。
根据本发明的方面,视频编码器可导出另一视图间参考图片集(OtherRefSetInterView)。OtherRefSetInterView可为由可用于其它类型的视图间预测(例如视图间运动预测或视图间残余预测)的所有视图间参考视图分量构成的预测间参考图片集。视频编码器20可使用以下伪码来导出OtherRefSetInterView。
类似于其中视频编码器20仅根据可在视图间纹理预测中使用的那些参考视图导出RefPicSetInterView的以上实例中的伪码,视频编码器20可仅在OtherRefSetInterView中包含InterViewOtherFlag[i][j]设定为等于1的那些视图间参考。如上所述,当具有等于ref_view_idx[i][j]的视图次序索引的视图分量可在除了视图间纹理预测之外的视图间预测类型(例如视图间运动预测和视图间残余预测)中使用时,视频编码器20可将InterViewOtherFlag[i][j]设定为等于1。因此,在这些实例中,视频编码器20可通过仅包含可在其它类型的视图间预测中使用的那些参考视图来建立参考图片集OtherRefSetInterView。如先前描述,当inter_view_texture_idc[i][j]设定为2或3时,InterViewOtherFlag[i][j]可推导为等于1。也就是说,OtherRefSetInterView中包含的参考视图全部可在除了视图间纹理预测之外的视图间预测类型(例如视图间运动预测或视图间残余预测)中使用,但其中一些也可在视图间纹理预测中使用。
虽然RefPicSetInterView和OtherRefSetInterView的上述构造涉及多视图视频和3D视频译码,但类似过程可应用于使用可缩放视频译码的技术。举例来说,RefPicSetInterView和OtherRefSetInterView元素可使用相同伪码来构造。然而,替代于仅含有分别可在视图间纹理预测中和其它类型的视图间预测中使用的视图的元素,元素将仅含有分别可在层间纹理预测中和其它类型的层间预测中使用的可缩放层。如先前相对于inter_view_texture_flag[i][j]和inter_view_texture_idc[i][j]元素描述,元素中的一些可以不同方式命名而不改变其基本操作。
对于当前视图的视图分量,通过j的增加的次序索引可对OtherRefSetInterView[j]的视图间分量进行排序,其中j的范围是从0到NumOtherRefInterView-1(包含性)。视频编码器20可从0到NumOtherRefInterView-1逐步通过OtherRefSetInterView[j],直到视频编码器20找到合适的预测符。一旦视频编码器20找到合适的预测符参考视图,视频编码器20便选择所述预测符且不检查其它视图间分量。
视频编码器20可基于存取单元的当前视图分量的参考图片集产生当前视图分量的参考图片列表。参考图片集可包含一或多个视图间参考图片集,例如RefPicSetInterView、OtherRefSetInterView和本文描述的其它视图间参考集合,其包含属于所述存取单元且与不同视图相关联的多个视图分量。当产生参考图片列表时,视频编码器20可排除具有不属于RefPicSetInterView的索引的那些参考视图。因此,可仅用于除了视图间纹理预测之外的视图间预测类型(例如视图间运动预测或视图间残余预测)的那些参考视图不在参考图片列表初始化或修改中使用,如先前描述。
此外,视频编码器20可基于参考图片列表中的一或多个参考图片对当前视图分量进行编码。视频编码器20可产生包含指示当前视图分量的参考图片集的语法元素的位流。
此外,根据本发明的技术,视频解码器30可从位流剖析指示存取单元的当前视图分量的参考图片集的语法元素,所述参考图片集包含视图间参考图片集,所述视图间参考图片集包含属于所述存取单元且与不同视图相关联的多个视图分量。视频解码器30可基于参考图片集产生当前视图分量的参考图片列表。另外,视频解码器30可至少部分地基于参考图片列表中的一或多个参考图片对当前视图分量进行解码。
当视频译码器(例如视频编码器20或视频解码器30)初始化当前视图分量的参考图片列表0和1时,视频译码器在参考图片列表0和1中包含来自RefPicSetInterView的参考视图分量。在一些实例中,视频译码器产生参考图片列表0和1,使得参考图片列表0和1包含视图间参考图片集(RefPicSetInterView)的每一视图分量。视频译码器可根据各种预定义次序在参考图片列表0和1中的各种位置处包含来自RefPicSetInterView的参考视图分量。
在第一实例性次序中,视频译码器初始化参考图片列表0,使得RefPicSetStCurr0中的视图分量首先列出,之后是RefPicSetInterView中的视图分量、RefPicSetStCurr1中的视图分量和RefPicSetLtCurr中的视图分量。在此实例中,视频译码器初始化参考图片列表1,使得RefPicSetStCurr1中的视图分量首先列出,之后是RefPicSetInterView中的视图分量、RefPicSetStCurr0中的视图分量和RefPicSetLtCurr中的视图分量。因此,在此实例中,视频解码器30可产生参考图片列表(例如,列表0或列表1),使得第一子集(即,RefPicSetStCurr0)或第二子集(即,RefPicSetStCurr1)在参考图片列表中首先出现,之后是视图间参考图片集(即,RefPicSetInterView)。
在第二实例性次序中,视频译码器初始化参考图片列表0,使得RefPicSetStCurr0中的视图分量首先列出,之后是RefPicSetStCurr1中的视图分量、RefPicSetInterView中的视图分量和RefPicSetLtCurr中的视图分量。在此实例中,视频译码器初始化参考图片列表1,使得RefPicSetStCurr1中的视图分量首先列出,之后是RefPicSetStCurr0中的视图分量、RefPicSetInterView中的视图分量和RefPicSetLtCurr中的视图分量。因此,在此实例中,视频解码器30可产生参考图片列表(例如,列表0或列表1),使得第一子集(即,RefPicSetStCurr0)和第二子集(即,RefPicSetStCurr1)在参考图片列表中出现,之后是视图间参考图片集(即,RefPicSetInterView)。
在第三实例性次序中,视频译码器初始化参考图片列表0,使得RefPicSetStCurr0中的视图分量首先列出,之后是RefPicSetStCurr1中的视图分量、RefPicSetLtCurr中的视图分量和RefPicSetInterView中的视图分量。在此实例中,视频译码器初始化参考图片列表1,使得RefPicSetStCurr1中的视图分量首先列出,之后是RefPicSetStCurr0中的视图分量、RefPicSetLtCurr中的视图分量和RefPicSetInterView中的视图分量。因此,在此第三实例中,RefPicSetInterView(视图间参考图片集)的视图分量在参考图片列表0和1中最后出现。也就是说,在此实例中,视频解码器30可产生参考图片列表(例如,列表0或列表1),使得第一子集(即,RefPicSetStCurr0)、第二子集(即,RefPicSetStCurr1)、第五子集(即,RefPicSetLtCurr)在参考图片列表中出现,之后是视图间参考图片集(即,RefPicSetInterView)。
在一些实例中,RefPicSetInterView再分为两个子集:RefPicSetInterViewFwd和RefPicSetInterViewBwd。RefPicSetInterViewFwd包含RefPicSetInterView的具有小于当前视图分量的视图识别符的视图识别符的那些参考视图分量。RefPicSetInterViewBwd包含RefPicSetInterView的具有大于当前视图分量的视图识别符的视图识别符的那些参考视图分量。RefPicSetInterViewFwd中的视图分量的次序和RefPicSetInterViewBwd中的视图的次序与对应SPS中用信号表示的相同。也就是说,对于任何视图A和视图B,如果视图A和B两者具有大于当前视图的view_id的view_id值且视图A在SPS中在视图B之前,那么在RefPicSetInterViewBwd中视图A的视图分量在视图B的视图分量之前。如果视图A和B两者具有小于当前视图的view_id的view_id值且视图A在SPS中在视图B之前,那么在RefPicSetInterViewFwd中视图A的视图分量在视图B的视图分量之前。
在其它实例中,RefPicSetInterViewFwd包含RefPicSetInterView的具有小于当前视图分量的视图次序索引的视图次序索引的那些参考视图分量。RefPicSetInterViewBwd包含RefPicSetInterView的具有大于当前视图分量的视图次序索引的视图次序索引的那些参考视图分量。RefPicSetInterViewFwd中的视图分量的次序和RefPicSetInterViewBwd中的视图的次序与对应SPS中用信号表示的相同。也就是说,对于任何视图A和视图B,如果视图A和B两者具有大于当前视图的视图次序索引的视图次序索引值且视图A在SPS中在视图B之前,那么在RefPicSetInterViewBwd中视图A的视图分量在视图B的视图分量之前。如果视图A和B两者具有小于当前视图的视图次序索引的视图次序索引值且视图A在SPS中在视图B之前,那么在RefPicSetInterViewFwd中视图A的视图分量在视图B的视图分量之前。
在一些实例中,通过使用如序列参数集中用信号表示的视图相依性语法元素来导出RefPicSetInterView。在此些实例中,在当前视图分量属于等效于清洁随机存取(CRA)存取单元的锚点存取单元时,RefPicSetInterViewFwd可推导为等于anchor_ref_l0[i][j]。当针对所有j值当前视图分量属于非锚点存取单元时,RefPicSetInterViewFwd可推导为等于non_anchor_ref_l0[i][j]。在当前视图分量属于等效于CRA存取单元的锚点存取单元时,RefPicSetInterViewBwd推导为等于anchor_ref_l1[i][j]。当针对所有j值当前视图分量属于非锚点存取单元时,RefPicSetInterViewBwd可推导为等于non_anchor_ref_l0[i][j]。
在RefPicSetInterView再分为RefPicSetInterViewFwd和RefPicSetInterViewBwd的一些实例中,视频译码器可初始化参考图片列表0,使得参考图片列表0包含来自RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetLtCurr和RefPicSetInterViewFwd的参考视图分量,但不包含来自RefPicSetInterviewBwd的视图分量。视频译码器可初始化参考图片列表1,使得参考图片列表1包含来自RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetLtCurrn和RefPicSetInterviewBwd的参考视图分量,但不包含来自RefPicSetInterViewFwd的视图分量。
因此,视频译码器可产生第一参考图片列表(例如,列表0),使得第一参考图片列表包含视图间参考图片的第一子集(例如,RefPicInterViewFwd)且不包含视图间参考图片的第二子集(例如,RefPicInterViewBwd)。此外,视频译码器可产生第二参考图片列表(例如,列表1),使得第二参考图片列表包含视图间参考图片的第二子集(例如,RefPicInterViewBwd)且不包含视图间参考图片的第一子集(例如,RefPicInterViewFwd)。
或者,在RefPicSetInterView再分为RefPicSetInterViewFwd和RefPicSetInterViewBwd的一些实例中,视频译码器可根据上述第一、第二或第三实例性次序来初始化参考图片列表0和1。然而,当视频译码器在参考图片列表0中包含视图间参考视图分量时,视频译码器可在来自RefPicSetInterViewBwd的视图间参考视图分量之前包含来自RefPicSetInterViewFwd的每一视图间参考视图分量。当视频译码器在参考图片列表1中包含视图间参考视图分量时,视频译码器可在来自RefPicSetInterViewFwd的任何视图间参考视图分量之前包含来自RefPicSetInterViewBwd的每一视图间参考视图分量。
图4是说明可实施本发明的技术的视频编码器20的实例的框图。视频编码器20可执行视频帧(包含块或者块的分区或子分区)内的块的帧内和帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一者,且例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的压缩模式中的任一者。虽然图4中描述用于帧间模式编码的分量,但应了解,视频编码器20可进一步包含用于帧内模式编码的分量。然而,为了简明和清楚的原因未说明此些分量。
如图4中所示,视频编码器20接收待编码的视频帧内的当前视频块。在图4的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54,和熵译码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。针对视频块重构,视频编码器20还包含逆量化单元58、逆变换单元60以及求和器62。还可包含解块滤波器(图4中未图示)以对块边界进行滤波以从经重构视频移除成块假象。如果需要,解块滤波器将通常对求和器62的输出进行滤波。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。可将帧或切片划分为多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块执行对所接收视频块的帧间预测性译码,以提供时间压缩。帧内预测单元46或者可相对于与待译码的块相同的帧或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码,以提供空间压缩。视频编码器20可执行多个译码遍次,(例如)以选择用于每一视频数据块的适当译码模式。
而且,分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割为若干子块。举例来说,分割单元48可最初将帧或切片分割为若干LCU,且基于速率-失真分析(例如,速率-失真优化)将所述LCU中的每一者分割为若干子CU。模式选择单元40可进一步产生指示LCU到子CU的分割的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可(例如)基于错误结果而选择译码模式(帧内或帧间)中的一者,且将所得的经帧内或帧间译码的块提供到求和器50以产生残余块数据,且提供到求和器62以重构经编码块以用作参考帧。模式选择单元40还将语法元素(例如,运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供到熵译码单元56。
运动估计单元42与运动补偿单元44可为高度集成的,但为了概念性目的而单独说明。运动估计是产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可指示在预测性参考帧内的预测性块(或其它译码单元)相对于在当前帧内正译码的当前块(或其它译码单元)的位移。预测性块为就像素差来说被发现紧密匹配待译码的块的块,所述像素差可通过绝对差和(SAD)、平方差和(SSD)或其它差量度来确定。运动向量还可指示块的分区的位移。运动补偿可涉及基于由运动估计确定的运动向量而取得或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。
运动估计单元42通过将视频块与参考帧存储器64中的参考帧的视频块进行比较来计算经帧间译码帧的视频块的运动向量。运动补偿单元44还可内插参考帧(例如,I帧或P帧)的子整数像素。作为实例,ITU H.264标准描述两个列表:列表0,其包含具有比正编码的当前帧早的显示次序的参考帧,以及列表1,其包含具有比正编码的当前帧晚的显示次序的参考帧。因此,存储在参考帧存储器64中的数据可根据这些列表来组织。
运动估计单元42将来自参考帧存储器64的一或多个参考帧的块与当前帧(例如,P帧或B帧)的待编码的块进行比较。当参考帧存储器64中的参考帧包含子整数像素的值时,由运动估计单元42计算的运动向量可涉及参考帧的子整数像素位置。如果没有子整数像素位置的值存储在参考帧存储器64中,那么运动估计单元42和/或运动补偿单元44还可经配置以计算存储在参考帧存储器64中的参考帧的子整数像素位置的值。运动估计单元42将所计算的运动向量发送到熵译码单元56和运动补偿单元44。通过运动向量识别的参考帧块可称为预测性块。运动补偿单元44可基于预测性块计算预测数据。
作为对上述由运动估计单元42和运动补偿单元44执行的帧间预测的替代,帧内预测单元46可帧内预测当前块。特定来说,帧内预测单元46可确定使用帧内预测模式来编码当前块。在一些实例中,帧内预测单元46可(例如)在单独的编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中,模式选择单元40)可从所测试的模式选择待使用的适当的帧内预测模式。
举例来说,帧内预测单元46可使用针对各种经测试的帧内预测模式的速率-失真分析计算速率-失真值,且在经测试模式当中选择具有最好的速率-失真特性的帧内预测模式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或错误)的量以及用以产生经编码块的位率(即,位的数目)。帧内预测单元46可从失真和速率计算各种经编码块的比率,以确定哪一帧内预测模式展现块的最好的速率-失真值。在为块选择帧内预测模式之后,帧内预测单元46可将指示块的所选择帧内预测模式的信息提供到熵译码单元56。
视频编码器20通过从正译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将变换(例如,离散余弦变换(DCT)或概念上类似的变换)应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换,例如由H.264标准或即将到来的HEVC标准界定的那些变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处理单元52将变换应用于残余块,从而产生残余变换系数的块。变换可将残余信息从像素值域转换到变换域,例如频域。量化单元54量化残余变换系数以进一步减小位率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。
在量化之后,熵译码单元56对经量化变换系数进行熵译码。举例来说,熵译码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)或另一熵译码技术。在通过熵译码单元56熵译码之后,可将经编码视频发射到另一装置或加以存档以供稍后发射或检索。在上下文自适应二进制算术译码的情况下,上下文可基于相邻块。
在一些情况下,熵译码单元56或视频编码器20的另一单元可经配置以除了熵译码之外还执行其它译码功能。举例来说,熵译码单元56可经配置以确定块和分区的CBP值。而且,在一些情况下,熵译码单元56可执行块或其分区中的系数的延伸长度译码。特定来说,熵译码单元56可应用z字形扫描或其它扫描模式来扫描块或分区中的变换系数且对零的延伸进行编码以用于进一步压缩。熵译码单元56还可用适当语法元素构造标头信息以用于在经编码视频位流中发射。
逆量化单元58和逆变换单元60分别应用逆量化和逆变换,以在像素域中重构残余块(例如)以供稍后用作参考块。运动补偿单元44可通过将残余块加到参考帧存储器64的帧中的一者的预测性块而计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重构的残余块,以计算用于运动估计中的子整数像素值。求和器62将经重构的残余块加到由运动补偿单元44产生的经运动补偿预测块,以产生经重构的视频块以用于存储在参考帧存储器64中。经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块,以对后续视频帧中的块进行帧间译码。
视频编码器20可产生如上所述的若干语法元素,其可由熵编码单元56或视频编码器20的另一编码单元编码。在一些实例中,视频编码器20可产生且编码如上所述的用于MVC位流的语法元素。
如上所述,视频编码器20可用信号表示视图相依性,即解码器在视图间预测中可使用哪些视图以便重构给定视图。根据本发明的方面,如上所述,视频编码器20可进一步用信号表示与相依性视图相关联的视图间预测的类型。举例来说,视频编码器20可用信号表示特定相依性视图与用于给定视图的视图间纹理预测、视图间运动预测和/或视图间残余预测相关联。
同样如上所述,视频编码器20可用信号表示可缩放层相依性,即解码器在层间预测中可使用哪些可缩放层以便重构给定可缩放层。根据本发明的方面,同样如上所述,视频编码器20可进一步用信号表示与相依性可缩放层相关联的层间预测的类型。举例来说,视频编码器20可用信号表示特定相依性可缩放层与用于给定层的层间纹理预测、层间运动预测和/或层间残余预测相关联。
同样根据本发明的方面,视频编码器20可构造一或多个参考图片列表(列表0和列表1)。视频编码器20可进一步构造一或多个参考图片集(RPS)和子集。根据本发明的方面,视频编码器20可基于与候选参考视图相关联的视图间预测的类型来构造所述一或多个参考图片列表或者一或多个参考图片集或子集。举例来说,视频编码器可排除可仅用于一个类型的视图间预测(例如视图间纹理预测、视图间运动预测和视图间残余预测)的一些或全部参考候选视图。在适用于可缩放视频译码技术的实例中,视频编码器20可基于与候选可缩放层相关联的层间预测的类型来构造一或多个参考图片列表和一或多个参考图片集或子集。
图5是说明可实施本发明的技术的视频解码器30的实例的框图。在图5的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考帧存储器82以及求和器80。在一些实例中,视频解码器30可执行与相对于视频编码器20(图4)所述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72和帧内预测单元74。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。
举例来说,视频解码器30可从视频编码器20接收各种参数集中的若干语法元素。参数集可含有序列层级标头信息,例如SPS、PPS或上文描述的其它参数集。
根据本发明的方面,视频解码器30可接收指示视图间预测参考之间的视图相依性的语法元素。举例来说,通过允许视频解码器30执行上述视图间预测过程中的一或多者(即,视图间纹理预测、视图间运动预测和视图间残余预测),一或多个语法元素可针对给定视图指定可由视频解码器30用来重构给定视图的所有视图间相依性视图。视频解码器30还可接收指示与每一相依性视图间参考相关联的视图间预测的一或多个类型的一或多个其它语法元素。
在一些实例中,根据本发明的方面,视频解码器30可推导一或多个参考图片列表或参考图片集(RPS)或子集。举例来说,视频解码器30可接收指示视图间参考之间的视图间相依性的一或多个语法元素。另外,视频解码器30可接收指示用于视图间参考图片中的每一者的视图间预测的类型(即,视图间纹理、视图间运动和视图间残余预测)的一或多个语法元素。基于与每一视图间参考相关联的视图间预测的一或多个类型,或在一些实例中基于与每一视图间参考相关联的视图间预测的不同类型的数目,视频解码器30可构造参考图片列表、集合或子集以便排除或最小化仅与特定类型的视图间预测相关联的最终列表、集合和子集中包含的视图间参考。替代地,视频解码器30可构造参考图片列表、集合或子集以便排除或最小化仅与单个类型的视图间预测相关联的最终列表、集合和子集中包含的视图间参考。此外,视频译码器30可相对于可缩放视频译码技术以类似方式操作,不同的是相依性为层间相依性。
运动补偿单元72可使用位流中接收的运动向量来识别参考帧存储器82中的参考帧中的预测块。帧内预测单元74可使用位流中接收的帧内预测模式来从空间邻近块形成预测块。逆量化单元76逆量化(即,解量化)在位流中提供且由熵解码单元70解码的经量化块系数。逆量化过程可包含例如由H.264解码标准界定的常规过程。逆量化过程还可包含针对每一块使用由编码器20计算出的量化参数QPY来确定量化程度和(同样)应应用的逆量化的程度。
逆变换单元58将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便在像素域中产生残余块。运动补偿单元72可能基于内插滤波器执行内插而产生经运动补偿块。用于将用于具有子像素精度的运动估计的内插滤波器的识别符可包含在语法元素中。运动补偿单元72可使用在视频块的编码期间由视频编码器20使用的内插滤波器来计算参考块的子整数像素的经内插值。运动补偿单元72可根据所接收语法信息确定由视频编码器20使用的内插滤波器且使用内插滤波器来产生预测性块。
运动补偿单元72使用一些语法信息来确定:用以对经编码视频序列的帧进行编码的块的大小,描述经编码视频序列的帧的每一块如何分割的分割信息,指示每一分区如何编码的模式,用于每一经帧间编码块或分区的一或多个参考帧(和参考帧列表),以及用以对经编码视频序列进行解码的其它信息。
求和器80将残余块与由运动补偿单元72或帧内预测单元74产生的对应预测块求和以形成经解码块。如果需要,那么还可应用解块滤波器以对经解码块进行滤波以便移除成块假象。随后将经解码视频块存储在参考帧存储器82中,所述参考帧存储器提供用于后续运动补偿的参考块且还产生经解码视频用于在显示装置(例如图1的显示装置32)上呈现。
图6是说明对多视图位流进行编码的实例性方法的流程图。图6中所示的实例一般描述为由视频编码器20(图1和4)执行。然而应了解,相对于图6描述的过程可由多种其它处理器、处理单元、基于硬件的译码单元(例如编码器/解码器(CODEC))和类似物实施。
在图6的实例中,视频编码器20可对用于多个视图分量的视频数据进行编码(110)。举例来说,视频编码器20可对多个多个不同视图进行编码,其中每一视图对应于俘获到共同场景的对应视频数据的不同视角或角度。如上所述,特定视图的特定图片称为视图分量。也就是说,视图的视图分量对应于视图的特定时间实例。
视频编码器20还可对视图相依性关系的指示进行编码(112)。举例来说,对于给定视图,视频编码器20可使用其它视图来预测给定视图中的数据。如上所述,此预测可为视图间预测,且更具体来说,可为视图间纹理预测或其它视图间预测,例如视图间运动预测或视图间残余预测。视频编码器20可确定视频编码器20在给定视图的一部分的视图间预测中可使用的每一视图是相依性视图。如上所述,视频编码器20可指定这些视图间预测参考作为例如RefPicList0和RefPicList1等列表中的相依性视图。此外,视频编码器20可通过使用一或多个语法元素来跟踪与给定视图相关联的视图间预测参考。举例来说,如上所述,视频编码器20可使用例如ref_view_idx[i][j]等语法元素来指定视图间预测参考的视图次序索引。
在一些实例中,根据本发明的方面,视频编码器20可对与每一相依性视图相关联的指示进行编码,所述指示指定与相依性视图相关联的预测的类型(114)。举例来说,每一视图间预测参考可与用于给定视图的一或多个类型的帧间预测相关联。视频编码器20可确定视图间预测参考与哪些帧间预测类型相关联(即,视图间纹理预测、视图间运动预测和视图间残余预测中的一或多者)。视频编码器20可使用一或多个语法元素指示与每一视图间预测参考相关联的帧间预测的类型。
根据本发明的方面,如上所述,视频编码器20可对例如inter_view_texture_flag[i][j]等语法元素进行编码以指定具有等于ref_view_idx[i][j]的视图次序索引的视图间预测参考是否将包含在将用于参考图片列表构造的视图间RPS子集中。在至少一些实例中,当inter_view_texture_flag[i][j]设定为等于0时,这可意味着具有等于ref_view_idx[i][j]的视图次序索引的视图间预测参考不在视图间纹理预测中使用。
根据本发明的方面,视频编码器20可对可指定与视图间预测参考相关联的额外类型的帧间预测的额外语法元素进行编码。举例来说,如先前描述,视频编码器20可使用例如InterViewOtherFlag[i][j]等语法元素。InterViewOtherFlag[i][j]可指示具有等于ref_view_idx[i][j]的视图次序索引的视图间预测参考是否可用于给定视图i的其它视图间预测,例如视图间纹理预测或视图间残余预测。
在根据本发明的方面的其它实例中,视频编码器可采用另一语法元素,例如inter_view_texture_idc[i][j],其可指示具有等于ref_view_idx[i][j]的视图次序索引的视图间预测参考是否可用于视图间纹理预测且视图间预测参考是否可用于其它视图间预测。基于inter_view_texture_idc[i][j]的确定,视频编码器20可推导其它语法元素,例如inter_view_texture_flag[i][j]和InterViewOtherFlag[i][j]。
如先前描述,与相对于图6描述的相同的技术可在可缩放视频译码实施方案的上下文中应用,不同的是与视图间相依性相反,相依性涉及层间相依性。
图7是说明对多视图位流进行解码的实例性方法的流程图。图7中所示的实例一般描述为由视频解码器30(图1和5)执行。然而应了解,相对于图7描述的过程可由多种其它处理器、处理单元、基于硬件的译码单元(例如编码器/解码器(CODEC))和类似物实施。
在图7的实例中,视频解码器30可接收用于多个视图分量的经编码视频数据(150)。经编码视频数据可包含多个不同视图,其中每一视图对应于俘获到共同场景的对应视频数据的不同视角或角度。
根据本发明的方面,如相对于图6描述,视频解码器30可另外接收视图相依性的指示(152)。举例来说,视频解码器30可接收指示视图之间的视图相依性关系的一或多个语法元素或者参考图片列表或集合。
根据本发明的方面,视频解码器也可接收与每一相依性视图相关联的指示,所述指示指定与相依性视图相关联的预测的类型(154)。举例来说,视频解码器30可从视频编码器20或介入装置接收一或多个语法元素。例如相对于图6描述的inter_view_texture_flag[i][j]、inter_view_texture_idc[i][j]和InterViewOtherFlag[i][j]等这些语法元素可指示给定视图i与所有给定视图i的相依性视图之间的一或多个特定类型的帧间预测关系。
视频解码器30还可使用所接收信息对多视图视频数据进行解码(156)。也就是说,例如视频解码器可对视图中的每一者进行解码,且使用所接收单独信息确定适当视图识别符。视频解码器30可随后使用视图例如在显示装置32上呈现3D表示。
如先前描述,相对于图7描述的相同的技术可在可缩放视频译码实施方案的上下文中应用,不同的是与视图间相依性相反,相依性涉及层间相依性。
图8是说明对多视图位流进行编码的实例性方法的流程图。图8中所示的实例一般描述为由视频编码器20(图1和4)执行。在其它实例中,相对于图8描述的过程可由多种其它处理器、处理单元、基于硬件的译码单元(例如编码器/解码器(CODEC))和类似物实施。在图8的实例中,视频编码器20可基于当前视图分量的参考图片集产生参考图片列表,所述参考图片集包含排除了与仅视图间运动或残余预测相关联的视图间参考的视图间参考图片集(210)。
根据本发明的方面,在至少一个实例中,视频编码器20可用信号表示与视图间预测参考相关联的特定视图间预测类型。举例来说,视频编码器20可使用例如本文先前描述且相对于图6进一步描述的一或多个语法元素。另外,视频编码器20可推导包含一或多个参考图片集的参考图片集,例如RefPicSetInterView和OtherRefSetInterView。在一些实例中,视频编码器20可推导RefPicSetInterView以排除仅与除了视图间纹理预测之外的视图间预测(例如视图间运动预测或视图间残余预测)相关联的视图间参考。在视图间参考图片集中包含仅与除了视图间纹理预测之外的视图间预测相关联的视图间参考可能降低译码效率。视频编码器20还可推导OtherRefSetInterView,其可为包含与除了视图间纹理预测之外的类型的视图间预测相关联的所有视图间参考的参考图片集。但这不排除也与视图间纹理预测相关联的那些视图间参考。
视频编码器20还可基于参考图片列表中的一或多个参考图片对当前视图分量进行编码(212)。视频编码器20可产生包含指示当前视图分量的参考图片集的语法元素的位流(214)。
应了解,相对于图8展示和描述的步骤仅作为一个实例来提供。也就是说,图8的方法的步骤无需一定以图8中所示的次序执行,且可执行更少、额外或替代的步骤。
如先前描述,相对于图8描述的相同的技术可在可缩放视频译码实施方案的上下文中应用,不同的是与视图间相依性相反,相依性涉及层间相依性。
图9是说明对多视图位流进行解码的实例性方法的流程图。图9中所示的实例一般描述为由视频解码器30(图1和5)执行。在其它实例中,相对于图9描述的过程可由多种其它处理器、处理单元、基于硬件的译码单元(例如编码器/解码器(CODEC))和类似物实施。
在图9所示的实例中,视频解码器30可从位流剖析指示存取单元的当前视图分量的参考图片集的语法元素,所述参考图片集包含排除了与仅视图间运动或残余预测相关联的视图间参考的视图间参考图片集(250)。举例来说,例如本文先前描述且相对于图6进一步描述的语法元素中的一或多者指定与相依性视图相关联的帧间预测关系。根据本发明的方面,语法元素还可指定包含一或多个参考图片集的参考图片集,例如RefPicSetInterView和OtherRefSetInterView。在一些实例中,RefPicSetInterView可为排除仅与除了视图间纹理预测之外的视图间预测(例如视图间运动预测或视图间残余预测)相关联的视图间参考的参考图片集。OtherRefSetInterView可为包含与除了视图间纹理预测之外的类型的视图间预测相关联的所有视图间参考的参考图片集。但这不排除也与视图间纹理预测相关联的那些视图间参考。根据一些实例,视频解码器30可基于经剖析语法元素推导所述一或多个参考图片集。
根据本发明的方面,在至少一个实例中,视频解码器30可基于参考图片集产生当前视图分量的参考图片列表(252)。视频解码器30还可基于参考图片列表中的一或多个参考图片对当前视图分量进行编码(253)。
应了解,相对于图9展示和描述的步骤仅作为一个实例来提供。也就是说,图9的方法的步骤无需一定以图9中所示的次序执行,且可执行更少、额外或替代的步骤。
如先前描述,相对于图9描述的相同的技术可在可缩放视频译码实施方案的上下文中应用,不同的是与视图间相依性相反,相依性涉及层间相依性。
虽然相对于本发明描述的某些语法元素为了阐释目的已提供实例性名称,但应了解无论名称如何,本发明中描述的概念都较一般地适用于任何语法元素。举例来说,虽然某些方面涉及“inter_view_texture_flag[i][j]”、“inter_view_texture_idc[i][j]”或“InterViewOtherFlag[i][j]”,但应了解,此语法元素在未来译码标准中可被给出替代名称。
虽然相对于MVC/AVC和其它经修改译码技术(包含新兴的HEVC标准)描述本发明的某些技术,但应了解,所述技术不限于任何特定译码标准。也就是说,所述技术较一般地涉及例如通过除了用信号表示视图间参考作为相依性视图之外还用信号表示与视图间参考相关联的视图间预测的类型来实现多视图视频译码中的译码效率。在一些实例中,基于与视图间参考相关联的一或多个类型的视图间预测,可从参考图片列表排除某些视图间参考。在其它实例中,基于与视图间图片参考相关联的视图间预测类型的数目,可从参考图片列表排除视图间参考。使仅可用于视图间纹理预测或更一般地仅可用于单个类型的视图间预测的参考图片列表中包含的视图间参考最小化可通过允许较小的参考图片列表而增加译码效率。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任一组合实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体等有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
举例来说且并非限制,计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射指令,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。然而应了解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而替代地针对非暂时性有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。
在再其它实例中,本发明预期包括存储于其上的数据结构的计算机可读媒体,其中所述数据结构包含与本发明一致的经编码位流。特定来说,经编码位流可包含用以用信号表示视图相依性的第一语法元素,以及用以用信号表示与视图相依性中的一或多者相关联的预测类型的第二语法元素。此些语法元素可在序列参数集(SPS)中用信号表示。
可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文使用的术语“处理器”可指代前述结构或适于实施本文所述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。而是如上文所述,各种单元可组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所述的一或多个处理器)的集合结合合适的软件和/或固件来提供。
已描述各种实例。这些和其它实例在所附权利要求书的范围内。

Claims (38)

1.一种对视频数据进行解码的方法,所述方法包括:
从经译码位流获得与给定层相关联的层相依性;以及
从经译码位流获得与所述层相依性中的一或多者相关联的预测类型。
2.根据权利要求1所述的方法,其中所述层是以下各项中的一者:
视图;
视图的纹理分量;
视图的深度分量;
空间可缩放层;以及
质量可缩放层。
3.根据权利要求1所述的方法,其进一步包括:
从经译码位流获得用以用信号表示所述层相依性的第一语法元素;以及
从经译码位流获得用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素。
4.根据权利要求1所述的方法,其中获得所述预测类型包括获得可用于层间纹理预测的一或多个层的指示。
5.根据权利要求1所述的方法,其中获得所述预测类型包括获得不可用于层间纹理预测的一或多个层的指示。
6.根据权利要求1所述的方法,其中获得所述预测类型包括获得可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示。
7.根据权利要求1所述的方法,其中获得层相依性和获得所述预测类型两者在序列参数集中发生。
8.一种对视频数据进行编码的方法,所述方法包括:
产生与给定层相关联的层相依性;以及
产生与所述层相依性中的一或多者相关联的预测类型。
9.根据权利要求8所述的方法,其中所述层是以下各项中的一者:
视图;
视图的纹理分量;
视图的深度分量;
空间可缩放层;以及
质量可缩放层。
10.根据权利要求8所述的方法,其中所述产生包含在经译码位流中用信号表示。
11.根据权利要求8所述的方法,其进一步包括:
产生用以用信号表示所述层相依性的第一语法元素;以及
产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素。
12.根据权利要求8所述的方法,其中产生所述预测类型包括产生可用于层间纹理预测的一或多个层的指示。
13.根据权利要求8所述的方法,其中产生所述预测类型包括产生不可用于层间纹理预测的一或多个层的指示。
14.根据权利要求8所述的方法,其中产生所述预测类型包括产生可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示。
15.根据权利要求8所述的方法,其中所述产生包括在序列参数集中产生且用信号表示所述层相依性和所述预测类型。
16.一种用于对视频数据进行译码的设备,其包括经配置以进行以下操作的一或多个处理器:
对与给定层相关联的层相依性进行译码;以及
对与所述层相依性中的一或多者相关联的预测类型进行译码。
17.根据权利要求16所述的设备,其中所述层是以下各项中的一者:
视图;
视图的纹理分量;
视图的深度分量;
空间可缩放层;以及
质量可缩放层。
18.根据权利要求16所述的设备,其进一步包括经配置以存储视频数据且与所述处理器通信的存储器。
19.根据权利要求16所述的设备,其中对视频数据进行译码包括编码,且其中所述编码包括在经译码位流中产生和用信号表示,所述产生包括:
产生用以用信号表示所述层相依性的第一语法元素;以及
产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素。
20.根据权利要求16所述的设备,其中对视频数据进行译码包括解码,且其中所述解码包括:
从经译码位流获得用信号表示所述层相依性的第一语法元素;以及
从经译码位流获得用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素。
21.根据权利要求16所述的设备,其中对所述预测类型进行译码包括对可用于层间纹理预测的一或多个层的指示进行译码。
22.根据权利要求16所述的设备,其中对所述预测类型进行译码包括对不可用于层间纹理预测的一或多个层的指示进行译码。
23.根据权利要求16所述的设备,其中对所述预测类型进行译码包括对可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示进行译码。
24.根据权利要求16所述的设备,其中所述译码包括在序列参数集中译码且用信号表示所述层相依性和所述预测类型。
25.一种对视频数据进行译码的装置,所述装置包括:
用于对与给定层相关联的层相依性进行译码的装置;以及
用于对与所述层相依性中的一或多者相关联的预测类型进行译码的装置。
26.根据权利要求25所述的装置,其中所述层是以下各项中的一者:
视图;
视图的纹理分量;
视图的深度分量;
空间可缩放层;以及
质量可缩放层。
27.根据权利要求25所述的装置,其中所述用于对层相依性进行译码的装置包括:
用于产生用以用信号表示所述层相依性的第一语法元素的装置;且
其中用于对预测类型进行译码的装置包括用于产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素的装置。
28.根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括用于对可用于层间纹理预测的一或多个层的指示进行译码的装置。
29.根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括用于对不可用于层间纹理预测的一或多个层的指示进行译码的装置。
30.根据权利要求25所述的装置,其中所述用于对所述预测类型进行译码的装置包括用于对可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示进行译码的装置。
31.根据权利要求25所述的装置,其中所述用于对层相依性进行译码的装置和所述用于对所述预测类型进行译码的装置两者包括用于产生序列参数集的一部分的装置。
32.一种其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使用于对视频数据进行译码的设备的一或多个处理器进行以下操作:
对与给定层相关联的层相依性进行译码;
对与所述层相依性中的一或多者相关联的预测类型进行译码。
33.根据权利要求32所述的非暂时性计算机可读存储媒体,其中所述层是以下各项中的一者:
视图;
视图的纹理分量;
视图的深度分量;
空间可缩放层;以及
质量可缩放层。
34.根据权利要求32所述的非暂时性计算机可读存储媒体,其进一步包括致使所述一或多个处理器进行以下操作的指令:
产生用以用信号表示所述层相依性的第一语法元素;以及
产生用以用信号表示与所述层相依性中的一或多者相关联的所述预测类型的第二语法元素。
35.根据权利要求32所述的非暂时性计算机可读存储媒体,其中用信号表示所述预测类型包括用于用信号表示可用于层间纹理预测的一或多个层的指示的装置。
36.根据权利要求32所述的非暂时性计算机可读存储媒体,其中对所述预测类型进行
译码包括对不可用于层间纹理预测的一或多个层的指示进行译码。
37.根据权利要求32所述的非暂时性计算机可读存储媒体,其中对所述预测类型进行译码包括对可仅用于层间运动预测或可仅用于残余预测的一或多个层的指示进行译码。
38.根据权利要求32所述的非暂时性计算机可读存储媒体,其中对层相依性进行译码和对所述预测类型进行译码两者包括对序列参数集的部分进行译码。
CN201380021044.6A 2012-04-23 2013-04-23 多视图译码和3d译码中的视图相依性 Active CN104272741B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261637197P 2012-04-23 2012-04-23
US61/637,197 2012-04-23
US13/867,924 US10205961B2 (en) 2012-04-23 2013-04-22 View dependency in multi-view coding and 3D coding
US13/867,924 2013-04-22
PCT/US2013/037760 WO2013163155A1 (en) 2012-04-23 2013-04-23 View dependency in multi-view coding and 3d coding

Publications (2)

Publication Number Publication Date
CN104272741A true CN104272741A (zh) 2015-01-07
CN104272741B CN104272741B (zh) 2019-01-22

Family

ID=49380099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380021044.6A Active CN104272741B (zh) 2012-04-23 2013-04-23 多视图译码和3d译码中的视图相依性

Country Status (5)

Country Link
US (1) US10205961B2 (zh)
EP (1) EP2842328B1 (zh)
JP (2) JP2015515228A (zh)
CN (1) CN104272741B (zh)
WO (1) WO2013163155A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108605136A (zh) * 2016-02-15 2018-09-28 高通股份有限公司 基于图片次序计数的运动矢量精简
CN110832874A (zh) * 2017-07-25 2020-02-21 高通股份有限公司 用于改进内容呈现的系统和方法
CN112468818A (zh) * 2021-01-22 2021-03-09 腾讯科技(深圳)有限公司 视频通信的实现方法及装置、介质和电子设备
CN113632482A (zh) * 2019-09-20 2021-11-09 腾讯美国有限责任公司 视频码流中可缩放性参数的信号传送

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3661199A1 (en) * 2010-07-15 2020-06-03 GE Video Compression, LLC Hybrid video coding supporting intermediate view synthesis
CN108391135B (zh) 2011-06-15 2022-07-19 韩国电子通信研究院 可伸缩解码方法/设备、可伸缩编码方法/设备和介质
CN110035286B (zh) * 2012-07-09 2021-11-12 Vid拓展公司 用于多层视频编码的编解码器架构
US9438898B2 (en) * 2012-09-07 2016-09-06 Vid Scale, Inc. Reference picture lists modification
WO2014038905A2 (ko) * 2012-09-09 2014-03-13 엘지전자 주식회사 영상 복호화 방법 및 이를 이용하는 장치
US9706199B2 (en) * 2012-09-28 2017-07-11 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
US9544612B2 (en) * 2012-10-04 2017-01-10 Intel Corporation Prediction parameter inheritance for 3D video coding
US9900609B2 (en) * 2013-01-04 2018-02-20 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
CN105409215B (zh) 2013-01-11 2018-10-09 华为技术有限公司 深度预测模式选择方法及装置
CN105308966B (zh) * 2013-04-05 2019-01-04 三星电子株式会社 视频编码方法及其设备以及视频解码方法及其设备
US9473546B2 (en) * 2013-04-23 2016-10-18 Cisco Technology, Inc. Reducing real time media traffic in a network environment
US9510001B2 (en) * 2013-07-09 2016-11-29 Electronics And Telecommunications Research Institute Video decoding method and apparatus using the same
CN105210370B (zh) * 2013-07-10 2019-04-12 夏普株式会社 运动图像解码装置
JP5774652B2 (ja) 2013-08-27 2015-09-09 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN110867190B (zh) * 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
KR20150075041A (ko) * 2013-12-24 2015-07-02 주식회사 케이티 멀티 레이어 비디오 신호 인코딩/디코딩 방법 및 장치
US9948950B2 (en) * 2014-01-03 2018-04-17 Qualcomm Incorporated Disparity vector and/or advanced residual prediction for video coding
JP2015136057A (ja) * 2014-01-17 2015-07-27 ソニー株式会社 通信装置、通信データ生成方法、および通信データ処理方法
US20150264404A1 (en) * 2014-03-17 2015-09-17 Nokia Technologies Oy Method and apparatus for video coding and decoding
WO2015147427A1 (ko) 2014-03-24 2015-10-01 주식회사 케이티 멀티 레이어 비디오 신호 인코딩/디코딩 방법 및 장치
CN107077855B (zh) 2014-07-28 2020-09-22 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
EP4262213A1 (en) 2015-02-27 2023-10-18 Sony Group Corporation Transmitting device, transmitting method, receiving device and receiving method
US10063861B2 (en) * 2015-10-07 2018-08-28 Qualcomm Incorporated Methods and systems of performing predictive random access using a background picture

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5612735A (en) * 1995-05-26 1997-03-18 Luncent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing two disparity estimates
US20060133482A1 (en) * 2004-12-06 2006-06-22 Seung Wook Park Method for scalably encoding and decoding video signal
US20080089411A1 (en) * 2006-10-16 2008-04-17 Nokia Corporation Multiple-hypothesis cross-layer prediction
CN101248670A (zh) * 2005-09-22 2008-08-20 三星电子株式会社 估计视差矢量的方法以及使用该视差矢量估计方法对多视角运动图像编码和解码的方法和设备
CN101292538A (zh) * 2005-10-19 2008-10-22 汤姆森特许公司 使用可缩放的视频编码的多视图视频编码
CN101356822A (zh) * 2006-01-10 2009-01-28 汤姆逊许可公司 用于构造可伸缩视频的参考图像列表的方法和设备
WO2010126608A2 (en) * 2009-05-01 2010-11-04 Thomson Licensing 3d video coding formats
US20120013746A1 (en) * 2010-07-15 2012-01-19 Qualcomm Incorporated Signaling data for multiplexing video components

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8823821B2 (en) 2004-12-17 2014-09-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using motion vector predictor list
US7616199B2 (en) 2005-09-20 2009-11-10 Siemens Medical Solutions Usa, Inc. System and method for interleaved slice volume rendering
US8644386B2 (en) 2005-09-22 2014-02-04 Samsung Electronics Co., Ltd. Method of estimating disparity vector, and method and apparatus for encoding and decoding multi-view moving picture using the disparity vector estimation method
JP5213064B2 (ja) 2006-03-29 2013-06-19 トムソン ライセンシング マルチビュービデオ符号化方法及びその装置
KR100934674B1 (ko) 2006-03-30 2009-12-31 엘지전자 주식회사 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치
US7535383B2 (en) * 2006-07-10 2009-05-19 Sharp Laboratories Of America Inc. Methods and systems for signaling multi-layer bitstream data
JP2010507346A (ja) * 2006-10-16 2010-03-04 ヴィドヨ,インコーポレーテッド スケーラブルビデオ符号化においてシグナリング及び時間レベルスイッチングを実施するためのシステム及び方法
WO2008047258A2 (en) * 2006-10-20 2008-04-24 Nokia Corporation System and method for implementing low-complexity multi-view video coding
US20080095235A1 (en) * 2006-10-20 2008-04-24 Motorola, Inc. Method and apparatus for intra-frame spatial scalable video coding
EP2103136B1 (en) 2006-12-21 2017-11-01 Thomson Licensing Methods and apparatus for improved signaling using high level syntax for multi-view video coding and decoding
KR20090004659A (ko) * 2007-07-02 2009-01-12 엘지전자 주식회사 디지털 방송 시스템 및 데이터 처리 방법
CN101999228A (zh) 2007-10-15 2011-03-30 诺基亚公司 针对多视角视频内容的运动跳跃和单环路编码
JP2010016454A (ja) * 2008-07-01 2010-01-21 Sony Corp 画像符号化装置および方法、画像復号装置および方法、並びにプログラム
CA2730543C (en) * 2008-07-16 2014-04-22 Nokia Corporation Method and apparatus for track and track subset grouping
US8391356B1 (en) * 2009-02-18 2013-03-05 Sprint Communications Company L.P. Scalable video coding priority marking
US20120075436A1 (en) * 2010-09-24 2012-03-29 Qualcomm Incorporated Coding stereo video data
EP2630799A4 (en) * 2010-10-20 2014-07-02 Nokia Corp METHOD AND DEVICE FOR VIDEO CODING AND DECODING
US9565449B2 (en) 2011-03-10 2017-02-07 Qualcomm Incorporated Coding multiview video plus depth content
US11496760B2 (en) 2011-07-22 2022-11-08 Qualcomm Incorporated Slice header prediction for depth maps in three-dimensional video codecs
US9635355B2 (en) 2011-07-28 2017-04-25 Qualcomm Incorporated Multiview video coding
US9674525B2 (en) 2011-07-28 2017-06-06 Qualcomm Incorporated Multiview video coding
US9258559B2 (en) * 2011-12-20 2016-02-09 Qualcomm Incorporated Reference picture list construction for multi-view and three-dimensional video coding
US9351004B2 (en) * 2011-12-27 2016-05-24 Ati Technologies Ulc Multiview video coding reference picture selection under a one reference picture constraint
WO2013115942A1 (en) * 2012-02-01 2013-08-08 Vidyo, Inc. Techniques for multiview video coding

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5612735A (en) * 1995-05-26 1997-03-18 Luncent Technologies Inc. Digital 3D/stereoscopic video compression technique utilizing two disparity estimates
US20060133482A1 (en) * 2004-12-06 2006-06-22 Seung Wook Park Method for scalably encoding and decoding video signal
CN101248670A (zh) * 2005-09-22 2008-08-20 三星电子株式会社 估计视差矢量的方法以及使用该视差矢量估计方法对多视角运动图像编码和解码的方法和设备
CN101292538A (zh) * 2005-10-19 2008-10-22 汤姆森特许公司 使用可缩放的视频编码的多视图视频编码
CN101356822A (zh) * 2006-01-10 2009-01-28 汤姆逊许可公司 用于构造可伸缩视频的参考图像列表的方法和设备
US20080089411A1 (en) * 2006-10-16 2008-04-17 Nokia Corporation Multiple-hypothesis cross-layer prediction
WO2010126608A2 (en) * 2009-05-01 2010-11-04 Thomson Licensing 3d video coding formats
WO2010126613A2 (en) * 2009-05-01 2010-11-04 Thomson Licensing Inter-layer dependency information for 3dv
WO2010126613A3 (en) * 2009-05-01 2010-12-29 Thomson Licensing Inter-layer dependency information for 3dv
US20120013746A1 (en) * 2010-07-15 2012-01-19 Qualcomm Incorporated Signaling data for multiplexing video components

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y-J JEON ET AL: "《High level syntax for motion skip mode》", 《JOINT VIDEO TEAM (JVT) OF ISO/IEC MPEG & ITU-T VCEG》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108605136A (zh) * 2016-02-15 2018-09-28 高通股份有限公司 基于图片次序计数的运动矢量精简
CN110832874A (zh) * 2017-07-25 2020-02-21 高通股份有限公司 用于改进内容呈现的系统和方法
CN110832874B (zh) * 2017-07-25 2021-12-07 高通股份有限公司 用于改进内容呈现的系统和方法
CN113632482A (zh) * 2019-09-20 2021-11-09 腾讯美国有限责任公司 视频码流中可缩放性参数的信号传送
CN113632482B (zh) * 2019-09-20 2024-04-19 腾讯美国有限责任公司 视频解码方法、装置、计算机设备和存储介质
CN112468818A (zh) * 2021-01-22 2021-03-09 腾讯科技(深圳)有限公司 视频通信的实现方法及装置、介质和电子设备

Also Published As

Publication number Publication date
JP6629363B2 (ja) 2020-01-15
JP2018110413A (ja) 2018-07-12
EP2842328B1 (en) 2020-12-09
WO2013163155A1 (en) 2013-10-31
JP2015515228A (ja) 2015-05-21
CN104272741B (zh) 2019-01-22
EP2842328A1 (en) 2015-03-04
US20130279576A1 (en) 2013-10-24
US10205961B2 (en) 2019-02-12

Similar Documents

Publication Publication Date Title
CN104272741A (zh) 多视图译码和3d译码中的视图相依性
CN105122812B (zh) 用于三维(3d)视频译码的高级合并模式
CN103733626B (zh) 多视图视频译码
CN105379288B (zh) 处理对视频译码的照明补偿
CN103718561B (zh) 多视图视频译码
CN103155571B (zh) 译码立体视频数据
CN104025602B (zh) 三维视频译码中用信号通知视图合成预测支持
CN103650505B (zh) 视频译码中的运动向量预测
CN104769948B (zh) 一种编解码方法、装置及可读存储介质
CN104584557B (zh) 对视频数据进行编码、解码的方法、装置以及计算机可读介质
CN104335589A (zh) 用于视频译码的视图间预测的视差向量产生
CN104885459B (zh) 用于多层译码的多分辨率经解码图片缓冲器管理
CN105580364A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN105580365A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN104969551A (zh) 可缩放及多视角视频译码中的高级残差预测
CN105052146A (zh) 对3d视频译码中的视差向量导出和运动向量预测的简化
CN104769949A (zh) 用于视差向量导出的图片的选择
CN106105212A (zh) 简化的子预测单元(sub‑pu)运动参数继承(mpi)
CN103733620A (zh) 具有不对称空间分辨率的三维视频
CN105144715A (zh) 后向视图合成预测
CN104813668A (zh) 在三维视频译码中的自适应性明度补偿
CN104662909A (zh) 用于3d视频的视图间运动预测
CN105934948A (zh) 用于3d视频译码中的深度帧内和帧间预测模式的简化深度译码(sdc)的信令
CN104126305A (zh) 用于多视图视频译码mvc兼容三维视频译码3dvc的序列等级信息
CN106063262A (zh) 3d视频译码中的增量dc残差译码的简化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant