CN104584558B - 用于3d视频的视图间预测的运动向量 - Google Patents

用于3d视频的视图间预测的运动向量 Download PDF

Info

Publication number
CN104584558B
CN104584558B CN201380043127.5A CN201380043127A CN104584558B CN 104584558 B CN104584558 B CN 104584558B CN 201380043127 A CN201380043127 A CN 201380043127A CN 104584558 B CN104584558 B CN 104584558B
Authority
CN
China
Prior art keywords
motion vector
reference picture
picture
order count
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380043127.5A
Other languages
English (en)
Other versions
CN104584558A (zh
Inventor
陈颖
张莉
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104584558A publication Critical patent/CN104584558A/zh
Application granted granted Critical
Publication of CN104584558B publication Critical patent/CN104584558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种视频译码器,其确定与在第一方向上指向的对应块的第一运动向量相关联的第一参考图片的第一图片次序计数POC值,且确定用于当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片;响应于所述参考图片列表不包含具有所述第一POC值的所述参考图片,确定与在第二方向上指向的所述对应块的第二运动向量相关联的第二参考图片的第二POC值、确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片,且响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片,使用所述对应块的所述第二运动向量来解码当前运动向量。

Description

用于3D视频的视图间预测的运动向量
本申请案主张2012年8月16日申请的美国临时申请案第61/684,100号的权利,所述临时申请案的全部内容被以引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数码记录装置、数字媒体播放器、视频游戏装置、视频游戏主控台、蜂窝式或卫星无线电电话、所谓“智能手机”、视频电传会议装置、视频流式传输装置和其类似者。数字视频装置实施视频压缩技术,例如,由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分的先进视频译码(AVC)、目前在开发中的高效率视频译码(HEVC)和此类标准的延伸定义的标准中描述的技术。视频装置可通过实施此类视频压缩技术而较有效率地传输、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以缩减或去除为视频序列所固有的冗余。对于以块为基础的视频译码,可将视频图块(即,视频帧或视频帧的部分)分割成视频块,其也可被称作树块、译码单元(CU)和/或译码节点。图片的经帧内译码(I)图块中的视频块是使用关于所述同一图片中的相邻块中的参考样本的空间预测予以编码。图片的经帧间译码(P或B)图块中的视频块可使用关于所述同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测引起用于待译码块的预测性块。残余数据表示原始待译码块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量和指示经译码块与预测性块之间的差的残余数据予以编码。经帧内译码块是根据帧内译码模式和残余数据予以编码。出于进一步压缩起见,可将残余数据从像素域变换到变换域,从而引起残余变换系数,其接着可被量化。可扫描最初以二维阵列而布置的经量化变换系数以便产生一维变换系数向量,且可应用熵译码以达成甚至更多的压缩。
发明内容
大体上,本发明描述用于改善多视图和3D视频译码中的运动预测的译码效率的技术。
在一个实例中,本发明描述一种解码多视图视频数据的方法,其包含:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考第一参考图片的第一图片次序计数(POC)值;确定用于所述当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片,其中所述第一参考图片列表对应于所述第一方向作为方向运动预测子;响应于所述第一参考图片列表包含具有所述第一POC值的所述参考图片而使用所述对应块的所述第一运动向量来解码所述当前运动向量;和响应于所述第一参考图片列表不包含具有所述第一POC值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二POC值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片;和响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片而使用所述对应块的所述第二运动向量作为所述方向运动预测子来解码所述当前运动向量。
在另一实例中,一种用于视频译码的装置包含视频译码器,其经配置以:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数(POC)值;确定用于所述当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片,其中所述第一参考图片列表对应于所述第一方向;响应于所述第一参考图片列表包含具有所述第一POC值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来解码所述当前运动向量;响应于所述第一参考图片列表不包含具有所述第一POC值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二POC值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片;和响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片而使用所述对应块的所述第二运动向量作为所述方向运动预测子来解码所述当前运动向量。
在另一实例中,一种用于视频译码的装置包含视频编码器,其经配置以:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数(POC)值;确定用于所述当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片,其中所述第一参考图片列表对应于所述第一方向;响应于所述第一参考图片列表包含具有所述第一POC值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来编码所述当前运动向量;响应于所述第一参考图片列表不包含具有所述第一POC值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二POC值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片;和响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片而使用所述对应块的所述第二运动向量作为所述方向运动预测子来编码所述当前运动向量。
在另一实例中,一种用于译码视频数据的设备包含:用于针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块的装置;用于确定用于所述当前块的当前运动向量的第一方向的装置,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;用于确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数(POC)值的装置;用于确定用于所述当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片的装置,其中所述第一参考图片列表对应于所述第一方向;用于响应于所述第一参考图片列表包含具有所述第一POC值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来译码所述当前运动向量的装置;用于响应于所述第一参考图片列表不包含具有所述第一POC值的所述参考图片而确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二POC值的装置,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;用于确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片的装置;和用于响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片而使用所述对应块的所述第二运动向量作为所述方向运动预测子来译码所述当前运动向量的装置。
在另一实例中,一种计算机可读存储媒体存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数(POC)值;确定用于所述当前块的第一参考图片列表是否包含具有所述第一POC值的参考图片,其中所述第一参考图片列表对应于所述第一方向;响应于所述第一参考图片列表包含具有所述第一POC值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来译码所述当前运动向量;且响应于所述第一参考图片列表不包含具有所述第一POC值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二POC值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二POC值的参考图片;和响应于所述第一参考图片列表包含具有所述第二POC值的所述参考图片而使用所述对应块的所述第二运动向量作为所述方向运动预测子来译码所述当前运动向量。
随附图式和以下描述中阐明一或多个实例的细节。其它特征、目标和优势将从所述描述和所述图式且从权利要求书变得显而易见。
附图说明
图1为说明可利用本发明的帧间预测技术的实例视频编码和解码系统的框图。
图2为说明用于多视图视频的实例解码次序的概念图。
图3为说明用于多视图视频的实例预测结构的概念图。
图4展示可在合并模式和AMVP模式两者下使用的实例候选块集合。
图5为说明视图间预测的运动向量候选者的实例导出过程的概念图。
图6为说明可实施本发明的帧间预测技术的视频编码器的实例的框图。
图7为说明可实施本发明的帧间预测技术的视频解码器的实例的框图。
图8为展示根据本发明的技术的实例编码过程的流程图。
图9为展示根据本发明的技术的实例解码过程的流程图。
具体实施方式
本发明描述与在多视图视频译码中(包含在通常被称作3D HEVC的新兴三维高效率视频译码标准中)的运动参数的传信有关的技术。视频压缩技术可包含基于视频数据的已经译码块而预测视频数据的当前块。在本发明中,术语当前块通常指当前正被译码(例如,编码或解码)的视频数据块,此与已经译码的视频块或仍待译码的视频块相对。在帧内预测模式下,基于与当前块相同的图片中的一或多个经先前译码块而预测当前块,而在帧间预测模式下,基于不同图片中的已经译码块而预测当前块。不同图片可为来自与当前块相同的视图的不同时间执行个体的图片,或可为来自相同时间执行个体但来自不同视图的图片。
当视频解码器将针对给定视频块而执行帧间预测时,在经编码视频位流中传信运动参数。例如,运动参数定义运动向量、参考图片索引和预测方向,使得视频解码器可确定哪一图片中的哪一块将用作用于当前块的预测性块。视频译码器可使用用于在经编码位流中传信运动参数的各种模式。为了缩减实施帧间预测性译码所需要的位的数目,那些模式中的一些可利用运动参数的预测,而非运动参数的明确传信。在开发中的HEVC标准中,存在用于运动参数的预测的各种模式,其中的一者被称作合并模式。在合并模式下,视频译码器使用来自相邻块(包含空间相邻块和时间相邻块,且在3D-HEVC的状况下也包含视图间相邻块)的运动参数作为候选者而构建运动参数(例如,参考图片和运动向量)的候选者列表。通过传输从候选者列表选择的候选者的索引而将选定运动参数从视频编码器传信到视频解码器。在视频解码器处,一旦解码索引,就继承选定候选者的对应块的所有运动参数。视频编码器和视频解码器经配置以基于已经译码块而构建相同列表。因此,基于索引,视频解码器可识别由视频编码器选择的候选者的运动参数。
用于预测运动参数的另一模式为跳过模式。跳过模式通常以上文针对合并模式所描述的相同方式而操作,但在跳过模式下,不将残余数据添加到预测的块,而在合并模式下,将残余数据添加到预测的块。通常也在跳过模式下执行上文参考合并模式所描述的列表的构建和用以识别列表中的候选者的索引的传输。
用于预测运动参数的另一模式为先进运动向量预测(AMVP)模式。在AMVP模式下,基于经译码参考索引而导出用于每一运动假设的运动向量预测子的候选者列表。此列表包含与相同参考索引相关联的相邻块的运动向量,以及基于时间参考图片中的共置型块的相邻块的运动参数而导出的时间运动向量预测子。通过将索引传输到候选者列表中而传信选定运动向量。此外,也传信参考索引值和运动向量差。在本发明中,术语运动向量预测子通常用以指供预测一或多个运动向量的任何运动向量。在一些例子中,运动向量预测子和预测的运动向量可相同,而在其它例子中,运动向量预测子和预测的运动向量可不同。例如,在AMVP模式下,预测的运动向量对应于运动向量预测子加运动向量差值。本发明也提及术语方向运动预测子,其通常指与特定方向(即,特定参考图片列表)相关联的运动向量预测子。在双向预测的状况下,运动向量预测子可包含两个方向运动预测子。
视差向量通常用以识别视图间参考图片中对应于当前视图的当前块的块的位置。为了导出用于当前块的视差向量(DV),在3D-HEVC测试模型(3D-HTM)的一些当前版本中使用被称为以相邻块为基础的视差向量(NBDV)导出的技术。NBDV利用来自当前块的空间和时间相邻块的视差运动向量。在NBDV中,以固定次序来检查空间或时间相邻块的视差运动向量。一旦识别视差运动向量(即,指向视图间参考图片的运动向量),就终止检查过程且将经识别视差运动向量转换到用于当前块的DV。所述DV可用于视图间运动预测和/或视图间残差预测中。如果在检查所有预定义相邻块之后未发现视差运动向量,那么可将零DV用于视图间运动预测,而可针对对应预测单元(PU)而停用视图间残余预测。
基于DV,在可用时,被称作视图间预测的运动向量的新运动向量候选者可添加到用于AMVP和跳过/合并模式的候选者列表。在可用时,视图间预测的运动向量为时间运动向量。
在跳过/合并抑或AMVP模式期间,可能存在高达两个视图间预测的运动向量,其分别对应于RefPicList0和RefPicList1。此两个运动向量分别被表示为视图间预测的运动向量0和视图间预测的运动向量1。
上文所概述的在以HEVC为基础的多视图/3DV译码中的视图间预测的运动向量导出过程的当前设计具有一些潜在缺点。作为一个实例,在3D-HTM中的合并/跳过模式的当前设计中,当一个参考图片列表X(其中X为0或1)中的对应块的参考图片为时间参考图片,且其图片次序计数(POC)值不等于当前PU/CU的RefPicListLX中的任何项目的POC值,但等于当前PU/CU的RefPicListLY中的一个项目的POC值时,也将对应运动向量视为不可用于RefPicListLY,尤其是当RefPicListLY的预测利用旗标等于0时。作为另一实例,当对应块的参考图片的POC不同于当前CU/PU的参考图片列表的任何项目的POC时,将视图间预测的运动向量视为不可用。作为又一实例,在3D-HTM中的AMVP模式的当前设计中,始终首先检查对应块的参考图片列表0的运动信息,而不管目标参考图片列表为0抑或1。
本发明提议可改善以HEVC为基础的多视图或3DV译码中的视图间预测的运动向量的译码效率的各种技术。根据一项技术,在跳过/合并模式下,如果对应块(通过视差向量而定位)具有指时间参考图片的运动向量mvLX(其中X为0或1),那么其用以不仅预测视图间预测的运动向量X,而且预测视图间预测的运动向量Y(其中Y等于1-X)。换句话说,如果对应块具有运动向量mvL1,那么通常(即,使用根据常规3D-HTM而实施的视频译码器)仅使用mvL1以预测视图间预测的运动向量1,且如果视图间预测的运动向量1不可用,那么不将视图间预测的运动候选者添加到跳过/合并模式候选者列表。相似地,如果对应块具有运动向量mvL0,那么(再次根据常规3D-HTM)仅使用mvL0以预测视图间预测的运动向量0,且如果视图间预测的运动向量0不可用,那么不将视图间预测的运动候选者添加到跳过/合并模式候选者列表。然而,根据本发明的技术,如果对应块具有运动向量mvL1且如果视图间预测的运动向量1不可用,那么可检查另一候选者(帧间预测的运动向量0)的可用性,且在可用时,将其添加到候选者列表。相似地,如果对应块具有运动向量mv0且如果视图间预测的运动向量0不可用,那么可检查另一候选者(帧间预测的运动向量1)的可用性,且在可用时,将其添加到候选者列表。
如果mvLX指具有与当前图块的RefPicListX中的任何图片相同的POC值的参考图片,那么将mvLX设定到视图间预测的运动向量X,且将目标参考索引设定到RefPicListX中具有与参考图片mvLX所指的POC相同的POC的第一图片。否则,如果mvLY(其中,再次,Y=1-X)指具有与当前图块中的RefPicListX中的任何图片相同的POC值的参考图片,那么将mvLY设定到视图间预测的运动向量X,且将目标参考索引设定到RefPicListX中具有与参考图片mvLY所指的POC相同的POC的第一图片。
根据另一技术,在AMVP模式下,对于给定目标参考索引refIdxLX,代替首先比较由对应块的mvL0指代的图片的POC值与(当前图块的)RefPicListX[refIdxLX]的POC且接着比较由对应块的mvL1指代的图片的POC值与(当前图块的)RefPicListX[refIdxLX]的POC,提议首先比较由mvLX指代的图片的POC值且接着比较由mvLY指代的图片的POC值(其中Y等于1-X)。一旦发现视图间预测的运动向量,就终止比较过程。当比较指示出RefPicListX[refIdxLX]的POC值等于由mvL0或mvL1指代的图片的POC值时,将视图间预测的运动向量设定为可用且设定到mvL0或mvL1。
图1为说明可利用本发明的技术的实例视频编码和解码系统10的框图。如图1所展示,系统10包含来源装置12,其提供待在以后时间由目的地装置14解码的经编码视频数据。明确地说,来源装置12经由计算机可读媒体16而将视频数据提供到目的地装置14。来源装置12和目的地装置14可包括广泛范围的装置中任一者,包含桌上型计算机、笔记型(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓“智能型”手机的电话手机、所谓“智能型”键台、电视、相机、显示装置、数字媒体播放器、视频游戏主控台、视频流式传输装置或其类似者。在一些状况下,来源装置12和目的地装置14可经装备用于无线通信。
目的地装置14可经由计算机可读媒体16而接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从来源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使来源装置12能够实时地将经编码视频数据直接地传输到目的地装置14。经编码视频数据可根据例如无线通信协议的通信标准予以调制,且传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如,射频(RF)频谱或一或多个物理传输线。通信媒体可形成例如局域网、广域网或全域网络(例如,因特网)的以封包为基础的网络的部分。通信媒体可包含路由器、交换器、基站,或可有用于促进从来源装置12到目的地装置14的通信的任何其它装备。
在一些实例中,可将经编码数据从输出接口22输出到存储装置。相似地,可由输入接口从存储装置存取经编码数据。存储装置可包含多种分散式或本地存取式数据存储媒体中任一者,例如,硬盘、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体。在另外实例中,存储装置可对应于可存储由来源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载而从存储装置存取经存储视频数据。文件服务器可为能够存储经编码视频数据且将彼经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接式存储(NAS)装置或本地磁盘机。目的地装置14可经由包含因特网连接的任何标准数据连接而存取经编码视频数据。此标准数据连接可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等等)或此两者的组合。经编码视频数据从存储装置的传输可为流式传输传输、下载传输或其组合。
本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中任一者,例如,空中电视广播、有线电视传输、卫星电视传输、因特网流式传输视频传输(例如,经由HTTP的动态自适应性流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输以支持例如视频流式传输、视频播放、视频广播和/或视频电话的应用。
在图1的实例中,来源装置12包含视频来源18、深度估计单元19、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30、以深度图像为基础的显现(DIBR)单元31和显示装置32。在其它实例中,来源装置和目的地装置可包含其它组件或布置。例如,来源装置12可从外部视频来源18(例如,外部摄影机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。本发明所描述的技术中的许多者可由视频编码器20和视频解码器30两者执行。因此,出于解释简易起见,视频编码器20和视频解码器30有时可联合地被称作视频译码器20/30。关于视频译码器20/30所描述的技术可由视频编码器20抑或视频解码器30执行。
图1的所说明系统10仅为一个实例。本发明的技术可由任何数字视频编码和/或解码装置执行。虽然本发明的技术通常系由视频编码装置执行,但所述技术也可由视频编码器/解码器(通常被称作“CODEC”)执行。此外,本发明的技术也可由视频预处理器执行。来源装置12和目的地装置14仅为此类译码装置的实例,其中来源装置12产生用于传输到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以实质上对称方式而操作,使得装置12、14中每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传输,例如,用于视频流式传输、视频播放、视频广播或视频电话。
来源装置12的视频来源18可包含视频捕捉装置,例如,摄像机、含有经先前捕捉视频的视频封存档,和/或用以从视频内容提供者接收视频的视频馈送接口。作为另外替代例,视频来源18可产生以计算机图形为基础的数据作为来源视频,或实况视频、经封存视频和经计算机产生视频的组合。在一些状况下,如果视频来源18为摄像机,那么来源装置12和目的地装置14可形成所谓摄影机电话或视频电话。然而,如上文所提到,本发明所描述的技术大体上可适用于视频译码,且可应用于无线和/或有线应用。在每一状况下,经捕捉、经预捕捉或经计算机产生视频可由视频编码器20编码。经编码视频信息接着可由输出接口22输出到计算机可读媒体16上。
视频来源18可将视频数据的多个视图提供到视频编码器20。例如,视频来源18可对应于摄影机的阵列,每一摄影机具有相对于正被拍摄的特定场景的唯一水平位置。替代地,视频来源18可根据全异水平摄影机观点而产生视频数据,例如,使用计算机图形。深度估计单元19可经配置以确定用于对应于纹理图像中的像素的深度像素的值。例如,深度估计单元19可表示声音导航和测距(SONAR)单元、光检测和测距(LIDAR)单元,或能够直接地在记录场景的视频数据时实质上同时地确定深度值的其它单元。
另外或替代地,深度估计单元19可经配置以间接地通过比较根据不同水平摄影机观点实质上同时地捕捉的两个或两个以上图像而计算深度值。通过计算图像中的实质上相似像素值之间的水平视差,深度估计单元19可近似场景中的各种物件的深度。在一些实例中,深度估计单元19可功能上与视频来源18集成。例如,当视频来源18产生计算机图形图像时,深度估计单元19可提供用于图形物件的实际深度图,例如,使用用以显现纹理图像的像素和物件的z坐标。
计算机可读媒体16可包含:暂时性媒体,例如,无线广播或有线网络传输;或存储媒体(即,非暂时性存储媒体),例如,硬盘、随身碟、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从来源装置12接收经编码视频数据,且(例如)经由网络传输而将经编码视频数据提供到目的地装置14。相似地,媒体生产设施(例如,光盘压印设施)的计算装置可从来源装置12接收经编码视频数据且产生含有经编码视频数据的光盘。因此,在各种实例中,可将计算机可读媒体16理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,其也由视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中任一者,例如,阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。在一些实例中,显示装置32可包括能够同时地或实质上同时地显示两个或两个以上视图的装置,例如,以针对检视者产生3D视觉效果。
目的地装置14的DIBR单元31可使用从视频解码器30接收的经解码视图的纹理和深度信息来显现经合成视图。例如,DIBR单元31可依据对应深度图中的像素的值而确定用于纹理图像的像素数据的水平视差。DIBR单元31接着可通过使纹理图像中的像素向左或向右偏移达经确定水平视差而产生经合成图像。以此方式,显示装置32可显示以任何组合的一或多个视图,其可对应于经解码视图和/或经合成视图。根据本发明的技术,视频解码器30可将用于深度范围和摄影机参数的原始和经更新精确度值提供到DIBR单元31,DIBR单元31可使用深度范围和摄影机参数以适当地合成视图。
虽然图1中未图示,但在一些方面中,视频编码器20和视频解码器30各自可与音频编码器和解码器集成,且可包含适当MUX-DEMUX单元或其它硬件和软件,以处置共同数据流或分离数据流中的音频和视频两者的编码。在适用时,MUX-DEMUX单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)的其它协议。
视频编码器20和视频解码器30可根据例如目前在开发中的高效率视频译码(HEVC)标准的视频译码标准而操作,且可符合HEVC测试模型(HM)。
即将到来的HEVC标准的最近草案描述于布罗斯(Bross)等人的文件HCTVC-J1003的“高效率视频译码(HEVC)文本规范草案8(High Efficiency Video Coding(HEVC)TextSpecification Draft 8)”(ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作团队(JCT-VC),第10次会议:瑞典斯德哥尔摩,2012年7月11日到2012年7月12日)中,到2013年8月15日为止,其可从http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip下载而得。被称作“HEVC工作草案10”或“WD10”的HEVC标准的另一最近草案描述于布罗斯等人的文件JCTVC-L1003v34的“高效率视频译码(HEVC)文本规范草案10(针对FDIS和上次呼叫)(High efficiency video coding(HEVC)text specification draft 10(for FDIS&Last Call))”(ITU-T SG16 WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作团队(JCT-VC),第12次会议:瑞士日内瓦,2013年1月14日到23日)中,到2013年8月15日为止,其可从http://phenix.intevry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip下载而得。在本文中被称作“WD10修订”的HEVC标准的又一草案描述于布罗斯等人的“编辑对HEVC版本1提议的校正(Editors′ proposed corrections to HEVC version 1)”(ITU-T SG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作团队(JCT-VC),第13次会议:韩国仁川,2013年4月)中,到2013年8月15日为止,其可得从ht中://phenix.intevry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip。
出于说明的目的,主要关于HEVC的3DV延伸而描述本发明的技术。然而,应理解,这些技术也可应用于译码用以产生三维效果的视频数据的其它标准。
VCEG和MPEG的3D视频译码联合合作团队(JCT-3C)正开发基于HEVC的3DV标准,针对所述标准的标准化努力的部分包含基于HEVC的多视图视频编码解码器(MV-HEVC)和用于基于HEVC的3D视频译码(3D-HEVC)的另一部分的标准化。对于MV-HEVC,通常希望仅存在相对于HEVC的高层级语法(HLS)改变,使得HEVC中的CU/PU层级中无模块需要被重新设计,且可完全地再用于MV-HEVC。对于3D-HEVC,可包含和支持用于纹理视图和深度视图两者的新译码工具,包含在单元/预测单元层级处的译码中的译码工具。到2013年8月15日为止,用于3D-HEVC的最新软件3D-HTM可从以下连结下载而得:https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/trunk/。
替代地,视频编码器20和视频解码器30可根据例如ITU-T H.264标准(替代地被称作MPEG-4第10部分的先进视频译码(AVC))的其它专有或工业标准或例如ITU-TH.264/AVC的MVC延伸的此类标准的延伸而操作。明确地说,本发明的技术与基于先进编码解码器的多视图和/或3D视频译码有关。一般来说,本发明的技术可应用于多种不同视频译码标准中任一者。例如,这些技术可应用于ITU-T H.264/AVC的多视图视频译码(MVC)延伸(先进视频译码)、即将到来的HEVC标准的3D视频(3DV)延伸(例如,3D-HEVC)或其它译码标准。
ITU-T H.264/MPEG-4(AVC)标准由ITU-T视频译码专家团体(VCEG)与ISO/IEC动画专家团体(MPEG)一起制订为被称为联合视频团队(JVT)的共同合作伙伴关系的产品。在一些方面中,本发明所描述的技术可应用于大体上符合H.264标准的装置。H.264标准由ITU-T研究团体且在日期为2005年3月描述于ITU-T推荐H.264(用于泛型视听服务的先进视频译码)中,其可在本文中被称作H.264标准或H.264规范,或H.264/AVC标准或规范。联合视频团队(JVT)继续致力于对H.264/MPEG-4AVC的延伸。
视频编码器20和视频解码器30各自可被实施为多种合适编码器电路系统中任一者,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地以软件予以实施时,装置可将用于所述软件的指令存储于合适非暂时性计算机可读媒体中,且使用一或多个处理器而以硬件来执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含于一或多个编码器或解码器中,所述一或多个编码器或解码器中的任一者可被集成为相应装置中的组合式编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器,和/或无线通信装置,例如,蜂窝式电话。
最初,将论述HEVC的实例译码技术。JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM推测视频译码装置相对于根据(例如)ITU-T H.264/AVC的现有装置的若干额外能力。然而,例如,H.264提供九个帧内预测编码模式,而HM可提供多达三十三个角度帧内预测编码模式加DC和平面模式。
一般来说,HM的工作模型描述出视频帧或图片可划分成包含亮度样本和色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可定义用于LCU的大小,LCU为在像素的数目方面的最大译码单元。图块包含以译码次序的数个连续树块。视频帧或图片可分割成一或多个图块。每一树块可根据四元树而分裂成译码单元(CU)。一般来说,四元树数据结构包含每CU一个节点,其中根节点对应于树块。如果将CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,所述叶节点中的每一者对应于所述子CU中的一者。
四元树数据结构的每一节点可提供用于对应CU的语法数据。例如,四元树中的节点可包含分裂旗标,其指示对应于所述节点的CU是否分裂成子CU。用于CU的语法元素可被递归地定义,且可取决于CU是否分裂成子CU。如果CU未被进一步分裂,那么其被称作叶CU。在本发明中,即使不存在原始叶CU的明确分裂,叶CU的四个子CU也将被称作叶CU。例如,如果16×16大小的CU未被进一步分裂,那么四个8×8子CU也将被称作叶CU,但16×16CU从未被分裂。
CU具有与H.264标准的宏块相似的目的,只是CU不具有大小区别除外。例如,树块可分裂成四个子节点(也被称作子CU),且每一子节点又可为父节点且分裂成另外四个子节点。被称作四元树的叶节点的最终未分裂子节点包括译码节点,其也被称作叶CU。与经译码位流相关联的语法数据可定义树块可被分裂的最大次数(其被称作最大CU深度),且也可定义译码节点的最小大小。因此,位流也可定义最小译码单元(SCU)。本发明使用术语“块”以指在HEVC的上下文中的CU、PU或TU中任一者,或在其它标准的上下文中的相似数据结构(例如,H.264/AVC中的宏块和其子块)。
CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小且必须为正方形形状。CU的大小的范围可为从8×8像素直到最大值为64×64像素或更大的树块的大小。每一CU可含有一或多个PU和一或多个TU。例如,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式在CU被跳过或合并模式编码、帧内预测模式编码抑或帧间预测模式编码之间可不同。可将PU分割成非正方形形状。例如,与CU相关联的语法数据也可描述根据四元树而将CU分割成一或多个TU。TU可为正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU的变换,其对于不同CU可不同。TU通常是基于针对经分割LCU所定义的给定CU内的PU的大小而被定大小,但可并非始终为此状况。TU通常具相同大小或小于PU。在一些实例中,可使用被称为“残余四元树”(RQT)的四元树结构而将对应于CU的残余样本再分成较小单元。RQT的叶节点可被称作变换单元(TU)。与TU相关联的像素差值可经变换以产生可被量化的变换系数。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于对应CU的全部或部分的空间区,且可包含用于检索用于PU的参考样本的数据。此外,PU包含与预测有关的数据。例如,当PU被帧内模式编码时,用于PU的数据可包含于残余四元树(RQT)中,RQT可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU被帧间模式编码时,PU可包含定义用于PU的一或多个运动向量的数据。例如,定义用于PU的运动向量的数据可描述运动向量的水平分量、运动向量的垂直分量、用于运动向量的分辨率(例如,四分之一像素精确度或八分之一像素精确度)、运动向量所指向的参考图片,和/或用于运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU也可包含一或多个变换单元(TU)。可使用RQT(也被称作TU四元树结构)来指定变换单元,如上文所论述。例如,分裂旗标可指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成另外子TU。当TU未被进一步分裂时,其可被称作叶TU。通常,对于帧内译码,属于叶CU的所有叶TU共享相同帧内预测模式。即,通常应用相同帧内预测模式以计算用于叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式来计算用于每一叶TU的残余值,作为对应于TU的CU的部分与原始块之间的差。TU未必限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可与用于同一CU的对应叶TU共置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU也可与被称作残余四元树(RQT)的相应四元树数据结构相关联。即,叶CU可包含指示叶CU如何分割成TU的四元树。TU四元树的根节点通常对应于叶CU,而CU四元树的根节点通常对应于树块(或LCU)。未被分裂的RQT的TU被称作叶TU。一般来说,本发明分别使用术语CU和TU以指叶CU和叶TU,除非另有提及。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括所述视频图片中的一系列一或多个视频图片。GOP可在GOP的标头、图片中的一或多者的标头中或在别处包含语法数据,所述语法数据描述包含于GOP中的数个图片。图片的每一图块可包含描述用于相应图块的编码模式的图块语法数据。视频编码器20通常对个别视频图块内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化大小,且其大小可根据经指定译码标准而不同。
作为实例,HM支持在各种PU大小下的预测。假定特定CU的大小为2N×2N,那么HM支持在2N×2N或N×N的PU大小下的帧内预测和在2N×2N、2N×N、N×2N或N×N的对称PU大小下的帧间预测。HM也支持用于在2N×nU、2N×nD、nL×2N和nR×2N的PU大小下的帧间预测的不对称分割。在不对称分割中,CU的一个方向未被分割,而另一方向分割成25%和75%。对应于25%分割区的CU的部分由“n”继之以“上”、“下”、“左”或“右”的指示而指示。因此,例如,“2N×nU”指在顶部具有2N×0.5N PU且在底部具有2N×1.5N PU的经水平地分割的2N×2N CU。
在本发明中,“N×N”和“N乘N”可互换式地用以指在垂直和水平维度方面的视频块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块将在垂直方向上具有16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样地,N×N块通常在垂直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可以行和列布置。此外,块未必需要在水平方向上与在垂直方向上具有相同数目个像素。例如,块可包括N×M像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器20可计算用于CU的TU的残余数据。PU可包括描述在空间域(也被称作像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在将变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上相似变换)应用于残余视频数据之后的在变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU,且接着变换TU以产生用于CU的变换系数。
在用以产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化通常指变换系数经量化以可能地缩减用以表示系数的数据的量而提供进一步压缩的过程。量化过程可缩减与系数中的一些或全部相关联的位深度。例如,可在量化期间将n位值降值舍位到m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计成将较高能量(且因此,较低频率)系数放置于阵列前方且将较低能量(且因此,较高频率)系数放置于阵列后方。在一些实例中,视频编码器20可利用预定义扫描次序以扫描经量化变换系数,以产生可被熵编码的串列化向量。在其它实例中,视频编码器20可执行自适应性扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可熵编码一维向量,例如,根据上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、以语法为基础的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法。视频编码器20也可熵编码与经编码视频数据相关联的语法元素以供视频解码器30用来解码视频数据。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派到待传输符号。例如,上下文可关于符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待传输符号的可变长度码。VLC中的码字可经构建成使得相对较短码对应于较可能符号,而较长码对应于较不可能符号。以此方式,VLC的使用相比于(例如)针对每一待传输符号使用相等长度码字可达成位节省。概率确定可基于指派到符号的上下文。
在此章节中,将论述多视图和多视图加深度译码技术。最初,将论述MVC技术。如上文所提及,MVC为ITU-T H.264/AVC的延伸。在MVC中,用于多个视图的数据是以时间优先次序予以译码,且因此,解码次序布置被称作时间优先译码(time-first coding)。明确地说,可译码用于共同时间执行个体时的多个视图中每一者的视图分量(即,图片),接着可译码用于不同时间执行个体的另一视图分量集合,等等。存取单元可包含用于一个输出时间执行个体的所有视图的经译码图片。应理解,存取单元的解码次序未必与输出(或显示)次序相同。
图2展示典型MVC解码次序(即,位流次序)。解码次序布置被称作时间优先译码。应注意,存取单元的解码次序可不与输出或显示次序相同。在图2中,S0到S7各自指多视图视频的不同视图。T0到T8各自表示一个输出时间执行个体。存取单元可包含用于一个输出时间执行个体的所有视图的经译码图片。例如,第一存取单元可包含用于时间执行个体T0的所有视图S0到S7,第二存取单元可包含用于时间执行个体T1的所有视图S0到S7,等等。
出于简洁的目的,本发明可使用以下定义:
视图分量:单一存取单元中的视图的经译码表示。当视图包含经译码纹理和深度表示两者时,视频分量由纹理视图分量和深度视图分量组成。
纹理视图分量:单一存取单元中的视图的纹理的经译码表示。
深度视图分量:单一存取单元中的视图的深度的经译码表示。
在图2中,所述视图中每一者包含图片集合。例如,视图S0包含图片0、8、16、24、32、40、48、56和64的集合,且视图S1包含图片1、9、17、25、33、41、49、57和65的集合,等等。每一集合包含两个图片:一个图片被称作纹理视图分量,且另一图片被称作深度视图分量。视图的图片集合内的纹理视图分量和深度视图分量可被视为彼此对应。例如,视图的图片集合内的纹理视图分量被视为对应于所述视图的图片集合内的深度视图分量,且反之亦然(即,深度视图分量对应于其在所述集合中的纹理视图分量,且反之亦然)。如本发明所使用,对应于深度视图分量的纹理视图分量可被视为纹理视图分量和深度视图分量为单一存取单元的同一视图的部分。
纹理视图分量包含所显示的实际图像内容。例如,纹理视图分量可包含亮度(Y)分量和色度(Cb和Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,深度视图分量为仅包含亮度值的灰阶图像。换句话说,深度视图分量可不传送任何图像内容,而是提供纹理视图分量中的像素的相对深度的度量。
例如,深度视图分量中的纯白色像素指示出其在对应纹理视图分量中的对应像素根据检视者的观点较近,且深度视图分量中的纯黑色像素指示出其在对应纹理视图分量中的对应像素根据检视者的观点较远。在黑色与白色之间的各种灰度指示不同深度层级。例如,深度视图分量中的极灰像素指示出其在纹理视图分量中的对应像素远于深度视图分量中的稍灰像素。因为仅需要灰阶以识别像素的深度,所以深度视图分量无需包含色度分量,这是因为用于深度视图分量的色彩值可不满足任何目的。
仅使用亮度值(例如,强度值)以识别深度的深度视图分量是出于说明目的而提供且不应被视为限制性。在其它实例中,可利用任何技术以指示纹理视图分量中的像素的相对深度。
图3展示用于多视图视频译码的典型MVC预测结构(包含每一视图内的图片间预测和视图间预测两者)。图3中的预测方向由箭头指示,其中指向所到达的物件(pointed-toobject)使用指向所来自的物件(pointed-from object)作为预测参考。在MVC中,视图间预测是由使用H.264/AVC运动补偿的语法的视差运动补偿支持,但允许使用不同视图中的图片作为参考图片。
在图3的实例中,说明六个视图(具有视图ID“S0”到“S5”),且针对每一视图说明十二个时间位置(“T0”到“T11”)。即,图3中的每一列对应于一个视图,而每一列指示一个时间位置。
虽然MVC具有可由H.264/AVC解码器解码的所谓基本视图且立体视图对可也由MVC支持,但MVC的优势为:其可支持使用两个以上视图作为3D视频输入且解码由多个视图表示的此3D视频的实例。具有MVC解码器的用户端的显现器可期望具有多个视图的3D视频内容。
图3中的图片在每一列与每一行的相交点处被指示。H.264/AVC标准可使用术语帧以表示视频的部分。本发明可互换式地使用术语图片和帧。
图3中的图片是使用包含字母的块予以说明,字母指明对应图片被帧内译码(即,I图片),抑或在一个方向上被帧间译码(即,作为P图片)或在多个方向上被帧间译码(即,作为B图片)。一般来说,预测由箭头指示,其中指向所到达的图片使用指向所来自的图片以用于预测参考。例如,在时间位置T0处的视图S2的P图片是从在时间位置T0处的视图S0的I图片予以预测。
如同单一视图视频编码一样,可关于不同时间位置处的图片预测性地编码多视图视频译码视频序列的图片。例如,在时间位置T1处的视图S0的b图片具有从在时间位置T0处的视图S0的I图片指向到b图片的箭头,其指示出b图片是从I图片予以预测。然而,另外,在多视图视频编码的上下文中,图片可被视图间预测。即,视图分量可使用其它视图中的视图分量以用于参考。例如,在MVC中,视图间预测被实现,就好像另一视图中的视图分量为帧间预测参考一样。潜在视图间参考在序列参数集(SPS)MVC延伸中被传信,且可通过参考图片列表构建过程而修改,此情形实现帧间预测或视图间预测参考的灵活排序。视图间预测也为HEVC的所提议多视图延伸的特征,包含3D-HEVC(多视图加深度)。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片被说明为从视图S1的不同时间位置处的图片予以预测,以及从相同时间位置处的视图S0和S2的图片予以视图间预测。例如,在时间位置T1处的视图S1的b图片是从在时间位置T0和T2处的视图S1的B图片以及在时间位置T1处的视图S0和S2的b图片中每一者予以预测。
在一些实例中,可将图3看作说明纹理视图分量。例如,图2所说明的I图片、P图片、B图片和b图片可被视为用于视图中每一者的纹理视图分量。根据本发明所描述的技术,对于图3所说明的纹理视图分量中每一者,存在对应的深度视图分量。在一些实例中,可以相似于图3中针对对应纹理视图分量所说明的方式的方式来预测深度视图分量。
两个视图的译码也可由MVC支持。MVC的优势中的一者为:MVC编码器可采取两个以上视图作为3D视频输入,且MVC解码器可解码此类多视图表示。因而,具有MVC解码器的任何再现器可期望具有两个以上视图的3D视频内容。
在MVC中,在同一存取单元(即,具有相同时间执行个体)中的图片之间允许视图间预测。当译码非基本视图中的一者中的图片时,如果图片位于不同视图中但位于相同时间执行个体内,那么可将所述图片添加到参考图片列表中。可将视图间参考图片放于参考图片列表的任何位置中,正如任何帧间预测参考图片一样。如图3所展示,视图分量可使用其它视图中的视图分量以用于参考。在MVC中,视图间预测被实现,就好像另一视图中的视图分量为帧间预测参考一样。
下文描述关于帧间预测的一些相关HEVC技术,其可与多视图译码(MV-HEVC)和/或具有深度的多视图译码(3D-HEVC)一起使用。用于论述的第一技术为用于帧间预测的参考图片列表构建。
使用帧间预测来译码PU涉及计算当前块(例如,PU)与参考帧中的块之间的运动向量。运动向量是经由被称为运动估计(或运动搜索)的过程予以计算。例如,运动向量可指示当前帧中的预测单元相对于参考帧的参考样本的位移。参考样本可为被发现紧密匹配于包含在像素差方面译码的PU的CU的部分的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。参考样本可出现于参考帧或参考图块内的任何地方。在一些实例中,参考样本可出现于分率像素位置处。在发现最好地匹配于当前部分的参考帧的部分后,编码器即确定用于当前块的当前运动向量作为从当前块到参考帧中的匹配部分(例如,从当前块的中心到匹配部分的中心)的位置的差。
在一些实例中,编码器可在经编码视频位流中传信用于每一块的运动向量。经传信运动向量由解码器用以执行运动补偿,以便解码视频数据。然而,直接地传信原始运动向量可引起较不有效率的译码,这是因为通常需要大数目个位以传送信息。
在一些例子中,编码器可针对每一分割区(即,针对每一PU)预测运动向量,而非直接地传信原始运动向量。在执行此运动向量预测时,编码器可选择从与当前块相同的帧中的空间相邻块确定的运动向量候选者集合,或从参考帧(即,不同于当前帧的帧)中的共置型块确定的时间运动向量候选者。视频编码器20可执行运动向量预测,且在需要时,将索引传信到参考图片以预测运动向量,而非传信原始运动向量,以缩减传信中的位速率。来自空间相邻块的运动向量候选者可被称作空间MVP候选者,而来自另一参考帧中的共置型块的运动向量候选者可被称作时间MVP候选者。
在HEVC标准中提议运动向量预测的两个不同模式或类型。一个模式被称作“合并”模式。另一模式被称作自适应性运动向量预测(AMVP)。
在合并模式下,视频编码器20经由预测语法的位流传信而指示视频解码器30从用于帧的当前块的选定运动向量候选者复制运动向量、参考索引(在给定参考图片列表中识别运动向量所指向的参考帧)和运动预测方向(其识别参考图片列表(列表0或列表1),即,在参考帧时间上在当前帧之前抑或之后方面)。此情形是通过在位流中将识别选定运动向量候选者(即,特定空间MVP候选者或时间MVP候选者)的索引传信到运动向量候选者列表中而实现。
因此,对于合并模式,预测语法可包含识别模式(在此状况下,“合并”模式)的旗标,和识别选定运动向量候选者的索引。在一些例子中,运动向量候选者将位于关于当前块的因果性块中。即,运动向量候选者将已经由视频解码器30解码。因而,视频解码器30已经接收和/或确定用于因果性块的运动向量、参考索引和运动预测方向。因此,视频解码器30可简单地从存储器检索与因果性块相关联的运动向量、参考索引和运动预测方向,且复制这些值作为用于当前块的运动信息。为了在合并模式下重新构建块,视频解码器30使用用于当前块的经导出运动信息来获得预测性块,且将残余数据添加到预测性块以重新构建经译码块。
应注意,对于跳过模式,产生同一合并候选者列表,但不传信残余项目。出于简单起见,由于跳过模式具有与合并模式相同的运动向量导出过程,故此文件所描述的所有技术应用于合并模式和跳过模式两者。
在AMVP中,视频编码器20经由位流传信而指示视频解码器30仅从候选块复制运动向量且使用经复制向量作为用于当前块的运动向量的预测子,且传信运动向量差(MVD)。分离地传信参考帧和与当前块的运动向量相关联的预测方向。MVD为用于当前块的当前运动向量与从候选块导出的运动向量预测子之间的差。在此状况下,视频编码器20使用运动估计来确定用于待译码块的实际运动向量,且接着确定实际运动向量与运动向量预测子之间的差作为MVD值。以此方式,视频解码器30不使用运动向量候选者的确切复本作为当前运动向量(如在合并模式下),而是可使用可在值方面“接近”从运动估计确定的当前运动向量的运动向量候选者,且添加MVD以再生当前运动向量。为了在AMVP模式下重新构建块,解码器添加对应残余数据以重新构建经译码块。
在大多数情况下,MVD相比于整个当前运动向量需要较少位进行传信。因而,相比于发送整个运动向量,AMVP允许当前运动向量的更精确传信,同时维持译码效率。与此对比,合并模式未虑及MVD的规范,且因而,合并模式牺牲运动向量传信的准确性以增加传信效率(即,较少位)。用于AMVP的预测语法可包含用于模式的旗标(在此状况下,AMVP旗标)、用于候选块的索引、当前运动向量与来自候选块的预测性运动向量之间的MVD、参考索引和运动预测方向。
图4展示可在合并模式和AMVP模式两者下使用的候选块120的实例集合。在此实例中,候选块位于左下方(A0)空间位置121、左侧(A1)空间位置122、左上方(B2)空间位置125、上方(B1)空间位置124和右上方(B0)空间位置123中,且位于时间(T)位置126中。在此实例中,左侧候选块122邻近于当前块127的左侧边缘。左侧块122之下部边缘与当前块127之下部边缘对准。上方块124邻近于当前块127的上部边缘。上方块124的右侧边缘与当前块127的右侧边缘对准。
块A0、A1、B0、B1和B2通常被称作空间相邻块或空间相邻PU。视频译码器20/30可通过首先确定当前PU(例如,图4中的块127)的左顶部亮度样本相对于当前图片的左顶部样本的位置而确定空间相邻块的位置。此亮度位置将被称作位置(xP,yP)。视频译码器20/30可另外确定亮度PU的宽度(缩写为nPSW)和亮度PU的高度(缩写为nPSH)。基于当前PU的左顶部亮度样本的位置以及当前PU的高度和宽度,可如下确定空间相邻块的亮度样本的位置:
块A0包含位置(xP-1,yP+nPSH)处的亮度样本;
块A1包含位置(xP-1,yP+nPSH-1)处的亮度样本;
块B0包含位置(xP+nPSW,yP-1)处的亮度样本;
块B1包含位置(xP+nPSW-1,yP-1)处的亮度样本;
块B2包含位置(xP-1,yP-1)处的亮度样本。
空间相邻块可具相同大小或可具与当前PU不同的大小。
可使用上文所论述的空间相邻块来导出供合并模式下使用的候选者列表。可如由以下有序步骤所指定而导出用于两个参考列表的运动向量和参考索引,所述有序步骤为用于空间合并候选者的导出过程的实例。作为导出过程的部分,视频编码器20和视频解码器30按以下次序来检查空间相邻PU的运动信息:A1、B1、B0、A0或B2。视频编码器20和视频解码器30可执行受约束剪除,以便缩减或消除将重复候选者添加到候选者列表。视频译码器20/30可导出待包含于合并模式候选者列表中的空间候选者,如下:
-视频译码器20/30在A1可用时将A1插入到候选者列表中。
-如果B1与A1具有相同运动向量和相同参考索引,那么视频译码器20/30不将B1插入到候选者列表中。如果B1与A1不具有相同运动向量和相同参考索引,那么视频译码器20/30在B1可用时将B1插入到候选者列表中。
-如果B0与B1具有相同运动向量和相同参考索引,那么视频译码器20/30不将B0插入到候选者列表中。如果B0与B1不具有相同运动向量和相同参考索引,那么视频译码器20/30在B0可用时将B0插入到候选者列表中。
-如果A0与A1具有相同运动向量和相同参考索引,那么视频译码器20/30不将A0插入到候选者列表中。如果A0与A1不具有相同运动向量和相同参考索引,那么视频译码器20/30在A0可用时将A0插入到候选者列表中。
-当不满足以下条件两者时,视频译码器20/30将B2插入到候选者列表中:
-B2与B1或B2与A1具有相同运动向量和相同参考索引。
-从A1、B1、B0、A0导出的所有四个空间合并候选者包含于候选者列表中。
视频译码器20/30可导出待包含于合并模式候选者列表中的时间候选者,如下:
-为了得到时间合并候选者,视频译码器20/30首先识别共置型图片。如果当前图片为B图块,那么在图块标头中传信语法元素“collocated_from_l0_flag”以指示共置型图片来自RefPicList0抑或RefPicList1。
-在视频译码器20/30识别参考图片列表之后,视频译码器20/30使用图块标头中传信的语法元素collocated_ref_idx以识别列表中的图片。
-视频译码器20/30接着通过检查共置型图片而识别共置型PU。视频译码器20/30使用含有此PU的CU的右底部PU的运动抑或含有此PU的CU的中心PU内的右底部PU的运动作为时间候选者。
-当通过以上过程而识别的运动向量用以产生用于合并模式的运动候选者时,视频译码器20/30可需要基于时间位置(由图片次序计数(即,POC)反映)而按比例调整运动向量。
-在HEVC中,PPS包含旗标enable_temporal_mvp_flag。当具有等于0的temporal_id的特定图片指具有等于0的enable_temporal_mvp_flag的PPS时,视频译码器20/30可将DPB中的所有参考图片标记为“未用于时间运动向量预测”,且来自按解码次序在彼特定图片之前的图片的运动向量将不在解码所述特定图片或按解码次序在所述特定图片之后的图片时用作时间运动向量预测子。
如果当前图块为B图块且从上文所描述的空间和时间候选者导出过程导出的候选者的总数少于候选者的最大数目且大于1,那么视频译码器20/30可调用用于产生双向预测性候选者的过程。视频译码器20/30可导出待包含于合并模式候选者列表中的双向预测性候选者,如下:
-基于下表1,为了产生具有索引combIdx的组合式双向预测性候选者,可由视频译码器20/30再使用具有等于10CandIdx的项目(在可用时)的候选者列表的RefList0运动信息(MotList0)和具有等于11CandIdx的项目(在可用时)且与MotList0不相同的候选者列表的RefList1运动信息(MotList1)作为组合式双向预测性候选者的RefList0和RefList1运动信息。
表1-HEVC中的l0CandIdx和l1CandIdx的规范
combIdx 0 1 2 3 4 5 6 7 8 9 10 1l
l0CandIdx 0 1 0 2 1 2 0 3 1 3 2 3
l1CandIdx 1 0 2 0 2 1 3 0 3 1 3 2
如果从用于确定空间、时间和双向预测性候选者的上文所描述的以上三种过程导出的候选者的总数产生数目少于最大数目的候选者,那么视频译码器20/30可导出待包含于合并模式候选者列表中的零运动向量候选者。在此类例子中,视频译码器20/30可将用于每一参考图片的零运动向量插入到候选者列表中。
在HEVC WD 10中,MRG列表中的候选者的总数高达5个,且传信five_minus_max_num_merge_cand以指定图块标头中从5个候选者减去的MRG候选者的最大数目。
为了进一步改善用于译码3D视频的译码效率,已将两种新技术(即,“视图间运动预测”和“视图间残余预测”)引入到3D-HEVC中。为了启用此两个译码工具,配置视频译码器20/30以导出用于当前块的视差向量。
视频译码器20/30可经配置以使用被称作以相邻块为基础的视差向量(NBDV)的技术来导出视差向量,所述技术利用来自空间和时间相邻块的视差运动向量以确定用于当前块的视差向量。在NBDV中,视频译码器20/30以固定检查次序来检查空间或时间相邻块的运动向量,且一旦识别视差运动向量,即,运动向量指向视图间参考图片,视频译码器20/30就终止检查过程。视频译码器20/30传回经识别视差运动向量,且将其转换到可在视图间运动预测和视图间残余预测中使用的视差向量。如果在检查所有预定义相邻块之后未发现视差运动向量,那么视频译码器20/30可使用零视差向量以用于视图间运动预测,而可针对对应预测单元(PU)停用视图间残余预测。
由视频译码器20/30用于NBDV的块包含空间相邻块和时间相邻块。视频译码器20/30分析高达五个空间相邻块,作为导出视差向量的部分。五个空间相邻块包含当前PU的左下方块、左边块、右上方块、上方块和左上方块,其由A0、A1、B0、B1或B2表示。在此方面,作为NBDV的部分而分析的空间相邻块可对应于上文在图4中关于合并模式所论述的相同空间相邻块,但用于NBDV的空间相邻块以及用于AMVP和合并模式的候选者列表构建未必相同。
视频译码器20/30也确定时间相邻块。视频译码器20/30可将来自当前视图的所有参考图片视作候选图片,或在一些实施方案中,候选图片的数目可受到进一步约束,例如,约束到四个候选图片。视频译码器20/30首先检查共置型参考图片,且以(例如)参考索引(refIdx)的递增次序来检查候选图片中的其余者。当RefPicList0[refIdx]和RefPicList1[refIdx]两者皆可用时,RefPicListX[refIdx]位于另一图片之前,其中X等于collocated_from_l0_flag。
对于每一候选图片,视频译码器20/30确定用于导出时间相邻块的三个候选区域。当一个区域覆盖一个以上16×16块时,视频译码器20/30可以(例如)光栅扫描次序来检查此类区域中的所有16×16块。三个候选区域被定义如下:(1)CPU-当前PU或当前CU的共置型区域;(2)CLCU-覆盖当前PU的共置型区域的最大译码单元(LCU);和(3)BR-CPU的右底部4×4块。
视频译码器20/30可经配置成以特定次序(即,检查次序)来检查块。视频译码器20/30可首先检查空间相邻块,继之以检查时间相邻块。例如,五个空间相邻块的检查次序可被定义为A1、B1、B0、A0和B2或任何其它此类次序。对于每一候选图片,视频译码器20/30可以检查次序来检查候选图片中的三个候选区域。例如,三个区域的检查次序可对于第一非基本视图而被定义为CPU、CLCU和BR,且对于第二非基本视图而被定义为BR、CPU和CLU,或被定义为任何其它此类次序。
如上文所介绍,视频译码器20/30可经配置以执行视图间候选者导出。基于视差向量(Dv),视频译码器20/30可确定新运动向量候选者或视图间预测的运动向量(在可用时),且添加新运动向量候选者或视图间预测的运动向量到候选者列表以供在AMVP和跳过/合并模式下使用。在可用时,视图间预测的运动向量为时间运动向量。
图5展示视图间预测的运动向量候选者的导出过程的实例。通过发现不同视图(例如,视图0或V0)中对应于经当前译码视图(视图1或v1)中的当前PU 140的块142而计算视差向量。如果对应块142未被帧内译码且未被视图间预测,且其参考图片具有在当前PU 140的参考图片列表中的POC值(例如,Ref0,List0;Ref0,List1;Ref1,List1,如图5所展示),那么使用用于对应块142的运动信息作为视图间预测的运动向量。如上文所叙述,可基于POC而按比例调整参考索引。
如果视图间预测的运动向量不可用,即,所有可用参考图片列表的预测利用旗标两者等于0,那么将视差向量转换到视图间视差运动向量,视图间视差运动向量是在与视图间预测的运动向量(当其可用时)相同的位置中添加到AMVP或合并候选者列表内。
在跳过/合并模式抑或AMVP模式期间,可能存在高达两个视图间预测的运动向量,其分别对应于RefPicList0和RefPicList1。此两个运动向量分别被表示为视图间预测的运动向量0和视图间预测的运动向量1。
对于一个实例合并/跳过模式技术,视频译码器20/30可如下导出视图间预测的运动向量:
-视频译码器20/30通过视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。
-如果对应块未被帧内译码,那么对于当前PU/CU的每一参考图片列表(即,RefPicListLX,其中X为0或1),视频译码器20/30可:
-如果对应块具有指时间参考图片的运动向量(mvLX)且时间参考图片具有等于RefPicListLX中的一个项目的POC值的POC值,那么视频译码器20/30可将mvLX设定到视图间预测的运动向量X且将目标参考索引设定到RefPicListX中的第一图片,所述第一图片具有与参考图片mvLX所指的POC相同的POC。视频译码器20/30可另外将由predFlagLXInterView表示的RefPicListLX的旗标设定到1,其指示出用于mvLX的预测子当前可用。否则,视频译码器20/30将predFlagLXInterView设定到0,其指示用于mvLX的预测子当前不可用。如果用于mvLX的预测子不可用,那么不产生基于mvLX的AMVP候选者。如果用于mvLX和mvLY(其中Y等于1-X)的预测子皆不可用,那么不产生基于mvLX和mvLY的合并候选者。如果用于mvLX的预测子中仅一者可用,那么可产生基于可用候选者的合并候选者作为单向预测候选者。
在上述技术中,当一个参考图片列表X(其中X为0或1)中的对应块的参考图片为时间参考图片,且其POC值不等于当前PU/CU的RefPicListLX中的任何项目的POC值但等于当前PU/CU的RefPicListLY中的一个项目的POC值时,也将对应运动向量视为对于RefPicListLY不可用,包含当RefPicListLY的预测利用旗标等于0时。然而,根据本发明的技术,对于跳过/合并模式,如果对应块(通过视差向量而定位)具有指时间参考图片的运动向量mvLX(其中X为0或1),那么视频译码器20/30可经配置以使用mvLX以不仅预测视图间预测的运动向量X,而且预测视图间预测的运动向量Y(其中Y等于1-X)。
因此,如果mvLX指代具有与当前图块的RefPicListX中的任何图片相同的POC值的参考图片,那么视频译码器20/30可将mvLX设定到视图间预测的运动向量X且将目标参考索引设定到RefPicListX中具有与参考图片mvLX所指的POC相同的POC的第一图片。否则,如果mvLY指代具有与当前图块中的RefPicListX中的任何图片相同的POC值的参考图片,那么视频译码器20/30可将mvLY设定到视图间预测的运动向量X且将目标参考索引设定到RefPicListX中具有与参考图片mvLY所指代的POC相同的POC的第一图片。下文将提供视频译码器20/30可如何使用mvLX以不仅预测视图间预测的运动向量X而且预测视图间预测的运动向量Y的更详细实例。
对于一项实例AMVP模式技术,如果目标参考索引对应于时间运动向量,那么视频译码器20/30可如下导出视图间预测运动向量:
-视频译码器20/30通过视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。
-在给出目标参考图片列表(RefPicListLX,其中X由0或1替换)和目标参考图片索引Idx的情况下,那么视频译码器20/30如下导出视图间预测的运动向量X:
a.视频译码器20/30将用于RefPicListLX的视图间预测的运动向量的可用旗标(availableFlagLXInterView)设定到0。
b.如果对应块具有指代时间参考图片的运动向量mvL0且参考图片具有等于当前PU/CU的RefPicListLX[Idx]的POC值的POC值,那么视频译码器20/30将运动向量导出为用于RefPicListLX的视图间预测的运动向量且将availableFlagLXInterView设定到1。
c.如果availableFlagLXInterView等于0且对应块的mvL1所指向的参考图片可用且并非视图间参考图片且其具有等于当前PU/CU的RefPicListLX[Idx]的POC值的POC值,那么视频译码器20/30将运动向量导出为用于RefPicListLX的视图间预测的运动向量且将availableFlagLXInterView设定到1。
在AMVP模式下,如果目标参考索引对应于视差运动向量,那么可不导出视图间预测的运动向量且将视差向量转换到视图间视差运动向量。
在上文所描述的实例AMVP模式技术中,始终首先检查对应块的参考图片列表0的运动信息,而不管目标参考图片列表为0抑或1。然而,根据本发明的技术,在AMVP模式下,对于给定目标参考索引refIdxLX,代替首先比较由当前块的mvL0指的图片的POC值与(当前图块的)RefPicListX[refIdxLX]的POC且接着比较由当前块的mvL1指代的图片的POC值与(当前图块的)RefPicListX[refIdxLX]的POC,视频译码器20/30可首先比较由mvLX指代的图片的POC值且接着比较由mvLY指代的图片的POC值(其中Y等于1-X)。一旦发现视图间预测的运动向量,视频译码器20/30就可终止比较过程。当所述比较推断出RefPicListX[refIdxLX]的POC值在所述比较期间等于由mvL0或mvL1指代的图片的POC值时,视图间预测的运动向量可用且可由视频译码器20/30设定到mvL0或mvL1。
对于上文所论述的实例合并/跳过模式技术和实例AMVP模式技术两者,当对应块的参考图片的POC不同于当前CU/PU的参考图片列表中的任何项目的POC时,将视图间预测的运动向量视为不可用。然而,根据本发明的技术,当mvL0或mvL1皆不指代具有与当前图块的RefPicList0或RefPicList1中的任何参考图片的POC相同的POC的时间参考图片时,视频译码器20/30可通过基于POC距离而将第一可用mvL0和mvL1按比例调整到RefPicList0中的第一时间参考图片来导出视图间预测的运动向量0。
至此,本发明已论述已知3D-HEVC AMVP和合并模式技术的若干缺点且介绍可处理这些缺点中的一些的技术。本发明所介绍的技术可进一步改善在以HEVC为基础的多视图或3DV译码中的视图间预测的运动向量的译码效率。现在将提供上文所介绍的技术的更详细实例。
如上文所介绍,视频译码器20/30可经配置以针对合并/跳过模式而执行视图间预测的运动向量导出过程。现在将论述可如何根据本发明的技术而执行此类导出过程的实例。对于合并/跳过模式,视频译码器20/30可如下导出视图间预测的运动向量X(其中X等于0或1):
-视频译码器20/30可通过视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量可被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片可被表示为corRefPicX和corRefPicY。
-视频译码器20/30可最初将predFlagLXInterView设定到0,其指示出RefPicListLX不用于运用mvLX的预测。
-如果corRefPicX可用且其为时间参考图片,那么视频译码器20/30可执行下者:
○对于从0到num_ref_idx_lX_active_minus1(包含在内)的每一i,如果(当前图块的)RefPicListX[i]的POC等于corRefPicX的POC,那么视频译码器20/30可将视图间预测的运动向量X设定为等于mvLX、将目标参考索引设定到i,且将predFlagLXInterView设定到1。换句话说,分析RefPicListX中的参考图片的集合以确定其是否具有等于corRefPicX的POC的POC。如果RefPicListX中的参考图片确实具有等于corRefPicX的POC的POC,那么设定目标参考以识别彼参考图片。另外,视频译码器20/30将predFlagLXInterView设定到1以指示出RefPicListLX用于运用mvLX的预测。RefPicListLX中的图片集合包含具有从0到num_ref_idx_lX_active_minus1的索引的图片。
-如果predFlagLXInterView等于0而意谓在以上步骤中视频译码器20/30未发现RefPicListX中具有等于corRefPicX的POC的POC的参考图片,且如果corRefPicY可用且为时间参考图片,那么视频译码器20/30可执行下者:
○对于从0到num_ref_idx_lX_active_minus1(包含在内)的每一i,如果RefPicListX[i]的POC等于corRefPicY的POC,那么视频译码器20/30将视图间预测的运动向量X设定为等于mvLY、将目标参考索引设定到i,且将predFlagLXInterView设定到1。换句话说,分析RefPicListX中的参考图片的集合以确定其是否具有等于corRefPicY的POC的POC。如果RefPicListX中的参考图片确实具有等于corRefPicY的POC的POC,那么设定目标参考以识别彼参考图片。另外,视频译码器20/30将predFlagLXInterView设定到1以指示出RefPicListLX用于运用mvLY的预测。RefPicListLX中的图片集合包含具有从0到num_ref_idx_lX_active_minus1的索引的图片。
在一个实施方案中,当视图间预测的运动向量0和视图间预测的运动向量1两者皆可用且指代同一参考图片且具有相同运动向量(水平向量和垂直向量两者)时,那么视频译码器20/30将所述两个视图间预测的运动向量中的一者设定到不可用。在一个替代例中,视频译码器20/30将视图间预测的运动向量1设定为不可用,而在另一替代例中,视频译码器20/30将视图间预测的运动向量0设定为不可用。
在根据本发明的技术的另一实施方案中,对于合并/跳过模式,视频译码器20/30可如下导出视图间预测的运动向量:
-视频译码器20/30通过视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量可被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片可被表示为corRefPicX和corRefPicY。
-对于从0到1的每一X,下者适用:
○视频译码器20/30可将predFlagLXInterView设定到0。
○如果corRefPicX可用且为时间参考图片,那么下者适用,直到predFlagLXInterView等于1:
○对于从0到num_ref_idx_lX_active_minus1(包含在内)的每一i,如果(当前图块的)RefPicListX[i]的POC等于corRefPicX的POC,那么将视图间预测的运动向量X设定为等于mvLX,且将目标参考索引设定到i,将predFlagLXInterView设定到1。
-如果视图间预测的运动向量X和视图间预测的运动向量Y两者皆不可用,即,predFlagL0InterView和predFlagL1InterView等于1,那么对于从0到1的每一X,下者适用:
○如果corRefPicY(其中Y等于1-X)可用且其为时间参考图片,那么下者适用,直到predFlagLXInterView等于1:
○对于从0到num_ref_idx_lX_active_minus1(包含在内)的每一i,如果RefPicListX[i]的POC等于corRefPicY的POC,那么将视图间预测的运动向量X设定为等于mvLY,且将目标参考索引设定到i,将predFlagLXInterView设定到1。
如上文所介绍,视频译码器20/30可经配置以运用按比例调整来执行视图间预测的运动向量导出,现在将论述其实例。当视图间预测的运动向量0和视图间预测的运动向量1两者皆不可用(当通过上文所描述的技术而导出时)时,视频译码器20可如下导出视图间预测的运动向量0:
-视频译码器20/30可通过视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量可被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片可被表示为corRefPicX和corRefPicY。
-视频译码器20/30可将predFlagL0InterView设定到0。
-对于从0到1的每一X,视频译码器20/30可执行下者,直到将predFlagL0InterView设定等于1。
○如果mvLX可用且corRefPicX为时间参考图片,那么视频译码器20/30:
○对于从0到num_ref_idx_l0_active_minus1(包含在内)的每一i,如果RefPicList0[i]为时间参考图片,那么视频译码器20/30导出视图间预测的运动向量0作为运动向量的经按比例调整版本,如由以下等式1到5所指定:
tx=(16384+(Abs(td)>>1))/td (1)
distScaleFactor=Clip3(-4096,4095,(tb*tx+32)>>6) (2)
视图间预测的运动向量0=Clip3(-32768,32767,Sign2(distScaleFactor*mvLX)*((Abs(distScaleFactor*mvLX)+127)>>8)) (3)
其中PicOrderCntVal为当前图片的POC,td和tb被导出为
td=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(corRefPicX)) (4)
tb=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(RefPicListX[i])) (5)
且将用于视图间预测的运动向量0的目标参考索引设定到i,且将predFlagL0InterView设定到1。
在一个实施方案中,在应用以上方法的技术之后,如果视图间预测的运动向量仍不可用,那么视频译码器20/30可执行下者:
-对于从0到1的每一X,下者适用,直到predFlagL1InterView等于1。
○如果mvLX可用且corRefPicX为时间参考图片,那么下者适用:
○对于从0到num_ref_idx_l1_active_minus1(包含在内)的每一i,如果RefPicList1[i]为时间参考图片,那么视频译码器20/30可导出视图间预测的运动向量1作为运动向量的经按比例调整版本,如由以下等式6到10所指定:
tx=(16384+(Abs(td)>>1))/td (6)
distScaleFactor=Clip3(-4096,4095,(tb*tx+32)>>6) (7)
视图间预测的运动向量1=Clip3(-32768,32767,Sign2(distScaleFactor*mvLX)*((Abs(distScaleFactor*mvLX)+127)>>8)) (8)
其中PicOrderCntVal为当前图片的POC,td和tb被导出为
td=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(corRefPicX)) (9)
tb=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(RefPicListX[i])) (10)
当视图间预测的运动向量0和视图间预测的运动向量1中任一者不可用于通过上文所描述的技术或任何其它方法而导出时,视频译码器20/30可针对跳过/合并模式而如下导出视图间预测的运动向量X(其中X由0或1替换):
-视频译码器20/30使用视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量可被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片可被表示为corRefPicX和corRefPicY。
-视频译码器20/30可将predFlagLXInterView设定到0。
-如果mvLX可用且corRefPicX为时间参考图片,那么视频译码器20/30可:
○对于从0到num_ref_idx_lX_active_minus1(包含在内)的每一i,如果RefPicListX[i]为时间参考图片,那么视频译码器20/30可导出视图间预测的运动向量X作为运动向量的经按比例调整版本,如由以下等式11到15所指定:
tx=(16384+(Abs(td)>>1))/td (11)
distScaleFactor=Clip3(-4096,4095,(tb*tx+32)>>6) (12)
视图间预测的运动向量X=Clip3(-32768,32767,Sign2(distScaleFactor*mvLX)*((Abs(distScaleFactor*mvLX)+127)>>8)) (13)
其中PicOrderCntVal为当前图片的POC,td和tb被导出为
td=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(corRefPicX)) (14)
tb=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(RefPicListX[i])) (15)
且将目标参考索引设定到i,将predFlagLXInterView设定到1。
在用于合并模式的一个实施方案中,视频译码器20/30可以任何其它方式来导出目标参考索引refIdxLX,所述方式包含经由传信,例如,当predFlagL0InterView和/或predFlagL1InterView不可用时在图块标头中进行传信。在此状况下,目标参考索引是已知的,且视频译码器20/30可直接地执行按比例调整,因此消除针对进一步搜索目标参考索引的需要。根据此类技术,视频译码器20/30可如下确定视图间预测的运动向量:
-视频译码器20/30使用视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量可被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片可被表示为corRefPicX和corRefPicY。
-视频译码器20/30将predFlagLXInterView设定到0。
-如果mvLX可用且corRefPicX为时间参考图片,那么视频译码器20/30可:
○如果RefPicListX[refIdxLX]为时间参考图片,那么视频译码器20/30可导出视图间预测的运动向量作为运动向量的经按比例调整版本,如由以下等式16到20所指定:
tx=(16384+(Abs(td)>>1))/td (16)
distScaleFactor=Clip3(-4096,4095,(tb*tx+32)>>6) (17)
视图间预测的运动向量X=Clip3(-32768,32767,Sign2(distScaleFactor*mvLX)*((Abs(distScaleFactor*mvLX)+127)>>8)) (18)
其中PicOrderCntVal为当前图片的POC,td和tb被导出为
td=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(corRefPicX)) (19)
tb=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(RefPicListX[refIdxLX])) (20)
且将predFlagLXInterView设定到1。
在另一实施方案中,视频译码器20/30可潜在地按比例调整mvLY以导出视图间预测的运动向量X(如果其仍不可用)。根据此技术,如果mvLY可用且corRefPicY为时间参考图片,且如果RefPicListX[refIdxLX]为时间参考图片,那么视频译码器20/30可导出视图间预测的运动向量作为运动向量的经按比例调整版本,如由以下等式21到25所指定:
tx=(16384+(Abs(td)>>1))/td (21)
distScaleFactor=Clip3(-4096,4095,(tb*tx+32)>>6) (22)
视图间预测的运动向量X=Clip3(-32768,32767,Sign2(distScaleFactor*mvLY)*((Abs(distScaleFactor*mvLY)+127)>>8)) (23)
其中PicOrderCntVal为当前图片的POC,td和tb被导出为
td=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(corRefPicY)) (24)
tb=Clip3(-128,127,PicOrderCntVal-PicOrderCnt(RefPicListX[refIdxLY])) (25)
且将predFlagLXInterView设定到1。
如上文所介绍,视频译码器20/30可针对AMVP模式而执行视图间预测的运动向量导出过程。在AMVP模式下,如果目标参考索引对应于时间运动向量,那么视频译码器20/30可如下导出视图间预测的运动向量X:
-用于当前PU/CU的给定目标参考图片索引由refIdxLX表示。视频译码器20/30使用视差向量而在同一存取单元的参考视图中定位当前PU/CU的对应块。在可用时,对应块的两个运动向量被表示为mvLX和mvLY(其中Y等于1-X),且对应参考图片被表示为corRefPicX和corRefPicY。
-视频译码器20/30将predFlagLXInterView设定到0。
-如果corRefPicX可用且其为时间参考图片,那么视频译码器20/30可执行下者:
○如果(当前图块的)RefPicListX[refIdxLX]的POC等于corRefPicX的POC,那么视频译码器20/30将视图间预测的运动向量X设定为等于mvLX且将predFlagLXInterView设定到1。
-否则,视频译码器20/30将predFlagLXInterView设定为等于0,且如果corRefPicY可用且为时间参考图片,那么视频译码器20/30执行下者:
○如果RefPicListX[refIdxLX]的POC等于corRefPicY的POC,那么视频译码器20/30将视图间预测的运动向量X设定为等于mvLY且将predFlagLXInterView设定为等于1。
替代地,此外,如果predFlagLXInterView仍等于0且RefPicListX[refIdxLX]为时间参考帧,那么视频译码器20/30可执行下者:
-如果corRefPicX可用且为时间参考图片,那么视频译码器20/30可基于POC距离而通过按比例调整mvLX来导出视图间预测的运动向量,且将predFlagLXInterView设定到1。
-如果predFlagLXInterView为0且corRefPicY可用且为时间参考图片,那么视频译码器20/30可基于POC距离而通过按比例调整mvLY来导出视图间预测的运动向量,且将predFlagLXInterView设定为等于1。
图6为说明可实施本发明所描述的技术(包含上文所描述的视图间预测技术)的实例视频编码器20的框图。视频编码器20可执行视频图块内的视频块的帧内译码和帧间译码。帧内译码依赖于空间预测以缩减或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以缩减或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干以空间为基础的压缩模式中任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干以时间为基础的压缩模式中任一者。
在图6的实例中,视频编码器20包含分割单元35、预测处理单元41、滤波器单元63、参考图片存储器64、求和器50、变换单元52、量化单元54,和熵编码单元56。预测处理单元41包含运动和视差估计单元42、运动和视差补偿单元44,和帧内预测处理单元46。对于视频块重新构建,视频编码器20也包含反量化单元58、反变换处理单元60,和求和器62。滤波器单元63希望表示一或多个回路滤波器,例如,解块滤波器、自适应性回路滤波器(ALF),和样本自适应性偏移(SAO)滤波器。虽然滤波器单元63在图6中被展示为回路内滤波器,但在其它配置中,滤波器单元63可被实施为回路后滤波器。
如图6所展示,视频编码器20接收视频数据,且分割单元35将所述数据分割成视频块。此分割也可包含分割成图块、图标或其它较大单元,以及视频块分割,例如,根据LCU和CU的四元树结构。视频编码器20通常说明编码待编码视频图块内的视频块的组件。图块可划分成多个视频块(且可能地划分成被称作图标的视频块集合)。预测处理单元41可基于误差结果(例如,译码速率和失真电平)而选择用于当前视频块的多个可能译码模式中的一者,例如,多个帧内译码模式中的一者,或多个帧间译码模式中的一者。预测处理单元41可将所得经帧内译码块或经帧间译码块提供到求和器50以产生残余块数据,且将所得经帧内译码块或经帧间译码块提供到求和器62以重新构建经编码块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可执行当前视频块相对于与当前待译码块相同的帧或图块中的一或多个相邻块的帧内预测性译码以提供空间压缩。预测处理单元41内的运动和视差估计单元42以及运动和视差补偿单元44执行当前视频块相对于一或多个参考图片和/或参考视图中的一或多个预测性块的帧间预测性译码和/或视图间译码以提供时间或视图压缩。
运动和视差估计单元42可经配置以根据用于视频序列的预定型样而确定用于视频图块的帧间预测模式和/或视图间预测模式。预定型样可将序列中的视频图块指明为P图块或B图块。运动和视差估计单元42与运动和视差补偿单元44可高度地集成,但出于概念目的而被分离地说明。由运动和视差估计单元42执行的运动和视差估计为产生运动向量的过程,所述运动向量估计用于视频块的运动。例如,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。由运动和视差估计单元42执行的视差估计为产生视差运动向量的过程,所述视差运动向量可用以从不同视图中的块预测经当前译码块。
预测性块为被发现在像素差方面紧密匹配于待译码的视频块的PU的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中,视频编码器20可计算用于存储于参考图片存储器64中的参考图片的次整数像素位置的值。例如,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此,运动和视差估计单元42可执行相对于完全像素位置和分率像素位置的运动搜索,且以分率像素精确度来输出运动向量。
运动和视差估计单元42通过比较经帧间译码或视图间预测的图块中的视频块的PU的位置与参考图片的预测性块的位置而计算用于所述PU的运动向量(对于运动补偿预测)和/或视差运动向量(对于视差补偿预测)。参考图片可选从第一参考图片列表(RefPicList0)或第二参考图片列表(RefPicList1),所述参考图片列表中每一者识别存储于参考图片存储器64中的一或多个参考图片。运动和视差估计单元42将所计算的运动向量和/或视差向量发送到熵编码单元56和运动补偿单元44。
由运动和视差补偿单元44执行的运动补偿和/或视差补偿可涉及基于通过运动估计和/或视差估计而确定的运动向量而提取或产生预测性块,可能地执行达子像素精确度的内插。在接收用于当前视频块的PU的运动向量和/或视差后,运动和视差补偿单元44即可在参考图片列表中的一者中定位运动向量和/或视差向量所指向的预测性块。视频编码器20通过从正被译码的当前视频块的像素值减去预测性块的像素值而形成残余视频块,从而形成像素差值。像素差值形成用于块的残余数据,且可包含亮度差分量和色度差分量两者。求和器50表示执行此减去运算的组件。运动和视差补偿单元44也可产生与视频块和视频图块相关联的语法元素以供视频解码器30用来解码视频图块的视频块。
作为如上文所描述的由运动和视差估计单元42以及运动和视差补偿单元44执行的帧间预测的替代例,帧内预测处理单元46可帧内预测当前块。明确地说,帧内预测处理单元46可确定帧内预测模式以用以编码当前块。在一些实例中,帧内预测处理单元46可使用各种帧内预测模式来编码当前块(例如,在分离编码遍次期间),且帧内预测处理单元46(或在一些实例中,模式选择单元40)可从经测试模式选择适当帧内预测模式以供使用。例如,帧内预测处理单元46可使用针对各种经测试帧内预测模式的速率失真分析而计算速率失真值,且在经测试模式之间选择具有最好速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测处理单元46可从失真和速率计算用于各种经编码块的比率以确定哪一帧内预测模式展现用于块的最好速率失真值。
在任何状况下,在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指示用于块的选定帧内预测模式的信息提供到熵译码单元56。熵译码单元56可根据本发明的技术而编码指示选定帧内预测模式的信息。视频编码器20可在经传输位流中包含:配置数据,其可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也被称作码字映射表);编码用于各种块的上下文的定义;和待用于所述上下文中每一者的最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示。
在预测处理单元41经由帧间预测抑或帧内预测而产生用于当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中且应用于变换单元52。变换单元52使用例如离散余弦变换(DCT)或概念上相似变换的变换而将残余视频数据变换成残余变换系数。变换单元52可将残余视频数据从像素域转换到例如频域的变换域。
变换单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步缩减位速率。量化过程可缩减与所述系数中的一些或全部相关联的位深度。可通过调整量化参数而修改量化程度。在一些实例中,量化单元54接着可执行包含经量化变换系数的矩阵的扫描。替代地,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56熵编码经量化变换系数。例如,熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、以语法为基础的上下文自适应性二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在由熵编码单元56进行的熵编码之后,经编码位流可传输到视频解码器30,或经封存以供以后由视频解码器30传输或检索。熵编码单元56也可熵编码用于正被译码的当前视频图块的运动向量和其它语法元素。
反量化单元58和反变换处理单元60分别应用反量化和反变换,以在像素域中重新构建残余块以供以后用作参考图片的参考块。运动和视差补偿单元44可通过将残余块添加到参考图片列表中的一者内的参考图片中的一者的预测性块而计算参考块。运动和视差补偿单元44也可将一或多个内插滤波器应用于经重新构建残余块以计算供运动估计中使用的次整数像素值。求和器62将经重新构建残余块添加到由运动和视差补偿单元44产生的经运动补偿预测块以产生供存储于参考图片存储器64中的参考块。参考块可由运动和视差估计单元42以及运动和视差补偿单元44用作参考块以帧间预测后续视频帧或图片中的块。
图7为说明可实施本发明所描述的技术(包含上文所描述的视图间预测技术)的实例视频解码器30的框图。在图7的实例中,视频解码器30包含熵解码单元80、预测处理单元81、反量化单元86、反变换处理单元88、求和器90、滤波器单元91,和参考图片存储器92。预测处理单元81包含运动和视差补偿单元82,和帧内预测处理模块84。在一些实例中,视频解码器30可执行与关于来自图6的视频编码器20所描述的编码遍次大体上互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频图块的视频块和关联语法元素的经编码视频位流。视频解码器30的熵解码单元80熵解码位流以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量和其它语法元素转递到预测处理单元81。视频解码器30可在视频图块层级和/或视频块层级处接收语法元素。
当将视频图块译码为经帧内译码(I)图块时,预测处理单元81的帧内预测处理单元84可基于从当前帧或图片的经先前解码块传信的帧内预测模式和数据而产生用于当前视频图块的视频块的预测数据。当将视频帧译码为经帧间译码(即,B、P或GPB)图块时,预测处理单元81的运动和视差补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素而产生用于当前视频图块的视频块的预测性块。预测性块可从参考图片列表中的一者内的参考图片中的一者予以产生。视频解码器30可使用基于存储于参考图片存储器92中的参考图片的默认构建技术来构建参考帧列表:列表0和列表1。
运动和视差补偿单元82通过剖析运动向量和其它语法元素而确定用于当前视频图块的视频块的预测信息,且使用所述预测信息以产生用于正被解码的当前视频块的预测性块。例如,运动和视差补偿单元82使用经接收语法元素中的一些以确定用以译码视频图块的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测或视图间预测图块类型(例如,B图块或P图块)、用于图块的参考图片列表中的一或多者的构建信息、用于图块的每一经帧间编码视频块的运动向量和/或视差向量、用于图块的每一经帧间译码视频块的帧间预测状态,和用以解码当前视频图块中的视频块的其它信息。
在一些实例中,运动和视差补偿单元82可使用运动向量预测过程来确定指示运动向量的经传信语法元素。运动向量预测过程可包含AMVP模式和合并模式。运动和视差补偿单元82也可基于内插滤波器而执行内插。运动和视差补偿单元82可使用如由视频编码器20在视频块的编码期间使用的内插滤波器以计算用于参考块的次整数像素的内插值。在此状况下,运动和视差补偿单元82可从经接收语法元素确定由视频编码器20使用的内插滤波器,且使用所述内插滤波器以产生预测性块。
反量化单元86反量化(即,去量化)位流中提供且由熵解码单元80解码的经量化变换系数。反量化过程可包含针对视频图块中的每一视频块使用由视频编码器20计算的量化参数以确定量化程度,且同样地确定应被应用的反量化程度。反变换处理单元88将反变换(例如,反DCT、反整数变换或概念上相似反变换过程)应用于变换系数,以便在像素域中产生残余块。
在运动和视差补偿单元82基于运动向量和其它语法元素而产生用于当前视频块的预测性块之后,视频解码器30通过将来自反变换处理单元88的残余块与由运动和视差补偿单元82产生的对应预测性块进行求和而形成经解码视频块。求和器90表示执行此求和运算的组件。视需要,也可使用回路滤波器(在译码回路中抑或在译码回路之后)以使像素转变平滑,或以其它方式改善视频质量。滤波器单元91希望表示一或多个回路滤波器,例如,解块滤波器、自适应性回路滤波器(ALF)和样本自适应性偏移(SAO)滤波器。虽然滤波器单元91在图7中被展示为回路内滤波器,但在其它配置中,滤波器单元91可被实施为回路后滤波器。给定帧或图片中的经解码视频块接着存储于参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92也存储经解码视频以供以后呈现于例如图1的显示装置32的显示装置上。
图8为展示根据本发明的技术的实例编码过程的流程图。图8的技术将关于视频编码器20予以描述,但可由其它类型的视频编码器执行。视频编码器20针对当前视图中的当前块而使用用于当前块的视差向量来确定参考视图中的对应块(180)。例如,视差向量可由视频编码器20使用上文所描述的NBDV技术中的一或多者而确定。视频编码器20确定用于当前块的当前运动向量的第一方向(181)。视频编码器20确定由在第一方向上指向的对应块的第一运动向量参考的第一参考图片的第一POC值(182)。视频编码器20确定用于当前块的第一参考图片列表是否包含具有第一POC值的参考图片(183)。第一参考图片列表对应于第一方向。响应于第一参考图片列表包含具有第一POC值的参考图片(183,是),视频编码器20使用对应块的第一运动向量来编码当前运动向量(184)。例如,视频编码器20可通过将第一运动向量添加到如上文所描述的AMVP或合并模式候选者列表而编码当前运动向量。
响应于第一参考图片列表不包含具有第一POC值的参考图片(183,否),视频编码器20确定由在第二方向上指向的对应块的第二运动向量参考的第二参考图片的第二POC值(185)。第二方向不同于第一方向。视频编码器20确定用于当前块的第一参考图片列表是否包含具有第二POC值的参考图片(186)。响应于第一参考图片列表包含具有第二POC值的参考图片(186,是),视频编码器20使用对应块的第二运动向量来编码当前运动向量(187)。例如,视频编码器20可通过将第二运动向量添加到如上文所描述的AMVP或合并模式候选者列表而编码当前运动向量。响应于第一参考图片列表不包含具有第二POC值的参考图片(186,否),视频编码器20使用另一技术来编码当前运动向量(188)。例如,技术的实例包含使用第一或第二运动向量的经按比例调整版本、使用零向量,或其它此类技术。
图9为展示根据本发明的技术的实例解码过程的流程图。图9的技术将关于视频解码器30予以描述,但可由其它类型的视频解码器执行。视频解码器30针对当前视图中的当前块而使用用于当前块的视差向量来确定参考视图中的对应块(190)。例如,视差向量可由视频解码器30使用上文所描述的NBDV技术中的一或多者而确定。视频解码器30确定用于当前块的当前运动向量的第一方向(191)。视频解码器确定由在第一方向上指向的对应块的第一运动向量参考的第一参考图片的第一POC值(192)。视频解码器30确定用于当前块的第一参考图片列表是否包含具有第一POC值的参考图片(193)。第一参考图片列表对应于第一方向。响应于第一参考图片列表包含具有第一POC值的参考图片(193,是),视频解码器30使用对应块的第一运动向量来解码当前运动向量(194)。例如,视频解码器30可通过将第一运动向量添加到如上文所描述的AMVP或合并模式候选者列表而解码当前运动向量。
响应于第一参考图片列表不包含具有第一POC值的参考图片(193,否),视频解码器30确定由在第二方向上指向的对应块的第二运动向量参考的第二参考图片的第二POC值(195)。第二方向不同于第一方向。视频解码器30确定用于当前块的第一参考图片列表是否包含具有第二POC值的参考图片(196)。响应于第一参考图片列表包含具有第二POC值的参考图片(196,是),视频解码器30使用对应块的第二运动向量来解码当前运动向量(197)。例如,视频解码器30可通过将第二运动向量添加到如上文所描述的AMVP或合并模式候选者列表而解码当前运动向量。响应于第一参考图片列表不包含具有第二POC值的参考图片(196,否),视频解码器30使用另一技术来解码当前运动向量(198)。例如,技术的实例包含使用第一或第二运动向量的经按比例调整版本、使用零向量,或其它此类技术。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合予以实施。如果以软件予以实施,那么所述功能可作为一或多个指令或过程代码而存储于计算机可读媒体上或经由计算机可读媒体而传输,且由以硬件为基础的处理单元执行。计算机可读媒体可包含:计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体;或通信媒体,其包含(例如)根据通信协议而促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)为非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明所描述的技术的指令、过程代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。又,将任何连接适当地称为计算机可读媒体。例如,如果使用同轴缆线、光缆、双绞线、数字用户线(DSL)或例如红外线、无线电和微波的无线技术而从网站、服务器或其它远端来源传输指令,那么同轴缆线、光缆、双绞线、DSL或例如红外线、无线电和微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是有关于非暂时性有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光盘、数字影音光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘运用激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
指令可由例如以下各者的一或多个处理器执行:一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效集成或离散逻辑电路系统。因此,如本文所使用,术语“处理器”可指前述结构或适合于实施本文所描述的技术的任何其它结构中任一者。此外,在一些方面中,本文所描述的功能性可提供于经配置用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编码解码器中。又,所述技术可完全地实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种各样的装置或设备中,所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如,芯片组)。各种组件、模块或单元在本发明中经描述以强调经配置以执行所揭示技术的装置的功能方面,但未必需要由不同硬件单元进行实现。实情为,如上文所描述,各种单元可组合于编码解码器硬件单元中,或由包含如上文所描述的一或多个处理器的互操作性硬件单元的集合结合合适软件和/或固件而提供。
已描述各种实例。这些和其它实例在以下权利要求书的范围内。

Claims (43)

1.一种解码多视图视频数据的方法,所述方法包括:
针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;
确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;
确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值;
基于按与所述第一运动向量相关联的所述参考索引的递增次序分析用于所述当前块的第一参考图片列表中的图片,确定所述第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;
响应于所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来解码所述当前运动向量;
响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片:
确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;
确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的参考图片;以及
响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来解码所述当前运动向量。
2.根据权利要求1所述的方法,其进一步包括:
将合并候选者添加到合并候选者列表,其中当所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第一图片次序计数值的所述参考图片的参考图片索引且包括所述第一运动向量,且当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第二图片次序计数值的所述参考图片的参考图片索引且包括所述第二运动向量;
解码索引值,其中所述索引值对应于所述合并候选者;
使用对应于所述索引的所述合并候选者来预测所述当前块。
3.根据权利要求2所述的方法,其进一步包括:
使用运动向量预测子候选者来解码所述当前运动向量,其中所述运动向量预测子候选者包括所述方向运动预测子和第二方向运动预测子。
4.根据权利要求1所述的方法,其中当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时且当所述第二参考图片列表不包含具有所述第二图片次序计数值的所述参考图片时,所述方法进一步包括:
确定第一图片次序计数差是否大于第二图片次序计数差,所述第一图片次序计数差表示所述第一图片次序计数值与最接近所述第一图片次序计数值的用于所述第一参考图片列表中的参考图片的第一图片次序计数值之间的所述差,所述第二图片次序计数差表示所述第二图片次序计数值与最接近所述第二图片次序计数值的用于所述第二参考图片列表中的参考图片的第二图片次序计数值之间的所述差;
当所述第一图片次序计数差大于所述第二图片次序计数差时,根据所述第一图片次序计数差而按比例调整所述第一运动向量,且使用所述经按比例调整的第一运动向量来解码所述当前运动向量;以及
当所述第一图片次序计数差不大于所述第二图片次序计数差时,根据所述第二图片次序计数差而按比例调整所述第二运动向量,且使用所述经按比例调整的第二运动向量来解码所述当前运动向量。
5.根据权利要求3所述的方法,其中使用所述运动向量预测子来解码所述当前运动向量包括:
将所述运动向量预测子候选者作为合并候选者包含于用于所述当前块的合并候选者列表中;
解码索引值,其中所述索引值对应于所述方向运动预测子;
使用对应于所述索引的所述合并候选者来预测所述当前块。
6.根据权利要求1所述的方法,其中使用所述运动预测子来解码所述当前运动向量包括:
将所述方向运动预测子的所述运动向量包含于用于所述当前块的先进运动向量预测AMVP模式的候选运动向量列表中;
解码索引值,其中所述索引值对应于来自所述候选运动向量列表的运动向量;
解码运动向量差值;
使用对应于所述索引的运动向量和所述运动向量差值来预测所述当前块。
7.根据权利要求1所述的方法,其中使用所述方向运动预测子来解码所述当前运动向量是进一步响应于具有所述第一图片次序计数值的所述参考图片对应于时间参考图片而执行。
8.根据权利要求1所述的方法,其进一步包括:
响应于所述两个方向运动预测子具有相同水平分量和相同垂直分量且具有对应于同一图片的参考索引而将所述第一运动向量和所述第二运动向量中的一者设定为不可用。
9.一种编码多视图视频数据的方法,所述方法包括:
针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;
确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;
确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值;
基于按与所述第一运动向量相关联的所述参考索引的递增次序分析用于所述当前块的第一参考图片列表中的图片,确定所述第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;
响应于所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来编码所述当前运动向量;
响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片:
确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;
确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的参考图片;以及
响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来编码所述当前运动向量。
10.根据权利要求9所述的方法,其进一步包括:
将合并候选者添加到合并候选者列表,其中当所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第一图片次序计数值的所述参考图片的参考图片索引且包括所述第一运动向量,且当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第二图片次序计数值的所述参考图片的参考图片索引且包括所述第二运动向量;
编码索引值,其中所述索引值对应于所述合并候选者;
使用对应于所述索引的所述合并候选者来预测所述当前块。
11.根据权利要求10所述的方法,其进一步包括:
使用运动向量预测子候选者来编码所述当前运动向量,其中所述运动向量预测子候选者包括所述方向运动预测子和第二方向运动预测子。
12.根据权利要求9所述的方法,其中当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时且当所述第二参考图片列表不包含具有所述第二图片次序计数值的所述参考图片时,所述方法进一步包括:
确定第一图片次序计数差是否大于第二图片次序计数差,所述第一图片次序计数差表示所述第一图片次序计数值与最接近所述第一图片次序计数值的用于所述第一参考图片列表中的参考图片的第一图片次序计数值之间的所述差,所述第二图片次序计数差表示所述第二图片次序计数值与最接近所述第二图片次序计数值的用于所述第二参考图片列表中的参考图片的第二图片次序计数值之间的所述差;
当所述第一图片次序计数差大于所述第二图片次序计数差时,根据所述第一图片次序计数差而按比例调整所述第一运动向量,且使用所述经按比例调整的第一运动向量来编码所述当前运动向量;以及
当所述第一图片次序计数差不大于所述第二图片次序计数差时,根据所述第二图片次序计数差而按比例调整所述第二运动向量,且使用所述经按比例调整的第二运动向量来编码所述当前运动向量。
13.根据权利要求11所述的方法,其中使用所述运动向量预测子来编码所述当前运动向量包括:
将所述运动向量预测子候选者作为合并候选者包含于用于所述当前块的合并候选者列表中;
编码索引值,其中所述索引值对应于所述方向运动预测子;
使用对应于所述索引的所述合并候选者来预测所述当前块。
14.根据权利要求9所述的方法,其中使用所述运动预测子来编码所述当前运动向量包括:
将所述方向运动预测子的所述运动向量包含于用于所述当前块的先进运动向量预测AMVP模式的候选运动向量列表中;
编码索引值,其中所述索引值对应于来自所述候选运动向量列表的运动向量;
编码运动向量差值;
使用对应于所述索引的运动向量和所述运动向量差值来预测所述当前块。
15.根据权利要求9所述的方法,其中使用所述方向运动预测子来编码所述当前运动向量是进一步响应于具有所述第一图片次序计数值的所述参考图片对应于时间参考图片而执行。
16.根据权利要求9所述的方法,其进一步包括:
响应于所述两个方向运动预测子具有相同水平分量和相同垂直分量且具有对应于同一图片的参考索引而将所述第一运动向量和所述第二运动向量中的一者设定为不可用。
17.一种用于解码多视图视频数据的装置,所述装置包括:
视频解码器,其经配置以:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值;基于按与所述第一运动向量相关联的所述参考索引的递增次序分析用于所述当前块的第一参考图片列表中的图片,确定所述第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;响应于所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来解码所述当前运动向量;且响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的参考图片;以及响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来解码所述当前运动向量。
18.根据权利要求17所述的装置,其中所述视频解码器经进一步配置以:将合并候选者添加到合并候选者列表,其中当所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第一图片次序计数值的所述参考图片的参考图片索引且包括所述第一运动向量,且当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第二图片次序计数值的所述参考图片的参考图片索引且包括所述第二运动向量;解码索引值,其中所述索引值对应于所述合并候选者;以及使用对应于所述索引的所述合并候选者来预测所述当前块。
19.根据权利要求18所述的装置,其中所述视频解码器经进一步配置以:
使用运动向量预测子候选者来解码所述当前运动向量,其中所述运动向量预测子候选者包括所述方向运动预测子和第二方向运动预测子。
20.根据权利要求17所述的装置,其中当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时且当所述第二参考图片列表不包含具有所述第二图片次序计数值的所述参考图片时,其中所述视频解码器经进一步配置以:
确定第一图片次序计数差是否大于第二图片次序计数差,所述第一图片次序计数差表示所述第一图片次序计数值与最接近所述第一图片次序计数值的用于所述第一参考图片列表中的参考图片的第一图片次序计数值之间的所述差,所述第二图片次序计数差表示所述第二图片次序计数值与最接近所述第二图片次序计数值的用于所述第二参考图片列表中的参考图片的第二图片次序计数值之间的所述差;
当所述第一图片次序计数差大于所述第二图片次序计数差时,根据所述第一图片次序计数差而按比例调整所述第一运动向量,且使用所述经按比例调整的第一运动向量来解码所述当前运动向量;以及
当所述第一图片次序计数差不大于所述第二图片次序计数差时,根据所述第二图片次序计数差而按比例调整所述第二运动向量,且使用所述经按比例调整的第二运动向量来解码所述当前运动向量。
21.根据权利要求19所述的装置,其中所述视频解码器经配置以通过以下操作而使用所述运动向量预测子来解码所述当前运动向量:
将所述运动向量预测子候选者作为合并候选者包含于用于所述当前块的合并候选者列表中;
解码索引值,其中所述索引值对应于所述方向运动预测子;
使用对应于所述索引的所述合并候选者来预测所述当前块。
22.根据权利要求17所述的装置,其中所述视频解码器经配置以通过以下操作而使用所述运动向量预测子来解码所述当前运动向量:
将所述方向运动预测子的所述运动向量包含于用于所述当前块的先进运动向量预测AMVP模式的候选运动向量列表中;
解码索引值,其中所述索引值对应于来自所述候选运动向量列表的一运动向量;
解码运动向量差值;
使用对应于所述索引的运动向量和所述运动向量差值来预测所述当前块。
23.根据权利要求17所述的装置,其中所述视频解码器经配置以进一步响应于具有所述第一图片次序计数值的所述参考图片对应于时间参考图片而使用所述方向运动预测子来解码所述当前运动向量。
24.根据权利要求17所述的装置,其中所述视频解码器经进一步配置以:
响应于所述两个方向运动预测子具有相同水平分量和相同垂直分量且具有对应于同一图片的参考索引而将所述第一运动向量和所述第二运动向量中的一者设定为不可用。
25.根据权利要求17所述的装置,其中所述装置包括以下各者中至少一者:
集成电路;
微处理器;以及
无线通信装置,其包含所述视频解码器。
26.一种用于编码多视图视频数据的装置,装置包括:
视频编码器,其经配置以:针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值;基于按与所述第一运动向量相关联的所述参考索引的递增次序分析用于所述当前块的第一参考图片列表中的图片,确定所述第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;以及响应于所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来编码所述当前运动向量;响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片:确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的参考图片;以及响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来编码所述当前运动向量。
27.根据权利要求26所述的装置,其中所述视频编码器经进一步配置以:将合并候选者添加到合并候选者列表,其中当所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第一图片次序计数值的所述参考图片的参考图片索引且包括所述第一运动向量,且当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第二图片次序计数值的所述参考图片的参考图片索引且包括所述第二运动向量;编码索引值,其中所述索引值对应于所述合并候选者;以及使用对应于所述索引的所述合并候选者来预测所述当前块。
28.根据权利要求27所述的装置,其中所述视频编码器经进一步配置以:
使用运动向量预测子候选者来编码所述当前运动向量,其中所述运动向量预测子候选者包括所述方向运动预测子和第二方向运动预测子。
29.根据权利要求26所述的装置,其中当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时且当所述第二参考图片列表不包含具有所述第二图片次序计数值的所述参考图片时,其中所述视频编码器经进一步配置以:
确定第一图片次序计数差是否大于第二图片次序计数差,所述第一图片次序计数差表示所述第一图片次序计数值与最接近所述第一图片次序计数值的用于所述第一参考图片列表中的参考图片的第一图片次序计数值之间的所述差,所述第二图片次序计数差表示所述第二图片次序计数值与最接近所述第二图片次序计数值的用于所述第二参考图片列表中的参考图片的第二图片次序计数值之间的所述差;
当所述第一图片次序计数差大于所述第二图片次序计数差时,根据所述第一图片次序计数差而按比例调整所述第一运动向量,且使用所述经按比例调整的第一运动向量来编码所述当前运动向量;以及
当所述第一图片次序计数差不大于所述第二图片次序计数差时,根据所述第二图片次序计数差而按比例调整所述第二运动向量,且使用所述经按比例调整的第二运动向量来编码所述当前运动向量。
30.根据权利要求28所述的装置,其中所述视频编码器经配置以通过以下操作而使用所述运动向量预测子来编码所述当前运动向量:
将所述运动向量预测子候选者作为合并候选者包含于用于所述当前块的合并候选者列表中;
编码索引值,其中所述索引值对应于所述方向运动预测子;
使用对应于所述索引的所述合并候选者来预测所述当前块。
31.根据权利要求26所述的装置,其中所述视频编码器经配置以通过以下操作而使用所述运动向量预测子来编码所述当前运动向量:
将所述方向运动预测子的所述运动向量包含于用于所述当前块的先进运动向量预测AMVP模式的候选运动向量列表中;
编码索引值,其中所述索引值对应于来自所述候选运动向量列表的运动向量;
编码运动向量差值;
使用对应于所述索引的运动向量和所述运动向量差值来预测所述当前块。
32.根据权利要求26所述的装置,其中所述视频编码器经配置以进一步响应于具有所述第一图片次序计数值的所述参考图片对应于时间参考图片而使用所述方向运动预测子来编码所述当前运动向量。
33.根据权利要求26所述的装置,其中所述视频编码器经进一步配置以:
响应于所述两个方向运动预测子具有相同水平分量和相同垂直分量且具有对应于同一图片的参考索引而将所述第一运动向量和所述第二运动向量中的一者设定为不可用。
34.根据权利要求26所述的装置,其中所述装置包括以下各者中至少一者:
集成电路;
微处理器;以及
无线通信装置,其包含所述视频编码器。
35.一种用于解码多视图视频数据的设备,所述设备包括:
用于针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块的装置;
用于确定用于所述当前块的当前运动向量的第一方向的装置,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;
用于确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值的装置;
用于确定用于所述当前块的第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片的装置,其中所述第一参考图片列表对应于所述第一方向;
用于响应于基于按与所述第一运动向量相关联的所述参考索引的递增次序分析所述第一参考图片列表中的图片的装置,所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;
用于响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片而确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值的装置,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;
用于确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的参考图片的装置;以及
用于响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来解码所述当前运动向量的装置。
36.根据权利要求35所述的设备,其进一步包括:
用于将合并候选者添加到合并候选者列表的装置,其中当所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第一图片次序计数值的所述参考图片的参考图片索引且包括所述第一运动向量,且当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时,所述合并候选者包括对应于具有所述第二图片次序计数值的所述参考图片的一参考图片索引且包括所述第二运动向量;
用于解码索引值的装置,其中所述索引值对应于所述合并候选者;
用于使用对应于所述索引的所述合并候选者来预测所述当前块的装置。
37.根据权利要求36所述的设备,其进一步包括:
用于使用运动向量预测子候选者来解码所述当前运动向量的装置,其中所述运动向量预测子候选者包括所述方向运动预测子和第二方向运动预测子。
38.根据权利要求35所述的设备,其中当所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片时且当所述第二参考图片列表不包含具有所述第二图片次序计数值的所述参考图片时,所述设备进一步包括:
用于确定第一图片次序计数差是否大于第二图片次序计数差的装置,所述第一图片次序计数差表示所述第一图片次序计数值与最接近所述第一图片次序计数值的用于所述第一参考图片列表中的参考图片的第一图片次序计数值之间的所述差,所述第二图片次序计数差表示所述第二图片次序计数值与最接近所述第二图片次序计数值的用于所述第二参考图片列表中的参考图片的第二图片次序计数值之间的所述差;
用于当所述第一图片次序计数差大于所述第二图片次序计数差时根据所述第一图片次序计数差而按比例调整所述第一运动向量的装置,和用于当所述第一图片次序计数差大于所述第二图片次序计数差时使用所述经按比例调整的第一运动向量来解码所述当前运动向量的装置;以及
用于当所述第一图片次序计数差不大于所述第二图片次序计数差时根据所述第二图片次序计数差而按比例调整所述第二运动向量的装置,和用于当所述第一图片次序计数差不大于所述第二图片次序计数差时使用所述经按比例调整的第二运动向量来解码所述当前运动向量的装置。
39.根据权利要求37所述的设备,其中用于使用所述运动向量预测子来解码所述当前运动向量的所述装置包括:
用于将所述运动向量预测子候选者作为合并候选者包含于用于所述当前块的合并候选者列表中的装置;
用于解码索引值的装置,其中所述索引值对应于所述方向运动预测子;
用于使用对应于所述索引的所述合并候选者来预测所述当前块的装置。
40.根据权利要求35所述的设备,其中用于使用所述运动预测子来解码所述当前运动向量的所述装置包括:
用于将所述方向运动预测子的所述运动向量包含于用于所述当前块的先进运动向量预测AMVP模式的候选运动向量列表中的装置;
用于解码索引值的装置,其中所述索引值对应于来自所述候选运动向量列表的运动向量;
用于解码运动向量差值的装置;
用于使用对应于所述索引的运动向量和所述运动向量差值来预测所述当前块的装置。
41.根据权利要求35所述的设备,其中用于使用所述方向运动预测子来解码所述当前运动向量的所述装置是进一步响应于具有所述第一图片次序计数值的所述参考图片对应于一时间参考图片而执行。
42.根据权利要求35所述的设备,其进一步包括:
用于响应于所述两个方向运动预测子具有相同水平分量和相同垂直分量且具有对应于同一图片的参考索引而将所述第一运动向量和所述第二运动向量中的一者设定为不可用的装置。
43.一种计算机可读存储媒体,其存储指令,所述指令在由一或多个处理器执行时使所述一或多个处理器:
针对当前视图中的当前块而使用用于所述当前块的视差向量来确定参考视图中的对应块;
确定用于所述当前块的当前运动向量的第一方向,其中所述第一方向对应于第一参考图片列表或第二参考图片列表中的一者;
确定由与在所述第一方向上指向的所述对应块的第一运动向量相关联的参考索引参考的第一参考图片的第一图片次序计数值;
基于按与所述第一运动向量相关联的所述参考索引的递增次序分析用于所述当前块的第一参考图片列表中的图片,确定所述第一参考图片列表是否包含具有所述第一图片次序计数值的参考图片,其中所述第一参考图片列表对应于所述第一方向且基于识别所述第一参考图片列表中的有效参考图片的数目的语法元素来确定;
响应于所述第一参考图片列表包含具有所述第一图片次序计数值的所述参考图片而使用所述对应块的所述第一运动向量作为方向运动预测子来译码所述当前运动向量;
响应于所述第一参考图片列表不包含具有所述第一图片次序计数值的所述参考图片:
确定由与在第二方向上指向的所述对应块的第二运动向量相关联的参考索引参考的第二参考图片的第二图片次序计数值,其中所述第二方向不同于所述第一方向,其中所述第二方向对应于所述第一参考图片列表和所述第二参考图片列表中的另一者;
确定用于所述当前块的所述第一参考图片列表是否包含具有所述第二图片次序计数值的一参考图片;以及
响应于所述第一参考图片列表包含具有所述第二图片次序计数值的所述参考图片而使用所述对应块的所述第二运动向量作为方向运动预测子来译码所述当前运动向量。
CN201380043127.5A 2012-08-16 2013-08-16 用于3d视频的视图间预测的运动向量 Active CN104584558B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261684100P 2012-08-16 2012-08-16
US61/684,100 2012-08-16
US13/968,362 US9357195B2 (en) 2012-08-16 2013-08-15 Inter-view predicted motion vector for 3D video
US13/968,362 2013-08-15
PCT/US2013/055406 WO2014028870A1 (en) 2012-08-16 2013-08-16 Inter-view predicted motion vector for 3d video

Publications (2)

Publication Number Publication Date
CN104584558A CN104584558A (zh) 2015-04-29
CN104584558B true CN104584558B (zh) 2018-01-19

Family

ID=50099786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380043127.5A Active CN104584558B (zh) 2012-08-16 2013-08-16 用于3d视频的视图间预测的运动向量

Country Status (8)

Country Link
US (1) US9357195B2 (zh)
EP (1) EP2885916B1 (zh)
KR (1) KR101751145B1 (zh)
CN (1) CN104584558B (zh)
ES (1) ES2669399T3 (zh)
HU (1) HUE036380T2 (zh)
TW (1) TWI501611B (zh)
WO (1) WO2014028870A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105286B (zh) * 2011-03-14 2020-01-21 寰发股份有限公司 推导运动向量预测子的方法与装置
PT2690870T (pt) 2011-03-21 2020-02-10 Lg Electronics Inc Processo de selecção de preditor de vectores de movimento e dispositivo que o utiliza
SI2717574T1 (sl) 2011-05-31 2021-04-30 JVC Kenwood Corporation Naprava za dekodiranje gibljivih slik, postopek za dekodiranje gibljivih slik, program za dekodiranje gibljivih slik
WO2012177052A2 (ko) 2011-06-21 2012-12-27 한국전자통신연구원 인터 예측 방법 및 그 장치
KR20120140592A (ko) 2011-06-21 2012-12-31 한국전자통신연구원 움직임 보상의 계산 복잡도 감소 및 부호화 효율을 증가시키는 방법 및 장치
KR20150095679A (ko) * 2012-11-13 2015-08-21 엘지전자 주식회사 비디오 신호 처리 방법 및 장치
CN105637873A (zh) * 2013-10-18 2016-06-01 Lg电子株式会社 编译/解码包括多视图的视频的方法和设备
JP6615777B2 (ja) * 2014-01-02 2019-12-04 インダストリー−アカデミア、コーオペレイション、グループ、オブ、セジョン、ユニバーシティー 多視点ビデオを符号化する方法及びその装置、並びに多視点ビデオを復号化する方法及びその装置
US10567789B2 (en) * 2014-06-16 2020-02-18 Qualcomm Incorporated Simplified shifting merge candidate and merge list derivation in 3D-HEVC
WO2015196364A1 (en) * 2014-06-24 2015-12-30 Mediatek Singapore Pte. Ltd. Methods for inter-view advanced residual prediction
CN106358042B (zh) * 2015-07-17 2020-10-09 恩智浦美国有限公司 使用视频图像的帧间预测的并行解码器
US20180242004A1 (en) * 2015-08-23 2018-08-23 Lg Electronics Inc. Inter prediction mode-based image processing method and apparatus therefor
CN109565605B (zh) * 2016-08-10 2021-06-29 松下电器(美国)知识产权公司 拍摄技术生成方法以及影像处理装置
EP3349451A1 (en) * 2017-01-11 2018-07-18 Thomson Licensing Method and apparatus for selecting a coding mode used for encoding/decoding a residual block
CN116193110A (zh) * 2017-01-16 2023-05-30 世宗大学校产学协力团 影像编码/解码方法
CN109005412B (zh) * 2017-06-06 2022-06-07 北京三星通信技术研究有限公司 运动矢量获取的方法及设备
US11212547B2 (en) * 2017-09-19 2021-12-28 Samsung Electronics Co., Ltd. Method for encoding and decoding motion information, and apparatus for encoding and decoding motion information
US11477474B2 (en) * 2018-06-08 2022-10-18 Mediatek Inc. Methods and apparatus for multi-hypothesis mode reference and constraints
CN112640468A (zh) * 2018-09-04 2021-04-09 华为技术有限公司 应用于双向帧间预测中的参考帧获取方法及装置
WO2020086317A1 (en) * 2018-10-23 2020-04-30 Tencent America Llc. Method and apparatus for video coding
CN111479111B (zh) * 2019-01-23 2024-04-09 华为技术有限公司 图像显示顺序的确定方法、装置和视频编解码设备
CN112954334A (zh) 2019-03-11 2021-06-11 杭州海康威视数字技术股份有限公司 一种编解码方法、装置及其设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101931806A (zh) * 2006-01-09 2010-12-29 汤姆逊许可证公司 用于多视角视频编码的方法和装置
CN102160381A (zh) * 2008-09-24 2011-08-17 索尼公司 图像处理设备和方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
EP2030450B1 (en) 2006-06-19 2015-01-07 LG Electronics Inc. Method and apparatus for processing a video signal
WO2008007917A1 (en) * 2006-07-12 2008-01-17 Lg Electronics, Inc. A method and apparatus for processing a signal
TWI392368B (zh) 2006-11-17 2013-04-01 Lg Electronics Inc 視訊訊號之解碼方法、解碼裝置及其電腦可讀取媒介
TWI355205B (en) 2007-01-24 2011-12-21 Lg Electronics Inc A method and an apparatus for processing a video s
EP2348733A4 (en) * 2008-10-27 2012-09-12 Lg Electronics Inc METHOD AND APPARATUS FOR THE SYNTHESIS OF VIRTUAL VISUALIZATION IMAGES
US8462849B2 (en) 2008-12-23 2013-06-11 General Instrument Corporation Reference picture selection for sub-pixel motion estimation
EP2424247B1 (en) 2009-04-21 2016-08-24 LG Electronics Inc. Method and apparatus for processing multi-view video signal
US9094689B2 (en) 2011-07-01 2015-07-28 Google Technology Holdings LLC Motion vector prediction design simplification
US9338474B2 (en) 2011-09-23 2016-05-10 Qualcomm Incorporated Reference picture list construction for video coding
US20130089152A1 (en) 2011-10-05 2013-04-11 Qualcomm Incorporated Signaling picture identification for video coding
KR102106536B1 (ko) * 2012-04-25 2020-05-06 삼성전자주식회사 다시점 비디오 예측을 위한 참조픽처세트를 이용하는 다시점 비디오 부호화 방법 및 그 장치, 다시점 비디오 예측을 위한 참조픽처세트를 이용하는 다시점 비디오 복호화 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101931806A (zh) * 2006-01-09 2010-12-29 汤姆逊许可证公司 用于多视角视频编码的方法和装置
CN102160381A (zh) * 2008-09-24 2011-08-17 索尼公司 图像处理设备和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
3D-CE5.h related:Inter-view Motion Prediction for HEVC-based 3D Video Coding;JiCheng An等;《Joint Collaborative Team on 3D Video Coding Extension Development of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, 1st Meeting: Stockholm,SE,16-20 July 2012》;20120710;第13-15页 *
Temporally Adaptive POC Coding;Rajan L.Joshi等;《Joint Collaborative Team on Video Coding(JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11,9th Meeting:Geneva,CH,27 April-7 May,2012》;20120417;第1-7页 *
Test Model under Consideration for HEVC based 3D Video Coding;ANONYMOUS;《Joint Collaborative Team on Video Coding(JCT-VC) of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11 MPEG2011/N12559,San Jose, USA,6-10, February 2012》;20120211;第1-6页 *

Also Published As

Publication number Publication date
EP2885916A1 (en) 2015-06-24
US9357195B2 (en) 2016-05-31
KR101751145B1 (ko) 2017-06-26
WO2014028870A1 (en) 2014-02-20
ES2669399T3 (es) 2018-05-25
TW201419877A (zh) 2014-05-16
CN104584558A (zh) 2015-04-29
TWI501611B (zh) 2015-09-21
US20140049605A1 (en) 2014-02-20
HUE036380T2 (hu) 2018-07-30
KR20150043464A (ko) 2015-04-22
EP2885916B1 (en) 2018-02-21

Similar Documents

Publication Publication Date Title
CN104584558B (zh) 用于3d视频的视图间预测的运动向量
CN104956678B (zh) 用于三维视频的高级合并/跳过模式及高级运动向量预测(amvp)模式
CN105556969B (zh) 视频译码中使用视差向量的块识别
CN104322070B (zh) 用于高效率视频译码的高级别语法扩展
CN104769949B (zh) 用于视差向量导出的图片的选择的方法和装置
CN104170381B (zh) 在高效率视频译码及其扩展中的运动矢量译码及双向预测
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN105580372B (zh) 用于3d视频译码的组合式双向预测合并候选者
CN104885458B (zh) 用于视图间或层间参考图片的位流约束和运动向量限制
CN105874799B (zh) 用于3d视频译码的基于块的高级残差预测
CN104904213B (zh) 可缩放及多视角视频译码中的高级残差预测
CN104335589B (zh) 用于视频译码的视图间预测的视差向量产生
CN106797477B (zh) 用于解码及编码视频数据的方法和设备
CN104170380B (zh) 视频译码中的视差矢量预测
CN105379288B (zh) 处理对视频译码的照明补偿
CN104685883B (zh) 用于3d视频的经视图间预测运动向量
CN105379282B (zh) 用于纹理译码的先进残余预测(arp)的方法和设备
CN110301135A (zh) 在视频解码器处导出运动向量信息
CN109076235A (zh) 用于在视频译码中的并置参考索引的一致性约束
CN107534766A (zh) 于视频译码中针对子块推导运动信息
TWI536812B (zh) 針對三維(3d)視訊之基於鄰近區塊的差異向量之約束
CN105359530A (zh) 面向深度的视图间运动向量预测
CN105580364A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN106471806A (zh) 3d‑hevc中的简化移位合并候选者及合并列表导出
CN104521237A (zh) 用于可缩放视频译码及3d视频译码的多假设运动补偿

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant