CN105144715B - 后向视图合成预测 - Google Patents

后向视图合成预测 Download PDF

Info

Publication number
CN105144715B
CN105144715B CN201480017907.7A CN201480017907A CN105144715B CN 105144715 B CN105144715 B CN 105144715B CN 201480017907 A CN201480017907 A CN 201480017907A CN 105144715 B CN105144715 B CN 105144715B
Authority
CN
China
Prior art keywords
bvsp
block
view
reference picture
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480017907.7A
Other languages
English (en)
Other versions
CN105144715A (zh
Inventor
陈颖
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105144715A publication Critical patent/CN105144715A/zh
Application granted granted Critical
Publication of CN105144715B publication Critical patent/CN105144715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

在一个实例中,一种用于对视频数据进行译码的装置包含视频译码器,所述视频译码器经配置以:对多视图视频数据块的运动信息进行译码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测BVSP的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。

Description

后向视图合成预测
本申请案主张2013年4月10日申请的第61/810,674号美国临时申请案的权利,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
可将数字视频能力并入到多种多样的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频串流装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可被称为帧,且参考图片可被称为参考帧。
空间或时间预测导致待译码块的预测性块。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。经帧内译码块是根据帧内译码模式和残余数据来编码。为了实现进一步压缩,可以将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。可扫描最初布置为二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。
发明内容
一般来说,本发明描述用于执行后向视图合成预测(BVSP)的技术,在一些情况下也被称作基于块的视图合成预测。可使用BVSP模式通过以下操作对块进行译码:确定相邻块的视差向量,相对于所述块识别由所述视差向量识别的深度图片中的深度块,且使用深度图片的深度像素扭曲对应于深度图片的纹理图像的纹理像素以产生BVSP参考块,在本文中也被称作经预测块。所述块可进一步包含运动信息,所述运动信息包含识别将从其产生BVSP参考块的纹理图片的参考索引。视频译码器可随后使用BVSP参考块作为经预测块对BVSP块进行译码。
在一个实例中,一种方法包含:对多视图视频数据块的运动信息进行解码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
在另一个实例中,一种方法包含:对多视图视频数据块的运动信息进行编码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
在另一个实例中,一种装置包含视频译码器,所述视频译码器经配置以:对多视图视频数据块的运动信息进行译码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
在另一个实例中,一种装置包含:用于对多视图视频数据块的运动信息进行译码的装置,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;用于对所述参考图片的一部分执行BVSP以产生BVSP参考块的装置;以及用于使用所述BVSP参考块预测所述块的装置。
在另一个实例中,一种计算机可读存储媒体其上存储有(例如,经编码有)指令,所述指令在执行时致使处理器:对多视图视频数据块的运动信息进行译码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
随附图式和以下描述中陈述一或多个实例的细节。其它特征、目标和优点将从所述描述和图式以及权利要求书而显而易见。
附图说明
图1是说明可利用用于使用后向视图合成预测(BVSP)对块进行译码的技术的实例视频编码和解码系统的框图。
图2是说明可实施用于使用后向视图合成预测(BVSP)对块进行编码的技术的视频编码器的实例的框图。
图3是说明可实施用于使用后向视图合成预测(BVSP)对块进行解码的技术的视频解码器的实例的框图。
图4为说明实例多视图视频译码(MVC)结构的概念图。
图5是说明基于后向扭曲的基于块的视图合成预测的概念图。
图6是说明当前块及五个空间相邻块的概念图。
图7是说明涉及使用相邻块的后向视图合成预测(BVSP)的技术的概念图。
图8是说明根据本发明的技术使用BVSP对当前块进行编码的实例方法的流程图。
图9是说明根据本发明的技术使用BVSP对当前视频数据块进行解码的实例方法的流程图。
具体实施方式
本发明的技术大体上涉及基于高级编解码器的多视图视频译码。此些高级编解码器的一个实例是经配置以根据对高效率视频译码(HEVC)标准的三维(3D)扩展操作的编解码器。HEVC,也被称作ITU-T H.265,在http://www.itu.int/ITU-T/recommendations/rec.aspx?rec=11885可用的“ITU-T H.265,系列H:视听和多媒体系统,移动视频的视听服务译码的基础结构,高效率视频译码”(2013年4月)中描述。3D-HEVC在格哈德技术公司(Gerhard Tech),克孜托夫·韦格纳、陈英和叶思宏的“3D-HEVC测试模型描述草案2”(JCT3V-B1005,ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组第2次会议:中国上海,2012年10月)中描述。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。MVC的联合草案描述于2010年3月的“用于通用视听服务的高级视频译码”(ITU-T建议H.264)中。本发明的技术大体上是相对于HEVC及其扩展(例如,3D或多视图视频译码扩展)而描述。然而,应理解,本发明的技术可应用于其它视频译码标准和对此些标准的扩展。
举例来说,本发明的技术可应用于ITU-T H.264/AVC或其扩展。在H.264/AVC中,每一帧间宏块(MB)可以四个不同方式中的一者分割:一个16x16像素MB分区,两个16x8像素MB分区,两个8x16像素MB分区,或四个8x8像素MB分区。一个MB中的不同MB分区可具有用于每一预测方向的不同参考索引值(即,RefPicList0或RefPicList1)。当MB并未分割成四个8x8MB分区时,其可具有每一方向中用于整个MB分区的仅一个运动向量,如由H.264视频译码标准规定。
当MB分割成四个8x8像素MB分区时,每一8x8像素MB分区可进一步分割成子块。存在四个不同方式从8x8像素MB分区得到子块:一个8x8像素子块,两个8x4像素子块,两个4x8像素子块,和四个像素4x4子块。每一子块可具有每一方向中的不同运动向量。如何将8x8MB分区分割成子块称为子块分区。
当前,VCEG和MPEG的3D视频译码联合合作小组(JCT-3V)正在开发基于H.264/AVC的3DV标准,即,3D-AVC。对于3D-AVC,已经包含且支持除MVC中的视图间预测以外的新译码工具。用于3D-AVC的3D-ATM版本6.2软件可从以下链接下载:http://mpeg3dv.research.nokia.com/svn/mpeg3dv/tags/3DV-ATMv6.2。基于AVC的3D视频(3D-AVC)译码标准当前在由JCT-3V开发,且3D-AVC的版本描述于M·M·汉努克塞拉、Y·陈、T·铃木、J·R·欧姆、G·J·沙利文的“3D-AVC草案文本5”(JCT3V-C1002,瑞士日内瓦,2013年1月,在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/3_Geneva/wg11/JCT3V-C1002-v3.zip可用)中。
3D-AVC以基础视图的纹理部分可由H.264/AVC解码器完全解码的方式兼容于H.264/AVC。对于3D-AVC中的增强视图分量,可在纹理之前对深度进行译码,且可基于来自深度视图分量的信息对纹理视图分量进行译码,其也被称作深度优先译码。相比之下,在纹理优先译码次序中每一纹理视图分量可在相应深度视图分量之前译码。
3D-AVC中的纹理和深度视图分量的译码次序的实例阐释如下,其中T0和D0分别指代基础视图的纹理和深度视图分量,且Ti和Di分别指代第i相依视图的纹理和深度视图分量。在这些实例中,考虑三个视图(0、1和2),且假定如下文陈述从左到右按次序对视图分量进行译码:
●T0 D0 D1 D2 T1 T2-在此实例中,基础视图(T0和D0)是以纹理优先译码次序译码,而相依视图是以深度优先译码次序译码。混合译码次序是在3D-AVC的共同测试条件中使用。
●T0 D0 T1 D1 T2 D2-在此实例中,所有视图分量是以纹理优先译码次序译码的。
如果针对Ti启用视图间预测,那么用于视图Ti的参考纹理视图可经界定为包含用于视图Ti中的图片的对应视图间参考图片的视图,且对应深度视图可经界定为具有与参考纹理视图的视图次序索引相同的视图次序索引的参考深度视图。举例来说,如果Ti中的纹理图片是相对于视图Tk中的参考图片而预测,那么根据上文的实例定义,Tk将被标记为参考纹理视图且Dk将被标记为参考深度视图。
下文例如相对于图4至7描述的技术涉及执行后向视图合成预测(BVSP)。一般来说,BVSP涉及从纹理图片中的当前块的相邻块导出视差向量,使用所述视差向量识别深度视图中的深度块,且使用所述视差向量识别参考纹理图像的像素以用于合成当前块的经预测块。经预测块也可被称作BVSP参考块。然而,本发明认识到当根据3D-HEVC的当前技术执行BVSP时可产生的某些问题。
本发明首先认识到以BVSP模式译码的预测单元是从视图间参考图片预测,而参考索引设定成-1。此设计可具有以下问题:
●3D-HEVC的设计在参考索引的语义方面并未与HEVC对准。等于-1的参考索引通常指示帧内模式预测或无帧间预测。
●可能需要修改若干模块:每当调用帧内/帧间模式的检查时,还应检查再一个条件,即,等于1或不等于1的BVSP模式旗标。
○举例来说,解块滤波器的设计、时间合并候选者、Do-NBDV(基于相邻块的视差向量导出)和高级运动向量预测(AMVP)可能需要修改。
●16x16单元中的BVSP模式旗标应连同其它运动信息一起存储在经解码图片缓冲器中。其可在时间合并候选者导出过程期间使用。
●对于运动参数继承,首先导出从位于同一地点纹理块导出的候选者。然后,位于同一地点的纹理块中的候选者是否是BVSP合并候选者的检查。如果是,那么通过使用针对当前深度块产生的BVSP合并候选者对此块停用运动参数继承(MPI)。替换关于译码损失增加了复杂性。
●在软件中将预测方向设定成用于BVSP块的双向预测,而在本说明书中将其设定成单向预测。
本发明提出可应用于3D-HEVC的BVSP技术的各种修改,其可克服这些潜在问题和/或引入其它优点。本发明的技术可当BVSP经启用时使3D-HEVC中的模块与基本HEVC模块对准。
图1是说明可利用用于使用后向视图合成预测(BVSP)对块进行译码的技术的实例视频编码和解码系统10的框图。如图1中所示,系统10包含源装置12,其提供稍后将由目的地装置14解码的经编码的视频数据。确切地说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括多种多样的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板计算机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或类似者。在一些情况下,源装置12和目的地装置14可经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据例如无线通信协议等通信标准加以调制,且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可能形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据并且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码的视频数据。此可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可能是串流发射、下载发射或两者的组合。
本发明的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如,经由HTTP的动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频串流、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用使用后向视图合成预测(BVSP)对块进行译码的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可以从外部视频源18(例如,外部摄像机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包括集成式显示装置。
图1的说明的系统10只是一个实例。使用后向视图合成预测(BVSP)对块进行译码的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术大体上由视频编码装置来执行,但所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术还可由视频预处理器来执行。源装置12及目的地装置14仅为此类译码装置的实例,其中源装置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以大体上对称的方式操作以使得装置12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传输以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如相机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、经存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18是视频摄像机,那么源装置12及目的地装置14可形成所谓的摄像机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般可适用于视频译码,且可应用于无线及/或有线应用。在每一情况下,可由视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、闪存驱动器、压缩光盘、数字影音光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码的视频数据,并且例如经由网络发射将经编码的视频数据提供到目的地装置14。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码的视频数据并且生产容纳经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息也被视频解码器30使用,其包含描述块及其它经译码单元(例如GOP)的特性及/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据一种视频译码标准(例如,目前正在开发的高效视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可以根据其它专有或业界标准来操作,所述标准例如是ITU-T H.264标准,也被称为MPEG-4第10部分高级视频译码(AVC),或此类标准的扩展。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。尽管图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件和软件,以处置对共同数据流或单独数据流中的音频和视频两者的编码。如果适用的话,多路复用器-多路分用器单元可符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
ITU-T H.264/MPEG-4(AVC)标准是由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)制定以作为被称为联合视频小组(JVT)的集体伙伴关系的产品。在一些方面中,本发明中描述的技术可应用到一般符合H.264标准的装置。H.264标准描述于ITU-T研究组的日期为2005年3月的“ITU-T推荐H.264,用于通用视听服务的高级视频译码”(ITU-T Recommendation H.264,Advanced Video Coding for generic audiovisualservices)中,所述标准在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)持续致力于扩展H.264/MPEG-4AVC。
视频编码器20和视频解码器30各自可经实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分以软件实施所述技术时,装置可将用于所述软件的指令存储于合适非暂时性计算机可读媒体中并使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可以包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。
JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM根据(例如)ITU-T H.264/AVC假设视频译码装置相对于现存装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HM可提供多达三十三种帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图片可被划分为包含明度和色度样本两者的树块或最大译码单元(LCU)的序列。位流内的语法数据可界定LCU(其是就像素数目来说的最大译码单元)的大小。切片包含按译码次序的数个连续树块。视频帧或图片可被分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。总的来说,四叉树数据结构包含每个CU一个节点,其中一个根节点对应于所述树块。如果一个CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供用于对应的CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,从而指示对应于所述节点的所述CU是否分裂成子CU。用于CU的语法元素可以递归式定义,且可以取决于CU是否分裂成子CU。如果CU未经进一步分裂,那么将其称作叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU不进一步分裂,那么这四个8x8子CU将也被称作叶CU,虽然16x16CU从未分裂。
CU具有与H.264标准的宏块类似的用途,只是CU不具有大小区别。举例来说,树块可以分裂成四个子节点(还被称作子CU),并且每一子节点又可以是父节点并且可以分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括译码节点,还称为叶CU。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,被称作最大CU深度,且还可界定译码节点的最小大小。所以,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块和子块)。
CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可以在从8x8像素直到具有最大64x64像素或更大的树块的大小的范围内。每一CU可以含有一或多个PU和一或多个TU。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可以在CU被跳过或经直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间有区别。PU可以分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU可以是正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU变换,TU可以针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设置,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU残余样本可以使用一种被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,可以将所述变换系数量化。
叶CU可包含一或多个预测单元(PU)。总的来说,PU表示对应于对应CU的全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含界定PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用RQT(还称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是否分裂成四个变换单元。接着,每一变换单元可以进一步分裂成其它的子TU。当TU不进一步分裂时,其可被称为叶TU。总体上,对于帧内译码,所有属于一叶CU的叶TU共享相同的帧内预测模式。也就是说,总体上应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因而,TU比PU大或小。对于帧内译码,PU可与相同CU的对应叶TU位于同一地点。在一些实例中,叶TU的最大大小可以对应于对应叶CU的大小。
此外,叶CU的TU还可与相应的四叉树数据结构(被称作残余四叉树(RQT))相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点总体上对应于叶CU,而CU四叉树的根节点总体上对应于树块(或LCU)。未分裂的RQT的TU被称作叶TU。一般来说,除非另有陈述,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)总体上包括一系列视频图片中的一或多者。GOP可包含在GOP的标头、图片中的一或多者的标头或其它地方中的语法数据,所述语法数据描述GOP中所包含的图片的数目。图片的每一切片可包含切片语法数据,其描述用于相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且根据指定译码标准可具有不同大小。
作为一实例,HM支持各种PU大小的预测。假定特定CU的大小为2Nx2N,那么HM支持2Nx2N或NxN的PU大小的帧内预测,和2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是另一方向分割成25%及75%。CU的对应于25%分区的部分通过“n”、后面接续“上方”、“下方”、“左侧”或“右侧”指示来指示。因此,例如,“2NxnU”是指经水平地分割的2Nx2N CU,其中顶部为2Nx0.5N PU,而底部为2Nx1.5N PU。
在本发明中,“NxN”和“N乘N”可以互换使用来指代在垂直和水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。总的来说,16x16块将在垂直方向上具有16个像素(y=16),并且在水平方向上具有16个像素(x=16)。同样,NxN块一般在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。一块中的像素可布置成若干行和若干列。此外,块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来说,块可包括NxM像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器20可以计算CU的TU的残余数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后在变换域中的系数。所述残余数据可以对应于未编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。
在用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化大体上是指量化变换系数以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些系数或全部相关联的位深度。举例来说,n位值可在量化期间被下舍入到m位值,其中n大于m。
在量化之后,视频编码器可以扫描变换系数,从包含经量化的变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(以及因此较低频率)系数放置在阵列的前面,且将较低能量(以及因此较高频率)系数放置在阵列的后面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行熵编码。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可以选择用于待发射的符号的可变长度码。VLC中的码字可经构造而使得相对短的码对应于更有可能的符号,而较长的码对应于不太可能的符号。以此方式,使用VLC可比例如对待发射的每一符号使用相等长度码字实现位节省。概率确定可基于指派给符号的上下文。
本发明大体上描述涉及后向视图合成预测的技术,且确切地说,可用以克服上文所论述问题的技术。本发明提出通过在构造合并候选者列表之后由视图间参考图片索引替换参考索引而移除BVSP模式的所有额外检查。因此,不需要改变3D-HEVC的模块,例如解块滤波器、时间合并候选者、Do-NBDV和AMVP模块,且视频译码器(例如,视频编码器20和/或视频解码器30)可将BVSP模式旗标存储在经解码图片缓冲器(DPB)中以减少硬件实施方案的复杂性。
如下文更详细地论述的,在3D-HEVC中,当后向视图合成预测(BVSP)用以对块进行译码时,块的运动信息包含等于-1的参考索引。然而根据本发明,视频译码器(例如视频编码器20或视频解码器30)可使用BVSP对块进行译码,其中块的参考索引参考将从其执行视图合成预测的图片。换句话说,本发明提出将使用BVSP模式译码的块设定成具有等于参考图片列表中的视图间参考图片的参考索引的参考索引,其中所述视图间参考图片是从其执行视图合成的图片。
以此方式,经BVSP译码块可在许多情况下明显视为正常的经帧间预测块。举例来说,在AMVP中,当存取相邻块(包含空间相邻块)以产生运动向量预测符候选者而不是具有用于经BVSP译码块和正常帧间预测块两者的不同逻辑功能时,如在HEVC中,一个功能可用于经BVSP译码块和帧间预测块两者。同样,在时间运动向量预测(TMVP)中,经BVSP译码块和正常经帧间译码块可联合地在一个功能中处置。另外,BVSP变量不需要存储到经解码图片缓冲器中。此外,在解块中,在3D-HEVC中添加以处置BVSP的额外逻辑可移除。此外,在NBDV中,作为经BVSP译码块且作为视差运动补偿块的相邻块视为相同的,因此,针对每一相邻块不需要BVSP变量的额外检查。以此方式,实施这些技术可减少符合例如通过这些技术修改的3D-HEVC的编解码器的复杂性。
本发明描述涉及设定用于使用BVSP译码的块的参考索引的额外技术。确切地说,本发明描述其中使用BVSP译码的块的参考索引的设定恰好发生在合并候选者列表经产生且BVSP候选者已插入和/或以merge_idx选择之后的技术。替代地,当选择BVSP合并候选者时,视频译码器(例如视频编码器20或视频解码器30)可将BVSP合并候选者立即转换到其参考索引被设定成执行视图合成的视图间参考图片的参考索引的候选者。
在一些实例中,BVSP块可仍通过BVSP变量来识别。然而,虽然可针对整个切片为此变量分配存储器存储,但与用于BVSP的3D-HEVC的技术相反,不需要在经解码图片缓冲器DPB中分配存储器。
另外,或在替代方案中,无论位于同一地点的块是否以BVSP模式译码,都可启用运动参数继承(MPI)。因此,一旦切片经译码便不需要BVSP变量的存储。因此,替代于在存储器中载运BVSP变量直到深度视图分量的译码,视频编码器20和视频解码器30可在一旦包含经BVSP译码块的切片经译码后便丢弃BVSP变量。
此外,无论空间相邻块是否以BVSP译码,BVSP合并候选者都可始终添加在相对固定位置。因此,不需要BVSP变量的存储(甚至在切片或线缓冲器中)。即,视频编码器20和视频解码器30不需要存储BVSP变量。在一些实例中,视频编码器20和视频解码器30可经配置以始终将BVSP候选者插入到合并候选者列表中的序数第一位置中。在一些实例中,视频编码器20和视频解码器30可经配置以将BVSP候选者插入在合并候选者列表中处于所有空间合并候选者之后。在一些实例中,视频编码器20和视频解码器30可经配置以将BVSP候选者插入在合并候选者列表的任何(预定)位置中。
以此方式,视频编码器20和视频解码器30表示经配置以进行以下操作的视频译码器的实例:例如根据3D-HEVC对多视图视频数据的块的运动信息进行译码(例如,由视频编码器20编码或由视频解码器30解码),其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对于所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
确切地说,如上文所论述,视频编码器20和视频解码器30可经配置以对多视图视频数据的块的运动信息进行译码。运动信息可包含参考索引,以及其它运动参数(例如参考图片列表识别符)。与如描述于3D-HEVC中用于经BVSP译码块的值-1相反,所述参考索引可具有识别参考图片列表中的参考图片的值。然而,并非从由参考索引识别的参考图片预测块,视频编码器20和视频解码器30可经配置以对参考图片的一部分执行BVSP以产生BVSP参考块。即,视频编码器20和视频解码器30可使用BVSP从由参考图片列表中的参考索引识别的参考图片合成所述块的经预测块。经预测块也可被称作BVSP参考块。
视频编码器20和视频解码器30可使用BVSP参考块(充当经预测块)对块进行译码。举例来说,视频编码器20可计算所述块与经预测块之间的逐像素差以形成残余块。视频解码器30可通过熵解码位流数据而重构残余块,随后逆量化且逆变换此数据,且随后将经预测块逐像素添加到残余块以再生所述块。
应理解,当执行BVSP以合成BVSP参考块时,BVSP参考块被视为处于与包含正译码块的当前视图以及包含从其合成BVSP参考块的参考图片的视图不同的视图中。举例来说,假定当前块在视图2中,参考图片可在视图0中且BVSP参考块可在视图1中合成。
此外,在已使用BVSP译码块之后,块的运动信息可用作运动向量预测符。举例来说,视频编码器20和视频解码器30可经配置以存取使用BVSP译码的相邻块作为第一运动向量预测符候选者(例如,用于高级运动向量预测(AMVP))。视频编码器20和视频解码器30可经配置有用于存取AMVP候选者的特定逻辑功能。并非包含一个用于BVSP候选者且一个用于非BVSP候选者的两个不同逻辑功能,视频编码器20和视频解码器30可使用同一逻辑功能存取BVSP和非BVSP候选者两者。因此,视频编码器20和视频解码器30可使用与用以存取非经BVSP译码块作为不同AMVP候选者的逻辑功能相同的逻辑功能存取经BVSP译码块作为AMVP候选者。
类似地,可存取经BVSP译码块的运动信息作为用于时间运动向量预测(TMVP)的候选者。视频编码器20和视频解码器30当使用经BVSP译码块的运动信息对当前块的运动信息进行译码时可使用也用以存取经视图间预测块的运动信息的功能存取经BVSP译码块的运动信息。换句话说,用以存取经视图间预测块的运动信息(例如,视差运动向量)的同一功能也可以用以存取经BVSP译码块的运动信息。
此外,视频编码器20和视频解码器30可当使用合并模式对当前块的运动信息进行译码时使用经BVSP译码块的运动信息。为了使用合并模式对运动信息进行译码,在一些实例中,视频编码器20和视频解码器30可产生包含相邻块的运动信息的合并候选者列表,所述相邻块包含空间和/或时间相邻块,其可包含BVSP候选者。当视频编码器20和/或视频解码器30从合并候选者列表选择BVSP候选者时,视频译码器可立即设定正在合并模式中使用所述BVSP候选者译码运动信息的块的参考索引的值(而不是等待直到较晚时间来设定参考索引)。另外或替代地,视频译码器可设定BVSP候选者的参考索引以参考经BVSP译码块的经预测块从其合成的参考图片。经预测块可被称作BVSP参考块。
以此方式,或使用其它技术,视频编码器20和视频解码器30可避免存储指示经BVSP译码块是使用经解码图片缓冲器(DPB)中的BVSP译码的变量。同样,视频编码器20和视频解码器30可在对包含经BVSP译码块的切片进行译码之后在对后续切片进行译码之前丢弃BVSP变量。视频编码器20和视频解码器30可当对与DVSP经译码块位于同一地点(在另一图片和/或另一视图中)的块进行译码时启用运动参数继承。
如上所述,视频编码器20和视频解码器30可将经BVSP译码块的运动信息添加到合并候选者列表(或AMVP的候选者列表)。当构造此候选者列表,即将包含作为候选者的经BVSP译码块的运动信息的候选者列表时,视频编码器20和视频解码器30可将所述候选者添加到合并候选者列表中的预定位置。所述预定位置在所述位置是用于经BVSP译码块的运动信息的意义上可为预定的,前提是此候选者将添加到候选者列表。所述预定位置可对应于(例如)列表中的序数第一位置、跟随所有空间候选者的位置的位置或类似位置。一般来说,视频编码器20和视频解码器30可经配置以使得所述预定位置在视频编码器20和视频解码器30两者中是相同的。
为了实施上述技术,可对3D-HEVC做出某些修改,例如如JCT3V-C1005(其为3D-HEVC的工作草案文本)中描述。按本发明,对JCT3V-C1005的添加是使用斜体文字来强调,而本发明提议移除的JCT3V-C1005的部分是在括号中强调且前面是“移除”。标题、条款、子条款及类似物参考JCT3V-C1005的部分,除非另外指明。省略号表示在此不做重复的JCT3V-C1005的文字。
H.8.5.2.1用于运动向量分量和参考索引的导出过程
对此过程的输入是
此过程的输出是
以下适用。
–如果PredMode[xC][yC]等于MODE_SKIP,那么如子条款H.8.5.2.1.1中指定的用于合并模式的明度运动向量的导出过程是如下调用:明度位置(xC,yC)、明度位置(xP,yP)、变量nCS、nPbW、nPbH以及分区索引partIdx作为输入,输出是明度运动向量mvL0、mvL1、参考索引refIdxL0、refIdxL1、预测列表利用旗标predFlagL0和predFlagL1、视差向量可用性旗标ivpMvFlagL0和ivpMvFlagL1、视差向量ivpMvDispL0和ivpMvDispL1、旗标vspModeFlag、变量refViewIdx和旗标availableFlagIvMC。
当vspModeFlag等于1时,当RefPicListX[0]是长期参考图片时refIdxL0设定成0或当RefPicListX[0]是短期参考图片时refIdxL0设定成AltRefIdxLX
当ChromaArrayType不等于0且predFlagLX(其中X是0或1)等于1时,子条款8.5.2.1.8中的色度运动向量的导出过程是以mvLX和refIdxLX作为输入且输出为mvCLX来调用。
H.8.5.4用于视差向量的导出过程
对此过程的输入是:
–…
此过程的输出是:
9.对于从0到1的每一X,以下适用:
–当availableDV等于0时,availableN等于1且PredFlagLX[xN][yN]等于1,以下适用:
–如果RefIdxLX[xN][yN]大于或等于0,那么以下适用:
–如果RefPicListX[RefIdxLX[xN][yN]]是视图间参考图片,那么以下适用:
refViewIdx=ViewIdx(RefPicListX[RefIdxLX[xN][yN]])(H-274)
mvDisp=MvLXN[xN][yN](H-275)
availableDV=1(H-276)
–否则(RefPicListX[RefIdxLX[xN][yN]]不是视图间参考图片),以下适用:
–当availableIvpMvSearchFlagN 1且PredMode[xN][yN]等于MODE_SKIP且IvpMvFlagLX[xN][yN]等于1时,以下适用:
ivpMvDispLXN=IvpMvDispLX[xN][yN](H-277)
availableFlagIvpMvLXN=1(H-278)
–[移除:“否则(RefIdxLX[xN][yN]小于0),以下适用:
–当VspModeFlag[xN][yN]等于1时,以下适用:
refViewIdx=RefViewIdx[xN][yN](H-279)
mvDisp=MvLXN[xN][yN](H-280)
mvDisp[1]=0(H-281)
availableDV=1(H-282)
[Ed.(GT):在软件中refViewIdx设定成等于0。(#19)]”]
H.8.5.2.1.1用于合并模式的明度运动向量的导出过程
此过程仅在PredMode[xC][yC]等于MODE_SKIP或PredMode[xC][yC]等于MODE_INTER及merge_flag[xP][yP]等于1时被调用,其中(xP,yP)指定相对于当前图片的左上方明度样本的当前明度预测块的左上方样本。
此过程的输入是
此过程的输出是
如下导出变量singleMCLFlag。
–如果log2_parallel_merge_level_minus2大于0,且nCS等于8,那么将singleMCLFlag设定成1。
–否则,将singleMCLFlag设定成0。
9.合并候选者列表mergeCandList如以下有序步骤指定而构造。
a.变量numMergeCand设定成等于0。
b.变量vspCandInListFlag设定成等于0。
c.[移除:“当availableFlagT等于1时,如子条款H.8.5.2.1.1.1中指定的从潜在地视图合成预测相邻者的候选者的插入过程是如下调用:列表mergeCandList、变量numMergeCand、变量vspCandInListFlag、等于T的候选者位置指示符N、明度位置(xP,yP)以及变量nPbW和nPbH作为输入,且输出是列表mergeCandList、变量numMergeCand和旗标vspCandInListFlag。”]
13.变量vspModeFlag设定成等于(mergeCandList[merge_idx[xP][yP]]==VSP)。
[移除:“[Ed.(GT):在软件中VspModeFlag[x][y]在若干地方中使用(解块滤波器,AMVP),这尚未在草案中反映。]”]
视频编码器20及视频解码器30各自可以实施为可适用的多种合适的编码器或解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20及视频解码器30中的每一者可包括在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为组合式视频编码器/解码器(编解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置,例如蜂窝式电话。
图2是说明可实施用于使用后向视图合成预测(BVSP)对块进行编码的技术的视频编码器20的实例的框图。视频编码器20可以执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻接帧或图片内的视频中的时间冗余。帧内模式(I模式)可以指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图2中所示,视频编码器20接收待编码视频帧内的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考图片存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。为了视频块重构,视频编码器20还包含逆量化单元58、逆变换单元60,和求和器62。还可包含解块滤波器(图2中未图示)以便对块边界进行滤波,以将成块效应假象从经重构的视频中去除。必要时,解块滤波器通常将对求和器62的输出进行滤波。除了解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示此些滤波器,但是必要时,此些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42及运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46或者可相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码以提供空间预测。视频编码器20可以执行多个译码遍次,例如,以针对每一视频数据块选择适当的译码模式。
此外,分割单元48可以基于先前译码遍次中的先前分割方案的评估将视频数据块分割成若干子块。举例来说,分割单元48可起初将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可以基于错误结果选择译码模式中的一者(帧内或帧间),并且将所得的经帧内译码或经帧间译码块提供到求和器50以便产生残余块数据,并且提供到求和器62以便重构经编码块用作参考帧。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分割信息和其它这些语法信息)提供到熵编码单元56。
运动估计单元42和运动补偿单元44可高度集成,但出于概念的目的分别加以说明。运动估计单元42所执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正经译码的当前块的位移。预测块是经发现在像素差异方面密切地匹配待译码的块的块,其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异量度来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元42可以相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元44。
运动补偿单元44执行的运动补偿可以包括基于运动估计单元42确定的运动向量来取出或产生预测性块。同样,在一些实例中,运动估计单元42与运动补偿单元44可以在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44即刻可以在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44对于色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
根据本发明的技术,运动补偿单元44可例如使用BVSP从合成图片预测块。举例来说,模式选择单元40可确定应使用另一视图的参考图片来合成当前块可从其预测的参考图片的至少一部分。运动补偿单元44或视频编码器20的另一元件(例如,合成单元,图2中未图示)可从存储在参考图片存储器64中的图片合成参考图片的一部分。合成单元当存在时可包含在模式选择单元40或视频编码器20的另一元件中。
根据本发明的技术,视频编码器20可通过以下方式用信号表示参考图片的所述部分从其合成以用于块的图片:将所述块的运动信息的参考索引的值设定为对应于所述图片的值。即,参考索引可识别参考图片的所述部分从其合成的图片,作为到包含所述图片的参考图片列表中的索引,以使得所述索引对应于参考图片列表中的图片。
因此,运动补偿单元44可执行用于当前视图中的当前块的后向视图合成预测。即,运动补偿单元44可确定第一视图中的参考图片存储器64的图片。如下文相对于图7更详细地解释,运动补偿单元44可确定当前块的相邻块和相邻块的视差向量。运动补偿单元44可随后相对于当前视图中的当前块确定由视差向量识别的第一视图中的深度图的深度块。
随后,使用深度块的深度值,运动补偿单元44可扭曲相对于当前块中的像素的位置所确定的第一视图中的图片的像素值,以使得在不同于第一视图和当前视图的第二视图中形成经预测块。运动补偿单元44可将此经预测块提供到求和器50和求和器62,分别用于计算残余和再生当前块。同样,根据本发明的技术,视频编码器20可对界定当前块的运动信息的语法数据进行编码以使得所述运动信息包含具有识别第一视图中从其合成经预测块(即,BVSP参考块)的图片的值的参考索引。
此外,参考索引可连同块的其它语法元素一起存储在参考图片存储器64中。参考图片存储器64表示经解码图片缓冲器(DPB)的实例。因为存储具有识别实际参考图片的值的用于块的参考索引,所以当例如根据高级运动向量预测(AMVP)、时间运动向量预测(TMVP)和/或合并模式对后续块的运动信息进行译码时可使用块的运动信息。此外,视频编码器20不需要实施用于存取参考图片存储器64中的经BVSP译码块的运动信息的额外逻辑功能。实际上,视频编码器20可使用与非经BVSP译码块相同的逻辑功能来存取经BVSP译码块的运动信息。类似地,视频编码器20可启用用于与经BVSP译码块位于同一地点(但在不同视图或不同图片中)的块的运动参数继承(MPI)。
如上文所论述,用于经BVSP译码块的参考索引可存储在DPB中,例如参考图片存储器64中。然而,视频编码器20可经配置以避免将BVSP变量存储在参考图片存储器64中。BVSP变量可充当指示正编码的当前块是使用BVSP编码的状态变量。然而,BVSP变量不需要存储在参考图片存储器64中,且因此,在参考图片存储器64中不需要分配用于BVSP变量的存储器。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可以对当前块进行帧内预测。明确地说,帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可以例如在单独编码遍次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测单元46(或在一些实例中为模式选择单元40)可以从所述测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值,且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在选择用于块的帧内预测模式后,帧内预测单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的编码上下文的定义,及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20通过从经译码原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示可执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可将所述变换系数量化以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。替代性地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵译码。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下,上下文可以基于相邻块。在由熵编码单元56进行熵译码之后,可以将经编码位流发射到另一装置(例如,视频解码器30),或者将所述经编码位流存档以用于稍后发射或检索。
逆量化单元58及逆变换单元60分别应用逆量化及逆变换以在像素域中重构残余块,例如以供稍后用作参考块。运动补偿单元44可以通过将残余块加到参考图片存储器64中的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于所重构的残余块以计算子整数像素值用于运动估计。求和器62将经重构的残余块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生经重构的视频块以用于存储于参考图片存储器64中。经重构的视频块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧中的块进行帧间译码。
以此方式,图2的视频编码器20表示经配置以进行以下操作的视频编码器的实例:例如根据3D-HEVC对多视图视频数据块的运动信息进行编码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用BVSP参考块预测所述块。
图3是说明可实施用于使用后向视图合成预测(BVSP)对块进行解码的技术的视频解码器30的实例的框图。在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考图片存储器82及求和器80。视频解码器30在一些实例中可执行与关于视频编码器20(图2)所描述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频块的视频块及相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可以基于用信号表示的帧内预测模式和来自当前图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生所述预测性块。视频解码器30可以基于存储在参考图片存储器82中的参考图片使用默认构造技术构造参考帧列表,即列表0及列表1。
运动补偿单元72通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于经解码的当前视频块的预测块。举例来说,运动补偿单元72使用一些接收到的语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态和用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的次整数像素的内插值。在此情况下,运动补偿单元72可根据所接收的语法元素确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测性块。
根据本发明的技术,运动补偿单元72可例如使用BVSP从合成图片预测块。举例来说,熵解码单元70可对指示块是使用BVSP译码的用于所述块的语法数据进行熵解码,且将此经解码语法数据发送到运动补偿单元72。作为响应,运动补偿单元72可确定另一视图的参考图片将用以合成将从其预测所述块的参考图片的至少一部分。运动补偿单元72或视频解码器30的另一元件(例如,合成单元,图3中未图示)可从存储在参考图片存储器82中的图片合成参考图片的一部分。合成单元当存在时可包含在运动补偿单元72或视频解码器30的另一元件中。
根据本发明的技术,视频解码器30可从块的运动信息的参考索引的值到对应于图片的值确定参考图片的所述部分从其合成以用于所述块的图片。即,参考索引可识别参考图片的所述部分从其合成的图片,作为到包含所述图片的参考图片列表中的索引,以使得所述索引对应于参考图片列表中的图片。熵解码单元70可对块的运动信息的语法元素进行解码以确定参考索引,运动补偿单元72可使用所述参考索引以识别参考图片存储器82(充当经解码图片缓冲器(DPB))中的从其合成参考块(即,经预测块)的参考图片。
因此,运动补偿单元72可执行用于当前视图中的当前块的后向视图合成预测。即,运动补偿单元72可确定第一视图中的参考图片存储器82的图片。如下文相对于图7更详细地解释,运动补偿单元72可确定当前块的相邻块和相邻块的视差向量。运动补偿单元72可随后相对于当前视图中的当前块确定由视差向量识别的第一视图中的深度图的深度块。
随后,使用深度块的深度值,运动补偿单元72可扭曲相对于当前块中的像素的位置所确定的第一视图中的图片的像素值,以使得经预测块(即,BVSP参考块)形成于不同于第一视图和当前视图的第二视图中。运动补偿单元72可将此经预测块提供到求和器50和求和器80,分别用于计算残余和再生当前块。同样,根据本发明的技术,视频解码器30可对界定当前块的运动信息的语法数据进行解码以使得所述运动信息包含具有识别第一视图中从其合成经预测块的图片的值的参考索引。
此外,参考索引可连同块的其它语法元素一起存储在参考图片存储器82中。参考图片存储器82表示经解码图片缓冲器(DPB)的实例。因为存储具有识别实际参考图片的值的用于块的参考索引,所以当例如根据高级运动向量预测(AMVP)、时间运动向量预测(TMVP)和/或合并模式对后续块的运动信息进行译码时可使用块的运动信息。此外,视频解码器30不需要实施用于存取参考图片存储器82中的经BVSP译码块的运动信息的额外逻辑功能。实际上,视频解码器30可使用与非经BVSP译码块相同的逻辑功能来存取经BVSP译码块的运动信息。类似地,视频解码器30可启用用于与经BVSP译码块位于同一地点(但在不同视图或不同图片中)的块的运动参数继承(MPI)。
如上文所论述,用于经BVSP译码块的参考索引可存储在DPB中,例如参考图片存储器82中。然而,视频解码器30可经配置以避免将BVSP变量存储在参考图片存储器82中。BVSP变量可充当指示正解码的当前块是使用BVSP解码的状态变量。然而,BVSP变量不需要存储在参考图片存储器82中,且因此,在参考图片存储器82中不需要分配用于BVSP变量的存储器。
逆量化单元76将在位流中提供且由熵解码单元70解码的经量化变换系数逆量化,即解量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY来确定应应用的量化程度和同样的逆量化程度。
逆变换单元78对变换系数应用逆变换(例如,逆DCT、逆整数变换,或概念上类似的逆变换过程),以便产生像素域中的残余块。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码的视频块。求和器80表示执行此求和运算的一或多个组件。如果需要的话,还可应用解块滤波器以对经解码块进行滤波,以便移除成块效应假象。其它环路滤波器(译码环路中或译码环路之后)也可用于使像素转变变平滑或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置32)上。
以此方式,图3的视频解码器30表示经配置以进行以下操作的视频解码器的实例:根据3D-HEVC对多视图视频数据块的运动信息进行解码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对参考图片的一部分执行BVSP以产生BVSP参考块;以及使用BVSP参考块预测所述块。
图4为说明实例多视图视频译码(MVC)结构的概念图。MVC为H.264/AVC的扩展。应理解,类似概念可应用于HEVC及其扩展,例如多视图视频译码扩展。图4的实例说明视图内的图片间预测和视图间预测两者。在图4的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。也就是说,图4中的每一行对应于一视图,而每一列指示一时间位置。
尽管MVC具有可通过H.264/AVC解码器解码的所谓的基础视图且MVC还可支持立体声视图对,但MVC的一个优点是:其可支持使用两个以上视图作为3D视频输入且解码通过多个视图表示的此3D视频的实例。具有MVC解码器的客户端的再现器可预期具有多个视图的3D视频内容。
典型MVC解码次序布置被称作时间优先译码。存取单元可包含针对一个输出时间实例的所有视图的经译码图片。举例来说,时间T0的图片中的每一者可包含在共同存取单元中,时间T1的图片中的每一者可包含在第二共同存取单元中,等等。解码次序未必与输出或显示次序相同。
在图4中的每一行及每一列的交叉点处使用包含字母的阴影块指示图4中的帧(即,图片),所述字母指定对应帧是经帧内译码(即,I帧),还是在一个方向上经帧间译码(即,作为P帧)还是在多个方向上经帧间译码(即,作为B帧)。一般来说,预测由箭头指示,其中箭头指向的帧使用箭头出发的对象用于预测参考。举例来说,时间位置T0处的视图S2的P帧是从时间位置T0处的视图S0的I帧预测。
如同单个视图视频编码,多视图视频译码视频序列的帧可相对于不同时间位置处的帧来预测性地编码。举例来说,时间位置T1处的视图S0的b帧具有从时间位置T0处的视图S0的I帧指向其的箭头,从而指示b帧是从I帧预测的。然而,另外,在多视图视频编码的上下文中,帧可经视图间预测。即,视图分量可使用其它视图中的视图分量用于参考。举例来说,在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。在序列参数集(SPS)MVC扩展中用信号表示可能的视图间参考且可通过参考图片列表构造过程修改所述参考,此情形使得能够灵活地将帧间预测或视图间预测参考排序。
在H.264/AVC的MVC扩展中,作为实例,视差运动补偿支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法,但允许将不同视图中的图片用作参考图片。MVC可支持对两个视图的译码,所述视图一般被称作立体视图。MVC的优点中的一个优点是:MVC编码器可将两个以上视图作为3D视频输入且MVC解码器可解码此类多视图表示。因此,具有MVC解码器的再现装置可预期具有两个以上视图的3D视频内容。
在MVC中,在同一存取单元(即,以同一时间实例)的不同视图中俘获的图片当中执行视图间预测(IVP)以移除视图之间的相关。存取单元大体上是包含用于共同时间实例的所有视图分量(例如,所有NAL单元)的数据单元。因此,在MVC中,准许在同一存取单元中的图片当中进行视图间预测。当对非基础视图中的一者中的图片进行译码时,如果图片在不同视图中但在同一时间实例内(例如,具有同一POC值,且因此在同一存取单元中),那么可将所述图片添加到参考图片列表中。将图片添加到参考图片列表允许参考所述图片对其它非基础视图图片的视图间预测。视图间预测参考图片可放置在参考图片列表的任何位置中,正如任何帧间预测参考图片一般。
在多视图视频译码的上下文中,存在两个种类的运动向量。一个种类的运动向量是指向时间参考图片的正常运动向量,且对应时间帧间预测是运动补偿预测(MCP)。另一种类的运动向量是指向不同视图中的图片(即,视图间参考图片)的视差运动向量,且对应帧间预测是视差补偿预测(DCP)。
可使用各种运动向量译码方案对运动向量进行译码。一个运动向量译码方案是时间运动向量预测(TMVP)。TMVP可用以改善HEVC的译码效率。使用TMVP的视频译码器(例如,视频编码器20或视频解码器30)可存取经解码图片缓冲器中、例如参考图片列表中的帧(或图片)的运动向量。
可针对经译码视频序列用信号表示TMVP的可用性。举例来说,序列参数集(SPS)可包含具有值1的sps_temporal_mvp_enable_flag语法元素。此外,可在序列中的切片的切片标头中用信号表示用于slice_temporal_mvp_enable_flag的值以指示针对所述切片是否启用TMVP。
当TMVP针对当前切片经启用时,如果当前图片是B切片,那么可在切片标头中用信号表示collocated_from_l0_flag以指示位于同一地点的图片是来自RefPicList0还是RefPicList1。在识别参考图片列表之后,在切片标头中用信号表示的collocated_ref_idx可用以识别参考图片列表中的图片中的图片。接着可通过检查位于同一地点的图片来识别位于同一地点的PU。可使用含有此PU的CU的右下方PU的运动或含有此PU的CU的中心PU内的右下方PU的运动。
如上文所论述,可将块(例如,宏块和/或CU/PU/TU)分割成各种子块,且符合不同分割模式。假设part_mode指定当前块(例如,当前CU)的分割模式。在一些实例中,可如下针对块(例如,CU)限制(例如,根据HEVC)part_mode的值:
●如果一个CU的译码模式等于MODE_INTRA,那么part_mode将等于0或1。
●否则(一个CU的译码模式等于MODE_INTER),以下适用:
○如果当前CU的大小大于最小CU的大小且不对称运动分割经启用,那么part_mode将在0到2(包含性)的范围内或4到7(包含性)的范围内。换句话说,值3不可用,使得part_mode在0到7(包含性)的范围内,但不包含值3。
○否则,如果当前CU的大小大于最小CU的大小且不对称运动分区经停用,那么part_mode将在0到2(包含性)的范围内。
○否则,如果当前CU的大小等于8,那么part_mode的值将在0到2(包含性)的范围内。
○否则(当前CU的大小大于8),part_mode的值将在0到3(包含性)的范围内。
在此些实例中,part_mode与变量PartMode的相关联值之间的关系可根据以下表1界定。当part_mode不存在时,当前CU的分割模式可推断为等于PART_2Nx2N。
表1-与预测模式和分割类型的名称关联
根据本发明的技术,例如视频编码器20或视频解码器30的视频译码器可经配置以从参考图片合成当前块的经预测块(即,BVSP参考块)。此外,当前块可为当前视图中的图片的部分,参考图片可在不同于当前视图的第一视图中,且经预测块可在不同于当前视图和第一视图两者的第二视图中合成。举例来说,当前块可在视图S1的图片中,参考块可在视图S0的图片中,且经预测块可对应于视图S2。在此类情况下,视图S2可能实际上不经译码且在位流中发射,而是,视图S2可表示合成视图。根据本发明的技术,当前块可包含识别视图S2中的图片的参考索引,且当前块可使用BVSP译码。
图5是说明基于后向扭曲的基于块的视图合成预测的概念图。可使用视差运动向量执行视图间预测。视差运动向量可大体上类似于时间运动向量,不同的是视差运动向量参考视图间参考图片。在一些实例中,视图间参考图片在与正译码的当前图片相同的存取单元中。
如何导出视差向量可关于每一低层级译码工具而变化,但通常,由于深度优先译码次序,针对纹理视图分量译码采用相依视图的深度数据。3D-AVC中的环路内基于块的视图合成视图间预测和基于深度的运动向量预测(D-MVP)是低层级译码工具,其主要使用从相依性帧中的深度图的深度值转换的视差向量。在3D-AVC软件中,从实际深度图值到与特定视图的视差的转换过程的结果通常与相机参数一起存储在查找表中。
基于块的视图合成预测最初在JCT3V-A0107中提出,JCT3V-A0107在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/1_Stockholm/wg11/JCT3V-A0107-v1.zip可用。在图5中,假设D表示深度,T表示纹理,且跟随D或T的数字表示视图。举例来说,T0表示视图0的纹理部分,T1表示视图1的纹理部分,且D1表示视图1的深度部分。假定利用以下译码次序-T0、D0、D1、T1。在此实例中,纹理分量T0是基础视图且T1是以VSP译码的相依视图。此外,在此实例中,深度图分量D0和D1是与T0和T1相关联的相应深度图。深度图分量D0并未在图5的实例中展示。
在相依视图T1中,正译码当前块的样本值(Cb)是从包含基础视图T0的样本值的参考区域R(Cb)预测。经译码样本与参考样本之间的位移向量表示为从与当前经译码纹理样本相关联的深度图值导出的T1与T0之间的视差向量。
从深度值(例如,在块d(Cb)中的视差值)转换到视差向量的过程可例如以如下等式执行:
在以上等式(1)和(2)中,j和i是Cb内的局部空间坐标,d()是视图#1的深度图图像中的深度图值,Z是其实际深度值,且D是到特定视图#0的所导出的视差向量的水平分量。参数f、b、Z近和Z远是指定相机设置的参数,即,使用的焦距(f)、视图#1与视图#0之间的相机分离(b)以及表示深度图转换的参数的深度范围(Z近,Z远)。所导出的视差向量的垂直分量设定成等于零,因为在人视觉系统中,左眼和右眼位于同一高度处。
在例如当前3DV-ATM实施方案等一些实例中,可针对每个深度图值(0...255)预先计算等式(1)和(2),且可存储结果作为查找表。
在3D-AVC中,为了指示块(例如,MB或子MB)是否是使用BVSP译码,使用在MB层级的一个旗标来用信号表示当前MB是否是以常规跳过/直接模式译码或以跳过/直接模式译码但是从合成参考分量预测。对于每一MB分区(从16x16到8x8),每一参考图片列表中的参考索引用以用信号表示参考图片。当分区是使用BVSP模式译码时,不用信号表示运动向量差,因为针对经BVSP译码块不译码运动向量。
再次在3D-AVC中,当旗标或参考索引指示合成参考分量时,调用如随后项目中描述的一个分区的预测。对于其大小由NxM(其中N或M可为8或16)指示的每一MB分区,如果所述分区是以BVSP模式译码,那么将当前MB分区进一步分割成具有等于KxK(其中K可为4、2或1)的大小的若干子区。对于每一子区,导出单独的视差运动向量,且从通过视图间参考图片中的所导出视差运动向量定位的一个块(即,图5中的R(cb))预测每一子区。在共同测试条件中,K经界定为4。关于此预测方法,不用信号表示运动向量差(因为实际上,视差运动向量是从深度视图分量的对应深度值导出)。此外,对于每一分区,可对每一参考图片列表应用一个以上运动向量。因此,所导出运动向量更精确。
在3D-AVC中,当应用深度优先译码次序时,通过转换对应非基础深度视图中的对应深度块的深度值可获得每一子区的视差运动向量,如图5中所示。一个对应深度块内的四个拐角像素的最大值可用以转换成视差运动向量的水平分量。将视差向量的垂直分量设定成0。
图6是说明当前块及五个空间相邻块的概念图。所述空间相邻块标记为A0、A1、B0、B1和B2。块A0表示左下相邻块,块A1表示左边相邻块,块B0表示右上相邻块,块B1表示上方相邻块,且块B2表示左上相邻块。
当前,VCEG及MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的3DV标准,其标准化努力的部分包含基于HEVC的多视图视频编解码器(MV-HEVC)的标准化及用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于3D-HEVC,可包含且支持用于纹理及深度视图两者的新译码工具,包含在译码单元/预测单元层级中的那些工具。用于3D-HEVC的3D-HTM软件版本6.0可从以下链接下载:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-6.0/。
参考软件以及3D-HEVC的工作草案的描述提供于格哈德技术公司克孜托夫·韦格纳、陈英和叶思宏的“3D-HEVC测试模型描述草案2”(JCT3V-B1005,ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组第2次会议:中国上海,2012年10月)中描述,其在http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=460可用。3D-HEVC的参考软件描述的另一版本在http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=706可用。
基于相邻块的视差向量导出(NBDV)可用作3D-HEVC中的视差向量导出方法,其针对所有视图使用纹理优先译码次序。在当前3D-HEVC设计中,通过从参考视图的深度图检索深度数据可进一步精炼从NBDV导出的视差向量。在NBDV中,视差向量(DV)用作两个视图之间的位移的估计器。因为相邻块在视频译码中几乎共享相同运动/视差信息,所以当前块可使用相邻块中的运动向量信息作为良好预测符。遵循此想法,NBDV使用相邻视差信息用于估计不同视图中的视差向量。
首先界定若干空间和时间相邻块。随后以通过当前块与候选块之间的相关的优先级确定的预定义次序检查相邻块中的每一者。一旦在候选者中找到视差运动向量(即,指向视图间参考图片的运动向量),便将所述视差运动向量转换成视差向量。利用相邻候选块的两个集合。一个集合是来自空间相邻块且另一集合是来自时间相邻块。
3D-HEVC首先采用JCT3V-A0097,3D-CE5.h:视差向量产生结果(L·张,Y·陈,M·卡塞维茨(高通))中提出的(基于)相邻块视差向量(NBDV)方法。JCTVC-A0126,3D-CE5.h:基于HEVC的3D视频译码的视差向量导出的简化(J·孙,M·古,S·叶(LG))中与简化NBDV一起包含隐式视差向量。基于此,在JCT3V-B0047,3D-CE5.h相关:视差向量导出的改进(J·康,Y·陈,L·张,M·卡塞维茨(高通))中,通过移除存储在经解码图片缓冲器中的隐式视差向量进一步简化NBDV,而且以RAP图片选择改善译码增益。
在当前(从本发明的时间起)NBDV中,五个空间相邻块用于视差向量导出。它们是当前块(例如,当前预测单元(PU))的左下方、左边、右上方、上方和左上方块,如图6中由A0、A1、B0、B1或B2指示。应注意这些相邻块与在HEVC中的合并模式中使用的那些相邻块相同。因此,不需要额外存储器存取。
为了检查时间相邻块,视频译码器可首先执行候选图片列表的构造过程。来自当前视图的多达两个参考图片可视为候选图片。视频译码器可首先将位于同一地点的参考图片插入到候选图片列表中,接着按参考索引的升序插入候选图片的其余部分。当两个参考图片列表中具有相同参考索引的参考图片可用时,位于同一地点的图片的同一参考图片列表中的一个参考图片可先于另一参考图片。对于候选图片列表中的每一候选图片,可确定三个候选区以用于导出时间相邻块。
当块是以视图间运动预测译码的时,可导出视差向量以用于选择不同视图中的对应块。隐式视差向量(IDV,也被称作所导出的视差向量)称为在视图间运动预测中导出的视差向量。即使块是以运动预测译码的,为了对随后的块进行译码的目的也不会丢弃所导出的视差向量。
在3D-HTM 6.0的当前设计中,视频译码器根据NBDV过程按次序检查时间相邻块中的视差运动向量、空间相邻块中的视差运动向量以及随后的IDV。一旦找到视差运动向量或IDV,过程便终止。
视频译码器可通过存取深度信息而进一步精炼使用NBDV导出的视差向量。当从NBDV过程导出一个视差向量时,视频译码器可通过从参考视图的深度图检索深度数据而进一步精炼视差向量。精炼过程可包含两个步骤:
a)在例如基础视图等经先前译码参考深度视图中通过所导出的视差向量定位对应深度块;对应深度块的大小与当前PU的大小相同。
b)从对应深度块的四个拐角像素选择一个深度值且将其转换为经精炼视差向量的水平分量。视差向量的垂直分量不变。
视频译码器可使用经精炼视差向量用于视图间运动预测,同时未精炼的视差向量用于视图间残余预测。另外,经精炼视差向量可存储为一个PU的运动向量(如果所述PU是以后向VSP模式译码)。
根据本发明的技术,空间相邻块中的一者可对应于经BVSP译码块,且空间相邻块中的另一者可对应于非经BVSP译码块。举例来说,块A1可对应于经BVSP译码块且块B1可对应于非经BVSP译码块。然而,当对当前块的运动信息进行译码时,视频译码器可使用同一逻辑功能存取块A1和块B1的运动信息。假定经BVSP译码块(即,上文陈述的实例中的块A1)的运动信息包含识别参考图片的参考索引。因此,视频译码器中不需要提供用于存取块A1的运动信息的单独逻辑功能。
图7是说明涉及使用相邻块的后向视图合成预测(BVSP)的技术的概念图。已提出并采用BVSP作为用于3D-HEVC的技术。如JCT3V-C0152中提出的后向扭曲VSP方法在第3次JCT-3V会议中采用。此后向扭曲VSP的基本想法与3D-AVC中的基于块的VSP相同。这两个技术均使用后向扭曲和基于块的VSP以避免发射运动向量差且使用更精确的运动向量。实施方案细节由于不同平台而不同。本发明大体上使用首字母缩略词BVSP来指代3D-HEVC中的后向视图合成预测,但BVSP也可指代3D-AVC的基于块的视图合成预测。
在3D-HTM中,在共同测试条件中应用纹理优先译码。因此,当对一个非基础纹理视图进行解码时对应非基础深度视图不可用。因此,估计深度信息且用以执行BVSP。为了估计块的深度信息,提出首先从相邻块导出视差向量,且随后使用所导出的视差向量从参考视图获得深度块。
在HTM 5.1测试模型中,存在导出视差向量预测符的过程,称为NBDV(相邻块视差向量)。假设(dvx,dvy)表示从NBDV功能识别的视差向量,且当前块位置是(块x,块y)。提出获取参考视图的深度图像中的(块x+dvx,块y+dvy)处的深度块。所获取的深度块将具有当前预测单元(PU)的相同大小,且其随后将用以进行当前PU的后向扭曲。图7说明用于从参考视图定位深度块且随后使用所述深度块用于BVSP预测的步骤。
在图7的实例中,深度图片150和纹理图片154对应于同一视图,而纹理图片152对应于不同视图。确切地说,纹理图片152包含相对于充当参考图片的纹理图片154正译码的当前块160。视频译码器可参考与当前块160相邻的相邻块162。相邻块162包含先前所确定的视差向量166。视差向量166可如同当前块160的视差向量164那样导出。因此,视差向量164参考参考视图的深度图片150中的深度块156。
视频译码器可随后使用深度块156的像素(即,深度值)来确定当前块160的像素的视差值168(即,纹理值),用于执行后向扭曲。视频译码器可随后从由视差值168识别的像素合成当前块160的经预测块(即,BVSP参考块)的值。视频译码器可随后使用此经预测块预测当前块160。举例来说,在视频编码器20的视频编码期间,视频编码器20可计算经预测块与当前块160之间的逐像素差以产生残余值,视频编码器20可随后对所述残余值进行变换、量化和熵编码。另一方面,在视频解码器30的视频解码期间,视频解码器30可对残余数据进行熵解码、逆量化和逆变换,随后组合所述残余数据(基于逐像素)与经预测块以再生当前块160。
JCT3V-C0152提出对3D-HEVC的BVSP技术的改变,如下所述。确切地说,斜体文字表示添加到3D-HEVC的文字,而前面是“移除”的带括号文字表示从3D-HEVC的删除:
如果在序列中启用BVSP,那么用于视图间运动预测的NBDV过程改变且在以下段落中突出显示差异:
●对于时间相邻块中的每一者,如果其使用视差运动向量,那么返回视差运动向量作为视差向量且以3D-HEVC的章节1.6.1.3中描述的方法进一步精炼所述视差向量。
●对于空间相邻块中的每一者,以下适用:
○按次序对于参考图片列表0和参考图片列表1:
■如果其使用视差运动向量,那么返回视差运动向量作为视差向量且以章节1.6.1.3中描述的方法进一步精炼所述视差向量。
■否则,如果其使用BVSP模式,那么返回相关联运动向量作为视差向量。以与章节1.6.1.3中描述类似的方式进一步精炼所述视差向量。然而,最大深度值是选自对应深度块的所有像素而不是四个拐角像素,且经精炼视差向量的垂直分量设定成0。
●对于空间相邻块中的每一者,如果其使用IDV,那么返回IDV作为视差向量且以章节1.6.1.3中描述的方法进一步精炼所述视差向量。
所介绍的BVSP模式视为特殊帧间译码模式,且针对每一PU可维持指示BVSP模式的使用的旗标。将新合并候选者(BVSP合并候选者)添加到合并候选者列表,而不是在位流中用信号表示所述旗标。所述旗标取决于经解码合并候选者索引是否对应于BVSP合并候选者。如下按JCT3V-C0152定义BVSP合并候选者:
●每一参考图片列表的参考图片索引:-1
●每一参考图片列表的运动向量:经精炼视差向量
在JCT3V-C0152中,BVSP合并候选者的插入位置取决于空间相邻块,如下文所论述:
●如果五个空间相邻块(图6中所示的A0、A1、B0、B1或B2)中的任一者是以BVSP模式译码,即,维持相邻块的旗标等于1,那么将BVSP合并候选者视为对应空间合并候选者且插入到合并候选者列表。BVSP合并候选者将仅插入到合并候选者列表一次。
●否则(五个空间相邻块均不是以BVSP模式译码),将BVSP合并候选者插入到合并候选者列表仅处于时间合并候选者之前。
应注意,在组合的双向预测合并候选者导出过程期间,可检查额外条件以避免包含BVSP合并候选者。
JCT3V-J0152进一步提供,具有由NxM表示的大小的每一经BVSP译码的PU进一步分割成具有等于KxK(其中K可为4或2)的大小的若干子区。对于每一子区,导出单独的视差运动向量,且从通过视图间参考图片中的导出的视差运动向量定位的一个块预测每一子区。换句话说,用于经BVSP译码PU的运动补偿单元的大小设定成KxK。在共同测试条件中,K设定成4。
JCT3V-J0152进一步提供,对于以BVSP模式译码的一个PU内的每一子区(4x4块),首先在具有上文提到的经精炼视差向量的参考深度视图中定位对应4x4深度块。第二,选择对应深度块中的十六个深度像素中的最大值。第三,将所述最大值转换成视差运动向量的水平分量。将视差运动向量的垂直分量设定成0。
在3D-HEVC中,当应用纹理优先译码次序时,对于每一预测单元(PU),可在考虑/不考虑参考深度视图中的深度值的情况下从NBDV导出视差向量。在获得视差向量之后,针对一个PU的每一4x4子区将其进一步精炼(如果所述PU是以BVSP模式译码)。
3D-HEVC将精炼过程描述为包含两个步骤:1)从通过所导出的视差向量定位的参考深度视图中的4x4深度块选择一个最大深度值;2)将所述深度值转换为经精炼视差向量的水平分量,同时保持经精炼视差向量的垂直分量为0。在针对一个PU的一个4x4子区精炼视差向量之后,3D-HEVC提供使用经精炼视差向量来定位参考纹理视图中的一个块用于运动补偿。
在当前3D-HTM中,通过将特殊候选者添加到合并候选者列表而针对跳过/合并模式启用BVSP。以如下设定构造此新候选者,即BVSP合并候选者:
●预测方向:用于B切片的双向预测和用于P切片的单向预测
●每一参考图片列表的参考索引:-1。
●每一参考图片列表的运动向量:从Do-NBDV导出的视差向量
●用以指示BVSP模式的使用的BVSP模式变量(或附加到每一块的旗标)
对于所有其它合并候选者,3D-HEVC指示BVSP模式变量设定成0。虽然在软件中双向预测与BVSP合并候选者相关联,但其在运动补偿过程期间是从视图间参考图片单向预测。
鉴于3D-HEVC利用-1的参考索引值用于经BVSP译码块,根据本发明的技术,视频译码器可使用用于块160的运动信息的参考索引,其识别经预测块(即,BVSP参考块)从其合成的参考图片。因此,在图7的实例中用于块160的参考索引将识别参考图片列表中的纹理图片154。一般来说,例如纹理图片154等视图间参考图片可形成与当前正译码图片(例如,纹理图片152)相同的存取单元的部分。此外,应理解,纹理图片154和深度图片150(也被称作深度图)可形成同一视图的部分,而纹理图片152可形成不同视图的部分,且经预测块(从纹理图片154合成)可形成又一不同视图的部分。
图8是说明根据本发明的技术使用BVSP对当前块进行编码的实例方法的流程图。当前块可包括当前CU或当前CU的一部分。尽管相对于视频编码器20(图1及2)加以描述,但应理解,其它装置可经配置以执行类似于图8的方法的方法。
初始地,视频编码器20可确定应使用BVSP模式译码对当前块进行译码(200)。举例来说,视频编码器20可执行若干译码遍次,尝试各种译码模式,且随后比较由这些各种潜在译码模式产生的速率失真性能度量。视频编码器20可随后确定所测试模式当中展现最佳速率失真性能度量的BVSP模式,且因此选择用于当前块的BVSP模式。同样,在这些测试期间,视频编码器20的模式选择单元40可确定参考视图以用于合成用于当前块的经预测块(即,BVSP参考块)。因此,视频编码器20可从所述参考视图确定参考图片以用于BVSP合成(202)。
视频编码器20可随后从参考视图中的参考图片合成经预测块(204)。此外,根据本发明的技术,视频编码器20可设定用于经BVSP译码块的参考索引的值以识别参考图片列表中的参考图片(206)。
视频编码器20可随后计算当前块的残余块(208)。即,求和器50可计算原始块与经预测块(从参考图片合成)之间的逐像素差,从而从这些差产生残余块。视频编码器20可随后变换且量化残余块的系数(210)。确切地说,变换处理单元52可执行变换以计算变换系数,而量化单元54可量化所述变换系数。
接着,视频编码器20可扫描残余块的经量化变换系数(212)。在扫描期间或在扫描之后,视频编码器20可对所述系数以及识别从其合成经预测块的参考图片的参考索引进行熵编码(214)。举例来说,视频编码器20可使用CABAC对所述系数和参考索引进行编码。视频编码器20可随后输出块的经熵译码数据(216)。
以此方式,图8表示对视频数据进行编码的方法的实例,所述方法包含:对多视图视频数据块的运动信息进行编码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
图9是说明根据本发明的技术使用BVSP对当前视频数据块进行解码的实例方法的流程图。当前块可包括当前CU或当前CU的一部分。尽管相对于视频解码器30(图1及3)加以描述,但应理解,其它装置可经配置以执行类似于图9的方法的方法。
视频解码器30可初始地接收当前块的经熵编码数据(250)。所述经熵译码数据除了其它语法元素外还可包含指示当前块是使用BVSP模式编码的数据以及识别将从其合成经预测块(即,BVSP参考块)的参考图片的参考索引。因此,视频解码器30可对所述经熵编码数据进行熵解码以确定当前块是使用BVSP模式译码(252)且对当前块的参考索引进行熵解码(254)。可包含所述参考索引作为当前块的运动信息。
视频解码器30可随后使用所述参考索引确定参考图片(256)。举例来说,视频解码器30可构造包含用于经解码图片缓冲器中的参考图片的识别符的参考图片列表,且随后确定所述参考索引参考所述参考图片列表中的参考图片中的哪一者。视频解码器30可随后从所述参考图片合成经预测块(258)。如上文相对于例如图7所论述,视频解码器30可参考当前块的空间相邻块的视差向量,使用所述视差向量识别相对于当前块的深度块,随后使用所述深度块的深度值将参考图片的像素扭曲到当前块中的像素的位置以合成经预测块。
视频解码器30可进一步对所述经熵译码数据进行熵解码以再生当前块的残余块的系数(260)。视频解码器30可随后逆扫描经再生系数(262)以产生经量化变换系数块。视频解码器30可随后逆量化且逆变换所述系数以产生残余块(264)。视频解码器30可最终通过组合经预测块与残余块而对当前块进行解码(266)。即,视频解码器30可基于逐像素而组合经预测块的像素与残余块的像素,以再生当前块。此外,视频解码器30可将包含例如参考索引值等运动信息的经解码块存储在DPB(例如,参考图片存储器82)中,用于稍后当对后续块和/或后续块的运动信息进行解码时使用。
以此方式,图9表示对视频数据进行解码的方法的实例,所述方法包含:对多视图视频数据块的运动信息进行解码,其中所述运动信息包含识别包括用于后向扭曲视图合成预测(BVSP)的源的参考图片的参考索引;对所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述块。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同序列执行,可添加、合并或全部省略(例如,实践所述技术并不需要所有的所描述动作或事件)。此外,在某些实例中,可(例如)通过多线程处理、中断处理或多个处理器同时而非循序地执行动作或事件。
在一或多个实例中,所描述功能可在硬件、软件、固件或其任何组合中实施。如果用软件实施,则所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包括计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时形的,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
以实例说明且非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储呈指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。而且,任何连接可适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所述的功能性可在经配置用于编码和解码的专用硬件及/或软件模块内提供,或者并入在组合编解码器中。并且,所述技术可以完全实施于一或多个电路或逻辑元件中。
本发明的技术可以在广泛多种装置或设备中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (47)

1.一种对视频数据进行解码的方法,所述方法包括:
对多视图视频数据块的运动信息进行解码,其中所述运动信息包含参考索引,所述参考索引识别参考图片列表中的参考图片,所述参考图片包括用于后向扭曲视图合成预测BVSP的源,所述参考索引包括到所述参考图片列表中的索引;
确定在所述参考图片列表中的所述参考图片的位置作为对应于到所述参考图片列表中的所述索引的值;
对通过所述参考索引识别的所述参考图片的一部分执行BVSP以产生BVSP参考块;以及
使用所述BVSP参考块预测所述多视图视频数据块。
2.根据权利要求1所述的方法,其中所述多视图视频数据块包含在当前视图中,其中所述参考图片包含在不同于所述当前视图的第一参考视图中,且其中执行BVSP包括执行BVSP以在不同于所述第一参考视图和所述当前视图的第二参考视图中产生所述BVSP参考块。
3.根据权利要求1所述的方法,其进一步包括当相对于所述多视图视频数据块使用时间运动向量预测TMVP对不同块的运动信息进行解码时,使用也用以存取经视图间预测块的运动信息的功能存取所述多视图视频数据块的所述运动信息。
4.根据权利要求3所述的方法,其中存取包括在不存取指示所述多视图视频数据块是否是使用BVSP译码的信息的情况下存取所述运动信息。
5.根据权利要求1所述的方法,其进一步包括在不考虑所述多视图视频数据块是否是使用BVSP译码的情况下对所述多视图视频数据块的边缘进行解块。
6.根据权利要求1所述的方法,其中对所述运动信息进行解码包括使用合并模式对所述运动信息进行解码,包括:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
在产生所述合并候选者列表且选择所述BVSP候选者之后立即设定所述多视图视频数据块的所述参考索引的值。
7.根据权利要求1所述的方法,其中对所述运动信息进行解码包括使用合并模式对所述运动信息进行解码,包括:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
设定所述BVSP候选者的参考索引以参考所述参考图片。
8.根据权利要求1所述的方法,其中所述参考图片存储在经解码图片缓冲器DPB中,所述方法进一步包括避免将指示用于所述多视图视频数据块的BVSP的使用的变量存储在所述DPB的所述参考图片中。
9.根据权利要求1所述的方法,其进一步包括当对与所述多视图视频数据块位于同一地点的块进行解码时启用运动参数继承。
10.根据权利要求1所述的方法,其进一步包括当构造合并候选者列表以包含所述多视图视频数据块的所述运动信息作为合并候选者时将所述合并候选者添加到所述合并候选者列表中的预定位置中,其中所述预定位置对应于为BVSP候选者预定的位置。
11.根据权利要求1所述的方法,其中所述多视图视频数据块包括当前块的第一相邻块,所述方法进一步包括当对所述当前块的运动信息进行解码时:
使用逻辑功能存取所述第一相邻块作为第一高级运动向量预测AMVP候选者;
以及
使用所述同一逻辑功能存取所述当前块的第二不同相邻块作为第二不同AMVP候选者。
12.根据权利要求1所述的方法,其进一步包括:
对所述多视图视频数据块的经熵编码经量化变换系数和所述参考索引的经熵编码数据进行熵解码;
逆量化所述经量化变换系数;
逆变换所述变换系数以再生所述多视图视频数据块的残余块;以及
组合所述BVSP参考块与所述残余块以再生所述多视图视频数据块。
13.根据权利要求1所述的方法,其中解码包括根据三维高效率视频译码3D-HEVC进行解码。
14.一种对视频数据进行编码的方法,所述方法包括:
对多视图视频数据块的运动信息进行编码,其中所述运动信息包含参考索引,所述参考索引识别参考图片列表中的参考图片,所述参考图片包括用于后向扭曲视图合成预测BVSP的源,所述参考索引包括到所述参考图片列表中的索引;
确定在所述参考图片列表中的所述参考图片的位置作为对应于到所述参考图片列表中的所述索引的值;
对通过所述参考索引识别的所述参考图片的一部分执行BVSP以产生BVSP参考块;以及
使用所述BVSP参考块预测所述多视图视频数据块。
15.根据权利要求14所述的方法,其中所述多视图视频数据块包含在当前视图中,其中所述参考图片包含在不同于所述当前视图的第一参考视图中,且其中执行BVSP包括执行BVSP以在不同于所述第一参考视图和所述当前视图的第二参考视图中产生所述BVSP参考块。
16.根据权利要求14所述的方法,其进一步包括在不考虑所述多视图视频数据块是否是使用BVSP译码的情况下对所述多视图视频数据块的边缘进行解块。
17.根据权利要求14所述的方法,其进一步包括当相对于所述多视图视频数据块使用时间运动向量预测TMVP对不同块的运动信息进行编码时,使用也用以存取经视图间预测块的运动信息的功能存取所述多视图视频数据块的所述运动信息。
18.根据权利要求14所述的方法,其中对所述运动信息进行编码包括使用合并模式对所述运动信息进行编码,包括:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
在产生所述合并候选者列表且选择所述BVSP候选者之后立即设定所述多视图视频数据块的所述参考索引的值。
19.根据权利要求14所述的方法,其中对所述运动信息进行编码包括使用合并模式对所述运动信息进行编码,包括:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
设定所述BVSP候选者的参考索引以参考所述参考图片。
20.根据权利要求14所述的方法,其进一步包括当对与所述多视图视频数据块位于同一地点的块进行编码时启用运动参数继承。
21.根据权利要求14所述的方法,其进一步包括:
对所述参考索引的所述值进行熵编码;
计算所述多视图视频数据块的表示所述多视图视频数据块与所述BVSP参考块之间的逐像素差的残余块;
变换所述残余块以产生变换系数;
量化所述变换系数;以及
对所述经量化变换系数进行熵编码。
22.一种用于对视频数据进行译码的装置,所述装置包括:
存储器,其存储参考图片;以及
视频译码器,其经配置以:对多视图视频数据块的运动信息进行译码,其中所述运动信息包含参考索引,所述参考索引识别参考图片列表中的参考图片,所述参考图片包括用于后向扭曲视图合成预测BVSP的源,所述参考索引包括到所述参考图片列表中的索引;确定在所述参考图片列表中的所述参考图片的位置作为对应于到所述参考图片列表中的所述索引的值;对通过所述参考索引识别的所述参考图片的一部分执行BVSP以产生BVSP参考块;以及使用所述BVSP参考块预测所述多视图视频数据块。
23.根据权利要求22所述的装置,其中所述多视图视频数据块包含在当前视图中,其中所述参考图片包含在不同于所述当前视图的第一参考视图中,且其中所述视频译码器经配置以执行BVSP以在不同于所述第一参考视图和所述当前视图的第二参考视图中产生所述BVSP参考块。
24.根据权利要求22所述的装置,其中所述视频译码器经配置以当相对于所述多视图视频数据块使用时间运动向量预测TMVP对不同块的运动信息进行译码时,使用也用以存取经视图间预测块的运动信息的功能存取所述多视图视频数据块的所述运动信息。
25.根据权利要求22所述的装置,其中所述视频译码器经配置以在不考虑所述多视图视频数据块是否是使用BVSP译码的情况下对所述多视图视频数据块的边缘进行解块。
26.根据权利要求22所述的装置,其中所述视频译码器经配置以使用合并模式对所述运动信息进行译码,且其中为了使用合并模式,所述视频译码器经配置以:产生合并候选者列表;从合并候选者列表选择BVSP候选者;以及在产生所述合并候选者列表且选择所述BVSP候选者之后立即设定所述多视图视频数据块的所述参考索引的值。
27.根据权利要求22所述的装置,其中所述视频译码器经配置以使用合并模式对所述运动信息进行译码,且其中为了使用合并模式,所述视频译码器经配置以:产生合并候选者列表;从合并候选者列表选择BVSP候选者;以及设定所述BVSP候选者的参考索引以参考所述参考图片。
28.根据权利要求22所述的装置,其进一步包括存储器,所述存储器包含存储所述参考图片的经解码图片缓冲器DPB,其中所述视频译码器经配置以避免将指示用于所述多视图视频数据块的BVSP的使用的变量存储在所述DPB的所述参考图片中。
29.根据权利要求22所述的装置,其中所述视频译码器经配置以当对与所述多视图视频数据块位于同一地点的块进行译码时启用运动参数继承。
30.根据权利要求22所述的装置,其中所述视频译码器包括视频编码器和视频解码器中的一者。
31.根据权利要求22所述的装置,其中所述装置包括以下各者中的至少一者:
集成电路;
微处理器;以及
无线通信装置。
32.一种用于对视频数据进行译码的装置,所述装置包括:
用于对多视图视频数据块的运动信息进行译码的装置,其中所述运动信息包含参考索引,所述参考索引识别参考图片列表中的参考图片,所述参考图片包括用于后向扭曲视图合成预测BVSP的源,所述参考索引包括到所述参考图片列表中的索引;
用于确定在所述参考图片列表中的所述参考图片的位置作为对应于到所述参考图片列表中的所述索引的值的装置;
用于对通过所述参考索引识别的所述参考图片的一部分执行BVSP以产生BVSP参考块的装置;以及
用于使用所述BVSP参考块预测所述多视图视频数据块的装置。
33.根据权利要求32所述的装置,其中所述多视图视频数据块包含在当前视图中,其中所述参考图片包含在不同于所述当前视图的第一参考视图中,且其中执行BVSP包括执行BVSP以在不同于所述第一参考视图和所述当前视图的第二参考视图中产生所述BVSP参考块。
34.根据权利要求32所述的装置,其进一步包括用于当相对于所述多视图视频数据块使用时间运动向量预测TMVP对不同块的运动信息进行译码时使用也用以存取经视图间预测块的运动信息的功能存取所述多视图视频数据块的所述运动信息的装置。
35.根据权利要求32所述的装置,其进一步包括用于在不考虑所述多视图视频数据块是否是使用BVSP译码的情况下对所述多视图视频数据块的边缘进行解块的装置。
36.根据权利要求32所述的装置,其中所述用于对所述运动信息进行译码的装置包括用于使用合并模式对所述运动信息进行译码的装置,包括:
用于产生合并候选者列表的装置;
用于从合并候选者列表选择BVSP候选者的装置;以及
用于在产生所述合并候选者列表且选择所述BVSP候选者之后立即设定所述多视图视频数据块的所述参考索引的值的装置。
37.根据权利要求32所述的装置,其中所述用于对所述运动信息进行译码的装置包括用于使用合并模式对所述运动信息进行译码的装置,包括:
用于产生合并候选者列表的装置;
用于从合并候选者列表选择BVSP候选者的装置;以及
用于设定所述BVSP候选者的参考索引以参考所述参考图片的装置。
38.根据权利要求32所述的装置,其中所述参考图片存储在经解码图片缓冲器DPB中,所述装置进一步包括用于避免将指示用于所述多视图视频数据块的BVSP的使用的变量存储在所述DPB的所述参考图片中的装置。
39.根据权利要求32所述的装置,其进一步包括用于当对与所述多视图视频数据块位于同一地点的块进行译码时启用运动参数继承的装置。
40.一种其上存储有指令的计算机可读存储媒体,所述指令在执行时致使用于对视频数据进行译码的装置的处理器:
对多视图视频数据块的运动信息进行译码,其中所述运动信息包含参考索引,所述参考索引识别参考图片列表中的参考图片,所述参考图片包括用于后向扭曲视图合成预测BVSP的源,所述参考索引包括到所述参考图片列表中的索引;
确定在所述参考图片列表中的所述参考图片的位置作为对应于到所述参考图片列表中的所述索引的值;
对通过所述参考索引识别的所述参考图片的一部分执行BVSP以产生BVSP参考块;以及
使用所述BVSP参考块预测所述多视图视频数据块。
41.根据权利要求40所述的计算机可读存储媒体,其中所述多视图视频数据块包含在当前视图中,其中所述参考图片包含在不同于所述当前视图的第一参考视图中,且其中所述致使所述处理器执行BVSP的指令包括致使所述处理器执行BVSP以在不同于所述第一参考视图和所述当前视图的第二参考视图中产生所述BVSP参考块的指令。
42.根据权利要求40所述的计算机可读存储媒体,其进一步包括致使所述处理器当相对于所述多视图视频数据块使用时间运动向量预测TMVP对不同块的运动信息进行译码时使用也用以存取经视图间预测块的运动信息的功能存取所述多视图视频数据块的所述运动信息的指令。
43.根据权利要求40所述的计算机可读存储媒体,其进一步包括致使所述处理器在不考虑所述多视图视频数据块是否是使用BVSP译码的情况下对所述多视图视频数据块的边缘进行解块的指令。
44.根据权利要求40所述的计算机可读存储媒体,其中所述致使所述处理器对所述运动信息进行译码的指令包括致使所述处理器使用合并模式对所述运动信息进行译码的指令,包括致使所述处理器进行以下操作的指令:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
在产生所述合并候选者列表且选择所述BVSP候选者之后立即设定所述多视图视频数据块的所述参考索引的值。
45.根据权利要求40所述的计算机可读存储媒体,其中所述致使所述处理器对所述运动信息进行译码的指令包括致使所述处理器使用合并模式对所述运动信息进行译码的指令,包括致使所述处理器进行以下操作的指令:
产生合并候选者列表;
从合并候选者列表选择BVSP候选者;以及
设定所述BVSP候选者的参考索引以参考所述参考图片。
46.根据权利要求40所述的计算机可读存储媒体,其中所述参考图片存储在经解码图片缓冲器DPB中,所述计算机可读存储媒体进一步包括致使所述处理器避免将指示用于所述多视图视频数据块的BVSP的使用的变量存储在所述DPB的所述参考图片中的指令。
47.根据权利要求40所述的计算机可读存储媒体,其进一步包括致使所述处理器当对与所述多视图视频数据块位于同一地点的块进行译码时启用运动参数继承的指令。
CN201480017907.7A 2013-04-10 2014-04-09 后向视图合成预测 Active CN105144715B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361810674P 2013-04-10 2013-04-10
US61/810,674 2013-04-10
US14/247,928 2014-04-08
US14/247,928 US10158876B2 (en) 2013-04-10 2014-04-08 Backward view synthesis prediction
PCT/US2014/033522 WO2014169052A1 (en) 2013-04-10 2014-04-09 Backward view synthesis prediction

Publications (2)

Publication Number Publication Date
CN105144715A CN105144715A (zh) 2015-12-09
CN105144715B true CN105144715B (zh) 2018-12-04

Family

ID=51686791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480017907.7A Active CN105144715B (zh) 2013-04-10 2014-04-09 后向视图合成预测

Country Status (6)

Country Link
US (1) US10158876B2 (zh)
EP (1) EP2984838B1 (zh)
JP (1) JP6765957B2 (zh)
KR (1) KR102264104B1 (zh)
CN (1) CN105144715B (zh)
WO (1) WO2014169052A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014166119A1 (en) * 2013-04-12 2014-10-16 Mediatek Inc. Stereo compatibility high level syntax
WO2015006984A1 (en) * 2013-07-19 2015-01-22 Mediatek Singapore Pte. Ltd. Reference view selection for 3d video coding
KR102378459B1 (ko) * 2014-06-30 2022-03-24 한국전자통신연구원 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법
WO2016195460A1 (ko) * 2015-06-05 2016-12-08 한양대학교 산학협력단 화면 내 예측에 대한 부호화/복호화 방법 및 장치
KR20180021942A (ko) 2016-08-22 2018-03-06 광운대학교 산학협력단 보안 카메라용 영상 코덱에서 블록 분할 정보 전송 방법 및 장치
US10687077B2 (en) * 2017-06-26 2020-06-16 Qualcomm Incorporated Motion information propagation in video coding
EP3579561A1 (en) 2018-06-05 2019-12-11 InterDigital VC Holdings, Inc. Prediction for light-field coding and decoding
TWI728390B (zh) 2018-06-29 2021-05-21 大陸商北京字節跳動網絡技術有限公司 查找表尺寸
KR20210024502A (ko) 2018-06-29 2021-03-05 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Hmvp 후보를 병합/amvp에 추가할 때의 부분/풀 프루닝
JP7460617B2 (ja) 2018-06-29 2024-04-02 北京字節跳動網絡技術有限公司 Lut更新条件
TWI723445B (zh) 2018-06-29 2021-04-01 大陸商北京字節跳動網絡技術有限公司 查找表的更新:fifo、約束的fifo
CN114885173A (zh) 2018-06-29 2022-08-09 抖音视界(北京)有限公司 Lut中的运动候选的检查顺序
KR20210025537A (ko) 2018-06-29 2021-03-09 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 하나 또는 다수의 룩업 테이블들을 사용하여 이전에 코딩된 모션 정보를 순서대로 저장하고 이를 사용하여 후속 블록들을 코딩하는 개념
KR102611261B1 (ko) 2018-06-29 2023-12-08 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 업데이트 대상 lut 또는 비업데이트 lut의 구별
EP3797516A1 (en) 2018-06-29 2021-03-31 Beijing Bytedance Network Technology Co. Ltd. Interaction between lut and amvp
TWI723446B (zh) 2018-07-02 2021-04-01 大陸商北京字節跳動網絡技術有限公司 具有lic的lut
TWI820211B (zh) 2018-09-12 2023-11-01 大陸商北京字節跳動網絡技術有限公司 取決於總數減去k的開始檢查hmvp候選的條件
CN111416977B (zh) * 2019-01-07 2024-02-09 浙江大学 视频编码器、视频解码器及相应方法
KR102648159B1 (ko) 2019-01-10 2024-03-18 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Lut 업데이트의 호출
WO2020143824A1 (en) 2019-01-13 2020-07-16 Beijing Bytedance Network Technology Co., Ltd. Interaction between lut and shared merge list
WO2020147773A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Inserting order of motion candidates in lut
CN113615193B (zh) 2019-03-22 2024-06-25 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
JP7267885B2 (ja) * 2019-09-20 2023-05-02 Kddi株式会社 画像復号装置、画像復号方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9124874B2 (en) * 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
CN106412602B (zh) * 2010-09-02 2019-11-15 Lg电子株式会社 编码和解码视频的方法和使用该方法的装置
EP4020989A1 (en) * 2011-11-08 2022-06-29 Nokia Technologies Oy Reference picture handling
US9998726B2 (en) * 2012-06-20 2018-06-12 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding
KR102137266B1 (ko) * 2012-09-28 2020-07-23 삼성전자주식회사 움직임 벡터와 변이 벡터를 예측하는 영상 처리 방법 및 장치
US10075728B2 (en) * 2012-10-01 2018-09-11 Inria Institut National De Recherche En Informatique Et En Automatique Method and device for motion information prediction refinement
US9998755B2 (en) * 2012-10-03 2018-06-12 Mediatek Inc. Method and apparatus for motion information inheritance in three-dimensional video coding
US20140098883A1 (en) * 2012-10-09 2014-04-10 Nokia Corporation Method and apparatus for video coding
US20140301463A1 (en) * 2013-04-05 2014-10-09 Nokia Corporation Method and apparatus for video coding and decoding

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANNUKSELA M M ET AL..3D-AVC Test Model 4.《2. JCT-3V MEETING 102. MPEG MEETING;13-10-2012 - 19-10-2012;SHANGHAI;(THE JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16)》.2012,第17页第5.1段-第21页第5.3段,图12、14. *
TIAN D ET AL..CEI.h: Backward View Synthesis Prediction using Neighbouring Blocks.《3. JCT-3V MEETING 103.MPEG MEETING;17-1-2013 - 23-1-2013;GENEVA;(THE JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16)》.2013,摘要,正文1-3节. *
WENYI SU (USTC) ET AL..3DV-CE1.a: Block-based View Synthesis Prediction for 3DV-ATM.《101. MPEG MEETING 16-7-2012 - 20-7-2012;STOCKHOLM;(MOTION PICTURE EXPERT GROUP OR SIO/IEC JTC1/SC29/WG11)》.2012,第1页第1段-第3页第3.3段,图1. *

Also Published As

Publication number Publication date
EP2984838B1 (en) 2024-03-20
KR102264104B1 (ko) 2021-06-10
JP6765957B2 (ja) 2020-10-07
KR20150139953A (ko) 2015-12-14
EP2984838C0 (en) 2024-03-20
US10158876B2 (en) 2018-12-18
WO2014169052A1 (en) 2014-10-16
US20140307795A1 (en) 2014-10-16
CN105144715A (zh) 2015-12-09
EP2984838A1 (en) 2016-02-17
JP2016519518A (ja) 2016-06-30

Similar Documents

Publication Publication Date Title
CN105144715B (zh) 后向视图合成预测
CN105052146B (zh) 对3d视频译码中的视差向量导出和运动向量预测的简化
CN105556969B (zh) 视频译码中使用视差向量的块识别
CN106471806B (zh) 3d-hevc中的简化移位合并候选者及合并列表导出
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN105122812B (zh) 用于三维(3d)视频译码的高级合并模式
CN105874799B (zh) 用于3d视频译码的基于块的高级残差预测
CN104904218B (zh) 视差矢量推导
CN104769949B (zh) 用于视差向量导出的图片的选择的方法和装置
CN104335589B (zh) 用于视频译码的视图间预测的视差向量产生
CN105379288B (zh) 处理对视频译码的照明补偿
CN104904217B (zh) 用于视频译码扩展的时间运动向量预测
CN105379282B (zh) 用于纹理译码的先进残余预测(arp)的方法和设备
CN109691106A (zh) 时间运动向量预测符的偏移向量识别
CN104322070B (zh) 用于高效率视频译码的高级别语法扩展
CN104685883B (zh) 用于3d视频的经视图间预测运动向量
CN104170381B (zh) 在高效率视频译码及其扩展中的运动矢量译码及双向预测
CN105075265B (zh) 3d视频译码中针对跳过和直接模式的视差向量导出
CN105580365B (zh) 处理视频数据的方法、装置及存储媒体
CN105027571B (zh) 三维视频译码中导出的视差向量
CN104350749B (zh) 深度图估计的推导
CN104170380B (zh) 视频译码中的视差矢量预测
CN105122811B (zh) 3d视频译码中的相邻块视差向量导出
CN105850135B (zh) 用于视频译码的视差向量和/或高级残差预测
CN109644272A (zh) 用于建构候选列表的几何型优先级

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant