CN105637870A - 使用不对称运动分割的视频译码技术 - Google Patents

使用不对称运动分割的视频译码技术 Download PDF

Info

Publication number
CN105637870A
CN105637870A CN201480050337.1A CN201480050337A CN105637870A CN 105637870 A CN105637870 A CN 105637870A CN 201480050337 A CN201480050337 A CN 201480050337A CN 105637870 A CN105637870 A CN 105637870A
Authority
CN
China
Prior art keywords
block
video data
sub
prediction
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480050337.1A
Other languages
English (en)
Other versions
CN105637870B (zh
Inventor
陈颖
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105637870A publication Critical patent/CN105637870A/zh
Application granted granted Critical
Publication of CN105637870B publication Critical patent/CN105637870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明涉及用于对视频数据进行解码的技术,包含:接收对应于视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测BVSP经单向预测,且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。

Description

使用不对称运动分割的视频译码技术
本申请案主张2013年9月13日申请的第61/877,793号美国临时申请案和2013年9月23日申请的第61/881,383号美国临时申请案的权益,以上美国临时申请案两者的整个内容以引用的方式并入本文中。
技术领域
本发明涉及视频译码,即,视频数据的编码或解码。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-TH.263、ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、目前正在开发的高效率视频译码(HEVC)标准及此类标准的扩展中所描述的视频译码技术。视频装置可通过实施此些视频译码技术而更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,所述视频块还可被称作树块、译码单元(CU)和/或译码节点。使用关于同一图片中的相邻块中的参考样本的空间预测编码图片的经帧内译码(I)切片中的视频块。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测导致待译码块的预测性块。残余数据表示待译码原始块与预测性块的间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量和指示经译码块与预测块之间的差的残余数据编码的。根据帧内译码模式和残余数据来编码经帧内译码块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。
发明内容
一般来说,本发明涉及基于高级编解码器的三维(3D)视频译码,在一些实例中包含深度译码技术。本发明描述当结合不对称运动分割使用时用于视图合成预测译码的技术,包含块大小的确定。本发明还描述当结合不对称运动分割使用时用于高级运动预测的技术。
在本发明的一个实例中,一种对视频数据进行解码的方法包括:接收对应于视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
在本发明的另一实例中,一种对视频数据进行编码的方法包括:使用不对称运动分割产生视频数据块,其中所述视频数据块是使用后向视图合成预测(BVSP)经单向预测且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行编码。
在本发明的另一实例中,一种经配置以对视频数据进行解码的设备包括:视频存储器,其经配置以存储对应于视频数据块的信息;以及一或多个处理器,其经配置以:接收对应于所述视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16x12、12x16、16x4或4x16的大小;将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
在本发明的另一实例中,一种经配置以对视频数据进行解码的设备包括:用于接收对应于视频数据块的残余数据的装置,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测(BVSP)经单向预测,且具有16x12、12x16、16x4或4x16的大小;用于将所述视频数据块分割为子块的装置,每一子块具有8x4或4x8的大小;用于从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量的装置;用于使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块的装置;以及用于通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码的装置。
在附图和下文描述中陈述本发明的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书显而易见。
附图说明
图1是说明可利用本发明的帧间预测技术的实例视频编码及解码系统的框图。
图2是说明用于多视图视频的实例解码次序的概念图。
图3是说明用于多视图视频的实例预测结构的概念图。
图4是说明用于3D视频的纹理和深度值的概念图。
图5是说明实例分割类型的概念图。
图6是说明合并模式运动向量候选者的概念图。
图7是指示合并候选者索引的实例规范的表。
图8是说明用于实例视差向量导出过程的相邻块的概念图。
图9是说明相邻块视差向量导出过程的概念图。
图10是说明8x8深度块的四个拐角像素的概念图。
图11是说明用于合并/跳过模式的经视图间预测的运动向量候选者的实例导出的概念图。
图12是指示3D-HEVC中的参考索引的实例规范的表。
图13是说明用于深度译码的运动向量继承候选者的实例导出的概念图。
图14说明多视图视频译码中的高级残余预测(ARP)的预测结构。
图15是说明当前块、参考块和运动补偿块之间的实例关系的概念图。
图16是说明子预测单元视图间运动预测的概念图。
图17是描绘当使用不对称运动分割时本发明的后向视图合成预测和运动补偿技术的概念图。
图18是说明用于4x16和16x4的不对称运动分区大小的运动向量继承和运动补偿技术的概念图。
图19是说明可实施本发明的帧间预测技术的视频编码器的实例的框图。
图20是说明可实施本发明的帧间预测技术的视频解码器的实例的框图。
图21是说明本发明的实例编码方法的流程图。
图22是说明本发明的另一实例编码方法的流程图。
图23是说明本发明的另一实例编码方法的流程图。
图24是说明本发明的实例解码方法的流程图。
图25是说明本发明的实例解码方法的流程图。
图26是说明本发明的实例解码方法的流程图。
具体实施方式
一般来说,本发明描述与基于高级编解码器的3D视频译码相关的技术,包含使用3D-HEVC(高效率视频译码)编解码器对一或多个视图连同深度块的译码。确切地说,本发明描述用于将使用不对称运动分割技术分割的预测单元(PU)进一步划分为较小子块的技术。本发明的技术包含用于导出和/或继承使用不对称运动分割分割的PU的子块的运动向量和视差运动向量的技术。
图1是说明可利用本发明的技术的实例视频编码和解码系统10的框图。如图1中所展示,系统10包含源装置12,其提供待在稍后时间由目的地装置14解码的经编码视频数据。具体地说,源装置12可经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,可装备源装置12和目的地装置14以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中,计算机可读媒体16可包括通信媒体以使源装置12能够实时地将经编码的视频数据直接发射到目的地装置14。可根据通信标准(例如,无线通信协议)调制经编码的视频数据,并将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成分组网络(例如,局域网。广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或任何其它可用于促进从源装置12到目的地装置14的通信的设备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。
本发明的技术未必限于无线应用或设定。所述技术可以应用于视频译码以支持多种多媒体应用中的任一者,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(例如,经由HTTP的动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、深度估计单元19、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30、基于深度图像的再现(DIBR)单元31及显示装置32。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
图1的说明的系统10只是一个实例。本发明的技术可由任何数字视频编码及/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据用于发射到目的地装置14的所述译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可以包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频存档和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可以产生基于计算机图形的数据作为源视频,或直播视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。
视频源18可将视频数据的一或多个视图提供到视频编码器20。举例来说,视频源18可对应于摄像机阵列,所述摄像机各自具有相对于所拍摄的特定场景的独特水平位置。或者,视频源18可例如使用计算机图形产生来自不同水平相机视角的视频数据。深度估计单元19可经配置以确定对应于纹理图像中的像素的深度像素的值。举例来说,深度估计单元19可表示声音导航与测距(SONAR)单元、光检测与测距(LIDAR)单元或能够在记录场景的视频数据时实质上同时直接确定深度值的其它单元。
另外或替代地,深度估计单元19可经配置以通过比较在实质上相同时间从不同水平摄像机视角俘获的两个或两个以上图像来间接计算深度值。通过计算图像中的实质上类似像素值之间的水平视差,深度估计单元19可近似估计场景中的各种对象的深度。在一些实例中,深度估计单元19可在功能上与视频源18集成。举例来说,在视频源18产生计算机图形图像时,深度估计单元19可例如使用用以再现纹理图像的像素及对象的z坐标提供用于图形对象的实际深度图。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(也就是说,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可以从源装置12接收经编码的视频数据,并且例如经由网络发射将经编码的视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息也被视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。在一些实例中,显示装置32可包括能够同时或实质上同时显示两个或两个以上视图例如以向观察者产生3D视觉效果的装置。
目的地装置14的DIBR单元31可使用从视频解码器30接收的经解码视图的纹理及深度信息再现合成视图。举例来说,DIBR单元31可依据对应深度图中的像素的值确定纹理图像的像素数据的水平视差。DIBR单元31接着可通过使纹理图像中的像素向左或向右偏移所确定的水平视差而产生合成图像。以此方式,显示装置32可以任何组合显示可对应于经解码视图及/或合成视图的一或多个视图。根据本发明的技术,视频解码器30可将深度范围及摄像机参数的原始及更新精度值提供到DIBR单元31,所述DIBR单元可使用深度范围及摄像机参数来恰当地合成视图。
尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,则多路复用器-多路分用器单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为多种合适的编码器和解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储在合适的非暂时计算机可读媒体中,且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发的高效视频译码(HEVC)标准)来操作,并且可以符合HEVC测试模型(HM)。替代地,视频编码器20及视频解码器30可根据例如替代地被称作MPEG-4第10部分高级视频译码(AVC)的ITU-TH.264标准等其它专属或工业标准或此类标准的扩展(例如,ITU-TH.264/AVC的MVC扩展)操作。MVC的最新联合草案描述于2010年3月的“用于通用视听服务的高级视频译码”(ITU-T建议H.264)中。确切地说,视频编码器20及视频解码器30可根据3D和/或多视图译码标准操作,包含HEVC标准的3D扩展(例如,3D-HEVC)。
被称作“HEVC工作草案10”或“WD10”的HEVC标准的一个草案在布洛斯等人的文献JCTVC-L1003v34“高效率视频译码(HEVC)文本规范草案10(用于FDIS和最后呼叫)”(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),瑞士日内瓦第12次会议,2013年1月14-23日)中描述,其从2014年8月22日起可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip下载。
HEVC标准的另一草案在本文中被称作“WD10修订本”,在布洛斯等人的“HEVC版本1的编者提议的校正”(ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)2013年4月韩国仁川第13次会议)中描述,其从2014年8月22日起从http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/ JCTVC-M0432-v3.zip可用。对HEVC的多视图扩展(即MV-HEVC)也正由JCT-3V开发。
当前,VCEG及MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的3DV标准,其标准化努力的部分包含基于HEVC的多视图视频编解码器(MV-HEVC)的标准化及用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于MV-HEVC,应保证其中仅存在高级语法(HLS)改变,以使得HEVC中的译码单元/预测单元层级中的模块不需要再设计,且可完全再用于MV-HEVC。对于3D-HEVC,可包含并支持用于纹理和深度视图两者的包含译码单元/预测单元层级中的工具的新译码工具。
用于3D-HEVC的一个版本软件3D-HTM可从以下链接下载:[3D-HTM版本8.0]:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-8.0/。3D-HEVC的一个工作草案(文档编号:E1001)从http://phenix.it-sudparis.eu/jct2/doc_end_user/ current_document.php?id=1361可用。最新软件描述(文档编号:E1005)从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1360可用。
用于3D-HEVC的软件3D-HTM的更为新近版本可从以下链接下载:[3D-HTM版本12.0]:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-12.0/。3D-HEVC的对应工作草案(文档编号:I1001)从http://phenix.int-evry.fr/jct3v/doc_end_user/ current_document.php?id=2299可用。最新软件描述(文档编号:I1005)从http://phenix.int-evry.fr/jct3v/doc_end_user/current_document.php?id=2301可用。
最初,将论述HEVC的实例译码技术。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据例如ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说,虽然H.264提供9种帧内预测编码模式,但HM可提供多达三十三种角度帧内预测编码模式加DC及平面模式。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片也可被称作“帧”。图片可以包含三个样本阵列,标示为SL、SCb以及SCr。SL是明度样本的二维阵列(即,块)。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文中还可以被称为“色度”样本。在其它情况下,图片可为单色的且可仅包含明度样本阵列。
为了产生图片的经编码的表示,视频编码器20可以产生一组译码树单元(CTU)。CTU中的每一者可包括明度样本的译码树块、色度样本的两个对应的译码树块,以及用以对译码树块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个译码树块及用于对所述译码树块的样本进行译码的语法结构。译码树块可为样本的NxN块。CTU也可以被称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可以广泛地类似于例如H.264/AVC等其它标准的宏块。然而,CTU未必限于特定大小,并且可以包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续排序的整数数目的CTU。
为了产生经译码CTU,视频编码器20可在CTU的译码树块上以递归方式执行四叉树分割,以将译码树块划分为译码块,因此命名为“译码树单元”。译码块是样本的NxN块。译码单元(CU)可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。
视频编码器20可将CU的译码块分割为一或多个预测块。预测块是应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块和用以预测预测块的语法结构。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用以预测预测块的语法结构。视频编码器20可以产生用于CU的每个PU的明度预测块、Cb预测块以及Cr预测块的预测性明度块、Cb块以及Cr块。
视频编码器20可使用帧内预测或帧间预测来产生PU的预测块。如果视频编码器20使用帧内预测产生PU的预测性块,则视频编码器20可以基于与PU相关联的图片的经解码的样本来产生PU的预测性块。在HEVC的一些版本中,对于每一PU的明度分量,以33个角度预测模式(从2到34编索引)、DC模式(以1编索引)和平面模式(以0编索引)利用帧内预测方法。
如果视频编码器20使用帧间预测产生PU的预测性块,则视频编码器20可基于除与PU相关的图片以外的一或多个图片的经解码样本产生PU的预测性块。帧间预测可为单向帧间预测(即,单向预测或单向预测性预测)或双向帧间预测(即,双向预测或双向预测性预测)。为了执行单向预测或双向预测,视频编码器20可产生当前切片的第一参考图片列表(RefPicList0)及第二参考图片列表(RefPicList1)。参考图片列表中的每一者可包含一或多个参考图片。当使用单向预测时,视频编码器20可以搜索RefPicList0以及RefPicList1中的任一者或两者中的参考图片,以确定参考图片内的参考位置。此外,当使用单向预测时,视频编码器20可以至少部分基于对应于参考位置的样本产生用于PU的预测样本块。此外,在使用单向预测时,视频编码器20可产生指示PU的预测块与参考位置之间的空间移位的单一运动向量。为了指示PU的预测块与参考位置之间的空间移位,运动向量可以包含指定PU的预测块与参考位置之间的水平移位的水平分量并且可以包含指定PU的预测块与参考位置之间的垂直移位的垂直分量。
在使用双向预测来编码PU时,视频编码器20可确定RefPicList0中的参考图片中的第一参考位置及RefPicList1中的参考图片中的第二参考位置。视频编码器20接着可至少部分基于对应于第一及第二参考位置的样本产生PU的预测性块。此外,当使用双向预测对PU进行编码时,视频编码器20可以产生指示PU的样本块与第一参考位置之间的空间移位的第一运动向量,以及指示PU的预测块与第二参考位置之间的空间移位的第二运动向量。
通常,B图片的第一或第二参考图片列表(例如,RefPicList0或RefPicList1)的参考图片列表构造包含两个步骤:参考图片列表初始化和参考图片列表重新排序(修改)。参考图片列表初始化是显式机制,其基于POC(图片次序计数,与图片的显示次序对准)次序值将参考图片存储器(也被称作经解码图片缓冲器)中的参考图片放入列表中。参考图片列表重新排序机制可将在参考图片列表初始化期间放置在列表中的图片的位置修改为任何新位置,或即使在图片不属于初始化列表的情况下也将参考图片存储器中的任何参考图片放置在任何位置。可将参考图片列表重新排序(修改)后的一些图片放置在列表中的再另一位置。然而,如果图片的位置超过列表的有效参考图片的数目,则不将所述图片视为最终参考图片列表的条目。可在每一列表的切片标头中用信号表示有效参考图片的数目。
在构造参考图片列表(即RefPicList0和RefPicList1,如果可用)之后,可使用到参考图片列表的参考索引来识别参考图片列表中包含的任何参考图片。
在视频编码器20产生CU的一或多个PU的预测性明度、Cb及Cr块之后,视频编码器20可产生CU的明度残余块。CU的明度残余块中的每个样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中对应的样本之间的差异。另外,视频编码器20可以产生CU的Cb残余块。CU的Cb残余块中的每一样本可以指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中对应的样本之间的差异。视频编码器20还可产生CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差异。
此外,视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残余块分解成一或多个明度、Cb及Cr变换块。变换块是应用同一变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块及用以对变换块样本进行变换的语法结构。因此,CU的每个TU可以与明度变换块、Cb变换块以及Cr变换块相关联。与TU相关联的明度变换块可以是CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可以是CU的Cr残余块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用以对变换块的样本进行变换的语法结构。
视频编码器20可将一或多个变换应用到TU的明度变换块以产生TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用至TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用至TU的Cr变换块以产生TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可以量化系数块。量化总体上是指对变换系数进行量化以可能减少用以表示变换系数的数据的量从而提供进一步压缩的过程。在视频编码器20量化系数块之后,视频编码器20可以对指示经量化变换系数的语法元素进行熵编码。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。
视频编码器20可输出包含形成经译码图片及相关联数据的表示的位元序列的位流。位流可包括一连串网络抽象层(NAL)单元。NAL单元为含有NAL单元中的数据类型类型的指示及含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者包含NAL单元标头且囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的所述NAL单元类型代码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封用于图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封用于经译码切片的RBSP,第三类型的NAL单元可囊封用于SEI的RBSP等等。囊封视频译码数据的RBSP(与参数集及SEI消息的RBSP相对)的NAL单元可被称为视频译码层(VCL)NAL单元。
视频解码器30可以接收由视频编码器20产生的位流。另外,视频解码器30可以剖析位流以获得来自位流的语法元素。视频解码器30可至少部分基于从位流获得的语法元素重构视频数据的图片。用以重构视频数据的过程通常可与由视频编码器20执行的过程互逆。举例来说,视频解码器30可使用PU的运动向量,以确定当前CU的PU的预测性块。另外,视频解码器30可逆量化与当前CU的TU相关联的系数块。视频解码器30可以对系数块执行逆变换以重构与当前CU的TU相关联的变换块。通过将用于当前CU的PU的预测性块的样本增加到当前CU的TU的变换块的对应的样本上,视频解码器30可以重构当前CU的译码块。通过重构用于图片的每一CU的译码块,视频解码器30可重构图片。
在一些实例中,视频编码器20可使用合并模式或高级运动向量预测(AMVP)模式用信号表示PU的运动信息。换句话说,在HEVC中,存在预测运动参数的两个模式,一者为合并模式及另一者为AMVP。运动预测可包括基于一或多个其它视频单元的运动信息的视频单元(例如,PU)的运动信息的确定。PU的运动信息可以包含PU的运动向量以及PU的参考索引。
当视频编码器20使用合并模式用信号表示当前PU的运动信息时,视频编码器20产生合并候选者列表。换句话说,视频编码器20可执行运动向量预测符列表构造过程。合并候选者列表包含指示在空间上或在时间上相邻于当前PU的PU的运动信息的合并候选者的集合。也就是说,在合并模式中,构造运动参数(例如,参考索引、运动向量等)的候选者列表,其中候选者可来自空间及时间相邻块。在一些实例中,候选者还可包含人工产生的候选者。
此外,在合并模式中,视频编码器20可从合并候选者列表选择合并候选者且可使用由所选合并候选者指示的运动信息作为当前PU的运动信息。视频编码器20可用信号表示所选合并候选者的合并候选者列表中的位置。举例来说,视频编码器20可通过将索引发射到候选者列表中而用信号发送所选择的运动向量参数。视频解码器30可从位流获得进入候选者列表的索引(即,候选者列表索引)。另外,视频解码器30可产生相同合并候选者列表,且可基于所选合并候选者的位置的指示确定所选合并候选者。接着,视频解码器30可以使用选定的合并候选者的运动信息来产生当前PU的预测性块。也就是说,视频解码器30可至少部分地基于候选者列表索引确定候选者列表中的所选候选者,其中所选候选者指定当前PU的运动向量。以此方式,在解码器侧处,一旦索引被解码,索引所指向的对应块的所有运动参数便可由当前PU继承。
跳过模式类似于合并模式。在跳过模式中,视频编码器20及视频解码器30以视频编码器20及视频解码器30在合并模式中使用合并候选者列表的相同方式来产生及使用合并候选者列表。然而,当视频编码器20使用跳过模式用信号发送当前PU的运动信息时,视频编码器20不用信号发送当前PU的任何残余数据。因此,视频解码器30可在不使用残余数据的情况下基于由合并候选者列表中的选定候选者的运动信息指示的参考块而确定PU的预测块。
AMVP模式类似于合并模式,类似之处在于视频编码器20可产生候选者列表并且可从候选者列表选择候选者。然而,当视频编码器20使用AMVP模式发信号通知当前PU的RefPicListX运动信息时,视频编码器20可除了发信号通知当前PU的RefPicListX旗标之外还发信号通知当前PU的RefPicListX运动向量差(MVD)及当前PU的RefPicListX参考索引。当前PU的RefPicListXMVP旗标可指示AMVP候选者列表中的选定AMVP候选者的位置。当前PU的RefPicListXMVD可指示当前PU的RefPicListX运动向量与选定AMVP候选者的运动向量之间的差。以此方式,视频编码器20可通过发信号通知RefPicListX运动向量预测符(MVP)旗标、RefPicListX参考索引值和RefPicListXMVD而发信号通知当前PU的RefPicListX运动信息。换句话说,在位流中的表示当前PU的运动向量的数据可包含表示参考索引的数据、到候选者列表的索引及MVD。
此外,在使用AMVP模式发信号通知当前PU的运动信息时,视频解码器30可从所述位流获得当前PU的MVD及MVP旗标。视频解码器30可产生相同的AMVP候选者列表且可基于MVP旗标确定所述选定AMVP候选者。视频解码器30可通过将MVD添加到由所述选定AMVP候选者指示的运动向量来恢复当前PU的运动向量。也就是说,视频解码器30可基于由所述选定AMVP候选者指示的运动向量和MVD确定当前PU的运动向量。视频解码器30接着可使用当前PU的所恢复的一或多个运动向量来产生当前PU的预测性块。
当视频解码器30产生当前PU的AMVP候选者列表时,视频解码器30可基于覆盖在空间上与当前PU相邻的位置的PU(即,在空间上相邻的PU)的运动信息而导出一或多个AMVP候选者。在PU的预测块包含一位置时,PU可覆盖所述位置。
合并候选者列表或AMVP候选者列表中基于在时间上相邻于当前PU的PU(即,在与当前PU不同的时间实例中的PU)的运动信息的候选者可被称为TMVP。即,TMVP可用以提高HEVC的译码效率,并且不同于其它译码工具,TMVP可需要存取经解码图片缓冲器中、更具体来说参考图片列表中的帧的运动向量。
可基于逐CVS(经译码视频序列)、逐切片或另一基础来启用或停用TMVP的使用。SPS中的语法元素(例如,sps_temporal_mvp_enable_flag)可指示TMVP的使用是否针对CVS经启用。此外,当TMVP的使用针对CVS经启用时,可针对所述CVS内的特定切片启用或停用TMVP的使用。举例来说,切片标头中的语法元素(例如,slice_temporal_mvp_enable_flag)可指示TMVP的使用是否针对切片经启用。因此,在帧间预测切片中,当TMVP针对整个CVS经启用(例如,SPS中的sps_temporal_mvp_enable_flag设定成1)时,在切片标头中用信号表示slice_temporal_mvp_enable_flag以指示TMVP是否针对当前切片经启用。
为了确定TMVP,视频编解码器可首先识别包含与当前PU位于同一地点的PU的参考图片。换句话说,视频译码器可识别位于同一地点的图片。如果当前图片的当前切片是B切片(即,允许包含经双向帧间预测的PU的切片),那么视频编码器20可在切片标头中用信号表示指示相同位置图片是否来自RefPicList0或RefPicList1的语法元素(例如,collocated_from_l0_flag)。换句话说,当针对当前切片启用TMVP的使用且当前切片是B切片(例如,允许包含双向帧间预测PU的切片)时,视频编码器20可在切片标头中用信号表示语法元素(例如,collocated_from_l0_flag)以指示位于同一地点的图片是否处于RefPicList0或RefPicList1中。换句话说,为了得到TMVP,首先将识别位于同一地点的图片。如果当前图片为B切片,那么在切片标头中用信号表示collocated_from_l0_flag以指示相同位置的图片是来自RefPicList0还是来自RefPicList1。
在视频解码器30识别包含位于同一地点的图片的参考图片列表之后,视频解码器30可使用可在切片标头中用信号发送的另一语法元素(例如,collocated_ref_idx)来识别所识别的参考图片列表中的图片(即,位于同一地点的图片)。即,在识别参考图片列表之后,在切片标头中用信号表示的collocated_ref_idx用以识别参考图片列表中的图片。
视频译码器可通过检查位于同一地点的图片来识别位于同一地点的PU。TMVP可指示含有位于同一地点的PU的CU的右下方PU的运动信息或含有此PU的CU的中心PU内的右下方PU的运动信息。因此,使用含有此PU的CU的右下方PU的运动或含有此PU的CU的中心PU内的右下方PU的运动。含有位于同一地点的PU的CU的右下方PU可为覆盖直接在所述PU的预测块的右下方样本的右下方的位置的PU。换句话说,TMVP可指示在参考图片中且覆盖与当前PU的右下方拐角位于同一地点的位置的PU的运动信息,或TMVP可指示在参考图片中且覆盖与当前PU的中心位于同一地点的位置的PU的运动信息。
当由以上过程识别的运动向量(即,TMVP的运动向量)用以产生用于合并模式或AMVP模式的运动候选者时,视频译码器可基于时间位置(由POC值反映)按比例缩放所述运动向量。举例来说,当当前图片与参考图片的POC值之间的差大于当当前图片与参考图片的POC值之间的差较小时的值时,视频编解码器可将运动向量的量值增大多出的量。
从TMVP导出的时间合并候选者的所有可能的参考图片列表的目标参考索引可始终设定成0。然而,对于AMVP,所有可能的参考图片的目标参考索引设定成等于经解码参考索引。换句话说,将从TMVP导出的时间合并候选者的所有可能参考图片列表的目标参考索引设定为0,而对于AMVP,其经设定为等于经解码参考索引。在HEVC中,SPS可包含旗标(例如,sps_temporal_mvp_enable_flag)且当sps_temporal_mvp_enable_flag等于1时切片标头可包含旗标(例如,pic_temporal_mvp_enable_flag)。当对于特定图片,pic_temporal_mvp_enable_flag与temporal_id两者都等于0时,在所述特定图片或按解码次序在所述特定图片之后的图片的解码中并不将来自按解码次序在所述特定图片之前的图片的运动向量用作TMVP。
在接下来的部分中,将论述多视图(例如,H.264/MVC中)和多视图加深度(例如,3D-HEVC中)译码技术。最初,将论述MVC技术。如上所述,MVC是ITU-TH.264/AVC的多视图译码扩展。在MVC中,按时间优先次序对多个视图的数据进行译码,且因此,解码次序布置被称作时间优先译码。确切地说,可对在共同时间实例处的多个视图中的每一者的视图分量(即,图片)进行译码,接着可对用于不同时间实例的视图分量的另一集合进行译码,诸如此类。存取单元可包含用于一个输出时间实例的所有视图的经译码图片。应理解,存取单元的解码次序未必等同于输出(或显示)次序。
图2中展示了典型MVC解码次序(即,位流次序)。解码次序布置被称作时间优先译码。应注意,存取单元的解码顺序可并不相同于输出或显示顺序。在图2中,S0到S7各自指代多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存取单元可包含针对一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元可包含针对时间实例T0的所有视图S0到S7,第二存取单元可包含针对时间实例T1的所有视图S0到S7,等。
出于简洁目的,本发明可使用以下定义:
视图分量:单个存取单元中的视图的经译码表示。当视图包含经译码纹理及深度表示两者时,视图分量由纹理视图分量及深度视图分量构成。
纹理视图分量:单个存取单元中的视图的纹理的经译码表示。
深度视图分量:单个存取单元中的视图的深度的经译码表示。
在图2中,所述视图中的每一者包含若干图片集合。举例来说,视图S0包含图片集合0、8、16、24、32、40、48、56及64,视图S1包含图片集合1、9、17、25、33、41、49、57及65,等。对于3D视频译码,例如3D-HEVC,每一图片可包含两个分量图片:一个分量图片称为纹理视图分量,且另一分量图片称为深度视图分量。视图的一图片集合内的纹理视图分量及深度视图分量可被视为对应于彼此。举例来说,视图的一组图片内的纹理视图分量被视为对应于视图的图片的所述组内的深度视图分量,且反过来也一样(即,深度视图分量对应于其在所述组中的纹理视图分量,且反过来也一样)。如本发明中所使用,对应于深度视图分量的纹理视图分量可被视为纹理视图分量且深度视图分量为单一存取单元的同一视图的部分。
纹理视图分量包含所显示的实际图像内容。举例来说,所述纹理视图分量可包含明度(Y)及色度(Cb及Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,深度视图分量为仅包含明度值的灰阶图像。换句话说,深度视图分量可不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的量度。
举例来说,深度视图分量中的纯白色像素指示对应纹理视图分量中的其对应像素较接近于观察者的视角,且深度视图分量中的纯黑色像素指示对应纹理视图分量中的其对应像素距观察者的视角较远。黑色与白色之间的各种灰度渐变指示不同深度水平。举例来说,深度视图分量中的深灰色像素指示纹理视图分量中的其对应像素比深度视图分量中的浅灰色像素更远。因为仅需要灰阶来识别像素的深度,因此深度视图分量不需要包含色度分量,因为深度视图分量的色彩值可能不服务于任何目的。
仅使用明度值(例如,强度值)来识别深度的深度视图分量是出于说明的目的而提供,且不应被视为限制性。在其它实例中,可利用任何技术来指示纹理视图分量中的像素的相对深度。
图3中展示了用于多视图视频译码的典型MVC预测结构(包含每一视图内的图片间预测及视图间预测两者)。预测方向由箭头指示,箭头指向的对象使用箭头出发的对象作为预测参考。在MVC中,由视差运动补偿支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法但允许将不同视图中的图片用作参考图片。
在图3的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。即,图3中的每一行对应于一视图,而每一列指示一时间位置。
尽管MVC具有可由H.264/AVC解码器解码的所谓的基础视图,且MVC还可支持立体视图对,但MVC的优点在于其可支持使用两个以上视图作为3D视频输入且解码通过多个视图表示的此3D视频的实例。具有MVC解码器的客户端的再现器可预期具有多个视图的3D视频内容。
在每一行及每一列的交叉点处指示图3中的图片。H.264/AVC标准可使用术语帧来表示视频的一部分。本发明可互换地使用术语图片与帧。
使用包含字母的块来说明图3中的图片,字母指明对应图片是经帧内译码(即,I图片),还是在一个方向上经帧间译码(即,作为P图片),还是在多个方向上经帧间译码(即,作为B图片)。大体来说,预测由箭头指示,其中箭头指向的图片使用箭头出发的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位置T0处的视图S0的I图片预测的。
如同单个视图视频编码,可相对于不同时间位置处的图片预测性地编码多视图视频译码视频序列的图片。举例来说,时间位置T1处的视图S0的b图片具有从时间位置T0处的视图S0的I图片指向其的箭头,从而指示所述b图片是从所述I图片预测的。然而,另外,在多视图视频编码的情况下,图片可经视图间预测。也就是说,视图分量可使用其它视图中的视图分量用于参考。举例来说,在MVC中,如同另一视图中的视图分量为帧间预测参考而实现视图间预测。潜在视图间参考在序列参数集(SPS)MVC扩展中用信号通知且可通过参考图片列表构造过程加以修改,所述参考图片列表构造过程实现帧间预测或视图间预测参考的灵活排序。视图间预测也是包含3D-HEVC(多视图加深度)的HEVC的所提出的多视图扩展的特征。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为是从视图S1的不同时间位置处的图片预测,以及是从相同时间位置处的视图S0和S2的图片经视图间预测。举例来说,时间位置T1处的视图S1的b图片是从时间位置T0及T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0及S2的b图片预测。
在一些实例中,图3可被看作说明纹理视图分量。举例来说,图2中所说明的I、P、B和b图片可被视为视图中的每一者的纹理视图分量。根据本发明中描述的技术,对于图3中所说明的纹理视图分量中的每一者,存在对应深度视图分量。在一些实例中,可以类似于图3中针对对应纹理视图分量所说明的方式的方式预测深度视图分量。
MVC中也可支持两个视图的译码。MVC的优点中的一个优点是:MVC编码器可将两个以上视图视为3D视频输入且MVC解码器可解码此类多视图表示。因此,具有MVC解码器的任何再现器可预期具有两个以上视图的3D视频内容。
在MVC中,允许在相同存取单元(即,具有相同时间例子)中的图片当中进行视图间预测。在译码非基础视图中的一者中的图片时,如果图片在不同视图中,但在相同时间实例内,那么可将图片添加到参考图片列表中。可将视图间参考图片放置在参考图片列表的任何位置中,正如任何帧间预测参考图片一般。如图3中所示,视图分量可出于参考目的使用其它视图中的视图分量。在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。
在多视图视频译码的上下文中,一般来说存在两个种类的运动向量。一个称为正常运动向量。所述正常运动向量指向时间参考图片且对应时间帧间预测是运动补偿预测(MCP)。另一运动向量是视差运动向量(DMV)。所述DMV指向不同视图中的图片(即,视图间参考图片)且对应帧间预测是视差补偿预测(DCP)。
另一类型的多视图视频译码格式引入深度值的使用(例如,3D-HEVC中)。对于流行用于3D电视和自由视点视频的多视图视频加深度(MVD)数据格式,可独立地以多视图纹理图片译码纹理图像和深度图。图4说明具有纹理图像的MVD数据格式及其相关联每样本深度图。深度范围可限于在与对应3D点的相机相距最小z和最大z距离的范围内。
相机参数和深度范围值可有助于在3D显示器上再现之前处理经解码视图分量。因此,针对H.264/MVC的当前版本界定特殊补充增强信息(SEI)消息,即多视图获取信息SEI,其包含指定获取环境的各种参数的信息。然而,H.264/MVC中未指定用于指示深度范围相关信息的语法。
现将论述HEVC中的不对称运动分割(AMP)和运动补偿块大小。在HEVC中,经帧间译码译码块可分裂成一个、两个或四个分区。此些分区的各种形状是可能的。图5中描绘经帧间预测译码块的实例分割可能性。
图5中的分区的上部行说明所谓的对称分区。NxN分区简单地是尚未分裂的译码块。N/2xN分区是分裂成两个垂直矩形分区的译码块。同样,NxN/2分区是分裂成两个水平矩形分区的译码块。N/2xN/2分区是分裂成四个相等正方形分区的译码块。
图5中的下部四个分区类型称为不对称分区,且可以用于帧间预测的不对称运动分割(AMP)。AMP模式的一个分区分别具有高度或宽度N/4和宽度或高度N,且另一分区通过具有3N/4的高度或宽度和宽度或高度N而由CB的其余部分组成。每一经帧间译码分区被指派一个或两个运动向量和参考图片索引(即,一个运动向量和参考索引用于单向预测且两个运动向量和参考索引用于双向预测)。在一些实例中,为了最小化最坏情况存储器带宽,不允许大小4x4的分区用于帧间预测,且大小4x8和8x4的分区限于基于预测性数据的一个列表的单向预测译码。
如下文将更详细地论述,本发明描述当结合3D-HEVC译码技术使用时用于AMP的技术,包含后向视图合成预测(BVSP)。
以下描述HEVC中的合并候选者列表。举例来说,可以以下步骤构造所述合并候选者列表。对于空间合并候选者,视频编码器20和/或视频解码器30可从五个空间相邻块导出多达四个空间运动向量候选者,如图6中说明。
视频编码器20及视频解码器30可评估空间相邻块的次序如下:左边(A1)、上方(B1)、右上方(B0)、左下方(A0)和左上方(B2),如图6中所示。在一些实例中,可应用修剪过程以移除具有相同运动信息(例如,运动向量和参考索引)的运动向量候选者。举例来说,可将B1的运动向量和参考索引与A1的运动向量和参考索引进行比较,可将B0的运动向量和参考索引与B1的运动向量和参考索引进行比较,可将A0的运动向量和参考索引与A1的运动向量和参考索引进行比较,且可将B2的运动向量和参考索引与B1和A1两者的运动向量和参考索引进行比较。随后可从运动向量候选者列表移除具有相同运动信息的两个候选者中的一者。如果在修剪过程之后已经存在四个候选者,那么不将候选者B2插入到所述合并候选者列表。
如果经启用且可用,那么将来自参考图片的位于同一地点的时间运动向量预测符(TMVP)候选者添加到运动向量候选者列表中位于空间运动向量候选者之后。
如果运动向量候选者列表不完整(例如,具有少于预定数目的条目,那么可产生一或多个人工运动向量候选者且插入于所述合并候选者列表的末尾。实例类型的人工运动向量候选者包含仅针对B切片导出的组合双向预测合并候选者以及在不存在足够双向预测合并候选者的情况下包含零运动向量合并候选者(或其它类型的人工运动向量候选者)以提供预定数目的运动向量候选者。
当当前切片是B切片时,调用组合双向预测合并候选者的导出过程。对于已经在候选者列表中且具有必要运动信息的每对候选者,使用参考列表0(如果可用)中的图片的第一候选者(具有等于l0CandIdx的合并候选者索引)的运动向量与参考列表1(如果可用且参考图片或运动向量不同于第一候选者)中的图片的第二候选者(具有等于l1CandIdx的合并候选者索引)的运动向量的组合来导出组合双向预测运动向量候选者(具有由combIdx表示的索引)。
图7是指示3D-HEVC中的l0CandIdx及l1CandIdx的实例规范的表。举例来说,图7说明对应于combIdx的l0CandIdx和l1CandIdx的定义。
对于为0…11的combIdx,当以下条件为真时组合双向预测运动向量候选者的产生过程终止:(1)combIdx等于(numOrigMergeCand*(numOrigMergeCand-1)),其中numOrigMergeCand表示在调用此过程之前合并列表中的候选者的数目;(2)合并列表中的总候选者的数目(包含新产生的组合双向预测合并候选者)等于MaxNumMergeCand。
此部分描述零运动向量合并候选者的导出。对于每一候选者,将零运动向量和参考图片索引设定为从0到可用参考图片索引的数目减1。如果仍存在比合并运动向量候选者的最大数目(例如,由MaxNumMergeCand语法元素指示)少的候选者,那么插入零参考索引和运动向量直到候选者的总数等于MaxNumMergeCand。
以下描述HEVC中的运动补偿大小的约束。为了最小化最坏情况存储器带宽,对于帧间预测不允许大小4x4的分区,且大小4x8和8x4的分区限于单向预测译码。
为了满足上文所提及的此约束,当当前PU大小等于8x4或4x8时,产生的空间/时间/组合双向预测合并候选者,如果其与双向预测模式相关联,则应当通过将预测方向修改为列表0且将对应于RefPicList1的参考图片索引和运动向量分别修改为-1和(0,0)而将当前PU复位为使用单向预测。
如上所提到,3D-HEVC在开发中。3D-HEVC可使用视图间运动预测及视图间残余预测而改善译码效率。换句话说,为了进一步改善译码效率,参考软件中已经采用两个新技术,即“视图间运动预测”和“视图间残余预测”。在视图间运动预测中,视频译码器(例如,视频编码器20或视频解码器30)可基于与当前PU不同的视图中的PU的运动信息而确定(即,预测)当前PU的运动信息。在视图间残余预测中,视频译码器可基于与当前CU不同的视图中的残余数据确定当前CU的残余块。
现将论述3D-HEVC中的基于相邻块的视差向量(NBDV)导出。NBDV导出用作3D-HEVC中的视差向量导出技术,原因在于3D-HEVC使用纹理优先译码次序用于全部视图的事实。由于对应深度图不可用于当前经译码纹理图片,因此在NBDV中从相邻块导出视差向量。在3D-HEVC设计的一些提议中,可通过检索对应于参考纹理视图的深度数据而进一步精炼从NBDV导出过程导出的视差向量。
3D-HEVC初始地采用JCT3V-A0097(3D-CE5.h:视差向量产生结果,L·张,Y·陈,M·卡兹威姿(高通))中所提议的NBDV导出技术。JCTVC-A0126(3D-CE5.h:基于HEVC的3D视频译码的视差向量导出的简化(J·孙,M·古,S·叶(LG))中与简化NBDV一起包含隐式视差向量。另外,在JCT3V-B0047(3D-CE5.h相关:视差向量导出的改进,J·康,Y·陈,L·张,M·卡茨威姿(高通))中,通过移除存储在经解码图片缓冲器中的隐式视差向量而进一步简化NBDV导出技术,并且以随机存取图片(RAP)选择改善译码增益。JCT3V-D0181(CE2:在3D-HEVC中基于CU的视差向量导出,J·康,Y·陈,L·张,M卡茨威姿(高通))中描述用于NBDV导出的额外技术。
视差向量(DV)用作两个视图之间的位移的估计器。因为相邻块在视频译码中几乎共享相同的运动/视差信息,所以当前块可使用相邻块中的运动向量信息作为良好预测符。依照此想法,NBDV导出过程使用相邻视差信息用于估计不同视图中的视差向量。
为了实施NBDV,视频编码器20初始地界定若干空间和时间相邻块。视频编码器20随后以通过当前块与候选块之间的相关的优先级所确定的预定义次序检查相邻块中的每一者。一旦在候选者中发现视差运动向量(即,指向视图间参考图片的运动向量),视频编码器20就将所述视差运动向量转换为视差向量且还返回相关联视图次序索引。利用相邻块的两个集合。一个集合包含空间相邻块且另一集合包含时间相邻块。
在3D-HEVC的最近提议中,NBDV导出中使用两个空间相邻块。所述空间相邻块是相对于当前译码单元(CU)90的左边和上方相邻块,如图8中分别由A1和B1表示。应注意图8中所描绘的相邻块处于与HEVC中的合并模式中使用的相邻块中的一些相同的位置。因此,无需要额外存储器存取。然而应理解,也可以使用相对于当前CU90在其它位置中的相邻块。
为了检查时间相邻块,视频编码器20首先执行用于候选图片列表的构造过程。来自当前视图的高达两个参考图片可被视为候选图片。视频编码器20首先将位于同一地点的参考图片插入到候选图片列表,接着按参考索引的升序插入其余候选图片。当两个参考图片列表中具有相同参考索引的参考图片可用时,在与所述位于同一地点的图片相同的参考图片列表中的参考图片位于具有相同参考索引的另一参考图片之前。对于候选图片列表中的每一候选图片,视频编码器20将位于同一地点的区的覆盖中心位置的块确定为时间相邻块。
当通过视图间运动预测对块进行译码时,可导出视差向量以用于选择不同视图中的对应块。视图间运动预测过程中导出的视差向量称为隐式视差向量(IDV或也称为所导出的视差向量。即使块是以运动预测译码的,为了对随后的块进行译码的目的也不会丢弃所导出的视差向量。
在HTM的一个设计中,在NBDV导出过程期间,视频译码器(例如,视频编码器20和/或视频解码器30)经配置以按次序检查时间相邻块中的视差运动向量、空间相邻块中的视差运动向量和随后IDV。一旦找到视差运动向量或IDV,过程便终止。
现将论述通过存取深度信息对NBDV导出过程的精炼(NBDV-R)。当从NBDV导出过程导出视差向量时,可通过从参考视图的深度图检索深度数据进一步精炼所导出的视差向量。所述精炼过程可包含以下技术:
a)在例如基础视图等经先前译码参考深度视图中通过所导出的视差向量定位对应深度块;对应深度块的大小与当前PU的大小相同。
b)从对应深度块的四个拐角像素选择一个深度值且将所述深度值转换为经精炼视差向量的水平分量。视差向量的垂直分量不变。
注意,在一些实例中,经精炼视差向量可以用于视图间运动预测,而未精炼的视差向量可以用于视图间残余预测。另外,如果PU是以后向视图合成预测模式译码,那么可将经精炼视差向量存储为一个PU的运动向量。在3D-HEVC的一些提议中,无论从NBDV导出过程导出的视图次序索引的值如何,都可存取基础视图的深度视图分量。
现将论述3D-HEVC中的后向视图合成预测(BVSP)技术。第3次JCT-3V会议中采用了由D·田等人提出的一个实例BVSP方法“CE1.h:使用相邻块的后向视图合成预测”(JCT3V-C0152),其从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id= 594可用。BVSP的基本想法类似于3D-AVC中的基于块的视图合成预测。这两个技术均使用后向扭曲和基于块的视图合成预测来避免发射运动向量差且使用更精确的运动向量。3D-HEVC和3D-AVC中的BVSP的实施细节由于不同平台而不同。
在3D-HEVC中,针对在跳过或合并模式中经译码的经帧间译码块支持BVSP模式。在3D-HEVC的一个实例提议中,针对在高级运动向量预测(AMVP)模式中经译码的块不允许BVSP模式。替代于发射旗标以指示BVSP模式的使用,视频编码器20可经配置以将一个额外合并候选者(即,BVSP合并候选者)添加到合并候选者列表,且每一候选者与一个BVSP旗标相关联。当经解码合并索引对应于BVSP合并候选者时,所述经解码合并索引指示当前预测单元(PU)使用BVSP模式。对于当前PU内的每一子块,可通过转换深度参考视图中的深度值而导出视差运动向量。
如下界定BVSP旗标的设定。当用于导出空间合并候选者的空间相邻块是以BVSP模式译码时,空间合并候选者的相关联运动信息由当前块继承,如常规合并模式中。另外,此空间合并候选者与等于1的BVSP旗标相关联(即,指示空间合并候选者是以BVSP模式译码)。对于新引入的BVSP合并候选者,将BVSP旗标设定成1。对于全部其它合并候选者,将相关联BVSP旗标设定成0。
如上文所论述,在3D-HEVC中,视频编码器20可经配置以将名为BVSP合并候选者的新候选者导出且嵌入到合并候选者列表中。通过以下方法设定对应参考图片索引和运动向量。
第一视频编码器20可经配置以从NBDV导出过程获得由所导出的视差向量的视图索引语法元素(例如,3D-HEVC中的refVIdxLX)表示的视图索引。视频编码器20还可经配置以获得与具有等于refVIdxLX的视图次序索引的参考图片相关联的参考图片列表(例如,RefPicListX(RefPicList0或RefPicList1))。视频编码器20随后使用从NBDV导出过程获得的对应参考图片索引和视差向量作为RefPicListX(即,RefPicList0或RefPicList1)中的BVSP合并候选者的运动信息。
如果当前切片是B切片,那么视频编码器20检查具有由除RefPicListX外的参考图片列表(即,RefPicListY,其中Y为1-X)中不等于refVIdxLX的refVIdxLY表示的视图次序索引的视图间参考图片的可用性。如果找到此不同视图间参考图片,那么视频编码器20执行双向预测视图合成预测。视频编码器20可进一步经配置以使用不同视图间参考图片的对应参考图片索引和来自NBDV导出过程的经按比例缩放视差向量作为RefPicListY中的BVSP合并候选者的运动信息。来自具有等于refVIdxLX的视图次序索引的视图的深度块用作当前块的深度信息(在纹理优先译码次序的情况下)。视频编码器20经由后向扭曲过程合成所述两个不同视图间参考图片(来自每一参考图片列表一个)并且进一步加权经合成参考图片以实现最终BVSP预测符。
对于除B切片外的切片类型(例如,P切片),视频编码器20以RefPicListX作为用于预测的参考图片列表来应用单向预测视图合成预测。
在3D-HTM中,在共同测试条件中应用纹理优先译码。由于视图的纹理分量是在深度分量之前经译码,因此当解码一个非基础纹理分量时对应非基础深度分量不可用。因此,视频解码器30可经配置以估计深度信息,且随后使用估计的深度信息执行BVSP。为了估计块的深度信息,提出首先从相邻块导出视差向量(例如,使用NBDV导出过程),且随后使用所导出的视差向量从参考视图获得深度块。
图9说明用于从参考视图定位深度块且随后使用所述深度块用于BVSP预测的实例技术。初始地,视频编码器20和/或视频解码器30可利用与相邻块102相关联的视差向量104。即,视频编码器20和/或视频解码器30可从已经编码的相邻块(例如相邻块102)存取视差向量信息且再使用当前块100的任何相关联视差向量信息。视差向量104指向参考深度图片中的深度块106。当视差向量104再用于当前块100时,视差向量104现在指向参考深度图片中的深度块108。深度块108对应于当前块100。视频编码器20和/或视频解码器30可随后使用参考深度图片108中的深度信息来使用后向扭曲技术合成参考纹理图片中的块。经合成纹理图片可随后用作参考图片以预测当前块100。
在本发明的一个实例中,对于NBDV导出过程,假设(dvx,dvy)表示由NBDV导出过程识别的视差向量104,且将当前块100的位置表示为(块x,块y)。在单向预测BVSP的一个实例中,视频编码器20和/或视频解码器30可经配置以获取参考视图的深度视图分量中具有(块x+dvx,块y+dvy)的左上方位置的深度块108。视频编码器20和/或视频解码器30可经配置以首先将当前块100(例如,PU)分裂为若干子块,其各自具有相同大小(例如,等于W*H)。对于具有等于W*H的大小的每一子块,视频编码器20和/或视频解码器30识别来自所获取深度视图分量内的对应深度子块108的四个拐角像素的最大深度值,例如如图10中所示。图10是说明8x8深度块110的四个拐角像素的概念图。所述四个拐角像素可标记为左上方(TL)像素、右上方(TR)像素、左下方(BL)像素),和右下方(BR)像素。视频编码器20和/或视频解码器30将最大深度值转换为视差运动向量。每一子块的所导出视差运动向量随后用于运动补偿。
此部分将论述当执行双向预测时的BVSP。当存在来自RefPicList0和RefPicList1中的不同视图的多个视图间参考图片时,视频编码器20和/或视频解码器30应用双向预测BVSP。在双向预测BVSP中,将从每一参考列表产生两个视图合成预测预测符(即,两个合成参考块),如上文所描述。随后使所述两个视图合成预测预测符平均化以获得最终视图合成预测预测符。
运动补偿大小,即如上文所描述的W*H,可为8x4或4x8。在一个实例中,为了确定运动补偿大小,应用以下规则:
对于每一8x8块,检查对应深度8x8块的四个拐角且:
if(vdepth[TL]<vdepth[BR]?0:1)!=(vdepth[TR]<vdepth[BL]?0:1)
使用4x8分区(W=4,H=8)
else
使用8x4分区(W=8,H=4)
以下描述3D-HEVC的一个提议中用于跳过/合并模式的视图间候选者导出过程。基于从NBDV导出过程导出的视差向量,可将称为经视图间预测的运动向量候选者(IPMVC)(如果可用)的新运动向量候选者添加到AMVP和跳过/合并模式运动向量候选者列表。经视图间预测的运动向量(如果可用)为时间运动向量。由于跳过模式具有与合并模式相同的运动向量导出过程,所以此文献中所描述的全部技术适用于合并模式及跳过模式两者。
图11是说明用于合并/跳过模式的经视图间预测的运动向量候选者的实例导出的概念图。举例来说,图11展示经视图间预测的运动向量候选者的导出过程的实例。对于合并/跳过模式,通过以下步骤导出经视图间预测的运动向量候选者。首先,视频编码器20和/或视频解码器30使用视差向量在同一存取单元的参考视图中定位当前PU/CU114的对应块(例如,参考块)112。在图11的实例中,当前块(当前PU)114在视图V1中,而对应参考块112在视图V0中。如果对应参考块112未经帧内译码且未经视图间预测,且其参考图片(在此实例中在视图V0和时间T1中)具有等于当前PU/CU114的同一参考图片列表中的一个条目的POC值的POC值,那么将对应参考块112的运动信息(即,预测方向、参考图片索引和运动向量)导出为在基于参考图片的POC转换参考索引之后的经视图间预测的运动向量。
可如下界定对应参考块112。首先表示当前预测单元的左上方明度样本相对于当前图片的左上方明度样本的明度位置(xP,yP)。变量nPSW和nPSH分别表示当前预测单元的宽度和高度。参考视图次序索引标记为refViewIdx,且视差向量标记为mvDisp。通过以下操作导出参考层明度位置(xRef,yRef):
xRef=Clip3(0,PicWidthInSamplesL-1,xP+((nPSW-1)>>1)+((mvDisp[0]+2)>>2))(H-124)
yRef=Clip3(0,PicHeightInSamplesL-1,yP+((nPSH-1)>>1)+((mvDisp[1]+2)>>2))(H-125)
对应参考块112设定成覆盖具有等于refViewIdx的ViewIdx的视图分量中的明度位置(xRef,yRef)的预测单元。
另外,视差向量可转换成视图间视差运动向量(IDMVC),其添加到合并候选者列表中处于与IPMVC不同的位置。视图间视差运动向量也可以添加到AMVP候选者列表中处于与IPMVC(当其可用时)相同的位置。IPMVC或IDMVC可在此上下文中被称为“视图间候选者”。
在用于合并/跳过模式的一个实例中,IPMVC(如果可用)在全部空间和时间合并候选者之前插入到合并候选者列表。IDMVC插入在从A0导出的空间合并候选者之前。
以下部分描述3D-HEVC中用于纹理译码的合并候选者列表构造。首先,视频编码器20和/或视频解码器30例如使用上述NBDV导出技术导出视差向量。在导出视差向量之后,视频编码器20和/或视频解码器30可经配置以如下所述执行3D-HEVC中的合并候选者列表构造过程。
视频编码器20和/或视频解码器30可使用上述程序导出一或多个IPMVC。如果IPMVC可用,那么可将IPMV插入到合并列表。
接着,视频编码器20和/或视频解码器30可经配置以导出空间合并候选者和3D-HEVC中的一或多个IDMVC插入。为了导出空间合并候选者,视频编码器20和/或视频解码器30可经配置以按例如以下次序检查空间相邻PU的运动信息:A1,B1,B0,A0或B2,如图6中所示。
视频编码器20和/或视频解码器30可进一步经配置以执行受约束修剪。为了执行受约束修剪,视频编码器20和/或视频解码器30可经配置以在A1和IPMVC具有相同运动向量和相同参考索引的情况下不将位置A1处的空间合并候选者插入到合并候选者列表中。否则将位置A1处的空间合并候选者插入到合并候选者列表中。
如果位置B1处的合并候选者和合并位置A1处的合并候选者(或IPMVC)具有相同运动向量和相同参考索引,那么位置B1处的合并候选者不插入到合并候选者列表中。否则将位置B1处的合并候选者插入到合并候选者列表中。如果位置B0处的合并候选者可用(即,经译码且具有运动信息),那么将位置B0处的合并候选者添加到候选者列表。视频编码器20和/或视频解码器30使用上述程序导出IDMVC。如果IDMVC可用,且IDMVC的运动信息不同于从A1和B1导出的候选者,那么将IDMVC插入到候选者列表。
如果BVSP针对整个图片(或针对当前切片)经启用,那么将BVSP合并候选者插入到合并候选者列表。如果位置A0处的合并候选者可用,那么将其添加到候选者列表。如果B2处的合并候选者可用,那么将其添加到候选者列表。
下一部分将论述3D-HEVC中用于时间合并候选者的导出过程。3D-HEVC中的时间合并候选者导出类似于HEVC中的时间合并候选者导出过程,其中利用位于同一地点的PU的运动信息。然而,对于3D-HEVC,可改变时间合并候选者的目标参考图片索引而不是将参考图片索引固定为0。当等于0的目标参考索引对应于时间参考图片(同一视图中)时,在位于同一地点预测单元(PU)的运动向量指向视图间参考图片时,将目标参考索引改变为对应于参考图片列表中的视图间参考图片的第一条目的另一索引。相反,当等于0的目标参考索引对应于视图间参考图片时,在位于同一地点的预测单元(PU)的运动向量指向时间参考图片时,将目标参考图片索引改变为对应于参考图片列表中的时间参考图片的第一条目的另一索引。
现将论述3D-HEVC中用于组合双向预测合并候选者的实例导出过程。如果从以上两个步骤(即,空间合并候选者的导出和时间合并候选者的导出)导出的候选者的总数小于候选者的最大数目(可为预定义的),那么执行如在HEVC中界定的相同过程,如上文所描述。然而,参考索引l0CandIdx和l1CandIdx的规范不同。图12是指示3D-HEVC中的l0CandIdx及l1CandIdx的实例规范的另一表。举例来说,在图12中说明的表中界定combIdx、l0CandIdx和l1CandIdx之间的关系。
3D-HEV中用于零运动向量合并候选者的一个实例导出过程是与HEVC中经界定的程序相同的程序。在3D-HEVC的一个实例中,合并候选者列表中的候选者的总数高达6,且在切片标头中产生five_minus_max_num_merge_cand语法元素以指定从6减去合并候选者的最大数目。应注意,语法元素five_minus_max_num_merge_cand的值在0到5且包含0和5的范围中。
以下描述例如3D-HEVC中用于深度译码的运动向量继承(MVI)。MVI技术寻求利用图片的纹理分量与其相关联深度视图分量之间的运动特性的相似性。图13是说明用于深度译码的运动向量继承候选者的实例导出的概念图。举例来说,图13展示MVI候选者的导出过程的实例,其中将对应纹理块120选择为位于纹理图片124中的当前PU122的中心右下方的4x4块。对于深度图片128中的当前PU126,MVI候选者重新使用与对应纹理图片124中的已经译码对应纹理块120相关联的运动向量和参考索引(如果此些信息可用)。
应注意,在深度译码中使用具有整数精度的运动向量,而利用具有四分之一精度的运动向量用于纹理译码。因此,对应纹理块的运动向量可在用作MVI候选者之前经按比例缩放。
在MVI候选者产生的情况下,如下构造用于深度视图的合并候选者列表。对于MVI插入,使用如上文所描述的技术导出MVI,并且如果可用则插入到合并候选者列表中。
下文描述用于空间合并候选者的导出过程和3D-HEVC中用于深度译码的IDMVC插入。首先,视频编码器20和/或视频解码器30可经配置以按以下次序检查空间相邻PU的运动信息:A1,B1,B0,A0或B2
视频编码器20和/或视频解码器30可随后如下执行受约束修剪。如果位置A1处的运动向量候选者和MVI候选者具有相同运动向量和相同参考索引,那么A1处的运动向量候选者不插入到合并候选者列表中。如果位置B1处的运动向量候选者和位置A1处的运动向量候选者/MVI候选者具有相同运动向量和相同参考索引,那么位置B1处的运动向量候选者不插入到合并候选者列表中。如果位置B0处的运动向量候选者可用,那么将位置B0处的运动向量候选者添加到合并候选者列表。如果位置A0处的运动向量候选者可用,那么将位置A0处的运动向量候选者添加到合并候选者列表。如果位置B2处的运动向量候选者可用,那么将位置B2处的运动向量候选者添加到合并候选者列表。
3D-HEVC深度译码中用于时间合并候选者的导出过程类似于HEVC中的时间合并候选者导出过程,其中利用位于同一地点的PU的运动信息。然而,在3D-HEVC深度译码中,如上文所解释,时间合并候选者的目标参考图片索引可改变而不是固定为0。
现将描述3D-HEVC深度译码中用于组合双向预测合并候选者的导出过程。如果从以上两个步骤导出的候选者的总数小于候选者的最大数目,那么除l0CandIdx和l1CandIdx的指定外执行如HEVC中界定的相同过程。在图12中说明的表中界定combIdx、l0CandIdx和l1CandIdx之间的关系。
3D-HEVC深度译码中用于零运动向量合并候选者的导出过程与HEVC中界定的程序相同。
以下描述用于高级残余预测(ARP)的实例技术。第4次JCT3V会议中采用应用于具有等于Part_2Nx2N(例如,图5中的NxN)的分割模式的CU的ARP,如JCT3V-D0177中所提议。JCT3V-D0177文献是张等人的标题为“CE4:用于多视图译码的高级残余预测”的文献。JCT3V-D0177文献从2014年8月22日起从http://phenix.it-sudparis.eu/jct3v/doc_end_user/current_document.php?id=862可用。
图14说明多视图视频译码中的高级残余预测(ARP)的预测结构。如图14中所展示,在当前块(“Curr”)140的预测中调用随后的块。由视差向量(DV)146导出的参考/基础视图144中的参考块142标记为“基础”。通过当前块140的(时间)运动向量150(表示为TMV)导出的与当前块Curr140在同一视图(视图Vm)中的块148标记为“CurrTRef”。通过当前块的时间运动向量(TMV)导出的与块基础142在同一视图(视图V0)中的块152标记为“BaseTRef”。以与当前块Curr140进行比较的TMV+DV的向量154识别参考块BaseTRef152。
残余预测符表示为BaseTRef-Base,其中减法运算应用于所表示像素阵列的每一像素。可进一步将加权因数“w”乘以残余预测符。因此当前块Curr的最终预测符可表示为CurrTRef+w*(BaseTRef-Base)。
注意在以上描述和图14中,假定应用单向预测。当延伸ARP到双向预测时,针对每一参考图片列表应用以上步骤。当当前块Curr使用视图间参考图片(不同视图中)用于两个参考图片列表中的一者时,停用ARP过程。
以下描述ARP中的解码过程。首先,视频解码器30获得指向目标参考视图的视差向量(例如,使用NBDV导出过程)。随后,在同一存取单元内的参考视图的图片中,视频解码器30使用视差向量定位对应块。
视频解码器30可再使用当前块的运动信息以导出参考块的运动信息。视频解码器30可随后基于当前块的同一运动向量和所导出参考图片应用用于对应块的运动补偿,以导出残余块。
图15是说明当前块160、参考块162和运动补偿块164和166之间的实例关系的概念图。具有与当前视图(Vm)的参考图片相同的POC(图片次序计数)值的参考视图(V0)中的参考图片被选择为对应块162的参考图片。视频编码器20和/或视频解码器30可将加权因数应用于残余块以得到经加权残余块且将经加权残余块的值添加到预测样本。
以下描述加权因数。ARP中使用三个加权因数,即,0、0.5和1。导致当前CU的大多数最小速率失真成本的加权因数被选择为最终加权因数,且在CU层级在位流中发射对应加权因数索引(例如,分别对应于加权因数0、1和0.5的0、1和2)。在ARP的一个实例中,一个CU中的全部PU预测共享同一加权因数。当加权因数等于0时,ARP不用于当前CU。
以下描述ARP的一些进一步简化。首先,描述经由运动向量按比例缩放的参考图片选择。第二,描述内插滤波器。
对于经由运动向量按比例缩放的参考图片选择,在JCT3V-C0049中,以非零加权因数译码的预测单元的参考图片可在块之间不同。JCT3V-C0049文献是张等人的标题为“3D-CE4:用于多视图译码的高级残余预测”的文献。JCT3V-C0049文献在2013年9月23日从http://phenix.int-evry.fr/jct3v/doc_end_user/current_document.php?id=487可用。
因此,可能需要存取来自参考视图的不同图片以产生对应块的经运动补偿的块(例如,图14中的BaseTRef)。已提出当加权因数不等于0时在执行用于残余产生过程的运动补偿之前朝向固定图片按比例缩放当前PU的经解码运动向量。如JCT3V-D0177中所提议,所述固定图片在其来自同一视图的情况下经界定为每一参考图片列表的第一参考图片。当经解码运动向量不指向固定图片时,视频解码器30可首先经按比例缩放经解码运动向量且随后使用经按比例缩放运动向量以识别CurrTRef和BaseTRef。用于ARP的此参考图片称为目标ARP参考图片。
对于内插滤波器,如JCT3V-C0049中所描述,视频编码器20和/或视频解码器30可在对应块及其预测块的内插过程期间应用双线性滤波器。对于非基础视图中的当前PU的预测块,可应用常规8/4分接头滤波器。在另一实例中,如JCT3V-D0177所提议,无论当应用ARP时块在基础视图还是非基础视图中,视频编码器20和/或视频解码器30可始终采用双线性滤波。
在本发明的一或多个实例中,视频编码器20和/或视频解码器30可经配置以使用从NBDV导出过程返回的视图次序索引识别参考视图。在ARP的一个实例中,当一个参考图片列表中的一个PU的参考图片来自与当前视图不同的视图时,ARP针对此参考图片列表停用。
2013年6月27日申请的第61/840,400号美国临时申请案和2013年7月18日申请的第61/847,942号美国临时申请案中描述用于深度帧间译码的一些添加技术。在这些实例中,当译码深度图片时,通过估计深度值从当前块的相邻样本转换视差向量。
在ARP的其它实例中,可例如通过存取由视差向量识别的基础视图的参考块而导出额外合并候选者。
以下描述用于定位用于视图间运动预测的块的技术。在3D-HEVC中,使用两个一般步骤识别参考4x4块。第一步骤是以视差运动向量识别参考视图中的像素。第二步骤是获得对应4x4块(具有分别对应于RefPicList0或RefPicList1的运动信息的唯一集合)且利用所述运动信息产生合并候选者。
如下识别参考视图中的像素(xRef,yRef):
xRef=Clip3(0,PicWidthInSamplesL-1,xP+((nPSW-1)>>1)+((mvDisp[0]+2)>>2))(H-124)
yRef=Clip3(0,PicHeightInSamplesL-1,yP+((nPSH-1)>>1)+((mvDisp[1]+2)>>2))(H-125)
其中(xP,yP)是当前PU的左上方样本的坐标,mvDisp是视差向量且nPSWxnPSH是当前PU的大小,且PicWidthInSamplesL及PicHeightInSamplesL界定参考视图(与当前视图相同)中的图片的分辨率。
以下描述子PU层级视图间运动预测。在JCT3V-E0184中,提出使用用于IPMVC的子PU层级视图间运动预测方法,即,从参考视图中的参考块导出的候选者。安等人的JCT3V-E0184“3D-CE3.h相关:子PU层级视图间运动预测”从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1198可用。
上文描述视图间运动预测的基本概念(例如,相对于用于跳过/合并模式的视图间候选者导出过程),其中仅与中心位置相关联的参考块的运动信息用于相依视图中的当前PU。然而,当前PU可对应于参考视图中的参考区域(具有与由视差向量识别的当前PU相同的大小),且参考区域可具有丰富的运动信息(即,超过运动向量)。
因此,提出子PU层级视图间运动预测(SPIVMP)方法。图16是说明子预测单元(PU)视图间运动预测的概念图。如图16中所展示,当前视图V1中的当前PU170可分裂成多个子PU(例如,四个子PU)。每一子PU的视差向量可用以定位参考视图V0中的对应参考块。视频编码器20和/或视频解码器30可经配置以复制(即,再使用)与参考块中的每一者相关联的运动向量以用于当前PU170的对应子PU。
在一个实例中,如下导出时间视图间合并候选者。首先,由NxN表示经指派子PU大小。首先将当前PU划分为具有较小大小的多个子PU。通过nPSWxnPSH表示当前PU的大小且通过nPSWsubxnPSHSub表示子PU的大小。
nPSWsub=min(N,nPSW)
nPSHSub=min(N,nPSH)
第二,针对每一参考图片列表将默认运动向量tmvLX设定为(0,0)且将参考索引refLX设定为-1。对于光栅扫描次序中的每一子PU,以下适用。将DV添加到当前子PU的中间位置以如下获得参考样本位置(xRefSub,yRefSub):
xRefSub=Clip3(0,PicWidthInSamplesL-1,xPSub+nPSWsub/2+((mvDisp[0]+2)>>2))
yRefSub=Clip3(0,PicHeightInSamplesL-1,yPSub+nPSHSub/2+((mvDisp[1]+2)>>2))
参考视图中覆盖(xRefSub,yRefSub)的块用作当前子PU的参考块。
对于所识别的参考块,如果其是使用时间运动向量经译码,那么以下适用。如果refL0和refL1两者等于-1,且当前子PU不是光栅扫描次序中的第一者,那么参考块的运动信息由全部先前子PU继承。相关联运动参数可用作当前子PU的候选运动参数。语法元素tmvLX和refLX经更新到当前子PU的运动信息。否则(例如,如果参考块经帧内译码),将当前子PU的运动信息设定成tmvLX和refLX。可应用不同的子PU块大小,例如4x4、8x8和16x16。子PU的大小可在VPS中用信号表示。
以下描述用于深度译码的子PU层级运动向量继承。类似于从一个纹理视图到另一纹理视图的子PU层级视图间运动预测的提议,2013年7月24日申请的第61/858,089号美国临时申请案提出应用从一个纹理视图到对应深度视图的子PU层级运动预测的技术。即,可在若干子PU中分割当前PU且每一子PU使用位于同一地点的纹理块的运动信息用于运动补偿。在此情况下,支持子PU层级MVI,且由视图间运动预测使用的视差向量被视为始终为零。
3D-HEVC中用于BVSP的当前设计展现以下问题。当使用AMP且当前PU大小是4x16或16x4且PU经单向预测时,通过针对整个PU导出一个视差向量而实现BVSP。即PU中的每一子块使用相同视差向量用于参考块合成和运动补偿。因此,对于较大的块大小,BVSP可较不高效,因为使用相同视差向量用于全部子块的块合成和运动补偿对于所述子块中的一些可能较不最佳。
作为另一缺点,当当前PU双向预测时,以等于4x8和8x4的块大小启用BVSP。然而,在HEVC中,不允许用于含有少于64像素的块(例如,4x8或8x4块)的运动补偿(但允许16x4和4x16运动补偿)。
鉴于这些缺陷,本发明提出与3D-HEVC中的视图合成预测相关的技术,其集中于BVSP运动补偿大小。根据本发明的技术,对于BVSP,每一PU可分裂成子块,且每一子块可与不同视差运动向量相关联且单独地经运动补偿。以此方式,对于以AMP分割的块可增加BVSP的准确性,且因此,译码效率可增加。根据本发明的技术,可用于BVSP的子块的大小可进一步如下界定。
在本发明的一个实例中,当当前PU大小是16x4(或4x16)且当前PU经单向预测时,视频编码器20和/或视频解码器30可经配置以将BVSP和运动补偿技术应用于当前PU的8x4(或4x8)子块。即,BVSP子区的大小是8x4(或4x8)。子块中的每一者可被指派从深度块转换的视差运动向量。
图17是描绘当使用AMP时本发明的BVSP和运动补偿技术的概念图。在图17的实例中,视频编码器20和/或视频解码器30将当前PU250不对称分割为4x16块。应注意4x16分割仅是一个实例,且参考图17描述的本发明的技术可应用于其它不对称分区,包含16x4分区。视频编码器20和/或视频解码器30可经配置以将PU250细分为4x8子块255和256。
在图17的实例中,视频编码器20和/或视频解码器30经配置以使用BVSP单向预测PU250。在此方面,视频编码器20和/或视频解码器30可经配置以例如使用NBDV导出技术导出PU250的视差向量。举例来说,视差向量261可从相邻块252导出。视频编码器20和/或视频解码器30可随后经配置以再使用视差向量261来定位参考深度图片中的对应深度块260。根据本发明的技术,并非使用深度块260的全部来导出PU255的视差运动向量,视频编码器20和/或视频解码器30可经配置以从子块255的深度块260的4x8子块264导出视差运动向量,且从子块256的深度块26的4x8子块262导出视差运动向量。
视频编码器20和/或视频解码器30可随后使用对应导出视差运动向量合成子块255和256中的每一者的参考块以关于对应于具有等于refVIdxLX的视图次序的视图间参考图片的参考图片执行运动补偿。通过导出子块255和256中的每一者的个别视差运动向量,可合成较准确的参考视图且对应运动补偿过程可实现增加的译码增益。
在本发明的另一实例中,当当前PU大小是16x12(或12x16)且当前PU经单向预测时,视频编码器20和/或视频解码器30可经配置以将当前PU分割为8x4(或4x8)子块(也被称为BVSP子区)且使用BVSP导出每一子块的视差运动向量。
在另一实例中,BVS子区的大小可指派给16x12或12x16。在再一实例中,每一16x12(或12x16)子块进一步分割成16x8(或8x16)子块和两个8x4(或4x8)子块,其邻近于同一CU中的16x4(4x16)PU。在另一实例中,16x8(或8x16)子块可基于例如对应深度块的4个拐角而进一步分成两个8x8子区或四个4x8(或8x4)子区。
在本发明的另一实例中,当当前PU的高度和宽度两者大于或等于8且PU经双向预测时,视频编码器20和/或视频解码器30经配置以将BVSP子区的大小设定为8x8而不是4x8或8x4,如3D-HEVC的先前提议中。在另一实例中,替代于使用双向预测BVSP用于具有等于12x16或16x12的大小的PU,可应用单向预测BVSP。在此情况下,运动补偿大小可进一步设定成4x16或16x4。在另一实例中,当当前PU大小是16x4或4x16且当前PU经双向预测时,将BVSP子区的大小设定成等于PU大小。
子PU运动预测可展现以下缺陷。在此上下文中,子PU运动预测可包含如上文所描述的JCT3V-E0184中所提议的子PU运动预测技术,以及子PU运动预测扩展到从纹理视图到深度视图的MVI。
作为一个缺点,当不对称运动分割(AMP)经启用时,当前PU大小等于例如4x16、16x4,且VPS中用信号表示的子PU块大小等于8x8,基于子PU运动预测的先前提议,此些PU将分裂成两个4x8或8x4子块。对于每一子块,继承来自参考块的运动信息。运动信息可通过用于视图间运动预测的参考纹理视图中的视差向量识别,或可从用于运动向量继承的对应纹理视图中的位于同一地点的纹理块再使用。在此实例中,可调用基于4x8或8x4的双向预测,HEVC不允许这样。
作为另一缺点,当AMP经启用时,PU大小等于例如12x16或16x12,且VPS中用信号表示的子PU块大小(即,子块大小)等于8x8,基于子PU运动预测的先前提议,此些PU将分裂成两个8x8和两个4x8/8x4子块。类似于以上情况,4x8/8x4子块可使用双向预测,HEVC不允许这样。
本发明中提出与视图间运动预测和运动向量继承(用于深度PU)相关的技术。在当合并索引指示视图间运动预测或MVI时的情境中可应用本发明的技术。确切地说,本发明的视图间运动预测和/或MVI技术包含用于将AMPPU进一步分割为子块且获得子块中的每一者的单独运动信息的技术。以此方式,可针对子块中的每一者改善视图间运动预测和/或MVI的准确性,且因此可增加译码效率。
在本发明的一个实例中,当当前PU是使用视图间运动预测和/或MVI经译码且当前PU大小等于4x16或16x4时,视频编码器20和/或视频解码器30可经配置以将PU分裂为两个4x8或8x4子块。对于子块中的每一者,视频编码器20和/或视频解码器30可经配置以仅从对应于特定参考图片列表(例如,RefPicList0)的参考块获得运动信息。对应于RefPicList0中的参考块的运动信息是针对4x8或8x4子块继承。在此情况下,子块是从RefPicList0中的图片单向预测。
图18是说明用于不对称分割成大小4x16和16x4的PU的运动向量继承和运动补偿技术的概念图。举例来说,对于4x16PU,视频编码器20和/或视频解码器30经配置以将4x16PU进一步划分为两个4x8子块300和302。子块300和302中的每一者的运动信息是从属于特定参考图片列表(例如,RefPicList0)的参考图片中的参考块获得。随后相对于RefPicList0中的参考块针对子块300和302中的每一者执行运动补偿。同样,对于16x4PU,视频编码器20和/或视频解码器30经配置以将16x5PU进一步划分为两个8x4子块304和306。子块304和306中的每一者的运动信息是从属于特定参考图片列表(例如,RefPicList0)的参考图片中的参考块获得。随后相对于RefPicList0中的参考块针对子块304和306中的每一者执行运动补偿。
在本发明的另一实例中,当当前PU大小是16x12、12x16、4x16或16x4中的一者时,视频编码器20及视频解码器30经配置以当应用子PU层级视图间运动预测和/或MVI(用于深度)时不使用用于8x4/4x8子块的双向预测。即,当当前PU大小是16x12、12x16、4x16或16x4中的一者时,视频编码器20及视频解码器30经配置以当应用子PU层级视图间运动预测和/或MVI(用于深度)时仅使用用于8x4/4x8子块的单向预测。
在本发明的另一实例中,提出当应用子PU层级视图间运动预测或MVI且当前PU大小等于4x16或16x4时,PU不分裂成子PU。
在本发明的另一实例中,提出当应用子PU层级视图间运动预测或MVI且当前PU大小等于12x16或16x12时,将PU分裂成三个相等大小的子PU块,具有等于4x16或16x4的大小。对于每一子PU块,继承对应参考块的运动信息。
在本发明的另一实例中,当当前PU大小等于12x16或16x12时,将PU分裂为两个8x8和一个4x16或16x4子PU块,其中8x8子PU形成含有此PU的CU的左边或上半部。在此实例的另一方面中,4x16和16x4子块进一步分裂成两个4x8或8x4子PU块。对于每一4x8或8x4子PU,仅获得对应于参考图片列表(RefPicList0)的参考块的运动信息且再用于4x8或8x4子PU。在此情况下,子PU是从RefPicList0中的图片单向预测。
在本发明的另一实例中,当BVSP用于具有等于12x16或16x12的大小的PU时,将PU分裂成三个相等大小的子PU块,具有等于4x16或16x4的大小。视频编码器20和/或视频解码器30可随后从对应深度块导出每一子PU的唯一视差运动向量。
图19是说明可以实施本发明的技术的视频编码器20的实例的框图。视频编码器20可执行视频切片内的视频块的帧内和帧间译码(包含视图间译码),所述视频切片例如纹理图像和深度图两者的切片。纹理信息大体上包含明度(亮度或强度)和色度(颜色,例如红色调和蓝色调)信息。一般来说,视频编码器20可确定相对于明度切片的译码模式,且再使用来自对明度信息进行译码的预测信息以编码色度信息(例如,通过再使用分割信息、帧内预测模式选择、运动向量或类似物)。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图19中所展示,视频编码器20接收待编码的视频帧(即,纹理图像或深度图)内的当前视频块(即,视频数据块,例如明度块、色度块或深度块)。在图19的实例中,视频编码器20包含视频数据存储器40、模式选择单元41、经解码图片缓冲器(DPB)64、求和器50、变换处理单元52、量化单元54、环路滤波器单元63和熵编码单元56。模式选择单元41又包含运动补偿单元44、运动估计单元42、帧内预测处理单元46和分割单元48。为了视频块重构,视频编码器20还包含逆量化单元58、逆变换处理单元60,及求和器62。环路滤波器单元63可包含解块滤波器和SAO滤波器以对块边界进行滤波以从经重构视频移除成块效应假象。除了解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示此些滤波器,但是必要时,此些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。
视频数据存储器40可存储待由视频编码器20的组件编码的视频数据。可(例如)从视频源18获得存储在视频数据存储器40中的视频数据。DPB64是存储参考视频数据供视频编码器20用于编码视频数据(例如,在帧内或帧间译码模式中,也被称作帧内或帧间预测译码模式)的缓冲器。视频数据存储器40和DPB64可由多种存储器装置中的任一者形成,例如包含同步DRAM(SDRAM)的动态随机存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器40和DPB64可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器40可与视频编码器20的其它组件一起在芯片上,或相对于那些组件在芯片外。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可以划分成多个视频块。运动估计单元42和运动补偿单元44执行所接收视频块相对于一或多个参考帧(包含视图间参考帧)中的一或多个块的帧间预测性译码以提供时间预测。帧内预测处理单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码以提供空间预测。视频编码器20可以执行多个译码遍次,例如,以为每一视频数据块选择适当的译码模式。
此外,分割单元48可以基于前述译码遍次中的前述划分方案的评估将视频数据块分割成子块。举例来说,分割单元48最初可以将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元41可进一步产生指示将LCU分割成若干子CU的四叉树数据结构。四叉树的叶节点CU可以包含一或多个PU和一或多个TU。
模式选择单元41可例如基于误差结果而选择帧内或帧间译码模式中的一者,且将所得帧内或帧间译码块提供到求和器50以产生残余块数据且提供到求和器62以重构经编码块以用作参考帧。模式选择单元41还将语法元素(例如,运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供给熵编码单元56。
运动估计单元42和运动补偿单元44可高度集成,但出于概念的目的分别加以说明。运动估计单元42所执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。
预测性块是被发现在像素差方面与待译码块紧密匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于DPB64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。可从第一参考图片列表(列表0)或第二参考图片列表(列表1)来选择参考图片,所述列表中的每一者识别存储于DPB64中的一或多个参考图片。可使用本发明的技术构造参考图片列表。运动估计单元42将计算出来的运动向量发送到熵编码单元56和运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来获取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一者中定位所述运动向量指向的预测块。求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44对于色度分量及明度分量两者使用基于明度分量计算的运动向量。以此方式,运动补偿单元44可再用针对明度分量确定的运动信息来对色度分量进行译码,以使得运动估计单元42不需要对色度分量执行运动搜索。模式选择单元41还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测处理单元46可以对当前块进行帧内预测。具体来说,帧内预测处理单元46可确定用来对当前块进行编码的帧内预测模式。在一些实例中,帧内预测处理单元46可(例如)在不同的编码编次期间使用各种帧内预测模式对当前块进行编码,且帧内预测处理单元46(或在一些实例中为模式选择单元41)可从测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测处理单元46可使用速率失真分析计算用于各种所测试的帧内预测模式的速率失真值,并从所述所测试的模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测处理单元46可根据用于各种经编码块的失真及速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在选择用于块的帧内预测模式之后,帧内预测处理单元46可将指示块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。视频编码器20在所发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,以及对最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20通过从正译码原始视频块减去来自模式选择单元41的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。
所述变换可将残余信息从像素值域转换到变换域(例如,频域)。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位速率。量化过程可以减少与系数中的一些或全部相关联的位深度。可以通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。替代地,熵编码单元56可以执行所述扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵译码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论,上下文可以基于相邻块。在熵编码单元56的熵译码之后,可以将经编码位流发射到另一装置(例如,视频解码器30),或者将所述视频存档以用于稍后发射或检索。
逆量化单元58及逆变换处理单元60分别应用逆量化及逆变换以在像素域中重构残余块,例如以供稍后用作参考块。运动补偿单元44可通过将残余块相加到DPB64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块以计算子整数像素值以用于运动估计。求和器62将经重构建的残余块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生经重构建的视频块以用于存储于DPB64中。经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块以帧间译码后续视频帧中的块。
视频编码器20可以实质上类似用于对明度分量进行译码的译码技术的方式对深度图进行编码,即使是在无对应色度分量的情况下。举例来说,帧内预测处理单元46可对深度图的块进行帧内预测,而运动估计单元42和运动补偿单元44可对深度图的块进行帧间预测。然而,如上文所论述,在深度图的帧间预测期间,运动补偿单元44可基于深度范围中的差及深度范围的精度值按比例缩放(也就是说,调整)参考深度图的值。举例来说,如果当前深度图和参考深度图中的不同最大深度值对应于相同现实世界深度,那么视频编码器20可将参考深度图的最大深度值按比例缩放为等于当前深度图中的最大深度值以用于预测的目的。另外或替代地,视频编码器20可例如使用大体类似于视图间预测的技术,使用经更新深度范围值和精度值以产生用于视图合成预测的视图合成图片。
如下文将参考图21到23更详细地论述,视频编码器20可经配置以采用上述本发明的技术。确切地说,视频编码器20可经配置以当PU是根据不对称分割模式分割时将此些PU分割为子块。视频编码器20可随后经配置以继承和/或导出子块中的每一者的运动向量或视差运动向量。
图20是说明可实施本发明的技术的视频解码器30的实例的框图。在图20的实例中,视频解码器30包含视频数据存储器79、熵解码单元70、运动补偿单元72、帧内预测处理单元74、逆量化单元76、逆变换处理单元78、经解码图片缓冲器(DPB)82、环路滤波器单元83和求和器80。在一些实例中,视频解码器30可执行总体上与关于视频编码器20(图19)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测处理单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
视频数据存储器79可以存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储在视频数据存储器79中的视频数据可从例如相机等局部视频源、经由视频数据的有线或无线网络通信或通过存取物理数据存储媒体而获得。视频数据存储器79可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。DPB82是存储参考视频数据供视频解码器30用于解码视频数据(例如,在帧内或帧间译码模式中,也被称作帧内或帧间预测译码模式)的DPB的一个实例。视频数据存储器79和DPB82可由多种存储器装置中的任一者形成,例如包含同步DRAM(SDRAM)的动态随机存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器79和DPB82可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器79可与视频解码器30的其它组件一起在芯片上,或相对于所述组件在芯片外。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符和其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测处理单元74可以基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生所述预测性块。视频解码器30可基于存储于经解码图片缓冲器82中的参考图片使用本发明的技术构造参考帧列表:列表0及列表1。运动补偿单元72通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元72使用一些接收到的语法元素来确定用以译码视频片段的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测片段类型(例如,B片段、P片段或GPB片段)、用于片段的参考图片列表中的一或多者的构造信息、片段的每一经帧间编码的视频块的运动向量、片段的每一经帧间译码的视频块的帧间预测状态,以及解码当前视频片段中的视频块的其它信息。
运动补偿单元72还可以基于内插滤波器执行内插。运动补偿单元72可以使用如视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可根据接收的语法元素而确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测性块。
逆量化单元76将提供于位流中且由熵解码单元70解码的经量化的变换系数逆量化,即解量化。逆量化过程可包含使用视频解码器30针对视频切片中的每一视频块计算以确定应应用的量化程度和同样逆量化程度的量化参数QPY
逆变换处理单元78对变换系数应用逆变换(例如,逆DCT、逆整数变换,或概念上类似的逆变换过程),以便产生像素域中的残余块。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码的视频块。求和器90表示执行此求和运算的一或多个组件。环路滤波器单元63可包含解块滤波器和SAO滤波器以对块边界进行滤波以从经重构视频移除成块效应假象。除了解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示此些滤波器,但是必要时,此些滤波器可对求和器80的输出进行滤波(作为环路内滤波器)。接着将给定帧或图片中的经解码视频块存储在经解码图片缓冲器82中,经解码图片缓冲器82存储用于后续运动补偿的参考图片。经解码图片缓冲器82还存储经解码视频以用于稍后呈现在显示器装置(例如,图1的显示器装置32)上。
如下文将参考图24到26更详细地论述,视频解码器30可经配置以采用上述本发明的技术。确切地说,视频解码器30可经配置以当PU是根据不对称分割模式分割时将此些PU分割为子块。视频解码器30可随后经配置以继承和/或导出子块中的每一者的运动向量或视差运动向量。
图21是说明本发明的实例编码方法的流程图。图21的技术可由视频编码器20的一或多个结构单元实施,例如由模式选择单元41、分割单元48和/或运动补偿单元44实施。
在本发明的一个实例中,视频编码器20(例如,使用模式选择单元41和分割单元48)可经配置以使用AMP产生视频数据块,其中所述视频数据块是使用BVSP单向预测的且具有16x12、12x16、16x4或4x16的大小(2100)。在本发明的一个实例中,所述视频数据块是预测单元。
视频编码器20使用分割单元48可进一步经配置以将视频数据块分割为子块,每一子块具有8x4或4x8的大小(2110),且从对应于参考图片的深度图片中的对应深度块导出(例如,使用运动补偿单元44)子块中的每一者的相应视差运动向量(2120)。视频编码器20(例如,使用运动补偿单元44)可进一步经配置以使用相应导出视差运动向量合成所述子块中的每一者的相应参考块(2130),且通过使用合成相应参考块对所述子块中的每一者执行运动补偿而对视频数据块进行编码(例如,使用运动补偿单元44)(2140)。
在本发明的另一实例中,视频编码器20可进一步经配置以产生指示预测单元是使用AMP经编码且指示预测单元是使用BVSP单向预测的一或多个语法元素,且产生指向BVSP候选者的合并候选者索引。
在本发明的另一实例中,视频编码器20(例如,使用运动补偿单元44)可经配置以通过导出视频数据块的视差向量、使用所导出的视差向量定位所述子块中的每一者的对应深度块且将所述子块中的每一者的对应深度块的一个选定深度值转换为相应视差运动向量来导出所述子块中的每一者的相应视差运动向量。
图22是说明本发明的另一实例编码方法的流程图。图22的技术可由视频编码器20的一或多个结构单元实施,包含模式选择单元41、分割单元48和/或运动补偿单元44。
在本发明的一个实例中,视频编码器20(例如,模式选择单元41和分割单元48)可经配置以使用AMP产生第二视频数据块,其中所述第二视频数据块是使用视图间运动预测或MVI中的至少一者经编码且具有大小16x4或4x16(2200)。视频编码器20(例如,使用分割单元48)可进一步经配置以将所述第二视频数据块分割为子块,每一子块具有8x4或4x8的大小(2210),且从一个相应参考块导出(例如,使用运动补偿单元44)所述子块中的每一者的运动信息(2220)。视频编码器20可随后通过使用所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而对所述第二视频数据块进行编码(2230)。
在本发明的另一实例中,视频编码器20(例如,使用运动补偿单元44)可经配置以通过相对于所述一个参考图片列表中的图片执行单向运动补偿而执行运动补偿。
图23是说明本发明的另一实例编码方法的流程图。图23的技术可由视频编码器20的一或多个结构单元实施,例如由模式选择单元41、分割单元48和/或运动补偿单元44实施。
在本发明的一个实例中,视频编码器20可经配置以使用AMP产生20(例如,使用模式选择单元41和分割单元48)第二视频数据块,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有大小16x12或12x16(2300),将所述第二视频数据块分割(例如,使用分割单元48)为多个子块(2310),且以单向预测性预测对所述多个子块中的每一者进行编码(例如,使用运动补偿单元44)(2320)。
图24是说明本发明的实例解码方法的流程图。图24的技术可由视频解码器30的一或多个结构单元实施,例如由运动补偿单元72实施。
在本发明的一个实例中,视频解码器30可经配置以接收对应于视频数据块的残余数据,其中所述视频数据块是使用AMP经编码,是使用BVSP单向预测,且具有16x12、12x16、16x4或4x16的大小(2400)。在本发明的一个实例中,所述视频数据块是预测单元。视频解码器30可进一步经配置以将视频数据块分割为子块,每一子块具有8x4或4x8的大小(2410),且从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量(2420)。
视频解码器30可进一步经配置以使用相应导出视差运动向量合成所述子块中的每一者的相应参考块(2430),且通过使用残余数据和合成相应参考块对所述子块中的每一者执行运动补偿而解码视频数据块(2440)。
在本发明的另一实例中,视频解码器30可进一步经配置以接收指示所述预测单元是使用不对称运动分割经编码且指示所述预测单元是使用后向视图合成预测单向预测的一或多个语法元素,且接收指向BVSP候选者的合并候选者索引。
在本发明的另一实例中,视频解码器30可进一步经配置以通过导出视频数据块的视差向量、使用所导出的视差向量定位所述子块中的每一者的对应深度块且将所述子块中的每一者的对应深度块的一个选定深度值转换为相应视差运动向量来导出所述子块中的每一者的相应视差运动向量。
图25是说明本发明的实例解码方法的流程图。图23的技术可由视频解码器30的一或多个结构单元实施,例如由运动补偿单元72实施。
在本发明的一个实例中,视频解码器30可经配置以接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或MVI中的至少一者经编码且具有大小16x4或4x16(2500),将所述第二视频数据块分割为子块,每一子块具有8x4或4x8的大小(2510),从一个相应参考块导出所述子块中的每一者的运动信息(2520),且通过使用残余数据、所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而解码所述第二视频数据块。
在本发明的另一实例中,视频解码器30可进一步经配置以通过相对于所述一个参考图片列表中的图片执行单向运动补偿而执行运动补偿。
图26是说明本发明的实例解码方法的流程图。图23的技术可由视频解码器30的一或多个结构单元实施,包含运动补偿单元72。
在本发明的一个实例中,视频解码器30可进一步经配置以接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或MVI中的至少一者经编码且具有大小16x12或12x16(2600),将所述第二视频数据块分割为多个子块(2610),且以单向预测性预测解码所述多个子块中的每一者。
如上文所解释,本发明的技术包含当对视频数据块应用AMP、BVSP、视图间运动预测和/或MVI时的视频编码和解码技术。确切地说,本发明的技术通过引导对以AMP分割的PU的子块的译码技术而提供较准确译码。举例来说,当PU是使用BVSP经译码时获得以AMP分割的此PU的子块的单独视差运动向量可增加视图合成和运动预测的准确性,且因此增加译码效率。作为另一实例,当PU是使用视图间运动预测和/或MVI经译码时获得以AMP分割的此PU的子块的单独运动信息可增加运动预测的准确性,且因此增加译码效率。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同顺序执行、可添加、合并或全部省略(例如,实践所述技术并不需要所有的所描述动作或事件)。此外,在某些实例中,可(例如)通过多线程处理、中断处理或多个处理器同时而非顺序地执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,所述计算机可读存储媒体对应于有形媒体,例如,数据存储媒体或包含(例如)根据通信协议促进计算机程序从一位置传送至另一位置的任何媒体的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一个或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。并且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各者的组合也应该包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。另外,可以将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
描述了各种实例。这些和其它实例属于以下权利要求书的范围内。

Claims (30)

1.一种对视频数据进行解码的方法,所述方法包括:
接收对应于视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测BVSP经单向预测,且具有16x12、12x16、16x4或4x16的大小;
将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;
使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及
通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
2.根据权利要求1所述的方法,其中所述视频数据块是预测单元。
3.根据权利要求2所述的方法,其进一步包括:
接收指示所述预测单元是使用不对称运动分割经编码且指示所述预测单元是使用后向视图合成预测经单向预测的一或多个语法元素;以及
接收指向BVSP候选者的合并候选者索引。
4.根据权利要求1所述的方法,其中导出所述子块中的每一者的所述相应视差运动向量包括:
导出所述视频数据块的视差向量;
使用所述所导出的视差向量定位所述子块中的每一者的所述对应深度块;以及
将所述子块中的每一者的所述对应深度块的一个选定深度值转换为所述相应视差运动向量。
5.根据权利要求1所述的方法,其中所述视频数据块是第一视频数据块,所述方法进一步包括:
接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x4或4x16的大小;
将所述第二视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从一个相应参考块导出所述子块中的每一者的运动信息;以及
通过使用所述残余数据、所述所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而对所述第二视频数据块进行解码。
6.根据权利要求5所述的方法,其中执行运动补偿包括相对于所述一个参考图片列表中的图片执行单向运动补偿。
7.根据权利要求1所述的方法,其中所述视频数据块是第一视频数据块,所述方法进一步包括:
接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有大小16x12或12x16;
将所述第二视频数据块分割为多个子块;以及
以单向预测性预测对所述多个子块中的每一者进行解码。
8.一种对视频数据进行编码的方法,所述方法包括:
使用不对称运动分割产生视频数据块,其中所述视频数据块是使用后向视图合成预测BVSP经单向预测且具有16x12、12x16、16x4或4x16的大小;
将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;
使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及
通过使用所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行编码。
9.根据权利要求8所述的方法,其中所述视频数据块是预测单元。
10.根据权利要求9所述的方法,其进一步包括:
产生指示所述预测单元是使用不对称运动分割经编码且指示所述预测单元是使用后向视图合成预测经单向预测的一或多个语法元素;以及
产生指向BVSP候选者的合并候选者索引。
11.根据权利要求8所述的方法,其中导出所述子块中的每一者的所述相应视差运动向量包括:
导出所述视频数据块的视差向量;
使用所述所导出的视差向量定位所述子块中的每一者的所述对应深度块;以及
将所述子块中的每一者的所述对应深度块的一个选定深度值转换为所述相应视差运动向量。
12.根据权利要求8所述的方法,其中所述视频数据块是第一视频数据块,所述方法进一步包括:
使用不对称运动分割产生第二视频数据块,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x4或4x16的大小;
将所述第二视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从一个相应参考块导出所述子块中的每一者的运动信息;以及
通过使用所述所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而对所述第二视频数据块进行编码。
13.根据权利要求12所述的方法,其中执行运动补偿包括相对于所述一个参考图片列表中的图片执行单向运动补偿。
14.根据权利要求8所述的方法,其中所述视频数据块是第一视频数据块,所述方法进一步包括:
使用不对称运动分割产生第二视频数据块,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有大小16x12或12x16;
将所述第二视频数据块分割为多个子块;以及
以单向预测性预测对所述多个子块中的每一者进行编码。
15.一种经配置以对视频数据进行解码的设备,所述设备包括:
视频存储器,其经配置以存储对应于视频数据块的信息;以及
一或多个处理器,其经配置以:
接收对应于所述视频数据块的残余数据,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测BVSP经单向预测,且具有16x12、12x16、16x4或4x16的大小;
将所述视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量;
使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块;以及
通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码。
16.根据权利要求15所述的设备,其中所述视频数据块是预测单元。
17.根据权利要求16所述的设备,其中所述一或多个处理器进一步经配置以:
接收指示所述预测单元是使用不对称运动分割经编码且指示所述预测单元是使用后向视图合成预测经单向预测的一或多个语法元素;以及
接收指向BVSP候选者的合并候选者索引。
18.根据权利要求15所述的设备,其中所述一或多个处理器进一步经配置以:
导出所述视频数据块的视差向量;
使用所述所导出的视差向量定位所述子块中的每一者的所述对应深度块;以及
将所述子块中的每一者的所述对应深度块的一个选定深度值转换为所述相应视差运动向量。
19.根据权利要求15所述的设备,其中所述视频数据块是第一视频数据块,且其中所述一或多个处理器进一步经配置以:
接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x4或4x16的大小;
将所述第二视频数据块分割为子块,每一子块具有8x4或4x8的大小;
从一个相应参考块导出所述子块中的每一者的运动信息;以及
通过使用所述残余数据、所述所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而对所述第二视频数据块进行解码。
20.根据权利要求19所述的设备,其中所述一或多个处理器进一步经配置以相对于所述一个参考图片列表中的图片执行单向运动补偿。
21.根据权利要求15所述的设备,其中所述视频数据块是第一视频数据块,且其中所述一或多个处理器进一步经配置以:
接收对应于第二视频数据块的残余数据,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x12或12x16的大小;
将所述第二视频数据块分割为多个子块;以及
以单向预测性预测对所述多个子块中的每一者进行解码。
22.根据权利要求15所述的设备,其进一步包括:
显示器,其经配置以显示所述经解码视频数据块。
23.根据权利要求15所述的设备,其中所述视频存储器和所述一或多个处理器包括容纳于移动电话、平板计算机、膝上型计算机、桌上型计算机、机顶盒或电视中的一者内的视频解码器。
24.一种经配置以对视频数据进行解码的设备,所述设备包括:
用于接收对应于视频数据块的残余数据的装置,其中所述视频数据块是使用不对称运动分割经编码,是使用后向视图合成预测BVSP经单向预测,且具有16x12、12x16、16x4或4x16的大小;
用于将所述视频数据块分割为子块的装置,每一子块具有8x4或4x8的大小;
用于从对应于参考图片的深度图片中的对应深度块导出所述子块中的每一者的相应视差运动向量的装置;
用于使用所述相应导出的视差运动向量合成所述子块中的每一者的相应参考块的装置;以及
用于通过使用所述残余数据和所述经合成相应参考块对所述子块中的每一者执行运动补偿而对所述视频数据块进行解码的装置。
25.根据权利要求24所述的设备,其中所述视频数据块是预测单元。
26.根据权利要求25所述的设备,其进一步包括:
用于接收指示所述预测单元是使用不对称运动分割经编码且指示所述预测单元是使用后向视图合成预测经单向预测的一或多个语法元素的装置;以及
用于接收指向BVSP候选者的合并候选者索引的装置。
27.根据权利要求24所述的设备,其中所述用于导出所述子块中的每一者的所述相应视差运动向量的装置包括:
用于导出所述视频数据块的视差向量的装置;
用于使用所述所导出的视差向量定位所述子块中的每一者的所述对应深度块的装置;以及
用于将所述子块中的每一者的所述对应深度块的一个选定深度值转换为所述相应视差运动向量的装置。
28.根据权利要求24所述的设备,其中所述视频数据块是第一视频数据块,所述设备进一步包括:
用于接收对应于第二视频数据块的残余数据的装置,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x4或4x16的大小;
用于将所述第二视频数据块分割为子块的装置,每一子块具有8x4或4x8的大小;
用于从一个相应参考块导出所述子块中的每一者的运动信息的装置;以及
用于通过使用所述残余数据、所述所导出运动信息和一个参考图片列表对所述子块中的每一者执行运动补偿而对所述第二视频数据块进行解码的装置。
29.根据权利要求28所述的设备,其中所述用于执行运动补偿的装置包括用于相对于所述一个参考图片列表中的图片执行单向运动补偿的装置。
30.根据权利要求24所述的设备,其中所述视频数据块是第一视频数据块,所述设备进一步包括:
用于接收对应于第二视频数据块的残余数据的装置,其中所述第二视频数据块是使用视图间运动预测或运动向量继承中的至少一者经编码且具有16x12或12x16的大小;
用于将所述第二视频数据块分割为多个子块的装置;以及
用于以单向预测性预测对所述多个子块中的每一者进行解码的装置。
CN201480050337.1A 2013-09-13 2014-09-12 使用不对称运动分割的视频译码技术 Active CN105637870B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361877793P 2013-09-13 2013-09-13
US61/877,793 2013-09-13
US201361881383P 2013-09-23 2013-09-23
US61/881,383 2013-09-23
US14/483,983 US10244253B2 (en) 2013-09-13 2014-09-11 Video coding techniques using asymmetric motion partitioning
US14/483,983 2014-09-11
PCT/US2014/055456 WO2015038937A1 (en) 2013-09-13 2014-09-12 Video coding techniques using asymmetric motion partitioning

Publications (2)

Publication Number Publication Date
CN105637870A true CN105637870A (zh) 2016-06-01
CN105637870B CN105637870B (zh) 2018-11-20

Family

ID=51626619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480050337.1A Active CN105637870B (zh) 2013-09-13 2014-09-12 使用不对称运动分割的视频译码技术

Country Status (12)

Country Link
US (1) US10244253B2 (zh)
EP (1) EP3044961B1 (zh)
JP (1) JP6535673B2 (zh)
KR (1) KR102099494B1 (zh)
CN (1) CN105637870B (zh)
BR (1) BR112016007760B1 (zh)
CL (1) CL2016000576A1 (zh)
ES (1) ES2799323T3 (zh)
HK (1) HK1220060A1 (zh)
HU (1) HUE048759T2 (zh)
SG (2) SG11201600785VA (zh)
WO (1) WO2015038937A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109429064A (zh) * 2017-08-22 2019-03-05 华为技术有限公司 一种处理视频数据的方法和装置
CN110431845A (zh) * 2017-03-22 2019-11-08 高通股份有限公司 约束通过解码器侧运动向量推导导出的运动向量信息
CN111010580A (zh) * 2018-10-06 2020-04-14 北京字节跳动网络技术有限公司 基于运动信息的尺寸限制
CN111164974A (zh) * 2017-09-29 2020-05-15 韩国电子通信研究院 图像编码/解码方法和设备以及用于存储比特流的记录介质
CN112514394A (zh) * 2018-07-17 2021-03-16 松下电器(美国)知识产权公司 用于视频编码的系统和方法
CN113170188A (zh) * 2018-12-21 2021-07-23 夏普株式会社 在视频编码中用于执行帧间预测的系统和方法
US12010326B2 (en) 2017-09-29 2024-06-11 Lx Semicon Co., Ltd. Image encoding/decoding method and apparatus, and recording medium for storing bitstream

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231342B (zh) * 2010-04-13 2019-05-31 三星电子株式会社 执行去块滤波的对视频进行解码的方法
CN110650336B (zh) * 2012-01-18 2022-11-29 韩国电子通信研究院 视频解码装置、视频编码装置和传输比特流的方法
US9300977B2 (en) * 2013-10-02 2016-03-29 Amlogic Co., Ltd. Methods for encoding motion vectors
US9906813B2 (en) * 2013-10-08 2018-02-27 Hfi Innovation Inc. Method of view synthesis prediction in 3D video coding
WO2015056719A1 (ja) * 2013-10-16 2015-04-23 シャープ株式会社 画像復号装置、画像符号化装置
WO2015062002A1 (en) * 2013-10-31 2015-05-07 Mediatek Singapore Pte. Ltd. Methods for sub-pu level prediction
WO2015100710A1 (en) * 2014-01-02 2015-07-09 Mediatek Singapore Pte. Ltd. Existence of inter-view reference picture and availability of 3dvc coding tools
US20160048701A1 (en) * 2014-08-18 2016-02-18 Spatial Digital Systems, Inc. Enveloping for remote Digital Camera
WO2016179303A1 (en) * 2015-05-04 2016-11-10 Kamama, Inc. System and method of vehicle sensor management
US10271064B2 (en) * 2015-06-11 2019-04-23 Qualcomm Incorporated Sub-prediction unit motion vector prediction using spatial and/or temporal motion information
US10009620B2 (en) * 2015-06-22 2018-06-26 Cisco Technology, Inc. Combined coding of split information and other block-level parameters for video coding/decoding
US10560718B2 (en) * 2016-05-13 2020-02-11 Qualcomm Incorporated Merge candidates for motion vector prediction for video coding
CN109417629B (zh) * 2016-07-12 2023-07-14 韩国电子通信研究院 图像编码/解码方法以及用于该方法的记录介质
CN109983776B (zh) * 2016-11-18 2023-09-29 株式会社Kt 视频信号处理方法和设备
US11284076B2 (en) 2017-03-22 2022-03-22 Electronics And Telecommunications Research Institute Block form-based prediction method and device
CN109327699B (zh) * 2017-07-31 2021-07-16 华为技术有限公司 一种图像的处理方法、终端和服务器
US10785494B2 (en) * 2017-10-11 2020-09-22 Qualcomm Incorporated Low-complexity design for FRUC
WO2019234578A1 (en) 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Asymmetric weighted bi-predictive merges
WO2019245841A1 (en) * 2018-06-18 2019-12-26 Interdigital Vc Holdings, Inc. Method and apparatus for video encoding and decoding based on asymmetric binary partitioning of image blocks
RU2757209C1 (ru) 2018-08-29 2021-10-12 Бейджинг Дацзя Интернет Информейшн Текнолоджи Ко., Лтд. Способы и устройства для кодирования видео с использованием вектора движения временного предсказания на основе субблоков
WO2020084476A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Sub-block based prediction
WO2020084553A1 (en) 2018-10-24 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Motion candidate derivation based on multiple information in sub-block motion vector prediction
EP3847814A4 (en) * 2018-11-06 2021-07-14 Beijing Bytedance Network Technology Co. Ltd. POSITION DEPENDENT STORAGE, MOVEMENT INFORMATION
CN117459722A (zh) 2018-11-12 2024-01-26 北京字节跳动网络技术有限公司 组合帧间-帧内预测的简化
EP3861742A4 (en) 2018-11-20 2022-04-13 Beijing Bytedance Network Technology Co., Ltd. DIFFERENCE CALCULATION BASED ON SPATIAL POSITION
WO2020103870A1 (en) 2018-11-20 2020-05-28 Beijing Bytedance Network Technology Co., Ltd. Inter prediction with refinement in video processing
KR102660160B1 (ko) 2018-11-22 2024-04-24 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 서브 블록 기반 인터 예측을 위한 조정 방법
US20220086475A1 (en) * 2019-01-09 2022-03-17 Lg Electronics Inc. Method and device for signaling whether tmvp candidate is available
US11140406B2 (en) * 2019-02-20 2021-10-05 Qualcomm Incorporated Signalling for merge mode with motion vector differences in video coding
WO2020177755A1 (en) 2019-03-06 2020-09-10 Beijing Bytedance Network Technology Co., Ltd. Usage of converted uni-prediction candidate
US10742972B1 (en) * 2019-03-08 2020-08-11 Tencent America LLC Merge list construction in triangular prediction
EP3922014A4 (en) 2019-04-02 2022-04-06 Beijing Bytedance Network Technology Co., Ltd. DECODER SIDE MOTION VECTOR BYPASS
CN114208184A (zh) 2019-08-13 2022-03-18 北京字节跳动网络技术有限公司 基于子块的帧间预测中的运动精度
CN114424553A (zh) 2019-09-22 2022-04-29 北京字节跳动网络技术有限公司 基于子块的帧间预测的缩放方法
US11375231B2 (en) * 2020-01-14 2022-06-28 Tencent America LLC Method and apparatus for video coding

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130023005A1 (en) * 2011-07-21 2013-01-24 Hao Chen Coupling of Liquid Chromatography with Mass Spectrometry by Liquid Sample Desorption Electrospray Ionization (DESI)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
EP2742690B1 (en) * 2011-08-08 2016-07-27 Google Technology Holdings LLC Residual tree structure of transform unit partitioning
KR102647848B1 (ko) * 2012-02-04 2024-03-15 엘지전자 주식회사 비디오 인코딩 방법, 비디오 디코딩 방법 및 이를 이용하는 장치
JP6787667B2 (ja) * 2012-09-21 2020-11-18 ノキア テクノロジーズ オサケユイチア ビデオコーディングのための方法と装置
US9716899B2 (en) 2013-06-27 2017-07-25 Qualcomm Incorporated Depth oriented inter-view motion vector prediction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130023005A1 (en) * 2011-07-21 2013-01-24 Hao Chen Coupling of Liquid Chromatography with Mass Spectrometry by Liquid Sample Desorption Electrospray Ionization (DESI)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GERHARD TECH等: "《3D-HEVC Test Model 4》", 《MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11》 *
SHINYA SHIMIZU等: "《3D-CE1.h: Adaptive block partitioning for VSP》", 《JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSIONS OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110431845A (zh) * 2017-03-22 2019-11-08 高通股份有限公司 约束通过解码器侧运动向量推导导出的运动向量信息
CN110431845B (zh) * 2017-03-22 2022-11-25 高通股份有限公司 约束通过解码器侧运动向量推导导出的运动向量信息
CN109429064A (zh) * 2017-08-22 2019-03-05 华为技术有限公司 一种处理视频数据的方法和装置
CN109429064B (zh) * 2017-08-22 2021-03-30 华为技术有限公司 一种视频数据的编解码方法、装置和介质
CN111164974A (zh) * 2017-09-29 2020-05-15 韩国电子通信研究院 图像编码/解码方法和设备以及用于存储比特流的记录介质
CN111164974B (zh) * 2017-09-29 2024-04-16 Lx半导体科技有限公司 图像编码/解码方法和设备以及非暂时性存储介质
US12010326B2 (en) 2017-09-29 2024-06-11 Lx Semicon Co., Ltd. Image encoding/decoding method and apparatus, and recording medium for storing bitstream
CN112514394A (zh) * 2018-07-17 2021-03-16 松下电器(美国)知识产权公司 用于视频编码的系统和方法
CN111010580A (zh) * 2018-10-06 2020-04-14 北京字节跳动网络技术有限公司 基于运动信息的尺寸限制
CN111010580B (zh) * 2018-10-06 2023-08-18 北京字节跳动网络技术有限公司 基于运动信息的尺寸限制
CN113170188A (zh) * 2018-12-21 2021-07-23 夏普株式会社 在视频编码中用于执行帧间预测的系统和方法

Also Published As

Publication number Publication date
CN105637870B (zh) 2018-11-20
BR112016007760B1 (pt) 2023-05-09
EP3044961A1 (en) 2016-07-20
KR102099494B1 (ko) 2020-04-09
US20150078450A1 (en) 2015-03-19
SG11201600785VA (en) 2016-03-30
JP2016530848A (ja) 2016-09-29
EP3044961B1 (en) 2020-03-18
JP6535673B2 (ja) 2019-06-26
CL2016000576A1 (es) 2016-11-18
KR20160055229A (ko) 2016-05-17
HK1220060A1 (zh) 2017-04-21
US10244253B2 (en) 2019-03-26
ES2799323T3 (es) 2020-12-16
WO2015038937A1 (en) 2015-03-19
HUE048759T2 (hu) 2020-08-28
SG10201802026TA (en) 2018-04-27
BR112016007760A2 (pt) 2018-07-10

Similar Documents

Publication Publication Date Title
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN105556969B (zh) 视频译码中使用视差向量的块识别
CN105874799B (zh) 用于3d视频译码的基于块的高级残差预测
CN105122812B (zh) 用于三维(3d)视频译码的高级合并模式
CN106471806B (zh) 3d-hevc中的简化移位合并候选者及合并列表导出
CN104904218B (zh) 视差矢量推导
JP6434012B2 (ja) 3d−hevcのための簡素化された高度動き予測
CN105144715B (zh) 后向视图合成预测
CN104685883B (zh) 用于3d视频的经视图间预测运动向量
CN104584558B (zh) 用于3d视频的视图间预测的运动向量
CN104904217B (zh) 用于视频译码扩展的时间运动向量预测
CN105850135B (zh) 用于视频译码的视差向量和/或高级残差预测
CN105580364A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN105580365A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN105009586A (zh) 多视图或3维视频译码中的视图间残余预测
CN105794209B (zh) 用于译码深度块的方法和装置
CN105379288A (zh) 处理对视频译码的照明补偿
CN104769949A (zh) 用于视差向量导出的图片的选择
CN104322070A (zh) 用于高效率视频译码的高级别语法扩展
CN105359530A (zh) 面向深度的视图间运动向量预测
CN104662909A (zh) 用于3d视频的视图间运动预测
CN106664422A (zh) 用于视频译码中的高级残余预测的滤波器
CN105052145A (zh) 剖析三维视频译码中的语法元素
CN105379282A (zh) 用于纹理译码的更精确先进残余预测(arp)
CN105027571A (zh) 三维视频译码中导出的视差向量

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1220060

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant