CN105874799B - 用于3d视频译码的基于块的高级残差预测 - Google Patents

用于3d视频译码的基于块的高级残差预测 Download PDF

Info

Publication number
CN105874799B
CN105874799B CN201580003706.6A CN201580003706A CN105874799B CN 105874799 B CN105874799 B CN 105874799B CN 201580003706 A CN201580003706 A CN 201580003706A CN 105874799 B CN105874799 B CN 105874799B
Authority
CN
China
Prior art keywords
block
view
prediction
reference block
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580003706.6A
Other languages
English (en)
Other versions
CN105874799A (zh
Inventor
张莉
陈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105874799A publication Critical patent/CN105874799A/zh
Application granted granted Critical
Publication of CN105874799B publication Critical patent/CN105874799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

用于视频译码中的高级残差预测ARP的技术可包含:接收第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码;确定所述第一经编码视频数据块的第一预测方向的时间运动信息;及使用针对所述第一预测方向所确定的所述时间运动信息识别不同于所述第一预测方向的第二预测方向的参考块,其中所述参考块在第二存取单元中。

Description

用于3D视频译码的基于块的高级残差预测
本申请案主张2014年1月11日申请的美国临时申请第61/926,290号的权益,其全部内容以全文引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频串流装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)界定的标准、目前正在开发的高效率视频译码(HEVC)标准及此类标准的扩展中所描述的视频译码技术。视频装置可通过实施此些视频译码技术而更有效地传输、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。使用关于相同图片中的相邻块中的参考样本的空间预测编码图片的经帧内译码(I)切片中的视频块。图片的经帧间编码(P或B)切片中的视频块可使用相对于相同图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测导致待译码块的预测块。残差数据表示待译码原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量和指示经译码块与预测块之间的差的残差数据编码的。经帧内译码块是根据帧内译码模式和残差数据来编码。为了进一步压缩,可将残差数据从像素域变换到变换域,从而产生残差变换系数,接着可以对残差变换系数进行量化。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现更多压缩。
发明内容
一般来说,本发明涉及多视图视频译码,其中经译码的视频数据包含两个或更多个视图。具体来说,本发明描述与高级残差预测(ARP)相关的各种技术。本发明的技术可减少视频译码器(例如,视频编码器及/或视频解码器)存取运动信息以便执行ARP或任何基础运动补偿过程(即,使用所指派的运动向量以潜在内插操作产生预测块)的次数。以此方式,由于执行对运动信息的更少的存储器存取,所以可增加视频译码(即,编码或解码)的速度。
在本发明的一个实例中,一种用于解码视频数据的方法包括:接收第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测;确定用于所述第一经编码视频数据块的所述第一预测方向的时间运动信息;确定用于所述第一经编码视频数据块的所述第二预测方向的视差运动信息;使用所述第一预测方向的所述所确定的时间运动信息来识别不同于所述第一预测方向的所述第二预测方向的参考块,其中所述参考块在不同于所述第一存取单元的存取单元中;及使用所述第二预测方向的所述所识别的参考块对所述第一经编码视频数据块执行高级残差预测。
在本发明的另一实例中,一种经配置以解码视频数据的设备包括:视频数据存储器,其经配置以存储第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测;及一或多个处理器,其与所述视频数据存储器通信且经配置以:确定用于所述第一经编码视频数据块的所述第一预测方向的时间运动信息;确定用于所述第一经编码视频数据块的所述第二预测方向的视差运动信息;使用所述第一预测方向的所述所确定的时间运动信息来识别不同于所述第一预测方向的所述第二预测方向的参考块,其中所述参考块在不同于所述第一存取单元的存取单元中;及使用所述第二预测方向的所述所识别的参考块对所述第一经编码视频数据块执行高级残差预测。
在本发明的另一实例中,一种经配置以解码视频数据的设备包括:用于接收第一视图的第一存取单元中的第一经编码视频数据块的装置,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测;用于确定用于所述第一经编码视频数据块的所述第一预测方向的时间运动信息的装置;用于确定用于所述第一经编码视频数据块的所述第二预测方向的视差运动信息的装置;用于使用所述第一预测方向的所述所确定的时间运动信息来识别不同于所述第一预测方向的所述第二预测方向的参考块的装置,其中所述参考块在不同于所述第一存取单元的存取单元中;及用于使用所述第二预测方向的所述所识别的参考块对所述第一经编码视频数据块执行高级残差预测的装置。
在另一实例中,本发明描述一种存储指令的计算机可读存储媒体,所述指令在被执行时致使经配置以解码视频数据的装置的一或多个处理器:接收第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测;确定用于所述第一经编码视频数据块的所述第一预测方向的时间运动信息;确定用于所述第一经编码视频数据块的所述第二预测方向的视差运动信息;使用所述第一预测方向的所述所确定的时间运动信息来识别不同于所述第一预测方向的所述第二预测方向的参考块,其中所述参考块在不同于所述第一存取单元的存取单元中;及使用所述第二预测方向的所述所识别的参考块对所述第一经编码视频数据块执行高级残差预测。
在附图和下文描述中阐述本发明的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书显而易见。
附图说明
图1为说明可利用本发明中所描述的技术的实例视频编码和解码系统的框图。
图2为说明实例多视图编码或解码次序的图形图。
图3为说明用于多视图视频译码的实例时间和视图间预测图案的概念图。
图4是说明用于3D视频的纹理和深度值的概念图。
图5为说明用于预测当前块的运动信息的相邻块与当前块的实例关系的概念图。
图6为说明用于预测当前块的运动信息的经视图间预测的运动向量候选者和视图间视差运动向量候选者的导出的实例的概念图。
图7为说明相对于当前视频块的实例空间相邻块的概念图,可使用基于相邻块的视差向量(NBDV)导出从所述实例空间相邻块导出当前视频块的视差向量。
图8是说明子预测单元(PU)视图间运动预测的概念图。
图9为说明用于经时间预测视频块的时间高级残差预测(ARP)的实例预测结构的概念图。
图10为说明用于时间ARP的实例双向预测结构的概念图。
图11为根据本发明中描述的技术的用于经视图间预测视频块的视图间ARP的实例预测结构的概念图。
图12是说明使用视图间预测用于一个参考图片列表且使用时间预测用于另一参考图片列表的双向ARP的实例预测结构的概念图。
图13是说明根据本发明的技术的使用视图间预测用于一个参考图片列表且使用时间预测用于另一参考图片列表的双向ARP的实例预测结构的概念图。
图14是说明基于块的时间ARP的概念图。
图15是说明基于块的视图间ARP的概念图。
图16是说明使用子PU合并候选者的基于块的ARP的概念图。
图17是说明可实施本发明中描述的技术的实例视频编码器的框图。
图18是说明可利用本发明中所描述的技术的实例视频解码器的框图。
图19为说明根据本发明中描述的技术的用于编码视频块的实例ARP方法的流程图。
图20为说明根据本发明中描述的技术的用于解码视频块的实例ARP方法的流程图。
具体实施方式
一般来说,本发明涉及多视图视频译码,其中经译码视频数据包含两个或两个以上视图。在一些实例中,多视图视频译码包含多视图加深度视频译码过程。在一些实例中,多视图译码可包含三维(3D)视频的译码,且可被称作3D视频译码。在本发明的各种实例中,描述用于多视图及/或3D视频译码序列的非基础视图中的高级残差预测(APR)的技术。本发明的技术可减少视频译码器(例如,视频编码器及/或视频解码器)例如从存储器存取运动信息以便执行ARP或任何基础帧间预测(例如,时间及/或视图间帧间预测及双向预测)的次数。以此方式,由于执行对运动信息的更少的存储器存取,所以可增加视频译码(即,编码或解码)的速度。
例如,本发明描述用于解码视频数据的方法,其包括:接收第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向视图间预测来编码;确定第一经编码视频数据块的第一预测方向的时间运动信息;及使用针对第一预测方向所确定的时间运动信息来识别不同于第一预测方向的第二预测方向的参考块,其中所述参考块在第二存取单元中。
图1为说明可利用本发明的技术的实例视频编码及解码系统10的框图。如图1中所示,系统10包含源装置12,所述源装置12提供经编码视频数据以在稍后时间由目的地装置14解码。具体来说,源装置12可经由计算机可读媒体16将视频数据提供给目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下,源装置12和目的地装置14可能经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时将经编码视频数据直接传输到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线路。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它装备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,可以通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码视频数据的合适的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取经存储的视频数据。文件服务器可以是能够存储经编码视频数据并且将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线通道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器,等等),或适合于存取存储于文件服务器上的经编码视频数据的以上两者的组合。经编码视频数据从存储装置的传输可能是流式传输、下载传输或两者的组合。
本发明的技术不必限于无线应用或环境。所述技术可以应用于支持多种多媒体应用中的任一者的视频译码,例如空中协议电视广播、有线电视传输、卫星电视传输、因特网流式视频传输(例如,动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、深度估计单元19、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30、基于深度图像的再现(DIBR)单元31和显示装置32。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可以与外部显示装置介接,而非包含集成显示装置。
图1的所说明的系统10只是一个实例。本发明的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编码解码器”)来执行。此外,本发明的技术还可通过视频预处理器来执行。源装置12及目的地装置14仅为源装置12在其中产生经译码视频数据以供传输到目的地装置14的此些译码装置的实例。在一些实例中,装置12、14可以大体上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、所存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18是摄像机,则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般来说可适用于视频译码,且可应用于无线及/或有线应用。在每一种情况下,可由视频编码器20编码所俘获、经预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
视频源18可将视频数据的一或多个视图提供到视频编码器20。举例来说,视频源18可对应于相机阵列,所述相机各自具有相对于所拍摄的特定场景的唯一水平位置。或者,视频源18可例如使用计算机图形从不同水平相机视角产生视频数据。深度估计单元19可经配置以确定对应于纹理图像中的像素的深度像素的值。举例来说,深度估计单元19可表示声音导航与测距(SONAR)单元、光检测与测距(LIDAR)单元或能够在记录场景的视频数据时大体上同时地直接确定深度值的其它单元。
另外或替代地,深度估计单元19可经配置以通过比较在大体上相同时间从不同水平相机视角俘获的两个或更多个图像来间接计算深度值。通过计算图像中的大体上类似像素值之间的水平视差,深度估计单元19可近似估计场景中的各种对象的深度。在一些实例中,深度估计单元19可在功能上与视频源18集成。举例来说,在视频源18产生计算机图形图像时,深度估计单元19可例如使用用以再现纹理图像的像素及对象的z坐标提供用于图形对象的实际深度图。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络传输,或存储媒体(也就是说,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可例如经由网络传输从源装置12接收经编码视频数据且将经编码视频数据提供给目的地装置14。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码视频数据并且生产容纳经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20界定的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块及其它经译码单元(例如,GOP)的特性及/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。在一些实例中,显示装置32可包括能够同时或大体上同时显示两个或更多个视图(例如)以向观看者产生3D视觉效果的装置。
目的地装置14的DIBR单元31可使用从视频解码器30接收的经解码视图的纹理及深度信息再现合成视图。举例来说,DIBR单元31可依据对应深度图中的像素的值确定纹理图像的像素数据的水平视差。DIBR单元31接着可通过使纹理图像中的像素向左或向右偏移所确定的水平视差而产生合成图像。以此方式,显示装置32可以任何组合显示可对应于经解码视图及/或合成视图的一或多个视图。根据本发明的技术,视频解码器30可将深度范围及相机参数的原始及经更新的精度值提供给DIBR单元31,DIBR单元31可使用所述深度范围及相机参数恰当地合成视图。
尽管在图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器及解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件和软件以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,则MUX-DEMUX单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
在本发明的一个实例中,视频解码器30可经配置以接收第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测。视频解码器30可进一步经配置以确定第一经编码视频数据块的第一预测方向的时间运动信息且确定第一经编码视频数据块的第二预测方向的视差运动信息。视频解码器30可进一步经配置以使用所述第一预测方向的所述所确定的时间运动信息而识别不同于所述第一预测方向的第二预测方向的参考块,其中所述参考块在不同于第一存取单元的存取单元中,且使用第二预测方向的所述所识别的参考块对第一经编码视频数据块执行高级残差预测。以此方式,再使用第一预测方向的时间运动信息以用于第二预测方向。因此,需要作出对时间运动信息的更少的存储器存取,这是因为不需要存取由对应于第二预测方向的第一经编码块的运动向量识别的块的时间运动信息,因此允许更快速的视频解码。另外,在执行ARP时使用的参考块的总数可从6减小到5,其导致在使用乘法及加法运算的内插方面较小的计算复杂度。同样,在执行双向帧间预测时,视频编码器20可经配置以在编码第二预测方向时再使用用于第一预测方向的时间运动信息。
视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作,并且可以符合HEVC测试模型(HM)。替代地,视频编码器20及视频解码器30可根据例如替代地被称作MPEG-4第10部分高级视频译码(AVC)的ITU-T H.264标准等其它专属或工业标准或此类标准的扩展(例如,ITU-T H.264/AVC的MVC扩展)操作。MVC的最新联合草案描述于2010年3月的“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisual services)”(ITU-T推荐H.264)中。确切地说,视频编码器20及视频解码器30可根据3D和/或多视图译码标准操作,包含HEVC标准的3D扩展(例如,3D-HEVC)。
被称作“HEVC工作草案10”或“WD10”的HEVC标准的一个草案在布洛斯等人的文献JCTVC-L1003v34“高效率视频译码(HEVC)文本规范草案10(用于FDIS和最后呼叫)”(ITU-TSG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),瑞士日内瓦第12次会议,2013年1月14-23日)中描述,截至2015年1月5日,其可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip下载。
被称作“WD10修订本”的HEVC标准的另一草案描述于布洛斯等人的“编辑者提出的对HEVC版本1校正(Editors'proposed corrections to HEVC version 1)”(ITU-TSG16WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),韩国仁川第13次会议,2013年4月)中,所述草案截至2015年1月5日可从http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip获得。对HEVC的多视图扩展(即,MV-HEVC)也正由JCT-3V开发。
当前,VCEG和MPEG的3D视频译码联合合作小组(JCT-3C)正在开发基于HEVC的3DV标准,其标准化工作的部分包含基于HEVC的多视图视频编解码器(MV-HEVC)的标准化和用于基于HEVC的3D视频译码(3D-HEVC)的另一部分。对于MV-HEVC,应保证其中仅存在高级语法(HLS)改变,以使得HEVC中的译码单元/预测单元层级中的模块不需要重新设计,且可完全再用于MV-HEVC。对于3D-HEVC,可包含并支持用于纹理和深度视图两者的新译码工具,包含译码单元/预测单元层级中的工具。
用于3D-HEVC的参考软件3D-HTM的一个版本可从以下链接下载:[3D-HTM版本9.01r1]:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-9.0r1/。在张力(Li Zhang)、格哈德·泰克(Gerhard Tech)、克日什托夫·韦格纳(KrzysztofWegner)、叶世勋(Sehoon Yea)的“3D-HEVC及MV-HEVC的测试模型6”(JCT3V-F1005,ITU-TSG 16 WP3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第6次会议,瑞士日内瓦,2013年11月(JCT3V-F1005))中描述参考软件描述的一个版本。JCT3V-F1005可从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1636下载。
在格哈德·泰克(Gerhard Tech)、克日什托夫·韦格纳(Krzysztof Wegner)、陈颖(Ying Chen)、叶世勋(Sehoon Yea)的“3D-HEVC草案文本2(3D-HEVC Draft Text2)”(JCT3V-F1001,ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第6次会议,瑞士日内瓦,2013年11月(JCT3V-F1-001))中描述3D-HEVC的一个工作草案。JCT3V-F1001可从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1361得到。最新软件描述(文档编号:E1005)可从http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1360得到。
用于3D-HEVC的软件3D-HTM的更近的版本可从以下链接下载:[3D-HTM版本12.0]:https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-12.0/。3D-HEVC的对应工作草案(文档编号:I1001)可从http://phenix.int-evry.fr/jct3v/doc_end_user/current_document.php?id=2299得到。最新软件描述(文档编号:I1005)可从http://phenix.int-evry.fr/jct3v/doc_end_user/current_document.php?id=2301得到。
最初,将论述HEVC的实例译码技术。HEVC标准化工作是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据例如ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说,虽然H.264提供九种帧内预测编码模式,但HM可提供多达三十三种角度帧内预测编码模式加DC及平面模式。
在HEVC和其它视频译码规范中,视频序列通常包含一系列图片。图片也可被称作“帧”。图片可以包含三个样本阵列,标示为SL、SCb以及SCr。SL是明度样本的二维阵列(即,块)。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文中还可以被称为“色度”样本。在其它情况下,图片可为单色的且可仅包含明度样本阵列。
为了产生图片的经编码的表示,视频编码器20可以产生一组译码树单元(CTU)。CTU中的每一者可包括明度样本的译码树块、色度样本的两个对应的译码树块,以及用以对译码树块的样本进行译码的语法结构。在单色图片或具有三个单独色彩平面的图片中,CTU可包括单个译码树块及用于对所述译码树块的样本进行译码的语法结构。译码树块可为样本的N×N块。CTU也可以被称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可以广泛地类似于例如H.264/AVC等其它标准的宏块。然而,CTU未必限于特定大小,并且可以包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续排序的整数数目的CTU。
为了产生经译码CTU,视频编码器20可在CTU的译码树块上以递归方式执行四叉树分割,以将译码树块划分为译码块,因此命名为“译码树单元”。译码块是样本的N×N块。译码单元(CU)可包括具有明度样本阵列、Cb样本阵列和Cr样本阵列的图片的明度样本的译码块以及色度样本的两个对应的译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独色彩平面的图片中,CU可包括单个译码块和用以对译码块的样本进行译码的语法结构。
视频编码器20可将CU的译码块分割为一或多个预测块。预测块是对其应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可包括明度样本的预测块、色度样本的两个对应预测块和用以预测预测块的语法结构。在单色图片或具有三个单独色彩平面的图片中,PU可包括单个预测块和用以预测预测块的语法结构。视频编码器20可以产生用于CU的每个PU的明度预测块、Cb预测块以及Cr预测块的预测性明度块、Cb块以及Cr块。
视频编码器20可使用帧内预测或帧间预测来产生PU的预测块。如果视频编码器20使用帧内预测产生PU的预测块,则视频编码器20可以基于与PU相关联的图片的经解码的样本来产生PU的预测块。在HEVC的一些版本中,对于每一PU的明度分量,以33种角度预测模式(从2到34编索引)、DC模式(以1编索引)和平面模式(以0编索引)利用帧内预测方法。
如果视频编码器20使用帧间预测产生PU的预测块,则视频编码器20可基于除与PU相关的图片以外的一或多个图片的经解码样本产生PU的预测块。帧间预测可为单向帧间预测(即,单向预测或单向预测性预测)或双向帧间预测(即,双向预测或双向预测性预测)。为了执行单向预测或双向预测,视频编码器20可产生当前切片的第一参考图片列表(RefPicList0)及第二参考图片列表(RefPicList1)。参考图片列表中的每一者可包含一或多个参考图片。当使用单向预测时,视频编码器20可以搜索RefPicList0以及RefPicList1中的任一者或两者中的参考图片,以确定参考图片内的参考位置。此外,当使用单向预测时,视频编码器20可以至少部分基于对应于参考位置的样本而产生用于PU的预测样本块。此外,在使用单向预测时,视频编码器20可产生指示PU的预测块与参考位置之间的空间移位的单一运动向量。为了指示PU的预测块与参考位置之间的空间移位,运动向量可以包含指定PU的预测块与参考位置之间的水平移位的水平分量并且可以包含指定PU的预测块与参考位置之间的垂直移位的垂直分量。
在使用双向预测来编码PU时,视频编码器20可确定RefPicList0中的参考图片中的第一参考位置及RefPicList1中的参考图片中的第二参考位置。视频编码器20接着可至少部分基于对应于第一及第二参考位置的样本产生PU的预测块。此外,当使用双向预测对PU进行编码时,视频编码器20可以产生指示PU的样本块与第一参考位置之间的空间移位的第一运动向量,以及指示PU的预测块与第二参考位置之间的空间移位的第二运动向量。
通常,B图片的第一或第二参考图片列表(例如,RefPicList0或RefPicList1)的参考图片列表建构包含两个步骤:参考图片列表初始化和参考图片列表重新排序(修改)。参考图片列表初始化是显式机制,其基于POC(图片次序计数,与图片的显示次序对准)次序值将参考图片存储器(也被称作经解码图片缓冲器)中的参考图片放入列表中。参考图片列表重新排序机制可将在参考图片列表初始化期间放置在列表中的图片的位置修改为任何新位置,或即使在图片不属于初始化列表的情况下也将参考图片存储器中的任何参考图片放置在任何位置。可将参考图片列表重新排序(修改)后的一些图片放置在列表中的更进一步的位置中。然而,如果图片的位置超过列表的有效参考图片的数目,则不将所述图片视为最终参考图片列表的条目。可在每一列表的切片标头中发信号通知有效参考图片的数目。
在建构参考图片列表(即RefPicList0和RefPicList1,如果可用)之后,可使用到参考图片列表的参考索引来识别参考图片列表中包含的任何参考图片。
在视频编码器20产生CU的一或多个PU的预测性明度、Cb及Cr块之后,视频编码器20可产生CU的明度残差块。CU的明度残差块中的每个样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中对应的样本之间的差异。另外,视频编码器20可以产生CU的Cb残差块。CU的Cb残差块中的每一样本可以指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中对应的样本之间的差异。视频编码器20还可产生CU的Cr残差块。CU的Cr残差块中的每个样本可以指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中对应的样本之间的差异。
此外,视频编码器20可使用四叉树分割将CU的明度、Cb及Cr残差块分解成一或多个明度、Cb及Cr变换块。变换块是对其应用相同变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块及用以对变换块样本进行变换的语法结构。因此,CU的每个TU可以与明度变换块、Cb变换块以及Cr变换块相关联。与TU相关联的明度变换块可为CU的明度残差块的子块。Cb变换块可为CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图片或具有三个单独色彩平面的图片中,TU可包括单个变换块和用以对变换块的样本进行变换的语法结构。
视频编码器20可将一或多个变换应用到TU的明度变换块以产生TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用于TU的Cb变换块以产生TU的Cb系数块。视频编码器20可将一或多个变换应用至TU的Cr变换块以产生TU的Cr系数块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器20可以量化系数块。量化总体上是指对变换系数进行量化以可能减少用以表示变换系数的数据的量从而提供进一步压缩的过程。在视频编码器20量化系数块之后,视频编码器20可以对指示经量化变换系数的语法元素进行熵编码。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。
视频编码器20可输出包含形成经译码图片及相关联数据的表示的位序列的位流。位流可包括一连串网络抽象层(NAL)单元。NAL单元是含有NAL单元中的数据类型的指示和含有所述数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者包含NAL单元标头且囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。由NAL单元的NAL单元标头指定的所述NAL单元类型代码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封用于图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封用于经译码切片的RBSP,第三类型的NAL单元可囊封用于SEI的RBSP等等。封装视频译码数据的RBSP(与参数集及SEI消息的RBSP相对)的NAL单元可被称为视频编码层(VCL)NAL单元。
视频解码器30可以接收由视频编码器20产生的位流。另外,视频解码器30可以解析位流以获得来自位流的语法元素。视频解码器30可至少部分基于从位流获得的语法元素重构构视频数据的图片。用以重构视频数据的过程大体上可以与由视频编码器20执行的过程互逆。举例来说,视频解码器30可使用PU的运动向量来确定当前CU的PU的预测块。另外,视频解码器30可反量化与当前CU的TU相关联的系数块。视频解码器30可以对系数块执行反变换以重构与当前CU的TU相关联的变换块。通过将用于当前CU的PU的预测块的样本添加到当前CU的TU的变换块的对应的样本,视频解码器30可以重构当前CU的译码块。通过重构用于图片的每一CU的译码块,视频解码器30可重构图片。
在一些实例中,视频编码器20可使用合并模式或高级运动向量预测(AMVP)模式发信号通知PU的运动信息。换句话说,在HEVC中,存在预测运动参数的两个模式,一者为合并模式及另一者为AMVP。运动预测可包括基于一或多个其它视频单元的运动信息的视频单元(例如,PU)的运动信息的确定。PU的运动信息可以包含PU的运动向量以及PU的参考索引。
当视频编码器20使用合并模式发信号通知当前PU的运动信息时,视频编码器20产生合并候选者列表。换句话说,视频编码器20可执行运动向量预测符清单建构过程。合并候选者列表包含指示在空间上或在时间上相邻于当前PU的PU的运动信息的合并候选者的集合。即,在合并模式中,建构运动参数(例如,参考索引、运动向量等)的候选者列表,其中候选者可以来自空间和时间相邻块。在一些实例中,候选者还可包含人工产生的候选者。
此外,在合并模式中,视频编码器20可从合并候选者列表选择合并候选者且可使用由所选合并候选者指示的运动信息作为当前PU的运动信息。视频编码器20可发信号通知所选合并候选者的合并候选者列表中的位置。举例来说,视频编码器20可通过将索引发射到候选者列表中而发信号通知所选择的运动向量参数。视频解码器30可从位流获得进入候选者列表的索引(即,候选者列表索引)。另外,视频解码器30可产生相同合并候选者列表,且可基于所选合并候选者的位置的指示确定所选合并候选者。接着,视频解码器30可以使用选定的合并候选者的运动信息来产生当前PU的预测块。也就是说,视频解码器30可至少部分地基于候选者列表索引确定候选者列表中的所选候选者,其中所选候选者指定当前PU的运动向量。以此方式,在解码器侧处,一旦索引被解码,索引所指向的对应块的所有运动参数便可由当前PU继承。
跳过模式类似于合并模式。在跳过模式中,视频编码器20及视频解码器30以视频编码器20及视频解码器30在合并模式中使用合并候选者列表的相同方式来产生及使用合并候选者列表。然而,在视频编码器20使用跳过模式发信号通知当前PU的运动信息时,视频编码器20不发信号通知当前PU的任何残差数据。因此,视频解码器30可在不使用残差数据的情况下基于由合并候选者列表中的选定候选者的运动信息指示的参考块而确定PU的预测块。
AMVP模式类似于合并模式,类似之处在于视频编码器20可产生候选者列表并且可从候选者列表选择候选者。然而,当视频编码器20使用AMVP模式发信号通知当前PU的RefPicListX运动信息时,视频编码器20可除了发信号通知当前PU的RefPicListX旗标之外还发信号通知当前PU的RefPicListX运动向量差(MVD)及当前PU的RefPicListX参考索引。当前PU的RefPicListX MVP旗标可指示AMVP候选者列表中的选定AMVP候选者的位置。当前PU的RefPicListX MVD可指示当前PU的RefPicListX运动向量与选定AMVP候选者的运动向量之间的差。以此方式,视频编码器20可通过发信号通知RefPicListX运动向量预测符(MVP)旗标、RefPicListX参考索引值和RefPicListX MVD而发信号通知当前PU的RefPicListX运动信息。换句话说,在位流中的表示当前PU的运动向量的数据可包含表示参考索引的数据、到候选者列表的索引及MVD。
此外,在使用AMVP模式发信号通知当前PU的运动信息时,视频解码器30可从所述位流获得当前PU的MVD及MVP旗标。视频解码器30可产生相同的AMVP候选者列表且可基于MVP旗标确定所述选定AMVP候选者。视频解码器30可通过将MVD添加到由所述选定AMVP候选者指示的运动向量来恢复当前PU的运动向量。也就是说,视频解码器30可基于由所述选定AMVP候选者指示的运动向量和MVD确定当前PU的运动向量。视频解码器30接着可使用当前PU的所恢复的一或多个运动向量来产生当前PU的预测块。
当视频解码器30产生当前PU的AMVP候选者列表时,视频解码器30可基于覆盖在空间上与当前PU相邻的位置的PU(即,在空间上相邻的PU)的运动信息而导出一或多个AMVP候选者。在PU的预测块包含一位置时,PU可覆盖所述位置。
合并候选者列表或AMVP候选者列表中基于在时间上相邻于当前PU的PU(即,在与当前PU不同的时间实例中的PU)的运动信息的候选者可被称为TMVP。即,TMVP可用以提高HEVC的译码效率,并且不同于其它译码工具,TMVP可需要存取经解码图片缓冲器中、更具体来说是参考图片列表中的帧的运动向量。
可基于逐CVS(经译码视频序列)、逐切片或另一基础来启用或停用TMVP的使用。SPS中的语法元素(例如,sps_temporal_mvp_enable_flag)可指示TMVP的使用是否针对CVS经启用。此外,当TMVP的使用针对CVS经启用时,可针对所述CVS内的特定切片启用或停用TMVP的使用。举例来说,切片标头中的语法元素(例如,slice_temporal_mvp_enable_flag)可指示TMVP的使用是否针对切片经启用。因此,在经帧间预测的切片中,当TMVP针对整个CVS经启用(例如,SPS中的sps_temporal_mvp_enable_flag设定成1)时,在切片标头中发信号通知slice_temporal_mvp_enable_flag以指示TMVP是否针对当前切片经启用。
为了确定TMVP,视频编解码器可首先识别包含与当前PU位于相同位置的PU的参考图片。换句话说,视频译码器可识别位于同一地点的图片。如果当前图片的当前切片是B切片(即,允许包含经双向帧间预测的PU的切片),那么视频编码器20可在切片标头中发信号通知指示相同位置图片是来自RefPicList0还是RefPicList1的语法元素(例如,collocated_from_l0_flag)。换句话说,在针对当前切片启用TMVP的使用且当前切片是B切片(例如,允许包含双向帧间预测的PU的切片)时,视频编码器20可在切片标头中发信号通知指示位于同一地点的图片是在RefPicList0中还是RefPicList1中的语法元素(例如,collocated_from_l0_flag)。换句话说,为了得到TMVP,首先将识别位于同一地点的图片。如果当前图片为B切片,那么在切片标头中发信号通知collocated_from_l0_flag以指示相同位置的图片是来自RefPicList0还是来自RefPicList1。
在视频解码器30识别包含位于同一地点的图片的参考图片列表之后,视频解码器30可使用可在切片标头中发信号通知的另一语法元素(例如,collocated_ref_idx)来识别所识别的参考图片列表中的图片(即,位于同一地点的图片)。即,在识别参考图片列表之后,在切片标头中发信号通知的collocated_ref_idx用于识别参考图片列表中的图片。
视频译码器可通过检查位于同一地点的图片来识别位于同一地点的PU。TMVP可指示含有位于同一地点的PU的CU的右下方PU的运动信息或含有此PU的CU的中心PU内的右下方PU的运动信息。因此,使用含有此PU的CU的右下方PU的运动或含有此PU的CU的中心PU内的右下方PU的运动。含有位于同一地点的PU的CU的右下方PU可为覆盖直接在所述PU的预测块的右下方样本的右下方的位置的PU。换句话说,TMVP可指示在参考图片中且覆盖与当前PU的右下方拐角位于同一地点的位置的PU的运动信息,或TMVP可指示在参考图片中且覆盖与当前PU的中心位于同一地点的位置的PU的运动信息。
当由以上过程识别的运动向量(即,TMVP的运动向量)用于产生用于合并模式或AMVP模式的运动候选者时,视频译码器可基于时间位置(由POC值反映)缩放所述运动向量。例如,视频译码器可在当前图片及参考图片的POC值之间的差较大时将运动向量的量值增加较大的量,且在当前图片及参考图片的POC值之间的差较小时将所述运动向量的量值增加较小的量。
从TMVP导出的时间合并候选者的所有可能的参考图片列表的目标参考索引可始终设定成0。然而,对于AMVP,将所有可能的参考图片的目标参考索引设定成等于经解码参考索引。换句话说,将从TMVP导出的时间合并候选者的所有可能参考图片列表的目标参考索引设定为0,而对于AMVP,将其设定为等于经解码参考索引。在HEVC中,SPS可包含旗标(例如,sps_temporal_mvp_enable_flag)且当sps_temporal_mvp_enable_flag等于1时,切片标头可包含旗标(例如,pic_temporal_mvp_enable_flag)。当对于特定图片,pic_temporal_mvp_enable_flag与temporal_id两者都等于0时,在所述特定图片或按解码次序在所述特定图片之后的图片的解码中,不将来自按解码次序在所述特定图片之前的图片的运动向量用作TMVP。
在一些实例中,视频编码器20和视频解码器30(图1)可使用用于多视图和/或3D视频译码(例如包含两个或两个以上视图的视频数据的译码)的技术。在此些实例中,视频编码器20可编码包含两个或两个以上视图的经编码视频数据的位流,且视频解码器30可解码所述经编码视频数据以将所述两个或两个以上视图提供(例如)到显示装置32。在一些实例中,视频解码器30可提供视频数据的多个视图以使显示装置32能够显示3D视频。在一些实例中,视频编码器20和视频解码器30可符合HEVC标准的3D-HEVC扩展,例如其中使用多视图译码或多视图加深度译码过程。多视图和/或3D视频译码可涉及两个或两个以上纹理视图和/或包含纹理和深度分量的视图的译码。在一些实例中,由视频编码器20编码且由视频解码器30解码的视频数据包含任何给定时间实例(即,“存取单元”内)的两个或两个以上图片,或可从其导出任何给定时间实例的两个或两个以上图片的数据。
在一些实例中,装置(例如视频源18)可通过例如使用两个或两个以上空间偏移相机或其它视频俘获装置来俘获共同场景而产生所述两个或两个以上图片。自稍微不同的水平位置同时或几乎同时俘获的相同场景的两个图片可用以产生三维效果。在一些实例中,视频源18(或源装置12的另一组件)可使用深度信息或视差信息从在给定时间实例处的第一视图的第一图片产生在所述给定时间实例处的第二(或其它额外)视图的第二(或其它额外)图片。在此状况下,存取单元内的视图可包含对应于第一视图的纹理分量及可与所述纹理分量一起使用以产生第二视图的深度分量。深度或视差信息可由俘获第一视图的视频俘获装置例如基于相机参数或关于视频俘获装置的配置及第一视图的视频数据的俘获的其它已知信息来确定。深度或视差信息可另外地或可替代地例如由视频源18或源装置12的另一组件从相机参数及/或第一视图中的视频数据进行计算。
为呈现3D视频,显示装置32可同时或几乎同时显示与共同场景的不同视图相关联的两个图片,其是同时或几乎同时俘获的。在一些实例中,目的地装置14的用户可戴上主动式眼镜以快速地及替代性地遮挡左及右镜片,且显示装置32可快速在左视图与右视图之间与主动式眼镜同步地切换。在其它实例中,显示装置32可同时显示两个视图,且用户可佩戴被动式眼镜(例如,具有偏光镜片),其对视图进行过滤,从而致使恰当视图进入到用户的眼睛。在其它实例中,显示装置32可包括裸眼式立体显示器,其并不需要让用户感知到3D效果的眼镜。
多视图视频译码指代对多个视图进行译码的方式。在3D视频译码的状况下,所述多个视图可例如对应于左眼视图及右眼视图。所述多个视图中的每一视图包含多个图片。检视者对3D场景的感知归因于不同视图的图片中的对象之间的水平视差。
当前图片的当前块的视差向量(DV)是指向在与当前图片不同的视图中的对应图片中的对应块的向量。因此,使用DV,视频译码器可在对应图片中定位对应于当前图片的当前块的块。在此情况下,对应图片是与当前图片为相同的时间实例但在不同视图中的图片。对应图片中的对应块和当前图片中的当前块可包含相似视频内容;然而,当前图片中的当前块的位置与对应图片中的对应块的位置之间存在至少水平视差。当前块的DV提供对应图片中的块与当前图片中的当前块之间的此水平视差的量度。
在一些情况下,还可存在对应图片内的块的位置与当前图片内的当前块的位置之间的垂直视差。当前块的DV还可提供对应图片中的块与当前图片中的当前块之间的此垂直视差的量度。DV含有两个分量(x分量和y分量),但在许多情况下垂直分量将等于零。当前视图的当前图片和不同视图的对应图片所显示的时间可为相同的,也就是说当前图片和对应图片是同一时间实例的图片。
在视频译码中,通常存在两种类型的预测,通常被称为帧内预测和帧间预测。在帧内预测中,视频译码器基于相同图片中的已经译码块预测图片中的视频块。在帧间预测中,视频译码器基于不同图片(即参考图片)的已经译码块预测图片中的视频块。如本发明中所使用,参考图片通常指代含有可用于按解码次序的后续图片的解码过程中的帧间预测的样本的任何图片。当例如根据3D-HEVC相对于当前图片对多视图内容译码时,参考图片可属于相同时间实例但在不同视图中或可在相同视图中但属于不同时间实例。在例如3D-HEVC中的多视图译码的情况下,图片间预测可包含从时间上不同图片中的另一视频块(即,从与当前图片不同的存取单元)预测当前视频块(例如CU的当前译码节点),以及从与当前图片相同的存取单元中的但同与当前图片不同的视图相关联的不同图片预测。
在帧间预测的后一种情况下,其可被称作视图间译码或视图间预测。在与当前图片相同的存取单元中但与和当前图片不同的视图相关联的参考图片可被称为视图间参考图片。在多视图译码中,在相同存取单元(即,具有相同时间实例)的不同视图中俘获的图片当中执行视图间预测以移除视图之间的相关。在对例如相依视图等非基础视图的图片译码时,来自相同存取单元但不同视图(例如来自参考视图,例如基础视图)的图片可添加到参考图片列表。视图间参考图片可放置到参考图片列表的任何位置中,正如任何帧间预测(例如,时间或视图间)参考图片的情况。
用于预测当前图片的块的参考图片的块由运动向量识别。在多视图译码中,存在至少两个种类的运动向量。时间运动向量(TMV)为指向在与正被译码的块相同的视图中(例如,如上文所描述的帧间预测的第一实例)但与正被译码的块不同的时间实例或存取单元的时间参考图片中的块的运动向量,且对应帧间预测被称作经运动补偿的预测(MCP)。另一类型的运动向量为视差运动向量(DMV),其指向与当前图片相同的存取单元中的但属于不同视图的图片中的块。利用DMV,对应帧间预测被称作经视差补偿的预测(DCP)或视图间预测。
在下一部分中,将论述多视图(例如,如在H.264/MVC中)及多视图加深度(例如,如在3D-HEVC中)译码技术。起初,将论述MVC技术。如上所述,MVC是ITU-TH.264/AVC的多视图译码扩展。在MVC中,以时间优先次序译码多个视图的数据,且相应地,解码次序布置被称作时间优先译码。具体来说,可译码共同时间实例处的多个视图中的每一者的视图分量(即,图片),随后可可不同时间实例的另一组视图分量,且以此类推。存取单元可包含一个输出时间实例的所有视图的经译码图片。应理解,存取单元的解码次序不一定等于输出(或显示)次序。
在图2中展示典型的MVC解码次序(即,位流次序)。解码次序布置被称作时间优先译码。应注意,存取单元的解码次序可不等于输出或显示次序。在图2中,S0到S7各自指代多视图视频的不同视图。T0到T8各自表示一个输出时间实例。存取单元可包含一个输出时间实例的所有视图的经译码图片。例如,第一存取单元可包含时间实例T0的所有视图S0到S7,第二存取单元可包含时间实例T1的所有视图S0到S7,且以此类推。
出于简明目的,本发明可使用以下定义:
视图分量:单个存取单元中的视图的经译码表示。当视图包含经译码纹理及深度表示两者时,视图分量由纹理视图分量及深度视图分量构成。
纹理视图分量:单个存取单元中的视图的纹理的经译码表示。
深度视图分量:单个存取单元中的视图的深度的经译码表示。
在图2中,所述视图中的每一者包含若干图片集合。举例来说,视图S0包含图片0、8、16、24、32、40、48、56及64的集合,视图S1包含图片1、9、17、25、33、41、49、57及65的集合,且以此类推。对于3D视频译码,例如3D-HEVC,每一图片可包含两个分量图片:一个分量图片称为纹理视图分量,且另一分量图片称为深度视图分量。视图的图片集合内的纹理视图分量及深度视图分量可认为是彼此对应。举例来说,视图的图片集合内的纹理视图分量被认为是对应于视图的所述图片集合内的深度视图分量,且反之亦然(即,深度视图分量对应于所述集合中的其纹理视图分量,且反之亦然)。如本发明中所使用,对应于深度视图分量的纹理视图分量可认为是为单个存取单元的相同视图的部分的纹理视图分量及深度视图分量。
纹理视图分量包含所显示的实际图像内容。举例来说,所述纹理视图分量可包含明度(Y)及色度(Cb及Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,深度视图分量为仅包含明度值的灰阶图像。换句话说,深度视图分量可不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的量度。
举例来说,深度视图分量中的纯白色像素指示对应纹理视图分量中的其对应像素较接近于观察者的视角,且深度视图分量中的纯黑色像素指示对应纹理视图分量中的其对应像素距观察者的视角较远。黑色与白色之间的各种灰度渐变指示不同深度水平。举例来说,深度视图分量中的深灰色像素指示纹理视图分量中的其对应像素比深度视图分量中的浅灰色像素更远。因为仅需要灰阶来识别像素的深度,因此深度视图分量不需要包含色度分量,因为深度视图分量的色彩值可能不服务于任何目的。
仅使用明度值(例如,强度值)来识别深度的深度视图分量是出于说明的目的而提供,且不应被视为限制性的。在其它实例中,可利用任何技术来指示纹理视图分量中的像素的相对深度。
图3中展示用于多视图视频译码的典型MVC预测结构(包含每一视图内的图片间预测和视图间预测两者)。预测方向由箭头指示,指向的对象使用指出的对象作为预测参考。在MVC中,由视差运动补偿支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法但允许将不同视图中的图片用作参考图片。
在图3的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。即,图3中的每一行对应于视图,而每一列指示时间位置。
尽管MVC具有可由H.264/AVC解码器解码的所谓的基础视图,且MVC还可支持立体视图对,但MVC的优点在于其可支持使用两个以上视图作为3D视频输入且解码通过多个视图表示的此3D视频的实例。具有MVC解码器的客户端的再现器可预期具有多个视图的3D视频内容。
在每一行及每一列的交叉点处指示图3中的图片。H.264/AVC标准可使用术语帧来表示视频的一部分。本发明可互换地使用术语图片与帧。
使用包含字母的块来说明图3中的图片,字母标示对应图片是经帧内译码(也就是说,I图片),还是在一个方向上经帧间译码(也就是说,作为P图片),或是在多个方向上经帧间译码(也就是说,作为B图片)。一般来说,预测由箭头指示,其中指向的图片使用指出的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位置T0处的视图S0的I图片预测的。
如同单视图视频编码,多视图视频译码视频序列的图片可相对于在不同时间位置处的图片预测性地编码。举例来说,时间位置T1处的视图S0的b图片具有从时间位置T0处的视图S0的I图片指向其的箭头,从而指示所述b图片是从所述I图片预测的。然而,另外,在多视图视频编码的情况下,图片可经视图间预测。也就是说,视图分量可使用其它视图中的视图分量用于参考。举例来说,在MVC中,如同另一视图中的视图分量为帧间预测参考而实现视图间预测。潜在视图间参考在序列参数集(SPS)MVC扩展中发信号通知且可通过参考图片列表建构过程加以修改,所述参考图片列表建构过程实现帧间预测或视图间预测参考的灵活排序。视图间预测也是包含3D-HEVC(多视图加深度)的HEVC的所提出的多视图扩展的特征。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的图片说明为是从视图S1的不同时间位置处的图片预测,且是从相同时间位置处的视图S0及S2的图片经视图间预测。举例来说,时间位置T1处的视图S1的b图片是从时间位置T0及T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0及S2的b图片预测。
在一些实例中,图3可被视为说明纹理视图分量。举例来说,图2中所说明的I、P、B及b图片可认为是视图中的每一者的纹理视图分量。根据本发明中描述的技术,对于图3中所说明的纹理视图分量中的每一者,存在对应深度视图分量。在一些实例中,可以类似于图3中针对对应纹理视图分量所说明的方式的方式预测深度视图分量。
MVC中也可支持两个视图的译码。MVC的优点中的一个优点是:MVC编码器可将两个以上视图视为3D视频输入且MVC解码器可解码此类多视图表示。因此,具有MVC解码器的任何再现器可预期具有两个以上视图的3D视频内容。
在MVC中,允许在相同存取单元(即,具有相同时间实例)中的图片当中的视图间预测。在对非基础视图中的一者中的图片进行译码时,如果图片在不同视图中,但在相同时间实例内,那么可将图片添加到参考图片列表中。可将视图间预测参考图片放置在参考图片列表的任何位置中,正如任何帧间预测参考图片一般。如图3中所示,视图分量可出于参考目的使用其它视图中的视图分量。在MVC中,如同另一视图中的视图分量为帧间预测参考般实现视图间预测。
在多视图视频译码的上下文中,一般来说存在两个种类的运动向量。一个称为正常运动向量。所述正常运动向量指向时间参考图片且对应时间帧间预测是运动补偿预测(MCP)。另一运动向量是视差运动向量(DMV)。所述DMV指向不同视图中的图片(即,视图间参考图片)且对应帧间预测是视差补偿预测(DCP)。
另一类型的多视图视频译码格式引入深度值的使用(例如,3D-HEVC中)。对于普遍用于3D电视和自由视点视频的多视图视频加深度(MVD)数据格式,可独立地以多视图纹理图片译码纹理图像和深度图。图4说明具有纹理图像的MVD数据格式及其相关联的每样本深度图。深度范围可限于在与对应3D点的相机相距最小znear和最大zfar距离的范围内。
在HEVC中,用于运动向量预测的技术可包含合并模式、跳过模式及高级运动向量预测(AMVP)模式。一般来说,根据合并模式及/或跳过模式,当前视频块(例如,PU)继承来自另一先前译码的相邻块(例如,相同图片中的空间上相邻块,或时间或视图间参考图片中的块)的运动信息,例如,运动向量、预测方向及参考图片索引。当实施合并/跳过模式时,视频编码器20建构作为经界定目标中的参考块的运动信息的合并候选者的列表,选择所述合并候选者中的一者,且在位流中向视频解码器30发信号通知识别所述选定合并候选者的候选者列表索引。
在实施合并/跳过模式中,视频解码器30根据所界定的方式重构合并候选者列表且选择所述候选者列表中的由索引指示的合并候选者中的一者。视频解码器30接着可使用合并候选者中的选定一者以作为处于与合并候选者中的选定一者的所述运动向量相同的分辨率且指向与合并候选者中的选定一者的所述运动向量相同的参考图片的当前PU的运动向量。合并模式和跳过模式通过允许视频编码器20发信号通知到合并候选者列表中的索引而非用于当前视频块的帧间预测的所有运动信息而提高位流效率。
当实施AMVP时,视频编码器20以所界定的方式建构候选运动向量预测符(MVP)的列表,选择所述候选MVP中的一者,且在位流中向视频解码器30发信号通知识别所述选定MVP的候选者列表索引。类似于合并模式,在实施AMVP时,视频解码器30以所界定的方式重构候选MVP的列表,且基于候选者列表索引而选择MVP中的一者。
然而,与合并/跳过模式相反,当实施AMVP时,视频编码器20还发信号通知参考图片索引和预测方向,因此指定由候选者列表索引指定的MVP指向的参考图片。此外,视频编码器20确定当前块的运动向量差(MVD),其中MVD为MVP与原本将用于当前块的实际运动向量之间的差。对于AMVP,除参考图片索引、参考图片方向和候选者列表索引之外,视频编码器20还在位流中发信号通知当前块的MVD。归因于给定块的参考图片索引和预测向量差的信令,AMVP可不如合并/跳过模式有效,但可提供经译码视频数据的提高的保真度。
图5展示当前视频块47、五个空间相邻块(41、42、43、44和45)和来自另一图片但在与当前图片相同的视图中的时间参考块46的实例。时间参考块46可(例如)为在不同时间实例的图片中但在与当前视频块47相同的视图中的位于同一地点的块。在一些实例中,当前视频块47和参考视频块41到46可如当前开发中的HEVC标准中通常所界定。参考视频块41到46根据HEVC标准被标记为A0、A1、B0、B1、B2及T。视频编码器20和视频解码器30可根据运动信息预测模式(例如,合并/跳过模式或AMVP模式)基于参考视频块41到46的运动信息而预测当前视频块47的包含TMV的运动信息。如下文更详细地描述,视频块的TMV可与DMV一起使用以实现根据本发明的技术的先进残差预测。
如图5中所说明,视频块42、44、43、41和45可分别相对于当前视频块47在左边、上方、右上方、左下方和左上方。然而,相邻块41到45相对于图5中说明的当前视频块47的数目和位置仅是实例。不同数目的相邻块和/或不同位置处的块的运动信息可考虑包含在当前视频块47的运动信息预测候选者列表中。
空间相邻块42、44、43、41和45中的每一者与当前视频块47的空间关系可描述如下。明度位置(xP,yP)用以指定相对于当前图片的左上样本的当前块的左上明度样本;变量nPSW和nPSH指代针对明度的当前块的宽度和高度。空间上相邻块42的左上明度样本为xP-1,yP+nPSH-1。空间上相邻块44的左上明度样本为xP+nPSW-1,yP-1。空间上相邻块43的左上明度样本为xP+nPSW,yP-1。空间上相邻块41的左上明度样本为xP-1,yP+nPSH。空间上相邻块45的左上明度样本为xP-1,yP-1。尽管相对于明度位置描述,当前和参考块可包含色度分量。
空间相邻块41到45中的每一者可提供用于预测当前视频块47的运动信息(例如TMV)的空间运动信息候选者。例如视频编码器20(图1)和/或视频解码器30(图1)等视频译码器可以预定次序(例如扫描次序)考虑空间上相邻参考块的运动信息。举例来说,在3D-HEVC的情况下,视频解码器可考虑参考块的运动信息以以下次序包含在合并模式的合并候选者列表中:42、44、43、41和45。在所说明的实例中,空间相邻块41到45在当前视频块47左边和/或上方。此布置为典型的,因为大多数视频译码器以光栅扫描次序从图片的左上方对视频块译码。因此,在此些实例中,空间相邻块41到45将通常在当前视频块47之前经译码。然而,在其它实例中,例如当视频译码器以不同次序对视频块译码时,空间相邻块41到45可位于当前视频块47的右边和/或下方。
时间参考块46位于在当前视频块47的当前图片之前(但不必在译码次序中紧邻在其之前)经译码的时间参考图片内。另外,块46的参考图片并不一定按显示次序在当前视频块47的图片之前。参考视频块46可通常相对于当前图片中当前视频块47的位置在参考图片中位于同一地点。在一些实例中,参考视频块46位于当前图片中当前视频块47的位置右边和下方,或覆盖当前图片中当前视频块47的中心位置。
图6为说明例如根据合并/跳过模式或AMVP模式导出经视图间预测的运动向量候选者(IPMVC)和视图间视差运动向量候选者(IDMVC)用于预测当前视频块50的运动信息的实例的概念图。当视图间预测经启用时,视频编码器20和/或视频解码器30可将新的运动向量候选者IPMVC或IDMVC添加到当前视频块50的运动信息候选者列表。IPMVC可预测当前视频块50的TMV,根据本发明的技术,视频编码器20和/或视频解码器30可将其用于当前视频块50或另一视频块的ARP,如下文更详细描述。IDMVC可预测当前视频块50的DMV,视频编码器20和/或视频解码器30可将其用于当前视频块50的ARP。
在图6的实例中,当前块50处于当前视图Vm中。视频编码器20和/或视频解码器30可使用视差向量(DV)51将对应或参考块52定位在参考视图V0中。视频译码器可基于相机参数或根据本文中所描述的技术中的任一者确定DV 51。举例来说,视频译码器可基于相邻块的DMV或DV例如使用基于相邻块的视差向量导出(NBDV)而确定当前视频块50的DV 51。
如果参考块52未经帧内译码且未经视图间预测,且其参考图片(例如参考图片58或参考图片60)具有等于当前视频块50的相同参考图片列表中的一个条目的图片次序计数(POC)值的POC值,那么视频编码器20和/或视频解码器30可在将基于POC的参考索引转换为用于当前视频块50的IPMVC之后导出其运动信息(预测方向、参考图片和运动向量)。
在图6的实例中,参考视频块52与第一参考图片列表(RefPicList0)中指定的指向参考视图V0中的第一参考图片58的TMV 54和第二参考图片列表(RefPicList1)中指定的指向参考视图V0中的第二图片60的TMV 56相关联。当前视频块50继承TMV 54和56由图6中的虚线箭头说明。基于参考视频块52的运动信息,视频译码器将当前视频块50的IPMVC导出为第一参考图片列表(RefPicList0)中指定的指向当前视图Vm中的第一参考图片66的TMV 62(例如具有第一参考图片列表中的与参考图片58相同的POC)和第二参考图片列表(RefPicList1)中指定的指向当前视图Vm中的第二图片68的TMV64(例如具有与参考图片60相同的POC)中的至少一者。
视频编码器20和/或视频解码器30可将TMV 62和/或TMV 64用于当前视频块50的ARP。视频编码器20和/或视频解码器30还可将DV 51转换为当前视频块50的IDMVC,且将IDMVC添加到当前视频块50的运动信息候选者列表在与IPMVC不同的位置中。IPMVC或IDMVC中的每一者可在此上下文中被称为‘视图间候选者’。
在合并/跳过模式中,视频译码器将所有空间和时间合并候选者之前的IPMVC(如果可用)插入到合并候选者列表。在合并/跳过模式中,视频译码器插入从A0导出的空间合并候选者之前的IDMVC(图5的块41)。DV 51到IDMVC的转换可视为DV 51到当前视频块50的DMV的转换。视频编码器20和/或视频解码器30可将DMV用于当前视频块50的ARP。
在一些情形中,视频译码器可导出当前视频块的DV。举例来说,如上文参看图6所描述,视频编码器20和/或视频解码器30可导出用于当前视频块50的DV 51。在一些实例中,视频译码器可使用NBDV导出来导出用于当前视频块的DV。NBDV导出被用作3D-HEVC中的视差向量导出方法。
针对3D-HEVC的提议针对所有视图使用纹理优先译码次序。换句话说,对于位流中所述多个视图中的每一者,纹理分量在视图的任何深度分量之前经译码,例如经编码或经解码。在一些情况下,例如对于视图间预测,需要DV来对特定存取单元中的视图的纹理分量中的视频块译码。然而,在纹理优先译码中,当前视频块的对应深度分量并不可用于确定当前视频块的DV。NBDV导出可由视频译码器采用,且经提议用于3D-HEVC,以在此些情形中导出用于当前视频块的DV。在当前3D-HEVC设计中,从NBDV导出而导出的DV可通过从由来自NBDV过程的DV指向的参考视图的深度图检索深度数据而进一步改善。
DV用于两个视图之间的移位的估计量。因为相邻块共享视频译码中的几乎相同运动/视差信息,所以当前视频块可使用相邻块中的运动向量信息作为其运动/视差信息的良好预测符。遵循此想法,NBDV导出使用相邻视差信息用于估计不同视图中的DV。
根据NBDV导出,视频译码器识别若干空间和时间相邻块。利用两组相邻块。一组来自空间相邻块且另一组来自时间相邻块。视频译码器随后以由当前块与候选(相邻)块之间的相关的优先级所确定的预定义次序检查空间和时间相邻块中的每一者。当视频译码器识别候选者的运动信息中的DMV(即,从相邻候选块指向视图间参考图片(相同存取单元中,但不同视图中)的运动向量)时,视频译码器将DMV转换为DV,且传回相关联的视图次序索引。举例来说,视频译码器可将当前块的DV的水平分量设定为等于DMV的水平分量,且可将DV的垂直分量设定为0。
3D-HEVC起初采纳张(Zhang)等人“3D-CE5.h:视差向量产生结果(3D-CE5.h:Disparity vector generation results)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码扩展开发联合合作小组第1次会议:瑞典斯德哥尔摩,2012年7月16日到20日,文献JCT3V-A0097(MPEG编号m26052,下文中称为“JCT3V-A0097”))中所提议的NBDV导出技术。JCT3V-A0097可从以下链接下载:http://phenix.int-evry.fr/jct2/doc_end_user/current_document.php?id=89。JCT3V-A0097的全部内容以引用的方式并入本文中。
在3D-HEVC的一些提议中,当视频译码器执行NBDV导出过程时,视频译码器按次序检查时间相邻块中的视差运动向量、空间相邻块中的视差运动向量且随后检查隐式视差向量(IDV)。IDV可为使用视图间预测译码的空间上或时间上相邻PU的视差向量。IDV也可被称作经导出视差向量。IDV可在PU采用视图间预测时产生,即,用于AMVP或合并模式的候选者借助于视差向量从另一视图中的参考块导出。此视差向量称为IDV。IDV可出于DV导出的目的存储到PU。举例来说,尽管利用运动预测译码块,但出于对以下视频块译码的目的而并不丢弃块的所导出DV。因此,当视频译码器识别DMV或IDV时,视频译码器可传回所识别的DMV或IDV。
在桑(Sung)等人的“3D-CE5.h:基于HEVC的3D视频译码的视差向量导出的简化(3D-CE5.h:Simplification of disparity vector derivation for HEVC-based 3Dvideo coding)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码扩展开发联合合作小组第1次会议:瑞典斯德哥尔摩,2012年7月16-20日,文献JCT3V-A0126(MPEG编号m26079,下文为“JCT3V-A0126”))中描述的简化NBDV导出过程包含隐式视差向量(IDV)。JCT3V-A0126可从以下链接下载:http://phenix.int-evry.fr/jct2/doc_end_user/current_document.php?id=142。
在康(Kang)等人的“3D-CE5.h:用于视差向量导出的改进(3D-CE5.h:Improvementfor disparity vector derivation)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码扩展开发联合合作小组第2次会议:中国上海,2012年10月13-19日,文献JCT3V-B0047(MPEG编号m26736,下文为“JCT3V-B0047”))中描述针对3D-HEVC的NBDV导出过程的进一步开发。JCT3V-B0047可从以下链接下载:http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=236。
在JCT3V-B0047中,通过移除存储在经解码图片缓冲器中的IDV而进一步简化用于3D-HEVC的NBDV导出过程。还通过随机存取点(RAP)图片选择提高译码增益。视频译码器可将传回的视差运动向量或IDV转换为视差向量且可使用所述视差向量用于视图间运动预测和视图间残差预测。随机存取指代从不是位流中的第一经译码图片的经译码图片开始的位流的解码。随机存取图片或随机存取点以规则的间隔插入到位流中可实现随机存取。随机存取图片的实例类型包含即时解码器刷新(IDR)图片、清洁随机存取(CRA)图片和断链存取(BLA)图片。因此,IDR图片、CRA图片和BLA图片统称为RAP图片。在一些实例中,RAP图片可使NAL单元类型等于BLA_W_LP、BLA_W_RADL、BLA_N_LP、IDR_W_RADL、IDR_N_LP、RSV_IRAP_VCL22、RSV_IRAP_VCL23或CRA_NUT。
在康(Kang)等人的“CE2.h:3D-HEVC中基于CU的视差向量导出(CE2.h:CU-baseddisparity vector derivation in 3D-HEVC)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC29/WG11的视频译码扩展开发联合合作小组第4次会议:韩国仁川,2013年4月20日到26日,文献JCT3V-D0181(MPEG编号m29012,下文为“JCT3V-D0181”))中提议用于针对3D-HEVC的基于CU的DV导出的技术。JCT3V-D0181可从以下链接下载:http://phenix.it-sudparis.eu/jct3v/doc_end_user/current_document.php?id=866。
当视频译码器识别DMV或IDV时,视频译码器可终止检查过程。因此,一旦视频译码器找到当前块的DV,视频译码器便可终止NBDV导出过程。当视频译码器不能够通过执行NBDV导出过程确定当前块的DV时(即,当不存在NBDV导出过程期间发现的DMV或IDV时),NBDV被标记为不可用。换句话说,可认为NBDV导出过程传回不可用视差向量。
如果视频译码器不能够通过执行NBDV导出过程导出当前块的DV(即,如果未发现视差向量),那么视频译码器可使用0DV为当前PU的DV。0DV为具有等于0的水平分量和垂直分量两者的DV。因此,即使当NBDV导出过程传回不可供使用的结果时,视频译码器的需要DV的其它译码过程也可将0视差向量用于当前块。在一些实例中,如果视频译码器不能够通过执行NBDV导出过程而导出当前块的DV,那么视频译码器可停用当前块的视图间残差预测。然而,不管视频译码器是否能够通过执行NBDV导出过程而导出当前块的DV,视频译码器都可针对当前块使用视图间预测。也就是说,如果在检查所有预定义相邻块之后未发现DV,那么0视差向量可用于视图间预测,同时可针对对应CU停用视图间残差预测。
图7为说明相对于当前视频块90的可使用NBDV导出从其导出当前视频块的DV的实例空间相邻块的概念图。图7中说明的五个空间相邻块是相对于当前视频块的左下块96、左边块95、右上块92、上方块93和左上块94。空间相邻块可为覆盖当前视频块的CU的左下、左边、右上、上方和左上块。应注意,NBDV的这些空间相邻块可与由视频译码器例如根据HEVC中的合并/AMVP模式用于当前视频块的运动信息预测的空间相邻块相同。在此些情况下,可不需要由视频译码器针对NBDV的额外存储器存取,因为已经考虑将空间相邻块的运动信息用于当前视频块的运动信息预测。
为了检查时间相邻块,视频译码器建构候选图片列表。在一些实例中,视频译码器可处理来自当前视图的多达两个参考图片,即,与当前视频块相同的视图,作为候选图片。视频译码器可首先将位于同一地点的参考图片插入到候选图片列表中,接着按参考图片索引的升序插入候选图片的其余部分。当具有两个参考图片列表中相同参考索引的参考图片可用时,视频译码器可将与同一地点的图片相同的参考图片列表中的一者插入在来自另一参考图片列表的另一参考图片之前。在一些实例中,视频译码器可识别三个候选区,以用于从候选图片列表中的候选图片中的每一者导出时间相邻块。所述三个候选区可如下界定:
●CPU:当前PU或当前CU的位于同一地点的区。
●CLCU:覆盖当前块的所述位于同一地点的区的最大译码单元(LCU)。
●BR:CPU的右下4×4块。
如果覆盖候选区的PU指定DMV,那么视频译码器可基于PU的视差运动向量确定当前视频单元的DV。
如上文所论述,除从空间及时间相邻块导出的DMV外,视频译码器还可检查IDV。在3D-HTM 7.0及稍后版本的所提议的NBDV导出过程中,视频译码器依次检查时间相邻块中的DMV,随后是空间相邻块中的DMV,且随后是IDV。一旦发现DMV或IDV,过程就终止。另外,NBDV导出过程中检查的空间相邻块的数目进一步减小到二。
当视频译码器检查相邻PU(即,空间或时间相邻PU)时,视频译码器可首先检查相邻PU是否具有视差运动向量。如果相邻PU均不具有视差运动向量,那么视频译码器可确定空间相邻PU中的任一者是否具有IDV。如果空间相邻PU中的一者具有IDV且所述IDV是作为合并/跳过模式而经译码,那么视频译码器可终止检查过程且可使用所述IDV作为当前PU的最终视差向量。
如上文所指出,视频译码器可应用NBDV导出过程以导出当前块(例如,CU、PU等)的DV。当前块的视差向量可指示参考视图中的参考图片(即,参考分量)中的位置。在一些3D-HEVC设计中,允许视频译码器存取参考视图的深度信息。在一些此些3D-HEVC设计中,当视频译码器使用NBDV导出过程导出当前块的DV时,视频译码器可应用提高过程以进一步提炼当前块的视差向量。视频译码器可基于参考图片的深度图提炼当前块的DV。视频译码器可使用类似提炼过程来提炼DMV以用于后向视图合成预测。以此方式,深度可用于提炼DV或DMV以用于后向视图合成预测。此提炼过程可在本文中被称作NBDV提炼(“NBDV-R”)、NBDV提炼过程或深度定向的NBDV(Do-NBDV)。
当NBDV导出过程传回可用的视差向量时(例如,当NBDV导出过程传回指示NBDV导出过程能够基于相邻块的视差运动向量或IDV导出当前块的视差向量的变量时),视频译码器可进一步通过检索来自参考图片的深度图的深度数据而提炼视差向量。在一些实例中,提炼过程包含以下两个步骤:
1)在例如基础视图等先前经译码参考深度视图中通过所导出的DV定位对应深度块;对应深度块的大小与当前PU的大小相同。
2)从对应深度块的四个隅角像素选择一个深度值且将其转换为经提炼DV的水平分量。DV的垂直分量不变。
经提炼DV可用于当前视频块的视图间预测,而未经提炼的DV可用于当前视频块的视图间残差预测。此外,将经提炼的DV存储为一个PU的运动向量(如果使用后向视图合成预测(BVSP)模式对其进行译码),其在下文更详细地描述。在3D-HTM 7.0及稍后版本的所提议的NBDV过程中,存取基础视图的深度视图分量,而不管从NBDV过程导出的视图次序索引的值如何。
已经在安(An)等人的“3D-CE3:子PU层级视图间运动预测(3D-CE3:Sub-PU levelinter-view motion prediction)”(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第6次会议,瑞士日内瓦,2013年10月25日到11月1日(文献JCT3V-F0110),下文称为“JCT3V-F0110”)中提出用以产生新合并候选者的子PU层级视图间运动预测技术。JCT3V-F0110可从以下链接下载:http://http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=1447。将新候选者添加到合并候选者列表。
图8是说明子预测单元(PU)视图间运动预测的概念图。如图8中所展示,当前视图V1中的当前PU 98可被分裂成多个子PU(例如,四个子PU)。每一子PU的视差向量可用于定位参考视图V0中的对应参考块。视频编码器20和/或视频解码器30可经配置以复制(即,再使用)与所述参考块中的每一者相关联的运动向量以用于与当前PU 8的对应子PU一起使用。
在一个实例中,使用以下技术导出称为子PU合并候选者的新候选者。首先,通过nPSW×nPSH标示当前PU的大小,通过N×N标示发信号通知的子PU大小,且通过subW×subH标示最终子PU大小。取决于PU大小及发信号通知的子PU大小,可将当前PU划分成一或多个子PU,如下:
subW=max(N,nPSW)!=N?N:nPSW;
subH=max(N,nPSH)!=N?N:nPSH;
视频编码器20和/或视频解码器30可针对每一参考图片列表将默认运动向量tmvLX设定为(0,0)且将参考索引refLX设定为-1(其中X表示参考图片列表0或参考图片列表1)。对于光栅扫描次序中的每一子PU,以下适用:
-将从DoNBDV导出过程或NBDV过程获得的DV添加到当前子PU的中间位置以通过下式获得参考样本位置(xRefSub,yRefSub):
xRefSub=Clip3(0,PicWidthInSamplesL-1,xPSub+nPSWsub/2+((mvDisp[0]+2)>>2))
yRefSub=Clip3(0,PicHeightInSamplesL-1,yPSub+nPSHSub/2+((mvDisp[1]+2)>>2))
参考视图中覆盖(xRefSub,yRefSub)的块用作当前子PU的参考块。
-对于所述所识别的参考块:
1)如果使用时间运动向量译码所述所识别的参考块,那么以下适用:
-相关联的运动参数可用作当前子PU的候选运动参数。
-将tmvLX和refLX更新为当前子PU的运动信息。
-如果当前子PU不是光栅扫描次序中的第一者,那么所有先前子PU继承运动信息(tmvLX及refLX)。
2)否则(参考块经帧内译码),将当前子PU的运动信息设定成tmvLX和refLX。
不同子PU块大小可以用于上述的用于子PU层级视图间运动预测的技术中,包含4×4、8×8及16×16。可在例如视图参数集(VPS)等参数集中发信号通知子PU块的大小。
高级残差预测(ARP)是设法利用视图之间的残差相关度以便提供额外译码效率的译码工具。在ARP中,通过对准当前视图处的运动信息以用于参考视图中的运动补偿而产生残差预测符。另外,引入加权因子以补偿视图之间的质量差异。在针对一个块启用ARP时,发信号通知当前残差与残差预测符之间的差。即,从残差预测符的残差减去当前块的残差,且发信号通知所得的差。在3D-HEVC的一些提议中,ARP仅适用于具有等于Part_2Nx2N的分割模式的经帧间译码CU。
图9为说明用于经时间预测视频块的ARP的实例提议的实例预测结构的概念图。如张(Zhang)等人“CE4:用于多视图译码的高级残差预测(CE4:Advanced residualprediction for multiview coding)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的视频译码扩展开发联合合作小组第4次会议:韩国仁川,2013年4月20日到26日,文献JCT3V-D0177(MPEG编号m29008,下文中称为“JCT3V-D0177”))中所提议,在第4次JCT3V会议中采纳应用于具有等于Part_2Nx2N的分割模式的CU的ARP。JCT3V-D0177可从以下链接下载:http://phenix.it-sudparis.eu/jct3v/doc_end_user/current_document.php?id= 862
如图9中所展示,视频译码器在当前(例如相依)视图Vm的当前图片102中的当前视频块100的残差的预测中调用或识别以下块。
1)当前视频块100(视图Vm中):Curr
2)参考/基础视图(图9中的V0)的视图间参考图片108中的视图间参考视频块106:Base。视频译码器基于当前视频块100的DV 104导出视图间参考视频块106(Curr)。视频译码器可使用NBDV导出确定DV 104,如上文所描述。
3)与当前视频块100(Curr)相同的视图(Vm)中的时间参考图片114中的时间参考视频块112:CurrTRef。视频译码器基于当前视频块100的TMV 110导出时间参考视频块112。视频译码器可使用本文中所描述的技术中的任一者确定TMV 110。
4)参考视图(即,与视图间参考视频块106(Base)相同的视图)中的时间参考图片118中的时间参考视频块116:BaseTRef。视频译码器使用当前视频块100(Curr)的TMV 110导出参考视图中的时间参考视频块116。TMV+DV的向量121可相对于当前视频块100(Curr)识别时间参考视频块116(BaseTRef)。
当视频编码器20基于视频编码器20使用TMV 110识别的时间参考视频块112对当前视频块100进行时间帧间预测时,视频编码器20将当前视频块100与时间参考视频块112之间的逐像素差异确定为残差块。无ARP的情况下,视频编码器20将对残差块进行变换、量化和熵编码。视频解码器30将对经编码视频位流进行熵解码,执行反量化和变换以导出残差块,且将残差块应用到参考视频块112的重构以重构当前视频块100。
通过使用ARP,视频译码器确定预测残差块的值(即,预测当前视频块100(Curr)与时间参考视频块112(CurrTRef)之间的差)的残差预测符块。视频编码器20可随后仅需要编码残差块与残差预测符块之间的差,从而减少用于编码当前视频块100的经编码视频位流中包含的信息量。在图9的时间ARP实例中,基于参考/基础视图(V0)中的对应于当前视频块100(Curr)和时间参考视频块112(CurrTRef)且由DV 104识别的块确定当前视频块100的残差的预测符。参考视图中的这些对应块之间的差可为残差的良好预测符,即,当前视频块100(Curr)与时间参考视频块112(CurrTRef)之间的差。特定来说,视频译码器识别参考视图中的视图间参考视频块106(Base)和时间参考视频块116(BaseTRef),且基于视图间参考视频块106与时间参考视频块116之间的差(BaseTRef-Base)确定残差预测符块,其中减法运算应用到所表示的像素阵列的每一像素。在一些实例中,视频译码器可将加权因子w应用到残差预测符。在此些实例中,当前块的最终预测符(即,参考块与残差预测符块求和)可表示为:CurrTRef+w*(BaseTRef-Base)。
图10为说明当前视图(Vm)中的当前视频块120的时间ARP的实例双向预测结构的概念图。上文描述和图9说明单向预测。当将ARP扩展到双向预测的情况时,视频译码器可将上文技术应用到参考图片列表中的一或两者以便识别当前视频块120的残差预测符块。特定来说,视频译码器可检查当前视频块120的参考列表中的一或两者以确定其中的一者是否含有可用于时间ARP的TMV。在由图10说明的实例中,当前视频块120与指向第一参考图片列表(RefPicList0)中的第一时间参考图片134的TMV 130相关联,且指向第二时间参考图片136的TMV 132为第二参考图片列表(RefPicList1)。
在一些实例中,视频译码器将根据检查次序检查参考图片列表以确定其中的一者是否包含可用于时间ARP的TMV,且如果第一列表包含此TMV,则不必根据所述检查次序检查第二列表。在一些实例中,视频译码器将检查两个参考图片列表,并且如果两个列表均包含TMV,那么例如基于使用所述TMV产生的所产生残差预测符相对于当前视频块的残差的比较而确定使用哪一TMV。值得注意的是,根据针对ARP的当前提议(例如,JCT3VC-D0177),在当前块针对一个参考图片列表使用视图间参考图片(不同视图中)时,停用残差预测过程。
如图10中所说明,视频译码器可使用例如根据NBDV导出过程针对当前视频块120识别的DV 124以识别在与当前图片122不同的参考视图(V0)中但在相同存取单元中的视图间参考图片128中的对应的视图间参考视频块126(Base)。视频译码器还可针对当前视频块120使用TMV 130和132以识别两个参考图片列表(例如RefPicList0和RefPicList1)中的参考视图的各个时间参考图片中的视图间参考视频块126(Base)的时间参考块(BaseTRef)。在图10的实例中,视频译码器基于当前视频块120的TMV 130和132识别第一参考图片列表(例如RefPicList0)中的时间参考图片142中的时间参考视频块(BaseTRef)140和第二参考图片列表(例如RefPicList1)中的时间参考图片146中的时间参考视频块(BaseTRef)144。
参考视图中的当前视频块120的TMV 130和132的使用由图10中的虚线箭头说明。在图10中,参考视图中的时间参考视频块140和144归因于其基于TMV 130和132的识别而被称作经运动补偿的参考块。视频译码器可基于时间参考视频块140与视图间参考视频块126之间的差或基于时间参考视频块144与视图间参考视频块126之间的差而确定当前视频块120的残差预测符块。
再次重申,解码器侧的所提议的时间ARP过程可描述(参看图10)如下:
1.视频解码器30例如使用指向目标参考视图(V0)的NBDV导出获得如当前3D-HEVC中指定的DV 124。随后,在相同存取单元内的参考视图的图片128中,视频解码器30通过DV124识别对应的视图间参考视频块126(Base)。
2.视频解码器30再使用当前视频块120的运动信息(例如,TMV 130、132)以导出对应的视图间参考视频块126的运动信息。视频解码器30可基于当前视频块120的TMV130、132和参考视频块126的参考视图中的所导出的参考图片142、146应用对应的视图间参考视频块126的运动补偿以识别经运动补偿的时间参考视频块140、144(BaseTRef)以及通过确定BaseTRef-Base确定残差预测符块。当前块、对应块(Base)和运动补偿块(BaseTRef)之间的关系在图9和10中展示。在一些实例中,参考视图(V0)中具有与当前视图(Vm)的参考图片相同的POC(图片次序计数)值的参考图片选定为对应块的参考图片。
3.视频解码器30可将加权因子w应用到残差预测符块以获得经加权残差预测符块,且将经加权残差块的值相加到经预测样本以重构当前视频块120。
图11为根据本发明中描述的技术的用于经视图间预测视频块的视图间ARP的实例预测结构的概念图。在张(Zhang)等人的“CE4:对高级残差预测的进一步改进(CE4:Furtherimprovements on advanced residual prediction)”(ITU-T SG 16 WP 3和ISO/IEC JTC1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第6次会议,瑞士日内瓦,2013年10月25日到11月1日,下文称为“JCT3V-F0123”)中提出与图11相关的技术。JCT3V-F0123可从以下链接下载:http://http://phenix.it-sudparis.eu/jct2/doc_end_user/current_ document.php?id=1460
根据图11中说明的实例技术,视频译码器(例如视频编码器20和/或视频解码器30)可使用来自不同存取单元的视图间残差来预测经视图间预测的当前块的残差。与其中在当前块的运动向量为DMV时不执行ARP且仅在当前视频块的运动向量为TMV时执行ARP的针对ARP的提议相比,图11的实例技术使用DMV来执行ARP。
图11的实例技术可由视频译码器(例如视频编码器20或视频解码器30)在当前图片152中的当前视频块150(Curr)的运动向量为DMV 154时执行,且参考视图(V0)中的视图间参考图片158中的视图间参考视频块156(Base)含有至少一个TMV 160。在一些实例中,DMV 154可为DV,其转换为DMV以充当IDMVC用于当前视频块150的运动信息预测。
视频译码器使用当前视频块150的DMV 154识别视图间参考图片158中的视图间参考视频块156(Base)。视频译码器使用视图间参考视频块156的TMV 160和相关联参考图片(例如,参考视图(V0)中的时间参考图片164)连同DMV一起以识别参考视图(V0)中的时间参考图片164中的时间参考视频块162(BaseTRef)。基于TMV 160和DMV 154识别时间参考视频块162(BaseTRef)由虚线向量170(TMV+DMV)表示。视频译码器还使用TMV 160以识别当前视图(Vm)中的时间参考图片168中的时间参考视频块166(CurrTRef)。参考视图(V0)中的时间参考视频块162(BaseTRef)和当前视图(Vm)中的时间参考视频块166(CurrTRef)可在相同存取单元内,即,参考视图(V0)中的时间参考图片164和当前视图(Vm)中的时间参考图片168可在相同存取单元中。
视频译码器(例如视频编码器20和/或视频解码器30)可随后基于这后两个块之间的逐像素差(即,当前视图中的时间参考视频块166与参考视图中的时间参考视频块162之间的差,或CurrTRef-BaseTRef)计算来自当前视频块150的不同存取单元中的视图间残差预测符块。差信号(表示为视图间残差预测符)可用于预测当前视频块150的残差。当前视频块150的预测信号可为视图间预测符(即,视图间参考视频块156(Base))与基于当前视图中的时间参考视频块166与参考视图中的时间参考视频块162之间的差而确定的不同存取单元中的经预测视图间残差的总和。在一些实例中,加权因子w施加到不同存取单元中的经预测视图间残差。在此些实例中,当前视频块150的预测信号可为:Base+w*(CurrTRef-BaseTRef)。
在一些实例中,视频译码器可确定用于视图间ARP的目标存取单元中的目标参考图片,例如类似于用于时间ARP的目标参考图片的确定,如上文所论述。在一些实例中,如上文参看JCT3V-D0177所论述,每一参考图片列表的目标参考图片为参考图片列表中的第一参考图片。在其它实例中,一个或两个参考图片列表的目标参考图片(例如目标POC)可例如以PU、CU、切片、图片或其它为基础从视频编码器20发信号到视频解码器30。在其它实例中,每一参考图片列表的目标参考图片为与当前块相比具有最小POC差和较小参考图片索引的参考图片列表中的时间参考图片。在其它实例中,两个参考图片列表的目标参考图片相同。
如果含有TMV 160所指示的参考视图中的时间参考视频块的图片在与目标ARP参考图片不同的存取单元(时间实例)中,那么视频译码器可将TMV 160缩放到目标参考图片(例如目标参考图片164)以识别用于视图间ARP的参考视图中的时间参考视频块162(BaseTRef)。在此些实例中,视频译码器将时间参考视频块162定位在含有目标ARP参考图片的存取单元中。视频译码器可通过POC缩放来缩放TMV 160。此外,经缩放TMV用于识别定位于目标ARP参考图片中的当前视图中的时间参考视频块(CurrTRef)166。
在一些实例中,视频译码器将TMV 160缩放到LX(X为0或1)目标参考图片,其中LX对应于包含TMV的PU的所述RefPicListX。在一些实例中,视频译码器可将来自RefPicList0或RefPicList1中的任一者或两者的TMV分别缩放到L0或L1目标参考图片。在一些实例中,视频译码器将TMV 160缩放到LX目标参考图片,其中X满足当前视频块150(例如当前PU)的DMV 154对应于RefPicListX的条件。
类似地,在一些实例中,视频译码器在识别目标参考视图中的参考图片158中的视图间参考视频块156之前将DMV 154缩放到ARP的目标参考视图。视频译码器可通过视图次序差缩放而缩放DMV 154。目标参考视图可由视频编码器20及视频解码器30预定和已知,或可例如以PU、CU、切片、图片或其它为基础从视频编码器20信令到视频解码器30。
在视图间ARP的一些实例中,视频译码器(例如,视频编码器20和/或视频解码器30)可使用图11中说明的相同预测结构以及所识别的参考视频块156、162和166导出当前块150的预测信号,但基于参考视图中的参考块156与162而非不同存取单元中的参考块162与166之间的差确定残差预测符块。在此些实例中,视频译码器可将加权因子应用到其它样本阵列(例如,参考视图中的参考块156与162之间的差),且相应地导出当前视频块150的预测信号如下:CurrTRef+w*(Base-BaseTRef)。在视图间ARP的一些实例中,视频译码器可使用各种内插滤波器(包含双线性滤波器)在其与分数像素位置对准的情况下导出参考视频块156、162和166。
尽管图11说明其中使用与视图间参考块的TMV和视图间参考视频块的相关联参考图片来识别当前和参考视图中的时间参考视频块的视图间ARP实例,但在其它实例中,其它TMV和相关联参考图片可用于识别当前和参考视图中的时间参考视频块。举例来说,如果当前视频块的DMV是来自当前视频块的第一参考图片列表(例如,RefPicList0或RefPicList1),那么视频译码器可使用对应于当前块的第二参考图片列表的TMV和来自当前视频块的第二参考图片列表(例如,RefPicList0或RefPicList1中的另一者)的相关联参考图片。在此些实例中,视频译码器可识别与TMV相关联的参考图片中的当前视图中的时间参考视频块,或将TMV缩放到ARP的目标存取单元和目标参考图片以识别当前视图中的时间参考视频块。在此些实例中,视频译码器可识别与其中定位有当前视图中的时间参考视频块的参考图片相同的存取单元中的参考图片中的参考视图中的时间参考视频块。在其它实例中,不是视图间参考视频块的TMV或当前视频块的另一参考图片列表的TMV,视频译码器可类似地使用从当前视频块的空间或时间相邻视频块的运动信息导出的TMV和相关联的参考图片来识别ARP的当前和参考视图中的时间参考视频块。
在以下描述中,如果一个参考图片列表的对应参考是时间参考图片且应用ARP,那么ARP过程被标示为时间ARP。否则,如果一个参考图片列表的对应参考是视图间参考图片且应用ARP,那么ARP过程被标示为视图间ARP。
在针对ARP的一些提议中,可使用三个加权因子,即0、0.5和1。产生当前CU的最小速率失真成本的加权因子被选定为最终加权因子,且对应加权因子索引(0、1和2,其分别对应于加权因子0、1和0.5)在CU层级处的位流中发射。一个CU中的所有PU预测共享相同的加权因子。当加权因子等于0时,ARP并不用于当前CU。
在张(Zhang)等人“3D-CE4:用于多视图译码的高级残差预测(3D-CE4:Advancedresidual prediction for multiview coding)”(ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC29/WG 11的视频译码扩展开发联合合作小组第3次会议:瑞士日内瓦,2013年1月17日到23日,文献JCT3V-C0049(MPEG编号m27784,下文中称为“JCT3V-C0049”))中描述与3D-HEVC的ARP相关的方面。JCT3V-C0049可从以下链接下载:
http://phenix.int-evry.fr/jct3v/doc_end_user/current_document.php?id =487
在JCT3V-C0049中,以非零加权因子译码的不同PU的参考图片可在不同PU(或当前视频块)间不同。因此,可需要存取来自参考视图的不同图片以产生经运动补偿的块(BaseTRef)(例如图9和10中的视图间参考视频块116、140和144),或参考视图(Base)中的对应视图间参考视频块,例如图9和10中的视图间参考视频块106和126。
在加权因子不等于0时,对于时间残差,在针对残差及残差预测符产生过程执行运动补偿之前,朝向固定图片缩放当前PU的运动向量。在将ARP应用于视图间残差时,在针对残差及残差预测符产生过程执行运动补偿之前,朝向固定图片缩放参考块(例如,图11中的块156)的时间运动向量。对于两种情况(即,时间残差或视图间残差),将固定图片界定为每一参考图片列表的第一可用的时间参考图片。在经解码运动向量不指向固定图片时,其首先经缩放且随后用于识别CurrTRef及BaseTRef。
用于ARP的此参考图片称为目标ARP参考图片。应注意,在当前切片是B切片时,目标ARP参考图片与一个特定参考图片列表相关联。因此,可利用两个目标ARP参考图片。
可如下执行目标ARP参考图片的可用性检查。首先,通过RpRefPicLX标示与一个参考图片列表X(其中X是0或1)相关联的目标ARP参考图片,且通过RefPicInRefViewLX标示视图中的具有等于从NBDV导出过程导出的视图次序索引的视图次序索引且具有RpRefPicLX的相同POC值的图片。
在以下条件中的一者是假时,针对参考图片列表X停用ARP:
-RpRefPicLX不可用
-RefPicInRefViewLX未存储在经解码图片缓冲器中
-RefPicInRefViewLX未包含在由来自NBDV导出过程的DV或与当前块相关联的DMV定位的对应块(例如,图9中的块106或图11中的块156)的参考图片列表中的任一者,针对此参考图片列表停用ARP。
在应用ARP时,可在产生残差及残差预测符时使用双线性滤波器。即,例如,使用双线性滤波器产生图9中的块106、112及116。
图12是说明使用视图间预测用于一个参考图片列表且使用时间预测用于另一参考图片列表的双向ARP的实例预测结构的概念图。在当前视频块250的双向预测的一个预测方向使用时间预测(例如,针对参考图片列表X)且当前视频块250的另一预测方向使用视图间预测(例如,针对参考图片列表Y(Y=1-X))时,可通过视频编码器20和/或视频解码器30执行图12的实例技术。
在图12的实例中,当前视频块250可与TMV 210及DMV 254相关联。视频编码器20和/或视频解码器30可经配置而以与上文参看图9所描述的类似方式识别及存取参考图片列表X(即,第一预测方向)的参考块。
视频编码器20和/或视频解码器30识别用于当前(例如,相依)视图Vm的当前图片253中的当前视频块250的残差的预测中的随后的块。视频编码器20和/或视频解码器30识别参考/基础视图(图12中的V0)的视图间参考图片258中的视图间参考视频块206(BaseX)。视频编码器20和/或视频解码器30基于当前视频块250(Curr)的DV 204而识别视图间参考视频块206。视频编码器20和/或视频解码器30可使用NBDV导出确定DV 204,如上文所描述。
视频编码器20和/或视频解码器30可进一步识别同一视图(Vm)中的时间参考图片270中的时间参考视频块212(CurrTRefX)作为当前视频块250(Curr)。视频编码器20和/或视频解码器30使用当前视频块250的TMV 210识别时间参考视频块212。视频编码器20和/或视频解码器30可使用本文中描述的技术中的任一者确定TMV 210。视频编码器20和/或视频解码器30可进一步识别参考视图(即,同一视图)中的时间参考图片272中的时间参考视频块216(BaseTRefX)作为视图间参考视频块206(BaseX)。视频编码器20和/或视频解码器30可使用当前视频块250(Curr)的TMV 210识别参考视图中的时间参考视频块216。TMV 210+DV 204的向量220可相对于当前视频块250(Curr)识别时间参考视频块216(BaseTRefX)。如可在图12中看出,对于参考图片列表X(即,第一预测方向),视频编码器20和/或视频解码器30经配置以识别及存取三个参考块(即,参考块206、212及216)。
视频编码器20和/或视频解码器30可经配置而以与如上文参看图11所描述的类似方式识别及存取参考图片列表Y的参考块(即,第一预测方向)。视频编码器20和/或视频解码器30识别参考/基础视图(图12中的V0)的视图间参考图片258中的视图间参考视频块256(BaseY)。视频编码器20和/或视频解码器30基于当前视频块250(Curr)的DMV254识别视图间参考视频块256。
视频编码器20和/或视频解码器30可进一步识别同一视图(Vm)中的时间参考图片268中的时间参考视频块273(CurrTRefY)作为当前视频块250(Curr)。视频编码器20和/或视频解码器30可使用当前视频块250的TMV'285识别时间参考视频块273。视频译码器使用TMV'285及视图间参考视频块256的相关联的参考图片(例如,参考视图(V0)中的时间参考图片265)以及DMV 254以识别参考视图(V0)中的时间参考图片265中的时间参考视频块271(BaseTRefY)。基于TMV'285及DMV 254的时间参考视频块271(BaseTRefY)的识别由虚线向量(TMV'+DMV)表示。参考视图(V0)中的时间参考视频块271(BaseTRefY)及当前视图(Vm)中的时间参考视频块273(CurrTRefY)可在同一存取单元内,即,参考视图(V0)中的时间参考图片265及当前视图(Vm)中的时间参考图片268可在同一存取单元中。
如可在图12中看出,对于参考图片列表Y(即,第二预测方向),视频编码器20和/或视频解码器30经配置以识别及存取额外三个参考块(即,参考块256、271及273)。
3D-HEVC中的ARP的前述技术展现若干缺点。作为一个实例,在结合双向预测执行块层级ARP或PU层级ARP时会增加对运动信息的存储器存取的数目,因为双向预测本身包含使用运动信息用于两个不同参考图片列表。另外,识别的参考块及存取的数目较高。因此,双向预测与ARP的组合会增加解码器复杂度。
本发明提出用以解决ARP的上文所提到的问题以便减少视频解码器复杂度的各种实例技术。下文列举的技术中的每一者相对于ARP的当前提议减小执行ARP及其它相关联的视频译码技术所需要的存储器存取的数目。
图13是说明根据本发明的技术的使用视图间预测用于一个参考图片列表且使用时间预测用于另一参考图片列表的双向ARP的实例预测结构的概念图。在图13的实例中,视频编码器20和/或视频解码器30经配置以使用双向预测及ARP译码当前视频块250。所述双向预测包含用于参考图片列表X的时间预测(例如,第一预测方向)及用于参考图片列表Y的视图间预测(例如,第二预测方向)。
根据图13的技术,视频编码器20和/或视频解码器30经配置而以与上文参看图12所描述的相同方式识别参考图片列表X(例如,第一预测方向)的参考块206(BaseX)、参考块216(BaseTrefX)及参考块212(CurrTrefX)。TMV 210用于分别相对于参考块206(BaseX)及当前视频块250识别参考块216(BaseTrefX)及参考块212(CurrTrefX)。另外,视频编码器20和/或视频解码器30经配置以使用DMV 254(即,以与上文参看图12所描述的相同方式)识别参考图片列表Y的参考块256(BaseY)(例如,第二预测方向)
然而,视频编码器20和/或视频解码器30不使用与参考块256(BaseY)相关联的时间运动信息来识别CurrTrefY及BaseTrefY。而是,根据本发明的技术,视频编码器20和/或视频解码器30可经配置以使用参考列表X的时间运动信息(即,TMV 210)来识别CurrTrefY及BaseTrefY。如中图13所展示,视频编码器20和/或视频解码器30经配置以相对于参考块256(BaseY)使用TMV 210识别视图V0中的参考块290(BaseTrefY)。即,视频编码器20和/或视频解码器30经配置以使用DMV 254及TMV 210两者识别参考块290(BaseTrefY)。视频编码器20和/或视频解码器30进一步经配置以使用TMV 210识别与当前视频块250相同的视图(Vm)中的CurrTrefY。因此,参考块212充当CurrTrefX及CurrTrefY两者。因此,使用本发明的技术,视频编码器20和/或视频解码器30在使用双向预测执行ARP时仅识别及存取5个参考块而不是6个。
总之,通过识别对应于参考图片列表Y(例如,第二预测方向)的视图间ARP的参考块,视频编码器20和视频解码器30可使用与参考图片列表X的时间预测相关联的时间运动信息(例如图13中的TMV 210)来识别不同存取单元中的参考块(即,参考块290及212)。在此情况下,在执行视图间ARP时,不需要产生与当前视图不同的存取单元中的参考块(即,参考块212),这是因为其与针对参考图片列表X的时间ARP所识别的参考块相同。即,参考块212用于时间ARP及视图间ARP两者。
以此方式,再使用用于第一预测方向的时间运动信息以用于第二预测方向。因此,需要作出对时间运动信息的更少的存储器存取,这是因为不需要存取由对应于第二预测方向的第一经编码块的运动向量识别的块的时间运动信息,因此允许更快速的视频解码。另外,在执行ARP时使用的参考块的总数可从6减小到5,其导致在使用乘法及加法运算的内插方面较小的计算复杂度。同样,在执行双向帧间预测时,视频编码器20可经配置以在编码第二预测方向时再使用用于第一预测方向的时间运动信息。
在本发明的另一实例中,视频编码器20和视频解码器30可经配置以在双向预测的一个预测方向(例如,对应于参考图片列表X)对应于时间参考图片且另一预测方向(例如,对应于参考图片列表Y)对应于视图间参考图片时执行简化的ARP过程。在此情况下,对于对应于参考图片列表X的时间ARP,视频编码器20和视频解码器30可经配置以使用与所述视图间参考图片相关联的所述视差运动向量(MVY)识别参考视图中的参考块(例如,图12中的参考块273),而不是使用从NBDV/DoNBDV导出过程导出的视差向量。同时,来自NBDV或DoNBDV过程的视差向量保持改变,所述视差向量可仍用于视图间运动预测中以产生IPMVC或IDMVC。
应注意,以上方法可应用于PU层级ARP或块层级ARP两者。下文将更详细地描述PU层级及块层级ARP。
现将论述用于块层级ARP的技术。不同于以上描述,其中一个PU内的所有块共享用于ARP(有时被称为PU层级ARP)的相同运动信息,在块层级ARP中,一个PU分裂成若干子块(例如,8×8子块)且每一子块与其自身的导出的运动信息相关联以执行ARP。即,每一子块共享与当前PU相同的运动信息。然而,可针对每一子块确定所导出的运动向量(即,时间ARP中的视差向量或视图间ARP中的时间运动向量)。
图14是说明基于块的时间ARP的概念图。如图14中所展示,当前图片302包含被划分成四个子块300a、300b、300c及300d的当前块300(Curr)。运动向量310(mvLX)是用于对当前块300执行帧间预测的运动向量。运动向量310指向参考图片314中的参考块312(CurrTref)(其包含子块312a-d)。当前图片302及参考图片314在同一视图(Vm)中。
对于基于块的时间ARP,默认所导出的运动向量用于子块300a-d中的每一者。对于时间ARP,默认所导出的运动向量是由图14中的第i子块的DV[i]标示的视差向量,且可使用NBDV导出过程导出,与当前ARP中一样。即,可对子块300a-d中的每一者执行NBDV导出过程以导出子块300a-d中的每一者的DV。所导出的DV中的每一者指向参考视图308中的特定参考块306a-d(Base)。例如,DV 304(DV[0])指向参考块306a且DV 305(DV[1])指向参考块306b。
参考视图308在与当前图片302相同的时间实例处,但在另一视图中。在参考块312内的子块312a-d中的一者的中心位置含有视差运动向量时,更新当前子块300a-d中的对应一者的视差向量DV[i]以使用所述视差运动向量。即,例如,如果对应于当前子块300a的参考子块312a的中心位置具有相关联的视差运动向量,那么与参考子块312a相关联的视差运动向量被用作子块300a的视差向量。
一旦已经识别参考块306a-d中的每一者,运动向量310可用于找到参考图片318中的参考块316a-d(BaseTRef)。参考图片318在与当前图片302不同的时间实例以及不同的视图中。接着可通过从对应参考块316a-d(BaseTref)减去参考块306a-d(Base)而确定残差预测符。接着可对子块300a-d中的每一者执行ARP。
图15是说明基于块的视图间ARP的概念图。如图15中所展示,当前图片352包含被划分成四个子块350、350b、350c及350d的当前块350(Curr)。视差运动向量360(DMV)是用于对当前块350执行视图间预测的视差运动向量。视差运动向量360指向参考图片358中的参考块356(Base)(其包含子块356a-d)。当前图片352及参考图片358在同一时间实例中但在不同视图中。
对于基于块的视图间ARP,默认所导出的运动向量用于子块350a-d中的每一者。对于视图间ARP,默认所导出的运动向量是由图15中的第i子块的mvLX[i]标示的运动向量,且可被设定为覆盖子块356a-d中的每一者的中心位置的时间运动向量,这与当前ARP中一样。即,覆盖子块356内的第i 8×8块的中心位置的块含有时间运动向量,将mvLX[i]更新为所述时间运动向量。
所导出的运动向量中的每一者指向参考视图368中的特定参考块366a-d(BaseTref)。例如,运动向量354(mvLX[0])指向参考块368a且运动向量355(mvLX[3])指向参考块366d。
一旦已经识别参考块366a-d中的每一者,视差运动向量360可用于找到参考图片364中的参考块362a-d(CurrTRef)。参考图片364在与当前图片352不同的时间实例中。接着可通过从对应参考块366a-d(BaseTref)减去参考块362a-d(CurrTref)而确定残差预测符。接着可对子块350a-d中的每一者执行ARP。
如上文所描述,对于基于块的时间ARP,运动向量310被存取且用于定位参考块312(CurrTref)。同样,对于基于块的视图间ARP,视差运动向量360被存取且用于定位参考块356(Base)。
图16是说明使用子PU合并候选者的基于块的ARP的概念图。在启用子PU视图间运动预测时,存取由来自NBDV/DoNBDV导出过程的所导出的视差向量410识别的一个参考块(406)的运动信息以导出子PU合并候选者。在确定子PU合并候选者之后,即,对于块400(Curr)内的每一子PU,其将具有其时间运动信息,这由如图14中所展示的由运动向量404(mvLX[0])及运动向量405(mvLX[1])标示。运动向量404及405可用于识别参考块412(CurrTref)及参考块416(BaseTref)。
在调用ARP过程时,还存取参考块412(CurrTRef)内的每一子块(例如,8×8块)的运动信息。在对应的子块412a-d(CurrRef)与视差运动向量相关联时,所述视差运动向量可用于定位参考视图中的参考块(例如,块406)。
因此,可需要存取两个块的运动信息。即,存取由来自NBDV/DoNBDV过程的DV识别的一个块的运动信息以用于子PU视图间合并候选者。另外,存取由任何导出的时间运动信息识别的块的运动信息。
3D-HEVC中的ARP的前述技术展现若干缺点。作为一个实例,在子PU视图间合并预测及块层级时间ARP两者用于译码一个PU时,存取两个参考块的运动信息。一个是由从DoNBDV/NBDV导出过程导出的视差向量识别的参考视图中的参考块。另外,存取对应的运动信息以导出子PU视图间合并候选者。在导出子PU视图间合并候选者之后,存取时间参考图片中的另一块以检查时间参考图片中的块是否含有视差运动向量。与不同块相关联的运动信息的双重存取显著增加了视频解码器设计的复杂度,且可减小解码器处理量。
作为另一缺点,在使用子PU(即,块层级)ARP时,与指向当前块的时间运动向量的参考块相关联的视差运动向量用于更新默认视差向量。对于一个子块块,即使所述子块具有与其相邻块(左边、上方、下方或右边)相同的视差运动向量,仍在每一子块处执行ARP过程,因此增加视频解码器复杂度。
本发明提出用以解决ARP的上文所提到的问题以便减少视频解码器复杂度的各种实例技术。下文列举的技术中的每一者相对于ARP的当前提议减小执行ARP及其它相关联的视频译码技术所需要的存储器存取的数目。
在本发明的一个实例中,在启用子PU视图间运动预测且子PU视图间合并候选者(其对应于时间运动信息)应用于当前PU时,视频编码器20和视频解码器30可经配置以停用块层级ARP。而是,可启用PU层级ARP。
在启用子PU视图间运动预测且应用PU层级ARP时,视频编码器20和视频解码器30可确定每一子PU的时间运动信息。即,每一子PU具有其自身的时间运动信息。然而,视频编码器20和视频解码器30针对所有子PU确定同一视差向量。所述时间运动信息及视差向量用于导出残差及残差预测符,如上文所描述。应注意,在子PU视图间运动预测适用时,所使用的ARP过程是时间ARP。
在不使用子PU视图间运动预测时使用以下实例技术。在一个实例中,对于时间ARP,视频编码器20和视频解码器30可确定每一子PU的视差向量。在一个实例中,所述所确定的视差向量可为从由时间参考图片中的当前子PU的时间运动信息识别的当前子PU的参考块导出的视差运动信息。对于视图间ARP,视频编码器20和视频解码器30可确定每一子PU的时间运动信息。在一个实例中,所述时间运动信息可从由视图间参考图片中的当前子PU的视差运动信息识别的当前子PU的参考块导出。
在本发明的另一实例中,在启用子PU视图间运动预测时,视频编码器20及视频解码器可经配置以在相关联的参考图片是时间参考图片的情况下停用对应于特定参考图片列表的一个预测方向的块层级ARP。在此情况下,视频编码器20和视频解码器30可经配置以仅针对此预测方向启用PU层级ARP。
在一个实例中,应用以下过程。如果当前PU使用视图间合并候选者,那么视频编码器20和视频解码器30确定每一子PU的时间运动信息。然而,视频编码器20和视频解码器30针对所有子PU确定同一视差向量。时间运动信息及视差向量用于导出残差及残差预测符,如上文所描述。
否则,如果当前PU使用其它可用的合并候选者(即,不是视图间合并候选者)中的一者,那么视频编码器20和视频解码器30应用PU层级时间ARP,其中如果对应的参考图片是时间参考图片,那么当前PU内的所有块共享一个预测方向的同一运动信息。对于一个预测方向,如果对应的参考图片是视图间参考图片,那么视频编码器20和视频解码器30使用PU层级视图间ARP,其中当前PU内的所有块共享同一运动信息。在此情况下,还可应用块层级ARP,其中当前PU内的块可共享同一视差运动信息及不同时间运动信息。
在本发明的另一实例中,在启用块层级ARP时,视频编码器20和视频解码器30可基于运动信息而确定用于执行ARP的块大小。在一个实例中,对于对应于特定参考图片列表的一个预测方向,如果对应的参考图片是时间参考图片,那么视频编码器20和视频解码器30可使用块层级ARP。在此情况下,当前块具有与其相邻块(例如,左边、上方、下方及/或右边相邻块)相同的视差运动信息。此外,当前块及相邻块合并在一起且针对合并的块执行一次ARP。
在本发明的另一实例中,对于对应于参考图片列表的一个预测方向,如果对应的参考图片是视图间参考图片,那么视频编码器20和视频解码器30可使用块层级ARP。在此情况下,当前块具有与其相邻块(例如,左边、上方、下方及/或右边相邻块)相同的时间运动信息。此外,当前块及相邻块合并在一起且针对合并的块执行一次ARP。
图17是说明可经配置以执行本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可以对视频切片内的视频块执行帧内和帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间或视图间预测来减少或移除视频序列的邻近帧或图片内的视频中的冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可包含若干基于时间的压缩模式中的任一者。
在图17的实例中,视频编码器20包含视频数据存储器235、预测处理单元241、经解码图片缓冲器(DPB)264、求和器251、变换处理单元252、量化处理单元255及熵编码单元257。预测处理单元241包含运动估计单元242、运动及视差补偿单元244、高级残差预测(ARP)单元245及帧内预测处理单元246。为了视频块重构,视频编码器20还包含反量化处理单元259、反变换处理单元260及求和器262。还可包含解块滤波器(图17中未图示)以便对块边界进行滤波,以将成块性假影从经重构视频移除。在需要时,解块滤波器将通常对求和器262的输出进行滤波。除了解块滤波器之外,还可使用额外的环路过滤器(环路内或环路后)。
在各种实例中,视频编码器20的一或多个硬件单元可经配置以执行本发明的技术。例如,运动及视差补偿单元244及ARP单元245可单独地或与视频编码器20的其它单元组合地执行本发明的技术。
如图17中所展示,视频编码器20接收待编码的视频帧(例如,纹理图像或深度图)内的视频数据(例如,视频数据块(例如,明度块、色度块或深度块))。视频数据存储器235可存储待由视频编码器20的组件编码的视频数据。可(例如)从视频源18获得存储在视频数据存储器40中的视频数据。DPB 264是存储参考视频数据以供视频编码器20用于编码视频数据(例如,在帧内或帧间译码模式中,也被称作帧内或帧间预测译码模式)的存储器缓冲器。视频数据存储器235和DPB 264可由多种存储器装置中的任一者形成,例如包含同步DRAM(SDRAM)的动态随机存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器235和DPB 264可由同一存储器装置或单独的存储器装置提供。在各种实例中,视频数据存储器235可与视频编码器20的其它组件一起在芯片上,或相对于所述组件在芯片外。
如图17中所展示,视频编码器20接收视频数据且将所述数据分割成视频块。此分割还可包含分割成切片、瓦片或其它更大单元,以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20一般说明对待编码的视频切片内的视频块编码的组件。可将切片划分成多个视频块(且可能划分成被称作瓦片的视频块的集合)。
预测处理单元241可基于误差结果(例如,译码速率及失真等级)针对当前视频块选择多种可能译码模式中的一者,例如,多种帧内译码模式中的一者或多种帧间译码模式中的一者。预测处理单元241可将所得的经帧内译码或经帧间译码块提供到求和器251以产生残差块数据,且提供到求和器262以重构经编码块以用作参考图片。
预测处理单元241内的帧内预测处理单元246相对于与待译码当前块在相同的帧或切片中的一或多个相邻块执行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元241内的运动估计单元242及运动与视差补偿单元244相对于一或多个参考图片(包含视图间参考图片)中的一或多个预测块执行当前视频块的帧间预测性译码(包含视图间译码)以例如提供时间和/或视图间压缩。
运动估计单元242可经配置以根据用于视频序列的预定模式为视频切片确定帧间预测模式。运动估计单元242与运动与视差补偿单元244可高度集成,但出于概念目的单独地加以说明。由运动估计单元242执行的运动估计是产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测块的移位。
预测块是发现在像素差方面紧密匹配待译码视频块的PU的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于DPB 264中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元242可相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元242通过比较经帧间译码切片中的视频块的PU的位置与参考图片(包含时间或视图间参考图片)的预测块的位置来计算PU的运动向量和/或视差运动向量。如上文所描述,运动向量可以用于运动补偿预测,而视差运动向量可以用于视差补偿预测。参考图片可选自第一参考图片列表(列表0或RefPicList0)或第二参考图片列表(列表1或RefPicList1),其中的每一者识别存储在DPB 264中的一或多个参考图片。运动估计单元242将计算出的运动向量发送到熵编码单元257和运动与视差补偿单元244。
通过运动与视差补偿单元244执行的运动和/或视差补偿可涉及基于通过运动估计(可能执行子像素精度的内插)确定的运动向量获取或产生预测块。在接收到当前视频块的PU的运动向量后,运动与视差补偿单元244可以即刻在参考图片列表中的一者中定位所述运动向量指向的预测块。视频编码器20通过从正被译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残差视频块。像素差值形成用于所述块的残差数据,且可包含明度和色度差分量两者。求和器251表示执行此减法运算的一或多个组件。运动与视差补偿单元244还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
视频编码器20(包含ARP单元245及运动及视差补偿单元244)可执行双向预测及ARP技术中的任一者,例如,本文中描述的视图间或时间ARP技术。具体来说,在本发明的一个实例中,视频编码器可经配置以使用双向预测及视图间ARP来编码当前视频数据块。对于当前视频数据块,运动与视差补偿单元244可经配置以确定当前视频数据块的第一预测方向(例如,参考图片列表X)的时间运动信息,且使用针对第一预测方向所确定的时间运动信息而识别第二预测方向(例如,参考图片列表Y)的参考块,其中第二预测方向的参考块在当前视频数据块的不同存取单元中。以此方式,需要对运动信息及参考块的更少的存储器存取来编码当前视频块。
作为如上文所描述由运动估计单元242和运动与视差补偿单元244执行的帧间预测的替代方案,帧内预测单元246可以对当前块执行帧内预测。明确地说,帧内预测处理单元246可以确定用来对当前块进行编码的帧内预测模式。在一些实例中,帧内预测处理单元246可以例如在单独的编码回合期间使用各种帧内预测模式编码当前视频块,并且帧内预测处理单元246(或在一些实例中为预测处理单元241)可以从测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测处理单元246可以使用速率失真分析计算用于各种被测试的帧内预测模式的速率失真值,并且从所述被测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(即,位数目)。帧内预测处理单元246可根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率-失真值。
在任何状况下,在选择用于块的帧内预测模式之后,帧内预测处理单元246可将指示块的选定帧内预测模式的信息提供到熵编码单元257。熵编码单元257可根据本发明的技术对指示所选帧内预测模式的信息进行编码。视频编码器20在所发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表)、对用于各种块的上下文进行编码的定义,以及对最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
在预测处理单元241经由帧间预测或帧内预测产生当前视频块的预测块之后,视频编码器20通过从当前视频块减去预测块而形成残差视频块。残差块中的残差视频数据可包含在一或多个TU中并应用于变换处理单元252。变换处理单元252使用例如离散余弦变换(DCT)或概念上类似变换的变换将残差视频数据变换成残差变换系数。变换处理单元252可将残差视频数据从像素域转换到变换域,例如频域。
变换处理单元252可将所得变换系数发送到量化处理单元255。量化处理单元255量化变换系数以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化处理单元255可接着执行对包含经量化变换系数的矩阵的扫描。替代地,熵编码单元257可执行所述扫描。
在量化之后,熵编码单元257对经量化的变换系数进行熵编码。举例来说,熵编码单元257可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在熵编码单元257进行的熵编码之后,可将经编码视频位流发射到视频解码器30,或将经编码位流存档以供稍后发射或由视频解码器30检索。熵编码单元257还可对正经译码当前视频切片的运动向量和其它语法元素进行熵编码。
反量化处理单元259和反变换处理单元260分别应用反量化和反变换以在像素域中重构残差块,例如以供稍后用作参考图片的参考块。运动与视差补偿单元244可以通过将残差块相加到参考图片列表中的一者内的参考图片中的一者的预测块来计算参考块。运动与视差补偿单元244还可将一或多个内插滤波器应用于经重构的残差块以计算子整数像素值用于运动估计。求和器262将经重构的残差块相加到由运动与视差补偿单元244产生的运动补偿预测块以产生参考块用于存储在DPB 264中。参考块可由运动估计单元242和运动与视差补偿单元244用作参考块以对后续视频帧或图片中的块进行帧间预测。
图18是说明可实施本发明中描述的技术的实例视频解码器30的框图。在图18的实例中,视频解码器30包含视频数据存储器278、熵解码单元280、预测处理单元281、反量化处理单元286、反变换处理单元288、求和器291及经解码图片缓冲器(DPB)292。预测处理单元281包含运动及视差补偿单元282、ARP单元283及帧内预测处理单元284。在一些实例中,视频解码器30可执行一般与相对于来自图17的视频编码器20描述的编码回合互逆的解码回合。
在各种实例中,视频解码器30的一或多个硬件单元可被分派任务以执行本发明的技术。例如,ARP单元283及运动及视差补偿单元282可单独地或与视频编码器的其它单元组合地执行本发明的技术。
视频数据存储器278可存储例如经编码视频位流等视频数据以由视频解码器30的组件解码。可从例如相机等本地视频源经由视频数据的有线或无线网络通信或通过存取物理数据存储媒体而获得存储在视频数据存储器278中的视频数据。视频数据存储器278可形成经译码图片缓冲器(CPB),所述经译码图片缓冲器存储来自经编码视频位流的经编码视频数据。DPB 292是存储供视频解码器30解码视频数据使用(例如,在帧内或帧间译码模式中,还被称作帧内或帧间预测译码模式)的参考视频数据的DPB的一个实例。可通过多种存储器装置中的任一者形成视频数据存储器278及DPB 292,所述存储器装置例如为动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻性RAM(RRAM)或其它类型的存储器装置。可通过同一存储器装置或单独存储器装置提供视频数据存储器278及DPB292。在各种实例中,视频数据存储器278可与视频解码器30的其它组件在芯片上或相对于那些组件在芯片外。
在解码过程期间,视频解码器30接收表示来自视频编码器20的经编码视频切片及相关联的语法元素的视频块的经编码视频位流。视频解码器30的熵解码单元280对所述位流进行熵解码以产生经量化系数、运动向量及其它语法元素。熵解码单元280将运动向量及其它语法元素转发到预测处理单元281。视频解码器30可在视频切片层级及/或视频块层级处接收所述语法元素。
在视频切片被译码为经帧内译码(I)切片时,预测处理单元281的帧内预测处理单元284可基于发信号通知的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。在将视频帧译码为经帧间译码(即,B或P)切片或经视图间译码切片时,预测处理单元281的运动及视差补偿单元282基于从熵解码单元280接收的运动向量、视差运动向量及其它语法元素而产生当前视频切片的视频块的预测块。可从包含视图间参考图片的参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可使用默认建构技术或任何其它技术基于存储在DPB 292中的参考图片而建构参考帧列表RefPicList0及RefPicList1。
运动与视差补偿单元282通过解析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于正解码的当前视频块的预测块。举例来说,运动与视差补偿单元282使用所接收语法元素中的一些语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片和/或经视图间预测的切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量和/或视差运动向量、切片的每一经帧间译码的视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动与视差补偿单元282还可基于内插滤波器执行内插。运动与视差补偿单元282可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在这种情况下,运动与视差补偿单元282可根据所接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测块。
反量化处理单元286对位流中提供的且由熵解码单元280解码的经量化变换系数进行反量化,即解量化。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算的量化参数以确定应应用的量化程度及同样确定应应用的反量化程度。反变换处理单元288对变换系数应用反变换,例如反DCT、反整数变换或概念上类似的反变换过程,以便产生像素域中的残差块。
视频解码器30(包含ARP单元283及运动及视差补偿单元282)可执行双向预测及/或ARP技术中的任一者,例如,本文中描述的视图间或时间ARP技术。具体来说,在本发明的一个实例中,视频解码器30可接收使用双向预测及视图间ARP编码的当前视频数据块。经编码视频数据块可存储在视频数据存储器278中。对于经编码视频数据块,运动及视差补偿单元282可经配置以确定经编码视频数据块的第一预测方向(例如,参考图片列表X)的时间运动信息,且使用针对第一预测方向所确定的时间运动信息来识别第二预测方向(例如,参考图片列表Y)的参考块,其中第二预测方向的参考块在当前视频数据块的不同存取单元中。以此方式,需要对运动信息及参考块的更少的存储器存取来解码所述经编码视频块。
在运动与视差补偿单元282基于运动向量和其它语法元素产生当前视频块的预测块之后,视频解码器30通过将来自反变换处理单元288的残差块与运动与视差补偿单元282产生的对应预测块求和来形成经解码视频块。求和器291表示可执行此求和运算的一或多个组件。视需要,解块滤波器还可应用于对经解码块进行滤波以便移除成块假影。其它环路过滤器(在译码环路中或在译码环路之后)也可用于使像素转变变平滑或者以其它方式提高视频质量。接着将给定帧或图片中的经解码视频块存储在DPB 292中,DPB292存储参考图片用于后续运动补偿。DPB 292还存储经解码视频用于稍后在显示装置(例如,图1的显示装置32)上呈现。
图19为说明根据本发明中描述的技术的用于编码视频块的实例ARP方法的流程图。图19的技术可由包含运动及视差补偿单元244及ARP单元245的视频编码器20的硬件结构的任何组合执行。
在本发明的一个实例中,视频编码器20可经配置以使用ARP及双向预测来编码视频数据块。在此实例中,双向预测包含用于第一预测方向(例如,用于参考图片列表X)的时间预测及用于第二预测方向(例如,用于参考图片列表Y)的视图间预测。运动及视差补偿单元244可经配置以确定所述视频数据块的第一预测方向的时间运动信息(1900)。ARP单元245可经配置以使用所述所确定的时间运动信息来识别第一预测方向的参考块(1910)且使用第一预测方向的所述所确定的时间运动信息来识别不同于第一预测方向的第二预测方向的参考块(1920)。所述参考块可在不同于所述视频数据块的所述存取单元的存取单元中。ARP单元245可进一步经配置以使用第一预测方向及第二预测方向的所述所识别的参考块来执行高级残差预测(1930)。
在本发明的其它实例中,运动及视差补偿单元244可经配置以确定第一经编码视频数据块的第二预测方向的视差运动信息。另外,ARP单元245可经配置以使用所述所确定的时间运动信息来识别第一预测方向的第一参考块,其中第一参考块在第一视图的第二存取单元中。ARP单元245可进一步经配置以使用所述所确定的时间运动信息来识别第二预测方向的第二参考块,且使用所述所确定的时间运动信息及所述所确定的视差运动信息来识别第二预测方向的第三参考块,其中第三参考块在第二视图的第三存取单元中。
图20是说明根据本发明中所描述的技术的用于解码视频块的实例ARP方法的流程图。图20的技术可由视频解码器、ARP单元283及运动及视差补偿单元282的硬件结构的任何组合执行。
在本发明的一个实例中,视频解码器30可经配置以存储第一视图的第一存取单元中的第一经编码视频数据块,其中第一经编码视频数据块是使用高级残差预测及双向预测来编码(2000)。双向预测可包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测。
运动及视差补偿单元282可经配置以确定第一经编码视频数据块的第一预测方向的时间运动信息(2010)。ARP单元283可经配置以确定第一经编码视频数据块的第二预测方向的视差运动信息(2020),且使用第一预测方向的所述所确定的时间运动信息来识别不同于第一预测方向的第二预测方向的参考块(2030)。参考块可在不同于第一存取单元的存取单元中。ARP单元283可进一步经配置以使用第二预测方向的所述所识别的参考块对第一经编码视频数据块执行高级残差预测(2040)。
在本发明的另一实例中,ARP单元238可经配置以使用所述所确定的时间运动信息来识别第一预测方向的参考块,且使用第一预测方向的所述所识别的参考块对第一经编码视频数据块执行高级残差预测。ARP单元283可进一步经配置以使用所述所确定的时间运动信息来识别第二预测方向的第二参考块,且使用所述所确定的时间运动信息及所述所确定的视差运动信息来识别第二预测方向的第三参考块,其中第三参考块在第二视图的第三存取单元中。第一预测方向的第一参考块与第二预测方向的第二参考块相同。
在本发明的另一实例中,视频解码器30可经配置以使用第一预测方向的所述所识别的参考块及第二预测方向的所述所识别的参考块来解码第一经编码视频数据块。
在本发明的另一实例中,视频解码器30可经配置以:使用块层级高级残差预测或预测单元层级高级残差预测中的一者来解码第一经编码视频数据块以产生残差视频数据;使用双向预测、第一预测方向的所述所识别的参考块及第二预测方向的所述所识别的参考块来解码残差数据以产生经解码视频数据块。
在本发明的另一实例中,视频解码器30可进一步经配置以存储第三视图的第四存取单元中的第二经编码视频数据块,其中第二经编码视频数据块是使用高级残差预测及双向预测来编码。双向预测可包含用于第三预测方向的时间预测及用于第四预测方向的视图间预测。
运动及视差补偿单元282可经配置以确定第一经编码视频数据块的第一预测方向的时间运动信息。ARP单元283可经配置以使用所述所确定的时间运动信息来识别第一预测方向的参考块。ARP单元283可进一步使用第一预测方向的所述所确定的时间运动信息来识别不同于第一预测方向的第二预测方向的参考块,其中所述参考块在不同于第一存取单元的存取单元中。ARP单元283还可使用第一预测方向及第二预测方向的所述所识别的参考块对第一经编码视频数据块执行高级残差预测。
在本发明的另一实例中,运动及视差补偿单元282可经配置以确定第一经编码视频数据块的第二预测方向的视差运动信息。ARP单元283可经配置以使用所述所确定的时间运动信息来识别第一预测方向的第一参考块,其中所述第一参考块在第一视图的第二存取单元中。ARP单元283可进一步经配置以使用所述所确定的时间运动信息及所述所确定的视差运动信息来识别第二预测方向的第二参考块,其中所述第二参考块在第二视图的第三存取单元中。
在本发明的另一实例中,视频解码器30可经配置以使用第一预测方向的所述所识别的参考块及第二预测方向的所述所识别的参考块来解码第一经编码视频数据块。视频解码器30可进一步经配置以使用块层级高级残差预测或预测单元层级高级残差预测中的一者来解码第一经编码视频数据块以产生残差视频数据,且使用双向预测、第一预测方向的所述所识别的参考块及第二预测方向的所述所识别的参考块来解码残差数据以产生经解码视频数据块。
在一些实例中,本发明中所描述的技术的一或多个方面可由中间网络装置执行,所述中间网络装置例如为媒体感知网络元件(MANE)、流调适处理器、拼接处理器或编辑处理器。例如,此中间装置可经配置以产生或接收如本发明中所描述的多种信令中的任一者。
在一或多个实例中,所描述的功能可以用硬件、软件、固件或其任何组合来实施。如果以软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
举例来说且并非限制,所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,快闪存储器,或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样,任何连接可恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它瞬时媒体,而是实际上针对非瞬时的有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式重现数据,而光盘使用激光以光学方式重现数据。上述各者的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或IC组(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面,但不必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (14)

1.一种用于解码视频数据的方法,所述方法包括:
接收第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测,且其中所述高级残差预测包括确定所述第一经编码视频数据块的残差块的残差预测符块;
确定所述第一经编码视频数据块的所述第一预测方向的第一时间运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第一预测方向的第一时间参考块,其中所述第一时间参考块在所述第一视图中且在第二存取单元中,所述第二存取单元不同于所述第一存取单元;
导出所述第一经编码视频数据块的所述第一预测方向的视差向量;
使用所述第一预测方向的所述视差向量识别第一视图间参考块,其中所述第一视图间参考块在第二视图中,所述第二视图不同于所述第一视图;
使用所述第一视图间参考块和所述第一预测方向的所述第一时间运动信息识别第二视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第一视图间参考块和所述第二视图间参考块确定第一残差预测符块;
确定所述第一经编码视频数据块的所述第二预测方向的第一视差运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第二预测方向的第二时间参考块,其中所述第二时间参考块与所述第一时间参考块相同;
使用所述第二预测方向的所述第一视差运动信息识别第三视图间参考块,其中所述第三视图间参考块在所述第二视图中;
使用所述第三视图间参考块和所述第一预测方向的所述第一时间运动信息识别第四视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第三视图间参考块和所述第四视图间参考块确定第二残差预测符块;及
使用所述第一时间参考块,所述第二时间参考块,所述第一残差预测符块和所述第二残差预测符块对所述第一经编码视频数据块执行高级残差预测。
2.根据权利要求1所述的方法,所述方法进一步包括:
使用块层级高级残差预测或预测单元层级高级残差预测中的一者解码所述第一经编码视频数据块以产生残差视频数据;及
使用具有所述第一预测方向的所述第一时间参考块及所述第二预测方向的所述第二时间参考块的双向预测解码所述残差数据以产生经解码视频数据块。
3.根据权利要求1所述的方法,其进一步包括:
接收第三视图的第三存取单元中的第二经编码视频数据块,其中所述第二经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第三预测方向的视图间预测及用于第四预测方向的时间预测;
确定所述第二经编码视频数据块的所述第三预测方向的第二视差运动信息;
使用所述第三预测方向的所述第二视差运动信息识别所述第三预测方向的第五视图间参考块,其中所述第五视图间参考块在第四视图中,所述第四视图不同于所述第三视图;
从所述第五视图间参考块导出所述第二经编码视频数据块的所述第三预测方向的运动向量;
使用所述第三预测方向的所述运动向量识别第三时间参考块;
使用所述第五视图间参考块和所述第三预测方向的所述运动向量识别第六视图间参考块;
从所述第五视图间参考块和所述第六视图间参考块确定第三残差预测符块;
确定所述第二经编码视频数据块的所述第四预测方向的第二时间运动信息;
使用所述第四预测方向的所述第二时间运动信息来识别所述第四预测方向的第四时间参考块;
使用所述第三预测方向的所述第二视差运动信息识别第七视图间参考块,其中所述第七视图间参考块与所述第五视图间参考块相同;
使用所述第七视图间参考块和所述第四预测方向的所述第二时间运动信息识别第八视图间参考块;
从所述第七视图间参考块和所述第八视图间参考块确定第四残差预测符块;以及
使用所述第三时间参考块,所述第四时间参考块,所述第三残差预测符块和所述第四残差预测符块对所述第二经编码视频数据块执行高级残差预测。
4.根据权利要求1所述的方法,其进一步包括:
基于图片次序计数值缩放所述第一时间运动信息。
5.一种经配置以解码视频数据的设备,所述设备包括:
视频数据存储器,其经配置以存储第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测且其中所述高级残差预测包括确定所述第一经编码视频数据块的残差块的残差预测符块;及
一或多个处理器,其与所述视频数据存储器通信且经配置以:
确定所述第一经编码视频数据块的所述第一预测方向的第一时间运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第一预测方向的第一时间参考块,其中所述第一时间参考块在所述第一视图中且在第二存取单元中,所述第二存取单元不同于所述第一存取单元;
导出所述第一经编码视频数据块的所述第一预测方向的视差向量;
使用所述第一预测方向的所述视差向量识别第一视图间参考块,其中所述第一视图间参考块在第二视图中,所述第二视图不同于所述第一视图;
使用所述第一视图间参考块和所述第一预测方向的所述第一时间运动信息识别第二视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第一视图间参考块和所述第二视图间参考块确定第一残差预测符块;
确定所述第一经编码视频数据块的所述第二预测方向的第一视差运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第二预测方向的第二时间参考块,其中所述第二时间参考块与所述第一时间参考块相同;
使用所述第二预测方向的所述第一视差运动信息识别第三视图间参考块,其中所述第三视图间参考块在所述第二视图中;
使用所述第三视图间参考块和所述第一预测方向的所述第一时间运动信息识别第四视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第三视图间参考块和所述第四视图间参考块确定第二残差预测符块;及
使用所述第一时间参考块,所述第二时间参考块,所述第一残差预测符块和所述第二残差预测符块对所述第一经编码视频数据块执行高级残差预测。
6.根据权利要求5所述的设备,其中所述一或多个处理器进一步经配置以:
使用块层级高级残差预测或预测单元层级高级残差预测中的一者解码所述第一经编码视频数据块以产生残差视频数据;及
使用具有所述第一预测方向的所述第一时间参考块及所述第二预测方向的所述第二时间参考块的双向预测解码所述残差数据以产生经解码视频数据块。
7.根据权利要求6所述的设备,其进一步包括:
显示器,其经配置以显示所述经解码视频数据块。
8.根据权利要求5所述的设备,其中所述视频数据存储器及所述一或多个处理器收容在以下各者中的一者内:桌上型计算机、笔记本计算机、膝上型计算机、机顶盒、电话手持机、智能电话、智能垫、平板计算机、电视、相机、数字媒体播放器、视频游戏控制台或视频流式传输装置。
9.根据权利要求5所述的设备,
其中所述一或多个处理器进一步经配置以:
接收第三视图的第三存取单元中的第二经编码视频数据块,其中所述第二经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第三预测方向的视图间预测及用于第四预测方向的时间预测;
确定所述第二经编码视频数据块的所述第三预测方向的第二视差运动信息;
使用所述第三预测方向的所述第二视差运动信息识别所述第三预测方向的第五视图间参考块,其中所述第五视图间参考块在第四视图中,所述第四视图不同于所述第三视图;
从所述第五视图间参考块导出所述第二经编码视频数据块的所述第三预测方向的运动向量;
使用所述第三预测方向的所述运动向量识别第三时间参考块;
使用所述第五视图间参考块和所述第三预测方向的所述运动向量识别第六视图间参考块;
从所述第五视图间参考块和所述第六视图间参考块确定第三残差预测符块;
确定所述第二经编码视频数据块的所述第四预测方向的第二时间运动信息;
使用所述第四预测方向的所述第二时间运动信息来识别所述第四预测方向的第四时间参考块;
使用所述第三预测方向的所述第二视差运动信息识别第七视图间参考块,其中所述第七视图间参考块与所述第五视图间参考块相同;
使用所述第七视图间参考块和所述第四预测方向的所述第二时间运动信息识别第八视图间参考块;
从所述第七视图间参考块和所述第八视图间参考块确定第四残差预测符块;及
使用所述第三时间参考块,所述第四时间参考块,所述第三残差预测符块和所述第四残差预测符块对所述第二经编码视频数据块执行高级残差预测。
10.根据权利要求5所述的设备,其中所述一或多个处理器进一步经配置以:
基于图片次序计数值缩放所述第一时间运动信息。
11.一种经配置以解码视频数据的设备,所述设备包括:
用于接收第一视图的第一存取单元中的第一经编码视频数据块的装置,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测,且其中所述高级残差预测包括确定所述第一经编码视频数据块的残差块的残差预测符块;
用于确定所述第一经编码视频数据块的所述第一预测方向的第一时间运动信息的装置;
用于使用所述第一预测方向的所述第一时间运动信息识别所述第一预测方向的第一时间参考块的装置,其中所述第一时间参考块在所述第一视图中且在第二存取单元中,所述第二存取单元不同于所述第一存取单元;
用于导出所述第一经编码视频数据块的所述第一预测方向的视差向量的装置;
用于使用所述第一预测方向的所述视差向量识别第一视图间参考块的装置,其中所述第一视图间参考块在第二视图中,所述第二视图不同于所述第一视图;
用于使用所述第一视图间参考块和所述第一预测方向的所述第一时间运动信息识别第二视图间参考块的装置,所述第二视图间参考块在所述第二视图中;
用于从所述第一视图间参考块和所述第二视图间参考块确定第一残差预测符块的装置;
用于确定所述第一经编码视频数据块的所述第二预测方向的第一视差运动信息的装置;
用于使用所述第一预测方向的所述第一时间运动信息识别所述第二预测方向的第二时间参考块的装置,其中所述第二时间参考块与所述第一时间参考块相同;
用于使用所述第二预测方向的所述第一视差运动信息识别第三视图间参考块的装置,其中所述第三视图间参考块在所述第二视图中;
用于使用所述第三视图间参考块和所述第一预测方向的所述第一时间运动信息识别第四视图间参考块的装置,所述第二视图间参考块在所述第二视图中;
用于从所述第三视图间参考块和所述第四视图间参考块确定第二残差预测符块的装置;及
用于使用所述第一时间参考块,所述第二时间参考块,所述第一残差预测符块和所述第二残差预测符块对所述第一经编码视频数据块执行高级残差预测的装置。
12.根据权利要求11所述的设备,其中所述用于解码所述第一经编码视频数据块的装置包括:
用于使用块层级高级残差预测或预测单元层级高级残差预测中的一者解码所述第一经编码视频数据块以产生残差视频数据的装置;及
用于使用具有所述第一预测方向的所述第一时间参考块及所述第二预测方向的所述第二时间参考块的双向预测解码所述残差数据以产生经解码视频数据块的装置。
13.一种存储指令的计算机可读存储媒体,所述指令在执行时致使经配置以解码视频数据的装置的一或多个处理器:
接收第一视图的第一存取单元中的第一经编码视频数据块,其中所述第一经编码视频数据块是使用高级残差预测及双向预测来编码,所述双向预测包含用于第一预测方向的时间预测及用于第二预测方向的视图间预测且其中所述高级残差预测包括确定所述第一经编码视频数据块的残差块的残差预测符块;
确定所述第一经编码视频数据块的所述第一预测方向的第一时间运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第一预测方向的第一时间参考块,其中所述第一时间参考块在所述第一视图中且在第二存取单元中,所述第二存取单元不同于所述第一存取单元;
导出所述第一经编码视频数据块的所述第一预测方向的视差向量;
使用所述第一预测方向的所述视差向量识别第一视图间参考块,其中所述第一视图间参考块在第二视图中,所述第二视图不同于所述第一视图;
使用所述第一视图间参考块和所述第一预测方向的所述第一时间运动信息识别第二视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第一视图间参考块和所述第二视图间参考块确定第一残差预测符块;
确定所述第一经编码视频数据块的所述第二预测方向的第一视差运动信息;
使用所述第一预测方向的所述第一时间运动信息识别所述第二预测方向的第二时间参考块,其中所述第二时间参考块与所述第一时间参考块相同;
使用所述第二预测方向的所述第一视差运动信息识别第三视图间参考块,其中所述第三视图间参考块在所述第二视图中;
使用所述第三视图间参考块和所述第一预测方向的所述第一时间运动信息识别第四视图间参考块,所述第二视图间参考块在所述第二视图中;
从所述第三视图间参考块和所述第四视图间参考块确定第二残差预测符块;及
使用所述第一时间参考块,所述第二时间参考块,所述第一残差预测符块和所述第二残差预测符块对所述第一经编码视频数据块执行高级残差预测。
14.根据权利要求13所述的计算机可读存储媒体,其中所述指令进一步致使所述一或多个处理器:
使用块层级高级残差预测或预测单元层级高级残差预测中的一者解码所述第一经编码视频数据块以产生残差视频数据;及
使用具有所述第一预测方向的所述第一时间参考块及所述第二预测方向的所述第二时间参考块的双向预测解码所述残差数据以产生经解码视频数据块。
CN201580003706.6A 2014-01-11 2015-01-09 用于3d视频译码的基于块的高级残差预测 Active CN105874799B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461926290P 2014-01-11 2014-01-11
US61/926,290 2014-01-11
US14/592,633 2015-01-08
US14/592,633 US9967592B2 (en) 2014-01-11 2015-01-08 Block-based advanced residual prediction for 3D video coding
PCT/US2015/010878 WO2015106141A1 (en) 2014-01-11 2015-01-09 Block-based advanced residual prediction for 3d video coding

Publications (2)

Publication Number Publication Date
CN105874799A CN105874799A (zh) 2016-08-17
CN105874799B true CN105874799B (zh) 2019-08-09

Family

ID=53522487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580003706.6A Active CN105874799B (zh) 2014-01-11 2015-01-09 用于3d视频译码的基于块的高级残差预测

Country Status (9)

Country Link
US (1) US9967592B2 (zh)
EP (1) EP3092805B1 (zh)
JP (1) JP6522629B2 (zh)
KR (1) KR102331683B1 (zh)
CN (1) CN105874799B (zh)
BR (1) BR112016016012B1 (zh)
ES (1) ES2842109T3 (zh)
HK (1) HK1223757A1 (zh)
WO (1) WO2015106141A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4124034B1 (en) * 2010-12-22 2023-08-23 LG Electronics Inc. Intra prediction in video coding
EP4017006B1 (en) 2011-09-22 2023-09-20 LG Electronics, Inc. Method and apparatus for signaling image information, and decoding method and apparatus using same
EP3117606B1 (en) * 2014-03-13 2018-12-26 Qualcomm Incorporated Simplified advanced residual prediction for 3d-hevc
KR102260146B1 (ko) * 2014-03-31 2021-06-03 인텔렉추얼디스커버리 주식회사 시점 간 움직임 병합 후보 유도 방법 및 장치
WO2016056754A1 (ko) * 2014-10-08 2016-04-14 엘지전자 주식회사 3d 비디오 부호화/복호화 방법 및 장치
WO2016090568A1 (en) 2014-12-10 2016-06-16 Mediatek Singapore Pte. Ltd. Binary tree block partitioning structure
US10382795B2 (en) 2014-12-10 2019-08-13 Mediatek Singapore Pte. Ltd. Method of video coding using binary tree block partitioning
US10200666B2 (en) * 2015-03-04 2019-02-05 Dolby Laboratories Licensing Corporation Coherent motion estimation for stereoscopic video
US11330284B2 (en) * 2015-03-27 2022-05-10 Qualcomm Incorporated Deriving motion information for sub-blocks in video coding
CN115278231A (zh) * 2015-11-11 2022-11-01 三星电子株式会社 对视频进行解码的设备和对视频进行编码的设备
US10652575B2 (en) * 2016-09-15 2020-05-12 Qualcomm Incorporated Linear model chroma intra prediction for video coding
ES2886431T3 (es) * 2016-09-30 2021-12-20 Huawei Tech Co Ltd Método de codificación de vídeo, método de decodificación de video y terminal
WO2018170279A1 (en) 2017-03-17 2018-09-20 Vid Scale, Inc. Predictive coding for 360-degree video based on geometry padding
US10652550B2 (en) 2017-12-22 2020-05-12 Shenzhen China Star Optoelectronics Semiconductor Display Technology Co., Ltd. Compensation table compressing method
CN108172168B (zh) * 2017-12-22 2019-11-15 深圳市华星光电半导体显示技术有限公司 一种补偿表压缩方法
CN111771382B (zh) * 2018-02-26 2022-12-06 交互数字Vc控股公司 帧内预测中基于梯度的边界滤波
WO2020003284A1 (en) 2018-06-29 2020-01-02 Beijing Bytedance Network Technology Co., Ltd. Interaction between lut and amvp
TWI719523B (zh) 2018-06-29 2021-02-21 大陸商北京字節跳動網絡技術有限公司 哪個查找表需要更新或不更新
CN110662053B (zh) 2018-06-29 2022-03-25 北京字节跳动网络技术有限公司 使用查找表的视频处理方法、装置和存储介质
EP3791585A1 (en) 2018-06-29 2021-03-17 Beijing Bytedance Network Technology Co. Ltd. Partial/full pruning when adding a hmvp candidate to merge/amvp
JP7328330B2 (ja) 2018-06-29 2023-08-16 北京字節跳動網絡技術有限公司 Lutにおける動き候補のチェック順序
SG11202012293RA (en) 2018-06-29 2021-01-28 Beijing Bytedance Network Technology Co Ltd Update of look up table: fifo, constrained fifo
JP7460617B2 (ja) 2018-06-29 2024-04-02 北京字節跳動網絡技術有限公司 Lut更新条件
CN110677669B (zh) 2018-07-02 2021-12-07 北京字节跳动网络技术有限公司 具有lic的lut
WO2020053800A1 (en) 2018-09-12 2020-03-19 Beijing Bytedance Network Technology Co., Ltd. How many hmvp candidates to be checked
WO2020084553A1 (en) 2018-10-24 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Motion candidate derivation based on multiple information in sub-block motion vector prediction
KR102648159B1 (ko) 2019-01-10 2024-03-18 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Lut 업데이트의 호출
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
WO2020147773A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Inserting order of motion candidates in lut
US11375178B2 (en) 2019-03-04 2022-06-28 Dolby Laboratories Licensing Corporation Multi-resolution multi-view video rendering
CN113615193A (zh) 2019-03-22 2021-11-05 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
WO2021202468A1 (en) 2020-03-30 2021-10-07 Bytedance Inc. Slice header constraint on collocated pictures

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008005145A (ja) * 2006-06-21 2008-01-10 Sony Corp 画像処理システムおよび方法、復号装置および方法、符号化装置および方法、並びにプログラム
WO2012144829A2 (en) * 2011-04-19 2012-10-26 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding motion vector of multi-view video
CN103503460A (zh) * 2011-04-20 2014-01-08 高通股份有限公司 视频译码中的运动向量预测

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9451283B2 (en) * 2011-07-05 2016-09-20 Texas Instruments Incorporated Method, system and computer program product for selecting a motion vector in scalable video coding
WO2014075236A1 (en) * 2012-11-14 2014-05-22 Mediatek Singapore Pte. Ltd. Methods for residual prediction with pseudo residues in 3d video coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008005145A (ja) * 2006-06-21 2008-01-10 Sony Corp 画像処理システムおよび方法、復号装置および方法、符号化装置および方法、並びにプログラム
WO2012144829A2 (en) * 2011-04-19 2012-10-26 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding motion vector of multi-view video
CN103503460A (zh) * 2011-04-20 2014-01-08 高通股份有限公司 视频译码中的运动向量预测

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3D-CE4.h: Simplification of inter-view ARP;Shiori Sugimoto et al;《JCT-3V MEETING》;20140109;第2.1,2.3节 *
CE4: Further improvements on advanced residual prediction;Zhang L et al;《JCT-3V MEETING》;20131018;第2节 *

Also Published As

Publication number Publication date
KR102331683B1 (ko) 2021-11-25
CN105874799A (zh) 2016-08-17
US9967592B2 (en) 2018-05-08
US20150201212A1 (en) 2015-07-16
BR112016016012A2 (pt) 2017-08-08
ES2842109T3 (es) 2021-07-12
HK1223757A1 (zh) 2017-08-04
JP2017510127A (ja) 2017-04-06
BR112016016012B1 (pt) 2023-11-14
KR20160106604A (ko) 2016-09-12
JP6522629B2 (ja) 2019-05-29
EP3092805B1 (en) 2020-10-07
WO2015106141A1 (en) 2015-07-16
EP3092805A1 (en) 2016-11-16

Similar Documents

Publication Publication Date Title
CN105874799B (zh) 用于3d视频译码的基于块的高级残差预测
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN105556969B (zh) 视频译码中使用视差向量的块识别
TWI526027B (zh) 視訊寫碼中之運動向量預測
CN105379282B (zh) 用于纹理译码的先进残余预测(arp)的方法和设备
CN104904218B (zh) 视差矢量推导
CN105379288B (zh) 处理对视频译码的照明补偿
CN106471806B (zh) 3d-hevc中的简化移位合并候选者及合并列表导出
CN106664422B (zh) 编码和解码视频数据的方法、装置和计算机可读存储媒体
CN104322070B (zh) 用于高效率视频译码的高级别语法扩展
KR102060857B1 (ko) 3d-hevc 를 위한 단순화된 진보된 모션 예측
CN105144715B (zh) 后向视图合成预测
CN104584558B (zh) 用于3d视频的视图间预测的运动向量
CN105027571B (zh) 三维视频译码中导出的视差向量
CN105794209B (zh) 用于译码深度块的方法和装置
CN109891890A (zh) 视频译码中基于子pu的双向运动补偿
TWI536812B (zh) 針對三維(3d)視訊之基於鄰近區塊的差異向量之約束
CN104350749A (zh) 深度图估计的推导
JP6370891B2 (ja) 深さブロックの視差に基づく高度な深さインターコーディング
TW201340724A (zh) 視訊寫碼中之像差向量預測
CN106105212A (zh) 简化的子预测单元(sub‑pu)运动参数继承(mpi)
CN105075267A (zh) 在视频译码中停用用于参考图片列表的视图间预测
JP2016526348A5 (zh)
CN109547800A (zh) 用于3d-hevc的简化高级残余预测
CN105393539A (zh) 用于纹理及深度译码的子pu运动预测

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1223757

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant