CN105308969B - 三维视频中的视图合成 - Google Patents

三维视频中的视图合成 Download PDF

Info

Publication number
CN105308969B
CN105308969B CN201480004292.4A CN201480004292A CN105308969B CN 105308969 B CN105308969 B CN 105308969B CN 201480004292 A CN201480004292 A CN 201480004292A CN 105308969 B CN105308969 B CN 105308969B
Authority
CN
China
Prior art keywords
view
reference picture
vsp
current block
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480004292.4A
Other languages
English (en)
Other versions
CN105308969A (zh
Inventor
陈盈
王益魁
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105308969A publication Critical patent/CN105308969A/zh
Application granted granted Critical
Publication of CN105308969B publication Critical patent/CN105308969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

在一实例中,一种解码视频数据的方法包括:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于所述当前块的所述参考索引对应于所述视图间参考图片时,从经编码位流获得指示所述当前块的视图合成预测VSP模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块。

Description

三维视频中的视图合成
本申请案主张2013年1月10日申请的第61/751,211号美国临时申请案的权益,所述临时申请案的全文在此以引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包括数字电视、数字直播系统、无线广播系统、个人数字助理(personal digital assistant,PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主控台、蜂窝式或卫星无线电电话、所谓“智能型电话(smart phone)”、视频电传会议装置、视频串流装置,及其类似者。数字视频装置实施视频压缩技术,例如,以下各者中描述的视频压缩技术:由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4第10部分的先进视频译码(Advanced Video Coding,AVC)定义的标准;目前在开发中的高效率视频译码(High Efficiency Video Coding,HEVC)标准;和此等标准的扩展。视频装置可通过实施此等视频压缩技术而较有效率地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测,以减少或移除为视频序列所固有的冗余。对于以块为基础的视频译码,可将视频切片(即,图片或图片的部分)分割成视频块,其也可被称作树状结构块(treeblock)、译码单元(coding unit,CU)和/或译码节点(coding node)。一图片的经帧内译码(I)切片中的视频块是使用关于同一图片中的相邻块中的参考样本的空间预测予以编码。一图片的经帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测,或关于其它参考图片中的参考样本的时间预测。
空间预测或时间预测引起用于待译码块的预测性块。残余数据表示原始待译码块与预测性块之间的像素差。根据指向形成预测性块的参考样本块的运动向量以及指示经译码块与预测性块之间的差的残余数据来编码经帧间译码块。根据帧内译码模式和残余数据来编码经帧内译码块。出于进一步压缩起见,可将残余数据从空间域变换到变换域,从而引起残余变换系数,其接着可被量化。可扫描最初以二维阵列而配置的经量化变换系数以便产生一维变换系数向量,且可应用熵译码以实现更多的压缩。
发明内容
大体上,本发明描述用于译码与视图合成预测(view synthesis prediction)相关的信息的技术。视图合成预测通常指用于多视图视频译码的视频译码技术,在多视图视频译码中,当使用视图间预测来译码视图的图片时使用经合成视图分量作为参考图片。本发明的技术包括基于用于视图间参考图片的位流中提供的指示而确定是否应用针对特定视频数据块的视图合成预测。
在一项实例中,一种解码视频数据的方法包括:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于所述当前块的所述参考索引对应于所述视图间参考图片时,从经编码位流获得指示所述当前块的视图合成预测(VSP)模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块。
在另一实例中,一种用于解码视频数据的设备包括:存储器,其存储包括当前块的视频数据;以及一或多个处理器,其经配置以:确定用于所述当前块的参考索引是否对应于视图间参考图片;以及当用于所述当前块的所述参考索引对应于所述视图间参考图片时,从经编码位流获得指示所述当前块的视图合成预测(VSP)模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块。
在另一实例中,一种编码视频数据的方法包括:确定用于当前块的参考索引是否对应于视图间参考图片;当用于所述当前块的所述参考索引对应于所述视图间参考图片时,产生指示所述当前块的视图合成预测(VSP)模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块;以及在一位流中编码指示所述VSP模式的所述数据。
在另一实例中,一种用于编码视频数据的设备包括:存储器,其存储包括当前块的视频数据;以及一或多个处理器,其经配置以:确定用于当前块的参考索引是否对应于视图间参考图片;当用于所述当前块的所述参考索引对应于所述视图间参考图片时,产生指示所述当前块的视图合成预测(VSP)模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块;以及在一位流中编码指示所述VSP模式的所述数据。
在另一实例中,一种非暂时性计算机可读媒体具有存储于其上的指令,所述指令在执行时致使一或多个处理器:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于所述当前块的所述参考索引对应于所述视图间参考图片时,译码指示所述当前块的视图合成预测(VSP)模式的数据,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块。
在另一实例中,一种用于译码视频数据的设备包括:用于确定用于当前块的参考索引是否对应于视图间参考图片的装置;以及当用于所述当前块的所述参考索引对应于所述视图间参考图片时,用于译码指示所述当前块的视图合成预测(VSP)模式的数据的装置,其中用于所述参考索引的所述VSP模式指示是否从所述视图间参考图片而运用视图合成预测来预测所述当前块。
附图和以下描述中阐述一或多项实例的细节。其它特征、目标和优点将从所述描述和所述图式以及从权利要求书显而易见。
附图说明
图1为说明可利用本发明所描述的技术的实例视频编码和解码系统的框图。
图2为说明可实施本发明所描述的技术的实例视频编码器的框图。
图3为说明可实施本发明所描述的技术的实例视频解码器的框图。
图4为说明译码多视图视频译码(Multi-view Video Coding,MVC)序列的概念图。
图5为说明实例MVC预测图案的概念图。
图6为说明用于译码与视图合成预测相关的信息的实例方法的流程图。
图7为说明用于译码与视图合成预测相关的信息的另一实例方法的流程图。
具体实施方式
大体上,本发明描述用于译码和处理多视图视频数据(例如,用以产生三维(3D)效果的视频数据)的技术。因此,本发明的方面可与基于先进编码解码器的3D视频译码(包括具有深度图(depth map)的图片的两个或两个以上视图的译码)相关。特定来说,本发明的方面可与3D视频译码程序中的视图合成预测支持信令相关。
本发明的技术可应用于多种不同视频译码标准。举例来说,视频译码标准包括ITU-TH.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-TH.263、ISO/IEC MPEG-4 Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC,或H.264/AVC),包括其可缩放视频译码(Scalable Video Coding,SVC)和多视图视频译码(MVC)扩展。“用于一般视听服务的先进视频译码(Advanced video coding for genericaudiovisual services)”(ITU-T建议H.264,2010年3月)中描述MVC的近期联合草案。
另外,存在新视频译码标准,即,HEVC,其已由ITU-T视频译码专家团体(VideoCoding Experts Group,VCEG)和ISO/IEC动画专家团体(Motion Picture Experts Group,MPEG)的视频译码联合合作团队(Joint Collaboration Team on Video Coding,JCT-VC)开发。HEVC的近期工作草案(Working Draft,WD)(且在下文中被称作HEVC WD4)可得自http://phenix.int-evry.fr/jct/doc_end_user/documents/6_Torino/wg11/JCTVC-F803-v8.zip。HEVC的另一WD(且在下文中被称作HEVC WD9)可得自http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-V10.zip。
MPEG中的近期标准化活动包括用于3D视频技术的征求提案(Call for Proposal,CfP)。在回应当中,选择技术以包括于当前3D参考软件中。一种潜在标准为以H.264/AVC为基础的3D视频译码,其可译码用于每一视图的纹理和深度两者。文件JCT3V-B1002(“3D-AVC草案文本4(3D-AVC Draft Text 4)”,2012年10月13日到19日,中国上海,ITU-T SG 16 WP3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作团队第2次会议,可公开地得自http://phenix.it-sudparis.eu/jct2/doc_end_user/current_document.php?id=456)中描述用于以AVC为基础的3D视频译码(3D-AVC)的主要译码工具(在本文中被称作3DV WD4)。最新参考软件描述为Miska M.Hannuksela的“用于基于AVC的3D视频译码的测试模型(Test Model for AVC based 3D video coding)”(ISO/IEC JTC1/SC29/WG11MPEG2011/N12558,2012年2月,美国圣荷西)。最新参考软件可在本文中被称作ATM或3D-ATM,且可公开地得自http://mpeg3dv.research.nokia.com/svn/mpeg3dv/trunk/。
在一些实例中,本发明的技术可应用于基于H.264/AVC的3D视频(3DV)译码标准。因此,出于说明的目的,主要地关于ITU-T H.264/AVC的3DV扩展来描述本发明的技术。然而,应理解,所述技术可应用于译码用以产生三维效果的视频数据的其它标准,例如,HEVC标准的3D视频(3DV)扩展,或其它译码标准。
在任何状况下,根据某些视频译码系统,可使用运动估计和运动补偿以减少视频序列中的时间冗余,以便实现数据压缩。在此状况下,可产生运动向量,所述运动向量识别视频数据的预测性块,例如,来自另一视频图片或切片的块,其可用以预测正被译码的当前视频块的值。从当前视频块的值减去预测性视频块的值以产生残余数据块。将运动信息(例如,运动向量、运动向量索引、预测方向或其它信息)连同残余数据一起从视频编码器传达到视频解码器。所述解码器可定位同一预测性块(基于运动向量),且通过组合残余数据与预测性块的数据而重新建构经编码视频块。
关于3D视频译码,为了产生视频的三维效果,可同时地或几乎同时地展示场景的两个视图,例如,左眼视图和右眼视图。可从表示检视者的左眼与右眼之间的水平视差的稍微不同水平位置俘获(或产生,例如,作为经计算机产生图形)同一场景的两个图片,其对应于所述场景的左眼视图和右眼视图。通过同时地或几乎同时地显示这两个图片,使得左眼视图图片由检视者的左眼感知且右眼视图图片由检视者的右眼感知,检视者可体验三维视频效果。
与多视图译码(或立体视图译码)相关的视频译码技术通常可包括视图间预测和/或译码深度信息。视图间预测通常包括使用标准帧内预测或帧间预测来译码基础视图的图片,接着预测其它视图相对于基础视图或其它视图的图片。以此方式,可相对于基础视图或另一非基础视图的图片来预测非基础视图的一些图片。
通常,当相对于参考图片来译码一图片时,视频译码装置信令所述参考图片作为参考图片列表的成员。因此,对于视图间译码,添加到参考图片列表的参考图片除了包括当前视图的其它图片以外还可包括其它视图的图片,例如,用于时间预测。参考图片列表建构程序可灵活地配置时间预测参考和视图预测参考。此情形可不仅提供潜在译码效率增益,而且提供错误复原,这是因为接着可将参考图片选择和冗余图片机制扩展到视图维度(view dimension)。
在3DV的当前上下文中,视频译码器可译码用于多视图位流的每一视图的纹理信息(例如,明度(luminance)/亮度(brightness)和色度(chrominance)/色彩(colofr))和深度信息两者。因此,3DV视频译码器可经配置以译码深度图。深度图为像素值表示对应纹理图片中展示的对象的三维深度的图片。深度图可被译码为存取单元的另一视图。即,除了用于不同视图的纹理图片以外,存取单元中表示的一或多个视图还可包括相应深度图。用于视图的深度图也可被称作存取单元的“深度视图分量(depth view component)”。术语“视图分量”可用以指代存取单元的特定视图的纹理视图分量和深度视图分量两者。
因此,3DV位流可包括多个视图的经译码表示,所述视图中每一者可含有纹理信息(纹理视图分量)和深度信息(深度视图分量)两者。尽管3DV还含有多个视图的纹理,但在一些状况下,3DV位流可与多视图位流兼容。
通过提供深度信息,一装置可渲染用于除了位流中提供的视图以外的各种视图的图片。举例来说,若在位流中提供具有深度信息的两个视图,则客户端装置可使用深度信息以产生用于第三视图(例如,在位流的两个经译码视图之间)的图片。此等图片的产生被称作以深度图像为基础的渲染(depth image based rendering,DIBR)。DIBR可用以基于可用纹理图像和深度图像而产生视图。此产生程序被称为视图合成。
视图合成可用于在视图的解码之后的后处理(也称作“回路后(post-loop)”视图合成)。另外或替代地,视图合成可用以产生用于视图间预测的参考图片(也称作“回路内(in-loop)”视图合成)。应理解,DIBR可用以渲染纹理图片、深度图片(通常被称作深度图),或此两者。一般来说,深度图被表示为相似于纹理图片的明度(明度)数据,而不包括色度信息,只是深度图的像素值表示用于对应纹理信息而非亮度信息的深度。
关于回路内视图合成,使用视图合成而产生的参考图片(有时被称作视图合成参考图片(view synthesis reference picture,VSRP)(或替代地,视图合成预测图片))可用作相似于时间帧间预测参考图片或视图间参考图片的参考图片。VSRP可包括于参考图片列表中。在常规译码技术的一些特定设计中,可使用多个视图(具有深度)以经由DIBR而产生仅仅一个VSRP。因此,对于当前正被译码的图片,可在此等常规译码技术中可得到仅一个VSRP。
用于增强型纹理译码的当前以H.264/AVC为基础的3D视频译码标准(上文所提及的WD4)中支持回路内视图合成预测(VSP)。为了启用VSP以用于译码当前视图,可将同一存取单元的经先前译码纹理视图分量和深度视图分量用于视图合成。由VSP引起的经合成图片在时间参考帧和视图间参考帧之后包括于初始参考图片列表(例如,RefPicList0和/或RefPicList1)中。
文件“3D-CE1.a:一般化视图合成预测模式(GVSP)(3D-CE1.a:Generalized ViewSynthesis Prediction(GVSP)mode)”(JCT3V-B0054,2012年10月13日到19日,中国上海,ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作团队第2次会议)提议一种被称作一般化视图合成预测(generalized view synthesisprediction,GVSP)的视图合成程序。在GVSP中,在多个层级(宏块层级或较低层级)处引入旗标,以指示是否将块译码为跳过模式以及从视图合成图片来预测块。
视图合成预测的信令可基于传统参考索引,其在MB层级信令方面对H.264/AVC设计是透明的。举例来说,对于每一MB,视频译码器可基于识别参考图片列表中的视图合成图片的参考索引而确定是否使用视图合成,且可在切片标头中明确地信令视图合成参考索引。此设计可支持双向预测,其中运用视图合成图片来预测一个方向且从正常时间图片或视图间参考图片来预测另一方向。此设计还支持待在切片层级中以及在宏块层级中调适的多个视图合成图片。
然而,在当前设计(如被称作3D-ATM(如上文所提及)的当前3D AVC参考软件中所阐述)中,在运作中(on the fly)进行以块为基础的视图合成预测。“在运作中”执行以块为基础的视图合成预测意味着在需要视图合成块以前不产生视图合成参考块。因此,视图合成预测图片(作为参考图片)不存在(例如,预产生和包括)于参考图片列表中。
然而,用于执行运动补偿的某一硬件可具有使用一个参考帧和一运动向量作为输入的旧版(例如,成熟)运动补偿模块。因此,当前在流通中的至少一些H.264/AVC运动补偿模块可不用于在运作中视图合成预测,这是因为不存在经预产生视图合成图片作为初始输入。
为了补偿旧版硬件,而非如上文所描述在运作中执行视图合成,视频译码器可总是产生视图合成图片。即,视频译码器可产生用于图片序列的视图合成图片,且向所述视图合成图片指派参考图片列表中的参考图片索引值。然而,若总是产生视图合成预测图片,则没有可能利用以块为基础的(“在运作中”)视图合成预测,此情形可影响计算效率和存储器效率。在典型状况下,此信令程序可导致译码效率降级。另外,以参考索引信令为基础的机制可需要明确参考图片列表修改命令以使视图合成图片处于参考图片列表的理想位置,此情形可进一步影响计算效率。
本发明辨识可在运用常规译码技术(例如,关于H.264/AVC的3DV扩展)的情况下出现的某些问题。举例来说,没有可能关断上文针对视图合成预测所描述的以参考索引为基础的信令机制。举例来说,可没有可能在不妨碍3D-ATM扩展的回溯兼容性目标的情况下关断3D-ATM的以当前参考索引为基础的信令机制。
因此,支持以块为基础的视图合成预测的新硬件模块可为视频译码器所需要。另外,当图片序列具有关联视图合成图片(seq_view_synthesis_flag等于1)时,视频译码器必须产生用于视图合成图片的额外参考索引值,使得所述参考索引值可用以在出于预测的目的而产生和使用视频合成图片的例子中被指派。因此,即使当在译码期间实际上不产生视图合成图片时,视频译码器还产生额外参考索引值,从而影响计算效率和/或译码效率。
根据本发明的方面,在切片标头中不特定地指示VSP图片的参考索引,或在参考图片列表建构期间不添加VSP图片的参考索引。取而代之,可针对对应于视图间参考图片的每一参考索引而在MB或MB分割区层级处信令一或多个语法元素(例如,旗标)。此旗标可指示VSP是否应用于针对所述参考索引的MB或MB分割区。换句话说,举例来说,旗标可指示出于预测的目的而使用视图间参考图片,抑或出于预测的目的而使用VSP图片(例如,从视图间参考图片产生)。
上文所描述的旗标不同于3D-ATM的传统vsp_flag。举例来说,上文所描述的旗标可替换3D-ATM的vsp_flag。根据本发明的方面,通过以上文所描述的方式来信令参考索引,可将不同参考索引用于VSP。即,举例来说,可将任何视图间参考索引用于VSP,而非使VSP依靠切片标头中信令的特定VSP参考索引。
在一项实例中,根据本发明的方面,仅当用于当前正被译码的块的参考索引对应于视图间参考图片时才存在VSP旗标。在另一实例中,可针对任何经帧间预测模式存在VSP旗标。在另一实例中,另外或替代地,可仅针对对应于RefPlicList0的参考索引存在所述旗标。在另一实例中,另外或替代地,可针对对应于RefPlicList0和RefPlicList1(若存在)两者的参考索引存在VSP旗标。
图1为说明可利用用于视图合成的本发明的技术的实例视频编码和解码系统10的框图。如图1所展示,系统10包括来源装置12,来源装置12提供待在稍后时间由目的地装置14解码的经编码视频数据。特定来说,来源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。来源装置12和目的地装置14可包含广泛范围的装置中的任一者,包括台式计算机、笔记本(即,膝上型)计算机、平板计算机、机顶盒、例如所谓“智能型”电话等电话手机、所谓“智能型”键台(pad)、电视、相机、显示装置、数字媒体播放器、视频游戏主控台、视频串流装置,或其类似者。在一些状况下,来源装置12和目的地装置14可经装备用于无线通信。
目的地装置14可经由计算机可读媒体16而接收待解码的经编码视频数据。计算机可读媒体16可包含能够将经编码视频数据从来源装置12移动到目的地装置14的任何类型的媒体或装置。在一项实例中,计算机可读媒体16可包含用以使来源装置12能够将经编码视频数据直接地实时发射到目的地装置14的通信媒体。
可根据例如无线通信协议等通信标准来调制经编码视频数据,且将经编码视频数据发射到目的地装置14。通信媒体可包含任何无线或有线通信媒体,例如,射频(radiofrequency,RF)频谱或一或多个实体发射线。通信媒体可形成以包为基础的网络(例如,局域网、广域网,或例如因特网等全域网)的部分。通信媒体可包括路由器、交换器、基站,或可有用于促进从来源装置12到目的地装置14的通信的任何其它设备。
在一些实例中,可将经编码数据从输出接口22输出到存储装置。相似地,可由输入接口从存储装置存取经编码数据。存储装置可包括多种分散式或本机存取式数据存储媒体中的任一者,例如,硬盘、蓝光(Blu-ray)光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适的数字存储媒体。在一另外实例中,存储装置可对应于可存储由来源装置12产生的经编码视频的文件服务器或另一中间存储装置。
目的地装置14可经由串流或下载而从存储装置存取经存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包括网页服务器(例如,对于网站)、FTP服务器、网络附接存储(network attached storage,NAS)装置,或本机磁盘。目的地装置14可经由包括因特网连接的任何标准数据连接而存取经编码视频数据。此数据连接可包括适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等),或此两者的组合。经编码视频数据从存储装置的发射可为串流发射、下载发射,或其组合。
本发明的技术未必限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如,空中电视广播、有线电视发射、卫星电视发射、例如HTTP动态自适应串流(dynamic adaptive streaming over HTTP,DASH)等因特网串流视频发射、编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射来支持例如视频串流、视频播放、视频广播和/或视频电话等应用。
在图1的实例中,来源装置12包括视频来源18、视频编码器20和输出接口22。目的地装置14包括输入接口28、视频解码器30和显示装置32。根据本发明,来源装置12的视频编码器20可经配置以应用用于多视图译码中的运动向量预测的技术。在其它实例中,来源装置和目的地装置可包括其它组件或配置。举例来说,来源装置12可从外部视频来源18(例如,外部相机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包括集成式显示装置。
图1的所说明系统10仅仅为一项实例。用于视图合成的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术通常由视频编码装置执行,但所述技术也可由视频编码器/解码器(通常被称作“CODEC”)执行。此外,本发明的技术还可由视频预处理器执行。来源装置12和目的地装置14仅仅为此等译码装置的实例,在所述译码装置中,来源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中,装置12、14可以实质上对称方式而操作,使得装置12、14中每一者包括视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如,用于视频串流、视频播放、视频广播或视频电话。
来源装置12的视频来源18可包括例如视频相机等视频俘获装置、含有经先前俘获视频的视频封存档,和/或用以从视频内容提供者接收视频的视频馈送接口。作为另外替代例,视频来源18可产生以计算机图形为基础的数据作为来源视频,或产生实况视频、经封存视频和经计算机产生视频的组合。在一些状况下,若视频来源18为视频相机,则来源装置12和目的地装置14可形成所谓相机电话或视频电话。然而,如上文所提及,本发明所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一状况下,经俘获、经预俘获或经计算机产生视频可由视频编码器20编码。经编码视频信息接着可由输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包括:暂时性媒体,例如,无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),例如,硬盘、随身盘、紧密光盘、数字视频光盘、蓝光光盘,或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从来源装置12接收经编码视频数据且将经编码视频数据提供到目的地装置14,例如,经由网络发射。相似地,媒体生产设施(例如,光盘压印设施)的计算装置可从来源装置12接收经编码视频数据且产生含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可被理解为包括各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包括由视频编码器20定义的语法信息,所述语法信息还由视频解码器30使用,其包括描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包含多种显示装置中的任一者,例如,阴极射线管(cathode raytube,CRT)、液晶显示器(liquid crystal display,LCD)、等离子体显示器(plasmadisplay)、有机发光二极管(organic light emitting diode,OLED)显示器,或另一类型的显示装置。
在适用时,视频编码器20和视频解码器30各自可被实施为多种合适的编码器或解码器电路系统中的任一者,例如,一或多个微处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)、离散逻辑电路系统、软件、硬件、固件,或其任何组合。视频编码器20和视频解码器30中每一者可包括于一或多个编码器或解码器中,所述一或多个编码器或解码器中任一者可被集成为组合式视频编码器/解码器(CODEC)的部分。包括视频编码器20和/或视频解码器30的装置可包含集成电路、微处理器,和/或无线通信装置,例如,蜂窝式电话。
尽管图1中未图示,但在一些方面中,视频编码器20和视频解码器30各自可与一音频编码器和解码器集成,且可包括适当MUX-DEMUX单元或其它硬件和软件以处置共同数据串流或分离数据串流中的音频和视频两者的编码。在适用时,MUX-DEMUX单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(user datagram protocol,UDP)等其它协议。
本发明通常可涉及视频编码器20将某些信息“信令”到例如视频解码器30等另一装置。然而,应理解,视频编码器20可通过使某些语法元素与视频数据的各种经编码部分相关联来信令信息。即,视频编码器20可通过将某些语法元素存储到视频数据的各种经编码部分的标头来“信令”数据。在一些状况下,此等语法元素可在由视频解码器30接收和解码之前被编码和存储(例如,存储到存储装置24)。因此,术语“信令”通常可指用于解码经压缩视频数据的语法或其它数据的传达,而无论此传达实时还是近实时发生抑或遍及一时间范围而发生,例如,可能在编码时将语法元素存储到一媒体时发生,所述语法元素接着可在存储到此媒体之后的任何时间由解码装置检索。
视频编码器20和视频解码器30可根据多种视频译码标准而操作。举例来说,视频编码器20和视频解码器30可根据ITU-T H.264/MPEG-4(AVC)标准而操作,所述标准由ITU-T视频译码专家团体(VCEG)连同ISO/IEC动画专家团体(MPEG)一起制订为称为联合视频团队(Joint Video Team,JVT)的集体合作伙伴的产品。在一些方面中,本发明所描述的技术可应用于通常符合H.264标准的装置。ITU-T研究团体的且日期为2005年3月的ITU-TRecommendation H.264的“用于一般视听服务的先进视频译码(Advanced Video Codingfor generic audiovisual services)”中描述H.264标准,其可在本文中称作H.264标准或H.264规格,或H.264/AVC标准或规格。
联合视频团队(JVT)继续致力于对H.264/MPEG-4AVC的扩展。特定来说,一种潜在标准为以H.264/AVC为基础的3D视频译码标准,其用于译码用于视频数据的每一视图的纹理和深度两者。可在如上文所提及的文件JCT3V-B1002中描述用于3DV WD4的主要译码工具。另外,最新参考软件可在本文中称作ATM或3D-ATM,如上文所提及。
然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包括MPEG-2和ITU-T H.263,和高效率视频译码(HEVC)标准。举例来说,在一些例子中,视频编码器20和视频解码器30可执行多视图视频译码(MVC),且可实施HEVC的多视图扩展(所谓MV-HEVC),或以深度增强型HEVC为基础的完全3DV编码解码器(3D-HEVC)。
在H.264/AVC中,可以四种不同可能方式中的一者来分割每一经帧间预测宏块(MB),包括一个16×16MB分割区、两个16×8MB分割区、两个8×16MB分割区,和四个8×8MB分割区。一个MB中的不同MB分割区可针对每一方向(RefPicList0或RefPicList1)具有不同参考索引值。当MB未被分割成四个8×8MB分割区时,MB可在每一方向上具有用于整个MB分割区的仅一个运动向量。当MB被分割成四个8×8MB分割区时,每一8×8MB分割区可被进一步分割成若干子块,所述子块中每一者可在每一方向上具有不同运动向量。可存在用以将8×8MB分割区分割成子块的四种方式,所述子块包括一个8×8子块、两个8×4子块、两个4×8子块,和四个4×4子块。每一子块可在每一方向上具有不同运动向量。
一般来说,H.264/AVC的运动补偿回路与HEVC的运动补偿回路相同。举例来说,运动补偿回路中的当前帧的重新建构可等于经解量化系数r加时间预测P:
在以上公式中,P指示用于P帧的单向预测性帧间预测或用于B帧的双向预测性帧间预测。
然而,HEVC中的运动补偿单位不同于先前视频译码标准中的运动补偿单位。举例来说,先前视频译码标准中的宏块的概念不存在于HEVC中。事实上,宏块由基于泛型四元树状结构方案的灵活阶层式结构替换。在此方案内,定义三种类型的块,即,译码单元(CU)、预测单元(prediction unit,PU)和变换单元(transform unit,TU)。CU为区域分裂的基本单位。CU的概念类似于宏块的概念,但CU不限于最大大小,且CU允许递归式地分裂成四个相等大小的CU以自适应地改进内容。PU为帧间/帧内预测的基本单位。在一些实例中,PU可在单一PU中含有多个任意形状的分割区以有效地译码不规则图像图案(image pattern)。TU为变换的基本单位。可独立于CU的PU来定义CU的TU。然而,TU的大小限于TU所属的CU。块结构成为三种不同概念的此分离可允许每一概念根据其角色而优化,此情形可引起改进型译码效率。
在任何状况下,在视频译码规格中,视频序列通常包括图片系列。图片也可称作“帧”。图片可包括被表示为SL、SCb和SCr的三个样本阵列。SL为二维明度样本阵列(即,块)。SCb为二维Cb色度样本阵列。SCr为二维Cr色度样本阵列。色度样本也可在本文中称作“色度(chroma)”样本。在其它例子中,图片可为单色,且可仅包括明度样本阵列。
在一些例子中,图片可被划分成数个切片,其中每一切片包括数个宏块或译码树状结构单元(CTU,关于HEVC)。切片可包括按光栅扫描次序连续地排序的整数个宏块或CTU。经译码切片可包含切片标头和切片数据。切片的切片标头可为包括提供关于切片的信息的语法元素的语法结构。
本发明可使用术语“视频单元”或“视频块”或“块”来指代一或多个样本块和用以译码所述一或多个样本块的样本的语法结构。实例类型的视频单元或块可包括宏块、宏块分割区、CTU、CU、PU、变换单元(TU)等等。视频数据块通常可被称作处于“块层级(blocklevel)”,其是相对于例如切片层级、图片层级或序列层级的较高层级。
视频编码器20可使用帧内预测或帧间预测以产生预测性块。若视频编码器20使用帧内预测以产生预测性块,则视频编码器20可基于与正被译码的块相关联的图片的样本而产生预测性块。在本发明中,短语“基于”可指示“至少部分地基于”。
如果视频编码器20使用帧间预测以产生预测性块,则视频编码器20可基于除了当前正被译码的图片以外的一或多个图片的经解码样本而产生预测性块。当使用帧间预测以产生一块的预测性块时,本发明可将所述块称作“经帧间译码”或“经帧间预测”。帧间预测可为单向预测性的(即,单向预测)或双向预测性的(即,双向预测)。为了执行单向预测或双向预测,视频编码器20可产生用于当前图片的第一参考图片列表(RefPicList0)和第二参考图片列表(RefPicList1)。所述参考图片列表中的每一者可包括一或多个参考图片。在建构参考图片列表(即,RefPicList0和RefPicList1(若可用))之后,可使用对参考图片列表的参考索引以识别包括于参考图片列表中的任何参考图片。
当使用单向预测时,视频编码器20可在RefPicList0和RefPicList1中任一者或两者中搜索参考图片以确定参考图片内的参考位置。此外,当使用单向预测时,视频编码器20可至少部分地基于对应于参考位置的样本而产生预测性块。此外,当使用单向预测时,视频编码器20可产生指示预测块与参考位置之间的空间位移的单一运动向量。所述运动向量可包括指定预测块与参考位置之间的水平位移的水平分量,且可包括指定预测块与参考位置之间的垂直位移的垂直分量。
当使用双向预测以编码块时,视频编码器20可确定RefPicList0中的参考图片中的第一参考位置,和RefPicList1中的参考图片中的第二参考位置。视频编码器20可至少部分地基于对应于第一参考位置和第二参考位置的样本而产生预测性块。此外,当使用双向预测时,视频编码器20可产生指示预测块与第一参考位置之间的空间位移的第一运动向量,和指示预测块与第二参考位置之间的空间位移的第二运动向量。
在帧内预测性或帧间预测性译码之后,视频编码器20可计算用于当前正被译码的块的残余数据。所述残余数据可对应于未经编码图片的像素与预测性块的像素之间的像素差。视频编码器20接着可变换残余数据。举例来说,视频编码器20可通过应用(例如)离散余弦变换(discrete cosine transform,DCT)、整数变换、小波变换或概念上相似变换而将视频数据从空间域变换到变换域。
在进行任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量化通常指如下程序:量化变换系数以可能地减少用以表示所述系数的数据的量,从而提供进一步压缩。量化程序可减少与所述系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值降值舍位到m位值,其中n大于m。
在量化之后,视频编码器20可扫描变换系数,从而从包括经量化变换系数的二维矩阵产生一维向量。所述扫描可经设计成将较高能量(和因此,较低频率)系数放置于所述阵列前方,且将较低能量(和因此,较高频率)系数放置于所述阵列后方。在一些实例中,视频编码器20可利用预定义扫描次序以扫描经量化变换系数,以产生可被熵编码的序列化向量。在其它实例中,视频编码器20可执行自适应扫描。
在扫描经量化变换系数以形成一维向量之后,视频编码器20可熵编码一维向量,例如,根据上下文自适应可变长度译码(context-adaptive variable length coding,CAVLC)、上下文自适应二进制算术译码(context-adaptive binary arithmetic coding,CABAC)、以语法为基础的上下文自适应二进制算术译码(syntax-based context-adaptivebinary arithmetic coding,SBAC)、机率区间分割熵(Probability IntervalPartitioning Entropy,PIPE)译码,或另一熵编码方法。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视频解码器30用来解码所述视频数据。
视频编码器20可将例如以块为基础的语法数据、以图片为基础的语法数据和以GOP为基础的语法数据等语法数据进一步发送到视频解码器30,例如,在图片标头、块标头、切片标头或GOP标头中。GOP语法数据可描述相应GOP中的数个图片,且图片语法数据可指示用以编码对应图片的编码/预测模式。
视频编码器20可输出包括形成视频数据(即,经译码图片和关联数据)的表示的位序列的位流。所述位流可包含网络抽象层(network abstraction layer,NAL)单元序列。NAL单元为含有以下各者的语法结构:NAL单元中的数据的类型的指示;和呈原始字节序列有效负载(raw byte sequence payload,RBSP)的形式的含有所述数据的字节,其在必要时穿插有模拟防止位(emulation prevention bit)。所述NAL单元中每一者包括NAL单元标头且囊封RBSP。NAL单元标头可包括指示NAL单元类型代码的语法元素。由NAL单元的NAL单元标头指定的NAL单元类型代码指示NAL单元的类型。RBSP可为囊封于NAL单元内的含有整数个字节的语法结构。在一些例子中,RBSP包括零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,不同类型的NAL单元可囊封用于序列参数集(sequence parameter set,SPS)、图片参数集(picture parameterset,PPS)、经译码切片、补充增强信息(supplemental enhancement information,SEI)消息等等的不同RBSP。囊封用于视频译码数据的RBSP(相对于用于参数集和SEI消息的RBSP)的NAL单元可被称作视频译码层(video coding layer,VCL)NAL单元。
视频解码器30可接收由视频编码器20产生的位流。另外,视频解码器30可剖析位流以从位流获得语法元素。视频解码器30可至少部分地基于从位流获得的语法元素而重新建构视频数据的图片。用以重新建构视频数据的程序可与由视频编码器20执行的程序大体上互逆。
举例来说,视频解码器30可使用运动向量以确定用于当前正被解码的块(当前块)的预测性块。另外,视频解码器30可逆量化当前块的变换系数。视频解码器30可对所述系数应用逆变换以确定用于当前块的残余数据。视频解码器30可通过将预测性块的样本加到对应残余样本而重新建构当前块。通过重新建构用于一图片的块中的每一者,视频解码器30可重新建构所述图片。
一般来说,为了执行视图合成预测,例如视频编码器20或视频解码器30等视频译码器可使用一或多个视图的纹理信息和深度信息以产生经合成视图分量。举例来说,VSP可涉及出于预测视频数据的目的而产生额外的经合成参考帧。一帧的虚拟版本可经合成以从其它相机的经先前编码帧予以编码,且可使用虚拟帧作为预测参考。
此程序实质上相似于用于出于显示的目的而使用纹理信息和深度信息来产生经合成视图分量的程序。然而,在视图合成预测中,可将经合成视图分量(即,图片)添加到参考图片列表以供在译码不同视图时用作参考图片。可使用视图合成预测以产生用于译码纹理信息或深度信息的参考图片。当然,作为播放的部分,还可由客户端装置显示所产生的视图合成图片。另外或替代地,视频解码器30或目的地装置14的另一单元(例如,后处理单元(未图示))可出于产生供播放的经合成图片的目的而执行视图合成。应理解,尽管可显示用于预测的视图合成图片,但在一些实例中,可出于显示的目的而使用DIBR来产生分离图片。可在译码期间或“回路内”产生出于预测的目的的视图合成图像,而可“回路内”抑或“回路后”(即,在译码之后)产生出于显示的目的的视图合成图像。
为了产生额外参考图像,可使用3D变形(warping)或视图内插程序。举例来说,3D变形程序可包括使用深度信息和相机参数来执行投影。视图内插程序可包括采用邻近视点图像之间的视差信息。一般来说,对于VSP,存在两种类型的图像变形技术,即,前向变形(forward warping)和后向变形(backward warping),此取决于当前视图的深度图的可用性。当来自参考视点的深度图可用时,前向变形产生合成视图。在此实例中,在编码/解码当前视图的纹理分量之前编码/解码来自参考视点的深度图。可针对后向变形而使用待合成视图的深度来获得相似导出。
用于增强型纹理译码的当前以H.264/AVC为基础的3D视频译码标准(上文所提及的WD4)中支持回路内VSP。为了启用VSP以用于译码当前视图,可将同一存取单元的经先前译码纹理视图分量和深度视图分量用于视图合成。由VSP引起的经合成图片在时间参考帧和视图间参考帧之后包括于初始参考图片列表(例如,RefPicList0和/或RefPicList1)中。
如上文所提及,文件“3D-CE1.a:一般化视图合成预测(GVSP)模式(3D-CE1.a:Generalized View Synthesis Prediction(GVSP)mode)”(JCT3V-B0054,2012年10月13日到19日,中国上海,ITU-T SG 16 WP 3和ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作团队第2次会议)提议在多个层级(宏块层级或较低层级)处引入旗标,以指示是否将块译码为跳过模式以及从视图合成图片来预测块。
以下表1到表3中阐述语法元素集合的实例。出于编辑方便起见,可将旗标命名为vsp_flag。以下表1中展示宏块层语法的实例:
表1-宏块层语法
在以上表1的实例中,vsp_mb_flag等于1指示从VSP图片来预测整个MB。此旗标等于0指示可通过其它模式来预测整个MB。当此旗标等于1时,不信令mb_type。当不存在旗标时,其被推断为等于0。
以下表2中展示宏块预测语法的实例:
表2-宏块预测语法
在以上表2的实例中,mb_part_vsp_flag[mbPartIdx]等于1指示从VSP图片来预测当前MB分割区。此旗标等于0指示不从VSP图片来预测整个MB分割区。当不存在此旗标时,此旗标被推断为等于0。
在一些实例中,若MB分割区的数目小于4,则noSubMbPartSizeLessThan8×8Flag为真(与H.264/AVC中相同)。若MB分割区的数目等于4,则可通过检查mb_part_vsp_flag等于0的8×8MB分割区而导出noSubMbPartSizeLessThan8×8Flag语法元素,如下:
1.若任何MB分割区具有小于8×8的子mb分割区,则noSubMbPartSizeLessThan8×8Flag为假,返回
2.noSubMbPartSizeLessThan8×8Flag为真。
以下表3中展示子宏块预测语法的实例:
表3-子宏块预测语法
在以上表3的实例中,sub_mb_part_vsp_flag[mbPartIdx]等于1指示从VSP图片来预测当前MB分割区(8×8)。此旗标等于0指示不从VSP图片来预测整个MB分割区。当不存在此旗标时,此旗标被推断为等于0。
为了简化视图合成,在一些实例中,可使视图合成预测与运动向量预测统一。在此等实例中,可简化视图合成预测以仅执行后向变形,而不执行例如空洞填补(hole-filling)等任何额外视图合成技术。另外,将视差值或深度值应用于整个4×4块。因此,有可能简化视图合成预测以使用传统运动补偿技术,使得从深度或视差来导出运动向量且使运动向量与MB、MB分割区或子MB分割区的每一4×4块相关联。此简化视图合成程序可称作统一VSP模式。
如上文所提及,视图合成预测的信令可基于传统参考索引,其在MB层级信令方面对H.264/AVC设计是透明的。举例来说,对于每一MB,视频译码器可基于识别参考图片列表中的视图合成图片的参考索引而确定是否使用视图合成,且可在切片标头中明确地信令视图合成参考索引。此设计可支持双向预测,其中运用视图合成图片来预测一个方向且从正常时间图片或视图间参考图片来预测另一方向。此设计还支持待在切片层级中以及在宏块层级中调适的多个视图合成图片。
没有可能关断3D-ATM的以当前参考索引为基础的信令机制。举例来说,可能没有可能在不妨碍3D-ATM扩展的回溯兼容性目标的情况下关断3D-ATM的以当前参考索引为基础的信令机制。因此,支持以块为基础的视图合成预测的新硬件模块可为视频译码器所需要。另外,当图片序列具有关联视图合成图片(seq_view_synthesis_flag等于1)时,视频译码器必须产生用于视图合成图片的额外参考索引值,使得所述参考索引值可用以在出于预测的目的而产生和使用视频合成图片的例子中被指派。因此,即使当在译码期间实际上不产生视图合成图片时,视频译码器还产生额外参考索引值,从而影响计算效率和/或译码效率。
本发明的方面包括用于指示当译码视频数据块时是否应用视图合成预测的技术。在一实例中,例如视频编码器20和/或视频解码器30等视频译码器可确定用于当前块的参考索引是否对应于视图间参考图片,且当用于当前块的参考索引对应于视图间参考图片时,确定指示当前块的VSP模式的数据,其中用于参考索引的VSP模式指示是否从视图间图片(例如,从视图间图片所合成的图片的至少一部分)而使用视图合成预测来预测当前块。在视频译码器经配置为视频解码器30的例子中,视频解码器30可通过从经编码位流获得指示VSP模式的数据而确定所述数据。
因此,在以上实例中,在切片标头中不特定地指示VSP图片的参考索引,或在参考图片列表建构期间不添加VSP图片的参考索引。取而代之,视频编码器20可针对对应于经帧间预测参考图片的每一参考索引而在MB或MB分割区层级处编码一或多个语法元素(且视频解码器30可从经编码位流获得和解码所述一或多个语法元素)。如本文所描述,帧间预测参考图片通常与帧间预测模式相关联。即,帧间预测图片可包括视图内参考图片或视图间参考图片。
在一些实例中,一或多个语法元素可为VSP旗标。举例来说,所述旗标可指示VSP是否应用于针对特定参考索引的MB或MB分割区。换句话说,举例来说,旗标可指示出于预测的目的而使用视图间参考图片,抑或出于预测的目的而使用VSP图片。
在一项实例中,根据本发明的方面,视频编码器20可仅当用于预测性地译码块的参考索引对应于视图间参考图片时才编码VSP旗标。在另一实例中,视频编码器20可针对任何经帧间预测模式来编码VSP旗标。在另一实例中,另外或替代地,视频编码器20可仅针对对应于RefPlicList0的参考索引来编码旗标。在又一实例中,视频编码器20可针对对应于RefPlicList0和RefPlicList1(若存在)两者的参考索引来编码旗标。
根据本发明的其它方面,当启用视图合成预测时,视频编码器20可在例如SPS或SPS扩展的参数集中编码一或多个语法元素(且视频解码器30可从经编码位流获得所述一或多个语法元素),其指示:以参考为基础的信令是否用于VSP(例如,其中针对视图合成参考图片而产生参考图片索引,且基于参考索引而执行VSP),例如,第一VSP模式;或GVSP是否用于VSP(例如,其中基于上文(例如)关于以上表1到表3所描述的宏块信令而执行VSP),例如,第二VSP模式。在一些实例中,一或多个语法元素可包括SPS扩展中的旗标。
根据本发明的其它方面,当不使用以参考索引为基础的信令时,参考图片列表修改(reference picture list modification,RPLM)程序应不含有对应于VSP图片的任何RPLM命令。举例来说,参考图片列表建构可包括以下步骤:(1)应用如AVC中指定的用于时间(视图内)参考图片的参考图片列表初始化程序;(2)将视图间参考图片和/或经合成参考图片附加到列表的末端;以及(3)应用RPLM程序以重新排序参考图片列表中的参考图片。视频编码器20可输出指示视频解码器30应用RPLM程序的一或多个RPLM命令。视频解码器30可回应于RPLM命令而应用RPLM程序。
根据本发明的方面,当不使用以参考索引为基础的信令时,视频编码器20和视频解码器30可不发出对应于VSP图片的RPLM命令。即,视频编码器20和视频解码器30可抑制使用RPLM来改变VSP图片的位置,这是因为尚未产生VSP图片。
根据本发明的其它方面,当使用GVSP时,视频编码器20和视频解码器30可仅从用于RefPicList0的第一视图间参考图片来合成视图合成预测图片。在此实例中,无需视图合成预测图片的信令,且自动地确定(例如,推断出)GVSP模式输出指向第一视图间参考图片(例如,RefPicList 0)的视差运动向量。替代地,在另一实例中,视频编码器20和视频解码器30可基于RefPicList1中的视图间图片而执行视图合成预测。替代地,在另一实例中,视频编码器20和视频解码器30可基于RefPicList0和RefPicList1两者中的视图间图片(若存在)而执行视图合成预测。
图2为说明可实施用于视图合成的本发明所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内译码和帧间译码。帧内译码依赖于空间预测以减少或移除给定图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或移除邻近图片或视频序列的图片内的视频的时间冗余。帧内模式(I模式)可指若干以空间为基础的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指若干以时间为基础的压缩模式中的任一者。
如上文所提及,视频编码器20可适于执行多视图视频译码。除了编码用于每一视图的纹理图(即,明度值和色度值)以外,视频编码器20还可进一步编码用于每一视图的深度图。
如图2所展示,视频编码器20接收待编码视频帧内的当前视频块。在图2的实例中,视频编码器20包括模式选择单元40、参考图片存储器64、求和器50、变换处理单元52、量化单元54,和熵编码单元56。模式选择单元40又包括运动补偿单元44、运动估计单元42、帧内预测单元46,和分割单元48。出于视频块重新建构起见,视频编码器20还包括逆量化单元58、逆变换单元60,和求和器62。
还可包括解块滤波器(图2中未图示)以滤波块边界以从经重新建构视频移除方块效应假影(blockiness artifact)。视需要,解块滤波器通常将滤波求和器62的输出。除了解块滤波器以外,还可使用额外滤波器(回路内或回路后)。出于简洁起见而未展示此等滤波器,但视需要,此等滤波器可滤波求和器50的输出(作为回路内滤波器)。
在编码程序期间,视频编码器20接收待译码视频帧或切片。所述帧或切片可被划分成多个视频块。运动估计单元42和运动补偿单元44执行经接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性译码以提供时间预测。替代地,帧内预测单元46可执行经接收视频块相对于与待译码块相同的帧或切片中的一或多个相邻块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次,例如,以选择用于每一视频数据块的适当译码模式。
此外,分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割成子块。举例来说,分割单元48最初可将一帧或切片分割成若干块(例如,宏块或LCU),且基于速率-失真分析(例如,速率-失真优化)而将所述块中的每一者分割成子块。
模式选择单元40可(例如)基于错误结果而选择所述译码模式中的一者(例如,帧内预测、时间帧间预测,或视图间预测),且将经预测块提供到求和器50以产生残余块数据并将经预测块提供到求和器62以重新建构经编码块以用作参考帧。模式选择单元40还将例如运动向量、帧内模式指示符、分割信息和其它此类语法信息等语法元素提供到熵编码单元56。
在一些实例中,模式选择单元40可经配置以选择视图间预测,例如,相对于经先前译码视图,或用于视图合成预测的经合成视图。如下文更详细地所论述,视图合成单元66可经配置以合成视图(即,合成图片,包括纹理像素值和/或深度像素值)以用于视图合成预测。举例来说,视图合成单元66可经配置以执行实质上相似于以深度图像为基础的渲染(DIBR)的技术。
应理解,在启用视图合成预测的情况下,模式选择单元40仍可从其它可用译码模式(例如,相对于经先前译码图片的帧内预测、时间帧间预测或视图间预测)当中进行选择。因此,视频编码器20可提供哪一译码模式经选择用于视频数据块的指示,其与指示是否启用视图合成预测的信息分离。
运动估计单元42和运动补偿单元44(以及视频编码器20的一或多个其它单元)可高度地集成,但出于概念目的而被分离地说明。由运动估计单元42执行的运动估计为产生运动向量的程序,运动向量估计用于视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块相对于参考帧(或其它经译码单元)内的预测性块的位移,所述预测性块是相对于当前帧(或其它经译码单元)内正被译码的当前块。
预测性块为被发现在像素差方面接近地匹配于待译码块的块,像素差可通过绝对差总和(sum of absolute difference,SAD)、平方差总和(sum of square difference,SSD)或其它差度量而确定。运动向量可包括:时间运动向量,其描述一块相对于时间相异图片中的同一视图的经先前译码块的运动;以及视差运动向量,其描述在不同视图(具有不同水平相机视角(camera perspective))中但可具有相同时间位置的相似块之间的视差。在一些状况下,运动向量可描述相对于也处于不同视图中的时间相异图片的运动。
在一些实例中,视频编码器20可计算用于存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此,运动估计单元42可执行相对于完全像素位置和分率像素位置的运动搜索,且以分率像素精确度输出运动向量。
当执行视图间预测时,运动估计单元42可计算相对于不同视图的经先前译码图片抑或相对于用于视图合成预测的经合成图片的视差运动向量。因此,运动估计单元42也可被称作运动/视差估计单元。
一般来说,经合成图片可由视图合成单元66存储于参考图片存储器64中,且因此,运动估计单元42和运动补偿单元44无需经配置成确定参考图片为不同视图的经先前译码图片抑或来自视图合成程序的经合成图片。用于搜索视差运动向量的程序可限于水平地搜索,而非水平地搜索和垂直地搜索两者,这是因为相同时间位置处的不同视图的图片通常归因于场景的图片是从视差水平相机视角被俘获或产生而仅包括水平差而不包括垂直差。
运动估计单元42通过比较经帧间译码切片中的视频块的位置与参考图片的预测性块的位置而计算用于所述块的运动向量(例如,时间运动向量或视差运动向量)。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述参考图片列表中每一者识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量而提取或产生预测性块,所述运动向量再次可为时间运动向量或视差运动向量。再次,在一些实例中,运动估计单元42和运动补偿单元44可功能上集成。在接收用于当前视频块的运动向量后,运动补偿单元44即可在所述参考图片列表中的一者中定位运动向量所指向的预测性块。求和器50通过从正被译码的当前视频块的像素值减去预测性块的像素值而形成像素差值来形成残余视频块,如下文所论述。
一般来说,运动估计单元42执行相对于明度分量的运动估计,且运动补偿单元44将基于明度分量而计算的运动向量用于色度分量和明度分量两者。运动估计单元42和运动补偿单元44可经配置以重新使用来自明度分量的运动向量以译码深度图,或独立地计算用于深度图的运动向量。因此,在一些状况下,运动估计单元42和运动补偿单元44可经配置成以相似于色度分量的方式或以相似于明度分量的方式来预测深度图。模式选择单元40还可产生与视频块和视频切片相关联的语法元素以供视频解码器30用来解码视频切片的视频块。
作为如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测(例如,时间帧间预测和/或视图间预测)的替代例,帧内预测单元46可帧内预测当前块。特定来说,帧内预测单元46可确定待使用的帧内预测模式以编码当前块。在一些实例中,帧内预测单元46可(例如)在分离编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中,模式选择单元40)可从经测试模式选择待使用的适当帧内预测模式。
举例来说,帧内预测单元46可使用针对各种经测试帧内预测模式的速率-失真分析来计算速率-失真值,且在所述经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量,以及用以产生经编码块的位率(即,位的数目)。帧内预测单元46可从用于各种经编码块的失真和速率来计算比率以确定哪一帧内预测模式展现用于所述块的最佳速率-失真值。
在选择用于块的帧内预测模式之后,帧内预测单元46可将指示用于块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20可在经发射位流配置数据中包括编码用于各种块的上下文的定义,以及待用于所述上下文中每一者的最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示,所述经发射位流配置数据可包括多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也称作码字映射表)。
此外,如上文所提及,模式选择单元40可确定是否利用视图合成预测以译码非基础视图的特定块。模式选择单元40可接收指示是否针对位流或针对多视图位流的特定操作点而启用视图合成预测的配置数据。举例来说,用户可能已提供指示位流将与未经装备成执行视图合成预测的装置兼容的配置数据,在此状况下,模式选择单元40可针对整个位流而停用视图合成预测。替代地,配置数据可指示形成视图合成预测被停用所针对的操作点的视图子集,在此状况下,模式选择单元40可针对所述子集中的视图中每一者而停用视图合成预测,但针对位流的不包括于所述子集中的其它视图而测试视图合成预测。
一般来说,在假定针对特定非基础视图而准许视图合成预测的情况下,模式选择单元40可针对所述非基础视图的图片块而测试视图合成预测以确定视图合成预测相比于其它译码模式(例如,相对于经先前译码(未经合成)视图的时间帧间预测、帧内预测和/或视图间预测)是否得到较佳性能。模式选择单元40可使用速率-失真优化(RDO)和/或使用Biontegaard-Delta速率(BD速率)来测试各种译码模式的性能。一般来说,速率-失真优化为使用特定模式或模式组合来译码视频数据集合所需要的位的数目相对于由所述模式或模式组合引入的失真的量的度量。模式选择单元40可选择得到如由此等度量所指示的最佳性能的模式或模式组合。
此外,模式选择单元40可确定视图合成预测得到最佳性能所针对的切片、图片、序列或其它经译码单元(例如,频块或波前)中的块的数目,且确定块的此数目是否足够高以证明使用视图合成预测的处理费用合理。举例来说,由视频解码器合成视图可需要相当大量的处理资源,且因此,若在将使用视图合成预测所针对的经译码单元中不存在足够大数目个块,则模式选择单元40可选择除了视图合成预测以外的用于特定块的不同译码模式。
视图合成单元66表示合成用于视图间预测的视图的单元。当启用视图合成预测时,视图合成单元66可使用存储于参考图片存储器64中的纹理信息和深度信息来合成用于经合成视图的图片。视图合成单元66可使用一或多个参考视图以合成另一视图。
一般来说,为了合成图片,视图合成单元66可使用一或多个经先前译码视图的纹理信息和深度信息。视图合成单元66可基于纹理图片的对应(例如,实质上共置型)深度信息和对应深度图而计算用于纹理信息的水平视差。一般来说,将在显示器的深度处(例如,在会聚平面处)出现的对象可具有为0的视差。即,表示此对象的像素可在经合并视图中具有与在参考视图中的水平位置实质上相同的水平位置。对于待显示于屏幕前方的对象,可指派正视差,使得在“左眼”图片中,用于所述对象的像素定位到“右眼”图片中的对应像素的右侧。替代地,对于待显示于屏幕后方的对象,可指派负视差,使得在“左眼”图片中,用于所述对象的像素定位到“右眼”图片中的对应像素的左侧。可依据待实现深度的量、相对水平位移、到会聚平面的距离、真实世界距离、相机参数及其类似者而确定相对水平移位。
以此方式,视图合成单元66可合成待用作参考图片的视图的图片。视图合成单元66可使用相似程序以合成纹理图像和/或深度图中任一者或两者。因此,视频编码器20可相对于经合成视图分量(例如,经合成纹理图像或经合成深度图)来译码纹理图像和/或深度图。视图合成单元66可将用于经合成视图分量的数据存储于参考图片存储器64中。以此方式,模式选择单元40、运动估计单元42和运动补偿单元44可将经合成视图分量视为好像经合成视图分量为常规参考图片一样。
根据本发明的方面,模式选择单元40可产生指示是否应用VSP以用于译码特定块的一或多个语法元素。在一些实例中,模式选择单元40可仅产生用于被帧间预测(例如,视图间预测)的块的语法元素。因此,在此实例中,当用于当前块的参考图片索引对应于视图间参考图片时,模式选择单元40可将旗标发送到熵编码单元56以指示VSP是否用于译码当前块。
在以上实例中,并不特别在切片标头中指示或在参考图片列表建构期间添加VSP图片的参考索引。取而代之,视频编码器20可针对对应于视图间参考图片的每一参考索引而在MB或MB分割区层级处编码旗标。此信令相比于VSP信令可提供更灵活途径,因为经合成图片不绑定于特定参考图片索引。
在另一实例中,模式选择单元40可针对任何经帧间预测模式来产生VSP旗标。在另一实例中,另外或替代地,模式选择单元40可仅针对对应于RefPlicList0的参考索引来产生旗标。在又一实例中,模式选择单元40可针对对应于RefPlicList0和RefPlicList1(若存在)两者的参考索引来产生旗标。
根据本发明的其它方面,当启用视图合成预测时,模式选择单元40可产生用于例如SPS或SPS扩展的参数集的一或多个语法元素,其指示以参考为基础的信令是否用于VSP(例如,其中针对视图合成参考图片而产生参考图片索引,且基于参考索引而执行VSP),或GVSP是否用于VSP(例如,其中基于上文(例如)关于以上表1到表3所描述的宏块信令而执行VSP)。在一些实例中,一或多个语法元素可包括SPS扩展中的旗标。
根据本发明的其它方面,当不使用以参考索引为基础的信令时,视频编码器20可不发出对应于VSP图片的任何RPLM命令。
根据本发明的其它方面,当使用GVSP时,视图合成单元66可仅从用于RefPicList0的第一视图间参考图片来合成视图合成预测图片。在此实例中,无需视图合成预测图片的信令,且自动地确定出(例如,推断出)GVSP模式输出指向第一视图间参考图片(例如,RefPicList0)的视差运动向量。替代地,在另一实例中,视图合成单元66可基于RefPicList1中的视图间图片而执行视图合成预测。替代地,在另一实例中,视图合成单元66可基于RefPicList0和RefPicList1两者中的视图间图片(若存在)而执行视图合成预测。
视频编码器20通过从正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减去运算的组件。变换处理单元52将例如离散余弦变换(DCT)或概念上相似变换等变换应用于残余块,从而产生包含残余变换系数值的视频块。变换处理单元52可执行概念上相似于DCT的其它变换。还可使用小波变换、整数变换、子频带变换,或其它类型的变换。
在任何状况下,变换处理单元52将变换应用于残余块,从而产生残余变换系数块。变换可将残余信息从像素值域转换到例如频域等变换域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位率。量化程序可减少与所述系数中的一些或全部相关联的位深度。可通过调整量化参数而修改量化程度。在一些实例中,量化单元54接着可执行包括经量化变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56熵译码经量化变换系数。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、以语法为基础的上下文自适应二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码,或另一熵译码技术。在以上下文为基础的熵译码的状况下,上下文可基于相邻块。在由熵编码单元56进行的熵译码之后,可将经编码位流发射到另一装置(例如,视频解码器30)或进行封存以供稍后发射或检索。
逆量化单元58和逆变换单元60分别应用逆量化和逆变换,以在像素域中重新建构残余块,例如,以供稍后用作参考块。运动补偿单元44可通过将残余块加到参考图片存储器64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重新建构残余块以计算子整数像素值以供运动估计中使用。
求和器62将经重新建构残余块加到由运动补偿单元44产生的运动补偿式预测块,以产生经重新建构视频块以供存储于参考图片存储器64中。经重新建构视频块可由运动估计单元42和运动补偿单元44用作参考块以帧间译码后续视频帧中的块。
根据本发明的方面,视频编码器20可执行一种方法,所述方法包括:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于当前块的参考索引对应于视图间参考图片时,产生指示当前块的视图合成预测(VSP)模式的数据,其中用于参考索引的VSP模式指示是否从视图间参考图片而运用视图合成预测来预测当前块。视频编码器20还经配置以在位流中编码指示VSP模式的数据。
图3为说明可实施用于译码与视图合成预测相关的信息的技术的视频解码器30的实例的框图。在图3的实例中,视频解码器30包括熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考图片存储器82和求和器80。在一些实例中,视频解码器30可执行与关于视频编码器20(图2)所描述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量而产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符而产生预测数据。
在解码程序期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和关联语法元素的经编码视频位流。熵解码单元70熵解码所述位流以产生经量化系数、运动向量或帧内预测模式指示符,和其它语法元素。熵解码单元70将运动向量和其它语法元素转递到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。
在一些实例中,视频解码器30可接收指示是否针对图片序列、个别图片、切片、频块或波前中任一者或全部而启用视图合成预测的语法信息。熵解码单元70可解码所述语法信息且将指示是否启用视图合成预测的信息发送到视图合成单元84。
视图合成单元84可经配置成以实质上相似于视图合成单元66(图2)的方式的方式而操作。举例来说,当启用视图合成预测时,视图合成单元84可使用存储于参考图片存储器82中的经先前解码图片的纹理信息和深度信息,以使用视图合成来产生参考图片,即,视图合成参考图片。视图合成单元84可将经合成图片存储于参考图片存储器82中。当不启用视图合成预测时,视图合成单元84无需产生图片,此情形可节约处理资源和/或电池电力。
根据本发明的方面,熵解码单元70可接收和解码指示是否应用VSP以用于译码特定块的一或多个语法元素。在一些实例中,可仅针对被帧间预测(例如,视图间预测)的块来产生语法元素。因此,在此实例中,当用于当前块的参考图片索引对应于视图间参考图片时,视图合成单元84可接收指示VSP是否用于译码当前块的旗标。
在以上实例中,在切片标头中不特定地指示VSP图片的参考索引,或在参考图片列表建构期间不添加VSP图片的参考索引。取而代之,视频解码器30针对对应于视图间参考图片的每一参考索引而在MB或MB分割区层级处解码旗标。此信令相比于VSP信令可提供更灵活途径,此在于:经合成图片不依靠特定参考图片索引。
在另一实例中,熵解码单元70可针对任何经帧间预测模式来接收和解码VSP旗标。在另一实例中,另外或替代地,熵解码单元70可仅针对对应于RefPlicList0的参考索引来接收和解码旗标。在又一实例中,熵解码单元70可针对对应于RefPlicList0和RefPlicList1(若存在)两者的参考索引来接收和解码旗标。
根据本发明的其它方面,当启用视图合成预测时,视频解码器30可在例如SPS或SPS扩展的参数集中接收和解码一或多个语法元素,其指示以参考为基础的信令是否用于VSP(例如,其中针对视图合成参考图片而产生参考图片索引,且基于参考索引而执行VSP),或GVSP是否用于VSP(例如,其中基于上文(例如)关于以上表1到表3所描述的宏块信令而执行VSP)。在一些实例中,一或多个语法元素可包括SPS扩展中的旗标。
根据本发明的其它方面,当不使用以参考索引为基础的信令时,视频解码器30可不执行对应于VSP图片的任何RPLM命令。
根据本发明的其它方面,当使用GVSP时,视图合成单元84可仅从用于RefPicList0的第一视图间参考图片来合成视图合成预测图片。在此实例中,无需视图合成预测图片的信令,且自动地确定(例如,推断出)GVSP模式输出指向第一视图间参考图片(例如,RefPicList0)的视差运动向量。替代地,在另一实例中,视图合成单元84可基于RefPicList1中的视图间图片而执行视图合成预测。替代地,在另一实例中,视图合成单元84可基于RefPicList0和RefPicList1两者中的视图间图片(若存在)而执行视图合成预测。
当视频切片被译码为经帧内译码(I)切片时,帧内预测单元74可基于经信令帧内预测模式和来自当前帧或图片的经先前解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(即,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量和其它语法元素而产生用于当前视频切片的视频块的预测性块。可从所述参考图片列表中的一者内的所述参考图片中的一者产生预测性块。视频解码器30可基于存储于参考图片存储器82中的参考图片而使用预设建构技术来建构参考帧列表:列表0和列表1。
运动补偿单元72通过剖析运动向量和其它语法元素而确定用于当前视频切片的视频块的预测信息,且使用所述预测信息以产生用于正被解码的当前视频块的预测性块。举例来说,运动补偿单元72使用一些经接收语法元素以确定用以译码视频切片的视频块的预测模式(例如,帧内预测、时间帧间预测,或视图间预测)、帧间预测切片类型(例如,B切片、P切片,或GPB切片)、用于切片的参考图片列表中的一或多者的建构信息、用于切片的每一经帧间编码视频块的运动向量(例如,视差运动向量和/或时间运动向量)、用于切片的每一经帧间译码视频块的帧间预测状态,和用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可基于内插滤波器而执行内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器,以计算用于参考块的子整数像素的经内插值。在此状况下,运动补偿单元72可从经接收语法元素确定由视频编码器20使用的内插滤波器,且使用所述内插滤波器以产生预测性块。
在一些实例中,运动补偿单元72可使用视差运动向量来执行视图间预测。此视图间预测可与另一视图的经先前解码图片有关,或与使用视图合成而产生的参考图片有关(在假定启用视图合成预测的情况下)。因此,运动补偿单元72可称作运动/视差补偿单元72。
逆量化单元76逆量化(即,解量化)在位流中提供且由熵解码单元70解码的经量化变换系数。逆量化程序可包括使用由视频解码器30针对视频切片中的每一视频块所计算的量化参数QPY以确定量化程度,且同样地确定应被应用的逆量化程度。
逆变换单元78将逆变换(例如,逆DCT、逆整数变换或概念上相似逆变换程序)应用于变换系数,以便在像素域中产生残余块。
在运动补偿单元72或帧内预测单元74基于运动向量和其它语法元素而产生用于当前视频块的预测性块之后,视频解码器30通过求和来自逆变换单元78的残余块与对应预测性块而形成经解码视频块。求和器80表示执行此求和运算的组件。
视需要,还可应用解块滤波器以滤波经解码块,以便移除方块效应假影。还可使用其它回路滤波器(在译码回路中抑或在译码回路之后)以使像素转变平滑,或以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储于参考图片存储器82中,参考图片存储器82存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以供稍后呈现于显示装置(例如,图1的显示装置32)上。
以此方式,图3的视频解码器30表示经配置以进行如下操作的视频解码器的实例:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于当前块的参考索引对应于视图间参考图片时,从经编码位流获得指示当前块的视图合成预测(VSP)模式的数据,其中用于参考索引的VSP模式指示是否从视图间参考图片而运用视图合成预测来预测当前块。
图4说明典型MVC解码次序(即,位流次序)。解码次序配置被称作时间优先译码(time-first coding)。每一存取单元被定义成含有用于一个输出时间例项(output timeinstance)的所有视图的经译码图片。存取单元的解码次序可不相同于输出次序或显示次序。
图5为说明实例MVC预测图案的概念图。多视图视频译码(MVC)为ITU-TH.264/AVC的扩展。相似技术可应用于HEVC。在图4的实例中,说明八个视图(具有视图ID“S0”到“S7”),且针对每一视图说明十二个时间位置(“T0”到“T11”)。即,图4中的每一行对应于视图,而每一列指示时间位置。
尽管MVC具有可由H.264/AVC解码器解码的所谓基础视图且立体视图对也可由MVC支持,但MVC的一个优点为:其可支持将两个以上视图用作3D视频输入且解码由多个视图表示的此3D视频的实例。具有MVC解码器的客户端的渲染器可预期具有多个视图的3D视频内容。
使用包括字母的阴影块来指示图5中的图片,所述字母指定对应图片被帧内译码(即,I帧),抑或在一个方向上被帧间译码(即,作为P帧)或在多个方向上被帧间译码(即,作为B帧)。一般来说,通过箭头来指示预测,其中被指向图片(pointed-to picture)使用供指出对象(point-from object)以供预测参考。举例来说,从时间位置T0处的视图S0的I帧来预测时间位置T0处的视图S2的P帧。
如同单视图视频编码一样,可关于不同时间位置处的图片来预测性地编码多视图视频序列的图片。举例来说,时间位置T1处的视图S0的b帧具有从时间位置T0处的视图S0的I帧指入所述b帧的箭头,从而指示从所述I帧来预测所述b帧。然而,另外,在多视图视频编码的上下文中,图片可被视图间预测。即,视图分量可使用其它视图中的视图分量以供参考。举例来说,在MVC中,视图间预测实现为好像另一视图中的视图分量为帧间预测参考一样。可在序列参数集(SPS)MVC扩展中信令潜在视图间参考,且可通过参考图片列表建构程序来修改潜在视图间参考,此情形实现帧间预测参考或视图间预测参考的灵活排序。
图5提供视图间预测的各种实例。在图5的实例中,将视图S1的图片说明为从视图S1在不同时间位置处的图片被预测,以及从相同时间位置处的视图S0和S2的图片的图片被视图间预测。举例来说,从时间位置T0和T2处的视图S1的B帧中每一者以及时间位置T1处的视图S0和S2的b帧来预测时间位置T1处的视图S1的b帧。
在图5的实例中,大写字母“B”和小写字母“b”希望指示图片之间的不同阶层关系而非不同编码方法。一般来说,大写字母“B”帧相比于小写字母“b”帧在预测阶层中相对较高。图5还使用不同程度的阴影来说明预测阶层的变化,其中较大量的阴影(即,相对较深色)图片相比于具有较少阴影(即,相对较浅色)的那些图片在预测阶层中较高。举例来说,以完全阴影来说明图5中的所有I帧,而P帧具有稍微较浅色的阴影,且B帧(和小写字母b帧)相对于彼此具有各种程度的阴影,但相比于P帧和I帧的阴影总是为较浅色。
一般来说,预测阶层与视图次序索引相关,此在于:应在解码在预测阶层中相对较低的图片之前解码在所述阶层中相对较高的图片,使得在所述阶层中相对较高的那些图片可在所述阶层中相对较低的图片的解码期间用作参考图片。视图次序索引为指示存取单元中的视图分量的解码次序的索引。可在例如SPS的参数集中隐含视图次序索引。
以此方式,用作参考图片的图片可在解码参考所述参考图片而编码的图片之前被解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。对于每一视图次序索引i,信令对应view_id。视图分量的解码遵循视图次序索引的升序。若渲染所有视图,则视图次序索引集合包含从0到比视图的总数小1的经连续排序集合。
在MVC中,可抽选整个位流的子集以形成仍符合MVC的子位流。存在可由特定应用基于(例如)如下各者而需要的许多可能子位流:由服务器提供的服务;一或多个客户端的解码器的容量、支持和能力;和/或一或多个客户端的偏好。举例来说,客户端可能需要仅三个视图,且可能存在两种情境。在一项实例中,一个客户端可需要平滑检视体验且可能偏好具有view_id值S0、S1和S2的视图,而另一其它客户端可需要视图可缩放性且偏好具有view_id值S0、S2和S4的视图。应注意,此等子位流两者可被解码为独立MVC位流,且可被同时地支持。
因此,图5中展示用于多视图视频译码的典型MVC预测(包括每一视图内的图片间预测和视图间预测两者)结构,其中通过箭头来指示预测,被指向对象使用供指出对象以供预测参考。在MVC中,通过视差运动补偿来支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法,但允许将不同视图中的图片用作参考图片。
两个视图的译码还可由MVC支持,且MVC的潜在优点中的一者为:MVC编码器可将两个以上视图视为3D视频输入,且MVC解码器可解码此多视图表示。因此,具有MVC解码器的任何渲染器可预期具有两个以上视图的3D视频内容。
关于视图间预测,在MVC中,在同一存取单元中(即,具有相同时间例项)的图片当中允许视图间预测。当译码非基础视图中的一者中的图片时,若一图片处于不同视图中但具有相同时间例项,则可将所述图片添加到参考图片列表中。可使视图间预测参考图片处于参考图片列表的任何位置中,正如任何帧间预测参考图片一样。
图4的视图S0到S7表示经译码视图的实例,即,经译码信息在位流中被提供的视图。在一些实例中,可在视图S0到S7之间合成额外视图。举例来说,可在视图S0与S1之间合成视图。为了合成此视图的图片,可使用视图S0和S2中的图片的纹理信息和/或深度信息。举例来说,为了合成时间T1时的参考图片,可使用来自视图S0和/或S2的在时间T1时的图片的纹理信息和深度信息。例如视频编码器20或视频解码器30的视频译码器可内插用于待作为参考而用于译码另一图片(例如,时间T1时的视图S1的图片)的经合成视图的此图片的像素数据。
本发明的方面包括用于指示当译码视频数据块时是否应用视图合成预测的技术。在一实例中,例如视频编码器20和/或视频解码器30等视频译码器可确定用于当前块的参考索引是否对应于帧间预测参考图片,且当用于当前块的参考索引对应于帧间预测参考图片时,确定指示当前块的VSP模式的数据,其中用于参考索引的VSP模式指示是否使用视图合成预测(例如,从视图间参考图片)来预测当前块。在视频译码器经配置为视频解码器30的例子中,视频解码器30可通过从经编码位流获得指示VSP模式的数据而确定所述数据。
在一些实例中,帧间预测参考图片通常与帧间预测模式相关联。在此等实例中,可针对任何帧间模式(例如,针对视图内参考图片和视图间参考图片)来确定指示VSP模式的数据。在其它实例中,可仅针对视图间参考图片来确定指示VSP模式的数据。即,举例来说,视频解码器30可仅当参考图片索引对应于视图间参考图片时才解码指示VSP模式的数据。
在以上实例中,在切片标头中不特定地指示VSP图片的参考索引,或在参考图片列表建构期间不添加VSP图片的参考索引。取而代之,视频译码器可针对对应于帧间预测参考图片的每一参考索引而在MB或MB分割区层级处译码一或多个语法元素。在一些实例中,一或多个语法元素可为VSP旗标。举例来说,所述旗标可指示VSP是否应用于针对特定参考索引的MB或MB分割区。
关于宏块层语义,vsp_flag等于1可指定当前MB或MB分割区是从在anchor_pic_fiag为0时由non_anchor_ref_l0[VOIdx][0]识别或在anchor_pic_fiag为1时由anchor_ref_l0[VOIdx][0]识别的视图间参考图片被单向地预测,其中VOIdx为当前视图分量的视图次序索引。可如子条项J.8.3.1.3(例如,关于WD 4)中所指定而导出MB或MB分割区的运动向量。另外,vsp_flag等于0可指定视图合成预测不用于当前MB或MB分割区。替代地,vsp_flag等于0可指定停用在GVSP下的视图合成预测,但仍可允许使用以参考索引信令为基础的机制的视图合成预测。
在另一实例中,当vsp_flag等于1时,可从RefPicList0中的第一视图间参考来预测MB或MB分割区。在另一实例中,当vsp_flag等于1时,可从在不使用vsp_pic_flag以约束modification_of_pic_nums_idc的存在时具有等于6的modification_of_pic_nums_idc的RPLM中的第一项目来预测MB或MB分割区。在此状况下,RPLM中具有等于6的modification_of_pic_nums_idc的命令不指示参考图片列表中的新项目。
关于层级约束,当MB或MB分割区运用VSP旗标被译码且在MB或MB分割区内部的至少一8×8块中具有不同运动向量时,例如视频编码器20或视频解码器30等视频译码器可基于MB或MB分割区而计数小于8×8的子块的数目。子块的数目应不超过MaxSubMbRectSize。在此实例中,视频译码器可确定VSP预测MB具有小于8×8的一或多个子块。
替代地,在另一实例中,在使用VSP(具有vsp_flag)来预测MB之后,视频译码器可确定MB具有小于8×8的子块。替代地,在又一实例中,当针对MB或MB分割区存在vsp旗标时,对于每一MB分割区,导出仅一个视图间运动向量,使得MB或MB分割区决不具有小于8×8的块分割区。替代地,在又一实例中,当针对MB或MB分割区存在vsp旗标时,对于每一MB分割区,针对4个8×8块中每一者导出仅一个视图间运动向量,使得MB或MB分割区决不具有小于8×8的块分割区。
根据本发明的其它方面,当启用视图合成预测时,视频译码器可在例如SPS或SPS扩展的参数集中译码一或多个语法元素,其指示以参考为基础的信令是否用于VSP(例如,其中针对视图合成参考图片而产生参考图片索引,且基于参考索引而执行VSP),或GVSP是否用于VSP(例如,其中基于上文(例如)关于以上表1到表3所描述的宏块信令而执行VSP)。在一些实例中,一或多个语法元素可包括SPS扩展中的旗标。
举例来说,根据本发明的方面,视频编码器20和/或视频解码器30可使用关于WD4(上文所提及)的序列参数集扩展语法,如以下表4所展示:
表4-序列参数集3DVC扩展语法
在以上表4的实例中,vsp_pic_fiag等于1指示视图合成预测图片可由参考图片列表中的参考索引产生和参考。另外,vsp_pic_flag等于0指示视图合成预测图片未被产生且视图合成预测总是涉及视图间参考图片。当不存在vsp_pic_flag时,vsp_pic_flag可被推断为等于0。
根据本发明的其它方面,当不使用以参考索引为基础的信令时,RPLM不应含有对应于VSP图片的任何RPLM命令。举例来说,当不使用以参考索引为基础的信令时,视频译码器(例如,视频编码器20和/或视频解码器30)可不发出对应于VSP图片的RPLM命令。即,视频译码器可抑制使用RPLM来改变VSP图片的位置,这是因为尚未产生VSP图片。
在一项实例中,关于参考图片列表3DVC修改,子条项I.7.4.3.1.1(例如,在上文所提及的WD 4中)指定的语义在以下附加者的情况下适用:
以下额外表项目插入于表H-1中:
modification_of_pic_nums_idc 所指定修改
6 vsp_ref_idx存在且对应于VSP参考索引
其中若seq_view_synthesis_flag或vsp_pic_flag等于0,则modification_of_pic_nums_idc应不等于6。
根据本发明的其它方面,当使用GVSP时,视频译码器可仅从用于RefPicList0的第一视图间参考图片来合成视图合成预测图片。在此实例中,无需视图合成预测图片的信令,且自动地确定(例如,推断出)GVSP模式输出指向第一视图间参考图片(例如,RefPicList0)的视差运动向量。替代地,在另一实例中,视频译码器可基于RefPicList1中的视图间图片而执行视图合成预测。替代地,在另一实例中,视频译码器可基于RefPicList0和RefPicList1两者中的视图间图片(若存在)而执行视图合成预测。
图6为说明用于译码与视图合成预测相关的信息的实例方法的流程图。图6的方法涉及视频编码器20(图1和图2)予以解释。然而,应理解,其它视频译码装置可经配置以执行相似方法。此外,可以不同次序或并行地执行所述方法中的某些步骤。同样地,在各种实例中,可省略某些步骤,且可添加其它步骤。
在此实例中,视频编码器20最初预测当前块和预测性块的参考索引(120)。在此实例中,假定视频编码器20帧间预测当前块。举例来说,运动估计单元42可通过执行经先前译码图片(例如,视图间图片和时间图片)的运动搜索而计算用于当前块的运动向量。因此,运动估计单元42可产生时间运动向量或视差运动向量以预测当前块。
在一些例子中,如上文所提及,视频编码器20可从经合成块来预测当前块。举例来说,视频编码器20可执行视图合成程序以产生经合成图片,所述经合成图片可被添加到参考图片列表且具有参考图片索引。视频编码器20可执行VSP以相对于经合成图片的块来预测当前块。
在图6的实例中,视频编码器20可确定包括预测性块的参考图片的参考索引是否为视图间参考图片(122)。在一些实例中,视频编码器20可基于视图识别符(view_id)而确定参考图片是否包括于与正被编码的块不同的视图中。
根据本发明的方面,若参考索引对应于视图间参考图片(步骤122的是(YES)分支),则视频编码器20可编码指示是否将VSP应用于参考索引的数据。举例来说,在视频编码器20执行VSP以确定预测性块的例子中,视频编码器20可编码指示已使用VSP的数据(例如,将vsp_flag设定为等于1)。在视频编码器20仅仅执行视图间预测以确定预测性块(无VSP)的例子中,视频编码器20可编码指示尚未使用VSP的数据(例如,将vsp_flag设定为等于0)。
视频编码器20接着可计算用于当前块的残余块(126)。为了计算残余块,视频编码器20可计算原始未经译码块与预测性块之间的差,所述预测性块可为与正被译码的块相同的视图中的块、与正被译码的块不同的视图中的块,或经合成块。视频编码器20接着可变换和量化残余块的系数(128)。接下来,视频编码器20可扫描残余块的经量化变换系数(130)。在所述扫描期间或之后,视频编码器20可熵编码系数(132)。举例来说,视频编码器20可使用CAVLC或CABAC来编码系数。视频编码器20接着可输出块的经熵译码数据以及VSP指示(134)。
以此方式,图6的方法表示用于编码视频数据的方法的实例,所述方法包括:确定用于当前块的参考索引是否对应于视图间参考图片;当用于当前块的参考索引对应于视图间参考图片时,产生指示当前块的视图合成预测(VSP)模式的数据,其中用于参考索引的VSP模式指示是否从视图间参考图片而运用视图合成预测来预测当前块;以及在位流中编码指示VSP模式的数据。
图7为说明用于译码与视图合成预测相关的信息的实例方法的流程图。图7的方法涉及视频解码器30(图1和3)予以解释。然而,应理解,其它视频译码装置可经配置以执行相似方法。此外,可以不同次序或并行地执行所述方法中的某些步骤。同样地,在各种实例中,可省略某些步骤,且可添加其它步骤。
熵解码单元70熵解码用于当前正被解码的块的系数的数据、至少一运动向量或视差向量,和至少一对应参考索引(160)。图7的实例假定当前块被单向预测,但应理解,在其它实例中,当前块可被双向预测,如本文所描述。
运动向量或视差向量可识别与经解码参考图片索引相关联的参考图片中的预测性块。举例来说,可从与当前块相同的视图中的块来帧间预测当前块,从与当前块不同的视图中的块来视图间预测当前块,或使用VSP而从经合成块来视图间预测当前块。不管特定预测程序如何,经解码参考索引识别存储到参考图片存储器的图片。
在图7的实例中,视频解码器30可确定包括预测性块的参考图片的参考索引是否为视图间参考图片(162)。在一些实例中,视频解码器30可基于视图识别符(view_id)而确定参考图片是否包括于与正被编码的块不同的视图中。
根据本发明的方面,若参考索引对应于视图间参考图片(步骤162的是分支),则视频解码器30可解码指示是否将VSP应用于参考索引的数据。举例来说,在将使用VSP以确定预测性块的例子中,视频解码器30可解码指示将使用VSP的数据(例如,视频解码器30可从经编码位流获得等于1的vsp_flag)。在视频解码器30将在无VSP的情况下执行视图间预测以确定预测性块的例子中,视频解码器30可解码指示将不使用VSP的数据(例如,视频解码器30可从经编码位流获得等于0的vsp_flag)。在一些实例中,若参考索引对应于视图间参考图片,但在位流中不包括VSP指示(例如,不存在vsp_flag),则视频解码器30可自动地确定(推断出)在无VSP的情况下视图间预测当前块。
视频解码器30可使用经解码运动或视差向量和参考图片索引来预测当前块(166)。在使用VSP的例子中,视频解码器30可产生经合成图片以确定预测性块。视频解码器30接着可反向扫描经再现系数(168),以产生经量化变换系数块。视频解码器30接着可逆量化和逆变换系数以产生残余块(170)。视频解码器30可最终通过组合经预测块与残余块而解码当前块(172)。
以此方式,图7的方法表示包括如下操作的方法的实例:确定用于当前块的参考索引是否对应于视图间参考图片;以及当用于当前块的参考索引对应于视图间参考图片时,从经编码位流获得指示当前块的视图合成预测(VSP)模式的数据,其中用于参考索引的VSP模式指示是否从视图间参考图片而运用视图合成预测来预测当前块。
上文关于视图合成所描述的技术可由视频编码器20(图1和图2)和/或视频解码器30(图1和图3)执行,视频编码器20和视频解码器30两者通常可被称作视频译码器。同样地,在适用时,“译码”和“视频译码”可指视频编码(例如,由视频编码器进行)抑或视频解码(例如,由视频解码器进行)。
应理解,取决于实例,可以不同序列来执行本文所描述的方法中任一者的某些动作或事件,可添加、合并或全部省去所述动作或事件(例如,并非所有所描述动作或事件均为所述方法的实践所必要)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或多个处理器同时地而非循序地执行动作或事件。另外,虽然出于清楚的目的而将本发明的某些方面描述为由单一模块或单元执行,但应理解,本发明的技术可由与视频译码器相关联的单元或模块的组合执行。
虽然上文描述所述技术的各种方面的特定组合,但提供此等组合以仅仅说明本发明所描述的技术的实例。因此,本发明的技术应不限于此等实例组合,且可涵盖本发明所描述的技术的各种方面的任何可想到组合。
在一或多项实例中,所描述功能可以硬件、软件、固件或其任何组合予以实施。若以软件予以实施,则所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由以硬件为基础的处理单元执行。计算机可读媒体可包括对应于例如数据存储媒体等有形媒体的计算机可读存储媒体,或包括促进(例如)根据通信协议而将计算机程序从一处传送到另一处的任何媒体的通信媒体。
以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包括计算机可读媒体。
作为实例而非限制,此等计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。并且,任何连接被适当地称为计算机可读媒体。举例来说,若使用同轴缆线、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术而从网站、服务器或其它远程来源发射指令,则同轴缆线、光缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于媒体的定义中。
然而,应理解,计算机可读存储媒体和数据存储媒体不包括连接、载波、信号或其它暂时性媒体,而是有关于非暂时性有形存储媒体。如本文所使用,磁盘和光盘包括紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各者的组合也应包括于计算机可读媒体的范围内。
可由例如以下各者的一或多个处理器执行指令:一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效集成式或离散逻辑电路系统。因此,如本文所使用,术语“处理器”可指上述结构或适合于实施本文所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描述的功能性可提供于经配置用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编码解码器中。并且,所述技术可完全地实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种各样的装置或设备中,所述装置或设备包括无线手机、集成电路(IC)或IC集合(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但其未必要求通过不同硬件单元进行实现。事实上,如上文所描述,各种单元可组合于编码解码器硬件单元中,或由交互操作性硬件单元的集合(包括如上文所描述的一或多个处理器)结合合适的软件和/或固件而提供。已描述本发明的各种方面。此等和其它方面在所附权利要求书的范围内。

Claims (40)

1.一种解码视频数据的方法,所述方法包含:
确定第一视图中用于预测当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片,其中所述第二视图与所述第一视图不同;
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,从经编码位流获得指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标;以及
基于所述当前块是运用VSP进行预测的指示,运用VSP解码所述当前块。
2.根据权利要求1所述的方法,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
3.根据权利要求1所述的方法,其进一步包含解码不包括视图合成参考图片的参考索引的指示的切片标头以用于运用VSP解码所述当前块。
4.根据权利要求1所述的方法,其中所述参考图片列表仅包含参考图片列表0。
5.根据权利要求1所述的方法,其中所述参考图片列表包含第一参考图片列表和第二参考图片列表中的一者。
6.根据权利要求1所述的方法,其中所述块层级VSP旗标包含指示用于所述当前块的第一VSP模式的数据,所述方法进一步包含从所述经编码位流获得指示是否执行所述第一VSP模式和第二VSP模式中的一者的数据,其中执行所述第二VSP模式包含基于视图合成参考图片的参考图片索引而确定所述视图合成参考图片。
7.根据权利要求1所述的方法,其进一步包含:
从所述视图间参考图片确定视图合成参考图片;
将所述视图合成预测图片添加到所述参考图片列表,其中不使用参考图片列表修改程序来重新排序所述视图合成预测图片;
其中所述运用VSP解码所述当前块包含相对于所述视图合成参考图片来解码所述当前块。
8.根据权利要求1所述的方法,其中所述获得所述块层级VSP旗标包含仅当所述视图间参考图片包括于参考图片列表0中时,才获得所述块层级VSP旗标。
9.根据权利要求1所述的方法,其中所述获得所述块层级VSP旗标包含仅当所述视图间参考图片包括于参考图片列表1中时,才获得所述块层级VSP旗标。
10.一种用于解码视频数据的设备,所述设备包含:
存储器,其经配置以存储包括当前块的视频数据;以及
一或多个处理器,其经配置以:
确定第一视图中用于预测所述当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片,其中所述第二视图与所述第一视图不同;
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,从经编码位流获得指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标;以及
基于所述当前块是运用VSP进行预测的指示,运用VSP解码所述当前块。
11.根据权利要求10所述的设备,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
12.根据权利要求10所述的设备,其中所述一或多个处理器经进一步配置以解码不包括视图合成参考图片的参考索引的指示的切片标头以用于运用VSP解码所述当前块。
13.根据权利要求10所述的设备,其中所述参考图片列表仅包含参考图片列表0。
14.根据权利要求10所述的设备,其中所述参考图片列表包含第一参考图片列表和第二参考图片列表中的一者。
15.根据权利要求10所述的设备,其中所述块层级VSP旗标包含指示用于所述当前块的第一VSP模式的数据,且其中所述一或多个处理器经进一步配置以从所述经编码位流获得指示是否执行所述VSP模式和第二VSP模式中的一者的数据,其中为了执行所述第二VSP模式,所述一或多个处理器经配置以基于视图合成参考图片的参考图片索引而确定所述视图合成参考图片。
16.根据权利要求10所述的设备,其中所述一或多个处理器经进一步配置以:
从所述视图间参考图片确定视图合成参考图片;
将所述视图合成预测图片添加到所述参考图片列表,其中不使用参考图片列表修改程序来重新排序所述视图合成预测图片;
其中,为了运用VSP解码所述当前块,所述一或多个处理器经配置以相对于所述视图合成参考图片来解码所述当前块。
17.根据权利要求10所述的设备,其中,为了获得所述块层级VSP旗标,所述一或多个处理器经配置以仅当所述视图间参考图片包括于参考图片列表0中时才获得所述块层级VSP旗标。
18.根据权利要求10所述的设备,其中,为了获得所述块层级VSP旗标,所述一或多个处理器经配置以仅当所述视图间参考图片包括于参考图片列表1中时才获得所述块层级VSP旗标。
19.一种编码视频数据的方法,所述方法包含:
确定第一视图中用于预测当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片,其中所述第二视图与所述第一视图不同;
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,产生指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标;以及
在位流中编码所述块层级VSP旗标。
20.根据权利要求19所述的方法,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
21.根据权利要求19所述的方法,其进一步包含编码不包括视图合成参考图片的参考索引的指示的切片标头以用于编码所述当前块。
22.根据权利要求19所述的方法,其中所述参考图片列表仅包含参考图片列表0。
23.根据权利要求19所述的方法,其中所述参考图片列表包含第一参考图片列表和第二参考图片列表中的一者。
24.根据权利要求19所述的方法,其中所述块层级VSP旗标包含指示用于所述当前块的第一VSP模式的数据,且所述方法进一步包含编码指示是否执行所述VSP模式和第二VSP模式中的一者的数据,其中执行所述第二VSP模式包含基于视图合成参考图片的参考图片索引而确定所述视图合成参考图片。
25.根据权利要求19所述的方法,其进一步包含:
从所述视图间参考图片确定视图合成参考图片;
将所述视图合成预测图片添加到所述参考图片列表,其中不使用参考图片列表修改程序来重新排序所述视图合成预测图片;以及
相对于所述视图合成参考图片来编码所述当前块。
26.根据权利要求19所述的方法,其进一步包含仅当所述视图间参考图片包括于参考图片列表0中时才从所述视图间参考图片来合成视图合成参考图片。
27.根据权利要求19所述的方法,其进一步包含仅当所述视图间参考图片包括于参考图片列表1中时才从所述视图间参考图片来合成视图合成参考图片。
28.一种用于编码视频数据的设备,所述设备包含:
存储器,其经配置以存储包括当前块的视频数据;以及
一或多个处理器,其经配置以:
确定第一视图中用于预测所述当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片,其中所述第二视图与所述第一视图不同;
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,产生指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标;且
在位流中编码所述块层级VSP旗标。
29.根据权利要求28所述的设备,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
30.根据权利要求28所述的设备,其中所述一或多个处理器经进一步配置以编码不包括视图合成参考图片的参考索引的指示的切片标头以用于编码所述当前块。
31.根据权利要求28所述的设备,其中所述参考图片列表仅包含参考图片列表0。
32.根据权利要求28所述的设备,其中所述参考图片列表包含第一参考图片列表和第二参考图片列表中的一者。
33.根据权利要求28所述的设备,其中所述块层级VSP旗标的所述数据包含指示用于所述当前块的第一VSP模式的数据,且其中所述一或多个处理器经进一步配置以编码指示是否执行所述VSP模式和第二VSP模式中的一者的数据,其中为了执行所述第二VSP模式,所述一或多个处理器经配置以基于视图合成参考图片的参考图片索引而确定所述视图合成参考图片。
34.根据权利要求28所述的设备,其中所述一或多个处理器经进一步配置以:
从所述视图间参考图片确定视图合成参考图片;
将所述视图合成预测图片添加到所述参考图片列表,其中不使用参考图片列表修改程序来重新排序所述视图合成预测图片;且
相对于所述视图合成参考图片来编码所述当前块。
35.根据权利要求28所述的设备,其中所述一或多个处理器经进一步配置以仅当所述视图间参考图片包括于参考图片列表0中时才从所述视图间参考图片来合成视图合成参考图片。
36.根据权利要求28所述的设备,其中所述一或多个处理器经进一步配置以仅当所述视图间参考图片包括于参考图片列表1中时才从所述视图间参考图片来合成视图合成参考图片。
37.一种非暂时性计算机可读媒体,其具有存储于其上的指令,所述指令在执行时使一或多个处理器:
确定第一视图中用于预测当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片,其中所述第二视图与所述第一视图不同;以及
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,解码指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标;以及
基于所述当前块是运用VSP进行预测的指示,运用VSP解码所述当前块。
38.根据权利要求37所述的非暂时性计算机可读媒体,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
39.一种用于译码视频数据的设备,所述设备包含:
用于确定第一视图中用于预测当前块的参考图片列表中的参考图片的参考索引对应于第二视图中的视图间参考图片的装置,其中所述第二视图与所述第一视图不同;
基于所述参考索引对应于所述视图间参考图片的确定,且仅当用于所述当前块的所述参考索引被确定为对应于所述视图间参考图片时,用于解码指示所述当前块是否是使用从所述视图间参考图片合成的图片的至少一部分而运用视图合成预测VSP进行预测的块层级VSP旗标的装置;以及
基于所述当前块是运用VSP进行预测的指示,用于运用VSP解码所述当前块的装置。
40.根据权利要求39所述的设备,其中当所述当前块为宏块时所述块层级为宏块层级,或当所述当前块为宏块分割区时所述块层级为宏块分割区层级。
CN201480004292.4A 2013-01-10 2014-01-10 三维视频中的视图合成 Active CN105308969B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361751211P 2013-01-10 2013-01-10
US61/751,211 2013-01-10
US14/151,586 2014-01-09
US14/151,586 US10136119B2 (en) 2013-01-10 2014-01-09 View synthesis in 3D video
PCT/US2014/011119 WO2014110426A1 (en) 2013-01-10 2014-01-10 View synthesis in 3d video

Publications (2)

Publication Number Publication Date
CN105308969A CN105308969A (zh) 2016-02-03
CN105308969B true CN105308969B (zh) 2018-09-14

Family

ID=51060661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480004292.4A Active CN105308969B (zh) 2013-01-10 2014-01-10 三维视频中的视图合成

Country Status (9)

Country Link
US (1) US10136119B2 (zh)
EP (1) EP2944086B1 (zh)
JP (1) JP6312705B2 (zh)
KR (1) KR102218509B1 (zh)
CN (1) CN105308969B (zh)
BR (1) BR112015016678B1 (zh)
ES (1) ES2703062T3 (zh)
TW (1) TWI566589B (zh)
WO (1) WO2014110426A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9930363B2 (en) * 2013-04-12 2018-03-27 Nokia Technologies Oy Harmonized inter-view and view synthesis prediction for 3D video coding
TWI564841B (zh) * 2014-10-20 2017-01-01 陳金仁 即時影像合成裝置、方法與電腦程式產品
KR102162057B1 (ko) * 2014-10-23 2020-10-07 한국전자기술연구원 화질 적응적인 고속 다시점 영상 합성 방법 및 시스템
EP4013051A1 (en) * 2015-06-05 2022-06-15 Dolby Laboratories Licensing Corporation Methods for encoding and decoding intra-frame prediction
EP3301933A1 (en) * 2016-09-30 2018-04-04 Thomson Licensing Methods, devices and stream to provide indication of mapping of omnidirectional images
EP3321844B1 (en) * 2016-11-14 2021-04-14 Axis AB Action recognition in a video sequence
US10694202B2 (en) * 2016-12-01 2020-06-23 Qualcomm Incorporated Indication of bilateral filter usage in video coding
US20190141320A1 (en) * 2017-11-07 2019-05-09 Qualcomm Incorporated Enhanced reference picture management in video coding
CN108189757B (zh) * 2018-01-03 2021-02-19 矩阵数据科技(上海)有限公司 一种行车安全提示系统
CN112218086A (zh) * 2019-07-11 2021-01-12 中兴通讯股份有限公司 编码、解码方法、传输方法、编码、解码装置及系统
US11831909B2 (en) * 2021-03-11 2023-11-28 Qualcomm Incorporated Learned B-frame coding using P-frame coding system
TW202316239A (zh) * 2021-10-11 2023-04-16 美商元平台技術有限公司 具有應用程式產生的移動向量和深度之圖框外插
US11783533B2 (en) 2021-10-11 2023-10-10 Meta Platforms Technologies, Llc Frame extrapolation with application generated motion vector and depth

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035261A (zh) * 2007-04-11 2007-09-12 宁波大学 一种交互式多视点视频系统的图像信号处理方法
CN101198061A (zh) * 2008-01-08 2008-06-11 吉林大学 基于视点图像映射的立体视频流编码方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7489342B2 (en) * 2004-12-17 2009-02-10 Mitsubishi Electric Research Laboratories, Inc. Method and system for managing reference pictures in multiview videos
US8823821B2 (en) * 2004-12-17 2014-09-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using motion vector predictor list
US7671894B2 (en) 2004-12-17 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using skip and direct modes
EP2008461B1 (en) * 2006-03-30 2015-09-16 LG Electronics Inc. A method and apparatus for decoding/encoding a multi-view video signal
US10298952B2 (en) * 2007-08-06 2019-05-21 Interdigital Madison Patent Holdings Methods and apparatus for motion skip move with multiple inter-view reference pictures
WO2010123203A2 (ko) * 2009-04-22 2010-10-28 엘지전자 주식회사 다시점 영상의 참조 픽쳐 리스트 변경 방법
CA2846425A1 (en) 2011-08-30 2013-03-07 Nokia Corporation An apparatus, a method and a computer program for video coding and decoding
US20130100245A1 (en) * 2011-10-25 2013-04-25 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using virtual view synthesis prediction
US9288506B2 (en) 2012-01-05 2016-03-15 Qualcomm Incorporated Signaling view synthesis prediction support in 3D video coding
US9503702B2 (en) 2012-04-13 2016-11-22 Qualcomm Incorporated View synthesis mode for three-dimensional video coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035261A (zh) * 2007-04-11 2007-09-12 宁波大学 一种交互式多视点视频系统的图像信号处理方法
CN101198061A (zh) * 2008-01-08 2008-06-11 吉林大学 基于视点图像映射的立体视频流编码方法

Also Published As

Publication number Publication date
TWI566589B (zh) 2017-01-11
KR102218509B1 (ko) 2021-02-19
BR112015016678A2 (pt) 2017-07-11
TW201440503A (zh) 2014-10-16
KR20150105434A (ko) 2015-09-16
ES2703062T3 (es) 2019-03-06
JP2016508354A (ja) 2016-03-17
CN105308969A (zh) 2016-02-03
WO2014110426A1 (en) 2014-07-17
JP6312705B2 (ja) 2018-04-18
BR112015016678B1 (pt) 2023-04-18
US20140192157A1 (en) 2014-07-10
US10136119B2 (en) 2018-11-20
EP2944086A1 (en) 2015-11-18
EP2944086B1 (en) 2018-09-26

Similar Documents

Publication Publication Date Title
CN105308969B (zh) 三维视频中的视图合成
CN104813668B (zh) 在三维视频译码中的自适应性明度补偿
CN104115493B (zh) 用于多视图视频译码mvc兼容三维视频译码3dvc的参数集的激活
CN104969551B (zh) 可缩放及多视角视频译码中的高级残差预测
CN104769948B (zh) 一种编解码方法、装置及可读存储介质
CN103493483B (zh) 译码多视图视频加深度内容
CN105637870B (zh) 使用不对称运动分割的视频译码技术
CN104025602B (zh) 三维视频译码中用信号通知视图合成预测支持
CN104170380B (zh) 视频译码中的视差矢量预测
CN103155571B (zh) 译码立体视频数据
CN104272741B (zh) 多视图译码和3d译码中的视图相依性
CN105027571B (zh) 三维视频译码中导出的视差向量
CN104782131B (zh) 视频译码中的目标输出层
CN105359526A (zh) 用于视频译码的跨层并行处理与偏移延迟参数
CN104904218A (zh) 视差矢量推导
KR20140124045A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant