CN103748882A - 支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器 - Google Patents

支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器 Download PDF

Info

Publication number
CN103748882A
CN103748882A CN201280036310.8A CN201280036310A CN103748882A CN 103748882 A CN103748882 A CN 103748882A CN 201280036310 A CN201280036310 A CN 201280036310A CN 103748882 A CN103748882 A CN 103748882A
Authority
CN
China
Prior art keywords
video block
decoding
movable information
depth views
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280036310.8A
Other languages
English (en)
Inventor
陈盈
张莉
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103748882A publication Critical patent/CN103748882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明描述可应用于三维3D视频译码的特征及技术。在一个实例中,一种技术可包含译码纹理视图视频块及译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联。译码所述深度视图视频块可包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。

Description

支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器
本申请案主张以下各者的权利:
2011年11月18日申请的美国临时专利申请案61/561,800;
2011年11月26日申请的美国临时专利申请案61/563,771;
2011年8月11日申请的美国临时专利申请案61/522,559;以及
2011年7月22日申请的美国临时专利申请案61/510,738;
2011年8月11日申请的美国临时专利申请案61/522,584;
2011年11月26日申请的美国临时专利申请案61/563,772;以及
2012年4月13日申请的美国临时专利申请案61/624,031,
所述申请案中的每一者的全部内容以全文引用的方式并入。
技术领域
本发明涉及三维(3D)视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传送装置及其类似者。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-TH.263、ITU-T H.264/MPEG-4第十部分(高级视频译码(AVC))界定的标准、目前在开发中的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频压缩技术。视频装置可通过实施这些视频压缩技术来更有效率地发射、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,视频切片(即,视频帧或视频帧的一部分)可被分割成多个视频块,视频块还可称为树块、译码单元(CU)及/或译码节点。图片的帧内译码(I)切片的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测产生用于待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码的块是根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差异的残余数据来编码。经帧内译码的块是根据帧内译码模式及残余数据来编码。为了进一步压缩,残余数据可从像素域变换到变换域,从而产生接着可被量化的残余变换系数。最初配置成二维阵列的经量化的变换系数可经扫描以便产生变换系数的一维向量,且可应用熵译码以实现更大压缩。
三维(3D)视频是多种应用非常需要的,但3D视频译码提出许多挑战。
发明内容
本发明描述可适用于三维(3D)视频译码的特征及技术。在一实例中,一种技术可包含译码纹理视图视频块及译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联。译码所述深度视图视频块可包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
所描述的技术可对应于本文中被称为内侧视图运动预测(IMVP)模式的译码模式。在此情况下,深度视图分量(例如,深度视图视频块)可不包含相对于其运动信息的任何额外差量值,且可改为采用纹理视图分量的运动信息作为深度视图分量的运动信息。通过定义完全采用纹理视图的运动信息作为深度视图的运动信息的模式,由于无相对于此运动信息的差量值的任何传信,故可实现改进的压缩。
在另一实例中,本发明描述一种译码3D视频数据的装置,其中所述装置包括经配置以译码纹理视图视频块且译码深度视图视频块的一个或一个以上处理器,其中所述深度视图视频块与所述纹理视图视频块相关联。译码所述深度视图视频块包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
在另一实例中,本发明描述一种包括存储于其上的指令的计算机可读存储媒体,其中所述指令在执行时致使一个或一个以上处理器译码纹理视图视频块且译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联。译码所述深度视图视频块包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
在另一实例中,本发明描述一种经配置以译码3D视频数据的装置,所述装置包括用于译码纹理视图视频块的装置及用于译码深度视图视频块的装置,其中所述深度视图视频块与所述纹理视图视频块相关联,其中所述用于译码所述深度视图视频块的装置包含用于译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息的装置。
一个或一个以上实例的细节陈述于随附图式及以下描述中。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书显而易见。
附图说明
图1是说明可利用本发明中所描述的技术的实例视频编码及解码系统的框图。
图2是说明可实施本发明中所描述的技术的实例视频编码器的框图。
图3是说明可实施本发明中所描述的技术的实例视频解码器的框图。
图4是说明一个存取单元内的视图分量的视频译码层(VCL)网络抽象层(NAL)单元的位流次序的概念图。
图5是形成视频序列的图片序列的概念说明,其中深度视图的第四图片中的经识别宏块及纹理视图的第四图片中的共置的MB的运动向量将在深度视图分量中重新使用。
图6是展示可由三维视频译码(3DVC)编解码器使用的预测结构的概念图。
图7是展示不允许将视图间预测用于深度视图分量的3DVC编解码器的预测结构的概念图。
图8是说明不对称视图间预测的实例的概念图,其中左视图(VL)及右视图(VR)均具有半宽度。
图9是说明可由符合本发明的视频编码器执行的技术的流程图。
图10是说明可由符合本发明的视频解码器执行的技术的流程图。
具体实施方式
本发明的技术涉及基于ITU-T H.264/AVC标准及支持多视图译码(MVC)的一个或一个以上扩展(例如,ITU-T H.264/AVC标准的Annex H)的三维(3D)视频译码。然而,所述技术还可适用于其它视频译码标准或技术,例如,目前正在开发的新兴HEVC标准、ITU-T H.264/AVC标准的扩展或新兴HEVC标准或例如On2VP6/VP7/VP8等专属视频译码技术。
在3D视频译码中,经常存在共同用以定义3D视频呈现的多个不同视图。此外,所述不同视图中的每一者可包含纹理视图分量及深度视图分量两者。纹理视图分量可译码成视频数据的块,其被称为“视频块”且在H.264上下文(context)中通常被称作“宏块”。类似地,深度视图分量还经译码为“视频块”,且在H.264标准中通常被称作“宏块”。每一纹理视频块可具有对应的深度视频块。然而,不同视频块(纹理及深度)通常单独地译码。其它视频译码标准可将视频块称为树块或译码单元(CU)。
关于帧间译码,运动向量(或相对于运动向量预测子的运动向量差值)可用以界定预测性块,所述预测性块接着被用以预测经译码视频块的值。在此情况下,所谓的“残余值”或“差值”与识别对应预测性块的运动向量(或相对于运动向量预测子的运动向量差值)一起包含于经编码位流中。解码器接收运动向量及残余值,且使用运动向量来自先前经解码的视频数据识别预测性块。为了重建经编码视频块,解码器组合残余值与由运动向量识别的对应预测性块。
3D视频译码存在许多潜在问题。举例来说,当译码多视图视频数据时,可能需要解决以下问题以形成有效率的编解码器:
1.提供用于联合译码一个或一个以上视图的纹理分量及深度分量的能力;
2.提供利用纹理与深度之间的运动冗余的能力;
3.提供以简单且有效率的方式发射摄影机参数的能力;
4.在视图调适中,inter_view_flag可用以在视图分量不属于正在用于输出的视图的情况下废弃所述视图分量。然而,在不对称3DV情况下,即使此旗标等于0,也仍可能需要网络抽象层(NAL)单元以用于预测具有不同分辨率的视图。
为了解决以上问题,可使用包含以下各者的若干技术:
1.用以支持深度视图及纹理视图的联合译码的架构。
2.新的内侧视图运动预测(IVMP)模式可在宏块(或其它视频块或CU)层级使用以允许运动向量在深度视图与纹理视图之间的重新使用。将在本发明中详细描述IVMP模式的方面。
3.可将摄影机参数及深度范围添加到序列参数集合(SPS)中或作为新的补充增强信息(SEI)消息,且如果这些参数基于图片而改变,则可添加VPS(视图参数集合)或SEI消息。
4.可修改inter_view_flag的语意,或可在网络抽象层(NAL)单元标头中定义新的语法元素以指示对具有不同分辨率的视图来说不可废弃的视图分量对具有相同分辨率的视图来说是否也为可废弃的。
5.除了将由深度视图分量使用的nal_unit_type(例如,21)之外,一个实例进一步包含用于不兼容于H.264/MVC的纹理视图分量的新nal_unit_type(例如,22)。
本发明可使用以下定义:
视图分量:视图在单个存取单元中的经译码表示。当视图包含经译码的纹理表示及深度表示两者时,视图分量由纹理视图分量及深度视图分量组成。
纹理视图分量:视图的纹理在单个存取单元中的经译码表示。
深度视图分量:视图的深度在单个存取单元中的经译码表示。
深度视图分量中的经译码视频译码层(VCL)网络抽象层(NAL)单元可被指派nal_unit_type21,作为专门用于深度视图分量的经译码切片扩展的新类型。纹理视图分量及深度视图分量在本文中还可被称为纹理视图视频块及深度视图视频块。
现将描述示范性位流次序。在一些实例中,在每一视图分量中,深度视图分量的任何经译码切片NAL单元(具nal_unit_type21)必须跟在纹理视图分量的所有经译码切片NAL单元之后。为简单起见,本发明可将深度视图分量的经译码切片NAL单元命名为深度NAL单元。
深度NAL单元可具有与具有等于20的nal_unit_type的NAL单元相同的NAL单元标头结构。图4是说明一个存取单元内的视图分量的VCL NAL单元的位流次序的概念图。
如图4所示,根据本发明,存取单元含有具有多个视图分量的多个NAL单元。每一视图分量可由一个纹理视图分量及一个深度视图分量组成。基础视图(具有等于0的视图次序索引(VOIdx))的纹理视图分量含有一个前缀NAL单元(具有等于14的NAL单元类型)及一个或一个以上AVC VCL NAL单元(具有等于例如1或5的NAL单元类型)。其它视图中的纹理视图分量仅含有MVC VCL NAL单元(具有等于20的NAL单元类型)。在基础视图及非基础视图两者中,深度视图分量含有具有等于21的NAL单元类型的深度NAL单元。在任何视图分量中,深度NAL单元按解码/位流次序跟在纹理视图分量的NAL单元之后。
由于纹理视图分量及其相关联深度视图分量具有类似的物件廓形,故所述两者通常具有类似的物件边界及移动。因此,其运动场中存在冗余。如果纹理视图块及深度视图块存在于同一NAL单元中及/或其对应于3D视频数据的相同(或重迭)空间及/或时间例项,则纹理视图块与深度视图块可为“相关联的”。本发明的技术可通过允许深度视图分量以类似于所谓“合并”模式的方式完全采用相关联纹理视图分量的运动信息的模式而在很大程度上利用此冗余。在此情况下,深度视图分量可不包含相对于其运动信息的任何额外差量值,且可改为采用纹理视图分量的运动信息作为深度视图分量的运动信息。通过定义完全采用纹理视图的运动信息作为深度视图的运动信息的模式,由于无相对于此运动信息的差量值的任何传信,故可实现改进的压缩。
明确地说,可根据合并纹理视图的运动信息以作为深度视图的运动信息的新模式来启用从纹理视图分量到相关联深度视图分量的运动预测。在一些实例中,可仅针对具有深度视图分量的经帧间译码MB启用此所谓的内侧视图运动预测(IVMP)模式。在IVMP模式中,包含纹理视图分量中的共置(co-located)的MB的mb_type、sub_mb_type、参考索引及运动向量的运动信息被同一视图的深度视图分量重新使用。旗标可在每一MB中用信号发出以指示MB是否使用IVMP模式。换句话说,旗标可在视频块层级(例如,宏块层级)定义。旗标可与深度视频块(例如,深度宏块)一起包含进来。如图5所示,旗标对深度视图的第四图片中的经识别MB来说可为真,且纹理视图的第四图片(经识别为第四图片)中的共置的MB的运动向量被重新用于深度视图分量中的醒目提示的MB。注意,在一些实例中,IVMP模式仅适用于非锚定图片(non-anchor picture)。
再次,相对于基于另一视图的运动来预测一个视图的运动向量的技术,本发明的技术可实现进一步压缩。举例来说,一些可缩放视频译码(SVC)技术可允许基于基础视图的运动信息对增强视图的运动预测,且在一些情况下,基础视图可为纹理视图,且增强视图可为深度视图。然而,在这些情况下,除指示基础视图被用以预测增强视图的预测信息(或旗标)之外,运动向量差异数据(例如,差量)也始终被译码。与之相比,本发明的技术可利用IVMP模式,其中无差量信息(例如,无运动向量差值)被译码或被允许。确切地说,对于IVMP模式,采用纹理视图的运动信息作为深度视图的运动信息。
当采用纹理视图的运动信息作为深度视图的运动信息时,则在不接收或解码用于深度视图的任何其它运动信息的情况下,解码器可使用纹理视图(例如,纹理块)的运动信息来解码深度视图(例如,对应深度块)。明确地说,解码器可经配置而以此方式解译IVMP旗标。因此,当启用IVMP旗标时,可从深度视频块排除运动信息,且解码器可经配置以知晓:启用的IVMP旗标意味着用于深度视频块的运动信息可从对应纹理视频块获得。
符合本发明的编码器通常遵照联合多视图视频译码(JMVC)编码器方案,其中视图是逐个进行编码。在每一视图内,首先编码纹理序列,且接着编码深度序列。
当启用IVMP模式时,在纹理视图分量编码期间,每一纹理视图分量的运动场被写入到运动文件中,运动文件的名称可在配置文件中指定。当编码同一视图的相关联深度序列时,可读取运动文件以供参考。
在一些方面中,解码器可类似于JMVC解码器,修改之处为还解码并输出每一视图的深度序列。当启用IVMP模式时,每一纹理视图分量的运动被存储且被采用为每一对应深度视图的运动。对于其中IVMP模式被停用的任何块,深度视图可包含其自身的运动信息,或可包含一些其它语法元素以识别从何处获得、预测及/或采用其相应运动信息。然而,如果启用IVMP模式,则深度视图不包含其自身的运动信息,且运动信息是由解码器从对应纹理视图分量获得。因此,当启用IVMP模式时,深度视图视频块采用对应纹理视图视频块的运动信息,使得深度视图视频块不包含其自身的运动信息。
图1、2及3的以下论述描述一些示范性情形,本发明的基于MVC的3DVC技术可在所述情形下使用。
图1是说明可利用本发明中所描述的技术的实例视频编码及解码系统10的框图。如图1所示,系统10包含产生将在稍后时间由目的地装置14解码的经编码视频数据的源装置12。源装置12及目的地装置14可包括包含下列各者的广泛范围的装置中的任一者:桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、例如所谓“智能”电话、所谓“智能”板等电话手持机、电视、摄影机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传送装置,或其类似者。在一些情况下,源装置12及目的地装置14可经配备以用于无线通信。
目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够使经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括通信媒体以使源装置12能够实时地将经编码视频数据直接发射到目的地装置14。经编码视频数据可根据例如无线通信协议等通信标准来调制且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一个或一个以上实体传输线。通信媒体可形成基于封包的网络(例如,局域网、广域网,或例如因特网等全球网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它装备。
或者,经编码数据可从输出接口22输出到存储装置32。类似地,经编码数据可由输入接口从存储装置32存取。存储装置32可包含多种分散式或本地存取的数据存储媒体(例如,硬盘、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适数字存储媒体)中的任一者。在另一实例中,存储装置32可对应于文件服务器或可保留由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传送或下载而从存储装置32存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地硬盘。目的地装置14可经由任何标准数据连接(包含因特网连接)存取经编码视频数据。此可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等)或两者的组合。经编码视频数据从存储装置32的发射可为流式传送、下载发射或两者的组合。
本发明的技术未必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,所述多媒体应用例如空中(over-the-air)电视广播、有线电视发射、卫星电视发射、流式视频发射(例如,经由因特网)、供存储于数据存储媒体上的数字视频的编码、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射以支持例如视频流式传送、视频播放、视频广播及/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。在一些情况下,输出接口22可包含调制器/解调制器(调制解调器)及/或发射器。在源装置12中,视频源18可包含例如视频俘获装置(例如,视频摄影机)、含有先前俘获的视频的视频存档、用以从视频内容提供者接收视频的视频馈送接口及/或用于产生作为源视频的计算机图形数据的计算机图形系统或这些源的组合的源。作为一个实例,如果视频源18为视频摄影机,则源装置12及目的地装置14可形成所谓的摄影机电话或视频电话。然而,本发明中所描述的技术通常可适用于视频译码,且可应用于无线及/或有线应用。
所俘获、预先俘获或计算机产生的视频可由视频编码器12来编码。经编码视频数据可经由源装置20的输出接口22直接发射到目的地装置14。经编码视频数据还可(或替代地)存储于存储装置32上以便由目的地装置14或其它装置稍后存取以用于解码及/或播放。
目的地装置14包含输入接口28、视频解码器30及显示装置31。在一些情况下,输入接口28可包含接收器及/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或提供于存储装置32上的经编码视频数据可包含由视频编码器20产生的供视频解码器(例如,视频解码器30)在解码视频数据时使用的多种语法元素。这些语法元素可与在通信媒体上发射、存储于存储媒体上或存储于文件服务器上的经编码视频数据一起包含进来。
显示装置31可与目的地装置14整合或在目的地装置14外。在一些实例中,目的地装置14可包含整合式显示装置,且还可经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置31向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如,液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30可根据视频压缩标准(例如,目前在开发中的高效率视频译码(HEVC)标准)而操作,且可遵照HEVC测试模型(HM)。或者,视频编码器20及视频解码器30可根据其它专属或工业标准(例如,替代地称为MPEG-4第十部分(高级视频译码(AVC))的ITU-T H.264标准)或这些标准的扩展而操作。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2及ITU-T H.263。专属译码技术(例如,被称为On2VP6/VP7/VP8的译码技术)还可实施本文中所描述的技术中的一者或一者以上。
虽然图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器整合,且可包含适当MUX-DEMUX单元或其它硬件及软件以处置共同数据流或不同数据流中的音频及视频两者的编码。如果适用,则在一些实例中,MUX-DEMUX单元可遵照ITU H.223多路复用器协议或(例如)用户数据报协议(UDP)等其它协议。
视频编码器20及视频解码器30各自可实施为多种合适编码器电路中的任一者,例如,一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分以软件实施时,装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且在使用一个或一个以上处理器的硬件中执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含于一个或一个以上编码器或解码器中,其任一者可整合为相应装置中的组合式编码器/解码器(编解码器)的部分。
JCT-VC正致力于HEVC标准的开发。HEVC标准化尝试是基于视频译码装置的演进模型,称为HEVC测试模型(HM)。HM根据(例如)ITU-T H.264/AVC假定视频译码装置相对于现有装置的若干额外能力。举例来说,尽管H.264提供九个帧内预测编码模式,但HM可提供多达33个帧内预测编码模式。
一般来说,HM的工作模型描述:视频帧或图片可划分成包含明度样本及色度样本两者的树块或最大译码单元(LCU)的序列。树块具有与H.264标准的宏块类似的用途。切片以译码次序包含数个连续树块。视频帧或图片可分割成一个或一个以上切片。每一树块可根据四叉树分裂成多个译码单元(CU)。举例来说,作为四叉树的根节点的树块可分裂成四个子节点,且每一子节点又可为父节点且可分裂成另外四个子节点。作为四叉树的叶节点的最后未分裂的子节点包括译码节点,即,经译码视频块。与经译码位流相关联的语法数据可定义树块可分裂的最大次数,且还可定义译码节点的最小大小。树块在一些实例中可被称为LCU。
CU包含译码节点及与译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且其形状必须为正方形。CU的大小可在8×8个像素到高达最大为64×64个像素或更多像素的树块的大小的范围内。每一CU可含有一个或一个以上PU及一个或一个以上TU。与CU相关联的语法数据可描述(例如)CU到一个或一个以上PU的分割。分割模式在CU以跳跃或直接模式编码、以帧内预测模式编码或是以帧间预测模式编码之间可能不同。PU在形状上可被分割为非正方形。与CU相关联的语法数据还可描述(例如)CU根据四叉树到一个或一个以上TU的分割。TU在形状上可为正方形或非正方形。
HEVC标准允许根据TU的变换,所述变换对于不同CU可能不同。TU通常基于针对经分割LCU界定的给定CU内的PU的大小来设定大小,但情况可能并非始终如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构而再分为较小单元。RQT的叶节点可被称为变换单元(TU)。与TU相关联的像素差值可经变换以产生可量化的变换系数。
一般来说,PU包含与预测过程有关的数据。举例来说,当PU是以帧内模式编码时,PU可包含描述用于PU的帧内预测模式的数据。作为另一实例,当PU是以帧间模式编码时,PU可包含描述定义用于PU的运动向量的数据。定义用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
一般来说,TU用于变换及量化过程。具有一个或一个以上PU的给定CU还可包含一个或一个以上变换单元(TU)。在预测之后,视频编码器20可计算对应于PU的残余值。残余值包括像素差值,所述值可变换为变换系数,经量化并使用TU扫描以产生用于熵译码的串行化变换系数。本发明通常使用术语“视频块”来指代CU的译码节点。在一些特定情况下,本发明还可使用术语“视频块”来指代包含译码节点及PU及TU的树块(即,LCU或CU)。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包含一系列一个或一个以上视频图片。GOP可包含在GOP的标头、图片中的一者或一者以上的标头中或别处的描述包含于GOP中的图片的数目的语法数据。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定的译码标准而在大小上不同。
作为实例,HM支持各种PU大小的预测。假设特定CU的大小为2N×2N,HM支持2N×2N或N×N的PU大小的帧内预测,及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中,CU的一个方向未被分割,而另一方向经分割成25%及75%。CU的对应于25%分割的部分是由“n”继的以“上(Up)”、“下(Down)”、“左(Left)”或“右(Right)”的指示来指示。因此,举例来说,“2N×nU”指代经水平分割而在顶部具2N×0.5N PU且在底部具有2N×1.5N PU的2N×2N CU。
在本发明中,“N×N”及“N乘N”可互换地使用以指代视频块在垂直维度及水平维度上的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块在垂直方向上将具有16个像素(y=16),且在水平方向上将具有16个像素(x=16)。同样,N×N块通常在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。可按行及列来配置块中的像素。此外,块未必需要在水平方向上与在垂直方向上具有相同数目个像素。举例来说,块可包括N×M个像素,其中M不必等于N。
在使用CU的PU的帧内预测性译码或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包括空间域(还被称为像素域)中的像素数据,且TU可在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后包括变换域中的系数。残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残余数据的TU,且接着变换TU以产生CU的变换系数。
在用以产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化通常指代量化变换系数以可能减少用以表示所述系数的数据的量,从而提供进一步压缩的过程。量化过程可减少与所述系数中的一些或所有系数相关联的位深度。举例来说,可在量化期间将n位值舍去到m位值,其中n大于m。
在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可进行熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描所述经量化的变换系数以形成一维向量之后,视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码方法来对所述一维向量进行熵编码。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在解码视频数据时使用。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可与(例如)符号的相邻值是否为非零有关。为了执行CAVLC,视频编码器20可选择用于待发射符号的可变长度码。可构造VLC中的码字,以使得相对较短的码对应于机率较大的符号,而较长码对应于机率较低的符号。以此方式,使用VLC可比(例如)对于待发射的每一符号使用相等长度的码字实现位节省。机率确定可基于指派给符号的上下文。
图2是说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内及帧间译码。帧内译码依靠空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的压缩模式中的任一者。帧间模式(例如,单个方向预测(P模式)或双向预测(B模式))可指代若干基于时间的压缩模式中的任一者。
在图2的实例中,视频编码器20包含分割单元35、预测模块41、参考图片存储器64、求和器50、变换模块52、量化单元54及熵编码单元56。预测模块41包含运动估计单元42、运动补偿单元44及帧内预测模块46。为了视频块重建,视频编码器20还包含逆量化单元58、逆变换模块60及求和器62。还可包含解块滤波器(图2中未图示)以对块边界进行滤波以从重建的视频中移除成块假影。如果需要,解块滤波器通常可对求和器62的输出进行滤波。除解块滤波器外,还可使用额外环路滤波器(环路内或环路后)。
如图2所示,视频编码器20接收视频数据,且分割单元35将所述数据分割成多个视频块。此分割还可包含(例如)根据LCU及CU的四叉树结构分割成切片、图块或其它较大单元,以及视频块分割。视频编码器20通常说明编码待编码的视频切片内的视频块的组件。切片可被划分成多个视频块(且可能划分成被称为图块的视频块集合)。预测模块41可基于错误结果(例如,译码速率及失真程度)为当前视频块选择多个可能译码模式中的一者(例如,多个帧内译码模式中的一者或多个帧间译码模式中的一者)。预测模块41可将所得的经帧内或帧间译码块提供到求和器50以产生残余块数据,且提供到求和器62以重建经编码块以用作参考图片。
预测模块41内的帧内预测模块46可相对于与待译码的当前块相同的帧或切片中一个或一个以上相邻块执行当前视频块的帧内预测性译码以提供空间压缩。预测模块41内的运动估计单元42及运动补偿单元44相对于一个或一个以上参考图片中的一个或一个以上预测性块执行当前视频块的帧间预测性译码以提供时间压缩。
运动估计单元42可经配置以根据视频序列的预定型样确定用于视频切片的帧间预测模式。预定型样可将序列中的视频切片指明为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度整合,但为概念目的而单独说明。由运动估计单元42执行的运动估计为产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的移位。
预测性块为经发现在像素差方面紧密匹配待译码的视频块的PU的块,其可通过绝对差的和(SAD)、平方差的和(SSD)或其它差量度来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的次整数像素(sub-integer pixel)位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此,运动估计单元42可对于完整像素位置及分率像素位置执行运动搜索,且输出具有分率像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码的切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器64中的一个或一个以上参考图片。运动估计单元42将所计算出的运动向量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于通过运动估计确定的运动向量来提取或产生预测性块,从而可能执行到子像素精度的内插。在接收到用于当前视频块的PU的运动向量时,运动补偿单元44可在参考图片列表中的一者中定位运动向量所指向的预测性块。视频编码器20通过从正译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值。像素差值形成块的残余数据,且可包含明度差分量及色度差分量两者。求和器50表示执行此减法运算的一个或一个以上组件。运动补偿单元44还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
帧内预测模块46可帧内预测当前块,以作为如上所述的由运动估计单元42及运动补偿单元44执行的帧间预测的替代。明确地说,帧内预测模块46可确定用以编码当前块的帧内预测模式。在一些实例中,帧内预测模块46可(例如)在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测模块46(或在一些实例中,模式选择单元40)可从经测试模式选择适当帧内预测模式来使用。举例来说,帧内预测模块46可使用各种经测试帧内预测模式的速率失真分析计算速率失真值,且在经测试模式中选择具有最佳速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的失真(或误差)的量,以及用以产生经编码块的位速率(即,位的数目)。帧内预测模块46可根据各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最佳速率失真值。
在一些情况下,预测模块41可选择IVMP模式用于译码一个或一个以上深度视频块。在此情况下,对应纹理视频块的运动信息可被用于深度块,如本文中所描述。深度块及纹理块可译码到同一NAL单元中,且IVMP旗标可经编码以使得解码器可通过重新使用对应纹理视图视频块的运动信息来正确解码深度视频块。
在任何情况下,在选择用于块的帧内预测模式之后,帧内预测模块46可将指示用于块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可根据本发明的技术编码指示选定帧内预测模式的信息。视频编码器20可在所发射的位流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表及多个经修改帧内预测模式索引表(还称为码字映射表)、各种块的编码上下文的定义及最大机率帧内预测模式的指示、帧内预测模式索引表及经修改帧内预测模式索引表以用于上下文中的每一者。
在预测模块41经由帧间预测或帧内预测产生当前视频块的预测性块之后,视频编码器20通过从当前视频块减去预测性块而形成残余视频块。残余块中的残余视频数据可包含于一个或一个以上TU中且应用于变换模块52。变换模块52使用变换(例如,离散余弦变换(DCT)或概念上类似的变换)将残余视频数据变换成残余变换系数。变换模块52可将残余视频数据从像素域转换到例如频域等变换域。
变换模块52可将所得变换系数发送到量化单元54。量化单元54量化所述变换系数以进一步减小位速率。量化过程可减少与所述系数中的一些或所有系数相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着执行包含经量化的变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56熵编码经量化的变换系数。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码方法或技术。在熵编码单元56进行的熵编码之后,经编码位流可发射到视频解码器30,或经存档以供稍后发射或由视频解码器30检索。熵编码单元56还可熵编码用于正在译码的当前视频切片的运动向量及其它语法元素。
逆量化单元58及逆变换模块60分别应用逆量化及逆变换,以重建像素域中的残余块以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块加到参考图片列表中的一者内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44还可将一个或一个以上内插滤波器应用于重建的残余块以计算次整数像素值以供在运动估计中使用。求和器62将重建的残余块加到由运动补偿单元44产生的运动经补偿的预测块以产生参考块以存储于参考图片存储器64中。参考块可由运动估计单元42及运动补偿单元44用作参考块来帧间预测后续视频帧或图片中的块。
图3是说明可实施本发明中所描述的技术的实例视频解码器30的框图。在图3的实例中,视频解码器30包含熵解码单元80、预测模块81、逆量化单元86、逆变换单元88、求和器90及参考图片存储器92。预测模块81包含运动补偿单元82及帧内预测模块84。视频解码器30在一些实例中可执行与关于来自图2的视频编码器20描述的编码遍次大体上互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元80熵解码所述位流以产生经量化的系数、运动向量及其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测模块81。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为帧内译码(I)切片时,预测模块81的帧内预测模块84可基于传信的帧内预测模式及来自当前帧或图片的先前经解码块的数据来产生用于当前视频切片的视频块的预测数据。当视频帧经译码为帧间译码(即,B、P或GPB)切片时,预测模块81的运动补偿单元82基于从熵解码单元80接收的运动向量及其它语法元素来产生用于当前视频切片的视频块的预测性块。所述预测性块可根据参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储于参考图片存储器92中的参考图片使用预设建构技术来建构参考帧列表(列表0及列表1)。
运动补偿单元82通过剖析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于正解码的当前视频块的预测性块。举例来说,运动补偿单元82使用所接收的语法元素中的一些确定用以译码视频切片的视频块的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、用于切片的参考图片列表中的一者或一者以上的构造信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。
在一些情况下,预测模块81可解译NAL单元中的旗标,且选择用于解码NAL单元的一个或一个以上深度视频块的IVMP模式。在此情况下,对应纹理视频块的运动信息可用于深度块,如本文中所描述。深度块及纹理块可译码到同一NAL单元中,且IVMP旗标可根据位流加以解码以使得视频解码器30可通过重新使用对应纹理视图视频块的运动信息来正确解码深度视频块。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算用于参考块的次整数像素的内插值。在此情况下,运动补偿单元82可根据所接收的语法元素确定由视频编码器20使用的内插滤波器,且使用所述内插滤波器来产生预测性块。
逆量化单元86逆量化(即,去量化)提供于位流中且由熵解码单元80解码的经量化的变换系数。逆量化过程可包含将由视频编码器20计算的量化参数用于视频切片中的每一视频块以确定量化的程度及(同样地)应应用的逆量化的程度。逆变换模块88将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数以便产生像素域中的残余块。
在预测模块81基于帧间或帧内预测产生用于当前视频块的预测性块之后,视频解码器30通过对来自逆变换模块88的残余块与由预测模块81产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的一个或一个以上组件。如果需要,还可应用解块滤波器来对经解码块进行滤波以便移除成块假影。其它环路滤波器(在译码环路中或在译码环路之后)还可用以平滑化像素转变或以其它方式改进视频质量。给定帧或图片中的经解码视频块接着被存储于存储用于后续运动补偿的参考图片的参考图片存储器92中。参考图片存储器92还存储经解码视频以供稍后呈现于显示装置(例如图100的显示装置31)上。
为进行3D视频译码,纹理视图分量及其相关联深度视图分量可具有类似的物件廓形,且这些不同视图分量可具有类似的物件边界及移动。因此,相关联纹理视图分量及深度视图分量的运动场中存在冗余。本发明的技术可通过允许深度视图分量以类似于所谓“合并”模式的方式完全采用纹理视图分量的运动信息的模式而在比常规技术更大的范围上利用此冗余。在此情况下,深度视图分量可不包含相对于其运动信息的任何额外差量值(即,可不包含任何运动向量差值),且改为可采用纹理视图分量的运动信息作为其运动信息。
明确地说,可根据合并纹理视图的运动信息以作为深度视图的运动信息的新模式来启用从纹理视图分量到相关联深度视图分量的运动预测。在一些实例中,可仅针对具有深度视图分量的经帧间译码MB启用此所谓IVMP模式。在IVMP模式中,包含纹理视图分量中的共置MB的mb_type、sub_mb_type、参考索引及运动向量的运动信息被同一视图的深度视图分量重新使用。旗标可在每一MB中用信号发出以指示MB是否使用IVMP模式。如图5所示,旗标对深度视图的第四图片中的经识别MB来说可为真,且纹理视图的第四图片(经识别为第四图片)中的共置MB的运动向量被重新用于深度视图分量中的醒目提示的MB。注意,在一些实例中,IVMP模式仅适用于非锚定图片。术语“锚定图片”可定义为不同于瞬间解码再新(IDR)图片的任何随机存取点(RAP)。
如上文所提及,相对于基于另一视图的运动来预测用于一个视图的运动向量的常规技术,本发明的技术可实现进一步压缩。举例来说,一些常规可缩放技术可允许基于基础视图的运动信息对增强视图的运动预测,且在一些情况下,基础视图可为纹理视图,且增强视图可为深度视图。然而,在这些情况下,除指示基础视图被用以预测增强视图的预测信息(或旗标)之外,运动向量差值(例如,差量)也始终被译码。与之相比,本发明的技术可利用IVMP模式,其中不译码或允许差量信息。确切地说,对于IVMP模式,采用纹理视图的运动信息作为深度视图的运动信息。
现在描述用于用信号发出经压缩视频数据的各种传信技术的额外细节。视图参数集合(VPS)可作为“频带内”用信号发出,此意味着参数集合与经译码图片相关联且在一个信道或作业阶段中一起发射。VPS(如果存在于存取单元(AU)中,则为位流的时间例项的经译码表示)可能需要先于任何VCL NAL单元。多个帧可具有复制的相同VPS以引入容错性。
在一些实例中,本发明的技术可定址inter_view_flag,且可扩展inter_view_flag的语意。在一个实例中,等于0的inter_view_flag指定当前视图分量未被当前存取单元中的具相同或不同空间分辨率的任何其它视图分量用于帧间视图预测。在此实例中,等于1的inter_view_flag可指定当前视图分量可被当前存取单元中的其它视图分量用于帧间视图预测。
inter_view_flag的值对视图分量的所有VCL NAL单元可相同。
在一个实例中,左视图及右视图为半分辨率,且中心视图为全分辨率。在不对称3DV配置中,例如,对于右视图,此旗标可设定为1。然而,如果抽选一MVC子位流,则此旗标不必为1。
定义被称作inter_asy_view_flag的旗标:
nal_unit_header_mvc_extension(){ C 描述符
non_idr_flag 全部 u(1)
priority_id 全部 u(6)
view_id 全部 u(10)
temporal_id 全部 u(3)
anchor_pic_flag 全部 u(1)
inter_view_flag 全部 u(1)
inter_asy_view_flag 全部 u(1)
reserved_one_bit 全部 u(1)
}
在一些实例中,等于0的inter_asy_view_flag指定当前视图分量未被当前存取单元中的具不同空间分辨率的任何其它视图分量用于帧间视图预测。等于1的inter_asy_view_flag指定当前视图分量可被当前存取单元中的具不同空间分辨率的其它视图分量用于帧间视图预测。
在以上实例中,对于左视图,NAL单元可具有等于1的inter_view_flag及等于1的inter_asy_view_flag。对于右视图,NAL单元可具有等于0的inter_view_flag及等于1的inter_asy_view_flag,且对于中心视图,所有NAL单元可具有等于0的这些两个旗标。
本发明可提供对关于由MPEG颁布的3D视频译码的建议征求(CfP)的响应。建议是基于具有若干增强及添加的H.264/MVC参考软件JMVC,其可并有多个视图的纹理及深度的联合译码。本发明的建议可含有纹理及深度的联合译码、视图内的从纹理到深度的预测及具有不同分辨率的视图分量的不对称译码。在建议中,MPEG视图合成软件可用于无任何修改的视图产生。
与JMVC8.3.1锚点相比,对于两视图情况,当位速率为两个视图的纹理及深度两者的总位速率且峰值信号对噪声比(PSNR)值为两个经解码纹理视图的平均PSNR值时,本发明的建议可实现高达22.6%(平均11.7%)的速率减小,且对于三视图情况,可实现高达15.8%(平均7.3%)的速率减小。
对于两视图情况,如果使用综合视图的总位速率对PSNR值,则BD速率减小高达24.7%(且平均13.9%),且对于三视图情况,如果使用两个综合视图的总位速率对平均PSNR值,则BD速率减小高达19.0%(且平均15.0%)。
本发明可提供下列各者:
●与H.264/AVC高配置及H.264/MVC立体高配置两者且可能多视图高配置的兼容性;
●多视图序列的纹理及深度的联合译码;
●用于每一视图的纹理视图分量及深度视图分量的对称空间分辨率及时间分辨率;
●用于不同视图的不对称空间分辨率。
H.264/MVC编解码器之上的额外编解码器修改还可包含:
●用以支持纹理视图分量及深度视图分量的联合译码的高层级语法;
●纹理视图分量与深度视图分量之间的运动向量预测及采用来自相关联纹理视图运动的深度视图运动的模式。
本发明还描述其它工具,例如允许具有不同分辨率的视图分量之间的预测及从纹理视图分量到对应深度视图分量的切片标头的预测的工具。纹理视图分量及深度视图分量可形成为存取单元中的一个视图的经译码图片的视图分量。因此,诸技术可允许对与纹理视图有关的深度视图采用根据所描述IVMP模式的运动信息或运动信息的预测(其包含差量)。两种工具皆可允许译码灵活性,但最佳压缩可通过将工具限于某一范围来实现。举例来说,本文中所描述的IVMP模式可限于非锚定图片。
贯穿本文件,AVC参考H.264/AVC高配置。如果任何其它H.264/AVC配置或修正正在被参考,则修正或配置名称将予以明确指定。举例来说,H.264/MVC或MVC指代H264/AVC的多视图扩展。然而,H.264/AVC的任何修正或配置属于AVC家族,因此所提议编解码器在其与MVC立体高配置兼容的情况下还可与AVC立体高配置兼容。
现将提供编解码器描述。在此部分中,从两个方面(高层级架构及低层级译码技术)来描述所提议的3DVC编解码器。如果需要定义可具有对应于潜在不同应用的两视图配置及三视图配置的3DV格式,则三视图情况下的技术可形成两视图情况下的技术的超集合。因此,在此部分中,首先说明可适用于两个情况的高层级架构,随后描述可适用于三视图情况的两视图情况中的技术的编解码器描述,且接着描述仅在三视图情况下使用的技术。
高层级架构可使用以下定义:
视图分量:视图在单个存取单元中的经译码表示。当视图包含经译码的纹理表示及深度表示两者时,视图分量由纹理视图分量及深度视图分量组成。
纹理视图分量:视图的纹理在单个存取单元中的经译码表示。
深度视图分量:视图的深度在单个存取单元中的经译码表示。
深度视图分量中的经译码VCL NAL单元可经指派有nal_unit_type21,作为专门用于深度视图分量的经译码切片扩展的新类型。
现将描述位流次序。在每一视图分量中,深度视图分量的任何经译码切片NAL单元(具有nal_unit_type21)可能需要跟在纹理视图分量的所有经译码切片NAL单元之后。为简单起见,本发明将深度视图分量的经译码切片NAL单元命名为深度NAL单元。
深度NAL单元具有与具有等于20的nal_unit_type的NAL单元相同的NAL单元标头结构。图4展示一个存取单元内的视图分量的VCL NAL单元的示范性位流次序。
如图4所示,在一个示范性3D视频编解码器中,存取单元含有多个视图分量,所述多个视图分量中的每一者由一个纹理视图分量及一个深度视图分量组成。基础视图(具有等于0的视图次序索引(VOIdx))的纹理视图分量含有一个前缀NAL单元(具有等于14的NAL单元类型)及一个或一个以上AVC VCL NAL单元(具有等于例如1或5的NAL单元类型)。其它视图中的纹理视图分量仅含有MVC VCL NAL单元(具有等于20的NAL单元类型)。在基础视图及非基础视图两者中,深度视图分量皆含有具有等于21的NAL单元类型的深度NAL单元。在任何视图分量中,深度NAL单元按解码/位流次序跟在纹理视图分量的NAL单元之后。
在两视图情况下,本发明可将半分辨率编码用于左视图及右视图。所提议编解码器的特性可包含:
●半水平或半垂直空间分辨率;
●每一视图的纹理视图分量及深度视图分量的相同分辨率;
●与AVC高配置兼容的半分辨率基础视图(仅纹理);
●与AVC立体高配置兼容的半分辨率立体视图(仅纹理);
●从基础视图的深度视图分量到非基础视图的深度视图分量的视图间预测;
●视图分量内的纹理到深度预测。
半空间分辨率MVC在下文被引用且在下表1中提及。所有序列可用半空间分辨率来译码。与H.264/AVC帧兼容译码相比,半空间分辨率MVC更有效,且其更便于满足以下要求:
●正向兼容性:此两视图3DVC位流含有进一步含有AVC子位流的MVC子位流。因此,所提议编解码器满足此要求,尤其是:“符合此模式的所有经压缩位流应使现有AVC解码器能够重建来自位流的单视图及立体视图的样本。”
●立体/单兼容性:VCL NAL单元可简单地通过检查NAL单元类型来抽选以得到MVC或AVC子位流。因此,所提议编解码器满足此要求,尤其是:“经压缩数据格式应包含实现用于立体及单输出的位流的简单抽选的模式,且支持来自立体视频的左视图及右视图的样本的高保真度重建。”
半空间分辨率序列可通过用于纹理序列及深度序列两者的MPEG13抽头下取样滤波器([2、0、-4、-3、5、19、26、19、5、-3、-4、0、2]/64)获得。为了实现较好质量,可以水平方式或垂直方式应用下取样。对于具有主要水平高频分量的序列,可使用半垂直分辨率。在一些实例中,仅一个序列被视为属于此类别:“Poznan_Hal12”。其它序列被视为具有主要垂直高频分量,且水平下取样经应用以获得半水平分辨率序列。
可使用纹理及深度的对称分辨率。深度视图分量可经译码为具有与同一视图的纹理视图分量相同的分辨率的8位单序列(mono sequence)。在此设定中,可在无缩放的情况下执行从纹理视图分量到深度视图分量(例如,宏块(MB)中的像素或运动向量)的预测。
可支持深度视图分量的视图间预测。深度视图分量可通过同一存取单元中的其它深度视图分量来预测,其方式与MVC中的视图间预测相同。深度视图分量参考子集序列参数集合(SPS),其具有在SPS MVC扩展中用信号发出的视图相依性。
通常,深度视图分量的预测相依性与纹理视图分量共享相同视图相依性,如图6所示。还应注意,若干序列不能从深度视图之间的视图间预测获益。因此,对于这些情况可简单地停用用于深度视图的视图间预测。图6展示3DVC编解码器的预测结构。深度视图分量(以交叉影线展示)具有与纹理视图分量(展示为无阴影)相同的预测结构。
因此,旗标(disable_depth_inter_view_flag)可在SPS中用信号发出以停用或启用用于深度视图的视图间预测。将在下文较详细地描述用于两视图情况及三视图情况的更详细SPS设计。对于可从视图间预测获益的深度图序列,深度视图分量具有与纹理视图分量相同的帧间预测及视图间预测结构,如图6所示。
图7展示不允许将视图间预测用于深度视图分量的3DVC编解码器的预测结构。图7中所说明的不具有阴影的分量指示纹理视图,且交叉影线阴影指示深度视图。如图7所示,视图间预测可针对纹理视图分量启用,但针对深度视图分量完全停用。在此情况下,深度视图分量可具有不同于对应纹理视图分量的切片类型。
现将描述从纹理到深度的运动预测。由于纹理视图分量及其相关联深度视图分量具有类似的物件廓形,故纹理视图分量及其相关联深度视图分量具有类似的物体边界及移动,因而纹理视图分量及其相关联深度视图分量的运动场中存在冗余。
根据本发明,从纹理视图分量到相关联深度视图分量的运动预测可在所提议编解码器中作为新模式实现。在一些实例中,仅针对深度视图分量中的经帧间译码MB启用内侧视图运动预测(IVMP)模式。在IVMP模式中,包含纹理视图分量中的共置MB的mb_type、sub_mb_type、参考索引及运动向量的运动信息被同一视图的深度视图分量重新使用。旗标可在每一MB中用信号发出以指示MB是否使用IVMP模式。根据图5,旗标对深度视图的第四图片来说可为真,且纹理视图的第四图片(标记为第四图片)中的共置MB的运动向量被重新用于深度视图分量中的MB。在一些实例中,IVMP模式仅适用于非锚定图片。
现将描述切片标头预测。对于每一视图分量,深度视图分量及纹理视图分量的切片标头之间可存在冗余。因此,如果给定纹理视图分量的切片标头,同一存取单元的同一视图内的深度视图分量的切片标头信息的大部分已经决定。
根据本发明,深度视图分量共享对应纹理视图分量的切片标头语法元素的大部分。不同的语法元素可包含pic_parameter_set_id、slice_qp_delta,及与参考图片列表建构有关的潜在语法元素(包含num_ref_idx10active_minus1、num_ref_idx_l1active_minus1及参考图片列表修改语法表)。
深度视图分量的切片标头可在切片标头深度扩展中用信号发出。注意,pred_slice_header_depth_idc可在序列参数集合中用信号发出。在一些实例中,编码器可将pred_slice_header_depth_idc始终设定为1。
示范性切片标头深度扩展可遵照下表1的实例。
表1
slice_header_depth_extension(){ C 描述符
if(pred_slice_header_depth_idc==0)
slice_header()
else{
pic_parameter_set_id 2 ue(v)
if(disable_depth_inter_view_flag){
if(slice_type==P||slice_type==B){
num_ref_idx_active_override_flag 2 u(1)
if(num_ref_idx_active_override_flag){
num_ref_idx_l0_active_minus1 2 ue(v)
if(slice_type==B)
num_ref_idx_l1_active_minus1 2 ue(v)
}
}
ref_pic_list_mvc_modification() 2
}
slice_qp_delta 2 se(v)
}
}
现将描述三视图情况。本发明的技术可将半分辨率编码用于左视图及右视图两者,且将全分辨率用于中心视图。对于三视图情况中的编解码器,还可支持2视图情况中所启用的译码方法。对于三视图情况下,编解码器可含有以下特性:
●不同视图中的不对称空间分辨率;
●从低分辨率视图到高分辨率视图的视图间预测;
●含有低分辨率视图的纹理视图分量的子位流与H.264/MVC立体高配置兼容。
●高分辨率视图的视图间预测相依性的传信。
现将描述不对称3DVC编解码器中的视图间预测。在纹理视图分量之间及在深度视图分量之间,可启用从经重建低分辨率视图到高分辨率视图的预测。
更具体来说,在三视图情况下,左视图及右视图可用半分辨率译码,且中心视图可用全分辨率译码。当从半分辨率视图分量到全分辨率(纹理或深度)视图分量的视图间预测发生时,用AVC6抽头滤波器[1、-5、20、20、-5、1]/32对半分辨率视图分量的经解码图片(如果将被用于视图间预测)进行上取样。在此情况下,低分辨率图片(输出所需)以及经上取样图片两者可能需要暂时共存于缓冲器中。来自左视图及右视图的经上取样图片可接着被放置入同一存取单元中的中心视图的视图分量的参考图片列表中。
在图8中展示不对称视图间预测,其中左视图(VL)及右视图(VR)均具有半宽度。由于视图相依性允许左视图及右视图被用作中心视图(VC)的视图间参考,故左视图及右视图均被上取样为中间图片。
为简单起见,将MVC兼容(如果仅考虑纹理)的低分辨率视图称作MVC视图,而不管“MVC视图”是指代仅纹理部分还是纹理部分及深度部分两者。将具有全分辨率的其它视图称为额外视图。因此,在三视图情况下,其为两个MVC视图及一个额外视图。每一MVC视图以为额外视图的分辨率的一半的相同分辨率含有纹理及深度。
现将描述序列参数集合设计。在本发明的一些方面中,可引入新SPS扩展。如果seq_parameter_set_data()中指示的配置与3DV有关,则将新SPS扩展添加到子集SPS中。根据本发明,对于两个不同情况,考虑两个潜在配置,“3DV配置”及“不对称3DV配置”。换句话说,3DV配置适用于两视图情况,且不对称3DV配置适用于三视图情况。
在MVC中,新序列层级参数集合(即,SPS MVC扩展)可被引入且在子集SPS中用信号发出。由于MVC被视为基础规格,故在新添加的配置中的任一者中,子集SPS被进一步扩展以用信号发出序列参数集合3DVC扩展(在SPS MVC扩展之上)。
在一个所提议编解码器中,新SPS扩展(即序列参数集合3DVC扩展)含有语法以进一步用信号发出用于不对称3DV配置的高分辨率视图的视图间相依性,以及用于深度视图分量的视图间相依性(其可适用于3DV配置及不对称3DV配置两者)。
在3DV相关应用中,其它语法元素(例如,与摄影机参数及深度范围及/或深度量化有关的语法元素)还可在SPS中用信号发出。然而,在一个所提议编解码器中,此信息可被视为变数,且因此未在经译码位流中发射。
表2展示子集序列参数集合原始字节序列有效负载(RBSP)语法的实例。
表2
subset_seq_parameter_set_rbsp(){ C 描述符
seq_parameter_set_data() 0
if(profile_idc==83||profile_idc==86){
seq_parameter_set_svc_extension()/*specified in Annex G*/ 0
svc_vui_parameters_present_flag 0 u(1)
if(svc_vui_parameters_present_flag==1)
svc_vui_parameters_extension()/*specified in Annex G*/ 0
}else if(profile_idc==118||profile_idc==128){
bit_equal_to_one/*equal to1*/ 0 f(1)
seq_parameter_set_mvc_extension()/*specified in Annex H*/ 0
mvc_vui_parameters_present_flag 0 u(1)
if(mvc_vui_parameters_present_flag==1)
mvc_vui_parameters_extension()/*specified in Annex H*/ 0
}
else if(profile_idc==138||profile_idc==148){
//138:3DV base profile;148:3DV Assymetic profile
bit_equal_to_one/*equal to1*/ 0 f(1)
seq_parameter_set_mvc_extension()
seq_parameter_set_3dvc_extension()
}
additional_extension3_flag 0 u(1)
if(additional_extension3_flag)
while(more_rbsp_data())
additional_extension3_data_flag 0 u(1)
}
rbsp_trailing_bits() 0
}
表3展示序列参数集合3DVC扩展语法的实例。
表3
seq_parameter_set_3dvc_extension(){ C 描述符
[1]addition_view_flag 0 u(1)
[2]if(addition_view_flag){
[3]num_add_views_minus1 ue(v)
for(i=0;i<=num_add_views_minus1;i++)
view_id[i] 0 ue(v)
for(i=0;i<=num_add_views_minus1;i++){
num_anchor_refs_l0[i] 0 ue(v)
for(j=0;j<num_anchor_refs_l0[i];j++)
anchor_ref_l0[i][j] 0 ue(v)
num_anchor_refs_l1[i] 0 ue(v)
for(j=0;j<num_anchor_refs_l1[i];j++)
anchor ref_l1[i][j] 0 ue(v)
}
for(i=0;i<=num_views_minus1;i++){
num_non_anchor_refs_l0[i] 0 ue(v)
for(j=0;j<num_non_anchor refs_l0[i];j++)
non_anchor_ref_l0[i][j] 0 ue(v)
num_non_anchor_refs_l1[i] 0 ue(v)
for(j=0;j<num_non_anchor refs_l1[i];j++)
non_anchor_ref_l1[i][j] 0 ue(v)
}
}
disable_depth_inter_view_flag 0 u(1)
pred_slice_header_depth_idc 0 u(2)
}
在一个所提议3DVC编解码器中,摄影机参数以及深度范围可不包含于位流中,因为所述两者对经解码视图无基准影响。然而,所述两者可对视图合成有帮助,且为(例如)使用视图合成作为特定模式的潜在译码工具。如果摄影机参数或深度范围是特定译码工具所需要的,则如果此信息可逐帧地改变,所述两者可在例如SPS、图片参数集合(PPS)或甚至新类型的参数集合(即视图参数集合(VPS))等参数集合内以基准且强制的方式发射。如果摄影机参数及深度范围并非任何所发射纹理或深度的解码所必需的,则所述两者可在SEI消息(序列层级或图片层级)中用信号发出。
此部分给出对以上信息可在位流中用信号发出的方式的认识。摄影机参数及深度范围的传信可以软件实施,但不能用于位流的产生。
表4展示SPS3DVC扩展中的摄影机参数及深度范围的实例。
表4
seq_parameter_set3dvc_extension(){ C 描述符
[4]...
cam_parameters()
depth_ranges()
}
在摄影机参数语法表中,浮点值V可用其精度P(其为小数点之前或之后的数字的数目)及整数值I表示,以使得:V=I*10P。V的正负号可与I的正负号相同。此所提议表示法对于摄影机参数及深度范围足够准确,且剖析及建构浮点值可相对较容易。
给定如CfP中所说明的“源视频数据应被修正以避免摄影机的几何形状及色彩的不对准”的要求,在本发明中,可假设:除水平转译外,多个视图共享相同固有参数及大部分非固有参数。
表5及其后的段落展示示范性摄影机参数语法及语意。
表5
cam_parameters(){ C 描述符
cam_param_present_flag 0 u(1)
if(cam_param_present_flag){
//intrinsic parameters
focal_length_precision 0 se(v)
focal_length_x_I 0 ue(v)
focal_length_y_I_diff_x 0 se(v)
principal_precision 0 se(v)
principal_point_x_I 0 se(v)
principal_point_y_I_diff_x 0 se(v)
//extrinsic parameters
rotation_xy_half_pi 0 u(1)
rotation_xz_half_pi 0 u(1)
rotation_yz_half_pi 0 u(1)
translation_precision 0 se(v)
anchor_view_id 0 ue(v)
zero_translation_present_flag 0 u(1)
if(!zero_translation_present_flag)
translation_anchor_view_I 0 se(v)
for(i=0;i<=numViewsMinus1;i++)
if(view_id[i]!=anchor_view_id)
translation_diff_anchor_view_I[i] 0 se(v)
}
}
在表5中,cam_param_present_flag等于1可指示摄影机参数在SPS中用信号发出。cam_param_present_flag等于0可指示摄影机参数并未在SPS中用信号发出。
在表5中,focal_length_precision指定为所有摄影机的x座标焦距及y座标焦距的focal_length_x及focal_length_y的值的精度。
在表5中,focal_length_x_I指定focal_length_x的值的整数部分。
focal_length_x=focal_length_x_I*10focal_length_precision
在表5中,focal_length_y_I_diff_x加上focal_length_x_I指定focal_length_y的值的整数部分。
focal_length_y=(focal_length_x_I+focal_length_y_I_diff_x)*10focal_length_precision
在表5中,principal_precision指定为所有摄影机的x座标主点及y座标主点的principal_point_x及principal_point_y的值的精度。
在表5中,principal_point_x_I指定principal_point_x的值的整数部分。
principal_point_x=principal_point_x_I*10principal_precision
在表5中,principal_point_y_I_diff_x加上principal_point_x指定principal_point_y的值的整数部分。
principal_point_y=(principal_point_x_I+principal_point_y_I_diff_x)*10principal_precision
用于每一摄影机的旋转矩阵R可表示如下:
R = R yz 0 0 0 R xz 0 0 0 R xy
在表5中,rotation_kl_half_pi指示旋转矩阵R的对角线元素,其中kl等于xy、yz或xz,其中Rkl=(-1)rotation_kl_half_pi。等于0的此旗标指示Rkl=1;等于1的此旗标指示Rkl=-1。
在表5中,translation_precision指定所有视图的转译值的精度。转译值的精度适用于参考此SPS的视图的所有转译值。
在表5中,numViewsMinus1经导出为num_views_minus1+num_add_views_minus1+1。
在表5中,anchor_view_id指定视图的view_id,将视图的转译用作锚点以计算其它视图的转译。
在表5中,zero_translation_present_flag等于1指示:具有等于anchor_view_id的view_id的视图的转译为0;此值等于0指示:具有等于anchor_view_id的view_id的视图的转译用信号发出。
在表5中,translation_anchor_view_I指定锚定视图的转译的整数部分。将锚定视图的转译指定为translation_anchor_view。Translation_anchor_view在zero_translation_present_flag等于0时等于0,否则如下所述地计算转译。
在表5中,translation_anchor_view=translation_anchor_view_I*10translation_precision
在表5中,translation_diff_anchor_view_I[i]加上translation_anchor_view_I指定具有等于view_id[i]的view_id的视图的转译的整数部分,指定为translation_view_I[i]。
将具有等于view_id[i]的view_id的视图的转译指定为translation_view[i]。
translation_view[i]=(translation_diff anchor_view_I[i]+translation_anchor_view_I)*10translation_precision
表6及其后的段落展示示范性深度范围语法及语意。
表6
depth_ranges(){ C 描述符
depth_range_present_flag 1 u(1)
if(depth_range_present_flag){
//depth range
z_near_precision 1 se(v)
z_far_precision 1 se(v)
different_depth_range_flag 1 u(1)
anchor_view_id 1 ue(v)
z_near_integer 1 se(v)
z_far_integer 1 se(v)
if(different_depth_range_flag)
for(i=0;i<=numViewsMinus1;i++)
if(view_id[i]!=anchor_view_id){
z_near_diff_anchor_view_I[i] 1 se(v)
z_far_diff_anchor_view_I[i] 1 se(v)
}
}
}
在表6中,depth_range_present_flag等于1指示:所有视图的深度范围在此SPS中用信号发出,depth_range_present_flag等于0指示:深度范围未在此SPS中用信号发出。
在表6中,z_near_precision指定z_near值的精度。如此SPS中所指定的z_near的精度适用于参考此SPS的视图的所有z_near值。
在表6中,z_far_precision指定z_far值的精度。如此SPS中所指定的z_far的精度适用于参考此SPS的视图的所有z_far值。
在表6中,different_depth_range_flag等于0指示:所有视图的深度范是相同的,且在z_near及z_far的范围中(包含z_near及z_far)。different_depth_range_flag等于1指示:所有视图的深度范围可能不同:z_near及z_far为锚定视图的深度范围,且z_near[i]及z_far[i]将在此SPS中被进一步指定为具有等于view_id[i]的view_id的视图的深度范围。
在表6中,z_near_integer指定z_near的值的整数部分。z_near=z_near_integer*10z_near_precision
在表6中,z_far_integer指定z_far的值的整数部分。z_far=z_far_integer*10z_far_precision
在表6中,z_near_diff_anchor_view_I加上z_near_integer指定具有等于view_id[i]的view_id的视图的最近深度值的整数部分,指定为z_near_I[i]。
将具有等于view_id[i]的view_id的视图的z_near指定为z_near[i]。
z_near[i]=(z_near_diff_anchor_view_I[i]+z_near_integer)*0z_near_precision
在表6中,z_far_diff_anchor_view_I加上z_far_integer指定具有等于view_id[i]的view_id的视图的最远深度值的整数部分,指定为z_far_I[i]。
z_far[i]=(z_far_diff_anchor_view_I[i]+z_far_integer)*10z_far_precision
表7展示示范性视图参数集合RBSP语法。
表7
view_parameter_set_rbsp(){ C 描述符
view_parameter_set())
}
含有此视图参数集合RBSP的NAL单元可被指派新NAL单元类型,例如,16。
表8及其后的段落展示示范性视图参数集合语法及语意。
表8
view_parameter_set(){ C 描述符
seq_para_set_id 1 ue(v)
for(i=0;i<=numViewsMinus1;i++){
delta_translation_update_view_I[i] 1 se(v)
z_near_update_view_I[i] 1 se(v)
z_far_update_view_I[i] 1 se(v)
}
rbsp_trailing_bits() 1
}
深度范围及摄影机的转译可基于图片而变化。经更新的深度范围或摄影机参数可适用于当前存取单元的视图分量及位流中的随后视图分量,直到当前VPS之后的新VPS更新相关视图的彼等值为止。
为简单起见,并未给出语法元素的语意。对于每一视图的转译或深度范围,新值与在SPS中用信号发出的值(具有等于seq_para_set_id的识别符)之间的差的整数部分可在此VPS中用信号发出。转译及深度范围的经更新值可如下所述地计算:
translation_view[i]=(translation_view_integer[i]+translation_update_view_I[i])*10translation_precision
z_near[i]=(z_near_integer[i]+z_near_update_view_I[i])*10z_near_precision
z_far[i]=(z_far_integer[i]+z_far_update_view_I[i])*10z_tar_precision
其中translation_view_integer[i]、z_near_integer[i]及z_far_integer[i]为基于SPS中的传信而计算的translation_view[i]、z_near[i]及z_far[i]的值的整数部分。
本发明的技术中的一者或一者以上可用以提供压缩及/或质量方面的译码改进。编码时间及复杂性还可使用本发明的技术中的一者或一者以上来改进。解码时间及复杂性也可得到改进。另外,编码器及解码器处的存储器使用的量可相对于其它技术得到改进或减小。
在一些实例中,编码器及解码器两者可具有与JMVC编码器及解码器相同电平的存储器消耗。因此,存储器使用可被认为与(例如)存取单元中的视图分量的数目成比例。如果深度视图分量始终存储为4:0:0,则对于相同数目个视图,所提议解决方案可消耗由JMVC用于编码器或解码器的存储器的约5/3(约67%增加)。注意,为了简化操作(例如,查看深度图,且将所述图用于视图合成),编码器及解码器仍可以4:2:0色度取样格式选取及输出深度文件。
现将描述解码器的复杂性特性。在一些实例中,符合本发明的技术的编码器及解码器两者可具有与JMVC编码器及解码器相同电平的复杂性。与JMVC相比时,符合本发明的编解码器的计算复杂性可与视图的数目及每一视图的空间分辨率有关。换句话说,符合本发明的编码器可能需要与JMVC编解码器相同的计算量,只要其均选取具有相同数目个像素的相同视频即可。
在解码器侧,基准图片层级上取样可为不对称3DV配置所需的。然而,此解码过程可被视为复杂度小于用于高分辨率视图分量的解码的其它解码过程,因此,复杂性特性仍可(例如)由每秒有多少个MB待处理来指示。
符合本文中所描述的技术的编码器可遵守当前JMVC编码器方案,其中视图经逐个编码。在每一视图内,首先编码纹理序列,且接着编码深度序列。
当启用IVMP模式时,在纹理视图分量编码期间,每一纹理视图分量的运动场被写入到运动文件中,运动文件的名称可在配置文件中指定。当编码同一视图的相关联深度序列时,读取运动文件以供参考。
编码器可使用与具有以下额外项目的JMVC相同的配置。
MotionFile
字串,预设值:“运动”
指定待产生的运动序列的文件名称(不具有.dat)。此序列是针对IVMP模式而提供。将由编码器自动地产生motion_0.dat、motion_1.dat等。
HalfSizeDimension
无符号整数,预设值:0
指示是否使用不对称空间分辨率,且如果使用不对称空间分辨率,则为子取样维度。支持以下值:
0-所有视图是用相同空间分辨率编码。
1-使用不对称空间分辨率,且半分辨率视图具有其它视图的一半宽度。
2-使用不对称空间分辨率,且半分辨率视图具有其它视图的一半高度。
BasisQP_texture
双精准数,预设值:26
指定具有半空间分辨率的纹理视图分量的基本量化参数。
BasisQP_depth
双精准数,预设值:26
指定具有半空间分辨率的深度视图分量的基本量化参数。
BasisQP_texture_delta
无符号整数,预设值:0
与具有半空间分辨率的纹理视图分量的基本量化参数相比,指定用于具有全空间分辨率的纹理视图分量的基本量化参数的基本量化参数偏移。具有全空间分辨率的纹理视图分量的基本量化参数是通过BasisQP_texture(full spatial resolution)=BasisQP_texture+BasisQP_texture_delta计算。
BasisQP_depth_delta
无符号整数,预设值:0
与具有半空间分辨率的深度视图分量的基本量化参数相比,指定用于具有全空间分辨率的深度视图分量的基本量化参数的基本量化参数偏移。具有全空间分辨率的深度视图分量的基本量化参数是通过BasisQP_depth(full spatial resolution)=BasisQP_depth+BasisQP_depth_delta计算。
NoDepthInterViewFlag
旗标(0或1),预设值:0
指定视图间预测是否能够用于任何深度视图分量。当NoDepthInterViewFlag等于0时,启用视图间预测。当NoDepthInterViewFlag等于1时,停用视图间预测。
HalfRes
旗标(0或1),预设值:0
此值与作为在视图相依性部分中用信号发出的每一参考视图的性质的部分的View_ID值相关联。
指定由View_ID识别的视图是否为半空间分辨率。当HalfRes等于0时,视图为全空间分辨率视图。当HalfRes等于1时,视图为半空间分辨率视图。
编码器可用于产生位流。在以下实例中说明示范性编码器呼叫。
Figure BDA0000460084540000321
此处,mcfg表示配置文件的文件名称。可针对每一编码器呼叫指定配置文件。元素view_id表示待编码的视图。元素component_idx指示:待编码的当前序列为特定视图的纹理(当component_idx等于1时)还是深度(当component_idx等于0时)。编码器可针对待编码的每一视图的每一视图分量而执行。
解码器还可类似于JMVC解码器,主要修改为解码且还输出每一视图的深度序列。在不对称3DV配置中,需要上取样以将MVC视图(左或右)转换成高分辨率以用于额外视图(中心)的预测。
编译器可具有极微小修改以废弃复制的参数集合NAL单元,复杂性与JMVC编译器相同。
关于视图合成器,可能不需要相对于JMVC的修改。
已描述基于H.264/MVC的3DVC编解码器的若干特征,所述编解码器可满足建议的所有“应有(shall)”要求,且可以相对较小量的额外译码方法提供良好译码性能。所述方法包含用于纹理及深度的联合译码的高层级架构、视图分量内的从纹理到深度的预测,及具有不对称空间分辨率的纹理或深度视图分量之间的视图间预测。
基于MVC的3DV编解码器可针对短期市场需求而标准化,且本发明的所提议特征可为此3DV编解码器的参考软件及工作草案(working draft)的基础。
图9是说明可由符合本发明的视频编码器执行的技术的流程图。将从图2的视频编码器20的角度描述图9,但还可使用其它视频编码器。如图9所示,预测模块41接收3D视频(例如,表示3D再现的视频块)(901)。3D视频包含纹理视图视频块及相关联深度视图视频块(901)。预测模块41编码纹理视图视频块(902)。另外,预测模块41编码深度视图视频块(903)。
根据本发明,预测模块41支持IVMP模式。明确地说,预测模块41产生语法元素以指示深度视图的运动信息是否是采用自纹理视图(903)。以此方式,如果IMVP模式被启用,则深度视图分量可不包含相对于其运动信息的任何额外差量值,且可改为采用纹理视图分量的运动信息作为深度视图分量的运动信息。明确地说,对于IMVP模式,深度视图分量可不包含任何运动向量差值,但可完全采用对应纹理视图分量的运动向量。通过定义完全采用纹理视图的运动信息作为深度视图的运动信息的模式,由于无相对于此运动信息的运动向量差量值的任何传信,故可实现改进的压缩。
纹理视图视频块及深度视图视频块可在网络抽象层(NAL)单元中一起译码,且语法元素可包括NAL单元中的旗标以指示与纹理视图视频块相关联的运动信息是否被采用为与深度视图视频块相关联的运动信息。在此情况下,如果语法元素指示与纹理视图视频块相关联的运动信息被采用为与深度视图视频块相关联的运动信息,则深度视图视频块不包含相对于与深度视图视频块相关联的运动信息的任何额外差量。NAL单元为用于译码视频数据的一种特定类型的存取单元,且所述技术还可用于其它类型的视频单元。
更具体来说,语法元素可包括指示IVMP模式是否被启用的一个或一个以上位。如果IVMP模式被停用,则与纹理视图视频块相关联的运动信息包含于NAL单元中,且与深度视图视频块相关联的运动信息单独地包含于NAL单元中。或者,如果IVMP模式被启用,则与纹理视图视频块相关联的运动信息包含于NAL单元中,且与纹理视图视频块相关联的运动信息被采用为与深度视图视频块相关联的运动信息。因此,如果IVMP模式被启用,则深度视图视频块不包含相对于与深度视图视频块相关联的运动信息的任何额外差量。在一些实例中,IVMP模式仅适用于非锚定图片,而不适用于锚定图片。
图10是说明可由符合本发明的视频解码器执行的技术的流程图。将从图3的视频解码器30的角度描述图10,但还可使用其它视频解码器。如图10所示,预测模块81接收3D视频(例如,表示3D视频数据的视频块)(1001)。3D视频包含纹理视图视频块及相关联深度视图视频块(1001)。预测模块41解码纹理视图视频块(1002)。另外,预测模块41解码深度视图视频块(1003)。
根据本发明,预测模块81支持IVMP模式。明确地说,预测模块81解码语法元素以指示深度视图的运动信息是否是采用自纹理视图(1003)。语法元素可由解码器解译为指示深度视图的运动信息是否是采用自纹理视图。如果IMVP模式被启用,则深度视图分量可不包含相对于其运动信息的任何额外差量值,且可改为采用纹理视图分量的运动信息作为深度视图分量的运动信息。再次,通过定义完全采用纹理视图的运动信息作为深度视图的运动信息的模式,由于无相对于此运动信息的差量值的任何传信,故可实现改进的压缩。
在一个或一个以上实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,则所述功能可作为一个或一个以上指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体发射,且通过基于硬件之处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体等有形媒体)或通信媒体,通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性有形计算机可读存储媒体,或(2)例如信号或载波等通信媒体。数据存储媒体可为可通过一个或一个以上计算机或一个或一个以上处理器存取以检索指令、程序代码及/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,可将任何连接适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电及微波)而从网站、服务器或其它远程源发射指令,则同轴电缆、光纤缆线、双绞线、DSL或无线技术(例如,红外线、无线电及微波)包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它发射媒体,而是针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。以上各物的组合也应包含于计算机可读媒体的范围内。
可通过例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、场可编程逻辑阵列(FPGA)或其它等效整合式或离散逻辑电路等一个或一个以上处理器来执行指令。因此,本文中所使用的术语“处理器”可指代上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码及解码的专用硬件及/或软件模块内或并入于组合式编解码器中。而且,所述技术可完全实施于一个或一个以上电路或逻辑元件中。
本发明的技术可以广泛多种装置或设备予以实施,所述装置或设备包含无线手持机、集成电路(IC)或IC集合(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元予以实现。相反地,如上所述,可将各种单元组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上所述的一个或一个以上处理器)的集合而结合合适软件及/或固件来提供所述单元。
在其它实例中,本发明可针对上面存储数据结构的计算机可读存储媒体。数据结构可包含以本文中所描述的方式压缩(例如,通过使用IVMP模式相对于纹理视图译码深度视图)的3D视频数据。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (34)

1.一种用于译码三维3D视频数据的方法,其包括:
译码纹理视图视频块;以及
译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联,
其中译码所述深度视图视频块包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
2.根据权利要求1所述的方法,其中所述纹理视图视频块与所述深度视图视频块是在存取单元中一起译码,且所述语法元素包括在视频块层级定义的旗标以指示与所述纹理视图视频块相关联的所述运动信息是否被采用为与所述深度视图视频块相关联的所述运动信息。
3.根据权利要求2所述的方法,其中如果所述语法元素指示与所述纹理视图视频块相关联的所述运动信息被采用为与所述深度视图视频块相关联的所述运动信息,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
4.根据权利要求2所述的方法,其中所述语法元素定义内侧视图运动预测IVMP模式是否被启用。
5.根据权利要求4所述的方法,其中:
如果所述IVMP模式被停用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述深度视图视频块相关联的所述运动信息分开地包含于所述存取单元中;以及
如果所述IVMP模式被启用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述纹理视图视频块相关联的所述运动信息采用为与所述深度视图视频块相关联的所述运动信息。
6.根据权利要求5所述的方法,其中如果所述IVMP模式被启用,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
7.根据权利要求1所述的方法,其中译码包括编码,且其中译码所述语法元素包括产生所述语法元素。
8.根据权利要求1所述的方法,其中译码包括解码,其中译码所述语法元素包括解码来自经编码位流的所述语法元素,且其中所述语法元素包含于所述经编码位流中。
9.一种译码三维3D视频数据的装置,其中所述装置包括经配置以进行以下操作的一个或一个以上处理器:
译码纹理视图视频块;以及
译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联,
其中译码所述深度视图视频块包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
10.根据权利要求9所述的装置,其中所述纹理视图视频块与所述深度视图视频块是在存取单元中一起译码,且所述语法元素包括在视频块层级定义的旗标以指示与所述纹理视图视频块相关联的所述运动信息是否被采用为与所述深度视图视频块相关联的所述运动信息。
11.根据权利要求10所述的装置,其中如果所述语法元素指示与所述纹理视图视频块相关联的所述运动信息被采用为与所述深度视图视频块相关联的所述运动信息,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
12.根据权利要求10所述的装置,其中所述语法元素定义内侧视图运动预测IVMP模式是否被启用。
13.根据权利要求12所述的装置,其中:
如果所述IVMP模式被停用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述深度视图视频块相关联的所述运动信息分开地包含于所述存取单元中;以及
如果所述IVMP模式被启用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述纹理视图视频块相关联的所述运动信息采用为与所述深度视图视频块相关联的所述运动信息。
14.根据权利要求13所述的装置,其中如果所述IVMP模式被启用,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
15.根据权利要求9所述的装置,其中译码包括编码,且其中译码所述语法元素包括产生所述语法元素。
16.根据权利要求9所述的装置,其中译码包括解码,其中译码所述语法元素包括解码来自经编码位流的所述语法元素,且其中所述语法元素包含于所述经编码位流中。
17.根据权利要求9所述的装置,其中所述装置包括无线手持机。
18.根据权利要求9所述的装置,其中所述装置包括下列各项的一者或一者以上:
数字电视,
数字直播系统中的装置,
无线广播系统中的装置,
个人数字助理PDA,
膝上型计算机;
桌上型计算机;
平板计算机,
电子书阅读器,
数码相机,
数字记录装置,
数字媒体播放器,
视频游戏装置,
视频游戏控制台,
蜂窝式无线电电话,
卫星无线电电话,
智能电话,
视频电话会议装置,以及
视频流式传送装置。
19.一种包括存储于其上的指令的计算机可读存储媒体,其中所述指令在执行时致使一个或一个以上处理器进行以下操作:
译码纹理视图视频块;以及
译码深度视图视频块,其中所述深度视图视频块与所述纹理视图视频块相关联,
其中译码所述深度视图视频块包含译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息。
20.根据权利要求19所述的计算机可读存储媒体,其中所述纹理视图视频块与所述深度视图视频块是在存取单元中一起译码,且所述语法元素包括在视频块层级定义的旗标以指示与所述纹理视图视频块相关联的所述运动信息是否被采用为与所述深度视图视频块相关联的所述运动信息。
21.根据权利要求20所述的计算机可读存储媒体,其中如果所述语法元素指示与所述纹理视图视频块相关联的所述运动信息被采用为与所述深度视图视频块相关联的所述运动信息,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
22.根据权利要求20所述的计算机可读存储媒体,其中所述语法元素定义内侧视图运动预测IVMP模式是否被启用。
23.根据权利要求22所述的计算机可读存储媒体,其中:
如果所述IVMP模式被停用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述深度视图视频块相关联的所述运动信息分开地包含于所述存取单元中;以及
如果所述IVMP模式被启用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述纹理视图视频块相关联的所述运动信息采用为与所述深度视图视频块相关联的所述运动信息。
24.根据权利要求23所述的计算机可读存储媒体,其中如果所述IVMP模式被启用,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
25.根据权利要求19所述的计算机可读存储媒体,其中译码包括编码,且其中译码所述语法元素包括产生所述语法元素。
26.根据权利要求19所述的计算机可读存储媒体,其中译码包括解码,其中译码所述语法元素包括解码来自经编码位流的所述语法元素,且其中所述语法元素包含于所述经编码位流中。
27.一种经配置以译码三维3D视频数据的装置,所述装置包括:
用于译码纹理视图视频块的装置;以及
用于译码深度视图视频块的装置,其中所述深度视图视频块与所述纹理视图视频块相关联,
其中所述用于译码所述深度视图视频块的装置包含用于译码语法元素以指示与所述纹理视图视频块相关联的运动信息是否被采用为与所述深度视图视频块相关联的运动信息的装置。
28.根据权利要求27所述的装置,其中所述纹理视图视频块与所述深度视图视频块是在存取单元中一起译码,且所述语法元素包括在视频块层级定义的旗标以指示与所述纹理视图视频块相关联的所述运动信息是否被采用为与所述深度视图视频块相关联的所述运动信息。
29.根据权利要求28所述的装置,其中如果所述语法元素指示与所述纹理视图视频块相关联的所述运动信息被采用为与所述深度视图视频块相关联的所述运动信息,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
30.根据权利要求28所述的装置,其中所述语法元素定义内侧视图运动预测IVMP模式是否被启用。
31.根据权利要求30所述的装置,其中:
如果所述IVMP模式被停用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述深度视图视频块相关联的所述运动信息分开地包含于所述存取单元中;以及
如果所述IVMP模式被启用,则将与所述纹理视图视频块相关联的所述运动信息包含于所述存取单元中,且将与所述纹理视图视频块相关联的所述运动信息采用为与所述深度视图视频块相关联的所述运动信息。
32.根据权利要求31所述的装置,其中如果所述IVMP模式被启用,则所述深度视图视频块不包含相对于与所述深度视图视频块相关联的所述运动信息的任何差量。
33.根据权利要求27所述的装置,其中所述用于译码的装置包括用于编码的装置,且其中所述用于译码所述语法元素的装置包括用于产生所述语法元素的装置。
34.根据权利要求27所述的装置,其中所述用于译码的装置包括用于解码的装置,其中所述用于译码所述语法元素的装置包括用于解码来自经编码位流的所述语法元素的装置,且其中所述语法元素包含于所述经编码位流中。
CN201280036310.8A 2011-07-22 2012-07-20 支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器 Pending CN103748882A (zh)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US201161510738P 2011-07-22 2011-07-22
US61/510,738 2011-07-22
US201161522559P 2011-08-11 2011-08-11
US201161522584P 2011-08-11 2011-08-11
US61/522,584 2011-08-11
US61/522,559 2011-08-11
US201161561800P 2011-11-18 2011-11-18
US61/561,800 2011-11-18
US201161563771P 2011-11-26 2011-11-26
US201161563772P 2011-11-26 2011-11-26
US61/563,771 2011-11-26
US61/563,772 2011-11-26
US201261624031P 2012-04-13 2012-04-13
US61/624,031 2012-04-13
US13/553,315 US20130188013A1 (en) 2011-07-22 2012-07-19 Mvc based 3dvc codec supporting inside view motion prediction (ivmp) mode
US13/553,315 2012-07-19
PCT/US2012/047701 WO2013016231A1 (en) 2011-07-22 2012-07-20 Mvc based 3dvc codec supporting inside view motion prediction (ivmp) mode

Publications (1)

Publication Number Publication Date
CN103748882A true CN103748882A (zh) 2014-04-23

Family

ID=46582085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280036310.8A Pending CN103748882A (zh) 2011-07-22 2012-07-20 支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器

Country Status (12)

Country Link
US (2) US20130188013A1 (zh)
EP (1) EP2735152B1 (zh)
JP (2) JP2014526193A (zh)
KR (1) KR101628582B1 (zh)
CN (1) CN103748882A (zh)
BR (1) BR112014001247A2 (zh)
CA (1) CA2842569A1 (zh)
ES (1) ES2686936T3 (zh)
HU (1) HUE040195T2 (zh)
RU (1) RU2014106666A (zh)
TW (1) TW201320754A (zh)
WO (1) WO2013016231A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474266A (zh) * 2013-07-25 2016-04-06 柏佛尔德流体动力有限公司 图形数据表示
CN105474647A (zh) * 2013-06-11 2016-04-06 高通股份有限公司 关于多层视频译码中的层间预测类型的处理位流限制
CN107484438A (zh) * 2015-02-05 2017-12-15 弗劳恩霍夫应用研究促进协会 包括与参考视图和在时间单位范围内和超过时间单位范围的相机参数相关联的值表的3d视频数据流、参数集、用于编码3d视频数据流的编码器和用于解码3d视频数据流的解码器
CN107659823A (zh) * 2014-06-26 2018-02-02 华为技术有限公司 一种帧内深度图像块编码、解码的方法及装置
CN111587577A (zh) * 2018-01-12 2020-08-25 夏普株式会社 用于针对虚拟现实应用程序发送信号通知子图片组合信息的系统和方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US11496760B2 (en) 2011-07-22 2022-11-08 Qualcomm Incorporated Slice header prediction for depth maps in three-dimensional video codecs
US9288505B2 (en) 2011-08-11 2016-03-15 Qualcomm Incorporated Three-dimensional video with asymmetric spatial resolution
US9017670B2 (en) * 2011-08-19 2015-04-28 Regeneron Pharmaceuticals, Inc. Anti-Tie2 antibodies and uses thereof
KR102009049B1 (ko) * 2011-11-11 2019-08-08 소니 주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
EP2810443B1 (en) 2012-02-01 2021-03-31 Nokia Technologies Oy Method and apparatus for video coding
WO2013129822A1 (ko) 2012-02-27 2013-09-06 세종대학교산학협력단 영상 부호화와 복호화 장치 및 영상을 부호화와 복호화하는 방법
KR20130098122A (ko) * 2012-02-27 2013-09-04 세종대학교산학협력단 영상 부호화/복호화 장치 및 영상을 부호화/복호화하는 방법
US10085024B2 (en) * 2012-04-13 2018-09-25 Qualcomm Incorporated Lookup table for rate distortion optimized quantization
US9380289B2 (en) 2012-07-20 2016-06-28 Qualcomm Incorporated Parameter sets in video coding
US9451256B2 (en) 2012-07-20 2016-09-20 Qualcomm Incorporated Reusing parameter sets for video coding
CN109413425B (zh) 2012-09-03 2023-04-14 索尼公司 图像处理设备和方法
CN104704835B (zh) * 2012-10-03 2017-11-24 联发科技股份有限公司 视频编码中运动信息管理的装置与方法
WO2014056150A1 (en) * 2012-10-09 2014-04-17 Nokia Corporation Method and apparatus for video coding
WO2014107029A1 (ko) * 2013-01-02 2014-07-10 엘지전자 주식회사 비디오 신호 처리 방법 및 장치
US10271034B2 (en) * 2013-03-05 2019-04-23 Qualcomm Incorporated Simplified depth coding
WO2014166068A1 (en) * 2013-04-09 2014-10-16 Mediatek Inc. Refinement of view synthesis prediction for 3-d video coding
US10158885B2 (en) 2013-07-24 2018-12-18 Qualcomm Incorporated Simplified advanced motion prediction for 3D-HEVC
US9948915B2 (en) 2013-07-24 2018-04-17 Qualcomm Incorporated Sub-PU motion prediction for texture and depth coding
US9906768B2 (en) * 2013-07-26 2018-02-27 Qualcomm Incorporated Use of a depth condition in 3DV codec
US10382752B2 (en) * 2013-10-15 2019-08-13 Sony Corporation Image processing device and method
WO2015131387A1 (en) 2014-03-07 2015-09-11 Qualcomm Incorporated Simplified sub-prediction unit (sub-pu) motion parameter inheritence (mpi)
WO2015135175A1 (en) * 2014-03-13 2015-09-17 Mediatek Singapore Pte. Ltd. Simplified depth based block partitioning method
CN105519120B (zh) * 2014-06-20 2019-03-22 寰发股份有限公司 用于视频数据的三维或多视图视频编码的分区模式编码方法
US10419779B2 (en) 2014-10-08 2019-09-17 Lg Electronics Inc. Method and device for processing camera parameter in 3D video coding
JP6667342B2 (ja) 2016-03-30 2020-03-18 日本碍子株式会社 ハニカム構造体
CN108600759B (zh) * 2018-04-16 2021-11-12 北京工业大学 基于非均衡四叉树的3d-hevc快速转码方法
EP3804320A4 (en) 2018-06-26 2021-06-30 Huawei Technologies Co., Ltd. HIGH LEVEL SYNTAX VERSIONS FOR POINT CLOUD CODING
WO2020003284A1 (en) 2018-06-29 2020-01-02 Beijing Bytedance Network Technology Co., Ltd. Interaction between lut and amvp
JP7460617B2 (ja) 2018-06-29 2024-04-02 北京字節跳動網絡技術有限公司 Lut更新条件
EP3791585A1 (en) 2018-06-29 2021-03-17 Beijing Bytedance Network Technology Co. Ltd. Partial/full pruning when adding a hmvp candidate to merge/amvp
SG11202012293RA (en) 2018-06-29 2021-01-28 Beijing Bytedance Network Technology Co Ltd Update of look up table: fifo, constrained fifo
JP7328330B2 (ja) 2018-06-29 2023-08-16 北京字節跳動網絡技術有限公司 Lutにおける動き候補のチェック順序
TWI719523B (zh) 2018-06-29 2021-02-21 大陸商北京字節跳動網絡技術有限公司 哪個查找表需要更新或不更新
CN110662053B (zh) 2018-06-29 2022-03-25 北京字节跳动网络技术有限公司 使用查找表的视频处理方法、装置和存储介质
CN110677669B (zh) 2018-07-02 2021-12-07 北京字节跳动网络技术有限公司 具有lic的lut
WO2020053800A1 (en) 2018-09-12 2020-03-19 Beijing Bytedance Network Technology Co., Ltd. How many hmvp candidates to be checked
US11509879B2 (en) 2018-10-02 2022-11-22 Lg Electronics Inc. Method for transmitting video, apparatus for transmitting video, method for receiving video, and apparatus for receiving video
KR102648159B1 (ko) 2019-01-10 2024-03-18 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 Lut 업데이트의 호출
CN113383554B (zh) 2019-01-13 2022-12-16 北京字节跳动网络技术有限公司 LUT和共享Merge列表之间的交互
WO2020147773A1 (en) 2019-01-16 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Inserting order of motion candidates in lut
CN113615193A (zh) 2019-03-22 2021-11-05 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
CN111447428A (zh) * 2020-03-12 2020-07-24 黄胜海 平面至立体图像的转换方法、装置、计算机可读存储介质及设备
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521829A (zh) * 2009-01-23 2009-09-02 浙江大学 一种深度图像序列处理的方法及装置
CN101911700A (zh) * 2008-01-11 2010-12-08 汤姆逊许可证公司 视频和深度编码
US20110058017A1 (en) * 2009-09-10 2011-03-10 Samsung Electronics Co., Ltd. Apparatus and method for compressing three dimensional video
CN102055982A (zh) * 2011-01-13 2011-05-11 浙江大学 三维视频编解码方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4758972A (en) * 1986-06-02 1988-07-19 Raytheon Company Precision rounding in a floating point arithmetic unit
US6618628B1 (en) * 2000-10-05 2003-09-09 Karl A. Davlin Distributed input/output control systems and methods
KR100481732B1 (ko) * 2002-04-20 2005-04-11 전자부품연구원 다 시점 동영상 부호화 장치
TWI348730B (en) * 2007-07-17 2011-09-11 Ind Tech Res Inst Method of fabricating polysilicon film
EP2177036A2 (en) * 2007-08-15 2010-04-21 Thomson Licensing Methods and apparatus for motion skip mode in multi-view coded video using regional disparity vectors
CN102257818B (zh) * 2008-10-17 2014-10-29 诺基亚公司 3d视频编码中运动向量的共享
KR101158491B1 (ko) * 2008-12-08 2012-06-20 한국전자통신연구원 다시점 영상 부호화, 복호화 방법 및 그 장치.
EP2387243A4 (en) * 2009-01-12 2012-12-26 Lg Electronics Inc DEPTH INFORMATION USING VIDEO SIGNAL PROCESSING METHOD AND DEVICE
WO2010085361A2 (en) * 2009-01-26 2010-07-29 Thomson Licensing Frame packing for video coding
EP2425626A2 (en) * 2009-05-01 2012-03-07 Thomson Licensing Inter-layer dependency information for 3dv
JP5855570B2 (ja) * 2010-09-30 2016-02-09 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 画像復号方法、画像符号化方法、画像復号装置、画像符号化装置、プログラムおよび集積回路
US9565449B2 (en) * 2011-03-10 2017-02-07 Qualcomm Incorporated Coding multiview video plus depth content
JP5872676B2 (ja) * 2011-06-15 2016-03-01 メディアテック インコーポレイテッド 3dビデオコーディングにおけるテクスチャーイメージ圧縮方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101911700A (zh) * 2008-01-11 2010-12-08 汤姆逊许可证公司 视频和深度编码
CN101521829A (zh) * 2009-01-23 2009-09-02 浙江大学 一种深度图像序列处理的方法及装置
US20110058017A1 (en) * 2009-09-10 2011-03-10 Samsung Electronics Co., Ltd. Apparatus and method for compressing three dimensional video
CN102055982A (zh) * 2011-01-13 2011-05-11 浙江大学 三维视频编解码方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474647A (zh) * 2013-06-11 2016-04-06 高通股份有限公司 关于多层视频译码中的层间预测类型的处理位流限制
CN105474647B (zh) * 2013-06-11 2019-02-22 高通股份有限公司 关于多层视频译码中的层间预测类型的处理位流限制
CN105474266A (zh) * 2013-07-25 2016-04-06 柏佛尔德流体动力有限公司 图形数据表示
CN107659823A (zh) * 2014-06-26 2018-02-02 华为技术有限公司 一种帧内深度图像块编码、解码的方法及装置
CN107659823B (zh) * 2014-06-26 2020-07-14 华为技术有限公司 一种帧内深度图像块解码的方法及装置
US10951901B2 (en) 2014-06-26 2021-03-16 Huawei Technologies Co., Ltd. Intra-frame depth map block encoding and decoding methods, and apparatus
CN107484438A (zh) * 2015-02-05 2017-12-15 弗劳恩霍夫应用研究促进协会 包括与参考视图和在时间单位范围内和超过时间单位范围的相机参数相关联的值表的3d视频数据流、参数集、用于编码3d视频数据流的编码器和用于解码3d视频数据流的解码器
CN107484438B (zh) * 2015-02-05 2020-08-28 弗劳恩霍夫应用研究促进协会 用于3d视频数据流的编解码方法和相应的编解码器
CN111587577A (zh) * 2018-01-12 2020-08-25 夏普株式会社 用于针对虚拟现实应用程序发送信号通知子图片组合信息的系统和方法

Also Published As

Publication number Publication date
ES2686936T3 (es) 2018-10-22
EP2735152A1 (en) 2014-05-28
JP2016067009A (ja) 2016-04-28
WO2013016231A1 (en) 2013-01-31
EP2735152B1 (en) 2018-06-20
KR20140043483A (ko) 2014-04-09
KR101628582B1 (ko) 2016-06-08
JP2014526193A (ja) 2014-10-02
CA2842569A1 (en) 2013-01-31
HUE040195T2 (hu) 2019-02-28
US20130188013A1 (en) 2013-07-25
JP6141386B2 (ja) 2017-06-07
BR112014001247A2 (pt) 2017-02-21
TW201320754A (zh) 2013-05-16
RU2014106666A (ru) 2015-08-27
US20160301936A1 (en) 2016-10-13

Similar Documents

Publication Publication Date Title
CN103748882A (zh) 支持内侧视图运动预测模式的以多重视图译码为基础的三维视频译码编解码器
RU2697726C1 (ru) Способ и устройство предсказания изображений
CN106576171B (zh) 一种对视频数据进行编码、解码的方法以及装置
CN103609112B (zh) 视频译码中的内部位深度增加
CN103299620B (zh) 在视频译码中使用最可能扫描次序对用于视频块的扫描次序信息进行有效译码
CN106464917B (zh) 用信号表示用于位流分区的hrd参数
US9420280B2 (en) Adaptive upsampling filters
CN103891293A (zh) 用于色度分量的自适应环路滤波
CN103999460A (zh) 在变换跳过模式中译码有效系数信息
CN104488267A (zh) 平铺块及波前并行处理
CN103688541A (zh) 在视频译码中缓冲预测数据
CN105103561A (zh) 用于视频译码扩展的参数集设计
CN104969555A (zh) 在视频译码中具有时间可扩缩性支持的渐进式改进
CN104509115A (zh) 用于高效视频译码(hevc)和扩展的视频参数集
CN103563378A (zh) 存储器高效的上下文建模
CN103430539A (zh) 经解码图片缓冲器管理
CN104718752A (zh) 在可缩放视频译码中减少取样相位信息的发信
CN104509113A (zh) 视频压缩中的变换跳过模式
CN103535033A (zh) 用于样本自适应偏移的偏移类型及系数信令方法
CN104247420A (zh) 转换系数译码
CN104205829A (zh) 合并信令及环路滤波器开/关信令
CN103797801A (zh) 视频译码中的非正方形变换单元和预测单元
CN103975532A (zh) 用于上下文自适应性熵译码的上下文状态和概率初始化
CN104025457A (zh) 用于最后有效系数位置译码的上下文最优化
CN104221381A (zh) 用于视频译码的波前并行处理

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140423