CN104919797A - 基于高效率视频译码对视频信息的可缩放译码的装置和方法 - Google Patents

基于高效率视频译码对视频信息的可缩放译码的装置和方法 Download PDF

Info

Publication number
CN104919797A
CN104919797A CN201380064415.9A CN201380064415A CN104919797A CN 104919797 A CN104919797 A CN 104919797A CN 201380064415 A CN201380064415 A CN 201380064415A CN 104919797 A CN104919797 A CN 104919797A
Authority
CN
China
Prior art keywords
piece
layer
video
block
basal layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380064415.9A
Other languages
English (en)
Other versions
CN104919797B (zh
Inventor
瓦迪姆·谢廖金
陈颖
陈建乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104919797A publication Critical patent/CN104919797A/zh
Application granted granted Critical
Publication of CN104919797B publication Critical patent/CN104919797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders

Abstract

一种经配置以译码视频信息的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元经配置以存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述基础层中的所述第二块对应于所述增强层中的所述第一块。所述处理器经配置以基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块。所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。所述处理器可编码或解码所述视频信息。

Description

基于高效率视频译码对视频信息的可缩放译码的装置和方法
技术领域
本发明涉及视频译码和压缩、基于高效率视频译码(HEVC)的可缩放译码和基于HEVC的多视图和3DV(三维视频)译码的领域。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主机、蜂窝式或卫星无线电电话、视频电话会议装置和其类似者。数字视频装置实施视频压缩技术,例如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4部分10先进视频译码(AVC)定义的标准、目前正在开发的高效率视频译码(HEVC)标准和这些标准的扩展中所描述的视频压缩技术。视频装置可通过实施这些视频译码技术来更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,可将视频图块(例如,视频帧、视频帧的一部分等)分割成视频块,所述视频块也可被称作树型块、译码单元(CU)和/或译码节点。使用相对于在相同图片中的相邻块中的参考样本的空间预测来编码图片的帧内译码(I)图块中的视频块。图片的帧间译码(P或B)图块中的视频块可使用相对于在相同图片中的相邻块中的参考样本的空间预测或相对于在其它参考图片中的参考样本的时间预测。可将图片称作帧,且可将参考图片称作参考帧。
空间预测或时间预测产生待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量和指示经译码块与预测性块间的差的残余数据来编码帧间译码块。根据帧内译码模式和残余数据来编码帧内译码块。为了进行另外的压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描最初布置成二维阵列的经量化的变换系数以便产生变换系数的一维向量,且可应用熵编码以达成甚至更多压缩。
发明内容
可缩放视频译码(SVC)指其中使用基础层(BL)(有时称作参考层(RL))和一或多个可缩放增强层(EL)的视频译码。对于SVC来说,基础层可携载具有基础质量电平的视频数据。一或多个增强层可携载额外视频数据以支持较高的空间、时间和/或信噪比SNR等级。可相对于先前编码层来定义增强层。例如,底层可充当BL,而顶层可充当EL。中间层可充当EL抑或RL,或充当EL与RL两者。例如,位于中间的层对于位于其下方的层(例如,基础层或任何介入增强层)来说可为EL,且同时可充当位于其上方的一或多个增强层的RL。类似地,在HEVC标准的多视图或3D扩展中,可存在多个视图,且可利用一个视图的信息来译码(例如,编码或解码)另一视图的信息(例如,运动估计、运动向量预测和/或其它冗余)。
在HEVC扩展中,增强层或另一视图中的当前块可使用基础层或视图中的对应块加以预测。例如,当前块的语法元素、运动信息(例如,运动向量)或模式信息(例如,帧内模式)可基于基础层中的对应块。例如,可将基础层运动向量(MV)用作增强层合并模式/AMVP候选者列表中的候选者。候选者列表是待由译码器用来预测当前块的空间和时间运动向量预测子的阵列。例如,视频编码器可编码并传达关于已知(或可知)的运动向量的运动向量差(MVD),而非编码并传达运动向量自身。在H.264/AVC中,已知的运动向量(其可与MVD一起用来定义当前运动向量)可由所谓的运动向量预测子(MVP)来定义,所述MVP是作为与相邻块相关联的运动向量的中值而导出。然而,更先进的MVP技术可允许视频编码器选择根据哪一相邻者来定义MVP。
然而,例如,当经译码帧大小大于可能显示于装置上的实际帧大小时,或当基础层通过另一视频标准(例如,AVC或MPEG2)译码时,基础层的对应块可位于基础层帧外部。在这些情形中,不能使用对应块的信息来预测增强层或视图中的当前块,这是因为不存在可用于对应块的信息。换句话说,不能使用来自基础层或视图的信息来译码不对应于基础层图片的实际帧大小或经译码帧大小内的区域的增强层或视图部分,且因此可降低译码效率。通过允许使用从基础层或视图导出的信息来预测增强层或视图的这些部分,本发明中所描述的技术可改善译码效率和/或降低与译码视频数据的方法相关联的计算复杂性。
本发明的系统、方法和装置各自具有若干创新方面,所述方面皆不单独负责本文中所揭示的所要属性。
在一个实施例中,一种经配置以译码视频信息的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元经配置以存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述基础层中的第二块对应于所述增强层中的第一块。所述处理器经配置以基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块。第二块的至少一部分位于基础层的参考区域外部,所述参考区域可供用于第一块的层间预测。从基础层中的第二块导出的信息可包含对应于最接近第二块的相邻块的信息。可通过将第二块的坐标信息截割到基础层的参考区域的范围(例如,在水平与垂直两方面)来定位所述相邻块。替代地,可在进行位置映射过程以确定基础层的第二块之前首先将第一块的坐标信息截割到基础层的当前经解码或经裁剪图片的范围。在第二块(或其一部分)经确定为位于基础层的参考区域外部的状况下,可针对第一块而停用语法元素和残余信息的层间预测,或替代地,可将默认的语法值用于第一块的层间预测。在另一实施例中,可将相邻块的语法值用于第一块的层间预测。增强层的最小译码单元(SCU)大小可经配置成与基础层的SCU不同。增强层的每一图片边界的边界填补(padding)大小可经配置成与基础层的每一对应的图片边界的边界填补大小不同。
在另一实施例中,一种编码视频信息的方法包含:接收与基础层和增强层相关联的视频信息;和基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块,所述基础层中的第二块对应于所述增强层中的第一块;和基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块。第二块的至少一部分位于基础层的参考区域外部,所述参考区域可供用于第一块的层间预测。从基础层中的第二块导出的信息可包含对应于最接近第二块的相邻块的信息。可通过将第二块的坐标信息截割到基础层的参考区域的范围(例如,在水平与垂直两方面)来定位所述相邻块。替代地,可在进行位置映射过程以确定基础层的第二块之前首先将第一块的坐标信息截割到基础层的当前经解码或经裁剪图片的范围。在第二块(或其一部分)经确定为位于基础层的参考区域外部的状况下,可针对第一块而停用语法元素和残余信息的层间预测,或替代地,可将默认的语法值用于第一块的层间预测。在另一实施例中,可将相邻块的语法值用于第一块的层间预测。增强层的最小译码单元(SCU)大小可经配置成与基础层的SCU不同。增强层的每一图片边界的边界填补大小可经配置成与基础层的每一对应的图片边界的边界填补大小不同。
在另一实施例中,一种解码视频信息的方法包含:接收从经编码视频位流所提取的语法元素,其中所述语法元素包括与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;和基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块,其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于第一块的层间预测。从基础层中的第二块导出的信息可包含对应于最接近第二块的相邻块的信息。可通过将第二块的坐标信息截割到基础层的参考区域的范围(例如,在水平与垂直两方面)来定位所述相邻块。替代地,可在进行位置映射过程以确定基础层的第二块之前首先将第一块的坐标信息截割到基础层的当前经解码或经裁剪图片的范围。在第二块(或其一部分)经确定为位于基础层的参考区域外部的状况下,可针对第一块而停用语法元素和残余信息的层间预测,或替代地,可将默认的语法值用于第一块的层间预测。在另一实施例中,可将相邻块的语法值用于第一块的层间预测。增强层的最小译码单元(SCU)大小可经配置成与基础层的SCU不同。增强层的每一图片边界的边界填补大小可经配置成与基础层的每一对应的图片边界的边界填补大小不同。
在另一实施例中,一种非暂时性计算机可读媒体包含代码,所述代码在执行时使设备执行以下步骤:存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;和基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块,其中第二块的至少一部分位于基础层的参考区域外部,所述参考区域可供用于第一块的层间预测。
在另一实施例中,一种经配置以译码视频信息的视频译码装置包含:用于存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息的装置,所述第二块对应于所述第一块;和用于基于从基础层中的第二块导出的信息通过层间预测来预测增强层中的第一块的装置,其中第二块的至少一部分位于基础层的参考区域外部,所述参考区域可供用于第一块的层间预测。
附图说明
图1为说明视频编码和解码系统的实例的框图,所述视频编码和解码系统可利用根据本发明中所描述的方面的技术。
图2为说明视频编码器的实例的框图,所述视频编码器可实施根据本发明中所描述的方面的技术。
图3为说明视频解码器的实例的框图,所述视频解码器可实施根据本发明中所描述的方面的技术。
图4为说明基础层和增强层中的各种帧的图。
图5为说明根据本发明的一个实施例的译码视频信息的方法的流程图。
具体实施方式
本文中所描述的某些实施例涉及在先进的视频编码解码器(例如,HEVC(高效率视频译码))的内容脉络中用于可缩放视频译码的层间预测。更具体地说,本发明涉及用于在HEVC的可缩放视频译码(SVC)扩展中改善层间预测的性能的系统和方法。
在以下的描述中,描述了与某些实施例相关的H.264/AVC技术;也论述了HEVC标准和相关技术。虽然本文中在HEVC和/或H.264标准的内容脉络中来描述某些实施例,但一般所属领域的技术人员可了解,本文中所揭示的系统和方法可适用于任何合适的视频译码标准。例如,本文中所揭示的实施例可适用于以下标准中的一或多者:ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)(包含所述ITU-T H.264的可缩放视频译码(SVC)和多视图视频译码(MVC)扩展)。
仅为了说明的目的,通过仅包含两个层(例如,例如基础层的较低层级的层,和例如增强层的较高层级的层)的实例来描述本文中所揭示的某些实施例。应理解,这些实例可适用于包含多个基础层和/或增强层的配置。另外,为了解释的容易性,以下揭示内容包含关于某些实施例的术语“帧”或“块”。然而,这些术语并不意谓具限制性。例如,可将下文所描述的技术与任何合适的视频单元(例如,块(例如,CU、PU、TU、宏块等)、图块、帧等)一起使用。
HEVC大体上在许多方面遵循先前视频译码标准的构架。HEVC中的预测单元与某些先前视频译码标准中的预测单元(例如,宏块)不同。事实上,宏块的概念并不像在某些先前视频译码标准中所理解一般存在于HEVC中。宏块由基于四分树方案的阶层式结构来替代,所述四分树方案可提供高灵活性以及其它可能的益处。例如,在HEVC方案内,定义三种块类型,即,译码单元(CU)、预测单元(PU)和变换单元(TU)。CU可指区域分裂的基本单元。可将CU视为类似于宏块的概念,但CU并不限制最大大小且可允许递归分裂成四个相等大小的CU以改善内容自适应性。可将PU视为帧间/帧内预测的基本单元且PU可在单一PU内含有多个任意形状的分割区以有效地译码不规则图像图案。可将TU视为变换的基本单元。可独立于PU来定义TU;然而,TU的大小可受限于其所属的CU。将块结构以此方式分成三种不同概念可允许每一者根据其作用而被优化,从而可导致改善的译码效率。
视频译码标准
数字图像(例如,视频图像、TV图像、静态图像或由视频记录器或计算机所产生的图像)可由按多个水平和垂直行布置的像素组成。单一图像中的像素的数目通常为数万个。每一像素通常含有明度和色度信息。在不压缩的情况下,待从图像编码器传递到图像解码器的信息的数量如此庞大,以致于其使实时图像传输不可能实现。为了减少待传输的信息的量,已开发了若干不同压缩方法(例如,JPEG、MPEG和H.263标准)。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)(包含所述ITU-T H.264的可缩放视频译码(SVC)和多视图视频译码(MVC)扩展),以上各者皆以全文引用的方式而并入本文。
另外,正由ITU-T视频译码专家群(VCEG)和ISO/IEC运动图片专家群(MPEG)的视频译码联合协作小组(JCT-VC)开发一种新型视频译码标准(即,高效率视频译码(HEVC))。HEVC的新近草案可于2013年8月9日起从http://phenix.it- sudparis.eu/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得,所述草案以全文引用的方式而并入本文。HEVC草案10的完整引用为布罗斯(Bross)等人的题为“高效率视频译码(HEVC)文本规范草案10(High Efficiency Video Coding(HEVC)Text Specification Draft 10)”的文件JCTVC-L1003(ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合协作小组(JCT-VC),第12次会议:瑞士日内瓦,2013年1月14日到2013年1月23日)。
下文中参看随附图式来更充分地描述新颖系统、设备和方法的各种方面。然而,本发明可以许多不同形式体现且不应解释为受限于贯穿本发明所呈现的任何特定结构或功能。相反,提供这些方面使得本发明将为详尽且完整的,且将向所属领域的技术人员充分地传递本发明的范围。基于本文中的教示,所属领域的技术人员应了解,本发明的范围希望涵盖本文中所揭示的新颖系统、设备和方法的任何方面,而不管所述方面独立于本发明的任何其它方面而实施或是与本发明的任何其它方面相组合来实施。例如,可使用本文中所阐述的任何数目个方面实施设备或实践方法。另外,本发明的范围希望涵盖使用除了本文中所阐述的本发明的各种方面以外或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构和功能性加以实践的此设备或方法。应理解,可由技术方案的一或多个要素来体现本文中所揭示的任何方面。
虽然本文中描述了特定方面,但这些方面的许多变化和排列在本发明的范围内。虽然提及了优选方面的一些益处和优点,但本发明的范围并不希望受限于特定益处、用途或目标。相反,本发明的方面希望广泛适用于不同无线技术、系统配置、网络和传输协议,以上各者中的一些以举例方式说明于诸图中和优选方面的以下描述中。所述详细描述和所述图式仅仅说明本发明而非限制本发明,本发明的范围由附加的权利要求书和其等效物来定义。
附图说明实例。由附图中的参考数字指示的元件对应于由以下描述中的相同参考数字指示的元件。
视频译码系统
图1为说明实例视频译码系统10的框图,所述视频译码系统10可利用根据本发明中所描述的方面的技术。如本文中所描述使用,术语“视频译码器”泛指视频编码器与视频解码器两者。在本发明中,术语“视频译码”或“译码”可泛指视频编码和视频解码。
如图1中所示,视频译码系统10包含源装置12和目的地装置14。源装置12产生经编码视频数据。目的地装置14可解码由源装置12所产生的经编码视频数据。源装置12和目的地装置14可包括广泛范围的装置,所述装置包含桌上型计算机、笔记型(例如,膝上型等)计算机、平板型计算机、机顶盒、例如所谓的“智能型”手机的电话手机、所谓的“智能型”板(pad)、电视、相机、显示装置、数字媒体播放器、视频游戏主机、车载计算机或其类似者。在一些实例中,源装置12和目的地装置14可经配备以进行无线通信。
目的地装置14可经由信道16而从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移到目的地装置14的任何类型的媒体或装置。在一个实例中,信道16可包括使源装置12能够实时将经编码视频数据直接传输到目的地装置14的通信媒体。在此实例中,源装置12可根据通信标准(例如,无线通信协议)来调制经编码视频数据,且可将经调制视频数据传输到目的地装置14。通信媒体可包括无线或有线通信媒体,例如,射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于封包的网络(例如,局域网、广域网或例如因特网的全球网络)的部分。通信媒体可包含路由器、交换器、基站,或促进从源装置12到目的地装置14的通信的其它设备。
在另一实例中,信道16可对应于存储由源装置12所产生的经编码视频数据的存储媒体。在此实例中,目的地装置14可经由磁盘存取或卡存取来存取所述存储媒体。所述存储媒体可包含多种本地存取的数据存储媒体,例如,蓝光光盘、DVD、CD-ROM、快闪存储器,或用于存储经编码视频数据的其它合适的数字存储媒体。在另外的实例中,信道16可包含存储由源装置12所产生的经编码视频的文件服务器或另一中间存储装置。在此实例中,目的地装置14可经由流式传输或下载来存取被存储于文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的地装置14的类型的服务器。实例文件服务器包含网页服务器(例如,用于网站等)、FTP服务器、网络附接存储(NAS)装置和本地磁盘机。目的地装置14可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。数据连接的实例类型可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接等)、有线连接(例如,DSL、缆线调制解调器等),或两者的组合。来自文件服务器的经编码视频数据的传输可为流式传输、下载传输或两者的组合。
本发明的技术并不限于无线应用或设定。可将所述技术应用于视频译码,以支持多种多媒体应用中的任一者,例如,空中电视广播、有线电视传输、卫星电视传输、流式传输视频传输(例如,经由因特网(例如,经由HTTP的动态自适应性流式传输(DASH)等))、供存储于数据存储媒体上的数字视频的编码、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,视频译码系统10可经配置以支持单向或双向视频传输,从而支持例如视频流式传输、视频播放、视频广播和/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。在一些状况下,输出接口22可包含调制器/解调制器(调制解调器)和/或发射器。在源装置12中,视频源18可包含例如以下各者的源:视频俘获装置,例如,摄像机;含有先前俘获的视频数据的视频存档;用以从视频内容提供者接收视频数据的视频馈入接口;和/或用于产生视频数据的计算机图形系统;或这些源的组合。
视频编码器20可经配置以编码经俘获、经预先俘获或经计算机产生的视频数据。经编码视频数据可经由源装置12的输出接口22而直接传输到目的地装置14。经编码视频数据也可被存储到存储媒体或文件服务器上以供目的地装置14稍后存取以进行解码和/或播放。
在图1的实例中,目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些状况下,输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由信道16来接收经编码视频数据。经编码视频数据可包含由视频编码器20产生的表示视频数据的多种语法元素。所述语法元素可描述块和其它经译码单元(例如,图片群组(GOP))的特性和/或处理。可将这些语法元素与在通信媒体上传输、存储于存储媒体上或存储于文件服务器处的经编码视频数据包含在一起。
显示装置32可与目的地装置14集成或可位于目的地装置14外部。在一些实例中,目的地装置14可包含集成的显示装置且也可经配置以与外部显示装置接口连接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32向用户显示经解码视频数据。显示装置32可包括例如以下各者的多种显示装置中的任一者:液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
视频编码器20和视频解码器30可根据视频压缩标准(例如,目前正在开发的高效率视频译码(HEVC)标准)来操作,且可遵照HEVC测试模型(HM)。替代地,视频编码器20和视频解码器30可根据例如ITU-T H.264标准(替代地被称作MPEG-4部分10先进视频译码(AVC))的其它专有或工业标准或这些标准的扩展来操作。然而,本发明的技术并不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-TH.263。
虽然在图1的实例中未展示,但视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件和软件,以处置共同的数据流或分开的数据流中的音频与视频两者的编码。如果适用,在一些实例中,MUX-DEMUX单元可遵照ITU H.223多路复用器协议或例如用户数据报协议(UDP)的其它协议。
再次,图1仅仅为实例,且本发明的技术可应用于未必包含编码装置与解码装置间的任何数据通信的视频译码设定(例如,视频编码或视频解码)。在其它实例中,可从本地存储器检索数据,经由网络流式传输数据,或其类似情况。编码装置可编码数据并将数据存储到存储器,和/或解码装置可从存储器检索数据并解码数据。在许多实例中,编码和解码由彼此不通信而仅编码数据到存储器和/或检索和解码来自存储器的数据的装置来执行。
视频编码器20和视频解码器30各自可经实施为例如以下各者的多种合适电路中的任一者:一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件或其任何组合。当所述技术部分地在软件中实施时,装置可将软件的指令存储于合适的非暂时性计算机可读存储媒体中且可在硬件中使用一或多个处理器来执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可被包含于一或多个编码器或解码器中,所述一或多个编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如,蜂窝式电话)。
如上文简要地提及,视频编码器20编码视频数据。视频数据可包括一或多个图片。所述图片中的每一者为形成视频的部分的静态图像。在一些例子中,可将图片称作视频“帧”。当视频编码器20编码视频数据时,视频编码器20可产生位流。所述位流可包含形成视频数据的经译码表示的位序列。所述位流可包含经译码图片和相关联的数据。经译码图片为图片的经译码表示。
为了产生位流,视频编码器20可对视频数据中的每一图片执行编码操作。当视频编码器20对图片执行编码操作时,视频编码器20可产生一系列经译码图片和相关联的数据。所述相关联的数据可包含序列参数集、图片参数集、调适参数集和其它语法结构。序列参数集(SPS)可含有适用于零或零个以上图片序列的参数。图片参数集(PPS)可含有适用于零或零个以上图片的参数。调适参数集(APS)可含有适用于零或零个以上图片的参数。APS中的参数可为比PPS中的参数更有可能改变的参数。
为了产生经译码图片,视频编码器20可将图片分割成大小相等的视频块。视频块可为样本的二维阵列。所述视频块中的每一者与树型块相关联。在一些例子中,可将树型块称作最大译码单元(LCU)。HEVC的树型块可宽泛地类似于例如H.264/AVC的先前标准的宏块。然而,树型块未必限于特定大小且可包含一或多个译码单元(CU)。视频编码器20可使用四分树分割以将树型块的视频块分割成与CU相关联的视频块,因此名为“树型块”。
在一些实例中,视频编码器20可将图片分割成多个图块。所述图块中的每一者可包含整数数目个CU。在一些例子中,图块包括整数数目个树型块。在其它例子中,图块的边界可在树型块内。
作为对图片执行编码操作的部分,视频编码器20可对所述图片的每一图块执行编码操作。当视频编码器20对图块执行编码操作时,视频编码器20可产生与所述图块相关联的经编码数据。可将与图块相关联的经编码数据称作“经译码图块”。
为了产生经译码图块,视频编码器20可对图块中的每一树型块执行编码操作。当视频编码器20对树型块执行编码操作时,视频编码器20可产生经译码树型块。所述经译码树型块可包括表示树型块的经编码型式的数据。
当视频编码器20产生经译码图块时,视频编码器20可根据光栅扫描次序对图块中的树型块执行编码操作(即,编码)。换句话说,视频编码器20可以从左到右跨越图块中的最顶部行的树型块,接着从左到右跨越较低下一行的树型块等等的次序来编码所述图块的树型块,直到视频编码器20已编码所述图块中的树型块中的每一者。
作为根据光栅扫描次序来编码树型块的结果,位于给定树型块的上方和左边的树型块可已被编码,但位于所述给定树型块的下方和右边的树型块却尚未被编码。因此,视频编码器20可能能够在编码给定树型块时存取通过编码位于所述给定树型块的上方和左边的树型块所产生的信息。然而,视频编码器20可能不能够在编码给定树型块时存取通过编码位于所述给定树型块的下方和右边的树型块所产生的信息。
为了产生经译码树型块,视频编码器20可递归地对树型块的视频块执行四分树分割,以将所述视频块划分成逐渐变小的视频块。所述较小的视频块中的每一者可与不同CU相关联。例如,视频编码器20可将树型块的视频块分割成四个大小相等的子块,将所述子块中的一或多者分割成四个大小相等的子子块,等等。经分割的CU可为其视频块被分割成与其它CU相关联的视频块的CU。非经分割的CU可为其视频块未被分割成与其它CU相关联的视频块的CU。
位流中的一或多个语法元素可指示视频编码器20可分割树型块的视频块的最大次数。CU的视频块的形状可为正方形。CU的视频块的大小(即,CU的大小)的范围可从8×8像素直到具有64×64像素或更大的最大值的树型块的视频块的大小(即,树型块的大小)。
视频编码器20可根据z扫描次序对树型块的每一CU执行编码操作(即,编码)。换句话说,视频编码器20可以左上、右上、左下和接着右下的次序来编码CU。当视频编码器20对经分割CU执行编码操作时,视频编码器20可根据z扫描次序来编码与所述经分割CU的视频块的子块相关联的CU。换句话说,视频编码器20可以左上、右上、左下和接着右下的次序来编码与子块相关联的CU。
作为根据z扫描次序来编码树型块的CU的结果,位于给定CU的上方、左上、右上、左边和左下的CU可已被编码。位于所述给定CU的右下的CU却尚未被编码。因此,视频编码器20可能能够在编码给定CU时存取通过编码与所述给定CU相邻的一些CU所产生的信息。然而,视频编码器20可能不能够在编码给定CU时存取通过编码与所述给定CU相邻的其它CU所产生的信息。
当视频编码器20编码非经分割CU时,视频编码器20可产生用于所述CU的一或多个预测单元(PU)。所述CU的PU中的每一者可与所述CU的视频块内的不同视频块相关联。视频编码器20可产生用于CU的每一PU的经预测视频块。PU的经预测视频块可为样本块。视频编码器20可使用帧内预测或帧间预测来产生用于PU的经预测视频块。
当视频编码器20使用帧内预测来产生PU的经预测视频块时,视频编码器20可基于与所述PU相关联的图片的经解码样本来产生所述PU的经预测视频块。如果视频编码器20使用帧内预测来产生CU的PU的经预测视频块,那么所述CU为经帧内预测CU。当视频编码器20使用帧间预测来产生PU的经预测视频块时,视频编码器20可基于不同于与所述PU相关联的图片的一或多个图片的经解码样本来产生所述PU的经预测视频块。如果视频编码器20使用帧间预测来产生CU的PU的经预测视频块,那么所述CU为经帧间预测CU。
此外,当视频编码器20使用帧间预测来产生PU的经预测视频块时,视频编码器20可产生所述PU的运动信息。PU的运动信息可指示PU的一或多个参考块。PU的每一参考块可为参考图片内的视频块。所述参考图片可为不同于与PU相关联的图片的图片。在一些例子中,也可将PU的参考块称作PU的“参考样本”。视频编码器20可基于PU的参考块来产生所述PU的经预测视频块。
在视频编码器20产生CU的一或多个PU的经预测视频块之后,视频编码器20可基于所述CU的PU的经预测视频块来产生所述CU的残余数据。CU的残余数据可指示CU的PU的经预测视频块与CU的原始视频块中的样本之间的差。
此外,作为对非经分割CU执行编码操作的部分,视频编码器20可对CU的残余数据执行递归四分树分割以将CU的残余数据分割成与CU的变换单元(TU)相关联的一或多个残余数据块(即,残余视频块)。CU的每一TU可与不同的残余视频块相关联。
视频译码器20可将一或多种变换应用于与TU相关联的残余视频块以产生与TU相关联的变换系数块(即,变换系数的块)。概念上,变换系数块可为变换系数的二维(2D)矩阵。
在产生变换系数块之后,视频编码器20可对所述变换系数块执行量化过程。量化大体指如下过程:将变换系数量化以可能地减少用以表示变换系数的数据的量,从而提供进一步压缩。量化过程可减少与变换系数中的一些或所有相关联的位深度。例如,可在量化期间将n位变换系数降值舍位到m位变换系数,其中n大于m。
视频编码器20可使每一CU与量化参数(QP)值相关联。与CU相关联的QP值可确定视频编码器20如何量化与CU相关联的变换系数块。视频编码器20可通过调整与CU相关联的QP值来调整被应用于与CU相关联的变换系数块的量化程度。
在视频编码器20量化变换系数块之后,视频编码器20可产生若干组语法元素,所述语法元素表示经量化的变换系数块中的变换系数。视频编码器20可将例如上下文自适应性二进制算术译码(CABAC)操作的熵编码操作应用于这些语法元素中的一些语法元素。也可使用其它熵译码技术,例如内容自适应性可变长度译码(CAVLC)、概率区间分割熵(PIPE)译码或其它二进制算术译码。
由视频编码器20产生的位流可包含一系列网络抽象层(NAL)单元。所述NAL单元中的每一者可为语法结构,其含有NAL单元中的数据的类型的指示和含有所述数据的字节。例如,NAL单元可含有表示以下各者的数据:序列参数集、图片参数集、经译码图块、补充增强信息(SEI)、存取单元定界符、填充数据,或另一类型的数据。NAL单元中的数据可包含各种语法结构。
视频解码器30可接收由视频编码器20产生的位流。所述位流可包含由视频编码器20编码的视频数据的经译码表示。当视频解码器30接收到位流时,视频解码器30可对位流执行剖析操作。当视频解码器30执行剖析操作时,视频解码器30可从位流提取语法元素。视频解码器30可基于从位流提取的语法元素来重建构视频数据的图片。用以基于语法元素来重建构视频数据的过程可大体上与由视频编码器20执行的用以产生语法元素的过程互逆。
在视频解码器30提取到与CU相关联的语法元素之后,视频解码器30可基于所述语法元素来产生CU的PU的经预测视频块。另外,视频解码器30可反量化与CU的TU相关联的变换系数块。视频解码器30可对变换系数块执行反变换以重建构与CU的TU相关联的残余视频块。在产生经预测视频块和重建构残余视频块之后,视频解码器30可基于所述经预测视频块和所述残余视频块来重建构CU的视频块。以此方式,视频解码器30可基于位流中的语法元素来重建构CU的视频块。
视频编码器
图2为说明视频编码器的实例的框图,所述视频编码器可实施根据本发明中所描述的方面的技术。视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例,预测单元100可经配置以执行本发明中所描述的技术中的任一者或全部。然而,本发明的方面并未如此受限。在一些实例中,本发明中所描述的技术可分担在视频编码器20的各种组件中。在一些实例中,额外地或替代地,处理器(未图示)可经配置以执行本发明中所描述的技术中的任一者或全部。
为了解释的目的,本发明在HEVC译码的内容脉络中描述视频编码器20。然而,本发明的技术可适用于其它译码标准或方法。
视频编码器20可执行视频图块内的视频块的帧内译码和帧间译码。帧内译码依赖于空间预测以减少或去除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或去除视频序列的邻近帧或图片内的视频的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。帧间模式(例如,单向预测(P模式)或双向预测(B模式))可指若干基于时间的译码模式中的任一者。
在图2的实例中,视频编码器20包含多个功能组件。视频编码器20的功能组件包含预测单元100、残余产生单元102、变换单元104、量化单元106、反量化单元108、反变换单元110、重建构单元112、滤波单元113、解码图片缓冲器114和熵编码单元116。预测单元100包含帧间预测单元121、运动估计单元122、运动补偿单元124和帧内预测单元126。在其它实例中,视频编码器20可包含更多、更少或不同的功能组件。此外,运动估计单元122和运动补偿单元124可经高度集成,但为解释的目的而在图2的实例中被分开表示。
视频编码器20可接收视频数据。视频编码器20可从各种源接收视频数据。例如,视频编码器20可从视频源18(图1)或另一源接收视频数据。视频数据可表示一系列图片。为了编码视频数据,视频编码器20可对所述图片中的每一者执行编码操作。作为对图片执行编码操作的部分,视频编码器20可对所述图片的每一图块执行编码操作。作为对图块执行编码操作的部分,视频编码器20可对图块中的树型块执行编码操作。
作为对树型块执行编码操作的部分,预测单元100可对树型块的视频块执行四分树分割以将视频块划分成逐渐变小的视频块。所述较小的视频块中的每一者可与不同CU相关联。例如,预测单元100可将树型块的视频块分割成四个大小相等的子块,将所述子块中的一或多者分割成四个大小相等的子子块,等等。
与CU相关联的视频块的大小的范围可从8×8样本直到具有64×64样本或更大的最大值的树型块的大小。在本发明中,“N×N”与“N乘N”可互换地使用以指视频块在垂直维度与水平维度方面的样本尺寸,例如,16×16样本或16乘16样本。一般来说,16×16视频块在垂直方向上具有16个样本(y=16)且在水平方向上具有16个样本(x=16)。同样地,N×N块大体在垂直方向上具有N个样本且在水平方向上具有N个样本,其中N表示非负整数值。
此外,作为对树型块执行编码操作的部分,预测单元100可产生所述树型块的阶层式四分树数据结构。例如,树型块可对应于四分树数据结构的根节点。如果预测单元100将树型块的视频块分割成四个子块,那么根节点在四分树数据结构中具有四个子节点。所述子节点中的每一者对应于与所述子块中的一者相关联的CU。如果预测单元100将所述子块中的一者分割成四个子子块,那么对应于与所述子块相关联的CU的节点可具有四个子节点,所述子节点中的每一者对应于与所述子子块中的一者相关联的CU。
四分树数据结构的每一节点可含有用于对应的树型块或CU的语法数据(例如,语法元素)。例如,四分树中的节点可包含分裂旗标,所述分裂旗标指示对应于所述节点的CU的视频块是否被分割(即,分裂)成四个子块。可递归地定义CU的语法元素,且所述语法元素可取决于CU的视频块是否被分裂成子块。视频块未被分割的CU可对应于四分树数据结构中的叶节点。经译码树型块可包含基于对应树型块的四分树数据结构的数据。
视频编码器20可对树型块的每一非经分割CU执行编码操作。当视频编码器20对非经分割CU执行编码操作时,视频编码器20产生表示所述非经分割CU的经编码表示的数据。
作为对CU执行编码操作的部分,预测单元100可在CU的一或多个PU间分割CU的视频块。视频编码器20和视频解码器30可支持各种PU大小。假定特定CU的大小为2N×2N,视频编码器20和视频解码器30可支持2N×2N或N×N的PU大小,和以2N×2N、2N×N、N×2N、N×N、2N×nU、nL×2N、nR×2N或其类似者的对称PU大小进行的帧间预测。视频编码器20和视频解码器30也可支持针对2N×nU、2N×nD、nL×2N和nR×2N的PU大小进行的不对称分割。在一些实例中,预测单元100可执行几何分割以沿不按直角与CU的视频块的边相交的边界在CU的PU间分割CU的视频块。
帧间预测单元121可对CU的每一PU执行帧间预测。帧间预测可提供时间压缩。为了对PU执行帧间预测,运动估计单元122可产生PU的运动信息。运动补偿单元124可基于运动信息和不同于与CU相关联的图片的图片(即,参考图片)的经解码样本而产生PU的经预测视频块。在本发明中,可将由运动补偿单元124产生的经预测视频块称作经帧间预测视频块。
图块可为I图块、P图块或B图块。运动估计单元122和运动补偿单元124可取决于PU是位于I图块、P图块或是B图块中而针对CU的PU执行不同操作。在I图块中,所有PU被帧内预测。因此,如果PU位于I图块中,那么运动估计单元122和运动补偿单元124不对PU执行帧间预测。
如果PU位于P图块中,那么含有PU的图片与参考图片的列表(称作“列表0”)相关联。列表0中的参考图片中的每一者含有可用于其它图片的帧间预测的样本。当运动估计单元122关于P图块中的PU来执行运动估计操作时,运动估计单元122可搜索列表0中的参考图片以找到PU的参考块。PU的参考块可为最密切地对应于PU的视频块中的样本的一组样本(例如,样本块)。运动估计单元122可使用多种度量来确定参考图片中的一组样本对应于PU的视频块中的样本的密切程度。例如,运动估计单元122可通过绝对差和(SAD)、平方差和(SSD)或其它差度量来确定参考图片中的一组样本对应于PU的视频块中的样本的密切程度。
在识别P图块中的PU的参考块之后,运动估计单元122可产生指示列表0中的含有参考块的参考图片的参考索引和指示PU与参考块间的空间位移的运动向量。在各种实例中,运动估计单元122可产生具有不同精确度的运动向量。例如,运动估计单元122可以四分之一样本精度、八分之一样本精度或其它分率样本精度来产生运动向量。在分率样本精度的状况下,可从参考图片中的整数字置样本值来内插参考块值。运动估计单元122可输出参考索引和运动向量以作为PU的运动信息。运动补偿单元124可基于由PU的运动信息识别的参考块来产生PU的经预测视频块。
如果PU位于B图块中,那么含有所述PU的图片可与参考图片的两个列表(称作“列表0”和“列表1”)相关联。在一些实例中,含有B图块的图片可与列表组合(其为列表0和列表1的组合)相关联。
此外,如果PU位于B图块中,那么运动估计单元122可针对PU来执行单向预测或双向预测。当运动估计单元122针对PU来执行单向预测时,运动估计单元122可搜索列表0或列表1的参考图片以找到PU的参考块。运动估计单元122可接着产生指示列表0或列表1中的含有参考块的参考图片的参考索引和指示PU与参考块间的空间位移的运动向量。运动估计单元122可输出参考索引、预测方向指示符和运动向量以作为PU的运动信息。预测方向指示符可指示参考索引指示列表0中的参考图片抑或列表1中的参考图片。运动补偿单元124可基于由PU的运动信息指示的参考块来产生PU的经预测视频块。
当运动估计单元122针对PU来执行双向预测时,运动估计单元122可搜索列表0中的参考图片以找到PU的参考块,且也可搜索列表1中的参考图片以找到PU的另一参考块。运动估计单元122可接着产生指示列表0和列表1中的含有参考块的参考图片的参考索引和指示参考块与PU间的空间位移的运动向量。运动估计单元122可输出PU的参考索引和运动向量以作为PU的运动信息。运动补偿单元124可基于由PU的运动信息指示的参考块来产生PU的经预测视频块。
如下文参看图5进一步论述,预测单元100(例如,经由帧间预测单元121)可经配置以通过执行图5中说明的步骤来预测EL中的当前块,所述当前块在BL中不具有可用的对应块。
在一些例子中,运动估计单元122并不将PU的一组完整的运动信息输出到熵编码单元116。相反,运动估计单元122可参考另一PU的运动信息来发信PU的运动信息。例如,运动估计单元122可确定PU的运动信息充分类似于相邻PU的运动信息。在此实例中,运动估计单元122可在与所述PU相关联的语法结构中指示一个值,所述值向视频解码器30指示所述PU具有与所述相邻PU相同的运动信息。在另一实例中,运动估计单元122可在与PU相关联的语法结构中识别相邻PU和运动向量差(MVD)。所述运动向量差指示PU的运动向量与所指示的相邻PU的运动向量之间的差。视频解码器30可使用所指示的相邻PU的运动向量和运动向量差来确定所述PU的运动向量。通过在发信第二PU的运动信息时参考第一PU的运动信息,视频编码器20可能能够使用较少位来发信第二PU的运动信息。
作为对CU执行编码操作的部分,帧内预测单元126可对CU的PU执行帧内预测。帧内预测可提供空间压缩。当帧内预测单元126对PU执行帧内预测时,帧内预测单元126可基于相同图片中的其它PU的经解码样本来产生PU的预测数据。PU的预测数据可包含经预测视频块和各种语法元素。帧内预测单元126可对I图块、P图块和B图块中的PU执行帧内预测。
为了对PU执行帧内预测,帧内预测单元126可使用多种帧内预测模式来产生PU的多组预测数据。当帧内预测单元126使用帧内预测模式来产生PU的一组预测数据时,帧内预测单元126可在与所述帧内预测模式相关联的方向和/或梯度上使来自相邻PU的视频块的样本扩展跨越PU的视频块。假定PU、CU和树型块的左-右、顶-底编码次序,相邻PU可位于PU的上方、右上、左上或左边。帧内预测单元126可取决于PU的大小而使用各种数目的帧内预测模式(例如,33种定向帧内预测模式)。
预测单元100可从由运动补偿单元124针对PU产生的预测数据或由帧内预测单元126针对PU产生的预测数据当中选择PU的预测数据。在一些实例中,预测单元100基于所述组预测数据的速率/失真度量来选择PU的预测数据。
如果预测单元100选择由帧内预测单元126产生的预测数据,那么预测单元100可发信用以产生PU的预测数据的帧内预测模式(即,所选的帧内预测模式)。预测单元100可以各种方式来发信所选的帧内预测模式。例如,所选的帧内预测模式很有可能与相邻PU的帧内预测模式相同。换句话说,相邻PU的帧内预测模式可为当前PU的最有可能模式。因此,预测单元100可产生语法元素以指示所选的帧内预测模式与相邻PU的帧内预测模式相同。
在预测单元100选择CU的PU的预测数据之后,残余产生单元102可通过从CU的视频块减去CU的PU的经预测视频块来产生CU的残余数据。CU的残余数据可包含2D残余视频块,所述2D残余视频块对应于CU的视频块中的样本的不同样本分量。例如,残余数据可包含残余视频块,所述残余视频块对应于CU的PU的经预测视频块中的样本的明度分量与CU的原始视频块中的样本的明度分量之间的差。另外,CU的残余数据可包含残余视频块,所述残余视频块对应于CU的PU的经预测视频块中的样本的色度分量与CU的原始视频块中的样本的色度分量之间的差。
预测单元100可执行四分树分割以将CU的残余视频块分割为子块。每一未划分的残余视频块可与CU的不同TU相关联。与CU的TU相关联的残余视频块的大小和位置可能或可能不基于与CU的PU相关联的视频块的大小和位置。称为“残余四分树”(RQT)的四分树结构可包含与残余视频块中的每一者相关联的节点。CU的TU可对应于RQT的叶节点。
变换单元104可针对CU的每一TU而通过将一或多种变换应用于与所述TU相关联的残余视频块来产生一或多个变换系数块。所述变换系数块中的每一者可为变换系数的2D矩阵。变换单元104可将各种变换应用于与TU相关联的残余视频块。例如,变换单元104可将离散余弦变换(DCT)、定向变换或概念上类似的变换应用于与TU相关联的残余视频块。
在变换单元104产生与TU相关联的变换系数块之后,量化单元106可量化所述变换系数块中的变换系数。量化单元106可基于与CU相关联的QP值来量化与CU的TU相关联的变换系数块。
视频编码器20可以各种方式使QP值与CU相关联。例如,视频编码器20可对与CU相关联的树型块执行速率-失真分析。在速率-失真分析中,视频编码器20可通过对树型块执行编码操作多次来产生树型块的多个经译码表示。当视频编码器20产生树型块的不同经编码表示时,视频编码器20可使不同QP值与CU相关联。当在树型块的具有最低位率和失真度量的经译码表示中给定QP值与CU相关联时,视频编码器20可发信:所述给定QP值与所述CU相关联。
反量化单元108和反变换单元110可分别将反量化和反变换应用于变换系数块,以从所述变换系数块重建构残余视频块。重建构单元112可将经重建构的残余视频块加到来自由预测单元100产生的一或多个经预测视频块的对应样本,以产生与TU相关联的经重建构的视频块。通过以此方式重建构CU的每一TU的视频块,视频编码器20可重建构CU的视频块。
在重建构单元112重建构CU的视频块之后,滤波单元113可执行解块操作以减少与CU相关联的视频块中的成块伪影。在执行了一或多个解块操作之后,滤波单元113可将CU的经重建构的视频块存储于解码图片缓冲器114中。运动估计单元122和运动补偿单元124可使用含有经重建构的视频块的参考图片对后续图片的PU执行帧间预测。另外,帧内预测单元126可使用解码图片缓冲器114中的经重建构的视频块对与所述CU在相同图片中的其它PU执行帧内预测。
熵编码单元116可从视频编码器20的其它功能组件接收数据。例如,熵编码单元116可从量化单元106接收变换系数块且可从预测单元100接收语法元素。当熵编码单元116接收到数据时,熵编码单元116可执行一或多个熵编码操作以产生经熵编码数据。例如,视频编码器20可对数据执行上下文自适应性可变长度译码(CAVLC)操作、CABAC操作、可变到可变(V2V)长度译码操作、基于语法的上下文自适应性二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作或另一类型的熵编码操作。熵编码单元116可输出包含经熵编码数据的位流。
作为对数据执行熵编码操作的部分,熵编码单元116可选择上下文模型。如果熵编码单元116正执行CABAC操作,那么上下文模型可指示对特定位子(bin)具有特定值的概率的估计。在CABAC的内容脉络中,术语“位子”用来指语法元素的二进制型式的位。
视频解码器
图3为说明视频解码器的实例的框图,所述视频解码器可实施根据本发明中所描述的方面的技术。视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例,运动补偿单元162和/或帧内预测单元164可经配置以执行本发明中所描述的技术中的任一者或全部。然而,本发明的方面并未如此受限。在一些实例中,本发明中所描述的技术可分担在视频解码器30的各种组件中。在一些实例中,额外或替代地,处理器(未图示)可经配置以执行本发明中所描述的技术中的任一者或全部。
在图3的实例中,视频解码器30包含多个功能组件。视频解码器30的功能组件包含熵解码单元150、预测单元152、反量化单元154、反变换单元156、重建构单元158、滤波单元159和解码图片缓冲器160。预测单元152包含运动补偿单元162和帧内预测单元164。在一些实例中,视频解码器30可执行大体与关于图2的视频编码器20所描述的编码遍次互逆的解码遍次。在其它实例中,视频解码器30可包含更多、更少或不同的功能组件。
视频解码器30可接收包括经编码视频数据的位流。所述位流可包含多个语法元素。当视频解码器30接收到位流时,熵解码单元150可对位流执行剖析操作。作为对位流执行剖析操作的结果,熵解码单元150可从位流提取语法元素。作为执行剖析操作的部分,熵解码单元150可熵解码位流中的经熵编码语法元素。预测单元152、反量化单元154、反变换单元156、重建构单元158和滤波单元159可基于从位流所提取的语法元素来执行产生经解码视频数据的重建构操作。
如上文所论述,位流可包括一系列NAL单元。位流的NAL单元可包含序列参数集NAL单元、图片参数集NAL单元、SEI NAL单元等等。作为对位流执行剖析操作的部分,熵解码单元150可执行从序列参数集NAL单元提取并熵解码序列参数集、从图片参数集NAL单元提取并熵解码图片参数集、从SEI NAL单元提取并熵解码SEI数据等等的剖析操作。
另外,位流的NAL单元可包含经译码图块NAL单元。作为对位流执行剖析操作的部分,熵解码单元150可执行从经译码图块NAL单元提取并熵解码经译码图块的剖析操作。所述经译码图块中的每一者可包含图块标头和图块数据。图块标头可含有关于图块的语法元素。图块标头中的语法元素可包含识别与含有所述图块的图片相关联的图片参数集的语法元素。熵解码单元150可对经译码图块标头中的语法元素执行例如CABAC解码操作的熵解码操作以恢复图块标头。
作为从经译码图块NAL单元提取图块数据的部分,熵解码单元150可执行从图块数据中的经译码CU提取语法元素的剖析操作。所提取的语法元素可包含与变换系数块相关联的语法元素。熵解码单元150可接着对所述语法元素中的一些语法元素执行CABAC解码操作。
在熵解码单元150对非经分割CU执行剖析操作之后,视频解码器30可对非经分割CU执行重建构操作。为了对非经分割CU执行重建构操作,视频解码器30可对CU的每一TU执行重建构操作。通过针对CU的每一TU来执行重建构操作,视频解码器30可重建构与所述CU相关联的残余视频块。
作为对TU执行重建构操作的部分,反量化单元154可反量化(即,解量化)与TU相关联的变换系数块。反量化单元154可以类似于针对HEVC所提议或由H.264解码标准所定义的反量化过程的方式来反量化变换系数块。反量化单元154可使用由视频编码器20针对变换系数块的CU所计算的量化参数QP来确定量化的程度且同样地确定供反量化单元154应用的反量化的程度。
在反量化单元154反量化变换系数块之后,反变换单元156可产生与变换系数块相关联的TU的残余视频块。反变换单元156可将反变换应用于变换系数块以便产生TU的残余视频块。例如,反变换单元156可将反DCT、反整数变换、反卡忽南-拉维变换(KLT)、反旋转变换、反定向变换或另一反变换应用于变换系数块。在一些实例中,反变换单元156可基于来自视频编码器20的发信来确定待应用于变换系数块的反变换。在这些实例中,反变换单元156可基于在与变换系数块相关联的树型块的四分树的根节点处所发信的变换来确定反变换。在其它实例中,反变换单元156可从一或多个译码特性(例如,块大小、译码模式或其类似者)来推断反变换。在一些实例中,反变换单元156可应用级联反变换。
在一些实例中,运动补偿单元162可通过基于内插滤波器来执行内插而改进PU的经预测视频块。待用于具有子样本精度的运动补偿的内插滤波器的识别符可被包含于语法元素中。运动补偿单元162可使用由视频编码器20在产生PU的经预测视频块期间所使用的相同内插滤波器来计算参考块的次整数样本的内插值。运动补偿单元162可根据所接收的语法信息来确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生经预测视频块。
如果PU是使用帧内预测而编码,那么帧内预测单元164可执行帧内预测以产生PU的经预测视频块。例如,帧内预测单元164可基于位流中的语法元素来确定PU的帧内预测模式。位流可包含帧内预测单元164可用来确定PU的帧内预测模式的语法元素。
在一些例子中,语法元素可指示帧内预测单元164将使用另一PU的帧内预测模式来确定当前PU的帧内预测模式。例如,当前PU的帧内预测模式可很有可能与相邻PU的帧内预测模式相同。换句话说,相邻PU的帧内预测模式可为当前PU的最有可能模式。因此,在此实例中,位流可包含小语法元素,所述语法元素指示PU的帧内预测模式与相邻PU的帧内预测模式相同。帧内预测单元164可接着使用所述帧内预测模式基于空间相邻PU的视频块来产生PU的预测数据(例如,经预测样本)。
如下文参看图5进一步论述,预测单元152可经配置以通过执行图5中所说明的步骤来预测EL中的当前块,所述当前块在BL中不具有可用的对应块。
重建构单元158可使用与CU的TU相关联的残余视频块和CU的PU的经预测视频块(即,在适用时,帧内预测数据抑或帧间预测数据),以重建构CU的视频块。因此,视频解码器30可基于位流中的语法元素来产生经预测视频块和残余视频块,且可基于所述经预测视频块和所述残余视频块来产生视频块。
在重建构单元158重建构CU的视频块之后,滤波单元159可执行解块操作以减少与CU相关联的成块伪影。在滤波单元159执行解块操作以减少与CU相关联的成块伪影之后,视频解码器30可将CU的视频块存储于解码图片缓冲器160中。解码图片缓冲器160可提供用于后续的运动补偿、帧内预测和在显示装置(例如,图1的显示装置32)上的呈现的参考图片。例如,视频解码器30可基于解码图片缓冲器160中的视频块来对其它CU的PU执行帧内预测操作或帧间预测操作。
在HEVC扩展的实施例中,可使用基础层的对应块来预测增强层或另一视图语法(例如,运动场或帧内模式)。例如,可将基础层运动向量(MV)用作增强层合并模式/AMVP(先进运动向量预测)候选者列表中的候选者。然而,可存在当基础层的对应或共置块位于基础层帧外部时的情形。此可在经译码帧大小大于可能显示于装置上的实际帧大小时发生。
例如,此情形可在增强图片的边界填补大小大于基础层图片的边界填补大小时发生。基础层和增强层的不同的边界填补大小可由特定编码器设定引入。其也可归因于基础层和增强层的不同的最小译码单元(SCU)大小。由于在HEVC中实际经译码帧大小与SCU大小对准(帧大小为SCU的整数倍),所以如果增强层的SCU大于基础层的SCU,那么不存在用于基础层帧的一些部分的语法信息。如图4中所示,增强层SCU422和基础层SCU 432的不同大小可导致增强层400的一部分在基础层430中不具有藉以检索运动信息或像素信息以用于层间预测的对应区域。在另一实例中,当通过另一视频标准(例如,AVC或MPEG2)来译码基础层时,可发生基础层信息的不可用性。
在3D-HEVC中,当将视差向量应用于边界块以定位参考视图中的块时,对应块可落在所述参考视图的视图分量的边界外部。
本发明大体是针对SVC扩展。本发明也对多视图视频译码(MVC)有效,其中所述视图中的一者充当本描述中的增强层。
图4说明增强层400和基础层430的各种帧。白色矩形432表示基础层图片的实际帧大小(例如,经裁剪以配合装置的显示器大小)。基础层的经译码帧大小以虚线436展示于图4的底部,且增强层的经译码帧大小以虚线416展示于图4的顶部。也在增强层的实际帧大小412与经译码帧大小416之间以虚线414展示了经上取样的基础层的经译码帧大小。区域418表示经上取样的基础层的实际帧大小与经译码帧大小之间的区域,且区域420表示经上取样的基础层的经译码帧大小与增强层的经译码帧大小之间的区域。
通常,为了达成层间预测,可从对应的子块或像素位置获得基础层信息(包含运动向量(MV)和其它语法元素),且所述基础层信息可用以预测当前块(例如,在增强层中)。此对应的子块或像素位置可位于当前增强层CU或PU内部或外部。例如,子块或像素位置可为中心或隅角子块或像素位置。如果此对应的子块或像素位置位于在基础层帧外部的不可用区域中,那么需要定义用于此状况的SVC或MVC编码解码器行为。例如,本文中所使用的“对应块”(或子块或像素位置)可指共置块、相邻块或由译码器(例如,编码器或解码器)确定的任何其它块。
如上文所提及,增强层区域可能在基础层中不具有可用于层间预测的对应区域。例如,增强层的经译码帧的右下边缘(即,图4中的区域420)在基础层中不具有可藉以获得运动信息以用于层间预测的对应区域。因此,这些边缘部分不能通过从其在基础层中的对应部分所获得的信息而加以译码,且因此不能使用常规的层间预测技术。
BL中的参考块的不可用性
可通过将子块隅角或像素位置的坐标与帧大小相比较来检查对应的子块或像素位置是否位于基础层帧外部。例如,如果子块的右下隅角的坐标在基础层的帧大小(或根据BL与EL的空间比率而被上取样的BL的帧大小)的范围外,那么将对应的子块视为不可用于预测EL中的当前块。本文中所论述的技术中的一或多者可用以对在BL中不具有可用的对应块(例如,不具有可用的BL语法)的这些块执行层间预测。
在一个实施例中,在视图间/层间运动预测期间,识别EL中的当前块的左上位置P0和右下位置P1(其对应于参考/基础视图/层中的位置Q0和Q1)。如果Q0或Q1位于参考/基础视图/层的图片外部,那么将对应块视为不可用,且其不被用于层间/视图间运动预测。在此状况下,可停用其它语法元素或残余信息的层间/视图间预测。在另一实施例中,仅当Q0与Q1两者皆位于参考/基础视图/层的图片外部时才将基础层/参考视图块视为不可用。
在又一实施例中,代替EL中的当前块的左上位置和右下位置,当前块是通过块的右上位置和左下位置来识别,且因此基于右上位置和左下位置的映射位置来确定BL中的参考块的可用性。
在又一实施例中,可通过块的最左像素与最右像素的水平坐标Xl和Xr和最上像素与最下像素的垂直坐标Yl和Yr来识别当前块。在将这些坐标映射到基础/参考层/视图中的对应坐标之后,如果所述值(例如,水平坐标和垂直坐标)中的任一者超过图片边界,那么将基础层/参考视图中的对应块视为不可用。此处,图片边界可指实际帧或经译码帧的边界,如图4中所说明。
对于某一语法元素(或所有语法元素)来说,当前块的基础层/参考视图中的映射位置可取决于当前块的特定坐标的映射位置。当当前块的特定坐标的映射位置超过基础/参考层/视图边界时,将基础层/参考视图块视为不可用。块的特定坐标可指向块的左上、右下、中心、右上、左下位置。块的特定坐标对于所有语法元素来说可为相同位置,或其可能对于不同语法元素来说为不同位置。
参考区域
甚至当基础层/参考视图中的映射位置在基础层/参考视图的图片内时,如果其位于基础层/参考视图的参考区域外部,那么仍将其视为位于不可用区域中,且将通过此位置识别的块视为不可用。在一个实施例中,将参考区域定义为基础层/参考视图的图片内的藉以预测当前层/视图(例如,可供用于层间或视图间预测)的矩形区域。来自位于参考区域外部的图片的像素或块的信息未被用于层间/视图间预测。本文中所使用的基础层/参考视图的“图片”可指经裁剪用于显示的基础层图片,所述图片由图4的底部的白色矩形434说明。替代地,所述术语可指基础层的经译码(例如,经解码)图片,所述图片通过图4的底部的虚线436说明。
定位最接近的可用块
在一个实施例中,当块或像素位置被映射到基础/参考层/视图的不可用块,或经识别为位于参考区域的左/右和/或顶/底边界外部时,可将最接近不可用的参考区域(即,对应块)的右/左和/或底/顶边界的可用块的信息用于层间/视图间预测。一个定位此最接近的可用块的方式是通过将对应的基础/参考层/视图位置的坐标截割到基础层/参考层的参考区域大小的范围中,其中参考区域可为经解码的基础层图片(436)或经裁剪的基础层图片(434),如图4中所描绘。然而,参考区域并不限于图4中所描绘的那些区域,且可为由译码器针对增强层或增强层中的特定块指定的区域。
例如,可将对应的基础/参考层/视图位置的水平坐标截割到在0与(reference_region_width-1)之间的范围,且可将对应的基础/参考层/视图位置的垂直坐标截割到在0与(reference_region_height-1)之间的范围。通过截割对应的基础/参考层/视图位置的坐标,可定位最接近的可用参考块,且对应于此块的信息(例如,像素信息或运动信息)可用以预测增强层中的当前块。
图5说明根据本发明的一个实施例的用于译码视频信息的实例方法500。可由视频编码器20或视频解码器30的一或多个组件来执行方法500,所述一或多个组件包含(但不限于)帧间预测单元121、运动补偿单元162。在一些实施例中,其它组件可用以实施本文中所描述的步骤中的一或多者。例如,方法500可用以执行关于图4所描述的动作中的一或多者。虽然将方法500的步骤描述为由译码器执行,但可通过编码器(例如,视频编码器20)或解码器(例如,视频解码器30)来执行这些步骤。
方法500始于步骤505处,(例如)以用于译码增强层中的当前块。在步骤510处,译码器检查对应块是否不可用。例如,对应块可为增强层中的当前块的共置块、共置块的相邻块或由译码器确定的任何其它块。本文中所描述的各种可用性检查技术中的任一者可用以确定此对应块是否不可用。如果确定对应块不可用(步骤510处的是),那么译码器基于基础层的对应块来导出信息(步骤515)。例如,如本文中所论述,可由译码器来定位相邻块且可导出与所述相邻块相关联的信息以供在层间预测中使用。基于所导出的信息,执行层间预测以预测增强层中的当前块(步骤520)。例如,如上文所论述,图2的视频编码器20的预测单元100或图2的视频解码器30的预测单元152可执行此预测。方法500结束于步骤525处。
语法元素和残余信息
在一个实施例中,如果块被映射到基础/参考层/视图的不可用块或经识别为位于参考区域的左/右和/或顶/底边界外部,那么可针对此块而停用对于语法元素和/或残余信息的层间预测。替代地,并非停用此块的层间预测,可将默认的语法值用于层间预测。例如,可使用零运动场(例如,MV等于零且参考索引等于零),且可将帧内模式设定到DC预测方向。
在另一实施例中,可用相邻的可用块的语法元素来代替不可用的对应块的语法元素。在使用相邻的可用块的信息的状况下,尤其在基础层帧被插入到参考图片列表中的情况下,可压缩用于不可用的子块的运动场(例如,基于如HEVC中的16×16大小)。
最小译码单元(SCU)大小
可限制增强层和基础层的SCU大小以避免层间语法预测的不可用区域。例如,增强层的SCU大小可经配置成小于或等于基础层的SCU大小。另外,可在定义关于SCU大小的限制时考虑到空间可缩放性纵横比。
图片边界填补大小
可限制增强层和基础层的图片边界填补大小以避免层间语法预测的不可用区域。例如,增强层的填补大小可经配置成小于或等于基础层的填补大小。更具体地说,可使每一图片边界的填补大小(即,增强层图片中的左、顶、右和底边界)小于或等于基础层图片中的那些填补大小。另外,可在针对空间可缩放性状况来定义关于图片边界填补大小的限制时考虑到分辨率比率。
运动场信息的可用性
在视图间/层间运动预测期间,如果增强层块的右下隅角位于图片外部,那么将运动场视为不可用。如本文中所使用的图片可指经解码的基础层图片或经裁剪的基础层图片,如图4中所说明。在此状况下,即使对应的基础层块位于基础层图片内部,仍可将运动场视为不可用。替代地,在另一实施例中,如果增强层块的代表性部分位于图片外部,但对应于增强层块的所述代表性部分的基础层块位于基础层图片内部,那么可将来自基础层块(如果必要,根据可缩放性比率而缩放)的运动场指派用于所述增强层块。
运动场信息的可用性
在另一实施例中,代替块的右下隅角,可将位于块内部的其它点或任何子块用作代表性点。例如,可使用基础层或增强层块的中心点,或可使用基础层或增强层块的中心4×4子块中的一者。如果此代表性点或子块位于对应的BL或EL图片外部,那么可应用本发明中所描述的技术中的一者。此处的图片可为经解码图片或经裁剪图片。
在位置映射之前截割坐标
在一个实施例中,可在进行位置映射过程以确定基础/参考层/视图中的对应块的位置之前将范围限制应用于当前增强层图片中的位置。例如,可在进行位置映射过程以获得基础/参考层/视图中的对应位置之前将当前位置的坐标截割到当前经解码图片的图片大小范围中。在另一实例中,可在进行位置映射过程以获得基础/参考层/视图中的对应位置之前将当前位置的坐标截割到当前经裁剪图片的图片大小范围中。
经裁剪图片和经解码图片
在更详细视图中,可将位于帧外部的区域划分为两个部分:第一部分(例如,图4中的区域418),其与基础层帧的扩展部分相关(归因于与图4中所示的基础层SCU 432的大小对准);和在图4上用影线展示的第二部分(例如,图4中的区域420),其在基础层帧中不具有任何对应部分。
可将上文所描述的技术应用于区域418与420两者。替代地,因为可从扩展的基础层帧(即,基础层的经译码帧436)获得信息,所以可将区域418视为可用,且因此仅可将本发明中所描述的技术应用于区域420。
在一个实施例中,可直接根据基础/参考层/视图图片中的映射位置来检查块的不可用性。如图4中所示,可使用的一种技术是将基础/参考层/视图图片的实际帧大小内的任何映射位置视为可用且将超过实际帧大小的部分视为不可用。替代地,可将在基础/参考层/视图图片的经译码帧大小内的任何映射位置视为可用,且可将超过经译码帧大小的部分视为不可用。
其它应用
在以上描述中,虽然将运动层间预测用作实例,但相同原理和技术也适用于其它语法元素,例如帧内模式、预测模式、分裂旗标、跳过旗标等等。
替代地或额外地,可将上文所提及的方法应用于层间像素预测(包含BL内或纹理BL预测、层间残余预测、差域帧内预测、差域帧间预测等)。例如,对于位于不可用区域中的那些块或块的部分来说,可停用层间像素预测,或可用默认值(例如,0或(1<<(位深度-1)))来初始化像素,其中位深度可为8、10、12位等等。
替代地,可使用相邻的可用像素来填补像素。像素填补方法(例如)可为与用于内插的像素填补方法相同的方法。然而,需要被扩展的所述数目的像素可与用于内插目的所需的那些像素不同。在无限制的情况下,其它像素填补方法也是适用的。
对于层间像素预测状况来说,可逐像素地进行以上所提及的不可用性检查方法。即,对于每一像素来说,将其在基础/参考层/视图图片中的共置位置用于用上文所提及的规则来检查可用性。当像素被映射到基础/参考层/视图的不可用位置时,将最接近经映射位置的右/左和/或底/顶边界的可用位置的像素用于层间/视图间预测。
如图4中所示,对准基础层和增强层的具有坐标(0,0)的左上隅角。然而,可将所述解决方案应用于不存在此隅角对准的情形中。在此情形中,存在位于增强层帧外部的来自左上边的另一不可用区域(其类似于图4上所示的右下对应物)。
可使用多种不同技艺和技术中的任一者来表示信息和信号。例如,可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可贯穿以上描述所引用的数据、指令、命令、信息、信号、位、符号和码片。
结合本文中所揭示的实施例而描述的各种说明性逻辑块、单元、模块、电路和算法步骤可经实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性,上文已大体在功能性方面描述了各种说明性组件、块、单元、模块、电路和步骤。此功能性经实施为硬件或是软件取决于特定应用和强加于整个系统的设计约束而定。所属领域的技术人员可针对每一特定应用而以变化的方式来实施所描述的功能性,但这些实施决策不应解释为导致背离本发明的范围。
可将本文中所描述的技术实施于硬件、软件、固件或其任何组合中。可将这些技术实施于例如以下各者的多种装置中的任一者中:通用计算机、无线通讯装置手机或具有多种用途(包含在无线通信装置手机和其它装置中的应用)的集成电路装置。可将被描述为单元、模块或组件的任何特征一同实施于集成的逻辑装置中或分开地实施为离散但可互操作的逻辑装置。如果实施于软件中,那么可至少部分地通过计算机可读数据存储媒体来实现所述技术,所述计算机可读数据存储媒体包括包含指令的程序代码,所述程序代码在加以执行时执行上文所描述的方法中的一或多者。计算机可读数据存储媒体可形成计算机程序产品的部分,所述计算机程序产品可包含包装材料。计算机可读媒体可包括存储器或数据存储媒体,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可抹除可编程只读存储器(EEPROM)、FLASH存储器、磁性或光学数据存储媒体,和其类似者。额外地或替代地,可至少部分地由计算机可读通信媒体来实现所述技术,所述计算机可读通信媒体携载或传达呈指令或数据结构的形式且可由计算机存取、读取和/或执行的程序代码(例如,传播的信号或波)。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效的集成或离散逻辑电路。此处理器可经配置以执行本发明中所描述的技术中的任一者。通用处理器可为微处理器;但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。也可将处理器实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心,或任一其它此配置。因此,如本文中所使用,术语“处理器”可指上述结构中的任一者、上述结构的任一组合,或适合于实施本文中所描述的技术的任何其它结构或设备。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内,或并入于组合式视频编码器-解码器(CODEC)中。又,可将所述技术完全地实施于一或多个电路或逻辑元件中。
可将本发明的技术实施于广泛多种装置或设备中,所述装置或设备包含无线手机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述了各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但其未必需要由不同硬件单元来实现。相反,如上文所描述,各种单元可经组合于编码解码器硬件单元中或由包含如上文所描述的一或多个处理器的互操作的硬件单元的集合结合合适的软件和/或固件来提供。
已描述本发明的各种实施例。这些和其它实施例在以下权利要求书的范围内。

Claims (36)

1.一种经配置以译码视频信息的设备,其包括:
存储器单元,其经配置以存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;以及
与所述存储器单元通信的处理器,所述处理器经配置以基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块,
其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。
2.根据权利要求1所述的设备,其中从所述第二块导出的所述信息包含对应于最接近所述第二块的相邻块的信息,所述相邻块位于所述基础层的所述参考区域内部。
3.根据权利要求2所述的设备,其中所述相邻块是通过将所述第二块的坐标信息截割到所述基础层的所述参考区域的范围来定位。
4.根据权利要求1所述的设备,其中在进行位置映射过程以确定所述基础层的所述第二块之前,所述第一块的坐标信息首先被截割到当前经解码或经裁剪图片的范围。
5.根据权利要求1所述的设备,其中所述参考区域进一步包含所述基础层的经解码图片和所述基础层的经裁剪图片中的一者。
6.根据权利要求1所述的设备,其中在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,针对所述第一块而停用语法元素和残余信息的层间预测。
7.根据权利要求1所述的设备,其中在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,默认的语法值被用于所述第一块的所述层间预测。
8.根据权利要求2所述的设备,其中在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,所述相邻块的语法值被用于所述第一块的所述层间预测。
9.根据权利要求1所述的设备,其中所述增强层的最小译码单元SCU大小与所述基础层的SCU大小不同。
10.根据权利要求1所述的设备,其中所述增强层的每一图片边界的边界填补大小与所述基础层的每一对应图片边界的边界填补大小不同。
11.一种编码视频信息的方法,所述方法包括:
接收与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;以及
基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块,
其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。
12.根据权利要求11所述的方法,其中从所述第二块导出的所述信息包含对应于最接近所述第二块的相邻块的信息,所述相邻块位于所述基础层的所述参考区域内部。
13.根据权利要求12所述的方法,其进一步包括:
通过将所述第二块的坐标信息截割到所述基础层的所述参考区域的范围来定位所述相邻块。
14.根据权利要求11所述的方法,其进一步包括:
将所述第一块的坐标信息截割到当前经解码或经裁剪图片的范围;以及
基于所述第一块的所述经截割的坐标信息来进行位置映射过程以确定所述基础层的所述第二块。
15.根据权利要求11所述的方法,其中所述参考区域进一步包含经解码图片和经裁剪图片中的一者。
16.根据权利要求11所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,针对所述第一块而停用语法元素和残余信息的层间预测。
17.根据权利要求11所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,将默认的语法值用于所述第一块的所述层间预测。
18.根据权利要求12所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,将所述相邻块的语法值用于所述第一块的所述层间预测。
19.根据权利要求11所述的方法,其中所述增强层的最小译码单元SCU大小与所述基础层的SCU大小不同。
20.根据权利要求11所述的方法,其中所述增强层的每一图片边界的边界填补大小与所述基础层的每一对应图片边界的边界填补大小不同。
21.一种解码视频信息的方法,所述方法包括:
接收从经编码视频位流所提取的语法元素,其中所述语法元素包括与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;以及
基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块,
其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。
22.根据权利要求21所述的方法,其中从所述第二块导出的所述信息包含对应于最接近所述第二块的相邻块的信息,所述相邻块位于所述基础层的所述参考区域内部。
23.根据权利要求22所述的方法,其进一步包括:
通过将所述第二块的坐标信息截割到所述基础层的所述参考区域的范围来定位所述相邻块。
24.根据权利要求21所述的方法,其进一步包括:
将所述第一块的坐标信息截割到当前经解码或经裁剪图片的范围;以及
基于所述第一块的所述经截割的坐标信息来进行位置映射过程以确定所述基础层的所述第二块。
25.根据权利要求21所述的方法,其中所述参考区域进一步包括经解码图片和经裁剪图片中的一者。
26.根据权利要求21所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,针对所述第一块而停用语法元素和残余信息的层间预测。
27.根据权利要求21所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,将默认的语法值用于所述第一块的所述层间预测。
28.根据权利要求22所述的方法,其进一步包括:
在所述第二块经确定为位于所述基础层的所述参考区域外部的状况下,将所述相邻块的语法值用于所述第一块的所述层间预测。
29.根据权利要求21所述的方法,其中所述增强层的最小译码单元SCU大小与所述基础层的SCU大小不同。
30.根据权利要求21所述的方法,其中所述增强层的每一图片边界的边界填补大小与每一的边界填补大小不同。
31.一种非暂时性计算机可读媒体,其包括代码,所述代码在执行时使设备执行以下步骤:
存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息,所述第二块对应于所述第一块;以及
基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块,
其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。
32.根据权利要求31所述的媒体,其中从所述第二块导出的所述信息包含对应于最接近所述第二块的相邻块的信息,所述相邻块位于所述基础层的所述参考区域内部。
33.根据权利要求32所述的媒体,其中所述设备进一步经配置以:
通过将所述第二块的坐标信息截割到所述基础层的所述参考区域的范围来定位所述相邻块。
34.一种经配置以译码视频信息的视频译码装置,所述视频译码装置包括:
用于存储与具有第一块的增强层和具有第二块的基础层相关联的视频信息的装置,所述第二块对应于所述第一块;以及
用于基于从所述基础层中的所述第二块导出的信息通过层间预测来预测所述增强层中的所述第一块的装置,
其中所述第二块的至少一部分位于所述基础层的参考区域外部,所述参考区域可供用于所述第一块的所述层间预测。
35.根据权利要求34所述的装置,其中从所述第二块导出的所述信息包含对应于最接近所述第二块的相邻块的信息,所述相邻块位于所述基础层的所述参考区域内部。
36.根据权利要求35所述的装置,其进一步包括:
用于通过将所述第二块的坐标信息截割到所述基础层的所述参考区域的范围来定位所述相邻块的装置。
CN201380064415.9A 2012-12-12 2013-12-04 基于高效率视频译码对视频信息的可缩放译码的装置和方法 Active CN104919797B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201261736481P 2012-12-12 2012-12-12
US61/736,481 2012-12-12
US201361767183P 2013-02-20 2013-02-20
US61/767,183 2013-02-20
US14/049,649 US9648319B2 (en) 2012-12-12 2013-10-09 Device and method for scalable coding of video information based on high efficiency video coding
US14/049,649 2013-10-09
PCT/US2013/073015 WO2014093079A1 (en) 2012-12-12 2013-12-04 Device and method for scalable coding of video information based on high efficiency video coding

Publications (2)

Publication Number Publication Date
CN104919797A true CN104919797A (zh) 2015-09-16
CN104919797B CN104919797B (zh) 2018-08-24

Family

ID=50880949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380064415.9A Active CN104919797B (zh) 2012-12-12 2013-12-04 基于高效率视频译码对视频信息的可缩放译码的装置和方法

Country Status (13)

Country Link
US (1) US9648319B2 (zh)
EP (1) EP2932718B1 (zh)
JP (1) JP6430394B2 (zh)
KR (1) KR101861906B1 (zh)
CN (1) CN104919797B (zh)
AP (1) AP2015008516A0 (zh)
EC (1) ECSP15029651A (zh)
ES (1) ES2711954T3 (zh)
HU (1) HUE042712T2 (zh)
MA (1) MA38178B1 (zh)
SA (1) SA515360542B1 (zh)
TW (1) TWI535273B (zh)
WO (1) WO2014093079A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113422A (zh) * 2015-11-06 2017-08-29 微软技术许可有限责任公司 用于视频编码和解码的灵活的参考图片管理

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160073115A1 (en) * 2013-04-05 2016-03-10 Samsung Electronics Co., Ltd. Method for determining inter-prediction candidate for interlayer decoding and encoding method and apparatus
WO2014186542A1 (en) * 2013-05-15 2014-11-20 Vid Scale, Inc. Single loop decoding based inter layer prediction
US10321162B2 (en) * 2015-06-08 2019-06-11 Qualcomm Incorporated Derivation of color gamut scalability parameters and tables in scalable video coding
US10602180B2 (en) 2017-06-13 2020-03-24 Qualcomm Incorporated Motion vector prediction
WO2019135447A1 (ko) * 2018-01-02 2019-07-11 삼성전자 주식회사 움직임 예측에 의한 패딩 기법을 이용한 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
US11265551B2 (en) * 2018-01-18 2022-03-01 Qualcomm Incorporated Decoder-side motion vector derivation
EP3967035A4 (en) * 2019-05-10 2023-01-25 Beijing Dajia Internet Information Technology Co., Ltd. TRIANGLE PREDICTION VIDEO CODING METHODS AND APPARATUS
CN114128280B (zh) 2019-07-07 2023-11-14 北京字节跳动网络技术有限公司 色度残差缩放的信令通知
MX2022004267A (es) * 2019-10-10 2022-07-04 Beijing Dajia Internet Information Tech Co Ltd Métodos y aparatos para codificación de vídeo que usan partición triangular.

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728317B1 (en) * 1996-01-30 2004-04-27 Dolby Laboratories Licensing Corporation Moving image compression quality enhancement using displacement filters with negative lobes
US20060153295A1 (en) * 2005-01-12 2006-07-13 Nokia Corporation Method and system for inter-layer prediction mode coding in scalable video coding
US20080165850A1 (en) * 2007-01-08 2008-07-10 Qualcomm Incorporated Extended inter-layer coding for spatial scability

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9201640A (nl) 1992-09-22 1994-04-18 Nederland Ptt Systeem omvattende ten minste één encoder voor het coderen van een digitaal signaal en ten minste één decoder voor het decoderen van een digitaal signaal, en encoder en decoder voor toepassing in het systeem volgens de uitvinding.
KR20060109247A (ko) * 2005-04-13 2006-10-19 엘지전자 주식회사 베이스 레이어 픽처를 이용하는 영상신호의 엔코딩/디코딩방법 및 장치
KR100704626B1 (ko) * 2005-02-07 2007-04-09 삼성전자주식회사 다 계층 기반의 모션 벡터를 압축하는 방법 및 장치
WO2006087314A1 (en) * 2005-02-18 2006-08-24 Thomson Licensing Method for deriving coding information for high resolution images from low resoluton images and coding and decoding devices implementing said method
JP4321484B2 (ja) * 2005-04-12 2009-08-26 日本ビクター株式会社 空間スケーラブル符号化方法、空間スケーラブル符号化装置、空間スケーラブル符号化プログラム、空間スケーラブル復号化方法、空間スケーラブル復号化装置及び空間スケーラブル復号化プログラム
US8755434B2 (en) * 2005-07-22 2014-06-17 Lg Electronics Inc. Method and apparatus for scalably encoding and decoding video signal
EP2077038B1 (en) 2006-10-18 2013-01-30 Apple Inc. Scalable video coding with filtering of lower layers
WO2008060126A1 (en) * 2006-11-17 2008-05-22 Lg Electronics Inc. Method and apparatus for decoding/encoding a video signal
US8428125B2 (en) 2006-12-22 2013-04-23 Qualcomm Incorporated Techniques for content adaptive video frame slicing and non-uniform access unit coding
DE102007049351A1 (de) 2007-10-15 2009-04-16 Siemens Ag Verfahren und Vorrichtung zum Erstellen eines kodierten Ausgangsvideostroms aus mindestens zwei kodierten Eingangsvideoströmen, sowie Verwendung der Vorrichtung und kodierter Eingangsvideostrom
US20120314767A1 (en) 2011-06-13 2012-12-13 Qualcomm Incorporated Border pixel padding for intra prediction in video coding
WO2013003143A2 (en) 2011-06-30 2013-01-03 Vidyo, Inc. Motion prediction in scalable video coding
JP5810700B2 (ja) * 2011-07-19 2015-11-11 ソニー株式会社 画像処理装置及び画像処理方法
KR101669524B1 (ko) 2012-02-01 2016-11-09 노키아 테크놀로지스 오와이 비디오 코딩을 위한 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728317B1 (en) * 1996-01-30 2004-04-27 Dolby Laboratories Licensing Corporation Moving image compression quality enhancement using displacement filters with negative lobes
US20060153295A1 (en) * 2005-01-12 2006-07-13 Nokia Corporation Method and system for inter-layer prediction mode coding in scalable video coding
US20080165850A1 (en) * 2007-01-08 2008-07-10 Qualcomm Incorporated Extended inter-layer coding for spatial scability

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113422A (zh) * 2015-11-06 2017-08-29 微软技术许可有限责任公司 用于视频编码和解码的灵活的参考图片管理
CN107113422B (zh) * 2015-11-06 2020-08-25 微软技术许可有限责任公司 一种用于视频编码和解码的参考图片管理的计算机系统
US10958929B2 (en) 2015-11-06 2021-03-23 Microsoft Technology Licensing, Llc Flexible reference picture management for video encoding and decoding

Also Published As

Publication number Publication date
SA515360542B1 (ar) 2017-11-27
TW201429263A (zh) 2014-07-16
WO2014093079A1 (en) 2014-06-19
KR20150096421A (ko) 2015-08-24
HUE042712T2 (hu) 2019-07-29
US20140161179A1 (en) 2014-06-12
ES2711954T3 (es) 2019-05-08
US9648319B2 (en) 2017-05-09
MA38178A1 (fr) 2016-05-31
EP2932718A1 (en) 2015-10-21
JP6430394B2 (ja) 2018-11-28
ECSP15029651A (es) 2016-01-29
CN104919797B (zh) 2018-08-24
TWI535273B (zh) 2016-05-21
MA38178B1 (fr) 2017-10-31
KR101861906B1 (ko) 2018-05-28
EP2932718B1 (en) 2018-11-28
AP2015008516A0 (en) 2015-06-30
JP2016503982A (ja) 2016-02-08

Similar Documents

Publication Publication Date Title
CN105393536B (zh) 使用位移向量从预测性块的帧内预测
JP2022050614A (ja) ビデオコード化のためのマルチタイプツリーフレームワーク
CN104396243B (zh) 用于视频压缩的自适应上取样滤波器
CN106165429B (zh) 多层译码中的一致性窗口信息
CN105556967B (zh) 用于视频信息的可缩放译码的装置和方法
CN105519116A (zh) 产生用于增强层中的运动预测的经调适运动向量候选者列表的可缩放hevc装置和方法
CN105027571B (zh) 三维视频译码中导出的视差向量
CN104919797A (zh) 基于高效率视频译码对视频信息的可缩放译码的装置和方法
CN104704833A (zh) 多视图或3维视频译码中的高级视图间残差预测
CN104471942A (zh) 重新使用参数集用于视频译码
CN104838651A (zh) 可缩放及多视角视频译码中的高级残差预测
CN104025602A (zh) 三维视频译码中用信号通知视图合成预测支持
CN106464919A (zh) 视频译码中用于第0个输出层集合的简档、层次、层级
CN105284113A (zh) 分量间滤波
CN105379278B (zh) 用于视频信息的可缩放译码的装置和方法
CN104170380A (zh) 视频译码中的视差矢量预测
CN105191315A (zh) 在shvc中有条件地调用再取样过程
CN105103560A (zh) 用于仅高级语法可缩放视频译码的层间参考图片限制
CN104813668A (zh) 在三维视频译码中的自适应性明度补偿
CN104823449A (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN105144719A (zh) 使用一般化残差预测对视频信息进行可缩放及多视图/3d译码的装置及方法
CN105052153B (zh) 用于视频信息的可缩放译码的装置和方法
CN104718752A (zh) 在可缩放视频译码中减少取样相位信息的发信
CN105637883A (zh) 用于视频信息的可缩放译码的装置和方法
CN104685887A (zh) 于视频译码中发信用于操作点的层识别符

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant