CN104604224A - 可缩放视频译码中的变换基底调整 - Google Patents

可缩放视频译码中的变换基底调整 Download PDF

Info

Publication number
CN104604224A
CN104604224A CN201380045941.0A CN201380045941A CN104604224A CN 104604224 A CN104604224 A CN 104604224A CN 201380045941 A CN201380045941 A CN 201380045941A CN 104604224 A CN104604224 A CN 104604224A
Authority
CN
China
Prior art keywords
video
video information
function
transform
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380045941.0A
Other languages
English (en)
Other versions
CN104604224B (zh
Inventor
马尔塔·卡切维奇
郭立威
霍埃尔·索赖罗哈斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104604224A publication Critical patent/CN104604224A/zh
Application granted granted Critical
Publication of CN104604224B publication Critical patent/CN104604224B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种根据某些方面的用于译码视频信息的设备包含存储器单元及与所述存储器单元通信的处理器。所述存储器单元存储与参考层及对应增强层相关联的视频信息。所述处理器至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息。所述处理器基于与所述视频信息相关联的变换函数确定调整变换函数。所述处理器基于所述经调整变换函数及所述残余块信息确定变换块。

Description

可缩放视频译码中的变换基底调整
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式发射装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(例如,视频帧或视频帧的一部分)可分割成视频块,视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于图片中的相邻块中的参考样本的空间预测对同一图片的经帧内编码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称作帧,且参考图片可称作参考帧。
空间或时间预测导致待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据而编码。经帧内译码块是根据帧内译码模式及残余数据而编码。为了实现进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可对残余变换系数进行量化。可扫描最初布置为二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵编码以实现更多压缩。
发明内容
大体来说,本发明描述与通过在可缩放视频译码期间条件性地或自适应地调整变换函数而改善译码性能有关的技术。
随附图式及以下描述中阐述一或多个实例的细节。其它特征、目标及优势将从描述及附图且从权利要求书中显而易见。
在一个实施例中,经配置以译码视频信息的设备包含存储器单元及处理器。所述存储器单元经配置以存储与参考层及对应增强层相关联的视频信息。所述处理器与所述存储器单元通信。所述处理器经配置以至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息。所述处理器还经配置以基于与所述视频信息相关联的变换函数确定经调整变换函数。所述处理器还经配置以基于所述经调整变换函数及所述残余块信息确定变换块。
在另一实施例中,一种解码视频信息的方法包含存储与参考层及对应增强层相关联的视频信息。所述方法还包含至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息。所述方法还包含基于与所述视频信息相关联的变换函数确定经调整变换函数。所述方法还包含基于所述经调整变换函数及所述残余块信息确定变换块。所述方法还包含使用所述变换块解码所述视频信息。
在另一实施例中,提供一种编码视频信息的方法。所述方法包含存储与参考层及对应增强层相关联的视频信息。所述方法还包含至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息。所述方法还包含基于与所述视频信息相关联的变换函数确定经调整变换函数。所述方法还包含基于所述经调整变换函数及所述残余块信息确定变换块。所述方法还包含使用所述变换块编码所述视频信息。
在又一实施例中,提供一种用于译码视频信息的设备。所述设备包含用于存储与参考层及对应增强层相关联的视频信息的装置。所述设备还包含用于至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息的装置。所述设备还包含用于基于与所述视频信息相关联的变换函数确定经调整变换函数的装置。所述设备还包含用于基于所述经调整变换函数及所述残余块信息确定变换块的装置。
在又一实施例中,一种计算机可读媒体具有计算机可执行指令,所述计算机可执行指令在由计算装置执行时致使所述计算装置存储与参考层及对应增强层相关联的视频信息。所述指令还致使所述计算装置至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息。所述指令还致使所述计算装置基于与所述视频信息相关联的变换函数确定经调整变换函数。所述指令还致使所述计算装置基于所述经调整变换函数及所述残余块信息确定变换块。
附图说明
图1是说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。
图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。
图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。
图4是说明多维可缩放性的实例的框图。
图5是SVC译码结构的一个实施例的框图。
图6是说明形成各种存取单元的经译码切片的位流的一个实施例的框图。
图7是说明共置块的一个实施例的框图。
图8是变换基底调整的方法的流程图。
具体实施方式
本发明中描述的技术大体涉及可缩放视频译码(SVC)及3D视频译码。举例而言,技术可与高效率视频译码(HEVC)可缩放视频译码(SVC)扩展相关,及供该HEVC SVC扩展使用或在该HEVC SVC扩展内使用。在SVC扩展中,可存在多个视频信息层。在最底层级处的层可充当基础层(BL),且在最顶部的层可充当增强型层(enhanced layer,EL)。“增强型层”有时被称作“增强层”,且这些术语可互换地使用。所有在中间的层可充当EL或BL,或EL及BL两者。举例而言,在中间的层可为在其下方的层(例如基层或任何介入增强层)的EL,且同时充当在其上方的增强层的BL。
在其中不利用层间预测的视频译码中,DC及低频(LF)分量往往在变换之后会具有大部分残余能量。此特性(DC/LF分量往往会具有大振幅,而HF分量往往会具有低振幅)已用在某些视频译码过程中以实现压缩效率。然而,可缩放视频译码的残差可归因于层间预测(例如,归因于帧内BL模式中的预测,下文描述)而具有不同分布特性。明确地说,通过SVC,残差更像是噪声,且能量可扩散在整个或较大频域上。实际上,不同于非SVC视频译码,通过SVC,有可能HF分量可具有比DC或LF分量多的能量。因此,用于常规非SVC视频译码的传统方法对于可缩放视频译码可能效果不佳。在实施SVC时,变换基底调整可帮助改善压缩效率。下文更详细地描述此类技术。此外,可通过编码器(例如,如下文关于图1及2所描述)及/或解码器(例如,如关于下文图1及3所描述)来实施这些技术。
出于说明的目的,本发明中描述的技术用仅包含两层(例如,例如基础层等较低层级层,及例如增强型层等较高层级层)的实例来加以描述。应理解,本发明中描述的实例也可扩展到具有多个基础层及增强层的实例。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。此外,一种新的视频译码标准,即高效率视频译码(HEVC),正由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。HEVC的新近草案从2012年6月7日起可从http://wg11.sc29.org/jct/doc_end_user/ current_document.php?id=5885/JCTVC-I1003-v2获得。被称作“HEVC工作草案7”的HEVC标准的另一新近草案从2012年6月7日起可从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-v3.zip下载。对HEVC工作草案7的完全引用是布洛斯(Bross)等人的文献HCTVC-I1003“高效率视频译码(HEVC)文本规范草案7(High Efficiency Video Coding(HEVC)TextSpecification Draft 7)”,ITU-T SG16WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第9次会议:瑞士日内瓦,2012年4月27日到2012年5月7日。这些参考文献中的每一者以全文引用的方式并入本文中。
可缩放视频译码(SVC)可用于提供质量(还称作信噪比(SNR))可缩放性、空间可缩放性及/或时间可缩放性。增强型层可具有与基础层不同的空间分辨率。举例来说,EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说,EL的空间方面可等于BL的空间方面的1.0、1.5或2.0倍。在一些实例中,EL的缩放因子可大于BL。举例来说,EL中的图片的大小可大于BL中的图片的大小。以此方式,可有可能(但不限于)EL的空间分辨率大于BL的空间分辨率。
在H.264的SVC扩展中,可使用针对SVC提供的不同层来执行对当前块的预测。此预测可被称作层间预测。在SVC中可利用层间预测方法以便减少层间冗余。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残差预测。层间帧内预测使用基础层中的位于相同位置的块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动来预测增强层中的运动。层间残差预测使用基础层的残差来预测增强层的残差。
在层间残差预测中,基础层的残差可用于预测增强层中的当前块。可将所述残差界定为对视频单元的时间预测与源视频单元之间的差。在残差预测中,还在预测当前块时考虑基础层的残差。举例来说,可使用从增强层的残差、从增强层的时间预测及从基础层的残差来重建当前块。可根据以下方程式重建当前块:
I ^ e = r e + P e + r b - - - ( 1 )
其中表示当前块的重建,re表示来自增强层的残差,Pe表示来自增强层的时间预测,且rb表示来自基础层的残差预测。
为了针对增强层中的宏块(MB)使用层间残差预测,基础层中的位于相同位置的宏块应为帧间MB,且可根据增强层的空间分辨率对位于相同位置的基础层宏块的残差上取样(例如,因为SVC中的层可具有不同的空间分辨率)。在层间残差预测中,增强层的残差与经上取样基础层的残差之间的差可在位流中译码。可基于基础层及增强层的量化步长之间的比率来归一化基础层的残差。
H.264的SVC扩展需要用于运动补偿的单环路解码以便维持解码器的低复杂度。一般来说,如下通过将当前块的时间预测与残差相加来执行运动补偿:
I ^ r + P - - - ( 2 )
其中表示当前帧、r表示残差,且P表示时间预测。在单环路解码中,可使用单一运动补偿环路来解码SVC中的每一支持的层。为了实现此,使用受约束的帧内预测来译码用于对较高层进行层间帧内预测的所有层。在受约束的帧内预测中,在不参考来自相邻经帧间译码MB的任何样本的情况下对帧内模式MB进行帧内译码。另一方面,HEVC允许用于SVC的多环路解码,其中可使用多个运动补偿环路来解码SVC层。举例来说,首先完全解码基础层,且接着解码增强层。
方程式(1)中用公式表示的残差预测可为H.264SVC扩展中的有效技术。然而,可在HEVC SVC扩展中进一步改善其性能,尤其在多环路解码用于HEVC SVC扩展中时。
在多环路解码的情况下,可使用差域运动补偿来取代残差预测。在SVC中,可使用像素域译码或差域译码来译码增强层。在像素域译码中,对于非SVC HEVC层,可译码用于增强层像素的输入像素。另一方面,在差域译码中,可译码用于增强层的差值。所述差值可为用于增强层的输入像素与对应的经缩放基础层经重建像素之间的差。此些差值可用于对差域运动补偿的运动补偿中。
对于使用差域的帧间译码,基于增强层参考图片中的对应经预测块样本与经缩放基础层参考图片中的对应经预测块样本之间的差值来确定当前经预测块。所述差值可被称为差预测块。将位于相同位置的基础层经重建样本添加到差预测块以便获得增强层预测样本。
然而,在层间预测中使用差域运动补偿会引入两组运动估计及运动补偿,因为运动估计及运动补偿常常用于像素域及差域两者。引入两组运动估计及运动补偿可导致较高的缓冲器及计算成本,这对于编码器或解码器来说可能不实际。另外,译码两组运动向量可降低译码效率,因为在两组运动向量具有不同特性且在译码单元(CU)层级处交错时,运动场可变得不规则。此外,差域中的运动估计需要基础层及增强层共享相同运动。此外,差域运动补偿不与单环路解码一起工作,因为两个层之间的差分图片的导出是基于每一层的充分经重建图片。因此,在使用差域运动补偿时在具有两组运动估计及运动补偿中避免冗余将是有利的。而且,在单环路解码中扩展差域运动补偿将是有利的。
本发明中描述的技术可解决与SVC中的层间残差预测及差域运动补偿相关的问题。可在一般化残差预测(GRP)架构内应用所述技术。如上文所解释,层间残差预测在预测当前视频单元(例如,块或帧)中使用参考层的残差。在一般化残差预测中,当前视频单元的层间残差预测可基于当前层的残差、当前层的时间预测及参考层的残差。参考层的残差可通过加权因子来调整。加权因子可基于且包含各种类型的信息。此类信息的实例可包含加权候选者的数目、加权步长、加权索引及加权表。
根据本发明的方面的GRP框架可通过并入加权因子而适应各种类型的残差预测。恰当地调整加权因子可导致用于残差预测的显著译码增益。另外,在GRP框架中,可使用不必是传统的残差预测中的基础层的参考层来执行残差预测。举例来说,可从当前增强层导出参考层。在加权因子被设定成1时,GRP还可适应传统的残差预测。GRP框架可与单环路解码及多环路解码两者一起使用。另外,在GRP框架中,差域中的运动估计可不是必需的,且因此,当前层与增强层不必共享用于运动估计的相同运动。GRP框架可适用于许多不同类型的残差预测,且如方程式(1)中界定的传统的残差预测及差域运动补偿是使用GRP框架的两种特定情形。所述技术可改善HEVC的可缩放扩展中的运动补偿的性能,且还可适用于HEVC的3D视频译码扩展。
下文参考附图更充分地描述新颖系统、设备及方法的各种方面。然而,本发明可以许多不同形式来体现,且不应将其解释为限于贯穿本发明所呈现的任何特定结构或功能。确切地说,提供这些方面以使得本发明将为透彻且完整的,且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示,所属领域的技术人员应了解,本发明的范围既定涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备及方法的任何方面。举例来说,可使用本文中阐述的任何数目的方面来实施设备或实践方法。另外,本发明的范围既定涵盖使用除本文中所阐述的本发明的各种方面之外的或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解,可通过权利要求的一或多个要素来体现本文中所揭示的任何方面。
尽管本文描述了特定方面,但这些方面的许多变化及排列属于本发明的范围。尽管提到了优选方面的一些益处及优点,但本发明的范围不既定限于特定益处、用途或目的。确切地说,本发明的方面既定广泛地适用于不同无线技术、系统配置、网络及发射协议,其中的一些是作为实例而在图中以及在优选方面的以下描述中加以说明。详细描述及图式仅说明本发明,而不限制由所附权利要求书及其等效者界定的本发明的范围。
视频编码及解码系统
图1是说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。如图1所示,系统10包含源装置12,所述源装置12提供待在稍后时间由目的地装置14解码的经编码视频数据。明确地说,源装置12将视频数据经由计算机可读媒体16提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置或其类似者。在一些情况下,源装置12及目的地装置14可经配备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据例如无线通信协议等通信标准加以调制,且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可能形成分组网络(例如局域网、广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换器、基站,或可用于促进从源装置12到目的地装置14的通信的任何其它装备。
在一些实例中,可将经编码数据从输出接口22输出到存储装置(未展示)。类似地,可通过输入接口28从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可对应于文件服务器或可存储源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式发射或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置及本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可为流式发射、下载发射或其组合。
本发明的技术不必限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(例如,动态自适应HTTP流式发射(DASH))、经编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频流式发射、视频回放、视频广播及/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位流进行译码的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成显示装置。
图1所说明的系统10只是一个实例。用于确定当前块的运动向量预测符的候选列表的候选者的技术可由任何数字视频编码及/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编码解码器(CODEC)”)来执行。此外,本发明的技术还可通过视频预处理器来执行。源装置12及目的地装置14仅为此些译码装置的实例,其中源装置12产生用于发射到目的地装置14的经译码视频数据。在一些实例中,装置12、14可以实质上对称的方式操作以使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流式发射、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如视频摄像机、含有先前所俘获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或直播视频(live video)、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18为视频摄像机,那么源装置12及目的地装置14可形成所谓的摄像机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般来说可适用于视频译码,且可应用于无线及/或有线应用。在每一情况下,可由视频编码器20来编码经俘获的、经预先俘获的或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字影音光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未展示)可例如经由网络发射、直接有线通信等从源装置12接收经编码视频数据且将经编码视频数据提供到目的地装置14。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可从源装置12接收经编码的视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块及其它经译码单元(例如,GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30可根据视频译码标准(例如,目前正在开发的高效率视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。或者,视频编码器20及视频解码器30可根据其它专属或工业标准来操作,所述标准例如ITU-T H.264标准,替代地被称作MPEG-4第10部分高级视频译码(AVC),或此类标准的扩展。然而,本发明的技术不限于任何特定译码标准,包含但不限于上文所列的标准中的任一者。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件,以处理对共同数据流或单独数据流中的音频与视频两者的编码。如果适用,MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。
视频编码器20及视频解码器30各自可实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分地用软件实施所述技术时,装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置,例如蜂窝式电话。
JCT-VC正在致力于开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据例如ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HM可提供多达三十三种帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图片可划分成包含明度及色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可定义LCU的大小,LCU是就像素数目来说的最大译码单元。切片包含呈译码次序的多个连续树块。视频帧或图片可分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。一般来说,四叉树数据结构包含每CU一个节点,其中根节点对应于所述树块。如果一个CU分裂成4个子CU,那么对应于CU的节点包含四个叶节点,其中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供对应CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,从而指示对应于所述节点的所述CU是否分裂成子CU。CU的语法元素可递归地定义,且可取决于CU是否分裂成子CU。如果CU不进一步分裂,那么将其称为叶CU。在本发明中,叶CU的子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU不进一步分裂,那么四个8x8子CU将也被称作叶CU,虽然16x16CU从未分裂。
CU具有类似于H.264标准的宏块的目的,但CU不具有大小区别。举例来说,树块可分裂成四个子节点(还被称作子CU),且每一子节点又可为父节点并且可分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括也称为叶CU的译码节点。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,被称作最大CU深度,且还可界定译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块及子块)。
CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小且形状必须是正方形。CU的大小范围可从8x8像素到具有最大64x64像素或更大的树块的大小。每一CU可含有一或多个PU及一或多个TU。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有所不同。PU可分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树到一或多个TU的分割。TU可为正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU的变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但情况可能并非始终如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构而细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数,可将所述变换系数量化。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于相对应的CU的全部或一部分的空间区域,且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的一或多个运动向量的数据。举例来说,定义PU的运动向量的数据可描述运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(还称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成其它的子TU。当TU未经进一步分裂时,其可被称作叶TU。一般来说,对于帧内译码,属于叶CU的所有叶TU共享相同的帧内预测模式。即,一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式针对每一叶TU计算残余值,作为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可与相同CU的相对应的叶TU位于相同位置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四叉树数据结构(被称作残余四叉树(RQT))相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说,除非另有提及,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一者或一者以上的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为实例,HM支持各种PU大小的预测。假设特定CU的大小是2Nx2N,则HM支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,而将另一方向分割成25%及75%。CU的对应于25%分区的部分由“n”继之以“上方(U)”、“下方(D)”、“左侧(L)”或“右侧(R)”指示来指示。因而,举例来说,“2NxnU”是指水平地分割的2Nx2NCU,其中顶部为2Nx0.5N PU,而底部为2Nx1.5N PU。
在本发明中,“NxN”及“N乘N”可互换使用以指在垂直尺寸及水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。大体来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,N×N块一般在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成若干行及若干列。此外,块未必需要在水平方向与垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包括在对残余视频数据应用变换(例如,离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后在变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU,且接着变换TU以产生用于CU的变换系数。
在进行用于产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化为既定具有其最广普遍意义的广义术语。在一个实施例中,量化是指将变换系数量化以可能减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值向下舍入到m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化的变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)的系数放置在阵列正面,且将较低能量(且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来对一维向量进行熵编码。视频编码器还20可对与经编码的视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。
为了执行CABAC,视频编码器20可向待发射的符号指派上下文模型内的上下文。举例来说,所述上下文可涉及符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。可建构VLC中的码字以使得相对较短代码对应于更有可能的符号,而较长代码对应于不太可能的符号。以此方式,使用VLC可较之例如对待发射的每一符号使用等长码字实现位节省。概率确定可基于指配给符号的上下文。
视频编码器20可进一步例如在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的帧的数目,且帧语法数据可指示用以编码相对应的帧的编码/预测模式。
视讯编码器
图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20的单元中的一或多者可经配置以执行本发明的任何或所有技术。作为一个实例,变换处理单元52及反变换单元60可经配置以执行本发明中描述的任何或所有自适应变换技术,例如下文关于图8所描述的技术。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未展示)可经配置以执行本发明中描述的任何或所有技术。
视频编码器20可执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻接帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指若干基于时间的译码模式中的任一者。
如图2所示,视频编码器20接收视频帧内的待编码的当前视频块。在图2的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54,及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。对于视频块重建,视频编码器20还包含反量化单元58、反变换单元60,及求和器62。还可包含解块滤波器(图2中未展示)以对块边界进行滤波,以从经重建的视频移除成块假影。在需要时,解块滤波器通常对求和器62的输出进行滤波。除解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未展示此些滤波器,但在必要时,此些滤波器可对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次,以例如针对每一视频数据块选择适当的译码模式。
此外,分割单元48可基于先前译码遍次中的先前分割方案的评估将视频数据块分割成子块。举例来说,分割单元48可最初将帧或切片分割成LCU,且基于速率-失真分析(例如,速率-失真优化)将所述LCU中的每一者分隔成子CU。模式选择单元40可进一步产生指示LCU到子CU的分割的四叉树数据结构。所述四叉树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元40可例如基于误差结果而选择译码模式中的一者(帧内或帧间),且将所得的经帧内译码或经帧间译码的块提供到求和器50以产生残余块数据,且提供到求和器62以重建经编码块以用作参考帧。模式选择单元40还将语法元素(例如,运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供到熵编码单元56。
运动估计单元42与运动补偿单元44可高度集成,但出于概念上的目的而分开予以说明。由运动估计单元42执行的运动估计是产生估计视频块的运动的运动向量的过程。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正经译码的当前块的移位。预测性块是经发现在像素差方面密切地匹配待译码块的块,其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差量度来确定。在一些实例中,视频编码器20可计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(例表0)或第二参考图片列表(例表1),其中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量提取或产生预测性块。此外,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量之后,运动补偿单元44可即刻在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,且运动补偿单元44对于色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以供视频解码器30用于对视频切片的视频块进行解码。
作为如上文所描述由运动估计单元42及运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可对当前块进行帧内预测或计算。明确地说,帧内预测单元46可确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可例如在单独编码遍次期间使用各种帧内预测模式编码当前块,且帧内预测单元46(或在一些实例中,模式选择单元40)可从经测试模式选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率-失真分析计算用于各种经测试帧内预测模式的速率-失真值,且从所述经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(即,位数目)。帧内预测单元46可根据用于各种经编码块的失真及速率计算比率,以确定哪种帧内预测模式对于所述块展现最佳速率-失真值。
在针对一块选择帧内预测模式之后,帧内预测单元46可将指示用于所述块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据形成残余视频块。求和器50表示执行此减法运算的组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。还可使用子波变换、整数变换、子带变换或其它类型的变换。在任何情况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域(例如,频域)。变换处理单元52可经配置以执行下文且关于图8描述的自适应变换方法。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位速率。量化过程可减小与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着执行对包含经量化的变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵译码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码技术。在基于上下文的熵编码的情况下,上下文可基于相邻块。在熵编码单元56的熵编码之后,可将经编码位流发射到另一装置(例如视频解码器30),或将所述视频存档用于稍后发射或检索。
反量化单元58及反变换单元60分别应用反量化及反变换,以重建像素域中的残余块,(例如)以用于稍后用作参考块。反变换单元60可经配置以执行下文关于图8描述的自适应变换方法。
运动补偿单元44可通过将残余块相加到参考帧存储器64的帧中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建残余块以计算子整数像素值以用于运动估计。求和器62将经重建的残余块相加到由运动补偿单元44产生的运动补偿预测块以产生经重建视频块用于存储在参考帧存储器64中。经重建的视频块可由运动估计单元42及运动补偿单元44用作用于对后续视频帧中的块进行帧间译码的参考块。
视讯解码器
图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30的单元中的一或多者可经配置以执行本发明的任何或所有技术。作为一个实例,反变换单元78可经配置以执行本发明中描述的任何或所有自适应变换技术,例如下文关于图8所描述的技术。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未展示)可经配置以执行本发明中描述的任何或所有技术。
在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、反量化单元76、反变换单元78、参考帧存储器82及求和器80。在一些实例中,视频解码器30可执行与关于视频编码器20(例如,见图1及图2)所描述的编码遍次大体互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可基于用信号通知的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(例如,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生所述预测性块。视频解码器30可基于存储在参考帧存储器82中的参考图片使用默认建构技术建构参考帧列表:列表0及列表1。运动补偿单元72通过剖析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于经解码的当前视频块的预测性块。举例来说,运动补偿单元72使用一些接收到的语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可根据接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。
反量化单元76对在位流中提供且由熵解码单元70解码的经量化变换系数进行反量化,例如解量化。反量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY来确定应应用的量化程度及(同样)反量化程度。
反变换单元78对变换系数应用反变换(例如,反DCT、反整数变换,或概念上类似的反变换过程),以便产生像素域中的残余块。反变换单元78可经配置以执行下文关于图8描述的自适应变换方法。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块之后,视频解码器30通过将来自反变换单元78的残余块与运动补偿单元72产生的对应预测性块求和来形成经解码视频块。求和器80表示可执行此求和运算的组件。如果需要,还可应用去块滤波器以对经解码块进行滤波,以便移除成块假象。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器82中,参考图片存储器82存储参考图片用于后续运动补偿。参考帧存储器82还存储经解码视频以用于稍后在显示装置(例如图1的显示装置32)上呈现。
可缩放视频译码(SVC)
多维可缩放性400的一个实例展示于图4中。在所说明的实施例中,可缩放性以三维形式实现:时间402(或时间),如沿着x轴所示;空间404,如沿着y轴所示;以及质量406,如沿着z轴所示。在时间402(时间维度)中,可通过时间可缩放性(T)支持具有多种值的帧率,例如但不限于7.5Hz、15Hz或30Hz,等。当支持空间可缩放性404(S)时,启用不同分辨率,例如QCIF、CIF及4CIF,等。对于每一特定空间分辨率及帧率,可添加SNR(信噪比,或质量Q)层406以改善图片质量。一旦已按此类可缩放方式编码视频内容,就可使用提取器工具来根据应用要求调适实际递送的内容,其可取决于多种因素或参数,例如客户端及/或传输信道。中图4中展示的实例中,每一立方体408含有具有相同帧率(时间层级)、空间分辨率及SNR层的图片。可通过在任何维度402、404、406上添加那些立方体408(例如,图片)来实现更好表示。当启用两个、三个或甚至更多可缩放性时,支持组合的可缩放性。
具有最低空间层410及质量层412的图片与H.264/AVC兼容。一般来说,在最低时间等级414处的图片形成时间基础层。可用较高时间等级处的图片增强最低时间等级图片。除H.264/AVC兼容层之外,可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。SNR可缩放性还被称作质量可缩放性。每一空间增强层404或SNR增强层406自身可为时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。对于一个空间增强层404或SNR增强层406,其所取决于的较低层还被称作所述特定空间或SNR增强层的基础层。
SVC译码结构500的实例展示于图5中。具有最低空间及质量层的图片(层0502及层1504中的图片,具有QCIF分辨率)与H.264/AVC兼容。其中,具有最低时间等级的那些图片形成时间基础层,如图5的层0502中所示。可用具有较高时间等级(例如,层1504到层4510,等)的图片增强此时间基础层(层0502)。除H.264/AVC兼容层之外,可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。举例来说,增强层可为与层2506具有相同分辨率的CIF表示。在所述实例中,层3508为SNR增强层(CIF,15Hz,512Kbps)。如所述实例中所展示,每一空间或SNR增强层自身可为在时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。
此外,增强层可增强空间空间分辨率及帧率两者。举例来说,层4510提供4CIF增强层,其进一步将帧率自15Hz增加到30Hz。
如图6中所展示,相同时间实例中的经译码切片在位流次序上是连续的,且在SVC的情况下形成一个存取单元600(AU)。那些SVC存取单元600接着遵循解码次序,所述解码次序可不同于显示次序且例如由时间预测关系决定。
变换
在视频译码的一个实施例中,首先使用经重建的在时间上及/或空间上相邻的块中的像素预测图像块。可接着对预测误差(有时称为“残差”)进行变换及量化。举例来说,如果S为大小NxN的残余块,那么可如下使用矩阵乘法导出经变换块K:
K=A*S*B
其中K、A及B也具有大小NxN。A为垂直变换矩阵,且B为水平变换矩阵。在一些实施例中,A与B为彼此的转置(例如,B=A′,其中“′”意指转置)。在其它实施例中,A及B不为彼此的转置。当A与B为彼此的转置时,先前方程式变为:
K=A*S*A′
每一变换(A及B)可包含多种变换中的任一者。在一些实施例中,变换包含离散余弦变换(DCT)、离散正弦变换(DST)、哈达玛(Hadamard)变换、哈尔(Haar)变换等中的一者。
帧内BL模式
在可缩放译码中,存在称为“帧内BL模式”的用于增强层的特定译码模式。在帧内BL模式中,使用基础层中的对应(有时称为“共置”,例如位于相同空间位置处)块的纹理来预测增强层块中的纹理。对应或共置块的一个说明在图7中加以说明。第一块702位于较低等级层,例如基础层704中。第二块706位于基础层704的增强层708中。第二块706(有时称为“当前块”,或当前正译码的块)相对于基础层块702共置。如果增强层708图像具有比基础层704图像大或与基础层704图像不同的大小,那么可对基础层704中的块702进行上取样。可对预测误差(例如,残差)进行变换、量化及熵编码。
变换SVC残差
如上文所提及,可缩放视频译码的残差可归因于层间预测(例如,归因于按帧内BL模式的预测)而具有与非SVC译码相比不同的能量分布特性。SVC残差更像是噪声,且能量可扩散在整个或较大频域上。如上文所提及,不同于非SVC视频译码,通过SVC,有可能HF分量可具有比DC或LF分量多的能量。因此,用于常规非SVC视频译码的传统方法对于可缩放视频译码可能效果不佳。在实施SVC时,变换基底调整可帮助改善压缩效率。
变换矩阵调整
在一个实施例中,自适应地调整用于视频译码的变换矩阵A。H为在调整之后的变换矩阵。函数F用以定义调整过程。
H=F(A)
实例1:
举例来说,调整可包含使整个基底函数翻转(例如,反转所有或一些变换基底的次序)。
实例1.a(垂直翻转,行调换)。A为4x4变换矩阵,如下:
A[4][4]=
{{64,64,64,64},
{83,36,-36,-83},
{64,-64,-64,64},
{36,-83,83,-36}}
每一行是变换基底函数。第一(顶部)行是对应于DC分量的变换基底。后续行是用于较高频率分量(以递增次序,且最末(底部)行对应于最高频率分量)的变换基底。
在此实施例中,F(A)为:
H[3-i][j]=A[i][j];i=0,..3,j=0,..3,
且在调整之后的变换矩阵H变为:
H[4][4]=
{{36,-83,83,-36}
{64,-64,-64,64},
{83,36,-36,-83},
{64,64,64,64}}
实例1.b(水平翻转,基底元素调换):
在此实施例中,F(A)为:
H[i][3-j]=A[i][j];i=0,..3,j=0,..3
且在调整之后的变换矩阵H变为:
H[4][4]=
{{64,64,64,64},
{-83,-36,36,83},
{64,-64,-64,64},
{-36,83,-83,36}}
实例2:在此实施例中,H中的行i在A中为行i1。
H[i][j]=A[i1][j];i=0,..3,j=0,..3
可使用函数G定义i与i1之间的关系:
i1=G(i)。
实例3,在此实施例中,变换调整可仅应用于变换基底的子组。举例来说,对于一些i值,例如i=G(i),这些变换基底在A及H两者中处于相同位置。
图8说明自适应地调整(例如,在量化之前)用以变换残余块的变换矩阵的方法的一个实施例。方法800开始于框802处。在框804处,获得残余块信息。举例来说,可使用上文所描述的技术中的任一者确定残差。在框806处,调整用以编码或解码残余块的变换函数。可根据本文所述的技术中的任一者调整变换函数。举例来说,可通过垂直翻转、水平翻转、调换行、调换基底元素等来调整变换函数。变换还可包含反变换。
在框808处,确定经调整、经变换的残余块。基于经调整变换函数及残余块确定所述经调整、经变换的残余块。举例来说,经调整、经变换的残余块可称为变换块。方法800在框810处结束。
可通过本文所述的译码装置中的任一者实施方法800。举例来说,在一个实施例中,图2的编码器20的变换处理单元52及/或反变换单元60经配置以执行方法500以编码视频数据。在另一实施例中,图3的解码器30的反变换单元78经配置以执行方法800以对经编码视频位流进行反变换。
在另一实施例中,变换基底调整可应用于第一变换(例如,水平变换)、第二变换(例如,垂直变换),或两者。水平变换与垂直变换(在调整之前)可各自为彼此的转置,或不为彼此的转置。在一个实施例中,水平变换及垂直变换为离散正弦变换(DST)及其经转置版本。在另一实施例中,水平变换为离散余弦变换(DCT),且垂直变换可为DST。
在另一实施例中,可基于辅助信息或额外视频信息自适应地应用变换基底调整。举例来说,可例如基于额外视频信息(例如,辅助信息)自适应地确定是否应用变换调整及/或如何应用变换调整(例如,将如何实施F()及/或G())。
辅助信息包含但不限于:CU模式、CU大小、TU大小、帧类型、帧大小、量化参数(QP)、时间层,等。可基于辅助信息自适应地确定变换选择,所述辅助信息例如但不限于:CU大小、TU大小、帧类型、帧大小、QP、时间层、剖析出的残差系数信息(例如,最末非零系数的位置、非零系数的数目、系数的振幅,等)。
举例来说,在一个实施例中,仅对于帧内BL模式启用变换基底调整。在另一实施例中,仅当增强层QP与基础层QP之间的差极接近(例如,所述差小于阈值)时才启用变换基底调整。举例来说,在一个非限制性实施例中,QP差阈值设定为6。如果增强层QP与基础层QP之间的差等于或小于6,那么启用变换基底调整。可使用其它QP差阈值。举例来说,在一个实施例中,QP差阈值在2到10的范围内。在另一实施例中,仅当以上两个条件都被满足时才启用变换基底调整。
在另一实施例中,是否及/或如何启用变换基底调整还可基于对应基础层中的对应块(例如,共置块)中的信息,例如Blk_BL,等。举例来说,是否及/或如何启用变换基底调整可基于像素特性,例如Blk BL的像素特性。像素特性可为例如但不限于纹理的方向、像素的振幅、像素值的均值、像素值的方差、梯度方向/值(例如,Blk_BL的梯度方向/值)等。可替代或除了这些特性中的任何一或多者之外考虑其它特性。举例来说,是否及/或如何启用变换基底调整可取决于在那一位置的基础层处检测到的残差结构、基础层与预测块之间的差,等。
是否或如何执行变换基底调整的选择还可基于译码模式(例如,Blk_BL的译码模式),例如Blk_BL为帧内还是帧间还是跳过模式、帧内预测,等。是否或如何执行变换基底调整的选择还可通过在Blk_BL上测试调整方法(包含开/关决策)及选择在Blk_BL处给出最佳性能(例如,最佳能量压缩特性)的调整方法而导出。
在一个实施例中,函数(例如F()、G()等)或应用于基底函数的调换可取决于在当前帧或先前帧中收集的统计数据。是否及/或如何启用变换基底调整可由编码器在序列参数集(SPS)、图片参数集(PPS)、切片标头或下层处用信号通知,例如针对每一最大译码单元(LCU)、译码单元(CU)、预测单元(PU)或变换单元(TU)。信令可为所应用的调换或相对于先前变换的差。另外,在一些实施例中,待在变换系数译码阶段应用的扫描可取决于基底函数。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同顺序执行、可添加、合并或全部省略(例如,实践所述技术并不需要所有的所描述动作或事件)。此外,在某些实施例中,可同时(例如,通过多线程处理、中断处理或多个处理器)而非顺序地执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储指令或数据结构的形式的期望程序代码并且可由计算机存取的媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包括紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常磁性地复制数据,而光盘使用激光光学地复制数据。上文各者的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行所述指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文所述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内,或并入在组合式编解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地说,如上文所描述,各种单元可以结合合适的软件及/或固件而组合在编码解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些及其它实例属于所附权利要求书的范围内。

Claims (41)

1.一种经配置以译码视频信息的设备,所述设备包括:
存储器单元,其经配置以存储与参考层及对应增强层相关联的视频信息;以及
处理器,其与所述存储器单元通信,所述处理器经配置以:
至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息;
基于与所述视频信息相关联的变换函数确定经调整变换函数;以及
基于所述经调整变换函数及所述残余块信息确定变换块。
2.根据权利要求1所述的设备,其中所述变换函数包括第一变换矩阵及第二变换矩阵,所述第一变换矩阵包括一或多个行,每一行包括一或多个变换基底,所述第二变换矩阵包括一或多个行,每一行包括一或多个变换基底,其中所述处理器进一步经配置以基于所述第一变换矩阵及所述第二变换矩阵中的一或两者确定所述经调整变换函数。
3.根据权利要求2所述的设备,其中所述处理器经配置以通过反转所述第一变换矩阵的至少一个行中的所述变换基底中的至少一些的次序而确定所述经调整变换函数。
4.根据权利要求2所述的设备,其中所述处理器经配置以通过反转所述第一变换矩阵的所述行的所述次序而确定所述经调整变换函数。
5.根据权利要求2所述的设备,其中所述第一变换矩阵、所述第二变换矩阵或两者对应于选自包括离散余弦变换、离散正弦变换、哈达玛变换及哈尔变换的群组的变换。
6.根据权利要求2所述的设备,其中所述第一变换矩阵为所述第二变换矩阵的转置。
7.根据权利要求1所述的设备,其中所述处理器进一步经配置以基于所述视频信息确定所述经调整变换函数。
8.根据权利要求7所述的设备,其中所述视频信息选自包括以下各者中的一或多者的群组:译码单元CU模式、CU大小、变换单元TU大小、帧类型、帧大小、QP、时间层及剖析出的残差系数信息。
9.根据权利要求8所述的设备,其中所述剖析出的残差系数信息选自包括以下各者中的一或多者的群组:最末非零系数的位置、非零系数的数目及一或多个系数的振幅。
10.根据权利要求1所述的设备,其中所述处理器经配置以仅在以下条件下才确定所述经调整变换函数:(a)所述视频信息对应于预定译码模式;(b)所述增强层的QP与所述参考层的QP之间的差小于预定阈值;或(a)及(b)两者。
11.根据权利要求1所述的设备,其中所述处理器进一步经配置以使用所述变换块编码所述视频信息。
12.根据权利要求1所述的设备,其中所述处理器进一步经配置以使用所述变换块解码所述视频信息。
13.根据权利要求1所述的设备,其进一步包括包含所述处理器的装置,其中所述装置选自由以下各者中的一或多者组成的群组:桌上型计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、智能电话、智能板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台或视频流式发射装置。
14.一种解码视频信息的方法,所述方法包括:
存储与参考层及对应增强层相关联的视频信息;
至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息;
基于与所述视频信息相关联的变换函数确定经调整变换函数;
基于所述经调整变换函数及所述残余块信息确定变换块;以及
使用所述变换块解码所述视频信息。
15.根据权利要求14所述的方法,其中所述变换函数包括第一变换矩阵及第二变换矩阵,所述第一变换矩阵包括一或多个行,每一行包括一或多个变换基底,所述第二变换矩阵包括一或多个行,每一行包括一或多个变换基底,且基于所述第一变换矩阵及所述第二变换矩阵中的一或两者确定所述经调整变换函数。
16.根据权利要求15所述的方法,其进一步包括通过反转所述第一变换矩阵的至少一个行中的所述变换基底中的至少一些的次序而确定所述经调整变换函数。
17.根据权利要求15所述的方法,其进一步包括通过反转所述第一变换矩阵的所述行的所述次序而确定所述经调整变换函数。
18.根据权利要求15所述的方法,其中所述第一变换矩阵、所述第二变换矩阵或两者对应于选自包括离散余弦变换、离散正弦变换、哈达玛变换及哈尔变换的群组的变换。
19.根据权利要求15所述的方法,其中所述第一变换矩阵为所述第二变换矩阵的转置。
20.根据权利要求14所述的方法,其中确定所述经调整变换函数是基于所述视频信息。
21.根据权利要求20所述的方法,其中所述视频信息选自包括以下各者中的一或多者的群组:译码单元CU模式、CU大小、变换单元TU大小、帧类型、帧大小、QP、时间层及剖析出的残差系数信息。
22.根据权利要求21所述的方法,其中所述剖析出的残差系数信息选自包括以下各者中的一或多者的群组:最末非零系数的位置、非零系数的数目及一或多个系数的振幅。
23.根据权利要求14所述的方法,其中所述确定所述经调整变换函数是仅在以下条件下才确定:(a)所述视频信息对应于预定译码模式;(b)所述增强层的QP与所述参考层的QP之间的差小于预定阈值;或(a)及(b)两者。
24.一种编码视频信息的方法,所述方法包括:
存储与参考层及对应增强层相关联的视频信息;
至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息;
基于与所述视频信息相关联的变换函数确定经调整变换函数;
基于所述经调整变换函数及所述残余块信息确定变换块;以及
使用所述变换块编码所述视频信息。
25.根据权利要求24所述的方法,其中所述变换函数包括第一变换矩阵及第二变换矩阵,所述第一变换矩阵包括一或多个行,每一行包括一或多个变换基底,所述第二变换矩阵包括一或多个行,每一行包括一或多个变换基底,且基于所述第一变换矩阵及所述第二变换矩阵中的一或两者确定所述经调整变换函数。
26.根据权利要求25所述的方法,其进一步包括通过反转所述第一变换矩阵的至少一个行中的所述变换基底中的至少一些的次序而确定所述经调整变换函数。
27.根据权利要求25所述的方法,其进一步包括通过反转所述第一变换矩阵的所述行的所述次序而确定所述经调整变换函数。
28.根据权利要求25所述的方法,其中所述第一变换矩阵、所述第二变换矩阵或两者对应于选自包括离散余弦变换、离散正弦变换、哈达玛变换及哈尔变换的群组的变换。
29.根据权利要求25所述的方法,其中所述第一变换矩阵为所述第二变换矩阵的转置。
30.根据权利要求24所述的方法,其中确定所述经调整变换函数是基于所述视频信息。
31.根据权利要求30所述的方法,其中所述视频信息选自包括以下各者中的一或多者的群组:译码单元CU模式、CU大小、变换单元TU大小、帧类型、帧大小、QP、时间层及剖析出的残差系数信息。
32.根据权利要求31所述的方法,其中所述剖析出的残差系数信息选自包括以下各者中的一或多者的群组:最末非零系数的位置、非零系数的数目及一或多个系数的振幅。
33.根据权利要求24所述的方法,其中所述确定所述经调整变换函数仅在以下条件下才确定:(a)所述视频信息对应于预定译码模式;(b)所述增强层的QP与所述参考层的QP之间的差小于预定阈值;或(a)及(b)两者。
34.一种用于译码视频信息的设备,所述设备包括:
用于存储与参考层及对应增强层相关联的视频信息的装置;
用于至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息的装置;
用于基于与所述视频信息相关联的变换函数确定经调整变换函数的装置;以及
用于基于所述经调整变换函数及所述残余块信息确定变换块的装置。
35.根据权利要求34所述的设备,其中用于确定所述经调整变换函数的所述装置经配置以基于所述视频信息确定所述经调整变换函数。
36.根据权利要求35所述的设备,其中所述视频信息选自包括以下各者中的一或多者的群组:译码单元CU模式、CU大小、变换单元TU大小、帧类型、帧大小、QP、时间层及剖析出的残差系数信息。
37.根据权利要求36所述的设备,其中所述剖析出的残差系数信息选自包括以下各者中的一或多者的群组:最末非零系数的位置、非零系数的数目及一或多个系数的振幅。
38.一种具有计算机可执行指令的计算机可读媒体,所述计算机可执行指令在由计算装置执行时致使所述计算装置:
存储与参考层及对应增强层相关联的视频信息;
至少部分基于与所述参考层及所述增强层相关联的视频信息获得残余块信息;
基于与所述视频信息相关联的变换函数确定经调整变换函数;以及
基于所述经调整变换函数及所述残余块信息确定变换块。
39.根据权利要求38所述的计算机可读媒体,其中所述计算机可执行指令致使所述计算装置基于所述视频信息确定所述经调整变换函数。
40.根据权利要求39所述的计算机可读媒体,其中所述视频信息选自包括以下各者中中的一或多者的群组:译码单元CU模式、CU大小、变换单元TU大小、帧类型、帧大小、QP、时间层及剖析出的残差系数信息。
41.根据权利要求40所述的计算机可读媒体,其中所述剖析出的残差系数信息选自包括以下各者中的一或多者的群组:最末非零系数的位置、非零系数的数目及一或多个系数的振幅。
CN201380045941.0A 2012-09-04 2013-08-30 可缩放视频译码中的变换基底调整 Expired - Fee Related CN104604224B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261696713P 2012-09-04 2012-09-04
US61/696,713 2012-09-04
US14/014,016 US10194158B2 (en) 2012-09-04 2013-08-29 Transform basis adjustment in scalable video coding
US14/014,016 2013-08-29
PCT/US2013/057618 WO2014039398A1 (en) 2012-09-04 2013-08-30 Transform basis adjustment in scalable video coding

Publications (2)

Publication Number Publication Date
CN104604224A true CN104604224A (zh) 2015-05-06
CN104604224B CN104604224B (zh) 2019-05-10

Family

ID=50187592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380045941.0A Expired - Fee Related CN104604224B (zh) 2012-09-04 2013-08-30 可缩放视频译码中的变换基底调整

Country Status (6)

Country Link
US (1) US10194158B2 (zh)
EP (1) EP2893703B1 (zh)
JP (1) JP6293756B2 (zh)
KR (1) KR20150052247A (zh)
CN (1) CN104604224B (zh)
WO (1) WO2014039398A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788291A (zh) * 2019-02-12 2019-05-21 北京大学 一种数字视频变换方法、装置、设备及存储介质
CN111260022A (zh) * 2019-11-22 2020-06-09 中国电子科技集团公司第五十二研究所 一种卷积神经网络全int8定点量化的方法
CN111950716A (zh) * 2020-08-25 2020-11-17 云知声智能科技股份有限公司 一种优化int8的量化方法及系统
CN111971970A (zh) * 2018-03-30 2020-11-20 高通股份有限公司 用于视频编译码的多变换调整阶段
CN116156170A (zh) * 2023-04-24 2023-05-23 北京中星微人工智能芯片技术有限公司 数据流的发送方法、装置、电子设备和存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10531123B2 (en) * 2015-03-06 2020-01-07 Korea Advanced Institute Of Science And Technology Image encoding and decoding method based on low-complexity transformation, and apparatus using same
EP4106333A1 (en) 2016-02-12 2022-12-21 Samsung Electronics Co., Ltd. Image encoding method and apparatus, and image decoding method and apparatus
CN108702504A (zh) 2016-02-17 2018-10-23 日本放送协会 编码装置、解码装置以及程序
CN106168889B (zh) * 2016-06-21 2020-11-03 维沃移动通信有限公司 一种片源编码方法以及电子设备
KR20200092315A (ko) * 2017-11-24 2020-08-03 소니 주식회사 화상 처리 장치 및 방법
CN112166613B (zh) * 2018-04-01 2022-10-21 Lg电子株式会社 使用缩减二次变换来处理视频信号的方法和装置
MX2021003205A (es) * 2018-09-20 2021-05-27 Nokia Technologies Oy Un metodo y un aparato para codificacion y decodificacion de material de imagen/video digital.
US11871052B1 (en) * 2018-09-27 2024-01-09 Apple Inc. Multi-band rate control
WO2020092137A1 (en) 2018-11-01 2020-05-07 Interdigital Vc Holdings, Inc. Video encoding and decoding using multiple transform selection
US10904563B2 (en) * 2019-01-02 2021-01-26 Tencent America LLC Method and apparatus for improved zero out transform
CN110392265B (zh) * 2019-08-27 2022-03-25 广州虎牙科技有限公司 帧间运动估计方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120773A (zh) * 1994-07-13 1996-04-17 松下电器产业株式会社 数据编码装置及数字码解码装置
CN101466040A (zh) * 2009-01-09 2009-06-24 北京大学 一种用于视频编码模式决策的码率估计方法
CN101601300A (zh) * 2006-12-14 2009-12-09 汤姆逊许可公司 用自适应增强层预测对位深度可分级视频数据进行编码和/或解码的方法和设备
CN101690239A (zh) * 2006-04-04 2010-03-31 高通股份有限公司 具有帧信息表的帧级多媒体解码
CN101690235A (zh) * 2007-06-29 2010-03-31 夏普株式会社 图像编码装置、图像编码方法、图像译码装置、图像译码方法、程序以及记录介质
WO2012096194A1 (ja) * 2011-01-14 2012-07-19 パナソニック株式会社 画像符号化方法、画像符号化装置、画像復号化方法、画像復号化装置および画像符号化復号化装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2781535B2 (ja) 1994-07-13 1998-07-30 松下電器産業株式会社 デジタル符号化装置及びデジタル符号復号化装置
US6134270A (en) * 1997-06-13 2000-10-17 Sun Microsystems, Inc. Scaled forward and inverse discrete cosine transform and video compression/decompression systems employing the same
US7620252B2 (en) * 2005-04-22 2009-11-17 Hewlett-Packard Development Company, L.P. System and method for compressing an image
US8619860B2 (en) 2005-05-03 2013-12-31 Qualcomm Incorporated System and method for scalable encoding and decoding of multimedia data using multiple layers
CN102547277B (zh) 2007-01-18 2014-12-03 弗劳恩霍夫应用研究促进协会 产生质量可缩放视频数据流的设备及其方法
US8175158B2 (en) 2008-01-04 2012-05-08 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction parameter determination
KR101712097B1 (ko) * 2009-08-19 2017-03-03 삼성전자 주식회사 유연한 직교 변환에 기초한 영상 부호화, 복호화 방법 및 장치
CN106101717B (zh) * 2010-01-12 2019-07-26 Lg电子株式会社 视频信号的处理方法和设备
US9350997B2 (en) * 2010-09-28 2016-05-24 Samsung Electronics Co., Ltd. Video encoding method and device and decoding method and device
US9300943B2 (en) * 2011-01-12 2016-03-29 Panasonic Intellectual Property Corporation Of America Image coding method, image decoding method, image coding apparatus, and image decoding apparatus
CN106851319B (zh) 2011-06-10 2020-06-19 寰发股份有限公司 推导方法及推导装置
AU2012200319B2 (en) 2012-01-19 2015-11-26 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding the significance map for residual coefficients of a transform unit
US10257520B2 (en) * 2012-06-26 2019-04-09 Velos Media, Llc Modified coding for transform skipping

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120773A (zh) * 1994-07-13 1996-04-17 松下电器产业株式会社 数据编码装置及数字码解码装置
CN101690239A (zh) * 2006-04-04 2010-03-31 高通股份有限公司 具有帧信息表的帧级多媒体解码
CN101601300A (zh) * 2006-12-14 2009-12-09 汤姆逊许可公司 用自适应增强层预测对位深度可分级视频数据进行编码和/或解码的方法和设备
CN101690235A (zh) * 2007-06-29 2010-03-31 夏普株式会社 图像编码装置、图像编码方法、图像译码装置、图像译码方法、程序以及记录介质
CN101466040A (zh) * 2009-01-09 2009-06-24 北京大学 一种用于视频编码模式决策的码率估计方法
WO2012096194A1 (ja) * 2011-01-14 2012-07-19 パナソニック株式会社 画像符号化方法、画像符号化装置、画像復号化方法、画像復号化装置および画像符号化復号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AURELIE MARTIN,ETAL: "Phase refinement for image prediction based on sparse representation", 《VISUAL INFORMATION PROCESSING AND COMMUNICATION》 *
GAGAN RATH ET AL: "Improved prediction and transform for spatial scalability", 《JOINT VIDEO TEAM (JVT) OF ISO/IEC MPEG & ITU-T VCEG》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111971970A (zh) * 2018-03-30 2020-11-20 高通股份有限公司 用于视频编译码的多变换调整阶段
CN111971970B (zh) * 2018-03-30 2022-08-19 高通股份有限公司 用于视频编译码的多变换调整阶段
CN109788291A (zh) * 2019-02-12 2019-05-21 北京大学 一种数字视频变换方法、装置、设备及存储介质
CN111260022A (zh) * 2019-11-22 2020-06-09 中国电子科技集团公司第五十二研究所 一种卷积神经网络全int8定点量化的方法
CN111260022B (zh) * 2019-11-22 2023-09-05 中国电子科技集团公司第五十二研究所 一种卷积神经网络全int8定点量化的方法
CN111950716A (zh) * 2020-08-25 2020-11-17 云知声智能科技股份有限公司 一种优化int8的量化方法及系统
CN116156170A (zh) * 2023-04-24 2023-05-23 北京中星微人工智能芯片技术有限公司 数据流的发送方法、装置、电子设备和存储介质
CN116156170B (zh) * 2023-04-24 2024-04-16 北京中星微人工智能芯片技术有限公司 数据流的发送方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN104604224B (zh) 2019-05-10
EP2893703B1 (en) 2019-05-15
EP2893703A1 (en) 2015-07-15
WO2014039398A1 (en) 2014-03-13
JP2015530830A (ja) 2015-10-15
JP6293756B2 (ja) 2018-03-14
US20140064361A1 (en) 2014-03-06
KR20150052247A (ko) 2015-05-13
US10194158B2 (en) 2019-01-29

Similar Documents

Publication Publication Date Title
TWI766844B (zh) 針對視訊寫碼使用與位置相關之預測組合之改良視訊幀內預測
CN104604224A (zh) 可缩放视频译码中的变换基底调整
CN103190147B (zh) 用于视频译码的语法元素的联合译码方法及设备
CN103181169B (zh) 使用联合上下文模型对系数进行熵译码
CN104737537A (zh) 用于可缩放视频译码的加权预测模式
CN104584550A (zh) 用于可缩放视频译码的帧内预测改善
CN104412591A (zh) 用于差域帧内预测的帧内模式扩展
CN105284113A (zh) 分量间滤波
CN104429072B (zh) 自适应差域空间和时间参考重构及平滑
CN104620576A (zh) 可缩放视频译码中的替代变换
CN105393536A (zh) 使用位移向量从预测性块的帧内预测
CN104937936A (zh) 用于帧内预测的模式决策简化
CN104685875A (zh) 用于视频译码中的4:2:2样本格式的帧内译码
CN105191310A (zh) 用于视频译码的并行处理
CN104303501A (zh) 用于视频译码的量化矩阵和解块滤波器
CN104704833A (zh) 多视图或3维视频译码中的高级视图间残差预测
CN105474645A (zh) 当执行帧内块复制时确定区
CN103563378A (zh) 存储器高效的上下文建模
CN104823449A (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN105075258A (zh) 针对具有不同纵横比的空间可缩放性的层间参考图片建构
CN104221378A (zh) 在视频译码中用于量化矩阵的均匀粒度
CN105409219A (zh) 高效率视频译码扩展中的目标输出层的选择
CN104718752A (zh) 在可缩放视频译码中减少取样相位信息的发信
CN104521237A (zh) 用于可缩放视频译码及3d视频译码的多假设运动补偿
CN103959785A (zh) 在视频译码中用于色度分量的变换单位分割

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190510

Termination date: 20210830