CN111295883A

CN111295883A - 视频译码中的增强参考图片管理

Info

Publication number: CN111295883A
Application number: CN201880070868.5A
Authority: CN
Inventors: 王业奎; 钱威俊; 陈义文; 马尔塔·卡切维奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2017-11-07
Filing date: 2018-11-07
Publication date: 2020-06-16
Anticipated expiration: 2038-11-07
Also published as: CN111295883B; WO2019094464A1; TW201924353A; US20190141320A1; EP3707903A1

Abstract

本发明提供一种经配置以译码视频数据的译码装置，所述译码装置包含：缓冲存储器，其经配置以存储所述视频数据的图片；及至少一个处理器，其实施于电路中，所述至少一个处理器与所述缓冲存储器通信以使得所述处理器经配置以：译码所述视频数据的单个经译码视频序列CVS的至少两个图片，其中所述至少两个图片中的每个图片与一致图片次序计数POC值相关联，且其中所述至少两个图片彼此不同；使相应数据与所述单个CVS的所述至少两个图片中的每一者相关联；以及基于与所述至少两个图片相关联的所述一致POC值及与所述至少一个图片相关联的所述相应数据，识别包含于参考图片集中的所述至少两个图片当中的至少一个图片。

Description

视频译码中的增强参考图片管理

本申请案请求2018年11月6日申请的美国专利申请案第16/182,364号及2017年11月7日申请的美国临时申请案第62/582,585号的权益，所述申请案的全部内容特此以引用的方式并入。

技术领域

本公开涉及视频编码及/或视频解码。

背景技术

数字视频能力可并入至广泛范围的装置中，所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电传会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术，例如由ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264或ISO/IEC MPEG-4 AVC定义的标准中所描述的那些视频译码技术，所述视频译码技术包含分别已知为可调式视频译码(SVC)及多视图视频译码(MVC)的其可调式视频译码及多视图视频译码扩展，及也被称作ITU-T H.265及ISO/IEC 23008-2的高效视频译码(HEVC)，包含其可调式译码扩展(即，可调式高效视频译码，SHVC)、多视图扩展(即，多视图高效视频译码，MV-HEVC)、保真性范围扩展、3D扩展(即，3D-HEVC)及屏幕内容译码扩展。视频装置可通过实施此类视频译码技术来更有效地传输、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码，视频图块(例如，视频图片或视频图片的一部分)可分割成视频块，视频块还可被称作译码树单元(CTU)、译码单元(CU)及/或译码节点。图片的经帧内译码(I)图块中的视频块是使用关于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)图块中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作图框，且参考图片可被称作参考图框。

空间或时间预测产生用于待译码的块的预测性块。残余数据表示待译码的原始块及预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差的残余数据编码。经帧内译码块是根据帧内译码模式及残余数据编码。为了进一步压缩，可将残余数据自像素域变换至变换域，从而产生残余变换系数，其随后可经量化。可扫描最初配置成二维阵列的经量化的变换系数以便产生变换系数的一维向量，且熵译码可适用于实现甚至更多压缩。

发明内容

一般来说，本公开描述通过例如使得具有相同(例如，一致)图片次序计数(POC)值的多个不同图片能够同时(例如，同步)存在(例如，存储)于经解码图片缓冲器(DPB)中且用于帧间预测及另外启用移动向量及/或样本值的基于POC的缩放来增强参考图片管理的技术及/或机制。

在一个实例中，一种译码视频数据的方法包含：由包含实施于处理电路中的处理器的译码装置译码视频数据的单个经译码视频序列(CVS)的至少两个图片，其中至少两个图片中的每个图片与一致图片次序计数(POC)值相关联，所述至少两个图片彼此不同；由译码装置使相应数据与单个CVS的至少两个图片中的每一者相关联；以及基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据，由译码装置识别包含于参考图片集中的至少两个图片当中的至少一个图片。

在另一实例中，一种用于译码视频数据的译码装置包含：缓冲存储器，经配置以存储视频数据的图片；及至少一个处理器，其实施于电路中，所述至少一个处理器与缓冲存储器通信且经配置以：译码视频数据的单个经译码视频序列(CVS)的至少两个图片，其中至少两个图片中的每个图片与一致图片次序计数(POC)值相关联，所述至少两个图片彼此不同；使相应数据与单个CVS的至少两个图片中的每一者相关联；以及基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据，识别包含于参考图片集中的至少两个图片当中的至少一个图片。

在又一实例中，一种经配置以译码视频数据的设备包含：用于存储视频数据的图片的装置；用于译码视频数据的单个经译码视频序列(CVS)的至少两个图片的装置，其中至少两个图片中的每个图片与一致图片次序计数(POC)值相关联，所述至少两个图片彼此不同；用于使相应数据与单个CVS的至少两个图片中的每一者相关联的装置；及用于基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据，识别包含于参考图片集中的至少两个图片当中的至少一个图片的装置。

在又一实例中，一种计算机可读存储媒体存储指令，所述指令在经执行时使得经配置以译码视频数据的至少一个处理器译码视频数据的单个经译码视频序列(CVS)的至少两个图片，其中至少两个图片中的每个图片与一致图片次序计数(POC)值相关联，所述至少两个图片彼此不同；使相应数据与单个CVS的至少两个图片中的每一者相关联；以及基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据识别包含于参考图片集中的至少两个图片当中的至少一个图片。

在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目标及优点将自所述描述及图式以及权利要求书而显而易见。

附图说明

图1为说明经配置以实施本公开的技术的实例视频编码及解码系统的框图。

图2为说明可实施本公开中所描述的技术的实例视频编码器的框图。

图3为说明可实施本公开中所描述的技术的实例视频解码器的框图。

图4为说明根据本公开的增强参考图片管理机制操作的视频编码器的实例操作的流程图。

图5为说明根据本公开的增强参考图片管理机制操作的视频解码器的实例操作的流程图。

具体实施方式

本公开涉及视频信号的译码的领域。更具体地说，本公开的技术包含增强参考图片管理的若干例示性机制。举例来说，本公开包含使得具有相同(例如，一致)图片次序计数(POC)值的多个不同图片能够同时(例如，同步)存在(例如，存储)于经译码图片缓冲器(DPB)中的技术及/或机制。此外，根据本公开，同步存在于DPB中的这些多个图片可用于帧间预测以及相关联的移动向量及/或样本值的基于POC的缩放。

本公开的技术可与现有视频编解码器中的任一者，例如高效视频译码(HEVC)一起使用，或为任何未来视频译码标准中的有效译码工具，例如H.266/通用视频译码(VVC)。

可参考视频译码器描述本公开中的各种技术，所述视频解码器意图为可指代视频编码器或视频解码器的一般术语。除非另外明确地陈述，否则不应假定关于视频编码器或视频解码器描述的技术不可由视频编码器或视频解码器中的另一者执行。举例来说，在许多情况下，视频解码器执行与视频编码器相同或有时互逆的译码技术以便译码经编码视频数据。在许多情况下，视频编码器还包含视频译码回路，且因此视频编码器执行作为编码视频数据的部分的视频解码。因此，除非另外陈述，否则本公开中关于视频解码器描述的技术还可由视频编码器执行，且反之亦然。

本公开还可使用例如当前层、当前块、当前图片、当前图块等术语。在本公开的上下文中，术语当前意图识别当前经译码(例如，编码或解码)的层、块、图片、图块等，其与例如先前经译码层、块、图片及图块或尚待译码的块、图片及图块相反。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称作ISO/IEC MPEG-4 AVC)，包含其被称作SVC的可调式视频译码扩展及其被称作MVC的多视图视频译码扩展。

另外，存在由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的关于视频译码的联合合作小组(JCT-VC)研发的也称作ITU-T H.265的新发展的视频译码标准，即高效视频译码(HEVC)。HEVC的最新草案可自http://phenix.int-evry.fr/jct/doc_ end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得。

包含混合式视频译码标准的视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称作ISO/IEC MPEG-4 AVC)，包含其的可调式视频译码(SVC)及多视图视频译码(MVC)扩展。新的视频译码标准的设计(即HEVC)已由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的关于视频译码的联合合作小组(JCT-VC)定案。布罗斯(Bross)等人的被称作HEVC工作草案10(WD10)的HEVC草案规范“高效视频译码(HEVC)文本规范草案10(针对FDIS&最后公告)(High efficiency video coding(HEVC)textspecification draft 10(for FDIS&Last Call))”,(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的关于视频译码的联合合作小组(JCT-VC)，第12次会议：瑞士日内瓦(Geneva,CH)，2013年1月14日至23日，JCTVC-L1003v34)可自http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得。定案的HEVC标准被称作HEVC版本1。

王(Wang)等人的瑕疵报告“高效视频译码(HEVC)瑕疵报告(High efficiencyvideo coding(HEVC)Defect Report)”(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的关于视频译码的联合合作小组(JCT-VC)，第14次会议：奥地利维也纳(Vienna,AT)，2013年7月25日至8月2日，JCTVC-N1003v1)可自http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip获得。经定案的HEVC标准文献在2013年4月经公布为ITU-T H.265，系列H：视听及多媒体系统，移动视频的视听服务-译码的信息基础设施、高效视频译码，国际电信联盟(ITU)的电信标准化部门且在2014年10月公布另一版本。

图1为说明可执行符合本公开的技术的增强参考图片管理的技术的实例视频编码及解码系统10的框图。本公开的技术大体上是针对译码(编码及/或解码)视频数据。一般来说，视频数据包含用于处理视频的任何数据。因此，视频数据可包含原始未经译码的视频、经编码视频、经解码(例如经重新建构)视频及视频元数据，例如传信的数据。

如图1中所展示，系统10包含源装置12，其提供稍后待由目的地装置14解码的经编码视频数据。特定地说，源装置12经由计算机可读媒体16将视频数据提供至目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者，包含台式计算机、笔记本(即，膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”平板计算机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下，源装置12及目的地装置14可经装备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据自源装置12移动至目的地装置14的任何类型的媒体或装置。在一个实例中，计算机可读媒体16可包括使得源装置12能够实时将经编码视频数据直接传输至目的地装置14的通信媒体。可根据(例如无线通信协议)通信标准调变经编码视频数据，且将经编码视频数据传输至目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个实体传输线。通信媒体可形成基于包的网络(例如，局域网络、广域网或例如因特网的全局网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进自源装置12至目的地装置14的通信的任何其它设备。

在一些实例中，可自输出接口22将经编码数据输出至存储装置。类似地，经编码数据可由输入接口自存储装置存取。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性内存或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中，存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载自存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据传输至目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由任何标准数据连接(包含因特网连接)而存取经编码视频数据。此可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如，无线局域网络连接)、有线连接(例如，DSL、有线电视调制解调器等)或两者的组合。自存储装置的经编码视频数据的传输可为串流传输、下载传输或其组合。

本公开的技术不必限于无线应用或设定。所述技术可适用于支持多种多媒体应用中的任一者的视频译码，例如空中电视广播、有线电视传输、卫星电视传输、因特网串流视频传输(例如，经由HTTP动态自适应串流(DASH))、经编码至数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的译码或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频传输从而支持例如视频串流、视频播放、视频广播及/或视频电话的应用。

在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本公开，源装置12的视频编码器20可经配置以应用本公开中所描述的增强参考图片管理的技术。在其它实例中，源装置及目的地装置可包含其它组件或配置。举例来说，源装置12可自外部视频源18(例如，外部相机)接收视频数据。类似地，目的地装置14可与外部显示装置介接，而非包含整合显示装置。

图1的所说明系统10仅为一个实例。用于对存储于本公开中所描述的解码器图片缓冲器(DPB)内的参考图片进行增强参考图片管理的技术可由任何数字视频编码及/或解码装置执行。尽管本公开的技术一般由视频编码装置执行，但所述技术也可由视频编码器/解码器(通常被称作“CODEC”)执行。此外，本公开的技术还可由视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据以供传输至目的地装置14的此类译码装置的实例。在一些实例中，装置12、14可以大体上对称的方式操作，使得装置12、14中的每一者包含视频编码及解码组件。因此，系统10可支持视频装置12、14之间的单向或双向视频传输，以用于例如视频串流、视频播放、视频广播或视频电话。

源装置12的视频源18可包含视频俘获装置，例如视频相机、含有先前俘获的视频的视频存盘及/或用以自视频内容提供商接收视频的视频馈入接口。作为另一替代，视频源18可产生基于计算机图形的数据作为源视频，或实况视频、存盘视频及计算机产生的视频的组合。在一些情况下，如果视频源18为视频相机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而，如上文所提及，本公开所描述的技术一般可适用于视频译码，且可适用于无线及/或有线应用。在每一情况下，所俘获、经预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出至计算机可读媒体16上。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络传输，或存储媒体(即，非暂时性存储媒体)，例如硬盘、闪存驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未展示)可自源装置12接收经编码视频数据，且例如经由网络传输将经编码视频数据提供至目的地装置14。类似地，例如光盘冲压设施的媒体生产设施的计算装置可自源装置12接收经编码视频数据且生产含有经编码视频数据的光盘。因此，在各种实例中，计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28自计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码单元21的视频编码器20定义的语法信息，其还由视频解码单元29的视频解码器30使用，所述语法信息包含描述块及其它经译码单元(例如，图片群组(GOP))的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20及视频解码器30可根据视频译码标准操作，例如高效视频译码(HEVC)标准，也称作ITU-T H.265或其扩展，例如多视图及/或可调式视频译码扩展。另外或替代地，视频编码器20及视频解码器30可根据其它专属或行业实施及/或标准操作，例如联合勘探测试模型(JEM)及/或通用视频译码(VVC)。替代地，视频编码器20及视频解码器30可根据其它专属或行业标准(例如ITU-T H.264标准，替代地被称作MPEG-4，第10部分，进阶视频译码(AVC))或此类标准的扩展操作。然而，本公开的技术不限于任何特定译码标准、实施及/或方案。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及译码器整合，且可包含适当MUX-DEMUX单元或其它硬件及软件，以处置共同数据串流或单独数据串流中的音频及视频两者的编码。如果适用，则MUX-DEMUX单元可遵照ITU H.223多任务器协议或例如用户数据报协议(UDP)的其它协议。

视频编码器20及视频解码器30各自可实施为经配置用于编码器及/或解码器操作/功能的多种合适的处理电路中的任一者。此类编码器及/或解码器经配置处理电路的实例包含(但不限于)一或多个微处理器、数字信号处理器(DSP)、特殊应用集成电路(ASIC)、场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分实施于软件中时，装置可将软件的指令存储于合适的非暂时性计算机可读媒体中，且使用一或多个处理器(例如，处理电路)执行硬件中的指令以执行本公开的技术。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中，编码器或解码器中的任一者可经整合为相应装置中的组合式编码器/解码器(CODEC)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置(例如蜂窝式电话)。

一般来说，根据例如ITU-T H.265，视频图片可划分成可包含明度及色度样本的一序列译码树单元(CTU)(或最大译码单元(LCU))。替代地，CTU可包含单色数据(即，仅明度样本)。位流内的语法数据可定义CTU的大小，CTU就像素的数目而言为最大译码单元。图块包含按译码次序的数个连续CTU。视频图片可分割成一或多个图块。每一CTU可根据四分树分裂成译码单元(CU)。一般来说，四分树数据结构每CU包含一个节点，其中根节点对应于CTU。如果将CU分裂成四个子CU，则对应于所述CU的节点包含四个叶节点，所述四个叶节点中的每一者对应于所述子CU中的一者。

所述四分树数据结构中的每一节点可提供针对对应CU的语法数据。举例来说，所述四分树中的节点可包含分裂旗标，从而指示是否将对应于所述节点的CU分裂成子CU。针对CU的语法元素可经递回地定义，且可取决于所述CU是否分裂成子CU。如果CU未进一步分裂，则其被称作叶CU。在本公开中，即使不存在原始叶CU的显式分裂，但叶CU的四个子CU也将被称作叶CU。举例来说，如果16×16大小的CU未进一步分裂，则尽管所述16×16CU从未分裂，但四个8×8子CU也将被称作叶CU。

除了CU不具有大小区别之外，CU具有与H.264标准的宏块类似的用途。举例来说，CTU可分裂成四个子节点(也被称作子CU)，且每一子节点转而可为父节点且可分裂成另外四个子节点。被称作四分树的叶节点的最终的未分裂子节点包括译码节点，所述译码节点也被称作叶CU。与经译码位流相关联的语法数据可定义可分裂CTU的最大次数(其被称作最大CU深度)，且还可定义译码节点的最小大小。因此，位流还可定义最小译码单元(SCU)。本公开使用术语“块”指代HEVC的上下文中的CU、预测单元(PU)或变换单元(TU)中的任一者或其它标准(例如，H.264/AVC中的宏块及其子块)的上下文中的类似的数据结构。

CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小，且大体上为正方形形状。CU的大小可在自8×8像素达至最大大小为例如64×64像素或或大于64×64像素的CTU的大小的范围内。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU经跳过或直接模式编码、帧内预测模式编码抑或帧间预测模式编码之间不同。PU可被分割成非正方形形状。与CU相关联的语法数据还可描述(例如)根据四分树将CU分割成一或多个TU。TU可为正方形或非正方形(例如，矩形)形状。

HEVC标准允许根据TU进行变换，所述变换对于不同CU可为不同的。TU通常基于针对经分割CTU定义的给定CU内的PU(或CU的分区)的大小而设定大小，尽管可能并非总是此情况。TU通常大小相同或小于PU(或CU的分割区，例如在帧内预测的情况下)。在一些实例中，可使用被称作“残余四分树”(RQT)的四分树结构而将对应于CU的残余样本再分为较小单元。可将RQT的叶节点称作变换单元(TU)。与TU相关联的像素差值可经变换以产生可经量化的变换系数。

叶CU在使用帧间预测来预测时可包含一或多个预测单元(PU)。一般来说，PU表示对应于所述对应CU的全部或一部分的空间区域，且可包含用于针对PU撷取及/或产生参考样本的数据。此外，PU包含与预测相关的数据。当CU经帧间模式编码时，CU的一或多个PU可包含定义例如一或多个运动向量的运动信息的数据，或PU可经跳过模式译码。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如，四分之一像素精确度或八分之一像素精确度)、运动向量所指向的参考图片、及/或运动向量的参考图片列表(例如，列表0或列表1)。

叶CU还可经帧内模式预测。一般来说，帧内预测涉及使用帧内模式来预测叶CU(或其分割区)。视频译码器可选择至叶CU的一组相邻的先前译码像素以预测叶CU(或其分割区)。

叶CU还可包含一或多个变换单元(TU)。如上文所论述，可使用RQT(也被称作TU四分树结构)来指定变换单元。举例来说，分裂旗标可指示叶CU是否分裂成四个变换单元。接着，可将每一TU进一步分裂为其它子TU。当TU未进一步分裂时，可将其称作叶TU。一般来说，对于帧内译码而言，属于叶CU的所有叶TU共享同一帧内预测模式。即，一般应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于所述TU的部分与原始块之间的差。TU不必受限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，CU的分割区或CU自身可与CU的对应叶TU并置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

此外，叶CU的TU还可与相应四分树数据结构(被称作残余四分树(RQT))相关联。即，叶CU可包含指示所述叶CU如何被分割成TU的四分树。TU四分树的根节点大体对应于叶CU，而CU四分树的根节点大体对应于CTU(或LCU)。将RQT的未分裂的TU称作叶TU。一般来说，除非另有指示，否则本公开分别使用术语CU及TU来指叶CU及叶TU。

视频序列通常包含以随机存取点(RAP)图片开始的一系列视频图框或图片。视频序列可包含序列参数集(SPS)中的语法数据，所述序列参数集(SPS)包含视频序列的特性。图片的每一图块可包含描述相应图块的编码模式的图块语法数据。视频编码器20通常对个别视频图块内的视频块进行操作，以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且可根据指定译码标准而大小不同。

作为一实例，可针对各种大小的PU执行预测。假定特定CU的大小为2N×2N，则可对2N×2N或N×N的PU大小执行帧内预测，且对2N×2N、2N×N、N×2N或N×N的对称PU大小执行帧间预测。还可针对2N×nU、2N×nD、nL×2N及nR×2N的PU大小执行帧间预测的不对称分割。在不对称分割中，CU的一个方向未分割，而另一方向分割成25％及75％。CU的对应于25％分割的部分由“n”其后接着“上(Up)”、“下(Down)”、“左(Left)”或“右(Right)”的指示来指示。因此，例如，“2N×nU”是指水平地以顶部的2N×0.5N PU及底部的2N×1.5N PU分割的2N×2N CU。

在本公开中，可互换地使用“N×N”及“N乘N”来指代视频块就竖直及水平尺寸而言的像素尺寸，例如16×16像素或16乘16像素。一般来说，16×16块在竖直方向上将具有16个像素(y＝16)且在水平方向上将具有16个像素(x＝16)。类似地，N×N块通常在竖直方向上具有N个像素且在水平方向上具有N个像素，其中N表示非负整数值。可按行及列来配置块中的像素。此外，块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说，块可包括N×M个像素，其中M未必等于N。

在使用CU的PU的帧内预测性或帧间预测性译码之后，视频编码器20可计算CU的TU的残余数据。PU可包括描述在空间域(也被称作像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在对残余视频数据应用变换(例如，离散余弦变换(DCT)、整数变换、小波变换或在概念上类似的变换)之后变换域中的系数。所述残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含表示CU的残余数据的经量化变换系数的TU。即，视频编码器20可计算残余数据(以残余块的形式)、变换残余块以产生变换系数的块，且接着量化变换系数以形成经量化变换系数。视频编码器20可形成包含经量化变换系数的TU，以及其它语法信息(例如，TU的分裂信息)。

如上文所提及，在任何变换以产生变换系数后，视频编码器20可执行变换系数的量化。量化通常是指量化变换系数以可能地减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或所有相关联的位深度。举例来说，可在量化期间将n位值降值舍位至m位值，其中n大于m。

在量化之后，视频编码器20可扫描变换系数，从而自包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列前部，及将较低能量(且因此较高频率)系数置于阵列后部。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可经熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码方法来熵编码一维向量。视频编码器20还可熵编码与在译码视频数据时供视频解码器30使用的经编码视频数据相关联的语法元素(例如，经传信以识别用于实现本公开的增强参考图片管理的帧间预测参考的图片的相应数据的各种实例)。

为了执行CABAC，视频编码器20可将上下文模型内的上下文指派至待传输的符号。所述上下文可能涉及(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可选择用于待传输的符号的可变长度码。可将VLC中的码字建构成使得相对较短码对应于更有可能的符号，而较长码对应于较不可能的符号。以此方式，相对于(例如)针对待传输的每一符号使用相等长度码字，使用VLC可实现位节省。机率确定可基于经指派至符号的上下文而进行。

一般来说，视频解码器30执行尽管与由视频编码器20执行的过程互逆但与其大体上类似的过程，以解码经编码数据。举例来说，视频解码器30反量化且反变换所接收TU的系数以再生残余块。视频解码器30使用传信预测模式(帧内预测或帧间预测)以形成经预测块。接着视频解码器30(在逐像素基础上)使经预测块与残余块组合以再生原始块。可执行额外处理，例如执行解块过程以减少沿块边界的视觉假影。另外，视频解码器30可以尽管与视频编码器20的CABAC编码过程互逆但与其大体上类似的方式使用CABAC解码语法元素。

视频编码器20可进一步将(例如)图片标头、块标头、图块标头中的语法数据(例如基于块的语法数据、基于图片的语法数据及基于序列的语法数据)或其它语法数据(例如序列参数集(SPS)、图片参数集(PPS)及/或视频参数集(VPS))发送至视频解码器30。

如将在下文更详细地解释，根据本公开的增强参考图片管理方案，视频编码器20及/或视频解码器30可分别包含实施于处理电路中的处理器，以使得处理器经配置以译码(例如，编码或解码)视频数据的单个经译码视频序列(CVS)的至少两个不同且独特的图片，其中所述至少两个图片中的每个图片与一致图片次序计数(POC)值相关联。视频编码器20及/或视频解码器30可进一步经配置以：使相应数据与单个CVS的至少两个图片中的每一者相关联；以及基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据来识别包含于参考图片集中的至少两个图片当中的至少一个图片。

本公开通常可指“传信”某些信息，例如语法元素。术语“传信”通常可指用于解码经编码视频数据的语法元素及/或其它数据的值的传达。即，视频编码器20可在位流中传信语法元素的值。一般来说，传信是指在位流中产生值。如上文所提及，源装置102可大体上实时地将位流传送至目的地装置116，或不实时传送，例如可在将语法元素存储至存储装置112以供目的地装置116稍后撷取时发生。

图2为说明可实施本公开中所描述的增强参考图片管理的技术的视频编码器20的实例的框图。出于解释的目的提供图2，且不应将其视为对如本公开中广泛例示及描述的技术的限制。出于解释的目的，本公开在视频译码标准(例如HEVC视频译码标准)的上下文中描述视频编码器20。然而，本公开的技术不限于这些视频译码标准，且通常可适用于包含未来标准(例如，当前处于开发中的VVC译码标准)的各种编解码器实施的视频编码及解码。

视频编码器20可执行视频图块内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测以减小或去除给定视频图框或图片内的视频中的空间冗余。帧间译码依赖于时间预测以减小或去除视频序列的相邻图框或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。帧间模式(例如，单向预测(P模式)或双向预测(B模式))可指代若干基于时间的译码模式中的任一者。

如图2中所展示，视频编码器20接收待编码视频图帧内的当前视频块。在图2的实例中，视频编码器20包含模式选择单元40、参考图片存储器64(其还可被称作经译码图片缓冲器(DPB))、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40继而包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。针对视频块重新建构，视频编码器20还包含反量化单元58、反变换单元60及求和器62。还可包含解块滤波器(图2中未展示)以对块边界进行滤波，以自经重新建构视频去除块效应假影。如果需要，解块滤波器通常将对求和器62的输出进行滤波。还可使用除解块滤波器以外的额外滤波器(回路中或回路后)。为简洁起见未展示此类滤波器，但如果需要，此类滤波器可对求和器50的输出进行滤波(作为回路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频图框或图块。可将所述图框或图块划分成多个视频块。运动估计单元42及运动补偿单元44执行所接收视频块关于一或多个参考图框(例如，根据本公开的增强参考图片管理技术，在DPB内存储、利用及/或识别的参考图框)中的一或多个块的帧间预测性编码以提供时间预测。帧内预测单元46可替代地执行所接收视频块相对于与待译码块相同的图框或图块中的一或多个相邻块的帧内预测性编码以提供空间预测。视频编码器20可执行多个译码遍次，(例如)以选择用于每一视频数据块的适当译码模式。

此外，分割单元48可基于对先前译码遍次中的先前分割方案的评估而将视频数据的块分割成子块。举例来说，分割单元48可初始地将图框或图块分割成CTU，且基于速率-失真分析(例如，速率-失真优化)来将所述CTU中的每一者分割成子CU。模式选择单元40可进一步产生指示将CTU分割为子CU的四分树数据结构。四分树的叶节点CU可包含一或多个PU及一或多个TU。

模式选择单元40可例如基于误差结果而选择预测模式(帧内或帧间)中的一者，且将所得预测块提供至求和器50以产生残余数据，及提供至求和器62以重新建构经编码块以用作参考图框。模式选择单元40还将例如运动向量、帧内模式指示符、分割区信息及其它此类语法信息(例如，指示与可指示是否输出图片的个别图片相关联的相应数据的语法元素及/或如下文中详细描述的图片的版本识别符)的语法元素提供至熵编码单元56。

运动估计单元42及运动补偿单元44可高度整合，但出于概念目的而单独说明。由运动估计单元42执行的运动估计为产生估计视频块的运动的运动向量的过程。举例来说，运动向量可指示在当前视频图框或图片内的视频块的PU相对于在参考图框(或其它经译码单元)内的预测性块相对于在所述当前图框(或其它经译码单元)内正经译码的当前块的位移。预测性块为就像素差而言被发现紧密地匹配待译码块的块，所述像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中，视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可执行关于全像素位置及分数像素位置的运动搜寻且输出具有分数像素精确度的运动向量。

运动估计单元42通过将PU的位置与参考图片的预测性块的位置比较来计算经帧间译码图块中的视频块的PU的运动向量。在HEVC中，例如，参考图片为短期参考图片或长期参考图片的图片。参考图片含有可用于按解码次序解码后续图片的过程中的帧间预测的样本。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，列表0或列表1中的每一者识别存储于参考图片存储器64中的一或多个参考图片。参考图片列表为用于P或B图块的帧间预测的参考图片的列表。对于P图块的解码过程，存在一个参考图片列表-参考图片列表0。对于B图块的解码过程，存在两个参考图片列表-参考图片列表0及参考图片列表1。参考图片列表0用于P的帧间预测或第一参考图片列表用于B图块的帧间预测。参考图片列表1为用于B图块的帧间预测的第二参考图片列表。运动估计单元42将所计算运动向量发送至熵编码单元56及运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来提取或产生预测性块。又，在一些实例中，运动估计单元42及运动补偿单元44可在功能上整合。在接收当前视频块的PU的运动向量之后，运动补偿单元44可在参考图片列表中的一者中定位运动向量所指向的预测性块的位置。求和器50通过自正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块，从而形成像素差值，如下文所论述。一般来说，运动估计单元42相对于明度分量执行运动估计，且运动补偿单元44将基于所述明度分量计算的运动向量用于色度分量与明度分量两者。模式选择单元40还可产生与在译码视频图块的视频块时供视频解码器30使用的视频块及视频图块相关联的语法元素(例如，与可指示是否输出图片的个别图片相关联的相应数据及/或如下文详细描述的图片的版本识别符)。

如上文所描述，作为由运动估计单元42及运动补偿单元44执行的帧间预测的替代例，帧内预测单元46可对当前块进行帧内预测。特定地说，帧内预测单元46可确定待用以编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可例如在单独的编码遍次期间使用各种帧内预测模式编码当前块，且帧内预测单元46(或在一些实例中为模式选择单元40)可自本公开中所描述的所测试模式及/或帧内预测模式选择适当的帧内预测模式来使用。

举例来说，帧内预测单元46可使用对各种所测试的帧内预测模式的速率-失真分析来计算速率-失真值，且在所测试的模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析大体上确定经编码块与原始、未经编码块(其经编码以产生经编码块)之间的失真(或误差)量，以及用以产生经编码块的比特率(即，位的数目)。帧内预测单元46可根据各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最佳速率-失真值。

在选择块的帧内预测模式之后，帧内预测单元46可将指示用于块的所选择帧内预测模式的信息提供至熵编码单元56。熵编码单元56可编码指示所选择帧内预测模式的信息。视频编码器20可在所传输的位流中包含以下各者：配置数据，其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称作码字映射表)；各种块的编码上下文的定义；及待用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示。

视频编码器20通过自经译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将变换(例如离散余弦变换(DCT)或概念上类似的变换)应用于残余块，从而产生包括变换系数值的视频块。可使用小波变换、整数变换、子频带变换、离散正弦变换(DST)或其它类型的变换代替DCT。在任何情况下，变换处理单元52将变换应用于残余块，从而产生变换系数的块。变换可将残余信息自像素域转换至变换域，例如频域。变换处理单元52可将所得变换系数发送至量化单元54。量化单元54量化变换系数以进一步减小比特率。量化过程可减小与系数中的一些或所有相关联的位深度。可通过调整量化参数来修改量化程度。

在量化之后，熵编码单元56熵译码经量化的变换系数。举例来说，熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可基于相邻块。在由熵编码单元56进行熵译码之后，可将经编码位流传输至另一装置(例如，视频解码器30)，或加以存盘以供稍后传输或撷取。

反量化单元58及反变换单元60分别应用反量化及反变换以重新建构像素域中的残余块。特定地说，求和器62将经重新建构残余块添加至稍早由运动补偿单元44或帧内预测单元46产生的运动补偿预测块，以产生用于存储于参考图片存储器64中的经重新建构的视频块。经重新建构的视频块可由运动估计单元42及运动补偿单元44用作参考块以帧间译码后续视频图框中的块。

视频编码器20表示经配置以编码视频数据的装置的实例，所述装置包含经配置以存储视频数据的图片的缓冲存储器及实施于电路中且与缓冲存储器通信的至少一个处理器，以使得至少一个处理器经配置以编码视频数据的单个经译码视频序列(CVS)的至少两个不同且独特的图片，其中所述至少两个图片中的每个图片与一致图片次序计数(POC)值相关联。视频编码器20的至少一个处理器经进一步配置以使相应数据与单个CVS的至少两个图片中的每一者相关联，且基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据识别包含于用于执行帧间预测的参考图片集中的至少两个图片当中的至少一个图片。

图3为说明可实施本公开中所描述的技术的视频解码器30的实例的框图。出于解释的目的提供图3，且其并不限制如本公开中广泛例示及描述的技术。出于解释的目的，本公开描述根据HEVC描述的视频解码器30。然而，本公开的技术可由经配置用于其它视频译码标准及/或实施(例如JEM及VVC)的视频译码装置执行。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、反量化单元76、反变换单元78、参考图片存储器82(例如，DPB)及求和器80。在一些实例中，视频解码器30可执行大体上与关于视频编码器20(图2)所描述的编码遍次互逆的解码遍次。运动补偿单元72可基于自熵解码单元70接收的运动向量产生预测数据，而帧内预测单元74可基于自熵解码单元70接收的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30自视频编码器20接收表示经编码视频图块的视频块及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素(例如，指示与可指示是否输出图片的个别图片相关联的相应数据的语法元素及/或如下文详细描述的图片的版本识别符)。熵解码单元70将运动向量及其它语法元素转递至运动补偿单元72。视频解码器30可接收视频图块层级及/或视频块层级的语法元素。

当视频图块经译码为帧内译码(I)图块时，帧内预测单元74可基于所传信的帧内预测模式及来自当前图框或图片的先前经译码块的数据而产生当前视频图块的视频块的预测数据。当视频图框经译码为帧间译码(即，B或P)图块时，运动补偿单元72基于自熵解码单元70接收的运动向量及其它语法元素产生当前视频图块的视频块的预测性块。预测性块可自参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储于参考图片存储器82中的参考图片使用默认建构技术来建构参考图框列表(列表0及列表1)。运动补偿单元72通过剖析运动向量及其它语法元素来确定用于当前视频图块的视频块的预测信息，且使用所述预测信息以产生经译码当前视频块的预测性块。举例来说，运动补偿单元72使用所接收语法元素中的一些来确定用以译码视频图块的视频块的预测模式(例如，帧内或帧间预测)、帧间预测图块类型(例如，B图块或P图块)、用于图块的参考图片列表中的一或多者的建构信息(例如，用于识别帧间预测的图片的POC值及相应数据)、图块的每一经帧间编码视频块的运动向量、图块的每一经帧间译码视频块的帧间预测状态及译码当前视频图块中的视频块的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下，运动补偿单元72可自接收的语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。

反量化单元76反量化(即，解量化)位流中所提供且由熵解码单元70解码的经量化的变换系数。反量化过程可包含使用由视频解码器30针对视频图块中的每一视频块计算的量化参数QP_Y以确定应应用的量化程度及(同样地)反量化程度。

反变换单元78将反变换(例如，反DCT、反整数变换或在概念上类似的反变换过程)应用于变换系数，以便在像素域中产生残余块。

在运动补偿单元72基于运动向量及其它语法元素而产生当前视频块的预测性块之后，视频解码器30通过将来自反变换单元78的残余块与由运动补偿单元72所产生的对应预测性块求和而形成经解码视频块。求和器80表示执行此求和运算的一或多个组件。必要时，还可应用解块滤波器来对经解码块进行滤波以便去除块效应假影。还可使用其它回路滤波器(在译码回路内或在译码回路之后)使像素转变平滑，或另外改进视频质量。接着将给定图框或图片中的经解码视频块存储于参考图片存储器82中，所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以用于稍后在显示装置(例如图1的显示装置32)上呈现。

以此方式，视频解码器30表示经配置以解码视频数据的视频解码装置的实例，所述视频解码装置包含经配置以存储视频数据的图片的缓冲存储器及实施于电路中且与缓冲存储器通信的至少一个处理器，以使得至少一个处理器经配置以解码视频数据的单个经译码视频序列(CVS)的至少两个不同且独特的图片，其中所述至少两个图片中的每个图片与一致图片次序计数(POC)值相关联。视频解码器30的至少一个处理器经进一步配置以使相应数据与单个CVS的至少两个图片中的每一者相关联，且基于与至少两个图片相关联的一致POC值及与至少一个图片相关联的相应数据识别包含于用于执行帧间预测的参考图片集中的至少两个图片当中的至少一个图片。

现将描述一些DPB管理技术。根据一些视频译码技术，可实施DPB管理的各种方法。作为一个实例，用于预测后续经译码图片及用于未来输出的经译码图片可在DPB中缓冲。为有效利用DPB的存储器，可指定DPB管理过程，包含将经译码图片存储至DPB中的过程、参考图片的标记过程及自DPB输出及去除经译码图片的过程。DPB管理可包含至少以下方面：(1)图片识别及参考图片识别；(2)参考图片列表建构；(3)参考图片标记；(4)来自DPB的图片输出；(5)图片插入至DPB中；及(6)自DPB去除图片。在上述过程中，参考图片列表建构(2)及参考图片标记(3)通常统称为参考图片管理。参考图片标记及参考图片列表建构的一些介绍提供于下文中。

参考图片列表建构

根据一些视频译码技术，可实施参考图片列表建构的各种方法。作为一个实例，通常，对“B”图片的第一参考图片列表或第二参考图片列表的参考图片列表建构可包含两个步骤：(1)参考图片列表初始化，及(2)参考图片列表重新定序(其可被称作“修改”)。由视频编码器及/或视频解码器执行的参考图片列表初始化可为基于与图片的输出次序或显示次序对准的图片次序计数(POC)值的次序将参考图片存储器(例如，经解码图片缓冲器“DPB”)中的参考图片安置(例如，作为条目插入)于清单中的外显机制。

参考图片列表重新定序机制可将在参考图片列表初始化期间置于列表中的图片的位置修改为任何新位置，或甚至在图片不属于初始化清单的情况下仍将参考图片存储器中的任何参考图片置于任何位置中。可在参考图片列表重新定序(或修改)之后将一些图片置于列表中的极“远”的位置中。然而，如果所指示参考图片列表的大小小于参考图片列表中的条目的数目，则可截短参考图片列表以拟合(即，满足)所指示参考图片列表的大小。另外或替代地，如果图片的位置超出列表的作用中参考图片的数目，则图片可不被视为最终参考图片列表的条目。可在每一清单的图块标头内传信作用中参考图片的数目。

上文关于参考图片列表建构的描述适用于AVC标准及HEVC标准两者。

AVC中的参考图片标记

现将描述参考图片列表标记技术。根据一些视频译码技术，可实施参考图片标记的各种方法。作为一个实例，H.264/AVC中的参考图片标记可概括如下。可在作用中序列参数集(SPS)中指示用于帧间预测的参考图片的最大数目，其可被称作“M”(例如，对应于语法元素num_ref_frames)。当解码参考图片时，参考图片可标记为“用于参考”。如果参考图片的解码导致大于“M”个图片经标记为“用于参考”，则必须将至少一个图片标记为“未用于参考”。随后，如果图片也不需要用于输出，则DPB去除过程可自DPB去除标记为“未用于参考”的图片。

当解码图片时，图片可为非参考图片或参考图片。参考图片可为长期参考图片或短期参考图片，且当标记为“未用于参考”时，图片可变为非参考图片。

H.264/AVC包含改变参考图片的状态的参考图片标记操作。举例来说，在H.264/AVC中，存在两种类型的用于参考图片标记的操作，即滑动窗口及也被称作内存管理控制操作(MMCO)的自适应内存控制。在图片基础上选择用于参考图片标记的操作模式。作为一个实例，滑动窗口参考图片标记充当具有固定数目的短期参考图片的先进先出(FIFO)队列。换句话说，具有最早解码时间的短期参考图片首先以内隐方式去除(即，标记为“未用于参考”的图片)。作为另一实例，自适应内存控制参考图片标记显式地标记短期图片或长期图片。自适应内存控制还使得能够切换短期图片及长期图片的状态。

HEVC中的参考图片标记

H.265/HEVC中的参考图片标记可概括如下。HEVC利用基于参考图片集(RPS)的参考图片管理方案，参考图片标记为参考图片集的一部分。RPS为与由按解码次序在相关联图片之前的所有参考图片组成的图片相关联的参考图片的集合，其可用于相关联图片或按解码次序在相关联图片之后的任一图片的帧间预测。图片的RPS由五个RPS清单组成，其中三个含有短期参考图片且另外两个列表含有长期参考图片。

根据基于RPS的参考图片管理方案，对于当前图片的每一特定图块，必须提供由当前图片或任何后续图片使用的参考图片的全集。因此，必须保持(例如，存储)于DPB中以供当前图片或未来图片使用的所有图片的全集经传信及接收。相比而言，由AVC采用的参考图片标记技术需要传信仅存储于DPB中的信息的相对变化。利用基于RPS的技术，不需要(necessary/require)来自按解码次序的较早图片的信息来维持存储于DPB中的参考图片的校正状态。作为基于RPS的技术的传信的部分，指示将参考图片用作短期参考图片抑或用作长期参考图片的信息也经显式传信。

当图片的图块标头已经剖析时，在解码图块数据之前(例如，在此之前)执行图片标记过程。存在于DPB内且标记为“用于参考”但不包含在RPS中的图片经标记为“未用于参考”。在解码当前图片之后，当前图片经标记为“用于短期参考”。

现将论述上文所描述的技术的一些潜在问题。与现有参考图片管理方案(例如，当前由视频译码装置采用根据H.264/AVC及H.265/HEVC操作的方案)相关的上文所描述的各种方法具有若干缺点。举例来说，现有参考图片管理方案不允许(或致能)多个图片(例如，两个独特的不同的图片)具有共同(即，相同)POC值以同时存在(例如，存储)于DPB中(例如，并行地存储于DPB中)。举例来说，在现有HEVC方案中，图片次序计数(POC)系与各图片相关联的变量，在CVS中的所有图片当中唯一地识别相关联图片，且当自DPB输出相关联图片时，以相对于自DPB输出的相同CVS中的其它图片的输出次序位置的输出次序指示相关联图片的位置。然而，在若干情形中，可需要使多个图片(例如，两个独特的不同图片)能够具有共同(即，相同)POC值以同时存在(例如，存储)于DPB中。举例来说，未来编解码器，不论标准化抑或专属，可选取不定义或可扩展的多视图及/或多层扩展。在此类情况下，使能用于存储、识别及选择CVS内具有相同POC值(其例如表示输出次序及/或输出时间)的多个图片的机制可适用于处理位流的不同层且可在适当时进一步用作单层位流的工具。

另外，在具有或不具有运动向量及/或样本值的基于POC的缩放的情况下，现有方案不允许具有相同的共同POC值的两个图片用于在相同时间或在不同时间预测(例如，帧间预测)其它图片。

举例来说，在HEVC中，要求在一个经译码视频序列(CVS)内，任何两个经译码图片的POC值不应相同。在HEVC中，CVS为由NoRaslOutputFlag等于1的IRAP存取单元，随后零个或大于零个存取单元(其不是NoRaslOutputFlag等于1的IRAP存取单元)按译码次序组成的存取单元的序列，包含所有后续存取单元，但不包含作为NoRaslOutputFlag等于1的IRAP存取单元的任何后续存取单元。应注意，IRAP存取单元可为IDR存取单元、BLA存取单元或CRA存取单元。对于各IDR存取单元、各BLA存取单元及各CRA存取单元，NoRaslOutputFlag的值等于1，所述CRA存取单元为按解码次序的位流中的第一存取单元，为按解码次序跟随序列NAL单元的末尾或HandleCraAsBlaFlag等于1的第一存取单元。然而，对于最高译码效率，将期望实现使多个不同的经译码图片与共同的一致POC值相关联的译码方案。此译码方案的一个实例如下：

使两个经译码图片与相同的一致POC值相关联。

基于编码经合成源图片产生第一经译码图片(在两个经译码图片当中)。经合成源图片为一或多个源图片或其对应的经解码图片的合成。在一个实例中，经合成源图片通过对一或多个源图片或其经解码图片当中的对应像素值求加权平均而产生。将与当前POC值相关联的源图片定义为目标源图片，且将与除当前POC值之外的POC值相关联的任何源图片视为参考源图片。在一个实例中，将目标源图片划分成块，且接着对每一块执行运动信息搜寻，以搜寻参考源图片内的类似参考块。针对目标源图片中的每一块(“源块”)，对N个类似的参考块(例如，N可为任何正整数)与源块一起求加权平均，以产生最终经合成源图片的对应块的最终合成像素。加权可经预先确定(例如，相等的权重)或可使用源块与参考块之间的像素自适应地确定(例如，计算)。举例来说，加权可与源块与参考块之间的差(例如，绝对差总和(SAD)或差的平方和(SSD))成反比。在又一实例中，将每一参考图片划分成块且对每一块执行运动搜寻以搜寻(例如，识别)目标源图片内的类似块。对目标源图片中的每一像素与参考源图片中的类似像素一起(例如，进行组合)求加权平均，以产生用于当前POC值的最终经合成源图片的最终合成的像素。

与相同POC值相关联的第二经译码图片(在两个经译码图片当中)可使用第一经译码图片作为帧间预测参考图片，或反之亦然。

可指示不输出第一经译码图片，但可指示输出第二经译码图片。

第一及第二经译码图片可用于其它图片的帧间预测参考，其中可涉及运动向量及/或样本值的基于POC的缩放。然而，应注意，当第二经译码图片使用第一经译码图片进行帧间预测参考时，或反之亦然，由于第一及第二经译码图片与相同的POC值相关联，因此不能应用运动向量及/或样本值的基于POC的缩放。

另一实例如下：

使两个经译码图片与相同的一致POC值相关联。

第一经译码图片与低于与第二经译码图片相关联的译码质量的译码质量相关联。

第二经译码图片可使用第一经译码图片进行帧间预测参考(即，可基于第一经译码图片对第二经译码图片进行帧间预测)。

指示不(例如，自DPB)输出第一经译码图片，但指示输出第二经译码图片。

第一及第二经译码图片可用于其它图片的帧间预测参考，其中可涉及运动向量及/或样本值的基于POC的缩放。然而，应注意，当第二经译码图片使用第一经译码图片进行帧间预测参考(即，基于第一经译码图片对第二经译码图片进行帧间预测)时，由于第一及第二经译码图片与相同的POC值相关联，因此不能应用运动向量及/或样本值的基于POC的缩放。

在译码情形中，例如，如在上文所描述的两个实例中，自译码效率的视角，重要的是使视频译码装置能够处理相同的经译码视频序列(CVS)内具有相同POC值的多个经译码图片且使其对应的经译码图片能够同时存在于相应视频译码装置的DPB中且由视频译码装置使用与运动向量及/或样本值的基于POC的缩放组合进行帧间预测。然而，应注意，当图片使用另一图片进行帧间预测参考时，如果两个图片具有相同POC值，则不能应用运动向量及/或样本值的基于POC的缩放。

本公开描述解决上文所描述的缺点的一或多种技术。特定地说，本公开的技术提供由视频译码装置(例如，视频编码器20及/或视频解码器30)利用的一些增强参考图片管理方法，所述增强参考图片管理方法使得具有相同POC值的多个图片能够同时存在于DPB中且用于运动向量及/或样本值的基于POC的缩放进行帧间预测。应理解，本公开的技术及/或实施例中的一或多者可独立应用，或与其它技术及/或实施例组合，尽管未明确论述所有组合。

根据本公开的一或多种技术，可假定在本公开的一些实施例中，可存在与给定CVS内的相同POC值相关联的两个或大于两个(例如，在一些情况下至多两个)经译码图片，其中两个经译码图片中的每一者分别与输出旗标的不同值相关联，所述输出旗标指示将输出或不输出相关联的经译码图片，以使得可应用以下技术：

当视频译码装置(例如，视频编码器20及/或视频解码器30)识别(例如，确定)用于帧间预测参考的一或多个图片时，包含(例如)例如参考图片列表的建构以及参考图片标记所需的传信的操作，这些经识别图片可不再仅由相应POC值识别，但由视频译码装置通过(例如，结合)输出旗标的相关联值而另外识别，以使得使用POC值及输出旗标的值识别相应图片。因此，在特定CVS内的一些实施例中，任何两个经译码图片的POC值不应相同，除非两个经译码图片分别与输出旗标的不同值相关联。

在例如HEVC的上下文中，在参考图片集的传信及导出中，根据本公开的各种实施例，视频译码装置(例如，视频编码器20及/或视频解码器30)可经配置以通过POC值及输出旗标的值识别图片。一旦视频译码装置根据本公开导出RPS，视频译码装置即可利用现有HEVC参考图片列表传信及建构技术/过程以及参考图片标记过程，这是因为这些过程是基于RPS，以使得当需要识别RPS中的图片时，足以使视频译码装置“知道”(例如，确定或存取信息指示)给定图片属于哪个RPS清单(例如，给定图片与哪个RPS列表相关联或经列举为其中的条目)及与所述特定RPS列表内的给定图片相关联的索引值。

可替代地或另外，为通过如上文所论述的POC值及输出旗标的值识别图片，根据本公开的一或多种技术，可假定可存在与给定CVS内的相同POC值相关联的大于两个经译码图片，以使得可应用以下技术：

除POC值之外(且在一些实施例中，除输出旗标的值之外)，图片版本识别符(PVID)可由视频译码装置针对每个图片显式传信。PVID可指示给定图片的不同(例如，独特)版本(或实例或复本或表现)。举例来说，语法元素(例如，被称作“pic_ver_id”的语法元素)可经传信(例如，在包含视频数据的位流中或在包含视频数据的位流外(例如，与之分离))。在某些情况下或根据某些准则或条件，PVID可由视频译码装置(例如，视频编码器20及/或视频解码器30)推断(例如，在不接收经传信信息的情况下确定)。当视频译码装置(例如，视频编码器20及/或视频解码器30)识别(例如，确定)用于帧间预测参考的一或多个图片时，包含(例如)例如参考图片列表的建构以及参考图片标记所需的传信的操作，可通过相应POC值及相关联的PVID值识别图片。

因此，在CVS内，根据本公开的各种实施例，任何两个经译码图片的POC值不应相同，除非两个经译码图片分别与PVID的不同值相关联。在一些实施例中，根据限制或约束，视频译码装置(例如，视频编码器20及/或视频解码器30)可经配置以仅输出多个图片的指定集合(例如，基于识别机制的图片或特定图片的指定数目)，其中所述多个图片中的每个图片与相同POC值相关联且其中所述多个图片中的每个图片与PVID的不同的相应值相关联。举例来说，视频译码装置可经配置以仅输出与相同POC值相关联的多个图片当中的图片，所述相同POC值与特定(例如，最大)PVID值相关联。

在例如HEVC的上下文中，在参考图片集(RPS)的传信及导出中，根据本公开的各种实施例，视频译码装置可经配置以通过POC值及PVID的值识别图片。一旦视频译码装置(例如，视频编码器20及/或视频解码器30)根据本公开导出RPS，视频译码装置即可利用现有HEVC参考图片列表传信及建构技术/过程以及参考图片标记过程，这是因为这些过程是基于RPS，以使得当需要识别RPS中的图片时，足以使视频译码装置“知道”(例如，确定或存取信息指示)给定图片属于哪个RPS清单(例如，给定图片与哪个RPS列表相关联或经列举为其中的条目)及与所述特定RPS列表内的给定图片相关联的索引值。

如上文所提及，本公开的技术及/或实施例中的一或多者可独立地应用，或与其它技术及/或实施例组合。因此，在本公开的一些实施例中，视频译码装置(例如，视频编码器20及/或视频解码器30)可经配置以通过POC值、PVID值及/或输出旗标的值识别图片，从而使得具有相同POC值的多个图片能够同时存在于DPB中，且另外在一些实施中，在具有(且在一些实施中不具有)运动向量及/或样本值的基于POC的缩放的情况下用于帧间预测。

视频编码器20及/或视频解码器30可根据实施如下文所提供的本公开的技术的一或多个实施例配置。当再现HEVC规范的某些部分以说明可并入以实施本文中所描述的方法中的一或多者的添加及删除时，添加以粗体、下划线及斜体文本(添加的实例)展示，且删除以删除线

展示。未提及的HEVC规范的其它部分可与例如标准建议ITU-TH.265v4(12/2016)的当前有效发布版本中所提供的相同。

可替代地，视频编码器20及视频解码器30可根据其它专属或行业标准(例如JEM及/或VVC)操作。然而，本公开的技术不限于任何特定译码标准。

POC传信及导出

为使相同CVS内的两个经译码图片具有相同POC值(例如，“PicOrderCntVal”)，POC传信语法(例如，图块标头语法中的slice_pic_order_cnt_lsb)及POC导出过程(例如，HEVC规范的章节8.3.1)可在未修改的情况下予以实施。然而，可如下修改HEVC规范的章节8.3.1，图片次序计数的解码过程：

…

如下导出PicOrderCntVal：

PicOrderCntVal＝PicOrderCntMsb+slice_pic_order_cnt_lsb(8-2)

批注1-所有IDR图片的PicOrderCntVal将等于0，这是因为针对IDR图片，推断slice_pic_order_cnt_lsb为0，且将prevPicOrderCntLsb及prevPicOrderCntMsb两者均设定为等于0。

PicOrderCntVal的值将在-231至231-1(包含-231及231-1)的范围内

…

另外，以下约束可经添加(例如，至章节8.3.1)，或作为pic_output_flag的语义的部分，以使得视频译码装置能够唯一地识别具有相同POC值的两个图片中的一者：

位流一致性要求当在CVS中存在具有相同PicOrderCntVal值的两个经译码图片时，两个经译码图片的pic_output_flag的值将不同。

参考图片集(RPS)传信及导出

根据实施本公开的一或多种技术的各种实施例，为实现在具有相邻(包含一致)POC值的两个经译码图片之间传信非零增量POC值，可如下改变例如章节7.3.7(短期参考图片集语法)的st_ref_pic_set()语法结构的语法：

在章节7.4.8中，可如下修改短期参考图片集语义：

…

当i等于0时，指定当前图片的图片次序计数值与第stRpsIdx候选短期RPS中具有小于或等于当前图片的图片次序计数值的图片次序计数值的第i条目之间的差，或当i大于0时，指定第(i-1)条目的图片次序计数值与第stRpsIdx候选短期RPS中具有小于或等于当前图片的图片次序计数值的图片次序计数值的第i条目之间的差。

的值应在0至2¹⁵-1(包含0及2¹⁵-1)的范围内。

st_ref_pic_s0_output_flag[i]指示第stRpsIdx候选短期RPS中具有小于或等于当前图片的图片次序计数值的图片次序计数值的第i条目的pic_output_flag的值。

…

当i等于0时，指定当前图片的图片次序计数值与第stRpsIdx候选短期RPS中具有大于当前图片的图片次序计数值的图片次序计数值的第i条目之间的差，或当i大于0时，指定第i条目的图片次序计数值与当前候选短期RPS中具有大于当前图片的图片次序计数值的图片次序计数值的第(i-1)条目之间的差。

的值应在0至2¹⁵-1(包含0及2¹⁵-1)的范围内。

st_ref_pic_s1_output_flag[i]指示第stRpsIdx候选短期RPS中具有大于当前图片的图片次序计数值的图片次序计数值的第i条目的pic_output_flag的值。

…

另外，可如下改变章节7.4.8中的等式7-67、7-68、7-69及7-70：

另外，可将以下等式添加至说明书：

PicOputFlagS0[stRpsIdx][i]＝st_ref_pic_s0_output_flag[i]

PicOputFlagS1[stRpsIdx][i]＝st_ref_pic_s1_output_flag[i]

另外，可如下改变seq_parameter_set_rbsp()语法结构的语法：

可如下修改序列参数集语义：

…

lt_ref_pic_output_flag[i]指示SPS中所指定的第i候选长期参考图片的pic_ output_flag的值。

…

另外，可如下改变slice_segment_header()语法结构的语法：

可如下修改图块分段标头语义：

…

pic_output_flag_lt[i]指示当前图片的长期RPS中的第i条目的pic_output_ flag的值。

used_by_curr_pic_lt_flag[i]等于0指定当前图片的长期RPS中的第i条目不供当前图片参考。

如下导出变量PocLsbLt[i]，PofLt[i]及UsedByCurrPicLt[i]：

-如果i小于num_long_term_sps，则将PocLsbLt[i]设定为等于lt_ref_pic_poc_lsb_sps[lt_idx_sps[i]]，将PofLt[i]设定为等于lt_ref_pic_output_flag[i]且将UsedByCurrPicLt[i]设定为等于used_by_curr_pic_lt_sps_flag[lt_idx_sps[i]]。

-否则，将PocLsbLt[i]设定为等于poc_lsb_lt[i]，将PofLt[i]设定为等于pic_ output_flag_lt[i]且将UsedByCurrPicLt[i]设定为等于used_by_curr_pic_lt_flag[i]。

…

另外，可如下改变章节8.3.2中的等式8-5：

另外，可如下改变章节8.3.2中的等式8-6：

另外，可如下改变章节8.3.2中的等式8-7：

POC传信及导出

在实施本公开的一或多种技术的各种其它实施例中，为使相同CVS内的两个经译码图片具有相同POC值(例如，“PicOrderCntVal”)，POC传信语法(例如，图块标头语法中的slice_pic_order_cnt_lsb)及POC导出过程(例如，HEVC规范中的章节8.3.1)可在未修改的情况下予以实施。然而，还可如下修改HEVC规范的章节8.3.1，图片次序计数的解码过程：

…

如下导出PicOrderCntVal：

PicOrderCntVal＝PicOrderCntMsb+slice_pic_order_cnt_lsb

(8-2)

PicOrderCntVal的值将在-231至231-1(包含-231及231-1)的范围内。

…

PVID的传信

根据本公开的一或多种技术，为实现与经译码图片相关联的PVID值的传信，可如下改变slice_segment_header()语法结构的语法：

pic_ver_id的语义可如下：

pic_ver_id指定当前图片的图片版本ID。具有相同图片次序计数值的CVS内的图片应具有不同图片版本ID值。

参考图片集(RPS)传信及导出

根据实施本公开的一或多种技术的各种实施例，为实现在具有相邻(包含一致)POC值的两个经译码图片之间传信非零增量POC值，可如下改变st_ref_pic_set()语法结构的语法：

可如下修改短期参考图片集语义：

…

的值应在0至2¹⁵-1(包含0及2¹⁵-1)的范围内。

st_ref_pic_s0_pvid[i]指示第stRpsIdx候选短期RPS中具有小于或等于当前图片的图片次序计数值的图片次序计数值的第i条目的pic_ver_id的值。

…

的值应在0至2¹⁵-1(包含0及2¹⁵-1)的范围内。\

st_ref_pic_s1_pvid[i]指示第stRpsIdx候选短期RPS中具有大于当前图片的图片次序计数值的图片次序计数值的第i条目的pic_output_flag的值。

…

另外，可如下改变等式7-67、7-68、7-69及7-70：

另外，可将以下等式添加至说明书：

PicVerIdS0[stRpsIdx][i]＝st_ref_pic_s0_pvid[i]

PicVerIdS1[stRpsIdx][i]＝st_ref_pic_s1_pvid[i]

另外，可如下改变seq_parameter_set_rbsp()语法结构的语法：

可如下修改序列参数集语义：

…

lt_ref_pvid[i]指示SPS中所指定的第i候选长期参考图片的pic_ver_id的值。

…

另外，可如下改变slice_segment_header()语法结构的语法：

且可如下修改图块分段标头的语义：

pvid_lt[i]指示当前图片的长期RPS中的第i条目的pic_ver_id的值。

如下导出变量PocLsbLt[i]，PvidLt[i]及UsedByCurrPicLt[i]：

-如果i小于num_long_term_sps，则将PocLsbLt[i]设定为等于lt_ref_pic_poc_lsb_sps[lt_idx_sps[i]]，将PvidLt[i]设定为等于lt_ref_pvid[i]且将UsedByCurrPicLt[i]设定为等于used_by_curr_pic_lt_sps_flag[lt_idx_sps[i]]。

-否则，将PocLsbLt[i]设定为等于poc_lsb_lt[i]，将PvidLt[i]设定为等于pvid_ lt[i]且将UsedByCurrPicLt[i]设定为等于used_by_curr_pic_lt_flag[i]。

…

另外，可如下修改等式8-5：

另外，可如下修改等式8-6：

另外，如下改变等式8-7：

图4为说明利用与本公开的增强参考图片管理机制相关联的技术的视频编码器的实例操作的流程图。出于解释的目的，图4的流程图在下文描述为由如图1及图2中所论述的视频编码器20及其组件执行。然而，应理解，其它装置可经配置以执行图4的流程图或类似方法。另外，结合图4所描述的视频编码器20的操作仅为视频编码器20经配置以根据本公开执行的操作的子集。举例来说，视频编码器20经配置以确定、处理及/或传信经编码位流内的其它数据(例如，语法元素)且执行本公开内所描述的其它操作(例如，当前图片的预测及基于POC的缩放)。

根据本公开的一或多种技术，视频编码器20(例如，模式选择单元40及其组件)可编码例如特定CVS的两个或大于两个单独的且不同的图片以用作参考图片，且使共同(例如，一致或共享)POC值与两个或大于两个图片中的每一者相关联(402)。视频编码器20(例如，模式选择单元40，且在一些实施中，特定地说为运动估计单元42)可进一步使相应信息或数据与两个或大于两个不同图片中的每一者相关联(例如，指派、配置或设定)且维持(404)，以便实现将特定CVS的两个或大于两个图片同步存储于参考图片内存64中，以使得两个或大于两个图片中的至少一者随后可由例如运动补偿单元44识别。在各种实施例中，相应信息可包含指示是否输出共享一致POC值的两个或大于两个图片的相应图片的数据及/或相应图片的版本识别符。

出于根据本公开的帧间预测参考及RPS的导出及/或建构的目的，视频编码器20(例如，运动补偿单元44)可基于一致的共同POC值及与至少一个图片相关联的相应数据识别(或选择)两个或大于两个图片当中的至少一个图片(406)。

在一些实施例中，视频编码器20可显式地传信(例如，在包含特定CVS的视频位流中编码)作为经编码位流的各种语法结构中的语法元素的相应数据(408)。在其它实施例中，相应数据的子集的值可经推断(例如，由视频解码器隐式导出)且因此不由视频编码器20显式传信。

图5为说明利用本公开的增强参考图片管理的一些技术/机制的视频解码器的实例操作的流程图。出于解释的目的，图5的流程图在下文描述为由如图1及图3中所论述的视频解码器30及其组件执行。然而，应理解，其它装置可经配置以执行图5的流程图或类似方法。另外，结合图5所描述的视频解码器30的操作仅为视频解码器30经配置以根据本公开执行的操作的子集。举例来说，视频解码器30经配置以剖析及处理来自位流的其它数据(例如，语法元素)且执行贯穿本公开所描述的其它操作(例如，当前图片的预测及基于POC的缩放)。

视频解码器30解码(例如，重新建构)单个CVS内的至少两个图片(502)。视频解码器30确定至少两个图片与一致POC值相关联(例如，由其指派或识别)。视频解码器30(例如，运动补偿单元72)进一步确定(及维持)用于识别帧间预测参考的图片的其它信息(例如，参考图片列表的导出及/或建构以用于解码当前图片)。举例来说，运动补偿单元72可确定(例如，接收或导出)与至少两个图片中的每个图片相关联的语法元素及/或变量的值(504)，所述至少两个图片与一致POC值相关联。如本文中所论述，在一些实施例中，视频解码器30可接收及/或本地确定(即，在不接收显式传信的情况下)指示与是否输出图片的至少两个图片中的每一者及/或图片的版本识别符相关联的数据。

视频解码器30可将至少两个图片存储于在本文中也被称作DPB的参考图片内存82中(506)。在一些实施中，至少两个图片可同步存在于参考图片内存82中。

出于帧间预测参考及RPS的导出及/或建构，以用于预测根据本公开待译码的后续图片(例如，当前图片)的目的，视频解码器30(例如，运动补偿单元72)可基于一致的共同POC值及与至少一个图片相关联的相应数据识别(或选择)两个或大于两个图片当中的至少一个图片(508)。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可以不同序列经执行，可经添加、合并或完全省略(例如，并非所有所描述动作或事件为实践所述技术所必要)。此外，在某些实例中，可例如经由多线程处理、中断处理或多个处理器同时而非顺序执行动作或事件。

在一或多个实例中，所描述功能可以硬件、软件、固件或其任何组合实施。如果以软件实施，则所述功能可作为一或多个指令或过程代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输，且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体，所述通信媒体包含(例如)根据通信协议有助于计算机过程自一处传送至另一处的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以撷取指令、过程代码及/或数据结构以用于实施本公开中所描述的技术的任何可用媒体。计算机过程产品可包含计算机可读媒体。

借助于实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、闪存或可用以存储呈指令或数据结构形式的所要过程代码且可由计算机存取的任何其它媒体。又，任何连接被适当地称为计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字用户线(DSL)或无线技术(例如红外线、无线电及微波)自网站、服务器或其它远程源传输指令，则同轴缆线、光纤缆线、双绞线、DSL或无线技术(例如红外线、无线电及微波)包含于媒体的定义中。然而，应理解，计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而实情为关于非暂时性有形存储媒体。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字激光视盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘通过激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、特殊应用集成电路(ASIC)、场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文中所描述的功能可设置于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。又，可在一或多个电路或逻辑组件中充分实施所述技术。

本公开的技术可实施于各种装置或设备中，包含无线手持机、集成电路(IC)或IC集(例如，芯片集)。在本公开中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但未必要求由不同硬件单元来实现。实际上，如上文所描述，各种单元可与合适的软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供，硬件单元包含如上文所描述的一或多个处理器。

已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims

1.一种译码视频数据的方法，其包括：

由包含实施于处理电路中的处理器的译码装置译码所述视频数据的单个经译码视频序列CVS的至少两个图片，其中所述至少两个图片中的每个图片与一致图片次序计数POC值相关联，所述至少两个图片彼此不同；

由所述译码装置使相应数据与所述单个CVS的所述至少两个图片中的每一者相关联；及

基于与所述至少两个图片相关联的所述一致POC值及与所述至少一个图片相关联的所述相应数据，由所述译码装置识别包含于参考图片集中的所述至少两个图片当中的至少一个图片。

2.根据权利要求1所述的方法，其进一步包括由所述译码装置将所述至少两个图片存储于缓冲存储器中，以使得所述至少两个图片在给定时间点同步存在于所述缓冲存储器中。

3.根据权利要求1所述的方法，其进一步包括由所述译码装置传信、接收或确定与包括所述单个CVS的位流内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

4.根据权利要求3所述的方法，其进一步包括由所述译码装置传信或接收与参数集语法结构、图块标头结构或参考图片集结构中的至少一者内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

5.根据权利要求1所述的方法，其中所述相应数据指示以下中的至少一者：

是否输出所述至少两个图片中的一图片，或

所述至少两个图片中的所述图片的版本识别符。

6.根据权利要求1所述的方法，其进一步包括包含所述参考图片集内的所述识别的至少一个图片。

7.根据权利要求6所述的方法，其进一步包括基于所述参考图片集内的所述识别的至少一个图片来预测当前图片。

8.根据权利要求1所述的方法，其进一步包括执行与所述识别的至少一个图片相关联的运动信息或像素值中的至少一者的基于POC的缩放，以用于预测当前图片。

9.根据权利要求1所述的方法，其中译码所述视频包括编码或解码所述视频数据中的一者。

10.一种用于译码视频数据的译码装置，所述装置包括：

缓冲存储器，其经配置以存储所述视频数据的图片；及

至少一个处理器，其与所述缓冲存储器通信，所述至少一个处理器实施于电路中且经配置以：

译码所述视频数据的单个经译码视频序列CVS的至少两个图片，其中所述至少两个图片中的每个图片与一致图片次序计数POC值相关联，所述至少两个图片彼此不同；

使相应数据与所述单个CVS的所述至少两个图片中的每一者相关联；及

基于与所述至少两个图片相关联的所述一致POC值及与所述至少一个图片相关联的所述相应数据，识别包含于参考图片集中的所述至少两个图片当中的至少一个图片。

11.根据权利要求10所述的译码装置，其中所述至少一个处理器经进一步配置以将所述至少两个图片存储于所述缓冲存储器中，以使得所述至少两个图片在给定时间点同步存在于所述缓冲存储器中。

12.根据权利要求10所述的译码装置，其中所述至少一个处理器经进一步配置以传信、接收或确定与包括所述单个CVS的位流内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

13.根据权利要求12所述的译码装置，其中所述至少一个处理器经进一步配置以传信或接收与参数集语法结构、图块标头结构或参考图片集结构中的至少一者内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

14.根据权利要求10所述的译码装置，其中所述相应数据指示以下中的至少一者：

是否输出所述至少两个图片中的一图片，或

所述至少两个图片中的所述图片的版本识别符。

15.根据权利要求10所述的译码装置，其中所述至少一个处理器经进一步配置以包含所述参考图片集内的所述识别的至少一个图片。

16.根据权利要求15所述的译码装置，其中所述至少一个处理器经进一步配置以基于所述参考图片集内的所述识别的至少一个图片来预测当前图片。

17.根据权利要求10所述的译码装置，其中所述至少一个处理器经进一步配置以执行与所述识别的至少一个图片相关联的运动信息或像素值中的至少一者的基于POC的缩放，以用于预测当前图片。

18.根据权利要求10所述的译码装置，其中所述译码装置包括编码装置或解码装置中的一者。

19.一种设备，其经配置以译码视频数据，所述装置包括：

用于存储所述视频数据的图片的装置；

用于译码所述视频数据的单个经译码视频序列CVS的至少两个图片的装置，其中所述至少两个图片中的每个图片与一致图片次序计数POC值相关联，所述至少两个图片彼此不同；

用于使相应数据与所述单个CVS的所述至少两个图片中的每一者相关联的装置；及

用于基于与所述至少两个图片相关联的所述一致POC值及与所述至少一个图片相关联的所述相应数据，识别包含于参考图片集中的所述至少两个图片当中的至少一个图片的装置。

20.根据权利要求19所述的设备，其进一步包括用于将所述至少两个图片存储于所述缓冲存储器中，以使得所述至少两个图片在给定时间点同步存在于所述缓冲存储器中的装置。

21.根据权利要求19所述的设备，其进一步包括用于传信、接收或确定与包括所述单个CVS的位流内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者的装置。

22.根据权利要求19所述的设备，其进一步包括用于传信或接收与参数集语法结构、图块标头结构或参考图片集结构中的至少一者内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者的装置。

23.根据权利要求19所述的设备，其中所述相应数据指示以下中的至少一者：

是否输出所述至少两个图片中的一图片，或

所述至少两个图片中的所述图片的版本识别符。

24.根据权利要求19所述的设备，其进一步包括用于包含所述参考图片集内的所述识别的至少一个图片的装置。

25.根据权利要求24所述的设备，其进一步包括用于基于所述参考图片集内的所述识别的至少一个图片来预测当前图片的装置。

26.根据权利要求19所述的设备，其进一步包括用于执行与所述识别的至少一个图片相关联的运动信息或像素值中的至少一者的基于POC的缩放以用于预测当前图片的装置。

27.根据权利要求19所述的设备，其中所述设备包括编码设备或解码设备中的一者。

28.一种存储指令所述的计算机可读存储媒体，所述指令在经执行时使得经配置以译码视频数据的至少一个处理器：

29.根据权利要求28所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器将所述至少两个图片存储于缓冲存储器中，以使得所述至少两个图片在给定时间点同步存在于所述缓冲存储器中。

30.根据权利要求28所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器传信、接收或确定与包括所述单个CVS的位流内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

31.根据权利要求28所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器传信或接收与参数集语法结构、图块标头结构或参考图片集结构中的至少一者内的所述单个CVS的所述至少两个图片中的每一者相关联的所述相应数据中的一者。

32.根据权利要求28所述的计算机可读存储媒体，其中所述相应数据指示以下中的至少一者：

是否输出所述至少两个图片中的一图片，或

所述至少两个图片中的所述图片的版本识别符。

33.根据权利要求28所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器包含所述参考图片集内的所述识别的至少一个图片。

34.根据权利要求33所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器基于所述参考图片集内的所述识别的至少一个图片来预测当前图片。

35.根据权利要求28所述的计算机可读存储媒体，其进一步存储指令，所述指令在经执行时使得经配置以译码所述视频数据的所述至少一个处理器执行与所述识别的至少一个图片相关联的运动信息或像素值中的至少一者的基于POC的缩放，以用于预测当前图片。