CN115516856A

CN115516856A - 多参考行帧内预测与变换分区之间的协调设计

Info

Publication number: CN115516856A
Application number: CN202280003974.8A
Authority: CN
Inventors: 赵亮; 赵欣; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-03-31
Filing date: 2022-01-18
Publication date: 2022-12-23
Also published as: KR20220165279A; EP4118824A4; WO2022211877A1; US20220321909A1; EP4118824A1; JP2023524406A

Abstract

用于视频解码中的多参考行帧内预测的方法、装置及计算机可读存储介质。该方法包括由设备接收块的已编码视频码流。该设备包括存储指令的存储器和与存储器通信的处理器。该方法进一步包括由该设备对所述块进行分区，以获得多个子块；由该设备基于参考行，对多个子块中的子块执行多参考行帧内预测；以及由该设备对子块进行分区，以获得多个变换块。

Description

多参考行帧内预测与变换分区之间的协调设计

相关申请

本申请基于并要求于2021年3月31日提交的美国临时申请第63/168,984号和于2021年12月29日提交的美国非临时申请第17/564,583号的优先权，这两个申请通过引用整体并入本文。

技术领域

本公开涉及视频编码和/或解码技术，并且具体涉及多参考行帧内预测和变换分区的改进设计和信令。

背景技术

本文所提供的背景描述旨在整体呈现本申请的背景。在背景技术部分以及本说明书的各个方面中所描述的目前已署名的发明人的工作所进行的程度，并不表明其在本申请提交时作为现有技术，且从未明示或暗示其被承认为本申请的现有技术。

可以使用具有运动补偿的帧间图片预测来进行视频编码和解码。未压缩的数字视频可包括一系列图片，每个图片具有例如1920×1080亮度样本及相关的全采样或子采样色度样本的空间维度。所述系列图片具有固定的或可变的图片速率(或者称为帧率)，例如每秒60个图片或每秒60帧。未压缩的视频具有特定的比特率要求。例如，具有像素分辨率为1920×1080，帧速率为60帧/秒，以及色度子采样为4∶2∶0，以每个像素每个颜色通道8比特的视频需要接近1.5Gbit/s的带宽。一小时的此类视频需要超过600GB的存储空间。

视频编码和解码的一个目的，是通过压缩减少未压缩输入视频信号的冗余信息。视频压缩可以帮助降低对上述带宽和/或存储空间的要求，在某些情况下可降低两个或更多数量级。无损压缩和有损压缩，以及两者的组合均可采用。无损压缩是指经由解码过程，从压缩的原始信号中重建原始信号精确副本的技术。有损压缩是指原始视频信息在编码期间未被完全保留并且在解码期间不可完全恢复的编码/解码过程。当使用有损压缩时，重建信号可能与原始信号不同，但是原始信号与重建信号之间的失真小到足以使重建信号可用于预期应用，尽管一些信息损失。就视频而言，有损压缩广泛用于许多应用中。可容许失真量取决于应用。例如，某些消费视频流应用的用户可以容许比电影或电视广播应用的用户更高的失真。可以选择或调整通过特定编码算法可实现的压缩比以反映各种失真容限：较高的可容许失真通常允许产生较高损失和较高压缩比的编码算法。

视频编码器和解码器可以利用来自若干广泛类别和步骤的技术，包括例如运动补偿、傅立叶变换、量化以及熵编码。

视频编解码器技术可包括已知的帧内编码技术。在帧内编码中，在不参考先前重建的参考图片的样本或其它数据的情况下表示样本值。在一些视频编解码器中，图片在空间上被细分为样本块。当所有的样本块都以帧内模式编码时，该图片可以被称为帧内图片。帧内图片及其衍生(例如独立解码器刷新图片)可用于复位解码器状态，并且因此可用作编码视频比特流和视频会话中的第一图片，或用作静止图像。然后，可以将帧内预测后的块的样本变换到频域，并且可以在熵编码之前对如此生成的变换系数进行量化。帧内预测表示使预变换域中的样本值最小化的技术。在一些情况下，变换后的DC值越小，并且AC系数越小，则在给定的量化步长尺寸下需要越少的比特来表示熵编码之后的块。

如同从诸如MPEG-2代编码技术中所获知的，传统帧内编码不使用帧内预测。然而，一些较新的视频压缩技术包括：尝试基于例如周围样本数据和/或元数据对块进行编码/解码，该周围样本数据和/或元数据是在空间相邻的编码和/或解码期间获得的，并且在解码顺序上先于正在帧内编码或解码的数据块。此类技术此后被称为“帧内预测”技术。注意，在至少一些情况下，帧内预测仅使用来自重建中的当前图片的参考数据，而不使用来自其它参考图片的参考数据。

可以有许多不同形式的帧内预测。当在给定视频编码技术中可获得多于一种此类技术时，所使用的技术可以被称为帧内预测模式。可以在特定编解码器中提供一个或多个帧内预测模式。在某些情况下，模式可以具有子模式和/或可以与各种参数相关联，并且用于视频块的模式/子模式信息和帧内编码参数可以包含在模式码字中，可以单独或共同编码。对于给定模式、子模式和/或参数组合，使用哪个码字可以通过帧内预测对编码效率增益产生影响，并且用于将码字转换为码流的熵编码技术也同样如此。

帧内预测的某种模式与H.264一起被引入，在H.265中被修正，并且在诸如联合探测模式(JEM)、通用视频编码(VVC)和基准集(BMS)的较新的编码技术中被进一步修正。通常，对于帧内预测，可以使用已变得可用的相邻样本值来形成预测器块。例如，可以将沿着特定方向和/或行的特定相邻样本集的可用值，复制到预测器块中。对使用方向的参考可以在码流中编码，或者本身可以被预测。

参考图1A，在右下方描绘的是在H.265的33个可能的帧内预测器方向(对应于在H.265中指定的35个帧内模式的33个角度模式)中指定的9个预测器方向的子集。箭头会聚的点(101)表示正在被预测的样本。箭头表示使用相邻样本预测101处的样本所根据的方向。例如，箭头(102)指示根据与水平方向成45度角的右上方的一个或多个相邻样本，预测样本(101)。类似地，箭头(103)指示根据与水平方向成22.5度角的样本(101)左下方的一个或多个相邻样本，预测样本(101)。

仍然参考图1A，在左上方示出了一个包括4×4个样本的正方形块(104)(由粗虚线表示)。正方形块(104)由16个样本组成，每个样本用“S”、以及其在Y维度(例如，行索引)上的位置和在X维度(例如，列索引)上的位置来标记。例如，样本S21是Y维度上的第二个样本(从顶部开始)和X维度上的第一个(从左侧开始)样本。类似地，样本S44在Y维度和X维度上都是块(104)中的第四个样本。由于该块为4×4尺寸的样本，因此S44位于右下角。还示出了遵循类似编号方案的示例参考样本。参考样本用″R″、以及其相对于块(104)的Y位置(例如，行索引)和X位置(例如，列索引)来标记。在H.264和H.265中，使用与重建中的块邻近地相邻预测样本。

块104的图片内预测可以通过根据用信号通知的预测方向，从相邻样本复制参考样本值来开始。例如，假设已编码视频码流包括信令，对于该块104，该信令指示箭头(102)的预测方向——也就是说，根据与水平方向成45度角的右上方的一个或多个预测样本来预测样本。在此类情况下，根据相同的参考样本R05来预测样本S41、S32、S23和S14。然后根据参考样本R08预测样本S44。

在某些情况下，例如通过插值，可以合并多个参考样本的值，以便计算参考样本，尤其是当方向不能被45度整除时。

随着视频编码技术不断发展，可能方向的数量增加。例如，在H.264(2003年)中，9个不同的方向可用于帧内预测。这在H.265(2013年)中增加到33个，并且JEM/VVC/BMS在本公开时可以支持多达65个方向。已经进行了实验研究来帮助识别最适合的帧内预测方向，并且可以使用熵编码中的某些技术来以少量比特对那些最适合的方向进行编码，接受用于方向的某些比特代价。此外，方向本身有时可以根据用于已经解码的相邻块的帧内预测的相邻方向来进行预测。

图1B示出了根据JEM描绘65个帧内预测方向的示意图(180)，以说明随着时间的推移各种编码技术中预测方向的数量增加。

用于将表示帧内预测方向的比特映射到已编码视频码流中的预测方向的方式可以随不同的视频编码技术而变化；并且可以例如从预测方向到帧内预测模式、到码字、到涉及最可能模式的复杂自适应方案和类似技术的简单直接映射。然而，在所有情况下，在视频内容中可能存在比某些其它方向在统计上更不可能出现的用于帧内预测的某些方向。由于视频压缩的目标是减少冗余，在精心设计的视频编码技术中，那些更不可能的方向将可以由比更可能的方向更大的比特数来表示。

图片间预测或帧间预测可以基于运动补偿。在运动补偿中，来自先前重建的图片或其部分(参考图片)的样本数据在由运动矢量(以下为MV)指示的方向上空间移位之后可以用于新重建的图片或图片部分(例如，块)的预测。在一些情况下，参考图片可以与当前重建中的图片相同。MV可以具有二维X和Y，或三维，其中第三维是使用中的参考图片的指示(近似时间维)。

在一些视频压缩技术中，可应用于样本数据的某一区域的当前MV可以从其它MV中预测，例如从与空间上邻近重建中区域的样本数据的其它区域相关的并且在解码顺序上先于当前MV的那些其它MV中预测。这样做可以通过依赖于去除相关MV中的冗余来显著减少编码MV所需的总数据量，从而增加压缩效率。MV预测可以有效地执行，例如，因为当对从照相机导出的输入视频信号(称为自然视频)进行编码时，存在比单个MV适用的区域大的区域在视频序列中沿类似方向移动的统计可能性。因此，在一些情况下可以使用从相邻区域的MV导出的类似运动矢量来预测。这导致给定区域的实际MV与从周围MV预测的MV类似或相同。在熵编码之后，此类MV又可以用比如果直接编码MV而不是从一个或多个相邻MV预测所使用的比特数更少的比特数来表示。在一些情况下，MV预测可以是从原始信号(即：样本流)导出的信号(即：MV)的无损压缩的示例。在其它情况下，MV预测本身可能是有损的，例如由于当从若干周围MV计算预测值时的舍入误差。

H.265/HEVC(ITU-T H.265建议书，“高效视频编解码(High Efficiency VideoCoding)”，2016年12月)中描述了各种MV预测机制。在H.265指定的多种MV预测机制中，本申请描述的是下文称作“空间合并”的技术。

请参考图2，当前块(201)包括在运动搜索过程期间已由编码器发现的样本，根据已产生空间偏移的相同尺寸的先前块，可预测所述样本。另外，可从一个或多个参考图片相关联的元数据中导出所述MV，而非对MV直接编码。例如，使用关联于A0、A1和B0、B1、B2(分别对应202到206)五个周围样本中的任一样本的MV，(按解码次序)从最近的参考图片的元数据中导出所述MV。在H.265中，MV预测可使用相邻块也使用的相同参考图片的预测值。

发明内容

本公开描述用于视频编码和/或解码的方法、装置和计算机可读存储介质的各种实施例。

根据一个方面，本公开的实施例提供一种用于视频解码中的多参考线帧内预测的方法。该方法包括由设备接收块的已编码视频码流。该设备包括存储指令的存储器和与存储器通信的处理器。该方法进一步包括由该设备对所述块进行分区，以获得多个子块；由该设备基于参考行，对多个子块中的子块执行多参考行帧内预测；以及由该设备对子块进行分区，以获得多个变换块。

根据另一方面，本公开的实施例提供一种用于视频编码和/或解码的装置。该装置包括存储指令的存储器；以及与该存储器通信的处理器。当处理器执行指令时，该处理器被配置为使该装置执行用于视频解码和/或编码的以上方法。

在另一方面中，本公开的实施例提供存储指令的非易失性计算机可读介质，这些指令在由计算机执行以用于视频解码和/或编码时使计算机执行以上用于视频解码和/或编码的方法。

在附图、说明书和权利要求中更详细地描述了以上方面和其它方面及其实施方案。

附图说明

从以下详细描述和附图中，所公开的主题的其它特征、性质以及各种优点将更加明显。

图1A示出了帧内预测方向模式的示例性子集的示意图。

图1B示出了示例性帧内预测方向的图示。

图2示出了在一个示例中当前块及其周围用于运动矢量预测的空间合并候选的示意图。

图3示出了根据示例实施例的通信系统(300)的简化框图的示意图。

图4示出了根据示例实施例的通信系统(400)的简化框图的示意图。

图5示出了根据示例实施例的视频解码器的简化框图的示意图。

图6示出了根据示例实施例的视频编码器的简化框图的示意图。

图7示出了根据另一示例实施例的视频编码器的框图。

图8示出了根据另一示例实施例的视频解码器的框图。

图9示出了根据本公开的示例实施例的编码块分区的一方案。

图10示出了根据本公开的示例实施例的编码块分区的另一方案。

图11示出了根据本公开的示例实施例的编码块分区的另一方案。

图12示出了根据本公开的示例实施例的编码块分区的另一方案。

图13示出了根据本公开的示例实施例的用于将编码块分区成多个变换块以及变换块的编码顺序的方案。

图14示出了根据本公开的示例实施例的用于将编码块分区成多个变换块以及变换块的编码顺序的另一方案。

图15示出了根据本公开的示例实施例的用于将编码块分区成多个变换块的另一方案。

图16示出了根据本公开的示例实施例的基于各种参考行的帧内预测方案。

图17示出了根据本公开的示例实施例的方法的流程图。

图18示出了根据本公开的示例实施例的计算机系统的示意图。

具体实施方式

现在将在下文中参考附图详细描述本发明，附图形成本发明的一部分，并且该附图通过图示的方式示出了实施例的具体示例。然而，请注意，本发明可以以各种不同的形式来体现，并且因此，所覆盖的或要求保护的主题旨在被解释为不限于以下将阐述的任何实施例。还请注意，本发明可以体现为方法、设备、部件或系统。因此，本发明的实施例可以例如采取硬件、软件、固件或其任何组合的形式。

在整个说明书和权利要求中，术语可以具有超出明确陈述的含义的上下文中所建议或暗示的微妙含义。如本文所使用的短语“在一个实施例中”或“在一些实施例中”不一定指相同实施例，并且如本文所使用的短语“在另一实施例中”或“在其它实施例中”不一定指不同实施例。同样，如本文所使用的短语“在一个实施方案中”或“在一些实施方案中”不一定指相同实施方案，并且如本文所使用的短语“在另一实施方案中”或“在其它实施方案中”不一定指不同实施方案。例如，所要求保护的主题旨在包括示例性实施例/实施方案的全部或部分的组合。

一般而言，术语可以至少部分地根据上下文中的使用来理解。例如，如本文所使用的术语诸如“和”、“或”、或者“和/或”可以包括多种含义，其可以至少部分取决于使用此类术语的上下文。通常，“或”如果用于关联列表，诸如A、B或C，则旨在意指A、B和C，在此以包括性意义使用，以及A、B或C，在此以排他性意义使用。此外，本文所使用的术语“一个或多个”或“至少一个”，至少部分地取决于上下文，可以用于以单数意义描述任何特征、结构或特性，或可以用于以复数意义描述特征、结构或特性的组合。类似地，术语，诸如“一个(a)”、“一种(an)”或“该”，同样可以被理解为表达单数用法或表达复数用法，这至少部分地取决于上下文。此外，术语“基于”或“由......确定”可以被理解为不一定旨在表达因素的排他集，而是可以允许存在不一定再次明确描述的附加因素，这至少部分地取决于上下文。

图3是根据本申请公开的实施例的通信系统(300)的简化框图。通信系统(300)包括多个终端装置，所述终端装置可通过例如网络(350)彼此通信。举例来说，通信系统(300)包括通过网络(350)互连的第一对终端装置(310)和(320)。在图3的实施例中，第一对终端装置(310)和(320)执行单向数据传输。举例来说，终端装置(310)可对视频数据(例如由终端装置(310)采集的视频图片流)进行编码以通过网络(350)传输到另一个终端装置(320)。已编码的视频数据以一个或多个已编码视频码流形式传输。终端装置(320)可从网络(350)接收已编码视频数据，对已编码视频数据进行解码以恢复视频数据，并根据恢复的视频数据显示视频图片。单向数据传输在媒体服务等应用中是较常见的。

在另一实施例中，通信系统(300)包括执行已编码视频数据的双向传输的第二对终端装置(330)和(340)，所述双向传输可例如在视频会议期间实施。对于双向数据传输，终端装置(330)和终端装置(340)中的每个终端装置可对视频数据(例如由终端装置采集的视频图片流)进行编码，以通过网络(350)传输到终端装置(330)和终端装置(340)中的另一终端装置。终端装置(330)和终端装置(340)中的每个终端装置还可接收由终端装置(330)和终端装置(340)中的另一终端装置传输的已编码视频数据，且可对所述已编码视频数据进行解码以恢复视频数据，且可根据恢复的视频数据在可访问的显示装置上显示视频图片。

在图3的实施例中，终端装置(310)、终端装置(320)、终端装置(330)和终端装置(340)可为服务器、个人计算机和智能电话，但本申请公开的基本原理的适用范围不限于此。本申请公开的实施例适用于桌上型计算机、膝上型计算机、平板电脑、媒体播放器、可穿戴计算机、专用视频会议设备等。网络(350)表示在终端装置(310)、终端装置(320)、终端装置(330)和终端装置(340)之间传送已编码视频数据的任何数目或类型的网络，包括例如有线(连线的)和/或无线通信网络。通信网络(350)可在电路交换、分组交换和/或其他类型信道中交换数据。该网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在本文中有明确解释，否则网络(350)的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

作为实施例，图4示出视频编码器和视频解码器在视频流式传输环境中的放置方式。本申请所公开主题可同等地适用于其它视频的应用，包括例如视频会议、数字TV广播、游戏、虚拟现实、在包括CD、DVD、存储棒等的数字介质上的压缩视频存储等等。

视频流式传输系统可包括采集子系统(413)，所述采集子系统可包括例如数码相机等视频源(401)，以创建例如未压缩的视频图片或图像流(402)。在实施例中，视频图片流(402)包括由视频源401的数码相机记录的样本。相较于已编码的视频数据(404)(或已编码的视频码流)，未压缩的视频图片流(402)被描绘为粗线以强调高数据量的视频图片流，视频图片流(402)可由电子装置(420)处理，所述电子装置(420)包括耦接到视频源(401)的视频编码器(403)。视频编码器(403)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于未压缩的视频图片流(402)，已编码的视频数据(404)(或已编码的视频码流(404))被描绘为细线以强调较低数据量的已编码的视频数据(404)(或已编码的视频码流(404))，其可存储在流式传输服务器(405)上，以供将来使用或者直接用于下游视频设备(未示出)。一个或多个流式传输客户端子系统，例如图4中的客户端子系统(406)和客户端子系统(408)，可访问流式传输服务器(405)以检索已编码的视频数据(404)的副本(407)和副本(409)。客户端子系统(406)可包括例如电子装置(430)中的视频解码器(410)。视频解码器(410)对已编码的视频数据的传入副本(407)进行解码，且产生可在显示器(412)(例如显示屏)或另一呈现装置(未描绘)上呈现的未压缩的输出视频图片流(411)。视频解码器410可配置为执行本公开中所述的各种功能的部分或全部功能。在一些流式传输系统中，可根据某些视频编码/压缩标准对已编码的视频数据(404)、视频数据(407)和视频数据(409)(例如视频码流)进行编码。该些标准的实施例包括ITU-T H.265。在实施例中，正在开发的视频编码标准非正式地称为下一代视频编码(Versatile VideoCoding，VVC)，本申请可用于VVC标准和其他视频编码标准的上下文中。

应注意，电子装置(420)和电子装置(430)可包括其它组件(未示出)。举例来说，电子装置(420)可包括视频解码器(未示出)，且电子装置(430)还可包括视频编码器(未示出)。

图5是根据本申请下面公开的实施例的视频解码器(510)的框图。视频解码器(510)可设置在电子装置(530)中。电子装置(530)可包括接收器(531)(例如接收电路)。视频解码器(510)可用于代替图4实施例中的视频解码器(410)。

接收器(531)可接收将由视频解码器(510)解码的一个或多个已编码视频序列；在同一实施例或另一实施例中，一次解码一个已编码视频序列，其中每个已编码视频序列的解码独立于其它已编码视频序列。每个视频序列可以与多个视频帧或图像相关联。可从信道(501)接收已编码视频序列，所述信道可以是通向存储已编码的视频数据的存储装置或者传输已编码视频数据的流式源的硬件/软件链路。接收器(531)可接收已编码的视频数据以及其它数据，例如，可转发到它们各自的处理电路(未标示)的已编码音频数据和/或辅助数据流。接收器(531)可将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器(515)可配置在接收器(531)与熵解码器/解析器(520)(此后称为“解析器(520)”)之间。在某些应用中，缓冲存储器(515)可以实施为视频解码器(510)的一部分。在其它应用中，所述缓冲存储器(515)可设置在视频解码器(510)外部并与视频解码器(510)分离(未标示)。而在其它应用中，视频解码器(510)的外部设置缓冲存储器(未标示)，以例如防止网络抖动，在视频解码器(510)的内部可以存在另一缓冲存储器(515)以例如处理播出定时。而当接收器(531)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时，也可能不需要配置缓冲存储器(515)，或可以将所述缓冲存储器做得较小。当然，为了在互联网等业务分组网络上使用，可能需要足够尺寸的缓冲存储器(515)，所述缓冲存储器可相对较大。这种缓冲存储器可具有自适应性大小，且可至少部分地实施于操作系统或视频解码器(510)外部的类似元件(未标示)中。

视频解码器(510)可包括解析器(520)以根据已编码视频序列重建符号(521)。这些符号的类别包括用于管理视频解码器(510)的操作的信息，以及用以控制显示装置(512)(例如，显示屏)等显示装置的潜在信息，所述显示装置可能是或可能不是电子装置(530)的组成部分，但可耦接到电子装置(530)，如图5中所示。用于显示装置的控制信息可以是辅助增强信息(Supplemental Enhancement Information，SEI消息)或视频可用性信息(VideoUsability Information，VUI)的参数集片段(未标示)。解析器(520)可对由解析器(520)接收到的已编码视频序列进行解析/熵解码。已编码视频序列的熵编码可根据视频编码技术或标准进行，且可遵循各种原理，包括可变长度编码、霍夫曼编码(Huffman coding)、具有或不具有上下文灵敏度的算术编码等等。解析器(520)可基于对应于子群的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(Group of Pictures，GOP)、图片、图块、切片、宏块、编码单元(CodingUnit，CU)、块、变换单元(Transform Unit，TU)、预测单元(Prediction Unit，PU)等等。解析器(520)还可从已编码视频序列提取信息，例如变换系数(例如变换系数)、量化器参数值、运动矢量等等。

解析器(520)可对从缓冲存储器(515)接收的视频序列执行熵解码/解析操作，从而创建符号(521)。

取决于已编码视频图片或一部分已编码视频图片(例如：帧间图片和帧内图片、帧间块和帧内块)的类型以及其它因素，符号(521)的重建可涉及多个不同处理或功能单元。涉及哪些单元以及涉及方式可由解析器(520)从已编码视频序列解析的子群控制信息控制。为了简洁起见，未描述解析器(520)与下文的多个处理或功能单元之间的此类子群控制信息流。

除已经提及的功能块以外，视频解码器(510)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施例中，这些单元中的许多功能单元彼此紧密交互并且可以彼此集成。然而，出于清楚描述所公开主题多种功能的目的，在下面的公开中采用了对功能单元的概念细分。

第一单元可以包括缩放器/逆变换单元(551)。缩放器/逆变换单元(551)从解析器(520)接收作为符号(521)的量化变换系数以及控制信息，包括指示使用哪种类型的反变换、块大小、量化因子/参数、量化缩放矩阵等信息。缩放器/逆变换单元(551)可输出包括样本值的块，所述样本值可输入到聚合器(555)中。

在一些情况下，缩放器/逆变换单元(551)的输出样本可属于帧内编码块；例如不使用来自先前重建的图片的预测性信息，但可使用来自当前图片的先前重建部分的预测性信息的块。此类预测性信息可由帧内图片预测单元(552)提供。在一些情况下，帧内图片预测单元(552)采用存储在当前图片缓冲器(558)中的已重建周围块信息生成大小和形状与正在重建的块相同的周围块。举例来说，当前图片缓冲器(558)缓冲部分重建的当前图片和/或完全重建的当前图片。在一些实施中，聚合器(555)基于每个样本，将帧内图片预测单元(552)生成的预测信息添加到由缩放器/逆变换单元(551)提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元(551)的输出样本可属于帧间编码和潜在运动补偿块。在此情况下，运动补偿预测单元(553)可访问参考图片存储器(557)以提取用于帧间图片预测的样本。在根据符号(521)对提取的样本进行运动补偿之后，这些样本可由聚合器(555)添加到缩放器/逆变换单元(551)的输出(单元551的输出被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(553)从参考图片存储器(557)内的地址获取预测样本可受到运动矢量控制，且所述运动矢量以所述符号(521)的形式而供运动补偿预测单元(553)使用，所述符号(521)例如是包括X、Y分量(位移)和参考图片分量(时间)。运动补偿还可包括在使用子样本精确运动矢量时，从参考图片存储器(557)提取的样本值的插值，运动补偿也可以与运动矢量预测机制相关联等等。

聚合器(555)的输出样本可在环路滤波器单元(554)中被各种环路滤波技术采用。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术受控于包括在已编码视频序列(也称作已编码视频码流)中的参数，且所述参数作为来自解析器(520)的符号(521)可用于环路滤波器单元(556)。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前重建且经过环路滤波的样本值。一些类型的环路滤波器可按各种顺序被包括作为环路滤波器单元556的一部分，如下文将进一步详细描述的。

环路滤波器单元(556)的输出可以是样本流，所述样本流可输出到显示装置(512)以及存储在参考图片存储器(557)，以用于后续的帧间图片预测。

一旦完全重建，某些已编码图片就可用作参考图片以用于将来预测。举例来说，一旦对应于当前图片的已编码图片被完全重建，且已编码图片(通过例如解析器(520))被识别为参考图片，则当前图片缓冲器(558)可变为参考图片存储器(557)的一部分，且可在开始重建后续已编码图片之前重新分配新的当前图片缓冲器。

视频解码器(510)可根据例如ITU-T H.265标准中采用的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述配置文件下可供使用的仅有工具。对于合规性，已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical ReferenceDecoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在一个实施例中，接收器(531)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(510)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余切片、冗余图片、前向纠错码等形式。

图6是根据本申请公开的实施例的视频编码器(603)的框图。视频编码器(603)设置于电子装置(620)中。电子装置(620)包括传输器(640)(例如传输电路)。视频编码器(603)可用于代替图4实施例中的视频编码器(403)。

视频编码器(603)可从视频源(601)(并非图6实施例中的电子装置(620)的一部分)接收视频样本，所述视频源可采集将由视频编码器(603)编码的视频图像。在另一实施例中，视频源(601)可以实施为电子装置(620)的一部分。

视频源(601)可提供将由视频编码器(603)编码的呈数字视频样本流形式的源视频序列，所述数字视频样本流可具有任何合适位深度(例如：8位、10位、12位......)、任何色彩空间(例如BT.601 Y CrCB、RGB、XYZ......)和任何合适取样结构(例如YCrCb 4∶2∶0、YCrCb 4∶4∶4)。在媒体服务系统中，视频源(601)可以是能够存储先前已准备的视频的存储装置。在视频会议系统中，视频源(601)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为多个单独的图片或图像，当按顺序观看时，这些图片被赋予运动。图片自身可构建为空间像素阵列，其中取决于正在使用的取样结构、色彩空间等，每个像素可包括一个或多个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。

根据实施例，视频编码器(603)可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列(643)。施行适当的编码速度是控制器(650)的一个功能。在一些实施例中，控制器(650)控制如下文所描述的其它功能单元且在功能上耦接到这些单元。为了简洁起见，图中未标示耦接。由控制器(650)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组(group of pictures，GOP)布局，允许的最大运动矢量搜索范围等。控制器(650)可用于具有其它合适的功能，这些功能涉及针对某一系统设计优化的视频编码器(503)。

在一些实施例中，视频编码器(603)在编码环路中进行操作。作为简单的描述，在实施例中，编码环路可包括源编码器(630)(例如，负责基于待编码的输入图片和参考图片创建符号，例如符号流)和嵌入于视频编码器(603)中的(本地)解码器(633)。解码器(633)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据，即使嵌入的解码器633在不进行熵编码的情况下通过源编码器630处理已编码视频流(因为在本申请所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入到参考图片存储器(634)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片存储器(634)中的内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)用于改进编码质量。

“本地”解码器(633)的操作可与例如已在上文结合图5详细描述视频解码器(510)的“远程”解码器相同。然而，另外简要参考图5，当符号可用且熵编码器(645)和解析器(520)能够无损地将符号编码/解码为已编码视频序列时，包括缓冲存储器(515)和解析器(520)在内的视频解码器(510)的熵解码部分，可能无法完全在编码器的本地解码器(633)中实施。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因，本申请有时侧重于解码器操作，该解码器操作与编码器的解码部分有关。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。下面仅在某些区域或方面对编码器进行更详细的描述。

在操作期间，在一些实施例中，源编码器(630)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考图片”的一个或多个先前已编码图片，所述运动补偿预测编码对输入图片进行预测性编码。以此方式，编码引擎(632)对输入图片的颜色通道中像素块与参考图片的像素块之间的差异(残差)进行编码，所述参考图片可被选作所述输入图片的预测参考。

本地视频解码器(633)可基于源编码器(630)创建的符号，对可指定为参考图片的图片的已编码视频数据进行解码。编码引擎(632)的操作可为有损过程。当已编码视频数据可在视频解码器(图6中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(633)复制解码过程，所述解码过程可由视频解码器对参考图片执行，且可使重建的参考图片存储在参考图片高速缓存(634)中。以此方式，视频编码器(603)可在本地存储重建的参考图片的副本，所述副本与将由远端(远程)视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。

预测器(635)可针对编码引擎(632)执行预测搜索。即，对于将要编码的新图片，预测器(635)可在参考图片存储器(634)中搜索可作为所述新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(635)可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，根据预测器(635)获得的搜索结果，可确定输入图片可具有从参考图片存储器(634)中存储的多个参考图片取得的预测参考。

控制器(650)可管理源编码器(630)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器(645)中对所有上述功能单元的输出进行熵编码。熵编码器(645)根据例如霍夫曼编码、可变长度编码、算术编码等技术对各种功能单元生成的符号进行无损压缩，从而将所述符号转换成已编码视频序列。

传输器(640)可缓冲由熵编码器(645)创建的已编码视频序列，从而为通过通信信道(660)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储装置的硬件/软件链路。传输器(640)可将来自视频编码器(603)的已编码视频数据与要传输的其它数据合并，所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(650)可管理视频编码器(603)的操作。在编码期间，控制器(650)可以为每个已编码图片分配某一已编码图片类型，但这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为以下任一种图片类型：

帧内图片(I图片)，其可以是不将序列中的任何其它图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，“IDR”)图片。所属领域的技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，多个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可在空间上细分成多个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，根据应用于块的相应图片的编码分配来确定所述其它块。举例来说，I图片的块可进行非预测编码，或所述块可参考同一图片的已经编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。为了其他目的，源图片或中间处理的图片可以被细分为其他类型的块。编码块和其他类型的块的划分可以遵循或可以不遵循相同的方式，如下文进一步详细描述的。

视频编码器(603)可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(603)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用视频编码技术或标准指定的语法。

在实施例中，传输器(640)可在传输已编码的视频时传输附加数据。源编码器(630)可将此类数据作为已编码视频序列的一部分。附加数据可包括时间/空间/SNR增强层、冗余图片和切片等其它形式的冗余数据、SEI消息、VUI参数集片段等。

采集到的视频可作为呈时间序列的多个源图片(视频图片)。帧内图片预测(常常简化为帧内预测)利用给定图片中的空间相关性，而帧间图片预测则利用图片之间的(时间或其它)相关性。在实施例中，将正在编码/解码的特定图片分割成块，正在编码/解码的特定图片被称作当前图片。在当前图片中的块类似于视频中先前已编码且仍被缓冲的参考图片中的参考块时，可通过称作运动矢量的矢量对当前图片中的块进行编码。所述运动矢量指向参考图片中的参考块，且在使用多个参考图片的情况下，所述运动矢量可具有识别参考图片的第三维度。

在一些实施例中，双向预测技术可用于帧间图片预测。根据双向预测技术，使用两个参考图片，例如按解码次序都在视频中的当前图片之前(但按显示次序可能分别是过去或将来)第一参考图片和第二参考图片。可通过指向第一参考图片中的第一参考块的第一运动矢量和指向第二参考图片中的第二参考块的第二运动矢量对当前图片中的块进行编码。具体来说，可通过第一参考块和第二参考块的组合来共同预测所述块。

此外，合并模式技术可用于帧间图片预测中以改善编码效率。

根据本申请公开的一些实施例，帧间图片预测和帧内图片预测等预测的执行以块为单位。举例来说，将视频图片序列中的图片分割成编码树单元(coding tree unit，CTU)以用于压缩，图片中的CTU具有相同大小，例如64×64像素、32×32像素或16×16像素。一般来说，CTU包括三个并行的编码树块(coding tree block，CTB)：一个亮度CTB和两个色度CTB。更进一步的，还可将每个CTU以四叉树拆分为一个或多个编码单元(coding unit，CU)。举例来说，可将64×64像素的CTU拆分为一个64×64像素的CU，或4个32×32像素的CU。一个或多个32×32块中的每个可以进一步划分成4个16×16像素的CU。在一个实施例中，可以在编码期间分析每个CU以在各种预测类型中确定用于CU的预测类型，各种预测类型例如为帧间预测类型或帧内预测类型。此外，取决于时间和/或空间可预测性，将CU拆分为一个或多个预测单元(prediction unit，PU)。通常，每个PU包括亮度预测块(prediction block，PB)和两个色度PB。在实施例中，编码(编码/解码)中的预测操作以预测块为单位来执行。可以以各种空间模式执行将CU分割为PU(或不同颜色通道的PB)。例如，亮度或色度PB可包括样本的值矩阵(例如，亮度值)，例如8x8像素、16x16像素、8x16像素和16x8样本等。

图7是根据本申请公开的另一示意性实施例的视频编码器(703)的图。视频编码器(703)用于接收视频图片序列中的当前视频图片内的样本值的处理块(例如预测块)，且将所述处理块编码到作为已编码视频序列的一部分的已编码图片中。在本实施例中，视频编码器(703)用于代替图4实施例中的视频编码器(303)。

在一个实施例中，视频编码器(703)接收用于处理块的样本值的矩阵，所述处理块为例如8×8样本的预测块等。然后，视频编码器(703)使用例如率失真优化(rate-distortion optimization，RDO)来确定是否使用帧内模式、帧间模式或双向预测模式来编码所述处理块。当确定在帧内模式中编码处理块时，视频编码器(703)可使用帧内预测技术以将处理块编码到已编码图片中；且当确定在帧间模式或双向预测模式中编码处理块时，视频编码器(703)可分别使用帧间预测或双向预测技术将处理块编码到已编码图片中。在一些示意性实施例中，合并模式可以是帧间图片预测的一个子模式，其中，在不借助预测值外部的已编码运动矢量分量的情况下，从一个或多个运动矢量预测值导出运动矢量。在某些其它示意性实施例中，可存在适用于主题块的运动矢量分量。因此，视频编码器(703)包括为在图7中明确示出的组件，例如用于确定处理块的预测模式的模式决策模块(未示出)。

在图7的实施例中，视频编码器(703)包括如图7中示例性布置所示的耦接到一起的帧间编码器(730)、帧内编码器(722)、残差计算器(723)、开关(726)、残差编码器(724)、通用控制器(721)和熵编码器(725)。

帧间编码器(730)用于接收当前块(例如处理块)的样本、比较所述块与参考图片中的一个或多个参考块(例如按照显示顺序，先前图片和后来图片中的块)、生成帧间预测信息(例如根据帧间编码技术的冗余信息描述、运动矢量、合并模式信息)、以及基于帧间预测信息使用任何合适的技术计算帧间预测结果(例如预测块)。在一些实施例中，参考图片是使用嵌入在图6的示例编码器620中的解码单元633(如图7的残差解码器728所示，详见下文)，基于已编码的视频信息解码的已解码参考图片。

帧内编码器(722)用于接收当前块(例如处理块)的样本、在一些情况下比较所述块与同一图片中已编码的块、在变换之后生成量化系数、以及在一些情况下还(例如根据一个或多个帧内编码技术的帧内预测方向信息)生成帧内预测信息。帧内编码器(722)基于帧内预测信息和同一图片中的参考块计算帧内预测结果(例如预测块)。

通用控制器(721)用于确定通用控制数据，且基于所述通用控制数据控制视频编码器(703)的其它组件。在实施例中，通用控制器(721)确定块的预测模式，且基于所述预测模式将控制信号提供到开关(726)。举例来说，当所述预测模式是帧内模式时，通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧内模式结果，且控制熵编码器(725)以选择帧内预测信息且将所述帧内预测信息添加在码流中；以及当用于块所述预测模式是帧间模式时，通用控制器(721)控制开关(726)以选择供残差计算器(723)使用的帧间预测结果，且控制熵编码器(725)以选择帧间预测信息且将所述帧间预测信息添加在码流中。

残差计算器(723)用于计算所接收的块与选自帧内编码器(722)或帧间编码器(730)的块的预测结果之间的差(残差数据)。残差编码器(724)用于对残差数据进行编码以生成变换系数。在实施例中，残差编码器(724)用于将残差数据从时域转换到频域，以生成变换系数。变换系数接着经由量化处理以获得量化的变换系数。在各种示意性实施例中，视频编码器(703)还包括残差解码器(728)。残差解码器(728)用于执行逆变换，且生成已解码残差数据。已解码残差数据可适当地由帧内编码器(722)和帧间编码器(730)使用。举例来说，帧间编码器(730)可基于已解码残差数据和帧间预测信息生成已解码块，且帧内编码器(722)可基于已解码残差数据和帧内预测信息生成已解码块。适当处理已解码块以生成已解码图片，且所述已解码图片可在存储器电路(未示出)中缓冲并用作参考图片。

熵编码器(725)用于将码流格式化以产生已编码的块和执行熵编码。熵编码器(725)配置为在码流中包括各种信息。在实施例中，熵编码器(725)用于获得通用控制数据、所选预测信息(例如帧内预测信息或帧间预测信息)、残差信息和码流中的其它合适的信息。应注意，当在帧间模式或双向预测模式的合并子模式中对块进行编码时，不存在残差信息。

图8是根据本申请公开的另一实施例的视频解码器(810)的图。视频解码器(810)用于接收作为已编码视频序列的一部分的已编码图像，且对所述已编码图像进行解码以生成重建的图片。在实施例中，视频解码器(810)用于代替图4实施例中的视频解码器(410)。

在图8实施例中，视频解码器(810)包括如图8中示意性布置所示耦接到一起的熵解码器(871)、帧间解码器(880)、残差解码器(873)、重建模块(874)和帧内解码器(872)。

熵解码器(871)可用于根据已编码图片来重建某些符号，这些符号表示构成所述已编码图片的语法元素。此类符号可包括例如用于对所述块进行编码的模式(例如帧内模式、帧间模式、双向预测模式、合并子模式或另一子模式)、可识别供帧内解码器(872)或帧间解码器(880)用以进行预测的某些样本或元数据的预测信息(例如帧内预测信息或帧间预测信息)、呈例如量化的变换系数形式的残差信息等等。在实施例中，当预测模式是帧间或双向预测模式时，将帧间预测信息提供到帧间解码器(880)；以及当预测类型是帧内预测类型时，将帧内预测信息提供到帧内解码器(872)。残差信息可经由逆量化并提供到残差解码器(873)。

帧间解码器(880)用于接收帧间预测信息，且基于所述帧间预测信息生成帧间预测结果。

帧内解码器(872)用于接收帧内预测信息，且基于所述帧内预测信息生成预测结果。

残差解码器(873)用于执行逆量化以提取解量化的变换系数，且处理所述解量化的变换系数，以将残差从频域转换到空间域。残差解码器(873)还可能使用某些控制信息(用以获得量化器参数QP)，该控制信息可由熵解码器(871)提供(未标示数据路径，因为这仅仅是低数据量控制信息)。

重建模块(874)用于在空间域中组合由残差解码器(873)输出的残差与预测结果(可由帧间预测模块或帧内预测模块输出)以形成重建的块，所述重建的块形成重建的图片的一部分，所述重建的图片可以作为重建的视频的一部分。应注意，可执行解块操作等其它合适的操作来改善视觉质量。

应注意，可使用任何合适的技术来实施视频编码器(403)、视频编码器(603)和视频编码器(703)，以及视频解码器(410)、视频解码器(510)和视频解码器(810)。在实施例中，可使用一个或多个集成电路来实施视频编码器(403)、视频编码器(603)和视频编码器(703)以及视频解码器(410)、视频解码器(510)和视频解码器(810)。在另一实施例中，可使用执行软件指令的一个或多个处理器来实施视频编码器(403)、视频编码器(603)和视频编码器(703)以及视频解码器(410)、视频解码器(510)和视频解码器(810)。

转向对块分区进行编码，并且在一些示例实施方案中，可以应用预定模式。如图9所示，可以采用从第一预定级(例如，64×64块级)开始向下到第二预定义级(例如，4×4级)的示例4路分区树。例如，基本块可以受限于由902、904、906和908指示的四个分区选项，其中指定为R的分区允许进行递归分区，图9所示的同一分区树可以以较低的规模重复，直到最低级别(例如，4x4级别)。在一些实施方案中，可以将附加限制应用于图9的分区方案。在图9的实施方案中，可以允许矩形分区(例如，1∶2/2∶1矩形分区)，但是可以不允许它们是递归的，而允许正方形分区是递归的。如果需要，按照图9的递归分区生成最终的编码块集。此类方案可以应用于一个或多个颜色通道。

图10示出了允许递归分区以形成分区树的另一示例预定义分区模式。如图10所示，可以预定义示例10路分区结构或模式。根块可以以预定义级(例如，从128×128级，或64×64级)开始。图10的示例分区结构包括各种2∶1/1∶2和4∶1/1∶4矩形分区。图10的第二行中1002、1004、1006和1008指示具有3个子分区的分区类型，可以被称为“T型”分区。“T型”分区1002、1004、1006和1008可以被称为左侧T型、顶部T型、右侧T型和底部T型。在一些实施方案中，图10的矩形分区不允许进一步细分。可以进一步定义编码树深度以指示从根节点或根块的分割深度。例如，根节点或根块(例如，128×128块)的编码树深度可以被设置为0，并且在根块按照图10的模式被进一步分割一次之后，将编码树深度增加1。在一些实施方案中，可以仅允许1010中的所有正方形分区按照图10的模式递归分区到分区树的下一级。换句话说，对于具有模式1002、1004、1006和1008的正方形分区，可以不允许递归分区。如果需要，按照图10的递归分区生成最终的编码块集。此类方案可以应用于一个或多个颜色通道。

在按照以上任何分区过程或其它过程划分或分区基本块之后，同样，可以获得最终的分区或编码块集。这些分区中的每一个可以处于各种分区级中的一个。每个分区可以被称为编码块(CB)。对于以上各种示例分区实施方案，每个产生的CB可以是任何允许的大小和分区级。它们被称为编码块，因为它们可以形成可以对其做出一些基本编码/解码决定的单元，并且编码/解码参数可以在编码视频码流中被优化、确定和用信号通知。最终分区中的最高级表示编码块分区树的深度。编码块可以是亮度编码块或色度编码块。

在一些其它示例实施方案中，四叉树结构可以用于将基本亮度和色度块递归地分割成编码单元。此类分割结构可以被称为编码树单元(CTU)，通过使用四叉树结构将该编码树单元分割成编码单元(CU)，以使分区适应于基础CTU的各种局部特性。在此类实施方案中，在图片边界处执行隐式四叉树分割，使得块将保持四叉树分割直到大小适合该图片边界。术语CU用于统称亮度和色度编码块(CB)的单元。

在一些实施方案中，CB可以被进一步分区。例如，为了编码和解码过程中的帧内或帧间预测的目的，CB可以被进一步分区成多个预测块(PB)。换句话说，CB可以被进一步划分成不同的子分区，其中可以进行单独的预测决定/配置。并行地，为了描绘执行视频数据的变换或逆变换的级别的目的，CB可以被进一步分区成多个变换块(TB)。CB到PB和TB的分区方案可以相同或可以不相同。例如，可以基于例如视频数据的各种特性使用其自己的过程来执行每个分区方案。在一些示例实施方案中，PB和TB分区方案可以是独立的。在一些其它示例实施方案中，PB和TB分区方案和边界可以是相关的。在一些实施方案中，例如，TB可以在PB分区之后被分区，特别是，每个PB在按照编码块的分区被确定之后，然后被进一步分区成一个或多个TB。例如，在一些实施方案中，PB可以被分割成一个、两个、四个或其它数量的TB。

在一些实施方案中，为了将基础块被分区成编码块并且进一步被分区成预测块和/或变换块，可以区别处理亮度通道和色度通道。例如，在一些实施方案中，可以允许亮度通道的编码块被分区成预测块和/或变换块，而不允许色度通道的编码块被分区成预测块和/或变换块。在此类实施方案中，亮度块的变换和/或预测因此可以仅在编码块级上执行。对于另一示例，亮度通道和色度通道的最小变换块大小可以不同，例如，可以允许亮度通道的编码块被分区成比色度通道更小的变换块和/或预测块。对于又一示例，将编码块分区成变换块和/或预测块的最大深度在亮度通道与色度通道之间可以不同，例如，可以允许亮度通道的编码块被分区成比色度通道更深的变换块和/或预测块。对于特定示例，亮度编码块可以被分区成多个大小的变换块，该变换块可以由向下进行多达2级的递归分区来表示，并且可以允许诸如正方形、2∶1/1∶2和4∶1/1∶4的变换块形状和从4×4到64×64的变换块大小。然而，对于色度块，仅可以允许为亮度块指定最大可能变换块。

在用于将编码块分区成PB的一些示例实施方案中，对PB进行分区的深度、形状和/或其它特性可以取决于PB是帧内编码还是帧间编码。

在各种示例方案中，可以实施将编码块(或预测块)分区成变换块，该方案包括但不限于递归或非递归地四叉树分割和预定义模式分割，并且附加对编码块或预测块的边界处的变换块的考虑。一般而言，产生的变换块可以处于不同的分割级，可以不具有相同的大小，并且可以不需要形状为正方形(例如，它们可以是具有一些允许的大小和纵横比的矩形)。

在一些实施方案中，可以使用编码分区树方案或结构。用于亮度和色度通道的编码分区树方案并不需要是相同的。换句话说，亮度和色度通道可以具有分离的编码树结构。此外，亮度和色度通道是否使用相同或不同的编码分区树结构以及要使用的实际编码分区树结构可以取决于正被编码的切片是P、B还是I切片。例如，对于I切片，色度通道和亮度通道可以具有分离的编码分区树结构或编码分区树结构模式，而对于P或B切片，亮度和色度通道可以共享相同的编码分区树方案。当应用分离的编码分区树结构或模式时，亮度通道可以通过一种编码分区树结构被分区成CB，并且色度通道可以通过另一种编码分区树结构被分区成色度CB。

下面描述编码块和变换块分区的具体示例实施方案。在此类示例实施方案中，可以使用以上描述的递归四叉树分割将基础编码块分割成编码块。在每一级，特定分区的进一步四叉树分割是否应继续可以由本地视频数据特性来确定。产生的CB可以处于各种大小的各种四叉树分割级。可以在CB级(或CU，用于所有三个颜色通道通道)作出是否使用图片间(时间)或图片内(空间)预测来编码图片区域的决定。可以根据PB分割类型将每个CB进一步分割成一个、两个、四个或其他数量的PB。在一个PB内，可以应用相同的预测过程，并且在PB的基础上将相关信息发送到解码器。在通过应用基于PB分割类型的预测过程获得残差块之后，CB可以根据与CB的编码树类似的另一四叉树结构被分区成TB。在该特定实施方案中，CB或TB可以是但不必限于正方形。此外，在此特定示例中，PB对于帧间预测可以是正方形或矩形形状并且对于帧内预测可以仅是正方形。编码块可以进一步被分割成例如四个正方形形状的TB。每个TB可以被进一步递归地分割(使用四叉树分割)成更小的TB，被称为残差四叉树(Residual Quad-Tree，RQT)。

下面描述用于将基础编码块分区成CB和其它PB和/或TB的另一具体示例。例如，具有使用二元和三元分割分段结构的嵌套多类型树的四叉树，而不是使用诸如图10中所示的多个分区单元类型。CB、PB和TB概念的分离(即，将CB分区成PB和/或TB，以及将PB分区成TB)可以被放弃，除非当需要具有对于最大变换长度而言太大的大小的CB时，其中此类CB可能需要进一步分割。该示例分区方案可以被设计为支持CB分区形状的更多灵活性，使得预测和变换都可以在CB级上执行而无需进一步分区。在此类编码树结构中，CU可以具有正方形或矩形形状。具体地，编码树块(CTB)可以首先被四叉树结构分区。然后，可以通过多类型树结构进一步分区四叉树叶节点。图11中示出了多类型树结构的示例。具体地，图11的示例多类型树形结构包括四种分割类型，其被称为垂直二元分割(SPLIT_BT_VER)(1102)、水平二元分割(SPLIT_BT_HOR)(1104)、垂直三元分割(SPLIT_TT_VER)(1106)和水平三元分割(SPLIT_TT_HOR)(1108)。然后，CB对应于多类型树的叶。在该示例实施方案中，除非CB对于最大变换长度太大，否则该分段被用于预测和变换处理，而无需任何进一步的分区。这意味着，在大多数情况下，CB、PB和TB在具有嵌套多类型树编码块结构的四叉树中具有相同的块大小。当最大支持变换长度小于CB的颜色分量的宽度或高度时，会发生例外情况。

图12中示出了具有用于一个CTB的块分区的嵌套多类型树编码块结构的四叉树的一个示例。更详细地，图12示出了CTB 1200被四叉树分割成四个正方形分区1202、1204、1206和1208。决定进一步使用图11的多类型树结构对四叉树分割分区的每一个进行分割。在图12的示例中，分区1204不被进一步分割。分区1202和1208各自采用另一个四叉树分割。对于分区1202，第二级四叉树分割的左上方、右上方、左下方和右下方分区分别采用四叉树的第三级分割、图11的1104、不分割以及图11的1108。分区1208采用另一个四叉树分割，并且第二级四叉树分割的左上方、右上方、左下方和右下方分区分别采用图11的1106的第三级分割、不分割、不分割以及图11的1104。1208的第三级左上方分区的子分区中的两个根据1104和1108被进一步分割。分区1206采用按照图11的1102的第二级分割模式分成两个分区，该两个分区根据图11的1108和1102进一步被第三级分割。根据图11的1104，第四级分割被进一步应用于它们中的一个。

对于以上特定示例，最大亮度变换大小可以是64×64，并且最大所支持的色度变换大小可以不同于例如32×32处的亮度。当亮度编码块或色度编码块的宽度或高度大于最大变换宽度或高度时，亮度编码块或色度编码块可以沿水平和/或垂直方向自动分割，以满足沿该方向的变换大小限制。

在用于将基础编码块分区成以上CB的特定示例中，编码树方案可以支持亮度和色度具有分离的块树结构的能力。例如，对于P和B切片，一个CTU中的亮度和色度CTB可以共享相同的编码树结构。例如，对于I切片，亮度和色度可以具有分离的编码块树结构。当应用分离的块树模式时，亮度CTB通过一种编码树结构被分区成CB，并且色度CTB通过另一种编码树结构被分区成色度CB。这意味着I切片中的CU可以由亮度分量的编码块或两个色度分量的编码块组成，并且P或B切片中的CU总是由所有三个颜色分量的编码块组成，除非视频是单色的。

下文进一步详细描述用于将编码块或预测块分区成变换块的示例实施方案和变换块的编码顺序。在一些示例实施方案中，变换分区可以支持多种形状，例如，1∶1(正方形)、1∶2/2∶1和1∶4/4∶1的变换块，其中变换块大小范围从例如4×4到64×64。在一些实施方案中，如果编码块小于或等于64×64，则变换块分区可以仅应用于亮度分量，使得对于色度块，变换块大小与编码块大小相同。否则，如果编码块宽度或高度大于64，那么亮度和色度编码块可以分别被隐式地分割成数倍的min(W，64)×min(H，64)和min(W，32)×min(H，32)变换块。

在一些示例实施方案中，对于帧内编码块和帧间编码块两者，编码块可以被进一步分区成具有多达预定级数(例如，2级)的分区深度的多个变换块。变换块分区深度和大小可以是相关的。从当前深度的变换大小到下一深度的变换大小的示例映射在下表1中示出。

表1：变换分区大小设置

基于表1的示例映射，对于1∶1正方形块，下一级变换分割可以创建四个1∶1正方形子变换块。变换分区可以例如在4×4处停止。这样，当前深度4×4的变换大小对应于下一深度的相同大小4×4。在表1的示例中，对于1∶2/2∶1非正方形块，下一级变换分割将创建两个1∶1正方形子变换块，而对于1∶4/4∶1非正方形块，下一级变换分割将创建两个1∶2/2∶1子变换块。

在一些示例实施方案中，对于帧内编码块的亮度分量，可以应用附加限制。例如，对于进行变换分区的每个级别，所有子变换块可以被限制为具有相同的大小。例如，对于32×16编码块，级l变换分割创建两个16×16子变换块，级2变换分割创建八个8×8子变换块。换句话说，第二级分割必须应用于所有第一级子块，以保持变换单元大小相等。在图13中示出了表1所示的用于帧内编码正方形块的变换块分区的示例，以及由箭头图示的编码顺序。具体地，1302示出了正方形编码块。在1304中示出了根据表1，分割成4个相等大小的变换块的第一级分割，其中编码顺序由箭头指示。在1306中，示出了根据表1将所有第一级大小相等的块分割成16个大小相等的变换块的第二级分割，其中编码顺序由箭头指示。

在一些示例实施方案中，对于帧间编码块的亮度分量，可以不应用以上对帧内编码的限制。例如，在第一级变换分割之后，子变换块中的任何一个可以进一步独立地再分割一级。因此，产生的变换块可以具有或可以不具有相同的大小。在图14中示出了将帧间编码块分割成的变换块的示例，变换块具有编码顺序。在图14的示例中，根据表1，帧间编码块1402被分割成处于二级的变换块。在第一级，帧间编码块被分割成四个相等大小的变换块。然后，如1404所示，四个变换块中只有一个(不是所有的)被进一步分割成四个子变换块，导致总共7个变换块具有两种不同的大小。这7个变换块的示例编码顺序由图14的1404中的箭头示出。

在一些示例实施方案中，对于一个或多个色度分量，可以应用对变换块的一些附加限制。例如，对于一个或多个色度分量，变换块大小可以与编码块大小一样大，但不小于预定义大小，例如8×8。

在一些其它示例实施方案中，对于宽度(W)或高度(H)大于64的编码块，亮度和色度编码块两者可以分别被隐式地分割成数倍的min(W，64)×min(H，64)和min(W，32)×min(H，32)变换单元。

图15进一步示出了用于将编码块或预测块分区成变换块的另一可选示例方案。如图15所示，代替使用递归变换分区，可以根据编码块的变换类型将预定义的分区类型集应用于编码块。在图15中所示的特定示例中，可以应用6种示例分区类型中的一种来将编码块分割成各种数量的变换块。此类方案可以应用于编码块或预测块。

更详细地，图15的分区方案为如图15所示的任何给定变换类型提供了多达6个分区类型。在此方案中，例如可以基于率失真代价向每一编码块或预测块分配变换类型。在示例中，可以基于编码块或预测块的变换分区类型来确定分配给编码块或预测块的分区类型。特定分区类型可以对应于变换块分割大小和模式(或分区类型)，如图15中所图示的4种分区类型所示。可以预定义各种变换类型与各种分区类型之间的对应关系。下面示出了对应的示例，其中大写的标记指示可以基于率失真代价分配给编码块或预测块的变换类型：

·PARTITION_NONE：分配等于块大小的变换大小。

·PARTITION_SPLIT：分配的变换大小是块大小的宽度的

和块大小的高度的

。

·PARTITION_HORZ：分配具有与块大小相同宽度和块大小的高度的

的变换大小。

·PARTITION_VERT：分配具有块大小的宽度的

和与块大小相同高度的变换大小。

·PARTITION_HORZ4：分配具有与块大小相同宽度和块大小的高度的

的变换大小。

·PARTITION_VERT4：分配具有块大小的宽度的

和与块大小相同高度的变换大小。

在上面的示例中，如图15所示的所有分区类型包含分区变换块的统一变换大小。这仅仅是示例而非限制。在一些其它实施方案中，混合变换块大小可以用于特定分区类型(或模式)的分区变换块。

返回到帧内预测，在一些示例实施方案中，编码块或预测块中的样本预测可以基于一组参考行中的一个。换句话说，不是总使用最近的相邻行(例如，预测块的最接近的顶部相邻行或最接近的左侧相邻行，如上面图1所示)，可以提供多参考行作为选择帧内预测的选项。此类帧内预测实施方案可以被称为多参考行选择(Multiple Reference LineSelection，MRLS)。在这些实施方案中，编码器决定并且用信号通知使用多个参考行中的哪个参考行来生成帧内预测器(intra predictor)在解码器侧，在解析参考行索引之后，可以通过根据帧内预测模式(诸如方向、非方向和其它帧内预测模式)查找指定的参考行来识别已重建的参考样本，产生当前帧内预测块的帧内预测。在一些实施方案中，可以在编码块级中用信号通知参考行索引，并且可以仅选择多参考行中的一条并且将其用于一个编码块的帧内预测。在一些示例中，可以选择多于一个参考行一起用于帧内预测。例如，利用或不利用权重，多于一个参考行可以被组合、平均、内插或以任何其它方式，以产生预测。在一些示例实施方案中，MRLS可以仅应用于亮度分量而不应用于一个或多个色度分量。

在图16中，描绘了4条参考行MRLS的示例。如图16的示例所示，可以基于4个水平参考行1604、1606、1608和1610以及4个垂直参考行1612、1614、1616和1618中的一个，预测帧内编码块1602。在这些参考行中，1610和1618是最接近的相邻参考行。参考行可以根据其与编码块的距离来索引。例如，参考行1610和1618可以被称为零参考行，而其它参考行可以被称为非零参考行。具体地，参考行1608和1616可以被称为第一参考行；参考行1606和1614可以被称为第二参考行；并且参考行1604和1612可以被称为第三参考行。

在一些实施方案中，变换块的大小可以等于或小于对应的已编码块的大小。在变换块的大小小于对应已编码块的大小的情况下，在已编码块内可以存在多个变换块。然而，如果在编码块级上用信号通知已编码块的参考行索引，则已编码块内的所有变换块需要将参考行索引用于帧内预测。用于多个变换块的相同参考行索引可能是不期望的并且低效的，因为此方法可能不适应个别变换块的局部纹理。

本公开描述了各种实施例，用于在视频编码和/或解码中用信号通知和/或确定多参考行帧内预测，解决上述问题/难题中的至少一个。

在各种实施例中，参考图17，一种用于视频解码中的多参考行帧内预测的方法1700。方法1700可以包括以下步骤的一部分或全部：步骤1710，由设备接收块的已编码视频码流，所述设备包括存储指令的存储器和与所述存储器通信的处理器；步骤1720，由所述设备对所述块进行分区，以获得多个子块；步骤1730，由所述设备基于参考行对所述多个子块中的子块执行多参考行帧内预测；和/或步骤1740，由所述设备对所述子块进行分区，以获得多个变换块。在一些实施方案中，可以针对子块选择参考行以用于执行多参考行帧内预测。在一些其它实施方案中，该多个子块可以是多个已编码块，并且该子块可以是该多个子块中的已编码块。

在本公开的各种实施例中，块(例如但不限于编码块、预测块或变换块)的大小可以指块的宽度或高度。块的宽度或高度可以是以像素为单位的整数。

在本公开的各种实施例中，块(例如但不限于编码块，预测块或变换块)的大小可以指块的面积大小。块的面积大小可以是以像素为单位通过块的宽度乘以块的高度计算的整数。

在本公开的一些各种实施例中，块(例如但不限于，编码块、预测块或变换块)的大小可以指块的宽度或高度的最大值、块的宽度或高度的最小值或块的纵横比。块的纵横比可以计算为块的宽度除以高度，或者可以计算为块的高度除以宽度。

在本公开中，参考行索引指示多参考行中的一个参考行。在各种实施例中，用于块的参考行索引为0可以指示与块邻近的参考行，其也是与块最近的参考行。例如，参考图16中的块(1602)，顶部参考行(1610)是块(1602)的顶部邻近参考行，其也是块的顶部最近参考行；并且左侧参考行(1618)是块(1602)的左侧邻近参考行，其也是块的左侧最近参考行。块的大于0的参考行索引指示块的非邻近参考行，其也是块的非最近参考行。例如，参考图16中的块(1602)，参考行索引为1可以指示顶部参考行(1608)和/或左侧参考行(1616)；参考行索引为2可以指示顶部参考行(1606)和/或左侧参考行(1614)；和/或参考行索引为3可以指示顶部参考行(1604)和/或左侧参考行(1612)。

在用于视频编码和/或解码的各种实施例中，与当一个或多个非邻近参考行用于帧内预测时相比，当邻近参考行用于帧内预测时，可以应用不同的信号通知方法来确定和/或指示变换块的大小。

参考步骤1710，该设备可以是图5中的电子设备(530)或者图8中的视频解码器(810)。在一些实施方案中，该设备可以是图6中的编码器(620)中的解码器(633)。在其它实施方案中，该设备可以是图5中的电子设备(530)的一部分、图8中的视频解码器(810)的一部分，或者图6中的编码器(620)中的解码器(633)的一部分。已编码视频码流可以是图8中的已编码视频序列，或者图6或图7中的中间已编码数据。在一些实施方案中，该块可以指编码块或已编码块。

参考步骤1720，该设备可以对块进行分区以获得多个已编码块。在一些实施方案中，该设备可以对块进行分区以获得编码块分区树，或统称为编码树块(CTB)。编码块分区树可以包括多个已编码块。

参考步骤1730，该设备基于选择的一个或多个参考行，对多个已编码块中的已编码块执行多参考行帧内预测。所选择的参考行可以是以下各项中的至少一项：邻近参考行，包括顶部邻近参考行和/或左侧邻近参考行；一个或多个非邻近参考行，包括一个或多个顶部非邻近参考行和/或一个或多个左侧非邻近参考行。当满足某个条件时，所选择的参考行可以由预定义规则和/或默认值来指示。所选择的参考行可以由从已编码视频码流提取的参数指示。

参考步骤1740，该设备可以进一步分区已编码块以获得多个变换块，使得多个变换块中的一个或多个变换块可以小于已编码块。在一些实施方案中，该设备可以分区已编码块以获得变换块分区树。

在各种实施例中，已编码视频码流包括指示所选择的参考行为非邻近参考行的第一参数。方法1700可以进一步包括从已编码视频码流提取第一参数。步骤1740可以包括在不使用变换参数的情况下对已编码块进行分区，以获得多个变换块。在一些实施方案中，当非邻近参考行被指示为所选择的参考行时，可以在不使用任何变换参数的情况下对已编码块进行分区，以获得多个变换块。

在本公开的各种实施例中，一个块的邻近参考行可以指离该块最近的参考行。例如，参考图16中的块(1602)，顶部参考行(1610)是块(1602)的顶部邻近参考行，其也是块的顶部最近参考行；并且左侧参考行(1618)是块(1602)的左侧邻近参考行，其也是块的左侧最近参考行。非邻近参考行可以指不与块最近的参考行，即与块非最近的参考行。例如，参考图16中的块(1602)，顶部参考行(1608)、左侧参考行(1616)、顶部参考行(1606)、左侧参考行(1614)、顶部参考行(1604)和/或左侧参考行(1612)是块(1602)的非邻近参考行。

在一些实施方案中，变换块分区树包括变换块；响应于已编码块的大小小于或等于最大变换块的大小，变换块的大小等于已编码块的大小；和/或响应于已编码块的大小大于或等于最大变换块的大小，变换块的大小等于最大变换块的大小。

在各种实施例中，当非邻近参考行用于当前已编码块的帧内预测时，变换块的大小不需要由已编码视频码流用信号通知，因此对视频进行解码不需要将已编码视频码流解析为额外的任何信令以指示变换块的大小。

作为一个示例，当非邻近参考行用于当前块并且已编码块的大小小于或等于最大变换块大小时，变换块的大小可以总是等于已编码块的大小。最大变换块大小可以是变换块的最大大小。

作为另一示例，当非邻近参考行用于当前块并且已编码块的大小大于或等于最大变换块大小时，变换块大小总是等于最大变换块大小。

在各种实施例中，基于所选择的参考行被指示为是邻近参考行还是非邻近参考行，来确定多个变换块的变换深度或变换块分区树的变换深度。

在一些实施方案中，响应于被指示为非邻近参考行的所选择的参考行的变换块分区树的变换深度比响应于被指示为邻近参考行的所选择的参考行的变换块分区树的变换深度小N个深度，其中N是非负整数。

在各种实施例中，当应用不同的参考行以对当前块执行帧内预测时，所允许的变换深度可以根据是否使用邻近参考行或是否使用非邻近参考行来执行帧内预测而不同。

作为一个示例，响应于非邻近参考行用于执行帧内预测，所允许的变换深度可以比响应于邻近参考行用于执行帧内预测，所允许的变换深度小N个深度。在一些实施方案中，N是非负整数，诸如0、1或2。

作为另一示例，当N＝1时，响应于非邻近参考行用于执行帧内预测，所允许的变换深度可以是0，并且响应于邻近参考行用于执行帧内预测，所允许的变换深度可以是1。

作为另一示例，当N＝2时，响应于非邻近参考行用于执行帧内预测，所允许的变换深度可以是0，并且响应于邻近参考行用于执行帧内预测，所允许的变换深度可以是2。

在各种实施例中，参考行索引指示所选择的参考行；并且基于参考行索引导出的上下文，上下文用于解析多个变换块或变换块分区树的至少一个参数。在一些实施方案中，参考行索引可以由设备从已编码视频码流提取的参数来指示。在一些其它实施方案中，上下文可以是各种概率的累积密度函数(CDF)，其被导出用于用信号表示变换块的大小。

在一些实施方案中，当使用不同的参考行来对当前已编码块执行帧内预测时，使用不同的上下文(或CDF)来用信号表示变换块大小。在一些其它实施方案中，当使用邻近或非邻近参考行来执行当前块的帧内预测时，使用不同的上下文(或CDF)来用信号表示变换块大小。

在各种实施例中，已编码视频码流包括第一参数和第二参数，第一参数指示多个变换块或变换块分区树，并且第二参数指示所选择的参考行。在一些实施方案中，可以针对个别变换块单独地用信号通知变换块级处的参考行索引，使得每个变换块可以具有使用不同参考行的灵活性。

在一些实施方案中，编码块分区树中的已编码块可以被进一步分区成多个变换块，使得变换块分区树中的变换块小于编码块分区树中的已编码块。已编码的码流可以包括用信号通知已编码块的进一步分区、变换分割或变换块的大小的参数。

在一些其它实施方案中，用于帧内预测的参考行的信令可能取决于变换块大小或变换分割的信令。

作为一个示例，当变换块分割深度大于给定阈值时，参考行的选择可以不取决于信令，而是可导出为默认值。给定阈值可以是非负整数；例如，但不限于，给定阈值可以包括0、1、2、3、4、......，或8中的一个。参考行索引的默认值(例如但不限于)可以指示用于帧内预测的邻近参考行。

在用于熵编码和/或解码的各种实施例中，第一参数的语法被用作第二参数的上下文。第一参数指示多个变换块或变换块分区树，以及第二参数指示所选择的参考行。

在一些实施方案中，由于变换块大小/变换分割与参考行索引之间的相关性，与变换块大小或变换分割的信令相关的语法值可以被用作参考行索引的熵编码的上下文。

在一些实施例中，已编码视频码流包括指示所选择的参考行的第一参数；编码块分区树中的已编码块进一步分割成变换块分区树中的多个变换块；和/或基于已编码块中的每个变换块的相对位置来确定多个变换块中的每个变换块的所选择的参考行。在一些实施方案中，响应于多个变换块中的第一变换块位于已编码块的边界处，用于第一变换块的第一所选择的参考行由第一参数指示；和/或响应于多个变换块中的第二变换块不位于已编码块的边界处，用于第二变换块的第二所选择的参考行由默认值指示。

在一些实施方案中，当用指示正在应用特定非邻近参考行的值来用信号通知语法时，对于不同的变换块，用于帧内预测的参考行取决于变换块在编码块内的相对位置。在一些其它实施方案中，位于编码块边界处的变换块可以使用由语法指示的参考行来执行帧内预测，并且默认参考行(例如，邻近参考行)用于其余变换块以执行帧内预测。编码块的边界可以包括顶部边界、左侧边界或者顶部边界和左侧边界等中的一个。

本公开中的实施例可以单独使用或以任何顺序组合使用。此外，方法(或实施例)、编码器和解码器中的每一者可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)实施。在一个示例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序。本公开的实施例可以应用于亮度块或色度块；并且在色度块中，实施例可以单独应用于多于一个颜色分量，或者可以一起应用于多于一个颜色分量。

以上所描述的技术可以被实施为使用计算机可读指令并且物理地存储在一个或多个计算机可读介质中的计算机软件。例如，图18示出了适于实施所公开的主题的某些实施例的计算机系统(2600)。

计算机软件可以使用任何合适的机器代码或计算机语言进行编码，机器代码或计算机语言可以通过汇编、编译、链接或类似机制来创建包括可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接或通过解释、微代码执行等执行的指令的代码。

指令可以在各种类型的计算机或其部件上执行，包括例如个人计算机、平板计算机、服务器、智能电话、游戏设备、物联网设备等。

图18所示的用于计算机系统(2600)的部件本质上是示例性的，并且不旨在对实施本公开的实施例的计算机软件的使用范围或功能性提出任何限制。部件的配置也不应被解释为对计算机系统(2600)的示例性实施例中所图示的任何一个部件或其组合具有任何依赖性或要求。

计算机系统(2600)可以包括某些人机接口输入设备。此类人机接口输入设备可以响应于一个或多个人类用户通过例如触觉输入(诸如：击键、滑动、数据手套移动)、音频输入(诸如：语音、拍打)、视觉输入(诸如：手势)、嗅觉输入(未示出)的输入。人机接口设备还可以用于捕获不一定与人的有意识输入直接相关的某些介质，诸如音频(诸如：语音、音乐、环境声音)、图像(诸如：扫描图像、从静止图像照相机获得的摄影图像)、视频(诸如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下中的一个或多个(每种仅描绘了一个)：键盘(2601)、鼠标(2602)、触控板(2603)、触摸屏(2610)、数据手套(未示出)、操纵杆(2605)、麦克风(2606)、扫描仪(2607)、照相机(2608)。

计算机系统(2600)还可以包括某些人机接口输出设备。此类人机接口输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感觉。此类人机接口输出设备可以包括触觉输出设备(例如触摸屏(2610)、数据手套(未示出)或操纵杆(2605)的触觉反馈，但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(诸如：扬声器(2609)、耳机(未描绘))、视觉输出设备(诸如屏幕(2610)，包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕，其各自具有或不具有触摸屏输入能力，各自具有或不具有触觉反馈能力一其中一些能够通过诸如立体输出的方式输出二维视觉输出或多于三维输出；虚拟现实眼镜(未描绘)、全息显示器和烟雾罐(未描绘))，以及打印机(未描绘)。

计算机系统(2600)还可以包括人类可访问的存储设备及其相关联的介质，诸如包括具有CD/DVD的CD/DVD ROM/RW(2620)等介质(2621)的光学介质、拇指驱动器(2622)、可移动硬盘驱动器或固态驱动器(2623)、诸如磁带和软盘(未描绘)的传统磁性介质、诸如安全软件狗(未描绘)的基于专用ROM/ASIC/PLD的设备等。

本领域技术人员还应当理解，结合当前公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它易失性信号。

计算机系统(2600)还可以包括到一个或多个通信网络(2655)的接口(2654)。网络例如可以是无线的、有线的、光学的。网络还可以是本地的、广域的、城域的、车辆的和工业的、实时的、延迟容许型的等等。网络的示例包括诸如以太网的局域网、无线LAN、包括GSM、3G、4G、5G、LTE等的蜂窝网络、包括有线TV、卫星TV和地面广播TV的TV有线或无线广域数字网络、包括CAN总线的车辆的和工业的网络等。某些网络通常需要附接到某些通用数据端口或外围总线(2649)的外部网络接口适配器(诸如例如，计算机系统(2600)的USB端口)；其它网络通常通过附接到如下所描述的系统总线而集成到计算机系统(2600)的核心中(例如以太网接口到PC计算机系统中或蜂窝网络接口到智能电话计算机系统中)。使用这些网络中的任何一个，计算机系统(2600)可以与其它实体进行通信。此类通信可以是单向的仅接收(例如，广播TV)、单向的仅发送(例如，CANbus到某些CANbus设备)，或双向的，例如到使用局域数字网络或广域数字网络的其它计算机系统。可以在如上所描述的那些网络和网络接口中的每一个上使用某些协议和协议栈。

上述人机接口设备、人类可访问的存储设备和网络接口可以附接到计算机系统(2600)的核心(2640)。

核心(2640)可以包括一个或多个中央处理单元(CPU)(2641)、图形处理单元(GPU)(2642)、现场可编程门阵列(FPGA)(2643)形式的专用可编程处理单元、用于某些任务的硬件加速器(2644)、图形适配器(2650)等。这些设备连同只读存储器(ROM)(2645)、随机存取存储器(2646)、诸如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储器(2647)可以通过系统总线(2648)连接。在一些计算机系统中，系统总线(2648)可以以一个或多个物理插头的形式访问，以使得能够通过附加CPU、GPU等进行扩展。外围设备可以直接或通过外围总线(2649)附接到核心的系统总线(2648)。在一个示例中，屏幕(2610)可以连接到图形适配器(2650)。外围总线的体系结构包括PCI、USB等。

CPU(2641)、GPU(2642)、FPGA(2643)和加速器(2644)可以执行某些指令，这些指令的组合可以构成上述计算机代码。该计算机代码可以存储在ROM(2645)或RAM(2646)中。过渡数据也可以存储在RAM(2646)中，而永久数据可以存储在例如内部大容量存储器(2647)中。可以通过使用高速缓存存储器来启用对任何存储器设备的快速存储和检索，高速缓存存储器可以与一个或多个CPU(2641)、GPU(2642)、大容量存储器(2647)、ROM(2645)、RAM(2646)等紧密相关联。

计算机可读介质可以在其上具有用于执行各种计算机实施的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构建的那些，或者它们可以是计算机软件领域的技术人员公知和可用的类型。

作为非限制性示例，具有体系结构的计算机系统(2600)，并且特别是核(2640)可以提供作为一个或多个处理器(包括CPU、GPU、FPGA、加速器等)执行体现在一个或多个有形的计算机可读介质中的软件的结果的功能性。此类计算机可读介质可以是与如上所介绍的用户可访问的大容量存储器相关联的介质，以及具有非易失性性质的核心(2640)的某些存储器，诸如核心内部大容量存储器(2647)或ROM(2645)。实施本公开的各种实施例的软件可以存储在此类设备中并由核(2640)执行。根据特定需要，计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使核心(2640)并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM(2646)中的数据结构并且根据由软件定义的过程修改此类数据结构。另外或作为替代，计算机系统可以提供作为逻辑硬连线的结果或以其它方式体现在电路(例如：加速器(2644))中的功能性，其可以代替软件或与软件一起操作以执行本文描述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可以包括存储用于执行的软件的电路(诸如集成电路(IC))、体现用于执行的逻辑的电路，或两者。本公开包括硬件和软件的任何合适的组合。

虽然已经参考说明性实施例描述了特定发明，但是该描述并不意味着限制。根据该描述，本发明的说明性实施例和附加实施例的各种修改对于本领域普通技术人员将是显而易见的。本领域技术人员将容易地认识到，在不脱离本发明的精神和范围的情况下，可以对在本文中图示和描述的示例性实施例进行这些和各种其它修改。因此，设想所附权利要求书将涵盖任何此类修改和替代实施例。图示中的某些比例可能被夸大，而其它比例可能被最小化。因此，本公开和附图被认为是说明性的而非限制性的。

Claims

1.一种用于视频解码中的多参考行帧内预测的方法，其中，所述方法包括：

由设备接收块的已编码视频码流，所述设备包括存储指令的存储器和与所述存储器通信的处理器；

由所述设备对所述块进行分区，以获得多个子块；

由所述设备基于参考行对所述多个子块中的子块执行多参考行帧内预测；以及

由所述设备对所述子块进行分区，以获得多个变换块。

2.根据权利要求1所述的方法，其中：

所述已编码视频码流包括第一参数，所述第一参数指示所述参考行为非邻近参考行；以及

所述对所述子块进行分区，以获得多个变换块，包括：

在不使用变换参数的情况下，对所述子块进行分区，以获得所述多个变换块。

3.根据权利要求1至2中任一项所述的方法，其中，对于所述多个变换块中的变换块：

响应于所述子块的大小小于或等于最大变换块的大小，所述变换块的大小等于所述子块的大小；以及

响应于所述子块的大小大于或等于所述最大变换块的大小，所述变换块的所述大小等于所述最大变换块的大小。

4.根据权利要求1所述的方法，其中：

所述多个变换块的变换深度是基于所述参考行被指示为邻近参考行还是非邻近参考行来确定的。

5.根据权利要求1至4中任一项所述的方法，其中：

响应于被指示为所述非邻近参考行的所述参考行的所述多个变换块的变换深度比响应于被指示为所述邻近参考行的所述参考行的所述多个变换块的变换深度小N个深度，其中N是非负整数。

6.根据权利要求1所述的方法，其中：

参考行索引指示所述参考行；以及

基于所述参考行索引导出的上下文用于解析所述多个变换块的至少一个参数。

7.根据权利要求1所述的方法，其中：

所述已编码视频码流包括第一参数和第二参数，所述第一参数指示所述多个变换块，并且所述第二参数指示所述参考行。

8.根据权利要求1至7中任一项所述的方法，其中：

所述多个变换块中的变换块小于所述多个子块中的所述子块。

9.根据权利要求1所述的方法，其中：

在熵解码期间，第一参数的语法被用作第二参数的上下文。

10.根据权利要求1所述的方法，其中：

所述已编码视频码流包括指示所述多个变换块的第一参数，以及

所述参考行是基于所述第一参数确定的。

11.根据权利要求1所述的方法，其中：

响应于所述多个变换块的变换深度大于阈值，所述参考行被确定为默认选择。

12.根据权利要求1所述的方法，其中：

所述已编码视频码流包括指示所述参考行的第一参数；

所述多个子块中的所述子块进一步分割成多个变换块；以及

所述多个变换块中的每个变换块的所述参考行是基于所述子块中的每个变换块的相对位置来确定的。

13.根据权利要求1至12中任一项所述的方法，其中：

响应于所述多个变换块中的第一变换块位于所述子块的边界处，用于所述第一变换块的第一参考行由所述第一参数指示；以及

响应于所述多个变换块中的第二变换块不位于所述子块的所述边界处，用于所述第二变换块的第二参考行由默认值指示。

14.一种用于视频解码中的多参考行帧内预测的装置，其中，所述装置包括：

存储指令的存储器；以及

与所述存储器通信的处理器，其中，当所述处理器执行所述指令时，所述处理器被配置为使所述装置：

接收块的已编码视频码流；

对所述块进行分区，以获得多个子块；

基于参考行，对所述多个子块中的子块执行多参考行帧内预测；以及

对所述子块进行分区，以获得多个变换块。

15.根据权利要求14所述的装置，其中：

当所述处理器被配置为使所述装置对所述子块进行分区以获得所述多个变换块时，所述处理器被配置为使所述装置：

在不使用变换参数的情况下对所述子块进行分区，以获得所述多个变换块。

16.根据权利要求14所述的装置，其中：

17.根据权利要求14至16中任一项所述的装置，其中：

18.一种非易失性计算机可读存储介质，存储有指令，其中，当所述指令由处理器执行时，所述指令被配置为使所述处理器：

接收块的已编码视频码流；

对所述块进行分区，以获得多个子块；

对所述子块进行分区，以获得多个变换块。

19.根据权利要求18所述的非易失性计算机可读存储介质，其中：

当所述指令被配置为使所述处理器对所述子块进行分区以获得所述多个变换块时，所述指令被配置为使所述处理器：

20.根据权利要求18至19中任一项所述的非易失性计算机可读存储介质，其中：