CN113545060A

CN113545060A - 视频编码中的空瓦片编码

Info

Publication number: CN113545060A
Application number: CN201980093308.6A
Authority: CN
Inventors: 李明; 吴平
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2021-10-22
Also published as: WO2020181435A1; EP3935843A4; JP7416820B2; KR20210129210A; EP3935843A1; US20210400295A1; JP2022523440A

Abstract

一种比特流处理方法，包括：解析比特流，以从与比特流中的图片区域相对应的数据单元获得图片区域标志，其中，图片区域包括N个图片块，其中N是整数；以及基于该图片区域标志的值，从比特流选择性地生成图片区域的解码表示，其中，该选择性生成包括：在图片区域标志的值是第一值的情况下，使用第一解码方法从比特流生成解码表示；以及在图片区域标志的值是不同于第一值的第二值的情况下，使用不同于第一解码方法的第二解码方法从比特流生成解码表示。

Description

视频编码中的空瓦片编码

技术领域

本专利申请一般涉及视频和图像的编码和解码。

背景技术

视频编码使用压缩工具将二维视频帧编码为被压缩的比特流表示，该表示形式在网络上存储或传输时更有效。使用二维视频帧进行编码的传统视频编码技术有时对于三维视觉场景的视觉信息的表示是低效的。

发明内容

除其他外，本专利申请描述了用于使用空瓦片编码对数字视频进行编码和解码的技术，该空瓦片编码可在一些实施例中用于对沉浸式视频进行编码或解码。

本公开涉及视频处理和通信，尤其涉及用于对数字视频或图片进行编码以生成比特流的方法和装置、用于对比特流进行解码以重构数字视频或图片(视觉信息)的方法和装置、用于提取比特流以形成子比特流的方法和装置。

在一个示例方面，公开了一种比特流处理方法。该方法包括解析比特流以从与比特流中的图片区域相对应的数据单元获得图片区域标志，其中，该图片区域包括N个图片块，其中N是整数；以及基于该图片区域标志的值，从比特流选择性地生成图片区域的解码表示，其中，该选择性地生成包括：在图片区域标志的值是第一值的情况下，使用第一解码方法从比特流生成解码表示；以及在图片区域标志的值是不同于第一值的第二值的情况下，使用不同于第一解码方法的第二解码方法从比特流生成解码表示。

在另一方面，公开了一种视觉信息处理方法。该方法包括解析比特流以从比特流中的参数集数据单元获得图片区域参数，其中，该图片区域参数指示将图片分割成一个或多个图片区域；根据目标图片区域，确定位于目标图片区域中的一个或多个图片区域；从比特流中提取对应于位于目标图片区域中的一个或多个图片区域的一个或多个数据单元，以形成子比特流；生成与目标图片区域之外的外部图片区域相对应的第一数据单元，并将第一数据单元中的图片区域标志设置为等于第一值，该第一值指示：在外部图片区域中，用于编码块的比特流中没有比特被编码；以及在子比特流中插入第一数据单元。

在又一示例方面，公开了一种视频或图片编码方法。该方法包括将图片分割成一个或多个图片区域，其中，图片区域包含N个图片块，其中N是整数，基于编码标准，从该N个图片块选择性地生成比特流。该选择性地生成包括：在编码标准是对图片区域进行编码的情况下，将与图片区域对应的图片区域标志编码为第一值，并使用第一编码方法对图片区域中的图片块进行编码(186)，以及在编码标准是不对图片区域进行编码的情况下，然后将与图片区域相对应的图片区域标志编码为第二值，并使用不同于第一编码方法的第二编码方法对图片区域进行编码。

在另一示例方面，公开了一种用于处理视频或图片的一个或多个比特流的装置。

在又一示例方面，公开了一种计算机程序存储介质。计算机程序存储介质包括存储在其上的代码。当由处理器执行时，该代码使得处理器实施所述方法。

本申请中描述了这些和其他方面。

附图说明

图1A是比特流处理的示例方法的流程图。

图1B是视觉信息处理的示例方法的流程图。

图1C是用于处理视频或图片的方法的示例方法的流程图。

图2是示出了实施本公开中的方法的示例视频或图片编码器的图。

图3是示出了将图片分割成瓦片组的示例的图。

图4是示出了将图片分割成瓦片组的示例的图。

图5是示出了观看360度全向视频的示例的图。

图6是示出了将图片分割成图片区域的示例的图。

图7A-7B示出了在比特流中的语法结构的示例。

图8是示出了实施本公开中的方法的示例视频或图片解码器的图。

图9是示出了实施本公开中的方法的提取器的示例的图。

图10是示出了至少包括本公开中描述的示例编码器的第一示例设备的图。

图11是示出了至少包括本公开中描述的示例解码器的第二示例设备的图。

图12是示出了包括第一示例设备和第二示例设备的电子系统的图。

图13A示出了用于渲染的瓦片组是视口的示例。

图13B示出了用于基于帧的压缩的瓦片重组的示例。

图14示出了用于实施本申请中描述的技术的硬件平台。

具体实施方式

章节标题用于本申请中只是为了提高可读性，并且不将每个章节中公开的实施例和技术的范围仅限于该章节。使用H.264/AVC(高级视频编码)、H.265/HEVC(高效视频编码)和H.266多功能视频编码(VVC)标准的示例描述了某些特征。然而，所公开技术的适用性不仅限于H.264/AVC或H.265/HEVC或H.266/VVC系统。

本公开涉及视频处理和通信，特别是涉及用于对数字视频或图片进行编码以生成比特流的方法和装置、用于对比特流进行解码以重构数字视频或图片的方法和装置。

简论

用于压缩数字视频和图片的技术利用像素样本之间的相关特性来消除视频和图片中的冗余。编码器可以将图片分割成包含多个单元的一个或多个图片区域。这种图片区域打破了图片内的预测依赖性，使得图片区域可以被解码，或者至少对应于该图片区域的语法元素可以被正确解析，而无需参考参考同一图片中的另一图片区域的数据的情况下。视频编码标准中引入的这种图片区域有助于在数据丢失后的重新同步、并行处理、感兴趣的编码和流媒体区域、分组传输、视口相关流媒体等。这样的图片区域的示例包括H.264/AVC标准中的切片/切片组、H.265/HEVC标准中的切片/瓦片和H.266/VVC标准(其目前正由JVET(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的联合视频专家组)开发)中的瓦片组/瓦片。

360度全向视频为观众提供身临其境的感知体验。使用360度全向视频的典型服务是虚拟现实(VR)。使用这种视频的其他服务包括增强现实(AR)、混合现实(MR)和扩展现实(XR)。以VR服务为例。在当前可应用的解决方案中，以球形视频形式的360度全向视频首先投影到矩形图片的常规视频，然后使用普通编码器(例如H.264/AVC或H.265/HEVC编码器)对其进行编码，并通过网络传送。在目的地处，普通解码器重构矩形图片，以便由显示器(例如，头戴式设备，HMD)渲染。最流行的投影方法是ERP(等矩形投影)和立方体贴图投影。

为了节省传输带宽，开发了基于视口的流媒体。在目的地处，用户设备(例如HMD)跟踪观众聚焦的方向，生成当前视口信息，并将视口信息反馈给媒体服务器。媒体服务器提取仅覆盖一个或多个图片区域的子比特流，以用于渲染当前视口的场景，并将该子比特流发送给目的地处的用户设备。从视频编码的角度来看，这种基于视口的流媒体可以在H.264/AVC标准中的切片/切片组、H.265/HEVC标准中的切片/瓦片和H.266/VVC标准(其目前正由JVET(ITU-T SG 16WP 3和ISO/IEC JTC 1/SC 29/WG 11的联合视频专家组)开发)中的瓦片组/瓦片的帮助下进行。

基于视口的流媒体的一般示例如下所示。使用立方体贴图投影将360度全向视频投影到常规视频。在编码中，图片被分割成24个瓦片组或瓦片。如果观众聚焦在如图5所示的场上，则在渲染中需要总共24个瓦片组或瓦片中的12个瓦片组或瓦片，如图13A所示。注意，图13A是从MPEG贡献m46538再现的。

由于图13A中的瓦片组或瓦片不形成矩形图片，因此采用基于帧的方法来重新排列这些瓦片组或瓦片的位置，以形成矩形图片，如图13B所示。服务器提取与用于渲染视口的瓦片组或瓦片对应的数据单元，并根据形成的矩形图片，组织这些数据单元以生成子比特流。

使用基于帧的方法的基于视口的流媒体的缺点如下。在图13B中的原始图片中，瓦片组或瓦片的位置对应于所使用的立方体贴图投影的立方体的面，这些面与用于渲染的360度全向视频的球体的表面上的区域具有明确的几何映射关系。在通过基于帧的方法重新排列之后，这种映射关系在压缩图片中被破坏，因为并非所有的瓦片组或瓦片都遵循立方体贴图投影的立方体面的网格。一种解决方案是，服务器生成指定重新排列位置的元数据，并将元数据与子比特流一起发送给用户设备。用户设备将压缩图片中的瓦片组或瓦片的位置恢复到原始图片中的位置，然后在360度全向视频的球面上渲染该区域以供观看。显然，服务器和用户设备的计算复杂性都会增加，并且元数据会消耗额外的传输带宽以及网络中间件的计算和存储资源。

实际上，一般问题是如何发信号通知未在视频比特流中表示的图片区域(例如，图13A或13B中的暗区域)。

另一个应用场景是视频监控，尤其是在监控系统中采用高分辨率视频时。由于背景区域中的内容不经常变化或始终保持相对恒定，因此实际的焦点是具有运动对象的一个或多个图片区域。因此，通过跳过背景内容的编码，可以极大地提高监控视频的编码效率，这需要未编码或跳过的图片区域的信令。

本公开的实施例提供用于提取比特流以形成子比特流的视频或图片编码和解码方法、编码和解码设备、方法和装置，以至少解决比特流提取处理和提取器中的额外计算负担问题。

根据本公开的实施例的一个方面，提供了一种用于处理视频或图片的编码方法，其包括：

将图片分割成一个或多个图片区域，其中，图片区域包含一个或多个编码块；

确定是否对图片区域进行编码；如果是，则将与该图片区域对应的图片区域标志编码为等于第一值，并对图片区域中的编码块进行编码；

否则，将图片区域标志编码为等于第二值，跳过对图片区域中的编码块进行编码，以及如果参考图片存在并且图片区域的类型指示帧间预测，则将图片区域中的像素的值设置为等于图片区域的参考图片中的共定位像素的值，或者，如果参考图片不存在，或者图片区域的类型指示帧内预测，则将图片区域中的像素的值设置为等于预定值的值。

根据本公开的实施例的一个方面，提供了一种用于处理比特流以重构视频或图片的解码方法，其包括：

解析比特流以从与比特流中的图片区域相对应的数据单元获得图片区域标志；

如果图片区域标志等于第一值，则解码图片区域中的一个或多个解码块；

否则，如果图片区域标志等于第二值，则如果参考图片存在，并且图片区域的类型指示帧间预测，则将图片区域中的像素的值设置为等于图片区域的参考图片中的共定位像素的值，或者，如果参考图片不存在或者图片区域的类型指示帧内预测，则将图片区域中的像素的值设置为等于预定值的值。

根据本公开的实施例的一个方面，提供了一种用于处理比特流以导出可使用上述解码方法解码的子比特流的提取方法，其包括：

解析比特流以从比特流中的参数集数据单元获得图片区域参数，其中，图片区域参数指示将图片分割成一个或多个图片区域；

根据目标图片区域，确定位于目标图片区域中的一个或多个图片区域；

从比特流中提取对应于位于目标图片区域中的一个或多个图片区域的一个或多个数据单元，以形成子比特流；

生成对应于目标图片区域之外的图片区域的第一数据单元，并将第一数据单元中的图片区域标志设置为等于第一值，该第一值指示：在目标图片区域之外的该图片区域中不存在编码块的比特；

在子比特流中插入第一数据单元。

通过上述方法，解决了相关技术中基于视口的流媒体的额外计算负担的问题，并进一步实施了对编码中跳过的图片区域进行有效编码的效果。

在本公开中，视频由一个或多个图片的序列组成。比特流(也被称为视频基本流)由处理视频或图片的编码器生成。比特流也可以是传输流或媒体文件，其是对由视频或图片编码器生成的视频基本流执行系统层处理的输出。解码比特流会产生视频或图片。系统层处理是封装视频基本流。例如，视频基本流压缩成作为有效载荷的传输流或媒体文件。系统层处理还包括将传输流或媒体文件封装成作为有效载荷的用于传输的流或用于存储的文件的操作。在系统层处理中生成的数据单元被称为系统层数据单元。在系统层处理中封装有效载荷期间附加在系统层数据单元中的信息被称为系统层信息，例如，系统层数据单元的报头。通过提取处理提取比特流获得子比特流，该子比特流包含比特流的一部分比特以及对语法元素进行的一个或多个必要修改。解码子比特流会产生视频或图片，其与通过解码比特流获得的视频或图片相比，可以具有更低的分辨率和/或更低的帧速率。从子比特流获得的视频或图片也可以是从比特流获得的视频或图片的区域。

实施例1

图2是示出了利用本公开中的方法对视频或图片进行编码的编码器的示意图。编码器的输入是视频，而输出是比特流。由于视频是由一系列图片组成的，所以编码器按照预设顺序(即编码顺序)对图片进行一张一张的处理。编码器顺序是根据在编码器的配置文件中指定的预测结构来确定的。注意，视频中图片的编码顺序(对应于解码器端的图片的解码顺序)可以与图片的显示顺序相同，或者可以不同。

分割单元201根据编码器的配置，来分割输入视频中的图片。通常，图片可以被分割成一个或多个最大编码块。最大编码块是编码处理中允许或配置的最大块，并且通常是图片中的正方形区域。图片可以被分割成一个或多个瓦片，并且瓦片可以包含整数数量的最大编码块，或者非整数数量的最大编码块。一种选择是，瓦片可能包含一个或多个切片。也就是说，瓦片可以进一步被分割成一个或多个切片，并且每个分片可以包含整数数量的最大编码块，或者非整数数量的最大编码块。另一种选择是，切片包含一个或多个瓦片，或者瓦片组包含一个或多个瓦片。也就是说，图片中以特定顺序(例如瓦片的栅格扫描顺序)的一个或多个瓦片形成瓦片组。此外，瓦片组还可以覆盖图片中的矩形区域，该矩形区域以左上瓦片和右下瓦片的位置表示。在以下描述中，“瓦片组”被用作示例。分割单元201可以被配置为使用固定模式来分割图片。例如，分割单元201将图片分割成瓦片组，并且每个瓦片组具有包含一行最大编码块的单个瓦片。另一示例是，分割单元201将图片分割成多个瓦片，并以栅格扫描顺序将图片中的瓦片形成为瓦片组。可替选地，分割单元201还可以采用动态模式将图片分割成瓦片组、瓦片和块。例如，为了适应最大传输单元(MTU)大小的限制，分割单元201采用动态瓦片组分割方法，以确保每个瓦片组的编码比特的数量不超过MTU限制。

图3是示出将图片分割成瓦片组的示例的示意图。分割单元201将具有16×8个最大编码块(以虚线表示)的图片30分割成8个瓦片300、310、320、330、340、350、360和370。分割单元201将图片30分割成3个瓦片组。瓦片组3000包含瓦片300，瓦片组3100包含瓦片310、320、330、340和350，瓦片组3200包含瓦片360和370。图3中的瓦片组在图片30中以瓦片栅格扫描顺序形成。

图4是示出将图片分割成瓦片组的示例的示意图。分割单元201将具有16×8个最大编码块(以虚线表示)的图片40分割成8个瓦片400、410、420、430、440、450、460和470。分割单元201将图片40分割成2个瓦片组。瓦片组4000包含瓦片400、410、440和450，瓦片组4100包含瓦片420、430、460和470。瓦片组4000被表示为左上瓦片400和右下瓦片450，而瓦片组4100被表示为左上瓦片420和右下瓦片470。

一个或多个瓦片组或瓦片可以被称为图片区域。通常，根据编码器配置文件将图片分割成一个或多个瓦片。分割单元201设置分割参数以指示将图片分割成瓦片的方式。例如，分割方式可以是将图片分割成大小(几乎)相等的瓦片。另一个示例是，分割方式可以指示行和/或列中的瓦片边界的位置，以便于灵活的分割。

分割单元201的输出参数指示图片的分割方式。

预测单元202确定图片区域中的编码块的预测样本。预测单元202包括瓦片分割单元203、ME(运动估计)单元204、MC(运动补偿)单元205和帧内预测单元206。预测单元202的输入是包含由分割单元201输出的一个或多个最大编码块，以及与最大编码块相关联的属性参数(例如，最大编码块在图片和图片区域中的位置)的图片区域。预测单元202将最大编码块分割成一个或多个编码块，该编码块还可以进一步分割成较小的编码块。可以应用一种或多种分割方法，其包括四叉树、二元切割和三元切割。预测单元202确定用于在分割中获得的编码块的预测样本。可选地，预测单元202可以进一步将编码块分割成一个或多个预测块，以确定预测样本。预测单元202采用DPB(解码图片缓存)单元214中的一个或多个图片作为参考来确定编码块的帧间预测样本。预测单元202还可以采用由加法器212输出的图片的重构部分作为参考来导出编码块的预测样本。预测单元202通过例如使用一般率失真优化(RDO)方法来确定编码块的预测样本和用于导出预测样本的相关参数，这些参数也是预测单元202的输出参数。

预测单元202还确定是否跳过对图片区域进行编码。当预测单元202确定不跳过对图片区域进行编码时，预测单元202将图片区域标志设置为等于第一值。否则，当预测单元202确定跳过对图片区域进行编码时，预测单元202将图片区域标志设置为等于第二值，并且预测单元202以及编码器中的其他相关单元(诸如变换单元208、量化单元209、逆量化单元210和逆变换单元211)不调用对图片区域中的编码块进行编码的处理。在图片区域标志等于第二值的情况下，如果参考图片存在并且图片区域的类型指示帧间预测，则预测单元202将图片区域中的像素的值设置为等于图片区域的参考图片中的准共址像素的值，或者如果参考图片不存在或者图片区域的类型指示帧内预测，则将图片区域中的像素的值设置为等于预定值的值。参考图片可以是参考图片列表中的第一图片，例如，由参考列表0中等于0的参考索引指示的图片。可选地，参考图片还可以是参考列表中在包含图片区域的当前编码图片之间具有最小POC(图片顺序计数)差的图片。可选地，参考图片可以是由预测单元202从参考列表中的图片中选择(例如使用一般RDO方法)的图片，并且预测单元202需要输出参考索引，该参考索引要由熵编码单元215在比特流中编码。该预定值可以是编码器和解码器中烧录的固定值，或者被计算为1<<(bitDepth–1)，其中，bitDepth是像素样本分量的比特深度值，“<<”是算术左移运算符，并且“x<<y”表示x个二进制补码整数表示被y个二进制数字算术左移。可选地，预测单元202可以将图片区域中的值设置为等于预定值，而不管该图片区域的参考图片是否存在。当图片区域标志等于第二值时，图片区域中的编码块的预测残差被设置为0。也就是说，当图片区域标志等于第二值时，图片区域中的重构像素的值被设置为等于由预测单元202导出的其预测值。

预测单元202可以使用一般RDO方法来确定是否跳过对图片区域进行编码。例如，当预测单元202发现对该图片区域中的所有编码块进行RDO计数的成本函数的累积值不大于跳过对图片区域进行编码的RDO计数中的成本函数的值时，预测单元202将图片区域标志确定为第一值；否则，确定为第二值。

可选地，预测单元202还可以根据编码器配置来确定图片区域标志值。示例场景是视频监控，尤其是在监控系统中使用高分辨率视频时。由于背景区域中的内容不经常改变或始终保持相对恒定，因此实际焦点是具有运动对象的一个或多个图片区域，例如使用现有的运动检测方法和算法。因此，当确定图片区域包含场景中的运动对象的至少一部分时，预测单元202将与该图片区域对应的图片区域标志设置为等于第一值；否则，预测单元202将图片区域标志设置为等于第二值。

另一示例是使用360度全向视频的通信(例如视频电话、视频会议、视频聊天、远程控制等)中。图5是示出观看360度全向视频的示例的图。图5中的观众观看使用立方体贴图投影编码的360度全向视频。图6是示出将图片分割成图片区域的示例的图。图片60被分割成24个图片区域，其中，图片区域可以是瓦片组或瓦片。图片区域600、601、606和607对应于立方体贴图的第一表面，602、603、608和609对应于第二表面，604、605、610和611对应于第三表面，612、613、618和619对应于第四表面，614、615、620和621对应于第五表面，以及616、617、622和623对应于第六表面。为了在图5所示的视口处渲染内容，将采用图片区域600、603、606、609、610、611、612、613、614、615、620和621进行渲染，而其他图片区域(在图6中以灰色标记)不需要被用于渲染。预测单元201将对应于图6中以灰色标记的图片区域的图片区域标志设置为等于第二值。预测单元201可以直接将对应于用于渲染的图片区域的预测区域标志设置为等于第一值，或者调用一般RDO方法来确定预测区域标志。

预测单元202的输出包括图片区域标志。图片区域中的像素的预测值和与预测区域标志相关联的其他必要参数(例如，指示用于预测样本的参考图片的参考索引)也在预测单元202的输出中。

在预测单元202内部，块分割单元203确定编码块的分割。块分割单元203将最大编码块分割成一个或多个编码块，该编码块还可以进一步分割成更小的编码块。可以应用一种或多种分割方法，其包括四叉树、二元切割和三元切割。可选地，块分割单元203可以将编码块进一步分割成一个或多个预测块，以确定预测样本。块分割单元203可以在确定编码块的分割时采用RDO方法。块分割单元203的输出参数包括指示编码块的分割的一个或多个参数。

ME单元204和MC单元205利用来自DPB 214的一个或多个解码图片作为参考图片来确定编码块的帧间预测样本。ME单元204构造包含一个或多个参考图片的一个或多个参考列表，并确定参考图片中用于编码块的一个或多个匹配块。MC单元205使用匹配块中的样本导出预测样本，并计算编码块中的原始样本与预测样本之间的差(即残差)。ME单元204的输出参数指示匹配块的位置，其包括参考列表索引、参考索引(refIdx)、运动向量(MV)等，其中，参考列表索引指示包含匹配块所在的参考图片的参考列表，参考索引指示包含匹配块的参考列表中的参考图片，以及MV指示编码块和匹配块在相同坐标中的位置之间的相对偏移，所述相同坐标用于表示图片中像素的位置。MC单元205的输出参数是编码块的帧间预测样本，以及用于构造帧间预测样本的参数，例如，用于匹配块中的样本的加权参数、用于滤波匹配块中的样本的滤波器类型和参数。通常，RDO方法可联合应用于ME单元204和MC单元205，以获得率失真(RD)感测中的最佳匹配块和这两个单元的相应输出参数。

特别地且可选地，ME单元204和MC单元205可以使用包含编码块的当前图片作为参考来获得编码块的帧内预测样本。在本公开中，帧内预测意味着只有包含编码块的图片中的数据被采用，作为用于导出编码块的预测样本的参考。在这种情况下，ME单元204和MC单元205使用当前图片中的重构部分，其中，重构部分来自加法器212的输出。示例是编码器分配图片缓存以(临时)存储加法器212的输出数据。编码器的另一种方法是在DPB 214中保留特殊的图片缓存，以保存来自加法器212的数据。

帧内预测单元206使用包含编码块的当前图片的重构部分作为参考，以获得编码块的帧内预测样本。帧内预测单元206将编码块的重构相邻样本作为用于导出编码块的帧内预测样本的滤波器的输入，其中，该滤波器可以是插值滤波器(例如用于在使用角度帧内预测时计算预测样本)、低通滤波器(例如用于计算DC值)，或交叉分量滤波器，以使用已编码的(颜色)分量导出(颜色)分量的预测值。特别地，帧内预测单元206可以执行搜索操作，以获得当前图片中的重构部分范围内的编码块的匹配块，并且将匹配块中的样本设置为编码块的帧内预测样本。帧内预测单元206调用RDO方法来确定帧内预测模式(即用于计算编码块的帧内预测样本的方法)和相应的预测样本。除了帧内预测样本之外，帧内预测单元206的输出还包括指示正在使用的帧内预测模式的一个或多个参数。

加法器207被配置为计算编码块的原始样本和预测样本之间的差。加法器207的输出是编码块的残差。该残差可以被表示为N×M二维矩阵，其中，N和M是两个正整数，并且N和M可以具有相等或不同的值。

变换单元208将残差作为其输入。变换单元208可以对残差应用一种或多种变换方法。从信号处理的角度来看，变换方法可以用变换矩阵表示。可选地，变换单元208可以确定使用与编码块的形状和大小相同的矩形块(在本公开中，正方形块是矩形块的特殊情况)作为残差的变换块。可选地，变换单元208可以确定将残差分割成多个矩形块(还可以包括矩形块的宽度或高度为一个样本的特殊情况)，并且变换单元208可以例如根据默认顺序(例如栅格扫描顺序)、预定义的顺序(例如对应于预测模式或变换方法的顺序)、多个候选顺序的选定顺序，依次地对多个矩形执行变换操作。变换单元208可以确定对残差执行多个变换。例如，变换单元208首先对残差执行核心变换，然后对在完成核心变换之后得到的系数执行二次变换。变换单元208可利用RDO方法来确定变换参数，该变换参数指示应用于残差块的变换过程中使用的执行方式，例如，将残差块分割成变换块、变换矩阵、多重变换等。变换参数包括在变换单元208的输出参数中。变换单元208的输出参数包括变换参数和变换残差(例如变换系数)后获得的数据，残差可以由二维矩阵表示。

量化单元209对由变换单元208在变换残差之后输出的数据进行量化。量化单元209中使用的量化器可以是标量量化器和矢量量化器中的一个或两者。在大多数视频编码器中，量化单元209采用标量量化器。标量量化器的量化步长由视频编码器中的量化参数(QP)表示。通常，QP和量化步长之间的给定映射是在编码器和相应的解码器中预设或预定义的。

QP(例如，图片级QP和/或区块级QP)的值可以根据应用于编码器的配置文件设置，或者可以由编码器中的编码器控制单元确定。例如，编码器控制单元使用速率控制(RC)方法确定图片和/或区块的量化步长，然后根据QP和量化步长之间的映射将量化步长转换为QP。

量化单元209的控制参数是QP。量化单元209的输出是以二维矩阵的形式表示的一个或多个量化变换系数(即称为“电平”)。

逆量化210对量化209的输出执行缩放操作，以获得重构系数。逆变换单元211根据来自变换单元208的变换参数对来自逆量化210的重构系数执行逆变换。逆变换单元211的输出是重构残差。特别地，当编码器确定在编码区块时跳过量化时(例如，编码器实施RDO方法以确定是否对编码块应用量化)，编码器通过绕过量化单元209和逆量化单元210将变换单元208的输出数据引导到逆变换单元211。

加法器212将来自预测单元202的编码块的重构残差和预测样本作为输入，计算编码块的重构样本，并将重构样本放入缓存(例如图片缓存)。例如，编码器分配图片缓存来(临时)存储加法器212的输出数据。编码器的另一方法是在DPB 214中保留特殊的图片缓存，以保存来自加法器212的数据。

滤波单元213对解码的图片缓存中的重构图片样本执行滤波操作，并输出解码的图片。滤波单元213可以由一个滤波器或多个级联滤波器组成。例如，根据H.265/HEVC标准，滤波单元由两个级联滤波器(即去块滤波器和样本自适应偏移(SAO)滤波器)组成。滤波单元213可以包括自适应环路滤波器(ALF)。滤波单元213还可以包括神经网络滤波器。当图片中的所有编码块的重构样本已经被存储在解码的图片缓存中时，滤波单元213可以开始对图片的重构样本进行滤波，这可以被称为“图片层滤波”。可选地，用于滤波单元213的图片层滤波的可替选实施方式(被称为“区块层滤波”)是，如果在对图片中的所有连续编码块进行编码时，重构样本未被用作参考，则开始对图片中的编码块的重构样本进行滤波。区块层滤波不需要滤波单元213保持滤波操作，直到图片的所有重构样本都可用为止，因此节省了编码器中的线程之间的时间延迟。滤波单元213通过调用RDO方法来确定滤波参数。滤波单元213的输出是解码的图片样本和滤波参数，该滤波参数包括滤波器的指示信息、滤波器系数、滤波器控制参数等。

编码器将来自滤波单元213的解码图片存储在DPB 214中。编码器可以确定应用于DPB 214的一个或多个指令，这些指令用于控制对DPB 214中图片的操作，例如，存储在DPB214中的图片的时间长度、从DPB 214输出图片等。在本公开中，这样的指令被作为DPB 214的输出参数。

熵编码单元215对图片的一个或多个编码参数执行二进制化和熵编码，其将编码参数的值转换成由二进制符号“0”和“1”组成的码字，并根据规范或标准将该码字写入比特流。编码参数可分为纹理数据和非纹理数据。纹理数据是编码块的变换系数，而非纹理数据是编码参数中除纹理数据之外的其他数据，包括编码器中单元的输出参数、参数集、报头、补充信息等。熵编码单元215的输出是符合规范或标准的比特流。

熵编码单元215对预测单元202的输出中的预测区域标志进行编码。熵编码单元215对预测区域标志进行编码，并将其编码比特写入包含图片区域的报头的数据单元中。图7A-7B示出了比特流中的语法结构的示例，其中，图7A-7B中粗体的语法是由存在于比特流中的一个或多个比特的字符串表示的语法元素，并且u(1)和ue(v)是两种解码方法，其功能与在像H.264/AVC和H.265/HEVC之类的公开标准中的功能相同。在本公开中，图片区域可以是瓦片组、瓦片、切片或切片组。熵编码单元215根据picture_region_not_skip_flag的值对预测区域标志(即图7A-7B中的picture_region_not_skip_flag)以及以picture_region_not_skip_flag为条件的其他语法元素进行编码。还要注意，图7A-7B中存在一些独立于picture_region_not_skip_flag的值被编码的语法元素。

在图7A中，picture_region_layer_rbsp()是包含图片区域的编码比特的数据单元。picture_region_header()是图片区域的报头。图片区域标志(picture_region_not_skip_flag)在picture_region_header()中被编码。picture_region_data()包含图片中编码块的编码比特。在本示例中，当picture_region_not_skip_flag等于第二值(例如“0”)时，picture_region_data()不呈现在picture_region_layer_rbsp()中。例如，当编码器确定picture_region_not_skip_flag的值等于1时，编码器对图片区域中的编码块进行编码，并且熵编码单元215将编码块的一个或多个编码比特写入比特流；否则，当编码器确定picture_region_not_skip_flag的值等于0时，编码器跳过对图片区域中的编码块的编码，并且熵编码单元215跳过将编码块的编码比特写入比特流。

在图7B中，图片区域报头中的语法元素的语义如下。

picture_region_parameter_set_id指定正在使用的参数集指定参数集标识符的值。

picture_region_address()包含表示图片区域的地址的语法元素。例如，picture_region_address可以是图片区域中第一编码块的地址。此外，如果图片区域是瓦片组，则picture_region_address可以是瓦片组中第一瓦片的瓦片地址。

picture_region_type指定图片区域的编码类型。

例如，等于0的picture_region_type指示“B”图片区域，等于1的picture_region_type指示“P”图片区域，以及等于2的picture_region_type指示“I”图片区域，其中，“B”、“P”和“I”代表与H.264/AVC和H.265/HEVC中的含义相同的含义。

picture_region_pic_order_cnt_lsb指定用于当前图片的图片顺序计数模MaxPicOrderCntLsb。

等于0的picture_region_not_skip_flag指定跳过图片区域。等于1的picture_region_not_skip_flag指定不跳过图片区域。

当picture_region_not_skip_flag等于0时，该图片区域中的编码块的比特不会呈现在比特流中。该图片区域中的编码块的重构值被设置为等于由预测单元202导出的相应预测值。

reference_picture_list()包含用于导出图片区域的参考列表的语法元素。

当picture_region_not_skip_flag等于0时，参考图片可被用于由预测单元202导出预测值。如果预测单元202采用将具有等于0的picture_region_not_skip_flag的图片区域的预测值设置为固定值或预定值的方法，则当picture_not_skip_flag等于0时，语法结构中不存在reference_picture_list()。

实施例2

图8是示出了利用本公开中的方法对由实施例1中的上述编码器生成的比特流进行解码的解码器的图。解码器的输入是比特流，而解码器的输出是通过解码比特流获得的解码视频或图片。

解码器中的解析单元801解析输入的比特流。解析单元801使用在标准中指定的熵解码方法和二进制化方法来将由一个或多个二进制符号(即“0”和“1”)组成的比特流中的每个码字转换为相应参数的数值。解析单元801还根据一个或多个可用参数导出参数值。例如，当在比特流中存在指示解码块是图片中的第一块的标志时，解析单元801将指示图片区域的第一解码块的地址的地址参数设置为0。

在解析单元801的输入比特流中，图片区域的语法结构如图7A-7B所示。

图7A-7B是示出了比特流中的语法结构的示例的图，其中，图7A-7B中粗体的语法是由存在于比特流中的一个或多个比特的字符串表示的语法元素，并且u(1)和ue(v)是两种解码方法，其功能与在像H.264/AVC和H.265/HEVC之类的公开标准中的功能相同。在本公开中，图片区域可以是瓦片组、瓦片、切片或切片组。解析单元801根据picture_region_not_skip_flag的值，获得预测区域标志(即图7A-7B中的picture_region_not_skip_flag)以及以picture_region_not_skip_flag为条件的其他语法元素。还要注意，图7A-7B中存在一些独立于picture_region_not_skip_flag的值被编码的语法元素。

在图7A中，picture_region_layer_rbsp()是包含图片区域的编码比特的数据单元。picture_region_header()是图片区域的报头。图片区域标志(picture_region_not_skip_flag)位于picture_region_header()中。picture_region_data()包含图片中编码块的编码比特。在本示例中，当picture_region_not_skip_flag等于第二值(例如“0”)时，picture_region_data()不会呈现在picture_region_layer_rbsp()中。

在图7B中，图片区域报头中的语法元素的语义如下。

picture_region_type指定图片区域的编码类型。

当picture_region_not_skip_flag等于0时，该图片区域中的编码块的比特不会呈现在比特流中。该图片区域中的编码块的重构值被设置为等于由预测单元802导出的相应预测值。

当picture_region_not_skip_flag等于0时，参考图片可以被用于由预测单元802来导出预测值。如果预测单元802采用将具有等于0的picture_region_not_skip_flag的图片区域的预测值设置为固定值或预定值的方法，则当picture_not_skip_flag等于0时，reference_picture_list()在语法结构中不存在。

解析单元801将图片区域的图片区域标志(即picture_region_not_skip_flag)传递给解码器中的其他单元以解码图片区域。

解析单元801将用于导出解码块的预测样本的一个或多个预测参数传递给预测单元802。在本公开中，预测参数包括前述编码器中的分割单元201和预测单元202的输出参数。

解析单元801将用于重构解码块的残差的一个或多个残差参数传递给缩放单元805和变换单元806。在本公开中，残差参数包括变换单元208和量化单元209的输出参数，以及由前述编码器中的量化单元209输出的一个或多个量化系数(即“电平”)。

解析单元801将滤波参数传递给滤波单元808，以用于对图片中的重构样本进行滤波(例如环内滤波)。

预测单元802根据预测参数导出图片区域中解码块的预测样本。预测单元802由MC单元803和帧内预测单元804组成。预测单元802的输入还可以包括从加法器807输出的当前解码图片(其未经滤波单元808处理)和DPB 809中的一个或多个解码图片的重构部分。当图片区域的图片区域标志(即picture_region_not_skip_flag)等于第一值(即“1”)时，预测单元802以及解码器中的其他相关单元(诸如缩放单元805、变换单元806)调用对图片区域中的解码块进行解码的处理。

当图片区域的图片区域标志(即picture_region_not_skip_flag)等于第二值(即“0”)时，如果参考图片存在并且图片区域的类型指示帧间预测(也就是说，picture_region_type等于“B”或“P”)，则预测单元802将图片区域中的像素的值设置为等于图片区域的参考图片中的共同定位像素的值，或者如果参考图片(例如解码顺序中的编码视频序列的第一图片)不存在或者图片区域的类型指示帧内预测(即，picture_region_type等于“I”)，则将图片区域中的像素的值设置为等于预定值的值。参考图片可以是参考图片列表中的第一图片，例如，由参考列表0中等于0的参考索引指示的图片。可选地，参考图片还可以是在包含图片区域的当前编码图片之间具有最小POC(图片顺序计数)差的参考列表中的图片。可选地，参考图片可以是由参考列表中的参考索引指示的图片，其中，参考索引由解析单元801通过解析比特流中包含该图片区域的编码比特的数据单元中的比特来获得。预定值可以是在编码器和解码器中烧录的固定值，或者被计算为1<<(bitDepth–1)，其中，bitDepth是像素样本分量的比特深度值，“<<”是算术左移运算符，以及“x<<y”表示x个二进制补码整数表示被y个二进制数字算术左移。可选地，预测单元802可以将图片区域中的值设置为等于预定值，而不管该图片区域的参考图片是否存在。当图片区域标志(即picture_region_not_skip_flag)等于第二值时，图片区域中编码块的预测残差被设置为0。也就是说，当图片区域标志(即picture_region_not_skip_flag)等于第二值时，图片区域中的重构像素的值被设置为等于其由预测单元802导出的预测值，并且在对图片区域中的解码块进行解码的过程中，解码器不调用缩放单元805、变换单元806。

当预测参数指示使用帧间预测模式来导出解码块的预测样本时，预测单元802采用与前述编码器中的ME单元204的方法相同的方法来构造一个或多个参考图片列表。参考列表包含来自DPB 809的一个或多个参考图片。MC单元803根据预测参数中的参考列表、参考索引和MV的指示来确定解码块的一个或多个匹配块，并且使用与前述编码器中的MC单元205中的方法相同的方法来获得解码块的帧间预测样本。预测单元802输出帧间预测样本作为解码块的预测样本。

特别地且可选地，MC单元803可以使用包含解码块的当前解码图片作为参考来获得解码块的帧内预测样本。在本公开中，帧内预测意味着只有包含编码块的图片中的数据被采用作为用于导出编码块的预测样本的参考。在这种情况下，MC单元803使用当前图片中的重构部分，其中，重构部分来自加法器807的输出，并且未被滤波单元808处理。例如，解码器分配图片缓存来(临时)存储加法器807的输出数据。解码器的另一种方法是在DPB 809中保留特殊的图片缓存，以保存来自加法器807的数据。

当预测参数指示帧内预测模式被用于导出解码块的预测样本时，预测单元802采用与前述编码器中的帧内预测单元206的方法相同的方法，来根据解码块的重构相邻样本确定用于帧内预测单元804的参考样本。帧内预测单元804获取帧内预测模式(即DC模式、平面模式或角度预测模式)，并按照帧内预测模式的指定过程，使用参考样本导出解码块的帧内预测样本。注意，在前述编码器(即帧内预测单元206)和解码器(即帧内预测单元804)中实施了相同的帧内预测模式的导出过程。特别地，如果预测参数指示解码块的当前解码图片(其包含解码块)中的匹配块(包括其位置)，则帧内预测单元804使用匹配块中的样本来导出解码块的帧内预测样本。例如，帧内预测单元804将帧内预测样本设置为等于匹配块中的样本。预测单元802将解码块的预测样本设置为等于由帧内预测单元804输出的帧内预测样本。

解码器将QP(包括亮度QP和色度QP)和量化系数传递给缩放单元805，以用于逆量化过程，以获得重构系数作为输出。解码器将来自缩放单元805的重构系数和残差参数中的变换参数(即前述编码器中的变换单元208的输出中的变换参数)馈送到变换单元806。特别地，如果残差参数指示在解码区块时跳过缩放，则解码器通过绕过缩放单元805将残差参数中的系数引导到变换单元806。特别地，当picture_region_not_skip_flag等于0时，解码器绕过缩放单元805。

变换单元806在标准中指定的变换过程之后对输入系数执行变换操作。在变换单元806中使用的变换矩阵与前述编码器中的逆变换单元211中使用的变换矩阵相同。变换单元806的输出是解码块的重构残差。特别地，当picture_region_not_skip_flag等于0时，解码器绕过缩放单元806，并将图片区域(具有等于0的picture_region_not_skip_flag)中解码块的重构残差设置为等于0。

通常，由于在标准中仅指定解码处理，因此从视频编码标准的角度来看，解码处理中的处理和相关矩阵在标准文本中被指定为“变换处理”和“变换矩阵”。因此，在本公开中，关于解码器的描述将实施在标准文本中指定的变换过程的单元命名为“变换单元”，以与标准一致。然而，基于将解码处理视为编码的逆处理的考虑，该单元始终可以被命名为“逆变换单元”。

加法器807将变换单元806的输出中的重构残差和预测单元802的输出中的预测样本作为输入数据，计算解码块的重构样本。加法器807将重构样本存储到图片缓存中。例如，解码器分配图片缓存来(临时)存储加法器807的输出数据。解码器的另一方法是在DPB 809中保留特殊的图片缓存以保存来自加法器807的数据。

解码器将滤波参数从解析单元801传递到滤波单元808。用于滤波单元808的滤波参数与前述编码器中的滤波单元213的输出中的滤波参数相同。滤波参数包括一个或多个要使用的滤波器的指示信息、滤波器系数和滤波控制参数。滤波单元808使用滤波参数对存储在解码图片缓存中的图片的重构样本执行滤波处理，并输出解码图片。滤波单元808可以由一个滤波器或多个级联滤波器组成。例如，根据H.265/HEVC标准，滤波单元由两个级联滤波器(即去块滤波器和样本自适应偏移(SAO)滤波器)组成。滤波单元808可以包括自适应环路滤波器(ALF)。滤波单元808还可以包括神经网络滤波器。当图片中的所有编码块的重构样本已经被存储在解码图片缓存中时，滤波单元808可以开始对图片的重构样本进行滤波，这可以被称为“图片层滤波”。可选地，用于滤波单元808的图片层滤波的可替选实施方式(被称为“区块层滤波”)是，如果在解码图片中的所有连续编码块时重构样本未被用作参考，则开始对图片中的编码块的重构样本进行滤波。区块层滤波不需要滤波单元808保持滤波操作，直到图片的所有重构样本都可用为止，因此节省解码器中的线程之间的时间延迟。

解码器将由滤波单元808输出的解码图片存储在DPB 809中。此外，解码器可以根据由解析单元801输出的一个或多个指令(例如存储在DPB 809中的图片的时间长度、从DPB809输出图片等)对DPB 809中的图片执行一个或多个控制操作。

实施例3

图9是示出了实施本公开中的方法的提取器的示例的示意图。提取器的输入之一是由图2中的前述编码器生成的比特流。提取器的另一输入是指示一个或多个用于提取的目标图片区域的应用数据。提取器的输出是可由图8中的前述解码器解码的子比特流。该子比特流(如果进一步可提取的话)也可以是提取器的输入比特流。

提取器的基本功能是根据原始比特流形成子比特流。例如，用户在高分辨率视频中选择了一个区域，以用于在其智能手机上显示该区域，并且智能手机向远程设备(例如远程服务器)或内部处理单元(例如安装在该智能手机上的软件程序)发送应用数据，以请求与所选择的区域(即目标图片区域)相对应的媒体数据。远程设备或内部处理单元上的提取器(或等效处理单元)从对应于原始高分辨率视频的比特流中提取对应于目标图片区域的子比特流。另一个示例是，HMD(头戴式设备)检测观众的当前视口，并请求媒体数据以渲染该视口。与前面的示例类似，HMD还生成指示视频图片中覆盖检测到的视口的最终渲染区域(即目标图片区域)的区域的应用数据，并将该应用数据发送给远程设备或其内部处理单元。远程设备或内部处理单元上的提取器(或等效处理单元)从对应于覆盖渲染视口的视频的比特流中提取对应于目标图片区域的子比特流。

在该实施例中，示例输入比特流是由前述编码器通过使用立方体贴图投影对360度全向视频进行编码而生成的比特流。图6中示出了将投影的图片分割成图片区域。图片60被分割成24个图片区域，其中，图片区域可以是瓦片组或瓦片。图片区域600、601、606和607对应于立方体贴图的第一表面，602、603、608和609对应于第二表面，604、605、610和611对应于第三表面，612、613、618和619对应于第四表面，614、615、620和621对应于第五表面，以及616、617、622和623对应于第六表面。

当使用基于视口的流媒体时，为了在图5所示的视口处渲染内容，图片区域600、603、606、609、610、611、612、613、614、615、620和621将被采用以用于渲染，而其他图片区域(在图6中以灰色标记)不需要被用于渲染。

解析单元901解析输入的比特流，以从输入的比特流中的一个或多个数据单元(例如，参数集数据单元)获得图片区域参数。图片区域参数指示如图6所示将图片分割成图片区域。解析单元901将图片区域参数和用于确定用于提取的目标图片区域的其他必要数据(例如图片宽度和高度)放入数据流90中，并将数据流90发送给控制单元902。

注意，本公开中的数据流是指软件实施方式中函数的输入参数和返回参数、总线上的数据传输以及硬件实施方式中存储单元之间的数据共享(还包括寄存器之间的数据共享)。

解析单元901还解析输入比特流，并在必要时在生成子比特流的过程中经由数据流91将其他数据转发给形成单元903。解析单元901还包括数据流91中的输入比特流。

控制单元802从其输入的应用数据获得目标图片区域，其包括目标图片区域在图片中的位置和大小。控制单元902根据数据流90获得图片区域参数以及图片的宽度和高度。控制单元902根据图片区域参数确定位于目标图片区域中的图片区域的地址和大小。在该示例中，控制单元902确定目标图片区域包含图片区域600、603、606、609、610、611、612、613、614、615、620和621。控制单元902将指示上述图片区域的目标图片区域参数(例如目标图片区域中的图片区域的地址)放入数据流92中。

形成单元903接收数据流91和92，从在数据流91中转发的输入比特流中提取对应于目标图片区域中的图片区域的数据单元，并为目标图片区域之外的图片区域生成新的数据单元。形成单元903包括提取单元904和生成单元905。当提取单元904检测到目标图片区域中的图片区域的数据单元(例如，根据图片区域的地址)时，提取单元904提取该数据单元。以图6为例。提取单元904提取图片区域600、603、606、609、610、611、612、613、614、615、620和621的数据单元，以形成子比特流。

生成单元905为目标图片区域之外的图片区域生成新的数据单元，并将新的数据单元插入到子比特流中。生成单元905将图7B中针对目标图片区域之外的图片区域的picture_region_not_skip_flag的值设置为等于0。生成单元905将新的数据单元插入到同一接入单元中，该比特流包含目标图片区域中的图片区域的数据单元。根据图7中的语法结构，生成单元905不生成在目标图片区域之外的图片区域中的编码块的比特。也就是说，子比特流中不存在目标图片区域之外的该图片区域中的编码块的比特。

形成单元903根据视频编码标准的指定比特流结构，将来自数据流91中的输入比特流的参数集(以及其他相关联的数据单元)附加到子比特流。形成单元903的输出是子比特流，其可由图8中的前述解码器解码。

此外，由于该示例中的子比特流包含多于一个图片区域，因此子比特流仍然是可提取的，并且可以是提取器的输入，其中目标图片区域集覆盖较小的视口。

在该提取器中，不需要使用基于帧的方法进行重新排列操作。提取后，投影的图片和用于渲染的360度全向视频的球体之间的几何映射关系保持不变。包含该提取器的服务器无需生成和发送指定基于帧的方法的重新排列位置的额外元数据，这也节省了发送元数据所消耗的额外传输带宽。用户设备不需要配备有处理此类元数据的能力以及额外的存储资源，并且通过基于帧的方法来重新映射压缩帧中的图片区域，以获得用于渲染的几何映射关系。

实施例4

图10是示出了至少包含如图2所示的示例视频编码器或图片编码器的第一示例设备的示意图。

获取单元1001捕获视频和图片。获取单元1001可以配备有一个或多个相机，以用于拍摄自然场景的视频或图片。可选地，获取单元1001可以用相机来实施，以得到深度视频或深度图片。可选地，获取单元1001可以包括红外相机的组件。可选地，获取单元1001可以配置有遥感相机。获取单元1001还可以是通过使用辐射扫描物体来生成视频或图片的装置或设备。

可选地，获取单元1001可以对视频或图片执行预处理，例如，自动白平衡、自动对焦、自动曝光、背光补偿、锐化、去噪、拼接、上采样/下采样、帧率转换、虚拟视图合成等。

获取单元1001还可以从另一设备或处理单元接收视频或图片。例如，获取单元1001可以是转码器中的分量单元。转码器向获取单元1001馈送一个或多个解码(或部分解码)图片。另一个示例是，获取单元1001经由到另一设备的数据链路从该设备得到视频或图片。

注意，获取单元1001可以被用于捕获除了视频和图片之外的其他媒体信息，例如音频信号。获取单元1001还可以接收人工信息，例如，字符、文本、计算机生成的视频或图片等。

编码器1002是图2所示的示例编码器或图9中的源设备的实施方式。编码器1002的输入是由获取单元1001输出的视频或图片。编码器1002对视频或图片进行编码，并输出生成的视频或图片比特流。

存储/发送单元1003从编码器1002接收视频或图片比特流，并对该比特流执行系统层处理。例如，存储/发送单元1003根据传输标准和媒体文件格式(例如，MPEG-2TS、ISOBMFF、DASH、MMT等)封装比特流。存储/发送单元1003将封装后获得的传输流或媒体文件存储在第一示例设备的存储器或磁盘中，或通过有线或无线网络发送传输流或媒体文件。

注意，除了来自编码器1002的视频或图片比特流之外，存储/发送单元1003的输入还可以包括音频、文本、图像、图形等。存储/发送单元1003通过封装这种不同类型的媒体比特流来生成传输或媒体文件。

本实施例中描述的第一示例设备可以是能够在视频通信的应用中生成或处理视频(或图片)比特流的设备，例如，移动电话、计算机、媒体服务器、便携式移动终端、数码相机、广播设备、CDN(内容分发网络)设备、监控相机、视频会议设备等。

实施例5

图11是示出至少包含如图8所示的示例视频解码器或图片解码器的第二示例设备的图。

接收单元1101通过从有线或无线网络获取比特流、通过读取电子设备中的存储器或磁盘、或者通过经由数据链路从其他设备获取数据来接收视频或图片比特流。

接收单元1101的输入还可以包括包含视频或图片比特流的传输流或媒体文件。接收单元1101根据传输或媒体文件格式的规范从传输流或媒体文件中提取视频或图片比特流。

接收单元1101将视频或图片比特流输出并传递给解码器1102。注意，除了视频或图片比特流之外，接收单元1101的输出还可以包括音频比特流、字符、文本、图像、图形等。接收单元1101将输出传递给第二示例设备中的相应处理单元。例如，接收单元1101将所输出的音频比特流传递给该设备中的音频解码器。

解码器1102是图8所示的示例解码器的实施方式。编码器1102的输入是由接收单元1101输出的视频或图片比特流。解码器1102对视频或图片比特流进行解码并输出所解码的视频或图片。

渲染单元1103从解码器1102接收所解码的视频或图片。渲染单元1103将所解码的视频或图片呈现给观众。渲染单元1103可以是第二示例设备的组件，例如，屏幕。渲染单元1103还可以是与第二示例设备分离的设备(其具有到第二示例设备的数据链路)，例如，投影仪、监视器、电视机等。可选地，渲染单元1103在将所解码的视频或图片呈现给观众之前对其执行后处理，例如，自动白平衡、自动对焦、自动曝光、背光补偿、锐化、去噪、拼接、上采样/下采样、帧率转换、虚拟视图合成等。

注意，除了解码的视频或图片之外，渲染单元1103的输入可以是来自第二示例设备的一个或多个单元的其他媒体数据，例如，音频、字符、文本、图像、图形等。渲染单元1103的输入还可以包括人工数据，例如，由本地教师在幻灯片上绘制的线条和标记，以用于在远程教育应用中吸引注意。渲染单元1103将不同类型的媒体组合在一起，然后将该组合呈现给观众。

本实施例中描述的第二示例设备可以是能够在视频通信的应用中解码或处理视频(或图片)比特流的设备，例如，移动电话、计算机、机顶盒、电视机、HMD、监视器、媒体服务器、便携式移动终端、数码相机、广播设备、CDN(内容分发网络)设备、监控、视频会议设备等。

实施例6

图12是示出包含图10中的第一示例设备和图11中的第二示例设备的电子系统的图。

服务设备1201是图10中的第一示例设备。

存储介质/传输网络1202可以包括设备或电子系统的内部存储器资源、可以经由数据链路访问的外部存储器资源、由有线和/或无线网络组成的数据传输网络。存储介质/传输网络1202为服务设备1201中的存储/发送单元1203提供存储资源或数据传输网络。

目的地设备1203是图11中的第二示例设备。目的地设备1203中的接收单元1201从存储介质/传输网络1202接收视频或图片比特流、包含视频或图片比特流的传输流或包含视频或图片比特流的媒体文件。

本实施例中描述的电子系统可以是能够在视频通信的应用中生成、存储或传输视频(或图片)比特流并对其进行解码的设备或系统，例如，移动电话、计算机、IPTV系统、OTT系统、互联网上的多媒体系统、数字电视广播系统、视频监控系统、便携式移动终端、数码相机、视频会议系统等。

在实施例中，该实施例中的具体示例可以参考上述实施例中描述的示例和示例性实施方式方法，并且将不在该实施例中阐述。

显然，本领域技术人员应当知道，本公开的每个模块或每个动作可以由通用计算装置实施，并且这些模块或动作可以集中在单个计算装置上，或者分布在由多个计算装置形成的网络上，并且可以任选地通过用于该计算装置的可执行程序代码来实施，从而使得这些模块或动作可以存储在存储装置中，以便与计算装置一起执行，所示或描述的动作在某些情况下可以以不同于此处所示或描述的顺序的顺序被执行，或者可以分别形成每个集成电路模块，或者其中的多个模块或动作可以形成用于实施方式的单个集成电路模块。因此，本公开不限于任何特定的硬件和软件组合。

图1A是比特流处理的示例方法100的流程图。方法100包括解析比特流以从与比特流中的图片区域相对应的数据单元获得图片区域标志(102)，其中，图片区域包括N个图片块，其中N是整数；以及基于图片区域标志的值，从比特流选择性地生成图片区域的解码表示(104)。该选择性生成步骤包括：在图片区域标志的值是第一值的情况下，使用第一解码方法从比特流生成解码表示(106)；以及在图片区域标志的值是不同于第一值的第二值的情况下，使用不同于第一解码方法的第二解码方法从比特流生成解码表示(108)。图片块的数量N可以大于1。例如，方法100可以能够有效地解码多个图片块(例如，编码单元CU)。

方法100可以由如关于图11所述的设备执行。此类设备可被包括作为用户设备(诸如智能手机、计算机、平板电脑或能够处理或显示数字视频内容的任何其他设备)的一部分。

在一些实施例中，图片区域的类型可以被指示为帧间预测编码区域。帧间预测可以包括单向(前向或预测性)预测或双向预测(前向和后向)。在这种情况下，第二解码方法可以包括将图片区域中的像素的值设置为等于图片区域的参考图片中的共同定位像素的值。

在一些实施例中，图片区域的类型指示帧间预测，并且参考图片不存在，并且其中，第二解码方法包括将图片区域中的像素的值设置为等于预定值。

在一些实施例中，图片区域的类型指示帧内预测，并且其中，第二解码方法包括将图片区域中的像素的值设置为预定值。

在一些实施例中，第一解码方法包括使用来自比特流的对应比特的帧内解码或帧间解码。

在一些实施例中，图片区域可以包括使用不同编码技术编码的图片块。例如，使用与图片区域中的第二图片块的编码模式不同的编码模式对图片区域中的第一图片块进行编码。这里，编码模式可以是例如帧间预测编码模式或帧内预测编码模式。

图1B是用于视觉信息处理的方法150的流程图。方法150包括解析比特流以从比特流中的参数集数据单元获得图片区域参数(152)，其中，图片区域参数指示将图片分割成一个或多个图片区域；根据目标图片区域，确定位于目标图片区域中的一个或多个图片区域(154)；从比特流中提取与位于目标图片区域中的一个或多个图片区域相对应的一个或多个数据单元，以形成子比特流(156)；生成与目标图片区域之外的外部图片区域相对应的第一数据单元(158)，以及将第一数据单元中的图片区域标志设置为等于第一值，该第一值指示：在外部图片区域中，用于编码块的比特流中没有比特被编码(160)；以及在子比特流中插入第一数据单元(162)。

方法150可以由如关于图10所述的设备来实施。该设备可在智能手机、膝上型电脑、计算机或用于编码视频的另一设备中实施。

在一些实施例中，一个或多个图片区域包括非矩形图片区域。在一些实施例中，目标图片区域基于用户视口。在一些实施例中，外部图片区域对应于用户视口可见的区域之外的图片区域。

关于方法100、150，分割单元202可用于解析比特流的步骤(102或152)。本申请中描述的实施例3还可用于实施解析步骤，以提取图片区域参数并从比特流中提取数据单元并生成第一数据单元。

图1C是用于处理视频或图片以生成相应的编码或压缩域比特流表示的示例方法180的流程图。

方法180可以由如关于图10所述的设备来实施。该设备可在智能手机、膝上型电脑、计算机或用于编码视频的另一设备中实施。

方法180包括将图片分割成一个或多个图片区域，其中，图片区域包含N个图片块，其中N是整数(182)，基于编码标准从N个图片块选择性地生成比特流(184)。该选择性生成(184)包括在编码标准是对图片区域进行编码的情况下，将对应于图片区域的图片区域标志编码为第一值，并使用第一编码方法对图片区域中的图片块进行编码(186)，以及在编码标准是不对图片区域进行编码的情况下，然后将对应于图片区域的图片区域标志编码为第二值，并使用不同于第一编码方法的第二编码方法对图片区域进行编码(188)。

例如，分割单元202可用于执行分割步骤182和步骤184、186或188。例如，熵编码单元215可以被用于对比特流中的图片区域标志进行编码。

在各种实施例中，第一和第二编码方法可以包括帧内编码或预测编码(单向或双向)。在一些实施例中，图片区域可以包括多个图片块(例如，N大于1)。如关于图5所述，在方法180的实施期间，用户的视口可以被用于决定如何编码以及哪些图片块要被编码。

在图1A和1C中，步骤106、108、186、188以虚线轮廓示出，因为根据一些实施例，对于特定图片区域的编码或解码，将仅实施这两个步骤中的一个。通常，在视频的编码或解码操作期间，将例如根据内容细节来实施一个或另一个步骤。然而，也可能视频或图像的一些区域可以在不使用关于图1A-1C所述的编码技术的情况下被编码。

在一些实施例中，视频编码器装置可以包括被配置为实施方法180的处理器。处理器可以包括，或者可以控制和使用专用视频编码电路，该专用视频编码电路被配置用于执行诸如关于图2所述的那些功能。

在一些实施例中，视频解码或转码设备可以被用于实施方法100或150。关于图8描述的设备可以被用于实施方式。

应当理解，本申请中描述的技术可以被结合在视频编码器装置或视频解码器装置中，以显著提高编码视频或解码视频的操作的性能。例如，一些视频应用(诸如虚拟现实体验或游戏)需要对视频进行实时(或比实时更快)编码或解码，以提供令人满意的用户体验。所公开的技术通过使用如本文所述的基于图片区域的编码或解码技术来提高这种应用的性能。例如，基于用户的视点对视频帧的少于全部的部分进行编码或解码，以允许仅选择性地对用户将观看的视频进行编码。此外，重组图片块以在矩形视频帧中创建图片区域，以允许使用标准的基于矩形帧的视频编码工具(诸如运动搜索、变换和量化)。

以上仅为本公开的优选实施例，并不旨在限制本公开。对于本领域技术人员，本公开可以具有各种修改和变化。在本公开的原则范围内进行的任何修改、等效替换、改进等均应属于本公开所附权利要求定义的保护范围。

工业适用性

从以上描述可以知道，解决了现有相关技术中基于视口的流媒体的额外计算负担的问题，并且进一步实施了对编码中跳过的图片区域进行有效编码的效果。现有方法中的所有缺点都通过使用前述编码器来生成原始比特流、使用本示例实施方式中的提取器来获取子比特流，以及使用前述解码器来解码比特流(以及子比特流)来解决。

图14示出了可用于实施本申请中描述的编码器侧或解码器侧技术的示例装置1400。装置1400包括处理器1402，该处理器1402可以被配置为执行编码器侧或解码器侧技术或两者。装置1400还可以包括用于存储处理器可执行指令和用于存储视频比特流和/或显示数据的存储器(未示出)。装置1400可以包括视频处理电路(未示出)，诸如变换电路、算术编码/解码电路、基于查找表的数据编码技术等。视频处理电路可以部分地被包括在处理器中和/或部分地被包括在诸如图形处理器、现场可编程门阵列(FPGA)等其他专用电路中。

装置

本申请中所公开的实施例以及描述的其他实施例、模块和功能操作可以在数字电子电路中，或者在计算机软件、固件或硬件中实施，其包括在本申请中公开的结构及其结构等价物，或者以它们中的一个或多个的组合来实施。所公开的实施例和其他实施例可以实施为一种或多种计算机程序产品，即，编码在计算机可读介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的组合物，或它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，其包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码(例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其中的一个或多个的组合的代码)。传播信号是人工生成的信号，例如，机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码从而传输到合适的接收机装置。

计算机程序(也被称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言(包括编译语言或解释语言)来编写，并且它可以以任何形式部署，包括作为独立程序或作为合适用于计算环境的模块、组件、子例程或其他单元来部署。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一台计算机上执行，或者在位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。

本申请中描述的进程和逻辑流程可以由一个或多个可编程处理器执行，该处理器执行一个或多个计算机程序，以通过对输入数据进行运算和生成输出来执行功能。进程和逻辑流程也可以用专用逻辑电路来执行，并且装置也可以被实施为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于执行计算机程序的处理器包括例如通用微处理器和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备(例如，磁盘、磁光盘或光盘)，以从其接收数据或向其传递数据，或两者都有。然而，计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括各种形式的非易失性存储器、介质和存储器设备，其包括例如，半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM光盘和DVD-ROM光盘。处理器和存储器可以由专用逻辑电路来补充或并入专用逻辑电路中。

虽然本专利申请包含许多细节，但这些不应被解释为对任何发明的范围或可能要求保护的内容的范围的限制，而应被解释为对可能针对特定发明的特定实施例的特征的描述。本专利申请在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独实施或在任何合适的子组合中实施。此外，尽管上述特征可以被描述为在某些组合中起作用，甚至最初也是这样要求保护的，但是在某些情况下，来自所述组合的一个或多个特征可以从该组合中被删除，并且所述组合可以涉及子组合或子组合的变体。

类似地，虽然在附图中以特定次序描述操作，但这不应理解为要求以所示的特定次序或顺序执行这些操作，或者要求执行所有所示的操作，以获得期望的结果。此外，本专利申请中描述的实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利申请中描述和说明的内容来做出其他实施方式、增强和变化。

Claims

1.一种比特流处理方法，所述方法包括：

解析比特流以从与所述比特流中的图片区域相对应的数据单元获得图片区域标志，其中，所述图片区域包括N个图片块，其中N是整数；以及

基于所述图片区域标志的值，从所述比特流选择性地生成所述图片区域的解码表示；

其中，所述选择性地生成包括：

在所述图片区域标志的所述值是第一值的情况下，使用第一解码方法从所述比特流生成所述解码表示；以及

在所述图片区域标志的所述值是不同于所述第一值的第二值的情况下，使用不同于所述第一解码方法的第二解码方法，从所述比特流生成所述解码表示。

2.根据权利要求1所述的方法，其中，所述图片区域的类型指示帧间预测，并且其中，所述第二解码方法包括，将所述图片区域中的像素的值设置为等于所述图片区域的参考图片中的共定位像素的值。

3.根据权利要求1所述的方法，其中，所述图片区域的类型指示帧间预测，并且参考图片不存在，并且其中，所述第二解码方法包括，将所述图片区域中的像素的值设置为等于预定值。

4.根据权利要求1所述的方法，其中，所述图片区域的类型指示帧内预测，并且其中，所述第二解码方法包括，将所述图片区域中的像素的值设置为预定值。

5.根据权利要求1-4中的任一权利要求所述的方法，其中，所述第一解码方法包括，使用来自所述比特流的对应比特的帧内解码或帧间解码。

6.根据权利要求1-5中的任一权利要求所述的方法，其中，N大于1。

7.根据权利要求6所述的方法，其中，使用与所述图片区域中的第二图片块的编码模式不同的编码模式，所述图片区域中的第一图片块被编码，其中，所述编码模式是帧间预测编码模式，或帧内预测编码模式。

8.一种视觉信息处理方法，所述方法包括：

解析比特流以从所述比特流中的参数集数据单元获得图片区域参数，其中，所述图片区域参数指示，将图片分割成一个或多个图片区域；

根据目标图片区域，确定位于所述目标图片区域中的一个或多个图片区域；

从所述比特流中提取与位于所述目标图片区域中的所述一个或多个图片区域相对应的一个或多个数据单元，以形成子比特流；

生成与所述目标图片区域之外的外部图片区域相对应的第一数据单元，并将所述第一数据单元中的图片区域标志设置为等于第一值，所述第一值指示：在所述外部图片区域中，用于编码块的所述比特流中没有比特被编码；以及

在所述子比特流中插入所述第一数据单元。

9.根据权利要求8所述的方法，其中，所述一个或多个图片区域包括非矩形图片区域。

10.根据权利要求8-9中的任一权利要求所述的方法，其中，所述目标图片区域基于用户视口。

11.根据权利要求8-10中的任一权利要求所述的方法，其中，所述外部图片区域对应于用户视口可见的区域之外的图片区域。

12.一种用于处理视频或图片的编码方法，所述方法包括：

将图片分割成一个或多个图片区域，其中，图片区域包含N个图片块，其中N是整数；

基于编码标准，从所述N个图片块中选择性地生成比特流，

其中，所述选择性地生成包括：

在所述编码标准是对所述图片区域进行编码的情况下，将对应于所述图片区域的图片区域标志编码为第一值，并使用第一编码方法对所述图片区域中的图片块进行编码；以及

在所述编码标准是不对所述图片区域进行编码的情况下，那么将对应于所述图片区域的所述图片区域标志编码为第二值，并使用不同于所述第一编码方法的第二编码方法对所述图片区域进行编码。

13.根据权利要求12所述的方法，其中，所述第一编码方法包括帧内编码。

14.根据权利要求12所述的方法，其中，所述第二编码方法包括预测编码。

15.根据权利要求12所述的方法，其中，所述第一编码方法对所述N个图片块进行编码，并将所述N个图片块的编码比特写入比特流。

16.根据权利要求12所述的方法，其中，所述第二编码方法跳过对所述N个图片块进行编码，并将所述N个图片块的编码比特写入比特流。

17.根据权利要求12-16中的任一权利要求所述的方法，其中，N大于1。

18.根据权利要求12-17中的任一权利要求所述的方法，其中，所述编码标准取决于所述图片的当前视口信息。

19.一种视频编码器装置，包括处理器，所述处理器被配置为实施根据权利要求12-18中的任何一项或多项所述的方法。

20.一种视频解码器装置，包括处理器，所述处理器被配置为实施根据权利要求1-7中的任何一项或多项所述的方法。

21.一种视觉信息处理装置，包括处理器，所述处理器被配置为实施根据权利要求8-11中的任何一项或多项所述的方法。

22.一种计算机程序产品，其具有存储在其上的代码，所述代码当由处理器执行时，使得所述处理器实施根据权利要求1至18中的任何一项或多项所述的方法。