CN118044175A

CN118044175A - 用于视频处理的方法、装置和介质

Info

Publication number: CN118044175A
Application number: CN202280064826.7A
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2021-09-27
Filing date: 2022-09-26
Publication date: 2024-05-14
Also published as: KR20240050414A; WO2023049911A9; KR20240050412A; WO2023049910A1; CN117999788A; WO2023049911A1; CN118044205A; KR20240049612A; WO2023049912A1

Abstract

本公开的实施例提供了一种用于视频处理的解决方案。一种用于视频处理的方法，包括：执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示，该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。所提出的方法有利地使得支持基于ISO基础媒体文件格式(ISOBMFF)的媒体文件中的画中画服务成为可能。

Description

用于视频处理的方法、装置和介质

交叉引用

本申请要求2021年9月27日递交的、申请号为63/248,832的美国临时申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开的实施例总体涉及视频处理技术，更具体地，涉及用于画中画支持的文件格式设计。

背景技术

媒体流应用通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输方法，并且通常依赖于诸如ISO基础媒体文件格式(ISOBMFF)的文件格式。这些流系统中的一种是基于HTTP的动态自适应体(DASH)。在DASH中，针对多媒体内容的视频和/或音频数据可以有多种表示，不同的表示可以与不同的编解码特性(例如，视频编解码标准的不同配置文件或级别、不同的比特率、不同的空间分辨率等)相对应。此外，还提出了一种被称为“画中画(picture-in-picture)”的技术。因此，支持画中画服务的文件格式是值得研究的。

发明内容

本公开的实施例提供了一种用于视频处理的解决方案。

在第一方面，提出了一种用于视频处理的方法。该方法包括执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示。该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

根据所提出的方法，采用指示来指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元。该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。由此，所提出的方法有利地使得支持基于ISOBMFF的媒体文件中的画中画服务成为可能。

在第二方面，提出了一种用于处理视频数据的装置。该用于处理视频数据的装置包括处理器和其上具有指令的非暂态存储器。指令在由处理器执行时使得处理器执行根据本公开的第一方面的方法。

在第三方面，提出了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储使处理器执行根据本公开第一方面的方法的指令。

在第四方面，提出了另一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储视频的由视频处理装置执行的方法生成的比特流。该方法包括执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示。该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

在第五方面，提出了一种用于存储第一视频的比特流的方法。该方法包括：执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示。该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

在第六方面，提出了另一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储第一视频的媒体文件，还视频媒体文件由视频处理装置执行的方法生成。该方法包括：执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示。该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

在第七方面，提出了一种用于存储第一视频的媒体文件的方法。该方法包括：执行第一视频的媒体文件与第一视频的比特流之间的转换；并且将媒体文件存储在非暂态计算机可读记录介质中。该媒体文件包括第一指示，该第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过参考附图的以下详细描述，本公开的示例实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的示例实施例中，相同的附图标记通常指代相同的组件。

图1示出了根据本公开的一些实施例的示例视频编解码系统的框图；

图2示出了根据本公开的一些实施例的示出第一示例视频编码器的框图；

图3示出了根据本公开的一些实施例的示例视频解码器的框图；

图4示出了被划分为18个图块、24个条带和24个子图片的图片；

图5示出了典型的基于子图片的视口相关的360°视频传送方案；

图6示出了从包含两个子图片和四个条带的比特流中提取一个子图片；

图7示出了基于VVC子图片的画中画支持的示例；

图8示出了根据本发明一些实施例的用于视频处理的方法的流程图；

图9示出了提供画中画的示意图。

图10示出了目标画中画区域的位置信息和大小信息的示意图；

以及

图11示出了可以在其中实现本公开的各种实施例的计算设备的框图。

在所有附图中，相同或相似的附图标记通常指代相同或相似的元素。

具体实施方式

现在将参考一些实施例来描述本公开的原理。应当理解的是，描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的，而不暗示对本公开的范围的任何限制。除了下文所述的方式之外，本文所描述的公开内容还可以以各种方式实施。

在以下描述和权利要求中，除非另有定义，否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。

本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性，但是并非每个实施例都必须包括该特定的特征、结构或特性。此外，这些短语不一定指同一实施例。此外，当结合示例实施例描述特定的特征、结构或特性时，无论是否明确描述，认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。

应当理解的是，尽管术语“第一”和“第二”等可以用于描述各种元素，但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如，第一元素可以被称为第二元素，类似地，第二元素可以被称为第一元素，而不脱离示例实施例的范围。如本文中所使用的，术语“和/或”包括一个或多个所列术语的任何和所有组合。

本文中所使用的术语仅用于描述特定实施例的目的，并不旨在限制示例实施例。如本文中所用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确指示。还应理解，术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等，但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。

示例环境

图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的，视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备，并且目的设备120也可以称为视频解码设备。在操作中，源设备110可以被配置为生成经编码的视频数据，并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。

视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成比特流。比特流可以包括形成视频数据的编码表示的位序列。比特流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上，以供目的设备120访问。

目的设备120可以包括I/O接126、视频解码器124和显示设备122。I/O接126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成，或者可以在目的设备120的外部，该目的设备120被配置为与外部显示设备接口连接。

视频编码器114和视频解码器124可以根据视频压缩标准操作，诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或进一步的标准。

图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图，视频编码器200可以是图1所示的系统100中的视频编码器114的示例。

视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在一些实施例中，视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编解码单元214，该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中，预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测，其中至少一个参考图片是当前视频块所位于的图片。

此外，尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成，但是为了解释的目的，这些组件在图2的示例中被分离地示出。

划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。

模式选择单元203可以例如基于误差结果来选择多种编解码模式(帧内编码或帧间编码)中的一种编解码模式，并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据，并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择针对运动矢量的分辨率(例如，亚像素精度或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本，来确定针对当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的，“I条带”可以是指由宏块构成的图片的一部分，所有宏块均基于同一图片内的宏块。此外，如本文中使用的，在一些方面中，“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以搜索列表0或列表1的参考图片，以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示列表0或列表1中的包含参考视频块的参考图片，并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

备选地，在其他示例中，运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块，并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量，该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片，并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。

在一些示例中，运动估计单元204可以输出完整的运动信息集，以用于解码器的解码处理。备选地，在一些实施例中，运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如，运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值，该值指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。

残差生成单元207可以通过从当前视频块中减去(例如，由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。

在其他示例中，例如在跳过模式中，针对当前视频块可以不存在针对当前视频块的残差数据，并且残差生成单元207可以不执行减去操作。

变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块，来生成针对当前视频块的一个或多个变换系数视频块。

在变换处理单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换，以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本，以产生与当前视频块相关联的重建视频块，以供存储在缓冲213中。

在重建单元212重建视频块之后，可以执行环路滤波操作以减少视频块中的视频块效应伪像。

熵编解码单元214可以从视频编码器200的其他功能组件接收数据。当熵编解码单元214接收数据时，熵编解码单元214可以执行一个或多个熵编码操作，以生成熵编解码数据并且输出包括该熵编解码数据的比特流。

图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图，视频解码器300可以是图1所示的系统100中的视频解码器124的示例。

视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图3的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中，视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。

熵解码单元301可以取回经编码的比特流。经编码的比特流可以包括经熵编码的视频数据(例如，经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码，并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息，该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用，包括基于相邻PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和垂直运动矢量位移值、一个或两个参考图片索引，并且在B条带中的预测区域的情况下，还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的，在一些方面中，“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。

运动补偿单元302可以产生运动补偿块，可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。

运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器，并且运动补偿单元302可以使用插值滤波器来产生预测块。

运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的，在一些方面，“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片，或者也可以是图片的区域。

帧内预测单元303可以使用例如在比特流中接收的帧内预测模式，以从空间相邻块形成预测块。反量化单元304反量化(即，去量化)在比特流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。

重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话，还可以应用去块效应滤波器以对经解码的块进行过滤，以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中，缓冲307为后续运动补偿/帧内预测提供参考块，并且缓冲307还产生经解码的视频以供在显示设备上呈现。

下文将详细描述本公开的一些示例实施例。应当注意，在本文件中使用章节标题是为了便于理解，而不是将章节中公开的实施例仅限于该章节。此外，尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例，但是所公开的技术也适用于其他视频编解码技术。此外，尽管一些实施例详细描述了视频编码步骤，但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外，术语视频处理包括视频编解码或压缩、视频解码或解压缩以及视频转码，在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。

1.概述

本公开涉及视频文件格式。具体来说，涉及媒体文件中画中画的支持。对于媒体文件格式，例如基于ISO基础媒体文件格式(ISOBMFF)或其扩展，可以单独或以各种组合的方式来应用这些想法。

2.背景技术

2.1视频编解码标准

视频编解码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T制定了H.261和H.263，ISO/IEC制定了MPEG-1和MPEG-4Visual，两个组织联合制定了H.262/MPEG-2Video和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来，视频编解码标准基于混合视频编解码结构，其中使用了时间预测加变换编解码。为了探索HEVC以外的未来视频编解码技术，VCEG和MPEG于2015年联合创立了联合视频探索团队(JointVideo Exploration Team，JVET)。此后，JVET采用了许多新方法，并将其纳入名为联合探索模型(JEM)的参考软件中。随着通用视频编解码(VVC)项目正式启动，JVET更名为联合视频专家组(Joint Video Experts Team，JVET)。VVC是新的编解码标准，目标是与HEVC相比比特率降低50％，该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。

通用视频编解码(VVC)标准(ITU-T H.266| ISO/IEC 23090-3)和相关的多功能补充增强信息(VSEI)标准(ITU-T H.274| ISO/IEC 23002-7)被设计用于最广泛的应用，包括传统用途(诸如，电视广播、视频会议或从存储介质进行回放等)和更新和更高级的用例(诸如，自适应比特率流、视频区域提取、以及来自多个经编解码视频比特流、多视图视频、可扩展分层编解码和视口自适应(viewport-adaptive)360°沉浸式媒体的内容的组合和合并。

基本视频编解码(EVC)标准(ISO/IEC 23094-1)是由MPEG最近开发的另一个视频编解码标准。

2.2文件格式标准

媒体流应用程序通常基于IP、TCP和HTTP传输方法，并且通常依赖于诸如ISO基本媒体文件格式(ISOBMFF)等文件格式。这些流媒体系统中的一种是基于HTTP的动态自适应流媒体(DASH)。为了使用具有ISOBMFF和DASH的视频格式，需要用于将视频内容封装在ISOBMFF轨道以及DASH表示和片段中的特定于视频格式的文件格式标准，诸如AVC文件格式和HEVC文件格式。关于视频比特流的重要信息，例如，配置文件、层和等级以及许多其他信息，需要作为文件格式等级元数据和/或DASH媒体呈现描述(MPD)来披露，以用于内容选择目的，例如，用于针对流会话开始时的初始化和流会话期间的流自适应二者的适当的媒体片段的选择。

类似地，为了使用ISOBMFF图像格式，需要特定于图像格式的文件格式标准，诸如，AVC图像文件格式和HEVC图像文件格式。

VVC视频文件格式，目前正在由MPEG开发，该文件格式基于ISOBMFF的用于存储VVC视频内容的文件格式。VVC图像文件格式目前正在由MPEG开发，该文件格式用于存储使用VVC编码的图像内容并且基于ISOBMFF。

2.3VVC中的图片分区和子图片

在VVC中，一张图片被划分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的CTU序列。图块中的CTU在该图块内按光栅扫描顺序进行扫描。

条带由图片的图块内的整数个完整图块或整数个连续完整CTU行组成。

支持两种条带模式，即，光栅扫描条带模式和矩形条带模式。在光栅扫描条带模式中，条带包含图片的图块光栅扫描中的完整图块序列。在矩形条带模式中，条带包含共同形成图片的矩形区域的多个完整的图块，或者共同形成图片的矩形区域的一个图块的多个连续的完整CTU行。矩形条带内的图块在对应于该条带的矩形区域内按照图块光栅扫描顺序进行扫描。

子图片包含一个或多个条带，这些条带共同覆盖图片的矩形区域。

2.3.1子图片的概念和功能

在VVC中，每个子图片由一个或多个完整的矩形条带组成，这些矩形条带共同覆盖图片的矩形区域，例如，如图4所示。子图片可以被限定为可提取的(即，独立于同一图像的其他子图片和独立于按解码顺序的较早图像的其他子图片进行编码解码)或不可提取。无论子图片是可提取的还是不可提取的，编码器都可以控制是否针对每个子图片单独跨子图片边界应用环路滤波(包括去块、SAO和ALF)。

从功能上来说，子图片类似于HEVC中的运动约束图块集(motion-constrainedtile set，MCTS)。它们都允许独立编解码和提取经编解码的图片序列的矩形子集，针对类似视口相关的360°视频流优化和感兴趣区域(region ofinterest，ROI)应用等用例。

在360°视频流(又称全向视频)中，在任何特定时刻，只有整个全向视频球体的子集(即当前视口)会呈现给用户，而用户可以随时转动他/她的头来更改观看方向以及当前视口。同时希望至少对客户端上当前视口未覆盖的区域有一些较低质量的表示，并准备好渲染给用户以防用户突然将他/她的观看方向更改为球体上的任何位置。球体中，在任何给定时刻，全向视频的高质量表示仅在需要渲染给用户的当前视口才需要。如图4所示，将整个全向视频的高质量表示以适当的粒度分割成子图片可以实现这种优化，其中图4具有位于左侧的具有高分辨率的12个子图片，以及具有位于右侧的具有较低分辨率的全向视频的剩余12个子图片。

另一种典型的基于子图片的视口相关的360°视频传递方案如图5所示，其中仅完整视频的较高分辨率表示由子图片组成，而完整视频的较低分辨率表示不使用子图片并且可以用比更高分辨率的表示更不频繁的RAP来进行编码解码。客户端接收较低分辨率的完整视频，而对于较高分辨率的视频，客户端仅接收并解码覆盖当前视口的子图片。

2.3.2子图片和MCTS之间的差异

子图片和MCTS之间有几个重要的设计差异。首先，与在图片边界处类似，VVC中的子图片特征允许编解码块的运动矢量指向子图片外部，即使在这种情况下通过在子图片边界处应用样本填充可提取子图片。其次，在合并模式和VVC的解码器侧运动细化过程中，运动矢量的选择和导出引入了额外的变化。与MCTS编码器端应用的非规范运动约束相比，这允许更高的编解码效率。第三，当从图像序列中提取一个或多个可提取子图片以创建子比特流(该子比特流为一致比特流)时，不需要重写SH(以及PH NAL单元，当存在时)。在基于HEVC MCTS的子比特流提取中，需要对SH进行重写。注意，在HEVC MCTS提取和VVC子图片提取中，都需要重写SPS和PPS。然而，通常一个比特流中只有几个参数集，而每个图片至少有一个条带，因此SH的重写对于应用系统来说是一个很大的负担。第四，一张图片内不同子图片的条带允许有不同的NAL单元类型。这是通常被称为图片内的混合NAL单元类型或混合子图片类型的特征，下面将更详细地讨论。第五，VVC规定了子图片序列的HRD和级别定义，因此编码器可以保证每个可提取的子图片序列的子比特流的一致性。

2.3.3图片内的混合子图片类型

在AVC和HEVC中，一张图片中的所有VCL NAL单元需要具有相同的NAL单元类型。VVC引入了在图片中混合具有不同VCL NAL单元类型的子图片的选项，从而不仅在图片级别而且在子图片级别提供对随机访问的支持。在VVC中，子图片内的VCL NAL单元仍然需要具有相同的NAL单元类型。从IRAP子图片中随机访问的能力对于360°视频应用是有利的。在类似于图5所示的视口依赖的360°视频的传递方案中，空间上相邻的视口的内容很大程度上重叠，即，在视口方向变化期间，视口中只有一小部分子图片被新子图片替换，而大多数子图片保留在视口中。新引入视口的子图片序列必须以IRAP条带开始，但是当允许剩余子图片在视口变化时执行帧间预测时，可以实现总体传输比特率的显著降低。

图片是否仅包含单一类型的NAL单元或多于一种类型的指示在图片引用的PPS中提供(即，使用名为pps_mixed_nalu_types_in_pic_flag的标志)。图片可以由包含IRAP条带的子图片和包含尾随条带的子图片组成。图片内还允许不同NAL单元类型的其他一些组合，包括NAL单元类型RASL和RADL的前导图片条带，这允许将从不同比特流提取的具有open-GOP和close-GOP编解码结构的子图片序列合并变成一个比特流。

2.3.4子图片布局和ID信令

VVC中子图片的布局在SPS中被信号通知，因此在CLVS中保持不变。每个子图片由其左上角CTU的位置以及多个CTU的宽度和高度来表示，因此确保子图片以CTU粒度覆盖图片的矩形区域。图片内每个子图片的索引由在SPS中信号通知的子图片的顺序来确定。

为了能够在不重写SH或PH的情况下提取和合并子图片序列，VVC中的条带寻址方案是基于子图片ID和子图片特定的条带索引来将条带与子图片相关联。在SH中，包含条带的子图片的子图片ID和子图片级别的条带索引被信号通知。注意，特定子图片的子图片ID的值可以与其子图片索引的值不同。两者之间的映射在SPS或PPS(但绝不会两者)中信号通知，或者被隐式地推断。当子图片ID映射存在时，在子图片子比特流提取过程期间当重写SPS和PPS时需要重写或添加子图片ID映射。子图片ID和子图片级别的条带索引一起向解码器指示解码图像的DPB时隙内条带的第一个解码的CTU的准确位置。在子比特流提取后，子图片的子图片ID保持不变，但子图片索引可能会发生变化。即使当子图片中的条带中的第一个CTU的光栅扫描CTU地址相比于原始比特流中的值相比发生变化时，相应SH中的不改变的子图片ID和子图片级别的条带索引还将正确地确定每个CTU在提取的子比特流的解码图像中的位置。图6通过包含两个子图片和四个条带的示例示出了使用子图片ID、子图片索引和子图片级别的条带索引来实现的子图片的提取。

与子图片提取类似，针对子图片的信令允许通过仅重写SPS和PPS将来自不同比特流的多个子图片合并为单个比特流，前提是不同的比特流是协调生成的(例如，使用不同的子图片ID，但在其他方面大多对齐SPS，PPS和PH参数，诸如，CTU大小、色度格式、编解码工具等)。

虽然子图片和条带分别在SPS和PPS中独立地用信号通知，但是为了形成一致的比特流，子图片和条带布局之间存在固有的相互约束。首先，子图片的存在需要使用矩形条带并禁止光栅扫描条带。其次，给定子图的条带在解码顺序上应该是连续的NAL单元，这意味着子图布局限制了比特流内经编解码的条带NAL单元的顺序。

2.4画中画服务

画中画服务提供了将小分辨率的图片包含在高分辨率的图片中的能力。这样的服务可能有利于同时向用户显示两个视频，从而将具有较大分辨率的视频视为主视频，并将具有较小分辨率的视频视为补充视频。这种画中画服务可用于提供可及性服务，其中主视频由标记(signage)视频补充。

通过利用VVC子图片的提取和合并特性，VVC子图片可以用于画中画服务。对于此类服务，主视频使用多个子图片进行编码，多个子图片中的一个子图片的大小与补充视频大小相同并且位于补充视频打算合成到主视频中的确切位置，并独立地被编码以使能提取。如果用户选择查看包含补充视频的服务版本，则从主视频比特流中提取与主视频的画中画区域对应的子图片，并将补充视频比特流合并到其在主视频比特流中的位置，如图7所示。图7示出了基于VVC子图片的画中画支持的示例。

在这种情况下，主视频和补充视频的图片必须共享相同的视频特性，特别是比特深度、样本长宽比、大小、帧速率、色彩空间和传输特性、色度样本位置必须相同。主视频比特流和补充视频比特流不需要在每个图片内使用NAL单元类型。然而，合并要求主比特流和补充比特流中的图片的编解码顺序相同。

由于本公开需要合并子图片，所以主视频和补充视频中使用的子图片ID不能重叠。即使补充视频比特流仅由一个子图片组成而没有任何另外的图块或条带分区，也需要用信号通知子图片信息，特别是子图片ID和子图片ID长度，以实现将补充视频比特流合并到主视频比特流。用于信令通知补充视频比特流的条带NAL单元内的子图片语法元素的子图片ID长度必须与用于信令通知主视频比特流的条带NAL单元内的子图片ID的子图片ID长度相同。另外，为了在不需要重写PPS分区信息的情况下简化补充视频比特流与主视频比特流的合并，在主视频的相应区域内仅使用一个条带和一个图块来编码补充视频可能是有益的。主视频比特流和辅助视频比特流必须信令通知在SPS、PPS和图片头部中使用的相同的编解码工具。它包括使用用于块分区的相同的最大允许大小和最小允许大小，以及与PPS中指示的初始量化参数相同的值(与pps_init_qp_minus26语法元素的值相同)。编解码工具的使用可以在条带头部级别被修改。

当主比特流和补充比特流在基于ISOBMFF的媒体文件中可用时，主比特流和补充比特流可以存储在两个单独的文件格式轨道中。

3.问题

在基于ISOBMFF的媒体文件中支持画中画时发现了以下问题：

1)虽然可以使用不同的文件格式轨道来分别存储画中画主比特流和补充比特流，但是缺乏用于指示基于ISOBMFF的媒体文件中的一对这样的轨道的这种目的的机制。

2)虽然可以使用VVC子图片来实现画中画的体验，例如，如上所述，但是在不能够将表示主视频中的目标画中画区域的编码视频数据单元替换为补充视频的相应视频数据单元的情况下，也可以使用其他编解码器和方法。因此，需要在基于ISOBMFF的媒体文件中指示这种替换是否可能。

3)当可以进行上述替换时，客户端需要知道主视频的每张图片中的哪些经编解码的视频数据单元代表目标图中图像区域，以能够进行替换。因此，在这种情况下，需要在基于ISOBMFF的媒体文件中信号通知该信息。

4)出于内容选择的目的以及其他可能的目的，在基于ISOBMFF的媒体文件中信令通知主视频中的目标画中画区域的位置和大小将是有用的。

4.示例实施例

为了解决上述问题，公开了如下概述的方法。实施例应被视为解释一般概念的示例，不应以狭义的方式来解读。此外，这些实施例可以单独应用或以任何方式组合应用。为了方便起见，承载共同提供画中画体验的主比特流和辅助比特流的一对轨道被称为一对画中画轨道或画中画轨道对。

1)为了解决第一个问题，定义了一种新的轨道参考类型，以指示轨道包含轨道参考并且由轨道参考所参考的轨道是一对画中画轨道。

a.在一个示例中，这种轨道参考的新类型由等于特定值的轨道参考类型来指示，例如，′pips′(意思是“参考画中画补充比特流”)，并且包含该轨道参考的轨道承载主比特流，并且轨道参考所参考的轨道承载补充比特流。

b.在另一示例中，这种轨道参考的新类型由等于特定值的轨道参考类型来指示，例如，′pipm′(意思是“参考画中画主比特流”)，并且包含该轨道参考的轨道承载补充比特流，并且轨道参考所参考的轨道承载主比特流。

c.在又一示例中，定义了如上所述的两种轨道参考类型。

2)为了解决第一和第二个问题，定义了包含在承载主比特流的轨道中的两种轨道参考的新类型，一种指示一对画中画轨道，该对画中画轨道使能使用补充比特流的相应视频数据单元替换表示主视频中的目标画中画区域的经编码的视频数据单元，另一个指示未使能进行这样的视频数据单元替换的一对画中画轨道。a.在一个示例中，这两种轨道参考的新类型由等于′ppsr′的轨道参考类型值来指示(意思是“参考画中画补充比特流，其中视频数据单元替换被使能”)和′ppsn′(意思是“指画中画补充比特流，视频数据单元替换未被使能”)。

3)备选地，为了解决第一和第二个问题，定义了包含在承载补充比特流的轨道中的两种轨道参考的新类型，一种指示一对画中画轨道，该对画中画轨道使能使用补充比特流的相应视频数据单元替换表示主视频中的目标画中画区域的经编解的视频数据单元，另一个指示未使能进行这样的视频数据单元替换的一对画中画轨道。

a.在一个示例中，这两种轨道参考的新类型由等于′ppmr′的轨道参考类型值(意思是“参考画中画主比特流，其中视频数据单元替换被使能”)和′ppmn′(意思是“参考画中画主比特流，其中视频数据单元替换未被使能”)来分别指示。

4)备选地，为了解决第一和第二个问题，定义了如上面第2项和第3项所述四种轨道参考的新类型。

5)为了解决上述四个问题，定义了一种实体分组的新类型，概述如下。

a.实体分组的新类型被命名为画中画实体分组，其grouping_type等于′pinp′(或不同的名称或不同的分组类型值，但具有类似的功能如下所述)。

b.在一个示例中，规定实体组中的每个实体必须是视频轨道。

c.PicInPicEntityGroupBox通过扩展EntityToGroupBox来定义，以携带以下信息中的至少一个或多个：

i.主比特流轨道的数量N。由EntityToGroupBox中的前N个entity_id值标识的实体(即此上下文中的轨道)是主比特流轨道，而实体EntityToGroupBox中的其他entity_id值标识是补充比特流轨道。为了回放画中画体验，主比特流轨道中的一个主比特流轨道被选择，并且补充比特流轨道中的一个补充比特流轨道被选择。

1.备选地，主的比特流轨道由索引列表信令通知给EntityToGroupBox中的Entity_id值列表，实体组中的其他实体/轨道是补充的比特流轨道。

2.备选地，主比特流轨道由track_id值列表信令通知，实体组中的其他实体/轨道是补充比特流轨道。

ii.用于指示是否能够将主视频中代表目标画中画区域的经编解码的视频数据单元替换为补充视频中对应的视频数据单元的指示。

1.在一个示例中，该指示由名为data_units_replacable的一比特标志来信令通知，并且值1和0分别指示使能和未使能这样的视频数据单元替换。

iii.区域ID列表，用于指示主视频的每个图片中哪些经编解码的视频数据单元表示目标画中画区域。

1.在一个示例中，规定：针对特定的视频编解码器，区域ID的具体语义需要显式地被规定。

a.在一个示例中，规定：在VVC的情况下，区域ID为子图片ID，并且经编解码的视频数据单元为VCL NAL单元。表示主视频中的目标画中画区域的VCL NAL单元是具有这些子图片ID的那些VCL NAL单元，这些子图片ID与补充视频的相应VCL NAL单元中的子图片ID相同(通常，补充视频中的一个画面的所有VCL NAL单元共享明确地信号通知的相同子图片ID，并且在这种情况下，在区域ID的列表中只有一个区域ID)。

b.在一个示例中，规定：在VVC的情况下，在发送到视频解码器之前，当客户端选择使用补充视频的对应VCL NAL单元替换主视频中表示目标画中画区域的经编解码的视频数据单元(即VCL NAL单元)时，对于每个子图片ID，将主视频中的VCL NAL单元替换为补充视频中具有该子图ID的对应VCL NAL单元，而不改变相应的VCL NAL单元的顺序。

iv.主视频中用于嵌入/叠加补充视频的位置和大小，在大小方面小于主视频。

1.在一个示例中，这是通过四个值(x、y、宽度、高度)来信令通知的，其中x、y指定区域的左上角的位置，并且宽度和高度指定区域的宽度和高度。单位可以是亮度样本/像素。

2.在一个示例中，规定：当data_units_replacable等于1并且存在位置和尺寸信息时，该位置和尺寸应当准确地表示主视频中的目标画中画区域。

3.在一个示例中，规定：当data_units_repkacable等于0并且存在位置和尺寸信息时，位置和尺寸信息指示用于嵌入覆盖补充视频的优选区域(即，客户端可以选择将补充视频叠加在主视频的不同区域)。

4.在一个示例中，规定：当data_units_replacable等于0并且位置和尺寸信息不存在时，没有关于在哪里覆盖补充视频的信息或建议，并且完全取决于客户的选择。

5.实施例

下面是针对条目5及其上述第4节中概述的一些子条目的一些示例性实施例的示例实施例。

这些实施例可以应用于ISOBMFF。

5.1画中画实体分组

5.1.1定义

画中画服务提供了将具有较小空间分辨率的视频包含在具有较大空间分辨率的视频中的能力，分别称为补充视频和主视频。通过从被指示包含主视频的轨道中选择一个轨道，并且在其他轨道中选择一个一个轨道(其包含补充视频)，grouping_.type等于′pinp′的同一实体组中的轨道可用于支持画中画服务。

画中画实体组中的所有实体均应为视频轨道。

5.1.2语法

5.1.3语义

num_main_video_tracks指定该实体组中承载画中画主视频的轨道数。

data_units_replacable指示主视频中表示目标画中画区域的经编解码的视频数据单元是否可以被补充视频的相应视频数据单元替换。值为1指示使能这样的视频数据单元替换，值为0指示未使能这样的视频数据单元替换。

当data_units_replacable等于1时，发送至视频解码器进行解码之前，播放器可以选择使用补充视频对应的经编解码的视频数据单元来替换主视频中表示目标画中画区域的经编解码的视频数据单元。在这种情况下，对于主视频中的特定图片，补充视频的对应的视频数据单元是补充视频轨道中的解码时间同步样本中经编解码的全部视频数据单元。在VVC的情况下，在发送到视频解码器之前，当客户端选择将主视频中表示目标画中画区域的经编解码的视频数据单元(即VCL NAL单元)替换为补充视频中相应的VCL NAL单元时，对于每个子图ID，主视频中的VCL NAL单元被替换为补充视频中具有该子图ID的对应VCL NAL单元，而不改变对应VCL NAL单元的顺序。

pinp_window_info_present等于1指定字段x、y、宽度和高度存在。值0指定这些字段不存在。

num_region_ids指定随后的Region_id[i]字段的数量。

region_id[i]指定表示目标画中画区域的经编解码的视频数据单元的第i个ID。

针对特定的视频编解码器，区域ID的具体语义需要显式地被规定。在VVC的情况下，区域ID是子图片ID，并且经编解码的视频数据单元是VCL NAL单元。表示主视频中的目标画中画区域的VCL NAL单元是具有这些子图片ID的那些VCL NAL单元，这些子图片ID与补充视频的相应VCL NAL单元中的子图片ID相同。

x指定主视频中目标画中画区域的左上角编码视频像素(样本)的水平位置。单位是视频像素(样本)。

y指定主视频中目标画中画区域的左上角编码视频像素(样本)的垂直位置。单位是视频像素(样本)。

宽度指定主视频中目标画中画区域的宽度。单位是视频像素(样本)。

高度指定主视频中目标画中画区域的高度。单位是视频像素(样本)。

本公开的实施例涉及一种用于画中画支持的文件格式设计。如本文所使用的，“画中画(picture-in-picture，PiP)服务”提供了将具有较小空间分辨率的视频(也称为“补充视频”或“PiP视频”)包含在具有较大空间分辨率的视频内的能力(也称为“主视频”)。

图8示出了根据本公开的一些实施例的用于视频处理的方法800的流程图。方法800可以在客户端或服务器处实现。本文使用的术语“客户端”可以指访问由作为计算机网络的客户端-服务器模型的服务器提供的服务的计算机硬件或软件的一部分。举例来说，客户端可以是智能手机或平板电脑。这里使用的术语“服务器”可以指具有计算能力的设备，在这种情况下，客户端通过网络来访问服务器。服务器可以是物理计算设备或虚拟计算设备。

如图8所示，方法800开始于框802，其中，在框802，执行执行第一视频的媒体文件与第一视频的比特流之间的转换。该媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。举例来说，第一指示可以包括标识第一视频中的区域的区域标识(ID)列表。应当理解，以上示例仅仅是为了描述的目的。本公开的范围在此方面不受限制。

根据提出的方法，采用指示来指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元。该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。由此，所提出的方法有利地使得支持基于ISOBMFF的媒体文件中的画中画服务成为可能。

在一些实施例中，第二视频的空间分辨率小于第一视频的空间分辨率。也就是说，第二视频为补充视频，第一视频为主视频。

在一些实施例中，第一指示包括标识第一视频中的区域的区域标识(ID)列表。在一些实施例中，针对区域ID列表中的一个区域ID，利用第二组经编解码视频数据单元中具有区域ID的第二经编解码视频数据单元替换第一组经编解码视频数据单元中具有区域ID的第一经编解码视频数据单元。例如，图9示出了提供画中画的示意图。如图9所示，第一视频可以包括具有子图片(subpic)ID 00、01、02和03的子画面。例如，如果区域ID的列表包括子图片ID 00，则可以用第二视频920中具有子图片ID 00的经编解码视频数据单元替换第一视频910中具有子图片ID 00的经编解码视频数据单元。

以这种方式，补充视频的比特流可以与主视频比特流合并。不需要传输或解码补充视频和主视频两者的比特流，仅需要传输或解码合并的比特流。从而，可以有利地提高传输效率和/或解码效率。

在一些实施例中，第一视频是利用通用视频编解码(VVC)而被编解码的，并且区域标识列表中的区域ID是标识第一视频中的子图片的子图片ID。在一些实施例中，第一组经编解码的视频数据单元包括视频编解码层网络抽象层(VCL NAL)单元，并且第二组经编解码的视频数据单元包括VCL NAL单元。

在一些实施例中，第一指示可以被包括在媒体文件中的数据结构中。举例来说，数据结构可以是“pinp”实体组。也就是说，该数据结构是一种新类型的实体分组，名为画中画实体分组，其属性grouping_type等于“pinp”。在一些实施例中，“pinp”实体组中的实体是承载第一视频的比特流的轨道。应当理解，以上示例仅仅是为了描述的目的。本公开的范围在此方面不受限制。

在一些实施例中，数据结构还可以包括第二指示，第二指示用于指示承载第一视频的比特流的一组轨道。在一个示例中，第二指示可以包括等于该组轨道中的轨道数目的值，举例来说，如果承载第一视频的比特流的轨道的数目为N，则指示可以为值N，其指示由数据结构中的前N个实体ID标识的轨道是承载第一视频的比特流，而其余实体ID标识的轨道是承载第二视频的比特流的轨道。备选地，第二指示可以包括指示一组轨道中的轨道的标识(ID)的索引列表。在另一示例中，第二指示可以包括一组轨道中的轨道的轨道ID的列表。应当理解，以上示例仅仅是为了描述的目的。本公开的范围在此方面不受限制。

在一些实施例中，目标画中画区域的尺寸可以小于第一视频的尺寸。数据结构还可以包括目标画中画区域的位置信息和尺寸信息。在一个示例中，位置信息可以指示目标画中画区域的左上角的水平位置和竖直位置。备选地或附加地，尺寸信息可以指示目标画中画区域的宽度和高度。例如，图10示出了目标画中画区域1001的位置信息和大小信息的示意图。如图10所示，位置信息可以指示目标画中画区域1001在第一视频1010中的水平位置X和垂直位置Y。尺寸信息可以包括目标图中图区域1001的宽度1002和高度1003。

在一些实施例中，如果媒体文件包括用于指示第一组经编解码视频数据单元不能够由第二组经编解码视频数据单元替换的第三指示，则可以为第二视频确定第一视频中的第一区域。第二视频可以被叠加在第一区域中的第一视频上。

在一些实施例中，媒体文件还可以包括目标画中画区域的位置信息和大小信息。第一区域是根据目标图片中的区域确定的。在一些实施例中，位置信息可以指示目标画中画区域的左上角的水平位置和垂直位置。尺寸信息可以指示目标画中画区域的宽度和高度。

在一些实施例中，转换包括生成媒体文件并将比特流存储到媒体文件。备选地或附加地，在一些实施例中，转换包括解析媒体文件以重建比特流。

在一些实施例中，第一视频的比特流可以存储在非暂态计算机可读记录介质中。第一视频的比特流可以通过视频处理装置执行的方法来生成。根据该方法，执行第一视频的媒体文件与第一视频的比特流之间的转换。该媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元。该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

在一些实施例中，第一视频的媒体文件和比特流之间的转换被执行。该媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元。该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

在一些实施例中，第一视频的媒体文件可以存储在非暂态计算机可读记录介质中。第一视频的媒体文件可以通过视频处理装置执行的方法来生成。根据该方法，执行第一视频的媒体文件与第一视频的比特流之间的转换。该媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元。该第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

可以根据以下条款来描述本公开的实施方式，可以以任何合理的方式组合这些条款的特征。

条款1.一种用于视频处理的方法，包括：执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

条款2.根据条款1的方法，其中第二视频的空间分辨率小于第一视频的空间分辨率。

条款3.根据条款1-2中任一项的方法，其中第一指示包括标识第一视频中的区域的区域标识(ID)列表。

条款4.根据条款3的方法，还包括：针对区域ID列表中的一个区域ID，利用第二组经编解码视频数据单元中具有区域ID的第二经编解码视频数据单元替换第一组经编解码视频数据单元中具有区域ID的第一经编解码视频数据单元。

条款5.根据条款3-4中任一项的方法，其中第一视频是利用通用视频编解码(VVC)而被编解码的，并且区域标识列表中的区域ID是标识第一视频中的子图片的子图片ID。

条款6.根据条款1-5中任一项的方法，其中第一组经编解码视频数据单元包括视频编解码层网络抽象层(VCL NAL)单元，并且第二组经编解码视频数据单元包括VCL NAL单元。

条款7.根据条款1-6中任一项的方法，其中第一指示被包括在媒体文件中的数据结构中。

条款8.根据条款7的方法，其中数据结构是“pinp”实体组。

条款9.根据条款8的方法，其中“pinp”实体组中的实体是承载第一视频的比特流的轨道。

条款10.根据条款7-9中任一项的方法，其中数据结构还包括第二指示，第二指示用于指示承载第一视频的比特流的一组轨道。

条款11.根据条款10的方法，其中第二指示包括以下一项：等于一组轨道中的轨道数目的值，指示一组轨道中的轨道的标识(ID)的索引列表，或者一组轨道中的轨道的轨道ID的列表。

条款12.根据条款7-11中任一项的方法，其中目标画中画区域的尺寸小于第一视频的尺寸，并且数据结构还包括目标画中画区域的位置信息和尺寸信息。

条款13.根据条款12的方法，其中位置信息指示目标画中画区域的左上角的水平位置和竖直位置，并且尺寸信息指示目标画中画区域的宽度和高度。

条款14.根据条款1-2中任一项的方法，还包括：如果媒体文件包括用于指示第一组经编解码视频数据单元不能够由第二组经编解码视频数据单元替换的第三指示，则为第二视频确定第一视频中的第一区域；以及在第一区域中将第二视频叠加在第一视频上。

条款15.根据条款14的方法，其中媒体文件还包括目标画中画区域的位置信息和尺寸信息，其中确定第一区域包括：基于目标画中画区域来确定第一区域。

条款16.根据条款15的方法，其中位置信息指示目标画中画区域的左上角的水平位置和竖直位置，并且尺寸信息指示目标画中画区域的宽度和高度。

条款17.根据条款1-16中任一项的方法，其中转换包括生成媒体文件并将比特流存储到媒体文件。

条款18.根据条款1-16中任一项的方法，其中转换包括解析媒体文件以重建比特流。

条款19.一种用于处理视频数据的装置，包括处理器和其上具有指令的非暂态存储器，其中指令在由处理器执行时使处理器执行根据条款1-18中任一项的方法。

条款20.一种存储指令的非暂态计算机可读存储介质，指令使处理器执行根据条款1-18中任一项的方法。

条款21.一种非暂态计算机可读记录介质，存储第一视频的由视频处理装置执行的方法生成的比特流，其中方法包括：执行第一视频的媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

条款22.一种用于存储视频的比特流的方法，包括：执行第一视频的媒体文件与第一视频的比特流之间的转换；以及将比特流存储在非暂态计算机可读记录介质中，其中媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

条款23.一种非暂态计算机可读记录介质，存储第一视频的由视频处理装置执行的方法生成的媒体文件，其中方法包括：执行媒体文件与第一视频的比特流之间的转换，其中媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

条款24.一种用于存储第一视频的媒体文件的方法，包括：执行媒体文件与第一视频的比特流之间的转换；以及将媒体文件存储在非暂态计算机可读记录介质中，其中媒体文件包括第一指示，第一指示用于指示表示第一视频中的目标画中画区域的第一组经编解码视频数据单元，第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

设备示例

图11示出了可以在其中实现本公开的各种实施例的计算设备1100的框图。计算设备1100可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)，或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。

应当理解的是，图11中示出的计算设备1100仅为了说明的目的，而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。

如图11所示，计算设备1100包括通用计算设备1100。计算设备1100可以至少包括一个或多个处理器或处理单元1110、存储器1120、存储单元1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。

在一些实施例中，计算设备1100可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端，包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合，并且包括这些设备的附件和外围设备或其任何组合。可以设想的是，计算设备1100可以支持到用户的任何类型的接口(诸如″可穿戴″电路装置等)。

处理单元1110可以是物理处理器或虚拟处理器，并且可以基于存储在存储器1120中的程序实现各种处理。在多处理器系统中，多个处理单元并行地执行计算机可执行指令，以便改善计算设备1100的并行处理能力。处理单元1110也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。

计算设备1100通常包括各种计算机存储介质。这样的介质可以是由计算设备1100可访问的任何介质，包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1120可以是易失性存储器(例如，寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1130可以是任何可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1100中被访问的介质。

计算设备1100还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图11中未示出，但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器，以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下，每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。

通信单元1140经由通信介质与另一计算设备通信。另外，计算设备1100中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此，计算设备1100可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。

输入设备1150可以是各种输入设备中的一种或多种输入设备，诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1160可以是各种输出设备中的一种或多种输出设备，诸如显示器、扬声器、打印机等。借助于通信单元1140，计算设备1100还可以与一个或多个外部设备(未示出)通信，外部设备诸如是存储设备和显示设备，计算设备1100还可以与一个或多个使用户能够与计算设备1100交互的设备通信，或任何使计算设备1100能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信，如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。

在一些实施例中，计算设备1100的一些或所有组件也可以被布置在云计算架构中，而不是被集成在单个设备中。在云计算架构中，组件可以被远程提供并且共同工作，以实现本公开中描述的功能。在一些实施例中，云计算提供计算、软件、数据访问和存储服务，这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中，云计算使用合适的协议经由广域网(例如互联网)提供服务。例如，云计算提供商通过广域网提供应用程序，可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务，尽管它们表现为作为用户的单一接入点。因此，云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地，它们可以由常规服务器提供，或者直接或以其他方式安装在客户端设备上。

在本公开的实施例中，计算设备1100可以被用于实现视频编码/解码。存储器1120可以包括具有一个或多个程序指令的一个或多个视频编解码模块1125。这些模块能够由处理单元1110访问和执行，以执行本文描述的各种实施例的功能。

在执行视频编码的示例实施例中，输入设备1150可以接收视频数据作为待编码的输入1170。视频数据可以由例如视频编解码模块1125处理，以生成经编码的比特流。经编码的比特流可以经由输出设备1160作为输出1180被提供。

在执行视频解码的示例实施例中，输入设备1150可以接收经编码的比特流作为输入1170。经编码的比特流可以由例如视频编解码模块1125处理，以生成经解码的视频数据。经解码的视频数据可以经由输出设备1160作为输出1180被提供。

虽然已经参考本公开的优选实施例具体示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求限定的本申请的精神和范围的情况下，可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此，本申请的实施例的前述描述不旨在是限制性的。

Claims

1.一种用于视频处理的方法，包括：

执行第一视频的媒体文件与所述第一视频的比特流之间的转换，

其中所述媒体文件包括第一指示，所述第一指示用于指示表示所述第一视频中的目标画中画区域的第一组经编解码视频数据单元，所述第一组经编解码视频数据单元能够由与第二视频相关联的第二组经编解码视频数据单元替换。

2.根据权利要求1所述的方法，其中所述第二视频的空间分辨率小于所述第一视频的空间分辨率。

3.根据权利要求1-2中任一项所述的方法，其中所述第一指示包括标识所述第一视频中的区域的区域标识(ID)列表。

4.根据权利要求3所述的方法，还包括：

针对所述区域ID列表中的一个区域ID，利用所述第二组经编解码视频数据单元中具有所述区域ID的第二经编解码视频数据单元替换所述第一组经编解码视频数据单元中具有所述区域ID的第一经编解码视频数据单元。

5.根据权利要求3-4中任一项所述的方法，其中所述第一视频是利用通用视频编解码(VVC)而被编解码的，并且

所述区域标识列表中的区域ID是标识所述第一视频中的子图片的子图片ID。

6.根据权利要求1-5中任一项所述的方法，其中所述第一组经编解码视频数据单元包括视频编解码层网络抽象层(VCL NAL)单元，并且

所述第二组经编解码视频数据单元包括VCL NAL单元。

7.根据权利要求1-6中任一项所述的方法，其中所述第一指示被包括在所述媒体文件中的数据结构中。

8.根据权利要求7所述的方法，其中所述数据结构是“pinp”实体组。

9.根据权利要求8所述的方法，其中所述“pinp”实体组中的实体是承载所述第一视频的所述比特流的轨道。

10.根据权利要求7-9中任一项所述的方法，其中所述数据结构还包括第二指示，所述第二指示用于指示承载所述第一视频的所述比特流的一组轨道。

11.根据权利要求10所述的方法，其中所述第二指示包括以下一项：

等于所述一组轨道中的轨道数目的值，

指示所述一组轨道中的轨道的标识(ID)的索引列表，或者

所述一组轨道中的轨道的轨道ID的列表。

12.根据权利要求7-11中任一项所述的方法，其中所述目标画中画区域的尺寸小于所述第一视频的尺寸，并且所述数据结构还包括所述目标画中画区域的位置信息和尺寸信息。

13.根据权利要求12所述的方法，其中所述位置信息指示所述目标画中画区域的左上角的水平位置和竖直位置，并且

所述尺寸信息指示所述目标画中画区域的宽度和高度。

14.根据权利要求1-2中任一项所述的方法，还包括：

如果所述媒体文件包括用于指示所述第一组经编解码视频数据单元不能够由所述第二组经编解码视频数据单元替换的第三指示，则为所述第二视频确定第一视频中的第一区域；以及

在第一区域中将所述第二视频叠加在所述第一视频上。

15.根据权利要求14所述的方法，其中所述媒体文件还包括所述目标画中画区域的位置信息和尺寸信息，其中确定所述第一区域包括：

基于所述目标画中画区域来确定所述第一区域。

16.根据权利要求15所述的方法，其中所述位置信息指示所述目标画中画区域的左上角的水平位置和竖直位置，并且

所述尺寸信息指示所述目标画中画区域的宽度和高度。

17.根据权利要求1-16中任一项所述的方法，其中所述转换包括生成所述媒体文件并将所述比特流存储到所述媒体文件。

18.根据权利要求1-16中任一项所述的方法，其中所述转换包括解析所述媒体文件以重建所述比特流。

19.一种用于处理视频数据的装置，包括处理器和其上具有指令的非暂态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-18中任一项所述的方法。

20.一种存储指令的非暂态计算机可读存储介质，所述指令使处理器执行根据权利要求1-18中任一项所述的方法。

21.一种非暂态计算机可读记录介质，存储第一视频的由视频处理装置执行的方法生成的比特流，其中所述方法包括：

22.一种用于存储视频的比特流的方法，包括：

执行第一视频的媒体文件与所述第一视频的比特流之间的转换；以及

将所述比特流存储在非暂态计算机可读记录介质中，

23.一种非暂态计算机可读记录介质，存储第一视频的由视频处理装置执行的方法生成的媒体文件，其中所述方法包括：

执行所述媒体文件与所述第一视频的比特流之间的转换，

24.一种用于存储第一视频的媒体文件的方法，包括：

执行所述媒体文件与所述第一视频的比特流之间的转换；以及

将所述媒体文件存储在非暂态计算机可读记录介质中，