CN118044177A

CN118044177A - 视频处理方法、设备和介质

Info

Publication number: CN118044177A
Application number: CN202280065128.9A
Authority: CN
Inventors: 王业奎
Original assignee: ByteDance Inc
Current assignee: ByteDance Inc
Priority date: 2021-09-27
Filing date: 2022-09-26
Publication date: 2024-05-14
Also published as: CN118044176A; CN118020310A; EP4409873A1; EP4409923A1; US20240244244A1; JP2024534616A; JP2024534615A; KR20240049610A; WO2023049914A1; WO2023049916A1; KR20240049611A; US20240244303A1; US20240244219A1; WO2023049915A1; EP4409874A1; KR20240050413A; JP2024534617A

Abstract

本公开的实施例提供了一种视频处理的解决方案。提出了一种视频处理方法。该方法包括：第一设备从服务器接收元数据文件；以及从元数据文件，确定区域标识(ID)列表，区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换。

Description

视频处理方法、设备和介质

相关申请的交叉引用

本申请要求于2021年9月27日提交的、申请号为63/248,852的美国临时专利申请的权益，其通过引用合并于此。

技术领域

本公开的实施例总体涉及视频编解码技术，更具体地，涉及文件格式的数字音频视频媒体信息的生成、存储和消费。

背景技术

媒体流应用通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传送方法，并且通常依赖于诸如ISO基础媒体文件格式(ISOBMFF)之类的文件格式。其中一种流媒体系统是HTTP上的动态自适应流(DASH)。在HTTP上的动态自适应流(DASH)中，针对多媒体内容的视频和/或音频数据可能有多种表示，不同的表示可以对应于不同的编解码特性(例如，视频编解码标准的不同档次(profile)或级别(level)、不同的比特率、不同的空间分辨率等)。此外，还提出了一种名为“画中画”的技术。因此，支持画中画服务的DASH是值得研究的。

发明内容

本公开的实施例提供了一种视频处理的解决方案。

在第一方面，提出了一种用于视频处理的方法。该方法包括：第一设备接收来自第二设备的元数据文件；以及从所述元数据文件，确定区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换。以此方式，第一设备就知道第一视频的每个图像中的哪些经编解码的视频数据单元代表目标图像中图像区域，并可以进行替换。

在第二方面，提出了另一种用于视频处理的方法。该方法包括：在第二设备处，确定元数据文件，所述元数据文件包括区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换；将所述元数据文件传输到第一设备。这样，第一设备就知道第一视频的每个图像中的哪些经编解码的视频数据单元代表目标图像中图像区域，并可以进行替换。

在第三方面中，提出了一种用于处理视频数据的装置。该用于处理视频数据的装置包括处理器和其上具有指令的非暂态存储器。这些指令在由处理器执行时使处理器执行根据本公开的第一或第二方面的方法。

在第四方面，提出了一种非暂态计算机可读存储介质。该非暂态计算机可读存储介质存储有使处理器执行根据本公开的第一或第二方面的方法的指令。

提供本发明内容是为了以简化的形式介绍一些概念，下面以具体实施方式进一步描述这些概念。本发明内容无意于识别所要求保护的主题的关键特征或基本特征，也无意于用于限制所要求保护的主题的范围。

附图说明

通过以下具体实施方式并参考附图，本公开实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的实施例中，相同的附图标记通常指代相同的部件。

图1示出了根据本公开的一些实施例的示例视频编解码系统的框图；

图2示出了根据本公开的一些实施例的示出第一示例视频编码器的框图；

图3示出了根据本公开的一些实施例的示例视频解码器的框图；

图4示出了被划分为18个图块、24个条带和24个子图片的图片的示意图。

图5示出了典型的基于子图片的视口相关的360°视频递送方案的示意图；

图6示出了从包含两个子图片和四个条带的比特流中提取一个子图片的示意图；

图7示出了基于VVC子图片的画中画支持的示意图；

图8示出了根据本公开实施例的方法的流程图；

图9A和图9B示出了画中画的示意图；

图10示出了根据本公开实施例的方法的流程图；以及

图11示出了其中可以实现本公开的各个实施例的计算设备的框图。

在整个附图中，相同或相似的附图标记通常指代相同或相似的元件。

具体实施方式

现在将参考一些实施例来描述本公开的原理。应当理解的是，描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的，而不暗示对本公开的范围的任何限制。除了下文所述的方式之外，本文所描述的公开内容还可以以各种方式实施。

在以下描述和权利要求中，除非另有定义，否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。

本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性，但是并非每个实施例都必须包括该特定的特征、结构或特性。此外，这些短语不一定指同一实施例。此外，当结合示例实施例描述特定的特征、结构或特性时，无论是否明确描述，认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。

应当理解的是，尽管术语“第一”和“第二”等可以用于描述各种元素，但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如，第一元素可以被称为第二元素，类似地，第二元素可以被称为第一元素，而不脱离示例实施例的范围。如本文中所使用的，术语“和/或”包括一个或多个所列术语的任何和所有组合。

本文中所使用的术语仅用于描述特定实施例的目的，并不旨在限制示例实施例。如本文中所用的，单数形式“一”、“一个”和“该”也旨在包括复数形式，除非上下文另有明确指示。还应理解，术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等，但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。

示例环境

图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的，视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备，并且目的设备120也可以称为视频解码设备。在操作中，源设备110可以被配置为生成经编码的视频数据，并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。

视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。

视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码，以生成码流。码流可以包括形成视频数据的编码表示的位序列。码流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上，以供目的设备120访问。

目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成，或者可以在目的设备120的外部，该目的设备120被配置为与外部显示设备接口连接。

视频编码器114和视频解码器124可以根据视频压缩标准操作，诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或将来的标准。

图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图，视频编码器200可以是图1所示的系统100中的视频编码器114的示例。

视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中，视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在一些实施例中，视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编解码单元214，该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。

在其他示例中，视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中，预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测，其中至少一个参考图片是当前视频块所位于的图片。

此外，尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成，但是为了解释的目的，这些组件在图2的示例中被分离地示出。

划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300(其将在以下详细讨论)可以支持各种视频块大小。

模式选择单元203可以例如基于误差结果来选择多种编解码模式(帧内编码或帧间编码)中的一种编解码模式，并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据，并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中，模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合，其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元203还可以为块选择针对运动矢量的分辨率(例如，亚像素精度或整数像素精度)。

为了对当前视频块执行帧间预测，运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本，来确定针对当前视频块的预测视频块。

运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作，例如，取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的，“I条带”可以是指由宏块构成的图片的一部分，所有宏块均基于同一图片内的宏块。此外，如本文中使用的，在一些方面中，“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。

在一些示例中，运动估计单元204可以对当前视频块执行单向预测，并且运动估计单元204可以搜索列表0或列表1的参考图片，以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量，该参考索引指示列表0或列表1中的包含参考视频块的参考图片，并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。

备选地，在其他示例中，运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块，并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量，该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片，并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。

在一些示例中，运动估计单元204可以输出完整的运动信息集，以用于解码器的解码处理。备选地，在一些实施例中，运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如，运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。

在一个示例中，运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值，该值指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。

如上所讨论的，视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。

帧内预测单元206可以对当前视频块执行帧内预测。当对当前视频块执行帧内预测时，帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。

残差生成单元207可以通过从当前视频块中减去(例如，由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。

在其他示例中，例如在跳过模式中，针对当前视频块可以不存在针对当前视频块的残差数据，并且残差生成单元207可以不执行减去操作。

变换单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块，来生成针对当前视频块的一个或多个变换系数视频块。

在变换单元208生成与当前视频块相关联的变换系数视频块之后，量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。

反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换，以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本，以产生与当前视频块相关联的重建视频块，以供存储在缓冲213中。

在重建单元212重建视频块之后，可以执行环路滤波操作以减少视频块中的视频块效应伪像。

熵编解码单元214可以从视频编码器200的其他功能组件接收数据。当数据被接收时，熵编解码单元214可以执行一个或多个熵编码操作，以生成熵编解码数据并且输出包括该熵编解码数据的码流。

图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图，视频解码器300可以是图1所示的系统100中的视频解码器124的示例。

视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中，视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中，处理器可以被配置为执行本公开中描述的任何或所有技术。

在图3的示例中，视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中，视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。

熵解码单元301可以取回经编码的码流。经编码的码流可以包括经熵编码的视频数据(例如，经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码，并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息，该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用，包括基于邻近PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和竖直运动矢量位移值、一个或两个参考图片索引，并且在B条带中的预测区域的情况下，还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的，在一些方面中，“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。

运动补偿单元302可以产生运动补偿块，可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。

运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器，并且运动补偿单元302可以使用插值滤波器来产生预测块。

运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的，在一些方面，“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片，或者也可以是图片的区域。

帧内预测单元303可以使用例如在码流中接收的帧内预测模式，以从空间邻近块形成预测块。反量化单元304反量化(即，去量化)在码流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。

重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话，还可以应用去块效应滤波器以对经解码的块进行过滤，以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中，缓冲307为后续运动补偿/帧内预测提供参考块，并且缓冲307还产生经解码的视频以供在显示设备上呈现。

下文将详细描述本公开的一些示例实施例。应当注意，在本文件中使用章节标题是为了便于理解，而不是将章节中公开的实施例仅限于该章节。此外，尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例，但是所公开的技术也适用于其他视频编解码技术。此外，尽管一些实施例详细描述了视频编码步骤，但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外，术语视频处理包括视频编解码或压缩、视频解码或解压缩以及视频转码，在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。

1.概述

本公开的实施例涉及视频流。具体来说，其涉及通过新描述符支持HTTP上的动态自适应流(DASH)中的画中画服务。这些想法可以单独或以各种组合的方式应用于媒体流系统，例如基于DASH标准或其扩展。

2.背景技术

2.1.视频编解码标准

视频编解码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而发展起来。ITU-T制作了H.261和H.263，ISO/IEC制作了MPEG-1和MPEG-4视觉(Visual)，这两个组织联合制作了H.264/MPEG-2视频和H.264/MMPEG-4高级视频编解码(AVC)以及H.264/HEVC标准。自从H.262，视频编解码标准基于其中利用了时间预测加变换编解码的混合视频编解码结构。为了探索HEVC之外的未来视频编解码技术，VCEG和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后，JVET采用了许多新方法，并将其纳入名为联合探索模型(JEM)的参考软件中。随着通用视频编解码(VVC)项目正式启动，JVET更名为联合视频专家组(JVET)。VVC是新的编解码标准，其目标是相比于HEVC其比特率降低50％，该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。通用视频编解码(VVC)标准(ITU-T H.266|ISO/IEC23090-3)和相关的通用补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)已经被设计用于最广泛的应用，包括电视广播、视频会议或存储介质回放等传统用途，以及更新和更高级的用例，例如自适应比特率流、视频区域提取、来自多个经编解码的视频比特流、多视图视频、可扩展分层编解码和视口自适应360°沉浸式媒体的内容的组合和合并等。

基本视频编解码(EVC)标准(ISO/IEC 23094-1)是MPEG最近开发的另一个视频编解码标准。

2.2.文件格式标准

媒体流应用通常基于IP、TCP和HTTP传输方法，并且通常依赖于文件格式，例如ISO基础媒体文件格式(ISOBMFF)。其中一种流媒体系统是HTTP上的动态自适应流(DASH)。对于使用ISO-BMFF和DASH的视频格式，特定于视频格式的文件格式规范、例如ISO/IEC 14496-15中的AVC文件格式和HEVC文件格式：“信息技术—视听对象编解码—第15部分：以ISO基础媒体文件格式承载网络抽象层(NAL)单元结构化视频”对于视频内容封装在ISOBMFF轨道以及DASH表示和片段中而言是需要的。关于视频比特流的重要信息(例如档次、级别和层(tier)以及许多其他信息)需要被公开作为文件格式级元数据和/或DASH媒体呈现描述(MPD)，以用于内容选择目的，例如用于选择适当的媒体片段以便用于流会话开始时的初始化和流会话期间的流自适应。

类似地，对于使用带有ISOBMFF的图像格式，需要特定于图像格式的文件格式规范、例如ISO/IEC 23008-12中的AVC图像文件格式和HEVC图像文件格式：“信息技术—异构环境中的高效编解码和媒体交付—第12部分：图像文件格式”。

VVC视频文件格式、即基于ISOBMFF的用于存储VVC视频内容的文件格式目前由MPEG正在开发。VVC视频文件格式的最新规范草案包含在ISO/IEC JTC 1/SC 29/WG 03输出文档N0035“ISOBMFF中承载VVC和EVC的潜在改进”中。

VVC图像文件格式(即用于存储基于ISOBMFF的、使用VVC编解码的图像内容的文件格式)目前由MPEG正在开发。VVC图像文件格式的最新规范草案包含在ISO/IEC JTC 1/SC29/WG 03输出文件N0038，“信息技术—异构环境中的高效编解码和媒体交付—第12部分：图像文件格式—修正案3：支持VVC、EVC、幻灯片和其他改进(CD阶段)”。

2.3.DASH

在HTTP上的动态自适应流(DASH)中，针对多媒体内容的视频和/或音频数据可能有多种表示，不同的表示可以对应于不同的编解码特性(例如，视频编解码标准的不同档次或级别、不同的比特率、不同的空间分辨率等)。这种表示的清单可以在媒体呈现描述(MPD)数据结构中被定义。媒体呈现可以对应于DASH流客户端设备可访问的结构化数据集合。DASH流客户端设备可以请求并下载媒体数据信息以向客户端设备的用户呈现流服务。媒体呈现可以在MPD数据结构中描述，其可以包括MPD的更新。

媒体呈现可以包含一个或多个周期的序列。每个周期可以延伸到下一个周期开始时，或者在最后一个周期的情况下，延伸到媒体呈现结束。每个周期可以包含针对相同媒体内容的一个或多个表示。表示可以是音频、视频、定时文本或其他此类数据的多个替代编码版本之一。这些表示可以因编码类型而不同，例如因视频数据的比特率、分辨率和/或编解码器以及音频数据的比特率、语言和/或编解码器而不同。术语表示可以用来指代与多媒体内容的特定周期相对应的并且以特定方式编码的编码音频或视频数据的部分。

特定周期的表示可以被分配给由MPD中的属性指示的组，其指示表示所述所属的自适应集。同一自适应集中的表示通常被认为是彼此的替代，因为客户端设备可以在这些表示之间动态且无缝地切换，以例如执行带宽自适应。例如，特定周期的视频数据的每个表示可以被分配给相同的自适应集，使得可以选择任何表示来进行解码以呈现相应周期的多媒体内容的媒体数据，例如视频数据或音频数据。在一些示例中，一个周期内的媒体内容可以由来自组0(如果存在)的一个表示或者来自每个非零组的至多一个表示的组合来表示。一个周期的每个表示的定时数据可以相对于该周期的开始时间来表达。

表示可以包括一个或多个片段。每个表示可以包括初始化片段，或者表示的每个片段可以是自初始化的。当存在时，初始化片段可以包含用于访问表示的初始化信息。一般来说，初始化片段不包含媒体数据。片段可以通过标识符唯一地引用，例如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可以针对每个片段提供标识符。在一些示例中，MPD还可以以范围属性的形式提供字节范围，其可以对应于可通过URL、URN或URI访问的文件内的片段的数据。

可以选择不同的表示来基本上同时检索不同类型的媒体数据。例如，客户端设备可以选择从其中检索片段的音频表示、视频表示和定时文本表示。在一些示例中，客户端设备可以选择特定的自适应集来执行带宽适配。也就是说，客户端设备可以选择包括视频表示的自适应集、包括音频表示的自适应集和/或包括定时文本的自适应集。备选地，客户端设备可以针对某些类型的媒体(例如，视频)选择自适应集，并针对其他类型的媒体(例如，音频和/或定时文本)直接选择表示。

典型的DASH流的流程如下所示：

1)客户端获得MPD。

2)客户端估计下行带宽，并根据所估计的下行带宽以及编解码器、解码能力、显示尺寸、音频语言设置等选择视频表示和音频表示。

3)除非到达媒体呈现的末尾，否则客户端请求所选择的表示的媒体片段并向用户呈现流内容。

4)客户端不断估计下行带宽。当带宽显著改变方向(例如，变得更低)时，客户端选择不同的视频表示来匹配新估计的带宽，并转到步骤3。

2.4.VVC中的图片划分和子图片

在VVC中，图片被分为一个或多个图块行和一个或多个图块列。图块是覆盖图片的矩形区域的CTU序列。图块中的CTU在该图块内按光栅扫描顺序被扫描。

条带由整数个帧数个完整图块组成，或者由图片的图块内整数个连续完整CTU行组成。

支持两种条带模式，即光栅扫描条带模式和矩形条带模式。在光栅扫描条带模式中，条带包含图片的图块光栅扫描中的完整图块序列。在矩形条带模式中，条带包含共同形成图片的矩形区域的多个完整的图块、或者共同形成图片的矩形区域的一个图块的多个连续的完整CTU行。矩形条带内的图块在对应于该条带的矩形区域内按照图块光栅扫描顺序被扫描。

子图片包含共同覆盖图片的矩形区域的一个或多个条带。

2.4.1.子图片的概念和功能

在VVC中，每个子图片由共同覆盖图片的矩形区域的一个或多个完整的矩形条带组成，例如，如图4所示。图4示出了被划分为18个图块、24个条带和24个子图片的图片的示意图400。子图片可以被指定为是可提取的(即，独立于同一图片的其他子图片并且独立于解码顺序中的较早图片而被编解码的)或不可提取的。无论子图片是否可被提取，编码器都可以控制是否单独针对每个子图片跨子图片边界地应用环路滤波(包括去块、SAO和ALF)。

从功能上来说，子图片类似于HEVC中的运动约束图块集(MCTS)。它们都允许独立地编解码并提取经编解码图片序列的矩形子集，以用于类似视口相关的360°视频流优化和感兴趣区域(ROI)应用等用例。

在360°视频的流(又称全向视频)中，在任何特定时刻，只有整个全向视频球体的子集(即当前视口)会渲染给用户，而用户可能随时转动他/她的头来更改观看方向以及因此更改当前视口。但是，希望存在至少一些对于客户端可用的当前视口所未覆盖的区域的较低质量的表示，并准备好渲染给用户，以防万一用户突然将他/她的观看方向更改为球体上的任何位置。仅对于其在任何给定时刻都要渲染给用户的当前视口，才需要全向视频的高质量表示。将整个全向视频的高质量表示以适当的粒度分割成子图片可以实现如图4所示的优化，其中12个高分辨率子图片位于左手侧，全向视频的更低分辨率的其余12个子图片位于右手侧。

图5示出了典型的基于子图片的视口相关的360°视频传送方案的示意图500。另一种典型的基于子图片的视口相关的360°视频传送方案如图5所示，其中完整视频的仅较高分辨率表示由子图片组成，而完整视频的较低分辨率表示不使用子图片并且可以用比更高分辨率的表示更不频繁的RAP来进行编解码。客户端接收较低分辨率的完整视频，而对于较高分辨率的视频，客户端仅接收并解码覆盖当前视口的子图片。

2.4.2.子图片和MCTS之间的差异

子图片和MCTS之间有几个重要的设计差异。首先，VVC中的子图片特征允许编解码块的运动矢量指向子图片外部，即时是在子图片通过在子图片边界处应用样本填充而可提取(与在图片边界处类似)的情况下。其次，在合并模式和VVC的解码器侧运动细化过程中、针对运动矢量的选择和导出引入了额外的变化。与针对MCTS的编码器侧应用的非规范运动约束相比，这允许更高的编解码效率。第三，当从图片序列中提取一个或多个可提取子图片以创建子比特流(其为一致比特流)时，不需要重写SH(和PH NAL单元(当存在时))。在基于HEVC MCTS的子比特流提取中，需要对SH进行重写。注意，在HEVC MCTS提取和VVC子图片提取中，都需要重写SPS和PPS。然而，通常比特流中只有几个参数集，而每个图片至少有一个条带，因此SH的重写对于应用系统来说是一个很大的负担。第四，图片内不同子图片的条带允许具有不同的NAL单元类型。这是通常被称为图片内的混合NAL单元类型或混合子图片类型的特征，下面将更详细地对其进行讨论。第五，VVC规定了子图片序列的HRD和级别定义，因此编码器可以保证每个可提取的子图片序列的子比特流的一致性。

2.4.3.图片内的混合子图片类型

在AVC和HEVC中，图片中的所有VCL NAL单元需要具有相同的NAL单元类型。VVC引入了将子图片与图片内某些不同VCL NAL单元类型混合的选项，从而不仅在图片级别而且在子图片级别提供对随机访问的支持。在VVC中，子图片内的VCL NAL单元仍然需要具有相同的NAL单元类型。

从IRAP子图片随机访问的能力有利于360°视频应用。在类似于图5所示的视口相关的360°视频传送方案中，空间上邻近的视口的内容很大程度上重叠，即，在视口方位变化期间，视口中只有一部分子图片被新子图片替换，而大多数子图片被保留在视口中。新引入视口的子图片序列必须以IRAP条带开始，但是当允许剩余子图片在视口变化时执行帧间预测时，总体传输比特率可以显著降低。

图片是仅包含单一类型的NAL单元还是包含多于一种类型的NAL单元的指示在图片所引用的PPS中被提供(即，使用名为pps_mixed_nalu_types_in_pic_flag的标志)。图片可能由包含IRAP条带的子图片和同时包含尾随条带的子图片组成。还允许图片内不同NAL单元类型的其他一些组合，包括NAL单元类型RASL和RADL的前导图片条带，其允许将子图片序列与从不同比特流提取的open-GOP和close-GOP编解码结构合并变成一个比特流。

2.4.4.子图片布局和ID信令

VVC中子图片的布局在SPS中用信号发出，因此在CLVS中保持不变。每个子图片由其左上角CTU的位置及以CTU数量表示的其宽度和高度来表示，因此确保子图片以CTU粒度覆盖图片的矩形区域。SPS中用信号通知的子图片的顺序决定了图片内每个子图片的索引。

为了能够在不重写SH或PH的情况下提取和合并子图片序列，VVC中的条带寻址方案基于子图片ID和子图片特定的条带索引来将条带与子图片相关联。在SH中，用信号通知包含条带的子图片的子图片ID和子图片级条带索引。注意，特定子图片的子图片ID的值可以与其子图片索引的值不同。两者之间的映射要么在SPS或PPS中(但绝不会在两者中)用信号表示，要么被隐含推断。当子图片ID映射存在时，当在子图片子比特流提取过程期间重写SPS和PPS时需要重写或添加该子图片ID映射。子图片ID和子图片级条带索引一起向解码器指示经解码的图片的DPB时隙内条带的第一个解码CTU的准确位置。在子比特流提取后，子图片的子图片ID保持不变，但子图片索引可能会发生变化。即使当子图片的条带中的第一个CTU的光栅扫描CTU地址与原始比特流中的值相比发生变化时，相应SH中的子图片ID和子图片级条带索引的未改变的值仍将正确地确定每个CTU在所提取的子比特流的经解码的图片中的位置。图6以包含两个子图片和四个条带的示例、示出了使用子图片ID、子图片索引和子图片级条带索引来实现子图片提取的示意图600。

与子图片提取类似，子图片的信令允许通过仅重写SPS和PPS将来自不同比特流的若干个子图片合并为单个比特流，前提是不同的比特流是协调生成的(例如，使用不同的子图片ID，但在其他方面具有大多一致的SPS，PPS和PH参数(例如CTU尺寸、色度格式、编解码工具等))。

虽然子图片和条带分别在SPS和PPS中独立地用信号发送，但是为了形成一致的比特流，子图片和条带布局之间存在固有的相互约束。首先，子图片的存在需要使用矩形条带并禁止光栅扫描条带。其次，给定子图片的条带在解码顺序上应该是连续的NAL单元，这意味着子图片布局限制了比特流内经编解码的条带NAL单元的顺序。

2.5.画中画服务

画中画服务能够将具有小分辨率的图片包含在具有更大分辨率的图片中。这种服务可能有利于同时向用户显示两个视频，从而将具有较大分辨率的视频视为主视频，并将具有较小分辨率的视频视为补充视频。这种画中画服务可用于提供无障碍服务(accessibility service)，其中主视频由标牌视频补充。

通过利用VVC子图片的提取和合并特性，VVC子图片可以用于画中画服务。对于此类服务，使用多个子图片对主视频进行编码，其中一个子图片与补充视频尺寸相同、位于补充视频打算合成到主视频中的准确位置、并被独立地编解码以使得能够进行提取。图7示出了从包含两个子图片和四个条带的比特流中提取一个子图片的示意图700。如果用户选择观看包含补充视频的服务版本，则从主视频比特流中提取与主视频的画中画区域对应的子图片，并且将补充视频比特流与主视频比特流在其位置处合并，如图7所示。

在这种情况下，主视频和补充视频的图片必须共享相同的视频特性，特别是比特深度、样本长宽比、尺寸、帧速率、颜色空间和传输特性、色度样本位置必须相同。主视频比特流和补充视频比特流不需要在每个图片内使用NAL单元类型。然而，合并要求主比特流和补充比特流中的图片的编解码顺序相同。

由于在此需要合并子图片，所以主视频和补充视频内使用的子图片ID不能重叠。即使补充视频比特流仅由一个子图片组成而没有任何其他的图块或条带划分，也需要用信号通知子图片信息、特别是子图片ID和子图片ID长度，以实现补充视频比特流与主视频比特流的合并。用于以信号表示的补充视频比特流的条带NAL单元内子图片ID语法元素的长度的子图片ID长度必须与用于以信号表示的主视频比特流的条带NAL单元内的子图片ID的子图片ID长度相同。另外，为了简化补充视频比特流与主视频比特流的合并而不需要重写PPS划分信息，仅使用用于编码补充视频且在主视频的相应区域内的一个条带和一个图块是有利的。主视频比特流和补充视频比特流必须用信号在SPS、PPS和图片头中通知相同的编解码工具。它包括使用相同的最大和最小允许尺寸进行块划分，以及与有信号在PPS中通知的初始量化参数的相同值(与pps_init_qp_minus26语法元素的值相同)。编解码工具的使用可以在条带头级别进行修改。

当主比特流和补充比特流都可通过基于DASH的传送系统获得时，DASH预选可用于用信号通知要合并且一起渲染的主比特流和补充比特流。

3.问题

对于DASH中支持画中画服务发现了以下问题：

1)虽然可以使用DASH预选来获得画中画体验，但缺乏这样的目的的指示。

2)虽然可以使用VVC子图片来获得画中画体验，例如如上所述，但是也可以在主视频中表示目标画中画区域的经编解码的视频数据单元不被补充视频的相应视频数据单元替换的情况下，使用其他编解码器和方法。因此，有必要指出这种替换是否可能。

3)当可以进行上述替换时，客户端需要知道主视频的每个图片中的哪些经编解码的视频数据单元代表目标画中画区域，才能够进行替换。因此，需要用信号通知该信息。

4)出于内容选择的目的以及可能的其他目的，用信号通知主视频中的目标画中画区域的位置和尺寸将是有用的。

4.本公开的实施例

为了解决上述问题，公开了如下概述的方法。实施例应被视为解释一般概念的示例，而不应以狭义的方式对其进行解释。此外，这些实施例可以被单独地应用或以任何方式组合应用。

1)为了解决第一个问题，定义了新的描述符，例如命名为画中画描述符，并且预选中出现该描述符表明预选的目的是提供画中画体验。

a.在一个示例中，通过扩展SupplementalProperty元素，这一新描述符被定义为补充描述符。

b.在一个示例中，该新描述符由等于“urn:mpeg:dash:pinp:2021”或者类似的URN字符串的@schemeIdUri属性的值来标识。

2)为了解决第二个问题，在新的画中画描述符中，用信号通知关于主视频中表示目标画中画区域的经编解码的视频数据单元是否可以被替换为补充视频的对应视频数据单元的指示。

a.在一个示例中，该指示通过新画中画描述符中的元素的属性(例如，名为@dataUnitsReplacable)来用信号通知。

3)为了解决第三个问题，在新的画中画描述符中，用信号通知区域ID的列表，以指示主视频的每个图片中的哪些经编解码的视频数据单元表示目标画中画区域。

a.在一个示例中，区域ID的列表作为新画中画描述符中的元素的属性(例如，命名为@regionIds)用信号通知。

4)为了解决第三个问题，在新的画中画描述符中，用信号通知关于主视频中用于嵌入/覆盖补充视频的位置和尺寸的信息，其尺寸比主视频小。

a.在一个示例中，这是通过四个值(x、y、宽度、高度)来用信号通知的，其中x、y指定区域的左上角的位置，并且宽度和高度指定区域的宽度和高度。单位可以是亮度样本/像素。

b.在一个示例中，这是由新的画中画描述符中的元素的多个属性来用信号通知的。

5.实施例

下面是上面第4节中总结的一些本公开条目及其子条目的一些示例实施例。

5.1.实施例1

该实施例适用于上面第4节中总结的所有本公开条目及其子条目。

5.1.1.DASH画中画描述符

@schemeIdUri属性等于“urn:mpeg:dash:pinp:2021”的Supple-mentalProperty元素被称为画中画描述符。

在预选级别，最多可以存在一个画中画描述符。预选中画中画描述符的存在指示预选的目的是提供画中画体验。

画中画服务提供将较小空间分辨率的视频包含在具有较大空间分辨率的视频中。在这种情况下，主视频的不同比特流/表示被包括在预选的主自适应集中，并且补充视频的不同比特流/表示被包括在预选的部分自适应集中。

当预选中存在画中画描述符，并且picInPicInfo@dataUnitsReplacable属性存在且等于true时，客户端可以选择将主视频中表示目标画中画区域的经编解码的视频数据单元替换为补充视频的相应经编解码的视频数据单元，然后向视频编码器发送。这样，可以避免主视频和补充视频的单独解码。对于主视频中的特定图片，补充视频的对应的视频数据单元是补充视频表示中的解码时间同步样本中所有经编解码的视频数据单元。

在VVC的情况下，当客户端选择在向视频编码器发送之前将主视频中表示目标画中画区域的经编解码的视频数据单元(即VCL NAL单元)替换为补充视频中相应的VCL NAL单元时，对于每个子图片ID，将主视频中的VCL NAL单元替换为补充视频中具有该子图片ID的对应VCL NAL单元，而不改变对应VCL NAL单元的顺序。

画中画描述符的@value属性不应存在。画中画描述符应包含picInPicInfo元素，其属性如下表所示：

表1—picInPicInfo元素的语义

5.3.11.6.3PicInpicInfo元素的XML语法

图8示出了根据本公开的一些实施例的用于视频处理的方法800的流程图。方法800可以在第一设备处实现。例如，方法800可以被植入到客户端或接收器处。本文使用的术语“客户端”可以指访问由作为计算机网络的客户端-服务器模型的一部分的服务器提供的服务的计算机硬件或软件。仅作为示例，客户端可以是智能手机或平板电脑。在一些实施例中，第一设备可以在图1所示的目的地设备120处实现。

在框810，第一设备从第二设备接收元数据文件。元数据文件可以包括关于视频比特流的重要信息，例如、档次、层和级别等。例如，元数据文件可以是用于内容选择目的的DASH媒体呈现描述(MPD)，例如用于选择适当的媒体片段以用于在流会话开始时的初始化以及用于流会话期间的流自适应。

在框820处，第一设备从元数据文件，确定区域标识(ID)列表，区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元。在一些实施例中，区域ID的列表可以是元数据文件中的描述符中元素的属性。例如，该属性可以是regionIds。在一些实施例中，区域ID列表中的区域ID可以是子图片ID。目标画中画区域能够被第二视频中的第二组经编解码的视频单元替换。例如，区域ID的列表可以允许第一组经编解码的视频数据单元被第二组经编解码的视频单元替换。在一些实施例中，第一组经编解码的视频数据单元可以包括第一组视频编解码层网络抽象层(VCL NAL)单元，并且第二组经编解码的视频数据单元可以包括第二组VCL NAL单元。这样，第一设备就知道第一视频的每个图片中的哪些经编解码的视频数据单元表示目标画中画区域，并可以进行替换。

在一些实施例中，区域ID的列表可以允许第一组经编解码的视频数据单元被第二组经编解码的视频单元替换。例如，对于区域ID列表中的一个区域ID，第一设备可以用具有该区域ID的第二组经编解码的视频单元来替换第一视频中具有该区域ID的第一组经编解码的视频数据单元。如图9A所示，第一视频可以包括子图片(subpic)ID为00、01、02和03的子图片。例如，如果元数据文件中的区域ID列表包括子图片ID 00，则第一视频910中具有子图片ID 00的一组经编解码的视频数据单元可以被替换为在第二视频920中具有子图片00的第二组经编解码的视频单元。

举例来说，在VVC的情况下，当第一设备选择将主视频中表示目标图中画区域的经编解码的视频数据单元(即VCL NAL单元)替换为补充视频的对应的VCL NAL单元、然后将其发送到视频解码器时，对于每个子图片ID，可以将主视频中的VCL NAL单元替换为补充视频中具有该子图ID的对应VCL NAL单元，而不改变相应的VCL NAL单元的顺序。例如，下面的表1示出了描述符中的画中画元素及其在属性的示例。需要说明的是，表1仅是示例而非限制。

表2

在一些实施例中，第一设备从元数据文件中确定指示，该指示用于指示表示第一视频中的目标画中画区域的第一组经编解码的视频数据单元是否能够由第二视频中的第二组经编解码的视频数据单元替换。在一些实施例中，该指示可以是元数据文件中的描述符(例如，画中画描述符)中元素的属性。例如，该属性可以是dataUnitsReplacable。这样，可以避免对主视频和补充视频的单独解码。另外，还可以节省传输主视频和补充视频的传输资源。

在一些示例中，该指示可以允许将第一组经编解码的视频数据单元替换为第二组经编解码的视频数据单元。例如，如果指示指出了用于表示第一视频中的目标画中画区域的第一组经编解码的视频数据单元能够被第二视频中的第二组经编解码的视频数据单元替换，则可以用第二组经编解码的视频数据单元替换第一组经编解码的视频数据单元。在这种情况下，可以对包括来自补充视频的第二组经编解码的视频数据单元的主视频进行解码。举例来说，当预选中存在描述符(即，画中画描述符)并且picInPicInfo@dataUnitsReplacable属性存在且等于true时，第一设备可以选择将主视频中表示目标画中画区域的经编解码的视频数据单元替换为补充视频的对应的经编解码的视频数据单元，然后发送到视频解码器。对于主视频中的特定图片，补充视频的对应视频数据单元可以是补充视频表示中的解码时间同步样本中所有经编解码的视频数据单元。例如，下面的表3显示了描述符中的画中画元素及其属性的示例。需要说明的是，表3仅是示例而非限制。

表3

在一些实施例中，元数据文件可以包括描述符(即，画中画描述符)。在这种情况下，描述符的存在指示该数据结构用于提供画中画服务。换句话说，如果数据结构包括该描述符，则意味着该数据结构是用于提供画中画服务的。画中画服务可以提供将具有较小空间分辨率的视频包括在具有较大空间分辨率的视频中的能力。这样，可以指示使用DASH预选来获得画中画的体验。该数据结构可以指示针对画中画服务选择第一视频的第一组比特流和第二视频的第二组比特流。第一视频也可以被称为“主视频”并且第二视频也可以被称为“补充视频”。画中画服务可以提供将具有较小空间分辨率的视频(即，第二视频或补充视频)包括在具有较大空间分辨率的视频(即，第一视频或主视频)内的能力。在一些实施例中，数据结构可以是元数据文件的预选。换句话说，描述符可以存在于预选级别。预选可以定义由同时解码和渲染的一个或多个音频和/或视频分量形成的音频和/或视频体验。举例来说，在某些实施例中，在预选级别可以存在至多一个描述符。在一些实施例中，元数据文件可以包括一个或多个预选。

在一些实施例中，数据结构的主自适应可以包括第一视频的第一组比特流，并且数据结构的部分自适应集可以包括补充视频的第二组比特流。例如，如上所述，画中画服务可以提供将具有较小空间分辨率的视频(即，第二视频/补充视频)包含在具有较大空间分辨率的视频(即，第一视频/主视频)中的能力。在这种情况下，第一视频的不同比特流/表示可以被包括在预选的主自适应集中，并且第二视频的不同比特流/表示可以被包括在预选的部分自适应集中。

在一些实施例中，描述符可以被定义为基于元数据文件中的SupplementalProperty元素的补充描述符。在一些实施例中，描述符可以由等于统一资源名称(URN)字符串的属性的值来标识。例如，该属性是schemeIdUri属性。在一些示例实施例中，UR字符串可以是“urn:mpeg:dash:pinp:2022”。UR字符串可以是任何合适的值，例如UR字符串可以是“urn:mpeg:dash:pinp:2021”或“urn:mpeg:dash:pinp:2023”。举例来说，@schemeIdUri属性等于“urn:mpeg:dash:pinp:2022”的SupplementalProperty元素可以被称为描述符，即画中画描述符。

在一些实施例中，描述符可以指示第一视频中用于嵌入或覆盖第二视频的区域的位置信息和尺寸信息。在这种情况下，该区域的尺寸可以小于第一视频的尺寸。在一些实施例中，该区域可以包括亮度样本或亮度像素。这样，就可以根据区域的位置信息和尺寸信息来适当地选择内容。

在一些实施例中，位置信息可以指示区域的左上角的水平位置和区域的左上角的垂直位置。备选地，或者另外，尺寸信息可以指示区域的宽度和区域的高度。在一个示例中，这是通过四个值(x、y、宽度、高度)来用信号表示的，其中x、y指定区域的左上角的位置，并且宽度和高度指定区域的宽度和高度。例如，如图9B所示，位置信息可以指示第一视频910中的画中画区域901的水平位置X和垂直位置Y。尺寸信息还可以包括画中画区域901的宽度902和高度903。

在一些实施例中，描述符中的元素的一组属性可以指示区域的位置信息和大小信息。例如，下面的表4示出了图片中图片元素及其在描述符中的属性的示例。需要说明的是，表4仅是示例而非限制。

表4

图10示出了根据本公开的一些实施例的用于视频处理的方法1000的流程图。方法1000可以在第二设备处实现。例如，方法1000可以被植入服务器或发送设备。本文使用的术语“服务器”可以指具有计算能力的设备，在这种情况下，客户端通过网络访问服务。服务器可以是物理计算设备或虚拟计算设备。在一些实施例中，第二设备可以在图1所示的源设备110处实现。

在框1010处，第二设备确定元数据文件。元数据文件包括区域标识(ID)列表，用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元。目标画中画区域可由第二视频中的第二组经编解码的视频单元替换。

在一些实施例中，区域ID的列表可以是元数据文件中的描述符中元素的属性。例如，该属性可以是regionIds。在一些实施例中，区域ID列表中的区域ID可以是子图片ID。目标画中画区域能够被第二视频中的第二组经编解码的视频单元替换。在一些实施例中，第一组经编解码的视频数据单元可以包括第一组视频编解码层网络抽象层(VCL NAL)单元，并且第二组经编解码的视频数据单元可以包括第二组VCL NAL单元。

在框1020处，第二设备将元数据文件发送到第一设备。这样，第一设备就知道第一视频的每个图像中的哪些经编解码的视频数据单元代表目标图像中图像区域，并可以进行替换。

在一些实施例中，该元数据文件包括用于指示表示第一视频中的目标画中画区域的第一组经编解码的视频数据单元是否能够由第二视频中的第二组经编解码的视频数据单元替换的指示。在一些实施例中，该指示可以是元数据文件中的描述符(例如，画中画描述符)中的元素的属性。例如，该属性可以是dataUnitsReplacable。这样，可以避免主视频和补充视频的单独解码。另外，还可以节省传输主视频和补充视频的传输资源。

在一些示例中，如果该指示指示表示第一视频中的目标画中画像区域的第一组经编解码的视频数据单元可由第二视频中的第二组经编解码的视频数据单元替换，第一组经编解码的视频数据单元可以替换为第二组经编解码的视频数据单元。在这种情况下，可以对包括来自补充视频的第二组经编解码的视频数据单元的主视频进行解码。举例来说，当预选中存在描述符(即，画中画描述符)，并且pic-InPicInfo@dataUnitsReplacable属性可能存在且等于true时，第一设备可以在发送到视频解码器之前，将主视频中表示目标画中画区域的经编解码的视频数据单元替换为补充视频的对应的经编解码的视频数据单元。对于主视频中的特定图像，补充视频对应的视频数据单元可以是补充视频表示中的解码时间同步样本中所有经编解码的视频数据单元。

元数据文件可以包括关于视频比特流的重要信息，例如、档次、层和级别等。例如，元数据文件可以是用于内容选择目的的DASH媒体呈现描述(MPD)，例如用于选择适当的媒体片段以用于在流会话开始时的初始化以及用于流会话期间的流自适应。

在一些实施例中，元数据文件可以包括描述符(即，画中画描述符)。在这种情况下，描述符的存在指示该数据结构用于提供画中画服务。换句话说，如果数据结构包括该描述符，则意味着该数据结构是用于提供画中画服务的。画中画服务可以提供将具有较小空间分辨率的视频包括在具有较大空间分辨率的视频中的能力。

在一些实施例中，数据结构可以是元数据文件的预选。换句话说，描述符可以存在于预选级别。预选可以定义由同时解码和渲染的一个或多个音频和/或视频分量形成的音频和/或视频体验。举例来说，在一些实施例中，在预选级别可以存在至多一个描述符。在一些实施例中，元数据文件可以包括一个或多个预选。

在一些实施例中，数据结构的主自适应可以包括第一视频的第一组比特流，并且数据结构的部分自适应集可以包括第二视频的第二组比特流。例如，如上所述，画中画服务可以提供将具有较小空间分辨率的视频(即，第二视频或补充视频)包含在具有较大空间分辨率的视频(即，第一视频或主视频)中的能力。在这种情况下，第一视频的不同比特流/表示可以被包括在预选择的主自适应集中，并且第二视频的不同比特流/表示可以被包括在预选择的部分适应集中。

在一些实施例中，位置信息可以指示区域的左上角的水平位置和区域的左上角的垂直位置。备选地，或者另外，尺寸信息可以指示区域的宽度和区域的高度。在一个示例中，这是通过四个值(x、y、宽度、高度)来用信号通知的，其中x、y指定区域的左上角的位置，并且宽度和高度指定区域的宽度和高度。在一些实施例中，描述符中的元素的属性集可以指示区域的位置信息和尺寸信息。

本公开的实施例可以单独实施。本公开的实施例可以通过任何适当的组合来实现。可以根据以下条款来描述本公开的实施方式，其特征可以以任何合理的方式被组合。

条款1。一种视频处理的方法，包括：在第一设备处，从服务器接收元数据文件；以及从所述元数据文件，确定区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换。

条款2.根据条款1所述的方法，其中所述区域ID列表是所述元数据文件中的描述符中的元素的属性。

条款3.根据条款2所述的方法，其中所述属性是regionIds。

条款4.根据条款1-3中任一项所述的方法，其中所述区域ID列表中的一个区域ID允许在对所述第一视频进行解码之前，将所述第一视频中的具有所述区域ID的所述第一组经编解码的视频数据单元替换为所述第二视频中的具有所述区域ID的所述第二组经编解码的视频单元。

条款5.根据条款1-4中任一项所述的方法，其中所述区域ID列表中的区域ID为子图片ID，所述第一组经编解码的视频数据单元包括第一组视频编解码层网络抽象层(VCLNAL)单元，以及所述第二组经编解码的视频数据单元包括第二组VCL NAL单元。

条款6.一种视频处理方法，包括：在第二设备处，确定元数据文件，所述元数据文件包括区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换；以及将所述元数据文件传输到第一设备。

条款7.根据条款6所述的方法，其中所述区域ID列表是所述元数据文件中的描述符中的元素的属性。

条款8.根据条款7所述的方法，其中所述属性是regionIds。

条款9.根据条款6-8中任一项所述的方法，其中所述区域ID列表中的一个区域ID允许在对所述第一视频进行解码之前，将所述第一视频中的具有所述区域ID的所述第一组经编解码的视频数据单元替换为所述第二视频中的具有所述区域ID的所述第二组经编解码的视频单元。

条款10.根据条款9中任一项所述的方法，其中所述区域ID列表中的区域ID为子图片ID，所述第一组经编解码的视频数据单元包括第一组视频编解码层网络抽象层(VCLNAL)单元，以及所述第二组经编解码的视频数据单元包括第二组VCL NAL单元。

条款11.一种用于处理视频数据的装置，包括处理器和其上具有指令的非瞬态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据条款1-10中任一项所述的方法。

条款12.一种非瞬态计算机可读存储介质，存储使处理器执行根据条款1-10中任一项的方法的指令。

设备示例

图11示出了可以在其中实现本公开的各种实施例的计算设备1100的框图。计算设备1100可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)。

应当理解的是，图11中示出的计算设备1100仅为了说明的目的，而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。

如图11所示，计算设备1100包括通用计算设备1100。计算设备1100可以至少包括一个或多个处理器或处理单元1110、存储器1120、存储单元1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。

在一些实施例中，计算设备1100可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端，包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合，并且包括这些设备的附件和外围设备或其任何组合。可以设想的是，计算设备1100可以支持到用户的任何类型的接口(诸如"可穿戴"电路装置等)。

处理单元1110可以是物理处理器或虚拟处理器，并且可以基于存储在存储器1120中的程序实现各种处理。在多处理器系统中，多个处理单元并行地执行计算机可执行指令，以便改善计算设备1100的并行处理能力。处理单元1110也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。

计算设备1100通常包括各种计算机存储介质。这样的介质可以是由计算设备1100可访问的任何介质，包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1120可以是易失性存储器(例如，寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1130可以是任何可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1100中被访问的介质。

计算设备1100还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图11中未示出，但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器，以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下，每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。

通信单元1140经由通信介质与另一计算设备通信。另外，计算设备1100中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此，计算设备1100可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。

输入设备1150可以是各种输入设备中的一种或多种输入设备，诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1160可以是各种输出设备中的一种或多种输出设备，诸如显示器、扬声器、打印机等。借助于通信单元1140，计算设备1100还可以与一个或多个外部设备(未示出)通信，外部设备诸如是存储设备和显示设备，计算设备1100还可以与一个或多个使用户能够与计算设备1100交互的设备通信，或任何使计算设备1100能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信，如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。

在一些实施例中，计算设备1100的一些或所有组件也可以被布置在云计算架构中，而不是被集成在单个设备中。在云计算架构中，组件可以被远程提供并且共同工作，以实现本公开中描述的功能。在一些实施例中，云计算提供计算、软件、数据访问和存储服务，这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中，云计算使用合适的协议经由广域网(例如互联网)提供服务。例如，云计算提供商通过广域网提供应用程序，可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务，尽管它们表现为作为用户的单一接入点。因此，云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地，它们可以由常规服务器提供，或者直接或以其他方式安装在客户端设备上。

在本公开的实施例中，计算设备1100可以被用于实现视频编码/解码。存储器1120可以包括具有一个或多个程序指令的一个或多个视频编解码模块1111。这些模块能够由处理单元1110访问和执行，以执行本文描述的各种实施例的功能。

在执行视频编码的示例实施例中，输入设备1150可以接收视频数据作为待编码的输入1170。视频数据可以由例如视频编解码模块1111处理，以生成经编码的码流。经编码的码流可以经由输出设备1160作为输出1180被提供。

在执行视频解码的示例实施例中，输入设备1150可以接收经编码的码流作为输入1170。经编码的码流可以由例如视频编解码模块1111处理，以生成经解码的视频数据。经解码的视频数据可以经由输出设备1160作为输出1180被提供。

虽然已经参考本公开的优选实施例具体示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求限定的本申请的精神和范围的情况下，可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此，本申请的实施例的前述描述不旨在是限制性的。

Claims

1.一种视频处理方法，包括：

在第一设备处，从服务器接收元数据文件；以及

从所述元数据文件，确定区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换。

2.根据权利要求1所述的方法，其中所述区域ID列表是所述元数据文件中的描述符中的元素的属性。

3.根据权利要求2所述的方法，其中所述属性是regionIds。

4.根据权利要求1-3中任一项所述的方法，其中所述区域ID列表中的一个区域ID允许在对所述第一视频进行解码之前，将所述第一视频中的具有所述区域ID的所述第一组经编解码的视频数据单元替换为所述第二视频中的具有所述区域ID的所述第二组经编解码的视频单元。

5.根据权利要求1-4中任一项所述的方法，其中所述区域ID列表中的区域ID为子图片ID，

所述第一组经编解码的视频数据单元包括第一组视频编解码层网络抽象层(VCL NAL)单元，以及

所述第二组经编解码的视频数据单元包括第二组VCL NAL单元。

6.一种视频处理方法，包括：

在第二设备处，确定元数据文件，所述元数据文件包括区域标识(ID)列表，所述区域ID列表用于指示第一视频的每个图片中的表示目标画中画区域的第一组经编解码的视频数据单元，所述第一组经编解码的视频数据单元能够由第二视频中的第二组经编解码的视频单元替换；以及

将所述元数据文件传输到第一设备。

7.根据权利要求6所述的方法，其中所述区域ID列表是所述元数据文件中的描述符中的元素的属性。

8.根据权利要求7所述的方法，其中所述属性是regionIds。

9.根据权利要求6-8中任一项所述的方法，其中所述区域ID列表中的一个区域ID允许在对所述第一视频进行解码之前，将所述第一视频中的具有所述区域ID的所述第一组经编解码的视频数据单元替换为所述第二视频中的具有所述区域ID的所述第二组经编解码的视频单元。

10.根据权利要求6-9中任一项所述的方法，其中所述区域ID列表中的区域ID为子图片ID，

所述第二组经编解码的视频数据单元包括第二组VCL NAL单元。

11.一种用于处理视频数据的装置，包括处理器和其上具有指令的非瞬态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的方法。

12.一种非瞬态计算机可读存储介质，存储使处理器执行根据权利要求1-10中任一项的方法的指令。