CN115550720A

CN115550720A - 指示哪些视频数据单元表示目标画中画区域

Info

Publication number: CN115550720A
Application number: CN202210771004.4A
Authority: CN
Inventors: 王业奎
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-06-30
Filing date: 2022-06-30
Publication date: 2022-12-30
Also published as: CN115550721A; US11985333B2; KR20230004338A; JP2023008949A; KR20230004341A; JP2023008947A; US20230018718A1; JP2023008948A; KR20230004340A; CN115550722A; EP4114017A1; EP4114015A1; US20230019913A1; US20230018200A1; EP4114016A1

Abstract

一种媒体数据处理方法。该方法包括：对于媒体数据与媒体数据文件之间的转换，确定预选择元素包括指示符，指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及基于该指示符在媒体数据与媒体数据文件之间执行转换。还公开了对应的视频编解码装置和非暂时性计算机可读记录介质。

Description

指示哪些视频数据单元表示目标画中画区域

相关申请的交叉引用

根据适用的专利法和/或符合巴黎公约的规则，本申请是为了及时要求2021年6月30日提交的美国临时专利申请No.63/216,975和2021年7月1日提交的美国临时专利申请No.63/217,665的优先权和利益。出于根据法律的所有目的，前述申请的全部公开内容通过引用而并入作为本申请的公开内容的一部分。

技术领域

本公开总体上涉及视频流，并且特别涉及在超文本传输协议上的动态自适应流(Dynamic Adaptive Streaming over Hypertext Transfer Protocol，DASH)中画中画服务的支持。

背景技术

数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备数量增加，预计对于数字视频使用的带宽需求将继续增长。

发明内容

所公开的方面/实施例提供在预选择元素中并入指示符的技术。在实施例中，指示符指示主视频的每个图片中的哪些视频数据单元表示目标画中画区域。因此，相对于常规视频编解码技术改善视频编解码过程。

第一方面涉及一种媒体数据处理方法。该方法包括：对于所述媒体数据与媒体数据文件之间的转换，确定预选择元素包括指示符，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及基于所述指示符执行所述媒体数据与所述媒体数据文件之间的所述转换。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符还指示所述主视频的每个图片中的哪些所述视频数据单元能够被补充视频的对应视频数据单元替换。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符包括所述预选择元素的属性。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符包括区域标识符ID的列表。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符包括@regionIds属性。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述@regionIds属性规定表示所述主视频的所述目标画中画区域的所述视频数据单元的标识符ID。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述@regionIds属性将表示所述主视频的所述目标画中画区域的所述视频数据单元的标识符ID规定为白色空间单独列表。

可选地，在前述任意方面中，该方面的另一实施方式提供：当@tag属性存在于所述预选择元素中时，所述指示符仅存在于所述预选择元素中。

可选地，在前述任意方面中，该方面的另一实施方式提供：当所述预选择元素中的@tag属性指示所述预选择元素的目的是提供画中画体验时，所述指示符仅存在于所述预选择元素中，其中，补充视频呈现为覆盖在所述主视频中的所述目标画中画区域上。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符包括子图片ID，其中，所述视频数据单元包括视频编解码层网络抽象层VCL NAL单元，所述VCL NAL单元表示所述目标画中画区域且包括所述子图片ID，并且其中，所述VCL NAL单元中的所述子图片ID与补充视频的对应VCL NAL单元中的所述子图片ID相同。

可选地，在前述任意方面中，该方面的另一实施方式提供：用补充视频的对应视频数据单元替换表示所述目标画中画区域的所述视频数据单元，而不改变所述对应视频数据单元的顺序。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述视频数据单元包括视频编解码层网络抽象层VCL NAL单元，其中，所述对应视频数据单元包括补充VCL NAL单元，并且其中，所述VCL NAL单元中的所述子图片ID与对应VCL NAL单元中的所述子图片ID相同。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述预选择元素包括Picinpic元素。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述指示符包括@regionIds属性，并且其中，所述Picinpic元素包含所述@regionIds属性。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述预选择元素设置在媒体呈现描述MPD文件中。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述预选择元素为超文本传输协议上的动态自适应流DASH预选择元素。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述转换包括将所述媒体数据编码成比特流。

可选地，在前述任意方面中，该方面的另一实施方式提供：所述转换包括从比特流解码所述媒体数据。

一种媒体数据处理装置，包括处理器和其上具有指令的非暂时性存储器，其中，所述指令在由所述处理器执行时使所述处理器：对于媒体数据与媒体数据文件之间的转换，确定预选择元素包括指示符，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及基于所述指示符执行所述媒体数据与所述媒体数据文件之间的所述转换。

一种非暂时性计算机可读记录介质，其中存储由视频处理装置执行的方法生成的视频的媒体呈现描述MPD，所述方法包括：确定预选择元素包括指示符，其中，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及基于所述指示符生成所述MPD。

出于清楚目的，前述任一实施例可以与任意一个或多个其他前述实施例组合，以在本公开的范围内产生新的实施例。

这些和其他特征将结合附图和权利要求从以下详细描述更清楚地理解。

附图说明

为了更完整地理解本公开，现参考以下简要描述，结合附图和详细描述，其中，相同的附图标记表示相同的部分。

图1为示出由DASH中使用的媒体呈现描述(MPD)的视频的描述的示意图。

图2为分割为片、条带和子图片的图片的示例。

图3为基于子图片的视口相关的360°视频传送方案的示例。

图4为子图片提取的示例。

图5为基于多功能视频编解码(VVC)子图片的画中画支持的示例。

图6为示出示例视频处理系统的框图。

图7为视频处理装置的框图。

图8为示出视频编解码系统的示例的框图。

图9为示出视频编码器的示例的框图。

图10为示出视频解码器的示例的框图。

图11为根据本公开的实施例所述的媒体数据处理方法。

具体实施方式

首先应理解的是，虽然以下提供了一个或多个实施例的说明性实施方式，但公开的系统和/或方法可以使用任意数量的技术来实施，无论是当前已知或存在的技术。本公开不应局限于说明性实施方式、附图和以下说明的技术，包括本文中说明和描述的示例性设计和实施方式，而是可以在所附权利要求的范围内以及其等同的完整范围内进行修改。

在一些描述中使用H.266术语仅为易于理解，而并不是限制所公开的技术的范围。因此，本文中所描述的技术也适用于其他视频编解码器协议和设计。

视频编解码标准主要通过众所周知的国际电信联盟-电信(ITU-T)和国际标准化组织(ISO)/国际电工委员会(IEC)标准的发展而发展而来。ITU-T制定了H.261和H.263，ISO/IEC制定了运动图片专家组(MPEG)-1和MPEG-4视觉，并且这两个组织联合制定了H.262/MPEG-2视频标准、H.264/MPEG-4高级视频编解码(AVC)标准和H.265/高效视频编解码(HEVC)标准。

从H.262开始，视频编解码标准基于混合视频编解码结构，其中使用了时域预测加变换编解码。为了探索HEVC之外的未来视频编解码技术，视频编解码专家组(VCEG)和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后，JVET采用了许多新的方法，并将其放入名为联合探索模型(JEM)的参考软件中。

在2018年4月，成立了VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)之间的联合视频专家团队(JVET)，旨在制定相比于HEVC降低50％的比特率的多功能视频编解码(VVC)标准。VVC版本1于2020年7月完成。

VVC标准(ITU-T H.266|ISO/IEC 23090-3)和相关的多功能补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)设计用于最广泛的应用范围中，包括传统用途，如电视广播、视频会议或从存储媒体播放，以及更新和更高级的用例，如自适应比特率流、视频区域提取、合成以及合并来自多个编解码视频比特流、多视图视频、可扩展分层编解码和视口自适应三百六十度(360°)沉浸式媒体的内容。

基本视频编解码(EVC)标准(ISO/IEC 23094-1)是最近由MPEG开发的另一种视频编解码标准。

媒体流应用程序通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输方法，并且通常依赖于文件格式，例如ISO基础媒体文件格式(ISOBMFF)。一种这样的流系统是DASH。对于使用具有ISOBMFF和DASH的视频格式，在ISOBMFF轨道和DASH表示及片段中封装视频内容将需要特定于视频格式的文件格式规范，例如ISO/IEC 14496-15中的AVC文件格式和HEVC文件格式：“信息技术—视听对象编解码—第15部分：以ISO基本媒体文件格式传输网络抽象层(NAL)单元结构化视频”。关于视频比特流的重要信息，例如档次(profile)、层(tier)和级别(level)以及许多其他信息，将需要作为文件格式级别元数据和/或DASH媒体呈现描述(MPD)公开以用于内容选择目的，例如，对于流会话开始时的初始化和流会话期间的流自适应选择适当的媒体片段。

类似地，对于使用具有ISOBMFF的图像格式，将需要特定于图像格式的文件格式规范，例如ISO/IEC 23008-12中的AVC图像文件格式和HEVC图像文件格式：“信息技术-各种不同环境中的高效编解码和媒体传送——第12部分：图像文件格式”。

VVC视频文件格式(用于存储基于ISOBMFF的VVC视频内容的文件格式)目前正在由MPEG开发。VVC视频文件格式的最新规范草案包括在ISO/IEC JTC 1/SC 29/WG 03输出文档N0035中，“ISOBMFF中的VVC和EVC的传输(Carriage)的潜在改善”，2020年11月。

VVC图像文件格式(用于存储使用基于ISOBMFF的VVC编解码的图像内容的文件格式)目前正在由MPEG开发。VVC图像文件格式的最新草案规范包括在ISO/IEC JTC 1/SC 29/WG 03输出文档N0038中，“信息技术—各种不同环境中的高效编解码和媒体传送—第12部分：图像文件格式—修订3：支持VVC、EVC、幻灯片和其他改进(CD阶段)，”2020年11月。

图1是示出由DASH中使用的MPD 100进行的视频或媒体数据的描述的示意图。MPD100依据周期110、适配集合120、表示130和片段140描述了媒体流。

在DASH中，可以存在多媒体内容的视频和/或音频数据的多个表示，并且不同的表示可以对应于不同的编解码特性(例如，视频编解码标准的不同的档次或级别、不同的比特率、不同的空域精度等)。这样的表示的清单可以定义在MPD数据结构中。媒体呈现可以对应于对DASH流客户端设备(例如，智能电话、电子平板、笔记本电脑等)可访问的数据的结构化集合。DASH流客户端设备可以请求并下载媒体数据信息以向客户端设备的用户呈现流服务。媒体呈现可以在MPD数据结构中描述，MPD数据结构可以包括MPD的更新。

媒体呈现可以包含一个或多个周期110的序列。每个周期110可以延伸直到下一周期110的开始，或者在最后的周期110的情况下直到媒体呈现的结束。每个周期110可以包含相同媒体内容的一个或多个表示130。表示130可以是音频、视频、定时文本或其他这样的数据的若干可替代编码版本之一。表示130可以由编码类型进行区别，例如，视频数据的比特率、精度和/或编解码器，以及音频数据的比特率、语言和/或编解码器。术语表示130可以用于指代编码的音频或视频数据的对应于多媒体内容的特定周期110且以特定方式编码的部分。

特定周期110的表示130可以分配到由MPD 100中的属性指示的组，该属性指示表示130所属的适配集合120。相同适配集合120中的表示130通常可被视为彼此的替代，这样客户端设备可以在这些表示130之间动态且无缝地切换，例如以执行带宽适配。例如，特定周期的视频数据的每个表示130可以被分配到相同适配集合120，使得任意表示130可以被选择以用于对于对应周期110的多媒体内容的当前媒体数据(诸如视频数据或音频数据)解码。一个周期110内的媒体内容可以由来自组0的一个表示130(如果存在)表示，或在一些示例中由来自每个非零组的至多一个表示的组合表示。周期110的每个表示130的定时数据可以相对于周期110的开始时间表达。

表示130可以包括一个或多个片段140。每个表示130可以包括初始化片段140，或表示的每个片段140可以是自初始化的。当存在时，初始化片段140可以包含用于访问表示130的初始化信息。通常，初始化片段140不含有媒体数据。片段140可以由标识符(诸如统一资源定位符(URL)、统一资源名称(URN)，或统一资源标识符(URI))唯一地引用。MPD 100可以为每个片段140提供标识符。在一些示例中，MPD 100还可以提供范围属性形式的字节范围，其可以对应于可由URL、URN或URI访问的文件内的片段140的数据。

对于不同类型的媒体数据的实质上同时检索，可以选择不同的表示130。例如，客户端设备可以选择从中提取片段140的音频表示130、视频表示130和定时文本表示130。在一些示例中，客户端设备可以选择特定适配集合120以执行带宽适配。即，客户端设备可以选择包括视频表示130的适配集合120、包括音频表示130的适配集合120，和/或包括定时文本的适配集合120。可替代地，客户端设备可以选择某些类型的媒体(例如，视频)的适配集合120，并且直接选择其他类型的媒体(例如，音频和/或定时文本)的表示130。

典型DASH流过程由以下步骤示出。

首先，客户端得到MPD。在实施例中，在客户端设备已经请求MPD之后，客户端设备从内容源接收MPD。

第二，客户端估计下行链路带宽，并根据估计的下行链路带宽和编解码器、解码能力、显示器尺寸、音频语言设置等选择视频表示130和音频表示130。

第三，除非到达媒体呈现的结尾，否则客户端请求所选择的表示130的媒体片段140并向用户呈现流内容。

第四，客户端保持估计下行链路带宽。当带宽显著改变(例如，变低)时，客户端选择不同的视频表示130以匹配新估计的带宽，并且程序返回到第三步骤。

在VVC中，图片被分为(例如，分割为)一个或多个片行和一个或多个片列。片是覆盖图片的矩形区域的编解码树单元(CTU)的序列。片中的CTU在该片内以光栅扫描顺序扫描。

条带由整数数量的完整片或图片的片内的整数数量的连续完整CTU行构成。

支持两种模式的条带，即光栅扫描条带模式和矩形条带模式。在光栅扫描条带模式中，条带包含图片的片光栅扫描中的完整片的序列。在矩形条带模式中，条带包含共同形成图片的矩形区域的一些完整片或共同形成图片的矩形区域的一个片的一些连续完整的CTU行。矩形条带内的片在对应于该条带的矩形区域内以片光栅扫描顺序扫描。

子图片包含一个或多个条带，其共同覆盖图片的矩形区域。

图2是分割为片202、子图片/条带204和CTU 206的图片200的示例。如所示，图片200已被分割为十八个片202和二十四个子图片/条带204。在VVC中，如图2所示，每个子图片由共同覆盖图片的矩形区域的一个或多个完整矩形条带构成。子图片可以被规定为可提取(即，独立于相同图片的其他子图片且独立于在解码顺序中之前的图片编解码)或不可提取。无论子图片是否可提取，编码器可以控制环路滤波(包括去方块、样点自适应偏移(SAO)和自适应环路滤波器(ALF))是否对于每个子图片独立地应用于子图片边界。

功能上，子图片相似于HEVC中的运动约束片集合(MCTS)。它们都允许独立编解码和提取编解码图片的序列的矩形子集，以用于例如视口相关的360°视频流优化和感兴趣区域(ROI)应用的情况。

在360°视频(又称为全向视频)流中，在任意特定时刻，仅将整个全向视频范围的子集(例如，当前视口)渲染给用户，而用户可以在任何时候转动他的/她的头部来改变观看方向并因此改变当前视口。尽管具有未被当前视口覆盖的区域的至少一些低质量表示在客户端处可用且准备好渲染给用户以防用户突然地改变他/她在范围上任意处的观看方向是可取的，但在任意给定时刻仅有对于正被渲染给用户的当前视口需要全向视频的高质量表示。以适当粒度将整个全向视频的高质量表示划分为子图片能够实现如图2中所示的这样的优化，其具有左手侧的十二个高精度子图片以及右手侧的全向视频的其余十二个较低精度的子图片。

图3是基于子图片的视口相关的360°视频传送方案300的示例。如图3所示，完整视频的仅较高精度表示使用子图片。完整视频的较低精度表示不使用子图片，并且可以用比较高精度表示更不频繁的随机访问点(RAP)编解码。客户端以较低精度接收完整视频，而对于较高精度视频，客户端仅接收并解码覆盖当前视口的子图片。

子图片与MCTS之间存在几个设计差异。首先，即使当子图片可提取时，VVC中的子图片特征也允许编解码块的运动矢量指向子图片之外。为此，子图片特征在子图片边界处应用样点填充，其在此情况下相似于图片边界。第二，在merge模式中且在VVC的解码器侧运动矢量细化过程中引入附加改变以用于运动矢量的选择和推导。与应用于MCTS的编码器侧的非规范性运动约束相比，这允许较高编解码效率。第三，当从图片的序列提取一个或多个可提取子图片以创建作为符合标准的比特流的子比特流时，不需要重写条带标头(SH)(和图片标头(PH)网络抽象层(NAL)单元(当存在时))。在基于HEVC MCTS的子比特流提取中，需要重写SH。注意，在HEVC MCTS提取和VVC子图片提取两者中，需要重写序列参数集合(SPS)和图片参数集合(PPS)。然而，典型地在比特流中仅存在几个参数集合，而每个图片具有至少一个条带。因此，重写SH可能对于应用系统是显著的负担。第四，图片内的不同的子图片的条带被允许具有不同的NAL单元类型。该特征通常称为图片内的混合NAL单元类型或混合子图片类型，在以下更详细讨论。第五，VVC规定子图片序列的假定参考解码器(HRD)和级别分辨率，从而可以由编码器确保每个可提取子图片序列的子比特流的符合性。

在AVC和HEVC中，图片中的全部VCL NAL单元需要具有相同的NAL单元类型。VVC引入将子图片与图片内的某些不同的VCL NAL单元类型混合的选项，从而不仅对图片级别也对子图片级别的随机访问提供支持。在VVC中，子图片内的VCL NAL单元仍需要具有相同NAL单元类型。

来自帧内随机访问图片(IRAP)子图片的随机访问的能力对于360°视频应用是有益的。在相似于图3中所示的视口相关的360°视频传送方案中，空域相邻的视口的内容很大程度上重叠，即视口中的子图片的仅部分在视口方向改变期间被新的子图片替换，而大部分子图片保持在视口中。新引入到视口中的子图片序列必须以IRAP条带开始，但在视口改变时当其余子图片被允许进行帧间预测时可以实现总体传输比特率的显著减少。

图片仅含有单个类型的还是多于一种类型的NAL单元的指示被提供在由图片指代的PPS中(即，使用称为pps_mixed_nalu_types_in_pic_flag的标志)。图片可以同时包括包含IRAP条带的子图片和包含随后的条带的子图片。图片内的不同的NAL单元类型的几个其他组合也被允许，包括NAL单元类型随机访问跳过引导(RASL)和随机访问可解码引导(RADL)的引导图片条带，其允许将从不同的比特流提取的子图片序列与开放图片组(GOP)和封闭GOP编解码结构合并到一个比特流中。

VVC中的子图片的布局在SPS中信令通知，从而在编解码层视频序列(CLVS)内不变。在若干CTU中由其左上CTU的位置以及其宽度和高度信令通知每个子图片，因此确保子图片覆盖具有CTU粒度的图片的矩形区域。子图片在SPS中信令通知的顺序确定图片内的每个子图片的索引。

为了在不重写SH或PH的情况下允许提取和合并子图片序列，VVC中的条带寻址方案是基于子图片ID和子图片特定条带索引，以将条带关联到子图片。在条带标头(SH)中，包含条带的子图片的子图片标识符(ID)和子图片级别条带索引被信令通知。注意，特定子图片的子图片ID的值可以不同于其子图片索引的值。两者之间的映射在SPS或PPS(但从来不是两者)中信令通知或隐式地推断。当存在时，当在子图片子比特流提取过程期间重写SPS和PPS时，子图片ID映射需要被重写或添加。子图片ID和子图片级别条带索引一起向解码器指示在解码的图片的解码图片缓冲区(DPB)时隙内的条带的第一解码CTU的准确位置。在子比特流提取之后，子图片的子图片ID保持不变，而子图片索引可以改变。即使当子图片中的条带中的第一CTU的光栅扫描CTU地址与原始比特流中的值相比已经改变时，相应SH中的子图片ID和子图片级别条带索引的未改变的值仍将正确地确定提取的子比特流的解码图片中的每个CTU的位置。

图4是子图片提取400的示例。特别地，图4示出了使用子图片ID、子图片索引和子图片级别条带索引，以允许子图片提取400。在图示的实施例中，子图片提取400包含两个子图片和四个条带。

相似于子图片提取400，对于子图片的信令通知通过仅重写SPS和PPS而允许将来自不同的比特流的几个子图片合并为单个比特流，前提是不同的比特流是协调地生成的(例如，使用不同的子图片ID但在其他方面主要一致的SPS、PPS和PH参数，诸如CTU尺寸、色度格式、编解码工具等)。

虽然子图片和条带分别被在SPS和PPS中独立信令通知，但在子图片与条带布局之间存在固有相互约束，以便形成一致的比特流。首先，子图片的存在托管(mandate)矩形条带并禁止光栅扫描条带。第二，给定子图片的条带是按解码顺序连续的NAL单元，这意味着子图片布局约束比特流内的编解码条带NAL单元的顺序。

画中画服务提供在具有较大精度的图片内包括具有小精度的图片的能力。这样的服务可以对于同时向用户显示两个视频是有益的，从而具有较大精度的视频被视为主视频，并且具有较小精度的视频被视为补充视频。这样的画中画服务可以被用于提供可访问性服务，其中主视频由标记视频补充。

可以通过使用提取及合并VVC子图片的性质将VVC子图片用于画中画服务。对于这样的服务，使用若干子图片编码主视频。子图片之一的尺寸与补充视频相同，其位于补充视频计划合成到主视频中的准确位置处。补充视频被独立编解码以允许提取。当用户选择观看包括补充视频的服务的版本时，对应于主视频的画中画区域的子图片被从主视频比特流提取，并且补充视频比特流在其位置与主视频比特流合并。

图5是基于VVC子图片的画中画支持500的示例。标记为Subpic ID 0的主视频的部分在本文中可以称为目标画中画区域，因为主视频的该部分将被具有Subpic ID 0的补充视频替换。即，补充视频嵌入在主视频内或覆盖在主视频上，如图5所示。在示例中，主视频和补充视频的图片共享相同视频特性。特别地，比特深度、样点高宽比、尺寸、帧率、色彩空间和传输特性以及主视频和补充视频的色度样点位置必须是相同的。主视频和补充视频比特流不需要在每个图片内使用相同的NAL单元类型。然而，主视频和补充视频比特流中的图片的编解码顺序需要是相同的。

由于本文中使用子图片的合并，在主视频和补充视频内使用的子图片ID不能重叠。即使当补充视频比特流仅由一个子图片组成而没有任何其他片或条带分割时，子图片信息(例如，在特定子图片ID和子图片ID长度中)也需要被信令通知以允许将补充视频比特流与主视频比特流合并。用于信令通知补充视频比特流的条带NAL单元内的子图片ID语法元素的长度的子图片ID长度必须与用于信令通知主视频比特流的条带NAL单元内的子图片ID的子图片ID长度相同。此外，为了简化补充视频比特流与主视频比特流的合并而不需重写PPS分割信息，仅使用一个条带和一个片以用于编码主视频的对应区域内的补充视频可以是有益的。主视频比特流和补充视频比特流必须在SPS、PPS和图片标头中信令通知相同的编解码工具。这包括使用块分割的相同的最大和最小允许尺寸，以及在PPS中信令通知的初始量化参数的相同值(pps_init_qp_minus26语法元素的相同值)。编解码工具使用可以在条带标头级别修改。

当主比特流和补充比特流经由基于DASH的传送系统都可用时，DASH预选择可以被用于信令通知计划合并且一起渲染的主比特流和补充比特流。DASH预选择限定MPD的媒体组件的子集，其预期被DASH播放器联合地消耗，其中消耗可以包括解码和渲染。含有DASH预选择的主媒体组件的适配集合被称为主适配集合。此外，每个DASH预选择可以包括一个或多个部分适配集合。部分适配集合可能需要结合主适配集合处理。主适配集合和部分适配集合可以由预选择描述符或由预选择元素指示。

不幸的是，当试图在DASH中支持画中画服务时已经观察到以下问题。首先，虽然可以将DASH预选择用于画中画体验，但缺少这样的目的的指示。

第二，虽然将VVC子图片用于画中画体验(例如，如以上所讨论)时，可以使用其他的编解码器和方法，但是不能够用补充视频的对应视频数据单元替换表示主视频中的目标画中画区域的编解码视频数据单元。因此，需要指示这样的替换是否是可能的。

第三，当以上替换可能时，客户端需要了解主视频的每个图片中的哪些编解码视频数据单元表示能够执行替换的目标画中画区域。因此，该信息需要被信令通知。

第四，出于内容选择目的(并且也可能出于其他目的)，这对于信令通知主视频中的目标画中画区域的位置和尺寸将是有用的。

本文所公开的是解决一个或多个前述问题的技术。例如，本公开提供在预选择中整合指示符的技术。在实施例中，指示符指示主视频的哪些视频数据单元表示目标画中画区域。从而，相对于常规视频编解码技术改善视频编解码过程。

以下详细实施例应视为解释总体概念的示例。这些实施例不应以狭窄方式解释。此外，这些实施例可以以任意方式组合。

在以下讨论中，视频单元(又称为，视频数据单元)可以是图片的序列，图片、条带、片、图块(brick)、子图片、CTU/编解码树块(CTB)、CTU/CTB行、一个或多个编解码单元(CU)/编解码块(CB)、一个或多个CTU/CTB、一个或多个虚拟流水线数据单元(VPDU)、图片/条带/片/图块内的子区域。父视频单元(又称为，亲代视频单元)表示比视频单元更大的单元。典型地，父视频单元将包含几个视频单元，例如，当视频单元是CTU时，父视频单元可以是条带、CTU行、多个CTU等。在一些实施例中，视频单元可以是样点/像素。在一些实施例中，视频单元可以称为视频数据单元。

示例1

1)为了解决第一个问题，在MPD中信令通知指示。指示对预选择(又称为，预选择、DASH预选择等)的目的用于提供画中画体验进行指示。即，预选择元素中的指示符指示预选择元素的目的用于提供画中画体验，其中补充视频呈现为覆盖在主视频中的目标画中画区域上。

a.在一个示例中，由预选择的@tag属性特定值信令通知指示(例如，通过CommonAttributesElements)。在实施例中，@tag的特定值为“PicInPic”。

b.在一个示例中，由预选择的Role元素的@value属性的特定值信令通知指示。在实施例中，@值的特定值为“PicInPic”。

示例2

2)为了解决第二个问题，在MPD中信令通知指示。指示对表示主视频中的目标画中画区域的编解码视频数据单元是否可以被补充视频的对应视频数据单元替换进行指示。

a.在一个示例中，由属性信令通知指示。在实施例中，属性被指代或命名为预选择的@DataUnitsReplacable。

b.在一个示例中，指示被规定为可选。

i.在一个示例中，指示可以仅当预选择的@tag属性指示预选择的目的是用于提供画中画体验时才存在。

c.当指示不存在时，这样的替换是否可能是未知的。

d.在一个示例中，规定当@DataUnitsReplacable为真时，客户端可以选择在发送到视频解码器之前用补充视频的对应编解码视频数据单元替换表示主视频中的目标画中画区域的编解码视频数据单元。因此，可以避免主视频和补充视频的单独解码。

e.在一个示例中，规定对于主视频中的特定图片，补充视频的对应视频数据单元是补充视频表示中的解码时间同步样点中的全部编解码视频数据单元。

示例3

3)为了解决第三个问题，区域ID的列表在MPD中信令通知。区域ID的列表指示主视频的每个图片中的哪些编解码的视频数据单元表示目标画中画区域。

a.在一个示例中，区域ID的列表被信令通知为预选择的属性。在实施例中，属性被命名为@regionIds。

b.在一个示例中，指示被规定为可选的。

c.在一个示例中，规定区域ID的具体语义(concrete semantics)对特定视频编解码器需要被显式地规定。

i.在一个示例中，规定在VVC的情况下，区域ID是子图片ID，并且编解码视频数据单元为VCL NAL单元。表示主视频中的目标画中画区域的VCL NAL单元是具有这些子图片ID的VCL NAL单元，其与补充视频的对应VCL NAL单元中的子图片ID相同。典型地，补充视频中的一个图片的全部VCL NAL单元共享显式地信令通知的相同子图片ID。在此情况下，在区域ID的列表中存在仅一个区域ID。

层是全部具有特定值的nuh_layer_id的VCL NAL单元和相关联的非VCL NAL单元的集合。网络抽象层(NAL)单元是包含要遵循的数据类型的指示的语法结构，并且包含原始字节序列负载(raw byte sequence payload，RBSP)形式的该数据的字节，其依需散布有仿真防止字节。视频编解码层(VCL)NAL单元是编解码条带NAL单元和具有分类为VVC标准中的VCLNAL单元的nal_unit_类型的保留值的NAL单元的子集的统称。

ii.在一个示例中，规定在VVC的情况下，当客户端选择在发送到视频解码器之前用补充视频的对应VCL NAL单元替换表示主视频中的目标画中画区域的编解码视频数据单元(其为VCL NAL单元)时，对于每个子图片ID，主视频中的VCL NAL单元被用补充视频中的具有该子图片ID的对应VCL NAL单元替换，而不改变对应VCL NAL单元的顺序。

示例4

4)为了解决第四个问题，关于主视频的位置和尺寸的信息在MPD中信令通知。在实施例中，当嵌入/覆盖补充视频时，可以使用主视频的位置和尺寸信息，其在尺寸上小于主视频。

a.在一个示例中，通过信令通知四个值x、y、宽度和高度来信令通知位置和尺寸信息。在该实施例中，x和y规定区域的左上角的位置，并且宽度和高度规定区域的宽度和高度。可以以亮度样点/像素为单元。

b.在一个示例中，通过预选择的属性或元素来信令通知位置和尺寸信息。

c.在一个示例中，通过预选择的主适配集合的属性或元素来信令通知位置和尺寸信息。

d.在一个示例中，规定当@DataUnitsReplacable为真且位置和尺寸信息存在时，位置和尺寸应准确地表示主视频中的目标画中画区域。

e.在一个示例中，规定当@DataUnitsReplacable为伪且位置和尺寸信息存在时，位置和尺寸信息指示优选的区域以嵌入覆盖补充视频(即，客户端可以选择在主视频的不同的区域中覆盖补充视频)。

f.在一个示例中，规定当@DataUnitsReplacable为伪且位置和尺寸信息不存在，没有关于在何处覆盖补充视频的信息或推荐的建议，并且在何处覆盖补充视频完全取决于客户端选择。

示例5

5可替代地，元素(例如，命名为PicInPic元素)被添加到预选择元素。该PicInPic元素包含以下中的至少一个或多个。

a.与上述相似的@DataUnitsReplacable属性。

b.与上述相似的@regionIds属性。

c.@x属性，规定主视频中的目标画中画区域的左上编码视频像素(样点)的水平位置。以视频像素(样点)为单位。四个属性@x、@y、@width和@height应全部存在或全部不存在。

d.@y属性，规定主视频中的目标画中画区域的左上编码视频像素(样点)的垂直位置。以视频像素(样点)为单位。

e.@width属性，规定主视频中的目标画中画区域的宽度。以视频像素(样点)为单位。

f.@height属性，规定主视频中的目标画中画区域的高度。以视频像素(样点)为单位。

示例6

6)可替代地，元素，例如，命名为Picnpic元素，被添加到预选择元素。该Picnpic元素包含以下中的至少一个或多个。

a.与上述相似的@DataUnitsReplacable属性。

b.与上述相似的@regionIds属性。

c.元素(例如，命名为区域元素)，包含至少以下内容。

i.@x属性，规定主视频中的目标画中画区域的左上编码视频像素(样点)的水平位置。以视频像素(样点)为单位。

ii.@y属性，规定主视频中的目标画中画区域的左上编码视频像素(样点)的垂直位置。以视频像素(样点)为单位。

iii.@width属性，规定主视频中的目标画中画区域的宽度。以视频像素(样点)为单位。

iv.@height属性，规定主视频中的目标画中画区域的高度。以视频像素(样点)为单位。

以下是对应于以上讨论的示例的一些示例实施例。实施例可以应用于DASH。在语法和/或语义中已经添加或修改的最相关部分在以下以斜体示出。可以存在一些其他改变，它们本质上是编辑性的且因此未高亮显示。

提供了预选择元素的语义。作为对预选择描述符的替代，预选择还可以通过表25中提供的预选择元素限定。预选择的选择是基于预选择元素中包含的属性和元素。

表25—预选择元素的语义

提供了可扩展标记语言(XML)语法。

基于预选择的画中画。

当预选择的@tag属性的值(通过CommonAttributesElements元素)等于"PicInPic"时，预选择的目的是用于画中画体验。画中画服务提供在具有较大空域精度的视频内包括具有小空域精度的视频的能力。在此情况下，主视频的不同的比特流/表示被包括在预选择的主适配集合中，并且补充视频的不同的比特流/表示被包括在预选择的部分适配集合。

当@tag等于"PicInPic"且@DataUnitsReplacable属性存在且等于真时，客户端可以选择在发送到视频解码器之前用补充视频的对应编解码视频数据单元替换表示主视频中的目标画中画区域的编解码视频数据单元。因此，可以避免主视频和补充视频的单独解码。

对于主视频中的特定图片，补充视频的对应视频数据单元为补充视频表示中的解码时间同步样点中的全部编解码视频数据单元。

在VVC的情况下，当客户端选择在发送到视频解码器之前用补充视频的对应VCLNAL单元替换表示主视频中的目标画中画区域的编解码视频数据单元(其为VCL NAL单元)时，对于每个子图片ID，主视频中的VCL NAL单元被用补充视频中的具有该子图片ID的对应VCL NAL单元替换，而不改变对应VCL NAL单元的顺序。

在另一实施例中提供预选择元素的语义。作为对预选择描述符的替代，预选择还可以通过表25中提供的预选择元素限定。预选择的选择是基于预选择元素中含有的属性和元素。

表25—预选择元素语义

提供了XML语法。

基于预选择的画中画。

总体上。

当预选择的@tag属性的值(通过CommonAttributesElements元素)等于”PicInPic”时，预选择的目的是用于画中画体验。画中画服务提供在具有较大空域精度的视频内包括具有小空域精度的视频的能力。在此情况下，主视频的不同的比特流/表示被包括在预选择的主适配集合中，并且补充视频的不同的比特流/表示被包括在预选择的部分适配集合。

当@tag等于"PicInPic"且@DataUnitsReplacable属性存在且等于真时，客户端可以选择在发送到视频解码器之前用补充视频的对应的编解码视频数据单元替换表示主视频中的目标画中画区域的编解码视频数据单元。因此，可以避免主视频和补充视频的单独解码。

Picnpic元素的语义。

表27—Picnpic元素的语义

Picnpic元素的XML语法。

图6是示出其中可以实现本文所公开各种技术的示例视频处理系统600的框图。各种实现方式可以包括视频处理系统600的一些或全部组件。视频处理系统600可以包括输入602以接收视频内容。视频内容可以被以原始或未压缩格式接收，例如，8或10比特多分量像素值，或可以以压缩或编码格式接收。输入602可以表示网络接口、外围总线接口、或储存接口。网络接口的示例包括有线接口(诸如以太网、无源光学网络(PON)等)和无线接口，诸如Wi-Fi或蜂窝接口。

视频处理系统600可以包括编解码组件604，其可以实现本文档中所描述的各种编解码或编码方法。编解码组件604可以将视频的平均比特率从输入602降低到编解码组件604的输出，以产生视频的编解码表示。因此，编解码技术有时称为视频压缩或视频转码技术。编解码组件604的输出可以被储存，或经由所连接的通信(如组件606所表示)传输。在输入602处接收的视频的储存或通信的比特流(或编解码)表示可以被组件608用于生成像素值或可显示视频，其被发送到显示接口610。从比特流表示生成用户可观看视频的过程有时称为视频解压缩。此外，虽然某些视频处理操作被称为“编解码”操作或工具，应理解，编解码工具或操作被在编码器处，并且逆转编解码的结果的对应的解码工具或操作将由解码器执行。

外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高分辨率多媒体接口(HDMI)或Displayport，等等。储存接口的示例包括SATA(串行先进技术附件)、外围组件互连(PCI)、集成驱动电子(IDE)接口等。本文档中所描述的技术可以实施在各种电子设备中，诸如移动电话、膝上式计算机、智能电话或能够执行数字数据处理和/或视频显示的其他设备。

图7是视频处理装置700的框图。视频处理装置700可以被用于实现本文中所描述的一个或多个方法。视频处理装置700可以实施在智能电话、平板计算机、计算机、物联网(IoT)接收器等中。视频处理装置700可以包括一个或多个处理器702、一个或多个存储器704和视频处理硬件706(又称为，视频处理电路)。(多个)处理器702可以配置为实现本文档中所描述的一个或多个方法。存储器(存储器)704可以被用于储存用于实现本文中所描述的方法和技术的数据和代码。视频处理硬件706可以被用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中，视频处理硬件706可以部分或完全位于处理器702内，例如，图形处理器。

图8是示出了可以利用本公开的技术的视频编解码系统800的示例的框图。如图8所示，视频编解码系统800可以包括源设备810和目标设备820。源设备810生成编码视频数据，其可以称为视频编码设备。目标设备820可以解码由源设备810生成的编码视频数据，其可以称为视频解码设备。

源设备810可以包括视频源812、视频编码器814，以及输入/输出(I/O)接口816。

视频源812可以包括源，诸如视频捕获设备、从视频内容提供者接收视频数据的接口，和/或用于生成视频数据的计算机图形系统，或这些源的组合。视频数据可以包括一个或多个图片。视频编码器814编码来自视频源812的视频数据以生成比特流。比特流可以包括形成视频数据的编解码表示的比特的序列。比特流可以包括编解码图片和相关联的数据。编解码图片为图片的编解码表示。相关联的数据可以包括序列参数集合、图片参数集合，以及其他语法结构。I/O接口816可以包括调制器/解调器(调制解调器)和/或发射器。编码视频数据可以经由I/O接口816通过网络830被直接发送到目标设备820。编码视频数据还可以被储存到存储介质/服务器840上以由目标设备820访问。

目标设备820可以包括I/O接口826、视频解码器824，以及显示设备822。

I/O接口826可以包括接收器和/或调制解调器。I/O接口826可以从源设备810或存储介质/服务器840获取编码视频数据。视频解码器824可以解码编码视频数据。显示设备822可以向用户显示解码的视频数据。显示设备822可以与目标设备820集成，或可以外部于目标设备820，其可以配置为与外部显示设备相接。

视频编码器814和视频解码器824可以根据视频压缩标准操作，诸如高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准，以及其他当前和/或未来标准。

图9是示出视频编码器900的示例的框图，其可以是图8中所示的视频编解码系统800中的视频编码器814。

视频编码器900可以配置为执行本公开的技术中的任意或全部。在图9的示例中，视频编码器900包括多个功能性组件。本公开中所描述的技术可以在视频编码器900的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中所描述的技术中的任意或全部。

视频编码器900的功能性组件可以包括分割单元901、预测单元902(其可以包括模式选择单元903、运动估计单元904、运动补偿单元905和帧内预测单元906)、残差生成单元907、变换单元908、量化单元909、逆量化单元910、逆变换单元911、重构单元912、缓冲区913，以及熵编码单元914。

在其他示例中，视频编码器900可以包括更多、更少或不同的功能性组件。在示例中，预测单元902可以包括帧内块复制(IBC)单元。IBC单元可以在IBC模式中执行预测，其中至少一个参考图片是当前视频块所处的图片。

此外，一些组件(诸如运动估计单元904和运动补偿单元905)可以高度集成，但在图9的示例中出于解释目的而分开地表示。

分割单元901可以将图片分割为一个或多个视频块。图8的视频编码器814和视频解码器824可以支持各种视频块尺寸。

模式选择单元903可以例如基于误差结果选择编解码模式之一，帧内或帧间，并且将所得帧内或帧间编解码块提供到残差生成单元907以生成残差块数据，并提供到重构单元912以重构编码块以用作参考图片。在一些示例中，模式选择单元903可以选择帧内和帧间预测(CIIP)模式的组合，其中预测是基于帧间预测信号和帧内预测信号。在帧间预测的情况下，模式选择单元903还可以为块选择运动矢量的分辨率(例如，子像素或整数像素精度)。

为了对当前视频块执行帧间预测，通过将来自缓冲区913的一个或多个参考帧与当前视频块进行比较，运动估计单元904可以生成当前视频块的运动信息。运动补偿单元905可以基于除与当前视频块相关联的图片之外的来自缓冲区913的图片的运动信息和解码样点确定当前视频块的预测视频块。

运动估计单元904和运动补偿单元905可以对当前视频块执行不同的操作，例如，取决于当前视频块是I条带、P条带还是B条带。I条带(或I帧)是最不可压缩的但不需要其他视频帧以解码。P条带(或P帧)可以使用来自之前帧的数据来解压缩且比I帧更可压缩。B条带(或B帧)可以将之前和之后的帧用于数据参考以得到最高量的数据压缩。

在一些示例中，运动估计单元904可以对当前视频块执行单向预测，并且运动估计单元904可以搜索列表0或列表1的参考图片，以搜索当前视频块的参考视频块。然后，运动估计单元904可以生成参考索引，其指示列表0或列表1中的含有参考视频块的参考图片以及指示当前视频块与参考视频块之间的空间位移的运动矢量。运动估计单元904可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元905可以基于由当前视频块的运动信息指示的参考视频块生成当前块的预测视频块。

在其他示例中，运动估计单元904可以执行当前视频块的双向预测，运动估计单元904可以搜索列表0中的参考图片，以搜索当前视频块的参考视频块，并且还可以搜索列表1中的参考图片，以搜索当前视频块的另一参考视频块。然后，运动估计单元904可以生成参考索引，其指示列表0和列表1中的含有参考视频块的参考图片以及指示参考视频块与当前视频块之间的空间位移的运动矢量。运动估计单元904可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元905可以基于由当前视频块的运动信息指示的参考视频块生成当前视频块的预测视频块。

在一些示例中，运动估计单元904可以输出运动信息的完整集合以用于解码器的解码处理。

在一些示例中，运动估计单元904可以不输出当前视频的运动信息的完整集合。反之，运动估计单元904可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。例如，运动估计单元904可以确定当前视频块的运动信息充分相似于相邻视频块的运动信息。

在一个示例中，运动估计单元904可以在与当前视频块相关联的语法结构指示值，该值向视频解码器824指示当前视频块具有与另一视频块相同的运动信息。

在另一示例中，运动估计单元904可以在与当前视频块相关联的语法结构中识别另一视频块和运动矢量差值(MVD)。运动矢量差值指示当前视频块的运动矢量与指示的视频块的运动矢量之间的差值。视频解码器824可以使用指示的视频块的运动矢量和运动矢量差值来确定当前视频块的运动矢量。

如以上所讨论，视频编码器814可以预测性地信令通知运动矢量。可以由视频编码器814实现的预测性信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。

帧内预测单元906可以对当前视频块执行帧内预测。当帧内预测单元906对当前视频块执行帧内预测时，帧内预测单元906可以基于相同图片中的其他视频块的解码样点而生成当前视频块的预测数据。当前视频块的预测数据可以包括预测的视频块和各种语法元素。

残差生成单元907可以通过从从当前视频块减去(例如，由减号指示)当前视频块的(多个)预测视频块而生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中的样点的不同的样点分量的残差视频块。

在其他示例中，可以不存在当前视频块的残差数据，例如在跳过模式中，并且残差生成单元907可以不执行减法操作。

变换单元908可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块而生成当前视频块的一个或多个变换系数视频块。

在变换单元908生成与当前视频块相关联的变换系数视频块之后，量化单元909可以基于与当前视频块相关联的一个或多个量化参数(QP)值而量化与当前视频块相关联的变换系数视频块。

逆量化单元910和逆变换单元911可以对变换系数视频块分别应用逆量化和逆变换，以从变换系数视频块重构残差视频块。重构单元912可以将重构的残差视频块添加到来自由预测单元902生成的一个或多个预测视频块的对应样点，以产生与当前块相关联的重构视频块以储存在缓冲区913中。

在重构单元912重构视频块之后，可以执行回路滤波操作以减少视频块中的视频块状伪影。

熵编码单元914可以从视频编码器900的其他功能性组件接收数据。当熵编码单元914接收数据时，熵编码单元914可以执行一个或多个熵编码操作以生成熵编码数据，并输出包括熵编码数据的比特流。

图10是示出视频解码器1000的示例的框图，其可以是图8中所示的视频编解码系统800中的视频解码器824。

视频解码器1000可以配置为执行本公开的技术中的任意或全部。在图10的示例中，视频解码器1000包括多个功能性组件。本公开中所描述的技术可以在视频解码器1000的各种组件之间共享。在一些示例中，处理器可以被配置为执行本公开中所描述的技术中的任意或全部。

在图10的示例中，视频解码器1000包括熵解码单元1001、运动补偿单元1002、帧内预测单元1003、逆量化单元1004、逆变换单元1005、重构单元1006和缓冲区1007。在一些示例中，视频解码器1000可以执行解码通过，其总体上相反于关于视频编码器814(图8)描述的编码通过。

熵解码单元1001可以取回编码比特流。编码比特流可以包括熵编解码视频数据(例如，视频数据的编码块)。熵解码单元1001可以解码熵编解码视频数据，并且从熵解码视频数据，运动补偿单元1002可以确定运动信息，包括运动矢量、运动矢量精度、参考图片列表索引，和其他运动信息。运动补偿单元1002可以例如通过执行AMVP和合并模式信令通知来确定这样的信息。

运动补偿单元1002可以产生运动补偿的块，可能地基于内插滤波执行内插。要与子像素精度一起使用的内插滤波的标识符可以被包括在语法元素中。

运动补偿单元1002可以使用插值滤波，如视频编码器814在编码视频块期间所使用以计算参考块的子整数像素的插值。运动补偿单元1002可以根据接收的语法信息确定由视频编码器814使用的插值滤波并使用插值滤波以产生预测性块。

运动补偿单元1002可以使用一些语法信息来确定用于对编码的视频序列的(多个)帧和/或(多个)条带进行编码的块大小，描述如何分割编码的视频序列的图片的每个宏块的分割信息，指示如何编码每个分割的模式，每个帧间编码块的一个或多个参考帧(和参考帧列表)，以及解码编码的视频序列的其他信息。

帧内预测单元1003可以使用例如在比特流中接收的帧内预测模式，以从空间相邻块形成预测块。逆量化单元1004逆量化(即，去量化)在比特流中提供且由熵解码单元1001解码的量化的视频块系数。逆变换单元1005应用逆变换。

重构单元1006可以将残差块与由运动补偿单元1002或帧内预测单元1003生成的对应预测块加和以形成解码块。如果期望，还可以去方块滤波器以滤波解码块，从而去除块状伪影。然后，解码的视频块储存在缓冲区1007中，其提供后续运动补偿/帧内预测的参考块，并且还产生解码视频以呈现在显示设备上。

图11是根据本公开的实施例所述的媒体数据处理方法1100。方法1100可以由具有处理器和存储器的编解码装置(例如，编码器)执行。当需要指示画中画服务时可以实施方法1100。

在框1102中，对于媒体数据与媒体数据文件之间的转换，编解码装置确定预选择元素是否包括指示符。在实施例中，指示符指示主视频的哪些视频数据单元表示目标画中画区域。

在框1104中，编解码装置基于指示符执行媒体数据与媒体数据文件之间的转换。当在编码器中实施时，转换包括接收媒体文件(例如，视频单元)并将媒体文件编码为比特流。当在解码器中实施时，转换包括接收包括媒体文件的比特流，并且解码比特流以获得媒体文件。

在实施例中，指示符还指示主视频的每个图片中的哪些视频数据单元能够被补充视频的对应视频数据单元替换。

在实施例中，指示符包括预选择元素的属性。在实施例中，指示符包括区域标识符(ID)的列表。

在实施例中，指示符包括@regionIds属性。在实施例中，@regionIds属性规定表示主视频的目标画中画区域的视频数据单元的标识符ID。

在实施例中，@regionIds属性将表示主视频的目标画中画区域的视频数据单元的标识符ID规定为白色空间单独列表。白色空间单独列表是由空格而非例如逗号分开的元素或项目的列表。

在实施例中，当@tag属性存在于预选择元素中时，指示符仅存在于预选择元素中。在实施例中，当预选择元素中的@tag属性指示预选择元素的目的是提供画中画体验时，指示符仅存在于预选择元素中，其中补充视频呈现为覆盖在主视频中的目标画中画区域上。

在实施例中，指示符包括子图片ID，其中视频数据单元包括视频编解码层网络抽象层VCL NAL单元，VCL NAL单元表示目标画中画区域且包括子图片ID，并且其中VCL NAL单元中的子图片ID与补充视频的对应VCL NAL单元中的子图片ID相同。

在实施例中，方法还包括用补充视频的对应视频数据单元替换表示目标画中画区域的视频数据单元，而不改变对应视频数据单元的顺序。

在实施例中，视频数据单元包括视频编解码层网络抽象层VCL NAL单元，其中对应视频数据单元包括补充VCL NAL单元，并且其中VCL NAL单元中的子图片ID与对应VCL NAL单元中的子图片ID相同。

在实施例中，预选择元素包括Picinpic元素。在实施例中，指示符包括@regionIds属性，并且其中Picinpic元素包含@regionIds属性。

在实施例中，预选择元素设置在媒体呈现描述(MPD)文件中。在实施例中，预选择元素为超文本传输协议上的动态自适应流DASH预选择元素。

在实施例中，转换包括将媒体数据编码为比特流。在实施例中，转换包括从比特流解码媒体数据。

在实施例中，方法1100可以利用或整合本文所公开的其他方法的特征或过程中的一个或多个。

接下来提供了一些实施例优选的方案的列表。

以下方案示出了本公开中讨论的技术的示例实施例(例如，示例1)。

1.一种视频数据处理方法，包括：执行视频数据与视频数据的描述符之间的转换，其中描述符符合格式规则，并且其中格式规则规定描述符包括语法元素，该语法元素指示描述符的预选择语法结构的画中画使用。

2.根据权利要求1所述的方法，其中语法元素是预选择语法结构的标签属性。

3.根据权利要求1所述的方法，其中语法元素为预选择语法结构的角色属性。

4.一种视频数据处理方法，包括：执行视频数据与视频数据的描述符之间的转换，其中描述符符合格式规则，并且其中格式规则规定描述符选择性地包括语法元素，该语法元素指示对应于画中画区域的视频数据中的主视频的视频数据单元能够用视频数据中的补充视频的视频数据单元替换。

5.根据权利要求4所述的方法，其中语法元素是描述符中的属性字段。

6.根据权利要求4所述的方法，其中语法元素基于描述符中的标签属性的值被选择性地包括。

7.一种视频数据处理方法，包括：执行视频数据与视频数据的描述符之间的转换，其中描述符符合格式规则，并且其中格式规则规定描述符包括区域标识符的列表，该区域标识符的列表指示对应于目标画中画区域的视频数据中的主视频的图片中的视频数据单元。

8.根据权利要求7所述的方法，其中列表包括在描述符中作为预选择语法结构的属性。

9.根据权利要求7-8中任一项所述的方法，其中区域标识符对应于根据用于编解码主视频的编解码方案的用于指示视频数据单元的语法字段。

10.一种视频数据处理方法，包括：执行视频数据与视频数据的描述符之间的转换，其中描述符符合格式规则，并且其中格式规则规定描述符包括一个或多个字段，该一个或多个字段指示用于覆盖或嵌入补充视频的主视频中的区域的位置和/或尺寸信息。

11.根据权利要求10所述的方法，其中位置和尺寸信息包括四个值，包括区域的位置坐标、高度和宽度。

12.根据权利要求10-11中任一项所述的方法，其中一个或多个字段包括预选择语法结构的属性或元素。

13.根据权利要求10-12中任一项所述的方法，其中基于另一语法元素确定区域是准确可替换区域还是优选可替换区域。

14.根据权利要求1-13中任一项所述的方法，其中描述符是媒体呈现描述(MPD)。

15.根据权利要求1-14中任一项所述的方法，其中格式规则规定特定语法元素包括在描述符中，并且其中特定语法元素包括画中画信息。

16.根据权利要求1-15中任一项所述的方法，其中转换包括从视频生成比特流。

17.根据权利要求1-15中任一项所述的方法，其中转换包括从比特流生成视频。

18.一种视频解码装置，包括处理器，处理器配置为实施权利要求1至17中的一个或多个所述的方法。

19.一种视频编码装置，包括处理器，处理器配置为实施权利要求1至17中的一个或多个所述的方法。

20.一种计算机程序产品，具有储存在其上的计算机代码，当由处理器执行代码时，使处理器实施权利要求1至17中任一项所述的方法。

21.一种视频处理方法，包括根据权利要求1-17中的一个或多个所述的方法生成比特流并将比特流存储在计算机可读介质上。

22.一种本文档中所描述的方法、装置或系统。

以下文档通过引用整体并入：

[1]ITU-T and ISO/IEC,“High efficiency video coding”,Rec.ITU-T H.265|ISO/IEC 23008-2(in force edition).

[2]J.Chen,E.Alshina,G.J.Sullivan,J.-R.Ohm,J.Boyce,“Algorithmdescription of Joint Exploration Test Model 7(JEM7),”JVET-G1001,Aug.2017.

[3]Rec.ITU-T H.266|ISO/IEC 23090-3,“Versatile Video Coding”,2020.

[4]B.Bross,J.Chen,S.Liu,Y.-K.Wang(editors),“Versatile Video Coding(Draft 10),”JVET-S2001.

[5]Rec.ITU-T Rec.H.274|ISO/IEC 23002-7,“Versatile SupplementalEnhancement Information Messages for Coded Video Bitstreams”,2020.

[6]J.Boyce,V.Drugeon,G.Sullivan,Y.-K.Wang(editors),“Versatilesupplemental enhancement information messages for coded video bitstreams(Draft 5),”JVET-S2007.

[7]ISO/IEC 14496-12:"Information technology—Coding of audio-visualobjects—Part 12:ISO base media file format".

[8]ISO/IEC 23009-1:"Information technology—Dynamic adaptivestreaming over HTTP(DASH)—Part 1:Media presentation description and segmentformats".The 4th edition text of the DASH standard specification can be foundin MPEG input document m52458.

[9]ISO/IEC 14496-15:"Information technology—Coding of audio-visualobjects—Part 15:Carriage of network abstraction layer(NAL)unit structuredvideo in the ISO base media file format".

[10]ISO/IEC 23008-12:"Information technology—High efficiency codingand media delivery in heterogeneous environments—Part 12:Image File Format".

[11]ISO/IEC JTC 1/SC 29/WG 03output document N0035,"Potentialimprovements on Carriage of VVC and EVC in ISOBMFF",Nov.2020.

[12]ISO/IEC JTC 1/SC 29/WG 03output document N0038,"Informationtechnology—High efficiency coding and media delivery in heterogeneousenvironments—Part 12:Image File Format—Amendment 3:Support for VVC,EVC,slideshows and other improvements(CD stage)",Nov.2020.

本文档中描述的所公开的和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路或计算机软件、固件或硬件中实现，包括本文档中公开的结构及其结构等效物，或其中的一种或多种的组合。所公开的和其他实施例可以实施为一个或多个计算机程序产品，即，在计算机可读介质上编码的一个或多个计算机程序指令模块，由数据处理装置执行或控制操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组合物，或者其中的一个或多个的组合。术语“数据处理装置”涵盖处理数据的所有装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其中一个或多个的组合代码。传播的信号是人工产生的信号，例如机器产生的电、光或电磁信号，其被产生是为了对信息进行编码以传输到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写，并且可以以任何形式进行部署，包括独立程序或适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于所讨论程序的单个文件中或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序，以在一台计算机或位于一个位置上或分布在多个位置上并通过通信网络互连的多台计算机上执行。

本文档中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行，以执行一个或多个计算机程序，从而通过对输入数据进行操作并产生输出来执行功能。处理和逻辑流程也可以由专用逻辑电路执行，并且也可以实现为专用逻辑电路，例如FPGA(fieldprogrammable gate array，现场可编程门阵列)或ASIC(application specificintegrated circuit，专用集成电路)。

适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备，例如，磁盘、磁光盘或光盘，以从中接收数据，或将数据传输到一个或多个大容量存储设备，或两者。但是，计算机不必具有这样的装置。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，包括例如半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内置硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

尽管本专利文档包含许多细节，但是这些细节不应解释为对任何发明或可要求保护的范围的限制，而应解释为对特定发明的特定实施例可能特定的特征的描述。在单独的实施例的上下文中在本专利文档中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合来实施。此外，尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下，可以从组合中剔除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应理解为要求以所示的特定顺序或以连续的顺序执行这样的操作，或者执行所有示出的操作以实现期望的效果。此外，在该专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。

仅描述了一些实施方式和示例，并且可以基于本专利文档中描述和示出的内容进行其他实施方式、增强和变化。

Claims

1.一种媒体数据处理方法，包括：

对于所述媒体数据与媒体数据文件之间的转换，确定预选择元素包括指示符，其中，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及

基于所述指示符执行所述媒体数据与所述媒体数据文件之间的所述转换。

2.根据权利要求1所述的方法，其中，所述指示符还指示所述主视频的每个图片中的哪些所述视频数据单元能够被补充视频的对应视频数据单元替换。

3.根据权利要求1所述的方法，其中，所述指示符包括所述预选择元素的属性。

4.根据权利要求1所述的方法，其中，所述指示符包括区域标识符ID的列表。

5.根据权利要求1所述的方法，其中，所述指示符包括@regionIds属性。

6.根据权利要求5所述的方法，其中，所述@regionIds属性规定表示所述主视频的所述目标画中画区域的所述视频数据单元的标识符ID。

7.根据权利要求5所述的方法，其中，所述@regionIds属性将表示所述主视频的所述目标画中画区域的所述视频数据单元的标识符ID规定为白色空间单独列表。

8.根据权利要求1所述的方法，其中，当@tag属性存在于所述预选择元素中时，所述指示符仅存在于所述预选择元素中。

9.根据权利要求1所述的方法，其中，当所述预选择元素中的@tag属性指示所述预选择元素的目的是提供画中画体验时，所述指示符仅存在于所述预选择元素中，其中，补充视频呈现为覆盖在所述主视频中的所述目标画中画区域上。

10.根据权利要求1所述的方法，其中，所述指示符包括子图片ID，其中，所述视频数据单元包括视频编解码层网络抽象层VCL NAL单元，所述VCL NAL单元表示所述目标画中画区域且包括所述子图片ID，并且其中，所述VCL NAL单元中的所述子图片ID与补充视频的对应VCL NAL单元中的所述子图片ID相同。

11.根据权利要求1所述的方法，还包括：用补充视频的对应视频数据单元替换表示所述目标画中画区域的所述视频数据单元，而不改变所述对应视频数据单元的顺序。

12.根据权利要求11所述的方法，其中，所述视频数据单元包括视频编解码层网络抽象层VCL NAL单元，其中，所述对应视频数据单元包括补充VCL NAL单元，并且其中，所述VCLNAL单元中的所述子图片ID与对应VCL NAL单元中的所述子图片ID相同。

13.根据权利要求1所述的方法，其中，所述预选择元素包括Picinpic元素。

14.根据权利要求13所述的方法，其中，所述指示符包括@regionIds属性，并且其中，所述Picinpic元素包含所述@regionIds属性。

15.根据权利要求1所述的方法，其中，所述预选择元素设置在媒体呈现描述MPD文件中。

16.根据权利要求1所述的方法，其中，所述预选择元素为超文本传输协议上的动态自适应流DASH预选择元素。

17.根据权利要求1-16中任一项所述的方法，其中，所述转换包括将所述媒体数据编码成比特流。

18.根据权利要求1-16中任一项所述的方法，其中，所述转换包括从比特流解码所述媒体数据。

19.一种媒体数据处理装置，包括处理器和其上具有指令的非暂时性存储器，其中，所述指令在由所述处理器执行时使所述处理器：

对于媒体数据与媒体数据文件之间的转换，确定预选择元素包括指示符，其中，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及

20.一种非暂时性计算机可读记录介质，其中存储由视频处理装置执行的方法生成的视频的媒体呈现描述MPD，其中，所述方法包括：

确定预选择元素包括指示符，其中，所述指示符指示主视频的哪些视频数据单元表示目标画中画区域；以及

基于所述指示符生成所述MPD。