CN112511866B

CN112511866B - 媒体资源播放方法、装置、设备和存储介质

Info

Publication number: CN112511866B
Application number: CN201911223329.3A
Authority: CN
Inventors: 白雅贤; 黄成�
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-02-23
Anticipated expiration: 2039-12-03
Also published as: CN112511866A; EP4072149A4; KR20220071240A; KR102621434B1; EP4072149A1; JP7395725B2; JP2022552853A; WO2021109822A1; US20220368991A1; US11838594B2

Abstract

本申请提出一种媒体资源播放方法、装置、设备和存储介质，所述方法包括：基于第一数据盒类型或第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源；播放与所述感兴趣区域相关联的一个或多个媒体资源。

Description

媒体资源播放方法、装置、设备和存储介质

技术领域

本申请涉及沉浸媒体技术领域，具体涉及一种媒体资源播放方法、装置、设备和存储介质。

背景技术

全景视频也称360°全景视频或沉浸式视频，覆盖水平360°和垂直180°，一般由指向不同方向的多个照相机拍摄并拼接而成，通过三维动态全景视频和用户实体行为的融合，能够大大提升用户观感，达到虚拟世界的体验效果。这一技术又被称为虚拟现实(Virtual Reality，VR)。

用户体验VR场景时，由于自主控制视窗，用户在观影过程中无法兼顾360°场景，对于某些特定方向的精彩看点难免会有遗漏，客户端在提供感兴趣区域(Region ofinterest，ROI)相关提示时则需要相关ROI描述信息，目前缺乏统一的表述方法。

发明内容

本申请提供一种媒体资源播放方法、装置、设备和存储介质。

第一方面，本申请实施例提供一种媒体资源播放方法，所述方法包括：

基于第一数据盒类型或第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源；

播放与所述感兴趣区域相关联的一个或多个媒体资源。

第二方面，本申请实施例提供一种定时文本渲染方法，所述方法包括：

确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，以及渲染所述定时文本的一个或者多个文本区域的深度信息；

相对于所述全方向视频的感兴趣区域渲染所述定时文本的一个或者多个文本区域。

第三方面，本申请实施例提供一种媒体资源播放装置，所述装置包括：

区域及资源确定模块，被设置为基于第一数据盒类型或第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源；

媒体资源播放模块，被设置为播放与所述感兴趣区域相关联的一个或多个媒体资源。

第四方面，本申请实施例提供一种定时文本渲染装置，所述装置包括：

区域及深度信息确定模块，被设置为确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，以及渲染所述定时文本的一个或者多个文本区域的深度信息；

定时文本渲染模块，被设置为相对于所述全方向视频的感兴趣文本渲染所述定时文本的一个或者多个文本区域。

第五方面，一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请实施例中的任意一种方法。

第六方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中的任意一种方法。

关于本申请的以上实施例和其他方面以及其实现方式，在附图说明、具体实施方式和权利要求中提供更多说明。

附图说明

图1是本申请实施例提供的一种媒体资源播放方法的流程图；

图2是本申请实施例中全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源的示意图；

图3为本申请实施例中的感兴趣区域与用户视窗结合方法的流程图；

图4是本申请实施例提供的一种定时文本渲染方法的流程图；

图5是本申请实施例的全景视频轨道中数据盒分布示意图；

图6为本申请实施例的全景视频轨道中另一种数据盒分布示意图；

图7为本申请实施例的一种字幕数据调整流程示意图；

图8是本申请实施例提供的一种媒体资源播放装置的结构示意图；

图9是本申请实施例提供的一种定时文本渲染装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

VR技术最独特之处就在于360°场景环绕，但由于人的视野有限，无法在某一时刻、某一观看角度下欣赏整体画面，而是将注意力放在特定的区域中。ROI是VR视频内容中的区域之一，ROI可以通过预先定义得到，如导演推荐视角，或是通过大量用户行为分析，获取最佳观影方向、精彩区域、精彩片段等。ROI与媒体内容本身强相关，属于视频自有的属性。用户当前时刻的视窗(Viewport)是由用户的观看方向与终端设备定义的参数共同决定的一块视野区域，同样属于VR视频内容的一部分，但视窗区域位置随用户的动作变化。ROI与Viewport两种区域的属性是相互独立的。但用户体验VR场景时，由于自主控制视窗，用户在观影过程中无法兼顾360°场景，对于某些特定方向的精彩看点难免会有遗漏，客户端在提供ROI相关提示时则需要相关ROI描述信息，目前缺乏统一的表述方法，在ISO/IEC JTC1/SC29/WG11运动图像专家组(MPEG)制定的MPEG-I Part 2OMAF(全方向媒体格式)中也尚无ROI相关信令，针对这一问题，目前并未有有效的解决方案。

首先需要说明的是，本申请实施例实现方式是基于国际标准化组织(International Organization for Standardization，ISO)基本媒体文件格式将全景视频中的感兴趣区域空间位置信息存储在媒体文件中。基本媒体文件格式可参照ISO/IECJTC1/SC29/WG11运动图像专家组(Moving Picture Experts Group，简称MPEG)制定的MPEG-4Part 12ISO Base Media File Format来操作。全方向视频的投影、封装步骤及其基本格式可参照ISO/IEC JTC1/SC29/WG11运动图像专家组(MPEG)制定的MPEG-I Part 2OMAF(全方向媒体格式)来操作。

图1是本申请实施例提供的一种媒体资源播放方法的流程图，本实施例提供的媒体资源播放方法主要适用于在VR场景的感兴趣区域中播放一个或多个媒体资源的情况，所述媒体资源播放方法由媒体资源播放装置执行，所述媒体资源播放装置可以由硬件和/或软件的方法实现。

如图1所示，本申请实施例提供的媒体资源播放方法主要包括步骤S11和S12。

S11、基于第一数据盒类型或第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源。

S12、播放与所述感兴趣区域相关联的一个或多个媒体资源。

在一个示例性的实施方式中，针对适用于所有视频样本的感兴趣区域，基于第一数据盒类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源，包括：基于所述第一数据盒类型识别视频样本入口或全方向视频受限样本入口中的感兴趣区域描述数据盒；基于所述感兴趣区域描述数据盒中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源。

在一个示例性的实施方式中，针对适用于视频样本群组的感兴趣区域，基于第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源，包括：基于所述第一群组类型识别全方向视频轨道中的感兴趣区域样本群组入口；基于所述感兴趣区域样本群组入口中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源。

在一个示例性的实施方式中，所述播放与所述感兴趣区域相关联的一个或者多个媒体资源，包括：在用户当前视窗播放与所述感兴趣区域相关联的一个或者多个媒体资源；或，在所述感兴趣区域播放与所述感兴趣区域相关联的一个或者多个媒体资源。

在一个示例性的实施方式中，所述感兴趣区域通过以下一个或多个信息进行描述：感兴趣区域的数量；感兴趣区域的标识符；感兴趣区域空间区域；感兴趣区域的类型；感兴趣区域的文本描述。

在一个示例性的实施方式中，所述感兴趣区域的类型包括以下的一种或多种信息：

创作者推荐类型；画面增强类型；实时热点类型；方位指引类型；多屏互动类型。

在一个示例性的实施方式中，所述感兴趣区域空间区域包括以下的一种或多种信息：

球面区域的中心点；

球面区域的方位角范围和俯仰角范围；

其中，所述球面区域的中心点包括：中心点的方位角、中心点的俯仰角和中心点的倾斜角。

在一个示例性的实施方式中，所述媒体资源包括以下一个或多个：音频，视频，图片，定时文本。

图2是本申请实施例中全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源的示意图。视频数据覆盖360°空间区域，包含感兴趣区域ROI，视频数据与感兴趣区域的位置信息都在视频轨道中描述。感兴趣区域与一种或多种媒体资源存在关联关系，如音频、定时文本等等，这里的关联关系分别在媒体资源自有的轨道中进行描述。全景视频的感兴趣区域中，具体来说，包括一种随时间变化的空间位置信息，所述空间位置与全景视频画面内容具有较强的关联，因此本实施例中将感兴趣区域信息作为视频数据信息的一部分，存储在视频媒体轨的元数据区。感兴趣区域随时间的变化场景中，常见的有以下几种情况：

第一种：全景视频播放全程ROI的空间位置保持不变；

第二种：ROI空间位置随视频播放、时间推移而变化，极限情况下，每个视频媒体样本都对应不同的ROI空间位置；

第三种：ROI空间位置随视频播放、时间推移而变化，但在某些时段内保持不变；

第四种：同一时刻存在不同类型的ROI。

在一个应用性实例中，本申请实施例提供全景视频中感兴趣区域与用户视窗的结合方法，主要应用于服务器和客户端之间的传输和客户端的解码、渲染，图3为本申请实施例中的感兴趣区域与用户视窗结合方法的流程图；如图3所示，全景视频中感兴趣区域与用户视窗结合方法主要包括如下步骤：

S31：客户端向服务器反馈用户行为数据。

S32：服务器统计分析，识别感兴趣区域的空间位置信息，对全景视频中的感兴趣区域进行标记，以MPEG-I Part 2OMAF及ISOBMFF为基础，在视频轨道中增加感兴趣区域描述信息，对于与ROI画面内容有特定关系的媒体对象，如字幕、音频、叠加视频等，增加ROI关联描述信息。

S33：客户端向服务器发起播放请求。

S34、服务器基于上述播放请求将媒体文件发送至客户端。

S35：客户端对全景视频媒体文件进行解码，获取当前视窗参数，根据当前视窗或视窗中对象与感兴趣区域的关联关系，对渲染画面或视窗中对象的空间位置作出调整。

S36：客户端渲染当前视窗画面，用户通过显示器在视窗内观看。

其中，感兴趣区域可以有多种来源，大体概括为两类，包括：

第一类，感兴趣区域由内容制作商预先给出，如出于艺术指导需要，提供导演推荐视角，或针对点播内容提供初始视窗等；

第二类，根据用户行为预判或客户端传输信令，判断全景视频中感兴趣区域位置并增加相关描述信息。

其中，S35中的空间位置做出调整可以依据以下任意一种或多种信息确定：对象类型，客户端行为。

进一步的，具体的应用场景可以存在以下多种形式：

第一种：当音频与感兴趣区域存在关联关系时，由于声音天然具有定位特性，客户端可以结合立体声、环绕声等技术通过音频的方位提示用户感兴趣区域的位置信息，从而引导用户及时捕捉精彩看点。

第二种：当定时文本与感兴趣区域存在关联关系时，客户端根据需要显示定时文本的区域进行调整。定时文本不仅可以作为旁白、对话的文本提示，还可以为视频画面中某些具体场景作出注解，特别是对于听力障碍用户，能够有效提高VR体验。

第三种：当用户期望在观赏全景视频整体画面的同时关注部分特殊区域，如体育赛事，在观赏赛场整体的同时关注某特定运动员。客户端可以通过视频叠加的方式，将感兴趣区域以“画中画”的形式显示在用户视窗中；

需要说明的是，本申请实施例中提供的关联关系和调整方式仅进行说明，而非限定。最终的呈现效果由客户端、媒体数据共同决定。

ISOBMFF媒体文件中所有数据都装在数据盒(box)中，并可以在数据盒头部描述其类型和大小；如果一个box支持嵌套，即一个box中包含另一个子box，则将该box称为支持嵌套的数据盒(container box)。

“trak”表示一个数据轨，其子box包含了该track的媒体数据引用和描述。trak可以包含媒体数据盒(media box，mdia)，trak和mdia的关系可以记为trak->mdia；这里，mdia可以包含媒体数据信息，定义媒体类型以及样本(sample)数据，并描述样本信息。需要说明的是，所述媒体数据可以包含视频、音频、字幕等多种类型。mdia作为一个container box，可以包含一个媒体头部数据盒(media header box，mdhd)、一个处理参考数据盒(handlerreference box，hdlr)和一个媒体信息数据盒(media information box，minf)。trak、mdia和minf的关系可以记为trak->mdia->minf。

本申请实施例中利用minf中的样本表数据盒(sample table box，stbl)存储感兴趣区域信息，能够满足多种场景下感兴趣区域描述的需要。

本申请实施例提供的媒体资源播放方法主要用于全景视频处理方法中，能够利用ISOBMFF对沉浸媒体视频内容中的感兴趣区域进行描述，进而提供视窗与感兴趣区域之间的关联，以使用户在自主控制观看方向的同时，能够了解到ROI在全景视频中的相关分布信息。

本申请实施例中全景媒体文件中添加感兴趣区域标记之后，用户视窗中的视频画面或其他类型的对象(如字幕、视频叠加、音频等)就能够进一步增加视窗或对象，与感兴趣区域的关联信息描述，从而在当前视窗中对视频画面或媒体对象作出相应的调整，使用户获取到ROI区域的相关信息。通过上述关联关系，不仅能满足用户自主控制视窗的需要，还能够在不影响用户权限的前提下提供ROI指示，辅助用户观影过程，有效提高用户VR体验。

图4是本申请实施例提供的一种定时文本渲染方法的流程图，本实施例提供的定时文本渲染方法主要适用于在VR场景中对感兴趣区域中的文本进行渲染的情况，所述定时文本渲染方法由定时文本渲染装置执行，所述定时文本渲染装置可以由硬件和/或软件的方法实现。

如图4所示，本申请实施例提供的定时文本渲染方法主要包括步骤S41和S42。

S41、确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，以及渲染所述定时文本的一个或者多个文本区域的深度信息。

S42、相对于所述全方向视频的感兴趣文本渲染所述定时文本的一个或者多个文本区域。

在一个示例性的实施方式中，确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，包括：针对适用于所有定时文本样本的感兴趣区域，基于所述第二数据盒类型识别定时文本轨道样本入口中定时文本配置数据盒；基于所述定时文本配置数据盒中的元素确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域。

在一个示例性的实施例中，确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，包括：针对适用于定时文本样本群组的感兴趣区域，基于所述第二群组类型识别定时文本轨道中的定时文本配置样本群组入口；基于所述定时文本配置样本群组入口中的元素确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域。

在一个示例性的实施例中，相对于所述全方向视频的感兴趣文本渲染所述定时文本的一个或者多个文本区域，包括：

构建相对于单位球的三维平面，其中，根据所述全方向视频的感兴趣区域确定所述三维平面所对应的球面区域位置，根据深度信息确定所述三维平面与所述单位球球心的距离；在所述三维平面渲染所述定时文本的一个或者多个文本区域。

在一个示例性的实施例中，所述深度信息是所述全方向视频的感兴趣文本渲染所述定时文本的一个或者多个文本区域的深度值。

在一个示例性的实施例中，所述全方向视频的感兴趣区域通过以下一个或多个信息进行描述：感兴趣区域的数量；感兴趣区域的标识符；感兴趣区域空间区域；感兴趣区域的类型；感兴趣区域的文本描述。

在一个示例性的实施例中，感兴趣区域空间区域包括以下的一种或多种信息：

球面区域的中心点；

球面区域的方位角范围和俯仰角范围；

在一个应用性实例中，本申请实施例提供一种当全景视频中的感兴趣区域位置自始至终保持不变时，ROI空间位置信息在媒体文件中的描述方法。图5本申请实施例的全景视频轨道中数据盒分布示意图。

在本实施例场景中，ROI空间位置可以认为是媒体视频数据的一种固有属性，针对这种场景，ROI的位置信息利用stbl box中的Sample Entry来描述。如图5所示，stbl是一个container box，其子box包括样本描述数据盒(sample description box，stsd)，用来描述媒体数据解码所需的初始化参数等相关解码器信息，trak、mdia、minf、stbl和stsd的关系可以记为trak->mdia->minf->stbl->stsd。stsd可包含多个样本条目(Sample Entry)，一个媒体数据轨可以有多份描述信息，视频数据的样本条目类型固定为视觉样本条目(Visual Sample Entry)。而对于全景媒体数据，视频数据的空间位置信息、投影方式、拼接方式等描述信息无法使用普通解码器进行解析，因此，上述描述信息在方案信息数据盒(scheme information box)中进行描述。

在本实施例中，对于普通视频数据，感兴趣区域信息在Visual Sample Entry中描述，对于全景视频，在scheme information box中描述；增加感兴趣区域描述数据盒RegionOf Interest Description Box(roid)，所述roid目的是描述该视频数据轨中感兴趣区域的空间位置及其变化情况，定义如下：

Region Of Interest Description Box

Box Type:'roid'

Container:Visual Sample Entry or Scheme Information Box

Mandatory:No

Quantity:Zero or one

语法如下：

具体语法定义如下：

roi_count，表示感兴趣区域的数量；

ROIRegionStruct()，表示感兴趣区域相关信息，包括空间位置、感兴趣区域标识符、关联信息等。

track_count，表示与感兴趣区域关联的媒体轨道数量；

track_id，表示与感兴趣区域关联的媒体轨道标识符，通过轨道标识符能够确定与感兴趣区域关联的一个或多个媒体资源。

其中ROIRegionStruct()语法定义如下：

roi_shape_type，表示感兴趣区域空间区域形状类型；

roi_id，表示感兴趣区域的标识符，在当前轨道中唯一；

roi_type，表示感兴趣区域的类型。

感兴趣区域的来源、类型如表1所示；

表1

取值	描述
		0	创作者推荐，根据创作者意图为用户推荐观看方向
1	画面增强，如精彩区域特写、提供高清画面等
		2	实时热点，提供当前视频中最受关注的区域信息
3	方位指引
		4	多屏互动，同时提供多个方向视频画面
5-255	自定义

roi_description，以空字符结尾的UTF-8字符串，提供感兴趣区域的文本描述；

SphereRegionStruct()，表示感兴趣区域空间区域，相对于全局坐标轴，感兴趣区域的形状类型值(shape_type)由roi_shape_type指示，SphereRegionStruct(1)中的插值(interpolate)应等于0；

本实施例描述当全景视频中的感兴趣区域位置随视频播放、时间推移而变化，但在某些时段内保持不变时，ROI空间位置信息在媒体文件中的描述方法，图6为本申请实施例的全景视频轨道中另一种数据盒分布示意图。

对于本实施例场景，感兴趣区域的位置信息可以理解为视频轨道中部分样本的共同属性，因此利用ISOBMFF中样本群组(Sample Group)结构对感兴趣区域的空间信息进行描述。如图6所示，样本群组是媒体轨道中表示部分样本属性的一种机制，样本群组由两个结构组成，样本群组数据盒(Sample To Group box,sbgp)和群组描述数据盒(SampleGroup Description box,sgpd)。当感兴趣区域在某些时段内保持不变，也就是说视频轨道中的部分样本对应的感兴趣区域是相同的，此时的ROI空间位置就可以利用样本群组来描述。

其中grouping_type用于标识样本群组的类型，即用于形成样本群组的条件，并将其链接到其群组描述中具有相同类型值的群组。对于一个媒体轨道来说，同一个grouping_type最多出现一次。在本实施例中，感兴趣区域的空间信息群组类型定义为“rigp”，将视频轨道中的样本根据感兴趣区域的不同划分为多个群组，与sgpd box对应。

每个sgpd box都对应一个sbgp box，感兴趣区域空间位置信息在sgpd box中进行具体的描述，其grouping_type定义同上，为“roig”。sgpd box中的样本群组条目针对感兴趣区域增加相应扩展，即感兴趣区域群组条目(ROI Sample Group Entry)。

语法定义如下：

具体语法定义如下：

roi_count，表示感兴趣区域的数量；

track_count，表示与感兴趣区域关联的媒体轨道数量；

track_id，表示与感兴趣区域关联的媒体轨道标识符，通过轨道标识符能够确定与感兴趣区域关联的一个或多个媒体资源。ROIRegionStruct()语法定义如前所述，本实施例中不再赘述。

在一个应用性实例中，本实施例描述在全景媒体文件中媒体数据与空间区域具有关联关系、且所有样本仅对应一个空间区域时，此关联关系的描述方法，此处的空间区域由视频轨道中的感兴趣区域定义。

能够与感兴趣区域关联的媒体类型有多种，如音频、文本、部分视频区域等，其呈现效果也与客户端的具体操作有关，本实施例以定时文本为例，对其中一种关联方式进行描述。定时文本是指是VR字幕，在本实施例中，定时文本渲染位置不仅与定时文本轨道中定义的二维区域信息有关，也与视频中的感兴趣区域有关，针对此场景，VR字幕的播放、渲染过程如下：

1)以视频源摄像机位置为中心点，构建球形空间区域，用以设置虚拟现实场景几何体；

2)对于t时刻，全景播放器读取定时文本深度信息或双目视差、感兴趣区域关联关系、二维区域信息；

3)全景播放器根据感兴趣区域关联关系在相应的视频轨道中读取感兴趣区域空间位置信息；

4)若字幕的呈现方式为始终出现在显示屏上，那么根据步骤1-3中的参数及双目视差值，分别计算定时文本在左右眼显示屏中的呈现位置，并在左右眼显示屏上分别渲染定时文本；

5)若字幕的呈现方式为固定在感兴趣区域呈现，那么根据步骤1-3中的参数及深度值构建三维平面，并在三维平面上渲染定时文本。

在本实施例中，全景媒体中的定时文本空间参数、感兴趣区域关联关系由全方向定时文本配置数据盒描述(Omaf Timed Text Config box，otcf)，本实施例提供了两种可选实施方式，分别对应两种语法结构。

第一种可选实施例方式中，定时文本配置数据盒定义及语法如下：

/>

其中relative_to_roi_flag表示定时文本的渲染方式，1表示定时文本始终出现在显示屏上，0表示定时文本在空间上的感兴趣区域呈现，仅当用户在感兴趣区域方向上观看时才可见。

表3

取值	描述
		0	定时文本始终出现在显示屏上
1	定时文本在感兴趣区域呈现

relative_disparity_flag表示视差单位，0为像素，1为百分比；

roi_included_flag表示感兴趣区域是否在otcf box中提供，0表示不提供，1表示提供；

disparity_in_percent/pixels表示视差大小，可为负值；

roi_id，表示与定时文本关联的感兴趣区域，与视频轨道中的感兴趣区域对应。

track_id，可选项，表示与定时文本关联的视频轨道标识符，当定时文本轨道与视频轨道通过轨道引用数据盒(Track Reference Box，tref)相关联时，可以不提供此标识符。

第二种实施例方式中，定时文本配置数据盒定义及语法如下：

/>

relative_to_viewport_flag表示定时文本的渲染方式。值1表示定时文本应始终显示在显示屏上；值0表示定时文本渲染在球体上的某个固定的空间位置，即，仅当用户在渲染文本提示的方向上查看时，该文本提示才可见；值2表示定时文本渲染在球体感兴趣区域中，当用户在感兴趣区域方向上观看时，文本提示可见。

在一个应用性的实例中，本实施例描述在全景媒体文件中媒体数据与空间区域具有关联关系、且不同样本对应不同空间区域时，此关联关系的描述方法。

本实施例仍以定时文本为例，利用样本群组结构进行描述。本实施例中提供两种可选实施方式，即：定时文本样本对应的空间区域可以由视频轨道中的感兴趣区域定义，也可以指定某空间区域，分别对应两种语法结构。

在本实施例中，VR字幕的播放、渲染过程与上述实施例基本一致，但关联关系根据定时文本样本群组获取。

第一种实施例方式中，本实施方式中，感兴趣区域的空间信息群组类型定义为“rcgp”，将定时文本轨道中的样本根据其关联的感兴趣区域不同划分为多个群组。而每个sgpd box都对应一个sbgp box，同一个群组中样本关联的感兴趣区域类型在sgpd box中进行具体的描述，其grouping_type定义同上，为“rcgp”。sgpd box中的样本群组条目针对感兴趣区域关联关系增加相应扩展，即感兴趣区域关联关系群组条目(ROICorrelationSampleGroupEntry)。

语法定义如下：

class ROICorrelationSampleGroupEntry()

extends SampleGroupDescriptionEntry(‘rcgp’){

unsigned int(1)relative_disparity_flag；

unsigned int(1)depth_included_flag；

unsigned int(1)roi_included_flag；

if(relative_disparity_flag)

signed int(16)disparity_in_percent；

else

signed int(16)disparity_in_pixels；

if(depth_included_flag)

unsigned int(16)region_depth；

if(roi_included_flag){

unsigned int(8)roi_id；

unsigned int(8)track_id；

}

relative_disparity_flag表示视差单位，0为像素，1为百分比；

disparity_in_percent/pixels表示视差大小，可为负值；

第二种实施方式中，本实施例中感兴趣区域的空间信息群组类型定义为“otgp”，将定时文本轨道中的样本根据其关联的空间区域不同划分为多个群组。而每个sgpd box都对应一个sbgp box，同一个群组中样本关联的感兴趣区域类型在sgpd box中进行具体的描述，其grouping_type定义同上，为“otgp”。sgpd box中的样本群组条目针对感兴趣区域关联关系增加相应扩展，即感兴趣区域关联关系群组条目(OmafTimedTextConfigEntry)。

语法定义如下：

class OmafTimedTextConfigEntry()extends SampleGroupDescriptionEntry(‘otgp’){

unsigned int(1)relative_disparity_flag；

unsigned int(1)depth_included_flag；

if(relative_disparity_flag)

signed int(16)disparity_in_percent；

else

signed int(16)disparity_in_pixels；

if(depth_included_flag)

unsigned int(16)region_depth；

SphereRegionStruct(0)；

}

relative_disparity_flag表示视差单位，0为像素，1为百分比；

disparity_in_percent/pixels表示视差大小，可为负值；

SphereRegionStruct()表示一个球体位置，该位置与其他信息一起用于确定定时文本在三维空间中的放置和显示位置。

本实施例以定时文本为例，图7为本申请实施例的一种字幕数据调整流程示意图；如图7所示，描述了在全景视频中存在一类感兴趣区域的情况下定时文本的渲染过程。

步骤1：播放器获取某一时刻(t)定时文本数据，包括文本、图片等媒体数据，以及颜色、透明度、大小、空间位置等信息；

步骤2：读取otcf box中定时文本配置信息，本实施例中，relative_to_viewport_flag为2，roi_included_flag为1，定时文本随感兴趣区域变化，且仅有一类感兴趣区域，读取感兴趣区域类型roi_id；

步骤3：根据otcf box中的roi_id，获取视频轨道中相同roi_id表示的空间位置信息(Posroi)；

步骤4：获取当前视窗中心点(PosViewport)与感兴趣区域中心点(Posroi)在空间上的最短路径；

步骤5：计算定时文本显示区域坐标，需满足定时文本显示区域中心点位于步骤4最短路径上，且显示区域不超出当前视窗范围；

步骤6：根据左右视窗视差，对左右视窗中定时文本区域坐标进行相应调整；

步骤7：分别在左右视窗中渲染定时文本。

本实施例仅为全景媒体文件中媒体数据与感兴趣区域关联的应用之一，任何需要将媒体对象与全景视频画面中的区域相关联的场景都可以应用本申请方案。

图8是本申请实施例提供的一种媒体资源播放装置的结构示意图，本实施例提供的媒体资源播放装置主要适用于在VR场景的感兴趣区域中播放一个或多个媒体资源的情况，所述媒体资源播放装置可以由硬件和/或软件的方法实现。

如图1所示，本申请实施例提供的媒体资源播放装置主要包括区域及资源确定模块81和媒体资源播放模块82。

区域及资源确定模块81，被设置为基于第一数据盒类型或第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源；

媒体资源播放模块82，被设置为播放与所述感兴趣区域相关联的一个或多个媒体资源。

在一个示例性的实施方式中，区域及资源确定模块81，被设置为针对适用于所有视频样本的感兴趣区域，基于第一数据盒类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源。

其中，区域及资源确定模块81，具体被设置为基于所述第一数据盒类型识别视频轨道样本入口中的感兴趣区域描述数据盒，其中，所述视频轨道样本包括如下一个或多个：视频轨道视觉样本，全方向视频轨道受限样本；基于所述感兴趣区域描述数据盒中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或者多个媒体资源。

在一个示例性的实施方式中，区域及资源确定模块81，被设置为针对适用于视频样本群组的感兴趣区域，基于第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源。

其中，区域及资源确定模块81，具体被设置为基于所述第一群组类型识别全方向视频轨道中的感兴趣区域样本群组入口；基于所述感兴趣区域样本群组入口中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或者多个媒体资源。

在一个示例性的实施方式中，媒体资源播放模块82，被设置为在用户当前视窗播放与所述感兴趣区域相关联的一个或者多个媒体资源；或，在所述感兴趣区域播放与所述感兴趣区域相关联的一个或者多个媒体资源。

球面区域的中心点；

球面区域的方位角范围和俯仰角范围；

图9是本申请实施例提供的一种定时文本渲染装置的结构示意图，本实施例提供的定时文本渲染装置主要适用于在VR场景中对感兴趣区域中的文本进行渲染的情况，所述定时文本渲染装置可以由硬件和/或软件的方法实现。

如图2所示，本申请实施例提供的定时文本渲染装置主要包括区域及深度信息确定模块91和定时文本渲染模块92

区域及深度信息确定模块91，被设置为确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域，以及渲染所述定时文本的一个或者多个文本区域的深度信息；

定时文本渲染模块92，被设置为相对于所述全方向视频的感兴趣区域渲染所述定时文本的一个或者多个文本区域。

在一个示例性的实施方式中，区域及深度信息确定模块91，被设置为针对适用于所有定时文本样本的感兴趣区域，基于第二数据盒类型识别定时文本轨道样本入口中定时文本配置数据盒；基于所述定时文本配置数据盒中的元素确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域。

在一个示例性的实施例中，区域及资源确定模块91，被设置为针对适用于定时文本样本群组的感兴趣区域，基于所述第二群组类型识别定时文本轨道中的定时文本配置样本群组入口；基于所述定时文本配置样本群组入口中的元素确定与定时文本的一个或者多个文本区域相关联的全方向视频的感兴趣区域。

在一个示例性的实施例中，定时文本渲染模块92，被设置为构建相对于单位球的三维平面，其中，根据所述全方向视频的感兴趣区域确定所述三维平面所对应的球面区域位置，根据深度信息确定所述三维平面与所述单位球球心的距离；在所述三维平面渲染所述定时文本的一个或者多个文本区域。

在一个示例性的实施例中，所述全方向视频的感兴趣区域通过以下一个或多个信息进行描述：感兴趣区域的数量；感兴趣区域的标识符；感兴趣区域空间区域坐标；感兴趣区域的类型；感兴趣区域的文本描述。

在一个示例性的实施例中，所述感兴趣区域空间区域包括以下的一种或多种信息：

球面区域的中心点；

球面区域的方位角范围和俯仰角范围；

在上实施例的基础上，本申请实施例还提供一种电子设备，图10为本申请实施例提供的一种电子设备的结构示意图，如图10所示，该电子设备包括处理器100、存储器101、输入装置102和输出装置103；电子设备中处理器100的数量可以是一个或多个，图10中以一个处理器100为例；电子设备中的处理器100、存储器101、输入装置102和输出装置103可以通过总线或其他方式连接，图10中以通过总线连接为例。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的媒体资源播放方法对应的程序指令/模块(例如，媒体资源播放装置中的区域及资源确定模块81、媒体资源播放模块82)。如本申请实施例中的定时文本渲染方法对应的程序指令/模块(例如，定时文本渲染装置中的区域及深度信息确定模块91、定时文本渲染模块92)。

处理器100通过运行存储在存储器101中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本申请实施例中提供的任一方法。

存储器101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器101可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置102可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置103可包括显示屏等显示设备。

在上述实施例的基础上，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请实施例中提供的任一方法。

如，执行本申请实施例中提供提供的媒体资源播放方法的情况下，该方法包括：

播放与所述感兴趣区域相关联的一个或多个媒体资源。

如，执行本申请实施例中提供提供的定时文本渲染方法的情况下，该方法包括：

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的任一方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述媒体资源播放装置和定时文本渲染装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。

本领域内的技术人员应明白，术语用户终端涵盖任何适合类型的无线用户设备，例如移动电话、便携数据处理装置、便携网络浏览器或车载移动台。

一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本申请的范围。因此，本申请的恰当范围将根据权利要求确定。

Claims

1.一种媒体资源播放方法，其特征在于，所述方法包括：

播放与所述感兴趣区域相关联的一个或多个媒体资源；

其中，基于第一数据盒类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源，包括：

基于所述第一数据盒类型识别视频样本入口或全方向视频受限样本入口中的感兴趣区域描述数据盒；

基于所述感兴趣区域描述数据盒中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源；

其中，基于第一群组类型确定全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个多媒体资源，包括：

基于所述第一群组类型识别全方向视频轨道中的感兴趣区域样本群组入口；

基于所述感兴趣区域样本群组入口中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或多个媒体资源。

2.根据权利要求1所述的方法，其特征在于，所述播放与所述感兴趣区域相关联的一个或多个媒体资源，包括：

在用户当前视窗播放与所述感兴趣区域相关联的一个或多个媒体资源；或，在所述感兴趣区域播放与所述感兴趣区域相关联的一个或多个媒体资源。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述感兴趣区域通过以下一个或多个信息进行描述：

感兴趣区域的数量；感兴趣区域的标识符；感兴趣区域空间区域；感兴趣区域的类型；感兴趣区域的文本描述。

4.根据权利要求3中所述的方法，其特征在于，所述感兴趣区域的类型包括以下的一种或多种信息：

5.根据权利要求3中所述的方法，其特征在于，所述感兴趣区域空间区域包括以下的一种或多种信息：

球面区域的中心点；

球面区域的方位角范围和俯仰角范围；

6.根据权利要求1-2中任一项所述的方法，其特征在于，所述媒体资源包括以下一个或多个：

音频，视频，图片，定时文本。

7.一种媒体资源播放装置，其特征在于，所述装置包括：

媒体资源播放模块，被设置为播放与所述感兴趣区域相关联的一个或多个媒体资源；

区域及资源确定模块，具体被设置为基于所述第一数据盒类型识别视频轨道样本入口中的感兴趣区域描述数据盒，其中，所述视频轨道样本包括如下一个或多个：视频轨道视觉样本，全方向视频轨道受限样本；基于所述感兴趣区域描述数据盒中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或者多个媒体资源；

区域及资源确定模块，还具体被设置为基于所述第一群组类型识别全方向视频轨道中的感兴趣区域样本群组入口；基于所述感兴趣区域样本群组入口中的元素确定所述全方向视频的感兴趣区域以及与所述感兴趣区域相关联的一个或者多个媒体资源。

8.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。