CN110892727A

CN110892727A - 用于在网络系统中传送数据的方法和装置

Info

Publication number: CN110892727A
Application number: CN201880046690.0A
Authority: CN
Inventors: 金东妍
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-07-13
Filing date: 2018-07-13
Publication date: 2020-03-17
Anticipated expiration: 2038-07-13
Also published as: KR20190007804A; CN110892727B; WO2019013592A1; US10771759B2; KR102233667B1; US20190020862A1

Abstract

提供了一种用于传送媒体数据的方法。该方法包括：向显示设备传送关于内容的范围的引导信息，以用于基于该范围来显示内容；以及向显示设备传送与范围相对应的内容的至少一个资产。引导信息包括指示用于描述范围的类型的引导类型信息。

Description

用于在网络系统中传送数据的方法和装置

技术领域

本公开涉及用于在多媒体系统中传送和接收包括各种类型的多媒体数据和多媒体服务的复合(composite)多媒体数据的方法和装置。更具体地，本公开涉及用于在包括广播网络、通信网络和其他网络的复合网络上传送沉浸式多媒体数据的装置和方法，例如，通过运动图像专家组(MPEG)媒体传输(MMT*)和全向媒体格式(OMAF*)来传送复合多媒体数据。

*MMT：ISO/IEC 23008-1标准

*OMAF：ISO/IEC 23090-2标准

背景技术

沉浸式多媒体指包括360度图像、全景图像和全向媒体的多媒体，360度图像、全景图像和全向媒体是在各个方向上捕获的图像。在镜头放置在固定位置中的情况下或在旋转镜头的同时，通过同时使用一个或多个相机镜头可以获得沉浸式多媒体。

图1是示出沉浸式多媒体捕获设备的示例的视图。

可以通过戴在用户头上的头戴显示器(HMD)提供沉浸式多媒体。

图2是示出HMD的示例的视图。

在将沉浸式多媒体从传送器流传输出到接收器并且显示沉浸式多媒体时，沉浸式多媒体的显示可能依赖于用户的当前观看方向而限于由用户可观看的范围。

当捕获设备的物理条件改变时，沉浸式多媒体可能急剧地(sharply)晃动或转动，并且可能经受剧烈的亮度变化。在这种情况下，佩戴沉浸式多媒体播放器(例如HMD)的用户可能感觉头晕或具有不良情绪感受。在车辆前部安装360度相机以用于视频记录的情况下，用户的头晕可能加重，例如，在驾驶经过隆起物、进行快速左转、突然地加速或减速或者通过隧道时。

依赖于用户的观看方向，可以仅显示沉浸式多媒体的一部分，并且用户可以在沉浸式多媒体的整体范围内自由移动。这种观看方向的自由度可能导致用户错过沉浸式多媒体内容中的场景，该场景可能在跟进沉浸式多媒体内容中是至关重要的。例如，在沉浸式多媒体恐怖电影的情况中，如果鬼魂从场景的左手部分出现，而用户此时正在观看右手部分，则用户可能错过鬼魂。这种情况将不是制作人最初打算的，即，无法适当地表达他的艺术意图。

以上信息仅作为背景信息呈现，以帮助理解本公开。关于以上内容中的任何是否可以适用为关于本公开的现有技术，没有做出确定也没有做出断言。

发明内容

解决方案

本公开的方面将至少解决上述问题和/或缺点并且将至少提供下述优点。因此，本公开的方面将提供下述方法和装置：用于在数据传输系统中提供沉浸式多媒体流传输服务时，依赖于沉浸式多媒体捕获设备的物理条件的改变来变化对于用户可观看的范围。

另外的方面将在随后的描述中部分地阐述，并且根据描述将部分地是明显的，或者可以通过实践所呈现的实施例而习得。

根据本公开的方面，提供了用于传送数据的方法。该方法包括：向显示设备传送关于内容的范围的引导信息，以用于基于该范围来显示内容；以及向显示设备传送与范围相对应的内容的至少一个资产。引导信息包括指示用于描述范围的类型的引导类型信息。

根据本公开的方面，提供了用于接收数据的方法。该方法包括：向显示设备接收关于内容的范围的引导信息，以用于基于该范围来显示内容；以及向显示设备接收与范围相对应的内容的至少一个资产。引导信息包括指示用于描述范围的类型的引导类型信息。

该方法包括：由接收器来接收关于内容的范围的引导信息以用于显示，并且接收内容的至少一个资产。引导信息包括引导类型信息，该引导类型信息指示用于描述范围的元素的类型，并且至少一个资产与范围相对应。

根据本公开的方面，提供了用于传送数据的方法。该方法包括：基于各个信息当中的每个信息的作用(role)，在表中存储用于传送和消耗(consuming)运动图像专家组(MPEG)媒体传输(MMT)封包(MP)所必需的各个信息；通过MMT信令消息从MMT传送端向接收端传送表；将构成MP的所有资产的列表存储在MP表中；以及通过封包(package)访问(PA)消息传送包含所有资产的列表的MP表。MP包括有关构成MP的所有资产的时间相关信息、数据位置以及消耗资产所必需的相关描述符。

当在数据传输系统中提供沉浸式多媒体流服务时，可以依赖于沉浸式多媒体捕获设备的物理条件的改变来变化对于用户可观看的范围。

根据结合附图公开了本公开的各种实施例的下面的详细描述，本公开的其他方面、优点和显着特征对于本领域技术人员将变得明显。

有利效果

根据本公开的方面，提供了一种用于传送或接收数据的方法。

附图说明

根据以下结合附图的描述，本公开的某些实施例的以上和其他方面、特征和优点将更加明显，其中：

图1是示出沉浸式多媒体捕获设备的示例的视图；

图2是示出头戴式显示器(HMD)的示例的视图；

图3是示意性地示出根据本公开的实施例的运动图像专家组(MPEG)媒体传输(MMT)封包的示例的视图；

图4是示意性地示出根据本公开的实施例的用于将媒体处理单元(MPU)映射到呈现时间线的方法的视图；

图5A和图5B是示出根据本公开的各种实施例的两种类型的MMT封装的示例的视图；

图6是示出根据本公开的实施例的用户设备的屏幕的尺寸和沉浸式多媒体的尺寸的示例的视图；

图7是示出根据本公开的实施例的用于沉浸式多媒体流传输的传送器和接收器的示例的视图；

图8是示出根据本公开的实施例的用于实时流传输沉浸式多媒体的传送器和接收器的示例的视图；

图9是示出根据本公开的实施例的依据物理条件信息的引导区域映射信息的示例的视图；

图10、图11、图12、图13和图14是示出根据本公开的各种实施例的视场(FOV)、视口和视点之间的关系的视图；

图15是示出根据本公开的实施例的用于实时流传输沉浸式多媒体的传送器和接收器的示例的视图；和

图16和图17是示出根据本公开的各种实施例的全向球形表面媒体上的区域的视图。

贯穿附图，应当注意，相同的附图标记用于描绘相同或相似的元件、特征和结构。

具体实施方式

根据35U.S.C.§119(a)，本申请基于2017年7月13日在韩国知识产权局提交的韩国专利申请号10-2017-0089265并且要求其优先权，其公开内容通过引用整体合并于此。

提供参考附图的以下描述以帮助全面理解如由权利要求及其等同物所限定的本公开的各种实施例。其包括各种具体细节以帮助理解，但是这些具体细节仅被认为是示例性的。因此，本领域普通技术人员将认识到，在不背离本公开的范围和精神的情况下，可以对本文描述的各种实施方式进行各种改变和修改。另外，为了清楚和简洁，可以省略对公知功能和构造的描述。

在以下描述和权利要求中使用的术语和词语不限于书面含义，而是仅被发明人用来实现对本公开的清楚和一致的理解。因此，对于本领域技术人员应当明显的是，提供对本公开的各种实施例的以下描述仅是出于示意的目的，而不是出于限制由所附权利要求及其等同物所限定的本公开的目的。

将理解，单数形式的“一”、“一个”和“该”包括复数指代，除非上下文另外明确地指示。因此，例如，对“组件表面”的引用包括对一个或多个这样的表面的引用。

尽管术语“第一”和“第二”被用来描述各种组件，但是组件不受术语限制。提供这些术语仅仅是为了将一个组件与另一个组件相区分。因此，在本公开的技术精神内，本文提及的第一组件也可以是第二组件。

根据本公开，可以包括以下组件。

(A)运动图像专家组(MPEG)媒体传输(MMT)数据模型。

在MMT系统中，逻辑媒体数据的集合被称为封包。MMT封包(MP)包括与媒体数据集合相对应的一个或多个资产、用于指定资产之间的空间关系的呈现信息以及包含传送资产所必需的传输相关信息或服务质量(QoS)的资产递送(delivery)特性。

图3是示意性地示出根据本公开的实施例的MP的示例的视图。

参考图3，资产指构成一个多媒体呈现的媒体数据集合，并且一个资产包括具有资产标识符(ID)的一个或多个媒体处理单元(MPU)。在一个资产中，每个MPU包括彼此不重叠的资产片(asset piece)。换句话说，两个不同的MPU不具有相同的媒体样本。

MPU对应于在MMT接收实体(在本文中也称为接收器)的呈现引擎中可以独立地消耗的媒体数据的单元。如本文所使用地，术语“实体”也可以称为设备。

在一个MMT实体中处理一个MPU包括以MPU单元来封装/解封装和分组化/解分组化媒体数据。

一个MPU可以以一个或多个MPU片段为单位来进行分段。MPU片段的示例是媒体片段单元(MFU)。

出于分组化目的，一个MPU可以以一个或多个数据单元为单位来进行分段。

可以采用资产ID和一个MPU序列号来指定一个MPU，该资产ID指示MPU属于哪里。例如，属于一个资产的两个不同的MPU可能具有相同的资产ID和不同的MPU序列号。

MPU中包含的媒体数据包括与时间相关的定时媒体数据和与时间无关的非定时媒体数据。在包含定时媒体数据的情况下，还应当提供呈现信息，以描述一个分组中不同资产之间在时间轴上的关系。对于所有MPU，呈现时间信息作为呈现信息的一部分被给出。

图4是示意性地示出根据本公开的实施例的用于将MPU映射到呈现时间线的方法的视图。

(B)基于IOS基本媒体文件格式的MPU。

ISO基本媒体文件格式(ISO BMFF)指ISO/IEC 14496-12标准。

参考图4，一个MPU需要与ISO BMFF文件兼容。MPU的MPU序列号和资产ID在“mmpu”盒(box)中提供，其可以是将MPU指定为文件中封装的MPU当中的唯一一个。对于定时媒体，可能存在一个“sidx”盒，其可以用作构成MPU的电影片段的索引。“moov”盒应保留所有编解码器设置信息以解码和呈现媒体数据。

定时媒体数据存储在ISO BMFF轨道中(允许一个媒体轨道)。非定时媒体存储为一个ISO BMFF的元数据的一部分。

图5A和5B是示出根据本公开的各种实施例的两种类型的MMT封装的示例的视图。

图5A涉及定时媒体，而图5B涉及非定时媒体。对于MPU分组传输，提供了将具有封装在其中的一个MMT提示轨(track)的MPU转换为MMTP有效载荷和MMTP分组所必需的信息。

(C)多媒体数据的配置。

参考图5A和图5B，在为用户提供一个多媒体内容时，多媒体内容可以由视频、音频和字幕数据构成。对于字幕数据，可以以不同的语言提供多个字幕数据。例如，一个多媒体内容的媒体成组成(component)可以包括一个视频数据项、一个音频数据项和两个字幕数据项，且字幕数据项可以包括英语字幕数据项和韩语字幕数据项。

每个媒体组成可以以如在ISO BMFF(ISO/IEC 14496-12)中定义的轨的形式存储，并且在MMT系统中该轨可以定义为资产。

因此，在以上示例中由视频、音频、英语字幕和韩语字幕构成的多媒体数据可以由MMT系统中的视频资产、音频资产、英语字幕资产和韩国字幕资产构成，并且每个资产可以划分为一个或多个MPU。

对于字幕资产，将在一个场景中呈现的字幕数据项集合表示为一个段落，可以将与一个段落相对应的数据项存储在一个MPU中。

(D)信令信息。

在MMT系统中，传送(TX)端和接收(RX)端可以交换对于MP传输和MP消耗所必需的信令信息。

可以以MMT信令消息的形式传送MMT信令信息，并且可以定义用于MMT信令消息的通用格式，如表1所示。MMT信令消息的通用格式的语法在以下表1中给出。

【表1】

在以下表2中给出表1的语义。

【表2】

[语义]

message_id–该字段指示信令消息的标识符

version–该字段指示信令消息的版本。MMT发送实体和MMT接收实体两者可以验证所接收的消息是否具有新版本。

length–该字段指示信令消息的长度。对于除了PA消息和MPI消息之外的所有信令消息的字段为2个字节长。PA消息和MPI消息的长度为4字节长，因为期望偶尔长度不可以通过2字节长度字段表示的MPI表。另外注意，PA消息包括至少一个MPI表。

extension–该字段为需要扩展的信令消息提供扩展信息。该字段的内容和长度针对信令消息指定。

message_payload–信令消息的有效载荷。该字段的格式可以通过message_id字段的值来标识。

(E)MP表

依赖于其作用，可以将用于传送和消耗MP所必需的各个信息存储在表中，并且可以通过MMT信令消息从MMT TX端向RX端传送必要的表。

构成一个MP的所有资产的列表可以存储在MP表中，并且通过PA消息传送。MP表包括关于构成MP的所有资产的时间相关信息、数据位置以及消耗资产所必需的相关描述符。完整的MP表具有与包括所有资产的列表的封包(Package)相关的信息。子集MP表具有来自完整MP表的信息的一部分。另外，MP表子集0(subset-0)具有封包消耗所需的最少信息。

可以如表3至表6所示地定义MP表。在表3和表4中定义MP表的语法。在表5和表6中公开MP表的语义。与资产特性相关的描述符的示例是MPU时间戳描述符。

【表3】

【表4】

【表5】

[语义]

table_id-指示MP表的标识符。完整的MP表和每个子集MP表应当使用不同的表标识符。MP表的子集编号通过此字段隐式地表示。因为table_id值连续地指派，所以MP表子集编号可以从此字段推导出，即，MP表子集编号等于该字段减去基本MP表的table_id。MP表子集编号提供此MP表的子集编号。编号“0”指示基本MP表，并且编号“1”～“14”指示MP表的子集。编号“15”具有特殊的含义，因为其指示完整的MP表。

version-指示MP表的版本。较新的版本一旦被接收就覆盖较旧的版本。如果table_id指示完整的MP表，如果子集0(Subset-0)MP表具有与此字段相同的版本值(当MP_table_mode为“1”时)，或者如果具有较低子集编号的所有MP表子集具有与此字段相同的版本(当MP_table_mode为“0”时)，或者如果对MP表子集的处理是独立的(当MP_table_mode为“2”时)。如果子集0(Subset-0)MP表具有较新的版本，则之前在MMT接收实体内存储的具有上至14的较高子集编号的所有MP表子集被处理为过期的，除了MP_table_mode是独立模式的情况之外。当MP表子集编号不为0并且MP_table_mode为“1”时，应当忽略具有与在MMT接收实体中存储的子集0(subset-0)MP表的版本不同的版本的MP表子集的内容。另外，当MP表子集编号不为0并且MP_table_mode为“0”时，应当忽略具有与在MMT接收实体中存储的较低子集MP表的版本不同的版本的MP表子集的内容。每版本改变，应当模除256递增。

length-包含从下一个字段的开始起到MP表的最后一个字节的计数的以字节为单位的MP表的长度。针对此字段，值“0”无效。

MP_table_mode-其指示当使用MP表子集机制时MP表子集处理的模式。在“sequential_order_processing_mode”中并且在此MP表的非零子集编号的情况下，在处理此MP表子集之前，MMT接收实体应当接收其版本与此MP表子集版本相同的、具有较低子集编号的所有MP表子集。例如，如果未接收到具有相同版本的子集2(subset-2)MP表，则MMT接收实体不可以处理子集3(subset-3)MP表。在“order_irrelevant_processing_mode”中并且在被设置为非零的此MP表子集的子集编号的情况下，只要在MMT接收实体中存储的子集0(subset-0)MP表与此MP表子集具有相同的版本，则MMT接收实体应当在接收到MP表子集之后立即处理MP表子集。在“independent_processing_mode”中，单独地管理每个MP表子集的版本。在其中每个MP表子集通过多个MTT发送实体之一来递送的分段的MP表适用于此模式。MP表的子集的独立模式可以用于多信道实例，即，从子集0(subset-0)MP表到子集N(subset-N)MP表的MP表子集被指派为从Ch-0到Ch-N的逻辑信道。当MPI消息携带MPI表子集和相关联的MP表子集两者时，MPI表中的Pl_mode和MP表中的MP_table_mode应当具有相同的值。

MP_table_mode的值

值	描述
		00	“sequential_order_processing_mode”
01	“order_irrelevant_processing_mode”
		10	“independent_processing_mode”
11	保留

【表6】

MMT_package_id–此字段是封包的唯一标识符。

MMT_package_id_length–MMT_package_id串的以字节为单位的长度，其不包括结束空字符。

MMT_package_id_byte–MMT_package_id中的字节。当MMT_package_id_byte是串时，结束空字符未被包括在该传中。

asset_id–提供资产标识符，如在B中定义地那样。

asset_type–提供资产的类型。以在MP4REG中注册的四个字符代码(“4CC”)类型对其进行描述(http://www.mp4ra.org)。

MP_table_descriptors–该字段提供针对MP表的描述符。

MP_table_descripotrs_length–包含描述符语法循环的长度。该长度是从下一个字段到描述符语法循环的结束来计数的。若干描述符可以被插入此语法循环。例如，additional_package_information_URL描述符可以被包括在此，其提供针对此封包的封包信息网页的URL。

MP_table_descriptors_byte–描述符循环中的一个字节。

number_of_asset–提供其信息由此MP表提供的资产的数量。

packet_id–提供MMTP分组报头中的MMTP会话的标识符。

asset_clock_relation_flag-指示资产是否使用NTP时钟或其他时钟系统作为时钟参考。如果此标志为“1”，则包括asset_clock_relation_id字段。如果此字段为“0”，则针对资产使用NTP时钟。

asset_clock_relation_id–提供针对资产的时钟关系标识符。此字段被用于引用针对资产由CRI_descriptor()递送的时钟关系。该字段的值是由CRI描述符提供的clock_relation_id值之一。

asset_timescale_flag–指示是否提供“asset_timescale”信息。如果该标志为“1”，则包括asset_timescale字段，并且如果该标志被设置为“0”，则asset_timescale为90,000(90kHz)。

location_count–提供针对资产的位置信息的数量。当通过一个位置递送资产时被设置为“1”。当实现批量递送时，其中在资产中包含的MPU通过多信道递送，设置为非“1”。当经由多个位置递送一个资产时，MMT接收实体应当从所有指示的位置接收资产的所有MPU。

asset_timescale–提供用于资产的所有时间戳的时间单位的信息，以一秒中单位的数量来表达。

MMT_general_location_info_for_asset_location–提供资产的位置信息。使用在9.6.1中定义的用于资产的一般位置参考信息。针对资产位置应当仅使用在“0x00”与“0x06”之间的location_type的值。

asset_descriptors_length–从下一字段的开始到资产描述符语法循环的结束而计数的字节的数量。

asset_descriptors_byte–资产描述符中的字节。

default_asset_flag–指示资产是否被标记为默认资产。在资产被标记为默认资产的情况下，针对相对应的定时资产，MPU时间戳应当存在。如果此标志为“0”，则资产被标记为默认资产。

asset_id语法元素组被用来提供资产标识符。如果存在“mmpu”盒，则该语法元素组的值应当与该盒的资产标识符相同。如果不存在，则资产标识的分配超出了本说明书(specification)的范围。表7中定义了asset_id的语法。在表8中公开了表7的语义。

【表7】

【表8】

asset_id_scheme–提供资产ID方案，如在6.3.3中定义地那样。

asset_id_length–提供asset_id的以字节为单位的长度。

asset_id_byte–asset_id中的字节。

Identifier_mapping()语法组元素提供内容标识符和MMTP分组子流(sub-flow)的映射。MMTP分组子流是共享相同的packet_id的MMTP分组流的分组的子集。内容标识符可以以不同的形式提供，例如资产标识符、URL或模式(pattern)。在以下表9中提供了Identifier_mapping()的语法。在表10公开了表9的语义。

【表9】

【表10】

[语义]

identmer_type-提供用于到packet_id的映射的标识符的类型。通过以下表提供可用的标识符类型的列表

用于标识符映射的标识符类型

值	描述
		0x00	内容的标识符被提供为资产id，如在部分9.6.2中定义地那样。
0x01	内容的标识符被提供为一起相关并且共享相同packet_id映射的URL的列表。示例是相同表示的DASH片段。
		0x02	内容的标识符被提供为RegEx串，其用于匹配标识具有相同packet_id映射的文件的一个或多个URL。
0x03	内容的标识符被提供为DASH表示@id，如在23009-1中定义地那样，以标识相同表示的表示的所有DASH片段。
		0x04～0xFF	针对私有标识符保留该值范围。

URL_count-该URL是URL的列表，并且该值指示在该列表中提供的URL的数量。

URL_Iength-随后的URL的以字节为单位的长度。

URL_byte-格式化为UTF-8字符串的URL的字节。

regex_Iength-标识符被提供为匹配URL集合的正则表达式，并且该字段指示RegEx串的长度。

regex_byte-被提供为UTF-8串的RegEx串的字节。

representation_id_Iength-标识符被提供为DASH表示@id，并且该值指示DASH表示@id串的长度。

representation_id_byte-表示@id串的字节。

private_Iength-标识符被提供为私有数据，并且该字段提供以字节为单位的私有标识符的长度。

private_bvte-私有标识符的字节。

(F)MPU时间戳描述符。

如上所述，对于每个资产，可以按每MPU传送呈现时间信息，并且可以将其包含在描述每资产特性的MP表中。在MMT系统中，每个MPU呈现的开始时间可以在MPU时间戳描述符中描述，并且可以添加到MP表中，从而允许资产的MPU在呈现时间轴上彼此同步。该描述符在应用任何偏移(诸如通过“elst”盒提供的偏移)之后，以呈现顺序提供MPU的第一AU的呈现时间。当呈现信息存在时，该描述符应当被忽略。MPU时间戳描述符的语法如表11所示地定义。在表12公开了表11的语义。

【表11】

【表12】

descriptor_tag–指示描述符的类型的标签值。

descriptor_length–指示从此字段之后的下一个字节到描述符的最后字节计数的以字节为单位的长度。

mpu_sequence_number–指示在由随后的mpu_presentation_time给出的时间处呈现的MPU的序列号。

mpu_presentation_time–通过64比特NTP时间戳格式来指示在指定的MPU中的第一AU的呈现时间。

表13是描述在本文使用的相关术语的含义的表。

【表13】

(G)全向媒体格式。

ISO/IEC 23090的与全向媒体格式相关的部分体现了用于编码、存储、递送和渲染全向图像和视频以及相关音频的全向媒体格式。

全向视频可以包括由计算机图形创建的图形元素。假设在RX侧，用户在观看外部时坐在球体的中心。

(H)全向媒体。

这意味着图像或视频包含依赖于用户的观看方向可渲染的音频。

(I)视场(FOV)。

这意味着经由一个物理显示器(例如，头戴式显示器(HMD))可观看内容的范围的尺寸。

(J)视口。

这意味着当前正在显示或由用户观看的球形视频的部分。

(K)全向媒体元数据。

全向媒体格式(OMAF)标准定义了用于为球形媒体指定一个区域和参考方位的方法，如表14、表15、表16、表17和表18所陈述地。

【表14】

用于球面上的区域的定时元数据

介绍

该条款指定用于指示球面上的区域的通用的定时元数据轨语法。通过样本条目类型指示针对定时元数据轨的目的。在此条款中指定的所有元数据轨的样本格式以公共部分开始，并且可以随后是对于元数据轨的样本条目特定的扩展部分。每个样本指定球面上的区域。

当球面区域定时元数据轨通过“cdsc”轨参考链接到一个或多个媒体轨时，其单独地描述每个媒体轨。当球面区域定时元数据轨通过“cdtg”轨参考链接到若干媒体轨时，媒体轨中的每个应当具有等于“resv”的样本条目类型，并且具有等于在样本条目中包括的SchemeTypeBox中的“podv”的scheme_type。

注意：该语法允许一个样本指定球面上的多个区域。然而，存在将样本限制为仅具有一个区域的语义约束。

【表15】

样本条目

定义

在样本条目中应当存在恰好一个RegionOnSphereConfigBox。RegionOnSphereConfigBox指定

由样本所指定的区域的形状。当样本中的区域的水平和垂直范围不改变时，其可以在样本

条目中被指示。

语法

语义

shape_type等于0指定由四个大圆指定的区域，如图16中所示地那样。

shape_type等于1指定由两个偏转圆和两个俯仰圆指定的区域，如图17中所示地那样。

shape_type值大于1被保留。

dynamic_range_flag等于0指定区域的水平和垂直范围在指向此样本条目的所有样本中保持不变。dynamic_range_flag等于1指定在样本格式中指示区域的水平和垂直范围。

static_hor_range和static_ver_range以2^-16度为单位分别地指定用于指向此样本条目的每个样本的区域的水平和垂直范围。static_hor_range和static_ver_range指定通过区域的中心点的范围，如图16或图17所示地那样。static_hor_range应当在0至720*2¹⁶(包含)的范围中。static_ver_range应当在0至180*2¹⁶(包含)的范围中。当static_hor_range和static_ver_range两者等于0时，用于指向此样本条目的每个样本的区域是球形表面上的点。

num_regions指定在指向此样本条目的样本中的区域的数量。num_regions应当等于1。num_regions的其他值被保留。

【表16】

样本格式

定义

每个样本指定球面上的区域。RegionOnSphereSample结构可以以导出的轨格式扩展。

语法

语义

当在RegionOnSphereSample()结构中包括RegionOnSphereStruct()时，下述适用：

center_yaw、center_pitch和center_roll以2^-16度为单位指定相对于全局坐标轴的视口定向。center_yaw和center_pitch指示视口的中心，而center_roll指示视口的翻滚角度。center_yaw应当在-180*2¹⁶至180*2¹⁶-1(包含)的范围中。center_pitch应当在-90*2¹⁶至90*2¹⁶(包含)的范围中。center_roll应当在-180*2¹⁶至180*2¹⁶-1(包含)的范围中。

hor_range和ver_range当存在时以2^-16度为单位分别地指定由此样本指定的区域的水平和垂直范围。hor_range和ver_range指定通过区域的中心点的范围，如图16或图17所示地那样。hor_range应当在0至720*2¹⁶(包含)的范围中。ver_range应当在0至180*2¹⁶(包含)的范围中。

由此样本指定的区域如下导出：

–如果hor_range和ver_range等于0，则由此样本指定的区域时球形表面上的点。

–否则，使用如下导出的变量cYaw1，cYaw2，cPitch1和cPitch2来定义球面上的区域：

cYawl＝(center_yaw-(range_included_flag？hor_range：static_hor_range)÷2)÷65536

cYaw2＝(center_yaw+(range_included_flag？hor_range：static_hor_range)÷2)÷65536

cPitchl＝(center_pitch-(range_included_flag？ver_range：static_ver_range)÷2)÷65536

cPitch2＝(center_pitch+(range_included_flag？ver_range：static_ver_range)÷2)÷65536

球面上的区域如下定义：

【表17】

–当shape_type等于0时，区域通过由四个点cYaw1，cYaw2，cPitch1和cPitch2定义的四个大圆和通过center_pitch和center_yaw定义的中心点来指定，并且如图16中所示那样。

–当shape_type等于1时，区域通过由四个点cYaw1，cYaw2，cPitch1和cPitch2定义的两个偏转圈和两个俯仰圈来指定，并且中心点通过center_pitch和center_yaw定义并且如图17中所示那样。

令目标媒体样本是参考媒体轨中的下述媒体样本：其复合次数大于或等于此样本的复合次数并且小于下一个样本的复合次数。

插值等于0指定此样本中的center_yaw、center_pitch、center_roll、hor_range(如果存在)和ver_range(如果存在)应用于目标媒体样本。插值等于1指定应用于目标媒体样本的center_yaw、center_pitch、center_roll、hor_range(如果存在)和ver_range(如果存在)是从此样本和前一个样本中的相对应的字段的值线性插值的。

针对同步样本、轨的第一样本和轨片段的第一样本的插值的值应当等于0。

【表18】

初始视点

定义

初始视点球面上区域元数据指示当播放相关联媒体轨时应当使用的初始视视口方位。在缺少此类型的元数据时，应当使用相对于全局坐标轴的(yaw，pitch，roll)中的方位(0，0，0)开始回放。

应当使用样本条目类型“invp”。

在样本条目的RegionOnSphereConfigBox中，shape_type应当等于0，dynamic_range_flag应当等于0，static_hor_range应当等于0以及static_ver_range应当等于0。

样本语法

样本语义

注意1：当样本结构从RegionOnSphereSample扩展时，RegionOnSphereSample的语法元素被包括在样本中。

center_yaw、center_pitch和center_roll指定相对于全局坐标轴的以2-16度为单位的视口方位。center_yaw和center_pitch指示视口的中心，而center_roll指示视口的翻滚角度。

插值应当为0。

refresh_flag等于0指定当从相关联的媒体轨中的时间并行样本起开始回放时，应当使用所指示的视口定向。refresh_flag等于1指定当渲染每个相关联的媒体轨的时间并行样本时总是应当使用所指示的视口定向，即，在连续播放中和从时间并行样本起开始回放时。

注意2：refresh_flag等于1使得内容作者能够在即使连续地播放视频时也指示推荐特定的视口方位。例如，可以针对场景切割位置指示refresh_flag等于1。

(L)沉浸式多媒体的传输。

当沉浸式多媒体被流传输到用户设备并且由用户设备播放时，由用户设备可同时地呈现的区域可以等于或小于360度多媒体数据的整个尺寸。可以依赖于用户设备的显示器尺寸和其他机械能力来确定用户设备可以同时呈现的区域的尺寸。

图6是示出根据本公开的实施例的用户设备的屏幕的尺寸和沉浸式多媒体的尺寸的示例的视图。

参考图6，作为沉浸式多媒体流传输的接收器的用户设备可以向用于流传输的传送器通知用户的当前视点和观看方向，并且传送器可以基于从接收器接收的信息来传送沉浸式多媒体数据的整体或部分。当传送器传送沉浸式多媒体数据的部分时，接收器可以按原样显示数据。当传送器传送沉浸式多媒体数据的整体时，接收器仅显示在用户的当前视点和观看方向(即视口)中用户设备可以同时呈现的区域。为了指定适合于整个沉浸式多媒体的用户的视点和观看方向的要呈现的区域，传送器可以与沉浸式多媒体一起发送出元数据，该元数据包含例如多媒体中的坐标以及该区域的水平和垂直尺寸。

图7是示出根据本公开的实施例的用于沉浸式多媒体流传输的传送器和接收器的示例的视图。

参考图7，对于沉浸式多媒体流传输，可以如上所述将沉浸式多媒体数据从传送器传送到接收器，并且还可能的是媒体处理设备将由捕获设备所捕获的原始图像拼接为单个图像，将拼接后的图像传送到传送器，以及然后再传送到接收器。作为示例，由双镜头360度相机记录的视频可以实时流传输到用户的HMD。

图8是示出根据本公开的实施例的用于实时流传输沉浸式多媒体的传送器和接收器的示例的视图。参考图8描述组件。

A.捕获设备。

参考图8，捕获设备捕获与捕获设备的镜头数量一样多的原始图像。捕获设备的传感器单元可以获得关于捕获设备的物理条件变化信息。关于捕获设备的物理条件变化信息的示例可以包括360度相机的旋转方向和旋转速度的变化。例如，当360度相机安装在汽车中时，如果进行左转，则旋转方向可以是左；并且旋转速度的变化可以是由于汽车的转向引起的相机的旋转速度的变化。

B.媒体处理设备。

由捕获设备获得的一个或多个原始图像被传送到媒体处理设备。媒体处理设备包括图像拼接模块。图像拼接模块将一个或多个原始图像拼接为单个图像。媒体处理的示例是将由双镜头360度相机捕获的两个原始图像拼接为单个较大的图像。拼接的图像可以被编码或存储为如OMAF标准中定义的文件格式。

拼接的图像从媒体处理设备发送到传送器。此外，如上所述的关于捕获设备的物理条件变化信息可以直接地或者经由媒体处理设备从捕获设备递送到传送器。

C.传送器。

传送器可以使用接收到的拼接的图像和关于捕获设备的物理条件信息来确定改变FOV。FOV改变确定单元确定引导区域，其用于引导用户以能够观看可以通过拼接的图像呈现的整个区域。在这种情况下，根据物理条件变化信息来确定引导区域，并且此时，需要确定功能或映射信息。确定功能或映射信息的示例可以将整个区域分割为三个部分，在捕获设备的物理条件为左转时映射到左区域的部分，在物理条件为右转时映射到右区域的部分，以及当以预定速度或更高的速度快速地进行左转或右转时映射到中心区域的部分。

图9是示出根据本公开的实施例的依据物理条件信息的引导区域映射信息的示例的视图。

参考图9，确定引导区域的结果被生成为FOV引导信息，并且从传送器传送到接收器。用于传送FOV引导信息的方法的示例是经由MMT系统将信息从MMT传送器传送到MMT接收器。在这种情况下，可以将FOV引导信息表示为FOV引导描述符。

FOV引导信息与沉浸式多媒体数据一起从传送器传送到接收器。传送器可以传送与沉浸式多媒体数据可能呈现的整个区域相对应的媒体数据，或者仅传送与FOV引导信息描述的区域相对应的媒体数据。替选地，可以根据关于例如从接收器传送的用户的观看方向的反馈数据来传送媒体数据。

D.FOV引导描述符。

FOV引导描述符包含必需的信息，以允许接收器仅针对由传送器引导的FOV区域内的数据，在用户显示器上呈现沉浸式多媒体数据。当接收器接收到沉浸式多媒体的整个区域的数据时，可以仅呈现由FOV引导描述符描述的区域。当接收器向传送器发送基于诸如用户的视点、观看方向和用户设备的FOV的信息要在用户设备上呈现的区域的数据的请求时，该请求可以仅限于在用户显示器上呈现的区域的、落入由FOV引导描述符描述的区域内的部分。当用户的视点或观看方向无法完全落入FOV引导描述符所描述的区域内时，接收器可以在用户显示器中使用诸如字幕或箭头的用户界面(UI)引导用户来移动用户设备。

可以通过MMT系统中的MMT信令信息来传送FOV引导描述符。FOV引导描述符的示例格式如表19中所示。

【表19】

表19的语义如下给出。

mandatory_flag：描述是否针对由描述符所描述的区域强制用户显示器。当mandatory_flag为1时，接收器可以仅将由描述符所描述的区域内的媒体渲染到用户显示器。当mandatory_flag为0时，接收器还可以将由描述符所描述的区域之外的媒体渲染到用户显示器。

guide_type：指用于描述引导区域的方法的类型。描述方法包括视点、视口和视场。接收器可以渲染包括由guide_type指示的视点、视口和视场的区域。

viewpoint(视点)：关于要引导的视点的信息。信息的格式遵循所描述的初始视点。

viewport(视口)：关于要引导的视口的信息。信息的格式遵循所描述的RegionOnSphereSample。

fieldofview(视场)：关于要引导的FOV的信息。信息的格式遵循所描述的RegionOnSphereSample。

guide_start：指依据描述符引导应用的起点。可以采用诸如UTC时间、MPU序列号等的这样的信息来指示。

guide_duration：指下述时间：在该时间期间，依据描述符，从由guide_start指示的起点起引导应用。

E.接收器。

接收器根据接收到的FOV引导信息将沉浸式多媒体数据呈现给用户显示器。当接收器接收用于沉浸式多媒体的整个区域的数据时，可以仅呈现由FOV引导描述符所描述的区域。当接收器向传送器发送基于诸如用户的视点、观看方向和用户设备的FOV的信息要在用户设备上呈现的区域的数据的请求时，该请求可以仅限于在用户显示器上呈现的区域的、落入由FOV引导描述符描述的区域内的部分。当用户的视点或观看方向无法完全落入FOV引导描述符所描述的区域内时，接收器可以在用户显示器中使用诸如字幕或箭头的用户界面(UI)引导用户来移动用户设备。

作为用于表示引导区域的方法，除引导区域之外的其余部分可能变暗或模糊。当在引导区域中观看的用户脱离(escape off)引导区域时，可以呈现这样的UI，仿佛其反弹到引导区域的内部。

F.引导信息与MMT系统中的资产之间的关系。

依赖于MMT系统的配置，一个沉浸式多媒体数据项可以由一个或多个资产构成。由资产表示的媒体数据的视觉区域可以相同或不同。

图10、图11、图12、图13和图14是示出根据本公开的各种实施例的FOV、视口和视点之间的关系的视图。

参考图10、图11、图12、图13和图14，当FOV信息的类型为FOV时，如果接收器的当前视点在FOV内，则可以传输请求(transmission-requested)、接收或呈现所有相对应的资产。

在图11所示的示例中，当用户设备的视口是视口#2时，可以传输请求、接收和呈现包括引导FOV的资产11、资产17和资产23，而可能不呈现资产12、资产18和资产24。

当引导类型是视口时，如果用户设备的视口与引导视口匹配，如图13所示，则可以呈现相对应的资产，即，资产8、资产9、资产14和资产15。

当用户设备的视口与引导视口重叠(而不是完全匹配)时，可以以用于FOV类型相同的方式来呈现它们。

图14示出了引导类型是视口的情况。当用户设备的视口包括引导视点时，可以传输请求、接收和呈现相对应的资产。

图15是示出根据本公开的实施例的用于实时流传输沉浸式多媒体的组件的示例的视图。

从前面的描述中明显的是，根据本公开的实施例，可以提供下述方法和装置，其用于：当在数据传输系统中提供沉浸式多媒体流传输服务时，依赖于沉浸式多媒体捕获设备的物理条件的改变来变化对于用户可观看的范围。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不背离由所附权利要求书及其等同物定义的本公开的精神和范围的情况下，其中可以在形式上和细节上进行各种改变。

Claims

1.一种传送媒体数据的方法，所述方法包括：

向显示设备传送关于内容的范围的引导信息，以用于基于所述范围来显示所述内容；以及

向所述显示设备传送与所述范围相对应的所述内容的至少一个资产，

其中，所述引导信息包括指示用于描述所述范围的类型的引导类型信息。

2.根据权利要求1所述的方法，

其中，所述引导类型信息指示所述类型是视点、视口和视场中的至少一个。

3.根据权利要求2所述的方法，

其中，如果所述引导类型信息指示所述类型是视口或视场，则所述至少一个资产对应于其中由所述显示设备显示的视口与由所述引导信息所表示的范围重叠的部分。

4.根据权利要求2所述的方法，

其中，如果所述引导类型信息指示所述类型是视点，则所述至少一个资产对应于由所述显示设备显示的视口，并且包括由所述引导信息表示的视点。

5.根据权利要求1所述的方法，

其中，如果由所述显示设备显示的视口包括由所述引导信息表示的范围之外的部分，则由所述显示设备显示用于引导用户移动的用户界面，或者使范围之外的部分变暗或模糊。

6.根据权利要求1所述的方法，

其中，所述引导信息是基于从所述显示设备接收的反馈数据而生成的，并且所述引导信息包括描述由所述显示设备显示的视口、由所述显示设备显示的视点以及显示设备的视场中的至少一个的信息。

7.一种用于接收媒体数据的方法，所述方法包括：

接收关于内容的范围的引导信息，以用于基于所述范围来显示所述内容；以及

接收与所述范围相对应的所述内容的至少一个资产，

8.根据权利要求7所述的方法，

9.根据权利要求8所述的方法，

其中，如果所述引导类型信息指示所述类型是视口或视场，则所述至少一个资产对应于其中由所述显示设备显示的视口与由所述引导信息表示的范围重叠的部分。

10.根据权利要求8所述的方法，

其中，如果所述引导类型信息指示所述类型是视点，则所述至少一个资产对应于由显示设备显示的视口，并且包括由所述引导信息表示的视点。

11.根据权利要求7所述的方法，

其中，如果由显示设备显示的视口包括由所述引导信息表示的范围之外的部分，则由所述显示设备显示用于引导用户移动的用户界面，或者使范围之外的部分变暗或模糊。

12.根据权利要求7所述的方法，

其中，所述引导信息是基于从显示设备接收的反馈数据而生成的，并且所述引导信息包括描述由所述显示设备显示的视口、由所述显示设备显示的视点以及所述显示设备的视场中的至少一个的信息。