CN110463195A

CN110463195A - 用于在虚拟现实视频中渲染定时文本和图形的方法和设备

Info

Publication number: CN110463195A
Application number: CN201880022681.8A
Authority: CN
Inventors: I.布亚齐兹; M.布达加维
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-03-31
Filing date: 2018-03-29
Publication date: 2019-11-15
Anticipated expiration: 2038-03-29
Also published as: US10958890B2; CN110463195B; EP3603054B1; WO2018182321A1; EP3603054A1; EP3603054A4; KR102462206B1; US20180288396A1; KR20190140946A

Abstract

公开一种电子装置、服务器以及用于在全向视频内渲染定时文本的方法。所述方法包含接收信令消息，所述信令消息包含指示所述全向视频内的所述定时文本的位置是否取决于所述全向视频的视口的标志。所述方法还包含基于所述标志确定所述全向视频内的定时文本的位置是否取决于所述视口。该方法还包含基于所述确定而在所述全向视频内渲染所述定时文本。

Description

用于在虚拟现实视频中渲染定时文本和图形的方法和设备

技术领域

本公开大体上涉及虚拟现实。更确切地说，本公开涉及在全向虚拟现实视频内渲染定时文本和图形。

背景技术

二维视频常常包含定时文本(timed text)。定时文本通常叫做副标题、隐藏字幕或开放字幕。定时文本常常用于听力障碍者以及会话未用观看者的母语的视频或演出。定时文本是被同步以与视频的音频同时显示的文本展示。

定时文本将文本置于视频中而不会实际上将文本本身嵌入视频内。这允许定时文本被打开和关闭，以及提供显示不同语言的能力，同时播放相同基础的视频展示。

虚拟现实体验愈发突出。例如，360°视频正新兴为一种体验由于例如智能电话等强大手持装置的易于获得所致的身临其境的视频的新方式。360°视频通过捕获世界的360°视野而使得消费者具有身临其境的“现实生活”、“就在那里”体验。用户可交互式地改变其视点且动态地观看他们希望的所捕获场景的任何部分。显示和导航传感器实时跟踪头部移动以确定用户想要观看的360°视频的区域。

发明内容

技术问题

本公开提供用于在虚拟现实视频中渲染定时文本和图形的方法和设备。

问题解决方案

在第一实施例中，提供一种用于在全向视频内渲染定时文本的电子装置。电子装置包含收发器。收发器被配置成接收包括标志的信令消息，所述标志指示全向视频内的定时文本的位置是否取决于全向视频的视口。电子装置还包含可操作地耦合到收发器的处理器。处理器被配置成基于标志确定全向视频内的定时文本的位置是否取决于视口。处理器还被配置成基于所述确定而在全向视频内渲染定时文本。

在第二实施例中，提供一种用于支持全向视频内的定时文本的服务器。服务器包含处理器。处理器被配置成生成包括标志的信令消息，所述标志指示有待在全向视频内渲染的定时文本的位置是否取决于全向视频的视口。服务器还包含可操作地耦合到处理器的通信接口。通信接口被配置成将信令消息传输到电子装置以指示全向视频内的定时文本的位置是否取决于用于在全向视频内渲染定时文本的视口。

在第三实施例中，提供一种用于在全向视频内渲染定时文本的方法。所述方法包含接收包括标志的信令消息，所述标志指示全向视频内的定时文本的位置是否取决于全向视频的视口。所述方法还包含基于标志确定全向视频内的定时文本的位置是否取决于视口。所述方法进一步包含基于所述确定而在全向视频内渲染定时文本。

本领域的技术人员可从以下图、描述和权利要求书容易明白其它技术特征。

在进行以下详细描述之前，阐述贯穿本专利文献所使用的某些词语和短语的定义可能是有利的。术语“耦合”及其派生词是指两个或多于两个元件之间的任何直接或间接通信，不管这些元件是否彼此物理接触。术语“传输”、“接收”和“通信”及其派生词涵盖直接通信和间接通信两者。术语“包含”和“包括”及其派生词意味着包括但不限于。术语“或”为包括性的，意味着和/或。短语“与......相关联”及其派生词意味着包含、包含在......内、与......互连、容纳、容纳在......内、连接到或与......连接、耦合到或与......耦合、可与......通信、与......协作、交错、并列、接近、结合到或与......结合、具有、具有......的性质、与......有关系或具有与......的关系等。术语“控制器”意味着控制至少一个操作的任何装置、系统或其部分。这种控制器可用硬件或硬件与软件的组合和/或固件来实施。与任何特定控制器相关联的功能性可为集中式的或分布式的，无论是本地还是远程。短语“......中的至少一个”在与项目列表一起使用时意味着可使用所列举的项目中的一个或多个的不同组合，且可能需要所述列表中的仅一个项目。例如，“A、B和C中的至少一个”包含以下组合中的任一个：A；B；C；A和B；A和C；B和C；以及A和B和C。

此外，下文所描述的各种功能可由一个或多个计算机程序实现或支持，每个计算机程序由计算机可读程序代码形成且体现于计算机可读媒体中。术语“应用程序”和“程序”是指适于以合适的计算机可读程序代码实现的一个或多个计算机程序、软件组件、指令集、过程、功能、对象、类、示例、相关数据或其一部分。短语“计算机可读程序代码”包含任何类型的计算机代码，包含源代码、目标代码和可执行代码。短语“计算机可读媒体”包含能够由计算机接入的任何类型的媒体，例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其它类型的存储器。“非暂时性”计算机可读媒体排除传送暂时性电信号或其它信号的有线、无线、光学或其它通信链路。非暂时性计算机可读媒体包含数据可被永久地存储的媒体和数据可被存储且稍后被重写的媒体，例如可重写光盘或可擦除存储器装置。

贯穿本专利文献提供了其它某些词语和短语的定义。本领域的普通技术人员应理解，在许多情况(如果不是大多数情况)下，此类定义适用于此类所定义词语和短语的先前以及将来使用。

发明的有益效果

本公开的各种实施例提供一种用于渲染定时文本和图形的更有效的方案。

附图说明

为了更完整地理解本公开及其优点，现在参考结合附图所作的以下描述，在附图中相同的参考标号表示相同的部分：

图1说明根据本公开的实施例的示例计算机系统；

图2说明根据本公开的实施例的计算系统中的示例服务器；

图3说明根据本公开的实施例的计算系统中的示例电子装置；

图4说明根据本公开的实施例的通信系统的示例框图；

图5说明根据本公开的实施例的具有网络VTT提示框的示例视频视口；

图6说明根据本公开的实施例的用于在球面内渲染定时文本的示例长方形平面；

图7说明根据本公开的实施例显示的定时文本；

图8说明根据本公开的实施例的在立体显示器中显示的定时文本；

图9说明根据本公开的实施例的用于渲染定时文本的示例流程图；且

图10说明根据本公开的实施例的用于渲染定时文本的示例流程图。

具体实施方式

下文所论述的图1到图10以及本专利文献中的用于描述本公开的原理的各种实施例仅仅是为了举例说明且不应以任何方式解释为限制本公开的范围。本领域的技术人员将理解，本公开的原理可在任何适当布置的系统或装置中实施。

虚拟现实(VR)是视觉和听觉场景的渲染版本。渲染被设计成当观察者或用户在由应用程序限定的范围内移动时尽可能自然地模拟现实世界对观察者或用户的视觉和听觉感官刺激。例如，VR将用户置于与他们的头部移动交互的身临其境的世界中。在视频等级下，VR通过以下方式实现：提供覆盖尽可能多的视野(FOV)的视频体验，以及使所渲染视频的视角与头部移动同步。尽管许多不同类型的装置能够提供这种体验，但头戴式显示器是最流行的。典型地，头戴式显示器依赖于集成到装置中且与外部计算机一起运行的专用屏幕(受限)或依赖于插入HMD中的智能电话(不受限)。第一种途径利用轻型屏幕且得益于高计算能力。相比之下，基于智能电话的系统利用更高机动性且生产可能更便宜。在两种情况下，视频体验以相同方式生成。

取决于捕获系统的能力，VR内容可以不同格式表示，例如全景或球面。许多系统捕获覆盖全360°x180°视野的球面视频。360°x180°视野表示为半球面的完整视野。例如，360°x180°视野是球面的顶半部的视野，其中观看者可观看360°水平平面和180°竖直视野平面。捕获360°x180°视野内的内容典型地由多个相机执行。各种相机配置可用于录制二维和三维内容。来自每个相机的所捕获视图被拼凑在一起以将全向相机系统的独立视图组合成单个全景或球面。拼凑过程典型地避免视差和单个视图的每一个之间的明显转换。

各种视频编码标准努力处置球面内容，原因是各种编码标准意图用于有待显示在长方形平面(类似于传统电视和监视屏)上的内容。因此，在VR系统中，投影方法常常用于在编码阶段之前将球面(或360°)视频内容转换成二维长方形视频。通常使用的投影方法是等量长方形投影(ERP)。在ERP期间，水平和竖直坐标简单地分别对应于经度和纬度，其中不应用变换或缩放。在投影之后，所获得的二维长方形图像可被划分成可被重新布置以生成“封装”帧的区域。

为了提供定时文本在360°中的实施灵活性，需要一种控制机构以指示在360°视频内的哪里显示定时文本以及确保文本不会失真。意图用于二维视野的定时文本当在360°视频中观看时常常可能失真。根据本公开的实施例，说明用于提供定时文本的各种方法以适配定时文本在360°视频内的显示。提示框(cue box)是视频内的显示定时文本的区域。提示框需要被更改以调节深度、在透过全向显示器观看时的失真、以及360°视频内的位置。

根据本公开的实施例，定时文本可相对于整个视频且相对于用户的当前视口而显示。例如，相对于整个视频显示的定时文本是在全向360°视频内的一个位置处显示的定时文本。也即，为了使用户能够观看定时文本，用户必须看向全向360°VR视频内的特定方向。通过导航传感器，VR装置实时跟踪用户的头部移动以确定用户当前正观看的360°视频的区域。在另一实例中，相对于用户的当前视口显示的定时文本是不管用户当前在全向360°VR视频内正观看的方向而始终显示的定时文本。

图1说明根据本公开的示例计算网络100。图1所示的系统100的实施例仅用于说明。可在不脱离本公开的范围的情况下使用系统100的其它实施例。

系统100包含网络102，所述网络102有助于系统100中的各种组件之间的通信。例如，网络102可在网络地址之间传达因特网协议(IP)包、帧中继帧、异步传送模式(ATM)单元或其它信息。网络102在一个或多个位置处包含一个或多个局域网(LAN)、城域网(MAN)、广域网(WAN)、全球网(例如因特网)的所有或一部分、或者一个或多个任何其它通信系统。

网络102有助于服务器104与各种客户端装置106到115之间的通信。客户端装置106到115可例如为智能电话、平板计算机、膝上型计算机、个人计算机、可佩带装置、或头戴式显示器(HMD)。服务器104可表示一个或多个服务器。每个服务器104包含可向一个或多个客户端装置提供计算服务的任何合适的计算或处理装置。每个服务器104可例如包含一个或多个处理装置、存储指令和数据的一个或多个存储器、以及有助于网络102上的通信的一个或多个网络接口。如下文更详细地描述，服务器104将具有定时文本的360°视频传输到一个或多个用户。

每个客户端装置106到115表示在网络102上与至少一个服务器或其它计算装置交互的任何合适的计算或处理装置。在此实例中，客户端装置106到115包含台式计算机106、移动电话或移动装置108(例如智能电话)、个人数字助理(PDA)110、膝上型计算机112、平板计算机114和HMD 115。然而，任何其它或额外客户端装置可用于系统100中。

在此实例中，一些客户端装置108到115与网络102间接通信。例如，客户端装置108和110(分别为移动装置108和PDA 110)经由一个或多个基站116(例如蜂窝式基站或eNodeB(eNB))通信。移动装置108包含智能电话。智能电话表示一类移动装置108，其为具有移动操作系统以及用于语音、短消息服务(SMS)和因特网数据通信的集成的移动宽带蜂窝式网络连接的手持装置。而且，客户端装置112和114(分别为膝上型计算机和平板计算机)经由一个或多个无线接入点118(例如IEEE 802.11无线接入点)通信。如下文更详细地描述，HMD115可向一个或多个用户显示具有定时文本的360°视频。应注意，这些仅用于说明且每个客户端装置106到115可直接与网络102通信或经由任何合适的中间装置或网络而间接与网络102通信。

在某些实施例中，移动装置108(或任何其它客户端装置106到115)可将信息安全地和有效地传输到另一装置，例如像服务器104。移动装置108(或任何其它客户端装置106到115)在附接到耳机时可充当VR显示器且类似地充当HMD 115。移动装置108(或任何其它客户端装置106到115)可触发自身与服务器104之间的信息传输。

尽管图1说明系统100的一个示例，但可对图1进行各种改变。例如，系统100可包含呈任何合适的布置的任何数目的每一组件。一般地，计算和通信系统呈现广泛多种配置，且图1不会将本公开的范围限制到任何特定配置。虽然图1说明其中可使用本专利文档中所公开的各种特征的一个操作环境，这些特征可用于任何其它合适的系统中。

本公开中所提供的过程和系统允许客户端装置或服务器在用户观看360°VR环境的同时向用户提供定时文本。在某些实施例中，客户端装置106到115以未失真方式在VR视频内显示定时文本。例如，服务器104适配定时文本以在VR视频内正确地渲染。服务器104接着可将VR视频数据传输到客户端装置106到115。客户端装置106到115可将定时文本覆盖和渲染到VR 360°视频上的如由定时文本数据经由服务器104指示的位置。

图2和3说明根据本公开的实施例的计算系统中的示例装置。具体地说，图2说明示例服务器200，且图3说明示例电子装置300。服务器200可表示图1的服务器104，且电子装置300可表示图1的客户端装置106到115中的一个或多个。

服务器200可表示一个或多个本地服务器、一个或多个全向视频服务器、或一个或多个定时文本服务器。如图2所示，服务器200包含总线系统205，其支持在至少一个处理器210、至少一个存储装置215、至少一个通信接口220与至少一个输入/输出(I/O)单元225之间的通信。

处理器210执行可存储在存储器230中的指令。存储在存储器230中的指令可包含用于在如通过VR耳机(例如图1的HMD 115)观看的全向360°场景内格式化定时文本和文本本身的指令。存储在存储器230中的指令还可包含用于在如通过VR耳机(例如图1的HMD115)观看的全向360°场景上渲染定时文本的指令。处理器210可包含呈任何合适的布置的任何合适数目和类型的处理器或其它装置。处理器210的示例类型包含微处理器、微控制器、数字信号处理器、现场可编程门阵列、应用专用集成电路和离散电路。

存储器230和永久存储装置235是表示能够存储和有助于信息(例如数据、程序代码、或在临时或永久基础上其它合适的信息)的检索的任何结构的存储装置215的示例。例如，存储器230可表示随机存取存储器或任何其它合适的易失性或非易失性存储装置。永久存储装置235可含有支持更长期数据存储的一个或多个组件或装置，例如只读存储器、硬盘驱动器、闪存存储器或光盘。

通信接口220支持与其它系统或装置的通信。例如，通信接口220可包含有助于图1的网络102上的通信的网络接口卡或无线收发器。通信接口220可支持通过任何合适的物理或无线通信链路的通信。

I/O单元225允许数据的输入和输出。例如，I/O单元225可通过键盘、鼠标、小键盘、触摸屏、运动传感器或其它合适的输入装置提供用于用户输入的连接。I/O单元225还可将输出发送到显示器、打印机或其它合适的输出装置。

在某些实施例中，服务器200实施定时文本到全向360°媒体场景的集成，如下文将更详细地论述。在某些实施例中，服务器200将定时图形集成到全向360°媒体场景中，如下文将更详细地论述。定时图形类似于定时文本，其中图形代替文本在提示框内显示。例如，服务器200将定时文本数据和定时图形数据集成和嵌入全向360°视频数据内以便当视频数据被用户播放和观看时，文本可以未失真方式由球面360°视频环境内的用户观看。

应注意，虽然图2被描述为表示图1的服务器104，但是相同或类似结构可用于各种客户端装置106到115中的一个或多个中。例如，台式计算机106或膝上型计算机112可与图2所示的计算机具有相同或类似结构。

图3说明根据本公开的实施例的电子装置300。图3所示的电子装置300的实施例仅用于说明且可在不脱离本公开的范围的情况下使用其它实施例。电子装置300可呈现广泛多种配置，且图3不会将本公开的范围限制到电子装置的任何特定实施方式。在某些实施例中，图1的客户端装置106到115中的一个或多个可包含与电子装置300相同或类似的配置。

在某些实施例中，电子装置300可与数据传送和媒体播放应用程序一起使用。电子装置300可为移动通信装置，例如像无线终端、台式计算机(类似于图1的台式计算机106)、移动装置(类似于图1的移动装置108)、PDA(类似于图1的PDA 110)、膝上型计算机(类似于图1的膝上型计算机112)、平板计算机(类似于图1的平板计算机114)、头戴式显示器(类似于图1的HMD 115)等。

如图3所示，电子装置300包含天线305、射频(RF)收发器310、传输(TX)处理电路315、麦克风320和接收(RX)处理电路325。电子装置300还包含扬声器330、一个或多个处理器340、输入/输出(I/O)接口(IF)345、输入端350、显示器355和存储器360。存储器360包含基本操作系统(OS)361和一个或多个应用程序362。

RF收发器310从天线305接收由系统上的另一组件传输的传入RF信号。例如，RF收发器310接收由网络102(例如WI-FI、蓝牙、蜂窝、5G、LTE、LTE-A、Wi MAX或任何其它类型的无线网络)的接入点(例如基站、Wi-Fi路由器、蓝牙装置)的蓝牙或WI-FI信号传输的RF信号。RF收发器310可对传入RF信号进行下变频转换，以生成中频或基带信号。将中频或基带信号发送到RX处理电路325，其通过对基带或中频信号进行滤波、解码或数字化或其组合来生成经处理的基带信号。RX处理电路325将经处理的基带信号传输到扬声器330(例如针对语音数据)或处理器340以用于进一步处理(例如针对网络浏览数据)。

TX处理电路315从麦克风320接收模拟或数字语音数据或从处理器340接收其它传出基带数据。传出基带数据可包含网络数据、电子邮件或交互式视频游戏数据。TX处理电路315对传出基带数据进行编码、多路复用、数字化或其组合，以生成经处理的基带或中频信号。RF收发器310从TX处理电路315接收传出经处理的基带或中频信号且将基带或中频信号上变频转换为经由天线305传输的RF信号。

处理器340可包含一个或多个处理器或其它处理装置，且执行存储在存储器360中的OS 361以便控制电子装置300的整体操作。例如，处理器340可根据公知的原理，通过RF收发器310、RX处理电路325和TX处理电路315来控制正向信道信号的接收以及反向信道信号的传输。处理器340还能够执行驻留在存储器360中的其它应用程序362，例如，将定时文本集成和渲染到全向360°媒体场景中，用于汇款、欺诈检测等的一个或多个应用程序。

处理器340可执行存储在存储器360中的指令。处理器340可包含呈任何合适的布置的任何合适数目和类型的处理器或其它装置。例如，在一些实施例中，处理器340包含至少一个微处理器或微控制器。处理器340的示例类型包含微处理器、微控制器、数字信号处理器、现场可编程门阵列、应用专用集成电路和离散电路。

处理器340还能够执行驻留在存储器360中的其它过程和程序，例如通过提供图像捕获和处理的接收、存储和定时指示的操作。处理器340可根据需要执行进程来将数据移入或移出存储器360。在一些实施例中，处理器340被配置成基于OS 361或响应于从eNB或操作者接收的信号来执行多个应用程序362。处理器340还耦合到I/O接口345，其向电子装置300提供连接到其它装置(例如客户端装置106到115)的能力。I/O接口345是这些附件与处理器340之间的通信路径。

处理器340还耦合到输入端350。电子装置300的操作者可使用输入端350来将数据或输入键入到电子装置300中。输入端350可为键盘、触摸屏、鼠标、轨迹球、语音输入端或能够充当用户接口以允许用户与电子装置300交互的其它装置。例如，输入端350可包含语音识别处理，由此允许用户经由麦克风320输入语音命令。对于另一实例，输入端350可包含触摸面板、(数字)笔传感器、按键或超声输入装置。触摸面板可按照电容性方案、压敏方案、红外方案或超声方案当中的至少一个方案识别例如触摸输入。例如，在电容性方案中，输入端350可识别触摸或接近度。输入端350还可包含控制电路。输入端350可通过向处理器340提供额外输入而与传感器365和/或相机相关联。如下文更详细地论述，传感器365包含惯性传感器(例如加速度计、陀螺仪和磁力仪)、光学传感器、运动传感器、相机、压力传感器、心率传感器、测高仪等。例如，输入端350可利用如由与传感器365相关联的运动传感器检测的运动作为输入。

处理器340还耦合到显示器355。显示器355可为液晶显示器(LCD)、发光二极管(LED)显示器、光学LED(OLED)、有源矩阵OLED(AMOLED)或能够渲染例如来自网站的文本和/或图形、视频、游戏、图像等的其它显示器。显示器355可被大小设定成适合在HMD内。显示器355可为能够形成立体显示器的单个显示屏或多个显示屏。在某些实施例中，显示器355为平视显示器(HUD)。

存储器360耦合到处理器340。存储器360的部分可包含随机存取存储器(RAM)，且存储器360的另一部分可包含闪存存储器或其它只读存储器(ROM)。

存储器360可包含表示能够存储和有助于信息(例如数据、程序代码、或在临时或永久基础上其它合适的信息)的检索的任何结构的永久存储装置(未示出)。存储器360可含有支持更长期数据存储的一个或多个组件或装置，例如只读存储器、硬盘驱动器、闪存存储器或光盘。

电子装置300可进一步包含一个或多个传感器365，所述一个或多个传感器365度量物理量或检测电子装置300的活动状态且将所度量或检测信息转换成电信号。例如，传感器365可包含用于触摸输入的一个或多个按钮(位于耳机或电子装置300上)、一个或多个相机、姿势传感器、眼睛跟踪传感器、陀螺仪或陀螺仪传感器、气压传感器、磁性传感器或磁力计、加速度传感器或加速度计、握持传感器、接近传感器、颜色传感器(例如红绿蓝(RGB)传感器)、生物物理传感器、温度/湿度传感器、照度传感器、紫外光(UV)传感器、肌电(EMG)传感器、脑电(EEG)传感器、心电(ECG)传感器、IR传感器、超声波传感器、虹膜传感器、指纹传感器等。传感器365可进一步包含用于控制包含在其中的传感器中的至少一个的控制电路。如下文将更详细地论述，这些传感器365中的一个或多个可用于控制用户接口(UI)、检测UI输入、确定用户的定向和面对方向以用于三维内容显示标识等。这些传感器365中的任一个可位于电子装置300内、被配置成容纳电子装置300的耳机内、或其中电子装置300包含耳机的单个装置中。

如下文将更详细地论述，在此说明性实施例中，电子装置300接收含有包含定时文本数据的全向视频数据的信号。电子装置300推断嵌入全向视频数据内的定时文本数据以便显示定时文本，例如副标题、隐藏字幕、开放字幕文本等。在某些实施例中，定时文本可相对于当前视口定位。也即，文本在全向场景内可见，而不管观看者正在看的方向。例如，定时文本提示可相对于当前视口上的区域渲染，使得文本始终可见而不管用户的观看方向。在某些实施例中，定时文本可相对于整个视频定位。也即，文本在全向视频数据内的仅一个或多个位置中可见。例如，定时文本的提示框可相对于球面在某一区域上渲染，使得文本仅当用户看向全向360°视频内的特定方向时可见。

尽管图2和3说明计算系统中的装置的实例，但可对图2和3进行各种改变。例如，图2和3中的各种组件可被组合、进一步细分或省略，且可根据特定需要添加额外组件。作为特定实例，处理器340可被分成多个处理器，例如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。另外，对于计算和通信网络，电子装置和服务器可呈现广泛多种配置，且图2和3不会将本公开限制为任何特定电子装置或服务器。

图4说明根据本公开的实施例的通信系统的示例框图。通信系统400包含在网络405上通信的服务器410和头戴式显示器(HMD)420。图4所示的通信系统400的实施例仅用于说明。可在不脱离本公开的范围的情况下使用其它实施例。

通信系统400说明本公开的以下各项的实施例的高级概要：可将定时文本嵌入全向360°视频内的服务器410、以及可在网络405上向用户显示全向360°视频内的定时文本的HMD 420。网络405可类似于图1的网络102进行配置。服务器410可类似于图1的服务器104进行配置且可包含类似于图2的服务器200的内部组件的内部组件。HMD 420可类似于图1的一个或多个客户端装置106到115中的任一个进行配置且可包含类似于图3的电子装置300的内部组件的内部组件。在某些实施例中，HMD 420不限于头戴式显示装置。例如，HMD 420可为智能电话(类似于图1的移动装置108)、膝上型计算机(类似于图1的膝上型计算机112)、台式计算机(类似于图1的台式计算机106)、平板计算机(类似于图1的平板计算机114)等。

网络405用于在服务器410与HMD 420之间提供通信。网络405可为个人局域网(PAN)、局域网(LAN)、无线局域网(WLAN)、因特网、公用交换电话网(PSTN)、以及其它无线网络。网络405还可为表示使用传输控制协议/因特网协议(TCP/IP)协议以彼此通信的世界范围内的网络和网关的集合的因特网。网络405包含电缆、路由器、交换机、防火墙或其组合。网络405可包含各种连接，例如有线、无线或光纤连接。

服务器410适配定时文本和定时图形以渲染到全向360°视频中。在某些实施例中，服务器410可与提供多媒体数据和定时文本数据的一个或多个服务器相关联。例如，服务器410接收包含全向360°视频的多媒体数据和定时文本数据。服务器接着利用所接收全向360°视频适配定时文本的渲染。

服务器410可为网络服务器、例如管理服务器等服务器计算机、或能够发送和接收数据的任何其它电子计算系统。在某些实施例中，服务器410为通过一个或多个网络互连的计算机的“云”，其中服务器410为当通过网络405访问时利用集群计算机和组件以充当单个无缝资源池的计算系统。服务器410包含定时文本模块412、网络视频文本跟踪(VTT)模块414和渲染程序416。在某些实施例中，定时文本模块412、网络VTT模块414和渲染程序416为单个元件。出于解释目的，元件被分成独立组件。

定时文本模块412允许内容作者将外部文本与媒体展示链接。内容作者为个人、人群或在看电影时确定文本的布置以及包含在定时文本中作为可显示的副标题或开放/隐藏字幕的实际文本的实体。

定时文本模块412管理例如副标题等文本在视频中的布置而不会实际上将文本嵌入视频本身中。这允许用户根据需要启用和禁止文本，或提供容易改变文本的语言的能力。例如，如果用户听力受损，那么用户可启用定时文本以便充当副标题。在另一实例中，如果用户正观看呈外语的视频，那么定时文本可显示音频变成用户的主要语言的翻译。

定时文本模块412利用定时文本标记语言(TTML)，所述定时文本标记语言提供具有由作者出于交换和处理目的而相关联的文体、布局和定时语义的文本信息的展示。TTML文档是包含含有标题和正文的定时文本文档元素的可扩展标记语言(XML)文档。TTML文档的标题指定文档级元数据、风格定义和布局定义。TTML文档的正文指定参考风格和布局信息以及行内风格和定时信息混合的文本内容。

TTML使用区域元素来限定用于显示定时文本的长方形框。区域元素的例子参考图5描绘。在某些实施例中，区域分配有指示区域何时能够显示定时文本的时间元素。例如，区域可分配有指示何时开始和完成定时文本的显示的‘开始’和‘结束’信息。也即，‘开始’指示HMD 420的视频播放器(例如渲染引擎426)何时开始在给定时间示出文本行且‘结束’指示何时移除文本。在另一例子中，区域可分配有指示何时显示以及显示定时文本持续多长时间的‘开始’和‘持续时间’信息。也即，‘开始’指示电子装置的视频播放器(例如渲染引擎426)何时开始在给定时间示出文本行且‘持续时间’指示显示定时文本持续多长时间。在持续时间到期时，文本被移除。TTML风格用于使区域相对于视频定位。定时文本模块412还指示在显示屏内显示定时文本的定位。

定时文本模块412还可管理定时图形。定时图形是实现类似于定时文本的高级副标题服务的媒体类型。定时文本模块412可包含有待覆盖在视频上的可伸缩矢量图形。

网络VTT模块414类似于定时文本模块412。例如，定时文本模块412利用XML文档中的TTML来使定时文本与视频相关联。网络VTT模块414是可利用HTML5来使定时文本与视频相关联的另一类型的文件格式。网络VTT模块414可通过<track(跟踪)>元素结合HTML5使用且由此使定时文本与主视频相关联以向媒体资源提供副标题、字幕和描述。网络VTT模块414允许定时文本与媒体内容的主视频/音频同步。

网络VTT模块414可利用网络VTT文件使定时文本与媒体内容的主视频/音频同步。在某些实施例中，网络VTT文件是具有UTF-8编码和.vtt文件扩展名的简单文本格式。网络VTT文件例如开始于字符串‘WEBVTT’。网络VTT文件的内容包含零个或多于零个网络VTT提示，其中的每一个通过两个或多个网络VTT行终止符分隔。网络VTT行终止符包含回车符、换行或两者。网络VTT提示是文本跟踪提示。示例网络VTT提示可包含以下各项中的一个或多个：(i)提示框；(ii)书写方向；(iii)拟合行标志(snap-to-lines flag)；(iv)行；(v)行对准；(vi)位置；(vii)位置对准；(viii)大小；(ix)文本对准；和(x)区域。其中网络VTT提示的提示框为其内有待渲染提示的所有行的文本的框。书写方向为文本的方向。书写方向可为水平的、竖直向左生长的或竖直向右生长的。拟合行标志为指示行是否为整数个行或其是否为视频的维度的百分比的布尔值。行限定提示框的定位。例如，行使提示框从如由书写方向、拟合行标志或由任何其它示出跟踪占据的行限定的视频视口的顶部、右边或左边偏移。行对准是可为开始对准、中心对准、结束对准的用于提示框的行的对准。位置在由书写方向上限定的方向上限定提示框的缩进。位置为(i)根据百分比值给出提示框的位置的数字；或(ii)特殊值自动。特殊值自动指示位置取决于提示的文本对准。位置对准为提示框在书写方向的维度上的对准，描述锚定到什么位置。例如，位置对准可为以下值中的一个：开始对准、中心对准、结束对准、自动对准。大小是指示提示框的大小的数字，其中数字被解读为如由书写方向限定的视频的百分比。文本对准是提示框内的所有文本行在书写方向的维度中的对准。文本对准可为以下值中的一个：开始对准、中心对准、结束对准、左对准或右对准。区域是提示框所属的任选网络VTT区域。

在某些实施例中，如果网络VTT文件被存储为ISOBMFF文件，那么网络VTT模块414遵循ISO/IEC14496-30中的规范。当存储网络VTT文件时，与网络VTT文件相关联的文本和提示框由网络VTT模块414分解。文本和提示框被分解，以便使文本与风格和定时信息分开存储。也即，网络VTT模块414可使实际提示的文本与网络VTT文件携载的结构信息(例如定位、定时等)分开。例如，每个网络VTT提示被解构存储，原因是网络VTT提示定时信息不会确定展示定时。在另一示例中，网络VTT提示以ISO盒状结构途径存储以使得ISO文件阅读器能够与网络VTT渲染器接口连接而无需使样本内容序列化为网络VTT文本且再次对其进行解析。网络VTT模块414还可在提示框内覆写网络VTT文本的开始时间的样本定时。

渲染程序416在全向360°视频中渲染定时文本。渲染程序416允许例如网络VTT等定时文本信息在VR和360°视频上渲染。渲染程序416允许内容作者用信号通知全向360°视频的各个方面以便在球面坐标系中显示定时文本。渲染程序416能够在显示器上的相对于全向360°视频的位置的位置中渲染定时文本信息以便避免深度不匹配问题。在某些实施例中，渲染程序416允许内容作者指示相对于当前视口的区域且将其与相对于整个视频的区域进行区分。也即，渲染程序416允许内容作者指示(i)定时文本是否相对于当前视口始终对固定区域上的用户可见，而不管用户正观看360°视频的方向；或(ii)定时文本是否相对于整个全向360°视频在一个或多个固定位置中可见。在某些实施例中，渲染程序416使得内容作者能够包含对提示框位置的视差补偿以便调节立体视频渲染。视差补偿允许提示框移位以对应于相对于用户的每只眼睛的类似位置。例如，如果提示框相对于左眼在右下侧，那么提示框将相对于用户的右眼定位在左下侧。在某些实施例中，渲染程序416在两个立体视图上的固定位置中的立体视频中渲染提示。下文所论述的图8说明用于立体显示器的视差补偿。在某些实施例中，渲染程序416在向提示框分配正确深度的立体视频中渲染提示。在某些实施例中，渲染程序416指示如何处置有待在不同区域中渲染的多个同时提示。在某些实施例中，渲染程序416允许内容作者利用球面坐标来定位提示区域。在某些实施例中，渲染程序416允许内容作者将定时文本投影在二维平面上以便定时文本以非失真方式在目标几何形状上渲染。

渲染程序416允许内容作者在三维空间中渲染定时文本。例如，渲染程序416基于朝向和深度而在三维空间中创建平面。深度被标识为与几何形状的中心的距离。平面可为任何形状，例如正方形、长方形、圆形、椭圆形等。文本接着在平面上渲染。渲染程序416提供关于平面的深度、平面的朝向以及平面的维度大小和形状的信令参数。平面的朝向基于偏航、俯仰和滚转。渲染程序416提供标志以指示定时文本是有待相对于当前视口还是相对于360°视频而渲染。下文所描述的图6说明在三维空间中的平面的渲染。如果标志指示相对于360°视频，那么渲染程序416通过启动视差功能而确保定时文本未失真。

下文提供用于在全向360°视频中渲染定时文本的句法的示例。下文的示例为描述定时文本跟踪的受限样本条目且用于向解析器指示需要对定时文本的特殊处置。例如，下文的样本条目包含指定视口关系或视频关系的信息。

为了向视频关系指示定时文本：

句法

在以上示例中，句法被扩展以包含指定视口关系或视频关系的信息。Viewport_dependent_flag指定定时文本提示框有待如何被渲染。例如，定时文本提示框可(i)相对于球面在某一区域上渲染，使得提示仅当用户看向特定方向时可见；或(ii)在当前视口上的区域中渲染，使得提示始终可见而不管观看方向。Viewport_dependent_flag可为真或假且指定提示框和文本区域中的要么相对于当前视口要么相对于整个视频。

如果viewport_dependent_flag被设定为真，那么提示框和任何文本区域相对于当前视口定位。也即，定时文本始终呈现在显示屏上。例如，文本区域可见，而不管用户的观看方向。当前视口基于如由HMD测量且被提供到渲染程序416的观看者的头部的位置而确定。在以上示例中，当viewport_dependent_flag＝＝1时，viewport_dependent_flag被设定为真。

如果viewport_dependent_flag被设定为假，那么提示框和任何文本区域相对于整个视频定位。也即，文本区域在球面上的某一位置处渲染。例如，文本区域仅当用户看向其中渲染文本区域的方向上时可见。在以上示例中，当viewport_dependent_flag＝＝0时，viewport_dependent_flag被设定为假。在某些实施例中，viewport_dependent_flag的默认值为假。

在某些实施例中，如果viewport_dependent_flag被设定为假(指示提示框和任何文本区域相对于整个视频定位)，那么提示框和文本区域的位置由球面坐标指示。下文的示例句法指示从长方形二维提示框到球面区域的映射类型。

为了相对于整个视频将提示框映射到球面区域：

句法

用于将二维提示框映射到球面区域的以上示例句法，viewport_dependent_flag被设定为0，指示提示框和任何文本区域相对于整个视频定位。框字符串region_id指定文本区域的标识符。此标识符与网络VTT或TTML跟踪中的定时文本流中所限定的区域的标识符相关联。例如，框字符串region_id指示球面上的分配有标识定时文本中的区域的标识的区域。Left_yaw指示提示平面的文本区域的坐标的偏航角的值。top_pitch指示提示平面的文本区域的坐标的俯仰的值。Horizontal_fov基于如由具有HMD 420的传感器测量且被提供到渲染程序416的观看者的头部的位置而指示用户的水平视野。Vertical_fov基于如由具有HMD 420的传感器测量且被提供到渲染程序416的观看者的头部的位置而指示用户的竖直视野。

应注意，多于一个提示框和文本区域可存在于以上句法中。例如，每个提示框和文本区域可由其自己的框字符串region_id指定以指示每个提示框和文本区域在球面内的位置。每个提示框和文本区域的标识与如网络VTT或TTML跟踪的定时文本流中所限定的区域的标识符相关联。

在某些实施例中，如果viewport_dependent_flag被设定为假(指示提示框和任何文本区域相对于整个视频定位)且提示框和文本区域的位置由球面坐标指示，那么当定时文本在HMD 420上渲染时，区域的三维空间被指示以校正视差。替代地，提供视差量。以下示例句法指示所提供的视差量。

为了将提示框相对于具有视差量的整个视频映射到球面区域：

句法

以上示例句法disparity_indication_flag被设定为指定特定视差值的1。视差值在立体观看期间使用。例如，提示框和文本区域偏移所指示视差值且在相反方向上偏移观看屏幕的左右半部。在另一示例中，提示框和文本区域移位所导出值而非所指示值。Disparity_in_pixels指示用以使区域在左眼视图上向左移位且在右眼视图上向右移位的值。Disparity_in_pixels提供根据因子缩放的像素值的视差。因子例如可为32768。像素值可为负或正。如果像素值为负，那么移位方向被颠倒。Region_depth指示上面有待渲染定时文本的区域的深度。例如，深度表示Z坐标。深度值为定时文本区域的法向量的范数。在某些实施例中，值相对于半径为1.0的标准球面且可通过65536的因子缩放。应注意，其它因子和半径可用于disparity_in_pixels和region_depth元素中。

在某些实施例中，使用disparity_in_percent代替disparity_in_pixels。Disparity_in_percent提供根据因子缩放的半部视图的宽度的百分比值以指示视差。因子例如可由值32768表示。应注意，可使用其它因子。此值用于使区域在左眼视图上向左移位且在右眼视图上向右移位。

一旦渲染程序416编译全向360°视频，视频连同定时文本就通过网络405传输到HMD 420。在某些实施例中，全向360°视频可从服务器410向HMD 420流式传输。

在某些实施例中，HMD 420是移动电话(类似于图1的移动装置108)。在某些实施例中，HMD 420是类似于台式计算机(类似于图1的台式计算机106)、膝上型计算机(类似于图1的膝上型计算机112)、或平板计算机(类似于图1的平板计算机114)的计算机装置。在某些实施例中，HMD 420是头戴式显示器(类似于图1的HMD 115)且由用户佩带。

HMD 420将定时文本和定时图形渲染和显示到显示器上以便于用户观看。HMD 420是能够通过例如显示器422的图形用户接口(GUI)显示内容的装置，所述内容例如是图像、视频和文本。在某些实施例中，HMD 420是能够向用户显示VR、增强现实(AR)和混合媒体现实的头戴式显示器。例如，HMD 420可利用描绘模拟视觉分量的显示器而完全替换用户的FOV。头戴式显示器还可包含向用户提供附带音频的耳机。在某些实施例中，HMD 420是立体显示器。HMD 420包含显示器422、一个或多个传感器424、以及渲染引擎426。

显示器422类似于图3的显示器355。在某些实施例中，显示器422是单个显示器且附连到HMD 420。例如，显示器422类似于移动装置上的显示屏，或计算机或平板计算机上的显示屏。在某些实施例中，显示器422是移动装置上的显示器且移动装置(包含显示器)附连到头戴式显示器。一旦附连到头戴式显示器，显示器422就可投影VR、AR等。在某些实施例中，显示器422是立体显示器。立体显示器是能够向用户输送深度知觉的显示器。

传感器424类似于图3的传感器365。传感器424提供基于头部的位置的用户的头部和运动跟踪。通过跟踪用户的头部的运动，允许渲染引擎426模拟视觉和听觉分量以便从用户的角度确保节目和声音源与用户的移动保持一致。

渲染引擎426与渲染程序416相关联。渲染引擎426分析所接收全向360°视频，且检测视频是否包含任何定时文本数据。在检测到定时文本时，渲染引擎426导出三维视频内的提示框的位置。渲染引擎426接着利用有待在显示器422上显示的全向360°视频而渲染提示框和文本区域。

渲染引擎426标识viewport_dependent_flag为真还是假。如果viewport_dependent_flag被设定为假(设定为0)，那么渲染引擎426通过形成球面以及将渲染相机置于球面的中心中建立VR屏幕几何形状而开始。渲染相机取决于全向360°视频是单视觉还是立体视觉。例如，如果全向360°视频为立体，那么视频针对立体显示器而渲染。然后，对于有待以各种时间间隔渲染的每个文本，渲染引擎426提取关于区域的深度(d)、方向(u和v)以及二维的对应信息。渲染引擎426接着利用由深度(d)、方向(u和v)计算出的法向量形成三维平面。渲染引擎426接着在平面和对应二维长方形上渲染提示框，其中长方形的中心在法向量处。

如果viewport_dependent_flag被设定为真(设定为1)，那么渲染引擎426通过以每个时间间隔读取每个提示框的区域和视差信息而开始。在立体显示器上渲染全向视频之后，渲染引擎426基于视差信息在长方形区域或提示框上渲染文本。例如，关于平面的左半部，渲染引擎426使长方形区域如由视差信息所指示而向左移位。关于平面的右半部，渲染引擎426使长方形区域如由视差信息所指示而向右移位。渲染引擎426接着在提示框的移位区域中渲染文本。

在某些实施例中，渲染引擎426可在将VR视口渲染之后渲染提示框作为覆盖层。当提示框或文本区域相对于当前视口而不是视频时(例如当viewport_dependent_flag被设定为1以指示真时的情况)，在渲染VR视口之后在提示框内渲染文本是有用的。使用所指示视差值(例如如以上所论述的disparity_in_pixels)渲染立体效果。

在某些实施例中，渲染引擎426可在向屏幕渲染视口之前渲染提示框。就球面几何形状而言，提示框和文本区域可为置于球面内的所希望深度处的平面。在另一实例中，提示框和文本区域位于球面区域处，来自主视频的内容覆盖来自提示框和文本区域的内容。提示框和文本区域可被指示为球面区域。在某些实施例中，渲染引擎426可首先渲染所投影全向360°视频，例如ERP。然后，定时文本在视口上渲染。

图5说明根据本公开的实施例的具有网络VTT提示框的示例视频视口。图5说明描绘用于描绘定时文本的提示框的定位的环境500。在某些实施例中，提示框的定位可基于TTML、网络VTT文件等。图5所示的环境500的实施例仅用于说明。可在不脱离本公开的范围的情况下使用其它实施例。

视频视口510表示显示内容的显示器。例如，视频视口510是说明二维内容的显示屏。在另一实例中，视频视口510是当用户观看全向360°视频时欣赏的当前视图。内容可为单个图像、电影等。网络VTT区域520是其中有待渲染和显示定时文本的提示框。网络VTT区域520对用户不可见。实际上，网络VTT区域520表示定时文本可在视频视口510内显示的图形坐标。在某些实施例中，多个网络VTT区域520可在视频视口510内。一旦网络VTT区域520限定在视频视口510内，网络VTT区域520就可连续显示文本或保持休眠，直到接收到显示定时文本的指令为止。网络VTT区域520由区域宽度522和区域行524(高度)限定。区域宽度522是区域的宽度。区域行524是网络VTT区域520的高度。区域宽度522和区域行524使网络VTT区域520从如由书写方向、拟合行(指示行是视频视口510的整数还是百分比的布尔值)限定的视频视口510的顶部、右边或左边偏置。

文本位置515是文本在网络VTT区域520内开始的位置。文本位置515由区域锚X526和区域锚Y 528相对于网络VTT区域520以及区域视口锚X512和区域视口锚Y 514相对于视频视口510限定。因此，文本位置515在相同位置处开始而不管当前视频视口510内的网络VTT区域520位置。在某些实施例中，如果视频内容是全向360°视频，那么区域视口锚X 512和区域视口锚Y 514锚定到当前视口而不是整个视频。例如，不管用户在360°视频内观看何处，如果文本位置相对于当前视口锚定在所述特定位置处，那么定时文本将呈现在相同位置中，即使用户移动其观看方向由此改变当前视口。在某些实施例中，区域视口锚X 512和区域视口锚Y 514锚定到整个视频而不是用户的当前视口。例如，仅当用户相对于区域视口锚X 512和区域视口锚Y 514观看特定方向时用户可观看定时文本。

图6说明根据本公开的实施例的用于在球面内渲染定时文本的示例长方形平面。图6说明描绘球面600的环境。球面600说明全向360°视频，其中用户从位置602观看。VR场景几何形状形成球面且在位置602处将渲染相机置于球面的中心，且使360°视频围绕位置602渲染。例如，用户可以360°向上看、向下看、向左看和向右看且观看视频内的对象。用户的视野限于如从位置602观看的球面600内的观看方向。对象604、606和608表示贯穿球面600定位的内容。如果用户正观看对象606，那么用户无法观看对象604，原因是每个对象彼此相对，且用户的视野不是180°。

平面615与位置602(球面的中心和用户的位置)相距610定位。距离610是指示提示框与用户的视点的距离的深度值。提示框(类似于图5的网络VTT区域520)位于平面615上。平面615相对于整个视频定位。也就是说，文本在球面上的某一位置处渲染。例如，文本区域仅当用户看向其中渲染文本区域的方向上时可见。

平面615是二维长方形平面，其中长方形的中心沿着与位置602的距离610定位。平面615的定向由偏航、俯仰和滚转限定。平面615的大小由高度612和宽度614确定，其中平面615的中心沿着距离610定位。在平面615上的提示框上渲染的文本仅当用户看向平面615的特定方向上时可见。例如，当用户观看屏幕615时，用户无法观看对象608，原因是对象608和平面615彼此相对。

图7和8说明根据本公开的实施例显示的定时文本。图7说明单个显示器700，其中提示框705在用户的视野的中心处显示。图8说明立体显示器800，其中提示框802在用户的左显示器805上显示且提示框806在用户的右显示器810上显示。视差值在立体观看期间使用以使提示框802和806偏移视差值且在相反方向上偏移观看屏幕的左右半部。视差补偿允许提示框移位以对应于相对于用户的每只眼睛的类似位置。箭头804指示提示框802向左移位且箭头808指示提示框806向右移位。

图9说明根据本公开的实施例的用于渲染定时文本的方法。图9描绘用于支持全向视频内的定时文本的流程图900。例如，图9中所描绘的过程被描述为由图2中的服务器200或服务器410相对于电子装置(例如客户端装置106到115中的任一个或HMD 420)实施。

参考图9，过程开始于服务器410在操作902处生成信令消息。述信令消息包含指示有待在全向视频内渲染的定时文本的位置是否取决于全向视频的视口的标志。

当标志指示定时文本的位置取决于视口时，指示视口内的固定位置中的定时文本。也就是说，固定位置与全向视频内的观看方向无关。另外，当标志指示定时文本的位置取决于视口时，那么过程可生成参数以调节定时文本的深度视差。

当标志指示定时文本的位置并不取决于视口时，指示全向视频内的定时文本的位置相对于全向视频。另外，当标志指示定时文本的位置并不取决于视口时，那么过程可生成参数以将定时文本定位在全向视频内。

过程接着在操作904处通过通信接口传输信令消息。例如，通信接口被配置成将信令消息传输到电子装置以指示全向视频内的定时文本的位置是否取决于用于在全向视频内渲染定时文本的视口。

图10说明根据本公开的实施例的用于渲染定时文本的方法。图10描绘根据本公开的用于在全向360°视频中显示定时文本的流程图1000。例如，图10中所描绘的过程被描述为由图3的电子装置300、图4的HMD 420或图1的客户端装置106到115中的任一个相对于图1的服务器104或图2的服务器200而实施。

参考图10，过程开始于诸如HMD 420的电子装置在操作1002处接收信令消息。信令消息包含指示全向视频内的定时文本的位置是否取决于全向视频的视口的标志。

过程接着在操作1004处基于标志确定全向视频内的定时文本的位置是否取决于视口。然后，过程基于所述确定而在全向视频内渲染定时文本。

如果确定定时文本的位置取决于视口，那么过程遵循操作1006的“是”分支。如果确定定时文本的位置并不取决于视口，那么过程遵循操作1010的“否”分支。类似于隐藏字幕、开放字幕或副标题或其组合，所渲染和所显示定时文本与全向视频同步。

在确定定时文本的位置取决于视口时，过程接着在操作1006处根据信令消息标识参数以调节定时文本的深度视差。过程接着在操作1008处基于所标识的参数相对于视口渲染定时文本以用于显示。当相对于视口渲染定时文本以用于显示时，过程在显示器上的与全向视频内的观看方向无关的固定位置中渲染定时文本。另外，当相对于视口渲染定时文本以用于显示时，过程通过使定时文本的位置在显示器的左半部上移位和使定时文本在显示器的右半部上移位而调节定时文本的深度视差。例如，显示器的左半部上的定时文本根据所标识参数向左移位，同时显示器的右半部上的定时文本根据所标识参数向右移位。

在确定定时文本的位置取决于视口时，过程接着在操作1010处根据信令消息标识参数以将定时文本定位在全向视频内。过程接着在操作1012处基于所标识的参数相对于全向视频渲染定时文本以用于显示。当相对于全向视频渲染定时文本以用于显示时，过程在全向视频内的固定位置中渲染定时文本，所述定时文本的观看取决于全向视频自身内的HMD的观看方向。另外，当相对于全向视频渲染定时文本以用于显示时，全向视频内的定时文本的位置是基于所标识的参数。例如，参数指示当渲染定时文本时，有待利用球面坐标系，其中全向视频的中心位于球面的中心处。然后，生成球面内的平面。平面与球面的中心相距一定距离定位，且平面基于根据参数的偏航、俯仰和滚转而定向。

尽管图说明用户设备的不同示例，但可对图进行各种改变。例如，用户设备可包含呈任何合适布置的任何数目的每一组件。一般地，各图不会将本公开的范围限制为任何特定配置。此外，虽然各图说明其中可使用本专利文档中所公开的各种用户设备特征的操作环境，但是这些特征可用于任何其它合适的系统中。

本申请中的任何描述都不应被理解为暗示任何特定元件、步骤或功能是必须包含在权利要求书范围内的基本元素。专利主题的范围仅由权利要求书限定。

尽管已经使用示范性实施例描述了本公开，但可向本领域的技术人员建议各种改变和修改。希望本公开涵盖落入所附权利要求书的范围内的此类改变和修改。

Claims

1.一种用于在全向视频内渲染定时文本的电子装置，所述电子装置包括：

收发器，被配置成接收包含标志的信令消息，所述标志指示所述全向视频内的定时文本的位置是否相对于所述全向视频的视口；和

处理器，其可操作地耦合到所述收发器，所述处理器被配置成：

基于所述标志确定所述全向视频内的定时文本的位置是否相对于所述视口；以及

基于所述确定相对于所述全向视频渲染所述定时文本。

2.根据权利要求1所述的电子装置，其中：

响应于确定所述定时文本的位置相对于所述视口，所述处理器被配置成根据所述信令消息标识参数以调节所述定时文本的深度视差；以及

为了在所述全向视频内渲染所述定时文本，所述处理器被配置成基于所标识的参数相对于所述视口渲染所述定时文本以用于显示。

3.根据权利要求2所述的电子装置，其中为了相对于所述视口渲染所述定时文本以用于显示，所述处理器被配置成在显示器上的与全向视频内的观看方向无关的固定位置中渲染所述定时文本。

4.根据权利要求2所述的电子装置，其中：

为了相对于所述视口渲染所述定时文本以用于显示，所述处理器被配置成通过使在显示器的左半部上的定时文本和在所述显示器的右半部上的定时文本移动位置而调节所述定时文本的深度视差，

所述显示器的左半部上的定时文本根据所标识的参数向左移位，以及

所述显示器的右半部上的定时文本根据所标识的参数向右移位。

5.根据权利要求1所述的电子装置，其中：

响应于确定所述定时文本的位置并不相对于所述视口，所述处理器被配置成根据所述信令消息标识参数以将所述定时文本定位在所述全向视频内；以及

为了相对于所述全向视频渲染所述定时文本，所述处理器被配置成基于所标识的参数相对于所述全向视频渲染所述定时文本以用于显示。

6.根据权利要求5所述的电子装置，其中：

为了在所述全向视频内渲染所述定时文本以用于显示，所述处理器被配置成在所述全向视频内的固定位置中渲染所述定时文本，所述定时文本的观看取决于所述全向视频内的观看方向，以及

所述全向视频内的位置基于所标识的参数。

7.根据权利要求5所述的电子装置，其中：

为了相对于所述全向视频渲染所述定时文本以用于显示，所述处理器被配置成利用球面坐标系，其中所述全向视频的中心位于球面的中心处；

在所述球面内生成平面，所述平面位于与所述球面的中心相距一定距离处且所述平面垂直于基于所述参数的预定偏航和俯仰定向，以及

所述处理器被配置成在所述平面上的基于滚转定向且在所述平面上居中的位置上渲染所述定时文本。

8.根据权利要求1所述的电子装置，其中为了在所述全向视频内渲染所述定时文本，所述处理器被配置成显示与所述全向视频的定时同步的文本。

9.一种用于支持全向视频内的定时文本的服务器，所述服务器包括：

处理器，被配置成生成包含标志的信令消息，所述标志指示有待在所述全向视频内渲染的定时文本的位置是否相对于所述全向视频的视口；和

通信接口，被配置成可操作地耦合到所述处理器，所述通信接口被配置成将所述信令消息传输到电子装置以指示所述全向视频内的定时文本的位置是否相对于用于在所述全向视频内渲染所述定时文本的所述视口。

10.根据权利要求9所述的服务器，其中当所述信令消息包含指示所述定时文本的位置相对于所述视口的标志时，所述处理器被配置成生成参数以调节所述定时文本的深度视差。

11.根据权利要求10所述的服务器，其中：

所述处理器被配置成在所述信令消息中指示所述定时文本在所述视口内的固定位置中，

所述固定位置与全向视频内的观看方向无关。

12.根据权利要求9所述的服务器，其中：

当所述信令消息包含指示所述定时文本的位置并不相对于所述视口的标志时，所述处理器被配置成生成参数以将所述定时文本定位在所述全向视频内，以及

所述定时文本相对于所述全向视频的位置在所述全向视频中是固定的。

13.一种用于在全向视频内渲染定时文本的方法，所述方法包括：

接收包含标志的信令消息，所述标志指示所述全向视频内的定时文本的位置是否相对于所述全向视频的视口；

基于所述确定相对于所述全向视频渲染所述定时文本。

14.根据权利要求13所述的方法，进一步包括：

响应于确定所述定时文本的位置相对于所述视口，根据所述信令消息标识参数以调节所述定时文本的深度视差，

其中在所述全向视频内渲染所述定时文本进一步包括基于所标识的参数相对于所述视口渲染所述定时文本以用于显示。

15.根据权利要求13所述的方法，其中：

响应于确定所述定时文本的位置并不相对于所述视口，根据所述信令消息标识参数以将所述定时文本定位在所述全向视频内；以及

相对于所述全向视频渲染所述定时文本包括基于所标识的参数相对于所述全向视频渲染所述定时文本以用于显示。