CN112219403B

CN112219403B - 沉浸式媒体的渲染视角度量

Info

Publication number: CN112219403B
Application number: CN201980019542.4A
Authority: CN
Inventors: 王业奎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-03-22
Filing date: 2019-02-19
Publication date: 2022-03-25
Anticipated expiration: 2039-02-19
Also published as: WO2019182703A1; CN111869222B; CN111869222A; US20200304549A1; US20200304552A1; EP3769514A2; WO2019182701A1; CN112219403A; WO2019182702A3; WO2019182702A2; EP3769515A1; CN111869223A; EP3769513A1; US20200304551A1

Abstract

本发明公开了一种在基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)网络中实现的机制。所述机制包括接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列。根据所述MPD获取所述媒体内容。将所述媒体内容转发给一个或多个渲染设备进行渲染。确定渲染视角度量，包括由所述一个或多个渲染设备渲染的所述VR视频序列的视角信息。所述渲染视角度量包括多个入口，其中，所述入口中的至少一个入口指示视角以及应用于所述视角的所述VR视频序列的多个媒体像素点。向提供方服务器发送所述渲染视角度量。

Description

沉浸式媒体的渲染视角度量

本专利申请要求Ye-Kui Wang于2018年3月22日递交的发明名称为“沉浸式媒体度量(Immersive Media Metrics)”的第62/646,425号美国临时专利申请案的权益，其内容以引用的方式并入本文本中。

技术领域

本发明大体上涉及虚拟现实(virtual reality，VR)视频系统，具体涉及通过基于超文本传输协议的动态自适应流(Dynamic Adaptive Streaming over Hypertexttransferprotocol，DASH)发送VR视频相关数据。

背景技术

VR，也可称为全向媒体、沉浸式媒体和/或360度媒体，是在模拟环境中使用视觉、音频和/或触觉反馈进行的交互式录制和/或计算机生成的体验。对于视觉角度，VR提供球体(或球体的子部分)成像，用户位于所述球体的中心。所述球体成像可由头戴式显示器(head mounted display，HMD)或其它显示单元来渲染。具体地，VR显示器渲染球体的子部分。用户可以动态地改变球体的位置和/或角度渲染部分来体验VR视频所呈现的环境。VR视频的每张图像(也称为帧)包括球体中渲染的区域和球体中未渲染的区域。因此，VR帧包括的数据比非VR视频图像明显更多。内容提供方有意于以流方式提供VR视频。然而，VR视频包括的数据比传统视频明显更多，属性也明显不同。因此，传统视频的流机制无法高效地流化VR视频。

发明内容

在一个实施例中，本发明包括一种在基于超文本传输协议(Hypertext TransferProtocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)中实现的方法。所述方法包括：接收器接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列。所述方法还包括：所述接收器根据所述MPD获取所述媒体内容。所述方法还包括：将所述媒体内容转发给一个或多个渲染设备进行渲染。所述方法还包括：处理器确定包括所述一个或多个渲染设备渲染的所述VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，所述入口中的至少一个入口指示视角和应用于所述视角的所述VR视频序列的多个媒体像素点。所述方法还包括：发送器向提供方服务器发送所述渲染视角度量。在某些情况下，客户端向服务器发送数据以指示用户已观看的视角。具体地，可以针对每个VR视频序列帧发送视角信息，例如通过指示帧展示时间的方式。但是，固定视角位置常用于许多帧。因此，当视角不改变时，这种机制可以发送第一帧之后的每个帧的冗余视角信息。本实施例采用渲染视角视野度量，包括视点入口的开始时间和持续时间(或结束时间)。以此方式，单个入口可用于多个渲染VR帧，直到视角移动，例如由于用户佩戴头盔而移动他们的头。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述渲染视角度量中的所述多个入口包括所述一个或多个渲染设备为用户渲染的多个视角中每个视角的入口对象。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括开始时间元素，所述开始时间元素指定在渲染所述入口对象关联的对应视角时应用的所述VR视频序列的初始媒体像素点的媒体展示时间。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括持续时间元素，所述持续时间元素指定应用于所述入口对象关联的所述对应视角的所述VR视频序列的连续展示的媒体像素点的持续时间。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括结束时间元素，所述结束时间元素指定在渲染所述入口对象关联的所述对应视角时应用的所述VR视频序列的最终媒体像素点的媒体展示时间。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括视角元素，所述视角元素指定所述入口对象关联的所述对应视角渲染的所述VR视频序列的区域。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。

在一个实施例中，本发明包括DASH客户端NE，包括接收器，用于接收描述包括VR视频序列的媒体内容的DASH MPD；根据所述MPD获取所述媒体内容。所述DASH客户端NE还包括：一个或多个端口，用于：将所述媒体内容转发给一个或多个渲染设备进行渲染。所述DASH客户端NE还包括：处理器，与所述接收器和所述端口耦合。所述处理器用于：确定包括所述一个或多个渲染设备渲染的所述VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，所述入口中的至少一个入口指示视角和应用于所述视角的所述VR视频序列的多个媒体像素点。所述处理器还用于：通过所述一个或多个端口向提供方服务器发送所述渲染视角度量。在某些情况下，客户端向服务器发送数据以指示用户已观看的视角。具体地，可以针对每个VR视频序列帧发送视角信息，例如通过指示帧展示时间的方式。但是，固定视角位置常用于许多帧。因此，当视角不改变时，这种机制可以发送第一帧之后的每个帧的冗余视角信息。本实施例采用渲染视角视野度量，包括视点入口的开始时间和持续时间(或结束时间)。以此方式，单个入口可用于多个渲染VR帧，直到视角移动，例如由于用户佩戴头盔而移动他们的头。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是通过所述一个或多个端口与所述一个或多个渲染设备耦合的客户端，还包括发送器，用于通过所述一个或多个端口中的至少一个端口与所述DASH内容服务器进行通信。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是媒体感知中间NE，并且还包括与所述一个或多个端口耦合的至少一个发送器，用于通过一个或多个客户端将所述媒体内容转发给一个或多个渲染设备，以及向DASH内容服务器发送所述渲染视角度量。

在一个实施例中，本发明包括一种非瞬时性计算机可读介质，包括供视频编码设备使用的计算机程序产品，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质上的计算机可执行指令，当所述计算机可执行指令由处理器执行时，使得所述视频编码设备执行任一上述方面所述的方法。

在一个实施例中，本发明包括DASH客户端NE，包括接收模块，用于接收描述包括VR视频序列的媒体内容的DASH MPD；根据所述MPD获取所述媒体内容。所述DASH客户端NE还包括：转发模块，用于将所述媒体内容转发给一个或多个渲染设备进行渲染。所述DASH客户端NE还包括渲染视角度量模块，用于确定包括一个或多个渲染设备渲染的VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，其中所述入口中的至少一个入口指示视角以及应用到所述视角的VR视频序列的多个媒体像素点。所述DASH客户端NE还包括：发送模块，用于向提供方服务器发送所述渲染视角度量。在某些情况下，客户端向服务器发送数据以指示用户已观看的视角。具体地，可以针对每个VR视频序列帧发送视角信息，例如通过指示帧展示时间的方式。但是，固定视角位置常用于许多帧。因此，当视角不改变时，这种机制可以发送第一帧之后的每个帧的冗余视角信息。本实施例采用渲染视角视野度量，包括视点入口的开始时间和持续时间(或结束时间)。以此方式，单个入口可用于多个渲染VR帧，直到视角移动，例如由于用户佩戴头盔而移动他们的头。

在一个实施例中，本发明包括一种方法，包括：通过一个或多个观察点(observation point，OP)从功能模块查询可测量数据以在度量计算和上报(metricscomputing and reporting，MCR)模块中计算度量，所述度量包括已经在特定媒体展示时间间隔中渲染的由虚拟现实(virtual reality，VR)客户端用来渲染VR视频的视角列表；采用渲染视角度量向分析服务器上报所述视角列表。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述渲染视角度量包括多个渲染视角中每个渲染视角的入口对象。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括类型为媒体时间的开始时间(startTime)，所述开始时间指定从第一已播放媒体像素点开始渲染当前入口中指示的视角时，所述第一已播放媒体像素点的媒体展示时间。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括类型为整数的持续时间，所述持续时间指定从startTime指示的媒体像素点开始渲染当前入口中指示的视角时，连续展示的媒体像素点的持续时间(以毫秒为单位)。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括类型为视角数据类型(ViewportDataType)的视角，所述视角指示与从startTime指示的媒体像素点开始渲染的视角对应的全向媒体的区域。

为清楚起见，上述任一实施例可以与上述其它任一或多个实施例结合以创建本发明范围内的新实施例。

这些和其它特征将结合附图和权利要求书从以下详细描述中更清楚地理解。

附图说明

为了更透彻地理解本发明，现参阅结合附图和具体实现方式而描述的以下简要说明，其中的相同附图标记表示相同部分。

图1为基于VR视频流的示例性系统的示意图。

图2为对VR视频进行编码的示例性方法的流程图。

图3为VR客户端进行的VR视频展示的示例性架构的示意图。

图4为示例性媒体通信会话的协议图。

图5为可在媒体通信会话期间用于流化VR视频的示例性DASH媒体展示描述(MediaPresentation Description，MPD)的示意图。

图6为示例性渲染视角度量的示意图。

图7为示例性视频编码设备的示意图。

图8为发送包含与渲染设备渲染的多个视角相关的信息的渲染视角度量的示例性方法的流程图。

图9为用于发送包含与渲染设备渲染的多个视角相关的信息的渲染视角度量的示例性DASH客户端网元(network element，NE)的示意图。

具体实施方式

首先应理解，尽管下文提供一项或多项实施例的说明性实现方式，但所公开的系统和/或方法可使用任何数目的技术来实现，无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实现方式、附图和技术，包括本文所说明并描述的示例性设计和实现方式，而是可在所附权利要求书的范围以及其等效物的完整范围内修改。

DASH是一种通过网络流化视频数据的机制。DASH向客户端提供描述视频的媒体展示描述(Media Presentation Description，MPD)文件。具体地，MPD描述视频的各种表示以及这些表示的位置。例如，表示可包含不同分辨率下的相同视频内容。客户端可以从表示中获取视频片段，显示给客户端。具体地，客户端可以监控视频缓冲区和/或网络通信速度，并根据当前情况通过基于MPD中的数据在表示之间切换的方式动态改变视频分辨率。

当MPD应用于VR视频时，客户端可以利用MPD获取球形视频帧或其部分。客户端还可以确定用户想要的视场角(Field Of View，FOV)。FOV包括用户希望查看的球形视频帧的子部分。然后，客户端可以在视角上渲染对应于FOV的球形视频帧的部分。FOV和视角可以在运行时动态地改变。例如，用户可以采用根据用户头部移动显示球形视频帧的FOV/视角的HMD。用户可以查看VR视频，就像用户出现在录制时VR摄像机的位置一样。在另一示例中，与显示屏(和/或电视)耦合的计算机可以根据鼠标移动、键盘输入、远程控制输入等在对应屏幕上显示FOV/视角。甚至可以预定义FOV/视角，这样用户就可以体验视频制作者指定的VR内容。可以设置一组客户端设备，以在不同的渲染设备上显示不同的FOV和视角。例如，计算机可以在HMD上显示第一FOV，在显示屏/电视上显示第二FOV。

内容制作者可能对经过渲染以供终端用户观看的视角感兴趣。例如，渲染视角可以使内容制作者在未来制作中关注不同的细节。在一个特定示例中，在体育赛事期间大量用户选择指向体育场馆特定位置的观看视角，这表示应在该位置放置摄像机，以便在拍摄后续体育赛事时提供更好的视野。因此，服务提供方可以收集视角信息，并用于增强沉浸式媒体质量和相关体验。然而，发送视角信息的机制可能效率低下。例如，对于VR视频的每个帧，视角可以改变，也可以不改变。示例性机制可以上报针对VR视频的每个帧渲染的视角。这需要为每个帧创建和发送度量。在大多数实际情况下，用户通常使用相同的视角观看一行中的许多帧，因此这种机制发送了大量冗余视角信息。

本文公开了支持与VR视频相关的视角信息的高效通信的机制，所述VR视频由客户端关联的渲染设备渲染。具体地，渲染视角度量可以用于存储多个帧的视角信息。例如，渲染视角度量可以包括多个入口，其中每个入口描述渲染视角和应用于所述视角的VR视频的多个媒体像素点(例如，帧)。此类媒体像素点可以通过开始时间和持续时间来描述。因此，单个入口可以描述采用相同视角的整个媒体像素点组，而不是为每个帧单独上报视角。这种方法可以大大减少通信开销，并减少使用此类上报功能占用的内存。渲染视角度量还可以用于从单个客户端关联的多个渲染设备收集数据和/或从多个客户端收集数据。例如，DASH客户端网元(network element，NE)可以上报渲染视角度量中的视角信息。如本文所使用，DASH客户端NE可以包括客户端设备、媒体感知中间NE和/或与能够渲染媒体内容的多个视角的多个显示设备相关的其它客户端/网络网关。渲染视角度量可以用作有序入口列表或无序入口集。因此，客户端可以获取MPD文件，流化VR媒体内容，根据用户选定的FOV将VR媒体内容渲染到视角上，然后向DASH内容服务器、分析服务器和/或采用渲染视角度量的其它提供方服务器上报视角和对应VR媒体内容帧。

图1为基于VR视频流的示例性系统100的示意图。系统100包括多方向摄像机101、包括编码器103的VR编码设备104、DASH内容服务器111、具有解码器107和度量计算和上报(metrics computing and reporting，MCR)模块106的客户端108以及渲染设备109。系统100还包括网络105，将DASH内容服务器111与客户端108耦合。在一些示例中，网络105还包括媒体感知中间NE 113。

多方向摄像机101包括摄像机设备阵列。每个摄像机设备指向不同角度，使得多方向摄像机101可以从多个角度拍摄周围环境的多方向视频流。例如，多方向摄像机101可以将环境的VR视频121拍摄成球体，多方向摄像机101位于球体的中心。如本文中所使用，球体和球形视频既指几何球体又指几何球体的子部分，例如球缺、球形穹面、球截形等。例如，多方向摄像机101可拍摄180度视频以覆盖一半环境，使得制作人员能够保持在多方向摄像机101的后面。多方向摄像机101还可以在360度(或其任意子部分)内拍摄VR视频121。然而，多方向摄像机101下的地板的一部分可以省略，导致视频小于正球体。因此，此处使用的术语“球体”是为了描述的清晰性而使用的通用术语，不应视为从几何立点进行限制。应注意，如上所述的多方向摄像机101是能够捕获VR视频121的示例性摄像机，并且其它摄像机设备也可以用于捕获VR视频(例如，摄像机、鱼眼镜头)。

将多方向摄像机101的VR视频121转发给VR编码设备104。VR编码设备104可以是包括专用VR编码软件的计算系统。VR编码设备104可以包括编码器103。在一些示例中，编码器103也可以包括在独立于VR编码设备104的计算机系统中。VR编码设备104用于将VR视频121中的多方向视频流从所有相关角度转换为包括整个录制区域的单个多方向视频流。这种转换可以称为图像拼接。例如，可以将同时捕获的每个视频流的帧拼接在一起以创建单个球面图像。然后，可以从球形图像创建球形视频流。为了描述的清晰性，应注意，除非特别说明，术语“帧”和“图像(picture/image)”在本文中可互换使用。

然后，球形视频流可以转发给编码器103进行压缩。编码器103是能够将信息从一种格式转换为另一种格式的设备和/或程序，以便进行标准化、加速和/或压缩。标准化编码器103用于对矩形和/或正方形图像进行编码。因此，编码器103用于将来自球形视频流的每个球形图像映射到多个矩形子图像中。然后，可以将这些子图像放置在单独的子图像视频流中。因此，每个子图像视频流显示随时间从球形视频流的子部分录制的图像流。然后，编码器103可以对每一子图像视频流进行编码以将视频流压缩成可管理的文件大小。一般而言，编码器103将来自每个子图像视频流的每一帧分割成像素块，通过帧间预测和/或帧内预测来压缩像素块以创建包括预测块和残差块的编码块，对残差块应用变换以进一步压缩，并在块上应用各种滤波器。压缩块以及对应的语法存储在码流中，例如，国际标准化组织基本媒体文件格式(International Standardization Organization base media fileformat，ISOBMFF)中的轨迹和/或全向媒体格式(omnidirectional media format，OMAF)中的轨迹。

来自VR视频121的编码轨迹，包括压缩块和相关语法，构成媒体内容123的一部分。媒体内容123可以包括编码视频文件、编码音频文件、组合音频视频文件、以多种语言表示的媒体、有字幕媒体、元数据或其组合。媒体内容123可以分解为适配集。例如，视点的视频可以包括在适配集中，音频可以包括在另一个适配集中，隐藏字幕可以包括在另一个适配集中，元数据可以包括在另一个适配集中等。适配集包含的媒体内容123不能与其它适配集的媒体内容123互换。每个适配集中的内容可以存储在表示中，其中同一适配集中的表示可以互换。例如，可以将来自单个视点的VR视频121下采样为各种分辨率并存储在对应表示中。如本文所使用，视点是一个或多个摄像机录制VR视频121时的位置。在另一示例中，音频(例如，来自单个视点)可以下采样为各种质量，翻译成不同的语言等，并存储在对应表示中。

媒体内容123可以转发给DASH内容服务器111，通过网络105分发给终端用户。DASH内容服务器111可以是用于服务来自客户端108的超文本传输协议(HyperText TransferProtocol，HTTP)请求的任何设备。DASH内容服务器111可包括专用服务器、服务器集群、云计算环境中的虚拟机(virtual machine，VM)或任何其它合适的内容管理实体。DASH内容服务器111可以从VR编码设备104接收媒体内容123。DASH内容服务器111可生成描述媒体内容123的MPD。例如，MPD可以描述预选、视点、适配集、表示、元数据轨迹、其片段等，以及可以通过HTTP请求(例如，HTTP GET)获取这些项目的位置。

具有解码器107的客户端108可以进入与DASH内容服务器111的媒体通信会话125，以通过网络105获取媒体内容123。网络105可以包括因特网、移动通信网络(例如，基于长期演进(long term evolution，LTE)的数据网络)或其它数据通信数据系统。客户端108可以是用于查看来自媒体内容123的视频内容的任何用户操作设备，例如计算机、电视、平板电脑设备、智能手机等。媒体通信会话125可以包括进行媒体请求，例如基于HTTP的请求(例如，HTTP GET请求)。接收到初始媒体请求之后，DASH内容服务器111可以将MPD转发给客户端108。然后，客户端108可以使用MPD中的信息对媒体内容123附加媒体请求，作为媒体通信会话125的一部分。具体地，客户端108可以使用MPD中的数据，根据用户偏好、用户选择、缓冲区/网络条件等来确定应获取媒体内容123的哪些部分。在选择媒体内容123的相关部分之后，客户端108使用MPD中的数据将媒体请求寻址到DASH内容服务器111中包含相关数据的位置。然后，DASH内容服务器111能够使用媒体内容123的所请求部分响应客户端108。通过这种方式，客户端108接收媒体内容123的请求部分，而无需下载整个媒体内容123，节省了网络105上的网络资源(时间、带宽等)。

解码器107是位于用户位置(例如，在客户端108上实现)的设备，用于逆转编码器103的编码过程以解码从DASH内容服务器111的表示中获取的编码码流。解码器107还合并所得到的子图像视频流以重构VR视频序列129。VR视频序列129包含客户端108根据用户选择、偏好和/或网络条件请求的以及解码器107重构的媒体内容123的部分。然后，可以将VR视频序列129转发给渲染设备109。渲染设备109是用于向用户显示VR视频序列129的设备。例如，渲染设备109可以包括固定在用户头部并遮挡用户眼睛的HMD。渲染设备109可以包括用于每个眼睛的屏幕、摄像机、运动传感器、扬声器等的屏幕，并且可以通过无线和/或有线连接与客户端108进行通信。在其它示例中，渲染设备109可以是显示屏，例如电视、计算机显示器、平板电脑(personal computer，PC)。渲染设备109可以向用户显示VR视频序列129的子部分。示出的子部分基于渲染设备109的FOV和/或视角。如本文所使用，视角是二维平面，在其该平面上投影VR视频序列129的已定义部分。FOV是从用户眼睛到视角的锥形投影，因此描述了用户在特定时间点可以看到的VR视频序列129的部分。渲染设备109可以通过采用运动跟踪传感器，根据用户头部移动来改变FOV和视角的位置。使用户能够看到球形视频流中根据头部运动的不同部分。在某些情况下，渲染设备109可以根据用户瞳距(interpupillary distance，IPD)来补偿每个眼睛的FOV，以创建三维空间印象。在某些情况下，可以预定义FOV和视角以向用户提供特定体验。在其它示例中，FOV和视角可由鼠标、键盘、远程控制或其它输入设备控制。

客户端108还包括MCR模块106，MCR模块106是用于从客户端108和/或渲染设备109上操作的各种功能模块查询可测量数据，计算指定的度量，和/或将这些度量发送给相关方的模块。MCR模块106可以位于VR客户端108的内部或外部。然后，可以向分析服务器(例如DASH内容服务器111)或有兴趣和授权访问这些度量的其它实体上报所述指定度量。分析服务器或其它实体可以使用度量数据来分析终端用户体验、评估客户端108设备能力以及评估沉浸式系统性能，以便增强网络105、平台、设备、应用和/或服务的整体沉浸式服务体验。

例如，MCR模块106可以测量并上报在渲染设备109中渲染VR视频序列129的视角。由于视角可以随时间改变，MCR模块106可以保持对用于渲染VR视频序列129的每个帧的视角的感知。在一些情况下，客户端108可以同时采用多个渲染设备109。例如，客户端108可以与HMD耦合、计算机显示屏和/或电视。在一个具体示例中，HMD可以在根据用户头部移动选择的视角上渲染VR视频序列129。同时，显示屏和/或电视可以在根据提示轨迹中的指令选择的视角上渲染VR视频序列129，从而显示预定义的FOV和视角。在另一个示例中，第一用户可以选择HMD使用的FOV和视角，第二用户可以选择显示器/电视使用的FOV和视角。此外，多个用户可采用渲染共享VR视频序列129的不同FOV和视角的多个HDM。因此，存在多种情况，其中MCR模块106可用于测量和上报VR视频序列129的多个帧的多个视角。

MCR模块106可以通过采用渲染视角度量来测量和上报一个或多个客户端108和/或渲染设备109的视角信息，所述渲染视角度量可以包括无序入口集或有序入口列表。每个入口包含一个渲染视角、指定视角关联的VR视频序列129的初始媒体像素点的开始时间以及使用该视角的持续时间。这样，在视角没有改变时在单个入口中描述VR视频序列129的多个帧的视角。例如，用户可以在不改变视角的情况下观看VR视频序列129的相同部分几秒钟。在特定示例中，每秒60帧的3秒视频导致在180个视角上渲染。通过在渲染视角度量中描述视角，当视角不改变时，所有180个视角都可以在单个入口中描述，而不是发送描述相同视角的180个数据对象。此外，客户端108可以将多个渲染设备109(例如，HMD和显示器)的入口收集到单个渲染视角度量中，以便从多个源紧凑地发送视角。此外，MCR模块106可以将相关视角编码到渲染视角度量中，并在渲染期间在指定的断点处，定期将渲染视角度量在VR视频序列129的末尾处转发回服务提供方(例如，DASH内容服务器111)等。渲染视角度量的通信定时可以由用户和/或服务提供方(例如，通过协议)设置。

在一些示例中，网络105可以包括媒体感知中间NE 113。媒体感知中间NE 113是维持一个或多个DASH内容服务器111与一个或多个客户端108之间的媒体通信会话125的感知的设备。例如，媒体通信会话125关联的通信，例如建立消息、拆除消息、状态消息和/或包含VR视频数据的数据报文，可以通过媒体感知中间NE 113在DASH内容服务器111和客户端108之间转发。此外，MCR模块106的度量可以通过媒体感知中间NE 113返回。因此，媒体感知中间NE 113可以从多个客户端108收集视角数据，以便发送回到服务提供方。因此，媒体感知中间NE 113可以从多个客户端108(例如，具有与每个客户端108关联的一个或多个渲染设备109)接收视角数据(例如，在渲染视角度量中)，收集渲染视角度量中的入口之类的数据，并将渲染视角度量转发回服务提供方。由此，渲染视角度量提供了一种便捷的机制来紧凑地上报单个度量中任意数量的渲染视角。这种方法可以减少通过取消发送连续帧的相同视角数据的多个副本而发送的原始视角数据量，并且通过将多个来源的视角数据收集到单个度量中来减少网络105的业务量。因此，基于渲染视角度量，客户端108、网络105、媒体感知中间NE 113和/或DASH内容服务器111可以通过减少用于发送视角信息的通信带宽使用和内存使用，以更高效的方式操作。

图2为例如通过采用系统100的组件对VR视频进行编码的示例性方法200的流程图。在步骤201中，使用多方向摄像机组，例如多方向摄像机101，来捕获多方向视频流。多方向视频流包括不同角度的环境视图。例如，多方向视频流可以在水平面内围绕摄像机捕获360度、180度、240度等度数的视频。多方向视频流还可以在垂直平面上围绕摄像机捕获360度、180度、240度等度数的视频，产生包括足以在一段时间内覆盖摄像机周围的球形区域的信息。

在步骤203中，多方向视频流在时域上同步。具体地，每个方向视频流包括以对应角度拍摄的一系列图像。多方向视频流通过确保从每个方向视频流中在同一时域位置捕获的帧一起处理而同步。然后，来自方向视频流的帧可以在空域中拼接在一起以产生球形视频流。因此，球形视频流的每一帧都包含从所有方向视频流的帧中获取的数据，这些数据发生在共同的时间位置。

在步骤205中，球形视频流映射到矩形子图像视频流。该过程也可以称为将球形视频流投影到矩形子图像视频流。编码器和解码器通常设计为对矩形和/或正方形帧进行编码。因此，将球形视频流映射到矩形子图像视频流产生视频流，该视频流可以分别由非VR特定编码器和解码器进行编码和解码。需要说明的是，步骤203和205是针对VR视频处理而言的，因此可以由专门的VR硬件、软件或其组合来执行。

在步骤207中，构成VR视频的矩形子图像视频流可以转发给编码器103等编码器。然后，编码器将子图像视频流以对应媒体文件格式编码为子图像码流。具体地，编码器可以将每个子图像视频流视为视频信号。编码器可以通过帧间预测、帧内预测等方法对每个子图像视频流的每一帧进行编码。关于文件格式，子图像视频流可以存储在ISOBMFF中。例如，以指定分辨率捕获子图像视频流。然后，可以将子图像视频流下采样到各种较低分辨率进行编码。每个分辨率都可称为表示。质量越低，图像越不清晰，但文件大小却越小。因此，与伴随视觉质量损失的较高质量表示相比，可以使用更少的网络资源(例如，时间、带宽)向用户发送较低质量表示。每个表示可以存储在DASH内容服务器(例如，DASH内容服务器111)处的对应轨迹集中。因此，轨迹可以发送给用户，其中轨迹包括各种分辨率(例如，视觉质量)下的子图像码流。

在步骤209中，可以将子图像码流作为轨迹发送给解码器。具体地，可以将描述各种表示的MPD从DASH内容服务器转发给客户端。这可以在响应来自客户端的请求(例如，HTTP GET请求)时发生。例如，MPD可描述包含各种表示的各种适配集。然后，客户端可以向期望的适配集请求相关表示或其中的一部分。

在步骤211中，解码器107等解码器接收包含子图像码流的轨迹的所请求表示。然后，解码器可以将子图像码流解码为子图像视频流进行显示。解码过程涉及编码过程的逆过程(例如，使用帧间预测和帧内预测)。然后，在步骤213中，解码器可以将子图像视频流合并到球形视频流中，作为VR视频序列向用户展示。然后，解码器可以将VR视频序列转发给渲染设备，例如渲染设备109。

在步骤215中，渲染设备在视角上渲染球形视频流的FOV以向用户展示。如上所述，可以不渲染对应时间点的VR视频序列在FOV和视角之外的区域。

图3为图1中所述的客户端108等VR客户端进行的VR视频展示的示例性架构300的示意图。因此，架构300可用于实现方法200的步骤211、213和/或215或其部分。架构300还可以称为沉浸式媒体度量客户端参考模型，并采用各种观察点(obscrvation point，OP)来测量度量。

架构300包括客户端控制器331，所述客户端控制器331包括支持客户端功能性能的硬件。因此，客户端控制器331可以包括处理器、随机存取存储器、只读存储器、高速缓存存储器、专用视频处理器和对应存储器、通信总线、网卡(例如，网络端口、发送器)。架构300包括网络接入模块339、媒体处理模块337、传感器模块335和媒体播放模块333，这些功能模块包含在客户端控制器331上操作的相关功能。在一个具体示例中，VR客户端可以配置为OMAF播放器，用于文件/片段接收或文件访问、文件/片段解封装、音频、视频或图像码流的解码、音频和图像渲染，以及根据这些模块配置的视角选择。

网络接入模块339包含与网络305通信相关的功能，网络305可以与网络105基本相似。因此，网络接入模块339通过网络305发起与DASH内容服务器的通信会话，获取MPD，并采用HTTP功能(例如，GET、POST)获取VR媒体和支持元数据。媒体包括描述VR视频序列的视频和音频数据，并且可以包括编码VR视频帧和编码音频数据。元数据包括向VR客户端指示如何呈现VR视频序列的信息。在DASH上下文中，可以接收媒体和元数据作为来自对应适配集的选定表示的轨迹和/或轨迹片段。网络接入模块339将媒体和元数据转发给媒体处理模块337。

媒体处理模块337可用于实现系统100的解码器107。媒体处理模块337管理解封装，即从网络报文中去除报头以从报文有效负载中获取数据，在这种情况下，数据为媒体和元数据。媒体处理模块337还管理解析，即分析报文有效负载中的位以确定其中包含的数据的过程。媒体处理模块337还采用分割对解析后的数据进行解码，以确定编码块的位置，应用逆变换获取残差数据，采用帧内预测和/或帧间预测获取编码块，将残差数据应用于编码块进行VR图像的编码像素重构，将VR图像数据合并在一起，产生VR视频序列。解码VR视频序列转发给媒体播放模块333。

客户端控制器331还可以包括传感器模块335。例如，HMD可以包括多个传感器来确定用户活动。客户端控制器331上的传感器模块335解释此类传感器的输出。例如，传感器模块335可接收指示HMD移动的数据，该移动可解释为用户头部移动。传感器模块335还可以接收指示用户眼睛运动的眼睛跟踪信息。传感器模块335还可以从用户接收其它运动跟踪信息以及任何其它与VR展示相关的输入。传感器模块335处理这些信息并输出传感器数据。这些传感器数据可以指示用户当前的FOV和/或用户FOV根据运动跟踪(例如，头部和/或眼睛跟踪)随时间发生变化。传感器数据还可以包括来自渲染设备的任何其它相关反馈。可以根据需要将传感器数据转发给网络接入模块339、媒体处理模块337和/或媒体播放模块333。

媒体播放模块333采用传感器数据、媒体数据和元数据来管理相关渲染设备(例如系统100的渲染设备109)对VR序列进行渲染。例如，媒体播放模块333可以根据元数据确定VR视频序列的优选合成(例如基于帧的时序/顺序等)，媒体播放模块333也可以创建VR视频序列的球形投影。在渲染设备是屏幕的情况下，媒体播放模块333可以根据在客户端控制器331处(例如，从鼠标、键盘、远程)接收的用户输入，确定相关FOV和视角。当渲染设备为HMD时，媒体播放模块333可以根据与头部和/或眼睛跟踪相关的传感器数据来确定FOV和视角。媒体播放模块333采用确定的FOV来确定要渲染到视角上的VR视频序列的球形投影的截面。然后，媒体播放模块333可以将待渲染的VR视频序列的一部分转发给渲染设备以显示给用户。

架构300还包括MCR模块306，MCR模块306可用于从系统100实现MCR模块106。MCR模块306从各个功能模块查询可测量数据并计算指定度量。MCR模块306可以位于VR客户端的内部或外部。然后，可以向分析服务器或有兴趣和授权访问这些度量的其它实体上报所述指定度量。分析服务器或其它实体可以使用度量数据来分析终端用户体验、评估客户端设备能力以及评估沉浸式系统性能，以便增强网络、平台、设备、应用和服务的整体沉浸式服务体验。MCR模块306可以通过采用各种接口来查阅数据，称为观察点，表示为OP1、OP2、OP3、OP4和OP5。MCR模块306还可以根据测量数据确定对应的度量，可以向服务提供方上报所述度量。

MCR模块306可以通过OP1访问网络接入模块339，并测量与发出媒体文件/片段请求以及从网络305接收媒体文件或片段流相关的度量。

MCR模块306可以通过OP2访问媒体处理模块337，媒体处理模块337处理文件或接收到的片段，提取编码码流，解析媒体和元数据，并对媒体进行解码。OP2的可收集数据可以包括MPD信息等各种参数，这些参数可以包括媒体类型、媒体编解码器、适配集、表示和/或预选标识符(identifier，ID)。OP2还可以收集OMAF元数据，例如，全向视频投影、全向视频区域封装和/或全向视角。OP2还可以收集其它媒体元数据，例如帧封装、颜色空间和/或动态范围。

MCR模块306可以通过OP3访问传感器模块335，传感器模块335获取用户观看方向、位置和交互。网络接入模块339、媒体处理模块337和媒体播放模块333可以使用此类传感器数据来检索、处理和渲染VR媒体元素。例如，当前观看方向可以由头部跟踪以及可能的眼睛跟踪功能确定。除了由渲染器渲染解码视频和音频信号的合适部分之外，当前观看方向还可以由网络接入模块339用于视角相关流以及由视频和音频解码器用于解码优化。例如，OP3可以测量可收集的传感器数据的各种信息，例如当前视角的中心点、头部运动跟踪和/或眼睛跟踪。

MCR模块306可以通过OP4访问媒体播放模块333，媒体播放模块333同步VR媒体组件的播放，为用户提供完全沉浸式的VR体验。解码图像可以根据元数据(包括区域封装、帧封装、投影和球体旋转等信息)在当前观看方向或视角基础上投影到头戴式显示器或其它任何显示设备的屏幕上。同样地，根据当前观看方向，例如通过耳机渲染解码音频。媒体播放模块333可以支持每个VR媒体组件的颜色转换、投影和媒体合成。例如，来自OP4的可采集数据可以包括媒体类型、媒体像素点展示时间戳、壁钟时间、实际渲染视角、实际媒体像素点渲染时间和/或实际渲染帧率。

MCR模块306可以通过OP5访问VR客户端控制器331，VR客户端控制器331管理播放器配置，例如显示分辨率、帧率、FOV、镜头分离距离等。OP5可用于测量客户端能力和配置参数。例如，OP5的可收集数据可以包括显示分辨率、显示密度(例如，以每英寸像素(pixelper inch，PPI)为单位)、水平和垂直FOV(例如，以度为单位)、媒体格式和编解码器支持、和/或操作系统(operating system，OS)支持。

因此，MCR模块306可以确定与VR视频序列渲染相关的各种度量，并通过网络接入模块339和网络305将此类度量传回服务提供方。例如，MCR模块306可以通过OP3和/或OP4确定由一个或多个渲染设备渲染的视角。然后，MCR模块可以在渲染视角度量中包括此类信息，以便与所述服务提供方进行通信。

图4为示例性媒体通信会话400的协议图。例如，媒体通信会话400可用于在系统100中实现媒体通信会话125。此外，媒体通信会话400可用于实现方法200的步骤209和/或211。此外，媒体通信会话400可用于将媒体和元数据传送给根据架构300运作的VR客户端，并返回由MCR模块306计算的对应度量。

当客户端(例如客户端108)向DASH内容服务器(例如DASH内容服务器111)发送MPD请求消息时，媒体通信会话400可以从步骤422开始。MPD请求是基于HTTP的MPD文件请求，描述指定的媒体内容，例如VR视频序列。DASH内容服务器在步骤422中接收MPD请求，并在步骤424通过向客户端发送MPD进行响应。MPD描述视频序列并描述用于确定视频序列的组件的位置的机制。这使客户端能够处理对媒体内容所需部分的请求。下面结合图5更详细地描述示例性MPD。

根据MPD，客户端可以在步骤426中从DASH内容服务器发出媒体请求。例如，可以将媒体内容组织成适配集。每个适配集可以包含一个或多个可互换表示。MPD描述了这些适配集和表示。MPD还可以通过静态地址和/或用于确定此类表示的地址的算法来描述此类表示的网络地址位置。因此，客户端根据步骤424的MPD创建媒体请求以获取所需的表示。客户端可以动态地确定所需的表示(例如，根据网络速度、缓冲区状态、请求的视点、用户使用的FOV/视角等)。然后，在步骤426中，客户端向DASH内容服务器发送媒体请求。在步骤428中，DASH内容服务器通过向客户端发送包含媒体内容的消息来回应步骤426的媒体请求。例如，DASH内容服务方可以在步骤428中向客户端发送三秒钟的媒体内容片段以响应步骤426的媒体请求。客户端可以根据变化的条件(例如，当网络条件有利时，要求更高的分辨率片段；当网络拥塞时，要求更低的分辨率片段等)动态地改变表示，从而改变分辨率。因此，可以重复交换步骤426的媒体请求和步骤428的响应性媒体内容消息。

在步骤429中，客户端渲染接收到的媒体内容。具体地，客户端可以将步骤428中接收到的媒体内容进行投影(根据媒体播放模块333)，根据用户输入或传感数据确定媒体内容的FOV，并在一个或多个渲染设备中将该媒体内容的FOV渲染到视角上。如上所述，客户端可以采用MCR模块测量与渲染过程相关的各种度量。因此，客户端还可以在步骤429中生成渲染视角度量。渲染视角度量包含一个或多个渲染设备实际渲染的视角中的每个视角的入口。每个入口指示所使用的视角以及与对应渲染设备最初使用的视角关联的开始时间和视角使用持续时间。因此，渲染视角度量可以用于上报为客户端所使用的一个或多个渲染设备渲染的多个视角。然后，在步骤431中，从客户端向DASH内容服务器发送渲染视角度量。

在其它示例中，媒体感知中间NE可以在客户端和DASH内容服务器之间的网络中操作。具体地，媒体感知中间NE可以被动侦听一个或多个DASH内容服务器和多个客户端之间的媒体通信会话400，每个客户端具有一个或多个渲染设备。因此，客户端可以在步骤431的渲染视角度量中或在其它数据消息中将视角信息转发给媒体感知中间NE。然后，媒体感知中间NE可以在步骤432中在渲染视角度量中从多个客户端收集视角信息，所述渲染视角度量与在步骤431中的渲染视角度量基本相似，但包含对应于多个客户端的视角。然后，可以在步骤432中向DASH内容服务器发送渲染视角度量。应注意，可以将步骤431和/或432的渲染视角度量发送给服务提供方操作的任何服务器，例如DASH内容服务器、分析服务器或其它服务器。为了简洁和清晰描述，仅以DASH内容服务器为例进行说明，除非另有说明，本发明实施例并不限制于此。

图5为可在媒体通信会话期间用于流化VR视频的示例性DASH MPD 500的示意图。例如，MPD 500可用于在系统100中进行媒体通信会话125。因此，方法500可以用作方法200的步骤209和211的部分。此外，架构300的网络接入模块339可以采用MPD 500来确定要请求的媒体和元数据。此外，MPD 500可用于在媒体通信会话400中实现步骤424的MPD。

MPD 500还可以包括一个或多个适配集530。每个适配集530包含一个或多个表示532。具体地，适配集530包含具有常见类型且可互换渲染的表示532。例如，音频数据、视频数据和元数据将作为不能在不影响媒体展示的情况下与视频数据类型交换的音频数据类型定位在不同的适配集530中。此外，不同视点的视频不可互换，因为此类视频包含不同的图像，因此可包括在不同的适配集530中。

表示532可包含可以渲染以创建多媒体展示的一部分的媒体数据。在视频上下文中，同一适配集530中的表示532可包含不同分辨率下的同一视频。因此，此类表示532可以根据期望的视频质量进行互换使用。在音频上下文中，公共适配集530中的表示532可以包含不同语言的不同质量的音频和音轨。适配集530中的表示532还可以包含定时元数据跟踪(例如，提示跟踪)等元数据。因此，包含所述时间元数据的表示532可以与相应的视频表示532、音频表示532、闭合字幕表示532等结合使用，以确定应如何呈现此类媒体表示532。例如，定时元数据表示532可指示根据时间变化的首选视点和/或首选FOV/视角等。元数据表示532还可包含其它支持信息，例如菜单数据、加密/安全数据、版权数据、兼容性数据等。

表达532可包含片段534。片段534包含预定时间段(例如，3秒)的媒体数据。因此，片段534可包含可通过网络通过预定统一资源定位符(universal resource locator，URL)访问的部分音频数据、部分视频数据等。MPD 500包含指示每个分段534的URL的数据。因此，客户端可以选择应渲染的所需适配集530。然后，客户端可以确定应根据当前网络拥塞获得的表示532。然后，客户端可以请求对应片段534，以便为用户呈现所述媒体展示。

图6为示例性渲染视角度量600的示意图。渲染视角度量600可以用作系统100中的媒体通信会话125的一部分，并且可以响应于方法200的步骤209和步骤211而使用。例如，渲染视角度量600可以携带由架构300的MCR模块306计算的度量。渲染视角度量600也可以用于实现媒体通信会话400的步骤431和/或432的渲染视角度量。

渲染视角度量600包括数据对象，也可以由关键字表示。数据对象可以包括具有如图6所示的描述的对应类型。具体地，渲染视角度量600可以包括类型为列表的RenderedViewports 641对象，指示有序列表。RenderedViewports 641对象包括由一个或多个客户端的一个或多个渲染设备渲染的视角列表。因此，RenderedViewports 641对象可以包括描述由多个渲染设备渲染的多个视角的数据，所述多个渲染设备可以由公共客户端支持和/或从多个客户端收集。

渲染视角度量600的RenderedViewports 641对象包括由一个或多个渲染设备为用户渲染的(例如，多个)视角中的每个视角的入口643对象。具体地，入口643对象可以包括由单个VR客户端设备在对应渲染设备中渲染的视角。因此，渲染视角度量600可以包括一个或多个入口643，所述入口643包括视角。

每个入口643对象可以包括元素类型ViewportDataType的视角649。视角649指定由与入口643对象关联的对应视角渲染的全向媒体(例如，VR视频序列)的区域(例如，从由startTime 645指示的媒体像素点开始渲染)。每个入口643对象还包括类型为媒体时间的startTime 645。startTime 645指定在渲染当前入口643对象关联的对应视角649时应用的VR视频序列的初始媒体像素点的媒体展示时间。每个入口643对象还包括类型为整数的持续时间647。持续时间647指定应用于入口643对象关联的对应视角649的VR视频序列的连续展示的媒体像素点的持续时间。连续展示表示媒体时钟在持续时间647描述的间隔内继续以播放速度快进。

应注意，虽然渲染视角度量600也可以通过将持续时间647替换为编码为媒体时间类型的endTime来实现。这样的endTime随后将指定在渲染当前入口643对象关联的对应视角649时应用的VR视频序列的最终媒体像素点的媒体展示时间(例如，从startTime 645指示的媒体像素点开始)。

图7为示例性视频编码设备700的示意图。视频编码设备700适用于实现本文所述的所公开示例/实施例。视频编码设备700包括下行端口720、上行端口750和/或收发器单元(Tx/Rx)710，收发器单元包括发送器和/或接收器，用于通过网络上行和/或下行传输数据。视频编码设备700还包括处理器730和用于存储数据的存储器732，处理器1130包括逻辑单元和/或处理数据的中央处理单元(central processing unit，CPU)。视频编码设备700还可包括光电(optical-to-electrical，OE)组件、电光(electrical-to-optical，EO)组件、与上行端口750和/或下行端口720耦合用于通过光或无线通信网络进行数据通信的无线通信组件。视频编码设备700还可以包括用于向用户和从用户发送数据的输入和/或输出(input/output，I/O)设备760。I/O设备760可以包括用于显示视频数据的显示器、用于输出音频数据的扬声器和HMD等输出设备。I/O设备760还可以包括键盘、鼠标、轨迹球、HMD等输入设备，和/或用于与此类输出设备交互的对应接口。

处理器730由硬件和软件实现。处理器730可以实现为一个或多个CPU芯片、核心(例如，作为多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application specific integrated circuit，ASIC)和数字信号处理器(digital signal processor，DSP)。处理器730与下行端口720、Tx/Rx710、上行端口750和存储器732进行通信。处理器730包括度量模块714。度量模块714可以实现上文所公开的全部或部分实施例。例如，度量模块714可用于根据示例实现VR编码设备104、DASH内容服务器111、媒体感知中间NE113、客户端108和/或渲染设备109的功能。此外，度量模块714可以实现方法200的相关部分。此外，度量模块714可以用于实现架构300，因此可以实现MCR模块306。在另一示例中，度量模块714可以通过以下方式实现媒体通信会话400：在接收到MPD500和渲染相关VR视频序列之后，发送渲染视角度量600。因此，度量模块714可以支持在一个或多个客户端上渲染一个或多个VR视频序列的多个视角，进行测量以确定渲染的视角，对渲染视角度量中的渲染视角进行编码，以及将包含多个视角的渲染视角度量转发给服务提供方控制的服务器，以支持存储优化和增强沉浸式媒体质量及相关体验。当在媒体感知中间NE 113上实现时，度量模块714还可以从多个客户端收集视角数据以存储在渲染视角度量中。因此，度量模块714改进了视频编码设备700的功能并解决了针对视频编码技术的问题。此外，度量模块714将视频编码设备700变换到不同的状态。或者，度量模块714可以实现为存储在存储器732中并由处理器730执行的指令(例如，存储在非瞬时性介质上的计算机程序产品)。

存储器732包括一个或多个存储器类型，例如磁盘、磁带驱动器、固态驱动器、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、快闪存储器、三态内容寻址存储器(ternary content-addressable memory，TCAM)、静态随机存取存储器(static random-access memory，SRAM)等。存储器732可用作溢出数据存储设备，以在选择执行程序时存储程序，以及存储程序执行时读取的指令和数据。

图8为发送包含与一个或多个渲染设备渲染的多个视角相关的信息的渲染视角度量(例如，渲染视角度量600)的示例性方法800的流程图。因此，方法800可用作系统100中媒体通信会话125的一部分，和/或用作方法200的步骤209和步骤211的一部分。此外，可以采用方法800来发送由架构300的MCR模块306计算的度量。此外，方法800可用于实现媒体通信会话400。此外，方法800可由视频编码设备700响应于接收到MPD500而实现。

方法800可以由DASH客户端NE实现，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。方法800可以响应于向DASH内容服务器发送MPD请求而开始。根据操作方法800的设备(例如，客户端或媒体感知中间NE)，这样的请求可以本地生成或从一个或多个客户端接收。

在步骤801中，响应于MPD请求而接收DASH MPD。DASH MPD描述媒体内容，该媒体内容包括VR视频序列。然后，在步骤803中，根据MPD获取媒体内容。此类消息由相关客户端生成和接收，并可根据示例通过媒体感知中间NE传递。在步骤805中，将媒体内容转发给一个或多个渲染设备进行渲染。这样的渲染可以同时在一个或多个渲染设备上进行。

在步骤807中，确定渲染视角度量。渲染视角度量指示由一个或多个渲染设备渲染的VR视频序列的视角信息。所述渲染视角度量包括多个入口，其中，所述入口中的至少一个入口指示视角以及应用于所述视角的所述VR视频序列的多个媒体像素点。当方法800在客户端上实现时，渲染视角度量包括用于在客户端关联的(例如，直接耦合)多个渲染设备上渲染的视角。当在媒体感知中间NE上实现方法800时，可以采用来自多个客户端的视角数据的内容来确定渲染视角度量的内容。一旦确定了渲染视角度量，则在步骤809中将渲染视角度量转发给提供方服务器。例如，渲染视角度量可以转发给生成VR视频序列的服务提供方和/或内容制作者使用的DASH内容服务器、分析服务器或其它数据存储库。

图9为发送包含与一个或多个渲染设备渲染所使用的多个视角相关的信息的渲染视角度量(例如，渲染FOV集度量600)的示例性DASH客户端NE 900的示意图。因此，DASH客户端NE 900可用于实现系统100中的媒体通信会话125的一部分，和/或实现方法200的步骤209和步骤211的一部分。此外，可以采用DASH客户端NE 900来发送由架构300的MCR模块306计算的度量。此外，DASH客户端NE 900可用于实现媒体通信会话400。此外，DASH客户端NE900可以由视频编码设备700实现，并且可以接收MPD 500。此外，DASH客户端NE 900可以用于实现方法800。

DASH客户端NE 900包括接收器901，用于：接收描述包括VR视频序列的媒体内容的DASHMPD；根据所述MPD获取所述媒体内容。DASH客户端NE 900还包括：转发模块903(例如，发送器、端口)，用于将媒体内容转发给一个或多个渲染设备进行渲染。DASH客户端NE 900还包括渲染视角度量模块，用于确定包括一个或多个渲染设备渲染的VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，其中所述入口中的至少一个入口指示视角以及应用到所述视角的VR视频序列的多个媒体像素点。DASH客户端NE 900还包括：发送器907，用于向提供方服务器发送渲染视角度量。

当第一组件和第二组件之间除了线、迹或其它介质之外没有其它中间组件时，第一组件直接与第二组件耦合。当第一组件和第二组件之间存在线、迹或其它介质之外的其它中间组件时，第一组件间接与第二组件耦合。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明，否则使用术语“约”是指以下描述的数字的±10％。

虽然本发明多个具体实施例，但应当理解，所公开的系统和方法也可通过其它多种具体形式体现，而不会脱离本发明的精神或范围。本发明的示例应被视为说明性而非限制性的，且本发明并不限于本文本所给出的细节。例如，各种元件或组件可以在另一系统中组合或合并，或者某些特征可以省略或不实现。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、组件、技术或方法进行组合或合并。其它变更、替换、更替示例对本领域技术人员而言是显而易见的，均不脱离此处公开的精神和范围。

Claims

1.一种在基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)中实现的方法，其特征在于，所述方法包括：

接收器接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列；

所述接收器根据所述MPD获取所述媒体内容；

将所述媒体内容转发给一个或多个渲染设备进行渲染；

处理器确定包括所述一个或多个渲染设备渲染的所述VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，所述入口中的至少一个入口指示视角,每个入口对象包括开始时间，所述开始时间指定在从初始媒体像素点开始渲染所述入口对象关联的视角时，初始媒体像素点的媒体展示时间,每个入口对象包括持续时间，所述持续时间指定从开始时间指示的初始媒体像素点开始渲染所述入口对象关联的视角时，连续展示的媒体像素点的持续时间；

发送器向提供方服务器发送所述渲染视角度量。

2.根据权利要求1所述的方法，其特征在于，所述渲染视角度量中的所述多个入口包括所述一个或多个渲染设备为用户渲染的多个视角中每个视角的入口对象。

3.根据权利要求1至2中任一项所述的方法，其特征在于，每个入口对象包括结束时间元素，所述结束时间元素指定在渲染所述入口对象关联的对应视角时应用的所述VR视频序列的最终媒体像素点的媒体展示时间。

4.根据权利要求1至3中任一项所述的方法，其特征在于，每个入口对象包括视角元素，所述视角元素指定所述入口对象关联的对应视角渲染的所述VR视频序列的区域。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。

6.一种基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)，其特征在于，包括：

接收器，用于：

接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列；

根据所述MPD获取所述媒体内容；

一个或多个端口，用于：将所述媒体内容转发给一个或多个渲染设备进行渲染；

处理器，与所述接收器和所述端口耦合，所述处理器用于：

确定包括所述一个或多个渲染设备渲染的所述VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，所述入口中的至少一个入口指示视角,每个入口对象包括开始时间，所述开始时间指定在从初始媒体像素点开始渲染所述入口对象关联的视角时，初始媒体像素点的媒体展示时间,每个入口对象包括持续时间，所述持续时间指定从开始时间指示的初始媒体像素点开始渲染所述入口对象关联的视角时，连续展示的媒体像素点的持续时间；

通过所述一个或多个端口向提供方服务器发送所述渲染视角度量。

7.根据权利要求6所述的DASH客户端NE，其特征在于，所述渲染视角度量中的所述多个入口包括所述一个或多个渲染设备为用户渲染的多个视角中每个视角的入口对象。

8.根据权利要求6至7中任一项所述的DASH客户端NE，其特征在于，每个入口对象包括结束时间元素，所述结束时间元素指定在渲染所述入口对象关联的对应视角时应用的所述VR视频序列的最终媒体像素点的媒体展示时间。

9.根据权利要求6至8中任一项所述的DASH客户端NE，其特征在于，每个入口对象包括视角元素，所述视角元素指定所述入口对象关联的对应视角渲染的所述VR视频序列的区域。

10.根据权利要求6至9中任一项所述的DASH客户端NE，其特征在于，所述DASH客户端NE是通过所述一个或多个端口与所述一个或多个渲染设备耦合的客户端，还包括发送器，用于通过所述一个或多个端口中的至少一个端口与所述DASH内容服务器进行通信。

11.根据权利要求6至10中任一项所述的DASH客户端NE，其特征在于，所述DASH客户端NE是媒体感知中间NE，并且还包括与所述一个或多个端口耦合的至少一个发送器，用于通过一个或多个客户端将所述媒体内容转发给一个或多个渲染设备，以及向所述DASH内容服务器发送所述渲染视角度量。

12.一种非瞬时性计算机可读介质，其特征在于，包括供视频编码设备使用的计算机程序产品，其中，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质上的计算机可执行指令，当所述计算机可执行指令由处理器执行时，使得所述视频编码设备执行根据权利要求1至5中任一项所述的方法。

13.一种基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)，其特征在于，包括：

接收模块，用于接收描述包括虚拟现实(virtualreality，VR)视频序列的媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，并根据所述MPD获取所述媒体内容；

转发模块，用于将所述媒体内容转发给一个或多个渲染设备进行渲染；

渲染视角度量模块，用于确定包括所述一个或多个渲染设备渲染的所述VR视频序列的视角信息的渲染视角度量，所述渲染视角度量包括多个入口，所述入口中的至少一个入口指示视角,每个入口对象包括开始时间，所述开始时间指定在从初始媒体像素点开始渲染所述入口对象关联的视角时，初始媒体像素点的媒体展示时间,每个入口对象包括持续时间，所述持续时间指定从开始时间指示的初始媒体像素点开始渲染所述入口对象关联的视角时，连续展示的媒体像素点的持续时间；

发送模块，用于向提供方服务器发送所述渲染视角度量。

14.根据权利要求13所述的DASH客户端NE，其特征在于，所述渲染视角度量中的所述多个入口包括所述一个或多个渲染设备为用户渲染的多个视角中每个视角的入口对象。

15.根据权利要求13至14中任一项所述的DASH客户端NE，其特征在于，每个入口对象包括结束时间元素，所述结束时间元素指定在渲染所述入口对象关联的对应视角时应用的所述VR视频序列的最终媒体像素点的媒体展示时间。

16.根据权利要求13至15中任一项所述的DASH客户端NE，其特征在于，每个入口对象包括视角元素，视角元素指定所述入口对象关联的所述对应视角渲染的所述VR视频序列的区域。

17.一种方法，其特征在于，包括：

通过一个或多个观察点(observation point，OP)从功能模块查询可测量数据以在度量计算和上报(metrics computing and reporting，MCR)模块中计算度量，所述度量包括已经在特定媒体展示时间间隔中渲染的由虚拟现实(virtual reality，VR)客户端用来渲染VR视频的视角列表,每个入口对象包括开始时间，所述开始时间指定在从初始媒体像素点开始渲染所述入口对象关联的视角时，初始媒体像素点的媒体展示时间,每个入口对象包括持续时间，所述持续时间指定从开始时间指示的初始媒体像素点开始渲染所述入口对象关联的视角时，连续展示的媒体像素点的持续时间；

采用渲染视角度量向分析服务器上报所述视角列表。

18.根据权利要求17所述的方法，其特征在于，所述渲染视角度量包括多个渲染视角中每个所述渲染视角的入口对象。

19.根据权利要求17至18中任一项所述的方法，其特征在于，每个入口对象包括类型为视角数据类型(ViewportDataType)的视角，所述视角指示与从startTime指示的媒体像素点开始渲染的视角对应的全向媒体的区域。