CN111869222B

CN111869222B - 基于http的dash客户端网元、方法及介质

Info

Publication number: CN111869222B
Application number: CN201980019546.2A
Authority: CN
Inventors: 王业奎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-03-22
Filing date: 2019-02-19
Publication date: 2022-05-17
Anticipated expiration: 2039-02-19
Also published as: WO2019182702A3; WO2019182702A2; EP3769513A1; WO2019182701A1; WO2019182703A1; EP3769514A2; CN112219403B; CN111869222A; CN111869223A; CN112219403A; US20200304552A1; EP3769515A1; US20200304551A1; US20200304549A1

Abstract

本发明公开了一种在基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)网络中实现的机制。所述机制包括接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列。根据所述MPD获取所述媒体内容。将所述媒体内容转发给多个渲染设备进行渲染。确定显示信息集度量，包括由所述渲染设备渲染的所述VR视频序列的显示信息。向提供方服务器发送所述显示信息集度量。

Description

基于HTTP的DASH客户端网元、方法及介质

本专利申请要求Ye-Kui Wang于2018年3月22日递交的发明名称为“沉浸式媒体度量 (Immersive Media Metrics)”的第62/646,425号美国临时专利申请案的权益，其内容以引用的方式并入本文本中。

技术领域

本发明大体上涉及虚拟现实(virtual reality，VR)视频系统，具体涉及通过基于超文本传输协议的动态自适应流(Dynamic Adaptive Streaming over Hypertexttransfer protocol，DASH)发送VR视频相关数据。

背景技术

VR，也可称为全向媒体、沉浸式媒体和/或360度媒体，是在模拟环境中使用视觉、音频和/或触觉反馈进行的交互式录制和/或计算机生成的体验。对于视觉角度，VR提供球体(或球体的子部分)成像，用户位于所述球体的中心。所述球体成像可由头戴式显示器(head mounted display，HMD)或其它显示单元来渲染。具体地，用户可以在VR显示器上通过视角查看球体的子部分。用户可以动态地改变视角的位置和/或角度来体验VR视频所呈现的环境。 VR视频的每张图像(也称为帧)包括视角内的球体区域和视角外的球体区域。因此，VR帧包括的数据比非VR视频图像明显更多。内容提供方有意于以流方式提供VR视频。然而，VR视频包括的数据比传统视频明显更多，属性也明显不同。因此，传统视频的流机制无法高效地流化VR视频。

发明内容

在一个实施例中，本发明包括一种在基于超文本传输协议(Hypertext TransferProtocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)中实现的方法。所述方法包括：接收器接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列。所述方法还包括：所述接收器根据所述MPD获取所述媒体内容。所述方法还包括：将所述媒体内容转发给多个渲染设备进行渲染。所述方法还包括：处理器确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量。所述方法还包括：发送器向提供方服务器发送所述显示信息集度量。在某些情况下，数据可以从客户端发送到服务器，表示用户已查看视场角(field of view，FOV)。具体地，可以向服务器发送单个VR设备的单个FOV相关信息。然而，存在单个客户端使用多个FOV的情况，例如计算机显示器和每个设备上具有不同FOV的HMD组合。此外，媒体网关可以与同时采用不同FOV的多个渲染设备结合使用。本实施例提供了一种显示信息集度量，包括用于潜在地显示普通 VR视频序列的不同FOV的多个客户端的显示信息。这样，多个相关客户端的显示信息被打包并从客户端设备发送到服务器。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述VR视频序列在所述多个渲染设备上同时渲染。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述显示集度量包括所述渲染设备中至少一个渲染设备关联的每个客户端的入口对象。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括显示分辨率(displayResolution)值，以像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示分辨率。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括显示像素密度(displayPixelDensity)值，以每英寸像素为单位表示由对应渲染设备渲染的所述VR 视频序列的显示像素密度。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括显示刷新率(displayRefreshRate)值，以赫兹为单位表示由对应渲染设备渲染的所述VR视频序列的显示刷新率。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述显示集度量包括所述渲染设备渲染的所述VR视频序列的显示信息列表。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。

在一个实施例中，本发明包括DASH客户端NE，其包括接收器，用于接收描述包括VR视频序列的媒体内容的DASH MPD；根据所述MPD获取所述媒体内容。所述DASH客户端NE还包括：一个或多个端口，用于将所述媒体内容转发给多个渲染设备进行渲染。所述DASH客户端NE还包括：处理器，与所述接收器和所述端口耦合。所述处理器用于：确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量；通过所述一个或多个端口向提供方服务器发送所述显示信息集度量。在某些情况下，数据可以从客户端发送到服务器，表示用户已查看FOV。具体地，可以向服务器发送单个VR设备的单个FOV相关信息。然而，存在单个客户端使用多个FOV的情况，例如计算机显示器和每个设备上具有不同FOV的HMD组合。此外，媒体网关可以与同时采用不同FOV的多个渲染设备结合使用。本实施例提供了一种显示信息集度量，包括用于潜在地显示普通VR视频序列的不同FOV的多个客户端的显示信息。这样，多个相关客户端的显示信息被打包并从客户端设备发送到服务器。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括displayResolution值，以像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示分辨率。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括displayPixelDensity值，以每英寸像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示像素密度。

可选地，上述任一方面中，在所述方面的另一实现方式中，每个入口对象包括displayRefreshRate值，以赫兹为单位表示由对应渲染设备渲染的所述VR视频序列的显示刷新率。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是通过所述一个或多个端口与所述多个渲染设备耦合的客户端，还包括发送器，用于通过所述一个或多个端口中的至少一个端口与所述DASH内容服务器进行通信。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述DASH客户端NE是媒体感知中间NE，并且还包括与所述一个或多个端口耦合的至少一个发送器，用于通过一个或多个客户端将所述媒体内容转发给所述多个渲染设备，以及向DASH内容服务器发送所述显示信息集度量。

在一个实施例中，本发明包括一种非瞬时性计算机可读介质，包括供视频编码设备使用的计算机程序产品，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质上的计算机可执行指令，当所述计算机可执行指令由处理器执行时，使得所述视频编码设备执行任一上述方面所述的方法。

在一个实施例中，本发明包括DASH客户端NE，包括接收模块，用于接收描述包括VR视频序列的媒体内容的DASH MPD；根据所述MPD获取所述媒体内容。所述DASH客户端NE包括：转发模块，用于将所述媒体内容转发给多个渲染设备进行渲染。所述DASH客户端NE包括：显示信息集度量模块，用于确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量。所述DASH客户端NE包括：发送模块，用于向提供方服务器发送所述显示信息集度量。在某些情况下，数据可以从客户端发送到服务器，表示用户已查看视场角(field of view，FOV)。具体地，可以向服务器发送单个VR设备的单个FOV相关信息。然而，存在单个客户端使用多个FOV的情况，例如计算机显示器和每个设备上具有不同FOV的HMD组合。此外，媒体网关可以与同时采用不同FOV的多个渲染设备结合使用。本实施例提供了一种显示信息集度量，包括用于潜在地显示普通VR视频序列的不同FOV的多个客户端的显示信息。这样，多个相关客户端的显示信息被打包并从客户端设备发送到服务器。

在一个实施例中，本发明包括一种方法，包括：通过一个或多个观察点(observation point，OP)从功能模块查询可测量数据以在度量计算和上报(metricscomputing and reporting，MCR)模块中计算度量，所述度量包括由VR客户端用来渲染VR视频的显示信息集；采用显示信息集度量向分析服务器上报所述显示信息集。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述显示信息集度量包括 displayResolution字符串，以像素为单位表示所述VR视频的显示分辨率。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述显示信息集度量包括 displayPixelDensity整数，以每英寸像素为单位表示所述VR视频序列的显示像素密度。

可选地，上述任一方面中，在所述方面的另一实现方式中，所述显示信息集度量包括 displayRefreshRate值，以赫兹为单位表示所述VR视频序列的显示刷新率。

为清楚起见，上述任一实施例可以与上述其它任一或多个实施例结合以创建本发明范围内的新实施例。

这些和其它特征将结合附图和权利要求书从以下详细描述中更清楚地理解。

附图说明

为了更透彻地理解本发明，现参阅结合附图和具体实现方式而描述的以下简要说明，其中的相同附图标记表示相同部分。

图1为基于VR视频流的示例性系统的示意图。

图2为对VR视频进行编码的示例性方法的流程图。

图3为VR客户端进行的VR视频展示的示例性架构的示意图。

图4为示例性媒体通信会话的协议图。

图5为可在媒体通信会话期间用于流化VR视频的示例性DASH媒体展示描述(MediaPresentation Description，MPD)的示意图。

图6为示例性显示信息集度量的示意图。

图7为示例性视频编码设备的示意图。

图8为发送包含与一个或多个渲染设备显示的多个FOV相关的显示信息的显示信息集度量的示例性方法的流程图。

图9为用于发送包含与一个或多个渲染设备显示的多个FOV相关的显示信息的显示信息集度量的示例性DASH客户端网元(network element，NE)的示意图。

具体实施方式

首先应理解，尽管下文提供一项或多项实施例的说明性实现方式，但所公开的系统和/ 或方法可使用任何数目的技术来实现，无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实现方式、附图和技术，包括本文所说明并描述的示例性设计和实现方式，而是可在所附权利要求书的范围以及其等效物的完整范围内修改。

DASH是一种通过网络流化视频数据的机制。DASH向客户端提供描述视频的媒体展示描述(Media Presentation Description，MPD)文件。具体地，MPD描述视频的各种表示以及这些表示的位置。例如，表示可包含不同分辨率下的相同视频内容。客户端可以从表示中获取视频片段，显示给客户端。具体地，客户端可以监控视频缓冲区和/或网络通信速度，并根据当前情况通过基于MPD中的数据在表示之间切换的方式动态改变视频分辨率。

当MPD应用于VR视频时，客户端可以利用MPD获取球形视频帧或其部分。客户端还可以确定用户想要的FOV。FOV包括用户希望查看的球形视频帧的子部分。然后，客户端可以渲染对应于FOV的球形视频帧的部分。FOV可以在运行时动态地改变。例如，用户可以采用根据用户头部移动显示球形视频帧的FOV的HMD。用户可以查看VR视频，就像用户出现在录制时VR摄像机的位置一样。在另一示例中，与显示屏(和/或电视)耦合的计算机可以根据鼠标移动、键盘输入、远程控制输入等在对应屏幕上显示FOV。甚至可以预定义FOV，这样用户就可以体验视频制作者指定的VR内容。可以设置一组客户端设备，以在不同的渲染设备上显示不同的FOV。例如，计算机可以在HMD上显示第一FOV，在显示屏/电视上显示第二FOV。

内容制作者可能对终端用户实际观看VR视频的方式感兴趣。例如，客户端设备和/或相关渲染设备的显示设置可以使内容制作者优化未来制作的内容以及优化网络存储。在一个特定示例中，当许多客户端请求较低分辨率的媒体内容且较少客户端请求较高分辨率的媒体内容时，制作者可以创建更多低分辨率表示选项和更少高分辨率选项。当许多客户端请求较高分辨率的媒体内容并且较少客户端请求较低分辨率的媒体内容时，也可以使用逆向方法。此外，如果许多客户端请求特定分辨率的媒体内容，则未来媒体内容可用分辨率稍高和分辨率稍低的表示形式来提供更多选项。在另一示例中，与重复请求的分辨率、像素密度和/或刷新率关联的表示可以存储在更靠近终端用户的内容数据网络中，以便更快地访问，而不太常请求的表示可以保持在更远离终端用户的服务器上。因此，内容制作者和/或服务提供方根据终端用户使用的显示设置来优化当前和未来媒体的产品。然而，当客户端采用可能采用不同显示设置的多个渲染设备时，收集此类显示设置可能会有困难。这是因为DASH系统可能无法从单一源发送与多个VR渲染设备相关的数据。在一个示例中，具有同时渲染相同VR内容的多个显示器的单个客户端需要发送多个显示设置，因为不同设备的设置不同。在另一示例中，服务提供方可以采用网络中的媒体感知设备从多个客户端收集显示信息并将此类信息转发回服务提供方。这种系统可能无法发送与在共同源中收集的多个渲染设备有关的数据。

本文公开了一种从单个DASH客户端NE发送与多个客户端和/或多个渲染设备相关的显示信息的机制。如本文所使用，DASH客户端NE可以包括客户端设备、媒体感知中间NE和/或与能够渲染媒体内容的具有不同设置的多个显示设备相关的客户端/网络网关。例如，DASH 客户端侧NE可以获取与多个渲染相关的显示信息并将这些数据存储在显示信息集度量中。显示信息集度量可以包含每个VR客户端设备的入口。每个入口可以包括在对应的渲染设备和/ 或客户端设备渲染VR视频时使用的显示分辨率、像素密度和刷新率。在另一示例中，显示信息集度量可以包含以列表形式描述多个客户端/渲染设备的数据。相应地，客户端可以获取 MPD文件，流化VR媒体内容，根据用户选定的FOV渲染VR媒体内容，然后向DASH内容服务器、分析服务器和/或采用显示信息集度量的其它提供方服务器上报显示信息。

图1为基于VR视频流的示例性系统100的示意图。系统100包括多方向摄像机101、包括编码器103的VR编码设备104、DASH内容服务器111、具有解码器107和度量计算和上报(metrics computing and reporting，MCR)模块106的客户端108以及渲染设备109。系统100还包括网络105，将DASH内容服务器111与客户端108耦合。在一些示例中，网络105 还包括媒体感知中间NE113。

多方向摄像机101包括摄像机设备阵列。每个摄像机设备指向不同角度，使得多方向摄像机101可以从多个角度拍摄周围环境的多方向视频流。例如，多方向摄像机101可以将环境的VR视频121拍摄成球体，多方向摄像机101位于球体的中心。如本文中所使用，球体和球形视频既指几何球体又指几何球体的子部分，例如球缺、球形穹面、球截形等。例如，多方向摄像机101可拍摄180度视频以覆盖一半环境，使得制作人员能够保持在多方向摄像机101的后面。多方向摄像机101还可以在360度(或其任意子部分)内拍摄VR视频121。然而，多方向摄像机101下的地板的一部分可以省略，导致视频小于正球体。因此，此处使用的术语“球体”是为了描述的清晰性而使用的通用术语，不应视为从几何立点进行限制。应注意，如上所述的多方向摄像机101是能够捕获VR视频121的示例性摄像机，并且其它摄像机设备也可以用于捕获VR视频(例如，摄像机、鱼眼镜头)。

将多方向摄像机101的VR视频121转发给VR编码设备104。VR编码设备104可以是包括专用VR编码软件的计算系统。VR编码设备104可以包括编码器103。在一些示例中，编码器103也可以包括在独立于VR编码设备104的计算机系统中。VR编码设备104用于将VR视频121中的多方向视频流从所有相关角度转换为包括整个录制区域的单个多方向视频流。这种转换可以称为图像拼接。例如，可以将同时捕获的每个视频流的帧拼接在一起以创建单个球面图像。然后，可以从球形图像创建球形视频流。为了描述的清晰性，应注意，除非特别说明，术语“帧”和“图像(picture/image)”在本文中可互换使用。

然后，球形视频流可以转发给编码器103进行压缩。编码器103是能够将信息从一种格式转换为另一种格式的设备和/或程序，以便进行标准化、加速和/或压缩。标准化编码器103 用于对矩形和/或正方形图像进行编码。因此，编码器103用于将来自球形视频流的每个球形图像映射到多个矩形子图像中。然后，可以将这些子图像放置在单独的子图像视频流中。因此，每个子图像视频流显示随时间从球形视频流的子部分录制的图像流。然后，编码器103 可以对每一子图像视频流进行编码以将视频流压缩成可管理的文件大小。一般而言，编码器 103将来自每个子图像视频流的每一帧分割成像素块，通过帧间预测和/或帧内预测来压缩像素块以创建包括预测块和残差块的编码块，对残差块应用变换以进一步压缩，并在块上应用各种滤波器。压缩块以及对应的语法存储在码流中，例如，作为国际标准化组织基本媒体文件格式(International Standardization Organization base mediafile format，ISOBMFF) 中的轨迹和/或全向媒体格式(omnidirectional media format，OMAF)中的轨迹。

来自VR视频121的编码轨迹，包括压缩块和相关语法，构成媒体内容123的一部分。媒体内容123可以包括编码视频文件、编码音频文件、组合音频视频文件、以多种语言表示的媒体、有字幕媒体、元数据或其组合。媒体内容123可以分解为适配集。例如，视点的视频可以包括在适配集中，音频可以包括在另一个适配集中，隐藏字幕可以包括在另一个适配集中，元数据可以包括在另一个适配集中等。适配集包含的媒体内容123不能与其它适配集的媒体内容123互换。每个适配集中的内容可以存储在表示中，其中同一适配集中的表示可以互换。例如，可以将来自单个视点的VR视频121下采样为各种分辨率并存储在对应表示中。如本文所使用，视点是一个或多个摄像机录制VR视频121时的位置。作为另一示例，音频(例如，来自单个视点)可以下采样为各种质量，翻译成不同的语言等，并存储在对应表示中。

媒体内容123可以转发给DASH内容服务器111，通过网络105分发给终端用户。DASH内容服务器111可以是用于服务来自客户端108的超文本传输协议(HyperText TransferProtocol，HTTP)请求的任何设备。DASH内容服务器111可包括专用服务器、服务器集群、云计算环境中的虚拟机(virtual machine，VM)或任何其它合适的内容管理实体。DASH内容服务器111可以从VR编码设备104接收媒体内容123。DASH内容服务器111可生成描述媒体内容123的MPD。例如，MPD可以描述预选、视点、适配集、表示、元数据轨迹、其片段等，以及可以通过HTTP请求(例如，HTTP GET)获取这些项目的位置。

具有解码器107的客户端108可以进入与DASH内容服务器111的媒体通信会话125，以通过网络105获取媒体内容123。网络105可以包括因特网、移动通信网络(例如，基于长期演进(long term evolution，LTE)的数据网络)或其它数据通信数据系统。客户端108 可以是用于查看来自媒体内容123的视频内容的任何用户操作设备，例如计算机、电视、平板电脑设备、智能手机等。媒体通信会话125可以包括进行媒体请求，例如基于HTTP的请求 (例如，HTTP GET请求)。接收到初始媒体请求之后，DASH内容服务器111可以将MPD转发给客户端108。然后，客户端108可以使用MPD中的信息对媒体内容123附加媒体请求，作为媒体通信会话125的一部分。具体地，客户端108可以使用MPD中的数据，根据用户偏好、用户选择、缓冲区/网络条件等来确定应获取媒体内容123的哪些部分。在选择媒体内容123 的相关部分之后，客户端108使用MPD中的数据将媒体请求寻址到DASH内容服务器111中包含相关数据的位置。然后，DASH内容服务器111能够使用媒体内容123的所请求部分响应客户端108。通过这种方式，客户端108接收媒体内容123的请求部分，而无需下载整个媒体内容123，节省了网络105上的网络资源(时间、带宽等)。

解码器107是位于用户位置(例如，在客户端108上实现)的设备，用于逆转编码器103 的编码过程以解码从DASH内容服务器111的表示中获取的编码码流。解码器107还合并所得到的子图像视频流以重构VR视频序列129。VR视频序列129包含客户端108根据用户选择、偏好和/或网络条件请求的以及解码器107重构的媒体内容123的部分。然后，可以将VR视频序列129转发给渲染设备109。渲染设备109是用于向用户显示VR视频序列129的设备。例如，渲染设备109可以包括固定在用户头部并遮挡用户眼睛的HMD。渲染设备109可以包括用于每个眼睛的屏幕、摄像机、运动传感器、扬声器等的屏幕，并且可以通过无线和/或有线连接与客户端108进行通信。在其它示例中，渲染设备109可以是显示屏，例如电视、计算机显示器、平板电脑(personal computer，PC)。渲染设备109可以向用户显示VR视频序列129的子部分。示出的子部分基于渲染设备109的FOV和/或视角。如本文所使用，视角是二维平面，在其该平面上投影VR视频序列129的已定义部分。FOV是从用户眼睛到视角的锥形投影，因此描述了用户在特定时间点可以看到的VR视频序列129的部分。渲染设备109可以通过采用运动跟踪传感器，根据用户头部移动来改变FOV的位置。使用户能够看到球形视频流中根据头部运动的不同部分。在某些情况下，渲染设备109可以根据用户瞳距 (interpupillarydistance，IPD)来补偿每个眼睛的FOV，以创建三维空间印象。在某些情况下，可以预定义FOV以向用户提供特定体验。在其它示例中，FOV可由鼠标、键盘、远程控制或其它输入设备控制。

客户端108还包括MCR模块106，MCR模块106是用于从客户端108和/或渲染设备109上操作的各种功能模块查询可测量数据，计算指定的度量，和/或将这些度量发送给相关方的模块。MCR模块106可以位于VR客户端108的内部或外部。然后，可以向分析服务器(例如DASH内容服务器111)或有兴趣和授权访问这些度量的其它实体上报所述指定度量。分析服务器或其它实体可以使用度量数据来分析终端用户体验、评估客户端108设备能力以及评估沉浸式系统性能，以便增强网络105、平台、设备、应用和/或服务的整体沉浸式服务体验。

例如，MCR模块106可以测量并上报描述在渲染设备109上显示VR视频序列129的方式的消息。在一些情况下，客户端108可以同时采用多个渲染设备109。例如，客户端108可以与HMD耦合、计算机显示屏和/或电视。在一个具体示例中，HMD可以根据用户头部移动渲染VR视频序列129的视角和/或视场角(Field of View，FOV)。同时，显示屏和/或电视可以根据提示轨迹中的指令渲染VR视频序列129的FOV，从而显示预定义的FOV。在另一个示例中，第一用户可以引导HMD渲染的FOV，第二用户可以引导显示器/电视渲染的FOV。此外，多个用户可采用渲染共享VR视频序列129的不同FOV的多个HDM。因此，存在MCR模块106 可被引导以测量和上报与由多个渲染设备109渲染多个FOV相关的显示信息的多种情况。在一个具体示例中，每个渲染设备109可以以对应分辨率、像素密度和/或刷新率显示VR视频序列129的FOV。分辨率是图像锐度的度量，其中图像锐度是图像中相邻的不同像素块之间的视觉差异。像素密度是对在指定区域上渲染的像素数量的度量。刷新率是指在显示器上刷新图像的速率(例如，图像随时间变化的速率)。MCR模块106可以通过采用显示信息集度量来测量和上报这些度量，所述显示信息集度量可以包括由客户端108关联的渲染设备109使用的无序显示信息集或有序显示信息列表。具体地，MCR模块106可以将每个客户端108和/ 或渲染设备109针对每个帧、每组帧和/或完整VR视频序列129采用的分辨率、像素密度和/ 或刷新率编码为显示信息集度量的入口，并且在渲染期间在指定的断点处，定期将显示信息集度量转发回VR视频序列129末尾处的服务提供方(例如，DASH内容服务器111)等。显示信息集度量的通信定时可以由用户和/或服务提供方(例如，通过协议)设置。

在一些示例中，网络105可以包括媒体感知中间NE113。媒体感知中间NE113是维持一个或多个DASH内容服务器111与一个或多个客户端108之间的媒体通信会话125的感知的设备。例如，媒体通信会话125关联的通信，例如建立消息、拆除消息、状态消息和/或包含VR视频数据的数据报文，可以通过媒体感知中间NE113在DASH内容服务器111和客户端108之间转发。此外，MCR模块106的度量可以通过媒体感知中间NE113返回。因此，媒体感知中间NE113可以从多个客户端108收集显示信息，以便发送回到服务提供方。因此，媒体感知中间NE113可以从多个客户端108(例如，具有与每个客户端108关联的一个或多个渲染设备109)接收显示信息(例如，在显示信息集度量中)，收集显示信息集度量中的入口之类的数据，并将显示信息集度量转发回服务提供方。因此，显示信息集度量提供了一种便捷的机制来上报单个度量中任意数量的渲染设备109和/或客户端108的显示信息。

图2为例如通过采用系统100的组件对VR视频进行编码的示例性方法200的流程图。在步骤201中，使用多方向摄像机组，例如多方向摄像机101，来捕获多方向视频流。多方向视频流包括不同角度的环境视图。例如，多方向视频流可以在水平面内围绕摄像机捕获360 度、180度、240度等度数的视频。多方向视频流还可以在垂直平面上围绕摄像机捕获360度、 180度、240度等度数的视频，产生包括足以在一段时间内覆盖摄像机周围的球形区域的信息。

在步骤203中，多方向视频流在时域上同步。具体地，每个方向视频流包括以对应角度拍摄的一系列图像。多方向视频流通过确保从每个方向视频流中在同一时域位置捕获的帧一起处理而同步。然后，来自方向视频流的帧可以在空域中拼接在一起以产生球形视频流。因此，球形视频流的每一帧都包含从所有方向视频流的帧中获取的数据，这些数据发生在共同的时间位置。

在步骤205中，球形视频流映射到矩形子图像视频流。该过程也可以称为将球形视频流投影到矩形子图像视频流。编码器和解码器通常设计为对矩形和/或正方形帧进行编码。相应地，将球形视频流映射到矩形子图像视频流产生视频流，该视频流可以分别由非VR特定编码器和解码器进行编码和解码。需要说明的是，步骤203和205是针对VR视频处理而言的，因此可以由专门的VR硬件、软件或其组合来执行。

在步骤207中，构成VR视频的矩形子图像视频流可以转发给编码器103等编码器。然后，编码器将子图像视频流以对应媒体文件格式编码为子图像码流。具体地，编码器可以将每个子图像视频流视为视频信号。编码器可以通过帧间预测、帧内预测等方法对每个子图像视频流的每一帧进行编码。关于文件格式，子图像视频流可以存储在ISOBMFF中。例如，以指定分辨率捕获子图像视频流。然后，可以将子图像视频流下采样到各种较低分辨率进行编码。每个分辨率都可称为表示。质量越低，图像越不清晰，但文件大小却越小。因此，与伴随视觉质量损失的较高质量表示相比，可以使用更少的网络资源(例如，时间、带宽)向用户发送较低质量表示。每个表示可以存储在DASH内容服务器(例如，DASH内容服务器111)处的对应轨迹集中。因此，轨迹可以发送给用户，其中轨迹包括各种分辨率(例如，视觉质量)下的子图像码流。

在步骤209中，可以将子图像码流作为轨迹发送给解码器。具体地，可以将描述各种表示的MPD从DASH内容服务器转发给客户端。这可以在响应来自客户端的请求(例如，HTTP GET 请求)时发生。例如，MPD可描述包含各种表示的各种适配集。然后，客户端可以向期望的适配集请求相关表示或其中的一部分。

在步骤211中，解码器107等解码器接收包含子图像码流的轨迹的所请求表示。然后，解码器可以将子图像码流解码为子图像视频流进行显示。解码过程涉及编码过程的逆过程(例如，使用帧间预测和帧内预测)。然后，在步骤213中，解码器可以将子图像视频流合并到球形视频流中，作为VR视频序列向用户展示。然后，解码器可以将VR视频序列转发给渲染设备，例如渲染设备109。

在步骤215中，渲染设备渲染球形视频流的FOV以向用户展示。如上所述，可以不渲染每个时间点的VR视频序列在FOV之外的区域。

图3为图1中所述的客户端108等VR客户端进行的VR视频展示的示例性架构300的示意图。因此，架构300可用于实现方法200的步骤211、213和/或215或其部分。架构300 还可以称为沉浸式媒体度量客户端参考模型，并采用各种观察点(observation point，OP)来测量度量。

架构300包括客户端控制器331，所述客户端控制器331包括支持客户端功能性能的硬件。因此，客户端控制器331可以包括处理器、随机存取存储器、只读存储器、高速缓存存储器、专用视频处理器和对应存储器、通信总线、网卡(例如，网络端口、发送器)。架构300包括网络接入模块339、媒体处理模块337、传感器模块335和媒体播放模块333，这些功能模块包含在客户端控制器331上操作的相关功能。在一个具体示例中，VR客户端可以配置为OMAF播放器，用于文件/片段接收或文件访问、文件/片段解封装、音频、视频或图像码流的解码、音频和图像渲染，以及根据这些模块配置的视角选择。

网络接入模块339包含与网络305通信相关的功能，网络305可以与网络105基本相似。因此，网络接入模块339通过网络305发起与DASH内容服务器111的通信会话，获取MPD，并采用HTTP功能(例如，GET、POST)获取VR媒体和支持元数据。媒体包括描述VR视频序列的视频和音频数据，并且可以包括编码VR视频帧和编码音频数据。元数据包括向VR客户端指示如何呈现VR视频序列的信息。在DASH上下文中，可以接收媒体和元数据作为来自对应适配集的选定表示的轨迹和/或轨迹片段。网络接入模块339将媒体和元数据转发给媒体处理模块337。

媒体处理模块337可用于实现系统100的解码器107。媒体处理模块337管理解封装，即从网络报文中去除报头以从报文有效负载中获取数据，在这种情况下，数据为媒体和元数据。媒体处理模块337还管理解析，即分析报文有效负载中的位以确定其中包含的数据的过程。媒体处理模块337还采用分割对解析后的数据进行解码，以确定编码块的位置，应用逆变换获取残差数据，采用帧内预测和/或帧间预测获取编码块，将残差数据应用于编码块进行VR图像的编码像素重构，将VR图像数据合并在一起，产生VR视频序列。解码VR视频序列转发给媒体播放模块333。

客户端控制器331还可以包括传感器模块335。例如，HMD可以包括多个传感器来确定用户活动。客户端控制器331上的传感器模块335解释此类传感器的输出。例如，传感器模块 335可接收指示HMD移动的数据，该移动可解释为用户头部移动。传感器模块335还可以接收指示用户眼睛运动的眼睛跟踪信息。传感器模块335还可以从用户接收其它运动跟踪信息以及任何其它与VR展示相关的输入。传感器模块335处理这些信息并输出传感器数据。这些传感器数据可以指示用户当前的FOV和/或用户FOV根据运动跟踪(例如，头部和/或眼睛跟踪)随时间发生变化。传感器数据还可以包括来自渲染设备的任何其它相关反馈。可以根据需要将传感器数据转发给网络接入模块339、媒体处理模块337和/或媒体播放模块333。

媒体播放模块333采用传感器数据、媒体数据和元数据来管理相关渲染设备(例如系统 100的渲染设备109)对VR序列进行渲染。例如，媒体播放模块333可以根据元数据确定VR 视频序列的优选合成(例如基于帧的时序/顺序等)，媒体播放模块333也可以创建VR视频序列的球形投影。在渲染设备是屏幕的情况下，媒体播放模块333可以根据在客户端控制器331 处(例如，从鼠标、键盘、远程)接收的用户输入，确定相关FOV/视角。当渲染设备为HMD 时，媒体播放模块333可以根据与头部和/或眼睛跟踪相关的传感器数据来确定FOV/视角。媒体播放模块333采用确定的FOV/视角来确定要渲染的VR视频序列的球形投影的截面。然后，媒体播放模块333可以将待渲染的VR视频序列的一部分转发给渲染设备以显示给用户。

架构300还包括MCR模块306，MCR模块306可用于从系统100实现MCR模块106。MCR模块306从各个功能模块查询可测量数据并计算指定度量。MCR模块306可以位于VR客户端的内部或外部。然后，可以向分析服务器或有兴趣和授权访问这些度量的其它实体上报所述指定度量。分析服务器或其它实体可以使用度量数据来分析终端用户体验、评估客户端设备能力以及评估沉浸式系统性能，以便增强网络、平台、设备、应用和服务的整体沉浸式服务体验。MCR模块306可以通过使用各种接口来查阅数据，这些接口称为观察点，表示为OP1、 OP2、OP3、OP4和OP5。MCR模块306还可以根据测量数据确定对应的度量，可以向服务提供方上报所述度量。

MCR模块306可以通过OP1访问网络接入模块339，并测量与发出媒体文件/片段请求以及从网络305接收媒体文件或片段流相关的度量。

MCR模块306可以通过OP2访问媒体处理模块337，媒体处理模块337处理文件或接收到的片段，提取编码码流，解析媒体和元数据，并对媒体进行解码。OP2的可收集数据可以包括MPD信息等各种参数，这些参数可以包括媒体类型、媒体编解码器、适配集、表示和/或预选标识符(identifier，ID)。OP2还可以收集OMAF元数据，例如，全向视频投影、全向视频区域封装和/或全向视角。OP2还可以收集其它媒体元数据，例如帧封装、颜色空间和/或动态范围。

MCR模块306可以通过OP3访问传感器模块335，传感器模块335获取用户观看方向、位置和交互。网络接入模块339、媒体处理模块337和媒体播放模块333可以使用此类传感器数据来检索、处理和渲染VR媒体元素。例如，当前观看方向可以由头部跟踪以及可能的眼睛跟踪功能确定。除了由渲染器渲染解码视频和音频信号的合适部分之外，当前观看方向还可以由网络接入模块339用于视角相关流以及由视频和音频解码器用于解码优化。例如，OP3 可以测量可收集的传感器数据的各种信息，例如当前视角的中心点、头部运动跟踪和/或眼睛跟踪。

MCR模块306可以通过OP4访问媒体播放模块333，媒体播放模块333同步VR媒体组件的播放，为用户提供完全沉浸式的VR体验。解码图像可以根据元数据(包括区域封装、帧封装、投影和球体旋转等信息)在当前观看方向或视角基础上投影到头戴式显示器或其它任何显示设备的屏幕上。同样地，根据当前观看方向，例如通过耳机渲染解码音频。媒体播放模块333可以支持每个VR媒体组件的颜色转换、投影和媒体合成。例如，来自OP4的可采集数据可以包括媒体类型、媒体像素点展示时间戳、壁钟时间、实际渲染视角、实际媒体像素点渲染时间和/或实际渲染帧率。

MCR模块306可以通过OP5访问VR客户端控制器331，VR客户端控制器331管理播放器配置，例如显示分辨率、帧率、FOV、镜头分离距离等。OP5可用于测量客户端能力和配置参数。例如，OP5的可收集数据可以包括显示分辨率(例如，以像素为单位)、显示像素密度(例如，以每英寸像素(pixel per inch，PPI)为单位)、显示刷新率(例如，以赫兹为单位)、水平和垂直FOV(例如，以度为单位)、媒体格式和编解码器支持、和/或操作系统(operatingsystem，OS)支持。

因此，MCR模块306可以确定与VR视频序列渲染相关的各种度量，并通过网络接入模块 339和网络305将此类度量传回服务提供方。例如，MCR模块306可以通过OP5确定描述由一个或多个渲染设备和/或客户端使用的显示设置的显示信息。然后，MCR模块可以在显示信息集度量中包括此类信息，以便与所述服务提供方进行通信。

图4为示例性媒体通信会话400的协议图。例如，媒体通信会话400可用于在系统100 中实现媒体通信会话125。此外，媒体通信会话400可用于实现方法200的步骤209和/或211。此外，媒体通信会话400可用于将媒体和元数据传送给根据架构300运作的VR客户端，并返回由MCR模块306计算的对应度量。

当客户端(例如客户端108)向DASH内容服务器(例如DASH内容服务器111)发送MPD请求消息时，媒体通信会话400可以从步骤422开始。MPD请求是基于HTTP的MPD文件请求，描述指定的媒体内容，例如VR视频序列。DASH内容服务器接收MPD请求，并在步骤424通过向客户端发送MPD进行响应。MPD描述视频序列并描述用于确定视频序列的组件的位置的机制。这使客户端能够处理对媒体内容所需部分的请求。下面结合图5更详细地描述示例性 MPD。

根据MPD，客户端可以在步骤426中从DASH内容服务器发出媒体请求。例如，可以将媒体内容组织成适配集。每个适配集可以包含一个或多个可互换表示。MPD描述了这些适配集和表示。MPD还可以通过静态地址和/或用于确定此类表示的地址的算法来描述此类表示的网络地址位置。因此，客户端在步骤426根据MPD创建媒体请求以获取所需的表示。客户端可以动态地确定所需的表示(例如，根据网络速度、缓冲区状态、请求的视点、用户使用的FOV/ 视角等)。然后，客户端向DASH内容服务器发送媒体请求。在步骤428中，DASH内容服务器通过向客户端发送包含媒体内容的消息来回应媒体请求。例如，DASH内容服务方可以向客户端发送三秒钟的媒体内容片段以响应媒体请求。客户端可以根据变化的条件(例如，当网络条件有利时，要求更高的分辨率片段；当网络拥塞时，要求更低的分辨率片段等)动态地改变表示，从而改变分辨率。因此，可以重复进行步骤426的媒体请求和步骤428的响应性媒体内容消息。

在步骤429中，客户端渲染接收到的媒体内容。具体地，客户端可以将接收到的媒体内容进行投影(根据媒体播放模块333)，根据用户输入或传感数据确定媒体内容的FOV，并在一个或多个渲染设备上渲染该媒体内容的FOV。如上所述，客户端可以采用MCR模块测量与渲染过程相关的各种度量。因此，客户端还可以在步骤429中生成显示信息集度量。显示信息集度量针对每个渲染设备和/或客户端包含一个入口。每个入口指示对应渲染设备和/或客户端使用的显示信息。相应地，显示信息集度量可以用于上报在由同一客户端使用的多个渲染设备中渲染VR视频序列时使用的显示信息。然后，在步骤431中，从客户端向DASH内容服务器发送显示信息集度量。

在其它示例中，媒体感知中间NE可以在客户端和DASH内容服务器之间的网络中操作。具体地，媒体感知中间NE可以被动侦听一个或多个DASH内容服务器和多个客户端之间的媒体通信会话400，每个客户端具有一个或多个渲染设备。相应地，客户端可以在步骤431的显示信息集度量中或在其它数据消息中将显示信息转发给媒体感知中间NE。然后，媒体感知中间NE可以在收集显示信息集度量中收集来自多个客户端的显示信息，所述收集显示信息集度量与在步骤431中接收的显示信息集度量基本相似，但包含对应于多个客户端(且因此对应于多个渲染设备)的显示信息。然后，可以在步骤432中向DASH内容服务器发送收集显示信息集度量。应注意，可以将步骤431和/或432的显示信息集度量发送给服务提供方操作的任何服务器，例如DASH内容服务器、分析服务器或其它服务器。为了简洁和清晰描述，仅以 DASH内容服务器为例进行说明，除非另有说明，本发明实施例并不限定于此。

图5为可在媒体通信会话期间用于流化VR视频的示例性DASH MPD 500的示意图。例如， MPD 500可用于在系统100中进行媒体通信会话125。因此，方法500可以用作方法200的步骤209和211的部分。此外，架构300的网络接入模块339可以采用MPD 500来确定要请求的媒体和元数据。此外，MPD 500可用于在媒体通信会话400中实现步骤424的MPD。

MPD 500还可以包括一个或多个适配集530。每个适配集530包含一个或多个表示532。具体地，适配集530包含具有常见类型且可互换渲染的表示532。例如，音频数据、视频数据和元数据将作为不能在不影响媒体展示的情况下与视频数据类型交换的音频数据类型定位在不同的适配集530中。此外，不同视点的视频不可互换，因为此类视频包含不同的图像，因此可包括在不同的适配集530中。

表示532可包含可以渲染以创建多媒体展示的一部分的媒体数据。在视频上下文中，同一适配集530中的表示532可包含不同分辨率下的同一视频。因此，此类表示532可以根据期望的视频质量进行互换使用。在音频上下文中，公共适配集530中的表示532可以包含不同语言的不同质量的音频和音轨。适配集530中的表示532还可以包含定时元数据跟踪(例如，提示跟踪)等元数据。因此，包含所述时间元数据的表示532可以与相应的视频表示532、音频表示532、闭合字幕表示532等结合使用，以确定应如何呈现此类媒体表示532。例如，定时元数据表示532可指示根据时间变化的首选视点、首选FOV/视角等。元数据表示532还可包含其它支持信息，例如菜单数据、加密/安全数据、版权数据、兼容性数据等。

表达532可包含片段534。片段534包含预定时间段(例如，3秒)的媒体数据。因此，片段534可包含可通过网络通过预定统一资源定位符(universal resourcc locator，URL)访问的部分音频数据、部分视频数据等。MPD 500包含指示每个分段534的URL的数据。因此，客户端可以选择应渲染的所需适配集530。然后，客户端可以确定应根据当前网络拥塞获得的表示532。然后，客户端可以请求对应片段534，以便为用户呈现所述媒体展示。

图6为示例性显示信息集度量600的示意图。显示信息集度量600可以用作系统100中的媒体通信会话125的一部分，并且可以响应于方法200的步骤209和步骤211而使用。例如，显示信息集度量600可以携带由架构300的MCR模块306计算的度量。显示信息集度量600也可以用于实现媒体通信会话400的步骤431和/或432的显示信息集度量。

显示信息集度量600包括数据对象，也可以由关键字表示。数据对象可以包括具有如图 6所示的描述的对应类型。具体地，显示信息集度量600可以包括类型集的DisplayInfoSet 641对象。DisplayInfoSet 641对象包括与由一个或多个渲染设备渲染的VR视频序列相关的显示信息集。因此，DisplayInfoSet 641对象可以包括描述由多个渲染设备渲染的显示设置的数据，所述多个渲染设备由公共客户端支持和/或从多个客户端收集。

显示信息集度量600的DisplayInfoSet 641对象包括一个或多个入口643对象，例如作为无序集。在一个示例中，单个入口可以包括与渲染设备关联的单个VR客户端设备对应的显示信息。在另一示例中，单个入口643可以包括与单个渲染设备对应的显示信息，因此当该客户端采用多个渲染设备时，多个入口643可以被用于单个VR客户端。因此，显示信息集度量600可以包括一个或多个入口643，所述入口643包括与渲染设备中至少一个渲染设备关联的每个客户端的一个或多个入口643对象。

每个入口643对象可以包括显示分辨率(displayResolution)645值。displayResolution 645值可以表示为字符串，并且可以以像素为单位表示由对应客户端/渲染设备渲染的VR视频序列的显示分辨率。每个入口643对象可以包括显示像素密度(displayPixelDensity)647 值。displayPixelDensity 647值可以表示为整数，并且可以以每英寸像素为单位表示由对应客户端/渲染设备渲染的VR视频序列的显示像素密度。每个入口643对象还可以包括显示刷新率(displayRefreshRate)649值。displayRefreshRate649值可以表示为整数，并且可以以赫兹为单位表示由对应客户端/渲染设备渲染的VR视频序列的显示刷新率。

应注意，虽然显示信息集度量600描述为包括入口643对象的集合，但是显示信息集度量600也可以使用入口643作为列表入口来实现。在这种情况下，入口643构成描述为displayResolution 645、displayPixelDensity 647和displayRefreshRate 649值的有序显示信息列表。相应地，可以实现显示信息集度量600包括在一些情况下由多个渲染设备渲染的VR视频序列的有序显示信息列表。

图7为示例性视频编码设备700的示意图。视频编码设备700适用于实现本文所述的所公开示例/实施例。视频编码设备700包括下行端口720、上行端口750和/或收发器单元(Tx/Rx)710，收发器单元包括发送器和/或接收器，用于通过网络上行和/或下行传输数据。视频编码设备700还包括处理器730和用于存储数据的存储器732，处理器1130包括逻辑单元和/或处理数据的中央处理单元(central processing unit，CPU)。视频编码设备700还可包括光电(optical-to-electrical，OE)组件、电光(electrical-to-optical，EO)组件、与上行端口750和/或下行端口720耦合用于通过光或无线通信网络进行数据通信的无线通信组件。视频编码设备700还可以包括用于向用户和从用户发送数据的输入和/或输出(input/output，I/O)设备760。I/O设备760可以包括用于显示视频数据的显示器、用于输出音频数据的扬声器和HMD等输出设备。I/O设备760还可以包括键盘、鼠标、轨迹球、 HMD等输入设备，和/或用于与此类输出设备交互的对应接口。

处理器730由硬件和软件实现。处理器730可以实现为一个或多个CPU芯片、核心(例如，作为多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application specific integrated circuit，ASIC)和数字信号处理器(digital signal processor，DSP)。处理器730与下行端口720、Tx/Rx710、上行端口750和存储器 732进行通信。处理器730包括度量模块714。度量模块714可以实现上文所公开的全部或部分实施例。例如，度量模块714可用于根据示例实现VR编码设备104、DASH内容服务器111、媒体感知中间NE113、客户端108和/或渲染设备109的功能。此外，度量模块714可以实现方法200的相关部分。此外，度量模块714可以用于实现架构300，因此可以实现MCR模块306。在另一示例中，度量模块714可以通过以下方式实现媒体通信会话400：在接收到 MPD500和渲染相关VR视频序列之后，发送显示信息集度量600。相应地，度量模块714可以支持在一个或多个客户端关联的一个或多个渲染设备上渲染一个或多个VR视频序列的多个FOV，进行测量以确定渲染设备采用的显示设置，对显示信息集度量中的测量显示信息进行编码，以及将描述渲染设备渲染的VR视频序列的显示消息的显示消息集度量转发给服务提供方控制的服务器，以支持存储优化和增强沉浸式媒体质量及相关体验。当在媒体感知中间 NE113上实现时，度量模块714还可以从多个客户端收集显示信息以存储在显示信息集度量中。因此，度量模块714改进了视频编码设备700的功能并解决了针对视频编码技术的问题。此外，度量模块714将视频编码设备700变换到不同的状态。或者，度量模块714可以实现为存储在存储器732中并由处理器730执行的指令(例如，存储在非瞬时性介质上的计算机程序产品)。

存储器732包括一个或多个存储器类型，例如磁盘、磁带驱动器、固态驱动器、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、快闪存储器、三态内容寻址存储器(ternary content-addressable memory，TCAM)、静态随机存取存储器(static random-access memory，SRAM)等。存储器732可用作溢出数据存储设备，以在选择执行程序时存储程序，以及存储程序执行时读取的指令和数据。

图8为发送包含与一个或多个渲染设备显示的多个FOV相关的显示信息的显示信息集度量(例如，显示信息集度量600)的示例性方法800的流程图。因此，方法800可用作系统 100中媒体通信会话125的一部分，和/或用作方法200的步骤209和步骤211的一部分。此外，可以采用方法800来发送由架构300的MCR模块306计算的度量。此外，方法800可用于实现媒体通信会话400。此外，方法800可由视频编码设备700响应于接收到MPD 500而实现。

方法800可以由DASH客户端NE实现，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。方法800可以响应于向DASH内容服务器发送MPD请求而开始。根据操作方法800的设备(例如，客户端或媒体感知中间NE)，这样的请求可以本地生成或从一个或多个客户端接收。

在步骤801中，响应于MPD请求而接收DASH MPD。DASH MPD描述媒体内容，该媒体内容包括VR视频序列。然后，在步骤803中，根据MPD获取媒体内容。此类消息由相关客户端生成和接收，并可根据示例通过媒体感知中间NE传递。在步骤805中，将媒体内容转发给一个或多个渲染设备进行渲染。这样的渲染可以同时在一个或多个渲染设备上进行。

在步骤807中，确定显示信息集度量。显示信息集度量指示/包括由多个渲染设备和/或关联客户端渲染的VR视频序列的显示信息。当方法800在客户端上实现时，显示信息集度量包括描述由客户端关联(例如，直接耦合)的多个渲染设备使用的显示设置的显示信息。当在媒体感知中间NE上实现方法800时，可以采用描述多个客户端使用的显示设置的显示信息来确定显示信息集度量的内容。一旦确定了显示信息集度量，则在步骤809中将显示信息集度量转发给提供方服务器。例如，显示信息集度量可以转发给生成VR视频序列的服务提供方和/或内容制作者使用的DASH内容服务器、分析服务器或其它数据存储库。

图9为发送包含与一个或多个渲染设备显示的多个FOV相关的显示信息的显示信息集度量(例如，显示信息集度量600)的示例性DASH客户端NE 900的示意图。因此，DASH客户端NE 900可用于实现系统100中的媒体通信会话125的一部分，和/或实现方法200的步骤209和步骤211的一部分。此外，可以采用DASH客户端NE 900来发送由架构300的MCR模块306计算的度量。此外，DASH客户端NE 900可用于实现媒体通信会话400。此外，DASH 客户端NE900可以由视频编码设备700实现，并且可以接收MPD 500。此外，DASH客户端 NE 900可以用于实现方法800。

DASH客户端NE 900包括接收器901，用于：接收描述包括VR视频序列的媒体内容的DASH MPD；根据所述MPD获取所述媒体内容。DASH客户端NE 900还包括：转发模块903(例如，发送器、端口)，用于将媒体内容转发给一个或多个渲染设备进行渲染。DASH客户端NE 900还包括：显示信息集度量模块905，用于确定包括由渲染设备渲染的VR视频序列的显示信息的显示信息集度量。DASH客户端NE 900还包括发送器907，用于向提供方服务器发送确定包括由渲染设备渲染的VR视频序列的显示信息的显示信息度量集。

当第一组件和第二组件之间除了线、迹或其它介质之外没有其它中间组件时，第一组件直接与第二组件耦合。当第一组件和第二组件之间存在线、迹或其它介质之外的其它中间组件时，第一组件间接与第二组件耦合。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明，否则使用术语“约”是指以下描述的数字的±10％。

虽然本发明提供多个具体实施例，但应当理解，所公开的系统和方法也可通过其它多种具体形式体现，而不会脱离本发明的精神或范围。本发明的示例应被视为说明性而非限制性的，且本发明并不限于本文本所给出的细节。例如，各种元件或组件可以在另一系统中组合或合并，或者某些特征可以省略或不实现。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、组件、技术或方法进行组合或合并。其它变更、替换、更替示例对本领域技术人员而言是显而易见的，均不脱离此处公开的精神和范围。

Claims

1.一种在基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)中实现的方法，其特征在于，所述方法包括：

接收器接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列；

所述接收器根据所述MPD获取所述媒体内容；

将所述媒体内容转发给多个渲染设备进行渲染；

处理器确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量，所述显示信息集度量为包括多个入口对象的无序集合，其中每个入口对象包括一个渲染设备对应的显示信息，其中，所述显示信息集度量由所述多个渲染设备在渲染期间在指定的断点处反馈的；

发送器向所述VR视频序列末尾处的提供方服务器发送所述显示信息集度量。

2.根据权利要求1所述的方法，其特征在于，所述VR视频序列在所述多个渲染设备上同时渲染。

3.根据权利要求1或2所述的方法，其特征在于，所述显示信息集度量包括所述渲染设备中至少一个渲染设备关联的每个客户端的入口对象。

4.根据权利要求1或2所述的方法，其特征在于，每个入口对象包括显示分辨率(displayResolution)值，以像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示分辨率。

5.根据权利要求1或2所述的方法，其特征在于，每个入口对象包括显示像素密度(displayPixelDensity)值，以每英寸像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示像素密度。

6.根据权利要求1或2所述的方法，其特征在于，每个入口对象包括显示刷新率(displayRefreshRate)值，以赫兹为单位表示由对应渲染设备渲染的所述VR视频序列的显示刷新率。

7.根据权利要求1或2所述的方法，其特征在于，所述显示信息集度量包括所述渲染设备渲染的所述VR视频序列的显示信息列表。

8.根据权利要求1或2所述的方法，其特征在于，所述DASH客户端NE是客户端、负责与多个客户端通信的媒体感知中间NE或其组合。

9.一种基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)，其特征在于，包括：

接收器，用于：

接收描述媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，所述媒体内容包括虚拟现实(virtual reality，VR)视频序列；

根据所述MPD获取所述媒体内容；

一个或多个端口，用于：将所述媒体内容转发给多个渲染设备进行渲染；

处理器，与所述接收器和所述端口耦合，所述处理器用于：

确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量，所述显示信息集度量为包括多个入口对象的无序集合，其中每个入口对象包括一个渲染设备对应的显示信息，其中，所述显示信息集度量由所述多个渲染设备在渲染期间在指定的断点处反馈的；

通过所述一个或多个端口向所述VR视频序列末尾处的提供方服务器发送所述显示信息集度量。

10.根据权利要求9所述的DASH客户端NE，其特征在于，所述VR视频序列在所述多个渲染设备上同时渲染。

11.根据权利要求9或10所述的DASH客户端NE，其特征在于，所述显示信息集度量包括所述渲染设备中至少一个渲染设备关联的每个客户端的入口对象。

12.根据权利要求9或10所述的DASH客户端NE，其特征在于，每个入口对象包括显示分辨率(displayResolution)值，以像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示分辨率。

13.根据权利要求9或10所述的DASH客户端NE，其特征在于，每个入口对象包括显示像素密度(displayPixelDensity)值，以每英寸像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示像素密度。

14.根据权利要求9或10所述的DASH客户端NE，其特征在于，每个入口对象包括显示刷新率(displayRefreshRate)值，以赫兹为单位表示由对应渲染设备渲染的所述VR视频序列的显示刷新率。

15.根据权利要求9或10所述的DASH客户端NE，其特征在于，所述显示信息集度量包括所述渲染设备渲染的所述VR视频序列的显示信息列表。

16.根据权利要求9或10所述的DASH客户端NE，其特征在于，所述DASH客户端NE是通过所述一个或多个端口与所述多个渲染设备耦合的客户端，还包括发送器，用于通过所述一个或多个端口中的至少一个端口与所述DASH内容服务器进行通信。

17.根据权利要求9或10所述的DASH客户端NE，其特征在于，所述DASH客户端NE是

媒体感知中间NE，并且还包括与所述一个或多个端口耦合的至少一个发送器，用于通过一个或多个客户端将所述媒体内容转发给所述多个渲染设备，以及向所述DASH内容服务器发送所述显示信息集度量。

18.一种非瞬时性计算机可读介质，其特征在于，包括供视频编码设备使用的计算机程序产品，其中，所述计算机程序产品包括存储在所述非瞬时性计算机可读介质上的计算机可执行指令，当所述计算机可执行指令由处理器执行时，使得所述视频编码设备执行根据权利要求1至8中任一项所述的方法。

19.一种基于超文本传输协议(Hypertext Transfer Protocol，HTTP)的动态自适应流(Dynamic Adaptive Streaming over HTTP，DASH)客户端网元(network element，NE)，其特征在于，包括：

接收模块，用于接收描述包括虚拟现实(virtualreality，VR)视频序列的媒体内容的DASH媒体展示描述(Media Presentation Description，MPD)，并根据所述MPD获取所述媒体内容；

转发模块，用于将所述媒体内容转发给多个渲染设备进行渲染；

显示信息集度量模块，用于确定包括所述渲染设备渲染的所述VR视频序列的显示信息的显示信息集度量，所述显示信息集度量为包括多个入口对象的无序集合，其中每个入口对象包括一个渲染设备对应的显示信息，其中，所述显示信息集度量由所述多个渲染设备在渲染期间在指定的断点处反馈的；

发送模块，用于向所述VR视频序列末尾处的提供方服务器发送所述显示信息集度量。

20.根据权利要求19所述的DASH客户端NE，其特征在于，所述VR视频序列在所述多个渲染设备上同时渲染。

21.根据权利要求19或20所述的DASH客户端NE，其特征在于，所述显示信息集度量包括所述渲染设备中至少一个渲染设备关联的每个客户端的入口对象。

22.根据权利要求19或20所述的DASH客户端NE，其特征在于，每个入口对象包括显示分辨率(displayResolution)值，以像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示分辨率。

23.根据权利要求19或20所述的DASH客户端NE，其特征在于，每个入口对象包括显示像素密度(displayPixelDensity)值，以每英寸像素为单位表示由对应渲染设备渲染的所述VR视频序列的显示像素密度。

24.根据权利要求19或20所述的DASH客户端NE，其特征在于，每个入口对象包括显示刷新率(displayRefreshRate)值，以赫兹为单位表示由对应渲染设备渲染的所述VR视频序列的显示刷新率。

25.根据权利要求19或20所述的DASH客户端NE，其特征在于，所述显示信息集度量包括所述渲染设备渲染的所述VR视频序列的显示信息列表。