CN116389433A

CN116389433A - 用于减少360度视区自适应流媒体延迟的方法和装置

Info

Publication number: CN116389433A
Application number: CN202310345995.4A
Authority: CN
Inventors: 贺勇; 叶艳; 斯里尼瓦斯·古杜马苏; 爱德华多·阿斯邦; 阿赫麦德·哈姆扎; 阿里·C·贝根
Original assignee: Vid Scale Inc
Current assignee: Vid Scale Inc
Priority date: 2016-09-09
Filing date: 2017-09-08
Publication date: 2023-07-04
Also published as: CN109891850A; CN109891850B; WO2018049221A1; US20230283653A1; EP4084480A1; US11677802B2; EP3510744A1; EP3510744B1; US20190230142A1

Abstract

客户端设备自适应地流传输360度视频。在第一时间基于第一观看方向显示第一分段，其中第一观看方向与第一视区相关联。客户端基于第一视区请求第一基本缓冲区分段。第一基本缓冲区分段在第一个分段之后具有呈现时间。在第二时间，观看方向变为与第二视区相关联的第二观看方向。在呈现时间之前，客户端基于第二视区请求具有相同呈现时间的第一视区缓冲区分段。客户端设备在呈现时间显示第二分段，其中第二分段是第一视区缓冲区分段或第一基本缓冲区分段。客户端提供有关视区切换延迟和请求最多的分段的报告。

Description

用于减少360度视区自适应流媒体延迟的方法和装置

本申请是申请日为2017年9月8日、申请号为201780066997.2、发明名称为“用于减少360度视区自适应流媒体延迟的方法和装置”的中国发明专利申请的分案申请。

相关申请的交叉引用

本申请是于2016年9月9日提交的题为“减少360度视区自适应流媒体延迟的方法和装置”的美国临时申请62/385,733的非临时申请，并根据35U.S.C§119(e)要求其权益，其全部内容通过引用结合于此。

背景技术

360°(或360度)视频是媒体行业中新兴的迅速发展的新格式。它通过VR设备的日益增长的可用性实现，并且能够为观看者提供非常新的存在感。与传统的直线视频(2D或3D)相比，360°视频对视频处理和传输提出了一系列新的和困难的工程挑战。实现舒适和身临其境的用户体验需要极高的视频质量和极低的延迟，但是大视频尺寸可能成为提供高质量大规模360°视频的障碍。

观看360°视频时，会向用户显示视频的一部分。当环顾四周或缩放时，该部分将基于头戴式设备(HMD)或其他类型的用户界面(例如，智能手机)提供的反馈而改变。可以完全或部分呈现给用户并且可以具有与360°视频的其他部分不同的质量的整个360°视频的空间区域被称为视区。

为了使用户能够选择任意视区，通常在球体表面上捕获和/或渲染360°视频。这种球形视频格式通常不能使用传统的视频编解码器直接传送。相反，通常使用两个步骤来压缩360°视频或球形视频：(1)使用一些投影方法将球形视频投影到2D平面上；(2)使用传统的视频编解码器对投影的2D视频进行编码。通常使用的投影方法的示例被称为等量矩形投影，其使用以下等式将具有球面上的坐标(θ，

)的点P映射到具有2D平面上的坐标(u，v)的点P，如图1所示。

目前，大多数360°视频应用和服务将整个360°视频编码为符合标准的流，用于渐进式下载或自适应流媒体。向客户端提供整个360°视频允许低延迟渲染(客户端可以访问整个360°视频内容，并且可以选择渲染用户想要看到的部分而无需进一步限制)。从服务器的角度来看，相同的流可以支持具有可能不同视区的多个用户。然而，在不利方面，因为整个360°视频必须以高质量编码(例如，4K时每只眼睛60fps，或者6K时每只眼睛90fps)，视频尺寸将非常高，在传送视频时会产生高传输带宽。在客户端，传输期间的大部分高带宽消耗将被浪费，因为用户仅观看整个图片的一小部分(目标视区)。

为了减少带宽需求，可以使用替代投影方法将360°视频转换为2D平面视频。例如，代替典型的等量矩形投影，可以使用金字塔图、立方体图和偏移立方体图等其他几何投影方法来表示具有较少数据的球形视频。例如，立方体图投影方法与等量矩形投影相比通常可以节省20％的像素，因为它引入的翘曲较少。诸如金字塔投影之类的其他投影方法可以进一步对观看者不可能观看的像素进行重采样，以减小投影的2D视频的尺寸。

在服务器和客户端之间存储和传送整个360°视频的替代方法是使用视区特定的表示。一些投影方法，例如立方体图或金字塔投影，可以为不同的视区提供不均匀的质量表示(即，一些视区可以以比其他视区更高的质量表示)。在这种情况下，为了支持球形视频的所有视区，可以生成具有不同目标视区的相同视频的多个版本并将其存储在服务器侧。例如，在Facebook的VR视频传送实现中，可以使用偏移立方体图格式。偏移立方体图为前视区提供最高分辨率(因此质量最高)，向后视图提供最低分辨率(因此质量最低)，并为侧视图提供中间分辨率(因此质量居中)。为了适应客户端对相同内容的不同视区的请求，服务器将存储相同内容的多个版本，例如，相同内容的总共150个不同版本(30个视区，每个视区5个分辨率)。然后，在流媒体会话中的传送期间，客户端可以请求与其当前视区相对应的特定版本，该特定版本将由服务器传送。尽管这种视区自适应流媒体方法节省了传输带宽，但其缺点包括服务器上的存储要求增加以及如果/当客户端改变视区时可能增加的延迟。当这种视区变化频繁时，延迟问题可能特别严重。

发明内容

这里描述的是与监视和减少360度视频的视区自适应流媒体的延迟有关的系统和方法。

在操作头戴式360度视频客户端设备的示例性方法中，通过设备向客户端设备的用户显示视区自适应360度视频的第一视区表示。第一表示与第一观看方向相关联。在显示第一视区表示时，设备检测到用户的头部朝向已经改变到与第二视区相关联的第二观看方向。响应于检测到的头部朝向的改变，设备检索与第二视区相关联的360度视频的第二视区表示。设备开始向用户显示第二视区表示。设备还测量检测到的头部朝向的变化与第二视区表示的显示开始之间的视区切换延迟。设备至少部分地基于测量的延迟向服务器发送延迟报告。

在操作头戴式360度视频客户端设备的另一示例性方法中，设备跟踪用户的一系列头部朝向，每个头部朝向对应于视区自适应360度视频的多个相应视区表示中的一个。设备自适应地请求与所跟踪的头部朝向相对应的视区表示。设备接收并向用户显示所请求的视区表示。设备还向度量服务器发送视区请求报告，其中视区请求报告基于对各个视区表示做出的请求的数量。

在一些实施方式中，视区自适应流媒体的方法采用双缓冲区分段调度。在一个这样的实施方式中，提供了一种方法，包括启动从服务器到头戴式显示器(HMD)的360度视频的视区自适应流媒体。该方法还包括在第一时间至少部分地基于所述第一时间时HMD的第一朝向显示第一分段，其中第一朝向与第一视区相关联。该方法还包括至少部分地基于第一视区请求至少第一基本缓冲区分段包括在基础缓冲区中，其中第一基本缓冲区分段具有在第一分段之后的呈现时间。该方法还包括在第一时间之后的第二时间确定HMD的朝向从第一朝向到第二朝向的变化，其中第二朝向与第二视区相关联。该方法还包括在第一基本缓冲区分段的呈现时间之前，基于第二视区请求第一视区缓冲区分段，其中第一视区缓冲区分段具有与第一基本缓冲区分段相同的呈现时间。该方法还包括在呈现时间显示第二分段，其中第二分段是第一视区缓冲区分段或第一基本缓冲区分段。

在一个实施方式中，提供了一种方法，包括从服务器向用户头戴式设备(HMD)发起360度视频流。该方法还包括请求至少第一分段包含在基本缓冲区中。该方法还包括请求至少第二分段包含在视区缓冲区中。该方法还包括至少部分地基于HMD的当前朝向来显示来自基本缓冲区或视区缓冲区的至少一个分段。

在一个实施方式中，提供了一种方法，包括估计从服务器到用户头戴式设备(HMD)的360度视频流的带宽(BW)。该方法还包括检测目标视区分段。该方法还包括确定不存在基本缓冲区下溢。该方法还包括，响应于确定

将目标视区分段下载到视区缓冲区，其中S是目标视区分段的大小，t是当前时间和下一个呈现时间之间的时间，Δ是保留的带宽余量，以避免潜在的不匹配。该方法还包括以其他方式将目标视区分段下载到基本缓冲区。

在一个实施方式中，提供了一种用于360度视频的基于区块的视区自适应流媒体的双缓冲区调度的方法，其中基本缓冲区填充有至少一个低质量区块表示，并且视区缓冲区填充有至少一个至少部分地基于检测到的头戴式显示器的朝向的高质量视区表示。

在一个实施方式中，提供了一种减少用于将360度视频流媒体到头戴式显示器的切换延迟的方法，包括部分下载调度。

在一个实施方式中，提供了一种方法，包括启动从服务器到头戴式显示器(HMD)的360度视频的视区自适应流媒体。该方法还包括在第一时间至少部分地基于所述第一时间时HMD的第一朝向显示第一分段，其中第一朝向与第一视区相关联。该方法还包括请求和开始下载至少第一下载分段和第二下载分段，其中第一下载分段与第一视区相关联，第二下载分段与第二视区相关联，其中第二视区至少部分地基于第一视区确定，并且其中第一下载分段和第二下载分段具有第一分段之后的呈现时间。该方法还包括在第一时间之后且在呈现时间之前的第二时间确定HMD的朝向从第一朝向到第二朝向的变化，其中第二朝向与至少第二视区相关联。该方法还包括在呈现之前的先前确定的时间，取消至少第一下载分段的下载。该方法还包括将第二下载分段渲染给HMD。

在另一示例性实施方式中公开了一种操作360度视频客户端设备的方法，例如HMD、平板计算机、智能手机或其他显示设备。在该方法中，向客户端设备的用户显示视区自适应360度视频的第一视区表示。第一表示与第一观看方向相关联。在显示第一视区表示时，客户端检测到用户的观看方向已经改变到与第二视区相关联的第二观看方向。在使用HMD的实施方式中，可以通过检测头部朝向的改变(例如，使用HMD的加速度计、陀螺仪和/或相机组件)来检测观看方向的改变。在使用平板计算机或智能电话等其他客户端设备的实施方式中，可以基于设备的朝向的改变和/或来自用户的滚动输入来检测观看方向的改变(例如，用户在触摸屏表面上滑动以改变观看方向)。响应于检测到的观看方向的改变，客户端检索与第二视区相关联的360度视频的第二视区表示，并向用户显示第二视区表示。客户端还测量检测到的观看方向的变化与第二视区表示的显示之间的视区切换延迟。客户端至少部分地基于测量的延迟向服务器发送延迟报告。

在一些这样的实施方式中，测量多个视区切换延迟，并且延迟报告包括多个视区切换延迟中的最大视区切换延迟。在一些实施方式中，测量多个视区切换延迟，并且延迟报告包括多个视区切换延迟中的平均(或可选地，中值)视区切换延迟。可以在服务器和网络辅助DASH(SAND)消息中将延迟报告发送到DASH感知网络元件(DANE)。在一些实施方式中，从发送延迟报告的同一服务器检索视区表示。

在另一示例性实施方式中公开了一种操作360度视频客户端设备的方法，例如HMD、平板计算机、智能手机或其他显示设备。客户端设备跟踪用户的一系列观看方向，每个观看方向对应于视区自适应360度视频的多个相应视区表示中的一个。客户端设备自适应地请求与所跟踪的观看方向相对应的视区表示，并且客户端接收并向用户显示所请求的视区表示。客户端还向度量服务器发送视区请求报告，其中视区请求报告基于对各个视区表示做出的请求的数量。

在一些这样的实施方式中，从与度量服务器不同的至少一个DASH感知网络元件请求视区表示。

在一些这样的实施方式中，对于多个视区表示中的每一个，视区请求报告指示对相应表示做出的请求的数量。在一些实施方式中，视区请求报告标识至少一个时间间隔的最常观看的视区表示。

在一些实施方式中，提供了一种系统，包括处理器和存储指令的非暂时性存储介质，所述指令在处理器上执行时可操作以执行诸如本文所述的功能。

附图说明

通过结合附图以示例的方式呈现的以下描述，可以获得更详细的理解，其中：

图1描绘了从球体到2D平面的等量矩形投影的示例。

图2描绘了MPD分层数据模型的示例。

图3示出了在网络元件和客户端之间交换的四种SAND消息。

图4示出了基于帧的视区帧的实施方式，其中中心区域以高质量编码，但其他区域以较低质量编码。

图5示出了基于帧的视区自适应流媒体方法的示例。

图6示出了基于区块的视区自适应流媒体分区方法的示例。

图7示出了基于区块的视区自适应流媒体示例。

图8示出了基于层的视区叠加组合示例。

图9示出了基于层的视区自适应流媒体示例。

图10示出了视区自适应流媒体和切换延迟的示例。

图11示出了视区自适应流媒体分段请求示例。

图12示出了最小切换延迟示例。

图13示出了用于基于帧的视区自适应流媒体的双缓冲区调度方法的一个实施方式。

图14示出了HMD的三个自由度的一个示例。

图15示出了双缓冲区调度的一个实施方式的流程图。

图16示出了分段请求定时的一个实施方式的图。

图17示出了用于基于区块的流的双缓冲区调度的一个实施方式的图。

图18示出了用于基于层的流的双缓冲区调度的一个实施方式的图。

图19示出了部分下载调度的方法的一个实施方式的图。

图20示出了注视跟踪分析的一个实施方式。

图21示出了视区表示调整的一个实施方式的示例。

图22示出了部分下载调度的方法的一个实施方式的流程图。

图23示出了用于视区自适应流媒体的SAND消息的通信流程的一个实施方式。

图24示出了用于视区自适应流媒体的DASH SAND消息的一个实施方式的消息流程图。

图25示出了在一些实施方式中可以用作客户端设备或HMD的示例性无线发射/接收单元(WTRU)。

图26示出了可以在一些实施方式中采用的示例性网络实体。

具体实施方式

现在将参考各附图提供说明性实施方式的详细描述。尽管该描述提供了可能实现的详细示例，但是应该注意，所提供的细节旨在作为示例，并且决不限制本申请的范围。

基于HTTP的动态自适应流媒体(DASH)

HTTP流媒体已成为商业部署中的主要方法。例如，Apple的HTTP实时流媒体(HLS)、Microsoft的平滑流媒体(SS)和Adobe的HTTP动态流媒体(HDS)等流媒体平台都使用HTTP流媒体作为其底层传送方式。用于多媒体内容的HTTP流媒体的标准将允许基于标准的客户端从任何基于标准的服务器流式传输内容，从而实现服务器与不同供应商的客户端之间的互操作性。MPEG动态自适应HTTP流式传输(MPEG-DASH)是一种传送格式，通过动态自适应不断变化的网络条件，为最终用户提供高质量的视频体验。DASH建立在无处不在的HTTP/TCP/IP堆栈之上。它定义了一种称为媒体呈现描述(MPD)的清单格式，并定义了ISO基本媒体文件格式和MPEG-2传输流的分段格式。

动态HTTP流媒体要求在服务器处可获得多媒体内容的各种比特率替代选择。另外，多媒体内容可由几种媒体组件(例如，音频、视频、文本)组成，每种媒体组件可具有不同特征。在MPEG-DASH中，这些特征由媒体呈现描述(MPD)描述。

MPD是XML文档，其包含DASH客户端用于构建适当的HTTP-URL以在流媒体会话期间以自适应方式访问视频分段(如下所述)的元数据。图2示出了MPD分层数据模型的一个示例。MPD描述了时段序列，其中媒体内容组件的一致编码版本集在一段时间内不会改变。每个时段具有开始时间和持续时间，并且由一个或多个自适应集组成。

自适应集表示共享相同属性的一个或多个媒体内容组件的一组编码版本，例如语言、媒体类型、图片宽高比、角色、可访问性、视点和评级属性。例如，自适应集可以包含相同多媒体内容的视频组件的不同比特率。另一个自适应集可以包含相同多媒体内容的音频组件的不同比特率(例如，较低质量的立体声和较高质量的环绕声)。每个自适应集通常包括多个表示。

表示描述了一个或多个媒体组件的可交付编码版本，其通过比特率、分辨率、信道数量或其他特征而与其他表示不同。每个表示由一个或多个分段组成。表示元素的属性(如@id，@bandwidth，@qualityRanking和@dependencyId)用于指定关联表示的属性。

分段是可以使用单个HTTP请求检索的最大数据单元。每个分段都有一个URL，可以标识服务器上的可寻址位置。可以使用带有字节范围的HTTP GET或HTTP GET下载该分段。

为了使用该数据模型，DASH客户端解析MPD XML文档，基于每个自适应集元素中提供的信息选择适合于其环境的自适应集的集合。在每个自适应集内，客户端通常基于@bandwidth属性的值选择一个表示，但也考虑客户端解码和呈现能力。客户端下载所选表示的初始化分段，然后通过请求段的整个分段或字节范围来访问内容。一旦表示开始，客户端通过连续请求媒体分段或媒体分段的部分并根据媒体呈现时间线播放内容来继续消费媒体内容。客户端可以考虑来自其环境的更新信息来切换表示。客户端应该跨时段连续播放内容。一旦客户端消费包含在分段中的媒体，接近表示中所宣布的媒体的末尾，则可以终止媒体呈现，可以开始新的时段，或者可以重新获取MPD。

DASH标准第5部分，服务器和网络辅助DASH(SAND)，通过提供有关网络、服务器、代理、缓存、CDN的实时操作特性以及DASH客户端性能和状态的信息来指定DASH客户端和网络元素之间或各种网络元素之间的消息，以提高流媒体会话的效率。

图3示出了在网络元件和客户端之间交换的四种SAND消息。

-参数增强传递(PED)消息在DASH感知网络元素(DANE)之间交换。

-参数增强接收(PER)消息从DANE发送到DASH客户端。

-状态消息从DASH客户端发送到DANE。状态消息提供从客户端到DANE的实时反馈，以支持实时操作。

-度量消息从DASH客户端发送到度量服务器。度量消息提供会话摘要或更长的时间间隔。

视区自适应流媒体

视区自适应流媒体方法以高质量传送视区区域，以低质量传送其他区域以减少传输带宽。有几种自适应视区流媒体方法，包括基于帧的方法、基于区块的方法和基于层的方法。

基于帧的视区自适应流媒体方法将整个360视频编码成单个比特流，其中比特流中的视区区域以高质量编码，而相同比特流的其他区域以低质量编码。这种方法可以通过预处理或速率控制来实现。前述投影方法，例如金字塔和偏移立方体映射方法，是一种预处理。在编码之前在非视区区域上应用低通滤波的类似方法也可以降低非视区区域的视觉质量。通过在编码期间通过速率控制向视区区域分配更多比特并且向其他区域分配更少比特也可以实现相同的结果。图4示出了基于帧的视区帧的实施方式，其中中心区域以高质量编码，但其他区域以较低质量编码。流媒体服务器以不同比特率存储具有不同目标视区区域的相同内容的多个表示，并且客户端基于头部朝向和可用带宽请求特定表示。当头部朝向改变时，客户端可以在不同的表示分段之间切换。

图5示出了这种基于帧的视区自适应流媒体方法的示例。服务器有六个表示，每个表示包括所有视区，包括前视区(F)、右视区(R)、后视区(B)、左视区(L)、顶视区(T)和底视区(O)，具有高质量的一个特定视区(图5中的高质量视区加粗)。当用户正在观看前视区时，具有高质量前视区的分段被传送给用户。当用户向右视区移动时，具有高质量右视区的分段被传送给用户，依此类推。

基于区块的视区自适应流媒体方法将360°视频投影帧划分为多个区块，如图6所示。每个区块可以独立地编码成多个质量级别表示。客户端可以基于头部朝向和可用带宽请求每个区块的不同质量等级表示，然后将所有区块组合在一起用于渲染。与基于帧的方法相比，基于区块的方法具有更少的存储成本，但是它需要在客户端侧进行额外的组合处理。

图7示出了基于区块的视区自适应流媒体示例。基于头部朝向，客户端可以请求高质量的相应视区区块表示(图7中加粗)和低质量的剩余区块。可以将所有区块组合成完整的360°视频投影帧以渲染给用户。

基于层的方法将整个360°视频编码为低质量表示作为基础，并将每个单独的视区编码为不同的质量级别。客户端始终基于头部朝向请求基本表示和特定视区表示，然后将高质量视区覆盖在基础帧的顶部以进行渲染。图8是基于层的叠加组合实例。

图9示出了这种基于层的视区自适应流媒体示例。低质量基本表示包括所有视区，并且每个视区(T，O，F，R，B，L)分别被编码为高质量表示。基于头部朝向，低质量基本表示和一个特定视区表示被传送给用户以组成360°视频用于渲染。与基于区块的方法相比，基于层的方法可以使用存储在服务器端的较少的表示副本。视区表示可以独立于基本表示来编码，或者可以被编码为可缩放增强层，例如HEVC(SHVC)的可缩放扩展，其取决于基本表示，从而可以减少视区表示尺寸。

视区自适应流媒体方法减少了传输带宽，但需要更多存储空间，并且在不同视区之间切换时会引入延迟。由于只有目标视区质量较高且视频的其余部分质量较差，因此视区更改与相应视区表示的渲染之间的延迟可能会严重影响用户体验。图10是视区自适应流媒体示例。用户将观看方向从一个视区更改为另一个视区的时间表示为t_c；用户请求不同视区的片段的时间表示为t_r，并且呈现不同视区分段的时间表示为t_p。图10示出了当正在渲染一个前视区分段(F0)时，用户在时间t_c从前视区(F)切换到右视区(R)。下载缓冲区包含三个前视区分段(F1，F2和F3)，还有一个分段(F4)正在下载。结果，在t_r请求第一右视区分段R5，并且用户可能直到t_p才观看右视区分段R5。t_c和t_p之间的时间间隔是切换延迟。可以使用较短的分段长度来解决负面用户体验，但这也可能降低编码效率。减少这种切换延迟的另一种方法是减少下载缓冲区大小以保持更少的分段；然而，较小的下载缓冲区大小也可能影响流媒体质量自适应，例如通过使缓冲区下溢更频繁地发生。

切换延迟问题存在于所有三种上述视区自适应流媒体方法中。在本公开中，阐述了系统和方法以解决切换延迟和其他问题。

示例性双缓冲区分段调度方法

切换延迟取决于诸如分段长度、下载缓冲区大小、朝向检测频率和分段请求时间等因素。由于视区可能会不断变化，因此存储在缓冲区中的每个分段在渲染时可能与当前视区不匹配。提前下载所有这些分段可能不值得花费带宽，但应保持足够的缓冲区充满度级别以防止缓冲区下溢。图11是与图10的示例相比的简化示例。视区分段被定义为第i个视区的第j个分段的S(i，j)。每个分段长度固定为T_s，，下载缓冲区可以保存N个分段。当分段S(p，0)正在播放时，头部朝向在t_c从第p个视区改变到第q个视区。客户端决定在t_r请求S(q，N+1)a，并且S(q，N+1)的呈现时间是t_p。t_c和t_p之间的时间间隔是切换延迟T_L，其中(N)*T_s≤T_L≤(N+1)*T_s。

流媒体分段请求通常在前一分段下载完成后顺序发生。以这种方式，可以基于最近的带宽估计来适当地选择分段。而对于视区自适应流媒体，理想的分段请求时间t_r应该与t_p相同，以便下载的视区分段可以在呈现时间(t_p)匹配头部朝向。但是，这需要非常高的带宽。减少t_r和t_p之间的时间间隔有助于减少切换延迟。如图12所示，通过将缓冲区大小设置为一个分段，可以将切换延迟减小到小于或等于2*T_s，其中分段请求在每个分段的回放结束时发生。

在图12中，当在分段S(p，0)的渲染开始时头部朝向发生时，切换延迟等于2*T_s，并且当头部朝向发生在分段S(p，0)的渲染结束时切换延迟等于T_s。然而，这种小的缓冲区尺寸需要保证足够的网络带宽(BW)以基于以下约束完全下载高质量视区分段以避免缓冲区下溢。

BW≥(S(q，j+1)/T_s) 等式1

其中S(q，j+1)是第q个视区的第(j+1)个分段的大小，T_s是分段长度。估计的带宽BW_est可能与实际可用带宽BW不匹配。当估计的带宽高于BW时，当带宽意外下降时可能发生缓冲区下溢。此外，因为分段请求仅在分段下载完成时发生，所以当最后分段下载在下一段请求之前完成时，带宽估计可能不是最新的。另外，在没有获取分段的时段期间，带宽利用率可能不是有效的。

为了防止缓冲区下溢并减少切换延迟，本文提出了一种用于视区自适应流媒体的双缓冲区分段调度方法。

图13是用于基于帧的视区自适应流媒体情况的双缓冲区调度方法的一个实施方式的图。有两个缓冲区：基本缓冲区和视区缓冲区。基本缓冲区类似于常规流媒体下载缓冲区，用于适应带宽波动并保持适当的缓冲区充满度级别以防止缓冲区下溢或溢出。视区缓冲区存储在渲染当前分段之后立即渲染的分段，以便最小化切换延迟。

因为下载缓冲区中的每个分段可以在最近的头部朝向检测之前被提取，所以每个分段的视区在渲染时可能与当前的头部朝向不匹配。因此，除非头部朝向预测是可靠的，否则请求高质量高比特率表示可能是不值得的。客户端可以在回放期间收集用户的头部朝向数据，并分析朝向一致性以便确定应该为下载缓冲区请求哪个质量级别的分段。当头部移动缓慢或呈现特定高优先级视区时(例如，特定视区可被电影导演或内容提供者标记为高优先级持续特定持续时间)，可以高质量地请求预测的视区表示。否则，请求低质量视区表示以维持缓冲区充满度级别并节省带宽。

将时间t处的头部朝向表示为V(t)，V(t)的水平朝向范围为-180°至+180°，并且V(t)的垂直朝向范围为-90°至90°。基本缓冲区中的特定视区表示的质量等级选择可取决于诸如头部移动强度之类的因素，例如，通过在一段时间(例如，2秒)内测量3个自由度(俯仰、偏转和滚动)。图14示出了3自由度HMD示例。当头部通过围绕X(例如，

)和Y轴(例如，θ)的旋转朝向改变小于预定程度阈值/>

时，由于头部移动缓慢，DASH客户端可能请求中等或高质量的视区分段。否则，可以请求最低速率表示分段。另一个替代实施方式是从观看历史数据分析确定观看次数最多的朝向，并且总是请求观看次数最多的视区的分段。

视区缓冲区用于存储要在当前渲染分段之后立即渲染的目标视区分段。这样的分段用于最小化切换延迟，因为它是基于最近检测到的头部朝向来请求的。如图15所示的请求定时t_r对于切换延迟是至关重要的。t_r和t_p(j之间的间隔越小，朝向检测就越准确。但是，小间隔可能需要高带宽来及时完成整个视区目标分段的下载。如果请求过早发生，则可能无法捕获最新的头部朝向更改，但下载该分段的时间将可用。如果请求发生得太晚，请求的视区可能与视区朝向匹配，但相应的分段下载可能无法及时完成。

将第j个分段的呈现时间表示为t_p(j)，并且为简单起见，假设t_p(j)对于所有视区的第j个分段是相同的。带宽是BW，头部朝向改变的时间是t_c，并且对第i个视区的第j个分段的请求S(i，j)，发生在t_r。为了获取整个S(q，j)，应满足以下等式。

BW≥S(i，j)/(t_p(j)-t_r) 等式2

t_r≤t_p(j)-(S(i，j)/BW) 等式3由于在基本缓冲区和视区缓冲区中有两个视区分段候选，S(p，j)和S(q，j)，客户端可以基于t_p(j)处的头部朝向选择要呈现的分段之一，并从缓冲区中删除另一个。

图15示出了双缓冲区调度流程图。S是目标视区分段的大小，t是当前时间与下一个呈现时间之间的时间距离。Δ是保留的带宽余量，以避免估计带宽(BW)与可用实际网络带宽之间的潜在不匹配。

在每个视区分段有多个质量等级的情况下，第k个质量等级的第i个视区的第j个分段可以表示为S(i,j,k)，其中

S(i，j，0)＜S(i，j，1)＜...＜S(i，j，k)＜...＜S(q，j，M)，假设第i个视区表示具有M+1个质量等级。用户可以基于可用带宽以及头部朝向改变来确定要请求的质量等级。给定相同的可用带宽BW，客户端可能更喜欢选择中等质量分段S(i，j，k)，其中k＜M，使得如果头部朝向保持频繁改变，则请求时间t_r可以更接近t_p(j)。如果头部朝向在时间上是一致的，则客户端可以在较早时间选择最高质量的分段S(i，j，M)。图16示出了第q个视区的第j个分段的不同质量等级映射到不同的分段请求时间

以便在呈现时间t_p(j)之前完成下载的示例。

在网络带宽快速下降并且不能完全下载相应的目标视区分段S(q，j，k)的情况下，流媒体客户端可以从基本缓冲区检索第j个分段以进行渲染而不会停止回放。

当头部朝向与t_r处的基本缓冲区中的视区分段匹配时，客户端可以确定不再次请求相同视区的分段，或者客户端可以确定请求相同视区的更高质量分段。一旦目标视区分段下载完成，客户端可以继续请求后续分段填充基本缓冲区。

针对基于帧的视区自适应流媒体情况示出了上面提出的双缓冲区分段调度方法。然而，相同的方法也可以用于基于区块和基于层的视区自适应流媒体。

对于基于区块的视区自适应流媒体，基本缓冲区保持所有较低质量的区块表示，并且视区缓冲区存储特定的高质量视区表示，这取决于t_r处的最新头部朝向检测。图17示出了用于基于区块的视区自适应流媒体的示例性双缓冲区调度方法。为简单起见，仅呈现两个质量等级：S_L(j，k)表示第k个区块的低质量第j个分段表示，并且S_H(j，p)表示第p个区块的高质量第j个分段表示。客户端请求低质量区块以填充基本缓冲区并在t_r处请求高质量区块，请求的高质量区块的数量取决于可用带宽和目标视区内的区块数量。图17示出了针对视区q请求的两个高质量区块。

由于与基于帧的分段相比，区块分段尺寸更小，与基于帧的视区自适应流媒体相比，下载高质量区块所需的带宽可以低得多。因此，请求时间t_r，可以更接近t_p(j)，使得头部朝向检测更准确。假设要请求的高质量区块的总数是K，则可以从以下等式导出所需带宽(BW)或分段请求时间t_r。

在另一个实施方式中，不需要为基本缓冲区请求所有低质量区块。每个区块的下载优先级可以通过其与先前检测的目标视区的距离来确定。先前检测到的视区区块及其周围的很可能被观看的区块首先被下载到基本缓冲区中，而远离目标视区的区块可以稍后下载或根本不下载，具体取决于可用的带宽和头部运动分析。每个区块(视区内或视区外)的优先级也可以基于其重要性来确定，其中区块的重要性可以以多种方式测量，例如通过区块中的总运动量，区块的对比度或区块的其他质量相关特征。可以将更重要的区块首先下载到基本缓冲区中，而不太重要的区块可以稍后下载或根本不下载，具体取决于可用带宽和头部运动分析。结果，通过下载部分区块节省的带宽可用于下载更高质量的区块分段。在最坏的情况下，如果用户正在观看不可用的区块，则可以使用相应的先前下载的区块来填充该点。

在另一个实施方式中，视区中可以有多个区块。并非所有这些区块都需要以高质量或相同的质量要求。可以以相同或更高的质量和/或在不太重要的区块之前请求更重要的区块，这将以相同或更低的质量和/或在更重要的区块之后请求。可以以多种方式测量区块的重要性，例如通过区块中的总运动量，区块的对比度或区块的其他质量相关特征。因此，通过使用相同或更少量的资源(例如带宽)可以实现更好的体验。

对于基于层的视区自适应流媒体方法，优选地首先下载基本表示以避免缓冲区下溢。图18示出了用于基于层的视区自适应流媒体的双缓冲区调度示例。基本表示的第j个分段表示为S_L(j)，第q个视区的高质量第j个分段表示为S_H(j，q)。类似于基于区块的流媒体的调度，可以下载一个或多个视区分段以覆盖在基础帧上，这取决于视野和可用带宽。等式(4)和(5)也适用于基于层的流媒体方法。如果无法及时下载高质量视区分段，则基本表示可用作呈现的后备视频。

在基于层的可缩放360°视频表示可用的情况下，客户端还可以使用双缓冲区调度方法请求增强层分段而不是视区缓冲区的独立视区分段。增强层可以覆盖360°视频的视区的部分或全部，并且如果增强层分段覆盖更多视区，则调度方案可以在更早的时间(t_r)请求增强层的。附加信令(例如viewportId)可用于识别增强层中包括的视区。在增强层覆盖具有相同质量的所有视区的情况下，请求时间t_r可以仅取决于带宽，因为它不再是视区自适应流媒体。

示例性部分下载调度方法

在另一个实施方式中，减少切换延迟的替代方法可以是如图19所示的部分下载调度。实际上，为多个识别的视区下载分段的一部分。例如，匹配在t_p(j-1)处检测到的朝向的视区，例如S(p，j)，及其相邻视区，例如S(p+1，j)，S(p+1，j)，...，S(q，j)。这种方法假定用户的运动是中等的并且t_p(j)处的头部朝向可以匹配S(p，j)旁边的一个视区。附加视区的选择可以基于头部角速度和身体运动的数据分析，以便估计下一个目标视区朝向。

现有的流传输协议允许客户端指定要下载的分段的字节数，而不是下载整个分段。在某个时间t_d，确定最终匹配的视区分段S(q，j)以便连续下载，同时终止其他视区的分段的下载。结果，切换延迟可以小于或等于一个分段长度T_s。

这种部分下载方法提高了视区检测精度并最小化了切换延迟，但可能需要额外的带宽来部分下载所有潜在视区的分段。

将每个视区分段的平均大小表示为S，将部分下载的数据百分比表示为α。最初请求的视区数量由N表示。N的值取决于用户的注视跟踪分析和估计的带宽。运动分析可以使用用户在一段时间内观看的视区的总数来确定N的值。例如，如果用户观看范围在过去的2秒内穿过3x2视区，如图20所示，那么N的值可以设置为6，并且可以请求当前视区的六个分段及其周围视区。另一种方法是计算可用带宽可以容纳多少视区分段。例如，如果平均分段大小为1MB且分段长度为2秒，则α设置为0.4，并且在前1秒期间每个分段将下载400KB，然后当可用带宽为4Mbps时N的值将为10。也可以使用注视跟踪分析和带宽估计的组合来确定N的值。

将识别要完成的特定视区分段的时间表示为t_d。选择满足以下等式的参数以避免缓冲器下溢。利用更多带宽(BW)，客户端能够请求更多潜在的视区(N)，或者增加部分下载百分比α以推迟视区朝向决定。

BW≥((N*S*α)+S*(1-α))/T_s 等式6

识别最终头部朝向的时间是t_d，其可以从等式7导出。在t_d，可以连续地下载所识别的视区分段的剩余数据，并且将放弃其余视区的部分分段。α的较高值允许使得决定更接近呈现时间，这意味着头部朝向检测可以更准确。另一方面，更多带宽可能花费在不匹配的视区分段上。

t_d＝((N*S*α)/(BW*T_s))+t_p(j-1) 等式7

基于用户运动分析和可用带宽，客户端可以确定N和α的适当值以基本上最小化切换延迟，以便增强用户体验。

在每个视区具有不同质量等级表示的情况下，客户端可以请求对于最有可能在t_p(j)处观看的那些视区的高质量表示，以及对于那些在t_p(j)处不太可能被观看的视区的低质量表示。等式(6)和(7)可以表示如下，其中N是最初部分下载的视区分段的总数：

可以动态调整BW，N和α之间的平衡以避免缓冲区下溢。例如，当BW下降时，如果头部朝向一致，则客户端可以减少N，或者尽可能地减小α以确定目标视区。如图21的示例图中所示，当带宽下降时，部分下载的分段的数量减少。

图22是根据实施方式的部分下载调度方法的流程图。S是目标视区分段的大小，t是当前时间与下一个呈现时间之间的时间距离。Δ是保留的带宽余量，以避免估计带宽(BW)与可用实际网络带宽之间的潜在不匹配。对于基本缓冲区，在基本缓冲区下溢的情况下下载整个分段。否则，可以为基本缓冲区下载部分分段，以便增加更新N和α的频率。

这种部分下载调度方法可以应用于视区缓冲区，用于基于区块和基于层的视区自适应流媒体。客户端可以开始将多个识别的高质量视区分段的部分数据下载到视区缓冲区，并且客户端可以在t_d确定最终匹配的目标视区以完成下载。目标视区的数量可以小于或等于部分下载的视区的数量。

在基于层的可缩放360°视频表示可用的情况下，客户端还可以部分地使用部分下载的调度方法来请求增强层分段而不是独立的视区分段。增强层可以覆盖360°视频的部分或全部视区。如果一个特定增强层分段覆盖更多视区，则调度方案可以减少分段候选的总数N。附加信令(例如视区Id(viewportId))可用于识别增强层中包括的视区。在增强层覆盖具有相同质量的所有视区的情况下，确定时间t_d可以仅取决于带宽，因为它不再是视区自适应流媒体。

采用SAND消息的示例性实施方式

在一些实施方式中，为了提高视区缓冲区下载的效率，可以使用DASH SAND消息来支持双缓冲区调度和部分下载调度方法的实时操作。例如，客户端可以使用诸如期望的请求(AnticipatedRequests)(表1)之类的状态消息，通过将@sourceUrl的值设置为这些潜在视区分段的URL，向服务器通知客户端对哪组特定视区分段感兴趣。客户端可以使用绝对截止期限(AbsoluteDeadline)(表2)来指示墙上时钟时间的绝对截止期限，以及何时需要完全接收所请求的分段。结果，服务器可以预先将相应的分段缓存到客户端的最近的网络元件，例如CDN或边缘节点。服务器还可以使用PER消息，资源状态(ResourceStatus)(表3)或Dane资源状态(DaneResourceStatus)(表4)来通知客户端相应视区分段的缓存状态，以便客户端可以选择要请求的相应视区分段。

表1-期望的请求参数

表2-绝对截止期限参数

表3-资源状态(带有基本Url(baseUrl))参数

表4-Dane资源状态参数

PER消息吞吐量(Throughput)，具有以比特/秒为单位的参数有保障的吞吐量(guaranteedThroughput)(如表5所示)，也可用于提高所提议的调度方法的性能。客户端可以具有关于特定视区分段的下载时间的预先信息和用于双缓冲区调度方法的请求时间t_r，或者可以确定用于部分下载调度方法的t_d。

表5-吞吐量(带有baseUrl)参数

在示例性实施例中，除了那些现有消息之外，在SAND消息中添加了视区自适应流媒体的两个操作特性：视区请求(ViewportRequests)和视区切换延迟(ViewportSwitchLatency)。

ViewportRequests消息可以包括针对每个视区表示的请求的数量或者特定时间间隔的观看最多的视区表示。DASH服务器可以在服务器端为特定客户端收集这样的信息，但是如果客户端从不同服务器请求相同视区的分段，则可能不覆盖整个流媒体会话。ViewportRequests消息可以用作度量消息，以提供特定360°视频流媒体会话的摘要，例如每个时间间隔的请求最多的视区表示。DANE可以使用此类统计信息为请求最多的视区表示分配更多资源，以改善用户体验并移除请求最少的视区以节省存储空间。表6显示了示例性ViewportRequests参数，每个视区表示由视区Id(viewportId)标识。

表6-视区请求参数

在一些实施方式中，ViewportSwitchLatency消息用作状态消息，其提供从客户端到DANE的实时延迟反馈以支持实时操作。在切换延迟超出期望范围的情况下，DANE可以向特定客户端链路分配更多带宽。表7显示了ViewportSwitchLatency的示例性参数格式。在一些实施方式中，表7中指定的延迟参数是最大视区朝向切换延迟。在其他实施方式中，延迟参数可以是给定时间段期间的切换延迟的平均值或中值或另一延迟度量。

表7-视区切换延迟参数

图23示出了在示例性实施方式中的视区自适应流媒体中使用的SAND消息，以改善用户体验和实时操作。

图24示出了在DANE，DASH客户端和度量服务器之间交换SAND消息以便改进实时操作和度量收集的示例。DASH客户端可以向源服务器发送诸如AnticipateRequests和AbsoluteDeadline之类的状态消息，以基于当前头部朝向预测指示它可以请求哪个视区，以及在需要完全接收所请求的分段时的绝对截止期限。源服务器还可以向DASH客户端发送参数增强接收(PER)消息，例如ResourceStatus、DaneResourceStatus和Throughput，以通知当前时间分段的可用性以及从源服务器到DASH客户端的吞吐量特性。当相应的数据由CDN/缓存服务器托管时，也可以在DANE CDN/缓存和DASH客户端之间交换相同的状态消息。

DASH客户端基于来自源服务器的头部朝向请求新的视区分段，并且源服务器将该分段传递给客户端。客户端可以计算切换延迟并将ViewportSwitchLatency发送回原始服务器以通知服务器的即时360°视频流媒体状态。如果性能低于预期，则服务器可以为会话重新分配资源。例如，源服务器可以将分段分发到更靠近客户端的缓存以减少延迟。DANE缓存还可以向客户端通知缓存上的相应分段的可用性，使得客户端可以直接从缓存请求以下分段。客户端可以继续将ViewportSwitchLatency状态发送到DANE源服务器或DANE缓存，以提高实时操作性能。在观看会话结束时，客户端可以收集视区统计信息并将度量消息ViewportRequests发送到度量服务器以指示最多观看哪个视区。观看最多的视区统计信息可用于改进缓存策略和营销分析。

图25示出了在一些实施方式中可以用作客户端设备或HMD的示例性无线发射/接收单元(WTRU)102。WTRU 102包括具有收发器120的通信接口119和用于无线通信116的天线122。WTRU 102还包括与扬声器/麦克风124、键盘126、显示器/触摸板128、不可移除存储器130、可移除存储器132、外设138、GPS芯片组136以及电源134相连的处理器118。

图26示出了可以在一些实施方式中采用的示例性网络实体190。网络实体190包括通信接口192、处理器194以及具有指令197的数据存储器196。

注意，所描述的实施方式中的一个或多个的各种硬件元件被称为“模块”，其执行(即，实施，实行等)本文结合各个模块描述的各种功能。如本文所使用的，模块包括硬件(例如，一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)被相关领域的技术人员认为适合于给定的实现。每个所描述的模块还可以包括可执行以实施由相应模块执行的一个或多个功能的指令，并且应当注意，这些指令的形式可以采取或包括硬件(即，硬连线)指令、固件指令、软件指令和/或类似指令，并且可以存储在任何合适的非暂时性计算机可读介质或媒体中，例如通常被称为RAM、ROM等。

尽管以上以特定组合描述了特征和元素，但是本领域普通技术人员将理解，每个特征或元素可以单独使用或与其他特征和元素进行任何组合。此外，本文描述的方法可以在并入计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓冲存储器、半导体存储器设备、磁性介质(例如，内部硬盘和移动磁盘)，磁光介质和光学介质(例如，CD-ROM磁盘和数字通用磁盘(DVD))。与软件相关联的处理器可用于实现用于WTRU、UE、终端、基站、RNC或任何主计算机的射频收发器。

Claims

1.一种方法，包括：

渲染视区自适应360度视频的第一分段S(p,j-1)，所述第一分段与第一视区p以及第一时间段j-1相关联；

通过网络检索所述视频的第二分段S(p,j)，所述第二分段与所述第一视区p以及所述第一时间段之后的第二时间段j相关联；

检测所述用户的观看方向已经从与所述第一视区p相关联的方向改变到与第二视区q相关联的方向；

响应于所检测到的所述观看方向的改变，通过所述网络检索所述视频的第三分段S(q,j)，所述第三分段与所述第二视区q以及所述第二时间段j相关联；以及

在所述第二时间段期间渲染所述第二分段或所述第三分段。

2.根据权利要求1所述的方法，还包括：基于所述用户在所述第二时间段的开始时间t_p(j)的观看方向确定是渲染所述第二分段还是所述第三分段。

3.根据权利要求1所述的方法，还包括：估计所述网络上的带宽，其中仅响应于确定所估计的带宽足够大以允许在所述第二时间段的开始时间t_p(j)之前检索所述第三分段，检索所述第三分段被执行。

4.根据权利要求1-3中任一项所述的方法，其中所述第一分段和所述第二分段被存储在基本缓冲区中，以及其中仅响应于确定所述基本缓冲区未被预测为下溢，所述第三分段被检索。

5.根据权利要求1-3中任一项所述的方法，其中所述第三分段被存储在视区缓冲区中。

6.根据权利要求1-3中任一项所述的方法，还包括：

至少部分地基于用户头部移动的等级来确定用于所述第二分段的质量等级，其中较高等级质量等级被选择用于头部移动的较低等级；

其中所述第二分段以所确定的质量等级被检索。

7.根据权利要求2所述的方法，其中所述第一分段和所述第二分段被存储在基本缓冲区中，所述第三分段被存储在视区缓冲区中，以及其中，响应于确定渲染所述第三分段，所述第二分段从所述基本缓冲区被移除。

8.一种装置，包括至少一个处理器，所述至少一个处理器被配置为执行：

在所述第二时间段期间渲染所述第二分段或所述第三分段。

9.根据权利要求8所述的装置，还被配置为：基于所述用户在所述第二时间段的开始时间t_p(j)的观看方向确定是渲染所述第二分段还是所述第三分段。

10.根据权利要求8所述的装置，还被配置为：估计所述网络上的带宽，其中仅响应于确定所估计的带宽足够大以允许在所述第二时间段的开始时间t_p(j)之前检索所述第三分段，检索所述第三分段被执行。

11.根据权利要求8-10中任一项所述的装置，其中所述第一分段和所述第二分段被存储在基本缓冲区中，以及其中仅响应于确定所述基本缓冲区未被预测为下溢，所述第三分段被检索。

12.根据权利要求8-10中任一项所述的装置，其中所述第三分段被存储在视区缓冲区中。

13.根据权利要求8-10中任一项所述的装置，还被配置为执行：

其中所述第二分段以所确定的质量等级被检索。

14.根据权利要求9所述的装置，其中所述第一分段和所述第二分段被存储在基本缓冲区中，所述第三分段被存储在视区缓冲区中，以及其中，响应于确定渲染所述第三分段，所述第二分段从所述基本缓冲区被移除。