CN110800306A

CN110800306A - 一种沉浸式视频传送方法

Info

Publication number: CN110800306A
Application number: CN201880036419.9A
Authority: CN
Inventors: J·伯杰; T·朗代
Original assignee: Idemia Identity and Security France SAS
Current assignee: Idemia Identity and Security France SAS; Sagemcom Broadband SAS
Priority date: 2017-05-19
Filing date: 2018-05-17
Publication date: 2020-02-14
Anticipated expiration: 2038-05-17
Also published as: EP3625966B1; CN110800306B; FR3066672B1; WO2018211000A1; EP3625966A1; BR112019024162A2; US10992970B2; US20200396493A1; FR3066672A1

Abstract

由于沉浸式视频的尺寸和分辨率，因此在传送网络上传输时需要的大量数据。为了减少数据传输量，沉浸式视频往往通过多个版本来呈现，其中每个版本均针对沉浸式视频的观看视点对质量进行了优化，沉浸式视频中，没有呈现优化版本视点的部分质量则较差。在这种情况下，当用户使用适当的显示设备观看沉浸式视频时，每次改变视点都必须改变版本。每个版本通常存储在相对地远离显示设备的服务器上。这种情况可能会导致改变视点后新版本接收延迟。本发明能够通过服务器和显示设备之间的中间网络节点来代替服务器，将每个版本传输至所述设备，从而缩短此延迟时间。

Description

一种沉浸式视频传送方法

本发明涉及一种沉浸式视频传送方法，以及用于实现该方法的系统和设备。

近年来，出现了多种画面和视频显示模式。直到“2000”年之前，这还仅限于二维(2D)画面，而呈现“360”度场景的立体视频、三维(3D)视频和沉浸式视频已经出现。

现在，沉浸式视频传送系统不再需要配有“360”度屏幕的专用房间以及多个投影设备，这些投影设备用于向沉浸式视频的每个视点进行投影。实际上，现在可以通过眼镜来实现沉浸式视频传送系统，即所说的沉浸式眼镜或沉浸式3D眼镜，其包含合成画面显示设备。

这种更为简单的实现方式可以使沉浸式视频传送系统得到普及。因此，将来，用户将能够在家中观看沉浸式视频。这些沉浸式视频将由运营商提供，并通过例如互联网等传送网络进行传输，就像现在通过相互网传送2D视频一样。

图1系统地示出了沉浸式视频1的传送系统的示例。在此系统中，用户12佩戴一副沉浸式眼镜13。这副沉浸式眼镜13包括处理模块131和图中未示出的画面显示模块。画面显示模块包括例如面对用户12每只眼睛的屏幕。画面显示模块能够使用户观看用图1中圆环10表示的360度视频。在该系统中，沉浸式视频经过传送网络，被处理模块131所接收，再经处理模块131解码后在画面显示模块上显示。

显示时，沉浸式视频传送系统1确定沉浸式视频投射面的简单几何形状(例如圆形、球形、圆锥或立方体)。然而，用户12只看到其视野所限定的那部分沉浸式视频。因此，在图1中，用户12仅看到他所面对的，虚线11A和11B所限定的那部分沉浸式视频。只有当用户12改变他观看视频的视点时，才能看到沉浸式视频的其余部分。

除了向用户提供比传统HD视频(英文术语“高清”：1920x1080pixels)范围大得多的视点之外：沉浸式视频的空间分辨率和时间分辨率通常比传统HD视频要高得多。这样的特性需要极大的比特率，这可能是网络难以承受的。

在已知的沉浸式视频传送系统中，服务器生成同一沉浸式视频的多个版本。每个版本对应视频的一个视点，所有版本覆盖了沉浸式视频的所有可能视点。在每个版本中，与用户视野对应(即用户所看到的)的那部分视频被压缩至最佳质量。未与用户视野对应(即用户看不到的，因为在用户视野之外)的部分视频被压缩至较低质量。当用户注视某一视点时，服务器会向其传输与其视点对应的版本。当用户改变其视点时，他向服务器请求传输与其新视点相对应的新版本。在等待接收该新版本的过程中，使用之前版本中质量被压缩得较差的那些部分来显示与用户新视点对应的画面。

文献w16189WD on ISO/IEC 23000-20Omnidirectional Media ApplicationFormat,Byeongdoo Choi,Ye-Kui Wang,Miska M.Hannuksela描述了可以投射沉浸式视频的所有3D几何形状。这些3D几何形状之一是如图2所示的截顶金字塔形。

图2系统地示出了可以投射沉浸式视频的3D几何形状2。

该3D几何形状2包括正方形基面21、梯形侧面22、23、24和25，以及与正方形基面21平行相对的正方形面20。正方形基面21的面积大于正方形面20。与用户视野相对应的那部分沉浸式视频被投射在正方形基面21上。用户视野之外但接近视野的那部分沉浸式视频则被投射在梯形侧面上。背对用户视野相对应的那部分沉浸式视频被投射在正方形面20上。因此，用户所看到的那部分沉浸式视频具有较高分辨率，而用户视野之外的各部分则具有较低甚至最低分辨率，这取决于与用户视野范围的距离。在对这种沉浸式视频进行编码时，想要投射在正方形基面21上的那部分沉浸式视频的压缩率较低，而想要投射在正方形面20上的那部分沉浸式视频的压缩率则较高，想要投射在梯形侧面23-25上的各部分沉浸式视频的压缩率居中，这可以根据与正方形基面21的距离进行调整。因此，用户离他的初始视点越远，沉浸式视频的画质就越差。

因此我们发现，在这种现有系统中，当用户改变其视点时，他不会立即获得质量最佳的沉浸式视频，而是必须等待服务器向其传输与其新视点对应的新版本沉浸式视频。这种延迟会使影响客户观看。

希望能够克服现有技术的这些缺陷。特别是希望提供一种解决方案，其中在视点改变期间，获得新版本沉浸式视频的延迟时间非常短，甚至为零。

另外，还希望提供一种易于实现且成本低廉的解决方案。

根据本发明的第一方面，本发明涉及一种通过中间网络节点在服务器和显示设备之间传送沉浸式视频的方法，其中所述沉浸式视频以多个版本的形式存储在服务器上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，该区域对应以某一视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，其中服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长画面组，同一版本每个图像具有不同比特率。该方法是按预先确定的规则间隔或随着用户视点的改变来执行的，包括：获取用户视点描述；向服务器传输第一请求，以接收与所述视点相对应的图像，被称为选中图像，是根据每个图像描述和用户视点描述确定的；通过中间网络节点接收选中图像，作为对第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

因此，从同一版本或两个不同版本的一个图像切换到另一个图像的延迟时间被缩短，这是因为由中间网络节点替代服务器来响应显示设备的请求，并且这种中间网络节点更靠近显示设备。

根据一种实施方式，每个图像的描述都以清单文件的形式存储到服务器中，该清单文件包含针对每个图像的一个字段，该字段指定了与图像对应的视点，所述清单文件与中间网络节点和/或显示设备共享。

根据一种实施方式，显示设备获取表示其接收比特率的信息，并且当服务器存储每个版本的多个图像时，选中图像是由所述视点对应版本的图像来决定的，其比特率低于或等于接收比特率。

根据一种实施方式，被称为全局子集的图像子集包含选中图像以及被称为增补子集的图像子集，所述增补子集包含根据预设定标准所确定的至少一个图像。

根据一种实施方式，增补子集包含：根据预确定的用户视点接近度标准，邻近视点对应版本的图像。

根据一种实施方式，显示设备获取表示用户视点改变速度的信息，并且当服务器存储每个版本的多个图像时，全局子集的每个图像都是考虑到用户视点改变速度后所确定的。

根据一种实施方式，当服务器存储每个版本的多个图像时，清单文件还包括针对每个图像表示视点的最大改变速度的字段，超过该最大视点改变速度即被认为是：相对于较低比特率的图像，用户不会再感受到图像所带来的质量增益，全局子集的每个图像都是根据所述字段值是否高于用户视点改变速度这一条来决定的。

根据一种实施方式，当服务器存储每个版本的多个图像时，根据数据表获得最大比特率，该数据表给出了多个视点改变速度中，每一个视点改变速度的最大比特率，超过该最大比特率时，用户不会再感受到质量增益，确定全局子集的每个图像，使得每个图像的比特率低于或等于所述最大比特率。

根据一种实施方式，全局子集由中间网络节点或显示设备来确定。

根据一种实施方式，当前画面组显示期间，显示设备获取被称为当前视点的用户视点描述，以及表示用户视点改变速度的信息，并根据被称为预计视点的视点，确定当前画面组之后的一组画面的待接收版本图像，所述预计视点是根据当前视点和所述视点改变速度来确定的。

根据一种实施方式，中间网络节点是用于访问数字用户线的住宅网关或多路复用器。

根据本发明的第二方面，本发明涉及一种通过包含中间节点的传送链路在服务器和显示设备之间传送沉浸式视频的方法，其中所述沉浸式视频以多个版本的形式存储在服务器上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，该区域对应以某一视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，其中服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长画面组，同一版本每个图像具有不同比特率。该方法是按预先确定的规则间隔或随着用户视点的改变来执行的，包括：接收显示设备的第一请求，其中显示设备请求接收与沉浸式视频上用户视点相对应的图像，被称为选定图像，是根据每个图像描述和用户视点信息选定和确定；传输选中图像，作为对第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

根据本发明的第三方面，本发明涉及一种沉浸式视频显示设备，其通过包含中间网络节点的传送链路与服务器相连，其中所述沉浸式视频以多个版本的形式存储在服务器上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，该区域对应以某一视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，其中服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长画面组，同一版本每个图像具有不同比特率。所述显示设备包括：获取装置，用于获取用户视点描述；传输装置，用于直接向服务器传输第一请求，以接收与所述视点相对应的图像，被称为选中图像，是根据每个图像描述和用户视点描述确定的；接收装置，用于通过中间网络节点接收选中图像，作为对第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

根据本发明的第四方面，本发明涉及一种中间网络节点，位于连接服务器与沉浸式视频显示设备的传送链路上，其中沉浸式视频以多个版本的形式存储在服务器上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，该区域对应以某一视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，其中服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长画面组，同一版本每个图像具有不同比特率。所述中间网络节点包括：接收装置，用于接收显示设备的第一请求，其中显示设备请求接收与沉浸式视频上用户视点相对应的图像，被称为选定图像，是根据每个图像描述和用户视点信息选定和确定；传输装置，用于传输选中图像，作为对第一请求的响应，即事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

根据本发明的第五方面，本发明涉及一种沉浸式视频传送系统，该系统包含根据第三方面的显示设备以及根据第四方面的中间网络节点。

根据本发明的第六方面，本发明涉及一种包含指令的计算机程序，当所述程序通过设备处理器来执行时，能够通过所述设备执行根据本发明第一方面的方法或根据本发明第二方面的方法。

根据本发明的第七方面，本发明涉及存储装置，其存储包含指令的计算机程序，当所述程序通过设备处理器来执行时，能够通过所述设备执行根据本发明第一方面的方法或根据本发明第二方面的方法。

通过对实施例的阐述，可以更加清楚地理解本发明上述特征以及其它特征，所述阐述是结合附图来完成的，其中：

-图1系统地示出了沉浸式视频传送系统的示例；

-图2系统地示出了可以投射沉浸式视频的3D几何形状2；

-图3系统地示出了实现本发明的系统；

-图4A系统地示出了根据本发明的住宅网关的硬件架构示例；

-图4B系统地示出了根据本发明的用户端硬件架构示例；

-图4C系统地示出了根据本发明的服务器硬件架构示例；

-图5A系统地示出了若干个多播组的订阅方法，每个多播组分别对应一个沉浸式视频图像；

-图5B系统地示出了一种沉浸式视频传送方法。

在下文中，在用户使用诸如包含处理模块的沉浸式眼镜等显示设备的背景下，对本发明进行了阐述。而且本发明也适用于其他显示设备，例如包含配有“360”度屏幕或穹顶形屏幕以及多个投影设备的沉浸式视频专用播放室，其中这些投影设备用于向沉浸式视频的每个视点进行投影。因此每个画面投影设备均与外部处理模块相连。在这种情况下，与外部处理模块相连的装置能够确定室内每名在场用户的沉浸式视频视点。另外，本发明还适用于潜在视点各不相同的多名用户。

图3系统地示出了实现本发明的系统3。

系统3包含服务器30，其通过例如互联网32的网络与住宅网关34(英文术语“gateway”)相关，下文将其简称为网关，位于例如住宅内。通过网关34可以将局域网35(英文术语“LAN：Local Area Network”)接入网络32。局域网35可以是例如无线网络，像Wi-Fi网(ISO/IEC 8802-11)和/或以太网(ISO/IEC8802-3)。处理模块131，下文称之为用户端，包含在一副沉浸式眼镜中并接入局域网35。

服务器30存储多个沉浸式视频。每个版本对应于沉浸式视频上的一个不同视点，所有版本覆盖了视频的所有可能视点。每个版本都针对其对应的视点进行了优化。例如，每个版本在沉浸式视频的某个区域内具有最佳质量，该区域对应以所述视点观看沉浸式视频的用户视野，而在所述区域之外的质量则随着与所述视野范围的距离而逐渐下降。在一种实施方式中，服务器存储“30”个版本的沉浸式视频。在一种实施方式中，每个版本的沉浸式视频均用于投射到结合图2所述的3D几何形状上。因此，用户视野中的那部分沉浸式视频具有较高的预设定分辨率和较低的预设定压缩率，而用户视野之外各部分的分辨率则低于预设定分辨率，压缩率高于预设定压缩率，并且随着与用户视野范围的距离而逐渐变差，直至分别达到最小分辨率和最大压缩率。

服务器30为每个版本存储至少一个图像。图像为二进制视频流，根据视频压缩标准进行了压缩，例如H.264/MPEG-4AVC视频压缩标准(高级视频编码：英文术语“AdvancedVideo Coding”)或H.265/MPEG-4HEVC标准(高效视频编码：英文术语“High EfficiencyVideo Coding”)。当服务器30存储一个版本的多个图像时，每个图像都或多或少地被压缩。在一种实施方式中，服务器30每个版本存储“5”个图像，这使得服务器30总共存储“150”个图像。

每个图像被分成不依赖于预设定时长D的可解码画面组(英文术语“Group ofPictures(GOP)”)。通过这种方式，可以在GOP范围内从一个图像切换到另一个图像。在一种实施方式中，时长D被确定为从“20”ms到“1”s。

服务器有其存储的沉浸式视频的每个图像的描述。用于描述同一多媒体文件的多个图像的已知方法是使用如MPEG-DASH标准(ISO/IEC 23009-1)所述的媒体播放描述(英文术语“media presentation description(MPD)”)文件。然而，MPD文件适用于从视频压缩(AVC、HEVC…)标准、比特率、空间和时间分辨率角度来描述视频，而不是根据从沉浸式视频某一视点观看到的特定图像来描述。在一种实施方式中，服务器30存储的同一沉浸式视频的所有图像均在MPD型清单文件中有所描述，该清单文件包括针对每个图像的表示视频压缩标准、比特率、空间和时间分辨率的字段，以及表示方位角、仰角以及可选表示横滚角的增补字段。

描述同一多媒体文件的多个图像的已知方法是使用如HLS标准所述的播放列表(英文术语“playlist”)文件。然而，播放列表文件适用于从视频压缩标准、比特率、空间和时间分辨率角度来描述视频，而不是根据从沉浸式视频某一视点观看到的特定图像来描述。在一种实施方式中，服务器30存储的同一沉浸式视频的所有图像均在播放列表文件中有所描述，该播放列表文件包括每个图像表示所用视频压缩标准、比特率、空间和时间分辨率的字段，以及表示方位角、仰角以及可选的横滚角的增补字段。

服务器30适于同时向多个用户端播放沉浸式视频，其中每个用户端都会收到与其视点相适应的图像，并且每个用户端都显示同一时刻的视频。

沉浸式视频的每个图像都是向多播组(英文术语“multicast”)发送的，接收设备可以订阅这些多播组。仅当至少一个接收设备订阅了该图像所对应的多播组时，图像才会真正的通过网络进行传输。

另外，众所周知，通过互联网型网络传输的数据是以数据包的形式传输的，并且为了到达它们的目的，这些数据包会经过路由器，由路由器负责将这些数据包定向传输至它们的目的地。如果网络中两条不同分路上的多个接收设备都订阅了由同一发送设备传输的同一多播组，则发送设备仅一次性传输与所述多播组对应的数据包。

然后，两个接收器之间共有的最后一个多播路由器负责复制数据包，以使每个接收设备都可以接收它所订阅的多播组所对应的数据包，这样能够避免冗余数据包造成两个接收设备之间的公共路由阻塞。

图4A系统地示出了网关34的硬件架构示例。因此，网关34包括通过传送总线340连接的：处理器或CPU(英文“Central Processing Unit”)341；随机存取存储器RAM(英文“Random Access Memory”)342；只读存储器ROM(英文“Read Only Memory”)343；存储单元或存储介质读取器，例如SD卡(英文“Secure Digital”)344；一组传送接口345，用于通过网络32连接网关34与服务器30，并通过局域网35连接用户端131。

处理器341能够执行通过ROM 343、外部存储器(未示出)、存储介质(例如SD卡)或传送网络加载到RAM 342中的指令。当网关34启用时，处理器341能够从RAM 342读取指令并执行它们。这些指令构成计算机程序，需要由处理器341来执行结合图5A和5B所述方法中涉及网关34的一部分。

图4B系统地示出了用户端131的硬件架构示例。因此，用户端131包括通过传送总线1310连接的：处理器或CPU(英文“Central Processing Unit”)1311；随机存取存储器RAM(英文“Random Access Memory”)1312；只读存储器ROM(英文“Read Only Memory”)1313；存储单元或存储介质读取器，例如SD卡(英文“Secure Digital”)1314；一组传送接口1315，用于通过局域网35连接用户端131与网关34。

处理器1311能够执行通过ROM 1313、外部存储器(未示出)、存储介质(例如SD卡)或传送网络加载到RAM 1312中的指令。当网关1314启用时，处理器1311能够从RAM 1312读取指令并执行它们。这些指令构成计算机程序，需要由处理器1311来执行结合图5B所述方法中涉及用户端131的一部分。

图4C系统地示出了服务器30的硬件架构示例。因此，服务器30包括通过传送总线300连接的：处理器或CPU(英文“Central Processing Unit”)301；随机存取存储器RAM(英文“Random Access Memory”)302；只读存储器ROM(英文“Read Only Memory”)303；存储单元或存储介质读取器，例如SD卡(英文“Secure Digital”)304；一组传送接口305，用于通过网络32连接报务器30与网关34。

处理器301能够执行通过ROM 303、外部存储器(未示出)、存储介质(例如SD卡)或传送网络加载到RAM 302中的指令。当网关304启用时，处理器301能够从RAM 302读取指令并执行它们。这些指令构成计算机程序，需要由处理器301来执行结合图5A所述方法中涉及服务器30的那部分。

结合图5A和5B所述方法的全部或一部分，可以通过可编程设备，例如DSP(英文“Digital Signal Processor”)或微控制器执行一组指令，以软件的形式来实现，或者通过设备或专用组件，例如FPGA(英文“Field-Programmable

Array”)或ASIC(“Application-Specific Integrated Circuit”)，以硬件的形式来实现。

图5A系统地示出了若干个多播组的订阅方法，每个多播组分别对应一种沉浸式视频图像。

正如我们在上面看到的，用户视点改变时，如果用户端131必须直接向服务器30请求获取沉浸式视频的新图像，则与新视点对应的图像采集潜在延迟时间会造成沉浸式视频的渲染暂时劣化。为了在本发明中克服该问题，用户端131不是从服务器30，而是从离用户端131更近的中间网络节点获取每个图像，这缩短了延迟时间。然而，为了使中间网络节点能够提供用户端131请求的图像，该节点必须获得该图像。在图5A所示的实施方式中，网关34起到中间节点的作用。根据另一种实施方式，此中间节点可以由其他网络节点来充当，例如DSLAM(访问数字用户线的多分复用器：英文术语“Digital Subscriber Line AccessMultiplexer”)。

在步骤501中，网关34向服务器30发送请求，以接收服务器30存储的沉浸式视频的每个图像。在这里假设网关34事先从服务器30那里收到了描述沉浸式视频所有图像的清单文件。在一种实施方式中，当用户端131被激活时，其向服务器30请求清单文件。相应地，服务器30将清单文件传输至用户端131。清单文件通过网关34时被网关34保存，使得网关可以使用清单文件来请求传输每个图像。在根据本发明的一种实施方式中，每个图像被传输给多播组，在步骤501中，网关34订阅沉浸式视频图像所对应的每个多播组。如果之前没有任何网络节点(即没有中间节点、没有用户端)请求图像传输，则服务器30开始有效地向网关34传输载有每个图像的数据包。否则，如果图像正在向至少一个其他网络节点传输，则网关34与至少一个所述其他网络节点公用的最后一个多播路由器会复制载有每个图像的数据包，以使它们被发送至网关34。

在步骤502中，网关34会收到沉浸式视频的每个图像。通过这种方式，网关34总是会收到沉浸式视频的每个图像。网关34将预设时间T期间每个图像所对应的数据包存储在存储器中，之后再将它们删除。在一种实施方式中，时间T等于1秒。

图5B系统地示出了一种沉浸式视频传送方法。

假设用户启用沉浸式眼镜并因此激活用户端131。用户端131a因此而收到清单文件。另外，启用后的眼镜包含未视出的定位模块，其能够提供用户视点描述。例如，此定位模块提供方位角和仰角。在一种实施方式中，定位模块提供更多表示视点改变速度的信息。例如，当用户佩戴沉浸式眼镜时，视点改变速度为用户头部转动速度。在另一种实施方式中，观看沉浸式视频的视点(以及因此造成的视频改变)可以通过遥控器、瞄准器、手套或任何其他适当接口进行控制。这些界面中的每一个都能够向定位模块提供表示视点改变速度的信息。

在图5B中，竖向箭头表示时间轴。

结合图5B所述的方法是按预先确定的规则间隔来执行的，例如每“20”ms执行一次，以便迅速考虑到用户视点的改变，或者在用户视点改变之后执行一次。

在步骤510中，用户端131获取用户视点描述。

在步骤511中，用户端131根据所述描述和清单文件来确定与所述视点对应的沉浸式视频图像。例如，用户端根据方位角和仰角来确定曲线，并确定此曲线所经过的视点所对应的版本。此曲线所经过的版本即为所确定版本。在一种实施方式中，服务器存储每个版本的唯一图像，用户端选择所确定版本的图像。在一种实施方式中，服务器存储每个版本的多个图像，用户端选择根据其网络连接质量所确定的那个版本的图像。

在步骤512中，用户端131向网关34发送请求，以接收所确定的图像。

在步骤513中，网关34收到所述请求。

在步骤514中，网关34向用户端131传输所确定的图像。

在步骤515中，用户端131从网关34接收所确定的图像，在集成到沉浸式视频眼镜上的画面显示设备上解码并显示。由于用户端131向网关34，而不是向服务器30请求获取用户视点对应版本的图像，因此获得此图像的延迟时间被缩短，用户几乎是立即从沉浸式视频的一个图像切换至另一个图像。

我们发现，在结合图5B所述的方法中，网关34响应显示设备发出的每个请求，以接收与用户视点对应的图像。

在一种实施方式中，服务器30存储每个版本(例如每个视点)的多个图像，用户端131利用现有技术测量其接收比特率。例如，用户端在接收GOP之前测量GOP上的接收比特率。在这种情况下，除了请求接收与用户视点对应的图像外，用户端131还向网关34请求与其接收比特率对应的图像。为此，在步骤511中，用户端131在清单文件中选择与用户视点对应的图像，并且其比特率低于或等于其接收比特率。

在一种实施方式中，在步骤512中，用户端131向服务器30发送请求，以接收所确定的图像。但是，在步骤513中，网关34收到这一请求并拦截。因此，网关34会拦截等待响应服务器30的请求，这是因为它将代替服务器30，由它响应该请求。步骤514和515仍然是相同的。通过这种方式，用户端131不需要知道网关34执行了本发明。

在一种实施方式中，用户端131在请求中向网关34传输用户视点描述，以接收步骤512中与所述描述相对应的图像。在这种情况下，在步骤513之后，网关34替代用户端131来执行步骤511，以便根据清单文件来确定与所述描述对应的图像。

在具体实施例中，收到请求，以接收与所述视点对应的沉浸式视频图像之后，网关34再次执行结合图5A所述的方法，但是只订阅了多播组子集。在一种实施方式中，这种被称为全局子集的多播组子集，是由网关34确定的。在任何情况下，该子集包含能够获取用户视点对应图像的多播组，被称为基本多播组，以及包含根据预定标准选中图像所对应的至少一个多播组，被称为增补子集。网关34退订所有不属于全局子集的多播组。这种实施方式能够降低服务器30与网关34之间的比特率。

在具体实施例中，当多个用户端同时显示同一沉浸式视频时，网关34订阅针对每个用户端确定的全局子集的并集。

根据一种实施方式，增补子集包括多播组，能够根据预确定的用户视点接近度标准，使网关34获取与邻近视点对应的图像。

在一种实施方式中，在步骤512中，用户端131向网关34传输用户视点描述。例如，用户端131向网关34传输表示方位角a_c的值和表示仰角e_c的值。如果清单文件包含“30”个通过其方位角A_i和仰角E_i描述的图像，其中i为“0”到“29”的整数，则网关34会根据对应视点与用户视点之间的偏差A来筛选图像。所述偏差A可以通过例如以下方法来计算：

Δ＝(cos(A_i)cos(E_i)-cos(a_c)cos(e_c))²+(cos(A_i)sin(E_i)-cos(a_c)sin(e_c))²+(sin(E_i)-sin(e_c))²

图像被网关34按偏差A升序分类到列表中。增补子集包含例如：能够获取列表中前N个图像的多播组。通过选择这些多播组，网关34选择沉浸式视频上靠近用户视点的视点，被称为选中视点。在一种实施方式中，N＝10。

在一种实施方式中，在步骤512中，用户端131向网关34传输用户视点描述以及表示用户端131接收比特率的信息。因此，增补子集仅包含能够获取选中视点对应图像的多播组，并且其比特率低于或等于用户端131接收比特率。

在另一种实施方式中，在步骤512中，用户端131向网关34发送请求，以接收视点对应版本的图像。网关34确定用户视点的方位角a_c和仰角e_c，作为用户端请求版本的方位角和仰角。因此，用户端131不需要进行调整，以使用执行此实施方式的网关。

众所周知，当用户快速移动头部时，他对于正在观看的沉浸式视频的质量并不十分敏感。因此对于网关34，可以在确定增补子集时考虑到用户头部的转动速度。因此，如果用户的头部快速转动，则网关34订阅的多播组能够获取所选定的低质量视点对应的图像，即比特率较低(甚至可能是最低的质量，即比特率最小)，而如果头部缓慢转动，则网关34订阅的多播组能够获取其比特率尽可能接近用户端131接收比特率的视点所对应的图像。因此，在移动快速时，增补子集可以包含大量视点，以便更好地适应用户视点方向，而不会增加全局网络中的数据比特率。

根据一种实施方式，对于沉浸式视频的每个图像，清单文件包含被称为SPEED字段的字段，该字段包含表示最大转动速度的值，超过该值即被认为是：相对于较低比特率的图像，用户不会再感受到图像所带来的质量增益。在一种实施方式中，在步骤512中，用户端131向网关34传输用户端131视点描述、表示用户端131接收比特率的信息以及表示用户头部转动速度的信息。因此，增补子集仅包含能够获取选中视点对应图像的多播组，并且其比特率低于或等于用户端131的接收比特率，而SPEED字段的值则高于用户头部运动速度。

在一种实施方式中，网关34的存储器中有对应关系表，该表针对多个转动速度中的每一个，列出了最大比特率，超过该最大比特率时，用户不会再感受到质量增益。在一种实施方式中，在步骤512中，用户端131向网关34传输用户端131视点描述、表示用户端131接收比特率的信息以及表示用户头部转动速度的信息。因此，增补子集仅包含能够获取选中视点对应图像的多播组，并且其比特率低于或等于用户端131接收比特率，且低于或等于根据用户头部转动速度和对应关系表确定的最大比特率。

目前为止，我们认为全局子集是由网关34确定的。用户端131有确定全局子集所需的所有信息(清单文件、用户视点描述、用户端131接收率比特率、用户头部转动速度、对应关系表)。

因此，用户端131也能够通过与网关34相同的方法来确定全局子集。在一种实施方式中，在步骤511中，是由用户端131代替网关34确定全局子集的。在步骤512中，用户端131向网关34传输表示全局子集的信息。在步骤501中，网关34订阅由用户端131指定的多播组。

根据用户视点描述和用户头部转动速度，可以确定用户将在给定时刻观看的观点。在一种实施方式中，当用户端131开始显示GOP时，其获取用户端131的视点描述以及表示用户头部转动速度的信息。根据这些信息，用户端131确定下个GOP开始时的用户视点描述，该视点被称为预计视点。在步骤511中，用户端131根据预计视点描述和清单文件来确定与所述预计视点对应的沉浸式视频版本图像，并向网关34发送请求，以接收步骤512中确定的图像。通过这种方式，下一个GOP与预计视点相对应。

Claims

1.一种在通过含中间网络节点(34)的传送链路连接在一起的服务器和显示设备(13)之间传送沉浸式视频的方法，所述沉浸式视频以多个版本的形式存储在服务器(30)上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，所述区域对应以所述视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长的画面组，同一版本的每个图像具有不同比特率，其特征在于，所述方法是按预先确定的规则间隔或随着用户视点的改变来执行的，包括：

获取(510)用户视点描述；

向服务器传输(512)第一请求，以接收与所述视点相对应的图像，被称为选中图像，是根据每个图像描述和用户端视点描述确定(511)的；

通过中间网络节点(34)接收(515)选中图像，作为第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收(502)沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

2.根据权利要求1所述的方法，其特征在于，每个图像的描述都以清单文件的形式由服务器存储，所述清单文件包含针对每个图像的一个字段，所述字段指定了与图像对应的视点，所述文件与中间网络节点和/或显示设备共享。

3.根据权利要求2所述的方法，其特征在于，显示设备获取表示其接收比特率的信息，并且当服务器存储每个版本的多个图像时，选中图像是由所述视点对应版本的图像来确定的，其比特率低于或等于接收比特率。

4.根据权利要求2或3所述的方法，其特征在于，被称为全局子集的图像子集包含选中图像以及被称为增补子集的图像子集，所述增补子集包含根据预定义标准所确定的至少一个图像。

5.根据权利要求4所述的方法，其特征在于，所述增补子集包含：根据预定义的用户视点接近度标准，邻近视点对应版本的图像。

6.根据权利要求4或5所述的方法，其特征在于，所述显示设备获取表示用户视点改变速度的信息，并且当服务器存储每个版本的多个图像时，全局子集的每个图像都是通过考虑用户视点改变速度所确定的。

7.根据权利要求2至6中任一项所述的方法，其特征在于，当服务器存储每个版本的多个图像时，清单文件还包括针对每个图像表示视点的最大改变速度的字段，超过所述最大改变速度即被认为是：相对于较低比特率的图像，用户不会再感受到图像所带来的质量增益，并且确定全局子集的每个图像，使得所述字段的值高于用户视点改变速度。

8.根据权利要求2至6中任一项所述的方法，其特征在于，当服务器存储每个版本的多个图像时，根据数据表获得最大比特率，所述数据表给出了针对多个视点改变速度中的每一个视点改变速度的最大比特率，超过所述最大比特率时，用户不会再感受到质量增益，确定全局子集的每个图像，使得每个图像的比特率低于或等于所述最大比特率。

9.根据权利要求4至8中任一项所述的方法，其特征在于，全局子集由中间网络节点或由显示设备来确定。

10.根据权利要求1或2所述的方法，其特征在于，在当前画面组显示期间，显示设备获取被称为当前视点的用户视点描述，以及表示用户视点改变速度的信息，并根据被称为预计视点的视点，确定针对当前画面组之后的画面组待接收的版本图像，其是根据当前视点和所述视点改变速度来确定的。

11.根据前述权利要求中任一项所述的方法，其特征在于，所述中间网络节点是用于访问数字用户线的住宅网关或多路复用器。

12.一种在通过含中间网络节点(34)的传送链路连接在一起的服务器和显示设备(13)之间传送沉浸式视频的方法，所述沉浸式视频以多个版本的形式存储在服务器(30)上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，所述区域对应以所述视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，其中服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长的画面组，同一版本的每个图像具有不同比特率，其特征在于，所述方法是按预先确定的规则间隔或随着用户视点的改变来执行的，包括：

接收(513)显示设备的第一请求，其中显示设备请求接收与沉浸式视频上用户视点相对应的图像，被称为选中图像，其是根据每个图像描述和表示用户视点的信息确定(511)的；

传输(514)选中图像，作为第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收(502)沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

13.一种沉浸式视频显示设备，其通过包含中间网络节点(34)的传送链路与服务器连接，所述沉浸式视频以多个版本的形式存储在服务器(30)上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，所述区域对应以所述视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长的画面组，同一版本每个图像具有不同比特率，其特征在于，所述显示设备包含：

获取(510)装置，用于获取用户视点描述；

传输(512)装置，用于向服务器传输第一请求，以接收与所述视点相对应的图像，被称为选中图像，其是根据每个图像描述和用户端视点描述确定(511)的；

接收(515)装置，用于通过中间网络节点(34)接收选中图像，作为第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收(502)沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

14.一种中间网络节点，位于连接服务器与沉浸式视频显示设备的传送链路上，所述沉浸式视频以多个版本的形式存储在服务器(30)上，每个版本对应沉浸式视频上的一个不同视点，而版本的集合覆盖了沉浸式视频上的可能视点的集合，每个版本在沉浸式视频的某个区域内具有最佳质量，所述区域对应以所述视点观看沉浸式视频的用户视野，而在所述区域之外的质量则低于最佳质量，服务器存储每个版本的至少一个图像，所述版本为压缩二进制视频流的形式，包含一系列可独立解码的预定义时长的画面组，同一版本的每个图像具有不同比特率，其特征在于，所述中间网络节点包含：

接收(513)装置，用于接收显示设备的第一请求，其中显示设备请求接收与沉浸式视频上用户视点相对应的图像，被称为选中图像，其是根据每个图像描述和表示用户视点的信息确定(511)的；

传输(514)装置，用于传输选中图像，作为第一请求的响应，事先通过中间网络节点向所述服务器发出第二请求，以接收来自服务器的沉浸式视频图像子集，之后中间网络节点持续接收(502)沉浸式视频的至少一个图像子集，并响应显示设备发出的每个第一请求。

15.一种沉浸式视频传送系统，包含根据权利要求13的显示设备以及根据权利要求14的中间网络节点。

16.一种计算机程序，其特征在于所述程序包含指令，当所述程序通过设备(131、34)的处理器来执行时，所述指令能够通过所述设备(131、34)执行根据权利要求1至11中任一项所述的方法或根据权利要求12所述的方法。

17.一种存储装置，其特征在于，所述存储装置存储包含指令的计算机程序，当所述程序通过设备(131、34)的处理器来执行时，所述指令能够通过所述设备(131、34)执行根据权利要求1至11中任一项所述的方法或根据权利要求12所述的方法。