CN114982249A

CN114982249A - 用于视频编码和视频解码的方法、装置和计算机程序产品

Info

Publication number: CN114982249A
Application number: CN202080082280.9A
Authority: CN
Inventors: S·阿沙恩; I·柯西奥
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-11-29
Filing date: 2020-11-17
Publication date: 2022-08-30
Also published as: WO2021105552A8; WO2021105552A1; EP4066507A4; JP7397985B2; JP2023504797A; EP4066507A1; US20230012201A1

Abstract

实施例涉及一种方法，包括：生成定义呈现的比特流，该呈现包括全向视觉媒体内容(710)；将指示用于查看呈现的视口控制选项的参数编码到比特流中，其中视口控制选项包括由接收设备可控制的选项和由接收设备不可控制的选项，并且向接收设备发送比特流(720)；从接收设备接收所指示的视口控制选项中的一个作为响应(730)；向接收设备流式传输该呈现(740)；当响应已经包括关于由接收设备可控制的视口控制的指示时，该方法还包括：在该呈现的流式传输期间从接收设备接收关于视口定义的信息并且相应地适配该呈现(750)；当响应已经包括关于由接收设备不可控制的视口控制的指示时，根据在响应中指定的视口控制向接收设备流式传输该呈现(750)。

Description

用于视频编码和视频解码的方法、装置和计算机程序产品

技术领域

本解决方案总体上涉及视频编码和/或传输以及视频解码和/或接收。

背景技术

能够捕获图像和视频的设备已经从捕获有限角度视场的设备发展为捕获360度内容的设备。这些设备能够捕获它们周围的视觉和音频内容，即，它们可以捕获整个角度视场，这样的视场可以称为360度视场。更准确地，这些设备可以捕获球形视场(即，所有空间方向的360度)。除了新型图像/视频捕获设备，还已经发明和生产了新型输出技术，诸如头戴式显示器。这些设备让人们可以看到他/她周围的视觉内容，以给人一种“沉浸”在由360度相机捕获的场景中的感觉。新的捕获和显示范式(其中，视场为球形)通常被称为虚拟现实(VR)，并且被认为是人们未来体验媒体内容的常见方式。

发明内容

本发明的各种实施例所寻求的保护范围由独立权利要求规定。本说明书中描述的不属于独立权利要求的范围的实施例和特征(如果有的话)应当被解释为对理解本发明的各种实施例有用的示例。

各个方面包括方法、装置和包括存储在其中的计算机程序的计算机可读介质，其特征在于独立权利要求中描述的内容。在从属权利要求中公开了各种实施例。

根据第一方面，提供了一种方法，该方法包括：生成定义呈现(presentation)的比特流，该呈现包括全向视觉媒体内容；将用于指示用于查看呈现的视口控制选项的参数编码到比特流中，其中视口控制选项包括由接收设备能够控制的选项和由接收设备无法控制的选项，并且向接收设备发送比特流；从接收设备接收所指示的视口控制选项中的一个作为响应；向接收设备流式传输呈现；当响应已经包括关于由接收设备能够控制的视口控制的指示时，该方法还包括在呈现的流式传输期间从接收设备接收关于视口定义的信息并且相应地适配呈现；当响应已经包括关于由接收设备无法控制的视口控制的指示时，呈现根据在响应中指定的视口控制被流式传输给接收设备。

根据第二方面，提供了一种装置，该装置包括用于生成定义呈现的比特流的部件，该呈现包括全向视觉媒体内容；用于将指示用于查看呈现的视口控制选项的参数编码到比特流中的部件，其中视口控制选项包括由接收设备能够控制的选项和由接收设备无法控制的选项；以及用于向接收设备发送比特流的部件；用于从接收设备接收所指示的视口控制选项中的一个作为响应的部件；用于向接收设备流式传输呈现的部件；当响应已经包括关于由接收设备能够控制的视口控制的指示时，该装置还包括用于在呈现的流式传输期间从接收设备接收关于视口定义的信息的部件以及用于相应地适配呈现的部件；当响应已经包括关于由接收设备无法控制的视口控制的指示时，该装置包括用于根据在响应中指定的视口控制向接收设备流式传输呈现的部件。

根据第三方面，提供了一种装置，该装置包括至少一个处理器、包括计算机程序代码的存储器，存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置至少执行以下操作：

-生成定义呈现的比特流，该呈现包括全向视觉媒体内容；

-将用于指示用于查看呈现的视口控制选项的参数编码到比特流中，其中视口控制选项包括由接收设备能够控制的选项和由接收设备无法控制的选项，并且向接收设备发送比特流；

-从接收设备接收所指示的视口控制选项中的一个作为响应；

-向接收设备流式传输呈现；

-当响应已经包括关于由接收设备能够控制的视口控制的指示时，计算机程序产品包括用于引起该装置或系统在呈现的流式传输期间从接收设备接收关于视口定义的信息并且相应地适配呈现的计算机程序代码；

-当响应已经包括关于由接收设备无法控制的视口控制的指示时，计算机程序产品包括用于引起该装置或系统根据在响应中指定的视口控制向接收设备流式传输呈现的计算机程序代码。

根据第四方面，提供了一种包括计算机程序代码的计算机程序产品，该计算机程序代码被配置为当在至少一个处理器上执行时引起装置或系统：生成定义呈现的比特流，该呈现包括全向视觉媒体内容；将用于指示用于查看呈现的视口控制选项的参数编码到比特流中，其中视口控制选项包括由接收设备能够控制的选项和由接收设备无法控制的选项，并且向接收设备发送比特流；从接收设备接收所指示的视口控制选项中的一个作为响应；向接收设备流式传输呈现；当响应已经包括关于由接收设备能够控制的视口控制的指示时，计算机程序产品包括用于引起该装置或系统在呈现的流式传输期间从接收设备接收关于视口定义的信息并且相应地适配呈现的计算机程序代码；当响应已经包括关于由接收设备无法控制的视口控制的指示时，计算机程序产品包括用于引起该装置或系统根据在响应中指定的视口控制向接收设备流式传输呈现的计算机程序代码。

根据一个实施例，由接收设备能够控制的视口控制选项包括由接收设备控制视口多达三个自由度，或者在受限空间中或在非受限空间中多达六个自由度。

根据一个实施例，由接收设备无法控制的所述视口控制选项包括基于推荐视口的视口控制、或呈现者(presenter)视口。

根据一个实施例，通过网络接收全向视觉媒体内容。

根据一个实施例，捕获全向视觉媒体。

根据一个实施例，从接收设备接收音频。

附图说明

在下文中，将参考附图更详细地描述各种实施例，在附图中

图1示出了OMAF端到端系统的示例；

图2a-图2c示出了有参与者的会议室的示例；

图3示出了电话会议建立的示例；

图4示出了电话会议的各种阶段的示例；

图5示出了信令流的示例，其中接收设备正在请求被形成为360度视频推荐视口序列的2D视频；

图6示出了信令流的示例，其中接收设备正在请求沉浸式内容；

图7是示出根据实施例的方法的流程图；以及

图8示出了根据实施例的装置。

具体实施方式

在下文中，将在虚拟现实(VR)的上下文中描述若干实施例。VR内容消费是沉浸式的。有很多场景需要VR用户查看并非源自VR内容的内容或信息或者与之进行交互。当通过网络发送内容时，本实施例能够在设备上进行沉浸式内容消费。本实施例适用于360度VR会议。然而，应当注意，本发明不限于VR会议。事实上，不同实施例在执行VR视频流的任何环境中都有应用。

自摄影术和电影摄影术诞生以来，最常见的图像和视频内容类型已经由具有相对狭窄视场的相机捕获，并且在平板显示器上显示为矩形场景。这样的内容在本申请中被称为“平面内容”或“平面图像”或“平面视频”。相机主要是定向的，因此它们仅捕获有限的角度视场(它们指向的视场)。这种平面视频由能够显示二维内容的显示设备输出。

最近，新的图像和视频捕获设备已经可用。这些设备能够捕获它们周围的视觉和音频内容，即，它们可以捕获整个角度视场(有时称为360度视场)。更准确地，它们可以捕获球形视场(即，所有空间方向的360度)。此外，诸如头戴式显示器和其他设备等新型输出允许人们看到360度视觉内容。

可用的媒体文件格式标准包括国际标准化组织(ISO)基础媒体文件格式(ISO/IEC14496-12，可以缩写为ISOBMFF)、运动图片专家组(MPEG)-4文件格式(ISO/IEC 14496-14、也称为MP4格式)、NAL(网络抽象层)单元结构化视频的文件格式(ISO/IEC 14496-15)、和高效视频编码标准(HEVC或H.265/HEVC)。

下面将ISOBMFF的一些概念、结构和规范描述为容器文件格式的示例，基于它们，可以实现实施例。本发明的方面不限于ISOBMFF，而是针对一种可能的基础给出描述，在该基础之上，可以部分地或完全地实现本发明。

高效图像文件格式(HEIF)是由运动图像专家组(MPEG)开发的用于存储图像以及图像序列的标准。除其他外，该标准促进了根据高效视频编码(HEVC)标准而编码的数据的文件封装。HEIF包括在所使用的ISO基本媒体文件格式(ISOBMFF)之上构建的特征。

ISOBMFF结构和特征在很大程度上用于HEIF的设计。HEIF的基本设计包括将静止图像存储为项目并且将图像序列存储为轨道。

在下文中，术语“全向”(omnidirectional)可以指代可以具有比渲染内容的设备的视场更大的空间范围的媒体内容。全向内容例如可以在水平维度上覆盖大致360度并且在垂直维度上覆盖大致180度，但是全向也可以指代在水平方向上覆盖小于360度视图和/或在垂直方向上覆盖180度视图的内容。

覆盖水平360度视场和垂直180度视场的全景图像可以用球体表示，该球体已经使用等角投影(ERP)映射到二维图像平面。在这种情况下，水平坐标可以被认为等同于经度，而垂直坐标可以被认为等同于纬度，而不应用任何变换或缩放。在某些情况下，具有360度水平视场但垂直视场小于180度的全景内容可以被视为等角投影的特殊情况，其中球体的极区没有被映射到二维图像平面上。在某些情况下，全景内容可以具有小于360度的水平视场和高达180度的垂直视场，而在其他方面具有等角投影格式的特性。

与2D内容的消费相比，沉浸式多媒体(诸如全向内容消费)对最终用户而言更为复杂。这是由于最终用户可以获取更高的自由度。自由也带来了更多的不确定性。MPEG全向媒体格式(OMAF)v1标准化了单个3DoF(3自由度)内容的全向流式传输(其中查看者位于单位球体的中心并且具有三个自由度(偏航-俯仰-滚转)。下一阶段的标准化(MPEG-I阶段1b)已经接近完成。预期该阶段将通过用户交互实现多个3DoF和3DoF+内容消费，并且表示优化视口相关流式传输(VDS)操作和带宽管理。

视口可以定义为适合显示和由用户查看的全向图像或视频区域。当前视口(有时可以简称为视口)可以定义为当前显示并且因此由用户可查看的球形视频的一部分。在任何时间点，由应用在头戴式显示器(HMD)上渲染的视频都会渲染360度视频的一部分，这称为视口。同样，当在常规显示器上查看360度内容的空间部分时，当前显示的空间部分是视口。视口是360度世界上的窗口，该窗口在经由渲染显示器而显示的全向视频中被呈现。视口的特征可以是水平视场(VHFoV)和垂直视场(VVFoV)。

360度空间可以被划分为一组离散的视口，每个视口间隔给定距离(例如，以度数表示)，因此可以将全向空间想象为重叠视口的地图，并且当用户在使用头戴式显示器(HMD)观看内容时改变他/她的取向时，视口离散地切换。当视口之间的重叠减少到零时，可以将视口想象为360度空间内的相邻的非重叠图块。H.265视频编解码器实现了可以用于实现该场景的图块概念(重叠和不重叠)。

在流式传输VR视频时，覆盖视口(即，当前视图取向)的360度视频内容的子集可以以最佳质量/分辨率进行传输，而剩余的360度视频可以以较低质量/分辨率进行传输。这就是VDS系统的特征，与视口独立流式传输系统相反，在视口独立流式传输系统中，全向视频在各个方向以高质量流式传输。

全向媒体格式(OMAF)标准(ISO/IEC 23090-2)针对球体区域指定了通用的定时元数据语法。定时元数据轨道的用途由轨道样本条目类型指示。所指定的针对球体区域的所有元数据轨道的样本格式以公共部分开始，并且后面可以是特定于元数据轨道的样本条目的扩展部分。每个样本指定球体区域。

在OMAF中指定的特定球体区域定时元数据轨道中的一个称为推荐视口定时元数据轨道，该轨道指示当用户无法控制查看取向或已经释放对查看取向的控制时应当显示的视口。推荐视口定时元数据轨道可以用于基于“导演剪辑”或基于查看统计的测量来指示推荐视口。推荐视口的文本描述可以在示例条目中提供。推荐视口的类型可以在示例条目中指示并且可以是以下各项：每个导演剪辑的推荐视口，例如，根据内容作者或内容提供者的创作意图而建议的视口。

图1示出了OMAF系统架构。例如，该系统可以位于摄像机或网络服务器中。如图1所示，获取全向媒体(A)。如果OMAF系统是视频源的一部分，则全向媒体(A)从相机部件被获取。如果OMAF系统位于网络服务器中，则全向媒体(A)通过网络从视频源被获取。

全向媒体包括单独处理过的图像数据(B_i)和音频数据(B_a)。在图像拼接、旋转、投影和逐区域打包中，源媒体的图像/视频被作为输入(B_i)提供，并且被拼接以针对每个全局坐标轴在单位球体上生成球形图片。然后单位球体相对于全局坐标轴旋转。从局部坐标轴转换到全局坐标轴的旋转量可以由在RotationBox中指示的旋转角度指定。单位球体的局部坐标轴是已经旋转过的坐标系的轴。RotationBox的缺失表明局部坐标轴与全局坐标轴相同。然后，旋转后的单位球体上的球形图片被转换为二维投影图片，例如使用等角投影。当应用立体内容的空间打包时，针对两个视图的两个球形图片被转换为两个组成图片，之后，应用帧打包以将两个组成图片打包在一个投影图片上。然后，可以应用逐矩形区域打包以从投影图片中获取打包图片。然后，提供打包图片(D)以用于视频和图像编码以产生经编码图像(E_i)和/或经编码视频流(E_v)。源媒体的音频作为输入(B_a)被提供给音频编码，音频编码提供经编码音频(E_a)。然后，经编码数据(E_i，E_v，E_a)被封装到文件中以供播放(F)和递送(即，流式传输)(F_s)。

在OMAF播放器200中(诸如在HMD中)，文件解封装器处理文件(F’，F’_s)并且提取经编码比特流(E’_i，E’_v，E’_a)并且解析元数据。然后，音频、视频和/或图像被解码为经解码数据(D’，B’_a)。经解码图片(D’)根据由头部/眼睛跟踪设备感测的视口和取向被投影到显示器上。同样，经解码音频(B’_a)通过扬声器/耳机进行渲染。

Matroska文件格式能够(但不限于)将任何视频、音频、图片或字幕轨道存储在一个文件中。Matroska可以用作衍生文件格式(诸如WebM)的基础格式。Matroska使用可扩展二进制元语言(EBML)作为基础。EBML指定了一种受XML原理启发的二进制和八位组(字节)对齐的格式。EBML本身是对二进制标记技术的概括描述。Matroska文件由构成EBML“文档”的元素组成。元素包含元素ID、元素大小的描述符和二进制数据本身。元素可以嵌套。Matroska的片段元素是其他顶级(1级)元素的容器。Matroska文件可以包括一个片段(但不限于由其组成)。Matroska文件中的多媒体数据以簇(或簇元素)的形式进行组织，其中每个簇可以包含几秒钟的多媒体数据。簇包括块组(BlockGroup)元素，而块组元素又包括块元素。提示元素包括可以辅助进行随机访问或搜索的元数据，并且可以包括文件指针或针对搜索点的相应时间戳。

传输通道或通信通道或通道可以指代物理传输介质，诸如线路，或者指代多路复用介质之上的逻辑连接。

实时传输协议(RTP)广泛用于诸如音频和视频等定时媒体的实时传输。RTP可以在用户数据报协议(UDP)之上操作，而UDP又可以在互联网协议(IP)之上操作。RTP在互联网工程任务组(IETF)意见请求(RFC)3550中指定，从www.ietf.org/rfc/rfc3550.txt可获取。在RTP传输中，媒体数据被封装到RTP分组中。通常，每种媒体类型或媒体编码格式具有专用的RTP有效载荷格式。

RTP会话是与RTP通信的一组参与者之间的关联。它是可以潜在地携带多个RTP流的组通信通道。RTP流是包括媒体数据的RTP分组流。RTP流由属于特定RTP会话的SSRC标识。SSRC指代同步源或同步源标识符，它是RTP分组报头中的32位SSRC字段。同步源的特征在于，来自同步源的所有分组形成相同时序和序列号空间的一部分，因此接收设备可以按同步源对分组进行分组以进行播放。同步源的示例包括从信号源(诸如麦克风或相机，或RTP混合器)中导出的分组流的发送方(sender)。每个RTP流由在RTP会话中唯一的SSRC来标识。

统一资源标识符(URI)可以定义为用于标识资源名称的字符串。这种标识能够使用特定协议通过网络与资源的表示进行交互。URI是通过为URI指定具体语法和相关协议的方案来定义的。统一资源定位符(URL)和统一资源名称(URN)是URI的形式。URL可以定义为URI，该URI标识网络资源并且指定作用于资源表示或获取资源表示的方式，以指定其主要访问机制和网络位置两者。URN可以定义为在特定命名空间中按名称标识资源的URI。URN可以用于标识资源而不暗示其位置或访问方式。

在下文中，讨论可流式传输的360度事件的实施例，诸如360度会议、电话会议、远程呈现。然而，如前所述，除了360度会议，这些实施例也适用于其他VR流式传输解决方案。图2a-图2c表示360度电话会议的各种场景。360度会议可以是由发送方流式传输到接收设备的现场会议，其中发送方是视频源，诸如360度(即，全向)相机、或可操作地连接到视频源或包括用于记录视频的部件的系统。从发送方到接收方(receiver)的可流式传输的内容至少包括视频和音频。发送方的目的是将正在录制的视频流式传输到接收设备。发送方还可以包括用于从接收设备接收至少音频数据并且将所接收的音频数据输出到可流式传输事件的参与者的部件。

在图2a-图2c中，一组参与者正在会议室开会。会议室可以被认为是具有能够与远程参与者共享内容和从远程参与者接收数据的物理元件(即，相机220、视图屏幕210、物理参与者)的虚拟会议系统A。如上所述，虚拟会议系统A至少包括360度(即，全向)相机220和视图屏幕210。会议还有两个远程参与者B、C通过电话会议参与。虚拟会议系统A的物理参与者使用视图屏幕210来显示来自远程参与者B、C的所共享的呈现和/或视频流。其中一个远程参与者B正在使用具有会议内容的360度视图的头戴式显示器和捕获他/她的视频的相机。其中一个远程参与者C使用移动电话访问会议。移动电话可以在会议上示出360度视频并且捕获他/她的视频。

在图2a的示例中，电话会议是在没有任何媒体感知网络元件的情况下建立的。远程参与者B、C都向虚拟会议系统A发送关于他们的视口取向的信息，虚拟会议系统A又向远程参与者B、C发送来自360度相机220的视口相关视频流。

在图2b的示例中，电话会议是使用网络功能建立的，该功能可以由媒体资源功能(MRF)或媒体控制单元(MCU)230执行。在本示例中，MRF/MCU 230从虚拟会议系统A接收视口不相关的流。远程参与者B、C都向MRF/MCU 230发送视口取向信息并且从MRF/MCU 230接收视口相关流。会话的非沉浸式内容的A/V通道也可以通过MRF/MCU 230，如图2b所示。图2b的示例旨在通过双向音频和单向沉浸式视频为加入电话会议的远程参与者B、C提供沉浸式体验。

在图2c的示例中，用于多个会议室X的虚拟会议系统正在向MRF/MCU 230发送360度视频。房间可以选择从其他房间之一的其他参与者接收2D视频流，这显示在房间内的查看屏幕210上。远程参与者B、C可以选择从多个房间查看可用360度视频中的任何一个或不查看任何一个。从一个房间切换到另一房间可以被手动触发，也可以使用其他机制触发，诸如查看方向或主扬声器。MRF/MCU 230可以发信号通知暂停从当前没有任何活跃查看者的任何房间接收360度视频。

在一些实施例中，360度会议可以是完全虚拟的，其中所有会议参与者都是远程参与者，即，经由网络连接到会议的接收设备，并且其中发送方是生成虚拟会议和远程参与者的虚拟表示的计算机。

图3示出了360度会议300的建立的另一示例。在该示例中，360度会议300包括至少一个发送方，诸如记录会议的360度视频系统310。此外，360度会议300不仅包括现场参与者315，还包括具有接收设备330、335的一个或多个远程参与者，远程参与者通过建立到会议系统的连接来“参与”会议，这使得观看由360度视频系统310捕获的360度视频成为可能。在下文中，远程参与者的设备330、335被称为“接收设备”以强调它们作为流式传输内容的接收方的角色。然而应当理解，接收设备330、335也能够发送数据，例如音频。

接收设备330、335可以是虚拟现实显示系统，诸如头戴式显示器335，但也可以是(或另外)能够仅示出二维(2D)内容的显示器330。

头戴式显示器是一种能够示出三维(3D)内容的设备。为该目的，头戴式显示器可以包括用于为左眼和右眼显示图像的两个屏幕部分或两个屏幕。显示器靠近眼睛，并且因此镜头用于使图像易于查看并且用于分散图像以覆盖眼睛的尽可能大的视场。HMD附接到用户的头部，使得即使用户转动头部，HMD也能保持在原位。该设备可以具有用于确定头部运动和头部方向的取向检测模块。头戴式显示器向用户提供记录/流式传输内容的三维(3D)感知。头戴式显示器的用户在给定时刻只能看到360度内容的一部分，称为视口，其大小由HMD的垂直和水平视场定义。沉浸式内容的大部分音频对象可以在视口中可见，而一些音频对象可能位于用户后面，因此在视口中不可见。如前所述，视口是360度内容的一部分。因此，“视口”是定义适合用户显示和查看的全向图像或视频区域的术语，并且被定义为当前显示并且因此可供用户查看的球形视频的一部分。

在图3中，发送方被示出为360度视频系统310。可以理解，发送方可以是共享360度视频的会议参与者中的一个，而不是360度视频系统310，或者发送方可以是中间盒(middlebox)或网络设备，即，能够进行媒体分发的任何计算机网络设备。这种中间盒的示例是媒体网关、会议服务器等。发送方也可以是被配置为经由MPEG DASH协议来递送内容的流式传输服务器。根据发送方的能力，发送方可以提供视口不相关或视口相关的递送。此外，如果提供视口相关的递送，则需要将用于确定视口的控制信号从头戴式显示器或能够显示360度内容的其他设备递送给发送方。

视口可以基于接收设备(诸如HMD 335)的用户的头部运动和身体运动来确定。视口可以经由控制通道从接收设备335发送到发送方(诸如360度视频系统310)。基于所接收的视口，发送方能够发送与所确定的视口相关视频内容。可以理解，来自除HMD用户自己的移动之外的方式的视口控制可能会导致查看者产生晕动病(motion sickness)。

为了确定视口，VR会议系统(包括发送方和接收方)可以支持3DoF。支持3DoF的系统允许围绕偏航、俯仰和滚转的头部旋转运动。在另一实施例中，可以支持6DoF(6自由度)运动。除了旋转运动之外，6DoF还允许另外的平移头部或身体运动，例如向上、向下、向右、向左、向前和向后平移移动头部或身体，包括在任何方向上围绕空间行走。6DoF运动可以被限制在定义的空间内，用户可以在该空间内四处移动(例如，3DoF+)或不受限制。

图4示出了视频会议流的递送的示例。在捕获阶段410，摄像机411记录关于包括若干参与者的会议的全向数据。在阶段420，摄像机系统或中间盒或某种其他网络服务器生成关于所捕获的全向数据425的视口相关内容426、427、428(视口的数目可以与图4所示的内容有很大不同)。在消费阶段430，某些内容438被提供给用户的头戴式显示器435。例如，所提供的内容438可以根据头部运动和头部方向、或者根据用户的手动选择来确定。这样的信息可能已经被提供给生成视口相关内容的摄像机系统或中间盒。

替代地，如果接收设备是2D显示器(在图3中以附图标记330示出)，则显示器的用户可以选择遵循另一用户的视口，或者选择基于在发送方处可用的其他预测方法的视口，诸如主导扬声器或运动跟踪。

关于以上关于视口的讨论，本实施例的目的是提供适当的会话级信令以发信号通知由发送方支持的视口控制信令的类型(即，视频源)、以及接收设备(即，远程设备)在会话期间想要使用的视口控制的类型。

当接收设备已经加入360度视频会议以接收关于会议的360度视频内容时，360度发送方可以按照以下格式中的任何一种将视频内容发送到接收设备：

-沉浸式的视口不相关视频；

-沉浸式的视口相关视频；

-平面化的视口相关2D内容。

沉浸式的视口不相关视频是指其中没有任何视口定义的内容。如果发送方不能提供视口相关内容，则可以由发送方选择沉浸式视口不相关视频的递送。替代地，将视频分发到多个接收设备的中间盒(例如，媒体网关)可以向视频发送方请求视口不相关视频，并且将视口相关视频重新分配给接收设备。当发送方不能为大量接收方提供/编码视口相关流时，可能会发生这种情况，因此中间盒被配置为在这方面协助电话会议。作为另外的替代方案，接收设备可以因为设备能力限制、隐私原因或个人偏好而请求视口不相关视频。

沉浸式的视口相关视频指代一种内容，其中位于视口内的图像与球体的其余部分的处理方式不同(例如，通过以更高质量对视口进行编码)。这样的内容可以由发送方提供给基于视口取向的接收设备。视口可以由发送方基于它经由信令从接收设备接收的视口信息来确定。在另一种情况下，当A选择遵循B的视口时，发送方可以基于它经由信令从用户B接收的视口信息来确定用户A的视口，并且这已经在会话控制期间由各方协商和同意。在第三种情况下，发送方可以无需外部信令而基于预测或其他应用级方法(例如，主导扬声器、运动跟踪等)来确定接收设备的视口。

平面化的视口相关2D内容是指非沉浸式内容。这样的内容可以被提供给具有基于视口的2D显示器的接收设备。视频源可以基于经由信令从接收设备接收的视口信息来确定视口。在另一种情况下，当A选择遵循B的视口时，发送方可以基于它经由信令从用户B接收的视口信息来确定用户A的视口，并且这已经在会话控制期间由各方协商和同意。在第三种情况下，发送方可以无需外部信令而基于预测或其他应用级方法(例如，主导扬声器、运动跟踪等)来确定接收设备的视口。想要将所请求的内容显示为其他VR内容之上的2D叠加的HMD接收设备也可以请求平面化的视口相关的2D内容。

360度视频内容的接收设备能够选择它想在流式传输视频期间(例如，在电话会议期间)使用的视口控制选项。即使接收设备想要接收沉浸式内容的平面化2D版本，这也是适用的。视口控制选项可以是以下中的一项：

-接收设备控制视口，并且该信息在会话期间被发送回发送方(例如使用RTCP反馈)。发送方可以提供不同信令机制，如果可能不止一种的话。

-接收设备控制视口，但该信息在会话期间不会被发送回发送方。这表示媒体不会被作为视口相关内容进行递送。

-接收设备将遵循另一用户(呈现者)的视口。如果使用该选项，则发送方可以向接收设备的用户提供可能的呈现者的列表以供选择。可能需要附加信令来向呈现者请求许可。

发送方可以将用于指示它可以为查看360度视频提供的视口控制选项的类型的参数编码到比特流中。比特流可以在会话控制或会话建立期间从发送方发信号通知给接收设备。根据一个实施例，指定用于控制视口的选项的参数是viewport_ctrl(可以理解，参数的名称可以变化)。viewport_ctrl可以具有以下值中的一个或多个：

οdevice_signalled_3dof

οdevice-signalled-6dofc

device-signalled-6dofu

device-notsignalled

recommended_viewport

οpresenter-viewport

接收设备可以选择要包括到从接收设备发送到发送方的响应中的值中的一个。

当响应包括device_signalled_3dof时，视口将由接收设备控制到多达3DoF。接收设备将在会话期间向发送方发信号通知该信息(例如，偏航、俯仰、滚转、或不同格式的其他视口坐标)。将用于视口反馈的信令类型可以使用不同参数进行协商，也可以在viewport_ctrl信号中完成(例如使用device_signalled_rtcpfb等)。

当响应包括device_signalled_6dofc时，视口将由接收设备在受限空间(例如，MPEG委员会定义的3DoF+或Windowed 6DoF)中控制到6DOF，并且接收设备将在会话期间向发送方发信号通知该信息。将用于视口反馈的信令类型可以使用不同参数进行协商，也可以在viewport_ctrl信号中完成(例如使用device_signalled_rtcpfb等)。

当响应包括device_signalled_6dofu时，视口将由接收设备在不受限空间中控制到多达6DoF，并且接收设备将在会话期间向发送方发信号通知该信息。将用于视口反馈的信令类型可以使用不同参数进行协商，也可以在viewport_ctrl信号中完成(例如使用device_signalled_rtcpfb等)。

当响应包括device_notsignalled时，视口将由接收设备控制，并且接收设备在会话期间不会向发送方发信号通知任何信息(例如，出于隐私原因)。该模式将导致接收视口不相关的流。

当响应包括Recommended_viewport时，接收设备将遵循媒体流的推荐视口，该推荐视口将由发送方确定。可以为推荐视口提供不止一种机制，这可以单独发信号通知，也可以作为viewport_ctrl的扩展。例如，recommended_viewport_audio、recommended_viewport_motion等。

当响应包括presenter_viewport时，接收设备将遵循呈现者的视口，其中呈现者是同一流的另一查看者。当使用这种模式时，如果有多个呈现者，则接收设备应当能够使用适当信令(例如，通过指示呈现者的名称或索引等)来选择呈现者。

上面定义的信息可以从接收方流向发送方。然而，替代地，信息可以从发送方朝向接收方被传输。在这种情况下，可以没有协商，而只是接收方侧的接受或拒绝。

信令可以经由IETF SDP(会话描述协议)来执行，IETF SDP是一种用于描述流媒体通信参数的格式。SDP可以与RTP、RTSP或SIP结合使用。下面给出SDP字段的语法和语义作为示例。信号viewport_ctrl可以作为媒体类型的属性或作为会话级参数被包括，该参数适用于需要视口控制的所有媒体类型。

句法

v＝0

o＝Alice 28908445262890842807 IN IP4 131.163.72.4

s＝360 VR conferencing

c＝IN IP4 131.164.74.2

t＝0 0

m＝video 49170 RTP/AVP 99

a＝rtpmap：99H264/90000

a＝viewport_ctrl：<control_type>

语义

control_type：

0-＞device_notsignalled

1-＞device_signalled_3dof

2-＞device_signalled_6dofc

3-＞device_signalled_6dofu

4-＞recommended_viewport

5-＞presenter_viewport

发送方包括它在SDP提议(offer)中支持的所有视口控制选项的列表，而接收设备将在SDP响应中包含它希望接收的选项。发送方和接收设备可以在会话开始时和会话期间协商和重新协商控制选项。图4示出了信令流的示例，其中接收设备是2D显示设备，该2D显示设备向发送方请求推荐视口的2D视频(360度内容的平面化版本)。在图4中，视频源发送带有会话参数的邀请、SDP提议。邀请消息包括针对viewport_ctrl的信号：{device_signalled，device_notsignalled，Recommended_viewport，呈现者视口}，并且可选地包括呈现者列表。device_signalled_xxx可以参考device_signalled_3dof、device_signalled_6dof(不受约束或受约束)。初始邀请消息被发送，用于接收设备加入360度会议。在图4的示例中，接收设备是2D显示设备，它使用所选择的媒体进行响应，在该示例中，该媒体是遵循推荐视口的2D视频流。媒体通过RTP被发送，带有不含视口信息的RTCP报告。

图5示出了当配备有HMD设备的接收设备请求具有设备控制的视口的沉浸式内容时的信令流。在图5中，视频源发送带有会话参数的邀请、SDP提议。邀请消息包括针对viewport_ctrl的信号：{device_signalled，device_notsignalled，Recommended_viewport，呈现者视口}，并且可选地包括呈现者列表。device_signalled_xxx可以参考device_signalled_3dof、device_signalled_6dof(不受约束或受约束)。初始邀请消息被发送，用于接收设备加入360度会议。在图5的示例中，接收设备是HMD显示设备，它使用所选择的媒体进行响应，在该示例中，该媒体是具有视口控制的沉浸式视频流。媒体通过RTP被发送，带有含视口信息的RTCP报告。

如果发送方是流式传输服务器，其中内容是经由MPEG DASH协议递送的，则上述信令不是经由SDP承载而是在DASH MPD中承载的。除了SDP或DASH MPD，还可以使用其他信令方案经由例如由例如RTP/RTSP、RTCP等提供的其他传输协议选项来承载发信号通知的信息。

根据一个实施例，可以在媒体递送期间动态地改变控制类型。这表示，接收设备希望使用另一种类型的控制类型，而不是首先协商的控制类型。在这样的实施例中，信息的信令经由RTP/RTCP或经由MPEG DASH(HTTP)而发生。

图7是示出根据实施例的方法的流程图。一种方法包括：生成710定义呈现的比特流，该呈现包括全向视觉媒体内容；将指示用于查看呈现的视口控制选项的参数编码720到比特流中，并且向接收设备发送比特流，其中视口控制选项包括由接收设备可控制的选项和由接收设备不可控制的选项；从接收设备接收730所指示的视口控制选项中的一个作为响应；向接收设备流式传输740呈现；当响应已经包括关于由接收设备可控制的视口控制的指示时，该方法还包括：在呈现的流式传输期间从接收设备接收750关于视口定义的信息并且相应地适配呈现；当响应已经包括关于由接收设备不可控制的视口控制的指示时，根据在响应中指定的视口控制向接收设备流式传输760呈现。

根据实施例的一种装置包括：用于生成定义呈现的比特流的部件，该呈现包括全向视觉媒体内容；用于将指示用于查看呈现的视口控制选项的参数编码到比特流中并且向接收设备发送比特流的部件，其中视口控制选项包括由接收设备可控制的选项和由接收设备不可控制的选项；用于从接收设备接收所指示的视口控制选项中的一个作为响应的部件；

用于向接收设备流式传输呈现的部件；当响应已经包括关于由接收设备可控制的视口控制的指示时，该装置还包括用于在呈现的流式传输期间从接收设备接收关于视口定义的信息的部件以及用于相应地适配呈现的部件；当响应已经包括关于由接收设备不可控制的视口控制的指示时，该装置包括用于根据在响应中指定的视口控制向接收设备流式传输呈现的部件。该装置包括至少一个处理器和包括计算机程序代码的存储器，其中处理器还可以包括处理器电路系统。存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置执行根据各种实施例的图7的流程图的方法。

图8中示出了装置的示例。可以使用单个物理设备(例如在单个处理器中，如果希望如此的话)执行若干功能。装置90包括主处理单元91、存储器92、用户接口94、通信接口93。如图8所示，根据实施例的装置还包括相机模块95。存储器92存储包括装置90中的计算机程序代码在内的数据。该计算机程序代码被配置为实现根据图6的流程图的方法。相机模块95接收视频流形式的输入数据，以由处理器91处理。例如，通信接口93将处理后的数据转发到另一设备(诸如HMD)的显示器。当装置90是包括相机模块95的视频源时，可以从用户接口接收用户输入。如果装置90是网络中的中间盒，则用户接口是可选的，诸如相机模块。

各种实施例可以提供优点。例如，实施例为发送方/接收方提供了在实时会话期间建立视口控制的方式。实施例还提供了特定于2D显示设备的选项(presenter_viewport和recommended_viewport)以及通用选项(device_signalled和device_notsignalled)。当递送平面2D媒体流而不是沉浸式内容时，发送方可以在向用户提供相关信息的同时有效节省带宽。设备可以通过选择不发信号通知任何视口信息来维护隐私。最后，无法提供视口相关流的能力有限的发送方可以向接收方发信号通知这一点。

各种实施例可以借助驻留在存储器中并且引起相关装置执行该方法的计算机程序代码来实现。例如，设备可以包括用于处理、接收和传输数据的电路系统和电子器件、在存储器中的计算机程序代码、以及在运行计算机程序代码时引起设备执行实施例的特征的处理器。此外，如服务器等网络设备可以包括用于处理、接收和传输数据的电路系统和电子器件、在存储器中的计算机程序代码、以及在运行计算机程序代码时引起网络设备执行实施例的特征的处理器。计算机程序代码包括一个或多个操作特性。上述操作特性由上述计算机基于上述处理器的类型通过配置来定义，其中系统通过总线可连接到上述处理器，其中系统的可编程操作特性包括：生成定义呈现的比特流，该呈现包括全向的视觉媒体内容；将指示用于查看呈现的视口控制选项的参数编码到比特流中，并且向接收设备发送比特流，其中视口控制选项包括由接收设备可控制的选项和由接收设备不可控制的选项；从接收设备接收所指示的视口控制选项中的一个作为响应；向接收设备流式传输呈现；该方法还包括：当响应已经包括关于由接收设备可控制的视口控制的指示时，在呈现的流式传输期间从接收设备接收关于视口定义的信息并且相应地适配呈现；当响应已经包括关于由接收设备不可控制的视口控制的指示时，根据在响应中指定的视口控制向接收设备流式传输呈现。

根据实施例的一种计算机程序产品可以体现在非暂态计算机可读介质上。根据另一实施例，计算机程序产品可以通过网络以数据分组的形式下载。

如果需要，本文中讨论的不同功能可以以不同顺序和/或与其他功能同时执行。此外，如果需要，上述功能和实施例中的一个或多个可以是可选的或可以组合。

尽管在独立权利要求中阐述了实施例的各个方面，但其他方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其他组合，而不仅仅是权利要求中明确阐述的组合。

在此还应当注意，虽然以上描述了示例实施例，但这些描述不应当被视为限制性的。相反，在不脱离如所附权利要求中定义的本公开的范围的情况下，可以进行若干变化和修改。

Claims

1.一种方法，包括：

-生成定义呈现的比特流，所述呈现包括全向视觉媒体内容；

-将指示用于查看所述呈现的视口控制选项的参数编码到比特流中，其中所述视口控制选项包括由接收设备能够控制的选项和由所述接收设备无法控制的选项，其中由所述接收设备无法控制的所述选项至少包括基于呈现者视口的视口控制；

-向所述接收器设备发送所述比特流；

-从所述接收器设备接收所指示的所述视口控制选项中的一个或所指示的视口控制选项的组合作为响应；

-向所述接收器设备流式传输所述呈现；

-当所述响应已经包括关于由所述接收设备能够控制的视口控制的指示时，所述方法还包括：在所述呈现的流式传输期间从所述接收器设备接收关于视口定义的信息并且相应地适配所述呈现；

-当所述响应已经包括关于由所述接收设备无法控制的视口控制的指示时，所述呈现根据在所述响应中指定的所述视口控制被流式传输给所述接收器设备呈现。

2.根据权利要求1所述的方法，其中由所述接收设备能够控制的所述视口控制选项包括：由所述接收设备控制所述视口多达三个自由度、或者在受限空间中或在非受限空间中多达六个自由度。

3.根据权利要求1所述的方法，其中由所述接收设备无法控制的所述视口控制选项还包括基于推荐视口的视口控制。

4.根据权利要求1至3中任一项所述的方法，还包括通过网络接收所述全向视觉媒体内容。

5.根据权利要求1至3中任一项所述的方法，还包括捕获所述全向视觉媒体。

6.根据权利要求1至5中任一项所述的方法，还包括从所述接收设备接收音频。

7.一种装置，包括：

-用于生成定义呈现的比特流的部件，所述呈现包括全向视觉媒体内容；

-用于将指示用于查看所述呈现的视口控制选项的参数编码到比特流中的部件，其中所述视口控制选项包括由接收设备能够控制的选项和由所述接收设备无法控制的选项，其中由所述接收设备无法控制的所述选项至少包括基于呈现者视口的视口控制；

-用于向所述接收器设备发送所述比特流的部件；

-用于从所述接收设备接收所指示的视口控制选项中的一个或所指示的视口控制选项的组合作为响应的部件；

-用于向所述接收器设备流式传输所述呈现的部件；

-当所述响应已经包括关于由所述接收器设备能够控制的视口控制的指示时，所述装置还包括用于在所述呈现的流式传输期间从所述接收器设备接收关于视口定义的信息的部件以及用于相应地适配所述呈现的部件；

-当所述响应已经包括关于由所述接收设备无法控制的视口控制的指示时，所述装置包括用于根据在所述响应中指定的所述视口控制向所述接收器设备流式传输所述呈现的部件。

8.根据权利要求7所述的装置，其中由所述接收设备能够控制的所述视口控制选项包括：由所述接收设备控制所述视口多达三个自由度，或者在受限空间中或在非受限空间中多达六个自由度。

9.根据权利要求7所述的装置，其中由所述接收设备无法控制的所述视口控制选项还包括基于推荐视口的视口控制。

10.根据权利要求7至9中任一项所述的装置，还包括通过网络接收所述全向视觉媒体内容。

11.根据权利要求7至10中任一项所述的装置，还包括捕获所述全向视觉媒体。

12.根据权利要求7至11中任一项所述的装置，还包括从所述接收设备接收音频。

13.一种计算机程序产品，包括计算机程序代码，所述计算机程序代码被配置为当在至少一个处理器上执行时引起装置或系统：

-生成定义呈现的比特流，所述呈现包括全向视觉媒体内容；

-向所述接收器设备发送所述比特流；

-从所述接收器设备接收所指示的视口控制选项中的一个或所指示的视口控制选项的组合作为响应；

-向所述接收器设备流式传输所述呈现；

-当所述响应已经包括关于由所述接收设备能够控制的视口控制的指示时，所述计算机程序产品包括用于引起所述装置或所述系统在所述呈现的流式传输期间从所述接收器设备接收关于视口定义的信息并且相应地适配所述呈现的计算机程序代码；

-当所述响应已经包括关于由所述接收设备无法控制的视口控制的指示时，所述计算机程序产品包括用于引起所述装置或所述系统根据在所述响应中指定的所述视口控制向所述接收器设备流式传输所述呈现的计算机程序代码。

14.一种装置，包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起引起所述装置至少执行以下操作：

-生成定义呈现的比特流，所述呈现包括全向视觉媒体内容；

-向所述接收设备发送所述比特流；

-从所述接收设备接收所指示的视口控制选项中的一个或所指示的视口控制选项的组合作为响应；

-向所述接收设备流式传输所述呈现；

-当所述响应已经包括关于由所述接收设备能够控制的视口控制的指示时，所述计算机程序产品包括用于引起所述装置或所述系统在所述呈现的流式传输期间从所述接收设备接收关于视口定义的信息并且相应地适配所述呈现的计算机程序代码；

-当所述响应已经包括关于由所述接收设备无法控制的视口控制的指示时，所述计算机程序产品包括用于引起所述装置或所述系统根据在所述响应中指定的所述视口控制向所述接收设备流式传输所述呈现的计算机程序代码。

15.根据权利要求14所述的装置，其中由所述接收设备能够控制的所述视口控制选项包括：由所述接收设备控制所述视口多达三个自由度、或者在受限空间中或在非受限空间中多达六个自由度。

16.根据权利要求14所述的装置，其中由所述接收设备无法控制的所述视口控制选项还包括基于推荐视口的视口控制。

17.根据权利要求14至16中任一项所述的装置，还包括通过网络接收所述全向视觉媒体内容。

18.根据权利要求14至17中任一项所述的装置，还包括捕获所述全向视觉媒体。

19.根据权利要求14至18中任一项所述的装置，还包括从所述接收设备接收音频。