CN109218821A

CN109218821A - 视频的处理方法、装置、设备和计算机存储介质

Info

Publication number: CN109218821A
Application number: CN201710539393.7A
Authority: CN
Inventors: 尹海斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2019-01-15

Abstract

本发明提供了一种视频的处理方法、装置、设备和计算机存储介质，其中方法包括：将视频转码所采用的模型信息携带在网络抽象层(NAL)单元的补充增强信息(SEI)中；发送所述NAL单元。以及，接收视频的NAL单元；从所述NAL单元的SEI中解析所述视频转码所采用的模型信息。本发明通过将视频转码所采用的模型信息携带在SEI中的方式，实现模型信息从视频的发送端到接收端的传递，使得视频的接收端能够依据SEI中的模型信息正确地进行模型重建，进而进行视频的渲染播放。

Description

视频的处理方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及计算机应用技术领域的视频处理技术，特别涉及一种视频的处理方法、装置、设备和计算机存储介质。

【背景技术】

全景视频的压缩技术已经成为虚拟现实(VR，Virtual Reality)技术领域的研究重点，全景视频通常在视频转码时，需要全景视频映射展开为平面图像，映射展开过程中可能采用不同的模型，例如Equirectangular(等距长方圆柱投影)模型、CubeMap(立方图投影)模型、Pyramid(金字塔投影)模型、Pyramid变种模型等等。其中一些模型是码率无差别分配的模型，例如Equirectangular模型和CubeMap模型，这些模型在全景视频的展开平面上均匀分配码率。而另一些模型是基于视角的码率分配模型，例如Pyramid模型和Pyramid变种模型，这些模型会将全景视频分成多路视频，使得每一路映射的视频在特定视角上具有高清晰度，即码率在特定视角上集中分配。

相应地，全景视频的接收端在对接收到的视频数据进行解码后，需要获知全景视频发送端在视频转码过程中采用的模型，如果是基于视角的码率分配模型，则需要进一步获知视角信息，据此进行模型重建，然后进行视频的三维渲染。一旦全景视频的接收端采用了错误的模型进行重建，则会造成视频渲染失败而无法正常播放，因此，由于视频转码过程中所采用模型的多样性和相同模型的多视角特性，如何实现模型信息的传递成为亟待解决的问题。

【发明内容】

有鉴于此，本发明提供了一种视频的处理方法、装置、设备和计算机存储介质，以便于实现模型信息的传递，使得视频的接收端能够正确地进行模型重建。

具体技术方案如下：

本发明提供了一种视频的处理方法，该方法包括：

将视频转码所采用的模型信息携带在网络抽象层NAL单元的补充增强信息SEI中；

发送所述NAL单元。

根据本发明一优选实施方式，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

根据本发明一优选实施方式，所述模型信息还包括：是否包含视角信息的指示信息。

根据本发明一优选实施方式，所述模型的视角信息包括：

模型的视角在视角表中的索引信息。

根据本发明一优选实施方式，所述模型的视角信息包括：

视角表示方式信息、所述模型的视角信息的长度信息以及具体的视角信息。

根据本发明一优选实施方式，所述视角表示方式包括：

欧拉角、四元数或旋转矩阵。

根据本发明一优选实施方式，若采用欧拉角的视角表示方式，则对应的具体的视角信息包括：欧拉角的量化信息，所述量化信息为以5度为单位的量化值。

根据本发明一优选实施方式，若采用四元数的视角表示方式，则对应的具体的视角信息包括：旋转轴信息和对应旋转角的量化信息，所述量化信息为以5度为单位的量化值。

根据本发明一优选实施方式，所述模型信息用于指示本NAL单元所在分片的视频转码所采用的模型信息；或者，

用于指示本NAL单元的后续NAL单元的视频转码所采用的模型信息。

本发明提供了一种视频的处理方法，该方法包括：

接收视频的网络抽象层NAL单元；

从所述NAL单元的补充增强信息SEI中解析所述视频转码所采用的模型信息。

根据本发明一优选实施方式，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

根据本发明一优选实施方式，所述模型信息还包括：是否包含视角信息的指示信息；

若所述指示信息指示不包含视角信息，则从所述NAL单元的SEI中解析模型类型信息；

若所述指示信息指示包含视角信息，则从所述NAL单元的SEI中解析模型类型信息和模型的视角信息。

根据本发明一优选实施方式，所述模型的视角信息包括：模型的视角在视角表中的索引信息；

该方法还包括：利用解析得到的所述索引信息在视角表中查找对应的模型视角。

根据本发明一优选实施方式，所述模型的视角信息包括：

根据本发明一优选实施方式，所述视角表示方式包括：

欧拉角、四元数或旋转矩阵。

根据本发明一优选实施方式，若解析出视角表示方式为欧拉角，则从所述具体的视角信息中获取欧拉角的量化信息，所述量化信息为以5度为单位的量化值。

根据本发明一优选实施方式，若解析出视角表示方式为四元数，则从所述具体的视角信息中获取旋转轴信息和对应旋转角的量化信息，所述量化信息为以5度为单位的量化值。

根据本发明一优选实施方式，该方法还包括：

将解析出的模型信息作为所述NAL单元所在分片的视频转码所采用的模型信息；或者，

将解析出的模型信息作为所述NAL单元的后续NAL单元的视频转码所采用的模型信息。

根据本发明一优选实施方式，该方法包括：

利用解析得到的模型信息进行模型重建；

利用重建的模型进行视频的渲染。

本发明还提供了一种视频的处理装置，设置于视频的发送端，该装置包括：

封装单元，用于将视频转码所采用的模型信息携带在网络抽象层NAL单元的补充增强信息SEI中；

发送单元，用于发送所述NAL单元。

根据本发明一优选实施方式，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

根据本发明一优选实施方式，所述模型的视角信息包括：

模型的视角在视角表中的索引信息。

根据本发明一优选实施方式，所述模型的视角信息包括：

本发明还提供了一种视频的处理装置，该装置设置于视频的接收端，该装置包括：

接收单元，用于接收视频的网络抽象层NAL单元；

解析单元，用于从所述NAL单元的补充增强信息SEI中解析所述视频转码所采用的模型信息。

根据本发明一优选实施方式，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

若所述指示信息指示不包含视角信息，则所述解析单元从所述NAL单元的SEI中解析模型类型信息；

若所述指示信息指示包含视角信息，则所述解析单元从所述NAL单元的SEI中解析模型类型信息和模型的视角信息。

所述解析单元，还用于利用解析得到的所述索引信息在视角表中查找对应的模型视角。

根据本发明一优选实施方式，所述模型的视角信息包括：

根据本发明一优选实施方式，所述解析单元将解析出的模型信息作为所述NAL单元所在分片的视频转码所采用的模型信息；或者，将解析出的模型信息作为所述NAL单元的后续NAL单元的视频转码所采用的模型信息。

根据本发明一优选实施方式，该装置还包括：

重建单元，用于利用所述解析单元解析得到的模型信息进行模型重建；

渲染单元，用于利用所述重建单元重建的模型进行视频的渲染。

本发明还提供了一种设备，包括

存储器，包括一个或者多个程序；

一个或者多个处理器，耦合到所述存储器，执行所述一个或者多个程序，以实现上述方法中的操作。

本发明还提供了一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序在被一个或多个计算机执行时，使得所述一个或多个计算机执行上述方法中的操作。

由以上技术方案可以看出，本发明通过将视频转码所采用的模型信息携带在SEI中的方式，实现模型信息从视频的发送端到接收端的传递，使得视频的接收端能够依据SEI中的模型信息正确地进行模型重建，进而进行视频的渲染播放。

【附图说明】

图1为本发明实施例提供的NAL单元的头信息组成示意图；

图2为本发明实施例提供的在全景视频发送端执行的方法流程图；

图3为本发明实施例提供的模型信息的组成示意图；

图4为本发明实施例提供的一种典型的多视角pyramid模型示意图；

图5为本发明实施例提供的模型的视角信息的组成示意图；

图6为本发明实施例提供的全景视频的发送端发送的一系列NAL单元的示意图；

图7为本发明实施例提供的在全景视频接收端执行的方法流程图；

图8为本发明实施例提供的设置于全景视频的发送端的装置结构图；

图9为本发明实施例提供的设置于全景视频的接收端的装置结构图；

图10为本发明实施例提供的设备结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在H.264/AVC视频编码标准中，整个系统框架被分为了两个层面：VCL(VideoCoding Layer，视频编码层)和NAL(NetworkAbstract Layer，网络抽象层)。其中，VAL负责有效表示视频数据的内容，而NAL则负责格式化数据并提供头信息，以保证数据适合各种信道和存储介质上的传输。NAL单元是NAL的基本语法结构，它包含一个字节的头信息和一系列来自VCL的称为原始字节序列载荷(RBSP)的字节流。

其中，NAL单元的头信息如图1中所示，主要包括禁止位(forbidden_bit)、NAL优先级位(nal_reference_bit)和NAL单元类型(nal_unit_type)字段，各占1bit、2bit和5bit。其中，NAL单元类型字段的取值为1～5时，指示该NAL单元为VCL的NAL单元，也就是说，该NAL单元是携带视频编码数据的，在本发明实施例中即携带全景视频转码后的数据。NAL单元类型字段为其他取值时，指示该NAL单元为非VCL的NAL单元。

其中有一种非VAL的VAL单元类型为SEI(补充增强信息)，它被设计用来携带视频的补充信息。本发明的核心思想就是利用VAL单元的SEI来携带全景视频转码所采用的模型信息。另外，需要说明的是，本发明所提供的实现方式除了用于全景视频之外，对于其他类型的视频同样适用。本发明仅以全景视频为例进行描述。

图2为本发明实施例提供的在全景视频发送端执行的方法流程图，如图2中所示，该方法可以包括以下步骤：

在201中，将全景视频转码所采用的模型信息携带在NAL单元的SEI中。

本发明实施例中，上述模型信息至少包括模型类型信息，对于具有不同视角的模型，上述模型信息还需要包含模型的视角信息。为了指示是否包含模型的视角信息，该模型信息中还可以包括是否包含视角信息的指示信息。如图3中所示。其中，指示是否包含模型的视角信息可以占用1bit，例如，指示是否包含模型的视角信息可以用0指示该SEI中不包含模型的视角信息，可以用1指示该SEI中包含模型的视角信息。模型类型信息占用7bits，模型的视角信息长度可变。需要说明的是，本发明实施例中SEI中各字段的名称和长度仅仅是所列举的优选实施例，本发明对各字段的名称和长度并不加以限制。

对于模型类型信息的字段而言，可以通过非量化的方式表达模型类型信息。这样7bit就能够表达128种模型。例如采用0000001表示Equirectangular模型，采用0000010表示CubeMap模型，采用0000011表示Pyramid模型，等等。这就类似于，在全景视频的发送端维护有一个模型类型表，NAL单元的模型类型信息是模型类型在模型类型表中的索引信息。

对于视角信息的字段而言，既可以通过非量化的方式表达模型的视角信息，也可以通过量化的方式表达模型的视角信息。

若采用非量化的方式，可以在全景视频的发送端维护一个视角表，NAL单元的视角信息是模型的视角在视角表中的索引信息。这种方式表达比较简单，但需要在发送端和接收端都维护一个视角表，当视角表出现差错或不一致等情况时，就会出现解析错误。并且不利于进行扩展，当在全景视频的发送端扩展出新的视角时，需要在各接收端上都及时进行更新。因此，本发明实施例优选量化的方式来表达视角信息。

下面对采用量化的方式表达视角信息进行详述。模型的视角信息可以采用模型的空间姿态来表达，在数学模型上，刚体的空间姿态用来描述一个刚体的固定坐标系和参考坐标系之间的角位置关系，有一些数学表示方法，例如欧拉角、四元数、旋转矩阵等。在本发明实施例中可以沿用这些方法来表达模型的空间姿态，即模型的视角。另外，全景视频的视角有一些特性，诸如图4所示的一种典型的多视角pyramid模型，它的视角朝向基本上是在水平和竖直方向非常典型的角度方向，例如水平15度竖直0度，水平45度竖直45度，水平30度竖直0度，等等。对全景视频的所有多视角模型进行归纳，可以归纳出两个基本特征：一是视角朝向通常都是在5度的整数倍上，二是视角朝向主要是水平方向的偏转和竖直方向的偏转而得到。

基于上述理论，本发明实施例中对于模型的视角信息可以采用如图5所示的结构。主要包括：视角表示方式信息、模型的视角信息的长度信息以及具体的视角信息。其中，视角表示方式信息可以采用2bits表示，模型的视角信息的长度信息可以采用6bits表示，具体的视角信息可变，这三个字段的总长度就是长度信息要指示的内容。

其中，视角表示方式可以采用但不限于欧拉角、四元数或旋转矩阵，表示方式可以如表1所示。

表1

视角表示方式的内容	指示的信息
		01	欧拉角
10	四元数
		11	旋转矩阵

基于视角朝向通常都是在5度的整数倍上的特点，可以对采用欧拉角和四元数的表示方式进行如下优化：

若采用欧拉角的视角表示方式，则对应的具体的视角信息包括：欧拉角的量化信息，该量化信息为以5度为单位的量化值。也就是说，角度在度数上做了量化采样，以5度为单位，这样原本0～360度需要360种表示，现在仅需要72种表示。模型的视角需要三个欧拉角表示，每个欧拉角可以采用1字节表示，通过这种方式可以将原本需要3个float型总计12字节的信息量，压缩到了3个字节。

若采用四元数的视角表示方式，则对应的具体的视角信息包括：旋转轴信息和对应旋转角的量化信息，该量化信息为以5度为单位的量化值。模型的视角可以采用两个四元数来表示视角的水平旋转和竖直旋转，其中每一个四元数可以采用12bits来表示，前4bits表示旋转轴信息，后8bits表示绕该旋转轴转动的量化角度，总共需要3字节表示两次旋转。其中，前4bits的旋转轴可以如表2所示。

表2

四元数的前4bits	指示的旋转轴信息
		0001	X轴
0010	Y轴
		0100	Z轴

通过这种方式将四元数原本需要4个float型共计16字节的长度压缩到了3个字节。

在202中，发送NAL单元。

通常在一个分片(slice)中，SEI是在VAL的NAL单元之前的，该SEI可以用于指示本NAL单元所在分片的全景视频转码所采用的模型信息。或者，不必每个分片都包含携带模型信息的SEI，若一系列NAL单元的全景视频转码所采用的模型信息是相同的，则在该一系列NAL单元之前发送一个SEI即可，直至NAL单元的全景视频转码所采用的模型信息发生变化。这种情况下，SEI包含的模型信息用于指示本NAL单元的后续NAL单元的全景视频转码所采用的模型信息。

举个例子，如图6所示，图6为全景视频的发送端发送的一系列NAL单元，其中NAL单元11是SEI，其包含的模型信息是NAL单元12～1n的全景视频转码所采用的模型信息。NAL单元21是SEI，其包含的模型信息是NAL单元22～2m的全景视频转码所采用的模型信息。

相应地，图7为本发明实施例提供的在全景视频接收端执行的方法流程图，如图7所示，该方法主要包括以下步骤：

在701中，接收全景视频的NAL单元。

在全景视频的发送端发送的各NAL单元包括VCL的NAL单元和非VCL的NAL单元，VCL的NAL单元中携带的是全景视频转码后的数据，而非VCL的NAL单元中，本发明实施例通过其中的SEI来携带全景视频转码所采用的模型信息。因此，在本发明实施例中，主要关心的是SEI。

在702中，从NAL单元的SEI中解析全景视频转码所采用的模型信息。

其中模型信息可以包括模型类型信息，还可以包括模型类型信息和模型的视角信息。除此之外，模型信息还可以包括是否包含视角信息的指示信息，若指示信息指示不包含视角信息，则从SEI中解析模型类型信息；若指示信息指示包含视角信息，则从SEI中解析模型类型信息和模型的视角信息。其结构可以如图3中所示。全景视频的接收端可以首先从第1bit解析是否是否包含视角信息的指示信息，从后续7bits解析出模型类型信息。若第1bit指示包含视角信息，则继续解析视角信息。

对于模型类型信息而言，主要是通过非量化的方式来表达模型类型信息。因此全景视频的接收端可以维护有一个模型类型表，SEI中携带的模型类型信息是模型类型在模型类型表中的索引信息。全景视频的接收端可以通过解析得到的索引信息在模型类型表中查找对应的模型类型信息。

对于模型的视角信息而言，可以采用非量化的方式，即模型的视角信息包括模型的视角在视角表中的索引信息，全景视频的接收端可以利用解析得到的索引信息在视角表中查找对应的模型视角。

模型的视角信息也可以采用量化的方式，可以包括：视角表示方式信息、所述模型的视角信息的长度信息以及具体的视角信息。例如图5中所示，可以从模型的视角信息的前2bits解析出视角表示方式，从接下来的6bits解析得到整个模型的视角信息的长度信息，再利用模型的视角信息的长度信息得到具体的视角信息的长度，并解析具体的视角信息。假设解析得到的模型的视角信息的长度信息为x bits，那么具体的视角信息的长度为(x-8)bits。

其中视角表示方式可以包括但不限于欧拉角、四元数或旋转矩阵。例如，依据上面实施例中表1中所示，若视角表示方式为01，则解析出视角表示方式为欧拉角，若视角表示方式为10，则解析出视角表示方式为四元数，若视角表示方式为11，则解析出视角表示方式为旋转矩阵。

基于上述实施例中已经描述的，模型的视角朝向通常都是在5度的整数倍上的特点，可以对采用欧拉角和四元数的表示方式进行如下优化：

若解析出视角表示方式为欧拉角，则从具体的视角信息中获取欧拉角的量化信息，量化信息为以5度为单位的量化值。若解析出视角表示方式为四元数，则从具体的视角信息中获取旋转轴信息和对应旋转角的量化信息，量化信息为以5度为单位的量化值。例如，每一个四元数可以采用12bits来表示，前4bits表示旋转轴信息，后8bits表示绕该旋转轴转动的量化角度，总共需要3字节表示两次旋转。

在703中，利用解析得到的模型信息进行模型重建。

在704中，利用重建的模型进行全景视频的渲染。

若全景视频的发送端是以SEI携带本NAL单元所在分片的全景视频转码所采用的模型信息，则全景视频的接收端将解析出的模型信息作为本NAL单元所在分片的全景视频转码所采用的模型信息，利用该模型信息进行模型重建，重建出来的模型用于本NAL所在分片的全景视频的渲染。

若全景视频的发送端以SEI携带本NAL后续NAL单元的全景视频转码所采用的模型信息，则利用解析出的模型信息进行模型重建后，将重建出来的模型用于本NAL单元后续NAL单元的全景视频的渲染，直至接收到携带新的模型信息的SEI。

以上是对本发明所提供方法进行的描述，下面结合实施例对本发明提供的装置进行详述。

图8为本发明实施例提供的设置于全景视频的发送端的装置结构图，该装置可以应用于VR视频系统，诸如VR直播系统，VR点播系统，该全景视频的发送端可以为VR视频系统的服务端。当然，该全景视频的发送端也可以是具有全景视频转码能力的终端设备。如图8中所示，该装置可以包括：封装单元01和发送单元02。

封装单元01负责将全景视频转码所采用的模型信息携带在NAL单元的SEI中。

发送单元02负责发送NAL单元。

上述模型信息至少包括模型类型信息，对于具有不同视角的模型，上述模型信息还需要包含模型的视角信息。为了指示是否包含模型的视角信息，该模型信息中还可以包括是否包含视角信息的指示信息。

如图3中所示。其中，指示是否包含模型的视角信息可以占用1bit，例如，指示是否包含模型的视角信息可以用0指示该SEI中不包含模型的视角信息，可以用1指示该SEI中包含模型的视角信息。模型类型信息占用7bits，模型的视角信息长度可变。需要说明的是，本发明实施例中SEI中各字段的名称和长度仅仅是所列举的优选实施例，本发明对各字段的名称和长度并不加以限制。

若采用量化的方式，本发明实施例中对于模型的视角信息可以采用如图5所示的结构。主要包括：视角表示方式信息、模型的视角信息的长度信息以及具体的视角信息。其中，视角表示方式信息可以采用2bits表示，模型的视角信息的长度信息可以采用6bits表示，具体的视角信息可变，这三个字段的总长度就是长度信息要指示的内容。

其中，视角表示方式可以采用但不限于欧拉角、四元数或旋转矩阵。

若采用四元数的视角表示方式，则对应的具体的视角信息包括：旋转轴信息和对应旋转角的量化信息，该量化信息为以5度为单位的量化值。模型的视角可以采用两个四元数来表示视角的水平旋转和竖直旋转，其中每一个四元数可以采用12bits来表示，前4bits表示旋转轴信息，后8bits表示绕该旋转轴转动的量化角度，总共需要3字节表示两次旋转。通过这种方式将四元数原本需要4个float型共计16字节的长度压缩到了3个字节。

SEI携带的模型信息用于指示本NAL单元所在分片的全景视频转码所采用的模型信息；或者，用于指示本NAL单元的后续NAL单元的全景视频转码所采用的模型信息。

该装置可以是位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，也可以位于终端，本发明实施例对此不进行特别限定。

图9为本发明实施例提供的设置于全景视频的接收端的装置结构图，该装置可以应用于VR视频系统，诸如VR直播系统，VR点播系统，该全景视频的接收端可以为VR视频系统的客户端。如图9所示，该装置包括：接收单元11和解析单元12，还可以进一步包括重建单元13和渲染单元14。

接收单元11负责接收全景视频的NAL单元。

解析单元12负责从NAL单元的SEI中解析全景视频转码所采用的模型信息。

其中模型信息可以包括模型类型信息，还可以包括模型类型信息和模型的视角信息。除此之外，模型信息还可以包括是否包含视角信息的指示信息，若指示信息指示不包含视角信息，则解析单元12从SEI中解析模型类型信息；若指示信息指示包含视角信息，则解析单元12从SEI中解析模型类型信息和模型的视角信息。其结构可以如图3中所示。解析单元12可以首先从第1bit解析是否是否包含视角信息的指示信息，从后续7bits解析出模型类型信息。若第1bit指示包含视角信息，则继续解析视角信息。

对于模型的视角信息而言，可以采用非量化的方式，即模型的视角信息包括模型的视角在视角表中的索引信息，解析单元12可以利用解析得到的索引信息在视角表中查找对应的模型视角。

模型的视角信息还可以采用量化的方式。此时模型的视角信息可以包括：视角表示方式信息、所述模型的视角信息的长度信息以及具体的视角信息。例如图5中所示，解析单元12可以从模型的视角信息的前2bits解析出视角表示方式，从接下来的6bits解析得到整个模型的视角信息的长度信息，再利用模型的视角信息的长度信息得到具体的视角信息的长度，并解析具体的视角信息。假设解析得到的模型的视角信息的长度信息为xbits，那么具体的视角信息的长度为(x-8)bits。

若解析单元12解析出视角表示方式为欧拉角，则从具体的视角信息中获取欧拉角的量化信息，量化信息为以5度为单位的量化值。若解析单元12解析出视角表示方式为四元数，则从具体的视角信息中获取旋转轴信息和对应旋转角的量化信息，量化信息为以5度为单位的量化值。例如，每一个四元数可以采用12bits来表示，前4bits表示旋转轴信息，后8bits表示绕该旋转轴转动的量化角度，总共需要3字节表示两次旋转。

其中，解析单元12可以将解析出的模型信息作为NAL单元所在分片的全景视频转码所采用的模型信息；或者，解析单元12可以将解析出的模型信息作为NAL单元的后续NAL单元的全景视频转码所采用的模型信息。

重建单元13负责利用解析单元12解析得到的模型信息进行模型重建。

渲染单元14负责利用重建单元13重建的模型进行全景视频的渲染。

若全景视频的发送端是以SEI携带本NAL单元所在分片的全景视频转码所采用的模型信息，则解析单元12将解析出的模型信息作为本NAL单元所在分片的全景视频转码所采用的模型信息，重建单元13利用该模型信息进行模型重建，重建出来的模型由渲染单元14用于本NAL所在分片的全景视频的渲染。

若全景视频的发送端以SEI携带本NAL后续NAL单元的全景视频转码所采用的模型信息，则重建单元13利用解析出的模型信息进行模型重建后，渲染单元14将重建出来的模型用于本NAL单元后续NAL单元的全景视频的渲染，直至接收单元11接收到携带新的模型信息的SEI。

该装置可以是位于终端设备的应用，或者还可以为位于终端设备的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，本发明实施例对此不进行特别限定。

图10示例性地示出了根据各种实施例的示例设备1000。设备1000可包括一个或多个处理器1002，系统控制逻辑1001耦合于至少一个处理器1002，非易失性存储器(non-volatile memory，NMV)/存储器1004耦合于系统控制逻辑1001，网络接口1006耦合于系统控制逻辑1001。

处理器1002可包括一个或多个单核处理器或多核处理器。处理器1002可包括任何一般用途处理器或专用处理器(如图像处理器、应用处理器基带处理器等)的组合。

一个实施例中的系统控制逻辑1001，可包括任何适当的接口控制器，以提供到处理器1002中的至少一个的任何合适的接口，和/或提供到与系统控制逻辑1001通信的任何合适的设备或组件的任何合适的接口。

一个实施例中的系统控制逻辑1001，可包括一个或多个内存控制器，以提供到系统内存1003的接口。系统内存1003用来加载以及存储数据和/或指令。例如，对应设备1000，在一个实施例中，系统内存1003可包括任何合适的易失性存储器。

NVM/存储器1004可包括一个或多个有形的非暂时的计算机可读介质，用于存储数据和/或指令。例如，NVM/存储器1004可包括任何合适的非易失性存储装置，如一个或多个硬盘(hard disk device，HDD)，一个或多个光盘(compact disk，CD)，和/或一个或多个数字通用盘(digital versatile disk，DVD)。

NVM/存储器1004可包括存储资源，该存储资源物理上是该系统所安装的或者可以被访问的设备的一部分，但不一定是设备的一部分。例如，NVM/存储器1004可经由网络接口1006被网络访问。

系统内存1003以及NVM/存储器1004可分别包括临时的或持久的指令1010的副本。指令1010可包括当由处理器1002中的至少一个执行时导致设备1000实现图2描述的方法之一或组合的指令。各实施例中，指令1010或硬件、固件，和/或软件组件可另外地/可替换地被置于系统控制逻辑1001，网络接口1006和/或处理器1002。

网络接口1006可包括一个接收器来为设备1000提供无线接口来与一个或多个网络和/或任何合适的设备进行通信。网络接口1006可包括任何合适的硬件和/或固件。网络接口1006可包括多个天线来提供多输入多输出无线接口。在一个实施例中，网络接口1006可包括一个网络适配器、一个无线网络适配器、一个电话调制解调器，和/或无线调制解调器。

在一个实施例中，处理器1002中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑一起封装。在一个实施例中，处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑一起封装以形成系统级封装。在一个实施例中，处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑集成在相同的管芯上。在一个实施例中，处理器中的至少一个可以与用于系统控制逻辑的一个或多个控制器的逻辑集成在相同的管芯上以形成系统芯片。

设备1000可进一步包括输入/输出装置1005。输入/输出装置1005可包括用户接口旨在使用户与设备1000进行交互，可包括外围组件接口，其被设计为使得外围组件能够与系统交互，和/或，可包括传感器，旨在确定环境条件和/或有关设备1000的位置信息。

列举一个应用场景：

在VR直播或点播系统中，VR直播或点播服务器可以采用本发明实施例中提供的方式，将全景视频转码所采用的模型信息携带在NAL单元的SEI中，以传递给VR客户端。VR客户端接收到NAL单元后，通过解析SEI即可获知全景视频转码所采用的模型信息，从而能够正确地进行模型重建，并对VR直播或点播服务器发送的后续VCL的NAL单元进行视频渲染。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频的处理方法，其特征在于，该方法包括：

发送所述NAL单元。

2.根据权利要求1所述的方法，其特征在于，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

3.根据权利要求2所述的方法，其特征在于，所述模型信息还包括：是否包含视角信息的指示信息。

4.根据权利要求2所述的方法，其特征在于，所述模型的视角信息包括：

模型的视角在视角表中的索引信息。

5.根据权利要求2所述的方法，其特征在于，所述模型的视角信息包括：

6.根据权利要求5所述的方法，其特征在于，所述视角表示方式包括：

欧拉角、四元数或旋转矩阵。

7.根据权利要求6所述的方法，其特征在于，若采用欧拉角的视角表示方式，则对应的具体的视角信息包括：欧拉角的量化信息，所述量化信息为以5度为单位的量化值。

8.根据权利要求6所述的方法，其特征在于，若采用四元数的视角表示方式，则对应的具体的视角信息包括：旋转轴信息和对应旋转角的量化信息，所述量化信息为以5度为单位的量化值。

9.根据权利要求2所述的方法，其特征在于，所述模型信息用于指示本NAL单元所在分片的视频转码所采用的模型信息；或者，

10.一种视频的处理方法，其特征在于，该方法包括：

接收视频的网络抽象层NAL单元；

11.根据权利要求10所述的方法，其特征在于，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

12.根据权利要求11所述的方法，其特征在于，所述模型信息还包括：是否包含视角信息的指示信息；

13.根据权利要求11所述的方法，其特征在于，所述模型的视角信息包括：模型的视角在视角表中的索引信息；

14.根据权利要求11所述的方法，其特征在于，所述模型的视角信息包括：

15.根据权利要求14所述的方法，其特征在于，所述视角表示方式包括：

欧拉角、四元数或旋转矩阵。

16.根据权利要求15所述的方法，其特征在于，若解析出视角表示方式为欧拉角，则从所述具体的视角信息中获取欧拉角的量化信息，所述量化信息为以5度为单位的量化值。

17.根据权利要求15所述的方法，其特征在于，若解析出视角表示方式为四元数，则从所述具体的视角信息中获取旋转轴信息和对应旋转角的量化信息，所述量化信息为以5度为单位的量化值。

18.根据权利要求11所述的方法，其特征在于，该方法还包括：

19.根据权利要求10至18任一权项所述的方法，其特征在于，该方法包括：

利用解析得到的模型信息进行模型重建；

利用重建的模型进行视频的渲染。

20.一种视频的处理装置，设置于视频的发送端，其特征在于，该装置包括：

发送单元，用于发送所述NAL单元。

21.根据权利要求20所述的装置，其特征在于，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

22.根据权利要求21所述的装置，其特征在于，所述模型信息还包括：是否包含视角信息的指示信息。

23.根据权利要求21所述的装置，其特征在于，所述模型的视角信息包括：

模型的视角在视角表中的索引信息。

24.根据权利要求21所述的装置，其特征在于，所述模型的视角信息包括：

25.根据权利要求21所述的装置，其特征在于，所述模型信息用于指示本NAL单元所在分片的视频转码所采用的模型信息；或者，

26.一种视频的处理装置，该装置设置于视频的接收端，其特征在于，该装置包括：

接收单元，用于接收视频的网络抽象层NAL单元；

27.根据权利要求26所述的装置，其特征在于，所述模型信息包括：

模型类型信息；或者，

模型类型信息和模型的视角信息。

28.根据权利要求27所述的装置，其特征在于，所述模型信息还包括：是否包含视角信息的指示信息；

29.根据权利要求27所述的装置，其特征在于，所述模型的视角信息包括：模型的视角在视角表中的索引信息；

30.根据权利要求27所述的装置，其特征在于，所述模型的视角信息包括：

31.根据权利要求27所述的装置，其特征在于，所述解析单元将解析出的模型信息作为所述NAL单元所在分片的视频转码所采用的模型信息；或者，将解析出的模型信息作为所述NAL单元的后续NAL单元的视频转码所采用的模型信息。

32.根据权利要求26至31任一权项所述的装置，其特征在于，该装置还包括：

33.一种设备，包括

存储器，包括一个或者多个程序；

一个或者多个处理器，耦合到所述存储器，执行所述一个或者多个程序，以实现如权利要求1至9任一权项所述方法中执行的操作。

34.一种设备，包括

存储器，包括一个或者多个程序；

一个或者多个处理器，耦合到所述存储器，执行所述一个或者多个程序，以实现如权利要求10至18任一权项所述方法中执行的操作。

35.一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序在被一个或多个计算机执行时，使得所述一个或多个计算机执行如权利要求1至9任一权项所述方法中执行的操作。

36.一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序在被一个或多个计算机执行时，使得所述一个或多个计算机执行如权利要求10至18任一权项所述方法中执行的操作。