CN113766235A

CN113766235A - 一种全景视频传输方法及设备

Info

Publication number: CN113766235A
Application number: CN202111002607.XA
Authority: CN
Inventors: 刘金朋; 史东平; 任子健
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-07
Anticipated expiration: 2041-08-30
Also published as: CN113766235B

Abstract

本申请涉及全景视频技术领域，提供一种全景视频传输方法及设备，具体的，通过预设分块的数量开启相应数量的线程对全景视频帧进行分割，针对分割后的每个图像分块，定制了一个编码器，对该图像分块再次进行分割，对分割后的若干个分块切片同时进行编码，得到该图像分块的编码数据，调用相应的线程对该图像分块的编码数据进行封装，封装后发送给目标终端进行显示，通过为每个图像分块开启一个线程，可充分利用CPU多核处理能力，提高了图像分块的编码效率，由于图像分块的编码效率提高了，因此，减少了封装后数据的发送时延，提高了全景视频传输的实时性。

Description

一种全景视频传输方法及设备

技术领域

本申请涉及全景视频技术领域，尤其涉及一种全景视频传输方法及设备。

背景技术

全景视频是基于360度全景图像而发展的一种新型的多媒体形式，通过将一系列静态的全景图像连续播放而转化成动态的全景视频。全景视频一般由软件将全景摄像机采集的各个方位的视频图像拼合而成的，并使用专门的播放器进行播放，将平面视频投影为360度全景模式，呈现给观赏者水平方向360度、垂直方向180度的全包围空间视域。观赏者可以通过头部动作、眼球运动、遥控器控制等方式控制全景视频的播放，从而体会身临其境的感受。作为一种新型异构多媒体业务，全景视频业务流含有音频、视频、文本、交互、控制指令等多种数据类型，具有多样化的服务质量(Quality of Service，QoS)需求。

目前，全景视频大多采用全视角传输方案(也称为单流方案)。全视角传输方案是将360度的全景视频编码为单一码流发送给终端，终端对单一码流进行全解码得到全景视频，并播放给用户观看。然而，由于全视角传输方案是对整张全景视频帧进行编码的，编码效率较低，且编码后的数据量较大，对传输带宽需求较高，导致终端播放全景视频的缓冲时间较长，并且，对终端解码性能也有较高要求。因此，全视角传输方案只能满足低分辨率的全景视频传输和播放。

发明内容

本申请提供了一种全景视频传输方法及设备，用以提高全景视频的编码效率，进而提高全景视频传输的实时性。

第一方面，本申请实施例提供一种全景视频的传输方法，包括：

获取数据源，并确定所述数据源的类型；

若所述数据源的类型为全景视频，针对所述全景视频帧中的每个全景视频帧，按照预设的分块数量，启动相应数量的线程对所述全景视频帧进行分块，每个全景视频帧分为若干个图像分块；

针对各个图像分块中的每个图像分块，按预设的规则对所述图像分块进行划分，得到若干个分块切片，同时对所述若干个分块切片进行编码，得到所述图像分块的编码数据；

对各个图像分块的编码数据分别进行封装，将封装文件传输给目标终端。

第二方面，本申请实施例提供一种电子设备，包括至少一个外部通信接口、存储器、处理器：

所述外部通信接口与所述处理器通过总线连接，配置为收发数据；

所述存储器存储与所述处理器通过总线连接，存储有计算机程序指令；

所述处理器被配置为根据所述计算机程序指令执行以下操作：

获取数据源，并确定所述数据源的类型；

第三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行本申请实施例提供的全景视频传输方法。

本申请的上述实施例中，针对获取的全景视频中的每一全景视频帧，按照预设的分块数量，启动相应数量的线程，即每个图像分块分别对应一个线程，编码过程中，多线程并行进行分块，提高了分块效率；并将每个图像分块划分为若干个分块切片，对该图像分块包含的若干个分块切片进行并行编码，得到该图像分块的编码数据，通过对图像分块进一步划分，可以充分利用了中央处理器(Central Processing Unit，CPU)的多线程并行处理能力，提高了图像分块的编码效率；进一步地，对各个图像分块的编码数据分别进行封装，将封装文件传输给目标终端，由于图像分块的编码效率提高了，因此，减少了封装文件的发送时延，提高了全景视频传输的实时性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了本申请实施例提供的应用场景示意图；

图2中示例性示出了本申请实施例提供的全视角图像划分方式示意图；

图3a中示例性示出了本申请实施例提供的图像分块划分方式示意图；

图3b中示例性示出了本申请实施例提供的另一种图像分块划分方式示意图；

图4中示例性示出了本申请实施例提供的全景视频传输方法流程图；

图5示例性示出了本申请实施例提供的全景视频的编码示意图；

图6示例性示出了本申请实施例提供的服务器功能结构图；

图7示例性示出了本申请实施例提供的电子设备硬件结构图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

此外，术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语″模块″，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

全景视频相对于传统视频有着分辨率高、数据量大、码率高的特点，全景视频分辨率不断提高，逐渐由4K转向8K，甚至12K、16K，对传输网络带宽要求较高。

目前，全景视频传输主要面临以下挑战：

1)较高的网络带宽：对于2D全景视频，全视角图像的分辨率一般为8K，传输帧率为30FPS，单眼分辨率为1920x1920像素，在1度的视角内所能看到的像素数(Pixels PerDegree，PPD)为21，网络带宽需求约为100Mbps；对于体验较好的3D全景视频，全视角图像的分辨率一般为24K，传输帧率为120FPS，单眼分辨率为7680x7680像素，在1度的视角内所能看到的PPD为64，网络带宽需求约为5Gbps。

2)严格的传输时延：使用VR设备(例如VR眼镜，VR头戴式显示设备)等沉浸式终端观看全景视频时，针对头部转动的情况，视野延迟(MTP)不能超过20ms，否则会引发头部眩晕感。

由于全视角传输方案的编码效率较低，对网络带宽要求较高，传输时延较大，无法适用分辨率较高的全景视频的播放，FOV传输方案近些年来成为全景视频传输的研究方向。

FOV传输方案是基于用户视角进行有差别传输全景视频的方案，主要关注当前用户视角区域内画面的质量。FOV传输方案将高分辨率的全景视频帧在空间上进行图像分块，每个分块分辨率和覆盖空间范围也相同，再对各个图像分块进行多码率编码，每个图像分块的码率相同，生成若干视频流，然后视频流发送终端。终端将用户视角的可视区域显示为图像分块，将可视区域外显示为低分辨率的全视角图像。FOV传输方案将可视区域之外的部分显示为低分辨率的全视角图像，因此，在视角变化时，用户可能看到的是低清的全视角图像，引起视觉模糊，降低了用户体验。

为了减少视角变化引起的视觉模糊的现象，另一种FOV传输方案对全景视频帧进行了采样，生成若干个分辨率不同的全视角视频帧，然后将每一分辨率的全视角视频帧进行等分，再执行多码率编码生成若干视频流，并发送给终端。终端将用户视角的可视区域显示为高分辨率的图像分块，对于可视区域之外的部分，按照与当前视点距离的远近，传输不同分辨率的图像分块，距离越近，传输的图像分块的分辨率越高，从而保证视场角移动时，用户看到的是分辨率逐步过渡的全景图像，提升用户体验较好。但不同分辨率图像分块的码率不同，数据冗余度较高，且对传输网络的稳定性有较高的要求。

相对于全视角传输方案，FOV传输方案是将全视角视频帧划分为多个图像分块后编码的，编码效率有所提高，且图像分块的数据量小于完整的全景视频帧的数据量，对网络带宽的要求有所降低。图像分块的编码效率与分辨率成负相关，图像分块的分辨率越高，其编码效率较低。FOV传输方案为了保证视觉效果，需要保证各个图像分块的分辨率。

本申请实施在保证图像分块分辨率的情况下，提出了一种全景视频传输方法及设备，充分利用CPU的多核处理能力，为每个图像分块开启一个线程，对图像分块进一步地的划分，减小编码的粒度，对每个图像分块后的若干个分块切片并行编码，在保证图像分块高分辨率的情况下，提升全景视频的编码效率，进而提高了全景视频传输的实时性。

为详细描述本申请的实施例，下面对本申请的名词给出解释说明。

.MPD文件：是一个XML文档，描述了多媒体片段(本申请中为图像分块)的基本信息。MPEG-DASH协议中规定了″.MPD″文件的最外层是周期(Period)，每个Period代表某一个时间段，一条完整的DASH码流通常由多个媒体表示(Representation)组成，由一个或多个Period构成，每个Period内部包含一个或多个自适应集(Adaptation Set)，每个Adaptation Set包括一个或多个媒体内容组件及其不同码率等级的版本。实际上每一个Representation都对应着确定的码率、分辨率、帧率等信息，每个媒体内容组件会根据不同比特率、分辨率等特征编码成不同的媒体表示。每个Representation包括一个或多个媒体片段(Segment)，Segment是.MPD文件的基本单元，且都有自己唯一的统一资源定位符(Uniform Resource Locator，URL)地址。

下面结合附图详细描述本申请的实施例。

图1示例性示出了本申请实施例提供的应用场景示意图；如图1所示，服务器200响应于终端100发送的音视频播放请求，从资源库300中获取数据源，对数据源进行解码，确定数据源的类型，进而根据数据源的类型采用匹配的编码方式对数据源进行编码、封装，将封装后的数据通过蓝牙或WiFi等方式发送给终端100，终端100对接收的数据进行解码后，展示给观看用户。

上述终端100可以是VR头戴式显示设备、VR眼镜、智能手机、智能电视、笔记本电脑、台式机等具有全景视频播放功能的终端。

上述服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统(如可以但不局限于图1中示意出的服务器数量)，还可以是云服务技术中提供云服务、云计算、云存储、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能等基础服务的多个云服务器。

上述资源库300可以是MySQL数据库、Redis数据库、MongoBD数据库，用于存储音频、视频、文本、图片等多种数据类型的资源。

图2示例性示出了本申请实施例提供的全视角图像划分方式示意图；如图2所示，将一张分辨率为M*N(像素)的全视角图像，划分为128个图像分块，每个图像分块的空间范围相同、分辨率相同。

以图像分块为基础，对每个图像分块进一步的划分，参见图3a，将一个图像分块分为4个分块切片。

需要说明的是，图3a仅是一种示例，本申请实施例对分块切片的数量和划分方式不做限制性要求，例如，可以是2～6个，也可以是纵向划分，如图3b所示。

图4中示例性示出了本申请实施例提供的全景视频传输方法流程图；如图4所示，该流程由服务器执行，主要包括以下几步：

S401：获取数据源，并确定数据源的类型。

在S401中，服务器接收到目标终端发送的音视频播放请求，启动数据传输应用程序，从资源库中获取数据源，并对获取的数据源进行解码，确定数据源的类型。

S402：确定数据源是否为全景视频，若是，执行S403，若为音频，则执行S406。

在S402中，不同类型数据源的数据量有较大差距，通常的，对于同一播放时长的全景视频和音频来说，全景视频的数据量是音频数据量的倍数，因此，需要对全景视频和音频采用不同的编码方式。

S403：针对全景视频帧中的每个全景视频帧，按照预设的分块数量，启动相应数量的线程对全景视频帧进行分块，每个全景视频帧分为若干个图像分块。

在S403中，当数据源为全景视频时，按照预设的线程数量，同时对全景视频进行解码，得到YUV格式的各个全景视频帧，通过多线程并行解码，提高了全景视频的解码速度。

针对解码后的各个视频帧中的每个全景视频帧，按照预设的分块数量，启动相应数量的线程，使每个图像分块对应一个线程，利用CPU的多线程并行处理能力，多个线程同时对全景视频帧进行分块，将每个全景视频帧分为若干个图像分块。例如图2示出的，将全景视频帧分为16*8＝128个分块，则需要启动128个线程。

S404：针对各个图像分块中的每个图像分块，按预设的规则对图像分块进行划分，得到若干个分块切片，同时对若干个分块切片进行编码，得到图像分块的编码数据。

在S404中，针对划分后的每个图像分块，定制一个高效视频编码(HighEfficiency Video Coding，HEVC，即H.265)编码器，对YUV格式的图像分块进行编码。具体的，编码器按预设的规则将图像分块划分为若干个分块切片(例如2～6个)，同时对若干个分块切片同时进行编码，得到若干个分块切片的H.265编码数据，对若干个分块切片的H.265编码数据进行拼接，得到该图像分块的编码数据。

需要说明的是，本申请实施例对S404中的编码方式不做限制性要求，还可以包括H.264、H.263、H.261(H.265、H.264、H.263、H.261统称为H.26x标准)、MPEG(Moving PictureExperts Group的缩写)标准、信源编码(Audio Video coding Standard，AVS)标准。

S405：对各个图像分块的编码数据分别进行封装，将封装文件传输给目标终端。

由于每个图像分块开启了一个线程，因此，在S405中，多个线程同时对相应的图像分块的编码数据进行封装，得到登封文件。其中，封装文件包含编码后的媒体文件和.MPD文件，.MPD文件包含各个图像分块的URL。

在S405中，服务器采用超文本传输协议(Hyper Text Transfer Protocol，HTTP)将媒体文件和.MPD文件发送给目标终端，目标终端根据.MPD文件中各个图像分块的URL获取相应的图像分块，拼接后显示全景视频。

需要说明的是，本申请实施例对图像分块对应的编码器的编码标准不做限制性要求，包括但不限于DASH格式、MP4格式、HLS(HTTP Live Streaming)格式。

S406：直接对音频进行封装，封装后发送给目标终端。

在S406中，音频文件的数据量较小，服务器可直接对音频进行封装，然后发送给目标终端，目标终端对音频解析解码，解码后播放给用户。

图5示例性示出了本申请实施例提供的全景视频的编码示意图；如图5示出的，服务器获取数据源后进行解码，并确定数据源类型，若为全景视频，则将数据源放入全景视频缓冲区，然后按照预设数量的线程对全景视频帧进行分割，得到多个图像分块，将图像分块放入相应的分块缓冲区，每个图像分块对应的线程中定制了一个HEVC编码器，首先对相应的图像分块进行分割，对分割后的多个切片同时进行编码，多个分块切片编码后进行封装，得到相应的.MPD文件。

本申请上述实施例可适用于对全景视频播放时延要求较高的场景，例如直播场景。假设全景视频的分辨率为7680*3840(像素)，帧率为30fps，每个全景视频帧被划分为16*8个图像分块，每个图像分块划分为4个分块切片，该全景视频的编码效率是未进行分块切片的4倍。

本申请的上述实施例，按照图像分块的数量开启了相应数量的线程，每个线程为相应的图像分块定制了一个编码器，对图像分块进一步地的划分，减小了编码粒度，充分利用CPU的多核处理能力，在保证图像分块高分辨率的情况下，对每个图像分块后的若干个分块切片并行编码，提升全景视频的编码效率，进而提高了全景视频传输的实时性。

基于相同的技术构思，本申请实施例提供了一种服务器，该服务器可执行本申请实施例提供的全景视频的传输方法，且能达到同样的技术效果。

参见图6，该服务器包括数据获取模块601、分块模块602、编码模块603、封装模块604；

数据获取模块601，用于获取数据源，并确定所述数据源的类型；

分块模块602，用于若所述数据源的类型为全景视频，针对所述全景视频帧中的每个全景视频帧，按照预设的分块数量，启动相应数量的线程对所述全景视频帧进行分块，每个全景视频帧分为若干个图像分块；

编码模块603，用于针对各个图像分块中的每个图像分块，按预设的规则对所述图像分块进行划分，得到若干个分块切片，同时对所述若干个分块切片进行编码，得到所述图像分块的编码数据；

封装模块604，用于对各个图像分块的编码数据分别进行封装，将封装文件传输给目标终端。

可选的，所述封装模块604还用于：

若所述数据源的类型为音频，则直接对所述音频进行封装，封装后发送给所述目标终端。

可选的，所述服务器还包括解码模块605，用于：

按照预设的线程数量，同时对所述全景视频进行解码，得到各个全景视频帧，所述全景视频帧为YUV格式。

可选的，所述封装文件包含所述各个图像分块的URL，以使所述目标客户端根据所述URL获取相应的图像分块。

可选的，采用的编码标准包括H.26x标准、MPEG标准、AVS标准中的任意一个。

基于想图那个的技术构思，本申请实施例提供了一种电子设备，参见图7，该电子设备包括处理器701、存储器702以及至少一个外部通信接口703；上述处理器701、存储器702以及外部通信接口703均通过总线704连接。

存储器702中存储有计算机程序指令，外部通信接口703用于收发数据；

处理器701执行存储器702中的计算机程序指令以实现前文论述的全景视频的传输方法。

图7中是以一个处理器701为例，但是实际上不限制处理器701的数量。

基于同一技术构思，本申请实施例还一种计算机存储介质，该计算机存储介质存储有计算机指令，当上述计算机指令在计算机上运行时，使得计算机执行如前文论述的全景视频的传输方法。

其中，存储介质可以是易失性存储介质(volatile memory)，例如随机存取存储介质(random-access memory，RAM)；存储介质也可以是非易失性存储介质(non-volatilememory)，例如只读存储介质，快闪存储介质(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储介质是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储介质可以是上述存储介质的组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种全景视频传输方法，其特征在于，包括：

获取数据源，并确定所述数据源的类型；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，通过以下方式获得所述全景视频中的各个全景视频帧：

4.如权利要求1所述的方法，其特征在于，所述封装文件包含所述各个图像分块的统一资源定位符URL，以使所述目标客户端根据所述URL获取相应的图像分块。

5.如权利要求1-4中任一项所述的方法，其特征在于，采用的编码标准包括H.26x标准、MPEG标准、信源编码AVS标准中的任意一个。

6.一种电子设备，包括至少一个外部通信接口、存储器、处理器，其特征在于：

获取数据源，并确定所述数据源的类型；

7.如权利要求6所述的电子设备，其特征在于，所述处理器还被配置为：

8.如权利要求6所述的电子设备，其特征在于，所述处理器通过以下方式获得所述全景视频中的各个全景视频帧：

9.如权利要求6所述的电子设备，其特征在于，所述封装文件包含所述各个图像分块的统一资源定位符URL，以使所述目标客户端根据所述URL获取相应的图像分块。

10.如权利要求6-9中任一项所述的电子设备，其特征在于，采用的编码标准包括H.26x标准、MPEG标准、信源编码AVS标准中的任意一个。