CN115022546B

CN115022546B - 全景视频传输方法、装置、终端设备以及存储介质

Info

Publication number: CN115022546B
Application number: CN202210639380.8A
Authority: CN
Inventors: 李康敬; 王�琦; 赵腾飞; 谢于贵; 张志浩; 张源鸿; 张未展
Original assignee: China Mobile Communications Group Co Ltd; Xian Jiaotong University; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Xian Jiaotong University; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-11-14
Anticipated expiration: 2042-05-31
Also published as: CN115022546A

Abstract

本发明公开了一种全景视频传输方法、装置、终端设备以及存储介质，属于视频传输领域。所述全景视频传输方法包括：获取用户视角信息；根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。本发明通过使用多路复用优先级调度策略配合全景视频的视角预测，使得高传输优先级的数据以更高的码率传输，改善了全景视频的传输效果。

Description

全景视频传输方法、装置、终端设备以及存储介质

技术领域

本发明涉及视频传输领域，尤其涉及一种全景视频传输方法、装置、终端设备以及存储介质。

背景技术

随着社会的不断发展，人们对于生活质量的要求越来越高，这也产生了更加复杂的视频体验需求。全景视频是一种用3D摄像机进行全方位360度进行拍摄的视频，用户在观看全景视频时，可以随意调控视角，带来了更加逼真的观看体验。现已成为未来视频服务的新型载体，被广泛应用于医疗、旅游以及娱乐宣传等行业。因此，研究全景视频的传输技术是十分有价值的。

但是，由于全景视频高分辨率、高码率的特性，其在传输时需要使用大量的带宽，但受现实网络条件的制约，常常无法满足视频传输的网络需求，极大地影响了全景视频的传输效果。目前，相关技术在改善全景视频的传输效果时，效果都不理想，不能真正实现全景视频的高效传输，从而影响了全景视频的播放质量。

因此，有必要提出一种效果更好的全景视频传输方法。

发明内容

本申请的主要目的在于提供一种全景视频传输方法、装置、终端设备以及存储介质，旨在改善全景视频的传输效果。

为实现上述目的，本申请提供了一种全景视频传输方法，所述全景视频传输方法包括：

获取用户视角信息；

根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；

基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；

通过多路复用优先级调度，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

可选地，所述用户视角信息包括：用户头部运动轨迹、用户当前观看视频内容，所述用户视角预测模型包括：编码器、解码器，所述根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果的步骤包括：

通过所述编码器，对所述用户头部运动轨迹进行编码，得到所述用户头部运动轨迹的时序特征；

对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征；

基于所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果。

可选地，所述对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征的步骤包括：

对所述用户当前观看视频内容进行反投影，得到所述用户当前观看视频内容的三维视频图像；

提取所述三维视频图像的显著性特征；

将提取了显著性特征的所述三维视频图像进行重投影，得到二维的显著性图；

对所述显著性图进行降采样，得到所述用户偏好特征。

可选地，所述通过所述编码器，对所述用户头部运动轨迹进行编码，得到所述用户头部运动轨迹的时序特征的步骤包括：

将第一LSTM模型作为所述编码器，按照时间维度，将所述用户头部运动轨迹输入至所述编码器；

通过所述编码器，将所述用户头部运动轨迹编码为统一的语义向量，得到所述用户头部运动轨迹的时序特征；

所述用户视角预测模型还包括：全连接神经网络，所述根据所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果的步骤包括：

通过所述全连接神经网络，将所述时序特征和用户偏好特征进行整合，得到整合结果；

将第二LSTM模型作为所述解码器，将所述整合结果输入到所述解码器中，通过所述解码器输出所述预测结果。

可选地，所述基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率的步骤包括：

基于所述预测结果，为所述待传输的全景视频的切片数据分配所述传输优先级；

根据所述传输优先级，按照从大到小的顺序为所述全景视频的切片数据分配所述传输码率，其中，所述传输优先级越高的全景视频的切片数据的传输码率越高。

可选地，所述基于所述预测结果，为所述待传输的全景视频的切片数据分配所述传输优先级的步骤包括：

基于所述预测结果，将所述全景视频的切片数据划分为视角内区域数据、视角边缘区域数据、视角远侧区域数据；

为所述视角内区域数据赋予高传输优先级，为所述视角边缘区域数据赋予次高传输优先级，为所述视角远侧数据赋予低传输优先级，其中，对于传输优先级相同的数据，重传数据的传输优先级更高。

可选地，所述通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端的步骤之后还包括：

获取所述客户端的实时观看数据；

根据所述客户端的实时观看数据，判断用户视角是否发生变化；

若用户视角未发生变化，则通过流量控制，减少视角远侧视频数据流的流量发送，增加网络带宽对于高价值数据的传输率；

若用户视角发生变化，则通过缓冲机制，继续发送缓冲区的全景视频，重新计算用户视角，以进行下一次的全景视频传输。

此外，本申请还提出一种全景视频传输装置，所述全景视频传输装置包括：

数据获取模块，用于获取用户视角信息；

视角预测模块，用于根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；

码率分配模块，用于基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；

视频传输模块，用于通过多路复用传输优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

此外，本申请还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全景视频传输程序，所述全景视频传输程序被所述处理器执行时实现如上所述的全景视频传输方法的步骤。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有全景视频传输程序，所述全景视频传输程序被处理器执行时实现如上所述的全景视频传输方法的步骤。

本申请实施例提出的一种全景视频传输方法、装置、终端设备以及存储介质，通过获取用户视角信息；根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；通过多路复用传输优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。基于本申请方案，将全景视频视角预测与多路复用传输优先级调度策略结合在一起，以更高码率来传输预测的用户视角内数据，在适应宽带资源的同时提高了视频的传输质量，从而解决了现有技术在进行全景视频传输时效果差的问题。

附图说明

图1为本申请全景视频传输装置所属终端设备的功能模块示意图；

图2为本申请全景视频传输方法第一实施例的流程示意图；

图3为本申请全景视频传输方法涉及的系统交互框架示意图；

图4为本申请全景视频传输方法第二实施例的流程示意图；

图5为本申请全景视频传输方法第二实施例的细化流程示意图；

图6为本申请全景视频传输方法关于三维球面坐标的示意图；

图7为本申请全景视频传输方法关于采样点的示意图；

图8为本申请全景视频传输方法第二实施例的又一细化流程示意图；

图9为本申请全景视频传输方法第三实施例的流程示意图；

图10为本申请全景视频传输方法第三实施例的细化流程示意图；

图11为本申请全景视频传输方法关于传输优先级划分的示意图；

图12为本申请全景视频传输方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例的主要解决方案是：通过获取用户视角信息；根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；通过多路复用传输优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

本申请实施例涉及的技术术语：

QUIC，Quick UDP Internet Connection，快速UDP互联网连接协议：是谷歌制定的一种基于UDP的低时延的互联网传输层协议。与TCP协议相比，UDP更为轻量，但是错误校验也要少得多。这意味着UDP往往效率更高(不经常跟服务器端通信查看数据包是否送达或者按序)，但是可靠性比不上TCP。通常游戏、流媒体等应用均采用UDP，而网页、邮件、远程登录等大部分的应用均采用TCP。QUIC很好地解决了当今传输层和应用层面临的各种需求，包括处理更多的连接，安全性，和低延迟。QUIC融合了包括TCP，TLS，HTTP/2等协议的特性，但其内核是基于UDP的传输。QUIC的一个主要目标就是减少连接延迟，当客户端第一次连接服务器时，QUIC只需要1RTT(Round-Trip Time)的延迟就可以建立可靠安全的连接,相对于TCP+TLS的1-3次RTT要更加快捷，之后客户端可以在本地缓存加密的认证信息，再次与服务器建立连接时可以实现0-RTT的连接建立延迟。QUIC同时复用了HTTP/2协议的多路复用功能(Multiplexing)，但由于QUIC基于UDP所以避免了HTTP/2的队头阻塞(Head-of-LineBlocking)问题。因为QUIC基于UDP，运行在用户域而不是系统内核，使得QUIC协议可以快速的更新和部署，从而很好地解决了TCP协议部署及更新的困难。

LSTM，Long Short-Term Memory，长短期记忆网络：是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计的。LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别，2013年运用TIMIT自然演讲数据库达成17.7％错误率的纪录。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

序列转换模型(Sequence to Sequence，Seq2Seq)：是指采用了Encoder(编码器)–Decoder(解码器)结构的网络，它的输入是一个序列，输出也是一个序列，Encoder中将一个可变长度的信号序列变为固定长度的向量表达，Decoder将这个固定长度的向量变成可变长度的目标的信号序列。这个结构最重要的地方在于输入序列和输出序列的长度是可变的，可以用于翻译，聊天机器人，句法分析，文本摘要等。Seq2Seq并不指代某种固定、具体的模型，而是对具有编码器-解码器模型的一类模型的统称，其最大的特点在于能够被应用在输出序列的长度不确定的场景之中。

具体地，参照图1，图1为本申请全景视频传输装置所属终端设备的功能模块示意图。该全景视频传输装置可以为独立于终端设备的、能够进行全景视频传输的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。

在本实施例中，该全景视频传输装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及全景视频传输程序，全景视频传输装置可以将获取的用户视角信息，以及通过预先创建的用户视角预测模型得到的预测结果等存储于该存储器130中；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的全景视频传输程序被处理器执行时实现以下步骤：

获取用户视角信息；

通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

进一步地，存储器130中的全景视频传输程序被处理器执行时还实现以下步骤：

提取所述三维视频图像的显著性特征；

对所述显著性图进行降采样，得到所述用户偏好特征。

根据所述传输优先级，按照从大到小的顺序为所述待传输的全景视频的切片数据分配所述传输码率，其中，所述传输优先级越高的全景视频的切片数据的传输码率越高。

基于所述预测结果，将所述待传输的全景视频的切片数据划分为视角内区域数据、视角边缘区域数据、视角远侧区域数据；

获取所述客户端的实时观看数据；

本实施例通过上述方案，具体通过获取用户视角信息；根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；通过快速UDP互联网连接协议QUIC的多路复用传输优先级调度，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。基于本申请方案，将全景视频视角预测与多路复用优先级调度策略结合在一起，以更高码率来传输预测的用户视角内数据，在适应宽带资源的同时提高了视频的传输质量，从而解决了现有技术在进行全景视频传输时效果差的问题。

基于上述终端设备架构但不限于上述架构，提出本申请方法实施例。

本申请方法实施例的执行主体可以为一种全景视频传输装置或终端设备等，本实施例以全景视频传输装置进行举例。

参照图2，图2为本申请全景视频传输方法第一实施例的流程示意图。所述全景视频传输方法包括：

步骤S10，获取用户视角信息；

具体地，上述用户视角信息可以包括：用户头部运动轨迹、用户当前观看的全景视频内容。

其中：全景视频又称360度视频，是一种球面视频，全景视频覆盖水平360度、垂直180度的画面内容，用户佩戴头戴式显示器后可以通过转动头部来观看不同区域的画面内容，人眼观看的用户视角约为110度，用户视角区域仅占全景视频中的一部分，因此全景传输会浪费大量的带宽资源，容易带来视频播放卡顿和较高的延时，影响传输效果，无法保证用户的视频观看体验，因此，有必要采集用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，并根据此预测结果来进行传输优先级和传输码率的分配，从而实现对预测结果内的用户视角区域内的数据以更高码率来发送。

在本步骤中，获取用户视角信息的方式可以是通过网关设备从视频服务器接收视频数据，进而在后续步骤中对用户视角信息进行处理。

步骤S20，根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；

具体地，本实施例通过预先创建的FOV(Field Of View，用户视角)预测模型，提取用户头部运动轨迹时序特征，并结合用户观看的当前帧图像的显著性特征，进行FOV的预测，本实施例所采用的FoV预测模型是基于两段LSTM的编码器-解码器模型，采用了seq2seq模型框架，通过编码器对用户头部运动轨迹进行编码，然后再由解码器解码，该解码器输出下一时刻用户视角的预测结果，在解码器解码的过程中，不断地将前一个时刻的输出作为后一个时刻的输入，循环解码，直到输出完成为止。

步骤S30，基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；

具体地，所述待传输的全景视频的切片数据为在即将通过服务器传输给客户端的全景视频的切片数据，本步骤为所述全景视频的切片数据分配传输优先级和传输码率，并在后续步骤中使用QUIC(quick UDP Internet connection，快速UDP互联网连接协议)的多路复用优先级调度策略进行数据的传输。其中，传输码率和传输优先级是紧密关联的，高的码率对应高的传输优先级，上述步骤中所得到FoV预测结果为一个FoV区域，表示用户在下一时刻视角的最大概率位置，因此，为FoV预测区域内的数据分配更高的传输优先级和传输码率进行传输，为FoV远侧的数据分配较低的传输优先级和码率，从而从传输层节省了传输全景视频所需要的带宽，能够在保证QoE(Quality of Experience，用户体验质量)的同时，改善全景视频的传输效果。

步骤S40，通过快速UDP互联网连接协议QUIC的多路复用优先级调度，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

具体地，参照图3，图3为本申请全景视频传输方法的系统交互框架示意图，如图3所示，服务器(server)与所述客户端(client)之间采用QUIC协议进行连接，通过收集客户端的用户视角信息对FoV进行预测，基于FoV预测结果执行传输优先级和传输码率分配策略，并根据QUIC的流量控制完成全景视频的传输。

其中，QUIC协议具有多路复用优先级的特性，能解决传统连接中由于队头阻塞导致全景视频性能下降的问题。根据上述步骤中得到的传输优先级和传输码率，将用户关心的数据优先发送给用户，保证高传输优先级的数据最快到达，实现了基于用户兴趣的高效视频传输，最大程度改善了传输效果，并且能提高用户的QoE。

本实施例通过上述方案，具体通过获取用户视角信息；根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。基于本申请方案，将全景视频视角预测与QUIC的多路复用传输优先级调度结合在一起，以更高码率来传输预测的用户视角内数据，在适应宽带资源的同时提高了视频的传输质量，从而解决了现有技术在进行全景视频传输时效果差的问题。

参照图4，图4为本申请全景视频传输方法第二实施例的流程示意图。基于上述图2所示实施例，上述步骤S20，所述用户视角信息包括：用户头部运动轨迹、用户当前观看视频内容，所述用户视角预测模型包括：编码器、解码器，所述根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果可以包括：

步骤S201，通过所述编码器，对所述用户头部运动轨迹进行编码，得到所述用户头部运动轨迹的时序特征；

具体地，本实施例通过采用seq2seq模型框架来进行用户视角的预测，本实施例采用的seq2seq模型中包含了一个编码器(Encoder)和一个解码器(Decoder)，其中，编码器把所有的输入序列都编码成一个统一的语义向量，然后再由解码器解码。

更为具体地，步骤S201包括：将第一LSTM模型作为所述编码器，按照时间维度，将所述用户头部运动轨迹输入至所述编码器；通过所述编码器，将所述用户头部运动轨迹编码为统一的语义向量，得到所述用户头部运动轨迹的时序特征。

本发明实施例中利用第一LSTM模型在时间t＝{1,2,···,T}中对历史轨迹xt进行编码，使用第二LSTM模型作为解码器，预测未来的用户视角运动轨迹。第一LSTM的输入序列为时间t＝{1,2,···,T}的用户头部运动轨迹，对这个输入序列进行编码最终可以得到一个统一的语义向量，该语义向量即包括了用户头部运动轨迹的时序特征，再使用第二LSTM网络作为解码器，将统一的语义向量作为输入，将编码器与解码器同时进行训练后，基于此编码器-解码器模型就可以处理用户视角运动轨迹时间序列预测前后概率分布不一致的问题。通过公开数据集进行验证并与当下最新方法进行比较，证明了本模型可以有效改善Fov预测效果，提升预测精度。

步骤S202，对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征；

具体地，参照图5，图5为本实施例步骤S202的细化流程示意图，所述步骤S202，对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征包括：

步骤S2021，对所述用户当前观看视频内容进行反投影，得到所述用户当前观看视频内容的三维视频图像；

在实际的全景视频的播放中，用户所观看的全景视频图像是一帧经过3D到2D的重投影的图像，也就是说，用户所观看的全景视频实质上仍然是2D平面的，通过客户端设备改变视角(如转动手机变换视角等)，实现画面的畸变，从而给用户以沉浸式的体验，因此，在对当前视频内容进行显著性特征提取时，首先需要将二维图像转换为三维球面坐标，然后在三维图像上实现对显著性特征的提取，具体地，参照图6，图6为本实施例关于三维球面坐标的示意图，本实施例中给出了一种将二维平面坐标转换为三维球面坐标的方法，根据用户当前观看视频内容提取出当前用户视角的中心坐标然后依据以下公式进行反投影：

Y＝sinθ (2)

其中，X、Y、Z代表三维球面坐标，φ代表经度，θ代表纬度，φ的范围是[-180°，180°]，而θ的范围是[-90°，90°]。

步骤S2022，提取所述三维视频图像的显著性特征；

其中，图像显著性特征是指图像中比较重要的视觉特征，体现了人眼对于图像的某些区域的重视程度。对于一幅图像来说，用户只对图像中的部分区域感兴趣，这部分感兴趣的区域代表了用户的查询意图，而多数剩余的不感兴趣区域则与用户查询意图无关。显著区域是图像中最能引起用户兴趣、最能表现图像内容的区域。事实上，显著区域的选择是非常主观的，由于用户任务和知识背景的不同，对于同一幅图像，不同的用户可能会选择不同的区域作为显著区域。因此，对于不同的图像来说，提取显著性特征的方法也不尽相同，在实际的应用中，可以根据视频的内容性质来具体确定提取显著性特征的方法。

步骤S2023，将提取了显著性特征的所述三维视频图像进行重投影，得到二维的显著性图；

在上述步骤中，通过对二维图像进行反投影得到三维图像，并对三维图像进行了显著性特征提取，在提取完成后，此时的三维图像无法直接在客户端进行播放，因此，本步骤还需要将所述三维图像转回二维平面图像，并将用户视角区域外的图像显著性全部置位0。本实施例给出了一种将坐标位置转换为二维坐标的方法，参照如下公式：

θ＝(0.5-v)*π (7)

其中，X、Y、Z代表三维球面坐标，φ代表经度，θ代表纬度，φ的范围是[-180°，180°]，而θ的范围是[-90°，90°]，为了准确描述投影面上的像素点，为二维平面定义了一个面索引，并在uv平面中定义采样网络，采样点位置记为(m,n)，其中m和n分别表示采样点的列坐标和行坐标，更为具体地，参照图7，图5为平面采样坐标示意图，圆圈代表采样点，其中，(u,v)坐标的远点与(m,n)坐标的原点之间存在0.5个单位的偏移量。

步骤S2024，对所述显著性图进行降采样，得到所述用户偏好特征。

降采样是指降低特定信号的采样率的过程，通常用于降低数据传输速率或者数据大小。降采样因子(常用表示符号为M)一般是大于1的整数或有理数。这个因子表达了采样周期变成原来的几倍大，或者等价地表示采样率变成原来的几分之一。由于降采样降低了采样率，因此需要保证在新的较低的采样率下奈奎斯特采样定理仍然成立。在完成了降采样之后，图像中的每一个像素点都代表了图像一个小区域内的显著性特征。

步骤S203，基于所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果。

具体地，参照图8，图8为本实施例步骤S203的一细化流程示意图，所述步骤S203，基于所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果包括：

步骤S2031，通过所述全连接神经网络，将所述时序特征和用户偏好特征进行整合，得到整合结果；

具体地，在上述步骤中，通过对用户观看的全景视频图像进行显著性特征提取得到用户偏好特征，由于用户偏好特征也可以看作是一个时间序列，因此可以将每一个时刻的用户偏好特征与用户头部运动轨迹的时序特征通过全连接神经网络进行整合，之后将整合结果作为解码器LSTM网络的输入，这个全连接神经网络整合的结果实际上就是输出的用户视角预测结果，由于整个解码器结构处理的输入是一个在时间上连续的序列，因此预测的结果能够反映真实的用户视角轨迹。

步骤S2032，将第二LSTM模型作为所述解码器，将所述整合结果输入到所述解码器中，通过所述解码器输出所述预测结果。

具体地，为了解决历史数据和未来预测值之间分布不一致的问题，本发明实施例中采用seq2seq模型，而不是单个LSTM模型，在seq2seq模型中实际上包含了一个编码器(Encoder)和一个解码器(Decoder)，编码器把所有的输入序列都编码成一个统一的语义向量，然后再由解码器解码。，该解码器使用编码器最新的隐藏状态ht和内存状态ct来初始化，并使用用户观看轨迹的最新历史数据作为解码器的输入初始值。LSTM解码器使用t’-1时刻预测结果yt’-1作为输入来循环的预测t’的视角，可根据预测步长的需求调整解码器循环输出的长度。基于编码器-解码器模型就可以处理用户视角运动轨迹时间序列预测前后概率分布不一致的问题。作为其中一种实施方式，LSTM的隐含层为2，每层的神经元个数为128。

本实施例通过上述方案，具体通过所述编码器，对所述用户头部运动轨迹进行编码，得到所述用户头部运动轨迹的时序特征；对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征；基于所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果。其中，通过全连接神经网络对时序特征和用户偏好特征进行整合，并将整合结果作为解码器LSTM网络的输入，最终输出用户视角的预测结果，能够反映真实的用户视角轨迹，使预测结果更加准确，从而使得基于此预测结果的传输优先级和传输码率更加合理，改善全景视频的传输效果。

参照图9，图9为本申请全景视频传输方法第三实施例的流程示意图。基于上述图2所示实施例，步骤S30，基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率包括：

步骤S301，基于所述预测结果，为所述待传输的全景视频的切片数据分配传输优先级；

具体地，参照图10，图10为本实施例步骤S301的细化流程示意图，所述步骤S301，基于所述预测结果，为所述全景视频的数据分配传输优先级包括：

步骤S3011，基于所述预测结果，将所述待传输的全景视频的切片数据划分为视角内区域数据、视角边缘区域数据、视角远侧区域数据；

具体地，用户视角预测结果是一个区域，由于一个QUIC连接可以有多个流并发传输，因此，根据此区域的范围，服务器的流传输优先级管理器将待传输的全景视频的切片数据中的下一画面划分为FoV内侧、FoV边缘侧、FoV远侧三部分，其中，FoV内侧的画面成为用户视角区域的概率最高，FoV边缘次之，FoV远侧的画面成为用户视角区域的概率最低，根据这种理论，就可以在后续步骤中为每个区域内的视频数据划分传输优先级，并根据此传输优先级来执行码率的分配决策。

步骤S3012，为所述视角内区域数据赋予高传输优先级，为所述视角边缘区域数据赋予次高传输优先级，为所述视角远侧数据赋予低传输优先级，其中，对于传输优先级相同的数据，重传数据的传输优先级更高。

具体地，参照图11，图11为本实施例关于传输优先级分配的示意图，如图11所示，可以为所述视角内区域数据赋予高传输优先级，为所述视角边缘区域数据赋予次高传输优先级，为所述视角远侧数据赋予低传输优先级。

约定的QUIC传输优先级分为Level(等级)和Incremental(增长)两个标签，Level分为3级：FoV内：传输优先级1；FoV边缘侧：传输优先级2；FoV远侧：传输优先级3；每一级由Incremental来标识同一传输优先级中的重要程度。服务器对结果进行相应的处理，之后进行流调度发送。Incremental标签用于重传数据，因为重传数据偏移基本都在当前发送数据之前，一般来说用户对于重传数据的需求会更高，因此需要会为重传数据附上更高级别的传输优先级。重传数据中原本FoV预测表示重要的数据会将incremental标签标为True以标识在所有数据中。

步骤S302，根据所述传输优先级，按照从大到小的顺序为所述全景视频的数据分配所述传输码率，其中，所述传输优先级越高的全景视频的切片数据的传输码率越高。

其中，视频的传输码率是指视频或者音频单位时间内传递的数据量，一般用Kbps，Mbps表示，视频码率越大，说明单位时间内取样率越大，数据流精度就越高，这样表现出来的效果就是，视频画面更清晰画质更高。

具体地，在本实施例中，传输码率和传输优先级是紧密关联的，高的码率对应高的传输优先级，码率分为1080P、720p、360p，分别对应于三种传输优先级的数据，传输优先级最高的数据传输码率最高，传输优先级低的数据传输码率也低，因此能够充分利用网络带宽，从而将用户最关心的数据优先发送给用户，提高全景视频的传输效果。

本实施例通过上述方案，基于所述预测结果，为所述待传输的全景视频的切片数据分配传输优先级；根据所述传输优先级，按照从大到小的顺序为所述待传输的全景视频的切片数据分配所述传输码率，其中，所述传输优先级越高的全景视频的切片数据的传输码率越高。通过FoV的预测结果来进行传输优先级和传输码率的分配，可以最大化地利用网络带宽，将用户关心的数据优先发送给用户，所设定的传输优先级和传输码率分配策略与QUIC的多路复用传输优先级调度十分契合，能够简单地将传输优先级和传输码率分配策略应用于传输之中，从而解决了现有全景视频传输技术效果差的问题。

参照图12，图12为本申请全景视频传输方法第四实施例的流程示意图。基于上述图2所示的实施例，所述步骤S40，通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端之后还包括：

步骤S401，获取所述客户端的实时观看数据；

具体地，上述实施例实现了从服务器高效传输全景视频的过程，本实施例是根据客户端的实时观看数据，对下一时刻的传输所进行的进一步优化。在本步骤中，假设客户端和服务器之间已经进行了QUIC连接，所以服务器可以实时从网关中获取到客户端的实时观看数据，并判断是否需要更换流量策略。

步骤S402，根据所述客户端的实时观看数据，判断用户视角是否发生变化；

具体地，根据判断结果执行如下步骤：

步骤S4021，若用户视角未发生变化，则通过所述流量控制，减少视角远侧视频数据流的流量发送，增加网络带宽对于高价值数据的传输率；

若用户视角未发生大幅度变化，说明用户的偏好特征稳定，因此，可以进一步增加用户视角区域内的流量传输，使得用户视角区域内的图像质量更高，从而在原有基础上，提高了用户的体验质量。

步骤S4022，若用户视角发生变化，则通过缓冲机制，继续发送缓冲区的全景视频，重新计算用户视角，以进行下一次的全景视频传输。

本实施例所使用的QUIC具有缓冲机制，在建立QUIC连接的服务器上具有一个缓冲区，当前传输的数据与所述缓冲区之间存在有一定的延迟，因此，在检测到用户视角发生了大幅度的变化之后，可以先继续发送缓冲区内的视频数据，同时，采集用户视角信息，重新计算下一时刻的用户视角，为下一阶段的全景视频传输做准备。

本实施例通过上述步骤，具体通过获取所述客户端的实时观看数据；根据所述客户端的实时观看数据，判断用户视角是否发生变化；若用户视角未发生变化，则通过流量控制，减少视角远侧视频数据流的流量发送，增加网络带宽对于高价值数据的传输率；若用户视角发生变化，则通过缓冲机制，继续发送缓冲区的全景视频，重新计算用户视角，以进行下一次的全景视频传输。本实施例在实现上述实施例有益效果的基础上，对全景视频的传输过程进行进一步的优化，根据用户实时观看数据对流量进行控制，能够进一步提高传输效果，提高用户体验质量。

此外，本申请实施例提出一种全景视频传输装置，所述全景视频传输装置包括：

数据获取模块，用于获取用户视角信息；

用户视角预测模块，用于根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果；

传输控制模块，用于基于所述预测结果，为所述待传输的全景视频的切片数据分配传输优先级和传输码率；

传输模块，用于通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频传输到客户端。

本实施例实现全景视频传输的原理及实施过程，请参照上述各实施例，在此不再赘述。

此外，本申请实施例还提出一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全景视频传输程序，所述全景视频传输程序被所述处理器执行时实现如上所述全景视频传输方法的步骤。

由于本全景视频传输程序被处理器执行时，采用了前述所有实施例的全部技术方案，因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有全景视频传输程序，所述全景视频传输程序被处理器执行时实现如上所述的全景视频传输方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种全景视频传输方法，其特征在于，所述方法应用于服务器，所述全景视频传输方法的步骤包括：

获取用户视角信息；

通过多路复用调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端；

所述用户视角信息包括：用户头部运动轨迹、用户当前观看视频内容，所述用户视角预测模型包括：编码器、解码器，所述根据所述用户视角信息，通过预先创建的用户视角预测模型对用户视角进行预测，得到预测结果的步骤包括：

将第二LSTM模型作为所述解码器，将所述整合结果输入到所述解码器中，通过所述解码器输出所述预测结果；

2.根据权利要求1所述的全景视频传输方法，其特征在于，所述对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征的步骤包括：

提取所述三维视频图像的显著性特征；

对所述显著性图进行降采样，得到所述用户偏好特征。

3.根据权利要求1所述的全景视频传输方法，其特征在于，所述基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率的步骤包括：

4.根据权利要求3所述的全景视频传输方法，其特征在于，所述基于所述预测结果，为所述待传输的全景视频的切片数据分配所述传输优先级的步骤包括：

5.根据权利要求1所述的全景视频传输方法，其特征在于，所述通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端的步骤之后还包括：

获取所述客户端的实时观看数据；

6.一种全景视频传输装置，其特征在于，所述全景视频传输装置包括：

数据获取模块，用于获取用户视角信息；

用户视角预测模块，用于将第一LSTM模型作为编码器，按照时间维度，将用户头部运动轨迹输入至所述编码器；通过所述编码器，将所述用户头部运动轨迹编码为统一的语义向量，得到所述用户头部运动轨迹的时序特征；所述用户视角预测模型还包括：全连接神经网络，通过所述全连接神经网络，将所述时序特征和用户偏好特征进行整合，得到整合结果；将第二LSTM模型作为解码器，将所述整合结果输入到所述解码器中，通过所述解码器输出预测结果；对所述用户当前观看视频内容进行显著性特征提取，得到用户偏好特征；基于所述时序特征和用户偏好特征，通过所述解码器输出所述预测结果；

传输控制模块，用于基于所述预测结果，为待传输的全景视频的切片数据分配传输优先级和传输码率；

传输模块，用于通过多路复用优先级调度策略，按照所述传输优先级和传输码率，将所述待传输的全景视频的切片数据传输到客户端。

7.一种终端设备，其特征在于，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的全景视频传输程序，所述全景视频传输程序被所述处理器执行时实现如权利要求1-5中任一项所述的全景视频传输方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有全景视频传输程序，所述全景视频传输程序被处理器执行时实现如权利要求1-5中任一项所述的全景视频传输方法的步骤。