CN112511844B

CN112511844B - 一种基于360度视频流的传输方法及系统

Info

Publication number: CN112511844B
Application number: CN202011243564.XA
Authority: CN
Inventors: 边凯归; 张远行; 赵鹏宇; 宋令阳; 庹虎
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-08-17
Anticipated expiration: 2040-11-10
Also published as: CN112511844A

Abstract

本发明涉及一种基于360度视频流的传输方法及系统。该方法包括获取播放360度视频流的历史传输信息；根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；判断视频缓冲区是否具有存储下一视频块的存储空间，若是，客户端根据所述下一视频块的传输信息向服务器请求下载视频块，以存储至所述视频缓冲区，播放器同步播放所述视频缓冲区内的视频块；若否，播放所述视频缓冲区内部的视频块，直至所述视频缓冲区具有存储下一视频块的存储空间。本发明能够提高用户体验质量。

Description

一种基于360度视频流的传输方法及系统

技术领域

本发明涉及计算机网络领域，特别是涉及一种基于360度视频流的传输方法及系统。

背景技术

高清晰度的360度视频传输对带宽有着极高的要求，而用户只能看到其视口(viewports)内的内容，所以现有的技术大都采用基于视口的流媒体策略，例如为视口内的图块(tiles)分配较高的比特率，而为视口外的图块分配较低的比特率，以降低带宽需求，具体来说大多是用启发式方法优化特定的用户体验质量(Quality ofExperience，QoE)目标。

但启发式方法目前主要存在两个问题：1)网络条件和视口位置都是随时间变化且难以预测；2)360度视频流是个多QoE目标的优化问题，例如最大化视口内的视频质量、最小化缓冲次数等。导致现有的启发式方法无法在动态环境和多个QoE目标下实现最佳性能，用户体验质量差。

发明内容

本发明的目的是提供一种基于360度视频流的传输方法及系统，以解决现有的启发式方法用户体验质量差的问题。

为实现上述目的，本发明提供了如下方案：

一种基于360度视频流的传输方法，包括：

获取播放360度视频流的历史传输信息；所述历史传输信息包括历史带宽、历史视口位置、所有视频块的历史比特率分布；

根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布；

判断视频缓冲区是否具有存储下一视频块的存储空间，得到第一判断结果；

若所述第一判断结果表示为视频缓冲区具有存储下一视频块的存储空间，客户端根据所述下一视频块的传输信息向服务器请求下载视频块，以存储至所述视频缓冲区，播放器同步播放所述视频缓冲区内的视频块；

若所述第一判断结果表示为视频缓冲区不具有存储下一视频块的存储空间，播放所述视频缓冲区内部的视频块，直至所述视频缓冲区具有存储下一视频块的存储空间。

可选的，所述根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息，具体包括：

以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；

根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；

将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布。

可选的，所述将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布，之后还包括：

获取预测的下一视频块；

判断所述预测的下一视频块是否在所述下一视频块的视口位置之内，得到第二判断结果；

若所述第二判断结果表示为预测的下一视频块在所述下一视频块的视口位置之内，统一所有预测的视频块的码率，并对所述所有预测的视频块分配高版本的码率；

若所述第二判断结果表示为预测的下一视频块未在所述下一视频块的视口位置之内，对所有预测的视频块分配低版本的码率。

可选的，所述播放器同步播放所述视频缓冲区内的视频块，具体包括：

判断所述视频缓冲区内的视频块是否全部播放完毕，得到第三判断结果；

若所述第三判断结果表示为所述视频缓冲区内的视频块全部播放完毕，等待下载视频块，以存储至所述视频缓冲区；

若所述第三判断结果表示为所述视频缓冲区内的视频块未全部播放完毕，按照视频块先进先出的视频块队列，播放所述视频缓冲区内的视频块。

一种基于360度视频流的传输系统，包括：

历史传输信息获取模块，用于获取播放360度视频流的历史传输信息；所述历史传输信息包括历史带宽、历史视口位置、所有视频块的历史比特率分布；

预测模块，用于根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布；

第一判断模块，用于判断视频缓冲区是否具有存储下一视频块的存储空间，得到第一判断结果；

下载与同步播放模块，用于若所述第一判断结果表示为视频缓冲区具有存储下一视频块的存储空间，客户端根据所述下一视频块的传输信息向服务器请求下载视频块，以存储至所述视频缓冲区，播放器同步播放所述视频缓冲区内的视频块；

播放与存储模块，用于若所述第一判断结果表示为视频缓冲区不具有存储下一视频块的存储空间，播放所述视频缓冲区内部的视频块，直至所述视频缓冲区具有存储下一视频块的存储空间。

可选的，所述预测模块具体包括：

深度强化学习模型构建单元，用于以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；

下一视频块的传输速度以及下一视频块的视口位置预测单元，用于根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；

下一视频块的比特率分布输出单元，用于将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布。

可选的，还包括：

预测的下一视频块获取单元，用于获取预测的下一视频块；

第二判断单元，用于判断所述预测的下一视频块是否在所述下一视频块的视口位置之内，得到第二判断结果；

码率统一单元，用于若所述第二判断结果表示为预测的下一视频块在所述下一视频块的视口位置之内，统一所有预测的视频块的码率，并对所述所有预测的视频块分配高版本的码率；

码率分配单元，用于若所述第二判断结果表示为预测的下一视频块未在所述下一视频块的视口位置之内，对所有预测的视频块分配低版本的码率。

可选的，所述下载与同步播放模块具体包括：

第三判断单元，用于判断所述视频缓冲区内的视频块是否全部播放完毕，得到第三判断结果；

下载单元，用于若所述第三判断结果表示为所述视频缓冲区内的视频块全部播放完毕，等待下载视频块，以存储至所述视频缓冲区；

播放单元，用于若所述第三判断结果表示为所述视频缓冲区内的视频块未全部播放完毕，按照视频块先进先出的视频块队列，播放所述视频缓冲区内的视频块。

可选的，所述服务器具体包括：离散模块以及在线模块；

所述离散模块，用于离线编码所有视频流的所有速率的文件，并将所述所有视频流的所有速率的文件存储至数据库中；

所述在线模块，用于响应所述客户端的请求，并根据所述请求将视频流发送至所述客户端。

可选的，所述客户端，具体包括：应用程序、带宽预测器、视口预测器、深度强化学习模型以及请求程序；

应用程序包括解码器、缝合器以及播放器，所述应用程序用于显示视频并统计播放信息；

所述带宽预测器，用于预测下载带宽；

所述视口预测器，用于预测视频块播放时的视口位置；

所述深度强化学习模型，用于预测所述下一视频块的传输信息，以及优化下载的视频块的比特率分配；

所述请求程序，用于请求并下载所述视频块。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种基于360度视频流的传输方法及系统，基于历史传输信息构建深度强化学习模型，利用深度强化学习模型高精度地预测下一视频块的带宽大小和视口位置，学习到用户视点关注视窗的变化规律，从而对一个环绕360度视频用户的关注点做一个跟踪和预测；当新的用户开始观看一个360度视频的时候，该深度强化学习模型预测用户下一秒视点和关注点的移动，锁定未来用户关注的视窗块，从而只给这些关注的视频块分配传输高分辨率的视频内容，提高用户体验质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于360度视频流的传输方法流程图；

图2为本发明所提供的基于360度视频流的传输系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于360度视频流的传输方法及系统，能够提高用户体验质量。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

360度视频流由一系列的连续帧(frame)构成，定义一个视频块(video chunk)为一小段视频，也即固定时长T的连续帧；按顺序将视频中的所有块编号为1到C。

为了按照位置分配比特率，还需要将每个视频块按位置分割成小方格(tiles)，这是比特率分配的最小单位。

具体来说每个块分成I行J列(不一定均匀划分，甚至不一定形状规则)，而每个tile的位置用(i，j)表示。

令R代表比特率的候选集，则r_ij(c)∈R代表第c块(i，j)tile的比特率，其分配基于两条规则：1.视口外部的tiles必须比视口内部比率低的非零值，以应对预测视口与用户方向相反的情况。2.视口内的tiles必须分配相同的比率，以保证观看时没有明显的清晰度边界。

本发明选取了视点/视口位置、tiles的划分策略、带宽和用户播放时的缓存大小作为需要优化的重要特征：

视口(viewport)即播放时用户所看到的区域，而视点(viewpoint)为视口的中心点；令矩阵v(c)∈{0，1}^I×J描述块c的每个tile是否在视口内。Tile(i，j)在视口内当且仅当v_ij(c)＝1，否则v_ij(c)＝0。

需要注意的是对tiles的划分需要找到一个平衡点，一方面较为细致的划分可以帮助视口正确分配高比率，但另一方面过细划分会增加数据量，加大客户端的负担，不过划分方案不在本文讨论范围内。假定已有划分方案d，形式化定义块c的tile(i，j)的大小为d_c，ij(r_ij(c))，定义视口内的总比率为

定义时刻t的带宽为N(t)。假设客户端在t_c时刻开始下载第c个数据块，并且该数据块的平均下载速度为N_c，另外假设第c和第c+1个块之间可能存在短暂延迟Δt_c，那么有：

视频缓冲区是尚未观看的视频块的队列，定义B(t)∈[0，Bmax]为t时刻时缓冲区内的剩余播放时间，也即缓冲区占用，其中Bmax表示缓冲区容量。定义B_c＝B(t_c)代表开始下载第c个块时的缓冲区占用。假设客户端在开始阶段下载S个块(视频播放前都会缓冲一小段)，对于c≤S，B_c+1＝c×T，T播放时间间隔，每T秒钟，播放一个缓冲区的视频块；对于S＜c≤C，

此外上述短暂延迟Δt_c来自于缓冲队列满员堵塞的情况，可以通过上述参数简单计算得到。

图1为本发明所提供的基于360度视频流的传输方法流程图，如图1所示，一种基于360度视频流的传输方法，包括：

步骤101：获取播放360度视频流的历史传输信息；所述历史传输信息包括历史带宽、历史视口位置、所有视频块的历史比特率分布。

步骤102：根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布。

所述步骤102具体包括：以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布。

所述将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布，之后还包括：获取预测的下一视频块；判断所述预测的下一视频块是否在所述下一视频块的视口位置之内，若是，统一所有预测的视频块的码率，并对所述所有预测的视频块分配高版本的码率；若否，对所有预测的视频块分配低版本的码率。

步骤103：判断视频缓冲区是否具有存储下一视频块的存储空间，若是，执行步骤104，若否，执行步骤105。

步骤104：客户端根据所述下一视频块的传输信息向服务器请求下载视频块，以存储至所述视频缓冲区，播放器同步播放所述视频缓冲区内的视频块。

所述步骤104具体包括：判断所述视频缓冲区内的视频块是否全部播放完毕，若是，以存储至所述视频缓冲区；若否，按照视频块先进先出的视频块队列，播放所述视频缓冲区内的视频块。

步骤105：播放所述视频缓冲区内部的视频块，直至所述视频缓冲区具有存储下一视频块的存储空间。

本发明主要给出了三个QoE优化指标：平均视口质量、重缓存时间和平均视口变化。即分别衡量视口内的平均视频质量、总重缓存时间以及视口内比特率浮动的情况，其中平均视口变化这一指标的提出是因为频繁的视口质量变化可能会导致头晕等生理症状。

下面给出三个指标在块C到块

这段时间内的表达式：

平均视口质量：

重缓存时间：

平均视口变化：

为这三个指标赋予权重之后即可结合为一个指标：

其中η₁，η₂，η₃是三个非负常数。

其中，I、J都是小写i、j的最大值，而i、j定义了360度视频画幅中第i行和第j列的视频块，ρ是一个线性函数。

原问题变成：

本发明将全景环绕360度视频的每一帧视频切成若干个视窗块，如何决定给用户眼前的正在看的(视点中)的每一个视窗块分配传输高的分辨率，而给用户不看的视窗块分配传输低的分辨率，从而节省传输带宽。

全景环绕360度视频是需要带上虚拟现实偷窥进行观看的一种视频形式；全景环绕360度视频的每一帧画幅是环绕用户眼前，两侧以及脑后，而现有的全景环绕360度视频传输，将所有视频内容传输到偷窥，然而用户只看眼前视点关注的内容，而两侧、脑后的内容是看不到的，所以传输两侧、脑后的视频内容是一种浪费带宽。

为了减少带宽浪费，希望只传输用户眼前视点关注的内容，其他内容可以不传输或者只传输低分辨率的视频。因此，需要将环绕360度的视频切成很多视窗块，用户视点关注的，即用户眼前的若干视窗块内传输高分辨率；其他视窗传输低分辨率，从而节省带宽。

在这里就需要预测用户视点关注哪几个视窗块，从而只给关注的块传输高分辨率的视频内容；机器学习方法，例如强化学习模型，可以从用户头盔方向数据，历史带宽高低等数据，学习到用户视点关注视窗的变化规律，从而对一个环绕360度视频用户的关注点做一个跟踪和预测。

当新的用户开始观看一个360度视频的时候，本发明的模型方法就可以预测用户下一秒视点和关注点的移动，锁定未来用户关注的视窗块，从而只给这些关注的块分配传输高分辨率的视频内容。

为了计算

必须能预测视点和带宽，而循环神经网络(RecurrentNeuralNetwork，RNN)的一个改版的长短期记忆网络(Long Short-TermMemor，LSTM)适用于此问题，输入历史视点位置或历史带宽便可以输出下一时间块的预测视点或预测带宽，而后续的视点和带宽又可以用当前的预测结果作为输入而得到。

同时，客户端中内嵌一个基于深度强化学习(Deep Reinforcement Learning，DRL)的训练模型用于给出决策以获得更高的QoE收益。

具体来说在每次请求下一个视频块之前，都会将所有包括带宽、视口、比特率在内的历史信息交由DRL训练以更新参数，然后结合LSTM给出的预测结果给出下一个视频块每个tile的比特率分配判断。

若用s_c代表c及之前所有块的历史信息，a_c代表DRL基于历史信息给出的第c+1块的分配判断，τ_c+1代表

o_c+1代表获取c+1块后得到的新的统计信息。那么客户端获取整个视频的动作可以用如下序列表示：

s₀，a₀，τ₁，o₁，s₁，a₁，τ₂，o₂，s₂，τ₃，o₃，...，τ_C，o_C，s_C.

图2为本发明所提供的基于360度视频流的传输系统结构图，如图2所示，一种基于360度视频流的传输系统，包括：

历史传输信息获取模块201，用于获取播放360度视频流的历史传输信息；所述历史传输信息包括历史带宽、历史视口位置、所有视频块的历史比特率分布。

预测模块202，用于根据所述历史信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布。

所述预测模块202具体包括：深度强化学习模型构建单元，用于以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；下一视频块的传输速度以及下一视频块的视口位置预测单元，用于根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；下一视频块的比特率分布输出单元，用于将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布。

本发明还包括：预测的下一视频块获取单元，用于获取预测的下一视频块；第二判断单元，用于判断所述预测的下一视频块是否在所述下一视频块的视口位置之内，得到第二判断结果；码率统一单元，用于若所述第二判断结果表示为预测的下一视频块在所述下一视频块的视口位置之内，统一所有预测的视频块的码率，并对所述所有预测的视频块分配高版本的码率；码率分配单元，用于若所述第二判断结果表示为预测的下一视频块未在所述下一视频块的视口位置之内，对所有预测的视频块分配低版本的码率。

第一判断模块203，用于判断视频缓冲区是否具有存储下一视频块的存储空间，得到第一判断结果。

下载与同步播放模块204，用于若所述第一判断结果表示为视频缓冲区具有存储下一视频块的存储空间，客户端根据所述下一视频块的传输信息向服务器请求下载视频块，以存储至所述视频缓冲区，播放器同步播放所述视频缓冲区内的视频块。

所述下载与同步播放模块204具体包括：第三判断单元，用于判断所述视频缓冲区内的视频块是否全部播放完毕，得到第三判断结果；下载单元，用于若所述第三判断结果表示为所述视频缓冲区内的视频块全部播放完毕，等待下载视频块，以存储至所述视频缓冲区；播放单元，用于若所述第三判断结果表示为所述视频缓冲区内的视频块未全部播放完毕，按照视频块先进先出的视频块队列，播放所述视频缓冲区内的视频块。

播放与存储模块205，用于若所述第一判断结果表示为视频缓冲区不具有存储下一视频块的存储空间，播放所述视频缓冲区内部的视频块，直至所述视频缓冲区具有存储下一视频块的存储空间。

所述服务器具体包括：离散模块以及在线模块；所述离散模块，用于离线编码所有视频流的所有速率的文件，并将所述所有视频流的所有速率的文件存储至数据库中；所述在线模块，用于响应所述客户端的请求，并根据所述请求将视频流发送至所述客户端。

所述客户端，具体包括：应用程序、带宽预测器、视口预测器、深度强化学习模型以及请求程序；应用程序包括解码器、缝合器以及播放器，所述应用程序用于显示视频并统计播放信息；所述带宽预测器，用于预测下载带宽；所述视口预测器，用于预测视频块播放时的视口位置；所述深度强化学习模型，用于预测所述下一视频块的传输信息，以及优化下载的视频块的比特率分配；所述请求程序，用于请求并下载所述视频块。

本发明首先通过建模及分析，将360度视频流的优化问题归约到了用户带宽和视点的预测问题以及不同图块的比特率分配问题，并用RNN(循环神经网络)解决前者，用策略梯度学习长期QoE收益来解决后者；评估结果表明，DRL360可以适应所有考虑到的情况，并且在不同的QoE目标下，其性能比最新方法平均高出20％～30％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于360度视频流的传输方法，其特征在于，包括：

根据所述历史传输信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息，具体包括：以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布；

2.根据权利要求1所述的基于360度视频流的传输方法，其特征在于，所述将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布，之后还包括：

获取预测的下一视频块；

3.根据权利要求1所述的基于360度视频流的传输方法，其特征在于，所述播放器同步播放所述视频缓冲区内的视频块，具体包括：

4.一种基于360度视频流的传输系统，其特征在于，包括：

预测模块，用于根据所述历史传输信息构建深度强化学习模型，并根据所述深度强化学习模型预测下一视频块的传输信息；所述预测模块具体包括：深度强化学习模型构建单元，用于以所述历史带宽、所述历史视口位置的视口坐标为输入，以所述所有视频块的历史比特率分布为输出，训练时间序列模型，构建深度强化学习模型；下一视频块的传输速度以及下一视频块的视口位置预测单元，用于根据所述深度强化学习模型预测所述下一视频块的传输速度以及所述下一视频块的视口位置；下一视频块的比特率分布输出单元，用于将所述下一视频块的传输速度以及所述下一视频块的视口位置输入至所述深度强化学习模型，输出所述下一视频块的比特率分布；所述下一视频块的传输信息包括下一视频块的传输速度、下一视频块的视口位置及下一视频块的比特率分布；

5.根据权利要求4所述的基于360度视频流的传输系统，其特征在于，还包括：

预测的下一视频块获取单元，用于获取预测的下一视频块；

6.根据权利要求4所述的基于360度视频流的传输系统，其特征在于，所述下载与同步播放模块具体包括：

7.根据权利要求4所述的基于360度视频流的传输系统，其特征在于，所述服务器具体包括：离散模块以及在线模块；

8.根据权利要求4所述的基于360度视频流的传输系统，其特征在于，所述客户端，具体包括：应用程序、带宽预测器、视口预测器、深度强化学习模型以及请求程序；

所述带宽预测器，用于预测下载带宽；

所述视口预测器，用于预测视频块播放时的视口位置；

所述请求程序，用于请求并下载所述视频块。