CN112887314B

CN112887314B - 一种时延感知的云雾协作视频分发方法

Info

Publication number: CN112887314B
Application number: CN202110122236.2A
Authority: CN
Inventors: 邹虹; 黄闯; 张鸿; 吴大鹏; 李职杜; 张普宁
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-06-03
Anticipated expiration: 2041-01-27
Also published as: CN112887314A

Abstract

本发明涉及一种时延感知的云雾协作视频分发方法，属于通信技术领域，特别是在无线网络下的视频传输技术领域。该方法针对视频在雾无线接入网络传输中严格的时延要求和有限网络资源的矛盾关系，首先，通过建立时延感知的视频请求调度模型，采用云雾协作的方式为视频内容提供缓存、转码和传输；进而，在考虑用户播放缓冲区长度的前提下，利用Actor‑Critic深度强化学习算法解决视频请求调度和资源分配决策引起的级联效应，从而最大化用户的长期奖励，减少视频播放延迟。该方法有效减少了用户观看视频时的时延，提高了缓存命中率，具有广阔的运用前景。

Description

一种时延感知的云雾协作视频分发方法

技术领域

本发明属于通信技术领域，涉及一种时延感知的云雾协作视频分发方法。

背景技术

随着多媒体智能终端的发展，视频将会是未来的主要业务。据思科预测，到2022年移动视频流量将占全网流量的82％。由于不同的移动设备、网络状况和用户偏好，视频需要转码为不同的格式，这是一项计算密集型的任务。云无线接入网中(Cloud Radio AccessNetwork,C-RAN)中强大的集中式云缓存和计算能力能够为用户提供可靠稳定的转码服务。然而，由于集中式云计算服务中心距离用户较远，在云中进行转码无法及时响应网络的动态变化。雾无线接入网(Fog Radio Access Network,F-RAN)作为集中云计算重要且有效的补充，已经被广泛应用于本地实时数据的处理。

F-RAN通过缓存设备可以在线/离线缓存流行度高的视频，能够减少前传和回传的数据流量。同时，为了自适应动态的网络环境，利用F-RAN的计算能力能够将高比特率的视频转码为低比特的视频向用户提供服务。然而，相比于日益增加的视频流量，F-RAN中雾节点有限的存储和计算能力给用户提供平滑的视频体验质量产生了巨大的挑战。因此，鉴于F-RAN中集中式云计算和雾计算的潜在优势和互补特点，设计合理高效的视频分发策略至关重要。

发明内容

有鉴于此，本发明的目的在于提供一种时延感知的云雾协作视频分发方法。

为达到上述目的，本发明提供如下技术方案：

一种时延感知的云雾协作视频分发方法，包括以下步骤：

采集用户、云节点和雾节点的状态信息：用户向雾节点发送视频请求，所述视频请求包括用户请求的视频、视频比特率版本以及用户播放缓冲区的大小，雾节点将所述视频请求以及自身的缓存和计算资源发送到集中控制器；

构建视频请求调度模型：集中控制器根据用户请求视频的信息，判断云节点和雾节点是否缓存了该视频或者更高的视频比特率，进而根据资源分配策略，建立视频请求调度模型；

分析用户观看视频时的时延：集中控制器通过分配的无线资源和计算资源计算不同视频请求调度下的时延，分析用户获取视频的具体路径，以最小化用户观看视频的时延为优化目标，构建目标函数；

确定视频请求调度策略、视频缓存决策，计算和无线资源分配：在保证用户时延的约束条件下，集中控制器利用Actor-Critic深度强化学习算法对目标函数进行优化，得到用户的视频请求调度策略、视频缓存决策、计算和无线资源分配方案。

进一步，所述用户状态信息包括：用户的视频请求

表示用户请求第v个视频，比特率版本为

的视频片段，其中，v∈V表示系统中共有V个视频，

表示视频比特率版本的集合，l代表用户i当前时刻的播放缓冲队列长度表示为：

l_i(t)＝max[l_i(t-1)-u_i(t-1),0]+L

其中，l_i(t-1)，u_i(t-1)表示时刻(t-1)用户i的播放缓冲区长度和视频播放速度，L表示每个视频片段的固定长度。

进一步，所述雾节点的状态信息包括：分配给雾节点n子的子信道数目

分配的子信道数目不超过系统子信道的总数即

雾计算服务器n的缓存容量为M_n，每个雾节点n缓存的视频总量不能超过其存储空间大小M_n，即

缓存决策变量

用来表示雾节点n是否缓存了视频

当视频

由雾节点n缓存时，

否则

雾节点n的可用计算资源F(n,t)在时隙t时服从独立分布的随机过程，F(n,t)在

服从均值为

的分布，单位是CPU周期/秒。

进一步，所述云节点的状态信息包括：云节点的缓存容量M₀，云节点中缓存的视频总量不超过其存储空间大小M₀；云节点中的计算资源与雾节点的计算资源模型一样，但云节点中的计算资源远大于雾节点中的计算资源即F(0,t)＞＞F(n,t)。

进一步，所述视频请求调度模型具体为：

当视频请求

到达雾节点n时，云雾协作缓存与转码的动态自适应视频流共有7种传输模式，用二进制变量

表示；用户请求的视频比特率版本为

当

时，表示视频

缓存在雾节点n处，直接从缓存处向用户提供服务，否则，

当

时，表示雾节点n将

转码为

后向用户提供服务，否则，

当

时，表示用户请求的视频片段

没有直接缓存在雾节点n处，而是由相邻的雾节点n'通过光纤传输到雾节点n处向用户提供服务，否则，

当

时，表示用户请求的视频片段

没有直接缓存在雾节点n处，相邻雾节点n'缓存了更高的视频版

利用转码器转码后，通过光纤传输到雾节点n向用户提供服务，否则，

当

时，表示用户请求的视频片段

先通过光纤传输到雾节点n处，然后雾节点n的转码器转码

向用户提供服务，否则，

当

时，表示视频

缓存在云节点中，通过前传链路将视频发送到雾节点n处向用户提供服务，否则，

当

时，表示在云节点中将

转码为

后，通过前传链路将视频

发送到雾节点n处向用户提供服务，否则，

视频请求到达雾节点时，会出现以上情况中的一种，为了确保每一个请求都能被服务，要满足请求调度约束，即

进一步，所述用户观看视频时的时延具体为：

首先，采用频分正交多址技术将频谱分配给雾节点的每个用户，用户i和雾节点n之间的信噪比计算为

其中，σ²(t)为加性高斯白噪声功率，

表示雾节点n和用户i之间的信道增益，

为雾节点n到用户i的发射功率，p_n'(t)和g_n'(t)分别为雾节点n'(n'≠n)到用户i的发射功率和信道增益；

系统的总频带带宽为BHz，分为若干个子信道，每个子信道的大小为bHZ，共有B/b个子信道，用

表示时隙t雾节点n为用户i分配子信道的数量，用户的下载速率表示为

然后计算用户请求视频的传输时间：

当

时，表示雾节点n缓存了用户请求的视频

由雾节点n传输给用户的时间为：

其中，

表示视频文件的大小；

当

时，表示选择在雾节点n处进行转码传输，视频传输的时间包括雾节点n中的转码时间和视频片段的传输时延，由雾节点n转码传输的时延计算为

其中，

由公式

求出，表示将

转码为

所需要的CPU周期数，c_n(cycles/bit)表示节点n处理1bit数据所需要的CPU周期数；

当

时，表示选择从相邻雾节点n'处向目标雾节点n传输，再由雾节点n向用户传输，所消耗的时间为

其中，a表示从相邻节点传输到目标雾节点的跳数，所需要的传输时间为aτ，τ表示雾节点之间传输的时间，与距离成正比；

当

时，表示从相邻雾节点n'处转码后发送到目标雾节点n，所消耗的时间为

当

时，表示从相邻雾节点n'处送到目标雾节点n处进行转码处理和传输，所消耗的时间为

当

时，表示从云节点的缓存中向目标雾节点提供服务，由云节点直接命中并传输的时间为

其中c₁代表前传链路的传播时延，跟基站到BBU池的距离有关；

当

表示用户请求的视频片段

被云节点转码命中，利用云中强大的计算能力进行转码传输，云节点转码命中总的时间表示为

最后，视频

请求传输到用户i的时间为：

为保证视频观看的流畅程度，T_ni的时间消耗必须满足T_ni≤l_i，否则用户i在观看视频时会出现D_ni＝T_ni-l_i的时间延迟，因此减少用户观看视频过程中的时间延迟，表示为

进一步，所述视频请求调度策略、视频缓存决策，计算和无线资源分配，包括以下步骤：

首先将最小化时延问题转化为强化学习模型：

状态空间：假设在时隙t处，

表示前节点视频缓存的情况，当n＝0时表示云节点中视频缓存的状态，n＝{1,2,...,i}时表示雾节点中视频的缓存状态，P_n表示节点中可用的计算资源数量，B_n,n≠0表示雾节点中可用的子信道数目，在时刻t时系统的状态空间S表示为：

动作空间：在时隙t时系统的动作空间

包括视频

的缓存策略

用户i的视频请求调度决策Q_i、分配给用户i的计算资源f_ni和无线资源数目B_ni，A中的每一个动作向量都满足约束条件；

奖励：在时隙t时，在一个确定的状态s(s∈S)下采取动作a(a∈A)，环境立即给代理一个奖励值R，状态由s_t→s_t+1，将立即奖励设置为优化目标的相反数即表示为最小化播放延迟，奖励函数设置为：

定义期望回报为：

其中γ是折扣因子，γ∈[0,1]，实际的价值函数是通过立即奖励和未来奖励组成的状态-动作值函数，在状态s下价值函数用贝尔曼方程表示为Q^π(s,a)＝E(R(s,a)+γQ(s_t+1,a_t+1))；

进而，分别使用两个神经网络DNNs逼近Actor和Critic的策略函数和价值函数，DNNs通过两组权重为θ和w被参数化，其中策略和值函数表示为π_θ(s,a)和Q_w(s,a)，两层都使用ReLU作为非线性激活函数，通过最小化损失函数，训练神经网络学习最合适的权重θ,w；

Critic的损失函数定义为：

其中，w是价值网络的参数，利用随机梯度下降方法更新状态-值函数的参数：

Δw＝α_cδ_t▽_ωQ_w(s_t,a_t)，其中，α_c是学习效率，δ_t是TD-error，通过数学公式表示为：

δ(t)＝R(s(t),a(t))+γQ_ω(s_t+1,a_t+1)-Q_ω(s_t,a_t)

Actor的目标函数定义为：

其中，d^π(s)表示状态分布函数，通过不断地更新策略参数Δθ＝α_aδ(t)▽_θlnπ_θ(s,a)，

以最大化目标函数，其中，α_a是参与者学习率；

最后通过不断地迭代，输出Actor网络参数θ，Critic网络参数w，集中控制器根据π_θ(s,a)选择相应的视频缓存、请求调度、无线和计算资源分配决策。

本发明的有益效果在于：本发明针对视频在雾无线接入网络传输中严格的时延要求和有限网络资源的矛盾关系，提出了一种时延感知的云雾协作视频缓存、转码和无线资源分配策略。该策略通过建立时延感知的视频请求调度模型，采用云雾协作的方式为视频内容提供缓存、转码和传输；进而，在考虑用户播放缓冲区长度的前提下，利用Actor-Critic深度强化学习算法解决视频请求调度和资源分配决策引起的级联效应，从而最大化用户的长期奖励，减少视频播放延迟。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的系统架构图；

图2为本发明中视频请求调度模型图；图2(a)为本地雾节点直接命中；图2(b)为本地雾节点软命中图；图2(c)为邻居雾节点直接命中图；图2(d)为邻居雾节点软命中，邻居节点转码图；图2(e)为邻居雾节点软命中，本地节点转码图；图2(f)为云节点直接命中；图2(g)为云节点软命中，云节点转码图；

图3为本发明的算法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

云雾协作缓存与转码架构如图1所示，一种时延感知的云雾协作视频分发方法如图3所示，优选的具体包含以下步骤：

步骤1、数据采集：用户向雾节点发送视频请求，雾节点将收到的信息发送到BBU池中的集中控制器：

其中：

1)所述用户状态信息包括：用户的视频请求

表示用户请求第v个视频，比特率版本为

的视频片段。其中，v∈V表示系统中共有V个视频，

表示视频比特率版本的集合。l代表用户i当前时刻的播放缓冲队列长度表示为：l_i(t)＝max[l_i(t-1)-u_i(t-1),0]+L。其中，l_i(t-1)，u_i(t-1)表示时刻(t-1)用户i的播放缓冲区长度和视频播放速度，L表示每个视频片段的固定长度。

2)雾节点的状态信息包括：分配给雾节点n子的子信道数目

分配的子信道数目不超过系统子信道的总数即

缓存决策变量

用来表示雾节点n是否缓存了视频

当视频

由雾节点n缓存时，

否则

雾节点n的可用计算资源F(n,t)在时隙t时服从独立分布的随机过程。F(n,t)在

服从均值为

的分布，单位是CPU周期/秒。

3)所述云节点的状态信息包括：云节点的缓存容量M₀，云节点中缓存的视频总量不能超过其存储空间大小M₀。云节点中的计算资源同雾节点的计算资源模型一样，但云节点中的计算资源远大于雾节点中的计算资源即F(0,t)＞＞F(n,t)。

步骤2、视频请求调度模型具体为：集中控制器根据用户、云节点和雾节点的请求信息，建立视频请求调度的传输模式。

其中：

当视频请求

到达雾节点n时，云雾协作缓存与转码的动态自适应视频流共有7种传输模式如图2(a)-(g)所示，用二进制变量

表示。假设用户请求的视频比特率版本为

表示视频

缓存在雾节点n处，直接从缓存处向用户提供服务。否则，

表示雾节点n将

转码为

后向用户提供服务。否则，

表示用户请求的视频片段

没有直接缓存在雾节点n处，而是由相邻的雾节点n'通过光纤传输到雾节点n处向用户提供服务。否则，

表示用户请求的视频片段

利用转码器转码后，通过光纤传输到雾节点n向用户提供服务。否则，

当

时，表示用户请求的视频片段

先通过光纤传输到雾节点n处，然后雾节点n的转码器转码

向用户提供服务，否则，

当

时，表示视频

当

时，表示在云节点中将

转码为

后，通过前传链路将视频

发送到雾节点n处向用户提供服务，否则，

步骤3、用户观看视频时的时延分析：集中控制器根据收集的信息，计算不同传输模式下的时延。

其中：

1)计算用户的下载速率：

根据公式(1)计算在t时刻用户i和雾节点n之间的信噪比：

则用户i的下载速率表示为：

其中，

表示时隙t雾节点n为用户分配子信道的数量，每个子信道的大小为bHZ。

2)计算不同传输模式下用户请求视频的传输时间：

当

时，表示雾节点n缓存了用户请求的视频

由雾节点n传输给用户的时间为：

其中，

表示视频文件的大小。

当

时，表示选择在雾节点n处进行转码传输。这种情况下，视频传输的时间包括雾节点n中的转码时间和视频片段的传输时延。由雾节点n转码传输的时延可以计算为：

其中，

可由公式

求出，表示将

转码为

所需要的CPU周期数。c_n(cycles/bit)表示节点n处理1bit数据所需要的CPU周期数。

当

时，表示选择从相邻雾节点n'处向目标雾节点n传输，再由雾节点n向用户传输。所消耗的时间为：

其中，a表示从相邻节点传输到目标雾节点的跳数，所需要的传输时间为aτ，τ表示雾节点之间传输的时间，与距离成正比。

当

时，表示从相邻雾节点n'处转码后发送到目标雾节点n，所消耗的时间为：

当

时，表示从相邻雾节点n'处送到目标雾节点n处进行转码处理和传输，所消耗的时间为：

当

时，表示从云节点的缓存中向目标雾节点提供服务。由云节点直接命中并传输的时间为：

其中，c₁代表前传链路的传播时延，跟基站到BBU池的距离有关。

当

表示用户请求的视频片段

被云节点转码命中，利用云中强大的计算能力进行转码传输。云节点转码命中总的时间表示为：

因此，视频

请求传输到用户i的时间为：

为了保证视频观看的流畅程度，T_ni的时间消耗必须满足T_ni≤l_i，否则用户i在观看视频时会出现D_ni＝T_ni-l_i的时间延迟。因此，本文的目标在于减少用户观看视频过程中的时间延迟，表示为：

T_ni≤l_i (21)

其中，

表示缓存放置策略，

表示视频的请求调度策略，P表示为用户分配的计算资源，B表示系统中子信道的数量。公式(12)，(13)表示雾节点的无线资源和缓存资源约束。公式(14)-(18)表示视频请求调度的缓存约束和转码依赖约束。公式(19)表示节点n的计算资源约束，(20)表示选择其中一种调度方式为用户服务。公式(21)是为了保证视频的流畅和无缝衔接。

4、确定视频请求调度策略、视频缓存决策，计算和无线资源分配：在保证用户时延的约束条件下，集中控制器利用Actor-Critic深度强化学习算法对目标函数进行优化，得到用户的视频请求调度策略、视频缓存决策、计算和无线资源分配方案。具体包括以下步骤：

1)将最小化时延问题转化为强化学习模型：

状态空间：假设在时隙t处，

表示前节点视频缓存的情况，当n＝0时表示云节点中视频缓存的状态，n＝{1,2,...,i}时表示雾节点中视频的缓存状态，同样的P_n表示节点中可用的计算资源数量，B_n,n≠0表示雾节点中可用的子信道数目。在时刻t时系统的状态空间S表示为：

动作空间：在时隙t时系统的动作空间包括视频

的缓存策略

用户i的视频请求调度决策Q_i、分配给用户i的计算资源f_ni和无线资源数目B_ni，此外A中的每一个动作向量都满足约束条件即表示为：

奖励：在时隙t时，在一个确定的状态s(s∈S)下采取动作a(a∈A)，环境会立即给代理一个奖励值R，状态由s_t→s_t+1。将立即奖励设置为优化目标的相反数即表示为最小化播放延迟，奖励函数设置为：

2)定义期望回报为：

其中γ是折扣因子，γ∈[0,1]。实际的价值函数是通过立即奖励和未来奖励组成的状态-动作值函数，在状态s下价值函数用贝尔曼方程表示为：

Q^π(s,a)＝E(R(s,a)+γQ(s_t+1,a_t+1)) (25)

3)Critic的损失函数定义为：

其中，w是价值网络的参数。为了最小化损失函数，状态-值函数的参数可以使用随机梯度下降方法更新：Δw＝α_cδ_t▽_ωQ_w(s_t,a_t)。其中，α_c是学习效率，δ_t是TD-error，通过数学公式表示为：δ(t)＝R(s(t),a(t))+γQ_ω(s_t+1,a_t+1)-Q_ω(s_t,a_t)。

4)Actor的目标函数定义为：

其中，d^π(s)表示状态分布函数。为了最大化目标函数，可以将策略参数更新为：

Δθ＝α_aδ(t)▽_θlnπ_θ(s,a) (28)

其中，α_a是参与者学习率。

5)做出决策：通过不断地更新参数，迭代结束后，输出Actor网络参数θ，Critic网络参数w。根据π_θ(s,a)选择相应的视频缓存、请求调度、无线和计算资源分配决策。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。