CN112511197A

CN112511197A - 基于深度强化学习的无人机辅助弹性视频多播方法

Info

Publication number: CN112511197A
Application number: CN202011384614.6A
Authority: CN
Inventors: 沈航; 汪悦; 成昭炜; 白光伟; 王敏; 王天荆
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16
Anticipated expiration: 2040-12-01
Also published as: CN112511197B

Abstract

本发明提出一个基于深度强化学习的无人机辅助弹性视频多播方法。本方法结合SVC编码，将无人机动态部署和资源分配问题联合考虑，目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变，传统的启发式算法难以应对用户移动的复杂性。对此，采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后，学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明，本方案达到了预期目标并且优于采用现有的基于Q‑learning的方案。

Description

基于深度强化学习的无人机辅助弹性视频多播方法

技术领域

本发明属于计算机技术领域，具体是一种基于深度强化学习的无人机辅助弹性视频多播方法。

背景技术

近年来，视频流量的快速增长加剧了无线网络资源的紧缺，为了保证用户的视频质量，前人在异构网络的基础上做出了诸多尝试。多播是有效利用无线网络资源的技术之一[1]，是一种同时将数据传输到一组终端设备的可行有效的解决方案。多播使得请求同一视频资源的用户共享频谱资源。当多播组中用户都能正确接收到数据时，多播组中信道条件最差的用户成为了制约系统性能的关键。为了满足不同用户的视频质量需求，将可伸缩视频编码(Scale Video Coding,SVC)技术引入到无线视频多播中。采用SVC编码将视频分为一个基础层和多个增强层。用户可以根据不同的信道条件接收增强层，信道条件好的用户可以接收基础层和更多的增强层。虽然引入多播和SVC编码能够有效利用网络资源，但不能减少宏基站的压力。

为了缓解宏基站(Macro Base Station,MBS)的压力，在异构蜂窝网络中引入了小型固定基站(small-cell base station)[2]，然而在现有的研究文献中小型基站的部署主要基于对通信量长期时空分布的预测。对于不可预知的时空分布，固定基站在服务移动用户时缺乏灵活性，导致用户整体的视频质量下降。近期的一些工作提出在常规网络中部署无人机基站(Drone-mounted Base Station,DBS)[3-5]，以增强无线网络的效率和灵活性[6]。在用户的位置难以预测和无法被宏基站覆盖的情况下，无人机基站可以提供支持。这些案例包括对农村地区的覆盖、协助宏基站解决网络拥堵和大型公共活动等[6-8]。不同于传统的小型固定基站，无人机移动基站能够更快、更廉价的部署。文献[9]考虑了用户对延迟的容忍和敏感程度，提出了一种无人机的三维定位算法，还研究了用户-基站关联和无线回程的带宽的分配问题，以最大程度地提高网络效用。文献[6]研究了无人机基站的下行覆盖性能。在无人机辅助的无线网络下，无人机的位置部署和轨迹设计影响着系统的整体覆盖性能。然而，现有的无人机部署和资源分配机制很少从用户移动角度考虑无人机位置和资源分配。因此，有必要设计终端设备移动性感知的无人机动态部署方法，促进资源优化配置。

发明内容

为了解决上述技术问题，本发明提出一种基于深度强化学习的无人机辅助弹性视频多播方法，是在宏基站和及其从属基站组成的异构无线网络中，从属基站是以可移动的无人机为载体的无人机基站；宏基站和无人机基站各自服务其覆盖范围内的多播组；

基于SVC编码将流媒体视频资源分割为基础层和增强层，基础层由宏基站向多播组提供，增强层由宏基站和无人机基站联合提供，其中，无人机基站为偏远位置的移动用户提供增强层；用户首先收到宏基站的基础层，再根据自身所处的位置和视频接收速率决定从属，接收宏基站或无人机基站提供的增强层；

无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关，在基站覆盖范围内，对无人机基站的动态部署和资源分配进行优化；

所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化；首先对基础层资源分配和增强层资源分配的优化问题建模；然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化，最终获得无人机基站的位置和带宽资源分配。

本方法是一种异构网络下无人机基站辅助的弹性视频多播方法，它结合SVC编码，将无人机动态部署和资源分配问题联合考虑，目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变，传统的启发式算法难以应对用户移动的复杂性。对此，采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后，学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明，本文提出的方案达到了预期目标并且优于采用现有的基于Q-learning的方案。

附图说明

图1是网络系统架构

图2是DDPG-UAV算法执行架构

图3是Actor网络结构

图4是Critic网络结构

图5是训练趋势

图6是接收到两层的平均用户数

图7是平均PSNR的核密度估计和累积分布

图8是Reward超参数性能比较

图9是无人机轨迹

图10是无人机分布热度。

具体实施方式

下面结合附图与具体实施方式对本案进一步说明，第一部分对本发明技术方案进行概述。第二部分描述了系统模型。第三部分提出无人机部署和资源分配联合优化问题。第四节提出了无人机部署位置和资源分配策略。第五部分阐述仿真实验设计和性能评估。第六部分给出了结论。

1、方案总述：

本文提出一种无人机基站辅助的弹性视频多播方法。基于SVC编码，将流媒体视频资源分割为多层，基础层由宏基站向多播组提供，增强层由宏基站和无人机基站联合提供。无人机位置和资源分配决定了无人机基站和宏基站的增强层覆盖效率。在基站覆盖范围内，为了最大化用户整体的增强层接收层数，综合无人机动态部署和资源分配，提出联合优化问题。对面向SVC视频分发的资源分配和无人机部署联合优化问题进行建模。在求解优化问题时，考虑传统启发式算法的计算复杂度和时间延迟，设计基于深度强化学习的DDPG(Deep Deterministic Policy Gradient)算法[11]并训练神经网络。该神经网络根据移动用户的位置分布进行决策，获得无人机的位置和带宽资源分配。为提高训练稳定性、加快模型收敛和优化目标，提供三种代表性的神经网络结构。仿真实验结果表明，该无人机部署和资源分配策略可以达到预期目标并且优于现有的基于Q-learning[12]的方案。

2系统模型

2.1视频分发网络架构

如图1所示，本例考虑一个由单个宏基站和单个无人机移动基站组成的异构无线网络。

宏基站和无人机基站各自服务其覆盖范围内的多播组。将视频的SVC编码分为基础层和增强层两层，宏基站提供基础层和增强层，无人机基站(从属的基站)为位置相对偏远的移动用户提供增强层，用户首先收到宏基站的基础层，再根据所处的位置和视频接收速率决定从属，接收无人机基站提供的增强层。

宏基站覆盖范围内的用户随时间不断运动。在时间点t时，系统假定用户处于静止状态。随时间不断变化的用户分布便可被分割为一个个连续时间点下的静态分布。通过当前的静态用户分布，系统根据当前用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配策略。

当进入下一个时间点t+1，用户位置分布发生改变，系统再次进行决策，从而为移动用户提供自适应服务。

设用户集合为

总带宽资源为B，系统首先分配带宽B_b来向用户多播组提供基础层，将剩余带宽资源B-B_b分为B_m和B_d，B_m分配给宏基站投递增强层，B_d分配给无人机基站投递增强层。

2.2通信模型

无人机基站d和移动用户i之间的无线传播信道可以由LoS(Line of Sight)概率信道来建模，无人机基站和用户i之间LoS连接的概率为

θ_i为

是用户i到无人机的仰角，h_d是无人机的高度，v_i是用户i与无人机之间的水平距离。α、β为Sigmoid曲线参数。

用户和无人机之间的LoS连接路径损失为

用户和无人机之间的NLoS连接路径损失为

ξ^(los)和γ^(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数；ξ^(nlos)和γ^(nlos)分别为NLoS(None Line of Sight)连接下参考距离的路径损耗补偿和路径损耗指数。

表示无人机基站和用户i之间的三维距离；无人机基站和用户i之间的平均路径损耗l_d，i为

l_d,i＝p^(los)·η^(los)+(1-p^(los))·η^(nlos) (4)

信道增益g_d，i为

3无人机动态部署和资源分配联合优化问题

3.1基础层资源分配

在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层。设被请求视频资源基础层接收速率为γ₀，为了节省分配的带宽并满足基础层接收速率要求，可计算出投递基础层所要分配的最小带宽。令η_m，i为宏基站m到用户i之间的平均路径损失

z_m，i是用户i与宏基站m的水平距离，h_m为宏基站m的高度。宏基站与用户之间的信道增益，表示为

因为基础层多播组的信道增益

由该分组内信道增益最差的用户决定，因此有

根据香农公式，投递基础层所需要的带宽为

p_m为宏基站m的发射功率，σ²为高斯噪声。

3.2增强层资源分配

增强层由宏基站和无人机基站联合提供，无人机基站为宏基站无法覆盖的用户提供服务。令增强层的接收速率为γ₁，根据式(1)和(2)以及香农公式，用户i到宏基站的信道容量为

l_d，i代表无人机和用户i之间的路径损失，计算为

l_d,i＝p^(los)·η^(los)+(1-p^(los))·η^(nlos) (11)

g_d，i代表信道增益，计算为

根据香农公式可以计算出用户到无人机的信道容量为

3.3问题建模

为获得无人机的最优部署位置和带宽分配比重，使覆盖范围内的用户整体收到的SVC层数最多，对应如下优化问题

s.t.0＜B_d＜B-B_b (15)

x^(min)≤x_d≤x^(max) (16)

y^(min)≤y_d≤y^(max) (17)

z^(min)≤z_d≤z^(max) (18)

β_m,i+β_d,i≤1 (19)

β_m,i∈{0,1} (20)

β_d,i∈{0,1} (21)

约束条件(16)-(18)中，x_d、y_d和z_d为无人机的三维坐标。约束条件(19)中，β_m，i和β_d，i属于0-1变量。β_m，i＝1表示用户i可以收到来自宏基站m的增强层；反之表示未收到，即

β_d，i表示用户i能否收到无人机基站d的增强层

用户的位置随时间变化，且使用启发式算法在计算优化问题时重复运算带来的极高的计算复杂度，本文采用深度强化学习算法解决问题。实验证明，在一定的约束条件下，通过足够的时间学习，该方法可以在离散的环境下获得最优解。在足够的训练时间后，学习代理可以很短的时间内找到最优的无人机部署位置和带宽分配策略，这一特性对于解决用户的移动性问题来说至关重要，考虑到真实环境下用户分布的不稳定性，这种可以针对环境变化而迅速调优的能力十分重要。

4无人机部署及资源分配策略

4.1基于DDPG的算法设计

本发明提出基于DDPG算法的DDPG-UAV算法来解决无人机动态部署和带宽分配问题。DDPG算法是Actor-Critic算法的变种，优点在于能够在连续动作上更有效地学习。DDPG-UAV算法包含四个网络：Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。目标网络是当前网络的复制，Actor当前网络负责策略参数θ的更新，根据当前状态S选择当前动作A，用于和环境交互生成下一个状态S′和奖励R。Actor目标网络负责根据重放缓存(replay buffer)中采样的下一状态S′选择最优下一动作A′,其网络参数θ^μ′定期从Actor当前网络的参数θ^μ中复制。Critic当前网络负责价值网络参数θ^Q的更新，计算当前的Q值Q(S，A，θ^Q)。Critic目标网络负责计算目标Q值中的下一状态S′动作A′的Q值Q′(S′，A′，θ^Q′)，目标Q值为R+γQ′(S′，A′，θ^Q′)。每次迭代后使用当前网络更新目标网络。更新采用软更新(soft update)的方式

θ^Q′←τθ^Q+(1-τ)θ^Q′ (24)

和

θ^μ′←τθ^μ+(1-τ)θ^μ′ (25)

τ取值为0.001。由于该场景下动作空间是连续的，构造一个探索策略μ‘，通过给动作策略添加噪声的方式来实现强化学习中探索的过程,本文使用了DDPG论文中采用的Ornstein-Uhlenbeck process^[13]生成噪声。

本文的场景下，Actor网络以所有用户的二维位置信息s_t作为输入。Critic网络将用户的位置信息和Actor网络的输出动作作为输入，输出得分。算法的执行架构如图2所示。Reward(R)的设计采用增强层的宏基站和无人机基站服务率的加权平均的形式，计算为

为了鼓励模型探索更好的策略，给予ρ较大的比重，一般大于0.5。实验证明ρ＝0.6取得了最好的性能。

模型训练流程如下：

DDPG-UAV算法流程

1随机初始化Critic网络Q(s，a|θ^Q)和Actor网络的μ(s|θ^μ)权重参数

2初始化目标网络Q′和μ′的权重θ^Q′←θ^Q，θ^μ′←θ^μ

3初始化replay buffer R和用户环境E

4获得观测到的初始用户分布，将用户二维位置信息归一化得到状态输入s₁

3 for t＝1→M do

4根据Actor网络和噪声生成动作a_t＝μ(s_t|θ^μ)+noise

5执行动作并计算rewardr_t并观察新的状态s_t+1

6将(s_t，a_t，r_t，s_t+1)存入缓存R中

7从R中随机采样N组数据组成minibatch

8计算y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

9使用smooth l1损失函数最小化y_t和Q(s_t，a_t|θ^Q)的距离，并更新Critic网络参数θ^Q

10更新Actor policy

11更新目标网络：

θ^Q′←τθ^Q+91-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′；

12令s_t＝s_t+1

4.2 DDPG-UAV神经网络结构

Actor网络的输入是归一化的用户二元位置信息s_t。

s_t组织为一个三维矩阵，三个维度分别表示批量数、用户位置x坐标和y坐标。无人机的三维位置和增强层带宽分配比重作为输出的action a_t，组织为一个五维矩阵，五个维度分别表示批量数、无人机x坐标x_t、y坐标y_t、z坐标z_t和带宽分配比重ε_t。如图3所示，Actor网络由三个网络单元结构Actor block堆叠而成。每个Actor block由全连接层连接批归一化层(BatchNorm)[14]和带泄露修正线性单元(Leaky ReLU)函数构成网络的基本块结构。批归一化层的作用是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布，以保证训练的稳定性并缓解收敛慢的问题。Leaky ReLU是最常见的激活函数线性整流函数(ReLU)[15]的变体。实验证明，Actor网络采用Leaky ReLU性能优于ReLU激活函数。激活函数采用双曲正切函数(tanh)，将输出动作值的范围约束在(-1，1)之间。

图4展示了Critic网络的结构。Critic网络的输入是归一化的用户位置信息s_t和动作a_t。网络单元结构Critic Block和Actor Block类似，只是激活函数采用了ReLU函数。状态s_t通过一个Critic Block提取特征信息后，将特征信息和a_t进行连接操作，再将组合成的特征送到下一层。最终网络的输出是对当前用户状态s_t和采取动作a_t的评分，评分是一个二维矩阵，两个维度分别表示批量数和得分。

Critic网络的损失函数采用均方损失函数，Actor网络和Critic网络均采用Adam优化器，Actor网络的学习率为0.001，Critic网络的学习率为0.0001。实验表明，采用该模型能够在稳定收敛的条件下取得较好的性能，增强层覆盖率优于传统地面基站的异构网络。为缓解在训练初期Actor网络输出的不稳定性，并保证模型能够稳定收敛，实验中对模型网络结构和超参数设计进行了探索。在上文描述的模型结构的基础上，提出了另外两种结构：

DDPG-UAV-Sig：使用sigmoid激活函数替换Actor网络的tanh激活函数；

DDPG-UAV-LN：使用LayerNorm层来替换BatchNorm层以稳定训练过程^[16]。

图5给出三种方案训练近1万次迭代的平均奖励rewards的变化趋势。实验表明，三种方案都能在1万次迭代内有效收敛。DDPG-UAV-Sig网络结构虽然比DDPG-UAV更快收敛，但平均rewards远远落后于其他两种结构。DDPG-UAV-LN网络结构rewards训练曲线相比于DDPG-UAV更加光滑，更早收敛，但最终平均rewards略低于DDPG-UAV结构。

5性能评价

5.1实验设计

利用仿真环境验证所提出算法的性能。考虑一个宏基站同无人机小基站协同工作的场景。实验开始前用户位置分布服从泊松点过程，用户的移动遵循上文提出的RandomWalk模型，暂不考虑用户出入宏基站的覆盖范围，无人机不会飞出宏基站覆盖范围。宏基站的下行发射功率为46dBm，无人机基站的发射功率为26dBm，表1给出了重要仿真参数。

表1实验环境参数设置

为了客观地评估所提出方案的性能，将上文所提出的方案和常见的基于Q-learning的方法(命名为QL)进行比较。在相同的神经网络基本架构下，将训练完成的模型在仿真环境下迭代1万次之后，比较各个模型能接收到基础层和增强层的平均用户数。为了方便统计和计算，在模拟环境下，用户数量固定为50个。

从图6中可以看出，采用DDPG方法性能明显优于常见的采用Q-learning方法的模型。对比接收宏基站增强层的用户数量，基于DDPG算法的三种结构与基于Q-learning的算法差别较小。但对比接收无人机基站增强层的用户数，基于DDPG算法的三种结构远强于基于Q-learning的算法。

在相同仿真环境下用不同模型运行1万次迭代后，统计了用户接收视频图像的峰值信噪比(PSNR)。在基础层数据率180KBPS，增强层数据率440KBPS的情况下，平均峰值信噪比的核密度估计(Kernel Density Estimation,KDE)和累积分布函数(CumulativeDistribution Function,CDF)如图7所示。从PSNR核密度估计图中可以看出，DDPG-UAV模型的PSNR主要分布于36.65dB和37.25dB之间，而Q-learning模型的PSNR主要分布于36.25dB和36.85dB之间，采用DDPG-UAV方案在用户接收视频质量的分布上优基于Q-learning的方案。这是由于本文提出的神经网络直接决策下一个时间点无人机的位置，相较于基于Q-learning的模型决策无人机的动作更加准确，使无人机的部署更加合理。

5.2性能分析

在神经网络的训练和超参数的调试过程中可以发现，在网络结构不变的情况下，影响模型收敛和性能的瓶颈是超参数ρ。当超参数设置过小，使得reward基本由宏基站服务的用户贡献，这有可能导致模型无法探索更优的策略，将带宽的绝大部分分配给宏基站提供增强层服务，无人机基站处于无法服务任何用户的空转状态。当超参数设置过大，模型在训练过程中难以收敛且输出严重单一化。图8展示了模型在不同超参数ρ下的性能。

将模型设置不同的超参数ρ后，分别训练1万次，获得各个超参数下模型增强层的用户平均覆盖数。图7显示，较小的超参数ρ下无人机的平均覆盖数很小。当ρ接近0.8时，虽然无人机用户服务数和宏基站用户服务数相近但模型训练无法收敛。为了鼓励模型探索更好的无人机部署位置并保证稳定收敛，权重ρ设为0.6。

图9给出了测试数据中几个时间点无人机的三维坐标和覆盖半径。覆盖半径是由当前时间点能接收到无人机增强层的最远用户与无人机的水平距离决定的。从表中的数据可以看出，当用户随时间移动，无人机调整自身位置为覆盖范围内用户提供增强层服务。

图10给出了迭代10万次之后的无人机位置分布热度图。图中将宏基站覆盖范围的二维空间分成32乘以32的网格，每个网格的长宽均为50米，实验统计了每个网格范围内无人机的数量后生成了这张热度图，从图中可以看到，无人机大部分位置都落在了宏基站覆盖范围的靠边缘区域，以达到为远离宏基站的移动用户提供服务的目标。

结论

本文提出了一种无人机基站辅助的弹性视频多播方法。在无线网络中，将无人机基站和SVC多播相结合，研究了无人机三维空间位置部署和带宽资源分配的联合优化问题。在基站覆盖范围内，最大化用户整体增强层的接收层数。基于DDPG算法训练神经网络，根据用户位置进行决策，获得无人机位置和带宽分配。仿真结果表明，基于深度强化学习的无人机辅助弹性视频多播方法可以根据不断变化的用户分布调整无人机的位置为部分移动用户提供增强层服务，增强层覆盖率优于基于Q-learning算法的方案。

参考文献

[1]Araniti G,Condoluci M,Scopelliti P,et al.Multicasting overemerging 5G networks:Challenges and perspectives[J].Ieee network,2017,31(2):80-89.

[2]Agiwal M,Roy A,Saxena N.Next generation 5G wireless networks:Acomprehensive survey[J].IEEE Communications Surveys&Tutorials,2016,18(3):1617-1655.

[3]Ghosh A,Mangalvedhe N,Ratasuk R,et al.Heterogeneous cellularnetworks:From theory to practice[J].IEEE communications magazine,2012,50(6):54-64.

[4]Bor-Yaliniz R I,El-Keyi A,Yanikomeroglu H.Efficient 3-D placementof an aerial base station in next generation cellular networks[C]//2016 IEEEinternational conference on communications(ICC).IEEE,2016:1-5.

[5]Guo W,Devine C,Wang S.Performance analysis of micro unmannedairborne communication relays for cellular networks[C]//2014 9thinternational symposium on communication systems,networks&digital sign(CSNDSP).IEEE,2014:658-663.

[6]Mozaffari M,Saad W,Bennis M,et al.Drone small cells in the clouds:Design,deployment and performance analysis[C]//2015 IEEE globalcommunications conference(GLOBECOM).IEEE,2015:1-6.

[7]Bor-Yaliniz I,Yanikomeroglu H.The new frontier in RANheterogeneity:Multi-tier drone-cells[J].IEEE Communications Magazine,2016,54(11):48-55.

[8]Deruyck M,Wyckmans J,Martens L,et al.Emergency ad-hoc networks byusing drone mounted base stations for a disaster scenario[C]//2016 IEEE 12thInternational Conference on Wireless and Mobile Computing,Networking andCommunications(WiMob).IEEE,2016:1-7.

[9]Kalantari E,Bor-Yaliniz I,Yongacoglu A,et al.User association andbandwidth allocation for terrestrial and aerial base stations with backhaulconsiderations[C]//2017 IEEE 28th Annual International Symposium on Personal,Indoor,and Mobile Radio Communications(PIMRC).IEEE,2017:1-6.

[10]Mnih V,Badia A P,Mirza M,et al.Asynchronous methods for deepreinforcement learning[C]//International conference on machine learning.2016:1928-1937.

[11]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control withdeep reinforcement learning[J].arXiv preprint arXiv:1509.02971,2015.

[12]Cjc H W.Learning with delayed rewards[J].Ph.d.thesis CambridgeUniversity,1989,15(4):233-235.

[13]StackExange.Implementing Ornstein–Uhlenbeck in Matlab.(2017-9-22)[2020-5-20].https://math.stackexchange.com/questions/1287634/implementing-ornstein-uhlenbeck-in-matlab.

[14]Rota BulòS,Porzi L,Kontschieder P.In-place activated batchnormfor memory-optimized training of dnns[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2018:5639-5647.

[15]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificialintelligence and statistics.2011:315-323.

[16]Ba J L,Kiros J R,Hinton G E.Layer normalization[J].arXiv preprintarXiv:1607.06450,2016.

Claims

1.一种基于深度强化学习的无人机辅助弹性视频多播方法，其特征是在宏基站和及其从属基站组成的异构无线网络中，从属基站是以可移动的无人机为载体的无人机基站；宏基站和无人机基站各自服务其覆盖范围内的多播组；

2.根据权利要求1所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是在宏基站和及其从属基站组成的异构无线网络中，宏基站覆盖范围内的用户随时间不断运动；在某个时间点t时，设移动用户i处于静止状态；随时间不断变化的用户分布被分割为一个个连续时间点下的静态分布；通过当前的静态用户分布，根据当前的用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配；

当进入下一个时间点t+1，用户位置分布发生改变，则再次进行决策此时无人机的位置和资源分配；

当进入下一个时间点t+1，用户位置分布发生改变，系统再次进行决策，从而为移动用户提供自适应服务；

设用户集合为

总带宽资源为B，首先分配带宽B_b来向用户多播组提供基础层，将剩余带宽资源B-B_b分为B_m和B_d，B_m分配给宏基站投递增强层，B_d分配给无人机基站投递增强层；

在本异构无线网络中的通信模型为：

设无人机基站d和移动用户i之间的无线传播信道由Line of Sight直达波LoS概率信道来建模，则无人机基站d和用户i之间LoS连接的概率为

θ_i为arctan

是用户i到无人机基站的仰角，h_d是无人机基站的高度，v_i是用户i与无人机基站之间的水平距离；

用户i和无人机基站d之间的LoS连接路径损失为

用户i和无人机基站d之间的NLoS连接路径损失为

ξ^(los)和γ^(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数；

ξ^(nlos)和γ^(nlos)分别为None Line of Sight非直达波NLoS连接下参考距离的路径损耗补偿和路径损耗指数；

表示无人机基站和用户i之间的三维距离；

无人机基站和用户i之间的平均路径损耗l_d，i为

l_d,i＝p^(los)·η^(los)+(1-p^(los))·η^(nlos) (4)

信道增益g_d，i为

。

3.根据权利要求2所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是所述无人机基站的动态部署和资源分配联合优化步骤为：

1)基础层资源分配

在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层，设被请求视频资源基础层接收速率为γ₀，基于节省分配的带宽并满足基础层接收速率要求，计算出投递基础层所要分配的最小带宽；令η_m，i为宏基站m到用户i之间的平均路径损失

z_m，i是用户i与宏基站m的水平距离，h_m为宏基站m的高度；

宏基站m与用户i之间的信道增益表示为

因为基础层多播组的信道增益

由该分组内信道增益最差的用户决定，则有

根据香农公式，投递基础层所需要的带宽为

p_m为宏基站m的发射功率，σ²为高斯噪声；

2)增强层资源分配

增强层由宏基站和无人机基站联合提供，无人机基站为宏基站无法覆盖的用户提供服务；令增强层的接收速率为γ₁，根据式(1)和(2)以及香农公式，用户i到宏基站m的信道容量为

l_d，i代表无人机基站d和用户i之间的路径损失，计算为

l_d,i＝p^(los)·η^(los)+(1-p^(los))·η^(nlos) (11)

g_d，i代表信道增益，计算为

根据香农公式计算出用户d到无人机i的信道容量为

3)问题建模

为获得无人机基站的最优部署位置和带宽分配比重，使覆盖范围内的用户整体收到的SVC层数最多，对应如下优化问题

s.t.0＜B_d＜B-B_b (15)

x^(min)≤x_d≤x^(max) (16)

y^(min)≤y_d≤y^(max) (17)

z^(min)≤z_d≤z^(max) (18)

β_m,i+β_d,i≤1 (19)

β_m,i∈{0,1} (20)

β_d,i∈{0,1} (21)

约束条件(16)-(18)中，x_d、y_d和z_d为无人机基站的三维坐标；约束条件(19)中，β_m，i和β_d，i属于0-1变量；β_m，i＝1表示用户i可以收到来自宏基站m的增强层，反之表示未收到，即

β_d，i表示用户i能否收到无人机基站d的增强层

4)无人机基站部署及资源分配策略为：

4.1)采用基于DDPG算法的DDPG-UAV算法来进行无人机动态部署和带宽分配：

DDPG-UAV算法包含四个网络：Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络，目标网络是当前网络的复制；

Actor当前网络负责策略参数θ的更新，根据当前状态S选择当前动作A，用于和环境交互生成下一个状态S′和奖励R；

Actor目标网络负责根据重放缓存中采样的下一状态S′选择最优下一动作A′，其网络参数θ^μ′定期从Actor当前网络参数θ^μ中复制；

Critic当前网络负责价值网络参数θ^Q的更新，计算当前的Q值Q(S，A，θ^Q)；

Critic目标网络负责计算目标Q值中的下一状态S′动作A′的Q值Q′(S′，A′，θ^Q′)，目标Q值为R+γQ′(S′，A′，θ^Q′)；

每次迭代后使用当前网络更新目标网络；更新采用软更新的方式

θ^Q′←τθ^Q+(1-τ)θ^Q′ (24)

和

θ^μ′←τθ^μ+(1-τ)θ^μ′ (25)

τ取值为0.001；构造一个探索策略μ′，通过给动作策略添加噪声的方式来实现强化学习中探索的过程；

在本异构无线网络中，所述Actor网络以所有用户i的二维位置信息s_t作为输入；Critic网络将用户i的位置信息和Actor网络的输出动作作为输入，输出得分；

奖励的设计采用增强层的宏基站和无人机基站服务率的加权平均的形式，计算为

权重ρ大于0.5；

4.2)DDPG-UAV神经网络结构

Actor网络的输入是归一化的用户二元位置信息s_t；

s_t组织为一个三维矩阵，三个维度分别表示批量数、用户位置x坐标和y坐标；

无人机基站的三维位置和增强层带宽分配比重作为输出的动作a_t，组织为一个五维矩阵，五个维度分别表示批量数、无人机基站x坐标x_t、y坐标y_t、z坐标z_t和带宽分配比重ε_t；

Actor网络由三个网络单元结构Actor block堆叠而成；每个Actor block由全连接层连接批归一化层和带泄露修正线性单元Leaky ReLU函数构成网络的基本块结构；

批归一化层的作用是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布，以保证训练的稳定性并缓解收敛慢的问题；Leaky ReLU是激活函数线性整流函数ReLU的变体，激活函数采用双曲正切函数tanh，将输出动作值的范围约束在(-1，1)之间；

Critic网络的输入是s_t和a_t；网络单元结构Critic Block和Actor Block区别仅是激活函数采用了ReLU函数；s_t通过一个Critic Block提取特征信息后，将特征信息和a_t进行连接操作，再将组合成的特征送到下一层；最终网络的输出是对当前用户的s_t和无人机基站的采取动作a_t的评分，评分是一个二维矩阵，两个维度分别表示批量数和得分；

Critic网络的损失函数采用均方损失函数，Actor网络和Critic网络均采用Adam优化器，Actor网络的学习率为0.001，Critic网络的学习率为0.0001。

4.根据权利要求3所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是所述噪声的生成采用Ornstein-Uhlenbeck process奥恩斯坦-乌伦贝克过程生成噪声。

5.根据权利要求3所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是超参数ρ＝0.6。