CN112511197A - 基于深度强化学习的无人机辅助弹性视频多播方法 - Google Patents

基于深度强化学习的无人机辅助弹性视频多播方法 Download PDF

Info

Publication number
CN112511197A
CN112511197A CN202011384614.6A CN202011384614A CN112511197A CN 112511197 A CN112511197 A CN 112511197A CN 202011384614 A CN202011384614 A CN 202011384614A CN 112511197 A CN112511197 A CN 112511197A
Authority
CN
China
Prior art keywords
base station
unmanned aerial
aerial vehicle
user
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011384614.6A
Other languages
English (en)
Other versions
CN112511197B (zh
Inventor
沈航
汪悦
成昭炜
白光伟
王敏
王天荆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202011384614.6A priority Critical patent/CN112511197B/zh
Publication of CN112511197A publication Critical patent/CN112511197A/zh
Application granted granted Critical
Publication of CN112511197B publication Critical patent/CN112511197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/022Site diversity; Macro-diversity
    • H04B7/024Co-operative use of antennas of several sites, e.g. in co-ordinated multipoint or co-operative multiple-input multiple-output [MIMO] systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/64Addressing
    • H04N21/6405Multicasting

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出一个基于深度强化学习的无人机辅助弹性视频多播方法。本方法结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性。对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后,学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明,本方案达到了预期目标并且优于采用现有的基于Q‑learning的方案。

Description

基于深度强化学习的无人机辅助弹性视频多播方法
技术领域
本发明属于计算机技术领域,具体是一种基于深度强化学习的无人机辅助弹性视频多播方法。
背景技术
近年来,视频流量的快速增长加剧了无线网络资源的紧缺,为了保证用户的视频质量,前人在异构网络的基础上做出了诸多尝试。多播是有效利用无线网络资源的技术之一[1],是一种同时将数据传输到一组终端设备的可行有效的解决方案。多播使得请求同一视频资源的用户共享频谱资源。当多播组中用户都能正确接收到数据时,多播组中信道条件最差的用户成为了制约系统性能的关键。为了满足不同用户的视频质量需求,将可伸缩视频编码(Scale Video Coding,SVC)技术引入到无线视频多播中。采用SVC编码将视频分为一个基础层和多个增强层。用户可以根据不同的信道条件接收增强层,信道条件好的用户可以接收基础层和更多的增强层。虽然引入多播和SVC编码能够有效利用网络资源,但不能减少宏基站的压力。
为了缓解宏基站(Macro Base Station,MBS)的压力,在异构蜂窝网络中引入了小型固定基站(small-cell base station)[2],然而在现有的研究文献中小型基站的部署主要基于对通信量长期时空分布的预测。对于不可预知的时空分布,固定基站在服务移动用户时缺乏灵活性,导致用户整体的视频质量下降。近期的一些工作提出在常规网络中部署无人机基站(Drone-mounted Base Station,DBS)[3-5],以增强无线网络的效率和灵活性[6]。在用户的位置难以预测和无法被宏基站覆盖的情况下,无人机基站可以提供支持。这些案例包括对农村地区的覆盖、协助宏基站解决网络拥堵和大型公共活动等[6-8]。不同于传统的小型固定基站,无人机移动基站能够更快、更廉价的部署。文献[9]考虑了用户对延迟的容忍和敏感程度,提出了一种无人机的三维定位算法,还研究了用户-基站关联和无线回程的带宽的分配问题,以最大程度地提高网络效用。文献[6]研究了无人机基站的下行覆盖性能。在无人机辅助的无线网络下,无人机的位置部署和轨迹设计影响着系统的整体覆盖性能。然而,现有的无人机部署和资源分配机制很少从用户移动角度考虑无人机位置和资源分配。因此,有必要设计终端设备移动性感知的无人机动态部署方法,促进资源优化配置。
发明内容
为了解决上述技术问题,本发明提出一种基于深度强化学习的无人机辅助弹性视频多播方法,是在宏基站和及其从属基站组成的异构无线网络中,从属基站是以可移动的无人机为载体的无人机基站;宏基站和无人机基站各自服务其覆盖范围内的多播组;
基于SVC编码将流媒体视频资源分割为基础层和增强层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供,其中,无人机基站为偏远位置的移动用户提供增强层;用户首先收到宏基站的基础层,再根据自身所处的位置和视频接收速率决定从属,接收宏基站或无人机基站提供的增强层;
无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关,在基站覆盖范围内,对无人机基站的动态部署和资源分配进行优化;
所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化;首先对基础层资源分配和增强层资源分配的优化问题建模;然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化,最终获得无人机基站的位置和带宽资源分配。
本方法是一种异构网络下无人机基站辅助的弹性视频多播方法,它结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性。对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后,学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明,本文提出的方案达到了预期目标并且优于采用现有的基于Q-learning的方案。
附图说明
图1是网络系统架构
图2是DDPG-UAV算法执行架构
图3是Actor网络结构
图4是Critic网络结构
图5是训练趋势
图6是接收到两层的平均用户数
图7是平均PSNR的核密度估计和累积分布
图8是Reward超参数性能比较
图9是无人机轨迹
图10是无人机分布热度。
具体实施方式
下面结合附图与具体实施方式对本案进一步说明,第一部分对本发明技术方案进行概述。第二部分描述了系统模型。第三部分提出无人机部署和资源分配联合优化问题。第四节提出了无人机部署位置和资源分配策略。第五部分阐述仿真实验设计和性能评估。第六部分给出了结论。
1、方案总述:
本文提出一种无人机基站辅助的弹性视频多播方法。基于SVC编码,将流媒体视频资源分割为多层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供。无人机位置和资源分配决定了无人机基站和宏基站的增强层覆盖效率。在基站覆盖范围内,为了最大化用户整体的增强层接收层数,综合无人机动态部署和资源分配,提出联合优化问题。对面向SVC视频分发的资源分配和无人机部署联合优化问题进行建模。在求解优化问题时,考虑传统启发式算法的计算复杂度和时间延迟,设计基于深度强化学习的DDPG(Deep Deterministic Policy Gradient)算法[11]并训练神经网络。该神经网络根据移动用户的位置分布进行决策,获得无人机的位置和带宽资源分配。为提高训练稳定性、加快模型收敛和优化目标,提供三种代表性的神经网络结构。仿真实验结果表明,该无人机部署和资源分配策略可以达到预期目标并且优于现有的基于Q-learning[12]的方案。
2系统模型
2.1视频分发网络架构
如图1所示,本例考虑一个由单个宏基站和单个无人机移动基站组成的异构无线网络。
宏基站和无人机基站各自服务其覆盖范围内的多播组。将视频的SVC编码分为基础层和增强层两层,宏基站提供基础层和增强层,无人机基站(从属的基站)为位置相对偏远的移动用户提供增强层,用户首先收到宏基站的基础层,再根据所处的位置和视频接收速率决定从属,接收无人机基站提供的增强层。
宏基站覆盖范围内的用户随时间不断运动。在时间点t时,系统假定用户处于静止状态。随时间不断变化的用户分布便可被分割为一个个连续时间点下的静态分布。通过当前的静态用户分布,系统根据当前用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配策略。
当进入下一个时间点t+1,用户位置分布发生改变,系统再次进行决策,从而为移动用户提供自适应服务。
设用户集合为
Figure BDA0002810699320000031
总带宽资源为B,系统首先分配带宽Bb来向用户多播组提供基础层,将剩余带宽资源B-Bb分为Bm和Bd,Bm分配给宏基站投递增强层,Bd分配给无人机基站投递增强层。
2.2通信模型
无人机基站d和移动用户i之间的无线传播信道可以由LoS(Line of Sight)概率信道来建模,无人机基站和用户i之间LoS连接的概率为
Figure BDA0002810699320000032
θi
Figure BDA0002810699320000033
是用户i到无人机的仰角,hd是无人机的高度,vi是用户i与无人机之间的水平距离。α、β为Sigmoid曲线参数。
用户和无人机之间的LoS连接路径损失为
Figure BDA0002810699320000034
用户和无人机之间的NLoS连接路径损失为
Figure BDA0002810699320000035
ξ(los)和γ(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数;ξ(nlos)和γ(nlos)分别为NLoS(None Line of Sight)连接下参考距离的路径损耗补偿和路径损耗指数。
Figure BDA0002810699320000036
表示无人机基站和用户i之间的三维距离;无人机基站和用户i之间的平均路径损耗ld,i
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (4)
信道增益gd,i
Figure BDA0002810699320000037
3无人机动态部署和资源分配联合优化问题
3.1基础层资源分配
在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层。设被请求视频资源基础层接收速率为γ0,为了节省分配的带宽并满足基础层接收速率要求,可计算出投递基础层所要分配的最小带宽。令ηm,i为宏基站m到用户i之间的平均路径损失
Figure BDA0002810699320000038
zm,i是用户i与宏基站m的水平距离,hm为宏基站m的高度。宏基站与用户之间的信道增益,表示为
Figure BDA0002810699320000039
因为基础层多播组的信道增益
Figure BDA00028106993200000310
由该分组内信道增益最差的用户决定,因此有
Figure BDA00028106993200000311
根据香农公式,投递基础层所需要的带宽为
Figure BDA00028106993200000312
pm为宏基站m的发射功率,σ2为高斯噪声。
3.2增强层资源分配
增强层由宏基站和无人机基站联合提供,无人机基站为宏基站无法覆盖的用户提供服务。令增强层的接收速率为γ1,根据式(1)和(2)以及香农公式,用户i到宏基站的信道容量为
Figure BDA0002810699320000041
ld,i代表无人机和用户i之间的路径损失,计算为
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (11)
gd,i代表信道增益,计算为
Figure BDA0002810699320000042
根据香农公式可以计算出用户到无人机的信道容量为
Figure BDA0002810699320000043
3.3问题建模
为获得无人机的最优部署位置和带宽分配比重,使覆盖范围内的用户整体收到的SVC层数最多,对应如下优化问题
Figure BDA0002810699320000044
s.t.0<Bd<B-Bb (15)
x(min)≤xd≤x(max) (16)
y(min)≤yd≤y(max) (17)
z(min)≤zd≤z(max) (18)
βm,id,i≤1 (19)
βm,i∈{0,1} (20)
βd,i∈{0,1} (21)
约束条件(16)-(18)中,xd、yd和zd为无人机的三维坐标。约束条件(19)中,βm,i和βd,i属于0-1变量。βm,i=1表示用户i可以收到来自宏基站m的增强层;反之表示未收到,即
Figure BDA0002810699320000045
βd,i表示用户i能否收到无人机基站d的增强层
Figure BDA0002810699320000046
用户的位置随时间变化,且使用启发式算法在计算优化问题时重复运算带来的极高的计算复杂度,本文采用深度强化学习算法解决问题。实验证明,在一定的约束条件下,通过足够的时间学习,该方法可以在离散的环境下获得最优解。在足够的训练时间后,学习代理可以很短的时间内找到最优的无人机部署位置和带宽分配策略,这一特性对于解决用户的移动性问题来说至关重要,考虑到真实环境下用户分布的不稳定性,这种可以针对环境变化而迅速调优的能力十分重要。
4无人机部署及资源分配策略
4.1基于DDPG的算法设计
本发明提出基于DDPG算法的DDPG-UAV算法来解决无人机动态部署和带宽分配问题。DDPG算法是Actor-Critic算法的变种,优点在于能够在连续动作上更有效地学习。DDPG-UAV算法包含四个网络:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络。目标网络是当前网络的复制,Actor当前网络负责策略参数θ的更新,根据当前状态S选择当前动作A,用于和环境交互生成下一个状态S′和奖励R。Actor目标网络负责根据重放缓存(replay buffer)中采样的下一状态S′选择最优下一动作A′,其网络参数θμ′定期从Actor当前网络的参数θμ中复制。Critic当前网络负责价值网络参数θQ的更新,计算当前的Q值Q(S,A,θQ)。Critic目标网络负责计算目标Q值中的下一状态S′动作A′的Q值Q′(S′,A′,θQ′),目标Q值为R+γQ′(S′,A′,θQ′)。每次迭代后使用当前网络更新目标网络。更新采用软更新(soft update)的方式
θQ′←τθQ+(1-τ)θQ′ (24)
θμ′←τθμ+(1-τ)θμ′ (25)
τ取值为0.001。由于该场景下动作空间是连续的,构造一个探索策略μ‘,通过给动作策略添加噪声的方式来实现强化学习中探索的过程,本文使用了DDPG论文中采用的Ornstein-Uhlenbeck process[13]生成噪声。
本文的场景下,Actor网络以所有用户的二维位置信息st作为输入。Critic网络将用户的位置信息和Actor网络的输出动作作为输入,输出得分。算法的执行架构如图2所示。Reward(R)的设计采用增强层的宏基站和无人机基站服务率的加权平均的形式,计算为
Figure BDA0002810699320000051
为了鼓励模型探索更好的策略,给予ρ较大的比重,一般大于0.5。实验证明ρ=0.6取得了最好的性能。
模型训练流程如下:
DDPG-UAV算法流程
1随机初始化Critic网络Q(s,a|θQ)和Actor网络的μ(s|θμ)权重参数
2初始化目标网络Q′和μ′的权重θQ′←θQ,θμ′←θμ
3初始化replay buffer R和用户环境E
4获得观测到的初始用户分布,将用户二维位置信息归一化得到状态输入s1
3 for t=1→M do
4根据Actor网络和噪声生成动作at=μ(stμ)+noise
5执行动作并计算rewardrt并观察新的状态st+1
6将(st,at,rt,st+1)存入缓存R中
7从R中随机采样N组数据组成minibatch
8计算yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
9使用smooth l1损失函数最小化yt和Q(st,atQ)的距离,并更新Critic网络参数θQ
10更新Actor policy
11更新目标网络:
θQ′←τθQ+91-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
12令st=st+1
4.2 DDPG-UAV神经网络结构
Actor网络的输入是归一化的用户二元位置信息st
st组织为一个三维矩阵,三个维度分别表示批量数、用户位置x坐标和y坐标。无人机的三维位置和增强层带宽分配比重作为输出的action at,组织为一个五维矩阵,五个维度分别表示批量数、无人机x坐标xt、y坐标yt、z坐标zt和带宽分配比重εt。如图3所示,Actor网络由三个网络单元结构Actor block堆叠而成。每个Actor block由全连接层连接批归一化层(BatchNorm)[14]和带泄露修正线性单元(Leaky ReLU)函数构成网络的基本块结构。批归一化层的作用是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,以保证训练的稳定性并缓解收敛慢的问题。Leaky ReLU是最常见的激活函数线性整流函数(ReLU)[15]的变体。实验证明,Actor网络采用Leaky ReLU性能优于ReLU激活函数。激活函数采用双曲正切函数(tanh),将输出动作值的范围约束在(-1,1)之间。
图4展示了Critic网络的结构。Critic网络的输入是归一化的用户位置信息st和动作at。网络单元结构Critic Block和Actor Block类似,只是激活函数采用了ReLU函数。状态st通过一个Critic Block提取特征信息后,将特征信息和at进行连接操作,再将组合成的特征送到下一层。最终网络的输出是对当前用户状态st和采取动作at的评分,评分是一个二维矩阵,两个维度分别表示批量数和得分。
Critic网络的损失函数采用均方损失函数,Actor网络和Critic网络均采用Adam优化器,Actor网络的学习率为0.001,Critic网络的学习率为0.0001。实验表明,采用该模型能够在稳定收敛的条件下取得较好的性能,增强层覆盖率优于传统地面基站的异构网络。为缓解在训练初期Actor网络输出的不稳定性,并保证模型能够稳定收敛,实验中对模型网络结构和超参数设计进行了探索。在上文描述的模型结构的基础上,提出了另外两种结构:
DDPG-UAV-Sig:使用sigmoid激活函数替换Actor网络的tanh激活函数;
DDPG-UAV-LN:使用LayerNorm层来替换BatchNorm层以稳定训练过程[16]
图5给出三种方案训练近1万次迭代的平均奖励rewards的变化趋势。实验表明,三种方案都能在1万次迭代内有效收敛。DDPG-UAV-Sig网络结构虽然比DDPG-UAV更快收敛,但平均rewards远远落后于其他两种结构。DDPG-UAV-LN网络结构rewards训练曲线相比于DDPG-UAV更加光滑,更早收敛,但最终平均rewards略低于DDPG-UAV结构。
5性能评价
5.1实验设计
利用仿真环境验证所提出算法的性能。考虑一个宏基站同无人机小基站协同工作的场景。实验开始前用户位置分布服从泊松点过程,用户的移动遵循上文提出的RandomWalk模型,暂不考虑用户出入宏基站的覆盖范围,无人机不会飞出宏基站覆盖范围。宏基站的下行发射功率为46dBm,无人机基站的发射功率为26dBm,表1给出了重要仿真参数。
表1实验环境参数设置
Figure BDA0002810699320000061
为了客观地评估所提出方案的性能,将上文所提出的方案和常见的基于Q-learning的方法(命名为QL)进行比较。在相同的神经网络基本架构下,将训练完成的模型在仿真环境下迭代1万次之后,比较各个模型能接收到基础层和增强层的平均用户数。为了方便统计和计算,在模拟环境下,用户数量固定为50个。
从图6中可以看出,采用DDPG方法性能明显优于常见的采用Q-learning方法的模型。对比接收宏基站增强层的用户数量,基于DDPG算法的三种结构与基于Q-learning的算法差别较小。但对比接收无人机基站增强层的用户数,基于DDPG算法的三种结构远强于基于Q-learning的算法。
在相同仿真环境下用不同模型运行1万次迭代后,统计了用户接收视频图像的峰值信噪比(PSNR)。在基础层数据率180KBPS,增强层数据率440KBPS的情况下,平均峰值信噪比的核密度估计(Kernel Density Estimation,KDE)和累积分布函数(CumulativeDistribution Function,CDF)如图7所示。从PSNR核密度估计图中可以看出,DDPG-UAV模型的PSNR主要分布于36.65dB和37.25dB之间,而Q-learning模型的PSNR主要分布于36.25dB和36.85dB之间,采用DDPG-UAV方案在用户接收视频质量的分布上优基于Q-learning的方案。这是由于本文提出的神经网络直接决策下一个时间点无人机的位置,相较于基于Q-learning的模型决策无人机的动作更加准确,使无人机的部署更加合理。
5.2性能分析
在神经网络的训练和超参数的调试过程中可以发现,在网络结构不变的情况下,影响模型收敛和性能的瓶颈是超参数ρ。当超参数设置过小,使得reward基本由宏基站服务的用户贡献,这有可能导致模型无法探索更优的策略,将带宽的绝大部分分配给宏基站提供增强层服务,无人机基站处于无法服务任何用户的空转状态。当超参数设置过大,模型在训练过程中难以收敛且输出严重单一化。图8展示了模型在不同超参数ρ下的性能。
将模型设置不同的超参数ρ后,分别训练1万次,获得各个超参数下模型增强层的用户平均覆盖数。图7显示,较小的超参数ρ下无人机的平均覆盖数很小。当ρ接近0.8时,虽然无人机用户服务数和宏基站用户服务数相近但模型训练无法收敛。为了鼓励模型探索更好的无人机部署位置并保证稳定收敛,权重ρ设为0.6。
图9给出了测试数据中几个时间点无人机的三维坐标和覆盖半径。覆盖半径是由当前时间点能接收到无人机增强层的最远用户与无人机的水平距离决定的。从表中的数据可以看出,当用户随时间移动,无人机调整自身位置为覆盖范围内用户提供增强层服务。
图10给出了迭代10万次之后的无人机位置分布热度图。图中将宏基站覆盖范围的二维空间分成32乘以32的网格,每个网格的长宽均为50米,实验统计了每个网格范围内无人机的数量后生成了这张热度图,从图中可以看到,无人机大部分位置都落在了宏基站覆盖范围的靠边缘区域,以达到为远离宏基站的移动用户提供服务的目标。
结论
本文提出了一种无人机基站辅助的弹性视频多播方法。在无线网络中,将无人机基站和SVC多播相结合,研究了无人机三维空间位置部署和带宽资源分配的联合优化问题。在基站覆盖范围内,最大化用户整体增强层的接收层数。基于DDPG算法训练神经网络,根据用户位置进行决策,获得无人机位置和带宽分配。仿真结果表明,基于深度强化学习的无人机辅助弹性视频多播方法可以根据不断变化的用户分布调整无人机的位置为部分移动用户提供增强层服务,增强层覆盖率优于基于Q-learning算法的方案。
参考文献
[1]Araniti G,Condoluci M,Scopelliti P,et al.Multicasting overemerging 5G networks:Challenges and perspectives[J].Ieee network,2017,31(2):80-89.
[2]Agiwal M,Roy A,Saxena N.Next generation 5G wireless networks:Acomprehensive survey[J].IEEE Communications Surveys&Tutorials,2016,18(3):1617-1655.
[3]Ghosh A,Mangalvedhe N,Ratasuk R,et al.Heterogeneous cellularnetworks:From theory to practice[J].IEEE communications magazine,2012,50(6):54-64.
[4]Bor-Yaliniz R I,El-Keyi A,Yanikomeroglu H.Efficient 3-D placementof an aerial base station in next generation cellular networks[C]//2016 IEEEinternational conference on communications(ICC).IEEE,2016:1-5.
[5]Guo W,Devine C,Wang S.Performance analysis of micro unmannedairborne communication relays for cellular networks[C]//2014 9thinternational symposium on communication systems,networks&digital sign(CSNDSP).IEEE,2014:658-663.
[6]Mozaffari M,Saad W,Bennis M,et al.Drone small cells in the clouds:Design,deployment and performance analysis[C]//2015 IEEE globalcommunications conference(GLOBECOM).IEEE,2015:1-6.
[7]Bor-Yaliniz I,Yanikomeroglu H.The new frontier in RANheterogeneity:Multi-tier drone-cells[J].IEEE Communications Magazine,2016,54(11):48-55.
[8]Deruyck M,Wyckmans J,Martens L,et al.Emergency ad-hoc networks byusing drone mounted base stations for a disaster scenario[C]//2016 IEEE 12thInternational Conference on Wireless and Mobile Computing,Networking andCommunications(WiMob).IEEE,2016:1-7.
[9]Kalantari E,Bor-Yaliniz I,Yongacoglu A,et al.User association andbandwidth allocation for terrestrial and aerial base stations with backhaulconsiderations[C]//2017 IEEE 28th Annual International Symposium on Personal,Indoor,and Mobile Radio Communications(PIMRC).IEEE,2017:1-6.
[10]Mnih V,Badia A P,Mirza M,et al.Asynchronous methods for deepreinforcement learning[C]//International conference on machine learning.2016:1928-1937.
[11]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control withdeep reinforcement learning[J].arXiv preprint arXiv:1509.02971,2015.
[12]Cjc H W.Learning with delayed rewards[J].Ph.d.thesis CambridgeUniversity,1989,15(4):233-235.
[13]StackExange.Implementing Ornstein–Uhlenbeck in Matlab.(2017-9-22)[2020-5-20].https://math.stackexchange.com/questions/1287634/implementing-ornstein-uhlenbeck-in-matlab.
[14]Rota BulòS,Porzi L,Kontschieder P.In-place activated batchnormfor memory-optimized training of dnns[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2018:5639-5647.
[15]Glorot X,Bordes A,Bengio Y.Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificialintelligence and statistics.2011:315-323.
[16]Ba J L,Kiros J R,Hinton G E.Layer normalization[J].arXiv preprintarXiv:1607.06450,2016.

Claims (5)

1.一种基于深度强化学习的无人机辅助弹性视频多播方法,其特征是在宏基站和及其从属基站组成的异构无线网络中,从属基站是以可移动的无人机为载体的无人机基站;宏基站和无人机基站各自服务其覆盖范围内的多播组;
基于SVC编码将流媒体视频资源分割为基础层和增强层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供,其中,无人机基站为偏远位置的移动用户提供增强层;用户首先收到宏基站的基础层,再根据自身所处的位置和视频接收速率决定从属,接收宏基站或无人机基站提供的增强层;
无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关,在基站覆盖范围内,对无人机基站的动态部署和资源分配进行优化;
所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化;首先对基础层资源分配和增强层资源分配的优化问题建模;然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化,最终获得无人机基站的位置和带宽资源分配。
2.根据权利要求1所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是在宏基站和及其从属基站组成的异构无线网络中,宏基站覆盖范围内的用户随时间不断运动;在某个时间点t时,设移动用户i处于静止状态;随时间不断变化的用户分布被分割为一个个连续时间点下的静态分布;通过当前的静态用户分布,根据当前的用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配;
当进入下一个时间点t+1,用户位置分布发生改变,则再次进行决策此时无人机的位置和资源分配;
当进入下一个时间点t+1,用户位置分布发生改变,系统再次进行决策,从而为移动用户提供自适应服务;
设用户集合为
Figure FDA0002810699310000011
总带宽资源为B,首先分配带宽Bb来向用户多播组提供基础层,将剩余带宽资源B-Bb分为Bm和Bd,Bm分配给宏基站投递增强层,Bd分配给无人机基站投递增强层;
在本异构无线网络中的通信模型为:
设无人机基站d和移动用户i之间的无线传播信道由Line of Sight直达波LoS概率信道来建模,则无人机基站d和用户i之间LoS连接的概率为
Figure FDA0002810699310000012
θi为arctan
Figure FDA0002810699310000013
是用户i到无人机基站的仰角,hd是无人机基站的高度,vi是用户i与无人机基站之间的水平距离;
用户i和无人机基站d之间的LoS连接路径损失为
Figure FDA0002810699310000014
用户i和无人机基站d之间的NLoS连接路径损失为
Figure FDA0002810699310000015
ξ(los)和γ(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数;
ξ(nlos)和γ(nlos)分别为None Line of Sight非直达波NLoS连接下参考距离的路径损耗补偿和路径损耗指数;
Figure FDA0002810699310000016
表示无人机基站和用户i之间的三维距离;
无人机基站和用户i之间的平均路径损耗ld,i
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (4)
信道增益gd,i
Figure FDA0002810699310000017
3.根据权利要求2所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是所述无人机基站的动态部署和资源分配联合优化步骤为:
1)基础层资源分配
在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层,设被请求视频资源基础层接收速率为γ0,基于节省分配的带宽并满足基础层接收速率要求,计算出投递基础层所要分配的最小带宽;令ηm,i为宏基站m到用户i之间的平均路径损失
Figure FDA0002810699310000022
zm,i是用户i与宏基站m的水平距离,hm为宏基站m的高度;
宏基站m与用户i之间的信道增益表示为
Figure FDA0002810699310000023
因为基础层多播组的信道增益
Figure FDA0002810699310000024
由该分组内信道增益最差的用户决定,则有
Figure FDA0002810699310000025
根据香农公式,投递基础层所需要的带宽为
Figure FDA0002810699310000026
pm为宏基站m的发射功率,σ2为高斯噪声;
2)增强层资源分配
增强层由宏基站和无人机基站联合提供,无人机基站为宏基站无法覆盖的用户提供服务;令增强层的接收速率为γ1,根据式(1)和(2)以及香农公式,用户i到宏基站m的信道容量为
Figure FDA0002810699310000027
ld,i代表无人机基站d和用户i之间的路径损失,计算为
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (11)
gd,i代表信道增益,计算为
Figure FDA0002810699310000028
根据香农公式计算出用户d到无人机i的信道容量为
Figure FDA0002810699310000029
3)问题建模
为获得无人机基站的最优部署位置和带宽分配比重,使覆盖范围内的用户整体收到的SVC层数最多,对应如下优化问题
Figure FDA00028106993100000210
s.t.0<Bd<B-Bb (15)
x(min)≤xd≤x(max) (16)
y(min)≤yd≤y(max) (17)
z(min)≤zd≤z(max) (18)
βm,id,i≤1 (19)
βm,i∈{0,1} (20)
βd,i∈{0,1} (21)
约束条件(16)-(18)中,xd、yd和zd为无人机基站的三维坐标;约束条件(19)中,βm,i和βd,i属于0-1变量;βm,i=1表示用户i可以收到来自宏基站m的增强层,反之表示未收到,即
Figure FDA0002810699310000031
βd,i表示用户i能否收到无人机基站d的增强层
Figure FDA0002810699310000032
4)无人机基站部署及资源分配策略为:
4.1)采用基于DDPG算法的DDPG-UAV算法来进行无人机动态部署和带宽分配:
DDPG-UAV算法包含四个网络:Critic当前网络、Critic目标网络、Actor当前网络和Actor目标网络,目标网络是当前网络的复制;
Actor当前网络负责策略参数θ的更新,根据当前状态S选择当前动作A,用于和环境交互生成下一个状态S′和奖励R;
Actor目标网络负责根据重放缓存中采样的下一状态S′选择最优下一动作A′,其网络参数θμ′定期从Actor当前网络参数θμ中复制;
Critic当前网络负责价值网络参数θQ的更新,计算当前的Q值Q(S,A,θQ);
Critic目标网络负责计算目标Q值中的下一状态S′动作A′的Q值Q′(S′,A′,θQ′),目标Q值为R+γQ′(S′,A′,θQ′);
每次迭代后使用当前网络更新目标网络;更新采用软更新的方式
θQ′←τθQ+(1-τ)θQ′ (24)
θμ′←τθμ+(1-τ)θμ′ (25)
τ取值为0.001;构造一个探索策略μ′,通过给动作策略添加噪声的方式来实现强化学习中探索的过程;
在本异构无线网络中,所述Actor网络以所有用户i的二维位置信息st作为输入;Critic网络将用户i的位置信息和Actor网络的输出动作作为输入,输出得分;
奖励的设计采用增强层的宏基站和无人机基站服务率的加权平均的形式,计算为
Figure FDA0002810699310000033
权重ρ大于0.5;
4.2)DDPG-UAV神经网络结构
Actor网络的输入是归一化的用户二元位置信息st
st组织为一个三维矩阵,三个维度分别表示批量数、用户位置x坐标和y坐标;
无人机基站的三维位置和增强层带宽分配比重作为输出的动作at,组织为一个五维矩阵,五个维度分别表示批量数、无人机基站x坐标xt、y坐标yt、z坐标zt和带宽分配比重εt
Actor网络由三个网络单元结构Actor block堆叠而成;每个Actor block由全连接层连接批归一化层和带泄露修正线性单元Leaky ReLU函数构成网络的基本块结构;
批归一化层的作用是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,以保证训练的稳定性并缓解收敛慢的问题;Leaky ReLU是激活函数线性整流函数ReLU的变体,激活函数采用双曲正切函数tanh,将输出动作值的范围约束在(-1,1)之间;
Critic网络的输入是st和at;网络单元结构Critic Block和Actor Block区别仅是激活函数采用了ReLU函数;st通过一个Critic Block提取特征信息后,将特征信息和at进行连接操作,再将组合成的特征送到下一层;最终网络的输出是对当前用户的st和无人机基站的采取动作at的评分,评分是一个二维矩阵,两个维度分别表示批量数和得分;
Critic网络的损失函数采用均方损失函数,Actor网络和Critic网络均采用Adam优化器,Actor网络的学习率为0.001,Critic网络的学习率为0.0001。
4.根据权利要求3所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是所述噪声的生成采用Ornstein-Uhlenbeck process奥恩斯坦-乌伦贝克过程生成噪声。
5.根据权利要求3所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是超参数ρ=0.6。
CN202011384614.6A 2020-12-01 2020-12-01 基于深度强化学习的无人机辅助弹性视频多播方法 Active CN112511197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011384614.6A CN112511197B (zh) 2020-12-01 2020-12-01 基于深度强化学习的无人机辅助弹性视频多播方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011384614.6A CN112511197B (zh) 2020-12-01 2020-12-01 基于深度强化学习的无人机辅助弹性视频多播方法

Publications (2)

Publication Number Publication Date
CN112511197A true CN112511197A (zh) 2021-03-16
CN112511197B CN112511197B (zh) 2022-12-23

Family

ID=74968989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011384614.6A Active CN112511197B (zh) 2020-12-01 2020-12-01 基于深度强化学习的无人机辅助弹性视频多播方法

Country Status (1)

Country Link
CN (1) CN112511197B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113156992A (zh) * 2021-04-12 2021-07-23 安徽大学 面向边缘环境下无人机的三层架构协同优化系统及方法
CN113188547A (zh) * 2021-05-06 2021-07-30 国能朔黄铁路发展有限责任公司 无人机路径规划方法、装置、控制器及存储介质
CN113346966A (zh) * 2021-05-27 2021-09-03 上海电机学院 一种智能电网无人机巡检通信子系统信道反馈方法
CN113872666A (zh) * 2021-09-15 2021-12-31 北京邮电大学 一种密集城区下基于Backhaul容量约束的无人机部署方法
CN113993101A (zh) * 2021-10-21 2022-01-28 北京邮电大学 一种用户为中心无人机辅助网络的分布式Cache部署方法
CN115103377A (zh) * 2022-06-02 2022-09-23 南京工业大学 无人机辅助无线接入网中noma增强的svc视频多播机制
CN115802362A (zh) * 2022-08-18 2023-03-14 电子科技大学 基于自主学习的无人机辅助无线网络部署方法
CN115103377B (zh) * 2022-06-02 2024-05-24 南京工业大学 无人机辅助无线接入网中noma增强的svc视频多播机制

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682380A (zh) * 2019-01-16 2019-04-26 北京邮电大学 一种通信无人机路径优化方法及设备
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110049315A (zh) * 2019-04-26 2019-07-23 山西大学 一种提高直播视频系统用户体验质量的方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109682380A (zh) * 2019-01-16 2019-04-26 北京邮电大学 一种通信无人机路径优化方法及设备
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110049315A (zh) * 2019-04-26 2019-07-23 山西大学 一种提高直播视频系统用户体验质量的方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
常宇等: "无线网络中基于深度强化学习的资源分配研究", 《测试技术学报》 *
康云鹏等: "车联网中基于SVC视频传输业务的资源分配研究", 《测试技术学报》 *
成昭炜等: "基于深度强化学习的无人机辅助弹性视频多播机制", 《计算机科学》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113156992A (zh) * 2021-04-12 2021-07-23 安徽大学 面向边缘环境下无人机的三层架构协同优化系统及方法
CN113188547A (zh) * 2021-05-06 2021-07-30 国能朔黄铁路发展有限责任公司 无人机路径规划方法、装置、控制器及存储介质
CN113346966A (zh) * 2021-05-27 2021-09-03 上海电机学院 一种智能电网无人机巡检通信子系统信道反馈方法
CN113872666A (zh) * 2021-09-15 2021-12-31 北京邮电大学 一种密集城区下基于Backhaul容量约束的无人机部署方法
CN113993101A (zh) * 2021-10-21 2022-01-28 北京邮电大学 一种用户为中心无人机辅助网络的分布式Cache部署方法
CN115103377A (zh) * 2022-06-02 2022-09-23 南京工业大学 无人机辅助无线接入网中noma增强的svc视频多播机制
CN115103377B (zh) * 2022-06-02 2024-05-24 南京工业大学 无人机辅助无线接入网中noma增强的svc视频多播机制
CN115802362A (zh) * 2022-08-18 2023-03-14 电子科技大学 基于自主学习的无人机辅助无线网络部署方法
CN115802362B (zh) * 2022-08-18 2024-05-24 电子科技大学 基于自主学习的无人机辅助无线网络部署方法

Also Published As

Publication number Publication date
CN112511197B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN112511197B (zh) 基于深度强化学习的无人机辅助弹性视频多播方法
Khairy et al. Constrained deep reinforcement learning for energy sustainable multi-UAV based random access IoT networks with NOMA
Chen et al. Data correlation-aware resource management in wireless virtual reality (VR): An echo state transfer learning approach
Challita et al. Interference management for cellular-connected UAVs: A deep reinforcement learning approach
Challita et al. Cellular-connected UAVs over 5G: Deep reinforcement learning for interference management
Wei et al. Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning
CN111615200A (zh) 混合Hybrid NOMA网络的无人机辅助通信资源分配方法
CN112020103A (zh) 一种移动边缘云中的内容缓存部署方法
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN114595632A (zh) 一种基于联邦学习的移动边缘缓存优化方法
CN113359480B (zh) 基于mappo算法多无人机与用户协同通信优化方法
Ji et al. Trajectory and communication design for cache-enabled UAVs in cellular networks: A deep reinforcement learning approach
Wang et al. Joint power and QoE optimization scheme for multi-UAV assisted offloading in mobile computing
Zhang et al. Learning to be proactive: Self-regulation of UAV based networks with UAV and user dynamics
Wu et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114268903A (zh) 一种地理信息辅助的无人机中继位置部署以及功率分配方法
Li et al. A UAV real-time trajectory optimized strategy for moving users
CN115103409A (zh) 一种多波束无人机协作通信的资源分配方法
Xia et al. Toward digitalizing the wireless environment: A unified A2G information and energy delivery framework based on binary channel feature map
CN116528250A (zh) 一种基于noma的无人机辅助mec资源优化方法
Zhuang et al. GA-MADDPG: A Demand-Aware UAV Network Adaptation Method for Joint Communication and Positioning in Emergency Scenarios
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant