CN114826380B - 一种基于深度强化学习算法的无人机辅助空地通信优化算法 - Google Patents

一种基于深度强化学习算法的无人机辅助空地通信优化算法 Download PDF

Info

Publication number
CN114826380B
CN114826380B CN202210425025.0A CN202210425025A CN114826380B CN 114826380 B CN114826380 B CN 114826380B CN 202210425025 A CN202210425025 A CN 202210425025A CN 114826380 B CN114826380 B CN 114826380B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
ground
communication
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210425025.0A
Other languages
English (en)
Other versions
CN114826380A (zh
Inventor
陈剑
杨青青
彭艺
彭杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210425025.0A priority Critical patent/CN114826380B/zh
Publication of CN114826380A publication Critical patent/CN114826380A/zh
Application granted granted Critical
Publication of CN114826380B publication Critical patent/CN114826380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于深度强化学习算法的无人机辅助空地通信优化算法,属于无线通信技术领域。本发明首先构建分布有若干无人机基站和地面用户的三维场景,再建立无人机和地面用户的笛卡尔三维坐标模型,根据用户和空中基站的位置得到它们之间的距离和d和仰角θ,建立空地通信的系统模型,接着整理基站和用户之间的路径损耗,传输速率等影响因素,建立以吞吐量和公平性为目标的优化问题,然后确定模型所需的状态变量,动作变量以及奖励函数等,建立DDPG算法模型,最后根据算法,通过Python建立仿真,和其他算法进行对比。

Description

一种基于深度强化学习算法的无人机辅助空地通信优化算法
技术领域
本发明涉及一种基于深度强化学习算法的无人机辅助空地通信优化算法,属于无线通信技术领域。
背景技术
极端的天气同时还伴发与气象因素有关的衍生灾害,如滑坡、泥石流、森林火灾、地震等。当这些自然灾害发生时,公共基础设施往往会遭到破坏,其中公共通信网络也会受损,主要的原因有:基站等通信基础设施受到直接破坏,导致局部地区通信受损,通信设备不能正常使用。另一方面,有些灾难发生的地区可能本身就不具有这类公共通信设施。公共通信设施的受损或缺乏给灾后救援、重建等工作造成了极大的障碍,为此,通过无人机携带基站便于快速组建网络对于灾后各项工作至关重要。只有构建完善的应急通信体系,提高各级政府应对突发公共事件的能力,才能在紧急关头保持受灾人员、救援工作者之间的通信,减少人民生活财产的损失。
配备通信设备的无人机(Unmanned Air Vehicle,UAV)的出现则为应急救援通信带来了一个新的、更加高效的选择,无人机具有具有体积小、造价低、使用方便、对作战环境要求低、战场生存能力较强等优点,能够广泛应用于各种复杂的环境之中,对需要进行应急通信的用户在没有基站等固定基础通信设施支撑的条件下,通过搭载无线收发装置的无人机群来进行临时通信,提高了通信的可靠性和有效性。
虽然无人机充当基站进行组网实现应急通信的前景广泛,但是无人机基站为地面用户提供服务还面临着能耗高、吞吐量较低,用户公平性差以及无人机的高维度动作空间等问题,传统的优化算法难以解决。近年来,谷歌的Deep Mind团队通过将深度学习算法和强化学习算法相结合,提出了更具智能化的算法——深度强化学习算法。其中深度确定性策略梯度算法(DDPG,Deep Deterministic Policy Gradient Algorithms)被证明了在高维动作空间场景比随机策略梯度算法更有优势,在计算策略梯度和选择动作时更具时效性,因此具有更加广泛的应用场景。
发明内容
本发明要解决的技术问题是提供一种基于深度强化学习算法的无人机辅助空地通信优化算法,能够解决自然灾害突发、通讯受损时建立紧急通信的问题,为灾区用户提供较好的通信服务质量,提高通信系统中的吞吐量和用户公平性。
本发明的技术方案是:一种基于深度强化学习算法的无人机辅助空地通信优化算法,构建预设大小且分布着若干地面用户和无人机基站的三维场景,用户和无人机之间通过TDMA方式进行通信。根据场景模型,计算无人机和地面用户通信时的路径损耗参数。根据路径损耗参数以及无人机基站的约束条件,构建以无人机和地面用户通信系统中的吞吐量和公平性为优化问题。通过深度强化学习算法中的深度确定性策略梯度算法(DDPG,DeepDeterministic Policy Gradient Algorithms),解决构建的优化问题,得到优化结果。
具体步骤为:
Step1:建立空对地(A2G)通信模型。本发明考虑下行链路通信,传播的路径损耗取决于无人机和地面用户之间的距离以及传播环境的类型。无人机悬停在目标区域上空,由m(m≥1,m∈M)架无人机充当空中基站为k(k≥1,k∈K)个地面用户采用时分多址(timedivision multiple access,TDMA)方式提供通信服务。整个服务时间用T表示,T分为等长的时隙t(0≤t≤T)。
Step2:建立无人机和地面用户的三维笛卡尔坐标模型。地面用户的高度定义为0,地面用户的位置用三维坐标表示为K(t)={xk,yk,0},无人机当前时隙t时的三维位置表示为M(t)={xm,ym,zm}。
其中,xm,ym表示坐标中UAV的水平位置,zm为UAV的高度,地面用户和无人机之间的仰角为θ。
Step3:通过无人机和地面用户之间的距离和仰角,建立它们之间的路径损耗函数。
Step4:根据无人机和地面用户之间的路径损耗参数,以无人机和地面用户之间的吞吐量和公平性为优化问题,确定以服务质量(QoS)为优化目标,以通信传输速率为服务质量的指标,构建优化目标的问题表述。
Step5:根据构建的优化问题,建立深度强化学习中的状态变量,动作变量以及奖励函数,通过强化学习算法中的深度确定性策略梯度算法,进行仿真实验,并对比不同算法的性能。
进一步的,Step2中计算无人机之间的距离和仰角具体方法是:
通过无人机和地面用户的坐标,它们之间的通信距离为:
通过无人机和地面用户的坐标,它们之间的仰角θ为:
所述Step3中无人机和地面用户之间的路径损耗模型具体建立过程为:
Step3.1:首先视距通信的概率通过sigmod函数拟合表示为:
式中,α和β是环境变量参数。只与传播的环境有关。
Step3.2:其次由于环境的影响,信号在A2G通信信道传输过程中受到自由空间传播损耗和阴影衰落的共同影响。由此可以分别得出以dB为单位的LoS链路和NLoS链路的损耗如下:
基于以上分析,无人机和地面用户之间的路径损耗和表示为:
PL=PLoS×LLoS+PNLoS×LNLoS
所述Step4中无人机和地面用户通信中的优化问题构建具体为:
Step4.1:无人机和用户之间的信道增益表示为:
其中,ρ0表示单位参考距离为1m时的信道功率增益。
Step4.2:无人机和用户之间的信干燥比表示为:
其中,pm(t)表示无人机基站的发射功率,0<pm(t)<pmax,σ2是用户处的加性高斯白噪声的功率,是时隙t时的传输同信道干扰。
设γ'代表满足通信需求时信干噪比的阈值,则γm,k(t)≥γ'。
Step4.3:通信过程中的吞吐量可由以下公式计算:
rm,k(t)=Bk(t)log2(1+γm,k(t))为无人机和用户之间的传输速率。
为每个用户的吞吐量。
为服务时间T内的无人机的信道总容量。
由以上公式可求的无人机在服务时间T内的吞吐量可表示为:
Step4.4:针对通信的公平性,通过引入Jain公平指数,可将用户的吞吐量比例定义为则在服务时间内的公平指数可表示为:
越大,用户通信的公平性越高。
整个服务时间内的公吞吐量表示为:
结合上述公式,优化问题可构建为以下两个:
C3:γm,k(t)≥γ',m∈M,k∈K
C4:0≤pm(t)≤pmax,m∈M
C5:d≥dmin
C6:M(t)∈D
C7:hmin≤zm≤hmax
C8:ET≥Emin,0≤Et≤E0
其中,C1,C2,C3,C4为无人机基站满足通信服务需求的约束,C5,C6,C7是针对无人机位置的约束,C8是针对无人机能耗的约束。
P2:maxRf(t)
C1:E0=Emax,ET≥Emin
其中,C2为Jain公平指数的约束,P1为针对吞吐量的问题优化,P2是公平吞吐量的问题优化。
进一步的,针对Step4构建的优化问题,通过引入深度确定性策略梯度算法,构建Step5中的深度强化学习过程中的,构建过程如下:
在发明中,在时隙t时的状态空间由用户,无人机和它们所处的环境组成,可定义为:
st{M(t),K(t),E(t),D,d}
在发明中,无人机的状态空间可表示为:
at{Bk(t),pm(t),Vm(t)}
在发明中,无人机的奖励函数有两个,分别为:问题P1中构建的系统吞吐量,可用奖励函数表示为:
问题P2中构建的公平吞吐量,可用奖励函数表示为:
在奖励函数中,kt是一个常数,用来调整使公平吞吐量最大化部分的报酬,rt'代表惩罚,如果无人机违反了约束条件(如飞出任务范围或者发生碰撞等),则累积奖励会收到一个负回报作为惩罚,通过获取累积奖励得到优化目标。
本发明中基于深度强化学习的无人机辅助空地通信优化算法过程如下:
初始化地面用户和无人机的位置坐标。
初始化参数:训练片段长度E,服务长度T,Critic网络Q(s,a|θQ)的参数θQ,Actor网络μ(s|θμ)的参数θμ,折扣因子γ,软更新因子τ,经验缓冲池最小批处理大小N,高斯分布噪声η。
将Critic、Actor的参数拷贝给对应的目标网络的参数
初始化随机过程N来添加行为噪声,初始化状态s1
对于时隙t∈[1,2,...,T],根据当前策略和探索噪声,获得行为at=μ(stμ)+Nt
执行行为at,获得回报rt和下一状态st+1
将状态转换序列(st,at,rt,st+1)存储在缓冲池中。
下一次迭代通过随机抽取缓冲区中的一批序列作为智能体的训练参数,通过最小化损失函数和样本策略梯度函数更新参数,更新过程如下:
通过最小化损失函数L来更新当前Critic网络参数θQ
通过样本策略梯度更新当前Actor的网络参数θμ
通过滑动平均更新目标网络参数θQ',θμ'
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
本发明的有益效果是:
1、本发明考虑到了无人机辅助通信工程中高能耗、低吞吐量、用户公平性差等问题,对通信的服务质量进行优化。
2、本发明针对无人机辅助空地通信过程中系统吞吐量和用户公平性的问题,针对无人机辅助通信过程中的诸多约束,构建了关于吞吐量和公平性的优化问题。
3、本发明针对无人机辅助空地通信过程中的高维度动作空间和动作空间,本发明引入了深度强化学习算法中的深度确定性策略梯度算法,通过获取累计期望奖励来解决高维度的非凸化问题,最终提升了系统的吞吐量和公平性。
4、本发明针对临时需要进行应急通信的用户在没有基站等固定基础通信设施支撑的情况下,针对无人机作为空中基站为地面用户提供服务中的诸多约束,通过引入深度强化学习算法中的深度确定性策略梯度算法优化空地通信中的系统吞吐量和用户公平性,满足自然灾害发生时的通信需求。
附图说明
图1是本发明的流程图;
图2是本发明中无人机作为空中基站为地面用户提供服务的模型图;
图3是本发明中深度确定性策略梯度算法的算法框架图;
图4(a)是采用不同的折扣因子时本发明所采用的算法获得的奖励对比图;
图4(b)是为有无行为噪声时本发明所采用的算法获得的奖励对比图;
图4(c)是有无软更新时本发明所采用的算法获得的奖励对比图;
图5(a)是本发明通过采用不同算法进行仿真,固定无人机为2时,随着用户数量的增加,系统的公平性对比图;
图5(b)是本发明通过采用不同算法进行仿真,固定用户数量为10时,随着无人机数量的增加,系统的公平性对比图;
图5(c)是本发明通过采用不同算法进行仿真,固定无人机为20,用户数量为4时,系统的公平性对比图;
图6是本发明采用不同算法进行仿真,固定用户的数量为20,无人机基站的数量为4时的系统吞吐量的对比图;
图7是本发明采用不同算法进行仿真,固定用户的数量为20,无人机基站的数量为4时的系统公平吞吐量的对比图。
具体实施方式
下面将结合本公开的一个或多个实施例中的附图,对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
如图1所示,一种基于深度强化学习算法的无人机辅助空地通信优化算法,通过联合优化无人机基站的带宽、能耗、用户接入等指标达到提高通信服务质量的目的。由于问题的非凸性以及无人机的高维度状态空间和动作空间,传统的优化算法难以完美解决,因此该优化算法引入深度确定性策略梯度算法(deterministic policy gradientalgorithms,DDPG),通过获取累计期望奖励来解决高维度的非凸化问题,最终提升了系统的吞吐量和公平性。
具体步骤为:
Step1:构建分布有若干无人机基站和地面用户的三维场景图。
Step2:建立无人机和地面用户的笛卡尔三维坐标模型,根据用户和空中基站的位置得到它们之间的距离和d和仰角θ,建立空地通信的系统模型。
Step3:整理基站和用户之间的路径损耗,传输速率等影响因素,建立以吞吐量和公平性为目标的优化问题。
Step4:确定模型所需的状态变量,动作变量以及奖励函数等,建立DDPG算法模型。
Step5:根据算法,通过Python建立仿真,和其他算法进行对比。
如图2所示,本发明所建立的由m(m≥1,m∈M)架无人机充当空中基站为k(k≥1,k∈K)个地面用户采用时分多址(time division multiple access,TDMA)方式提供通信服务的三维场景,整个服务时间用T表示,T分为等长的时隙t(0≤t≤T)。
三维场景中,本发明定义地面用户的高度定义为0,地面用户的位置可用三维坐标表示为K(t)={xk,yk,0},无人机当前时隙t时的三维位置可表示为M(t)={xm,ym,zm}。其中xm,ym表示坐标中UAV的水平位置,zm为UAV的高度,地面用户和无人机之间的仰角为θ。
本发明中随机产生若干个地面用户的坐标和无人机基站的坐标,根据无人机和地面用户位置的不同,它们之间的仰角和距离也不相同,计算公式如下:
由无人机和用户之间的距离和仰角,无人机和用户之间的视距通信概率可拟合表示为:
式中,α和β是环境变量参数,只与传播的环境有关,不同环境下的路径损耗参数见表1。
非视距通信的概率可表示为:PNLoS=1-PLoS
由视距通信的概率,可得出视距链路和非视距链路的路径损耗分别为:
其中,fc是载波频率,c是光速,ηLoSNLoS表示视距和非视距情况下的额外损耗。
因此总的路径损耗可表示为:PL=PLoS×LLoS+PNLoS×LNLoS
建立空地通信的模型如下:
无人机和用户之间的信道增益可表示为:
ρ0表示单位参考距离为1m时的信道功率增益。
无人机和用户之间的信干燥比为:
式中,pm(t)表示无人机基站的发射功率,0<pm(t)<pmax,σ2是用户处的加性高斯白噪声的功率,是时隙t时的传输同信道干扰。设γ'代表满足通信需求时信干噪比的阈值,则γm,k(t)≥γ'。
在时隙t时无人机和用户之间的传输速率为:
rm,k(t)=Bk(t)log2(1+γm,k(t))
每个用户的吞吐量可表示为:
在服务时间内的信道容量为:
因此在服务时间内的吞吐量可表示为:
针对通信的公平性,引入Jain公平指数,可将用户的吞吐量比率定义为:
则服务时间内的公平指数可表示为:
且/>越大,用户通信的公平性越高。
在整个服务期间的公平吞吐量定义为
综上所述,本发明的优化问题可构建为:
C3:γm,k(t)≥γ',m∈M,k∈K
C4:0≤pm(t)≤pmax,m∈M
C5:d≥dmin
C6:M(t)∈D
C7:hmin≤zm≤hmax
C8:ET≥Emin,0≤Et≤E0
P2:maxRf(t)
C1:E0=Emax,ET≥Emin
其中,P1为针对吞吐量的问题优化,P2是公平吞吐量的问题优化。
本发明所采用的深度确定性策略梯度算法如图3所示,接下来通过深度确定性策略梯度算法求解优化问题的过程如下:
首先确定本发明中的状态空间,动作空间和奖励函数,在时隙t时的状态空间由用户,无人机和它们所处的环境组成,可定义为:
st{M(t),K(t),E(t),D,d}
在发明中无人机的状态空间可表示为:
at{Bk(t),pm(t),Vm(t)}
无人机的奖励函数有两个,分别为:问题P1中构建的系统吞吐量,可用奖励函数表示为:
问题P2中构建的公平吞吐量,可用奖励函数表示为:
在奖励函数中,kt是一个常数,用来调整使公平吞吐量最大化部分的报酬,rt'代表惩罚,如果无人机违反了约束条件(如飞出任务范围或者发生碰撞等),则累积奖励会收到一个负回报作为惩罚,通过获取累积奖励得到优化目标。
其次,通过深度确定性策略梯段算法的过程如下:
初始化地面用户和无人机的位置坐标。
初始化参数:训练片段长度E,服务长度T,Critic网络Q(s,a|θQ)的参数θQ,Actor网络μ(s|θμ)的参数θμ,折扣因子γ,软更新因子τ,经验缓冲池最小批处理大小N,高斯分布噪声η。
将Critic、Actor的参数拷贝给对应的目标网络的参数。
初始化随机过程N来添加行为噪声,初始化状态s1
对于时隙t∈[1,2,...,T],根据当前策略和探索噪声,获得行为at=μ(stμ)+Nt
执行行为at,获得回报rt和下一状态st+1
将状态转换序列(st,at,rt,st+1)存储在缓冲池中。
下一次迭代通过随机抽取缓冲区中的一批序列作为智能体的训练参数,通过最小化损失函数和样本策略梯度函数更新参数,更新过程如下:
通过最小化损失函数L来更新当前Critic网络参数θQ
通过样本策略梯度更新当前Actor的网络参数θμ
通过滑动平均更新目标网络参数θQ',θμ'
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
重复上述的步骤,直到训练达到所设定的迭代次数时停止,多训练几次以提高算法的健壮性。
将本发明提出的方法和其他几种方法作比较分析,具体过程如下:
(1)设置仿真参数
不同环境下的路径损耗参数入表1所示,本发明所采用的是城市环境下的路径损耗参数。
表1:不同环境下的路径损耗参数
通信参数设置,如表2所示:
(2)仿真参数调节
通过对算法的参数进行一系列的测试调节,以确定算法中的重要参数取值能够使得算法性能达到最佳,如图4所示。
图4a为多组不同的折扣因子对算法累计期望回报和收敛性的影响,由图4a可知,当折扣因子较小(0.001)时,累计期望回报达到收敛的时间太长,学习效率太低,当折扣因子较大(0.99)时,可能会使得累计期望陷入局部最优,无法达到最大值。因此发明在调试多组折扣因子之后,选择0.68,能够实现在较短时间内达到最大化累计奖励。
图4b所示为探索噪声对算法训练的影响,由图4b可知,通过给确定性策略添加噪声构建行为网络,可以保证算法的高效探索性,加快算法的收敛速度。如果没有行为噪声,算法的探索性较低,累计期望达不到最大值,得不到最优的行为策略。
图4c所示的是有无软更新对累计期望回报的影响,由图4c可知,如果没有软更新,直接将参数复制给目标网络的参数,会引起算法的剧烈变化,不够稳定,通过软更新意味着目标网络只能缓慢变化,提高了算法的稳定性。
(3)仿真结果
如图5所示,为通过设置不同的地面用户数量和无人机基站的数量,对比了不同算法的公平性。
如图5a所示,UAV数量固定为2时,随着用户数量的增加,所有算法的公平性都在逐渐降低,因为随着用户的增加,UAV基站不能很好的兼顾所有的地面用户,导致用户的公平性是逐渐降低的,其中基于DDPG的优化算法与其他几种基准算法相比,虽然公平性也呈下降趋势,但是明显可以看出公平指数下降幅度最小,能稳定在0.95左右。
如图5b所示,当固定地面用户数量为10,随着UAV基站数量的增加,所有算法的公平性都在逐步上升,较多的基站意味着用户可接入的选择变多,其中基于DDPG算法的优化算法公平指数最高,虽然增长速度最慢,但是能够稳定保持在0.95左右,其他几种算法的增幅随着UAV数量的增加都逐渐趋于稳定,没有本发明所采用的基于DDPG的优化算法公平性指数高。
如图5c所示,当固定用户数量为20,基站数量为4时,随着迭代次数的增加时算法的公平性比较,由图可知,随着迭代次数的增加,所有算法的公平性都在缓慢上升然后趋于稳定,本发明采用的基于DDPG的优化算法公平性最高,优于其他的几种算法。
如图6所示,选择固定无人机基站的数量为4,地面用户的数量为20时,不同算法的吞吐量对比,由图可知,随着迭代次数的增加,所有算法的吞吐量都是呈先快速上升至慢慢变缓的趋势,本发明所提出的基于DDPG算法的优化算法在迭代次数为400左右时逐渐开始收敛,且吞吐量高于其他几种算法。A3C、DQN、Greedy算法分别在迭代次数为550、650、600左右的时候才逐渐收敛,其中Greedy虽然收敛速度比DQN算法快,但是其吞吐量略微弱于DQN算法。这是因为本发明基于DDPG的优化算法是结合了DQN算法和AC算法的优势,通过确定性策略更新动作,因此算法速率高,收敛较快,但是确定性策略使得智能体不能很好的遍历所有状态空间,容易陷入局部最优。因此通过增加探索噪声和采用AC框架可以让智能体跳出局部最优、朝着全局最优的方向收敛。
如图7所示,选择固定地面用户的数量为20,无人机的数量为4时所得到的不同算法的公平吞吐量对比,由图可知随着迭代次数的增加,所有优化算法的公平吞吐量都是呈先上升后变缓的趋势,其中本发明基于DDPG算法的优化算法公平吞吐量最高,A3C算法次之,接下来是DQN算法,Greedy算法的公平性最低。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (1)

1.一种基于深度强化学习算法的无人机辅助空地通信优化算法,其特征在于:
Step1:建立空对地通信模型;
Step2:建立无人机和地面用户的三维笛卡尔坐标模型;
Step3:通过无人机和地面用户之间的距离和仰角,建立它们之间的路径损耗函数;
Step4:根据无人机和地面用户之间的路径损耗参数,以无人机和地面用户之间的吞吐量和公平性为优化问题,确定以服务质量为优化目标,以通信传输速率为服务质量的指标,构建优化目标的问题表述;
Step5:根据构建的优化问题,建立深度强化学习中的状态变量,动作变量以及奖励函数,通过强化学习算法中的深度确定性策略梯度算法,进行仿真实验,并对比不同算法的性能;
所述Step2具体为:地面用户的高度定义为0,地面用户的位置用三维坐标表示为K(t)={xk,yk,0},无人机当前时隙t时的三维位置表示为M(t)={xm,ym,zm};
其中,xm,ym表示坐标中UAV的水平位置,zm为UAV的高度,地面用户和无人机之间的仰角为θ;
所述Step3具体为:
Step3.1:视距通信的概率通过sigmod函数拟合表示为:
式中,α和β是环境变量参数;
Step3.2:分别得出以dB为单位的LoS链路和NLoS链路的损耗如下:
基于以上分析,无人机和地面用户之间的路径损耗和表示为:
PL=PLoS×LLoS+PNLoS×LNLoS
所述Step4具体为:
Step4.1:无人机和用户之间的信道增益表示为:
其中,ρ0表示单位参考距离为1m时的信道功率增益;
Step4.2:无人机和用户之间的信干燥比表示为:
其中,pm(t)表示无人机基站的发射功率,0<pm(t)<pmax,σ2是用户处的加性高斯白噪声的功率,是时隙t时的传输同信道干扰;
设γ'代表满足通信需求时信干噪比的阈值,则γm,k(t)≥γ';
Step4.3:通信过程中的吞吐量可由以下公式计算:
rm,k(t)=Bk(t)log2(1+γm,k(t))为无人机和用户之间的传输速率;
为每个用户的吞吐量;
为服务时间T内的无人机的信道总容量;
由以上公式可求的无人机在服务时间T内的吞吐量可表示为:
Step4.4:针对通信的公平性,通过引入Jain公平指数,可将用户的吞吐量比例定义为则在服务时间内的公平指数可表示为:
越大,用户通信的公平性越高;
整个服务时间内的公吞吐量表示为:
结合上述公式,优化问题可构建为以下两个:
P1:
C1:
C2:
C3:γm,k(t)≥γ',m∈M,k∈K
C4:0≤pm(t)≤pmax,m∈M
C5:d≥dmin
C6:M(t)∈D
C7:hmin≤zm≤hmax
C8:ET≥Emin,0≤Et≤E0
其中,C1,C2,C3,C4为无人机基站满足通信服务需求的约束,C5,C6,C7是针对无人机位置的约束,C8是针对无人机能耗的约束;
P2:max Rf(t)
C1:E0=Emax,ET≥Emin
C2:
其中,C2为Jain公平指数的约束,P1为针对吞吐量的问题优化,P2是公平吞吐量的问题优化。
CN202210425025.0A 2022-04-22 2022-04-22 一种基于深度强化学习算法的无人机辅助空地通信优化算法 Active CN114826380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210425025.0A CN114826380B (zh) 2022-04-22 2022-04-22 一种基于深度强化学习算法的无人机辅助空地通信优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210425025.0A CN114826380B (zh) 2022-04-22 2022-04-22 一种基于深度强化学习算法的无人机辅助空地通信优化算法

Publications (2)

Publication Number Publication Date
CN114826380A CN114826380A (zh) 2022-07-29
CN114826380B true CN114826380B (zh) 2023-08-08

Family

ID=82505654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210425025.0A Active CN114826380B (zh) 2022-04-22 2022-04-22 一种基于深度强化学习算法的无人机辅助空地通信优化算法

Country Status (1)

Country Link
CN (1) CN114826380B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN116684852B (zh) * 2023-07-17 2024-03-22 北京理工大学长三角研究院(嘉兴) 一种山地茂林环境无人机通信资源与悬停位置规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458283A (zh) * 2019-08-13 2019-11-15 南京理工大学 基于深度强化学习的静态环境下的最大化全局吞吐量方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11703853B2 (en) * 2019-12-03 2023-07-18 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458283A (zh) * 2019-08-13 2019-11-15 南京理工大学 基于深度强化学习的静态环境下的最大化全局吞吐量方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
适用于认知无线传感器网络的高效频谱分配方法;宋宇等;火力与指挥控制(第02期);第17-21页 *

Also Published As

Publication number Publication date
CN114826380A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114826380B (zh) 一种基于深度强化学习算法的无人机辅助空地通信优化算法
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110809274B (zh) 一种面向窄带物联网的无人机基站增强网络优化方法
CN112929866B (zh) 一种自适应优化城市灾区网络覆盖的无人机部署方法
CN108966129B (zh) 基于无人机中继网络的最佳高度与位置的联合优化方法
Zhang et al. Joint 3D deployment and power allocation for UAV-BS: A deep reinforcement learning approach
US20230239037A1 (en) Space-air-ground integrated uav-assisted iot data collectioncollection method based on aoi
CN113784366B (zh) 一种基于无人机群覆盖优化的智能集群方法
CN113873434A (zh) 面向通信网络热点区域容量增强的多空中基站部署方法
CN110830136B (zh) 一种基于无线电地图的无人机轨迹设计和功率分配方法
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN115494732B (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN113872661A (zh) 面向接入用户分级服务的无人机网络三维部署方法及系统
CN114025361B (zh) 面向协同中继任务的多无人机网络拓扑构造与规划方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Guan et al. MAPPO-based cooperative UAV trajectory design with long-range emergency communications in disaster areas
Yan et al. User access mode selection in satellite-aerial based emergency communication networks
Ye et al. Exploring both individuality and cooperation for air-ground spatial crowdsourcing by multi-agent deep reinforcement learning
CN115225142B (zh) 多无人机通信中用户匹配与频谱资源联合优化方法及系统
CN117270559A (zh) 一种基于强化学习的无人机集群部署与轨迹规划方法
Wang et al. Trajectory design and bandwidth assignment for UAVs-enabled communication network with multi-agent deep reinforcement learning
CN111405582A (zh) 一种无人机通信质量的优化方法及系统
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant