CN115407794A - 基于强化学习的海域安全通信无人机轨迹实时规划方法 - Google Patents

基于强化学习的海域安全通信无人机轨迹实时规划方法 Download PDF

Info

Publication number
CN115407794A
CN115407794A CN202211024919.5A CN202211024919A CN115407794A CN 115407794 A CN115407794 A CN 115407794A CN 202211024919 A CN202211024919 A CN 202211024919A CN 115407794 A CN115407794 A CN 115407794A
Authority
CN
China
Prior art keywords
uav
aerial vehicle
unmanned aerial
learning
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211024919.5A
Other languages
English (en)
Inventor
王伟
杨永杰
陈俊杰
曹张华
孙强
刘锦涛
吴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Nantong Research Institute for Advanced Communication Technologies Co Ltd
Original Assignee
Nantong University
Nantong Research Institute for Advanced Communication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University, Nantong Research Institute for Advanced Communication Technologies Co Ltd filed Critical Nantong University
Priority to CN202211024919.5A priority Critical patent/CN115407794A/zh
Publication of CN115407794A publication Critical patent/CN115407794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • H04B17/3912Simulation models, e.g. distribution of spectral power density or received signal strength indicator [RSSI] for a given geographic region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Electromagnetism (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Astronomy & Astrophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了基于强化学习的海域安全通信无人机轨迹实时规划方法,属于通信技术领域。解决了传统优化方法无法实时处理海洋动态场景的问题。其技术方案为:步骤一、建立联合大尺度衰落和小尺度衰落的UAV‑船舶信道模型;步骤二、得到移动船舶、窃听节点接收的信干燥比和速率;步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;步骤四、使用Q‑learning和DDPG算法来进行轨迹优化;步骤五、设置相关仿真参数;步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果。本发明的有益效果为:本发明针对不同船舶的通信需求实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。

Description

基于强化学习的海域安全通信无人机轨迹实时规划方法
技术领域
本发明涉及通信技术领域,尤其涉及基于强化学习的海域安全通信无人机轨迹实时规划方法。
背景技术
目前海上通信以卫星通信和移动通信为主。然而,卫星通信传输时延大且成本高,大多只能提供窄带通信。移动通信覆盖范围小,无法满足远海通信需求。相比于海事卫星和岸基基站,无人机辅助的海洋通信具有部署灵活,覆盖范围大等优势。且UAV还可以通过轨迹设计来更加接近目标用户,提供良好的视距链路,从而显著提高传输速率和缩短通信时延。然而, UAV的LOS广播传输易被潜在的窃听者所拦截。因此,我们特别考虑一种UAV辅助的海洋安全通信场景,UAV的飞行轨迹应在接近目标用户的同时远离潜在窃听者。由于UAV不能在海面上着陆或补充能量,其在海洋上的飞行轨迹应在起飞前规划。同时,在实际的海洋环境中,UAV的初始起飞位置和船舶的航线可能是随机的,这将导致一个时变的动态环境。因此,现有方法无法解决海域UAV安全通信中的轨迹实时规划问题。
发明内容
本发明的目的在于提供基于强化学习的海域安全通信无人机轨迹实时规划方法;解决了传统优化方法无法实时处理海洋动态场景的问题,针对不同船舶的通信需求实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。
发明的思想为:首先考虑海洋传播的独特性带来了新的信道特性,如散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响等,与陆地场景的UAV-地面自由空间损耗模型相比,本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模,可以较好的反映海浪运动和海洋散射等带来的影响;其次,与现有算法相比,本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边),在每次优化轨迹前UAV的初始位置都是随机选择的,因此提出的两种算法都可以解决UAV 不同起飞点的动态轨迹规划问题;最后,与现有算法相比,本发明提出的基于Q-learning 与DDPG的强化学习算法可以对船载AIS获取的不同船舶航道信息进行学习,从而针对不同船舶的通信需求可以实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。
为了实现上述发明目的,本发明采用技术方案具体为:所述方法包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
所述步骤一中,假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙,即 T=Ndt;在每个时隙内,考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响,因此,无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式:
Figure BDA0003815158440000021
其中,gsd[n]为无人机S到移动船舶D的信道功率增益,
Figure BDA0003815158440000022
为无人机S到窃听节点 Ek的信道功率增益;
式中,
Figure BDA0003815158440000023
Figure BDA0003815158440000024
表示UAV到船舶D 的距离,
Figure BDA0003815158440000025
表示UAV到窃听Ek的距离。
所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS 获得,因此假设船舶D的航线为:
Figure BDA0003815158440000026
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标, yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
Figure BDA0003815158440000031
式中:SINR表示信干燥比,SINRd表示船舶D的信干燥比,Rd表示船舶D的速率,Ps[n]表示UAV的发射功率;
Figure BDA0003815158440000032
表示船舶D处的噪声方差;
窃听节点接收的信干燥比和速率为:
Figure BDA0003815158440000033
式中,SINR表示信干燥比,
Figure BDA0003815158440000034
表示窃听节点E的信干燥比,
Figure BDA0003815158440000035
表示窃听E 处的噪声方差;
对系统进行优化,系统最大的平均保密速率表示为:
Figure BDA0003815158440000036
式中,
Figure BDA0003815158440000037
为无人机最大水平飞行速度。
所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn
然后根据更新公式:
Qπ(sn,an)←Qπ(sn,an)+α(rn+γmaxQπ(sn+1,an+1)-Qπ(sn,an))来更新Q表;
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a 后得到的未来奖励期望;
Figure BDA0003815158440000041
表示在第n个时隙UAV总的折扣奖励,
Figure BDA0003815158440000042
表示学习率;
针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
在每个时隙,首先在Actor当前网络中加入随机噪声nN来避免UAV陷入局部优化,这时动作a=πθ(s)+nN,这里
Figure BDA0003815158440000043
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素 (sn,an,rn,sn+1)放入经验池Rb中;
当经验池放满后,从经验池中批量采样并根据损失函数
Figure BDA0003815158440000044
和梯度函数
Figure BDA0003815158440000045
分别来更新Critic当前网络和Actor当前网络的参数θ和ω,其中,Nb为小批量采样的样本数,并且 yn=r+γQ′(s′,a′,ω′);
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
最后采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
同样,针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置 (xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为
Figure BDA0003815158440000055
Figure BDA0003815158440000056
此外,假设信道功率增益p0以及莱斯因子K[n]分别为40dBm和31.3;噪声方差
Figure BDA0003815158440000051
UAV的传输功率
Figure BDA0003815158440000052
UAV的最大飞行速度
Figure BDA0003815158440000053
船舶的最大航行速度
Figure BDA0003815158440000054
UAV的飞行高度H=50m;Q-learning 算法的参数设置如下,学习率α=0.3,折扣因子γ=0.99,一开始的探索率ε=1,探索率的衰减因子κ=0.99995;DDPG算法的参数设置如下,经验池的大小Rb=100000,小批量采样数Nb=64,Actor与Critic网络的学习率分别为10-4和10-3
与现有技术相比,本发明的有益效果为:
1、本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内,在每次优化轨迹前UAV的初始位置都是随机选择的,因此提出的两种算法都可以解决UAV不同起飞点的动态轨迹实时规划的问题。
2、与现有的传统优化算法相比,本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边),在每次优化轨迹前UAV 的初始位置都是随机选择的;同时提出的基于Q-learning与DDPG的强化学习算法可以对船载AIS的不同航道信息进行学习,从而针对不同船舶的通信需求可以实时的规划出UAV 飞行轨迹,有效保障海洋通信的实时性。因此提出的两种算法都可以解决不同UAV起飞点和不同船舶航道的动态轨迹规划问题。
3、本发明提出的强化学习方案主要面对的是海洋场景,其中海上用户不像陆地用户是固定的或随机分布,海上船舶有各自固定的航道,且具有可预测的移动模式;同时,相比于陆地场景,海域信道特性更加容易受海面状况和气象条件等环境因素影响,虑海洋传播的独特性带来了新的信道特性,散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响。因此,本发明提出的强化学习算法充分考虑了海洋固有环境的约束影响,解决了现有算法无法直接拓展到海洋场景问题。与陆地场景的UAV-地面自由空间损耗模型相比,本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模,可以较好的反映海浪运动和海洋散射等带来的影响。
4、本发明基于强化学习算法实现海域动态环境下UAV轨迹的实时规划,大大提升了海洋通信的性能和效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的整体流程图。
图2为本发明基于Q-learning算法的无人机轨迹优化流程图。
图3为本发明基于DDPG算法的无人机轨迹优化流程图。
图4为本发明不同起飞位置下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。
图5为本发明中不同船舶航迹下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。
图6为本发明基于Q-learning算法和基于DDPG算法每次迭代得到的平均奖励曲线图。
图7为本发明不同飞行时间下不同算法得到的平均保密速率曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参考图1,基于强化学习的海域安全通信无人机轨迹实时规划方法,所述方法包括:
所述方法包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
所述步骤一中,假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙,即 T=Ndt;在每个时隙内,考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响,因此,无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式:
Figure BDA0003815158440000071
其中,gsd[n]为无人机S到移动船舶D的信道功率增益,
Figure BDA0003815158440000076
为无人机S到窃听节点 Ek的信道功率增益;
式中,
Figure BDA0003815158440000072
Figure BDA0003815158440000073
表示UAV到船舶D 的距离,
Figure BDA0003815158440000074
表示UAV到窃听Ek的距离。
所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS 获得,因此假设船舶D的航线为:
Figure BDA0003815158440000075
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标, yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
Figure BDA0003815158440000081
式中:SINR表示信干燥比,SINRd表示船舶D的信干燥比,Rd表示船舶D的速率,Ps[n]表示UAV的发射功率;
Figure BDA0003815158440000082
表示船舶D处的噪声方差;
窃听节点接收的信干燥比和速率为:
Figure BDA0003815158440000083
式中,SINR表示信干燥比,
Figure BDA0003815158440000084
表示窃听节点E的信干燥比,
Figure BDA0003815158440000085
表示窃听E 处的噪声方差;
对系统进行优化,系统最大的平均保密速率表示为:
Figure BDA0003815158440000086
Figure BDA0003815158440000087
式中,
Figure BDA0003815158440000088
为无人机最大水平飞行速度。
请参考图2,所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn
然后根据更新公式:
Qπ(sn,an)←Qπ(sn,an)+α(rn+γmaxQπ(sn+1,an+1)-Qπ(sn,an))来更新Q表;
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a 后得到的未来奖励期望;
Figure BDA0003815158440000091
表示在第n个时隙UAV总的折扣奖励,
Figure BDA0003815158440000092
表示学习率;
针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
请参考图3,所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
在每个时隙,首先在Actor当前网络中加入随机噪声nN来避免UAV陷入局部优化,这时动作a=πθ(s)+nN,这里
Figure BDA0003815158440000093
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素 (sn,an,rn,sn+1)放入经验池Rb中;
当经验池放满后,从经验池中批量采样并根据损失函数
Figure BDA0003815158440000094
和梯度函数
Figure BDA0003815158440000095
分别来更新Critic当前网络和Actor当前网络的参数θ和ω,其中,Nb为小批量采样的样本数,并且 yn=r+γQ′(s′,a′,ω′);
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值 yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
最后采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
同样,针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置 (xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为
Figure BDA0003815158440000105
Figure BDA0003815158440000106
此外,假设信道功率增益p0以及莱斯因子K[n]分别为40dBm和31.3;噪声方差
Figure BDA0003815158440000101
UAV的传输功率Ps[n]=15dBm,UAV的最大飞行速度
Figure BDA0003815158440000102
船舶的最大航行速度
Figure BDA0003815158440000103
UAV的飞行高度H=50m;Q-learning 算法的参数设置如下,学习率α=0.3,折扣因子γ=0.99,一开始的探索率ε=1,探索率的衰减因子κ=0.99995;DDPG算法的参数设置如下,经验池的大小Rb=100000,小批量采样数Nb=64,Actor与Critic网络的学习率分别为10-4和10-3
请参考图4-7,图4中移动船舶D的初始位置由☆表示,×表示窃听者En的位置,△和▽分别表示UAV的起始位置以及终点位置。由于在实际场景中UAV起飞点随机分布在岸边,传统算法无法处理这种动态起飞点情况。而在我们提出的Q-learning与DDPG算法都将UAV的初始位置考虑在内,在每次优化轨迹前UAV的初始位置都是随机选择的,因此两种算法都可以解决UAV的动态轨迹优化问题。从图4所示的仿真结果来看,对于任意给定的UAV初始位置(x0,y0)=(0,210)m和(x0,y0)=(0,90)m(如在实际中,选择提供通信服务的无人机不空闲,需要选择另一架无人机提供服务),Q-learning与DDPG算法都能实时规划出无人机的轨迹。从轨迹图可以看出,UAV都是首先在避开窃听者E1的情况下去追船,然后尽可能长的时间跟随船舶,最后由于飞行时间限制,UAV会在避开窃听者E2的情况下朝着终点飞行。UAV的这种飞行模式表明当它在接近目标的同时也要避开窃听者,这样才能尽可能的最大化安全速率。
图5中展示了Q-learning与DDPG算法对于不同船舶航道lane(xd[n],yd[n])和航速
Figure BDA0003815158440000104
下获得的UAV轨迹实时规划图,船舶的航道信息可以通过船载AIS获得。从仿真结果我们可以看出,对于移动船舶1(实线△,最大航行速度
Figure BDA0003815158440000111
)和移动船舶2(虚线△,最大航行速度
Figure BDA0003815158440000112
)来说,Q-learning与DDPG算法得到的UAV轨迹都是在尽可能避开窃听的情况下长时间跟船后返航。而对比移动船舶1和移动船舶2中UAV的轨迹,我们可以发现,在移动船舶2中UAV在经过两个窃听时,没有像以前一样紧跟移动船舶,而是在两个窃听者的中间地段飞行。这主要是由于在窃听者中间飞行,可以尽可能的同时远离两个窃听。
图6中展示了Q-learning与DDPG算法在每次迭代后获得的奖励。从图中我们可以看出,随着迭代次数的增加,两种算法得到的平均保密速率首先都会增加,然后逐渐趋于稳定。此外,对比两种算法,我们可以看到,DDPG算法明显比Q-learning更早收敛,这主要是由于随着不断的训练,Actor网络逐渐趋于稳定后,每次都会得到最优的动作,而使训练效率提高。另外,我们还可以发现,相比于Q-learning算法,DDPG算法最后收敛的保密速率更高,这主要归功于DDPG算法可以使UAV更加自由的选择飞行动作,使得UAV可以更好的接近移动船舶,提供更好的通信服务。
图7中展示了提出的Q-learning与DDPG算法性能与A3C算法和传统优化算法(COA算法)进行对比。对比A3C与DDPG算法,我们发现它们性能比较接近,DDPG算法略优,这是由于它们都使用了Actor-Critic框架。而与Q-learning算法相比,所提DDPG算法效果更好,这主要是因为DDPG算法可以解决智能体在连续空间下的轨迹优化问题,使UAV可以更好的接近移动船舶。最后,我们看出COA算法相较于其他强化学习算法性能较差,这主要是由于传统优化算法无法很好的适应高度动态化的海洋环境。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
2.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤一中,假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙,即T=Ndt;在每个时隙内,考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响,因此,无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式:
Figure FDA0003815158430000011
其中,gsd[n]为无人机S到移动船舶D的信道功率增益,
Figure FDA0003815158430000012
为无人机S到窃听节点Ek的信道功率增益;
式中,
Figure FDA0003815158430000013
Figure FDA0003815158430000014
表示UAV到船舶D的距离,
Figure FDA0003815158430000015
表示UAV到窃听Ek的距离。
3.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS获得,因此假设船舶D的航线为:
Figure FDA0003815158430000021
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标,yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
Figure FDA0003815158430000022
式中:SINR表示信干燥比,SINRd表示船舶D的信干燥比,Rd表示船舶D的速率,Ps[n]表示UAV的发射功率;
Figure FDA0003815158430000023
表示船舶D处的噪声方差;
窃听节点接收的信干燥比和速率为:
Figure FDA0003815158430000024
式中,SINR表示信干燥比,
Figure FDA0003815158430000025
表示窃听节点E的信干燥比,
Figure FDA0003815158430000026
表示窃听E处的噪声方差;
对系统进行优化,系统最大的平均保密速率表示为:
Figure FDA0003815158430000027
式中,
Figure FDA0003815158430000028
为无人机最大水平飞行速度。
4.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和tf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn
然后根据更新公式:
Figure FDA0003815158430000031
来更新Q表;
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a后得到的未来奖励期望;
Figure FDA0003815158430000032
表示在第n个时隙UAV总的折扣奖励,
Figure FDA0003815158430000033
表示学习率。
5.根据权利要求4所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
在每个时隙,首先在Actor当前网络中加入随机噪声nN来避免UAV陷入局部优化,这时动作a=πθ(s)+nN,这里
Figure FDA0003815158430000034
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素(sn,an,rn,sn+1)放入经验池Rb中;
当经验池放满后,从经验池中批量采样并根据损失函数
Figure FDA0003815158430000035
和梯度函数
Figure FDA0003815158430000041
分别来更新Critic当前网络和Actor当前网络的参数θ和ω,其中,Nb为小批量采样的样本数,并且γn=r+γQ′(s′,a′ω′);
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
6.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置(xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为
Figure FDA0003815158430000042
Figure FDA0003815158430000043
此外,假设信道功率增益p0以及莱斯因子K[n]分别为40dBm和31.3;噪声方差
Figure FDA0003815158430000044
UAV的传输功率Ps[n]=15dBm,UAV的最大飞行速度
Figure FDA0003815158430000045
船舶的最大航行速度
Figure FDA0003815158430000046
UAV的飞行高度H=50m;Q-learning算法的参数设置如下,学习率α=0.3,折扣因子γ=0.99,一开始的探索率ε=1,探索率的衰减因子κ=0.99995;DDPG算法的参数设置如下,经验池的大小Rb=100000,小批量采样数Nb=64,Actor与Critic网络的学习率分别为10-4和10-3
CN202211024919.5A 2022-08-25 2022-08-25 基于强化学习的海域安全通信无人机轨迹实时规划方法 Pending CN115407794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211024919.5A CN115407794A (zh) 2022-08-25 2022-08-25 基于强化学习的海域安全通信无人机轨迹实时规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211024919.5A CN115407794A (zh) 2022-08-25 2022-08-25 基于强化学习的海域安全通信无人机轨迹实时规划方法

Publications (1)

Publication Number Publication Date
CN115407794A true CN115407794A (zh) 2022-11-29

Family

ID=84160562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211024919.5A Pending CN115407794A (zh) 2022-08-25 2022-08-25 基于强化学习的海域安全通信无人机轨迹实时规划方法

Country Status (1)

Country Link
CN (1) CN115407794A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116634457A (zh) * 2023-04-07 2023-08-22 大连海事大学 一种基于深度强化学习的多无人机自适应数据收集与回传方法
CN117880817A (zh) * 2024-03-11 2024-04-12 广州番禺职业技术学院 无人机轨迹与波束成形向量确定方法、装置和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116634457A (zh) * 2023-04-07 2023-08-22 大连海事大学 一种基于深度强化学习的多无人机自适应数据收集与回传方法
CN116634457B (zh) * 2023-04-07 2024-02-13 大连海事大学 一种基于深度强化学习的多无人机自适应数据收集与回传方法
CN117880817A (zh) * 2024-03-11 2024-04-12 广州番禺职业技术学院 无人机轨迹与波束成形向量确定方法、装置和电子设备
CN117880817B (zh) * 2024-03-11 2024-05-07 广州番禺职业技术学院 无人机轨迹与波束成形向量确定方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN112118556B (zh) 基于深度强化学习的无人机轨迹及功率联合优化方法
CN115407794A (zh) 基于强化学习的海域安全通信无人机轨迹实时规划方法
CN109831797B (zh) 一种推动功率受限的无人机基站带宽和轨迹联合优化方法
CN107017940B (zh) 无人机中继广播通信系统航迹优化方法
Xie et al. Connectivity-aware 3D UAV path design with deep reinforcement learning
CN111479239B (zh) 一种多天线无人机数据采集系统的传感器发射能耗优化方法
CN114124266B (zh) 一种基于irs辅助无人机与无人船通信的信道建模方法
CN109885088A (zh) 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法
CN112865897B (zh) 一种无人机对地面场景的非平稳信道仿真方法及系统
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN113784314B (zh) 一种智能反射表面辅助下的无人机数据与能量传输方法
CN113258989B (zh) 一种使用强化学习获得无人机中继轨迹的方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、系统及设备
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Xu et al. Joint power and trajectory optimization for IRS-aided master-auxiliary-UAV-powered IoT networks
CN114142912B (zh) 高动态空中网络时间覆盖连续性保障的资源管控方法
Park et al. Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism
Hua et al. On sum-rate maximization in downlink UAV-aided RSMA systems
CN116896777A (zh) 基于强化学习的无人机群通感一体能耗优化方法
Wu et al. Deep Reinforcement Learning-based Energy Efficiency Optimization for RIS-aided Integrated Satellite-Aerial-Terrestrial Relay Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination