CN115407794A - 基于强化学习的海域安全通信无人机轨迹实时规划方法 - Google Patents
基于强化学习的海域安全通信无人机轨迹实时规划方法 Download PDFInfo
- Publication number
- CN115407794A CN115407794A CN202211024919.5A CN202211024919A CN115407794A CN 115407794 A CN115407794 A CN 115407794A CN 202211024919 A CN202211024919 A CN 202211024919A CN 115407794 A CN115407794 A CN 115407794A
- Authority
- CN
- China
- Prior art keywords
- uav
- aerial vehicle
- unmanned aerial
- learning
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 27
- 238000005562 fading Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 13
- 230000033001 locomotion Effects 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 235000007164 Oryza sativa Nutrition 0.000 claims description 3
- 238000001035 drying Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 235000009566 rice Nutrition 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 240000007594 Oryza sativa Species 0.000 claims 1
- 229910052739 hydrogen Inorganic materials 0.000 claims 1
- 239000001257 hydrogen Substances 0.000 claims 1
- 125000004435 hydrogen atom Chemical class [H]* 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/336—Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3912—Simulation models, e.g. distribution of spectral power density or received signal strength indicator [RSSI] for a given geographic region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Electromagnetism (AREA)
- Aviation & Aerospace Engineering (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Astronomy & Astrophysics (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Quality & Reliability (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了基于强化学习的海域安全通信无人机轨迹实时规划方法,属于通信技术领域。解决了传统优化方法无法实时处理海洋动态场景的问题。其技术方案为:步骤一、建立联合大尺度衰落和小尺度衰落的UAV‑船舶信道模型;步骤二、得到移动船舶、窃听节点接收的信干燥比和速率;步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;步骤四、使用Q‑learning和DDPG算法来进行轨迹优化;步骤五、设置相关仿真参数;步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果。本发明的有益效果为:本发明针对不同船舶的通信需求实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。
Description
技术领域
本发明涉及通信技术领域,尤其涉及基于强化学习的海域安全通信无人机轨迹实时规划方法。
背景技术
目前海上通信以卫星通信和移动通信为主。然而,卫星通信传输时延大且成本高,大多只能提供窄带通信。移动通信覆盖范围小,无法满足远海通信需求。相比于海事卫星和岸基基站,无人机辅助的海洋通信具有部署灵活,覆盖范围大等优势。且UAV还可以通过轨迹设计来更加接近目标用户,提供良好的视距链路,从而显著提高传输速率和缩短通信时延。然而, UAV的LOS广播传输易被潜在的窃听者所拦截。因此,我们特别考虑一种UAV辅助的海洋安全通信场景,UAV的飞行轨迹应在接近目标用户的同时远离潜在窃听者。由于UAV不能在海面上着陆或补充能量,其在海洋上的飞行轨迹应在起飞前规划。同时,在实际的海洋环境中,UAV的初始起飞位置和船舶的航线可能是随机的,这将导致一个时变的动态环境。因此,现有方法无法解决海域UAV安全通信中的轨迹实时规划问题。
发明内容
本发明的目的在于提供基于强化学习的海域安全通信无人机轨迹实时规划方法;解决了传统优化方法无法实时处理海洋动态场景的问题,针对不同船舶的通信需求实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。
发明的思想为:首先考虑海洋传播的独特性带来了新的信道特性,如散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响等,与陆地场景的UAV-地面自由空间损耗模型相比,本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模,可以较好的反映海浪运动和海洋散射等带来的影响;其次,与现有算法相比,本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边),在每次优化轨迹前UAV的初始位置都是随机选择的,因此提出的两种算法都可以解决UAV 不同起飞点的动态轨迹规划问题;最后,与现有算法相比,本发明提出的基于Q-learning 与DDPG的强化学习算法可以对船载AIS获取的不同船舶航道信息进行学习,从而针对不同船舶的通信需求可以实时的规划出UAV飞行轨迹,有效保障海洋通信的实时性。
为了实现上述发明目的,本发明采用技术方案具体为:所述方法包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
所述步骤一中,假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙,即 T=Ndt;在每个时隙内,考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响,因此,无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式:
所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS 获得,因此假设船舶D的航线为:
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标, yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
窃听节点接收的信干燥比和速率为:
对系统进行优化,系统最大的平均保密速率表示为:
所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf;
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;
然后根据更新公式:
Qπ(sn,an)←Qπ(sn,an)+α(rn+γmaxQπ(sn+1,an+1)-Qπ(sn,an))来更新Q表;
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a 后得到的未来奖励期望;
针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn;
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素 (sn,an,rn,sn+1)放入经验池Rb中;
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
最后采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
同样,针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置 (xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为和
此外,假设信道功率增益p0以及莱斯因子K[n]分别为40dBm和31.3;噪声方差UAV的传输功率UAV的最大飞行速度船舶的最大航行速度UAV的飞行高度H=50m;Q-learning 算法的参数设置如下,学习率α=0.3,折扣因子γ=0.99,一开始的探索率ε=1,探索率的衰减因子κ=0.99995;DDPG算法的参数设置如下,经验池的大小Rb=100000,小批量采样数Nb=64,Actor与Critic网络的学习率分别为10-4和10-3。
与现有技术相比,本发明的有益效果为:
1、本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内,在每次优化轨迹前UAV的初始位置都是随机选择的,因此提出的两种算法都可以解决UAV不同起飞点的动态轨迹实时规划的问题。
2、与现有的传统优化算法相比,本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边),在每次优化轨迹前UAV 的初始位置都是随机选择的;同时提出的基于Q-learning与DDPG的强化学习算法可以对船载AIS的不同航道信息进行学习,从而针对不同船舶的通信需求可以实时的规划出UAV 飞行轨迹,有效保障海洋通信的实时性。因此提出的两种算法都可以解决不同UAV起飞点和不同船舶航道的动态轨迹规划问题。
3、本发明提出的强化学习方案主要面对的是海洋场景,其中海上用户不像陆地用户是固定的或随机分布,海上船舶有各自固定的航道,且具有可预测的移动模式;同时,相比于陆地场景,海域信道特性更加容易受海面状况和气象条件等环境因素影响,虑海洋传播的独特性带来了新的信道特性,散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响。因此,本发明提出的强化学习算法充分考虑了海洋固有环境的约束影响,解决了现有算法无法直接拓展到海洋场景问题。与陆地场景的UAV-地面自由空间损耗模型相比,本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模,可以较好的反映海浪运动和海洋散射等带来的影响。
4、本发明基于强化学习算法实现海域动态环境下UAV轨迹的实时规划,大大提升了海洋通信的性能和效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的整体流程图。
图2为本发明基于Q-learning算法的无人机轨迹优化流程图。
图3为本发明基于DDPG算法的无人机轨迹优化流程图。
图4为本发明不同起飞位置下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。
图5为本发明中不同船舶航迹下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。
图6为本发明基于Q-learning算法和基于DDPG算法每次迭代得到的平均奖励曲线图。
图7为本发明不同飞行时间下不同算法得到的平均保密速率曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参考图1,基于强化学习的海域安全通信无人机轨迹实时规划方法,所述方法包括:
所述方法包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
所述步骤一中,假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙,即 T=Ndt;在每个时隙内,考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响,因此,无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式:
所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS 获得,因此假设船舶D的航线为:
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标, yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
窃听节点接收的信干燥比和速率为:
对系统进行优化,系统最大的平均保密速率表示为:
请参考图2,所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf;
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;
然后根据更新公式:
Qπ(sn,an)←Qπ(sn,an)+α(rn+γmaxQπ(sn+1,an+1)-Qπ(sn,an))来更新Q表;
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a 后得到的未来奖励期望;
针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
请参考图3,所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn;
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素 (sn,an,rn,sn+1)放入经验池Rb中;
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值 yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
最后采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
同样,针对不同的船舶航道信息,按照以上训练过程进行训练,有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。
所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置 (xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为和
此外,假设信道功率增益p0以及莱斯因子K[n]分别为40dBm和31.3;噪声方差UAV的传输功率Ps[n]=15dBm,UAV的最大飞行速度船舶的最大航行速度UAV的飞行高度H=50m;Q-learning 算法的参数设置如下,学习率α=0.3,折扣因子γ=0.99,一开始的探索率ε=1,探索率的衰减因子κ=0.99995;DDPG算法的参数设置如下,经验池的大小Rb=100000,小批量采样数Nb=64,Actor与Critic网络的学习率分别为10-4和10-3。
请参考图4-7,图4中移动船舶D的初始位置由☆表示,×表示窃听者En的位置,△和▽分别表示UAV的起始位置以及终点位置。由于在实际场景中UAV起飞点随机分布在岸边,传统算法无法处理这种动态起飞点情况。而在我们提出的Q-learning与DDPG算法都将UAV的初始位置考虑在内,在每次优化轨迹前UAV的初始位置都是随机选择的,因此两种算法都可以解决UAV的动态轨迹优化问题。从图4所示的仿真结果来看,对于任意给定的UAV初始位置(x0,y0)=(0,210)m和(x0,y0)=(0,90)m(如在实际中,选择提供通信服务的无人机不空闲,需要选择另一架无人机提供服务),Q-learning与DDPG算法都能实时规划出无人机的轨迹。从轨迹图可以看出,UAV都是首先在避开窃听者E1的情况下去追船,然后尽可能长的时间跟随船舶,最后由于飞行时间限制,UAV会在避开窃听者E2的情况下朝着终点飞行。UAV的这种飞行模式表明当它在接近目标的同时也要避开窃听者,这样才能尽可能的最大化安全速率。
图5中展示了Q-learning与DDPG算法对于不同船舶航道lane(xd[n],yd[n])和航速下获得的UAV轨迹实时规划图,船舶的航道信息可以通过船载AIS获得。从仿真结果我们可以看出,对于移动船舶1(实线△,最大航行速度)和移动船舶2(虚线△,最大航行速度)来说,Q-learning与DDPG算法得到的UAV轨迹都是在尽可能避开窃听的情况下长时间跟船后返航。而对比移动船舶1和移动船舶2中UAV的轨迹,我们可以发现,在移动船舶2中UAV在经过两个窃听时,没有像以前一样紧跟移动船舶,而是在两个窃听者的中间地段飞行。这主要是由于在窃听者中间飞行,可以尽可能的同时远离两个窃听。
图6中展示了Q-learning与DDPG算法在每次迭代后获得的奖励。从图中我们可以看出,随着迭代次数的增加,两种算法得到的平均保密速率首先都会增加,然后逐渐趋于稳定。此外,对比两种算法,我们可以看到,DDPG算法明显比Q-learning更早收敛,这主要是由于随着不断的训练,Actor网络逐渐趋于稳定后,每次都会得到最优的动作,而使训练效率提高。另外,我们还可以发现,相比于Q-learning算法,DDPG算法最后收敛的保密速率更高,这主要归功于DDPG算法可以使UAV更加自由的选择飞行动作,使得UAV可以更好的接近移动船舶,提供更好的通信服务。
图7中展示了提出的Q-learning与DDPG算法性能与A3C算法和传统优化算法(COA算法)进行对比。对比A3C与DDPG算法,我们发现它们性能比较接近,DDPG算法略优,这是由于它们都使用了Actor-Critic框架。而与Q-learning算法相比,所提DDPG算法效果更好,这主要是因为DDPG算法可以解决智能体在连续空间下的轨迹优化问题,使UAV可以更好的接近移动船舶。最后,我们看出COA算法相较于其他强化学习算法性能较差,这主要是由于传统优化算法无法很好的适应高度动态化的海洋环境。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,包括以下步骤:
步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型;
步骤二、通过船载AIS获得船舶的航道信息,并分别得到移动船舶、窃听节点接收的信干燥比和速率;
步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹;
步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型,分别使用Q-learning和DDPG算法来进行轨迹优化;
步骤五、设置相关仿真参数;
步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。
3.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤二中,海洋上的船只是沿着预先规划好的航道行驶,而航道信息通过船载AIS获得,因此假设船舶D的航线为:
其中,Vd为船舶最大航运速度,dt表示时隙,xd[n]表示船舶D在n时隙在x轴的坐标,xd[n+1]表示船舶D在n+1时隙在x轴的坐标,yd[n]表示船舶D在n时隙在y轴的坐标,yd[n+1]表示船舶D在n+1时隙在y轴的坐标,(xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置;
移动船舶D接收的信干燥比和速率为:
窃听节点接收的信干燥比和速率为:
对系统进行优化,系统最大的平均保密速率表示为:
4.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤四中,基于Q-learning的海域无人机轨迹优化:
首先,提出了一个解决离散轨迹优化问题的Q-learning框架,将Q-learning算法视为一个马尔可夫决策过程,它表示为一个集合<S,A,R,P,γ>;
S={s1,s2,....}表示每个时隙UAV出现的位置或状态集合;
其中,第n个时隙的状态可表示为:Sn={xs(n),ys(n),H},(xs(n),ys(n))表示UAV的水平坐标,H表示UAV的垂直坐标;
A表示UAV可用的动作集,在Q-learning框架下的离散空间内有9个可用动作{上,下,左,右,左上,右上,左下,右下,悬停};
R是UAV的奖励函数,表示为rn=rs+rb+rf;
其中rs表示保密速率奖励,rb表示UAV飞出边界的惩罚,rf表示飞行时间惩罚;
P表示状态转移概率,P(s′|s,a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布;
γ表示折扣因子,决定着UAV重视未来奖励还是当前奖励;
在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
首先UAV会在第n个时隙根据探索率ε选择一个动作an,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,
其中:rb和tf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;
然后根据更新公式:
其中,Qπ(s,a)=Ε(Rn=|sn=s,an=a),表示当UAV遵循策略π(a|s)在状态s采取动作a后得到的未来奖励期望;
5.根据权利要求4所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤四中,基于DDPG的海域无人机轨迹优化:
建立解决连续轨迹优化问题的DDPG框架,在每一次迭代开始时,随机选择岸上的一个UAV起飞点进行训练,且由于移动船舶按照固定航道航行,航道信息通过船载AIS历史信息得到;
其中:Actor当前网络表示:负责通过梯度下降法更新参数θ,并且根据当前状态s得到采取的动作a,用以与环境交互产生下一个状态s′和奖励rn;
其次,同样考虑边界与飞行时间的问题,当该动作导致UAV飞出边界或无法按时返航时,UAV将受到rb和rf的惩罚,其中,rb和rf为负常数;
否则UAV将根据an移动到下一个状态s′并且获得奖励rn;接着将相应的元素(sn,an,rn,sn+1)放入经验池Rb中;
其中:Critic当前网络表示:负责计算当前Q(s,a,ω)值,并且根据目标值yn=r+γQ′(s′,a′,ω′)来更新参数ω,其中r为UAV的奖励;
采取软更新的方式,即θ′←τθ+(1+τ)θ′,ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中,其中τ<<1表示更新因子;
其中:Actor目标网络表示:负责将参数θ定期更新到θ′,然后根据经验池中的状态s′得到下一个动作a′;
Critic目标网络表示:负责将参数ω定期更新到ω′,并且计算Q′(s′,a′,ω′)给当前网络更新参数ω。
6.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法,其特征在于,所述步骤五中,UAV的初始位置(x0,y0)在(0,[0,300])m的范围内随机选择,终点位置(xF,yF)=(300,150)m,其中(x0,y0)和(xF,yF)分别表示UAV初始位置和终点位置的水平坐标;移动船舶D的初始位置水平坐标(xd[0],yd[0])=(0,150)m;假设海洋上存在两个窃听者,水平坐标分别为和
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024919.5A CN115407794A (zh) | 2022-08-25 | 2022-08-25 | 基于强化学习的海域安全通信无人机轨迹实时规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211024919.5A CN115407794A (zh) | 2022-08-25 | 2022-08-25 | 基于强化学习的海域安全通信无人机轨迹实时规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115407794A true CN115407794A (zh) | 2022-11-29 |
Family
ID=84160562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211024919.5A Pending CN115407794A (zh) | 2022-08-25 | 2022-08-25 | 基于强化学习的海域安全通信无人机轨迹实时规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115407794A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116634457A (zh) * | 2023-04-07 | 2023-08-22 | 大连海事大学 | 一种基于深度强化学习的多无人机自适应数据收集与回传方法 |
CN117880817A (zh) * | 2024-03-11 | 2024-04-12 | 广州番禺职业技术学院 | 无人机轨迹与波束成形向量确定方法、装置和电子设备 |
-
2022
- 2022-08-25 CN CN202211024919.5A patent/CN115407794A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116634457A (zh) * | 2023-04-07 | 2023-08-22 | 大连海事大学 | 一种基于深度强化学习的多无人机自适应数据收集与回传方法 |
CN116634457B (zh) * | 2023-04-07 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机自适应数据收集与回传方法 |
CN117880817A (zh) * | 2024-03-11 | 2024-04-12 | 广州番禺职业技术学院 | 无人机轨迹与波束成形向量确定方法、装置和电子设备 |
CN117880817B (zh) * | 2024-03-11 | 2024-05-07 | 广州番禺职业技术学院 | 无人机轨迹与波束成形向量确定方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111786713B (zh) | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN112118556B (zh) | 基于深度强化学习的无人机轨迹及功率联合优化方法 | |
CN115407794A (zh) | 基于强化学习的海域安全通信无人机轨迹实时规划方法 | |
CN109831797B (zh) | 一种推动功率受限的无人机基站带宽和轨迹联合优化方法 | |
CN107017940B (zh) | 无人机中继广播通信系统航迹优化方法 | |
Xie et al. | Connectivity-aware 3D UAV path design with deep reinforcement learning | |
CN111479239B (zh) | 一种多天线无人机数据采集系统的传感器发射能耗优化方法 | |
CN114124266B (zh) | 一种基于irs辅助无人机与无人船通信的信道建模方法 | |
CN109885088A (zh) | 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法 | |
CN112865897B (zh) | 一种无人机对地面场景的非平稳信道仿真方法及系统 | |
CN113660681B (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN113784314B (zh) | 一种智能反射表面辅助下的无人机数据与能量传输方法 | |
CN113258989B (zh) | 一种使用强化学习获得无人机中继轨迹的方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN114980169A (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN116436512A (zh) | 一种ris辅助通信的多目标优化方法、系统及设备 | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Xu et al. | Joint power and trajectory optimization for IRS-aided master-auxiliary-UAV-powered IoT networks | |
CN114142912B (zh) | 高动态空中网络时间覆盖连续性保障的资源管控方法 | |
Park et al. | Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism | |
Hua et al. | On sum-rate maximization in downlink UAV-aided RSMA systems | |
CN116896777A (zh) | 基于强化学习的无人机群通感一体能耗优化方法 | |
Wu et al. | Deep Reinforcement Learning-based Energy Efficiency Optimization for RIS-aided Integrated Satellite-Aerial-Terrestrial Relay Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |