CN116257089A

CN116257089A - 一种基于深度强化学习的无人机路径优化方法、存储介质及设备

Info

Publication number: CN116257089A
Application number: CN202310377117.0A
Authority: CN
Inventors: 王鑫; 仲伟志; 王俊智; 肖丽君; 朱秋明; 林志鹏; 王洁
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-06-13

Abstract

一种基于深度强化学习的无人机路径优化方法、存储介质及设备，包括S1：建立无人机与无线电网络的通信模型，包括场景模型、基站天线辐射模型以及信号模型，S2：根据步骤S1的通信模型计算无人机在不同位置的信号中断概率，以此构建无线电覆盖概率图E，S3：综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标；基于优化目标，利用深度强化学习算法对无人机飞行路径进行优化。本申请通过以上方案完成对无人机的飞行路径优化，避开弱覆盖区域，从而保证无人机与基站之间的连通性；同时采用深度强化学习算法提高了重要样本的利用率，获取更精确的回报值，更加有效地对无人机路径进行优化。

Description

一种基于深度强化学习的无人机路径优化方法、存储介质及设备

技术领域

本发明涉及蜂窝网络下无人机与基站之间的通信连通性增强技术，属于无线信息传输领域；具体是针对一种基于深度强化学习的无人机路径优化方法、存储介质及设备。

背景技术

近年来，蜂窝网络与无人机结合的通信方式受到广泛关注。首先，蜂窝网络基础设施遍布全球，可提供经济高效的通信链路，减少通信范围的限制。其次，可以降低延迟，提高数据传输速率，补充定位精度。然而蜂窝连接无人机的通信形式也存在一些问题。由于现有的蜂窝网络主要面向地面用户，基站天线通常是朝向地面倾斜的，导致无法保证完善的空中通信覆盖。同时，蜂窝连接的无人机易受到其它非关联基站的严重干扰。为了保证无人机的飞行安全以及任务完成效率，需要利用无人机的可控移动性，对无人机的飞行路径进行优化，避开弱覆盖区域，从而保证无人机与基站之间的连通性。

目前，在路径规划领域广泛使用的DQN算法存在以下问题：样本利用率低，即在回放经验池中进行重采样数据训练，原本的随机采样机制会导致训练样本种类比较单一，进而导致智能体对环境探索率较低，易获取局部最优解，降低训练速度。本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备，该方法采用优先经验回放机制代替传统的均匀采样，在保证样本多样性的同时提高了重要样本的利用率，获取更精确的回报值，更加有效地对无人机路径进行优化。

发明内容

本发明针对现有技术中的不足，提供一种基于深度强化学习的无人机路径优化方法、存储介质及设备；通过在保证样本多样性的同时提高了重要样本的利用率，能够获取更精确的回报值，更加有效地对无人机路径进行优化。

为实现上述目的，本发明采用以下技术方案：

一种基于深度强化学习的无人机路径优化方法，包括以下步骤：

S1：建立无人机与无线电网络的通信模型，包括场景模型、基站天线辐射模型以及信号模型，其中，

(一)场景模型：

设定无人机飞行区域范围D×D，以及在该范围内的障碍物高度和位置；

定义无人机在时刻t的位置为q(t)＝(x_t,y_t),t∈[0,T],x_t∈[0,D],y_t∈[0,D]，式中x_t和y_t表示无人机在时刻t位置的x坐标和y坐标；T表示无人机从起点位置至终点位置所用的飞行总时间；

(二)基站天线辐射模型：

设定基站扇区共有M个，并构建出基站天线辐射模型A_A(θ,φ)，其中基站天线为多阵元均匀线阵；

(三)信号模型：

分析无人机在q(t)位置与小区m,m∈M之间的路径损耗模型，包括视距路径损耗

和非视距路径损耗/>

S2：计算无人机在不同位置的信号中断概率，以此构建无线电覆盖概率图E，具体方法如下：

S2.1：根据步骤S1建立的通信模型，分析无人机在时刻t位置从小区m接收到的瞬时信号功率为y_m(t)

S2.2：根据y_m(t)计算时刻t的信号干扰比SIR(t)；

S2.3：根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率P_out(q(t),b(t))；

S2.4：根据测量的通信中断概率，确定在q(t)位置的最佳关联小区b(t)^*：

S2.5：因此q(t)位置的通信覆盖概率＝1-无人机在q(t)位置的中断概率，并将通信覆盖概率值保存到无线电覆盖概率图E中；其中无人机在q(t)位置的中断概率为P_out(q(t))：

S3：综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标；基于优化目标，利用深度强化学习算法对无人机飞行路径进行优化。

为优化上述技术方案，采取的具体措施还包括：

进一步地，在步骤S1中，基站天线辐射模型中A_A(θ,φ)构建过程如下：

A_A(θ,φ)＝G_E,max-min{-[A_E,V(θ)+A_E,H(φ)],A_m}+10log₁₀[1+ρ(|a·w^T|²-1)]

式中，θ和φ分别是基站天线的俯仰角和方位角；G_E,max是天线阵元在主瓣方向上的最大方向增益，A_E,V(θ)和A_E,H(φ)分别是天线的垂直和水平辐射图，A_m是前后比，ρ为相关系数，a表示幅度向量，w为波束成形向量；

参量A_E,V(θ)和A_E,H(φ)的具体计算公式为：

式中，θ_3dB和φ_3dB分别是天线在垂直和水平方向的半功率波束宽度；SLA_V是天线的旁瓣电平限制。

进一步地，在步骤S1中信号模型对于视距路径损耗

和非视距路径损耗

的计算内容如下：

/>

式中，d_m(q(t))是无人机在q(t)位置与小区m之间的距离；f_c是载波频率；h是无人机在q(t)位置时所处的高度。

进一步地，在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为y_m(t)具体计算公式为：

式中，P_m是小区m的发射功率；h_m(t)是t时刻的信道功率增益；β(q(t))表示在q(t)位置的基站天线增益，

是一个随机变量，表示t时刻无人机与小区m之间的小尺度衰落；/>

表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益，

其中LoS link表示是在视距路径链接下，NLoS link表示是在非视距路径链接下。

进一步地，在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为：

式中，b(t)表示t时刻无人机的某个关联小区；y_b(t)(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。

进一步地，在步骤S2.3中，计算P_out(q(t),b(t))的具体内容如下：

S2.3.1：定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为P_out(q(t),b(t))：

式中，Pr(·)表示事件发生的概率；γ_th为设置的阈值，当信号干扰比SIR(t)低于γ_th时，视为无人机处于通信中断状态；

S2.3.2：将信号干扰比SIR(t)改写为SIR(q(t),b(t),

即将变量时刻t改为对应时刻下的无人机位置q(t)、关联小区b(t)、无人机与关联小区b(t)之间小尺度衰落

定义中断指示函数为c(q(t),b(t),/>

S2.3.3：根据步骤S2.3.2的内容将S2.3.1的中断概率P_out(q(t),b(t))改写为

的期望值：

然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次，获得该位置无人机与每个关联小区b(t)的中断概率：

式中，

表示为t时刻无人机与关联小区b(t)之间小尺度衰落的第j个测量值。

进一步地，在步骤S3，所述设定无人机飞行路径的优化目标的具体内容为：

S3.1：构建连续优化目标函数：

s.t.q(0)＝q_s

q(T)＝q_f

式中，T表示从无人机从起点到终点的飞行时间；μ是一个非负系数；q(0)表示初始时刻下无人机所在位置；q_s代表无人机起始位置；q(T)表示末点时刻下无人机所在位置；q_f代表无人机终点位置；

S3.2：将步骤S3.1中对连续优化问题进行离散化处理，将无人机飞行区域划分为一系列相邻的网格点，最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和：

s.t.q₀＝q_s

q_N＝q_f

式中，q_n表示无人机在划分网格中n,(n∈N)点的所在位置；P_out(q_n)表示无人机在n点位置时中断概率；q₀表示无人机起始点所在位置；q_f表示无人机终点所在位置。

进一步地，在步骤S3中，所述基于优化目标，利用深度强化学习算法对无人机飞行路径进行优化具体内容为：

(一)、先让无人机从起点至终点进行实际试飞行，内容如下：

1)：设置无人机实际试飞行的最大迭代次数为N_epi、每次迭代中无人机经过网格点的最大数也即称无人机走的最大步数为N_step，初始化无人机探索概率ε→ε₀，设置无人机探索概率衰减率α、无人机到达终点奖励值R_des、无人机出界飞行区域围D×D的惩罚值P_ob、非负系数μ、容量为C的重放经验池D，无线电覆盖概率图E，设置地图神经网络及其参数ξ、深度Q网络及其参数θ、目标深度Q′网络及其参数θ^-＝θ；设置并初始化经验回放求和树的默认数据结构，并将每个求和树叶子节点的优先级p_i初始化为p_s，即p_i→p_s；

2)：无人机开始执行实际试飞行任务、设循环变量n_epi＝1，其表示实际试飞行任务中的第1次迭代；

3)：初始化大小为N₁的滑窗W、初始化无人机实际试飞行初始位置q_n＝q_s，此时q_n中的n＝0，表示无人机此时所经过网格点或走无人机探索的步数为0；

4)：以ε-greedy策略选择动作v_n，具体是以ε的概率在动作空间中随机选择动作，以1-ε的概率选择到最优动作；

5)：执行动作v_n，得到无人机在下一状态的位置q_n+1，通过无线电覆盖概率图E中测量获得的q_n+1位置的中断概率P_out(q_n+1)，设置单步奖励R_n：

R_n＝-1-μP_out(q_n+1)

6)：将(q_n,v_n,R_n,q_n+1)存储在滑窗W中；其中当n≥N₁时，计算n-N₁至n步的累计奖励

然后将第n-N₁步的位置、动作、n-N₁至n步的累计奖励以及第n步位置

的数据样本存储到求和树节点中；

7)：更新无人机探索的步数n，循环步骤4)-7)得到多个数据样本；

8)：从求和树中采样k个节点的样本

其中每个样本j被采样的几率为/>

p_j表示节点样本j的优先级，/>

表示求和树所有节点优先级总和，求和树节点样本损失函数权重ω_j＝(P(j)/min_iP(i))^-β，β决定了优先经验回放对收敛结果的影响；

9)：计算求和树k个节点样本中各个节点样本j的当前奖励值y_j，具体方法如下：

式中，

表示无人机从j步至j+N₁步的累计奖励；/>

表示无人机在j+N₁步时候的位置，S表示无人机飞行区域D×D，γ表示回报折扣率，/>

表示目标深度Q′网络对深度Q网络在q_j+N1位置选择最优动作v^*的评估奖励值；

10)：对损失函数

执行梯度下降，并更新深度Q网络参数θ；其中ω_j表示损失函数权重、/>

表示目标Q′网络对Q网络在q_j位置选择动作v_j的评估奖励值；

11)：基于无线电覆盖概率图E，并更新地图神经网络参数ξ；然后进行无人机的模拟试飞行任务：

步骤1：初始化无人机模拟试飞行任务的初始位置

其中各参量上方的标号“～”是表示当前状态处于模拟试飞行任务，以区分实际飞行中的参量，此时/>

中的/>

表示无人机在模拟试飞行任务中此时所经过网格点或走无人机探索的步数为0；设置循环变量/>

表示在模拟试飞行任务中的第1次迭代；

步骤2：同步骤4)-10)处理过程，其中有区别的是在步骤5)中的中断概率由地图神经网络预测输出得到，而地图神经网络的输入参量是无线电覆盖概率图E中的数据；

步骤3：判断无人机是否到达终点、或出界、或达到最大步数N_step时，执行步骤4；否则，令

重复循环到步骤2中；

步骤4：分析迭代次数

每迭代循环B次，更新目标深度Q′网络参数θ^-→θ，然后到步骤5；

步骤5：若

则循环结束；若/>

则令/>

并返回步骤1中；

12)回到实际试飞行任务中，判断无人机是否到达终点、或出界、或达到最大步数N_step，若是则执行步骤13)；否则，令n＝n+1且无人机探索概率ε→εα，并重复循环到步骤4)中；

13)分析迭代次数n_epi，每迭代循环B次，更新目标深度Q′网络参数θ^-→θ；然后到步骤14)；

14)若n_epi＝N_epi，则循环结束；若n_epi＜N_epi，则令n_epi＝n_epi+1并返回步骤3)中；

(二)、通过步骤1)-14)的整个过程能够不断完善目标深度Q′网络的参数θ^-，因此目标深度Q′网络针对深度Q网络对于无人机在某一位置q_n选择动作v_n的评估奖励值也逐渐达到最优；此时不再进行实际试飞行，直接通过最终训练完成后的目标深度Q′网络指导无人机从不同的起点飞到不同的终点，期间通过目标深度Q′网络指导飞行动作的选择，使得无人机选择奖励值最大的动作，完成路径规划。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序使计算机执行如上述任一项所述的无人机路径优化方法。

一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现如上述任一项所述的无人机路径优化方法。

本发明的有益效果是：

1、本申请对无人机的飞行路径进行优化，避开弱覆盖区域，从而保证无人机与基站之间的连通性。

2、本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备；通过使用了基于求和树的优先经验回放机制，打破了均匀采样，赋予学习效率高的样本以更大的采样权重。然后本申请方案在保证样本多样性的同时提高了重要样本的利用率，获取更精确的回报值，更加有效地对无人机路径进行优化。

附图说明

图1是本发明无人机与蜂窝网络基站通信场景示意图。

图2是本发明基于深度强化学习的无人机路径优化流程示意图。

图3是本发明一种具体案例产生的无人机飞行路径示意图。

图4是本发明一种具体案例无人机任务完成时间与其它方法对比示意图。

具体实施方式

下面具体通过附图和实施例来说明本发明基于深度强化学习的无人机路径优化方法、存储介质及设备。

本案例采用密集城市区域蜂窝网络场景，具体仿真参数如表1所示。

表1仿真参数

D

2

M

21

f_c

2GHz

D_tol

20m

α_bd

0.3

h_bs

25m

h

100m

ε₀

0.5

β_bd

300

G_E,max

3dBi

P_m

0.1W

α

0.998

σ_bd

50

A_m

30dB

γ_th

0dB

R_des

200

(x_s,y_s)

随机值

ρ

1

J

1000

P_ob

10000

(x_f,y_f)

(1400，1600)

θ_3dB

65°

μ

40

C

100000

V

8

φ_3dB

65°

N_epi

5000

N₁

30

X

7

SLA_V

30dB

N_step

300

γ

0.9999

本实施例包括以下步骤：

第一步：建立无人机与蜂窝网络的通信模型，包括场景模型、天线模型以及信号模型，具体步骤如下：

1)如图1所示，针对密集城市区域建立无人机与蜂窝网络通信的场景模型。具体包括

步骤一：考虑飞行区域范围为D×D km²，根据国际电信联盟建议的统计模型来生成建筑物的高度和位置。该模型涉及三个参数：α_bd、β_bd和γ_bd。其中，α_bd为建筑物覆盖面积与总土地面积的比值；β_bd为单位面积内建筑物的平均数量；γ_bd值决定了建筑物的高度分布，即服从均值为σ_bd的瑞利分布；

步骤二：定义无人机在时刻t的位置为q(t)＝(x_t,y_t),t∈[0,T],xt∈[0,D],yt∈[0,D]，x_t和y_t表示无人机的x坐标和y坐标。q_s＝(x_s,y_s)以及q_f＝(x_f,y_f)分别代表起始位置和终点，无人机飞行速度为Vm/s。

2)计算基站天线辐射模型

本场景设置有X＝7个基站，基站位置分别为(1000,1000)，(1577.4,1333)，(1000,1666.7)，(422.6,1333.3)，(422.6,666.7)，(1000,333.3)，(1577.4,666.7)，基站扇区共有21个，天线为8阵元均匀线阵，基站具有相同高度h_bs＝25m，天线的阵列辐射方向图建模为

A_A(θ,φ)＝3-min{-[A_E,V(θ)+A_E,H(φ)],30}+10log₁₀[1+(|a·w^T|²-1)]

其中a表示幅度向量，w为波束成形向量，A_E,V(θ)和A_E,H(φ)分别是天线的垂直和水平辐射图

3)计算无人机在q(t)位置时与小区m之间的路径损耗模型，具体方法如下：

其中，d_m(q(t))是无人机在q(t)位置时与小区m之间的距离。

第二步：计算各个位置的中断概率，构建无线电覆盖概率图，具体方法如下：

1)计算无人机在q(t)位置从小区m接收到的瞬时信号功率为

其中，h_m(t)是信道功率增益，β(q(t))表示在q(t)位置时基站的天线增益，

是一个随机变量，表示t时刻无人机与小区m之间的小尺度衰落，

表示在q(t)位置无人机与小区m之间的大尺度信道功率增益，确定方法如下：/>

2)计算时刻t的信号干扰比

其中，b(t)表示时刻t无人机的关联小区，y_b(t)(t)表示t时刻从关联小区b(t)接收到的瞬时信号功率。

3)根据前述中断指示函数，测量每个小区的SIR值1000次，计算该位置与每个小区的中断概率

4)根据测量的中断概率，确定最佳关联基站

5)无人机在q(t)位置的通信覆盖概率＝1-中断概率，将覆盖概率值保存到无线电覆盖概率图中：

第三步：基于以上分析，构建需要优化的目标函数，具体方法如下：

1)构建连续优化目标函数

s.t.q(0)＝q_s

q(T)＝q_f

其中，T表示从起点到终点的飞行时间，μ是一个非负系数，值越高，越关注无人机的连通性，代价是无人机轨迹可能更加迂回。

2)对连续优化问题进行离散化处理，将无人机飞行区域划分为一系列相邻的网格点，最终目标等价于最小化无人机经过的网格点数N和预期中断概率的加权和：

s.t.q₀＝q_s

q_N＝q_f

第四步：如图2所示，利用深度强化学习算法对无人机路径进行优化，具体步骤如下：

1)根据表1中的参数，对变量进行初始化处理；其中D_tol表示为容错距离；

2)无人机开始执行飞行任务，表示迭代次数的循环变量n_epi＝1；

3)初始化大小为30的滑窗W，假设实际初始位置q_s＝(1000,1000)，无人机探索步数n＝0；

4)以ε-greedy策略选择动作，假设选定动作v_n＝(0,10)；

5)执行动作，得到下一状态q_n+1＝(1000,1010)，测量获得当前中断概率P_out(q_n+1)，计算单步奖励R_n＝-1-40P_out(q_n+1)；

6)将(q_n,v_n,R_n,q_n+1)存储在滑窗W中，当n≥30时，计算R_(n-30):n，并将(q_n-30,v_n-30,R_(n-30):n,q_n)存储到求和树中；循环步骤4)-6)得到多个样本；

7)从求和树中采样32个样本(q_j,v_j,R_j:j+30,q_j+30),...,(q_j+32,v_j+32,R_j+32:j+30+32,q_j+30+32)，每个样本被采样的机率基于

p_j表示样本j的优先级，/>

表示求和树所有节点优先级总和。计算损失函数权重ω_j＝(P(j)/min_iP(i))^-0.4；

8)计算各个样本的当前奖励值，具体方法如下：

其中，S表示无人机飞行区域，

表示目标Q′网络对Q网络在/>

位置选择的最优动作v^*的评估奖励值；

9)对损失函数

执行梯度下降，更新Q网络参数θ；

10)将测量的中断概率数据添加到E中，并更新地图网络参数ξ；

11)进行模拟飞行步骤(模拟飞行独立于前文的实际飞行，模拟飞行的作用是创造更多样本来更新两个网络的参数，使训练效果更佳)，表示模拟飞行情节数的循环变量

具体步骤如下：

步骤一：随机初始化模拟初始位置

步骤二：同4)-10)，不同的是，此时5)的中断概率由地图神经网络模型预测得到；

步骤三：当到达终点、出界或达到最大步数时，执行步骤四；否则，令

重复步骤二；

步骤四：每循环5次，设置目标Q′网络参数θ^-→θ；

步骤五：若

则循环结束；若/>

则令/>

并返回步骤一，其中

12)当到达终点、出界或达到最大步数时，执行13)；否则，令n＝n+1，ε→0.998ε并返回4)；

13)每循环B次，设置目标Q′网络参数θ^-→θ；

14)若n_epi＝5000，则循环结束；若n_epi＜5000，则令n_epi＝n_epi+1并返回3)。

本实施例得到的效果可以通过图3-图4仿真实验中所获得的具体数据进行进一步说明。可以看到：1)图3给出了最后100集无人机从随机起点到终点的路径，从图中可以看出，无人机避开了弱覆盖区域，沿着通信中断概率更高的路径进行飞行；2)图4给出了本发明方法与其它算法在飞行时间、通信中断时间以及两者加权和的对比结果，可以看出本发明可以用最少的加权和时间完成任务，达到预期目的。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。