CN113406965A

CN113406965A - 一种基于强化学习的无人机能耗优化方法

Info

Publication number: CN113406965A
Application number: CN202110598760.7A
Authority: CN
Inventors: 赵海涛; 唐加文; 李天屿; 倪艺洋; 夏文超; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-17

Abstract

本发明公开了一种基于强化学习的无人机能耗优化方法，方法应用在无人机网络中，方法步骤如下：首先构建无人机与地面传感器之间的通信系统模型；然后在上述系统模型基础上，计算无人机遍历单个传感器的飞行能耗；接着在无人机遍历单个传感器的飞行能耗基础上，计算得到无人机遍历所有传感器的整体能耗(飞行能耗+通信能耗)；最后使用基于Q‑learning的无人机的路径选择算法，得到无人机最优遍历路径，求解无人机遍历所有传感器的最优能耗。本发明相对于已知的其他算法，在能耗表现上得到了提升。

Description

一种基于强化学习的无人机能耗优化方法

技术领域

本发明涉及一种基于强化学习的无人机能耗优化方法，属于深度学习及通信技术领域。

背景技术

近年来，随着5G不断发展，现在的通信系统不再满足于普通的地面通信。地空通信成为通信网络中重点发展的一部分。无人机因其高机动性非常适合大范围的通信，同时在高空中与地面通信可以降低很多干扰已成为地空通信网络的重要组成部分。但是，无人机在野外空旷地区与大量传感器进行通信也存在一些问题。无人机的能量有限，如何合理的设计飞行路线，降低飞行能耗成为关键。

因此，本发明主要考虑无人机在缺乏基础设施的野外空旷地带上与地面上大量分布的传感器进行通信。无人机接受传感器采集到的数据同时也向传感器发送一些模型参数信息。如何在完成通信任务的基础上，优化无人机的飞行路线和数据传输策略，最小化无人机的能耗消耗是问题的核心。本发明依此展开，主要研究整个无人机和传感器通信系统的模型，推导无人机的通信和飞行能耗模型，并研究相关的路径选择方法，考虑了无人机的飞行速度、地理信息、传输速率等因素，分析了无人机的动作空间和状态空间。提出了一种基于强化学习的无人机能耗优化方法。

发明内容

本发明提出一种基于强化学习的无人机能耗优化方法，通过制定无人机的飞行策略和优化内容。然后从强化学习算法出发，提出了一种基于Q-learning的无人机的路径选择算法，有效降低了无人机飞行及通信能耗。

为实现上述目的，本发明采用的技术方案如下：本发明提出的一种基于强化学习的无人机能耗优化方法，该方法包括如下步骤：

S1：构建无人机与地面传感器之间的通信系统模型；

S2：在上述系统模型基础上，计算无人机遍历单个传感器的飞行能耗；

S3：在无人机遍历单个传感器的飞行能耗基础上，计算得到无人机遍历所有传感器的整体能耗，所述能耗包括飞行能耗和通信能耗；

S4：使用基于Q-learning的无人机的路径选择算法，得到无人机最优遍历路径，从而得到无人机遍历所有传感器的最优能耗。

进一步的，所述步骤S1具体包括：

假设地面传感器k的海拔高度为h_k，其中，k＝1，...N，N为传感器的总个数，地面传感器最大的海拔高度为h_max＝{h₁，h₂，...，h_k，...，h_N}，并且地表植被的最大高度为h_t，为了保证无人机的飞行安全和通信质量，无人机的飞行高度h_f满足如下条件：

h_f≥h_max+h_t

设定无人机在悬停时与地面传感器k进行通信，悬停时间为t_h，当无人机悬停在空中时，无人机与地面传感器k的海拔高度差H_k为：

H_k＝h_f-h_k

用s_k表示无人机和传感器k的水平距离，无人机和传感器k之间的距离表示为：

在时刻t，使用β_k(t)作为无人机和传感器k之间的信道系数，满足如下条件：

其中，

代表大尺度衰落造成的路径损耗，随机复数变量

用来表示小尺度衰落造成接收信号的影响，由于障碍物存在遮挡，考虑视距链路(LoS)和非视距链路(NLoS)，α_L和α_N分别为对应的路径损耗，

满足如下条件：

其中，P_k，LoS和P_k，NLoS分别表示无人机和传感器k之间的视距链路(LoS)概率和非视距链路(NLoS)概率，p_k，LoS满足：

其中，b和c为比例系数，让p_k，NLoS满足如下条件：

p_k，NLoS＝1-p_k，LoS

当无人机和传感器k进行通信时，假设无人机和传感器具有相同的通信设备并且具有相同的传输功率P_t，无人机发出的干扰信号为x_s(t)，无人机和传感器k之间的传输速率采用如下公式表示：

其中，

表示接收机的高斯白噪声N₀和弱干扰之和，

为残余环路干扰信道，P＝E{|x_s(t)|²}，为无人机发出的干扰信号为x_s(t)的均方差，B代表带宽，t_h为无人机悬停时间。

进一步的，所述步骤S2具体包括：假设无人机的最大水平飞行速度为V_max，空气阻力为f，用m表示无人机的质量，a₀表示加速度，整个飞行过程中无人机海拔高度恒定，飞行过程可以分解为匀速、加速、减速和悬停四个部分；首先分析无人机从传感器k飞到传感器k+1之间的过程，假设无人机一开始悬停在传感器k上方时，无人机水平速度为0；无人机在t_j时间内完成数据发送和接收任务并且一直处于悬停状态；然后，无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离；最后，无人机开始减速，当速度降到0时到达传感器k+1，减速过程和加速过程一致；

无人机在t_h时间内悬停的能耗表示为：

E_h＝P_ht_h

其中，P_h为无人机悬停时的飞行功率，假设无人机匀速飞行时间为t_c，则这段时间内的飞行能耗为：

E_c＝P_ht_c+ft_c

同时，加速过程的能耗E_Ac和减速过程的能耗E_De满足如下公式：

则从传感器k到传感器k+1之间的飞行能耗Ef为：

E_f＝E_h+E_Ac+E_c+E_De。

进一步的，所述步骤S3具体包括：把N个传感器放在N个网格的中心，无人机在空中遍历所有传感器，假设无人机高度是固定的，在飞行过程中不会上升或下降，在该场景中，无人机的通信是点对点通信，考虑基于LoS的数据传输，忽略非LoS传输，根据步骤S1通信系统模型，得到如下公式：

其中，

无人机从传感器i上空飞行到传感器j上空所产生的能耗E_i，j，包括飞行能耗和通信能耗，通信能耗包含发送能耗E_s和接收能耗E_r，对于发送功耗，无人机在传感器i上空向传感器i发送数据Q_p时间t_i，i，无人机向下一个传感器j发送数据Q_c，这个时间为t_i，j，设无人机发送功率P_s，则发送功耗为：

E_s＝P_s(t_i，i+t_i，j)

其中，t_i，i和t_i，j分别为：

其中，d_i，i和d_i，j分别表示无人机在传感器i上空悬停时和传感器i，j之间的距离，H_i，H_j分别表示无人机与传感器i，j之间的高度差，E_i，j表示为：

E_i，j＝E_f+E_s

则无人机遍历所有传感器的整体能耗E_all表示为：

同时满足如下条件：

并且每个传感器只需要传输一次数据给无人机，功耗计算不重复。

进一步的，所述步骤S4具体包括：推导出无人机遍历一个地面传感器并且与其通信所产生的能耗E_i，j，将w作为能耗的权重，通过上述分析可知，无人机遍历地面所有传感器的总能耗E_all取决于遍历每个传感器能耗之和，要求解minE_all，需要得到使总能耗最小的无人机最优遍历路径，使用Q-leaming算法得到无人机的最优遍历路径。Q-leaming中有状态、动作、奖赏这三个要素。智能体(指无人机)会根据当前状态来采取动作，并记录被反馈的奖赏，以便下次再到相同状态时能采取更优的动作。Q为动作效用函数，用于评价在特定状态下采取某个动作的优劣。

获得无人机的能耗最优遍历路径的具体步骤如下：

(1)定义无人机的状态s＝(x_s，y_s)，(x_s，y_s)表示传感器i的位置坐标信息，定义Q表，表中的每一行记录了状态s，选择不同动作时的Q值，所述动作为从当前传感器到达下一个传感器；每一次，无人机有两种动作可选：①从所有传感器中随机选择一个作为要到达的下一个传感器编号；②选择具有最大Q值的状态下执行的动作，即无人机到达的下一个传感器；将w作为无人机遍历一个地面传感器并且与其通信所产生的能耗E_i，j的权重，定义如下奖励值函数，表示无人机在状态s执行动作的奖励值：

R_i＝-wE_i，j

(2)初始化N个地面传感器，传感器编号Ω＝{1，2，...N}，初始化w，ε，λ，γ的值，其中，γ是衰减系数，λ是学习率，且有，γ∈(0，1)，λ∈(0，1)，ε是一个阈值，初始化N×N个能量矩阵E_i，j和奖励矩阵R_i，i，j＝{1，2，..，N}，初始化Q←0_N，N，0_N，N表示N×N阶零矩阵，初始化无人机状态s，Ω′＝Ω；

(3)假设Q_i[s，a]表示无人机在状态s的时候执行动作a，指无人机从一个传感器i到达另一个传感器i+1这个动作，使得无人机到达下一个状态s′＝[x_s′，y_s′]所获得的Q值，从0到1中产生一个随机数μ，如果μ＜ε，执行上述动作①，即从Ω′＝{1，2，...N}中随机选择无人机将要到达的下一个传感器编号；否则，执行上述动作②，即选择具有最大Q值的状态s′下执行的动作a′，即从上一个传感器i+1到达下一个传感器i+2；将每次迭代得到Q值存储在Q表中，使用以下公式更新Q值：

Q′＝Q_i[s，a]；

Q′＝Q′+λ(R_i[s，a]+γmaxQ_i+1[s′，a′]-Q′)；

Q_i[s，a]＝Q′；

其中，R_i[s，a]表示无人机在状态s时从当前传感器i到达下一个传感器i+1过程的奖励值，maxQ_i+1[s′，a′]表示后继状态的最大Q值，当i＜N时，循环执行(2)；

(4)执行完上述过程后，得到一个N×N的Q表，Q表每一行的最大值表示最优选择；根据每个状态下的最大O值，得到给定路径点的无人机路径规划决策，通过这个路径计算出每个E_i，j，并求和最终得到无人机遍历地面所有传感器能耗的最小值minE_all。

有益效果：与现有技术相比，本发明的技术方案具有以下有益效果：

本发明提出了一种基于强化学习的无人机能耗优化方法，该方法能够有效进行最优路径选择，从而降低无人机在飞行及与传感器通信时的整体功耗。

附图说明

图1为本发明方法的流程示意图；

图2为无人机与传感器之间布置关系示意图；

图3为传感器分布图；

图4为训练迭代图；

图5为算法路径图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的提出一种基于强化学习的无人机能耗优化方法，该方法包括如下步骤：

S1：构建无人机与地面传感器之间的通信系统模型；

所述步骤S1具体包括：

h_f≥h_max+h_t

H_k＝h_f-h_k

其中，

代表大尺度衰落造成的路径损耗，随机复数变量

田来表示小尺度衰落造成接收信号的影响，由于障碍物存在遮挡，考虑视距链路(LoS)和非视距链路(NLoS)，α_L和α_N分别为对应的路径损耗，

满足如下条件：

其中，b和c为比例系数，让p_k，NLoS满足如下条件：

p_k，NLoS＝1-p_k，LoS

其中，

表示接收机的高斯白噪声N₀和弱干扰之和，

所述步骤S2具体包括：假设无人机的最大水平飞行速度为V_max，空气阻力为f，用m表示无人机的质量，a₀表示加速度，整个飞行过程中无人机海拔高度恒定，飞行过程可以分解为匀速、加速、减速和悬停四个部分；首先分析无人机从传感器k飞到传感器k+1之间的过程，假设无人机一开始悬停在传感器k上方时，无人机水平速度为0；无人机在t_h时间内完成数据发送和接收任务并且一直处于悬停状态；然后，无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离；最后，无人机开始减速，当速度降到0时到达传感器k+1，减速过程和加速过程一致；

无人机在t_h时间内悬停的能耗表示为：

E_h＝P_ht_h

E_c＝P_ht_c+ft_c

则从传感器k到传感器k+1之间的飞行能耗Ef为：

E_f＝E_h+E_Ac+E_c+E_De。

所述步骤S3具体包括：把N个传感器放在N个网格的中心，无人机在空中遍历所有传感器，假设无人机高度是固定的，在飞行过程中不会上升或下降，在该场景中，无人机的通信是点对点通信，考虑基于LoS的数据传输，忽略非LoS传输，根据步骤S1通信系统模型，得到如下公式：

其中，

E_s＝P_s(t_i，i+t_i，j)

其中，t_i，i和t_i，j分别为：

E_i，j＝E_f+E_s

则无人机遍历所有传感器的整体能耗E_all表示为：

同时满足如下条件：

所述步骤S4具体包括：推导出无人机遍历一个地面传感器并且与其通信所产生的能耗E_i，j，将w作为能耗的权重，通过上述分析可知，无人机遍历地面所有传感器的总能耗E_all取决于遍历每个传感器能耗之和，要求解minE_all，需要得到使总能耗最小的无人机最优遍历路径，使用Q-leaming算法得到无人机的最优遍历路径。Q-leaming中有状态、动作、奖赏这三个要素。智能体(指无人机)会根据当前状态来采取动作，并记录被反馈的奖赏，以便下次再到相同状态时能采取更优的动作。Q为动作效用函数，用于评价在特定状态下采取某个动作的优劣。

获得无人机的能耗最优遍历路径的具体步骤如下：

(1)定义无人机的状态s＝(x_s，y_s)，(x_s，y_s)表示传感器i的位置坐标信息，定义Q表，表中的每一行记录了状态s，选择不同动作时的Q值，所述动作为从当前传感器到达下一个传感器；每一次，无人机有两种动作可选：①从所有传感器中随机选择一个作为要到达的下一个传感器编号；②选择具有最大Q值的状态下执行的动作，即无人机到达的下一个传感器；将w作为无人机遍历一个地面传感器并且与其通信所产生的能耗Ei，j的权重，定义如下奖励值函数，表示无人机在状态s执行动作的奖励值：

R_i＝-wE_i，j

Q′＝Q_i[s，a]；

Q′＝Q′+λ(R_i[s，a]+γmaxQ_i+1[s′，a′]-Q′)；

Q_i[s，a]＝Q′；

(4)执行完上述过程后，得到一个N×N的Q表，Q表每一行的最大值表示最优选择；根据每个状态下的最大Q值，得到给定路径点的无人机路径规划决策，通过这个路径计算出每个E_i，j，并求和最终得到无人机遍历地面所有传感器能耗的最小值minE_all。

实施例中，选择了一个2km乘以2km的区域，并将其网格化成10乘以10的区域块。每个块的宽度为200m。所有我们需要收集数据的区域只占用48个区域块，我们把每个传感器放在网格的中间。如图3所示。

计算两个传感器之间的距离，并将其记录在矩阵D中。根据历史数据，我们推断每个传感器需要采集数据，存储在矩阵Q_o中。假设ω＝1，H＝120m，B＝1MHz，η＝50dB，

我们假设无人机与传感器的通信功率为P_s＝5W。无人机的飞行功率为P_h＝80W。当我们加载所有的数据时，尝试调整Q-learning的参数，使算法能够运行并收敛，并且最终得到最优路径。最后，我们设置学习率λ＝0.1，w＝1，探索系数ε＝0.88。训练结果如图4所示。最终算法路径如图5所示。

尽管以上本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于强化学习的无人机能耗优化方法，其特征在于，该方法包括如下步骤：

S1：构建无人机与地面传感器之间的通信系统模型；

2.根据权利要求1所述的一种基于强化学习的无人机能耗优化方法，其特征在于，所述步骤S1具体包括：

h_f≥h_max+h_t

H_k＝h_f-h_k

其中，

代表大尺度衰落造成的路径损耗，随机复数变量

满足如下条件：

其中，b和c为比例系数，让p_k，NLoS满足如下条件：

p_k，NLoS＝1-p_k，LoS

其中，

表示接收机的高斯白噪声N₀和弱干扰之和，

3.根据权利要求2所述的基于强化学习的无人机能耗优化方法，其特征在于，所述步骤S2具体包括：假设无人机的最大水平飞行速度为V_max，空气阻力为f，用m表示无人机的质量，a₀表示加速度，整个飞行过程中无人机海拔高度恒定，飞行过程可以分解为匀速、加速、减速和悬停四个部分；首先分析无人机从传感器k飞到传感器k+1之间的过程，假设无人机一开始悬停在传感器k上方时，无人机水平速度为0；无人机在t_h时间内完成数据发送和接收任务并且一直处于悬停状态；然后，无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离；最后，无人机开始减速，当速度降到0时到达传感器k+1，减速过程和加速过程一致；

无人机在t_h时间内悬停的能耗表示为：

E_h＝P_ht_h

E_c＝P_ht_c+ft_c

则从传感器k到传感器k+1之间的飞行能耗E_f为：

E_f＝E_h+E_Ac+E_c+E_De。

4.根据权利要求3所述的基于强化学习的无人机能耗优化方法，其特征在于，所述步骤S3具体包括：把N个传感器放在N个网格的中心，无人机在空中遍历所有传感器，假设无人机高度是固定的，在飞行过程中不会上升或下降，在该场景中，无人机的通信是点对点通信，考虑基于LoS的数据传输，忽略非LoS传输，根据步骤S1通信系统模型，得到如下公式：

其中，

无人机从传感器i上空飞行到传感器j上空所产生的能耗E_i，j，包括飞行能耗和通信能耗，通信能耗包含发送能耗E_s和接收能耗E_r，对于接收能耗，无人机在等待传感器的传输过程中，接收功耗远小于无人机的悬停功耗，故忽略不计，即E_r＝0，对于发送能耗，无人机在传感器i上空向传感器i发送数据Q_p时间t_i，i，无人机向下一个传感器j发送数据Q_c，这个时间为t_i，j，设无人机发送功率P_s，则发送功耗为：

E_s＝P_s(t_i，i+t_i，j)

其中，t_i，i和t_i，j分别为：

E_i，j＝E_f+E_s

则无人机遍历所有传感器的整体能耗E_all表示为：

同时满足如下条件：

5.根据权利要求4所述的基于强化学习的无人机能耗优化方法，其特征在于，所述步骤S4中，使用基于Q-leaming的无人机的路径选择算法，得到无人机最优遍历路径，从而得到无人机遍历所有传感器的最优能耗的步骤如下：

R_i＝-wE_i，j

Q′＝Q_i[s，a]；

Q′＝Q′+λ(R_i[s，a]+γmaxQ_i+，[s′，a′]-Q′)；

Q_i[s，a]＝Q′；