CN113406965A - 一种基于强化学习的无人机能耗优化方法 - Google Patents

一种基于强化学习的无人机能耗优化方法 Download PDF

Info

Publication number
CN113406965A
CN113406965A CN202110598760.7A CN202110598760A CN113406965A CN 113406965 A CN113406965 A CN 113406965A CN 202110598760 A CN202110598760 A CN 202110598760A CN 113406965 A CN113406965 A CN 113406965A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
sensor
energy consumption
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110598760.7A
Other languages
English (en)
Inventor
赵海涛
唐加文
李天屿
倪艺洋
夏文超
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110598760.7A priority Critical patent/CN113406965A/zh
Publication of CN113406965A publication Critical patent/CN113406965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的无人机能耗优化方法,方法应用在无人机网络中,方法步骤如下:首先构建无人机与地面传感器之间的通信系统模型;然后在上述系统模型基础上,计算无人机遍历单个传感器的飞行能耗;接着在无人机遍历单个传感器的飞行能耗基础上,计算得到无人机遍历所有传感器的整体能耗(飞行能耗+通信能耗);最后使用基于Q‑learning的无人机的路径选择算法,得到无人机最优遍历路径,求解无人机遍历所有传感器的最优能耗。本发明相对于已知的其他算法,在能耗表现上得到了提升。

Description

一种基于强化学习的无人机能耗优化方法
技术领域
本发明涉及一种基于强化学习的无人机能耗优化方法,属于深度学习及通信技术领域。
背景技术
近年来,随着5G不断发展,现在的通信系统不再满足于普通的地面通信。地空通信成为通信网络中重点发展的一部分。无人机因其高机动性非常适合大范围的通信,同时在高空中与地面通信可以降低很多干扰已成为地空通信网络的重要组成部分。但是,无人机在野外空旷地区与大量传感器进行通信也存在一些问题。无人机的能量有限,如何合理的设计飞行路线,降低飞行能耗成为关键。
因此,本发明主要考虑无人机在缺乏基础设施的野外空旷地带上与地面上大量分布的传感器进行通信。无人机接受传感器采集到的数据同时也向传感器发送一些模型参数信息。如何在完成通信任务的基础上,优化无人机的飞行路线和数据传输策略,最小化无人机的能耗消耗是问题的核心。本发明依此展开,主要研究整个无人机和传感器通信系统的模型,推导无人机的通信和飞行能耗模型,并研究相关的路径选择方法,考虑了无人机的飞行速度、地理信息、传输速率等因素,分析了无人机的动作空间和状态空间。提出了一种基于强化学习的无人机能耗优化方法。
发明内容
本发明提出一种基于强化学习的无人机能耗优化方法,通过制定无人机的飞行策略和优化内容。然后从强化学习算法出发,提出了一种基于Q-learning的无人机的路径选择算法,有效降低了无人机飞行及通信能耗。
为实现上述目的,本发明采用的技术方案如下:本发明提出的一种基于强化学习的无人机能耗优化方法,该方法包括如下步骤:
S1:构建无人机与地面传感器之间的通信系统模型;
S2:在上述系统模型基础上,计算无人机遍历单个传感器的飞行能耗;
S3:在无人机遍历单个传感器的飞行能耗基础上,计算得到无人机遍历所有传感器的整体能耗,所述能耗包括飞行能耗和通信能耗;
S4:使用基于Q-learning的无人机的路径选择算法,得到无人机最优遍历路径,从而得到无人机遍历所有传感器的最优能耗。
进一步的,所述步骤S1具体包括:
假设地面传感器k的海拔高度为hk,其中,k=1,...N,N为传感器的总个数,地面传感器最大的海拔高度为hmax={h1,h2,...,hk,...,hN},并且地表植被的最大高度为ht,为了保证无人机的飞行安全和通信质量,无人机的飞行高度hf满足如下条件:
hf≥hmax+ht
设定无人机在悬停时与地面传感器k进行通信,悬停时间为th,当无人机悬停在空中时,无人机与地面传感器k的海拔高度差Hk为:
Hk=hf-hk
用sk表示无人机和传感器k的水平距离,无人机和传感器k之间的距离表示为:
Figure BDA0003092159620000021
在时刻t,使用βk(t)作为无人机和传感器k之间的信道系数,满足如下条件:
Figure BDA0003092159620000022
其中,
Figure BDA0003092159620000023
代表大尺度衰落造成的路径损耗,随机复数变量
Figure BDA0003092159620000024
用来表示小尺度衰落造成接收信号的影响,由于障碍物存在遮挡,考虑视距链路(LoS)和非视距链路(NLoS),αL和αN分别为对应的路径损耗,
Figure BDA0003092159620000025
满足如下条件:
Figure BDA0003092159620000026
其中,Pk,LoS和Pk,NLoS分别表示无人机和传感器k之间的视距链路(LoS)概率和非视距链路(NLoS)概率,pk,LoS满足:
Figure BDA0003092159620000027
其中,b和c为比例系数,让pk,NLoS满足如下条件:
pk,NLoS=1-pk,LoS
当无人机和传感器k进行通信时,假设无人机和传感器具有相同的通信设备并且具有相同的传输功率Pt,无人机发出的干扰信号为xs(t),无人机和传感器k之间的传输速率采用如下公式表示:
Figure BDA0003092159620000028
其中,
Figure BDA0003092159620000029
表示接收机的高斯白噪声N0和弱干扰之和,
Figure BDA00030921596200000210
为残余环路干扰信道,P=E{|xs(t)|2},为无人机发出的干扰信号为xs(t)的均方差,B代表带宽,th为无人机悬停时间。
进一步的,所述步骤S2具体包括:假设无人机的最大水平飞行速度为Vmax,空气阻力为f,用m表示无人机的质量,a0表示加速度,整个飞行过程中无人机海拔高度恒定,飞行过程可以分解为匀速、加速、减速和悬停四个部分;首先分析无人机从传感器k飞到传感器k+1之间的过程,假设无人机一开始悬停在传感器k上方时,无人机水平速度为0;无人机在tj时间内完成数据发送和接收任务并且一直处于悬停状态;然后,无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离;最后,无人机开始减速,当速度降到0时到达传感器k+1,减速过程和加速过程一致;
无人机在th时间内悬停的能耗表示为:
Eh=Phth
其中,Ph为无人机悬停时的飞行功率,假设无人机匀速飞行时间为tc,则这段时间内的飞行能耗为:
Ec=Phtc+ftc
同时,加速过程的能耗EAc和减速过程的能耗EDe满足如下公式:
Figure BDA0003092159620000031
则从传感器k到传感器k+1之间的飞行能耗Ef为:
Ef=Eh+EAc+Ec+EDe
进一步的,所述步骤S3具体包括:把N个传感器放在N个网格的中心,无人机在空中遍历所有传感器,假设无人机高度是固定的,在飞行过程中不会上升或下降,在该场景中,无人机的通信是点对点通信,考虑基于LoS的数据传输,忽略非LoS传输,根据步骤S1通信系统模型,得到如下公式:
Figure BDA0003092159620000032
其中,
Figure BDA0003092159620000033
无人机从传感器i上空飞行到传感器j上空所产生的能耗Ei,j,包括飞行能耗和通信能耗,通信能耗包含发送能耗Es和接收能耗Er,对于发送功耗,无人机在传感器i上空向传感器i发送数据Qp时间ti,i,无人机向下一个传感器j发送数据Qc,这个时间为ti,j,设无人机发送功率Ps,则发送功耗为:
Es=Ps(ti,i+ti,j)
其中,ti,i和ti,j分别为:
Figure BDA0003092159620000041
Figure BDA0003092159620000042
其中,di,i和di,j分别表示无人机在传感器i上空悬停时和传感器i,j之间的距离,Hi,Hj分别表示无人机与传感器i,j之间的高度差,Ei,j表示为:
Ei,j=Ef+Es
则无人机遍历所有传感器的整体能耗Eall表示为:
Figure BDA0003092159620000043
同时满足如下条件:
Figure BDA0003092159620000044
并且每个传感器只需要传输一次数据给无人机,功耗计算不重复。
进一步的,所述步骤S4具体包括:推导出无人机遍历一个地面传感器并且与其通信所产生的能耗Ei,j,将w作为能耗的权重,通过上述分析可知,无人机遍历地面所有传感器的总能耗Eall取决于遍历每个传感器能耗之和,要求解minEall,需要得到使总能耗最小的无人机最优遍历路径,使用Q-leaming算法得到无人机的最优遍历路径。Q-leaming中有状态、动作、奖赏这三个要素。智能体(指无人机)会根据当前状态来采取动作,并记录被反馈的奖赏,以便下次再到相同状态时能采取更优的动作。Q为动作效用函数,用于评价在特定状态下采取某个动作的优劣。
获得无人机的能耗最优遍历路径的具体步骤如下:
(1)定义无人机的状态s=(xs,ys),(xs,ys)表示传感器i的位置坐标信息,定义Q表,表中的每一行记录了状态s,选择不同动作时的Q值,所述动作为从当前传感器到达下一个传感器;每一次,无人机有两种动作可选:①从所有传感器中随机选择一个作为要到达的下一个传感器编号;②选择具有最大Q值的状态下执行的动作,即无人机到达的下一个传感器;将w作为无人机遍历一个地面传感器并且与其通信所产生的能耗Ei,j的权重,定义如下奖励值函数,表示无人机在状态s执行动作的奖励值:
Ri=-wEi,j
(2)初始化N个地面传感器,传感器编号Ω={1,2,...N},初始化w,ε,λ,γ的值,其中,γ是衰减系数,λ是学习率,且有,γ∈(0,1),λ∈(0,1),ε是一个阈值,初始化N×N个能量矩阵Ei,j和奖励矩阵Ri,i,j={1,2,..,N},初始化Q←0N,N,0N,N表示N×N阶零矩阵,初始化无人机状态s,Ω′=Ω;
(3)假设Qi[s,a]表示无人机在状态s的时候执行动作a,指无人机从一个传感器i到达另一个传感器i+1这个动作,使得无人机到达下一个状态s′=[xs′,ys′]所获得的Q值,从0到1中产生一个随机数μ,如果μ<ε,执行上述动作①,即从Ω′={1,2,...N}中随机选择无人机将要到达的下一个传感器编号;否则,执行上述动作②,即选择具有最大Q值的状态s′下执行的动作a′,即从上一个传感器i+1到达下一个传感器i+2;将每次迭代得到Q值存储在Q表中,使用以下公式更新Q值:
Q′=Qi[s,a];
Q′=Q′+λ(Ri[s,a]+γmaxQi+1[s′,a′]-Q′);
Qi[s,a]=Q′;
其中,Ri[s,a]表示无人机在状态s时从当前传感器i到达下一个传感器i+1过程的奖励值,maxQi+1[s′,a′]表示后继状态的最大Q值,当i<N时,循环执行(2);
(4)执行完上述过程后,得到一个N×N的Q表,Q表每一行的最大值表示最优选择;根据每个状态下的最大O值,得到给定路径点的无人机路径规划决策,通过这个路径计算出每个Ei,j,并求和最终得到无人机遍历地面所有传感器能耗的最小值minEall
有益效果:与现有技术相比,本发明的技术方案具有以下有益效果:
本发明提出了一种基于强化学习的无人机能耗优化方法,该方法能够有效进行最优路径选择,从而降低无人机在飞行及与传感器通信时的整体功耗。
附图说明
图1为本发明方法的流程示意图;
图2为无人机与传感器之间布置关系示意图;
图3为传感器分布图;
图4为训练迭代图;
图5为算法路径图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的提出一种基于强化学习的无人机能耗优化方法,该方法包括如下步骤:
S1:构建无人机与地面传感器之间的通信系统模型;
S2:在上述系统模型基础上,计算无人机遍历单个传感器的飞行能耗;
S3:在无人机遍历单个传感器的飞行能耗基础上,计算得到无人机遍历所有传感器的整体能耗,所述能耗包括飞行能耗和通信能耗;
S4:使用基于Q-learning的无人机的路径选择算法,得到无人机最优遍历路径,从而得到无人机遍历所有传感器的最优能耗。
所述步骤S1具体包括:
假设地面传感器k的海拔高度为hk,其中,k=1,...N,N为传感器的总个数,地面传感器最大的海拔高度为hmax={h1,h2,...,hk,...,hN},并且地表植被的最大高度为ht,为了保证无人机的飞行安全和通信质量,无人机的飞行高度hf满足如下条件:
hf≥hmax+ht
设定无人机在悬停时与地面传感器k进行通信,悬停时间为th,当无人机悬停在空中时,无人机与地面传感器k的海拔高度差Hk为:
Hk=hf-hk
用sk表示无人机和传感器k的水平距离,无人机和传感器k之间的距离表示为:
Figure BDA0003092159620000061
在时刻t,使用βk(t)作为无人机和传感器k之间的信道系数,满足如下条件:
Figure BDA0003092159620000062
其中,
Figure BDA0003092159620000063
代表大尺度衰落造成的路径损耗,随机复数变量
Figure BDA0003092159620000064
田来表示小尺度衰落造成接收信号的影响,由于障碍物存在遮挡,考虑视距链路(LoS)和非视距链路(NLoS),αL和αN分别为对应的路径损耗,
Figure BDA0003092159620000065
满足如下条件:
Figure BDA0003092159620000066
其中,pk,LoS和pk,NLoS分别表示无人机和传感器k之间的视距链路(LoS)概率和非视距链路(NLoS)概率,pk,LoS满足:
Figure BDA0003092159620000067
其中,b和c为比例系数,让pk,NLoS满足如下条件:
pk,NLoS=1-pk,LoS
当无人机和传感器k进行通信时,假设无人机和传感器具有相同的通信设备并且具有相同的传输功率Pt,无人机发出的干扰信号为xs(t),无人机和传感器k之间的传输速率采用如下公式表示:
Figure BDA0003092159620000071
其中,
Figure BDA0003092159620000072
表示接收机的高斯白噪声N0和弱干扰之和,
Figure BDA0003092159620000073
为残余环路干扰信道,P=E{|xs(t)|2},为无人机发出的干扰信号为xs(t)的均方差,B代表带宽,th为无人机悬停时间。
所述步骤S2具体包括:假设无人机的最大水平飞行速度为Vmax,空气阻力为f,用m表示无人机的质量,a0表示加速度,整个飞行过程中无人机海拔高度恒定,飞行过程可以分解为匀速、加速、减速和悬停四个部分;首先分析无人机从传感器k飞到传感器k+1之间的过程,假设无人机一开始悬停在传感器k上方时,无人机水平速度为0;无人机在th时间内完成数据发送和接收任务并且一直处于悬停状态;然后,无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离;最后,无人机开始减速,当速度降到0时到达传感器k+1,减速过程和加速过程一致;
无人机在th时间内悬停的能耗表示为:
Eh=Phth
其中,Ph为无人机悬停时的飞行功率,假设无人机匀速飞行时间为tc,则这段时间内的飞行能耗为:
Ec=Phtc+ftc
同时,加速过程的能耗EAc和减速过程的能耗EDe满足如下公式:
Figure BDA0003092159620000074
则从传感器k到传感器k+1之间的飞行能耗Ef为:
Ef=Eh+EAc+Ec+EDe
所述步骤S3具体包括:把N个传感器放在N个网格的中心,无人机在空中遍历所有传感器,假设无人机高度是固定的,在飞行过程中不会上升或下降,在该场景中,无人机的通信是点对点通信,考虑基于LoS的数据传输,忽略非LoS传输,根据步骤S1通信系统模型,得到如下公式:
Figure BDA0003092159620000081
其中,
Figure BDA0003092159620000082
无人机从传感器i上空飞行到传感器j上空所产生的能耗Ei,j,包括飞行能耗和通信能耗,通信能耗包含发送能耗Es和接收能耗Er,对于发送功耗,无人机在传感器i上空向传感器i发送数据Qp时间ti,i,无人机向下一个传感器j发送数据Qc,这个时间为ti,j,设无人机发送功率Ps,则发送功耗为:
Es=Ps(ti,i+ti,j)
其中,ti,i和ti,j分别为:
Figure BDA0003092159620000083
Figure BDA0003092159620000084
其中,di,i和di,j分别表示无人机在传感器i上空悬停时和传感器i,j之间的距离,Hi,Hj分别表示无人机与传感器i,j之间的高度差,Ei,j表示为:
Ei,j=Ef+Es
则无人机遍历所有传感器的整体能耗Eall表示为:
Figure BDA0003092159620000085
同时满足如下条件:
Figure BDA0003092159620000086
并且每个传感器只需要传输一次数据给无人机,功耗计算不重复。
所述步骤S4具体包括:推导出无人机遍历一个地面传感器并且与其通信所产生的能耗Ei,j,将w作为能耗的权重,通过上述分析可知,无人机遍历地面所有传感器的总能耗Eall取决于遍历每个传感器能耗之和,要求解minEall,需要得到使总能耗最小的无人机最优遍历路径,使用Q-leaming算法得到无人机的最优遍历路径。Q-leaming中有状态、动作、奖赏这三个要素。智能体(指无人机)会根据当前状态来采取动作,并记录被反馈的奖赏,以便下次再到相同状态时能采取更优的动作。Q为动作效用函数,用于评价在特定状态下采取某个动作的优劣。
获得无人机的能耗最优遍历路径的具体步骤如下:
(1)定义无人机的状态s=(xs,ys),(xs,ys)表示传感器i的位置坐标信息,定义Q表,表中的每一行记录了状态s,选择不同动作时的Q值,所述动作为从当前传感器到达下一个传感器;每一次,无人机有两种动作可选:①从所有传感器中随机选择一个作为要到达的下一个传感器编号;②选择具有最大Q值的状态下执行的动作,即无人机到达的下一个传感器;将w作为无人机遍历一个地面传感器并且与其通信所产生的能耗Ei,j的权重,定义如下奖励值函数,表示无人机在状态s执行动作的奖励值:
Ri=-wEi,j
(2)初始化N个地面传感器,传感器编号Ω={1,2,...N},初始化w,ε,λ,γ的值,其中,γ是衰减系数,λ是学习率,且有,γ∈(0,1),λ∈(0,1),ε是一个阈值,初始化N×N个能量矩阵Ei,j和奖励矩阵Ri,i,j={1,2,..,N},初始化Q←0N,N,0N,N表示N×N阶零矩阵,初始化无人机状态s,Ω′=Ω;
(3)假设Qi[s,a]表示无人机在状态s的时候执行动作a,指无人机从一个传感器i到达另一个传感器i+1这个动作,使得无人机到达下一个状态s′=[xs′,ys′]所获得的Q值,从0到1中产生一个随机数μ,如果μ<ε,执行上述动作①,即从Ω′={1,2,...N}中随机选择无人机将要到达的下一个传感器编号;否则,执行上述动作②,即选择具有最大Q值的状态s′下执行的动作a′,即从上一个传感器i+1到达下一个传感器i+2;将每次迭代得到Q值存储在Q表中,使用以下公式更新Q值:
Q′=Qi[s,a];
Q′=Q′+λ(Ri[s,a]+γmaxQi+1[s′,a′]-Q′);
Qi[s,a]=Q′;
其中,Ri[s,a]表示无人机在状态s时从当前传感器i到达下一个传感器i+1过程的奖励值,maxQi+1[s′,a′]表示后继状态的最大Q值,当i<N时,循环执行(2);
(4)执行完上述过程后,得到一个N×N的Q表,Q表每一行的最大值表示最优选择;根据每个状态下的最大Q值,得到给定路径点的无人机路径规划决策,通过这个路径计算出每个Ei,j,并求和最终得到无人机遍历地面所有传感器能耗的最小值minEall
实施例中,选择了一个2km乘以2km的区域,并将其网格化成10乘以10的区域块。每个块的宽度为200m。所有我们需要收集数据的区域只占用48个区域块,我们把每个传感器放在网格的中间。如图3所示。
计算两个传感器之间的距离,并将其记录在矩阵D中。根据历史数据,我们推断每个传感器需要采集数据,存储在矩阵Qo中。假设ω=1,H=120m,B=1MHz,η=50dB,
Figure BDA0003092159620000101
我们假设无人机与传感器的通信功率为Ps=5W。无人机的飞行功率为Ph=80W。当我们加载所有的数据时,尝试调整Q-learning的参数,使算法能够运行并收敛,并且最终得到最优路径。最后,我们设置学习率λ=0.1,w=1,探索系数ε=0.88。训练结果如图4所示。最终算法路径如图5所示。
尽管以上本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下,在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (5)

1.一种基于强化学习的无人机能耗优化方法,其特征在于,该方法包括如下步骤:
S1:构建无人机与地面传感器之间的通信系统模型;
S2:在上述系统模型基础上,计算无人机遍历单个传感器的飞行能耗;
S3:在无人机遍历单个传感器的飞行能耗基础上,计算得到无人机遍历所有传感器的整体能耗,所述能耗包括飞行能耗和通信能耗;
S4:使用基于Q-learning的无人机的路径选择算法,得到无人机最优遍历路径,从而得到无人机遍历所有传感器的最优能耗。
2.根据权利要求1所述的一种基于强化学习的无人机能耗优化方法,其特征在于,所述步骤S1具体包括:
假设地面传感器k的海拔高度为hk,其中,k=1,...N,N为传感器的总个数,地面传感器最大的海拔高度为hmax={h1,h2,...,hk,...,hN},并且地表植被的最大高度为ht,为了保证无人机的飞行安全和通信质量,无人机的飞行高度hf满足如下条件:
hf≥hmax+ht
设定无人机在悬停时与地面传感器k进行通信,悬停时间为th,当无人机悬停在空中时,无人机与地面传感器k的海拔高度差Hk为:
Hk=hf-hk
用sk表示无人机和传感器k的水平距离,无人机和传感器k之间的距离表示为:
Figure FDA0003092159610000011
在时刻t,使用βk(t)作为无人机和传感器k之间的信道系数,满足如下条件:
Figure FDA0003092159610000012
其中,
Figure FDA0003092159610000013
代表大尺度衰落造成的路径损耗,随机复数变量
Figure FDA0003092159610000014
用来表示小尺度衰落造成接收信号的影响,由于障碍物存在遮挡,考虑视距链路(LoS)和非视距链路(NLoS),αL和αN分别为对应的路径损耗,
Figure FDA0003092159610000015
满足如下条件:
Figure FDA0003092159610000016
其中,pk,LoS和pk,NLoS分别表示无人机和传感器k之间的视距链路(LoS)概率和非视距链路(NLoS)概率,pk,LoS满足:
Figure FDA0003092159610000017
其中,b和c为比例系数,让pk,NLoS满足如下条件:
pk,NLoS=1-pk,LoS
当无人机和传感器k进行通信时,假设无人机和传感器具有相同的通信设备并且具有相同的传输功率Pt,无人机发出的干扰信号为xs(t),无人机和传感器k之间的传输速率采用如下公式表示:
Figure FDA0003092159610000021
其中,
Figure FDA0003092159610000022
表示接收机的高斯白噪声N0和弱干扰之和,
Figure FDA0003092159610000023
为残余环路干扰信道,P=E{|xs(t)|2},为无人机发出的干扰信号为xs(t)的均方差,B代表带宽,th为无人机悬停时间。
3.根据权利要求2所述的基于强化学习的无人机能耗优化方法,其特征在于,所述步骤S2具体包括:假设无人机的最大水平飞行速度为Vmax,空气阻力为f,用m表示无人机的质量,a0表示加速度,整个飞行过程中无人机海拔高度恒定,飞行过程可以分解为匀速、加速、减速和悬停四个部分;首先分析无人机从传感器k飞到传感器k+1之间的过程,假设无人机一开始悬停在传感器k上方时,无人机水平速度为0;无人机在th时间内完成数据发送和接收任务并且一直处于悬停状态;然后,无人机加速到最大速度并以恒定的最大水平速度匀速飞行一段距离;最后,无人机开始减速,当速度降到0时到达传感器k+1,减速过程和加速过程一致;
无人机在th时间内悬停的能耗表示为:
Eh=Phth
其中,Ph为无人机悬停时的飞行功率,假设无人机匀速飞行时间为tc,则这段时间内的飞行能耗为:
Ec=Phtc+ftc
同时,加速过程的能耗EAc和减速过程的能耗EDe满足如下公式:
Figure FDA0003092159610000024
则从传感器k到传感器k+1之间的飞行能耗Ef为:
Ef=Eh+EAc+Ec+EDe
4.根据权利要求3所述的基于强化学习的无人机能耗优化方法,其特征在于,所述步骤S3具体包括:把N个传感器放在N个网格的中心,无人机在空中遍历所有传感器,假设无人机高度是固定的,在飞行过程中不会上升或下降,在该场景中,无人机的通信是点对点通信,考虑基于LoS的数据传输,忽略非LoS传输,根据步骤S1通信系统模型,得到如下公式:
Figure FDA0003092159610000031
其中,
Figure FDA0003092159610000032
无人机从传感器i上空飞行到传感器j上空所产生的能耗Ei,j,包括飞行能耗和通信能耗,通信能耗包含发送能耗Es和接收能耗Er,对于接收能耗,无人机在等待传感器的传输过程中,接收功耗远小于无人机的悬停功耗,故忽略不计,即Er=0,对于发送能耗,无人机在传感器i上空向传感器i发送数据Qp时间ti,i,无人机向下一个传感器j发送数据Qc,这个时间为ti,j,设无人机发送功率Ps,则发送功耗为:
Es=Ps(ti,i+ti,j)
其中,ti,i和ti,j分别为:
Figure FDA0003092159610000033
Figure FDA0003092159610000034
其中,di,i和di,j分别表示无人机在传感器i上空悬停时和传感器i,j之间的距离,Hi,Hj分别表示无人机与传感器i,j之间的高度差,Ei,j表示为:
Ei,j=Ef+Es
则无人机遍历所有传感器的整体能耗Eall表示为:
Figure FDA0003092159610000035
同时满足如下条件:
Figure FDA0003092159610000036
并且每个传感器只需要传输一次数据给无人机,功耗计算不重复。
5.根据权利要求4所述的基于强化学习的无人机能耗优化方法,其特征在于,所述步骤S4中,使用基于Q-leaming的无人机的路径选择算法,得到无人机最优遍历路径,从而得到无人机遍历所有传感器的最优能耗的步骤如下:
(1)定义无人机的状态s=(xs,ys),(xs,ys)表示传感器i的位置坐标信息,定义Q表,表中的每一行记录了状态s,选择不同动作时的Q值,所述动作为从当前传感器到达下一个传感器;每一次,无人机有两种动作可选:①从所有传感器中随机选择一个作为要到达的下一个传感器编号;②选择具有最大Q值的状态下执行的动作,即无人机到达的下一个传感器;将w作为无人机遍历一个地面传感器并且与其通信所产生的能耗Ei,j的权重,定义如下奖励值函数,表示无人机在状态s执行动作的奖励值:
Ri=-wEi,j
(2)初始化N个地面传感器,传感器编号Ω={1,2,...N},初始化w,ε,λ,γ的值,其中,γ是衰减系数,λ是学习率,且有,γ∈(0,1),λ∈(0,1),ε是一个阈值,初始化N×N个能量矩阵Ei,j和奖励矩阵Ri,i,j={1,2,..,N},初始化Q←0N,N,0N,N表示N×N阶零矩阵,初始化无人机状态s,Ω′=Ω;
(3)假设Qi[s,a]表示无人机在状态s的时候执行动作a,指无人机从一个传感器i到达另一个传感器i+1这个动作,使得无人机到达下一个状态s′=[xs′,ys′]所获得的Q值,从0到1中产生一个随机数μ,如果μ<ε,执行上述动作①,即从Ω′={1,2,...N}中随机选择无人机将要到达的下一个传感器编号;否则,执行上述动作②,即选择具有最大Q值的状态s′下执行的动作a′,即从上一个传感器i+1到达下一个传感器i+2;将每次迭代得到Q值存储在Q表中,使用以下公式更新Q值:
Q′=Qi[s,a];
Q′=Q′+λ(Ri[s,a]+γmaxQi+,[s′,a′]-Q′);
Qi[s,a]=Q′;
其中,Ri[s,a]表示无人机在状态s时从当前传感器i到达下一个传感器i+1过程的奖励值,maxQi+1[s′,a′]表示后继状态的最大Q值,当i<N时,循环执行(2);
(4)执行完上述过程后,得到一个N×N的Q表,Q表每一行的最大值表示最优选择;根据每个状态下的最大Q值,得到给定路径点的无人机路径规划决策,通过这个路径计算出每个Ei,j,并求和最终得到无人机遍历地面所有传感器能耗的最小值minEall
CN202110598760.7A 2021-05-31 2021-05-31 一种基于强化学习的无人机能耗优化方法 Pending CN113406965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110598760.7A CN113406965A (zh) 2021-05-31 2021-05-31 一种基于强化学习的无人机能耗优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110598760.7A CN113406965A (zh) 2021-05-31 2021-05-31 一种基于强化学习的无人机能耗优化方法

Publications (1)

Publication Number Publication Date
CN113406965A true CN113406965A (zh) 2021-09-17

Family

ID=77675299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110598760.7A Pending CN113406965A (zh) 2021-05-31 2021-05-31 一种基于强化学习的无人机能耗优化方法

Country Status (1)

Country Link
CN (1) CN113406965A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848868A (zh) * 2021-10-18 2021-12-28 东南大学 一种意图驱动的强化学习路径规划方法
CN114115358A (zh) * 2021-10-19 2022-03-01 杭州电子科技大学 一种基于高斯强化学习的信号源遍历方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN114661063A (zh) * 2022-03-22 2022-06-24 安徽工业大学 一种无人机应急通信飞行控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANGUO YU 等: "Dynamic Coverage Path Planning of Energy Optimization in Uav-enabled Edge Computing Networks", 《2021 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE WORKSHOPS(WCNCW)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848868A (zh) * 2021-10-18 2021-12-28 东南大学 一种意图驱动的强化学习路径规划方法
CN113848868B (zh) * 2021-10-18 2023-09-22 东南大学 一种意图驱动的强化学习路径规划方法
CN114115358A (zh) * 2021-10-19 2022-03-01 杭州电子科技大学 一种基于高斯强化学习的信号源遍历方法
CN114115358B (zh) * 2021-10-19 2024-03-29 杭州电子科技大学 一种基于高斯强化学习的信号源遍历方法
CN114661063A (zh) * 2022-03-22 2022-06-24 安徽工业大学 一种无人机应急通信飞行控制方法
CN114661063B (zh) * 2022-03-22 2024-06-18 安徽工业大学 一种无人机应急通信飞行控制方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Similar Documents

Publication Publication Date Title
CN113406965A (zh) 一种基于强化学习的无人机能耗优化方法
WO2021017227A1 (zh) 无人机轨迹优化方法、装置及存储介质
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110730031B (zh) 一种用于多载波通信的无人机轨迹与资源分配联合优化方法
CN113433967B (zh) 一种可充电无人机路径规划方法及系统
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN112327907A (zh) 一种无人机路径规划方法
CN111446990A (zh) 一种蜂窝无人机u2x通信模式选择和轨迹设计方法及装置
CN116700343A (zh) 一种无人机路径规划方法、设备和存储介质
CN113625761A (zh) 一种通信任务驱动的多无人机路径规划方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116227767A (zh) 基于深度强化学习的多无人机基站协同覆盖路径规划方法
CN116627162A (zh) 基于多智能体强化学习的多无人机数据采集位置优化方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN114142908A (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN117270559A (zh) 一种基于强化学习的无人机集群部署与轨迹规划方法
Bouhamed et al. A DDPG-based approach for energy-aware UAV navigation in obstacle-constrained environment
CN116208968A (zh) 基于联邦学习的轨迹规划方法及装置
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法
CN114598721A (zh) 基于轨迹与资源联合优化的高能效数据收集方法及系统
Si et al. UAV-assisted Semantic Communication with Hybrid Action Reinforcement Learning
CN113495574A (zh) 一种无人机群飞行的控制方法、装置
CN117241300B (zh) 一种无人机辅助的通感算网络融合方法
Yang et al. An AoI-guaranteed sensor data collection strategy for RIS-assisted UAV communication system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210917