CN113190039B - 一种基于分层深度强化学习的无人机采集路径规划方法 - Google Patents
一种基于分层深度强化学习的无人机采集路径规划方法 Download PDFInfo
- Publication number
- CN113190039B CN113190039B CN202110458366.3A CN202110458366A CN113190039B CN 113190039 B CN113190039 B CN 113190039B CN 202110458366 A CN202110458366 A CN 202110458366A CN 113190039 B CN113190039 B CN 113190039B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- energy consumption
- representing
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000005265 energy consumption Methods 0.000 claims abstract description 60
- 238000004891 communication Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001052 transient effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于分层深度强化学习的无人机采集路径规划方法,首先对无人机数据采集场景中的通信模型、能耗模型进行建模;其次,考虑数据新鲜度的最大化和无人机的续航,将优化问题建模为一个半马尔科夫决策过程;最后,提出了一种基于分层深度强化学习的无人机路径规划方法,高层策略根据当前环境状态决定无人机在当前应该采集哪个传感设备的数据,低层策略根据当前状态和高层策略的目标来设计无人机的移动轨迹,无人机通过与环境的交互获得瞬时奖励,并基于这些信息进行训练。训练完成后,将策略网络部署到具有一定计算能力的无人机中,无人机可以进行实时的路径规划,执行长时间的数据采集任务,以提高整个任务执行期间的数据新鲜度。
Description
技术领域
本发明涉及无线通信技术领域,特别涉及一种基于分层深度强化学习的无人机数据采集路径规划方法。
背景技术
近年来,随着科技的进步,无人机机型向着小型化、低成本的方向不断发展。凭借着易部署、可控制、移动性的优点,无人机尤其是可悬停的旋翼无人机被大量应用在民用和商用领域,比如目标跟踪与检测、物流、辅助通信等等。其中,无人机辅助无线通信是目前的一个新兴的研究热点。在无人机辅助无线通信中,无人机可以通过安装小型的通信设备,为地面用户提供通信服务、作为中继节点为距离较远的收发设备建立连接、或作为移动汇聚节点采集地面无线传感网络的数据。
本专利研究的场景就是无人机作为移动汇聚节点采集地面无线传感网络数据。无人机执行数据采集任务具有很大的优势。首先,大部分传感设备由于尺寸限制,资源是受限的,受能耗制约,很难支持长距离的通信,而多跳的通信方式会导致某些节点能耗耗尽,缩短无线传感网络的质量和寿命。无人机可以飞到传感设备上方进行数据采集任务,能够有效的缩短通信距离,且采取一跳的通信方式,能够有效减少无线传感网络的能耗,提高网络寿命。其次,相对于地面移动采集车,无人机能够飞到地形更加复杂的区域执行数据采集任务,且由于高度原因,更容易与地面设备建立高质量的视距链路。
现有的关于无人机数据采集的研究主要的优化目标是数据采集数量、数据采集所花费的时间、能耗等。近年来,随着边缘计算的发展,产生了越来越多的时间敏感型应用,这些应用对数据的新鲜度有很高的要求,数据越新鲜,这类应用的服务质量越高。比如智慧交通或智慧消防应用,所采集的数据越新鲜,控制中心所作出的决策就越准确。同时,无人机由于尺寸限制,也很难执行长时间的作业,因此在长时间任务中,需要考虑无人机的续航问题。
这种数据采集场景是一种动态的场景,数据新鲜度、用户的需求、传感器采样频率可能是不断变化的,因此需要一种能够进行实时决策的方法,根据每个时刻的系统状态,做出无人机路径规划决策,强化学习就是这样一种方法。但由于只有当无人机采集到数据时,才能获得较多的奖励,因此该场景还是一个延迟奖励和稀疏奖励的场景,用传统的强化学习解决这类问题通常无法收敛。本发明提出了一种基于分层深度强化学习的方法来进行无人机的采集-充电路径规划。
发明内容
本发明的目的是提出一种基于分层深度强化学习的无人机数据采集路径规划方法,来优化整个系统的数据新鲜度,同时保证无人机的续航。
为实现上述目的,本文发明了如下方案:
一种基于分层深度强化学习的无人机采集路径规划方法,步骤如下:
(1)根据实际需求对无人机数据采集场景进行建模
(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景本文,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{al,ar,au,ad,ac,ae},al,ar,au,ad分别表示移动到左邻、右邻、上邻、下邻子区域的中心;ac表示对当前所处子区域内的传感设备进行数据采集,ae表示无人机在控制中心执行充电动作;
(1.2)建立通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站和传感设备之间的路径损耗模型为:
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,d表示无人机和传感设备之间的欧式距离,规定无人机始终飞行在固定的高度h;根据路径损失,信道增益表示为根据信道增益,无人机基站和传感设备之间在时隙t的数据传输速率为:
其中,pt表示地面设备的发射功率,σ2表示加性高斯白噪声功率;
(1.3)无人机能耗模型:在无人机辅助通信中,无人机的能耗主要分为两个部分:通信能耗和推进能耗;在实际应用中,通信能耗相对于推进能耗是很小的,因此忽略通信能耗,只研究通信能耗;无人机的推进能耗包括叶片轮廓能耗、推进能耗和克服重力所造成的能耗:
其中,P0和P1分别表示无人机在悬停状态下的叶片轮廓能耗和Derived能耗;Vt表示无人机在时隙t的飞行速度,Utip表示旋翼无人机叶片旋转的端速,v0表示悬停状态下的平均旋翼诱导速度,d0表示机身阻力比,ρ表示空气密度,s0表示转子稳定性,Ar表示旋翼的面积;当无人机处于悬停状态即Vt=0时,无人机的能耗为Eu(0)=P0+P1;规定无人机以匀速飞行,当无人机执行移动动作时,无人机在该时隙的能耗为Eu(vu)×δ,其中当无人机悬停执行数据采集任务时,无人机在该时隙的能耗为Eu(0)×δ;
(1.4)数据新鲜度建模:使用信息年龄AoI作为衡量数据新鲜度的指标;AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来,所经历的时间,因此在第t个时隙,第n个设备的AoI表示为:
Δn(t)=t-Un(t)
其中,Un(t)表示在时隙t目前无人机所拥有的第n个设备的最新传感数据的生成时间;但是AoI只是衡量数据新鲜度的一种通用指标,不同的应用对数据新鲜度的敏感性不同,只使用AoI不能很好地刻画应用的服务质量;因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化;awΔ函数需要具备non-increasing特性,其中0<a<1是一个常数,w表示权重;因此在每个时刻,整个系统的基于数据新鲜度的平均QoS表示为:
其中un(Δ)表示第n个设备的基于AoI的utility函数,Δ表示数据新鲜度,是该函数的自变量。其中a是一个介于0和1之间的常数,本发明设a=0.8,wn表示第n个设备的时间敏感权重,不同类型的设备所采集的数据类型不同,对数据新鲜度的敏感程度也不相同,因此每个设备具有不同的时间敏感权重
(2)将问题建模为马尔科夫决策过程
在该系统中,无人机相当于一个智能体;在每一个时隙中,无人机根据当前系统状态S(t)和决策函数,从动作集A中选择动作a(t),以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,r(t)表示智能体在t时刻获得的瞬时奖励;
系统状态集合S(t)={o(t),e(t),Δ(t)},分别包含无人机当前的位置状态o(t)={x(t),y(t)}为无人机的位置坐标,e(t)表示无人机当前剩余能量,Δ(t)={Δ1(t),…,ΔN(t)}表示当前所有地面传感设备的AoI;
无人机动作空间A={al,ar,au,ad,ac,ae};
系统瞬时奖励r(t):本方法的目标是在考虑无人机能耗的同时,最大化该系统基于AoI的服务质量,因此将瞬时奖励设计为:
其中,Q(t)表示当前时刻基于AoI的QoS,为数据信息度所带来的奖励;第二项表示剩余能量所带来的奖励,βe表示能量奖励权重,EIni表示无人机的初始能量;
(3)基于分层深度强化学习算法进行训练
本方法提出一种基于分层深度强化学习的无人机路径规划算法,该分层深度强化学习算法主要包括两层策略,高层策略负责选择目标,包括G={g0,g1,…,gn,…,gN},其中g0表示以控制中心为目标,执行充电动作,高层策略的Q网络用Q1(·|θ1)表示,θ1表示网络参数;TargetQ网络用Q′1(·|θ′1)表示,参数用θ′1表示,高层策略训练时所使用的经验回放池表示为gn(1<n<N)表示以第n个传感设备为目标,执行数据采集动作;低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径,底层策略的动作空间Al={al,ar,au,ad},当到达目标子区域后,再执行充电动作或数据采集动作,高层策略的奖励rh被定义为在低层策略完成某个高层策略期间内的平均QoS;低层策略的Q网络用Q2(·|θ2)表示,参数表示为θ2;TargetQ网络用Q′2(·|θ′2)表示,参数用θ′2表示,低层策略训练时所使用的经验回放池表示为/>低层策略的奖励rl的定义是:当无人机达到目标区域是,rl=1;否则,rl=0;
(3.1)分别初始化高层策略和低层策略的经验回放空间网络参数{θ1,θ′1,θ2,θ′2};初始化高层策略的探索概率ε1=1和低层策略的探索ε2=1;
(3.2)对于训练回合episode=1;
(3.3)时隙t=1,初始化系统状态;
(3.4)获取当前时刻的系统状态s,高层策略基于ε1概率的贪婪策略选择一个目标g:以ε1的概率从目标空间G中随机选择一个目标,以1-ε1的概率根据高层策略网络选择一个目标g=argmaxg Q1(s,g|θ1);设置rh_sum=0,cnt=0;cnt用来记载完成该目标所经历的时隙数量,rh_sum用来记录完成该目标期间的总QoS;
(3.5)获取当前系统状态s,将当前系统状态和高层策略的目标{s,g}输入到低层策略,低层策略基于ε1概率的贪婪策略从低层策略动作空间Al中选择一个动作a;执行该动作,并产生新的系统状态s′,并获得低层策略奖励rl和外部奖励r(t);将元组<{s,g},a,rl,{s′,g}>存入经验回放池rh_sum=rh_sum+r(t),cnt=cnt+1,t=t+1;
(3.6)从经验回放池中随机采样固定数量K的样本,更新低层策略网络参数θ2;对于这些样本<{sk,gk},ak,rl,k,{s′k,gk}>,k∈{1,…,K},计算低层策略的目标值:
γ表示折扣系数;使用梯度下降法最小化损失函数L(θ2),更新低层策略网络的参数θ2:
(3.7)如果未到达目标g规定的区域,继续返回(3.5)执行低层策略;反之,无人机执行该区域的数据采集动作ac表示无人机在控制中心执行充电动作或充电动作ae表示无人机在控制中心执行充电动作,t=t+1,将元组<s,g,rh,s′>存入经验回放池/>中;从经验回放池/>中随机采样固定数量K的样本,更新底层策略网络参数θ1;对于这些样本<sk,gk,rh,k,s′k>,k∈{1,…,K},计算目标值:
使用梯度下降法最小化损失函数L(θ1),更新低层策略网络的参数θ1:
(3.8)如果t<T,返回(3.4)继续执行高层策略;如果t≥T时,退出当前训练回合,episode=episode+1;
(3.9)如果训练回合数episode到达规定的次数P,训练过程完成;反之,返回(3.3),重新开始一个新的训练回合;
(4)将训练好的策略网络模型分配给无人机,将无人机部署到目标区域中执行数据采集任务。
附图说明
图1是本发明所述的无人机辅助数据采集场景示意图。
图2是本发明一种基于分层深度强化学习的无人机数据采集路径规划方法的流程图。
图3是本发明中分层深度强化学习的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于分层深度强化学习的无人机数据采集路径规划方法,应用于时间敏感型应用的数据采集场景,使用无人机采集数据的方式代替传统的多跳传输,在考虑无人机续航的基础上,优化该应用基于数据新鲜度的服务质量。如图1所示,该地区分布有多个传感设备,某个时间敏感型应用依赖这些传感设备所采集的数据,为了延长地面传感网络的寿命,采用无人机采集方式对地面传感设备进行数据采集。无人机需要根据当前的数据新鲜度、自身位置、剩余电量实时规划自己的采集路径,以优化该时间敏感型应用的服务质量。本发明的流程如图2所示,首先,对具体的应用场景中的通信模型、能耗模型,数据新鲜度进行建模;其次,将无人机的路径规划问题建模为一个马尔科夫决策过程;然后,使用分层深度强化学习对无人机的路径规划策略进行训练;最后,将训练好的模型部署到无人机上,无人机可以根据系统状态进行实时路径规划决策。
具体步骤如下:
(1)根据实际需求对无人机数据采集场景进行建模
(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景本文,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{al,ar,au,ad,ac,ae},al,ar,au,ad分别表示移动到左邻、右邻、上邻、下邻子区域的中心;ac表示对当前所处子区域内的传感设备进行数据采集,ae表示无人机在控制中心执行充电动作;
(1.2)建立通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站和传感设备之间的路径损耗模型为:
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,d表示无人机和传感设备之间的欧式距离,规定无人机始终飞行在固定的高度h;根据路径损失,信道增益表示为根据信道增益,无人机基站和传感设备之间在时隙t的数据传输速率为:
其中,pt表示地面设备的发射功率,σ2表示加性高斯白噪声功率;
(1.3)无人机能耗模型:在无人机辅助通信中,无人机的能耗主要分为两个部分:通信能耗和推进能耗;在实际应用中,通信能耗相对于推进能耗是很小的,因此忽略通信能耗,只研究通信能耗;无人机的推进能耗包括叶片轮廓能耗、推进能耗和克服重力所造成的能耗:
其中,P0和P1分别表示无人机在悬停状态下的叶片轮廓能耗和Derived能耗;Vt表示无人机在时隙t的飞行速度,Utip表示旋翼无人机叶片旋转的端速,v0表示悬停状态下的平均旋翼诱导速度,d0表示机身阻力比,ρ表示空气密度,s0表示转子稳定性,Ar表示旋翼的面积;当无人机处于悬停状态即Vt=0时,无人机的能耗为Eu(0)=P0+P1;规定无人机以匀速飞行,当无人机执行移动动作时,无人机在该时隙的能耗为Eu(vu)×δ,其中当无人机悬停执行数据采集任务时,无人机在该时隙的能耗为Eu(0)×δ;
(1.4)数据新鲜度建模:使用信息年龄AoI作为衡量数据新鲜度的指标;AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来,所经历的时间,因此在第t个时隙,第n个设备的AoI表示为:
Δn(t)=t-Un(t)
其中,Un(t)表示在时隙t目前无人机所拥有的第n个设备的最新传感数据的生成时间;但是AoI只是衡量数据新鲜度的一种通用指标,不同的应用对数据新鲜度的敏感性不同,只使用AoI不能很好地刻画应用的服务质量;因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化;awΔ函数需要具备non-increasing特性,其中0<a<1是一个常数,w表示权重;因此在每个时刻,整个系统的基于数据新鲜度的平均QoS表示为:
其中un(Δ)表示第n个设备的基于AoI的utility函数,Δ表示数据新鲜度,是该函数的自变量。其中a是一个介于0和1之间的常数,本发明设a=0.8,wn表示第n个设备的时间敏感权重,不同类型的设备所采集的数据类型不同,对数据新鲜度的敏感程度也不相同,因此每个设备具有不同的时间敏感权重
(2)将问题建模为马尔科夫决策过程
在该系统中,无人机相当于一个智能体;在每一个时隙中,无人机根据当前系统状态S(t)和决策函数,从动作集A中选择动作a(t),以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,r(t)表示智能体在t时刻获得的瞬时奖励;
系统状态集合S(t)={o(t),e(t),Δ(t)},分别包含无人机当前的位置状态o(t)={x(t),y(t)}为无人机的位置坐标,e(t)表示无人机当前剩余能量,Δ(t)={Δ1(t),…,ΔN(t)}表示当前所有地面传感设备的AoI;
无人机动作空间A={al,ar,au,ad,ac,ae};
系统瞬时奖励r(t):本方法的目标是在考虑无人机能耗的同时,最大化该系统基于AoI的服务质量,因此将瞬时奖励设计为:
其中,Q(t)表示当前时刻基于AoI的QoS,为数据信息度所带来的奖励;第二项表示剩余能量所带来的奖励,βe表示能量奖励权重,EIni表示无人机的初始能量;
(3)基于分层深度强化学习算法进行训练
本方法提出一种基于分层深度强化学习的无人机路径规划算法,该分层深度强化学习算法主要包括两层策略,高层策略负责选择目标,包括G={g0,g1,…,gn,…,gN},其中g0表示以控制中心为目标,执行充电动作,高层策略的Q网络用Q1(·|θ1)表示,θ1表示网络参数;TargetQ网络用Q′1(·|θ′1)表示,参数用θ′1表示,高层策略训练时所使用的经验回放池表示为gn(1<n<N)表示以第n个传感设备为目标,执行数据采集动作;低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径,底层策略的动作空间Al={al,ar,au,ad},当到达目标子区域后,再执行充电动作或数据采集动作,高层策略的奖励rh被定义为在低层策略完成某个高层策略期间内的平均QoS;低层策略的Q网络用Q2(·|θ2)表示,参数表示为θ2;TargetQ网络用Q′2(·|θ′2)表示,参数用θ′2表示,低层策略训练时所使用的经验回放池表示为/>低层策略的奖励rl的定义是:当无人机达到目标区域是,rl=1;否则,rl=0;
(3.1)分别初始化高层策略和低层策略的经验回放空间网络参数{θ1,θ′1,θ2,θ′2};初始化高层策略的探索概率ε1=1和低层策略的探索ε2=1;
(3.2)对于训练回合episode=1;
(3.3)时隙t=1,初始化系统状态;
(3.4)获取当前时刻的系统状态s,高层策略基于ε1概率的贪婪策略选择一个目标g:以ε1的概率从目标空间G中随机选择一个目标,以1-ε1的概率根据高层策略网络选择一个目标g=argmaxg Q1(s,g|θ1);设置rh_sum=0,cnt=0;cnt用来记载完成该目标所经历的时隙数量,rh_sum用来记录完成该目标期间的总QoS;
(3.5)获取当前系统状态s,将当前系统状态和高层策略的目标{s,g}输入到低层策略,低层策略基于ε1概率的贪婪策略从低层策略动作空间Al中选择一个动作a;执行该动作,并产生新的系统状态s′,并获得低层策略奖励rl和外部奖励r(t);将元组<{s,g},a,rl,{s′,g}>存入经验回放池rh_sum=rh_sum+r(t),cnt=cnt+1,t=t+1;
(3.6)从经验回放池中随机采样固定数量K的样本,更新低层策略网络参数θ2;对于这些样本<{sk,gk},ak,rl,k,{s′k,gk}>,k∈{1,…,K},计算低层策略的目标值:
γ表示折扣系数;使用梯度下降法最小化损失函数L(θ2),更新低层策略网络的参数θ2:
(3.7)如果未到达目标g规定的区域,继续返回(3.5)执行低层策略;反之,无人机执行该区域的数据采集动作ac表示无人机在控制中心执行充电动作或充电动作ae表示无人机在控制中心执行充电动作,t=t+1,将元组<s,g,rh,s′>存入经验回放池/>中;从经验回放池/>中随机采样固定数量K的样本,更新底层策略网络参数θ1;对于这些样本<sk,gk,rh,k,s′k>,k∈{1,…,K},计算目标值:
使用梯度下降法最小化损失函数L(θ1),更新低层策略网络的参数θ1:
(3.8)如果t<T,返回(3.4)继续执行高层策略;如果t≥T时,退出当前训练回合,episode=episode+1;
(3.9)如果训练回合数episode到达规定的次数P,训练过程完成;反之,返回(3.3),重新开始一个新的训练回合;
(4)将训练好的策略网络模型分配给无人机,将无人机部署到目标区域中执行数据采集任务。
综上所述:
本发明提出一种一种基于分层深度强化学习的无人机数据采集路径规划方法,通过将多无人机辅助数据采集场景中的服务质量最大化问题建模为马尔科夫决策过程,并使用分层深度强化学习算法进行解决,使得无人机能够根据系统状态进行实时路径规划,优化时延敏感型应用的服务质量。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种基于分层深度强化学习的无人机采集路径规划方法,其特征在于,步骤如下:
(1)根据实际需求对无人机数据采集场景进行建模
(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{al,ar,au,ad,ac,ae},al,ar,au,ad分别表示移动到左邻、右邻、上邻、下邻子区域的中心;ac表示对当前所处子区域内的传感设备进行数据采集,ae表示无人机在控制中心执行充电动作;
(1.2)建立通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站和传感设备之间的路径损耗模型为:
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,d表示无人机和传感设备之间的欧式距离,规定无人机始终飞行在固定的高度h;根据路径损失,信道增益表示为根据信道增益,无人机基站和传感设备之间在第t个时隙的数据传输速率为:
其中,pt表示地面设备的发射功率,σ2表示加性高斯白噪声功率;
(1.3)无人机能耗模型:在无人机辅助通信中,无人机的能耗主要分为两个部分:通信能耗和推进能耗;在实际应用中,通信能耗相对于推进能耗是很小的,因此忽略通信能耗,只研究推进能耗;无人机的推进能耗包括叶片轮廓能耗、无人机的推进能耗和克服重力所造成的能耗:
其中,P0和P1分别表示无人机在悬停状态下的叶片轮廓能耗和无人机的推进能耗;Vt表示无人机在第t个时隙的飞行速度,Utip表示旋翼无人机叶片旋转的端速,v0表示悬停状态下的平均旋翼诱导速度,d0表示机身阻力比,ρ表示空气密度,s0表示转子稳定性,Ar表示旋翼的面积;当无人机处于悬停状态即Vt=0时,无人机的能耗为Eu(0)=P0+P1;规定无人机以匀速飞行,当无人机执行移动动作时,无人机在该时隙的能耗为Eu(vu)×δ,其中当无人机悬停执行数据采集任务时,无人机在该时隙的能耗为Eu(0)×δ;
(1.4)数据新鲜度建模:使用信息年龄AoI作为衡量数据新鲜度的指标;AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来,所经历的时间,因此在第t个时隙,第n个设备的AoI表示为:
Δn(t)=t-Un(t)
其中,Un(t)表示在第t个时隙目前无人机所拥有的第n个设备的最新传感数据的生成时间;但是AoI只是衡量数据新鲜度的一种通用指标,不同的应用对数据新鲜度的敏感性不同,只使用AoI不能很好地刻画应用的服务质量;因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化;awΔ函数需要具备非线性特性,其中0<a<1是一个常数,w表示权重;因此在每个时刻,整个系统的基于数据新鲜度的平均QoS表示为:
其中,un(Δ)表示第n个设备的基于AoI的utility函数,Δ表示数据新鲜度,是该函数的自变量;其中a是一个介于0和1之间的常数,设a=0.8;wn表示第n个设备的时间敏感权重;
(2)将问题建模为马尔科夫决策过程
在该系统中,无人机相当于一个智能体;在每一个时隙中,无人机根据当前系统状态S(t)和决策函数,从动作集A中选择动作a(t),以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,r(t)表示智能体在t时刻获得的瞬时奖励;
系统状态集合S(t)={o(t),e(t),Δ(t)},分别包含无人机当前的位置状态o(t)={x(t),y(t)}为无人机的位置坐标,e(t)表示无人机当前剩余能量,Δ(t)={Δ1(t),…,ΔN(t)}表示当前所有地面传感设备的AoI;
无人机动作空间A={al,ar,au,ad,ac,ae};
智能体在t时刻获得的瞬时奖励r(t):本方法的目标是在考虑无人机能耗的同时,最大化该系统基于AoI的服务质量,因此将瞬时奖励设计为:
其中,Q(t)表示当前时刻基于AoI的QoS,为数据信息度所带来的奖励;第二项表示剩余能量所带来的奖励,βe表示能量奖励权重,EIni表示无人机的初始能量;
(3)基于分层深度强化学习算法进行训练
本方法提出一种基于分层深度强化学习的无人机路径规划算法,该分层深度强化学习算法主要包括两层策略,高层策略负责选择目标,包括G={g0,g1,…,gn,…,gN},其中g0表示以控制中心为目标,执行充电动作,高层策略的Q网络用Q1(·|θ1)表示,θ1表示网络参数;TargetQ网络用Q′1(·|θ′1)表示,参数用θ′1表示,高层策略训练时所使用的经验回放池表示为gn(1<n<N)表示以第n个传感设备为目标,执行数据采集动作;低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径,低层策略的动作空间Al={al,ar,au,ad},当到达目标子区域后,再执行充电动作或数据采集动作,高层策略的奖励rh被定义为在低层策略完成某个高层策略期间内的平均QoS;低层策略的Q网络用Q2(·|θ2)表示,参数表示为θ2;TargetQ网络用Q′2(·|θ′2)表示,参数用θ′2表示,低层策略训练时所使用的经验回放池表示为/>低层策略的奖励rl的定义是:当无人机达到目标区域时,rl=1;否则,rl=0;
(3.1)分别初始化高层策略和低层策略的经验回放空间网络参数{θ1,θ′1,θ2,θ′2};初始化高层策略的探索概率ε1=1和低层策略的探索ε2=1;
(3.2)对于训练回合episode=1;
(3.3)t=1,初始化系统状态;
(3.4)获取当前时刻的系统状态s,高层策略基于σ1概率的贪婪策略选择一个目标g:以ε1的概率从目标空间G中随机选择一个目标,以1-σ1的概率根据高层策略网络选择一个目标g=arg maxg Q1(s,g|θ1);设置rh_sum=0,cnt=0;cnt用来记载完成该目标所经历的时隙数量,rh_sum用来记录完成该目标期间的总QoS;
(3.5)获取当前系统状态s,将当前系统状态和高层策略的目标{s,g}输入到低层策略,低层策略基于ε1概率的贪婪策略从低层策略动作空间Al中选择一个动作a;执行该动作,并产生新的系统状态s′,并获得低层策略奖励rl和外部奖励r(t);将元组<{s,g},a,rl,{s′,g}>存入经验回放池rh_sum=rh_sum+r(t),cnt=cnt+1,t=t+1;
(3.6)从经验回放池中随机采样固定数量K的样本,更新低层策略网络参数θ2;对于这些样本<{sk,gk},ak,rl,k,{s′k,gk}>,k∈{1,…,K},计算低层策略的目标值:
γ表示折扣系数;使用梯度下降法最小化损失函数L(θ2),更新低层策略网络的参数θ2:
(3.7)如果未到达目标g规定的区域,继续返回(3.5)执行低层策略;反之,无人机执行该区域的数据采集动作表示无人机在控制中心执行充电动作或充电动作表示无人机在控制中心执行充电动作,t=t+1,将元组<s,g,rh,s′>存入经验回放池/>中;从经验回放池/>中随机采样固定数量K的样本,更新低层策略网络参数θ1;对于这些样本<sk,gk,rh,k,s′k>,k∈{1,…,K},计算目标值:
使用梯度下降法最小化损失函数L(θ1),更新低层策略网络的参数θ1:
(3.8)如果t<T,返回(3.4)继续执行高层策略;如果t≥T时,退出当前训练回合,episode=episode+1;
(3.9)如果训练回合数episode到达规定的次数P,训练过程完成;反之,返回(3.3),重新开始一个新的训练回合;
(4)将训练好的策略网络模型分配给无人机,将无人机部署到目标区域中执行数据采集任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458366.3A CN113190039B (zh) | 2021-04-27 | 2021-04-27 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110458366.3A CN113190039B (zh) | 2021-04-27 | 2021-04-27 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190039A CN113190039A (zh) | 2021-07-30 |
CN113190039B true CN113190039B (zh) | 2024-04-16 |
Family
ID=76979423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110458366.3A Active CN113190039B (zh) | 2021-04-27 | 2021-04-27 | 一种基于分层深度强化学习的无人机采集路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190039B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113433967B (zh) * | 2021-06-07 | 2022-11-25 | 北京邮电大学 | 一种可充电无人机路径规划方法及系统 |
CN113625733A (zh) * | 2021-08-04 | 2021-11-09 | 北京工业大学 | 一种基于ddpg多目标三维无人机路径规划方法 |
CN113705777B (zh) * | 2021-08-07 | 2024-04-12 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种无人机自主寻径模型训练方法及装置 |
CN113848868B (zh) * | 2021-10-18 | 2023-09-22 | 东南大学 | 一种意图驱动的强化学习路径规划方法 |
CN113891276B (zh) * | 2021-10-26 | 2023-05-26 | 重庆邮电大学 | 基于信息年龄的混合更新工业无线传感器网络调度方法 |
CN114003059B (zh) * | 2021-11-01 | 2024-04-16 | 河海大学常州校区 | 运动学约束条件下基于深度强化学习的uav路径规划方法 |
CN114268986A (zh) * | 2021-12-14 | 2022-04-01 | 北京航空航天大学 | 一种无人机计算卸载与充电服务效能优化方法 |
CN114372612B (zh) * | 2021-12-16 | 2023-04-28 | 电子科技大学 | 面向无人机移动边缘计算场景的路径规划和任务卸载方法 |
CN113988772B (zh) * | 2021-12-30 | 2022-03-25 | 中国民用航空总局第二研究所 | 基于多路径的无人机配送网络构建方法 |
CN114625151B (zh) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | 一种基于强化学习的水下机器人避障路径规划方法 |
CN114785397B (zh) * | 2022-03-11 | 2023-04-07 | 成都三维原光通讯技术有限公司 | 无人机基站控制方法、飞行轨迹优化模型构建、训练方法 |
CN115185288B (zh) * | 2022-05-27 | 2024-05-03 | 西北工业大学 | 一种基于sac算法的无人机分层飞行决策方法 |
CN114710410B (zh) * | 2022-06-07 | 2022-08-26 | 南京信息工程大学 | 基于深度强化学习的网络数据采集效率优化方法及系统 |
CN115037638B (zh) * | 2022-06-14 | 2023-10-20 | 北京邮电大学 | 低能耗和高时效性的无人机网络数据采集与传输控制方法 |
CN115190079B (zh) * | 2022-07-05 | 2023-09-15 | 吉林大学 | 基于分层强化学习的高铁自供电感知通信一体化交互方法 |
CN115877868B (zh) * | 2022-12-01 | 2024-01-26 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN115755987B (zh) * | 2023-01-09 | 2023-06-30 | 南京邮电大学 | 一种面向灾难数据采集的多无人机协同调度方法 |
CN116451934B (zh) * | 2023-03-16 | 2024-02-06 | 中国人民解放军国防科技大学 | 多无人机边缘计算路径优化与依赖任务调度优化方法及系统 |
CN116051776B (zh) * | 2023-03-28 | 2023-08-01 | 广东广宇科技发展有限公司 | 一种无人机水利信息采集的倾斜摄影建模系统及方法 |
CN116611635B (zh) * | 2023-04-23 | 2024-01-30 | 暨南大学 | 基于车路协同及强化学习的环卫机器人车调度方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110301143A (zh) * | 2016-12-30 | 2019-10-01 | 英特尔公司 | 用于无线电通信的方法和设备 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112511250A (zh) * | 2020-12-03 | 2021-03-16 | 中国人民解放军火箭军工程大学 | 一种基于drl的多无人机空中基站动态部署方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1974305A4 (en) * | 2006-01-11 | 2011-11-09 | Carmel Haifa University Economic Corp Ltd | UAV DECISION AND CONTROL SYSTEM |
-
2021
- 2021-04-27 CN CN202110458366.3A patent/CN113190039B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110301143A (zh) * | 2016-12-30 | 2019-10-01 | 英特尔公司 | 用于无线电通信的方法和设备 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112511250A (zh) * | 2020-12-03 | 2021-03-16 | 中国人民解放军火箭军工程大学 | 一种基于drl的多无人机空中基站动态部署方法及系统 |
Non-Patent Citations (5)
Title |
---|
QIACO:一种多QoS约束网格任务调度算法;孙伟峰 等;电子学报(第5期);1115-1120 * |
The UAV Trajectory Optimization for Data Collection from Time-Constrained IoT Devices: A Hierarchical Deep Q-Network Approach;Zhenquan Qin et al.;applied sciences;2546-1-2546-15 * |
一种简化的输电线路点云电塔自动定位方法;危双丰 等;北京建筑大学学报;36(03);44-50 * |
基于深度强化学习的无人机数据采集和路径规划研究;牟治宇 等;物联网学报(03);42-51 * |
智能网联交通系统的关键技术与发展;钱志鸿 等;电子与信息学报;第42卷(第1期);2-19 * |
Also Published As
Publication number | Publication date |
---|---|
CN113190039A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113190039B (zh) | 一种基于分层深度强化学习的无人机采集路径规划方法 | |
US20210165405A1 (en) | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same | |
Wei et al. | UAV-assisted data collection for internet of things: A survey | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
Wang et al. | Trajectory design for UAV-based Internet of Things data collection: A deep reinforcement learning approach | |
Ghdiri et al. | Offline and online UAV-enabled data collection in time-constrained IoT networks | |
CN113433967B (zh) | 一种可充电无人机路径规划方法及系统 | |
Luo et al. | A two-step environment-learning-based method for optimal UAV deployment | |
CN116627162A (zh) | 基于多智能体强化学习的多无人机数据采集位置优化方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116700343A (zh) | 一种无人机路径规划方法、设备和存储介质 | |
Zhan et al. | Energy-efficient trajectory optimization for aerial video surveillance under QoS constraints | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
WANG et al. | Trajectory optimization and power allocation scheme based on DRL in energy efficient UAV‐aided communication networks | |
Zhan et al. | Tradeoff between age of information and operation time for uav sensing over multi-cell cellular networks | |
Babu et al. | Fairness-based energy-efficient 3-D path planning of a portable access point: A deep reinforcement learning approach | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
CN112383893A (zh) | 一种基于分时的可充式传感网络无线功率传输方法 | |
CN116502547B (zh) | 一种基于图强化学习的多无人机无线能量传输方法 | |
Janji et al. | Drone Base Stations Transmission Power Control and Localization | |
Parvaresh | Performance Enhancement of Aerial Base Stations via Reinforcement Learning-based 3D Placement Techniques | |
Chen et al. | Interference-aware trajectory design for fair data collection in UAV-assisted iot networks by deep reinforcement learning | |
CN116400728A (zh) | 一种基于深度确定性策略梯度算法的无人机路径规划方法 | |
Huang et al. | Deep Reinforcement Learning-Driven UAV Data Collection Path Planning: A Study on Minimizing AoI | |
CN117993475A (zh) | 一种基于深度强化学习的能量效率无人机资源调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |