CN113190039B

CN113190039B - 一种基于分层深度强化学习的无人机采集路径规划方法

Info

Publication number: CN113190039B
Application number: CN202110458366.3A
Authority: CN
Inventors: 覃振权; 刘中豪; 卢炳先; 王雷; 朱明�; 王治国
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-04-16
Anticipated expiration: 2041-04-27
Also published as: CN113190039A

Abstract

本发明提供了一种基于分层深度强化学习的无人机采集路径规划方法，首先对无人机数据采集场景中的通信模型、能耗模型进行建模；其次，考虑数据新鲜度的最大化和无人机的续航，将优化问题建模为一个半马尔科夫决策过程；最后，提出了一种基于分层深度强化学习的无人机路径规划方法，高层策略根据当前环境状态决定无人机在当前应该采集哪个传感设备的数据，低层策略根据当前状态和高层策略的目标来设计无人机的移动轨迹，无人机通过与环境的交互获得瞬时奖励，并基于这些信息进行训练。训练完成后，将策略网络部署到具有一定计算能力的无人机中，无人机可以进行实时的路径规划，执行长时间的数据采集任务，以提高整个任务执行期间的数据新鲜度。

Description

一种基于分层深度强化学习的无人机采集路径规划方法

技术领域

本发明涉及无线通信技术领域，特别涉及一种基于分层深度强化学习的无人机数据采集路径规划方法。

背景技术

近年来，随着科技的进步，无人机机型向着小型化、低成本的方向不断发展。凭借着易部署、可控制、移动性的优点，无人机尤其是可悬停的旋翼无人机被大量应用在民用和商用领域，比如目标跟踪与检测、物流、辅助通信等等。其中，无人机辅助无线通信是目前的一个新兴的研究热点。在无人机辅助无线通信中，无人机可以通过安装小型的通信设备，为地面用户提供通信服务、作为中继节点为距离较远的收发设备建立连接、或作为移动汇聚节点采集地面无线传感网络的数据。

本专利研究的场景就是无人机作为移动汇聚节点采集地面无线传感网络数据。无人机执行数据采集任务具有很大的优势。首先，大部分传感设备由于尺寸限制，资源是受限的，受能耗制约，很难支持长距离的通信，而多跳的通信方式会导致某些节点能耗耗尽，缩短无线传感网络的质量和寿命。无人机可以飞到传感设备上方进行数据采集任务，能够有效的缩短通信距离，且采取一跳的通信方式，能够有效减少无线传感网络的能耗，提高网络寿命。其次，相对于地面移动采集车，无人机能够飞到地形更加复杂的区域执行数据采集任务，且由于高度原因，更容易与地面设备建立高质量的视距链路。

现有的关于无人机数据采集的研究主要的优化目标是数据采集数量、数据采集所花费的时间、能耗等。近年来，随着边缘计算的发展，产生了越来越多的时间敏感型应用，这些应用对数据的新鲜度有很高的要求，数据越新鲜，这类应用的服务质量越高。比如智慧交通或智慧消防应用，所采集的数据越新鲜，控制中心所作出的决策就越准确。同时，无人机由于尺寸限制，也很难执行长时间的作业，因此在长时间任务中，需要考虑无人机的续航问题。

这种数据采集场景是一种动态的场景，数据新鲜度、用户的需求、传感器采样频率可能是不断变化的，因此需要一种能够进行实时决策的方法，根据每个时刻的系统状态，做出无人机路径规划决策，强化学习就是这样一种方法。但由于只有当无人机采集到数据时，才能获得较多的奖励，因此该场景还是一个延迟奖励和稀疏奖励的场景，用传统的强化学习解决这类问题通常无法收敛。本发明提出了一种基于分层深度强化学习的方法来进行无人机的采集-充电路径规划。

发明内容

本发明的目的是提出一种基于分层深度强化学习的无人机数据采集路径规划方法，来优化整个系统的数据新鲜度，同时保证无人机的续航。

为实现上述目的，本文发明了如下方案：

一种基于分层深度强化学习的无人机采集路径规划方法，步骤如下：

(1)根据实际需求对无人机数据采集场景进行建模

(1.1)建立系统模型：建立一个边长为l的目标区域，该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机；无人机从控制中心起飞，在规定期间内对目标区域内的传感设备进行数据采集，最后返回控制中心；为了简化场景本文，将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备，每个子区域的中心为无人机可悬停的航点；整个执行周期被划分为T个长度为δ的时隙，无人机在每个时隙执行以下几种动作：{a_l,a_r,a_u,a_d,a_c,a_e}，a_l,a_r,a_u,a_d分别表示移动到左邻、右邻、上邻、下邻子区域的中心；a_c表示对当前所处子区域内的传感设备进行数据采集，a_e表示无人机在控制中心执行充电动作；

(1.2)建立通信模型：使用空对地信道模型对无人机基站和地面用户之间的信道进行建模，无人机基站由于飞行高度，相比于地面基站更容易与地面用户建立视距链路LoS，在LoS情况下，无人机基站和传感设备之间的路径损耗模型为：

其中，η表示额外路径损耗系数，c表示光速，f_c表示子载波频率，α表示路径损失指数，d表示无人机和传感设备之间的欧式距离，规定无人机始终飞行在固定的高度h；根据路径损失，信道增益表示为根据信道增益，无人机基站和传感设备之间在时隙t的数据传输速率为：

其中，p_t表示地面设备的发射功率，σ²表示加性高斯白噪声功率；

(1.3)无人机能耗模型：在无人机辅助通信中，无人机的能耗主要分为两个部分：通信能耗和推进能耗；在实际应用中，通信能耗相对于推进能耗是很小的，因此忽略通信能耗，只研究通信能耗；无人机的推进能耗包括叶片轮廓能耗、推进能耗和克服重力所造成的能耗：

其中，P₀和P₁分别表示无人机在悬停状态下的叶片轮廓能耗和Derived能耗；V_t表示无人机在时隙t的飞行速度，U_tip表示旋翼无人机叶片旋转的端速，v₀表示悬停状态下的平均旋翼诱导速度，d₀表示机身阻力比，ρ表示空气密度，s₀表示转子稳定性，A_r表示旋翼的面积；当无人机处于悬停状态即V_t＝0时，无人机的能耗为E_u(0)＝P₀+P₁；规定无人机以匀速飞行，当无人机执行移动动作时，无人机在该时隙的能耗为E_u(v_u)×δ，其中当无人机悬停执行数据采集任务时，无人机在该时隙的能耗为E_u(0)×δ；

(1.4)数据新鲜度建模：使用信息年龄AoI作为衡量数据新鲜度的指标；AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来，所经历的时间，因此在第t个时隙，第n个设备的AoI表示为：

Δ_n(t)＝t-U_n(t)

其中，U_n(t)表示在时隙t目前无人机所拥有的第n个设备的最新传感数据的生成时间；但是AoI只是衡量数据新鲜度的一种通用指标，不同的应用对数据新鲜度的敏感性不同，只使用AoI不能很好地刻画应用的服务质量；因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化；a^wΔ函数需要具备non-increasing特性，其中0<a<1是一个常数，w表示权重；因此在每个时刻，整个系统的基于数据新鲜度的平均QoS表示为：

其中u_n(Δ)表示第n个设备的基于AoI的utility函数，Δ表示数据新鲜度，是该函数的自变量。其中a是一个介于0和1之间的常数，本发明设a＝0.8，w_n表示第n个设备的时间敏感权重，不同类型的设备所采集的数据类型不同，对数据新鲜度的敏感程度也不相同，因此每个设备具有不同的时间敏感权重

(2)将问题建模为马尔科夫决策过程

在该系统中，无人机相当于一个智能体；在每一个时隙中，无人机根据当前系统状态S(t)和决策函数，从动作集A中选择动作a(t)，以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数，r(t)表示智能体在t时刻获得的瞬时奖励；

系统状态集合S(t)＝{o(t),e(t),Δ(t)}，分别包含无人机当前的位置状态o(t)＝{x(t),y(t)}为无人机的位置坐标，e(t)表示无人机当前剩余能量，Δ(t)＝{Δ₁(t),…,Δ_N(t)}表示当前所有地面传感设备的AoI；

无人机动作空间A＝{a_l,a_r,a_u,a_d,a_c,a_e}；

系统瞬时奖励r(t)：本方法的目标是在考虑无人机能耗的同时，最大化该系统基于AoI的服务质量，因此将瞬时奖励设计为：

其中，Q(t)表示当前时刻基于AoI的QoS，为数据信息度所带来的奖励；第二项表示剩余能量所带来的奖励，β_e表示能量奖励权重，E_Ini表示无人机的初始能量；

(3)基于分层深度强化学习算法进行训练

本方法提出一种基于分层深度强化学习的无人机路径规划算法，该分层深度强化学习算法主要包括两层策略，高层策略负责选择目标，包括G＝{g₀,g₁,…,g_n,…,g_N}，其中g₀表示以控制中心为目标，执行充电动作，高层策略的Q网络用Q₁(·|θ₁)表示，θ₁表示网络参数；TargetQ网络用Q′₁(·|θ′₁)表示，参数用θ′₁表示，高层策略训练时所使用的经验回放池表示为g_n(1<n<N)表示以第n个传感设备为目标，执行数据采集动作；低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径，底层策略的动作空间A_l＝{a_l,a_r,a_u,a_d}，当到达目标子区域后，再执行充电动作或数据采集动作，高层策略的奖励r_h被定义为在低层策略完成某个高层策略期间内的平均QoS；低层策略的Q网络用Q₂(·|θ₂)表示，参数表示为θ₂；TargetQ网络用Q′₂(·|θ′₂)表示，参数用θ′₂表示，低层策略训练时所使用的经验回放池表示为/>低层策略的奖励r_l的定义是：当无人机达到目标区域是，r_l＝1；否则，r_l＝0；

(3.1)分别初始化高层策略和低层策略的经验回放空间网络参数{θ₁,θ′₁,θ₂,θ′₂}；初始化高层策略的探索概率ε₁＝1和低层策略的探索ε₂＝1；

(3.2)对于训练回合episode＝1；

(3.3)时隙t＝1，初始化系统状态；

(3.4)获取当前时刻的系统状态s，高层策略基于ε₁概率的贪婪策略选择一个目标g：以ε₁的概率从目标空间G中随机选择一个目标，以1-ε₁的概率根据高层策略网络选择一个目标g＝argmax_g Q₁(s,g|θ₁)；设置r_{h_sum}＝0,cnt＝0；cnt用来记载完成该目标所经历的时隙数量，r_{h_sum}用来记录完成该目标期间的总QoS；

(3.5)获取当前系统状态s，将当前系统状态和高层策略的目标{s,g}输入到低层策略，低层策略基于ε₁概率的贪婪策略从低层策略动作空间A_l中选择一个动作a；执行该动作，并产生新的系统状态s′，并获得低层策略奖励r_l和外部奖励r(t)；将元组<{s,g},a,r_l,{s′,g}>存入经验回放池r_{h_sum}＝r_{h_sum}+r(t),cnt＝cnt+1,t＝t+1；

(3.6)从经验回放池中随机采样固定数量K的样本，更新低层策略网络参数θ₂；对于这些样本<{s_k,g_k},a_k,r_l,k,{s′_k,g_k}>,k∈{1,…,K}，计算低层策略的目标值：

γ表示折扣系数；使用梯度下降法最小化损失函数L(θ₂)，更新低层策略网络的参数θ₂：

(3.7)如果未到达目标g规定的区域，继续返回(3.5)执行低层策略；反之，无人机执行该区域的数据采集动作a_c表示无人机在控制中心执行充电动作或充电动作a_e表示无人机在控制中心执行充电动作，t＝t+1，将元组<s,g,r_h,s′>存入经验回放池/>中；从经验回放池/>中随机采样固定数量K的样本，更新底层策略网络参数θ₁；对于这些样本<s_k,g_k,r_h,k,s′_k>,k∈{1,…,K}，计算目标值：

使用梯度下降法最小化损失函数L(θ₁)，更新低层策略网络的参数θ₁：

(3.8)如果t<T，返回(3.4)继续执行高层策略；如果t≥T时，退出当前训练回合，episode＝episode+1；

(3.9)如果训练回合数episode到达规定的次数P，训练过程完成；反之，返回(3.3)，重新开始一个新的训练回合；

(4)将训练好的策略网络模型分配给无人机，将无人机部署到目标区域中执行数据采集任务。

附图说明

图1是本发明所述的无人机辅助数据采集场景示意图。

图2是本发明一种基于分层深度强化学习的无人机数据采集路径规划方法的流程图。

图3是本发明中分层深度强化学习的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

一种基于分层深度强化学习的无人机数据采集路径规划方法，应用于时间敏感型应用的数据采集场景，使用无人机采集数据的方式代替传统的多跳传输，在考虑无人机续航的基础上，优化该应用基于数据新鲜度的服务质量。如图1所示，该地区分布有多个传感设备，某个时间敏感型应用依赖这些传感设备所采集的数据，为了延长地面传感网络的寿命，采用无人机采集方式对地面传感设备进行数据采集。无人机需要根据当前的数据新鲜度、自身位置、剩余电量实时规划自己的采集路径，以优化该时间敏感型应用的服务质量。本发明的流程如图2所示，首先，对具体的应用场景中的通信模型、能耗模型，数据新鲜度进行建模；其次，将无人机的路径规划问题建模为一个马尔科夫决策过程；然后，使用分层深度强化学习对无人机的路径规划策略进行训练；最后，将训练好的模型部署到无人机上，无人机可以根据系统状态进行实时路径规划决策。

具体步骤如下:

(1)根据实际需求对无人机数据采集场景进行建模

Δ_n(t)＝t-U_n(t)

(2)将问题建模为马尔科夫决策过程

无人机动作空间A＝{a_l,a_r,a_u,a_d,a_c,a_e}；

(3)基于分层深度强化学习算法进行训练

(3.2)对于训练回合episode＝1；

(3.3)时隙t＝1，初始化系统状态；

综上所述：

本发明提出一种一种基于分层深度强化学习的无人机数据采集路径规划方法，通过将多无人机辅助数据采集场景中的服务质量最大化问题建模为马尔科夫决策过程，并使用分层深度强化学习算法进行解决，使得无人机能够根据系统状态进行实时路径规划，优化时延敏感型应用的服务质量。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于分层深度强化学习的无人机采集路径规划方法，其特征在于，步骤如下：

(1)根据实际需求对无人机数据采集场景进行建模

(1.1)建立系统模型：建立一个边长为l的目标区域，该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机；无人机从控制中心起飞，在规定期间内对目标区域内的传感设备进行数据采集，最后返回控制中心；为了简化场景，将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备，每个子区域的中心为无人机可悬停的航点；整个执行周期被划分为T个长度为δ的时隙，无人机在每个时隙执行以下几种动作：{a_l,a_r,a_u,a_d,a_c,a_e}，a_l,a_r,a_u,a_d分别表示移动到左邻、右邻、上邻、下邻子区域的中心；a_c表示对当前所处子区域内的传感设备进行数据采集，a_e表示无人机在控制中心执行充电动作；

其中，η表示额外路径损耗系数，c表示光速，f_c表示子载波频率，α表示路径损失指数，d表示无人机和传感设备之间的欧式距离，规定无人机始终飞行在固定的高度h；根据路径损失，信道增益表示为根据信道增益，无人机基站和传感设备之间在第t个时隙的数据传输速率为：

(1.3)无人机能耗模型：在无人机辅助通信中，无人机的能耗主要分为两个部分：通信能耗和推进能耗；在实际应用中，通信能耗相对于推进能耗是很小的，因此忽略通信能耗，只研究推进能耗；无人机的推进能耗包括叶片轮廓能耗、无人机的推进能耗和克服重力所造成的能耗：

其中，P₀和P₁分别表示无人机在悬停状态下的叶片轮廓能耗和无人机的推进能耗；V_t表示无人机在第t个时隙的飞行速度，U_tip表示旋翼无人机叶片旋转的端速，v₀表示悬停状态下的平均旋翼诱导速度，d₀表示机身阻力比，ρ表示空气密度，s₀表示转子稳定性，A_r表示旋翼的面积；当无人机处于悬停状态即V_t＝0时，无人机的能耗为E_u(0)＝P₀+P₁；规定无人机以匀速飞行，当无人机执行移动动作时，无人机在该时隙的能耗为E_u(v_u)×δ，其中当无人机悬停执行数据采集任务时，无人机在该时隙的能耗为E_u(0)×δ；

Δ_n(t)＝t-U_n(t)

其中，U_n(t)表示在第t个时隙目前无人机所拥有的第n个设备的最新传感数据的生成时间；但是AoI只是衡量数据新鲜度的一种通用指标，不同的应用对数据新鲜度的敏感性不同，只使用AoI不能很好地刻画应用的服务质量；因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化；a^wΔ函数需要具备非线性特性，其中0<a<1是一个常数，w表示权重；因此在每个时刻，整个系统的基于数据新鲜度的平均QoS表示为：

其中，u_n(Δ)表示第n个设备的基于AoI的utility函数，Δ表示数据新鲜度，是该函数的自变量；其中a是一个介于0和1之间的常数，设a＝0.8；w_n表示第n个设备的时间敏感权重；

(2)将问题建模为马尔科夫决策过程

无人机动作空间A＝{a_l,a_r,a_u,a_d,a_c,a_e}；

智能体在t时刻获得的瞬时奖励r(t)：本方法的目标是在考虑无人机能耗的同时，最大化该系统基于AoI的服务质量，因此将瞬时奖励设计为：

(3)基于分层深度强化学习算法进行训练

本方法提出一种基于分层深度强化学习的无人机路径规划算法，该分层深度强化学习算法主要包括两层策略，高层策略负责选择目标，包括G＝{g₀,g₁,…,g_n,…,g_N}，其中g₀表示以控制中心为目标，执行充电动作，高层策略的Q网络用Q₁(·|θ₁)表示，θ₁表示网络参数；TargetQ网络用Q′₁(·|θ′₁)表示，参数用θ′₁表示，高层策略训练时所使用的经验回放池表示为g_n(1<n<N)表示以第n个传感设备为目标，执行数据采集动作；低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径，低层策略的动作空间A_l＝{a_l,a_r,a_u,a_d}，当到达目标子区域后，再执行充电动作或数据采集动作，高层策略的奖励r_h被定义为在低层策略完成某个高层策略期间内的平均QoS；低层策略的Q网络用Q₂(·|θ₂)表示，参数表示为θ₂；TargetQ网络用Q′₂(·|θ′₂)表示，参数用θ′₂表示，低层策略训练时所使用的经验回放池表示为/>低层策略的奖励r_l的定义是：当无人机达到目标区域时，r_l＝1；否则，r_l＝0；

(3.2)对于训练回合episode＝1；

(3.3)t＝1，初始化系统状态；

(3.4)获取当前时刻的系统状态s，高层策略基于σ₁概率的贪婪策略选择一个目标g：以ε₁的概率从目标空间G中随机选择一个目标，以1-σ₁的概率根据高层策略网络选择一个目标g＝arg max_g Q₁(s,g|θ₁)；设置r_{h_sum}＝0,cnt＝0；cnt用来记载完成该目标所经历的时隙数量，r_{h_sum}用来记录完成该目标期间的总QoS；

(3.7)如果未到达目标g规定的区域，继续返回(3.5)执行低层策略；反之，无人机执行该区域的数据采集动作表示无人机在控制中心执行充电动作或充电动作表示无人机在控制中心执行充电动作，t＝t+1，将元组<s,g,r_h,s′>存入经验回放池/>中；从经验回放池/>中随机采样固定数量K的样本，更新低层策略网络参数θ₁；对于这些样本<s_k,g_k,r_h,k,s′_k>,k∈{1,…,K}，计算目标值：