CN114879726A

CN114879726A - 一种基于多无人机辅助数据收集的路径规划方法

Info

Publication number: CN114879726A
Application number: CN202210468940.8A
Authority: CN
Inventors: 张广驰; 苏天赐; 崔苗; 刘圣海; 王日明; 王昆
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-09

Abstract

本发明涉及一种基于多无人机辅助数据收集的路径规划方法，包括以下步骤：在目标区域内目标被分为若干集群，用户坐标在集群中随机产生，集群中有若干用户，且用户随机运动但并不会超过区域边界；无人机和用户的通信通道由时限链接主导，使用多无人机在无模型的情况下进行动态规划；使用Dueling‑DDQN算法优化无人机轨迹从而最大化用户覆盖。当用户的分布分散且可以在整个目标区域内自由移动，为了弥补单无人机在用户更分散的情况下覆盖不足的问题，使用多无人机辅助数据收集实现了更多的用户覆盖并能够优化出一条到达终点的最短路径，从而实现最大化用户覆盖；还提出Dueling‑DDQN算法，可以准确的估算神经网络输出值，规划无人机每步移动的动作，适用于其他不同的场景。

Description

一种基于多无人机辅助数据收集的路径规划方法

技术领域

本发明涉及路径规划领域，更具体地，涉及一种基于多无人机辅助数据收集的路径规划方法。

背景技术

为了提高无线通信的网络性能和覆盖范围，无人机现已在各个通信领域开始部署，如无线传感器网络、高速缓存、异构蜂窝网络、大规模多输入多输出(MIMO)、灾难通信、和设备到设备通信(D2D)。例如，在L.D.Nguyen,A.Kortun,and T.Q.Duong,“Anintroduction of real-time embedded optimisation programming for UAV systemsunder disaster communication,”EAI Endorsed Transactions on IndustrialNetworks and Intelligent Systems,vol.5,no.17,pp.1–8,Dec.2018中，部署了无人机，为偏远地区和灾区的人们提供网络覆盖。在J.Gong,T.-H.Chang,C.Shen,and X.Chen,“Flight time minimization of UAV for data collection over wireless sensornetworks,”IEEE J.Select.Areas Commun.,vol.36,no.9,pp.1942–1954,Sept.2018中，无人机也用于在无线传感器网络中收集数据。

然而，以上的研究不是忽略了现实应用中严格的飞行时间限制，就是通常把环境设置为静态环境，或者用户太过于集中，但是一般事实上我们所要覆盖的用户或者目标都是自由运动的，且一般比较分散。由于无人机的机载功率和飞行时间的限制，如何在最快到达目的地的前提下获得最优的资源分配方案，实现用户覆盖最大化是一个挑战。

现有的技术中，中国发明专利公开了一种用于信息采集的无人机群路径规划方法，通过对需要进行监测的环境监测点进行建模，然后将各个区域和无人机基地进行一一对应进行任务分配，最后对单个无人机执行监测任务进行路径规划，采用基于模拟退火改进的K均值任务分群算法求解该评估模型下代价最小的无人机飞行路径，从而得到多无人机协同的路径规划方法。该发明采用模拟退火算法对K均值聚类算法进行改进，使得得到的分群结果更加均衡，能够更有效的提高任务分群的效果，缩短了路径规划的距离，但是没有考虑到区域内用户可以自由移动，无法解决无模型的动态规划问题。

发明内容

本发明为解决现有的单无人机在用户更分散的情况下覆盖不足且传统优化决策方法无法解决无模型动态规划问题的技术缺陷，提供了一种基于多无人机辅助数据收集的路径规划方法。

为实现以上发明目的，采用的技术方案是：

一种基于多无人机辅助数据收集的路径规划方法，包括以下步骤：

S1：在目标区域内目标被分为若干集群，用户坐标在集群中随机产生，集群中有若干用户，且用户随机运动但并不会超过区域边界；

S2：无人机和用户的通信通道由时限链接主导，使用多无人机在无模型的情况下进行动态规划；

S3：使用Dueling-DDQN算法优化无人机轨迹从而最大化用户覆盖。

上述方案中，当用户的分布分散且可以在整个目标区域内自由移动，为了弥补单无人机在用户更分散的情况下覆盖不足的问题，使用多无人机实现了更多的用户覆盖并能够优化出一条到达终点的最短路径，从而实现最大化用户覆盖；还提出的基于深度强化学习的Dueling-DDQN算法，可以准确的估算神经网络输出值，做出准确的策略，规划无人机每步移动的动作，适用于其他不同的场景。

优选的，在步骤S1中，在目标区域内，用户被分为M个集群，每个集群相当于半径为R的圆，用户的坐标在这些圆内随机生成，每个集群内有K个用户，时间步长t时第k个用户在第m个集群中的位置为

同时用户以低于最大速度v进行随机移动，但不会超出目标区域边界，即

和

上述方案中，无人机飞行高度为H，依靠单个天线访问所有集群以最大化覆盖用户，在时间步长t时无人机的三维坐标定义为

两个无人机的起点与终点均相同，最大覆盖范围由无人机的飞行高度H和天线发射角度θ决定,即R_max＝H·tan(θ),同时无人机只能在规定的区域飞行，即0≤X(t)≤X_max和0≤Y(t)≤Y_max，其中X_max和Y_max为该区域的长度和宽度。

优选的，在步骤S2中，无人机和用户之间的通信通道由视线链接主导，时间步长t时，第m个集群中第k个用户到第一个无人机的距离为：

在时间步长t时，第一个无人机与第m个簇中的第k个用户之间的信道遵循自由空间路径损耗模型，表示为

其中β₀表示信道在参考距离d＝1m时的功率增益。

优选的，在步骤S3中，当用户满足距离约束并处于无人机覆盖范围内时，第m个集群中的第k个用户在t时刻到无人机的实现吞吐量，定义如下：

若同时处于多个无人机的重叠的覆盖范围内，则此用户在t时刻的吞吐量是分别与两个无人机通信产生的吞吐量之和，其中B和α²分别是带宽和噪声功率,集群m中的第k个用户到无人机的总吞吐量和在T时间步长时为：

优选的，在多无人机数据收集系统下，由于两个无人机都会受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束，通过优化两个无人机轨迹，实现用户覆盖最大化，得到目标问题如下

s.tR_final1＝X_target，

d_m,k≤d_cons，

R_m,k≥r_min，

P(m,k)＝{0,1},

0≤X(t)≤X_max,

0≤Y(t)≤Y_max,

距离约束d_cons表示被服务用户

与无人机的直线距离，X_now，X_now1，X_now2和X_target分别表示单无人机数据收集系统下无人机的目前位置、多无人机数据收集系统下两个无人机的目前位置以及重点位置；若无人机触碰边界，将受到边界惩罚R_bp＝-100，同时定义R_sp＝-1000为步数惩罚，无人机每多走一步都将会受到一个负奖励,无人机只能在规定的区域飞行，即0≤X(t)≤X_max和0≤Y(t)≤Y_max，其中X_max和Y_max为该区域的长度和宽度，X(t)，Y(t)分别表示无人机的当前位置的横坐标和纵坐标。

上述方案中，当系统中只有一个无人机时，若无人机到达终点将会直接获得终点奖励R_final1，在多无人机数据收集系统下只有两个无人机都到达终点才能获得终点奖励R_final2，即

当系统中只存在一个无人机时，无人机受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束，通过优化无人机轨迹，实现用户覆盖最大化，我们能得到以下目标问题，即

s.tR_final1X_final＝X_target,

d_m,k≤d_cons，

R_m,k≥r_min，

P(m,k)＝{0,1},

0≤X(t)≤X_max,

0≤Y(t)≤Y_max。

上述方案中，旨在最大化覆盖用户，为其提供通信服务，同时无人机要在最短时间内从起点起飞到达终点。因此我们定义P(m,k)＝{0,1},当第m个集群中第k个用户的总吞吐量R_m,k大于阈值r_min时，表示此用户已和无人机取得联系，此轮任务不再与无人机进行通信，同时被标记为P(m,k)＝1，反之P(m,k)＝0。

优选的，步骤S3中的Dueling-DDQN算法，其每一幕无人机从起点出发，到达目的地结束；

在训练阶段，每一幕开始之前先初始化无人机的起点位置和终点位置，以及随机初始化M*K个用户的位置；在每个时间步长t，无人机根据观测的状态信息s^t输出动作a(t)，即无人机的飞行方向，此时若用户处于无人机的覆盖范围以内，智能体将分别计算与每个用户通信的吞吐量，并一直累积到一步，直到R_m,k≥r_min，若无人机的下一个位置超出规定区域则取消该飞行动作；根据动作得到相应的回报r^t和下一时刻的状态信息s^t+1，将

储存在经验缓冲区buffer，在每一时刻结束时从经验缓冲区中随机采样N组经验进行网络参数的更新。

优选的，所述Dueling-DDQN算法是一种迭代求解贝尔曼方程的无模型强化学习算法，其状态动作价值函数为：

其中

表示智能体在状态s采取动作a后转移到状态s'的概率，π(·)表示智能体的选择策略。

优选的，所述Dueling-DDQN算法设置有带有参数θ^-的目标网络Q₂(s',a_max；θ^-)和带有参数θ的估计网络Q₁(s',a；θ)，其目标网络是估计网络的复制，目标网络的参数θ^-更新频率慢于估计网络；

同时所述Dueling-DDQN算法也设置了经验缓冲区，当前状态-动作-奖励-下个状态

存储到经验缓冲区中，稍后随机访问以进行权重更新。

上述方案中，本文提出基于强化学习的Dueling-DDQN算法计算最优轨迹，实现在最短时间内到达终点的同时最大化用户覆盖。不管是单无人机还是多无人机都是采用单一智能体通过不断地与环境交互来学习状态空间到动作空间的映射，并根据环境的反馈信息进行学习。无人机每走一步都会从环境中观测到当前状态s(t)，将状态s(t)输入到深度神经网络中获得相应动作a(t)，通过动作a(t)与环境进行交互，环境返给智能体当前的回报r(t)，以及新的状态s(t+1)。随后将上述过程得到的经(s(t),a(t),r(t),s(t+1))储存在经验缓冲区，进行深度神经网络的训练。

在系统中只有一个无人机执行任务时，无人机就是一个智能体，与环境互动，寻找奖励的峰值；多无人机情况下，两个无人机同属一个智能体。

本专利把无人机的位置定义为状态空间，即S＝{x,y,H},多无人机数据收集系统下S＝{x₁,y₁,H₁,x₂,y₂,H₂}。在时间步长t时，分别将以上场景的无人机的状态定义为s^t＝{x^t,y^t,H^t}和

当系统中只有一个无人机执行任务时，在时间步长t，处于状态s^t的无人机可以根据策略选择属于动作空间A的一个动作a^t，通过将区域划分成网格

A＝{left,right,forward,backward}

在多无人机数据收集系统下，两个无人机同属一个智能体，每个动作同时控制两个无人机的移动，例如a^t＝{forward,right}，表示第一个无人机向前(上)移动，同时第二个无人机向右移动。当用户在无人机的覆盖范围内时，无人机在环境中移动并开始从用户

中收集信息，然而当收集信息足够多时，即R_m,k≥r_min，该用户将被标记为已收集，即P(m,k)＝1，同时无人机可能不会再访问该用户。

在深度强化学习中，回报用于评估智能体在当前状态下采取的动作的好坏，在联合轨迹和数据收集优化中，设计的奖励功能既依赖于用户覆盖的比率，同时也跟无人机整条路径上所收集的奖励有关。优化目标是要最大化用户覆盖，同时无人机要在最短时间内从起点飞到终点。每步若多覆盖一个用户，平均吞吐量带来的奖励会越大。同时在单无人机场景下越快到达终点，不仅会获得较大的终点奖励R_final，而且R_sp带来的总的步数惩罚也会越少；对于多无人机，两个无人机都到达终点(不要求同时到达)获得奖励R_final，任何一个无人机多走一步，都会导致总的R_sp越多。当约束不满足时，设置一系列惩罚，即无人机飞出规定区域时惩罚为R_bp。因此回报表达式为：

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于多无人机辅助数据收集的路径规划方法，当用户的分布分散且可以在整个目标区域内自由移动，为了弥补单无人机在用户更分散的情况下覆盖不足的问题，使用多无人机实现了更多的用户覆盖并能够优化出一条到达终点的最短路径，从而实现最大化用户覆盖；还提出的基于深度强化学习的Dueling-DDQN算法，可以准确的估算神经网络输出值，做出准确的策略，规划无人机每步移动的动作，适用于其他不同的场景。

附图说明

图1为本发明的方法流程图；

图2为本发明的DQN(左)和Dueling-DDQN(右)中神经网络的结构图；

图3为不使用深度强化学习的方法轨迹图；

图4为使用深度强化学习的方法轨迹图；

图5为与图4相比在波形收敛后的对比图；

图6为使用Dueling-DDQN算法与常规算法的对比图；

图7为多无人机轨迹图；

图8为多无人机与单无人机每步均覆盖率对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于多无人机辅助数据收集的路径规划方法，包括以下步骤：

S1：目标在目标区域内被分为若干集群，用户坐标在集群中随机产生，集群中有若干用户，且用户随机运动但并不会超过区域边界；

和

其中β₀表示信道在参考距离d＝1m时的功率增益。

s.tR_final1＝X_target，

d_m,k≤d_cons，

R_m,k≥r_min，

P(m,k)＝{0,1},

0≤X(t)≤X_max,

0≤Y(t)≤Y_max,

距离约束d_cons表示被服务用户

s.tR_final1X_final＝X_target,

d_m,k≤d_cons，

R_m,k≥r_min，

P(m,k)＝{0,1},

0≤X(t)≤X_max,

0≤Y(t)≤Y_max。

其中

存储到经验缓冲区中，稍后随机访问以进行权重更新。

实施例2

如图2所示，本文提出基于强化学习的Dueling-DDQN算法计算最优轨迹，实现在最短时间内到达终点的同时最大化用户覆盖。不管是单无人机还是多无人机都是采用单一智能体通过不断地与环境交互来学习状态空间到动作空间的映射，并根据环境的反馈信息进行学习。无人机每走一步都会从环境中观测到当前状态s(t)，将状态s(t)输入到深度神经网络中获得相应动作a(t)，通过动作a(t)与环境进行交互，环境返给智能体当前的回报r(t)，以及新的状态s(t+1)。随后将上述过程得到的经(s(t),a(t),r(t),s(t+1))储存在经验缓冲区，进行深度神经网络的训练。

如图2，在神经网络中，V_π(s)和A_π(s,a)是在输出层和最后一个隐藏层之间，且V_π(s)和A_π(s,a)的维数与输出层相同。相比DQN，Dueling-DDQN有了很大的改善，不仅能减少过估计，也能加快收敛。

A＝{left,right,forward,backward}

在深度强化学习中，回报用于评估智能体在当前状态下采取的动作的好坏，在联合轨迹和数据收集优化中，设计的奖励功能既依赖于用户覆盖的比率，同时也跟无人机整条路径上所收集的奖励有关。优化目标是要最大化用户覆盖，同时无人机要在最短时间内从起点飞到终点。每步若多覆盖一个用户，平均吞吐量带来的奖励会越大。同时在单无人机场景下越快到达终点，不仅会获得较大的终点奖励Rfinal，而且Rsp带来的总的步数惩罚也会越少；对于多无人机，两个无人机都到达终点(不要求同时到达)获得奖励Rfinal，任何一个无人机多走一步，都会导致总的Rsp越多。当约束不满足时，设置一系列惩罚，即无人机飞出规定区域时惩罚为Rbp。因此回报表达式为：

实施例3

如图3～图8所示，本专利将以无人机每步均覆盖率

来衡量性能的好坏，Users_c表示每一幕覆盖的用户数量，Steps表示每一幕无人机飞行总步数。

由于步数惩罚的约束，Steps会在训练开始时很大，但是之后越来越小，直到以最少步数到达终点。而在开始训练时由于Steps较大，无人机飞行轨迹较长，每一幕覆盖的用户数量Users_c也会较大(Users_c最大为用户总数50，而无人机最大飞行总步数远大于50)，导致每步均覆盖率C较小，随着训练的进行，无人机将权衡轨迹以及用户的位置，在以越小飞行步数到达终点的同时，使得优化目标——平均吞吐量

越大，直到达到收敛以后优化出一条到达终点的最短路径，同时最大化用户覆盖。其中

表示当前无人机已覆盖用户的数量，当无人机到达终点时

等价于Users_c。

本文以50个用户为例，也就是每个集群随机产生10个用户，共5个集群。同时X_max＝1000和Y_max＝1000为该目标区域的长度和宽度。不论是单无人机还是多无人机场景时，每个无人机的起点设置为(0,0,200)，终点为(1000,10000,200)，无人机每一步移动距离为40。

当数据收集系统中只有一个无人机执行任务时，我们先与不使用深度强化学习的方法作了对比，以凸显强化学习的优势，图3为不使用深度强化学习的方法轨迹图，图4为使用深度强化学习的方法轨迹图。图4和图5实验结果表明当使用深度强化学习的方法时，在波形收敛以后无人机能在以最少步数到达终点的前提下覆盖更多用户，无人机每步均覆盖率更大，即

更大，因此效果更好。其次本文将Dueling-DDQN算法与传统DQN算法作了对比，如图6所示，使用Dueling-DDQN算法时，无人机每步均覆盖率

在训练时上升更快，且更快稳定，即无人机能更快找到到达终点的最短路径，同时更好的权衡无人机轨迹和用户位置，使得覆盖的用户数量最大化。因此我们得出结论，Dueling-DDQN算法性能更好，收敛更快。

最后在多无人机数据收集系统下，本文与图6同样使用Dueling-DDQN算法的单无人机场景作了对比，在训练收敛以后，无人机每步均覆盖率

的值接近1.0，即Users_c＝Steps＝50，由于无人机至少需要50步才能到达终点，因此相比单无人机，多无人机既能够优化出一条最短时间内到达终点的路径，同时可以覆盖更多用户，甚至能实现用户全覆盖，性能提升明显。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多无人机辅助数据收集的路径规划方法，其特征在于，包括以下步骤：

S1：在目标区域内用户被分为若干集群，用户坐标在集群中随机产生，集群中有若干用户，且用户随机运动但并不会超过区域边界；

2.根据权利要求1所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，在步骤S1中，在目标区域内，用户被分为M个集群，每个集群相当于半径为R的圆，用户的坐标在这些圆内随机生成，每个集群内有K个用户，时间步长t时第k个用户在第m个集群中的位置为

和

3.根据权利要求2所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，在步骤S2中，无人机和用户之间的通信通道由视线链接主导，时间步长t时，第m个集群中第k个用户到第一个无人机的距离为：

其中β₀表示信道在参考距离d＝1m时的功率增益。

4.根据权利要求3所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，在步骤S3中，当用户满足距离约束并处于无人机覆盖范围内时，第m个集群中的第k个用户在t时刻到无人机的实现吞吐量，定义如下：

5.根据权利要求4所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，在多无人机数据收集系统下，由于两个无人机都会受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束，通过优化两个无人机轨迹，实现用户覆盖最大化，得到目标问题如下

s.tR_final1＝X_target，

d_m,k≤d_cons，

R_m,k≥r_min，

P(m,k)＝{0,1},

0≤X(t)≤X_max,

0≤Y(t)≤Y_max,

距离约束d_cons表示被服务用户

与无人机的直线距离，X_now，X_now1，X_now2和X_target分别表示单无人机数据收集系统下无人机的目前位置、多无人机数据收集系统下两个无人机的目前位置以及重点位置；若无人机触碰边界，将受到边界惩罚R_bp＝-100，同时定义R_sp＝-1000为步数惩罚，无人机每多走一步都将会受到一个负奖励,无人机只能在规定的区域飞行，即0≤X(t)≤X_max和0≤Y(t)≤Y_max，其中X_max和Y_max为该区域的长度和宽度，X(t)，Y(t)分别表示无人机的当前位置的横坐标和纵坐标，在多无人机数据收集系统下只有两个无人机都到达终点才能获得终点奖励R_final2。

6.根据权利要求1所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，所述步骤S3中的Dueling-DDQN算法，其每一幕无人机从起点出发，到达目的地结束。

7.根据权利要求6所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，在训练阶段，每一幕开始之前先初始化无人机的起点位置和终点位置，以及随机初始化M*K个用户的位置；在每个时间步长t，无人机根据观测的状态信息s^t输出动作a(t)，即无人机的飞行方向，此时若用户处于无人机的覆盖范围以内，智能体将分别计算与每个用户通信的吞吐量，并一直累积到一步，直到R_m,k≥r_min，若无人机的下一个位置超出规定区域则取消该飞行动作；根据动作得到相应的回报r^t和下一时刻的状态信息s^t+1，将[s^t,a^t,r^t,s^t+1]储存在经验缓冲区buffer，在每一时刻结束时从经验缓冲区中随机采样N组经验进行网络参数的更新。

8.根据权利要求7所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，所述Dueling-DDQN算法是一种迭代求解贝尔曼方程的无模型强化学习算法，其状态动作价值函数为：

其中

9.根据权利要求8所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，所述Dueling-DDQN算法设置有带有参数θ^-的目标网络Q₂(s',a_max；θ^-)和带有参数θ的估计网络Q₁(s',a；θ)，其目标网络是估计网络的复制，目标网络的参数θ^-更新频率慢于估计网络。

10.根据权利要求9所述的一种基于多无人机辅助数据收集的路径规划方法，其特征在于，所述Dueling-DDQN算法也设置了经验缓冲区，当前状态-动作-奖励-下个状态[s^t,a^t,r^t,s^t+1]存储到经验缓冲区中，稍后随机访问以进行权重更新。