CN111399541B

CN111399541B - 无监督学习型神经网络的无人机全区域侦察路径规划方法

Info

Publication number: CN111399541B
Application number: CN202010234135.XA
Authority: CN
Inventors: 李波; 杨志鹏; 马浩; 万开方; 甘志刚; 越凯强
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2022-07-15
Anticipated expiration: 2040-03-30
Also published as: CN111399541A

Abstract

本发明提供了一种无监督学习型神经网络的无人机全区域侦察路径规划方法，通过迭代离线学习得到控制无人机机动的神经网络参数，使得无人机能够在自主规避威胁的前提下，尽可能快速的侦察整个区域。同时本发明得到的机动决策神经网络在不同的地形中具有良好的迁移性和通用性，为无人机在智能路径规划和自主机动决策方向提供了一种新的解决方法。本发明方法简便高效，有效减少无人机因环境信息改变而再规划或重规划的问题，有效节约训练时间成本。

Description

无监督学习型神经网络的无人机全区域侦察路径规划方法

技术领域

本发明涉及无人系统智能决策领域，尤其是一种无人机的路径规划方法。

背景技术

随着计算机处理速度的加快、自动化程度的提高、传感器体积的缩小等相关技术的进步，无人飞行器在地图测绘、目标搜索、电力巡检和森林火灾预防等方面的应用价值不断提升。针对无人机在执行侦察任务时需要自主避障等问题，为无人机赋予路径规划的能力是一项重要的功能要求，是实现无人系统自主决策执行复杂任务的前提。由于诸多原因，无人机自主飞行在智能决策领域仍然面临巨大的挑战。一方面，现有技术的局限性，使得无人机在穿越超高空等信号微弱区或屏蔽区时，容易发生通讯中断、失联等问题；另一方面，无人机在执行任务时，可能存在凸起的山峰、建筑物等实体障碍对无人机进行干扰，这些问题都严重威胁到了无人机的飞行安全。因此，控制无人机对上述威胁区域进行有效规避并安全高效地完成区域侦察任务，是无人系统在智能决策领域的一个重要问题。

现有的无人系统路径规划方法有很多。公开专利CN110244750A提出一种基于遗传算法的无人机巡视路径规划方法，通过计算树障点的坐标网格，对所述无人机巡检路径进行修正，有效规避了树障对无人机飞行路线的影响。该发明需要对已知环境做全局信息处理，无法处理动态环境下的无人系统自适应决策问题。公开专利 CN110470301A提出一种多动态任务目标点下的无人机路径规划方法，通过无监督的竞争型神经网络SOM求解访问顺序和访问点，实现在无人机访问的过程中动态地更新最优路径，持续保证决策的优越性。然而，该方法没有考虑到目标信息搜索的遗漏问题，即未对全局地图进行覆盖搜索，故该方法的稳定性、准确性亟需提高。

神经网络具有泛化能力、分布式表示、高性能并行计算、非线性函数拟合和学习能力强等特点，在无人机智能决策领域被广泛应用；遗传算法可以在复杂空间中提供稳健的搜索方法，它对有效搜索环境的信息的依赖程度很低。因此，设计一种无监督学习型神经网络的无人机全区域侦察路径规划方法，对于无人机自主机动决策的实现具有重要意义。

发明内容

为了克服现有技术的不足，本发明提供一种无监督学习型神经网络的无人机全区域侦察路径规划方法。本发明通过迭代离线学习得到控制无人机机动的神经网络参数，使得无人机能够在自主规避威胁的前提下，尽可能快速的侦察整个区域。同时本发明得到的机动决策神经网络在不同的地形中具有良好的迁移性和通用性，为无人机在智能路径规划和自主机动决策方向提供了一种新的解决方法。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建环境模型、无人机模型和环境威胁约束模型：

步骤1-1：根据全覆盖路径规划的任务要求，构建环境模型；

确定无人机飞行空间{(o_x,o_y,o_z)|0≤o_x≤X_max,0≤o_y≤Y_max,0≤o_z≤Z_max}，其中o_x、o_y、o_z分别表示无人机在x、y、z轴上的投影坐标，X_max、Y_max、Z_max分别表示无人机在x、y、z轴上的最大飞行距离；

利用栅格法对环境进行建模，假设待侦察的地图范围已知，设定栅格数目为 L×W/B²，其中L、W分别表示环境的最大长度和宽度，B表示栅格的长宽；

随机生成通讯信号屏蔽区和实体障碍物区作为总威胁区，覆盖至地图上；依次对地图上的每个栅格进行威胁判定：当该栅格所在的区域内威胁占比达到50％及以上时，则该栅格的所在区域全部判定为禁飞区；

步骤1-2：根据无人机机动性能，构建无人机模型；

假设无人机在侦察过程中没有复杂的空中机动，设定飞机迎角α≈0，此时sinα≈0， cosα≈1，计算无人机运动方程为：

其中，m表示无人机质量，V表示无人机合速度，T表示无人机运动时间。γ、θ、ψ 分别表示无人机滚动角、俯仰角、偏航角，P、Q、Y、G分别表示无人机的发动机推力、发动机阻力、升力、重力，R表示转弯半径；

计算无人机速度：

其中，V_x、V_y、V_z分别表示无人机在x、y、z轴方向的速度，x_d、y_d、z_d分别表示无人机在x、y、z轴方向的运动距离；设定飞机飞行高度恒定，俯仰角θ＝0；

设定无人机以最大过载转弯时做无侧滑匀速盘旋运动，此时加速度

得到：

设定无人机允许的最大过载为n_y，结合重力加速度g，计算出飞机最小转弯半径R_min为：

步骤1-3：构建环境威胁约束模型；

模拟随机位置产生信号屏蔽、恶劣大气、高空障碍物长方体区域作为环境威胁因素，设定环境威胁区域范围为：

其中Ω表示总威胁范围，U表示总威胁个数，Ω_u表示第u个环境威胁范围， x_u、y_u、z_u表示第u个环境威胁Ω_u在x、y、z轴上的坐标范围，x'_u、y'_u、z'_u表示第u个环境威胁在x、y、z轴上的初始坐标，

分别表示第u个环境威胁在x、y、z 轴上的威胁距离；

步骤2：构建无人机全覆盖路径规划评价；

步骤2-1：计算无人机有效侦察率；

用无人机的有效侦察率表示算法对无人机全区域侦察的有效性；模型模拟无人机在待侦察区域中进行高度为H的恒高飞行，分别计算除威胁区域外需侦察的总面积S_t和无人机侦察到的区域面积S_c，计算出无人机有效侦察率J_c为：

步骤2-2：计算无人机飞行距离；

用无人机飞行距离反映算法对无人机进行路径规划的优良性；分别计算无人机在第i个仿真步长内的飞行距离D_i，得到无人机飞行总距离D_t：

其中，N表示无人机完成全区域覆盖任务总共花费的仿真步长数目；

步骤2-3：计算无人机飞行路径高频重复率；

高频重复率是反映覆盖次数高于某一阈值的方格在总的已经覆盖方格数中所占的比例，其中覆盖次数为无人机在该方格停留的仿真步长数目；计算飞行路径高频重复率J_h为：

其中，S_h表示覆盖次数高于某一阈值的面积；

步骤3：构建无人机神经网络模型和神经网络无监督学习模型；

步骤3-1：根据步骤1构建的环境模型、无人机模型和环境威胁约束模型，设定无人机最大飞行速度为V_max，设定最大仿真步长为I；

步骤3-2：确定神经网络的输入；

设定雷达传感器个数为5，以无人机质心为中心，无人机机头方向为正前方，利用雷达传感器分别测量无人机正右方、机头偏右45°方向、正前方、机头偏左45°方向、正左方的威胁指数k₁、k₂、k₃、k₄、k₅；其中：

其中，k_j表示第j个雷达传感器测量的威胁指数，d_j表示第j个雷达传感器测量出无人机与威胁边界的距离值，d表示雷达传感器测量范围；

分别将j个雷达传感器信号末端位置所处方格的停留步长数r₁、r₂、r₃、r₄、r₅返回给无人机，记录无人机对周围方格的探索次数；

判断无人机是否进入威胁边界，计算无人机位置参数l₁：

设定神经网络的输入为：

ξ＝[k₁ k₂ k₃ k₄ k₅ r₁ r₂ r₃ r₄ r₅ l₁]

步骤3-3：设定神经网络的输出为O＝[F_L F_R]，其中F_L、F_R分别表示无人机的左、右引擎推力；选取Sigmoid函数(S函数)作为神经网络激励函数对无人机进行连续性控制，S函数的表达式为：

其中，y_s表示激励函数的输出，e为自然常数，a_s为神经网络的激励值，即S函数的自变量；其中，p＞0，表示曲线陡峭系数；

步骤3-4：设定隐藏层中的神经网络节点数为δ，遍历输入层、隐藏层、输出层的神经元，并依次记录各相连神经元之间所对应的权值向量ω_K，其中K表示向量序号，且各权值向量中的每个元素值ω∈[-1,1]，整理得到神经网络参数的浮点数编码χ：

χ＝[ω₁ ω₂…ω_2δ]

步骤3-5：计算无人机全区域覆盖适应度F：

其中，N为全区域覆盖任务总共花费的仿真步长数目，第i个仿真步长的适应度得分f为：

其中，x_i、y_i表示第i个仿真步长时无人机质心所在位置坐标，

表示第i个仿真步长时刻无人机左、右引擎推力；

计算无人机满足威胁约束集的奖励得分c₁为：

其中A为以(x_i,y_i)为圆心、最小半径R_min为半径的圆，表示无人机可飞区域，Ω为全部威胁区域；

计算无人机满足机动约束集的奖励得分c₂：

其中，R(F_Li,F_Ri)为该时刻的转弯半径；

计算飞行到全新区域的奖励得分c₃：

其中Ψ(x_i,y_i)表示点(x_i,y_i)所在栅格的无人机停留时间，b＞0，表示无人机初次侦察栅格奖励系数；

步骤4：训练模型；

初始化遗传算法演化次数n＝0，设定最大演化次数为N_max，基于构建的环境模型、无人机模型和环境威胁约束模型对神经网络进行训练，优化无人机神经网络无监督学习模型；

步骤4-1：对第n代群体E(n)中的个体按适应度得分从高到低进行排序；

步骤4-2：对种群中的个体进行挑选，即选取E(n)得分最高的前β名的个体记录为精英E_β～，其中，β表示精英数目；

步骤4-3：选择两点杂交方式，并对变异位的权值随机加上扰动值σ(σ∈(-0.5,0.5)) 实现变异操作，，得到变异后的群体E'(n+1)，对E'(n+1)中的个体按适应度得分从高到低进行排序；

步骤4-4：选取E'(n+1)得分最低的后β名的个体记录为E'_～β，得到精英选择后的群体：

E(n+1)＝E'(n+1)-E'_～β+E_β～

其中，E(n+1)表示经过变异、精英选择后的第n+1代群体；

当满足如下终止条件之一时，模型训练完成：

1)无人机完成全区域侦察任务或达到最大航程η；

2)遗传算法的演化次数n达到预定的最大演化次数N_max；

步骤5：测试模型；

基于步骤4训练完成的神经网络参数对模型进行验证，观察测试过程中无人机对复杂威胁区域的规避情况，记录无人机全区域侦察覆盖率的数据变化，比较不同覆盖率下的无人机飞行路径重复率和飞行路径高频重复率变化情况，评价算法的迁移能力。

本发明的有益效果在于：

(1)通过遗传算法使神经网络进行无监督学习，不需要人为指定无人机的机动规则，只需要通过打分函数对无人机的机动进行好坏判断，方法简便高效。

(2)针对某张复杂地图进行离线学习后得到的神经网络具有优良的迁移能力，能够在各种不同地图中进行使用，有效减少无人机因环境信息改变而再规划或重规划的问题。

(3)通过加载环境信息已知地图的离线学习结果，能够对环境信息未知地图的离线学习过程进行加速，有效节约训练时间成本，使得无人机完成全区域侦察任务更为安全高效，同时在无人机人机协同、目标追踪、自主避障等场景中有很好的应用前景。

附图说明

图1为无人机机载雷达探测示意图，其中，图1(a)为机载雷达探测威胁指数示意图，1、2、3、4、5为无人机雷达传感器测量到威胁边界的信号距离；图1(b)为无人机雷达传感器测量周围环境探索次数示意图，6、7、8、9、10为栅格地图中无人机雷达传感器信号末端指向的方格。

图2为神经网络下执行无监督学习流程图。

图3为无人机完成全区域侦察任务展示图。

图4为无人机全范围侦察离线学习与在线应用效果对比图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明采用了神经网络通过遗传算法的无监督训练方法来完成区域覆盖路径规划任务，主要包括：1.构建环境模型、无人机模型和环境威胁约束模型；2.设定威胁评估指标，对无人机在执行任务期间的飞行效率进行评估；3.构建神经网络模型，设定自适应函数，进而构建神经网络无监督学习模型；4.基于构建的全局模型，对神经网络进行训练；5.加载环境信息已知地图的离线学习结果，对环境信息未知的地图进行验证和在线应用。

具体地，对栅格数字地图和无人机运动模型等进行建模，利用神经网络的非线性能力、黑盒特点和自学习能力，通过遗传算法自适应函数使神经网络进行无监督学习，并对样本进行获取，最终实现无人机规划出有效路径完成全区域侦察任务。

本实施例实现了无人机完成全区域侦察的自主路径规划与飞行，主要包括：构建环境模型与无人机模型，构建无人机全覆盖路径规划评价算法，构建无人机神经网络模型和神经网络无监督学习模型、模型训练与测试。

步骤1：构建环境模型、无人机模型和环境威胁约束模型：

步骤1-1：根据全覆盖路径规划的任务要求，构建环境模型。

设定无人机飞行空间{(o_x,o_y,o_z)|0≤o_x≤X_max,0≤o_y≤Y_max,0≤o_z≤Z_max}，其中o_x、o_y、o_z表示无人机在x、y、z轴上的投影坐标，X_max、Y_max、Z_max表示无人机在x、y、 z轴上的最大飞行距离。

利用栅格法对环境进行建模。假设待侦察的区域范围已知，设定栅格数目为 L×W/B²，其中L、W分别表示环境的最大长度和宽度，B表示栅格的长宽。

随机生成通讯信号屏蔽区和实体障碍物区等作为总威胁区，覆盖至地图上。依次对地图上的每个栅格进行威胁判定：当该栅格所在的区域内威胁占比达到50％及以上时，则该栅格的所在区域全部判定为禁飞区。

步骤1-2：根据无人机机动性能，构建无人机模型。

本发明中的无人机在侦察过程中没有复杂的空中机动。设定飞机迎角α≈0，则sinα≈0，cosα≈1。计算无人机运动方程：

其中，m表示无人机质量，V表示无人机合速度，T表示无人机运动时间。γ、θ、ψ 分别表示无人机滚动角、俯仰角、偏航角。P、Q、Y、G表示无人机发动机推力、发动机阻力、升力、重力，R表示转弯半径。计算无人机速度：

其中，V_x、V_y、V_z分别表示无人机在x、y、z轴方向的速度，x_d、y_d、z_d分别表示无人机在x、y、z轴方向的运动距离。本发明中设定飞机在恒定高度飞行，有俯仰角θ＝0；令飞机做无侧滑匀速盘旋运动，有加速度

进一步得到：

设定飞机允许的最大过载为n_y，结合重力加速度g，计算出飞机最小转弯半径R_min：

本实施用例中，设定无人机最小转弯半径R_min＝1千米。

步骤1-3：构建环境威胁约束模型。

本实施用例中，设定无人机在待侦察区域中进行高度为H＝5000米的恒高飞行，模拟随机位置产生信号屏蔽、恶劣大气、高空障碍物矩形区域作为环境威胁因素，设定环境威胁区域范围为：

其中Ω表示总威胁范围，U表示总威胁个数，Ω_u表示第u个环境威胁范围。x_u、y_u、z_u表示第u个环境威胁Ω_u在x、y、z轴上的坐标范围，x'_u、y'_u和

分别表示第u个环境威胁在x、y轴上的初始坐标和威胁距离。本实施用例中，设定总威胁个数U＝10，随机生成威胁距离满足

步骤2：构建无人机全覆盖路径规划评价算法。

步骤2-1：计算无人机有效侦察率。

分别计算除威胁区域外需侦察的总面积S_t、无人机侦察到的区域面积S_c，计算无人机有效侦察率J_c：

步骤2-2：计算无人机飞行距离。

分别计算无人机在第i个仿真步长内的飞行距离D_i，计算无人机飞行总距离D_t：

其中，N表示无人机完成全区域覆盖任务总共花费的仿真步长数目。

步骤2-3：计算无人机飞行路径高频重复率。

计算飞行路径高频重复率J_h：

其中，S_h表示栅格地图中覆盖次数高于5的面积。

步骤3：构建无人机神经网络模型和神经网络无监督学习模型。

步骤3-1：考虑无人机过载、飞行性能等因素，设定无人机最大飞行速度 V_max＝200米/秒，设定最大仿真步长I＝8000。

步骤3-2：确定神经网络的输入。

设定雷达传感器个数为5。以无人机质心为中心，无人机机头方向为正前方，利用雷达传感器分别测量无人机正右方、机头偏右45°方向、正前方、机头偏左45°方向、正左方威胁指数k₁、k₂、k₃、k₄、k₅。其中：

其中，k_j表示第j个雷达传感器测量的威胁指数，d_j表示第j个雷达传感器测量出无人机与威胁边界的距离值，设定雷达传感器的测量范围d＝2.7千米。

分别将j个雷达传感器信号末端位置所处方格的停留步长数r₁、r₂、r₃、r₄、r₅返回给无人机，记录无人机对周围方格的探索次数。无人机机载雷达传感器环境探测示意图如图1所示。

判断无人机是否进入威胁边界，计算无人机位置参数l₁：

设定神经网络的输入为：

ξ＝[k₁ k₂ k₃ k₄ k₅ r₁ r₂ r₃ r₄ r₅ l₁]

步骤3-3：设定神经网络的输出为O＝[F_L F_R]，其中F_L、F_R分别表示无人机的左、右引擎推力。选取Sigmoid函数(S函数)作为神经网络激励函数对无人机进行连续性控制。S函数的表达式为：

其中，y_s表示激励函数的输出，e为自然常数，a_s为神经网络的激励值，即S函数的自变量，p表示曲线陡峭系数。

本实施用例中，设定自然常数e＝2.7183，S函数曲线陡峭系数p＝1。

步骤3-4：设定隐藏层中的神经网络节点数δ＝6。遍历输入层、隐藏层、输出层的神经元，并依次记录各相连神经元之间所对应的权值向量ω_K，其中K表示向量序号，且各权值向量中的每个元素值ω∈[-1,1]。整理得到神经网络参数的浮点数编码χ：

χ＝[ω₁ ω₂…ω_2δ]

步骤3-5：计算无人机全区域覆盖适应度F：

其中，N为全区域覆盖任务总共花费的仿真步长数目。第i个仿真步长的适应度得分f为：

表示第i个仿真步长时刻无人机左、右引擎推力。

计算无人机满足威胁约束集的奖励得分c₁：

其中A为以(x_i,y_i)为圆心、最小半径R_min为半径的圆，表示无人机可飞区域。Ω为全部威胁区域。

计算无人机满足机动约束集的奖励得分c₂：

其中，

为该时刻的转弯半径。

计算飞行到全新区域的奖励得分c₃：

其中Ψ(x_i,y_i)表示点(x_i,y_i)所在栅格的无人机停留时间。本实施用例中，设定初次侦察栅格奖励系数b＝2。

步骤4：训练模型。

初始化遗传算法演化次数n＝0，设定最大演化次数N_max＝8000，基于构建的环境模型、无人机模型和环境威胁约束模型对神经网络进行训练，优化无人机神经网络无监督学习模型。

步骤4-1：对第n代群体E(n)中的个体按适应度得分从高到低进行排序。

步骤4-2：对种群中的个体进行挑选，即选取E(n)得分最高的前β名的个体记录为精英E_β～。本实施用例中，设定精英数目β＝4。

步骤4-3：选择两点杂交方式，并对变异位的权值随机加上扰动值σ(σ∈(-0.5,0.5)) 实现变异操作，得到变异后的群体E'(n+1)。对E'(n+1)中的个体按适应度得分从高到低进行排序。

步骤4-4：选取E'(n+1)得分最低的后β名的个体记录为E'_～β，可以得到精英选择后的群体：

E(n+1)＝E'(n+1)-E'_～β+E_β～

其中，E(n+1)表示经过变异、精英选择后的第n+1代群体。

当满足如下终止条件之一时，模型训练完成：

无人机完成全区域侦察任务或达到最大航程η＝1000千米；

遗传算法的演化次数达到预设的最大演化次数N_max＝8000；

本发明中，无人机的无监督学习过程如图2所示。

步骤5：测试模型。

本发明利用构建的栅格地图对真实环境进行处理，并与无人机进行交互。然后对无人机任务进行设定，进而基于遗传算法模块根据无人机飞行评估结果优化神经网络权值，提供对无人机飞行控制的优化，确保无人机规避威胁并高效地完成任务。无人机执行全区域侦察任务如图4所示，其中地图与真实环境比例为：1像素＝0.1千米。从图中可看出，经过离线学习后的无人机能够自主规避威胁，完成全区域覆盖侦察任务。

此外，本发明分别将无人机离线学习训练好的神经网络加载到训练地图和未知地图中，并将其任务完成情况进行了比较，如图4所示。可看出，当无人机侦察覆盖率在 95％以下时，离线学习训练得到的神经网络权值在在线应用中有良好的表现，两者的路径重复率差值保持在2％以下。随着覆盖率的提升，地图的特殊性逐渐显现。虽然无人机在原训练地图中完成全区域侦察任务的路径重复率较高，但无人机借助离线学习的神经网络参数成功完成未知地图的全区域侦察任务，表明了基于无监督学习型神经网络的无人机全区域侦察路径规划算法能够应用于复杂未知的飞行场景中，具有优良的迁移性和通用性。

以上所述仅为本发明的优选实施方式，应该指出：本发明的实施方式并不局限于上述实施方法的限制；在不脱离本发明原理的前提下，其他的对本发明做出的删减、修饰、简化等修改方式的方案，都包含在本发明的保护范围之内。