CN114924587A

CN114924587A - 一种无人机路径规划方法

Info

Publication number: CN114924587A
Application number: CN202210593292.9A
Authority: CN
Inventors: 王�琦; 孔富晨; 王栋; 高尚; 于化龙; 崔弘杨
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-08-19
Anticipated expiration: 2042-05-27
Also published as: CN114924587B

Abstract

本发明公开了一种无人机路径规划方法，获取智能体当前位置信息、下一任务点位置信息，通过深度Q网络方法获取第一动作；通过人工势场法选择下降最快的方向上的动作记为第二动作；计算第一动作与第二动作之间的夹角，当夹角小于动作角度阀值时，将第一动作作为最终动作；当夹角大于等于动作角度阀值时，将第二动作作为最终动作；执行最终动作，更新智能体的位置信息；循环执行，当前一次行进路径的长度与当前行进路径长度差值小于阈值时，则当前路径为最佳路径。本发明在人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值，能解决人工势场法搜索路径可能陷入局部最优的问题，同时减少深度Q网络的试错频率，增加算法鲁棒性。

Description

一种无人机路径规划方法

技术领域

本发明涉及无人机技术领域，具体涉及一种无人机路径规划方法。

背景技术

无人机因其小巧、便捷、灵活等诸多优点在娱乐、医药、采矿、救援、教育、军事、航空航天、农业检测、电力巡检等诸多科研领域得到了广泛的应用，在加速科技发展，改善生活水平上的作用至关重要。然而多数无人机所能搭载的能源十分有限，导致无人机的续航时间不能充分满足任务的需要，对无人机的活动范围有很大影响，极大的限制了无人机的使用。为适应任务需要并在能量约束条件下提升无人机完成作业要求的能力，需要对无人机的飞行路径进行规划。

无人机高效完成作业任务的重要前提之一是规划合理的最优移动路径，无人机路径规划是指为了保证无人机完成特定的飞行任务，并且在完成任务的过程中根据无人机自身的能量限制与实际任务需求，躲避障碍、威胁区域而设计出最优航迹路线的过程。现有的路径规划算法可分为三大类，第一类为根据预先载入的环境信息，应用传统图论与其他一些知识解决问题的经典算法，包括概率路图法(PRM)、快速搜索随机树(RRT)、A-star算法、人工势场法(APF)等算法。第二类为模拟某种形式的人的推理、知识和专业知识以解决一个(或多个)给定问题的智能算法，包括遗传算法、粒子群算法、蚁群算法、模拟退火算法等。第三类为机器学习算法，路径规划上最常用的机器学习方法之一为强化学习，包括根据现有的专家策略训练智能体的模仿学习算法、深度Q网络(DQN)，深度确定性策略梯度(DDPG)与等算法。

人工势场法(Artifical Potential Field,APF)是解决路径规划问题的常用方法之一。人工势场法假设智能体在空间中受到虚拟力场的作用，目标点对无人机会产生引力，引导智能体前进，障碍物会对智能体产生斥力，使智能体能够避开障碍物。这种方法易于表达和实现，易于与其他算法结合，然而当目标点附近存在一个或多个障碍物时，会产生目标点不可达的问题。

强化学习作为机器学习的一个重要领域，讨论的是智能体如何在一个不确定的环境中去极大化它能获得的回报或者实现特定的目标。深度Q网络是强化学习解决路径规划问题的常用方法之一，当状态空间和可选动作数量庞大或者连续时，起到将状态空间映射到动作空间作用的Q表也会十分复杂，深度Q网络使用神经网络简化了这一映射过程。虽然状态空间到动作空间的映射通过神经网络得到了简化，但是深度Q网络仍然需要通过智能体的不断试错不断与环境交互来逐渐收敛到理想的结果，这将需要花费一定的时间成本，消耗较多的计算资源。

模仿学习是强化学习一个重要的分支领域，也是解决路径规划问题的常用方法之一。不同于深度Q网络，模仿学习中智能体需要从提供的人类专家的决策数据中进行学习，通过训练使模型生成的分布与人类专家决策生成的分布相匹配。然而这种方法需要在模型训练之前收集大量的专家决策数据，并且由于强化学习是序列决策的过程，模型策略与人类专家策略的误差会在轨迹搜索的过程中不断累积，导致最终结果无法满足要求。

发明内容

本发明提供了一种无人机路径规划方法，以解决现有技术中采用深度DQN网络进行路径规划时效率不够高的问题。

本发明提供了一种无人机路径规划方法，具体步骤如下：

步骤1：获取无人机的待进行路径规划环境的信息，对环境信息进行预处理；

步骤2：预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区；

步骤3：获取智能体当前位置信息、下一任务点位置信息，通过深度Q网络方法获取第一动作；通过人工势场法选择下降最快的方向上的动作记为第二动作；

步骤4：计算第一动作与第二动作之间的夹角，当夹角小于动作角度阀值时，将第一动作作为最终动作；当夹角大于等于动作角度阀值时，将第二动作作为最终动作；

步骤5：执行最终动作，更新智能体的位置信息；将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作；

将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区；

步骤6：当经验重放缓冲区更新若干数据时，将经验重放缓冲区的数据作为训练集对深度Q网络进行更新；

步骤7：循环执行步骤3至步骤6直至智能体所有行进任务完成，记录行进路径；

步骤8：循环执行步骤3至步骤7，当前一次行进路径的长度与当前行进路径长度差值小于阈值时，则认为智能体完成训练，当前路径为最佳路径。

进一步地，所述动作角度阀值的选取范围为45°至90°。

进一步地，所述深度Q网络包括两个输出层，分别输出动作对应的Q值、动作分布。

进一步地，所述通过训练集对深度Q网络进行更新的具体方法为：

步骤61：将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值；将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值，计算第一Q值与第二Q值的均方误差；

步骤62：将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布，计算动作分布与第二动作的交叉熵损失；

步骤63：计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数，并根据获取的损失函数对深度Q网络进行更新。

进一步地，所述奖励函数的公式为：

其中，d_s-1与d_s是智能体前一个位置和当前位置与终点之间的距离，ob_i是智能体当前位置与第i个障碍物之间的距离，battery为当前智能体电池的电量，α、β、δ为用于平衡重要性的参数，f_i∈{0,1}为当前执行任务的标志，当第i个子任务被激活时f_i＝1，当第i个子任务待激活或者执行完毕时f_i＝0。

本发明的有益效果：

1、人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值，能解决人工势场法搜索路径可能陷入局部最优的问题，同时也能减少深度Q网络智能体搜索路径时的试错频率，增加算法的鲁棒性。

2、采用了具有两种输出的神经网络结构，其中该网络输出的动作分布能提高Q值收敛的速度，对Q值的更新起到了辅助作用。

3、将网络输出Q值的均方误差损失与动作分布的交叉熵损失的加权和作为最终损失，提高了网络的更新效率。

4、本发明所采用的奖励函数将智能体的历史位置、当前位置以及与障碍物的距离以及智能体当前的电量信息都考虑进去了，且能够适应环境中存在多任务点的情况，避免针对不同任务点重复设计奖励函数的情况。

5、将人工势场法作为行为克隆算法的专家策略，避免了人为手动去设计或者去收集专家策略。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明所使用的多任务点网格环境模型；

图2为本发明中通过人工势场法确定智能体可选动作示意图；

图3为本发明采用的改进的神经网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-3所示，本发明具体实施例提供了一种无人机路径规划方法，包括如下步骤：

步骤1：获取无人机的待进行路径规划环境的信息，对环境信息进行预处理，具体包括：

步骤11：获取无人机的待进行路径规划环境的信息，建立如图一的30x30的栅格化环境；

步骤12：从环境中提取出起点、障碍物、各个任务点的位置信息并以坐标的形式进行存储。

步骤2：预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区，具体包括：

步骤21：设置奖励函数的折扣率γ＝0.9、奖励函数的参数α＝1、β＝1.5、δ＝3、动作角度阈值为90°、经验回放缓冲区N＝10000、ε-贪心算法的ε＝0.99，每次从经验回放缓冲区采样的批次大小为batch_size＝16；

步骤22：初始化人工势场法的引力参数与斥力参数；

步骤23：初始化深度Q网络的目标网络与策略网络的权重；

步骤3：获取智能体当前位置信息、下一任务点位置信息，通过深度Q网络方法获取第一动作；通过人工势场法选择势场下降最快的方向上的动作记为第二动作，具体包括：

步骤31：获取智能体当前位置信息、下一任务点位置信息；

步骤32：将智能体当前位置信息输入深度Q网络的策略网络中，选择使Q值最大的动作作为第一动作；

步骤33：将智能体当前位置信息与下一任务点位置信息输入人工势场法中，选择使势场下降最快的动作作为第二动作；

步骤4：计算第一动作与第二动作之间的夹角，如图2所示，当夹角小于动作角度阀值时，将第一动作作为最终动作；当夹角大于等于动作角度阀值时，将第二动作作为最终动作；

步骤5：执行最终动作，更新智能体的位置信息；将当前智能体的位置信息通过人工势场法选择势场下降最快的方向上的动作记为第三动作，具体包括：

步骤51：执行最终动作，更新智能体位置信息；

步骤52：智能体根据当前状态与奖励函数获得相应奖励；

步骤53：将当前智能体的位置信息与下一任务点位置信息输入人工势场法，选择使势场下降最快的方向上的动作记为第三动作。

步骤54：将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前状态的奖励值存入经验重放缓冲区；

步骤6：当经验重放缓冲区更新若干数据时，将经验重放缓冲区的数据作为训练集对深度Q网络进行更新，具体包括：

步骤61：从经验回放缓冲区中采样一个batch_size批次大小的数据；

步骤62：将采样得到的前一次智能体的位置信息输入策略网络中，得到策略网络输出动作对应的第一组Q值以及第一组动作分布，并根据这组动作分布确定第一组动作；

步骤63：将采样得到的前智能体的位置信息输入到目标网络中，得到目标网络输出动作对应的第二组Q值以及第二组动作分布，并根据这组动作分布确定第二组动作；

步骤64：判断第二组每个批次动作与采样得到的对应的每个批次第三动作之间的夹角是否小于阈值，若是则选取第二组每个批次动作对应的Q值，否则选取每个批次第三动作对应的Q值；

步骤65：根据步骤64中选择的Q值通过公式计算出目标Q值；

步骤66：选取第一组Q值中每个批次最大的Q值，计算其与对应目标Q值之间的均方误差；

步骤67：判断第一组每个批次动作与采样得到的对应的每个批次第二动作之间的夹角是否小于阈值，若是则选取第一组每个批次动作作为目标动作，否则选取每个批次第二动作为目标动作；

步骤68：计算第一组动作分布与目标动作之间的交叉熵；

步骤69：将步骤66得到的均方误差与步骤68得到的交叉熵计算加权和作为最终损失，并使用梯度下降与反向传播对网络进行更新。

步骤8：循环执行步骤3至步骤7，当前一次行进路径的长度与当前行进路径长度差值小于阈值时，也就是两个路径的差距不大，路径规划已经完成时，则认为智能体完成训练，当前路径为最佳路径。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种无人机路径规划方法，其特征在于，包括如下步骤：

2.如权利要求1所述的无人机路径规划方法，其特征在于，所述动作角度阀值的选取范围为45°至90°。

3.如权利要求1所述的无人机路径规划方法，其特征在于，所述深度Q网络包括两个输出层，分别输出动作对应的Q值、动作分布。

4.如权利要求1或3所述的无人机路径规划方法，其特征在于，所述通过训练集对深度Q网络进行更新的具体方法为：

5.如权利要求1所述的无人机路径规划方法，其特征在于，所述奖励函数的公式为：

其中，d_s-1与d_s是智能体前一个位置和当前位置与终点之间的距离，ob_i是智能体当前位置与第i个障碍物之间的距离，battery为当前智能体电池的电量，α、β、δ为用于平衡重要性的参数，f_i∈{0，1}为当前执行任务的标志，当第i个子任务被激活时f_i＝1，当第i个子任务待激活或者执行完毕时f_i＝0。