CN111158401A

CN111158401A - 一种分布式鼓励时空数据探索的无人机路径规划系统及方法

Info

Publication number: CN111158401A
Application number: CN202010063977.3A
Authority: CN
Inventors: 刘驰; 赵一诺
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-05-15
Anticipated expiration: 2040-01-20
Also published as: CN111158401B

Abstract

一种分布式鼓励时空数据探索的无人机路径规划系统，包括：主更新节点和多个子计算节点；其中每个子计算节点对多个无人机进行计算；子计算节点，用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算，并将神经网络参数的梯度推送给主更新节点；还用于从主更新节获取网络参数，并基于网络参数进行无人机位置规划和动作规划；并将无人机位置规划和动作规划广播给计算节点对应的所有无人机；主更新节点，用于根据所有子计算节点推送的梯度更新网络参数，并发布给所有子节点；本发明的技术方案增加了计算效率，同时解决无人机充电问题。

Description

一种分布式鼓励时空数据探索的无人机路径规划系统及方法

技术领域

本发明涉及路径规划领域，具体讲涉及一种分布式鼓励时空数据探索的无人机路径规划系统及方法。

背景技术

无人驾驶飞机，简称无人机，其价值在于形成空中平台，替代人类完成空中作业。随着运动相机、激光雷达、夜视仪、变焦镜头等感知仪器在无人机上的成功部署，无人机技术日渐成熟，制造成本大幅降低，在各个领域得到了广泛的应用，如：智慧交通、灾害救助、军事协同作战、农业植保、地质勘探、环境监测、森林防火等。

例如，利用无人机巡航高度大、通讯距离长、拍摄视角全的特点，加强辖区重点路段、热点景区、特别时段交通流量的检测和研判，最大限度的发挥了现有警力资源的效能。再如，美国亚马逊公司启用了无人机，开启了无人机送快递到家的服务。减少了人力成本和货物的损坏，加快了送货的速度，实现了快递公司与客户的双赢。

但是，无人机的大规模部署受到两个技术瓶颈的制约：

第一，如何为无人机规划合理的路线。受限于城市中鳞次栉比的高楼以及复杂多变的路况，使用简单的最短路线往往无法满足无人机安全行驶的要求。无人机需要更高效、合理的路径规划算法，去支持其提供高质量的服务；

第二，如何保持无人机续航。市场上无人机的续航能力一般在20分钟至30分钟之间。如此低的续航能力无法支持其连续长期执行任务。

针对技术瓶颈一中的无人机的路径规划问题，传统的方法是先对目标点进行聚类，再使用各类搜索算法对无人机路径进行规划。这类做法存在两个问题：一是没有考虑到目标点分布的不均匀性，对于目标点集中的地点，无人机应该加强巡逻次数；二是在目标点数量巨大且分散的情况下，此类搜索算法的时间复杂度将非常高，在现实生活中将不再适用。随着人工智能技术的发展，研究者们开始使用深度强化学习方法来解决无人机路径规划问题。首先，将无人机路径规划问题分解为马尔可夫决策过程，再人为设计奖励函数，最后使用强化学习模型训练，得出一个无人机路径规划模型。相比于传统方法，此类算法对于复杂的场景具有更强的适应性与鲁棒性。但是仍存在两个问题：一是强化学习的训练需要产生大量的训练数据，进行成百万次的迭代才能训练出一个有效的模型，训练效率极低；二是奖励函数是基于目标点定的，而在现实生活中，面对巨大的巡逻空间，目标点之间可能非常分散，这种情况下，很多时候无人机可能大部分时间花费在目标点之间，没有得到奖励，这种情况下基于强化学习的训练方法可能会失效。针对技术瓶颈二种的无人机续航能力不足的问题，不论是传统的搜索方法还是基于神经网络的方法，都只把无人机的电量当作一次性的使用量，而没有考虑到无人机的自主充电问题。

发明内容

为解决上述问题，本发明提供了一种分布式鼓励时空数据探索的无人机路径规划系统及方法，引入了一个路径规划模块，在为无人机进行路径规划的同时，对无人机的充电问题进行决策。可以实现无人机在执行任务的同时，自主充电，减少了人力维护的成本，解决了无人机无法连续执行长期任务的缺点。而且，还引入了一个基于无人机位置信息的时空数据探索模块，以无人机的位置信息为依据，通过产生内在奖励，激励无人机前往少探索的目标点进行巡逻，从而解决巨大探索空间下目标点分布不均匀的问题。

一种分布式鼓励时空数据探索的无人机路径规划系统，包括：主更新节点和多个子计算节点；其中每个子计算节点对多个无人机进行计算；

所述子计算节点，用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算，并将所述神经网络参数的梯度推送给主更新节点；还用于从所述主更新节获取网络参数，并基于所述网络参数进行无人机位置规划和动作规划；并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机；

所述主更新节点，用于根据所有子计算节点推送的梯度更新网络参数，并发布给所有子节点；

其中，所述无人机以及巡检区域内设备的状态包括：巡检区域内障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量信息。

优选的，所述子计算节点包括：局部探索模块、局部路径规划模块、局部模拟环境和局部样本池；

所述局部样本池用于：存储无人机以及巡检区域内设备的状态、无人机位置规划和动作规划；

所述局部模拟环境用于，对巡检区域内的多种障碍物、随机分布的目标点、多个充电桩以及多个无人机位置进行模拟；

所述局部规划模块用于：根据神经网络中的网络参数以及所述局部环境模块中模拟的巡检区域内的障碍物、目标点、充电桩以及无人机的位置，对无人机提供路径规划策略，同时计算损失函数，并使用反向传播算法，计算网络参数的梯度，并将所述梯度传递给主更新节点，并存储于所述局部样本池中；

所述局部探索模块用于：根据所述局部样本池中的数据，基于神经网络算法计算损失函数，并使用反向传播算法，计算网络参数的梯度，并将所述梯度传递给主更新节点；

其中，所述路径规划是指为每一个无人机决定其下一步要到达的位置；所述动作规划，用于当无人机每次到达一个地点，要执行的动作；所述动作包括：巡逻或充电中的一种。

优选的，所述局部路径规划模块的神经网络包括状态特征提取网络、策略网络和值函数网络；

所述状态特征提取网络，用于基于局部样本池中的当前时刻无人机以及巡检区域内设备的状态进行特征提取与降维得到一维实向量的状态特征；

所述值函数网络，用于基于当前时刻无人机以及巡检区域内设备的状态特征到无人机巡逻结束对应的状态特征，对所述无人机获得的累积回报进行值估计，并基于值估计采用神经网络算法计算值函数网络的损失和代理目标，并使用反向传播算法，计算网络参数的梯度，并将所述梯度传递给主更新节点；

所述策略网络，用于基于当前时刻无人机以及巡检区域内设备的状态特征和所述值函数网络的损失和代理目标结合激励机制对无人机进行路径规划与动作规划。

优选的，所述值估计按下式计算：

A_t＝V_t-G_t

式中，G_t累计回报值；A_t：策略网络的更新基准；V_t：预估值。

优选的，所述值函数网络的损失，按下式计算：

式中，G_t为从当前t时刻开始，到巡逻T时刻结束，获得的奖励累积和；ν_t:由值函数网络得到的预估值；T：巡逻时刻。

优选的，所述代理目标按下式计算：

式中，a_t：t时刻无人机的动作；s_t：代表策略神经网络的输入；A_t：策略网络更新的基准；∈：取0.1。

优选的，所述局部探索模块的神经网络包括：位置特征映射网络和位置特征预测网络；

所述位置特征映射网络，用于将局部样本池中当前无人机位置映射为一个一维实向量的位置特征；

所述位置特征预测网络，根据无人机当前时刻的位置特征与动作规划，预测每个无人机下一个位置特征，并在无人机走完下一个位置之后，基于下一个位置特征的实际值和之前下一个位置的预测值计算损失函数，并使用反向传播算法计算位置特征预测网络的网络参数梯度，并将所述网络参数梯度传递给主更新节点；优选的，所述损失函数如下式所示：

式中：

第i个无人机在第t+1时刻的实际位置特征向量，

预测的第t+1时刻的位置特征；

在t+1时刻第i个无人机的位置；

优选的，所述激励机制包括内在奖励机制和外在奖励机制；

所述内在奖励机制由当前路径规划策略确定；

所述外在奖励机制用于，基于无人机收集的数据量和充电量确定；

优选的，所述内在奖励按下式计算：

式中，

为内在奖励，η为0.3；

第i个无人机在第t+1时刻的实际位置特征向量，

预测的第t+1时刻的位置特征；优选的，所述外在奖励按下式计算：

式中，Υ¹为针对无人机收集数据的外在奖励；Υ²：针对无人机的充电量给予的外在奖励。

优选的，所述主更新节点包括：全局路径规划模块和全局探索模块；

所述全局路径规划模块，用于根据所有子计算节点的局部路径规划模块的网络梯度更新全局路径规划模块的网络梯度，并基于更新后的全局路径规划模块的网络参数更新所有局部路径规划模块的网络参数；

所述全局探索模块，用于根据所有子计算节点的局部探索模块的网络梯度更新全局探索模块的网络梯度，并基于更新后的全局探索模块更新所有局部探索模块的网络参数。

一种分布式鼓励时空数据探索的无人机路径规划方法，包括：

子计算节点基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算，并将所述神经网络参数的梯度推送给主更新节点；

所述主更新节点，根据所有子计算节点推送的梯度更新网络参数，并发布给所有子节点；

所述子计算节点基于所述主更新节点获取网络参数，对子计算节点相关无人机位置规划和动作规划；并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机；

优选的，所述子计算节点基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算，并将所述神经网络参数的梯度推送给主更新节点，包括：

子计算节点的局部规划模块根据神经网络中的网络参数以及所述局部环境模块中模拟的巡检区域内的障碍物、目标点、充电桩以及无人机的位置对无人机提供路径规划策略，同时计算损失函数，并使用反向传播算法，计算网络参数的梯度，并将所述梯度传递给主更新节点，并存储于所述局部样本池中；

子计算节点的局部探索模块根据所述局部样本池中的无人机以及巡检区域内设备的状态、无人机位置规划和动作规划，基于神经网络算法计算损失函数，并使用反向传播算法，计算网络参数梯度，并将所述梯度传递给主更新节点。

优选的，所述子计算节点的局部探索模块根据所述局部样本池中的无人机以及巡检区域内设备的状态、无人机位置规划和动作规划，基于神经网络算法计算损失函数，并使用反向传播算法，计算网络参数梯度，并将所述梯度传递给主更新节点，包括：

所述局部探索模块中的位置特征映射网络将所述局部样本池中当前无人机位置映射为一个一维实向量的位置特征；

基于局部探索模块中的位置特征预测网络根据样本池中无人机当前位置特征与动作规划，预测每个无人机下一个位置特征，并在无人机走完下一个位置之后，基于下一个位置特征的实际值和之前预测的无人机下一个位置特征采用损失函数计算位置特征预测网络的损失；

所述位置特征预测网络使用反向传播算法对所述损失求偏导得到网络参数的梯度；

优选的，所述损失函数按下式计算：

式中：

第i个无人机在第t+1时刻的实际位置特征向量，

预测的第t+1时刻的位置特征；

在t+1时刻第i个无人机的位置；

优选的，所述子计算节点的局部规划模块根据神经网络中的网络参数以及所述局部环境模块中模拟的巡检区域内的多种障碍物、随机分布的目标点、多个充电桩以及多个无人机位置对无人机提供路径规划策略，包括：

所述局部路径规划模块的状态特征提取网络基于局部样本池中的当前时刻无人机以及巡检区域内设备的状态进行特征提取与降维得到一维实向量的状态特征；

所述局部路径规划模块的值函数网络基于当前时刻无人机以及巡检区域内设备的状态特征到无人机巡逻结束对应的状态特征，对所述无人机获得的累积回报进行值估计，并基于值估计计算值函数网络的损失和代理目标；

所述局部路径规划模块的策略网络基于当前时刻无人机以及巡检区域内设备的状态特征和所述值函数网络的损失和代理目标结合激励机制对无人机进行路径规划与动作规划；

优选的，所述激励机制包括内部奖励机制和外部奖励机制；

所述内在奖励机制由当前路径规划策略确定；

优选的，所述内在奖励按下式计算：

式中，

为内在奖励，η为0.3；

第i个无人机在第t+1时刻的实际位置特征向量，

预测的第t+1时刻的位置特征。

优选的，所述外在奖励按下式计算：

式中,Υ¹为针对无人机收集数据的外在奖励，每个无人机每累积收集5％的数据，就收到一个1的奖励。在其他训练时间，得到奖励为0。

与现有技术相比，本发明的有益效果为：

1、本发明提供了一种分布式鼓励时空数据探索的无人机路径规划系统，包括：主更新节点和多个子计算节点；其中每个子计算节点对多个无人机进行计算；所述子计算节点，用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算，并将所述神经网络参数的梯度推送给主更新节点；还用于从所述主更新节获取网络参数，并基于所述网络参数进行无人机位置规划和动作规划；并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机；所述主更新节点，用于根据所有子计算节点推送的梯度更新网络参数，并发布给所有子节点；其中，所述无人机以及巡检区域内设备的状态包括：巡检区域内障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量信息。本发明的子计算节点是分别同时计算梯度的，这样增加了计算效率。同时，主更新节点只负责参数更新，这样减少了主更新节点的计算压力。

2、本发明引入了一个路径规划模块，在为无人机进行路径规划的同时，对无人机的充电问题进行决策。

附图说明

图1为本发明的分布式鼓励时空数据探索的无人机路径规划系统示意图；

图2为本发明的面向多无人机路径规划的模型训练流程图；

图3为本发明的无人机自主充电的路径规划模块的训练流程图；

图4为本发明的基于无人机位置信息的时空数据探索模块训练流程图。

具体实施方式

实施例1：一种分布式鼓励时空数据探索的无人机路径规划系统，如图1所示，包括：主更新节点和多个子计算节点；其中每个子计算节点对多个无人机进行计算；

首先，针对深度模型训练效率低的问题，我们提出了一种分布式深度强化学习神经网络训练框架，提高了模型训练效率。该框架包含一个主更新节点和多个子计算节点。子计算节点的作用是计算路径规划模块和探索模块中的神经网络的参数模块的梯度，并推送至主更新节点。主更新节点的作用是根据计算的梯度，对路径规划模块和探索模块中的神经网络的参数进行更新。由于子计算节点是分别同时计算梯度的，这样增加了计算效率。同时，主更新节点只负责参数更新，这样减少了主更新节点的计算压力。

其次，在此框架下，引入了一个路径规划模块，在为无人机进行路径规划的同时，对无人机的充电问题进行决策。可以实现无人机在执行任务的同时，自主充电，减少了人力维护的成本，解决了无人机无法连续执行长期任务的缺点。最后，引入了一个基于无人机位置信息的时空数据探索模块，以无人机的位置信息为依据，通过产生内在奖励，激励无人机前往少探索的目标点进行巡逻，从而解决巨大探索空间下目标点分布不均匀的问题。

文本提出的方法由1个框架、2个模块组成。针对模型训练效率问题，将原来的集中式训练框架变为分布式训练框架，主更新节点只负责更新全局模型，子计算节点可以使用局部模型，分别收集训练数据并同时计算模型的梯度。在此训练框架之上，包含2个模块。分别是基于深度强化学习的路径规划模块，基于位置的探索模块。主要系统流程如下：

步骤1：部署主更新节点。主更新节点中包含全局探索模块和全局路径规划模块。

步骤2：分别部署多个子计算节点。每个子计算节点中包含局部探索模块、局部路径规划模块、局部模拟环境和局部样本池。局部模拟环境中有多障碍物、随机分布的目标点、多个充电桩以及N个无人机。局部样本池用于存储局部探索模块与局部模拟环境进行交互的样本结果。

步骤3：每个子计算节点中，局部路径规划模块为局部环境中的无人机提供路径规划策略，并将样本存储在局部样本池中。

步骤4：每个子计算节点中，局部路径规划模块和局部探索模块根据样本池计算模块梯度，并上传至主更新节点。

步骤5：主更新节点中，根据各个子节点上传的梯度，将各个参数的梯度分别进行加和或者取平均，更新全局路径规划模块和全局探索模块，并通知各个子计算节点。

步骤6：子计算节点中，局部探索模型从全局探索模型拷贝模型参数，局部路径规划模型从局部路径规划模型拷贝模型参数。

步骤7：判断训练是否结束。如果结束，则转至步骤3，继续训练模型；否则，转至步骤8。

步骤8：保存主更新节点中的全局路径规划模型。

步骤9：训练结束。

主更新节点中的全局路径规划模块和子计算节点中的局部路径规划模块结构相同，统称为路径规划模块。主更新节点中的全局探索模块和子计算节点中的局部探索模块结构相同，统称为探索模块。下面，对这两种模块做详细解释。

路径规划模块。路径规划模块的作用是为无人机提供路径规划与自主充电决策。路径规划是指为每一个无人机决定其下一步要到达的位置。自主充电决策，也称为动作决策，是指无人机每次到达一个地点，要执行的动作，是巡逻还是充电。路径规划模块中，包含以下3个子网络：

·状态特征提取网络，对输入的状态进行特征提取与降维。

·策略网络，提供无人机的路径规划与动作规划。

·值函数网络，对无人机获得的累积回报进行值估计。

路径规划模块中，把当前巡逻系统中的所有数据(障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量)按照一定组织形式放在一起，称为状态。状态特提取网络的输入是当前时刻的状态，输出是一个一维实向量，代表对输入的状态进行特征抽取以及压缩，我们称之为状态特征。

策略网络实际上为无人机提供两种策略，为每个无人机提供下一时刻的位置，我们称为路径规划。一种是为每个无人机提供下一时刻要执行的动作，是巡逻还是充电。我们认为，每个时间点，无人机会有充分的时间完成巡逻的任务或者是完成充电的任务。策略网络的输入是状态特征，输出是上述的两种策略。策略网络的更新是采用激励机制朝着奖励增大的方向更新。

激励机制包括内在奖励机制和外在奖励机制；内在奖励机制由当前路径规划策略确定；外在奖励机制用于，基于无人机收集的数据量和充电量确定。

值函数网络。值函数网络的存在是用于辅助策略网络的更新。值函数网络的输出是状态特征，输出是一个实数值，代表从当前时刻开始，到无人机巡逻结束，策略网络可以得到的回报累积和。值函数网络的目的是对此值提供更精确的预估。

探索模块。位置探索模块用于在模型训练的前期，最大化激励路径规划模块的探索能力。探索模块的具体作用是基于当前的路径规划，产生一个值，我们称之为内在奖励。内在奖励越大，说明当前路径规划策略是一个以前没有更新到的策略，内在奖励值越小，说明当前路径规划策略是一稳定的策略。具体来说，探索模块的输入是一维向量，由当前时刻t的第i个无人机的位置

以及下一时刻第i个无人机的位置

组成。探索模块的输出是产生的内在奖励值。具体来说，该模块由2个子网络组成：

位置特征映射网络，把输入的无人机位置映射为一个一维实向量。

位置特征预测网络，根据输入的当前位置特征与动作决策，预测每个无人机下一个位置的特征。并将预测误差作为内在奖励，作用于策略网络的更新。

本发明所述无人机路径规划系统，可以为无人机提供路径规划的同时，为无人机提供充电决策，实现了无人机在执行任务的同时可以自主充电，弥补了无人机续航能力差，无法连续执行长期监控任务的缺点。在具体的模型训练阶段，本发明引入了一种分布式的训练框架，取代了之前的集中式训练，不仅提高了训练的效率，还提高了模型的测试效果。

为了应对实际生活中无人机巡逻空间大，目标点分布复杂的场景，本文提出了一种基于位置的探索模块，能够在训练的前期，通过产生内在奖励，鼓励路径规划模块为无人机提供更具有探索性的路径，前往探索比较少的目标点，实现目标点更均匀的覆盖，以及更优的路径规划方案和更合理的充电策略。

实施例2：

结合图2，对本实例进行详细说明：

步骤101:系统初始化。

初始化训练迭代次数m＝0，总训练迭代次数M＝2500，无人机个数N。在总更新节点中，对多无人机路径规划模块(以下简称路径规划模块)和时空数据探索模块(以下简称探索模块)中的网络参数进行随机初始化。

步骤102：局部模块初始化。

在每个子计算节点中，局部路径规划模块和局部探索模块分别从全局路径规划模块和全局探索模块中拷贝网络参数。

步骤103:判断m<M。

具体的，如果m<M，则进入步骤104；否则，进入步骤112。

步骤104:m＝m+1。

步骤105：清空样本池。

在每个子计算节点中，清空该节点的样本池。

步骤106：路径规划模块采样。

首先，子计算节点将巡逻区域的信息(包括该区域内所有目标点的位置，障碍物的位置，充电桩的位置，所有无人机的位置、剩余电量)作为状态传递给局部路径规划模块。

在路径规划模块中，首先将状态输入到特征提取网络。该网络的输入是当前状态，输出是一个一维的实向量，称为状态特征向量。其次，将该状态特征向量输入策略网络π，得到N个二元方向向量

和N个动作决策

是指第i个无人机在x轴方向上行驶x个单位距离，在y轴方向上行驶y个单位距离。

代表了第i个无人机的动作决策，

代表充电，

代表正常巡逻。路径规划模块将规划的路径和动作决策广播给各个无人机。无人机按照命令前往各目标点进行巡逻或者充电。

步骤107：初始化k＝0，总更新次数K＝5。

步骤108：判断k＜k。

如果k＜k，进入步骤108；返回进入步骤103。

步骤109：更新探索模块参数。

此步的目的用于更新探索模块中的位置特征预测网络的参数，以及为局部路径规划模块的更新提供内在奖励。具体步骤详见图3及其流程解释。

步骤110：更新路径规划模块参数。

此步的目的用于更新路径规划模块中的状态特征提取网络、策略网络、值函数网络的参数。具体步骤详见图4及其流程解释。

步骤111：k＝k+1。

令计数值k＝k+1，并返回步骤108。

步骤112：训练结束

训练步骤结束，并将训练好的全局路径规划模块用于测试。

结合图4，对本文中一种考虑无人机自主充电的路径规划模块的训练流程做进一步详细说明。

步骤201：得到无人机实际位置特征

在子计算节点中，局部探索模块中的位置特征网络

将样本池中的实际当前位置

和实际下一步位置

映射为实际位置特征向量

和

步骤202：预测无人机下一步位置特征

在子计算节点中，局部探索模块中的位置特征预测网络f，根据当前实际位置特征

和当前实际决策

产生预测的下一步位置特征

步骤203：计算局部探索模块损失。

局部探索模块中的f，根据公式(1)计算局部探索模块的损失loss^f

步骤204：计算内在奖励。

局部探索模块中的f，根据公式(2)，为每一个样本计算一个内在奖励

式中

为内在奖励，η为0.3，

第i个无人机在第t+1时刻的实际位置特征向量，

预测的第t+1时刻的位置特征。当前路径规划策略是一个以前没有更新到的策略时，内在奖励越大，当前路径规划策略是一稳定的策略时，内在奖励值越小。

步骤205：计算局部探索模块梯度。

子计算节点中，使用反向传播算法，根据loss^f计算位置特征预测网络参数的梯度。并将梯度传递给主更新节点。

步骤206：更新全局探索模块参数。

主更新节点中，等待所有子计算节点上传梯度。将所有子计算节点上传的参数梯度对应相加，得到总梯度并更新全局探索模块中的位置特征预测网络的参数。通知各个子计算节点。

步骤207：更新局部探索模块参数。

在子计算节点中，局部探索模块拷贝全局探索模块的参数。

结合图3，对本文中的一个基于无人机位置信息的时空数据探索模块训练流程进行详细讲解。

步骤301：提取状态特征。

根据样本池的状态，传入状态特征提取网络，对特征进行降维，得到一维实向量。

步骤302：计算值函数网络损失。

首先，结合步骤204中产生的内在奖励和外在奖励，计算得到累积回报G_t。G_t为从当前t时刻开始，到巡逻T时刻结束，获得的奖励累积和。该值函数网络的目的是最小化预测损失，从而精确估计G_t，显然，让网络稳定后，loss^v应该收敛为0。该值函数网络的另一个作用是为策略网络的更新提供一个基准A_t，我们称之为优势，代表了当前策略比平均策略要多获得多少累积奖励：A_t＝V_t-G_t。

之后，根据步骤301中产生的状态特征，使用值函数网络计算出预估值V_t。根据公式(3)，计算值函数网络的损失

步骤303：计算策略网络代理目标。

首先，策略网络根据步骤302中提供的G_t和V_t计算策略优势A_t＝V_t-G_t。之后，根据公式(4)，计算代理目标J

该策略网络的更新方向是最小化该代理目标。显然，当策略稳定时，当前策略与平均策略的估计值应该相同，也就是说J最终应该收敛为0。

该策略网络的更新方向是最小化该代理目标。显然，当策略稳定时，当前策略与平均策略的估计值应该相同，也就是说J最终应该收敛为0。其中，π指代策略神经网络，π_old指代上一次迭代得到的策略神经网络。a_t为t时刻无人机的动作，s_t代表策略神经网络的输入，也就是当前环境中的所有信息。Clip函数为一种截断函数，把比值

限制在

之间，如果比值小于

则返回

如果比值大于

则返回

取0.1，

期望。

步骤304：计算局部路径规划模块梯度。

在子计算节点中，根据步骤302中的损失和步骤303中的代理目标，使用反向传播算法，计算局部路径规划模块中状态特征提取网络、值函数网络、策略网络的网络梯度。并将网络梯度传递给主更新节点。

步骤305：更新全局路径规划模块梯度。

主更新节点中，等待所有子计算节点上传梯度。将所有子计算节点上传的参数梯度对应相加，得到总梯度并更新全局路径规划模块中的状态特征提取网络、策略网络、值函数网络参数。通知各个子计算节点。

步骤306：更新局部路径规划模块参数。

在子计算节点中，局部路径规划模块拷贝全局路径规划模块的参数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。