CN113886953B

CN113886953B - 基于分布式强化学习的无人机智能仿真训练方法及装置

Info

Publication number: CN113886953B
Application number: CN202111136487.2A
Authority: CN
Inventors: 徐新海; 李翔; 张拥军; 李渊; 刘逊韵
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-07-19
Anticipated expiration: 2041-09-27
Also published as: CN113886953A

Abstract

本发明提供一种基于分布式强化学习的无人机智能仿真训练方法及装置，方法包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；在所述无人机智能仿真训练框架下，对无人机智能体进行仿真训练。本发明提供了一种多学习者与多行动者相结合的分布式训练框架，在这种分布式训练框架下，所有计算节点都无需相互等待，从而使得计算资源能够最大限度地被调度起来，大大提升了无人机仿真智能训练效率。

Description

基于分布式强化学习的无人机智能仿真训练方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于分布式强化学习的无人机智能仿真训练方法及装置。

背景技术

随着无人机在各领域的应用场景不断增多，提高无人机的自主化、智能化水平的迫切需求日益明显。为提升无人机自主飞行的智能水平，使用计算机仿真技术为其搭建智能博弈仿真平台是一个重要途径。智能博弈仿真指在某个对抗博弈仿真系统中，智能算法通过运用规则脚本、行为决策树、遗传算法、强化学习等手段，控制仿真系统中的仿真实体与环境进行交互，并在仿真博弈对抗活动中对其决策行为的智能化程度进行测试。

目前，业界采用基于分布式强化学习的训练框架对智能博弈仿真系统进行训练，其构成要素主要包括行动者、学习者与样本重放缓存，行动者负责代理与环境进行交互并收集经验样本数据，学习者则负责对样本数据进行学习并更新强化学习模型。

然而，现有的分布式强化学习训练框架采用的是基于同步梯度平均的参数更新策略。在这种策略下，需要等待所有学习者都完成神经网络模型梯度计算才能开始执行模型更新，因此模型学习的效率将受制于最慢学习者节点。对于无人机智能仿真等复杂问题来说，这将大大限制训练效率的提升。

发明内容

由于现有方法存在上述问题，本发明提供一种基于分布式强化学习的无人机智能仿真训练方法及装置。

本发明提供一种基于分布式强化学习的无人机智能仿真训练方法，包括：

构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；

在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：

步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；

步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；

步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；

步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；

步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

可选的，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。

可选的，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度，包括：

根据下面第一模型，确定各普通学习者的所述强化学习神经网络模型当前梯度；其中，所述第一模型为：

其中，

为第i个普通学习者所述强化学习神经网络模型当前梯度，f为强化学习神经网络函数，d为无人机仿真经验样本数据，w_t为第i个普通学习者从参数服务器获取的强化学习神经网络模型的最新模型参数。

可选的，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，包括：

根据下面第二模型，对当前接收的普通学习者节点发送的强化学习神经网络模型梯度进行滞后补偿，得到补偿后的强化学习神经网络模型梯度；其中，所述第二模型为：

其中，

为补偿后的强化学习神经网络模型梯度，

为当前接收的强化学习神经网络模型梯度，w_t为所述强化学习神经网络模型的最新模型参数，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

本发明还提供一种基于分布式强化学习的无人机智能仿真训练装置，包括：

第一处理模块，用于构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；

第二处理模块，用于在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：

普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；

普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；

普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；

行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；

当训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

可选的，所述第二处理模块，具体用于：

其中，

为补偿后的强化学习神经网络模型梯度，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于分布式强化学习的无人机智能仿真训练方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于分布式强化学习的无人机智能仿真训练方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于分布式强化学习的无人机智能仿真训练方法的步骤。

本发明提供的基于分布式强化学习的无人机智能仿真训练方法及装置，首先构建一个基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2。然后根据构建好的无人机智能仿真训练框架进行无人机智能仿真训练。其中，训练步骤包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。由此可见，本发明提供了一种基于异步梯度补偿分布式强化学习的无人机智能仿真训练框架，其支持多个行动者节点与多个基于异步更新的学习者节点的结合，在这种分布式框架下，所有计算节点都无需相互等待，使得计算资源能够最大限度地被调度起来，大大提升了无人机仿真智能训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之一；

图2是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之二；

图3是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之三；

图4是本发明提供的基于分布式强化学习的无人机智能仿真训练装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

需要说明的是，业界现有分布式强化学习框架普遍采用行动者与学习者相分离的架构，其构成要素主要包括行动者、学习者与样本重放缓存，行动者与学习者是分布式集群中具有不同职责的计算节点。其中，行动者负责代理与环境进行交互并收集经验样本数据，学习者则负责对样本数据进行学习并更新强化学习模型。一般地，为提升样本采集效率，一个分布式强化学习训练架构中有多个异步行动者和一个中心学习者。为支持代理与环境的高效交互，每个行动者拥有一个仿真环境以及代理模型的本地副本。在仿真运行过程中，行动者使用本地模型副本来与环境进行交互产生样本数据，并发送到重放缓存或直接发送给学习者节点。行动者的运算是异步执行的，即无需相互等待。中心学习者节点持有代理神经网络模型的最新参数版本，在训练过程中定期从重放缓存或行动者处获取样本数据，对模型进行更新，并定期将模型的最新参数给所有行动者节点。

图1是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之一，图2是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之二，图3是本发明提供的基于分布式强化学习的无人机智能仿真训练方法的流程示意图之三。

下面结合图1至图3对本发明提供的基于分布式强化学习的无人机智能仿真训练方法进行具体说明。

如图1所示，本发明提供的基于分布式强化学习的无人机智能仿真训练方法，包括：

步骤101：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；

在本步骤中，本发明提供了一种基于强化学习的无人机智能仿真训练框架，其包括三类计算节点，除了现有的多个学习者节点与多个行动者节点，还包括一个参数服务器学习者节点，负责保存最新的强化学习神经网络模型参数。

步骤102：在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：

行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；

重复执行上述操作，当训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

在本步骤中，用f表示神经网络函数，w_t表示t时刻的神经网络模型参数，η表示学习率，λ_t表示t时刻的方差控制参数，用

代表向量x与y逐维依次相乘操作，对无人机智能仿真训练过程进行具体说明：

1、首先启动N个无人机博弈仿真系统，作为无人机智能算法训练的培育环境。

2、然后创建1个无人机仿真经验样本缓存(重放缓存)，根据无人机博弈仿真环境需求，设置样本缓存的数据格式。样本缓存的每条记录需包括无人机仿真环境的第一状态、决策动作和无人机仿真在所述第一状态下执行所述决策动作所得到的奖励值和第二状态。

3、编写无人机仿真经验样本缓存的数据插入与数据抽取接口API。

4、创建N个普通学习者节点，其中节点i首先执行模型参数的初始化，随后持续无等待(异步)地循环执行下述流程：

(1)从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据；

(2)向参数服务器学习者节点发出最新模型参数请求，获取最新模型参数w_t；

(3)基于经验样本数据d与最新模型参数w_t，通过反向传播和梯度下降算法，计算深度强化学习模型当前梯度：

(4)将计算得到的梯度

发送至参数服务器学习者节点。

5、创建1个参数服务器学习者节点。该节点首先执行模型参数的初始化，随后持续监听来自普通学习者的消息，如果接收到来自普通学习者i的参数获取请求，则将当前最新神经网络模型参数w_t发送给普通学习者节点i，并记录该参数为

若接收到来自普通学习者i的梯度

则使用先前记录的

对该梯度进行滞后补偿。

神经网络模型参数更新：

需要说明的是，在使用异步梯度更新策略时，部分学习者对某一时刻的模型参数进行梯度计算时，某些其他学习者可能已完成了梯度计算并对模型参数进行了更新，此时便出现了梯度滞后现象。为解决梯度滞后问题，本发明在分布式强化学习框架中引入了异步学习者梯度滞后补偿技术，使用该技术后，异步学习者能够与串行执行的单学习者具有相同的收敛特性。

6、创建M个行动者节点，每个节点对应一个无人机智能仿真环境。其中节点j在创建并初始化本地的代理及环境后，以一定频率从参数服务器学习者节点获取最新模型参数w_t，并使用模型参数为w_t的代理算法控制仿真无人机，在无人机智能仿真环境进行交互，反复积累无人机交互过程产生的样本数据

每条样本数据记录严格参照样本缓存数据格式发送至重放缓存中进行存储，以供普通学习者使用。

7、当满足某种训练停机条件时(例如在训练时间足够长或无人机控制算法在仿真环境中体现出的智能化水平已不再提升时)，保存算法模型，并将启动的所有节点计算进程停机。最后，关闭启动的无人机仿真环境。

本发明提供的基于分布式强化学习的无人机智能仿真训练方法，首先构建一个基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2。然后根据构建好的无人机智能仿真训练框架进行无人机智能仿真训练。其中，训练步骤包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。由此可见，本发明提供了一种基于异步梯度补偿分布式强化学习的无人机智能仿真训练框架，其支持多个行动者节点与多个基于异步更新的学习者节点的结合，在这种分布式框架下，所有计算节点都无需相互等待，使得计算资源能够最大限度地被调度起来，大大提升了无人机仿真智能训练效率。

基于上述实施例的内容，在本实施例中，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。

基于上述实施例的内容，在本实施例中，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度，包括：

其中，

基于上述实施例的内容，在本实施例中，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，包括：

其中，

为补偿后的强化学习神经网络模型梯度，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

下面对本发明提供的基于分布式强化学习的无人机智能仿真训练装置进行描述，下文描述的无人机智能仿真训练装置与上文描述的无人机智能仿真训练方法可相互对应参照。

如图4所示，本发明提供的一种基于分布式强化学习的无人机智能仿真训练装置，包括：

第一处理模块1，用于构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；

第二处理模块2，用于在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：

基于上述实施例的内容，在本实施例中，所述第二处理模块，具体用于：

其中，

为补偿后的强化学习神经网络模型梯度，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)503、存储器(memory)502和通信总线504，其中，处理器501，通信接口503，存储器502通过通信总线504完成相互间的通信。处理器501可以调用存储器502中的逻辑指令，以执行基于分布式强化学习的无人机智能仿真训练方法，该方法包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

此外，上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于分布式强化学习的无人机智能仿真训练方法，该方法包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于分布式强化学习的无人机智能仿真训练方法，该方法包括：构建基于强化学习的无人机智能仿真训练框架；所述无人机智能仿真训练框架包括：N个普通学习者节点、M个行动者节点和一个参数服务器学习者节点，N≥2，M≥2；在所述无人机智能仿真训练框架下，无人机智能体基于以下步骤进行仿真训练，包括：步骤1，普通学习者节点从重放缓存中随机或以预设优先级策略抽取无人机仿真经验样本数据，以及，向参数服务器学习者节点发送最新模型参数请求，以获取所述强化学习神经网络模型的最新模型参数；步骤2，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度；步骤3，普通学习者节点将计算得到的强化学习神经网络模型当前梯度发送至参数服务器学习者节点，以使所述参数服务器学习者节点在接收到所述强化学习神经网络模型当前梯度后，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，并根据补偿后的强化学习神经网络模型梯度对强化学习神经网络模型的模型参数进行更新；步骤4，行动者节点以预设频率从所述参数服务器学习者节点获取所述强化学习神经网络模型最新的模型参数，以使根据最新的模型参数对应的代理算法控制仿真无人机在无人机智能仿真环境中进行交互，积累无人机仿真经验样本数据，并将所述无人机仿真经验样本数据发送至所述重放缓存中进行存储；步骤5，重复上述步骤1至步骤4，直至训练时间满足预设标准或无人机控制算法在仿真环境中体现出的智能化水平不再提升时，无人机智能仿真训练结束。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于分布式强化学习的无人机智能仿真训练方法，其特征在于，包括：

2.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。

3.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，普通学习者节点根据所述无人机仿真经验样本数据和所述强化学习神经网络模型的最新模型参数，确定所述强化学习神经网络模型当前梯度，包括：

其中，

4.根据权利要求1所述的基于分布式强化学习的无人机智能仿真训练方法，其特征在于，根据该普通学习者节点最近一次获取的强化学习神经网络模型参数和参数服务器中的最新参数，对该普通学习者节点发送的强化学习神经网络模型当前梯度进行补偿，得到补偿后的强化学习神经网络模型梯度，包括：

其中，

为补偿后的强化学习神经网络模型梯度，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

5.一种基于分布式强化学习的无人机智能仿真训练装置，其特征在于，包括：

6.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置，其特征在于，所述无人机仿真经验样本数据包括：无人机仿真环境的当前状态、决策动作、无人机仿真在所述当前状态下执行所述决策动作所得到的奖励值和后续状态。

7.根据权利要求5所述的基于分布式强化学习的无人机智能仿真训练装置，其特征在于，所述第二处理模块，具体用于：

其中，

为补偿后的强化学习神经网络模型梯度，

为普通学习者i最近一次获取的强化学习神经网络模型参数，

为根据泰勒展开公式近似得到的梯度补偿量。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述基于分布式强化学习的无人机智能仿真训练方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于分布式强化学习的无人机智能仿真训练方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于分布式强化学习的无人机智能仿真训练方法的步骤。