CN112488320B

CN112488320B - 一种针对复杂条件下多智能体的训练方法及系统

Info

Publication number: CN112488320B
Application number: CN202011024781.XA
Authority: CN
Inventors: 史殿习; 张耀文; 张拥军; 武云龙; 秦伟; 徐天齐; 王功举
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-05-02
Anticipated expiration: 2040-09-25
Also published as: CN112488320A

Abstract

本发明提供了一种针对复杂条件下多智能体的训练方法及系统，包括：基于训练目标，构建训练场景和智能体模型；将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务；利用所述智能体模型，按场景复杂程度，依次选择课程任务进行训练得到各智能体的策略；其中在训练过程中将前一课程任务的训练结果作为下一课程任务的初始条件。本发明将训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务，解决了多智能体强化学习中的非平稳问题，提升了训练效果，同时缩短了训练时间。

Description

一种针对复杂条件下多智能体的训练方法及系统

技术领域

本发明涉及智能体控制技术领域，具体涉及一种针对复杂条件下多智能体的训练方法及系统。

背景技术

在多智能体系统研究中，一种直观的研究方式是为智能体预定义行为规则。在任务执行中，各智能体按照预设规则实现各种行为。但这种方式需定义大量的行为规则来应对环境中各种可能出现的情况。而在复杂环境中，很难对环境中的各种情况进行枚举，并且其它智能体的行为会使环境持续变化。因此，在复杂环境中，多智能体需通过与环境的持续交互学习新的行为，进而保证任务的执行性能。强化学习(RL)作为一种学习模式，不依赖先验知识和数据，是一种处理复杂问题的有效方法。强化学习通过使智能体与环境不断交互，进而获得奖励或惩罚信号，并用其指导行动策略的学习。该方法可使智能体在复杂动态环境中学习到更鲁棒性的行为策略。而通过与深度学习的结合，可在更高维状态空间中找到学习策略的更紧凑的表示形式。在深度强化学习(DRL)中，可使用深度神经网络近似表示智能体的最优行动策略或价值函数，从而实现表示能力的泛化。因此，深度强化学习可作为求解复杂环境下智能体决策问题的有效方法。

多智能体强化学习(MARL)是深度强化学习从单智能体到多智能体的扩展。各智能体将其它智能体看作环境的一部分，通过观察并与环境交互，从而获得奖惩信号，进而引导行动策略的学习。因此，在智能体观察环境时，其计算复杂度将随智能体个数的增加呈指数增长，计算时间也随智能体的增加而增加。在多智能体系统中，每个智能体的目标是学习对其他智能体行为的最佳响应。在复杂和高动态的系统中，如果其他智能体的策略也在不断优化调整，则当前智能体的学习目标会改变，即整个系统的学习策略将出现不稳定的性质，学习效果也会远离预期。

课程学习(CL)是机器学习的一种，旨在提高迁移学习的效果。在2016年美国多智能体自主系统协会(AAMAS)上发表的论文《Source task creation for curriculumlearning》，CL首次与RL结合。CL的主要是应用于处理复杂任务，方法是是通过生成一系列任务进行分别训练，最终提升目标任务的最终渐近性能或减少计算时间。然而，大多数现有的研究集中于单智能体的研究，而其他在多智能体系统中考虑CL的方法使用结合相对简单。现有的单一的场景研究，其智能体的数量是固定的，且具有稀疏的奖励函数设置。

综上，在场景较为复杂的多智能体深度强化学习的训练过程中，尤其是在训练多智能体的合作/竞争场景中，随着智能体的增多，现有的训练方式存在训练不稳定、训练效果差，以及训练周期长的问题。

发明内容

为了解决现有技术中所存在的上述不足，本发明提供了一种针对复杂条件下多智能体的训练方法，包括：

基于训练目标，构建训练场景和智能体模型；

将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务；

利用所述智能体模型，按场景复杂程度，依次选择课程任务进行训练得到各智能体的策略；

其中在训练过程中将前一课程任务的训练结果作为下一课程任务的初始条件。

优选的，所述智能体模型的构建包括：

基于不同的任务和回报方式分别构建多个合作智能体、多个目标智能体和多个干扰智能体；

其中，所述合作智能体的任务为避开障碍物，并对处于自身感知半径内的目标智能体进行巡逻，同时与通信范围内的合作智能体共享感知视野，产生协同行动、救援行动和巡逻行动；所述干扰智能体的任务为发出阻塞信号破坏合作智能体之间的联通；

所述目标智能体的任务为在避免被合作智能体围捕到前提下进入目标区域。

优选的，所述训练场景的构建包括：

基于训练目标对智能体的状态空间、动作空间加以约束，设置场景环境；

在至少一个干扰智能体的信号干扰下，多个合作智能体利用各自通信功能连接通信范围内的合作智能体，构建合作智能体组，且隶属于所述合作智能体组内的各合作智能体共享感知视野；

所述合作智能体组利用共享感知视野对目标智能体进行巡逻。

优选的，所述将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务，包括：

基于具有全局的感知范围和通信范围的多个合作智能体以及多个目标智能体构建第一课程任务；

在所述第一课程任务的基础上对每个合作智能体的感知范围和通信范围进行约束构建第二课程任务；

在所述第二课程任务的基础上加入多个干扰智能体构建通信阻塞课程任务；

在所述通信阻塞课程任务的基础上引入随机出现的障碍物构建通信-地理干扰课程任务。

优选的，所述第一课程任务的具体构建包括：

构建具有全局感知范围和通信范围的多个合作智能体和多个目标智能体；

基于巡逻奖励值构建所述合作智能体的奖励值；

基于远离合作智能体奖励值构建所述目标智能体的奖励值。

优选的，所述第二课程任务的基体构建包括：

在第一课程任务的基础上添加具有局部通信能力和部分感知能力的多个合作智能体；

基于在所述合作智能体的感知半径内观察到的目标智能体的情况构建所述合作智能体的感知向量；

基于在所述合作智能体的通信半径内与其他合作智能体的联通情况构建所述合作智能体的通信向量；同时多个合作智能体利用各自通信功能连接通信范围内的合作智能体，构建合作智能体组，且隶属于所述合作智能体组内的各合作智能体共享感知视野；

在所述第一课程任务中所述合作智能体奖励值的基础上增加联通性保持奖励值；

其中，所述通信半径>感知半径。

优选的，所述通信阻塞课程任务的具体构建包括：

在第二课程任务的基础上添加多个干扰智能体；

基于在合作智能体的感知半径内观察到的目标智能体和干扰智能体的情况构建所述合作智能体的感知向量；

基于在所述合作智能体的通信半径内与其他合作智能体的联通情况构建所述合作智能体的通信向量；其中所述通信半径取决于各合作智能体之间的通信模式，当合作智能体处于干扰智能体的干扰范围内且合作智能体间的距离大于与干扰智能体之间的距离时，则各合作智能体之间选择第一联通模式，否则为第二联通模式，第一联通模式下的通信半径大于第二联通模式下的通信半径；

为所述干扰智能体构建干扰奖励值；

其中，所述通信半径>感知半径。

优选的，所述通信-地理干扰课程任务的具体构建包括：

在通信阻塞课程任务的场景中随机添加障碍物训练合作智能体的避障能力；

为所述合作智能体的奖励值增加避障奖励值。

基于同一发明构思，本发明还提供了一种针对复杂条件下多智能体的训练系统，包括：

构建模块，用于基于目标场景，构建训练场景和智能体模型；

分解模块，用于将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务；

训练模块，用于利用所述智能体模型，按场景复杂程度，依次选择课程任务进行训练得到各智能体的策略；

优选的，所述分解模块具体用于：

与现有技术相比，本发明的有益效果为：

本发明提供的技术方案，基于训练目标，构建训练场景和智能体模型；将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务；利用所述智能体模型，按场景复杂程度，依次选择课程任务进行训练得到各智能体的策略；其中在训练过程中将前一课程任务的训练结果作为下一课程任务的初始条件。本发明将训练场景按照场景复杂程度，将复杂任务分解成若干个较为容易训练的多个课程任务，从而提升训练结果的质量，解决了多智能体强化学习中的非平稳问题，提升了训练效果，同时缩短了训练时间。

附图说明

图1为本发明提供的一种针对复杂条件下多智能体的训练方法流程图；

图2为本发明实施例提供的目标场景示意图；

图3为本发明实施例提供的建模示意图；

图4为本发明实施例提供的对目标场景进行场景分解得到场景1的示意图；

图5为本发明实施例提供的对目标场景进行场景分解得到场景2的第一示意图；

图6为本发明实施例提供的对目标场景进行场景分解得到场景2的第二示意图；

图7为本发明实施例提供的对目标场景进行场景分解得到场景3的第一示意图；

图8为本发明实施例提供的对目标场景进行场景分解得到场景3的第二示意图；

图9为本发明实施例提供的训练流程图；

图10为本发明实施例中从场景1迁移到场景2利用S-SCL与对比实验的训练效果示意图；

图11为本发明实施例中经过三个阶段的迁移后利用S-SCL与对比实验的训练效果示意图；

图12为本发明实施例中经过四个阶段的迁移后利用S-SCL与对比实验的训练效果示意图；

图13为本发明实施例在各场景下利用S-SCL与对比实验的胜率示意图；

图14为本发明实施例从场景1迁移到场景2利用A-SCL与对比实验的训练效果示意图；

图15为本发明实施例经过三个阶段的迁移后利用A-SCL与对比实验的训练效果示意图；

图16为本发明实施例经过四个阶段的迁移后利用A-SCL与对比实验的训练效果示意图；

图17为本发明实施例在各场景下利用A-SCL与对比实验的胜率示意图；

图18为本发明实施例提供的训练时间与智能体个数示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

本发明不同于现有的单一场景研究，发明人提出了一种用于复杂情景课程学习(SCL)的多智能体学习方法，SCL方法从学习简单的多智能体场景开始，逐步增加智能体的数量和环境复杂程度，最终达到学习目标任务的目的，解决了多智能体强化学习非平稳问题和提升了训练效果。

如图1所示，本发明提供的一种针对复杂条件下多智能体的训练方法，包括：

S1基于训练目标，构建训练场景和智能体模型；

S2将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务；

S3利用所述智能体模型，按场景复杂程度，依次选择课程任务进行训练得到各智能体的策略；

本发明将训练场景按照场景复杂程度，将复杂任务分解成若干个较为容易训练的多个课程任务，从而提升训练结果的质量，解决了多智能体强化学习中的非平稳问题，提升了训练效果，同时缩短了训练时间。

本发明提供的训练方法，通过构建不同的场景对智能体进行增量式训练，从简单场景到复杂场景的演化对训练模式进行改进，提升训练质量和训练效率，得到了比传统的直接训练方法更好的协同策略。

本实施例提供的技术方案可以应用于复杂场景下，尤其是在训练多智能体的合作/竞争场景中，随着智能体的增多，优化训练方法提升训练效率。

其中S1具体包括针对目标场景，对智能体与场景进行分别建模，

1.1智能体建模：针对自身任务、回报方程的设置进行建模。

1.2场景建模：针对智能体的状态空间、动作空间加以约束，设置场景环境。

1.3问题建模：通过最优化理论，将智能体与环境交互的过程描述为马尔科夫决策过程。以与环境交互的奖励回报作为指标，以每个智能体的行为策略作为优化变量，最大化累积奖励以求出每个智能体的策略。

S2具体指场景分解，即依据约束条件的强弱、场景复杂的程度，将目标场景分解为若干个课程任务，每个课程任务的复杂程度由简单到复杂依次递增，逐步靠近目标任务场景。

S3具体指分步训练，每一课程训练至基本达到纳什均衡的状态，将前一课程任务的训练结果作为下一课程的初始条件进行训练。

基于上述实施例的内容，作为一种可选实施例，提供了一种针对复杂条件下多智能体的训练方法，本实施例以一个较为复杂的场景为例，其场景示意图如图2所示，建模示意图为图3所示，该实施例包括以下步骤：

对构建的目标场景进行分解的具体步骤为：

1.1第一课程任务，即场景1；

首先考虑一个基础场景：在该场景中，具有“合作智能体”和“目标智能体”两类角色。如图4所示作为一个基础场景，假设每个合作智能体和目标智能体均具有全局的感知范围和通信范围。

该场景中的所有智能体存在全局视角，因此对于某一智能体i，其观察向量为：

o_i＝[d_i,1,...,d_i,N] (0.1)

对于合作智能体x来说，对于观测到的目标智能体y，构建其奖励函数：

其中，k为折扣系数，同时，对于目标智能体y，可以根据其越过保护区的纵深h，来设计奖励函数：

1.2第二课程任务，即场景2；

基于第一课程任务，考虑在通信和感知有限的条件下，合作智能体具有局部通信和部分感知能力。

对于合作智能体，不同于(0.1)，观察向量在t时刻包含两部分：感知向量u_x,t和通信向量c_x,t。感知向量u_x,t用以表示合作智能体x观察到的非己方智能体的情况，可表示为

其中P为感知到的非己方智能体的个数。通信向量c_x,t表示与己方智能体的联通情况，可表示为

其中I为相互联通的合作智能体个数。假设N为总的智能体个数，那么有I+P≤N-1。

对于感知向量u_x,t的构建，假设智能体x的感知范围为半径为a_s的圆形区域，那么感知向量u_x中对于目标智能体y的元素

可定义为：

对于通信向量c_x,t，可假设其通信模型为半径为a_c的圆形区域。一般情况下，通信的半径要远大于感知半径，因此假设a_s＜a_c。针对合作智能体x(队友x_k表示)的通信向量c_x中元素

可定义为：

基于上述建模，该场景中应增加联通奖励

如图5和图6所示多个合作智能体通过通信组成的编队，而编队中的各个合作智能体可共享感知范围。

1.3通信阻塞课程任务，即场景3；

在第二课程任务的基础上将加入干扰智能体。干扰智能体发射的电磁干扰信号会对常规通信链路形成功率压制，通信质量会受到影响，从而造成通信干扰。因此，在通信干扰的状态下，常规/强联通半径转换

上式中，不同于第二课程任务中的常量半径a_c，通讯半径会根据合作智能体x、临近队友x_k和干扰智能体z之间的相互距离判定而改变，该场景的详细过程可由图7和图8进行描述。合作智能体具有两种通信模式：常规通信(功率较小，省电)和强功率通信(功率大且指向性强，费电，一定程度上抗干扰)。因此两种模式可建模为不同半径的圆形，有a_h＜a_w。

该场景中干扰智能体z的干扰奖励可设置为

由于存在通讯干扰对联通的限制以及部分观测的限制，当合作智能体未发现目标智能体时，我们指定了巡逻区域T，其对应的巡逻奖励为

即当合作智能体x处于巡逻区域内，基于1分的奖励。

1.4通信-地理干扰课程任务，即场景4；

在通信阻塞课程任务的基础上引入随机出现障碍物，其目的是为了训练合作智能体的避障能力。因此，基于上述场景的约束条件，对其避障奖励有如下设置：

对于合作智能体x，如果在可观测视野内撞击上障碍物，基于扣分惩罚。

以上场景设置是为了训练合作智能体最终获得：围捕、通讯、巡逻、避障这四种能力。但是由于条件约束多，且存在稀疏、连续奖励设置，对于该多任务场景，我们根据场景复杂程度进行上述设置。根据任务的优先级，我们期望智能体可以先利用第一课程任务训练其围捕能力；在围捕能力训练的基础上利用第二课程任务训练其通信及部分观测能力；在保持通信的策略训练后，引入通信干扰生成通信阻塞课程任务；并在最后利用通信-地理干扰课程任务训练其避障策略。

1.5问题建模。通过最优化理论，将智能体与环境交互的过程描述为马尔科夫决策过程，基于以上建模，将最优化问题归结如下形式：

其中，优化目标J_i为长期(infinite-horizon)的累计奖励之和，R_i为所有智能体i与环境交互所获回报奖励。该问题中需要求解的变量为每个智能体的行为策略π_i。在时间步t时，智能体i的动作向量a_i,t应满足于在其行动空间A_i约束下，根据环境观测o_i,t所执行的策略π_i。我们的目标是求解出满足场景约束的最优化行动策略π_i，使目标函数在无限的时间范围内达到期望最大化。

接着进行分步训练。每一课程训练至基本达到纳什均衡的状态，将前一课程任务的训练结果作为下一课程的初始条件进行训练，其训练流程如图9所示。

最后为了对本实施例提供的训练方法的效果进行说明，本实施例将通过仿真实验验证强化学习的方法求解出的模型的有效性。实验中考虑的工作区是一个200m*200m平方米的区域，各合作智能体的有效击毁范围为10米的圆形区域。合作智能体的感知区域为a_s＝80m，常规(弱)联通半径a_w＝60m，强联通半径a_h＝40m；干扰智能体的功率干扰半径a_o＝20m。合作智能体速度：10m/s，突围智能体速度12m/s，干扰智能体速度：8m/s。实验平台为搭载i7 CPU、NVIDIA 2080Ti显卡的台式机，仿真环境采取TensorFlow 1.18、Open Gym 0.15、Python 3.5环境下进行实验仿真验证。

SCL的目标是为了提升智能体在目标任务中的训练效果。其评价指标可以从三个方面来衡量，基于迁移学习的强化学习性能的指标根般从三个方面来体现：

1.学习速度提升：通过面积比度量方法(比较迁移学习前后得分曲线下的面积)来比较收敛的快慢、得分高低等因素，面积越大意味迁移后效果好。

2.初始提升：比较智能体在源目标与目标任务中的初始性能，通过初始得分来衡量迁移学习的效果。

3.渐进提升：通过最终得分比较迁移前后智能体的训练结果表现。

由于本实验中涉及到双方对抗博弈场景，因此我们不仅仅要从得分方面比较上述三个指标，同时也要比较不同场景迁移下的胜率情况，从而证明场景迁移的稳定性。另外，我们也将从训练时间来说明本文所提方法的有效性。

基于以上指标，设计两种不同的场景迁移案例来比较不同场景迁移顺序对结果的影响。我们通过人工设计分步场景训练的顺序、缓冲池大小，来验证那种这些指标对迁移效果的影响。同时，通过实验不同智能体个数对图2场景进行训练，来观察智能体个数不同对迁移效果的影响。

一方面为对称SCL，即S-SCL，根据场景中的约束将课程设计为{1，2，3，4}。其每个场景训练步长均为20000步，缓冲池大小为1000。以传统的直接训练法为对比实验，我们可以从图10中看出，提出的方法在简单的迁移过程(迁移课程为{1，2})中效果劣与baseline对比实验；对于三阶段迁移实验对比，如图11所示，观察到S-SCL在最终得分上已接近对比实验(直接训练)，且在图13中，胜率要高于直接训练；课程{1,2,3,4}中，对于最终场景，S-SCL的得分在图12中要高于对比实验，且胜率要远远高于对比实验。

对于课程{1，2}实验中劣势表现的一个直观的解释是：针对场景2，直接训练法比S-SCL中的任务有更长的训练迭代，所以可以训练出更有效的政策轨迹，以获得更高的奖励分数，且同样在胜率指标上，直接训练在相对简单的情景2中也有更好的结果。但考虑到课程{1,2,3}和{1,2,3,4}，S-SCL可以从模型回放和实验数据中体现出学习到更优的追捕模型。总的来说随着智能体任务、场景的复杂增加，S-SCL可以获得更好的策略。

另一方面为非对称SCL，即A-SCL，针对同一个最终场景，我们设计了一个新的课程{1，IRAS，3，4}(IRAS，场景1中添加的干扰机器人的场景)。基于场景1的全局感知条件，IRAS引入干扰机器人。然后，在场景3中引入了电磁的约束。每个任务的训练步长为2000，且缓冲池大小依次为{500，700，900，1100}。我们的第一个实验{1，IRAS}，这样课程设置的目标是在场景1中学习到的集体围捕策略的基础上，进一步训练其电磁对抗能力。如图14所示，在渐进提升、初始提升上均有很好地效果提升，图17通过胜率展示了策略的优势。该课程中，对于学习速度提升，由于两个场景前后智能体个数不同，因此不具备可比较性。在图15中，{1，IRAS，3}三个阶段的训练过程中三个指标都优于直接训练。针对于最终场景的课程4{1，IRAS，3，4}中，图16展示了更快的学习速度提升和初始提升，更高的渐进效果。图17的右边结果表示，直接训练的胜率由87％显著提高到97％。综上所述，我们可以手动设计重放缓冲区的大小，这将影响经过训练的代理模型的权重。模型作为后续场景的初始条件，在SCL中，前一阶段的模型结果作为下一个场景的有利初始条件。

第三方面，从训练时间与智能体个数关系验证，将验证随着智能体个数的提升，场景迁移训练时间的变化趋势。我们针对图2进行训练，其缓冲池大小为1000。我们比较在不同智能体个数下与每10000步迭代的训练时间之间的关系，从图18可以看出，智能体个数与消耗时间关系。我们将不同智能体下的SCL训练与直接训练进行比较，纵坐标时间轴为每1万步长所消耗时间。其中SCL计算时间为每部分场景运行时间累计。从图18中可知直接训练计算时间均高于SCL计算时间，时间随智能体个数近似为线性关系。

在MARL中，其训练时间随智能体个数、场景复杂程度增加而增加，因此，两种训练方法的时间差主要来源于分场景的训练。在前期场景简单、智能体个数少的场景中，单位训练时间要少于最终场景的单位训练时间。从当前实验来看，在相同缓冲池大小、分步实验迭代次数的比例情况下，SCL方法要比直接训练运行时间节省13％左右。

通过本实施例的仿真实验表明中，在博弈对抗场景中，SCL方法可以有效的提升胜率。

基于同一发明构思，本发明实施例还提供了一种针对复杂条件下多智能体的训练系统，包括：

本发明提供的训练系统，通过构建不同的场景对智能体进行增量式训练，从简单场景到复杂场景的演化对训练模式进行改进，提升训练质量和训练效率，得到了比传统的直接训练方法更好的协同策略。

实施例中，所述分解模块具体用于：

实施例中，所述第一课程任务的具体构建包括：

基于巡逻奖励值构建所述合作智能体的奖励值；

基于远离合作智能体奖励值构建所述目标智能体的奖励值。

实施例中，所述第二课程任务的基体构建包括：

其中，所述通信半径>感知半径。

实施例中，所述通信阻塞课程任务的具体构建包括：

在第二课程任务的基础上添加多个干扰智能体；

为所述干扰智能体构建干扰奖励值；

其中，所述通信半径>感知半径。

实施例中，所述通信-地理干扰课程任务的具体构建包括：

为所述合作智能体的奖励值增加避障奖励值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种针对复杂条件下多智能体的训练方法，其特征在于，包括：

基于训练目标，构建训练场景和智能体模型；

其中在训练过程中将前一课程任务的训练结果作为下一课程任务的初始条件；

所述智能体模型的构建包括：

所述目标智能体的任务为在避免被合作智能体围捕到前提下进入目标区域；

所述训练场景的构建包括：

所述合作智能体组利用共享感知视野对目标智能体进行巡逻；

所述将所述训练场景按照场景复杂程度，由简单到复杂依次分解为多个课程任务，包括：

2.如权利要求1所述的方法，其特征在于，所述第一课程任务的具体构建包括：

基于巡逻奖励值构建所述合作智能体的奖励值；

基于远离合作智能体奖励值构建所述目标智能体的奖励值。

3.如权利要求2所述的方法，其特征在于，所述第二课程任务的基体构建包括：

其中，所述通信半径>感知半径。

4.如权利要求3所述的方法，其特征在于，所述通信阻塞课程任务的具体构建包括：

在第二课程任务的基础上添加多个干扰智能体；

为所述干扰智能体构建干扰奖励值；

其中，所述通信半径>感知半径。

5.如权利要求4所述的方法，其特征在于，所述通信-地理干扰课程任务的具体构建包括：

为所述合作智能体的奖励值增加避障奖励值。

6.一种针对复杂条件下多智能体的训练系统，用于实现如权利要求1所述的一种针对复杂条件下多智能体的训练方法，其特征在于，包括：

所述分解模块具体用于：