CN112347699B

CN112347699B - 多智能体对抗神经网络训练方法及装置

Info

Publication number: CN112347699B
Application number: CN202011329509.2A
Authority: CN
Inventors: 白桦; 王群勇; 孙旭朋
Original assignee: BEIJING SHENGTAOPING TEST ENGINEERING TECHNOLOGY RESEARCH INSTITUTE
Current assignee: BEIJING SHENGTAOPING TEST ENGINEERING TECHNOLOGY RESEARCH INSTITUTE
Filing date: 2020-11-24
Publication date: 2024-06-28
Anticipated expiration: 2040-11-24

Abstract

本发明提供一种多智能体对抗神经网络训练方法及装置，该方法包括：对影响智能体的RMS指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；采用蒙特卡洛方法，模拟多智能体在关键指标情况下的实际状态；根据实际状态，对构建的多智能体对抗神经网络进行训练。该方法在可靠性、维修性、保障性参数的约束下，在不改变原有的神经网络结构下，进行神经网络的参数优化，使其能够在多智能体出现可靠性问题时，仍能够达到较为理想的性能。本发明可以提高多智能体对抗神经网络的健壮性或鲁棒性，在面对实际物理世界中代理可能发生的故障和维修等场景，采用本发明进行训练的神经网络具有更高的系统性能，降低代理故障对于系统性能的影响。

Description

多智能体对抗神经网络训练方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种多智能体对抗神经网络训练方法及装置。

背景技术

多智能体控制体系增强学习建模时，输入条件中的智能体数量和性能通常是已知的，以此为约束条件进行网络参数优化，以得到效能最好的控制模型。智能网络通过控制信号对多智能体进行控制，使其成为一个整体并且效能最优。

但是，物理世界中的智能体并非理想的智能体，需要进行维修和维护，或者在执行任务时出现故障，不能执行正常的功能，原约束条件已不在成立，由此建立的控制模型并非效能最高的。

发明内容

针对现有技术存在的问题，本发明提供一种多智能体对抗神经网络训练方法及装置。

本发明提供一种多智能体对抗神经网络训练方法，包括：对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

根据本发明一个的多智能体对抗神经网络训练方法，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：根据所述实际状态，确定输入环境变量，以回报最大化为目标，对构建的多智能体强对抗神经网络进行训练。

根据本发明一个的多智能体对抗神经网络训练方法，所述多智能体为执行任务的飞机集群，相应地：所述多智能体对抗神经网络，用于评估所述飞机集群任务成功率；所述关键指标，包括：飞机的失效率、战备完好率和通信中断率。

根据本发明一个的多智能体对抗神经网络训练方法，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，包括：根据飞机总架数和战备完好率，采用蒙特卡洛方法，确定能出动的飞机架数。

根据本发明一个的多智能体对抗神经网络训练方法，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，还包括：根据能出动的飞机架数和飞机失效率，采用蒙特卡洛方法，确定故障飞机，并将故障飞机移除，得到可执行任务的飞机架数。

根据本发明一个的多智能体对抗神经网络训练方法，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，还包括：根据可执行任务的飞机架数和通信中断率，采用蒙特卡洛方法，确定通信异常的飞机。

根据本发明一个的多智能体对抗神经网络训练方法，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：以可执行任务的飞机和通信正常的飞机，作为输入环境变量，以任务成功率最高为目标，对构建的多智能体强对抗神经网络进行训练。

本发明还提供一种多智能体对抗神经网络训练装置，包括：指标确定模块，用于对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；状态确定模块，用于每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；网络训练模块，用于根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多智能体对抗神经网络训练方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多智能体对抗神经网络训练方法的步骤。

本发明提供的多智能体对抗神经网络训练方法及装置，在可靠性、维修性、保障性参数的约束下，在不改变原有的神经网络结构下，进行神经网络的参数优化，使其能够在多智能体出现可靠性问题时，仍能够达到较为理想的性能。本发明可以提高多智能体对抗神经网络的健壮性或鲁棒性，在面对实际物理世界中代理可能发生的故障和维修等场景，采用本发明进行训练的神经网络具有更高的系统性能，降低代理故障对于系统性能的影响。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多智能体对抗神经网络训练方法的流程示意图；

图2是本发明提供的蒙特卡罗仿真计算流程图；

图3是本发明提供的基于RMS训练后的对比图；

图4是本发明提供的优化性能对比图；

图5是本发明提供的多智能体对抗神经网络训练装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

系统建模与仿真技术是以相似原理、模型理论系统技术、信息技术以及建模与仿真应用领域的有关专业技术为基础，以计算机系统、与应用有关的物理效应设备及仿真器为工具，利用模型对系统(已有的或设想的)进行研究、分析、评估、决策或参与系统运行的一门多学科的综合性技术。典型的系统建模与仿真过程包括系统模型建立、仿真模型建立、仿真程序设计、仿真试验和数据分析处理等，涉及多学科多领域的知识与经验。

在对抗性游戏引擎设法方面，系统仿真技术建立的计算机模型可以模拟人的游戏行为与人类玩家进行实时对抗。人类玩家还可以根据自身的游戏水平，选择相应难度的仿真程序进行对抗。人类玩家希望计算机程序即能够匹配自身的游戏水平，又希望游戏的模型能够有一定的“智能”水平，避免千篇一律的战略战术。

在军用领域，仿真技术已经成为武器装备研制与试验中的先导技术、校验技术和分析技术。当前，现代建模与仿真在技术上正向以“数字化、虚拟化、网络化、智能化、集成化、协同化”为特征的方向发展；在军事领域，军用建模与仿真技术是服务于武器装备发展论证和决策、型号研制、鉴定定型、训练使用、维护保障、作战应用和武器装备采办等领域。建模与仿真技术中的体系仿真技术、武器装备研制仿真技术、基于仿真的虚拟采办及虚拟样机技术、虚拟战场技术、智能化建模仿真技术和仿真网络等的综合运用，已成功地在深度和广度上扩展了仿真技术的应用域，仿真技术和仿真系统在各应用领域都发挥了巨大的作用。

多智能体建模方法，是基于人工智能和组织行为学的一种模型理论，MAS(MultiAgent System，多智能体系统)与具体领域数学模型研究相结合，其研究领域已经覆盖仿生优化算法、计算经济学、人工社会以及知识传播工程及战争政治复杂系统等多个传统和前沿科学领域。

对于现实中复杂的、大规模的问题，靠单个智能体往往无法描述和解决，因此，一个应用系统中往往包括多个智能体，这些智能体不仅具备自身的问题求解能力和行为目标，而且能够相互协作，来达到共同的整体目标，这样的系统就成为了一个MAS。MAS具有如下特性：每个都有解决问题的不完全的信息或能力；数据是分散存储和处理的，没有系统级的数据集中处理结构；系统内部的交互性和系统整体的封装性；计算是同步的，因此对于某些共享资源应具备锁定功能。

多智能体仿真采用系统理论和多智能体系统建模方法建立系统高层模型，使用基于智能体模型的仿真软硬件支撑技术建立的系统计算模型并实现仿真。由于它可以有效实现复杂系统的非线性、交互性和突现性，所以被认为是复杂系统仿真的最具活力、有所突破的方法学。利用具备约束关系的多智能体系统建立战场群体模型，是当前作战仿真系统的最新研究方向。

下面结合图1-图6描述本发明的多智能体对抗神经网络训练方法及装置。图1是本发明提供的多智能体对抗神经网络训练方法的流程示意图，如图1所示，本发明提供多智能体对抗神经网络训练方法，包括：

101、对影响智能体的可靠性、维修性和保障性(RMS)指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值。

可靠性，也叫可靠度(Reliability)，指的是产品在规定的时间内，在规定的条件下，完成预定功能的能力，它包括结构的安全性，适用性和耐久性，可以概率来度量。

维修性，是指在规定的条件、时间、程序和方法等约束下完成维修的能力。是由产品设计决定的使其维修简便、迅速、经济的质量特性。维修性中的“维修”包含修复性维修、预防性维修等内容。

系统(装备)的设计特性和计划的保障资源满足平时和战时使用要求的能力称保障性。保障性是装备系统的固有属性，它包括两方面含义，即与装备保障有关的设计特性和保障资源的充足和适用程度。

保障性的定量要求通常以与战备完好性相关的指标提出。例如:使用可用度(A0)、能执行任务率(MCR)、出动架次率(SGR)、再次出动准备时间。装备保障资源方面的定量要求包括：保障设备利用率、保障设备满足率、备件利用率、备件满足率、人员培训率等。

以飞机(包括无人机、战斗机和侦察机)集群执行任务为例，智能体可以是每一架执行任务的飞机。

102、每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态。

对可能影响体系效能的RMS指标进行分析后，从中选取与执行效能最密切的关键指标进行建模。在进行网络训练前，确定RMS关键指标的取值。产品在设计时这些关键指标都是确定的。

在网络训练前，设置蒙特卡罗仿真条件，模拟多智能体在所述关键指标情况下的实际状态。

蒙特卡罗(Monte Carlo)方法，又称随机抽样或统计试验方法。传统的经验方法由于不能逼近真实的物理过程，很难得到满意的结果，而蒙特卡罗方法由于能够真实地模拟实际物理过程，故解决问题与实际非常符合，可以得到很圆满的结果。其是以概率和统计理论方法为基础的一种计算方法，是使用随机数来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系，用电子计算机实现统计模拟或抽样，以获得问题的近似解。

103、根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

在考虑RMS因素的情况下，每次训练之前，都确定了多智能体实际状态。以此为基础对网络进行多轮次的训练，使网络参数得到优化。

举个例子，有一个任务，理想情况下有20架集群无人机参与，根据这些约束条件得到了控制模型A，在理想情况下的执行效率为100。由于可靠性问题，集群无人机的战备完好率为0.8，任一时刻能够执行的无人机架次为一个概率，在平均情况下仅有16架无人机能够参与任务。由于参与任务的无人机数量变少，模型训练后导致平均执行效率为70。而本发明从一开始就考虑到集群无人机不能完全投入任务这一约束条件，对模型参数进行优化，使得在考虑可靠性因素后能够得到最优的执行效率。例如，考虑集群无人机战备完好率0.8这一条件进行训练后，执行效率在战备完好率0.8时，执行效率达到80，并可使得战备完好率在0.8附近的情况下，执行效率优于理想情况，这样就得到具有鲁棒特性的神经网络控制模型。

在影响到人身安全的领域，如自动驾驶，采用本发明进行神经网络优化，可以降低事故发生概率。

本发明提供的多智能体对抗神经网络训练方法，在可靠性、维修性、保障性参数的约束下，在不改变原有的神经网络结构下，进行神经网络的参数优化，使其能够在多智能体出现可靠性问题时，仍能够达到较为理想的性能。本发明可以提高多智能体对抗神经网络的健壮性或鲁棒性，在面对实际物理世界中代理可能发生的故障和维修等场景，采用本发明进行训练的神经网络具有更高的系统性能，降低代理故障对于系统性能的影响。

在一个实施例中，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：根据所述实际状态，确定输入环境变量，以回报最大化为目标，对构建的多智能体强对抗神经网络进行训练。

本发明应用到强化学习对抗网络中，上述对抗神经网络为强化学习抗神经网络，简称强对抗神经网。在强化学习(Reinforcement Learning简称RL)建模研究中，将研究代理(Agent)如何与环境交互以优化目标，将强化学习定义为马尔可夫决策过程，这是强化学习的理论基础。

代理可以学习的三个主要功能，包括：策略→价值功能→模型。强化学习与解决顺序决策问题有关。可以通过这种方式来解决许多现实世界中的问题，例如玩视频游戏，运动，驾驶。

解决这些问题时，有一个目标或目的，例如赢得比赛，安全地到达目的地或使制造产品的成本最小化。采取行动，并从世界上获得关于离目标的接近程度(当前得分，到目的地的距离或每单位价格)的反馈。实现目标通常需要依次采取许多行动，每项行动都会改变我们周围的世界。在决定采取下一步行动作为回应之前，观察世界上的这些变化以及收到的反馈。

增强学习问题可以表示为由代理和环境组成的系统。环境会生成描述系统状态的信息。这称为状态。代理通过观察状态并使用此信息选择操作来与环境进行交互。环境接受动作并转换为下一个状态。然后，它将下一个状态和奖励返回给代理。当(状态→动作→奖励)的循环完成时，我们说已经过去了一步。重复该循环直到环境终止(例如，解决问题时)。

考虑使用称为转移函数的环境如何从一种状态过渡到另一种状态。在增强学习中，过渡函数被公式化为马尔可夫决策过程(MDP)，这是一个模拟顺序决策的数学框架。为了理解如何将过渡函数表示为MDP，考虑以下公式。

s_t+1～P(s_t+1|(s₀,a₀),(s₁,a₁),...,(s_t,a_t))；

上式表示，在时间步t处，从以整个历史为条件的概率分布P中采样下一个状态s_t+1。环境从状态s_t过渡到s_t+1的可能性取决于所有先前的状态s和动作a。

为了使环境转换功能更实用，通过添加以下假设将其转换为MDP：到下一个状态s_t+1的转换仅取决于前一个状态s_t和操作a_t。这称为Markov属性。在此假设下，新的转换函数将变为：

st+1～P(s_t+1|st,at)；

上式表示从概率分布P(s_t+1|s_t,a_t)中采样下一状态s_t+1。这是原始转换函数的一种简单形式。马尔可夫性质表明，在时间步长t处的当前状态和动作包含足够的信息，可以完全确定在t+1处下一状态的转移概率。

将增强学习的思想与深度神经网络技术结合，产生深度增强学习(DQN)方法，即构造深度神经网络，输入为环境变量，输出为动作变量。采用回报值最大化为目标，训练神经网络。

在一个实施例中，所述多智能体为执行任务的飞机集群，相应地：所述多智能体对抗神经网络，用于评估所述飞机集群任务成功率；所述关键指标，包括：飞机的失效率、战备完好率和通信中断率。

多智能体组成体系后，能否执行预期的性能受到一些因素的制约。可能的因素如下：战备完好率，智能体某个分系统故障，不能执行该功能，例如无人机侦查系统故障，不能执行探测任务；无人机火力系统故障，不能执行打击任务。飞机的失效率，智能体在任意时刻执行任务时发生故障的概率由失效率λ描述。由于维修保障等问题，在任意时刻不是所有的智能体均能出发执行任务，能够正常出动的智能体数量与总数和战备完好率A相关。通信中断率，由于各智能体之间需要依靠通信进行控制信号和侦查信号的传递与共享，通信间出现故障会影响信息的传递，用信号中断率C进行描述。

在一个实施例中，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，包括：根据飞机总架数和战备完好率，采用蒙特卡洛方法，确定能出动的飞机架数。

以某飞机集群红蓝双方集群对抗为例，经过分析，红方作战胜率有影响的因素有：战备完好率、信号中断率和单机坠毁率三个因素。在每局(episod)开始时，根据飞机总架数M和战备完好率A，采用蒙特卡罗方法，模拟随机事件，得到本局能够出动的飞机架数s。可以此为实际状态，对构建的多智能体对抗神经网络进行训练。

在一个实施例中，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，还包括：根据能出动的飞机架数和飞机失效率，采用蒙特卡洛方法，确定故障飞机，并将故障飞机移除，得到可执行任务的飞机架数。

为了进一步提高鲁棒性，对于正在执行任务的飞机，考虑由于故障而影响使用的失效率λ，单位h^-1。通过蒙特卡洛仿真得到第i架飞机故障，移出可执行任务的飞机序列。

在一个实施例中，所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，还包括：根据可执行任务的飞机架数和通信中断率，采用蒙特卡洛方法，确定通信异常的飞机。

图2是本发明提供的蒙特卡罗仿真计算流程图，具体仿真可参见图2。为了进一步提高鲁棒性，对于正在执行任务的飞机，考虑由于通信故障而影响使用，通信中断率为c，单位h^-1。仿真步长step为s，单位h，通常仿真步长较小，c*s<<1.对于每一架飞机，在每一个step之后，执行操作，得到第i架飞机无法接收通信信息。

在一个实施例中，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：以可执行任务的飞机和通信正常的飞机，作为输入环境变量，以任务成功率最高为目标，对构建的多智能体强对抗神经网络进行训练。

下面是开展的相关优化的结果作为示例进行说明。

红蓝双方对抗，考虑红方的可靠性指标，为简单起见，只考虑战备完好率这一指标。初始时，在理想条件下(即战备完好率A＝1)进行网络优化，之后在不同的战备完好率下得到的红方胜率为

表1理想条件下(A＝1)时红方的胜率

序号	设置的战备完好率	胜率
			1	0.9	0.595
2	0.875	0.552764
			3	0.85	0.51
4	0.825	0.49
			5	0.8	0.495

之后假设实际的智能体战备完好率为0.8，在此条件下优化网络后，得到不同战备完好率下红方的胜率为：

表2理想条件下(A＝0.8)时红方的胜率

序号	设置的战备完好率	胜率
			1	0.9	0.54
2	0.89	0.535
			3	0.875	0.505
4	0.85	0.515
			5	0.825	0.532663317
6	0.8	0.525

图3是本发明提供的基于RMS训练后的对比图，图4是本发明提供的优化性能对比图，具体可参见图3和4。图4中斜率较大的曲线为理想条件下(即战备完好率A＝1)优化的网络参数，斜率较小的曲线为战备完好率为0.8条件下优化的网络参数。图中显示在A＝0.8附近，斜率较小的曲线具有更高的胜率。

下面对本发明提供的多智能体对抗神经网络训练装置进行描述，下文描述的多智能体对抗神经网络训练装置与上文描述的多智能体对抗神经网络训练方法可相互对应参照。

图5是本发明提供的多智能体对抗神经网络训练装置的结构示意图，如图5所示，该多智能体对抗神经网络训练装置包括：指标确定模块501、状态确定模块502和网络训练模块503。其中，指标确定模块501用于对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；状态确定模块502用于每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；网络训练模块503用于根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的多智能体对抗神经网络训练装置，在可靠性、维修性、保障性参数的约束下，在不改变原有的神经网络结构下，进行神经网络的参数优化，使其能够在多智能体出现可靠性问题时，仍能够达到较为理想的性能。本发明可以提高多智能体对抗神经网络的健壮性或鲁棒性，在面对实际物理世界中代理可能发生的故障和维修等场景，采用本发明进行训练的神经网络具有更高的系统性能，降低代理故障对于系统性能的影响。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行多智能体对抗神经网络训练方法，该方法包括：对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多智能体对抗神经网络训练方法，该方法包括：对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的多智能体对抗神经网络训练方法，该方法包括：对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；根据所述实际状态，对构建的多智能体对抗神经网络进行训练。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多智能体对抗神经网络训练方法，其特征在于，包括：

对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；

每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；

根据所述实际状态，对构建的多智能体对抗神经网络进行训练；

其中，所述多智能体为执行任务的飞机集群，相应地：

所述多智能体对抗神经网络，用于评估所述飞机集群任务成功率；

所述关键指标，包括：飞机的失效率、战备完好率和通信中断率；

所述采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态，包括：

根据飞机总架数和战备完好率，采用蒙特卡洛方法，确定能出动的飞机架数；

根据能出动的飞机架数和飞机失效率，采用蒙特卡洛方法，确定故障飞机，并将故障飞机移除，得到可执行任务的飞机架数。

2.根据权利要求1所述的多智能体对抗神经网络训练方法，其特征在于，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：

根据所述实际状态，确定输入环境变量，以回报最大化为目标，对构建的多智能体强对抗神经网络进行训练。

3.根据权利要求1所述的多智能体对抗神经网络训练方法，所述根据所述实际状态，对构建的多智能体对抗神经网络进行训练，包括：

以可执行任务的飞机和通信正常的飞机，作为输入环境变量，以任务成功率最高为目标，对构建的多智能体强对抗神经网络进行训练。

4.一种多智能体对抗神经网络训练装置，其特征在于，包括：

指标确定模块，用于对影响智能体的可靠性、维修性和保障性指标进行分析，提取影响总体性能的关键指标，并确定关键指标的取值；

状态确定模块，用于每次训练时，采用蒙特卡洛方法，模拟多智能体在所述关键指标情况下的实际状态；

网络训练模块，用于根据所述实际状态，对构建的多智能体对抗神经网络进行训练；

其中，所述多智能体为执行任务的飞机集群，相应地：

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述多智能体对抗神经网络训练方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述多智能体对抗神经网络训练方法的步骤。