CN116628520A

CN116628520A - 基于平均场理论算法的多学员模拟训练方法及系统

Info

Publication number: CN116628520A
Application number: CN202310904428.8A
Authority: CN
Inventors: 白梦莹; 杨晓龙; 魏红珍; 于立北; 高金超; 郑伟; 陈立斌
Original assignee: 707th Research Institute of CSIC
Current assignee: 707th Research Institute of CSIC
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116628520B

Abstract

本发明涉及数据处理技术领域，公开了一种基于平均场理论算法的多学员模拟训练方法及系统，用于提高多学员进行模拟训练时的准确率。包括：获取模拟训练场景类型，通过模拟训练场景类型进行场景用例匹配，确定目标场景用例；对目标场景用例进行参数提取，确定目标场景用例的目标参数集合，通过目标参数集合对目标场景用例进行场景渲染，得到目标场景；基于目标场景进行协同模型匹配，确定目标协同模型，通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；基于训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；基于平均场理论算法对多个目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

Description

基于平均场理论算法的多学员模拟训练方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于平均场理论算法的多学员模拟训练方法及系统。

背景技术

模拟训练是指一种可以模拟工作环境、工作过程和装备工作状态的训练方式，模拟训练综合评估系统能够记录学员的操作流程，对其操作进行合理的评估，检测训练效果，及时发现错误并做出纠正，分析和解决出现的问题，显著的提高训练的科学性。然而，目前训练手段单一、管理控制缺失、考核评估滞后等现象比较突出，因此当前在多学员进行模拟训练时准确率较低。

发明内容

有鉴于此，本发明实施例提供了一种基于平均场理论算法的多学员模拟训练方法及系统，解决了多学员进行模拟训练时准确率较低的技术问题。

本发明提供了一种基于平均场理论算法的多学员模拟训练方法，包括：获取模拟训练场景类型，并通过所述模拟训练场景类型进行场景用例匹配，确定目标场景用例；对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景；基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

在本发明中，所述对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景步骤，包括：对所述目标场景用例进行训练场景分析，确定多个目标训练场景；对多个所述目标训练场景进行训练科目分析，确定多个目标训练科目；基于多个所述目标训练科目，对多个所述目标训练场景确定所述目标场景用例对应的目标参数集合；通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景。

在本发明中，所述基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合步骤，包括：对所述目标场景进行信息流遍历，确定对应的信息流数据；基于所述信息流数据对所述目标场景进行实例化模型组件匹配，确定多个实例化模型组件；通过多个所述实例化模型组件对所述目标场景进行协同模型匹配，确定目标协同模型；基于多个所述目标训练科目，通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合。

在本发明中，所述基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体步骤，包括：对所述训练科目用例集合进行参与人数分析，确定用户数量；对所述训练科目用例集合进行协作方式分析，确定多个协作方式；基于所述用户数量，通过多个所述协作方式对多个用户进行智能体映射，得到多个目标智能体。

在本发明中，所述基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果步骤，包括：对多个所述目标智能体进行ID匹配，确定每个所述目标智能体的ID信息；基于每个所述目标智能体的ID信息对多个所述目标智能体建立通信关系；通过所述平均场理论算法对多个所述目标智能体进行值函数分解，生成每个所述目标智能体的状态值函数以及动作依赖优势函数；通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析，得到所述模拟训练结果。

在本发明中，所述通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析，得到所述模拟训练结果步骤，包括：通过每个所述目标智能体的状态值函数以及动作依赖优势函数对每个所述目标智能体进行行为分析，确定每个所述目标智能体的行为数据；通过每个所述目标智能体的行为数据对多个所述目标智能体进行配对分析，得到多组目标智能体对；对每组所述目标智能体对进行作用权重分析，确定每组所述目标智能体对的权重数据；基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果。

在本发明中，所述基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果步骤，包括：基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行邻域动作分布分析，确定每个所述目标智能体对应的邻域动作分布数据；通过所述平均场理论算法对每个所述目标智能体对应的邻域动作分布数据进行概化处理，得到每个所述目标智能体对应的波动值总和；通过每个所述目标智能体对应的波动值总和对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果。

本发明还提供了一种基于平均场理论算法的多学员模拟训练系统，包括：

获取模块，用于获取模拟训练场景类型，并通过所述模拟训练场景类型进行场景用例匹配，确定目标场景用例；

提取模块，用于对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景；

匹配模块，用于基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；

映射模块，用于基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；

分析模块，用于基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

本发明提供的技术方案中，获取模拟训练场景类型，通过模拟训练场景类型进行场景用例匹配，确定目标场景用例；对目标场景用例进行参数提取，确定目标场景用例的目标参数集合，通过目标参数集合对目标场景用例进行场景渲染，得到目标场景；基于目标场景进行协同模型匹配，确定目标协同模型，通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；基于训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；基于平均场理论算法对多个目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。在本申请中，通过设计实现模型中多智能体之间的协商和交互策略，满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求，促进规模性、多人次的装备教学和训练的发展。通过本系统的使用，综合培训人员对系统的使用能力，达到仿真训练、提升效率、协同训练效果，以进一步提升多学员进行模拟训练时的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于平均场理论算法的多学员模拟训练方法的流程图。

图2为本发明实施例中对多个目标智能体进行模拟协同训练并分析的流程图。

图3为本发明实施例中基于平均场理论算法的多学员模拟训练系统的示意图。

附图标记：

301、获取模块；302、提取模块；303、匹配模块；304、映射模块；305、分析模块。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，图1是本发明实施例的基于平均场理论算法的多学员模拟训练方法的流程图，如图1所示，包括以下步骤：

S101、获取模拟训练场景类型，并通过模拟训练场景类型进行场景用例匹配，确定目标场景用例；

S102、对目标场景用例进行参数提取，确定目标场景用例对应的目标参数集合，并通过目标参数集合对目标场景用例进行场景渲染，得到目标场景；

S103、基于目标场景进行协同模型匹配，确定目标协同模型，并通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；

S104、基于训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；

S105、基于平均场理论算法对多个目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

需要说明的是，首先，需要获取可用的模拟训练场景类型。这可以通过场景库或预定义的场景类型列表来实现。然后，根据需求，将目标训练场景类型与可用的场景类型进行匹配。匹配可以基于场景特征、训练要求或其他相关因素来进行。匹配成功后，确定目标场景用例，这些用例描述了在特定场景中需要执行的任务、操作或学习目标。例如：假设训练系统是用于飞行模拟训练。可用的模拟训练场景类型包括起飞、降落、空中导航等。用户选择了"降落"作为目标训练场景类型。系统通过场景用例匹配，确定了目标场景用例为在模拟环境中执行一次降落操作。对于目标场景用例，需要从中提取关键参数。这些参数可能包括时间限制、环境设置、任务目标、参与者数量等。提取目标参数集合后，可以使用这些参数来进行场景渲染。场景渲染可以涉及创建虚拟环境、加载相关模型、设置物理特性等，以实现目标场景的可视化呈现。例如：对于"降落"场景用例，提取的目标参数集合可能包括：飞机类型（例如客机、直升机）、机场天气条件（例如风速、能见度）、降落跑道长度等。通过这些参数，可以进行场景渲染，生成包含特定飞机类型、特定天气条件和跑道长度的降落场景。在目标场景确定后，需要匹配适合的协同模型。协同模型定义了参与训练的智能体之间的互动方式、协作模式和通信方式等。根据目标场景，选择合适的协同模型，以便在训练过程中实现有效的协同训练。然后，使用目标协同模型来提取与训练科目相关的用例，形成训练科目用例集合。例如：对于"降落"场景，可以选择"飞行员-机场塔台"协同模型。该模型模拟了飞行员与机场塔台之间的通信和协作。通过该模型，可以提取与飞行员和机场塔台相关的训练科目用例，例如通信指令、降落指引等，形成训练科目用例集合。根据训练科目用例集合，需要将多个用户映射到相应的智能体上。这可以通过分配用户ID或其他标识符来实现。每个用户将被映射到适当的智能体，以便在协同训练中扮演相应的角色。例如：对于"降落"场景的训练科目用例集合，有两个用户参与：一个扮演飞行员角色，另一个扮演机场塔台操作员角色。这两个用户将被映射到相应的智能体上，使得飞行员智能体和机场塔台智能体能够在协同训练中相互交互。利用平均场理论算法，对多个目标智能体进行模拟协同训练。该算法考虑了智能体之间的相互作用和协同效应，并根据智能体的状态和动作进行分析和决策。通过模拟协同训练，可以获得对应的训练结果，包括智能体的性能评估、协同效果分析等。例如：在"降落"场景中，通过模拟协同训练，飞行员智能体和机场塔台智能体可以进行实时交互和决策。平均场理论算法考虑了两者之间的协同效应，分析他们的行为和决策，得出训练结果，例如评估降落的安全性和效率、分析协同交互的优化策略等。

本发明实施例中，获取模拟训练场景类型，通过模拟训练场景类型进行场景用例匹配，确定目标场景用例；对目标场景用例进行参数提取，确定目标场景用例的目标参数集合，通过目标参数集合对目标场景用例进行场景渲染，得到目标场景；基于目标场景进行协同模型匹配，确定目标协同模型，通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；基于训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；基于平均场理论算法对多个目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。在本申请中，通过设计实现模型中多智能体之间的协商和交互策略，满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求，促进规模性、多人次的装备教学和训练的发展。通过本系统的使用，综合培训人员对系统的使用能力，达到仿真训练、提升效率、协同训练效果，以进一步提升多学员进行模拟训练时的准确率。

在一具体实施例中，执行步骤S102的过程可以具体包括如下步骤：

（1）对目标场景用例进行训练场景分析，确定多个目标训练场景；

（2）对多个目标训练场景进行训练科目分析，确定多个目标训练科目；

（3）基于多个目标训练科目，对多个目标训练场景确定目标场景用例对应的目标参数集合；

（4）通过目标参数集合对目标场景用例进行场景渲染，得到目标场景。

具体的，首先，对目标场景用例进行分析，了解其特征、目标和要求。然后，根据分析结果，确定多个适合的训练场景。这些场景可以基于不同的环境、任务和条件来进行设置。例如：假设目标场景用例是“合作训练训练”。通过对该场景用例的分析，可以得知训练场景需要涉及战场环境、合作决策、指挥协调等方面。基于这些分析结果，可以确定多个目标训练场景，如城市训练场景、山地训练场景、海上军事行动场景等。

针对每个目标训练场景，进行训练科目的分析。了解在每个训练场景中需要培养的技能、知识和能力。根据分析结果，确定适合每个训练场景的目标训练科目。例如：对于城市训练场景，训练科目可以包括小组合作、数据分析等。而对于山地训练场景，训练科目可以涉及山地导航、攀登绳索技术、高地合作等。通过分析每个训练场景的特点，可以确定适合的目标训练科目。

根据每个目标训练场景和对应的目标训练科目，确定目标场景用例对应的目标参数集合。这些参数集合包括在每个训练场景中所需的具体参数，如场景设置、任务目标、参与者角色等。例如：对于城市训练场景中的小组合作训练科目，目标参数集合可以包括场景中的建筑布局、人员分布、小组成员角色分配等。通过确定这些目标参数集合，可以更具体地定义目标场景用例。

利用目标参数集合，对目标场景用例进行场景渲染。这涉及创建虚拟环境、设定场景设置、生成参与者角色等步骤，以实现目标场景的呈现。例如：通过使用城市训练场景的目标参数集合，可以进行场景渲染。这可能涉及创建城市地图、设置建筑物、放置人员、指定小组成员等。通过场景渲染，可以得到具体的目标场景，为后续的训练和模拟提供基础。

在一具体实施例中，执行步骤S103的过程可以具体包括如下步骤：

（1）对目标场景进行信息流遍历，确定对应的信息流数据；

（2）基于信息流数据对目标场景进行实例化模型组件匹配，确定多个实例化模型组件；

（3）通过多个实例化模型组件对目标场景进行协同模型匹配，确定目标协同模型；

（4）基于多个目标训练科目，通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合。

具体的，通过对目标场景进行分析，识别其中涉及的信息流。信息流是指在场景中传递的关键信息，可以是指令、数据、状态等。遍历场景中的各个元素，识别出场景中涉及的信息流数据。例如：假设目标场景是电力系统故障排除训练场景。通过遍历场景，可以识别出信息流数据，如电力系统状态信息、故障报警信息、维修指令等。根据信息流数据，匹配对应的实例化模型组件。实例化模型组件是指预定义的具体模型组件，其功能与特定的信息流数据相匹配。通过匹配信息流数据，确定多个适合的实例化模型组件。例如：对于电力系统故障排除训练场景中的电力系统状态信息，可以匹配一个实例化模型组件，如电力系统状态监测模型组件。对于维修指令的信息流数据，可以匹配一个实例化模型组件，如维修指令生成模型组件。基于多个实例化模型组件，进行协同模型匹配。协同模型是指多个模型组件之间相互协作，共同完成场景的模拟和训练。根据实例化模型组件的匹配结果，确定目标协同模型。例如：对于电力系统故障排除训练场景，通过匹配电力系统状态监测模型组件和维修指令生成模型组件，可以确定一个目标协同模型。

利用目标协同模型，从多个目标训练科目中提取相关的训练科目用例。训练科目用例是指具体的训练任务和要求，与目标协同模型相匹配。通过提取训练科目用例，生成对应的训练科目用例集合。例如：对于电力系统故障排除协同模型，可以从相关的训练科目中提取训练科目用例，如电力系统故障诊断用例、维修指令生成用例等，形成一个训练科目用例集合。

在一具体实施例中，执行步骤S104的过程可以具体包括如下步骤：

（1）对训练科目用例集合进行参与人数分析，确定用户数量；

（2）对训练科目用例集合进行协作方式分析，确定多个协作方式；

（3）基于用户数量，通过多个协作方式对多个用户进行智能体映射，得到多个目标智能体。

具体的，分析训练科目用例集合中每个训练科目所需的最小和最大参与人数。根据这些参与人数范围，确定用户数量。可以根据训练需求和系统能力进行用户数量的调整。例如：假设训练科目用例集合中包含两个训练科目，第一个科目要求最少2人参与，最多4人参与；第二个科目要求最少3人参与，最多5人参与。根据这些要求，确定用户数量为3人。分析训练科目用例集合中每个训练科目所支持的协作方式。协作方式可以包括完全协作、完全竞争、混合模式等。根据训练需求和系统能力，确定多个适合的协作方式。例如：对于训练科目用例集合中的第一个训练科目，支持完全协作和混合模式两种协作方式；对于第二个训练科目，支持完全竞争和混合模式两种协作方式。根据这些支持的协作方式，确定多个协作方式为完全协作和完全竞争。根据确定的用户数量和协作方式，将用户映射为智能体。每个智能体代表一个用户参与训练任务，并具备相应的智能行为和决策能力。例如：假设确定了3个用户参与训练，并且采用完全协作的协作方式。则可以将这3个用户分别映射为3个目标智能体，每个目标智能体代表一个用户，具备协作能力。

在一具体实施例中，如图2所示，执行步骤S105的过程可以具体包括如下步骤：

S201、对多个目标智能体进行ID匹配，确定每个目标智能体的ID信息；

S202、基于每个目标智能体的ID信息对多个目标智能体建立通信关系；

S203、通过平均场理论算法对多个目标智能体进行值函数分解，生成每个目标智能体的状态值函数以及动作依赖优势函数；

S204、通过每个目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析，得到模拟训练结果。

需要说明的是，在对多个目标智能体建立通信关系时，各目标智能体向系统申请获得全局唯一ID，目标智能体上报自己的功能职责；目标智能体发送一个行为元语后，通过控制层首先查询此元语目的地目标智能体的ID及其位置信息，如果不属于本联邦成员则通信控制层对等待传输的行为元语进行相应的交互编码，否则继续；将此元语传送到指定ID的目标智能体；通信控制层对等待传输的行为元语进行相应的交互编码；通过局部服务目标智能体发送到目的联邦成员；目的联邦成员收到此交互后，经解析后传递给相应的目标智能体，最终实现通过每个目标智能体的ID信息对多个目标智能体建立通信关系。

进一步的，使用平均场理论算法对多个目标智能体进行建模和分析。该算法可以将多个智能体的相互作用简化为与平均场相互作用，并分解每个智能体的值函数为状态值函数和动作依赖优势函数。在值函数分解过程中，首先定义状态值函数，它表示每个目标智能体在给定状态下的预期回报。然后，定义动作依赖优势函数，它表示每个目标智能体在给定状态和采取特定动作时相对于平均场的优势。利用生成的状态值函数和动作依赖优势函数，进行模拟协同训练。在训练过程中，每个目标智能体根据自身的值函数进行动作选择，并与其他智能体协同合作。训练过程可以采用强化学习算法，如深度强化学习方法。通过模拟协同训练，可以观察智能体之间的协同行为、相互影响以及整体性能的变化。训练结果可以包括智能体的学习曲线、协同效果评估、最终任务完成情况等。例如：根据生成的状态值函数和动作依赖优势函数，智能体A和B进行模拟协同训练。每个智能体根据自身的值函数选择动作，并与对方进行协同合作。通过多次训练迭代，观察目标智能体之间的协同效果和性能改善情况。

需要说明的是，在本发明实施例中，平均场理论算法的表达式具体可以为：

其中，为平均场理论算法的状态动作价值函数，/>为状态值函数，为优势函数，/>为局部状态值函数，/>为平均场状态值函数，/>为邻域动作分布；其中，s代表状态，a代表动作，i代表智能体，o代表观察，/>代表智能体i的观察-动作键值对，/>代表邻域动作函数，/>代表智能体i的动作a的邻域动作，/>代表优势函数/>的参数系数，/>代表平均场状态值函数的参数系数，/>代表智能体i的观察o的邻域观察函数。

其中，在本申请算法中，平均场理论算法的整体流程具体为：首先初始化网络参数，进而初始化重放缓冲区和缓冲区大小，并输入智能体进行观察，同时根据本地网络计算结果，确定对应的行动。进一步，采取协同式行动，获得对应的奖励，并将经验存储到重放缓冲区，最终，基于对应的样本，通过平均场网络计算值进行模型训练，输出对应的全局值并结束。

在一具体实施例中，执行步骤S204的过程可以具体包括如下步骤：

（1）通过每个目标智能体的状态值函数以及动作依赖优势函数对每个目标智能体进行行为分析，确定每个目标智能体的行为数据；

（2）通过每个目标智能体的行为数据对多个目标智能体进行配对分析，得到多组目标智能体对；

（3）对每组目标智能体对进行作用权重分析，确定每组目标智能体对的权重数据；

（4）基于每组目标智能体对的权重数据以及每个目标智能体的行为数据，对多个目标智能体进行模拟协同训练并分析，得到模拟训练结果。

具体的，需要说明的是，整体的相互作用可以隐式分解为每对目标智能体之间成对的相互作用，不同的动作和权重对目标智能体有不同而影响，因此每对局部交互作用的权重是不同的，因子分解的关键之一目标是智能体i通过与目标智能体k交互得到的奖励可以分解成两部分，一部分是目标智能体i个人努力，另一部分是通过目标智能体k获得的努力。利用平均场技术估计，从而进一步解决可扩展性问题，并通过计算加权平均值进行概化。对于目标智能体i，每个相邻目标智能体k的动作可以被计算为邻域动作分布和其波动值的和。在本发明实施例中，利用每个目标智能体的状态值函数和动作依赖优势函数，可以计算每个目标智能体在给定状态下采取各种动作的期望值。这些期望值可以被视为每个目标智能体的行为数据。通过Q值学习算法中的值函数和策略更新过程，可以确定每个目标智能体在不同状态下采取的最优动作，并得到对应的行为数据。根据行为数据，对多个目标智能体进行配对分析。可以使用不同的配对策略，如随机配对、循环配对等。每组目标智能体对可以由两个具体的智能体组成。例如：假设有四个目标智能体A、B、C、D，根据行为数据进行配对分析，得到两组目标智能体对：(A, B)和(C, D)。在模拟协同训练中，每组目标智能体对的作用权重可以影响它们之间的相互作用程度。这些权重可以根据特定的需求进行设定，如均匀分配权重或根据智能体性能调整权重。根据平均场理论和值分解相结合的Q值学习算法，可以通过模拟协同训练过程中智能体的交互行为来调整每组目标智能体对的权重数据。利用Q值学习算法，基于每组目标智能体对的权重数据和每个目标智能体的行为数据，进行模拟协同训练。在训练过程中，智能体根据当前状态和行为数据选择最优动作，并通过与其他智能体的协同合作来达到最佳性能。

在一具体实施例中，执行基于每组目标智能体对的权重数据以及每个目标智能体的行为数据，对多个目标智能体进行模拟协同训练并分析，得到模拟训练结果步骤的过程，包括如下步骤：

（1）基于每组目标智能体对的权重数据以及每个目标智能体的行为数据，对多个目标智能体进行邻域动作分布分析，确定每个目标智能体对应的邻域动作分布数据；

（2）通过平均场理论算法对每个目标智能体对应的邻域动作分布数据进行概化处理，得到每个目标智能体对应的波动值总和；

（3）通过每个目标智能体对应的波动值总和对多个目标智能体进行模拟协同训练并分析，得到模拟训练结果。

需要说明的是，通过观察每组目标智能体对的行为数据和权重数据，可以计算每个目标智能体在其邻域内采取各种动作的概率分布。这样可以确定每个目标智能体对应的邻域动作分布数据。例如：对于目标智能体A，根据配对分析得到与之配对的智能体B。根据智能体A的行为数据和权重数据，可以计算智能体A在其邻域内采取各种动作的概率分布。利用平均场理论算法，可以对每个目标智能体的邻域动作分布数据进行概化处理。这个处理过程可以将邻域动作分布数据转化为每个目标智能体对应的波动值，反映邻域动作的不确定性或波动程度。然后将波动值进行求和，得到每个目标智能体对应的波动值总和。根据每个目标智能体对应的波动值总和，可以将多个目标智能体划分为不同的波动值级别。较高的波动值总和可能表示智能体之间的协同困难或不稳定性。然后，利用模拟协同训练方法，对这些智能体进行训练并进行结果分析。可以根据波动值总和的不同级别，观察协同训练的效果、收敛性以及智能体之间的相互影响等方面的变化。

本发明实施例还提供了一种基于平均场理论算法的多学员模拟训练系统，如图3所示，该基于平均场理论算法的多学员模拟训练系统具体包括：

获取模块301，用于获取模拟训练场景类型，并通过所述模拟训练场景类型进行场景用例匹配，确定目标场景用例；

提取模块302，用于对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景；

匹配模块303，用于基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；

映射模块304，用于基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；

分析模块305，用于基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

通过上述各个模块的协同合作，获取模拟训练场景类型，通过模拟训练场景类型进行场景用例匹配，确定目标场景用例；对目标场景用例进行参数提取，确定目标场景用例的目标参数集合，通过目标参数集合对目标场景用例进行场景渲染，得到目标场景；基于目标场景进行协同模型匹配，确定目标协同模型，通过目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；基于训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；基于平均场理论算法对多个目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。在本申请中，通过设计实现模型中多智能体之间的协商和交互策略，满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求，促进规模性、多人次的装备教学和训练的发展。通过本系统的使用，综合培训人员对系统的使用能力，达到仿真训练、提升效率、协同训练效果，以进一步提升多学员进行模拟训练时的准确率。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于平均场理论算法的多学员模拟训练方法，其特征在于，方法包括：

获取模拟训练场景类型，并通过所述模拟训练场景类型进行场景用例匹配，确定目标场景用例；

对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景；

基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合；

基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体；

基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果。

2.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述对所述目标场景用例进行参数提取，确定所述目标场景用例对应的目标参数集合，并通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景步骤，包括：

对所述目标场景用例进行训练场景分析，确定多个目标训练场景；

对多个所述目标训练场景进行训练科目分析，确定多个目标训练科目；

基于多个所述目标训练科目，对多个所述目标训练场景确定所述目标场景用例对应的目标参数集合；

通过所述目标参数集合对所述目标场景用例进行场景渲染，得到目标场景。

3.根据权利要求2所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述基于所述目标场景进行协同模型匹配，确定目标协同模型，并通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合步骤，包括：

对所述目标场景进行信息流遍历，确定对应的信息流数据；

基于所述信息流数据对所述目标场景进行实例化模型组件匹配，确定多个实例化模型组件；

通过多个所述实例化模型组件对所述目标场景进行协同模型匹配，确定目标协同模型；

基于多个所述目标训练科目，通过所述目标协同模型进行训练科目用例提取，生成对应的训练科目用例集合。

4.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述基于所述训练科目用例集合对多个用户进行智能体映射，得到多个目标智能体步骤，包括：

对所述训练科目用例集合进行参与人数分析，确定用户数量；

对所述训练科目用例集合进行协作方式分析，确定多个协作方式；

基于所述用户数量，通过多个所述协作方式对多个用户进行智能体映射，得到多个目标智能体。

5.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析，得到对应的模拟训练结果步骤，包括：

对多个所述目标智能体进行ID匹配，确定每个所述目标智能体的ID信息；

基于每个所述目标智能体的ID信息对多个所述目标智能体建立通信关系；

通过所述平均场理论算法对多个所述目标智能体进行值函数分解，生成每个所述目标智能体的状态值函数以及动作依赖优势函数；

通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析，得到所述模拟训练结果。

6.根据权利要求5所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析，得到所述模拟训练结果步骤，包括：

通过每个所述目标智能体的状态值函数以及动作依赖优势函数对每个所述目标智能体进行行为分析，确定每个所述目标智能体的行为数据；

通过每个所述目标智能体的行为数据对多个所述目标智能体进行配对分析，得到多组目标智能体对；

对每组所述目标智能体对进行作用权重分析，确定每组所述目标智能体对的权重数据；

基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果。

7.根据权利要求6所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，所述基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果步骤，包括：

基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据，对多个所述目标智能体进行邻域动作分布分析，确定每个所述目标智能体对应的邻域动作分布数据；

通过所述平均场理论算法对每个所述目标智能体对应的邻域动作分布数据进行概化处理，得到每个所述目标智能体对应的波动值总和；

通过每个所述目标智能体对应的波动值总和对多个所述目标智能体进行模拟协同训练并分析，得到所述模拟训练结果。

8.一种基于平均场理论算法的多学员模拟训练系统，用以执行如权利要求1至7任一项所述的基于平均场理论算法的多学员模拟训练方法，其特征在于，包括：