CN116628520A - 基于平均场理论算法的多学员模拟训练方法及系统 - Google Patents

基于平均场理论算法的多学员模拟训练方法及系统 Download PDF

Info

Publication number
CN116628520A
CN116628520A CN202310904428.8A CN202310904428A CN116628520A CN 116628520 A CN116628520 A CN 116628520A CN 202310904428 A CN202310904428 A CN 202310904428A CN 116628520 A CN116628520 A CN 116628520A
Authority
CN
China
Prior art keywords
target
training
scene
agent
collaborative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310904428.8A
Other languages
English (en)
Other versions
CN116628520B (zh
Inventor
白梦莹
杨晓龙
魏红珍
于立北
高金超
郑伟
陈立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
707th Research Institute of CSIC
Original Assignee
707th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 707th Research Institute of CSIC filed Critical 707th Research Institute of CSIC
Priority to CN202310904428.8A priority Critical patent/CN116628520B/zh
Publication of CN116628520A publication Critical patent/CN116628520A/zh
Application granted granted Critical
Publication of CN116628520B publication Critical patent/CN116628520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B9/00Simulators for teaching or training purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种基于平均场理论算法的多学员模拟训练方法及系统,用于提高多学员进行模拟训练时的准确率。包括:获取模拟训练场景类型,通过模拟训练场景类型进行场景用例匹配,确定目标场景用例;对目标场景用例进行参数提取,确定目标场景用例的目标参数集合,通过目标参数集合对目标场景用例进行场景渲染,得到目标场景;基于目标场景进行协同模型匹配,确定目标协同模型,通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;基于训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;基于平均场理论算法对多个目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。

Description

基于平均场理论算法的多学员模拟训练方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于平均场理论算法的多学员模拟训练方法及系统。
背景技术
模拟训练是指一种可以模拟工作环境、工作过程和装备工作状态的训练方式,模拟训练综合评估系统能够记录学员的操作流程,对其操作进行合理的评估,检测训练效果,及时发现错误并做出纠正,分析和解决出现的问题,显著的提高训练的科学性。然而,目前训练手段单一、管理控制缺失、考核评估滞后等现象比较突出,因此当前在多学员进行模拟训练时准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种基于平均场理论算法的多学员模拟训练方法及系统,解决了多学员进行模拟训练时准确率较低的技术问题。
本发明提供了一种基于平均场理论算法的多学员模拟训练方法,包括:获取模拟训练场景类型,并通过所述模拟训练场景类型进行场景用例匹配,确定目标场景用例;对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景;基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
在本发明中,所述对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景步骤,包括:对所述目标场景用例进行训练场景分析,确定多个目标训练场景;对多个所述目标训练场景进行训练科目分析,确定多个目标训练科目;基于多个所述目标训练科目,对多个所述目标训练场景确定所述目标场景用例对应的目标参数集合;通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景。
在本发明中,所述基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合步骤,包括:对所述目标场景进行信息流遍历,确定对应的信息流数据;基于所述信息流数据对所述目标场景进行实例化模型组件匹配,确定多个实例化模型组件;通过多个所述实例化模型组件对所述目标场景进行协同模型匹配,确定目标协同模型;基于多个所述目标训练科目,通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合。
在本发明中,所述基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体步骤,包括:对所述训练科目用例集合进行参与人数分析,确定用户数量;对所述训练科目用例集合进行协作方式分析,确定多个协作方式;基于所述用户数量,通过多个所述协作方式对多个用户进行智能体映射,得到多个目标智能体。
在本发明中,所述基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果步骤,包括:对多个所述目标智能体进行ID匹配,确定每个所述目标智能体的ID信息;基于每个所述目标智能体的ID信息对多个所述目标智能体建立通信关系;通过所述平均场理论算法对多个所述目标智能体进行值函数分解,生成每个所述目标智能体的状态值函数以及动作依赖优势函数;通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析,得到所述模拟训练结果。
在本发明中,所述通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析,得到所述模拟训练结果步骤,包括:通过每个所述目标智能体的状态值函数以及动作依赖优势函数对每个所述目标智能体进行行为分析,确定每个所述目标智能体的行为数据;通过每个所述目标智能体的行为数据对多个所述目标智能体进行配对分析,得到多组目标智能体对;对每组所述目标智能体对进行作用权重分析,确定每组所述目标智能体对的权重数据;基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果。
在本发明中,所述基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果步骤,包括:基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行邻域动作分布分析,确定每个所述目标智能体对应的邻域动作分布数据;通过所述平均场理论算法对每个所述目标智能体对应的邻域动作分布数据进行概化处理,得到每个所述目标智能体对应的波动值总和;通过每个所述目标智能体对应的波动值总和对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果。
本发明还提供了一种基于平均场理论算法的多学员模拟训练系统,包括:
获取模块,用于获取模拟训练场景类型,并通过所述模拟训练场景类型进行场景用例匹配,确定目标场景用例;
提取模块,用于对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景;
匹配模块,用于基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;
映射模块,用于基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;
分析模块,用于基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
本发明提供的技术方案中,获取模拟训练场景类型,通过模拟训练场景类型进行场景用例匹配,确定目标场景用例;对目标场景用例进行参数提取,确定目标场景用例的目标参数集合,通过目标参数集合对目标场景用例进行场景渲染,得到目标场景;基于目标场景进行协同模型匹配,确定目标协同模型,通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;基于训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;基于平均场理论算法对多个目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。在本申请中,通过设计实现模型中多智能体之间的协商和交互策略,满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求,促进规模性、多人次的装备教学和训练的发展。通过本系统的使用,综合培训人员对系统的使用能力,达到仿真训练、提升效率、协同训练效果,以进一步提升多学员进行模拟训练时的准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于平均场理论算法的多学员模拟训练方法的流程图。
图2为本发明实施例中对多个目标智能体进行模拟协同训练并分析的流程图。
图3为本发明实施例中基于平均场理论算法的多学员模拟训练系统的示意图。
附图标记:
301、获取模块;302、提取模块;303、匹配模块;304、映射模块;305、分析模块。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,图1是本发明实施例的基于平均场理论算法的多学员模拟训练方法的流程图,如图1所示,包括以下步骤:
S101、获取模拟训练场景类型,并通过模拟训练场景类型进行场景用例匹配,确定目标场景用例;
S102、对目标场景用例进行参数提取,确定目标场景用例对应的目标参数集合,并通过目标参数集合对目标场景用例进行场景渲染,得到目标场景;
S103、基于目标场景进行协同模型匹配,确定目标协同模型,并通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;
S104、基于训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;
S105、基于平均场理论算法对多个目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
需要说明的是,首先,需要获取可用的模拟训练场景类型。这可以通过场景库或预定义的场景类型列表来实现。然后,根据需求,将目标训练场景类型与可用的场景类型进行匹配。匹配可以基于场景特征、训练要求或其他相关因素来进行。匹配成功后,确定目标场景用例,这些用例描述了在特定场景中需要执行的任务、操作或学习目标。例如:假设训练系统是用于飞行模拟训练。可用的模拟训练场景类型包括起飞、降落、空中导航等。用户选择了"降落"作为目标训练场景类型。系统通过场景用例匹配,确定了目标场景用例为在模拟环境中执行一次降落操作。对于目标场景用例,需要从中提取关键参数。这些参数可能包括时间限制、环境设置、任务目标、参与者数量等。提取目标参数集合后,可以使用这些参数来进行场景渲染。场景渲染可以涉及创建虚拟环境、加载相关模型、设置物理特性等,以实现目标场景的可视化呈现。例如:对于"降落"场景用例,提取的目标参数集合可能包括:飞机类型(例如客机、直升机)、机场天气条件(例如风速、能见度)、降落跑道长度等。通过这些参数,可以进行场景渲染,生成包含特定飞机类型、特定天气条件和跑道长度的降落场景。在目标场景确定后,需要匹配适合的协同模型。协同模型定义了参与训练的智能体之间的互动方式、协作模式和通信方式等。根据目标场景,选择合适的协同模型,以便在训练过程中实现有效的协同训练。然后,使用目标协同模型来提取与训练科目相关的用例,形成训练科目用例集合。例如:对于"降落"场景,可以选择"飞行员-机场塔台"协同模型。该模型模拟了飞行员与机场塔台之间的通信和协作。通过该模型,可以提取与飞行员和机场塔台相关的训练科目用例,例如通信指令、降落指引等,形成训练科目用例集合。根据训练科目用例集合,需要将多个用户映射到相应的智能体上。这可以通过分配用户ID或其他标识符来实现。每个用户将被映射到适当的智能体,以便在协同训练中扮演相应的角色。例如:对于"降落"场景的训练科目用例集合,有两个用户参与:一个扮演飞行员角色,另一个扮演机场塔台操作员角色。这两个用户将被映射到相应的智能体上,使得飞行员智能体和机场塔台智能体能够在协同训练中相互交互。利用平均场理论算法,对多个目标智能体进行模拟协同训练。该算法考虑了智能体之间的相互作用和协同效应,并根据智能体的状态和动作进行分析和决策。通过模拟协同训练,可以获得对应的训练结果,包括智能体的性能评估、协同效果分析等。例如:在"降落"场景中,通过模拟协同训练,飞行员智能体和机场塔台智能体可以进行实时交互和决策。平均场理论算法考虑了两者之间的协同效应,分析他们的行为和决策,得出训练结果,例如评估降落的安全性和效率、分析协同交互的优化策略等。
本发明实施例中,获取模拟训练场景类型,通过模拟训练场景类型进行场景用例匹配,确定目标场景用例;对目标场景用例进行参数提取,确定目标场景用例的目标参数集合,通过目标参数集合对目标场景用例进行场景渲染,得到目标场景;基于目标场景进行协同模型匹配,确定目标协同模型,通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;基于训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;基于平均场理论算法对多个目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。在本申请中,通过设计实现模型中多智能体之间的协商和交互策略,满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求,促进规模性、多人次的装备教学和训练的发展。通过本系统的使用,综合培训人员对系统的使用能力,达到仿真训练、提升效率、协同训练效果,以进一步提升多学员进行模拟训练时的准确率。
在一具体实施例中,执行步骤S102的过程可以具体包括如下步骤:
(1)对目标场景用例进行训练场景分析,确定多个目标训练场景;
(2)对多个目标训练场景进行训练科目分析,确定多个目标训练科目;
(3)基于多个目标训练科目,对多个目标训练场景确定目标场景用例对应的目标参数集合;
(4)通过目标参数集合对目标场景用例进行场景渲染,得到目标场景。
具体的,首先,对目标场景用例进行分析,了解其特征、目标和要求。然后,根据分析结果,确定多个适合的训练场景。这些场景可以基于不同的环境、任务和条件来进行设置。例如:假设目标场景用例是“合作训练训练”。通过对该场景用例的分析,可以得知训练场景需要涉及战场环境、合作决策、指挥协调等方面。基于这些分析结果,可以确定多个目标训练场景,如城市训练场景、山地训练场景、海上军事行动场景等。
针对每个目标训练场景,进行训练科目的分析。了解在每个训练场景中需要培养的技能、知识和能力。根据分析结果,确定适合每个训练场景的目标训练科目。例如:对于城市训练场景,训练科目可以包括小组合作、数据分析等。而对于山地训练场景,训练科目可以涉及山地导航、攀登绳索技术、高地合作等。通过分析每个训练场景的特点,可以确定适合的目标训练科目。
根据每个目标训练场景和对应的目标训练科目,确定目标场景用例对应的目标参数集合。这些参数集合包括在每个训练场景中所需的具体参数,如场景设置、任务目标、参与者角色等。例如:对于城市训练场景中的小组合作训练科目,目标参数集合可以包括场景中的建筑布局、人员分布、小组成员角色分配等。通过确定这些目标参数集合,可以更具体地定义目标场景用例。
利用目标参数集合,对目标场景用例进行场景渲染。这涉及创建虚拟环境、设定场景设置、生成参与者角色等步骤,以实现目标场景的呈现。例如:通过使用城市训练场景的目标参数集合,可以进行场景渲染。这可能涉及创建城市地图、设置建筑物、放置人员、指定小组成员等。通过场景渲染,可以得到具体的目标场景,为后续的训练和模拟提供基础。
在一具体实施例中,执行步骤S103的过程可以具体包括如下步骤:
(1)对目标场景进行信息流遍历,确定对应的信息流数据;
(2)基于信息流数据对目标场景进行实例化模型组件匹配,确定多个实例化模型组件;
(3)通过多个实例化模型组件对目标场景进行协同模型匹配,确定目标协同模型;
(4)基于多个目标训练科目,通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合。
具体的,通过对目标场景进行分析,识别其中涉及的信息流。信息流是指在场景中传递的关键信息,可以是指令、数据、状态等。遍历场景中的各个元素,识别出场景中涉及的信息流数据。例如:假设目标场景是电力系统故障排除训练场景。通过遍历场景,可以识别出信息流数据,如电力系统状态信息、故障报警信息、维修指令等。根据信息流数据,匹配对应的实例化模型组件。实例化模型组件是指预定义的具体模型组件,其功能与特定的信息流数据相匹配。通过匹配信息流数据,确定多个适合的实例化模型组件。例如:对于电力系统故障排除训练场景中的电力系统状态信息,可以匹配一个实例化模型组件,如电力系统状态监测模型组件。对于维修指令的信息流数据,可以匹配一个实例化模型组件,如维修指令生成模型组件。基于多个实例化模型组件,进行协同模型匹配。协同模型是指多个模型组件之间相互协作,共同完成场景的模拟和训练。根据实例化模型组件的匹配结果,确定目标协同模型。例如:对于电力系统故障排除训练场景,通过匹配电力系统状态监测模型组件和维修指令生成模型组件,可以确定一个目标协同模型。
利用目标协同模型,从多个目标训练科目中提取相关的训练科目用例。训练科目用例是指具体的训练任务和要求,与目标协同模型相匹配。通过提取训练科目用例,生成对应的训练科目用例集合。例如:对于电力系统故障排除协同模型,可以从相关的训练科目中提取训练科目用例,如电力系统故障诊断用例、维修指令生成用例等,形成一个训练科目用例集合。
在一具体实施例中,执行步骤S104的过程可以具体包括如下步骤:
(1)对训练科目用例集合进行参与人数分析,确定用户数量;
(2)对训练科目用例集合进行协作方式分析,确定多个协作方式;
(3)基于用户数量,通过多个协作方式对多个用户进行智能体映射,得到多个目标智能体。
具体的,分析训练科目用例集合中每个训练科目所需的最小和最大参与人数。根据这些参与人数范围,确定用户数量。可以根据训练需求和系统能力进行用户数量的调整。例如:假设训练科目用例集合中包含两个训练科目,第一个科目要求最少2人参与,最多4人参与;第二个科目要求最少3人参与,最多5人参与。根据这些要求,确定用户数量为3人。分析训练科目用例集合中每个训练科目所支持的协作方式。协作方式可以包括完全协作、完全竞争、混合模式等。根据训练需求和系统能力,确定多个适合的协作方式。例如:对于训练科目用例集合中的第一个训练科目,支持完全协作和混合模式两种协作方式;对于第二个训练科目,支持完全竞争和混合模式两种协作方式。根据这些支持的协作方式,确定多个协作方式为完全协作和完全竞争。根据确定的用户数量和协作方式,将用户映射为智能体。每个智能体代表一个用户参与训练任务,并具备相应的智能行为和决策能力。例如:假设确定了3个用户参与训练,并且采用完全协作的协作方式。则可以将这3个用户分别映射为3个目标智能体,每个目标智能体代表一个用户,具备协作能力。
在一具体实施例中,如图2所示,执行步骤S105的过程可以具体包括如下步骤:
S201、对多个目标智能体进行ID匹配,确定每个目标智能体的ID信息;
S202、基于每个目标智能体的ID信息对多个目标智能体建立通信关系;
S203、通过平均场理论算法对多个目标智能体进行值函数分解,生成每个目标智能体的状态值函数以及动作依赖优势函数;
S204、通过每个目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析,得到模拟训练结果。
需要说明的是,在对多个目标智能体建立通信关系时,各目标智能体向系统申请获得全局唯一ID,目标智能体上报自己的功能职责;目标智能体发送一个行为元语后,通过控制层首先查询此元语目的地目标智能体的ID及其位置信息,如果不属于本联邦成员则通信控制层对等待传输的行为元语进行相应的交互编码,否则继续;将此元语传送到指定ID的目标智能体;通信控制层对等待传输的行为元语进行相应的交互编码;通过局部服务目标智能体发送到目的联邦成员;目的联邦成员收到此交互后,经解析后传递给相应的目标智能体,最终实现通过每个目标智能体的ID信息对多个目标智能体建立通信关系。
进一步的,使用平均场理论算法对多个目标智能体进行建模和分析。该算法可以将多个智能体的相互作用简化为与平均场相互作用,并分解每个智能体的值函数为状态值函数和动作依赖优势函数。在值函数分解过程中,首先定义状态值函数,它表示每个目标智能体在给定状态下的预期回报。然后,定义动作依赖优势函数,它表示每个目标智能体在给定状态和采取特定动作时相对于平均场的优势。利用生成的状态值函数和动作依赖优势函数,进行模拟协同训练。在训练过程中,每个目标智能体根据自身的值函数进行动作选择,并与其他智能体协同合作。训练过程可以采用强化学习算法,如深度强化学习方法。通过模拟协同训练,可以观察智能体之间的协同行为、相互影响以及整体性能的变化。训练结果可以包括智能体的学习曲线、协同效果评估、最终任务完成情况等。例如:根据生成的状态值函数和动作依赖优势函数,智能体A和B进行模拟协同训练。每个智能体根据自身的值函数选择动作,并与对方进行协同合作。通过多次训练迭代,观察目标智能体之间的协同效果和性能改善情况。
需要说明的是,在本发明实施例中,平均场理论算法的表达式具体可以为:
其中,为平均场理论算法的状态动作价值函数,/>为状态值函数,为优势函数,/>为局部状态值函数,/>为平均场状态值函数,/>为邻域动作分布;其中,s代表状态,a代表动作,i代表智能体,o代表观察,/>代表智能体i的观察-动作键值对,/>代表邻域动作函数,/>代表智能体i的动作a的邻域动作,/>代表优势函数/>的参数系数,/>代表平均场状态值函数的参数系数,/>代表智能体i的观察o的邻域观察函数。
其中,在本申请算法中,平均场理论算法的整体流程具体为:首先初始化网络参数,进而初始化重放缓冲区和缓冲区大小,并输入智能体进行观察,同时根据本地网络计算结果,确定对应的行动。进一步,采取协同式行动,获得对应的奖励,并将经验存储到重放缓冲区,最终,基于对应的样本,通过平均场网络计算值进行模型训练,输出对应的全局值并结束。
在一具体实施例中,执行步骤S204的过程可以具体包括如下步骤:
(1)通过每个目标智能体的状态值函数以及动作依赖优势函数对每个目标智能体进行行为分析,确定每个目标智能体的行为数据;
(2)通过每个目标智能体的行为数据对多个目标智能体进行配对分析,得到多组目标智能体对;
(3)对每组目标智能体对进行作用权重分析,确定每组目标智能体对的权重数据;
(4)基于每组目标智能体对的权重数据以及每个目标智能体的行为数据,对多个目标智能体进行模拟协同训练并分析,得到模拟训练结果。
具体的,需要说明的是,整体的相互作用可以隐式分解为每对目标智能体之间成对的相互作用,不同的动作和权重对目标智能体有不同而影响,因此每对局部交互作用的权重是不同的,因子分解的关键之一目标是智能体i通过与目标智能体k交互得到的奖励可以分解成两部分,一部分是目标智能体i个人努力,另一部分是通过目标智能体k获得的努力。利用平均场技术估计,从而进一步解决可扩展性问题,并通过计算加权平均值进行概化。对于目标智能体i,每个相邻目标智能体k的动作可以被计算为邻域动作分布和其波动值的和。在本发明实施例中,利用每个目标智能体的状态值函数和动作依赖优势函数,可以计算每个目标智能体在给定状态下采取各种动作的期望值。这些期望值可以被视为每个目标智能体的行为数据。通过Q值学习算法中的值函数和策略更新过程,可以确定每个目标智能体在不同状态下采取的最优动作,并得到对应的行为数据。根据行为数据,对多个目标智能体进行配对分析。可以使用不同的配对策略,如随机配对、循环配对等。每组目标智能体对可以由两个具体的智能体组成。例如:假设有四个目标智能体A、B、C、D,根据行为数据进行配对分析,得到两组目标智能体对:(A, B)和(C, D)。在模拟协同训练中,每组目标智能体对的作用权重可以影响它们之间的相互作用程度。这些权重可以根据特定的需求进行设定,如均匀分配权重或根据智能体性能调整权重。根据平均场理论和值分解相结合的Q值学习算法,可以通过模拟协同训练过程中智能体的交互行为来调整每组目标智能体对的权重数据。利用Q值学习算法,基于每组目标智能体对的权重数据和每个目标智能体的行为数据,进行模拟协同训练。在训练过程中,智能体根据当前状态和行为数据选择最优动作,并通过与其他智能体的协同合作来达到最佳性能。
在一具体实施例中,执行基于每组目标智能体对的权重数据以及每个目标智能体的行为数据,对多个目标智能体进行模拟协同训练并分析,得到模拟训练结果步骤的过程,包括如下步骤:
(1)基于每组目标智能体对的权重数据以及每个目标智能体的行为数据,对多个目标智能体进行邻域动作分布分析,确定每个目标智能体对应的邻域动作分布数据;
(2)通过平均场理论算法对每个目标智能体对应的邻域动作分布数据进行概化处理,得到每个目标智能体对应的波动值总和;
(3)通过每个目标智能体对应的波动值总和对多个目标智能体进行模拟协同训练并分析,得到模拟训练结果。
需要说明的是,通过观察每组目标智能体对的行为数据和权重数据,可以计算每个目标智能体在其邻域内采取各种动作的概率分布。这样可以确定每个目标智能体对应的邻域动作分布数据。例如:对于目标智能体A,根据配对分析得到与之配对的智能体B。根据智能体A的行为数据和权重数据,可以计算智能体A在其邻域内采取各种动作的概率分布。利用平均场理论算法,可以对每个目标智能体的邻域动作分布数据进行概化处理。这个处理过程可以将邻域动作分布数据转化为每个目标智能体对应的波动值,反映邻域动作的不确定性或波动程度。然后将波动值进行求和,得到每个目标智能体对应的波动值总和。根据每个目标智能体对应的波动值总和,可以将多个目标智能体划分为不同的波动值级别。较高的波动值总和可能表示智能体之间的协同困难或不稳定性。然后,利用模拟协同训练方法,对这些智能体进行训练并进行结果分析。可以根据波动值总和的不同级别,观察协同训练的效果、收敛性以及智能体之间的相互影响等方面的变化。
本发明实施例还提供了一种基于平均场理论算法的多学员模拟训练系统,如图3所示,该基于平均场理论算法的多学员模拟训练系统具体包括:
获取模块301,用于获取模拟训练场景类型,并通过所述模拟训练场景类型进行场景用例匹配,确定目标场景用例;
提取模块302,用于对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景;
匹配模块303,用于基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;
映射模块304,用于基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;
分析模块305,用于基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
通过上述各个模块的协同合作,获取模拟训练场景类型,通过模拟训练场景类型进行场景用例匹配,确定目标场景用例;对目标场景用例进行参数提取,确定目标场景用例的目标参数集合,通过目标参数集合对目标场景用例进行场景渲染,得到目标场景;基于目标场景进行协同模型匹配,确定目标协同模型,通过目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;基于训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;基于平均场理论算法对多个目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。在本申请中,通过设计实现模型中多智能体之间的协商和交互策略,满足分布式系统中多用户在训练、考核评估场景下对资源的弹性需求,促进规模性、多人次的装备教学和训练的发展。通过本系统的使用,综合培训人员对系统的使用能力,达到仿真训练、提升效率、协同训练效果,以进一步提升多学员进行模拟训练时的准确率。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于平均场理论算法的多学员模拟训练方法,其特征在于,方法包括:
获取模拟训练场景类型,并通过所述模拟训练场景类型进行场景用例匹配,确定目标场景用例;
对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景;
基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;
基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;
基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
2.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景步骤,包括:
对所述目标场景用例进行训练场景分析,确定多个目标训练场景;
对多个所述目标训练场景进行训练科目分析,确定多个目标训练科目;
基于多个所述目标训练科目,对多个所述目标训练场景确定所述目标场景用例对应的目标参数集合;
通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景。
3.根据权利要求2所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合步骤,包括:
对所述目标场景进行信息流遍历,确定对应的信息流数据;
基于所述信息流数据对所述目标场景进行实例化模型组件匹配,确定多个实例化模型组件;
通过多个所述实例化模型组件对所述目标场景进行协同模型匹配,确定目标协同模型;
基于多个所述目标训练科目,通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合。
4.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体步骤,包括:
对所述训练科目用例集合进行参与人数分析,确定用户数量;
对所述训练科目用例集合进行协作方式分析,确定多个协作方式;
基于所述用户数量,通过多个所述协作方式对多个用户进行智能体映射,得到多个目标智能体。
5.根据权利要求1所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果步骤,包括:
对多个所述目标智能体进行ID匹配,确定每个所述目标智能体的ID信息;
基于每个所述目标智能体的ID信息对多个所述目标智能体建立通信关系;
通过所述平均场理论算法对多个所述目标智能体进行值函数分解,生成每个所述目标智能体的状态值函数以及动作依赖优势函数;
通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析,得到所述模拟训练结果。
6.根据权利要求5所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述通过每个所述目标智能体的状态值函数以及动作依赖优势函数进行模拟协同训练并分析,得到所述模拟训练结果步骤,包括:
通过每个所述目标智能体的状态值函数以及动作依赖优势函数对每个所述目标智能体进行行为分析,确定每个所述目标智能体的行为数据;
通过每个所述目标智能体的行为数据对多个所述目标智能体进行配对分析,得到多组目标智能体对;
对每组所述目标智能体对进行作用权重分析,确定每组所述目标智能体对的权重数据;
基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果。
7.根据权利要求6所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,所述基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果步骤,包括:
基于每组所述目标智能体对的权重数据以及每个所述目标智能体的行为数据,对多个所述目标智能体进行邻域动作分布分析,确定每个所述目标智能体对应的邻域动作分布数据;
通过所述平均场理论算法对每个所述目标智能体对应的邻域动作分布数据进行概化处理,得到每个所述目标智能体对应的波动值总和;
通过每个所述目标智能体对应的波动值总和对多个所述目标智能体进行模拟协同训练并分析,得到所述模拟训练结果。
8.一种基于平均场理论算法的多学员模拟训练系统,用以执行如权利要求1至7任一项所述的基于平均场理论算法的多学员模拟训练方法,其特征在于,包括:
获取模块,用于获取模拟训练场景类型,并通过所述模拟训练场景类型进行场景用例匹配,确定目标场景用例;
提取模块,用于对所述目标场景用例进行参数提取,确定所述目标场景用例对应的目标参数集合,并通过所述目标参数集合对所述目标场景用例进行场景渲染,得到目标场景;
匹配模块,用于基于所述目标场景进行协同模型匹配,确定目标协同模型,并通过所述目标协同模型进行训练科目用例提取,生成对应的训练科目用例集合;
映射模块,用于基于所述训练科目用例集合对多个用户进行智能体映射,得到多个目标智能体;
分析模块,用于基于平均场理论算法对多个所述目标智能体进行模拟协同训练并分析,得到对应的模拟训练结果。
CN202310904428.8A 2023-07-24 2023-07-24 基于平均场理论算法的多学员模拟训练方法及系统 Active CN116628520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310904428.8A CN116628520B (zh) 2023-07-24 2023-07-24 基于平均场理论算法的多学员模拟训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310904428.8A CN116628520B (zh) 2023-07-24 2023-07-24 基于平均场理论算法的多学员模拟训练方法及系统

Publications (2)

Publication Number Publication Date
CN116628520A true CN116628520A (zh) 2023-08-22
CN116628520B CN116628520B (zh) 2023-09-29

Family

ID=87642164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310904428.8A Active CN116628520B (zh) 2023-07-24 2023-07-24 基于平均场理论算法的多学员模拟训练方法及系统

Country Status (1)

Country Link
CN (1) CN116628520B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN112309138A (zh) * 2020-10-19 2021-02-02 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN113435564A (zh) * 2021-05-25 2021-09-24 北京理工大学 一种基于强化学习的增强现实多智能体协作对抗实现方法
CN113507412A (zh) * 2021-07-08 2021-10-15 中国人民解放军国防科技大学 网络互联中的SRv6路由器渐进部署方法、系统和存储介质
CN113610677A (zh) * 2021-07-23 2021-11-05 天津七所精密机电技术有限公司 一种基于网络模式的军事训练信息系统及其评估方法
CN113780576A (zh) * 2021-09-07 2021-12-10 中国船舶重工集团公司第七0九研究所 基于奖励自适应分配的合作多智能体强化学习方法
CN113887708A (zh) * 2021-10-26 2022-01-04 厦门渊亭信息科技有限公司 基于平均场的多智能体学习方法、存储介质及电子设备
CN115099124A (zh) * 2022-05-20 2022-09-23 北京仿真中心 一种多智能体分布协同训练仿真方法
CN115859283A (zh) * 2022-11-30 2023-03-28 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种基于多智能体强化学习的数据安全防御系统
CN116245156A (zh) * 2023-02-06 2023-06-09 中国科学技术大学 多智能体场景的强化学习与应用方法、系统、设备及介质
CN116382337A (zh) * 2023-03-30 2023-07-04 西安交通大学 一种规模无关的无人集群分布式协同任务分配方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN112488320A (zh) * 2020-09-25 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种针对复杂条件下多智能体的训练方法及系统
CN112309138A (zh) * 2020-10-19 2021-02-02 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN113435564A (zh) * 2021-05-25 2021-09-24 北京理工大学 一种基于强化学习的增强现实多智能体协作对抗实现方法
CN113507412A (zh) * 2021-07-08 2021-10-15 中国人民解放军国防科技大学 网络互联中的SRv6路由器渐进部署方法、系统和存储介质
CN113610677A (zh) * 2021-07-23 2021-11-05 天津七所精密机电技术有限公司 一种基于网络模式的军事训练信息系统及其评估方法
CN113780576A (zh) * 2021-09-07 2021-12-10 中国船舶重工集团公司第七0九研究所 基于奖励自适应分配的合作多智能体强化学习方法
CN113887708A (zh) * 2021-10-26 2022-01-04 厦门渊亭信息科技有限公司 基于平均场的多智能体学习方法、存储介质及电子设备
CN115099124A (zh) * 2022-05-20 2022-09-23 北京仿真中心 一种多智能体分布协同训练仿真方法
CN115859283A (zh) * 2022-11-30 2023-03-28 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种基于多智能体强化学习的数据安全防御系统
CN116245156A (zh) * 2023-02-06 2023-06-09 中国科学技术大学 多智能体场景的强化学习与应用方法、系统、设备及介质
CN116382337A (zh) * 2023-03-30 2023-07-04 西安交通大学 一种规模无关的无人集群分布式协同任务分配方法及系统

Also Published As

Publication number Publication date
CN116628520B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Duan et al. Interactive learning environment for bio-inspired optimization algorithms for UAV path planning
CN104318483A (zh) 一种虚拟电力应急抢修预案演练系统
CN109584667A (zh) 一种地铁大客流演练仿真培训系统及方法
CN108629717A (zh) 一种基于计算机网络技术的企业技术培训系统和方法
CN109033535A (zh) 一种基于vr技术的生产线设计可视化系统
Xue et al. Computational Experiments for Complex Social Systems: Integrated Design of Experiment System
Yuksek et al. Intelligent wargaming approach to increase course of action effectiveness in military operations
CN116628520B (zh) 基于平均场理论算法的多学员模拟训练方法及系统
CN110782039B (zh) 一种基于分层结构、多模块的人工智能即时作战引导平台
Te Brake et al. Developing adaptive user interfaces using a game-based simulation environment
Ponsa et al. The use of role playing in engineering curricula: a case study in human-automation systems
Zheng et al. Application of Augmented Reality Technology and Artificial Intelligence Satellite Communication Equipment in Power Grid Emergency Training
CN105225564A (zh) 基于三维的电力系统通信反事故演练平台
Yu Practical Exploration of Educational Metaverse——A Teacher Training System Based on Virtual Reality
CN113947509A (zh) 一种基于虚拟现实的模拟船舶应急训练方法
RU184327U1 (ru) Экспертный тренажно-моделирующий вычислительный комплекс специалистов управления авиацией
KR20220030760A (ko) 가상현실(vr)/증강현실(ar) 환경에서 협업 딥러닝을 활용한 개인 맞춤형 항공 조종사 훈련시스템 및 그 방법
Maffioletti et al. RMASBench: a benchmarking system for multi-agent coordination in urban search and rescue
Bučka et al. Distributed simulation as a platform of security community preparation
Roldán Gómez Adaptive and immersive interfaces to improve situational awareness in multi-robot missions
Topçu et al. Developing An HLA‐Based Naval Maneuvering Simulation
Rowe et al. Measuring pilot knowledge in training: the pathfinder network scaling technique
Li-qiong et al. Design of architecture and function for distributed communication network simulation training system (DCSS)
Tayeh et al. Interactive holograms for better construction information communication
Tengfei et al. Application analysis of 3d digital technology in power grid training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant