CN112364500B - 面向强化学习训练与评估的多并发实时对抗系统 - Google Patents

面向强化学习训练与评估的多并发实时对抗系统 Download PDF

Info

Publication number
CN112364500B
CN112364500B CN202011239807.2A CN202011239807A CN112364500B CN 112364500 B CN112364500 B CN 112364500B CN 202011239807 A CN202011239807 A CN 202011239807A CN 112364500 B CN112364500 B CN 112364500B
Authority
CN
China
Prior art keywords
countermeasure
deduction
confrontation
time
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011239807.2A
Other languages
English (en)
Other versions
CN112364500A (zh
Inventor
倪晚成
邢思远
胡健
王士贤
徐泽培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011239807.2A priority Critical patent/CN112364500B/zh
Publication of CN112364500A publication Critical patent/CN112364500A/zh
Application granted granted Critical
Publication of CN112364500B publication Critical patent/CN112364500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能技术领域,具体涉及了一种面向强化学习训练与评估的多并发实时对抗系统,旨在解决现有对抗系统未使用内存训练模式,因而系统不适用于强化学习方法的训练和评估,从而对抗决策效果达不到预期的问题。本发明包括:对抗调度管理模块,根据对抗需求创建对抗场所、对抗进程和对抗想定参数;引擎内核模块,结合推演人员或AI行动集,更新推演状态和态势,生成实时推演的态势数据;推演用户端,将实时推演的态势数据解析为以地图格呈现的图形并展示以及获取推演人员或AI的操作指令并生成行动集;对抗观摩端,将实时推演的态势数据解析为3D模型和图形并展示以及在设定的视角切换展示。本发明对抗系统对抗决策效果好、应用广泛。

Description

面向强化学习训练与评估的多并发实时对抗系统
技术领域
本发明属于人工智能技术领域,具体涉及了一种面向强化学习训练与评估的多并发实时对抗系统。
背景技术
随着以深度学习为代表的人工智能技术的发展,人类在图像处理、语音识别、文本处理等“感知智能”的任务上取得了长足的进步。然而“感知智能”是机器通过各种传感器具备获取信息的能力,主要缺陷是每个算法仅适用于特定的问题,不具有人类完整的认知能力。相对的,“认知智能”是指机器具有主动思考、理解和推理的能力,无需人类事先编程就可以实现自我学习,有目的地进行推理和与环境交互。虽然目前人类在“认知智能”的技术研究上仍处于起步阶段,尚未达到人类的水平,但其应用前景广阔、影响深远。
强化学习是一种更接近现实中生命体的学习方式,与“深度学习”技术不同,它不利用预先标注的数据,而是通过智能体与环境进行交互获得的奖赏来指导行为,目标是使智能体获得尽可能多的来自环境的奖励,学习最优策略。强化学习思想具备良好的迁移性,是认知智能的有效求解方法,也被视为一种通向“认知智能”的有效路径,近年来成为人工智能领域受到关注最多的话题之一。强化学习技术研究的基础是强化学习环境。强化学习环境是训练参数,测试算法和理论验证的基本平台。强化学习环境的建立目的是提供公平的算法评价平台,提升算法的可复现性,并减轻开发人员的工作量,节省重复工作的开发时间。目前,强化学习环境的研究工作取得了一定的进展,如OpenAI公司开发的Gym平台提供了多种智能体验证环境并支持各种科学计算库兼容例如TenserFlow、Pytorch等;暴雪公司和DeepMind公司针对即时策略游戏如StarCraft II(星际争霸II)合作开发强化学习平台PySC2,以此进行多智能体协同决策的研究;日本Preferred Networks公司针对跨平台的赛车游戏模拟器TORCS,开发出gym_torcs的强化学习环境,并提供类似OpenAI Gym的接口。
在多并发实时对抗中,其智能决策过程是基于对抗双方的态势分析,结合对抗的损失和回报等环境反馈来进行决策,这与强化学习的“在行动-评价的环境中获得知识,改进行动方案以适应环境”的理念不谋而合。因此,构建面向强化学习训练与评估的多并发实时对抗系统,让智能体在不断博弈中进行态势评估,优化指控决策网络,既是人工智能向复杂对抗认知决策发展的需求,也是计算机仿真、对抗推演的迫切需求,是传统对抗推演决策系统向智能化系统发展的关键。
发明内容
为了解决现有技术中的上述问题,即现有对抗系统未使用内存训练模式,因而系统不适用于强化学习方法的训练和评估,从而对抗决策效果达不到预期的问题,本发明提供了一种面向强化学习训练与评估的多并发实时对抗系统,该实时对抗系统包括引擎内核模块、对抗调度管理模块、推演用户端和对抗观摩端;
所述引擎内核模块,基于所述对抗调度管理模块发送的数据以及输入的推演人员或智能体AI的行动集,更新推演状态和态势,计算生成实时推演的态势数据,并将实时推演的态势数据发送至所述推演用户端和对抗观摩端;
所述对抗调度管理模块,用于根据输入的对抗需求创建对应的对抗场所、对抗进程和对抗的想定参数并发送至所述引擎内核模块;
所述推演用户端,用于将所述实时推演的态势数据解析为以地图格呈现的图形并进行展示以及获取推演人员的操作指令,生成行动集后发送给所述引擎内核模块;
所述对抗观摩端,用于将所述实时推演的态势数据解析为3D模型和图形并展示以及在设定的视角进行展示切换。
在一些优选的实施例中,该实时对抗系统还包括复盘数据存储模块;
所述复盘数据存储模块,用于按照时间戳详细记录每场对抗中的对抗双方当前状态、发出的动作和产生的效果,并进行存储。
在一些优选的实施例中,该实时对抗系统还包括复盘回放模块;
所述复盘回放模块,用于从所述复盘数据存储模块中按照设定时间戳加载需要复盘回放的数据进行推演回放以及根据获取的输入指令进行倍速播放和/或进度条调整和/或裁决详细信息的展示。
在一些优选的实施例中,所述引擎内核模块包括对抗裁决模块、内存接口和网络接口;
所述对抗裁决模块,基于对抗基础数据库和规则知识库、对抗调度管理模块发送的数据以及输入的推演人员或智能体AI的行动集,更新推演状态和态势,计算生成实时推演的态势数据;
所述内存接口,用于内存训练模式下智能体AI与所述引擎内核模块之间的数据传递;
所述网络接口,用于网络对抗模式下推演人员和/或智能体AI与所述引擎内核模块之间的数据传递。
在一些优选的实施例中,根据不同对抗形式选择各模块之间的通信流程:
推演人员与推演人员对抗:
对抗双方的推演人员通过推演用户端下达双方的操作指令,并将操作指令生成双方的行动集后通过信息链路发送至引擎内核模块;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据发送至推演用户端;
推演用户端解析所述实时推演的态势数据获得以地图格呈现的图形,将对抗双方通过设定的方式区分并进行图形展示;
智能体AI与智能体AI对抗:
对抗双方的智能体AI分别将双方的操作指令生成行动集,并将行动集通过智能体接口与引擎内核模块的网络接口或内存接口间建立的信息链路向引擎内核模块传输动作集;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据通过引擎网络接口或内存接口与智能体接口间建立的信息链路分别传递给对抗双方的智能体AI;
推演人员与智能体AI对抗:
推演人员通过推演用户端下达操作指令,并将操作指令生成行动集后通过信息链路发送至引擎内核模块,智能体AI将操作指令生成行动集后通过智能体接口与引擎内核模块的网络接口间建立的信息链路传输给引擎内核模块;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据分别传输至推演用户端和智能体AI。
在一些优选的实施例中,所述网络对抗模式,其模块间通信关系为:
对抗设置:对抗的红蓝双方智能体AI和对抗引擎均为异步接收消息的独立进程;引擎内核模块和智能体AI采用消息队列进行通信;对抗的红蓝双方智能体AI和对抗引擎为消息的生产者和消费者;对抗调度管理模块控制不同消息队列之间信息相互独立传递;
开始对抗,对抗引擎实时计算对抗双方的状态,基于对抗双方的动作集进行双方的实时态势数据推演,生成红蓝双方和全局态势信息,并通过消息路由分别传送至消息队列1、2、3;
对抗的红蓝双方的智能体AI模型作为消费者接收消息队列1、2的消息,根据己方观察到的态势进行处理、计算和决策,生成行动集合;
对抗观摩端接收消息队列3的消息,实时展现对抗的全局态势;
对抗的红蓝双方的智能体AI模型作为生产者分别将行动集传送至消息队列4、5;
对抗引擎接收消息队列4、5的消息,完成从裁决-态势生成-决策的全流程。
在一些优选的实施例中,所述网络对抗模式下的对抗的红蓝双方智能体AI和对抗引擎的进程分别包括:
对抗的红蓝双方智能体AI的进程:
步骤A10,启动红方AI/蓝方AI进程,并按照对抗的想定参数和地图进行初始化;
步骤A20,红方AI/蓝方AI通过网络链路异步接收引擎内核模块传递的红方/蓝方态势;
步骤A30,红方AI/蓝方AI生成动作集合,并将消息传递给引擎内核模块的对抗裁决模块;
对抗引擎的进程:
步骤B10,分别启动引擎内核模块的对抗裁决模块,并按照对抗的想定参数和地图进行初始化;
步骤B20,引擎内核模块的对抗裁决模块按照加速比时钟定时接收对抗的红蓝双方的动作集;
步骤B30,对抗裁决模块对红蓝双方AI的动作有效性进行判断,并按照动作产生时间进行裁决和推进;
步骤B40,对抗裁决模块更新推演的实时状态和态势;
步骤B50,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗;若否,则跳转步骤B60;
步骤B60,对抗裁决模块分别将红蓝双方态势传递给红蓝双方AI。
在一些优选的实施例中,所述对抗的想定参数包括对抗地图、对抗双方的初始配置和部署位置以及对抗形式。
在一些优选的实施例中,该系统的内存模式训练过程包括:
步骤S11,根据抗调度管理模块创建的对抗的想定参数,在同一进程中初始化推演引擎内核模块和对抗的红蓝双方AI;
步骤S12,红方AI接收引擎内核模块传递的红方态势,计算并生成动作集合;
步骤S13,蓝方AI接收引擎内核模块传递的蓝方态势,计算并生成动作集合;
步骤S14,引擎内核模块接收红蓝双方AI的动作集合,更新推演状态和态势,计算生成实时推演的态势数据;
步骤S15,判断对抗时间戳是否到达预设的对抗总时长,若是,则结束对抗并跳转步骤S16;若否,则跳转步骤S12,并循环进行步骤S12-步骤S14的对抗步骤;
步骤S16,内存模式训练完成,获得内存模式训练后的强化学习训练数据。
在一些优选的实施例中,所述内存模式下的面向强化学习的数据生成方法包括:
步骤S21,初始化智能体AI模型,并确定强化学习的动作空间、学习参数和回报函数;
步骤S22,参与对抗的智能体AI分别确认对抗的想定参数和阵营;
步骤S23,开始对抗;
步骤S24,引擎内核模块产生当前时刻态势数据Si,并将对抗双方的态势数据独立传递给对抗双方的智能体AI;
步骤S25,对抗双方的智能体AI分别依据获取的态势数据以及当前的策略模型采样产生动作ai,并将动作发送给引擎内核模块;
步骤S26,在态势数据Si和动作ai下,引擎内核模块模拟k个时间步的推演过程获得对抗环境反馈;
步骤S27,引擎内核模块根据对抗环境反馈回报计算强化学习的状态价值和动作价值;将强化学习的训练数据、状态价值和动作价值存储至数据库,作为智能体AI的经验数据;
步骤S28,根据智能体AI在步骤S25下策略模型不同行为的选择概率和步骤S27下获得的状态价值和动作价值,采用贝尔曼方程计算价值函数,并根据所述价值函数更新智能体AI模型参数;
步骤S29,根据当前态势数据Si下训练的迭代次数是否达到设定值来判断智能体AI模型是否达到在态势数据Si下的训练要求,若否,则返回步骤S25,继续对态势数据Si的行动决策进行训练;若是,则令i←i+1,并跳转步骤S2a;
步骤S2a,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗并跳转步骤S2b;若否,则返回步骤S24,对态势Si+1的行动决策进行训练;
步骤S2b,完成内存模式训练后的面向强化学习训练与评估的多并发实时对抗系统的强化学习,获得面向强化学习的智能体AI的目标策略模型以及强化学习的训练数据。
本发明的有益效果:
(1)本发明面向强化学习训练与评估的多并发实时对抗系统,可支持多并发对抗推演,并提供内存直连AI训练和网络远程连接对抗评估两种不同模式,既适用于AI算法研发训练,也可用于支撑人人、机机以及人机混合等形式的智能对抗赛事与教学训练,训练速度快,对抗决策效果好、系统应用范围广泛、鲁棒性好。
(2)本发明面向强化学习训练与评估的多并发实时对抗系统,在网络对抗模式下,对抗双方的智能体AI和对抗引擎为单独的进程,进程之间通过消息队列进行消息传递,并通过对抗调度管理模块控制不同消息队列之间信息相互独立传递,消息传递速度快、错误率低,进一步提升了系统对抗决策的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明面向强化学习训练与评估的多并发实时对抗系统的结构示意图;
图2是本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的网络对抗模式下模块间的通信关系示意图;
图3是本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的网络对抗模式下对抗的红蓝双方智能体AI和对抗引擎的进程示意图;
图4是本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的内存模式训练流程示意图;
图5是本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的内存模式下面向强化学习的数据生成流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
兵棋推演是一种有效模拟现实战争的游戏,被誉为“战争的魔术师”,与真实战争形影不离。兵棋推演抽象并抽取了军事对抗的典型决策因素,良好地模拟了军事对抗中普遍存在的不完全信息、随机性和连续性,是对强化学习算法研究、训练和验证的良好载体。分析作战理论中的“OODA循环”不难发现,智能决策是基于态势分析,结合战损和战果等环境反馈来进行决策,这与强化学习“在行动-评价的环境中获得知识,改进行动方案以适应环境”的理念不谋而合。因此构建面向强化学习的兵棋对抗环境,让智能体在不断博弈中进行态势评估,优化指控决策网络,既是人工智能向复杂对抗认知决策发展的需求,也是计算机仿真、作战模拟推演领域的迫切需求,是传统计算机兵棋和作战模拟系统向智能化系统发展的关键性工作。
本发明的一种面向强化学习训练与评估的多并发实时对抗系统,该实时对抗系统包括引擎内核模块、对抗调度管理模块、推演用户端和对抗观摩端;
所述引擎内核模块,基于所述对抗调度管理模块发送的数据以及输入的推演人员或智能体AI的行动集,更新推演状态和态势,计算生成实时推演的态势数据,并将实时推演的态势数据发送至所述推演用户端和对抗观摩端;
所述对抗调度管理模块,用于根据输入的对抗需求创建对应的对抗场所、对抗进程和对抗的想定参数并发送至所述引擎内核模块;
所述推演用户端,用于将所述实时推演的态势数据解析为以地图格呈现的图形并进行展示以及获取推演人员的操作指令,生成行动集后发送给所述引擎内核模块;
所述对抗观摩端,用于将所述实时推演的态势数据解析为3D模型和图形并展示以及在设定的视角进行展示切换。
为了更清晰地对本发明面向强化学习训练与评估的多并发实时对抗系统进行说明,下面结合图1对本发明实施例中各模块展开详述。
本发明第一实施例的面向强化学习训练与评估的多并发实时对抗系统,包括引擎内核模块M1、对抗调度管理模块M2、推演用户端M3和对抗观摩端M4,各模块详细描述如下:
引擎内核模块M1是本发明面向强化学习训练与评估的多并发实时对抗系统的核心部分,由对抗裁决模块、内存接口和网络接口构成。对抗裁决模块,基于对抗基础数据库和规则知识库、对抗调度管理模块发送的数据以及输入的推演人员或智能体AI的行动集,更新推演状态和态势,计算生成实时推演的态势数据。内存接口,用于内存训练模式下智能体AI与所述引擎内核模块之间的数据传递。网络接口,用于网络对抗模式下推演人员和/或智能体AI与所述引擎内核模块之间的数据传递。
引擎内核层的核心功能是完成强化学习四个基本元素Agent、State、Action、Reward的交互:即处理推演人员或智能体AI发出的行动集,更新推演状态和态势,计算生成实时推演的态势数据。本发明一个实施例中,面向强化学习训练与评估的多并发实时对抗系统应用于模拟现实战争的游戏——兵棋推演中,即作为兵棋裁决系统,兵棋裁决系统以兵棋裁决的规则引擎,在兵棋基础数据库和规则知识库的支撑下,使得对抗双方的棋子行动按照推演时间有序推进。AI的智能体接口通过与内存接口和网络接口的可切换连接方式实现实时制兵棋对抗系统的两种对抗模式:一是内存训练模式;二是网络对抗模式。两种对抗模式实现两种核心功能:一是生成面向强化学习的训练数据;二是实现AI远程对抗。内存接口是指引擎内核模块与智能体AI程序运行于同一进程中,共享同一存储空间进行Action、State和Reward之间对抗数据交互。网络接口是指在对抗调度管理模块M2所创建的房间中启动引擎内核进程,引擎内核与智能体AI程序运行在同一无线局域网内不同进程中的条件下,用于在房间中引擎内核和智能体之间建立的远程信息链路中进行Action、State和Reward之间的信息传递。
对抗调度管理模块(M2)用于实现对多轮多场对抗的管理。在本发明的兵棋裁决系统的实施例中,对每一场兵棋对抗,由对抗调度管理模块M2首先创建房间启动引擎内核进程,并将该场对抗的想定参数传递给引擎内核模块M1,通过推演用户和智能体AI进程与房间进程之间进行信息链路绑定实现实时交互对抗数据。通过对抗调度管理模块可并发启动多个房间进程,实现大规模并发的人人、机机以及人机混合对抗,可支持上述不同形式对抗赛事。
对抗的想定参数包括对抗地图、对抗双方的初始配置和部署位置以及对抗形式。
推演用户端M3是面向推演人员的2D图形化前端交互模块,它从网络接口实时获取引擎内核模块M1产生的实时推演的态势数据,将其解析为以地图格呈现的图形化形式为推演人员实时展示推演态势与棋子状态,并接收推演人员通过鼠标点击、按钮选择等交互方式下达的操作指令,将其形成符合引擎内核数据结构定义的指令队列(即动作集),通过网络接口传递给引擎内核模块M1。
对抗观摩端M4是面向观摩者的实时态势呈现平台,它通过网络接口实时获得来自引擎内核模块的实时推演的态势数据,将其解析后以3D模型和图形的形式进行可视化呈现,提供美观、专业、信息丰富的红/蓝/全局视角切换的实时态势呈现。
该实时对抗系统还包括复盘数据存储模块M5,复盘数据存储模块M5用于对每场对抗进行数据存储,并进行多场复盘数据的管理。对于每场对抗,复盘数据按照裁决时间戳详细记录了推演过程中棋子的当前状态、棋子发出的动作及产生的效果。复盘数据存储模块是博弈复盘和对抗数据分析的基础。
该实时对抗系统还包括复盘回放模块M6,复盘回放模块M6用于从复盘数据存储模块M5中加载复盘数据进行推演回放,具有倍速播放、进度条拖拽、裁决详细信息展示的功能,供兵棋指挥员进行推演复盘和总结。
上述实时制兵棋裁决系统各模块之间的连接和通信关系如下:对于一局完整对抗,对抗调度管理模块M2首先向引擎内核模块M1传递对抗的想定参数和对抗形式等对抗设定信息;进而引擎内核模块M1完成对地图、想定、武器装备的加载,初始化推演状态。在对抗过程中,推演用户和智能体AI分别通过推演用户端M3和智能体接口向引擎内核模块M1传递棋子操作指令消息;引擎内核模块M1按照裁决时间戳,根据推演用户或智能体所发出的动作完成动作消息处理,棋子、夺控、实时分数等状态更新,火力打击裁决,红/蓝/全局态势更新等流程,再将状态和态势信息传回推演用户端M3和智能体AI。在推演对抗过程中,对抗调度管理模块M2管理引擎内核模块M1向推演用户端M3和智能体AI独立传递红方或者蓝方单独的状态和态势,向对抗观摩端M4传递全局态势。在推演对抗结束后,引擎内核模块M1向复盘数据存储模块M5传递复盘数据进行存储,复盘回放模块M6可加载复盘数据存储模块M5中的已完成的对抗复盘数据进行过程回放。
面向强化学习训练与评估的多并发实时对抗系统,根据不同对抗形式选择各模块之间的通信流程:
推演人员与推演人员对抗:
对抗双方的推演人员通过推演用户端M3下达双方的操作指令,并将操作指令生成双方的行动集后通过信息链路发送至引擎内核模块M1;
引擎内核模块M1进行推演更新获取实时推演的态势数据后,将实时推演的态势数据发送至推演用户端M3;
推演用户端M3解析所述实时推演的态势数据获得以地图格呈现的图形,将对抗双方通过设定的方式区分并进行图形展示;本发明一个实施例中,将对抗双方在图形中分别显示为红色和蓝色,并将对抗的双方分别称作红方和蓝方。
智能体AI与智能体AI对抗:
对抗双方的智能体AI分别将双方的操作指令生成行动集,并将行动集通过智能体接口与引擎内核模块M1的网络接口或内存接口间建立的信息链路向引擎内核模块M1传输动作集;
引擎内核模块M1进行推演更新获取实时推演的态势数据后,将实时推演的态势数据通过引擎网络接口或内存接口与智能体接口间建立的信息链路分别传递给对抗双方的智能体AI;
推演人员与智能体AI对抗:
推演人员通过推演用户端M3下达操作指令,并将操作指令生成行动集后通过信息链路发送至引擎内核模块M1,智能体AI将操作指令生成行动集后通过智能体接口与引擎内核模块M1的网络接口间建立的信息链路传输给引擎内核模块M1;
引擎内核模块M1进行推演更新获取实时推演的态势数据后,将实时推演的态势数据分别传输至推演用户端M3和智能体AI。
如图2所示,为本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的网络对抗模式下模块间的通信关系示意图,具体为:
对抗设置:对抗的红蓝双方智能体AI和对抗引擎均为异步接收消息的独立进程;引擎内核模块和智能体AI采用消息队列进行通信;对抗的红蓝双方智能体AI和对抗引擎为消息的生产者和消费者;对抗调度管理模块控制不同消息队列之间信息相互独立传递;
开始对抗,对抗引擎实时计算对抗双方的状态,基于对抗双方的动作集进行双方的实时态势数据推演,生成红蓝双方和全局态势信息,并通过消息路由分别传送至消息队列1、2、3;
对抗的红蓝双方的智能体AI模型作为消费者接收消息队列1、2的消息,根据己方观察到的态势进行处理、计算和决策,生成行动集合;
对抗观摩端接收消息队列3的消息,实时展现对抗的全局态势;
对抗的红蓝双方的智能体AI模型作为生产者分别将行动集传送至消息队列4、5;
对抗引擎接收消息队列4、5的消息,完成从裁决-态势生成-决策的全流程。
如图3所示,为本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的网络对抗模式下对抗的红蓝双方智能体AI和对抗引擎的进程示意图,具体包括:
对抗的红蓝双方智能体AI的进程:
步骤A10,启动红方AI/蓝方AI进程,并按照对抗的想定参数和地图进行初始化;
步骤A20,红方AI/蓝方AI通过网络链路异步接收引擎内核模块传递的红方/蓝方态势;
步骤A30,红方AI/蓝方AI生成动作集合,并将消息传递给引擎内核模块的对抗裁决模块;
对抗引擎的进程:
步骤B10,分别启动引擎内核模块的对抗裁决模块,并按照对抗的想定参数和地图进行初始化;
步骤B20,引擎内核模块的对抗裁决模块按照加速比时钟定时接收对抗的红蓝双方的动作集;
步骤B30,对抗裁决模块对红蓝双方AI的动作有效性进行判断,并按照动作产生时间进行裁决和推进;
步骤B40,对抗裁决模块更新推演的实时状态和态势;
步骤B50,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗;若否,则跳转步骤B60;
步骤B60,对抗裁决模块分别将红蓝双方态势传递给红蓝双方AI。
如图4所示,为本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的内存模式训练流程示意图,具体包括:
步骤S11,根据抗调度管理模块创建的对抗的想定参数,在同一进程中初始化推演引擎内核模块和对抗的红蓝双方AI;
步骤S12,红方AI接收引擎内核模块传递的红方态势,计算并生成动作集合;
步骤S13,蓝方AI接收引擎内核模块传递的蓝方态势,计算并生成动作集合;
步骤S14,引擎内核模块接收红蓝双方AI的动作集合,更新推演状态和态势,计算生成实时推演的态势数据;
步骤S15,判断对抗时间戳是否到达预设的对抗总时长,若是,则结束对抗并跳转步骤S16;若否,则跳转步骤S12,并循环进行步骤S12-步骤S14的对抗步骤;
步骤S16,内存模式训练完成,获得内存模式训练后的强化学习训练数据。
内存模式训练为一个独立的进程:
(1)推演引擎内核单元和对抗的红蓝双方AI运行于同一进程内,引擎内核模块生成态势、红蓝双发AI生成动作这三个核心步骤顺序循环推进。
(2)实现对抗快速推进。
(3)在智能体AI的强化学习算法训练上,通过程序中设置断点形式,使开发人员可实时查看变量状态,方便算法调试和评估。
(4)实现实时态势存储,态势加载以及从一个态势下根据智能体发出的不同动作进行多分支向前对抗推进。
如图5所示,为本发明面向强化学习训练与评估的多并发实时对抗系统一种实施例的内存模式下面向强化学习的数据生成流程示意图,具体包括:
步骤S21,初始化智能体AI模型,并确定强化学习的动作空间、学习参数和回报函数;
步骤S22,参与对抗的智能体AI分别确认对抗的想定参数和阵营;
步骤S23,开始对抗;
步骤S24,引擎内核模块产生当前时刻态势数据Si,并将对抗双方的态势数据独立传递给对抗双方的智能体AI;
步骤S25,对抗双方的智能体AI分别依据获取的态势数据以及当前的策略模型采样产生动作ai,并将动作发送给引擎内核模块;
步骤S26,在态势数据Si和动作ai下,引擎内核模块模拟k个时间步的推演过程获得对抗环境反馈;
步骤S27,引擎内核模块根据对抗环境反馈回报计算强化学习的状态价值和动作价值;将强化学习的训练数据、状态价值和动作价值存储至数据库,作为智能体AI的经验数据;
步骤S28,根据智能体AI在步骤S25下策略模型不同行为的选择概率和步骤S27下获得的状态价值和动作价值,采用贝尔曼方程计算价值函数,并根据所述价值函数更新智能体AI模型参数;
步骤S29,根据当前态势数据Si下训练的迭代次数是否达到设定值来判断智能体AI模型是否达到在态势数据Si下的训练要求,若否,则返回步骤S25,继续对态势数据Si的行动决策进行训练;若是,则令i←i+1,并跳转步骤S2a;
步骤S2a,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗并跳转步骤S2b;若否,则返回步骤S24,对态势Si+1的行动决策进行训练;
步骤S2b,完成内存模式训练后的面向强化学习训练与评估的多并发实时对抗系统的强化学习,获得面向强化学习的智能体AI的目标策略模型以及强化学习的训练数据。
以上是强化学习训练的主要步骤,其目的是针对强化学习训练所需样本量大、训练迭代次数多的问题,在给定的态势下模拟推演过程生成动作执行效果,从而实现对动作决策网络的参数训练和学习。
强化学习的方法采用单机版的方式运行,即红蓝双方AI和引擎内核模块同时运行在一个进程中,对抗引擎进行裁决、生成态势和红蓝双方AI决策产生动作按照推演时间串行循环运行,直至对抗结束。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法的具体工作过程及有关说明,可以参考前述系统实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的面向强化学习训练与评估的多并发实时对抗系统的强化学习训练方法及实时对抗方法,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (5)

1.一种面向强化学习训练与评估的多并发实时对抗系统,其特征在于,该实时对抗系统包括引擎内核模块、对抗调度管理模块、推演用户端和对抗观摩端;
所述引擎内核模块包括对抗裁决模块、内存接口和网络接口;所述对抗裁决模块,基于对抗基础数据库和规则知识库、对抗调度管理模块发送的数据以及输入的推演人员或智能体AI的行动集,更新推演状态和态势,计算生成实时推演的态势数据,并将实时推演的态势数据发送至所述推演用户端和对抗观摩端;所述内存接口,用于内存训练模式下单机版运行的智能体AI与所述引擎内核模块之间的数据传递;所述网络接口,用于网络对抗模式下推演人员和/或智能体AI与所述引擎内核模块之间的数据传递;
所述对抗调度管理模块,用于根据输入的对抗需求创建对应的对抗场所、对抗进程和对抗的想定参数并发送至所述引擎内核模块;
所述推演用户端,用于将所述实时推演的态势数据解析为以地图格呈现的图形并进行展示以及获取推演人员的操作指令,生成行动集后发送给所述引擎内核模块;
所述对抗观摩端,用于将所述实时推演的态势数据解析为3D模型和图形并展示以及在设定的视角进行展示切换;
其中,对抗中双方智能体AI和对抗引擎为消息的生产者和消费者,均为采用消息队列进行通信的异步接收消息的独立进程,由对抗调度管理模块控制不同消息队列之间信息相互独立传递;
该实时对抗系统的内存模式训练过程包括:
步骤S11,根据抗调度管理模块创建的对抗的想定参数,在同一进程中初始化推演引擎内核模块和对抗的红蓝双方AI;
步骤S12,红方AI接收引擎内核模块传递的红方态势,计算并生成动作集合;
步骤S13,蓝方AI接收引擎内核模块传递的蓝方态势,计算并生成动作集合;
步骤S14,引擎内核模块接收红蓝双方AI的动作集合,更新推演状态和态势,计算生成实时推演的态势数据;
步骤S15,判断对抗时间戳是否到达预设的对抗总时长,若是,则结束对抗并跳转步骤S16;若否,则跳转步骤S12,并循环进行步骤S12-步骤S14的对抗步骤;
步骤S16,内存模式训练完成,获得内存模式训练后的强化学习训练数据;
所述内存模式下的面向强化学习的数据生成方法包括:
步骤S21,初始化智能体AI模型,并确定强化学习的动作空间、学习参数和回报函数;
步骤S22,参与对抗的智能体AI分别确认对抗的想定参数和阵营;
步骤S23,开始对抗;
步骤S24,引擎内核模块产生当前时刻态势数据
Figure DEST_PATH_IMAGE001
,并将对抗双方的态势数据独立传递给对抗双方的智能体AI;
步骤S25,对抗双方的智能体AI分别依据获取的态势数据以及当前的策略模型采样产生动作
Figure 801733DEST_PATH_IMAGE002
,并将动作发送给引擎内核模块;
步骤S26,在态势数据
Figure 334345DEST_PATH_IMAGE001
和动作
Figure 798825DEST_PATH_IMAGE002
下,引擎内核模块模拟
Figure DEST_PATH_IMAGE003
个时间步的推演过程获得对抗环境反馈;
步骤S27,引擎内核模块根据对抗环境反馈回报计算强化学习的状态价值和动作价值;将强化学习的训练数据、状态价值和动作价值存储至数据库,作为智能体AI的经验数据;
步骤S28,根据智能体AI在步骤S25下策略模型不同行为的选择概率和步骤S27下获得的状态价值和动作价值,采用贝尔曼方程计算价值函数,并根据所述价值函数更新智能体AI模型参数;
步骤S29,根据当前态势数据
Figure 874228DEST_PATH_IMAGE001
下训练的迭代次数是否达到设定值来判断智能体AI模型是否达到在态势数据
Figure 133171DEST_PATH_IMAGE001
下的训练要求,若否,则返回步骤S25,继续对态势数据
Figure 294025DEST_PATH_IMAGE001
的行动决策进行训练;若是,则令
Figure 296616DEST_PATH_IMAGE004
,并跳转步骤S2a;
步骤S2a,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗并跳转步骤S2b;若否,则返回步骤S24,对态势
Figure DEST_PATH_IMAGE005
的行动决策进行训练;
步骤S2b,完成内存模式训练后的面向强化学习训练与评估的多并发实时对抗系统的强化学习,获得面向强化学习的智能体AI的目标策略模型以及强化学习的训练数据。
2.根据权利要求1所述的面向强化学习训练与评估的多并发实时对抗系统,其特征在于,所述实时对抗系统,根据不同对抗形式选择各模块之间的通信流程:
推演人员与推演人员对抗:
对抗双方的推演人员通过推演用户端下达双方的操作指令,并将操作指令生成双方的行动集后通过信息链路发送至引擎内核模块;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据发送至推演用户端;
推演用户端解析所述实时推演的态势数据获得以地图格呈现的图形,将对抗双方通过设定的方式区分并进行图形展示;
智能体AI与智能体AI对抗:
对抗双方的智能体AI分别将双方的操作指令生成行动集,并将行动集通过智能体接口与引擎内核模块的网络接口或内存接口间建立的信息链路向引擎内核模块传输动作集;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据通过引擎网络接口或内存接口与智能体接口间建立的信息链路分别传递给对抗双方的智能体AI;
推演人员与智能体AI对抗:
推演人员通过推演用户端下达操作指令,并将操作指令生成行动集后通过信息链路发送至引擎内核模块,智能体AI将操作指令生成行动集后通过智能体接口与引擎内核模块的网络接口间建立的信息链路传输给引擎内核模块;
引擎内核模块进行推演更新获取实时推演的态势数据后,将实时推演的态势数据分别传输至推演用户端和智能体AI。
3.根据权利要求1所述的面向强化学习训练与评估的多并发实时对抗系统,其特征在于,所述网络对抗模式,其模块间通信关系为:
对抗设置:对抗的红蓝双方智能体AI和对抗引擎均为异步接收消息的独立进程;引擎内核模块和智能体AI采用消息队列进行通信;对抗的红蓝双方智能体AI和对抗引擎为消息的生产者和消费者;对抗调度管理模块控制不同消息队列之间信息相互独立传递;
开始对抗,对抗引擎实时计算对抗双方的状态,基于对抗双方的动作集进行双方的实时态势数据推演,生成红蓝双方和全局态势信息,并通过消息路由分别传送至消息队列1、2、3;
对抗的红蓝双方的智能体AI模型作为消费者接收消息队列1、2的消息,根据己方观察到的态势进行处理、计算和决策,生成行动集合;
对抗观摩端接收消息队列3的消息,实时展现对抗的全局态势;
对抗的红蓝双方的智能体AI模型作为生产者分别将行动集传送至消息队列4、5;
对抗引擎接收消息队列4、5的消息,完成从裁决-态势生成-决策的全流程。
4.根据权利要求3所述的面向强化学习训练与评估的多并发实时对抗系统,其特征在于,所述网络对抗模式下的对抗的红蓝双方智能体AI和对抗引擎的进程分别包括:
对抗的红蓝双方智能体AI的进程:
步骤A10,启动红方AI/蓝方AI进程,并按照对抗的想定参数和地图进行初始化;
步骤A20,红方AI/蓝方AI通过网络链路异步接收引擎内核模块传递的红方/蓝方态势;
步骤A30,红方AI/蓝方AI生成动作集合,并将消息传递给引擎内核模块的对抗裁决模块;
对抗引擎的进程:
步骤B10,分别启动引擎内核模块的对抗裁决模块,并按照对抗的想定参数和地图进行初始化;
步骤B20,引擎内核模块的对抗裁决模块按照加速比时钟定时接收对抗的红蓝双方的动作集;
步骤B30,对抗裁决模块对红蓝双方AI的动作有效性进行判断,并按照动作产生时间进行裁决和推进;
步骤B40,对抗裁决模块更新推演的实时状态和态势;
步骤B50,判断对抗时间戳是否达到预设的对抗总时长,若是,则结束对抗;若否,则跳转步骤B60;
步骤B60,对抗裁决模块分别将红蓝双方态势传递给红蓝双方AI。
5.根据权利要求1所述的面向强化学习训练与评估的多并发实时对抗系统,其特征在于,所述对抗的想定参数包括对抗地图、对抗双方的初始配置和部署位置以及对抗形式。
CN202011239807.2A 2020-11-09 2020-11-09 面向强化学习训练与评估的多并发实时对抗系统 Active CN112364500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011239807.2A CN112364500B (zh) 2020-11-09 2020-11-09 面向强化学习训练与评估的多并发实时对抗系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011239807.2A CN112364500B (zh) 2020-11-09 2020-11-09 面向强化学习训练与评估的多并发实时对抗系统

Publications (2)

Publication Number Publication Date
CN112364500A CN112364500A (zh) 2021-02-12
CN112364500B true CN112364500B (zh) 2021-07-20

Family

ID=74509360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011239807.2A Active CN112364500B (zh) 2020-11-09 2020-11-09 面向强化学习训练与评估的多并发实时对抗系统

Country Status (1)

Country Link
CN (1) CN112364500B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633519B (zh) * 2021-03-11 2021-07-27 中国科学院自动化研究所 人机对抗行动预测方法、装置、电子设备和存储介质
CN113313170B (zh) * 2021-05-28 2024-02-27 中国人民解放军战略支援部队航天工程大学 基于人工智能的全时全域训练大数据平台
CN113298260B (zh) * 2021-06-11 2022-07-26 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN113283111B (zh) * 2021-06-11 2022-05-27 中国人民解放军国防科技大学 一种用于模型推演到智能推演的转化方法
CN113435598B (zh) * 2021-07-08 2022-06-21 中国人民解放军国防科技大学 知识驱动下的兵棋推演智能决策方法
CN113633994B (zh) * 2021-07-16 2023-07-18 中国科学院自动化研究所 人机智能博弈系统
CN113283124B (zh) * 2021-07-21 2021-10-15 中国人民解放军国防科技大学 基于多智能体的自治USoS参与模型构建方法及其系统
CN113656962B (zh) * 2021-08-16 2024-06-18 中国电子科技集团公司第五十四研究所 一种基于信息流的战略层博弈推演方法
CN114154611B (zh) * 2021-11-10 2022-12-06 中国科学院自动化研究所 一种支持图灵测试模式的人机对抗系统及智能体测试方法
CN114417576B (zh) * 2021-12-30 2023-05-30 西安长远电子工程有限责任公司 一种电子对抗在线自动裁决方法
CN115114723B (zh) * 2022-06-07 2023-06-09 中国船舶集团有限公司系统工程研究院 一种水面无人艇任务规划学习器设计方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407670A (zh) * 2016-09-06 2017-02-15 中国矿业大学 一种基于博弈算法的黑白棋博弈方法及系统
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN109343847A (zh) * 2018-09-14 2019-02-15 北京华如科技股份有限公司 面向多领域可扩展兵棋推演平台
CN110109653A (zh) * 2019-05-13 2019-08-09 中国人民解放军陆军工程大学 一种陆战兵棋智能引擎及其运行方法
CN110694256A (zh) * 2019-09-18 2020-01-17 徐磊 一种新型应急计算机兵棋推演系统及方法
CN110751869A (zh) * 2019-10-12 2020-02-04 南京摄星智能科技有限公司 一种基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术
US10576380B1 (en) * 2018-11-05 2020-03-03 Sony Interactive Entertainment LLC Artificial intelligence (AI) model training using cloud gaming network
CN111111204A (zh) * 2020-04-01 2020-05-08 腾讯科技(深圳)有限公司 交互模型训练方法、装置、计算机设备和存储介质
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309658B (zh) * 2013-05-13 2016-01-13 西安电子科技大学 基于Agent的动态演化系统及方法
WO2020024097A1 (zh) * 2018-07-30 2020-02-06 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN110824954A (zh) * 2019-10-24 2020-02-21 北京仿真中心 智能体训练方法及系统、计算机设备、可读存储介质
CN111695690B (zh) * 2020-07-30 2023-04-18 航天欧华信息技术有限公司 基于合作式强化学习与迁移学习的多智能体对抗决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407670A (zh) * 2016-09-06 2017-02-15 中国矿业大学 一种基于博弈算法的黑白棋博弈方法及系统
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN109343847A (zh) * 2018-09-14 2019-02-15 北京华如科技股份有限公司 面向多领域可扩展兵棋推演平台
US10576380B1 (en) * 2018-11-05 2020-03-03 Sony Interactive Entertainment LLC Artificial intelligence (AI) model training using cloud gaming network
CN110109653A (zh) * 2019-05-13 2019-08-09 中国人民解放军陆军工程大学 一种陆战兵棋智能引擎及其运行方法
CN110694256A (zh) * 2019-09-18 2020-01-17 徐磊 一种新型应急计算机兵棋推演系统及方法
CN110751869A (zh) * 2019-10-12 2020-02-04 南京摄星智能科技有限公司 一种基于对抗鉴别式迁移法的拟态环境与战场态势策略转移技术
CN111111204A (zh) * 2020-04-01 2020-05-08 腾讯科技(深圳)有限公司 交互模型训练方法、装置、计算机设备和存储介质
CN111708355A (zh) * 2020-06-19 2020-09-25 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度强化学习的兵棋推演决策方法框架";崔文华等;《国防科技》;20200430;第41卷(第2期);正文113-121页 *

Also Published As

Publication number Publication date
CN112364500A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364500B (zh) 面向强化学习训练与评估的多并发实时对抗系统
CN114239228A (zh) 一种基于海量对抗仿真推演数据建模与分析的效能评估方法
Dantas et al. A Simulation-Based Game for Project Management Experiential Learning.
CN113781856A (zh) 一种联合作战武器装备运用训练仿真系统及其实现方法
Lackey et al. Virtual world room clearing: a study in training effectiveness
Zhu et al. Open player modeling: Empowering players through data transparency
Kittur et al. Serious games in engineering: The current state, trends, and future
Dagnino et al. Serious games to support learning of rare ‘intangible’cultural expressions
Vidal The new era of teaching: Using video games to teach macroeconomics
Solly et al. Unlocking the military potential of the metaverse
Barella et al. JGOMAS: New approach to AI teaching
Gao et al. Game features in inquiry game-based learning strategies: A systematic synthesis
Wallace et al. Realism in modeling and simulation with implications for virtual reality, augmented reality, and immersive environments
Choi et al. Military serious game federation development and execution process based on interoperation between game application and constructive simulators
US20220347572A1 (en) Method and apparatus for facilitating a sequence of events along rails of a battle field via a computer simulation
Asiala et al. Improving the State of the Art for Training Human-AI Teams: Technical Report# 3--Analysis of Testbed Alternatives
Fletcher et al. Representing cognition in games and simulations
Vebber et al. Virtual Worlds and the Cycle of Research: Enhancing Information Flow Between Simulationists and Wargamers
US20120215507A1 (en) Systems and methods for automated assessment within a virtual environment
Mittal et al. Models of Models: The Symbiotic Relationship between Models and Wargames
Norling On evaluating agents for serious games
Weil et al. Assessing the potential of massive multi-player games to be tools for military training
Gibson Agile game development and fun
Juve The use of massive multiplayer online games to evaluate C4I systems
Devasani et al. Authoring intelligent tutoring systems for 3D game environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant