CN112295229B - 一种智能博弈对抗平台 - Google Patents

一种智能博弈对抗平台 Download PDF

Info

Publication number
CN112295229B
CN112295229B CN202011175122.6A CN202011175122A CN112295229B CN 112295229 B CN112295229 B CN 112295229B CN 202011175122 A CN202011175122 A CN 202011175122A CN 112295229 B CN112295229 B CN 112295229B
Authority
CN
China
Prior art keywords
simulation
platform
confrontation
instruction
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011175122.6A
Other languages
English (en)
Other versions
CN112295229A (zh
Inventor
程文迪
崔鹏
刘晓光
刘正飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202011175122.6A priority Critical patent/CN112295229B/zh
Publication of CN112295229A publication Critical patent/CN112295229A/zh
Application granted granted Critical
Publication of CN112295229B publication Critical patent/CN112295229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/56Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/57Simulating properties, behaviour or motion of objects in the game world, e.g. computing tyre load in a car race game
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/847Cooperative playing, e.g. requiring coordinated actions from several players to achieve a common goal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种智能博弈对抗平台,包括仿真推演平台和AI对抗训练环境管理分系统。从系统功能组成、交互关系及工作流程方面,提出了智能博弈对抗平台系统设计方法,旨在解决智能博弈对抗训练试验的环境模拟和配试系统构建问题。仿真推演平台提供战场环境模拟、情报模拟、武器平台模拟、毁伤模拟和实时智能指令干预等功能;AI对抗训练环境管理分系统通过配置运行环境参数和运行条件参数,利用容器技术将仿真推演平台镜像创建生成训练对抗平台,动态形成对抗训练试验环境原型。支持大规模灵活部署、持续迭代测试,为智能博弈对抗训练提供仿真模拟环境和配试系统支撑。

Description

一种智能博弈对抗平台
技术领域
本发明涉及一种智能博弈对抗平台。
背景技术
2016年3月,Deepmind科研团队的围棋程序AlphaGo以4∶1的成绩战胜韩国围棋世界冠军李世石,这一研究成果在全球范围内引起巨大轰动,人工智能研究再一次吸引了世界的目光。在攻克围棋这一艰巨任务之后,Deepmind将研究重点转向更加复杂的领域——多智能体博弈游戏,并与美国电子游戏公司暴雪娱乐(Blizzard Entertainment)合作,在星际争霸II的游戏环境基础上开发了可进行更高水平人工智能研究的学习环境。实时策略游戏——星际争霸具有实时对抗、巨大的搜索空间、非完全信息博弈、多异构智能体协作、时空推理、多复杂任务、长远全局规划等特点,同时这些也是人工智能领域极具挑战的难题。鉴于此,国内外众多科研单位也竞相投入到这一领域当中。多智能体博弈游戏不仅在人工智能研究领域极具研究价值,其在社会管理、智能交通、经济、军事等领域同样具有巨大的潜在应用价值。
在智能化时代,多智能体博弈游戏具有实时对抗、群体协作、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题。人工智能要想在智能指挥和博弈中取得突破,是与深度强化学习技术的进展分不开的。深度学习的成功主要归因于三大因素——大数据、大模型、大计算。基于计算机技术和大数据的发展,通过容器技术和容器编排工具快速部署多个试验场景同步训练,封装环境接口实现智能算法和仿真环境的快速交互,使得基于深度学习算法来训练智能体变得更加高效,支撑智能算法模型的高效开发和快速训练提升。
因此,综合考虑应用平台环境的多场次同步部署需求,利用容器具备高资源利用率、灵活封装与迁移、一致性部署与测试、系统隔离等特性,将仿真推演平台封装成镜像文件,使用容器编排管理工具产生容器生成训练对抗平台,形成对抗训练试验环境原型。支撑智能体的神经网络深度学习算法进行训练,保障智能博弈对抗仿真验证。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种智能博弈对抗平台,支持构建一套既贴近实战,支撑现有联合作战对抗仿真要求,又满足AI决策算法高效训练与演化成长需求的试验平台,适用于战役级规模的作战场景,形成支持联合作战智能博弈的仿真推演平台和供深度学习研发战役智能体的训练平台,为智能决策算法的敏捷开发、快速训练与高效对抗提供完善可靠的环境支撑。
本发明提供了一种智能博弈对抗平台,包括仿真推演平台和AI对抗训练环境管理分系统;
所述仿真推演平台用于:仿真平台的运行和推演,同时接收管理用户提交的指令集合,对指令做出响应和反馈;对实体单元进行行动控制和状态监控;对对抗双方的作战任务进行维护;对仿真时间进行同步;
所述AI对抗训练环境管理分系统负责整个仿真环境的启停和运行控制。
所述仿真推演平台包括功能模型模拟模块,功能模型模拟模块负责实体单元模型、机动模型、导引头模型、武器模型、毁伤模型、指挥官模型的生成和管理;其中实体单元模型上加载挂载的设备模型、运动模型、毁伤模型、指挥官模型、武器模型共同组成实体单元,能够根据不同的气象、地理位置进行机动,能够模拟作战实体单元的剩余存储油量、存活状态、机动速度、武器挂载情况、位置、毁伤程度信息,能够根据指挥官模型控制实体单元的机动行动和对抗行动。
导弹武器中加载导引头模型,根据导弹离目标的距离实时计算对目标的追踪概率,实现对目标的跟踪打击。同时,对于战斗机等作战单元配有干扰弹模型,当发现自己被追踪锁定以后,及时释放干扰弹以规避打击。每个作战单元都有自己的毁伤模型。根据武器装备的性能和实际作战需要,作战实体单元根据不同的毁伤程度,分为是否可以机动、是否可以发弹、是否存活等状态。
所述仿真推演平台还包括仿真引擎模块、任务管理模块、指令管理模块、实体模型模块、编队管理模块、时钟管理模块、状态管理模块和情报管理模块;
所述仿真引擎模块包含规则库、资源管理器、状态管理器;
规则库用于,通过自定义设定仿真引擎处理事件的规则,比如不同实体仿真模型设置不同的数据处理周期,再比如制定打击事件和逃逸事件不同处理流程;
资源管理器是管理仿真模型和事件的调度中心;
状态管理器中记录所有模型的运行状态和事件状态;
根据规则库的标准规范,按照时钟和事件顺序调度资源管理器,处理按照时间逻辑排序的事件或者输入的条件事件信息,同时更新状态管理器的状态;每个仿真实体单元按照设定的处理周期进行仿真是基于时间逻辑顺序排序的,而比如打击事件是要满足一定距离条件、弹药条件和探测条件才能发生的条件事件;如当前仿真时间,预警机仿真模型形成的预警机实体单元被资源管理器调度,处理目标探测事件;地面防空模型形成的地面防空作战单元被资源管理器调度,处理自动打击事件等。状态管理器中记录当前仿真时间,各实体单元的事件状态处于执行过程中、执行结束、挂起等状态。
所述任务管理模块负责管理所有仿真模型形成的实体单元的任务处理过程。所述任务是指实体单元按照智能体AI发来的作战指令执行作战任务。执行作战任务过程中包括任务的执行校验、任务分解,存储当前实体单元的任务状态和任务执行情况;根据不同的实体单元类型,每个单元有不同的实体任务。比如飞机实体有起飞、降落任务,驱逐舰有目标跟踪和锁定打击任务。
所述指令管理模块负责接收AI对抗智能体发过来的作战指令,进行指令格式和参数校验、指令转换、指令调度,同时保障指令高效并发处理;AI对抗智能体是以规则或者通过强化训练形成的具有自主决策能力的对抗实体,通过接入到AI对抗训练环境管理分系统,将行动控制指令发送给仿真平台。所述指令管理模块接收到AI对抗智能体发过来的作战指令后,通过对指令进行校验、指令转换、指令调度,保障指令高效并发处理。
所述实体模型模块用于模拟实体单元在航迹规划、侦察预警、情报融合、武器打击功能,实现模型的不同粒度多种功能仿真;
所述编队管理模块负责对实体单元进行编队建模,实现编队建立、编队解除、重新组编功能,支持实体单元按照编队任务和单体任务执行任务切换,同时记录编队任务执行状态;
所述时钟管理模块负责管理仿真环境的时间控制、加速倍数控制,支持平台推演速度按照实时对抗和训练的不同需要,选择不同的速率运行;
所述状态管理模块对所有实体单元当前的名称、属性、类型、编队状态、位置、速度、航向、导弹数量、攻击事件、任务状态信息进行维护;状态管理模块将所有实体单元的状态信息通过网络数据端口发送出去,形成态势信息;
所述情报管理模块按照对抗双方属性类别,通过情报融合、目标识别手段,分别管理对抗双方的情报信息,并对外报送。
所述仿真推演平台还包括框架接口,框架接口包括仿真推演平台对外提供的功能指令接口和态势输出接口;框架接口能够获取实体单元的位置、状态、速度、油量信息,通过提供的功能指令接口控制实体单元的行动,如战斗机的功能指令有起飞、区域巡逻、区域打击、目标打击、飞机着陆等。
框架接口作为与AI对抗训练环境的交互桥梁,将所有AI提供的指令发送给仿真引擎管理,将实体单元的状态信息发送给态势显示端。
所述AI对抗训练环境管理分系统提供环境配置、容器管控、运行控制、智能体关联、行为决策、数据记录功能:
其中,环境配置包括配置仿真推演平台的运行环境,以及对抗训练的条件设置,具体包括想定路径、想定名称、端口映射信息配置,还包括对抗双方属性配置、训练场次设置;
容器管控包括对仿真容器进行创建、启动、停止、删除操作;
运行控制包括对仿真推演平台进行加载想定、初始化、开始、暂停、结束操作,以及下达仿真倍速指令、设置仿真结束条件,以及控制仿真推演平台的启停操作,实现人机交互;
智能体关联用于将仿真推演平台的态势信息与相应的对抗双方属性进行绑定,控制态势权限,以确保对抗双方符合实际对抗环境中只能掌握局部态势的真实性;同时,在信息不完全、企图不明确的博弈条件下,智能体通过获取局部的态势信息,运行近端策略优化(Proximal Policy Optimisation,PPO)的深度强化学习算法,通过回报函数自主训练形成智能AI;
行为决策包括:智能体依据深度强化学习算法,通过不断训练迭代生成智能体控制仿真平台决策行为,进行决策优化;
数据记录包括:进行数据收集,用于回溯分析和数据回放功能。
容器管控时,采用Kubernetes进行容器的管控,通过内置的负载均衡策略对应用实例进行管理、发现、访问。
所述平台的设计流程具体包括如下步骤:
步骤1,将仿真推演平台进行容器化配置,采用容器技术Docker配置仿真推演平台在容器中运行的环境参数脚本和基本参数脚本,包括仿真推演平台Docker容器镜像名称、功能动态库关联、想定文件名称和路径信息、仿真推演平台引擎推演倍速、推演对抗时长、平台对抗局数,以及端口配置信息;
其中,网络配置的端口有4个,分别是数据端口、Docker控制端口、AI智能体行动控制端口、调试观测端口;
步骤2,将仿真推演平台配置的Docker容器内部的日志记录文件路径与外部挂载文件路径形成映射关系;
步骤3,根据配置的Docker容器镜像名称和指定的端口配置信息,通过Docker容器管理平台创建仿真推演平台容器,同时将外部挂载的运行脚本、想定、功能动态库复制到新建容器的相应路径中;
步骤4,将生成的仿真推演平台Docker容器的对应端口与AI智能体进行绑定,形成对抗平台;
步骤5,设置对抗局数计数器;
步骤6.判断当前局数是否小于设定的对抗局数,如果是,对抗局数计数器加1,并跳到步骤7;否则执行步骤17;
步骤7,加载对抗想定文件;
步骤8,设置仿真推演平台引擎仿真倍速,启动推演引擎;
步骤9,获取仿真推演平台送出的态势观测数据,进行数据解析;
步骤10,判断是否达到对抗目的,如果否,跳到步骤11,如果是,跳到步骤15;
步骤11,判断对抗时间是否达到指定时长,如果否跳到步骤12,如果是,跳到步骤15;
步骤12,智能体依据当前态势数据,围绕作战目标,下定指挥决策行动指令给仿真推演平台;
步骤13,仿真推演平台中对应的实体单元收到指挥决策行动指令以后,根据当前自己的任务状态判断是否能够接收新的指令,如果是,则执行指令,否则,丢弃指令;
步骤14,跳到步骤9重复执行;
步骤15,结束推演引擎;
步骤16,跳到步骤6重复执行;
步骤17,结束。
本发明包括仿真推演平台和AI对抗训练环境管理分系统,从系统功能组成、交互关系、工作流程着手,分析仿真系统构建要素和集成方式。仿真推演平台提供战场环境模拟、情报模拟、武器平台模拟、毁伤模拟、实时智能指令干预等功能;利用容器具备高资源利用率、灵活封装与迁移、一致性部署与测试、系统隔离等特性,将仿真推演平台制作成镜像文件,AI对抗训练环境管理分系统通过创建仿真推演平台容器生成训练对抗平台,动态形成对抗训练试验环境原型。本发明建立了智能博弈的仿真推演平台系统设计,为智能博弈对抗训练提供仿真模拟环境和配试系统支撑。
有益效果:本发明利用容器具备高资源利用率、灵活封装与迁移、一致性部署与测试、系统隔离等特性,将仿真推演平台制作成镜像文件,AI对抗训练环境管理分系统通过创建仿真推演平台容器生成训练对抗平台,动态形成对抗训练试验环境原型。本发明建立了智能博弈的仿真推演平台系统设计,为智能博弈对抗训练提供仿真模拟环境和配试系统支撑。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是博弈对抗平台架构。
图2是博弈对抗平台交互关系。
图3是博弈对抗平台设计流程示意图。
具体实施方式
本发明提供了一种智能博弈对抗平台,包括以下部分:
1.博弈对抗平台设计系统的功能分系统组成
博弈对抗平台主要由两个部分组成,如图1所示,分别是仿真推演平台和AI对抗训练环境管理分系统。
(1)仿真推演平台
仿真推演平台是整个对抗平台的核心,负责整个对抗环境的仿真模拟,并且实时接收外部干预指令。仿真推演平台主要包含仿真引擎、任务管理、指令管理、实体模型、编队管理、时钟管理等模块。
①仿真引擎模块
仿真引擎根据规则库的标准规范,按照时钟和事件顺序调度资源管理器,处理按照时间逻辑排序的事件或者输入的条件事件信息,同时更新状态管理器的状态,推动整个仿真模拟系统运行。
②时钟管理模块
时钟管理模块负责管理仿真环境的时间控制、加速倍数控制,支持平台推演速度按照实时对抗和训练的不同需要,选择不同的速率运行。
③实体模型模块
实体模型包含战斗飞机、轰炸机、预警机、干扰机、无人机、舰艇、地面防空、地面雷达、导弹等12种仿真模型,各实体挂载有侦察设备、武器模型、毁伤模型、指挥官模型、物理模型等,模拟作战装备在航迹规划、侦察预警、情报融合、武器打击等功能,实现模型的不同粒度多种功能仿真。
④编队管理模块
编队管理模块负责对实体单元进行编队建模,实现编队建立、编队解除、重新组编等功能,支持实体单元按照编队任务和单体任务执行任务切换,同时记录编队任务执行状态。
⑤指令管理模块
指令管理模块负责接收AI对抗智能体发过来的作战指令,进行指令校验、指令转换、指令调度,同时保障指令高效并发处理。
⑥任务管理模块
任务管理模块主要管理当前实体任务的执行校验、任务分解,存储当前实体单元的任务状态和任务执行情况。
⑦状态管理模块
状态管理模块对所有实体单元当前的名称、属性、类型、编队状态、位置、速度、航向、导弹数量、攻击事件、任务状态等信息进行维护。状态管理模块将所有实体单元的状态信息通过网络数据端口发送出去,形成态势信息。
⑧情报管理模块
情报管理模块按照对抗双方属性类别,通过情报融合、目标识别等手段,分别管理双方的情报信息,并对外报送。
(2)AI对抗训练环境管理分系统
AI对抗训练环境管理分系统是仿真环境的调度和管理者,负责整个仿真环境的启停和运行控制。仿真环境的训练框架从仿真推演平台实时获取态势信息,根据当前的对抗形势及作战目标,通过神经网络的深度学习算法采取行动策略,并对仿真推演平台下达作战指令。仿真推演平台一共提供包括航路机动、区域侦察、火力分配、电子对抗等几十种任务指令接口,支持智能体从区域部署、行动规划到具体的目标打击等不同层面的方案规划,凸显指挥决策层次性、协调性和复杂性。
AI对抗训练环境管理分系统主要包含环境配置、容器管控、运行控制、智能体关联、行为决策、数据记录等功能部分。
①环境配置
其中环境配置脚本主要配置仿真推演平台的运行环境,以及对抗训练的条件设置。具体包括想定路径、想定名称、端口映射等基本信息配置,还包括对抗双方属性配置、训练场次设置等。
②容器管控
容器管控主要负责对仿真容器进行创建、启动、停止、删除等操作。在进行大规模对抗训练任务时,通常都是由容器编排工具来进行容器资源调度和管理集群操作,由于容器本身具备占用资源少、部署快、易移植等特点,依赖现有容器管理工具不仅方便易用,而且多容器的并行推演大大节省了训练时间,获取大量训练数据,便于训练算法更快生成智能体。因此,采用Kubernetes进行容器的管控,通过内置的负载均衡策略对应用实例进行管理、发现、访问,省去复杂的手工配置和处理。
③运行控制
运行控制模块负责对仿真推演平台进行加载想定、初始化、开始、暂停、结束等操作,以及下达仿真倍速指令、设置仿真结束条件等操作,使仿真推演平台便于加载不同想定、按照不同的仿真推演速率进行运行,以及控制仿真推演平台的启停操作,实现人机交互能力。
④智能体关联
智能体关联主要用于将仿真推演平台的态势信息与相应的对抗双方属性进行绑定,控制态势权限,以确保对抗双方符合实际对抗环境中只能掌握局部态势的真实性。同时,在信息不完全、企图不明确的博弈条件下,使智能体从更贴合实际情况的角度出发进行自主深度学习。
⑤行为决策
行为决策主要是智能体依据深度强化学习的算法,不断训练智能体进行决策优化。而其技术难度在于,对抗双方的企图和位置不确定、信息不完全的情况下,进行博弈策略的选择可能由于策略保守导致失败,也可能由于收益反馈滞后导致行为决策不够及时。因此,构建合理、可靠的配试仿真推演环境,能够提高智能决策算法的敏捷开发、快速训练与高效对抗的可行性。
⑥数据记录
数据记录模块则是进行数据收集,用于回溯分析和数据回放等功能。其中涉及到网络连接、数据文件的记录与组织、按照不同倍速和不同起点时刻进行回放、数据回溯分析、数据分发转换等功能。
2.博弈对抗平台交互关系
博弈对抗平台交互关系如图2所示,基于Linux操作系统的容器管理工具,将仿真推演平台软件载入容器内部,并运用Docker工具将其封装成仿真推演平台镜像文件。AI对抗训练环境管理模块制定环境运行配置信息。配置文件信息包含想定配置、镜像配置、网络和端口配置、连接配置、路径配置、挂载脚本映射、记录文件映射等。通过配置文件的设置,可以灵活的选择容器运行的环境配置,可以选择是否挂载脚本运行,方便进行持续改进和部署,体现了docker的易用性,便于持续部署和测试。容器管控模块负责仿真推演平台容器的创建、停止、删除等操作,并将仿真推演平台镜像通过挂载配置文件的形式创建成仿真推演平台容器,同时开启4个端口(数据端口、Docker控制端口、AI智能体行动控制端口、调试观测端口),并加载想定,设置好仿真推演倍速以及仿真结束条件,启动仿真推演平台引擎开始运行。
仿真推演平台容器通过数据端口报送出实体目标状态数据、任务数据、事件状态等信息。态势显示端将接收的数据实时上图显示当前作战态势,态势显示端可以实时观测对抗双方行动策略,并展示出双方兵力对比及战损战果信息。同时,所有实体数据、状态数据、事件、任务、情报等各类数据通过数据记录模块记录下来,用于后续的数据回放和回溯分析。
AI智能体获取观测数据后,分析当前形势和地方意图,采取行动策略通过AI智能体行动控制端口发送战役智能体的决策指令到仿真推演平台。智能体通过大量训练,以神经网络迭代学习算法找到最佳网络参数,从而生成最终战役智能体。
(3)博弈对抗平台设计流程
博弈对抗平台设计流程如图3所示。步骤如下:
1.首先配置仿真推演平台容器运行的环境参数脚本和基本参数脚本,主要包括Docker镜像名称、功能动态库关联、想定名称和路径信息、仿真引擎推演倍速、推演对抗时长、平台对抗局数,以及端口配置信息。其中,网络配置的端口有4个,分别是数据端口、Docker控制端口、AI智能体行动控制端口、调试观测端口。
2.将Docker容器内部的日志记录文件路径与外部挂载文件路径形成映射关系。例如:
Figure BDA0002748495660000101
Figure BDA0002748495660000111
3.根据配置的镜像名称和指定的端口配置信息,通过Docker创建仿真推演平台容器,同时将外部挂载的运行脚本、想定、功能动态库等复制到新建容器的相应路径中。
4.将生成的Docker容器的对应端口与AI智能体进行绑定,形成对抗平台。
5.设置对抗局数计数器。
6.判断当前局数是否小于设定的对抗局数。若是,对抗局数计数器加1,并跳到步骤7;若否,执行步骤17。
7.加载对抗想定文件。
8.设置推演引擎仿真倍速,启动推演引擎。
9.获取仿真推演平台送出的态势观测数据,进行数据解析。
10.判断是否达到对抗目的,已经成功夺取目标。若否,跳到步骤11,若是,跳到步骤15。
11.判断对抗时间是否达到指定时长,若否跳到步骤12,若是,跳到步骤15。
12.智能体依据当前态势数据,围绕作战目标,下定指挥决策行动指令给仿真推演平台。
13.仿真推演平台中对应的实体单元收到指令以后,根据当前自己的任务状态判断是否可以接收新的指令。如果可以执行,则执行指令,否则,丢弃指令。
14.跳到步骤9重复执行。
15.结束推演引擎。
16.跳到步骤6重复执行。
17.结束。
本发明提供了一种智能博弈对抗平台,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种智能博弈对抗平台,其特征在于,包括仿真推演平台和AI对抗训练环境管理分系统;
所述仿真推演平台用于:仿真平台的运行和推演,同时接收管理用户提交的指令集合,对指令做出响应和反馈;对实体单元进行行动控制和状态监控;对对抗双方的作战任务进行维护;对仿真时间进行同步;
所述AI对抗训练环境管理分系统负责整个仿真环境的启停和运行控制;
所述仿真推演平台包括功能模型模拟模块,功能模型模拟模块负责实体单元模型、机动模型、导引头模型、武器模型、毁伤模型、指挥官模型的生成和管理;其中实体单元模型上加载挂载的设备模型、运动模型、毁伤模型、指挥官模型、武器模型共同组成实体单元,能够根据不同的气象、地理位置进行机动,能够模拟作战实体单元的剩余存储油量、存活状态、机动速度、武器挂载情况、位置、毁伤程度信息,能够根据指挥官模型控制实体单元的机动行动和对抗行动;
所述仿真推演平台还包括仿真引擎模块、任务管理模块、指令管理模块、实体模型模块、编队管理模块、时钟管理模块、状态管理模块和情报管理模块;
所述仿真引擎模块包含规则库、资源管理器、状态管理器;
规则库用于,通过自定义设定仿真引擎处理事件的规则;
资源管理器是管理仿真模型和事件的调度中心;
状态管理器中记录所有模型的运行状态和事件状态;
根据规则库的标准规范,按照时钟和事件顺序调度资源管理器,处理按照时间逻辑排序的事件或者输入的条件事件信息,同时更新状态管理器的状态;
所述任务管理模块负责管理所有仿真模型形成的实体单元的任务处理过程;所述任务是指实体单元按照智能体AI发来的作战指令执行作战任务;执行作战任务过程中包括任务的执行校验、任务分解,存储当前实体单元的任务状态和任务执行情况;
所述指令管理模块负责接收AI对抗智能体发过来的作战指令,进行指令格式和参数校验、指令转换、指令调度,同时保障指令高效并发处理;
所述实体模型模块用于模拟实体单元在航迹规划、侦察预警、情报融合、武器打击功能,实现模型的不同粒度多种功能仿真;
所述编队管理模块负责对实体单元进行编队建模,实现编队建立、编队解除、重新组编功能,支持实体单元按照编队任务和单体任务执行任务切换,同时记录编队任务执行状态;
所述时钟管理模块负责管理仿真环境的时间控制、加速倍数控制,支持平台推演速度按照实时对抗和训练的不同需要,选择不同的速率运行;
所述状态管理模块对所有实体单元当前的名称、属性、类型、编队状态、位置、速度、航向、导弹数量、攻击事件、任务状态信息进行维护;状态管理模块将所有实体单元的状态信息通过网络数据端口发送出去,形成态势信息;
所述情报管理模块按照对抗双方属性类别,通过情报融合、目标识别手段,分别管理对抗双方的情报信息,并对外报送;
所述仿真推演平台还包括框架接口,框架接口包括仿真推演平台对外提供的功能指令接口和态势输出接口;框架接口能够获取实体单元的位置、状态、速度、油量信息,通过提供的功能指令接口控制实体单元的行动;
框架接口将所有AI提供的指令发送给仿真引擎模块管理,将实体单元的状态信息发送给态势显示端;
所述AI对抗训练环境管理分系统提供环境配置、容器管控、运行控制、智能体关联、行为决策、数据记录功能:
其中,环境配置包括配置仿真推演平台的运行环境,以及对抗训练的条件设置,具体包括想定路径、想定名称、端口映射信息配置,还包括对抗双方属性配置、训练场次设置;
容器管控包括对仿真容器进行创建、启动、停止、删除操作;
运行控制包括对仿真推演平台进行加载想定、初始化、开始、暂停、结束操作,以及下达仿真倍速指令、设置仿真结束条件,以及控制仿真推演平台的启停操作,实现人机交互;
智能体关联用于将仿真推演平台的态势信息与相应的对抗双方属性进行绑定,控制态势权限,以确保对抗双方符合实际对抗环境中只能掌握局部态势的真实性;同时,在信息不完全、企图不明确的博弈条件下,智能体通过获取局部的态势信息,运行深度强化学习算法,通过回报函数自主训练形成智能AI;
行为决策包括:智能体依据深度强化学习算法,通过不断训练迭代生成智能体控制仿真平台决策行为,进行决策优化;
数据记录包括:进行数据收集,用于回溯分析和数据回放功能;
容器管控时,采用Kubernetes进行容器的管控,通过内置的负载均衡策略对应用实例进行管理、发现、访问;
所述平台的设计流程具体包括如下步骤:
步骤1,将仿真推演平台进行容器化配置,采用容器技术Docker配置仿真推演平台在容器中运行的环境参数脚本和基本参数脚本,包括仿真推演平台Docker容器镜像名称、功能动态库关联、想定文件名称和路径信息、仿真推演平台引擎推演倍速、推演对抗时长、平台对抗局数,以及端口配置信息;
其中,网络配置的端口有4个,分别是数据端口、Docker控制端口、AI智能体行动控制端口、调试观测端口;
步骤2,将仿真推演平台配置的Docker容器内部的日志记录文件路径与外部挂载文件路径形成映射关系;
步骤3,根据配置的Docker容器镜像名称和指定的端口配置信息,通过Docker容器管理平台创建仿真推演平台容器,同时将外部挂载的运行脚本、想定、功能动态库复制到新建容器的相应路径中;
步骤4,将生成的仿真推演平台Docker容器的对应端口与AI智能体进行绑定,形成对抗平台;
步骤5,设置对抗局数计数器;
步骤6.判断当前局数是否小于设定的对抗局数,如果是,对抗局数计数器加1,并跳到步骤7;否则执行步骤17;
步骤7,加载对抗想定文件;
步骤8,设置仿真推演平台引擎仿真倍速,启动推演引擎;
步骤9,获取仿真推演平台送出的态势观测数据,进行数据解析;
步骤10,判断是否达到对抗目的,如果否,跳到步骤11,如果是,跳到步骤15;
步骤11,判断对抗时间是否达到指定时长,如果否跳到步骤12,如果是,跳到步骤15;
步骤12,智能体依据当前态势数据,围绕作战目标,下定指挥决策行动指令给仿真推演平台;
步骤13,仿真推演平台中对应的实体单元收到指挥决策行动指令以后,根据当前自己的任务状态判断是否能够接收新的指令,如果是,则执行指令,否则,丢弃指令;
步骤14,跳到步骤9重复执行;
步骤15,结束推演引擎;
步骤16,跳到步骤6重复执行;
步骤17,结束。
CN202011175122.6A 2020-10-28 2020-10-28 一种智能博弈对抗平台 Active CN112295229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011175122.6A CN112295229B (zh) 2020-10-28 2020-10-28 一种智能博弈对抗平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011175122.6A CN112295229B (zh) 2020-10-28 2020-10-28 一种智能博弈对抗平台

Publications (2)

Publication Number Publication Date
CN112295229A CN112295229A (zh) 2021-02-02
CN112295229B true CN112295229B (zh) 2023-04-07

Family

ID=74331563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011175122.6A Active CN112295229B (zh) 2020-10-28 2020-10-28 一种智能博弈对抗平台

Country Status (1)

Country Link
CN (1) CN112295229B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268309B (zh) * 2021-04-07 2023-07-21 中国电子科技集团公司第二十九研究所 一种面向SaaS应用模式的兵棋推演系统
CN113379054B (zh) * 2021-05-28 2022-09-27 中国科学院自动化研究所 开放式智能博弈生态平台
CN113298260B (zh) * 2021-06-11 2022-07-26 中国人民解放军国防科技大学 一种基于深度强化学习的对抗仿真推演方法
CN113469372A (zh) * 2021-07-02 2021-10-01 北京市商汤科技开发有限公司 强化学习训练方法、装置、电子设备以及存储介质
CN113656964B (zh) * 2021-08-16 2022-12-09 中国电子科技集团公司第五十四研究所 一种基于信息流的体系对抗仿真系统
CN114154611B (zh) * 2021-11-10 2022-12-06 中国科学院自动化研究所 一种支持图灵测试模式的人机对抗系统及智能体测试方法
CN114329928B (zh) * 2021-12-14 2024-04-09 中国运载火箭技术研究院 一种装备模型的模块化组装与总体参数快速生成方法
CN114444716A (zh) * 2022-01-06 2022-05-06 中国电子科技集团公司电子科学研究院 虚拟环境下的多智能体博弈训练方法及系统
CN114898620A (zh) * 2022-05-07 2022-08-12 湖北第二师范学院 基于SaaS的兵棋推演智能决策设备及流程
CN115114723B (zh) * 2022-06-07 2023-06-09 中国船舶集团有限公司系统工程研究院 一种水面无人艇任务规划学习器设计方法及系统
CN115421505B (zh) * 2022-11-04 2023-03-17 北京卓翼智能科技有限公司 一种无人机集群系统及无人机
CN116542333A (zh) * 2023-03-13 2023-08-04 中国科学院自动化研究所 博弈环境系统、博弈智能体以及兵棋智能体的训练方法
CN116596287B (zh) * 2023-07-18 2023-10-03 中国电子科技集团公司第二十九研究所 一种任务驱动决策方法及系统
CN116841208A (zh) * 2023-08-30 2023-10-03 白杨时代(北京)科技有限公司 一种无人水下航行器编队控制模拟方法、系统和设备
CN117687322B (zh) * 2024-02-04 2024-05-03 青岛哈尔滨工程大学创新发展中心 一种考虑个体故障的auv集群对抗仿真系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT262109B (de) * 1965-05-12 1968-05-27 Saab Ab Vorrichtung zur Fernsteuerung von Simulatoren und/oder der Aktivität in einem Zielgebiet
CN101556641B (zh) * 2009-05-05 2012-03-28 北京航空航天大学 基于概念模型推演的仿真系统
CN101908085B (zh) * 2010-06-28 2012-09-05 北京航空航天大学 一种基于多Agent的分布式推演仿真系统与方法
US9524358B1 (en) * 2013-06-10 2016-12-20 The United States Of America As Represented By The Secretary Of The Navy Core-modular interoperability architecture for modeling and simulation
CN106682351A (zh) * 2017-01-10 2017-05-17 北京捷安申谋军工科技有限公司 基于计算机生成兵力的作战仿真系统及仿真方法
CN107491329B (zh) * 2017-08-04 2021-03-16 上海携程商务有限公司 Docker镜像构建方法、设备、存储介质以及电子装置
CN108809965A (zh) * 2018-05-25 2018-11-13 中国电子信息产业集团有限公司第六研究所 一种面向设备试验及指挥训练的协同推演标绘的方法
KR102033750B1 (ko) * 2019-05-17 2019-10-17 국방과학연구소 항공전자전 시스템을 위한 전자전 위협신호 로우 데이터 생성장치 및 그것의 로우 데이터 생성방법

Also Published As

Publication number Publication date
CN112295229A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN112295229B (zh) 一种智能博弈对抗平台
CN107193639B (zh) 一种支持联合作战的多核并行仿真引擎系统
CN112784445B (zh) 一种飞行控制智能体的并行分布式计算系统及方法
CN112820164B (zh) 一种基于分层的行为模型的vr虚拟对抗训练系统
CN105677443B (zh) 一种异构仿真系统
KR101475436B1 (ko) V-c 연동 전투효과 분석시스템 및 그 운용방법
CN101556641B (zh) 基于概念模型推演的仿真系统
CN105630578A (zh) 一种基于分布式多Agent系统的作战仿真引擎
CN110781584A (zh) 一种空军无人机智能仿真作战系统
Ceranowicz Modular semi-automated forces
CN112308422A (zh) 面向远程空中支援载机的任务规划与解算仿真系统及方法
CN113893539B (zh) 智能体的协同对战方法及装置
CN114282833A (zh) 一种基于规则的海空联合作战行动分层任务规划方法
Mour et al. Agent‐Based modeling for systems of systems
CN113919068A (zh) 一种基于任务的航空装备保障体系仿真评估方法
De Lima Filho et al. Optimization of unmanned air vehicle tactical formation in war games
CN110210115A (zh) 基于决策点和分支仿真的作战仿真方案设计及运行方法
CN114997054A (zh) 一种兵棋对弈模拟方法及装置
Zhen et al. Artificial intelligence techniques on real-time strategy games
Hill et al. Some experiments with agent-based combat models
Stavrev et al. Towards a common platform simulator for European armored combat vehicles using a modular software architecture
Niland The migration of a collaborative UAV testbed into the flames simulation environment
Lim An AI player for DEFCON: An evolutionary approach using behavior trees
Wang et al. Allocation strategy for operational test of UAVs based on reconnaissance mission reliability
CN118171572A (zh) 无人机集群演进式的仿真训练方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210000 No.1, Lingshan South Road, Qixia District, Nanjing City, Jiangsu Province

Applicant after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210007 No. 1 East Street, alfalfa garden, Jiangsu, Nanjing

Applicant before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

GR01 Patent grant
GR01 Patent grant