CN112138396A - 一种面向无人系统模拟对抗的智能体训练方法及系统 - Google Patents
一种面向无人系统模拟对抗的智能体训练方法及系统 Download PDFInfo
- Publication number
- CN112138396A CN112138396A CN202011006630.1A CN202011006630A CN112138396A CN 112138396 A CN112138396 A CN 112138396A CN 202011006630 A CN202011006630 A CN 202011006630A CN 112138396 A CN112138396 A CN 112138396A
- Authority
- CN
- China
- Prior art keywords
- training
- agent
- data set
- characteristic vector
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004088 simulation Methods 0.000 title abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 37
- 241000282414 Homo sapiens Species 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims description 11
- 230000036961 partial effect Effects 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 102100038367 Gremlin-1 Human genes 0.000 description 2
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/822—Strategy games; Role-playing games
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种面向无人系统模拟对抗的智能体训练方法及系统,方法包括:获取暴雪公司发布的游戏录像,并进行预处理;使用PYSC2将预处理后的数据解析到数据库中存储;获取预设数量的动作字段和状态字段并对应构建特征向量;将动作特征向量和状态特征向量构成(A,S)二元组,并进行归一化,得到第三数据集;根据第三数据集得到第一训练集和第二训练集;利用第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;利用第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;利用第二智能体训练第一智能体,得到第三智能体。本发明训练出的第三智能体能够模拟人类指挥官指挥无人系统的模拟对抗。
Description
技术领域
本发明涉及智能体训练领域,特别是涉及一种面向无人系统模拟对抗的智能体训练方法及系统。
背景技术
美国国防部高级研究计划局(DARPA),计划在5年内推出了其革命性的“Gremlin”(小精灵)无人机系统,项目旨在实现其先进的无人机群集系统和自主战斗管理能力,战斗无人机能在飞行母舰上进行“空中发射”以及“空中回收”。
该系统与暴雪游戏《星际争霸》中的神族航母相似,如果日后真的能蜕变成游戏中的航母,那么这样一个可在空中移动的巨型“蜂巢”,只怕将成为人类史上的又一大超级武器。目前对于该系统,美军已经在“Lockheed C-130”(洛克希德C-130“大力神”)运输机上进行实验,每个可部署的“Gremlin”无人驾驶飞机大小与小型巡航导弹相似,可以通过擒纵钩发射和回收。DARPA表示,目前单个C-130可以同时运行四架无人机。一旦该系统实现,这些无人机可以协同工作,编队飞行,同时使用网络数据链路共享信息,完成空中协调情报、监视和侦查(ISR)任务。而且由于它们是空中发射的,一群“Gremlins”还可以在定点打击前(配合F-35战斗机)消除战争迷雾,进一步提升指挥官对战场的把控,同时也可以支援深入敌后的特种作战小队。
在进行低成本研发量产后,“Gremlins”可被大量部署,但同时空中恢复技术也意味着它们能被通过击败母舰而坠毁,就像击毁了《星际争霸》中的神族航母,它周围所施放的拦截机也会随之消失。
在未来智能化时代,军事战争中将大量采用上述此类的无人系统机器人,战场中的数据特点海量异构,这对于指挥控制无人系统的精确性、时效性、有效性提出了很高的要求,指挥控制智能化为大势所趋。
一个智能的大脑对于打赢战争的重要性是不言而喻的,智能指挥官的贡献度将超越任何一型智能武器,2018年6月的一份最新报道中提到,目前美军作战训练数据库中已有的数据并不支持机器学习和其他人工智能算法。
基于此,我们计划用《星级争霸》游戏训练智能指挥官,成功后会尝试迁移到现实中执行类似作战指控任务,对现代军事行动提出新型战术。
发明内容
本发明的目的是提供一种面向无人系统模拟对抗的智能体训练方法及系统,训练出的智能体能够充分模拟无人系统作战。
为实现上述目的,本发明提供了如下方案:
一种面向无人系统模拟对抗的智能体训练方法,包括:
获取暴雪公司发布的游戏录像,记为第一数据集;
对所述第一数据集进行预处理,得到第二数据集;
使用PYSC2将所述第二数据集解析到数据库中存储;
从所述数据库中获取预设数量的动作字段和状态字段;
根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
对所述(A,S)二元组进行归一化,得到第三数据集;
根据所述第三数据集得到第一训练集;
对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
可选的,对所述第三数据集按照6:2:2的比例划分成第一训练集、验证集和测试集。
一种面向无人系统模拟对抗的智能体训练系统,包括:
第一数据获取模块,用于获取暴雪公司发布的游戏录像,记为第一数据集;
预处理模块,用于对所述第一数据集进行预处理,得到第二数据集;
解析模块,用于使用PYSC2将所述第二数据集解析到数据库中存储;
第二数据获取模块,用于从所述数据库中获取预设数量的动作字段和状态字段;
特征向量构建模块,用于根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
特征向量合成模块,用于将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
归一化模块,用于对所述(A,S)二元组进行归一化,得到第三数据集;
第一训练集构建模块,用于根据所述第三数据集得到第一训练集;
第二训练集构建模块,用于对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
第一训练模块,用于利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
第二训练模块,用于利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
第三训练模块,用于采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种面向无人系统模拟对抗的智能体训练方法及系统,利用《星级争霸》游戏数据对多层全卷积LSTM网络进行训练,将训练后的神经网络作为智能体,该智能体能够充分模拟无人系统作战。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种面向无人系统模拟对抗的智能体训练方法流程图;
图2为本发明一种面向无人系统模拟对抗的智能体训练系统模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向无人系统模拟对抗的智能体训练方法及系统,训练出的智能体能够充分模拟无人系统作战。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的基本参数设置包括:
系统环境CPU:Intel(R)Xeon(R)Silver 4110 CPU@2.10GHz;
操作系统:Ubuntu 16.04;
显卡:GeForce 2080TI;
内存:32G;
开发框架:PYSC2;
语言:PYTHON3.6;
游戏版本:星际争霸2;
SC2LE是DeepMind针对与星际争霸2开发的环境,包含三个子组件:一个Linux星际争霸2二进制文件、星际争霸II API和PySC2,PySC2是一个Python环境,它封装了StarCraftII API,以简化智能体和StarCraft II之间的交互。PySC2定义了一个操作和观察规范,包括一个随机代理和一些脚本化代理作为示例。
图1为本发明面向无人系统模拟对抗的智能体训练方法流程图,如图1所示,一种面向无人系统模拟对抗的智能体训练方法,包括:
步骤101:获取暴雪公司发布的游戏录像,记为第一数据集;
步骤102:对所述第一数据集进行预处理,得到第二数据集;
步骤103:使用PYSC2将所述第二数据集解析到数据库中存储;
步骤104:从所述数据库中获取预设数量的动作字段和状态字段;
步骤105:根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
步骤106:将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
步骤107:对所述(A,S)二元组进行归一化,得到第三数据集;
步骤108:根据所述第三数据集得到第一训练集;
步骤109:对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
步骤110:利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
步骤111:利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
步骤112:采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
利用所述第二训练集对第一智能体进行训练,得到第二智能体,所述第二智能体用于无人系统的模拟对抗。
具体的,步骤101中,第一数据集V为从公网收集下载SC2LE发布的游戏录像V约50G;游戏录像是专业玩家和业余玩家都使用的重要资源,从中可以学习新的策略,发现关键错误,并且“战争迷雾”会隐藏所有敌人的单位,因此,在职业球员中,回顾和分析他们所玩的每一场比赛是标准做法。使用游戏录像作为监督数据被用于星际争霸2训练中,它一般用来发现构建命令。
步骤102的预处理过程使用PYSC2,对第一数据集V按照以下规则进行预处理,得到V0,约30G;
预处理过程即筛选满足以下三个条件的数据:
(1)每个玩家的比赛等级得分在40%以内;
(2)每个玩家的每分钟操作数都在10以上;
(3)录像时长大于5分钟,小于2小时;
然后再将V0按照人族胜利、神族胜利、虫族胜利分为三组V1,V2,V3;
步骤103中为了高效管理数据,使用PYSC2,解析V1,V2,V3文件,得到字段数据,并将字段数据输入到SQL数据库DB0中进行保存,部分数据库字段如表1所示:
表1解析后部分数据库字段
id | 字段名称 | 描述 |
1 | building | 建造的建筑 |
2 | armyNumber | 军队数量 |
3 | tech | 发展的科技 |
4 | resouce | 资源数量 |
5 | distroy_army | 被摧毁的军队 |
6 | distroy_building | 被摧毁的建筑 |
7 | enemy_army | 敌人的军队 |
8 | enemy_building | 敌人的建筑 |
步骤104-107具体为:
从数据库中选择部分字段构成(A,S)二元组(act动作,status状态),动作对应于玩家产生的下一次操作动作,状态描述当前的游戏状态。
选取数据库中的部分动作字段,定义动作特征向量A:
定义多个基本操作序列,形式(a0,a1,a2,a3,a4,...)。a0基本操作,如移动,而“a1,a2…”是操作参数,比如:“把当前选中的单位移到A处”,可以分成2步:
1)鼠标左键选定操作对象决定移动;
2)鼠标右键点击某个地图位置。
上述操作也可以分解为“按m键;松开m键;决定是否按shift键;地图A处按下鼠标左键;松开鼠标左键”。
选取数据库中的部分状态字段,定义状态特征向量S,包括:
1、建造的建筑;
2、军队数量;
3、发展的科技;
4、资源数量;
5、被摧毁的军队;
6、被摧毁的建筑;
7、敌人的军队和建筑。
步骤108具体包括:
将得到的(A,S)二元组特征向量进行归一化。
(A,S)二元组特征向量例如:
(0211:0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)
(1112:0,0,0,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2)
(2222:0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3)
其中,向量的行数取决于游戏录像的时长,时长单位为秒,比如第一个视频时长为20秒,若5秒为一个计时周期,那么这个特征向量就有4行;也就是每个视频都会对应一个二元组特征向量。
向量的各列代表含义如下:
0211数字串代表动作操作编号序列;
0列:动作标签;
1-31列:各种建筑;
32-38列:各种军队;
39-57列:游戏中研究的科技类型的数量;
58-115列:资源数量,使用的补给数量和可用补给的最大数量。另一个附加值是剩余供应量,即已用供应量和最大可用供应量之间的差额。
116-173列:被摧毁的军队;
174-206列:被摧毁的建筑;
207-209列:观察到的每种类型的敌人单位/建筑的数量。
步骤110-步骤112具体包括:
循环神经网络(Recurrent Neural Network)就是一类用于处理序列数据的神经网络,但是传统的RNN网络存在梯度消失和爆炸问题,当我们增加了需要捕获关系时间跨度,基于梯度的优化将变得越来越困难,因此传统RNN无法解决长期依赖问题,而LSTM(longshort-term memory,LSTM)网络比传统的RNN更易于学习长期依赖,因此发明选择使用LSTM网络作为智能体网络模型。
我们将预测下一步生产动作任务建模成时间序列预测任务。先获取当前游戏状态,据此衡量并选择一次操作,然后提交给星际争霸2环境。
具体的,首先使用排名在20%以内的录像数据,使用较高的学习率(大于千分之一)对LSTM进行训练,得到第一智能体;然后使用排名在5%的录像数据(或者单独学习人类前20个建造物),使用较低的学习率(小于万分之一)对上述得到的LSTM进行训练,得到训练好的网络,即第二智能体;
不同于其他普通游戏,星际争霸的特点是长期策略,对于游戏初期的初始状态很敏感,联系密切,采用第二智能体训练第一智能体,可以大大减小可能的状态动作空间,可以加速收敛,得到训练好的网络,即第三智能体。
本发明将第三智能体在星际争霸2内置AI难度级别1-10的条件下做了评估测试。在每个难度条件下进行了100场比赛。在难度1-7的条件下,智能体的表现非常良好。在难度8、难度9和难度10条件下,内置机器人具有不同的作弊技巧,所以它们对智能体的泛化性要求很高。然而,可以看出智能体在与他们的战斗中仍然有很好的表现。结果证明,本发明中的第三智能体接近了人类玩家排名系统中前40%的水平。
此外,本发明还公开了一种面向无人系统模拟对抗的智能体训练系统,其模块图如图2所示,具体包括:
第一数据获取模块201,用于获取暴雪公司发布的游戏录像,记为第一数据集;
预处理模块202,用于对所述第一数据集进行预处理,得到第二数据集;
解析模块203,用于使用PYSC2将所述第二数据集解析到数据库中存储;
第二数据获取模块204,用于从所述数据库中获取预设数量的动作字段和状态字段;
特征向量构建模块205,用于根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
特征向量合成模块206,用于将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
归一化模块207,用于对所述(A,S)二元组进行归一化,得到第三数据集;
第一训练集构建模块208,用于根据所述第三数据集得到第一训练集;
第二训练集构建模块209,用于对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
第一训练模块210,用于利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
第二训练模块211,用于利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
第三训练模块212:用于采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种面向无人系统模拟对抗的智能体训练方法,其特征在于,包括:
获取暴雪公司发布的游戏录像,记为第一数据集;
对所述第一数据集进行预处理,得到第二数据集;
使用PYSC2将所述第二数据集解析到数据库中存储;
从所述数据库获取预设数量的动作字段和状态字段;
根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
对所述(A,S)二元组进行归一化,得到第三数据集;
根据所述第三数据集得到第一训练集;
对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
3.根据权利要求1所述的面向无人系统模拟对抗的智能体训练方法,其特征在于,对所述第三数据集按照6:2:2的比例划分成第一训练集、验证集和测试集。
4.一种面向无人系统模拟对抗的智能体训练系统,其特征在于,包括:
第一数据获取模块,用于获取暴雪公司发布的游戏录像,记为第一数据集;
预处理模块,用于对所述第一数据集进行预处理,得到第二数据集;
解析模块,用于使用PYSC2将所述第二数据集解析到数据库中存储;
第二数据获取模块,用于从所述数据库中获取预设数量的动作字段和状态字段;
特征向量构建模块,用于根据所述动作字段构建动作特征向量,根据所述状态字段构建状态特征向量;
特征向量合成模块,用于将所述动作特征向量和状态特征向量构成(A,S)二元组,其中,A为动作特征向量,S为状态特征向量;
归一化模块,用于对所述(A,S)二元组进行归一化,得到第三数据集;
第一训练集构建模块,用于根据所述第三数据集得到第一训练集;
第二训练集构建模块,用于对所述第三数据集,抽取部分(A,S)二元组构建出第二训练集;
第一训练模块,用于利用所述第一训练集对多层全卷积LSTM网络进行训练,得到第一智能体;
第二训练模块,用于利用所述第二训练集对多层全卷积LSTM网络进行训练,得到第二智能体;
第三训练模块,用于采用强化学习算法利用所述第二智能体训练所述第一智能体,得到第三智能体,所述第三智能体用于模拟人类指挥官指挥无人系统的模拟对抗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011006630.1A CN112138396B (zh) | 2020-09-23 | 2020-09-23 | 一种面向无人系统模拟对抗的智能体训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011006630.1A CN112138396B (zh) | 2020-09-23 | 2020-09-23 | 一种面向无人系统模拟对抗的智能体训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112138396A true CN112138396A (zh) | 2020-12-29 |
CN112138396B CN112138396B (zh) | 2024-04-12 |
Family
ID=73897764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011006630.1A Active CN112138396B (zh) | 2020-09-23 | 2020-09-23 | 一种面向无人系统模拟对抗的智能体训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112138396B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629422A (zh) * | 2018-05-10 | 2018-10-09 | 浙江大学 | 一种基于知识指导-战术感知的智能体学习方法 |
CN108764453A (zh) * | 2018-06-08 | 2018-11-06 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
US20190042887A1 (en) * | 2017-08-04 | 2019-02-07 | Fair Ip, Llc | Computer System for Building, Training and Productionizing Machine Learning Models |
CN110119773A (zh) * | 2019-05-07 | 2019-08-13 | 中国科学院自动化研究所 | 战略博弈系统的全局态势评估方方法、系统、装置 |
CN110141867A (zh) * | 2019-04-23 | 2019-08-20 | 广州多益网络股份有限公司 | 一种游戏智能体训练方法及装置 |
EP3579154A1 (en) * | 2018-06-05 | 2019-12-11 | Nokia Technologies Oy | Reinforcement learning for user behaviour |
CN110824954A (zh) * | 2019-10-24 | 2020-02-21 | 北京仿真中心 | 智能体训练方法及系统、计算机设备、可读存储介质 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
US20200122040A1 (en) * | 2018-10-18 | 2020-04-23 | Unity IPR ApS | Method and system for interactive imitation learning in video games |
CN111178545A (zh) * | 2019-12-31 | 2020-05-19 | 中国电子科技集团公司信息科学研究院 | 一种动态强化学习决策训练系统 |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN111461338A (zh) * | 2020-03-06 | 2020-07-28 | 北京仿真中心 | 基于数字孪生的智能系统更新方法、装置 |
CN111582311A (zh) * | 2020-04-09 | 2020-08-25 | 华南理工大学 | 基于强化学习利用动态奖励示例样本训练智能体的方法 |
-
2020
- 2020-09-23 CN CN202011006630.1A patent/CN112138396B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190042887A1 (en) * | 2017-08-04 | 2019-02-07 | Fair Ip, Llc | Computer System for Building, Training and Productionizing Machine Learning Models |
CN108629422A (zh) * | 2018-05-10 | 2018-10-09 | 浙江大学 | 一种基于知识指导-战术感知的智能体学习方法 |
EP3579154A1 (en) * | 2018-06-05 | 2019-12-11 | Nokia Technologies Oy | Reinforcement learning for user behaviour |
CN108764453A (zh) * | 2018-06-08 | 2018-11-06 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
US20200122040A1 (en) * | 2018-10-18 | 2020-04-23 | Unity IPR ApS | Method and system for interactive imitation learning in video games |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN110141867A (zh) * | 2019-04-23 | 2019-08-20 | 广州多益网络股份有限公司 | 一种游戏智能体训练方法及装置 |
CN110119773A (zh) * | 2019-05-07 | 2019-08-13 | 中国科学院自动化研究所 | 战略博弈系统的全局态势评估方方法、系统、装置 |
CN110824954A (zh) * | 2019-10-24 | 2020-02-21 | 北京仿真中心 | 智能体训练方法及系统、计算机设备、可读存储介质 |
CN110991545A (zh) * | 2019-12-10 | 2020-04-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种面向多智能体对抗的强化学习训练优化方法及装置 |
CN111178545A (zh) * | 2019-12-31 | 2020-05-19 | 中国电子科技集团公司信息科学研究院 | 一种动态强化学习决策训练系统 |
CN111461338A (zh) * | 2020-03-06 | 2020-07-28 | 北京仿真中心 | 基于数字孪生的智能系统更新方法、装置 |
CN111582311A (zh) * | 2020-04-09 | 2020-08-25 | 华南理工大学 | 基于强化学习利用动态奖励示例样本训练智能体的方法 |
Non-Patent Citations (4)
Title |
---|
BBLUE-SKY: "星际争霸2:强化学习新挑战(论文翻译)", Retrieved from the Internet <URL:https://blog.csdn.net/qq_33813365/article/details/103350608> * |
XIAOLONG WEI;LIFANG YANG: "Recurrent MADDPG for Object Detection and Assignment in Combat Tasks", 《IEEE ACCESS》, vol. 8, 8 September 2020 (2020-09-08), pages 163334 - 163343, XP011809178, DOI: 10.1109/ACCESS.2020.3022638 * |
朱疆成: "空中机器人的层次化决策与控制系统研究", 《中国博士学位论文全文数据库 (信息科技辑)》, vol. 2019, 15 August 2019 (2019-08-15), pages 140 - 44 * |
申翔翔;侯新文;尹传环;: "深度强化学习中状态注意力机制的研究", 智能系统学报, no. 02, pages 131 - 136 * |
Also Published As
Publication number | Publication date |
---|---|
CN112138396B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210178271A1 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
Vinyals et al. | Starcraft ii: A new challenge for reinforcement learning | |
CN113396428A (zh) | 多智能体应用的稳健、可扩展且可推广的机器学习范型 | |
CN105678030B (zh) | 基于专家系统和战术战法分形化的空战战术团队仿真方法 | |
Roessingh et al. | Machine learning techniques for autonomous agents in military simulations—Multum in Parvo | |
CN112742029B (zh) | 一种模拟操作的方法、游戏测试的方法以及相关装置 | |
Karr et al. | Synthetic soldiers [military training simulators] | |
CN112561032B (zh) | 一种基于种群训练的多智能体强化学习方法及系统 | |
Kelly | Performance measurement during simulated air-to-air combat | |
CN112138396A (zh) | 一种面向无人系统模拟对抗的智能体训练方法及系统 | |
Wallace et al. | Realism in modeling and simulation with implications for virtual reality, augmented reality, and immersive environments | |
Schadda et al. | Data-driven behavioural modelling for military applications | |
Dutta | Simulation in military training: Recent developments | |
Lindberg | Simulation driven reinforcement learning: Improving synthetic enemies in flight simulators | |
Ring et al. | Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods | |
Gorton et al. | Imitation learning for modelling air combat behaviour—an exploratory study | |
Calopăreanu | Aspects of Employing Artificial Intelligence in the Fighting Area | |
Zhang et al. | Joint Forest Fire Rescue Strategy Based on Multi-Agent Proximal Policy Optimization | |
US20240135167A1 (en) | Method for training aircraft control agent | |
Hu et al. | A Neural Network-Based Intelligent Decision-Making in the Air-Offensive Campaign with Simulation | |
Potts et al. | Subject matter expert-driven behavior modeling within simulation | |
Fügenschuh et al. | Using Computer‐Generated Virtual Realities, Operations Research, and Board Games for Conflict Simulations | |
Singh et al. | Simulation of Pilot Behavior in Air to Ground Combat using Deep Reinforcement Learning | |
Will et al. | The American way of swarm: A machine learning strategy for training autonomous systems | |
Little | History and Basics of M & S |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |