CN113705828B - 一种基于集群影响度的战场博弈策略强化学习训练方法 - Google Patents

一种基于集群影响度的战场博弈策略强化学习训练方法 Download PDF

Info

Publication number
CN113705828B
CN113705828B CN202110877724.4A CN202110877724A CN113705828B CN 113705828 B CN113705828 B CN 113705828B CN 202110877724 A CN202110877724 A CN 202110877724A CN 113705828 B CN113705828 B CN 113705828B
Authority
CN
China
Prior art keywords
cluster
battlefield
strategy
unit
combat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110877724.4A
Other languages
English (en)
Other versions
CN113705828A (zh
Inventor
侯松林
蒋煜
胡昊
汪亮
陶先平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110877724.4A priority Critical patent/CN113705828B/zh
Publication of CN113705828A publication Critical patent/CN113705828A/zh
Application granted granted Critical
Publication of CN113705828B publication Critical patent/CN113705828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/02Chess; Similar board games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法,通过集群影响度的分析结果并结合强化学习技术,可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战,并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平,有效应对开放战场环境学习困难的问题,有助于军事战场中的人机协同决策等情况,可广泛应用于局域作战、反恐等领域的决策问题。

Description

一种基于集群影响度的战场博弈策略强化学习训练方法
技术领域
本发明属于机器人学习技术领域,涉及智能博弈和军事决策技术,具体为一种基于集群影响度的战场博弈策略强化学习训练方法。
背景技术
近年来,随着深度学习在计算机视觉和自然语言处理等领域取得显著成绩,越来越多的研究者将深度学习和强化学习结合,形成深度强化学习,并在诸多决策领域取得了令人瞩目的成绩,例如DeepMind团队开发的AlphaGo就曾击败了人类顶尖围棋选手。博弈对抗战场环境通常具有作战单位数目大、战争迷雾、对抗性强和决策空间大等特点,这些特点使得开放战场决策难度高,而深度强化学习在围棋、游戏等领域取得的成功,使得基于强化学习的训练开放战场环境下的智能博弈策略成为了当前研究领域的热点。
发明内容
本发明的目的在于克服博弈对抗战场环境具有的挑战,提供一种基于集群影响度的战场博弈策略强化学习训练方法,依据集群影响度分析结果,采用强化学习训练智能博弈策略,在复杂的博弈对抗战场环境中做出及时、精准、有效的决策指令。
本发明提出的技术方案为:
一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,包括:
步骤1)构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型,并分别设置敌我双方策略模型的初始化参数;
步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群,按照当前战场的战场空间单元的划分,以及当前战场中我方和敌方的所有作战单位的分布,对我方和敌方分别构建多个集群;
对于每个集群,根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度;
步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息,形成当前我方策略模型强化学习的输入状态,完成状态到动作的映射;
步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏,结合战损奖赏得到我方策略模型的总即时奖赏,并将“状态-动作-奖赏”元组加入训练样本集;
步骤5)战场博弈对局结束后,根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数,并通过梯度下降方法更新优化我方策略模型;
步骤6)在预设的最大交替训练次数范围内,每隔一定轮数对当前训练的我方策略模型测试其胜率,当我方策略模型满足阶段训练目标后,冻结其学习参数;
步骤7)将当前待训练的敌方策略模型转换为我方策略模型,将步骤6)中冻结学习参数的我方策略模型作为对手,进行敌我双方的身份转换,重复执行步骤2)至步骤6)的训练过程,得到优化的敌我双方战场博弈策略模型。
在上述方案的基础上,进一步改进或优选的方案还包括:
进一步的,所述步骤2)具体包括:
将宏观的战场空间按照长为lcell,宽为wcell的矩形进行分割,形成战场空间单元集C,为实现以集群为核心的战场态势表示,依据作战单位u与各集群中心点的距离确定作战单位所属集群Ci,具体公式如下:
设集群的影响度是由集群中的每个个体作战单位的影响度决定,计算每个作战单位的影响度,作战单位的影响度计算公式如下:
power(u,d)=Nammo(u)×Phit(d)×damage(u)×speed(u)
其中,Nammo为作战单位u所能进行攻击的次数,Phit为在距离作战单位u为d的位置处实施攻击所能生效的先验概率,damage为作战单位u一次打击所能造成的效果,speed为该作战单位u的移动速度;
在完成多个集群的划分和个体影响度计算的基础上,针对任意一个集群Ci计算其集群影响度计算公式如下:
其中,d′u为当前作战单位u到对方集群中心点直线距离中的最小值,hardness(u)为作战单位u的类型影响因子,该值为超参数。
进一步的,所述步骤3)具体包括:
构建当前时刻的战场环境状态信息s(E,POS,AM,RM),其中E为我方观察范围内的敌方集群影响度构成的元组POS为我方单位的位置信息元组(Pos1,...,Posn),AM为我方单位的弹药信息元组(Am1,...,Amn),n为自然数,RM为我方存活作战单位数目。
将战场环境状态信息s送入我方策略模型中,获得每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k},其中k为我方作战单位个数,并根据每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k}获得我方作战单位的联合动作a=[a1,a2,...,ak]。
进一步的,所述步骤4)具体包括:
基于集群影响度的分析结果,计算我方集群压制奖赏rc,该值越大表明我方集群对于对方的压制能力越强,其计算公式如下:
其中,Ce为敌方集群集合,CA为我方集群集合,为集群ca的中心点坐标,||·||2为2-范数;
根据当前战场情况计算战损奖赏,计算公式如下:
其中Da为我方受到伤害的作战单位集合,De为敌方受到伤害的作战集合,type(i″)表示作战单位i″的类型,αtype(i″)表示作战单位i″的类型属性的重要性,type(j″)表示作战单位j″的类型,αtype(j″)表示作战单位j″的类型属性的重要性;
依据集群压制奖赏和战损奖赏计算当前总奖赏,计算公式如下:
r=rc+rd
将“状态-动作-奖赏”元组(s,a,r)加入样本训练集D。
进一步的,所述步骤5)具体包括:
根据与环境交互获得的样本训练集D,计算任意时刻t的优势函数At,基于PPO算法计算我方策略模型中策略网络的损失函数Jactor(θ)和价值网络的损失函数计算公式如下:
其中,θ是策略网络Actor的参数,πi′,θ为我方作战单位i′的当前策略,i′∈{1,2,...,k},πi′,old为我方作战单位i′的采样时策略,st为t时刻的状态,at为t时刻的动作,ε为超参数,At为策略的优势函数,clip(·,·,·)为裁剪函数,通过裁剪函数clip(·,·,·)和取最小函数min(·,·)为策略网络的更新提供合理的学习步长,为价值网络的参数,rt为t时刻的奖赏,/>为价值函数,γ为超参数,T为样本时长;
策略网络参数θ和价值网络参数的梯度下降更新表达式为:
其中,α为学习率超参数。
进一步的,所述步骤6)具体包括:
每间隔M轮,采用我方当前模型测试博弈胜率W,其公式为:
其中,ntotal为测试的总数,nwin为本次测试胜利的次数,ndraw为本次测试平局的次数。
采用计算最小二乘法计算最近N次测试的胜率提升增速ΔW,其公式为:
其中,Wm为距离当前轮数最近的第m次测试获得的胜率;
判断当前我方策略模型的总训练轮数E和最近N次测试的胜率提升增速ΔW是否满足以下公式:
E>ET,ΔW>ΔWT
其中,ET为训练轮数阈值,ΔWT为训练胜率提升增速阈值,如果不满足上面的公式继续训练我方当前模型,如果满足,则冻结我方其学习参数,进入步骤7)。
进一步的,所述以神经网络为基础的强化学习策略模型,包括策略网络和价值网络,所述策略网络设有具有记忆功能的GRU单元,以解决战争迷雾问题。
有益效果:
本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法,通过集群影响度的分析结果并结合强化学习技术,可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战,并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平,有效应对开放战场环境学习困难的问题,有助于军事战场中的人机协同决策等情况,可广泛应用于局域作战、反恐等领域的决策问题。
附图说明
图1为本发明的方法流程示意图;
图2为博弈策略的强化学习训练框架图;
图3为实施例的强化学习神经网络模型图;
图4为实施例的某一时刻的集群影响度可视化结果;
图5为实施例的智能博弈对战仿真实验的某时刻示意图(a);
图6为实施例的智能博弈对战仿真实验的某时刻示意图(b)。
具体实施方式
下面结合具体实施例详细的阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在本实施例中,红蓝阵营双方在350km×350km的范围内展开博弈,双方拥有包括歼击机、轰炸机、干扰机等多种类型的作战单位,具体类型及参数如表1和表2所示。通过本发明基于集群影响度的战场博弈策略强化学习训练方法生成的智能博弈策略,可帮助我方逐渐取得战略优势。
表1
表2
如图1所示,本发明方法基于集群影响度的战场博弈策略强化学习训练方法,包括以下步骤:
步骤1)构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型,并分别初始化敌我双方的策略模型,设置其初始化参数。
在本实施例中,所述强化学习策略模型的设计框架如图3所示,其输入层由全连接网络构成,其策略网络采用具有记忆功能的GRU单元,以解决战争迷雾问题,其输出层由全连接层组成。
步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群,按照当前战场的战场空间单元的划分,以及当前战场中我方和敌方的所有作战单位的分布,对我方和敌方分别构建多个集群。对于每个集群,根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度。
本实施例中,步骤2)具体过程如下:
将宏观的战场空间按照长lcell=70km,,宽wcell=50km的矩形进行分割,形成战场空间单元集C,为实现以集群为核心的战场态势表示,依据作战单位u与各集群中心点的距离确定作战单位所属集群Ci,具体公式如下:
在本实施例中,集群的影响度是由集群中的每个个体作战单位的影响度决定,因此需要计算每个作战单位的影响度,作战单位的影响度计算公式如下:
power(u,d)=Nammo(u)×Phit(d)×damage(u)×speed(u)
其中,Nammo为作战单位u所能进行攻击的次数,Phit为在距离作战单位u为d的位置处实施攻击所能生效的先验概率,damage为作战单位u一次打击所能造成的效果,speed为该作战单位u的移动速度;
本实施例中,在基于集群划分和个体影响度计算的基础上,针对任意一个集群Ci计算其集群影响度计算公式如下:
其中,d′u为当前作战单位u到对方集群中心点直线距离中的最小值,hardness(u)为作战单位u的类型影响因子,该值为超参数。
步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息,形成当前我方策略模型强化学习的输入状态,完成状态到动作的映射。
本实施例中,所述步骤3)具体为:
构建当前时刻的战场环境状态信息s(E,POS,AM,RM),其中E为我方观察范围内的敌方集群影响度构成的元组POS为我方单位的位置信息元组(Pos1,...,Posn),AM为我方单位的弹药信息元组(Am1,...,Amn),n为自然数,RM为我方存活作战单位数目。
将战场环境状态信息s送入我方策略模型中,获得每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k},其中k为我方作战单位个数,并根据每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k}获得我方作战单位的联合动作a=[a1,a2,...,ak]。
步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏,结合战损奖赏得到我方策略模型的总即时奖赏,并将“状态-动作-奖赏”元组加入训练样本集。
本实施例中,所述步骤4)具体为:
基于集群影响度的分析结果,计算我方集群压制奖赏rc,该值越大表明我方集群对于对方的压制能力越强,其计算公式如下:
其中,Ce为敌方集群集合,CA为我方集群集合,为集群ca的中心点坐标,||·||2为2-范数;
根据表1和表2列举的作战单位类型的重要性,计算当前战场情况下总的战损奖赏,计算公式如下:
其中Da为我方受到伤害的作战单位集合,De为敌方受到伤害的作战集合,type(i″)表示作战单位i″的类型,αtype(i″)表示作战单位i″的类型属性的重要性,type(j″)表示作战单位j″的类型,αtype(j″)表示作战单位j″的类型属性的重要性。
最后,依据集群压制奖赏和战损奖赏计算当前总奖赏,计算公式如下:
r=rc+rd
将“状态-动作-奖赏”元组(s,a,r)加入样本训练集D。
步骤5)战场博弈对局结束后,根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数,并通过梯度下降方法更新优化我方策略模型。
本实施例中,所述步骤5)具体包括:
根据与环境交互获得的样本训练集D,计算任意时刻t的优势函数At,基于PPO算法计算我方策略模型中策略网络的损失函数Jactor(θ)和价值网络的损失函数计算公式如下:
其中,θ是策略网络Actor的参数,πi′,θ为我方作战单位i′的当前策略,i′∈{1,2,...,k},πi′,old为我方作战单位i′的采样时策略,st为t时刻的状态,at为t时刻的动作,ε为超参数,At为策略的优势函数,clip(·,·,·)为裁剪函数,通过裁剪函数clip(·,·,·)和取最小函数min(·,·)为策略网络的更新提供合理的学习步长,为价值网络的参数,rt为t时刻的奖赏,/>为价值函数,γ为超参数,在本实施例中取0.99,T为样本时长;
策略网络参数θ和价值网络参数的梯度下降更新表达式为:
其中,α为学习率超参数,在本实施例中取值为0.001。
步骤6)在预设的最大交替训练次数范围内,每隔一定轮数对当前训练的我方策略模型测试其胜率,当我方策略模型满足阶段训练目标后,冻结其学习参数。
本实施例中,所述步骤6)具体包括:
每间隔M=50轮,采用当前的我方策略模型测试博弈胜率W,其公式为:
其中,ntotal为测试的总数,nwin为本次测试胜利的次数,ndraw为本次测试平局的次数。
在本实施例中,首先计算最近N=min(10,n′)次测试的胜率提升增速ΔW的计算最小二乘法,n′为当前测试次数,其公式为:
其中,Wm为距离当前轮数最近的第m次测试获得的胜率。
之后,判断当前我方策略模型的总训练轮数E和最近N次测试的胜率提升增速ΔW是否满足以下公式:
E>ET,ΔW>ΔWT
其中,ET为训练轮数阈值,ΔWT为训练胜率提升增速阈值,如果不满足上面的公式继续训练我方当前策略模型,如果满足,则冻结我方策略模型的学习参数,进入步骤7)。
步骤7)交替敌我双方身份,将当前待训练的敌方策略模型转换为我方策略模型,将步骤6)中冻结学习参数的我方策略模型转换为敌方策略模型,作为对手;
之后,不断重复执行步骤2)至步骤6)的训练过程,最终可得到较优的敌我双方战场博弈的策略模型。
在本实施例中,训练轮数阈值ET=500,训练胜率提升增速阈值ΔWT=0.05。最大交替训练次数为4,当满足最大交替训练次数,训练结束,图5和图6是训练结束后的本实施例模型的博弈场景示意图。
从图5中可以看到在仿真时间为2273秒时,由于我方(虚线圈内的红方)没有探明敌方的防守态势,而向敌方的左下方基地发动攻击,并且为了避免因信息不足而落入敌方防守包围圈中导致全军覆没的情况,我方采取的是先有一小批先头部队率先针对敌方左下角的基地发动进攻,主力部队紧随其后。而在图6中可以看到,当我方的先头部队发现敌方的大部分防守力量都集中在左下方时,先头部队紧急后撤,且后面的主力部队调头进攻敌方防守力量薄弱的左上方基地。
因此,可以看出本实施例中训练后获得的策略模型不仅学会了分波次进攻,而且在缺乏敌方信息时,将会采取小部队先头冲锋的策略,这既可以探明敌方防守阵型,寻找敌方防守力量的薄弱点,而且可以以尽可能小的损失获得更多的情报,为随后的决策提供帮助。而通过图6可以发现我方策略模型在发现敌方防守力量强,强攻难以取胜时会立刻做出反应,先头部队紧急撤离,减小战损,而紧随其后的大部队则会掉头进攻敌方防守力量薄弱点,以尽可能小的损失获得胜利。由此,可以认为本发明训练得到的战场博弈策略模型学会了包括侦察、佯攻在内的多种战术技巧。本发明方法可以克服博弈对抗战场环境具有态势空间大、对抗性强、决策空间大等挑战,在复杂的博弈对抗战场环境中做出及时、精准、有效的决策指令。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,包括:
步骤1)构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型,并分别设置敌我双方策略模型的初始化参数;
步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群,按照当前战场的战场空间单元的划分,以及当前战场中我方和敌方的所有作战单位的分布,对我方和敌方分别构建多个集群;
对于每个集群,根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度;
步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息,形成当前我方策略模型强化学习的输入状态,完成状态到动作的映射;
步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏,结合战损奖赏得到我方策略模型的总即时奖赏,并将“状态-动作-奖赏”元组加入训练样本集;
步骤5)战场博弈对局结束后,根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数,并通过梯度下降方法更新优化我方策略模型;
步骤6)在预设的最大交替训练次数范围内,每隔一定轮数对当前训练的我方策略模型测试其胜率,当我方策略模型满足阶段训练目标后,冻结其学习参数,进入下一步;
步骤7)将当前待训练的敌方策略模型转换为我方策略模型,将步骤6)中冻结学习参数的我方策略模型作为对手,进行敌我双方的身份转换,重复执行步骤2)至步骤6)的训练过程,得到优化的敌我双方战场博弈的策略模型。
2.根据权利要求1所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,所述步骤2)具体为:
将宏观的战场空间按照长为lcell,宽为wcell的矩形进行分割,形成战场空间单元集C,为实现以集群为核心的战场态势表示,依据作战单位u与各集群中心点的距离确定作战单位所属集群Ci,具体公式如下:
设集群的影响度是由集群中的每个个体作战单位的影响度决定,计算每个作战单位的影响度,作战单位的影响度计算公式如下:
power(u,d)=Nammo(u)×Phit(d)×damage(u)×speed(u)
其中,Nammo为作战单位u所能进行攻击的次数,Phit为在距离作战单位u为d的位置处实施攻击所能生效的先验概率,damage为作战单位u一次打击所能造成的效果,speed为该作战单位u的移动速度;
在完成多个集群的划分和个体影响度计算的基础上,针对任意一个集群Ci计算其集群影响度计算公式如下:
其中,d′u为当前作战单位u到对方集群中心点直线距离中的最小值,hardness(u)为作战单位u的类型影响因子,该值为超参数。
3.根据权利要求2所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,所述步骤3)具体为:
构建当前时刻的战场环境状态信息s(E,POS,AM,RM),其中E为我方观察范围内的敌方集群影响度构成的元组POS为我方单位的位置信息元组(Pos1,...,Posn),AM为我方单位的弹药信息元组(Am1,...,Amn),n为自然数,RM为我方存活作战单位数目;
将战场环境状态信息s送入我策略模型中,获得每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k},其中k为我方作战单位个数,并根据每个我方作战单位的当前策略πi′(a|s),i′∈{1,2,...,k}获得我方作战单位的联合动作a=[a1,a2,...,ak]。
4.根据权利要求3所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,所述步骤4)具体为:
基于集群影响度的分析结果,计算我方集群压制奖赏rc,该值越大表明我方集群对于对方的压制能力越强,其计算公式如下:
其中,Ce为敌方集群集合,CA为我方集群集合,为集群ca的中心点坐标,||·||2为2-范数;
根据当前战场情况计算战损奖赏,计算公式如下:
其中Da为我方受到伤害的作战单位集合,De为敌方受到伤害的作战集合,type(i″)表示作战单位i″的类型,αtype(i″)表示作战单位i″的类型属性的重要性,type(j″)表示作战单位j″的类型,αtype(j″)表示作战单位j″的类型属性的重要性;
依据集群压制奖赏和战损奖赏计算当前总奖赏,计算公式如下:
r=rc+rd
将“状态-动作-奖赏”元组(S,a,r)加入样本训练集D。
5.根据权利要求4所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,所述步骤5)具体包括:
根据与环境交互获得的样本训练集D,计算任意时刻t的优势函数At,基于PPO算法计算我方策略模型中策略网络的损失函数Jactor(θ)和价值网络的损失函数计算公式如下:
其中,θ是策略网络Actor的参数,πi′,θ为我方作战单位i′的当前策略,i′∈{1,2,...,k},πi′,old为我方作战单位i′的采样时策略,st为t时刻的状态,at为t时刻的动作,ε为超参数,At为策略的优势函数,clip(·,·,·)为裁剪函数,通过裁剪函数clip(·,·,·)和取最小函数min(·,·)为策略网络的更新提供合理的学习步长,为价值网络的参数,rt为t时刻的奖赏,/>为价值函数,γ为超参数,T为样本时长;
策略网络参数θ和价值网络参数的梯度下降更新表达式为:
其中,α为学习率超参数。
6.根据权利要求1所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,所述步骤6)具体包括:
每间隔M轮,采用我方当前策略模型测试博弈胜率W,其公式为:
其中,ntotal为测试的总数,nwin为本次测试胜利的次数,ndraw为本次测试平局的次数;
采用计算最小二乘法计算最近N次测试的胜率提升增速ΔW,其公式为:
其中,Wm为距离当前轮数最近的第m次测试获得的胜率;
判断当前我方策略模型的总训练轮数E和最近N次测试的胜率提升增速ΔW是否满足以下公式:
E>ET,ΔW>ΔWT
其中,ET为训练轮数阈值,ΔWT为训练胜率提升增速阈值,如果不满足上面的公式继续训练我方当前模型,如果满足,则冻结其学习参数,进入步骤7)。
7.根据权利要求1-6中任一项所述一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于:
所述以神经网络为基础的强化学习策略模型,包括策略网络和价值网络,所述策略网络设有具有记忆功能的GRU单元,以解决战争迷雾问题。
CN202110877724.4A 2021-08-01 2021-08-01 一种基于集群影响度的战场博弈策略强化学习训练方法 Active CN113705828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110877724.4A CN113705828B (zh) 2021-08-01 2021-08-01 一种基于集群影响度的战场博弈策略强化学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110877724.4A CN113705828B (zh) 2021-08-01 2021-08-01 一种基于集群影响度的战场博弈策略强化学习训练方法

Publications (2)

Publication Number Publication Date
CN113705828A CN113705828A (zh) 2021-11-26
CN113705828B true CN113705828B (zh) 2024-03-19

Family

ID=78651159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110877724.4A Active CN113705828B (zh) 2021-08-01 2021-08-01 一种基于集群影响度的战场博弈策略强化学习训练方法

Country Status (1)

Country Link
CN (1) CN113705828B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988317B (zh) * 2021-12-23 2022-04-05 中国科学院自动化研究所 一种针对球场运动球员的动态策略优化方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656300A (zh) * 2016-12-21 2017-05-10 中国航天时代电子公司 一种采用自组网数据链的无人机集群作战系统
CN110428057A (zh) * 2019-05-06 2019-11-08 南京大学 一种基于多智能体深度强化学习算法的智能博弈系统
CN110661566A (zh) * 2019-09-29 2020-01-07 南昌航空大学 一种采用深度图嵌入的无人机集群组网方法与系统
CN111160565A (zh) * 2019-12-18 2020-05-15 四川大学 一种基于强化学习的空战博弈机动策略交替冻结训练方法
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN112182977A (zh) * 2020-10-12 2021-01-05 中国人民解放军国防科技大学 一种无人集群协同博弈对抗的控制方法及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706336B2 (en) * 2017-03-17 2020-07-07 Nec Corporation Recognition in unlabeled videos with domain adversarial learning and knowledge distillation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656300A (zh) * 2016-12-21 2017-05-10 中国航天时代电子公司 一种采用自组网数据链的无人机集群作战系统
CN110428057A (zh) * 2019-05-06 2019-11-08 南京大学 一种基于多智能体深度强化学习算法的智能博弈系统
CN110661566A (zh) * 2019-09-29 2020-01-07 南昌航空大学 一种采用深度图嵌入的无人机集群组网方法与系统
CN111160565A (zh) * 2019-12-18 2020-05-15 四川大学 一种基于强化学习的空战博弈机动策略交替冻结训练方法
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN112182977A (zh) * 2020-10-12 2021-01-05 中国人民解放军国防科技大学 一种无人集群协同博弈对抗的控制方法及系统
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
An approach for predicting digital material consumption in electronic warfare;Xiong Li;Xiao-dong Zhao;Wei Pu;;Defence Technology;20200215(第01期);全文 *
Multi-agent system application in accordance with game theory in bi-directional coordination network model;ZHANG Jie;WANG Gang;YUE Shaohua;SONG Yafei;LIU Jiayi;YAO Xiaoqiang;;Journal of Systems Engineering and Electronics;20200415(第02期);全文 *
Research on Application of Density-Based Clustering Algorithm in Aircraft Formation Analysis;Xianwei Zhang等;《2020 5th International Conference on Information Science, Computer Technology and Transportation (ISCTT)》;20210304;全文 *
基于GA-Elman神经网络的水下集群作战效能评估;朱民;卢骞;丁元明;;火力与指挥控制;20200715(第07期);全文 *
强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究;汪亮等;《中国科学:信息科学》;20200229;全文 *
未来智能无人对抗的机遇与挑战;黄文华;;现代应用物理;20191226(第04期);全文 *
面向集群攻防作战的等效验证与训练评估;武梅丽文;王蒙一;王晓东;宋勋;;指挥与控制学报;20200915(第03期);全文 *

Also Published As

Publication number Publication date
CN113705828A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN109499068B (zh) 对象的控制方法和装置、存储介质、电子装置
CN110119773B (zh) 战略博弈系统的全局态势评估方法、系统和装置
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN110119547B (zh) 一种预测团战胜负的方法、装置及控制设备
CN102682196B (zh) 一种图形化显示方法及系统
CN113222106A (zh) 一种基于分布式强化学习的智能兵棋推演方法
CN113705828B (zh) 一种基于集群影响度的战场博弈策略强化学习训练方法
CN113893539A (zh) 智能体的协同对战方法及装置
CN113723013A (zh) 一种用于连续空间兵棋推演的多智能体决策方法
Uriarte et al. Automatic learning of combat models for RTS games
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN114880955B (zh) 基于强化学习的兵棋多实体异步协同决策方法和装置
CN111450534B (zh) 一种标签预测模型的训练方法、标签预测的方法及装置
Xue et al. Multi-attribute decision-making in wargames leveraging the Entropy-Weight method in conjunction with deep reinforcement learning
WO2019141252A1 (zh) 运行结果的传输方法、装置、存储介质及电子装置
CN103853894B (zh) 基于rbf算法的诱饵弹延时投放时间精度计算方法
Lin et al. Emergent tactical formation using genetic algorithm in real-time strategy games
Cheng et al. YuShan2022 Team Description Paper for RoboCup2022
CN114344889A (zh) 游戏策略模型生成方法和游戏中智能体的控制方法
He et al. Dynamic gain military game algorithm based on episodic memory
Bian et al. Cooperative strike target assignment algorithm based on deep reinforcement learning
Sun et al. $$ Research on fusion algorithm of multi-attribute decision making and reinforcement learning based on intuitionistic fuzzy number in wargame environment $$
CN111437607B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN117171984A (zh) 一种基于深度强化学习的空战机动决策方法
Dannenhauer et al. Dungeon crawl stone soup as an evaluation domain for artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant