CN113705828B

CN113705828B - 一种基于集群影响度的战场博弈策略强化学习训练方法

Info

Publication number: CN113705828B
Application number: CN202110877724.4A
Authority: CN
Inventors: 侯松林; 蒋煜; 胡昊; 汪亮; 陶先平
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-08-01
Filing date: 2021-08-01
Publication date: 2024-03-19
Anticipated expiration: 2041-08-01
Also published as: CN113705828A

Abstract

本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法，通过集群影响度的分析结果并结合强化学习技术，可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战，并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平，有效应对开放战场环境学习困难的问题，有助于军事战场中的人机协同决策等情况，可广泛应用于局域作战、反恐等领域的决策问题。

Description

一种基于集群影响度的战场博弈策略强化学习训练方法

技术领域

本发明属于机器人学习技术领域，涉及智能博弈和军事决策技术，具体为一种基于集群影响度的战场博弈策略强化学习训练方法。

背景技术

近年来，随着深度学习在计算机视觉和自然语言处理等领域取得显著成绩，越来越多的研究者将深度学习和强化学习结合，形成深度强化学习，并在诸多决策领域取得了令人瞩目的成绩，例如DeepMind团队开发的AlphaGo就曾击败了人类顶尖围棋选手。博弈对抗战场环境通常具有作战单位数目大、战争迷雾、对抗性强和决策空间大等特点，这些特点使得开放战场决策难度高，而深度强化学习在围棋、游戏等领域取得的成功，使得基于强化学习的训练开放战场环境下的智能博弈策略成为了当前研究领域的热点。

发明内容

本发明的目的在于克服博弈对抗战场环境具有的挑战，提供一种基于集群影响度的战场博弈策略强化学习训练方法，依据集群影响度分析结果，采用强化学习训练智能博弈策略，在复杂的博弈对抗战场环境中做出及时、精准、有效的决策指令。

本发明提出的技术方案为：

一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，包括：

步骤1)构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型，并分别设置敌我双方策略模型的初始化参数；

步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群，按照当前战场的战场空间单元的划分，以及当前战场中我方和敌方的所有作战单位的分布，对我方和敌方分别构建多个集群；

对于每个集群，根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度；

步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息，形成当前我方策略模型强化学习的输入状态，完成状态到动作的映射；

步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏，结合战损奖赏得到我方策略模型的总即时奖赏，并将“状态-动作-奖赏”元组加入训练样本集；

步骤5)战场博弈对局结束后，根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数，并通过梯度下降方法更新优化我方策略模型；

步骤6)在预设的最大交替训练次数范围内，每隔一定轮数对当前训练的我方策略模型测试其胜率，当我方策略模型满足阶段训练目标后，冻结其学习参数；

步骤7)将当前待训练的敌方策略模型转换为我方策略模型，将步骤6)中冻结学习参数的我方策略模型作为对手，进行敌我双方的身份转换，重复执行步骤2)至步骤6)的训练过程，得到优化的敌我双方战场博弈策略模型。

在上述方案的基础上，进一步改进或优选的方案还包括：

进一步的，所述步骤2)具体包括：

将宏观的战场空间按照长为l_cell，宽为w_cell的矩形进行分割，形成战场空间单元集C，为实现以集群为核心的战场态势表示，依据作战单位u与各集群中心点的距离确定作战单位所属集群C_i，具体公式如下：

设集群的影响度是由集群中的每个个体作战单位的影响度决定，计算每个作战单位的影响度，作战单位的影响度计算公式如下：

power(u，d)＝N_ammo(u)×P_hit(d)×damage(u)×speed(u)

其中，N_ammo为作战单位u所能进行攻击的次数，P_hit为在距离作战单位u为d的位置处实施攻击所能生效的先验概率，damage为作战单位u一次打击所能造成的效果，speed为该作战单位u的移动速度；

在完成多个集群的划分和个体影响度计算的基础上，针对任意一个集群C_i计算其集群影响度计算公式如下：

其中，d′_u为当前作战单位u到对方集群中心点直线距离中的最小值，hardness(u)为作战单位u的类型影响因子，该值为超参数。

进一步的，所述步骤3)具体包括：

构建当前时刻的战场环境状态信息s(E，POS，AM，RM)，其中E为我方观察范围内的敌方集群影响度构成的元组POS为我方单位的位置信息元组(Pos₁，...，Pos_n)，AM为我方单位的弹药信息元组(Am₁，...，Am_n)，n为自然数，RM为我方存活作战单位数目。

将战场环境状态信息s送入我方策略模型中，获得每个我方作战单位的当前策略π_i′(a|s)，i′∈{1，2，...，k}，其中k为我方作战单位个数，并根据每个我方作战单位的当前策略π_i′(a|s)，i′∈{1，2，...，k}获得我方作战单位的联合动作a＝[a₁，a₂，...，a_k]。

进一步的，所述步骤4)具体包括：

基于集群影响度的分析结果，计算我方集群压制奖赏r_c，该值越大表明我方集群对于对方的压制能力越强，其计算公式如下：

其中，C_e为敌方集群集合，C_A为我方集群集合，为集群c_a的中心点坐标，||·||₂为2-范数；

根据当前战场情况计算战损奖赏，计算公式如下：

其中D_a为我方受到伤害的作战单位集合，D_e为敌方受到伤害的作战集合，type(i″)表示作战单位i″的类型，αt_ype(i″)表示作战单位i″的类型属性的重要性，type(j″)表示作战单位j″的类型，α_type(j″)表示作战单位j″的类型属性的重要性；

依据集群压制奖赏和战损奖赏计算当前总奖赏，计算公式如下：

r＝r_c+r_d

将“状态-动作-奖赏”元组(s，a，r)加入样本训练集D。

进一步的，所述步骤5)具体包括：

根据与环境交互获得的样本训练集D，计算任意时刻t的优势函数A_t，基于PPO算法计算我方策略模型中策略网络的损失函数J_actor(θ)和价值网络的损失函数计算公式如下：

其中，θ是策略网络Actor的参数，π_i′，θ为我方作战单位i′的当前策略，i′∈{1，2，...，k}，π_i′，old为我方作战单位i′的采样时策略，s_t为t时刻的状态，a_t为t时刻的动作，ε为超参数，A_t为策略的优势函数，clip(·，·，·)为裁剪函数，通过裁剪函数clip(·，·，·)和取最小函数min(·，·)为策略网络的更新提供合理的学习步长，为价值网络的参数，r_t为t时刻的奖赏，/>为价值函数，γ为超参数，T为样本时长；

策略网络参数θ和价值网络参数的梯度下降更新表达式为：

其中，α为学习率超参数。

进一步的，所述步骤6)具体包括：

每间隔M轮，采用我方当前模型测试博弈胜率W，其公式为：

其中，n_total为测试的总数，n_win为本次测试胜利的次数，n_draw为本次测试平局的次数。

采用计算最小二乘法计算最近N次测试的胜率提升增速ΔW，其公式为：

其中，W_m为距离当前轮数最近的第m次测试获得的胜率；

判断当前我方策略模型的总训练轮数E和最近N次测试的胜率提升增速ΔW是否满足以下公式：

E＞E_T，ΔW＞ΔW_T

其中，E_T为训练轮数阈值，ΔW_T为训练胜率提升增速阈值，如果不满足上面的公式继续训练我方当前模型，如果满足，则冻结我方其学习参数，进入步骤7)。

进一步的，所述以神经网络为基础的强化学习策略模型，包括策略网络和价值网络，所述策略网络设有具有记忆功能的GRU单元，以解决战争迷雾问题。

有益效果：

附图说明

图1为本发明的方法流程示意图；

图2为博弈策略的强化学习训练框架图；

图3为实施例的强化学习神经网络模型图；

图4为实施例的某一时刻的集群影响度可视化结果；

图5为实施例的智能博弈对战仿真实验的某时刻示意图(a)；

图6为实施例的智能博弈对战仿真实验的某时刻示意图(b)。

具体实施方式

下面结合具体实施例详细的阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在本实施例中，红蓝阵营双方在350km×350km的范围内展开博弈，双方拥有包括歼击机、轰炸机、干扰机等多种类型的作战单位，具体类型及参数如表1和表2所示。通过本发明基于集群影响度的战场博弈策略强化学习训练方法生成的智能博弈策略，可帮助我方逐渐取得战略优势。

表1

表2

如图1所示，本发明方法基于集群影响度的战场博弈策略强化学习训练方法，包括以下步骤：

步骤1)构建以神经网络为基础的强化学习策略模型，作为敌方策略模型和我方策略模型，并分别初始化敌我双方的策略模型，设置其初始化参数。

在本实施例中，所述强化学习策略模型的设计框架如图3所示，其输入层由全连接网络构成，其策略网络采用具有记忆功能的GRU单元，以解决战争迷雾问题，其输出层由全连接层组成。

步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群，按照当前战场的战场空间单元的划分，以及当前战场中我方和敌方的所有作战单位的分布，对我方和敌方分别构建多个集群。对于每个集群，根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度。

本实施例中，步骤2)具体过程如下：

将宏观的战场空间按照长l_cell＝70km，，宽w_cell＝50km的矩形进行分割，形成战场空间单元集C，为实现以集群为核心的战场态势表示，依据作战单位u与各集群中心点的距离确定作战单位所属集群C_i，具体公式如下：

在本实施例中，集群的影响度是由集群中的每个个体作战单位的影响度决定，因此需要计算每个作战单位的影响度，作战单位的影响度计算公式如下：

power(u，d)＝N_ammo(u)×P_hit(d)×damage(u)×speed(u)

本实施例中，在基于集群划分和个体影响度计算的基础上，针对任意一个集群C_i计算其集群影响度计算公式如下：

步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息，形成当前我方策略模型强化学习的输入状态，完成状态到动作的映射。

本实施例中，所述步骤3)具体为：

步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏，结合战损奖赏得到我方策略模型的总即时奖赏，并将“状态-动作-奖赏”元组加入训练样本集。

本实施例中，所述步骤4)具体为：

根据表1和表2列举的作战单位类型的重要性，计算当前战场情况下总的战损奖赏，计算公式如下：

其中D_a为我方受到伤害的作战单位集合，D_e为敌方受到伤害的作战集合，type(i″)表示作战单位i″的类型，α_type(i″)表示作战单位i″的类型属性的重要性，type(j″)表示作战单位j″的类型，α_type(j″)表示作战单位j″的类型属性的重要性。

最后，依据集群压制奖赏和战损奖赏计算当前总奖赏，计算公式如下：

r＝r_c+r_d

将“状态-动作-奖赏”元组(s，a，r)加入样本训练集D。

步骤5)战场博弈对局结束后，根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数，并通过梯度下降方法更新优化我方策略模型。

本实施例中，所述步骤5)具体包括：

其中，θ是策略网络Actor的参数，π_i′，θ为我方作战单位i′的当前策略，i′∈{1，2，...，k}，π_i′，old为我方作战单位i′的采样时策略，s_t为t时刻的状态，a_t为t时刻的动作，ε为超参数，A_t为策略的优势函数，clip(·，·，·)为裁剪函数，通过裁剪函数clip(·，·，·)和取最小函数min(·，·)为策略网络的更新提供合理的学习步长，为价值网络的参数，r_t为t时刻的奖赏，/>为价值函数，γ为超参数，在本实施例中取0.99，T为样本时长；

策略网络参数θ和价值网络参数的梯度下降更新表达式为：

其中，α为学习率超参数，在本实施例中取值为0.001。

步骤6)在预设的最大交替训练次数范围内，每隔一定轮数对当前训练的我方策略模型测试其胜率，当我方策略模型满足阶段训练目标后，冻结其学习参数。

本实施例中，所述步骤6)具体包括：

每间隔M＝50轮，采用当前的我方策略模型测试博弈胜率W，其公式为：

在本实施例中，首先计算最近N＝min(10，n′)次测试的胜率提升增速ΔW的计算最小二乘法，n′为当前测试次数，其公式为：

其中，W_m为距离当前轮数最近的第m次测试获得的胜率。

之后，判断当前我方策略模型的总训练轮数E和最近N次测试的胜率提升增速ΔW是否满足以下公式：

E＞E_T，ΔW＞ΔW_T

其中，E_T为训练轮数阈值，ΔW_T为训练胜率提升增速阈值，如果不满足上面的公式继续训练我方当前策略模型，如果满足，则冻结我方策略模型的学习参数，进入步骤7)。

步骤7)交替敌我双方身份，将当前待训练的敌方策略模型转换为我方策略模型，将步骤6)中冻结学习参数的我方策略模型转换为敌方策略模型，作为对手；

之后，不断重复执行步骤2)至步骤6)的训练过程，最终可得到较优的敌我双方战场博弈的策略模型。

在本实施例中，训练轮数阈值E_T＝500，训练胜率提升增速阈值ΔW_T＝0.05。最大交替训练次数为4，当满足最大交替训练次数，训练结束，图5和图6是训练结束后的本实施例模型的博弈场景示意图。

从图5中可以看到在仿真时间为2273秒时，由于我方(虚线圈内的红方)没有探明敌方的防守态势，而向敌方的左下方基地发动攻击，并且为了避免因信息不足而落入敌方防守包围圈中导致全军覆没的情况，我方采取的是先有一小批先头部队率先针对敌方左下角的基地发动进攻，主力部队紧随其后。而在图6中可以看到，当我方的先头部队发现敌方的大部分防守力量都集中在左下方时，先头部队紧急后撤，且后面的主力部队调头进攻敌方防守力量薄弱的左上方基地。

因此，可以看出本实施例中训练后获得的策略模型不仅学会了分波次进攻，而且在缺乏敌方信息时，将会采取小部队先头冲锋的策略，这既可以探明敌方防守阵型，寻找敌方防守力量的薄弱点，而且可以以尽可能小的损失获得更多的情报，为随后的决策提供帮助。而通过图6可以发现我方策略模型在发现敌方防守力量强，强攻难以取胜时会立刻做出反应，先头部队紧急撤离，减小战损，而紧随其后的大部队则会掉头进攻敌方防守力量薄弱点，以尽可能小的损失获得胜利。由此，可以认为本发明训练得到的战场博弈策略模型学会了包括侦察、佯攻在内的多种战术技巧。本发明方法可以克服博弈对抗战场环境具有态势空间大、对抗性强、决策空间大等挑战，在复杂的博弈对抗战场环境中做出及时、精准、有效的决策指令。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，包括：

步骤1)构建以神经网络为基础的强化学习策略模型，作为敌方策略模型和我方策略模型，并分别设置敌我双方策略模型的初始化参数；

步骤6)在预设的最大交替训练次数范围内，每隔一定轮数对当前训练的我方策略模型测试其胜率，当我方策略模型满足阶段训练目标后，冻结其学习参数，进入下一步；

步骤7)将当前待训练的敌方策略模型转换为我方策略模型，将步骤6)中冻结学习参数的我方策略模型作为对手，进行敌我双方的身份转换，重复执行步骤2)至步骤6)的训练过程，得到优化的敌我双方战场博弈的策略模型。

2.根据权利要求1所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，所述步骤2)具体为：

power(u，d)＝N_ammo(u)×P_hit(d)×damage(u)×speed(u)

3.根据权利要求2所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，所述步骤3)具体为：

构建当前时刻的战场环境状态信息s(E，POS，AM，RM)，其中E为我方观察范围内的敌方集群影响度构成的元组POS为我方单位的位置信息元组(Pos₁，...，Pos_n)，AM为我方单位的弹药信息元组(Am₁，...，Am_n)，n为自然数，RM为我方存活作战单位数目；

将战场环境状态信息s送入我策略模型中，获得每个我方作战单位的当前策略π_i′(a|s)，i′∈{1，2，...，k}，其中k为我方作战单位个数，并根据每个我方作战单位的当前策略π_i′(a|s)，i′∈{1，2，...，k}获得我方作战单位的联合动作a＝[a₁，a₂，...，a_k]。

4.根据权利要求3所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，所述步骤4)具体为：

根据当前战场情况计算战损奖赏，计算公式如下：

其中D_a为我方受到伤害的作战单位集合，D_e为敌方受到伤害的作战集合，type(i″)表示作战单位i″的类型，α_type(i″)表示作战单位i″的类型属性的重要性，type(j″)表示作战单位j″的类型，α_type(j″)表示作战单位j″的类型属性的重要性；

r＝r_c+r_d

将“状态-动作-奖赏”元组(S，a，r)加入样本训练集D。

5.根据权利要求4所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，所述步骤5)具体包括：

策略网络参数θ和价值网络参数的梯度下降更新表达式为：

其中，α为学习率超参数。

6.根据权利要求1所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于，所述步骤6)具体包括：

每间隔M轮，采用我方当前策略模型测试博弈胜率W，其公式为：

其中，n_total为测试的总数，n_win为本次测试胜利的次数，n_draw为本次测试平局的次数；

其中，W_m为距离当前轮数最近的第m次测试获得的胜率；

E＞E_T，ΔW＞ΔW_T

其中，E_T为训练轮数阈值，ΔW_T为训练胜率提升增速阈值，如果不满足上面的公式继续训练我方当前模型，如果满足，则冻结其学习参数，进入步骤7)。

7.根据权利要求1-6中任一项所述一种基于集群影响度的战场博弈策略强化学习训练方法，其特征在于：

所述以神经网络为基础的强化学习策略模型，包括策略网络和价值网络，所述策略网络设有具有记忆功能的GRU单元，以解决战争迷雾问题。