CN113282100A

CN113282100A - 基于强化学习的无人机对抗博弈训练控制方法

Info

Publication number: CN113282100A
Application number: CN202110464589.0A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 郭天豪; 管聪; 庞竟成; 罗凡明; 张云天; 袁雷; 陈雄辉
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-20

Abstract

本申请公开了一种基于强化学习的无人机对抗博弈训练控制方法，包括如下步骤：使主智能体与对手池中所有对手对战并统计所述主智能体的胜率；判断所述主智能体的胜率是否满足预设要求；如果所述主智能体的胜率满足预设要求，则根据所述主智能体的胜率选择对抗对手；使主智能体与所述对抗对手训练直至所述主智能体策略收敛。本申请的有益之处在于。本申请的有益之处在于提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。

Description

基于强化学习的无人机对抗博弈训练控制方法

技术领域

本申请涉及无人机控制领域，具体涉及一种基于强化学习的无人机对抗博弈训练控制方法。

背景技术

无人机作战在现代军事中占据重要的地位，无人机作战以其“零生命”风险、更强作战能力以及更能适应恶劣作战环境的优势，成为未来战争中不可或缺的一环，然而真实的无人机对抗训练代价较大，无人机容易损坏，训练成本高。为了解决真实环境中训练代价大的问题，近年来，基于对抗环境的无人机对抗引起关注并得到一定的发展。传统无人机模拟对抗主要是采用自动化控制的方法，人工建模，依赖相关领域专家制定对战策略。在复杂变化的环境下，存在大量对战规则中没有考虑到的情况，对战规则无法处理所有复杂的环境，能力较低，如何提升智能体的对抗能力意义巨大且得到广泛关注。

近年来随着深度学习在众多领域的广泛应用，深度强化学习算法在机器人控制、游戏等领域取得一系列的成果。强化学习应用在仅有一个基于规则的对手的对抗环境中，难以从零学习如何去击败对战能力中等的对手，原因在于随机策略与基于规则的对手水平相差巨大，即使通过多局对战，也难以学习到击败对手的策略，通过强化学习学到一个超越基于规则的对手更加困难。

因此在无人机控制领域，尚没有一种行之有效的对抗博弈训练控制方法。

发明内容

为了解决现有技术的不足之处，本申请提供了一种基于强化学习的无人机对抗博弈训练控制方法，包括如下步骤：

使主智能体与对手池中所有对手对战并统计所述主智能体的胜率；

判断所述主智能体的胜率是否满足预设要求；

如果所述主智能体的胜率满足预设要求，则根据所述主智能体的胜率选择对抗对手；

使主智能体与所述对抗对手训练直至所述主智能体策略收敛。

进一步地，所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

初始化所述主智能体利用者；

使所述主智能体作为所述主智能体利用者的对手进行对抗训练至所述主智能体利用者策略收敛。

将所述主智能体利用者加入对手池。

对所述主智能体策略加扰动因子。

将加扰动因子的策略加入对手池。

收集对抗数据；

模仿学习获得初始化策略；

构建对手池。

初始化策略作为当前策略；

以当前策略与规则对对手进行对抗训练。

每间隔时间T，将当前策略加入对手池。

判断当前策略是否收敛，如果否，则转回至以当前策略与规则对对手进行对抗训练。

判断当前策略是否收敛，如果是，则初始化所述智能体。

本申请的有益之处在于：提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的基于强化学习的无人机对抗博弈训练控制方法步骤示意框图；

图2是根据本申请一种实施例的基于强化学习的无人机对抗博弈训练控制方法所依靠的系统的架构示意图；

图3是根据本申请一种实施例的基于强化学习的无人机对抗博弈训练控制方法中的对抗训练过程示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

参照图1至图3所示，本申请的基于强化学习的无人机对抗博弈训练控制方法总体而言包括如下内容：(1)基于空气动力学的仿真对抗环境，包括一个由专家给定的基于规则的对手，其可视化部分基于Unity3D实现；(2)确定无人机智能体的状态、动作、奖励函数；(3)收集基于规则的红蓝无人机之间的对战数据，通过模仿学习，学习到智能体的初始化策略；(4)初始化策略与基于规则的对手对抗训练并优化该策略直到收敛，将上述策略加入到对手池作为对手；随机初始化主智能体，针对对手池中的对手进行训练，策略通过SAC算法进行优化，直至胜率达到满足条件，通过对主智能体的策略进行人为修改并将修改的版本加入到对手池。

更具体而言，对抗环境应尽可能地模拟无人机对战时的状态，对抗环境要求能接受无人机的原始输入信息，并将部分环境信息、主智能体状态以及对手的状态作为观测值返还给无人机。其过程可以定义为马尔可夫决策过程(MDP)的元组(O,A,P,R)，其中观测信息O由主智能体状态信息S₁和对手的状态信息S₂组成。S₁＝<h₁,v₁,g₁,d₁，α₁，β₁，γ₁>分别对应无人机当前的海拔高度、速度、加速度、与对手的相对距离、相对于北偏东坐标系的三个角度，S₂与S₁结构相同。同时，对抗环境也要提供逼真的无人机操作指令。在对抗环境中采集数据，通过SAC强化学习算法对策略进行优化，直到策略收敛。

作为具体方案，定义了16种机动操作，分别为：等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、转入、S形、拦射、快转、抛射、偏置俯冲、发弹。上述的操作由俯仰指令、偏航指令、翻滚指令、飞行速度组合而成：a＝<α,β，γ，v>。

奖励包括：离开目标区域惩罚、战胜对手的奖励、被对手击败的惩罚等。主智能体的奖励如下：

同时，为了鼓励主智能体能够在规定时间内击败对手，设置每个时间步骤都会得到-0.05的奖励，如下：

score₂＝-0.05

在第t个时间步骤时的主智能体的到的奖励为：

score_t＝II(对战是否结束)×score₁+score₂×t

其中II(x)指示函数当x为真时，II(x)＝1；否则II(x)＝0。当对抗结束时，获得最终的奖赏。

并且，对抗环境中生成基于同种规则的红蓝无人机，通过红蓝双方对抗，收集轨迹序列，该轨迹序列形式：

根据收集的对抗数据，进行模仿学习。

作为具体方案，对手池更新步骤包括：(1)将初始化策略与基于规则的对手进行对抗训练，每隔时间T，将当前策略保存到对手池，直到策略收敛；(2)训练主智能体利用者，重新初始化一个策略，固定主智能体的策略，使用SAC优化算法针对主智能体进行训练，直至该策略收敛，将该策略加入到对手池。(3)主智能体利用者训练结束后，对主智能体的策略进行人为的修改，将修改后的策略加入对手池。

需要说明的是，SAC算法是一种基于Actor-Critic框架的强化学习算法。使用神经网络来表示无人机对抗博弈的策略，用当前的策略在对抗环境中控制无人机，采集样本，借助收集到的样本，使用SAC算法优化当前无人机对抗博弈的策略，直到策略不再提升。更新对手池，重新评估胜率，选择合适的对手进行新一轮的对抗训练。

作为优选方案，如图1所示，无人机对抗博弈训练控制方法，包括如下步骤：

使主智能体与对手池中所有对手对战并统计主智能体的胜率；

判断主智能体的胜率是否满足预设要求；

如果主智能体的胜率满足预设要求，则根据主智能体的胜率选择对抗对手；

使主智能体与对抗对手训练直至主智能体策略收敛。

具体而言，该无人机对抗博弈训练控制方法还包括如下步骤：

初始化主智能体利用者；

使主智能体作为主智能体利用者的对手进行对抗训练至主智能体利用者策略收敛。

将主智能体利用者加入对手池。

对主智能体策略加扰动因子。

将加扰动因子的策略加入对手池。

收集对抗数据；

模仿学习获得初始化策略；

构建对手池。

初始化策略作为当前策略；

以当前策略与规则对对手进行对抗训练。

每间隔时间T，将当前策略加入对手池。

判断当前策略是否收敛，如果是，则初始化智能体。

作为本申请的具体方案，参考图2所示，本申请的控制方法具体包括：

步骤一：

基于Unity3D构造基于空气动力学的对抗环境，包括基于规则的无人机，对抗环境能覆盖多种复杂场景。飞机与对抗环境交互过程可以定义为马尔可夫决策过程(MDP)的元组(O,A,P,R)，其中观测信息O由无人机自身状态信息S₁以及对手的状态信息S₂组成。状态信息形式为：S₁＝<h₁,v₁,g₁，d₁，α₁，β₁，γ₁>分别对应当前无人机的海拔高度、速度、加速度、与对手的相对距离、相对于北偏东坐标系的三个角度。无人机的动作形式为：a＝<α,β,γ,v>分别对应无人机的俯仰指令、偏航指令、翻滚指令、飞行速度。无人机对战的奖励需要合理的设计才能引导无人机做出正常的动作，进而学得对战能力强的策略。主智能体的奖励设置包括：(1)击败对手给予+20的奖励；(2)在规定时间内，双方平局，则给予主智能体-10的奖励；(3)主智能体飞出对战区域，给予-5的奖励；(4)对手飞出区域得到-1的奖励；(5)主智能体被对手击败得-20奖赏。(6)为了鼓励主智能体能够在规定时间内击败对手，设置每个时间步骤得到-0.05的奖励。

步骤二：

收集对战双方均是基于规则的对战数据，将对战数据处理成用于模仿学习的数据集D＝{(s₁,a₁),(s₂,a₂),……,(s_N,a_N)}。将状态作为特征，将动作作为标记。模仿学习的神经网络是多层前馈神经网络f_θ(s)，输入的是飞机的状态s，输出的是无人机的动作a。损失函数为：

通过反向传播算法对网络参数θ进行更新，直到收敛，进而得到初始化对抗策略。

步骤三：

无人机对抗博弈训练使用的基于Actor-Critic框架的最大熵强化学习算法SAC，可以解决连续动作空间的深度强化学习问题。SAC用神经网络表示价值网络Critic与策略网络Actor。SAC算法实现中共有2种网络：(1)Critic网络；(2)Actor网络。SAC算法为了减少策略更新时的偏差，Critic网络内部使用2个Q网络近似Q值，通过独立优化J_Q(θ_i)，实现优化Q值，并优化Actor时，使用Q值较小的网络来减少偏差。其中，Actor网络以联合状态(S₁,S₂)为输入，动作为输出，Critic网络以状态和动作为输入，Q值为输出。SAC算法考虑了策略网络输出的熵，不遗漏任何有用的动作和轨迹，训练得到一个随机的策略。随机策略相较于确定性策略可以作为更复杂具体任务的初始化，具有更强的探索能力，更强的泛化能力。在训练完一组最小批量的数据之后，更新当前网络的参数，再更新目标网络的参数。SAC算法是提高在对抗博弈环境中智能体对战能力的策略的关键。

对价值网络的优化：

对策略网络的优化：

步骤四：

基于SAC算法，将初始化策略与基于规则的对手进行对战，优化初始化策略，并每隔时间T，将当前策略进行更新，直至收敛。

步骤五：

主智能体与对手池中所有对手进行对战，得到主智能体对于每个对手的胜率，选择主智能体胜率最低时的对手，通过SAC算法继续优化主智能体的策略，直到主智能体策略收敛。初始化一个主智能体利用者，固定主智能体的策略，使用SAC优化算法针对主智能体进行对抗训练，直到该策略对主智能体胜率较高时为止，将主智能体利用者加入到对手池。主智能体利用者训练结束后，在主智能体的策略网络的权重w_i加上扰动因子b_i扰动因子服从正态分布N(0,0.01)，将修改后的策略加入对手池。

步骤六：

重复步骤五，直至主智能体对于所有对手的胜率都达到要求，将主智能体代替基于规则的策略，增加人类与智能体对抗的难度，辅助人类训练，更好地提高人类在此任务上的水平。

通过以上方法，可以实现基于模仿学习获得初始化策略，避免从零开始学习策略。并且，采用对手池对抗训练方法，逐步提升主智能体的对战能力，避免自博弈的循环策略问题，解决虚拟自博弈方法中选到低水平的对手的问题，能够学习到高水平的智能体。另外，由于采用基于最大熵的SAC强化学习算法，使得智能体有机会探索到与基于规则不同的操作，进而获得胜利，具有更强的泛化能力。

参照图1所示，

作为进一步的具体方案，作为本申请的一个实例，本申请的基于强化学习的无人机对抗博弈训练控制方法包括如下步骤：

步骤1，基于Unity3D构造基于空气动力学的对抗环境，包括基于规则的无人机。

步骤2，收集基于规则的红蓝无人机之间的对战数据；

步骤3，模仿学习，学习到智能体的初始化策略，并每隔时间T，将当前策略加入到对手池；

步骤4，主智能体与对手池中对手对战，训练主智能体策略；

步骤5，将采集到的对战数据<S_t,A_t,R_t,S_t+1>存入数据池；当数据池中的数据量达到一定阈值，使用数据池中的数据进行模型更新；

步骤6，更新SAC强化学习策略，基于梯度下降法，对Critic价值评估网络、Actor策略网络的参数进行更新；

步骤8，不断重复步骤4至6，直至达到最大迭代次数或者主智能体模型收敛为止；

步骤9，固定主智能体策略，训练主智能体利用者，并将主智能体利用者加入对手池。

步骤10，通过加入扰动因子修改主智能体，并将修改后的策略加入对手池。

步骤11，不断重复步骤4-10，直至主智能体对战对手池中所有对手的胜率达到要求。

图3是本发明中主智能体与对手对抗训练示意图，主智能体通过收集到的联合信息S，将联合状态输入Actor网络，生成并执行相应动作。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法包括如下步骤：

判断所述主智能体的胜率是否满足预设要求；

2.根据权利要求1所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

初始化所述主智能体利用者；

3.根据权利要求2所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

将所述主智能体利用者加入对手池。

4.根据权利要求3所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

对所述主智能体策略加扰动因子。

5.根据权利要求4所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

将加扰动因子的策略加入对手池。

6.根据权利要求5所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

收集对抗数据；

模仿学习获得初始化策略；

构建对手池。

7.根据权利要求6所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

初始化策略作为当前策略；

以当前策略与规则对对手进行对抗训练。

8.根据权利要求1所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

每间隔时间T，将当前策略加入对手池。

9.根据权利要求8所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

10.根据权利要求9所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

判断当前策略是否收敛，如果是，则初始化所述智能体。