CN113282061A

CN113282061A - 一种基于课程学习的无人机空中博弈对抗的解决方法

Info

Publication number: CN113282061A
Application number: CN202110445367.4A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 周佳俊; 庞竟成; 罗凡明; 秦熔均; 管聪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-20

Abstract

本发明公开一种基于课程学习的无人机空中博弈对抗的解决方法，包含以下步骤：(1)构建仿真模拟环境；(2)收集飞行员控制飞机的真实轨迹数据，将轨迹数据按照机动动作难度进行课程目标分类；(3)对指定课程目标下的轨迹，通过模仿学习来优化策略模型生成的轨迹和专家轨迹的相似度；(4)获得预训练无人机策略模型；(5)基于预训练无人机策略模型，在模拟器中创建敌我双方无人机智能体；(6)无人机在模拟器中获得当前时刻的观测；(7)无人机与模拟环境进行交互，将我方与敌方无人机对抗的任务建模为一个强化学习智能体与环境交互的问题，用强化学习算法优化无人机对抗的飞行策略；(8)获得无人机进行空中博弈对抗的有效策略。

Description

一种基于课程学习的无人机空中博弈对抗的解决方法

技术领域

本发明涉及一种基于课程学习的无人机空中博弈对抗的解决方法，属于无人机飞行控制技术领域。本发明适用于无人机连续飞行对抗若干敌方无人机的情景，在难度系数较高、环境未知、复杂且具有不确定因素的任务中，能够取得令人较满意的成绩。

背景技术

随着科技进步及无人机控制技术水平的提升，无人机在军事领域越发重要，广泛应用于军事侦查、空中对抗等领域。其中无人机在执行空中对抗的过程中，由于所面临环境的复杂性，以及战场态势的瞬息变化等情形，都对无人机的控制过程带来了巨大的挑战。传统无人机控制过程中一般通过预设好的专家规则进行飞行控制，主要利用激光雷达、摄像头、声呐等传感器实现无人机对环境的感知，从而实现无人机的控制与机动。然而，此类方法却无法穷尽现实中的所有情况。由于空战的态势较之于其他任务更加复杂，在对手发生改变、或者环境变化比较大的情形下，往往泛化能力不强，靠人工预编程的方法难以全面地覆盖空战任务的态势空间，更难以计算产生最优的动作决策。

近年来强化学习技术取得了较大进步，尤其是AlphaGo的出现，引起人们对这一领域极大的关注。强化学习是一种采用“试错”的方法与环境交互的学习方法，可以通过马尔科夫决策过程来描述，通过计算当前状态下执行动作后的累计回报期望值的大小来判断动作选择的合理性。因此，通过强化学习产生的“状态-动作”映射考虑了动作的长期影响，能够获得很好的长期收益，而且Agent与环境交互的学习过程不需要训练样本，仅仅需要环境的回报值对执行的动作进行评价，因此通过建立无人机空中博弈对抗的强化学习模型，让代表无人机的Agent不断在仿真环境中探索和学习，就能为无人机提供一系列最优的机动决策。

此外，直接利用强化学习的方法训练智能体处理复杂高难度任务的场景，直接学习的难度过大，获得的完成奖励比较稀疏，智能体将无法学到有效的策略。

发明内容

发明目的：为了解决基于传统专家规则的无人机空中博弈方案泛化能力差的缺点，本发明提供一种基于课程学习的无人机空中博弈对抗的解决方法。本发明使用的课程学习方法，让Agent"循序渐进"完成学习的方法。对于一个十分复杂且困难的问题，如果让Agent直接学习很难取得很好的效果。于是我们需要简化问题的难度，先给出一些相对简单的问题，等Agent逐渐适应了这样的难度后，再提出一些更难的问题。通过这样的方法，模型就能够更快地适应并取得更好的效果。

技术方案：一种基于课程学习的无人机空中博弈对抗的解决方法，通过在动力学仿真环境模拟器中从零探索各种可能的无人机空中博弈对抗的飞行策略。首先通过课程学习学得一个具备初始操控能力的预训练无人机策略模型，再在模拟器中基于预训练模型创建敌我双方无人机智能体进行对抗训练。与传统的基于专家规则的无人机飞行控制方法相比，本方法具有泛化性好，低成本，鲁棒性强等特性。具体包括如下步骤：

(1)构建基于空气动力学的仿真环境模拟器，用来模拟无人机的飞行状况，其可视化部分基于DCS模拟器实现，该仿真环境模拟器用来进行无人机飞行策略的学习。通过控制模拟器的参数，模拟无人机在真实环境中的飞行状态变化。

(2)收集飞行员控制飞机的真实轨迹数据作为专家轨迹，将轨迹数据按照机动动作难度进行课程目标分类；

(3)对指定课程目标下的轨迹，通过模仿学习来优化策略模型生成的轨迹和专家轨迹的相似度，从而完成该课程目标的学习；

(4)完成所有课程目标的学习之后，获得一个具有初始操控能力的预训练无人机策略模型；

(5)基于预训练无人机策略模型，在仿真环境模拟器中创建敌我双方无人机智能体；

(6)无人机在仿真环境模拟器中获得当前时刻的观测，如我方无人机与敌方无人机之间的距离、角度、高度、速度等信息；

(7)无人机与模拟环境进行交互获得训练所需的状态、动作与奖励，将我方无人机与敌方无人机对抗的任务建模为一个强化学习智能体与环境交互的问题，用强化学习算法优化无人机对抗的飞行策略；

(8)获得无人机进行空中博弈对抗的有效策略。

利用模仿学习训练出一个具备初始操控能力的预训练无人机模型。基于预训练无人机策略模型，在模拟器中创建敌我双方无人机智能体进行空中对抗训练。

从角度、距离、高度、速度四个方面分别建立评判空中博弈对抗局面情况的优势函数，最后将这些优势函数加权得到一个综合空战优势函数。将其与奖赏函数结合在一起，通过强化学习算法如近端策略优化算法(PP0)训练模拟器中的无人机不断与环境交互，直至得到一个收敛的策略。

基于空气动力学构建的模拟器应与真实环境中的无人机的操作特性和飞行特性相适应，模拟器应尽可能逼真地模拟无人机的飞行状态，并进行状态转移。模拟器要求能接受无人机的原始输入信息，并将部分环境信息、无人机自身状态信息以及对手的状态信息作为观测值返还给模拟器进行交互。此过程可以用马尔科夫决策过程(O,A,P,R)描述，其中观测信息O由我方无人机的状态信息S₁和敌方无人机的状态信息S₂组成。S₁＝<h₁,v₁,g₁,d₁,α₁,β₁,γ₁>分别对应无人机当前的海拔高度、速度、加速度、与对手的相对距离、相对于北偏东坐标系的三个角度，S₂与S₁结构相同。

所述的专家轨迹，收集一批人类飞行员在模拟器中操控无人机进行空中对抗的飞行轨迹数据集合(τ₁,τ₂,...,τ_m)，每一个轨迹形式为

其中s是无人机当前的状态，a是无人机的动作。

所述的飞行机动动作，是基于实际飞行员操作飞行指令，一共定义了19个机动动作，分别为：等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。

所述的模仿学习，对于每一个机动动作，把模拟器中的轨迹对应的所有(状态-动作)抽取出来构造新的集合D＝{(s₁,a₁),(s₂,a₂),(s₂,a₂)...}，将状态作为特征，动作作为标记学习而得到最优策略模型，模型的训练目标是使模型生成的状态-动作轨迹分布和输入的专家轨迹分布相匹配，从而达到行为克隆的效果。

所述的空中对抗训练指：无人机与模拟器交互，生成并保存训练数据，在环境模拟器提供的马尔科夫决策过程中对训练数据进行采样，使用近端策略优化算法(PPO)训练无人机策略网络，直到我方无人机学得一个成功率达到预期的能够对抗敌方无人机的飞行策略。

所述的近端策略优化算法(PPO)，是一种基于Actor-Critic框架的强化学习算法。使用神经网络来表示无人机的飞行控制策略，用当前的飞行控制策略在模拟器中采集样本，并借助这些样本，用近端策略优化的方法优化当前无人机的飞行控制策略，直至策略不再提升。PPO的目标函数如下：

建立一对一空战的优势函数。优势函数从角度、距离、高度、速度四个方面综合评价空战中我方无人机相对于目标的态势优劣。

1)角度优势：在空战环境中，当我方无人机处于对敌方无人机的尾追攻击态势时，处于优势；当我方无人机处于被敌方无人机尾追攻击态势时，处于劣势；当我方无人机与敌方无人机背向或相向飞行时则认为处于均势。

2)距离优势：距离优势函数与无人机的武器射程有关。如果敌方无人机处于我方无人机武器射程范围之内，且我方无人机处于敌方无人机武器射程范围之外，则我方无人机处于优势；如果我方无人机处于敌方无人机武器射程范围之内，且敌方无人机处于我方无人机武器射程范围之外，则我方无人机处于劣势；其他情况则认为处于均势。

3)高度优势：空战中，处于较高的相对高度具有势能优势，考虑武器性能因素，在攻击时存在最佳的攻击的高度差。在此高度差内，且我方无人机处于较高的一方时，我方无人机处于优势；在此高度差内，且我方无人机处于较低的一方时，我方无人机处于劣势；在高度差范围外，则认为处于均势。

4)速度优势：空战中，武器设计有相对与目标的最佳攻击速度。如果我方无人机的武器速度快于敌方无人机，则我方处于优势；如果我方无人机的武器速度慢于敌方无人机，则我方处于劣势；如果我方无人机的武器速度与敌方无人机相当，则认为处于均势。

以上四个优势函数的取值范围均为[0,1]，当4个优势函数均趋近于1时，我方无人机处于空战的优势位置，当优势函数均趋近于0时，我方无人机处于被敌方无人机攻击的不利态势。在不同态势下，各个因素对空战态势的影响不同。因此，综合空战优势函数设为各因素优势函数的加权和：f＝w₁f₁+w₂f₂+w₃f₃+w₄f₄，其中w₁、w₂、w₃、w₄分别是角度、距离、高度、速度优势函数的权重，各权重之和为1，但在不同态势下，各权重大小分配不同，在距离较远的情况下，距离和速度的权重较大，在进入攻击距离后角度和高度的权重较大。就双方无人机空中博弈对抗问题来说，我方无人机更容易击败当我方处于绝对优势情况下的敌方无人机。

与现有技术相比，本发明的有益之处有：

(1)构建仿真环境模拟器，省去真实环境中训练无人机可能带来的代价和损失，在模拟器中训练无人机具有安全高效、实施成本低、适用范围广的优势，最重要的是在不断的训练过程中，无人机的飞行策略能够不断提高。

(2)相比于传统方法，强化学习能够训练无人机探索到很多人类专家无法穷举的情况，在一些不确定的环境中都有不错的表现，并具有一定的泛化能力。

(3)直接使用强化学习策略梯度算法训练无人机在模拟器中进行空中博弈对抗的飞行策略，由于难度较大，策略不易收敛。而采用课程学习的方式，由易到难地完成不同的学习任务，逐步提升无人机进行空中博弈对抗的飞行策略，能够获得更好的训练效果。

附图说明

图1为本发明的整体框架图；

图2为本发明敌我双方无人机之间对抗的示意图；

图3为本发明的整体流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于课程学习的无人机空中博弈对抗的解决方法，包括如下步骤：

步骤一：

构建一个基于空气动力学的无人机飞行的模拟器，其可视化部分基于DCS模拟器实现。该模拟器环境用于无人机空中博弈对抗飞行策略的学习。无人机智能体与模拟器交互的过程可以用马尔科夫决策过程(O,A,P,R)描述，其中观测信息O由外部环境信息E和飞机自身的状态信息S组成，外部环境信息E包括当前我方无人机与敌方无人机的距离与角度；无人机自身的状态信息包括我方无人机当前的速度，相对于北偏东坐标系的无人机的三个姿态角，即：俯仰角，偏航角，翻滚角。通过以上观测信息O，无人机再采取相应的操控指令A，如控制飞行的三个基本角度变化指令：俯仰指令、偏航指令、翻滚指令，以及控制无人机机飞行速度的油门控制指令。

步骤二：

根据课程学习的思想，先用简单的知识训练对模型的提高会有帮助，并且简单的知识学得越好，则对模型最终的泛化性能越有利。因此将收集得到的飞行员控制飞机的真实轨迹数据按照机动动作并参考相关专家知识进行课程目标难度分类。例如，对于等速平飞动作，高度决定了课程难度，高度太高或者太低都不行。

将每一个课程目标的专家轨迹数据处理成用于模仿学习的数据集D＝{(s₁,a₁),(s₂,a₂),……,(s_N,a_N)}。将状态作为特征，动作作为标记。模仿学习的神经网络是多层前馈神经网络f_θ(s)，输入的是飞机的状态s，输出的是无人机的动作a。损失函数为：

通过反向传播算法对网络参数θ进行更新，直到收敛。重复上述过程，将所有机动动作对应的课程全部训练完毕后，就得到了一个初始化的无人机飞行策略。

步骤三：

构建以“距离、角度、高度、速度”四个属性为代表的优势函数，这四个优势函数的取值范围均为[0,1]，当4个优势函数均趋近于1时，我方无人机处于空战的优势位置，当优势函数均趋近于0时，我方无人机处于被敌方无人机攻击的不利态势。因此，综合空战优势函数设为各因素优势函数的加权和：f＝w₁f₁+w₂f₂+w₃f₃+w₄f₄，其中w₁、w₂、w₃、w₄分别是角度、距离、高度、速度优势函数的权重，各权重之和为1，但在不同态势下，各权重大小分配不同，在超过预设距离的情况下，距离和速度的权重较大，在进入攻击距离后角度和高度的权重较大。各个属性的优势函数详细说明如下：

(1)距离优势

距离优势函数与无人机的武器射程有关，距离优势函数定义如下，其中，R＝|R|，即距离向量的模，R_w表示无人机的武器射程，σ为标准偏差。

(2)角度优势

空战中，尾追态势是优势，背向或相向飞行认为处于均势，被尾追时处于劣势，本发明采用角度函数表述角度优势，角度优势函数如下，其中

和

分别表示我方无人机相对于敌方无人机的方位角，即敌我双方无人机的速度向量分别与距离向量R的夹角；

(3)高度优势

空战中，处于较高的相对高度具有势能优势，考虑武器性能因素，在攻击时存在最佳的攻击的高度差h。高度优势函数定义如下，其中，h表示我方无人机对敌方无人机的最佳攻击高度差，Δz＝z_u-z_t为实际情况下我方无人机与敌方无人机的高度差，σ_h为最佳攻击高度标准偏差。

(4)速度优势

空战中，武器设计有相对与目标的最佳攻击速度，基于最佳攻击速度的定义，速度优势函数定义如下，其中v^*为我方无人机武器相对于敌方无人机的最佳攻击速度，v为我方无人机的速度。

步骤四：

本发明以空战优势函数为基础进行强化学习回报值的定义，因为优势函数的取值范围为[0,1]，不能较好地引导强化学习的学习方向，因此要在优势函数的基础上增加奖惩项，以加速引导强化学习向更好的方向发展。

据此，设定门限值a和b，且0<a<0.5<b<1。当优势函数值f_t>b时，无人机进入优势地位，强化学习回报值:r_t＝f_t+α，其中α为一个较大的奖励值，范围是[1,10]，一般可取中间值5；当优势函数值a<f_t<b时，无人机处于均势位置，强化学习的回报值：r_t＝f_t；当优势函数值f_t<a时，无人机处于劣势，强化学习的回报值r_t＝f_t+β，其中β是一个较小的负值，范围是[-10,-1]，一般可取中间值-5，用以完成惩罚。综合考虑，强化学习的回报值可如下表示：

步骤五：

敌我双方无人机对抗训练使用近端策略优化算法(PPO)实现。PPO是一种基于Actor-Critic框架的算法，使用了重采样的思路，即利用一个网络与环境进行交互，而另外一个网络负责更新，来解决原有策略梯度(PG)算法中数据不能够重复利用的问题。具体说来，PPO算法包含两类三个网络：(1)一个价值网络(Critic)，输入是环境的状态，输出是这个状态的价值；(2)两个策略网络(Actor)，其中一个用来与环境交互，称为actor-old网络；另一个进行参数更新，称为actor-new网络。

将收集到的无人机的观测状态、机动动作和奖赏值汇总，使用近端策略优化方法来优化无人机的飞行策略，直到策略收敛。优化目标函数为：

其中s_t和a_t分别表示当前时刻的状态和采取的动作，π_θ′(a_t|s_t)是根据actor-old网络计算出的在当前状态s_t下采取动作a_t的概率，π_θ(a_t|s_t)是根据actor-new网络计算出的在当前状态s_t下采取动作a_t的概率，A^θ′(s_t,a_t)则是计算actor-new策略网络相比actor-old策略网络的期望价值差距的优势函数。

Claims

1.一种基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，包括如下步骤：

(1)构建基于空气动力学的仿真环境模拟器；

(6)无人机在仿真环境模拟器中获得当前时刻的观测；

(8)获得无人机进行空中博弈对抗的有效策略。

2.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，利用模仿学习训练出一个具备初始操控能力的预训练无人机模型；基于预训练无人机策略模型，在模拟器中创建敌我双方无人机智能体进行空中对抗训练。

3.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，基于空气动力学构建的仿真环境模拟器应与真实环境中的无人机的操作特性和飞行特性相适应，模拟器应尽模拟无人机的飞行状态，并进行状态转移；模拟器要求能接受无人机的原始输入信息，并将部分环境信息、无人机自身状态信息以及对手的状态信息作为观测值返还给模拟器进行交互；此过程用马尔科夫决策过程(O,A,P,R)描述，其中观测信息O由我方无人机的状态信息S₁和敌方无人机的状态信息S₂组成；S₁＝<h₁,v₁,g₁,d₁,α₁,β₁,γ₁>分别对应无人机当前的海拔高度、速度、加速度、与对手的相对距离、相对于北偏东坐标系的三个角度，S₂与S₁结构相同。

4.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，所述的专家轨迹是指，收集一批人类飞行员在模拟器中操控无人机进行空中对抗的飞行轨迹数据集合(τ₁,τ₂,...,τ_m)，每一个轨迹形式为

其中s是无人机当前的状态，a是无人机的动作。

5.根据权利要求2所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，所述的模仿学习，对于每一个机动动作，把模拟器中的轨迹对应的所有(状态-动作)抽取出来构造新的集合D＝{(s₁,a₁),(s₂,a₂),(s₂,a₂)...}，将状态作为特征，动作作为标记学习而得到最优策略模型，模型的训练目标是使模型生成的状态-动作轨迹分布和输入的专家轨迹分布相匹配，从而达到行为克隆的效果。

6.根据权利要求2所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，所述的空中对抗训练指：无人机与模拟器交互，生成并保存训练数据，在环境模拟器提供的马尔科夫决策过程中对训练数据进行采样，使用近端策略优化算法训练无人机策略网络，直到我方无人机学得一个成功率达到预期的能够对抗敌方无人机的飞行策略。

7.根据权利要求6所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，所述的近端策略优化算法是一种基于Actor-Critic框架的强化学习算法；使用神经网络来表示无人机的飞行控制策略，用当前的飞行控制策略在模拟器中采集样本，并借助这些样本，用近端策略优化的方法优化当前无人机的飞行控制策略，直至策略不再提升；PPO的目标函数如下：

8.根据权利要求1所述的基于课程学习的无人机空中博弈对抗的解决方法，其特征在于，建立一对一空战的优势函数；优势函数从角度、距离、高度、速度四个方面综合评价空战中我方无人机相对于目标的态势优劣；

1)角度优势：在空战环境中，当我方无人机处于对敌方无人机的尾追攻击态势时，处于优势；当我方无人机处于被敌方无人机尾追攻击态势时，处于劣势；当我方无人机与敌方无人机背向或相向飞行时则认为处于均势；

2)距离优势：距离优势函数与无人机的武器射程有关；如果敌方无人机处于我方无人机武器射程范围之内，且我方无人机处于敌方无人机武器射程范围之外，则我方无人机处于优势；如果我方无人机处于敌方无人机武器射程范围之内，且敌方无人机处于我方无人机武器射程范围之外，则我方无人机处于劣势；其他情况则认为处于均势。

3)高度优势：空战中，处于较高的相对高度具有势能优势，考虑武器性能因素，在攻击时存在最佳的攻击的高度差。在此高度差内，且我方无人机处于较高的一方时，我方无人机处于优势；在此高度差内，且我方无人机处于较低的一方时，我方无人机处于劣势；在高度差范围外，则认为处于均势；

4)速度优势：空战中，武器设计有相对与目标的最佳攻击速度；如果我方无人机的武器速度快于敌方无人机，则我方处于优势；如果我方无人机的武器速度慢于敌方无人机，则我方处于劣势；如果我方无人机的武器速度与敌方无人机相当，则认为处于均势；

以上四个优势函数的取值范围均为[0,1]，在不同态势下，各个因素对空战态势的影响不同；因此，综合空战优势函数设为各因素优势函数的加权和：f＝w₁f₁+w₂f₂+w₃f₃+w₄f₄，其中w₁、w₂、w₃、w₄分别是角度、距离、高度、速度优势函数的权重，各权重之和为1，但在不同态势下，各权重大小分配不同。