CN113050686B

CN113050686B - 一种基于深度强化学习的作战策略优化方法及系统

Info

Publication number: CN113050686B
Application number: CN202110294246.4A
Authority: CN
Inventors: 董希旺; 石明慧; 化永朝; 于江龙; 任章; 吕金虎
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-03-25
Anticipated expiration: 2041-03-19
Also published as: CN113050686A

Abstract

本发明公开了一种基于深度强化学习的作战策略优化方法及系统，该方法包括：构建高超声速滑翔弹模型，确定导弹的当前状态；构建神经网络模型，神经网络模型的输入为突防环境，输出为动作集；根据突防环境，基于神经网络模型，得到预测动作集；根据当前状态以及预测动作集，计算导弹的下一步状态并更新高超声速滑翔弹模型；采用Minimax算法计算敌方状态；根据下一步状态以及敌方状态计算奖惩函数；根据奖惩函数优化神经网络模型；基于优化后的神经网络模型得到最优作战策略。本发明具有短距离精确操作和长期规划预测的能力，推演效果符合预期，同时其具有较强的实时决策能力，可以很大程度的提高突防成功的概率，可作为滑翔弹突防的决策依据。

Description

一种基于深度强化学习的作战策略优化方法及系统

技术领域

本发明涉及作战策略决策领域，特别是涉及一种基于深度强化学习的作战策略优化方法及系统。

背景技术

随着近年来agent自主决策技术的日渐成熟，高超声速飞行器再入段突防自主决策技术得到了较为广泛的研究。目前主要的高超声速飞行器自主决策方法主要分为两类：一类是基于数学模型的传统算法，如矩阵博弈算法、影像图算法、近似动态规划算法、微分博弈等，而另一类是基于人工智能的智能算法，包括利用专家系统、神经网络、遗传算法和强化学习等方法。传统算法将突防问题看作一个具体的数学模型，不能做到完全模拟突防环境。

发明内容

本发明的目的是提供一种基于深度强化学习的作战策略优化方法及系统，寻找最优空战策略，同时其具有较强的实时决策能力，能够很大程度的提高突防成功的概率，可作为滑翔弹突防的决策依据。

为实现上述目的，本发明提供了如下方案：

一种基于深度强化学习的作战策略优化方法，包括：

构建高超声速滑翔弹模型，确定导弹的当前状态；

获取突防环境；

构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集；

根据所述突防环境，基于所述神经网络模型，得到预测动作集；

根据当前状态以及所述预测动作集，计算所述导弹的下一步状态并更新所述高超声速滑翔弹模型；所述下一步状态为所述预测动作集对应的导弹状态；

采用Minimax算法计算敌方状态；

根据所述下一步状态以及所述敌方状态计算奖惩函数；

根据所述奖惩函数优化所述神经网络模型；

基于优化后的神经网络模型得到最优作战策略。

进一步地，所述高超声速滑翔弹模型的表达式如下：

其中，(x，y)为导弹位置坐标，V为导弹的速度，Ψ为偏航角，m为飞行器质量，g为重力加速度，L为升力，φ为滚转角。

进一步地，

进一步地，所述突防环境包括我方高超声速导弹轴线相对敌方拦截弹的角度、敌方拦截弹轴线相对我方弹的角度、我方高超声速导弹轴线相对目标的角度、我方导弹距离敌方拦截弹的距离以及我方导弹与海上目标的距离。

进一步地，所述动作集的表达式如下：

a＝[w,u]

其中，a为动作集，w为滚转角速度，u为加速度。

本发明还提供了一种基于深度强化学习的作战策略优化系统，包括：

第一模型构建模块，用于构建高超声速滑翔弹模型，确定导弹的当前状态；

获取模块，用于获取突防环境；

第二模型构建模块，用于构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集；

预测模块，用于根据所述突防环境，基于所述神经网络模型，得到预测动作集；

下一步状态计算模块，用于根据当前状态以及所述预测动作集，计算所述导弹的下一步状态并更新所述高超声速滑翔弹模型；所述下一步状态为所述预测动作集对应的导弹状态；

敌方状态计算模块，用于采用Minimax算法计算敌方状态；

奖惩函数函数计算模块，用于根据所述下一步状态以及所述敌方状态计算奖惩函数；

优化模块，用于根据所述奖惩函数优化所述神经网络模型；

最优作战策略确定模块，用于基于优化后的神经网络模型得到最优作战策略。

进一步地，所述高超声速滑翔弹模型的表达式如下：

进一步地，所述高超声速滑翔弹模型的约束包括热流率约束、飞行动压约束以及过载约。

进一步地，所述动作集的表达式如下：

a＝[w,u]

其中，a为动作集，w为滚转角速度，u为加速度。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于深度强化学习的作战策略优化方法及系统，该方法包括：构建高超声速滑翔弹模型，确定导弹的当前状态；获取突防环境；构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集；根据所述突防环境，基于所述神经网络模型，得到预测动作集；根据当前状态以及所述预测动作集，计算所述导弹的下一步状态并更新所述高超声速滑翔弹模型；所述下一步状态为所述预测动作集对应的导弹状态；采用Minimax算法计算敌方状态；根据所述下一步状态以及所述敌方状态计算奖惩函数；根据所述奖惩函数优化所述神经网络模型；基于优化后的神经网络模型得到最优作战策略。本发明具有短距离精确操作和长期规划预测的能力，推演效果符合预期，同时其具有较强的实时决策能力，可以很大程度的提高突防成功的概率，可作为滑翔弹突防的决策依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于深度强化学习的作战策略优化方法的流程图；

图2为二维模型示意图；

图3为DQN算法框架；

图4为突防环境定义；

图5为Q网络架构；

图6为敌我双方的实时决策输出曲线图；

图7为态势预测对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明公开的基于深度强化学习的作战策略优化方法，包括以下步骤：

步骤101：构建高超声速滑翔弹模型，确定导弹的当前状态。

所述高超声速滑翔弹模型的表达式如下：

所述高超声速滑翔弹模型的约束包括热流率约束、飞行动压约束以及过载约。

1)热流率约束

K_QρⁿV^m≤Q_max

一般取n＝0.5，m＝3.5，K_Q是与飞行器头部截面积相关的参数，为常值，Q_max是飞行器可承受热流率的最大值。

2)飞行动压约束q

其中q_max为最大动压约束。

3)过载约束

其中，n_Lmax为最大允许过载约束。

步骤102：获取突防环境。所述突防环境包括我方高超声速导弹轴线相对敌方拦截弹的角度、敌方拦截弹轴线相对我方弹的角度、我方高超声速导弹轴线相对目标的角度、我方导弹距离敌方拦截弹的距离以及我方导弹与海上目标的距离。

步骤103：构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集。

步骤104：根据所述突防环境，基于所述神经网络模型，得到预测动作集。

步骤105：根据当前状态以及所述预测动作集，计算所述导弹的下一步状态并更新所述高超声速滑翔弹模型；所述下一步状态为所述预测动作集对应的导弹状态。

步骤106：采用Minimax算法计算敌方状态。

敌方决策采用Minimax算法，该算法核心思想起源于博弈论，是一种回溯算法，假定敌方每次都做出最优决策。算法从当前状态出发评估每个可能的动作对游戏的后续影响，建立关于后续得分的树状结构，以当前状态为根节点，N步后的游戏状态为树的叶子结点，同时从根节点开始轮流令每一层为最大化器和最小化器。然后用评估函数分析每个叶节点的得分，然后推算其父节点的得分，对于最大化器层的节点，选择子节点中的最高分作为该父节点的得分；对于最小化器层的节点，选子节点中的最低分作为父节点的得分。如此反推到根节点下的第一层子节点，则该算法最终选择第一层子节点中的最大值作为最佳决策。在本发明中预估接下来3步所有可能的得分情况，从而得出最终决策。

步骤107：根据所述下一步状态以及所述敌方状态计算奖惩函数。

步骤108：根据所述奖惩函数优化所述神经网络模型。

步骤109：基于优化后的神经网络模型得到最优作战策略。

下面详细介绍本发明的原理：

(一)高超声速滑翔弹建模

高超声速飞行器进行突防时，虽然是在三维空间作战，但突防主要发生在高度相对稳定的阶段，故为简化模型，将三维质点模型简化为二维质点模型，用二维质点模型来描述高超声速飞行器的运动状态。高超声速飞行器的运动模型基于以下假设：

1)假设飞行器是刚体，即忽略变形；

2)认为地球是惯性坐标系，即忽略自转和公转；

3)忽略地球的曲率，即假设地球表面是平的；

导弹模型：

将飞行器视为质点，在惯性坐标系中其运动学方程与导弹的质点动力学方程为：

在上述两组公式中，τ代表航迹倾斜角，Ψ代表偏航角，μ是滚转角，α代表迎角，m代表飞行器质量，T代表推力，D代表空气阻力，L代表升力，v_u代表速度，g代表重力加速度。

升力和阻力计算公式如下：

ρ表示飞行器所处空气的密度，S代表飞行器截面积，C_L表示升力系数，C_D表示阻力系数。

本模型由三自由度模型简化而来，由于只考虑二自由度，故令俯仰角θ＝0，侧滑角β＝0。二自由度模型示意图如图2所示，Ψ为偏航角，φ为滚转角，则可得：

其中，(x，y)为导弹位置坐标，V为导弹的速度。

考虑的约束：

1)热流率约束

K_QρⁿV^m≤Q_max

2)飞行动压约束q

其中q_max为最大动压约束。

3)过载约束

其中，n_Lmax为最大允许过载约束。

由于突防重在研究过程，注重动力学方面的约束，故假设满足热流率约束，主要考虑飞行动压约束和过载约束。

(二)DQN算法模型搭建

Q-learning是一个马尔科夫决策过程，整个决策过程的奖赏值可以表示为如下所示，γ是衰减因子。

R_t＝r_t+γr_t+1+γ²r_t+2+...+γ^n-tr_n

对于策略π，令J_π为总奖赏的期望值。则一般情况下，Q-learning的目标是估算得到满足下式的最优策略π*。其中r_t表示t时刻的奖赏值，E_π[·]是对于策略π和当前状态下的期望奖赏值。

对于稳定的策略π，定义状态值函数为

为了策略优化，定义状态-动作函数Q^π(s,a)如下：

根据Bellman最优理论，可以得到下式，R(s,a)是在状态s采取动作a时的理想期望值。

Q^*(s,a)＝E[R_t+1+γmax_a′Q(s_t+1,a′)|S_t＝s,A_t＝a]

因此，最优状态-动作函数为

所以最优策略可以用下式得到：

差分学习是强化学习的关键思想，它以无模型、在线的方式直接从时间(TD)误差中学习经验，更新规则如下，α是学习率，[r_t+γV(s_t+1)-V(s_t)]被称为TD误差。

V(s_t)←V(s_t)+α[r_t+γV(s_t+1)-V(s_t)

由此可得，Q-learning中动作值函数的更新规则如下，该算法是离线控制算法。

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γQ(s_t+1,a_t+1)-Q(s_t,a_t)]

DQN利用深度学习对Q-learning的一个扩展，其应用深度学习方法解决状态空间较大时的Q表存储问题，从高度结构化的数据中心提取特征，代替Q-table。网络输入为当前状态和所采取的动作，相应Q值为输出，DQN框架示意图如图3。

在本发明中，引入四部分优化来提升算法的性能：引入ε-贪婪算法、引入DoubleDQN、引入Dueling DQN、引入加权经验重播。

(三)建立推演决策模型的导弹状态空间

导弹状态s由位置、速度、航向角和倾斜角确定。x，y表示导弹的位置，在x-y平面内没有约束。v是导弹的速度，限制在导弹的速度范围之间。航向角Ψ的范围是[-π,π]，导弹的转弯能力在很大程度上取决于滚转角，用φ表示。

s＝[x,y,v,ψ,φ]

(四)推演决策模型的突防环境建模

突防过程考虑一枚拦截弹的情况，其中下标r和b分别表示我方与敌方。为了提取状态的相对特征，采用方位角AA、AAA、ATA和距离R、RR用来描述突防状态，如图4所示。AA表示我方高超声速导弹轴线相对敌方拦截弹的角度；ATA表示敌方拦截弹轴线相对我方弹的角度；AAA表示我方高超声速导弹轴线相对目标的角度；定义R为我方导弹距离敌方拦截弹的距离；RR为我方导弹与海上目标的距离。

本发明采用[cos(ATA)，sin(ATA)，cos(AA)，sin(AA)，cos(AAA)，sin(AAA)]作为网络的部分特征输入，更好的反应双方速度和方位角等信息，网络的全部输入x如下所示：

(五)建立推演决策模型的动作集

动作集按下式定义，其中w为滚转角速度，控制滚转角，进而决定飞行器的偏航角速度，决定导弹的转弯能力，主要控制方向。加速度用u表示，可以控制飞行器的速度。

a＝[w,u]

离散的动作空间较有利于DQN算法。故定义五个有效动作以简化策略，分别表示左转40°、左转20°、右转40°、右转20°、保持倾斜角和速度，由于导弹的轴向速度几乎不可控，这里的加减速定义为极小值，具体值如下：

a∈{[0,-40°/s],[0,40°/s],[0,-20°/s],[0,20°/s],[0,0]}

此外，依据ADC评估方法选定敌我双方作战系统的效能系数，综合考虑敌我双方作战系统可用性、可信性、生存能力、突防能力、毁伤能力、等多方面影响因素，在动作集选择当中设定扰动系数，根据双方作战效能，模拟双方的作战场景，不同环境下各能力评估方式与权重系数由专家给出。

(六)建立推演决策模型的状态转移函数

该仿真基于质点动力学进行仿真。每次采取行动后，双方导弹根据状态转移函数分别更新其状态，每个动作在一个固定时间δt内重复N次，本发明中N＝5，δ_t＝0.05s。即两次决策中间会相隔0.25s。更新后的偏航角用于更新偏航速率

该特征可以确保导弹不会急速改变飞行方向，而使飞行器制定长期的策略。

(七)建立推演决策模型的奖赏函数

我方导弹的目标是达到并维持相对敌方拦截弹的位置优势，这是在真实突防中决定性条件。所以为了量化目标，为每个系统定义了奖励函数。在有限的时间内可能出现三种结果：突防成功、失败、平局。我方在敌我距离为R₀时开始机动突防，当我方与目标距离小于毁伤半径R_R时为突防成功，当敌方与我方导弹距离小于敌方毁伤半径R_T时即为突防失败，当在仿真规定时间内未产生上述结果时为平局。

(八)建立推演决策模型的敌方策略模型

(九)仿真

仿真中，我方利用Q-network选取机动动作，然后更新双方导弹状态，再计算当前突防环境状态并计算得分，将此回合的数据包括双方状态、采取动作、得分一起存入记忆库，如果记忆库满，则对记忆库进行学习，然后判断本次突防是否结束，如果没有，则继续决策突防，直至突防结束。本发明使用与Double DQN相同的方法来训练网络，并使用双重网络架构进行多种操作，并采用SumTree结构进行加权采样。

该网络体系结构主要参考池化网络，具有两个分支来分别估计状态值和操作优势。本发明采用完整全连接层来对输入特征进行转换，再使用完整连接层的另外两个分支来处理高级要素，以获取状态值和操作优势。在最后一层，将状态值分支的输出与归一化的操作优势一起添加为Q因子。第一层有100个节点，第二层有30个节点。所有层均采用Tanh激活函数。网络结构图如图5所示。

本发明利用改进DQN算法进行决策训练，敌我双方模型完全一致。代码编写基于Pytorch框架完成，在GPU训练完成，一个回合即为一场真实的突防战斗，每一场战斗限制在60s内，即每一场最多有240步。通过遍历坐标平面建立所有位置的状态空间数据库，可以达到实现各种突防情形的效果，每一回合的初始状态在状态空间中随机抽取。学习率设置为0.001，衰减系数为0.99，批处理大小设置为128，记忆库大小为215＝32768，优先经验传播中的指数α和β分别设置为0.6和0.4。在开始的100000步中，ε从1.0线性减小到0.1，在此之后，ε固定为0.1。选用Adamas优化器。最终测试时，选输赢比最高的一组模型进行测试，敌我双方(分别攻防2000回合，通过对结果的统计得到最终的态势预测结果。

图6为敌我双方的实时决策输出曲线图。结果表明，在2000次不同的初始状态中，敌我双方经过决策作战，我方获胜比例约为67％，即在当前的参数设置下我方打击与攻防态势相对占优。绘制敌我双方双方的最终的态势预测结果对比图如图7，可以看出在当前参数的设定下，我方战场态势占优，推演效果符合预期。

该算法具有较强的实时决策能力，利用深度强化学习方法，考虑真实作战因素的影响，可以有效的抽取整体战场态势体现出的态势特征。通过强化学习方法不断地训练并且评估每个训练回合内推演的效果，持续优化得到最佳作战策略。特征和奖励是作为神经网络的输入和反馈精心开发的。训练结果显示，该算法具有较强的实时决策能力，推演效果符合预期，可以很大程度的提高突防成功的概率，为我方作战提供辅助决策作用。

第一模型构建模块，用于构建高超声速滑翔弹模型，确定导弹的当前状态。

获取模块，用于获取突防环境。

第二模型构建模块，用于构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集。

预测模块，用于根据所述突防环境，基于所述神经网络模型，得到预测动作集。

下一步状态计算模块，用于根据当前状态以及所述预测动作集，计算所述导弹的下一步状态并更新所述高超声速滑翔弹模型；所述下一步状态为所述预测动作集对应的导弹状态。

敌方状态计算模块，用于采用Minimax算法计算敌方状态。

奖惩函数函数计算模块，用于根据所述下一步状态以及所述敌方状态计算奖惩函数。

优化模块，用于根据所述奖惩函数优化所述神经网络模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度强化学习的作战策略优化方法，其特征在于，包括：

构建高超声速滑翔弹模型，确定导弹的当前状态；

获取突防环境；所述突防环境包括我方高超声速导弹轴线相对敌方拦截弹的角度、敌方拦截弹轴线相对我方弹的角度、我方高超声速导弹轴线相对目标的角度、我方导弹距离敌方拦截弹的距离以及我方导弹与海上目标的距离；

构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集；所述动作集的表达式如下：

a＝[w,u]

其中，a为动作集，w为滚转角速度，u为加速度；

采用Minimax算法计算敌方状态；

根据所述下一步状态以及所述敌方状态计算奖惩函数；

根据所述奖惩函数优化所述神经网络模型；

基于优化后的神经网络模型得到最优作战策略。

2.根据权利要求1所述的基于深度强化学习的作战策略优化方法，其特征在于，所述高超声速滑翔弹模型的表达式如下：

3.根据权利要求2所述的基于深度强化学习的作战策略优化方法，其特征在于，所述高超声速滑翔弹模型的约束包括热流率约束、飞行动压约束以及过载约束。

4.一种基于深度强化学习的作战策略优化系统，其特征在于，包括：

获取模块，用于获取突防环境；所述突防环境包括我方高超声速导弹轴线相对敌方拦截弹的角度、敌方拦截弹轴线相对我方弹的角度、我方高超声速导弹轴线相对目标的角度、我方导弹距离敌方拦截弹的距离以及我方导弹与海上目标的距离；

第二模型构建模块，用于构建神经网络模型，所述神经网络模型的输入为突防环境，输出为动作集；所述动作集的表达式如下：

a＝[w,u]

其中，a为动作集，w为滚转角速度，u为加速度；

敌方状态计算模块，用于采用Minimax算法计算敌方状态；

优化模块，用于根据所述奖惩函数优化所述神经网络模型；

5.根据权利要求4所述的基于深度强化学习的作战策略优化系统，其特征在于，所述高超声速滑翔弹模型的表达式如下：

6.根据权利要求5所述的基于深度强化学习的作战策略优化系统，其特征在于，所述高超声速滑翔弹模型的约束包括热流率约束、飞行动压约束以及过载约束。