CN114049242A

CN114049242A - 一种基于深度强化学习的武器目标智能分配方法

Info

Publication number: CN114049242A
Application number: CN202111178278.4A
Authority: CN
Inventors: 王才红; 江光德; 高军强; 董茜; 吕乃冰; 曹扬; 李冬雪; 赵思聪; 彭渊
Original assignee: 26th Unit 96901 Unit Chinese Pla
Current assignee: 26th Unit 96901 Unit Chinese Pla
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-02-15

Abstract

针对传统武器目标分配算法建模困难、搜索效率低等问题，本发明提出一种基于深度强化学习的武器目标智能分配方法，通过训练得到具有较强决策能力的武器目标智能分配模型。本发明首先针对武器目标分配问题设计了武器目标分配问题的规划求解环境，然后使用SAC算法进行实现，同时在神经网络上使用了全连接网络、卷积网络和GRU网络等神经网络，提升了模型的效果。本发明无论在学习能力、适应性和计算效率都要比传统算法更加优秀。

Description

一种基于深度强化学习的武器目标智能分配方法

技术领域

本发明涉及作战任务决策领域，尤其是涉及一种武器目标分配智能分配方法。

背景技术

武器目标分配亦称“武器-目标分配”，是指在作战指挥中为目标明确打击武器的一项决策活动，根据给定的目标和毁伤要求清单,依托平时预先为每个目标所规划的对应不同毁伤要求的多套打击方案,基于打击方案所明确的使用武器类型、数量及可达到的毁伤效果,在满足可用武器资源的条件下,通过为每个目标选择打击方案的方式确定武器目标分配关系，使总体投入武器资源最省或可达到毁伤效果的期望值极大。

武器目标分配作为任务规划系统的关键组成要素，其核心和基础是解决好武器与目标间的适应性匹配问题，以提高武器打击目标的可行性与毁伤效能。当前伴随着新军事理论的提出，现代作战不仅重视作战的输赢，同时还要保证以最少的物资消耗、人员伤亡在最短时间内获得胜利。作战时，要求能够快速制定作战方案，完成作战任务并达成作战效益的最大化。然而，针对有限的武器资源，如何将资源有效合理的分配给每个任务，给作战人员带来了一定的困扰。因此，有效合理的分配武器资源成为制定作战方案的难点，也成为作战研究的重点之一，是各级指挥机构进行作战筹划时首要解决的关键问题之一，对于武器作战效能的发挥具有重要意义。

本发明涉及军事运筹和智能规划双重技术领域，具体是一种基于深度强化学习的武器目标智能分配方法。

以往对于武器目标分配问题的求解方法，主要包括传统算法和随机搜索算法两大类。其中，传统算法主要包括整数规划、动态规划、匈牙利算法或搜索论等，这些算法在单种武器打击多目标的武器目标分配方面取得较好的运用效果，但是对于多种武器打击多目标的武器目标分配问题，则存在建模困难、搜索效率低等困境，且很容易出现“维数灾难”导致求解失败。随机搜索算法主要包括粒子群、遗传算法、差分进化算法、鲸鱼算法、人工鱼群算法，这些算法因其计算过程随机性大，算法收敛速度和计算结果均不可控，无法满足实际应用需求。

随着可用武器和打击目标种类、数量的不断增加，以及作战决策时效性要求的不断提高，传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等缺点，已无法适应现代高技术战争需要。

近年来，以深度强化学习为代表的人工智能技术在围棋、德州扑克以及即时战略游戏如星际争霸II、刀塔等中取得了瞩目成就，在实际应用中有巨大的应用潜力。这种方法中智能体和环境在交互过程中生成的样本进行训练，在不断交互的自学习方式中进行算法模型的强化，所以不需要样本集也不受样本集的束缚，在无样本的情况仍然能够解决实际问题，同时解决了有限样本情况下算法模型延展性限制问题，可为武器目标分配问题的高效求解提供新的突破口。

发明内容

本发明提出一种基于深度强化学习的武器目标智能分配方法，以解决传统的武器目标分配规划作业方式因其存在的自动化程度低、应变能力差等技术问题。为解决上述技术问题，本发明通过设计武器目标分配深度强化学习求解环境的状态、动作和奖励，建立由基于CONV/FC/GRU混合架构的武器目标分配决策动作网络和武器目标分配决策价值网络构成的武器目标分配深度强化学习网络模型，搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境，完成武器目标分配深度强化学习网络训练与优化，实现了武器目标分配问题的快速、高效求解，并在应用场景发生改变时，提供武器目标智能分配算法的自学习和在线升级能力。

附图说明

图1为本发明基于深度强化学习的武器目标智能分配方法的总体流程图；

图2为武器目标分配环境逻辑处理的流程图；

图3为武器目标分配决策动作网络模型示意图；

图4为武器目标分配决策价值网络模型示意图；

图5为Dueling DQN结构变化图；

图6为武器目标智能分配算法的前台应用与后台训练一体化综合运用环境示意图；

图7为武器目标分配算法模型训练流程图。

具体实施方式

本发明提供的基于深度强化学习的武器目标智能分配方法，其总体实现流程如图1所示，包括如下步骤：

步骤101、设计武器目标分配问题的规划求解环境，主要完成状态模型、动作模型和奖励模型的设计；

步骤102、建立武器目标分配问题的规划网络模型，主要包括：建立基于CONV/FC/GRU(一维卷积/全连接网络/门循环单元)混合架构的武器目标分配决策动作网络和武器目标分配决策价值网络，并计算武器目标分配决策动作的分布概率；

步骤103、设计基于SAC(Soft Actor Critic，柔性制动/评价)的深度强化学习武器目标分配算法；SAC深度学习是一种基于off-policy和最大熵的深度强化学习算法。

步骤104、基于深度强化学习算法训练武器目标分配网络；

步骤105、应用训练成果实现武器目标问题求解；

步骤106、针对应用场景变化开展武器目标分配深度强化学习网络优化，完成算法的自我学习和在线升级，流程结束。

图2为武器目标分配环境逻辑处理的流程图，为图1中步骤101的具体实现过程，其具体流程如下：

步骤201、武器目标分配环境初始化；

步骤202至203、输出武器目标分配初始状态信息,设计武器目标分配深度强化学习求解环境的状态S_t，包括：

目标序号s_tx：独热编码(one-hot)类型，目标数量为N时，采用N位独热编码记录对应目标序号；

例：武器目标分配环境中打击目标数量上限为10，即目标序号K≤10，则目标序号独热编码案例如下：

目标序号	目标序号独热编码
		1	0000000001
6	0000100000
		10	1000000000

目标价值系数s_tv：整型，描述目标价值，取值为0-100，值越大表明该目标的价值最大；

毁伤等级s_td：整型，描述对目标的毁伤程度要求，取值为0、1、2，0表示轻度毁伤、1表示中度毁伤、2表示重度毁伤；

打击方案列表s_dl：列表类型，存储每个目标可用的打击方案清单；

其他目标信息列表s_ot：列表类型，存储其他未完成分配的目标清单；

打击方案标签s_df：列表类型，描述打击方案是否可选，取值为0、1，1表示打击方案可选，0表示不可选；

步骤204至205、武器目标分配模型前向计算，输出武器目标分配模型决策动作,设计武器目标分配深度强化学习求解环境的动作M_t:：

M_t＝i,i∈[1,N]

M_t为武器目标分配动作，i为[1,N]区间的离散整数值，表示当前为对应的目标选择第i个打击方案以完成武器分配，N表示每个目标最多可用的打击方案数量；

步骤206、接受武器目标分配模型决策动作；

步骤207、动作转换为具体毁伤方案；

步骤208、进行毁伤方案决策逻辑计算；

步骤209、基于决策完成环境进行奖励值计算；

设计武器目标分配深度强化学习求解环境的奖励R。建立基于预期打击效益、使用武器数量、使用武器种类数量和剩余武器能力四个指标综合评价的武器目标分配决策效果评价函数，作为该问题的奖励函数R：

其中，R为奖励值；

ω₀、ω₁、ω₂、ω₃为四个指标的权重，通常根据决策意图由指挥人员明确；v_i为第i个目标的价值系数，d_i为对第i个目标的毁伤概率，N_mb为目标总数；n_j为第j种武器使用数量，N_W为全部武器总数，N_wq为武器种类数量；t_wq为被使用的武器种类数量；

为第k武器的剩余数量；δ_k表示第k种武器的作战能力指数，δ_k＝p_sc·p_tf·(mk_k/m_all)，p_sc、p_tf分别为武器战技术指标给定的生存概率和突防概率，mk_k为第k种武器可打击的目标数量，m_all为全部待打击的目标数量；

步骤210、判断是否所有目标毁伤完成，如果否执行步骤211，如果是执行步骤215；

步骤211至212、输出武器目标分配状态信息、结束标识(否)和奖励；

步骤213至214、武器目标分配模型前向计算，输出武器目标分配模型决策动作，继续执行步骤206；

步骤215、216输出武器目标分配状态信息、结束标识(是)和奖励，流程结束。

图3为武器目标分配决策动作网络模型示意图，建立基于CONV/FC/GRU(一维卷积/全连接网络/门循环单元)混合架构的武器目标分配决策动作网络；

其中，fc1指全连接网络，conv指卷积网络，gru指GRU神经网络，squa指平方计算，Q(s,a)是状态动作价值函数，V(s)是状态价值函数，A(s,a)是优势函数，s为状态，a为决策动作。

武器目标分配决策动作网络的状态输入state由x1、x2、x3三部分组成，均为一维向量。其中，x1为目标基本信息，x2为目标使用的打击方案，x3为打击方案标签。

这里的GRU网络用来提取时序特征，其计算过程如下：

a)在获得前一目标的状态信息提取特征的输入S_t-1和当前目标特征输入X_t之后，将两者记性合并计算重置门：

r(t)＝sigmoid(net_r(t))

b)将前一目标的状态信息提取特征的输入S_t-1和当前目标特征输入X_t合并计算为更新门z(t):：

z(t)＝sigmoid(net_z(t))

c)计算候选集：计算候选集

d)计算该单元的输出值：

e)最后计算输出层输出值：

o(t)＝sigmoid(net_o(t))

图4为武器目标分配决策价值网络模型示意图，其中，fc2、fc3指全连接网络，Q(s,a)是状态动作价值函数，V(s)是状态价值函数，A(s,a)是优势函数。

武器目标分配价值网络模型设计时吸收了Dueling DQN算法的思想，将基于状态和动作的值函数q分解成了基于状态的值函数v和优势函数A：

q(s_t,a_t)＝v(s_t)+A(s_t,a_t)

这样的设计不只是单纯的分解，需要对两部分的输出做出一定的限制。如果不对两部分输出做限制，当Q(s,a)一定时，V(s)和A(s,a)有无穷种组合，但只有很小的一部分是合理的，大部分都是对策略更新无价值的。为了解决该问题，这里对优势函数A(s,a)做出限制，如下：

E_a[A(s_t,a_t)]＝E_a[Q(s_t,a_t)-V(s_t)]

＝V(s_t)-V(s_t)

＝0

若优势函数的期望为0，那么在计算Q(s,a)时，优势函数部分减去优势函数的期望会将该部分控制在一定范围内。这样Q(s,a)函数如下：

让每一个优势函数值减去当前状态下所有优势函数值的平均数，这样可以将期望值约束为0，从而增加了V(s)和A(s,a)的输出稳定性。网络结构变化图示如图5所示。

计算武器目标分配决策动作的分布概率，具体为：

其中，P(y＝j)表示选择第j(j∈[1,K])个决策动作的概率，x_j表示决策动作网络第j个动作对应的原始输出值，W_j表示是否进行动作屏蔽，用于规避无效决策，取值为0时表示第j个动作为无效动作，取值为1时表示第j个动作为有效动作。

选取对应概率值最大的决策动作作为武器目标分配结果，即：

图6为武器目标智能分配算法的前台应用与后台训练一体化综合运用环境示意图，武器目标智能分配算法的前台应用与后台训练一体化综合运用环境可分为训练环境和应用环境两部分。在训练环境，武器目标分配深度强化学习网络模型和武器目标分配训练环境不断进行交互生成样本，然后基于SAC深度强化学习算法进行网络模型调优，实现武器目标分配模型训练优化。在应用环境中，将训练好的武器目标分配深度强化学习网络模型接入应用环境中的任务规划系统，提供武器目标分配后台算法支持，实现对真实作战环境中的武器目标分配问题的求解。

图7为武器目标分配算法模型训练流程图，主要是搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境，并完成深度强化学习网络训练，具体过程如下：

步骤701、武器目标分配深度强化学习网络模型初始化；

步骤702、武器目标分配训练环境初始化；

步骤703至704、武器目标分配训练环境输出武器目标分配初始状态信息S_t给武器目标分配深度强化学习网络模型；

步骤705至706、武器目标分配深度强化学习网络模型前向计算，并输出武器目标分配模型决策动作a_t；

步骤707、武器目标分配训练环境接收武器目标分配模型决策动作a_t；

步骤708、武器目标分配训练环境将动作a_t转换为具体毁伤方案；

步骤709、武器目标分配训练环境进行毁伤方案决策逻辑计算；

步骤710、基于决策完成情况，环境进行奖励值r计算；

步骤711、判断是否所有目标毁伤完成；如果否，执行步骤712；如果是，执行步骤716；

步骤712至713、交互过程中输出武器目标分配状态信息S_t、结束标志(否)、奖励r到武器目标分配样本池中；

步骤714-715、武器目标分配深度强化学习网络模型前向计算，并输出武器目标分配模型决策动作a_t，继续执行步骤707；

步骤716-718、交互过程中输出武器目标分配状态信息S_t、结束标志(否)、奖励r到武器目标分配样本池中；

步骤719、判断是否达到更新步数，如果否，执行步骤702；如果是，执行步骤720；

步骤720、武器目标分配深度强化学习网络模型反向传播更新参数；

步骤721、判断是否训练完成，如果否，执行步骤702；如果是，流程结束。

应用时，将训练好的武器目标分配深度强化学习网络模型接入应用环境中的任务规划系统，提供武器目标分配后台算法支持，实现对真实作战环境中的武器目标分配问题的求解。当应用场景发生改变时，由应用环境提供训练场景想定更新数据，通过步骤701-721实现算法自学习和在线升级。

Claims

1.一种基于深度强化学习的武器目标智能分配方法，其特征在于，包括：

设计武器目标分配问题的SAC深度强化学习求解环境；

建立武器目标分配SAC深度强化学习网络模型；

训练武器目标分配SAC深度强化学习网络模型；

应用武器目标分配SAC深度强化学习网络模型的训练结果，实现武器目标分配问题求解，并针对应用场景变化开展武器目标分配SAC深度强化学习网络模型优化，完成SAC深度强化学习算法的自学习和在线升级。

2.如权利要求1所述的方法，其特征在于，所述设计武器目标分配问题的SAC深度强化学习求解环境，包括状态模型设计、动作模型设计和奖励模型设计；

其中，状态模型设计，具体包括：选取目标序号、目标价值系数、毁伤等级、打击方案列表、其他目标信息列表和打击方案标签作为状态信息；

动作模型设计，具体包括：根据每个目标最多可用的打击方案数量，设计武器目标分配SAC深度强化学习求解环境的动作，为对应的目标选择打击方案以完成武器目标动作分配；

奖励模型设计，具体包括：建立基于预期打击效益、使用武器数量、使用武器种类数量和剩余武器能力四个指标综合评价的武器目标分配决策效果评价函数，作为该问题的奖励函数。

3.如权利要求1所述的方法，其特征在于，所述建立武器目标分配SAC深度强化学习网络模型，包括：建立基于(CONV/FC/GRU)混合架构的武器目标分配决策动作网络，建立武器目标分配决策价值网络。

4.如权利要求1所述的方法，其特征在于，所述建立武器目标分配SAC深度强化学习网络模型，还包括计算武器目标分配决策动作的分布概率，对无效动作进行屏蔽、规避无效决策，选取概率值最大的决策动作，作为武器目标分配结果。

5.如权利要求1所述的方法，其特征在于，所述训练武器目标分配SAC深度强化学习网络模型，包括搭建武器目标智能分配算法的前台应用与后台训练一体化综合运用环境，完成SAC深度强化学习网络训练。

6.如权利要求5所述的方法，其特征在于，所述前台应用与后台训练一体化综合运用环境，包括训练环境和应用环境；

搭建前台应用与后台训练一体化综合运用环境的具体过程，包括：训练场景想定、生成状态特征、SAC深度强化学习网络模型、执行决策动作、采用SAC深度强化学习算法完成训练与优化、进行目标分配、输出SAC深度强化学习网络模型结果。

7.如权利要求6所述的方法，其特征在于，所述采用SAC深度强化学习算法完成训练与优化、进行目标分配、输出SAC深度强化学习网络模型结果包括两步：

第一步，利用武器目标分配价值网络计算动作价值；

第二步，采用梯度下降法更新武器目标分配价值网络，使用梯度上升法更新武器分配决策动作网络模型。

8.如权利要求1所述的方法，其特征在于，所述武器目标分配问题求解包括将训练好的武器目标分配SAC深度强化学习网络模型接入应用环境中的任务规划系统。