CN112364972B

CN112364972B - 基于深度强化学习的无人战车分队火力分配方法

Info

Publication number: CN112364972B
Application number: CN202010715792.6A
Authority: CN
Inventors: 王明; 闫秀燕; 金敬强; 刘诗瑶; 张耀; 姜明霞; 李飞; 高飞; 许典; 习朝晖; 何华伟; 韩小康
Original assignee: NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Current assignee: NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2024-01-05
Anticipated expiration: 2040-07-23
Also published as: CN112364972A

Abstract

本发明涉及一种基于深度强化学习的无人战车分队火力分配方法，属于火力分配、深度强化学习技术领域。本发明综合考虑作战任务、战场态势、目标威胁度、目标毁伤概率等多种因素，基于MDP建立无人战车分队的多回合火力分配模型，利用DQN算法对该模型进行求解，通过训练可以实现无人战车分队的多回合火力分配，整个作战过程中不再需要人为调整火力分配模型和参数，无人战车分队根据战场态势自行决定每个回合的打击目标，提高了火力分配决策的鲁棒性，弥补了现有火力分配方法的不足。

Description

基于深度强化学习的无人战车分队火力分配方法

技术领域

本发明属于火力分配、深度强化学习技术领域，具体涉及一种基于深度强化学习的无人战车分队火力分配方法。

背景技术

新时代的战争形态正在由机械化、信息化向智能化、无人化加速变革，无人系统作战将成为一种颠覆性的新型作战样式主导未来战场。无人系统作战将不再是纯粹的武器与武器、平台与平台之间的较量，更是一种以分队为最小作战单元的体系与体系之间的对抗。地面无人战车作为未来陆军的主要无人作战装备，分队作战将会占有非常重要的地位。火力分配是根据作战任务、战场态势和武器性能等因素，将一定类型和数量的火力单元以某种准则进行分配，攻击一定数量敌方目标的过程。对于传统的有人装甲装备作战，可以通过直瞄方式进行协同火力打击；而对于无人战车分队作战，迫切需要通过合理的火力分配方法实现自动火力分配。

目前的火力分配方法解决的都是有人装备的火力分配问题，而且是单回合火力分配问题，即根据人为划分的作战阶段每次输出一个火力分配结果。解算火力分配模型的算法主要是启发式算法，有遗传算法、粒子群算法、模拟退火算法等。

目前的面向有人装备的单回合火力分配方法，由于只能根据人为划分的作战阶段每次输出一个火力分配结果，只能保证当前回合局部最优，但每一回合的火力分配局部最优解并不一定是整个作战过程的火力分配全局最优解。无人战车分队作战过程是敌我双方对抗博弈的动态过程，一般会持续多个回合，期间需要进行多回合的火力分配，本质上属于序贯决策问题。因此目前的火力分配方法不适用于解决高动态环境、强博弈对抗条件下的无人战车分队火力分配问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种无人战车分队多回合火力分配方法，提高火力分配决策的鲁棒性。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于深度强化学习的无人战车分队火力分配方法，包括以下步骤：

1)建立目标威胁度模型和目标毁伤概率模型，确定火力分配准则和火力分配的约束条件；

2)基于马尔科夫决策过程MDP建立无人战车分队的火力分配模型，包括状态集和动作集；

3)设计解算火力分配模型的DQN算法；

4)基于步骤1至步骤3求解无人战车分队火力分配模型。

优选地，步骤1具体包括以下步骤：

1-1)建立所述目标威胁度模型：假设我方m个无人战车打击敌方n个目标，每个无人战车每回合只能打击一个目标，用t_ij表示第j个目标对第i个无人战车的战场威胁度，得到目标威胁度矩阵W，维度为m×n，敌方目标对我方第i个无人战车的威胁度W_i计算公式为：式中y_j表示第j个敌方目标是否被损毁，取值为{0,1}，0表示目标j被损毁，1表示目标j未被损毁；

1-2)建立所述目标毁伤概率模型：用q_ij表示我方第i个无人战车对第j个敌方目标的射击毁伤概率，得到毁伤概率矩阵P，维度为m×n，我方第i个无人战车对第j个敌方目标的毁伤概率P_j的计算公式为式中s_i表示我方第i个无人战车的状态，取值为{0,1}，0表示我方第i个无人战车被损毁，1表示我方第i个无人战车未被损毁；

1-3)确定火力分配准则和约束条件：本发明中无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭，次要目标为最大限度保存自身，即在确保战争胜利的前提下尽可能多地保证我方无人战车不被摧毁，最大限度保存自身的原则为：式中，si表示我方第i个无人战车的状态，取值为{0,1}，0表示已被损毁，1表示未被损毁，作战过程中应满足约束条件为：/>且x_ij∈{0,1}，式中，x_ij为我方第i个无人战车对第j个敌方目标的火力分配决策变量，当x_ij＝1时表示第i个无人战车对第j个敌方目标实施打击，x_ij＝0表示不打击。

优选地，步骤2具体包括以下步骤：

2-1)设置所述状态集为S＝{s_M1,s_M2,…,s_Mi,…,s_Mm,s_N1,s_N2,…,s_Nj,…,s_Nn}，集合中的元素s_Mi表示我方第i个无人战车的状态，s_Nj表示第j个敌方目标的状态，s_Mi、s_Nj取值均为{0_,1}，0表示被损毁，1表示未被损毁，初始状态时所有元素的值都为1，即未被损毁；

2-2)设置所述动作集A＝{A₁,A₂,…,A_i,…,A_m}，其中元素A_i对应我方第i个无人战车的动作集，有A_i＝{1,2,…,j,…,n}，即作战开始时，我方每个无人战车的可选攻击目标为第j个敌方目标到第n个敌方目标，随着作战回合的进行，当第j个敌方目标被击毁，将第j个动作从动作集A中移除，该敌方目标对应的威胁度的值变为0；当我方第i个无人战车被击毁，去掉动作集A_i，该无人战车对应的毁伤概率的值变为0。

优选地，步骤3具体包括以下步骤：

3-1)每个无人战车最多有n个目标选择，利用值函数Q对每个选择进行评估，也用Q表示对应的评估网络，即DQN算法的输入是战场态势，即状态集S，输出为{a₁,a₂,…,a_i,…,a_m}，a_i为第i个无人战车的当前动作，输入和输出之间的映射关系用值函数表示，用神经网络对值函数进行近似，利用损失函数进行梯度下降，使用的损失函数为其中/>其中，θ_i为神经网络内部参数集合、s为无人战车或目标的当前状态、a_i'为第i个无人战车的下一个动作，s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数集合；γ为折扣率，r为奖励函数R中的值，梯度下降的公式为/>

3-2)设计DQN的双网络结构，即评估网络Q：eval_net和目标网络target_net，损失函数中的Q(s,a_i；θ_i)由eval_net求得，y值由target_net求得，两个神经网络的结构和初始参数完全相同，其中eval_net的参数随状态的转移实时更新，target_net的参数在步长C内保持不变，每经过C步长后将eval_net的参数复制给target_net，将利用eval_net训练得到的数据以记忆单元(s,a_i,r,s')的形式储存起来，然后利用随机样本采样的方法，每次取出一批更新和训练神经网络参数；其中，两个深度神经网络eval_net和target_net均采用三层全连接层网络；

3-3)设计解算模型的DQN算法，具体步骤为：

3-3-1)利用DQN对我方m个无人战车进行控制，对每个无人战车建立一个网络Q，并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数，网络Q:eval_net和目标网络/>target_net的输入分别是战车或目标的当前状态s和下一状态s'。

3-3-2)对每个无人战车的指令是从n个敌方目标中选择一个进行攻击，因此Q和的输出是n个动作对应的q值：q_eval和q_target，并分别对每个无人战车单元的网络进行训练，当前状态s转移到的下一状态s'由所有无人战车的当前动作集合{a₁,a₂,…,a_m}决定；

3-3-3)每C步分别用m个无人战车的网络Q替换对应的目标网络

3-4)设定奖励函数R，根据步骤1-3中确定的火力分配准则，对奖励函数R进行设计，深度强化学习中的状态转移符合MDP，状态分为终止状态和非终止状态，对于终止状态，包括我方无人战车分队全被损毁以及敌方目标全被损毁但我方无人战车分队未全被损毁两种；对于非终止状态，包括我方无人战车i被损毁或敌方目标j被损毁两种。

优选地，步骤4具体为：依据战场态势信息确定我方无人战车数目和敌方目标数目，根据步骤1，确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W，同时设定火力分配准则和火力分配的约束条件；根据步骤2建立状态集S和动作集A，建立无人战车分队多回合的火力分配模型，根据步骤3设计的DQN算法对火力分配模型进行训练和解算。

优选地，步骤3-1中，采用ε-greedy实现每个无人战车的n个目标选择。

优选地，两个深度神经网络eval_net和target_net的内部参数均为权重w和偏置b。

优选地，θ_i为神经网络内部参数权重w和偏置b的集合，为目标神经网络的内部参数权重w和偏置b的集合。

本发明又提供了一种所述的方法在无人战车分队作战的火力分配决策中的应用。

本发明还提供了一种所述的方法在无人战车分队作战中的的应用。

(三)有益效果

针对现有火力分配方法中存在的问题，本发明提出了一种基于深度强化学习的无人战车分队多回合火力分配方法。本发明综合考虑作战任务、战场态势、目标威胁度、目标毁伤概率等多种因素，基于MDP建立无人战车分队的多回合火力分配模型，利用DQN算法对该模型进行求解，通过训练可以实现无人战车分队的多回合火力分配，整个作战过程中不再需要人为调整火力分配模型和参数，无人战车分队根据战场态势自行决定每个回合的打击目标，提高了火力分配决策的鲁棒性，弥补了现有火力分配方法的不足。未来可用于实际无人战车分队作战的火力分配决策中。

附图说明

图1为本发明方法的多回合火力分配模型示意图；

图2为本发明方法的MDP概念图；

图3为本发明方法的基于DQN的深度神经网络结构图；

图4为本发明方法的单个战车单元的DQN结构图；

图5为本发明方法的单个战车单元的深度神经网络训练图；

图6为本发明方法的基于DQN算法的火力分配流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提出一种基于深度强化学习的无人战车分队多回合火力分配方法，多回合火力分配模型的示意图如图1所示，包括以下步骤：

1)建立目标威胁度模型和目标毁伤概率模型，确定火力分配准则和火力分配的约束条件，具体步骤如下：

1-1)建立目标威胁度模型。假设我方9个无人战车打击敌方7个目标，每个无人战车每回合只能打击一个目标。用t_ij表示第j个目标对第i个无人战车的战场威胁度，得到目标威胁度矩阵W，维度为(9×7)，敌方目标对我方无人战车i的威胁度W_i计算公式为：式中y_j表示敌方目标j是否被损毁，取值为{0,1}，0表示目标j被损毁，1表示目标j未被损毁。

1-2)建立目标毁伤概率模型。用q_ij表示我方无人战车i对敌方目标j射击毁伤概率，得到毁伤概率矩阵P，维度为(9×7)，我方无人战车i对敌方目标j的毁伤概率P_j计算公式为式中s_i表示我方无人战车i是否被损毁，取值为{0,1}，0表示我方无人战车i被损毁，1表示我方无人战车i未被损毁。

1-3)确定火力分配准则和约束条件。本发明中无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭，次要目标为最大限度保存自身，即在确保战争胜利的前提下尽可能多的保证我方无人战车不被摧毁。最大限度保存自身原则为：式中，s_i表示我方无人战车的状态，取值为{0,1}，0表示已被损毁，1表示未被损毁。作战过程中应满足约束条件为：/>且x_ij∈{0,1}，式中，x_ij为我方无人战车i对敌方目标j的火力分配决策变量。当x_ij＝1时表示i对j实施打击，x_ij＝0表示不打击。

2)基于MDP(Markov Decision Process，马尔科夫决策过程)建立无人战车分队的火力分配模型。基于图2的MDP概念图，结合步骤1中的火力分配任务，设计状态集和动作集。具体步骤包括：

2-1)设置状态集为S＝{s_M1,s_M2,…,s_Mi,…,s_M9,s_N1,s_N2,…,s_Nj,…,s_N7}，集合中的元素s_Mi表示我方第i个无人战车的状态，s_Nj表示第j个敌方目标的状态，取值为{0,1}，0表示单元s_i被损毁，1表示单元s_i未被损毁，初始状态时所有单元的状态值都为1，即未被损毁。

2-2)设置动作集A＝{A₁,A₂,…,A_i,…,A₉}，其中元素A_i对应我方无人战车i的动作集，有A_i＝{1,2,…,j,…,7}，即作战开始时，我方每个无人战车的可选攻击目标为目标1到目标7。随着作战回合的进行，当目标j被击毁，将动作j从动作集A中移除，该目标对应的威胁度的值变为0；当我方无人战车i被击毁，去掉动作集A_i，该无人战车对应的毁伤概率的值变为0。

3)设计解算火力分配模型的DQN算法结构，并设定各项超参数。具体步骤包括：

3-1)每个无人战车最多有7个目标选择，本发明利用值函数Q对每个选择进行评估(采用ε-greedy策略得到合理选择，将ε的值设为0.9)，也用Q表示对应的评估网络，即本发明的算法输入是战场态势S，输出为{a₁,a₂,…,a_i,…,a₉}，a_i表示第i个无人战车的当前动作，输入和输出之间的映射关系用值函数表示。用神经网络对值函数进行近似，利用损失函数进行梯度下降，本发明使用的损失函数为其中/>θ_i为神经网络内部参数权重w和偏置b的集合、s为无人战车或目标的当前状态、a_i'为第i个无人战车的下一个动作，s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数权重w和偏置b的集合；γ为折扣率，在本发明中取值为0.9，r为奖励函数R中的值，奖励函数的具体设定方法见步骤3-5。梯度下降的公式为/>

3-2)设计DQN的双网络结构，即评估网络Q：eval_net和目标网络target_net，损失函数中的Q(s,a_i；θ_i)由eval_net求得，y值由target_net求得。两个神经网络的结构和初始参数完全相同，其中eval_net的参数随状态的转移实时更新，target_net的参数在步长C内保持不变，每经过C步长后将eval_net的参数复制给target_net，本发明的步长C取值为300。采用经验库(Experience Replay Buffer)将利用eval_net训练得到的数据以记忆单元(s,a_i,r,s')的形式储存起来，然后利用随机小样本采样的方法，每次取出一批(batch)更新和训练神经网络参数。本发明的经验库容量取值为500，批处理样本的大小取值为32；本发明的两个深度神经网络eval_net和target_net均采用三层全连接层网络，学习率设为0.01，参数为权重w和偏置b，对参数进行初始化：w为均值0，标准差0.3，控制参数量纲因子(使参数期望能保持在接近0的较小数值范围内)0.001；b为0.001。本发明的深度神经网络结构如图3所示。

3-3)设计解算模型的DQN算法。具体步骤为：

3-3-1)利用DQN对我方9个无人战车进行控制，对每个无人战车建立一个网络Q，并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数。网络Q:eval_net和目标网络/>target_net的输入分别是当前状态s和下一状态s'，单个战车单元的DQN结构图如附图4所示。

3-3-2)对每个无人战车的指令是从7个敌方目标中选择一个进行攻击，因此Q和的输出是7个动作对应的q值：q_eval和q_target。并分别对每个无人战车单元的网络进行训练。当前状态s转移到状态下一状态s'由所有无人战车的当前动作集合{a₁,a₂,…,a₉}决定，因此不同无人战车的动作q值相互耦合单个战车单元的深度神经网络训练图如附图5所示。

3-3-3)每C步分别用9个无人战车的Q网络通过soft_replacement环节(其中，eval_net的参数随状态的转移实时更新，target_net的参数在步长C内保持不变，每经过C步长后将eval_net的参数复制给target_net)替换对应的目标网络

3-4)设定奖励函数R。奖励值的目的是评估当前状态的好坏，根据步骤1中的火力分配准则，对奖励函数R进行设计。深度强化学习中的状态转移符合MDP，状态分为终止状态和非终止状态。对于终止状态，包括我方无人战车分队全被损毁和敌方目标全被损毁但我方无人战车分队未全被损毁两种，设定我方无人战车分队全被损毁的状态奖励值r为-100，敌方目标全被损毁但我方无人战车分队未全被损毁的状态奖励值r为100；对于非终止状态，包括我方无人战车i被损毁或敌方目标j被损毁两种，设定我方无人战车i被损毁的状态奖励值为-1，敌方目标j被损毁的状态奖励值为1。

4)利用DQN算法求解无人战车分队火力分配模型。流程图如附图6所示。具体为：依据战场态势信息确定我方无人战车数目和敌方目标数目，根据步骤1，利用评估方法确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W，同时设定相关约束条件；根据步骤2，建立状态集S和动作集A，建立无人战车分队多回合火力分配模型，根据步骤3，利用设计的DQN算法对模型进行训练和解算。

本发明的有益效果在于：

1、多回合全局最优。传统方法只能针对当前战场态势做出当前单回合的最优或局部最优的火力分配决策，难以保证整个作战过程的最终结果。而本发明提出的火力分配方法面向整个作战过程的多个回合，以取得作战的最终胜利为准则，实现无人战车分队的多回合火力分配，得到多回合分配的全局最优结果，更符合实际作战需求；

2、环境适应性更强。传统方法在作战过程中需要对火力分配模型进行多次人为修改，同时只能对当前回合的战场态势信息进行分析，难以对战场态势变化做出预测，无法正确识别敌方用于迷惑对手的行为进而造成严重后果。而本发明提出的火力分配方法可以根据战场态势变化对模型做出自动调整，能够对战场上可能出现的态势变化提出合理的应对方法，进而在一定程度上避免单回合火力分配的不利影响，更好地适应高动态强对抗的战场环境。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的无人战车分队火力分配方法，其特征在于，包括以下步骤：

3)设计解算火力分配模型的DQN算法；

4)基于步骤1至步骤3求解无人战车分队火力分配模型；

步骤1具体包括以下步骤：

1-3)确定火力分配准则和约束条件：无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭，次要目标为最大限度保存自身，即在确保战争胜利的前提下尽可能多地保证我方无人战车不被摧毁，最大限度保存自身的原则为：式中，s_i表示我方第i个无人战车的状态，取值为{0,1}，0表示已被损毁，1表示未被损毁，作战过程中应满足约束条件为：/>且x_ij∈{0,1}，式中，x_ij为我方第i个无人战车对第j个敌方目标的火力分配决策变量，当x_ij＝1时表示第i个无人战车对第j个敌方目标实施打击，x_ij＝0表示不打击。

2.如权利要求1所述的方法，其特征在于，步骤2具体包括以下步骤：

2-1)设置所述状态集为S＝{s_M1,s_M2,…,s_Mi,…,s_Mm,s_N1,s_N2,…,s_Nj,…,s_Nn}，集合中的元素s_Mi表示我方第i个无人战车的状态，s_Nj表示第j个敌方目标的状态，s_Mi、s_Nj取值均为{0,1}，0表示被损毁，1表示未被损毁，初始状态时所有元素的值都为1，即未被损毁；

2-2)设置所述动作集A＝{A₁,A₂,…,A_i,…,A_m}，其中元素A_i对应我方第i个无人战车的动作集，有A_i＝{1,2,…,j,…,n}，即作战开始时，我方每个无人战车的可选攻击目标为第1个敌方目标到第n个敌方目标，随着作战回合的进行，当第j个敌方目标被击毁，将第j个动作从动作集A中移除，该敌方目标对应的威胁度的值变为0；当我方第i个无人战车被击毁，去掉动作集A_i，该无人战车对应的毁伤概率的值变为0。

3.如权利要求2所述的方法，其特征在于，步骤3具体包括以下步骤：

3-1)每个无人战车最多有n个目标选择，利用值函数Q对每个选择进行评估，也用Q表示对应的评估网络，即DQN算法的输入是战场态势，即状态集S，输出为{a₁,a₂,…,a_i,…,a_m}，a_i为第i个无人战车的当前动作，输入和输出之间的映射关系用值函数表示，用神经网络对值函数进行近似，利用损失函数进行梯度下降，使用的损失函数为其中/>其中，θ_i为神经网络内部参数集合、s为无人战车或目标的当前状态、a_i'为第i个无人战车的下一个动作，s’为无人战车或目标的下一个状态、/>为目标神经网络的内部参数集合；γ为折扣率，r为奖励函数R中的值，梯度下降的公式为

3-3)设计解算模型的DQN算法，具体步骤为：

3-3-1)利用DQN对我方m个无人战车进行控制，对每个无人战车建立一个网络Q，并分别对应一个目标网络根据每个无人战车的Q和/>分别求损失函数，网络Q:eval_net和目标网络/>的输入分别是战车或目标的当前状态s和下一状态s'；

3-3-3)每C步分别用m个无人战车的网络Q替换对应的目标网络

4.如权利要求1所述的方法，其特征在于，步骤4具体为：依据战场态势信息确定我方无人战车数目和敌方目标数目，根据步骤1，确定我方无人战车分队对敌方目标群的毁伤概率矩阵P和敌方目标群对我方无人战车分队的威胁度矩阵W，同时设定火力分配准则和火力分配的约束条件；根据步骤2建立状态集S和动作集A，建立无人战车分队多回合的火力分配模型，根据步骤3设计的DQN算法对火力分配模型进行训练和解算。

5.如权利要求3所述的方法，其特征在于，步骤3-1中，采用ε-greedy实现每个无人战车的n个目标选择。

6.如权利要求3所述的方法，其特征在于，两个深度神经网络eval_net和target_net的内部参数均为权重w和偏置b。

7.如权利要求6所述的方法，其特征在于，θ_i为神经网络内部参数权重w和偏置b的集合，为目标神经网络的内部参数权重w和偏置b的集合。

8.一种如权利要求1至7中任一项所述的方法在无人战车分队作战的火力分配决策中的应用。

9.一种如权利要求1至7中任一项所述的方法在无人战车分队作战中的的应用。