CN114202175A

CN114202175A - 一种基于人工智能的作战任务规划方法及系统

Info

Publication number: CN114202175A
Application number: CN202111422975.XA
Authority: CN
Inventors: 王才红; 吕乃冰; 许馨月; 高军强; 肖保军; 曹扬; 赵思聪; 吴京辉; 赵若帆
Original assignee: 26th Unit 96901 Unit Chinese Pla
Current assignee: 26th Unit 96901 Unit Chinese Pla
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-18

Abstract

本发明实施例提供了一种基于人工智能的作战任务规划方法及系统。该方法包括：设计作战任务规划人工智能AI求解环境，所述作战任务规划AI求解环境包括7个状态特征、5个决策动作和1个综合评价奖励函数；建立多层深度作战决策神经网络模型；采用IMPALA强化学习算法训练所述多层深度作战决策神经网络模型；应用所述训练的结果构建智能作战任务规划系统，所述智能作战任务规划系统自动生成作战方案，解决了战役级作战任务规划求解难题。

Description

一种基于人工智能的作战任务规划方法及系统

技术领域

本发明实施例涉及军事运筹和人工智能技术领域，具体是一种基于人工智能的作战任务规划方法及系统。

背景技术

作战任务规划作为军事信息系统的大脑，主要是依据上级作战意图，以作战资源和作战规则为约束条件，运用科学规划方法和计算机工具，对作战进程、任务编组、兵力协同、战场布势和武器组合运用等进行筹划设计，拟制生成作战方案计划的过程。作战任务规划按照服务对象所处指挥层级，分为武器平台级、战术级、战役级和战略级四个层次。

随着新武器、新技术和新作战概念的不断发展，现代战役越来越呈现出高端化发展趋势：一方面表现为大规模、深协同，即参战部队规模、作战地域、武器种类和武器数量超出以往，打击目标数量也显著增加，且不同部队、地域、武器的协同运用对作战效果影响较大，使得作战任务规划求解压力巨大；另一方面表现为快节奏、强对抗，即战场态势瞬息万变，武器面临的火力拦截和电子干扰环境复杂，要求作战方案计划必须能够随之完成动态调整生成，对作战任务规划提出了非常高的效率要求。因此，面对大规模、快节奏的现代高端战役，传统的数学规划或仿生进化等作战任务规划方法，建模困难、计算速度慢，已无法满足战役级作战任务规划要求。

传统的作战任务规划方法，包括数学规划和仿生进化等方法。其中，数学规划方法包括排队论、动态规划、存贮论、分支定界、回溯法等，求解大规模作战任务规划问题时，难以建模且容易陷入维数灾难。仿生进化方法包括遗传算法、粒子群算法、差分进化算法等，随机性强、无泛化性，且求解大规模作战任务规划问题时，容易过早收敛，导致优化效果差、计算时间长。

近年来，人工智能技术取得显著突破，尤其是深度强化学习，因其有机结合了深度学习的感知能力和强化学习的决策能力，被认为是迈向通用人工智能的重要途径，已成功应用于游戏、机器人控制、参数优化等领域，如Alpha Go、星际争霸II、刀塔等。作战任务规划本质上是一种基于战场态势感知的作战决策问题，深度强化学习的不断发展，为作战任务规划问题的自动化、自主化求解开辟了新的途径。目前，主要是针对武器平台级规划问题(如飞行航迹规划、突防决策规划、制导方法规划等)和战术级规划问题(如无人机任务分配、战车分队火力分配等)，采用深度Q网络(Deep QNetworks，DQN)、近端策略优化(Proximal Policy Optimization，PPO)、SAC(Soft actor-critic)等主流深度强化学习算法进行求解。

对于主流的DQN、PPO、SAC等深度强化学习算法，由于战役级作战任务规划问题决策变量多、约束条件复杂、解空间巨大，其深度强化学习模型的状态空间和动作空间巨大，DQN算法无法实现连续动作决策且模型训练稳定性不足，PPO算法样本利用率低、训练时间长，SAC算法并行能力差、收敛速度慢，均无法运用于高度复杂的战役级作战任务规划问题求解。

发明内容

本发明实施例针对现代高端战争面临的大规模、快节奏下的战役级作战任务规划问题，提出一种基于人工智能的作战任务规划方法及系统；

第一方面，本发明实施例提供了一种基于人工智能的作战任务规划方法，该方法包括以下步骤：

第一方面，本发明实施例提供了一种基于人工智能的作战任务规划方法，其特征在于，该方法包括以下步骤：

S1、设计作战任务规划人工智能AI求解环境；

S2、建立多层深度作战决策神经网络模型；

S3、采用IMPALA(importantweighted actor-learner architecture)强化学习算法训练所述多层深度作战决策神经网络模型；

S4、应用所述训练的结果构建智能作战任务规划系统，所述智能作战任务规划系统自动生成作战方案。

进一步，步骤S1中所述设计作战任务规划AI求解环境包括设计状态特征、设计动作集和设计综合评价奖励函数。

进一步，所述状态特征包括打击目标状态、打击目标标志状态、部队状态、部队标志状态、作战地域状态、作战地域标志状态和武器类型标志状态，其中，

打击目标状态，具体包括：打击目标属性，所述打击目标属性包括当前打击目标的序列编号和类型、每个打击目标的毁伤等级和打击目标的武器种类数量；

打击目标标志状态包括：全部有效打击目标；

部队状态，具体包括：任务部队属性，所述部队属性包括当前部队的序列编号、单个波次最多能发射的武器数量、最多可用的作战地域数量、所使用的作战地域；

部队标志状态，具体包括：部队全部可使用的武器类型；

作战地域状态，具体包括：作战地域被哪支部队使用、剩余武器类型与数量；

战地域标志状态，具体包括：每个作战地域的可用状态；

武器类型标志状态，具体包括：为每个目标分配的武器类型。

进一步，所述动作集包括打击目标动作、武器类型动作、部队动作、作战地域动作和武器数量动作，其中，

打击目标动作，表示当前决策的作战组的打击目标；

武器类型动作，表示当前决策的作战组使用的武器类型；

部队动作，表示当前决策的作战组调用的部队；

作战地域动作，表示当前决策的作战组部队作战的作战地域；

武器数量动作，表示当前决策的作战组打击目标使用的武器数量。

进一步，所述综合评价奖励函数包括作战效果实现奖励函数、作战损失降低奖励函数和作战风险管控奖励函数，所述综合评价奖励函数根据如下公式获取：

其中，R为奖励值；

τ₁为作战效果实现奖励的权重，τ₂为作战损失降低奖励的权重，τ₃为作战风险管控奖励的权重，所述权重根据实际情况预先设定；

r₁为作战效果实现奖励函数，r₂为作战损失降低奖励函数，r₃为作战风险管控奖励函数。

进一步，步骤S2中所述多层深度作战决策神经网络模型包括模型输入部分、模型输出部分，所述模型输出部分包括价值网络和策略网络，所述建立多层深度作战决策神经网络模型包括以下步骤：

S21、所述输入部分接收所述作战任务规划AI求解环境的3个状态特征；

S22、所述输入部分采用全连接神经网络将所述3个状态特征转换成一致的维度，并拼接为一个特征向量输入由GRU循环神经网络组成的核心网络进行时间序列特征提取；

S23、所述价值网络获取所述核心网络输出的时间序列特征向量，采用多层全连接神经网络计算动作价值并输出所述3个状态特征的动作价值；

S24、所述策略网络中目标动作策略神经网络获取所述核心网络输出的时间序列特征向量，以及与目标状态特征相对应的目标标志状态特征，通过所述目标标志状态特征实现决策动作过滤，输出目标特征向量；

其中，所述策略网络由目标动作策略神经网络、武器类型动作策略神经网络、部队动作策略神经网络、作战地域动作策略神经网络、武器数量动作策略神经网络依次连接构成，前序动作策略神经网络的输出作为后序动作策略神经网络的输入。

进一步，步骤S24中所述目标动作策略神经网络实现决策动作过滤包括以下步骤：

S241、将所述核心网络输出的时间序列特征向量和所述目标标志状态特征进行矩阵相乘运算；

S242、采用一维卷积网络提取序列一维特征，将所述序列一维特征与动作屏蔽向量mask相加；

S243、利用Softmax逻辑回归模型计算决策动作概率分布logits，基于概率分布随机选取决策动作并输出所述决策动作；

S244、将所述决策动作转换成one-hot向量，经过两层全连接层神经网络，得到Embedding特征向量。

进一步，步骤S3中所述训练所述多层深度作战决策神经网络模型包括以下步骤：

S31、通过作战任务规划应用模块获取作战意图和规划场景，其中，作战任务规划应用模块是所述智能作战任务规划系统的组成部分；

S32、构建作战决策智能体集群，其中，每个作战决策智能体包括作战任务规划AI求解环境和多层深度作战决策神经网络模型；

S33、逐一对单个所述作战决策智能体进行训练，生成样本，并将所述样本存入样本序列；

S34、将全部所述作战决策智能体训练完成后得到的所述样本序列存储于样本集，若所述样本集达到指定数量要求，更新并输出所述多层深度作战决策神经网络模型，反之，继续对单个所述作战决策智能体进行训练；

S35、训练结束，得到训练好的所述作战决策智能体，所述训练结束的条件包括人为终止或达到指定训练次数终止两种。

进一步，步骤S33中所述逐一对单个所述作战决策智能体进行训练包括以下步骤：

S331、所述作战任务规划AI求解环境初始化状态特征S_t；

S332、所述作战任务规划AI求解环境将所述状态特征S_t输出至所述多层深度作战决策神经网络模型；

S333、所述多层深度作战决策神经网络模型接收所述状态特征S_t，计算得到动作集A_t；

S334、所述作战任务规划AI求解环境获取所述动作集A_t并执行作战决策动作，计算处理打击目标毁伤状态，根据所述执行作战决策动作的结果，调整所述作战任务规划AI求解环境中相应类型武器的数量，并改变部队状态和作战地域状态；

S335、所述作战任务规划AI求解环境返回后序决策动作的状态特征S_t+1、奖励值r和结束标签d，生成样本(S_t,A_t,r,S_t+1,d)。

第二方面，本发明实施例提供了一种智能作战任务规划系统，包括作战任务规划应用模块和作战任务规划AI算法模块；

所述作战任务规划应用模块用于：向所述作战任务规划AI算法模块提供作战意图和规划场景，所述作战意图和规划场景由指挥员或规划人员通过人机交付方式向所述作战任务规划应用模块下达；

所述作战任务规划AI算法模块用于：向作战任务规划应用模块自动生成多个作战方案、计划，所述作战任务规划AI算法模块由多层深度作战决策神经网络模型和作战任务规划AI求解环境集成，其中，

多层深度作战决策神经网络模型和作战任务规划AI求解环境根据第一方面步骤S1至S3之一的方法建立。

通过本发明实施例设计作战任务规划AI求解环境，建立多层深度作战决策神经网络模型，采用IMPALA强化学习算法训练多层深度作战决策神经网络模型，应用训练结果构建智能作战任务规划系统，实现了智能作战任务规划系统快速、自动生成作战方案。

附图说明

为了更清楚地说明本发明具体实施例中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的总体实现流程图；

图2是根据本发明实施例的多层深度作战决策神经网络模型结构示意图；

图3是根据本发明实施例的目标动作策略神经网络示意图；

图4是根据本发明实施例的智能作战任务规划系统组成结构和信息流示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

图1是根据本发明实施例的总体实现流程图，如图1所示，一种基于人工智能的作战任务规划方法及系统，包括以下步骤：

S1、设计作战任务规划人工智能AI求解环境，所述作战任务规划AI求解环境包括7个状态特征、5个决策动作和1个综合评价奖励函数；

S2、建立多层深度作战决策神经网络模型；

S3、采用IMPALA强化学习算法训练所述多层深度作战决策神经网络模型；

在步骤S1中，设计作战任务规划AI求解环境包括设计状态特征、设计动作集和设计综合评价奖励函数。

1.设计作战任务规划AI求解环境的状态特征S_t，所述状态特征包括打击目标状态、打击目标标志状态、部队状态、部队标志状态、作战地域状态、作战地域标志状态和武器类型标志状态，所述AI求解环境的状态空间S_t通过以下数组表示：

S_t＝[S_mb,S_mz,S_bd,S_bz,S_dy,S_dz,S_wq]

其中，S_mb为打击目标状态、S_mz为打击目标标志状态、S_bd为部队状态、S_bz为部队标志状态、S_dy为作战地域状态、S_dz为作战地域标志状态、S_wq为武器类型标志状态，计算方法如下：

①打击目标状态S_mb

记录打击目标属性。对于上级要求的M个打击目标，每一个打击目标包含以下4个属性信息：

a.用一个M维的one-hot向量来表示当前打击目标的序列编号；

b.每个打击目标有一个上级明确的毁伤等级；

c.用一个N维的one-hot向量来表示当前目标的类型；

d.用一个长为R的向量来表示该打击目标的武器种类数量。

综上，采用M×(R+N+1)的二维矩阵描述打击目标状态S_mb。如果环境初始化的打击目标个数不足M个，为了保持矩阵维度的一致性，则不足的目标属性用0补全。

②打击目标标志状态S_mz

记录为全部有效打击目标的状态。所述打击目标标志状态采用一个长度为M的向量[T1,T2,…,TM]描述打击目标标志状态S_mz，T_i＝1表示该打击目标已完成火力资源分配。

③部队状态S_bd

记录任务部队属性。对于可用的S支部队，每支部队包含以下属性：

a.当前部队序列编号，用一个长度为S的一维向量表示；

b.当前部队单个波次最多能发射的武器数量FSDL_bc；

c.当前部队最多可用的作战地域数量T；

d.当前部队所使用的作战地域，用P维one-hot向量表示，P为所有部队的可用作战地域数量之和。

综上，采用S×(T×P+S+1)二维矩阵描述部队状态S_bd。

④部队标志状态S_bz

记录部队全部可使用的武器类型。因一支部队有多个独立使用的作战地域，每个作战地域可部署多种武器，所以可采用S×R二维矩阵描述部队标志状态S_bz。

⑤作战地域状态S_dy

记录作战地域被哪支部队使用和剩余武器类型与数量。对于每一个作战地域，用一个长为P的one-hot向量表示当前作战地域编号，用一个长为S的one-hot向量表示该作战地域由哪个部队使用，用一个长为R的向量存储该作战地域中每类武器的剩余数量。则有，作战地域状态是一个长为P×(P+S+R)的一维向量。

⑥作战地域标志状态S_dz

记录每个作战地域的可用状态。用长为P的one-hot向量表示作战地域编号，采用S×(T×P)的二维矩阵描述作战地域标志状态S_dz。

⑦武器类型标志状态S_wq

记录为每个目标分配的武器类型。采用M×R的二维矩阵描述武器类型标志状态S_wq。矩阵第i行、第j列元素Swq_ij＝1表示使用第j类武器打击第i个目标，Swq_ij＝0表示未使用第j类武器打击第i个目标。

2.设计作战任务规划AI求解环境的动作集A，包括打击目标动作、武器类型动作、部队动作、作战地域动作和武器数量动作等5个动作，具体为：

其中，A_t为打击目标动作，表示当前决策的作战组的打击目标；A_w为武器类型动作，表示当前决策的作战组使用的武器类型；A_a为部队动作，表示当前决策的作战组调用的部队；A_r为作战地域动作，表示当前决策的作战组部队作战的作战地域；A_n为武器数量动作，表示当前决策的作战组打击目标使用的武器数量；K为打击目标最大可能投入的武器数量。

3.设计作战任务规划AI求解环境的综合评价奖励函数，所述综合评价奖励函数包括作战效果实现奖励函数、作战损失降低奖励函数和作战风险管控奖励函数，所述综合评价奖励函数根据如下公式获取：

其中，R为奖励值；

τ₁、τ₂、τ₃分别为作战效果实现奖励、作战损失降低奖励、作战风险管控奖励的权重，所述权重通常根据决策意图由指挥人员明确；

r₁为作战效果实现奖励函数，表示作战任务分配的核心目的就是达成最佳作战效果，r₁根据如下公式计算：

其中，p_i为第i个打击目标被毁伤的概率，v_i为第i个打击目标的价值系数；

r₂为作战损失降低奖励函数，通过合理组合使用部队、作战地域，优化武器进攻路径，可以降低武器被对手火力拦截和电子干扰所带来的损失，r₂根据如下公式计算：

其中，N_i为第i种武器的使用数量，

为第i种武器被对手火力拦截的概率，

为第i种武器被对手电子干扰的概率；

r₃为作战风险管控奖励函数，通过调整作战地域、武器和打击目标的分配关系，可以减小武器残骸落入或攻击路线经过敏感区域所带来的附带损失，r₃根据如下公式计算：

其中，N_jbfq为敏感区域数量；σ_i为武器攻击路线是否经过第i个敏感区域，σ_i＝1表示经过，反之，表示不经过；ω_i为第i个敏感区域的重要性因子，通常按敏感区域类型由指挥员或规划人员指定。

在步骤S2中，所述多层深度作战决策神经网络模型包括模型输入部分、模型输出部分，所述模型输出部分包括价值网络和策略网络，如图2所示，MLP指全连接网络，Conv1d指一维卷积网络，GRU指门循环单元神经网络，Core指由GRU组成的核心网络，Value指决策价值，Encoder指利用网络特征提取后得到的特征编码，Embedding指利用网络特殊处理后的特征向量；所述建立多层深度作战决策神经网络模型包括以下步骤：

S21、所述输入部分接收所述作战任务规划AI求解环境的3个状态特征，所述3个状态特征包括打击目标状态、部队状态、作战地域状态；

S22、所述输入部分采用MLP全连接神经网络将所述3个状态特征转换成维度一致的Encoder特征编码，并拼接为一个特征向量输入由GRU循环神经网络组成的Core核心网络进行时间序列特征提取；

S23、所述价值网络获取所述Core核心网络输出的时间序列特征向量，采用MLP多层全连接神经网络计算动作价值并输出所述3个状态特征的动作价值Value；

S24、所述策略网络中目标动作策略神经网络获取所述Core核心网络输出的时间序列特征向量，以及与目标状态特征相对应的目标标志状态特征，通过所述目标标志状态特征实现决策动作过滤，输出Embedding目标特征向量；

在步骤S24中，如图3所示，所述目标动作策略神经网络实现决策动作过滤包括以下步骤：

S241、将所述Core核心网络输出的时间序列特征向量和所述目标标志状态特征进行矩阵相乘运算；

S242、采用Conv1d一维卷积网络提取序列一维特征，将所述序列一维特征与动作屏蔽向量mask相加；

S243、利用Softmax逻辑回归模型计算决策动作概率分布，基于概率分布随机选取目标决策动作并输出所述目标决策动作；

S244、将所述目标决策动作转换成one-hot向量，经过FC2、FC3两层全连接层神经网络，得到Embedding目标特征向量；

为实现动作过滤，在计算决策动作概率时，设计mask来屏蔽无效动作，使其不参与动作概率计算，为实现在前向执行和反向传播时屏蔽无效动作。mask由目标标志得到的，具体方法为：

式中，目标标志为0时，代表该动作为有效动作。

此外，部队策略神经网络、作战地域策略神经网络、武器类型策略神经网络、武器数量策略神经网络与目标动作策略神经网络构建方法基本一致，如图3所示，在此不做赘述。

在步骤S3中，采用IMPALA强化学习算法训练多层深度作战决策神经网络模型包括以下步骤：

S34、上述步骤S33生成的(S_t,A_t,r,S_t+1,d)样本序列构成一个完整的训练样本，将多个作战决策智能体生成的训练样本存储到样本集中。若样本集的样本数量达到指定数量时，取出所有样本求解损失函数并反向传播，实现网络模型更新。若样本数量不足，则从步骤S33开始继续进行样本收集；

S35、重复上述步骤，直到达到训练结束条件，得到训练好的作战决策智能体。训练结束条件包括人为终止或达到指定训练次数终止两种。

在步骤S33中，所述逐一对单个所述作战决策智能体进行训练的步骤包括：

S331、所述作战任务规划AI求解环境初始化状态特征S_t；

S335、所述作战任务规划AI求解环境返回后序决策动作的状态特征S_t+1、奖励值r和结束标签d，生成样本(S_t,A_t,r,S_t+1,d)，判断是否完成对全部目标的任务分配，若未完成则跳转到步骤S331继续，若完成则继续下一步。

在步骤S4中，所述智能作战任务规划系统，包括作战任务规划应用模块和作战任务规划AI算法模块，如图4所示。

所述作战任务规划应用模块用于：向作战任务规划AI算法模块提供作战意图和规划场景，所述作战意图和规划场景由指挥员或规划人员通过人机交付方式向所述作战任务规划应用模块下达；

GPU计算服务器集群用于：向所述作战任务规划AI算法模块进行快速计算提供硬件支撑；

所述作战任务规划AI算法模块用于：向作战任务规划应用模块自动生成多个作战方案、计划，所述作战任务规划AI算法模块由多层深度作战决策神经网络模型和作战任务规划AI求解环境集成，其中，多层深度作战决策神经网络模型和作战任务规划AI求解环境根据步骤S1至S3之一的方法建立，所述作战任务规划AI求解环境向所述多层深度作战决策神经网络模型提供状态特征，以及后续决策动作的状态特征和奖励值，所述多层深度作战决策神经网络模型向所述作战任务规划AI求解环境输出决策动作。

此外，本发明实施例同时采用粒子群算法对相同的战役级作战任务规划问题进行求解。为了确保实验结果对比的有效性，粒子群算法的输入与IMPALA深度强化学习算法的输入完全一致，针对1000组作战任务规划问题案例，经过算法的求解后，输出作战方案，并计算平均奖励分数。两个算法的测试结果见表1。

表1 IMPALA深度强化学习算法与粒子群算法测试结果对比

算法	平均测试时间(s)	奖励分数
			粒子群算法	200	0.96
IMPALA深度强化学习算法	5	0.97

由此可见，采用本发明实施例提供的IMPALA深度强化学习算法，比传统的粒子群算法求解效率提高40倍。

综上所述，本发明实施例提供的基于人工智能的作战任务规划方法及系统，通过设计作战任务规划AI求解环境，建立多层深度作战决策神经网络模型，采用IMPALA强化学习算法训练多层深度作战决策神经网络模型，应用训练结果构建智能作战任务规划系统，实现了智能作战任务规划系统快速、自动生成作战方案。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于人工智能的作战任务规划方法，其特征在于，该方法包括以下步骤：

S1、设计作战任务规划人工智能AI求解环境；

S2、建立多层深度作战决策神经网络模型；

2.根据权利要求1所述的方法，其特征在于，步骤S1中所述设计作战任务规划AI求解环境包括设计状态特征、设计动作集和设计综合评价奖励函数。

3.根据权利要求2所述的方法，其特征在于，所述状态特征包括打击目标状态、打击目标标志状态、部队状态、部队标志状态、作战地域状态、作战地域标志状态和武器类型标志状态；

其中，打击目标状态，具体包括：打击目标属性，所述打击目标属性包括当前打击目标的序列编号和类型、每个打击目标的毁伤等级和打击目标的武器种类数量；

打击目标标志状态包括：全部有效打击目标；

部队标志状态，具体包括：部队全部可使用的武器类型；

战地域标志状态，具体包括：每个作战地域的可用状态；

4.根据权利要求2所述的方法，其特征在于，所述动作集包括：打击目标动作、武器类型动作、部队动作、作战地域动作和武器数量动作；

其中，打击目标动作，表示当前决策的作战组的打击目标；

武器类型动作，表示当前决策的作战组使用的武器类型；

部队动作，表示当前决策的作战组调用的部队；

5.根据权利要求2所述的方法，其特征在于，所述综合评价奖励函数包括作战效果实现奖励函数、作战损失降低奖励函数和作战风险管控奖励函数，所述综合评价奖励函数根据如下公式获取：

其中，R为奖励值；

6.根据权利要求1所述的方法，其特征在于，步骤S2中所述多层深度作战决策神经网络模型包括：模型输入部分和模型输出部分，所述模型输出部分包括：价值网络和策略网络；

所述建立多层深度作战决策神经网络模型包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，步骤S24中所述目标动作策略神经网络实现决策动作过滤包括以下步骤：

8.根据权利要求1所述的方法，其特征在于，步骤S3中所述训练所述多层深度作战决策神经网络模型包括以下步骤：

9.根据权利要求8所述的方法，其特征在于，步骤S33中所述逐一对单个所述作战决策智能体进行训练包括以下步骤：

S331、所述作战任务规划AI求解环境初始化状态特征S_t；

10.一种智能作战任务规划系统，包括作战任务规划应用模块和作战任务规划AI算法模块，其特征在于：

所述作战任务规划AI算法模块用于：向作战任务规划应用模块自动生成多个作战方案、计划，所述作战任务规划AI算法模块由多层深度作战决策神经网络模型和作战任务规划AI求解环境集成，

其中，所述多层深度作战决策神经网络模型和作战任务规划AI求解环境根据权利要求1-9之一的方法建立。