CN113128021A

CN113128021A - 多无人平台协同对抗的实时重决策方法和系统

Info

Publication number: CN113128021A
Application number: CN202110269461.9A
Authority: CN
Inventors: 王国强; 陈宇轩; 罗贺; 蒋儒浩; 马滢滢; 胡笑旋; 夏维; 唐奕城; 靳鹏; 马华伟; 王浩丞
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-07-16
Anticipated expiration: 2041-03-12
Also published as: CN113128021B

Abstract

本发明提供一种多无人平台协同对抗的实时重决策方法和系统，涉及无人平台领域，包括：实时获取多无人平台协同对抗时的无人平台状态数据；计算无人平台状态数据的奖励回报；基于预先构建的Actor网络对无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案；基于预先构建的Critic网络对无人平台状态数据进行处理，得到重决策价值函数；基于奖励回报和重决策价值函数计算TD误差；基于TD误差更新Actor网络和Critic网络；多无人平台执行多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据。本发明可以得到最适应当前环境下的无人平台重决策方案。

Description

多无人平台协同对抗的实时重决策方法和系统

技术领域

本发明涉及无人平台技术领域，具体涉及多无人平台协同对抗的实时重决策方法和系统。

背景技术

随着新兴技术的发展与应用，信息对抗、智能对抗已逐渐成为新的作战手段和作战形式，无人平台由于其能够自主的完成多种任务而被广泛地应用。然而随着无人平台在相关领域应用的不断推进，单架无人平台在执行任务时暴露出了灵活性和任务完成率的短板，因此，运用多架无人平台在空中构成相互协作、优势互补、效能倍增的协同作战系统，已成为本领域关注的热点和追求的目标。

多无人平台协同对抗环境中，对抗情况瞬息万变，呈现高动态、高实时和高不确定性的特点，并且多机协同对抗整体过程时间较长，无法对敌方的行动作出详细预测，作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境，因此，决策者需要根据复杂、动态变化的战场环境对多无人平台作战策略进行重决策。

现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行，然而，由于多无人平台协同对抗环境的变化较为迅速，这些方法已经不能适用当前环境，即现有技术提供的重决策方法的效果较差。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种多无人平台协同对抗的实时重决策方法和系统，解决了现有技术提供的重决策方法的效果较差的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种多无人平台协同对抗的实时重决策方法，所述重决策方法由计算机执行，所述方法包括：

实时获取多无人平台协同对抗时的无人平台状态数据；

计算所述无人平台状态数据的奖励回报；

基于预先构建的Actor网络对所述无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案；

基于预先构建的Critic网络对所述无人平台状态数据进行处理，得到重决策价值函数；基于所述奖励回报和所述重决策价值函数计算TD误差；

基于所述TD误差更新所述Actor网络和Critic网络；

多无人平台执行所述多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据，以使更新后的Actor网络对无人平台状态数据进行处理，得到下一回合的多无人平台重决策方案，直至多无人平台重决策方案可以使得多无人平台协同对抗结束。

优选的，所述无人平台状态数据包括：无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。

优选的，所述预先构建的Actor网络采用全连接神经网络，包括：1个输入层、2个隐藏层和1个输出层；

所述基于预先构建的Actor网络对所述无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案，包括：

将所述无人平台状态数据输入到预先构建的Actor网络中，得到重决策触发结果的概率；

基于所述重决策触发结果的概率获取当前回合的重决策触发结果；

对所述重决策触发结果进行标准化处理，得到当前回合的多无人平台重决策方案。

优选的，所述重决策触发结果包括：战术决策、目标分配和不进行重决策。

优选的，所述重决策价值函数的计算方法包括：

其中：

V_π(s_t)表示第t个回合中Critic网络的重决策价值函数；

Q_π(s_t,a)表示第t个回合中采取多无人平台重决策方案a的状态值函数；

A表示所有的多无人平台重决策方案；

a表示第t个回合中得到的多无人平台重决策方案；

π(a|s_t)表示第t个回合采取多无人平台重决策方案a的概率。

优选的，所述基于所述奖励回报和所述重决策价值函数计算TD误差，计算方法包括：

φ(t)＝r^t+1+γV(s_t+1)-V(s_t)

其中：

γ表示折扣因子，为超参数；

V(s_t)表示第t个回合下的重决策价值函数；

V(s_t+1)表示第t+1个回合下的重决策价值函数；

r^t+1表示第t+1个回合的奖励回报。

优选的，所述基于所述TD误差更新所述Actor网络和Critic网络，包括：

基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS；

基于Actor网络的LOSS更新Actor网络的网络权值，基于所述Critic网络的LOSS更新Critic网络的网络权值。

优选的，所述奖励回报包括：无人平台态势优势奖励回报和无人平台能力优势回报；

所述无人平台态势优势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报；

所述无人平台能力优势奖励回报包括：武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。

本发明解决其技术问题所提供的一种多无人平台协同对抗的智能决策系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

实时获取多无人平台协同对抗时的无人平台状态数据；

计算所述无人平台状态数据的奖励回报；

基于所述TD误差更新所述Actor网络和Critic网络；

(三)有益效果

本发明提供了一种多无人平台协同对抗的实时重决策方法和系统。与现有技术相比，具备以下有益效果：

本发明通过实时获取多无人平台协同对抗时的无人平台状态数据；计算无人平台状态数据的奖励回报；基于预先构建的Actor网络对无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案；基于预先构建的Critic网络对无人平台状态数据进行处理，得到重决策价值函数；基于奖励回报和重决策价值函数计算TD误差；基于TD误差更新Actor网络和Critic网络；多无人平台执行多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据，以使更新后的Actor网络对无人平台状态数据进行处理，得到下一回合的多无人平台重决策方案，直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图，已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练，可以得到最适应当前环境下的无人平台重决策方案，以提高多无人平台的作战效率，同时具有实时性和高效率的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多无人平台协同对抗的实时重决策方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种多无人平台协同对抗的实时重决策方法和系统，解决了现有技术提供的重决策方法的效果较差的问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过实时获取多无人平台协同对抗时的无人平台状态数据；计算无人平台状态数据的奖励回报；基于预先构建的Actor网络对无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案；基于预先构建的Critic网络对无人平台状态数据进行处理，得到重决策价值函数；基于奖励回报和重决策价值函数计算TD误差；基于TD误差更新Actor网络和Critic网络；多无人平台执行多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据，以使更新后的Actor网络对无人平台状态数据进行处理，得到下一回合的多无人平台重决策方案，直至多无人平台重决策方案可以使得多无人平台协同对抗结束。由于现有的重决策一般采用神经网络、模糊Petri网和影像图，已经无法快速适用环境变化。而本发明采用Actor-Critic算法对无人平台状态数据进行强化训练，可以得到最适应当前环境下的无人平台重决策方案，以提高多无人平台的作战效率，同时具有实时性和高效率的优点。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

需要说明的是，本发明实施例中所述的“回合”具体是指：多无人平台进行协同作战时，会不断进行空中对战直至敌我双方有一方战败，此时多无人平台对战结束。在整个对战过程中，多无人平台可能会经历多次空战方案重决策过程，因此本发明实施例设定每一次重决策过程为一个回合。

本发明实施例提供了一种多无人平台协同对抗的实时重决策方法，重决策方法由计算机执行，如图1所示，包括以下步骤：

S1、实时获取多无人平台协同对抗时的无人平台状态数据；

S2、计算所述无人平台状态数据的奖励回报；

S3、基于预先构建的Actor网络对所述无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案；

S4、基于预先构建的Critic网络对所述无人平台状态数据进行处理，得到重决策价值函数；基于所述奖励回报和所述重决策价值函数计算TD误差；

S5、基于所述TD误差更新所述Actor网络和Critic网络；

S6、多无人平台执行所述多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据，以使更新后的Actor网络对无人平台状态数据进行处理，得到下一回合的多无人平台重决策方案，直至多无人平台重决策方案可以使得多无人平台协同对抗结束。

下面对各步骤进行具体分析。

在步骤S1中，实时获取多无人平台协同对抗时的无人平台状态数据。

具体的，无人平台状态数据包括：无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。

还包括：对无人平台初始状态数据进行格式转换，得到预设格式的无人平台初始状态数据。

需要说明的是，一般来说无人平台初始状态数据为字符串格式，因此需要将字符串格式的无人平台初始状态数据转换为矩阵格式的数据，以使Actor网络和Critic网络可以进行识别处理。

在步骤S2中，计算所述无人平台状态数据的奖励回报。

具体的，奖励回报包括：多无人平台协同对抗参数奖励回报或多无人平台协同对抗规则奖励回报。

其中，多无人平台协同对抗参数奖励回报包括：无人平台态势优势奖励回报和无人平台能力优势回报。

无人平台态势优势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。

无人平台能力优势奖励回报包括：武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报。

具体的，计算所述无人平台状态数据的奖励回报，包括：

r＝r₁&r₂

其中：

r表示无人平台状态数据的奖励回报；

r₁表示多无人平台协同对抗参数奖励回报；

r₂表示多无人平台协同对抗规则奖励回报。

在本发明实施例中，设定为总的奖励回报采用多无人平台协同对抗参数奖励回报或多无人平台协同对抗规则奖励回报中的一项。

r₁＝r₃+r₄

其中：

r₃表示无人平台态势优势奖励回报；

r₄表示无人平台能力优势回报。

态势优势奖励回报是在不考虑其他影响因素的情况下，只考虑对抗过程中双方相对位置，速度，角度的奖励回报设计。具体为：

r₃＝r₃₁+r₃₂+r₃₃

其中：

r₃₁表示距离优势奖励回报；

r₃₂表示速度优势奖励回报；

r₃₃表示角度优势奖励回报。

r₄＝r₄₁+r₄₂+r₄₃

其中：

r₄₁表示武器射程优势奖励回报；

r₄₂表示武器角度优势奖励回报；

r₄₃表示武器速度优势奖励回报。

在一些实施例中，距离优势奖励回报的计算方法包括一下几种：

1.两个无人平台进行对抗过程中，由于两个无人平台之间距离的改变或无人平台飞行高度的改变，使得无人平台在对抗过程中占据优势或受到威胁。两个无人平台之间的距离超过一定范围时，无人平台占据的距离优势随两个无人平台之间的距离的增大呈指数减小，这个距离范围称之为不可逃逸区最大距离。

考虑到距离因素对武器射程的影响，引入影响因子

距离越远，距离优势成指数减小。具体的：

其中：

r₃₁表示距离优势奖励回报；D_Rmax为雷达最大搜索距离；D_Mmax为导弹攻击距离；

表示为我方的第i架无人平台到敌方的第j架无人平台的距离。

2.在多无人平台协同对抗过程中根据双方距离设定四个威胁区域，分别代表敌方无人平台对我方无人平台有严重威胁、普通威胁，轻微威胁，无威胁。实现在对抗过程中根据危险级别采取不同类型的重决策。

其中：

D₁、D₂、D₃分别表示严重威胁区域阈值、普通威胁区域阈值和轻微威胁区域阈值；严重威胁区域>普通威胁区域>轻微威胁区域>无威胁区域；

表示我方第i架无人平台的坐标；

表示敌方第j架无人平台的坐标。

3.

其中：

x^r，y^r，z^r表示我方无人平台坐标，x^b，y^b，z^b表示敌方无人平台坐标；v^r表示我方无人平台速度；

表示我方第i架无人平台到敌方第j架无人平台之间的方位角；

表示预设周期之后的我方第i架无人平台的坐标；

表示预设周期之后的敌方第j架无人平台的坐标；

4.

其中：

为我方第i架无人平台的飞行高度；

为敌方第j架无人平台的飞行高度；

z₀为无人平台最佳飞行高度。

上述四种方法选择其中一种作为距离优势奖励回报的计算方法。

速度优势奖励回报的计算方法包括一下几种：

1.速度优势是指两个无人平台间由于相对速度而取得的优势或受到的威胁，无人平台的速度可以直接的影响无人平台的追击或逃脱，以及无人平台能否及时灵活的转变飞行状态。并非无人平台的速度值越大，占据的优势越大，超过一定的速度时，速度值的继续增大会缩短无人平台的可用占位时间、削弱无人平台占位能力(转弯半径增大)。这个临界速度值被定义为无人平台的最佳飞行速度。

因此，无人平台在对抗过程中占据的速度优势受到两个方面的影响，一是两个无人平台之间的飞行速度差，二是两个无人平台自身的最佳飞行速度。在这里，假设两个无人平台均具有相同的最佳飞行速度值(速度方向可以不同，速度大小一致)。当对方无人平台的飞行速度不变时，我方无人平台的速度优势将随着其飞行速度的增加而增加。然而，当我方无人平台的速度超过其最佳飞行速度时，其速度优势将随着其速度的继续增加而降低。具体的：

当

时，

当

时，

其中：

表示我方第i架无人平台的速度；

表示敌方第j架无人平台的速度；

v₀表示无人平台最优飞行速度；

2.

其中：

V_max表示无人平台最大速度；

v^b表示敌方无人平台速度；

3.

其中：

v_r表示我方无人平台速度。

上述三种方法选择其中一种作为速度优势奖励回报的计算方法。

角度是指两个无人平台之间的视线(两个无人平台间的物理位置的连线称之为视线)与两个无人平台的速度方向的夹角，大小在零到π之间。无人平台间的角度包括方位角和进入角，我方无人平台的速度方向与视线的夹角称之为方位角；对方无人平台速度方向与视线的夹角称之为进入角。方位角和进入角在无人平台对抗过程中起到至关重要的作用，我方无人平台通过增大方位角以占据角度上的优势，进行有效的追击或规避；而对方无人平台则试图增大进入角占据角度优势以摆脱我方无人平台的追击或进行追击我方无人平台，角度优势奖励回报的计算方法包括以下几种：

1.

其中：

表示我方无人平台方位角；为我方第i架无人平台，以及我方第i架无人平台到敌方第j架无人平台连线间的夹角。

表示敌方无人平台方位角；为敌方第j架无人平台，以及敌方第j架无人平台到我方第i架无人平台连线间的夹角。

2.

其中：

具体的，

当

趋于0、

趋于π时，角度优势函数最大，此时处于对目标的追尾攻击，当

趋于π、

趋于0时，角度优势函数最小，此时处于被追尾攻击。

上述三种方法选择其中一种作为角度优势奖励回报的计算方法。

在一些实施例中，武器射程优势奖励回报的计算方法包括：

其中：

d_w表示我方无人平台的武器射程，d表示双方无人平台间的距离。

武器角度优势奖励回报的计算方法包括：

其中：

β_max表示武器最大发射角度。

武器速度优势奖励回报的计算方法包括：

其中：

v₀表示无人平台最佳攻击速度。

在一些实施例中，多无人平台协同对抗规则奖励回报的计算方法包括：

其中：

表示我方i无人平台到敌方j无人平台间的距离；

θ^r表示我方无人平台速度方向与双方质心间的角度；

θ^b表示敌方无人平台速度方向与双方质心间的角度

β代表双方无人平台之间的角度，v_r表示我方无人平台速度；

h代表无人平台高度。

具体的，本发明实施例中的奖励回报还可以包括协同奖励回报和环境奖励回报。

协同奖励回报的计算方法包括：

r₉＝-α₁log(1-d)

d＝max{d₁-d₀,0,d₂-d₀}

其中：

α₁为超参数，x，y，z代表无人平台坐标；

d₁表示协同区域的圆环内半径，d₂表示协同区域的圆环外半径。

具体的，协同区域为自行设定的一个圆环形区域，具有与内外环。

环境奖励回报的计算方法包括：

其中：

v代表速度，h代表高度。

在本发明的一些实施例中，总的奖励回报为：r＝r₁&r₂+r₉&r₁₀

或：r＝r₁&r₂+r₉+r₁₀

在步骤S3中，基于预先构建的Actor网络对所述无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案。

具体的，本发明实施例中，预先构建的Actor网络采用全连接神经网络，包括：1个输入层、2个隐藏层和1个输出层。

基于预先构建的Actor网络对所述无人平台状态数据进行处理，得到当前回合的多无人平台重决策方案，具体包括：

S31、将所述无人平台状态数据输入到预先构建的Actor网络中，得到重决策触发结果的概率。

在本发明实施例中，重决策触发结果包括：战术决策、目标分配和不进行重决策。

战术决策是指多无人平台在空战中进行的组织、指挥、控制和协同飞行过程。包括直接攻击、侧翼迂回、水平梳开、垂直梳开等战术。

目标分配(WTA)问题是指将有限数量的拦截器分配到来袭的导弹以最小化导弹摧毁受保护资产的概率或将优先的导弹分配给来袭的目标以最大化催化目标的概率。

S32、基于所述重决策触发结果的概率获取当前回合的重决策触发结果。具体的，选取概率最大的作为当前回合的重决策触发结果。

S33、对所述重决策触发结果进行标准化处理，得到当前回合的多无人平台重决策方案。具体的，标准化处理表示获取所述重决策触发结果对应类型的重决策方案。

在步骤S4中，基于预先构建的Critic网络对所述无人平台状态数据进行处理，得到重决策价值函数；基于所述奖励回报和所述重决策价值函数计算TD误差。具体包括以下步骤：

S41、获取重决策价值函数。

重决策价值函数的计算方法包括：

其中：

V_π(s_t)表示第t个回合中Critic网络的重决策价值函数；

Q_π(s_t,a)表示第t个回合中采取多无人平台重决策方案a的状态值函数；A表示所有的多无人平台重决策方案；

a表示第t个回合中得到的多无人平台重决策方案；

π(a|s_t)表示第t个回合采取多无人平台重决策方案a的概率。

S42、计算TD误差。计算方法包括：

φ(t)＝r^t+1+γV(s_t+1)-V(s_t)

其中：

γ表示折扣因子，为超参数；

V(s_t)表示第t个回合下的重决策价值函数；

V(s_t+1)表示第t+1个回合下的重决策价值函数；

r^t+1表示第t+1个回合的奖励回报。

在步骤S5中，基于TD误差更新Actor网络和Critic网络。

具体包括：基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS。基于Actor网络的LOSS更新Actor网络的网络权值，基于所述Critic网络的LOSS更新Critic网络的网络权值。

在步骤S6中，多无人平台执行所述多无人平台重决策方案，得到多无人平台协同对抗数据，并作为下一回合的无人平台状态数据，以使更新后的Actor网络对无人平台状态数据进行处理，得到下一回合的多无人平台重决策方案，直至多无人平台重决策方案可以使得多无人平台协同对抗结束。

本发明实施例通过上述的Actor网络和Critic网络对无人平台状态数据进行处理，可以得到每个回合的多无人平台重决策方案。并不断循环，直至多无人平台协同对抗结束，实现了多无人平台空战方案的强化训练，提高多无人平台的作战效率。

本发明实施例还提供了一种多无人平台协同对抗的智能决策系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

实时获取多无人平台协同对抗时的无人平台状态数据；

计算所述无人平台状态数据的奖励回报；

基于所述TD误差更新所述Actor网络和Critic网络；

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件无人平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多无人平台协同对抗的实时重决策方法，其特征在于，所述重决策方法由计算机执行，所述方法包括：

实时获取多无人平台协同对抗时的无人平台状态数据；

计算所述无人平台状态数据的奖励回报；

基于所述TD误差更新所述Actor网络和Critic网络；

2.如权利要求1所述的重决策方法，其特征在于，所述无人平台状态数据包括：无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。

3.如权利要求1所述的重决策方法，其特征在于，所述预先构建的Actor网络采用全连接神经网络，包括：1个输入层、2个隐藏层和1个输出层；

4.如权利要求3所述的重决策方法，其特征在于，所述重决策触发结果包括：战术决策、目标分配和不进行重决策。

5.如权利要求1所述的重决策方法，其特征在于，所述重决策价值函数的计算方法包括：

其中：

V_π(s_t)表示第t个回合中Critic网络的重决策价值函数；

A表示所有的多无人平台重决策方案；

a表示第t个回合中得到的多无人平台重决策方案；

π(a|s_t)表示第t个回合采取多无人平台重决策方案a的概率。

6.如权利要求5所述的重决策方法，其特征在于，所述基于所述奖励回报和所述重决策价值函数计算TD误差，计算方法包括：

φ(t)＝r^t+1+γV(s_t+1)-V(s_t)

其中：

γ表示折扣因子，为超参数；

V(s_t)表示第t个回合下的重决策价值函数；

V(s_t+1)表示第t+1个回合下的重决策价值函数；

r^t+1表示第t+1个回合的奖励回报。

7.如权利要求1所述的重决策方法，其特征在于，所述基于所述TD误差更新所述Actor网络和Critic网络，包括：

基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS；

8.如权利要求1所述的重决策方法，其特征在于，所述奖励回报包括：无人平台态势优势奖励回报和无人平台能力优势回报；

9.一种多无人平台协同对抗的智能决策系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

实时获取多无人平台协同对抗时的无人平台状态数据；

计算所述无人平台状态数据的奖励回报；

基于所述TD误差更新所述Actor网络和Critic网络；