CN108427286A

CN108427286A - 用于强对抗环境下无人机深度决策的训练方法及训练网络

Info

Publication number: CN108427286A
Application number: CN201810324470.1A
Authority: CN
Inventors: 胡笑旋; 张任驰; 马华伟; 郭君; 夏维; 王执龙; 罗贺; 王国强; 靳鹏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-08-21
Anticipated expiration: 2038-04-12
Also published as: CN108427286B

Abstract

本发明提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络，属于无人机深度决策技术领域。该训练网络包括输入层、隐藏层、输出层、回报值获取模块、记忆库和梯度训练模块。训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限，使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。

Description

用于强对抗环境下无人机深度决策的训练方法及训练网络

技术领域

本发明涉及无人机深度决策技术领域，具体地涉及一种用于强对抗环境下无人机深度决策的训练方法及训练网络。

背景技术

现有的无人机决策方法大多未考虑无人机的强对抗环境，无法解决强对抗环境下无人机自主决策问题。如论文《一种基于情景构建的无人机自主鲁棒决策方法》是使用基于影响图的不确定性求解方法，其存在如下两个方面的不足：第一，该决策方法实质是从候选方案中选择效用最大方案的过程，候选方案能涵盖的突发情况维度，直接决定了该方法鲁棒性能的优劣，而这些候选方案往往都只能由历史战例中总结获得，无法胜任未经历过场景下的决策；第二，影响图法需要预先构建影响图模型，且在模型构建之后无法进行持续改进，很难适应复杂多变的高动态性战场条件。

发明内容

本发明的目的是提供一种用于强对抗环境下无人机深度决策的训练方法及训练网络，该训练方法突破了传统无人机训练方法无法环境自适应生成预案的局限，使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。

为了实现上述目的，在一方面，本发明提供一种用于强对抗环境下无人机深度决策的训练方法，强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器，该训练方法包括以下步骤：获取当前状态下强对抗环境的第一状态空间数据的初始值，第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数，其中，无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况，地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间，第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况，第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况；根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值，其中，状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离；对状态值进行标准化处理，获得标准化状态值；根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作，决策动作包括机动动作和打击动作；获取无人机执行决策动作后的第二状态空间数据；计算无人机执行决策动作的回报值；根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数；根据第二状态空间数据更新第一状态空间数据；判断无人机或地面目标是否被摧毁；在判断无人机或地面目标被摧毁的情况下，记录无人机与地面目标的作战情况，作战情况包括无人机是否被摧毁和地面目标是否被摧毁；判断无人机和地面目标的作战次数是否大于或者等于100次，无人机或地面目标被摧毁一次定义为完成一次作战；在判断无人机和地面目标的作战次数大于或者等于100次的情况下，计算无人机的百回合胜率；判断百回合胜率是否大于或者等于预设值；在判断百回合胜率大于或者等于预设值的情况下，完成强对抗环境下无人机深度决策的训练。

优选地，该训练方法还包括：在完成强对抗环境下无人机深度决策的训练的情况下，生成并存储强对抗环境下无人机深度决策的神经网络。

优选地，无人机与地面目标之间的距离采用式(1)来表示：

其中，为无人机与地面目标之间在第i步的距离，第i步被定义为第i次获取第二状态空间数据，为无人机在第i步的空间坐标，为地面目标在第i步的空间坐标；

标准化后的无人机与地面目标之间的距离采用式(2)来表示：

其中，为标准化后的无人机与地面目标之间在第i步的距离，

为的对数，ln(d+1)为d+1的对数，d为第一武器的作战范围；

无人机的航向与地面目标之间的水平夹角采用式(3)来表示：

其中，γⁱ为无人机的航向与地面目标之间在第i步的水平夹角，为无人机的航向与水平面内的参考坐标轴之间的夹角，为地面目标的运行方向与水平面内的参考坐标轴之间的夹角， atan为反正切函数，π为圆周率；

标准化后的无人机的航向与地面目标之间的水平夹角采用式(4)来表示：

其中，为标准化后的无人机的航向与地面目标之间在第i步的水平夹角；

无人机与地面目标之间的高度差采用式(5)来表示：

其中，为无人机与地面目标之间在第i步的高度差；

无人机与第二武器之间的距离采用式(6)来表示：

其中，为无人机与第二武器之间在第i步的距离；为第二武器在第i步的空间坐标。

优选地，回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值，回报值包括长时间分辨率回报值和短时间分辨率回报值，长时间分辨率回报值为长采样周期的起始时刻的回报值，短时间分辨率回报值为短采样周期的起始时刻的回报值，长采样周期包含多个短采样周期，第i个短采样周期为第i步，回报值采用式(7)来表示：

其中，Reⁱ为在第i步无人机执行决策动作的回报值，为在第i个短采样周期无人机执行决策动作的短时间分辨率回报值，为在第j个长采样周期无人机执行决策动作的长时间分辨率回报值，第i个短采样周期包含在第j个长采样周期中。

优选地，长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和，规则性回报值采用式(8)来表示：

其中，Re_R1为无人机执行决策动作的规则性回报值，为无人机的高度回报值，被定义为为无人机的时间回报值，被定义为为第一武器的活动情况回报值，被定义为在第一武器每发出一次攻击的情况下

战果性回报值采用式(9)来表示：

其中，Re_R2为战果性回报值，为地面目标被摧毁的情况下的战果回报值，被定义为为地面目标未被摧毁的情况下的战果回报值，被定义为

在另一方面，本发明提供一种用于强对抗环境下无人机深度决策的训练网络，该训练网络包括：输入层，用于：获取强对抗环境的第一状态空间数据的初始值，根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值，对状态值进行标准化处理，获得标准化状态值并发送给隐藏层；隐藏层，用于：接收标准化状态值，根据标准化状态值计算无人机在当前环境下的决策动作，存储决策动作，将决策动作发送给输出层；输出层，用于输出决策动作，以控制无人机执行决策动作；回报值获取模块，用于计算无人机执行决策动作的回报值；输入层还用于：获取无人机执行决策动作后的第二状态空间数据，根据第二状态空间数据更新第一状态空间数据；记忆库，用于存储第一状态空间数据、第二状态空间数据和回报值；梯度训练模块，用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。

通过上述技术方案，训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限，使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图；

图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图；

图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图1所示，在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法，强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器，该训练方法可以包括以下步骤：

在步骤S101中，获取当前状态下强对抗环境的第一状态空间数据的初始值，第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数，

其中，无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况，地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间，第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况，第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况；

在步骤S102中，根据第一状态空间数据计算当前状态下无人机、地面目标和第二武器之间的状态值，

其中，状态值包括无人机与地面目标之间的距离和高度差、无人机的航向与地面目标之间的水平夹角、无人机与第二武器之间的距离；

在步骤S103中，对状态值进行标准化处理，获得标准化状态值；

在步骤S104中，根据标准化状态值采用深度确定性策略梯度DDPG方法计算无人机在当前环境下的决策动作，决策动作包括机动动作和打击动作；

在步骤S105中，获取无人机执行决策动作后的第二状态空间数据；

在步骤S106中，计算无人机执行决策动作的回报值；

在步骤S107中，根据第一状态空间数据、第二状态空间数据和回报值更新DDPG方法的权值参数；

在步骤S108中，根据第二状态空间数据更新第一状态空间数据；

在步骤S109中，判断无人机或地面目标是否被摧毁；

在步骤S110中，在判断无人机或地面目标被摧毁的情况下，记录无人机与地面目标的作战情况，作战情况包括无人机是否被摧毁和地面目标是否被摧毁；

在步骤S111中，判断无人机和地面目标的作战次数是否大于或者等于100次，无人机或地面目标被摧毁一次定义为完成一次作战；

在步骤S112中，在判断无人机和地面目标的作战次数大于或者等于100次的情况下，计算无人机的百回合胜率；

在步骤S113中，判断百回合胜率是否大于或者等于预设值；

在判断百回合胜率大于或者等于预设值的情况下，完成强对抗环境下无人机深度决策的训练。

DDPG方法是所属领域技术人员所知的技术，为突出本发明的要点，因此在本发明的说明书中对该已知技术未做详细的描述。

无人机参数例如可以采用以下方式来表示：

无人机位置坐标：以地面目标几何中心为原点，正东方向为X轴方向，正北方向为Y轴方向，指向地心相反方向为Z轴方向构建环境坐标系，在第i步无人机的空间位置坐标可以表示为

无人机机头指向：以无人机为原点，平行于环境坐标系构建机上坐标系，无人机机头指向例如可以由俯仰角θ和偏转角来确定，无人机的飞行速度假设恒定为V_R，则第i步无人机机头指向可以使用球面坐标系表示为：

无人机生存状况：在第i步无人机的生存情况可以表示为：其中为无人机在第i步的生存情况，1表示无人机存活，0表示无人机被消灭。

无人机参数还可以包括无人机载弹情况和无人机的第一武器的攻击半径，可以分别采用以下方式表示：

在第i步无人机载弹情况可以表示为：为第在i步无人机的剩余弹药数量，假设一架飞机最多载弹两发，则m的初始值为2。

第一武器的攻击半径可以表示为：D_R＝d，D_R为第一武器的攻击半径，d为一固定正整数，表示无人机可以进行攻击的距离，单位为公里。

地面目标参数例如可以采用以下方式来表示：

地面目标位置坐标：使用环境坐标系作为参照系，则地面目标在第i步的空间坐标可以表示为：

地面目标生存情况：为地面目标在第i步的生存情况，1表示地面目标存活，0表示地面目标被摧毁。

地面目标弹药重装填时间：为地面目标在第i步重新装填弹药所需的时间，重新装填弹药所需的时间例如可以采用回合数来表示，地面目标和无人机完成一次作战记做一个回合，g表示地面目标的弹药重新装填完成剩余的回合数，即在i步地面目标还需要g个回合才能再次进行攻击。

第一武器参数和第二武器参数：

武器坐标：使用环境坐标系作为参照系，则第一武器和第二武器在第i步的空间坐标可以分别表示为：和

武器活动情况：第一武器和第二武器的活动情况可以分别表示为：和为第一武器在i步是否进行过攻击，为第二武器在i步是否进行过攻击，若第一武器在i步进行过攻击或者地面目标消失，则否则若第二武器在i步进行过攻击或者无人机消失，则否则

武器命中情况：第一武器和第二武器的命中情况可以分别表示为：和S_W1＝1表示第一武器攻击命中，S_W1＝0表示第一武器攻击命中，S_W2＝1表示第二武器攻击命中，S_W2＝0表示第二武器攻击命中。

在真实环境下，无人机的机动空间是三维空间，包括六个自由度，由于无人机的滚转对于对抗决策的影响可以忽略，因此在本发明的一实施方式中可以只考虑无人机的其他五个自由度的机动。假定速度恒定，则无人机的机动动作可以看作是由俯仰角和偏转角的配合来实现的。而这两个角度都需要在可行区间中进行连续取值。则无人机在第i步的机动动作可以表示为：为无人机在第i步的机动动作，为无人机在第i步的俯仰角，为无人机在第i步的偏转角。的取值范围也可以根据实际情况进行调整。

无人机在第i步的打击动作可以表示为：表示无人机进行攻击，表示无人机待机。

无人机、地面目标和第二武器之间的状态值以及标准化状态值可以采用以下方式来表示：

无人机与地面目标之间的距离采用式(1)来表示：

标准化后的无人机与地面目标之间的距离采用式(2)来表示：

其中，为标准化后的无人机与地面目标之间在第i步的距离，为的对数，ln(d+1)为d+1的对数，d为第一武器的作战范围；

无人机的航向与地面目标之间的水平夹角采用式(3)来表示：

无人机与地面目标之间的高度差采用式(5)来表示：

其中，为无人机与地面目标之间在第i步的高度差；

无人机与第二武器之间的距离采用式(6)来表示：

在本发明的一实施方式中，回报值被定义为强对抗环境对无人机执行的决策动作的效用的评估值，回报值包括长时间分辨率回报值和短时间分辨率回报值，长时间分辨率回报值为长采样周期的起始时刻的回报值，短时间分辨率回报值为短采样周期的起始时刻的回报值，长采样周期包含多个短采样周期，第i个短采样周期为第i步，回报值采用式(7)来表示：

长时间分辨率回报值和短时间分辨率回报值为规则性回报值与战果性回报值二者的和，规则性回报值采用式(8)来表示：

其中，Re_R1为无人机执行决策动作的规则性回报值，为无人机的高度回报值，被定义为为无人机的时间回报值，被定义为

为第一武器的活动情况回报值，被定义为在第一武器每发出一次攻击的情况下

战果性回报值采用式(9)来表示：

图2是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练方法的流程图。如图2所示，在本发明的一实施方式中提供了一种用于强对抗环境下无人机深度决策的训练方法，与图1所示的训练方法相比，该训练方法还可以包括：

在步骤S214中，在完成强对抗环境下无人机深度决策的训练的情况下，生成并存储强对抗环境下无人机深度决策的神经网络。

图3是根据本发明的一实施方式的用于强对抗环境下无人机深度决策的训练网络的结构框图。如图3所示。在本发明的一实施方式中还提供了一种用于强对抗环境下无人机深度决策的训练网络，强对抗环境包括无人机、地面目标、无人机的第一武器以及地面目标的第二武器，其特征在于，包括：

输入层，用于：

获取强对抗环境的第一状态空间数据的初始值，

根据第一状态空间数据计算无人机、地面目标、第一武器和第二武器之间的状态值，

对状态值进行标准化处理，获得标准化状态值并发送给隐藏层；

隐藏层，用于：

接收标准化状态值，

根据标准化状态值计算无人机在当前环境下的决策动作，

存储决策动作，

将决策动作发送给输出层；

输出层，用于输出决策动作，以控制无人机执行决策动作；

回报值获取模块，用于计算无人机执行决策动作的回报值；

输入层还用于：

获取无人机执行决策动作后的第二状态空间数据，

根据第二状态空间数据更新第一状态空间数据；

记忆库，用于存储第一状态空间数据、第二状态空间数据和回报值；

梯度训练模块，用于根据第一状态空间数据、第二状态空间数据和回报值对隐藏层进行策略改进。

通过上述实施方式，训练方法或训练网络突破了传统无人机训练方法无法环境自适应生成预案的局限，使得训练后的无人机能够在复杂多变的强对抗环境下灵活地进行自主决策。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明并不限于上述可选实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种用于强对抗环境下无人机深度决策的训练方法，所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器，其特征在于，包括以下步骤：

获取当前状态下所述强对抗环境的第一状态空间数据的初始值，所述第一状态空间数据包括无人机参数、地面目标参数、第一武器参数以及第二武器参数，

其中，所述无人机参数包括无人机位置坐标、无人机机头指向、无人机生存状况，所述地面目标参数包括地面目标位置坐标、地面目标生存情况和地面目标弹药装填时间，所述第一武器参数包括第一武器坐标、第一武器类型、第一武器活动情况以及第一武器攻击命中情况，所述第二武器参数包括第二武器坐标、第二武器类型、第二武器活动情况以及第二武器攻击命中情况；

根据所述第一状态空间数据计算当前状态下所述无人机、所述地面目标和所述第二武器之间的状态值，

其中，所述状态值包括所述无人机与所述地面目标之间的距离和高度差、所述无人机的航向与所述地面目标之间的水平夹角、所述无人机与所述第二武器之间的距离；

对所述状态值进行标准化处理，获得标准化状态值；

根据所述标准化状态值采用深度确定性策略梯度DDPG方法计算所述无人机在当前环境下的决策动作，所述决策动作包括机动动作和打击动作；

获取所述无人机执行所述决策动作后的第二状态空间数据；

计算所述无人机执行所述决策动作的回报值；

根据所述第一状态空间数据、所述第二状态空间数据和所述回报值更新所述DDPG方法的权值参数；

根据所述第二状态空间数据更新所述第一状态空间数据；

判断所述无人机或所述地面目标是否被摧毁；

在判断所述无人机或所述地面目标被摧毁的情况下，记录所述无人机与所述地面目标的作战情况，所述作战情况包括所述无人机是否被摧毁和所述地面目标是否被摧毁；

判断所述无人机和所述地面目标的作战次数是否大于或者等于100次，所述无人机或所述地面目标被摧毁一次定义为完成一次作战；

在判断所述无人机和所述地面目标的作战次数大于或者等于100次的情况下，计算所述无人机的百回合胜率；

判断所述百回合胜率是否大于或者等于预设值；

在判断所述百回合胜率大于或者等于所述预设值的情况下，完成所述强对抗环境下无人机深度决策的训练。

2.根据权利要求1所述的训练方法，其特征在于，还包括：

在完成所述强对抗环境下无人机深度决策的训练的情况下，生成并存储所述强对抗环境下无人机深度决策的神经网络。

3.根据权利要求2所述的训练方法，其特征在于，

所述无人机与所述地面目标之间的距离采用式(1)来表示：

其中，为所述无人机与所述地面目标之间在第i步的距离，第i步被定义为第i次获取所述第二状态空间数据，为所述无人机在第i步的空间坐标，为所述地面目标在第i步的空间坐标；

标准化后的所述无人机与所述地面目标之间的距离采用式(2)来表示：

其中，为标准化后的所述无人机与所述地面目标之间在第i步的距离，

为的对数，ln(d+1)为d+1的对数，d为所述第一武器的作战范围；

所述无人机的航向与所述地面目标之间的水平夹角采用式(3)来表示：

其中，γⁱ为所述无人机的航向与所述地面目标之间在第i步的水平夹角，为所述无人机的航向与水平面内的参考坐标轴之间的夹角，为所述地面目标的运行方向与水平面内的参考坐标轴之间的夹角，atan为反正切函数，π为圆周率；

标准化后的所述无人机的航向与所述地面目标之间的水平夹角采用式(4)来表示：

其中，为标准化后的所述无人机的航向与所述地面目标之间在第i步的水平夹角；

所述无人机与所述地面目标之间的高度差采用式(5)来表示：

其中，为所述无人机与所述地面目标之间在第i步的高度差；

所述无人机与所述第二武器之间的距离采用式(6)来表示：

其中，为所述无人机与所述第二武器之间在第i步的距离；为所述第二武器在第i步的空间坐标。

4.根据权利要求3所述的训练方法，其特征在于，所述回报值被定义为所述强对抗环境对所述无人机执行的所述决策动作的效用的评估值，所述回报值包括长时间分辨率回报值和短时间分辨率回报值，所述长时间分辨率回报值为长采样周期的起始时刻的回报值，所述短时间分辨率回报值为短采样周期的起始时刻的回报值，所述长采样周期包含多个所述短采样周期，第i个短采样周期为第i步，所述回报值采用式(7)来表示：

其中，Reⁱ为在第i步所述无人机执行所述决策动作的回报值，为在第i个短采样周期所述无人机执行所述决策动作的短时间分辨率回报值，为在第j个长采样周期所述无人机执行所述决策动作的长时间分辨率回报值，所述第i个短采样周期包含在所述第j个长采样周期中。

5.根据权利要求1所述的训练方法，其特征在于，所述长时间分辨率回报值和所述短时间分辨率回报值为规则性回报值与战果性回报值二者的和，所述规则性回报值采用式(8)来表示：

其中，Re_R1为所述无人机执行所述决策动作的规则性回报值，为所述无人机的高度回报值，被定义为为所述无人机的时间回报值，被定义为为所述第一武器的活动情况回报值，被定义为在所述第一武器每发出一次攻击的情况下

所述战果性回报值采用式(9)来表示：

其中，Re_R2为所述战果性回报值，为所述地面目标被摧毁的情况下的所述战果回报值，被定义为为所述地面目标未被摧毁的情况下的所述战果回报值，被定义为

6.一种用于强对抗环境下无人机深度决策的训练网络，所述强对抗环境包括无人机、地面目标、所述无人机的第一武器以及所述地面目标的第二武器，其特征在于，包括：

输入层，用于：

获取所述强对抗环境的第一状态空间数据的初始值，

根据所述第一状态空间数据计算所述无人机、所述地面目标、所述第一武器和所述第二武器之间的状态值，

对所述状态值进行标准化处理，获得标准化状态值并发送给隐藏层；

所述隐藏层，用于：

接收所述标准化状态值，

根据所述标准化状态值计算所述无人机在当前环境下的决策动作，存储所述决策动作，

将所述决策动作发送给输出层；

所述输出层，用于输出所述决策动作，以控制所述无人机执行所述决策动作；

回报值获取模块，用于计算所述无人机执行所述决策动作的回报值；

所述输入层还用于：

获取所述无人机执行所述决策动作后的第二状态空间数据，

根据所述第二状态空间数据更新所述第一状态空间数据；

记忆库，用于存储所述第一状态空间数据、所述第二状态空间数据和所述回报值；

梯度训练模块，用于根据第一状态空间数据、所述第二状态空间数据和所述回报值对所述隐藏层进行策略改进。