CN114510078B

CN114510078B - 一种基于深度强化学习的无人机机动规避决策方法

Info

Publication number: CN114510078B
Application number: CN202210144676.2A
Authority: CN
Inventors: 袁银龙; 焦朋朋; 戴傲寒; 许亚龙; 华亮; 程赟; 张雷; 李俊红; 傅怀梁
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-12-09
Anticipated expiration: 2042-02-16
Also published as: CN114510078A

Abstract

本发明提供了一种基于深度强化学习的无人机机动规避决策方法，属于无人机技术领域；其技术方案为：包括以下步骤：S1、依据无人机机载传感器系统获取敌我态势信息；S2、构建无人机机动规避决策深度强化学习模型结构；S3、构建层次目标导向学习模型结构；S4、依据交互训练完成无人机机动规避决策方法学习；S5、无人机机动规避决策方法部署应用。本发明的有益效果为：本发明能够赋予无人机由浅向深的学习能力，能够令无人机自主完成机动规避决策，提高无人机在战场上的生存能力。

Description

一种基于深度强化学习的无人机机动规避决策方法

技术领域

本发明涉及无人机技术领域，尤其涉及一种基于深度强化学习的无人机机动规避决策方法。

背景技术

目前，在空域一体化智能作战背景下，无人机技术已广泛应用于军事作战中。它在许多领域取得了巨大的成功，如合作侦察、地面攻击、摧毁敌人的防空系统等。在应用过程中，有效规避威胁，提高无人机在动态对抗环境中的生存能力是作战任务成功的关键。随着现代战场环境的复杂多变，操作者通过人工操作完成复杂的飞行任务越来越困难。无人机的生存能力和作战能力在军事作战中起着至关重要的作用，如何赋予无人机自主突防能力是一个迫切需要解决的问题。

近年来，许多研究集中在利用传统知识推理和仿生编程来解决无人机自主突防问题上。比如：采用改进的A-Star算法、稀疏A-Star搜索算法(SAS)和动态A-Star算法(D-STAR)解决不同威胁场景下无人机侵入路径规划；结合了灰狼优化算法和果蝇优化算法，完成了无人机路径优化等。这类方法更适合解决静态环境下的路径规划问题，难以应用于动态对抗和实时决策要求较高的环境。这严重限制了传统分析方法的应用范围。

尽管深度强化学习方法在无人机的自主突防方面取得了一定的成功，但在实际应用中，这些算法往往受益于精心塑造的奖励函数，帮助指导agent实现任务的总体目标。但是设计奖励功能对于更复杂的任务来说是一项挑战，它需要特定领域的知识。此外，奖励塑造可能会使政策倾向于不理想的行为，并限制代理获得安全动作。

发明内容

本发明的目的在于提供一种基于深度强化学习的无人机机动规避决策方法，首先依据无人机机载传感器系统获取敌我态势信息，其次构建无人机机动规避决策深度强化学习模型结构，再构建层次目标导向学习模型结构，再依据交互训练完成无人机机动规避决策方法学习，最后完成无人机机动规避决策方法部署应用。本发明能够赋予无人机由浅向深的学习能力，能够令无人机自主完成机动规避决策，提高无人机在战场上的生存能力。

本发明是通过如下措施实现的：一种基于深度强化学习的无人机机动规避决策方法，其中，包括以下步骤：

步骤一、依据无人机机载传感器系统获取敌我态势信息；

步骤二、构建无人机机动规避决策深度强化学习模型结构；

步骤三、构建层次目标导向学习模型结构；

步骤四、依据交互训练完成无人机机动规避决策方法学习；

步骤五、无人机机动规避决策方法部署应用。

进一步地，所述步骤一中，通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息s_u、敌方无人机态势信息

敌方发射的防空导弹信息

其中

p_x,p_y,p_z分别为我方无人机的经度、纬度和高度态势信息，v,

φ分别为我方无人机的速度、航向角和俯仰角态势信息，

分别为敌方无人机的经度、纬度和高度态势信息，

分别为敌方无人机的速度、航向角和俯仰角态势信息，

为检测到敌方导弹的经度、纬度和高度态势信息，

为敌方导弹的速度、航向角和俯仰角态势信息。

进一步地，所述步骤二包含如下步骤：

2-1)、构建用于深度强化学习的状态S、动作A和奖赏函数R，具体包括：

a)选择

作为我方无人机状态输入信息，其对应的状态空间为{s}；

b)无人机依据当前状态生成的动作指令为a＝(dx,dy,dz)，其中dx,dy,dz分别为无人机基于当前位置信息的改变量，无人机下一时刻的期望位置信息为：

其中x_t，y_t，z_t分别为t时刻无人机的坐标信息，x_t+1，y_t+1，z_t+1为t+1时刻无人机的坐标信息；

c)定义无人机机动规避决策任务中的奖赏为稀疏形式，即奖赏函数定义为：

其中g当前目标任务。

2-2)、构建基于深度确定性强化学习的模型结构，包括Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个部分，网络μ、Q、μ'和Q'应的网络权重参数分别为θ^μ、θ^Q、θ^μ'和θ^Q'；

2-3)、设置基于深度确定性强化学习的模型参数，具体包括：

a)Actor网络的输入为

输出为a＝μ(s|θ^μ)，网络包括两个隐含层，第一层隐含层神经元个数为128，第二层神经元个数为64；

b)Critic网络的输入为(s,a)，输出为Q(s,a|θ^Q)，网络包括两个隐含层，第一层隐含层神经元个数为128，第二层神经元个数为64；

c)Actor target网络μ'的结构与对应的Actor网络结构相同，Critic target网络Q'的结构与对应的Critic网络结构相同。

进一步地，所述步骤三中包含如下步骤：

3-1)、依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集G_i，即满足G₁ UG₂UL UG_m＝G，且对任意两个不同的子任务集G_i和G_j满足约束关系

3-2)、对于每一个子任务集G_i建立一个经验池D_i存储完成任务g_i∈G_i过程中智能体与环境的交互数据。

进一步地，所述步骤四中包含如下步骤：

4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络，其中μ和Q的网络权重参数通过随机数进行赋值，μ'和Q'的网络权重参数分别从μ和Q拷贝得到；

4-2)、初始化任务环境，获得我方无人机的态势信息s_u和敌方无人机态势信息

4-3)、依据敌方无人机态势信息

通过无人机指令系统，控制我方无人机朝着敌方飞机坐标位置

进行飞行；

4-4)、敌方发射导弹后，利用我方无人机机载传感器系统，获取敌方导弹态势信息

4-5)、依据态势信息s_u和

通过Actor网络μ得到无人机理想动作变量a＝μ(s|θ^μ)，并在此基础上利用公式a＝μ(s|θ^μ)+εN(0,1)得到实际无人机执行的动作变量，其中N(0,1)为标准正态分布，ε为小于1的探测控制量；

4-6)、依据上述公式(1)得到我方无人机的期望位置信息，并通过无人机指令系统控制我方无人机运动；

4-7)、获得无人机执行动作a对应指令系统后的我方无人机新的态势信息s'_u、敌方无人机态势信息

和敌方导弹态势信息

并获得对应的奖赏值r(s|g)；

4-8)、依据任务目标g所处的任务集G_i，把态势信息s_u、

s'_u、

a、r(s|g)存储到经验池D_i中；

4-9)、当经验池存储的数据量大于设定的阈值M后，随机抽取小批量的N个数据计算Actor网络损失函数J(θ^μ)和J(θ^Q)：

其中γ为折扣因子。利用所述公式(3)，利用梯度下降法可以对网络参数θ^μ和θ^Q进行更新。在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新，即：

4-10)、判定整局训练是否结束，如果整局训练结束，则跳转步骤4-11)，如果整局训练未结束且导弹躲避成功，则跳转到步骤4-3)，如果整局训练未结束且导弹躲避还未完成，则执行s_u＝s'_u和

并跳转到步骤4-5)。

4-11)、判定Actor网络μ、Critic网络Q是否收敛，如果收敛，则结束训练，如果未收敛，则跳转到步骤4-2)，开始新一轮训练。

进一步地，所述步骤五中包含如下步骤：

5-1)、初始化战场环境，获取敌我双发无人机态势信息s_u和

5-2)、依据敌方无人机态势信息

进行飞行；

5-3)、敌方发射导弹后，利用我方无人机机载传感器系统，获取敌方导弹态势信息

5-4)、依据态势信息s_u和

通过Actor网络μ得到无人机动作变量a＝μ(s|θ^μ)，并通过无人机指令系统控制我方无人机运动；

5-5)、判定整局任务是否结束，如果整局任务结束，则跳转到步骤5-6)，如果整局任务未结束且导弹躲避成功，则跳转到步骤5-2)，如果整局任务未结束且导弹躲避还未完成，则执行s_u＝s'_u和

并跳转到步骤5-4)。

5-6)、结束实验。

与现有技术相比，本发明的有益效果为：

1、本发明融合层次目标学习方法和深度强化学习方法，基于目标引导方法，能够赋予无人机由浅向深的学习能力，能够令无人机学会自主完成机动规避决策，提高无人机在战场上的生存能力，实现无人机决策与执行的自主化、智能化；

2、本发明引入层次目标学习方法，不仅能够有效提升深度强化学习经验池中数据利用效率，而且利用多经验池模型，可以有效解决传统深度强化学习面临的稀疏奖赏问题，提高本法明方法的稳定性和扩展性；

3、本发明所提出的无人机机动规避决策方法不仅适合解决静态环境下的无人机机动决策问题，而且也能够应用于动态对抗和实时决策要求较高的作战环境，易于训练和部署，具有更广泛的应用场景；

4、本发明包含态势信息获取、模型构造与训练、模型部署与应用三个方面的内容，系统框架完整可靠，有益于直接部署到相应的无人机机动规避决策系统进行快速应用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的基于深度强化学习的无人机机动规避决策方法的整体流程图。

图2为本发明提供的基于深度强化学习的无人机机动规避决策方法的态势信息图。

图3为本发明提供的基于深度强化学习的无人机机动规避决策方法的规避决策深度强化学习模型结构图。

图4为本发明提供的基于深度强化学习的无人机机动规避决策方法的层次目标模型图。

图5为本发明提供的基于深度强化学习的无人机机动规避决策方法的交互训练流程图。

图6为本发明提供的基于深度强化学习的无人机机动规避决策方法的机动规避决策方法部署流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于深度强化学习的无人机机动规避决策方法，如图1所示，包括以下五个步骤：

步骤1、依据无人机机载传感器系统获取敌我态势信息；

步骤2、构建无人机机动规避决策深度强化学习模型结构；

步骤3、构建层次目标导向学习模型结构；

步骤4、依据交互训练完成无人机机动规避决策方法学习；

步骤5、无人机机动规避决策方法部署应用。

参见图1至图6，本发明提供其技术方案实施步骤如下：

步骤1：如图2所示，通过相控雷达和火控雷达等机载传感器系统周期性的采样获得我方无人机的姿态信息s_u、敌方无人机态势信息

敌方发射的防空导弹信息

其中

p_x,p_y,p_z分别为我方无人机的经度、纬度和高度态势信息，v,

φ分别为我方无人机的速度、航向角和俯仰角态势信息，

分别为敌方无人机的经度、纬度和高度态势信息，

分别为敌方无人机的速度、航向角和俯仰角态势信息，

为检测到敌方导弹的经度、纬度和高度态势信息，

为敌方导弹的速度、航向角和俯仰角态势信息。

步骤2：构建无人机机动规避决策深度强化学习模型结构。如图3所示，构建用于深度强化学习的状态S、动作A和奖赏函数R，具体包括：

a)选择

作为我方无人机状态输入信息，其对应的状态空间为{s}；

其中g当前目标任务。

2-3)、设置基于深度确定性强化学习的模型参数，具体包括：

a)Actor网络的输入为

步骤3：构建层次目标导向学习模型结构。如图4所示，依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集G_i，即满足G₁UG₂UL UG_m＝G，且对任意两个不同的子任务集G_i和G_j满足约束关系

对于每一个子任务集G_i建立一个经验池D_i存储完成任务g_i∈G_i过程中智能体与环境的交互数据。

步骤4：如图5所示，交互训练完成无人机机动规避决策方法学习过程为：

4-1)、初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络，其中μ和Q的网络权重通过随机数进行赋值，μ'和Q'的网络权重分别从μ和Q拷贝得到；

4-3)、依据敌方无人机态势信息

进行飞行；

4-5)、依据态势信息s_u和

和敌方导弹态势信息

并获得对应的奖赏值r(s|g)；

4-8)、依据任务目标g所处的任务集G_i，把态势信息s_u、

s'_u、

a、r(s|g)存储到经验池D_i中；

并跳转到步骤4-5)。

步骤5：如图6所示，无人机机动规避决策方法部署应用如下：

5-1)、初始化战场环境，获取敌我双发无人机态势信息s_u和

5-2)、依据敌方无人机态势信息

进行飞行；

5-4)、依据态势信息s_u和

并跳转到步骤5-4)；

5-6)、结束实验。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的无人机机动规避决策方法，其特征在于，包括以下步骤：

S1、依据无人机机载传感器系统获取敌我态势信息；

S2、构建无人机机动规避决策深度强化学习模型结构；

S3、构建层次目标导向学习模型结构；

S4、依据交互训练完成无人机机动规避决策方法学习；

S5、无人机机动规避决策方法部署应用；

所述步骤S1中，通过相控雷达和火控雷达的机载传感器系统周期性的采样获得我方无人机的姿态信息s_u、敌方无人机态势信息

敌方发射的防空导弹信息

其中

p_x,p_y,p_z分别为我方无人机的经度、纬度和高度态势信息，

分别为我方无人机的速度、航向角和俯仰角态势信息，

分别为敌方无人机的经度、纬度和高度态势信息，

分别为敌方无人机的速度、航向角和俯仰角态势信息，

为检测到敌方导弹的经度、纬度和高度态势信息，

为敌方导弹的速度、航向角和俯仰角态势信息；

所述步骤S2具体包括如下步骤：

S21：构建用于深度强化学习的状态S、动作A和奖赏函数R，具体包括：

1)选择

作为我方无人机状态输入信息，其对应的状态空间为{s}；

2)无人机依据当前状态生成的动作指令为a＝(dx,dy,dz)，其中dx,dy,dz分别为无人机基于当前位置信息的改变量，无人机下一时刻的期望位置信息为：

3)定义无人机机动规避决策任务中的奖赏为稀疏形式，即奖赏函数定义为：

其中g为当前目标任务；

S22：构建基于深度确定性强化学习的模型结构，包括Actor网络μ、Critic网络Q、Actortarget网络μ'和Critic target网络Q'四个部分，网络μ、Q、μ'和Q'对应的网络权重参数分别为θ^μ、θ^Q、θ^μ'和θ^Q'；

S23：设置基于深度确定性强化学习的模型参数，具体包括以下内容：

1)Actor网络的输入为

2)Critic网络的输入为(s,a)，输出为Q(s,a|θ^Q)，网络包括两个隐含层，第一层隐含层神经元个数为128，第二层神经元个数为64；

3)Actor target网络μ'的结构与对应的Actor网络结构相同，Critic target网络Q'的结构与对应的Critic网络结构相同；

所述步骤S3具体包括如下步骤：

S31：依据敌方无人机与我方无人机的相对距离把整个机动规避决策任务集G分成m个子任务集G_i，即满足G₁∪G₂∪…∪G_m＝G，且对任意两个不同的子任务集G_i和G_j满足约束关系

S32：对于每一个子任务集G_i建立一个经验池D_i存储完成任务g_i∈G_i过程中智能体与环境的交互数据；

所述步骤S4具体包括如下步骤：

S41：初始化Actor网络μ、Critic网络Q、Actor target网络μ'和Critic target网络Q'四个网络，其中μ和Q的网络权重参数通过随机数进行赋值，μ'和Q'的网络权重参数分别从μ和Q拷贝得到；

S42：初始化任务环境，获得我方无人机的态势信息s_u和敌方无人机态势信息

S43：依据敌方无人机态势信息

进行飞行；

S44：敌方发射导弹后，利用我方无人机机载传感器系统，获取敌方导弹态势信息

S45：依据态势信息s_u和

S46：依据所述公式(1)得到我方无人机的期望位置信息，并通过无人机指令系统控制我方无人机运动；

S47：获得无人机执行动作a对应指令系统后的我方无人机新的态势信息s'_u、敌方无人机态势信息

和敌方导弹态势信息

并获得对应的奖赏值r(s|g)；

S48：依据任务目标g所处的任务集G_i，把态势信息s_u、

s'_u、

a、r(s|g)存储到经验池D_i中；

S49：当经验池存储的数据量大于设定的阈值M后，随机抽取小批量的N个数据计算Actor网络损失函数J(θ^μ)和J(θ^Q)：

其中γ为折扣因子，利用所述公式(3)，利用梯度下降法对网络权重参数θ^μ和θ^Q进行更新，在此基础上通过软更新方式对Actor target网络μ'和Critic target网络Q'进行权重更新，即：

S410：判定整局训练是否结束，如果整局训练结束，则跳转步骤S411，如果整局训练未结束且导弹躲避成功，则跳转到步骤S43，如果整局训练未结束且导弹躲避还未完成，则执行s_u＝s'_u和

并跳转到步骤S45；

S411：判定Actor网络μ、Critic网络Q是否收敛，如果收敛，则结束训练，如果未收敛，则跳转到步骤S42，开始新一轮训练；

所述步骤S5具体包括如下步骤：

S51：初始化战场环境，获取敌我双方无人机态势信息s_u和

S52：依据敌方无人机态势信息

进行飞行；

S53：敌方发射导弹后，利用我方无人机机载传感器系统，获取敌方导弹态势信息

S54：依据态势信息s_u和

S55：判定整局任务是否结束，如果整局任务结束，则跳转到步骤S56，如果整局任务未结束且导弹躲避成功，则跳转到步骤S52，如果整局任务未结束且导弹躲避还未完成，则执行s_u＝s'_u和

并跳转到步骤S54；

S56：结束实验。