CN110488872B

CN110488872B - 一种基于深度强化学习的无人机实时路径规划方法

Info

Publication number: CN110488872B
Application number: CN201910831779.4A
Authority: CN
Inventors: 相晓嘉; 闫超; 王菖; 牛轶峰; 尹栋; 吴立珍; 陈紫叶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2023-03-07
Anticipated expiration: 2039-09-04
Also published as: CN110488872A

Abstract

本发明公开了一种基于深度强化学习的无人机实时路径规划方法，其包括：步骤S1、从仿真环境中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁程度，构建无人机任务区域的态势地图；构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择；步骤S2、依据通信链路中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁值，构建无人机任务区域的态势地图，构建竞争双重Q网络，并载入训练好的网络模型，评估当前状态下各个动作的Q值，选择最大Q值对应的动作，确定无人机的飞行方向，完成飞行任务。本发明可有效提高无人机的自主决策能力，具有较高的鲁棒性能和应用价值。

Description

一种基于深度强化学习的无人机实时路径规划方法

技术领域

本发明主要涉及到无人机技术领域，特指一种基于深度强化学习的无人机实时路径规划方法。

背景技术

随着无人机系统技术的不断发展，无人机(Unmanned Aerial Vehicle，UAV)在工业巡检、灾难搜救、地理测绘、边境巡逻、军事侦查等各类军事行动和民用任务得到了广泛的应用。综合考虑各种影响因素，如无人机航程、目标位置、外部威胁等，为无人机规划出最优路径，对保障飞行任务圆满完成具有重要作用。因此，无人机路径规划是无人机执行各种军事或民用任务所必需的基础和关键技术。尽管近年来无人机在操作自主性方面取得了长足的进步，但在动态环境下实时完成无人机路径规划仍面临较大挑战。

国内外学者针对无人机路径规划问题进行了广泛的研究，传统的路径规划方法包括：Voronoi图法、人工势场法、A*算法等；基于人工智能的路径规划算法有：神经网络、进化计算、群智能优化算法等。上述方法在特定条件下都具有各自的优势，但都需要预先建立环境或平台模型，当环境信息无法预先获取或问题模型过于复杂时，上述算法往往不能适用。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种可有效提高无人机的自主决策能力，具有较高的鲁棒性能和应用价值的基于深度强化学习的无人机实时路径规划方法。

为解决上述技术问题，本发明采用以下技术方案：

一种基于深度强化学习的无人机实时路径规划方法，其包括：

步骤S1、离线训练阶段：从仿真环境中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁程度，构建无人机任务区域的态势地图；构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择；

步骤S2、在线执行阶段：依据通信链路中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁值，构建无人机任务区域的态势地图，构建竞争双重Q网络，并载入训练好的网络模型，评估当前状态下各个动作的Q值，选择最大Q值对应的动作，确定无人机的飞行方向，完成飞行任务。

作为本发明的进一步改进：所述步骤S1包括

步骤S11、态势评估；

步骤S12、基于竞争双重Q网络的Q函数评估；所述竞争双重Q网络为D3QN网络；

步骤S13、动作选择。

作为本发明的进一步改进：所述步骤S11包括：

步骤S111、从仿真环境中获取无人机的当前环境状态；所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置；

步骤S112、根据态势评估模型计算目标对象防御单元对无人机的威胁值；所述威胁值等价于无人机被目标对象防御单元摧毁的概率，该值大小与目标对象防御单元数量、无人机与目标对象防御单元的距离、目标对象防御单元雷达最大探测距离、防御单元攻击区的远界以及不可逃逸区最大距离有关；

步骤S113、将所述威胁值映射到RGB颜色空间，构建无人机任务区域的态势地图。

作为本发明的进一步改进：所述步骤S12包括：

步骤S121、构建卷积神经网络和竞争神经网络的主网络和目标网络，并随机初始化网络参数。

步骤S122、在与环境的不断交互中更新网络参数。

作为本发明的进一步改进：所述步骤S122中D3QN网络参数的更新过程为：

步骤S1221、持续采集无人机与环境进行交互的历史经验，并存储到经验池中；所述历史经验为四元组(s,a,r,s′)，其中s为当前状态，即当前时刻最新四帧态势图，a为执行的动作，即无人机的飞行方向，r为执行动作a获取的回报，s′为执行动作a后达到的状态；所述交互过程为：无人机获取环境状态信息，根据态势评估模型进行环境态势评估，并构建态势地图；D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值，动作选择策略根据Q值选择最佳动作；无人机执行该动作，得到下一时刻的环境状态和回报函数值；

步骤S1222、从经验池中进行随机采样，批次更新D3QN的网络参数；每一时间步，应用Adam算法批次更新主网络参数；每隔一定的时间步，对目标网络参数进行软更新，即朝向主网络参数更新目标网络参数；

步骤S1223、当训练情节数达到预设条件时，结束所述更新过程，并保存D3QN的模型参数。

作为本发明的进一步改进：所述更新过程是以情节为单位进行的；在更新过程中，每个情节都是从初始状态出发，当无人机满足下列任一条件之一时，该情节结束，重新开始下一情节的学习：1)到达目标空域；2)进入不可逃逸区域；3)达到最大航程；4)飞出任务区域边界。

作为本发明的进一步改进：在离线训练阶段，步骤S13中动作选择策略使用结合启发式搜索规则的ε-greedy策略；即无人机以ε的概率选择最大Q值对应的动作，以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作；所述动作集合为无人机可能飞行的8个方向。

作为本发明的进一步改进：所述步骤S2包括：

步骤S21、态势评估；

借由通信链路中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁值，进而将所述威胁值映射到RGB颜色空间，构建无人机任务区域的态势地图；

步骤S22、基于D3QN的Q函数评估；

构建竞争双重Q网络，并载入训练好的网络模型；以连续四帧最新态势图为输入评估当前状态下各个动作的Q值；

步骤S23、动作选择；

动作选择策略选择最大Q值对应的动作，确定无人机的飞行方向；

步骤S24、无人机执行动作，产生下一时刻的环境状态；

步骤S25、重复上述过程，直至无人机安全抵达目标空域，完成飞行任务。

作为本发明的进一步改进：所述D3QN网络由两个子网络组成：卷积网络和竞争网络；所述卷积网络的输入为连续四帧最新态势图，输入层的输入维度为84×84×12；所述卷积网络包含四层卷积层，第一卷积层包含32个卷积核，卷积核尺寸为8×8，步长为4；第二卷积层包含64个卷积核，卷积核尺寸为4×4，步长为2；第三卷积层包含64个卷积核，卷积核尺寸为3×3，步长为1；第四卷积层包含512个卷积核，卷积核尺寸为7×7，步长为1；卷积层均使用ReLU激活函数，填充操作均选择VALID模式；所述竞争网络包含两个分支：状态值函数分支和优势函数分支；状态值函数分支和优势函数分支均包含两层全连接层；两分支第一全连接层的隐含节点数均为256，且均使用ReLU激活函数。

与现有技术相比，本发明的优点在于：

1、本发明的基于深度强化学习的无人机实时路径规划方法，在无人机飞行过程中，无人机通过通信链路获取环境状态信息，进而根据态势评估模型进行环境态势评估，并构建态势地图。竞争双重Q网络(Dueling Double Deep Q-Network，D3QN)以态势地图为输入，评估当前状态表示下各个动作的Q值。动作选择策略选择最大Q值所对应的动作，即可得到无人机下一步飞行的方向。重复所述过程，直到无人机抵达目标位置。

2、本发明的基于深度强化学习的无人机实时路径规划方法，应用强化学习(ReinforcementLearning，RL)方法，RL可以不依赖于环境模型，不需要环境的先验知识，适用于未知环境中的路径规划。本发明应用深度强化学习算法解决动态环境下的无人机实时路径规划问题，提高无人机的自主飞行能力。本发明能够将离线训练得到的策略直接应用于真实场景中，完成动态环境下的无人机在线实时路径规划。

3、本发明的基于深度强化学习的无人机实时路径规划方法，可以在动态环境下进行实时路径规划，使得无人机能够规避目标对象威胁并安全达到目标空域。深度强化学习方法解决路径规划问题，仿真场景中训练得到的策略可以直接应用于真实环境中，具有较强的实时性和适应性。

附图说明

图1是基于深度强化学习的无人机路径规划系统框图。

图2是本发明实施例中构建的典型态势图。

图3是本发明实施例中D3QN网络结构示意图。

图4是本发明实施例中静态场景下无人机的轨迹图。

图5是本发明实施例中动态场景下无人机的轨迹图。

图6是本发明方法的流程示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1和图6所示，本发明的一种基于深度强化学习的无人机实时路径规划方法，包括：

在具体应用实例中，步骤S1包括：

步骤S11、态势评估；

步骤S111、从仿真环境中获取无人机的当前环境状态。所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置等。

步骤S112、根据态势评估模型计算目标对象防御单元对无人机的威胁程度(威胁值)。所述威胁值等价于无人机被目标对象防御单元摧毁的概率，该值大小与目标对象防御单元数量、无人机与目标对象防御单元的距离、目标对象防御单元雷达最大探测距离、防御单元攻击区的远界以及不可逃逸区最大距离有关。

步骤S12、基于竞争双重Q网络(D3QN)的Q函数评估；

步骤S122、在与环境的不断交互中更新网络参数。

步骤S13、动作选择；

在离线训练阶段，所述动作选择策略使用结合启发式搜索规则的ε-greedy策略。具体而言，无人机以ε的概率选择最大Q值对应的动作，以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作。所述动作集合为无人机可能飞行的8个方向，即{前进，左转45°，左转90°，左转135°，后退，右转135°，右转90°，右转45°}。所述动作选择策略减少了训练阶段探索过程的盲目性，提高了训练效率。

在具体应用实例中，进一步的，所述步骤S122中D3QN网络参数的更新过程为：

步骤S1221、持续采集无人机与环境进行交互的历史经验，并存储到经验池中。所述历史经验为四元组(s,a,r,s′)，其中_s为当前状态，即当前时刻最新四帧态势图，a为执行的动作，即无人机的飞行方向，r为执行动作a获取的回报，s′为执行动作a后达到的状态；所述交互过程为：无人机获取环境状态信息，根据态势评估模型进行环境态势评估，并构建态势地图；D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值，动作选择策略根据Q值选择最佳动作；无人机执行该动作，得到下一时刻的环境状态和回报函数值。

步骤S1222、从经验池中进行随机采样，批次更新D3QN的网络参数。每一时间步，应用Adam算法批次更新主网络参数；每隔一定的时间步，对目标网络参数进行软更新，即朝向主网络参数更新目标网络参数。

所述更新过程是以情节为单位进行的。在更新过程中，每个情节都是从初始状态出发，当无人机满足下列任一条件之一时，该情节结束，重新开始下一情节的学习：1)到达目标空域；2)进入不可逃逸区域；3)达到最大航程；4)飞出任务区域边界。

在具体应用实例中，步骤S2中所述在线执行阶段的具体实现步骤如下：

步骤S21、态势评估；

借由通信链路中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁值，进而将所述威胁值映射到RGB颜色空间，构建无人机任务区域的态势地图。

步骤S22、基于D3QN的Q函数评估；

构建竞争双重Q网络，并载入训练好的网络模型。以连续四帧最新态势图为输入评估当前状态下各个动作的Q值。

步骤S23、动作选择；

动作选择策略选择最大Q值对应的动作，确定无人机的飞行方向。

步骤S24、无人机执行动作，产生下一时刻的环境状态。

以一个具体应用实例对本发明的方法进行说明，在本实施例中，无人机在考虑某具有潜在威胁的动态场景下遂行侦查任务。对方雷达能够在一定范围以探测到无人机，其能够影响无人机的生存概率。本实施例中，在23°N～30°N、111°E～118°E空域内存在三个目标对象防御单元。我方无人机需从初始位置(24.0°N，112.0°E)出发，抵近目标点(28.1°N，116.5°E)执行侦查任务。其目标是在保证自身安全的前提下(远离威胁源)，以最优路径抵近目标空域完成侦查任务。

如图1所示，本发明基于深度强化学习框架，提出一种实时决策方法解决动态环境下的无人机实时路径规划问题。所述解决方案分为离线训练阶段和在线执行阶段两个阶段：

所述离线训练阶段主要包含以下步骤：

步骤I-1：态势评估；

步骤I-1-1：从仿真环境中获取无人机的当前环境状态。所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置等。

步骤I-1-2：计算目标对象防御单元对无人机的威胁程度(威胁值)。该值大小与无人机与目标对象防御单元的距离、目标对象雷达最大探测距离、防御单元防御区的远界以及不可逃逸区最大距离有关。某一防御单元对无人机的威胁值的计算公式为：

其中，D为无人机与目标对象防御单元之间的距离；R_Rmax为雷达最大探测距离；R_Mmax为目标对象防御单元攻击区的远界；R_{Mk max}为不可逃逸区的最大距离。不失一般性，本实施例中，取R_Rmax＝120km，R_Mmax＝90km，R_{Mk max}＝60km。

此外，所述威胁值等价于目标对象防御单元的摧毁无人机的概率，该概率的大小与目标对象防御单元的数量密切相关。本实施例中，假设不同目标对象防御单元的命中概率是独立的。因此，各防御单元对无人机的总体威胁为：

其中，k为任务区域内目标对象防御单元的数量；

表示防御单元i摧毁无人机的概率。

步骤I-1-2：将所述威胁值映射到RGB颜色空间，构建无人机任务区域的态势地图：

其中，C_max和C_min分别为某一颜色通道最大和最小值；T_ma和T_min分别为态势数据评估后的最大和最小威胁值。在本实施例中，将威胁值映射为R通道的颜色值，取R颜色通道最大值C_max＝255，最小值C_min＝0，所得态势图如图2所示。在本实施例中，目标空域为一半径40km的圆形区域，当无人机飞入目标空域，即认为无人机能够探测到目标、完成侦查任务。

步骤I-2：基于竞争双重Q网络(D3QN)的Q函数评估；

步骤I-2-1：构建竞争双重Q网络。如图3所示，在本实施例中，所述D3QN由两个子网络组成：卷积网络和竞争网络。所述卷积网络的输入为连续四帧最新态势图，输入层的输入维度为84×84×12。进一步的，所述卷积网络包含四层卷积层，第一卷积层包含32个卷积核，卷积核尺寸为8×8，步长为4；第二卷积层包含64个卷积核，卷积核尺寸为4×4，步长为2；第三卷积层包含64个卷积核，卷积核尺寸为3×3，步长为1；第四卷积层包含512个卷积核，卷积核尺寸为7×7，步长为1；卷积层均使用ReLU激活函数，填充操作均选择VALID模式。所述竞争网络包含两个分支：状态值函数分支和优势函数分支。状态值函数分支和优势函数分支均包含两层全连接层。两分支第一全连接层的隐含节点数均为256，且均使用ReLU激活函数。状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和8，分别表示当前状态的值函数和当前状态下8个待选动作的优势函数。所述竞争网络输出层的输出为当前状态下各个待选动作的Q值，其计算公式为：

其中，V(s)为状态值函数分支输出的当前状态的值函数；A(s,a)为优势函数分支输出的当前状态下各个待选动作的Q值；

表示待选动作集合的大小，在本实施例中，

步骤I-2-2：随机初始化D3QN主网络的参数θ，初始化目标网络参数θ^-←θ。

步骤I-2-3：在与环境的不断交互中更新网络参数。

步骤I-3：动作选择；

在离线训练阶段，所述动作选择策略使用结合启发式搜索规则的ε-greedy策略。具体而言，无人机以ε的概率选择最大Q值对应的动作，以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作。例如，当目标位置位于无人机的左前方时，无人机以1-ε的概率从{右转45°，前进，左转45°，左转90°，左转135°}五个动作中随机选择动作，而不是从整个动作集。所述动作集合为无人机可能飞行的8个方向，即{前进，左转45°，左转90°，左转135°，后退，右转135°，右转90°，右转45°}。所述动作选择策略减少了训练阶段探索过程的盲目性，提高了训练效率。在本实施例中，探索率ε在2000情节数内从1线性降低到0.1，并在此之后固定为0.1。

进一步的，所述步骤I-2-3中D3QN网络参数的更新过程为：

步骤1：建立容量为N的数据缓存区D用于保存历史经验，初始化为空。在本实施例中，N＝50000。

步骤2：持续采集无人机与环境进行交互的历史经验，并存储到经验池中。

所述交互过程为：无人机获取环境状态信息，根据式(2)进行威胁评估，并根据式(3)构建态势地图，并连续四帧最新态势图作为当前的状态表示s；D3QN以连续四帧态势图为输入，评估当前状态下各个动作的Q值，动作选择策略根据Q值选择最佳动作a；无人机执行该动作，得到下一时刻的环境状态，进而由式(2)和式(3)得出下一时刻的状态表示s'，回报函数值r可由式(5)得出：

将历史经验数据(s,a,r,s′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量，则使用最新的经验数据取代最老的经验数据。

步骤3：从经验池中随机进行批次采样，批次更新D3QN的网络参数。

每一时间步，应用Adam算法根据损失函数批次更新主网络参数。所述损失函数L定义为

其中

式中：N_b表示Batch size，0≤γ≤1代表折扣因子。在本实施例中，主网络的学习率设为0.0001，N_b＝32，γ＝0.972。

每隔一定的时间步N^-，对目标网络参数进行软更新，即朝向主网络参数θ缓慢更新目标网络参数θ^-：

θ^-←τθ+(1-τ)θ^- (8)

其中，τ为软更新率。在本实施例中，N^-＝8，τ＝0.001。

步骤4：当训练情节数达到预设条件时，结束所述更新过程，并保存D3QN的模型参数。

所述更新过程是以情节为单位进行的。在更新过程中，每个情节都是从初始状态出发，当无人机满足下列任一条件之一时，该情节结束，重新开始下一情节的学习：1)到达目标空域；2)进入不可逃逸区域；3)达到最大航程；4)飞出任务区域边界。在本实施例中，无人机在单情节最大步数500步内未完成侦查任务，认为无人机到达最大航程。在本实施例中，共进行

所述执行阶段的主要实现步骤如下：

步骤II-1：态势评估

步骤II-2：基于D3QN的Q函数评估

步骤II-3：动作选择

步骤II-4：无人机执行动作，产生下一时刻的环境状态。

步骤II-5：重复上述过程，直至无人机安全抵达目标空域，完成飞行任务。在本实施例中，静态场景下无人机的飞行轨迹如图3所示，动态场景下无人机的飞行轨迹如图4所示。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的无人机实时路径规划方法，其特征在于，包括：

步骤S2、在线执行阶段：依据通信链路中获取无人机的当前环境状态，根据态势评估模型计算目标对象防御单元对无人机的威胁值，构建无人机任务区域的态势地图，构建竞争双重Q网络，并载入训练好的网络模型，评估当前状态下各个动作的Q值，选择最大Q值对应的动作，确定无人机的飞行方向，完成飞行任务；

所述步骤S1包括：

步骤S11、态势评估；

步骤S12、基于竞争双重Q网络的Q函数评估；所述竞争双重Q网络为D3QN网络，通过持续采集无人机与环境进行交互的历史经验，并存储到经验池中；所述历史经验为四元组(s,a,r,s′)，其中s为当前状态，即当前时刻最新四帧态势图，a为执行的动作，即无人机的飞行方向，r为执行动作a获取的回报，s′为执行动作a后达到的状态；所述交互的过程为：无人机获取环境状态信息，根据态势评估模型进行环境态势评估，并构建态势地图；D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值，动作选择策略根据Q值选择最佳动作；

步骤S13、动作选择；

所述步骤S11包括：

步骤S111、从仿真环境中获取无人机的当前环境状态；状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置；

2.根据权利要求1所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，所述步骤S12包括：

步骤S121、构建卷积神经网络和竞争神经网络的主网络和目标网络，并随机初始化网络参数；

步骤S122、在与环境的不断交互中更新网络参数。

3.根据权利要求2所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，所述步骤S122中D3QN网络参数的更新过程为：

步骤S1221、持续采集无人机与环境进行交互的历史经验，并存储到经验池中，所述历史经验为四元组(s,a,r,s′)，所述动作选择策略根据Q值选择最佳动作后，无人机执行该动作，得到下一时刻的环境状态和回报函数值；

步骤S1223、当训练情节数达到预设条件时，结束所述软更新的过程，并保存D3QN的模型参数。

4.根据权利要求3所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，所述更新过程是以情节为单位进行的；在更新过程中，每个情节都是从初始状态出发，当无人机满足下列任一条件之一时，该情节结束，重新开始下一情节的学习：1)到达目标空域；2)进入不可逃逸区域；3)达到最大航程；4)飞出任务区域边界。

5.根据权利要求1所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，在离线训练阶段，步骤S13中动作选择策略使用结合启发式搜索规则的ε-greedy策略；即无人机以ε的概率选择最大Q值对应的动作，以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作；所述动作集合为无人机可能飞行的8个方向。

6.根据权利要求1-5中任意一项所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，所述步骤S2包括：

步骤S21、态势评估；

步骤S22、基于D3QN的Q函数评估；

步骤S23、动作选择；

步骤S24、无人机执行动作，产生下一时刻的环境状态；

7.根据权利要求1-5中任意一项所述的基于深度强化学习的无人机实时路径规划方法，其特征在于，所述D3QN网络由两个子网络组成：卷积网络和竞争网络；所述卷积网络的输入为连续四帧最新态势图，输入层的输入维度为84×84×12；所述卷积网络包含四层卷积层，第一卷积层包含32个卷积核，卷积核尺寸为8×8，步长为4；第二卷积层包含64个卷积核，卷积核尺寸为4×4，步长为2；第三卷积层包含64个卷积核，卷积核尺寸为3×3，步长为1；第四卷积层包含512个卷积核，卷积核尺寸为7×7，步长为1；卷积层均使用ReLU激活函数，填充操作均选择VALID模式；所述竞争网络包含两个分支：状态值函数分支和优势函数分支；状态值函数分支和优势函数分支均包含两层全连接层；两分支第一全连接层的隐含节点数均为256，且均使用ReLU激活函数。