CN110488872B - 一种基于深度强化学习的无人机实时路径规划方法 - Google Patents

一种基于深度强化学习的无人机实时路径规划方法 Download PDF

Info

Publication number
CN110488872B
CN110488872B CN201910831779.4A CN201910831779A CN110488872B CN 110488872 B CN110488872 B CN 110488872B CN 201910831779 A CN201910831779 A CN 201910831779A CN 110488872 B CN110488872 B CN 110488872B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
action
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910831779.4A
Other languages
English (en)
Other versions
CN110488872A (zh
Inventor
相晓嘉
闫超
王菖
牛轶峰
尹栋
吴立珍
陈紫叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910831779.4A priority Critical patent/CN110488872B/zh
Publication of CN110488872A publication Critical patent/CN110488872A/zh
Application granted granted Critical
Publication of CN110488872B publication Critical patent/CN110488872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的无人机实时路径规划方法,其包括:步骤S1、从仿真环境中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁程度,构建无人机任务区域的态势地图;构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择;步骤S2、依据通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,构建无人机任务区域的态势地图,构建竞争双重Q网络,并载入训练好的网络模型,评估当前状态下各个动作的Q值,选择最大Q值对应的动作,确定无人机的飞行方向,完成飞行任务。本发明可有效提高无人机的自主决策能力,具有较高的鲁棒性能和应用价值。

Description

一种基于深度强化学习的无人机实时路径规划方法
技术领域
本发明主要涉及到无人机技术领域,特指一种基于深度强化学习的无人机实时路径规划方法。
背景技术
随着无人机系统技术的不断发展,无人机(Unmanned Aerial Vehicle,UAV)在工业巡检、灾难搜救、地理测绘、边境巡逻、军事侦查等各类军事行动和民用任务得到了广泛的应用。综合考虑各种影响因素,如无人机航程、目标位置、外部威胁等,为无人机规划出最优路径,对保障飞行任务圆满完成具有重要作用。因此,无人机路径规划是无人机执行各种军事或民用任务所必需的基础和关键技术。尽管近年来无人机在操作自主性方面取得了长足的进步,但在动态环境下实时完成无人机路径规划仍面临较大挑战。
国内外学者针对无人机路径规划问题进行了广泛的研究,传统的路径规划方法包括:Voronoi图法、人工势场法、A*算法等;基于人工智能的路径规划算法有:神经网络、进化计算、群智能优化算法等。上述方法在特定条件下都具有各自的优势,但都需要预先建立环境或平台模型,当环境信息无法预先获取或问题模型过于复杂时,上述算法往往不能适用。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种可有效提高无人机的自主决策能力,具有较高的鲁棒性能和应用价值的基于深度强化学习的无人机实时路径规划方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于深度强化学习的无人机实时路径规划方法,其包括:
步骤S1、离线训练阶段:从仿真环境中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁程度,构建无人机任务区域的态势地图;构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择;
步骤S2、在线执行阶段:依据通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,构建无人机任务区域的态势地图,构建竞争双重Q网络,并载入训练好的网络模型,评估当前状态下各个动作的Q值,选择最大Q值对应的动作,确定无人机的飞行方向,完成飞行任务。
作为本发明的进一步改进:所述步骤S1包括
步骤S11、态势评估;
步骤S12、基于竞争双重Q网络的Q函数评估;所述竞争双重Q网络为D3QN网络;
步骤S13、动作选择。
作为本发明的进一步改进:所述步骤S11包括:
步骤S111、从仿真环境中获取无人机的当前环境状态;所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置;
步骤S112、根据态势评估模型计算目标对象防御单元对无人机的威胁值;所述威胁值等价于无人机被目标对象防御单元摧毁的概率,该值大小与目标对象防御单元数量、无人机与目标对象防御单元的距离、目标对象防御单元雷达最大探测距离、防御单元攻击区的远界以及不可逃逸区最大距离有关;
步骤S113、将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图。
作为本发明的进一步改进:所述步骤S12包括:
步骤S121、构建卷积神经网络和竞争神经网络的主网络和目标网络,并随机初始化网络参数。
步骤S122、在与环境的不断交互中更新网络参数。
作为本发明的进一步改进:所述步骤S122中D3QN网络参数的更新过程为:
步骤S1221、持续采集无人机与环境进行交互的历史经验,并存储到经验池中;所述历史经验为四元组(s,a,r,s′),其中s为当前状态,即当前时刻最新四帧态势图,a为执行的动作,即无人机的飞行方向,r为执行动作a获取的回报,s′为执行动作a后达到的状态;所述交互过程为:无人机获取环境状态信息,根据态势评估模型进行环境态势评估,并构建态势地图;D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值,动作选择策略根据Q值选择最佳动作;无人机执行该动作,得到下一时刻的环境状态和回报函数值;
步骤S1222、从经验池中进行随机采样,批次更新D3QN的网络参数;每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数;
步骤S1223、当训练情节数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
作为本发明的进一步改进:所述更新过程是以情节为单位进行的;在更新过程中,每个情节都是从初始状态出发,当无人机满足下列任一条件之一时,该情节结束,重新开始下一情节的学习:1)到达目标空域;2)进入不可逃逸区域;3)达到最大航程;4)飞出任务区域边界。
作为本发明的进一步改进:在离线训练阶段,步骤S13中动作选择策略使用结合启发式搜索规则的ε-greedy策略;即无人机以ε的概率选择最大Q值对应的动作,以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作;所述动作集合为无人机可能飞行的8个方向。
作为本发明的进一步改进:所述步骤S2包括:
步骤S21、态势评估;
借由通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,进而将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图;
步骤S22、基于D3QN的Q函数评估;
构建竞争双重Q网络,并载入训练好的网络模型;以连续四帧最新态势图为输入评估当前状态下各个动作的Q值;
步骤S23、动作选择;
动作选择策略选择最大Q值对应的动作,确定无人机的飞行方向;
步骤S24、无人机执行动作,产生下一时刻的环境状态;
步骤S25、重复上述过程,直至无人机安全抵达目标空域,完成飞行任务。
作为本发明的进一步改进:所述D3QN网络由两个子网络组成:卷积网络和竞争网络;所述卷积网络的输入为连续四帧最新态势图,输入层的输入维度为84×84×12;所述卷积网络包含四层卷积层,第一卷积层包含32个卷积核,卷积核尺寸为8×8,步长为4;第二卷积层包含64个卷积核,卷积核尺寸为4×4,步长为2;第三卷积层包含64个卷积核,卷积核尺寸为3×3,步长为1;第四卷积层包含512个卷积核,卷积核尺寸为7×7,步长为1;卷积层均使用ReLU激活函数,填充操作均选择VALID模式;所述竞争网络包含两个分支:状态值函数分支和优势函数分支;状态值函数分支和优势函数分支均包含两层全连接层;两分支第一全连接层的隐含节点数均为256,且均使用ReLU激活函数。
与现有技术相比,本发明的优点在于:
1、本发明的基于深度强化学习的无人机实时路径规划方法,在无人机飞行过程中,无人机通过通信链路获取环境状态信息,进而根据态势评估模型进行环境态势评估,并构建态势地图。竞争双重Q网络(Dueling Double Deep Q-Network,D3QN)以态势地图为输入,评估当前状态表示下各个动作的Q值。动作选择策略选择最大Q值所对应的动作,即可得到无人机下一步飞行的方向。重复所述过程,直到无人机抵达目标位置。
2、本发明的基于深度强化学习的无人机实时路径规划方法,应用强化学习(ReinforcementLearning,RL)方法,RL可以不依赖于环境模型,不需要环境的先验知识,适用于未知环境中的路径规划。本发明应用深度强化学习算法解决动态环境下的无人机实时路径规划问题,提高无人机的自主飞行能力。本发明能够将离线训练得到的策略直接应用于真实场景中,完成动态环境下的无人机在线实时路径规划。
3、本发明的基于深度强化学习的无人机实时路径规划方法,可以在动态环境下进行实时路径规划,使得无人机能够规避目标对象威胁并安全达到目标空域。深度强化学习方法解决路径规划问题,仿真场景中训练得到的策略可以直接应用于真实环境中,具有较强的实时性和适应性。
附图说明
图1是基于深度强化学习的无人机路径规划系统框图。
图2是本发明实施例中构建的典型态势图。
图3是本发明实施例中D3QN网络结构示意图。
图4是本发明实施例中静态场景下无人机的轨迹图。
图5是本发明实施例中动态场景下无人机的轨迹图。
图6是本发明方法的流程示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图6所示,本发明的一种基于深度强化学习的无人机实时路径规划方法,包括:
步骤S1、离线训练阶段:从仿真环境中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁程度,构建无人机任务区域的态势地图;构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择;
步骤S2、在线执行阶段:依据通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,构建无人机任务区域的态势地图,构建竞争双重Q网络,并载入训练好的网络模型,评估当前状态下各个动作的Q值,选择最大Q值对应的动作,确定无人机的飞行方向,完成飞行任务。
在具体应用实例中,步骤S1包括:
步骤S11、态势评估;
步骤S111、从仿真环境中获取无人机的当前环境状态。所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置等。
步骤S112、根据态势评估模型计算目标对象防御单元对无人机的威胁程度(威胁值)。所述威胁值等价于无人机被目标对象防御单元摧毁的概率,该值大小与目标对象防御单元数量、无人机与目标对象防御单元的距离、目标对象防御单元雷达最大探测距离、防御单元攻击区的远界以及不可逃逸区最大距离有关。
步骤S113、将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图。
步骤S12、基于竞争双重Q网络(D3QN)的Q函数评估;
步骤S121、构建卷积神经网络和竞争神经网络的主网络和目标网络,并随机初始化网络参数。
步骤S122、在与环境的不断交互中更新网络参数。
步骤S13、动作选择;
在离线训练阶段,所述动作选择策略使用结合启发式搜索规则的ε-greedy策略。具体而言,无人机以ε的概率选择最大Q值对应的动作,以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作。所述动作集合为无人机可能飞行的8个方向,即{前进,左转45°,左转90°,左转135°,后退,右转135°,右转90°,右转45°}。所述动作选择策略减少了训练阶段探索过程的盲目性,提高了训练效率。
在具体应用实例中,进一步的,所述步骤S122中D3QN网络参数的更新过程为:
步骤S1221、持续采集无人机与环境进行交互的历史经验,并存储到经验池中。所述历史经验为四元组(s,a,r,s′),其中s为当前状态,即当前时刻最新四帧态势图,a为执行的动作,即无人机的飞行方向,r为执行动作a获取的回报,s′为执行动作a后达到的状态;所述交互过程为:无人机获取环境状态信息,根据态势评估模型进行环境态势评估,并构建态势地图;D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值,动作选择策略根据Q值选择最佳动作;无人机执行该动作,得到下一时刻的环境状态和回报函数值。
步骤S1222、从经验池中进行随机采样,批次更新D3QN的网络参数。每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数。
步骤S1223、当训练情节数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
所述更新过程是以情节为单位进行的。在更新过程中,每个情节都是从初始状态出发,当无人机满足下列任一条件之一时,该情节结束,重新开始下一情节的学习:1)到达目标空域;2)进入不可逃逸区域;3)达到最大航程;4)飞出任务区域边界。
在具体应用实例中,步骤S2中所述在线执行阶段的具体实现步骤如下:
步骤S21、态势评估;
借由通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,进而将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图。
步骤S22、基于D3QN的Q函数评估;
构建竞争双重Q网络,并载入训练好的网络模型。以连续四帧最新态势图为输入评估当前状态下各个动作的Q值。
步骤S23、动作选择;
动作选择策略选择最大Q值对应的动作,确定无人机的飞行方向。
步骤S24、无人机执行动作,产生下一时刻的环境状态。
步骤S25、重复上述过程,直至无人机安全抵达目标空域,完成飞行任务。
以一个具体应用实例对本发明的方法进行说明,在本实施例中,无人机在考虑某具有潜在威胁的动态场景下遂行侦查任务。对方雷达能够在一定范围以探测到无人机,其能够影响无人机的生存概率。本实施例中,在23°N~30°N、111°E~118°E空域内存在三个目标对象防御单元。我方无人机需从初始位置(24.0°N,112.0°E)出发,抵近目标点(28.1°N,116.5°E)执行侦查任务。其目标是在保证自身安全的前提下(远离威胁源),以最优路径抵近目标空域完成侦查任务。
如图1所示,本发明基于深度强化学习框架,提出一种实时决策方法解决动态环境下的无人机实时路径规划问题。所述解决方案分为离线训练阶段和在线执行阶段两个阶段:
所述离线训练阶段主要包含以下步骤:
步骤I-1:态势评估;
步骤I-1-1:从仿真环境中获取无人机的当前环境状态。所述状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置等。
步骤I-1-2:计算目标对象防御单元对无人机的威胁程度(威胁值)。该值大小与无人机与目标对象防御单元的距离、目标对象雷达最大探测距离、防御单元防御区的远界以及不可逃逸区最大距离有关。某一防御单元对无人机的威胁值的计算公式为:
Figure BDA0002190942740000091
其中,D为无人机与目标对象防御单元之间的距离;RRmax为雷达最大探测距离;RMmax为目标对象防御单元攻击区的远界;RMk max为不可逃逸区的最大距离。不失一般性,本实施例中,取RRmax=120km,RMmax=90km,RMk max=60km。
此外,所述威胁值等价于目标对象防御单元的摧毁无人机的概率,该概率的大小与目标对象防御单元的数量密切相关。本实施例中,假设不同目标对象防御单元的命中概率是独立的。因此,各防御单元对无人机的总体威胁为:
Figure BDA0002190942740000101
其中,k为任务区域内目标对象防御单元的数量;
Figure BDA0002190942740000102
表示防御单元i摧毁无人机的概率。
步骤I-1-2:将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图:
Figure BDA0002190942740000103
其中,Cmax和Cmin分别为某一颜色通道最大和最小值;Tma和Tmin分别为态势数据评估后的最大和最小威胁值。在本实施例中,将威胁值映射为R通道的颜色值,取R颜色通道最大值Cmax=255,最小值Cmin=0,所得态势图如图2所示。在本实施例中,目标空域为一半径40km的圆形区域,当无人机飞入目标空域,即认为无人机能够探测到目标、完成侦查任务。
步骤I-2:基于竞争双重Q网络(D3QN)的Q函数评估;
步骤I-2-1:构建竞争双重Q网络。如图3所示,在本实施例中,所述D3QN由两个子网络组成:卷积网络和竞争网络。所述卷积网络的输入为连续四帧最新态势图,输入层的输入维度为84×84×12。进一步的,所述卷积网络包含四层卷积层,第一卷积层包含32个卷积核,卷积核尺寸为8×8,步长为4;第二卷积层包含64个卷积核,卷积核尺寸为4×4,步长为2;第三卷积层包含64个卷积核,卷积核尺寸为3×3,步长为1;第四卷积层包含512个卷积核,卷积核尺寸为7×7,步长为1;卷积层均使用ReLU激活函数,填充操作均选择VALID模式。所述竞争网络包含两个分支:状态值函数分支和优势函数分支。状态值函数分支和优势函数分支均包含两层全连接层。两分支第一全连接层的隐含节点数均为256,且均使用ReLU激活函数。状态值函数分支和优势函数分支第二全连接层的隐含节点数分别为1和8,分别表示当前状态的值函数和当前状态下8个待选动作的优势函数。所述竞争网络输出层的输出为当前状态下各个待选动作的Q值,其计算公式为:
Figure BDA0002190942740000111
其中,V(s)为状态值函数分支输出的当前状态的值函数;A(s,a)为优势函数分支输出的当前状态下各个待选动作的Q值;
Figure BDA0002190942740000112
表示待选动作集合的大小,在本实施例中,
Figure BDA0002190942740000113
步骤I-2-2:随机初始化D3QN主网络的参数θ,初始化目标网络参数θ-←θ。
步骤I-2-3:在与环境的不断交互中更新网络参数。
步骤I-3:动作选择;
在离线训练阶段,所述动作选择策略使用结合启发式搜索规则的ε-greedy策略。具体而言,无人机以ε的概率选择最大Q值对应的动作,以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作。例如,当目标位置位于无人机的左前方时,无人机以1-ε的概率从{右转45°,前进,左转45°,左转90°,左转135°}五个动作中随机选择动作,而不是从整个动作集。所述动作集合为无人机可能飞行的8个方向,即{前进,左转45°,左转90°,左转135°,后退,右转135°,右转90°,右转45°}。所述动作选择策略减少了训练阶段探索过程的盲目性,提高了训练效率。在本实施例中,探索率ε在2000情节数内从1线性降低到0.1,并在此之后固定为0.1。
进一步的,所述步骤I-2-3中D3QN网络参数的更新过程为:
步骤1:建立容量为N的数据缓存区D用于保存历史经验,初始化为空。在本实施例中,N=50000。
步骤2:持续采集无人机与环境进行交互的历史经验,并存储到经验池中。
所述交互过程为:无人机获取环境状态信息,根据式(2)进行威胁评估,并根据式(3)构建态势地图,并连续四帧最新态势图作为当前的状态表示s;D3QN以连续四帧态势图为输入,评估当前状态下各个动作的Q值,动作选择策略根据Q值选择最佳动作a;无人机执行该动作,得到下一时刻的环境状态,进而由式(2)和式(3)得出下一时刻的状态表示s',回报函数值r可由式(5)得出:
Figure BDA0002190942740000121
将历史经验数据(s,a,r,s′)保存到经验池中。若经验池中数据的数量大于经验池的最大容量,则使用最新的经验数据取代最老的经验数据。
步骤3:从经验池中随机进行批次采样,批次更新D3QN的网络参数。
每一时间步,应用Adam算法根据损失函数批次更新主网络参数。所述损失函数L定义为
Figure BDA0002190942740000122
其中
Figure BDA0002190942740000123
式中:Nb表示Batch size,0≤γ≤1代表折扣因子。在本实施例中,主网络的学习率设为0.0001,Nb=32,γ=0.972。
每隔一定的时间步N-,对目标网络参数进行软更新,即朝向主网络参数θ缓慢更新目标网络参数θ-
θ-←τθ+(1-τ)θ- (8)
其中,τ为软更新率。在本实施例中,N-=8,τ=0.001。
步骤4:当训练情节数达到预设条件时,结束所述更新过程,并保存D3QN的模型参数。
所述更新过程是以情节为单位进行的。在更新过程中,每个情节都是从初始状态出发,当无人机满足下列任一条件之一时,该情节结束,重新开始下一情节的学习:1)到达目标空域;2)进入不可逃逸区域;3)达到最大航程;4)飞出任务区域边界。在本实施例中,无人机在单情节最大步数500步内未完成侦查任务,认为无人机到达最大航程。在本实施例中,共进行
所述执行阶段的主要实现步骤如下:
步骤II-1:态势评估
借由通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,进而将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图。
步骤II-2:基于D3QN的Q函数评估
构建竞争双重Q网络,并载入训练好的网络模型。以连续四帧最新态势图为输入评估当前状态下各个动作的Q值。
步骤II-3:动作选择
动作选择策略选择最大Q值对应的动作,确定无人机的飞行方向。
步骤II-4:无人机执行动作,产生下一时刻的环境状态。
步骤II-5:重复上述过程,直至无人机安全抵达目标空域,完成飞行任务。在本实施例中,静态场景下无人机的飞行轨迹如图3所示,动态场景下无人机的飞行轨迹如图4所示。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于深度强化学习的无人机实时路径规划方法,其特征在于,包括:
步骤S1、离线训练阶段:从仿真环境中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁程度,构建无人机任务区域的态势地图;构建卷积神经网络和竞争神经网络的主网络和目标网络进行动作选择;
步骤S2、在线执行阶段:依据通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,构建无人机任务区域的态势地图,构建竞争双重Q网络,并载入训练好的网络模型,评估当前状态下各个动作的Q值,选择最大Q值对应的动作,确定无人机的飞行方向,完成飞行任务;
所述步骤S1包括:
步骤S11、态势评估;
步骤S12、基于竞争双重Q网络的Q函数评估;所述竞争双重Q网络为D3QN网络,通过持续采集无人机与环境进行交互的历史经验,并存储到经验池中;所述历史经验为四元组(s,a,r,s′),其中s为当前状态,即当前时刻最新四帧态势图,a为执行的动作,即无人机的飞行方向,r为执行动作a获取的回报,s′为执行动作a后达到的状态;所述交互的过程为:无人机获取环境状态信息,根据态势评估模型进行环境态势评估,并构建态势地图;D3QN以连续四帧态势图为输入评估当前状态下各个动作的Q值,动作选择策略根据Q值选择最佳动作;
步骤S13、动作选择;
所述步骤S11包括:
步骤S111、从仿真环境中获取无人机的当前环境状态;状态信息包括无人机位置、目标位置、目标对象防御单元数量和位置;
步骤S112、根据态势评估模型计算目标对象防御单元对无人机的威胁值;所述威胁值等价于无人机被目标对象防御单元摧毁的概率,该值大小与目标对象防御单元数量、无人机与目标对象防御单元的距离、目标对象防御单元雷达最大探测距离、防御单元攻击区的远界以及不可逃逸区最大距离有关;
步骤S113、将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图。
2.根据权利要求1所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,所述步骤S12包括:
步骤S121、构建卷积神经网络和竞争神经网络的主网络和目标网络,并随机初始化网络参数;
步骤S122、在与环境的不断交互中更新网络参数。
3.根据权利要求2所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,所述步骤S122中D3QN网络参数的更新过程为:
步骤S1221、持续采集无人机与环境进行交互的历史经验,并存储到经验池中,所述历史经验为四元组(s,a,r,s′),所述动作选择策略根据Q值选择最佳动作后,无人机执行该动作,得到下一时刻的环境状态和回报函数值;
步骤S1222、从经验池中进行随机采样,批次更新D3QN的网络参数;每一时间步,应用Adam算法批次更新主网络参数;每隔一定的时间步,对目标网络参数进行软更新,即朝向主网络参数更新目标网络参数;
步骤S1223、当训练情节数达到预设条件时,结束所述软更新的过程,并保存D3QN的模型参数。
4.根据权利要求3所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,所述更新过程是以情节为单位进行的;在更新过程中,每个情节都是从初始状态出发,当无人机满足下列任一条件之一时,该情节结束,重新开始下一情节的学习:1)到达目标空域;2)进入不可逃逸区域;3)达到最大航程;4)飞出任务区域边界。
5.根据权利要求1所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,在离线训练阶段,步骤S13中动作选择策略使用结合启发式搜索规则的ε-greedy策略;即无人机以ε的概率选择最大Q值对应的动作,以1-ε的概率从动作集合中趋向目的地的动作中随机选择动作;所述动作集合为无人机可能飞行的8个方向。
6.根据权利要求1-5中任意一项所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,所述步骤S2包括:
步骤S21、态势评估;
借由通信链路中获取无人机的当前环境状态,根据态势评估模型计算目标对象防御单元对无人机的威胁值,进而将所述威胁值映射到RGB颜色空间,构建无人机任务区域的态势地图;
步骤S22、基于D3QN的Q函数评估;
构建竞争双重Q网络,并载入训练好的网络模型;以连续四帧最新态势图为输入评估当前状态下各个动作的Q值;
步骤S23、动作选择;
动作选择策略选择最大Q值对应的动作,确定无人机的飞行方向;
步骤S24、无人机执行动作,产生下一时刻的环境状态;
步骤S25、重复上述过程,直至无人机安全抵达目标空域,完成飞行任务。
7.根据权利要求1-5中任意一项所述的基于深度强化学习的无人机实时路径规划方法,其特征在于,所述D3QN网络由两个子网络组成:卷积网络和竞争网络;所述卷积网络的输入为连续四帧最新态势图,输入层的输入维度为84×84×12;所述卷积网络包含四层卷积层,第一卷积层包含32个卷积核,卷积核尺寸为8×8,步长为4;第二卷积层包含64个卷积核,卷积核尺寸为4×4,步长为2;第三卷积层包含64个卷积核,卷积核尺寸为3×3,步长为1;第四卷积层包含512个卷积核,卷积核尺寸为7×7,步长为1;卷积层均使用ReLU激活函数,填充操作均选择VALID模式;所述竞争网络包含两个分支:状态值函数分支和优势函数分支;状态值函数分支和优势函数分支均包含两层全连接层;两分支第一全连接层的隐含节点数均为256,且均使用ReLU激活函数。
CN201910831779.4A 2019-09-04 2019-09-04 一种基于深度强化学习的无人机实时路径规划方法 Active CN110488872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831779.4A CN110488872B (zh) 2019-09-04 2019-09-04 一种基于深度强化学习的无人机实时路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831779.4A CN110488872B (zh) 2019-09-04 2019-09-04 一种基于深度强化学习的无人机实时路径规划方法

Publications (2)

Publication Number Publication Date
CN110488872A CN110488872A (zh) 2019-11-22
CN110488872B true CN110488872B (zh) 2023-03-07

Family

ID=68556341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831779.4A Active CN110488872B (zh) 2019-09-04 2019-09-04 一种基于深度强化学习的无人机实时路径规划方法

Country Status (1)

Country Link
CN (1) CN110488872B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111381499B (zh) * 2020-03-10 2022-09-27 东南大学 基于三维空间射频地图学习的网联飞行器自适应控制方法
CN111399541B (zh) * 2020-03-30 2022-07-15 西北工业大学 无监督学习型神经网络的无人机全区域侦察路径规划方法
CN111486847B (zh) * 2020-04-29 2021-10-08 华中科技大学 一种无人机导航方法及系统
CN111539492B (zh) * 2020-07-08 2020-11-20 武汉格蓝若智能技术有限公司 一种基于强化学习的异常用电判决系统及方法
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111857184B (zh) * 2020-07-31 2023-06-23 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群避碰方法及装置
CN111882047B (zh) * 2020-09-28 2021-01-15 四川大学 一种基于强化学习与线性规划的快速空管防冲突方法
CN112498334B (zh) * 2020-12-15 2022-03-11 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN112800545B (zh) * 2021-01-28 2022-06-24 中国地质大学(武汉) 基于d3qn的无人船自适应路径规划方法、设备及存储介质
CN113377119B (zh) * 2021-04-21 2023-05-09 北京控制工程研究所 一种基于能力模型的航天器任务推演方法和系统
CN113503878B (zh) * 2021-07-07 2023-04-07 大连海事大学 一种无人船路径规划方法及系统
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法
CN114003059B (zh) * 2021-11-01 2024-04-16 河海大学常州校区 运动学约束条件下基于深度强化学习的uav路径规划方法
CN116827685B (zh) * 2023-08-28 2023-11-14 成都乐超人科技有限公司 基于深度强化学习的微服务系统动态防御策略方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8988524B2 (en) * 2013-03-11 2015-03-24 The United States Of America As Represented By The Secretary Of The Army Apparatus and method for estimating and using a predicted vehicle speed in an indirect vision driving task
CN107272731B (zh) * 2017-06-05 2020-10-02 陈金良 无人机自动避撞系统
WO2019134110A1 (en) * 2018-01-05 2019-07-11 Driving Brain International Ltd. Autonomous driving methods and systems
CN108428340B (zh) * 2018-05-11 2021-01-26 深圳市图灵奇点智能科技有限公司 道路交通状况分析方法和系统
CN108536154A (zh) * 2018-05-14 2018-09-14 重庆师范大学 基于生物电信号控制的低速自动驾驶智能轮椅构建方法
CN108827312B (zh) * 2018-08-08 2021-10-08 清华大学 一种基于神经网络和人工势场的协同博弈路径规划方法
CN110132296B (zh) * 2019-05-22 2021-01-08 山东师范大学 基于溶解势场的多智能体子目标划分路径规划方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Path Planning Algorithm for UAV Based on Improved Q-Learning;Chao Yan等;《2018 2nd International Conference on Robotics and Automation Sciences (ICRAS)》;20180625;46-50 *
V–D D3QN: The Variant of Double Deep Q-Learning Network with Dueling Architecture;Ying Huang等;《Proceedings of the 37th Chinese Control Conference》;20180727;9130-9135 *
基于结构熵和IGSO-BP算法的动态威胁评估;陈洁钰等;《系统工程与电子技术》;20150531;第37卷(第05期);1076-1083 *
无人机分布式集群态势感知模型研究;高杨等;《电子与信息学报》;20180409(第06期);全文 *
网络化战场环境下多无人机调度问题;马纯超等;《火力与指挥控制》;20151015(第10期);全文 *

Also Published As

Publication number Publication date
CN110488872A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110488872B (zh) 一种基于深度强化学习的无人机实时路径规划方法
Yan et al. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments
CN106705970B (zh) 一种基于蚁群算法的多无人机协同路径规划方法
US11794898B2 (en) Air combat maneuvering method based on parallel self-play
US8924069B1 (en) Artificial immune system approach for airborne vehicle maneuvering
CN114003059B (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
Li et al. Search-evasion path planning for submarines using the artificial bee colony algorithm
Dai et al. A novel whale optimization algorithm of path planning strategy for mobile robots
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
Yan et al. Two‐dimensional optimal path planning for autonomous underwater vehicle using a whale optimization algorithm
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN114740883A (zh) 一种协同点侦察任务规划跨层联合优化方法
Chen et al. An improved spherical vector and truncated mean stabilization based bat algorithm for uav path planning
Zhang et al. Improvement of UAV track trajectory algorithm based on ant colony algorithm
CN115562347A (zh) 基于boa-tsar算法的近地配送无人机路径规划方法
Sporyshev et al. Reinforcement learning approach for cooperative AUVs in underwater surveillance operations
CN110362104B (zh) 一种无人机导航过程中提升精度的方法及系统
CN112925317A (zh) 一种基于改进型头脑风暴优化算法的auv路径规划方法
Taşbaş et al. 2-D air combat maneuver decision using reinforcement learning
Li et al. A path planning for one UAV based on geometric algorithm
Yan et al. Path planning method for UUV homing and docking in movement disorders environment
Fujita et al. The collaborative strategy of multiple USVs with deep reinforcement learning method
CN117666589A (zh) 一种基于强化学习的无人艇导弹拦截和规避算法、拦截和规避系统及可读存储介质
Han et al. Path Planning of Unmanned Autonomous Helicopter Based on Hybrid Satisficing Decision-Enhanced Swarm Intelligence Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant