CN111123963B - 基于强化学习的未知环境自主导航系统及方法 - Google Patents

基于强化学习的未知环境自主导航系统及方法 Download PDF

Info

Publication number
CN111123963B
CN111123963B CN201911313540.4A CN201911313540A CN111123963B CN 111123963 B CN111123963 B CN 111123963B CN 201911313540 A CN201911313540 A CN 201911313540A CN 111123963 B CN111123963 B CN 111123963B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
flight
state
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911313540.4A
Other languages
English (en)
Other versions
CN111123963A (zh
Inventor
顾晶晶
黄海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911313540.4A priority Critical patent/CN111123963B/zh
Publication of CN111123963A publication Critical patent/CN111123963A/zh
Application granted granted Critical
Publication of CN111123963B publication Critical patent/CN111123963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Abstract

本发明公开了一种基于强化学习的未知环境自主导航系统及方法,系统包括:训练模块,用于构建飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;交互模块,用于实现无人机机载传感器与环境的交互;规划模块,用于进行路径规划;应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。方法包括:建立并训练飞行决策模型;获取真实环境信息数据;获取无人机状态图;将无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转第二步,并将该动作作用于真实环境中,改变无人机的状态,直至无人机到达终点。本发明能实现无人机在无先验知识的前提下,进行未知环境的自主导航,具有结构简单、泛化能力强等特点。

Description

基于强化学习的未知环境自主导航系统及方法
技术领域
本发明属于导航领域,具体涉及无人机导航领域,特别涉及一种基于强化学习的未知环境自主导航系统及方法。
背景技术
无人机作为物联网的一个新兴组成部分,在航运领域、地理测绘、环境监测、灾害管理、精准农业等领域引起了越来越多的关注。在这些应用环境中,尤其是人工无法控制的应用环境中,基于无人机的自主导航系统路径规划发挥着更为重要的作用。
传统的路径规划方法,例如A*算法、动态规划和人工势场法都具有在多个约束条件下(如时间、距离和能量)的一些优化问题的特征,这些方法严重依赖于已知的环境的先验知识,包括成损耗图和势场图。然而,即使有先验知识,对于具有强噪声的不完全数据,一些生成模型仍然具有较低的精度。此外,在路径规划中,起点和终点的变化会导致模型的修改和再训练,这会产生巨大的开销。虽然基于计算智能(Computational Intelligence,CI)的方法可以部分提高系统的鲁棒性,但它们仅限于将原有模型泛化到那些变化不大的环境中。更重要的是,由于训练环境和应用环境的巨大差异,在一个完全未知的环境中,如何利用现有信息建立飞行决策模型,并且将其推广到新的场景中是一个需要研究的重要问题。即时定位与地图构(Simultaneous Localization and Mapping,SLAM)是一种替代方法,但它耗时且效率较低。
总之,无人机的自动导航系统仍面临以下问题。首先,在建模过程中,模型过度依赖于特定的环境,这使得无人机不能自主适应不同的飞行环境。其次,无人机可能被派遣到一个未知的环境中,这对处理未知情况的能力提出了很高要求。
发明内容
本发明的目的在于提供一种能高效且准确地引导无人机到达目的地,为未知环境中飞行的无人机提供路径规划的支持,从而提高无人机对不同飞行环境的适应能力的自主导航方法。
实现本发明目的的技术解决方案为:一种基于强化学习的未知环境自主导航系统,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。
进一步地,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
一种基于强化学习的未知环境自主导航方法,包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型
Figure BDA0002325188010000021
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
步骤4,将所述无人机状态图作为模型
Figure BDA0002325188010000022
的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。
进一步地,步骤1中所述建立飞行决策模型,具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
Figure BDA0002325188010000031
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
Figure BDA0002325188010000032
式中,
Figure BDA0002325188010000033
表示无人机在t时刻所处位置,
Figure BDA0002325188010000034
表示无人机在t-1时刻所处位置;
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
Figure BDA0002325188010000035
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
Figure BDA0002325188010000036
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子。
进一步地,步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
设置迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、
Figure BDA0002325188010000041
网络结构、批量梯度下降的样本数m以及初始化经验回放集合E;
步骤1-1,随机初始化
Figure BDA0002325188010000042
网络的所有参数,构成参数向量ω,基于ω初始化所有飞行状态和飞行动作对应的价值Q;
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-3,将当前飞行状态对应的特征向量作为
Figure BDA0002325188010000043
网络的输入,获得该飞行状态对应的所有飞行动作对应的Q值;
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-9,从经验回放集合E中采样m个样本e1,e2,e3,...,em,每个样本
Figure BDA0002325188010000044
计算当前目标Q值yj
Figure BDA0002325188010000051
式中,
Figure BDA0002325188010000052
代表当前参数为ω的
Figure BDA0002325188010000053
网络,
Figure BDA0002325188010000054
为飞行状态的特征向量,
Figure BDA0002325188010000055
为动作值,
Figure BDA0002325188010000056
为即时奖励值,
Figure BDA0002325188010000057
Figure BDA0002325188010000058
对应的飞行状态转变后的飞行状态的特征向量,is_endj为判断
Figure BDA0002325188010000059
是否为终止飞行状态的结果;
步骤1-10,利用均方差损失函数:
Figure BDA00023251880100000510
通过神经网络的梯度反向传播更新
Figure BDA00023251880100000511
网络的所有参数,形成新的参数向量ω;
步骤1-11,判断st+1是否为终止飞行状态,若否则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
进一步地,步骤3中对所述环境信息数据进行分析获得无人机状态图,具体过程包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
本发明与现有技术相比,其显著优点为:1)基于强化学习技术,将无人机飞行过程构建于马尔科夫决策过程的框架中,从而将传统的基于环境模型的路径规划方法转化为基于飞行决策模型的路径规划方法,克服了飞行模型对特定环境的依赖;2)采用深度强化学习技术,基于大量的虚拟环境飞行数据,提取飞行状态的特征信息,从而能够在应对未见过的飞行状态时,执行正确的飞行策略,最终实现无人机无需重复训练飞行模型,即可应对不同飞行环境中不同的飞行任务;3)采用多传感器数据融合方法,以更准确地表示无人机所处状态,从而能辅助无人机更好地进行飞行导航。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于强化学习的未知环境自主导航系统结构图。
图2为本发明基于深度强化学习对飞行决策模型进行训练的流程图。
图3为本发明实施例中虚拟环境测试结果图,其中图(a)为虚拟环境下训练过程中的累积奖励值曲线示意图,图(b)为虚拟环境下每次测试评估的累积奖励值示意图。
图4为本发明实施例中真实环境示意图。
图5为本发明实施例中真实环境测试结果图,其中图(a)为现实环境下每次测试评估的累积奖励值示意图,图(b)为现实环境下本发明和蚁群算法所规划的路径结果对比图。
具体实施方式
结合图1,本发明提出了一种基于强化学习的未知环境自主导航系统,包括交互模块、训练模块、规划模块和应用模块;交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作。
训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练。
交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;其中多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器等。
规划模块,和训练模块共享飞行决策模型,用于根据飞行决策模型和交互信息数据,进行无人机路径规划;该模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。
本发明提出了一种基于强化学习的未知环境自主导航方法,包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型
Figure BDA0002325188010000061
该步骤中建立飞行决策模型,具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
Figure BDA0002325188010000071
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
Figure BDA0002325188010000072
式中,
Figure BDA0002325188010000073
表示无人机在t时刻所处位置,
Figure BDA0002325188010000074
表示无人机在t-1时刻所处位置;
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
Figure BDA0002325188010000081
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
Figure BDA0002325188010000082
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子。
结合图2,该步骤中在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
设置迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、
Figure BDA0002325188010000083
网络结构、批量梯度下降的样本数m以及初始化经验回放集合E;
步骤1-1,随机初始化
Figure BDA0002325188010000084
网络的所有参数,构成参数向量ω,基于ω初始化所有飞行状态和飞行动作对应的价值Q;
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-3,将当前飞行状态对应的特征向量作为
Figure BDA0002325188010000085
网络的输入,获得该飞行状态对应的所有飞行动作对应的Q值;
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-9,从经验回放集合E中采样m个样本e1,e2,e3,...,em,每个样本
Figure BDA0002325188010000091
计算当前目标Q值yj
Figure BDA0002325188010000092
式中,
Figure BDA0002325188010000093
代表当前参数为ω的
Figure BDA0002325188010000094
网络,
Figure BDA0002325188010000095
为飞行状态的特征向量,
Figure BDA0002325188010000096
为动作值,
Figure BDA0002325188010000097
为即时奖励值,ejs'为
Figure BDA0002325188010000098
对应的飞行状态转变后的飞行状态的特征向量,is_endj为判断
Figure BDA0002325188010000099
是否为终止飞行状态的结果;
步骤1-10,利用均方差损失函数:
Figure BDA00023251880100000910
通过神经网络的梯度反向传播更新
Figure BDA00023251880100000911
网络的所有参数,形成新的参数向量ω;
步骤1-11,判断st+1是否为终止飞行状态,若否则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对环境信息数据进行分析获得无人机状态图,该步具体包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
步骤4,将无人机状态图作为模型
Figure BDA00023251880100000912
的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例中对本发明和现有技术(蚁群优化算法)的路径规划进行实验评估,包括两部分实验:
(1)虚拟环境实验
虚拟环境实验主要用于验证,验证在虚拟环境中训练出的模型,能否在任务变化的情况下,依旧能够完成路径规划任务。训练过程中获得的累积奖励值如图3所示,由图3(a)可以看出,本发明方法训练中的累积奖赏曲线的变化趋势是不断增长的,在经历450次迭代后,整体趋势趋于平缓。图中上方的虚线代表运用蚁群优化算法所得到的累积奖赏值,可以看到屈指可数的几个过程的累积奖赏值便超过了它。
在训练后,进行了100次实验,来检验学习到的飞行策略是否有效。在虚拟环境实验中,无人机仍旧飞行在原来的训练环境中,但是通过随机设定无人机的起点和终点来模拟不同的飞行场景。为了更好地比较飞行过程的累积奖赏值,起点和终点之间的距离是固定的。因为障碍物的位置是随机的,所以实验结果能够评价本发明方法的泛化性。虚拟环境测试结果如图3(b)所示,可以看出大约70%的过程是成功的,上方的虚线代表平均累积奖赏值,很明显,本发明方法获得的平均累积奖赏值要比蚁群优化算法获得的平均累积奖赏值更高一些,主要原因是,无人机遇到了越来越多的未知情况,在这些未知情况中,发现了更好的路径能够到达终点。
(2)真实环境实验
实验场景位于某一办公区域,飞行任务是以0.5m/s的速度从起点出发,在走廊中进行导航,最终到达终点,如图4所示。实验的目的在于检验训练出的模型是否能够应对不同的飞行场景,以及能否应用于现实复杂环境中,现实环境包括了拐角、不断变化的亮度以及玻璃墙等。
进行了100次实验,来检验学习到的飞行策略是否在真实环境中有效。训练过程中获得的累积奖励值如图5(a)所示,可以看出,累积奖赏值在140左右的过程是成功的,而低于-50的过程是失败的,大约70%的过程是成功的。图5(b)为本发明方法和蚁群算法所规划的路径对比图,由图可以很明显看出本发明得出的路径更加平滑,引起该现象的原因是,蚁群算法依赖于环境的网格图,只有网格越精细,才能得到更平滑的飞行路径,但是随之带来的计算复杂度也在上升。而本发明依赖于无人机的飞行决策模型,它能够摆脱对环境地图的限制,这更加符合真实的飞行场景。
综上,本发明提出的基于强化学习的未知环境自主导航系统及方法,基于强化学习的思想,将传统的基于环境模型的无人机路径规划问题构建于马尔科夫决策过程的框架中,并综合了避碰、路径规划和数据融合功能,使无人机能够获得高效且准确的飞行策略,实现无人机在无先验知识的前提下,进行未知环境的自主导航,具有结构简单、泛化能力强、环境适应性强等特点。

Claims (5)

1.一种基于强化学习的未知环境自主导航方法,其特征在于,该方法针对基于强化学习的未知环境自主导航系统,该系统包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对飞行决策模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航;
包括以下步骤:
步骤1,建立飞行决策模型,并在虚拟环境中基于深度强化学习对飞行决策模型进行训练,获得模型
Figure FDA0003010865360000011
具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该即时奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
Figure FDA0003010865360000012
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
Figure FDA0003010865360000021
式中,Pt UAV表示无人机在t时刻所处位置,
Figure FDA0003010865360000022
表示无人机在t-1时刻所处位置;
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
Figure FDA0003010865360000023
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
Figure FDA0003010865360000024
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子;
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
步骤4,将所述无人机状态图作为模型
Figure FDA0003010865360000025
的输入,输出无人机对应采取的动作,之后转到步骤2,并将该动作作用于真实飞行环境中,改变无人机的状态,直至无人机到达终点,由此完成无人机在未知环境中的路径规划任务。
2.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,所述多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器。
3.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
4.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
设置迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、
Figure FDA0003010865360000031
网络结构、批量梯度下降的样本数m以及初始化经验回放集合E;
步骤1-1,随机初始化
Figure FDA0003010865360000032
网络的所有参数,构成参数向量ω,基于ω初始化所有飞行状态和飞行动作对应的价值Q;
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-3,将当前飞行状态对应的特征向量作为
Figure FDA0003010865360000033
网络的输入,获得该飞行状态对应的所有飞行动作对应的Q值;
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-9,从经验回放集合E中采样m个样本e1,e2,e3,...,em,每个样本
Figure FDA0003010865360000041
计算当前目标Q值yj
Figure 2
式中,
Figure FDA0003010865360000043
代表当前参数为ω的
Figure FDA0003010865360000044
网络,
Figure FDA0003010865360000045
为飞行状态的特征向量,
Figure FDA0003010865360000046
为动作值,
Figure FDA0003010865360000047
为即时奖励值,
Figure FDA0003010865360000048
Figure FDA0003010865360000049
对应的飞行状态转变后的飞行状态的特征向量,is_endj为判断
Figure FDA00030108653600000410
是否为终止飞行状态的结果;
步骤1-10,利用均方差损失函数:
Figure FDA00030108653600000411
通过神经网络的梯度反向传播更新
Figure FDA00030108653600000412
网络的所有参数,形成新的参数向量ω;
步骤1-11,判断st+1是否为终止飞行状态,若否,则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
5.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤3中对所述环境信息数据进行分析获得无人机状态图,具体过程包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
CN201911313540.4A 2019-12-19 2019-12-19 基于强化学习的未知环境自主导航系统及方法 Active CN111123963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911313540.4A CN111123963B (zh) 2019-12-19 2019-12-19 基于强化学习的未知环境自主导航系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911313540.4A CN111123963B (zh) 2019-12-19 2019-12-19 基于强化学习的未知环境自主导航系统及方法

Publications (2)

Publication Number Publication Date
CN111123963A CN111123963A (zh) 2020-05-08
CN111123963B true CN111123963B (zh) 2021-06-08

Family

ID=70498339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911313540.4A Active CN111123963B (zh) 2019-12-19 2019-12-19 基于强化学习的未知环境自主导航系统及方法

Country Status (1)

Country Link
CN (1) CN111123963B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657016A (zh) * 2020-05-12 2021-11-16 哈尔滨工程大学 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统
CN111694973B (zh) * 2020-06-09 2023-10-13 阿波罗智能技术(北京)有限公司 自动驾驶场景的模型训练方法、装置、电子设备
CN111857184B (zh) * 2020-07-31 2023-06-23 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群避碰方法及装置
CN112131661A (zh) * 2020-09-10 2020-12-25 南京大学 一种无人机自主跟拍运动目标的方法
CN112114592B (zh) * 2020-09-10 2021-12-17 南京大学 一种实现无人机自主穿越可移动框形障碍物的方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112241176B (zh) * 2020-10-16 2022-10-28 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112286203B (zh) * 2020-11-11 2021-10-15 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112867023B (zh) * 2020-12-30 2021-11-19 北京理工大学 一种通过动态调度无人终端最小化感知数据获取时延方法
CN112947554B (zh) * 2021-02-03 2022-05-20 南京航空航天大学 基于强化学习的多设备自适应监测方法
CN112947562B (zh) * 2021-02-10 2021-11-30 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113110546B (zh) * 2021-04-20 2022-09-23 南京大学 一种基于离线强化学习的无人机自主飞行控制方法
CN113423060B (zh) * 2021-06-22 2022-05-10 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN114200950B (zh) * 2021-10-26 2023-06-02 北京航天自动控制研究所 一种飞行姿态控制方法
CN114910072A (zh) * 2022-04-21 2022-08-16 海南大学 基于深度强化学习的无人机导航方法、装置、设备及介质
CN116449874B (zh) * 2023-06-13 2023-08-18 北京瀚科智翔科技发展有限公司 有人驾驶飞机的模块化无人控制改装套件及构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2487529A (en) * 2011-01-19 2012-08-01 Automotive Robotic Industry Ltd Security system for controlling a plurality of unmanned ground vehicles
CN102799179B (zh) * 2012-07-06 2014-12-31 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102929284B (zh) * 2012-10-26 2016-03-09 哈尔滨工程大学 一种飞行器孤岛降落复飞决策方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
US10690772B2 (en) * 2016-03-11 2020-06-23 Raytheon Bbn Technologies Corp. LIDAR site model to aid counter drone system
CN106650800B (zh) * 2016-12-08 2020-06-30 南京航空航天大学 基于Storm的马尔可夫等价类模型分布式学习方法
CN107239728B (zh) * 2017-01-04 2021-02-02 赛灵思电子科技(北京)有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN106970615B (zh) * 2017-03-21 2019-10-22 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN106931975B (zh) * 2017-04-14 2019-10-22 北京航空航天大学 一种基于语义地图的移动机器人多策略路径规划方法
EP3422130B8 (en) * 2017-06-29 2023-03-22 The Boeing Company Method and system for autonomously operating an aircraft
CN107450593B (zh) * 2017-08-30 2020-06-12 清华大学 一种无人机自主导航方法和系统
US10387727B2 (en) * 2017-09-13 2019-08-20 Wing Aviation Llc Backup navigation system for unmanned aerial vehicles
EP3579185A1 (en) * 2018-06-05 2019-12-11 Tata Consultancy Services Limited Systems and methods for data acquisition and asset inspection in presence of magnetic interference
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109655066B (zh) * 2019-01-25 2022-05-17 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109934131A (zh) * 2019-02-28 2019-06-25 南京航空航天大学 一种基于无人机的小目标检测方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN109948054A (zh) * 2019-03-11 2019-06-28 北京航空航天大学 一种基于强化学习的自适应学习路径规划系统
CN109933086B (zh) * 2019-03-14 2022-08-30 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110134140B (zh) * 2019-05-23 2022-01-11 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110488859B (zh) * 2019-07-15 2020-08-21 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110470301B (zh) * 2019-08-13 2020-12-11 上海交通大学 多动态任务目标点下的无人机路径规划方法
CN110428115A (zh) * 2019-08-13 2019-11-08 南京理工大学 基于深度强化学习的动态环境下的最大化系统效益方法
CN110471444B (zh) * 2019-08-19 2022-07-12 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110488872B (zh) * 2019-09-04 2023-03-07 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法

Also Published As

Publication number Publication date
CN111123963A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
EP3405845B1 (en) Object-focused active three-dimensional reconstruction
Tai et al. Towards cognitive exploration through deep reinforcement learning for mobile robots
CN107450593B (zh) 一种无人机自主导航方法和系统
Ross et al. Learning monocular reactive uav control in cluttered natural environments
Lopes et al. Intelligent control of a quadrotor with proximal policy optimization reinforcement learning
CN111795700A (zh) 一种无人车强化学习训练环境构建方法及其训练系统
WO2020052480A1 (zh) 无人驾驶行为决策及模型训练
Tu et al. Path planning and obstacle avoidance based on reinforcement learning for UAV application
JP2004536400A5 (zh)
CN112114592B (zh) 一种实现无人机自主穿越可移动框形障碍物的方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
Ahmad et al. End-to-end probabilistic depth perception and 3d obstacle avoidance using pomdp
Sandström et al. Fighter pilot behavior cloning
Pokhrel Drone obstacle avoidance and navigation using artificial intelligence
Rañó et al. A drift diffusion model of biological source seeking for mobile robots
Li et al. UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment
CN116734850A (zh) 一种基于视觉输入的无人平台强化学习自主导航系统及方法
KR102455003B1 (ko) 무인 체계의 강화 학습을 위한 시뮬레이션 방법 및 장치
Siddiquee et al. Flight test of quadcopter guidance with vision-based reinforcement learning
Huang et al. An autonomous UAV navigation system for unknown flight environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant