CN106595671A - 一种基于强化学习的无人机路径规划方法和装置 - Google Patents

一种基于强化学习的无人机路径规划方法和装置 Download PDF

Info

Publication number
CN106595671A
CN106595671A CN201710096811.XA CN201710096811A CN106595671A CN 106595671 A CN106595671 A CN 106595671A CN 201710096811 A CN201710096811 A CN 201710096811A CN 106595671 A CN106595671 A CN 106595671A
Authority
CN
China
Prior art keywords
action
functions
unmanned plane
flare maneuver
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710096811.XA
Other languages
English (en)
Inventor
郝祁
张志建
杨云波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern University of Science and Technology
Original Assignee
Southern University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern University of Science and Technology filed Critical Southern University of Science and Technology
Priority to CN201710096811.XA priority Critical patent/CN106595671A/zh
Publication of CN106595671A publication Critical patent/CN106595671A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的无人机路径规划方法和装置,所述方法包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。

Description

一种基于强化学习的无人机路径规划方法和装置
技术领域
本发明实施例涉及机器学习领域,尤其涉及一种基于强化学习的无人机路径规划方法和装置。
背景技术
由于人工作业的存在着一定的复杂性和危险性,现如今多数作业由机器实现。无人机由于其体积小,可以做各种动作以及可以灵活控制,在军事和民用领域中得到了广泛运用,在进行火灾抢救,民用施肥、浇水以及未知的狭小地区的探测等方面,都需要对无人机进行路径规划。
现有的路径规划算法,主要分为两层,一层是基于线下的静态路径规划,指的是各种威胁以及环境地形均已确定的情况下进行的路径规划。第二层则是实时动态的在线路径规划,指的是无人机在飞行过程中遇到未知威胁以及环境地形不确定的情况下的动态规划。其中,具体又有基于单元分解的规划方法、人工势场法、基于数学模型的轨迹优化法以及基于神经网络的路径规划法等。基于单元分解的规划方法,其分解较为复杂且该算法的收敛速度和计算量也依赖于启发函数的选择;人工势场法,容易出现局部最优点,导致无法找到航线,且只适合低维数空间的路径规划;基于数学模型的轨迹优化法,其计算量大,需要通过数值解法来进行求解且容易受局部最小值的影响,故常用于局部的规划;基于神经网络的规划方法是将数字地图地形信息映射到神经网络上,基于飞行约束条件构造能量函数,通过使得能量最小来回的航迹规划方法,但这种方法计算量大,适用于线下路径规划,不适合实时规划。
发明内容
本发明提供了一种基于强化学习的无人机路径规划方法和装置,实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。
第一方面,本发明实施例提供了一种基于强化学习的无人机路径规划方法,所述方法包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
进一步的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
进一步的,所述方法还包括:初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
进一步的,所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作包括:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。
进一步的,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
第二方面,本发明实施例提供了一种基于强化学习的无人机路径规划装置,所述装置包括:选择模块,用于执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;更新模块,用于执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断模块,用于判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
进一步的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
进一步的,所述装置还包括:初始化模块,用于初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
进一步的,所述选择模块具体用于:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。
进一步的,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
本发明实施例通过执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作,执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数,当所述飞行动作达到预设条件后结束飞行动作。实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。
附图说明
图1是本发明实施例一中的一种基于强化学习的无人机路径规划方法的流程图;
图2是本发明实施例二中的一种基于强化学习的无人机路径规划方法的流程图;
图3是本发明实施例三中的一种基于强化学习的无人机路径规划装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种基于强化学习的无人机路径规划方法的流程图。该方法适用于对无人机进行路径规划的情况,该方法可以由具有无人机路径规划的装置来执行,该装置可以由软件和/或硬件的方式来实现。具体包括以下步骤:
S110、执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作。
具体的,无人驾驶飞机简称无人机,是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机。机上无驾驶舱,但是安装有自动驾驶仪和程序控制装置等设备。地面或母机遥控站人员通过雷达等设备,对其进行追踪、定位、遥控、遥测和数字传输。单次飞行动作指的是,无人机从一个起始地点飞行到下一个地点,起始地点记为A,下一地点记为B,无人机在地点A时的环境状态为当前的环境状态,无人机根据当前的环境状态和Q函数选择飞行动作。
优选的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
其中,强化学习是一种重要的机器学习方法,强化学习是从动物学习、参数扰动自适应控制等理论发展而来,其基本原理是:如果智能体的某个行为策略导致环境正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。在本方案中,智能体可以是无人机中的控制模块,实现对无人机的飞行动作的控制。Q算法是强化学习中的一种算法,Q函数是Q算法中的一个函数,Qt+1(st,at)为t+1时刻对应的Q值,Q值也称为状态-动作值,即经历K步学习后,在状态st时,选择动作at时的状态-动作值,K取大于1的正整数。起始Q值是随机量,可以设置为0。λt为学习速率,它是学习过程中从1到0不断衰减的参数,示例性的,λt取0.1。rt为执行t时刻动作的回报值,代表智能体在采用动作at并转移到状态st+1后得到的立即奖赏,γ为折扣因子,0<γ<1,代表了立即奖赏和未来奖赏的比重,示例性的,γ取0.9。
S120、执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数。
具体的,无人机根据当前的环境状态和Q函数选择飞行动作,执行所述飞行动作,该动作作用环境中,会得到一个反馈,该反馈通过一定的回报规则生成回报值,在这里不对回报规则做具体限定,示例性的,回报规则可以设置为:当无人机躲避攻击和威胁时,设置rt为100;当无人机被攻击时,设置rt为-100;其他情况,考虑到无人机飞行过程中的能量损耗,设置rt为-1。根据执行飞行动作后的回报值更新所述Q函数。
S130、判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
具体的,飞行动作包括多个单次飞行的动作,该个数用N表示,需要说明的是,N不代表具体的数据,在这里只是一个符号表示。每进行一次单次飞行动作,对Q函数进行一次更新。当进行过N个单次飞行的动作后,判断是否达到预设条件,如果达到了预设条件,就结束飞行,结束飞行后,该N个单次飞行的动作生成无人机的一条完整的路径。如果没满足预设条件,则继续下一次飞行动作。
示例性的,无人机每进行一次飞行工作,利用即时定位与地图构建(simultaneouslocalization and mapping,SLAM)方法来构建新的地图和更新先前已知地图并确定无人机的自身位置,通过视觉SLAM实现即时定位与地图构建功能。视觉SLAM框架包括:传感器数据、视觉里程计、后端优化和回环检测。传感器信息读取主要为相机图像信息的读取预处理;视觉里程计的任务是估算相邻图像间相机的运动以及局部地图的样子;后端优化是指后端接受不同时刻视觉里程计测量的相机位姿以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图;回环检测是判断无人机是否曾经到达过先前的位置,如果检测到回环,它就会把信息提供给后端进行处理;根据估计的轨迹,建立与任务要求对应的地图。
优选的,所述方法还包括:初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
具体的,强化学习的Q函数需要初始化,其中,初始化Q函数具体包括:初始化Q函数的参数,参数包括所述学习速率、所述折扣因子和所述回报值。对这三个参数均进行初始化,分别给定初始值,对初始值具体大小不做具体限定。
本发明实施例通过执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数,当所述飞行动作达到预设条件后结束飞行动作。实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。
实施例二
图2是本发明实施例二提供的一种基于强化学习的无人机路径规划方法的流程图。本实施例在上述实施例的基础上,对“所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作”进行了优化。具体包括以下步骤:
S210、执行单次飞行动作前感知无人机的当前环境状态。
具体的,执行单次飞行动作前感知无人机的当前环境状态,其中,环境状态包括:环境中有静止的障碍物与运动的障碍物,环境中静止障碍物的位置和姿态,运动的障碍物在无人机到达时刻的位置和姿态。
S220、基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率。
具体的,Q函数的输入为状态和动作,输出为状态-动作值,基于Q函数的函数值即为输出值。应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率,其中,Q函数是关于动作和状态的函数,softmax函数是关于Q的函数,softmax函数是将一组数变为总和为1,各个数为0到1之间的软归一化结果,在本方案中,针对同一个环境状态可以选择多个动作,softmax函数用于计算一个环境状态下执行各个动作的概率值,同一个环境状态下可以执行多个动作,执行每个动作的概率大小不同,softmax函数用于计算该概率值。
S230、选择概率最大的动作作为飞行动作。
具体的,在步骤S220中计算出执行各个动作的概率值之后,选择概率最大的动作作为飞行动作。概率最大的动作即为最优动作,N个单次飞行动作的最优动作生成最优的飞行路径,完成路径规划。
S240、执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数。
S250、判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
所述预设条件包括:执行预设次数的动作或满足预设动作规则。
具体的,预设条件包括:执行预设次数的动作或满足预设动作规则,预设次数可以是根据经验值预设,可以为200次;预设动作规则是指,执行一定次数的单次飞行后,满足操作者的预设动作规则,示例性的预设动作规则可以是,无人机的在动作后的位置和姿态达到预设要求。
本发明实施例中,通过执行单次飞行动作前感知无人机的当前环境状态,基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。实现了对当前环境状态下最优飞行动作的选择。
实施例三
图3是本发明实施例三提供的一种基于强化学习的无人机路径规划装置的结构示意图。该装置适用于执行本发明实施例一至二中提供的一种基于强化学习的无人机路径规划方法,该装置具体包括:
选择模块310,用于执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;
更新模块320,用于执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;
判断模块330,用于判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
进一步的,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
进一步的,所述装置还包括:初始化模块,用于初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
进一步的,选择模块310具体用于:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。
进一步的,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
本发明实施例提供的一种基于强化学习的无人机路径规划装置可执行本发明任意实施例所提供的一种基于强化学习的无人机路径规划方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于强化学习的无人机路径规划方法,其特征在于,包括:
执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;
执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;
判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
2.根据权利要求1所述的方法,其特征在于,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
4.根据权利要求1所述的方法,其特征在于,所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作包括:
执行单次飞行动作前感知无人机的当前环境状态;
基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;
选择概率最大的动作作为飞行动作。
5.根据权利要求1所述的方法,其特征在于,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
6.一种基于强化学习的无人机路径规划装置,其特征在于,包括:
选择模块,用于执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;
更新模块,用于执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;
判断模块,用于判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。
7.根据权利要求6所述的装置,其特征在于,所述Q函数为:
其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
初始化模块,用于初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。
9.根据权利要求6所述的装置,其特征在于,所述选择模块具体用于:
执行单次飞行动作前感知无人机的当前环境状态;
基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;
选择概率最大的动作作为飞行动作。
10.根据权利要求6所述的装置,其特征在于,所述预设条件包括:执行预设次数的动作或满足预设动作规则。
CN201710096811.XA 2017-02-22 2017-02-22 一种基于强化学习的无人机路径规划方法和装置 Pending CN106595671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710096811.XA CN106595671A (zh) 2017-02-22 2017-02-22 一种基于强化学习的无人机路径规划方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710096811.XA CN106595671A (zh) 2017-02-22 2017-02-22 一种基于强化学习的无人机路径规划方法和装置

Publications (1)

Publication Number Publication Date
CN106595671A true CN106595671A (zh) 2017-04-26

Family

ID=58587941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710096811.XA Pending CN106595671A (zh) 2017-02-22 2017-02-22 一种基于强化学习的无人机路径规划方法和装置

Country Status (1)

Country Link
CN (1) CN106595671A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108387866A (zh) * 2018-01-16 2018-08-10 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN108563235A (zh) * 2018-05-24 2018-09-21 南方科技大学 一种多旋翼无人机、抓取目标物体的方法、装置及设备
CN108731684A (zh) * 2018-05-07 2018-11-02 西安电子科技大学 一种多无人机协同区域监视的航路规划方法
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110045747A (zh) * 2019-03-04 2019-07-23 平安科技(深圳)有限公司 基于dqn模拟航空器自动着陆的方法及相关设备
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN110989649A (zh) * 2019-12-26 2020-04-10 中国航空工业集团公司沈阳飞机设计研究所 面向高机动固定翼无人机的飞行动作控制装置及训练方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111413974A (zh) * 2020-03-30 2020-07-14 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN111431644A (zh) * 2020-03-24 2020-07-17 南京航空航天大学 面向频谱认知的无人机路径自主规划装置及方法
CN113268074A (zh) * 2021-06-07 2021-08-17 哈尔滨工程大学 一种基于联合优化的无人机航迹规划方法
US11182611B2 (en) 2019-10-11 2021-11-23 International Business Machines Corporation Fire detection via remote sensing and mobile sensors
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231016A1 (en) * 2010-03-17 2011-09-22 Raytheon Company Temporal tracking robot control system
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN104484500A (zh) * 2014-09-03 2015-04-01 北京航空航天大学 一种基于拟合强化学习的空战行为建模方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN105844068A (zh) * 2016-06-16 2016-08-10 中国人民解放军国防科学技术大学 一种面向仿真的q学习攻击目标分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231016A1 (en) * 2010-03-17 2011-09-22 Raytheon Company Temporal tracking robot control system
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN104484500A (zh) * 2014-09-03 2015-04-01 北京航空航天大学 一种基于拟合强化学习的空战行为建模方法
CN105844068A (zh) * 2016-06-16 2016-08-10 中国人民解放军国防科学技术大学 一种面向仿真的q学习攻击目标分配方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108387866A (zh) * 2018-01-16 2018-08-10 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN108387866B (zh) * 2018-01-16 2021-08-31 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN108319286B (zh) * 2018-03-12 2020-09-22 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108731684A (zh) * 2018-05-07 2018-11-02 西安电子科技大学 一种多无人机协同区域监视的航路规划方法
CN108563235B (zh) * 2018-05-24 2022-02-08 南方科技大学 一种多旋翼无人机、抓取目标物体的方法、装置及设备
CN108563235A (zh) * 2018-05-24 2018-09-21 南方科技大学 一种多旋翼无人机、抓取目标物体的方法、装置及设备
CN109059931A (zh) * 2018-09-05 2018-12-21 北京航空航天大学 一种基于多智能体强化学习的路径规划方法
CN109597425B (zh) * 2018-10-18 2021-10-26 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN109696830B (zh) * 2019-01-31 2021-12-03 天津大学 小型无人直升机的强化学习自适应控制方法
CN110045747A (zh) * 2019-03-04 2019-07-23 平安科技(深圳)有限公司 基于dqn模拟航空器自动着陆的方法及相关设备
CN110045747B (zh) * 2019-03-04 2023-09-05 平安科技(深圳)有限公司 基于dqn模拟航空器自动着陆的方法及相关设备
CN109933086B (zh) * 2019-03-14 2022-08-30 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN110081893A (zh) * 2019-04-01 2019-08-02 东莞理工学院 一种基于策略重用和强化学习的导航路径规划方法
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110134140B (zh) * 2019-05-23 2022-01-11 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
US11182611B2 (en) 2019-10-11 2021-11-23 International Business Machines Corporation Fire detection via remote sensing and mobile sensors
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN110989649A (zh) * 2019-12-26 2020-04-10 中国航空工业集团公司沈阳飞机设计研究所 面向高机动固定翼无人机的飞行动作控制装置及训练方法
CN110989649B (zh) * 2019-12-26 2023-07-25 中国航空工业集团公司沈阳飞机设计研究所 面向高机动固定翼无人机的飞行动作控制装置及训练方法
CN111431644A (zh) * 2020-03-24 2020-07-17 南京航空航天大学 面向频谱认知的无人机路径自主规划装置及方法
CN111431644B (zh) * 2020-03-24 2022-06-10 南京航空航天大学 面向频谱认知的无人机路径自主规划装置及方法
CN111413974B (zh) * 2020-03-30 2021-03-30 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN111413974A (zh) * 2020-03-30 2020-07-14 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN113268074A (zh) * 2021-06-07 2021-08-17 哈尔滨工程大学 一种基于联合优化的无人机航迹规划方法
CN113268074B (zh) * 2021-06-07 2022-05-13 哈尔滨工程大学 一种基于联合优化的无人机航迹规划方法
CN116187611A (zh) * 2023-04-25 2023-05-30 南方科技大学 一种多智能体路径规划方法及终端

Similar Documents

Publication Publication Date Title
CN106595671A (zh) 一种基于强化学习的无人机路径规划方法和装置
Patle et al. Path planning in uncertain environment by using firefly algorithm
Kahn et al. Badgr: An autonomous self-supervised learning-based navigation system
US20240338567A1 (en) Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection
Wang et al. Three-dimensional path planning for UCAV using an improved bat algorithm
JP7367183B2 (ja) 占有予測ニューラルネットワーク
Zhou et al. A deep Q-network (DQN) based path planning method for mobile robots
US11410315B2 (en) High quality instance segmentation
CN104407619B (zh) 不确定环境下的多无人机同时到达多个目标方法
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN109655066A (zh) 一种基于Q(λ)算法的无人机路径规划方法
Balampanis et al. Area partition for coastal regions with multiple UAS
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
US20220153298A1 (en) Generating Motion Scenarios for Self-Driving Vehicles
CN106873599A (zh) 基于蚁群算法和极坐标变换的无人自行车路径规划方法
CN110134140A (zh) 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
JP2020129363A (ja) 表現を生成するための方法およびそのような表現に基づいて自律デバイスに動作を学習させるためのシステム
CN114846425A (zh) 移动机器人的预测和规划
US20210049415A1 (en) Behaviour Models for Autonomous Vehicle Simulators
CN104317297A (zh) 一种未知环境下机器人避障方法
CN114003059A (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
AU2018357056B2 (en) Positioning at least one vehicle in relation to a set of moving targets
WO2023148297A1 (en) Trajectory generation for mobile agents
Schlenoff et al. Using 4D/RCS to address AI knowledge integration
Hill Jr et al. Anticipating where to look: predicting the movements of mobile agents in complex terrain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication