CN114924587B - 一种无人机路径规划方法 - Google Patents

一种无人机路径规划方法 Download PDF

Info

Publication number
CN114924587B
CN114924587B CN202210593292.9A CN202210593292A CN114924587B CN 114924587 B CN114924587 B CN 114924587B CN 202210593292 A CN202210593292 A CN 202210593292A CN 114924587 B CN114924587 B CN 114924587B
Authority
CN
China
Prior art keywords
action
network
position information
current
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210593292.9A
Other languages
English (en)
Other versions
CN114924587A (zh
Inventor
王�琦
孔富晨
王栋
高尚
于化龙
崔弘杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210593292.9A priority Critical patent/CN114924587B/zh
Publication of CN114924587A publication Critical patent/CN114924587A/zh
Application granted granted Critical
Publication of CN114924587B publication Critical patent/CN114924587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种无人机路径规划方法,获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;执行最终动作,更新智能体的位置信息;循环执行,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则当前路径为最佳路径。本发明在人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时减少深度Q网络的试错频率,增加算法鲁棒性。

Description

一种无人机路径规划方法
技术领域
本发明涉及无人机技术领域,具体涉及一种无人机路径规划方法。
背景技术
无人机因其小巧、便捷、灵活等诸多优点在娱乐、医药、采矿、救援、教育、军事、航空航天、农业检测、电力巡检等诸多科研领域得到了广泛的应用,在加速科技发展,改善生活水平上的作用至关重要。然而多数无人机所能搭载的能源十分有限,导致无人机的续航时间不能充分满足任务的需要,对无人机的活动范围有很大影响,极大的限制了无人机的使用。为适应任务需要并在能量约束条件下提升无人机完成作业要求的能力,需要对无人机的飞行路径进行规划。
无人机高效完成作业任务的重要前提之一是规划合理的最优移动路径,无人机路径规划是指为了保证无人机完成特定的飞行任务,并且在完成任务的过程中根据无人机自身的能量限制与实际任务需求,躲避障碍、威胁区域而设计出最优航迹路线的过程。现有的路径规划算法可分为三大类,第一类为根据预先载入的环境信息,应用传统图论与其他一些知识解决问题的经典算法,包括概率路图法(PRM)、快速搜索随机树(RRT)、A-star算法、人工势场法(APF)等算法。第二类为模拟某种形式的人的推理、知识和专业知识以解决一个(或多个)给定问题的智能算法,包括遗传算法、粒子群算法、蚁群算法、模拟退火算法等。第三类为机器学习算法,路径规划上最常用的机器学习方法之一为强化学习,包括根据现有的专家策略训练智能体的模仿学习算法、深度Q网络(DQN),深度确定性策略梯度(DDPG)与等算法。
人工势场法(Artifical Potential Field,APF)是解决路径规划问题的常用方法之一。人工势场法假设智能体在空间中受到虚拟力场的作用,目标点对无人机会产生引力,引导智能体前进,障碍物会对智能体产生斥力,使智能体能够避开障碍物。这种方法易于表达和实现,易于与其他算法结合,然而当目标点附近存在一个或多个障碍物时,会产生目标点不可达的问题。
强化学习作为机器学习的一个重要领域,讨论的是智能体如何在一个不确定的环境中去极大化它能获得的回报或者实现特定的目标。深度Q网络是强化学习解决路径规划问题的常用方法之一,当状态空间和可选动作数量庞大或者连续时,起到将状态空间映射到动作空间作用的Q表也会十分复杂,深度Q网络使用神经网络简化了这一映射过程。虽然状态空间到动作空间的映射通过神经网络得到了简化,但是深度Q网络仍然需要通过智能体的不断试错不断与环境交互来逐渐收敛到理想的结果,这将需要花费一定的时间成本,消耗较多的计算资源。
模仿学习是强化学习一个重要的分支领域,也是解决路径规划问题的常用方法之一。不同于深度Q网络,模仿学习中智能体需要从提供的人类专家的决策数据中进行学习,通过训练使模型生成的分布与人类专家决策生成的分布相匹配。然而这种方法需要在模型训练之前收集大量的专家决策数据,并且由于强化学习是序列决策的过程,模型策略与人类专家策略的误差会在轨迹搜索的过程中不断累积,导致最终结果无法满足要求。
发明内容
本发明提供了一种无人机路径规划方法,以解决现有技术中采用深度DQN网络进行路径规划时效率不够高的问题。
本发明提供了一种无人机路径规划方法,具体步骤如下:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;
将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。
进一步地,所述动作角度阀值的选取范围为45°至90°。
进一步地,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。
进一步地,所述通过训练集对深度Q网络进行更新的具体方法为:
步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;
步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;
步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。
进一步地,所述奖励函数的公式为:
其中,ds-1与ds是智能体前一个位置和当前位置与终点之间的距离,obi是智能体当前位置与第i个障碍物之间的距离,battery为当前智能体电池的电量,α、β、δ为用于平衡重要性的参数,fi∈{0,1}为当前执行任务的标志,当第i个子任务被激活时fi=1,当第i个子任务待激活或者执行完毕时fi=0。
本发明的有益效果:
1、人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时也能减少深度Q网络智能体搜索路径时的试错频率,增加算法的鲁棒性。
2、采用了具有两种输出的神经网络结构,其中该网络输出的动作分布能提高Q值收敛的速度,对Q值的更新起到了辅助作用。
3、将网络输出Q值的均方误差损失与动作分布的交叉熵损失的加权和作为最终损失,提高了网络的更新效率。
4、本发明所采用的奖励函数将智能体的历史位置、当前位置以及与障碍物的距离以及智能体当前的电量信息都考虑进去了,且能够适应环境中存在多任务点的情况,避免针对不同任务点重复设计奖励函数的情况。
5、将人工势场法作为行为克隆算法的专家策略,避免了人为手动去设计或者去收集专家策略。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明所使用的多任务点网格环境模型;
图2为本发明中通过人工势场法确定智能体可选动作示意图;
图3为本发明采用的改进的神经网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明具体实施例提供了一种无人机路径规划方法,包括如下步骤:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理,具体包括:
步骤11:获取无人机的待进行路径规划环境的信息,建立如图一的30x30的栅格化环境;
步骤12:从环境中提取出起点、障碍物、各个任务点的位置信息并以坐标的形式进行存储。
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区,具体包括:
步骤21:设置奖励函数的折扣率γ=0.9、奖励函数的参数α=1、β=1.5、δ=3、动作角度阈值为90°、经验回放缓冲区N=10000、ε-贪心算法的ε=0.99,每次从经验回放缓冲区采样的批次大小为batch_size=16;
步骤22:初始化人工势场法的引力参数与斥力参数;
步骤23:初始化深度Q网络的目标网络与策略网络的权重;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择势场下降最快的方向上的动作记为第二动作,具体包括:
步骤31:获取智能体当前位置信息、下一任务点位置信息;
步骤32:将智能体当前位置信息输入深度Q网络的策略网络中,选择使Q值最大的动作作为第一动作;
步骤33:将智能体当前位置信息与下一任务点位置信息输入人工势场法中,选择使势场下降最快的动作作为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,如图2所示,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择势场下降最快的方向上的动作记为第三动作,具体包括:
步骤51:执行最终动作,更新智能体位置信息;
步骤52:智能体根据当前状态与奖励函数获得相应奖励;
步骤53:将当前智能体的位置信息与下一任务点位置信息输入人工势场法,选择使势场下降最快的方向上的动作记为第三动作。
步骤54:将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前状态的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新,具体包括:
步骤61:从经验回放缓冲区中采样一个batch_size批次大小的数据;
步骤62:将采样得到的前一次智能体的位置信息输入策略网络中,得到策略网络输出动作对应的第一组Q值以及第一组动作分布,并根据这组动作分布确定第一组动作;
步骤63:将采样得到的前智能体的位置信息输入到目标网络中,得到目标网络输出动作对应的第二组Q值以及第二组动作分布,并根据这组动作分布确定第二组动作;
步骤64:判断第二组每个批次动作与采样得到的对应的每个批次第三动作之间的夹角是否小于阈值,若是则选取第二组每个批次动作对应的Q值,否则选取每个批次第三动作对应的Q值;
步骤65:根据步骤64中选择的Q值通过公式计算出目标Q值;
步骤66:选取第一组Q值中每个批次最大的Q值,计算其与对应目标Q值之间的均方误差;
步骤67:判断第一组每个批次动作与采样得到的对应的每个批次第二动作之间的夹角是否小于阈值,若是则选取第一组每个批次动作作为目标动作,否则选取每个批次第二动作为目标动作;
步骤68:计算第一组动作分布与目标动作之间的交叉熵;
步骤69:将步骤66得到的均方误差与步骤68得到的交叉熵计算加权和作为最终损失,并使用梯度下降与反向传播对网络进行更新。
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,也就是两个路径的差距不大,路径规划已经完成时,则认为智能体完成训练,当前路径为最佳路径。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (5)

1.一种无人机路径规划方法,其特征在于,包括如下步骤:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;
将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。
2.如权利要求1所述的无人机路径规划方法,其特征在于,所述动作角度阀值的选取范围为45°至90°。
3.如权利要求1所述的无人机路径规划方法,其特征在于,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。
4.如权利要求1或3所述的无人机路径规划方法,其特征在于,所述通过训练集对深度Q网络进行更新的具体方法为:
步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;
步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;
步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。
5.如权利要求1所述的无人机路径规划方法,其特征在于,所述奖励函数的公式为:
其中,ds-1与ds是智能体前一个位置和当前位置与终点之间的距离,obi是智能体当前位置与第i个障碍物之间的距离,battery为当前智能体电池的电量,α、β、δ为用于平衡重要性的参数,fi∈{0,1}为当前执行任务的标志,当第i个子任务被激活时fi=1,当第i个子任务待激活或者执行完毕时fi=0。
CN202210593292.9A 2022-05-27 2022-05-27 一种无人机路径规划方法 Active CN114924587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210593292.9A CN114924587B (zh) 2022-05-27 2022-05-27 一种无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210593292.9A CN114924587B (zh) 2022-05-27 2022-05-27 一种无人机路径规划方法

Publications (2)

Publication Number Publication Date
CN114924587A CN114924587A (zh) 2022-08-19
CN114924587B true CN114924587B (zh) 2024-03-19

Family

ID=82810199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210593292.9A Active CN114924587B (zh) 2022-05-27 2022-05-27 一种无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN114924587B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117444A2 (en) * 2006-03-31 2007-10-18 Yinghe Hu Protein detection by aptamers
WO2014134225A2 (en) * 2013-02-26 2014-09-04 Pronutria, Inc. Nutritive polypeptides, formulations and methods for treating disease and improving muscle health and maintenance
CN104300541A (zh) * 2014-09-15 2015-01-21 泰州学院 一种有源电力滤波器控制延时动态预测补偿方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN113328440A (zh) * 2021-06-22 2021-08-31 华北电力大学(保定) 一种电动汽车充电站plc电路有源滤波控制方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117444A2 (en) * 2006-03-31 2007-10-18 Yinghe Hu Protein detection by aptamers
WO2014134225A2 (en) * 2013-02-26 2014-09-04 Pronutria, Inc. Nutritive polypeptides, formulations and methods for treating disease and improving muscle health and maintenance
CN104300541A (zh) * 2014-09-15 2015-01-21 泰州学院 一种有源电力滤波器控制延时动态预测补偿方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN113328440A (zh) * 2021-06-22 2021-08-31 华北电力大学(保定) 一种电动汽车充电站plc电路有源滤波控制方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Novel Autonomous Algorithms of Path Planning for Mobile Robots: A Survey;Jian Zhang;Australian & New Zealand Control Conference (ANZCC);20211126;167-172 *
基于DDPG-PID的机器人动态目标跟踪与避障控制研究;刘勇,等;南京航空航天大学学报;20220228;第54卷(第1期);41-50 *

Also Published As

Publication number Publication date
CN114924587A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN108133258A (zh) 一种混合全局优化方法
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN108830373A (zh) 仿欧椋鸟群集飞行的大规模智能群体自主协同的建模方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN111159489B (zh) 一种搜索方法
Abed et al. A review on path planning algorithms for mobile robots
CN107179077A (zh) 一种基于elm‑lrf的自适应视觉导航方法
CN113919485A (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
Belmonte-Baeza et al. Meta reinforcement learning for optimal design of legged robots
Kaveh et al. Artificial coronary circulation system: A new bio-inspired metaheuristic algorithm
Li et al. SADRL: Merging human experience with machine intelligence via supervised assisted deep reinforcement learning
Yan et al. Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning
CN114924587B (zh) 一种无人机路径规划方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN116663637A (zh) 一种多层级智能体同步嵌套训练方法
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
Zhang et al. Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning
Wang et al. Migration ratio model analysis of biogeography-based optimization algorithm and performance comparison
Li Deep reinforcement learning on wind power optimization
Zhang et al. A UAV autonomous maneuver decision-making algorithm for route guidance
Lin et al. Exploration-efficient deep reinforcement learning with demonstration guidance for robot control
Li et al. Research on Path Planning of Cloud Robot in Dynamic Environment Based on Improved DDPG Algorithm
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant