CN114924587A - 一种无人机路径规划方法 - Google Patents
一种无人机路径规划方法 Download PDFInfo
- Publication number
- CN114924587A CN114924587A CN202210593292.9A CN202210593292A CN114924587A CN 114924587 A CN114924587 A CN 114924587A CN 202210593292 A CN202210593292 A CN 202210593292A CN 114924587 A CN114924587 A CN 114924587A
- Authority
- CN
- China
- Prior art keywords
- action
- network
- agent
- current
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000009471 action Effects 0.000 claims abstract description 119
- 239000003795 chemical substances by application Substances 0.000 claims description 49
- 238000009826 distribution Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种无人机路径规划方法,获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;执行最终动作,更新智能体的位置信息;循环执行,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则当前路径为最佳路径。本发明在人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时减少深度Q网络的试错频率,增加算法鲁棒性。
Description
技术领域
本发明涉及无人机技术领域,具体涉及一种无人机路径规划方法。
背景技术
无人机因其小巧、便捷、灵活等诸多优点在娱乐、医药、采矿、救援、教育、军事、航空航天、农业检测、电力巡检等诸多科研领域得到了广泛的应用,在加速科技发展,改善生活水平上的作用至关重要。然而多数无人机所能搭载的能源十分有限,导致无人机的续航时间不能充分满足任务的需要,对无人机的活动范围有很大影响,极大的限制了无人机的使用。为适应任务需要并在能量约束条件下提升无人机完成作业要求的能力,需要对无人机的飞行路径进行规划。
无人机高效完成作业任务的重要前提之一是规划合理的最优移动路径,无人机路径规划是指为了保证无人机完成特定的飞行任务,并且在完成任务的过程中根据无人机自身的能量限制与实际任务需求,躲避障碍、威胁区域而设计出最优航迹路线的过程。现有的路径规划算法可分为三大类,第一类为根据预先载入的环境信息,应用传统图论与其他一些知识解决问题的经典算法,包括概率路图法(PRM)、快速搜索随机树(RRT)、A-star算法、人工势场法(APF)等算法。第二类为模拟某种形式的人的推理、知识和专业知识以解决一个(或多个)给定问题的智能算法,包括遗传算法、粒子群算法、蚁群算法、模拟退火算法等。第三类为机器学习算法,路径规划上最常用的机器学习方法之一为强化学习,包括根据现有的专家策略训练智能体的模仿学习算法、深度Q网络(DQN),深度确定性策略梯度(DDPG)与等算法。
人工势场法(Artifical Potential Field,APF)是解决路径规划问题的常用方法之一。人工势场法假设智能体在空间中受到虚拟力场的作用,目标点对无人机会产生引力,引导智能体前进,障碍物会对智能体产生斥力,使智能体能够避开障碍物。这种方法易于表达和实现,易于与其他算法结合,然而当目标点附近存在一个或多个障碍物时,会产生目标点不可达的问题。
强化学习作为机器学习的一个重要领域,讨论的是智能体如何在一个不确定的环境中去极大化它能获得的回报或者实现特定的目标。深度Q网络是强化学习解决路径规划问题的常用方法之一,当状态空间和可选动作数量庞大或者连续时,起到将状态空间映射到动作空间作用的Q表也会十分复杂,深度Q网络使用神经网络简化了这一映射过程。虽然状态空间到动作空间的映射通过神经网络得到了简化,但是深度Q网络仍然需要通过智能体的不断试错不断与环境交互来逐渐收敛到理想的结果,这将需要花费一定的时间成本,消耗较多的计算资源。
模仿学习是强化学习一个重要的分支领域,也是解决路径规划问题的常用方法之一。不同于深度Q网络,模仿学习中智能体需要从提供的人类专家的决策数据中进行学习,通过训练使模型生成的分布与人类专家决策生成的分布相匹配。然而这种方法需要在模型训练之前收集大量的专家决策数据,并且由于强化学习是序列决策的过程,模型策略与人类专家策略的误差会在轨迹搜索的过程中不断累积,导致最终结果无法满足要求。
发明内容
本发明提供了一种无人机路径规划方法,以解决现有技术中采用深度DQN网络进行路径规划时效率不够高的问题。
本发明提供了一种无人机路径规划方法,具体步骤如下:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;
将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。
进一步地,所述动作角度阀值的选取范围为45°至90°。
进一步地,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。
进一步地,所述通过训练集对深度Q网络进行更新的具体方法为:
步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;
步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;
步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。
进一步地,所述奖励函数的公式为:
其中,ds-1与ds是智能体前一个位置和当前位置与终点之间的距离,obi是智能体当前位置与第i个障碍物之间的距离,battery为当前智能体电池的电量,α、β、δ为用于平衡重要性的参数,fi∈{0,1}为当前执行任务的标志,当第i个子任务被激活时fi=1,当第i个子任务待激活或者执行完毕时fi=0。
本发明的有益效果:
1、人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时也能减少深度Q网络智能体搜索路径时的试错频率,增加算法的鲁棒性。
2、采用了具有两种输出的神经网络结构,其中该网络输出的动作分布能提高Q值收敛的速度,对Q值的更新起到了辅助作用。
3、将网络输出Q值的均方误差损失与动作分布的交叉熵损失的加权和作为最终损失,提高了网络的更新效率。
4、本发明所采用的奖励函数将智能体的历史位置、当前位置以及与障碍物的距离以及智能体当前的电量信息都考虑进去了,且能够适应环境中存在多任务点的情况,避免针对不同任务点重复设计奖励函数的情况。
5、将人工势场法作为行为克隆算法的专家策略,避免了人为手动去设计或者去收集专家策略。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明所使用的多任务点网格环境模型;
图2为本发明中通过人工势场法确定智能体可选动作示意图;
图3为本发明采用的改进的神经网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明具体实施例提供了一种无人机路径规划方法,包括如下步骤:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理,具体包括:
步骤11:获取无人机的待进行路径规划环境的信息,建立如图一的30x30的栅格化环境;
步骤12:从环境中提取出起点、障碍物、各个任务点的位置信息并以坐标的形式进行存储。
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区,具体包括:
步骤21:设置奖励函数的折扣率γ=0.9、奖励函数的参数α=1、β=1.5、δ=3、动作角度阈值为90°、经验回放缓冲区N=10000、ε-贪心算法的ε=0.99,每次从经验回放缓冲区采样的批次大小为batch_size=16;
步骤22:初始化人工势场法的引力参数与斥力参数;
步骤23:初始化深度Q网络的目标网络与策略网络的权重;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择势场下降最快的方向上的动作记为第二动作,具体包括:
步骤31:获取智能体当前位置信息、下一任务点位置信息;
步骤32:将智能体当前位置信息输入深度Q网络的策略网络中,选择使Q值最大的动作作为第一动作;
步骤33:将智能体当前位置信息与下一任务点位置信息输入人工势场法中,选择使势场下降最快的动作作为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,如图2所示,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择势场下降最快的方向上的动作记为第三动作,具体包括:
步骤51:执行最终动作,更新智能体位置信息;
步骤52:智能体根据当前状态与奖励函数获得相应奖励;
步骤53:将当前智能体的位置信息与下一任务点位置信息输入人工势场法,选择使势场下降最快的方向上的动作记为第三动作。
步骤54:将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前状态的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新,具体包括:
步骤61:从经验回放缓冲区中采样一个batch_size批次大小的数据;
步骤62:将采样得到的前一次智能体的位置信息输入策略网络中,得到策略网络输出动作对应的第一组Q值以及第一组动作分布,并根据这组动作分布确定第一组动作;
步骤63:将采样得到的前智能体的位置信息输入到目标网络中,得到目标网络输出动作对应的第二组Q值以及第二组动作分布,并根据这组动作分布确定第二组动作;
步骤64:判断第二组每个批次动作与采样得到的对应的每个批次第三动作之间的夹角是否小于阈值,若是则选取第二组每个批次动作对应的Q值,否则选取每个批次第三动作对应的Q值;
步骤65:根据步骤64中选择的Q值通过公式计算出目标Q值;
步骤66:选取第一组Q值中每个批次最大的Q值,计算其与对应目标Q值之间的均方误差;
步骤67:判断第一组每个批次动作与采样得到的对应的每个批次第二动作之间的夹角是否小于阈值,若是则选取第一组每个批次动作作为目标动作,否则选取每个批次第二动作为目标动作;
步骤68:计算第一组动作分布与目标动作之间的交叉熵;
步骤69:将步骤66得到的均方误差与步骤68得到的交叉熵计算加权和作为最终损失,并使用梯度下降与反向传播对网络进行更新。
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,也就是两个路径的差距不大,路径规划已经完成时,则认为智能体完成训练,当前路径为最佳路径。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (5)
1.一种无人机路径规划方法,其特征在于,包括如下步骤:
步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;
步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;
步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;
步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;
将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;
步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;
步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。
2.如权利要求1所述的无人机路径规划方法,其特征在于,所述动作角度阀值的选取范围为45°至90°。
3.如权利要求1所述的无人机路径规划方法,其特征在于,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。
4.如权利要求1或3所述的无人机路径规划方法,其特征在于,所述通过训练集对深度Q网络进行更新的具体方法为:
步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;
步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;
步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593292.9A CN114924587B (zh) | 2022-05-27 | 2022-05-27 | 一种无人机路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210593292.9A CN114924587B (zh) | 2022-05-27 | 2022-05-27 | 一种无人机路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114924587A true CN114924587A (zh) | 2022-08-19 |
CN114924587B CN114924587B (zh) | 2024-03-19 |
Family
ID=82810199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210593292.9A Active CN114924587B (zh) | 2022-05-27 | 2022-05-27 | 一种无人机路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114924587B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007117444A2 (en) * | 2006-03-31 | 2007-10-18 | Yinghe Hu | Protein detection by aptamers |
WO2014134225A2 (en) * | 2013-02-26 | 2014-09-04 | Pronutria, Inc. | Nutritive polypeptides, formulations and methods for treating disease and improving muscle health and maintenance |
CN104300541A (zh) * | 2014-09-15 | 2015-01-21 | 泰州学院 | 一种有源电力滤波器控制延时动态预测补偿方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
CN113328440A (zh) * | 2021-06-22 | 2021-08-31 | 华北电力大学(保定) | 一种电动汽车充电站plc电路有源滤波控制方法 |
CN113391633A (zh) * | 2021-06-21 | 2021-09-14 | 南京航空航天大学 | 一种面向城市环境的移动机器人融合路径规划方法 |
CN114089762A (zh) * | 2021-11-22 | 2022-02-25 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
-
2022
- 2022-05-27 CN CN202210593292.9A patent/CN114924587B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007117444A2 (en) * | 2006-03-31 | 2007-10-18 | Yinghe Hu | Protein detection by aptamers |
WO2014134225A2 (en) * | 2013-02-26 | 2014-09-04 | Pronutria, Inc. | Nutritive polypeptides, formulations and methods for treating disease and improving muscle health and maintenance |
CN104300541A (zh) * | 2014-09-15 | 2015-01-21 | 泰州学院 | 一种有源电力滤波器控制延时动态预测补偿方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
CN113391633A (zh) * | 2021-06-21 | 2021-09-14 | 南京航空航天大学 | 一种面向城市环境的移动机器人融合路径规划方法 |
CN113328440A (zh) * | 2021-06-22 | 2021-08-31 | 华北电力大学(保定) | 一种电动汽车充电站plc电路有源滤波控制方法 |
CN114089762A (zh) * | 2021-11-22 | 2022-02-25 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
CN114415663A (zh) * | 2021-12-15 | 2022-04-29 | 北京工业大学 | 基于深度强化学习的路径规划方法及系统 |
CN114518770A (zh) * | 2022-03-01 | 2022-05-20 | 西安交通大学 | 一种电势场和深度强化学习融合的无人机路径规划方法 |
Non-Patent Citations (2)
Title |
---|
JIAN ZHANG: "Novel Autonomous Algorithms of Path Planning for Mobile Robots: A Survey", AUSTRALIAN & NEW ZEALAND CONTROL CONFERENCE (ANZCC), 26 November 2021 (2021-11-26), pages 167 - 172, XP034040384, DOI: 10.1109/ANZCC53563.2021.9628381 * |
刘勇,等: "基于DDPG-PID的机器人动态目标跟踪与避障控制研究", 南京航空航天大学学报, vol. 54, no. 1, 28 February 2022 (2022-02-28), pages 41 - 50 * |
Also Published As
Publication number | Publication date |
---|---|
CN114924587B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
CN108133258B (zh) | 一种混合全局优化方法 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN113467515B (zh) | 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法 | |
CN111159489B (zh) | 一种搜索方法 | |
CN112469050B (zh) | 一种基于改进灰狼优化器的wsn三维覆盖增强方法 | |
CN115081595A (zh) | 基于改进天牛须算法和蝙蝠算法融合的神经网络优化方法 | |
Belmonte-Baeza et al. | Meta reinforcement learning for optimal design of legged robots | |
Ha et al. | Evolutionary optimization for parameterized whole-body dynamic motor skills | |
Wang et al. | Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground | |
Li et al. | SADRL: Merging human experience with machine intelligence via supervised assisted deep reinforcement learning | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
Yan et al. | Path Planning for Mobile Robot's Continuous Action Space Based on Deep Reinforcement Learning | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
CN114924587B (zh) | 一种无人机路径规划方法 | |
Agarwal et al. | Model learning for look-ahead exploration in continuous control | |
Lin et al. | Exploration-efficient deep reinforcement learning with demonstration guidance for robot control | |
Zhang et al. | Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Li et al. | Research on Path Planning of Cloud Robot in Dynamic Environment Based on Improved DDPG Algorithm | |
Zhang et al. | A UAV autonomous maneuver decision-making algorithm for route guidance | |
Li | Deep reinforcement learning on wind power optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |