CN115993831B - 基于深度强化学习的机器人无目标网络的路径规划方法 - Google Patents
基于深度强化学习的机器人无目标网络的路径规划方法 Download PDFInfo
- Publication number
- CN115993831B CN115993831B CN202310288721.6A CN202310288721A CN115993831B CN 115993831 B CN115993831 B CN 115993831B CN 202310288721 A CN202310288721 A CN 202310288721A CN 115993831 B CN115993831 B CN 115993831B
- Authority
- CN
- China
- Prior art keywords
- network
- reinforcement learning
- robot
- training
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
Description
技术领域
本发明属于智能体路径规划技术领域,具体涉及基于深度强化学习的机器人无目标网络的路径规划方法。
背景技术
随着近些年人工智能技术的快速发展,从遥控潜水器(ROVS)到无人机(UAVs),路径规划成为研究的重要课题之一。通过指定目标位置或使用传感器而不告知智能体其他环境信息,使其找到一条不碰撞障碍物并能最短到达目标点的路径。传统的路径规划算法在面对动态环境时的实时计算时间开销是巨大的。这些方法很难推广到未知情况。为此,需要使用新的框架解决传统路径规划中的巨大时间开销和面对动态环境时难以解决的问题。
尽管在网络模型中添加不同方法和模块来更好地完成工作是不断改进的方向,但已有的工作表明,深度强化学习具有很强的脆弱性和敏感性。深度 RL 算法的大部分脆弱性归因于深度神经网络在 RL 任务中应用的预测问题的非平稳性。在中目标网络的使用增加了网络更新过程中的稳定性,但却使其偏离了强化学习的马尔科夫性质。
强化学习通过让智能体在环境中不断探索并获得回报,来逐渐优化策略。强化学习满足马尔科夫性质,即未来收益仅取决于当前状态,而和过去的状态无关。在Q-learing中,智能体以最小化预测动作价值函数和目标函数/>之间的距离为更新目标,其中/>定义为:
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供基于深度强化学习的机器人无目标网络的路径规划方法,为基于深度强化学习中智能体路径规划问题提供了不使用目标网络,得到更为平滑的路径的算法,在删除目标网络后可行的最大化算子,并且得到的路径轨迹相对平滑,可以节省网络训练过程中的时间,有效降低训练过程中内存占用率,能够使现有深度强化学习保持在线强化学习的准则。
为实现上述技术目的,本发明采取的技术方案为:
基于深度强化学习的机器人无目标网络的路径规划方法,包括:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1使用dueling deep Q-network作为模型中的骨干网络,具体包括:
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
上述的步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
其中,t表示当前轮数,δ表示偏移量,x表示随环境变化的变量;
上述的步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
上述的步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
上述的自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
上述的使用gym自定义动态环境还包括:
动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。
本发明具有以下有益效果:
本发明中删除目标网络,并基于深度强化学习提出了一种融合dueling network、优先经验回放和mellow operator的算法,减少网络的过估计,并提出了一种新的动态方法进行动作选择。实现了端到端的模型,用以解决路径规划收敛缓慢,路径不平滑等问题。本发明提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法,使得到的轨迹趋于平滑,相比于传统的智能体路径规划方法,本发明不依赖于目标网路即可以正常工作,能够处理动态环境下任务,针对不同的障碍物、目标点具有较强的鲁棒性,具体包括:
1、本发明使用dueling deep Q-network作为模型中的骨干网络,增加智能体对于环境的感知程度,获取更优的最终网络模型,可提升模型的最终训练效果,针对某些环境采取更平滑的动作;
2、本发明在网络训练时使用优先经验回放代替原本的经验回放,实现对于更重要样本的抽取,并保证TD-error值为0的情况下也有被抽取到的概率,可更大概率抽取到有学习价值的样本,提升网络学习效率;
3、本发明删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,提供了另一种不依赖于目标网络进行深度强化学习的方案,加快收敛速度,节省内存开销;
4、本发明使用gym自定义动态环境进行网络的训练并得到网络权重模型,可模拟真实环境设计惩罚函数,使得到的网络模型能有效应用于真实环境中。
附图说明
图1 为本发明基于无目标网络的深度强化学习路径规划方法的一种可选的流程图;
图2为路径规划随机产生地图示例;
图3为未使用目标网络的mellow算子和使用目标网络的max 算子的对比结果;
图4为不同参数w下的实施例对比结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
基于深度强化学习的机器人无目标网络的路径规划方法,相比于传统的智能体路径规划方法,不依赖于目标网路即可以正常工作,能够处理动态环境下任务,针对不同的障碍物、目标点具有较强的鲁棒性。具体来说,图1示出该方法的一种可选的流程图,如图1所示,该方法包括如下步骤:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
在网络训练时使用优先经验回放代替原本的经验回放;
步骤3、删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
其有益效果是,提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法,使得到的轨迹趋于平滑。
本专利算法的伪代码过程如下:
compute TD-error;
update transition priority ;
end
end
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算该状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
a和β分别是两个输出流的参数。
基于以上,增加智能体对于环境的感知程度,获取更优的最终网络模型。
其有益效果是,提升模型的最终训练效果,针对某些环境采取更平滑的动作。
在实施例中,所述步骤2在网络训练时使用优先经验回放代替原本的经验回放,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
进一步地,优先经验回放选择样本训练,包括:
优化的目标就是尽可能减少此项的值,让Q函数更接近目标函数。如果此项值较大的话,那么更应该从buffer中选取该条经验值。
但一味学习TD-error较大的情况可能会降低网络泛化能力,同时也要保证即使TD-error值很小的样本也有概率被抽取到。
这是一种间接的方案,对异常值不敏感。
基于以上实现对于更重要样本的抽取,并保证TD-error值为0的情况下也有被抽取到的概率。
其有益效果是,更大概率抽取到有学习价值的样本,提升网络学习效率。
相比于传统的方法更好地解决了探索-利用困境。
在实施例中,所述步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
其有益效果是,提供了另一种不依赖于目标网络进行深度强化学习的方案,加快收敛速度,节省内存开销。
进一步地,删除目标网络并使用mellow算子作为最大化算子进行网络更新,包括:
其中w是大于0的参数。
对于任意的w>0,mellow(x)是一个凸函数。
对于任意的w>0,和x,mellow(x)是一个非递减函数。并且可以通过改变x的值可以降低高估的幅度。缓解了强化学习中一直存在的高估问题。
在实施例中,所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
基于以上各步骤,使所得到的网络模型应用于实际情况时具有较强的鲁棒性。
其有益效果是,模拟真实环境设计惩罚函数,使得到的网络模型能有效应用于真实环境中。
在实施例中,所述自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
在动作和状态中添加了加性白色高斯噪声。
其有益效果是,使智能体尽量避免碰撞障碍物的风险,并找到到达目标点的有效路径。
进一步地,使用gym自定义动态环境进行网络的训练并得到网络权重模型。包括:为了模仿真实的情况,没有使用状态环境简单的栅格地图。如图2所示随机产生的一次地图中,白色方块代表障碍物,两圆点分别代表终点,并且智能体拥有5个探测器。在每个回合开始时,障碍物、目标位置和智能体都会随机改变位置。动作空间由前进加上左右方向三个离散的动作组成。另外在动作和状态中添加了加性白色高斯噪声。
具体地,定义碰到障碍物或者四周墙壁获得-200的惩罚,并终止当前回合。在智能体到达目标点时获得200的奖励。在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚,以加速收敛。最终训练结果如图3所示,并和使用目标网络的max算子进行对比。
具体地,如图4所示,分别使用不同参数的δ进行模型训练,可以看出本发明对于该参数在可接受的训练时长内都可以完成收敛,并没有因为参数δ的不同而收敛于不同值,采用不同参数智能体都可以找到近似最优路径,说明了该算法具有良好的鲁棒性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,包括:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次;
使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次的公式为:
其中,t表示当前轮数,δ表示偏移量,x表示随环境变化的变量;
训练开始时,ε较小,智能体会有更多的机会去探索,随着训练回合的增加,ε逐渐增大,智能体将更有概率选择最优动作;
步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
所述mellow算子,表示为:
其中w是大于0的参数;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
2.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤1使用dueling deep Q-network作为模型中的骨干网络,具体包括:
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
3.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
4.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
5.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
6.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
7.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述使用gym自定义动态环境还包括:
动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310288721.6A CN115993831B (zh) | 2023-03-23 | 2023-03-23 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310288721.6A CN115993831B (zh) | 2023-03-23 | 2023-03-23 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115993831A CN115993831A (zh) | 2023-04-21 |
CN115993831B true CN115993831B (zh) | 2023-06-09 |
Family
ID=85993819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310288721.6A Active CN115993831B (zh) | 2023-03-23 | 2023-03-23 | 基于深度强化学习的机器人无目标网络的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115993831B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187611B (zh) * | 2023-04-25 | 2023-07-25 | 南方科技大学 | 一种多智能体路径规划方法及终端 |
CN117193378B (zh) * | 2023-10-24 | 2024-04-12 | 安徽大学 | 基于改进ppo算法的多无人机路径规划方法 |
CN117313826B (zh) * | 2023-11-30 | 2024-02-23 | 安徽大学 | 一种基于强化学习的任意角度倒立摆模型训练方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754085A (zh) * | 2019-01-09 | 2019-05-14 | 中国人民解放军国防科技大学 | 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质 |
CN109828570A (zh) * | 2019-02-18 | 2019-05-31 | 哈尔滨工程大学 | 一种自适应边界层水面无人艇控制导引方法 |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
WO2020119481A1 (zh) * | 2018-12-11 | 2020-06-18 | 深圳先进技术研究院 | 一种基于深度学习的网络流量分类方法、系统及电子设备 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN113159432A (zh) * | 2021-04-28 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度强化学习的多智能体路径规划方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN113885329A (zh) * | 2021-10-20 | 2022-01-04 | 沈阳化工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114859911A (zh) * | 2022-04-28 | 2022-08-05 | 云南红岭云科技股份有限公司 | 一种基于drl的四足机器人路径规划方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105029B (zh) * | 2018-10-29 | 2024-04-16 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
-
2023
- 2023-03-23 CN CN202310288721.6A patent/CN115993831B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119481A1 (zh) * | 2018-12-11 | 2020-06-18 | 深圳先进技术研究院 | 一种基于深度学习的网络流量分类方法、系统及电子设备 |
CN109754085A (zh) * | 2019-01-09 | 2019-05-14 | 中国人民解放军国防科技大学 | 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质 |
CN109828570A (zh) * | 2019-02-18 | 2019-05-31 | 哈尔滨工程大学 | 一种自适应边界层水面无人艇控制导引方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN112904848A (zh) * | 2021-01-18 | 2021-06-04 | 长沙理工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN112819253A (zh) * | 2021-03-02 | 2021-05-18 | 华东师范大学 | 一种无人机避障和路径规划装置及方法 |
CN113159432A (zh) * | 2021-04-28 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度强化学习的多智能体路径规划方法 |
CN113467481A (zh) * | 2021-08-11 | 2021-10-01 | 哈尔滨工程大学 | 一种基于改进Sarsa算法的路径规划方法 |
CN113885329A (zh) * | 2021-10-20 | 2022-01-04 | 沈阳化工大学 | 一种基于深度强化学习的移动机器人路径规划方法 |
CN114489059A (zh) * | 2022-01-13 | 2022-05-13 | 沈阳建筑大学 | 基于d3qn-per移动机器人路径规划方法 |
CN114859911A (zh) * | 2022-04-28 | 2022-08-05 | 云南红岭云科技股份有限公司 | 一种基于drl的四足机器人路径规划方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115993831A (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115993831B (zh) | 基于深度强化学习的机器人无目标网络的路径规划方法 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
CN111142522B (zh) | 一种分层强化学习的智能体控制方法 | |
CN112132263A (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN113159432A (zh) | 一种基于深度强化学习的多智能体路径规划方法 | |
CN109143852B (zh) | 城市环境下智能驾驶车辆环境自适应汇入方法 | |
CN113298260B (zh) | 一种基于深度强化学习的对抗仿真推演方法 | |
Huang et al. | Deductive reinforcement learning for visual autonomous urban driving navigation | |
CN110181508A (zh) | 水下机器人三维航路规划方法及系统 | |
CN114895707B (zh) | 基于变频蝙蝠算法的农业无人机路径规划方法及系统 | |
CN112550314A (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN111665861A (zh) | 一种轨迹跟踪控制方法、装置、设备和存储介质 | |
CN113281999A (zh) | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Yu et al. | Hierarchical reinforcement learning combined with motion primitives for automated overtaking | |
CN116360454A (zh) | 行人环境下基于深度强化学习的机器人路径避碰规划方法 | |
CN115009291B (zh) | 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统 | |
CN116243727A (zh) | 一种渐进式深度强化学习的无人载具对抗与避障方法 | |
Zhou et al. | SA-SGAN: A Vehicle Trajectory Prediction Model Based on Generative Adversarial Networks | |
Jin et al. | WOA-AGA algorithm design for robot path planning | |
Cheng et al. | A novel decision-making method based on reinforcement learning for underwater robots | |
CN117193378B (zh) | 基于改进ppo算法的多无人机路径规划方法 | |
CN113589810B (zh) | 智能体动态自主避障运动方法、装置、服务器及存储介质 | |
CN117826848A (zh) | 一种基于离散ppo的潜航器节能路径跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |