CN115993831B - 基于深度强化学习的机器人无目标网络的路径规划方法 - Google Patents

基于深度强化学习的机器人无目标网络的路径规划方法 Download PDF

Info

Publication number
CN115993831B
CN115993831B CN202310288721.6A CN202310288721A CN115993831B CN 115993831 B CN115993831 B CN 115993831B CN 202310288721 A CN202310288721 A CN 202310288721A CN 115993831 B CN115993831 B CN 115993831B
Authority
CN
China
Prior art keywords
network
reinforcement learning
robot
training
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310288721.6A
Other languages
English (en)
Other versions
CN115993831A (zh
Inventor
曹亚楠
赵冬
曹翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202310288721.6A priority Critical patent/CN115993831B/zh
Publication of CN115993831A publication Critical patent/CN115993831A/zh
Application granted granted Critical
Publication of CN115993831B publication Critical patent/CN115993831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了基于深度强化学习的机器人无目标网络的路径规划方法,包括:以dueling deep Q‑network为骨干网络构建机器人路径规划模型;使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态
Figure ZY_1
的方式选择动作平衡智能体训练过程中的探索‑利用频次;删除网络中的目标网络并使用mellow算子作为最大化算子进行网络的更新;使用gym自定义动态环境进行网络的训练并得到网络权重模型,采用训练好的模型进行机器人无目标网络的路径规划。可以节省网络训练过程中的时间,有效降低训练过程中内存占用率,能够使现有深度强化学习保持在线强化学习的准则。

Description

基于深度强化学习的机器人无目标网络的路径规划方法
技术领域
本发明属于智能体路径规划技术领域,具体涉及基于深度强化学习的机器人无目标网络的路径规划方法。
背景技术
随着近些年人工智能技术的快速发展,从遥控潜水器(ROVS)到无人机(UAVs),路径规划成为研究的重要课题之一。通过指定目标位置或使用传感器而不告知智能体其他环境信息,使其找到一条不碰撞障碍物并能最短到达目标点的路径。传统的路径规划算法在面对动态环境时的实时计算时间开销是巨大的。这些方法很难推广到未知情况。为此,需要使用新的框架解决传统路径规划中的巨大时间开销和面对动态环境时难以解决的问题。
尽管在网络模型中添加不同方法和模块来更好地完成工作是不断改进的方向,但已有的工作表明,深度强化学习具有很强的脆弱性和敏感性。深度 RL 算法的大部分脆弱性归因于深度神经网络在 RL 任务中应用的预测问题的非平稳性。在
Figure SMS_1
中目标网络的使用增加了网络更新过程中的稳定性,但却使其偏离了强化学习的马尔科夫性质。
强化学习通过让智能体在环境中不断探索并获得回报,来逐渐优化策略。强化学习满足马尔科夫性质,即未来收益仅取决于当前状态,而和过去的状态无关。在Q-learing中,智能体以最小化预测动作价值函数
Figure SMS_2
和目标函数/>
Figure SMS_3
之间的距离为更新目标,其中/>
Figure SMS_4
定义为:
Figure SMS_6
。在t时刻和环境st下智能体从动作空间A中选择动作at并执行,根据状态转移矩阵P转移到新的状态/>
Figure SMS_9
,并获得回报/>
Figure SMS_11
,/>
Figure SMS_7
代表折扣因子,/>
Figure SMS_8
。定义为一个/>
Figure SMS_10
。采用时序差分的办法,在智能体模拟运行上述一个transition后,用得到的数据近似代替目标/>
Figure SMS_12
为/>
Figure SMS_5
。强化学习中智能体必须解决一系列类似的预测任务,它们会迭代地提高其价值函数的准确性和策略。在传统强化学习Q-Learning中,采用一张表格保存每一个状态动作价值Q-Value值。当状态空间连续,采用映射到离散状态空间的方式将造成极大的开销和内存占用。Deep Q-Network使用非线性函数逼近---带有参数θ的深度网络拟合Q表格。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供基于深度强化学习的机器人无目标网络的路径规划方法,为基于深度强化学习中智能体路径规划问题提供了不使用目标网络,得到更为平滑的路径的算法,在删除目标网络后可行的最大化算子,并且得到的路径轨迹相对平滑,可以节省网络训练过程中的时间,有效降低训练过程中内存占用率,能够使现有深度强化学习保持在线强化学习的准则。
为实现上述技术目的,本发明采取的技术方案为:
基于深度强化学习的机器人无目标网络的路径规划方法,包括:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态
Figure SMS_13
的方式选择动作平衡智能体训练过程中的探索-利用频次;
步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1使用dueling deep Q-network作为模型中的骨干网络,具体包括:
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
上述的步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
上述的步骤2使用动态
Figure SMS_14
的方式选择动作平衡智能体训练过程中的探索-利用频次的公式为:
Figure SMS_15
其中,t表示当前轮数,δ表示偏移量,x表示随环境变化的变量;
训练开始时,
Figure SMS_16
较小,智能体会有更多的机会去探索,随着训练回合的增加,/>
Figure SMS_17
逐渐增大,智能体将更有概率选择最优动作。
上述的步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
上述的步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
上述的自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
上述的使用gym自定义动态环境还包括:
动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。
本发明具有以下有益效果:
本发明中删除目标网络,并基于深度强化学习提出了一种融合dueling network、优先经验回放和mellow operator的算法,减少网络的过估计,并提出了一种新的动态
Figure SMS_18
方法进行动作选择。实现了端到端的模型,用以解决路径规划收敛缓慢,路径不平滑等问题。本发明提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法,使得到的轨迹趋于平滑,相比于传统的智能体路径规划方法,本发明不依赖于目标网路即可以正常工作,能够处理动态环境下任务,针对不同的障碍物、目标点具有较强的鲁棒性,具体包括:
1、本发明使用dueling deep Q-network作为模型中的骨干网络,增加智能体对于环境的感知程度,获取更优的最终网络模型,可提升模型的最终训练效果,针对某些环境采取更平滑的动作;
2、本发明在网络训练时使用优先经验回放代替原本的经验回放,实现对于更重要样本的抽取,并保证TD-error值为0的情况下也有被抽取到的概率,可更大概率抽取到有学习价值的样本,提升网络学习效率;
3、本发明删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,提供了另一种不依赖于目标网络进行深度强化学习的方案,加快收敛速度,节省内存开销;
4、本发明使用gym自定义动态环境进行网络的训练并得到网络权重模型,可模拟真实环境设计惩罚函数,使得到的网络模型能有效应用于真实环境中。
附图说明
图1 为本发明基于无目标网络的深度强化学习路径规划方法的一种可选的流程图;
图2为路径规划随机产生地图示例;
图3为未使用目标网络的mellow算子和使用目标网络的max 算子的对比结果;
图4为不同参数w下的实施例对比结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
基于深度强化学习的机器人无目标网络的路径规划方法,相比于传统的智能体路径规划方法,不依赖于目标网路即可以正常工作,能够处理动态环境下任务,针对不同的障碍物、目标点具有较强的鲁棒性。具体来说,图1示出该方法的一种可选的流程图,如图1所示,该方法包括如下步骤:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态
Figure SMS_19
的方式选择动作平衡智能体训练过程中的探索-利用频次;
在网络训练时使用优先经验回放代替原本的经验回放;
使用动态
Figure SMS_20
的方式选择动作平衡智能体训练过程中的探索-利用频次;
步骤3、删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
其有益效果是,提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法,使得到的轨迹趋于平滑。
本专利算法的伪代码过程如下:
input: minibatch
Figure SMS_21
,network parameter/>
Figure SMS_22
,experience replay memory
Figure SMS_23
for episode ito
Figure SMS_24
do
Initialize sequence
Figure SMS_25
and preprocess/>
Figure SMS_26
for
Figure SMS_27
to/>
Figure SMS_28
do
with probability
Figure SMS_29
select action/>
Figure SMS_30
otherwise select
Figure SMS_31
take action
Figure SMS_32
observe
Figure SMS_33
store transition
Figure SMS_34
in/>
Figure SMS_35
for
Figure SMS_36
do
sample transition
Figure SMS_37
compute TD-error;
update transition priority ;
accumulate weight-change
Figure SMS_38
;/>
update weight
Figure SMS_39
end
set
Figure SMS_40
end
Figure SMS_41
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算该状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
在实施例中,具体地,更改网络分别输出在状态S下选择动作a的状态-动作价值函数
Figure SMS_42
,和状态s下选择策略/>
Figure SMS_43
的期望回报值/>
Figure SMS_44
使用两者之差
Figure SMS_45
代表在状态s下采用策略/>
Figure SMS_46
选择动作a的优势。
最终,其中一路输出状态值
Figure SMS_47
,另一路输出动作优势/>
Figure SMS_48
,其中θ表示对输入层等网络进行特征处理的参数;
a和β分别是两个输出流的参数。
并使用更改后的状态-动作价值函数最终输出
Figure SMS_49
,其中/>
Figure SMS_50
表示状态s下可能采取动作。
基于以上,增加智能体对于环境的感知程度,获取更优的最终网络模型。
其有益效果是,提升模型的最终训练效果,针对某些环境采取更平滑的动作。
在实施例中,所述步骤2在网络训练时使用优先经验回放代替原本的经验回放,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
进一步地,优先经验回放选择样本训练,包括:
Figure SMS_51
中网络更新公式为:/>
Figure SMS_52
,其中st表示t时刻的状态,at表示t时刻下选择的动作,/>
Figure SMS_53
表示得到的立即奖赏,/>
Figure SMS_54
表示折扣率。
其中TD-error定义为:
Figure SMS_55
优化的目标就是尽可能减少此项的值,让Q函数更接近目标函数。如果此项值较大的话,那么更应该从buffer中选取该条经验值。
但一味学习TD-error较大的情况可能会降低网络泛化能力,同时也要保证即使TD-error值很小的样本也有概率被抽取到。
采用P(i)来表示第i条transition的优先值:
Figure SMS_56
其中指数
Figure SMS_57
决定了优先级的使用程度,pi = 1/ rank(i)。/>
对于优先级,采用基于等级的优先级排序,用rank(i)来表示重放内存根据
Figure SMS_58
排序时第i个样本的等级。
在这种情况下,P(i)成为指数为
Figure SMS_59
的幂律分布。
这是一种间接的方案,对异常值不敏感。
基于以上实现对于更重要样本的抽取,并保证TD-error值为0的情况下也有被抽取到的概率。
其有益效果是,更大概率抽取到有学习价值的样本,提升网络学习效率。
进一步地,使用动态
Figure SMS_60
方法选择动作,包括:该动态/>
Figure SMS_61
方法表示为:
Figure SMS_62
其中t表示当前轮数,
Figure SMS_63
表示偏移量,x表示随环境变化的变量。
训练开始时,
Figure SMS_64
较小,智能体会有更多的机会去探索,随着训练回合的增加,/>
Figure SMS_65
逐渐增大,智能体将更有概率选择最优动作。
相比于传统的方法更好地解决了探索-利用困境。
在实施例中,所述步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
其有益效果是,提供了另一种不依赖于目标网络进行深度强化学习的方案,加快收敛速度,节省内存开销。
进一步地,删除目标网络并使用mellow算子作为最大化算子进行网络更新,包括:
删除强化学习网络中目标网络,仅使用一个网络进行更新,并且使用一种可以代替max算子的mellow算子,表示为:
Figure SMS_66
其中w是大于0的参数。
对于任意的w>0,mellow(x)是一个凸函数。
对于任意的w>0,和x,mellow(x)是一个非递减函数。并且可以通过改变x的值可以降低高估的幅度。缓解了强化学习中一直存在的高估问题。
在实施例中,所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
基于以上各步骤,使所得到的网络模型应用于实际情况时具有较强的鲁棒性。
其有益效果是,模拟真实环境设计惩罚函数,使得到的网络模型能有效应用于真实环境中。
在实施例中,所述自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
在动作和状态中添加了加性白色高斯噪声。
其有益效果是,使智能体尽量避免碰撞障碍物的风险,并找到到达目标点的有效路径。
进一步地,使用gym自定义动态环境进行网络的训练并得到网络权重模型。包括:为了模仿真实的情况,没有使用状态环境简单的栅格地图。如图2所示随机产生的一次地图中,白色方块代表障碍物,两圆点分别代表终点,并且智能体拥有5个探测器。在每个回合开始时,障碍物、目标位置和智能体都会随机改变位置。动作空间由前进加上左右方向三个离散的动作组成。另外在动作和状态中添加了加性白色高斯噪声。
具体地,定义碰到障碍物或者四周墙壁获得-200的惩罚,并终止当前回合。在智能体到达目标点时获得200的奖励。在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚,以加速收敛。最终训练结果如图3所示,并和使用目标网络的max算子进行对比。
具体地,如图4所示,分别使用不同参数的δ进行模型训练,可以看出本发明对于该参数在可接受的训练时长内都可以完成收敛,并没有因为参数δ的不同而收敛于不同值,采用不同参数智能体都可以找到近似最优路径,说明了该算法具有良好的鲁棒性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,包括:
步骤1、以深度强化学习网络dueling deep Q-network为骨干网络构建机器人路径规划模型;
步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次;
使用动态ε-greedy的方式选择动作平衡智能体训练过程中的探索-利用频次的公式为:
Figure FDA0004218214630000011
其中,t表示当前轮数,δ表示偏移量,x表示随环境变化的变量;
训练开始时,ε较小,智能体会有更多的机会去探索,随着训练回合的增加,ε逐渐增大,智能体将更有概率选择最优动作;
步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;
所述mellow算子,表示为:
Figure FDA0004218214630000012
其中w是大于0的参数;
步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
2.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤1使用dueling deep Q-network作为模型中的骨干网络,具体包括:
将dueling deep Q-network的网络输出端改为状态-动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态-动作价值函数作为最终输出。
3.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:
计算每一个存入经验回放池中样本的TD-error,通过TD-error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
4.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:
删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
5.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:
自定义智能体的奖惩函数;
设置训练智能体的最大回合;
设置每一个回合的最大的步骤;
定义每一个回合开始时智能体、目标点、障碍物随机生成位置;
定义智能体的5个传感器。
6.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述自定义智能体的奖惩函数,包括:
定义智能体碰到障碍物或者边界受到-200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
7.根据权利要求5所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述使用gym自定义动态环境还包括:
动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。
CN202310288721.6A 2023-03-23 2023-03-23 基于深度强化学习的机器人无目标网络的路径规划方法 Active CN115993831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310288721.6A CN115993831B (zh) 2023-03-23 2023-03-23 基于深度强化学习的机器人无目标网络的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310288721.6A CN115993831B (zh) 2023-03-23 2023-03-23 基于深度强化学习的机器人无目标网络的路径规划方法

Publications (2)

Publication Number Publication Date
CN115993831A CN115993831A (zh) 2023-04-21
CN115993831B true CN115993831B (zh) 2023-06-09

Family

ID=85993819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310288721.6A Active CN115993831B (zh) 2023-03-23 2023-03-23 基于深度强化学习的机器人无目标网络的路径规划方法

Country Status (1)

Country Link
CN (1) CN115993831B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187611B (zh) * 2023-04-25 2023-07-25 南方科技大学 一种多智能体路径规划方法及终端
CN117193378B (zh) * 2023-10-24 2024-04-12 安徽大学 基于改进ppo算法的多无人机路径规划方法
CN117313826B (zh) * 2023-11-30 2024-02-23 安徽大学 一种基于强化学习的任意角度倒立摆模型训练方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754085A (zh) * 2019-01-09 2019-05-14 中国人民解放军国防科技大学 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质
CN109828570A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种自适应边界层水面无人艇控制导引方法
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法
WO2020119481A1 (zh) * 2018-12-11 2020-06-18 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、系统及电子设备
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114859911A (zh) * 2022-04-28 2022-08-05 云南红岭云科技股份有限公司 一种基于drl的四足机器人路径规划方法
CN114967721A (zh) * 2022-06-08 2022-08-30 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105029B (zh) * 2018-10-29 2024-04-16 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119481A1 (zh) * 2018-12-11 2020-06-18 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、系统及电子设备
CN109754085A (zh) * 2019-01-09 2019-05-14 中国人民解放军国防科技大学 基于深度强化学习的大规模网络瓦解方法、存储装置以及存储介质
CN109828570A (zh) * 2019-02-18 2019-05-31 哈尔滨工程大学 一种自适应边界层水面无人艇控制导引方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法
CN112904848A (zh) * 2021-01-18 2021-06-04 长沙理工大学 一种基于深度强化学习的移动机器人路径规划方法
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法
CN113159432A (zh) * 2021-04-28 2021-07-23 杭州电子科技大学 一种基于深度强化学习的多智能体路径规划方法
CN113467481A (zh) * 2021-08-11 2021-10-01 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114859911A (zh) * 2022-04-28 2022-08-05 云南红岭云科技股份有限公司 一种基于drl的四足机器人路径规划方法
CN114967721A (zh) * 2022-06-08 2022-08-30 西北工业大学 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法

Also Published As

Publication number Publication date
CN115993831A (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN115993831B (zh) 基于深度强化学习的机器人无目标网络的路径规划方法
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN111142522B (zh) 一种分层强化学习的智能体控制方法
CN112132263A (zh) 一种基于强化学习的多智能体自主导航方法
CN113159432A (zh) 一种基于深度强化学习的多智能体路径规划方法
CN109143852B (zh) 城市环境下智能驾驶车辆环境自适应汇入方法
CN113298260B (zh) 一种基于深度强化学习的对抗仿真推演方法
Huang et al. Deductive reinforcement learning for visual autonomous urban driving navigation
CN110181508A (zh) 水下机器人三维航路规划方法及系统
CN114895707B (zh) 基于变频蝙蝠算法的农业无人机路径规划方法及系统
CN112550314A (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN111665861A (zh) 一种轨迹跟踪控制方法、装置、设备和存储介质
CN113281999A (zh) 一种基于强化学习和迁移学习的无人机自主飞行训练方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
Yu et al. Hierarchical reinforcement learning combined with motion primitives for automated overtaking
CN116360454A (zh) 行人环境下基于深度强化学习的机器人路径避碰规划方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN116243727A (zh) 一种渐进式深度强化学习的无人载具对抗与避障方法
Zhou et al. SA-SGAN: A Vehicle Trajectory Prediction Model Based on Generative Adversarial Networks
Jin et al. WOA-AGA algorithm design for robot path planning
Cheng et al. A novel decision-making method based on reinforcement learning for underwater robots
CN117193378B (zh) 基于改进ppo算法的多无人机路径规划方法
CN113589810B (zh) 智能体动态自主避障运动方法、装置、服务器及存储介质
CN117826848A (zh) 一种基于离散ppo的潜航器节能路径跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant