CN105690392B - 基于行动者‑评论家方法的机器人运动控制方法和装置 - Google Patents

基于行动者‑评论家方法的机器人运动控制方法和装置 Download PDF

Info

Publication number
CN105690392B
CN105690392B CN201610232236.7A CN201610232236A CN105690392B CN 105690392 B CN105690392 B CN 105690392B CN 201610232236 A CN201610232236 A CN 201610232236A CN 105690392 B CN105690392 B CN 105690392B
Authority
CN
China
Prior art keywords
robot
approximate
value
parameter
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610232236.7A
Other languages
English (en)
Other versions
CN105690392A (zh
Inventor
刘全
许丹
朱斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610232236.7A priority Critical patent/CN105690392B/zh
Publication of CN105690392A publication Critical patent/CN105690392A/zh
Application granted granted Critical
Publication of CN105690392B publication Critical patent/CN105690392B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Abstract

本发明公开了一种基于行动者‑评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状态迁移;计算离策略因子;更新近似平均奖赏值与近似平均平方奖赏值;计算当前的平均奖赏时间差分与平均平方奖赏时间差分;进行近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;进行近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;状态动作更替。重复以上步骤,直到策略参数收敛,实现机器人的运动控制。本发明实现了机器人的智能运动控制,控制结果稳定。

Description

基于行动者-评论家方法的机器人运动控制方法和装置
技术领域
本发明涉及一种机器人运动控制方法,属于机器学习领域,具体涉及一种方差相关的离策略行动者-评论家控制方法及装置。
背景技术
随着机器人研究的进展,如何对机器人的运动进行智能控制成为机器人进一步发展的一个关键技术问题。现有技术中,对机器人的运动控制包括人为控制和自动控制。
例如,中国发明专利申请CN105313129A公开了一种基于视频的机器人行走运动控制方法,机器人摄像头采集视频画面,在移动终端(PAD或手机)上查看机器人视频画面,通过手指在移动终端视频画面上进行滑动损伤,操控机器人的行走运动。该技术方案属于人为控制,虽然通过摄像头画面可以实现非可视距离内的控制,但并不能实现智能控制。
中国发明专利申请CN105487541A公开了一种配送机器人及其控制方法,在配送机器人的控制器中存储目标区域的导航地图,所述导航地图用于记录所述目标区域内的目标地点名称以及到达所述目标地点名称的导航路径,控制器在接收到包括所述目标地点名称的控制指令时,控制所述配送机器人沿所述目标地点名称的导航路径移动;移动时,控制器控制激光器进行实时扫描,激光器在扫描出配送机器人前方存在障碍物时,将所述障碍物的实时距离发送至所述控制器,所述控制器在检测出所述实时距离小于预设阈值时控制所述配送机器人停止移动。该技术方案可以实现机器人的自动控制,但是其智能性差,机器人只能根据预设的导航地图运动,当环境发生变化,预设路径上出现障碍物时,机器人只能停止移动,等待障碍物消失或者接收到新的导航路径,而不能自行寻找新的运动路径。
如果能够在给定目的地之后,机器人通过自我学习获得到达目的地的较快速的路径,对于机器人技术的发展将起到极大的推动作用。
作为机器学习的一个分支,强化学习通过不断地与环境进行交互以达到最大化目标函数的目的。在强化学习中目标函数有很多种形式,例如平均奖赏、长期累积回报等等。然而在风险敏感领域中,特别是过程控制领域,除了要考虑最大化目标函数,还要将解决问题的过程中可能出现的风险控制在可接受范围之内。因此,在解决风险敏感的强化学习问题时,应该将风险控制与传统的目标函数相结合,以达到共同控制的目的。方差可以作为风险的一种形式化表示方法,将方差相关的标准加入到目标函数中可以实现风险控制与目标函数相结合的目的。方差相关标准运用到强化学习框架中会使得方法复杂度大大提升,计算困难度增加。目前一种比较有效的降低复杂度的方法是运用策略梯度方法得到问题的局部最优解而非全局最优解。
策略梯度方法是强化学习中一类重要的方法,它直接通过策略参数来学习策略,其中策略参数根据目标函数的梯度方向不断地进行更新。行动者-评论家(AC)方法作为策略梯度方法中一类特殊方法,它不仅依靠策略参数,还需要依赖值函数进行策略的更新。AC方法因其良好的兼容性和高效性而被广泛应用于各种强化学习方法中。2012年提出的离策略AC方法是对以往AC方法的一个扩充。离策略的意思是智能体学习的策略(也就是评估策略)与智能体实际执行的策略(也就是行为策略)是两种独立的策略。离策略的机制可以有效地解决强化学习中探索与利用的平衡问题。
目前在强化学习中已经有一些基于策略梯度的方差相关方法。Tamar等人在2012年提出了两个带方差相关风险评估标准的策略梯度方法,并且证明了方法的收敛性。Prashanth和Ghavamzadeh在2013年提出了一种基于马尔科夫决策过程(MDP)模型的方差相关的在策略AC方法。然而对于近几年才提出的离策略AC方法,目前还没有关于其方差相关性方面的研究。
因此,如何将离策略AC方法与方差相关风险评估标准相结合,并应用于机器人,是机器人控制中的一个急需解决的问题。
发明内容
本发明的发明目的是提供一种基于行动者-评论家方法的机器人运动控制方法和装置,通过对控制问题中方差的有效控制,使得控制性能更稳定,收敛结果更好,以获得更高的平均奖赏,并实现对机器人运动路径的快速选择。
为达到上述发明目的,本发明采用的技术方案是:一种基于行动者-评论家方法的机器人运动控制方法,其特征在于,包括以下步骤:
(1)通过摄像头采集视频数据,对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;
(2)对通过视频数据的分析获得地图,以机器人所在的位置作为机器人的状态x,机器人的运动方向作为动作u
(3)状态迁移:在当前状态x下选择对应的当前动作u,执行当前动作u得到相应奖赏r并且迁移到下一状态x’,再根据行为策略选择下一状态x’对应的下一动作u’;其中,行为策略初始状态采用完全随机策略,任一状态下所有动作的选择概率均相等且和为1;
(4)计算离策略因子:根据评估策略与行为策略计算得到离策略因子,其中,为基函数,为策略参数,U为动作的集合;
(5)更新平均值:根据当前时间步下所得到的奖赏r更新近似平均奖赏值与近似平均平方奖赏值
(6)计算时间差分:根据步骤一中得到的迁移知识,计算当前的平均奖赏时间差分与平均平方奖赏时间差分
(7)更新评论家:根据步骤(3)至步骤(6)中学习到的信息,进行评论家部分的迭代更新,包括近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;
(8)更新行动者:根据步骤(3)至步骤(7)中学习到的信息,进行行动者部分的迭代更新,包括近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;
(9)状态动作更替:重设当前状态x的值为原下一状态x’,当前动作u的值为原下一动作u’,重复步骤(3)至步骤(9),直到策略参数收敛,完成机器人的学习过程;
(10)根据机器人学习过程确定的到达目的地的运动策略,实现机器人的运动控制。
上述技术方案中,步骤(2)中,状态值是离散的或者连续的,动作值是离散的。所述步骤(4)中,因为加入离策略因子,使得原本基于行为策略的有偏估计变成无偏估计。所述步骤(5)中,采用迭代的方式更新近似平均奖赏与近似平均平方奖赏,所得的近似平均奖赏与近似平均平方奖赏分别是从开始时间步到当前时间步所得到的奖赏的平均值与平方的平均值。用这两个平均值来近似表示真实的平均值,随着时间步数的不断增加,这两个平均值将越来越接近真实的平均值。所述步骤(6)中,利用时间差分来评估当前更新得到的新策略较更新之前的策略相比是变得更好还是更差。因此时间差分被定义成当前状态动作对的值与之前时间步该状态动作对的值的差。如果该差值为正,表示当前更新有利于策略向更好的方向发展,应该有效利用该更新。相反,如果该差值为负,表示当前更新使得策略向不好的方向发展,不利于策略的改进,所以应该抑制该更新。所述步骤(7)中,评论家部分的更新主要是更新近似值函数和近似平方值函数所依赖的两组值函数参数的值。当更新这两个参数的值后,相应的近似值函数与近似平方值函数就得以更新,于是整个评论者部分就得到更新。这里采用迭代方式,沿着值函数梯度方向更新参数值。所述步骤(9)中,状态更替的目的是使原采样得到的下一状态动作对在下一轮新的迭代过程中变成当前状态动作对,在此状态动作对下进行新的采样,以此来实现方法的在线实时学习特性。
上述技术方案中,步骤(5)中,近似平均奖赏值,近似平均平方奖赏值,其中,t是当前时间步。
步骤(6)中,近似平均奖赏的时间差分,近似平均平方奖赏的时间差分,其中,是近似值函数,是近似平方值函数,是折扣因子,
其中,值函数的计算采用线性函数近似的方式,
其中,分别是近似值函数参数与近似平方值函数参数。
步骤(7)中,采用梯度下降方法更新参数值,更新形式为,
其中,分别是两组参数更新时的步长参数。
步骤(8)中,近似平均奖赏的梯度,近似平均平方奖赏的梯度,策略参数,其中根据采用的方差风险标准确定。
优选的技术方案,方差风险标准采用,其中是惩罚因子,。优选地,<0.1,更优选地,≤0.01。
为实现本发明的另一发明目的,提供一种基于行动者-评论家方法的机器人运动控制装置,机器人装配有摄像头和控制器,与机器人配合设有后台数据处理器,机器人中的控制器经无线网络与所述后台数据处理器连接,所述摄像头的输出信号连接至所述控制器,所述控制器中设有视频数据预处理模块,所述后台数据处理器中设有基于上述基于行动者-评论家方法的机器人运动控制方法的控制模块。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1、本发明采用摄像头获得的视频信号获取机器人当前位置、目的地信息及障碍物信息,利用机器学习的方法获得优选的机器人行动路径,实现了机器人的智能运动控制;
2、通过将方差的计算加入到传统的强化学习目标函数中,可以在最优化传统目标函数的同时有效控制方差在一定可接受的范围内,从而使得控制结果更稳定,方法收敛效果更好,方差更小。
附图说明
图1为本发明实施例的系统工作流程图;
图2为实施例中采用弹球模型的示意图;
图3为实施例与对比各方法累积奖赏概率分布图;
图4为各方法每个情节执行总步数概率分布图;
图5为本发明实施例的装置示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:一种机器人运动控制方法,通过摄像头采集视频数据,对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;对通过视频数据的分析获得地图,以机器人所在的位置作为机器人的状态x,机器人的运动方向作为动作u;如图1所示,具体的控制方法包括学习过程和运动控制。
所述学习过程包括以下步骤:
1 状态迁移
根据环境模型进行机器人状态的迁移,再依据行为策略选择新状态下应该执行的动作。行为策略采用完全随机策略,即任一状态下所有动作的选择概率均相等且和为1。
2 计算离策略因子
离策略因子,其中是评估策略,是行为策略。该行为策略即为步骤1中所述的行为策略。本发明中所采用的评估策略的形式为:,即用基函数与策略参数的内积值表示动作值,评估策略即为这一分式,分子为自然对数底的动作值次方,分母为分子对于所有动作的和。该评估策略满足在任意状态动作对处对策略参数是连续可导的,因此可以保证在任意状态动作对处梯度存在。
3 更新平均值
本发明中有两个近似平均值,一个是近似平均奖赏值,一个是近似平均平方奖赏值。用公式表示则为,其中是是当前时间步,就是当前获得的奖赏值。
4 计算时间差分
本发明中需要计算两个时间差分,分别是近似平均奖赏的时间差分与近似平均平方奖赏的时间差分,具体计算公式可以采用如下公式。具体形式为,其中是近似值函数,是近似平方值函数,是一个折扣因子。值函数的计算采用线性函数近似的方式,也就是计算特征值与值函数参数的内积,即为该状态动作对的值。本发明中所用的近似线性函数如下:
其中分别是近似值函数参数与近似平方值函数参数。这里采用的是伴随特征值,即基函数减去所有动作的基函数与动作概率乘积的和,使用伴随特征值的好处是可以得到无偏近似。
5 更新评论家
本发明采用梯度下降方法更新参数值。如上所述,由于采用的是线性函数近似,所以值函数的梯度就是伴随特征值,于是参数更新形式为
其中分别是两组参数更新时的步长参数。这种迭代式的更新可以实时的更新值函数参数值,因此本发明可以实现方法的在线实时学习。
6 更新行动者
这一步骤中最核心的操作就是更新策略参数。本发明采用的更新方式是,其中与具体采用的方差相关风险标准有关。当采用标准时,其中是惩罚因子,则
7 状态动作更替
该步骤最主要的目的是不断地更替状态动作对,使迭代一直进行下去,直到参数收敛。在强化学习中,参数收敛是指前后两轮更新后的参数值完全相同或者变化不大。
完成学习过程中,采用学习过程确定的参数进行运动控制。
为了说明方差相关的离策略行动者-评论家机器人控制方法的效果,选择弹球仿真模拟实验。图2为弹球示意图。弹球实验的目标是控制球进入右上角的洞中,中间多边形即为障碍物。当球撞击障碍物或边界时会发生弹性形变,所以可以选择避开这些障碍物,也可以选择利用障碍物的弹性形变加快到达目标的过程。弹球问题由于撞击时的弹性形变使得其状态发生剧烈变化,所以它比一般的控制问题更加复杂,也更具挑战性。因此以此仿真实验来进行比较,更能体现方法的优越性。
图3为本方法(VOPAC)与其他方法累积奖赏的概率分布图,横坐标为每个情节结束时的累积奖赏值,纵坐标为累积奖赏值的概率。曲线越窄越高表示累积奖赏值越集中在该范围,该方法的方差越小,控制越稳定。从该图可以直观地看出本方法的累积奖赏值更集中,也就是方差最小,控制效果最好。
图4为本方法与其他方法的每个情节执行总步数的概率分布图,横坐标为每个情节结束时的总时间步数,纵坐标为时间步数的概率。曲线越窄越高表示时间步数越集中在该范围,该方法的方差越小,控制越稳定。从该图也可以直观地看出本方法的总步数比其他方法小,步数值也更加集中,即方差更小。
表1具体给出了各方法的最少步数,平均步数,最大步数与方差值,其中,取0.01。从表1中可以看出本方法的方差比其他方法小很多,这与图1与图2的直观结果相一致。
表1 各方法方差对比图
方法 最少步数 平均步数 最大步数 方差×104
实施例(VOPAC) 269 912 3623 27.43
Off-PAC 224 1369 4878 71.23
OPGTD2(λ) 240 1205 4036 69.36
SARSA 552 1944 5000 103.56
图5为本发明的装置图。机器人装配一个摄像头和TMS320C6670芯片,该芯片可以将摄像头采集的视频数据进行预处理后得到当前机器人的位置信息,然后将此位置信息通过无线以太网传输到后台数据处理器,数据处理器通过本发明提出的方差相关离策略AC方法对位置信息进行处理计算得到动作控制信息,然后将动作控制信息传回给处理芯片,控制机器人的运行。
为进一步确定本发明的效果,在学习完成后,利用固定策略控制机器人的运动,确定机器人到达目的地分别需要的平均步数。本发明与对比方法的平均步数如下:
本实施例 801.4
Off-PAC 1242.4
OPGTD2(λ) 1125.2
SARSA 1747.8
在本发明的方法中,改变不同的μ值得到的结果:
VOPAC 最少步数 平均步数 最大步数 方差×104
μ=0.01 269 912 3623 27.43
μ=0.001 137 898 2784 27.61
μ=0.0001 269 2765 6828 370.38

Claims (2)

1.一种基于行动者-评论家方法的机器人运动控制方法,其特征在于,包括以下步骤:
(1)通过摄像头采集视频数据,对视频数据进行处理获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;
(2)对通过视频数据的分析获得地图,以机器人所在的位置作为机器人的状态x,机器人的运动方向作为动作u
(3)状态迁移:在当前状态x下选择对应的当前动作u,执行当前动作u得到相应奖赏r并且迁移到下一状态x’,再根据行为策略选择下一状态x’对应的下一动作u’;其中,行为策略初始状态采用完全随机策略,任一状态下所有动作的选择概率均相等且和为1;
(4)计算离策略因子:根据评估策略与行为策略计算得到离策略因子,其中,为基函数,为策略参数,U为动作的集合;
(5)更新平均值:根据当前时间步下所得到的奖赏r更新近似平均奖赏值与近似平均平方奖赏值;其中近似平均奖赏值,近似平均平方奖赏值,式中,t是当前时间步;
(6)计算时间差分:根据步骤一中得到的迁移知识,计算当前的平均奖赏时间差分与平均平方奖赏时间差分;近似平均奖赏的时间差分,近似平均平方奖赏的时间差分,其中,是近似值函数,是近似平方值函数,是折扣因子,;值函数的计算采用线性函数近似的方式,
其中,分别是近似值函数参数与近似平方值函数参数;
(7)更新评论家:根据步骤(3)至步骤(6)中学习到的信息,进行评论家部分的迭代更新,包括近似平均奖赏参数的迭代更新以及近似平均平方奖赏参数的迭代更新;采用梯度下降方法更新参数值,更新形式为,
其中,分别是两组参数更新时的步长参数;
(8)更新行动者:根据步骤(3)至步骤(7)中学习到的信息,进行行动者部分的迭代更新,包括近似平均奖赏的梯度的计算,近似平均平方奖赏的梯度的计算以及策略参数的更新;近似平均奖赏的梯度,近似平均平方奖赏的梯度,策略参数,其中根据采用的方差风险标准确定;方差风险标准采用,其中是惩罚因子,
(9)状态动作更替:重设当前状态x的值为原下一状态x’,当前动作u的值为原下一动作u’,重复步骤(3)至步骤(9),直到策略参数收敛,完成机器人的学习过程;
(10)根据机器人学习过程确定的到达目的地的运动策略,实现机器人的运动控制。
2.一种基于行动者-评论家方法的机器人运动控制装置,其特征在于:机器人装配有摄像头和控制器,与机器人配合设有后台数据处理器,机器人中的控制器经无线网络与所述后台数据处理器连接,其特征在于:所述摄像头的输出信号连接至所述控制器,所述控制器中设有视频数据预处理模块,所述后台数据处理器中设有基于权利要求1中基于行动者-评论家方法的机器人运动控制方法的控制模块。
CN201610232236.7A 2016-04-14 2016-04-14 基于行动者‑评论家方法的机器人运动控制方法和装置 Expired - Fee Related CN105690392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610232236.7A CN105690392B (zh) 2016-04-14 2016-04-14 基于行动者‑评论家方法的机器人运动控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610232236.7A CN105690392B (zh) 2016-04-14 2016-04-14 基于行动者‑评论家方法的机器人运动控制方法和装置

Publications (2)

Publication Number Publication Date
CN105690392A CN105690392A (zh) 2016-06-22
CN105690392B true CN105690392B (zh) 2017-11-28

Family

ID=56216824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610232236.7A Expired - Fee Related CN105690392B (zh) 2016-04-14 2016-04-14 基于行动者‑评论家方法的机器人运动控制方法和装置

Country Status (1)

Country Link
CN (1) CN105690392B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106681322B (zh) * 2016-12-21 2020-03-13 华东师范大学 一种基于形式化描述的地面自主移动机器人安全导航方法
CN107066967B (zh) * 2017-04-12 2020-06-02 清华大学 一种利用局部观测信息的主动人脸寻的方法及装置
CN107341543B (zh) * 2017-06-18 2020-09-29 大连理工大学 一种基于强化学习的小脑模型建模方法
JP6549644B2 (ja) * 2017-06-27 2019-07-24 ファナック株式会社 機械学習装置、ロボット制御システム及び機械学習方法
CN107861061B (zh) * 2017-10-27 2019-11-01 安徽大学 一种数据驱动的感应电机参数在线辨识方法
CN108052004B (zh) * 2017-12-06 2020-11-10 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108594804B (zh) * 2018-03-12 2021-06-18 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108523768B (zh) * 2018-03-12 2020-09-18 苏州大学 基于自适应策略优化的家庭清洁机器人控制系统
CN108762249B (zh) * 2018-04-26 2019-11-08 常熟理工学院 基于近似模型多步优化的清洁机器人最优路径规划方法
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
JP6740290B2 (ja) * 2018-07-17 2020-08-12 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法
CN109299237B (zh) * 2018-09-26 2020-06-16 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN109462839B (zh) * 2018-11-26 2020-07-28 电子科技大学 一种基于自适应调整策略的drx机制通信方法
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统
CN111487864B (zh) * 2020-05-14 2023-04-18 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112192614A (zh) * 2020-10-09 2021-01-08 西南科技大学 一种基于人机合作的核运维机器人轴孔装配方法
CN114872049B (zh) * 2022-05-31 2023-08-29 苏州大学 一种基于环境交互的机器人实时控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US7107107B2 (en) * 2003-01-31 2006-09-12 Matsushita Electric Industrial Co., Ltd. Predictive action decision device and action decision method
CN102521205B (zh) * 2011-11-23 2014-12-10 河海大学常州校区 基于多Agent强化学习的机器人联合搜索方法
CN105137967B (zh) * 2015-07-16 2018-01-19 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105205533B (zh) * 2015-09-29 2018-01-05 华北理工大学 具有脑认知机理的发育自动机及其学习方法

Also Published As

Publication number Publication date
CN105690392A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN105690392B (zh) 基于行动者‑评论家方法的机器人运动控制方法和装置
CN110136481A (zh) 一种基于深度强化学习的停车策略
CN107253195B (zh) 一种运载机器人手臂操控自适应混合学习映射智能控制方法及系统
CN109782600A (zh) 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN104317297A (zh) 一种未知环境下机器人避障方法
CN110389591A (zh) 一种基于dbq算法的路径规划方法
CN107293115A (zh) 一种用于微观仿真的交通流量预测方法
CN109960246A (zh) 动作控制方法及装置
CN109543285A (zh) 一种融合数据驱动与强化学习的人群疏散仿真方法和系统
CN113283169B (zh) 一种基于多头注意力异步强化学习的三维群体探索方法
CN109514553A (zh) 一种机器人移动控制的方法、系统及设备
CN114089752A (zh) 机器人的自主探索方法、机器人及计算机可读存储介质
US11911902B2 (en) Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of SNN
CN114077807A (zh) 基于语义环境图控制移动机器人的计算机实现方法和设备
CN109799829A (zh) 一种基于自组织映射的机器人群体协同主动感知方法
CN114237235A (zh) 一种基于深度强化学习的移动机器人避障方法
Guan et al. Robot formation control based on internet of things technology platform
CN116562332B (zh) 一种人机共融环境下的机器人社交性运动规划方法
CN109447312A (zh) 路线规划方法、装置、电子设备及可读存储介质
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Marta et al. Aligning Human Preferences with Baseline Objectives in Reinforcement Learning
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
CN115494733A (zh) 一种基于gazebo的水下机器人自适应控制方法
CN111596668B (zh) 基于逆向强化学习的移动机器人拟人化路径规划方法
Xiang et al. Rmbench: Benchmarking deep reinforcement learning for robotic manipulator control

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171128

Termination date: 20200414

CF01 Termination of patent right due to non-payment of annual fee